Többváltozós statisztikai módszerek (elektronikus tananyag)
Bolla Marianna, Krámli András, Nagy-György Judit
2
Tartalomjegyzék
1. El®ismeretek 1.: valószín¶sgelmélet 1.1.
Elméleti háttér
9
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.1.1.
Valószín¶ségelméleti alapismeretek . . . . . . . . . . . . .
9
1.1.2.
Feltételes várható érték
. . . . . . . . . . . . . . . . . . .
12
1.1.3.
A normális eloszlásból származtatott eloszlások . . . . . .
15
1.1.4.
Többváltozós ismeretek
. . . . . . . . . . . . . . . . . . .
18
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
1.2.
Feladatok
1.3.
Tesztek
2. El®ismeretek 2.: statisztikai alapok 2.1.
Elméleti háttér
31
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.1.1.
Az egyváltozós statisztika alapfogalmai . . . . . . . . . . .
31
2.1.2.
Becsléselmélet . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.1.3.
Hipotézisvizsgálat
. . . . . . . . . . . . . . . . . . . . . .
45
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
2.2.
Feladatok
2.3.
Tesztek
3. A többdimenziós normális eloszlás, Wishart eloszlás 3.1.
Elméleti háttér
81
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1.
Többdimenziós normális eloszlás
3.1.2.
Wishart eloszlás
81
. . . . . . . . . . . . . .
81
. . . . . . . . . . . . . . . . . . . . . . .
86
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
3.2.
Feladatok
3.3.
Tesztek
4. Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben 99 4.1.
Elméleti háttér
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
4.1.1.
Paraméterbecslés többdimenziós normális modellben . . .
99
4.1.2.
Hipotézisvizsgálat többdimenziós normális modellben
4.2.
Feladatok
4.3.
Tesztek
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5. Lineáris módszerek 1.: f®komponensanalízis, faktoranalízis 5.1.
Elméleti háttér 5.1.1.
. . 101
109
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
F®komponensanalízis . . . . . . . . . . . . . . . . . . . . . 109 3
4
TARTALOMJEGYZÉK
5.1.2.
Faktoranalízis . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2.
Feladatok
5.3.
Tesztek
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6. Lineáris módszerek 2.: regresszióanalízis, a legkisebb négyzetek módszere121 6.1.
Elméleti háttér
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.1.1.
Regresszióanalízis . . . . . . . . . . . . . . . . . . . . . . . 121
6.1.2.
Legkisebb négyzetek módszere
6.2.
Feladatok
6.3.
Tesztek
. . . . . . . . . . . . . . . 123
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7. Lineáris módszerek 3.: Egy- és többszempontos varianciaanalízis135 7.1.
Elméleti háttér
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.1.1.
Egyszempontos varianciaanalízis
7.1.2.
Többszempontos varianciaanalízis interakcióval . . . . . . 140
7.2.
Feladatok
7.3.
Tesztek
. . . . . . . . . . . . . . 135
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8. Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, informác 8.1.
Elméleti háttér
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.1.1.
Diszkriminanciaanalízis
8.1.2.
Korrespondanciaanalízis . . . . . . . . . . . . . . . . . . . 153
8.1.3.
Információelméleti módszerek . . . . . . . . . . . . . . . . 156
8.1.4.
. . . . . . . . . . . . . . . . . . . 147
Az I-vetület numerikus meghatározása
8.2.
Feladatok
8.3.
Tesztek
. . . . . . . . . . 164
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9. Klaszteranalízis, többdimenziós skálázás 9.1.
Elméleti háttér
169
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.1.1.
Klaszteranalízis . . . . . . . . . . . . . . . . . . . . . . . . 169
9.1.2.
Többdimenziós skálázás
9.2.
Feladatok
9.3.
Tesztek
. . . . . . . . . . . . . . . . . . . 172
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
10.Többváltozós küszöbmodellek, logit, probit 10.1. Elméleti háttér 10.2. Feladatok 10.3. Tesztek
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
11.Randomizált módszerek nagyméret¶ problémákra 11.1. Elméleti háttér 11.2. Feladatok 11.3. Tesztek
179
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
181
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5
TARTALOMJEGYZÉK
12.Algoritmikus modellek 12.1. Elméleti háttér
183
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
12.1.1. ACE-algoritmus (általánosított regresszióra) . . . . . . . . 183 12.1.2. Jackknife eljárás
. . . . . . . . . . . . . . . . . . . . . . . 187
12.1.3. Bootstrap eljárás . . . . . . . . . . . . . . . . . . . . . . . 189 12.2. Feladatok
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
12.3. Útmutatások
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
12.4. Végeredmények . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
13.Függelék
195
13.1. Lineáris algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 13.2. Függelék 2: Valószín¶ségelméleti képletgy¶jtemény
. . . . . . . . 201
13.2.1. Kolmogorov axiómái: . . . . . . . . . . . . . . . . . . . . . 201 13.2.2. Szitaformula:
. . . . . . . . . . . . . . . . . . . . . . . . . 201
13.2.3. Események függetlensége, feltételes valószín¶ség . . . . . . 201 13.2.4. Valószín¶ségi változó . . . . . . . . . . . . . . . . . . . . . 202 13.2.5. Valószín¶ségi változó momentumai: . . . . . . . . . . . . . 203 13.2.6. A generátorfüggvény:
. . . . . . . . . . . . . . . . . . . . 204
13.2.7. A karakterisztikus függvény: . . . . . . . . . . . . . . . . . 204 13.2.8. Nevezetes diszkrét eloszlások: . . . . . . . . . . . . . . . . 205 13.2.9. Nevezetes abszolút folytonos eloszlások:
. . . . . . . . . . 205
13.2.10.Sztochasztikus konvergencia, majdnem biztos konvergencia:206 13.2.11.Nevezetes összefüggések
. . . . . . . . . . . . . . . . . . . 207
13.2.12.Spektrálel®állítási tétel . . . . . . . . . . . . . . . . . . . . 207
6
TARTALOMJEGYZÉK
Annotáció Jelen elektronikus tananyag els®sorban alkalmazott matematikus szakos hallgatók számára készült, de mindazok számára hasznos segédanyag, akik valamelyik természettudományi szakot hallgatják, vagy már elvégezték azt, rendelkeznek a középiskolai tanyagot jelent®sen nem meghaladó matematikai m¶veltséggel (a dierenciál- és integrálszámítás elemeivel), munkájuk során szembetalalálják magukat statisztikai problémákkal, és ambícionálják az általuk használt statisztikai programcsomagok mögött álló elmélet alapelveinek megértését.
Bevezetés Jelen elektronikus Tananyag célja a többváltozós statisztikai módszerek bemutatása, illusztrálása statikus ábrákkal és animációkkal, valamint számos a megértést segít® és ellen®rz® feladattal. A többváltozós statisztikai módszereket természetesen nem lehet megérteni a matematikai statisztika alapfogalmainak és a valószín¶ségszámítás elemeinek ismerete nélkül. A tananyag felhsználói munkájának megkönnyítése céljából az el®zetes tudnivalókat függelékben valamint részletes fogalom- és képletgy¶jteményben összefoglaltuk. Az általános statisztikai tudnivalókat is illusztráltuk ábrákkal, és számos e tárgykörbe tartozó feladatot is kit¶ztünk. A Tananyag összeállítása során szembesültünk azzal a ténnyel, hogy olyan látszólag nyilvánvaló fogalomnak mint pl. a marginális eloszlás kett®nél több valószín¶ségi változó együttes eloszlása esetén az egzakt deniciója már reménytelenül bonyolult. Ilyenkor az ábra sem segít: számpéldákkal illusztráltuk a fogalmat. A többváltozós statisztika klasszikus módszereit (ilyenek a regresszióanalízis, a legkisebb négyzetek módszere, a varianciaanalízis és a diszkriminanciaanalízis) együttesen normális (Gauss) eloszlású valószín¶ségi változókra dolgozták ki a XX. század els® felében. Ezek a módszerek er®sen építenek a lineáris algebrának azon eredményeire, amelyek talán látszólagos egyszer¶ségük miatt kisebb hangsúlyt kapnak a matematikai képzésben, pedig a legkiválóbb matematikusok is komoly munkát fektetnek a lineáris algebra modern módszereinek tankönyvekben való feldolgozására; csak egy példa a sok közül: Lax Péter Abel-díjas matematikus rendkívül élvezetes, és számos új matematikai eredményt tartalmazó, magyarul is olvasható könyvet írt e témakörr®l, A Tananyag feladatai között is számos statisztikai eredet¶, a lineáris algebra segítségével megoldható feladat van. Már itt gyelmeztetjük a felhasználót, hogy ezen feladatok megoldásához fejlett térszemléletre van szükség. A modern módszerek (pl. a klaszteranalízis) inkább épülnek a heurisztikára, noha ezek elméleti megalapozásának is nagy és mély matematikai eszköztárat igényl® irodalma van. Éppen emiatt ebben a tárgykörben gyakorlatilag nem lehet vonzó és elemi eszközökkel megoldható feladatokat kit¶zni.
7
TARTALOMJEGYZÉK
Vannak olyan új módszerek, amelyekkel jelen sorok írója nem tud mit kezdeni, ilyen a gyakoriságtáblák közelítése alacsonyabb rangú mátrixokkal (korrespondenciaanalízis), ugyanis a lineáris algebra módszereit mechanikusan alkalmazva negatív valószín¶ségeket is kaphatunk eredményként. Ugyanakkor számos statisztikus sikerrel alkalmazza ezt a módszert, mi sem hagyhattuk ki a Tananyagból. Ezzel szemben a gyakoriságtáblák elemzésének információelméleti módszereit, amelyeknek a kidolgozásában nagy szerepe van a magyar matematikusoknak els®sorban Csiszár Imrének részletesen ismertetjük, és ebben a tárgykörben feladatokat is kit¶zünk. Egy másik általunk csak érintett módszer a rendkívül nagyméret¶ mátrixokkal kapcsolatas (spektrálfelbontási) feladatok véletlen kiválasztással történ® közelítése. Itt az a probléma, hogy kisméret¶ bemutatható példát nem találtunk. Zárszóként két megjegyzés:
1. A statisztika legnevesebb m¶vel®i, Kolmogorovtól a vezet® magyar statisztikusokig egybehangzóan állítják, hogy vakon nem lehet statisztikát csinálni, azaz az adatok kritikus megszemlélése nélkül már értelmes hipotézist sem lehet föltenni. Erre nyújt lehet®séget az ún. többdimenziós skálázás, azaz az adatok optimalis beágyazása lehet®leg minél kisebb dimenziós euklideszi térbe. 2. Bármilyen látványos is egy elektronikus tananyag, csupán a képerny® nézésével és kattintásokkal nem lehet elmélyülni egyetlen tudományágban sem. Az nem várható el egy felhasználótól, hogy az elmélet részleteit megjegyezze, de nem hagyható ki a papírral-ceruzával, ha úgy nem megy kalkulátorral, esetleg formulakezel® programok használatával történ® aktív részvétel a tanulási folyamatban. Végül néhány szó a Tananyag forrásairól. A közvetlen statisztikai ismeretek forrása a két szerz® (Bolla Marianna és Krámli András, A statisztikai következtetések elmélete, Typotex 2005) könyve, valamint az irodalomjegyzékben idézett néhány eredeti folyóiratcikk. Innen csak az alapvet® deníciókat és tételeket vettük át, a hangsúly a feladatokon és az illusztációkon van. A feladatok nagy részét a harmadik szerz® (Nagy-György Judit) t¶zte ki a gyakorlatokon. A teljes ábra- és animacióanyagot is ® készítette. Ezek jelent®s része ma már közkinccsé vált eredményeket ilusztrál, néhány bonyolultabb ábra Bolla Marianna javaslatára készült, az eredeti dolgozatok alapján újraszerkesztve. Az el®szóhoz tartozik két videó is, az els®n látható animáció a GlivenkoCantelli tételt (a matematikai statisztika alaptételét) szemlélteti, a másodikon felrajzolt ábra pedig a MarcsenkoPasztur-tételben szerepl® függvényt ábrázolja.
Szeged, 2012. december 17.
Krámli András
8
TARTALOMJEGYZÉK
1. fejezet
El®ismeretek 1.: valószín¶sgelmélet
1.1.
Elméleti háttér
1.1.1.
Valószín¶ségelméleti alapismeretek
Ebben a paragrafusban a valószín¶ségelméletKolmogorov-féle felépítését ismertetjük, különös kiemelve a feltéles várható érték Kolmogorov-féle denícióját és annak a statisztikában használatos tulajdonságait. Hangsúlyozzuk, hogy a feltételes várható érték (és a feltételes valószín¶ség is) valószín¶ségi változó, amely bizonyos optimum tulajdonsággal rendelkezik. A nem matematikus szakos hallgatóknak elegend® annyit tudni az alábbi absztrakt deníciók nagy részér®l, hogy
léteznek. Az alkalmazó természettudományi hallgatók számára is feltétlenül
tudnivaló deníciókat és állításokat *-gal megjelöljük. Mindenek el®tt vezessük be a valószín¶ségimez® Kolmogorov féle denícióját.
1. Deníció (Kolmogorov-féle (Ω, A, P) valószín¶ségi mez®). (i) Adva van egy nem üres nevezzük, és
ω -val
Ω halmaz (eseménytér), Ω elemeit elemi eseményeknek
jelöljük.
Ω részhalmazainak egy A Ω \ A ∈ A, A ∈ A B ∈ A ⇒ A ∪ B ∈ A.)
(ii) Ki van tüntetve az
(iii)
A σ -algebra,
(iv) minden az (v)
A
azaz
A∈A
.
algebrája
(Ω ∈ A, A ∈ A ⇒
Ak ∈ A (k = 1, 2, . . . ) ⇒ ∪∞ k=1 ∈ A.
eseményhez hozzá van rendelve egy
P(A)
nemnegatív szám,
esemény valószín¶sége.
P(Ω) = 1.
(vi) Ha
Ak ∈ A, páronkent egymást kizáró események, akkor P(∪∞ k=1 ) = 9
∑∞ k=1
P(Ak ).
10
FEJEZET 1.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
2. Állítás (szita-formula*). P(A1 ∪ · · · ∪ An ) =
n ∑
(n)
(−1)k−1 Sk ,
k=1
n≥k
és
(n)
Sk
∑
:=
P(Ai1 ∩ · · · ∩ Aik ).
1≤i1 <···
3. Deníció (események függetlensége*).
Az A1 , . . . , An események páronként 1 ≤ j < k ≤ n párra P(Aj ∩ Ak ) = P(Aj ) · P(Ak ) (illetve minden 1 ≤ k ≤ n egészre és i1 < · · · < ik ε ≤ n idexsorozatra P(Ai1 ∩· · ·∩Aik ) = P(Ai1 )·· · ··P(Aik )). A teljes függtelenség implikálja (illetve teljesen) függetlenek, ha minden
a páronkénti függetlenséget. Fordítva ez nem igaz!
4. Deníció (feltételes valószín¶ség*). P(A|B) := ha
P(A ∩ B) , P(B)
P(B) > 0.
5. Deníció (teljes eseményrendszer*). A1 , . . . , An ∈ A, P(Ai ∩ Aj ) = 0, ha
P(B) > 0.
6. Állítás (Bayes tétele*). 0,
akkor
Ha
A 1 , . . . , An
teljes eseményrendszer és
P(B) >
P(B|Aj ) · P(Aj ) P(Aj |B) = ∑n k=1 P(B|Ak ) · P(Ak )
7. Deníció (valószín¶ségi változó*). valós érték¶ függvény, amelyre
X
Az Ω halmazon értelmezett olyan X(ω) {ω : X(ω) ≤ x} minden valós x-re esemény. Ha
értékkészlete megszámlálható halmaz, akkor diszkrét valószín¶ségi változóról
beszélünk.
8. Deníció (valószín¶ségi változók függetlensége*).
Az X1 , . . . , Xn valószín¶ségi {X1 (ω) ≤ x1 }, . . . , {Xn (ω) ≤ xn } események páronként (illetve teljesen) függetlenek, x1 , . . . , xn minden értékére.
változók páronként (illetve teljesen) függetlenek, ha az
9. Deníció (valószín¶ségi változók eloszlásfüggvénye*). változó eloszlásfüggvénye
FX (x) := P(X ≤ x). FX (x)
Az
X
valószín¶ségi
monoton nemcsökken®,
jobbról folytonos függvény.
lim FX (x) = 0 lim FX (x) = 1.
n→−∞
(i) Diszkrét eset. Ha az akkor eloszlása:
X
n→∞
valószín¶ségi változó értékkészlete
pj := P(xj )
{x0 , x1 , . . . },
1.1.
11
ELMÉLETI HÁTTÉR
(ii) Abszolút folytonos eset. Ha van olyan f (t) függvény amelyre FX (x) = ∫x f (t)dt. Ekkor az f (t) függvényt az X valószín¶ségi változó s¶r¶ségfüg−∞ gvényének nevezzük.
10. Deníció (valószín¶ségi változó momentumai, absztrakt deníció). ∫ Az
X
valószín¶ségi változó várható értéke
E(X) :=
X(ω)dP,
Ω
ha ez az integrál
létezik. Az X valószín¶ségi változó n-edik momentuma (abszolút) monteuma Mn := ∫ n X(ω) dP, (:= Ω |X(ω)|n dP), ha a fenti integrálok léteznek. Ω Ha Ψ(x) tetsz®leges Borel-mérhet® valós függvény (azaz a {x : Ψ(x) ≤ y} ∫ halmaz minden y ∈ R-re Borel-mérhet®), akkor E(Ψ(X)) := Ω Ψ(X(ω))dP. 2 2 2 Az X valószín¶ségi változó D szórásnégyzete D := E[(X − E(X)) ] = 2 2 E(X ) − [E(X)] .
∫
11. Deníció (kovariancia, korreláció, absztrakt deníció). változó,
X
és
Y
Két valószín¶ségi
kovarianciája:
Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))]. Két valószín¶ségi változó,
X
és
Y
korrelációja:
rX,Y :=
Cov(X, Y ) D(X) · D(Y )
12. Deníció (valószín¶ségi változó várható értékének kiszámítása*). (i) Diszkrét eset. Ha az
X
valószín¶ségi változó értékkészlete
{x0 , x1 , . . . },
akkor várhtó értéke:
E(X) :=
∞ ∑
xj P(xj ) =
j=0
∞ ∑
xj pj ,
j=0
amennyiben a fenti sor abszolút konvergens (ii) Abszolút folytonos eset. Ha az
f (t)
X
akkor várhtó értéke:
valószín¶ségi változó s¶r¶ségfüggvénye
∫ E(X) :=
∞
xf (x)dx −∞
amennyiben a fenti integrál létezik. Ha ismerjük a várható érték kiszámítási módját, a magasabb momentumok és szórásnégyzet kiszámítási módja már könnyen adódik: (i)
n-edik
momentum:
(ii) szórásnégyzet:
Mn := E(Mn ),
D := E(X 2 ) − [E(X)]2 . 2
Hasonlóan számítható ki két valószín¶ségi változó kovarianciája és korrelációja. Ez természetesen nem azt jelenti, hogy a tényleges számolás elvégzése is könny¶.
12
FEJEZET 1.
1.1.2.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
Feltételes várható érték
A fent ismertetett valószín¶ségelmélet alapismeretek már elegend®ek a feltételes várható érték fogalmának bevezetéséhez, tulajdonságaik, valamint diszkrét és abszolút folytonos esetben kiszámítási módjuk ismertetéséhez.
13. Deníció (egy σ -algebrára nézve vett feltételes várható érték). Az X valószín¶ségi változónak az A1 ⊆ A σ -algebrára nézve akkor vehet® az X1 := E(X|A1 ) feltételes várható értéke, ha E(X) létezik. X1 -et az alábbi két tulajdonság deniálja. 1.
X1 A1 -mérhet®,
azaz minden valós
x-re {ω : X1 ≤ x} ∈ A1 .
A ∫∈ A1 halmazra E(1A · X) = E(1A · X1 ) vagy másképpen írva XdP = X dP, ahol 1A jelenti az A halmaz indikátorfüggvényét. A 1 A
2. Minden
∫
Bebizonyítható, hogy 1. es 2. feltételek teljesíthet®k, és
X1
majdnem biztosan
egyértelm¶.
14. Megjegyzés.
Ha A1 valamely Y valószín¶ségi változó{Y (ω) ≤ x} x ∈ R nívóhalmazai által generált σ -algebra, akkor van értelme az E(X|Y ) feltételes várható értéknek.
15. Állítás.
Felsoroljuk a feltételes várható érték alapvet® tulajdonságait.
1. A feltételes várható érték vétel lineáris operáció, azaz
E((a · X + b · Y )|A1 ) = a · E(X|A1 ) + b · E(Y |A1 ). 2. Ha az
Y
valószín¶ségi változó
A1 -mérhet®,
akkor
E(Y · X|A1 ) = Y E(X|A1 ). 3. Ha az
X
valószín¶ségi változó független
Y -tól,
akkor
E(X|Y ) = E(X). 4. Toronyszabály:
E(Y ) = E[E(Y |X)]. Y valószín¶ségi f (x) valós füg-
A statisztika egyik alapvet® feladata az ún. regresszió, azaz egy változó egy
X
valószín¶ségi változó valamilyen Borel-mérhet®
gvényével való optimális közelítése (az optimális szó jelentése különböz® esetekben más és más lehet). Az alábbi állítás alapvet® jelent®sg¶ ennek a célnak a megvalósítása szempontjából.
16. Állítás.
x} x ∈ R
Ha létezik
E(Y ) és Y
Borel-mérhet®
t(x)
X valószín¶ségi változó {X(ω) ≤ Ax σ -algebrára, akkor akkor van olyan
mérhet® az
nívóhalmazai által generált
valós függvény, hogy
P(Y (ω)) = t(X(ω)) = 1
1.1.
13
ELMÉLETI HÁTTÉR
A 16. Állítás egy közvetlen alkalmazása a következ®
17. Állítás.
Ha
E(Y 2 ) < ∞, min
t : tA-mérhet®
Y valószín¶ségi E(Y |X).
azaz az éppen
akkor
E(Y − t(X))2 = E(Y − E(Y |X))2 ,
változó legjobb közelítése
X
Borel-mérhet® függvényeivel
Most rátérünk a feltételes eloszlás (diszkrét eset), feltételes s¶r¶ségfüggvény, valamint a feltételes várható érték kiszámítási módjára.
18. Deníció (feltételes eloszlás).
Legyen az X és Y valószín¶ségi változók x1 , . . . , xm , illetve y1 , . . . , yn , együttes eloszlásuk ∑n (pij ), az X , illetve Y perem- (vagy marginális) eloszlásai legyenek pi· = j=1 pij , illetve p·j = ∑m p . Ekkor a feltételes valószín¶ségdeníciója alapján az Y valószín¶ségi ij i=1 változó X = xi melletti feltételes eloszlása: pij pj|i = , j = 1, . . . , n. pi· értékkészlete
19. Deníció (feltételes várható érték, diszkrét eset). az
Y
valószín¶ségi változó
X = xi
E(Y |X = xi ) =
A fenti jelölésekkel
melletti feltételes várható értéke:
n ∑
yj · pj|i =
j=1
n 1 ∑ yj · pij . pi. j=1
20. Megjegyzés. E(Y |X = xi )
Vegyük észre, hogy sem a (pj|i ) feltételes eloszlás, sem az feltételes várható érték nem függ az xi konkrét értékt®l!
21. Deníció (feltételes s¶r¶ségfüggvény).
Legyen f (x, y) az X és Y valószín¶∫∞ f (x, y)dy pedig az X −∞ valószín¶ségi változó perem- (vagy marginális) s¶r¶sége. Az Y valószín¶ségi válségi változók együttes s¶r¶ségfüggvénye,
tozó
X=x
f1 (x) :=
feltétel melletti feltételes s¶r¶sége:
f2|1 (y|x) = lim
∆x→0 ∆y→0
= lim
P(X ∈ [x, x + ∆x), Y ∈ [y, y + ∆y)) = P(X ∈ [x, x + ∆x)) · ∆y P(X ∈ [x, x + ∆x), Y ∈ [y, y + ∆y))
∆x→0 ∆y→0
=
P(Y ∈[x,x+∆x)) ∆x
· ∆x · ∆y
=
(1.1)
f (x, y) . f1 (x)
Most megfogalmazzuk a Bayes-tételnek a statisztikában rendkívül hasznos, abszolút folytonos eloszlásra érvényes alakját.
22. Tétel (Bayes-tétel).
Legyenek
X , Y , f (x, y), f1 (x)
zok, mint a fenti denícióban. Ekkor
f2|1 (y|x)f1 (x) . f (y|x)f1 (x)dx −∞ 2|1
f1|2 (x|y) = ∫ ∞
és
f2|1 (y|x)
ugyana-
14
FEJEZET 1.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
23. Deníció (feltételes várható érték, abszolút folytonos eset). jelölésekkel az
Y
valószín¶ségi változó
X =x
A fenti
feltétel melletti feltételes várható
értéke:
∫
∞
1 E(Y |X = x) = y · f2|1 (y|x)dx = f1 (x) −∞
∫
∞ −∞
y · f (x, y)dy.
(1.2)
E(Y |X = x) feltételes várható érték ellentétben a diszkrét esettel függ t(x). A feltételes várható érték szemléletes jelentése: Az E(Y |X) nem más, mint az Y valószín¶ségi változó integrálközepe az X valószín¶ségi változó nívóhalmazain. Az
az
x
értékt®l; jelölje ezt a függést
Végül deniáljuk a feltételes szórásnégyzetet, kovarianciát, és az ún. parciális korrelációt.
24. Deníció (feltételes szórásnégyzet). les szórásnégyzete az
X
Az
Y
valószín¶ségi változó feltéte-
valószín¶ségi változóra nézve:
D2 (Y |X) := E[Y − E(Y |X)2 |X].
25. Deníció (feltételes kovariancia). les kovarianciája az
X
Az
Y
és
Z
valószín¶ségi változók feltéte-
valószín¶ségi változóra nézve:
Cov(Y, Z|X) := Cov(Y − E(Y |X), Z − E(Z|X)).
26. Deníció (parciális korreláció). les kovarianciája az
X
Az
Y
és
Z
valószín¶ségi változók feltéte-
valószín¶ségi változóra nézve:
rY,Y |X :=
Cov(Y, Z|X) . D(Y − E(Y |X)) · D(Z − E(Y |Z))
Vegyük észre, hogy míg a feltételes szórásnégyzet és a feltételes kovariancia valószín¶ségi változók, amelyek függenek a feltételt®l, a parciális korreláció szám, ami csak
27. Állítás.
rY,Z -t®l, rY,X -t®l
és
rZ,X -t®l
függ; igaz az alábbi állítás.
rY,Z − rY,X · rZ,X rY,Z|X := √ . 2 2 (1 − rY,X )(1 − rZ,X )
A parciális korreláció szemléletesen azt a jelenséget írja le, hogy két valószín¶ségi változó (Y és
Z ) azért korreláltak er®sen, mert mindketten er®sen korreláltak egy X -szel. A fenti állítás bizonyítása
harmadik valószín¶ségi változóval, nevezetesen
azon az alapvet® tényen múlik, hogy két valószín¶ségi változó kovarianciája két vektor skaláris szorzatának tekinthet®, és ha ez a kovariancia zérus, akkor a két valószín¶ségi változó mint vektor mer®leges egymásra.
1.1.
15
ELMÉLETI HÁTTÉR
1.1.3.
A normális eloszlásból származtatott eloszlások
28. Deníció (normális eloszlás). X
Az
m várható érték¶ és σ 2
szórásnégyzet¶
valószín¶ségi változó s¶r¶ségfüggvénye
f (x) := √
1 (x − m)2 exp{− }. 2 2πσ
(1.3)
∫x Φ(x) := −∞ f (s)ds eloszlásfügvény nem fejezhet® ki elemi függvényekkel. 2 2 Az m várható érték¶ és σ szórásnégyzet¶ normális eloszlás jelölése: N (m, σ ). Az alábbi ábra mutatja a standard normális eloszláshoz, azaz N (0, 1)-hez A
tartozó s¶r¶ségfüggvényt.
1.1. ábra.
ϕ(x)
29. Deníció (n szabadságfokú χ2 eloszlás).
Ha
X1 , . . . , Xn
független
N (m, σ 2 )
valószín¶ségi változók, az
Yn := X12 + · · · + Xn2 valószín¶ségi változó deníció szerint Yn ∼ χ2 (n), melynek s¶r¶ségfüggvénye
fn (x) =
xn/2−1 e−x/2 , 2n/2 Γ(n/2)
szabadságfokú centrált
ha
χ2 -eloszlású:
x > 0.
∫∞ −x Γ(α) := 0 xα−1 √ e . Megjegyezzük, hogy Γ(α+1) = αΓ(α), Γ(n) = (n−1)! Gamma(1/2) = π
ahol és
Yn
16
FEJEZET 1.
1. Az 2. A
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
χ2 (n)-eloszlás G(n/2, 1/2)
Gamma-eloszlás.
χ2 (n) eloszlás tetsz®leges momentuma meghatározható, a számolás vis-
szavezethet® a normális eloszlás páros momentumainak meghatározására: E(Yn ) = n, D2 (Yn ) = 2n. 3. Ha
X ∼ N (0, σ 2 ),
akkor minden
n
E(X 2n ) =
természetes számra
n−1 ∏
(2j + 1)σ 2n
(1.4)
j=0 4. Ha
n → ∞ , Yn
eloszlása
N (n, 2n)-nel
közelíthet®.
Az alábbi ábrák mutatják az 1, 2, 3, 4, és 5 szabadságfokú
χ2
eloszlásokhoz
tartozó s¶r¶ségfüggvényeket.
1.2. ábra.
χ2
(1-5) s¶r¶ségek
30. Deníció (n szabadságfokú Student-féle eloszlás (t-eloszlás)). standard normális eloszlású valószín¶ségi változó, és akkor
Zn := deníció szerint tozó:
Zn ∼ t(n)
31. Állítás.
A
n
√
Yn ∼ χ(n)
független
Ha X X -t®l,
X X n· √ =√ Yn Yn /n
szabadsági fokú standard Student-eloszlású valószín¶ségi vál-
t(n)
eloszlás s¶r¶ségfüggvénye:
∫ ∞ n−1 2 t 2 e−t dt = ( ) n+1 2 n z2 0 π nΓ( 2 ) 1 + n ( ) − n+1 2 z2 1 Γ( n+1 2 ) 1 + . =√ n π n Γ( n2 )
gn (z) = √
(1.5)
1.1.
17
ELMÉLETI HÁTTÉR
1.3. ábra. t(1) és t(5) s¶r¶ségek
Az alábbi ábrák mutatják az 1, és 5 szabadságfokú Student eloszlásokhoz tartozó s¶r¶ségfüggvényeket. A s¶r¶ségfüggvény (1.5) alakjából leolvasható, hogy a
n → ∞.
standard normális eloszláshoz, ha
Ugyancsak (1.5)-b®l látható az is, hogy Az 1 szabadságfokú
t-eloszlás
χ (m),
eloszlásban tart a
Zn -nek csak n−1 momentuma véges.
a Cauchy-eloszlás.
32. Deníció ((n, m) szabadságfokú F -eloszlás). 2
Zn
Ezt az alábbi animáció szemlélteti.
Ha
Xn ∼ χ2 (n) és és Ym ∼
akkor a
Zn,m := valószín¶ségi változó
Zn,m
(n, m)
szabadságfokú
Xn n Ym m
F -eloszlású: Zn,m ∼ F(n, m).
változó s¶r¶ségfüggvénye
( ) ( n ) n2 −1 nΓ n+m z 2 ( n ) ( m ) ( m ) n+m . fn,m (z) = mΓ 2 Γ 2 1 + n z 2 m
Az alábbi ábrák mutatják az (1,1), (1,2), (1,3), (1,9), (2,1), (2,2), (2,3), (2,9), (3,1), (3,2), (3,3), (3,9), (9,1), (9,2), (9,3) és (9,9) szabadságfokú F eloszlásokhoz tartozó s¶r¶ségfüggvényeket.
33. Deníció (Béta-eloszlás). változók, akkor a
valószín¶ségi változó A
Z˜n,m
Ha
X1 , . . . , Xn , . . . , Xn+m
független
∑n 2 i=1 Xi ˜ Zn,m = ∑n+m 2 i=1 Xi B(n/2, m/2)-eloszlású: Zn,m ∼ B(n/2, m/2).
fZn,m (z) s¶r¶ségfüggvénye ( ) Γ n+m n m 2 fZ˜m,n (z) = ( n ) ( m ) z 2 −1 (1 − z) 2 −1 , Γ 2 Γ 2 változó
ha
0 < z < 1.
N (0, 1)-
18
FEJEZET 1.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
···
···
···
. . .
··· 1.4. ábra. F s¶r¶ségek
n A fenti képletnek akkor is van értelme, ha a kitev®ben szerepl® 2 illetve m helyett tetsz®leges a illetve b pozitív számok állnak. Ez az (a, b)-rend¶béta2 eloszlás s¶r¶ségfüggvénye:
fa,b (z) =
1 · z a−1 (1 − z)b−1 , B(a, b)
Vegyük észre, hogy a letes
U(0, 1)-eloszlással!
1.1.4. Eddig
ha
0 < z < 1.
B(1, 1)-eloszlás megegyezik a [0, 1] intervallumon egyen-
Többváltozós ismeretek
X1 , . . . , X n
független
N (θ, σ 2 )
valószín¶ségi változókat jelentettek. Most
kimondunk egy állítást megkönnyíti a normális eloszlású valószín¶ségi változók függetlenségenek ellen®rzését.
34. Állítás.
X1 , . . . , Xn független N (θ, σ 2 ) valószín¶ségi változók lineáris kombinációi, akkor Cov(Yi , Yj ) = δij maga után vonja az Y1 , . . . , Ym Ha
Y1 , . . . , Ym
az
változók (teljes!) függetlenségét. Most már minden ismeret rendelkezésünkre áll ahhoz, hogy megfogalmazzunk egy, a becsléselméletben és a hipotézisvizsgálatban gyakran használt tételt, ami Lukács Jen® tételének speciális esete (l. [21]).
35. Tétel (Lukács Jen®). változók, legyen továbbá
Legyenek X1 , . . . Xn független N (θ, σ ∑n ∑n 1 1 ∗2 i=1 Xi , Sn := n−1 i=1 (Xi − n
¯ := X
2
) valószín¶ségi ¯ 2. X)
1.1.
19
ELMÉLETI HÁTTÉR
1.
¯ ∼ N (θ, σ 2 /n), X
2.
(n − 1)Sn∗2 /σ 2 ∼ χ2 (n − 1),
3.
¯ X
és
Sn∗2
függetlenek.
36. Következmény. √ Y =
37. Tétel.
Ha
X1 , . . . , Xn
¯ − θ) n(X √ ∼ t(n − 1) . Sn∗2 N (0, ϑ)
független
√ ¯ n·X Z := √∑ n 2 j=1 Xj ′
és
valószín¶ségi változók, akkor
S 2 (X) :=
n ∑
Xj2
j=1
függetlenek.
38. Következmény.
A
√ ¯ nX T =√ Sn∗2
2 Student-statisztika is független S -t®l, ugyanis egyszer¶ számolással adódik, hogy ′ ′ Z a T monoton függvénye: Z = √T 2T+n−1 . ¯ és Sn∗ denícióit l. 35. tételben.) (X A varianciaanalízis alapvet® eszköze a következ® meglep® tétel, amely a 35. tétel általánosításának is tekinthet®.
39. Tétel (FisherCochran-tétel).
X = (X1 , . . . , Xn )T ∼ Nn (O, In ) véletlen vektor (komponensei független N (0, 1)-változók) és legyenek a Q = ∑n 2 T XT In X = XT X = i=1 Xi és a Qj = X Aj X (j = 1, . . . , k) X-szel és a szimmetrikus, n × n-es Aj mátrixokkal (j = 1, . . . , k ≤ n) képzett kvadratikus Legyen
alakok olyanok, hogy rájuk
Q = Q1 + Q2 + · · · + Qk teljesül. Legyen Qj rangja: rk(Aj ) = nj . A Q1 , Q2 , . . . , Qk kvadratikus alakok 2 pontosan akkor független χ -eloszlásúak n1 , n2 , . . . , nk szabadságfokkal, ha k ∑
nj = n.
j=1 A FisherCochran-tétel fontossága miatt kivételesen közöljük annak egy elχ2 -eloszlás denícójanak egyszer¶ következménye,
emi bizonyítását. Az egyik irány a
a másik meglep® irány az alábbi lineáris algebrai állításból adódik.
20
FEJEZET 1.
40. Állítás.
Ha az
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
n-dimenziós
egységmátrix
I n = A 1 + · · · + Ak A1 , . . . , Ak
alakú, ahol az
(1.6)
valós szimmetrikus mátrixok és
rang(A1 )
+ · · · + rang(Ak ) = n,
(1.7)
akkor ezen mátrixok rang(A1 ), . . . , rang(Ak ) dimenziós ortogonális alterekre való ortogonális projekciók mátrixai. Az alábbi megjegyzés segít abban, hogy bonyolult számítások elvegzése nélkül is alkalmazzuk a FisherCochran tételt.
41. Megjegyzés.
A kvadratikus alakok rangját az alábbi heurisztikus formulá-
val számolhatjuk (Q itt is a kvadratikus alak rövidítése): rang(Q)
=a
Q-ban szerepl® független azonos eloszlású valószín¶ségi változók
száma mínuszaz ugyanezen valószín¶ségi változók alapján függetlenül becsült paraméterek száma. Végül kimondunk egy tételt, ami bizonyos értelemben indokolja, hogy els® közelítésben miért veszünk mindig lineáris regressziót.
42. Állítás. változók. Az
Legyenek Y, X1 , . . . , Xn együttesen normális eloszlású valószín¶ségi Yˆ := E(Y |X1 , . . . , Xn ) feltételes várható érték az X1 , . . . , Xn valószín¶ségi
változók lineáris függvénye. Mivel a 17. állítás szerint
Y
feltételes várható értéke az
X1 , . . . , Xn valószín¶ségi
változókra éppen a négyzetes középben való legjobb közelítés a fenti állítás szerint ez a közelítés az
1.2.
X 1 , . . . , Xn
valószín¶ségi változók lineáris függvénye.
Feladatok
1. Számítsuk ki a
Tipp:
λ
paraméter¶ Poisson eloszlás els® négy momentumát!
Alkalmazzuk a momentumoknak a generátorfüggvény deriváltjai
alapján történ® kiszámítási módját.
Válasz: M1 = λ, M2 = λ2 +λ, M3 = λ3 +3λ2 +λ, M4 = λ4 +6λ3 +7λ2 +λ. X
2. Legyen
egy
(r, p)
paraméter¶
valószín¶ségi változó. Számítsuk ki
(r > 1) 1 E( X−1 )
negatív binomiális eloszlású várható értéket!
Tipp: Használjuk a deníciót képletgy¶jtemény. p . Válasz: A deníció alapján r−1 3. Számoljuk ki az mentumát, ahol
Tipp:
n-edrend¶ λ k < n.
paraméter¶ Gamma eloszlás
deníciót képletgy¶jtemény.
Válasz:
A deníció alapján
λk (n−k−1)! . (n−1)!
−k -adik
mo-
1.2.
21
FELADATOK
4. Legyenek
X, Y
független, azonos eloszlású, véges várható érték¶ valószín¶ségi
változók. Határozzuk meg
E(X + Y |X)
és
E(X|X + Y )
feltételes várható
értékeket!
Tipp: hogy
Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre,
X
és
Y
szerepe szimmetrikus!
Válasz: X + E(Y ) ill. 5. Legyen
X
és
Y
X+Y 2 .
két független, 1/2 paraméter¶ Bernoulli-eloszlású valószín¶ségi
változó. Adjuk meg
E(X|X + Y )
által generált
σ -algebrát
és
E(X|X + Y )
eloszlását!
Tipp: X + Y által generált σ -algebrát. Válasz: Z := E(X|X + Y ), P (Z = 0) = 1/4, P (Z = 1/2) = 1/2, P (Z = 1) = 1/4. 6. Legyen 2
E(X )
X és
nemnegatív valószín¶ségi változó. Tegyük fel, hogy léteznek az
1 E( X )
várható értékek!
(a) Határozzuk meg
E(X 2 |X)-et!
(b) Határozzuk meg
1 E( X |X)-et!
Tipp: értéke
Egy X valószín¶ségi változó f (X) függvényének X -re f (X), ha ez utóbbi várható értéke létezik.
feltételes várható
Válasz: (a)
X 2,
(b)
1 X.
7. Legyen
X
a
[−1, 1]
intervallumon egyenletes eloszlású valószín¶ségi válE(X|X 2 )-t!
tozó. Határozzuk meg
Tipp: Használjuk a deníciót és a feltételes várható érték tulajdonságait. Válasz: A deníció alapján: 0. 8. Legyenek
X1 , X2 a [0, 1] intervallumon egyenletes eloszlású független valószín¶ségi Y := min{X1 , X2 }, valamint Z := max{X1 , X2 }. Határoz-
változók, továbbá zuk meg (a)
E(Y |Z),
(b)
E(Z|Y ),
(c)
E(X1 |Z)
feltételes várható értékeket!
Tipp: X1
és
Használjuk a feltételes várható érték denícióját! Használjuk ki
X2
Válasz:
szimmetriáját, valamint azt, hogy
X1 + X2 = Y + Z
!
22
FEJEZET 1.
(a)
Z/2,
(b)
(Y + 1)/2,
(c)
3 4 Z.
9. Legyenek
R.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
X, Y ∼ N (0, 1) független valószín¶ségi változók, továbbá a, b, c ∈ aX + bY + c?
(a) Milyen eloszlású (b) Adjuk meg
|X|
s¶r¶ségfüggvényét!
(c) Határozzuk meg
X2
(d) Milyen eloszlású
X 2 + Y 2?
Tipp:
s¶r¶ségfüggvényét! Milyen eloszlást követ
X 2?
(c) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó füg-
gvénye eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását.
Válasz: (a)
N (c, a2 + b2 ),
2 (b) √ 2π
2
exp(− x2 )
ha
x≥0
és 0 egyébként,
(c)
x−1/2 exp(−x/2) √ , azaz 2π
(d)
χ2 (2), ami megegyezik a λ = 1/2 paraméter¶ Exp(1/2) exponenciális
χ2 (1)
eloszlással. 10. Legyenek
X, Y ∼ Exp(λ)
X +Y?
(a) Milyen eloszlású (b) Adjuk meg
Z=
független valószín¶ségi változók.
X Y s¶r¶ségfüggvényét!
Tipp: (a) Alkalmazzuk a képletgy¶jtemény nevezetes abszolút folytonos eloszlások felsorolásását. (b) Alkalmazzuk a képletgy¶jtemény 2 valószín¶ségi változó hányadosának s¶r¶ségfüggvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását.
Válasz: (a)
G(2, λ).
(b)
2 (1+z)2 , ha
X≥0
azaz
F(2, 2)
1.2.
23
FELADATOK
11. * Legyenek
N, X1 , X2 . . .
N egy p X1 , X2∑ , . . . pedig λ paraméter¶ exponenN eloszlású lesz i=1 Xi ? független valószín¶ségi változók, ahol
paraméter¶ geometriai eloszlású, ciális eloszlásúak. Milyen
Tipp:
Alkalmazzuk a képletgy¶jtemény megfelel® formuláit és írjuk be az
exponenciális eloszlás karakterisztikus függvényét az
1, 2, . . .
értékkészlet¶
geometriai eloszlás generátorfüggvényébe.
Válasz: Exp(pλ) 12. Mi a kapcsolat az alábbi eloszlásseregek között? (a) Bernoulli, binomiális és Poisson; (b) geometriai és negatív binomiális; (c) exponenciális,
χ2
és Gamma;
(d) Student és Cauchy.
Tipp:
Alkalmazzuk a képletgy¶jteményt, és keressük meg hogy a fel-
soroltak között melyik eloszlás speciális esete, ill. határesete egy másik eloszlásnak.
Válasz: (a) Bernoulli
⊂
(b) geometriai
binomiális: a Poisson határesete;
⊂
negatív binomiális;
(c) exponenciális: (d) Cauchy: 13. Legyen
X
egy
χ2 (2) ⊂
Gamma;
t(1). (α, λ), Y
pedig
(β, λ) paraméter¶ Gamma eloszlású, egymástól X/Y egy (α, β) paraméter¶
független valószín¶ségi változó. Igaz-e, hogy
másodfajú Béta eloszlású valószín¶ségi változó, amely s¶r¶ségfüggvénye
f (x) =
Tipp:
Γ(α + β) xα−1 · . Γ(α)Γ(β) (x + 1)α+β
képletgy¶jtemény 2 valószín¶ségi változó hányadosának s¶r¶ségfüg-
gvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását.
Válasz: 14. * Legyen
Igaz.
X
egy
(α, β) paraméter¶ másodfajú Béta eloszlású valószín¶ségi
változó. Igazoljuk, hogy
1 X valószín¶ségi változó (β, α) paraméter¶ másodfajú Béta eloszlású! X (b) 1+X valószín¶ségi változó (α, β) paraméter¶ Béta eloszlású! (a)
(c)
1 1+X valószín¶ségi változó
(β, α)
paraméter¶ Béta eloszlású!
24
FEJEZET 1.
Tipp:
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
F eloszlás kén/2 m/2 paraméter¶ másodfajú Béta elos2 az n, m szabadságfokokkal normált χ elos-
Keressük meg a képletgy¶jteményben a Fischer-féle
pletét, vegyük észre, hogy az zlású valószín¶ségi változó
zlású valószín¶ségi változók hányadosa. Továbbá alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvényének illetve valószín¶ségi változók hányadosának s¶r¶ségére vonatkozó képletet.
Válasz: 15. Legyen
L. Tipp.
X1 , . . . , Xn , Xn+1 , . . . , Xn+m ∼ Exp(λ)
független azonos eloszlású
valószín¶ségi változók. (a) Milyen eloszlású
∑n i=1
Xi ?
(b) Igazoljuk, hogy
∑n i=1 Z = ∑n+m
Xi
i=n+1 statisztika
(n, m)
Xi
paraméter¶ másodfajú Béta eloszlású!
(c) Igazoljuk, hogy
∑n 1 i=1 Xi = ∼ Beta(n, m). ∑n+m 1 + 1/Z X i i=1
Tipp: (a) Keressük meg a képletgy¶jteményben a megfelel® eloszlásokat. (b) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változók hányodosának eloszlására vonatkozó képletét. (c) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változók hányodosának eloszlására vonatkozó képletét.
Válasz: (a)
G(n, λ).
(b) L. Tipp. (c) L. Tipp. 16. Mi a kapcsolat a Student, F és Béta eloszlásseregek között?
Tipp:
Alkalmazzuk a képletgy¶jteményt, és keressük meg, hogy a fel-
soroltak között melyik eloszlás speciális esete, ill. melyik eloszláshoz tartozó valószín¶ségi változó függvénye egy másik eloszláshoz tartozó valószín¶ségi változónak.
Válasz: Ha
Ha
X ∼ t(n),
Zm,n ∼ F(m, n),
akkor
akkor
X 2 ∼ F(1, n)
Y =
Zm,n 1+Zm,n
∼ B(m/2 − 1, n/2 − 1)
1.2.
25
FELADATOK
17. Legyenek
X1 , . . . , Xn ∼ Exp(λ) független azonos eloszlású valószín¶ségi Y1 , . . . , Yn valószín¶ségi változóket a következ® mó-
változók. Deniáljuk don:
Y1 = X1 , Y2 = X1 + X2 , . . . , Yn−1 = X1 + · · · + Xn−1 . (a) Legyen
Z = X1 +· · ·+Xn . Határozzuk meg az Y1 , . . . , Yn valószín¶ségi Z = z feltétel mel-
változók együttes feltételes s¶r¶ségfüggvényét a lett. (b) Határozzuk meg az
Y1 /Z, . . . , Yn−1 /Z
valószín¶ségi változók együttes
s¶r¶ségfüggvényét!
Tipp: (a) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvénye eloszlására vonatkozó képletét, kihasznalva, hogy az
X
és
Y
valószín¶ségi
változók közötti összefüggés lineáris és a Jakobi determináns értéke 1! (b) Alkalmazzuk az el®z® alfeladat eredményét!
Válasz: (a)
1 n−1 , azaz n − 1 darab független azonos eloszlású a [0, z] inter(n−1!) z vallumon egyenletes eloszlású valószín¶ségi változó együttes s¶r¶ségfüggvénye.
(b)
n−1 darab független azonos eloszlású a [0, 1] intervallumon egyenletes eloszlású valószín¶ségi változó együttes s¶r¶ségfüggvénye.
18. Legyenek
X1 , . . . , Xn ∼ N (0, 1) és Y1 , . . . , Ym ∼ N (0, 1) független 2 := Y12 + . . . + Ym2 . Tn2 := X12 + . . . + Xn2 és Tm
vál-
tozók, továbbá
(a) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvénye eloszlására vonatkozó képletét! (b) Alkalmazzuk az el®z® pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (c) Alkalmazzuk az el®z® két pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását.
Tipp: Válasz: 19. Legyen X1 , . . . , Xn+1 X12 + . . . + Xn2 . (a) Határozzuk meg
∼ N (0, 1) X12
független minta, továbbá legyen
s¶r¶ségfüggvényét!
Yn :=
26
FEJEZET 1.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
(b) Milyen eloszlású a
Tn2
valószín¶ségi változó ?
(c) Milyen eloszlású a
Zn := √
Y1 Tn2 /n
valószín¶ségi változó ? (d) Milyen eloszlású a
Zn,m :=
mTn2 2 nTm
valószín¶ségi változó ?
Tipp: (a) Alkalmazzuk a képletgy¶jtemény egy valószín¶ségi változó függvénye eloszlásának kiszamítására vonatkozó formuláját. (b) Alkalmazzuk az el®z® pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (c) Alkalmazzuk az el®z® két pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk képletgy¶jteményben található abszolút folytonos eloszlások felsorolását.
Válasz: (a)
χ2 (1)
(b)
n
(c)
(n, m)
szabadságfokú Student szabadságfokú
F
(t(n))
eloszlású.
eloszlású.
20. Legyen X1 , . . . , Xn+1 ∼ N (0, 1) független minta, továbbá legyen Yn = √ √ 2 Milyen eloszlású a Zn = X22 + · · · + Xn+1 nX1 Yn valószín¶ségi változó
Tipp:
Alkalmazzuk a képletgy¶jteményben található abszolút folytonos
eloszlások felsorolását.
Válasz: n szabadságfokú Student (t(n)) eloszlású. 21. Legyenek
Xn ∼ chi2 (n)
és
Ym ∼ χ2 (m)
független valószín¶ségi változók.
Milyen eloszlású a
mXn Z˜n,m := nYm valószín¶ségi változó
Tipp:
(n/2, m/2)
paraméter¶ béta eloszlású!
Alkalmazzuk a képletgy¶jteményben a két valószín¶ségi változó
hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását.
Válasz: (n/2, m/2)-paraméter¶ béta eloszlású.
1.2.
27
FELADATOK
22. Legyen
X1 , . . . , Xn+m
független standard normális eloszlású változók. Mi-
lyen eloszlású a
∑n 2 i=1 Xi ˜ Zn,m := ∑n+m 2 i=1 Xi
valószín¶ségi változó
Tipp:
(n/2, m/2)
paraméter¶ béta eloszlású!
Alkalmazzuk a képletgy¶jteményben a két valószín¶ségi változó
hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását.
Válasz: (n, m)-paraméter¶ F 23. Adjuk meg
Xn
eloszlású.
határeloszlását (n
→ ∞),
ha
Xn
egy
n
szabadságfokú
egy
n
szabadságfokú
Stundent eloszlású valószín¶ségi változó!
Tipp: Elemi analízis. Válasz: N (0, 1) 24. Adjuk meg
χ2
X√ n −n határeloszlását (n n
→ ∞),
ha
Xn
eloszlású valószín¶ségi változó.
Tipp:
Alkalmazzuk a centrális határeloszlás-tételt! A szórásnégyzet kiszámításához
alkalmazzuk a képletgy¶jteményben a normális eloszlás páros momentumaira adott formulát.
Válasz: N (0, 2) 25. Legyen √X1 , . . . , Xn ∼ N (0, 1) független azonos eloszlású változók, továbbá T := X12 + . . . + Xn2 . (a) Legyen (b) Legyen
Z1 := X1 /T . Z := X/T .
Bizonyítsuk be, hogy
Bizonyítsuk be, hogy
Z
Z12 és
és
T
2
T2
is függetlenek!
is függetlenek!
Tipp: (a) A számoláshoz a Bayes-tételt alkalmazzuk. El®ször meghatározzuk 2 2 a T statisztika f (t|y) feltételes s¶r¶ségfüggvényét adott Y1 = y 2 esetén. Ez nem más, mint a χ (n − 1) eloszlás s¶r¶ségfüggvénye a
t−y
helyen.
2 Bayes tétele alapján határozzuk meg az Y1 valószín¶ségi változó 2 g(y|t) s¶r¶ségfüggvényét adott T = t helyen! Vegyük észre, hogy a nevez®ben a
χ2 (n − 1) és a χ2 (1) eloszlás χ2 (n) eloszlás s¶r¶ségfüg-
s¶r¶ségfüggvényeinek a konvolúciója áll, ami a gvénye. Így adódik a
(t − y) 2 −1 y − 2 n t 2 −1 n−1
g(y|t) = C ·
összefüggés (C normáló tényez®).
1
28
FEJEZET 1.
A
Z12
tört
h(y|t)
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
h(y|t) = t · g(ty|t) = C · (1 − y) ami éppen a
T2 = t
feltételes s¶r¶ségfüggvénye adott
B(1/2, n/2)-eloszlású Z 2
n−1 2 −1
helyen:
y− 2 , 1
valószín¶ségi változó feltétel
nélküli s¶r¶ségfüggvénye.
2 2 (b) El®ször bizonyítsuk be hogy Z és T függetlenek! Vezessünk be új 2 2 2 2 változókat: Y1 = n(X) , Y2 , . . . , Yn valószín¶ségi változókat úgy, 2 2 2 2 2 hogy Y1 , . . . , Yn független ∼ χ (1) eloszlásúak legyenek és az Y1 , . . . , Yn 2 2 Z1 , . . . , Zn egyenl®ség teljesüljön. Ez mindig megtehet® az
Y2 =
n ∑
u2j Xj , Y3 =
j=1 választással, ahol az
n ∑
u3j Xj , . . . Yn =
j=1
uij
n ∑
unj Xj
j=1
valós számok ortonormált és az azonosan
1
sorvektorra ortogonális sorvektorok koordinátái. Ezután alkalmazzuk az el®z® feladat eredményét
Z 2 és T 2 valószín¶ségi változók függetlenségb®l kovetkeztethZ és T valószín¶ségi változók függetlenségére, felhasználva
Végül a etünk
hogy a számláló s¶r¶ségfüggvénye páros.
Válasz:
A fenti számolások valójában fölöslegesek, ha gyelembe vesszük
a többdimenziós
Ip
kovariancia mátrixú normális eloszlás szimmetriatula-
jdonságát (l. többdimenziós normális eloszlás)
1.3.
Tesztek
1. Határozzuk meg
E(1/X|X)-et, ha X
tetsz®leges véletlen változó és a szük-
séges várható értékek léteznek. (a) Nem feltétlenül létezik. (b)
X
(c)
1/X
(d)
−1/X
Válasz: (c) 2. Határozzuk meg
E(X 2 |X)-et,
ha X tetsz®leges véletlen változó és a szük-
séges várható értékek léteznek. (a) Nem feltétlenül létezik. (b)
√
X
(c)
X
(d)
X2
=
1.3.
29
TESZTEK
Válasz: (d) 3. Ha
X
és
léteznek)
Y független változók, E(X + Y |X) =
(a)
X +Y.
(b)
E(X + Y ).
(c)
E(X) + Y .
(d)
X + E(Y ).
akkor (ha a szükséges várható értékek
Válasz: (d) 4. Legyenek
X1 , . . . , Xn független X1 + . . . + Xn ?
standard normális eloszlású változók. Mi-
lyen eloszlású
(a) standard normális (b)
N (0, n)
(c)
N (0, n2 )
(d)
t(n)
Válasz: (b) X1 , . . . , Xn X1 + . . . + X n ?
5. Legyenek
független
χ2 (m) eloszlású változók. Milyen eloszlású
(a) F(n,m) (b) F(m,n) (c)
χ2 (mn)
(d)
χ2 (n + m)
Válasz: (c) 6. Legyenek
X 1 , . . . , Xn
λ paraméter¶ X 1 + . . . + Xn ?
független
tozók. Milyen eloszlású
exponenciális eloszlású vál-
(a) exp(nλ) (b) Gamma(n, λ) (c) Béta(n,λ) (d) másodfajú Béta(n,λ)
Válasz: (b) 7. Melyik igaz? (a) A különböz® szabadságfokú
χ2
χ2 elosα, λ paraméter¶
eloszlások családja (röviden
zlássereg) és exponenciális eloszlássereg a különböz®
Gamma eloszlások családja (röviden Gamma eloszlássereg) részei.
30
FEJEZET 1.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET
χ2
eloszlásseregek az exponenciális eloszláscsalád részei.
(b) A Gamma és
(c) Az exponenciális és Gamma eloszlásseregek a (d) Egyik eloszlássereg sem része a többi.
Válasz: (a)
χ2
eloszlássereg részei.
2. fejezet
El®ismeretek 2.: statisztikai alapok
2.1.
2.1.1.
Elméleti háttér
Az egyváltozós statisztika alapfogalmai
Az alábbiakban röviden összefoglaljuk az egyváltozós statisztikai módszereknek a Tananyagban használt alapfogalmait. Az egyváltozós statisztikai feladatokat kissé mesterségesen szokás becsléseleméletre és hipotézisvizsgálatra osztani. Mindkét feladatkörben megkülönböztetnek paraméteres és nemparaméteres módszereket. A Tananyag ezek közül csak a paraméteres módszerek többváltozós analogonjait és más az egyváltozós statisztikában fel sem merül® módszereket tárgyal. A Tananyag formálisan nem támaszkodik a rendezett minták elméletére, de a rendezett minták implicit módon szinte minden statisztikai módszerben megjelennek, ezért röviden erre is kitérunk.
Alapstatisztikák és rendezett minták Legyen
X 1 , . . . , Xn
43. Deníció.
független azonos eloszlású
Az
n-elem¶
minta.
∑ ¯= 1 X Xi n i=1 n
statisztikát mintaátlagnak nevezzük. Ha hangsúlyozni szeretnénk a mintaelemszámot, akkor az ha pedig a konkrét realizációkkal számolunk, akkor
44. Deníció.
Az
1∑ ¯ 2 S = (Xi − X) n i=1 n
2
31
x ¯-t
vagy
¯ n jelölést használjuk, X x ¯n -t írunk.
32
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
statisztikát empirikus (tapasztalati) szórásnégyzetnek nevezzük, az
n 1 ∑ ¯ 2 S2 = (Xi − X) n−1 n − 1 i=1 n
S∗2 =
statisztikát pedig korrigált empirikus (tapasztalati) szórásnégyzetnek. A fenti mennyiségek gyöke az empirikus (tapasztalati) szórás illetve a korrigált empirikus ∗ (tapasztalati) szórás, melyeket S illetve S jelöl. A szórásnégyzet, a második momentum és a várható érték közötti összefüggések az alábbi Álításból (mely a merev testek zikájából jól ismert Steiner-tetel átfogalmazása) következnek
45. Állítás (Steiner-tétel). c∈R
Az
x1 , . . . , xn ∈ R rögzített értékekkel és tetsz®leges
valós számmal
1∑ 1∑ (xi − c)2 = (xi − x ¯)2 + (¯ x − c)2 n i=1 n i=1 n
n
teljesül.
46. Következmény.
A Steiner tételb®l
c=0
választással következik, hogy az
empirikus szórásnégyzetet a következ®képpen is számolhatjuk:
1∑ 2 ¯ 2. ¯ 2 = X2 − X X −X n i=1 i n
S2 =
47. Deníció.
Legyen
k
rögzített pozitív egész. Az
1∑ k X n i=1 i n
Mk =
statisztikát k-adik empirikus (tapasztalati) momentumnak nevezzük, az
1∑ ¯ k (Xi − X) n i=1 n
Mkc =
statisztika pedig a k-adik empirikus (tapasztalati) centrális momentum. Nyilván
S 2 = M2c = M2 − M12 .
48. Deníció.
Legyen
(X, Y )T
pedig vele azonos eloszlású független azonos eloszlású illetve
SY
(X1 , Y1 )T , . . . , (Xn , Yn )T minta. Jelölje SX
2-dimenziós valószín¶ségi változó,
n-elem¶
a komponensek empirikus szórását! A
∑ 1∑ ¯ i − Y¯ ) = 1 ¯ Y¯ C= (Xi − X)(Y X i Yi − X n i=1 n i=1 n
n
2.1.
33
ELMÉLETI HÁTTÉR
statisztikát empirikus (tapasztalati) kovarianciának, az
R=
∑n
¯ Y¯ Xi Yi − nX ) ( ) ∑ n 2 2 ¯2 ¯2 i=1 Yi − nY i=1 Xi − nX
C = √(∑ n SX SY
i=1
statisztikát pedig empirikus (tapasztalati) korrelációnak nevezzük.
49. Deníció. felvev®
Az X1 , . . . , Xn mintaelemek értékeit nem-csökken® sorrendben X1∗ , X2∗ , . . . , Xn∗ valószín¶ségi változókat n-elem¶ rendezett mintának nevez-
zük, azaz
X1∗ (ω) ≤ X2∗ (ω) ≤ · · · ≤ Xn∗ (ω), Tehát minden konkrét
x1 , x2 , . . . , xn
∀ω ∈ Ω × Ω × · · · × Ω = Ωn .
realizáció esetén ezt az
n
valós számot
kell nagyság szerint nem csökken® sorrendbe rendezni, és a nagyság szerint i∗ ediket xi -gal jelölni. Természetesen az Ω különböz® elemeire más és más lesz a mintaelemek sorrendje, és így a rendezés is. Nyilván a rendezett mintaelemek már nem függetlenek egymástól, és nem is azonos eloszlásúak.
50. Deníció. ∗ Xk+1 -ot,
páros
Empirikus mediánon értjük páratlan n (n ∗ ∗ esetén pedig (Xk + Xk+1 )/2-t.
= 2k + 1)
esetén
n (n = 2k )
Ez valójában a középs® mintaelem, és amennyiben a realizációból számolt értékét
m
jelöli, ezzel teljesül a Steiner-tétel
51. Állítás.
L1 -
normában vett megfelel®je:
1∑ 1∑ |xi − c| = |xi − m|. n i=1 n i=1 n
min c∈R
n
A fenti minimumot a minta átlagos abszolút eltérésének is szokták nevezni. A mediánnak több el®nye is van a várható értékkel szemben.
•
Olyan eloszlásoknak is létezik a mediánja, amelyeknek a várható értéke nem létezik.
•
A minta mediánja (empirikus medián) az eltolási paraméternek a mintaátlagnál stabilabb becslése, érzeketlen egy-két kiugró adatra.
A következ®kben egy
n-elem¶ minta alapján kívánjuk közelíteni a háttérelos-
zlást, ezért megkonstruáljuk az ún. empirikus eloszlásfüggvényt, amir®l belátjuk, hogy elég nagy
n-re
jól rekonstruálja az ismeretlen eloszlásfüggvényt, akármi
is legyen a véletlen minta. Ezt a tényt fogalmazza meg precízen a Glivenko Cantelli-tétel, melyet a statisztika egyik alaptételének is szoktak tekinteni.
52. Deníció (Empirikus (tapasztalati)). véletlen függvényt értjük: tetsz®leges
Fn∗ (x) :=
0, i=1 I(Xi < x) = nk , n 1,
∑n
x∈R
ha ha ha
eloszlásfüggvény alatt a következ®
számra legyen
x ≤ X1∗ , ∗ Xk∗ < x ≤ Xk+1 ∗ x > Xn .
(k = 1, . . . , n − 1)
34
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
I(·) az argumentumban álló esemény indikátorváltozója. Könny¶ látni, I(Xi < x) indikátorváltozók független azonos eloszlású Bernoulli eloszlásúak F (x) paraméterrel, ahol F az X háttérváltozó eloszlásfüggvénye. Itt
hogy az
2.1. ábra. empirikus eloszlásfüggvény
Fn∗
az x1 , . . . , xn realizációra olyan, mint egy Y ∼ U(x1 , . . . , xn ) diszkrét egyenletes eloszlású valószín¶ségi változó eloszlásfüggvénye. ¯ és D2 (Y ) = S 2 . Nyilván E(Y ) = X Megjegyezzük, hogy
53. Tétel (GlivenkoCantelli-tétel). gvény és
x∈R
E(Fn∗ (x)) = F (x), és
Legyen
F (x)
az elméleti eloszlásfüg-
rögzített. Akkor
limn→∞ Fn∗ (x) = F (x),
D2 (Fn∗ (x)) =
F (x)(1 − F (x)) , n
1 valószín¶séggel.
A tételt animáció is szemlélteti.
Rendezett mintaelemek eloszlása és együttes s¶r¶sége X
háttérváltozó abszolút folytonos eloszlású
F
eloszlás- és
f
A rendezett mintaelemekre
X1∗ < X2∗ < · · · < Xn∗ ,
Legyen most az
s¶r¶ségfüggvénnyel.
1 valószín¶séggel.
2.1.
35
ELMÉLETI HÁTTÉR
El®ször határozzuk meg
Xk∗ Fn;k -val jelölt eloszlás-, és fn;k -val jelölt s¶r¶ség-
függvényét! Nyilván
Fn;k (x) = P(Xk∗ < x) = P(legalább k db. mintaelem < x) = n ( ) n ( ) ∑ ∑ n n P(pontosan i db. mintaelem < x) = [F (x)]i [1 − F (x)]n−i = i i i=k
i=k
(2.1) A s¶r¶ségfüggvényt nem ennek a deriválásával, hanem más meggondolással lehet egyszer¶en kiszámolni, a végeredmény:
( fn;k (x) = n Az
U[0, 1]
integrálját
) n−1 [F (x)]k−1 [1 − F (x)]n−k f (x). k−1
(2.2)
egyenletes eloszlásra alkalmazva a (2.1) formulát és (2.2) formula
0-tól y -ig
a következ® értékes összefüggést nyerjük:
( )∫ y n ( ) ∑ n i n−1 n−i y (1 − y) =n uk−1 (1 − u)n−k du. i k−1 0 i=k
Az egyenletes eloszlásból vett 5 elem¶ rendezett minta elemeinek s¶r¶ségeit mutatják az alábbi ábrák.
2.2. ábra. 5 elem¶ rendezett minta elemeinek s¶r¶ségei
A képletgy¶jtemény alapján láthtó, hogy az egyenletes eloszlásból vett nYk∗ k -adik rendezett mintaeleme B(k, n − k + 1) Béta-eloszlású. ∗ Ennek alapján meghatározhatók Yk momentumai. Így: elem¶ minta
36
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
2.3. ábra. Egyenletes minta hisztogramja, 5 elem¶ rendezett minta 1.,3.,5. elemének hisztogramjai
k n+1 k(k + 1) ∗ 2 E(Yk ) = (n + 1)(n + 2) E(Yk∗ ) =
D2 (Yk∗ ) = E(Yk∗ )2 − E2 (Yk∗ ) =
(2.3)
k(n − k + 1) (n + 1)2 (n + 2)
(k = 1, . . . , n).
Végül megadjuk akárhány rendezett mintaelem együttes s¶r¶ségfüggvényét. Xk∗1 , Xk∗2 , . . . , Xk∗r -ét (1 ≤ k1 < k2 < · · · < kr ≤
Legyenek ezek a mintaelemek:
n).
fn;k1 ,...,kr (x1 , . . . , xr ) =
n! · (k1 − 1)!(k2 − k1 − 1)! · · · (kr − kr−1 − 1)!(n − kr )!
· F (x1 )k1 −1 [F (x2 ) − F (x1 )]k2 −k1 −1 · · · [F (xr ) − F (xr−1 )]kr −kr−1 −1 [1 − F (xr )]n−kr · · f (x1 ) · · · f (xr ), ha x1 ≤ x2 ≤ · · · ≤ xr , (2.4) és nyilván 0 különben.
2.1.
37
ELMÉLETI HÁTTÉR
Az alábbi szürkeárnyalatos ábra
f5,1,5 -öt
mutatja egyenletes eloszlásból vett
rendezett minta esetén.
1 0.8 0.6 0.4 0.2 0
2.4. ábra.
r =1
Az
f5,1,5
speciális esetben megkapjuk a (2.2) képletet. Az
r =n
speciális
esetben megkapjuk az összes rendezett mintaelem együttes s¶r¶ségfüggvényét.
{ n!f (x1 ) · · · f (xn ), fn;1,...,n (x1 , . . . , xn ) = 0,
x1 ≤ x2 ≤ · · · ≤ xn különben. ha
Az eredmény nem meglep®, hiszen az összes rendezett mintaelem együttes eloszlása olyan, mint az összes (független) mintaelem együttes eloszlása azzal a n különbséggel, hogy a rendezés miatt az el®bbi eloszlás R -nek az x1 ≤ x2 ≤
· · · ≤ xn
egyenl®tlenség által meghatározott,
1/n!
részarányú szimplexére kon-
centrálódik.
Elégségesség, teljesség, exponenciális eloszláscsalád Legyen
Ω, AP
P = {Pθ : θ ∈ Θ}. Az X1 , . . . , Xn független T (X1 , . . . , Xn ) = T (X) statisztikájában a mintaele-
statisztikai mez®, ahol
azonos eloszlású minta egy mekben rejl® a
θ
paraméterre vonatkozó informaciót s¶ritjük ösze.
54. Deníció.
Likelihood-függvényen értjük a mintaelemek együttes valószín¶x = (x1 , . . . , xn ) ∈ Rn rögzített, és Lθ (x) a likelihood-függvény az x helyen. Ha a háttéreloszlás diszkrét pθ valószín¶ségfüg-
ség illetve s¶r¶ségfüggvényét. Legyen gvényel, akkor
Lθ (x) = Pθ (X = x) =
n ∏
Pθ (Xi = xi ) =
i=1
ha pedig abszolút folytonos
fθ
n ∏ i=1
s¶r¶ségfüggvénynyel, akkor
Lθ (x) =
n ∏ i=1
fθ (xi ).
pθ (xi ),
38
FEJEZET 2.
55. Deníció.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
T (X) statisztika elégséges a θ
Azt mondjuk, hogy a
ha diszkrét esetben a
Pθ (X = x|T (X) = t) =
Lθ (x) , Pθ (T (X) = t)
ha
0
paraméterre,
T (x) = t,
(2.5)
különben
feltételes valószín¶ség, abszolút folytonos esetben pedig az
Lθ (x) , fθT (t) fθ (x|T (X) = t) =
feltételes s¶r¶ség nem függ s¶r¶ségfüggvényét a
t
θ-tól, ∀θ ∈ Θ,
T (x) = t,
ha
0 ahol
(2.6)
különben
fθT (t)
jelöli a
T (X)
statisztika
helyen.
A fenti deníció alapján látható, hogy az elegséges statisztika a mintaelemekben rejl® a
θ
paraméterre vonatkozó teljes információt tartalmazza.
Felmerül a kérdés: hogyan lehetne megsejteni egy elégséges statisztika alakját? A választ a következ® tétel adja meg.
56. Tétel (NeymanFisher faktorizáció). pontosan akkor elégséges, ha létezik olyan zlete)) és
h(x) (x ∈ X )
Egy X minta T (X) statisztikája gθ (t) (θ ∈ Θ, t ∈ T (=T értékkés-
mérhet® függvény, hogy
Lθ (x) = gθ (T (x)) · h(x) teljesül minden
θ ∈ Θ, x ∈ X
esetén.
Azaz a likelihood-függvény csak a
T
statisztikán keresztül függ a paramétert®l.
Természetesen a teljes minta vagy a rendezett minta is elégséges statisztika, de mi minél egyszer¶bbet szeretnénk kapni. Ezért bevezetünk a valamilyen paraméterre elégséges statisztikák között egy részben rendezést: azt mondjuk,
T1 a T2 -nek alárendelt statisztika, ha van olyan mérhet® v függvény, hogy T1 = v(T2 ). Ezt úgy jelöljük, hogy T1 ≤ T2 , és a T1 statisztika gazdaságosabb T2 -nél. Ha T1 és T2 kölcsönösen alárendeltek a másiknak, akkor ekvivalenseknek mondjuk ®ket: T1 = T2 (nyilván ekkor v invertálható függvény). hogy
57. Deníció.
A
T
elégséges statisztikát minimális elégséges statisztikának nevez-
zük, ha alárendelt statisztikája bármely más elégséges statisztikának.
58. Deníció.
A
T
statisztika teljes, ha a
Eθ (g(T )) = 0, összefüggés a
g
∀θ ∈ Θ
függvényeknek egy elég gazdag (például folytonosan deriválható)
osztályára teljesül, akkor
g = 0, ahol
PTθ
jelöli a
T
PTθ (g = 0) = 1,
statisztika által generált mértéket.
2.1.
39
ELMÉLETI HÁTTÉR
T
Ennnek a tulajdonságnak a jelent®sége az, hogy, ha a
statisztika elégséges
és teljes akkor minimális elegséges. Ugyanakkor ezt a tulajdonságot nehéz elln®rizni, de az alább deniált ún. exponenciális eloszláscsaládra teljesül.
59. Deníció. Azt mondjuk, hogy az X háttérváltozó eloszlása tagja ponenciális eloszláscsaládnak, ha diszkrét esetben a valószín¶ség-,
az
ex-
abszolút
folytonos esetben a s¶r¶ségfüggvénye a következ® alakban állítható el®:
k ∑ c(θ) · exp aj (θ) · Tj (x) · h(x),
∀θ ∈ Θ.
(2.7)
j=1
k = dim(Θ), c és aj -k véges, mérhet® függvények mérhet® valós függvények. Itt
(A
c>0
ún. súlyfüggvény biztosítja , hogy a
60. Tétel.
∑
Θ-n, Tj -k
vagy
∫
n-elem¶ X = (X1 , . . . , Xn ) mintát ( n ) n ∑ ∑ T (X) = T1 (Xi ), . . . , Tk (Xi ) i=1
elégséges statisztika a
θ
h
pedig véges,
1 legyen).
Vegyünk egy
Akkor
és
a fenti eloszlásból.
(2.8)
i=1
paraméter-vektorra.
Ismeretes, hogy a normális-, exponeciális-, Poisson-, Bernoulli-, geometriai-
Γ-eloszlások tagjai az exponenciális eloszláscsaládnak. A negatív binomiális (Pascal), binomiális, polinomiális eloszlások csak rögzített rend esetén azok (csak a valószín¶ség(ek) a paraméter(ek)). A diszkrét és folytonos egyenletes eloszlások viszont nem tagjai.
2.1.2.
Becsléselmélet
Pontbecslések, torzítatlanság, hatásosság, konzisztencia P = {Pθ : θ ∈ Θ}. A θ paramétert X = (X1 , . . . , Xn ) független azonos eloszlású minta alapján konstruált T (X) statisztika segítségével. ˆ ill. ψˆ az így kapott becslést! Jelölje θ Legyen
(Ω, A, P)
statisztikai mez®, ahol
vagy annak valamely
ψ(θ)
függvényét szeretnénk becsülni az
61. Deníció (Torzítatlanság). T (X)
torzítatlan becslés
Eθ (T (X)) = ψ(θ),
ψ(θ)-ra,
ha
∀θ ∈ Θ.
Ezt a fogalmat a legegyszer¶bb példán szemléltetjük.
62. Állítás. X¯
mindig torzítatlan becslés
m(θ) = Eθ (X)-re,
63. Deníció (Aszimptotikus torzítatlanság). aszimptotikusan torzítatlan becslés
ψ(θ)-ra,
T (Xn )
ha
lim Eθ (T (Xn )) = ψ(θ),
n→∞
A
ha ez véges.
∀θ ∈ Θ.
statisztikasorozat
40
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
A szórásnégyzet becslésén szemléltetjük mindkét fogalmat.
64. Állítás.
Legyen X1 , . . . , Xn független azonos eloszlású minta egy tetsz®leges 2 2 olyan eloszlásból, melyre minden θ ∈ Θ esetén σ (θ) = Dθ (X) < ∞. Akkor
∑ 1∑ ¯ 2= 1 ¯ 2, = (Xi − X) X2 − X n i=1 n i=1 i n
Sn2 Sn∗ 2 :=
n
n 2 n−1 Sn pedig torzítatlan becslése a szórásnégyzetnek.
Megjegyezzük, hogy az
Sn∗ 2 becslés torzítatlansága a Steiner-tétel következménye.
Hatásosság (eciencia) 65. Deníció.
T1 és T2 statisztika torzítatlan becslés a θ paraméterre, ψ(θ) függvényére. Azt mondjuk, hogy T1 hatásosabb (emint T2 , ha
Legyen a
vagy annak valamely ciensebb) becslés,
D2θ (T1 ) ≤ D2θ (T2 ), és legalább egy
θ0 ∈ Θ
66. Deníció.
esetén (2)-ben
<
∀θ ∈ Θ,
teljesül.
Egy torzítatlan becslés hatásos (eciens) becslés, ha bármely
más torzítatlan becslésnél hatásosabb. A következ® tétel azt állítja, hogy amennyiben van hatásos becslés, az egyértelm¶.
67. Tétel (Egyértelm¶ségi).
Legyen a
lan, hatásos becslés ugyanarra a
ψ(θ)
T1 és T2 statisztika egyaránt torzítatparaméterfüggvényre. Akkor
Pθ (T1 = T2 ) = 1,
∀θ ∈ Θ.
Tételek garantálják, hogy exponenciális eloszláscsalád esetén
¯ X
a várható
érték hatásos becslése. Nem minden eloszláscsalád esetén igaz ez. Az U[0, θ] ˆ X ∗ legnagyobb rendezett mintaelem egyenletes eloszláscsalád esetén például legyen θ n n+1 2n -szerese, ez szintén várható érték torzítatlan becslése (l. (18)), és hatásosabb, ¯ mint X
Konzisztencia
A konzisztencia azt jelenti, hogy a meggyelések számának növelésével javul a becslés pontossága.
68. Deníció. ψ(θ)-ra,
A
T (Xn ) statisztikasorozat gyengén (er®sen) konzisztens becslés θ ∈ Θ-ra n → ∞ esetén T (Xn ) → ψ(θ) sztochasztikusan (1
ha minden
valószín¶séggel). A nagy számok er®s törvénye maga után vonja az alábbi Állítást.
69. Állítás.
Eθ (X)
Ha
X1 , . . . , Xn független azonos eloszlású minta X -re ¯ n er®sen konzisztens becslés m(θ)-ra. X
véges, akkor
és
m(θ) =
2.1.
41
ELMÉLETI HÁTTÉR
Ezt szemlélteti az alábbi animáció.
70. Deníció. A T (Xn ) statisztikasorozat a ψ(θ) paraméterfüggvény négyzetes 2 középben konzisztens becslése, ha minden θ ∈ Θ-ra Eθ (T (Xn )) < ∞ (∀n ∈ N) és
lim Eθ (T (Xn ) − ψ(θ))2 = 0.
n→∞
71. Állítás. slést ad
T (Xn ) statisztikasorozat négyzetes középben konzisztens becakkor a becslés gyengén konzisztens is.
Ha a
ψ(θ)-ra,
A szórásnégyzet becslése konzisztenciájának bizonyításának eszköze az alábbi önmagában is érdekes Állítás.
72. Állítás. D2 (Sn2 ) =
(n − 1)[(n − 1)M4c − (n − 3)σ 4 ] , n3
és
D
2
(Sn∗ 2 )
1 = n
( M4c
CramérRao-egyenl®tlenség Legyen a
θ
(Ω, P, P)
) n−3 4 − σ . n−1
P = {Pθ : θ ∈ Θ}. Célunk az, hogy ψ(θ) függvényére konstruált torzítatlan
statisztikai mez®, ahol
paraméterre vagy annak valamely
becslések szórásnégyzetére alsó korlátot adjunk. Ha egy torzítatlan becslésre ez a korlát eléretik, akkor biztosak lehetünk abban, hogy hatásos becslésünk van, ami az 67 Tétel alapján egyértelm¶. Szükségünk lesz a következ®, R. A. Fishert®l származó fogalomra, l.[11].
73. Deníció. X
Legyen X = (X1 , . . . , Xn ) független azonos eloszlású minta az háttérválozó eloszlásából, amely a θ paramétert®l függ (θ ∈ Θ), itt csak a
dim(Θ)
= 1, Θ
konvex esettel foglalkozunk. A fenti minta Fisher-féle informá-
ciója az
( In (θ) = Eθ
∂ lθ (X) ∂θ
)2 ≥0
mennyiséggel van deniálva, ahol
lθ (x) = ln Lθ (x) az ún. log-likelihood függvény-t jelöli. Az információmennyiségt®l elvárjuk, hogy független valószín¶ségi változók esetén additív legyen. Ez itt nem részletezett regularitási feltételek mellett amelyek fennálnak az exponenciális eloszláscsaládokra, de például az egyenletes eloszláscsaládra nem állnak fenn igaz is. Így a denícióban szerepl® független azonos eloszlású valószín¶ségi változók esetén igaz az
In (θ) = nI1 (θ).
42
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
Ugyanezen regularitási feltételek mellett igaz az módját biztosító
( I1 (θ) = −E
I1 (θ) egyszer¶bb kiszámítási
) ∂2 ln L (X) θ ∂θ2
összefüggés. A következ® állítás illusztrálja azt a tényt, hogy az elégséges statisztika tartalmazza a mintában lév®, a paraméterre vonakozó teljes információt.
74. Állítás. Legyen X = (X1 , . . . , Xn ) független azonos eloszlású minta egy θ paramétert®l függ® eloszlásból (θ ∈ Θ), és tegyük fel, hogy In (θ) < ∞. Akkor tetsz®leges
T (X)
elégséges statisztikára
IT (θ) = In (θ), ahol IT (θ) ugyanúgy számolható a T statisztika valószín¶ség ill. s¶r¶ségfüggvényéb®l, mint ahogyan a teljes minta információja a mintaelemek együttes eloszlásából. Miután a CramérRao egyenl®tlenségben szerepl® valamennyi fogalmat deniáltunk, kimondhatjuk magát a tételt.
75. Tétel (CramérRao-egyenl®tlenség).
Legyen (Ω, A, P) reguláris statisztikai P = {Pθ : θ ∈ Θ}, dim(Θ) = 1. Legyen X = (X1 , . . . , Xn ) független azonos eloszlású minta a Pθ eloszlásból, amir®l most tegyük fel, hogy abszolút folytonos. Tegyük fel továbbá, hogy a T (X) statisztika valamely deriválható ψ függvénnyel képzett ψ(θ) paraméterfüggvény torzítatlan becslése,
mez®, ahol
∀θ ∈ Θ
D2θ (T ) < +∞,
továbbá teljesülnek az alábbi bederiválhatósági feltételek:
∂ ∂θ és
ahol
∫
∂ ∂θ ···
∫
∫
∫
∫
···
Lθ (x) dx =
∫ ···
∫
∫
···
∫ T (x)Lθ (x) dx =
n-dimenziós
∂ Lθ (x) dx, ∂θ
∫ ···
T (x)
∂ Lθ (x) dx, ∂θ
∀θ ∈ Θ
∀θ ∈ Θ,
integrálást jelent a likelihood-függvény tartóján. Akkor
D2θ (T ) ≥
(ψ ′ (θ))2 , In (θ)
∀θ ∈ Θ.
2 2 Példaként megemlítjük, hogy az N (θ, σ ) normális eloszlásra ismert σ es−2 ˆ ¯ etén I1 = σ , és a θ = X átlagra az egyenl®tlenség helyett egyenl®ség áll, azaz
eléretik az információs határ, míg az Exp(λ) exponenciális eloszlásra a torzítatˆ = n−1 λ ¯ becslés a következ® tétel miatt hatásos, de az információs határ nX nem éretik el. Ugyanakkor a U(0, θ) egyenletes eloszlás lan
θˆ = Xn∗
(a
legnagyobb rendezett mintaelem
n+1 -szerese) n
2.1.
43
ELMÉLETI HÁTTÉR
becslés szórásnégyzete
1/n
nagyságrend¶, azaz lényegesen
kisebb,
mint az in-
formációs határ, mert a bederiválhatósági feltételek nem teljesülnek.
76. Tétel (RaoBlackwellKolmogorov-tétel).
Legyen
P = {Pθ ; θ ∈ Θ}. Legyen X = (X1 , . . . , Xn ) minta valamely Pθ eloszlásból. Legyen továbbá
mez®, ahol zlású (a)
T (X)
elégséges statisztika,
(b)
S(X)
torzítatlan becslés a
Akkor
T -nek
van olyan
(Ω, A, P) statisztikai
független azonos elos-
ψ(θ) paraméterfüggvényre. U = g(T ) függvénye, amely ψ(θ)
(1) szintén torzítatlan becslése a
∀θ ∈ Θ, (2)
U
legalább olyan hatásos becslése
(3)
U
konstrukciója a következ®:
paraméterfüggvénynek:
Eθ (U ) = ψ(θ),
ψ(θ)-nak, mint S : D2θ (U ) ≤ D2θ (S), ∀θ ∈ Θ.
U := Eθ (S|T ) = g(T (X)), ∀θ ∈ Θ
(ezt nevez-
zük blackwellizálásnak). A tétel üzenete: a hatásos becsléseket a minimális elégséges statisztika függvényei közt kell keresni.
Becslési módszerek A paraméterek (akár többdimenziós paraméterek) becslésére számos ad hoc módszer ismertes, itt csak az ún. maximum-likelihood becslést ismertetjük els®sorban azért, mert általánosan alkalmazható, és az általa kapott eredmény közel esik a más becslések (például az ún. Bayes-becslés, vagy a momentum módszeren alapuló becslés) által kapott eredményhez.
(Ω, A, P) statisztikai mez®, ahol P = {Pθ ; θ ∈ Θ} (a paramétertér leX1 , . . . , Xn független azonos eloszlású mintát a Pθ eloszlásból (θ ismeretlen). Az x1 , . . . , xn realizáció birˆ-ot fogadjuk el, amely mellett antokában a paraméter becslésének azt a θ Legyen
het többdimenziós és legyen konvex). Vegyünk egy
nak a valószín¶sége, hogy az adott realizációt kapjuk, maximális. Mivel ezt a valószín¶séget a likelihood-függvény tükrözi, a módszer ezt maximalizálja. A maximumhely csak a realizációtól függ, tehát statisztikát kapunk becslésként.
77. Deníció.
Legyen Lθ (x) : n-elem¶ mintához tartozó likelihood-függvény. A ˆ ˆ θ: θ(x1 , . . . , xn ) statisztikát a θ paraméter maximum likelihood (ML-)becslésének ˆ globális maximumhelye a likelihood-függvénynek, azaz nevezzük, ha θ
Lθ(x ˆ 1 ,...,xn ) (x1 , . . . , xn ) ≥ Lθ (x1 , . . . , xn ) teljesül
∀θ ∈ Θ
és
(x1 , . . . , xn )
Megjegyzés. Ha létezik is
esetén.
L-nek
globális maximuma minden realizáció esetén,
az nem biztos, hogy a max. helyek egyértelm¶ek. Ezesetben választanunk kell a max. helyek között. Áltlános tételek biztosítják, hogy n → ∞ esetén a különˆ θ∗ valódi értékéhez √ ∗ konvergálnak. Tehát a θn n(θ − θn )-nel aszimptotikusan M-L becslés aszimptotikusan torzítatlan, s®t N (01/I1 (θ∗ )) normális eloszlású, azaz aszimptotikusan eciens. böz® maximumhelyek a paraméter
44
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
Kondencia intervallum szerkesztés Az eddigiekben ún. pontbecslésekkel foglalkoztunk, vagyis a becsülend® paramétert v. paraméterfüggvényt a mintaelemekb®l képzett egyetlen statisztikával becsültük. Most becslésként egy egész intervallumot melynek határait természetesen statisztikák jelölik ki fogunk használni. A köznapi beszédben úgy fogalmazunk, hogy a
ψ(θ) paraméterfüggvény P
Ta és Tf statisztikák ψ(θ) nem valószín¶ségi Legyen X = (X1 , . . . , Xn )
valószín¶séggel a
által meghatározott intervallumban van. Természetesen változó. Az alábbi kijelentésnek mégis van értelme független azonos eloszlású minta a
Pθ
sokaságból (θ ismeretlen)!
78. Deníció. 1−ε
A (Ta (X), Ta (X)) statisztikapárral deniált intervallum legalább szint¶ kondenciaintervallum a ψ(θ) paraméterfüggvényre, ha
Pθ (Ta (X) < ψ(θ) < Tf (X)) ≥ 1 − ε, ahol
ε
el®re adott kis pozitív szám (például
tartozó szignikanciaszint pedig
(2.9)
ε = 0.05, ε = 0.01,
a hozzájuk
95%, 99%).
Nem világos, hogy a denícióban szerepl®
Pθ valószín¶ség milyen paraméterértékhez
tartozik. Egyes szerencsés esetekben az (2.9) beli valószín¶ség nem függ
θ-tól.
Kondenciaintervallum szerkesztése a normális eloszlás várható értékére ismert szórás esetén
X1 , . . . , Xn ∼ N (µ, σ02 ) független azonos eloszlású minta, ahol σ02 ismert, ¯ −rε , X ¯ +rε ) szimmetrikus alakban: µ (a várható érték) ismeretlen paraméter. (X
Legyen
¯ − rε < µ < X ¯ + rε ) = Pµ (|X ¯ − µ| < rε ) = Pµ (−rε < X ¯ − µ < rε ) = Pµ ( X ( ) ( ) ( ) ¯ −rε X −µ rε rε −rε √ < √ < √ √ √ Pµ =Φ −Φ , σ0 / n σ0 / n σ0 / n σ0 / n σ0 / n Φ(·) normális eloszlásfüggvény, és rε -t úgy kell megválasztani, ) ( standard Φ−1 (1− 2ε )σ0 rε√ √ − 1 = 1 − ε , teljesüljön. Így rε = . hogy 2Φ σ0 / n n Vegyük észre, hogy a kondenciaintervallum hossza n növelésével és a σ0 ahol
szórás csökkentésével csökken. Ismeretlen szórásnégyzet esetén a a standard normális eloszlást a megfelel® szabadságfokú Student-eloszlással helyettesítjük.
Pθ (Ta (X) < ψ(θ) < Tf (X)) ≥ 1−ε vaθ-tól. Ha a feladatot nem lehet θ-tól független szimmetrikus valószín¶ségeire visszavezetni, akkor monoton nem csökken® ψ(θ) függ-
A fenti két esetben az (2.9) képletben lószín¶ség nem függ eloszlás
vény esetén a következ®k®ppen járunk el. El®ször önkényesen felbontjuk az (2.9)
Pθ1 (Ta (X) > ψ(θ)) ≤ ε/2-re és Pθ2 (ψ(θ) > Tf (X)) ≤ ε/2-re. Szavakψ(θ1 ) értékét csökkentjük, a minta θ1 melletti valószín¶sége, 1 − ε/ fölé n®, míg ha ψ(θ2 ) értékét növeljük, a minta θ2 melletti valószín¶sége, ε/2 alá csökken. Az eljárás akkor korrekt, ha a θa (ε) függvény monoton nem növekv®, míg a θf (ε) függvény monoton nem csökken®.
képletet
ban kifejezve, ha
2.1.
45
ELMÉLETI HÁTTÉR
λ paraméterére szerkesztett kondencia inX1 , . . . , Xn ismeretlen λ paraméter¶ Poisson eloszlásból vett független azonos eloszlású minta, ismeretes, hogy az Y = X1 + · · · + Xn összeg elégséges statisztika, és eloszlása nλ paraméter¶ Poisson. ∑Y λja Számítsuk ki azt a λa értéket, amire exp(−λa ) j=0 j! = 1 − ε/2, majd azt ∑Y λja a λf értéket, amire exp(−λf ) j=0 j! = ε/2, Nyilván λ csökkentésével a deniáló összeg n®, és λ növelésével a deniáló A módszert a Poisson-eloszlás
tervallummal illusztráljuk. Legyen
összeg csökken. Az alábbi ábra
λ
függvényében mutatja
2.5. ábra.
A
[λa , λf ]
exp(−λ)
exp(−λ)
intervallumot tekinthetjük a
∑Y
λ j=0 j! -t.
∑Y
λ
λ j=0 j!
paraméter
1−ε
magbízhatósági
szint¶ kondencia intervallumának. Ezt az alábbi ábra illusztrálja (a kék terült
1 − ε). Az alábbi interakív ábra a binomiális eloszlás
p paramétere esetén szemlélteti
a fenti eljárást.
2.1.3.
Hipotézisvizsgálat
A Tananyagban csak ún. paraméteres hipotézisvizsgálatokkal foglalkozunk. Ez tekinthet® a paraméterbecslési feladat egy speciális esetének, amikor el®zetes információnk van a paraméter lehetséges értékeir®l, és csak azt kell eldönteni, hogy melyik érték a valószín¶bb. Valójában a hipotézisvizsgálat majdnem minden feladatát az egyszer¶ alternatívára vezetjük vissza. Tegyük fel, hogy a paramétertér mindössze két elemb®l áll:
Θ = {θ0 , θ1 }. θ = θ0
Θ
hipotézist szokás
46
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
2.6. ábra. Konndencia intervallum a Poisson eloszlás
λ
paraméterére
H1 : θ = θ1 } az ellen-hipotézis. Θ paramétertartományt két halmaz diszjunkt uniójára (T heta = T heta0 cupT heta1 és T heta0 ∩ T heta1 = ∅). Leggyakrabban a null-hipotézis egyszer¶ θ = θ0 , míg az ellenhipotézis θ ̸== θ0 H0 -lal
jelölni és null-hipotézisnek nevezni, míg a
Mindkét hipotézis lehet összetett is: a
alakú. Döntésünkkor kétféle hibát követhetünk el: 1. Elvetjük a null-hiptézist, pedig igaz; ezt nevezzük els®fajú hibának, mert ennek a valószín¶sége egyszer¶ nullhipotézis esetén null-hipotézishez tartozó eloszlás alapján kiszámolható. A hipotézisvizs-
gálat a gyakorlatban legtöbbször úgy történik, hogy keresünk a mintaelemeknek egy olyan függvényét, amelynek eloszlása az egyszer¶ null-hipotézis fennállása esetén ismert. Ez a próbastatisztika. (ha szerencsénk van, az ellen-hipotézishez tartozó paraméterértékekre is ismert) 2. Elfogadjuk a null-hiptézist, pedig nem igaz; ezt nevezzük másodfajú hibának,
H1 hipotézis esetén függ a θ ∈ Θ1 paramétert®l. X = (X1 , . . . , Xn ) minta alapján lehet determin-
ennek a valószín¶sége összetett Döntésünk valamely, az
isztikus, és (diszkrét értékkészlet¶ valószín¶ségi változók esetén) ún. randomizált. A determinisztikus döntéskor a
Xk kritikus tartományra.
Xe ∩ Xk = ∅,
X
mintateret felosztjuk
Xe
Xe ∪ Xk = X .
Az els®fajú hiba valószín¶sége egyszer¶ null-hipotézis esetén:
Pθ0 (X ∈ Xk ). A hipotézisvizsgálatban a döntést
próbának nevezik.
elfogadási- és
2.1.
47
ELMÉLETI HÁTTÉR
A kritikus tartományt leggyakrabban ún.
{
Ψ próbafüggvénnyel deniáljuk:
X ∈ Xe ⇔ Ψ(X) = 0, X ∈ Xk ⇔ Ψ(X) = 1.
El®fordulhat, hogy ilyen alakú próbafüggvénnyel még egyszer¶ alternatíva esetén sem lehet minden
ε
értékére pontosan beállítani az els®fajú hibát, s®t
a mintateret sem lehet két diszjunkt tartományra osztani úgy hogy az els®fajú hiba adott
ε
legyen. Ilyenkor háromérték¶ (randomizált) próbafüggvényt alka-
lmazunk:
0, Ψ(X) = p, 1, Ha
Ψ(X) = p,
akkor a nullhipotézist
p
valószín¶séggel elfogadjuk.
Ha a null-hipotézis összetett a próba terjedelmér®l beszélünk.
79. Deníció.
A
Xk
kritikus próba
pontos terjedelme:
sup Pθ (X ∈ Xk ). θ∈Θ0 A pontos terjedelem diszkrét eloszlások esetén általában nem érhet® el.
80. Deníció. Az Xk kritikus tartománnyal értelmezett próba ereje a alternatívával szemben: βn (θ, ε) = 1 − Pθ (X ∈ Xe ) = Pθ (X ∈ Xk ),
θ ∈ Θ1
θ ∈ Θ1
teljesül. A próbák esetén is deniálható a torzítatlanság, nevezetesen, ha er®függvénye az ellen-hipotézishez tartozó paraméterértekre sem kisebb, mint a próba terjedelme. Precízen fogalmazva:
81. Deníció. Az Xk kritikus torzítatlan, ha
tartománnyal deniált próba legfeljebb
ε
ter-
jedelm¶
Pθ (X ∈ Xk ) ≤ ε,
ha
θ ∈ Θ0 ,
Pθ (X ∈ Xk ) ≥ ε,
ha
θ ∈ Θ1 .
és
Rögzített terjedelem esetén elvárható, hogy a mintaelemszám növelésével próba másodfajú hibája az ellen-hipotézishez tartozó minden paraméterértékre nullához tartson.
48
FEJEZET 2.
82. Deníció. próba
ε
Az
terjedelm¶
ELISMERETEK 2.: STATISZTIKAI ALAPOK
(n)
n elem¶ mintához tartozó Xk
konzisztens,
kritikus tartománnyal deniált
ha (n)
sup Pθ (Xn ∈ XXk ) = ε,
∀n ∈ N
θ∈Θ0
és
(n)
lim βn (θ, ε) = lim Pθ (Xn ∈ Xk ) = 1,
n→∞
∀θ ∈ Θ1 .
n→∞
A hipotézisvizsgálat legalapvet®bb tétele az egyszer¶ alternatívára érvényes NeymanPerson-Lemma.
83. Tétel (NeymanPearson-Lemma). H0 : θ = θ 0 egyszer¶ alternatívára tetsz®leges
H1 : θ = θ 1
versus
ε > 0-ra
A
létezik
ε
terjedelm¶ próba, amelynek
másodfajú hibája minimális, amelynek (esetleg randomizált) próbafüggvénye
0, ψ(X) = p, 1,
ha ha ha
ahol a Lθj (X) j = 0, 1 és a c = cε meg, hogy a próba terjedelme ε legyen
84. Megjegyzés.
>0
Lθ1 (X) Lθ0 (X) Lθ1 (X) Lθ0 (X) Lθ1 (X) Lθ0 (X)
és
< c, = c,
(2.10)
> c,
p = pε
számokat úgy választjuk
Diszkrét eloszlás esetén általában nincs olyan
a determinisztikus próba els®fajú hibája pontosan
ε
c
érték, amire
ezért randomizált próbát al-
kalmazunk. Természetesen megtehetjük, hogy szigorúak vagyunk és sz¶kebb kritikus tartományt (kisebb
c-t)
választunk, vagy a kisebb els®fajú hiba el®nyosebb,
és engedékenyebbek vagyunk. Az elméleti összefoglalóban egyetlen példát mutatunk arra az esetre, amikor a NeymanPearson-lemma alapján próba szerkeszthet®. Ez az ún.
u-próba.
egymintás
X : X1 , . . . , Xn független azonos eloszlású N (θ, 1) eloszlású minta, θ0 (null-hipotézis) és θ1 > θ0 (ellen-hipotézis). A normális Lθ1 (X) eloszlás s¶r¶ségfüggvényének alakjából kiolvasható, hogy a Lθ0 (X) ≥ c egyen√ ′ ′ l®tlenség pontosan akkor teljesül ha nX ≥ c , ahol √ √ c -t ugy kell megválasztani, ′ hogy P( nX > c ) = ε teljesüljön. Mivel Mivel nX standard normális elos′ −1 zlású, c = Φ (1 − ε). A megfelel® kvantiliseket itt interaktív ábra segítségével Legyen
θ
lehetséges értékei
határozhatjuk meg. Az er®függvény mutatja az u próba konzisztenciáját (az alsó kék vonal az els®fajú hibánál, a fels® 1-nél van). Az alábbi animáció az u próba konzisztenciáját mutatja. A NeymanPearson-lemma randomizált változata alapján szerkesztend® próba a feladatok között szerepel. Végül mutatunk egy általanosan használt módszert, amely számos módszer alapját képezi, és a többváltozós statisztikában más lehet®ség híján mindig ezt alkalmazzuk.
2.1.
49
ELMÉLETI HÁTTÉR
2.7. ábra. u próba els®fajú hibája
2.8. ábra. u próba másodfajú hibája
µ
függvényében
A Likelihood-hányados próba Ez a fajta próba olyan, viszonylag általános esetekben használható, mikor a nullhipotézis azt jelenti, hogy paraméterünk a véges dimenziós, konvex paramétertér
50
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
2.9. ábra. u próba ereje (1−másodfajú hiba)
µ
függvényében
valamely alacsonyabb dimenziós, összefügg® részsokaságába esik:
H0 : θ ∈ Θ0 ahol
versus
H1 : θ ∈ Θ1 ,
Θ0 ∩ Θ1 = ∅, Θ0 ∪ Θ1 = Θ, és a dim(Θ0 ) = r, dim(Θ) = k jelöléssel r < k n-elem¶ minta alapján konstruálandó próbastatisztika:
teljesül. Az
λn (X) =
supθ∈Θ0 Lθ (X) . supθ∈Θ Lθ (X)
Tényleg statisztikát kapunk (λn (X) nem függ
θ-tól), amely 0 és 1 közötti értékeket
vesz fel.
85. Állítás.
Bizonyos regularitási feltételek mellett
n→∞
esetén
−2 ln λn (X) → χ2 (k − r) eloszlásban, Ezért
ε
H0
fennállása esetén. (l. [3] 3.10 paragrafus)
terjedelemhez a kritikus tartomány:
Xk = {x : λn (x) ≤ λε } = {x : −2 ln λn (x) ≥ cε }, ahol a
cε = −2 ln λε > 0
konstans a
χ2 (k − r)
eloszlás
1−ε
kvantilise.
2.1.
51
ELMÉLETI HÁTTÉR
A leggyakrabban használt próbák t-próba (Student-próba).
Normális eloszlás várható értékének tesztelésére
vagy két normális várható érték összehasonlítására használják ismeretlen szórás(ok) esetén. A gyakorlatban kis mintákra alkalmazzák, a normális eloszlást fel kell 2 tenni. Egymintás t-próba. Legyen X ∼ N (µ, σ ) háttérváltozó ismeretlen paraméterekkel. A
H0 : µ = µ 0 hipotézis vizsgálatára az
n
elem¶
H1 : µ ̸= µ0
versus
X1 , . . . , Xn ∼ N (µ, σ)
független, azonos elos-
zlású mintából konstruált próbastatisztika:
t(X) = az
1−ε
¯ − µ0 √ X n, Sn∗
szignikanciaszinthez konstruált kritikus tartomány pedig
Xk = {x : |t(x)| ≥ tε/2 (n − 1)}, ahol
tε/2 (n − 1)
az
n−1
szabadságfokú
t-eloszlás (1 − ε/2)-kvantilise.
A
t-
eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. Null-hipotézisünket
|t(x)| < tε/2 (n − 1),
1 − ε szinten elfogadjuk, ha a mintarealizációból számolt
és elutasítjuk különben.
Kétmintás t-próba. Legyen
X ∼ N (µ1 , σ 2 )
és
Y ∼ N (µ2 , σ 2 )
két tetsz®leges
várható érték¶, de azonos szórású háttérváltozó. Az összes paraméter ismeretlen. Még ebben a paragrafusban megmutatjuk, hogyan lehet ismeretlen szórások egyenl®ségét tesztelni. A
H0 : µ1 = µ2
vers.
H1 : µ1 ̸= µ2
n1 elem¶ X1 , . . . , Xn1 ∼ N (µ1 , σ 2 ) független, azonos Y1 , . . . , Yn2 ∼ N (µ2 , σ 2 ) független, azonos eloszlású, egymástól
hipotézis vizsgálatára az eloszlású és az
is független mintákból konstruált próbastatisztika:
t(X, Y) = √
az
1−ε
√
¯ − Y¯ X (n1 −
∗ 2 1)SX
+ (n2 −
1)SY∗ 2
·
n1 n2 (n1 + n2 − 2) n1 + n2
szignikanciaszinthez konstruált kritikus tartomány pedig
Xk = {(x, y) : |t(x, y)| ≥ tε/2 (n1 + n2 − 2)}, ahol most az
n1 + n2 − 2
szabadsági fokú
t-eloszlást
használjuk. A
t-eloszlások
kvantiliset itt interaktív ábra segítségével tudjuk meghatározni.
F -próba. Két normális eloszlású változó szórásának összehasonlítására használják. X ∼ N (µ1 , σ12 ) és Y ∼ N (µ2 , σ22 ) két ismeretlen paraméter¶, normális
Legyen
eloszlású háttérváltozó. A szórások egyenl®ségét szeretnénk tesztelni:
H0 : σ 1 = σ 2
versus
H1 : σ1 ̸= σ2 .
52
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
n1 elem¶ X1 , . . . , Xn1 ∼ N (µ1 , σ 2 ) független, azonos eloszlású és az Y1 , . . . , Yn2 ∼ N (µ2 , σ 2 ) független, azonos eloszlású, egymástól is független minták alapján ∗ 2 2 2 ∗2 2 vizsgálódunk. Tudjuk, hogy (n1 − 1)SX /σ1 ∼ χ (n1 − 1) és (n2 − 1)SY /σ2 ∼ 2 χ (n2 − 1) függetlenek. Leosztva ®ket külön-kölön a saját szabadsági fokukkal, majd a hányadosukat véve F(n1 , n2 )-eloszlású valószín¶ségi változót kapunk, ezt tekinthetjük egyben az (n1 , n2 ) szabadsági fokú Fisher-eloszlás deníciójának. H0 fennállása esetén a hányados
Az
F (X, Y) =
∗ 2 SX , SY∗ 2
F(f1 , f2 ) eloszlású valószín¶ségi F(f2 , f1 ) eloszlású lesz, az X , Y szereposztást úgy választhatjuk, ∗ 2 ∗ 2 hogy a konkrét realizáció alapján számolt sX ≥ sY legyen. Ezután 1−ε szinten elutasítjuk H0 -t, ha F (x, y) ≥ Fε/2 (n1 − 1, n2 − 1), ahol a megfelel® szabadsági fokú F -eloszlás (1 − ε/2)-kvantilise a kritikus érték. Az F -eloszlások kvantiliset így ezt a próbastatisztikát vezetjük be. Mivel egy változó reciproka
itt interaktív ábra segítségével tudjuk meghatározni. A következ® két próba ún. nemparaméteres próba, az els® esetben a
H0
hipotézis az, hogy a minta egy adott diszkrét eloszlást követ, míg a második
H0 hipotézis az, hogy a minta egy adott folytonos χ -próba. Legyen A1 , . . . , Ar teljes eseményrendszer és
esetben a 2
∑r
H0 : P(Ai ) = pi
eloszlást követ.
(i = 1, . . . , r),
i=1 pi = 1 valószín¶ségek adottak. Végezzünk ∑rn db. megν1 , . . . , νr az A1 , . . . , Ar esemény gyakoriságát ( i=1 νi = n)! Akkor H0 fennállása esetén a (ν1 , . . . , νr ) valószín¶ségi változó polinomiális elosahol a
pi > 0,
gyelést! Jelölje zlású:
{
PH0 (ν1 = n1 , . . . , νr = nr ) =
n1 n! n1 !···nr ! p1
0,
A alábbi tétel biztosítja, hogy a az totikusan
· · · pnr r ,
∑r i=1
n1 + · · · + nr = n, különben.
ha
(νi −npi )2 próbafüggvény aszimpnpi
χ2 -eloszlású.
86. Tétel. Ha (ν1 , . . . , νr ) polinomiális eloszlású (vagyis a (3.1)-beli H0 fennállása esetén), akkor r ∑ (νi − npi )2 i=1
npi
n és p1 , . . . , pr (pi > 0) paraméterekkel n → ∞ esetén
→ χ2 (r − 1)
eloszlásban. A
χ2 -eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. pi értékekt®l, csak r-t®l.
Megjegyzés. A határeloszlás nem függ a
KolmogorovSzmirnov-próba. Ezt a próbát tiszta illeszkedésvizsgálat céljára használjuk olyan esetekben, mikor a háttéreloszlás folytonos. A próbastatisztika konstrukciójánál kihasználjuk a KolmogorovSzmirnov tételkört.
2.2.
53
FELADATOK
Egymintás eset (illeszkedésvizsgálat):
H0 : P(X < x) = F (x),
∀x ∈ R
(F adott folytonos eloszlásfüggvény).
H1 : Jelölje
F∗
van olyan
x ∈ R, P(X < x) ̸= F (x).
a tapasztalati eloszlást és legyen
Dn = sup |Fn∗ (x) − F (x)|. x∈R
Amennyiben
x∗1 ≤ · · · ≤ x∗n az x = (x1 , . . . , xn ) mintarealizáció rendezett alakja,
akkor
Dn (x) = max max{|Fn∗ (x∗i ) − F (x∗i )|, |Fn∗ (x∗i + 0) − F (x∗i )|} = i
= max max{| i
i−1 i − F (x∗i )|, | − F (x∗i )|}. n n
H0 fennállása esetén √ lim P( nDn < z) = K(z), ∀z ∈ R,
Kolmogorov tétele alapján tudjuk, hogy
n→∞ ahol
{ 0, K(z) = ∑∞
i −2i i=−∞ (−1) e
2 2
z
=1−2
ha
∑∞
i−1 −2i e i=1 (−1)
2 2
z
,
ha
z ≤ 0, . z > 0,
A Kolmogorov-eloszlás kvantiliset itt interaktív ábra segítségével tudjuk meghatározni.
2.2.
Feladatok
1. Igaz-e, hogy a tapasztalati korreláció mindig
−1
és 1 közé esik? Mikor
teljesülhet valamelyik egyenl®ség?
Tipp: Alkalmazzuk a véges dimenzós CauchySchwarz-egyenl®tlenséget! Válasz: Igaz. {
1, − 1,
2. Legyen
ha a két minta egymás pozítív számszorosa, ha a két minta egymás negatív számszorosa.
X1 , . . . , Xn független, p paraméter¶ Bernoulli eloszlásból vett statisztikai
minta. (a) Milyen eloszlású (b) Adjuk meg a
∑n i=1
k -adik
Xi ?
empirikus (tapasztalati) momentum eloszlását!
54
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
(c) Adjuk meg a második empirikus (tapasztalati) centrális momentum eloszlását!
Tipp: (a) Elemi számolás. (b) A diszkrét eloszlású valószín¶ségi változók függvény eloszlásának számolása. (c) Alkalmazzuk az el®z® 2 pont eredeményét
k = 1, 2-re.
Válasz: (a)
Bn (p). nk /n, (n − 1)k /n, . . . , 1/n, 0 számok valószín¶ségei ugyanazok, mint a Bn (p) eloszlásban az n, n − 1, . . . , 1, 0 értékek valószín¶ségei. ( )2 ( )2 (n+1) n − (n+1) , . . . , − számok valószín¶ségei ugyanazok, mint 2n 2n a Bn (p) eloszlásban az n, n − 1, . . . , 1, 0 értékek valószín¶ségei.
(b) Az
(c)
X 1 , . . . , Xn
3. Legyen
független,
λ1 , . . . , λn
paraméter¶ Poisson eloszlásból
vett minta. (a) Milyen eloszlású (b) Adjuk meg
Tipp:
X
∑n i=1
Xi ?
eloszlását!
Alkalmazzuk a képletgy¶jteményt.
Válasz: (a)
nλ
(b) A
paraméter¶ Poisson.
{0, 1/n, 2/n, . . . } értékeket ugyanazzal nλ paraméter¶ Poisson-eloszlás.
a valószín¶ségel veszi fel,
mint az 4. Legyen
X1 , . . . , Xn ∼ N (µ, σ 2 ) független minta. Milyen eloszlású X ? (Ad-
juk meg a várható értéket és a szórásnégyzetet is!)
Tipp:
l. képletgy¶jtemény.
Válasz: N (µ, σ 2 /n). 5. Legyen
X√ 1 , . . . , Xn ∼ U(−1, 1) n · X?
független minta. Aszimptotikusan milyen
eloszlású
Tipp:
Számítsuk ki a
U(−1, 1)
eloszlás els® két momentumát és alka-
lmazzuk a centrális határeloszlás-tételt.
Válasz: N (0, 1/3).
2.2.
55
FELADATOK
X1 , . . . , Xn
6. Legyen
nyel. Aszimptotikusan milyen
Tipp:
1 f (x) = 2√ e− 2 √ eloszlású n · X?
független minta
√ 2|x|
s¶r¶ségfüggvén-
A feladatban szerepl® valószín¶ségi változók várható értéke 0, σ 2 , ez utóbbit az exponenciális eloszlás s¶r¶ségfüg-
szórasnégyzetet jelölje
gvényének és második momentumának ismeretében kiszámíthatjuk. Alkalmazzuk a centrális határeloszlás-tételt.
Válasz:
Vegyük észre, hogy
f (x)
a teljes számegyenesen van értelmezve!
N (0, 1). 7. Legyen
X 1 , . . . , Xn
független,
minta. Milyen eloszlású
Tipp:
λ
paraméter¶ exponenciális eloszlásból vett
X?
keressük meg a képletgy¶jteményben a gamma eloszlás s¶r¶ségfüggvényét-
Válasz: G(n, λ). n-edrend¶ λ paraméter¶ gamma eloszlás −k -adik momenk < n. ∫ Tipp: Számitsuk ki az 0∞ X −k f (x)dx integrált, ahol f (x) a G(n, λ) −k eloszlás s¶r¶ségfüggvénye. Használjuk ki azt a tényt, hogy x f (x) G(n − k, λ) s¶r¶ségfüggvényének konstansszorosa (l.képletgy¶jtemény abszolút
8. Számoljuk ki az tumát, ahol
folytonos eloszlások).
Válasz:
λk (n−1)...(n−k)
9.
X1∗ < . . . rendezett minta.
10. Legyen
< Xn∗
(a) Igazoljuk, hogy
a
[0, 1]
X1∗ , . . . , Xn∗
intervallumon egyenletes eloszlásból vett
nem függetlenek!
1−Xn∗ , . . . , 1−X1∗ szintén a letes eloszlásból vett rendezett minta!
(b) Igazoljuk, hogy
(c) Milyen eloszlású
∗ Xk+1 − Xk∗ ,
ahol
[0, 1] intervallumon egyen-
1 ≤ k < n?
Tipp: (a) Elemi logika. (b) Hivatkozzunk a egyenletes eloszlás szimmetriájára. (c) l. rendezett minta elemeinek együttes s¶r¶ségfüggvénye.
Válasz: ∗ ∗ (a) Ha például X1 = 0, 001, akkor X2 felveheti a 0,002 értéket, míg ∗ ∗ ∗ ha X1 = 0, 99, akkor X2 nem veheti fel a 0,002 értéket, azaz X2 ∗ ∗ feltételes eloszlása X1 -ra nézve függ X1 értékét®l.
56
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
(b) Mivel az egyenletes eloszlás szimmetrikus az
X1
1/2 ponra, 1−Xn , . . . , 1−
szintén egyenletes eloszlásból vett minta, igy a bel®le képzett ren-
dezett minta szintén az egyenletes eloszlásból vett rendezett minta. (c)
∗ Xk+1 −Xk∗ valószín¶ségi változók azonos eloszlású (de nem független!) ∗ ∗ ∗ valószín¶ségi változók, Xk+1 −Xk eloszlása azonos az X1 valószín¶ségi változóeloszlásával, ami B(1, n) Béta eloszlású.
11. Legyen
X1 , . . . , Xn független, az [a, b] intervallumon egyenletes eloszlásból X1∗ < . . . < Xn∗ pedig a bel®le gyártott rendezett minta. Adjuk
vett minta, meg
Xk
eloszlás- és s¶r¶ségfüggvényét, valamint várható értékét!
Tipp: l. a rendezett minta elemeinek eloszlását. Válasz: Eloszlásfüggvény: n ( ) ∑ n Gn,k (x) = [F (x)]j [1 − F (x)]n−j j j=k
és a s¶r¶ségfüggvény:
gn,k (x) = n ahol
F
az
( ) n−1 [F (x)]k−1 [1 − F (x)]n−k F ′ (x), k−1
[a, b]
várható érték
intervallumon egyenletes eloszlás eloszlásfüggvénye. A k a+b 2 · n+1 .
√
független minta az F (x) = ∗ függvénnyel. Adjuk meg Xk s¶r¶ségfüggvényét!
12. Legyen
X1 , . . . , X n
x (0 < x < 1)
eloszlás-
Tipp: Lásd az el® z® feladat megoldását! Válasz: 1[0,1] 1/2 · gn,k (x) = n
( ) √ n − 1 √ k−1 [ x] [1 − x]n−k x−1/2 k−1
X1∗ < . . . < Xn∗ a [0, 1] intervallumon egyenletes eloszlásból vett ∗ ∗ rendezett minta, és Y1 < . . . < Yn az el®z®t®l független, szintén a [0, 1] ∗ intervallumon egyenletes eloszlásból vett rendezett minta. Adjuk meg Xk − ∗ Yk s¶r¶ségfüggvényét (1 ≤ k ≤ n)!
13. Legyen
Tipp:
Két független
B(k, n−k+1) eloszlású valószín¶ségi változó különb-
ségének s¶r¶sége a kérdés, ami konvolúcióval meghatározható. Figyeljünk az integrálás tartományára!
Válasz: 14. Legyen
X1∗ , . . . , Xn∗
a
λ
paraméter¶ exponenciális eloszlásból vett ren-
dezett minta. (a) Adjuk meg a vényét!
k -adik (1 ≤ k ≤ n)
mintaelem eloszlás- és s¶r¶ségfügg-
2.2.
57
FELADATOK
(b) Milyen eloszlású a
∗ δk := Xk+1 − Xk∗ ,
ahol
1 ≤ k < n?
Tipp: (a) Alkalmazzuk a 12 feladatot,
F (x)
helyébe
1 − exp(−λx)-et
írva.
(b) Alkalmazzuk az exponenciális eloszlás örökifjú tulajdonságát.
Válasz: (a)
( fn,k (x) = n ahol
(b)
) n−1 [F (x)]k−1 [1 − F (x)]n−k f (x) k−1
F (x) = 1 − exp(−λx)-et
és
f (x) = λ exp(−λx).
δk ∼ Exp[(n − k)λ]. X 1 , . . . , Xn
15. Legyen
független, a
(θ − 21 , θ + 12 )
intervallumon egyenletes
eloszlású minta. Legyen
T (X) = Határozzuk meg
Tipp:
T (X) g(z)
X1∗ + Xn∗ . 2
s¶r¶ségfüggvényét!
Lásd A rendezett minták elemeinek együttes s¶r¶ségfüggvényér®l
tanultakat! Ha
X
Y
és
valószín¶ségi változók együttes s¶r¶ségfüggvénye
Z = X +Y ∫ g(z) = f (x, z − x)dx
a konvolúcióhoz hasonlóan a gvénye:
f (x, y), akkor
valószín¶ségi változó s¶r¶ségfüg-
Figyeljünk az integrálás tartományára, és használjuk fel azt a tényt, hogy a keresett s¶r¶ségfüggvény szimmetrikus
Válasz:
{ g(z) =
16. Igazoljuk, hogy ha
θ-ra!
n · [1 + 2(z − θ)]n−1 , ha z < θ, n/2 · [1 − 2(z − θ)]n−1 , ha z > θ
n > 1,
függ a paramétert®l, akkor
X1 nem elfajult és s¶r¶ségfüggvénye valóban T (X) = X1 semmilyen paraméterre sem elégséges!
és
Tipp: Használjuk fel elégséges statisztika denícióját! Válasz: Legyen két mintánk: X1 és X2 . A függetlenség együttes s¶r¶ségfüggvényének feltételes s¶r¶ségfüggvénye pen
X2
miatt kettejük
X1 -re
nézve ép-
s¶r¶ségfüggvénye, ami természetesen függ a paramétert®l.
17. Igazoljuk, hogy a rendezett minta minden paraméterre elégséges statisztika!
Tipp:
X1 , . . . , Xn független azonos eloszlású valószín¶ségi fθ (x) s¶r¶ségfüggvénye, ahol θ egy paraméter. Legyenek
Legyen az
változók közös
58
FEJEZET 2.
X1∗ , . . . , Xn∗
ELISMERETEK 2.: STATISZTIKAI ALAPOK
a fenti valószín¶ségi változókból készített rendezett minta ele-
mei. Mutassuk meg hogy az eredeti f (x1 , . . . , xn ) s¶r¶ségfüggvény rekon∗ ∗ ∗ struálható a rendezett minta f (x1 , . . . , xn ) s¶r¶ségfüggvénye alapján!
Válasz: f {x1 , . . . , xn } = 1(xπ(1) ≤···≤xπ(n) ) f ∗ (xπ(1) , . . . , xπ(n) ) ahol
π
az a permutació ami szerint az aktuális minta rendezetté válik.
Emögött az a heurisztikus tény húzódik meg, hogy ha van egy független mintánk valamely
F
eloszlásból, azt rendezzük, majd a rendezett mintából
véletlenszer¶en visszatevés nélkül kiválásztjuk a mintaelemeket, akkor ismét egy független mintát kapunk ugynabból az 18. Legyenek
X1 , . . . , Xn
független, a Xn∗ a
ból vett minta! Igaz-e, hogy
Tipp:
F
eloszlásból.
[0, θ] intervallumon egyenletes eloszlásθ paraméterre elégséges statisztika?
l. képletgy¶jtemény abszolút folytonos eloszlások és alkalmazzuk
a Neyman-Fisher faktorizációt.
Válasz:
Igen.
19. Tegyük fel, hogy
T
statisztika torzítatlan becslése
intsünk egy tetsz®leges becslése
S
statisztikát. Igaz-e, hogy
θ paraméternek. TekE(T |S) is torzítatlan
θ-nak?
Tipp: Alkalmazzuk feltételes várható érték tulajdonságait, Válasz: Igen, mert E(E(T |S)) = E(T ). 20. Legyen
X
valószín¶ségi változó, amelynek létezik a szórása.
(a) Tegyük fel, hogy ismert az E(X) = θ várható érték. Igazoljuk, hogy ∑n S12 = n1 i=1 (Xi − θ) torzítatlan becslése a szórásnégyzetnek! Mit mondhatunk a konzisztenciáról?
∑
n 1 2 i=1 (Xi − X) n empirikus szórásnégyzet nem torzítatlan becslése a szórásnégyzetnek!
(b) Az (a) pont segítségével igazoljuk, hogy az
Sn2 =
Készítsünk segítségével torzítatlan becslést!
Tipp: (a) Közvetlen számolás. Alkalmazzuk a nagy számok törvényét ( keressük meg a képletgy¶jteményben). (b) Közvetlen számolás.
Válasz: (a) Er®sen konzisztens. (b) Az
Sn∗2 =
1 n−1
∑n
i=1 (Xi
− X)2
torzítatlan becslés.
21. Tekintsünk az alábbi eloszlásokból egy statisztikát az ismeretlen paraméterre!
n
elem¶ mintát! Adjunk elégséges
2.2.
59
FELADATOK
(a)
p
(b)
(5, p)
paraméter¶
paraméter¶ negatív binomiális eloszlás,
paraméter¶ geometriai eloszlás,
(c)
(3, p)
(d)
G(2, λ),
(e)
G(α, 2),
(f )
θ = (α, λ)
(g)
N (µ, 1),
(h)
N (0, σ 2 ),
(i)
N (µ, σ 2 ),
(j)
m
(k) (l)
[−α, α]
Tipp:
binomiális eloszlás,
paraméter¶ Gamma eloszlás,
χ2
szabadságfokú
θ = (a, b)
B5 (p)
eloszlás,
paraméter¶ Béta eloszlás,
intervallumon egyenletes eloszlás.
l. képletgy¶jtemény nevezetes eloszlások, továbbá használjuk a
Neyman-Fisher faktorizációt (l. elégséges statisztika).
Válasz: (a) Pl.
X1 + . . . + X n ,
(b) pl.
X1 + . . . + Xn ,
(c) pl.
X1 + . . . + Xn ,
(d) pl.
X1 + . . . + Xn ,
(e) pl.
X1 · . . . · Xn ,
(f ) pl.X1
X 1 · . . . · Xn ,
X1 + . . . + Xn ,
(h) pl.
X12 + . . . + Xn2 ,
(i) pl.
X1 + . . . + Xn ,
(j) pl.
X1 + . . . + Xn , X12 + . . . + Xn2 , ∏n ∏n i=1 Xi , j=1 (1 − Xj ),
(k) pl.
X1 , . . . , Xn
független,
vett minta. A
Tipp:
X12 + . . . + Xn2 ,
max{−X1∗ , Xn∗ }.
(l) pl. 22.
+ . . . + Xn ,
(g) pl.
θ
θ = (r, p) paraméter¶ negatív binomiális eloszlásból
paraméterre elégséges statisztika-e a mintaátlag?
l. képletgy¶jtemény diszkrét eloszlások és Neyman-Fisher faktor-
izáció (l. elégséges statisztika).
Válasz:
Nem, itt két paraméterre kell elégséges statisztikát adni!
23. Elégséges statisztika-e
θ paraméterre Lθ (X) (ahol Lθ a likelihood-függvény)?
Tipp: Elemi logika. Válasz: Nyilván nem, hiszen benne van a paraméter.
60
FEJEZET 2.
24. Legyenek
ELISMERETEK 2.: STATISZTIKAI ALAPOK
X1 , . . . , Xn független, λ paraméter¶ Poisson eloszlású valószín¶ségi
változók. (a) Igaz-e, hogy (b) Adjunk a
λ
X
elégséges statisztika a
λ
paraméterre!
paraméterre a fentit®l különböz® elégséges statisztikát!
Tipp: (a) l. képletgy¶jtemény diszkrét eloszlások és Neyman-Fisher faktorizáció (b) L. elégséges statisztika tulajdonságait.
Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaösszeg és annak invertálható függvényei (utóbbiak a minimális megoldások). 25. Legyen
X1 , . . . , Xn λ
paraméter¶ exponenciális eloszlásból vett független
minta. (a) Igaz-e, hogy (b) Adjunk a
λ
∑n i=1
Xi
elégséges statisztika a
λ
paraméterre?
paraméterre más elégséges statisztikákat!
Tipp: (a) Írjuk fel a likelihood függvényt azaz az
X 1 , . . . , Xn
együttes s¶r¶ség-
függvényét (l. képletgy¶jtemény abszolút folytonos eloszlások) (b) L. el®z® feladat.
Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaátlag, a mintaösszeg invertálható függvényei (utóbbiak a minimális megoldások). 26. Legyen
X1 , . . . , Xn
(a) Adjuk meg a
független,
p
p
paraméter
paraméter¶ geometriai eloszlású minta.
Y
maximum likelihood becslését!
(b) Alkalmasan transzformálva tegyük
Y -t
torzitatlan becsléssé!
Tipp: (a) Közvetlen számolás. (b) Keressük meg a képletgy¶jteményben a negatív binomiális eloszlást, és okoskodjunk az
E(1/X)
kiszámításához hasonló módon, ugyanis
a negatív binomiális eloszlás éppolyan általánosítása a geometriai eloszlásnak, mint a gamma eloszlás az exponenciális eloszlásnak.
2.2.
61
FELADATOK
Válasz: n Y n−1 (b) Y −1 . Vegyük észre, hogy ez a képlet (a)
X1 , . . . , Xn
27. Legyen
független, a
n = 1-re
nincs értelmezve!
[θ + 21 , θ − 12 ]
intervallumon egyenletes
eloszlású minta. (a)
X
torzítatlan becslése-e
θ-nak? Ha nem, készítsünk segítségével torzí-
tatlan becslést! (b)
Xn∗ − 12
torzítatlan becslése-e
θ-nak?
Ha nem, készítsünk segítségével
Xn∗ −
1 2 gyengén konzisztens becslései
torzítatlan becslést!
X
(c) Igazoljuk, hogy
er®sen és
θ-nak!
Tipp: (a) A mintaátlag torzitatlan becslése a várható értéknek.
Xn∗ −
1 2 valószín¶ségi változó várható értékjét (l. a rendezett minták-ról szóló paragrafust).
(b) Számítsuk ki az
Y2 = Xn∗ −
1 2 becslések gyenge konzisztenciájá2 2 nak igazolásához számitsuk ki E(Y1 − θ) és E(Y2 − θ) négyzetes rizikókat és alkalmazzuk Csebisev-egyenl®tlenséget. Az Y1 becslés
Y1 = X
(c) Az
és az
a nagy számok er®s törvénye miatt er®sen konzisztens, míg az négyzetes rizikója kisebb nagyságrend¶, mint az
Y1
Y2
becslésé. ( A
szükséges információkat keressük meg a képletgy¶jteményben és a rendezett minták-ról szóló paragrafusban).
Válasz: (a) Igen. (b) Nem, de az
Y2 + 1/(n + 1)
már torzítatlan.
(c) Az X er®s konzisztenciája az Útmutatás alapján nyilvánvaló, míg az Xn∗ − 12 gyenge konzisztenciája nyilvánvaló az Útmutató alapján (az er®s konzisztencia is igaz, de az (egyszer¶) bizonyítás eszköze nem szerepel a Tananyagban). 28. Legyen
X 1 , . . . , Xn
független, a
[0, θ]
intervallumon egyenletes eloszlású
minta. (a) Adjunk maximum likelihood becslést (b) Igazoljuk, hogy (c) Mivel a
θ/2-re
2X
θ-ra!
torzítatlan becslés
θ-ra!
szimmetrikus az eloszlásunk, a medián egybeesik a
várható értékkel. Tegyük fel, hogy
n páratlan, és készítsünk a tapaszθ-ra!
talati medián segítségébel torzítatlan becslést
62
FEJEZET 2.
(d)
ELISMERETEK 2.: STATISZTIKAI ALAPOK
X1 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést!
(e)
X1∗ torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést!
(f )
Xn∗ torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést!
(g) A fenti becslések közül melyik konzisztens? (h) Számítsuk ki és hasonlítsuk össze a fenti torzítatlan becslések szórásnégyzetét! Melyik a leghatásosabb? (i) Teljesül-e az
In (θ) = nI1 (θ)
összefüggés? Teljesül-e minden esetben
a Cramér-Rao egyenl®tlenség? (j) Igazoljuk, hogy
Xn∗ elégséges statisztika θ-ra. Segítségével blackwellizáljuk
a fenti torzítatlan becsléseket!
Tipp: (a) Vigyázzunk, a linelihood-függvény nem mindenütt deriválható! (b) A mintaátlag mindig torzítatlan becslése a várható értéknek, ami itt
θ/2. (c) Legyen
n = 2k +1, mivel két egymást követ® rendezett minta különb-
ségének várható értéke
θ 2k+2 .
(d) Nyilvánvaló. (e)
E(X1∗ ) = θ/(n + 1).
(f )
E(Xn∗ )θn/(n + 1)
(g) Vizsgáljuk meg a szórásnégyzetüket! (h)
θ=1
(i) A
2X
esetén ismert mindegyik, használjuk ki! szórásnégyzete
θ2 3n ,
I1 (θ) =
1 θ2 .
(j) A rendezett mintákon alapuló becslésekre alkalmazzuk a következ® k ∗ ∗ ∗ heurisztikát: E(Xk |xn ) = n+1 |xn . Ami a 2X -ot illeti, hasonló heurisztika n−1 ∗ ∗ ∗ alapján: tetsz®leges n-re E(Xn |Xn ) = 2n Xn + f rac1nXn .
Válasz: (a)
Xn∗
(b)
2X
(c) a tapasztalati medián kétszerese (jelölje ezt slése. (d) (e) (f )
θˆ1 = 2X1 . θˆ2 = X1∗ (n + 1). θˆ3 = X ∗ (n + 1)/n. n
θˆ0,5 ) θ
torzitatlan bec-
2.2.
63
FELADATOK
(g) (h)
θˆ1 θˆ2
ˆ0,5 szórásnégyzetének is ugyanekkora a a leghatásosabb, de a θ 2 nagyságrendje (∼ 2/n ), elég nagy n-re ez is meghaladja az nI1 (θ) = n θ 2 információs határt.
(i) A Cramér-Rao egyenl®tlenség
n
2X
nagy értékeire csak a
és a
θˆ1 -re
nem teljesül.
Xn∗ statisztika elégségessége következik a Neyman-Fisher szorzattételb®l, gyelembevéve, hogy a likelihood függvény alakja Lθ (x) = 1 ∗ θ · 1{0≤xn ≤θ} . Valamennyi blackwellizált: θ2
(j) Az
29. Legyen
X1 , . . . , X n
független, a
[−θ, θ]
intervallumon egyenletes eloszlású
minta. (a) Adjunk
θ-ra
torzítatlan becslést
|X|
segítségével!
(b) Konzisztens-e a fenti becslés?
Tipp: (a) Alkalmazzuk a következ® heurisztikus meggondolást: az független, a
[−θ, θ]
X 1 , . . . , Xn
intervallumon egyenletes eloszlású mintát ugy is
kisorsolhatjuk, hogy a
[0, θ]
Y1 , . . . , Yn p= Xk (2ε − 1)Yk
intervallumon kisorsolunk az
független mintát, valamint egy t®lük és egymástól is független
1/2
ε1 , . . . , εn Bernoulli-mintát. Legyen k -ra. Ilymódon a feladatot visszavezettük az el®z® feladat (f )
paraméter¶
minden
pontjára. (b) Az el®z®ek alapján nyilvánvaló.
Válasz: (a) (b)
θˆ = 2|X|
(c) Igen. 30. Legyenek
X1 , X2 , X3 rendre N (µ, 1), N (µ, 4), N (µ, 1/4) eloszlású független
mintaelemek. (a) Milyen
a, b, c
értékekre lesz
aX1 + bX2 + cX3
a, b, c
választással kapjuk meg a leghatásosabb becslést a
torzítatlan becslése
µ-nek? (b) Milyen
torzítatlanok közül?
Tipp:
A becslés akkor lesz torzitatlan, ha
becslést akkor kapjuk meg, ha az
a, b, c
a + b + c = 1.
Az optimális
súlyok fordítottan arányosak a
valószín¶ségi változók szórásnégyzeteivel (pl. Lagrange multiplikátor modszerrel igazolható).
Válasz: a =
16 273
b=
1 273
c=
256 273
64
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
X1 , . . . , Xn független, θ paraméter¶ Bernoulli eloszlású mintát Y1 , . . . , Yn független amely háttérváltozója θ valószín¶séggel 1, 1 − θ valószín¶séggel
31. Tekintsük az
és számítsuk ki a Fisher-információját! Tekintsük az mintát is,
−1 értéket vesz fel. Számítsuk ki ennek is a Fisher-információját és vessük össze az el®bb meghatározott információval!
Tipp:
Jelöljük
0, x = 1,
illetve
pθ (x)-szel annak a valószín¶séggét, hogy X = x. Itt x = x = −1, x = 1. Alkalmazzuk Cramér-Rao egyenl®tlenség
paragrafusban szerepl® deníciót:
( I1 (θ) = illetve
Válasz: 32. Legyen
pθ (0) (
I1 (θ) = Mindkét esteben
X1 , . . . , Xn
)2 ∂ ∂θ pθ (0)
)2 ∂ ∂θ pθ (−1) pθ (−1)
In (θ) =
független,
p
( +
)2 ∂ ∂θ pθ (1) pθ (1)
( +
,
)2 ∂ ∂θ pθ (1) pθ (1)
,
n θ(1−θ)
paraméter¶ Bernoulli eloszlású minta.
(a) Adjunk maximum likelihood becslést
p-re!
2 (b) Számítsuk ki Dp (X)-ot is! Mit mondhatunk a CramérRao-egyenl®tlenség alapján? (c) Szeretnénk
p-re
torzítatlan becslést adni. Mekkora legyen
szeretnénk, hogy becslésünk szórása ne haladja meg 0,03-at
n, ha azt p bármely
értéke esetén sem?
Tipp: (a) Az M-L becslés denicióját lásd a Becsléselmélet paragrafusban (b) Közvetlen számolás, az informaciós határt illet®en lásd az el®z® feladatot! (c) Legyen ez a becslés a (ˆ p = X). Az el®z® pontban már kiszámítottuk D2p (X)-ot Keressük meg a max0≤p≤1 p(1−)p-t
Válasz: (a)
pˆ = (X).
(b)
D2p (X) =
p(1−p) . A becslés hatásos, a Cramér-Rao egyenl®tlenségben n itt egyenl®ség all.
(c) A 33. Legyen
D2p (X)
maximuma
X1 , . . . , Xn
1 4n Ennek alapján
független,
(
n=
1 0,06
)2
.
λ paraméter¶ exponenciális eloszlású minta.
(a) Adjunk maximum likelihood becslést
λ-ra!
2.2.
65
FELADATOK
(b) Számoljuk ki a minta Fisher-információját! (c)
1/X
nem torzítatlan becslése a
ségével
X
(d) Az
ηˆ torzítatlan
λ
paraméternek. Készítsünk segít-
becslést és számoljuk ki
ηˆ szórásnégyzetét!
elégséges statisztika segítségével blackwellizáljuk a fenti torzí-
tatlan becslést! (Ismert, hogy az így kapott becslés hatásos becslése
λ-nak.
Ellentmond-e ez a CramérRao egyenl®tlenségnek?)
Tipp: (a) Alkalmazzuk a deníciót (l. képletgy¶jtemény és Becsléselmélet). (b) Alkalmazzuk a Cramér-Rao egyenl®tlenség megfelel® formuláját. (c)
1/X
λ
nem torzítatlan becslése a
paraméternek.
(d) A számoláshoz használjuk a Gamma eloszlást (l. képletgy¶jtemény), ennek alapján
X
(e) Az
ηˆ az 1/X
statisztika alkalmas konstanszorosa lesz.
Lásd az el®bbi észrevételt.
Válasz: (a)
1/X .
(b)
In (λ) =
(c)
ηˆ =
n−1 , nX
D2 (ˆ η) =
ηˆ becslés
(d) Az 34. Legyen
n λ2 λ2 n2 (n−1)2 (n−2)
blackwellizáltja önmaga.
X1 , . . . , Xn
független,
(2, λ)
paraméter¶ Gamma eloszlású minta.
(a) Adjunk maximum likelihood becslést (b) Adjunk becslést
λ-ra
λ-ra!
a momentumok módszerével!
(c) Torzítatlan becslése-e
X1
statisztika a
1/λ-nak?
Ha nem, készítsünk
segítségével torzítatlan becslést! (d) Torzítatlan becslése-e
1/X1
λ
statisztika a
paraméternek? Ha nem,
készítsünk segítségével torzítatlan becslést! (e) Torzítatlan becslése-e
1/X
statisztika a
λ
paraméternek? Ha nem,
készítsünk segítségével torzítatlan becslést!
∑n
i=1 Xi elégséges statisztika a λ paraméterre! Segítségével blackwellizáljuk a fenti torzítatlan becsléseket!
(f ) Igazoljuk, hogy
Tipp: Válasz: 35. Legyen
X1 , . . . , Xn ∼ N (µ, 1)
(a) Igazoljuk, hogy
X1
független minta.
torzítatlan, de nem konzisztens becslése
Mit mondhatunk a CramérRao-egyenl®tlenség alapján?
µ-nek!
66
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
(b) Számítsuk ki a minta Fisher-információját! Számítsuk ki is! Igazoljuk, hogy
X
hatásos becslése
(c) Torzítatlan becslése-e
µ
2
-nek
D2µ (X)-ot
µ-nek!
X1 X2 ? Mennyi a szórásnégyzete? Mondhatunk-
e valamit a CramérRao-egyenl®tlenség alapján? (d) Torzítatlan becslése-e
µ2 -nek X
2
? Ha nem, tegyük azzá, és számítsuk
ki a szórásnégyzetét!
Tipp: Válasz: 36. Legyen
X1 , . . . , Xn ∼ N (0, ϑ) (ϑ = σ 2 )
független minta.
(a) Adjuk maximum likelihood becslést
2 (b) Igazoljuk, hogy S1
1 n
=
∑n
ϑ-ra!
2 i=1 Xi hatásos becslése
σ 2 -nek!
(c) Igazoljuk, hogy a korrigált empirikus szórásnégyzet nem hatásos bec2 slése a σ paraméternek!
Tipp: (a) Alkalmazzuk a deniciót (l.Becsléselmélet) (b) Számítsuk ki a minta ). és a
ϑˆ M-L
ϑˆ-ra vonatkozó Fisher-információját (l. Cramér-Rao
becslés szórásnégyzetét
(c) Közvetlen számolás.
Válasz: 1 n
∑n
(a)
S12 =
(b)
In (ϑ) =
37. Legyen
i=1 1 2ϑ2 ,
Xi2 ˆ = 2ϑ2 . D2 (ϑ)
X1 , . . . , Xn
(a) Vegyük
λ
független,
λ
paraméter¶ Poisson eloszlású minta.
maximum likelihood becslését! Minden realizáció mellett
létezik-e maximum likelihood becslés? (b) Igazoljuk, hogy a maximum likelihood módszerrel kapott becslés torzítatlan és számítsuk ki a szórásnégyzetét! Mit mondhatunk a Cramér Rao-egyenl®tlenség alapján? (c) Igazoljuk, hogy
X1
λ-nak! Az X X1 becslést!
is torzítatlan becslése
statisztika segítségével blackwellizáljuk az (d) Torzítatlan becslése-e
λ-nak
az empirikus szórásnégyzet? Ha nem,
tegyük azzá! Hatásos becslést kapunk-e így? (e) A fenti becslések közül melyik konzisztens?
Tipp: (a) Közvetlen számolás.
elégséges
egyenl®tlenség
2.2.
67
FELADATOK
(b) Közvetlen számolás; számítsuk ki a minta
In (λ) Fisher-információját.
(c) Közvetlen számolás. Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, hogy az
X1 , . . . , Xn
mintaelemek szerepe szim-
metrikus! (d) Vegyük észre, hogy empirikus szórásnégyzet mindig torzítatlan becslése a szórásnégyzetnek. Alkalmazzuk konzisztencia paragrafusban a szóránégyzet becslésére megfogalmazott állítást! (e) Alkalmazzuk az el®z® részfeladatok eredményeit!
Válasz: (a) Igen. (b) Az információs határ eléretik, tehát a M-L becslés hatásos. (c) A mintaátlag (azaz a M-L becslés) lesz a blackwellizált. (d) Igen. A becslés nem lesz hatásos, bár ennek ellen®rzése az Útmutatás alapján hosszadalmas, a cáfolathoz elegend®
λ egyetlen értékére
elvégezni a számolást. (e) (c) kivételével mindegyik. 38. Legyen
X1 , . . . , Xn ∼ Bin(5, p).
(a) Vizsgáljuk meg a maximum likelihood és a momentumok módszerével kapott becslések torzítatlanságát és hatásosságát! (b) Számítsuk ki a minta Fisher-információját!
Tipp: Válasz: 39. Adjunk becslést a negatív binomiális eloszlás paramétereire momentumok módszerével!
Tipp: Válasz: 40. Tekintsük az
p pa , p+1 x fa,p (x) = 0
ha
különben
a, p > 0 paraméterek. Adjunk θ = (a, p)-re! Tegyük fel, hogy p > 2. Adjunk
s¶r¶ségfüggvény¶ Pareto-eloszlást, ahol maximum likelihood becslést becslést
Tipp: Válasz:
θ-ra
x ≥ a,
a momentumok módszerével!
68
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
41. Tekintsünk egy kételem¶ független, mintát! A
(µ, σ)
(µ, 1)
paraméter¶ Cauchy eloszlású
paraméter¶ Cauchy eloszlás s¶r¶ségfüggvénye:
fµ,σ (x) =
π(σ 2
σ . + (x − µ)2 )
(a) Adjunk maximum likelihood becslést
µ-re
az
x1 , x2
realizáció segít-
ségével! (b) Tudunk-e becslést adni momentumok módszerével? Használjuk ki, hogy 1-nél kisebb momentumok is léteznek!
Tipp: Válasz: 42. Legyen
X1 , . . . , Xn független, [a, b] intervallumon egyenletes eloszlású minta.
(a) Adjunk becslést
(a, b)-re
a momentumok módszerével!
(b) Adjunk maximum likelihood becslést
(a, b)-re!
Tipp: Válasz: X1 , . . . , Xn ∼ N (µ, σ 2 ) független minta. Tudunk-e adni 1 − ε megbízhatósági szint¶ kondencia intervallumot σ -ra
43. Legyen
(a)
X−µ √ , σ/ n
(b)
2 nSn 2 σ 2 (Sn
=
1 n
∑n
i=1 (Xi
− µ)2 )
segítségével?
Tipp: (a) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni! (b) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni!
Válasz: X−µ √ statisztika standard normális eloszlású, ebb®l σ/ n egyik paraméterre sem vonhatunk le következtetést.
(a) Nem, mert a
2 nSn 2 σ 2 statisztika χ (n) eloszlású, ebb®l egyik paraméterre sem vonhatunk le következtetést.
(b) Nem, mert a
44. Egy cukorgyárban kockacukrokat gyártanak. Tegyük fel, hogy a cukrok élhossza közelít®leg normális eloszlású. Megmérjük 16 cukor élhosszúságát. Az adatok átlaga 10,06 mm, tapasztalati szórása 0,46 mm. Adjunk 95% 3 megbízhatósági szint¶ kondencia intervallumot µ -re (azaz egy átlagos kockacukor térfogatára)!
2.2.
69
FELADATOK
Tipp:
Alkalmazzuk a kondencia intervallum paragrafus példáját stan-
dard normális eloszlás helyett a
t(15) Student eloszlással a kocka élhosszára, x3 függvény monoton.
majd használjuk fel azt a tényt, hogy az
Válasz:
Táblázatból ismert, hogy ha X ∼ t(15), akkor P(X > 2, 12) = 0, 975 így a kocka élére a 10, 06±2, 12·0, 46/4 intevallum 95megbízhatósági 3 3 szint¶ kondencia intervallum. A térfogatra a [945, 87mm , 1093, 94mm ]
nem szimmetrikus kondencia intervallumot kapjuk.
X1 , . . . , Xn ∼ N (µ1 , σ 2 ) és Y1 , . . . , Ym ∼ N (µ2 , σ 2 ) független minták. Adjunk 1 − ε szint¶ kondencia intervallumot µ1 − µ2 -re X − Y segítségével ((n, m, σ) ismert!)
45. Legyenek
Tipp:
várható éeték¶ valószín¶ségi változó határozzuk meg
σe2
szórásn-
egyzetét, majd alkalmazzuk kondencia intervallum paragrafusban kidolgozott példát
µ = µ1 − µ2 -re
Válasz: σe2 =
σ12 n
+
.
σ22 m
A kondencia intervallum:
X −Y ±
σe · Φ−1 (1 − ε/2) √ n
X1 , . . . , Xn ∼ N (µ1 , σ12 ) és Y1 , . . . , Ym ∼ N (µ2 , σ22 ) független Adjunk 1 − ε szint¶ kondencia intervallumot σ1 /σ2 -re!
46. Legyenek minták.
Tipp:
Tekintsük az
∑n
2 j=1 (Xj −µ1 )
η=
n
∑m
2 j=1 (Yj −µ2 )
n σ22 statisztikát, vegyük észre, hogy η σ12
∼ F (n, m).
a
ξ egy F (n, m) F1 (F2 ) értéket amelyre
Jelöljön
eloszlású valószín¶ségi változót; keressük meg azt az
P (ξ < F1 ) = ε/2 (P (ξ > F2 ) = ε/2)
Válasz:
A
P( )
argumentumát alkalmas átrendezése a
P (η/F2 <
σ12 ) = ε/2 σ22
és
σ12 < η/F1 = 1 − ε/2 σ22
egyenl®ségre vezet. 47. Legyen
X1 , . . . , Xn
vett minta. Adjunk
független, a
1−ε
θ-ra (a)
X1 + X2 ,
(b)
Xn∗
Tipp:
segítségével!
[0, θ]
intervallumon egyenletes eloszlásból
megbízhatósági szint¶ kondencia intervallumot
70
FEJEZET 2.
2.10. ábra.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
P (ξ < F1 ) = ε/2 (P (ξ > F2 ) = ε/2)
(a) Nyilvánvaló, hogy a minta töredékével
(X1 + X2 ) túlságosan tág kon-
dencia intervallumot kapunk. (b) Alsó határnak az maga az
Xn∗
megfelel, hiszen
θ
nem lehet ennél
fels® határ meghatározásához vegyünk egy 0 < δ < θ ∗ ∗ számot és vizsgáljuk a P (δ < Xn < θ) = P (θ < Xn + δ) = 1 − ε ( θ−δ )n valószín¶séget. A jobb oldal valószín¶sége 1 − , ami egyenl® θ 1−ε-nal. Ebb®l δ -ra kapunk egy egyenletet. Oldjuk meg és rendezzük kisebb. A
θf
át a középs® valószín¶ség argumentumát.
Válasz: (a) Az
X1 + X2
eset irreleváns.
(b) A javasolt számitásokat eredménye:
θf = Xn∗ /ε1/n .
X1 , . . . , Xn független, λ paraméter¶ Poisson eloszlású minta. λ-ra 1 − ε megbízhatósági szint¶ kondencia intervallumot
48. Legyen junk
Ad-
(a) a Csebisev-egyenl®tlenség felhasználásával! (b) a centrális határeloszlás-tétellel!
Tipp: (a) A Csebisev-egyenl®tlenséget az
X−λ
valószín¶ségi változóra írjuk
fel:
P ((X − λ)2 > a2 ) ≤
D2 , a2
2.2.
71
FELADATOK
ahol
D2 = λ/n.
Ha a kondencia intervallumot
X ± re p
alakban ker-
essük, akkor a fenti egyenl®tlenség helyett vegyünk egyenl®séget és D2 λ tegyük fel, hogy a2 = ε, azaz a = nε Ezt az értéket írjuk be az egyenl®tlenség jobb oldalába. Így λ-ra kapunk egy másodfokú egyenletet.
2 (b) Lásd a kondencia intervallum pargrafusban az N (µ, σ0 ) re kidolgo2 zott példát. Itt σ0 = λ, ezért, ha X ± rε alakban keressük a kondencia intervallumot.
Válasz: (a) Az egyenlet két megoldása:
λ1,2 =
2(X + a2 ) ±
√ 2 (2X + a2 )2 − 4X 2
,
Ezek lesznek a kondencia határok. (b)
−1
√ rε = X−y lesz, ahol y az (1−y)2 − Φ (1−ε/2)y másodfokú egyenletnek n √ az a megoldása amelyre rε 1/ n nagyságrend¶.
n-szer egy kísérletet, legyen az A esemény bekövetkezéseinek Kn . Szerkesszünk rá 1 − ε megbízhatósági szint¶ kondencia intervallumot p = P(A)-ra n = 10 és n = 10000 esetén is!
49. Végezzünk el száma
Tipp: Válasz: 50. Legyen
X 1 , . . . , Xn
független, a
(θ −1/2, θ +1/2) intervallumon egyenletes
eloszlású minta. Adjunk 1 − ε megbízhatósági szint¶ kondencia interval∗ ∗ lumot θ -ra T (X) = (X1 + Xn )/2 segítségével!
Tipp: Válasz: 51. Legyen
X
erkesszünk
X
eθ−x ,
ha x > θ . Sz1−ε megbízhatósági szint¶ kondencia intervallumot a θ paraméterre egy egyelem¶ minta, s¶r¶ségfüggvénye
segítségével!
Tipp: Válasz: 52. Legyen
X1 , . . . , Xn
független,
λ paraméter¶ exponenciális eloszlású minta.
(a) Konstruáljunk
ε
terjedelm¶ próbát
λ-ra X1∗
(b) Konstruáljunk
ε
terjedelm¶ próbát
λ-ra 1/X
(c) A fenti próbák közül melyik konzisztens?
segítségével! alapján!
72
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
Tipp: Válasz: 53. Valódi (θ ) selejtarányra szeretnénk min®ségellen®rzést. Vegyünk egy
n= X1 , . . . , Xn . Konstruáljunk ε = 0, 05 terjedelm¶ (randomizált) próbát a H0 : θ = θ0 = 0, 05 és H1 : θ = θ1 = 0, 1 választáshoz! Határozzuk meg a másodfajú hibát is. A B(25, 0, 05) (F0 ) és a B(25, 0, 1) (F1 ) binomiális eloszlásokról az alábbi adatok ismertek: 25
elem¶ független Bernoulli-mintát:
F0 (2) = 0, 873 F0 (3) = 0, 9, 66 P0 (3) = 0, 093 F1 (2) = 0, 873 F1 (3) = 0, 9, 66 P1 (3) = 0, 093, ahol
P0 (3) ( P1 (3)) annak a valószín¶sége, hogy egy B(25, 0, 05) (B(25, 0, 1))
eloszlású valószín¶ségi változó pontosan a 3 értéket veszi fel.
Tipp:
Alkalmazzuk a NeymannPearson-lemmát. Vegyük észre, hogy az
így konstrált próba kritikus tartománya lev® selejtes termékek
x
x>c
alakú, ahol
x
a mintában
száma. Látható, hogy olyan kritikus tartomány
nincs, amely pontosan 0,05 terjedelem¶ próbát adna, (F0 (2)
0, 95),
ezért randomizálnunk kell. Keressük meg azt a
< 0, 95, F0 (3) > δ > 0 számot,
F0 (2) + δP0 (3) = 0, 95.
amelyre
x > 3
Döntésünk: ha
elvetjük a null-hipotézist, ha
x = 3
akkor1
−δ
valószín¶séggel vetjük el a null-hipotézist. A másodfajú hiba kiszámításához határozzuk meg a
B(25, 0, 1)
binomiális
eloszlás szerinti valószín¶ségét annak az eseménynek, hogy a null-hipotézst elfogadju, azaz
Válasz:
x≤2
plusz
δ · P1 (3).
A döntésben szerepl® szorzó
δ = 0, 828,
a másodfajú hiba való-
szín¶sége 0,725.
X1 egy egyelem¶, p paraméter¶ geometriai eloszlású minta. A H0 : p = 0,5 versus H1 : p = 0,9 esetén a mekkora a terjedelme annak
54. Legyen
a véletlenített próbának, amelynek próbafüggvénye
k≥3 0 0,5 k = 2 Ψ(X1 ) = 1 k=1 Adjuk meg a másodfajú hiba valószín¶ségét is!
Tipp:
Az el®z® feladathoz hasonló módon járunk el, azzal a könnyebb-
séggel, hogy itt a próbafüggvény adott és a hibavalószín¶ségeket kell kiszámítani. (A geometriai
2.2.
73
FELADATOK
eloszlás megfelel® valószín¶ségeit l. képletgy¶jtemény.)
Válasz: Terjedelem: 0,375. Másodfajú hiba 0,046. 55. Legyen
X1 , . . . , Xn
λ paraméter¶ exponenciális eloszlású minta. H0 : λ = λ0 és H1 : λ = λ1 > λ0 egyszer¶ alε terjedelm¶ próbát a Neyman-Pearson alaplemma
független,
Konstruáljuk meg a ternatívához tartozó segítségével!
Tipp: ∑ Mivel n
az
Y =
NeymannPearson-lemmában szerepl® likelihood hányados
j=1 Xj
monoton függvénye (a monotonitás iránya függ
λ0
és
λ1
viszonyátol) a próbafüggvény
λ1 > λ 0
esetben
{ Ψ(Y ) = alakú lesz. Ha
Válasz:
0 Y ≥c 1 Y
F ∼ G(n, λ0 ) akkor a c = F −1 (ε) lesz az alkalmas konstans.
Az Útmutató alapján
c
értéke konkrét
n
és
λ0
értékekre kiszá-
molható, l. ábra. 56.
X1 , . . . , Xn ∼ N (0, σ 2 ) független minta. Konstruáljuk meg a H0 : σ = σ0 és H1 : σ = σ1 egyszer¶ alternatívához tartozó ε terjedelm¶ próbát a Neyman-Pearson alaplemma segítségével!
Tipp: ∑ Mivel n
az
Y =
NeymannPearson-lemmában szerepl® likelihood hányados
2 j=1 Xj
monoton függvénye (a monotonitás iránya függ
σ0
és
σ1
viszonyától).
Válasz:
σ1 > σ0 esetben { 0 Y ≤c Ψ(Y ) = 1 Y >c
A próbafüggvény
alakú lesz. Ha 57. Írjuk fel
F ∼ χ2 (n) akkor a c = F −1 (1−ε) lesz az alkalmas konstans.
n elem¶ mintára a likelihood-hányados próba λn (X) statisztikáját,
ahol (a) (b) (c) (d)
X ∼ geom(p) és H0 : p = p0 vs H1 : p ̸= p0 . X ∼ P oisson(λ) és H0 : λ = λ0 vs H1 : λ ̸= λ0 . X ∼ exp(λ) és H0 : λ = λ0 vs H1 : λ ̸= λ0 . X ∼ U (0, θ) és H0 : θ = θ0 vs H1 : θ ̸= θ0 .
(e) Teljesülnek-e a fenti esetekben a regularitási feltételek?
74
FEJEZET 2.
Tipp:
ELISMERETEK 2.: STATISZTIKAI ALAPOK
Az (a), (b), (c) esetekben alkalmazzuk a A hipotézisvizsgalat para-
grafusban adott formulát. A számlálóban a likelihood függvénynek az az alakja szerepel, amelyben a paraméter az egyszer¶ null-hipotézishez tartozó érték; nevez®ben pedig (ahol a szuprémum szerepel) a likelihood függvénynek az az alakja szerepel, amelyben a paraméter helyett annak M-L becslése áll. A (d) eset külön meggondolást igényel.
Válasz: (a) Legyen
Y =
∑n j=1
Xj ,
és
pˆ = n/Y
λn (X) = (b) Legyen
Y =
∑n j=1
Xj ,
és
pn (1 − p)Y −n pˆn (1 − pˆ)Y −n
ˆ = Y /n λ λn (X) =
(c) Legyen
Y =
∑n j=1
Xj ,
és
ˆ = n/Y λ
λn (X) = (d) Ha
Xn∗ > θ0
λY e−λ ˆ Y e−λˆ λ
λn e−nλY ˆ ˆ n e−nλY λ
elvetjük a null-hipotézist, mert egy lehetetlen esemény
következett be. Ellenkez® esetben
λn (X) =
∗ Xn θ0
X1 , . . . , Xn ∼ N (µ, σ 2 ) független minta, mindkét paraméter ismeretlen (n elegend®en nagy). Legyen H0 : σ = 1 és H1 : σ ̸= 1. Kon-
58. Legyen
struáljunk ezekhez 0,05 terjedelm¶ likelihood-hányados próbát!
Tipp: Válasz: 59. Legyenek
X1 , . . . , Xn ∼ N (µ1 , σ 2 )
és
Y1 , . . . , Ym ∼ N (µ2 , σ 2 )
független
minták. (a) Írjuk fel a
H0 : σ = σ 0
és
H1 : σ ̸= σ0
hipotézisekhez konstruált
likelihood-hányados próba statisztikáját! (b) Írjuk fel a
H0 : µ1 = µ2
és
H1 : µ1 ̸= µ2
hipotézisekhez konstruált
likelihood-hányados próba statisztikáját, ha (c) Írjuk fel a
H0 : µ1 = µ2
és
H1 : µ1 ̸= µ2
ismert!
hipotézisekhez konstruált
likelihood-hányados próba statisztikáját, ha
Tipp: Válasz:
σ σ
ismeretlen!
2.2.
75
FELADATOK
X1 , . . . , Xn ∼ N (µ, σ 2 ) független minta. Tekintsük a H0 : σ = σ0 2 2 és H1 : σ > σ0 hipotéziseket, és azt a próbát, amelyre Xk = {x : nSn /σ0 > c} ∑n 1 2 2 (Sn = i=1 (Xi − X) az empirikus szórásnégyzet). Torzítatlan-e az n
60. Legyen
adott próba?
Tipp:
χ2
Keressük meg a képletgy¶jteményben a
vényét, és alkalmazzuk az
y = σx
fY (x) =
xn/2−1 e−x/(2/σ) , (σ2)n/2 Γ(n/2)
y ≥ 0.
Vizsgáljuk meg, hogy a próba ereje hova tart, ha
Válasz:
eloszlás s¶r¶ségfügg-
helyettesítést:
σ→∞
!
Nem.
61. Igaz-e, hogy az
ε terjedelm¶ (kétoldali) u-próba pontosan akkor fogadja el µ0 benne van az X segítségével µ-re szerkesztett 1 − ε
a nullhipotézist, ha
szint¶ kondencia-intervallumban?
Tipp: Írjuk fel az elfogadási tartomány és alakítsuk át! Válasz: Igaz. X1 , . . . , Xn ∼ N (µ, σ02 ) független minta, (σ0 ismert). Legyen H0 : µ = µ0 és H1 : µ ̸= µ0 . Konstruáljunk ezekhez 0,05 terjedelm¶ likelihoodhányados próbát! Vessük össze a kapott próbát az u-próbával (két- és
62. Legyen
egyoldali változatával is)!
Tipp: Válasz: 63. Legyen
(X1 , Y1 ), . . . (Xn , Yn ) ∼ N (m, C), ahol ( 2 σ1 ⊤ m = (µ1 , µ2 ) és C = 0
0 σ22
Tegyük fel, hogy a szórások ismertek. Szerkesszünk
H1 : µ1 ̸= µ2
) . H0 : µ1 = µ2
versus
hipotézisekre
(a) kétmintás u-próbát! (b) Alkalmazzunk önkontrollos vizsgálatot!
Tipp:
Mindkét esetben az
X −Y
valószín¶ségi változó
σe2
szórásnégyzetét
kell meghatározni.
Válasz:
A próbastatisztika a standard normális eloszlású
(a) A kétmintás u-próbánál
σe2 =
(b) Az önkontrollos vizsgálatnál
σ12 n1
+
σe2 =
σ22 n2 .
σ12 n
+
σ22 n .
X − Y /σe .
76
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
A két próbafüggvény azonos, mert
n = n1 = n2 .
X1 , . . . , Xn ∼ N (µ, σ 2 ) független minta. Tekintsük a H0 : µ = µ0 H1 : µ ̸= µ0 (a szórásnégyzet ismeretlen) t-próba statisztikáját:
64. Legyen versus
t(X) =
X − µ0 √ Sn∗ / n
(a) Igazoljuk, hogy a likelihood-hányados próbához tartozó statisztika
( ∑n λn (X) =
(Xj ∑nj=1 j=1 (Xj
− X)2
)n/2
− µ0 )2
alakú. (b) Igazoljuk, hogy
( λn (X) =
1 1+
)n/2 .
t2 (X) n−1
(c) Mutassuk meg, hogy ez azt jelenti, hogy a fenti likelihood-hányados próba a t-próba kétoldali változatával ekvivalens!
Tipp: A hipotézisvizsgálat paragrafusban keressük meg a likelihood-hányados próba szerkesztésének módját. Itt a paramétertér 2 dimenziós:
Θ = {(µ, σ 2 ) : µ ∈ R, σ 2 > 0}, a 0-hipotézis által kijelölt 1-dimenziós részsokaság pedig
Θ0 = {(µ0 , σ 2 ) : σ 2 > 0}. Az
X = (X1 , . . . , Xn ) független, azonos eloszlású minta alapján felírjuk az ( ) n 1 1 ∑ 2 Lµ,σ2 (X) = √ exp − 2 (Xi − µ) 2σ i=1 ( 2πσ)n
likelihood-függvényt, majd vesszük ennek szuprémumát a
Θ
illetve a
Θ0
halmazon:
sup (µ,σ 2 )∈Θ
Lµ,σ2 (X) = (
1
(
) ∑n ¯ 2 (X − X) i i=1 ) = exp − ( 1 ∑ n ¯ 2 2 n i=1 (Xi − X)
) ∑n ¯ 2 n/2 2π n1 i=1 (Xi − X) )n/2 ( n n ∑n = e− 2 , 2 ¯ 2π i=1 (Xi − X)
2.3.
77
TESZTEK
sup (µ,σ 2 )∈Θ0
Lµ,σ2 (X) = (
1
) ∑n (Xi − µ0 )2 i=1 ) = exp − ( 1 ∑n 2 n i=1 (Xi − µ0 )2 (
)n/2 ∑n 2π n1 i=1 (Xi − µ0 )2 ( )n/2 n n ∑ = e− 2 , n 2π i=1 (Xi − µ0 )2
A fenti számolásból nyilvanvalóan adódik (a), és egyszer¶ algebrai átalakításokkal (b).
Válasz:
Az Útmutatóban (a) és (b) megoldása már szerepel, a (c) abból
következik, hogy likelihood-hányados próba statisztika monoton függvénye a kétoldali t-próba statisztikájának. 65. Határozzuk meg az egyoldali
u-próba
er®függvényét! Igazoljuk, hogy a
próba torzítatlan és konzisztens is! Hogyan változik a próba ereje, ha (a)
ε,
(b)
θ − θ0 ,
(c)
n
n®?
Tipp: Válasz: 66. Tekintsük az
(X1 , Y1 ), . . . , (Xn , Yn ) mintát és az rsp Spearman-féle rangko-
rrelációs együtthatót.
|rsp | ≤ 1 és egyenl®ség pontosan akkor teljesül, ha i ̸= j párra Xi ≤ Xj az Yi ≤ Yj , illetve Yi ≥ Yj relációt vonja után (rsp el®jelének megfelel®en).
(a) Igazoljuk, hogy minden maga
(b) Igazoljuk, hogy ha a háttérváltozók függetlenek, akkor
E(rsp ) = 0.
Tipp: Válasz: X1 , X2 , . . . ∼ exp(λ) független azonos eloszlású minta. Adjunk a H0 : λ = λ0 vs. H1 : λ = λ1 egyszer¶ alternatíva eldöntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható
67. Legyen
lépésszámokat!
Tipp: Válasz: 2.3.
Tesztek
1. Milyen eloszlású a
λ
paraméter¶ exponenciális eloszlásból vett
rendezett minta els® eleme? (a) exp(nλ)
n
elem¶
78
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
(b) exp(λ/n) (c) Gamma(n, λ) (d) Béta(1, n)
Válasz: (a) N (m, σ 2 ) vett mintát, legyen X 2 statisztika (m, σ ) paraméternek?
2. Tekintsünk egy
X
elégséges
a mintaátlag. Igaz-e, hogy
(a) igen, a Neyman-Fisher faktorizáció miatt (b) igen, mivel torzítatlan becslése a várható értéknek (c) nem, mert két paraméterre nem lehet megadni elégséges statisztikát (d) nem, mert a mintának a mintaátlagra vett feltételes eloszlása 2 független, de σ -t®l nem.
µ-t®l
Válasz: (d) 3. Az alábbiak közül melyik az exponenciális eloszlás várható értékére elégséges statisztika? (a)
Xn∗
(b)
X⌊n/2⌋ ∗ +X⌈n/2⌉ ∗
(c)
X1 . . . Xn
(d)
X 1 + . . . + Xn
Válasz: (d) 2 4. Tekintsünk egy n elem¶ N (m, σ ) eloszlásból vett mintát. Milyen becslése ∑n 2 2 2 σ -nek ( i=1 Xi − X )/(n + 1)? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl®tlenség alapján hatásos, er®sen konzisztens. (d) Torzítatlan, de a Cramér-Rao egyenl®tlenség alapján nem hatásos, er®sen konzisztens.
Válasz: (a) 5. Tekintsünk egy n elem¶ ∑n σ 2 -nek ( i=1 Xi2 )/n?
N (0, σ 2 )
eloszlásból vett mintát. Milyen becslése
(a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl®tlenség alapján hatásos, er®sen konzisztens.
2.3.
79
TESZTEK
(d) Torzítatlan, de a Cramér-Rao egyenl®tlenség alapján nem hatásos, er®sen konzisztens.
Válasz: (c) n
6. Tekintsünk egy
θ-nak
elem¶
U (0, θ)
eloszlásból vett mintát. Milyen becslése
a maximum likelihood becslés?
(a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, gyengén konzisztens. (d) Torzítatlan, nem hatásos, gyengén konzisztens.
Válasz: (a) 7. Tekintsünk egy
λ-nak
n elem¶ Poisson(λ) eloszlásból vett mintát. Milyen becslése
a momentumok módszerével vett becslés?
(a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, er®sen konzisztens.
Válasz: (c) 8. Mi a kapcsolat a normális eloszlás várható értékére ismeretlen szórás esetén adott kondenciaintervallumnak és a t-próba között? (a) A t-próba elfogadja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (b) A t-próba elfogadja a nullhipotézist, ha
X
a kondenciaintervallumba
esik. (c) A t-próba elutasítja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (d) A t-próba elutasítja a nullhipotézist, ha
X
a kondenciaintervallumba
esik.
Válasz: (a) H0 : λ = λ 0 ε terjedelm¶ leger®sebb próba (ε > 0
9. Létezik-e az exponenciális eloszlás paraméterére vonatkozó, és
H1 : λ = λ 1
hipotéziseket tesztel®
tetsz®leges)? (a) Nem, mert
1/X
nem torzítatlan becslése
λ-nak.
(b) Igen, a likelihood-hányados próba ilyen. (c) Igen, a Neyman-Pearson alaplemma alapján.
80
FEJEZET 2.
ELISMERETEK 2.: STATISZTIKAI ALAPOK
(d) Igen, a Wald-féle szekvenciális eljárás ilyet ad.
Válasz: (c) 10. Mennyi az (a)
1−ε
(b)
1/ε
(c) (d)
ε
terjedelm¶ egymintás, egyoldali u-próba másodfajú hibája?
√ βn (mε) = 1 − Φ(uε − (µ − µ0 )/(σ0 / n)) √ 1 − βn (mε) = Φ(uε − (µ − µ0 )/(σ0 / n))
Válasz: (d) 11. Az egymintás egyoldali u-próba (a) torzítatlan és konzisztens. (b) nem torzítatlan de konzisztens. (c) torzítatlan de nem konzisztens. (d) nem torzítatlan és nem konzisztens.
Válasz: (a) 12. Alkalmazható-e a t próba ismert szórás esetén? (a) Igen. (b) Csak normális eloszlású kis minta esetén. (c) Csak normális eloszlású nagy minta esetén. (d) Nem, mert az ismeretlen szórás feltétel, ismert szórás esetén csak az u próbát alkalmazhatjuk.
Válasz: (a) 13. Mikor használhatjuk a
χ2
próbákat?
(a) Mindig. (b) Diszkrét háttérváltozó esetén mindig, folytonos háttérváltozó diszkretizálása esetén csak nagy mintaelemszám mellett. (c) Az illeszkedévizsgálatra vonatkozó
χ2
próbát mindig, a többit csak
nagy mintaelemszám esetén. (d) Csak nagy mintaelemszám esetén (mindegyiket, minden háttérváltozó esetén).
Válasz: (a)
3. fejezet
A többdimenziós normális eloszlás, Wishart eloszlás
3.1.
3.1.1. A
Elméleti háttér
Többdimenziós normális eloszlás
p-dimenziós, nem-elfajult normális eloszlást az p-dimenziós standard normális
eloszlás lineáris transzformáltjaként vezetjük be.
87. Deníció.
Azt mondjuk, hogy az
Y
véletlen vektor
p-dimenziós
standard
normális eloszlású, ha komponensei 1-dimenziós standard normális eloszlásúak
Y ∼ Np (0, Ip ) jelölést használjuk, utalva arra, hogy p-dimenziós Y véletlen vektor várható érték vektora a 0 vektor, kovarianciamátrixa pedig Ip (ezek az eloszlás paraméterei). és függetlenek. Erre az
a
Y s¶r¶ségfüggvénye a függetlenség miatt a komponensek s¶r¶ségfüggvényeinek szorzata, azaz
g(y) =
p ∏
ϕ(yi ) = √
i=1
ϕ jelöli (y1 , . . . , yp )T ahol
1 2π
∑ 2 −( p i=1 yi )/2 pe
=
2 1 e−∥y∥ /2 , (2π)p/2
a standard normális s¶r¶ségfüggvényt (Gauss-görbét), az
y =
vektor pedig az együttes s¶r¶ségfüggvény argumentuma.
Alkalmazzuk most a fenti
Y-ra
az
X = AY + m lineáris transzformációt, ahol
(3.1)
A p × p-s nem-szinguláris mátrix, m pedig pX várható érték vektora m, kovarianci-
dimenziós vektor. Könny¶ látni, hogy amátrixa pedig:
C = E(X − m)(X − m)T = E(AY)(AY)T = = E(AYY T AT ) = AE(YYT )AT = AIn AT = AAT , 81
82FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
ahol a vektorok oszlopvektorok, egy vektor várható értéke a komponensek várható értékeib®l álló vektor, egy mátrix várható értéke pedig az elemeinek a várható értékeib®l álló mátrix.
88. Deníció.
Az Y ∼ Np (0, Ip ) többdimenziós standard normális eloszlású véletlen vektor-ból a fenti (invertálható) lineáris transzformációval kapott X
véletlen vektort nem-elfajult többdimenziós normális eloszlásúnak nevezzük, és ennek kifejezésére röviden az
X ∼ Np (m, C)
formulát használjuk.
p-dimenziós normális eloszlású X véletlen vektor eloszlásának p dimenzió, az m várható érték vektor és a C kovarianciamátrix. A p × p-s, szimmetrikus, pozitív denit C mátrix elemei: cij = cji az Xi és Xj komponensek kovarianciája (i ̸= j), cii pedig Xi szórásnégyzete 2 (varianciája). A kovarianciamátrixra a D X jelölést fogjuk használni. A nem-elfajult
paraméterei tehát a
Az azonosan 1 f®diagonálisú kovarianciamátrixok geomteriai struktúráját az alábbi ábra, animáció és interaktív animáció személteti.
3.1. ábra. elliptop
Ha
AAT
A-ról
C= A mátrixszal
kikötjük, hogy négyzetes és nem-szinguláris mátrix, akkor a
kovarianciamátrix pozitív denit. Megjegyezzük, hogy szinguláris
végrehajtva 3.1 transzformációt, szinguláris, pozitív szemidenit Ilyen esetekben
C
rangja is kisebb lesz, mint
p,
C-hez
jutunk.
ekkor elfajult többdimenziós
normális eloszlás ról beszélünk. A továbbiakban, hacsak külön nem mondjuk, akkor mindig a nem-elfajult esetre gondolunk.
3.1.
83
ELMÉLETI HÁTTÉR
89. Állítás.
Ha a
C
mátrix invertálható, akkor az
X ∼ Np (m, C)
véletlen
vektor s¶r¶ségfüggvénye:
f (x) =
T −1 1 1 e− 2 (x−m) C (x−m) , (2π)p/2 |C|1/2
x ∈ Rp .
(3.2)
Megjegyezzük, hogy az elfajult többdimenziós normális eloszlás alacsonyabb dimenziós s¶r¶ségfüggvénye például úgy kapható meg, hogy az (3.2) képletben C−1 helyett C+ -t írunk (azaz a szinguláris C mátrix általánosított inverzét, l. Lineáris algebra)
|C|
90. Állítás.
X ∼ Np (m, C) véletlen vektor komponensei C kovarianciamátrix diagonális.
Az
helyett pedig
C
pozitív sajátértékeinek szorzatát.
pontosan akkor
teljesen függetlenek, ha a Megjegyezzük, hogy
p = 2
esetén
Y
s¶r¶ségfüggvénye körszimmetrikus és
maximumhelye az origóban van. Az alábbi ábrákon látható a kétdimenziós standard normális eloszlás s¶r¶sége és egy, a segítségével konstruált olyan együttesen nem normális eloszlás s¶r¶sége, amely marginálisai standard normálisok.
0.3
0.6
0.25
0.5
0.2
0.4
0.15
0.3
0.1
0.2
0.05
0.1
0
0
3.2. ábra. 2 dimenziós standard normális és nem 2 dimenziós normális s¶r¶ség
X = AY + m
s¶r¶ségfüggvényének a maximumhelye viszont
m-ben van, C ko-
nívóhalmazai pedig ellipszisek, melynek tengelyirányait a nem-szinguláris
varianciamátrix sajátvektorai jelölik ki, a tengelyek hossza pedig a megfelel® sajátértékek négyzetgyökével arányos. Ez a legegyszer¶bben az (1.2)-beli s¶r¶ségfüggvény exponensében álló kvadratikus alak
(x − m)T C−1 (x − m) = (x − m)T UΛ−1 UT (x − m) = zT Λ−1 z = =
2 ∑ 1 2 z2 z2 zi = √ 1 2 + √ 2 2 λ λ1 λ2 i=1 i
(3.3)
f®tengely-transzformációjából látható; a nívóhalmazokat úgy kapjuk, hogy a fenti kvadratikus alakot valamely nemnegatív konstanssal tesszük egyenl®vé.
84FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0
3.3. ábra. 2 dimenziós normális normális s¶r¶ség egy szintvonal tengelyeivel
(Gondoljuk meg, milyen értékhatárok közt mozoghat e konstans ahhoz, hogy valódi ellipsziseket kapjunk!) Az is látható, hogy a nívóhalmazok pontosan akkor körök, hogy ha a sajátértékek egyenl®ek, ez viszont ekvivalens azzal, hogy a komponensek függetlenek és azonos szórásúak. Ezt mindjárt általános
p-re
is
belátjuk. Egy
X ∼ Np (m, C)
valószín¶ségi változó s¶r¶ségében álló kvadratikus alak
hasonló módon
(x − m)T C−1 (x − m) = zT Λ−1 z = alakúvá transzformálható a
z = UT (x − m)
p p ∑ 1 2 ∑ zi2 zi = √ 2 λ λi i=1 i i=1
koordinátatranszformációval (ami
egy eltolást, majd egy forgatást jelent). Eredményképp egy olyan
p-dimenziós
ellipszoid egyenletét kapjuk, mely f®tengelyeinek hossza a sajátértékek gyökével arányos, irányukat pedig a sajátvektorok jelölik ki. Az ellipszoid pontosan akkor lesz gömb, ha
λ1 = · · · = λp = λ,
ekkor a kovarianciamátrix
C = U(λIp )UT = λIp √ alakú, ami ekvivalens azzal, hogy a komponensek függetlenek és azonos λ) szórásúak. Könny¶ látni, hogy amennyiben a komponensek függetlenek, de
(
nem azonos szórásúak, ellipszoidot kapunk, melynek tengelyirányai a koordinátatengelyekkel párhuzamosak. Minden más esetben olyan ellipszoidok adódnak nívófelületekként, melyek tengelyei (legalábbis egy részük) elfordulnak (2dimenziós esetben az elfordulás szögéb®l következtethetünk a két komponens
3.1.
85
ELMÉLETI HÁTTÉR
közti korreláció mértékére): az alábbi ábrákon a
(
1 0.6 0.6 2
0
várható érték vektorú,
)
kovarianciamátrixú 2-dimenziós normális eloszlás s¶r¶ségfüggvénye láthatók 3 dimenziós és szürkeárnyalatos ábrázolásban.
0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0
3.4. ábra. 2 dimenziós normális s¶r¶ségek
A kés®bbiekben használni fogjuk a következ® tételt.
86FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
91. Tétel.
Ha
X ∼ Np (m, C)
és a
C
kovarianciamátrix pozitív denit, akkor
(X − m)T C−1 (X − m) ∼ χ2 (p). Az érdekesség kedvéért megemlítjük a normális eloszlás egy Harald Cramértól származó karakterizációját.
92. Tétel.
Ha
X
és
Y
zlású, akkor
X
és
Y
külön-külön is normális eloszlásúak.
független valószín¶ségi változók és
X +Y
normális elos-
A statisztikai vizsgálatokban el®forduló véletlen változók általában
nem
együttesen normális eloszlásúak, a normális eloszlásra kiszámolt statisztikai módszerek alkalmazásása indokolható az alábbi Tétellel. Emellett a skalár, s®t a diszkrét érték¶ valószín¶ségi változók statisztikai vizsgálatában olyan gyakran al2 kalmazott módszerek mint a χ -próba jogosságának indoklásában is szükségünk van a centrális határeloszlás tétel többdimenziós alakjára.
93. Tétel.
X1 , X2 , . . . független, azonos eloszlású p-dimenziós véletlen m várható érték vektora és C kovarianciamátrixa létezik (utóbbi nem feltétlenül invertálható). Legyen Sn = X1 + · · · + Xn , n = 1, 2, . . . . Akkor 1 a standardizált részletösszegek sorozata, azaz az √ (Sn − nm) véletlen vektor n sorozat eloszlása konvergál az Np (0, C) eloszláshoz, ha n → ∞. Legyenek
vektorok, melyek
Itt jegyezzük meg, hogy
n
növelésével a többdimenziós normális eloszlás
valószín¶ségeinek numerikus integrálással történ® kiszámításának a m¶veletigénye ε megengedett hiba esetén nC/ε nagyságrend¶, még abban az esetben is, amikor egy
n-dimenziós téglatest C kovarianciamátrixú normális eloszlás szerinti valószín¶ségét
akarjuk meghatározni. Léteznek az Hermite-polinomok szerinti sorfejtésen alapuló módszerek, de ezek csak akkor m¶ködnek, ha
C
közel van az
n-dimenziós n értékre
egységmátrixhoz (n növelésével a korrelációknak csökkenni kell). Nagy
a Monte Carlo módszert kell alkalmazni, ennek m¶veletigenye a dimenziótól 2 függetlenül 1/ε .
94. Állítás.
Az
X ∼ Np (m, C) véletlen vektor komponensei C kovarianciamátrix diagonális.
pontosan akkor
teljesen függetlenek, ha a
A kés®bbiekben használni fogjuk a következ® tételt.
95. Tétel.
Ha
X ∼ Np (m, C)
és a
C
kovarianciamátrix pozitív denit, akkor
(X − m)T C−1 (X − m) ∼ χ2 (p).
3.1.2.
Wishart eloszlás
A többdimenziós normális eloszlás paramétereinek becsléséhez és a paraméterekre vonatkozó hipotézisek vizsgálatához. Ehhez szükségünk van a becslésekben fellép® többdimenziós statisztikák eloszlásának meghatározására.
3.1.
87
ELMÉLETI HÁTTÉR
96. Deníció.
A p × p-s W véletlen mátrixot p-dimenziós, n szabadságfokú, C kovarianciájú (centrális) Wishart-mátrix nak nevezzük, ha el®állítható W = XXT alakban, ahol a p × n-es X véletlen mátrix oszlopvektorai függetlenek és Np (0, C)-eloszlásúak. Egy ilyen W véletlen mátrix elemeinek együttes eloszlását p, n, C paraméter¶ (centrális) Wishart-eloszlás nak nevezzük, és a következ®képpen jelöljük: W ∼ Wp (n, C).
W
szimmetriája miatt valójában
p(p + 1)/2-dimenziós eloszlásról van szó. Meg-
jegyezzük, hogy a nem-centrális Wishart-eloszlás deníciója ugyanígy kezd®dik, csak ott
X
oszlopvektorai független
Np (m, C)
eloszlásúak lesznek. Ilyenekkel
mi nem foglalkozunk, és a továbbiakban Wishart eloszláson mindig a centrálisat
X∑mátrix oszlopvektorait X1 , X2 , . . . , Xn -nel jelölve vegyük észre, n T W = k=1 Xk Xk . Az ilyen el®állítást diádösszegnek hívjuk. Amennyiben az X1 , X2 , . . . , Xn vektorok független mintaelemek egy Np (0, C) eloszlású T véletlen vektorra, az X mátrixot adatmátrixnak is szokták nevezni, amely tehát
értjük. Az hogy
soronként tartalmazza a meggyeléseket. A Wp (n, I) eloszlást standard Wishart-eloszlás nak nevezzük. Itt tehát az X1 , X2 , . . . , Xn vektorok ∑n p-dimenziós standard normális eloszlásúak. Ha speciálisan p = 1, akkor W = k=1 Xk2 , ami deníció szerint χ2 (n)-eloszlású.
97. Tétel.
Legyen a
p×p-s C kovarianciamátrix pozitív denit. W ∼ Wp (n, C) C−1/2 WC−1/2 ∼ Wp (n, I).
pontosan akkor teljesül, ha
A fenti tétel azt fejezi ki, hogy egy Wishart-mátrix standardizáltja standard Wishart-eloszlású. Wishart-mátrixra példa az empirikus kovarianciamátrix konstansszorosa. Ezt fogalmazza meg pontosan a következ® tétel.
98. Tétel.
Legyen X1 , X2 , . . . , Xn független elem¶ minta egy zlású véletlen vektorra, továbbá legyen
∑ ¯ = 1 Xk X n n
és
S=
k=1
n ∑
Np (m, C)
elos-
¯ ¯ T (Xk − X)(X k − X) .
k=1
Akkor (1)
¯ ∼ Np (m, 1 C), X n
(2)
S ∼ Wp (n − 1, C),
(3)
¯ X
és
99. Tétel. (p < n),
és
S
függetlenek egymástól.
Legyenek X1 , . . . , Xn független azonos eloszlású Np (0, Ip ) változók X := (X1 , . . . , Xn ) p × n-es mátrix. Akkor a W = XXT standard
Wishart-mátrix s¶r¶sége
cnp |W| alakú, ahol
cnp
csak
p-t®l
és
n-t®l
n−p−1 2
e− 2 trW 1
függ® konstans.
(3.4)
88FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
X véletlen mátrix s¶r¶ségéb®l X1 , . . . , Xn független azonos eloszlású minta
A bizonyításról csak annyit jegyzünk meg, hogy az kell kindulni, ami nem más, mint az alapján felírt likelihood-függvény: 1 1 e− 2 trW . (2π)np/2
Ebb®l
W eleminek együttes eloszlása mértéktranszformációval határozható meg.
Ecélból mátrixok lineáris transzformáltjainak Jacobi-determinánsait kell meghatároznunk (itt (1)
|A|
az
X = AY,
A
matrix determinánsának abszolút értéke):
ahol
A
tetsz®leges
p × p-s
nemszinguláris mátrix,
X
a
p × n-es
minta. Közvetlen számolással adódik a
∂X n ∂Y = |A| .
(2)
A
mint (1)-ben,
W
a
p×p
Wishart mátrix,
W = AVAT .
Ekkor az ún.
Sverdrup-lemma [27] szerint
∂W p+1 ∂V = |A| . A Wishart-mátrix volt az els® véletlen mátrix, amit a matematikusok intenzíven tanulmányoztak (1937 óta). Vegyük észre, hogy a (3.4) formula szerint a Wishart mátrix s¶r¶ségfüggvénye a csak a sajatértékek osszegén és szorzatán (determináns, trace) keresztül függ a a mátrixelemekt®l, de ez nem a Wishart-mátrix spektrumának az eloszlása. A Wishart mátrix sajátértékeinek empirikus eloszlására vonatkozik a Marcsenko-Pasztur tétel (l. [????]). Tegyük fel, hogy mind p végtelenbe tart olymódon, hogy n → c, ekkor
n,
mind pedig
} 1 { p p # λj : λj < x → F (x), p ahol
λpj
a
W ∼ Wp (n, I)
mátrix
j -edik
p
(3.5)
sajátértéke (monoton nemcsökken®
rendezés mellett) és
F ′ (x) =
1 √ (b − x)(x − a), 2πxc
a < x < b.
A (3.5) formulabeli konvergencia majdnem biztos, ha várható értéke 1, szorásnégyzete
0 < c ≤ 1.
Az
F
eloszlás
1 + c.
A zöld grakon standard Wishart mátrix sajátértékeit mutatja, a kék pedig egy olyanét, amelyhez tartozó
C
mártix minden eleme közel 1. Az el®bbi ábra
sajátértékei láthatóak hisztogramon is ábrázolva.
N (0, 1) elosn×n szimmetrikus mátrix empirikus spekrumának viselkedést
Meglep® módon a legegyszer¶bb véletlen mátrix a független zlású elemekb®l álló
3.1.
ELMÉLETI HÁTTÉR
89
3.5. ábra. Wishart-mátrixok sajátértékei
3.6. ábra. Wishart mátrixok sajátértékeinek hisztogramjai
csak az 1940-es években kezdte el tanulmányozni Wigner Jen®, a kaotikus kvantumrendszerek leírása céljából.
90FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
Az ilyen mátrixok
λ
sajátértékeinek rendezett mintáját const
·
√
n-nel
nor-
málva kapjuk a híres félkör-törvényt.
} 1 { p p # λj : λj < x → F (x), p ahol
F ′ (x) =
2√ (1 − x2 ), π
(3.6)
−1 < x < 1.
A (3.6) formulabeli konvergencia is majdnem biztos.
3.7. ábra. Wigner hisztogram
3.2.
Feladatok
1. Van-e olyan többdimenziós normális eloszlású vektorváltozó, amely komponensei nem függetlenek, de páronként korrelálatlanok?
Tipp: Válasz:
Nincs.
Y1 , . . . , Ym független m-dimenziós normális?
2. Igaz-e, hogy ha eloszlásuk
Tipp: Válasz:
Igaz.
normális eloszlásúak, akkor együttes
3.2.
91
FELADATOK
3. Adjunk olyan (legalább 3 dimenziós) véletlen vektorváltozót, amely komponensei 1-dimenziós normális eloszlásúak, ® maga nem többdimenziós (és nem is elfajult többdimenziós) normális eloszlású!
Tipp: Lásd a 3.3 ábrát! Válasz: { cϕ(x1 ) . . . ϕ(xn ), ha f (x1 , . . . , xn ) = (1 − c)ϕ(x1 ) . . . ϕ(xn ), ahol
0
és
ϕ(x)
a standard normális eloszlás s¶r¶ségfüggvénye.
Y ∼ Nd (m, C),
4. Legyen
ahol
C
pozitív denit,
szinguláris mátrix. Milyen eloszlású
Tipp:
Az
X
x1 . . . xn > 0 xy ≤ 0,
ha
B
pedig egy
d × d-s
nem-
X = BY?
véletlen vektor várható értéke
Bm,
ennek ismerteben fel-
tehet®, hogy a szóban forgó véletlen vektorok várható értéke a 0vektor. Dkovarianciamátrixát pedig a D = E(XX⊤ ) = E(BYBY ⊤ ) képlet alapján számíthatjuk ki.
Válasz: X ∼ Nd (Bm, BCB⊤ ). X ∼ N2 (m, C).
5. Legyen
(a) Adjuk meg
X
komponenseinek tetsz®leges
aX1 + bX2
lineáris kom-
binációjának eloszlását! (b) Adjuk meg
X
komponenseinek korrelációs mátrixát!
(c) Adjuk meg annak a lineáris transzformációnak a mátrixát, amely
X
véletlen vektort a 2-dimenziós standard normális eloszlásúba viszi át. Egyértelm¶-e ez a mátrix?
Tipp: (a)
Jelölje
c11 , c12 , c22
a
C
mátrix független elemeit.
D2 (aX1 + bX2 ) = Cov(aX1 + bX2 aX1 + bX2 ), használjuk a deníciót és a várható érték tulajdonságait!
(b) Normáljuk alklamasan a (c) Tetsz®leges olyan
A
C
mátrixot.
mátrix, amelyre
ACA⊤ = I2 .
Válasz: (a)
N (am1 + bM2 , a2 c11 + 2abc12 + b2 c22 , a2 c11 + 2abc12 + b2 c22 )
(b) a korrelaciós mátrix f®atlójában 1-ek állnak, az c√ tható pedig r1,2 = √ 12 c11 c22 (c) Az
A = C−1/2
például jó választás, egy
2×2
r12
korrelációs együt-
pozitív denit mátrix-
nak általában 4 különböz® négyzetgyöke van, és ezzel a lehetséges mátrixok köre még nem merült ki, mert ha pedig ortonormalt, akkor
DV
D
alkalmas mátrx,
is alkalmas mátrix.
V
92FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
Xi ∼ Nd (mi , Ci ), i = 1, . . . , n ∑ n i=1 Xi eloszlását!
6. Legyenek juk meg
Tipp:
Analóg a független skalár
független véletlen vektorok. Ad-
N (mi , σi2 )
k esetével.
Válasz: Nd (
n ∑
mi , sumni=1 Ci )
i=1
X
7. Legyen
egy
d
dimenziós ún. szimmetrikus normális eloszlású vektor,
azaz komponensei azonos eloszlásúak és bármely két komponens kovarianciája ugyanakkora. (a) Határozzuk meg a korrelációs mátrix spektrálfelbontását! (b) Határozzuk meg
C−1 -et,
ahol
C
a kovarianciamátrix!
X d-dimenziós standard normális eloszlásúba viszi át.
(c) Adjuk meg annak a lineáris transzformációnak a mátrixát, amely véletlen vektort a
(d) Mutassuk meg, hogy bármely két komponens korrelációja nagyobb −1 mint (1 − d) .
Tipp:
Jelölje
R
a korrelációs mátrixot, ami
1 ρ... ρ 1... R . . . .. . ρ ρ... alakú, ahol
ρ ρ . . . 1
ρ ∈ [0, 1].
Ezen speciális alak miatt (a) Az
C = σ 2 R.
ρ ρ... ρ ρ... R − (1 − ρ)Id = . . . .. . ρ ρ...
ρ ρ . . . ρ
dρ. Ismeretes, hogy ha A d×d-s mátrix sajátértékei λ1 , . . . , λd , akkor A+cId sajátértékei λ1 + c, . . . , λd + c (spektrál-leképezés tétel). Ennek alapján R, és igy C spektruma meghatározható Az utolsó d − 1 (λ2 , . . . λd ) sajátérték egyenl®, míg λ1 különbözik t®lük. A λ1 -hez tartozó u1 sajátvektor ko1 ⊤ 1 Az R többi ordinátái egyenl®k, tehát normálva u1 = ( √ , . . . , √ ) d d sajátvektorai tetsz®leges u1 -re és egymásra ortogonális oszlopvekmátrix 1-rangú, és egyetlen nem 0 sajatértéke
egy
torok. Ilyen sokféle van, különösebb számolás nélkül meghatározhatók azok amelyeknek 1 eleme negatív, a fölötte lev® elemek 1-ek, az alatta lev®k 0-k.
3.2.
93
FELADATOK
(b)
C−1 = σ −2 R−1 . U ortonormált matrixot, amelynek oszlopai az u1 , . . . , ud sajátvektorok, és Λ = diag(λ1 , . . . , λd ), akkor a spektrálel®állítási ⊤ −1 tétel miatt R = UΛU , ezért C = σ −1 U U Λ−1 U ⊤ . −1/2 A a(c) ponthoz hasonlóan C = σ −1/2 U U Λ−1/2 U ⊤ . Vizsgáljuk meg az (a) pontban kapott sajatértékeket. Mivel R szükségképpen nemnegatív denit, és a λ2 = λ3 , · · · = λd = 1 − ρ sajátértékek nemnegatívak, a λ1 > 0 feltételnek kell teljesülnie. Ha ismerjük azt az
(c) (d)
Válasz: R korrelációs mátrix sajátértékei λ1 = 1 + (d − 1)ρ, λ2 = λ3 , · · · = λd = 1 − ρ. Itt d = 4-re megmutatjuk u2, u3 és u4 konstrukcióját,
(a) Az
amib®l az általános eset már könnyen leolvasható.
1 2 1 2 1 2 1 2
U=
√ 2 2√ − 22
0 0
√ 6 √6 6 6√ − 36
0
√
12 √12 12 √12 12 12 √ − 12 4
89898 (b) Az Útmutató és (a) pont alapján nyilvánvaló. (c) Az Útmutató és (a) pont alapján nyilvánvaló. (d) Az Útmutató és 8. * Legyen
A
és
B
két
λ1
értéke alapján nyilvánvaló
n × n-es
pozitív denit mátrix. Mutassuk meg, hogy
elemenkénti szorzatuk is pozitív denit!
Tipp:
Jelölje A = {aij } i = 1, . . . , n j = 1, . . . , n B = {bij } i = 1, . . . , n j = 1, . . . , n és C = {cij = aij bij } i = 1, . . . , n j = 1, . . . , n A feladatban szereplo mátrixokat; A és B pozitiv denitása miatt léteznek X ∼ N (0, A) és Y ∼ N (0, B) véletlen vektorok. Tegyük fel, hogy függetlenek. ⊤ Ekkor a (NEM GAUSS) Z = (z1 = x1 y1 , . . . , zn = xn yn ) veletlen vektor kovarianciamátrixa éppen C.
Válasz:
Mivel minden kovarianciamátrix nem negatív denit, és
dinatái lineárisan függetlenek,
C
Z
koor-
pozitív denit.
A feladtra van tisztán algebrai bizonyítás is: tekintsük az
A ⊗ B n2 × n2 -
es tenzorszorzat mátrixot, ami szintén pozitív denit, és található olyan invariáns altere amiben éppen
C
által deniált operátor hat.
d-dimenziós normális eloszlású vektorváltozó komponen(d > k)-t tetsz®legesen kiválasztva azok együttes eloszlása k -
9. Igaz-e, hogy egy sei közül
dimenziós normális?
Tipp:
Próbáljuk felírni a denícióban szerepl®
hogy a denícióban szerepl® het®, hogy az els®
k
A
A
mátrixot. Feltehet®,
alsó trianguláris, a szimmetria miatt felte-
komponenst választottuk.
94FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
Válasz:
Igaz.
2 10. Igaz-e, hogy (X1 , X2 ) ∼ N2 (0, Cd ) esetén X1 /c1,1 2 akkor χ (2) eloszlású, ha X1 és X2 korrelálatlanok?
Tipp:
Vegyük észre, hogy
+ X22 /c2,2
pontosan
X1 és X2 együttesen Gauss-eloszlású valószín¶ségi
változók pontosan akkor függetlenek, ha korrelálatlanok. Hasonlóan, vegyük észre, hogy két N (0, 1) valószín¶ségi változó négyzeteinek összege 2 pontosan akkor χ (2) eloszlású, ha függetlenek.
Válasz: 11. Legyen
Igaz.
Y ∼ Nd (0, Id ), továbbá A egy d×d-s szimmetrikus r rangú mátrix. Y⊤ AY ∼ χ2 (r) pontosan akkor teljesül, ha AA = A?
Igaz-e, hogy
Tipp: hogy
AA = A, A = A⊤ , rang(A) = r feltétel A egy r dimenziós altérre való vetítés mátrixa. Az
Válasz: r
Igaz, mivel
AY
kovariancimátrixa
Ir ,
ezért
éppen azt jelenti,
Y⊤ AY = Y⊤ AAY
darab független standard normális eloszlású valószín¶ségi változó né-
gyzetének összege.
X = (X1 , . . . , Xn ) mátrixot, amely oszlopvektorai Xi ∼ Nd (0, C), i = 1, . . . , n független azonos eloszlású változók, valamint a W = XX⊤ Wishart-mátrixot!
12. Tekintsük az
W⊤ ?
(a) Milyen eloszlású
(b) Hogy változik meg
W,
ha
X
két oszlopát felcseréljük?
(c) Hogy változik meg
W,
ha
X
két sorát felcseréljük?
(d) Adjunk meg
W
várható értékét!
W k -adik
(e) Milyen eloszlású
Tipp:
Vegyük észre, hogy
W
f®minora?
szimmetrikus. Figyeljük meg a
W
dení-
cióját.
Válasz: (a)
W = W⊤
(b)
W
tehát
W⊤ ∼ Wd (n, C)
nem változik.
(c) Tegyük fel hogy az i-edik és a a
wii -t
(d) Ha (e)
wjj -t
és a
n = 1 E(W) = C,
Wk (n, C′ ),
ahol
j -edik sort cseréltük fel. Ekkor W-ben
tartalmazó oszlopok es sorok felcserél®dnek.
C′
a
tehát
C
E(W) = nC.
mátrix
k -adik
Wi ∼ Wd (ni , C), i = 1, . . . , k ∑k eloszlású i=1 Wi ?
13. Legyenek lyen
Tipp:
f®minora.
független Wishart-mártixok. Mi-
Emlékezzünk arra, hogy a Wishart-eloszlás a
analogonja.
Válasz:
Legyen
n = n1 + · · · + nk
∑k i=1
χ2 -eloszlás (l. képletgy¶jtemény)
Wi ∼ Wd (n, C).
3.3.
95
TESZTEK
14. Legyen
Tipp:
W ∼ Wd (n, C)
és
a ∈ R+ .
Milyen eloszlású
aW?
Emlékezzünk arra, hogy a Wishart-eloszlás a
chi2 -eloszlás
analo-
gonja.
Válasz: aW ∼ Wd (n, aC) W ∼ Wd (n, C) BWB⊤ ?
15. Legyen
és
B
egy
d × d-s
nemszinguláris mátrix. Milyen
eloszlású
Tipp:
Számoljuk ki a
W = XX⊤
BX
mivel egyenl® a
kovarianciamátrixát, ahol
BXBX⊤ ?
X ∼ Nd (0, C).
Ha
Válasz: BWB⊤ ∼ Wd (n, BCB⊤ ). 16. Legyen
W ∼ Wd (n, I).
(a) Milyen eloszlásúak (b) Milyen eloszlású (c) Igazoljuk, hogy
W
diagonális elemei?
trW?
W nemdiagonális elemei el®állnak két független χ2 (n)
eloszlású változó különbségének konstansszorosaként!
Tipp: (a) Alkalmazzuk a deníciót. (b) Alkalmazzuk a deníciót, és keressük meg a
χ2
eloszlás deníóját
képletgy¶jteményben.
(a + b)(a − b) = a2 − b2 , (a + b)2 = a2 + 2ab + b2 , (a − b) = a − 2ab + b2 azonosságokat.
(c) Alkalmazzuk az 2 2
Válasz: (a)
χ2 (n)
(b)
χ2 (nd)
(c) Ha
n=1X
Y független standard normális eolszlású valószín¶ségi X + Y és X − Y független N (0, 2) valószín¶ségi vál2 el®bb idézett azonosság miatt). Továbbá (X + Y ) /4 − és
változók, akkor tozók (az
(X − Y )2 / két független valószín¶ségi változó kulönbsége melyeknek 2 2-szeresei χ eloszlásúak. Ugyanakkor ez a különbség XY . A standard Wishart mátrix diagonálison kívüli elemei n függtelen XY alakú valószín¶ségi változó összege.
3.3. 1.
Tesztek
X1 , . . . , Xn
egydimenziós normális eloszlásúak. Melyik állítás igaz?
(a) Együttes eloszlásuk csak akkor többdimenziós normális, ha függetlenek. (b) Ha függetlenek, akkor együttes eloszlásuk többdimenziós normális.
96FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
(c) Együttes eloszlásuk csak akkor többdimenziós normális, ha nem függetlenek. (d) Ha nem függetlenek, akkor együttes eloszlásuk többdimenziós normális.
Válasz: (b) 2. Egy többdimenziós normális eloszlású változó komponensei standard normális eloszlásúak. Igaz-e, hogy együttesen is standard normális eloszlású? (a) Igen, mert ez a deníció. (b) Igen, mert a többdimenziós standard normális eloszlású változó lineáris transzformációjaként kapjuk, az pedig egyértelm¶. (c) Igen, mert a függetlenségb®l következik a korrelálatlanság. (d) Nem, csak ha a komponensek korrelálatlanok.
Válasz: (d) 3. Legyenek
X1 , . . . , Xn ∼ Nd (0, C) függetlenek. Milyen eloszlású
∑n i=1
X1 +
. . . + Xn ? (a)
Nd (0, C)
(b)
Nd (0, nC)
(c)
Nd (0, n2 C)
(d)
Wd (n, C)
Válasz: (b) X1 , . . . , Xn ∼ Nm (m, I) függetlenek. Milyen eloszlású m)(Xk − m)⊤ ?
4. Legyenek
(a)
χ2 (n)
(b)
χ2 (nd)
(c)
Wm (n, I)
(d)
Wn (m, I)
∑n
k=1 (Xk −
Válasz: (c) 5. Valójában hány dimenziós változó egy (a)
d2
(b)
d(d + 1)/2
(c)
nd
(d)
(nd + 1)/2
Válasz: (b)
Wd (n, C) eloszlású Wishart-mátrix?
3.3.
97
TESZTEK
6. Milyen eloszlásúak az
n
darab
d
dimenziós standard normális eloszlású
változó segítségével kapott Wishart-mátrix f®átlójának elemei? (a) Standard normális (b)
χ2 (1)
(c)
χ2 (d)
(d)
χ2 (n)
Válasz: (d)
98FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS
4. fejezet
Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben
4.1.
4.1.1.
Elméleti háttér
Paraméterbecslés többdimenziós normális modellben
Ebben a paragrafusban csak azokra a fogalmakra és tételekre térünk ki, amelyek természetüknél fogva lényegesen különböznek azok egydimenziós változataiktól.
Hatásosság: A torzítatlan becslések között keressük a leghatásosabbat. Mivel a több paraméter esetén a becslésk szórásnégyzetei helyett azok kovarianciamátrixait kell összehasonlítanunk, a hatásosság mérésére egy er®sebb fogalmat vezetünk be.
100. Deníció. T2
A
θ ∈Θ
paraméter
T1
becslése legalább olyan hatásos, mint
becslése, ha
D2θ (T1 ) ≤ D2θ (T2 ), ahol a mátrixok közötti
A ≤ B
rendezés úgy értend®, hogy
B−A
pozitív
szemidenit. Ilyen értelemben alkalmazza a rendezést a CramérRao egyenl®tlenség több paraméterre vonatkozó alakja:
101. Tétel.
A CramérRao egyenl®tlenség többváltozós alakja (bizonyos itt
teljesül® regularitási feltételek esetén) alsó korlátot ad a torzítatlan becslések 99
100FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS
szórásmátrixára:
D2θ (T) ≥
1 −1 I (θ) = In−1 (θ), n 1
θ∈Θ
I1 (θ) jelöli az ún. Fisher-féle információs mátrixot, amit 1-elem¶ mintából számolhatunk: ( I1 (θ) = Eθ
∂ ln fθ (X1 ) ∂θ
)(
)T ( ) ∂ ∂ 2 = Dθ ln fθ (X1 ) ln fθ (X1 ) , ∂θ ∂θ
Megjegyezzük, hogy többdimenziós normális eloszlásnál egyenl®ség az
mxS/(n − 1))
¯ (X,
párra nem érhet® el.
A többdimenziós normális eloszlás paramétereinek maximum-likelihood becslése. Miel®tt hozzáfognánk ennek a feladatnak a megoldásához, felidézzük a Steineregyenl®séget többdimenziós változatát.
102. Lemma. legyen
¯ x
n ∑
p (Steiner-egyenl®ség). Legyenek x1 , . . . xn ∈ R vektorok, , továbbá p az átlaguk és v ∈ R egy tetsz®leges vektor. Ekkor
(xk − v)(xk − v)⊤ =
k=1
n ∑
¯ )(xk − x ¯ )⊤ + (¯ (Xk − x x − v)(¯ x − v)⊤ .
Speciálisan, ha
v=0 n ∑
¯ )(xk − x ¯ )⊤ = (xk − x
k=1 Legyen
(4.1)
k=1
X1 , . . . , Xn m
¯⊤. xk x⊤ xx k − n¯
k=1
független elem¶ minta az
torra, tegyük fel, hogy az ismeretlen
n ∑
n > p.
X ∈ Np (m, C)
véletlen vek-
A mintaelemek alapján szeretnénk becslést adni
várható érték vektorra és a
C
kovarianciamátrixra, melyr®l
feltesszük, hogy pozitív denit. Ehhez a maximum likelihood módszert használjuk, azaz a mintaelemek együttes s¶r¶ségfüggvényével deniált likelihood-függvényt maximalizáljuk a két ismeretlen paraméterben. A mintaelemek függetlensége következtében az együttes s¶r¶ségfüggvény a külön-külön vett s¶r¶ségfüggvények szorzata, melyek mindegyike (a mintaelemek azonos eloszlása miatt) az (3.2) alakban írható (csak az argumentumokba most a mintaelemeket írjuk):
Lm,C (X1 , . . . , Xn ) =
1 (2π)np/2 |C|
e− 2 n/2
1
∑n
T −1 (Xk −m) k=1 (Xk −m) C
Vegyük észre exponensbeli
n ∑ k=1
(Xk − m)T C−1 (Xk − m)
.
(4.2)
4.1.
101
ELMÉLETI HÁTTÉR
kvadratikus alak tulajdonképpen egy
1 × 1-es
mátrix nyoma (trace-e), ami a
trace függvény ciklikus permutációkkal szembeni invarianciája miatt trC
−1
(Xk − m)(Xk − m)T
(4.3)
alakban is írható (err®l közvetlen számolással is meggy®z®dhetünk). A formulák kezelése szempontjából ez az alak gyakran el®nyösebb, mint a kvadratikus forma írásmód. Az el®z® rész jelöléseit használjuk:
∑ ¯ = 1 X Xk n n
k=1
jelöli a mintaátlagot és
S=
n ∑
¯ ¯ T (Xk − X)(X k − X)
k=1 az empirikus kovarianciamátrix
n-szeresét.
A likelihood-függvényt most a (4.3)
formula és a (4.1) többdimenziós Steiner-egyenl®seg segítségével úgy alakítjuk át, hogy benne ezek a statisztikák jelenjenek meg:
L(X1 , . . . , Xn ; m, C) =
1
e− 2 trC 1
(2π)np/2 |C|n/2
−1
S
¯
· e− 2 n(X−m) 1
T
¯ C−1 (X−m)
.
(4.4) A fenti (4.4) függvényt
m-ben
és
C-ben
kell maximalizálnunk, hogy megkapjuk
ˆ becsléseket. A (4.4) függvény akkor lesz m-ben maximális, ha a kitev®ben ˆ és C m lév® kvadratikus alak értéke 0, ezért
ˆ = X. m Mivel ez a széls®érték független a imalizálhatjuk
C
C
szerint (valojában
paramétert®l a (4.4) függvényt ugy max-
C−1
szerint)
ˆ = X-szel m
helyettesítjük. ∂|A| ⊤ A további számolás a Lineáris algebra fejezetben ismertetett ∂A = adj (A ) képlet alkalmazásával végezhet® el, ezt nem részletezzük, csak a végeredményt közöljük:
ˆ = S. C n
4.1.2.
Hipotézisvizsgálat többdimenziós normális modellben
Az egyváltozós esethez hasonlóan hipotéziseket is vizsgálhatunk a várható érték vektorra és a kovarianciamátrixra vonatkozóan. Ehhez megismételjük likelihood 2 hányados próba, és bevezetjük a Hotelling T -eloszlás denícióját.
102FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS
103. Deníció. vektora, alapján
Legyen θ az fθ (x) s¶r¶ségfüggvény¶ eloszlás ismeretlen paraméterθ ∈ Θ (Θ ⊂ Rk többdimenziós tartomány). Az X1 , . . . , Xn minta dönteni szeretnénk a H0 és H1 hipotézisek között:
H0 : θ ∈ Θ0
vers.
H1 : θ ∈ Θ1 ,
ahol Θ0 ∩ Θ1 = ∅, Θ0 ∪ Θ1 = Θ, és a dim(Θ0 ) = r , dim(Θ) = k jelöléssel teljesül. Az n-elem¶ minta alapján konstruálandó próbastatisztika:
λn (X1 , . . . , Xn ) =
r
supθ∈Θ0 Lθ (X1 , . . . , Xn ) L∗0 = . ∗ L1 supθ∈Θ Lθ (X1 , . . . , Xn )
λn (X1 , . . . , Xn ) próbastatisztika eloszlását H0 fennál1−ε szignikanciaszinthez (ε kicsi) megkonstruáljuk a mintatér
Amennyiben ismerjük a lása esetén, adott részét képez®
Xk = {(x1 , . . . , xn ) : λn (x1 , . . . , xn ) ≤ λε } kritikus tartományt, ahol a terjedelme
ε
legyen, azaz
λε kritikus értéket úgy határozzuk meg, hogy a próba supθ∈Θ0 Pθ ((X1 , . . . , Xn ) ∈ Xk ) = ε. Ezután, ha
mintánk a kritikus tartományba esik, elutasítjuk, különben pedig elfogadjuk a nullhipotézist.
104. Deníció.
W ∼ Wp (n, I) W pozitív denit (ez 1 valón > p) és a X :=∼ Np (0, I) valószín¶ségi változók
Legyenek a
szín¶séggel teljesül, ha függetlenek. Akkor a
T 2 = nXT W−1 X összefüggéssel deniált nevezzük
n, p
T2
valószín¶ségi változót Hotelling-féle
paraméterekkel. A továbbiakban az
n
T 2 -eloszlás únak
paraméterre, mint szabadság-
fokra hivatkozunk.
T 2 -eloszlás a Student-féle t-eloszlás többp = 1, C = 1 esetben T 2 ≡ t2 /n.
Megjegyezzük, hogy a Hotelling-féle dimenziós általánosítása: a
105. Állítás.
A
W ∼ Wp (n, C)
és
X :=∼ Np (m, C)
esetben
T 2 = n(X − m)W−1 (X − m)⊤ valószín¶ségi változó szintén
106. Tétel.
Ha a
akkor
azaz
T2
T2
T 2 -eloszlású n
és
p
paraméterekkel.
statisztika Hotelling elosszlású
n
és
p
paraméterekkel,
n−p+1 · T 2 ∼ F(p, n − p + 1), p megfelel® konstansszorosa Fisher-féle
paraméterekkel.
F -eloszlású
a zárójelben felsorolt
4.2.
103
FELADATOK
4.2.
Feladatok
1. Igazoljuk a Steiner-egyenl®ség következ® többdimenziós változatát: d ha x1 , . . . , xn , v ∈ R , akkor
n ∑
(xk − v)(xk − v)⊤ =
k=1
n ∑
(xk − x)(xk − x)⊤ + n(x − v)(x − v)⊤ .
k=1
Tipp: Válasz: 2. Legyen
X1 , . . . , Xn ∼ Nd (m, C)
független minta. Igazoljuk, hogy
Cov(X, Xi − X) = 0.
Tipp: Válasz: 3. Legyen
X1 , . . . , Xn ∼ N (µ, σ 2 )
minta. Adjuk meg az
I1
Fisher-féle infor-
mációs mátrixot!
Tipp: Alkalmazzuk a többdimenziós FisherCochran-tételbeli deníciót. Válasz: (1 ) σ2
I1 = 4. Legyen
X1 , . . . , Xn ∼ U (a, b)
0
0
2 σ4
független minta. Adjuk meg az
I1
és
In
Fisher-féle információs mátrixokat!
Tipp: Alkalmazzuk a többdimenziós FisherCochran-tételbeli deníciót. Válasz: ( ) I1 = ( I1 = 5.
X1 , . . . , Xn
egy
a
középpontú
1 (b−a)2 1 (b−a)2
1 (b−a)2 1 (b−a)2
n2 (b−a)2 n2 (b−a)2
n2 (b−a)2
b
sugarú
2
, ) .
(b−a)2
d-dimenzós
gömbben egyenletes
eloszlásból vett független minta. (a) Adjuk meg az
I1
Fisher-féle információs mátrixot!
(b) Adjunk maximum likelihood becslést
a-ra b = 1
(c) Adjunk maximum likelihood becslést
(a, b)-re!
Tipp:
esetben!
104FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS
(a) Vegyük észre, hogy a s¶r¶ségfüggvény értéke nem függ az
a
vek-
tortól abban a tartományban, ahol ez az érték nem 0. Ugyanezt az elvet alkalmaztuk pl.
[0, θ] intervallumon egyenletes minta Fisher-féle
információjának kiszámításákor, és az el®z® feladatban is. Az el®z® feladat azért is érdekes, mert d = 1-re alkalmasan átparaméterezve ( ) b−a c = a+b ugyanez a helyzet. 2 és r = 2 (b) Minden olyan
a
vektor M-L becslés lesz, amely körüli 1 sugarú gömb
tartalmazza a mintát. (c)
a M-L becslése az a vektor lesz, amely körüli a teljes mintát tartalmazó körlap sugara minimális, míg b M-L becslése ez a minimális sugár
Válasz: (a) Figyelembevéve, hogy a
d-dimenziós
gömb térfogata
Cd bd ,
ahol
Cd
egy a dimenziótól függ® kosntans ami a számolás során kiesik:
d2 b2
0 .. . 0
0 0 . . .
0
... ... ... ...
0 0 . . . . 0
(b) Az Útmutató alapján pl. a síkon viszonylag egyszer¶ algoritmussal a mintát egy olyan négyzettel burkoljuk, amely egyik élének iránya tetsz®leges, ennek középpontja alkalmas becslés. (c) Nem tudok rá gyors algoritmust. 6. 49 id®s embert az orvos két csoportba sorolt aszerint, hogy van-e szenilis faktor a viselkedésükben (I. csoport) vagy sem (II. csoport). Ezután elvégeztettek velük 4 pszichológiai tesztet (1. információ, 2. hasonlóság, 3. aritmetika, 4. képfelismerés), melyekre kapott átlagpontszámok az alábbi táblázatban láthatók:
I. (n=37)
II. (m=12)
1.
12,57
8,75
2.
9,57
5,33
3.
11,49
8,50
4.
7,97
4,75
Vizsgálja meg, 95%-os szignikanciaszinten elfogadható-e az a nullhipotézis, hogy a két csoport várhatóan nem különbözik szignikánsan a teszteredmények alapján. Feltesszük, hogy az egyes emberek teszteredményei 4dimenziós normális eloszlást követnek ismeretlen (közös) kovarianciamátrixszal.
4.2.
105
FELADATOK
Az egyesített (49) elem® mintából számolt
S−1
0,0052 −0,0028 = −0,0012 −0,0012
−0,0028 0,0038 −0,0008 −0,0002
S = S1 + S2
mátrix inverze:
−0,0012 −0,0012 −0,0008 −0,0002 . 0,0030 −0,0004 −0,0004 0,0042
Tipp: Válasz: 7. Legyen
X1 , . . . , Xn ∼ Nd (m, C)
(a) Adjuk meg az
I1
(b) Igazoljuk, hogy
független minta, ahol
C
ismert.
Fisher-féle információs mátrixot!
X
hatásos becslése
m-nek!
(Használjuk a Cramér-
Rao egyenl®tlenség többdimenziós változatát!) (c) Igazoljuk, hogy a
H0 : m = m0 , H1 : m ̸= m0
hipotézisek vizs-
gálatára konstruált próba likelihood-hányados teszt! (d) Igazoljuk, hogy az el®z® pontbeli teszt az u-próba általánosítása!
Tipp: Válasz: 8. 20 atal emberre az
A, B, C
stimuláló szerek hatását vizsgálták a reak-
cióid® szempontjából (századmásodpercben).
X A = 21,05 X B = 21,65 X C = 28,95, 45,2 43,6 32,6 S = 43,6 53,2 36,4 . 32,6 36,4 49,4
95%-os szignikanciaszinten vizsgálja meg az egyenl® hatás elvét a
C −B
B − A,
különbségekre! (Feltesszük, hogy a hatások többdimenziós normális
eloszlást követnek, és azt teszteljük, hogy a
B vektor 0
lamint a véletlen
C
és
B
és
A
hatás különbsége, va-
hatás különbsége mint 2-dimenziós normális eloszlású várható érték vektorúnak tekinthet®-e.) Megjegyezzük,
hogy valójában a három stimulálószer hatása várható értékének egyenl®sége itt a nullhipotézis, azonban meggyeléseink nem független mintákra, hanem ugyanarra a 20 emberre vonatkoznak. Így a javasolt vizsgálat a tpróbánál bevezetett önkontrollos vizsgálat többdimenziós általánosításának tekinthet®.
Tipp: Válasz:
106FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS
X1 , . . . , Xn ∼ Nd (m, C) független minta. Vegyük az (m, C) paraméter ˆ = (X, S/n) (maximum likelihood) becsléseit! ˆ C) (m,
9. Legyen
(a) Igazoljuk, hogy
(X, S)
(b) Torzítatlan becslése-e
elégséges statisztika
(m, C)-re!
(X, S/n)
paraméternek? Ha nem,
az
(m, C)
korrigáljuk! (c) Mutassuk meg, hogy a (Hotelling-féle)
T 2 -próba
a t-próba (kétoldali
változatának) általánosítása (de az egyoldalinak nem)! (d) Konstruáljunk likelihood-hányados próbát a
H0 : C = C0
hipotézis
tesztelésére!
ε terjedelm¶ egyenletesen leger®sebb próbát a NeymanH0 : (m, C) = (m0 , C0 ) vs. H1 : (m, C) = (m1 , C0 ) egyszer¶ alternatíva vizsgálatára!
(e) Konstruáljunk
Pearson alaplemma segítségével a
Tipp: Válasz: 10. Igazoljuk, hogy a (Hotelling-féle) kétmintás
T 2 -próba likelihood-hányados
próba! Igazoljuk, hogy ez a teszt a kétmintás t-próba általánosítása!
Tipp: Válasz: 11. Legyen
X1 , . . . , Xn1 ∼ Nd (m1 , C1 ) és Y1 , . . . , Yn2 ∼ Nd (m2 , C2 ) független
minták. Konstruáljunk likelihood-hányados próbát a H0 : C1 = C2 , H1 : C1 ̸= C2 hipotézisek vizsgálatára (kétmintás T 2 próba feltételének ellen®rzése)!
Tipp: Válasz: X1 , X2 , . . . ∼ Nd (m, C) fae. Adjunk a H0 : (m, C) = (m0 , C0 ) H1 : (m, C) = (m1 , C0 ) egyszer¶ alternatíva eldöntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható
12. Legyen vs.
lépésszámokat!
Tipp: Válasz: A1 , . . . , Ak teljes eseményrendszer, P(Ai ) = pi . Legyen X az esk -dimenziós indikátorváltozója, valamint p = (p1 , . . . , pk )⊤ . Legyenek X1 , X2 . . . független vektorok, amelyek eloszlása megegyezik X
13. Legyen
eményrendszer eloszlásával.
(a) Mutassuk meg, hogy
∑n i=1
Xi ∼ P olyn (p1 , . . . , pk ).
(b) Adjunk maximum likelihood becslést az els®
p-re
a Lagrange-multiplikátor módszerével!
n
mintaelem alapján
4.3.
107
TESZTEK
(c) Adjunk maximum likelihood becslést az els®
p-re pk = 1 − p1 − . . . − pk−1 (d) Adjunk a
H0 : p = p 0
vs.
n
mintaelem alapján
felhasználásával is!
H1 : p = p 1
egyszer¶ alternatíva el-
döntésére szekvenciális eljárást (ε1 els®fajú és
ε2
másodfajú hibával)!
Adjuk meg a várható lépésszámokat!
Tipp: Válasz: 4.3.
Tesztek
n elem¶ Nd (m, C) eloszlásból vett mintát (feltesszük, hogy I1 mátrix a C mátrix inverze). becslése a m-nek a maximum likelihood becslés?
1. Tekintsünk egy
C
invertálható, a több dimenziós Fisher
Milyen
(a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, gyengén sem konzisztens.
Válasz: (c) 2. Tekintsünk egy a
C-nek
n elem¶ Nd (m, C) eloszlásból vett mintát. Milyen becslése
a maximum likelihood becslés?
(a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, gyengén sem konzisztens.
Válasz: (a) 3. Melyik teszt általánosítása a Hotelling-féle
T2
próba (azaz egy dimenziós
esetben melyiket kapjuk)? (a) u próba (b) t próba (c) F próba (d)
χ2
próba
Válasz: (b) 4. Hogy lehet két (egy- vagy többdimenziós) standard normális eloszlás (amelyek együttesen is normális eloszlásúak) függetlenségének tesztelésére alkalmazni a normális eloszlás kovarianciamátrixára vonatkozó próbát?
108FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS
(a) Sehogy, mert az a többdimenziós normális eloszlás kovarianciamátrixára vonatkozik, nem függetlenségre. (b) Ha azonos a dimenziószam, a különbségváltozó kovarianciamátrixát teszteljük, hogy 0-e. (c) Összef¶zött változót teszteljük, kovarianciamátrixa egységmátrix-e. (d) Külön-külön teszteljük a két változót, kovarianciamátrixa egységmárixe és megnézzük, a két teszt ugyanazt adta-e eredményül.
Válasz: (c)
5. fejezet
Lineáris módszerek 1.: f®komponensanalízis, faktoranalízis
5.1.
Elméleti háttér
5.1.1. Legyen
F®komponensanalízis X ∼ Np (m, C), és tegyük fel, hogy a C kovarianciamátrix pozitív denit. X el®állítását
A modell a következ®: keressük
X = VY + m
(5.1)
m = EX, V p × p-s ortogonális mátrix (azaz V−1 = VT ), Y komponens¶, p-dimenziós normális eloszlású véletlen vektor
alakban, ahol pedig független
Vegyük észre, hogy az (5.1) el®állítás hasonló a 3. fejezetben tárgyalt (3.1)beli
X = AY + m Y p-dimenziós standard normális eloszlású volt, a p×p-s AAT = C (nem egyértelm¶) felbontásból adódott. Ott Y
felbontáshoz, de ott
A
mátrix pedig az
komponensei függetlenek és 1 szórásúak voltak, míg a fenti (1.1) el®állításban
Y
komponenseit®l csak a függetlenséget követeljük meg, míg a transzformá-
ciós mátrixtól ortogonalitást várunk el. Ez az el®állítás már egyértelm¶, ha
Y
komponenseit varianciáik (szórásnégyzeteik) csökken® sorredjében rendezzük. (Ha a varianciák között adódnak egyenl®ek, akkor nincs egyértelm¶ség, ennek feltételét az alábbi eljárásból olvashatjuk ki.) Most megadjuk (5.1) a el®állítást. Mivel valens az
felbontással. Jelölje
V
invertálható, ezért (5.1) ekvi-
Y = V−1 (X − m) = VT (X − m) C = UΛUT az X véletlen vektor kovarianciamátrixának Y kovarianciamátrixának diagonálisnak kell lennie.
spektrálfelbontását. Ezzel
109
110FEJEZET 5. LINEÁRIS MÓDSZEREK 1.: FKOMPONENSANALÍZIS, FAKTORANALÍZIS
A spektrálfelbontás egyértelm¶sége értelmében
] [ ] [ EYYT = E V−1 (X − m)(X − m)T V = V−1 E (X − m)(X − m)T V = = V−1 CV = V−1 UΛUT V = (V−1 U)Λ(V−1 U)T diagonális mátrix f®diagonálisában csökken® elemekkel akkor és csak akkor, ha V−1 U = Ip , azaz V = U. (Itt kihasználtuk, hogy V, U, következésképpen V−1 U is ortogonális mátrix.) Megjegyezzük, hogy többszörös multiplicitású sajátértékek esetén az
U
mátrix megfelel® oszlopai sem egyértelm¶ek (l. hy-
perref[linalg]Lineáris algebra ). Így
X = UZ + m lesz a kívánt felbontás, ahol
Z
jelöli a
V=U
választás melletti
Y-t,
azaz
Z = U−1 (X − m) = UT (X − m). Ezt a
Z-t
az
X
véletlen vektor f®komponensvektor ának, komponenseit pedig
f®komponenseknek nevezzük. Vegyük észre, hogy a az
uk
k -adik f®komponens az X−m változó komponenseinek
vektor koordinátáival vett lineáris kombinációja:
Zk = uTk (X − m) ahol
uk
Az
C mátrix λk sajátértékéhez λ 1 ≥ λ2 ≥ · · · ≥ λp .
a
oszlopa),
X
(k = 1, . . . , p), tartozó normált sajátvektora (U
k -adik
véletlen vektor fenti felbontása eleget tesz az alább ismertetend® op-
timalitási kritériumnak (a f®komponenseket ezzel is be lehetne vezetni).
107. Tétel.
Az els® f®komponens, Z1 szórása maximális az X−m véletlen vektor komponenseinek összes lehetséges normált (egységvektorral képzett) lineáris
Z2 szórása maximális az összes lehetséges, Z1 -t®l független normált lineáris kombinációéi közt; s.í.t. a k -adik f®komponens, Zk szórása max-
kombinációéi között;
Z1 , . . . , Zk−1 -t®l = 3, . . . , p).
imális az összes lehetséges, ció szórása közt (k Tehát a
független normált lineáris kombiná-
Z p-dimenziós normális eloszlású véletlen vektor komponensei függetlenek λ1 ≥ λ2 ≥ · · · ≥ λp > 0 számokkal egyeznek meg. Ezt szemlél-
és varianciáik a
teti az alábbi ábra. ∑p A i=1 λi összeg a f®komponensek varianciáinak az összege (a továbbiakban teljes varianciának nevezzük), eredeti változóink teljes varianciája pedig kovarianciamátrix f®diagonálisbeli elemeinek összege, azaz trC. Mivel a ∑p C sajátértékei, ezért i=1 λi = trC, ami a varianciák nyelvén azt jelenti, hogy f®komponensek teljes varianciája megegyezik az eredeti változók a
λi
C
számok
teljes varianciájával, és ebb®l a f®komponensek csökken® sorrendben részesülnek. A f®komponensek szórásai az ún. kanonikus szórások (ezek a
i = 1, . . . , p).
√
λi
számok,
5.1.
111
ELMÉLETI HÁTTÉR
0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0
5.1. ábra. F®komponensek elméleti és empirikus szórásnégyzetei
Mivel a várható érték vektor hozzáadása csak egy eltolást jelent, a továb-
0 várható érték vektorú X Z = UT X f®komponenstranszel®jelezésével) egy p-dimenziós forgatás,
baiakban ezt már levontnak képzeljük el, és eleve véletlen vektor-ból indulunk ki. Ezekután a formáció (a sajátvektorok alkalmas T hiszen az U mátrix ortogonális.
A fentiek alapján a f®komponens transzformáció egyben azt is jelenti, hogy ha az
u1 , . . . , up
sajátvektorok alkotta bázisra térünk át, akkor ezekben az
irányokban a transzformált változó varianciája maximális.
112FEJEZET 5. LINEÁRIS MÓDSZEREK 1.: FKOMPONENSANALÍZIS, FAKTORANALÍZIS
A következ® állítás mondanivalója az, hogy a f®komponens tranzformáció
forgatásinvariáns.
108. Állítás.
Legyen az
kovarianciamátrixa pedig esetén az
X
és
OX
X p-dimenziós véletlen vektor várható érték vektora 0, C. Tetsz®leges O p × p-s ortogonális mátrix választása
véletlen vektork f®komponensvektora megegyezik.
Megjegyzezzük, hogy ha a
C kovarianciamátrix helyett az R = D−1/2 CD−1/2
korrelációs mátrixból indulunk ki, akkor már skálainvariáns f®komponens vek-
D a C mátrix f®X véletlen vektor komponenseinek varianciáit tartalmazó 1/2 diagonális mátrix, a D diagonálmátrix pedig a komponensek szórásait tartalmazza f®diagonálisában. Ha az X változót az X → SX transzformációnak 2 vetjük alá, akkor az új változó komponenseinek varianciáit az SDS = DS = 2 S D diagonálmátrix fogja tartalmazni (kihasználtuk, hogy diagonális mátrixok szorzása kommutatív), az új kovarianciamátrix pedig az SCS mátrix lesz. Így az SX véletlen vektor korrelációs mátrixa
tort kapunk, viszont a forgatásinvarianciát veszítjük el. Itt diagonálisát, azaz az
(S2 D)−1/2 SCS(DS2 )−1/2 = D−1/2 S−1 SCSS−1 D−1/2 = R lesz, ami a régi korrelációs mátrix. A forgatásinvariancia elvesztése onnan is látható, hogy tetsz®leges
O
ortogonális mátrix esetén az
OX
véletlen vektor
korrelációs mátrixa, és annak spektrálfelbontása is alapvet®en más lesz, mint az eredeti
X
változóé volt.
A f®komponensanalízis másik fontos optimumtulajdonságát fogalmazza meg a következ® tétel: nevezetesen, hogy az els® k f®komponens változónk legjobb k -dimenziós közelítését adja az alábbi értelemben. Az X p-dimenziós véletlen vektor k -dimenziós (k < p) közelítése alatt egy olyan véletlen vektort értünk, amely AX alakban áll el® valamely p × p-s, k -rang¶ A mátrixszal. Ugyanis AX értékeit 1 valószín¶séggel az A oszlopvektorai által kifeszített (k -dimenziós) altérben veszi fel.
109. Tétel.
Legyen
X ∼ Np (0, C)
véletlen vektor Rögzített
k < p-re
az
E∥X − AX∥2 k -rangú közelítés annak a projekciónak C kovarianciamátrix k legnagyobb sajátértékéhez kifeszített altérre vetít. (A λk = λk+1 esetben ez az al-
legkisebb négyzetes eltérést minimalizáló a mátrixával adható meg, amely a tartozó sajátvektora által tér nem egyértelm¶.)
Így a f®komponensanalízis a kovarianciamátrixnak nemcsak a 1.1. Tételbeli optimális felbontását adja, hanem a a kovarianciamátrixnak és így az eredeti változónak is alacsonyabb dimenziós közelítésére ad lehet®séget a 109 Tétel alapján (az els® egynéhány f®komponens megtartásával). A fenti tétel alkalmazásakor felmerül
k
választásának kérdése. Ehhez a
λ1 + · · · + λ k λ1 + . . . . . . + λp
5.1.
113
ELMÉLETI HÁTTÉR
hányadost használjuk, amely azt mutatja, hogy az els® variancia hányad részét magyarázza (általában olyan melyre nagy az ugrás
λk
és
λk+1
k f®komponens a teljes k -t célszer¶ választani,
közt).
A gyakorlatban az empirikus kovarianciamátrixból indulunk, amely többdimenziós normális eloszlást feltételezve az elméleti kovarianciamátrix maximum likelihood becslése. Mivel a sajátértékek és sajátvektorok a kovarianciamátrix folytonos függvényei, az empirikus kovarianciamátrix sajátértékei és sajátvektorai az elméletiek maximum likelihood becslései lesznek (amennyiben a kovarianciamátrix sajátértékei mind különböz®ek). A f®komponensanalízisnek akkor van értelme, ha kovarianciamátrixunknak vannak kiugró sajátértékei.
k
kiugró sajátérték megléte a
H0 : λk+1 = · · · = λp−1 = λp hipotézis elfogadásával ekvivalens, hiszen
p−k
H0 fennállása azt jelenti, hogy a legkisebb k = 0, 1, . . . , p − 1 egészekre
sajátérték egyenl®. A hipotézisvizsgálatot a
ilyen sorrendben addig végezzük, amíg adott szinten el nem fogadjuk a nullhipotézist. Ezzel a
k -val
megegyez® számú f®komponenst fogunk beválasztani.
Likelihood hányados próbával adódik, hogy a
−2 ln λn = n(p − k) ln
a g
statisztika (l. [26]) H0 fennállása esetén (amennyiben a mintaelemszám elég 2 ˆ empirikus kovarianciamátrix nagy) közel χf eloszlást követ, ahol a és g a C sajátértékeinek számtani- és mértani közepét jelöli:
a= a
χ2
ˆ k+1 + · · · + λ ˆp λ p−k
és
1 ˆ k+1 . . . λ ˆ p ) p−k , g = (λ
eloszlás szabadságfoka pedig
f= Ez az
f
1 (p − k + 2)(p − k − 1). 2
nem más, mint a sajátértékek egyenl®ségére tett feltételek mellett a
H0 fenállása esetén a sajátértékek (p) (p − k − 1)-gyel, a sajátvektorokat tartalmazó p × p-s ortogonális mátrixban lev® szabad paraméterek száma ((p−1)p/2) pedig (p−k−1)(p−k)/2vel, a (p − k) × (p − k)-as forgatások szabad paramétereinek számával (hiszen az azonos sajátértékhez tartozó sajátvektorok egy (p − k)-dimenziós altérben paraméterek számának a csökkenése. száma csökken
tetsz®legesen elforgathatók).
5.1.2.
Faktoranalízis
A f®komponensanalízisnél láttuk, hogy a módszer alkalmas a változók számának csökkentésére. A faktoranalízis célja eleve ez: nagyszámú korrelált változó magyarázata kevesebb korrelálatlannal (többdimenziós normális eloszlás esetén
114FEJEZET 5. LINEÁRIS MÓDSZEREK 1.: FKOMPONENSANALÍZIS, FAKTORANALÍZIS
a korrelálatlan helyett független mondható). Ezek a közös faktorok azonban nem magyaráznak meg mindent a változókból, csak azoknak az ún. közös részét. Ezen kívül van a változóknak egy egyedi része is, amelynek leválasztása szintén a modell feladata. A közös faktorokra itt nem úgy kell gondolni, mintha közvetlenül meggyelhet® változók lennének. A k -faktor modell tehát a következ®. Adott a p-dimenziós X véletlen vektor m várható érték vektorral és C kovarianciamátrixszal, többdimenziós normalitás esetén X ∼ Np (m, C). Adott k (1 ≤ k < p) egészre keressük az
X = Af + e + m
(5.2)
A p×k -as mátrix, az f közös faktor 0 várható érték vektorú, kok -dimenziós véletlen vektor, komponensei 1 szórásúak, az e egyedi faktor p-dimenziós korrelálatlan komponens¶ véletlen vektor, ráadásul komponensei még f komponenseivel is korrelálatlanok. A modell feltevései felbontást, ahol
rrelálatlan komponens¶,
formálisan:
Ef = 0,
Eff T = Ik ,
Eε = 0,
EeeT = f ,
EeeT = 0
k × p-es
a
azonosan 0 mátrix.
Koordinátákra lebontva ez a következ®t jelenti:
Xi =
k ∑
aij fj + ei + µi ,
i = 1, . . . , p.
j=1 Mivel
ei
és
fj
korrelálatlanok,
Xi
varianciája
cii =
k ∑
a2ij + dii ,
j=1 diagonális mátrix i-edik diagonális eleme nem más, mint az ei vál∑k Xi varianciájából a j=1 a2ij részt magyarázzák a közös faktorok ezt nevezzük az Xi változó kommunalitás ának ahol
dii
a
D
tozó (i-edik egyedi faktor) varianciája. Tehát
,
dii
pedig az egyedi variancia.
A modell paraméterei az
A
és
D
mátrixok. Az
A
mátrixot faktorsúly-
mátrix nak (más terminológiával átviteli mátrixnak) nevezzük. Ezekkel a modell mátrixalakja a következ®:
C = AAT + D. Látható, hogy
X
(5.3)
tetsz®leges átskálázás után is leírható a
k -faktor
modellel,
ugyanis
SX = (SA)f + e + Sm teljesíti a (5.2) modell feltételeit. Az is látható, hogy az sorainak tetsz®leges elforgatása után (azaz az
O k × k -as
AO
A
faktorsúly-mátrix
transzformáció után is, ahol
ortogonális mátrix) faktorsúly-mátrix marad a (5.2) modellben.
5.1.
115
ELMÉLETI HÁTTÉR
Még adott
k
esetén is nehéz megtalálni a (5.3) felbontást. Az egyértelm¶ség
A mátrixra. k -faktor modell
kedvéért szokás ezen kívül még további kényszerfeltételeket tenni az Például többdimenziós normális eloszlású
X, e, e
esetén a
paramétereinek maximum likelihood becslését keresve fel szokták tenni, hogy a
C
kovarianciamátrix nem-szinguláris, az
AT D−1 A
(5.4)
mátrix pedig diagonális, diagonális elemei különböz®ek, és nem-csökken® sorrendbe vannak rendezve. Ez a feltétel bizonyos egyértelm¶séget biztosít a faktorok maximum likelihood becsléséhez, és a számolásokat is egyszer¶bbé teszi.
k -t
A faktorok számát,
k
kicsire célszer¶ választani. Kérdés azonban, hogy
n-dimenziós X véletlen vektor k -faktor modellel. Ehhez számoljuk össze a (5.3) modell paramétereit: Aban és D -ben összesen pk + p ismeretlen paraméter van, a (5.4) kényszerfeltétel 2 azonban a diagonálison kívüli elemek 0 voltára vonatkozón (1/2)(k − k) = (1/2)k(k − 1) egyenletet jelent (ez megegyezik a k × k -as forgatások szabad paramétereinek számával). Alapvet®en pedig van (1/2)p(p+1) egyenletünk (a C milyen
természetes számokra írható le az
a
kovarianciamátrix különböz® elemei a szimmetria miatt). A felírható egyenletek és a szabad paraméterek számának különbsége:
s = (1/2)p(p + 1) + (1/2)k(k − 1) − (pk + p) = (1/2)(p − k)2 − (p + k). Általánosságban
s ≤ 0 esetén várható az egyenlet algebrai megoldásának létezése.
Ekkor
k ≥ (2p + 1 −
√ 8p + 1)/2.
A faktormodell identikálhatóságán azt értjük, hogy rögzített meg tudjuk adni
110. Tétel.
D-t
Adott
és
(5.5)
k esetén egyértelm¶en
A-t.
k < p
természetes szám esetén a (5.3) egyenlet pontosan
p × p-s diagonális D mátrix (f®diagonálisában C − D mátrix pozitív szemidenit és rangja nem
akkor oldható meg, ha van olyan nemnegatív elemekkel), hogy a nagyobb
k -nál.
A tétel valójában a
C−D
mátrix spektrálfelbontásából következik.
X ∈ Np (m, C), ˆ e ∈ Nk (0, Ik ) és e ∈ Np (0, D). Jelölje C az X-re vett n-elem¶ mintából számolt A faktorok (5.4) melletti maximum likelihood becsléséhez legyen
empirikus kovarianciamátrixot. Ezekkel a likelihood függvény logaritmusa
1 1 ˆ +c − n log |C| − ntrC−1 C 2 2 c konstans (l. hyperref több dim. gauss parmeter ML becslése, csak ott ˆ ). n-szeresére: S = nC T Ezekkel a likelihood függvény logaritmusa a (5.3)-beli C = AA + D modellegyenlet miatt A és D függvényének tekinthet®, és ezekben kell maximalizálni. lesz, ahol az
S
jelölést használtuk az empirikus kovarianciamátrix
Könnyen látható, hogy a feladat ekvivalens az
ˆ F (A, D) = log |AAT + D| + tr(AAT + D)−1 C függvény minimalizálásával.
116FEJEZET 5. LINEÁRIS MÓDSZEREK 1.: FKOMPONENSANALÍZIS, FAKTORANALÍZIS
5.2.
Feladatok
1. Legyen
X
d-dimenziós vektorváltozó és Y a Xi és Yj kovarianciáját!
egy
hozzá tartozó f®kompo-
nensvektor. Adjuk meg
Tipp:
Az általánosság megszorítása nélkül feltehet®, hogy
E(X) = 0,
a
továbbiakban, amikor ennek értelme van ezt mindig feltesszük. Ismeretes n ⊤ hogy Y = U X, ahol U{uij |i = 1, j = 1 } az X véltelen vektor C = {cij |ni=1, j=1 } kovarianciamátrixának C = UΛU⊤ spektrálel®állításában szerepl® ortonormált mátrix. Eszerint
n ∑
Yj =
ukj Xk
és így
E(Xi · Yj ) =
k=1
n ∑
ukj E(Xi Xk )
k=1
Válasz: E(Xi · Yj ) =
n ∑
ukj cik
k=1
( 2. Legyen
X ∼ N2 (0, C),
ahol
C=
1 ρ ρ 1
) , ahol
0 < ρ < 1.
Adjuk meg a
f®komponenseket és a f®komponensvektor kovarianciamátrixát!
Tipp:
Az el®z® feladat Útmutatásában szerepl® deníciók alapján meg
kell keresni a
C
matrix 2 sajátértéket, és a hozzájuk tartozó 1 normáju
sajátvektorokat, melyekb®l öszzeáll az
Válasz:
U
mátrix.
√ ( ) 2 1 1 2 −1 1 ( ) 1+ρ 0 Y = U⊤ X, Cov(Y) 0 1−ρ
λ1 = 1 + ρ, λ2 = 1 − ρ U =
Megjegyezzük, hogy
ρ > 0 esetén a fenti mátrixok a kanonikus (a sajátértékek
csökken® sorrendjnek megfelel®) mátrixok. 3. Legyen
X ∼ Nd (0, C),
ahol
C
diagonális mátrix f®átlójában különböz®
(pozitív) értékekkel. Adjuk meg a f®komponensvektort!
Tipp:
Ha a
C
mátrix diagonális, akkor a f®komponensanalízis feladata a
f®komponensek sorrendjét®l eltekintve megoldott.
Válasz: Yi = Xπ(i) , ahol π az a permutáció, amely a C matrix sajátértékeit nemnövekv® sorrendbe rendezi. 4. Legyen
X ∼ Nd (0, C), ahol C f®diagonálisának r valamely 0 < r < 1 számra.
minden eleme 1, minden
más eleme
(a) Adjuk meg
X
els® f®komponensét!
(b) Adjuk meg a f®komponensek szórásnégyzeteit!
5.2.
117
FELADATOK
Tipp:
Ez a feladat a 2. feladat általánosítása, a C sajátértékei: 1 + (d − 1)r, 1√− r, . . . , 1 − r, Az 1 + r (maximális sajátértékhez tartozó) sajátvekd ⊤ tor: d (1, . . . , 1) , és mivel a maradék d − 1 sajátérték egyenl® a többi sajátvektor nincs (így az U mátrix és Y1 -en kívül a többi f®komponens sincs) egyértelm¶en meghatározva. √ ∑ n Y1 = dd j=1 Xj . A f®komponensek szórásnégyzetei a Tippben megadott sajátértékek.
Válasz:
( 5. Legyen
X ∼ N2 (0, C),
hood becslést
Tipp:
Az
C
X
ahol
C=
λ1 0
0 λ2
) . Adjunk maximum likeli-
sajátértékeire!
vektor két komponense
(X1 , X2 )
két fuüggetlen normális
eloszlású 0 várható érték¶ valószín¶ségi változó ezért
λ1 és λ2 M-L becslése
a komponensek alapján meghatározhatók, a skalár valószín¶ségi változók esetében szokásos módon.
Válasz: λˆ j = Itt
n
1 n
∑n
k=1
Xj2 k (j = 1, 2)
a mintaelemeszám.
6. A f®komponensanalízis egy módosított változatában az
R = ri j |nij=1 d×d-
s korrelációs mátrixból indulunk ki. (a) Mutassuk meg, hogy ezzel a módszerrel más megoldást kapunk, mint a kovarianciamátrixot használó modellben! (b) A Kaiser-kritérium azon sajátvektorokkal konstruált f®komponenseket választja, amelyekhez tartozó sajátérték legalább a sajátértékek átlaga. Igazoljuk, hogy tetsz®leges nemszinguláris korrelációs mátrix sajátértékeinek átlaga 1! (c) Tegyük fel, hogy a korrelációs mátrix minden eleme nagyobb mint
ε.
Adjunk
tart
d-hez,
ε-tol
1−
olyan alsó becslést a legnagyobb sajátértékre, amely
mid®n
ε→0
(egy nagy és sok kis szórású f®komponens
van)! (d) Tegyük fel, hogy a korrelációs mátrix sajátértékei a legnagyobb kivételével kisebbek mint
ε.
ε-tol olyan alsó 1-hez, mid®n ε → 0.
Adjunk
mumára, amely tart
becslést korrelációk mini-
Tipp: (a) Elegend® észrevenni azt, hogy a korrelációs mátrix független az
X
komponenseinek átskálázásától, míg a kovariancia mátrix függ ett®l, megváltoztathatja a sajátértékek sorrendjét, az tozók együtthatóit az
Yi
Xj
valószín¶ségi vál-
f®komponensekben.
(b) Ismeretes, hogy a mátrix nyoma független attól, hogy a mátrix által deniált operátort milyen koordináta rendszerben felírt mátrixszal adjuk meg, így
R
sajátértékeinek összege
d,
átlaga 1.
118FEJEZET 5. LINEÁRIS MÓDSZEREK 1.: FKOMPONENSANALÍZIS, FAKTORANALÍZIS
(c) Legyen
ρ = min ri j ,
és írjuk fel a korrelációs mátrixot
R = R1 + R2
alakban, ahol
ρ ρ . . . 1
1 ρ... ρ 1... R1 = . . . .. . ρ ρ...
R2 f®átlójában 0-k, állnak, a többi eleme pedig ε. Alkalmazzuk R2 -ra a Gersgorin-tételt, az össze-
alakú, míg mátrixot nem nagyobb, mint
gre pedig a Weyl-perturbációs tételt.
R els® sora (r) = (1, r2 , . . . rd ) a legnagyobb sajátértékhez e(1, e2 , . . . ed )⊤ (az általanosság korlátozása nélkül feltehetjük, hogy e els® koordinatája 1). Ekkor Re els® ko∑d ordinátája: 1 + j=2 rj ej A Schwartz-egyenl®tlenség miatt ez az összeg akkor maximális, ha ∀ j ej = rj , azaz a fenti összeg maxi∑d 2 muma: 1 + j=2 rj , ami a feltétel miatt angyobb, mint 1 − dε.
(d) Tegyük fel, hogy
tartozó sajatvektor pedig
Válasz: (a) Az Útmutató alapján nyilvánvaló. (b) Az Útmutató alapján nyilvánvaló. (c)
d(1 − 2ε)
becslést kapunk.
(d) Mivel ∀ j |rj | ≤ 1, a Tippb®l következik, hogy nincs olyan j , amire rj2 < 1 − dε. Ugyanezt a meggondolás R minden sorára m¶ködik.
X = Af + e + m k -faktor modellt (X egy d-dimenziós veka d × k -as faktorsúlymátrix, f a k -dimenziós közös faktor Ik kovarianciamátrixszal, e d-dimenziós egyedi faktor D diagonális kovarian⊤ ciamátrixszal, amelyre E(fe ) = 0).
7. Tekintsük az torváltozó,
A
(a) Mutassuk meg, hogy ha
i ̸= j ,
akkor
Xi
és
ej
korrelálatlanok!
(b) Adjuk meg
Xi
változó és
ei
egyedi faktorkomponens kovarianciáját!
(c) Adjuk meg
Xi
változó és
fj
közös faktorkomponens kovarianciáját!
Tipp:
∑k X vektorváltozó iedik koordinátája: Xi = ℓ=1 ai ℓ fℓ +ei gyelemeb, hogy Efe a k × p-s azonosan 0 mátrix.
(a) Az
(b) A (a) pont alapján (c) Alkalmazzuk
Xi
Vegyük
Eei ej
(a) pontbeli felírásáat.
Válasz: (a) Vegyük észre, hogy
ej
az
Xi
komponens Tippben kifejtett alakjában
szerepl® minden taggal korrelálatlan, ha
i ̸= j.
5.2.
119
FELADATOK
(b) A faktormodell deniciója alapján
di j
(c) A faktormodell deniciója alapján
di j
és a Tipp (a) pontja alapján
ai j . 8. A faktoranalízis modelljében legyen A és B két p × k -s (p > k ) faktorsúly⊤ ⊤ mátrix, amelyekre AA = BB . Mutassuk meg, hogy ekkor van olyan G
k×k
B = AG.
méret¶ ortogonális mátrix, amelyre
p × p-s AA⊤ és BB⊤ . mátrixok teljesen k leírják a A és B mátrixok p darab k dimenziós sora által alkotott R térbeli
Tipp:
Vegyük észre, hogy a
alakzat geometriai struktúráját: a vektorok hosszait, és bármely két vektor által bezárt szöget. Tehát a két alakzat egybevágó.
Válasz:
Bármely két
Rk -beli
egybevágó alakzat átvihet® egymásba egy
k -dimenziós forgatással, és esetleg még egy tükrözés alkalmazasával. Ez eppen egy G ortonormált mátrixszal való szorzás; ha |G| = −1, akkor tükrözni is kell.
C = AA⊤ + D,
ahol A egy d×k -s mátrix, D pedig egy d×d-s diagonális mátrix nemnegatív elemekkel. Tekintsük a d = 2 és k = 1 esetet!
9. A faktoranalízis modelljének mátrixalakja
(a) Mikor van megoldása a fenti modellnek?
A-ra
(b) Adjunk maximum likelihood becslést
és
D-re!
Tipp: (a) A modellben 4 paraméter van:
a1 , a2 , d1 , d2
és 3 egyenlet:
C1 1 = a21 + d1 C1 2 = a1 a2 C2 2 =
a22
(5.6)
+ d2 ,
ezért ha van megoldás az általában nem egyértelm¶.
AA⊤ alakú? a > 0 és az x
Honnan vesszük észre, hogy egy mátrix
A rangja 1, es
nemnegatív denit, azaz bevezetve az
paramétereket
fennáll az
a21 = a a1 a2 = xa a22
(5.7)
2
=x a
egyenletrendszer. Írjuk be a (5.6) egyenletrendszerbe a (5.7) egyenletrendszert, és oldjuk meg, feltéve, hogy (b) Írjuk be az (a) pont megoldását a
Válasz:
C
d1 = 0
mátrix M-L becslésébe.
120FEJEZET 5. LINEÁRIS MÓDSZEREK 1.: FKOMPONENSANALÍZIS, FAKTORANALÍZIS
(a) A megoldás
a-ra
és
x-re: a = c1 1 x = c1 2 /c1 1 ,
ezért
a1 =
√
a2 = (a1 c1 2 )/c1 1 . Mivel a fentiekb®l következik, hogy d2 = c2 2 − azaz amegoldhatosaág feltétele (b) A
5.3.
C
mátrix M-L becslése
Tesztek
c2 2 >
1 n S, ahol
n
c21 2 c1 1 . a mintaelemszám.
c1 1 c21 2 c1 1 ,
6. fejezet
Lineáris módszerek 2.: regresszióanalízis, a legkisebb négyzetek módszere
6.1.
Elméleti háttér
6.1.1.
Regresszióanalízis
A többváltozós regressziós problémában az
tozó) szeretnénk az
X 1 , . . . , Xp
Y
valószín¶ségi változót (függ® vál-
valószín¶ségi változók (független változók) füg-
gvényével közelíteni legkisebb négyzetes értelemben. Amennyiben ismerjük az
Y, X1 , . . . , Xp
véletlen vektor együttes eloszlását (tegyük fel, hogy ez abszolút
folytonos, az együttes s¶r¶ségfüggvényt jelölje
f (y, x1 , . . . , xp )),
akkor
E(Y − g(X1 , . . . , Xp ))2 minimumát a
p-változós g
függvények körében
Y -nak
az
X1 , . . . , Xp
változók
adott értéke mellett vett feltételes várható értéke szolgáltatja:
∫∞ gopt (x1 , . . . , xp ) = E(Y |X1 = x1 , . . . , Xp = xp ) = ∫−∞ ∞
yf (y, x1 , . . . , xp )dy
−∞
f (y, x1 , . . . , xp )dy
,
ezt nevezzük regressziós függvénynek. Adott
f
s¶r¶ségfüggvény mellett sem mindig triviális a fenti integrál kiszá-
molása, általában azonban
f
nem adott, csak egy statisztikai mintánk van a (m) (m) (m) függ® és független változókra az (Y , X1 , . . . , Xp ), (m = 1, . . . , n) független, (p + 1)-dimenziós meggyelések formájában. A legegyszer¶bb ilyenkor a fenti minimumot a lineáris függvények körében keresni, ezt nevezzük lineáris re-
gressziónak. Erre az esetre vezethet® vissza olyan függvényekkel való közelítése
Y -nak,
amely az
Xi
változók lineáris függvényének monoton (például exponen-
ciális, logaritmikus) transzformációja. Ilyenkor az inverz transzformációt alka121
122FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
6.1. ábra. Regressziós görbe becslése
lmazva
Y -ra,
az így kapott új függ® változón hajtunk végre lineáris regressziót
az eredeti független változók alapján. A másik érv a lineáris regresszió mellett az, hogy amennyiben együttes eloszlása
(p + 1)-dimenziós
Y, X1 , . . . , Xp
normális, akkor a feltétele várható érték
képzés valóban lineáris függvényt ad megoldásul (l. 17 Állítást, es (6.1???) Feladatot). Térjünk rá a lineáris regresszióra. A legjobb
Y ∼ l(X) = a1 X1 + · · · + ap Xp + b lineáris közelítést keressük legkisebb négyzetes értelemben, azaz minimalizálni akarjuk az
E(Y − (a1 X1 + · · · + ap Xp + b))2 kifejezést az
a1 , . . . , ap és b együtthatókban. A megoldáshoz el®ször is szabaduljunk
meg a várható értékekt®l, azok csak zavarnak a számolásban, a változók szórása, kovarianciája, mint látni fogjuk, nem változik meg ezáltal. Tehát legyen
Y ′ = Y − EY,
Xi′ = Xi − EXi ,
(i = 1, . . . , p),
ezeknek az ún. centrált változóknak a várható értéke már 0 lesz. Így célfüggvényünkön az
E(Y − a1 X1 − · · · − ap Xp − b)2 = =E({Y ′ − a1 X1′ − · · · − ap Xp′ }+ +[EY − a1 EX1 − · · · − ap EXp − b])2 = =E(Y ′ − a1 X1′ − · · · − ap Xp′ )2
(6.1)
6.1.
123
ELMÉLETI HÁTTÉR
átalakítás végezhet® el, mivel
EY − a1 EX1 − · · · − ap EXp − b = 0. Ebb®l a
b
együtthatóra (ha
ai -k
már ismertek lennének) rögtön adódik, hogy
b = EY − a1 EX1 − · · · − ap EXp , így
b-vel
a továbbiakban már nem foglalkozunk.
Ezek után az
Y ′ ∼ l(X′ ) = a1 X1′ + · · · + ap Xp′
lineáris közelítést keressük legkisebb négyzetes értelemben, azaz minimalizálni akarjuk az
E(Y ′ − (a1 X1′ + · · · + ap Xp′ ))2
kifejezést az a1 , . . . , ap együtthatókban, feltéve, hogy E(Xp′ ) = 0. Ecélból a
(6.2)
E(Y ′ ) = E(X1′ ) = · · · =
Ca = d a = (a1 , . . . , ap )T , C jelöli az X váld ∈ Rp vektor pedig az Y változónak X
egyenletrendszert kell megoldani, ahol tozó
p × p-s
kovarianciamátrixát, a
komponenseivel vett (kereszt)kovarianciáit tartalmazza. Ennek az egyenletrendszernek létezik egyértelm¶ megoldása, ha a −1 tehát a = C d.
C
kovarianciamátrix invertálható,
A fenti közelítés maximalizálja korrelációt a következ® értelemben. Jelöljük
ℓ(X)
a fenti lineáris regressziós feladat megoldását, es vezessük be
a többszörös korrelációs együttható fogalmát.
111. Deníció.
Az
Y
X1 , . . . , Xp függ® változók közötti többl(X) korrelációját értjük és rY (X1 ,...,Xp ) -vel
független- és az
szörös korrelációs együtthatón
Y
és
jelöljük. A
p = 1
esetben a többszörös korrelációs együttható a függ®- és az egyetlen
független változó közötti valódi korrelációs együttható.
112. Állítás.
Az
X1 , . . . , Xp
valószín¶ségi változók tetsz®leges
h(X)
lineáris
kombinációjára
|rY (X1 ,...,Xp ) | = |Corr(Y, ℓ(X))| ≥ |Corr(Y, h(X))|. Az alábbi ábrák egyváltozós esetben mutatják a becsléseket.
6.1.2.
Legkisebb négyzetek módszere
x1 , . . . , xp mérési pontok, melyek beállíthatók (tehát nem valószín¶ségi a1 , . . . , ap paraméterekkel lineáris kombinációira vonatkoznak, és mérési hibával terheltek. Jelölje ε
Legyenek
változók), méréseink pedig ezek valamely ismeretlen való
124FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
6.2. ábra. Regressziós egyenes pozitív korreláció esetén
6.3. ábra. Regressziós egyenes negatív korreláció esetén
a mérési hibát,
E(ε) = 0.
Y
a mért értéket, ezek valószín¶ségi változók. Feltehet®, hogy
Modellünk tehát a következ®:
Y = a1 x1 + · · · + ap xp + ε,
6.1.
ELMÉLETI HÁTTÉR
125
6.4. ábra. Regressziós egyenes függetlenn minta esetén
6.5. ábra. Regressziós egyenes nagy korreláció esetén
ami hasonlít a többváltozós regresszióéhoz, csak ott Xi -k valószín¶ségi változók. ∑p Itt E(Y ) = j=1 aj xj . T Célunk az ismeretlen a = (a1 , . . . , ap ) paramétervektor (oszlopvektor) legkisebb négyzetes becslése
n mérés alapján (n ≥ p, általában n sokkal nagyobb, mint p).
126FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
Az
i-edik Yi ,
jelölje
mérés az
(xi1 , . . . , xip ) p-dimenziós pontban történik, a mért értéket εi , (i = 1, . . . , n). Vezessük be még a következ®
a mérési hibát pedig
jelöléseket is:
Y := (Y1 , . . . , Yn )T ,
ε := (ε1 , . . . , εn )T
n-dimenziós oszlopvektorok, az xij (i = 1, . . . , n; j = 1, . . . , p) mérési pontokat n×p-s X mátrixban gy¶jtjük össze. X oszlopvektorait jelölje x1 , . . . , xp !
pedig az
Ezekkel a jelölésekkel a (4.1) rendszeregyenlet
Y = Xa + ε alakban írható, ahol tehát
E(ε) = 0,
továbbá tegyük fel, hogy a mérési hibák
korrelálatlanok (normális eloszlás esetén függetlenek) és azonos szórásúak, azaz ε kovarianciamátrixa σ 2 In alakú. Ekkor persze a mérések is korrelálatlanok, és ugyanaz a kovarianciamátrixszuk, mint
ε-é:
E(Y − Xa)(Y − Xa)T = EεεT = σ 2 In , ahol
a
σ
szintén ismeretlen paraméter, melyet majd a végén becsülni fogunk. Az
ismeretlen paraméter legkisebb négyzetes becslésén azt az
a
vektort értjük,
amelyre a mérési hibák négyzetösszege,
n ∑
ε2i = ∥Y − Xa∥2 = (Y − Xa)T (Y − Xa) = (YT − aT XT )(Y − Xa) =
i=1
= YT Y − aT XT Y − YT Xa + aT XT Xa minimális. A keresett
a
vektor az
XT Xa = XT Y
(6.3)
A normálegyenleteket a geometriai szemlélet alapján is megkaphatjuk következ®kép∥Y − Xa∥2 nyilván akkor minimális a-ban, ha Xa az Y vektornak az F n altérre való mer®leges vetülete, ahol az F ⊂ R alteret X oszlopvektorai (az pen.
x1 , . . . , xp vektorok) feszítik ki, dim(F ) = r ≤ p (tipikusan p-vel egyenl®, ha az xi vektorok lineárisan függetlenek). Jelölje P ennek az r -rangú ortogonális projekciónak az n × n-es mátrixát! Ezzel az optimális a-ra Xa = PY és Y = PY + (I − P)Y,
azaz
Y = Xa + (Y − Xa),
ugyanis az Xa vektor az x1 , . . . xp vektorok lineáris kombinációja. Mivel Xa ∈ F , Y−Xa pedig mer®leges F -re, ezért Y−X mer®leges F tetsz®leges vektorára, p ami Xb alakú lesz valamely b ∈ R vektorral. Így
(Xb)T · (Y − Xa) = 0,
∀b ∈ Rp .
Ebb®l
bT XT (Y − Xa) = 0,
∀b ∈ Rp .
6.1.
127
ELMÉLETI HÁTTÉR
Ez csak úgy lehetséges, ha
XT (Y − Xa) = 0, azaz
XT Y = XT Xa adódik, ami nem más, mint a (6.3) normálegyenlet. A normálegyenlet mindig T T konzisztens, hiszen az X Y vektor benne van az X mátrix oszlopvektorai által T kifeszített altérben, és ugyanezt az alteret feszítik ki az X X mátrix oszlopai is. T A megoldás pontosan akkor egyértelm¶, ha az X X mátrix rangja r = p(≤ n), ilyenkor a megoldás
ˆ = (XT X)−1 XT Y a
alakban írható. A gyakorlatban általában az
XT X
mátrix invertálható. Az
a
vektornak a normálegyenlet megoldásaként kapott becslése torzítatlan, igaz a következ® állítás:
113. Állítás.
r=p
Ha
és
ε ∼ Nn (0, σ 2 In ),
A GaussMarkov-tétel szerint
akkor
ˆ ∼ Np (a, σ 2 (XT X)−1 ). a
ˆ minimális kovarianciamátrixú az a-ra vonatkozó a
lineáris, torzítatlan becslések között.
114. Tétel.
Legyen
r=p
és
tatlan becslése. Ekkor
azaz a A
D2 (˜ a) − D2 (ˆ a)
σ2
˜ a
az
a
paramétervektor tetsz®leges lineáris torzí-
D2 (ˆ a) ≤ D2 (˜ a), mátrix pozitív szemidenit.
közös szórásnégyzet becsléséhez vezessük be a következ® jelölést:
Sε2 := ∥Y − Xˆ a∥2 = (Y − Xˆ a)T (Y − Xˆ a), ezt a mennyiséget reziduális varianciának nevezzük. 2 A geometriai szemlélet (projekciók) alapján Sε a következ® alakban is írható:
Sε2 = (Y − PY)T (Y − PY) = ((I − P)Y)T ((I − P)Y) = = YT (I − P)2 Y = YT (I − P)Y, n − p. Ezért Sε2 az I.3.6. 2 Állítás a. része alapján el®állítható n − p db. független, σ varianciájú, normális 2 2 2 eloszlású valószín¶ségi változó négyzetösszegeként, így Sε ∼ σ χn−p , továbbá 2 2 E(Sε ) = σ (n − p). Ebb®l az is következik, hogy mivel
I−P
is egy projekció mátrixa, melynek rangja
σ ˆ2 = torzítatlan becslés
r < p,
a
P
σ 2 -re.
Sε2 n−p
Megjegyezzük, hogy amennyiben az
projekció rangja is
r,
következésképpen
σ ˆ2 =
Sε2 n−r
X
mátrix rangja
128FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
a
σ2
paraméter torzítatlan becslése. Megjegyezzük, hogy ha a konstans tagot is
becsüljük, akkor a nevez®ben
n−r−1
áll.
Az alábbi animáció szemlélteti, hogy nagy szórás esetén egy pont mennyire változtatja meg a becslést. A
H0 : a1 = · · · = an = 0 Nullhipotézis tesztelésére a likelihood-hányados próbát használjuk, ebben a szerencsés esetben a
λn
próbafüggvény az ismert
F =
(F(p, n − p))
eloszlású
Y⊤ PY n−p · − P)Y p
Y⊤ (I
statisztikának szigorúan monoton függvénye.
6.2.
Feladatok
(Y, X1 , . . . , Xm ) ∼ N (0, C),
1. Legyen
minden más eleme 0. Adjuk meg az
ahol cii = 1 és c1i = ci1 = 1/m, C E((Y − g(X1 , . . . , Xm ))2 )-et mininal-
izáló regressziós függvényt!
Tipp: a meghatározásához ld. lineáris regresszió Válasz: l(X) = (X1 + . . . + Xm )/m. 2. Igaz-e, hogy ha
aX + b (a)
X, Y
véges szórású valószín¶ségi változók, valamint
r(X, Y ) = a ·
D(X) ? D(Y )
(b) Tetsz®leges valós számokra
Tipp:
Y ∼
a legjobb lineáris közelítés négyzetes értelemben, akkor
Centráljuk az
Y
és
X
E((Y −(aX +b))2 ) ≥ (1−r(X, Y ))D2 (Y )?
valószín¶ségi változókat:
′
X = E(X) Y ′ = Y − E(Y ). Ebb®l a modell alapján azonnal leolvasható, hogy ha
a
ismert, akkor
b = E(Y ) − aE(X).
Válasz: Mindkett® igaz. 3. Legyen
(Y, X1 , . . . , Xm ) ∼ N (m, C). Adjuk meg az E((Y −g(X1 , . . . , Xm ))2 )-
et mininalizáló regressziós függvényt!
Tipp:
Jelölje
ℓ(x1 , . . . , xm )
azt a lineáris függvényt amely a lineáris E((Y − ℓ(X1 , . . . , Xm ))2 ) négyzetes
függvények körében minimalizálja a eltérést.
E((Y − ℓ(X1 , . . . , Xm ))Xj ) = 0 minden j = 1, . . . , m-re. A 90 Y − ℓ(X1 , . . . , Xm ) független az Xj
Állítás miatt ebb®l következik, hogy valószín¶ségi változóktól.
Válasz:
Alkalmazzuk a 16 és 17 Állításokat
6.2.
129
FELADATOK
4. Igazoljuk, hogy ha
Y ∼ aX + b (a)
X, Y
véges szórású valószín¶ségi változók, valamint
a legjobb lineáris közelítés négyzetes értelemben, akkor
r(X, Y ) = a ·
D(X) , D(Y )
(b) Tetsz®leges valós számokra
Tipp:
Centráljuk az
Y
és
X
E((Y −(aX +b))2 ) ≥ (1−r(X, Y ))D2 (Y ).
valószín¶ségi változókat:
X ′ = E(X) Y ′ = Y − E(Y ). (a) Ebb®l a modell alapján azonnal leolvasható, hogy ha
a
ismert, akkor
b = E(Y ) − aE(X). (b) Ezek után az
a
paramétert becsülhetjükaz
Y ′ ∼ aX ′
modell alapján.
Válasz: (a) Az Útmutató (b) pontja alapján nyilvánvaló.
a
(b) Ha
és
b
a becslés alapján kapott számok, akkor a kérdés (b) pon-
tjában egyenl®ség áll, egybként pedig a Schwartz-egyenl®tlenség következménye. 5. Tekintsük az (X, Y ) véletlen vektort, az l1 (X) = aX l1 (X))2 ) minimális) és az l2 (Y ) = cY + d (amelyre imális) regressziós egyeneseket. Mikor teljesül, hogy
Tipp:
+ b (amelyre E((Y − E(X − l2 (Y ))2 minc = 1/a?
Oldjuk meg a
E(Y ) = a + E(X)bE(XY ) = E(X)a + [E(X)]2 b normálegyenletet, és ugyanezt az
Válasz:
Ha
X↔Y
szerepcserével.
Cov(X, Y ) = ±1.
x1 , . . . , xn mérési pontok, továbbá Y1 , . . . , Yn változók amelyek Yi = axi + b + ϵi , i = 1, . . . , n regressziós modellt, ahol a 2 hibák ϵ1 , . . . , ϵn ∼ N (0, σ ) független valószín¶ségi változók.
6. Legyenek
kielégítik a mérési
(a) Adjunk maximum likelihood becslést az
(a, b, σ 2 )
paraméterre a
Y
minta segítségével! (Mi köze a kapott becslésnek a legkisebb négyzetek módszeréhez?) (b) Igazoljuk, hogy ha
a
és
b
fenti becslései pontosan akkor korrelálatlanok,
x = 0.
(c) Adjunk kondencia-intervallumot (d) Konstruáljunk a
H0 : a = a0
jedelm¶ próbát, feltéve, hogy
és
b
és
a-ra,
ha
b=0
H1 : a ̸= a0 σ 2 ismert!
(e) Konstruáljunk likelihood-hányados próbát 2 hipotézisekhez, ha b = 0 és σ ismeretlen!
és
σ
ismert.
hipotézisekhez
H0 : a = a0
és
ε
ter-
H1 : a ̸= a0
130FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
(f ) Konstruáljunk likelihood-hányados próbát 2 hipotézisekhez, ha b és σ ismeretlen!
H0 : a = a0
és
H1 : a ̸= a0
(g) Hogyan ellen®rizhetjük a modell alkalmazhatóságát, azaz a mérési hibákra vonatkozó feltételek teljesülését?
Tipp:
Az egyszer¶bb írásmód kedvééert bevezetjük a következ® jelöléseket:
X =(x1 , . . . , xn )⊤ Y =(Y1 , . . . , Yn )⊤ . Továbbá írjuk fel a minta s¶r¶ségfüggvényét ismert mellett (Nota Bene:
xi -k
f (y1 , . . . , yn ) =
a, b és σ 2
paraméterek
NEM valószín¶ségi változók):
1 exp{− (2πσ 2 )n/2
(a) Írjuk fel a modell alapján az
∑n
i=1 (yi
− axi − b)2 } 2σ 2
(6.4)
Y1 , . . . , Yn valószín¶ségi változók likelia és b paraméterek becslése ép-
hood függvényének logaritmusát. Az
pen a lineáris modell (legkisebb négyzetek módszere) alapfeladatának megoldása. Ezután alkalmazzuk a töbdimenziós M-L becslés paragrafusban tárgyalt módszert. (b) Írjuk fel a normálegyenletet, ami ekkor két független egyenlet lesz
a-ra
és
¯. b-re, ˆb = Y
Megforditva: oldjuk meg a normálegyenletet.
2 (c) Az egyszer¶ség kedvéért tegyük fel, hogy σ = 1. A normálegyenlet ⊤ Y megoldása: a ˆ= X Ekkor a ˆ ∼ N (a, (X⊤ X)−1 ). X⊤ X (d) Alkalmazzuk az u-próbát a (c) pont felhasználásával. (e) A próbafüggvényt két s¶r¶ségfüggvény hányadosaként kapjuk meg: 2 a számlálóban a minta s¶r¶ségfüggvényében a = a0 , b = 0 és σ ∑n 2 ugyanezen feltevések melletti S(ε, a0 , 0) = i=1 (yi −a0 xi ) /n beslése áll, míg a nevez®beli s¶r¶ségfüggvényben a = a ˆ, b = 0 és σ 2 ugyanezen ∑n ˆxi )2 /n becslése áll. Vegfeltevések melletti S(ε, a ˆ, 0) = i=1 (yi − a −n/2 yük észre, hogy az exponenciális faktor mindkét esetben e -vé egyszer¶södik.
σ 2 becsleésében b = 0 nevez®ben b = ˆ b áll.
(f ) Hasonló a (d) ponthoz, csak számlálóban mind a
helyett mind a
(g) Azt kell ellen®rizni, hogy az egyes reziduális epszilonok független azonos eloszlásúk-e. Ilyenkor autokovarianciát alkalmazunk, ami itt azt jelenti, hogy a rezidualis szórások indexeit 1-gyel eltoljuk és az eredeti valamint az eltolt vektor kovarianciáját számojuk.
Válasz: σ2
becslésére kell kitérni: Jelölje a ˆ, ilˆb az a, illetve b paraméterek M-L becsléseit továbbá legyen ∑n S(ε) = i=1 (Yi − a ˆxi − ˆb)2 reziduális szórásnégyzet. A σ 2 M-L becslése S(ε)/n.
(a) Az Útmutató alapján csak a letve
6.2.
131
FELADATOK
(b) Az egyik irány várható érték képzéssel adódik a Tippb®l. A másik irány abból következik, hogy a normálegyenlet megoldásaként (l. (c) pont) számított (c)
a ˆ±
Cov(ˆ a, ˆb) = c¯ x,
√ 1 Φ−1 (1 X⊤ X
ahol
c ̸= 0.
− ε/2).
(d) Ha
[ ] 1 1 −1 −1 a ˆ ̸∈ a0 − √ Φ (1 − ε/2), a0 + √ Φ (1 − ε/2) . X⊤ X X⊤ X elvetjük a
H0
hipotézist.
(e) Az Útmutató alapján a
λ(y1 , . . . , yn )
próbafüggvény az exonenciális
tényez®k elött álló tényez®k hányadosa lesz:
( ∑n )n/2 ˆxi )2 i=1 (yi − a ∑ λ(y1 , . . . , yn ) = n 2 i=1 (yi − a0 xi ) (f )
(∑ n λ(y1 , . . . , yn ) =
(yi − a ˆxi − ˆb)2 ∑ni=1 ˆ2 i=1 (yi − a0 xi − b)
)n/2
(g) 7. Tekintsük az
Y = a⊤ x+ϵ regressziós modellt, ahol ϵ ∼ N (0, σ 2 ), σ 2 ismert
értékre. Konstruáljuk meg a Neyman-Pearson alaplemma segítségével a
H0 : a = a0
vs.
H1 : a = a1
egyszer¶ alternatívához tartozó
ε
terjedelm¶
próbát!
Tipp:
Írjuk fel a feladatban szerepl® modellt koordinátánként.
Yi =
d ∑
aj xi j
j=1 Írjuk fel a minta s¶r¶ségfüggvényeit ismert
a0 , (a1 )
és
σ2
paraméterek
mellett:
f0 (y1 , . . . , yn ) =
1 exp{− (2πσ 2 )n/2
1 f1 (y1 , . . . , yn ) = exp{− (2πσ 2 )n/2
∑n
i=1 (yi
∑n
i=1 (yi
−
−
∑d j=1 2σ 2
∑d j=1 2σ 2
a0,j xi j )2
a1,j xi j )2
}
}
Tegyünk két észrevételt. (a)
f1 /f0 hányados kitev®jében csak a tag konstansszorosa szerepel.
∑n i=1
yi (
∑d j=1
∑d a1,j xi j − j=1 a0,j xi j )
132FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
(b) Mivel az els®fajú hiba rögzitett a feladat valójában nem más mint ∑d 2 u-próba szerkesztése j=1 a0,j xi j várható érték¶ σ szórásnégyzet¶ normális eloszlásra
Válasz:
Ha
∑d j=1
n
minta alapján.
a1,j xi j >
∑d j=1
a0,j xi j
akkor a kritikus tartomány
{ } ∑d √ Y¯ − j=1 a0,j xi j −1 > Φ (1 − ε) n σ
Y = a1 x1 + . . . + ad xd + b + ϵ regressziós modellt és a H0 : a1 = . . . = ad = 0 hipotézist tesztel® regresszióanalízist. ∑n ∑n ˆ ∑n ˆ 2 2 (a) Legyen Q = i=1 (Yi − Y ) , Qr = i=1 (Yi − Y ) és Qe = i=1 (Yi − 2 ˆ ˆ Yi ) , ahol Yi = a ˆ1 xi,1 + . . . + a ˆd xi,d + b. Igazoljuk, hogy Q = Qr + Qe .
8. Tekintsük az
(b) Jelölje
Rn
meg, hogy
a többszörös korrelációs együttható becslését. Mutassuk Qr Q .
Rn2 =
(c) Igazoljuk, hogy a próbastatisztika
F =
(n−d−1)Qr dQe
=
2 (n−d−1)Rn alakok2) d(1−Rn
ban is felírható! (d) Vessük össze a regresszióanalízist a korrelációs együtthatókra vonatkozó tesztekkel! Indokolt-e a regresszióanalízist függetlenség tesztelésére használni?
Tipp: Válasz: 9. Vessük össze a lineáris regresszió megoldását (a
= C−1 d,
ha a várható
ˆ értékek 0-k) a determinisztikus változók esetén kapott megoldással (a (X⊤ X)−1 X⊤ Y)!
Tipp: Válasz:
Vegyük észre, hogy
10. Igazoljuk, hogy
(XX⊤ )
éppen
C
=
M-L becslése.
X⊤ X pontosan akkor nemszinguláris, ha X oszlopvektorai
lineárisan függetlenek.
Tipp:
Lehetne hivatkozni lineáris algebrai tételekre, de a legkisebb né-
gyzetek módszerének témaköréhez tartozó egyszer¶ meggondolás is célravezet®.
Válasz:
A legkisebb négyzetek módszerének geometriai interpretációja
következ®: Keressük az
Y
vektornak az
X
mátrix oszlopvektorai által
kifeszített térre való mer®leges vetületét. Ez a vetület pontosan akkor fejezhet® ki egyértelm¶en ezen vektorok lineáris kombinációjával, ha lineárisan függetlenek. A normálegyenlet egyértelm¶ megoldhatóságanak pedig éptop pen az a szükséges és elegséges felétele, hogy az XX mátrix nemszinguláris.
6.3.
133
TESZTEK
11. Tekintsük a következ® multiplikatív modellt:
Y = bX1a1 ·. . .·Xkak . Vezessük
vissza a lineáris modellre, és adjunk becslést a paraméterekre a módosított modellben a legkisebb négyzetek módszerével! Más becslést kapnánk-e, ha a legkisebb négyzetek módszerét közvetlenül az eredeti modellre alkalmaznánk?
Tipp: ellt:
Az eredeti modell helyett tekintsük az alábbi logaritmikus mod-
log Y = log b + a1 log X1 + . . . + ak log Xk .
Válasz:
A feladat elo® részének megoldásat tartlamazza a Tipp, a má-
sodik részre a válasz, IGEN, mas becslést kapnánk, ez ellen®rizhet® a
b = 0, a2 = 0, . . . , ak = 0
modellen két mintaelem esetén.
12. Polinomiális regresszió esetén a modell Y i A megoldást úgy keresik, hogy az X =
= b + a1 X + . . . + ak X k alakú. Xi valószín¶ségi változókat for-
málisan függetleneknek tekintik és megoldják a rájuk vonatkozó többi j változós lineáris regresszió feladatát. Viszont X és X általában nem független változók. Okoz-e ez problémát a megoldás egyértelm¶sége tekintetében? Miért?
Tipp:
Írjuk fel a modellhez tartozó normálegyenlet mátrixát a várható
érték képzés el®tt, pl
k = 2-re: R
(
1
X
X2
)
Ez a mátrix a egy valószín¶séggel 1-rangú, amib®l nem következik, hogy a várható érték vétel után is 1-rangú marad.
Válasz: valójában nem okoz problémát, mert Y -t az X Hermitepolinomjaival is közelíthetjük (ezek éppen a Gauss-s¶r¶ségre nézve ortogonális polinomok, amelyekb®l az X hatványai egyértelm¶en visszaszámolhatók) és ebben a sémában a normálegyenlet mátrixa diagonalis lesz! Mármost ez túl megy a zaróvizsga tételeken!!!!! 6.3.
Tesztek
134FEJEZET 6. LINEÁRIS MÓDSZEREK 2.: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE
7. fejezet
Lineáris módszerek 3.: Egy- és többszempontos varianciaanalízis
7.1.
Elméleti háttér
A varianciaanalízis speciális lineáris modelleket vizsgál, kísérlettervezésben és min®ségellen®rzésben felmerül® hipotézisek tesztelésére. A tekintett modellek specikuma az, hogy a legkisebb négyzetek módszerénel alkalmazott modellben a beállítható mérési pontok mátrixa helyett 0-1 elemekb®l álló ún. struk-
túramátrixszal dolgozunk, amelyet úgy állítunk össze, hogy bizonyos meggyelések csak bizonyos paraméterekt®l függjenek. A hipotézisek vizsgálata is a likelihood hányados próba analógiájára történik. Gyakorlati alkalmazásokban olyan mintákat vizsgálunk, melyeket különböz® körülmények közt gyeltünk meg, és célunk éppen annak a megállapítása, vajon ezek a körülmények jelent®sen befolyásolják-e a mért értékeket. Tehát mintánkat eleve csoportokba osztottan kapjuk, feltesszük azonban, hogy a különböz® csoportokban felvett minták egymástól függetlenek, normális eloszlásúak és azonos szórásúak. A Tananyagban csak az egyszempontos varianciaanalízissel és a kétszempontos varianciaanalízis interakciót tesztel® változatával foglalkozunk, ugyanis az interakció nélküli kétszempontos varianciaanalízis csak formálisan bonyolultabb az egyszempontosnál, de új jelenséget nem vizsgál.
7.1.1.
Egyszempontos varianciaanalízis
Valamilyen szempont alapján (például különböz® kezelések)
k
csoportban külön
végzünk meggyeléseket. Az egyes csoportokban a mintaelemek száma általában ∑k nem egyenl®: jelölje ni az i. csoportbeli mintaelemek számát, n = i=1 ni pedig 2 az összminta elemszámát. Az i. csoportban az Xi ∼ N (bi , σ ) valószín¶ségi 135
136FEJEZET 7. LINEÁRIS MÓDSZEREK 3.: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI
változóra vett mintaelemeket
Xij ∼ N (bi , σ 2 ),
(j = 1, . . . , ni )
i-kre is függetlenek, bi = m + ai felbontást alkalmazzuk, átlaga, ai pedig az i. csoport hatása:
jelöli. Ezek egymás közt és különböz®
azonos szórásúak.
A várható értékekre a
ahol
értékek súlyozott
1∑ ni b i , n i=1
m
a várható
k
m=
Könnyen látható, hogy
ai = bi − m (i = 1, . . . , k).
k ∑
ni ai = 0.
(7.1)
i=1 Ezekkel a jelölésekkel az egyszempontos modell
Xij = m + ai + εij alakban írható, ahol az
(j = 1, . . . , ni ; i = 1, . . . , k)
εij ∼ N (0, σ 2 )
független valószín¶ségi változók véletlen
hibák. Lineáris modellr®l van szó, hiszen ha meggyeléseinket az
Y := (X11 , . . . , X1n1 , X21 , . . . , X2n2 , . . . , Xk1 , . . . , Xknk )T ε := (ε11 , . . . , ε1n1 , ε21 , . . . , ε2n2 , . . . , εk1 , . . . , εknk )T ∑k
i=1 ni = n-dimenziós vektorban, ai paramétereinket pedig az vektorban helyezzük el, akkor az (5.2) modell az
a = (a1 , . . . , ak )T
Y =B·a+1·m+ε alakban írható, ahol
1 ∈ Rn
az azonosan 1 koordinátájú vektor,
B
pedig az
alábbi (7.2) alakú struktúramátrix:
B= (Ebben a példában
1 1 1 0 0 0 0 0 0 0 0 0
0 0 0 1 1 1 1 0 0 0 0 0
k = 3, n1 = 3, n2 = 4
0 0 0 0 0 0 0 1 1 1 1 1 és
n3 = 5.)
(7.2)
7.1.
137
ELMÉLETI HÁTTÉR
Látható, hogy rangB jelölje
F;
nyilván
= k , az oszlopok által kifeszített k -dimenziós alteret 1 ∈ F . A paramétereket közvetlenül a legkisebb négyzetek
módszerével becsüljük, azaz keressük a
ni k ∑ ∑
ε2ij =
(Xij − m − ai )2
(7.3)
i=1 j=1
i=1 j=1 kifejezés minimumát az
ni k ∑ ∑
m, a1 , . . . , ak
paraméterekben az (7.1) kényszerfeltétel
mellett. Vezessük be a csoportátlagokra ill. a teljes mintaátlagra az
ni 1 ∑ ¯ Xi. = Xij ni j=1
i ∑∑ ¯ .. = 1 X Xij n i=1 j=1
k
(i = 1, . . . , k)
ill.
n
jelöléseket! Könnyen látható, hogy a paraméterek legkisebb négyzetes becslései
¯ .. m ˆ =X
és
¯ i. − X ¯ .. a ˆi = X
(i = 1, . . . , k)
¯ .. -ot írva az (7.3) kifejezés minimuma m helyébe a nyilvánvaló X ai -kben külön-külön csak a küls® szumma i-edik tagjában álló négyzetösszeg minimalizálásával , hiszen ai becslése csak az Xij , j = 1, . . . , ni mintaelemekt®l függ (i = 1, . . . , k), és a Steiner-tétel alapján a fenti lesznek. Ugyanis
kereshet® az egyes
lesz. (A szélsh®érték számítás módszereivel ellen®rízhet® a fenti heurisztikus számolás helyessége.) A minimum értéke
Qe =
ni k ∑ ∑
(Xij − m ˆ −a ˆ i )2 =
ni k ∑ ∑
i=1 j=1
¯ i. )2 (Xij − X
i=1 j=1
lesz. A Legkisebb négyzetek módszere paragrafus jelöléseivel variancia. Az alább taglalandó vetítéssel
Qe
Qe
az
Sε2
reziduális
a mer®leges komponens hosszának
a négyzete, míg a vetület hosszának négyzete:
Qa = ∥Bˆ a∥2 =
ni ∑
ˆ2i = ni a
i=1
k ∑
¯ i. − X ¯ .. )2 . ni (X
i=1
Ebben az egyszer¶ esetben minden projekciót pontosan leírunk. A alakot deniáló projekció
A
mátrixa, amellyel
Qe = YT AY, a következ® szimmetrikus, idempotens mátrix:
A1 0 A= . . . 0
0 A2 ... 0
...
0
... 0 , ... ... . . . Ak
Qe kvadratikus
138FEJEZET 7. LINEÁRIS MÓDSZEREK 3.: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI
ahol az
Ai
diagonális blokkok:
1−
1 − ni Ai = . . . − n1i
A
Qa
1−
A projekció n − k.
alakúak, és az vetít. Rangja
− n1i
1 ni
1 ni
...
− n1i
...
− n1i
...
...
...
− n1i
...
1−
az
F
altér
(i = 1, . . . , k)
1 ni
Rn -beli
ortogonális kiegészít® alterére
kvadratikus alakot deniáló
Qa = YT PY P
1 ∈ Rn vektornak az F altérbeli ortogonális kiegészít® alterére k − 1. A Q = Qa + Qe kvadratikus alaknak megfelel® projekció itt
projekció az
vetít, rangja most nem
In ,
hanem
A + P = In − 11T , amely az
1
vektor
Rn -beli
ortogonális kiegészít® alterére vetít.
A gyakorlati alkalmazók terminológiájával élve: a fenti kvadratikus alakok segítségével a mintaelemek teljes mintaátlagtól vett eltéréseinek négyzetösszega (Q) Qe )
felbomlik csoportok közötti (between,
Qa )
ill. csoportokon belüli (within,
részre a következ®képpen:
Q=
ni k ∑ ∑
¯ .. )2 = (Xij − X
i=1 j=1
=
ni k ∑ ∑
=
¯ i. ) + (X ¯ i. − X ¯ .. )]2 = [(Xij − X
i=1 j=1
¯ i. )2 + (Xij − X
i=1 j=1 k ∑
ni k ∑ ∑
¯ i. − X ¯ .. )2 + ni (X
i=1
ni k ∑ ∑
¯ i. − X ¯ .. )2 = (X
i=1 j=1 ni k ∑ ∑
¯ i. )2 = Qa + Qe , (Xij − X
i=1 j=1
és ezt a felbontást a projekciók ismerete nélkül, viszonylag egyszer¶ számolással 2 is megkaphattuk volna, miután a [. . . ] négyzetreemelésnél kihasználható, hogy a kétszeres szorzatok összege 0. A fenti felbontásokat az alábbi ún.
ANOVA (ANalysis Of VAriances) táblázat-
7.1.
139
ELMÉLETI HÁTTÉR
ban foglaljuk össze.
A szóródás oka
Csoportok között Csoportokon belül
Négyzetösszeg
Qa = Qe =
∑k i=1
∑k
∑ni
j=1 (Xij
i=1
∑k
∑ni
j=1 (Xij
i=1
A fenti modellben el®ször az
¯ i. − X ¯ .. )2 ni (X
m=0
¯ i. )2 −X
¯ .. )2 −X
Empirikus
k−1
s2a =
Qa k−1
n−k
s2e =
Qe n−k
n−1
-
hipotézist teszteljük. Ha ezt elutasítjuk
(az összes várható érték nem 0, azaz van ún. f®hatás), akkor a
H0 : a1 = · · · = ak = 0, hipotézist vizsgáljuk. A
tömören
a=0
A legkisebb négyzetek módszere paragrafusban leír-
takhoz hasonlóan látható, hogy a likelihood-hányados statisztika a
Qa /Qe hánya-
dos monoton fogyó függvénye (ez a hányados annál nagyobb, minél nagyobb a csoportok közötti variancia a csoportokon belülihez képest, ami ellentmond
H0 -nak). A Qe -ben szerepl® lineáris kifejezések mindegyikének várható értéke 0, ugyanis a csoportokon belül a várható értékek egyenl®ek a mintaátlag várható értékével:
¯ i. ) = E(Xij ) − E(X ¯ i. ) = ai − ai = 0, E(Xij − X akár igaz
(i = 1, . . . , k)
H0 , akár nem. Tehát az I.3.6. Állítás a. része értelmében Qe ∼ σ 2 χ2 (n−
k). A
Qa -ben
szerepl® lineáris kifejezések várható értéke:
1∑ nj aj n j=1 k
¯ i. − X ¯ .. ) = E(X ¯ i. ) − E(X ¯ .. ) = ai − E(X
(i = 1, . . . , k) ,
amely csak akkor lehet minden i-re 0, ha H0 fennáll. Ezesetben szintén az I.3.6. 2 2 Állítás a. része miatt Qa ∼ σ χ (k − 1), és az el®bbi állítás b. része alapján Qe és
Qa függetlenek (megjegyezzük, Qa centrális χ2 -eloszlású).
hogy csak a null-hipotézis fennállása esetén
lesz
Így bevezetve az
s2a =
Qa k−1
ill.
s2e =
Qe n−k
2 kifejezéseket, ezek azonos (σ ) szórásúak, függetlenek, hányadosuk pedig fenállása esetén
F -eloszlást F =
követ
k−1
ill.
n−k
szórásnégyzet
fok
Q=
Teljes
Szabadsági
szabadsági fokkal:
s2a Qa n − k · ∼ F(k − 1, n − k), = s2e Qe k − 1
H0
140FEJEZET 7. LINEÁRIS MÓDSZEREK 3.: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI
és ez az
F
is szigorúan monoton csökken® függvénye a likelihood hányados
statisztikának. Megjegyezzük, hogy a a fenti
F
statisztika levezethet® a likelihood hányados
próba alkalmazása és a vetítések felírása nélkül is.
7.1.2.
Többszempontos varianciaanalízis interakcióval
Itt is két különböz® szempont alapján kialakított
k · p csoportban végzünk megn) meggyelést. Az
gyeléseket, de cellánként több (mondjuk minden cellában el®z® rész példájával élve:
k féle technológiával p féle gépen gyártanak alkatrészeket
és mérik azok szakítószilárdságát. Itt azonban feltételezzük, hogy a kétféle szempont hatása nem független, (nem mindegy, hogy melyik gépen melyik gyártási technológiát alkalmazzuk).
Xijl az els® szempont alapján i-edik, a második szempont alapján j -edik csoportban végzett l-edik meggyelést, példánkban az i-edik technológiával a j -edik gépen gyártott l -edik termék szakítószilárdságát (i = 1, . . . , k; j = 1, . . . , p; l = 1, . . . , n). Jelölje
pedig
Tehát összmintánk elemszáma
Xijl ∼ N (m + ai + bj + cij , σ 2 ),
kpn.
A mintaelemek függetlenek és
azaz lineáris modellünk most a következ®:
Xijl = m + ai + bj + cij + εijl ,
(i = 1, . . . , k; j = 1, . . . , p)
εijl ∼ N (0, σ 2 ) független valószín¶ségi változók véletlen k jelölik az egyik, bj -k a másik tényez® hatásait, cij -k pedig az Feltesszük (m-be való beolvasztással elérhet®), hogy ahol az
k ∑
ai = 0,
i=1 k ∑ i=1 p ∑
B
bj = 0,
j=1
cij = 0
(j = 1, . . . , p)
cij = 0
(i = 1, . . . , k).
j=1
A
p ∑
struktúramátrix alakja most:
és
(7.4)
hibák. Itt
ai -
interakciókat.
7.1.
141
ELMÉLETI HÁTTÉR
10 10 10 10 10 10 01 01 01 01 01 01
B= (Ebben a példában
k = 2, p = 3,
és
100 100 010 010 001 001 100 100 010 010 001 001
100000 100000 010000 010000 001000 001000 000100 000100 000010 000010 000001 000001
(7.5)
n = 2.)
Az (7.4) modell az
Y := (X111 , . . . , X11n , X121 , . . . , X12n , . . . , Xkp1 , . . . , Xkpn )T ε := (ε111 , . . . , ε11n , ε121 , . . . , ε12n , . . . , εkp1 , . . . , εkpn )T és az
abc = (a1 , . . . , ak , b1 , . . . , bp , c11 , . . . , ckp )T jelölések, továbbá a
B
struktúramátrix segítségével az
Y = B · abc + 1 · m + ε lineáris modell alakját ölti, ahol
1 ∈ Rkpn
az azonosan 1 komponens¶ vektor, l.
(7.5). Jelölje
Fc
F
a
B
mátrix oszlopvektorai által kifeszített alteret, míg
jelölje rendre az eks®
k
a következ®
p
oszlop és az utolsó
k·p
Fa , Fb ,
és
oszlop által
kifeszített alteret. Jelölje
F B
Fa , Fb , és Fc k a következ® p oszlop és az utolsó k·p oszlop által kifeszített
mátrix oszlopvektorai által kifeszített alteret, míg
jelölje rendre az es® alteret.
1 ∈ Fa , 1 ∈ Fb és 1 ∈ Fc . Jelölje Fa1 illetve Fb1 az 1 Fa -ban illetve Fb -ben, továbbá Fcab az Fa és Fb által generált altér ortogonális kiegészít®jét Fc -ben, valamint Fe az F ortogonális n kiegészít®jét R -ben. Mivel az 1 vektort Fa Fb és Fc is tartalmazza: dim(Fa1 ) = k − 1, dim(Fb1 ) = p−1, dim(Fcab ) = kp−(k−1)−(p−1)+1 = (k−1)(p−1), és dim(Fe ) = kp(n−1). Jelölje az Fa1 -ra, Fb1 -re, Fcab -re és Fe -re vetít® projekciókat rendre Pa , Pb , Pc és Pe . A fentiek miatt Vegyük észre, hogy
vektor ortogonális kiegészít®jét
In = 11T + Pa + Pb + Pc + Pe . El®ször a legkisebb négyzetek módszerével megbecsüljük a paramétereket. Ehhez keressük a
p ∑ k ∑ n ∑ i=1 j=1 l=1
ε2ijl =
p ∑ k ∑ n ∑ i=1 j=1 l=1
(Xijl − m − ai − bj − cij )2
(7.6)
142FEJEZET 7. LINEÁRIS MÓDSZEREK 3.: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI
kifejezés minimumát az
m, a1 , . . . , ak , b1 , . . . , bp paraméterekben az (7.1.2) kénysz-
erfeltételek mellett. Vezessünk be néhány jelölést:
∑∑ ¯ i.. = 1 Xijl X pn j=1
(i = 1, . . . , k)
∑∑ ¯ .j. = 1 X Xijl kn i=1
(j = 1, . . . , p)
p
n
l=1
k
n
l=1
∑ ¯ ij. = 1 X Xijl n n
(i = 1, . . . , k; j = 1, . . . , p)
l=1
∑∑∑ ¯ ... = 1 X Xijl . kpn i=1 j=1 k
p
n
l=1
Ezekkel a paraméterek legkisebb négyzetes becslései:
¯ ... , m ˆ =X ¯ ¯ ... a ˆi = Xi.. − X
(i = 1, . . . , k) ,
ˆbj = X ¯ .j. − X ¯ ... (j = 1, . . . , p) , ¯ ¯ ¯ ¯ ... cˆij = Xij. − Xi.. − X.j. + X (i = 1, . . . , k;
j = 1, . . . , p) ,
az (7.6) kifejezés minimuma pedig
Qe =
p ∑ k ∑ n ∑
(Xijl − m ˆ −a ˆi − ˆbj − cˆij )2
i=1 j=1 l=1
lesz. Ha a
Qc
és
Qe
Pa , Pb , Pc
és
Pe
projekcóknak rendre az
Y
vektorral képzett
Qa , Qb ,
kvadratikus formák felelnek meg, akkor igaz a
Q = Qa + Qb + Qc + Qe
(7.7)
varianciafelbontás, ahol a mintaelemek teljes mintaátlagtól vett eltéréseinek né-
7.1.
143
ELMÉLETI HÁTTÉR
gyzetösszegét (Q) felbontjuk a következ® ANOVA-táblázat szerint:
A szóródás oka
a-hatások b-hatások ab-interakció Véletlen hiba
Négyzetösszeg
fok
Qa = pn Qb = kn Qc = n Qe = Q=
Teljes Miután az
Szabadsági
m=0
¯
¯ ... )2 −X
k−1
s2a =
∑p
¯
¯ ... )2 −X
p−1
s2b =
i=1 (Xi..
j=1 (X.j.
∑k
∑p
∑k
∑p
i=1
∑k
¯
j=1 (Xij.
i=1
∑n
j=1
∑p
i=1
¯ i.. − X ¯ .j. + X ¯ ... )2 −X
l=1 (Xijl
∑n
j=1
l=1 (Xijl
¯ ij. )2 −X
¯ ... )2 −X
(k − 1)(p − 1) s2c = kp(n − 1) kpn − 1
hipotézist elutasítottuk, a fenti modellben háromféle null-
hogy a csoporthatások azonosak-e, továbbá, hogy interakciók léteznek-e. Az els® tényez® hatására vonatkozóan tehát vizsgáljuk a
H0a : a1 = a2 = · · · = ak = 0 hipotézist (példánkban azt, hogy a gyártási technológia nincs hatással az alkatrész szakítószilárdságára). Ezzel párhuzamosan a második tényez® hatására vonatkozóan vizsgáljuk a
H0b : b1 = b2 = · · · = bp = 0 hipotézist (példánkban azt, hogy a gyártó gép megválasztása nincs hatással az alkatrész szakítószilárdságára). Továbbá az interakciókra vonatkozóan vizsgáljuk a
H0ab : cij = 0,
(i = 1, . . . , k; j = 1, . . . , p)
hipotézist (példánkban azt, hogy a gyártó gép nem hat a gyártási technológiára). A Qe -ben szerepl® lineáris kifejezések mindegyikének várható értéke 0. A Qa -ban szerepl® lineáris kifejezések várható értéke csak akkor lehet minden ire 0, ha H0a fennáll. Hasonlóan, a Qb -ben szerepl® lineáris kifejezések várható értéke csak akkor lehet minden j -re 0, ha H0b fennáll. A Qc -ben szerepl® lineáris kifejezések várható értéke pedig csak akkor lehet minden (i, j)-re 0, ha H0ab fennáll. Az (7.7) felbontásban a kvadratikus alakok rangja itt is összeadódik:
kpn − 1 = (k − 1) + (p − 1) + (k − 1)(p − 1) + kp(n − 1). Így igazak az alábbi állítások: e.
Qe /σ 2 ∼ χ2 (kp(n − 1)),
akár fennállnak a nullhipotézisek, akár nem.
s2e = -
Qa k−1 Qb p−1 Qc (k−1)(p−1) Qe kp(n−1)
szórásnégyzet
∑k
hipotézist akarunk vizsgálni, az egyik és a másik szempont szerint megnézni,
•
Empirikus
144FEJEZET 7. LINEÁRIS MÓDSZEREK 3.: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI
•
a.
H0a
fennállása esetén
Qa /σ 2 ∼ χ2 (k − 1)
és független
Qe -t®l.
•
b.
H0b
fennállása esetén
Qb /σ 2 ∼ χ2 (p − 1)
és független
Qe -t®l.
•
c.
H0ab
fennállása esetén
Qc /σ 2 ∼ χ2 ((k − 1)(p − 1))
és független
Qe -t®l.
Ezért nullhipotéziseink vizsgálatára a következ® statisztikákat használhatjuk. El®ször a kölcsönhatást, vagyis a etén
Fab =
H0ab
hipotézist vizsgáljuk. Ennek fennálása es-
s2c ∼ F((k − 1)(p − 1), kp(n − 1)), s2e
azaz, ha a fenti Fab statisztika értéke nagyobb vagy egyenl®, mint az F((k−1)(p− 1), kp(n − 1))-eloszlás (1 − α)-kvantilise, akkor H0ab -t 1 − α szinten elutasítjuk, vagyis elfogadjuk, hogy van kölcsönhatás a két szempont között, legalábbis bizonyos
(i, j)
indexpárokra. Ebben az esetben a
H0a , H0b
hipotéziseket nincs
értelme vizsgálni. Amennyiben H0ab -t elfogadjuk, akkor a H0a és H0b hipotézisekt®l függetlenül Qc ∼ χ2 ((k − 1)(p − 1)) és független Qe -t®l. Így ezeket összeadhatjuk, és a σ 2 szórásnégyzetre most már a (k − 1)(p − 1) + kp(n − 1) = kpn − k − p + 1 szabadságfokú
s˜2e =
Qc + Qe kpn − k − p + 1
becslést kapjuk. Ezekután a
H0a
hipotézis vizsgálatára az
Fa =
s2a s˜2e
H0a fennállása esetén F(p − 1, kpn − k − p + 1)H0b hipotézis vizsgálatára az
statisztikát használjuk, amely eloszlást követ. Hasonlóan, a
Fb = statisztikát használjuk, amely eloszlású. Ha a
H0a
vagy/és
H0b H0b
tokéhoz hasonlóan vizsgálhatjuk az
7.2.
s2b s˜2e
fennállása esetén
F(k − 1, kpn − k − p + 1)-
hipotézist elutasítjuk, akkor az el®z® pon-
a- vagy/és b-hatásokat ill. azok különbségét.
Feladatok
1. Tekintsük az egyszempontos varianciaanalízis modelljében a paraméterek legkisebb négyzetek módszerével kapott becsléseit. (a) Mutassuk meg, hogy ezek maximum likelihood becslések! (b) * Számoljuk ki ezeket a becsléseket Lagrange-multiplikátor módszerrel!
7.2.
145
FELADATOK
Tipp:
Lásd 4. feladat (a) pontját.
Válasz:
Az Útmutató alapján nyilvánvaló.
2. Tekintsük az egyszempontos varianciaanalízis csoporthatás-vizsgálatát, ahol ∑k ∑ni ∑k Qe = i=1 j=1 (Xij − X i· )2 és Qa = i=1 ni (X i· − X ·· )2 . (a) Mutassuk meg, hogy (b) Igazoljuk, hogy
Qe /σ 2 ∼ χ2 (n − k)!
H0
teljesülése mellett 2 nem teljesül, Qa nem χ eloszlású!
(c) Adjuk meg
H0
mellett
Qa
és
Qe
Qa /σ 2 ∼ χ2 (k − 1),
de ha
H0
várható értékét és szórásnégyzetét!
Tipp: (a) A FisherCochran-tételhez f¶zött megjegyzeés a szabadságfokok heurisztikus számolásárol alapján itt a szabadságfok
n−k , mert az n valószín¶ségi k becsult paraméter van.
változót tartalmazo kvadratikus alakban (b) Ha
H0
fennáll akkor (a) az pontbeli eredmény és FisherCochran
tétel közvetlen következménye, míg ha nem teljesül, akkor
Qa
nem 0
várható érték¶ valószín¶ségi változók négyzetének összege. (c) A képletgy¶jtemény alapján számolunk
Válasz: (a) Az Útmutató alapjaán nyilvanvaló. (b) Az Útmutató alapjaán nyilvanvaló. (c)
EQa = (k − 1)/σ 2 D2 Qa = 2(k − 1)/σ 2 EQe = (n − k)/σ 2 D2 Qa = 2(n − k)/σ 2
3. Adjunk maximum likelihood becslést
σ 2 -re
az egyszempontos varianci-
aanalízis modelljében! Torzítatlan lesz-e becslésünk?
Tipp:
Az el®z® feladatban szerepl®
Qa és Qe független kvadratikus alakok
alpajan számoljunk.
Válasz: σˆ 2 = (Qa + Qe )/n, ami torzított becslés. 4. Mutassuk meg, hogy az egyszempontos varianciaanalízis csoporthatásvizsgálata (a) likelihood-hányados próba! (b) a kétmintás t-próba általánosítása több mintára!
Tipp:
Valójában F-próba.
Válasz:
146FEJEZET 7. LINEÁRIS MÓDSZEREK 3.: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI
5. Tekintsük az
(X, Y )
vektorváltozót, ahol
X
normális eloszlású,
Y
pedig
véges sok értéket felvev® diszkrét változó. Csoportosítsuk a mintát az értékei szerint. Alkalmazhatjuk-e az egyszempontos varianciaanalízist és
Y
Y X
függetlenségének tesztelésére?
Tipp: Vizsgáljuk meg milyen hipotézist tesztel a varianciaanalízis! Válasz: Csak a várható értékek azonos voltát teszteli, nem a függetlenséget.
n elem¶ mintát Yi = b i a + d i c + ε i , kísér® változók, εi ∼
6. Tekintsük a kovarianciaanalízis modelljét és ebben egy egy el®re tervezett hatás és egy kísér® változó esetén: ahol a, c paraméterek, bi -k tervezett hatások, di -k N (0, σ 2 ), i = 1, . . . , n független hibák.
(a) Adjunk becslést a paraméterekre a legkisebb négyzetek módszerével! (b) Konsturáljunk likelihood-hányados próbát a
H0 : c = 0
hipotézis
tesztelésére!
Tipp:
Vegyük észre, hogy a feladat független a kovarianciaanalízis mod-
elljét®l, egyszer¶ kétváltozós lineáris modellr®l van szó. (a) A
n ∑
Yi bi = a
i=1
n ∑
b2i + c
i=1
n ∑
bi di
i=1
n ∑
Yi di
i=1
=a
n ∑
bi di + c
i=1
n ∑
d2i
i=1
normálegyenletet kell megoldani. (b) A
λ(y1 , . . . , yn )
próbafüggvény
( ∑n )n/2 (y − a ˆbi − cˆdi )2 i=1 ∑n i λ(y1 , . . . , yn ) = ˆ bi )2 i=1 (yi − a alakú lesz (l. 6.4 feladat (e) pontját)
Válasz:
Az Útmutatók alapján nyilvánvaló.
7. Tekintsünk egy mintát, amely teljesíti az alábbi modellt:
Yi,j = axi,j + ci + εi,j , i = 1, . . . , r, j = 1, . . . , ni ,
c1 , . . . , cr és a paraméterek, xi,j -k εi,j ∼ N (0, σ 2 ) független hibák.
ahol
minisztikus) kísér® változók,
(deter-
(a) Adjunk becslést a paraméterekre a legkisebb négyzetek módszerével! (b) Mutassuk meg, hogy a fenti modell a kovarianciaanalízis egy modellje.
Tipp: Válasz: 7.3.
Tesztek
8. fejezet
Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, információelmélet
8.1.
8.1.1.
Elméleti háttér
Diszkriminanciaanalízis
Jelen feladatban objektumokat szeretnénk a rajtuk végrehajtott többdimenziós meggyelések alapján el®re adott osztályokba besorolni. Például pácienseket klinikai- vagy pszichiátriai teszteredményeik alapján szeretnénk beteg- ill. kontrollcsoportba, vagy többféle betegcsoportba besorolni; vagy egy új egyedet mért értékei alapján valamely ismert fajba akarunk besorolni. A módszert úgy kell elképzelni, hogy els® lépésben egy ún. tanuló-algoritmust hajtunk végre. Az objektumoknak kezdetben létezik egy osztálybasorolása. Ezt úgy adjuk meg, hogy a meggyelt többdimenziós, folytonos eloszlású valószín¶ségi változó komponensein kívül bevezetünk egy, az osztálybatartozásra jellemz® diszkrét valószín¶ségi változót, mely annyiféle értéket vesz fel, ahány osztály van; ez utóbbit egy szakért® a mérésekt®l függetlenül állapítja meg. Az egyes osztályok adatai alapján diszkrimináló algoritmust készítünk, és megnézzük, hogy az algoritmus szerint melyik osztályba kerülnének eredeti objektumaink. Amennyiben a téves osztálybasorolások száma nem túl nagy, úgy tekintjük, hogy az algoritmus által adott diszkrimináló függvény a továbbiakban is használható az adott csoportok elkülönítésére. A tényleges osztályozás gyelembevételével bevezetjük a következ®ket. Jelölje
k
az osztályok számát, továbbá a. jelölje az egyes osztályokhoz tartozó 147
p-dimenziós
mintaelemek s¶r¶ség-
148FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
függvényét b. jelölje
f1 (x), . . . , fk (x) (abszolút folytonos eloszlásokat feltételezünk);
π1 , . . . , πk
az egyes osztályok a priori valószín¶ségeit;
Az a.-beli s¶r¶ségeket osztályonként becsüljük a mintatákból, a b.-beli a priori valószín¶ségek pedig lehetnek az egyes osztályok relatív gyakoriságai. Így vis-
p-dimenziós X = X1 ∪ · · · ∪ Xk partíciója, akkor a x ∈ X mintaelemet akkor soroljuk a j -edik osztályba, ha x ∈ Xj . A cél az, hogy a legkisebb veszteséggel járó partíciót megkeressük. Ehhez jelölje rij ≥ 0 (i, j = 1, . . . k) azt a veszteséget, ami akkor keletkezik, ha egy i-edik osztálybelit a j -edik osztályba sorolunk (a veszteségek nem feltétlenül szimmetrikusak, de feltesszük, hogy rii = 0), és legyen Li az i-edik osztálybeliek besorolásának átlagos vesztesége (rizikója): ∫ ∫ ri1 fi (x) dx + · · · + Li = rik fi (x) dx, (i = 1, . . . , k), szük bele tudásunkat az alábbi algoritmusba. Ha már adva lenne a mintatér egy
X1
Xk
ahol összegeztük a veszteségeket azokra az esetekre, mikor az i-edik osztálybelit az
1., . . . , k.
osztályba soroltuk.
Most nem az egyes
Li
veszteségeket, hanem az
L=
k ∑
πi Li
i=1
átlagos Bayes-féle veszteséget (rizikót) minimalizáljuk.
L=
k ∑
πi
i=1
k ∫ ∑ j=1
Xj
rij fi (x) dx =
k ∫ ∑
k ∑ Xj i=1
j=1
πi rij fi (x) dx = −
k ∫ ∑ j=1
Xj
Sj (x) dx,
ahol az
Sj (x) = −[π1 r1j f1 (x) + · · · + πk rkj fk (x)] függvényt
x
j -edik
diszkrimináló informánsnak nevezzük, és argumentumában az
mintaelem szerepel
(j = 1, . . . , k).
A negatív el®jel miatt
Sj -k
növekedése az
átlagos veszteség csökkenését eredményezi, azaz a
k ∫ ∑ j=1
Xj
Sj (x) dx
kifejezést szeretnénk maximalizálni a mintatér összes lehetséges mérhet® partícióján. Célszer¶nek t¶nik tehát egy
x
mért értékekkel rendelkez® objektumot abba
az osztályba sorolni, melyre diszkrimináló informánsa a legnagyobb értéket veszi fel. Ennek az eljárásnak a jogosságát a következ® tétel biztosítja.
115. Tétel.
∗ ∗ ∗ Legyen az X mintatér X1 ∪ · · · ∪ Xk partíciója olyan, hogy x ∈ Xj ból Sj (x) ≥ Si (x) következik az összes i ̸= j indexekre (j = 1, . . . , k). Akkor az X1∗ , . . . , Xk∗ osztályozással az L átlagos veszteség minimális lesz.
8.1.
149
ELMÉLETI HÁTTÉR
A tétel állítása az alábbi lemma közvetlen következménye.
116. Lemma. Legyenek g1 , . . . , gk Rp -n értelmezett valós függvények. Legyen Rp = X1 ∪ · · · ∪ Xk a p-dimenziós euklideszi tér egy partíciója. Tegyük fel, hogy p ∗ ∗ az R = X1 ∪ · · · ∪ Xn partícióra teljesülnek a gi (x) ≥ gj (x),
x ∈ Xi∗
ha
∀j ̸= i;
i = 1, . . . , k
egyenl®tlenségek. Ekkor k ∫ ∑
gi (x) ≥
Xi∗
i=1
k ∫ ∑ Xi
i=1
gi (x).
(8.1)
A Lemma bizonyítását egy ábra szemlélteti. p Jelölje IA (x) az A ⊂ R halmaz indikátorfüggvényét! A (8.1)-beli egyenl®tlenségek miatt
k ∑
I
Xi∗
(x)gi (x) =
i=1
max i∈{1,...,k}
gi (x) ≥
k ∑
IXi (x)gi (x).
(8.2)
i=1
A (8.1) egyenl®tlenség (8.2) integrálásával adódik. Megjegyezzük, hogy az alkalmazásokban az optimális partíciót a (2.4) egyenl®tlenségek segítségével deniáljuk. A partíció nem egyértelm¶, ha van olyan
i ̸= j
indexpár, hogy
gi (x) = gj (x)
egy nem-0 mérték¶ halmazon. Ilyenkor ezt Xi∗ és Xj∗ között. helyettesítéssel adódik a tétel állítása.
a halmazt tetsz®legesen oszthatjuk fel A
gi (x) = Si (x)
Most néhány egyszer¶sít® feltevést vezetünk be. Ha az
rij
veszteségekre ninc-
senek adataink, és az összes téves besorolást egyformán akarjuk büntetni, akkor jobb híján az
Sj (x) = −
rij = 1 (i ̸= j)
k ∑
πi rij fi (x) = −
i=1 ahol a
c
és
rii = 0
∑
választással élünk. Ezzel
πi fi (x) = −
j -t®l.
πi fi (x)+πj fj (x) = πj fj (x)+c,
i=1
i̸=j
konstans nem függ
k ∑
Valójában tehát az
x
mért értékekkel ren-
delkez® objektumot az l . osztályba soroljuk, ha
πl fl (x) =
max j∈{1,...,k}
πj fj (x).
Tegyük fel, hogy az egyes osztályoknak különböz® paraméter¶, normális eloszlások felelnek meg. Azaz, ha
fj (x) =
X ∈ Np (mj , Cj ),
p-dimenziós
akkor
−1 T 1 1 e− 2 (x−mj ) Cj (x−mj ) . (2π)p/2 |Cj |1/2
Tekintsük az osztálybasorolás alapját képez®
πj fj (x)
mennyiségek természetes
alapú logaritmusát, a logaritmus monoton transzformáció lévén ez ugyanarra a
150FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
8.1. ábra. A mintatér felosztása diszkrimináló informánsokkal
j -re
lesz maximális, mint az eredeti kifejezés, s®t az összes
j -re
közös
ln (2π)1p/2 -
t®l is eltekinthetünk. Az így kapott módosított j -edik diszkrimináló informánst Sj′ -vel jelöljük, és alakja miatt kvadratikus diszkriminancia szkórnak is szokás nevezni:
1 1 Sj′ (x) = − ln |Cj | − (x − mj )T C−1 j (x − mj ) + ln πj . 2 2 Ha a kovarianciamátrixok azonosak:
C1 = · · · = Ck = C,
akkor
Sj′ (x)-b®l
a
j-
8.1.
151
ELMÉLETI HÁTTÉR
1 t®l független − ln |C| és a kvadratikus alak kifejtésében fellép®, j -t®l ugyancsak 2 1 T −1 független − x C x rész elhagyható, a maradék pedig x lineáris függvényeként 2 írható. Ezt nevezzük lineáris informánsnak:
1 Sj′′ (x) = mTj C−1 x − mTj C−1 mj + ln πj . 2
(8.3)
Sj′′ (x) értékét ′′ amelyikre az Sj (x)
Eljárásunk tehát a következ®: minden osztályra kiszámoljuk az
(j = 1, . . . k),
és objektumunkat abba az osztályba soroljuk,
lineáris informáns értéke a legnagyobb. A 115 Tétel garantálja, hogy ekkor átlagos veszteségünk minimális lesz. Amennyiben csak két osztályunk van, objektumunkat az x meggyelés alapján ′′ ′′ az els® osztályba soroljuk, ha S1 (x) ≥ S2 (x), különben a másodikba. Azaz az ′′ ′′ S1 (x) − S2 (x) különbség el®jele fogja eldönteni az osztálybatartozást. De
S1′′ (x) − S2′′ (x) = L(x) − c, ahol (8.3) alapján
L(x) = (mT1 − mT2 )C−1 x és 1 c = (mT1 C−1 m1 − mT2 C−1 m2 ) − ln π1 + ln π2 . 2 A fenti
L(x)-et
Fisher-féle diszkriminancia függvénynek is szokták nevezni,
L(x) ≥ c, akkor objekL(x) < c, akkor a második osztályba soroljuk. Az az egyes xi változók együtthatói egyfajta súlyokként
és ennek alapján döntjük el az osztálybatartozást: ha tumunkat az els®, ha pedig
L(x)
lineáris kifejezésben
is szolgálnak, azok a változók fejtik ki a leger®sebb hatást a két csoport diszkriminálásában, amely a legnagyobb súllyal szerepelnek. Ha az átlagos veszteséget akarjuk minimalizálni, normális eloszlású minták esetén a fenti eljárás keresztülvihet® az egyes osztályokban számolt empirikus kovarianciamátrixokkal és az osztályok relatív gyakoriságaival becsült apriori valószín¶ségek segítségével. Létezhetnek azonban ún. látens osztályok (pl. egy újfajta betegség, újfajta faj), ami ronthat a módszer alkalmazhatóságán. Szükség van ezért különféle hipotézisvizsgálatokra. Pl. két osztály esetén, az els® osztályba való besorolhatóság a
T1 =
[(m2 − m1 )T C−1 (X − m1 )]2 ∼ χ2 (1) (m2 − m1 )T C−1 (m2 − m1 )
(8.4)
statisztikával, míg a második osztályba való besorolhatóság a
T2 =
[(m2 − m1 )T C−1 (X − m2 )]2 ∼ χ2 (1) (m2 − m1 )T C−1 (m2 − m1 )
(8.5)
−1 statisztikával tesztelhet®, ugyanis ha X ∼ Np (mj , C) , akkor C (X − mj ) ∼ Np (0, C−1 ), (m2 − m1 )T C−1 (X − mj ) ∼ Np (0, (m2 − m1 )T C−1 (m2 − m1 )), s utóbbinak standardizáltja lesz a (8.4)- ill. (8.5)-beli
Tj
statisztika
(j = 1, 2).
152FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
0.25 0.2 0.15 0.1 0.05 0
8.2. ábra. Elméleti és empirikus diszkriminanciafüggvény 2 dimenzióban
T1 , mind T2 szignikánsan nagyobb 95%-os) kvantilisénél, akkor egy látens
Ha mind adott (pl.
az 1-paraméter¶
χ2 -eloszlás
harmadik osztály jelenlétére
gyanakodhatunk. Számítsuk most ki két
p-dimenziós
normális eloszlású, azonos
C
kovarianci-
amátrixú minta esetén a helytelen osztálybasorolások valószín¶ségeit! Az egyszer¶ség kedvéért legyen most két egyforma népesség¶ mintánk, azaz az apriori valószín¶ségekre a
π1 = π2 = 1/2
feltételezéssel élünk. A számolást nem rés-
zletezzük, ebben az esetben a veégeredmény meglep®en egyszer¶:
8.1.
153
ELMÉLETI HÁTTÉR
Legyen
σ 2 = (m1 − m2 )T C−1 (m1 − m2 ).
(8.6)
Ekkor mindkét típusú hibás osztálybasorolás valószín¶sége:
(
P=1−Φ Ez nem meglep®, hiszen a (8.6) szerint
σ
) 1 σ . 2
annál nagyobb, minél távolabb van-
nak egymástól a két csoport standardizált" várható értékei. A diszkrimináló informánsokban szerepl® paramétereket a mintából becsüljük, minél több a paraméter, annál pontatlanabb az egyes paraméterek becslése; azt is mondhatjuk, hogy a paraméterek a konkrét mintához vannak adaptálva. Ezért, ha az eljárás rizikóját a nem megfelel® osztályba sorolt egyedek száma alapján az alább ismertetend® módon becsüljük, a valódi veszteségfüggvénynél kisebb torzított becslést kapunk. E torzítás kivédésére alkalmazzák az ún. cross-validation
(kereszt-kiértékelés) módszert: a paramétereket a minta egy része (60% a szokásos hányad) alapján becsüljük, míg az osztályozás min®ségét a paraméterbecslésben fel nem használt mintaelemekkel teszteljük (40%). A torzítás csökkentésére Tukey [] javasolt egy szellemes általa jackknife-nak (bicskának) nevezett, nagy számolásigény¶ módszert. Ezt a módszert az
jezetben ismertetjuk 8.1.2.
algoritmikus modellek fe-
Korrespondanciaanalízis
Ebben és a következ® paragrafusban minden eloszlás diszkrét és véges, ezt a továbbiakban külön nem említjük. A korrespondanciaanalízis kategórikus változók közti kapcsolatok elemzésére szolgál a változó-kategóriák metrikus megjelenítése alapján. Kategórikus, más néven kvalitatív változó alatt olyan diszkrét eloszlású valószín¶ségi változót értünk, amely véges sok értéket vesz fel, és az értékek általában nem nagyságrendet tükröznek, hanem csak a változó lehetséges értékeit kódolják (pl. a hajszín változó sz®ke, barna, fekete, vörös értékei az 1,2,3,4 számokkal kódolhatók). A Tananyagban csak két kategórikus változót vizsgálunk, az adatok kontingenciatábla (gyakoriság- vagy rekatív gyakoriságtábla) formájában vannak megadva. A probléma a következ®: az
X
és
Y
diszkrét valószín¶ségi változók
n
ill.
m
különböz® kategóriát tartalmaznak, az egyszer¶ség kedvéért jelölje értékkészletüket az
{1, 2, . . . , n}
ill. az
{1, 2, . . . , m}
halmaz.
X
és
Y
nem függetlenek,
értékeiket nem specikáljuk, célunk éppen az értékek alkalmas megválasztása lesz. Egy közös meggyelésükre vonatkozó minta alapján adva van egy es kontingenciatábla az és az
N=
fij
ún. cellagyakoriságokkal (fij az
X
n × mi-edik
változó
Y változó j -edik kategóriájába es® meggyelések számát jelenti). Legyen ∑ n ∑m i=1 j=1 fij a meggyelések száma, ezzel callánként leosztva az rij =
fij N
(i = 1, . . . , n; j = 1, . . . , m)
relatív gyakoriságokhoz jutunk. Ezeket tekinthetjük a két diszkrét eloszlású valószín¶ségi változó (az egyik
n, a másik m különböz® értéket vesz fel) együttes
154FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
eloszlásának, és
R-rel jelöljük. Ugyancsak R jelöli az rij
számok alkotta
n×m-es
mátrixot. Jelölje
pi = ri.
(i = 1, . . . , n)
qj = r.j
ill.
(j = 1, . . . , m) Pn × n-es
a peremeloszlásokat (azaz az egyes kategóriák valószín¶ségeit), ezeket röviden
Q-nak fogjuk nevezni, az elemeiket f®diagonálisként m × m-es diagonális mátrixokat pedig P ill. Q jelöli.
nek ill. ill.
tartalmazó
Célunk a kontingenciatáblának valamilyen alacsonyabb rangú táblával való közelíése. Ehhez a kanonikus korrelációanalízisnél leírtakhoz hasonlóan keresünk olyan, értékeiket a
P - ill. Q-eloszlás valószín¶ségei szerint felvev®, egységszórású,
páronként korrelálatlan valószín¶ségi változókat, ún. faktorokat úgy, hogy a megegyez® index¶ faktorok korrelációja maximális legyen. Ilyen módon a kontingenciatábla el®áll a faktor valószín¶ségi változók értékei (szkórok) diádszorzatainak súlyozott összegeként. A legnagyobb súlyok közül bizonyos számút megtartva a kontingenciatábla egy alacsonyabb rangú közelítését kapjuk. Mi csak a 2 rangú közelítéssal foglalkozunk, ami visszavezethet® a Rényi-féle
maximálkorreláció feladatára: adott két kategórikus változó együttes eloszlása (együttes relatív gyakorisága, azaz egy az
α
és
β
n × m gyakoriságtábal). Keressük azokat
valós számérték¶ véletlen vektorokat, amelyek marginális eloszlásai
megegyeznek az adott kontingencia táblából számolt marginális eloszlásokkal, és az együttes eloszlás alapján számított korrelációjuk maximális. A marginális eloszlás általános és egzakt denicióját l. a következ® paragrafusban (117). Látni fogjuk, hogy ezen véletlen vektorok együttes eloszlása az eredeti kontingenciatábla 2 rangú közelítése. Ha az itt tárgyalt módszerrel magasabb rangú közelítéseket is számulunk, akkor ezek "együttes eloszlásában" NEGETÍV valószín¶ségek is el®fordulhatnak. A feladat pontos leírásához jelölje
1, 2 . . . , min{n, m}).
αl
ill.
βl
a sor- ill. oszlop-faktorokat (l
=
A faktorok szórására és korrelálatlanságára tett feltevések
azt jelentik, hogy
EP αl αl′ =
n ∑
αl (i)αl′ (i)pi = δll′
(l, l′ = 2 . . . , min{n, m}) ,
βl (j)βl′ (j)qj = δll′
(l, l′ = 2 . . . , min{n, m}) ,
i=1
EQ βl βl′ =
m ∑ j=1
ahol
δll′ pi
tozók
a Kronecker-delta, ill.
qj
αl (i)
ill.
βl (j)
pedig az
αl ill. βl valószín¶ségi válαl , βl párok egymásutáni
valószín¶séggel felvett értékei. A cél az
meghatározása oly módon, hogy az el®z®ekkel való korrelálatlansági feltételek mellett
ER αl βl =
n ∑ m ∑
αl (i)βl (j)rij
(l = 1 . . . , min{n, m})
(8.7)
i=1 j=1 maximális legyen. A korrespondanciafaktorok
l > 1
esetén egységszórásúak,
kés®bb pedig látni fogjuk, hogy várható értékük 0, ezért (8.7) egyben az azonos
8.1.
155
ELMÉLETI HÁTTÉR
index¶ faktorpárok közti korrelációt is jelenti. Az
l = 1 esetben adódó faktorpár
tagjaitól nem követeljük meg, hogy 0 várható érték¶ek és 1 szórásúak legyenek, de (8.7) ezesetben is maximális. A megoldáshoz egy
α, β
változópárt a következ® transzformációnak vetünk
alá:
x(i) := y(j) :=
√ √
pi α(i),
(i = 1, . . . , n) ,
qj β(j),
(j = 1, . . . , m) .
T
x = (x(1), . . . , x(n)) ill. y = (y(1), . . . , y(m))T a fenti komponensekb®l álló vektort. Amennyiben α ill. β jelöli az α ill. β valószín¶ségi változók felvett értékeib®l álló n- ill. m-dimenziós vektort, Jelölje
Az
α, β
α = P−1/2 x
ill.
β = Q−1/2 y.
α = P−1/2 x
ill.
β = Q−1/2 y.
valószín¶ségi változókra tett (1.1) feltételek miatt
∥x∥=1 és ∥y∥=1.
A maximalizálandó (8.7) kifejezés pedig:
ER αβ =
n ∑ m ∑
n ∑ m ∑
rij x(i)y(j) √ √ = xT By p i qj i=1 j=1
α(i)β(j)rij =
i=1 j=1 alakban írható, ahol az
n × m-es B
mátrix a következ®:
B = P−1/2 RQ−1/2 . Keresend®
max
EP α2 =1, EQ β 2 =1
ER αβ =
max
∥x∥=1, ∥y∥=1
xT By.
Az 158. Tétel alapján az utóbbi kifejezés maximuma a
B
mátrix legnagyobb
szinguláris értéke, és felvétetik az ehhez tartozó saját bázispáron, jelölje ezeket
u1
ill.
v1 .
Így
α1 = P −1/2 u1
β 1 = Q−1/2 v1
ill.
α1 ≡ 1, β1 ≡ 1 és s1 = 1, E αβ ≤ 1 , ugyanakkor az azonosan ∑n R ∑m ER αβ = i=1 j=1 rij = 1 teljesül. Az α1 , β1
lesz az els® összetartozó faktorpár. Könny¶ látni, hogy ui. a CauchySchwarz egyenl®tlenség miatt 1 értéket felvev®
α, β
párokkal
faktorokat triviális faktorok nak is szokták nevezni, várható értékük 1, szórásuk 0, kovarianciájuk is 0. A többi faktor korrelálatlansága velük éppen azt jelenti, hogy azok várható értéke 0. Tekintsünk egy ilyen
EP α = 0,
D2P α = EP α2 = 1,
α, β
EQ β = 0,
párt. Ezekre tehát
D2Q β = EQ β 2 = 1.
Tekintsük most velük a következ® szekvenciális feltételes széls®értékkeresési feladatot. El®ször keresend® Ismét a 158. Tételre hivatkozva adódik, hogy a maximum a sodik legnagyobb szinguláris értéke,
s2 , és az u2 , v2
Ezek transzformáltjai lesznek az
α2 = P −1/2 u2
ill.
B
mátrix má-
saját bázispáron vétetik fel.
β 2 = Q−1/2 v2
156FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
ún. korrespondancia-faktorok. Az
s2
szám éppen a Rényi-féle maximál korrelá-
ció.
8.1.3.
Információelméleti módszerek (Ω, A, P) valószín¶ségi mez® Ω halmaz mindig véges. Az Ω-án deniálható összes elos-
Mivel itt is diszkrét eloszlásokkal foglalkozunk, az deníciójában szerepl® zlások családját
D(Ω)-val
jelöljük.
d-szempontos d-dimenziós tömbbe vannak rendezve. számát jelölje ri , ekkor az Ω elemei
A vizsgált eloszlások tipikus példája, a a valószín¶ségek a kategóriáinak
ω = (j1 , . . . , jd ),
osztályozás, amikor Az
i-edik
szempont
1 ≤ j1 ≤ r1 , 1 ≤ j2 ≤ r2 , . . . , 1 ≤ jd ≤ rd
X(ω) = X(j1 , . . . jd ) cellagyakod-dimenziós kontingenciatáblának, pontosabban r1 ×r2 , × · · ·×
alakúak; ezeket szokták celláknak nevezni. Az riságokból állló mitát
rd
méret¶ táblának nevezzük.
117. Deníció.
(Marginális eloszlás.) Megjegyezzük, hogy az elnevezés a latin
margo (genitivus: marginis) szóból származik. Tetsz®leges
γ ∈ {1, . . . , ∏ d}
az
X
kontingenciatábla, illetve egy p ∈ D(Ω) eloszlás γ -marginálisán azt a i∈γ ri γ γ γ dimenziós X vektort, illetve p vektort értjük, amelynek X (i1 , . . . , i|γ| ), ilγ letve p (i1 , . . . , i|γ| ) komponensei mindazon X(ω), illetve p(ω) elemek összegével egyenl®k, melyekre Ha
|γ| = k ,
akkor
ω = (j1 , . . . , jd )-nek γ -beli index¶ koordinátái rendre i1 , . . . , i|γ| . k -dimenziós marginálisról beszélünk.
A fenti formális deníció nehezen érthet®, de az alábbi, a d = 2, r1 = 3 r2 = 3 esetet illusztráló táblazatokból kit¶nik, hogy valójában csak egy jólismert fogalom általánosításának kissé nehézkes, de elkerülhetetlen formalizálásáról van szó. A könnyebb olvashatóság kedvéért a valószín¶ségeket százalékban adjuk meg. A 8.1 Táblázat egy háromdimenziós eloszlás táblázata, a szemléletesség kedvéért gondoljuk az
i és j
koordináták által meghatározott
táblázatokat 3 vízszintes rétegnek, míg a
k
3 × 3 (i-vel és j -vel indexelt
index az egyes rétegek magasságat
jelzi).
j1 j2 j3
k1
k1
k1
k2
k2
k2
k3
k3
k3
2
5
2
1
3
4
6
15
6
1
3
4
2
5
2
3
9
12
1
1
1
1
1
1
3
3
3
i1
i2
i3
i1
i2
i3
i1
i2
i3
8.1. táblázat. Háromdimenziós eloszlás A 8.2 Táblázat az eredeti háromdimenziós eloszlás illusztrálja: a
j
indexre össszegzünk 9 rögzített
(i, k)
(i, k) kétdimenziós marginálisát párra.
8.1.
157
ELMÉLETI HÁTTÉR
k1 k2 k3
i1
i2
i3
4
9
7
4
9
7
12
27
21
8.2. táblázat. Marginálisok
Végül a fenti kétdimenziós marginális eloszlás elemeit a
k
index szerint
összegezzük (ami ekvivalens azzal, hogy az eredeti eloszlás elemeit a
k
indexekre összegezzük minden rögzített
i
j
és a
értékre).
i1
i2
i3
20
45
35
8.3. táblázat. Összegzett marginálisok Ennek a paragrafusnak az a célja, hogy a többdimenzós gyakorisagtáblázatok mögötti eloszlást minél kevesebb paraméterrel írja le információelméleti módszerek segítségével. A becslési feladatoknak két típusát különböztetik meg .
Küls® feltételekkel meghatározott feladatok. Ebben az esetben feltételezzük, hogy az
X
minta
p
valódi eloszlása egy
p∈F
F
eloszláscsaládhoz tartozik. A
eloszlás meghatározásának általánosan elfogadott módja, hogy megker∗ essük azt a p ∈ F eloszlást amely az alább ismertetett eltérések valamelyikének értelmében legközelebb van a
pX
empirikus eloszláshoz. Ugyanez a módszer a
121 Lemma alapján alkalmazható annak a hipotézisnek a vizsgálatára, hogy az
X
minta származhat-e egy
F -beli
eloszlásból.
Bels® feltételekkel meghatározott (modellalkotási) feladatok. Itt az X mintában foglalt információt kevesebb adattal, általában bizonyos
S1 , . . . , Sr
statisztikák mintabeli átlagaival kívánjuk reprezentálni. Ha ismereteink mintavétel el®tti állapotát
q ∈ D(Ω)
eloszlás jellemzi (ennek legtöbbször az
Ω-án
értelmezett egyenletes eloszlást vesszük), akkor az
{ F=
p:
∑
p(ω)Si (ω) =
ω∈Ω eloszláshalmazhoz legközelebbi
∑
} pX (ω)Si (ω),
i = 1, . . . , r
(8.8)
ω∈Ω
p∗ eloszlást tekintjük a modellalkotási feladat
megoldásának.
Eloszlások eltérése Az eloszlások egymástól való eltérésére számos, az információelméletben használatos mér®szám ismeretes, ezek általánosítását az ún. be (l. [9]) 1967-ben.
f -eltérést
Csiszár Imre vezette
158FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
Miel®tt rátérnénk az információs geometria tárgyalására itt közöljük az ehhez kapcsolódó feladatokban szükséges Jensen-egyenl®tlenséget.
118. Tétel (Jensen-egyenl®tlenség.). vex függvény,
X
léteznek. Ekkor
f (x) (x ∈ R) valós érték¶ konE(X) és E(f (X))
E (f (X)) ≥ f (E(X)) .
f (u)
Legyen
f (1) = 0,
Legyen
pedig egy valószín¶ségi változó. Tegyük fel, hogy
(8.9)
a pozitív félegyenesen értélmezett konvex függvény, amelyre
és legyen megállapodás szerint
f (u) a . 0f ( ) = a · lim u→∞ u 0
f (0) = lim f (u), u→0
119. Deníció (f-eltérés).
p ∈ D(Ω) és q ∈ D(Ω) ( ) ∑ p(ω) Df (p∥q) = q(ω)f q(ω)
eltérésén a
Tetsz®leges
eloszlások f-
(8.10)
ω∈Ω
mennyiséget értjük. A tananyagban
a
f (u)-t
háromféleképpen választjuk meg:
•
(i)
•
(ii)
f (u) = (u − 1)2
•
(iii)
f (u) = u log u
f (u) = |u − 1|
∑ (ii) és (iii) függvényeknek rendre a ω |p(ω)−q(ω)| variációs távolság, ∑Az (i), 1 2 2 (p(ω) − q(ω)) Pearson-féle χ -eltérés, illetve a ω q(ω) Df (p∥q) =
∑
p(ω) log
ω∈Ω
p(ω) q(ω)
(8.11)
KullbackLeibler-féle diszkrimináló információ (ezt a rövidség kedvéért a továbbiakban egyszer¶en
divergenciának nevezzük) felel meg.
120. Lemma. Df (p∥q) ≥ 0, ha f (u) az az egyenl®ség csak p = q esetén teljesül.
u=1
pontban szigorúan konvex, akkor
Bizonyítás Lásd ???? Feladat. A fenti Lemma állításából nem következik, hogy az f-eltérés távolság, mert általában sem a szimmetria, sem a háromszög egyenl®tlenség nem teljesül. A felsorolt 3 eltérés közül csak az (i) variációs távolság valódi távolság. Jelölje
T (p)
a
p
eloszlás tartóját:
T (p) := {ω : p(ω) > 0}. Nyilvánvaló, hogy
D(p∥q)
akkor és csak akkor véges, ha
T (p) ⊆ T (q).
A következ® Lemma lehet®séget teremt az f-eltérések statisztikai próbákban történ® felhasználására.
8.1.
159
ELMÉLETI HÁTTÉR
121. Lemma.
(Az f-eltérés és a
χ2 -eloszlás
kapcsolata) Ha az eltérést deniáló
f (u) függvény az u = 1 pontban szigorúan konvex, az u = 1 pont egy környezetében ′′ kétszer folytonosan dierenciálható, és f (1) > 0, akkor az egymáshoz közeli p 2 és q eloszlások f-eltérése a χ -eltérésük egy konstansszorosával közelíthet®, pontosabban bármely ε > 0-hoz van olyan δ > 0, hogy ( ′′ )∑ f (1) (p(ω) − q(ω))2 −ε ≤ D(p∥q) ≤ 2 q(ω) ω∈Ω (8.12) ( ′′ )∑ f (1) (p(ω) − q(ω))2 ≤ +ε , 2 q(ω) ω∈Ω
ha
|p(ω) − q(ω)| ≤ δq(ω)
minden
ω ∈ Ω-ra.
A Lemma feltétele teljesül a divergenciára. A kontingenciatáblázatok elemzésekor alapfeladat az, hogy egy megkeressük
F ⊆ D(Ω)
egy
eloszláscsaládnak adott
p
eloszlástól legkevésbé eltér® elemét.
Ezt kétféleképpen tehetjük meg.
122. Deníció (Vetületek). I-vetület eloszláshalmazra vonatkozó I-vetülete az a
q ∈ D(Ω) eloszlásnak F ∈ D(Ω) p ∈ F eloszlás, amelyre
Egy ∗
D(p∗ ∥q) = min D(p∥q) < ∞.
(8.13)
p∈F
L-vetület
Egy
L-vetülete az a
p ∈ D(Ω) eloszlásnak F ∈ D(Ω) q ∗ ∈ F eloszlás, amelyre
eloszláshalmazra vonatkozó
D(p∥q ∗ ) = min D(p∥q) < ∞.
(8.14)
q∈F
Az ??? feladatban fogalmaztuk meg a következ® lemma egyik allítását. p(ω) Miel®tt a lemmát kimondanánk vezessük be a pA (ω) := P (A) ha ω ∈
pA (ω) := 0,
ha
ω ̸∈ A
jelölést, és analóg módon a
qA (ω)
A,
jelölést is.
123. Lemma.
Legyenek, A1 , . . . , Ar az Ω valószín¶ségi tér páronként diszjunkt ∪ri=1 Ai = Ω(teljes eseményrendszer). Ekkor tetsz®leges p eloszlásokra: ( ) r ∑ p(Ai ) Df (p∥q) ≥ q(Ai )f . (8.15) q(Ai ) i=1
részhamazai melyekre és
q
0.
Ha
pAi = qAi minden olyan i-re, amelyre p(Ai )q( Ai ) szigorúan konvex, akkor az egyenl®ségnek ez elégséges feltétele.
Egyenl®ség akkor érvényes ha
f
A fenti Lemma lehet®vé teszi, hogy egy
q
eloszlásnak meghatározzuk az I-
vetületét egy speciális eloszláshalmazra; nevezetesen azon eloszlások halmazára, amelyek szerint egy
A1 , . . . , Ar
teljes eseményrendszer elemeinek valószín¶ségei
adottak:
F{p : p(Ai ) = πi }.
(8.16)
>
160FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
124. Tétel.
(Jerey-szabály.) Ha
q(Ai ) > 0
min D(p∥q) = D(p∗ ∥q) = p∈F
( q(Ai )f
i=1
ahol
p∗ (ω) =
minden
r ∑
minden i-re, amelyre
πi q(Ai )
πi ̸= 0
) ,
πi q(ω) q(Ai )
ω ∈ Ω-ra.
Vegyük észre, hogy ebben az esetben az I-vetület nem függ az eltérést meghatározó függvényt®l; ez általában nincs így. A Jerey-szabállyal egy speciális küls® feltételekkel megadott feladatot oldunk q = pX , akkor p∗ az (8.16) F eloszláscsalád pX -hez legközelebbi ∗ eleme lesz a becslés eredménye. Ugyanakkor a Jerey szabállyal kapott p becsmeg, ugyanis ha
lés teljesíti a bels® feltételekkel megadott feladat (8.8) egyenl®ségét is. Minimális diszkrimináló információ módszernek (MDI) nevezzük azt az eljárást, amikor a becslés az ben legközelebbi
p
F
eloszláscsaládnak a
q eloszláshoz KullbackLeibler értelem-
eleme
Most megmutatjuk, hogy a polinomiális eloszlás maximum-likelihood becslése az empirikus eloszlás divergencia szerinti L-vetülete a polinomiális eloszlások
ω ∈ Ω-ra az ω kategóriába es® elemek száma legyen X(ω), X(ω) komponenseib®l alkotott vektor az X minta, a mintaelemszám N := ∑ 1 ω∈Ω X(ω), pX = N X Ezekkel a jelölésekkel az X minta log-likelihood függvénye: [ ] ∏ ∑ N! X(ω) L(pX ) = log ∏ p(ω) = a(X) + X(ω) log p(ω) = ω∈Ω X(ω)! halmazára. Minden az
ω∈Ω
ω∈Ω
pX (ω) = b(X) − N log = b(X) − N D(pX ∥p), p(ω) (8.17) Ahol
a(X) és b(X) csak a mintától (a becsülend® p paramétervektortól nem)
függ® így a maximumot nem befolyásoló függvényeket jelölnek. A fenti egyenl®ségb®l adódik
N D(pX ∥p) = L(pX ) − b(X), tehát
L(pX ) ugyanarra a p vektorra veszi fel a maximumát, amelyre N D(pX ∥p)
a minimumát. Ez a becslési módszer a küls® feltételekkel megadott feladat megoldását adja abban a speciális esetben, amikor az
F
eloszláshalmaz az
Ω
véges halmazon
értelmezett összes lehetséges eloszlást tartalmazza. Ha
q az Ω-án egyenletes eloszlás, akkor a divergencia deníciójából következik ∑ D(p∥q) = p(ω) log p(ω) + log |Ω|, ω∈Ω
8.1.
161
ELMÉLETI HÁTTÉR
p ∈ F eloszlás, amelynek ∑ H(p) = − p(ω) log p(ω)
tehát az I-vetület most éppen az a
a
ω∈Ω Shannon-entrópiája maximális. Ezért a rendkívül népszer¶ maximális-entrópia becslési módszer speciális esetként tartalmazza az MDI-módszert. Az f-eltérés nem távolság, ennek ellenére bizonyos geometriai állítások az f-eltérésre is igazak. Az információelmélet geometriai megközelítése az elemi matematikai példatáráról jól ismert N. N. Csencov [8] orosz matematikustól származik. Most megmutatjuk, hogy speciális duális eloszláscsaládok esetén az f-eltérésre teljesül a Pitagorasz-tétel.
S1 , . . . , Sr az Ω halmazon értelmezett tetsz®leges valós függvények, S0 az azonosan 1 függvény. Jelölje S azt az (r+1)×|Ω| típusú mátrixot, amelynek i-edik sora Si (ω), i = 0, . . . , r Az S mátrix segítségével két eloszláscsaládot deniálunk. Legyenek
és legyen
125. Deníció. és
q0 ∈ D(Ω)
(Lineáris és exponenciális eloszláscsalád.) Legyenek
p0 ∈ D(Ω)
tetsz®leges eloszlások. Az
L = L(S, p0 ) := {p : Sp = Sp0 } eloszláscsaládot az
saládnak
S
mátrixhoz és
p0
eloszláshoz tartozó
(8.18)
lineáris eloszlásc-
nevezzük. Az
E = E(S, q0 ) := {q : q = q0 exp(S⊤ τ )}, (8.19) ∑ r ⊤ ahol q0 exp(S τ ) a q0 (ω) exp( i=0 Si (ω)τi ) komponensekb®l álló vektort jelenti, ⊤ és τ befutja mindazokat az r + 1-dimenziós vektorokat amelyekre q0 exp(S τ ) ∈ D(Ω), exponenciális eloszláscsaládnak nevezzük. Ez azt jelenti, hogy τ1 , . . . , τr tetsz®legesek és
τ0 = − log
∑
q0 (ω) exp(
Vegyük észre, hogy a deniáló
q0
Si (ω)τi ).
i=1
ω∈Ω
0, . . . , τr = 0)
r ∑
eloszlás eleme
E -nak
a
τ = (τ0 = 0, τ1 =
választással.
A (8.18) denícióból következik, hogy a lineáris eloszláscsalád az
R|Ω|
eu-
klideszi tér zárt halmaza, míg az (8.19) deníció alapján látható, hogy az exponenciális eloszláscsalád nem zárt (egy valószín¶ség tetsz®legesen közel lehet 0-hoz, de nem lehet egyenl® vele). A család lezártját clE(S, q0 )-lal, vagy egyszer¶en clE-vel jelöljük.
Jegyezzük meg, hogy minden
q ∈ clE
eloszlásra
T (q) ⊂ T (q0 )
q ∈ E
eloszlásra
T (q) = T (q0 )
és minden
Továbbá vegyük észre, hogy ha a (8.18) és a (8.19) deníciókban szerepl® mátrixot újabb sorok hozzávételével egy
¯ p0 ) ⊂ L(S, p0 ) ˜ S, L(
és
¯ S
mátrixszá egészítjük ki, akkor
¯ p0 ) ⊃ E(S, p0 ). ˜ S, E(
S
162FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
126. Tétel.
(Az információs geometria Pitagorasz-tétele.) Tegyük fel, hogy a
(8.18) és a (8.19) eloszláshalmazok metszete nem üres: ∗ nek és E -nek pontosan egy p közös eleme van, és erre
D(p∥q) = D(p∥p∗ ) + D(p∗ ∥q),
L ∩ clE ̸= ∅.
Ekkor
p ∈ L, q ∈ clE,
ha
L-
(8.20)
továbbá
∪
T (p∗ ) =
T (p)
(8.21)
p∈L T (p) ⊂ T (q0 ) és ∗
p (ω) = q0 (ω) exp
( r ∑
) Si (ω)τi∗
,
ha
ω ∈ T (p∗ )
(8.22)
i=0
ahol
τ ∗ = (τ1∗ , . . . τr∗ )⊤
Bizonyítás
alkalmas vektor.
A Tananyagban általában nem közlünk bizonyításokat, de a 126
Tétel érdekessége miatt a (8.20) azonosságot bebizonyítjuk.
⊤ A divergencia deníciójából következik , hogy tetsz®leges q = q0 exp(S τ ) ∈ ′ ⊤ ′ és q = q0 exp(S τ ) ∈ E eloszlásokra és a t(p) ⊂ T (q0 ) feltételt kielégít®
E p ∈ D(Ω)
eloszlásra
D(p∥q) − D(p∥q ′ ) =
∑
p(ω) log
ω∈Ω Ezért
p ∈ L, T (p) ⊂ T (q0 )
q ′ (ω) = p⊤ S⊤ (τ ′ − τ ). q(ω)
esetén
D(p∥q) − D(p∥q ′ ) = f (q, q ′ )
(8.23)
q ∈ E , q ′ ∈ E ). Határátmenettel adódik, hogy (8.23) ′ akkor is igaz marad ha q és q a b®vebb clE -nek eleme, kizárva azokat a p-ket ∗ ′ ∗ amelyekre D(p∥q) = ∞. Most p ∈ L ∩ E esetén q szerepét p -nak adva a (8.23) (azaz nem függ
p-t®l,
ha
egyenl®ségb®l adódik, hogy
D(p∥q) − D(p∥p∗ ) = D(p∗ ∥q) − D(p∗ ∥p∗ ) D(p∗ ∥p∗ ) = 0 a (8.20) egyenl®séget bebizonyítottuk. Kiegészítés. A L ∩ clE ̸= ∅ feltétel pontosan akkor teljesül, ha T (p) ⊆ T (q0 ). Mivel
127. Megjegyzés. L∩E
A divergencia nemnegatív voltából következik, hogy a
halmaz egyetlen eleme egyidej¶leg a
eloszlás
E -re
vett L-vetülete.
q
eloszlás
L-re
{p∗ } = p-
vett I-vetülete és a
8.1.
163
ELMÉLETI HÁTTÉR
A bels® és küls® feltételekkel meghatározott feladatok részletesebb elemzése 1. Bels® feltételekkel meghatározott feladatok. empirikus eloszlása,
S1 , . . . , Sr
legyenek
q0
Legyen
pX
az
X
minta
a mintavétel el®tti ismereteinket jellemz® eloszlás, és
azok a statisztikák, amelyeknek mintabeli átlagait a már
vázolt modellalkotási feladathoz fel kívánjuk használni. Ekkor a modellalkotási feladat MDI-megoldásán a
q0 -nak
az
L = L(S, pX ) = {p : Sp = SpX }
(8.24)
p∗ I-vetületét értjük. A továbbiakban feltesszük, ∗ hogy T (q) = Ω. A 126 Tétel kiegészítése szerint a p I-vetület létezik és egyértelm¶. Struktúrális 0-nak nevezzük a (8.24) eloszláscsaládra nézve azokat az ω ∈ Ω elemeket, amlyekre minden p ∈ L eloszlásra p(ω) = 0. Feltesszük, hogy az X mintában nincsenek struktúrális 0-k. Ez a helyzet, ha minden ω ∈ Ω-ra ∗ az X(ω) ̸= 0. Ekkor a már említett kiegészítés szerint a p I-vetület az L ∩ E metszet egyetlen eleme, (éppen a struktúrális 0-k hiánya miatt nem kell E ∗ lezárását tekinteni), és p megegyezik a pX E -ra vonatkozó L-vetületével, azaz lineáris eloszláscsaládra vonatkozó
az ismeretlen eloszlás maximum-likelihood becslésével [l. (8.17)]. H az ∗
adat
p
X
kontingenciatáblában van struktúrális 0 akkor a modellalkotási fel-
megoldasa csak a clE -ben és
∑ q (ω) exp τωγ , 0 p∗ (ω) = γ∈Γ 0, Az MDI-megoldásként kapott eloszlás adekvát modelljének, ha a
ha
ω ∈ T (p∗ )
ha
ω ̸∈ T (p∗ ).
p∗ eloszlás akkor tekinthet® a pX empirikus D(pX ∥p∗ ) divergencia kicsi, ennek kvantitatív
mérésére az 121 Lemma nyújt lehet®séget. Ha az
X egy q ∈ D(Ω) eloszlásból vett N
elem¶ minta , akkor a (8.12) képlet
alapján:
2N D(pX ∥q) ∼
∑ (X(ω) − N q(ω))2 , N q(ω)
N → ∞.
ha
(8.25)
ω∈Ω Itt a
∼
jel azt jelenti, hogy a két oldal hányadosa sztochasztikusan tart 1-hez. |Ω| − 1 szabadságfokú χ2 eloszlású.
A jobb oldali tört aszimptotikusan
1. Küls® feltételekkel meghatározott feladatok.
Ezekben a feladatok-
ban az MDI-módszer akkor célszer¶, ha az ott szerepl®
L(S, p0 )
lineáris eloszláscsalád. Ha feltesszük, hoy az
X
F
eloszláscsalád egy
minta valamelyik (is-
p ∈ L eloszlásból származik, ennek az eloszlásnek az MDI-becslésén a ∗ empirikus eloszlás L-re vonatkozó p I-vetületét értjük, feltéve, hogy erre ∗ teljesül T (p ) = T (pX ). (Az I-vetület (8.13) deníciójából következik, hogy T (p∗ ) ⊆ T (pX ), azonban a valódi tartalmazás kizárható, mert ekkor az X minta ∗ biztosan nem származhatna a p eloszlásból.) meretlen)
pX
164FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
A 126 Tétel szerint a
p∗
MDI-becslés
pX
q ∈ E(S, pX ) L-
helyett bármely
re vonatkozó I-vetületeként is megkapható. Ez azt jelenti, hogy az adott MDIbecslési feladat eredménye nem változik, ha a
pX
empirikus eloszlást egy korábbi
MDI-becsléssel helyettesítjük, feltéve, hogy abban a becslésben alkalmazott az L′ családot deniáló S′ mátrix sorai benne vannak az S sorai által kifeszített altérben. (l. ??? Feladat). Az MDI-becslés most is felhasználható a
p ∈ L hipotézis tesztelésére, ugyanis p, akkor
a (8.25) formulához hasonlóan adódik, hogy ha a valódi eloszlás
2N Df (p∥pX ) ∼
∑ (X(ω) − N p(ω))2 , N p(ω)
ha
N → ∞.
(8.26)
ω∈Ω Itt a
Df
eltérést az
f (u) = − log u
választással kell számolni. A (8.26) képlettel |Tp |−1 szabadságfokú χ2 eloszlást követ. A
deniált statisztika aszimptotikusan
126 Tétel (8.20) képlétét alkalmazva a k'ek[varianciaanalíizis]b®l ismert szórásnégyzet felbontást is kaphatunk:
2N Df (p∥pX ) = 2N Df (p∥p∗ ) + 2N Df (p∗ ∥pX ), ahol az összeadandók aszimptotikusan függetlenek, az els® tag szabadságfoka
|Tp | − 1 − r,
míg a második tag szabadságfoka
r
azaz az
L
lineáris családot
deniáló mátrix nem konstans sorainak száma.
8.1.4.
Az I-vetület numerikus meghatározása
Ebben a pontban egyetlen módszert ismertetünk nevezetesen azt amelyik akkor alkalmazható, ha az
L lineáris család olyan L1 , . . . , Lr
lineáris családok metszete
amelyekre való egyes I-vetületek explicite meghatározhatók. Ez a helyzet, amikor az eloszláscsalád bizonyos
γ -marginálisok
el®írásával van megadva:
L = {p : pγ = pγ0 , γ ∈ Γ}.
128. Tétel.
L ∩ri=1 Li és legyen q0 tetsz®leges olyan eloszlás, amelyhez található a T (p) ⊆ T (q0 ) feltételt kielégít® p ∈ L. Értelmezzük a p∗1 , p∗2 , . . . eloszlásokat a következ® iterációval: p∗0 = q0 , és n = 1, 2, . . . esetén Legyenek
L1 , . . . , Lr
p∗n Ln = Li ha Ekkor q0 -nak
ahol
a
lineáris eloszláscsaládok,
p∗n−1 L-re
n = kr + i. L-re vonatkozó
vonatkozó I-vetülete,
I-vetülete:
p∗ = lim p∗n . n→∞
8.2.
Feladatok
1. Bizonyítsuk 120 Lemmát, azaz azt az állítást,
8.2.
165
FELADATOK
hogy ha az f-eltéréstt deniáló konvex, akkor
Df (p∥q) ≥ 0,
f (u)
függvény az
u=1
pontban szigorúan
és egyenl®ség csak akkor áll fenn, ha
p = q.
Tipp:
Alkalmazzuk a Jensen-egyenl®tlenséget az f (u) fügvényre, az X = p(ω) valószín¶ségi változóra és a q eloszlás szerinti várható értékre. Vegyük q(ω) észre, hogy ebben a szereposztásban
(
f (E[X]) = f
∑
ω∈Ω Ha így
f (u) az u = 1 E[f (X)] > 0.
p(ω) q(ω) · q(ω)
)
= f (1) = 0.
pontban szigorúan konvex, és
p ̸= q
akkor
f (p/q) > 0
Válasz: 2. Bizonyítsuk be a következ® állítást. Legyenek, A1 , . . . , Ar az Ω halmaz páronként diszjunkt részhamazai melyekre ∪ri=1 Ai = Ω. Ekkor tetsz®leges p és q eloszlásokra: ) ( r ∑ p(Ai ) Df (p∥q) ≥ . q(Ai )f q(Ai ) i=1 Az állítás szemléletes tartalma az, hogy a durvított eloszlások f-eltérése nem nagyobb, mint az eredeti eloszlásoké.
Tipp:
pA (ω) := Pp(ω) (A) ha ω ∈ A, pA (ω) := 0, módon a qA (ω) jelölést.
Vezessük be a
jelölést, és analóg
ha
ω ̸∈ A
A fenti jelölésekkel
r ∑
Df (p∥q) =
( q(ω)
ω∈Ai
qAi (ω)
) .
p(ω) q(ω) valószín¶ségi feltételes eloszlás szerinti várható értékkel.
Alkalmazzuk a Jensen-egyenl®tlenséget az változóra a
p(ω) q(ω)
f
fügvényre, a
Válasz: 3. Legyen
p(ω)
Ω
tetsz®leges véges halmaz. Keressük meg azt az
Ω-n
értelmezett
eloszlást amelyre a
H(p) = −
∑
p(ω) log p(ω)
ω∈Ω entrópia maximális. Mennyi a maximális érték?
Tipp:
Alkalmazzuk a a széls®érték-számítás Lagrange-multiplikátor mód-
szerét! (Aki nem ismeri ezt a módszert, oldja meg a feladatot az esetben.)
Válasz: p(ω) =
1 |Ω| ,
H = log |Ω|.
|Ω| = 2
166FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
4. Legyen
Ω = {0, 1, . . . , n}, r = 1, S1 (ω) = ω . Legyen továbbá p0 ∈ D(Ω) q0 pedig az (n, 12 ) paraméter¶ binomiális eloszlás.
tetsz®leges
L(S, p0 ) lineáris elosp = (p(0), p(1), . . . p(n)) eloszlások összessége, E0 értéke megegyezik p0 -éval, azaz
(a) Bizonyítsuk be, hogy a fenti jelölésekkel az zlászcsalád mindazon amelyek várható
n ∑
p(i)i =
i=0 az
n ∑
p0 (i)i,
i=0
E(S, q0 ) exponenciális eloszláscsalád az n, π paraméter¶ binomiális nπ = E0 .
eloszlások összessége, ahol
⊤ (b) Adjuk meg az exponenciális család q = q0 exp(S τ ) el®állításában ⊤ szerepl® τ = (τ0 , τ1 ) vektort a binomiális eloszlás π paraméterével.
Tipp:
Idézzük fel a k'ek[lineáris és exponenciális eloszláscsalád dení-
cióját]
Válasz: τ1 = log 5. Legyen
¯ S
π , 1−π
olyan mátrix, amely az
τ0 = n log(2 − 2π). S
mátrixból további sorok hozzáadásá-
val nyertünk. Jelölje az
¯ S
mátrix az eredeti
¯ p0 ) ˜ S, L(
és
¯ 0 ). ˜ Sq E(
zláscsaládokat
(Az
p0 , és q0 által deniált elos¯ 0 ) deníciójában szerepl® τ ˜ Sq E(
vektorok lehetséges halmaza is kib®vül.)
L ∩ clE ̸= ∅ és L˜ ∩ clE˜ ̸= ∅. p ∈ L˜ és q ∈ clE eloszlásra
Tegyük fel, hogy Ekkor minden
D(p∥q) = D(p∥p∗ ) + D(p∗ ∥q) D(p∥p∗ ) = D(p∥˜ p∗ ) + D(˜ p∗ ∥p∗ ), ahol
p∗ ∈ L ∩ clE
Tipp:
és
(8.27)
˜ p˜∗ ∈ L˜ ∩ clE.
Idézzük fel a lineáris és exponenciális eloszláscsalád denícióját és
az információs geometria Pitagorasz-tételét. A különböz® eloszláscsaládok viszonyait, és az ebben elhelyezked® eloszlásokat az alábbi ábra szemlélteti.
Válasz: 8.3.
Tesztek
1. Az alábbi
f
fügvények közül jelöljük meg azokat amelyekhez tartozó f-
eltérés távolság. (a) (b)
f (u) = (u − 1)2 √ f (u) = (1 − u)
8.3.
167
TESZTEK
p
~ L
L
E
p*
~ E
q
~ p*
8.3. ábra. Eloszláscsaládok
(c)
f (u) = |u − 1|
(d)
f (u) = u − log u
Válasz: c 2. Az
X
és
Y
véletlen változók 4-4 értéket vehetnek fel,
együttes eloszlásukat az alábbi mátrix tartalmazza.
2 3 2 3 2 3 2 3
4 5 4 5 4 5 4 5
Az alábbi sorok melyikében állnak az
X
illetve az
Y
tozóhoz tartozó marginális eloszlás valószín¶ségei? (a) (1,
2,
3,
4)
(b) (1,
2,
3,
4)
(c) (1,
2,
3,
4)
(d) (1,
2,
3,
4)
Válasz: válasz: itt a számoktól függ, 3. Az alábbi állítások közül melyik igaz Jerey-szabályra? (a) A Jerey-szabállyal csak I-vetületet számolunk. (b) A Jerey-szabállyal csak L-vetületet számolunk. (c) A Jerey-szabállyal I- és L-vetületet számolunk. (d) A Jerey-szabállyal nem vetületet számolunk.
Válasz: c
valószín¶ségi vál-
168FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP
4. Az alábbi állítások közül melyik igaz Jerey-szabályra? (a) A Jerey-szabály a lineáris eloszláscsaládra érvényes. (b) A Jerey-szabály az exponenciális eloszláscsaládra érvényes. (c) A Jerey-szabály eredménye függ az eltérést deniáló függvényt®l. (d) A fentiek közül egyik sem igaz.
Válasz: d 5. A lineáris (exponenciális) eloszláscsaládot egy
S (r +1)×|Ω| típusú mátrix
deniálja. Az alábbi állítások közül melyek igazak? (a) Ha az
S mátrixot további sorokkal b®vítjük, az általa deniált lineáris
eloszláscsalád b®vül, valamint az általa deniált exponenciális eloszláscsalád b®vül. (b) Ha az
S mátrixot további sorokkal b®vítjük, az általa deniált lineáris
eloszláscsalád sz¶kül, valamint az általa deniált exponenciális eloszláscsalád b®vül. (c) Ha az
S mátrixot további sorokkal b®vítjük, az általa deniált lineáris
eloszláscsalád b®vül, valamint az általa deniált exponenciális eloszláscsalád sz¶kül. (d) Ha az
S mátrixot további sorokkal b®vítjük, az általa deniált lineáris
eloszláscsalád sz¶kül, valamint az általa deniált exponenciális eloszláscsalád sz¶kül.
Válasz: b
9. fejezet
Klaszteranalízis, többdimenziós skálázás
9.1.
9.1.1.
Elméleti háttér
Klaszteranalízis
A diszkriminanciaanalízist®l eltér®en itt nem adott osztályokkal dolgozunk, hanem magukat az osztályokat (klasztereket) keressük, azaz objektumokat szeretnénk osztályozni a rajtuk végrehajtott többdimenziós meggyelések alapján (ugyanez megtehet® a változókkal is az objektumok alapján). A minimalizálandó veszteségfüggvény, aminek segítségével az osztályozást végrehajtjuk egyel®re csak vázlatosan a következ®. Az
p-dimenziós
mintatér pontjainak tekinthet®
(p < n),
n
db objektum a
és euklideszi metrikában
dolgozunk. Tekintsük minden egyes osztályra az adott osztálybeli objektumok súlypontját, és vegyük az objektumok négyzetes eltérését (távolság-négyzetét) a súlyponttól. Az így kapott mennyiségeket utána összegezzük az osztályokra és keressük azt az osztályszámot, hozzá pedig az osztályokat, melyekre ez a veszteség minimális. Arra vonatkozóan, hogy hogyan alakult ki ez a veszteségfüggvény, röviden utalunk a varianciaanalízisre, ahol a
T =W +B szórásnégyzet-felbontás alapvet®. A minta teljes (Total) varianciáját a csoportokon belüli (Within) és a csoportok közötti (Between) varianciákra bontjuk fel. Az objektumok minden egyes partíciójához létezik ilyen felbontás, és a klaszterezés (osztálybasorolás) annál homogénebb, minél kisebb
W W = B T −W 169
W
a
B -hez
képest, azaz a
170
FEJEZET 9.
KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS
kifejezést szeretnénk minimalizálni, ami (T x lévén)
W
minimalizálásával ek-
vivalens. Legyenek
C1 , . . . , Ck
a klaszterek (ezek a mintateret alkotó objektumok partí-
cióját jelentik diszjunkt, nem-üres részhalmazokra). A
sj =
j.
klaszter súlypontja
1 ∑ xi . |Cj | xi ∈Cj
A
Cj -beliek
négyzetes eltéréseinek összege
Wj =
∑
∥xi − sj ∥2 =
xi ∈Cj
sj -t®l:
1 ∑ i ,xi′ ∈Cj ∥xi − xi′ ∥2 . i
(Az utolsó egyenl®ség egyszer¶ geometriai meggondolásból adódik, így még a súlypont kiszámolása sem szükséges.) Megjegyezzük, hogy a fenti euklideszi távolságok az eredeti adatok ortogonális transzformációira invariánsak, a célfüggvény csak a pontok kölcsönös helyzetét®l függ. Ezekután keresend® a
W =
k ∑
Wj → min.
j=1 veszteség-minimum, amelynek zikai jelentése a
k
db. súlypontra vonatkozó
tehetetlenségi (inercia) nyomatékok összege. Itt az euklideszi távolságnégyzetek helyett más metrikával is dolgozhatunk, pl. vehetjük az
f (∥xi ∥)
függvényeket, ahol
f
folytonos, monoton növ®
A minimalizálás természetesen az összes lehetséges
k -ra (1 ≤ k ≤ n),
és
emelett az összes lehetséges klaszterbesorolásra vonatkozik. Ismert tény, hogy az összes partíciók száma az ún. Bell-szám:
n { } ∑ n ω(n) = , k k=1
k -val jelölt ún. másodfajú Stirling-féle szám egy n-elem¶ halmaz nem-üres, diszjunkt részhalmazra való összes lehetséges partícióinak számát
ahol az
k
{n}
jelöli
(k = 1, . . . , n).
Ezek
k
és
n
függvényében meghatározhatók az
{ } ( ) k−1 n 1 ∑ k = (−1)r (k − r)n k k! r=0 r egzakt formulával A
W
(n = 1, 2, . . . ; k = 1, 2, . . . , n).
veszteségfüggvény kiértékelése a kombinatorikusan lehetséges véges
számú esetre elvileg keresztülvihet®, a gyakorlatban azonban nagyon id®igényes { n } lenne, ui. be lehet látni (l. [20]), hogy n−k az n-nek 2k -fokú polinomja (8 ob{8} jektum, 4 klaszter esetén is = 1701 lehet®séget kellene végigszámolnunk). 4 Nézzünk helyette inkább egy jól bevált algoritmust:
9.1.
171
ELMÉLETI HÁTTÉR
k-közép (MacQueen) módszer: a minimalizálandó veszteségfüggvény
W =
k ∑ ∑
∥xi − sj ∥2 .
j=1 xi ∈Cj Itt
k
adott (geometriai vagy el®zetes meggondolásokból adódik), és induljunk (0) (0) C1 , . . . , Ck klaszterbesorolásból (pl. kiszemelünk k távoli objektumot, és mindegyikhez a hozzájuk közelieket soroljuk, egyel®re csak durva ki egy kezdeti
m = 1, 2, . . . . (m − 1)-edik lépésben az objektomoknak már létezik egy (m−1) (m−1) sorolása: C1 , . . . , Ck , a klaszterek súlypontját pedig jelölje
megközelítésben). Egy iterációt hajtunk végre, a lépéseket jelölje Tegyük fel, hogy az
k klaszterbe (m−1) (m−1) s1 , . . . , sk (a 0. lépésbeli besorolásnak a kezd® klaszterezés felel meg). Az m-edik lépésben átsoroljuk az objektumokat a klaszterek között a következ®képpen: egy objektumot abba a klaszterbe sorolunk, melynek súlypontjához a legközelebb van. Pl.
xi -t
az l . klaszterbe rakjuk, ha
(m−1)
∥xi − sl
∥=
min j∈{1,...,k}
(m−1)
∥xi − sj
∥
(ha a minimum több klaszterre is eléretik, akkor a legkisebb index¶ ilyenbe (m) soroljuk be), azaz xi ∈ Cl lesz. Kétféle módon is el lehet végezni az objektumok átsorolását: vagy az összes objektumot átsoroljuk az (m − 1)-edik lépésben kialakult klaszter-súlypontokkal számolva, majd a régi súlypontok körül kialakult új klasztereknek módosítjuk a súlypontját, vagy pedig az objektumokat
x1 , . . . , xn
szerint sorravéve, mihelyt egy objektum átkerül egy új klaszterbe,
módosítjuk annak súlypontját. Így a végén nem kell már újra súlypontokat számolnunk, és az iterációszám is csökkenhet, ui. célratör®bb (mohó) az algorit(m) (m) , . . . , Ck klaszterezásmus. Miután az összes objektumot átsoroltuk, az új C1 (m) (m) b®l és az új s1 , . . . , sk súlypontokból kiindulva ismét teszünk egy lépést. Meddig? Választhatunk többféle leállási kritériumot is, pl. azt, hogy az objektumok már stabilizálódnak a klaszterekben, és a klaszterek nem változnak az iteráció során. Az eljárást animáció szemlélteti. Az
agglomeratív ill. divizív módszerek a klaszterszámot fokozatosan csökken-
tik ill. növelik. Ezek közül is az ún. hierarchikus eljárások terjedtek el, ahol úgy csökkentjük ill. növeljük a klaszterszámot, hogy minden lépésben bizonyos klasztereket összevonunk ill. szétvágunk. Például nézzünk egy agglomeratív, hi(0) erarchikus eljárást. A kezdeti klaszterszám k = n, tehát kezdetben minden objektum egy külön klasztert alkot. Az iteráció a következ®: tegyük fel, hogy (m) az m. lépésben már csak k db. klaszterünk van. Számítsuk ki a klaszter(m) középpontokat (súlypontokat). Ezek euklideszi távolságai egy k × k (m) -es, szimmetrikus ún. távolság-mátrixot alkotnak (f®diagonálisa 0). Azokat a klasztereket, melyek távolsága egy adott korlátnál kisebb, egy klaszterbe vonjuk össze, ilyen módon egy lépésben persze kett®nél több klaszter is összevonódhat. Végül, legfeljebb
n
lépésben már minden összeolvad, és csak egy klaszterünk lesz.
A mellékelt ún. dendrogram (l. 9.1 ábra) egy agglomeratív eljárást szemléltet (5 objektummal). Az eljárás megtekinthet® animáción is. Nem szükséges persze
172
FEJEZET 9.
KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS
9.1. ábra. dendrogram
végigcsinálni az összes lépést. Agglomeratív eljárások esetén a
W
veszteségfüg-
gvény általában monoton n®, azt kell meggyelni, hol ugrik meg drasztikusan. Ha végigcsináljuk az összes lépést, a dendrogramot szemlélve próbálunk meg egy ésszer¶ klaszterszámot találni (a mellékelt példában lehetne ez 2). Ilyen agglomeratív, hierarchikus eljárás a legközelebbi szomszéd módszer is, amely akkor is összevon két klasztert, ha létezik közöttük egy lánc, amelyben az egymás utáni elemek már közelebb vannak egymáshoz egy adott korlátnál. Ezt az algoritmust Kruskal dolgozta ki (l. [18]).
9.1.2.
Többdimenziós skálázás
Tegyük fel, hogy (n és
p
n
db. objektum mindegyikén végeztünk
p
számú meggyelást
viszonya most tetsz®leges). Célunk az objektumok vagy/és változók
megjelenítése valamely (lehet®leg alacsony dimenziós) euklideszi tér pontjaiként.
n×p-es adatmátrix formájában vannak megadva, p-, oszlopai pedig a váln-dimenziós pontoknak. A probléma az, hogy n és p ál-
Amenynyiben meggyeléseink egy
ennek sorai tekinthet®k az objektumokat reprezentáló tozókat reprezentáló
talában nagy, mi pedig inkább 1-,2-, esetleg 3-dimenziós ábrákon szeretnénk tájékozódni. El®fordulhat az is, hogy nincsen szabályos adatmátrixunk, hanem csak az objektumok vagy/és változók közti ún. hasonlósági vagy különböz®ségi mér®számok adottak, és csupán ezek alapján szeretnénk reprezentálni adatainkat. A következ®kben az objektumok alacsony dimenziós reprezentálásával (skálázásával) fogunk foglalkozni. A leírtak értelemszer¶en alkalmazhatók a változókra is. A precíz tárgyaláshoz bevezetünk néhány deníciót és jelölést.
9.2.
129. Deníció. dii = 0,
(i) (ii)
173
FELADATOK
A
130. Deníció. p
mátrixot távolság-mátrix nak nevezzük, ha
i = 1, . . . , n;
dij = dji ≥ 0,
valamely
D = (dij )ni,j=1
1 ≤ i < j ≤ n; dik ≤ dij + djk ,
Az
n × n-es D
távolságmátrixot euklideszi nek nevezzük, ha x1 , . . . , xn ∈ Rp vektorok, hogy
pozitív egész mellett vannak olyan
dij = ∥xi − xj ∥ Legyen
i, j, k ∈ {1, . . . , n}.
Hn := In − n1 1n 1Tn
(i, j = 1, . . . n).
az ún. centráló mátrix. Miután
n-et rögzítettük, a H
mátrix alsó indexét elhagyjuk. A következ® tétel szükséges és elégséges feltételt ad arra, hogy egy távolságmátrix euklideszi legyen.
131. Tétel.
Az
n × n-es
mxD
távolság-mátrix akkor és csak akkor euklideszi, ha a 1 2 pozitív szemidenit, ahol az A mátrix elemei: aij = − 2 dij .
B := HAH
mátrix
A Tételt nem bizonyítjuk, de megmutatjuk, hogy ha a B mátrix pozitív Rp euklideszi térben a top pontoknak megfelel® vektorokat. Mivel B Gram-mátrix el®áll B = XX alak⊤ ⊤ ban, ahol X egy n × p ,átrix, melynek sorai az x1 , . . . , xn vektorok. Ekkor igaz a dij = ∥xi − xj ∥ összefüggés. szemidenit, akkor hogyan találjuk meg egy alkalmas
D távolságmátrix euklideszi. Ha B mátrix indenit. Tegyük fel, hogy az n×n-es B-nek p darab pozitív sajátértéke van (λ1 (B) ≥ · · · ≥ λp (B)) és ⊤ a B = UΛU spektrálfelbontásbeli Λ-ban a sajátértékek nem-növekv® sorrendÁltalában semmi garancia nincs arra, hogy a
D
nem euklideszi, akkor 131 Tételben szerepl®
ben vannak rendezve. Az 153 Tétel (Weyl perturbációs tétel) szerint tetsz®leges
Bp
szimmetrikus mátrixra
max |λj (B) − λj (Bp )| ≤ ∥B − Bp ∥. j
A fenti egyenl®tlenség bal oldalának minimuma a p rangú, pozitív szemidenit Bp mátrixok körében a B mátrix legnagyobb abszolút érték¶ negatív sajátértéke. b p -b®l b p = ∑p λi (B)ui uT mátrixon ez a minimum eléretik. Ily módon B A B i i=1 b a fenti módon konstruált D távolságmátrixot a D mátrix euklideszi távolságmátrixszal való optimális közelítésének tekinthetjük.
9.2.
Feladatok
9.3.
Tesztek
174
FEJEZET 9.
KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS
Miskolc
Nyíregyháza
Eger
Gyõr Debrecen
Bp Szfv Szombathely
szolnok
Kecskemét
Szeged Pécs
9.2. ábra. Városok eredeti pozíciójukban
Gyõr Miskolc
Szombathely Eger Bp
Nyíregyháza
Szfv
Debrecen Szolnok Kecskemét
Pécs
Szeged
9.3. ábra. Városok közelítése légvonalbeli távolságmátrix alapján
9.3.
175
TESZTEK
Szombathely Gyõr
Nyíregyháza Miskolc
Szfv
Eger Bp
Debrecen
Szolnok
Kecskemét Pécs
Szeged
9.4. ábra. Városok közelítése közúton mért távolságmátrix alapján
Miskolc
Gyõr Szombathely Nyíregyháza Szfv
Bp
Debrecen
Eger
Szolnok Kecskemét
Pécs Szeged
9.5. ábra. Városok közelítése Manhattan távolságmátrix alapján
176
FEJEZET 9.
KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS
9.6. ábra. Eredeti és légvonalban mért távolságmátrix alapján kapott térkép
9.7. ábra. Eredeti és közúton mért távolságmátrix alapján kapott térkép
9.3.
TESZTEK
9.8. ábra. Eredeti és Manhattan távolságmátrix alapján kapott térkép
177
178
FEJEZET 9.
KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS
10. fejezet
Többváltozós küszöbmodellek, logit, probit
10.1.
Elméleti háttér
10.2.
Feladatok
10.3.
Tesztek
179
180FEJEZET 10. TÖBBVÁLTOZÓS KÜSZÖBMODELLEK, LOGIT, PROBIT
11. fejezet
Randomizált módszerek nagyméret¶ problémákra
11.1.
Elméleti háttér
A töbváltozós statisztikai módszerek jelent®s része (faktor-, klaszter és korrespondenciaanalízis) valamely mátrix spektrális vagy szinguláris felbontásán alapul, s mivel a statisztika egyik célja nagy adattömeg leírása minél kevesebb adattal ezen módszerekben csak néhány kiugró saját- vagy szinguláris értéket és a hozzájuk tartozó sajátvektorokat, illetve sajátvektor párokat kell meghatároznunk. A napjainkban egyre elterjedtebb ún. adatbányászatnak is a szinguláris érték felbontás az alapja. Itt mátrixok mérete
(m × n)
milliószor milliós lehet,
ugyanakkor a hagyományos szinguláris érték felbontási algoritmusok számításigénye O(min mn2 , m2 n). Több kezdeti kísérlet után Frieze, A., Kannan, R., és Vempala, S. [13] javasoltak véletlen kiválasztáson alapuló hatékony módszert egy nagyméret¶ A ∗ mátrix k -nál kisebb rangú D mátrixszal való közelítésére. Az általuk alkalmazott véletlen kiválasztásnál a sorok kiválasztásának valószín¶sége arányos a
sor euklideszi norma négyzete /
A
hyperref[?]Frobenius-norma négyzete menny-
iséggel, a soron belül az elemek kiválasztásának valószín¶sége (feltéve, hogy az adott sort kiválasztottuk) arányos az adott elem négyzete /
A
Frobenius-norma
négyzete mennyiséggel. Alaptételük a következ®t állítja.
132. Tétel.
Legyen
A
egy
m×n
mátrix, legyen rögzítve
k ∈ Z+ ε > 0 és δ > 0. k -rangú D∗
Ekkor van olyan véletlenített algoritmus, amely leírja azt a legfeljebb mátrixot amelyre lagalább
1−δ
∥A − D∗ ∥2F ≤
valószín¶séggel teljesül a
min
D,rkD≤k
∥A − D∥2F + ε∥A∥2F .
1 1 ε -ban és log δ -ban polinomidej¶, m-t®l és n-t®l független. ∗ Az igy kapott leírás alapján D explicit módon kiszámítható O(kmn) lépésben.
Az algoritmus csak
k -ban,
181
182FEJEZET 11. RANDOMIZÁLT MÓDSZEREK NAGYMÉRET PROBLÉMÁKRA
A következ® tétel Achlioptas-tól és McSherryt®l származik [1]. Miel®tt ki-
m × n-es A
mondanánk bevezetjük egy
mátrixszal azonos méret¶ mátrixban
meglev® minimális lineáris struktúrát mér® és legyen
−b-vel
Q
egy olyan
m × n-es Q
Ψ mennyiséget. Legyen b = maxi,j |aij | b-vel vagy
mátrixok halmaza, amelyek elemei
egyenl®k.
Ψ(A) = min ∥Q∥ Q∈Q
133. Tétel.
Legyen
szám. Legyen továbbá és tetsz®leges
i, j
A tetsz®leges m × n-es mátrix és s > 1 tetsz®leges valós ˆ olyan m×n-es véletlen mátrix, melynek elemi függetlenek A
indexpárra
{ 0, a ˆij = saij ,
1−
1 s valószín¶séggel
1 s valószín¶séggel.
(A függetlenség visszatevéses mintavétellel mindig elérhet®) Ha még
s≤
m+n log6 (m + n) 116
is teljesül, akkor
( ) √ ˆ k ∥ ≤ ∥A − Ak ∥ + 7 sΨ(A) ≥ 1 − P ∥A − A ahol Ak , illetve mátrixot.
ˆk A
jelóli az
A,
illetve
ˆ A
1 , m+n
mátrixot legjobban közelít®
A tétel bizonyítása azon alapszik, hogy az
ˆ A−A
k -rangú
mátrix alkalmas elren-
dezéssel Wigner-típusú mátrixszá alakítható. A Wigner-mátrixok maximális sajátértéke eloszlásának fels® farkára jó becslések ismertek.
11.2.
Feladatok
11.3.
Tesztek
12. fejezet
Algoritmikus modellek
12.1.
Elméleti háttér
12.1.1.
ACE-algoritmus (általánosított regresszióra)
A Breiman és Friedman ([[7]]) által kifejlesztett algoritmus az alábbiakban vázolt általános regressziós feladat numerikus megoldására szolgál igen tág keretek között (kategorikus adatokra, id®sorokra ugyanúgy alkalmazható, mint olyan többváltozós adatokra, ahol a változók egy része abszolút folytonos, más része diszkrét). Az
Y
függ® és az
X1 , . . . , Xp független változóknak keresend®k olyan Ψ, Φ1 , . . . , Φp
mérhet®, nem-konstans valós érték¶ függvényei (szkórjai), amelyekkel
e2 (Ψ, Φ1 , . . . , Φp ) = E Ψ(Y ) −
p ∑
2 Φj (Xj ) /D2 (Ψ(Y ))
(12.1)
j=1
{(yk , xk1 , . . . , xkp : k = 1, . . . , n)} adatrendszer alapján. D2 (Ψ(Y )) = 1 feltétel mellett. Lineáris transzformációkkal elérhet®, hogy E(Ψ(Y )) = E(Φ1 (X1 )) = · · · = E(Φp (Xp )) = 0 és D2 (Ψ(Y )) = 1 legyen. Amennyiben a változók együttes (p + 1)-dimenziós eloszlása ismert, az algo(0) (0) (0) ritmus a következ®. Legyenek Ψ (Y ), Φ1 (X1 ), . . . , Φp (Xp ) a feltételeknek eleget tev® kezdeti függvények. Az iteráció (m + 1)-edik lépése a következ® minimális adott
Valójában feltételes minimumot keresünk a
(mindig csak egyik függvényt változtatjuk).
1. Rögzített
(m)
(m)
Φ1 (X1 ), . . . , Φp (Xp ) (m+1)
Ψ
esetén
∑p (m) E( j=1 Φj (Xj ) | Y ) (Y ) := . ∑p (m) D( j=1 Φj (Xj ) | Y ) 183
184
FEJEZET 12.
2. Rögzített
(m+1)
Ψ(m+1) , Φ1
esetén
(m+1)
Φi
ALGORITMIKUS MODELLEK
(m+1)
(X1 ), . . . , Φi−1
(Xi ) := E [Ψ(m+1) (Y ) −
i−1 ∑
(m)
(m)
(Xi−1 ), Φi+1 (Xi+1 ), . . . , Φp (Xp )
(m+1)
Φj
p ∑
(Xj ) −
(m)
Φj
(Xj )] | Xi
j=i+1
j=1
i = 1, . . . , p . Az iterációt akkor hagyjuk abba, ha a (12.1)-beli célfüggvény értéke már keveset változik. Az algoritmust részletesebben leírjuk abban az esetben, amikor a valószín¶ségi változók ismeretlen folytonos eloszlásúak, és a feltételes várható érték vételt a simítás helyettesíti. Nyilván világos az algoritmus elnevezése: ACE=Alternating Conditional Expectation (alternáló feltételes várható érték). Ha az együttes eloszlást nem ismerjük, az
n
mintaelemet tartalmazó ada-
trendszer alapján minimalizálandó célfüggvényt akkor is felírhatjuk
2 p n ∑ ∑ 1 Ψ(yk ) − Φj (xkj ) n j=1 k=1
alakban, melyet azzal a kényszerfeltétellel minimalizálunk, hogy
Ψ(Y ) empirikus
szórásnégyzete 1. Az iterációs lépések a fentiek azzal a különbséggel, hogy a feltételes várható értéket is a minta alapján képezzük. Például 2 változó esetén (p
= 1)
ennek becslése a következ®:
ˆ E(Φ(X)|Y = y) =
∑
Φ(xk )/
k : xk =x vagyis átlagoljuk az azonos
Y
Y
∑
1,
k : yk =y
értéket felvev® mintaelemekhez rendelt
összes meggyelt értékére. Pl. ha
Y
a szemszín és
Φ(X)
Φ(xk )-kat
a hajszín szkórja,
akkor átlagoljuk az azonos szemszín¶ek hajszín-szkórjait, majd átlagoljuk az azonos hajszín¶ek az
Ψ(y)
szemszín-szkórjait, és normálunk. Az algoritmus
lényege éppen abban áll, hogy ezt felváltva hajtjuk végre, miközben a másik változót rögzítjük. A fenti algoritmus ismeretlen mintaeloszlások esetén csak akkor m¶ködik, ha a tapasztalati feltételes várható értékek kiszámíthatók, azaz a minta együttes eloszlása diszkrét. Breiman és Friedman a minták simításának módszerét ajánlották folytonos valószín¶ségi változók esetére. A jelölésekben melyek kissé eltérnek a szokásostól az idézett dolgozatot követjük. p Jelölje X az adathalmazt (mintát), azaz az R euklideszi tér álló
{x1 , . . . xN },
azaz
x1 1 x2 1 .. . xN 1
... ... ...
x1 p x2 p . . . xN p
N
pontjából
12.1.
185
ELMÉLETI HÁTTÉR
X-re legyen F (X) az összes X-en értelmezett valósérték¶ Φ fügvények tere, azaz egy Φ ∈ F (X) függvényt N valós szám ({Φ(x1 ), . . . , Φ(xN })) deniál. Legyen továbbá F (xj ) (j = 1, . . . , p) az összes {x1 j , . . . , xN j } halmazon
adatmátrixot. Rögzített
értelmezett valósérték¶ függvények tere.
134. Deníció.
S : F (X) 7→ F (xj ) Sj függvényt az Φ ∈ F (X), jelöljük az F (xj ) térben Sj képét Sj (Φ|xj )-vel, a függvény értékét a k -adik adaton pedig Sj (Φ|xk j )-vel
X
minta
xj
Az
X
mintára értelmezett
szerinti simításának nevezzük. Ha
Feltesszük, hogy az alábbi tulajdonságok teljesülnek. (i) Linearitás: minden
Φ1 , Φ2 ∈ F (X),
valamint minden valós
α
és
β
számra
S(αΦ1 + βΦ2 ) = αSΦ1 + βSΦ2 . (ii) Konstans meg®rzés: ha (iii) Korlátosság: Az
S
Φ∈D
azonosan konstans (Φ
simítás korlátja
M,
ha minden
≡ c),
akkor
SΦ = Φ.
Φ ∈ F (X)-re
∥SΦ∥N ≤ M ∥Φ∥N , ahol
∥ · ∥N
az
Np
dimenziós euklideszi norma. (Egy
X
minta
N
darab
p
dimenziós vektorból áll!)
Példák. N 2 természetes számot. Rendezzük a mintát a j -edik koordinatája szerint. Az itt alkalmazott
1. Legközelebbi szomszéd módszer: Rögzitsünk egy jelölésekben ez azt jelenti, hogy
M<
x1 j < x2 j < · · · < xN j ;
feltesszük, hogy
nincsenek egyenl® elemek. Legyen
S(Φ|xk j ) =
1 2M
N ∑
Φ(xk+m ).
m=−M, m̸=0
Ha valamelyik oldalon (pl. a végén) már nincs
M
pont, egészítsük ki az
összegzést a másik oldalról (pl. az elejér®l) vett pontokkal. 2. Magfüggvény módszer: Legyen
K(x)
olyan valós nemnegatív érték¶ függ-
vény, amely maximumát a 0 pontban veszi fel. Legyen
∑N S(Φ|xk j ) =
Vegyük észre, hogy ha a a
Φ(x)
m=1 Φ(xm )K(xm j − xk,j ) ∑N m=1 K(xm j − xk,j )
j -edik változó szerint simítunk, akkor lényegében j -edik változó mentén, ez felel meg a megfelel®
függvényt átlagoljuk a
feltételes várható érték vételnek. Most egy kett®s ciklussal deniáljuk a BreimanFriedman numerikus algo-
θ-t, bels® ciklusában Φj -ket j = 1, . . . , p n-edik lépése után e szerz®k két lehet®séget javasol-
ritmust. Az algoritmus k¶ls® ciklusában változtatjuk. A küls® ciklus nak:
186
FEJEZET 12.
(a) Megtartjuk a bels® ciklusban kapott (b) Kinullázzuk a korábbi
Φ
ALGORITMIKUS MODELLEK
Φ-k
értékeit (restart),
értékeket (friss start).
Kett®s ciklus. 0. Inicializálás:
(0)
θ(0) (yk ) = yk 1. Küls® ciklus (n
= 1, 2, . . . -re):
Φj (yk j ) = 0.
legyen
∑p ∑p θ(n) = Sy ( j Φj )/∥Sy ( j Φj )∥N . (0)
j -re Φj
Térjünk vissza a bels® ciklushoz minden
(0) minden j -re Φj
= 0-val
m-et
Futtasuk a legbels® ciklust
m
x):
(m+1)
n-edik
szintjén
θ(n) -nel
és
növelve.
j = 1, 2, . . . , p.
Φj
(restart) vagy
(friss start).
2. Bels® ciklus (m = 0, 2, . . . -re): a küls® ciklus (0) Φj -vel (j = 1, . . . , p) kezdünk.
3. Legbels® ciklus (j -re,
= Φj -vel
= Sj θ(n) −
∑
Legyen
(m+1)
Φi
−
i<j
∑
(m)
Φi
(12.2)
i>j
3' Legbels® ciklus vége. 2' A bels® ciklus megáll ha
∑p
1' A küls® ciklus megáll, ha
j=1
(m+1)
∥Φj
∥θ(n) −
(m)
−Φj
∑p j=1
∥ m növelésével alig változik.
Φj ∥ n
növelésével alig változik.
Kett®s ciklus vége. 135. Megjegyzés.
Vegyük észre, hogy
1. A bels® ciklusban, amikor a j -edik változó szerint simítunk, ( a (12.2) ∑ (m+1) (m) formula) akkor θ − i<j Φi -nek a j -edik változó szerinti feltételes várható értékét vesszük. 2. A küls® ciklusban az
y változó szerint simítunk, ezt formálisan nem deniálX mintába, p + 1-edik változóként.
tuk, de belevehettük volna az
A fenti algoritmus konvergenciáját A Breiman és Friedman ([7]) speciális, nehezen ellen®rizhet® feltételek mellett igazolták. A gyakorlat azt mutatja, hogy a módszer a feladatok széles körére jól alkalmazható.
12.1.
187
ELMÉLETI HÁTTÉR
12.1.2.
Jackknife eljárás
Az M. H. Quenouille [28] által 1954-ben által javasolt, a becslés torzítását csökkent® módszernek J. W. Tukey [32] adta a jackknife (zsebkés) elnevezést. Az elnevezés azt fejezi ki, hogy maga az eljárás els®sorban kis minták esetén számos más célra is alkalmazható, mert a normális eloszlásra kidolgozott módszereket jól imitálja olyan esetekben is, amikor a normalitás sérül. A jackknife azonban nem mindenre jó gyógyszer, egy egyszer¶ ellenpéldán megmutatjuk korlátjait. A jackknife az adatok jól megválasztott csoportosításán alapszik, a csoportok kombinációi alapján becsléseket konstruálunk, amelyek átlaga lesz a jackknife becslés. Itt csak az egyelem¶ csoportokat használó eljárást ismertetjük. A jackknife módszer alábbi vázlatos ismertetésében Rupert Miller [23] és [24] dolgozataira támaszkodunk.
X = (X1 , . . . , Xn ) független azonos eloszlású minta egy Pθ eloszlásˆ θ ∈ Θ ismeretlen paraméter. Jelölje θˆ := θ(X) a θ paraméter valamilyen
Legyen ból, ahol
becslését a teljes minta alapján; a továbbiakban a becslések argumentumába nem írjuk be a mintaelemeket. Jelölje
θˆ−i (i = 1, . . . , n)
azt a becslést, amelyet
az i-edik mintaelem elhagyásával kapunk. Képezzük az ún. pszeudoértékeket (az elnevezés Tukey-t®l származik):
θei := nθˆ − (n − 1)θˆ−i
136. Deníció.
A
θ
paraméter jackknife becslése a
(12.3)
θei
pszeudoértékek átlaga:
1 ∑e θi = nθˆ − (n − 1)θˆ−• , θe• = n i=1 n
ahol
θˆ−• =
1 n
∑n
137. Állítás.
(12.4)
ˆ
i=1 θ−i .
1 A jacknife becslés pontosan eliminálja a torzítás n rend¶ tagját.
Mivel ez az állítás éppen a jackknife-becslés alapvet® tulajdonságát jellemzi (tulajdonképpen ezt a célt valósítja meg az eljárás) közöljük a rövid és tanulságos bizonyítást.
ˆ = θ + a + b2 + . . . , akkor Bizonyítás Ha E(θ) n n a b a b b E(θe• ) = n(θ+ + 2 +. . . )−(n−1)(θ+ + +· · · = θ− +. . . ) 2 n n n − 1 (n − 1) n(n − 1) QED
ei pszeudoértékek közelít®leg függetlenek; ha ez a feltevés Tukey szerint a θ 2 e igaz, akkor D (θ• ) becslése az ∑ 1 (θei − θe• )2 n(n − 1) i=1 n
(12.5)
188
FEJEZET 12.
ALGORITMIKUS MODELLEK
statisztika lehet, és a
[ t = (θe• − θ)
∑ 1 (θei − θe• )2 n(n − 1) i=1 n
t(n − 1)
statisztika közelít®leg
]−1/2 (12.6)
eloszlású, így alkalmas hipotézisvizsgálatra és
kondenciaintervallum szerkesztésre. Ezt illusztráljuk a következ® példán. Legyen
X1 , . . . , X n
független, azonos
F ((x − µ)/σ)
eloszlású minta, ahol
F
ismeretlen eloszlásfüggvény µ és σ ismeretlen lokációs és skálaparaméterekkel 2 2 (µ = E(X1 ), σ = D (X1 )). Tegyük fel, hogy F -nek létezik a negyedik momen2 tuma. A σ paraméter torzítatlan becslése
1 ∑ ¯ 2. (Xi − X) n − 1 i=1 n
Sn∗ 2 =
Alkalmazzuk a jackknife eljárást!
θei =Sn∗ 2 + θe• =Sn∗ 2 n ∑
(θei − θe• )2 =
i=1
n ∑
n ¯ 2 − n−1 · ¯ 2 , (Xi − X) (Xj − X) n−2 j=1
és
2
(12.7)
n n ∑ ∑ n2 ¯ 2 − n−1 ¯ 2 . (Xi − X) (Xj − X) (n − 2)2 i=1 j=1
Ahogyan az (12.5) becslés alapján megkonstruáltuk az (5.4) statisztikát, az 2 e• jackknife becslésére (ami itt azonos a (12.7) statisztikák alapján σ paraméter θ ∗2 hagyományos Sn torzítatlan becsléssel!) közelít® t-statisztikát konstruálhatunk:
[
∑ 1 t = (θe• − σ 2 ) (θei − θe• )2 n(n − 1) i=1 n
]−1/2 .
Egy kissé mesterkélt ellenpéldán megmutatható, hogy az (12.6) statisztika eloszlása er®sen eltérhet az
n−1
szabadsági fokú Student-eloszlástól. A példát
nem ismertetjük.
jackknife módszer a diszkriminanciaanalízis kereszt-kiértékelésére. Tegyük fel, hogy
N
elem¶
(X1 , . . . , XN )
mintára alkalmazunk egy tetsz®leges diszkrim-
ináló eljárást. A következ®t kell tennünk: az eljárást hogy kihagyjuk az hagyott
Xi , i = 1, . . . , N
N -szer
végrehajtjuk úgy,
mintaelemet, majd megnézzük, hogy a ki-
(Xi ) elemet melyik osztályba sorolta az így szerkesztett eljárás. A kapott
eredményeket átlagolva megkapjuk a hibás (és természetesen a helyes) besorolások relatív gyakoriságát.
12.1.
189
ELMÉLETI HÁTTÉR
12.1.3.
Bootstrap eljárás
A paragrafusnak ebben a részében els®sorban A. B. Efron 1997-ben megjelent alapvet® [10] dolgozatára, valamint G. J. Babunak és C. Radhakrishna Rao-nak a Handbook of Statistics [2] 9. kötetében megjelent összefoglaló ismertetésére, és az abban idézett irodalomra támaszkodunk. A paragrafus elején ismertetett jackknife algoritmus els®sorban arra alkalmas, hogy valamely eloszlás ismeretlen paraméterének a torzítását csökkentse, és számos esteben jó közelítést adjon a becslés szórásnégyzetére. Az Efron által javasolt bootstrap (szó szerint csizmahúzó); a statisztikán kívül pl. az informatikában is használatos elnevezés a bonyolult problémákat kezel® általános receptekre) módszerrel a becsl® statisztikák eloszlása is jól kezelhet®.
X= T (X, F )
A bootstrap statisztika deníciója és eloszlásának meghatározása. Legyen
(X1 , . . . , Xn ) független minta egy az X mintától függ® statisztika.
tetsz®leges
F
eloszlásból, és legyen
A korábbi a paraméteres statisztikával foglalkozó fejezetekben
F -r®l
általában feltettük, hogy normális eloszlású, és ekkor a gyakran alkalmazott
T (X, F )
statisztikák eloszlását analitikusan is meg tudtuk határozni. Más eset-
ben ha statisztika független azonos eloszlású valószín¶ségi változók normált összege volt a centrális határeloszlás-tételre hivatkoztunk.
F esetén a T (X, F ) statisztika eloszlását Fˆn empirikus eloszlás alapján számított elos¯ átlag eloszlásának kiszámításához az Fˆn zlással. Megjegyezzük, hogy pl. az X 2 n-szeres konvolúcióra van szükség, amelynek m¶veletigénye O((log n)n ), ami ˆn emelfogadható, ennek ellenére a bonyolultabb statisztikák eloszlásának az F Kis mintaelemszám és ismeretlen
közelíthetjük a mintából becsült
pirikus eloszlás alapján történ® közvetlen meghatározása körülményes. Erre is alkalmas az Efron [10] által javasolt bootstrap eljárás. A bootstrap statisztika eloszlása meghatározásának laggyakrabban használt
Fˆ -hez vegyünk egy ˜ = (X˜1 , . . . , X˜n ) ún. bootstrap mintát. Ez a X gyakorlatban azt jelenti, hogy az eredeti X mintából visszatevéssel kiválasztunk n elemet.
módszere a nyers r®, azaz a Mont Carlo módszer. Rögzített függatlen azonos
(Fˆn )
eloszlású
Ennél szosztikáltabb módszer a centrális határeloszlás-tétel élesítésének alkalmazása a bootstrap mintára. Ha az
F (x) folytonos eloszlás harmadik abszolút
momentuma véges, akkor a klasszikus BerryEsseen-tétel (l. pl [15] szerint
( ) ¯ − µ ≤ xσ − Φ(x)| = O(n−1/2 ) sup |P X
(12.8)
x
Ez az egyenl®tlenség nem javítható, de ha az adik
(k > 3)
F
eloszlásnak létezik a
k-
abszolút momentuma, akkor a (12.8) képletben szerepl® explicit
módon megadható, és a külonbség rendje l. [15]). Mivel az
Fˆn
( √ ) O 1/ ns−2
lesz (Ljapunov tétele
eloszlás momentumai megegyeznek a tapasztalati momen-
tumokkal, az idézett tétel alkalmazható az közelítésére (X helyett
˜ , µ = overlineX X
Fˆn eloszlás analitikus alakban történ® szereposztással).
Most megfogalmazunk egy tételt, amely az
X
és bootsrap minta átlaga
közötti eltérésére állít a (12.8) egyenl®tlenségnél pontosabb becslést. Miel®tt ezt
190
FEJEZET 12.
ALGORITMIKUS MODELLEK
kimondanánk, emlékeztetünk a rácsos eloszlás fogalmára: egy ha növekedési pontjainak halmaza szerinti mértéket
˜ -vel P
R
F
eloszlás rácsos,
ekvidisztáns pontjaiból áll. Az
Fˆ
eloszlás
jelöljük. K. Singh (l. [31]) tétele:
138. Tétel.
Tegyük fel, hogy X = (X1 , . . . , Xn ) független minta egy F nem rácsos eloszlásból, amelynek várható értéke µ szórása σ és a harmadik abszolút momentuma véges. Legyen
˜ = (X ˜ 1 , . . . ,˜,Xn ) az Fˆn alapján kisorsolt X (X1 , . . . , Xn , . . . ) realizációra
bootstrap
minta. Ekkor majdnem minden
v u ∑ n ( u ) ¯˜ − X) ˜ (X ¯ − µ) ≤ σ − P ¯ ≤ xt 1 ¯ 2 = o(n−1/2 ) sup P (X (Xj − X) n j=1 x A következ® Babutól származó példa (l. [2]) illusztrálja, hogy nem lehet vakon bízni a bootstrap módszerben. Legyen
X =√(X1 , . . . , Xn )
standard nor-
¯ standard normális elosmális eloszlásból származó független minta. Mivel nX ¯ 2 − µ2 ∼ χ2 (1). Legyen X ˜ = (X ˜1, . . . , X ˜ n ) a bootstrap minta. zlású, µ = 0, n(X) Megmutatható, hogy az
¯˜ 2 − X ¯ 2 ) majdnem minden végtelen (X1 , . . . , Xn , . . . ) (X
realizációra divergál!
ebb®l feladat gyártható: miért mond ez látszólag ellent a Steiner egyenl®tlenségnek? Második példánk a diszkriminanciaanalízis hibabecslése. Az egyszer¶seg kedvéért tegyük fel, hogy csak két mintánk van:
X1 , . . . , Xn ∼ F = N (m1 , C) és
Y1 , . . . , Ym ∼ G = N (m2 , C), Yj p-dimenziós véletlen vektorok teljesen függetlenek. A megx1 , . . . xn , illetve y1 , . . . , ym . A minta alapján megbecsüljük az m1 és m2 várhatóérték vektort, valamint a C kovariancaiamátrixot, legyenek b . Ezeket a becsléseket a A diszkrdec25.tex-beli b 1, m b 2 és C a becslések: m ahol az
Xi
és
gyelt értékek:
szovegben most szamozatlan a regi konyvben 311. o. 2.9 en itt nem tudom beirni... formulába beírva eljárást kapunk arra, hogy eldöntsük: egy új
x
meggyelést az
F
vagy a
G
eloszlást követi-e. Ha
b −1 x > c} b T2 − m b T1 )C x ∈ B := {x : (m akkor az
x
meggyelést a
G
eloszlást követ®k csoportjába soroljuk. Az osztály-
ozás várható hibáját még az új meggyelések beérkezése el®tt szeretnénk megbecsülni. Az error [
:=
|{i : xi ∈ B}| m
(12.9)
nyilván alulbecsüli a hibát, mert az osztályozó eljárást a minta alapján szerkesztettük, az mintegy adaptálódott a mintához. A valódi várható hiba error
:= PF {i : xi ∈ B}
12.2.
191
FELADATOK
lenne.
R((X, Y), (F, G)) := error − error [. Az
e R
bootstrap veszteség momentumait nyers er®-vel (Monte Carlo módsz-
errel) határozhatjuk meg. Az illetve
ej y
Fˆ
ˆ G
és
eloszlásból generálunk
bootstrap mintaelemet, ezek alapján kiszámítjuk az
sok paramétereit, meghatározzuk a
e B
n, Fˆ
illetve
ˆ G
és
ei , m x
eloszlá-
bootstrap kritikus tartományt. Így az
e R
bootstrap veszteség egy realizációja:
e e ei ∈ B}| e Y), e (Fˆ , G)) e = R((X, ˆ = |{i : xi ∈ B}| − |{i : x R . m m Ezen eljárás elegend®en sok független ismétlése után a keresett momentumok átlagolással nyerhet®k. Ilymódon becslést kapunk az
R
veszteségfüg-
gvény várható értékére, amivel az osztályozás hibájának (12.9) becslését korrigálhatjuk. Megjegyezzük, hogy a programcsomagok kiszámítják a hibavalószín¶ség jackknife becslését is olymódon, hogy minden egyes mintaelem kihagyásával megszerkesztik a kritikus tartományt, majd megvizsgálják, hogy a kihagyott elem melyik tartományhoz tartozik. Az így tapasztalt hibás döntések relatív gyakorisága a hibavalószín¶ség becslése. Efron idézett dolgozatában egy 10 és egy 20 elem¶ mintára ismerteti mindkét eljárás eredményét; nincs lényeges különbség.
12.2.
Feladatok
X = (X független √ 1 ,¯. . . , Xn ) standard normális eloszlásból származó ¯ 2 −µ2 ∼ χ2 (1). nX standard normális eloszlású, µ = 0, n(X) ˜ = (X ˜ n ) a bootstrap minta. Megmutatható, hogy az ˜1, . . . , X Legyen X ¯ 2 2 ˜ ¯ (X − X ) majdnem minden végtelen (X1 , . . . , Xn , . . . ). Mutassuk meg,
1. Legyen
minta. Mivel
hogy ez az állítás látszólag ellentmond a Steiner-egynl®ségnek.
∑n
Tipp: Az n1 [
˜ ¯ 2 j=1 (Xj −X)] valószín¶ségi változók aszimptotikusan valóban
2
χ (1) eloszlásúak, Irjuk fel rájuk a Steiner-egyenl®séget, felhasználva, hogy ¯. ˜j ) = X E(X
Válasz:
]2 1[ ¯˜ 2 − X ¯˜ ¯ ¯ 2 ) = 2X ¯ 2 − 2X ¯ X. ˜ j − X) sumnj=1 (X − (nX n
A fenti egyenl®ség jobb oldala a nagy számok törvénye miatt
0-hoz
tart,
de nomabb meggondolások alapján kiderül, hogy ez nem elegend® az ¯ ˜2 −X ¯ 2 ) bootstrap statisztika eloszlás szerinti konvergenciájához. (nX
192
FEJEZET 12.
ALGORITMIKUS MODELLEK
Útmutatások, végeredmények
12.3.
Útmutatások
12.4.
Végeredmények
193
194
FEJEZET 12.
ALGORITMIKUS MODELLEK
13. fejezet
Függelék
13.1. Jelölje
Rn
Függelék 1: Lineáris algebrai emlékeztet® az
n-dimenziós
valós euklideszi teret (elemei
n-dimenziós
valós kom-
ponens¶vektorok, melyek összeadása és valós számmal való szorzása értelmezve van a szokásos m¶veleti tulajdonságokkal, továbbá a vektortér a ⟨·, ·⟩ skaláris Rn térben tekintsük a standard ε1 , . . . , εn
szorzás m¶veletével is el van látva). Az bázist (az
εi
vektor
i-edik
koordinátája 1, többi koordinátája pedig 0). Ha a
skaláris szorzást nem deniáljuk konkrét formulával, akkor fel kell tennünk, hogy az
ε1 , . . . , εn
Rn
bázis ortonormált:
{ 0, ⟨εi , εj ⟩ = δij = 1,
ha ha
i ̸= j i = j.
(13.1)
x, y, z, . . . -vel jelöljük, ezeket oszlopvektoroknak tekintjük; ha x⊤ , y⊤ , z⊤ , . . . jelölést ∑n használjuk. Az x vektor kooordinátái ebben a bázisban x1 , . . . , xn , azaz x = i=1 xi εi . Az ⊤ (13.1) megállapodás miatt ⟨x, y⟩ = x y, az √ √∑n 2 x vektor euklideszi normája pedig ∥x∥ = x⊤ x = i=1 xi . n n Az A : R → R lineáris transzformációt azonosítjuk azzal az n × n-es A := (aij )ni,j=1 mátrixszal, melynek j -edik oszlopában az Aεj vektor koordinátái állnak. Ha egy x vektor A-val való transzformáltja y, azt az Ax = y, vagy ∑n mátrixalakban az Ax = y (yi = j=1 aij xj ) jelöléssel fejezzük ki. Az A := (aij ) és B := (bij ) n × n-es mátrixok szorzata dení ció szerint A B := (cik ) = ∑n ( j=1 aij bjk ). Az I := (δij )ni,j=1 mátrixot n-dimenziós egységmátrixnak (identitásnak) nevezzük. Az elnevezést az IA = AI = A öszefüggés indokolja. Az n × n-es A mátrix A−1 inverzét az AA−1 = A−1 A = I összefüggés deniálja (ez pontosan akkor létezik, ha az |A| mátrix alább deniált determinánsa nem 0). Közvetlen számolással meggy®z®dhetünk arról, hogy, ha az A és B mátrixok −1 invertálhatók, akkor az AB mátrix is invertálható, és (AB) = B−1 A−1 . Az A mátrix |A| determinánsa a mátrix oszlopavektorai által deniált nAz
vektorait
sorvektorokként szeretnénk tekinteni, akkor az
dimenziós parallelepipedon el®jeles térfogata, ami az alábbi képlettel számítható 195
196
FEJEZET 13.
ki:
∑
|A| =
FÜGGELÉK
(−1)π [inverzióinak száma] a1π(1) · · · · · anπ(n) .
π ∈ az (1, . . . , n) permutációinak halmaza (13.2)
(n − 1) × (n − 1)-es mátrixnak a determinánsát, amelyet úgy kapunk A-ból, hogy elhagyjuk az i-edik sorát és a j -edik oszlopát. Az i+j adj (A) := ((−1) Aji )nj,i=1 mátrixot A adjungált mátrixának nevezik, l. [30]. −1 Az A mátrix pontosan akkor létezik, ha |A| ̸= 0, és ekkor Jelöljük
Aij -vel
annak az
A−1 =
1 adj (A) . |A|
Vegyük észre, hogy a determináns egy
n2
változós függvény (polinom), így
van értelme a mátrixelemek szerinti deriválásnak. A (13.2)-beli deníciót felhasználva kapjuk, hogy
∂|A| = (−1)i+j Aij . ∂aij Egy
2
(13.3)
f (A) (f : Rn → R)
álló mátrixot szokás
mátrixfüggvény mátrixelemek szerinti deriváltjaiból ∂f ∂A -val is jelölni, ezzel a jelöléssel (13.3) a
∂|A| = adj (Aq top) ∂A tömör alakba írható át. −1 Ha az A mátrix nem létezik, akkor azt mondjuk, hogy az
A
A által deniált
transzformáció szinguláris. A mátrix-jelölést alkalmazva Im(A) az
A
mátrix
ab1 , . . . , abn
oszlopvek-
torai által kifeszített Span(ab1 , . . . , abn ) altér (ezt onnan is látni, hogy Ax = ∑n i=1 xi abi ), a Ker(A) altér pedig azon x vektorokból áll, amelyek ortogonálisak ⊤ ⊤ az A mátrix soraira, azaz az A (A transzponáltja) oszlopaira, vagyis az Im(A ) altérre. Ezzel igazoltuk a következ®t.
139. Állítás.
R
n
A Ker(A) és Im(A
-ben, tehát dim(Ker(A))
140. Deníció. az
U⊤ U = I
Az
U
⊤
) alterek egymás + dim(Im(A⊤ )) = n.
ortogonális komplementerei
transzformáció ortogonális, ha deniáló mátrixára igaz
összefüggés.
Ez azt jelenti, hogy
U oszlopai ortonormáltak. Belátható, hogy ekkor U sorai UU⊤ = I összefüggés is.
is ortonormátak, ezért igaz az Az ilyen
U
mátrixot ortonormált mátrixnak is szokták nevezni.
141. Deníció (szimmetrikus mátrix). metrikus, ha
A⊤ = A,
j = 1, . . . , n)
indexpárra.
vagy, ami ugyanaz:
Az A n × n-es valós mátrix szimaij = aji minden (i, j) (i = 1, . . . , n;
13.1.
197
LINEÁRIS ALGEBRA
142. Deníció (projekció). P transzformáció ortogonális projekció, ha P szimmetrikus és idempotens, azaz
P szimmetrikus, 139. állítás miatt x ∈ Rn vektor el®áll x = y + z alakban, ahol y ∈ Im(P), z ∈ Ker(P). Ezért Px = y, n innen az elnevezés. Ha H ⊂ R egy altér, PH jelöli a H -ra való vetítést. A
P
PP = P.
operátor az Im(P) altérre vetít. Mivel
a Ker(P) és a Im(P) egymás ortogonális komplementerei, tehát minden
143. Állítás. vektor, akkor
A és B tesz®leges n × n-es (AB)⊤ = B⊤ At op és Ha
mátrixok és
x ∈ Rn
tetsz®leges
(A⊤ x)⊤ Bx = x⊤ WBx .
144. Deníció (kvadratikus alak, denitás). metrikus mátrix. Az
x⊤ Ax =
n ∑ n ∑
Legyen
A egy n×n-es, szim-
aij xi xj
i=1 j=1
A által deniált kvadratikus alaknak nevezzük. Az aij illetve xi számok x vektor koordinátái. Az A mátrixot pozitív denit ⊤ (szemidenit)nek nevezzük, ha az x Ax kvadratikus alak pozitív (nem-negatí v) minden, nem azonosan 0 komponens¶x vektorra. Hasonlóan, az A mátrix ⊤ negatív denit (szemidenit), ha az x Ax kvadratikus alak negatív (nem-pozitív) ⊤ minden, nem azonosan 0 komponens¶x vektorra. Ha pedig az x Ax kvadratikus alak mind pozitív, mind negatív értékeket felvehet (természetesen más-más x vektorokra), akkor az A mátrixot indenit nek nevezzük. Szinguláris (nem inszámot az
az
A
mátrix elemei illetve az
vertálható) mátrixok a szemidenitek és az indenitek egy része.
145. Deníció. Legyenek A és B szimmetrikus mátrixok. Azt mondjuk, hogy A > B, ha A−B szigorúan pozitív denit. Azt mondjuk, hogy A ≥ B, ha A−B pozitív szemidenit.
146. Tétel. Rn
Az
A
mátrix akkor és csak akkor szimmetrikus, ha minden
vektorpárra
x, y ∈
x⊤ Ay = y⊤ Ax .
Megjegyezzük, hogy egy
B
mátrix pontosan akkor pozitív szemidenit, ha ún. A mátrix, hogy B = A⊤ A.
Gram-mátrix, azaz van olyan
Az alábbi tétel (l. [19] 149. o.) kovarianciamátrixok összehasonlításánál hasznos lehet.
147. Tétel. akkor
Legyenek
B−1 ≤ A−1
A
és
B
invertálható szimmetrikus mátrixok. Ha
148. Deníció (sajátérték, sajátvektor). ponens¶vektort az
n × n-es A
Az
u ∈ Rn
A ≤ B,
nem azonosan 0 kom-
mátrix sajátvektorának nevezzük, ha van olyan
valós szám (sajátérték), amellyel
Au = λu
teljesül.
λ
198
FEJEZET 13.
Ezzel ekvivalens a következ® állítás: dim(Ker(A − λI))
λI)) < n,
azaz az
A − λI
> 0,
FÜGGELÉK
illetve dim(Im(A −
mátrix nem invertálható.
A sajátértékek geometriájáról a Gersgorin-tétel segítségével nyerhetünk hasznos információt.
149. Tétel (Gersgorin). mátrix. Legyen
Ci
az
aii
A egy (komplex elem¶) n × n-es ∑tetsz®leges n |a | ri := k=1k̸=i ik sugarú nyílt körlemez a
Legyen körüli
komplex számsíkon. Ekkor az
A
mátrix valamennyi sajátértéke a
D := ∪ni=1 Ci tartományban helyezkedik el.
150. Megjegyzés.
Az alábbi egyszer¶észrevétel is rendkívül hasznos lehet a
sajátértékek geometriájának vizsgálatánál.
151. Tétel (spektrál-leképezés tétel). A
mátrix sajátértéke, akkor
P (λ)
a
P (A)
152. Tétel (spektrálfelbontási tétel). mátrixnak van pontosan
n
Ha
P (·)
tetsz®leges polinom, és
λ
az
mátrix sajátértéke. Az
n×n-es szimmetrikus, valós elem¶A
valós sajátértéke (nagyság szerint csökken® sorrend-
λ1 ≥ λ2 ≥ · · · ≥ λn ), és az ezekhez tartozó u1 , u2 , . . . , un sajátvektorok megválaszthatók úgy, hogy ortonormáltak legyenek (egy ilyen u1 , . . . , un
ben jelölje ®ket
rendszert ortonormált sajátvektor rendszernek nevezünk). Mátrixalakban ez az T
A = UΛU =
n ∑
λi ui uTi
(13.4)
i=1
felbontást jelenti, ahol az
n×n-es Λ diagonális mátrix a λ1 , . . . , λn sajátértékeket U ortogonális mátrix pedig a hozzájuk tartozó
tartalmazza f®diagonálisában, az
sajátvektorokat tartalmazza oszlopaiban, a sajátértékek sorrendjének megfelel®en. Az (13.4) felbontást az
A
mátrix spektrálfelbontás ának nevezzük.
Szimmetrikus mátrixok sajátértékeinek becslésének hasznos eszköze a Weyl perturbációs tétel
153. Tétel.
max |λj (A) − λj (B)| ≤ ∥A − B∥.
(13.5)
j
Vegyük észre, hogy ha a ∗ mint λk+1 (A), viszont a
B mátrix k -rangú, akkor (13.5) baloldala b := ∑k λ∗ u∗ u∗T mátrixra teljesül B i=1 i i i
nem kisebb,
b = λ∗ (A). ∥A − B∥ k+1 Ezzel bebizonyítottuk, hogy a közelítése
b. B
k -rangú szimmetrikus mátrixok körében A legjobb
Ez az észrevétel képezi a f®komponensanalízis alapját. A Weyl perturbációs tétel tetsz®leges mátrixokra is általánosítható.
13.1.
199
LINEÁRIS ALGEBRA
154. Tétel.
Legyen
A
tetsz®leges
m × n-es
min
BB k-rangú
és a minimum a értéket, valamint és
V
pedig az
A
valós elem¶ mátrix. Akkor
∥A − B∥ = sk+1 ,
b = VSk U mátrixon éretik el, ahol Sk B 0-kat tartalmazó (esetleg téglalap alakú)
az els®
k
szinguláris
diagonális mátrix,
U
mátrix szinguláris felbontásában szerepl® ortogonális márixok.
155. Megjegyzés.
Az (13.4) formula azt jelenti, hogy az
A
mátrix egydimen-
ziós alterekre való mer®leges vetítések valós lineáris kombinációjaként áll el®. Tetsz®leges valós
n × n-es
mátrixot nem lehet ortogonális bázisban diagonal-
izálni, s®t egyáltalán nem lehet diagonalizálni, mert pl. a
|A − λI| = 0 karakα szöggel való
terisztikus egyenletnek komplex gyökei vannak, ilyen pl. a sík elforgatását megadó
(
sin α − cos α
cos α sin α
)
mátrix. Ilyenkor a mátrix komplex euklideszi térbeli ortogonális bázisban diagonalizálható, de ha a karakterisztikus egyenletnek többszörös (valós vagy komplex) gyöke van, akkor el®fordulhat (nem szükségképpen!), hogy a mátrixnak még a komplex térben is sem diagonalizálható, pl.
n-nél
kevesebb sajátvektora van, így ferde" bázisban
(
1 0
) 1 . 1
Más módszert kell találni a mátrixok egyszer¶bb alakban való felírására. Erre iφ szolgál a poláris felbontás tétele, amely a komplex számok z = re alakú felírásának messzemen® általánosítása.
156. Tétel (a poláris felbontás tétele).
Tetsz®leges A négyzetes mátrix felírható WB alakban, ahol B pozitív szemidenit (szimmetrikus), W pedig ortogonális. A B mátrix mindig egyértelm¶en meghatározott, míg W csak abban az esetben, ha A invertálható. A tétel közvetlen következménye a négyzetes mátrixokra vonatkozó
157. Tétel (szinguláris felbontási tétel). hoz van olyan
S = diag (s1 , . . . , sn )
hogy
A = VSUT =
n ∑
A négyzetes mátrixU és V unitér mátrix,
Tetsz®leges
diagonális, valamint
si vi uTi .
(13.6)
i=1
•
1. A poláris (és a szinguláris) felbontásban szerepl®
U
mátrix
oszlopvektorai rendelkeznek a következ® tulajdonsággal:
(Aui )T (Auj ) = δij s2i
u1 , . . . , un
200
FEJEZET 13.
•
2. A
•
3. Az
FÜGGELÉK
V mátrix v1 , . . . , vn oszlopvektoraira igaz az si ·vi = Aui összefüggés.
u1 , . . . , un vektorrendszer az AT A, míg a v1 , . . . , vn vektorrendszer T az AA sajátvektorrendszere. (Az els® állítás a konstrukció következménye, T T T 2 T a második pedig az AA = VSU USV = VS V egyenl®ségsorozatból adódik.)
•
4. Egy szimmetrikus mátrix szinguláris értékei a sajátértékek abszolút értékei. Egyik oldali szinguláris vektoroknak megfelel a sajátvektorok bármely rendszere, legyen ez az
vi = ±ui
pedig a
ui
rendszer, a másik oldali szinguláris vektorok
vektorok lesznek, ahol az el®jel a megfelel®
λi
sajátérték
el®jele.
•
5.
∥A∥ = s1 .
158. Tétel.
Legyen
A
tetsz®leges
m × n-es
min
BB k-rangú
értéket, valamint
V
pedig az
A
∥A − B∥ = sk+1 ,
b = VSk U mátrixon éretik el, ahol Sk az els® k szinguláris B 0-kat tartalmazó (esetleg téglalap alakú) diagonális mátrix, U
és a minimum a és
valós elem¶mátrix. Akkor
mátrix szinguláris felbontásában szerepl® ortogonális márixok.
159. Deníció (mátrix nyoma).
A tr A
=
∑n i=1
aii
mennyiséget az
A n×n-
es mátrix nyomának nevezzük. általában nem igaz, hogy az tr (A1 de ha
π(·)
1, . . . , k
számok tetsz®leges
π(·) permutációjára
. . . Ak ) = tr (Aπ(1) . . . Aπ(k) ),
ciklikus, akkor a tr(·) függvény kommutatív: tr (A1
. . . Ak ) = tr (A2 . . . Ak A1 ) = tr (A3 . . . Ak A1 A2 ),
s.í.t..
p × n-es A és a q × m-es B mátrixok Kroneckerpq ×nm-es, A ⊗B-vel jelölt hipermátrixot értjük, melynek pn darab q×m méret¶blokkja van: az (i, j) blokk az aij B mátrix (i = 1, . . . p; j = 1, . . . , n). A Kronecker-szorzás asszociatív, a mátrixösszeadásra Szükségünk lesz még a
vagy tenzor-szorzatára. Ez alatt azt a
nézve disztributív, viszont általában nem kommutatív. Igaz azonban, hogy
(A ⊗ B)T = AT ⊗ BT . Amennyiben
m × m-es,
A
és
B
négyzetes mátrixok például
A n × n-es, B
akkor
|A ⊗ B| = |A|m · |B|n ,
továbbá, ha mindkett® invertálható, akkor Kronecker-szorzatuk is az, és
(A ⊗ B)−1 = A−1 ⊗ B−1 .
pedig
13.2.
FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY201
13.2.
Függelék 2: Valószín¶ségelméleti képletgy¶jtemény
13.2.1. •
Kolmogorov axiómái: Ω halmaz (az ω -val jelöljük.
(i) Adva van egy nem üres eseményeknek nevezzük, és
eseménytér),
Ω
elemeit elemi
•
(ii) Ki van tüntetve az Ω részhalmazainak egy A algebrája (Ω ∈ A, A ∈ A ⇒ Ω \ A ∈ A, A ∈ A & B ∈ A ⇒ A ∪ B ∈ A).
•
(iii)
•
A σ -algebra,
(iv) Minden szám, az
A
azaz
A∈A
Ak ∈ A (k = 1, 2, . . . ) ⇒ ∪∞ k=1 Ak ∈ A.
eseményhez hozzá van rendelve egy
P (A)
nemnegatív
esemény valószín¶sége.
•
(v)
•
(vi) Ha Ak ∈ A (k = 1, 2, . . . ) páronként egymást kizáró események, akkor ∑∞ P (∪∞ k=1 Ak ) = k=1 P (Ak ).
13.2.2.
P (Ω) = 1.
Szitaformula:
n = 3 esetben: P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) Tetsz®leges n-re: P (A1 ∪ · · · ∪ An ) =
n ∑
(n)
(−1)k Sk ,
k=1 ahol
(n)
Sk
∑
:=
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ).
1≤i1 <···
13.2.3.
Események függetlensége, feltételes valószín¶ség
Események függetlensége: Az A1 , . . . , An események páronként (ill. teljesen) 1 ≤ j < k ≤ n párra P (Aj ∩ Ak ) = P (Aj ) · P (Ak ) (ill. 1 ≤ i1 < · · · < ik ≤ n indexsorozatra P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · · · · ·
függetlenek, ha minden minden
P (Aik )).
A teljes függetlenség implikálja a páronkénti függetlenséget.
Feltételes valószín¶ség: P (A|B) :=
P (A∩B) P (B) , ha
P (B) > 0.
Teljes eseményrendszer: A1 , . . . , An ∈ A,
P (Ai ∩ Aj ) = 0
Bayes tétele: Ha A1 , . . . , An
ha
i ̸= j
és
P (∪ni=1 Ak ) = 1.
teljes eseményrendszer és
P (B) > 0:
P (B|A1 ) · P (A1 ) . P (A1 |B) := ∑n k=1 P (B|Ak ) · P (Ak )
202
FEJEZET 13.
13.2.4.
FÜGGELÉK
Valószín¶ségi változó
Valószín¶ségi változó: Az Ω halmazon értelmezett olyan ξ(ω) valós érték¶függvény, amelyre
{ξ(ω) < x} ∈ A
minden valós
x-re.
Ha
ξ
értékkészlete a ter-
mészetes számok halmaza, akkor diszkrét valószín¶ségi változóról beszélünk.
Függetlenség: A ξ1 , . . . , ξn valószín¶ségi változók páronként (ill. teljesen) függetlenek,
ha a {ξ1 (ω) < x1 }, . . . , {ξn (ω) < xn } események páronként (ill. teljesen) függetlenek x1 , . . . , xn minden értékére.
Eloszlás (általános eset): A ξ
valószín¶ségi változó
F (x)
eloszlásfüggvénye:
Fξ (x) := P {ξ < x} Fξ (x) monoton nemcsökken® balról folytonos függvény, Fξ (−∞) = 0, Fξ (∞) = 1. Diszkrét eset: A
ξ
valószín¶ségi változó
{pj }
eloszlása:
pj := P {ξ = j} j = 0, 1, . . . Abszolút folytonos eset:
∫t Fξ (t) = −∞ Fξ′ (x)dx, akkor az fξ (x) := Fξ′ (x) függvény a ξ valószín¶ségi Ha
változó s¶r¶ségfüggvénye.
Eloszlások konvolúciója: {pi } a ξ és {qj } az η független valószín¶ségi ζ = ξ + η valószín¶ségi változó eloszlása {rk }:
A diszkrét eset: ha eloszlásai akkor a
rk =
k ∑
pi · qk−i =
i=0 Az abszolút folytonos eset: ha
∫ fξ+η (z) =
∞ −∞
k ∑
változók
pk−j · qj .
j=0
ξ
és
η
független valószín¶ségi változók, akkor
∫ fξ (z − y) · fη (y)dy =
∞
−∞
fξ (x) · fη (z − x)dx.
Valószín¶ségi változó függvényének eloszlása: (Csak az abszolút folytonos esetetet vizsgáljuk.) Legyen ψ(x) monoton, dierenciálható függvény, tegyük ′ fel, hogy minden x-re ψ (x) ̸= 0. Ha fξ (x) a ξ valószín¶ségi változó s¶r¶ségfüggvénye, akkor az
ψ(ξ)
s¶r¶ségfüggvénye:
{ fψ (y) =
fξ (ψ −1 (y)) |ψ ′ (ψ −1 (y))| ,
ha
0,
különben
inf ψ(x) < y < sup ψ(x)
13.2.
FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY203
13.2.5.
Valószín¶ségi változó momentumai:
A diszkrét eset: ha
{pk }
a
ξ
valószín¶ségi változó eloszlása, az
∞ ∑
Mn,ξ :=
k n · pk
k=1 összeget (amennyiben konvergens) a
ξ n-edik momentumának nevezzük, míg
a
(c)
Mn,ξ :=
∞ ∑
(k − M1 )n · pk
k=1
ξ n-edik
összeget a
centrált momentumának nevezzük.
Az abszolút folytonos eset: ha
f (x)
a
ξ
valószín¶ségi változó s¶r¶ségfüg-
gvénye, az
∫ Mn,ξ := integrált (amennyiben létezik) a
∫ (c)
Mn,ξ := ξ n-edik
integrált a Ha
ξ
η
és
∞
−∞
xn · f (x)dx
ξ n-edik
∞
−∞
momentumának nevezzük, míg a
(x − M1 )n · f (x)dx
centrált momentumának nevezzük.
független valószín¶ségi változók, akkor
Mn,ξ·η = Mn,ξ · Mn,η . Ha
k
és
Mn,ξ
létezik, akkor
Mk,ξ
is létezik.
Várható érték, szórásnégyzet: A ξ valószín¶ségi változó várható értéke: (c) M2,ξ . Legyen
ψ(x)
E(ξ) := M1,ξ szórásnégyzete: D2 (ξ) :=
egy tetsz®leges valós érték¶függvény.
{∑ ∞ ψ(k) · pk , ha E(ψ(ξ)) = ∫ ∞k=0 ψ(x) · f (x)dx, ha −∞
ξ
diszkrét,
ξ
abszolút folytonos,
amennyiben a jobboldalon álló összeg (integrál) létezik. Ha
ξ
és
η
tetsz®leges valószín¶ségi változók, amelyeknek létezik a várható
értékük, akkor
E(ξ + η) = E(ξ) + E(η).
ξ1 , . . . , ξn páronként független valószín¶ségi változók, akkor D2 (ξ1 +· · ·+ ξn ) = D2 (ξ1 ) + · · · + D2 (ξn ), ha a jobboldal létezik. Ha
A Steiner-képlet:
D2 (ξ) := M2,ξ − (E(ξ))2
204
FEJEZET 13.
13.2.6. A
{pj }
FÜGGELÉK
A generátorfüggvény:
eloszlású
ξ
diszkrét valószín¶ségi változó
Gξ (s) := E(sξ ) =
∞ ∑
Gξ (s)
generátorfüggvénye:
sk · pk
k=0
Gξ (s)
analitikus az egyeségkörben,
ξ1 , . . . , ξn
Ha a
Gξ (1) = 1, G′ξ (1) = E(ξ).
valószín¶ségi változók teljesen függetlenek, akkor
Gξ1 +···+ξn (s) = Gξ1 (s) · · · · · Gξn (s). Ha
ξ1 , ξ2 , . . .
azonos eloszlású teljesen független valószín¶ségi változók, és
ν
t®lük független diszkrét valószín¶ségi változó, akkor
Gξ1 +···+ξν (s) = Gν (Gξ (s)). A generátorfüggvény egyértelm¶en meghatározza az eloszlást:
pn = A generátorfüggvény
1 dn Gξ (s)|s=0 , n = 1, 2, . . . n! dsn
s=1
pontbeli deriváltjai meghatározzák az ún. fak-
toriális momentumokat:
E[ξ(ξ − 1) . . . (ξ − k)] =
13.2.7. ξ
dk Gξ (s)/V erts=1 dsk
A karakterisztikus függvény:
valószín¶ségi változó
φξ (t)
karakterisztikus függvénye:
{∑ ∞ ei·k·t · pk , ha φξ (t) := E(ei·ξ·t ) = ∫ ∞k=0 i·x·t e · fξ (x)dx, ha −∞ ahol
i=
A
√
−1.
Ha
ξ
diszkrét, akkor
ξ
diszkrét,
ξ
abszolút folytonos,
φξ (t) = Gξ (ei·t ).
φξ (t) a t-nek a (−∞ < t < ∞) intervallumon egyenletesen folytonos φξ (0) = 1, |φξ (t)| ≤ 1 minden t-re, φa+bξ (t) = ei·a·t φξ (b · t).
függvénye,
Mn,ξ = (−i)n Ha a
ξ1 , . . . , ξn
dn φξ (t)|t=0 . dtn
valószín¶ségi változók teljesen függetlenek, akkor
φξ1 +···+ξn (t) = φξ1 (t) · · · · · φξn (t).
13.2.
FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY205
A karakterisztikus függvény egyértelm¶en meghatározza az eloszlást; ab-
|φξn (t)| integrálható: ∫ ∞ 1 fξ (x) = e−i·x·t φξ (t)dt. 2π −∞
szolút folytonos eloszlás esetén, ha
A karakterisztikus függvény
t = 0 pontbeli deriváltjai alapján kiszámíthatók
a momentumok:
E(ξ k ) = i−k
13.2.8.
dk φ(t) dtk
Nevezetes diszkrét eloszlások:
Bernoulli-eloszlás (egyszer¶ alternatíva):
P {ξ = 1} = p, P {ξ = 0} = q, p + q = 1. E(ξ) = p, D2 (ξ) = p · q , Gξ (s) = q + p · s. Binomiális eloszlás (n független Bernoulli összege): ( ) P {ξ = k} = nk pk q n−k , p + q = 1, k = 0, 1, . . . , n. E(ξ) = n · p, D2 (ξ) = n · p · q , Gξ (s) = (q + p · s)n . Poisson-eloszlás (binomiális eloszlás limesze, ha 1 k P {ξ = k} = k! λ · e−λ , λ > 0, k = 0, 1, . . . E(ξ) = λ, D2 (ξ) = λ, Gξ (s) = eλ·(s−1) .
n→∞
és
p · n = λ):
Geometriai eloszlás (az egyszer¶alternatíva független ismétléseinek száma az els® 1-es megjelenéséig): k−1
P {ξ = k} = p · q , p + q = 1, k = 1, 2, . . . p·s E(ξ) = p1 , D2 (ξ) = pq2 , Gξ (s) = 1−q·s .
Negatív binomiális eloszlás (r darab geometriai összege): ( ) r k P {ξ = r + k} = k+r−1 r−1 p q , p + q = 1, k = 0, 1, . . . p·s r E(ξ) = pr , D2 (ξ) = r·q p2 , Gξ (s) = ( 1−q·s ) . Hipergeometrikus eloszlás (visszatevés nélküli mintavétel): −M (Mk )·(Nn−k ) M < N, n ≤ N, k = 0, 1, . . . , n. N (n) M M n−1 2 E(ξ) = n · M N , D (ξ) = n · N · (1 − N ) · (1 − N −1 ).
P {ξ = k} =
13.2.9.
Nevezetes abszolút folytonos eloszlások:
Normális (Gauss-) eloszlás: (x−m)2
1 fξ (x) = √2πσ e− 2σ2 , −∞ < x < ∞, −∞ < m < ∞, 0 < σ < ∞. E(ξ) = m, D2 (ξ) = σ 2 , 2k−1 továbbá, ha m = 0, k = 1, 2, . . . E(ξ ) = 0 és 2k 2k E(ξ ) = 1 · 3 · · · · · (2k − 1)σ .
ψξ (t) = ei·m·t−
σ2 2 2 t .
ξ Lognormális eloszlás (e eloszlása, ahol
ξ
Gauss):
206
FEJEZET 13.
fξ (x) = E(ξ) =
√1 e− x· 2πσ 2 em+σ /2 ,
(lnx−m)2 2σ 2
FÜGGELÉK
, 0 < x < ∞, −∞ < m < ∞, 0 < σ < ∞. 2
2
D (ξ) = e2m+σ · (eσ − 1). 2
Exponenciális eloszlás: fξ (x) = λ · e−λ·x , , 0 < E(ξ) = λ1 , D2 (ξ) = λ12
x < ∞, 0 < λ < ∞. ψξ (t) = 1−1i·t . λ
Az exponeciális eloszlást karakterizálja az ún. örökifjú tulajdonság:
P(ξ > x + y|ξ > x) = P(ξ > y) Gamma-eloszlás (G(λ, α)): λα fξ (x) = Γ(α) xα−1 e−λx , x ≥ 0 ∫ ∞ α−1 −x (Γ(α) = x e dx) 0 α 2 E(ξ) = λ D (ξ) = λα2 ψξ (t) 2 χ eloszlás n szabadságfokkal: n/2−1 −x/2 e fξ (x) = x2n/2 Γ(n/2) , x≥0
( )−α = 1 − i λt .
( )−n/2 D2 (ξ) = 2n ψξ (t) = 1 − i 2t .
E(ξ) = n
t (Student-) eloszlás n szabadságfokkal: A ξ/η eloszlása, ahol ξ )− n+1 ( 2 2 Γ( n+1 ) ξ ∼ N (0, 1) η ∼ χ2 (n) fξ (x) = √π1 n Γ( n2 ) 1 + xn ,
és
η
függetlenek,
2
n D2 (ξ) = n−2 ha n > 2. Béta-eloszlás a, b paraméterrel (B(a, b)): 1 fξ (x) = B(a,b) xa−1 (1 − x)b−1 x ∈ [0, 1]
E(ξ) = 0
ha
n>1
Γ(a)Γ(b) Γ(a+b) a E(ξ) = a+b D2 (ξ) = (a+b)2ab (a+b+1) Másodfajú Béta-eloszlás a, b paraméterrel: a−1 (1+x)−a−b x ∈ [0, ∞) fξ (x) = x B(a,b) a(a+b=1) a E(ξ) = b−1 ha b > 1 D2 (ξ) = (b−1) 2 (b−2) ha
B(a, b) =
Fisher-féle F-eloszlás és
η
n
és
m
paraméterekkel (F(n, m)), A
n
eloszlása, ahol
ξ
n+m
n n n( m x) 2 −1 (1+ m x)− 2 m mB( n 2, 2 ) n m Béta-eloszlás 2 , 2 paraméterrel!
Az
η=
n m ξ valószín¶ségi változó Másodfajú
Egyenletes eloszlás (az (a, b) intervallumon): 1 fξ (x) = b−a , ha a < x < b, 0 különben. a+b 1 E(ξ) = 2 , D2 (ξ) = 12 (b − a)2 ha a
13.2.10. ξn
ξ/η
függetlenek:
fξ (x) =
A
b>2
= −b: ψξ (t) =
sin bt b·t .
Sztochasztikus konvergencia, majdnem biztos konvergencia:
valószín¶ségi változó sorozat sztochasztikusan konvergál a ξ valószín¶ségi szt → ξ ) ha bármely ε-hoz van olyan N , hogy minden n > N -re
változóhoz, (ξn
13.2.
FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY207
P {|ξn − ξ| > ε} < ε. A
ξn valószín¶ségi változó sorozat majdnem biztosan (1 valószín¶séggel) kon-
vergál a
ξ
valószín¶ségi változóhoz, (ξn
mb
→ ξ)
ha
P {limn→∞ ξn = ξ} = 1. A majdnem biztos konvergencia implikálja a sztochasztikus konvergenciát.
13.2.11.
Nevezetes összefüggések
160. Tétel (Markov-egyenl®tlenség). itiv
a
Ha a
E(ξ) létezik, akkor minden poz-
számra:
P {|ξ| ≥ a} ≤
E(|ξ|) . a
Csebisev-egyenl®tlenség: Ha a D2 (ξ) létezik, akkor minden pozitiv a számra: P {|ξ − E(ξ)| ≥ a} ≤
D2 (ξ) . a2
161. Tétel (Nagy számok gyenge törvénye).
Ha ξ1 , ξ2 , . . . páronként független 2 azonos eloszlású valószín¶ségi változók sorozata, és léteznek a D (ξk ) szórásnégyzetek, akkor 1 szt (ξ1 + · · · + ξn ) → E(ξ).
n
162. Tétel (Nagy számok er®s törvénye).
Legyen ξ1 , ξ2 , . . . teljesen független azonos eloszlású valószín¶ségi változók sorozata. Annak szükséges és elégséges 1 feltétele, hogy az n (ξ1 + · · · + ξn ) sorozat majdnem biztosan konvergáljon egy m számhoz az, hogy létezzen az E(ξ) várható érték. Ekkor m = E(ξ).
163. Tétel ( Centrális határeloszlás tétel).
Ha ξ, ξ1 , ξ2 , . . . teljesen független 2 azonos eloszlású valószín¶ségi változók sorozata, és létezik a D (ξ) szórásnégyzet, akkor
{ limn→∞ P
13.2.12.
} ∫ x 2 ξ1 + · · · + ξn − n · E(ξ) 1 √ √ e−s /2 ds. <x = 2 2π D (ξ) · n −∞
Spektrálel®állítási tétel
208
FEJEZET 13.
12
10
8
6
4
2
0 -1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
13.1. ábra. Kett®s cikllus - köbös simítás
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2 0
2
4
6
8
10
12
13.2. ábra. Kett®s cikllus - köbös simítás
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2 0
2
4
6
8
10
12
13.3. ábra. Kett®s cikllus - simítás vége
FÜGGELÉK
Irodalomjegyzék
[1] Achlioptas, D., McSherry, F., Fast Computation of Low Rank mátrix approximations J. ACM 54 2 (2007) Art. 9 (elektronikus) 19 o. [2] Babu, Bootstrapping Statistics with Linear Combination of Chi-squares as a Weak Limit, The Indian Statist. J. 46 (1984) 85-93. [3] Borovkov, A. A., Matematikai statisztika, Typotex, Bp., 1999 [4] Bevezetés a matematikai statisztikába, KLTE jegyzet, Szerk. Fazekas István, Kossuth Egyetemi Kiadó, 2005 [5] Bolla Marianna, Krámli András, Statisztikai következtetések elmélete, Typotex, 2005 [6] Breiman, L., Friedman, J. H., Estimating Optimal Transformation for multiple Regression and Correlation, J. Amer. Stat. Assoc. 80 391 (1985) 580 598. [7] Breiman, L., Friedman, J. H., Estimating Optimal Transformation for multiple Regression and Correlation, J. Amer. Stat. Assoc. 80 391 (1985) 580 598. [8] Csencov,
N.
N.,
Statisztikai
Döntési
Szabályok
és
Optimális
Következtetések (oroszul), NAUKA, Moszkva, 1972 [9] Csiszár Imre, Eloszlások eltérésének információ típusú mértékszámai. MTA III. Oszt. Közleményei 17, 123149, 1967 [10] Efron, B., Bootstrap methods: another look at the jackknife Ann. Statist. 7 (1979), 1-45 [11] Fisher, R. A. Theorz of statistical estimations, Proc. Cambridge Phylosoph. Soc. 22 (1925), 700. [12] Flury, A rst course in multivariate statistics, Sringer, 1997 [13] Frieze, A., Kannan, R., Vempala, S., Fast Monte Carlo Algorithms for Finding Low-Rank Approximation, J. ACM 51 6 (2004) 10251041. 209
210
IRODALOMJEGYZÉK
[14] Giri, Multivariate statistical analysis, Marcel Dekker, 2004 [15] Gnyegyenko, B. V., Kolmogorov, A. N., Független valószín¶ségi változók öszegeinek határeloszlásai, Akadémiai Kiadª, Budapest, 1951 [16] Grone, R., Pierce, S., Watkins W., Extremal correlation matrices, Lin. Alg. Appl. 134 (1990), 6370. [17] Hofmann, T., Schölkopf, B., Smola, J., Kernel methods in machine learning, Ann. Statist. 36 3 (2008) 11711220. [18] Kruskal, J. B., On the shortest spanning subtree of a grapf and the travelling salesman problem. Problem. Amer. Math. Soc. 7 (1956), 4850 [19] [20] Lovász, L., Kombinatiorikai problémák és feladatok Typotex, Bp., 1999 [21] Lukacs, E., The stochastic independence of symmetric and homogeneous linear and quadratic statistics, Ann. Math. Statist. 23 (1952), 442449. [22] Mika, S., Schölkopf, B., Smola, A. J. Müller, K. R., Kernel PCA and denoising in feature spaces, Advances in neural information processing systems 11 (1), 536-542 [23] Miller, Rupert, G., Jr., A trustworthy jackknife, Ann. Math. Statist. 35 (1964), 1594-1605 [24] Miller, Rupert, G., Jr.,Jackkning variances, Ann. Math. Statist. 39 (1968), 567-582 [25] Móri, Szeidl, Zempléni: Matematikai statisztika példatár, ELTE Eötvös Kiadó, 1997 [26] Móri Tamás, Székely J. Gábor (szerk.), Többváltozós Statisztikai Analizis, M¶szaki Könyvkiadó, Budapest, 1972 [27] Olkin, I., Pierce, S. The 70th anniversary of random matrices, Lin. Alg. Appl. 354 (2002), 231-243. [28] Quenouille, M., H., Notes on bias in estimation, Biometrika, 43 (1956) 353360 [29] R., ed. Handbook of Statistics, V. 9. 627-659 Elsevier Science Pulisher, 1993 [30] Rózsa, P., Lineáris algebra és alkalmazásai, M¶szaki Könyvkiadó, Bp., 1974 [31] Singh, K., On the asymptotoic accuracy of Efron's bootstrap, Ann. Statist. 9 (1981) 11871195. [32] Tukey, J., W., Abstract, Ann. Math. Statist. 29 (1958), 612