æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Le´ır´ o statisztika (Ω, A, P) statisztikai mez˝ o, ahol a P mértékcsalád olyan P eloszl´ asokból áll, melyekkel (Ω, A, P) valósz´ın˝ uségi mez˝ot alkot. A probléma éppen a megfelel˝o eloszlás kiválasztása. ´ Altal´ aban paraméteres a mez˝o: P = {Pθ : θ ∈ Θ}, ahol Θ ⊂ Rk a paramétertér.

Vizsgálódásaink középpontjában egy X valósz´ın˝ uségi változó áll (pl. az egyetemista fi´ uk testmagassága, a tanszékre délel˝ott 10 és 10:30 közt befutó telefonh´ıvások száma), melynek pontos P eloszl´ asát nem ismerj¨ uk, csak annyit tudunk, hogy P ∈ P. Itt az els˝o példában P a normális, a másodikban pedig a Poisson eloszláscsalád, azaz problémánk paraméteres. Célunk a paraméterek becslése, esetleg hipotézisek vizsgálata (pl. igaz-e, hogy az egyetemista fi´ uk testmagasságának várható értéke mondjuk 175 cm, vagy szignifikánsan k¨ ulönbözik-e ez a 10 évvel ezel˝otti egyetemistákét´ ol). Mindehhez megfigyeléseket végz¨ unk, azaz mintát vesz¨ unk. Statisztikai minta alatt értj¨ uk f¨ uggetlen, azonos eloszl´ as´ u valósz´ın˝ uségi változók egy X1 , X2 , . . . , Xn véges sorozatát, ahol az Xi valósz´ın˝ uségi változók eloszl´ asa megegyezik az X háttérváltoz´ oéval. Az X1 , . . . , Xn mintát röviden jelölje X, azaz X = (X1 , . . . , Xn ) n-dimenziós, f¨ uggetlen komponens˝ u véletlen vektor (vektor érték˝ u valósz´ın˝ uségi változó), egy konkrét kimenetelt pedig jelöljön x = (x1 , . . . , xn ), ezt a minta realiz´ aci´ ojának nevezz¨ uk. A mintaelemek egy T = T (X) = T (X1 , . . . , Xn ) mérhet˝o f¨ uggvényét statisztik´ anak h´ıvjuk. Egy statisztikában információt tömör´ıt¨ unk. Az lesz majd a “jó” statisztika, mely nem vesz´ıt lényeges információt a tömör´ıtés által. Bevezetj¨ uk a következ˝o alapstatisztik´ akat. Legyen X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u n-elem˝ u minta. Defin´ıci´ o. Az n

X ¯= 1 Xi X n i=1 statisztikát minta´ atlagnak nevezz¨ uk. ¯ n jelölést használjuk, Ha hangs´ ulyozni szeretnénk a mintaelemszámot, akkor az X ha pedig a konkrét realizációkkal számolunk, akkor x ¯-t vagy x ¯n -t ´ırunk. Steiner-t´ etel. Az x1 , . . . , xn ∈ R r¨ ogz´ıtett értékekkel és tetsz˝ oleges c ∈ R val´ os sz´ ammal n n 1X 1X (xi − c)2 = (xi − x ¯)2 + (¯ x − c)2 n i=1 n i=1 teljes¨ ul. 1

2

Defin´ıci´ o. Az

n

1X ¯ 2 (Xi − X) S = n i=1 2

statisztikát empirikus (tapasztalati) sz´ or´ asnégyzetnek nevezz¨ uk, az n

S∗2 =

n 1 X ¯ 2 (Xi − X) S2 = n−1 n − 1 i=1

statisztikát pedig korrig´ alt empirikus (tapasztalati) sz´ or´ asnégyzetnek. A fenti mennyiségek gyöke az empirikus (tapasztalati) sz´ or´ as illetve a korrig´ alt empirikus (tapasz∗ talati) sz´ or´ as, melyeket S illetve S jelöl. Ha hangs´ ulyozni szeretnénk a mintaelemszámot, akkor az Sn2 illetve Sn∗ 2 jelölést használjuk, ha pedig a konkrét realiz´ aciókkal számolunk, akkor s2n -t vagy s∗n 2 -t ´ırunk. K¨ ovetkezmény. A Steiner tételb˝ol c = 0 választással következik, hogy az empirikus szórásnégyzetet a következ˝oképpen is számolhatjuk: n

S2 =

1X 2 ¯ 2. ¯ 2 = X2 − X X −X n i=1 i

¯ √n/S ∗ mennyiséget a minta´ Defin´ıci´ o. A X atlag standardiz´ alt hib´ aj´ anak (standard ¯ mennyiséget error of mean = S.E.M.) nevezz¨ uk. Pozit´ıv minta esetén az S/X sz´ or´ asi egy¨ utthat´ onak h´ıvják. Mérések esetében ez utóbbi a relat´ıv hibát jelenti. Defin´ıci´ o. Legyen k rögz´ıtett pozit´ıv egész. Az n

1X k X Mk = n i=1 i statisztikát k-adik empirikus (tapasztalati) momentumnak nevezz¨ uk, az n

Mkc

1X ¯ k = (Xi − X) n i=1

statisztika pedig a k-adik empirikus (tapasztalati) centr´ alis momentum. Nyilván S 2 = M2c = M2 − M12 . Defin´ıci´ o. Az M3c /(M2c )3/2 valósz´ın˝ uségi változó a ferdeség (skewness), az M4c /(M2c )2 − 3 valósz´ın˝ uségi változó pedig a lapults´ ag (curtosis). El˝obbi az eloszlás szimmetriáját fejezi ki (szimmetrikus eloszlásoknál elméleti értéke 0), utóbbi a s˝ ur˝ uségf¨ uggvény laposságát méri (a standard normális eloszlás lapultsága zérus).

3

Defin´ıci´ o. Legyen (X, Y )T 2-dimenziós valósz´ın˝ uségi változó, (X1 , Y1 )T , . . . , (Xn , Yn )T pedig vele azonos eloszlás´ u f¨ uggetlen azonos eloszl´ as´ u n-elem˝ u minta. Jelölje SX illetve SY a komponensek empirikus szórását! A n

n

X 1X ¯ i − Y¯ ) = 1 ¯ Y¯ (Xi − X)(Y X i Yi − X C= n i=1 n i=1 statisztikát empirikus (tapasztalati) kovarianci´ anak, az Pn

¯ Y¯ X i Yi − n X Pn 2 2 ¯2 ¯2 i=1 Xi − nX i=1 Yi − nY

C R= =q P n SX SY

i=1

statisztikát pedig empirikus (tapasztalati) korrel´ aci´ onak nevezz¨ uk.

Defin´ıci´ o. Az X1 , . . . , Xn mintaelemek értékeit nem-cs¨ okken˝o sorrendben felvev˝o ∗ ∗ ∗ X1 ≤ X2 ≤ · · · ≤ Xn valósz´ın˝ uségi változókat n-elem˝ u rendezett mint´ anak nevezz¨ uk, ´ıgy a rendezett mintaelemek sem nem f¨ uggetlenek, sem nem azonos eloszlás´ uak. Teh´ at minden kontrét x1 , x2 , . . . , xn realiz´ ació esetén ezt az n valós számot kell nagyság szerint nem csökken˝o sorrendbe rendezni, és a nagyság szerint i-ediket x∗i -gal jelölni. Természetesen a szorzattér k¨ ulönböz˝o elemeire más és más lesz a mintaelemek sorrendje, és ´ıgy a rendezés is. Defin´ıci´ o. Az Xn∗ − X1∗ statisztikát mintaterjedelemnek (range) nevezz¨ uk. Defin´ıci´ o. Empirikus (tapasztalati) medi´ an alatt értj¨ uk páratlan n (n = 2k + 1) ∗ ∗ ∗ esetén Xk+1 -ot, páros n (n = 2k) esetén pedig (Xk + Xk+1 )/2-t. Ez valójában a középs˝o mintaelem, és amennyiben a realiz´ acióból számolt értékét m jelöli, ezzel teljes¨ ul a Steiner-tétel L1 - normában vett megfelel˝oje: ´ ıt´ All´ as.

n

n

i=1

i=1

1X 1X min |xi − c| = |xi − m|. c∈R n n A fenti minimumot a minta a ´tlagos abszol´ ut eltérésének is szokták nevezni. A következ˝okben egy n-elem˝ u minta alapján k´ıvánjuk közel´ıteni a háttéreloszlást, ezért megkonstruáljuk az u ń. empirikus eloszl´ asf¨ uggvényt, amir˝ol belátjuk, hogy “elég nagy” n-re jól rekonstruálja az ismeretlen eloszl´ asf¨ uggvényt, akármi is legyen a véletlen minta. Ezt a tényt fogalmazza meg prec´ızen a Glivenko–Cantelli-tétel, melyet a statisztika egyik alaptételének is szoktak tekinteni. Defin´ıci´ o. Empirikus (tapasztalati) eloszl´ asf¨ uggvény alatt a következ˝o véletlen f¨ uggvényt értj¨ uk: tetsz˝oleges x ∈ R számra legyen Fn∗ (x) :=

   0, i=1 I(Xi < x) k = , n  n  1,

Pn

ha ha ha

x ≤ X1∗ ,

∗ Xk∗ < x ≤ Xk+1

x > Xn∗ .

(k = 1, . . . , n − 1)

4

Itt I(·) az argumentumban álló esemény indikátorváltozója. Könny˝ u látni, hogy az I(Xi < x) indikátorváltozók f¨ uggetlen azonos eloszl´ as´ uak (Bernoulli eloszlás´ uak F (x) paraméterrel, ahol F az X háttérváltozó eloszl´ asf¨ uggvénye). Megjegyezz¨ uk, hogy Fn∗ az x1 , . . . , xn realiz´ acióra olyan, mint egy Y ∼ U(x1 , . . . , xn ) diszkrét egyenletes eloszlás´ u valósz´ın˝ uségi változó eloszl´ asf¨ uggvénye. Nyilván E(Y ) = ¯ és D2 (Y ) = S 2 . X ´ ıt´ All´ as. Legyen F (x) az elméleti eloszl´ asf¨ uggvény és x ∈ R r¨ ogz´ıtett. Akkor D2 (Fn∗ (x)) =

E(Fn∗ (x)) = F (x),

F (x)(1 − F (x)) , n

és limn→∞ Fn∗ (x) = F (x), 1 val´ osz´ın˝ uséggel. A következ˝o tétel ennél még er˝osebb áll´ıtást fogalmaz meg: n → ∞ estén az empirikus eloszlásf¨ uggvények Fn∗ sorozata nemcsak rögz´ıtett x-re, hanem az egész valós számegyenesen egyenletesen is tart F -hez, 1 valósz´ın˝ uséggel. Glivenko–Cantelli t´ etel. n → ∞ esetén sup | Fn∗ (x) − F (x)| → 0,

1 val´ osz´ın˝ uséggel.

x∈R

A tétel a mintavételen alapuló eljárások jogoss´ agát támasztja alá. Amennyiben abszol´ ut folytonos az eloszl´ asunk, az elméleti s˝ ur˝ uségf¨ uggvényt is közel´ıteni szeretnénk. A tapasztalati eloszl´ asf¨ uggvény bármilyen jól közel´ıti is a fenti tétel értelmében az elméletit, mégiscsak egy szakaszonként konstans f¨ uggvény, ´ıgy deriváltja nem adhat a problémára megoldást. Szokták az empirikus eloszlásf¨ uggvényt u ń. magf¨ uggvény seg´ıtségével “sim´ıtani”, amely már folytonos, s˝ot differenciálható lesz és deriváltja “jól” közel´ıti az elméleti s˝ ur˝ uséget (magf¨ uggvényes becsl˝ok): d fˆn (x) := dx

Z

∞

−∞

Fn∗ (x) · m(x − y) dy,

ahol az m magf¨ uggvény egy kell˝oen sima valósz´ın˝ uségi s˝ ur˝ uségf¨ uggvény. A fenti konvol´ ució tulajdonképpen azt jelenti, hogy az eredeti valósz´ın˝ uségi változónkra egy “zaj” rakódik rá. Most csak egy egyszer˝ ubb konstrukciót mutatunk be. n elem˝ u mintánkhoz osszuk fel a számegyenest a hn hossz´ uság´ u ∆j diszjunkt intervallumokra, és jelölje νj a ∆j -be es˝o mintaelemek számát! Defin´ıci´ o. Az fn∗ (x) =

νj , nhn

x ∈ ∆j

összef¨ uggéssel definiált f¨ uggvényt a minta s˝ ur˝ uséghisztogramjának nevezz¨ uk. Mivel a mintaelemek befoglalhatók egy véges intervallumba, nyilván ezen k´ıv¨ ul ∗ = 0 lesz, és ezen bel¨ ul véges sok k¨ ulönböz˝o fn (x) érték alakul ki. A s˝ ur˝ uséghisztogram

fn∗ (x)

5

is szakaszonként konstans f¨ uggvény, és az alatta lev˝o összter¨ ulet 1. Belátható, hogy amennyiben x a valódi f s˝ ur˝ uségf¨ uggvény folytonossági pontja és n → ∞ olyan módon, hogy még limn→∞ hn = 0 és limn→∞ nhn = ∞ is teljes¨ ul, akkor limn→∞ fn∗ (x) = f (x), 1 valósz´ın˝ uséggel. (Pl. ha mintánk az [a, b] intervallumba foglalható be és hn = (b − a)/n, akkor a feltétel nem teljes¨ ul, viszont hn = (b − a)/n1−α , 0 < α < 1 esetén teljes¨ ul.) A Glivenko–Cantelli tétel arról szól, hogy az empirikus eloszl´ asf¨ uggvény 1 valósz´ın˝ uséggel (majdnem minden realizációra) az egész számegyenesen egyenletesen tart az elméleti eloszlásf¨ uggvényhez. Tehát kell˝o szám´ u mintát véve tetsz˝oleges pontossággal közel´ıteni tudjuk a valódi eloszlásf¨ uggvényt. De adott pontossághoz vajon hány elem˝ u mintát kell venn¨ unk? A konvergencia sebességére vonatkoz´ o an u ´ jabb t´ e teleket fogunk ki√ u közel´ıtéshez mondani. Ezek azt jelzik, hogy n k´ısérlet kb. 1/ n nagyságrend˝ elegend˝o. Legyen a háttéreloszlás F eloszl´ asf¨ uggvénye folytonos, Fn∗ pedig jelölje az nelem˝ u mintához tartozó empirikus eloszl´ asf¨ uggvényt. Akkor T´ etel (Szmirnov). lim P

n→∞

√

n sup(Fn∗ (x) x∈R

ahol S(z) =

− F (x)) < z

0,

ha −2z 2

1−e

,

ha

∀z ∈ R,

= S(z),

z ≤ 0,

z > 0,

az u ń. Szmirnov-eloszl´ asf¨ uggvény T´ etel (Kolmogorov). √ ∗ lim P n sup |Fn (x) − F (x)| < z = K(z),

n→∞

∀z ∈ R,

x∈R

ahol K(z) =

0, P∞

ha

i=−∞ (−1)

2 2

i −2i z

e

=1−2

az u ń. Kolmogorov-eloszl´ asf¨ uggvény.

P∞

i=1 (−1)

2 2

i−1 −2i z

e

,

ha

z ≤ 0,

z > 0,

Legyen most az X illetve Y háttérváltozó (nem feltétlen¨ ul ismert) eloszlásf¨ uggvénye ∗ ∗ a folytonos F illetve G f¨ uggvény, Fn illetve Gm pedig jelölje az n-elem˝ u X1 , . . . , Xn illetve az m-elem˝ u Y1 , . . . , Ym , egymástól is f¨ uggetlen mintákhoz tartozó empirikus eloszlásf¨ uggvényeket. Tegy¨ uk fel továbbá, hogy F (x) = G(x), ∀x ∈ R. Akkor T´ etel (Szmirnov). lim P

n,m→∞

r

nm sup(F ∗ (x) − G∗m (x)) < z n + m x∈R n

= S(z),

∀z ∈ R.

6

T´ etel (Szmirnov). r nm ∗ ∗ sup |F (x) − Gm (x)| < z = K(z), lim P n,m→∞ n + m x∈R n

∀z ∈ R.

A Kolmogorov–Szmirnov tételeket haszn´ alni fogjuk a hipotézisvizsgálatban annak eldöntésére, hogy mintánk egy adott F eloszl´ asf¨ uggvény˝ u eloszlásból származike, vagy pedig két minta származhat-e ugyanabból az eloszl´ asból. Vegy¨ uk észre, hogy a határeloszlások f¨ uggetlenek a valódi háttéreloszlástól, ´ıgy u ń. nem-paraméteres próbák definiálhatók seg´ıtség¨ ukkel. Most az u ń. “jó” statisztika fogalmát pontos´ıtjuk. Defin´ıci´ o. Likelihood-f¨ uggvény alatt értj¨ uk a mintaelemek egy¨ uttes valósz´ın˝ uség iln letve s˝ ur˝ uségf¨ uggvényét. Legyen x = (x1 , . . . , xn ) ∈ R rögz´ıtett, és Lθ (x) a likelihood-f¨ uggvény az x helyen. Ha a háttéreloszlás diszkrét pθ valósz´ın˝ uségf¨ uggvényel, akkor n n Y Y Lθ (x) = Pθ (X = x) = Pθ (Xi = xi ) = pθ (xi ), i=1

i=1

ha pedig abszol´ ut folytonos fθ s˝ ur˝ uségf¨ uggvénynyel, akkor Lθ (x) =

n Y

fθ (xi ).

i=1

Vagyis a likelihood-f¨ uggvény az x helyen diszkrét esetben annak a valósz´ın˝ uségét adja, hogy a realizáció éppen x, abszol´ ut folytonos esetben pedig annak a valósz´ın˝ uségével arányos, hogy a realizáció x “kis” környezetébe esik. Neyman–Fisher Faktoriz´ aci´ os T´ etel. Egy X minta T (X) statisztik´ aja pontosan akkor elégséges, ha létezik olyan gθ (t) (θ ∈ Θ, t ∈ T (=T értékkészlete)) és h(x) (x ∈ X ) mérhet˝ o f¨ uggvény, hogy Lθ (x) = gθ (T (x)) · h(x) teljes¨ ul minden θ ∈ Θ, x ∈ X esetén. Azaz a likelihood-f¨ uggvény csak a T statisztikán kereszt¨ ul f¨ ugg a paramétert˝ol. Keress¨ unk elégséges statisztikákat a faktorizációs tétel alapján! 1. Példa: Legyen X1 , . . . , Xn ∼ P(λ) f¨ uggetlen azonos eloszl´ as´ u! ! n n n Y Y X λxi −λ Pni=1 xi −nλ 1 Lλ (x) = xi ) · h(x), e · = gλ ( e = λ x ! x ! i i i=1 i=1 i=1 ´ıgy

Pn

i=1

¯ is az. Xi elégséges statisztika, és nyilván X

2. Példa: Legyen X1 , . . . , Xn ∼ Exp(λ) f¨ uggetlen azonos eloszl´ as´ u! Lλ (x) =

n Y

i=1

λe−λxi = λn e−λ

Pn

i=1

xi

,

7

ami megfelel gλ (T (x))-nek, és h(x) = 1. Ezért ¯ is az. X

Pn

i=1

Xi elégséges statisztika, és

Nyilván egy elégséges statisztika invertálható f¨ uggvénye is elégséges lesz. Nézz¨ unk most példákat többdimenziós paramétertér esetén elégséges statisztikára (ilyenkor persze a statisztika is többdimenziós). 3. Példa: Legyen X1 , . . . , Xn ∼ N (µ, σ 2 ) f¨ uggetlen azonos eloszl´ as´ u! Itt θ = (µ, σ 2 ). ! n 1 X 1 (xi − µ)2 = exp − 2 Lθ (x) = √ n 2σ i=1 ( 2πσ) #! " n 1 X 1 2 2 exp − 2 , (xi − x ¯) + n(¯ x − µ) = √ 2σ ( 2πσ)n i=1

¯ S 2 ) elégséges statisztikapárral, h(x) = ami megfelel gθ (T (x))-nek a T (X) = (X, P P 2 ¯ S ∗ ) statisztikapár, vagy a ( n Xi , n X 2 ) statisztikapár 1. Nyilván az (X, i i=1 i=1 is elégséges lesz.

4. Példa: Legyen X1 , . . . , Xn ∼ U[a, b] f¨ uggetlen azonos eloszl´ as´ u! Itt θ = (a, b). Lθ (x) =

n Y

i=1

fθ (xi ) =

1 , (b−a)n

ha

0,

k¨ ulönben.

x1 , . . . , xn ∈ [a, b]

Azaz Lθ (x) = (b − a)−n I(x∗1 ≥ a, x∗n ≤ b) = gθ (x∗1 , x∗n ) és h(x) = 1 választással a faktorizáció teljes¨ ul. Ezért az (X1∗ , Xn∗ ) pár elégséges statisztikát ad az (a, b) paraméterpárra. Defin´ıci´ o. A T elégséges statisztikát minim´ alis elégséges statisztik´ anak nevezz¨ uk, ha f¨ uggvénye bármely más elégséges statisztikának. Ez a legtömörebb, és ekvivalencia erejéig már egyertelm˝ u.

8

´ ´ BECSLESELM ELET Legyen (Ω, A, P) paraméteres statisztikai mez˝o, ahol P = {Pθ : θ ∈ Θ}. A θ paramétert vagy annak valamely ψ(θ) f¨ uggvényét szeretnénk becs¨ ulni az X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta alapján konstruált T (X) statisztika ˆ ˆ seg´ıtségével. Jelölje θ ill. ψ az ´ıgy kapott becslést! Egy becslés jós´ agát k¨ ulönböz˝o kritériumokkal mérj¨ uk. Ezekr˝ol, továbbá arról lesz szó, mikor található legjobb becslés, és n növekedésével hogyan javul a becslés. Defin´ıci´ o. T (X) torz´ıtatlan becslés ψ(θ)-ra, ha Eθ (T (X)) = ψ(θ),

∀θ ∈ Θ.

¯ mindig torz´ıtatlan becslés m(θ) = Eθ (X)-re, ha ez véges. ´ ıt´ All´ as. X Bizony´ıt´ as. Vegy¨ uk az X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u mintát! Feltett¨ uk, ´ hogy a köz¨ os várható érték létezik: Eθ (Xi ) = m(θ), i = 1, . . . , n. Igy n

¯n) = Eθ (X

1X Eθ (Xi ) = m(θ), n i=1

∀θ ∈ Θ.

Könny˝ u látni, hogy a mintaelemek bármely konvex lineáris kombinációja is torz´ıtatlan becslés a fenti véges várhat´ o értékre, tehát a torz´ıtatlanság önmagában még nem teszi egyértelm˝ uvé a becslést. A fenti áll´ıtásb´ ol következik, hogy a Bn (p) binomiális eloszlás p paraméterére rögz´ıtett n P esetén a relat´ıv gyakoriság torz´ıtatlan becslés, ugyanis Y ∼ Bn (p) n el˝oáll Y = i=1 Xi alakban, ahol X1 , . . . , Xn ∼ I(p) f¨ uggetlen azonos eloszlás´ u ¯ Bernoulli-változók p várhat´ o értékkel, X = Y /n pedig a relat´ıv gyakoriság. A torz´ıtatlanságnál gyengébb követelmény a következ˝o:

Defin´ıci´ o. A T (Xn ) statisztikasorozat aszimptotikusan torz´ıtatlan becslés ψ(θ)-ra, ha lim Eθ (T (Xn )) = ψ(θ), ∀θ ∈ Θ. n→∞

´ ıt´ All´ as. Legyen X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta egy tetsz˝ oleges olyan eloszl´ asb´ ol, melyre minden θ ∈ Θ esetén σ 2 (θ) = D2θ (X) < ∞. Akkor Sn2 aszimptotikusan torz´ıtatlan, Sn∗ 2 pedig torz´ıtatlan becslése a sz´ or´ asnégyzetnek. Célunk az, hogy a torz´ıtatlan becslések között minél kisebb szórás´ uakat találjunk. Defin´ıci´ o. Legyen a T1 és T2 statisztika torz´ıtatlan becslés a θ paraméterre, vagy annak valamely ψ(θ) f¨ uggvényére. Azt mondjuk, hogy T1 hat´ asosabb (efficiensebb) becslés, mint T2 , ha D2θ (T1 ) ≤ D2θ (T2 ), ∀θ ∈ Θ, és legalább egy θ0 ∈ Θ esetén (2)-ben < teljes¨ ul. Egy torz´ıtatlan becslés hat´ asos (efficiens) becslés, ha bármely más torz´ıtatlan becslésnél hatásosabb.

9

Hatásos becslés nem mindig létezik, de ha van hatásos becslés, az egyértelm˝ u. Tételek alapján majd el tudjuk dönteni egy torz´ıtatlan becslésr˝ol, hogy hatásos-e, néhány esetben pedig garantálni tudjuk hatásos becslés létezését. A konzisztencia azt jelenti, hogy a megfigyelések számának növelésével javul a becslés pontossága. Defin´ıci´ o. A T (Xn ) statisztikasorozat (gyengén/er˝ osen) konzisztens becslés ψ(θ)ra, ha minden θ ∈ Θ-ra n → ∞ esetén T (Xn ) → ψ(θ) valósz´ın˝ uségben/1 val.séggel. ´ ıt´ All´ as. Ha X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta X-re és m(θ) = Eθ (X) ¯ létezik, akkor akkor Xn (gyengén és er˝ osen is) konzisztens becslés m(θ)-ra. Az áll´ıtás nem más, mint a nagy számok gyenge és er˝os törvénye. Legyen (Ω, A, P) paraméteres statisztikai mez˝o, ahol P = {Pθ : θ ∈ Θ}. Célunk az, hogy a θ paraméterre vagy annak valamely ψ(θ) f¨ uggvényére konstruált torz´ıtatlan becslések szórásnégyzetére alsó korlátot adjunk. Ha egy torz´ıtatlan becslésre ez a korlát eléretik, akkor biztosak lehet¨ unk abban, hogy hatásos becslés¨ unk van, ami 1 val.séggel egyértelm˝ u. Sz¨ ukség¨ unk lesz a következ˝o, R. A. Fishert˝ol származó fogalomra. Defin´ıci´ o. Legyen X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta az X háttérváloz´ o eloszlás´ aból, amely a θ paramétert˝ol f¨ ugg (θ ∈ Θ), itt csak a dim(Θ) = 1, Θ konvex esettel foglalkozunk. A fenti minta Fisher-féle inform´ aci´ oja az 2 ∂ ln Lθ (X) ≥ 0 In (θ) = Eθ ∂θ mennyiséggel van definiálva. T´ etel (Cram´ er–Rao-egyenl˝ otlens´ eg). Legyen (Ω, A, P) paraméteres statisztiaki mez˝ o, ahol P = {Pθ : θ ∈ Θ}, dim (Θ) = 1. Legyen X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta a Pθ eloszl´ asb´ ol, amir˝ ol most tegy¨ uk fel, hogy abszol´ ut folytonos. Tegy¨ uk fel tov´ abb´ a, hogy a T (X) statisztika valamely deriv´ alhat´ o ψ f¨ uggvénnyel képzett ψ(θ) paraméterf¨ uggvény torz´ıtatlan becslése, D2θ (T ) < +∞,

∀θ ∈ Θ

tov´ abb´ a teljes¨ ulnek az al´ abbi bederiv´ alhat´ os´ agi feltételek: Z Z Z Z ∂ ∂ · · · Lθ (x) dx = · · · Lθ (x) dx, ∂θ ∂θ

∀θ ∈ Θ

és

Z Z Z Z ∂ ∂ · · · T (x)Lθ (x) dx = · · · T (x) Lθ (x) dx, ∀θ ∈ Θ, ∂θ ∂θ R R ahol ··· n-dimenzi´ os integr´ al´ ast jelent a likelihood-f¨ uggvénytart´ oj´ an. Akkor D2θ (T ) ≥

(ψ ′ (θ))2 , In (θ)

∀θ ∈ Θ.

A következ˝o tétel arról szól, hogyan lehet egy torz´ıtatlan becslés hatásosságát jav´ıtani egy elégséges statisztika seg´ıt ségével.

10

Rao–Blackwell–Kolmogorov T´ etel. Legyen (Ω, A, P) paraméteres statisztikai mez˝ o, ahol P = {Pθ ; θ ∈ Θ}. Legyen X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta valamely Pθ eloszl´ asb´ ol. Legyen tov´ abb´ a (a) T (X) elégséges statisztika, (b) S(X) torz´ıtatlan becslés a ψ(θ) paraméterf¨ uggvényre. Akkor T -nek van olyan U = g(T ) f¨ uggvénye, amely (1) szintén torz´ıtatlan becslése a ψ(θ) paraméterf¨ uggvénynek: Eθ (U ) = ψ(θ), ∀θ ∈ Θ, (2) U legal´ abb olyan hat´ asos becslése ψ(θ)-nak, mint S: D2θ (U ) ≤ D2θ (S), ∀θ ∈ Θ.

(3) U konstrukci´ oja a k¨ ovetkez˝ o: U := Eθ (S|T ) = g(T (X)), ∀θ ∈ Θ (ezt nevezz¨ uk “blackwelliz´ al´ asnak”). A tétel u ¨zenete: a hat´ asos becsléseket a minimális elégséges statisztika f¨ uggvényei közt kell keresni. Becsl´ esi m´ odszerek Maximum likelihood elv Legyen (Ω, A, P) dominált statisztikai mez˝o, ahol P = {Pθ ; θ ∈ Θ} (a paramétertér lehet többdimenzi´ os és legyen konvex). Vegy¨ unk egy X1 , . . . , Xn f¨ uggetlen azonos eloszlás´ u mintát a Pθ eloszl´ asból (θ ismeretlen). Az x1 , . . . , xn realizáció birtokában ˆ fogadjuk el, amely mellett annak a valósz´ın˝ a paraméter becslésének azt a θ-ot usége, hogy az adott realizációt kapjuk, maximális. Mivel ezt a valósz´ın˝ uséget a likelihoodf¨ uggvény t¨ ukrözi, a módszer ezt maximalizálja. A maximumhely csak a realizációtól f¨ ugg, tehát statisztikát kapunk becslésként. Defin´ıci´ o. Legyen Lθ (x) : X × Θ → R+ egy n-elem˝ u mintához tartozó likelihoodˆ f¨ uggvény, tfh. L a szorzattéren mérhet˝o. A θ : X → Θ statisztikát a θ paraméter maximum likelihood (ML-)becslésének nevezz¨ uk, ha θˆ glob´ alis maximumhelye a likelihood-f¨ uggvénynek, azaz Lθ(x ˆ 1 ,...,xn ) (x1 , . . . , xn ) ≥ Lθ (x1 , . . . , xn ) teljes¨ ul ∀θ ∈ Θ és (x1 , . . . , xn ) ∈ X esetén. Amennyiben Θ konvex, ny´ılt halmaz és L differenciálható θ szerint, akkor a globális max. helyet a stacionárius pontok közt keress¨ uk. Ilyenkor az Lθ (x) likelihood-f¨ uggvény helyett az lθ (x) = ln Lθ (x) loglikelihood-f¨ uggvényt deriválják θ szerint, ugyanis a log-f¨ uggvény monotonitása miatt a két f¨ uggvény lokális max. helyei megegyeznek. Több paraméter esetén parciális deriváltakat vesz¨ unk. Ezután ellen˝orizz¨ uk, hogy tényleg lokális maximumot kaptunk-e, és kiválasztjuk a globálisat. 1. Példa: Legyen X1 , . . . , Xn ∼ P(λ) f¨ uggetlen azonos eloszl´ as´ u! # " n n n X X Y λxi ln xi ! − λn, xi − e−λ = ln λ lλ (x) = ln x ! i i=1 i=1 i=1 melynek λ szerinti deriválásával a

n

∂lλ (x) 1X xi − n = 0 = ∂λ λ i=1

11

ˆ=x likelihood-egyenlet adódik, melynek megoldása λ ¯. Ezen a helyen a loglikelihoodf¨ uggvény λ szerinti második deriváltja negat´ıv, ´ıgy tényleg lokális maximumhe¯ statisztika lyet kapunk, ami egyben glob´ alis maximumhely is. Tehát a T (X) = X a λ paraméter ML-becslése. 2. Példa: Legyen X1 , . . . , Xn ∼ Exp(λ) f¨ uggetlen azonos eloszl´ as´ u! lλ (x) = ln

"

n Y

i=1

#

λe−λxi = n ln λ − λ

n X

xi ,

i=1

melynek λ szerinti deriválásával a likelihood-egyenlet adódik, melynek megoldása ˆ = 1/¯ λ x. Ezen a helyen a loglikelihood-f¨ uggvény λ szerinti második deriváltja negat´ıv, ´ıgy tényleg lokális maximumhelyet kapunk, ami egyben globális maxi¯ statisztika a λ paraméter ML-becslése. mumhely is. Teh´ at a T (X) = 1/X 3. Példa: Legyen X1 , . . . , Xn ∼ N (µ, σ 2 ) f¨ uggetlen azonos eloszlás´ u, θ = (µ, σ 2 ). n X √ (x −µ)2 (xi − µ)2 1 − i2σ 2 2 √ e − ln( 2πσ ) − = = lθ (x) = ln 2 2σ 2πσ i=1 i=1 n Y

n n 1 X 2 = − (ln(2π) + ln σ ) − 2 (xi − µ)2 . 2 2σ i=1

n ∂lθ (x) 1 X 2(xi − µ)(−1) = 0 =⇒ µ ˆ=x ¯. =− 2 ∂µ 2σ i=1 n n 1 1 X ∂lθ (x) (xi − µ)2 = 0. = − + 2 2 2 2 ∂σ 2σ 2(σ ) i=1

Mivel a µ ˆ = x ¯ széls˝oértékhely nem f¨ ugg a σ 2 paramétert˝ol, ezért µ ˆ = x ¯-ot a 2 ˆ 2 második egyenletbe helyettes´ıtve σ = Sn adódik, ami torz´ıtott, de aszimptotikusan torz´ıtatlan becslése a szórásnégyzetnek. Most vizsgáljuk meg a második deriváltakból álló Hesse-mátrixot a stacionárius (¯ x, s2n ) helyen: 

H =

− sn2

n

0

0 − 2(sn2 )2 n



,

ez negat´ıv definit, tehát tényleg lokális maximumhelyet kaptunk, ami a paramétertertom´ any nyitott volta miatt egyben glob´ alis maximumhely is. 4. Példa: Legyen X1 , . . . , Xn ∼ U[a, b] f¨ uggetlen azonos eloszl´ as´ u! Itt θ = (a, b). Az n 1 · I(a ≤ x∗1 , b ≥ x∗n ) Lθ (x) = b−a likelihood-f¨ uggvény nyilván csak akkor k¨ ulönbözik 0-tól, ha az a ≤ x∗1 és b ≥ x∗n feltételek teljes¨ ulnek. Ilyen feltételek mellett viszont az 1/(b − a)n tényez˝o a lehet˝o legrövidebb [a, b] intervallum választása esetén lesz maximális, azaz az intervallum “r´ ah´ uz´ odik” a mintára. Tehát (ˆ a, ˆb) = (X1∗ , Xn∗ ) lesz a paraméterpár ML-becslése.

12

Momentumok m´ odszere A módszert általában több paraméter egy¨ uttes becslésére használják. Legyen X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta egy Pθ eloszl´ asból, θ = (θ1 , . . . , θk ). Válasszunk k db. momentumot (általában az els˝o k-t), amelyek a θ1 , . . . , θk paramétereket már egyértelm˝ uen meghatározzák: mj = Eθ (X j ) = gj (θ1 , . . . , θk ),

j = 1, . . . , k.

Tfh. a (g1 , . . . , gk ) : Rk → Rk leképezésnek létezik inverze, jelölje ezt (h1 , . . . , hk ) : Rk → Rk , ahol tehát hi (m1 , . . . , mk ) = θi . Defin´ıci´ o. A fenti jelölésekkel θi momentum becslése alatt a θî = hi (m ˆ 1, . . . , m ˆ k ), statisztikát értj¨ uk, ahol

i = 1, . . . , k

n

1X j Xi m ˆj = n i=1

a minta j-edik empirikus momentuma.

Legkisebb négyzetes becslések, regresszi´ o Az alapprobléma a következ˝o: Az X, Y v.v. egy¨ uttes eloszl´ asának ismeretében közel´ıteni szeretnénk Y -t X mérhet˝o t fv.-ével legkisebb négyzetes értelemben: E(Y − t(X))2 → min . t − ben. Tudjuk, hogy az optimumot az u ń. regresszi´ os g¨ orbe szolgáltatja, melynek egyenlete: topt (x) = E(Y | X = x), azaz Y feltételes várható értéke a X = x feltétel mellett. Amennyiben X, Y egy¨ uttes eloszlása 2-dimenziós normális, a regressziós görbe egyenes lesz. Egyéb esetekben is szokták a a legkisebb négyzetes értelemben legjobb lineáris közel´ıtést keresni, k¨ ulönösen ha az elméleti egy¨ uttes eloszl´ as nem ismert, csak egy 2-dimenziós minta áll rendelkezés¨ unkre. 1. Elméleti megold´ as Tegy¨ uk fel, hogy az X, Y v.v.-k (általában ismeretlen) egy¨ uttes eloszlása abszol´ ut folytonos, továbbá a változók els˝o, második és vegyes második momentumai léteznek, ezeket k¨ ulön jelölj¨ uk is: E(X) = m1 ,

E(Y ) = m2 ,

D2 (X) = σ12 ,

D2 (Y ) = σ22 ,

Cov (X, Y ) = c,

Corr (X, Y ) = r,

feltehet˝o, hogy σ1 > 0. Keress¨ uk az l(x) = ax + b regresszi´ os egyenest, mellyel h(a, b) = E(Y − l(X))2 = E(Y − aX − b)2 → min . a, b − ben. Ez egy kétváltozós széls˝oérték feladat, a stacionárius megoldás az alábbi egyenletrendszerb˝ol kapható: ∂h = −2E[(Y − aX − b)X] = 0 ∂a ∂h = −2E[Y − aX − b] = 0 ∂b

13

(ui. a fenti feltételek mellett a paraméter szerinti deriválás és az integrálást jelent˝o várható érték képzés felcserélhet˝o), vagy ami ezzel ekvivalens: a · E(X 2 ) + b · E(X) = E(XY ) a · E(X) + b = E(Y ). Az ismeretlenek a és b, az egy¨ utthatómátrix: E(X 2 ) E(X) H= , E(X) 1 melynek determinánsa: |H| = E(X 2 )−E2 (X) = σ12 > 0, ´ıgy a Cramer-szabállyal: a=

c rσ1 σ2 σ2 E(XY ) − E(X) · E(Y ) = 2 = =r , 2 2 σ1 σ1 σ1 σ1 b = E(Y ) − aE(X) = m2 −

c m1 . σ12

A másodrend˝ u deriváltakat tartalmazó Hesse-mátrix szintén H, ennek mindkét f˝ominora pozit´ıv, ´ıgy a fenti a, b valóban lokális minimumot szolgáltat, ami a tartományok ny´ılts´ aga, és a differenciálhatósági feltételek teljes¨ ulése miatt globális minimumot is ad. A regressziós egyenes egyenlete tehát: y = ax + b =

c (x − m1 ) + m2 , σ12

vagy még könnyebben megjegyezhet˝o formában: x − m1 y − m2 =r . σ2 σ1 Az is látható, hogy a kovariancia (korreláció) el˝ojele adja meg a regressziós egyenes iránytangensének el˝ojelét. Néh´ any szó a regresszió (=visszatérés) fogalom jelentésér˝ol. Sir Francis Galton brit orvos a XIX. század második felében sz¨ ul˝o–gyerek testmagasság kapcsolatát vizsgálta. Feltételezte, hogy σ1 = σ2 = σ. Akkor a gyerek testmagassága (Y ) a sz¨ ul˝o testmagasságával (X) a következ˝oképpen predikálható lineárisan: Y = m2 + r(X − m1 ), ahol r az X és Y közti korrelációt jelöli. Ha |r| < 1, akkor nyilván |Y − m2 | < |X − m1 |. Ebb˝ol látható, hogy az r > 0 esetben: amennyiben a sz¨ ul˝o az átlagnál magasabb, a gyerek is az lesz, de az utód magassága kevesebbel m´ ulja fel¨ ul az átlagot, mint a sz¨ ul˝oé. Hasonlóan, ha a sz¨ ul˝o az átlagnál alacsonyabb, a gyerek is az lesz, de az utód magassága kevesebbel van alatta az átlagnak, mint a sz¨ ul˝oé. (Az átlagtól való abszol´ ut eltérésre negat´ıv korreláció esetén is hasonló mondható.)

14

Ezt a jelenséget nevezte el Galton az átlaghoz való “visszatérés”nek, latinul regressziónak. 2. A regresszi´ os egy¨ utthat´ ok becslése mint´ ab´ ol Legyen most (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. minta az (X, Y ) háttérváltozóra. A fenti modell a, b egy¨ utthatóit becs¨ ulj¨ uk a legkisebb négyzetek m´ odszerével: h(a, b) =

n X i=1

(Yi − aXi − b)2 → min .

a, b − ben.

Miután az a, b szerinti parciális deriváltakat 0-val tessz¨ uk egyenl˝ ové, a következ˝o egyenletrendszert kapjuk: a·

n X

Xi2

i=1

a·

n X i=1

+b·

n X

Xi =

i=1

Xi + b · n =

n X

X i Yi

i=1

n X

Yi .

i=1

A Cramer-szabály itt is alkalmazható, hiszen feltehet˝ o, hogy az egy¨ utthatómátrix 2 determinánsa n2 SX > 0. Teljesen hasonló számolással, mint az 1. részben kijön, hogy C SY ¯ = Y¯ − R SY X, ¯ a ˆ= 2 =R , ˆb = Y¯ − a ˆX SX SX SX ahol SX ill. SY jelöli X ill. Y (korrigálatlan) emp´ırikus szórását, C ill. R pedig az X és Y közti emp´ırikus kovarianciát ill. korrelációt jelöli. Mivel az egyenletrendszer megoldásakor ugyanazokat a lépéseket követj¨ uk el, mint az 1. részben, nem meglep˝o, hogy a és b becslésénél az elméleti els˝o és második momentumok helyébe a mintából számolt emp´ırikus momentumok lépnek, azaz momentum becslést kapunk. – Megjegyezz¨ uk, hogy lineáris regresszióra vezethet˝ok vissza a következ˝o approximáci´ os feladatok: a. Y ∼ aebX ⇐⇒ ln Y ∼ ln a + bX

b. Y ∼ aX b ⇐⇒ ln Y ∼ ln a + b ln X

c. Y ∼ 1/(aX + b) ⇐⇒ 1/Y ∼ aX + b

Mintából becslésnél a. esetben az (Xi , ln Yi ), b. esetben az (ln Xi , ln Yi ), c. esetben az (Xi , 1/Yi) (i = 1, . . . , n) 2-dimenziós mintákon hajtjuk végre a 2. részben le´ırt lineáris regressziót, és a végén néha még a becs¨ ult paramétert is transzformálni kell.

– Polinomi´ alis regresszi´ o r-edfok´ u polinomiális regressziónál keress¨ uk az Y ∼ ar X r + · · · + a1 X + a0 közel´ıtést legkisebb négyzetes értelemben: E(Y − ar X r − · · · − a1 X − a0 )2 → min . ai − kben. Az ar , . . . , a1 , a0 egy¨ utthatók meghatározásához deriváljuk célfv.-¨ unket mindegyik egy¨ uttható szerint parciálisan. A deriváltakat 0-val egyenl˝ové téve r + 1 db.

15

lineáris egyenletb˝ol álló egyenletrendszert kapunk, mely megoldható Cramerszabállyal. A megoldásokba 2r rendig jönnek be momentumok (ezek létezését fel kell tenni). Amennyiben 2-dimenziós minta alapján szeretnénk becs¨ ulni az egy¨ utthatókat, a becslésekbe a megfelel˝o emp´ırikus momentumok jönnek be (2r rendig). Megjegyezz¨ uk, hogy itt az r ≥ 1 egész szám értékét el˝ore meg kell adni, bár egyes programcsomagokban elég a szóbajöhet˝o maximális r-t megadni, és automatikusan megtörténik az ennél alacsonyabb fok´ u polinomokhoz való illesztés is az illeszkedés szignifikanciájának vizsgálatával egy¨ utt, ha a felhasználó kéri. (Az r = 1 eset a lineáris regresszió.) Intervallumbecslések Az eddigiekben u ń. pontbecslésekkel foglalkoztunk, vagyis a becs¨ ulend˝o paramétert v. paraméterf¨ uggvényt a mintaelemekb˝ol képzett egyetlen statisztikával becs¨ ult¨ uk. Most becslésként egy egész intervallumot – melynek határait természetesen statisztikák jelölik ki – fogunk használni. A módszer egyben átvezet benn¨ unket a hipotézisvizsgálatok elméletébe. Legyen (Ω, A, P) paraméteres statisztikai mez˝o, ahol P = {Pθ ; θ ∈ Θ}, dim (Θ) = 1! Legyen továbbá X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszlás´ u minta a Pθ sokaságból (θ ismeretlen)! Defin´ıci´ o. A (T1 (X), T2 (X)) statisztikapárral definiált intervallum legalább 1 − ε szint˝ u konfidenciaintervallum a ψ(θ) paraméterf¨ uggvényre, ha Pθ (T1 (X) < ψ(θ) < T2 (X)) ≥ 1 − ε,

∀θ ∈ Θ,

ahol ε el˝ore adott “kis” pozit´ıv szám (például ε = 0.05, ε = 0.01, a hozzájuk tartozó szignifikanciaszint pedig 95%, 99%). Abszol´ ut folytonos eloszl´ asoknál egyenl˝oség is elérhet˝o, ekkor értelemszer˝ uen pontosan 1 − ε szint˝ u konfidenciaintervallumról beszél¨ unk. Diszkrét eloszlásoknál nem mindig érhet˝o el az egyenl˝oség. 1. Példa: Konfidenciaintervallum szerkeszt´ ese a norm´ alis eloszl´ as v´ arhat´ o ´ ert´ ek´ ere ismert sz´ or´ as eset´ en Legyen X1 , . . . , Xn ∼ N (µ, σ02 ) f¨ uggetlen azonos eloszl´ as´ u minta, ahol σ02 ismert, ¯ torz´ıtatlan, er˝osen µ (a várható érték) ismeretlen paraméter. Tudjuk, hogy X konzisztens és hat´ asos pontbecslés µ-re. Keress¨ unk µ-re 1 − ε szint˝ u konfidenci¯ ¯ aintervallumot az (X − rε , X + rε ) szimmetrikus alakban: ¯ − rε < µ < X ¯ + rε ) = Pµ (|X ¯ − µ| < rε ) = Pµ (−rε < X ¯ − µ < rε ) = Pµ ( X ¯ −µ X rε rε −rε −rε √ < √ < √ √ √ =Φ −Φ = Pµ σ0 / n σ0 / n σ0 / n σ0 / n σ0 / n rε √ − 1 = 1 − ε, = 2Φ σ0 / n

azaz

Φ

rε √ σ0 / n

ε =1− , 2

ahonnan a standard normális eloszl´ as 1 − ε/2 kvantilisére az ε −1 1− uε/2 = Φ 2

16

jelölést használva adódik, hogy rε =

uε/2 σ0 √ . n

Teh´ at a keresett 1 − ε szint˝ u konfidenciaintervallum: uε/2 σ0 ¯ uε/2 σ0 ¯ X− √ ,X+ √ n n lesz. Vegy¨ uk észre, hogy a konfidenciaintervallum hossza n növelésével és a σ0 szór´ as csökkentésével csökken, ha viszont ezeket tartjuk konstans szinten, akkor a szignifikanciaszint növelésével (ε csökkenésével) n˝o (lévén a standard normális eloszlásf¨ uggvény, Φ, és inverze is szigor´ uan monoton növ˝o f¨ uggvények). Azaz a mintaelemszám növelésével és a szórás csökkenésével “pontosabban” be tudjuk hat´ arolni a várhat´ o értéket, viszont nagyobb biztonság csak a “pontosság rovás´ ara” érhet˝o el. Ismeretlen szór´ as esetén ez nem alkalmazható, a számolásokhoz bevezet¨ unk néhény fogalmat. Defin´ıci´ o. Legyenek X uggetlen azonos eloszlás´ u valósz´ın˝ uségi n ∼ N (0, 1) f¨ P1n, . . . , X 2 változók! Az X = X val´ o sz´ ın˝ u s´ e gi v´ a ltoz´ o eloszl´ a s´ a t n szabads´ a gi fok´ u i=1 i 2 2 (centrális) χ -eloszl´ asnak nevezz¨ uk, és χ (n)-nel jelölj¨ uk. Az I.3. paragrafusban meghatároztuk a χ2 (n)-eloszlás s˝ ur˝ uségf¨ uggvényét, továbbá láttuk, hogy Megjegyzések: - E(X) = n és D2 (X) = 2n. - A defin´ıcióból következik, hogy f¨ uggetlen, n1 , . . . , nr szabadsági fok´ u χ2 -eloszlás´ u 2 valósz´ın˝ uségi változók összege χ -eloszlás´ u lesz n1 + · · · + nr szabadsági fokkal.

- Ha n elég “nagy”, akkor a centrális határeloszlás tétel értelmében a χ2 (n)-eloszlás normális eloszlással közel´ıthet˝o az (5.4)-beli paraméterekkel.

Defin´ıci´ o. Legyenek Y ∼ N (0, 1) és X ∼ χ2 (n) f¨ uggetlen valósz´ın˝ uségi változók. Az Y p ∼ t(n) X/n

valósz´ın˝ uségi változót n szabadsági fok´ u t-eloszlás´ unak (vagy Student-eloszl´ as´ unak) nevezz¨ uk, és a fenti módon jelölj¨ uk. A t(n)-eloszlás gn -el jelölt s˝ ur˝ uségf¨ uggvénye egy páros f¨ uggvény, ami n → ∞ esetén a standard Gauss-görbéhez tart. Eloszlásf¨ uggvényére Gn (−x) = 1 − Gn (x).

´ ıt´ All´ as (Luk´ acs T´ etel). Legyen X1 , . . . , Xn ∼ N (µ, σ 2 ) f¨ uggetlen azonos eloszl´ as´ u! Akkor ¯ ∼ N (µ, σ 2/n), (1) X

(2) nSn2 /σ 2 ∼ χ2 (n − 1), ¯ és S 2 f¨ (3) X uggetlenek. n

17

Nyilvánvaló, hogy (2) és (3) helyett a következ˝o ekvivalens áll´ıtások használhatók: (2’) (n − 1)Sn∗ 2 /σ 2 ∼ χ2 (n − 1), ¯ és S ∗ 2 f¨ (3’) X uggetlenek. n

2. Példa: Konfidenciaintervallum szerkeszt´ ese a norm´ alis eloszl´ as v´ arhat´ o ´ ert´ ek´ ere ismeretlen sz´ or´ as eset´ en Legyen X1 , . . . , Xn ∼ N (µ, σ 2) f¨ uggetlen azonos eloszl´ as´ u minta, ahol a σ szórás ¯ ¯ + rε ) alak´ és a µ várható érték is ismeretlen. Szerkessz¨ unk (X − rε , X u (szimmetrikus), 1 − ε szint˝ u konfidenciaintervallumot µ-re! ´ ıtásb´ Az 5.1. All´ ol következik, hogy az ¯ − µ√ X n ∼ N (0, 1) és σ

(n − 1)Sn∗ 2 ∼ χ2 (n − 1) σ2

statisztikák egymástól f¨ uggetlenek. Alkalmazzuk a t-eloszlás (5.5) defin´ıcióját: √ ¯ X−µ ¯ − µ√ n X σ q n ∼ t(n − 1). = ∗2 Sn∗ (n−1)Sn /(n − 1) σ2 Ekkor egyrészt

¯ − µ| < rε ) = ¯ − rε < µ < X ¯ + rε ) = Pµ,σ2 (|X Pµ,σ2 (X ¯ − µ < rε ) = = Pµ,σ2 (−rε < X √ √ ¯ − µ√ X −rε n rε n < = 1 − ε, = Pµ,σ2 n< Sn∗ Sn∗ Sn∗ másrészt pedig a t-eloszlás eloszl´ asf¨ uggvényére tett megjegyzés miatt ¯ − µ√ X Pµ,σ2 tε/2 (n − 1) < n < tε/2 (n − 1) = 1 − ε, Sn∗ ahol a t(n − 1)-eloszlás 1 − ε/2 kvantilisére a

jelölést vezetj¨ uk be.

ε tε/2 (n − 1) = G−1 1 − n−1 2

A fenti képletek összevetésével ´ıgy a konfidenciaintervallum sugarára rε =

tε/2 (n − 1) · Sn∗ √ n

adódik. Teh´ at a keresett 1 − ε szint˝ u konfidenciaintervallum: ∗ ∗ t (n − 1) · S t (n − 1) · S ε/2 ε/2 n n ¯+ ¯− √ √ . ,X X n n Vegy¨ uk észre, hogy a konfidenciaintervallum hossza annál kisebb, minél nagyobb az n mintaelemszám és minél kisebb az Sn∗ korrigált empirikus szórás, továbbá minél alacsonyabb szignifikanciaszintet (biztonságot) akarunk elérni. Mivel a szórás ritkán ismert, ez a képlet tε/2 (n − 1) helyett uε/2 -el ismeretlen szórás esetén is alkalmazható, ha n “nagy” (n ≥ 30), hiszen ekkor a korrigált empirikus szórás nagy pontossággal becsli a valódit.

18

´ ´ HIPOTEZISVIZSG ALAT Az alapproblémát a következ˝o példán érzékeltetem. Vásárlói panaszok érkeznek, hogy egy élelmiszerboltban az 1 kg-os felirat´ u cukros zacskóban valójában kevesebb van. Szeretnénk korrekt módon kivizsgálni az u ¨gyet. Kiszállunk az u ¨zletbe, megmér¨ unk n véletlenszer˝ uen kiválasztott zacskót, X1 , . . . , Xn a minta. Legyen n = 25, és a realizációban azt találjuk, hogy átlaguk 0.98 kg. Mit tegy¨ unk? Az eltérést okozhatja a véletlen is, hiszen az 1 kg várhat´ o érték˝ u, normális eloszlás´ u mintaelemek eltérhetnek a várható értékt˝ol. A következ˝oképpen gondolkozunk: az ártatlanság vélelme alapján tegy¨ uk fel, hogy nem csalnak, vagyis a normális eloszlás´ u háttérváltozó várható értéke valóban 1 kg. Szerkessz¨ unk például 95%-os konfidenciaintervallumot a várható értékre a minta alapján! Amennyiben az 1kg hipotetikus várható érték nincsen benne ebben az intervallumban, akkor két eset lehetséges: - Mivel az esetek 95%-ában a várhat´ o érték benne van ebben az intervallumban, a véletlen folytán lehet, hogy mégiscsak bekövetkezett az az 5% valósz´ın˝ uség˝ u esemény, hogy nincsen benne. - Nem igaz eredeti elképzelés¨ unk, hogy 1 kg a várhat´ o érték. Nagyon kis okunk van azt hinni, hogy bekövetkezett egy 5% valósz´ın˝ uség˝ u esemény, inkább az utóbbi mellett voksolunk, hogy nem 1 kg a várhat´ o érték. Azaz 95%-os biztonsággal u ´gy dönt¨ unk, hogy csaltak. Ellenkez˝o esetben, ha az 1 kg benne van a konfidenciaintervallunban, viszont 95%-os biztonsággal u ´gy dönt¨ unk, hogy nem ´ csaltak. Lehet, hogy hibásan döntött¨ unk. Ugy is dönthett¨ unk hibásan, hogy felmentett¨ uk a boltot a vád alól, holott az igaz volt. Vizsg´ aljuk meg a hibás döntések valósz´ın˝ uségét! Fogalmazzuk meg a feladatot a következ˝oképpen: a H0 u ń. null-hipotézis és a H1 alternat´ıv hipotézis (ellen-hipotézis) közt szeretnénk dönteni. Eset¨ unkben az X ∼ 2 N (µ, σ0 ) háttérváltozó ismeretlen µ várhat´ o értékére vonatkoznak a hipotézisek (a σ0 szór´ ast most ismertnek vessz¨ uk). H0 : µ = µ0 (= 1 kg),

H1 : µ 6= µ0 .

(Valójában itt a H1 : µ < µ0 alternat´ıvát kellene inkább vizsgálni, ezt egyoldali ellen-hipotézisnek nevezz¨ uk, és kés˝obb tárgyaljuk.) A döntést az X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta, illetve az ebb˝ol számolt u=

¯ − µ0 √ X n σ0

statisztika alapján hozzuk. Ett˝ol f¨ uggetlen¨ ul választunk egy 1 − ε szignifikanciaszintet (eset¨ unkben ε = 0.05), és ehhez meghatározzuk az ε uε/2 = Φ−1 1 − 2

u ń kritikus értéket. A konfidenciaintervallumoknál tanultuk, hogy ez a standard normális eloszlás 1 − ε/2 kvantilise. Azt is láttuk, hogy uε/2 σ0 ¯ uε/2 σ0 ¯ = Pµ0 |u| < uε/2 = 1 − ε . Pµ0 µ0 ∈ X − √ , X + √ n n

19

¯ kör¨ Teh´ at H0 fennállása esetén µ0 1−ε valósz´ın˝ uséggel benne van a fenti, X uli, sz¯ immetrikus konfidenciaintervallumban. Ezzel ekvivalens, hogy X standardizáltjának, az u valósz´ın˝ uségi változónak az abszol´ ut értéke kisebb, mint az uε/2 kritikus érték. Ezért az u ń. u-pr´ oba a következ˝o lépésekb˝ol áll: 1. A mintából kiszámoljuk az u próbastatisztikát. 2. Az adott 1 − ε szignifikancia-szinthez táblázat alapján meghatározzuk az uε/2 k¨ uszöbértéket. 3. Dönt¨ unk: ha |u| < uε/2 , akkor 1−ε szinten elfogadjuk H0 -t, az |u| ≥ uε/2 esetben pedig elutas´ıtjuk azt. Utóbbi esetben azt mondjuk, hogy a cukroszacskók tömege (1 − ε)100%-os szinten szignifikánsan eltér az 1 kg-tól.

Péld´ ankban: x ¯ = 0.98, µ0 = 1, n = 25 és legyen σ0 = 0.05. Ekkor u = −2. Mivel 95%-os szignifikanciaszintnél ε = 0.05 és uε/2 = 1.96, ezért 95%-os biztonsággal el kell utas´ıtanunk a null-hipotézist, azaz megállap´ıtjuk, hogy csaltak. 99%-os biztonság mellett ezt már nem tudjuk megtenni, ugyanis akkor ε = 0.01 és uε/2 = 2.58, ezért 99%-os biztonsággal el kell fogadnunk a null-hipotézist. Ez nem meglep˝o, hiszen az intervallumbecsléseknél megállap´ıtottuk, hogy a szignifikanciaszint növelése növeli a konfidenciaintervallum szélességét (a mintaelemszám növelése viszont csökkenti azt). Azt mondhatjuk tehát, hogy 95%-os biztonsággal áll´ıthatjuk, hogy csaltak, de 99%-os biztonsággal már nem áll´ıthatjuk ugyanezt. (Azaz a boltot “els˝ofokon” el´ıtélik, de egy szigor´ ubb b´ıróság “másodfokon” felmenti a vád alól. A szigor´ uság a vádlott érdekeit képviseli: minél kisebbé akarják tenni annak valósz´ın˝ uségégét – másodfokon ez 0.01 –, hogy ártatlanul el´ıtéljék.)

A standard normális eloszl´ asf¨ uggvény táblázatáb´ ol kikereshet˝o, hogy ε = 0.0456 esetén lenne uε/2 = 2, azaz ez lenne az a legkisebb ε, ami mellett már, illetve 95.44% lenne az a legnagyobb biztonság, ami mellett még el tudnánk utas´ıtani a null-hipotézist. Döntés¨ unkkor kétfajta hiba is felléphet: I. faj´ u hiba: H0 fennáll, mégis elutas´ıtom. II. faj´ u hiba: H0 nem áll fenn, mégis elfogadom. (A fenti példában I. faj´ u hibát követ¨ unk el, ha el´ıtélj¨ uk az ártatlant, és II. faj´ ut, ha felmentj¨ uk a b˝ unöst.) Jelölje p1 illetve p2 az I. illetve II. faj´ u hiba valósz´ın˝ uségét. Nyilván p1 = Pµ0 |u| ≥ uε/2 = ε,

´ıgy ezt a fajta hibát uralni tudom a szignifikanciaszint megválasztásával. A másodfaj´ u hiba azonban f¨ ugg a valódi µ 6= µ0 paraméterértékt˝ol: p2 = Pµ |u| < uε/2 , továbbá f¨ ugg ε-tól és a mintaelemszámtól is. Be lehet látni, hogy a βn (µ, ε) = 1 − p2 = Pµ |u| ≥ uε/2

u ń. er˝ of¨ uggvény annál nagyobb, minél inkább eltávolodik µ a hipotetikus µ0 -tól, minél nagyobb n, illetve minél nagyobb ε. Az I. és II. faj´ u hiba tehát ellentétes

20

mozgás´ u. A gyakorlat dönti el, mennyire érdemes kicsinek választani az uralható I. faj´ u hibát. Mivel csak az els˝ofaj´ u hiba “uralható”, a másodfaj´ u v´ altozása pedig vele ellentétes, el˝obbit nem érdemes t´ ulságosan leszor´ıtani. Az is egy megoldás, hogy a H0 , H1 szereposztást választjuk meg u ´gy, hogy a másodfaj´ u hiba elkövetése ne legyen fat´ alis, az els˝o faj´ u hibáé legyen a s´ ulyosabb vétség, ennek valósz´ın˝ uségét viszont tetsz˝olegesen kicsivé tudjuk tenni kell˝oképpen magas szignifikanciaszint választás´ aval. Például gyógyszer-hatásvizsgálatnál legyen H0 : a gyógyszer hatástalan vagy káros,

H1 : a gyógyszer hatásos.

Ilyenkor az uralhatatlan másodfaj´ u hiba azt jelenti, hogy egy hatásos gyógyszert nem vezetnek be, mert hatástalannak vagy károsnak min˝os´ıtj¨ uk, ami azért nem okoz fatális problémákat. Az els˝ofaj´ u hiba – hogy hatásosnak min˝os´ıt¨ unk és bevezet¨ unk egy hat´ astalan, netán káros kész´ıtményt – valósz´ın˝ usége viszont kell˝oen kicsivé tehet˝o, például legyen ε = 0.001, ´ıgy ennek bekövetkezése nagyon valósz´ın˝ utlen. ´ Altalában is, az orvosi gyakorlatban a null-hipotézis gyakran a pejorat´ıv verziót tartalmazza: nincsen hatása egy kezelésnek, egy klinikai mérésnek nincs diagnosztizáló hat´ asa, stb., tehát ör¨ ul¨ unk, ha ezt el tudjuk utas´ıtani minél magasabb szinten. Ezt k¨ ulönösen nem-paraméteres próbákn´ al tudjuk megtenni. Más szituációban (paraméteres próbákn´ al) viszont inkább nagynak választjuk az els˝ofaj´ u hibát. Például egy szigor´ uan rögz´ıtett méret˝ u alkatrész gyártásakor gyakran el˝ofordul, hogy a gyártóberendezés kopása miatt a várható érték megváltozik (a szór´ as kicsi). Min˝oségellen˝orzést végz¨ unk arra vonatkozóan, hogy az alkatrésze megfelel-e a szabványnak. Ekkor a H0 : a várható érték megegyezik a szabvány mérettel,

H1 : nem egyezik meg

hipotézisek köz¨ otti választásnál viszonylag nagy ε-t kell választanunk, ha szigor´ uak akarunk lenni: vállaljuk, hogy selejtnek min˝os´ıt¨ unk egy jó alkatrészt is, semmint véletlen¨ ul rosszat ép´ıts¨ unk be. Elterjedt az a gyakorlat, hogy nem adjuk meg el˝ore ε-t, hanem nézz¨ uk, hogy mi az a legkisebb ε, amelyre 1 − ε szignifikancia-szinten már el tudjuk utas´ıtani a nullhipotézist. A felhasználó aztán eldönti, elég-e neki ekkora szignifikancia (a programcsomagok ezt a k¨ uszöb-ε-t ´ırják ki, és néha ezt nevezik szignifikanciának). Am´ ugy, ha egy próba konzisztens, “kell˝oen nagy” mintaelemszám esetén a másodfaj´ u hiba tetsz˝olegesen kicsivé tehet˝o, ´ıgy ilyenkor nyugodtan magasra választhatjuk a szignifikanciaszintet. Statisztikai próbák általános elméletér˝ol csak annyit, hogy általában a mintateret kell felosztanunk egy elfogadási és egy kritikus tartom´ anyra (valamely statisztia kvantilis-értékei alapján) u ´gy, hogy az I. faj´ u hiba (vagy azok maximuma, amenynyiben null-hipotézis¨ unk összetett) adott ε legyen. Elég általános konstrukciók léteznek erre a felosztásra, melyek adott ε mellett az er˝of¨ uggvényt maximalizálják az ellenhipotézis bármely fennállása esetén. A leggyakrabban haszn´ alt paraméteres és nemparaméteres pr´ ob´ akat az órán kiosztott táblázatban foglaltuk össze. Paraméteres prób´ akn´ al a hipotézis a paraméterre

21

vonatkozik, m´ıg a nemparaméteres próbák olyan kérdéseket vizsgálnak, hogy két minta azonos eloszlásb´ ol származik-e, f¨ uggetlen-e, stb. A táblázatban szerepl˝o χ2 -próba mellett a Kolmogorov-Szmirnov tételeken alapul´ o Kolmogorov-Szmirnov próbák is használhatók. Vegy¨ uk észre, hogy a statisztikai próbák lényege: találunk egy statisztikát, melynek eloszl´ asa megadható a null-hipotézis fennállása esetén. Ezután megnézz¨ uk, hogy a mintából kiszámolt ezen statisztika értéke mennyire tipikus ilyen eloszlás esetén. Ha nem az, akkor elutas´ıtjuk, k¨ ulönben pedig elfogadjuk a null-hipotézist. Aj´ anlott irodalom - Bolla Marianna, Krámli András: Statisztikai következtetések elmélete. Typotex, Budapest, 2005. - Reiman József: Valósz´ın˝ uségelmélet és matematikai statisztika mérnököknek. Tankönyvkiadó, Budapest, 1992.

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Recommend Documents