æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Int´ezet, Sztochasztika Tansz´ek
Le´ır´ o statisztika (Ω, A, P) statisztikai mez˝ o, ahol a P m´ert´ekcsal´ad olyan P eloszl´ asokb´ol ´all, melyekkel (Ω, A, P) val´osz´ın˝ us´egi mez˝ot alkot. A probl´ema ´eppen a megfelel˝o eloszl´as kiv´alaszt´asa. ´ Altal´ aban param´eteres a mez˝o: P = {Pθ : θ ∈ Θ}, ahol Θ ⊂ Rk a param´etert´er.
Vizsg´al´od´asaink k¨oz´eppontj´aban egy X val´osz´ın˝ us´egi v´altoz´o ´all (pl. az egyetemista fi´ uk testmagass´aga, a tansz´ekre d´elel˝ott 10 ´es 10:30 k¨ozt befut´o telefonh´ıv´asok sz´ama), melynek pontos P eloszl´ as´at nem ismerj¨ uk, csak annyit tudunk, hogy P ∈ P. Itt az els˝o p´eld´aban P a norm´alis, a m´asodikban pedig a Poisson eloszl´ascsal´ad, azaz probl´em´ank param´eteres. C´elunk a param´eterek becsl´ese, esetleg hipot´ezisek vizsg´alata (pl. igaz-e, hogy az egyetemista fi´ uk testmagass´ag´anak v´arhat´o ´ert´eke mondjuk 175 cm, vagy szignifik´ansan k¨ ul¨onb¨ozik-e ez a 10 ´evvel ezel˝otti egyetemist´ak´et´ ol). Mindehhez megfigyel´eseket v´egz¨ unk, azaz mint´at vesz¨ unk. Statisztikai minta alatt ´ertj¨ uk f¨ uggetlen, azonos eloszl´ as´ u val´osz´ın˝ us´egi v´altoz´ok egy X1 , X2 , . . . , Xn v´eges sorozat´at, ahol az Xi val´osz´ın˝ us´egi v´altoz´ok eloszl´ asa megegyezik az X h´att´erv´altoz´ o´eval. Az X1 , . . . , Xn mint´at r¨oviden jel¨olje X, azaz X = (X1 , . . . , Xn ) n-dimenzi´os, f¨ uggetlen komponens˝ u v´eletlen vektor (vektor ´ert´ek˝ u val´osz´ın˝ us´egi v´altoz´o), egy konkr´et kimenetelt pedig jel¨olj¨on x = (x1 , . . . , xn ), ezt a minta realiz´ aci´ oj´anak nevezz¨ uk. A mintaelemek egy T = T (X) = T (X1 , . . . , Xn ) m´erhet˝o f¨ uggv´eny´et statisztik´ anak h´ıvjuk. Egy statisztik´aban inform´aci´ot t¨om¨or´ıt¨ unk. Az lesz majd a “j´o” statisztika, mely nem vesz´ıt l´enyeges inform´aci´ot a t¨om¨or´ıt´es ´altal. Bevezetj¨ uk a k¨ovetkez˝o alapstatisztik´ akat. Legyen X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u n-elem˝ u minta. Defin´ıci´ o. Az n
X ¯= 1 Xi X n i=1 statisztik´at minta´ atlagnak nevezz¨ uk. ¯ n jel¨ol´est haszn´aljuk, Ha hangs´ ulyozni szeretn´enk a mintaelemsz´amot, akkor az X ha pedig a konkr´et realiz´aci´okkal sz´amolunk, akkor x ¯-t vagy x ¯n -t ´ırunk. Steiner-t´ etel. Az x1 , . . . , xn ∈ R r¨ ogz´ıtett ´ert´ekekkel ´es tetsz˝ oleges c ∈ R val´ os sz´ ammal n n 1X 1X (xi − c)2 = (xi − x ¯)2 + (¯ x − c)2 n i=1 n i=1 teljes¨ ul. 1
2
Defin´ıci´ o. Az
n
1X ¯ 2 (Xi − X) S = n i=1 2
statisztik´at empirikus (tapasztalati) sz´ or´ asn´egyzetnek nevezz¨ uk, az n
S∗2 =
n 1 X ¯ 2 (Xi − X) S2 = n−1 n − 1 i=1
statisztik´at pedig korrig´ alt empirikus (tapasztalati) sz´ or´ asn´egyzetnek. A fenti mennyis´egek gy¨oke az empirikus (tapasztalati) sz´ or´ as illetve a korrig´ alt empirikus (tapasz∗ talati) sz´ or´ as, melyeket S illetve S jel¨ol. Ha hangs´ ulyozni szeretn´enk a mintaelemsz´amot, akkor az Sn2 illetve Sn∗ 2 jel¨ol´est haszn´aljuk, ha pedig a konkr´et realiz´ aci´okkal sz´amolunk, akkor s2n -t vagy s∗n 2 -t ´ırunk. K¨ ovetkezm´eny. A Steiner t´etelb˝ol c = 0 v´alaszt´assal k¨ovetkezik, hogy az empirikus sz´or´asn´egyzetet a k¨ovetkez˝ok´eppen is sz´amolhatjuk: n
S2 =
1X 2 ¯ 2. ¯ 2 = X2 − X X −X n i=1 i
¯ √n/S ∗ mennyis´eget a minta´ Defin´ıci´ o. A X atlag standardiz´ alt hib´ aj´ anak (standard ¯ mennyis´eget error of mean = S.E.M.) nevezz¨ uk. Pozit´ıv minta eset´en az S/X sz´ or´ asi egy¨ utthat´ onak h´ıvj´ak. M´er´esek eset´eben ez ut´obbi a relat´ıv hib´at jelenti. Defin´ıci´ o. Legyen k r¨ogz´ıtett pozit´ıv eg´esz. Az n
1X k X Mk = n i=1 i statisztik´at k-adik empirikus (tapasztalati) momentumnak nevezz¨ uk, az n
Mkc
1X ¯ k = (Xi − X) n i=1
statisztika pedig a k-adik empirikus (tapasztalati) centr´ alis momentum. Nyilv´an S 2 = M2c = M2 − M12 . Defin´ıci´ o. Az M3c /(M2c )3/2 val´osz´ın˝ us´egi v´altoz´o a ferdes´eg (skewness), az M4c /(M2c )2 − 3 val´osz´ın˝ us´egi v´altoz´o pedig a lapults´ ag (curtosis). El˝obbi az eloszl´as szimmetri´aj´at fejezi ki (szimmetrikus eloszl´asokn´al elm´eleti ´ert´eke 0), ut´obbi a s˝ ur˝ us´egf¨ uggv´eny laposs´ag´at m´eri (a standard norm´alis eloszl´as lapults´aga z´erus).
3
Defin´ıci´ o. Legyen (X, Y )T 2-dimenzi´os val´osz´ın˝ us´egi v´altoz´o, (X1 , Y1 )T , . . . , (Xn , Yn )T pedig vele azonos eloszl´as´ u f¨ uggetlen azonos eloszl´ as´ u n-elem˝ u minta. Jel¨olje SX illetve SY a komponensek empirikus sz´or´as´at! A n
n
X 1X ¯ i − Y¯ ) = 1 ¯ Y¯ (Xi − X)(Y X i Yi − X C= n i=1 n i=1 statisztik´at empirikus (tapasztalati) kovarianci´ anak, az Pn
¯ Y¯ X i Yi − n X Pn 2 2 ¯2 ¯2 i=1 Xi − nX i=1 Yi − nY
C R= =q P n SX SY
i=1
statisztik´at pedig empirikus (tapasztalati) korrel´ aci´ onak nevezz¨ uk.
Defin´ıci´ o. Az X1 , . . . , Xn mintaelemek ´ert´ekeit nem-cs¨ okken˝o sorrendben felvev˝o ∗ ∗ ∗ X1 ≤ X2 ≤ · · · ≤ Xn val´osz´ın˝ us´egi v´altoz´okat n-elem˝ u rendezett mint´ anak nevezz¨ uk, ´ıgy a rendezett mintaelemek sem nem f¨ uggetlenek, sem nem azonos eloszl´as´ uak. Teh´ at minden kontr´et x1 , x2 , . . . , xn realiz´ aci´o eset´en ezt az n val´os sz´amot kell nagys´ag szerint nem cs¨okken˝o sorrendbe rendezni, ´es a nagys´ag szerint i-ediket x∗i -gal jel¨olni. Term´eszetesen a szorzatt´er k¨ ul¨onb¨oz˝o elemeire m´as ´es m´as lesz a mintaelemek sorrendje, ´es ´ıgy a rendez´es is. Defin´ıci´ o. Az Xn∗ − X1∗ statisztik´at mintaterjedelemnek (range) nevezz¨ uk. Defin´ıci´ o. Empirikus (tapasztalati) medi´ an alatt ´ertj¨ uk p´aratlan n (n = 2k + 1) ∗ ∗ ∗ eset´en Xk+1 -ot, p´aros n (n = 2k) eset´en pedig (Xk + Xk+1 )/2-t. Ez val´oj´aban a k¨oz´eps˝o mintaelem, ´es amennyiben a realiz´ aci´ob´ol sz´amolt ´ert´ek´et m jel¨oli, ezzel teljes¨ ul a Steiner-t´etel L1 - norm´aban vett megfelel˝oje: ´ ıt´ All´ as.
n
n
i=1
i=1
1X 1X min |xi − c| = |xi − m|. c∈R n n A fenti minimumot a minta a ´tlagos abszol´ ut elt´er´es´enek is szokt´ak nevezni. A k¨ovetkez˝okben egy n-elem˝ u minta alapj´an k´ıv´anjuk k¨ozel´ıteni a h´att´ereloszl´ast, ez´ert megkonstru´aljuk az u ´n. empirikus eloszl´ asf¨ uggv´enyt, amir˝ol bel´atjuk, hogy “el´eg nagy” n-re j´ol rekonstru´alja az ismeretlen eloszl´ asf¨ uggv´enyt, ak´armi is legyen a v´eletlen minta. Ezt a t´enyt fogalmazza meg prec´ızen a Glivenko–Cantelli-t´etel, melyet a statisztika egyik alapt´etel´enek is szoktak tekinteni. Defin´ıci´ o. Empirikus (tapasztalati) eloszl´ asf¨ uggv´eny alatt a k¨ovetkez˝o v´eletlen f¨ uggv´enyt ´ertj¨ uk: tetsz˝oleges x ∈ R sz´amra legyen Fn∗ (x) :=
0, i=1 I(Xi < x) k = , n n 1,
Pn
ha ha ha
x ≤ X1∗ ,
∗ Xk∗ < x ≤ Xk+1
x > Xn∗ .
(k = 1, . . . , n − 1)
4
Itt I(·) az argumentumban ´all´o esem´eny indik´atorv´altoz´oja. K¨onny˝ u l´atni, hogy az I(Xi < x) indik´atorv´altoz´ok f¨ uggetlen azonos eloszl´ as´ uak (Bernoulli eloszl´as´ uak F (x) param´eterrel, ahol F az X h´att´erv´altoz´o eloszl´ asf¨ uggv´enye). Megjegyezz¨ uk, hogy Fn∗ az x1 , . . . , xn realiz´ aci´ora olyan, mint egy Y ∼ U(x1 , . . . , xn ) diszkr´et egyenletes eloszl´as´ u val´osz´ın˝ us´egi v´altoz´o eloszl´ asf¨ uggv´enye. Nyilv´an E(Y ) = ¯ ´es D2 (Y ) = S 2 . X ´ ıt´ All´ as. Legyen F (x) az elm´eleti eloszl´ asf¨ uggv´eny ´es x ∈ R r¨ ogz´ıtett. Akkor D2 (Fn∗ (x)) =
E(Fn∗ (x)) = F (x),
F (x)(1 − F (x)) , n
´es limn→∞ Fn∗ (x) = F (x), 1 val´ osz´ın˝ us´eggel. A k¨ovetkez˝o t´etel enn´el m´eg er˝osebb ´all´ıt´ast fogalmaz meg: n → ∞ est´en az empirikus eloszl´asf¨ uggv´enyek Fn∗ sorozata nemcsak r¨ogz´ıtett x-re, hanem az eg´esz val´os sz´amegyenesen egyenletesen is tart F -hez, 1 val´osz´ın˝ us´eggel. Glivenko–Cantelli t´ etel. n → ∞ eset´en sup | Fn∗ (x) − F (x)| → 0,
1 val´ osz´ın˝ us´eggel.
x∈R
A t´etel a mintav´etelen alapul´o elj´ar´asok jogoss´ ag´at t´amasztja al´a. Amennyiben abszol´ ut folytonos az eloszl´ asunk, az elm´eleti s˝ ur˝ us´egf¨ uggv´enyt is k¨ozel´ıteni szeretn´enk. A tapasztalati eloszl´ asf¨ uggv´eny b´armilyen j´ol k¨ozel´ıti is a fenti t´etel ´ertelm´eben az elm´eletit, m´egiscsak egy szakaszonk´ent konstans f¨ uggv´eny, ´ıgy deriv´altja nem adhat a probl´em´ara megold´ast. Szokt´ak az empirikus eloszl´asf¨ uggv´enyt u ´n. magf¨ uggv´eny seg´ıts´eg´evel “sim´ıtani”, amely m´ar folytonos, s˝ot differenci´alhat´o lesz ´es deriv´altja “j´ol” k¨ozel´ıti az elm´eleti s˝ ur˝ us´eget (magf¨ uggv´enyes becsl˝ok): d fˆn (x) := dx
Z
∞
−∞
Fn∗ (x) · m(x − y) dy,
ahol az m magf¨ uggv´eny egy kell˝oen sima val´osz´ın˝ us´egi s˝ ur˝ us´egf¨ uggv´eny. A fenti konvol´ uci´o tulajdonk´eppen azt jelenti, hogy az eredeti val´osz´ın˝ us´egi v´altoz´onkra egy “zaj” rak´odik r´a. Most csak egy egyszer˝ ubb konstrukci´ot mutatunk be. n elem˝ u mint´ankhoz osszuk fel a sz´amegyenest a hn hossz´ us´ag´ u ∆j diszjunkt intervallumokra, ´es jel¨olje νj a ∆j -be es˝o mintaelemek sz´am´at! Defin´ıci´ o. Az fn∗ (x) =
νj , nhn
x ∈ ∆j
¨osszef¨ ugg´essel defini´alt f¨ uggv´enyt a minta s˝ ur˝ us´eghisztogramj´anak nevezz¨ uk. Mivel a mintaelemek befoglalhat´ok egy v´eges intervallumba, nyilv´an ezen k´ıv¨ ul ∗ = 0 lesz, ´es ezen bel¨ ul v´eges sok k¨ ul¨onb¨oz˝o fn (x) ´ert´ek alakul ki. A s˝ ur˝ us´eghisztogram
fn∗ (x)
5
is szakaszonk´ent konstans f¨ uggv´eny, ´es az alatta lev˝o ¨osszter¨ ulet 1. Bel´athat´o, hogy amennyiben x a val´odi f s˝ ur˝ us´egf¨ uggv´eny folytonoss´agi pontja ´es n → ∞ olyan m´odon, hogy m´eg limn→∞ hn = 0 ´es limn→∞ nhn = ∞ is teljes¨ ul, akkor limn→∞ fn∗ (x) = f (x), 1 val´osz´ın˝ us´eggel. (Pl. ha mint´ank az [a, b] intervallumba foglalhat´o be ´es hn = (b − a)/n, akkor a felt´etel nem teljes¨ ul, viszont hn = (b − a)/n1−α , 0 < α < 1 eset´en teljes¨ ul.) A Glivenko–Cantelli t´etel arr´ol sz´ol, hogy az empirikus eloszl´ asf¨ uggv´eny 1 val´osz´ın˝ us´eggel (majdnem minden realiz´aci´ora) az eg´esz sz´amegyenesen egyenletesen tart az elm´eleti eloszl´asf¨ uggv´enyhez. Teh´at kell˝o sz´am´ u mint´at v´eve tetsz˝oleges pontoss´aggal k¨ozel´ıteni tudjuk a val´odi eloszl´asf¨ uggv´enyt. De adott pontoss´aghoz vajon h´any elem˝ u mint´at kell venn¨ unk? A konvergencia sebess´eg´ere vonatkoz´ o an u ´ jabb t´ e teleket fogunk ki√ u k¨ozel´ıt´eshez mondani. Ezek azt jelzik, hogy n k´ıs´erlet kb. 1/ n nagys´agrend˝ elegend˝o. Legyen a h´att´ereloszl´as F eloszl´ asf¨ uggv´enye folytonos, Fn∗ pedig jel¨olje az nelem˝ u mint´ahoz tartoz´o empirikus eloszl´ asf¨ uggv´enyt. Akkor T´ etel (Szmirnov). lim P
n→∞
√
n sup(Fn∗ (x) x∈R
ahol S(z) =
− F (x)) < z
0,
ha −2z 2
1−e
,
ha
∀z ∈ R,
= S(z),
z ≤ 0,
z > 0,
az u ´n. Szmirnov-eloszl´ asf¨ uggv´eny T´ etel (Kolmogorov). √ ∗ lim P n sup |Fn (x) − F (x)| < z = K(z),
n→∞
∀z ∈ R,
x∈R
ahol K(z) =
0, P∞
ha
i=−∞ (−1)
2 2
i −2i z
e
=1−2
az u ´n. Kolmogorov-eloszl´ asf¨ uggv´eny.
P∞
i=1 (−1)
2 2
i−1 −2i z
e
,
ha
z ≤ 0,
z > 0,
Legyen most az X illetve Y h´att´erv´altoz´o (nem felt´etlen¨ ul ismert) eloszl´asf¨ uggv´enye ∗ ∗ a folytonos F illetve G f¨ uggv´eny, Fn illetve Gm pedig jel¨olje az n-elem˝ u X1 , . . . , Xn illetve az m-elem˝ u Y1 , . . . , Ym , egym´ast´ol is f¨ uggetlen mint´akhoz tartoz´o empirikus eloszl´asf¨ uggv´enyeket. Tegy¨ uk fel tov´abb´a, hogy F (x) = G(x), ∀x ∈ R. Akkor T´ etel (Szmirnov). lim P
n,m→∞
r
nm sup(F ∗ (x) − G∗m (x)) < z n + m x∈R n
= S(z),
∀z ∈ R.
6
T´ etel (Szmirnov). r nm ∗ ∗ sup |F (x) − Gm (x)| < z = K(z), lim P n,m→∞ n + m x∈R n
∀z ∈ R.
A Kolmogorov–Szmirnov t´eteleket haszn´ alni fogjuk a hipot´ezisvizsg´alatban annak eld¨ont´es´ere, hogy mint´ank egy adott F eloszl´ asf¨ uggv´eny˝ u eloszl´asb´ol sz´armazike, vagy pedig k´et minta sz´armazhat-e ugyanabb´ol az eloszl´ asb´ol. Vegy¨ uk ´eszre, hogy a hat´areloszl´asok f¨ uggetlenek a val´odi h´att´ereloszl´ast´ol, ´ıgy u ´n. nem-param´eteres pr´ob´ak defini´alhat´ok seg´ıts´eg¨ ukkel. Most az u ´n. “j´o” statisztika fogalm´at pontos´ıtjuk. Defin´ıci´ o. Likelihood-f¨ uggv´eny alatt ´ertj¨ uk a mintaelemek egy¨ uttes val´osz´ın˝ us´eg iln letve s˝ ur˝ us´egf¨ uggv´eny´et. Legyen x = (x1 , . . . , xn ) ∈ R r¨ogz´ıtett, ´es Lθ (x) a likelihood-f¨ uggv´eny az x helyen. Ha a h´att´ereloszl´as diszkr´et pθ val´osz´ın˝ us´egf¨ uggv´enyel, akkor n n Y Y Lθ (x) = Pθ (X = x) = Pθ (Xi = xi ) = pθ (xi ), i=1
i=1
ha pedig abszol´ ut folytonos fθ s˝ ur˝ us´egf¨ uggv´enynyel, akkor Lθ (x) =
n Y
fθ (xi ).
i=1
Vagyis a likelihood-f¨ uggv´eny az x helyen diszkr´et esetben annak a val´osz´ın˝ us´eg´et adja, hogy a realiz´aci´o ´eppen x, abszol´ ut folytonos esetben pedig annak a val´osz´ın˝ us´eg´evel ar´anyos, hogy a realiz´aci´o x “kis” k¨ornyezet´ebe esik. Neyman–Fisher Faktoriz´ aci´ os T´ etel. Egy X minta T (X) statisztik´ aja pontosan akkor el´egs´eges, ha l´etezik olyan gθ (t) (θ ∈ Θ, t ∈ T (=T ´ert´ekk´eszlete)) ´es h(x) (x ∈ X ) m´erhet˝ o f¨ uggv´eny, hogy Lθ (x) = gθ (T (x)) · h(x) teljes¨ ul minden θ ∈ Θ, x ∈ X eset´en. Azaz a likelihood-f¨ uggv´eny csak a T statisztik´an kereszt¨ ul f¨ ugg a param´etert˝ol. Keress¨ unk el´egs´eges statisztik´akat a faktoriz´aci´os t´etel alapj´an! 1. P´elda: Legyen X1 , . . . , Xn ∼ P(λ) f¨ uggetlen azonos eloszl´ as´ u! ! n n n Y Y X λxi −λ Pni=1 xi −nλ 1 Lλ (x) = xi ) · h(x), e · = gλ ( e = λ x ! x ! i i i=1 i=1 i=1 ´ıgy
Pn
i=1
¯ is az. Xi el´egs´eges statisztika, ´es nyilv´an X
2. P´elda: Legyen X1 , . . . , Xn ∼ Exp(λ) f¨ uggetlen azonos eloszl´ as´ u! Lλ (x) =
n Y
i=1
λe−λxi = λn e−λ
Pn
i=1
xi
,
7
ami megfelel gλ (T (x))-nek, ´es h(x) = 1. Ez´ert ¯ is az. X
Pn
i=1
Xi el´egs´eges statisztika, ´es
Nyilv´an egy el´egs´eges statisztika invert´alhat´o f¨ uggv´enye is el´egs´eges lesz. N´ezz¨ unk most p´eld´akat t¨obbdimenzi´os param´etert´er eset´en el´egs´eges statisztik´ara (ilyenkor persze a statisztika is t¨obbdimenzi´os). 3. P´elda: Legyen X1 , . . . , Xn ∼ N (µ, σ 2 ) f¨ uggetlen azonos eloszl´ as´ u! Itt θ = (µ, σ 2 ). ! n 1 X 1 (xi − µ)2 = exp − 2 Lθ (x) = √ n 2σ i=1 ( 2πσ) #! " n 1 X 1 2 2 exp − 2 , (xi − x ¯) + n(¯ x − µ) = √ 2σ ( 2πσ)n i=1
¯ S 2 ) el´egs´eges statisztikap´arral, h(x) = ami megfelel gθ (T (x))-nek a T (X) = (X, P P 2 ¯ S ∗ ) statisztikap´ar, vagy a ( n Xi , n X 2 ) statisztikap´ar 1. Nyilv´an az (X, i i=1 i=1 is el´egs´eges lesz.
4. P´elda: Legyen X1 , . . . , Xn ∼ U[a, b] f¨ uggetlen azonos eloszl´ as´ u! Itt θ = (a, b). Lθ (x) =
n Y
i=1
fθ (xi ) =
1 , (b−a)n
ha
0,
k¨ ul¨onben.
x1 , . . . , xn ∈ [a, b]
Azaz Lθ (x) = (b − a)−n I(x∗1 ≥ a, x∗n ≤ b) = gθ (x∗1 , x∗n ) ´es h(x) = 1 v´alaszt´assal a faktoriz´aci´o teljes¨ ul. Ez´ert az (X1∗ , Xn∗ ) p´ar el´egs´eges statisztik´at ad az (a, b) param´eterp´arra. Defin´ıci´ o. A T el´egs´eges statisztik´at minim´ alis el´egs´eges statisztik´ anak nevezz¨ uk, ha f¨ uggv´enye b´armely m´as el´egs´eges statisztik´anak. Ez a legt¨om¨orebb, ´es ekvivalencia erej´eig m´ar egyertelm˝ u.
8
´ ´ BECSLESELM ELET Legyen (Ω, A, P) param´eteres statisztikai mez˝o, ahol P = {Pθ : θ ∈ Θ}. A θ param´etert vagy annak valamely ψ(θ) f¨ uggv´eny´et szeretn´enk becs¨ ulni az X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta alapj´an konstru´alt T (X) statisztika ˆ ˆ seg´ıts´eg´evel. Jel¨olje θ ill. ψ az ´ıgy kapott becsl´est! Egy becsl´es j´os´ ag´at k¨ ul¨onb¨oz˝o krit´eriumokkal m´erj¨ uk. Ezekr˝ol, tov´abb´a arr´ol lesz sz´o, mikor tal´alhat´o legjobb becsl´es, ´es n n¨oveked´es´evel hogyan javul a becsl´es. Defin´ıci´ o. T (X) torz´ıtatlan becsl´es ψ(θ)-ra, ha Eθ (T (X)) = ψ(θ),
∀θ ∈ Θ.
¯ mindig torz´ıtatlan becsl´es m(θ) = Eθ (X)-re, ha ez v´eges. ´ ıt´ All´ as. X Bizony´ıt´ as. Vegy¨ uk az X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u mint´at! Feltett¨ uk, ´ hogy a k¨oz¨ os v´arhat´o ´ert´ek l´etezik: Eθ (Xi ) = m(θ), i = 1, . . . , n. Igy n
¯n) = Eθ (X
1X Eθ (Xi ) = m(θ), n i=1
∀θ ∈ Θ.
K¨onny˝ u l´atni, hogy a mintaelemek b´armely konvex line´aris kombin´aci´oja is torz´ıtatlan becsl´es a fenti v´eges v´arhat´ o ´ert´ekre, teh´at a torz´ıtatlans´ag ¨onmag´aban m´eg nem teszi egy´ertelm˝ uv´e a becsl´est. A fenti ´all´ıt´asb´ ol k¨ovetkezik, hogy a Bn (p) binomi´alis eloszl´as p param´eter´ere r¨ogz´ıtett n P eset´en a relat´ıv gyakoris´ag torz´ıtatlan becsl´es, ugyanis Y ∼ Bn (p) n el˝o´all Y = i=1 Xi alakban, ahol X1 , . . . , Xn ∼ I(p) f¨ uggetlen azonos eloszl´as´ u ¯ Bernoulli-v´altoz´ok p v´arhat´ o ´ert´ekkel, X = Y /n pedig a relat´ıv gyakoris´ag. A torz´ıtatlans´agn´al gyeng´ebb k¨ovetelm´eny a k¨ovetkez˝o:
Defin´ıci´ o. A T (Xn ) statisztikasorozat aszimptotikusan torz´ıtatlan becsl´es ψ(θ)-ra, ha lim Eθ (T (Xn )) = ψ(θ), ∀θ ∈ Θ. n→∞
´ ıt´ All´ as. Legyen X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta egy tetsz˝ oleges olyan eloszl´ asb´ ol, melyre minden θ ∈ Θ eset´en σ 2 (θ) = D2θ (X) < ∞. Akkor Sn2 aszimptotikusan torz´ıtatlan, Sn∗ 2 pedig torz´ıtatlan becsl´ese a sz´ or´ asn´egyzetnek. C´elunk az, hogy a torz´ıtatlan becsl´esek k¨oz¨ott min´el kisebb sz´or´as´ uakat tal´aljunk. Defin´ıci´ o. Legyen a T1 ´es T2 statisztika torz´ıtatlan becsl´es a θ param´eterre, vagy annak valamely ψ(θ) f¨ uggv´eny´ere. Azt mondjuk, hogy T1 hat´ asosabb (efficiensebb) becsl´es, mint T2 , ha D2θ (T1 ) ≤ D2θ (T2 ), ∀θ ∈ Θ, ´es legal´abb egy θ0 ∈ Θ eset´en (2)-ben < teljes¨ ul. Egy torz´ıtatlan becsl´es hat´ asos (efficiens) becsl´es, ha b´armely m´as torz´ıtatlan becsl´esn´el hat´asosabb.
9
Hat´asos becsl´es nem mindig l´etezik, de ha van hat´asos becsl´es, az egy´ertelm˝ u. T´etelek alapj´an majd el tudjuk d¨onteni egy torz´ıtatlan becsl´esr˝ol, hogy hat´asos-e, n´eh´any esetben pedig garant´alni tudjuk hat´asos becsl´es l´etez´es´et. A konzisztencia azt jelenti, hogy a megfigyel´esek sz´am´anak n¨ovel´es´evel javul a becsl´es pontoss´aga. Defin´ıci´ o. A T (Xn ) statisztikasorozat (gyeng´en/er˝ osen) konzisztens becsl´es ψ(θ)ra, ha minden θ ∈ Θ-ra n → ∞ eset´en T (Xn ) → ψ(θ) val´osz´ın˝ us´egben/1 val.s´eggel. ´ ıt´ All´ as. Ha X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta X-re ´es m(θ) = Eθ (X) ¯ l´etezik, akkor akkor Xn (gyeng´en ´es er˝ osen is) konzisztens becsl´es m(θ)-ra. Az ´all´ıt´as nem m´as, mint a nagy sz´amok gyenge ´es er˝os t¨orv´enye. Legyen (Ω, A, P) param´eteres statisztikai mez˝o, ahol P = {Pθ : θ ∈ Θ}. C´elunk az, hogy a θ param´eterre vagy annak valamely ψ(θ) f¨ uggv´eny´ere konstru´alt torz´ıtatlan becsl´esek sz´or´asn´egyzet´ere als´o korl´atot adjunk. Ha egy torz´ıtatlan becsl´esre ez a korl´at el´eretik, akkor biztosak lehet¨ unk abban, hogy hat´asos becsl´es¨ unk van, ami 1 val.s´eggel egy´ertelm˝ u. Sz¨ uks´eg¨ unk lesz a k¨ovetkez˝o, R. A. Fishert˝ol sz´armaz´o fogalomra. Defin´ıci´ o. Legyen X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta az X h´att´erv´aloz´ o eloszl´as´ ab´ol, amely a θ param´etert˝ol f¨ ugg (θ ∈ Θ), itt csak a dim(Θ) = 1, Θ konvex esettel foglalkozunk. A fenti minta Fisher-f´ele inform´ aci´ oja az 2 ∂ ln Lθ (X) ≥ 0 In (θ) = Eθ ∂θ mennyis´eggel van defini´alva. T´ etel (Cram´ er–Rao-egyenl˝ otlens´ eg). Legyen (Ω, A, P) param´eteres statisztiaki mez˝ o, ahol P = {Pθ : θ ∈ Θ}, dim (Θ) = 1. Legyen X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta a Pθ eloszl´ asb´ ol, amir˝ ol most tegy¨ uk fel, hogy abszol´ ut folytonos. Tegy¨ uk fel tov´ abb´ a, hogy a T (X) statisztika valamely deriv´ alhat´ o ψ f¨ uggv´ennyel k´epzett ψ(θ) param´eterf¨ uggv´eny torz´ıtatlan becsl´ese, D2θ (T ) < +∞,
∀θ ∈ Θ
tov´ abb´ a teljes¨ ulnek az al´ abbi bederiv´ alhat´ os´ agi felt´etelek: Z Z Z Z ∂ ∂ · · · Lθ (x) dx = · · · Lθ (x) dx, ∂θ ∂θ
∀θ ∈ Θ
´es
Z Z Z Z ∂ ∂ · · · T (x)Lθ (x) dx = · · · T (x) Lθ (x) dx, ∀θ ∈ Θ, ∂θ ∂θ R R ahol ··· n-dimenzi´ os integr´ al´ ast jelent a likelihood-f¨ uggv´enytart´ oj´ an. Akkor D2θ (T ) ≥
(ψ ′ (θ))2 , In (θ)
∀θ ∈ Θ.
A k¨ovetkez˝o t´etel arr´ol sz´ol, hogyan lehet egy torz´ıtatlan becsl´es hat´asoss´ag´at jav´ıtani egy el´egs´eges statisztika seg´ıt s´eg´evel.
10
Rao–Blackwell–Kolmogorov T´ etel. Legyen (Ω, A, P) param´eteres statisztikai mez˝ o, ahol P = {Pθ ; θ ∈ Θ}. Legyen X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´ as´ u minta valamely Pθ eloszl´ asb´ ol. Legyen tov´ abb´ a (a) T (X) el´egs´eges statisztika, (b) S(X) torz´ıtatlan becsl´es a ψ(θ) param´eterf¨ uggv´enyre. Akkor T -nek van olyan U = g(T ) f¨ uggv´enye, amely (1) szint´en torz´ıtatlan becsl´ese a ψ(θ) param´eterf¨ uggv´enynek: Eθ (U ) = ψ(θ), ∀θ ∈ Θ, (2) U legal´ abb olyan hat´ asos becsl´ese ψ(θ)-nak, mint S: D2θ (U ) ≤ D2θ (S), ∀θ ∈ Θ.
(3) U konstrukci´ oja a k¨ ovetkez˝ o: U := Eθ (S|T ) = g(T (X)), ∀θ ∈ Θ (ezt nevezz¨ uk “blackwelliz´ al´ asnak”). A t´etel u ¨zenete: a hat´ asos becsl´eseket a minim´alis el´egs´eges statisztika f¨ uggv´enyei k¨ozt kell keresni. Becsl´ esi m´ odszerek Maximum likelihood elv Legyen (Ω, A, P) domin´alt statisztikai mez˝o, ahol P = {Pθ ; θ ∈ Θ} (a param´etert´er lehet t¨obbdimenzi´ os ´es legyen konvex). Vegy¨ unk egy X1 , . . . , Xn f¨ uggetlen azonos eloszl´as´ u mint´at a Pθ eloszl´ asb´ol (θ ismeretlen). Az x1 , . . . , xn realiz´aci´o birtok´aban ˆ fogadjuk el, amely mellett annak a val´osz´ın˝ a param´eter becsl´es´enek azt a θ-ot us´ege, hogy az adott realiz´aci´ot kapjuk, maxim´alis. Mivel ezt a val´osz´ın˝ us´eget a likelihoodf¨ uggv´eny t¨ ukr¨ozi, a m´odszer ezt maximaliz´alja. A maximumhely csak a realiz´aci´ot´ol f¨ ugg, teh´at statisztik´at kapunk becsl´esk´ent. Defin´ıci´ o. Legyen Lθ (x) : X × Θ → R+ egy n-elem˝ u mint´ahoz tartoz´o likelihoodˆ f¨ uggv´eny, tfh. L a szorzatt´eren m´erhet˝o. A θ : X → Θ statisztik´at a θ param´eter maximum likelihood (ML-)becsl´es´enek nevezz¨ uk, ha θˆ glob´ alis maximumhelye a likelihood-f¨ uggv´enynek, azaz Lθ(x ˆ 1 ,...,xn ) (x1 , . . . , xn ) ≥ Lθ (x1 , . . . , xn ) teljes¨ ul ∀θ ∈ Θ ´es (x1 , . . . , xn ) ∈ X eset´en. Amennyiben Θ konvex, ny´ılt halmaz ´es L differenci´alhat´o θ szerint, akkor a glob´alis max. helyet a stacion´arius pontok k¨ozt keress¨ uk. Ilyenkor az Lθ (x) likelihood-f¨ uggv´eny helyett az lθ (x) = ln Lθ (x) loglikelihood-f¨ uggv´enyt deriv´alj´ak θ szerint, ugyanis a log-f¨ uggv´eny monotonit´asa miatt a k´et f¨ uggv´eny lok´alis max. helyei megegyeznek. T¨obb param´eter eset´en parci´alis deriv´altakat vesz¨ unk. Ezut´an ellen˝orizz¨ uk, hogy t´enyleg lok´alis maximumot kaptunk-e, ´es kiv´alasztjuk a glob´alisat. 1. P´elda: Legyen X1 , . . . , Xn ∼ P(λ) f¨ uggetlen azonos eloszl´ as´ u! # " n n n X X Y λxi ln xi ! − λn, xi − e−λ = ln λ lλ (x) = ln x ! i i=1 i=1 i=1 melynek λ szerinti deriv´al´as´aval a
n
∂lλ (x) 1X xi − n = 0 = ∂λ λ i=1
11
ˆ=x likelihood-egyenlet ad´odik, melynek megold´asa λ ¯. Ezen a helyen a loglikelihoodf¨ uggv´eny λ szerinti m´asodik deriv´altja negat´ıv, ´ıgy t´enyleg lok´alis maximumhe¯ statisztika lyet kapunk, ami egyben glob´ alis maximumhely is. Teh´at a T (X) = X a λ param´eter ML-becsl´ese. 2. P´elda: Legyen X1 , . . . , Xn ∼ Exp(λ) f¨ uggetlen azonos eloszl´ as´ u! lλ (x) = ln
"
n Y
i=1
#
λe−λxi = n ln λ − λ
n X
xi ,
i=1
melynek λ szerinti deriv´al´as´aval a likelihood-egyenlet ad´odik, melynek megold´asa ˆ = 1/¯ λ x. Ezen a helyen a loglikelihood-f¨ uggv´eny λ szerinti m´asodik deriv´altja negat´ıv, ´ıgy t´enyleg lok´alis maximumhelyet kapunk, ami egyben glob´alis maxi¯ statisztika a λ param´eter ML-becsl´ese. mumhely is. Teh´ at a T (X) = 1/X 3. P´elda: Legyen X1 , . . . , Xn ∼ N (µ, σ 2 ) f¨ uggetlen azonos eloszl´as´ u, θ = (µ, σ 2 ). n X √ (x −µ)2 (xi − µ)2 1 − i2σ 2 2 √ e − ln( 2πσ ) − = = lθ (x) = ln 2 2σ 2πσ i=1 i=1 n Y
n n 1 X 2 = − (ln(2π) + ln σ ) − 2 (xi − µ)2 . 2 2σ i=1
n ∂lθ (x) 1 X 2(xi − µ)(−1) = 0 =⇒ µ ˆ=x ¯. =− 2 ∂µ 2σ i=1 n n 1 1 X ∂lθ (x) (xi − µ)2 = 0. = − + 2 2 2 2 ∂σ 2σ 2(σ ) i=1
Mivel a µ ˆ = x ¯ sz´els˝o´ert´ekhely nem f¨ ugg a σ 2 param´etert˝ol, ez´ert µ ˆ = x ¯-ot a 2 ˆ 2 m´asodik egyenletbe helyettes´ıtve σ = Sn ad´odik, ami torz´ıtott, de aszimptotikusan torz´ıtatlan becsl´ese a sz´or´asn´egyzetnek. Most vizsg´aljuk meg a m´asodik deriv´altakb´ol ´all´o Hesse-m´atrixot a stacion´arius (¯ x, s2n ) helyen:
H =
− sn2
n
0
0 − 2(sn2 )2 n
,
ez negat´ıv definit, teh´at t´enyleg lok´alis maximumhelyet kaptunk, ami a param´etertertom´ any nyitott volta miatt egyben glob´ alis maximumhely is. 4. P´elda: Legyen X1 , . . . , Xn ∼ U[a, b] f¨ uggetlen azonos eloszl´ as´ u! Itt θ = (a, b). Az n 1 · I(a ≤ x∗1 , b ≥ x∗n ) Lθ (x) = b−a likelihood-f¨ uggv´eny nyilv´an csak akkor k¨ ul¨onb¨ozik 0-t´ol, ha az a ≤ x∗1 ´es b ≥ x∗n felt´etelek teljes¨ ulnek. Ilyen felt´etelek mellett viszont az 1/(b − a)n t´enyez˝o a lehet˝o legr¨ovidebb [a, b] intervallum v´alaszt´asa eset´en lesz maxim´alis, azaz az intervallum “r´ ah´ uz´ odik” a mint´ara. Teh´at (ˆ a, ˆb) = (X1∗ , Xn∗ ) lesz a param´eterp´ar ML-becsl´ese.
12
Momentumok m´ odszere A m´odszert ´altal´aban t¨obb param´eter egy¨ uttes becsl´es´ere haszn´alj´ak. Legyen X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta egy Pθ eloszl´ asb´ol, θ = (θ1 , . . . , θk ). V´alasszunk k db. momentumot (´altal´aban az els˝o k-t), amelyek a θ1 , . . . , θk param´etereket m´ar egy´ertelm˝ uen meghat´arozz´ak: mj = Eθ (X j ) = gj (θ1 , . . . , θk ),
j = 1, . . . , k.
Tfh. a (g1 , . . . , gk ) : Rk → Rk lek´epez´esnek l´etezik inverze, jel¨olje ezt (h1 , . . . , hk ) : Rk → Rk , ahol teh´at hi (m1 , . . . , mk ) = θi . Defin´ıci´ o. A fenti jel¨ol´esekkel θi momentum becsl´ese alatt a θˆi = hi (m ˆ 1, . . . , m ˆ k ), statisztik´at ´ertj¨ uk, ahol
i = 1, . . . , k
n
1X j Xi m ˆj = n i=1
a minta j-edik empirikus momentuma.
Legkisebb n´egyzetes becsl´esek, regresszi´ o Az alapprobl´ema a k¨ovetkez˝o: Az X, Y v.v. egy¨ uttes eloszl´ as´anak ismeret´eben k¨ozel´ıteni szeretn´enk Y -t X m´erhet˝o t fv.-´evel legkisebb n´egyzetes ´ertelemben: E(Y − t(X))2 → min . t − ben. Tudjuk, hogy az optimumot az u ´n. regresszi´ os g¨ orbe szolg´altatja, melynek egyenlete: topt (x) = E(Y | X = x), azaz Y felt´eteles v´arhat´o ´ert´eke a X = x felt´etel mellett. Amennyiben X, Y egy¨ uttes eloszl´asa 2-dimenzi´os norm´alis, a regresszi´os g¨orbe egyenes lesz. Egy´eb esetekben is szokt´ak a a legkisebb n´egyzetes ´ertelemben legjobb line´aris k¨ozel´ıt´est keresni, k¨ ul¨on¨osen ha az elm´eleti egy¨ uttes eloszl´ as nem ismert, csak egy 2-dimenzi´os minta ´all rendelkez´es¨ unkre. 1. Elm´eleti megold´ as Tegy¨ uk fel, hogy az X, Y v.v.-k (´altal´aban ismeretlen) egy¨ uttes eloszl´asa abszol´ ut folytonos, tov´abb´a a v´altoz´ok els˝o, m´asodik ´es vegyes m´asodik momentumai l´eteznek, ezeket k¨ ul¨on jel¨olj¨ uk is: E(X) = m1 ,
E(Y ) = m2 ,
D2 (X) = σ12 ,
D2 (Y ) = σ22 ,
Cov (X, Y ) = c,
Corr (X, Y ) = r,
feltehet˝o, hogy σ1 > 0. Keress¨ uk az l(x) = ax + b regresszi´ os egyenest, mellyel h(a, b) = E(Y − l(X))2 = E(Y − aX − b)2 → min . a, b − ben. Ez egy k´etv´altoz´os sz´els˝o´ert´ek feladat, a stacion´arius megold´as az al´abbi egyenletrendszerb˝ol kaphat´o: ∂h = −2E[(Y − aX − b)X] = 0 ∂a ∂h = −2E[Y − aX − b] = 0 ∂b
13
(ui. a fenti felt´etelek mellett a param´eter szerinti deriv´al´as ´es az integr´al´ast jelent˝o v´arhat´o ´ert´ek k´epz´es felcser´elhet˝o), vagy ami ezzel ekvivalens: a · E(X 2 ) + b · E(X) = E(XY ) a · E(X) + b = E(Y ). Az ismeretlenek a ´es b, az egy¨ utthat´om´atrix: E(X 2 ) E(X) H= , E(X) 1 melynek determin´ansa: |H| = E(X 2 )−E2 (X) = σ12 > 0, ´ıgy a Cramer-szab´allyal: a=
c rσ1 σ2 σ2 E(XY ) − E(X) · E(Y ) = 2 = =r , 2 2 σ1 σ1 σ1 σ1 b = E(Y ) − aE(X) = m2 −
c m1 . σ12
A m´asodrend˝ u deriv´altakat tartalmaz´o Hesse-m´atrix szint´en H, ennek mindk´et f˝ominora pozit´ıv, ´ıgy a fenti a, b val´oban lok´alis minimumot szolg´altat, ami a tartom´anyok ny´ılts´ aga, ´es a differenci´alhat´os´agi felt´etelek teljes¨ ul´ese miatt glob´alis minimumot is ad. A regresszi´os egyenes egyenlete teh´at: y = ax + b =
c (x − m1 ) + m2 , σ12
vagy m´eg k¨onnyebben megjegyezhet˝o form´aban: x − m1 y − m2 =r . σ2 σ1 Az is l´athat´o, hogy a kovariancia (korrel´aci´o) el˝ojele adja meg a regresszi´os egyenes ir´anytangens´enek el˝ojel´et. N´eh´ any sz´o a regresszi´o (=visszat´er´es) fogalom jelent´es´er˝ol. Sir Francis Galton brit orvos a XIX. sz´azad m´asodik fel´eben sz¨ ul˝o–gyerek testmagass´ag kapcsolat´at vizsg´alta. Felt´etelezte, hogy σ1 = σ2 = σ. Akkor a gyerek testmagass´aga (Y ) a sz¨ ul˝o testmagass´ag´aval (X) a k¨ovetkez˝ok´eppen predik´alhat´o line´arisan: Y = m2 + r(X − m1 ), ahol r az X ´es Y k¨ozti korrel´aci´ot jel¨oli. Ha |r| < 1, akkor nyilv´an |Y − m2 | < |X − m1 |. Ebb˝ol l´athat´o, hogy az r > 0 esetben: amennyiben a sz¨ ul˝o az ´atlagn´al magasabb, a gyerek is az lesz, de az ut´od magass´aga kevesebbel m´ ulja fel¨ ul az ´atlagot, mint a sz¨ ul˝o´e. Hasonl´oan, ha a sz¨ ul˝o az ´atlagn´al alacsonyabb, a gyerek is az lesz, de az ut´od magass´aga kevesebbel van alatta az ´atlagnak, mint a sz¨ ul˝o´e. (Az ´atlagt´ol val´o abszol´ ut elt´er´esre negat´ıv korrel´aci´o eset´en is hasonl´o mondhat´o.)
14
Ezt a jelens´eget nevezte el Galton az ´atlaghoz val´o “visszat´er´es”nek, latinul regresszi´onak. 2. A regresszi´ os egy¨ utthat´ ok becsl´ese mint´ ab´ ol Legyen most (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. minta az (X, Y ) h´att´erv´altoz´ora. A fenti modell a, b egy¨ utthat´oit becs¨ ulj¨ uk a legkisebb n´egyzetek m´ odszer´evel: h(a, b) =
n X i=1
(Yi − aXi − b)2 → min .
a, b − ben.
Miut´an az a, b szerinti parci´alis deriv´altakat 0-val tessz¨ uk egyenl˝ ov´e, a k¨ovetkez˝o egyenletrendszert kapjuk: a·
n X
Xi2
i=1
a·
n X i=1
+b·
n X
Xi =
i=1
Xi + b · n =
n X
X i Yi
i=1
n X
Yi .
i=1
A Cramer-szab´aly itt is alkalmazhat´o, hiszen feltehet˝ o, hogy az egy¨ utthat´om´atrix 2 determin´ansa n2 SX > 0. Teljesen hasonl´o sz´amol´assal, mint az 1. r´eszben kij¨on, hogy C SY ¯ = Y¯ − R SY X, ¯ a ˆ= 2 =R , ˆb = Y¯ − a ˆX SX SX SX ahol SX ill. SY jel¨oli X ill. Y (korrig´alatlan) emp´ırikus sz´or´as´at, C ill. R pedig az X ´es Y k¨ozti emp´ırikus kovarianci´at ill. korrel´aci´ot jel¨oli. Mivel az egyenletrendszer megold´asakor ugyanazokat a l´ep´eseket k¨ovetj¨ uk el, mint az 1. r´eszben, nem meglep˝o, hogy a ´es b becsl´es´en´el az elm´eleti els˝o ´es m´asodik momentumok hely´ebe a mint´ab´ol sz´amolt emp´ırikus momentumok l´epnek, azaz momentum becsl´est kapunk. – Megjegyezz¨ uk, hogy line´aris regresszi´ora vezethet˝ok vissza a k¨ovetkez˝o approxim´aci´ os feladatok: a. Y ∼ aebX ⇐⇒ ln Y ∼ ln a + bX
b. Y ∼ aX b ⇐⇒ ln Y ∼ ln a + b ln X
c. Y ∼ 1/(aX + b) ⇐⇒ 1/Y ∼ aX + b
Mint´ab´ol becsl´esn´el a. esetben az (Xi , ln Yi ), b. esetben az (ln Xi , ln Yi ), c. esetben az (Xi , 1/Yi) (i = 1, . . . , n) 2-dimenzi´os mint´akon hajtjuk v´egre a 2. r´eszben le´ırt line´aris regresszi´ot, ´es a v´eg´en n´eha m´eg a becs¨ ult param´etert is transzform´alni kell.
– Polinomi´ alis regresszi´ o r-edfok´ u polinomi´alis regresszi´on´al keress¨ uk az Y ∼ ar X r + · · · + a1 X + a0 k¨ozel´ıt´est legkisebb n´egyzetes ´ertelemben: E(Y − ar X r − · · · − a1 X − a0 )2 → min . ai − kben. Az ar , . . . , a1 , a0 egy¨ utthat´ok meghat´aroz´as´ahoz deriv´aljuk c´elfv.-¨ unket mindegyik egy¨ utthat´o szerint parci´alisan. A deriv´altakat 0-val egyenl˝ov´e t´eve r + 1 db.
15
line´aris egyenletb˝ol ´all´o egyenletrendszert kapunk, mely megoldhat´o Cramerszab´allyal. A megold´asokba 2r rendig j¨onnek be momentumok (ezek l´etez´es´et fel kell tenni). Amennyiben 2-dimenzi´os minta alapj´an szeretn´enk becs¨ ulni az egy¨ utthat´okat, a becsl´esekbe a megfelel˝o emp´ırikus momentumok j¨onnek be (2r rendig). Megjegyezz¨ uk, hogy itt az r ≥ 1 eg´esz sz´am ´ert´ek´et el˝ore meg kell adni, b´ar egyes programcsomagokban el´eg a sz´obaj¨ohet˝o maxim´alis r-t megadni, ´es automatikusan megt¨ort´enik az enn´el alacsonyabb fok´ u polinomokhoz val´o illeszt´es is az illeszked´es szignifikanci´aj´anak vizsg´alat´aval egy¨ utt, ha a felhaszn´al´o k´eri. (Az r = 1 eset a line´aris regresszi´o.) Intervallumbecsl´esek Az eddigiekben u ´n. pontbecsl´esekkel foglalkoztunk, vagyis a becs¨ ulend˝o param´etert v. param´eterf¨ uggv´enyt a mintaelemekb˝ol k´epzett egyetlen statisztik´aval becs¨ ult¨ uk. Most becsl´esk´ent egy eg´esz intervallumot – melynek hat´arait term´eszetesen statisztik´ak jel¨olik ki – fogunk haszn´alni. A m´odszer egyben ´atvezet benn¨ unket a hipot´ezisvizsg´alatok elm´elet´ebe. Legyen (Ω, A, P) param´eteres statisztikai mez˝o, ahol P = {Pθ ; θ ∈ Θ}, dim (Θ) = 1! Legyen tov´abb´a X = (X1 , . . . , Xn ) f¨ uggetlen azonos eloszl´as´ u minta a Pθ sokas´agb´ol (θ ismeretlen)! Defin´ıci´ o. A (T1 (X), T2 (X)) statisztikap´arral defini´alt intervallum legal´abb 1 − ε szint˝ u konfidenciaintervallum a ψ(θ) param´eterf¨ uggv´enyre, ha Pθ (T1 (X) < ψ(θ) < T2 (X)) ≥ 1 − ε,
∀θ ∈ Θ,
ahol ε el˝ore adott “kis” pozit´ıv sz´am (p´eld´aul ε = 0.05, ε = 0.01, a hozz´ajuk tartoz´o szignifikanciaszint pedig 95%, 99%). Abszol´ ut folytonos eloszl´ asokn´al egyenl˝os´eg is el´erhet˝o, ekkor ´ertelemszer˝ uen pontosan 1 − ε szint˝ u konfidenciaintervallumr´ol besz´el¨ unk. Diszkr´et eloszl´asokn´al nem mindig ´erhet˝o el az egyenl˝os´eg. 1. P´elda: Konfidenciaintervallum szerkeszt´ ese a norm´ alis eloszl´ as v´ arhat´ o ´ ert´ ek´ ere ismert sz´ or´ as eset´ en Legyen X1 , . . . , Xn ∼ N (µ, σ02 ) f¨ uggetlen azonos eloszl´ as´ u minta, ahol σ02 ismert, ¯ torz´ıtatlan, er˝osen µ (a v´arhat´o ´ert´ek) ismeretlen param´eter. Tudjuk, hogy X konzisztens ´es hat´ asos pontbecsl´es µ-re. Keress¨ unk µ-re 1 − ε szint˝ u konfidenci¯ ¯ aintervallumot az (X − rε , X + rε ) szimmetrikus alakban: ¯ − rε < µ < X ¯ + rε ) = Pµ (|X ¯ − µ| < rε ) = Pµ (−rε < X ¯ − µ < rε ) = Pµ ( X ¯ −µ X rε rε −rε −rε √ < √ < √ √ √ =Φ −Φ = Pµ σ0 / n σ0 / n σ0 / n σ0 / n σ0 / n rε √ − 1 = 1 − ε, = 2Φ σ0 / n
azaz
Φ
rε √ σ0 / n
ε =1− , 2
ahonnan a standard norm´alis eloszl´ as 1 − ε/2 kvantilis´ere az ε −1 1− uε/2 = Φ 2
16
jel¨ol´est haszn´alva ad´odik, hogy rε =
uε/2 σ0 √ . n
Teh´ at a keresett 1 − ε szint˝ u konfidenciaintervallum: uε/2 σ0 ¯ uε/2 σ0 ¯ X− √ ,X+ √ n n lesz. Vegy¨ uk ´eszre, hogy a konfidenciaintervallum hossza n n¨ovel´es´evel ´es a σ0 sz´or´ as cs¨okkent´es´evel cs¨okken, ha viszont ezeket tartjuk konstans szinten, akkor a szignifikanciaszint n¨ovel´es´evel (ε cs¨okken´es´evel) n˝o (l´ev´en a standard norm´alis eloszl´asf¨ uggv´eny, Φ, ´es inverze is szigor´ uan monoton n¨ov˝o f¨ uggv´enyek). Azaz a mintaelemsz´am n¨ovel´es´evel ´es a sz´or´as cs¨okken´es´evel “pontosabban” be tudjuk hat´ arolni a v´arhat´ o ´ert´eket, viszont nagyobb biztons´ag csak a “pontoss´ag rov´as´ ara” ´erhet˝o el. Ismeretlen sz´or´ as eset´en ez nem alkalmazhat´o, a sz´amol´asokhoz bevezet¨ unk n´eh´eny fogalmat. Defin´ıci´ o. Legyenek X uggetlen azonos eloszl´as´ u val´osz´ın˝ us´egi n ∼ N (0, 1) f¨ P1n, . . . , X 2 v´altoz´ok! Az X = X val´ o sz´ ın˝ u s´ e gi v´ a ltoz´ o eloszl´ a s´ a t n szabads´ a gi fok´ u i=1 i 2 2 (centr´alis) χ -eloszl´ asnak nevezz¨ uk, ´es χ (n)-nel jel¨olj¨ uk. Az I.3. paragrafusban meghat´aroztuk a χ2 (n)-eloszl´as s˝ ur˝ us´egf¨ uggv´eny´et, tov´abb´a l´attuk, hogy Megjegyz´esek: - E(X) = n ´es D2 (X) = 2n. - A defin´ıci´ob´ol k¨ovetkezik, hogy f¨ uggetlen, n1 , . . . , nr szabads´agi fok´ u χ2 -eloszl´as´ u 2 val´osz´ın˝ us´egi v´altoz´ok ¨osszege χ -eloszl´as´ u lesz n1 + · · · + nr szabads´agi fokkal.
- Ha n el´eg “nagy”, akkor a centr´alis hat´areloszl´as t´etel ´ertelm´eben a χ2 (n)-eloszl´as norm´alis eloszl´assal k¨ozel´ıthet˝o az (5.4)-beli param´eterekkel.
Defin´ıci´ o. Legyenek Y ∼ N (0, 1) ´es X ∼ χ2 (n) f¨ uggetlen val´osz´ın˝ us´egi v´altoz´ok. Az Y p ∼ t(n) X/n
val´osz´ın˝ us´egi v´altoz´ot n szabads´agi fok´ u t-eloszl´as´ unak (vagy Student-eloszl´ as´ unak) nevezz¨ uk, ´es a fenti m´odon jel¨olj¨ uk. A t(n)-eloszl´as gn -el jel¨olt s˝ ur˝ us´egf¨ uggv´enye egy p´aros f¨ uggv´eny, ami n → ∞ eset´en a standard Gauss-g¨orb´ehez tart. Eloszl´asf¨ uggv´eny´ere Gn (−x) = 1 − Gn (x).
´ ıt´ All´ as (Luk´ acs T´ etel). Legyen X1 , . . . , Xn ∼ N (µ, σ 2 ) f¨ uggetlen azonos eloszl´ as´ u! Akkor ¯ ∼ N (µ, σ 2/n), (1) X
(2) nSn2 /σ 2 ∼ χ2 (n − 1), ¯ ´es S 2 f¨ (3) X uggetlenek. n
17
Nyilv´anval´o, hogy (2) ´es (3) helyett a k¨ovetkez˝o ekvivalens ´all´ıt´asok haszn´alhat´ok: (2’) (n − 1)Sn∗ 2 /σ 2 ∼ χ2 (n − 1), ¯ ´es S ∗ 2 f¨ (3’) X uggetlenek. n
2. P´elda: Konfidenciaintervallum szerkeszt´ ese a norm´ alis eloszl´ as v´ arhat´ o ´ ert´ ek´ ere ismeretlen sz´ or´ as eset´ en Legyen X1 , . . . , Xn ∼ N (µ, σ 2) f¨ uggetlen azonos eloszl´ as´ u minta, ahol a σ sz´or´as ¯ ¯ + rε ) alak´ ´es a µ v´arhat´o ´ert´ek is ismeretlen. Szerkessz¨ unk (X − rε , X u (szimmetrikus), 1 − ε szint˝ u konfidenciaintervallumot µ-re! ´ ıt´asb´ Az 5.1. All´ ol k¨ovetkezik, hogy az ¯ − µ√ X n ∼ N (0, 1) ´es σ
(n − 1)Sn∗ 2 ∼ χ2 (n − 1) σ2
statisztik´ak egym´ast´ol f¨ uggetlenek. Alkalmazzuk a t-eloszl´as (5.5) defin´ıci´oj´at: √ ¯ X−µ ¯ − µ√ n X σ q n ∼ t(n − 1). = ∗2 Sn∗ (n−1)Sn /(n − 1) σ2 Ekkor egyr´eszt
¯ − µ| < rε ) = ¯ − rε < µ < X ¯ + rε ) = Pµ,σ2 (|X Pµ,σ2 (X ¯ − µ < rε ) = = Pµ,σ2 (−rε < X √ √ ¯ − µ√ X −rε n rε n < = 1 − ε, = Pµ,σ2 n< Sn∗ Sn∗ Sn∗ m´asr´eszt pedig a t-eloszl´as eloszl´ asf¨ uggv´eny´ere tett megjegyz´es miatt ¯ − µ√ X Pµ,σ2 tε/2 (n − 1) < n < tε/2 (n − 1) = 1 − ε, Sn∗ ahol a t(n − 1)-eloszl´as 1 − ε/2 kvantilis´ere a
jel¨ol´est vezetj¨ uk be.
ε tε/2 (n − 1) = G−1 1 − n−1 2
A fenti k´epletek ¨osszevet´es´evel ´ıgy a konfidenciaintervallum sugar´ara rε =
tε/2 (n − 1) · Sn∗ √ n
ad´odik. Teh´ at a keresett 1 − ε szint˝ u konfidenciaintervallum: ∗ ∗ t (n − 1) · S t (n − 1) · S ε/2 ε/2 n n ¯+ ¯− √ √ . ,X X n n Vegy¨ uk ´eszre, hogy a konfidenciaintervallum hossza ann´al kisebb, min´el nagyobb az n mintaelemsz´am ´es min´el kisebb az Sn∗ korrig´alt empirikus sz´or´as, tov´abb´a min´el alacsonyabb szignifikanciaszintet (biztons´agot) akarunk el´erni. Mivel a sz´or´as ritk´an ismert, ez a k´eplet tε/2 (n − 1) helyett uε/2 -el ismeretlen sz´or´as eset´en is alkalmazhat´o, ha n “nagy” (n ≥ 30), hiszen ekkor a korrig´alt empirikus sz´or´as nagy pontoss´aggal becsli a val´odit.
18
´ ´ HIPOTEZISVIZSG ALAT Az alapprobl´em´at a k¨ovetkez˝o p´eld´an ´erz´ekeltetem. V´as´arl´oi panaszok ´erkeznek, hogy egy ´elelmiszerboltban az 1 kg-os felirat´ u cukros zacsk´oban val´oj´aban kevesebb van. Szeretn´enk korrekt m´odon kivizsg´alni az u ¨gyet. Kisz´allunk az u ¨zletbe, megm´er¨ unk n v´eletlenszer˝ uen kiv´alasztott zacsk´ot, X1 , . . . , Xn a minta. Legyen n = 25, ´es a realiz´aci´oban azt tal´aljuk, hogy ´atlaguk 0.98 kg. Mit tegy¨ unk? Az elt´er´est okozhatja a v´eletlen is, hiszen az 1 kg v´arhat´ o ´ert´ek˝ u, norm´alis eloszl´as´ u mintaelemek elt´erhetnek a v´arhat´o ´ert´ekt˝ol. A k¨ovetkez˝ok´eppen gondolkozunk: az ´artatlans´ag v´elelme alapj´an tegy¨ uk fel, hogy nem csalnak, vagyis a norm´alis eloszl´as´ u h´att´erv´altoz´o v´arhat´o ´ert´eke val´oban 1 kg. Szerkessz¨ unk p´eld´aul 95%-os konfidenciaintervallumot a v´arhat´o ´ert´ekre a minta alapj´an! Amennyiben az 1kg hipotetikus v´arhat´o ´ert´ek nincsen benne ebben az intervallumban, akkor k´et eset lehets´eges: - Mivel az esetek 95%-´aban a v´arhat´ o ´ert´ek benne van ebben az intervallumban, a v´eletlen folyt´an lehet, hogy m´egiscsak bek¨ovetkezett az az 5% val´osz´ın˝ us´eg˝ u esem´eny, hogy nincsen benne. - Nem igaz eredeti elk´epzel´es¨ unk, hogy 1 kg a v´arhat´ o ´ert´ek. Nagyon kis okunk van azt hinni, hogy bek¨ovetkezett egy 5% val´osz´ın˝ us´eg˝ u esem´eny, ink´abb az ut´obbi mellett voksolunk, hogy nem 1 kg a v´arhat´ o ´ert´ek. Azaz 95%-os biztons´aggal u ´gy d¨ont¨ unk, hogy csaltak. Ellenkez˝o esetben, ha az 1 kg benne van a konfidenciaintervallunban, viszont 95%-os biztons´aggal u ´gy d¨ont¨ unk, hogy nem ´ csaltak. Lehet, hogy hib´asan d¨ont¨ott¨ unk. Ugy is d¨onthett¨ unk hib´asan, hogy felmentett¨ uk a boltot a v´ad al´ol, holott az igaz volt. Vizsg´ aljuk meg a hib´as d¨ont´esek val´osz´ın˝ us´eg´et! Fogalmazzuk meg a feladatot a k¨ovetkez˝ok´eppen: a H0 u ´n. null-hipot´ezis ´es a H1 alternat´ıv hipot´ezis (ellen-hipot´ezis) k¨ozt szeretn´enk d¨onteni. Eset¨ unkben az X ∼ 2 N (µ, σ0 ) h´att´erv´altoz´o ismeretlen µ v´arhat´ o ´ert´ek´ere vonatkoznak a hipot´ezisek (a σ0 sz´or´ ast most ismertnek vessz¨ uk). H0 : µ = µ0 (= 1 kg),
H1 : µ 6= µ0 .
(Val´oj´aban itt a H1 : µ < µ0 alternat´ıv´at kellene ink´abb vizsg´alni, ezt egyoldali ellen-hipot´ezisnek nevezz¨ uk, ´es k´es˝obb t´argyaljuk.) A d¨ont´est az X1 , . . . , Xn f¨ uggetlen azonos eloszl´ as´ u minta, illetve az ebb˝ol sz´amolt u=
¯ − µ0 √ X n σ0
statisztika alapj´an hozzuk. Ett˝ol f¨ uggetlen¨ ul v´alasztunk egy 1 − ε szignifikanciaszintet (eset¨ unkben ε = 0.05), ´es ehhez meghat´arozzuk az ε uε/2 = Φ−1 1 − 2
u ´n kritikus ´ert´eket. A konfidenciaintervallumokn´al tanultuk, hogy ez a standard norm´alis eloszl´as 1 − ε/2 kvantilise. Azt is l´attuk, hogy uε/2 σ0 ¯ uε/2 σ0 ¯ = Pµ0 |u| < uε/2 = 1 − ε . Pµ0 µ0 ∈ X − √ , X + √ n n
19
¯ k¨or¨ Teh´ at H0 fenn´all´asa eset´en µ0 1−ε val´osz´ın˝ us´eggel benne van a fenti, X uli, sz¯ immetrikus konfidenciaintervallumban. Ezzel ekvivalens, hogy X standardiz´altj´anak, az u val´osz´ın˝ us´egi v´altoz´onak az abszol´ ut ´ert´eke kisebb, mint az uε/2 kritikus ´ert´ek. Ez´ert az u ´n. u-pr´ oba a k¨ovetkez˝o l´ep´esekb˝ol ´all: 1. A mint´ab´ol kisz´amoljuk az u pr´obastatisztik´at. 2. Az adott 1 − ε szignifikancia-szinthez t´abl´azat alapj´an meghat´arozzuk az uε/2 k¨ usz¨ob´ert´eket. 3. D¨ont¨ unk: ha |u| < uε/2 , akkor 1−ε szinten elfogadjuk H0 -t, az |u| ≥ uε/2 esetben pedig elutas´ıtjuk azt. Ut´obbi esetben azt mondjuk, hogy a cukroszacsk´ok t¨omege (1 − ε)100%-os szinten szignifik´ansan elt´er az 1 kg-t´ol.
P´eld´ ankban: x ¯ = 0.98, µ0 = 1, n = 25 ´es legyen σ0 = 0.05. Ekkor u = −2. Mivel 95%-os szignifikanciaszintn´el ε = 0.05 ´es uε/2 = 1.96, ez´ert 95%-os biztons´aggal el kell utas´ıtanunk a null-hipot´ezist, azaz meg´allap´ıtjuk, hogy csaltak. 99%-os biztons´ag mellett ezt m´ar nem tudjuk megtenni, ugyanis akkor ε = 0.01 ´es uε/2 = 2.58, ez´ert 99%-os biztons´aggal el kell fogadnunk a null-hipot´ezist. Ez nem meglep˝o, hiszen az intervallumbecsl´esekn´el meg´allap´ıtottuk, hogy a szignifikanciaszint n¨ovel´ese n¨oveli a konfidenciaintervallum sz´eless´eg´et (a mintaelemsz´am n¨ovel´ese viszont cs¨okkenti azt). Azt mondhatjuk teh´at, hogy 95%-os biztons´aggal ´all´ıthatjuk, hogy csaltak, de 99%-os biztons´aggal m´ar nem ´all´ıthatjuk ugyanezt. (Azaz a boltot “els˝ofokon” el´ıt´elik, de egy szigor´ ubb b´ır´os´ag “m´asodfokon” felmenti a v´ad al´ol. A szigor´ us´ag a v´adlott ´erdekeit k´epviseli: min´el kisebb´e akarj´ak tenni annak val´osz´ın˝ us´eg´eg´et – m´asodfokon ez 0.01 –, hogy ´artatlanul el´ıt´elj´ek.)
A standard norm´alis eloszl´ asf¨ uggv´eny t´abl´azat´ab´ ol kikereshet˝o, hogy ε = 0.0456 eset´en lenne uε/2 = 2, azaz ez lenne az a legkisebb ε, ami mellett m´ar, illetve 95.44% lenne az a legnagyobb biztons´ag, ami mellett m´eg el tudn´ank utas´ıtani a null-hipot´ezist. D¨ont´es¨ unkkor k´etfajta hiba is fell´ephet: I. faj´ u hiba: H0 fenn´all, m´egis elutas´ıtom. II. faj´ u hiba: H0 nem ´all fenn, m´egis elfogadom. (A fenti p´eld´aban I. faj´ u hib´at k¨ovet¨ unk el, ha el´ıt´elj¨ uk az ´artatlant, ´es II. faj´ ut, ha felmentj¨ uk a b˝ un¨ost.) Jel¨olje p1 illetve p2 az I. illetve II. faj´ u hiba val´osz´ın˝ us´eg´et. Nyilv´an p1 = Pµ0 |u| ≥ uε/2 = ε,
´ıgy ezt a fajta hib´at uralni tudom a szignifikanciaszint megv´alaszt´as´aval. A m´asodfaj´ u hiba azonban f¨ ugg a val´odi µ 6= µ0 param´eter´ert´ekt˝ol: p2 = Pµ |u| < uε/2 , tov´abb´a f¨ ugg ε-t´ol ´es a mintaelemsz´amt´ol is. Be lehet l´atni, hogy a βn (µ, ε) = 1 − p2 = Pµ |u| ≥ uε/2
u ´n. er˝ of¨ uggv´eny ann´al nagyobb, min´el ink´abb elt´avolodik µ a hipotetikus µ0 -t´ol, min´el nagyobb n, illetve min´el nagyobb ε. Az I. ´es II. faj´ u hiba teh´at ellent´etes
20
mozg´as´ u. A gyakorlat d¨onti el, mennyire ´erdemes kicsinek v´alasztani az uralhat´o I. faj´ u hib´at. Mivel csak az els˝ofaj´ u hiba “uralhat´o”, a m´asodfaj´ u v´ altoz´asa pedig vele ellent´etes, el˝obbit nem ´erdemes t´ uls´agosan leszor´ıtani. Az is egy megold´as, hogy a H0 , H1 szereposzt´ast v´alasztjuk meg u ´gy, hogy a m´asodfaj´ u hiba elk¨ovet´ese ne legyen fat´ alis, az els˝o faj´ u hib´a´e legyen a s´ ulyosabb v´ets´eg, ennek val´osz´ın˝ us´eg´et viszont tetsz˝olegesen kicsiv´e tudjuk tenni kell˝ok´eppen magas szignifikanciaszint v´alaszt´as´ aval. P´eld´aul gy´ogyszer-hat´asvizsg´alatn´al legyen H0 : a gy´ogyszer hat´astalan vagy k´aros,
H1 : a gy´ogyszer hat´asos.
Ilyenkor az uralhatatlan m´asodfaj´ u hiba azt jelenti, hogy egy hat´asos gy´ogyszert nem vezetnek be, mert hat´astalannak vagy k´arosnak min˝os´ıtj¨ uk, ami az´ert nem okoz fat´alis probl´em´akat. Az els˝ofaj´ u hiba – hogy hat´asosnak min˝os´ıt¨ unk ´es bevezet¨ unk egy hat´ astalan, net´an k´aros k´esz´ıtm´enyt – val´osz´ın˝ us´ege viszont kell˝oen kicsiv´e tehet˝o, p´eld´aul legyen ε = 0.001, ´ıgy ennek bek¨ovetkez´ese nagyon val´osz´ın˝ utlen. ´ Altal´aban is, az orvosi gyakorlatban a null-hipot´ezis gyakran a pejorat´ıv verzi´ot tartalmazza: nincsen hat´asa egy kezel´esnek, egy klinikai m´er´esnek nincs diagnosztiz´al´o hat´ asa, stb., teh´at ¨or¨ ul¨ unk, ha ezt el tudjuk utas´ıtani min´el magasabb szinten. Ezt k¨ ul¨on¨osen nem-param´eteres pr´ob´akn´ al tudjuk megtenni. M´as szitu´aci´oban (param´eteres pr´ob´akn´ al) viszont ink´abb nagynak v´alasztjuk az els˝ofaj´ u hib´at. P´eld´aul egy szigor´ uan r¨ogz´ıtett m´eret˝ u alkatr´esz gy´art´asakor gyakran el˝ofordul, hogy a gy´art´oberendez´es kop´asa miatt a v´arhat´o ´ert´ek megv´altozik (a sz´or´ as kicsi). Min˝os´egellen˝orz´est v´egz¨ unk arra vonatkoz´oan, hogy az alkatr´esze megfelel-e a szabv´anynak. Ekkor a H0 : a v´arhat´o ´ert´ek megegyezik a szabv´any m´erettel,
H1 : nem egyezik meg
hipot´ezisek k¨oz¨ otti v´alaszt´asn´al viszonylag nagy ε-t kell v´alasztanunk, ha szigor´ uak akarunk lenni: v´allaljuk, hogy selejtnek min˝os´ıt¨ unk egy j´o alkatr´eszt is, semmint v´eletlen¨ ul rosszat ´ep´ıts¨ unk be. Elterjedt az a gyakorlat, hogy nem adjuk meg el˝ore ε-t, hanem n´ezz¨ uk, hogy mi az a legkisebb ε, amelyre 1 − ε szignifikancia-szinten m´ar el tudjuk utas´ıtani a nullhipot´ezist. A felhaszn´al´o azt´an eld¨onti, el´eg-e neki ekkora szignifikancia (a programcsomagok ezt a k¨ usz¨ob-ε-t ´ırj´ak ki, ´es n´eha ezt nevezik szignifikanci´anak). Am´ ugy, ha egy pr´oba konzisztens, “kell˝oen nagy” mintaelemsz´am eset´en a m´asodfaj´ u hiba tetsz˝olegesen kicsiv´e tehet˝o, ´ıgy ilyenkor nyugodtan magasra v´alaszthatjuk a szignifikanciaszintet. Statisztikai pr´ob´ak ´altal´anos elm´elet´er˝ol csak annyit, hogy ´altal´aban a mintateret kell felosztanunk egy elfogad´asi ´es egy kritikus tartom´ anyra (valamely statisztia kvantilis-´ert´ekei alapj´an) u ´gy, hogy az I. faj´ u hiba (vagy azok maximuma, amenynyiben null-hipot´ezis¨ unk ¨osszetett) adott ε legyen. El´eg ´altal´anos konstrukci´ok l´eteznek erre a feloszt´asra, melyek adott ε mellett az er˝of¨ uggv´enyt maximaliz´alj´ak az ellenhipot´ezis b´armely fenn´all´asa eset´en. A leggyakrabban haszn´ alt param´eteres ´es nemparam´eteres pr´ ob´ akat az ´or´an kiosztott t´abl´azatban foglaltuk ¨ossze. Param´eteres pr´ob´ akn´ al a hipot´ezis a param´eterre
21
vonatkozik, m´ıg a nemparam´eteres pr´ob´ak olyan k´erd´eseket vizsg´alnak, hogy k´et minta azonos eloszl´asb´ ol sz´armazik-e, f¨ uggetlen-e, stb. A t´abl´azatban szerepl˝o χ2 -pr´oba mellett a Kolmogorov-Szmirnov t´eteleken alapul´ o Kolmogorov-Szmirnov pr´ob´ak is haszn´alhat´ok. Vegy¨ uk ´eszre, hogy a statisztikai pr´ob´ak l´enyege: tal´alunk egy statisztik´at, melynek eloszl´ asa megadhat´o a null-hipot´ezis fenn´all´asa eset´en. Ezut´an megn´ezz¨ uk, hogy a mint´ab´ol kisz´amolt ezen statisztika ´ert´eke mennyire tipikus ilyen eloszl´as eset´en. Ha nem az, akkor elutas´ıtjuk, k¨ ul¨onben pedig elfogadjuk a null-hipot´ezist. Aj´ anlott irodalom - Bolla Marianna, Kr´amli Andr´as: Statisztikai k¨ovetkeztet´esek elm´elete. Typotex, Budapest, 2005. - Reiman J´ozsef: Val´osz´ın˝ us´egelm´elet ´es matematikai statisztika m´ern¨ok¨oknek. Tank¨onyvkiad´o, Budapest, 1992.