http://www.math.elte.hu/~arato/matstat2011.htm
Matematikai statisztika 8. elıadás
σ 12 / n + σ 2 2 / m
tn+ m−2
nm(n + m − 2) = n+m
2 2 ( X − X ) + ( Y − Y ) ∑ i ∑ i
X −Y
Kritikus tartomány: mint az egymintás esetben Ha ismeretlenek, de azonosak a szórások:
u=
X −Y
Ha ismert a szórás: (X n elemő, σ1 szórású, Y m elemő, σ2 szórású), alkalmazható a kétmintás u-próba
Kétmintás eset: független minták
H0: σ1=σ2 Két független, n, illetve m elemő normális eloszlású minta alapján a próbastatisztika: 2 2 s1 s2 (a korrigált tapasztalati F = max( 2 , 2 ) s2 s1 szórásnégyzetek hányadosa) Kritikus érték: az n-1,m-1 szabadságfokú F eloszlás 1-α/2 kvantilise (n a számlálóbeli, m pedig a nevezıbeli minta elemszáma).
A szórás vizsgálata kétmintás esetben: F-próba
s1 / n c= 2 2 s1 / n + s2 / m
2
Alkalmazható, ha az F-próba elfogadja a szórások azonosságát. Ha nem, akkor Welch-próba: X −Y t' = 2 2 s1 / n1 + s2 / n2 H esetén közelítıleg t eloszlású f szabadságfokkal, ahol
1 c2 (1 − c) 2 = + f n −1 m −1
Kétmintás t-próba ismét
Vn =
1
i
i =1
∏f
i =1 n
0
(Xi )
∏ f (X )
N = min{n : Vn ≤ A vagy Vn ≥ B}
Addig veszünk mintaelemeket, amíg Vn≥B vagy Vn≤A nem teljesül Tehát az algoritmus: •Vn≥B: elutasítjuk H0-t. •Vn≤A : elfogadjuk H0-t. •B>Vn>A: új mintaelemet veszünk. Stein tétele miatt 1 valószínőséggel véges az N, ahol
A valószínőséghányados n elemő mintából
n
Módosítás a véletlenítés elkerülésére: szekvenciális próbák
Az eljárás hatékonyságát mérı szám: várható mintaelemszám (ASN).
X1 +X2 ≤c3 teljesül.
Egyébként további n2 db mintaelemet veszünk és akkor fogadjuk el a tételt, ha
X1≥c2: elutasítjuk a tételt
n1 elemő mintára: X1≤c1: elfogadjuk a tételt
Kétlépcsıs tervek
Kompromisszum a gyakorlatban: minıségellenırzés
Kolmogorov-Szmirnov próba: a tapasztalati és az elméleti eloszlásfüggvény eltérésének maximumán alapul. Ugyanerre az eltérésre más próbák is épülnek (Anderson-Darling, Cramér-von Mises), melyek az eltérés (esetleg súlyozott) integrálját használják.
Illeszkedésvizsgálat: Adott eloszlású-e a minta? (Például paraméteres próbákhoz kellhet.)
Nemparaméteres próbák
mn ∞ i − 2i 2 y 2 lim P Dm ,n < y = ∑ (−1) e m , n →∞ m+n i = −∞
x
Dm,n = max | Fn ( x) − Gm ( x) |
A két tapasztalati eloszlásfüggvény eltérésének maximumán alapul:
Kolmogorov-Szmirnov próba (homogenitásvizsgálatra)
Azt számoljuk össze, hogy hány olyan pár van, ahol Xi>Yj. A kapott statisztika aszimptotikusan normális eloszlású, nem érzékeny a kiugró értékekre.
Elıjelpróba Wilcoxon próba (rangstatisztika): P(X>Y)=1/2 tesztelésére.
További nemparaméteres tesztek
∑
(
)
npi
ami aszimptotikusan r-1 szabadságfokú χ-négyzet eloszlású, ha igaz a nullhipotézis. Kritikus tartomány: ha a statisztika értéke nagyobb, mint az r-1 szabadságfokú χ-négyzet eloszlás 1- α kvantilise, elutasítjuk a nullhipotézist.
i =1
H0 hipotézis: az A1, A2 , ..., Ar teljes eseményrendszerre teljesül P(A1)=p1, P(A2)=p2, ..., P(Ar)=pr 2 r ν − np i i A tesztstatisztika:
χ-négyzet próba
2
n ∑ ξi − nEξ1 2 → χ 2 = i =1 χ 1 n →∞ ,eloszlásban nD ξ 1
i =1
ν = ∑ ξi , Eξi = p, D 2ξi = p(1 − p) ,
n
2 2 2 2 2 ( ν − np ) (( n − ν ) − n (1 − p )) ( ν − np ) ( ν − np ) ( ν − np ) + = + = χ2 = np n(1 − p ) np n(1 − p ) np (1 − p ) ξi = 1, ha az i.kísérletnél A bekövetkezik, 0 különben
Miért is ez a határeloszlás? r = 2, H 0 : P( A) = p , ν : A gyakorisága n kísérletbıl
χ-négyzet próba (folytatás)
Szám
8 5 9 2 7 5
2
3
4
5
6
6 0.167
6 0.167
6 2.667
6 1.500
6 0.167
6 0.667
npi
(ν i − npi )
36 kockadobás eredménye Megfigyelt npi
1
Példa (kockadobás) 2
npi
(ν i − npi )
npi
(ν i − npi ) 2
2
= 5.333
~χ
2 5
Nem tudjuk a szabályosság hipotézisét elutasítani!
P ( χ 52 > 5.333) = 0.377 ⇒
i =1
∑
6
i =1
∑
6
n = 36, r = 6
33.333 5.604 33.333 0.213 33.333 8.003
36 17
Macintosh
Egyéb
npi
(ν i − npi )
47
npi
IBM
Megfigyelt
100 amerikai diák
Számítógép
2
Példa (számítógépek népszerősége)
npi
(ν i − npi )
npi
(ν i − npi ) 2
2
= 13.820
~χ
2 2
Elutasítjuk az egyforma kedveltség hipotézisét!
P ( χ 22 > 5.99 ) = 0.05 ⇒
i =1
∑
3
i =1
∑
3
n = 100, r = 3
Illeszkedésvizsgálat:
o
Diszkrét esetben gyakran: Ai = {ξ = xi } , i = 1, 2,..., r
i
Ai = {ξ ∈ Ci } , i = 1, 2,..., r , ∪ Ci = R
Visszavezetjük az elızı esetre
H 0 : ξ1 ,..., ξ n F eloszlásfüggvényőek
χ-négyzet próba illeszkedésvizsgálatra
0 16267
1 1966
2
4
1
1 0
148006
5 6 7 >7 Összesen 211 31 5
3
Mi lehet egy vezetı által okozott károk számának eloszlása? Poisson eloszlású-e?
Veze- 129524 tık száma
Kárszám
Példa
i =1
npˆ i
(ν i − npˆ i )
pˆ i = pi (ϑˆ1 ,..., ϑˆs ).
ahol
2
χ =∑
r
A tesztstatisztika: 2 2 χ → r − s −1 , n →∞
ϑ1 ,...,ϑs ismeretlen paraméterek.
P( Ai ) = pi (ϑ1 ,..., ϑs ), i = 1, 2,..., r
H0 hipotézis: az A1, A2 , ..., Ar teljes eseményrendszerre teljesül:
Becsléses χ-négyzet próba
Neg. bin.
Npi
16 237
18 218
128 433
129 541
16267
129524
Vezetık száma npi
Poisson
1
0
Kárszám
1 962
1 292
1966
2
Példa (folyt.)
234
61
211
3
28
2,2
31
4
0,39
0,001
0,06
3,3
1
6
5
5
0,05
3E-05
1
7
0,006
5E-07
0
>7
148006
Összesen
npˆ i
(ν i − npˆ i )
npˆ i
(ν i − npˆ i ) 2
2
> 200
~ χ 52−1−1
Elutasítjuk Poisson eloszlás hipotézisét!
P ( χ 32 > 17.7 ) = 0.05% ⇒
i =0
∑
4
i =0
∑
4
Poisson eset: λˆ =0.709
A4 = {ξ ≥ 4}
Ai = {ξ = i} , i = 0,1, 2,3
n = 148006, r = 5
A teljes eseményrendszer a számegyenes felosztása révén jön létre. Ügyeljünk arra, hogy minden intervallum közel azonos valószínőségő legyen. Ha paraméterbecslés szükséges, ML módszer alkalmazható.
Az illeszkedésvizsgálat alkalmazása folytonos eloszlásokra
Homogenitásvizsgálat:
o i
=R
r
i =1
χ = nm∑ 2
ν i
ν i + µi
n
µ − i
A tesztstatisztika: m 2 → χ r −1 n , m →∞
2
ν i = { j : ξ j ∈ Ci } , µi = { j : η j ∈ Ci } , i = 1, 2,..., r ,
i =1
∪C
r
Hasonlóan járunk el, mint korábban
H 0 : ξ1 ,..., ξ n és η1 ,...,ηm ugyanolyan eloszlásúak
χ-négyzet próba homogenitásvizsgálatra
Összesen Átlag
Jegy 1 2 3 4 5
Férfi
2009. január 5-ei vizsga
47 11 11 9 8 86 2,1
Ki tanul jobban?
Nı 4 1 2 2 2 11 2,7
Összesen 51 12 13 11 10 97 2,1
Nem tudjuk elutasítani az egyforma képesség hipotézisét!
58 5 2 28 6 2 − − 86 11 86 11 χ 2 = 86 ⋅11 + = 2.071 58 + 5 28 + 6 P ( χ12 > 2.71) = 10% ⇒
A tesztstatisztika:
ν 1 = 58,ν 2 = 28, µ1 = 5, µ2 = 6, n = 86, m = 11
ν i = { j : ξ j ∈ Ci } , µi = { j : η j ∈ Ci } , i = 1, 2,
C1 = {1; 2} , C1 = {3; 4;5}
npi q j
Kritikus tartomány: ha a statisztika értéke nagyobb, mint az rs-1 szabadságfokú χnégyzet eloszlás 1- α kvantilise, elutasítjuk a nullhipotézist.
i, j
∑
H0 hipotézis: az A1, A2 , ..., Ar és B1, B2 , ..., Bs teljes eseményrendszerekre teljesül a függetlenség. 2 (ν ij − npi q j )
χ-négyzet próba függetlenségvizsgálatra
Általában, ha az illesztendı eloszlást nem ismerjük – csak a családját - becsüljük a paramétereit. Ekkor a próbastatisztika szabadságfoka annyival csökken, ahány paramétert becsültünk. Függetlenségvizsgálatnál általában nem ismerjük a teljes eseményrendszer tagjainak valószínőségét, így r-1+s-1 valószínőséget kell becsülnünk. A szabadságfok ekkor tehát rs-1-r-s+2=(r-1)(s-1).
Becsléses eset
2
ν i•ν • j
ν 1•ν 2•ν •1ν •2
ν 11ν 22 −ν 12ν 21 ) ( n
r = s = 1esetben
i, j
2
→χ n →∞
2 1
ν i•ν • j ν ij − n 2 n∑ χ → ( r −1)( s −1) n →∞
A tesztstatisztika
ν i• : Ai gyakorisága ν • j : B j gyakorisága
ν ij : Ai B j gyakorisága
Itt két pdf file lesz hozzácsatlakoztatva