Villamosmérnök Szak, Távoktatás
Matematika segédanyag
11. Matematikai statisztika 11.1. Alapfogalmak
Definíció A statisztikai minta valamely valószín˝uségi változóra vonatkozó véges számú független kisérlet eredménye. Ez véges sok, azonos eloszlású valószín˝uségi változó együttese. Az egyes megfigyelési eredmények a minta elemei. A megfigyelések száma a minta elemszáma. Jelölés: ξ1 , ξ2 , . . . , ξn Megjegyzés: A kisérletek során mindegyik mintaelem egy konkrét értéket vesz fel: ξ 1 = x1 , ξ 2 = x2 , . . . , ξ n = xn Szokás az (x1 , x2 , . . . , xn ) értékhalmazt is statisztikai mintának nevezni.
Definíció Azt az Fn : R → R függvényt, amelynek ∀x ∈ R helyen felvett értéke az x-nél kisebb megfigyelések számának relatív gyakorisága empirikus eloszlásfüggvénynek nevezzük. Fn
1
x1
Készítette: Vajda István
x2
x3 x4 x5
...
xn
x
169
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Tétel: Glivenko tétele: Legyen ξ1, ξ2, . . . , ξn a ξ valószn˝uségi változóra vonatkozó nelem˝u statisztikai minta, ξ eloszlásfüggvénye F, a minta empirikus eloszlásfüggvénye Fn. Ha ∆n az empirikus és az elméleti eloszlásfüggvények közötti eltérés maximuma, azaz ∆n = max |Fn (x) − F (x)| , x∈R
akkor ∆n 1 valószín˝uséggel egyenletesen 0-hoz konvergál. A statisztikai minta ábrázolható gyakorisági- és s˝ur˝uséghisztogram segítségével is: • A mintaelemeket tartalmazó intervallumot általában 6-12 részintervallumra bontjuk. • Az egyes intervallumokra rajzolt téglalapok területe arányos az intervallumba es˝o mintaelemek számával. ki ∆i
d1
d2
d3
...
di−1
di
dn
x
∆i = di − di−1
ki ki = , azaz a téglalap terü∆i di − di−1 lete megegyezik a részintervallumba es˝o mintaelemek számával. Ilyenkor a téglalapok területösszege a minta elemszáma. A gyakorisági hisztogram esetén a téglalapok magassága
ki n∆i
d1
d2
d3
...
di−1
di
dn
x
∆i = di − di−1
ki . Ilyenkor a téglalapok területe az n∆i adott részintervallumba es˝o mintaelemek relatív gyakorisága, területösszege pedig 1. A s˝ur˝uségi hisztogram esetén a téglalapok magassága
Készítette: Vajda István
170
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Definíció A mintaelemek valamely αn = αn (ξ1, ξ2, . . . , ξn ) függvényét statisztikai függvénynek, röviden statisztikának nevezzük. Definíció A ξ valószín˝uségi változóra vonatkozó ξ1, ξ2, . . . , ξn statisztikai minta elemeinek ξ1 + ξ2 + . . . + ξn ξ¯ = n számtani közepét mintaközépnek nevezzük. Megjegyzés: A mintaközép a ξ valószín˝uségi változó várható értékének közelítésére szolgál.
Tétel: Ha a ξ valószín˝uségi változó várható értéke M(ξ) = m, szórása D(ξ) = σ, akkor a ξ-re vonatkozó ξ1, ξ2, . . . , ξn statisztikai mintából számított ξ¯ mintaközép várható értéke ¯ = M(ξ) = m, M(ξ) szórása
σ ¯ = D(ξ) D(ξ) √ = √ . n n
Megjegyzés: Valamely A esemény relatív gyakorisága a mintaközép speciális esete.
Készítette: Vajda István
171
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Definíció Empirikus szórásnégyzetnek nevezzük a mintaelemeknek a ξ¯ mintaközépt˝ol való négyzetes átlageltérését, azaz az S2n
¯ 2 + (ξ2 − ξ) ¯ 2 + . . . + (ξn − ξ) ¯2 (ξ1 − ξ) = n
statisztikát. Megjegyzések: • Az emirikus szórásnégyzet négyzetgyökét, azaz az r ¯ 2 + (ξ2 − ξ) ¯ 2 + . . . + (ξn − ξ) ¯2 (ξ1 − ξ) Sn = n statisztikát empirikus szórásnak nevezzük. • Az empirikus szórásnégyzet (szórás), az elméleti szórásnégyzet (szórás) közelítésére szolgál.
Tétel: Az S2n empirikus szórásnégyzet várható értéke M(S2n ) =
n−1 2 σ, n
ahol σ jelöli az elméleti szórást. Definíció Korigált empirikus szórásnégyzetnek nevezzük az n 2 S∗2 = S n n−1 n statisztikát.
Készítette: Vajda István
172
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Tétel: Az S∗2 n empirikus szórásnégyzet várható értéke 2 M(S∗2 n)= σ .
Definíció Az empirikus szórásnak és a mintaközépnek a hányadosát a cv =
Sn ξ¯
statisztikát variációs tényez˝onek nevezzük. Megjegyzés: A variációs tényez˝ot relatív szórásnak is szokás nevezni.
11.2. Becsléselmélet
Definíció Legyen az a paraméter a vizsgált ξ valószín˝uségeloszlás egy elméleti jellemz˝oje. Ha a-t az αn = αn (ξ1, ξ2, . . . , ξn) statisztikával kívánjuk becsülni és αn várható értéke megegyezik az a paraméter értékével azaz M(αn ) = a, akkor αn az a paraméternek tozítatlan becslése. Példák: • A mintaközép ξ várható értékének torzítatlan becslése. • A korrigált empirikus szórás ξ elméleti szórásának torzítatlan becslése. • A relatív gyakoriság torzítatlan becslése valamely A esemény P(A) = p valószín˝uségének.
Készítette: Vajda István
173
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
• Az empirikus szórás nem torzítatlan becslése ξ elméleti szórásának.
Definíció Az a paraméternek valamely α1 , α2 , . . . , αn becsléssorozatát aszimptotikusan torzítatlan becsléssorozatnak nevezzük, ha lim M(αn ) = a.
n→∞
Tétel: Az S2n empirikus szórásnégyzet aszimptotikusan torzítatlan becslése σ2-nek, azaz az elméleti szórásnégyzetnek. 11.2.1. Konfidenciaintervallumok Az eddig vizsgált ún. pontbecslések mellett gyakran alkalmazzák az intervallumbecsléseket is. A mintából nem tudjuk megmondani az a paraméter pontos értékét, viszont meg tudunk adni egy olyan intervallumot, ami az ismeretlen paramétert nagy pl. 95%-os valószín˝uséggel tartalmazza. Az ilyen intervallumot az a paraméterre vonatkozó konfidenciaintervallumnak (megbízhatósági intervallumnak) nevezzük.
Tétel: Ha a ξ normális eloszlású valószín˝uségi változó várható értéke M(ξ) = m, szórása σ0 és ξ1, ξ2, . . . , ξn egy ξ-re vonatkozó statisztikai minta, akkor ! σ σ 0 0 P ξ¯ − uε √ < m < ξ¯ + uε √ = 1 − ε, n n ε ha Φ(uε) = 1 − . 2
Készítette: Vajda István
174
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
σ0 σ0 σ0 σ0 Megjegyzés: Mivel ξ¯ − uε √ < m < ξ¯ + uε √ ekvivalens az m − uε √ < ξ¯ < m + uε √ n n n n összefüggéssel, a tételben ! σ0 σ0 ¯ P m − uε √ < ξ < m + uε √ = 1 − ε n n is helyes lett volna.
11.3. Hipotézisvizsgálat
Definíció Statisztikai hipotézisen egy vagy több valószín˝uségeloszlásra vonatkozó valamilyen feltevést értünk. A statisztikai hipotézisvizsgálatban egy igaznak feltételezett állításból indulunk ki (ún. nullhipotézis, jelölése H0 ), az eloszlás vagy paraméter számára a nullhipotézist˝ol eltér˝o más lehet˝oségek (esetleg az összes más lehet˝oségek) együttesét ellenhipotézisnek vagy alternatív hipotézisnek (jelölése H1 ) nevezzük.
Definíció Azt az eljárást, amelynek alapján egy statisztikai hipotézisr˝ol döntünk, statisztikai próbának nevezzük. Amennyiben a H0 hipotézist véges sok paraméter határozza meg, és így a kérdés az eloszlás valamely paraméterére vonatkozik, akkor paraméteres próbáról beszélünk. A döntéssel kapcsolatosan a következ˝o esetek lehetségesek:
H0 fennáll H0 nem áll fenn
Készítette: Vajda István
A H0 hipotézist elfogadjuk helyes döntés másodfajú hiba
A H0 hipotézist elutasítjuk els˝ofajú hiba helyes döntés
175
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
11.3.1. Az egymintás u-próba Tegyük fel, hogy a ξ valószín˝uségi változó normális eloszlású és ismerjük az M(ξ) = σ0 szórást. Nullhipotézisünk: H0 : M(ξ) = m0 Ellenhipotézis (kétoldali): H1 : M(ξ) , m0 Ha a ξ valószín˝uségi változóra vonatkozóan rendelkezésünkre áll a ξ1 , ξ2 , . . . , ξn szatisztikai minta, akkor képezzük a ξ¯ mintaközepet és számítsuk ki az ξ¯ − m0 √ u= n σ0 statisztikát. Ekkor (H0 -t igaznak feltételezve): ε ahol Φ(uε ) = 1 − . 2
P(−uε < u < uε |H0 ) = 1 − ε,
Definíció Valamely statisztikai próba kritikus tartománya a próbastatisztika azon értékeinek halmaza, amely értékek esetén H0-t elvetjük, elfogadási tartománya pedig a próbastatisztika azon értékeinek halmaza, amelyértékek esetén H0-t elfogadjuk. Az u-próba esetén az elfogadási tartomány a ]−uε , uε [ intervallum, a kritikus tartományt az uε -nál nagyobb, illetve a −uε -nál kisebb értékek alkotják. A fentiek szerint az els˝ofajú hiba elkövetésének valószín˝usége az u-próba esetén kicsi (ε-nal egyenl˝o). Az ε számot szokás a próba szignifikanciaszintjének nevezni. Példa: Egy gyár által el˝oállított villanykörtékb˝ol egy bizonyos napon 100 elem˝u mintát vettek. A körték élettartama normális eloszlású 120 óra szórással. A minta alapján az átlagos élettartamra 1570 órát kaptak. Döntse el 5%-os szignifikanciaszinten, hogy ez az eredmény a körték 1600 órás élettartamának megváltozását jelenti-e! Megoldás: H0 : m0 = 1600 H1 : m0 , 1600 ¯ ξ − m0 √ −30 u= n= · 10 = −2.5 σ0 120 Mivel uε = 1.96, u a kritikus tartományba esik, így a nullhipotézist 5%-os szignifikanciaszinten elvetjük. Tehát az izzók élettartama megváltozott. Készítette: Vajda István
176
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Kicsit módosul a számolás, ha ún. egyoldali ellenhipotézist alkalmazunk. Ilyenkor uε -t úgy választjuk, hogy Φ(uε ) = 1 − ε teljesüljön. Példa: Egy pékségben készült cipók tömege normális eloszlású 500 g várható értékkel és 20 g szórással. 25 cipót lemérnek és a tömegük átlagára 490 g-ot kaptak. Állíthatjuk-e, hogy a teljes készletnél csökkent a tömeg átlagos értéke? Megoldás: H0 : m0 = 500 H1 : m0 < 500 ¯ ξ − m0 √ −10 u= n= · 5 = −2.5 σ0 20 Mivel uε = 1.645, u < −uε , tehát u a kritikus tartományba esik. A nullhipotézist ezen a szignifikanciaszinten elvetjük, a cipók tömege a pékségben csökkent. 11.3.2. Az egymintás t-próba Az u próba csak abban az esetben használható, ha a ξ valószín˝uségi változó szórását már ismerjük. Ha csak annyit tudunk, hogy ξ normális eloszlású változó, és a várható értékére vonatkozó nullhipotésir˝ol szeretnénk dönteni, akkor t-próbát alkalmazhatunk. Ennek alapja a Student vagy t-eloszlás, melynek értékeit a normális eloszláshoz hasonlóan táblázatból kereshetjük ki. A t statisztika hasonló az u statisztikához, csak az elméleti szórás helyett a korrigált empirikus szórás szerepel a nevez˝oben: tn−1 =
ξ¯ − m0 √ n, S∗n
ahol az indexben szerepl˝o n − 1 a használt t-eloszlás szabadsági foka (ami 1-gyel kisebb a mintaelemszámnál). Példa: Egy tojásszállítmányból 5 darabos mintát vettek, méréskor a tojások súlyára a 6.7, 6.5, 7.1, 7.3 és 6.8 gramm értékeket kaptuk. Döntse el 5%-os szinten, hogy a tojások tömege szignifikánsan eltér-e 7 grammtól! Megoldás: H0 : m0 = 7 H1 : m0 , 7 ξ¯ − m0 √ 6.88 − 7 √ t4 = n= 5 = −0.84 ∗ Sn 0.319 Mivel tε = 2.776, |t4 | < tε , tehát a H0 hipotézist elfogadjuk, a tojások tömege nem tér el szignifikánsan a 7 grammtól. Kicsit módosul a megoldás egyoldali ellenhipotézis esetén. Ilyenkor tε értékét a p = 2ε-nal jelölt oszlopból kell kiolvasni.
Készítette: Vajda István
177
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Példa: Egy konzervgyárban egy adagológép el˝oírás szerint 500 grammot tölt az üvegbe. Ellen˝orzés során 10 üveg lemérésekor a minta átlagára 494 grammot, a tapasztalati szórásra 8.06 grammot kaptak. A tömeg normális eloszlásúnak tekinthet˝o. Döntse el 5%-os szignifikanciaszinten, hogy a gép jól dolgozik-e vagy kevesebbet tölt az üvegekbe! Megoldás: H0 : m0 = 500 H1 : m0 < 500 ¯ ¯ ξ − m0 √ ξ − m0 √ −6 n = t9 = · n−1= · 3 ≈ −2.233 ∗ Sn Sn 8.06 Mivel tε = 1.833, |t9 | > tε , tehát a H0 hipotézist elvetjük, feltételezhetjük, hogy a gép kevesebbet tölt az üvegekbe 500 grammnál. 11.3.3. Illeszkedésvizsgálat
Definíció Az olyan statisztikai próbát, amelynek alapján arról döntünk, hogy valamely ξ valószín˝uségi változó F (ismeretlen) eloszlása lehet-e az F0 eloszlásfüggvénnyel jellemzett eloszlás, illeszkedésvizsgálatnak nevezzük. Tekintsünk egy olyan kisérletet, amelyben az A1 , A2 , . . . , An események teljes eseményrendszert alkotnak. Legyen a nullhipotézis a következ˝o: H0 : P(Ai ) = pi , ahol i ∈ {1, 2, . . . , n} és
n X
pi = 1
i=1
Ha N független kisérletet végzünk, és az A1 , A2 , . . . , An események rendre ν1, ν2 , . . . , νn esetn P ben következnek be ( νi = N), akkor képezzük a i=1
χ2n−1
=
n X (νi − Npi )2 i=1
Npi
statisztikát. Ennek eredményét összehasonlítva a χ2 eloszlás táblázatából kiolvasott értékkel, dönthetünk H0 elfogadásáról, illetve elvetésér˝ol: a χ2n−1 kisebb a táblázatból kiolvasott értéknél, akkor a H0 hipotézist elfogadjuk, ellenkez˝o esetben elvetjük.
Készítette: Vajda István
178
Villamosmérnök Szak, Távoktatás
Matematika segédanyag
Példa: Négy érmét 160-szor feldobtunk. A fejek számának gyakorisági eloszlását az alábbi táblázat tartalmazza: Fejek száma (i) Gyakoriság (νi )
0 5
1 35
2 67
3 41
4 12
Ellen˝orizzük χ2 próbával 5%-os szignifikanciaszinten, hogy az érmék szabályosak-e! Megoldás: Ha az érmék szabályosak, akkor a fejek száma binomiális eloszlást követ. Ennek alapján a következ˝o táblázat készíthet˝o: Fejek száma (i) Gyakoriság (νi ) A binomiális eloszlásnak megfelel˝o valószín˝uségek Npi νi − Npi (νi − Npi)2 Npi
0 5 1 16 10 −5
1 35 4 16 40 −5
2 67 6 16 60 7
3 41 4 16 40 1
4 12 1 16 10 2
2.5
0.625
0.817
0.025
0.4
Ennek alapján: χ24 ≈ 4.367 < χ2ε ≈ 9.488 Tehát nincs okunk a H0 hipotézis elvetésére, az érmék szabályosnak tekinthet˝ok.
Készítette: Vajda István
179