Statisztikai módszerek 7. gyakorlat A tanult nem paraméteres próbák: PRÓBA NEVE Illeszkedés-vizsgálat Χ2próbával
MIRE SZOLGÁL?
Illeszkedés-vizsgálat Ryan-Joiner próbával
A val.-i vált. eloszlása egy adott eloszlást követ-e?
A val.-i vált. eloszlása egy adott eloszlást követ-e?
Két val.-i vált. eloszlása megegyezik-e?
Homogenitás-vizsgálat Χ2próbával
0.Feladat Egyszerű felvezető feladat: pszichológia szakra felvételizők között a fiú-lány arány ugyan akkora-e? 1984-es felvételi adatok: 94 felvételiző -> 16 fiú és 78 lány (mért gyakoriságok:
-k)
Megoldás H0: P(ffi) = 0.5 és P(nő) = 0.5 (mondjuk 99%os valószínűséggel) Ha H0 igaz lenne, 94 emberből 47-47 fiúra/lányra számítanánk(elméleti gyakoriságok:
).
Minél nagyobb az eltérés a kapott és a várt gyakoriságok között, annál valószínűbb, hogy a H0 hipotézis nem igaz. Az eltérés egy lehetséges mértéke (v.ö. a khi2 eloszlás definíciójával): (
)
(
)
Ha H0 igaz, akkor ez khi-négyzet eloszlást követ (r = 2 szabadságfokkal). Adatok rendezve: Fiú Kapott gyakoriság Várt gyakoriság (
)
Lány 16 47
(
78 47
Összesen N = 94 N = 94
) ( INVERZ.KHI(1-0,99; 2-1) - angol verzióban a right tailed kell)
H0 hipotézist elutasítjuk: a fiúk aránya szignifikánsan kisebb.
1.Feladat Egy telefonközpont telefonhívásainál azt tapasztalják, hogy a tárcsázást követő kapcsolásig terjedő időtartam 25 és 85 másodpercig terjed. Egy napon keresztül másodpercre pontosan rögzítették a hívások kapcsolási idejét, ezt mutatja a következő táblázat. Elfogadható-e 95 %-os biztonsággal, hogy a kapcsolási idő egyenletes eloszlást követ?
Megoldás: Illeszkedésvizsgálatot végzünk Χ2 próbával H0: A minta egyenletes eloszlásból származik (p=0,95) Készítsünk egy olyan táblázatot, ahol a lehetséges kapcsolási idők, és azok gyakorisága szerepel. D9:= lehetséges kapcsolási idők E9:= gyakoriság D10:=25; D11:=26 Húzzuk végig, míg D70:=85-öt el nem érjük E10:=DARABTELI(C$10:C$117;"="&D10) , kattintsuk végig az egész oszlopra A Χ2 próba aktuális értékének kiszámítása: ∑
(
)
Számoljuk meg a lehetséges kimeneteleket: I13:= r
J13:=DARAB(E10:E70)
Számoljuk ki az egyenletes eloszláshoz tartozó valószínűségeket: I14:= pi =1/r
J14:=1/J13
Számoljuk meg a minta elemszámát: I15:= N
J15:=DARAB(B10:B117)
Számoljuk ki az utóbbi kettő szorzatát: I16:= N*pi
J16: =J14*J15
Legyen a G oszlop a számláló négyzeteinek oszlopa: G9:=(vi-N*pi)^2 G10:=(E10-$J$16)^2 , és kattintsuk végig az oszlopon Számoljuk ki a Χ2_akt értéket:
I18:=X2_akt
J18:=SZUM(G10:G95)/J16 = 51.28
Keressük meg a kritikus értéket, p-hez és (r-1)-hez: I19:=X2_krit
J19:=INVERZ.KHI(1-0,95;J13-1) = 79.08
X2_akt < X2_krit, H0-t elfogadjuk
2.Feladat Egy dobókocka oldalainak számozását megváltoztattuk úgy, hogy kocka hat oldalapjára 1db 1-es, 2db 2-es és 3db 3-as számot festettünk. Az új kockával való mérési eredményeket felhasználva kijelenthető-e 95%-os biztonsággal, hogy a dobások valószínűsége 1/6, 2/6 és 3/6? Megjegyzés: A mérések imitálására egy véletlenszám generátort használtunk. A "dobások" értékei a C oszlopban találhatók, amiket a generátor által adott eredményekből számoltunk ki. A feladathoz megoldásához a dobásgenerátor működésének ismerete nem szükséges!
Megoldás: Illeszkedésvizsgálatot végzünk Χ2 próbával H0: A minta egy adott eloszlást követ (p=0,95) Töltsük ki a táblázat lehetséges kimenetel oszlopát. Ez most egyszerűen 1,2 és3 lesz. Számoljuk ki a gyakoriságokat; E10:=DARABTELI(C$11:C$559;"="E11), és kattintsuk végig az oszlopon Adjuk össze a gyakoriságokat, hogy megkapjuk a darabszámot; F14:=SZUM(F11:F13) Habár a relatív gyakoriságra közvetlenül nincs szükségünk a próba elvégzéséhez, de számoljuk, hogy össze tudjuk hasonlítani az elméleti valószínűséggel; G11:=F11/$F$14 Töltsük ki az elméleti valószínűségek oszlopát; H11:=1/6, H12=2/6, H13=3/6. A Χ2 próba aktuális értékének kiszámítása: ∑
(
)
Legyen a I oszlop a szumma belsejének oszlopa; I11:=(F11-F$14*H11)^2/F$14/H11 Számoljuk ki a Χ2_akt értéket: H17:=X2_akt
I17:=SZUM(I11:I13)
Keressük meg a kritikus értéket, p-hez és (r-1)-hez: H18:=X2_krit
I18:=INVERZ.KHI(1-0,95;2)
Most olyan egyszerű az intervallumok száma, hogy ne számoljuk meg a darab függvénnyel. Ha X2_akt < X2_krit akkor H0-t elfogadjuk Vizsgáljuk meg az automatikusan elkészülő diagramban a relatív gyakoriság és az elméleti valószínűség kapcsolatát. Hangsúlyozzuk, hogy a relatív gyakoriság az elméleti valószínűség közelítése. Hasonlítsuk össze a kettő közti eltérést az aktuális és kritikus értékek egymás közti eltérésével. Az F9 billentyű nyomogatásával a dobások újragenerálhatók.
3.Feladat Egy cég három különböző méretű konzervdobozba csomagolja termékét, a három csomagolástkülönböző technológiai folyamattal állítják elő. A gyártási folyamat célja természetesen jó, azonosminőségű dobozok előállítása. Egy minőségellenőrzési mérnök a következő okait azonosította annak,hogy konzervdobozok nem megfelelőek: 1. rongálódás a dobozon, 2. repedés a dobozon, 3. a nyitófül nem megfelelő helyen van, 4. a nyitófül hiányzik, 5. egyéb. Mindhárom gyártási eljárással készült, hibás termékhalmazból mintát vettek, és megállapították, hogy a minőségellenőrzésen miért nem felelt meg az adott doboz. Kijelenthető-e 95%-os valószínűséggel a mérési adatok alapján, hogy a különböző hibák százalékos előfordulása megegyezik a három gyártási eljárásnál?
Megoldás: Homogenitás vizsgálatot végzünk Χ2 próbával H0: A hibák százalékos előfordulása ugyanolyan eloszlást követ a különböző gyártási eljárások esetén (p=0,95). (Ezt vizsgáljuk meg páronként.) Ehhez a vizsgálathoz érdemes egy új táblázatot készíteni valahova: rongálódás 1-2 között 2-3 között 1-3 között
Pl.:
repedés
fül rossz helyen
fül hiányzik
egyéb
X2_akt
X2_krit
?
Döntés
∑
(
)
Az argumentumban lévő hányadosokat számoljuk ki a narancsra színezett mezőkben. Pl.: =(D21/$I$21-D22/$I$22)^2/(D21+D22) Az aktuális értékeket számoljuk ki a fenti képlettel az egyes sorokra: az első sorra: =I21*I22*SZUM(C31:G31) A kritikus értékeket (1-p)-hez és (r-1)-hez keressük a Khi-négyzet eloszlásban: az első sorra: =INVERZ.KHI(1-0,95;DARAB(D21:H21)-1) A ?-es oszlopba beírhatók a döntésben segítő relációk, majd mellé, hogy H0-t elfogadjuk vagy elvetjük:
1-2 között 2-3 között 1-3 között
…
X2 akt
X2_krit
…
5,54
9,49
…
9,75
9,49
…
6,88
9,49
? krit>akt krit
akt
Döntés H0-t elfogadjuk H0-t elutasítjuk H0-t elfogadjuk
4.Feladat Egy gyerekszékeket gyártó cég olyan tervezési irányelvet akar követni, amelyben feltételezi, hogy a) az adott korú (10-12 éves) gyermekek magassága normális eloszlást követ (p=95%), és b) a lányok és fiúk átlagos magassága között nincs lényeges eltérés (p=98%). Egy kutató cég 40 fiút és 40 lányt vizsgált meg a célcsoportból, a vizsgálat eredménye a táblázatokban látható.) Alátámasztják-e a vizsgálat eredményei a cég feltételezéseit? Megoldás: a) A gyerekek testmagassága normális eloszlást követ-e? (p=0,95) Kategorizált minta normalitásvizsgálata X2 próbával H0: A magasság normális eloszlást követ. (p=0,95) A statisztika: ∑
(
)
Számoljuk ki hány mérés volt: F18: =SZUM(F9:F17) Egészítsük ki a táblázatot négy oszloppal, a fejlécek a következők legyenek: G8:= zi H8:= Φ(zi) I8:= pi J8:= Χ2 A G oszlopba kerülnek a standard normális eloszlású változók (húzzuk végig): G9: =(E9-$D$19)/$D$20 A H oszlopba az ezekhez tartozó eloszlásfüggvény értékek: H9:=STNORMELOSZL(G9) (Megj.: H17-be írhatunk 1-et) Az I oszlopba az adott intervallumokba esés valószínűsége kerül: I9:=H9 I10=H10-H9 A J oszlopba jön a Khi-négyzet értéke az adott intervallumra: J9:=(F9-F$18*I9)^2/F$18/I9 Az aktuális érték ez utóbbiak összege: J19:=SZUM(J9:J17) = 10.82 A kritikus értéket( 1-p)-hez és (r-1)-hez keressük, ahol r az intervallumok száma: M19:=INVERZ.KHI(1-0,95;DARAB(F9:F17)-1) = 15.51 Mivel X2_akt < X2_krit, H0-t elfogadjuk b) Megegyezik-e a lányok és fiúk magasságának várható értéke? Ez paraméteres próba:Welch próbát kell végrehajtani a lányok és fiúk átlagos testmagasságának várható értékére. H0: A lányok és afiúk testmagassága megegyezik (p=0,98) Csak az eredmények: ̅
̅
√
-wkrit<wakt<wkrit, H0-t elfogadjuk, a lányok és fiúk átlagos testmagassága megegyezik
5.Feladat Egy cég beszállítói versengenek egymással. A cég arra kíváncsi, hogy a beszállított alkatrészektönkremeneteli hajlama megegyezik-e, ezért mindkét beszállítótól vett mintát, és megvizsgálta, mennyi az alkatrészek tönkremeneteli ideje. Megegyezik-e 99%-os valószínűséggel a két gyártó által gyártott alkatrész tönkremeneteli hajlama? A táblázatban az alkatrészek élettartama szerepel órában. Megoldás: Homogenitás vizsgálat Χ2 próbával H0: Az alkatrészek tönkremeneteli hajlama megegyező (p=0,99) A vizsgálathoz fel kell osztanunk a közös mintát intervallumokra, és megnézni, hogy melyik intervallumba, mennyi esik az adott beszállító alkatrészei közül. Készítsünk egy közös oszlopot, másoljuk egyszerűen egymás alá az értékeket pl. a G oszlopba. A közös minta elemszámát határozzuk meg. (n=35) A hisztogramszerkesztésnél megtanult módon osszuk be a közös mintát gyök(n), azaz r=6 db intervallumra, és határozzuk meg az intervallumhatárokat. Ehhez célszerű valami hasonló táblázatot készíteni:
Int. Alsó Int. Felső gyakoriság gyakoriság Khihatára határa 1. beszállító 2. beszállító négyzet 1 2 3 4 5 6 darab:
Számoltassuk meg, külön-külön a két beszállítóra, hogy hány elem esik az egyes alkatrészek közül az adott intervallumba (ezek kerülnek a narancsszínű mezőkbe): L15:=DARABTELI(C$11:C$25;"<"&K15)-DARABTELI(C$11:C$25;"<"&J15) ill. M15:=DARABTELI(E$11:E$30;"<"&K15)-DARABTELI(E$11:E$30;"<"&J15) Akkor csináltuk jól, ha ezek summája (alul a darab mezőben) kiadja az eredeti 15, ill. 20 adatot. Ezután számolhatjuk a statisztika aktuális értékét.
∑
(
)
A Khi-négyzet oszlopban minden intervallumra kiszámoljuk a summa argumentumában található értéket. N15:=(L15/L$21-M15/M$21)^2/(L15+M15) Számoljuk ki az aktuális értéket: N23:=L21*M21*SZUM(N15:N20)
A kritikus értékeket (1-p)-hez és (r-1)-hez keressük a Khi-négyzet eloszlásban (Rakjuk be J23ba p-t): N25: =INVERZ.KHI(1-J23;I20-1)=15.08 Mivel X2_akt < X2_krit, H0-t elfogadjuk
6. Feladat Egy autógyártó konszern elvégeztetett egy élettartam vizsgálatot H7-es halogén fényszóróizzók 200 elemű mintáján. Az élettartam vizsgálat során az összes izzó egy nagy panelen foglalt helyet, ahol egyszerre lehetett azokat ki- és bekapcsolni. Minden 250. bekapcsolás után megszámolták és eltávolították a kiégett izzókat. A tesztet 3750 kapcsolás után befejezték, ekkor még 6 izzó működött. Az egyes ciklusokban kiégett izzók számát tartalmazza az alábbi táblázat. A khi-négyzet eloszlás segítségével döntse el 90%-os szignifikancia szint esetén, hogy az izzók élettartam-eloszlása illeszkedik-e ahhoz az exponenciális eloszláshoz, melynek eloszlásfüggvénye ( ) , ahol a bekapcsolások számát jelenti. Megoldás: A megoldás során vegyük figyelembe, hogy az adott elméleti eloszlás folytonos, míg a mintánk diszkrét. Ahhoz, hogy a folytonos eloszlásból ne "veszítsünk el" pozitív valószínűségű intervallumokat ne az [1;250], [251;500], [501,750], stb. intervallumokkal dolgozzunk, hanem a (0,250], (250,500], (500, 750], stb. intervallumokkal. A mintából számolt gyakoriságok ettől nem változnak meg, a folytonos exponenciális eloszlásból számolt valószínűségek viszont ) igen, hiszen pl. az első intervallum valószínűségét nem az ( ( ) kifejezéssel, hanem ( ) ( )-val fogjuk kiszámolni. Az A oszlopban hozzuk létre a félig nyílt intervallumokhoz tartozó alsó határokat: A14: 0, A15: 250, majd folytatás számtani sorként. (A14:A15 kijelölése, lehúzás) A mintából származó gyakoriságok közvetlenül rendelkezésre állnak a D oszlopban. Számoljuk ki a G oszlopban a valószínűségeket a megadott eloszlásfüggvény alapján pl. ( ) ( )=( ) ( ) G13: valószínűség G14: =(1-KITEVŐ(-C14/1200)) - (1-KITEVŐ(-A14/1200)), majd lehúzzuk. Az utolsó intervallum
felső határa +∞ ahol bármely eloszlásfüggvény értéke 1, így G29: =1 - (1-KITEVŐ(B29/1200)). A feladat folytatása innentől kezdve semmiben nem különbözik a korábban megoldott illeszkedés vizsgálatos feladattól. H13: Χ2akt részletek H14: =(D14-$D$30*G14)^2/($D$30*G14), majd lehúzzuk. G31: Χ 2akt H31: =SZUM(H14:H29) G32: Χ 2krit H32: =INVERZ.KHI(1-0,9;DARAB(H14:H29)-1) Döntés: Χ 2akt < Χ 2krit miatt H0-t elfogadjuk, tehát a minta illeszkedik az adott exponenciális eloszláshoz.
7. Feladat A következő minta epoxi gyanta bomlási feszültségeinek 20 mérését mutatja. Vizsgálja meg, hogy a feszültség normális eloszlást követ-e (p=0.95)! Megoldás: Normalitásvizsgálat Ryan-Joiner próbával H0: A bomlási feszültség normális eloszlású (p=0,95) Az eredeti mintaelemek, és a rendezett mintában megjelenő sorszámukból számolt változók percentilisei (kvantilisei) közötti korrelációt kell megvizsgálnunk. Egészítsük ki a táblázatot megint 4 oszloppal, a fejlécek legyenek a következők: D8:=k
E8:= (k-0,375)/(n+0,25)
F8:= Zp
G8:= xp
Számoljuk végig az oszlopokat. Az első oszlopba a minta sorszámok kerülnek (k), rendre, 1,2, ..20. D9:=1 D10:=2 …. húzzuk végig Az E oszlopba a sorszámból számolt változók kerülnek: E9: =(D9-0,375)/(DARAB(C$9:C$28)+0,25) A következő az E változó normált kvantilise (Zp): F9: =INVERZ.STNORM(E9) Az utolsó oszlopban meghatározzuk a kvantiliseknek megfelelő értékeket (xp): G9: =C$30+F9*C$31
Ehhez persze számoljunk átlagot, szórást: C30: =ÁTLAG(C9:C28) C31: =SZÓRÁSP(C9:C28) A próbában ez eredeti mintaelemek, és az utóbb kiszámolt kvantilisek közötti korrelációt kell megállapítani. (Fel is rajzolhatjuk, szép egyenes…) A statisztika aktuális értéke: J14: =KORREL(C9:C28;G9:G28) = 0.9879 A kritikus értéket a megadott táblázatból (1-p)-hez és n-hez kell megkeresnünk. Krit=0.9503 Mivel a számolt korrelációs együttható > kritikus érték, H0-t elfogadjuk.