Bevezetés a hipotézis vizsgálatba Lásd előadás anyagát.
Kétoldali és egyoldali hipotézisek
Hipotézisvizsgálatok Ebben a fejezetben egyfajta határozókulcsot szeretnék adni a hipotézisvizsgálatban használt próbákhoz. Először döntsük el, hogy mit szeretnénk tesztelni, majd keressük meg azt a részt és egyenként válaszolva a kérdésekre jussunk el a használandó próbához. A próbák részletes leírása a következő fejezetben van. Érdemes elolvasni a példákat, melyekből újabb ötleteket kaphattok, hogy mire is használható egy-egy próba. II. Az eloszlásra vonatkozó próbák II.1 Eloszlás egyezése adott elméleti eloszlással - illeszkedésvizsgálat II.2 Két eloszlás egyezése, homogenitás vizsgálat II.3 Függetlenségvizsgálat
Illeszkedésvizsgálatok χ2 próba Kolmogorov-Smirnov próba Log-valószínűség próba
Homogenitás vizsgálat χ2 próba
Függetlenségvizsgálat χ2 próba
Próbák leírása Illeszkedésvizsgálat χ2 próbával Igen gyakori adatelemzési probléma, hogy egy adott populációból való mintánk alapján eldöntsük, hogy az adott populáció valamilyen elméleti eloszlású-e. Az illeszkedésvizsgálatnál a nullhipotézisünk az, hogy a megfigyelt populáció eloszlása az elméletileg várt eloszlással egyezik. A χ2 próba nominális skálájú valószínűségi változó esetén alkalmazható, lehetőleg igen nagyszámú megfigyelés esetén. A próbához először meg kell adni az elméleti eloszlást, amihez a megfigyelt eloszlás illeszkedését viszonyítjuk. Legyen Ai (i = 1.. k) teljes eseményrendszer, és legyen P(Ai) = pi. Végezzünk n megfigyelést, amiben Ai esemény fi-szer következik be. Másképpen egy megfigyelt eloszlás minden fi eleméhez rendeljük egy elméleti eloszlás Fi elemét.
A próbastatisztikánk legyen a következő: ( f − npi )2 ( f − Fi )2 =∑ i χ2 = ∑ i np i Fi 2 A próbastatisztika χ eloszlású k-1 szabadsági fokkal. A χ2 próbát csak akkor végezhetjük illeszkedésvizsgálatra, ha egyetlen elméleti gyakoriság sem kisebb egynél, és az elméletileg várt gyakoriságok maximum 20%-a kisebb 5-nél. Yates folytonossági korrekció: A számolt próbastatisztika csak becslése az elméleti χ2 eloszlásnak. A becslés nagyon jó, kivéve azon esetekben, amikor k = 2 (tehát df = 1). Ekkor a Yates által ajánlott korrekcióval érdemes élni, azaz minden Fi - fi különbséget 0.5-el csökkentjük. A próbastatisztikánk így: ( f i − Fi − 0.5)2 2 χ =∑ Fi
Kolmogorov-Smirnov egymintás próba illeszkedés vizsgálatra Ez a próba kimondottan jól használható ordinális, intervallum vagy arány jellegű mennyiségek esetén illeszkedésvizsgálatra. Továbbá előnyösebb az alkalmazása a χ2 próbánál, ha a megfigyelések száma alacsony és/vagy az elméletileg várható értékek alacsonyak. A próbához először meg kell adni az elméleti eloszlást, amihez a megfigyelt eloszlás illeszkedését viszonyítjuk. Legyen Ai (i = 1.. k) teljes eseményrendszer, és legyen P(Ai) = pi. Végezzünk n megfigyelést, amiben Ai esemény fi-szer következik be. Másképpen egy megfigyelt eloszlás minden fi eleméhez rendeljük egy elméleti eloszlás Fi elemét. Ezt követően számoljuk ki a kummulált megfigyelt és elméleti gyakoriságokat (lényegében az eloszlásfüggvényt számoljuk ki). Vegyük minden kummulált megfigyelt és elméleti gyakoriság különbségének abszolút értékét (di). A próbastatisztikánk értéke mindezen di közül a legnagyobb osztva n-el. max kum f i − kum Fi max d i D= = n n
Függetlenségvizsgálat χ2 próbával, kontingencia táblák Egyszerűség kedvéért vizsgáljunk most kétdimenziós problémákat, azaz olyanokat, melyekben két változó függetlenségét kell tesztelnünk (a próba természetesen több dimenziós elemzésnél is hasonlóan elvégezhető). Alkossunk egy olyan táblázatot, aminek sorainak száma (r) megegyezik az első változó értékeinek számával, az oszlopok száma pedig a másik változó értékeinek számával (c). A mátrix fij elemébe azon megfigyelések száma kerül, amelyekre igaz az első változó i-ik értéke és a második változó j-ik értéke. Alkossuk meg minden sorra az adott sorban levő megfigyelések számának összegét (Ri), illetve egy-egy oszlopban található megfigyelések értékét (Cj). R ⋅C Amennyiben a két változó független egymástól úgy elméletileg az Fij = i i (ahol n az összes n megfigyelések száma) értékek kerülnének a kontingencia táblába. A két eloszlás egyezése - és így a függetlenség - χ2 próbával tesztelhető df = (r-1)⋅(c-1) szabadsági fok mellett. ( f ij − Fij )2 2 χ = ∑∑ Fij
2×2-es kontingencia táblákra a következő egyszerűsítő képleteket alkalmazhatjuk: 2 n( f 11 f 22 − f 12 f 21 ) 2 , a szabadsági fok (df) egy (1). Ez esetben a Yates féle folytonossági korrekciót χ = R1 ⋅ C1 ⋅ R2 ⋅ C 2 n( f11 f 22 − f12 f 21 − n / 2 )
2
alkalmazhatjuk: χ = 2
R1 ⋅ C1 ⋅ R2 ⋅ C 2
Példák 1. Növénygenetikusok elvégeztek egy keresztezést, amit követően 3:1 arányban várnak sárga és zöld virágú növényeket. Elvégezve a kísérletet 100 növényt vizsgálnak. A 100 növényből 84 sárga, 16 zöld virágú volt. Igaz-e, hogy 3:1-es hasadást kaptunk? A kérdést χ2 próba segítségével dönthetjük el, hisz visszavezethető illeszkedést vizsgáltra. Nullhipotézisünk (H0) az, hogy az adatok olyan keresztezésből erednek, melyekben a sárga - zöld virágú növények aránya 3:1hez. Ellenhipotézisünk (H1) természetesen az, hogy a hasadási arány nem 3:1-hez. A tapasztalati eloszlás mellé fel kell írnunk az elméleti eloszlást is. Elvileg 100 növényből 75 sárgát és 25 zöldet várunk. Másképpen p(zöld) = 0.25; p(sárga) = 0.75; n = 100, tehát Fsárga = n⋅p(sárga) = 75, és Fzöld = n⋅p(zöld) = 25 Sárga Zöld n megfigyelt gyakoriság (fi) 84 16 100 elméleti gyakoriság (Fi) (75) (25) 2 2 2 ( f − Fi ) (84 − 75) (16 − 25) A próbastatisztikánk: χ 2 = ∑ i = + = 4.320 Fi 75 25 A χ2 eloszláshoz még hozzá tartozik a szabadsági fok megállapítása, ami esetünkben a kategóriák (k=2) száma mínusz egy, tehát df = 1. 95%-os szignifikanciaszinten a χ2α=0.05; df=1=3.84, így a nullhipotézis elvetése mellett döntünk.
2. Vizsgáljuk meg az egyik klasszikus Mendel-i kísérletet kimenetelét! Sárga és sima babszemű, heterozigóta (F1 nemzedék) növényeket utódai között a következő fenotípus eloszlást tapasztaltuk: 152 sárga és sima, 39 sárga és ráncos, 53 zöld és sima és 6 zöld és ráncos. Klasszikus Mendel-i öröklődést feltételezve 9:3:3:1 arányban kell kapnunk a fenotípusokat. Teszteljük azt a hipotézist, hogy a minta egy olyan populációból ered, ahol a fenotípusok aránya 9:3:3:1. Sárga, Sárga, Zöld, Zöld, n sima ráncos sima ráncos 152 39 53 6 250 megfigyelt gyakoriság (fi) elméleti gyakoriság (Fi) (140.625) (46.625) (46.625) (15.625) A próbastatisztikánk: ( f − Fi )2 (152 − 140.625) 2 (39 − 46.625) 2 (53 − 46.625) 2 (6 − 15.625) 2 χ2 = ∑ i = + + + = Fi 140.625 46.626 46.626 15.626 = 0.920 + 1.323 + 0.800 + 5.929 = 8.972
A χ2 eloszláshoz még hozzá tartozik a szabadsági fok megállapítása, ami esetünkben a kategóriák (k=4) száma mínusz egy, tehát df = 3. 95%-os szignifikanciaszinten a χ2α=0.05; df=3=7.81, így a nullhipotézis elvetése mellett döntünk. Tehát a hasadás nem 9:3:3:1 Amennyiben a nullhipotézist elfogadtuk volna, úgy nem vizsgálódtunk volna tovább, így azonban tovább faggatjuk adatainkat. Nem tudjuk, hogy az eltérésért valamely fenotípus gyakorisága okolható, vagy az hasadás markánsan eltér a várttól. Láthatjuk a próbastatisztika értékéhez a legnagyobb hozzájárulást a negyedik tag (a mindkét génre homozigóta receszív zöld, ráncos fenotípus) adja. Feltehető tehát, hogy ennek a fenotípusnak a gyakorisága tér el annyira a várttól, hogy az eredeti nullhipotézist el kellet vetnünk. Hagyjuk el hát az adatokból ezeket az értékeket és vizsgáljuk, hogy a maradék fenotípusok 9:3:3 arányban hasadnak-e? Sárga, Sárga, Zöld, n sima ráncos sima megfigyelt gyakoriság (fi) 152 39 53 244 elméleti gyakoriság (Fi) (146.4) (48.8) (48.8) A próbastatisztikánk: ( f i − Fi )2 (152 − 146.4) 2 (39 − 48.8) 2 (53 − 48.8) 2 2 χ =∑ = + + = 0.214 + 1.968 + 0.361 = 2.543 146.4 48.8 48.8 Fi A használandó χ2 eloszlás szabadsági foka 2. 95%-os szignifikanciaszinten a χ2α=0.05; df=2=5.99, így a nullhipotézist elfogadjuk. Tehát a hasadás 9:3:3, azaz a kilógó érték tényleg a zöld ráncos gyakorisága volt (amennyiben tesztelnénk, hogy az első három fenotípus kombinált száma és az utolsóé 15:1-hez hasad-e, úgy ezt a nullhipotézist el kéne vetnünk. Ez megerősíti azt az elképzelést, hogy az utolsó tag miatt vetettük el az eredeti nullhipotézist). A statisztika ennyit tud mondani nekünk a tapasztalt eloszlással kapcsolatban, annak kiderítése, hogy miért lett egy fenotípusból kevesebb, mint vártuk a biológus feladata. Gondolhatjuk például, hogy a homozigóta recesszív gének nemcsak a mag alakra/színre gyakorolnak hatást, de a túlélőképessége is, és az ilyen növényeknek kisebb a rátermettsége. Esetleg valamely parazita / predátor jobban kedveli ezt a fenotípust így a mintavételkor gyakorisága már kisebb, mint a többié.
3. Egy kísérletben bogarakat helyeztünk egy fénygradiensbe (1-5, ahol 1 a legfényesebb és 5 a legkevésbé megvilágított rész). Hagytuk őket, hogy válasszák ki a számukra megfelelő fény intenzitású helyet, ezt követően leszámoltuk, hogy hányan tartózkodnak az egyes megvilágítási osztályokhoz tartozó helyen. Nullhipotézisünk legyen, hogy a bogarak egyenletesen oszlanak meg az öt fényintenzitás osztály között. Fényintenzitás osztályok 1 2 3 4 5 n fi 0 7 6 38 14 65 Fi 13 13 13 13 13 kum fi 0 7 13 51 65 kum Fi 13 26 39 52 65 di 13 19 26 1 0 max d i 26 D= = = 0.40000 n 65 95%-os szignifikanciaszinten a Dn=65 = 0.166, így a nullhipotézist elvetjük.
4. Egy oltóanyag hatásosságát vizsgálták egereken. Feljegyezték, hogy mely állatok kaptak az oltásból. Továbbá feljegyezték, hogy hány állat élt tovább, és mennyi halt meg. Oltást kapott 149 egér, ebből 5 halt meg. Nem kapott oltást 132 egér, ebből 15 egér halt meg. Szerkesszük meg a kontingencia táblát! túlélt? fij igen nem oltást kapott? igen 5 144 149 (R1) nem 15 117 132 (R2) 20 261 281 (n) (C1) (C2) R ⋅C Ezt követően meg kell szerkesztenünk a függetlenség esetén fennálló elméleti eloszlást a Fij = i i képlet n alapján: túlélt? Fij igen nem oltást kapott? igen 10.6 138.4 149 (R1) nem 9.4 122.6 132 (R2) 20 261 281 (n) (C1) (C2) Vegyük észre, hogy a marginálisokban (a sor és oszlopösszegek) levő értékek a két táblázatban azonosak. Elméleti eloszlásunk jóságának legalapvetőbb tesztelése, hogy megnézzük, hogy a marginálisok ugyan azoke, mint a tapasztalati kontingencia táblázatban. A két eloszlás azonosságának megállapítására χ2 próbát alkalmazunk. A próbastatisztikánk értéke χ2 = 0.02416. A használandó χ2 eloszlás szabadsági foka 1. 95%-os szignifikanciaszinten a χ2α=0.05; df=1=3.84, így a nullhipotézist elfogadjuk. Tehát a oltóanyagnak nincs hatása.
Feladatok 1. Egy bokrokban fészkelő madár fészkének elhelyezkedését feljegyezték az égtájak szerint: Égtáj Észak É-K Kelet D-K Dél D-Ny Nyugat É-Ny Fészkek 65 73 67 51 47 45 45 48 (a) Teszted azt a nullhipotézist, hogy nincs égtáj szerinti preferencia a fészek elhelyezésében! (b) Ha a nullhipotézis el kell vetni, próbáld meg megmondani, hogy melyik irány a kitüntetett! Állításodat statisztikával igazold!
2. Táplálékpreferenciát vizsgáltak egy emlősfajnál. A 126 állatot helyeztek egyenként egy ugyanolyan térbe, amiben a hatféle táplálékból azonos mennyiség volt található. A táplálékok a bejárattól azonos távolságra voltak. Feljegyezték, hogy mely állat melyik táplálékból fogyasztott először. Táplálék 1 2 3 4 5 6 Állatok 13 26 31 14 28 14 (a) Teszted azt a nullhipotézist, hogy nincs táplálékpreferenciája az adott fajnak a hat táplálék tekintetében! (b) Ha a nullhipotézis el kell vetni, próbáld meg megmondani, hogy melyik táplálékot választja preferenciálisan a faj!
3. Egy téli álmot alvó denevérpopulációban 44 hím és 54 nőstény egyed van. Teszteld a nullhipotézist, hogy a kolóniában egyenlő számú hím és nő található!
4. A genetikai elmélet szerint egy bizonyos keresztezést követően a kék szárnyú és piros szárnyú legyek aránya 1:3-hoz kell, hogy legyen. Egy konkrét kísérletben 76 piros- és 22 kékszárnyú legyet kaptak. Szignifikánsan mondható, hogy az elmélet rossz?
5. Téli álmot alvó denevéreknél vizsgálták a nemek arányát 4 helyen. Végezze el a heterogenitás vizsgálatot és, ha lehetséges az összesített adatok alapján tesztelje az 1:1 arányra vonatkozó nullhipotézist! Hely Hím Nőstény 1 44 54 2 31 40 3 12 18 4 15 16
6. A 4. példában ismertetett kísérletet ötször megismételték: Kísérlet Piros szárnyú Kék szárnyú 1 76 22 2 36 10 3 41 15 4 44 16 5 62 18 Teszteld, hogy a különböző kísérletek eredményei összevonhatóak-e! Ha igen, akkor az összesített adatokra végezd el a 3:1 arányra vonatkozó nullhipotézist.
7. Egy ízeltlábú előfordulását vizsgálták a víztől való távolság függvényében: Távolság (m) 0-1 1-2 2-4 4-6 6-10 Ízeltlábú / m2 31 25 27 20 17 Vizsgáld Kolmogorov-Smirnov próbával, hogy az ízeltlábúak egyenletesen oszlanak el a víztől való távolságtól függetlenül.
8. Egy bizonyos madárfaj abundanciáját vizsgálták az év különböző időszakában. Vizsgáljuk meg, hogy igaz-e az, hogy minden évszakban a nemarány azonos! Nem Tavasz Hím 163 Nőstény 86
Nyár 135 77
Ősz 71 40
Tél 43 38
9. Két borz populációban vizsgálták a veszettség meglétét. Az első élőhelyen 43 egyedből 14 volt fertőzött, a másik élőhelyen 50 egyedből 12 volt fertőzött. Igaz-e, hogy a fertőzés előfordulása mindkét helyen azonos?
10. 361 nő szedett egy bizonyos gyógyszert terhessége alatt, belőlük 14 tapasztalt abnormális vérzést a szülést követően. A kontrollcsoportban levő 340 nő (ők nem szedték a gyógyszert) közül 6 tapasztalt
abnormális vérzést a szülést követően. Tesztelje azt a nullhipotézist, hogy a gyógyszer szedése és az abnormális vérzés független egymástól.