STATISZTIKA PRÓBAZH 2005 1. FELADATSOR: számítógépes feladatok (még bővülni fog számítógép nélkül megoldandó feladatokkal is) Használjuk a Dislexia Excel fájlt (internet: http:// starts.ac.uk)! 1.) Hasonlítsuk össze a 4 éves gyerekek „Pegboard set4”, illetve „Pegboard set5” teszten elért eredményeit! Állíthatjuk-e, hogy valamelyik teszten szignifikánsan nagyobb pontszámot értek el, mint a másikon? Mego: H0: a két teszten elért eredmény nem tér el szignifikánsan. Párosított t-próbát végzünk, mert a két mérést egy mintaelemen (gyereken) végezték. Az egyes minták kb. normáleloszlásúak (3.o), de ezt ellenőrizni kell a különbségekre is az eredmény-lapon (5.o.), ez is rendben, tehát választhatunk t-tesztet (ellenkező esetben nem-paraméteres teszt lenne megfelelő, a Wilcoxon matched-pairs signed-ranks test). Kétoldali próbát választunk, mert bármelyik teszten érhettek el jobb eredményt (Csak abban a nagyon ritka esetben választunk egyoldalú próbát, ha a biológiai előismeretek kizárják, hogy a „kezelés” csökkenti a mért változót, csakis növelheti, vagy éppen fordítva. Óvatosságból inkább a kétoldalit kell választani.) GraphPad: 1.o.: Compare means 3.o.: Az egyes mintákra külön-külön normalitás-teszt OK 4.o.: Perform paired test / Assume values are sampled from Gaussian distributions? – Yes. Perform paired t-test / Two tail P-value 5.o.: P = 0,0018, Assumption test: Was the pairing effective? OK. (Ez általában teljesül, ha az adataink tényleg olyanok, hogy két mérés egy objektumon.) / Assumption test: Are the differences sampled from Gaussian distribution? OK. 6. o.: Megnézzük a box-plotot, alul SEM-re átállítva informatívabb (standard error of mean, előfordul, hogy ehhez kétszer is meg kell nyomni a gombokat oda-vissza, hogy tényleg átálljon SD-ről SEM-re), látszik, hogy a két átlag eléggé eltér, de itt ez még nem ad nekünk bizonyosságot, mert a párosított t-próbánál a különbségek átlagának 0-tól való eltérését vizsgáljuk, sajnos a különbségek átlagát és standard errorját nem mutatja a GraphPad. GraphPad értelmezése: A párosított t-próba feltételei teljesülnek, a próba eredménye, hogy nagyon szignifikánsan (**) eltérnek a 4 éves gyerekek által a két teszten elért eredmények, vagyis a két teszten elért eredmények különbségeinek átlaga nagyon szignifikánsan eltér a 0-tól. A „Pegboard set5” teszten lényegesen több pontot értek el. H0-t elvetjük. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, csupán 0,0018, tehát nem valószínű, hogy a két Pegboard teszt eredményének ilyen nagy eltérése csak a véletlen ingadozásnak tudható be. 2.) Állapítsuk meg, hogy a fiúk(m) és a lányok(f) RAD pontszáma (7 éves korban mért olvasási képesség) lényegesen eltér-e?
Mego: H0: a fiúk és a lányok RAD pontszámainak mediánja nem tér el szignifikánsan. Párosítatlan kétmintás próbát végzünk, mert két független mintán végezték a mérést. Mivel a fiúk pontszámai eltérnek a normáleloszlástól (3.o), Man-Whitney tesztet választunk (kétoldali). (A Man-Whitney próba nem az átlagokat, hanem a mediánokat hasonlítja össze, pontosabban az összes adat rangszámainak helyzetét vizsgálja egy összesített rangsorban.) Excelben szűréssel szét kell választani a fiúkat és a lányokat: kijelöljük a „sex” oszlopot, majd Adatok/Szűrő/Autoszűrőt kipipáljuk, erre megjelenik egy kis legördülő lista az oszlop fejlécében ott kijelöljük a lányokat (f), ekkor csak a lányok sorai látszanak az összes oszlopban, átmásoljuk a csak lányokat tartalmazó RAD oszlopot a GraphPad 2. o.-ra egyik mintának, majd a szűrőt átállítva a fiúkra nyerjük a második mintát. (Ha már nincs szükségünk a szűrőre, sőt zavaró, akkor újra Adatok/Szűrő/Autoszűrő helyen kattintva eltüntetjük a kipipálást.) GraphPad: 1.o.: Compare means 3.o.: Az egyik mintára a normalitás-teszt nem OK 4.o.: Perform unpaired test / Assume values are sampled from Gaussian distributions? – No. Perform nonparametric test / Two tail P-value 5.o.: P = 0,0114 6. o.: Megnézzük a box-plotot, de nem érdemes, a negatív értékek úgy tűnik megzavarták szegény GraphPad-ot, informatívabb a 3.o. adatait tanulmányozni: átlagok valamelyest eltérnek, szórások alig, konfidencia intervallumok kissé átfednek, de ez itt nem igazán informatív, mert a konf. intervallumot normáleloszlást feltételezve számította. „Ránézésre” van különbség, de nem túl nagy. GraphPad értelmezése: A párosított t-próba feltételei nem teljesülnek, ezért Man-Whitney-t választottunk. A próba eredménye, hogy szignifikánsan (*) eltérnek a fiúk és a lányok RAD pontszámai, a fiúk rosszabb eredményt értek el. H0-t elvetjük. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, csupán 0,0114, tehát nem valószínű, hogy a fiúk és lányok RAD teszt eredményeinek ilyen nagy eltérése csak a véletlen ingadozásnak tudható be. Ebben a véleményben nem lehetünk nagyon biztosak, mivel P relative nagy (>1%), nagyobb bizonyossághoz nagyobb minta szükséges. 3.) Állapítsuk meg, hogy a 7 éves korban „normal”, ill. „poor” olvasási képességűnek kategorizált gyerekek 4 éves kori átlagos Pegboard-teszt eredményei („Pegboard Mean” oszlop) szignifikánsan eltérnek-e? Mego: H0: a „normal”, ill. „poor” olvasási képességűek „Pegboard Mean” pontszámainak átlaga nem tér el szignifikánsan. Párosítatlan kétmintás t-próbát végzünk, mert két független mintán végezték a mérést. A t-próba feltételei teljesülnek, (normalitás 3.o. és varianciák azonossága 5.o.) tehát azt választjuk (kétoldali). Excelben szűréssel szét kell választani a „normal”, ill. „poor” olvasási képességűeket. GraphPad: 1.o.: Compare means 3.o.: Mindkét mintára a normalitás-teszt OK
4.o.: Perform unpaired test / Assume values are sampled from Gaussian distributions? – Yes. Also assume the populations have equal SDs / Two tail P-value 5.o.: P = 0,7568. Assumption test-ek (normalitás, varianciák azonossága) rendben 6. o.: Megnézzük a box-plotot, alig van eltérés, ugyanerre utal, hogy konfidenciaintervallumok teljesen átfednek (3 .o.). GraphPad értelmezése: A párosított t-próba feltételei teljesülnek. A próba eredménye, hogy nincs szignifikánsan eltérés a „normal”, ill. „poor” olvasási képességűnek kategorizált gyerekek átlagos Pegboard-teszt eredményei között. H0-t megtartjuk. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, 0,7568, ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy a „normal”, ill. „poor” olvasási képességűnek kategorizált gyerekek átlagos Pegboard-teszt eredményeinek kis eltérését csak a véletlen ingadozás okozta. A Pegboard-teszt nem alkalmas az olvasási képességek vizsgálatára. 4.) Vizsgáljuk meg azt is, hogy a 7 éves korban „normal”, ill. „poor” olvasási képességűnek kategorizált gyerekek 4 éves kori „BPVT std”-teszt eredményei szignifikánsan eltérnek-e? Mego: H0: a „normal”, ill. „poor” olvasási képességűek „BPVT std”-pontszámainak átlaga nem tér el szignifikánsan. Párosítatlan kétmintás t-próbát végzünk, mert két független mintán végezték a mérést. A t-próba feltételei teljesülnek, (normalitás 3.o. és varianciák azonossága 5.o.) tehát azt választjuk (kétoldali). Excelben szűréssel szét kell választani a „normal”, ill. „poor” olvasási képességűeket. GraphPad: 1.o.: Compare means 3.o.: Mindkét mintára a normalitás-teszt OK 4.o.: Perform unpaired test / Assume values are sampled from Gaussian distributions? – Yes. Also assume the populations have equal SDs / Two tail P-value 5.o.: P = 0,0133. Assumption test-ek (normalitás, varianciák azonossága) rendben. 6. o.: Megnézzük a box-plotot, van eltérés, az eltéréshez képest kicsi a standard error, ugyanerre utal, hogy konfidencia-intervallumok alig fednek át(3 .o.). GraphPad értelmezése: A párosított t-próba feltételei teljesülnek. A próba eredménye, hogy szignifikáns (*) az eltérés a „normal”, ill. „poor” olvasási képességűnek kategorizált gyerekek BPVT std teszt eredményei között. H0-t elvetjük. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, 0,0133, ez aránylag kicsi valószínűség, tehát nem valószínű, hogy a „normal”, ill. „poor” olvasási képességűnek BPVT std eredményeinek eltérését csak a véletlen ingadozás okozta. Ebben a véleményben nem lehetünk nagyon biztosak, mivel P relative nagy (>1%), nagyobb bizonyossághoz nagyobb minta szükséges. A BPVT std eredmény talán alkalmas az olvasási képességek vizsgálatára.
5.) Vizsgáljuk meg, hogy a 4 éves kori BPVT std eredmény alkalmas-e a 7 éves kori RAD olvasási teszt eredmény jóslására. Vizsgáljuk a változók közötti lineáris kapcsolatot (mindkét változó normál elo és a RAD normál elo BPVT minden értéke mellett uo. szórással)! Milyen BPVT std értékhatár alatt jósolnánk, hogy a RAD eredmény 0 alatt lesz, vagyis olvasási képesség lemaradás várható? Mego: H0: a BPVT és a RAD pontszámok között nincs lineáris kapcsolat. Mivel célunk a predikció, lineáris regressziót végzünk, RAD regresszióját a BPVT-n. (A két változó nincs oksági kapcsolat és mindkettő normál elo, tehát ha nem a jóslás lenne a cél, kapcsolatuk vizsgálatára a korreláció lenne az alkalmasabb.) A feltételek teljesülnek, (mindkét változó normál elo és a RAD normál elo BPVT minden értéke mellett uo. szórással). GraphPad: 1.o.: Regression and correlation 2.o.: Az x oszlop a BPVT az y a RAD. Mivel jóslásra is van szükség a RAD oszlop alatti első üres helyre beírjuk a 0-t, hogy a Graphpad kiszámítsa, hogy a ehhez milyen BPVT értéket jósol az egyenlet. 3.o.: Linear regression (általában ne válasszuk a „force through”-t!) / Runs test / Interpolate unknowns 4.o.: slope = 0,5194, y intercept = – 46.690, r squared = 0,2620. Is the slope significantly different from zero : P = 0,002. Runs test: there is not a significant departure from linearity. Standard curve calculations: x=89,887, y=0 5.o.: A szórás-diagrammon látszik, hogy van lineáris trend, de nem túl szoros a két változó kapcsolata, erre utal az aránylag alacsony r squared érték is. GraphPad értelmezése: Az egyenes egyenlete: RAD = 0,52*BPVT – 47. Az egyenes meredeksége szignifikánsan eltér a 0-tól, a véletlen csak 0,002 valószínűséggel okozna ilyen nagy eltérést a 0 meredekségtől. H0-t elvetjük. Tehát van lineáris kapcsolat a két változó között, runs test is erre utal. A BPVT alkalmas a RAD jóslására. A RAD varianciájának 26%-át magyarázza a BPVT. Predikció: kb BPVT = 90 alatt várható olvasási lemaradás, tehát 0-nál kisebb RAD eredmény.
6.) Négyféle fogkrém hatását vizsgálták a fogszuvasodás kialakulásának megakadályozására. Minden fogkrém esetében 10-10, az adott fogkrémet használó embernél vizsgálták, hogy hány szuvas foga keletkezett 3 év alatt. Elfogadhatjuk-e 5%-os szignifikanciaszinten, hogy a fogkrémek hatása nem különbözik? Mely fogkrémek között találunk szignifikáns különbséget? A fogkrém 0 1 0 0 2 0 4 1 0 0
B fogkrém 2 1 1 2 0 4 0 0 1 0
C fogkrém 3 2 0 0 0 1 0 5 0 0
D fogkrém 0 0 0 2 1 0 2 0 0 1
Mego: H0: a minták azonos mediánú alapsokaságból származnak, nem különböznek szignifikánsan, nincs különbség a fogkrémek között. Párosítatlan próbát végzünk, mert négy független mintán végezték a mérést. Mivel a minták között van nem normál eloszlású ANOVA helyett (3.o), Kruskal-Wallis tesztet választunk. (A Kruskal-Wallis próba nem az átlagokat, hanem a mediánokat hasonlítja össze, pontosabban az összes adat rangszámainak helyzetét vizsgálja egy összesített rangsorban.) GraphPad: 1.o.: Compare means 3.o.: Több mintára a normalitás-teszt nem OK 4.o.: Select all columns / Perform ordinary ANOVA / Assume values are sampled from Gaussian distributions? – No. Use nonparametric methods. 5.o.: P = 0,8164 6. o.: Megnézzük a box-plotot, elsőre az oszlopok eltérni látszanak, de a SEM-et is figyelembe véve látszik, hogy a nagy variancia miatt a konfidencia intervallumok átfednek, tehát nincs nagy különbség. GraphPad értelmezése: A párosított t-próba feltételei nem teljesülnek, ezért Kruskal-Wallis-t választottunk. A próba eredménye, hogy nincs szignifikánsan eltérés a különböző fogkrémet használó csoportok között (a keletkezett szuvas fogak számainak mediánjaiban). H0-t megtartjuk. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, 0,8164, ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy a fogkrémek között talált kis eltérést csak a véletlen ingadozás okozta, igazából nincs különbség közöttük. 7.) Cserebogárlárvák koreloszlása különbözik-e a két talajmintában? A minta B minta 1 éves 89 349 2 éves 23 31 3 éves 6 4
Mego: H0: a minták azonos eloszlású alapsokaságból származnak, a korcsoportok arányai nem különböznek szignifikánsan, a koreloszlás független attól, hogy honnan vettük a mintát. χ2-próbát végzünk homogenitásvizsgálatra. GraphPad: 1.o.: Analyze a contingency table / Larger contingency table 3.o.: P < 0,0001 The row and column variables are significantly associated GraphPad értelmezése: A két változó assziciáltsága azt jelenti, hogy a koreloszlás nem független a mintavétel helyétől, tehát a két mintában a koreloszlás szignifikánsan különbözik. H0-t elvetjük. Annak a valószínűsége, hogy az eloszlásokban ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, kisebb mint 0,0001 ez egy nagyon kis valószínűség, tehát igen valószínűtlen, hogy a koreloszlások között talált eltérést csak a véletlen ingadozás okozta. 8.) Elfogadhatjuk-e, hogy a következő tapasztalati eloszlás megfelel a 9:3:4-es mendeli dihibrid F2 arányoknak (recesszív episztázis)? A_B_ 103 A_bb 31 aa__ 39 Mego: H0: a minta eloszlása egyezik egy elméleti eloszlással. χ2-próbát végzünk tiszta illeszkedésvizsgálatra. Azért tiszta, mert az elméleti eloszlás teljesen ismert, nem kell paramétert becsülni. Először is elkészítjük az elméleti eloszlást: genotípus tapasztalati elméleti A_B_ 103 97,3125 A_bb 31 32,4375 aa__ 39 43,25 összesen 173 173 Statistica: Nyitunk egy Spreadsheet-et 2 változóval és 3 esettel Átmásoljuk a fenti táblázatból CSAK az eloszlást (tehát az „összesen” sort már nem!) Statistics / Nonparametrics / Observed vs expected χ2, OK gomb Variables: Observed legyen a tapasztalati (nem lehetnek törtszámok!), Expected az elméleti, Summary gomb 3.o.: χ2= 0,81, P < 0,67 EZ A P ÉRTÉK MEGFELELŐ SZABADSÁGI FOKBÓL SZÁMÍTÓDOTT, MERT NEM CSÖKKENTETTE PARAMÉTERBECSLÉS A SZABADSÁGI FOKOK SZÁMÁT. Statistica értelmezése: Mivel P>>0,05 H0-t megtartjuk. Annak a valószínűsége, hogy az tapasztalati eloszlás ekkora mértékben vagy még jobban eltér az elméletitől 0,67. Ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy az eloszlások között talált eltérést csak a véletlen ingadozás okozta. A tapasztalati eloszlás megfelel a 9:3:4-es mendeli arányoknak.
9.) Floridában kategorizálták az autós baleseteket súlyosságuk szerint és aszerint, hogy viseltek-e az érintettek biztonsági övet. A következő eredményeket kapták: Elfogadhatjuk-e 5%-os szignifikanciaszinten, hogy a baleset kimenetele független a biztonsági öv viselésétől?
nem-halálos halálos bizt öv 412368 510 bizt öv nélkül 162527 1601 Mego: H0: a balesetek kimenetele független attól, hogy használtak-e biztonsági övet. χ2próbát végzünk függetlenségvizsgálatra. GraphPad: 1.o.: Analyze a contingency table / Larger contingency table (mert a „Two columns, two rows”-ba nehezebb bemásolni az adatokat, a Larger contingency table mindig jó, a GraphPad észreveszi úgyis, hogy 2x2) 3.o.: P < 0,0001 The row and column variables are significantly associated GraphPad értelmezése: A két változó assziciáltsága azt jelenti, hogy a balesetek kimenetele nem független a mintavétel helyétől. H0-t elvetjük. Annak a valószínűsége, hogy az eloszlásokban ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, kisebb mint 0,0001 ez egy nagyon kis valószínűség, tehát igen valószínűtlen, hogy a balesetek súlyossági arányai között talált eltérést csak a véletlen ingadozás okozta. 10.) Student 1907-ben élesztő-sejtek eloszlását vizsgálta egy hematocitométer segítségével. 400 cellában számolta meg az élesztő sejteket: i: sejtek sz. 0 1 2 3 4 5 6 7 8 azon cellák sz., amelyekben 75 103 121 54 30 13 2 1 0 éppen i db élesztősejt volt Elfogadhatjuk-e, hogy a cellánkénti sejtszám Poisson eloszlású? Döntsünk α=5% mellett!
9
≥10
1
0
Mego: H0: a minta eloszlása egyezik egy elméleti Poisson eloszlással. χ2-próbát végzünk becsléses illeszkedésvizsgálatra. Azért becsléses, mert a elméleti Poisson eloszlás átlagát a mintából kell becsülni. λ=össz élesztősejt/össz cellaszám =(0*75+1*103+2*121+3*54+4*30+5*13+6*2+7*1+8*0+9*1)/400=720/400=1,8
Először is elkészítjük az elméleti eloszlást: i: sejtek sz. 0 1 2 3 4 5 6 7 8 9 >10 össz
tap. elo elm. elo 75,0 66,1 103,0 119,0 121,0 107,1 54,0 64,3 30,0 28,9 13,0 10,4 2,0 3,1 1,0 0,8 0,0 0,2 1,0 0,0 0,0 0,1 400,0 400,0
Összevonjuk annyira, hogy legfeljebb 1 elméleti gyakoriság legyen 5 alatt: i: sejtek sz. 0 1 2 3 4 5 >6 össz
tap. elo elm. elo 75,0 66,1 103,0 119,0 121,0 107,1 54,0 64,3 30,0 28,9 13,0 10,4 4,0 4,2 400,0 400,0
Statistica: Nyitunk egy Spreadsheet-et 2 változóval és 7 esettel Átmásoljuk a fenti táblázatból CSAK az eloszlást (tehát az „összesen” sort már nem!) Statistics / Nonparametrics / Observed vs expected χ2, OK gomb Variables: Observed legyen a tapasztalati (nem lehetnek törtszámok!), Expected az elméleti, Summary gomb 3.o.: χ2= 7,5, (P < 0,28) EZ A P ÉRTÉK NEM MEGFELELŐ SZABADSÁGI FOKBÓL SZÁMÍTÓDOTT, MERT A PARAMÉTERBECSLÉS CSÖKKENTETTE A SZABADSÁGI FOKOK SZÁMÁT!!! Tehát 1 paramétert becsültünk, df=5, Táblázatot kell használni!!! Statistica értelmezése: Tehát 1 paramétert becsültünk, df=5, χ2kritikus, 5, 0,05=11,07 > χ2kalap =7,5, sőt χ2kritikus, 5, 0,1=9,236 > χ2kalap =7,5 tehát P>0,1. Mivel P>0,05 H0-t megtartjuk. Annak a valószínűsége, hogy az tapasztalati eloszlás ekkora mértékben vagy még jobban eltér az elméletitől 0,67. Ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy az eloszlások között talált eltérést csak a véletlen ingadozás okozta. A tapasztalati eloszlás megfelel a Poisson-nak.