25 KULLANCSLÁRVA vizsgálata: Erős hideg hatására nézzük a túlélést. Eredmény: 16 elpusztult, 9 élve maradt Hipotézis: a pajzs hosszának variabilitása egy általános genetikai variabilitást tükröz, míg az életben maradtaknál a variabilitás kisebb. Számoljunk varianciát a teljes mintára és az életben maradottakra, s utána F próba?? F = 3.11 De: A két variancia nem független becslés. Az eloszlás nem normális.
Paraméteres nem megy…
Nem-paraméteres próba sincs… Úgy tűnik: nincs teszt.
Monte Carlo módszerek Statisztikai próbát szeretnénk végrehajtani akkor is, ha 1. A tesztelt statisztika eloszlása ismeretlen v. nem standard 2. A kérdéses változó eloszlása ismeretlen. 3. A függetlenség nem teljesül Vagyis az adatok valamilyen okból nem tesztelhetők semmilyen ismert módszerrel. Alapfeltevés: vö. szerencsejátékok!! A kapott eredmény egy, az egyenlően valószínű összes lehetséges eredményből Felírjuk az összes lehetséges kimenetelt, és megnézzük, ennek alapján a kapott eredmény nagyon valószínűtlen-e. Vagy: kombinatorikus megfontolások. H p > α, akkor elfogadjuk a H0-t. Ha p ≤ α, akkor a H1 –et fogadjuk el.
Ha az összes lehetséges kimenetel nem írható fel, v. nincsenek kombinatorikus megfontolások sem. Véletlenszerűen előállítunk nagyszámú eredményt, és az így kapott szimulált eloszlás alapján döntjük el a hipotézist.
1. Exakt v. axiomatikus randomizációs próbák a) R. A. Fisher esete Murial Bristollal: 8 csésze teából 4-be először a teát, a másik négybe először a tejet töltötték. Felismeri-e Ms. Bristol, hogy az összekevert 8 csésze tejes teából melyik miképpen készült? Eredmény: 3-at felismert a 4 „tejet először” csészéből, 3-at felismert a 4 „teát először” csészéből. Kérdés: véletlen-e ez a felismerési arány, azaz: H0 = véletlenül is eltalálhat ennyit H1 = nem véletlen, ez az eredmény igen kis valószínűségű, tehát Ms. Bristol igenis felismeri a sorrendet. Megoldás: nézzük meg, mennyire valószínű, hogy 6 vagy ennél több találata van.
⎛ 4 ⎞⎛ 4 ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ 3 3 16 1 p (3,3) = ⎝ ⎠⎝ ⎠ = , p (4,4) = 70 70 ⎛8⎞ ⎜⎜ ⎟⎟ ⎝ 4⎠
vagyis 17/70 = 0.243
b) Egy lisztbogár fajban több generáción át vizsgáljuk a mutánsok számának változását a szülőkhöz képest. Megvizsgáltuk a 2-8, és a 18-28. generációt Eredmény: a vad típus csökken, a mutáns nő: 2, 3, 4, 5, 6, 7, 20, azaz 8 esetben más változás: 18 19, 21, 22, 23, 24, 25, 26, 27, 28 azaz 10 esetben Kérdés: volt-e változás a két generációsor, a korai és késői között a tendenciában? ⎛18 ⎞ Az első típusú változásra a lehetséges esetek száma ⎜ ⎟ =
18! ⎜ 8 ⎟ 10!8! = 43758 ⎝ ⎠
Kedvező esetek azok, ahol 7 korai és egy késői van, azaz minden korai és a 11 féle késői közül valamelyik: p(7,1) = 11/43758 = 0,00025 Hozzá kell adni a még kisebb valószínűségeket: esetleg a 0 korai és 8 késői:
⎛11⎞ ⎜⎜ ⎟⎟ = 165 → p = 165 / 43758 = 0,037 ⎝8⎠
ez azonban nagyobb. p(7,1)<<0,05 van különbség
2. Mintavételezéses randomizációs próbák Összes lehetőség nem felírható, a valószínűségi megfontolások se mennek… A kullancsos példában:
⎛ 25 ⎞ 25! ⎜⎜ ⎟⎟ = > 2000000 9 9 ! 16 ! ⎝ ⎠ Ez túl sok, hogy mindet végigvegyük, és kiszámítsuk az F értéket. Elég egy véletlen minta belőle, pl. 500 véletlen kiválasztás.
f
5%
4
5
6 7
8
9 10
Kapcsolat a ismert tesztekkel Aranysakál állkapocs hossz:
Null hipotézis: nincs különbség. Átlagok: male: 113. 4, female: 108.6. Átlagok eltérése: 4.8, t = 3.48 Számoljuk ki a két statisztikát 5000 randomizációval. A kapott eredmény
11 előfordulás, azaz P ≤ 0.0022 (A t esetében a tábl. alapján P = 0.0026)
Egyéb számítógép-intenzív módszerek 1) Jackknife Egy statisztikát úgy becslünk, hogy egy-egy megfigyelés kihagyásával számolunk, ez gyakran csökkenti a TORZÍTÁST. Pl. Az átlag esete n
x = ∑ xi / n i =1
Ha a j-edik értéket kivesszük, akkor
⎞ ⎛ n x− j = ⎜ ∑ xi − x j ⎟ /(n − 1) ⎠ ⎝ i =1 A két egyenletből kapjuk
x j = nx − (n − 1) x− j persze ez csak az átlagra adja vissza!!
Általános eset: Van egy becslésünk a teljes mintára, θ, és a j eset elhanyagolásával θ−j. Pszeudo-értékek kiszámítása:
θ*j = nθ - (n – 1) θ-j Jackknife becslés az n darab pszeudo-érték alapján n
θ = ∑ θ *j / n *
j =1
Példa: Q/n a variancia torzított becslése, a Q/(n-1) a torzítatlan. Ha a Q/n becslőfüggvényt a jackknife módszerrel elemezzük, vagyis θ*j = n [Q/n] - (n – 1) [Q/n] -j Akkor a θ*j pszeudo-értékek átlaga a torzítatlan becslést adja, vagyis Q/(n-1)-et.
Ökológiai példa: Egy terület fajszámát akarjuk megállapítani, n darab mintavételi egységet elhelyezve. Lesz olyan faj, amit nem találunk meg, az n kvadrát alapján megállapított fajszám tehát alulbecsül. kvadrátok
S* = S +
fajok
n −1 f1 n
A fajszám jackknife becslése a fenti táblázatra: S* = [ 6 *(10*14 – 9*14) + (10*14 – 9*12) + 3*(10*14 – 9*13) ] / 10 = 18.5 Ha nincsenek csak 1 kvadrátban talált fajok, akkor………?
2. Bootstrap Pl. a torzítás mértéke állapítható meg ezzel a módszerrel. Lényege: az n elemű mintát az adott valószínűségi változó eloszlása legjobb jelzésének tekintjük, amelyben minden előfordulás egyformán valószínű. Vagyis a valódi populációt a minta jól közelíti. B. Efron Vizsgáljuk a θ paramétert. Vegyünk sok n elemű mintát ebből a mintából, visszatevéssel, s számítsuk ki a bootstrap becslést, azaz a sok mintából származó értékek átlagát. Aranysakál példa: Legyen D a két minta átlagának különbsége. Készítsünk 5000 bootstrap mintát külön-külön, s számítsuk ki a különbségeket. A bootstrap becslés 4.82. Az eredeti becslés: 4.8
kis különbség van.
3. A jackknife és a bootstrap alkalmazása filogenetikai rekonstrukcióban Mennyire befolyásolja a fa alakját a kiválasztott génszekvencia.
Bootstrap százalékok a törzsfán.