Kutatástervezés – 1. rész, Hahn István 0. Tantárgy bevezető 1. óra Adattípusok 1. A leggyakoribb változók osztályozása 2. A bináris változók jelentősége 3. Borításbecslés bináris mintavételi módszerrel 4. A leíró statisztika alapjai
2. óra Statisztika 1. Néhány jelentős eloszlás 2. Döntéshozó statisztikák
3. óra Kísérletek tervezése 1. 2. 3.
Ismétlésszám Randomizáció, kísérleti elrendezések Hibás tervezések, hibás következtetések
4. óra Hallgatói beszámolók 1. ZH 2. Témaismertetések kísérlettervezési és kiértékelési szempontból
Kutatástervezés – 2. rész, Pásztor Erzsébet Feladat az első alkalomra:
Hogyan alakul át a tudományos munka? Mi lesz az én szerepem? - 300-400 szavas reflexió a kötelező olvasmányra (Human Genome Project: Twenty-five years of big biology) saját google dokumentumba, szerkesztésre megosztva:
[email protected]
1. óra A kutatómunka természete 1. Hogyan alakul át a tudományos munka? Egyéni és csoport teljesítmény. Magányos zseni és kooperatív problémamegoldó. 2. MsC és PhD: hasonlóságok és különbözőségek, MsC és PhD követelmények 3. A kutatás folyamata: a témaválasztástól a publikációig 4. A témaválasztás folyamata,t émagenerálás analógiák, relevancia fák és morfológiai analízis segítségével 5. A potenciális témák értékelése
2. óra Irodalmazás, kapcsolattartás 1. Hogyan legyünk naprakészek: források, kutatói hálózatok, blogok 2. Elektronikusan elérhető szakirodalom 3. Keresés kulcsszavakkal és citációk alapján: a szakirodalom feltérképezése 4. Saját bibliográfia felállítása 5. Hogyan olvassunk és mit dokumentáljunk?
3. óra Tervezés és végrehajtás 1. 2. 3. 4. 5.
Miért van szükség a tervezésre? Hálótervek készítése Elkerülhető és elkerülhetetlen problémák a végrehajtás során A témavezetővel való kapcsolattartás módjairól A szükséges pozitív hozzáállásról…
4. óra Milyen lesz az én szakdolgozatom? 1. 2. 3. 4. 5. 6.
Cím Irodalmazás, témaelemzés Alkalmazott módszerek Adatbázis, elemzés Diszkusszió Összefoglaló (absztrakt)
Kutatástervezés – 3. rész, Miklósi Ádám Felkészülés – az előző héten Feladat: Téma absztraktjának beküldése (doc), Előadás elküldése (ppt)
[email protected] 1. óra 1. 10 perces előadás saját témából ppt + kérdések 2. Absztraktírás átbeszélése 3. Cikk, mint a kutatói munka alapja 4. HÁZI: Absztrakt javítása 5. HÁZI: 1 kézirat feldolgozása előadásra (ppt) 2. óra 1. Kutatói munka: együttműködés és verseny 2. Egyéb kutatói tevékenységek, karrier 3. Hogyan (miért) bírálunk cikket 4. Házi: 1 kézirat bírálatának elkészítése 3. óra 1. 10 perces előadás a kéziratból ppt + kérdések 2. Pályázatírás szempontjai 3. Házi: Pályázat írása, és bírálata 4. Óra 1. Pályázat bemutatása, bírálatok megbeszélése
Védelmi lapok aláírása Közös dokumentum megosztása, biometriai előélet megadása Gyakorlati jegy szerzése
Változótípusok •Skála
•Definíció
•Példák
•Nominális
1.kvalitatív, nevekből áll 2.nincs rangsor
•ivar, betegség, fajnév, cselekvési típus, prezencia-abszencia adatok
•Ordinális
1.kvalitatív, rangsor lehetséges 2.értékek közti távolság tetszőleges
•agresszivitás: erős, közepes, gyenge, borítás skálák, W-értékek, rangok
•Intervallum
1.kvantitatív, rangsor, értékek közti különbség mutatja a távolságot 2.önkényes nulla pont 3.arányok nem értelmezhetők
•C hőmérséklet, IQ
•Arány/ •hányados
1.kvantitatív, rangsor, értékek közti intervallum mutatja a távolságot 2.valódi nullapont 3.arányok értelmezhetőek
•testsúly, magasság, életkor, mért értékek
A megkülönböztetés fontos: kváziátlagok a statisztikában általában mérhető és megállapítható változókat különböztetnek meg. Közöttük egyirányú konverzió lehetséges folytonos vagy diszkrét közöttük átmenet: Simon Levin statisztikus véleménye (termésszám-terméssúly)
bináris (előnyei-hátrányai) - borításbecslés
Falanx
Klonális növekedési formák:
Az egyed fogalma nehezen értelmezhető, terepen nem számolható.
Egyedszám helyett használható: -Hajtásszám -Biomassza
-Borítás Gerilla
Tömegesség megadása: borításbecslés bináris értékek sorozatával
Elvileg járható út, terepen nem alkalmazható időigényes volta miatt
1 2 3 4
5 6 7 8 9 10
Feladat: pontok kijelölésével próbáld megbecsülni, hogy a piros (nyomtatva fekete) foltok a négyzet hány százalékát foglalják el! A lap oldalán tízesével írjál 0-t vagy 1-et, 10x10-et, és számold ki az „1”/összes hányadost tízesével! Készíts ábrát, ahol a az elemszám függvényében ábrázolod a hányadost!
Excel bináris borításbecslés
Fehér: 42%
piros 58%
Van-e értelme önmagában egy bináris adatsornak?
arány
Vízigény megoszlás egy szigetközi területen 100 90 80 70 60 50 40 30 20 10 0 1
2
3
4
5
6
7
8
9
10
W
Fajszámok alapján
borítások alapján
11
A matematikai statisztika elemei – illetve ezek felelevenítése David B. Allison, Andrew W. Brown, Brandon J. George, Kathryn A. Kaiser Reproducibility: A tragedy of errors Nature, 03 February 2016
“To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.”
Sir Ronald Aylmer Fisher (1890 – 1962) angol statisztikus és biológus
STATISZTIKAI ALAPFOGALMAK: Átlag, szórás
Legyenek valamely n elemű populáció egy x változójának mért vagy számított értékei:
x1 , x2 ,..., xn n
x1 x2 ... xn x . n Számtani átlag
(s.d.) s
x x
2
i
i 1
n 1
szórás A biológiai minták variabilitása nagy
Középérték további mutatói: Módusz A leggyakrabban előforduló érték. Medián A sorba rendezett adatok középső értéke. Ha n páratlan, akkor az értékek közül a nagyság szerint rendezett sorban a középső, ha n páros, akkor a két középső érték számtani közepe. Számtani átlag
Mértani átlag Az alapadatok szorzatának annyiadik gyöke, ahány adat van. Harmonikus átlag A reciprok adatok átlagának reciproka. Kváziátlag: ordinális változókból számolt átlag
Szóródási tendencia további mutatói: Terjedelem A legnagyobb és a legkisebb érték közötti különbség.
Szórás A várható értéktől való eltérés várható értéke – dimenziója az eredeti Variancia A szórás négyzete. - számításokhoz Variációs együttható – dimenzió nélküli szám
s V , x Megadás: az alapadatoknál eggyel több értékes jegyre
Valószínűségek megadása Egyszerű esetek: Pénz, kocka Bonyolult esetek: más (dobómalac) A priori
a posteriori
A nagy számok törvénye A nagy számok törvénye a valószínűségszámítás egyik alapvető tétele. A törvény azt mondja ki, hogy egy kísérletet sokszor elvégezve az eredmények átlaga egyre közelebb lesz a várható értékhez (v.ö. borításbecslés).
Nem jelenti ugyanakkor azt, hogy az esélyek kiegyenlítődnek Kapcsolata a mintavételi elemszámmal
Egy rövid tűt egy vonalas lapra leejtve, mi a valószínűsége annak, hogy az keresztezni fog egy vonalat? - vetette fel a kérdést George Louis Leclerc, Buffon grófja 1777-ben.
Legyen a szakaszok (tűk) hossza L= 49 mm, a vonalak egymástól való távolsága d = 60 mm.
Georges-Louis Leclerc (1707 – 1788), Buffon grófja francia természettudós
Ha L ≤ d, annak a valószínűsége, hogy a leejtett L hosszúságú tű metszi valamelyik vonalat:
2*L p = _____ ¶*d SZÁMOLÁS!
Pi= 3,141592653589793238462643383279502884197169399375105820974944592307816406286208998628034 82534211706798214808651328230664709384460955058223172535940812848111745028410270193852110 55596446229489549303819644288109756659334461284756482337867831652712019091456485669234603 48610454326648213393607260249141273724587006606315588174881520920962829254091715364367892 59036001133053054882046652138414695194151160943305727036575959195309218611738193261179310 51185480744623799627495673518857527248912279381830119491298336733624406566430860213949463 95224737190702179860943702770539217176293176752384674818467669405132000568127145263560827 78577134275778960917363717872146844090122495343014654958537105079227968925892354201995611 21290219608640344181598136297374771309960518707211349999998372978049951059731732816096318 59502445945534690830264252230825334468503526193118817101000313783875288658753320838142061 71776691473035982534904287554687311595628638823537875937519577818577805321712268066130019 27876611195909216420198968792314560827586240560077589345702398074560785603425634060137576 14785614130576143775671345674561478538032957123947612351056105671064231075634767481368072 39761456345103457961345716457164570647061345701405614759013456943567501571451459071634573 62829201823929282729201823527282737229273382929273282929201029273373820282716251728391817 38392929282929201927362727152416293038272627381029261428392027242987016292929302919345613 45790613450976134507614509154740561304561403566190651079561906150795617095601795610795614 90641790038793489347819234719856978517340714379056019560134018498040489101440151621565616 90546815344283434343434343434343434343434345861591850914869013456814058915234091568906056 1034610945610456150861059619045613485906321490865142068134589078234231412349343 .
Szegélyhatás a mintavételi egységeknél
Transzektbe/kvadrátba esés valószínűségének megadása ismert alakú foltok esetében.
Valószínűségek összeadása, függetlenség, szorzás Ide kellenek egyszerű számolási feladatok kockával, érmével
Valószínűségek megadása számításokkal Binomiális eloszlás
2 lehetséges kimenetel, egyik bekövetkezési valószínűsége p, a másiké q, p+q=1. Annak valószínűsége, hogy n db kiválasztáskor éppen k esetben következik be a p valószínűségű esemény: pk*(1-p)n-k a lehetséges sorozatok száma (ismétléses permutáció) n!/((k!*(n-k)!)
n k Pk * p (1 p) nk k Az eloszlásnak két paramétere van, n és p. Ez végtelen mintákra vonatkozik, egy egyszerűbb véges urnamodell analóg kérdése
Egy urnában levő N darab golyó közül M piros, és visszatevés nélkül kiválasztunk n darabot, mi a valószínűsége annak, hogy a mintában éppen k darab piros golyó lesz?
Az eloszlás hipergeometrikus, ha n és s elég nagy, az eloszlás jól közelíthető a binomiálissal. Olyan esetekben használatis, ahol a a kiválasztott elem a vizsgálat során „elhasználódik”, azaz nem lehet visszatevéses mintavételnek tekinteni. Ha M tart a végtelenhez, akkor a a hipergeometrikus előszlással számolt valószínűség tart a binomiálissal számolthoz.
Tételezzük fel, hogy p nagyon kicsi, de n tart a végtelenhez úgy, hogy szorzatuk konstans: n*p= Poisson eloszlás: annak a valószínűsége, hogy éppen k-szor következik be az esemény:
P(k)=((k)/k!)*e- Az eloszlásnak egy paramétere van, , ami egyben az eloszlás várható értékét és varianciáját is adja. Annak a valószínűsége, hogy egy t-vel jellemezhető intervallumra (pl. szakasz, terület, térfogat, idő) éppen k darab eset jut:
P(kt)=((kt)/k!)*e-t A mintavételezés egyik referencia-eloszlása, ezzel lehet leírni a térbeli és az időbeli véletlen folyamatokat.
Három pontmintázat típus: szabályos
véletlenszerű
csoportosulásos
Helyi feladat: véletlen pontmintázat előállítása
Helyi feladat: véletlen számsor előállítása Írjatok 1 és 100 között (a szélső értékek is beleértendők) száz egész számot, törekedve a véletlenszerűségre. Értékelés: Ábrázoljátok oszlopdiagrammon 1. Az 1-10, 11-20, 21-30, stb. tartományba eső számok darabszámát. 2. Az 1, 2, 3, stb. végződésű számok darabszámát. 3. Csináljatok egy ezen adatokból 1-1 összesített diagrammpárt!
véletlen számok végződései (10 hallgató)
30
előfordulás
25 20 15 10 5 0 1
2
3
4
5
6
végződés
7
8
9
10
összesített véletlenszámok 140 120
előfordulás
100 80 60 40 20 0 1
2
3
4
5
6
végződés
7
8
9
0
A megszokott 10-es számrendszer rányomja bélyegét az eredményekre:
(Csak előrevéve:) The twenty commonest censusing sins William J. Sutherland School of Biological Sciences, University of East Anglia
1. NOT SAMPLING RANDOMLY. It is very satisfying to sample rarities or rich patches but it ruins the exercise. One common error is just to visit the beat sites and use the data to estimate population size. 2. COLLECTING FAR MORE SAMPLES THAN CAN POSSIBLY BE ANALYSED. This is a waste of time and may raise ethical and conservation issues. 3. CHANGING THE METHODOLOGY IN MONITORING. Unless there is a careful comparison of the different methods, changing the methodology prevents comparisons between years. 4. COUNTING THE SAME INDIVIDUAL IN TWO LOCATIONS AND COUNTING IT AS TWO INDIVIDUALS. 5. NOT KNOWING YOUR SPECIES. Knowing your species is essential for considering biases and understanding the data. 6. NOT HAVING CONTROLS IN MANAGEMENT EXPERIMENTS. This is the greatest problem in interpreting the consequences of management. 7. NOT STORING INFORMATION WHERE IT CAN BE RETRIEVED IN THE FUTURE. The new warden of a national nature reserve in England could find out from old work programmes the days on which his predecessor had counted a rare orchid but could find no record of the actual numbers!
Számítógépes algoritmusak Igazi véletlenszám generátorok: Radioaktív bomlás alapján
kísérleti elrendezések Randomizáció Véletlen számok és mintázatok problematikája - cél: a statisztikai populáció tagjai egyenlő eséllyel kerülhessenek a mintába - használható zavaró tényezők, tendenciák hatásának kiszűrésére - a reprezentativitás legfőbb biztosítéka - torz minta: - bizonyos egyedek nagyobb valószínűséggel kerülnek a mintába - bizonyos egyedek bekerülése befolyásolja más egyedek bekerülését Példa: botanika-kvadrát Térbeli autokorreláció Tobler amerikai geográfus első törvénye: Minden mindennel összefügg, de a közelebbi dolgok erősebben hatnak egymásra. Azaz várhatóan az egymáshoz közel levő helyek jobban hasonlítanak egymásra, mint a távoliak. Időben is: a holnapi időjárás legnagyobb valószínűséggel olyan, mint a mai. ál-ismétlés A véletlenszerűség igen gyakran statisztikai követelmény Haphazard (találomra, vaktában) mintavétel Problémái, szisztematikus és szemiszisztematikus mintavétel
Szemiszisztematikus – (helytelen) neve térben rétegezett elrendezés
Sziklagyepek
a képen ördögszántás
Kísérleti elrendezések a véletlenszerűség biztosítására véletlen blokkelrendezés: az ismétlések blokkokba vannak osztva úgy, hogy a blokkok minél homogénebbek legyenek előny: egyszerű hátrány: tízféle vagy több kezelésnél nehezen biztosítható a blokkon belüli homogenitás ekkor jobb a tökéletlen, azaz a blokkon belüli homogenitás érdekében lemondanak arról, hogy minden blokkban minden kezelés benne legyen példa 1. parcellakísérlet gradiens mentén példa 2. laborkísérlet időben: pl. vérszérum elemzés box: Ali fotoszintézis vizsgálatai: napi és évi ciklus
Latin-négyzet
Az elnevezés Eulertől származik, aki latin betűket használt szimbólumokként . Matematikai elmélete van. Régen a misztikában, jelenleg a kísérlettervezésben és a kódolásban alkalmazzák.
ha a kezelések száma egyenlő az ismétlésszámmal, soronként és oszloponként 1-1 lehet.
mágikus és szupermágikus latin négyzetek latin tégla a kezelésszám az ismétlésszám többszöröse kell legyen
58 63 47 12
67 82 51 34
24 17 38 56
13 54 26 78
Normális eloszlás - család
2 paraméter: A várható érték (m) és a szórás (σ)
A görbék magasságai azért különbözőek, hogy a görbe alatti terület 1 legyen (teljes valószínűség). Centrális határeloszlás tétel: Független valószínűségi változók összege aszimptotikusan normális eloszlású, ha az összeghez képest kicsik. Galton deszka
A normális eloszlás (és vizsgálata) a biológiában nagyon gyakori: - Egy-egy tulajdonságot sok genetikai és környezeti tényező határoz meg - Gyakran vizsgálunk olyan jelenséget, amit sok körülmény határoz meg -A mérési/becslési hibák általában normális eloszlásúak - Egyes statisztikai próbák megkövetelik az adatsorok normális eloszlását
Standard normális eloszlás Az adatsor minden egye eleméből kivonjuk az adatsor átlagát, és elosztjuk a szórásával. Az eredmény eloszlás normális marad, de átlaga=0, szórása=1.
Hipotézisvizsgálatok Nullhipotézis Populáció, minta. Elméleti és tapasztalati középértékek és szóródási mutatók. Szabadsági fok A döntéshozó statisztikai próbák eredménye nem egy egyértelmű ítélet, hanem annak a valószínűsége, hogy egy nullhipotézis igaz avagy hamis. Konfidenciaintervallumok Azt az intervallumot, amelyik egy ismeretlen értéket (középérték, medián, szórás, variációs együttható, relatív gyakoriság, stb.) egy meghatározott valószínűséggel tartalmaz, megbízhatósági tartománynak vagy konfidencia-intervallumnak nevezzük.
Szignifikanciaszint – általában 5% (p<0,05) első- és másodfajú hiba.
Elsőfajú: elvetjük a nullhipotézist, pedig igaz. Mértéke ismert. Másodfajú: megtartjuk a nullhipotézist, pedig hamis. Mértéke ismeretlen. Nullhipotézis: az alany nem terhes.
Mennyire lehet automatikasan igazodni az 5%--os határhoz? Minél „jelentősebb” egy felfedezés, annál erősebb alátámasztás kell.
Nem életidegen a változó határ? (szerencsejáték – csalás esélye)
próbák ereje Egymintás t-próba Kétmintás t-próba F-próba Maximális F, vagy Bartlett-próba Egyszempontos varianaciaanalízis elve Statisztikai próba-határozó
A t-eloszlás táblázata
és az egymintás t-próba próbastatisztikája
Magyar tudomány cikk Science cikk
A t-eloszlás táblázata
és az egymintás t-próba próbastatisztikája
Kétmintás t-próba Y1 Y 2 s12 s22 n1 n2 Ha a minták függetlenek, normális eloszlásúak és szórásaik nem különböznek szignifikánsan, tekinthetjük egyetlen minta két részének. Ez alapján a magasabb elemszám miatt jobb becslését adhatjuk a szórásnak.
Y1 Y 2
n1 n2 n1 1s12 n2 1s22 n1n2 n1 n2 2 A kapott próbastatisztika n1+n2-2 szabadsági fokú t-eloszlású
A t-próba feltételei: • • • • •
Egymintás esetben: a valószínűségi változók normális eloszlásúak a mintaelemek függetlenek Kétmintás esetben ezeken felül: a két valószínűségi változó szórása „azonos”
Welsch-próba Ha a két minta varianciája nem azonos, a próbastatisztika:
d=
Y1 Y 2 s12 s22 n1 n2
Ha a null-hipotézis igaz a próbastatisztika közelítőleg t-eloszlású a szabadsági fok függ a varianciák közötti különbségtől is Nem paraméteres: Mann-Whitney próba
F-próba Két variancia összehasonlítása a mintából kapott becslések alapján Követelmény: normális eloszlás.
F=
2 1 2 2
s s
Mindig a nagyobbat kell a kisebbel osztani.
Maximális F, Bartlett-próba
Egyszempontos varianciaanalízis elvi vázlata
Alapja egyetlen F-próba, ami az átlagok eltérésére karakterisztikus ”csoportok közötti” varianciát veti össze a random ingadozást leíró ”csoportokon belüli” varianciával. Kezeléstípusok
a
b
c
d
e
f
g
Alapadatok
varianciák Belső- és külső varianciák elemszámmal súlyozott sorozatának összevetése EGYETLEN F-próbával.
Nem paraméteres: Kruskal-Wallis próba
Khi-négyzet próbával végezhető szignifikanciavizsgálatok:
Homogenitásvizsgálat Összefüggésvizsgálat Illeszkedésvizsgálat Ide kéne új dia – példatáblázatokkal, esetleg ábrákkal
A Khi2 eloszlás táblázata
Aggregációs index pl. a helyi feladat eredményének szignifikanciavizsgálatához.
ZH-minta feladatok Megadandó az alkalmazandó statisztikai próba neve, elvégzésének feltétele vagy feltételei, továbbá, ha a kérdés eldöntésére többféle eljárás is alkalmas, akkor ezeknek mi a rangsora. Utóbbi alatt azt értem, hogy melyik lenne a legjobb, de ha az nem végezhető valami miatt, akkor mi lenne a következő, stb. 1. A Szerencsejáték Rt. Honlapjáról letölthetők az eddigi lottóhúzások néhány statisztikája, pl. az, hogy melyik számot hányszor húzták ki eddig összesen. Hogyan lehetne megvizsgálni, nem volt-e esetleg csalás, azaz nem szerepeltek-e egyes számok az elvárhatónál szignifikánsan többször vagy kevesebbszer? 2. Egy cég új reagenst kínál, amelyről azt állítja, hogy az eddig forgalmazottnál hatékonyabban növeli egy oldat vezetőképességét (teljesen mindegy, hogy miért és hogyan, ). Milyen módszerrel (vagy módszerekkel!!!) lehet eldönteni, hogy igaz-e az állítás? 3. Egy vállalkozó olyan segédanyagot forgalmaz, mely (állítása szerint) növeli a búza terméseredményét. Milyen módszerrel (vagy módszerekkel!!!) lehet eldönteni, hogy igaz-e az állítás?
4. Kutyafajták termetét akarjuk összehasonlítani. Tételezzük fel, hogy létezik egy szempontrendszer, melynek segítségével 0-től 4-ig osztályozni lehet a megvizsgált állatokat: 0 - mini, 1 - kicsi, 2 - közepes - 3 nagy, 4 - hatalmas. Nyolc kiválasztott fajta 366 példányának eredményéből milyen statisztikai próbával lehet a fajták között meglevő méretkülönbség meglétét kimutatni avagy elvetni?
Adatvesztés Stewart Brand 2001: Amíg világ a világ: idő és felelősség – a hosszú most órája. Vince Kiadó, Budapest könyvtári
Okok: -
Hardverhiba (meghibásodás, eltűnés) Hardver inkompatibilitás Szoftver inkompatibilitás „legend” hiánya
Védekezés: -
Biztonsági másolatok független helyeken Szoftver nemzedékváltáskor az adatformátumot is frissíteni kell A bárhogyan is tárolt adatokat úgy kell feliratozni/kommentálni, hogy Sokkal később és esetleg mások számára is egyértelműen értelmezhető legyen