Kísérlettervezési alapfogalmak: Tényező, faktor (factor) – “független változó”, “ható tényező” (kezelés, gyógyszer, takarmány, genotípus, élőhely, stb.) aminek hatását a kísérletben vizsgálni vagy összehasonlítani kívánjuk. Megfigyelési egység (experimental unit) az az egység a kísérletben, amelyre egy bizonyos kezelést vagy kezeléskombinációt alkalmazunk (egy állat, egy alom, egy sejtkultúra, egy petri-csésze táptalaj, stb.). Célváltozó vagy kimeneti változó (outcome variable, response variable) olyan megfigyelhető vagy mérhető változó, amely alkalmas a tényezők hatásának mérésére (a megfigyelési egység állapotának, kezelésre adott válaszának jellemzésére). Lehet bináris (0/1, pl. túlélés, gyógyulás, stb.) vagy számszerű (baktériumtelepek száma, átmérője, vérnyomás, közérzet-pontszám, stb.).
Ismétlés (replication) – ugyanazt a kezelést (kezeléskombinációt) általában több megfigyelési egységen szokták alkalmazni. Ennek az az értelme, hogy csökkentsék annak az esélyét, hogy a kísérlet egyes megfigyelési egységek kiesése (elhullás, sikertelen mérés, stb.) miatt értékelhetetlenné válik, kiderüljön, mekkora a kezelésre adott válasz szóródása a populációban, az eredmények a populációra általánosíthatók legyenek, növekedjék a vizsgálat pontossága. Célpopuláció (target population) és vizsgált populáció (sampled population) – a célpopuláció az a populáció, amelyre a vizsgálat eredményeit alkalmazni kívánjuk, a vizsgált populáció pedig az a populáció, amelyből az elemzés alapjául szolgáló véletlen mintát vettük. Ha e két populáció nem azonos, akkor a kapott eredmény érvényessége megkérdőjelezhető.
Belső és külső validitás (internal and external validity) A vizsgálat belső validitásán azt értjük, hogy a kapott eredmény valóban érvényes-e a vizsgált mintára (az elemzés nem tartalmaz torzítást), a külső validitás pedig azt jelenti, hogy érvényes-e a kívánt célpopulációra (azaz általánosítható). Ehhez a belső validitáson túlmenően még arra is szükség van, hogy a mintavétel se okozzon torzítást. A vizsgálat belső validitását például veszélyezteti, ha a kiértékeléskor egy olyan statisztikai módszert alkalmaztunk nem normális eloszlású változó elemzésére, amelynek feltétele, hogy a vizsgált változó normális eloszlású legyen. A vizsgálat külső validitása kérdéses, ha az eredményeket a háziorvosi praxisra vonatkozóan kívánjuk felhasználni, a vizsgálatot viszont egy egyetemi klinika beteganyagán végezzük, ahol jellemzően súlyosabb vagy komplikált esetek fordulnak elő.
Varianciaelemzés (analysis of variance), ANOVA Van-e hatása a tényezőnek (kezelés vagy csoport, X) a célváltozóra (Y), pontosabban annak átlagértékére? Vannak-e különbségek az egyes kezelések, kezelés-kombinációk, csoportok között? Erre a kétmintás t-próba is megadja a választ, elég lenne azt páronként elvégezni a változókra – gondolhatjuk. Ez azonban hibás megközelítés. A többször elvégzett t-próba esetén alaposan megnőne az első fajú hiba valószínűsége. 10 Legyen például 10 mintánk, ezekből = 45 különböző párosítást készíthetünk, és 2 ezek mindegyikében 5% hibavalószínűséggel utasítjuk el a nullhipotézist. Másként fogalmazva, 100 szignifikáns eredményből átlagosan 5 esetben hibásan utasítjuk el a nullhipotézist. Akkor 45 esetből …? Az ANOVA maga dolgozik 5% hibavalószínűséggel, az összes mintát tekintve.
Egytényezős one-way, one-factor varianciaelemzés: k minta (k kezelés vagy k csoport) Feltétel: a minták függetlenek, a célváltozó minden csoportban normális eloszlású (khi-négyzet próba, Kolmogorov-Szmirnov-próba), a szórások azonosak (Bartlettpróba, Levene-próba). Nullhipotézis: nincs különbség az átlagok között, a kezelések/csoportok a célváltozó átlagára nézve mind azonosak: H0: µ1 = µ2 = ... = µk . Ellenhipotézis: nem minden átlag egyenlő, a kezelések/csoportok között különbség van : H1: nem minden µi egyenlő egymással. Ha k = 2, akkor a varianciaelemzés ekvivalens a kétmintás t-próbával.
Példa:
Hasonlítsuk össze a következő három mintát: 1. minta 8 10 12 14 16
2. minta 9 11 13 15 17
3. minta összes 3 5 7 9 11
x = 12 s 2 = 10
x = 13 s 2 = 10
x=7 s 2 = 10
x = 10.67 s 2 = 16
20
10
0 0
1
2
3
Mindhárom szórásnégyzet megegyezik, így a csoporton belüli varianciák átlaga 10. Az összes megfigyelés varianciája nagyobb: 16. A különbség az átlagok közötti különbségnek tudható be.
Alapötlet: a csoportosító tényezőtől független hatások a csoportokon belül is megjelennek
Másképp: a variabilitásnak két forrása van a mintán belüli átlag körüli szóródás (csoportosítástól független hatások miatt) a minták között változatosság, amely a populációk (amelyekből a minták származnak) várható értékeinek különbözőségéből fakad.
Variancia-tábla (szórásfelbontás) A célváltozó variabilitását (amelyet az átlagától való eltérés-négyzetösszeggel mérünk) komponensekre bontjuk az alábbi módon: Kezelések közötti Teljes = különbségnek tulajdonítható + variabilitás variabilitás
Véletlen variabilitás
csoportok közötti (between groups) csoporton belüli (within groups) reziduális hiba (residual error) Ha a kezelések közötti különbségeknek tulajdonítható variabilitás szignifikánsan nagyobb, mint az ugyanazon kezelést kapottak közötti véletlen (nem a kezeléssel kapcsolatos – de lehet más, zavaró hatásnak tulajdonítható!) variabilitás, akkor a nullhipotézist elvetjük. A tesztelés a varianciák hányadosát véve, F-próbával történik. Szokásos jelölések:
SS, SSQ – négyzetösszeg (sum of squares) MS, MSQ – variancia (mean squares)
A négyzetösszeg-felbontás szokásos formája, ahogyan a számítógépes programok közlik (ANOVA táblázat): A variancia EltérésSzab. Átlagos négyTesztperedete négyzetösszeg fok* zetes eltérés statisztika érték** Source SS df MS F p k k MS B Kezelések 2 2 ( ) n x − X ( ) SS B = n ∑ xi − X F= ∑ i közötti k -1 p MS i =1 i =1 W MS B = Between k −1 k n k n Kezelésen 2 2 xij − xi ) ( SSW = ∑ ∑ (xij − xi ) ∑ ∑ belüli k(n-1) i =1 j =1 i =1 j =1 MS = W Within k (n − 1) Teljes Total *
SST = ∑ ∑ (xij − X ) k
n
i =1 j =1
2
nk-1
feltéve, hogy k csoport van és mindegyikben n megfigyelés a (k-1), k(n-1) szabadsági fokú F-eloszlásból számítva *** MST nem más, mint a célváltozó becsült varianciája **
MST = = SST /(k-1)***
k
n∑ ( xi − X )
2
i =1
Ha a mintaelemszámok egyenlőek: F =
k −1
∑ ∑ (xij − xi ) k
n
2
i =1 j =1
k (n − 1) k
∑ ni (xi − X )
2
i =1
Ha a mintaelemszámok nem egyenlőek: F =
k −1 k
∑ (ni − 1)si2 i =1 k
∑ (ni − 1) i =1
Utóbbi esetben súlyozunk a mintaelemszámokkal.
Ha a varianciaelemzés szignifikáns különbségeket mutat ki a kezelések között, azaz a H0: µ1 = µ2 = ... = µk nullhipotézist elvetjük, akkor kíváncsiak lehetünk arra, hogy nevezetesen mely kezelések között van különbség. Erre szolgál a csoportok páronkénti összehasonlítása (post-hoc tests). A nullhipotézis elvetéséből nem következik, hogy mind különböznek egymástól!
Vannak olyan módszerek is, amelyetet nemcsak egy szignifikáns ANOVA után, hanem anélkül is használhatunk (multiple comparison tests).
Hogyan lehet eldönteni, hogy melyik csoportok különböznek egymástól? Sok módszer van, különféle előnyökkel és hátrányokkal, csak néhányat említünk. Kiszámítjuk a mintaátlagok konfidencia intervallumait. Amelyek nem fednek át, azokat tekintjük különbözőknek. (nem teljesen korrekt) Ki lehet számítani az ún. legkisebb szignifikáns differenciát LSD p% , és azokat a mintákat tekintjük különbözőknek, amelyek középérékeinek különbsége nagyobb, mint LSD p% (ez sem teljesen korrekt) A Tukey-teszt (korrekt, viszont nem nagyon érzékeny – nagy különbség kell ahhoz, hogy szignifikánsnak tekintse) A Dunnett-teszt: ha a kezelések nem mind egyenértékűek, hanem van közöttük egy, amelyhez az összes többit hasonlítani akarjuk, akkor ezt a tesztet kell használnunk.
Többtényezős vagy többszempontos (multifactor) varianciaelemzés Több tényező van. (Az egyszerűség kedvéért most legyen csak kettő.) 1. tényező: k1 kezelés (k1 csoport). 2. tényező: k2 kezelés (k2 csoport). A kezeléskombinációk száma k1 × k2 . Tegyük fel, hogy r ismétléssel dolgozunk, azaz minden kezeléskombinációt r megfigyelési egységen alkalmazunk (ez összesen k1 × k2 × r megfigyelési egység).
Feltétel itt is, hogy a célváltozó minden kezeléskombináció esetén normális eloszlású, a szórások pedig azonosak legyenek.
Itt többféle nullhipotézist tesztelhetünk (ugyanúgy, mint az egytényezős esetben, a négyzetösszeg felbontása után F-próbával):
H0(1): az 1. tényező szerinti k1 kezelési csoport a célváltozó átlagára nézve mind azonos, az átlagok között nincs különbség: H0(1): µ1(1) = µ2(1) = ... = µk1(1)
H0(2): a 2. tényező szerinti k2 kezelési csoport a célváltozó átlagára nézve mind azonos, az átlagok között nincs különbség: H0(2): µ1(2) = µ2(2) = ... = µk2(2)
H0(1×2): az 1. és a 2. tényező hatása additív, együttes hatásuk a külön-külön vett hatások egyszerű összege, nincs közöttük kölcsönhatás, interakció (H0(1×2) elvetése azt jelenti, hogy a két hatás nem additív, van közöttük interakció) Az interakció azt is jelenti, akkor az 1. tényező szerinti kezelések hatása a 2. tényező szerinti kezelési csoportokban nem azonos. Több tényezőre magasabb rendű interakciók is bejönnek, de ezek általában nem interpretálhatóak.
Példa:
Seregélyek testtömege hogyan függ a madarak nemétől és a mérés időpontjától? átlagos testtömeg hím
hím
nő
ősz
hím nő
nő
tavasz
ősz
tavasz
ősz
tavasz
Az (a) esetben közel párhuzamos az átlagos testtömegeket összekötő vonal: az évszakváltás ugyanannyi testtömeg változást jelent mindkét nem számára, azaz nincs kölcsönhatás a két változó között. A (b) és (c) esetben a vonalak nem párhuzamosak: az évszakváltás hatása nem azonos az egyes nemek számára, azaz mindkét eset interakciót jelez
Több minta esetén:
Az (a) esetben nincs interakció (közel párhuzamos vonalak), a (b) esetben van. A többtényezős ANOVA elvégezhető úgy is, ha minden tényező kombinációban csak egy megfigyelés van, ekkor azonban az interakciók nem tesztelhetők.
ANCOVA Variancia-kovariancia-elemzésről (ANCOVA) akkor beszélünk, ha a tényezők mellett folytonos magyarázó változókat (ún. kovariánsok) is figyelembe veszünk, amelyek hatását a célváltozóra lineáris regresszióval fejezzük ki (pl. túlélési idő hogyan függ a műtét típusától, a beteg nemétől és életkorától). Ha azt gyanítjuk, hogy a kovariánstól való függés nem lineáris, akkor jobb, ha értékeit csoportosítjuk (lehetőleg szakmailag interpretálható módon!), majd ANOVA-t alkalmazunk. Az eljárást akkor is használhatjuk, ha a feladat az egyes csoportokbeli regressziós egyenesek meredekségének összehasonlítása. (A meredekségek különbözőségét az jelzi, ha a tényező × kovariáns interakció szignifikáns.)
Néha olyan tényezők hatása is érdekel, amelyeknek nem tudjuk, vagy nem akarjuk az összes lehetséges szintjét figyelembe venni. Ilyenek például a mérés időpontja (napszak, évszak), az élőhely földrajzi elhelyezkedése, többcentrumos vizsgálatban a vizsgálatot végző intézmény, a mérést végző személy, stb. Ekkor nem az a fontos, hogy az éppen figyelembe vett szintek (időpontok, földrajzi helyek, intézmények, személyek) között van-e és mekkora a különbség, hanem hogy ezek a különbségek összességében mennyivel járulnak hozzá a vizsgált változó varianciájához (hogy ezt a többlet-varianciát el tudjuk különíteni a véletlen hibától). Az ilyen tényezőt véletlen tényezőnek (random factor) , az ilyen tényezőt tartalmazó modellt véletlen modellnek (random effect model) nevezzük, szemben az eddig megismert fix tényezővel (fix factor) és fix modellel (fixed effect model). A vegyes modellben (mixed model) mindkét fajta tényező szerepel.
Véletlen blokkos elrendezés (randomized blocks design) Általában a csoportok között véletlenszerűen osztjuk fel a kezeléseket, azaz randomizálunk. Például 3 különböző kezelésnek teszünk ki 15 egyedet, mindegyik kezelést 5 egyeden alkalmazva a kezelések sorrendje lehet például a következő: K1 K2 K1 K2 K1 K3 K1 K2 K2 K3 K1 K3 K3 K3 K2 Ha az a gyanúnk, hogy egy tényező nemkívánatos hatást gyakorol a célváltozó értékére, akkor ezt úgy kezelhetjük, hogy a fenti teljes randomizálás helyett e tényező szerint rétegzünk és minden rétegben mindegyik kezelésből ugyanannyit végzünk, és csupán az egyes rétegeken belül randomizálunk. Így az egyes kezelésekhez tartozó átlagértékeket a tényező azonos mértékben befolyásolja. Ezt az elrendezést véletlen blokkos elrendezésnek nevezik. Képzeljük el például, hogy a fenti kísérletben azoknak az „egyedeknek”, amelyek később kerülnek sorra, romlik az állapota, a kezeléseket viszont csak egymás után tudjuk elvégezni. Ekkor eljárhatunk a következőképpen: K1 K2 K3 | K2 K3 K1 | K1 K3 K2 | K3 K2 K1 | K2 K1 K3
K1 K2 K3 | K2 K3 K1 | K1 K3 K2 | K3 K2 K1 | K2 K1 K3 Három egyedből álló blokkokat alakítottunk ki, a blokkokon belül randomizáltuk csak a kezelést. Ha a kísérletet varianciaelemzéssel értékeljük ki, akkor a kiértékeléshez használt statisztikai programot általában úgy kell paraméterezni, mintha 2 tényezős elrendezést használtunk volna (az adatokat is ennek megfelelően kell bevinni), de a kezelés hatása és a blokkhatás közötti interakciót kizárjuk és a blokkhatás szignifikanciáját nem vizsgáljuk. Az elrendezés így garantálja, hogy a kezelés hatása és a blokk-hatás szétválasztható. Így a szórásfelbontásban a blokk-hatásnak tulajdonítható szórás el van különítve a véletlen hibától, ez pedig erősebb tesztet eredményez. (Igaz viszont, hogy a kezelés × blokk interakció, amennyiben van ilyen, nem választható szét a véletlen hibától, de hát nem szabad telhetetlennek lenni.)
Ha nem egy, hanem 2 környezeti gradienst kell figyelembe vennünk, akkor a Latin négyzet elrendezést alkalmazhatjuk: Ugyanannyi sora és oszlopa van a rácsnak, és minden kezelés egyetlen egyszer szerepel minden oszlopban és minden sorban. Első hatás
Második hatás
E1 E2 E3 M1 K1 K3 K2 M2 K2 K1 K3 M3 K3 K2 K1
Látható, hogy a latin négyzet elrendezés akkor kivitelezhető könnyen, ha a zavaró változók folytonosak, mert ekkor könnyen hozhatunk létre belőlük épp a kezelések számával megegyező számú kategóriát.
A kiértékeléshez használt statisztikai programot itt általában úgy kell paraméterezni, mintha 3 tényezős elrendezést használtunk volna, és az adatokat is ennek megfelelően kell bevinni (lásd lent). Itt is kizárjuk az interakciókat, és itt sem vizsgáljuk a sor-, illetve oszlophatás szignifikanciáját.