Analysa rozptylu – ANOVA. 37
Kapitola VII. ANALYSA ROZPTYLU – ANOVA. Luděk Dohnal
Tato kapitola rozšiřuje téma testování statistické významnosti tím, že popisuje způsob současného porovnání více než dvou sad dat. Ukazuje, jak od sebe oddělit a posoudit různé příčiny odchylek. Přitom používá techniku známou pod označením "analysa rozptylu", což se obvykle zkracuje jako "ANOVA" (z anglického "analysis of variance"). Její aritmetika je celkem jednoduchá a současně může být nudná v případě, že je třeba zpracovat rozsáhlejší soubory dat. Naštěstí řada moderních tabulkových kalkulátorů (spreadsheets) má v sobě zabudované funkce analysy rozptylu, které umožňují provádět tyto výpočty relativně snadno (4). Uživatelsky nejsnadnější je postup v statistických programech. ANOVA je technika umožňující posouzení jednotlivých zdrojů variability v datech. U opakovaných měření existují vždycky nějaké odchylky. Tyto náhodné odchylky mohou způsobit, že se obtížně zjišťuje významnost rozdílů mezi skupinami replikátů (paralelních měření). Základní myšlenkou analysy rozptylu je v tomto případě, zda a jak může být v sadě výsledků paralelních stanovení statisticky rozpoznáno rozdělení do skupin (např. podle analytika, laboratoře, postupu atd.) Celkový rozptyl celé sady dat je dán kombinací rozptylů mezi skupinami a uvnitř skupin. ANOVA umožňuje separovat jednotlivé zdroje rozptylu a dílčí rozptyly vzájemně porovnat za účelem určení, zda jsou rozdíly mezi nimi (statisticky) významné. Nebo jinak, ANOVA nám umožňuje odpovědět na otázku, zda jednotlivé skupiny reprezentují výběry z jednoho základního souboru (tedy z téže populace). ANOVA je užitečná zejména při analyse dat získaných při plánovaných experimentech (experimental design). Ve srovnání s t-testem pro nezávislé střední hodnoty si ANOVA vystačí s menším množstvím výpočtů. 1. Varianty analysy rozptylu Existuje řada metod analysy rozptylu. Nejjednodušší z nich je tzv. jednofaktorová ANOVA (jednostupňová ANOVA, ANOVA s jednoduchým tříděním) anglicky označovaná jako one-way ANOVA. Použije se tehdy, jestliže přichází v úvahu pouze jeden faktor (který nabývá tří nebo více úrovní) a pro každou úroveň máme skupinu paralelních stanovení. Např. chceme zjistit, existuje-li statisticky významný rozdíl mezi p analytiky (analytik je "faktorem", p je "počet skupin"
respektive "počet úrovní - levels" faktoru analytik). Každý analytik provedl n paralelních stanovení (p skupin, každá o n hodnotách ,což je tzv. vyvážený experiment). Pro případ jednofaktorové ANOVA na dvou úrovních se problém redukuje na porovnání dvou výběrů (3). Dvoufaktorová analysa rozptylu (dvoustupňová ANOVA, ANOVA s dvojitým tříděním) anglicky označovaná jako two-way ANOVA se použije např. tehdy, jestliže výše uvedený příklad rozšíříme o druhý faktor, kterým bude např. koncentrace (tedy každý analytik provede n paralelních stanovení na každém z k vzorků, přičemž vzorky mají různé koncentrace analytu. Pro ještě složitější situace existují rovněž postupy pro multifaktorovou ANOVA (MANOVA) (1), jejich popis však přesahuje rámec této kapitoly. 2. ANOVA s jednoduchým tříděním (jednostupňová ANOVA, jednofaktorová ANOVA, one-way ANOVA) Použití jednofaktorové ANOVA bude ilustrováno jednak pomocí "ručního" výpočtu s použitím kalkulačky, jednak pomocí tabulkového kalkulátoru, který má zabudovanou příslušnou funkci. Tabulkový kalkulátor (spreadsheet) má m.j. tu vlastnost, že pomocí něj mohou být snadno konstruovány potřebné grafy. Šest analytiků v téže laboratoři stanovilo koncentraci olova stejnou metodou v témže vzorku půdy nezávisle na sobě. Každý analytik provedl tři paralelní stanovení. Výsledky jsou uvedeny v tab. VII.1. Jde nyní o to, zda rozdíly mezi analytiky jsou významné nebo zda jsou pouze důsledkem běžných náhodných odchylek. Celková variabilita v datech je dána kombinací rozptýlení výsledků jednoho každého analytika (within group variation) a rozptýlení mezi středními hodnotami výsledků různých analytiků (between group variation). Nejprve si naměřená data vyneseme do grafu (obr. VII.1) a prohlédneme, abychom zjistili, jak na tom vlastně jsme. Graf nám vždycky odhalí eventuelní "podivnosti" v datech. Vždycky je lépe eventuelní problémy s daty vyřešit před tím, než začneme s analysou rozptylu.
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 38 Nechť jsou výsledky označeny xik, přičemž i = 1, 2, ..., p; k = 1, 2, ..., n. Tyto výsledky jsou obvykle uspořádány do matice (tabulky) - viz obr. VII.2. Výsledky v každém sloupci jsou sečteny (poslední řádek na obr. VII.2) a tyto součty jsou rovněž vzájemně sečteny (poslední řádek vpravo na obr. VII.2).
Tabulka VII.1 Výsledky stanovení olova v půdě
analytik
Pb (mg/kg) aritmetický průměr
A
52, 49, 50
50.3
B
55, 54, 53
54
C
51, 52, 53
52
D
53, 55, 58
55.3
E
54, 52, 58
54.7
F
51, 53, 57
53.7
Tady je dobré poznamenat, že pokud bychom prováděli vícenásobný t-test, (např. A vs B, A vs C atd.), museli bychom v našem případě spočítat 15 thodnot, abychom mohli provést porovnání všech možných kombinací. Oproti porovnání pomocí analysy rozptylu by to bylo nejen pracnější a navíc z podstaty věci vyplývá, že pravděpodobnost nesprávného závěru pomocí t-testu roste s počtem vícenásobných t-testů. Klasický t-test by se měl používat pouze pro porovnání dvou výběrů. Správný způsob analysy dat v našem případě znamená použít analysu rozptylu.
Obrázek VII.2 Standardní tabulka dat pro analysu rozptylu
Máme-li tuto tabulku kompletní, vyčíslíme výrazy (1), (2) a (3).
58 Koncentrace olova, mg/kg
57 56
(1)
55
(2)
54 53 52 51 50 49 A
B
C
D
E
F
analytik
Obrázek VII.1 Rozptylový graf výsledků paralelních stanovení podle analytiků
3. Výpočet ANOVA s pomocí kalkulačky I když jsou výpočty, jak plyne z výše uvedeného, poměrně jednoduché, je vhodné používat jednotné uspořádání, aby se předešlo omylům. Způsob, který je následně popsán, se v praxi osvědčil. Nejprve popíšeme obecné řešení. Uvažujeme hodnoty jednoho faktoru, které jsou uspořádány do p různých skupin (např. podle analytika nebo podle vzorku) a předpokládáme, že v každé skupině je n měření, tedy celkem N výsledků, přičemž N = p . n. Cílem statistické analysy je určit, zda existují (statisticky významné) rozdíly mezi těmito p skupinami.
(3) Při ANOVA je mírou odchylek uvnitř skupin a mezi skupinami statistika, která se jmenuje "součet čtverců" (sum of squares, SS). Základní teze ANOVA říká, že celkový součet čtverců může být díky nahodilosti variací rozdělen na svoje komponenty. Komponentami jsou jednak součty čtverců uvnitř skupin (within groups) a dále komponenty odpovídající statistickým rozdílům mezi středními hodnotami jednotlivých skupin (between groups). Posledně jmenované se použijí pro testování statistické významnosti pomocí "průměrných čtverců" (mean squares, MS) s použitím jednoduchého F-testu, přičemž MS = SS/df kde df je počet stupňů volnosti, (degrees of freedom) a F = MSmezi skupinami / MSuvnitř skupin Doposud jsme předpokládali, že každá skupina obsahuje stejný počet paralelních stanovení (replikátů). V praxi to tak bohužel vždy není. I v takovém případě může být použita ANOVA, avšak výraz (1) musí být s ohledem na nestejný počet paralelních stanovení v jednotlivých skupinách ni nahrazen výrazem (4).
Analysa rozptylu – ANOVA. 39
(4) Současně v takovém případě (tzv. nevyváženého experimentu) se N (celkový počet všech stanovení) nemůže rovnat p . n a musí se vypočítat sečtením počtu replikátů ve všech skupinách, tedy
Součty čtverců se vypočtou z rovnic (1), (2) a (3) a zapíší spolu s příslušnými stupni volnosti (df) do tab. VII.2. Dále se vypočítají hodnoty "průměrných čtverců" (MS, mean squares) a koeficient F.
Tabulka VII.2 Jednofaktorová ANOVA - výpočty
zdroj variability
součet čtverců SS
mezi skupinami
S1=(i)-(iii)
uvnitř skupin celkem
počet stupňů volnosti df
průměrný čtverec MS
koeficient F
p-1
M1=S1/(p-1)
M1/M0
S0=(ii)-(i)
N-p
M0=S0/(N-p)
S1+S0=(ii)-(iii)
N-1
Nakonec se ve statistických tabulkách najde příslušná kritická hodnota koeficientu F (Fkrit ) a porovná se s vypočtenou hodnotou Fvyp. Za účelem testování, zda existuje rozdíl mezi skupinami, se formuluje nulová hypotéza H(0): neexistuje rozdíl mezi p skupinami výsledků (analytiky) a alternativní hypotéza H(1): existuje rozdíl mezi p skupinami výsledků, tedy přinejmenším mezi dvěma analytiky. K rozhodnutí, která z nich platí, se použije
výsledek F-testu. Jestliže Fvyp je menší než Fkrit, tedy vlastně "variabilita mezi skupinami je dostatečně malá oproti variabilitě uvnitř skupin", akceptuje se nulová hypotéza. V opačném případě se zamítne a přijme se hypotéza alternativní. S použitím dat z tab. VII.1 a způsobu na obr. VII.2 se získají hodnoty v tab. VII.3.
Tabulka VII.3 Data pro jednofaktorovou ANOVA - olovo v půdě
A
B
C
D
E
F
1 2 3
52 49 50
55 54 53
51 52 53
53 55 58
54 52 58
51 53 57
součty
151
162
156
166
164
161
Součty z tab. VII.3 teď použijeme k vyčíslení výrazů (1) až (3). (1) = 51251.33 (2) = 51310 (3) = 51200 (p = 6, n = 3, N = 18) Nyní můžeme sestavit tabulku výsledků jednofaktorové ANOVA - olovo v půdě (tab. VII.4.). Tabelovaná (kritická) hodnota koeficientu F na 95 % hladině spolehlivosti pro 5 a 12 stupňů volnosti je Fkrit = 3.106. Vypočtená hodnota Fvyp = 2.1. Poněvadž vypočtená je menší než kritická, přijme se nulová hypotéza a tedy závěr, že mezi analytiky neexistuje statisticky významný rozdíl. Pozorované rozdíly mezi průměrnými hodnotami stanovení jednotli-
960
vými analytiky jsou tedy vysvětlitelné náhodným kolísáním výsledků uvnitř skupin. Tabulka VII.4 Výsledky jednofaktorové ANOVA (olovo v půdě)
zdroj variability
SS
df
MS
F
mezi skupinami
51.33
5
10.2
2.1
uvnitř skupin
58.67
12
4.9
celkem
110
17
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 40 4. Výpočet ANOVA s pomocí tabulkového kalkulátoru (spreadsheetu) se zabudovanými funkcemi analysy rozptylu
Použitím rutin v Excelu v.7.0 - a také v Excelu 2000, doplněk Analytické nástroje - nazvaných ANOVA, (Nástroje/ Analýza dat/ Anova:jeden faktor) pro data z našeho příkladu (tab. VII.1) se získají výsledky uvedené v tab. VII.5.
Tabulka VII.5 Výsledky jednofaktorové ANOVA pomocí Excelu (olovo v půdě)
zdroj variability
SS
df
MS
F
p-hodnota
Fkrit
mezi skupinami
51.33
5
10.26
2.1
0.1357
3.1058
uvnitř skupin
58.66
12
4.88
110.00
17
celkem
V této tabulce je Fvyp - vypočtená hodnota F uvedena ve sloupci označeném F a kritická hodnota ve sloupci označeném Fkrit. Z jejich porovnání plyne už výše uvedený závěr. Kromě toho tabulka z Excelu
uvádí p-hodnotu, která je větší než je a=0.05 pro 95% hladinu spolehlivosti, protože F je menší než Fkrit. Excelovská tabulka obvykle uvádí Fkrit, takže tuto není třeba hledat ve statistických tabulkách.
Tabulka VII.6 Výstup z programu MedCalc, totožná data. Data : Pb Factor codes : Analytik Sample size
: 18
Source of variation Sum of squares D.F. Mean square ------------------------------------------------------------Between groups (influence factor) 51,3333 5 10,2667 Within groups (other fluctuations) 58,6667 12 4,8889 ------------------------------------------------------------Total 110,0000 17 ------------------------------------------------------------F-ratio : 2,100 Significance level : P = 0,136 -------------------------------------------------------------
5. Hranice možností analysy rozptylu Jestliže je zjištěn významný rozdíl mezi skupinami (středními hodnotami skupin), ANOVA neodpovídá na otázku, které střední hodnoty (jedna či více) jsou odlišné od celkového průměru ani na otázku, zda odlišnost je směrem k vyšším nebo k nižším hodnotám. Nejjednodušší způsob, jak to zjistit, je vynést data do grafu. Matematicky to lze zjistit metodou vícenásobného porovnání, např. Scheffeho procedurou (2, 5). 6. Předpoklady analysy rozptylu Při analyse rozptylu se předpokládá, že data každé proměnné mají normální (Gaussovské) rozdělení. Poněvadž v praxi máme většinou jenom několik paralelních měření, je obtížné zjistit eventuelní od-
chylku od normality pomocí statistických testů. Bylo ověřeno, že případy, kdy je rozdělení výrazně méně špičaté než normální, přitom ale souměrné, nemají většinou vliv na výsledek F-testu. Mnohem důležitější předpoklad pro použití ANOVA je, že rozptyly uvnitř jednotlivých skupin nejsou statisticky významně rozdílné, že jsou tedy rozdělení v jednotlivých skupinách tzv. homoskedastická. V praxi je bohužel častější případ, že rozptyly jsou významně rozdílné, skupiny jsou heteroskedastické. V takových případech F-test může ukazovat na statisticky významné rozdíly tam, kde žádné nejsou. Nejlepší způsob ověření homoskedasticity je grafické posouzení dat. ANOVA též předpokládá, že variabilita uvnitř skupin nekoreluje se střední hodnotou těchto skupin.
Analysa rozptylu – ANOVA. 41 Pokud tento předpoklad není splněn, může být ANOVA pro posouzení dat nevhodná. Z tohoto hlediska je vhodné dříve, než se začne s analysou rozptylu, vynést do grafu závislost rozptylů (nebo směrodatných odchylek) na průměrech jednotlivých skupin. 7. Shrnutí Smyslem analysy rozptylu je určit statistickou významnost rozdílů středních hodnot jednotlivých skupin dat. Toho se dosáhne pomocí analysy rozptylu dat rozdělením celkového rozptylu na část způsobenou náhodnou odchylkou uvnitř skupin a na části způsobené rozdíly mezi středními hodnotami skupin. Tyto oddělené složky jsou pak porovnány pomocí testu pro poměr rozptylů (F-test). Jestliže test poměru rozptylů je významný, zamítáme nulovou hypotézu, která je obvykle formulována takto: střední hodnoty skupin se vzájemně neliší (jejich rozdíly jsou nulové) a současně přijímáme alternativní hypotézu, která říká, že rozdíly mezi středními hodnotami skupin nejsou nulové.
LITERATURA 1. Mardia, K.V., Kent, J.T., Bibby, J.M.: Multivariate Analysis, Academic Press, ISBN 0-12-471252-5 (1979) 2. Snedecor, G.W., Cochran, W.G.: Statistical Methods, 6th edition, The Iowa State University Press, USA, ISBN 0-8138-1560-6 (1978) 3. S. Burke: Statistics in context: Significance testing, VAM Bulletin, issue No 17, 18-21, Automn 1997, český překlad L.Dohnal, Testování statistické významnosti, Fons, 1999, č.1, s. 46-50. 4. Burke, S., Hardcastle, B.: Statistics in context: Analysis of Variance (ANOVA). VAM Bulletin, issue No. 20, 28-31, Spring 1999, český překlad L.Dohnal, Analysa rozptylu - ANOVA, Fons, 1999, č.4, s. 21-25. 5. Meloun, M., Militký, J.: Statistické zpracování experimentálních dat, East Publishing, Praha, 1996, 850 s.
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 42
Obrázek VIII.4 Úskalí testů na odlehlé hodnoty - převzato z práce (14).
Obrázek VIII.5 Různé druhy odlehlých hodnot ve skupinách dat - převzato z práce (14).