ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)
Používá se buď jako samostatná technika, nebo jako postup, umožňující analýzu zdrojů variability v lineární regresi. Př. použití: • k porovnání středních hodnot (průměrů) více než 2 souborů, • určení vlivu způsobu přípravy vzorků (několika způsobů), • zpracování mezilaboratorních porovnávacích zkoušek (MPZ). Porovnání shody více než dvou metod stanovení analytu, účinek více než dvou léčiv na dané onemocnění, porovnání účinku více než dvou hnojiv na výnos, atd. PODSTATA: rozklad celkového rozptylu na rozptyl vyvolaný vlivem jednotlivých faktorů (známé zdroje variability) a složku náhodnou (neobjasněnou), o níž se předpokládá, že je náhodná. Předmětem testování je statistická významnost poměru mezi rozptylem způsobeným faktorem (MSA) náhodným rozptylem (MSR). Pokud máme 1 faktor, mluvíme o jednofaktorové ANOVě, máme-li 2 faktory, jde o dvoufaktorovou ANOVu, apod. Základní předpoklady pro (jednofaktorovou) analýzu rozptylu: • data pocházejí z normálního rozdělení, • náhodné chyby εij jsou náhodné veličiny s N(0, σ2), • rozptyly sloupců dat (úrovní faktoru) jsou stejné (homoskedasticita).
Jednofaktorová ANOVA Formulace modelu: sleduje se faktor A na k úrovních A1, …, Ak; na každé úrovni je provedeno ni měření (celkový počet měření označujeme N). Model ANOVA má tvar: xij = µ + αi + εij jednotlivé parametry se odhadují pomocí odpovídajících aritmetických průměrů, a to následovně: µ … celkový aritmetický průměr všech hodnot v matici x , αi … efekt i-té úrovně faktoru A, αi = µi - µ, kde µi je sloupcový průměr
xi .
Jednofaktorová ANOVA porovnává střední hodnoty (průměry) dvou či více úrovní faktoru A čili sloupců v matici dat za účelem určit, zda alespoň jedna sloupcová střední hodnota se liší od ostatních. Statistická významnost je testována F-testem tak, že H0 říká „Všechny střední hodnoty jsou stejné“ a H1 „Alespoň jedna střední hodnota se odlišuje od ostatních“. ACH/CHEX1
© David MILDE
1
xij = x + ( xi − x ) + ( xij − xi )
[
( xij − x ) 2 = ( xi − x ) + ( xij − xi )
]
2
sumací přes i a j získáme následující rovnici, ve které je poslední člen = 0
∑∑ ( x − x) = ∑∑ ( x − x) + ∑∑ ( x − x ) + 2∑∑ ( x − x)( x − x ) , 2
2
ij
i
j
2
i
i
ij
j
i
i
j
i
i
ij
i
j
S0 = SA + SR S0 … součet čtverců odchylek od celkového průměru: T2 2 S0 = ∑∑ ( xij ) − = S A + SR , kde N i j SA představuje rozptyl mezi jednotlivými úrovněmi faktoru A:
Ti 2 T 2 SA = ∑ ( ) − N i =1 ni k
SR je reziduální (zbytkový) rozptyl uvnitř jednotlivých úrovní a vypočte se jako rozdíl S0 – SA. Odhadem rozptylu chyb σ2ε je průměrný reziduální čtverec MSR:
MSR =
SR N −k
T … součet všech hodnot v matici Ti … sloupcové součty Formulace hypotéz: H0: αi = 0; H1: αi ≠ 0 Testační statistika FA (pro faktor A): SA MS A (k − 1) FA = = MS R S R (N − k)
Při platnosti H0 má FA statistika F-rozdělení s (k-1, N-k) stupni volnosti. Vyjde-li FA větší než kvantil F(krit)(1-α, k-1, N-k), je nutné H0 na hladině významnosti α zamítnout a vliv úrovní faktoru αi je nenulový. Ilustrační příklad ANOVA– stanovení obsahu NaCl v chipsech:
ACH/CHEX1
© David MILDE
2
Tabulka výsledků (% Na) v chipsech: Lupínek 1 1. stanovení 0,324 2. stanovení 0,311 3. stanovení 0,352 Aritm. průměr 0,329 Směrodatná odchylka 0,021 Sloupcový součet 0,987
Lupínek 2 0,455 0,467 0,448 0,457 0,0096 1,37
Lupínek 3 0,420 0,463 0,424 0,436 0,0238 1,307
Lupínek 4 0,447 0,377 0,398 0,407 0,0359 1,222
N = 12; počet úrovní faktoru k = 4; n = 3
GRAFY (V QC EXPERTU) • GRAF ANOVA – zobrazuje polohu měřených dat v jednotlivých úrovních. Lze vizuálně posoudit rozdíly a rozptyl. • KRABICOVÝ GRAF – zobrazí se pro každou úroveň faktoru; k identifikaci OB. Základní předpoklady (normalitu) lze ověřit: • Testem normality • Q-Q graf Jackknife reziduí (odchylek od celkového průměru) – v případě normálního rozdělení vznikne v grafu lineární závislost s nulovým úsekem a jednotkovou směrnicí. ACH/CHEX1
© David MILDE
3
VÍCENÁSOBNÉ POROVNÁVÁNÍ (MULTIPLE COMPARSION PROCEDURE – MCP) • Když ANOVA určí, že faktor A je statisticky významný, je možné nalézt úrovně faktoru A, které se významně liší od ostatních. SCHEFFEHO POROVNÁNÍ Vyšetřuje všechna možná porovnání k sloupcových průměrů. Princip spočívá v testování významnosti rozdílů jednotlivých sloupcových průměrů. Např.:
x1 − x2 ≅ 0 x2 − x3 ≅ 0 a sledujeme zda IS jednotlivých rozdílů obsahují 0.
Testační kriterium má následující podobu: xi − x j ≥ (k − 1) Fkrit ( k −1, N − k ) 1 1 s 2 + ni n j
ACH/CHEX1
© David MILDE
4
Dvoufaktorová ANOVA Provádí se experimenty na různých úrovních dvou faktorů A a B. Kombinace úrovní faktoru tvoří mřížkovou strukturu jejímž elementem je tzv. cela. Platí že cela [ij] odpovídá i-té úrovní faktoru A a j-té úrovni faktoru B. V každé cele je obecně nij opakování. • Pokud je v každé cele jen 1 opakování = ANOVA bez opakování (2P). • Pokud je v každé cele více než jedno opakování, ale ve všech celách stejný počet = vyvážená dvoufaktorová ANOVA (2B). • Pokud je v každé cele více než jedno opakování, a počet se v celách liší = nevyvážená dvoufaktorová ANOVA (2U). Podrobněji se budeme zabývat pouze ANOVou 2P. Tabulka pro ANOVA 2P: B1 A1 A2 … Ak
B2
…
Bm
A2B2
αi … vliv i-té úrovně faktoru A βj … vliv j-té úrovně faktoru B
xij = µ + αi + βj + εij
S0 = SA + SB + SR
S0 = ∑∑ ( xij2 ) − i
T2 SA = ∑ ( Zi ) − m i =1 N 1
k
2
j
T2 , kde N = k⋅m N
T2 SB = ∑ (Ti ) − k i =1 N 1
m
2
SA představuje rozptyl mezi jednotlivými úrovněmi faktoru A, SB pak mezi úrovněmi faktoru B. Význam S0 a SR je stejný jako u jednofaktorové ANOVy. Zi … součet hodnot v i-té úrovni faktoru A (řádkový součet) Tj … součet hodnot v j-té úrovni faktoru B (sloupcový součet) Formulace hypotéz: H0: αi = 0 a βj = 0 (efekty úrovní faktorů A a B jsou nevýznamné) H1: αi ≠ 0 a βj ≠ 0 (efekty úrovní faktorů A a B jsou významné) ACH/CHEX1
© David MILDE
5
Testovací kritéria:
MS A FA = = MSR SR
SA
k −1
(k − 1)(m − 1)
MSB FB = = MSR SR
SB
m −1
(k − 1)(m − 1)
Za předpokladu platnosti H0 má testační charakteristika FA Fisher-Snedecorovo rozdělení s (k-1) a (k-1)(m-1) stupni volnosti a testační charakteristika FB s (m-1) a (k-1)(m-1) stupni volnosti. INTERAKCE FAKTORŮ Rozptyl může být kromě efektu faktorů A a B ovlivněn i interakčním členem τij, který je důsledkem různých kombinací řáskových a sloupcových efektů. Tzn., že efekty faktorů A a B nejsou ve svém vlivu na každý výsledek xij nezávislé. xij = µ + αi + βj + τij + εij Obvykle se užívá Tukeyův model interakce τij = C⋅αi⋅βj, kde C je konstanta určovaná jako směrnice přímky v grafu závislosti reziduí na αi⋅βj/µ. Formulace hypotéz: H0: τij = 0; H1: τij ≠ 0
ACH/CHEX1
© David MILDE
6
NEPARAMETRICKÉ TESTY V ANOVA KRUSKAL-WALLISŮV TEST • Tento test je rozšířením Wilcoxonova testu pro porovnání mediánů více než dvou náhodných výběrů. • Je alternativou pro jednofaktorovou ANOVA. • Předpoklady pro použití: o rozdělení souborů (úrovní faktoru) musí být stejné, o rozptyly souborů (úrovní faktoru) musí být stejné. Formulace hypotéz: H0: „mediány všech úrovní faktoru jsou stejné“ H1: „alespoň jeden medián se liší od ostatních“ POSTUP: 1. Všechny hodnoty v matici seřadíme od nejmenší do největší a přiřadíme jím pořadová čísla (včetně průměrných pořadí pro stejné hodnoty). 2. Pro každý výběrový soubor (úroveň faktoru) vypočítáme sumu pořadí R1, R2, ..., Rk (k je počet výběrových souborů – úrovní faktoru). 3. Určíme celkový rozsah výběru N = n1 + n2 + ... + nk, kde ni, … označuje počet hodnot pro každou úroveň faktoru. 4. Vypočteme testovací charakteristiku χ2exp pomocí následujícího vztahu: 2 χ Kru =
12 k Ri2 ∑ ( ) − 3( N +1) N 2 + N i =1 ni
5. Porovnáváme s kritickou hodnotou χ2krit(0,95) s k - 1 stupni volnosti. Srovnání s hodnotou χ2 rozdělení je možné použít, pokud je N > asi 15!
FRIEDMANŮV TEST • Je neparametrickým testem pro dvoufaktorovou analýzu rozptylu (2P), faktor A má k úrovní a faktor B má m úrovní. • POSTUP: totožný s Kruskal-Wallisovým testem, Rj jsou sumy pořadí sloupců. Matice dat by měla být použita tak, aby rozptyl v řádcích byl menší než ve sloupcích (lze řešit záměnou faktorů – otočením matice).
χ Fri 2
m 12 ( R2j ) − 3k (m + 1) = ∑ km (k +1) j =1
Porovnáváme s kritickou hodnotou χ2krit(0,95) s m - 1 stupni volnosti, pokud je k.m > 15. ACH/CHEX1
© David MILDE
7