MASARYKOVA UNIVERZITA • PŘÍRODOVĚDECKÁ FAKULTA
BAKALÁŘSKÁ PRÁCE
Dvouvýběrové parametrické a neparametrické testy
Brno 2005/2006
Zuzana Berná
Prohlášení Prohlašuji, že jsem tuto bakalářskou práci vypracovala samostatně za odborného vedení RNDr. Marie Budíkové, Dr. Dále prohlašuji, že veškeré podklady, ze kterých jsem čerpala, jsou uvedeny v seznamu literatury. V Brně dne 8. května 2006 Zuzana Berná
1
Poděkování Děkuji tímto paní RNDr. Marii Budíkové, Dr. za odborné vedení bakalářské práce, cenné rady a připomínky, stejně tak za materiály a především čas, který mi věnovala.
2
Obsah Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1 Testy normality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1 Testování normality pomocí šikmosti a špičatosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.1 Test založený na šikmosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.2 Test založený na špičatosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.3 Test založený na šikmosti a špičatosti zároveň . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Posouzení normality pomocí normálního diagramu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Testování normality pomocí software STATISTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.1 Kolmogorův-Smirnovův test (K-S test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.2 Shapirův-Wilkův test normality (S-W test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.3 Normal probability plot (N-P plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.4. Quantile-Quantile plot (Q-Q plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.5 Krabicový diagram (Box plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Párové testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1 Parametrické párové testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.1 Párový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.2 Morganův-Pitmanův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.3 Test hypotézy H 0 : µ x = µ y ,σ X2 = σ Y2 proti H 1 : µ x ≠ µ y , σ X ≠ σ Y . . . . 18 2
2
2.1.4 Provedení testů s pomocí software STATISTICA . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 Neparametrické párové testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.1 Jednovýběrový Wilcoxonův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.2 Znaménkový test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.3 Provedení testů s pomocí software STATISTICA . . . . . . . . . . . . . . . . . . . . . . . 22 3 Dvouvýběrové testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1 Parametrické dvouvýběrové testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1.1 Testování rovnosti středních hodnot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1.1.1 Dvouvýběrový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1.1.2 Test Cochranův-Coxův . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.1.3 Aspinové-Welchův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.1.4 Satterthwaiteův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.2 Test shodnosti dvou rozptylů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.2.1 Fisherův F test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.2.2 Levenův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.3 Provedení testů s pomocí software STATISTICA . . . . . . . . . . . . . . . . . . . . . . . 29 3.2 Neparametrické dvouvýběrové testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.1 Dvouvýběrový Wilcoxonův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.2 Waldův-Wolfowitzův test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Dvouvýběrový Kolmogorův - Smirnovův test . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.4 Provedení testů s pomocí software STATISTICA . . . . . . . . . . . . . . . . . . . . . . . 34 4 Permutační testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.1 Permutační test pro dva závislé výběry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.2 Provedení permutačních testů pomocí software R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2.1 Párový permutační test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2.2 Permutační test pro dva nezávislé výběry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.3 Porovnání p-hodnot získaných permutačním testem a klasickým t-testem . . . . . . . . . . . . 40 Tabulky kritických hodnot pro neparametrické testy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Označení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Použitá literartura a zdroje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3
Úvod Cílem mé bakalářské práce na téma “ Dvouvýběrové parametrické a neparametrické testy“ je seznámit čtenáře s metodami, kterými lze testovat hypotézy o středních hodnotách nebo mediánech dvou rozdělení, jimiž se řídí dva nezávislé náhodné výběry resp. jeden náhodný výběr z dvourozměrného rozdělení. V každé kapitole jsou uvedeny předpoklady provedení jednotlivých testů, jejich teoretická konstrukce, dále způsob provedení daného testu pomocí vhodného software (STATISTICA, R) a v závěru kapitoly jsou testy demonstrovány na konkrétních příkladech, které pracují s reálnými daty z ekonomické praxe. Jedná se o hodnoty makroekonomických agregátů za rok 2003 v 15 zemích Evropské unie a 10 zemích, které přistoupily k EU v roce 2004. Při ukázkách testů se často porovnávají data všech 25 zemí (nepracujeme tedy s náhodným výběrem, ale s celým základním souborem). Důvodem je jednak velmi malý rozsah dat, která máme k dispozici (maximálně 25), a také skutečnost, že hlavním cílem bylo na těchto datech demonstrovat provedení daných testů a nikoliv vyvozování konkrétních závěrů např. pro úrovně ekonomik zemí. Jak již bylo uvedeno, k testování jsou použity software STATISTICA a R. STATISTICA je komerční statistický programový systém, na který Masarykova univerzita vlastní multilicenci. R je jazyk a prostředí pro statistické výpočty a grafiku. Jedná se o volně šířitelný software, který je možné stáhnout například na stránkách http://www.r-project.org/. První kapitola této práce ukazuje způsoby testování normality výběrů, což je nutný předpoklad k provedení tzv. parametrických testů. Druhá kapitola uvádí metody párového testování (tedy testování dvou navzájem závislých výběrů). Ve třetí kapitole jsou uvedeny metody dvouvýběrových testů (pro nezávislé výběry). Čtvrtá kapitola se zabývá tzv. permutačními testy. Na závěr jsou přiloženy tabulky kritických hodnot pro vybrané neparametrické testy (tabulky kvantilů či kritických hodnot pro parametrické testy je možné nalézt například v uvedené literatuře, stejně jako v mnoha dalších publikacích zabývajících se pravděpodobností a matematickou statistikou) a seznam použitých označení.
4
1 Testy normality Při rozhodování o tom, který test použijeme pro porovnávání dvou výběrových souborů, hraje důležitou roli skutečnost, zda dané výběry pocházejí z normálního rozdělení, či nikoliv. K ověření této skutečnosti můžeme využít několika způsobů:
1.1 Testování normality pomocí šikmosti a špičatosti
Při tomto testu vycházíme z předpokladu, že pochází-li výběr z normálního rozdělení, pak pro jeho šikmost a3 a špičatost a 4 platí, že mají asymptoticky normální rozdělení s parametry 6 E (a3 ) = 0 , E (a 4 ) = 3 − n +1
D (a 3 ) =
6(n − 2) 24n(n − 2 )(n − 3) a D (a 4 ) = . (n + 1)(n + 3) (n + 1)2 (n + 3)(n + 5)
Šikmost a špičatost vypočteme pomocí následujících vzorců: kde mk =
a3 =
1 ( xi − x )k , k = 0,1,... je centrální moment k-tého řádu ∑ n
m3 , s3
a4 =
m4 , s4
1 ( xi − x )2 je směrodatní odchylka. ∑ n
a s=
1.1.1 Test založený na šikmosti Testujeme nulovou hypotézu H 0 o normalitě výběru proti hypotéze H 1 , že výběr pochází z nějakého nesymetrického rozdělení. Postupujeme v závislosti na velikosti rozsahu n : Pro n ≤ 25 nalezneme kritické hodnoty ve článku Mulholland: On the null distribution of b1 for samples of size at most 25 with tables (1977); pro n > 25 v tabulkách Pearson a Hartley: Biometrika Tables for Statisticians (1956, 1972). Pro n ≥ 200 můžeme využít asymptotické normality. a3 . Vypočteme U 3 = D (a 3 )
V případě, že U 3 ≥ u1−α , zamítáme H 0 . 2
D´Agostino a kol. test provádějí s pomocí výpočtu dalších veličin:
b=
(
)
3 n 2 + 27 n − 70 (n + 1)(n + 3) , (n − 2)(n + 5)(n + 7 )(n + 9 )
W 2 = 2(b − 1) − 1 ,
5
δ =
1 , ln W
2 U U3 3 Z 3 = δ ln + + 1 . a a Pro n > 8 má Z 3 přibližně rozdělení N (0,1) . H 0 tedy zamítáme v případě, že Z 3 ≥ u1−α .
2 a= , 2 W −1
2
1.1.2 Test založený na špičatosti Test proti hypotéze H 1 , že výběr se liší špičatostí, je založen na veličině a 4 . Opět postupujeme v závislosti na rozsahu výběru: Kritické hodnoty pro n ≥ 50 nalezneme v tabulkách Pearson a Hartley (1956, 1972) a v knize D´Agostino a Stephens: Goodness-of-fit Techniques (1986). Pro n ≥ 500 můžeme využít limitních výsledků. a − E (a 4 ) . Vypočteme U 4 = 4 D(a 4 )
α H 0 zamítáme v případě, že U 4 ≥ u . 2
D´Agostino a kol. dále vypočítají B=
(
) 6(n + 3)(n + 5) ,
6 n 2 − 5n + 2 (n + 7 )(n + 9 )
2 1− − 9A 3
n(n − 2 )(n − 3)
1− 1+U4
A=6+
2 A
82 4 + 1+ 2 , B B B
2 A−4
. 2 9A Veličina Z 4 má přibližně rozdělení N (0,1) . Pro n ≥ 20 můžeme využít aproximace normálním rozdělením a v případě, že Z 4 ≥ u1−α zamítneme hypotézu o normalitě rozdělení.
Z4 =
2
1.1.3 Test založený na šikmosti a špičatosti zároveň Tento test je založen na veličině U 32 + U 42 .
Hypotézu o normalitě zamítáme, pokud U 32 + U 42 ≥ χ 12−α (2 ) . Tento postup se ovšem doporučuje pouze pro výběry o rozsahu n ≥ 200 . Pro n ≥ 20 můžeme ale použít test založený na Z 32 + Z 42 . V případě, že vyjde Z 32 + Z 42 ≥ χ 12−α (2) , zamítáme nulovou hypotézu o normalitě výběru.
Poznámka 1.1. V [1] jsou uvedeny ještě další testy, k jejich provedení jsou ale třeba speciální tabulky.
6
1.2 Posouzení normality pomocí normálního diagramu
Dalším způsobem, jak posoudit normalitu výběru, je sestrojení normálního diagramu (normal probability plot). Sestrojíme graf tak, že do dvourozměrného systému souřadnic i −1 zaneseme body Φ −1 , x (i ) , kde Φ ( p ) je kvantilová funkce standardizovaného n +1 normálního rozdělení. Pro tuto funkci platí P Z ≥ Φ −1 ( p ) = p (funkční hodnota Φ −1 ( p ) omezuje shora náhodnou veličinu Z ~ N (0,1) s pravděpodobností p ) a je totožná s inverzní funkcí k distribuční funkci Φ( x ) . Použijeme-li pro sestrojení tohoto grafu data z normálního rozdělení, výsledné body budou soustředěné kolem diagonální přímky. Konvexní uspořádání bodů ukazuje na kladnou šikmost souboru a konkávní na šikmost zápornou. Při posuzování normality více (v našem případě dvou) výběrů je třeba sestrojit normální diagram pro každý výběr zvlášť.
(
)
1.3 Testování normality pomocí software STATISTICA
V programu STATISTICA můžeme normalitu výběru testovat následujícími způsoby:
1.3.1 Kolmogorův-Smirnovův test (K-S test) K-S test testuje nulovou hypotézu H 0 říkající, že výběr X 1 ,..., X n pochází z rozdělení s distribuční funkcí Φ( x ) . Označíme Fn ( x ) výběrovou distribuční funkci a vypočteme
testovou statistiku Dn = sup Fn ( x) − Φ( x) . V případě, že Dn ≥ Dn (α ) , kde Dn (α ) je
tabelovaná kritická hodnota, zamítáme H 0 na hladině α . K-S test ve STATISTICE nám poskytuje hodnotu testové statistiky (ozn. d) a dvě p-hodnoty. První z nich použijeme v situaci, kdy předem známe parametry µ a σ 2 a druhou, označenou Liliefors p, pokud parametry neznáme. Pokud se ve výstupu objeví hlášení p = n.s. (=non significant), pak H 0 nezamítáme na hladině α . Ve STATISTICE uložíme pozorovaná data do sloupce a ten označíme např. X. Z Menu vybereme Statistics – Basic statistics / Tables – Descriptive statistics. Jako Variables vybereme X, dále Normality, kde zaškrtneme Kolmogorov-Smirnov & Liliefors test for normality a klikneme na Frequency tables. Výstupem je tabulka obsahující hodnotu testové statistiky d a p-hodnotu. −∞< x<∞
1.3.2 Shapirův-Wilkův test normality (S-W test) S-W test testuje hypotézu, že náhodný výběr X 1 ,..., X n pochází z normálního
(
)
rozdělení s parametry N µ ,σ 2 , a to na základě zjištění, zda body Q-Q grafu (viz níže) se významně odlišují od regresní přímky proložené těmito body. Ve STATISTICE postupujeme stejně jako při K-S testu, jen v posledním kroku zaškrtneme Shapiro – Wilk´s test – Frequency tables. Ve výsledné tabulce je tentokrát uvedena hodnota testové statistiky W a příslušná p-hodnota. 7
1.3.3 Normal probability plot (N-P plot)
Konstrukce N-P plotu ve STATISTICE je snadná: Z Menu vybereme Graphs – 2D Graphs – Normal Probability Plots – Variables X (jméno sloupce s daty k testování). Výsledný obrázek dokážeme interpretovat na základě teoretických znalostí z předešlé kapitoly.
1.3.4. Quantile-Quantile plot (Q-Q plot)
Pomocí Q-Q plotu můžeme graficky posoudit, zda data pocházejí z nějakého známého rozdělení. Ve STATISTICE máme na výběr hned z několika typů rozdělení, my se ale spokojíme s normálním. Teoretická konstrukce probíhá tak, že na svislou osu zaznamenáváme hodnoty x(1) ,..., x(n ) (což jsou naměřené hodnoty x1 ,..., x n uspořádané vzestupně podle
velikosti) a na vodorovnou osu kvantily uα j , kde α j =
j − r adj
n + n adj
. Veličiny radj a nadj jsou
korigující faktory ≤ 0,5, implicitně nesoucí hodnoty radj = 0,375 a nadj = 0,25. V případě, že jsou některé hodnoty x(1) ≤ ... ≤ x(n) shodné, za j bereme průměrné pořadí odpovídající této skupince. Body uα j ( X ), x ( j ) metodou nejmenších čtverců proložíme přímku. Čím méně se
(
)
body odchylují od této přímky, tím je lepší soulad mezi empirickým a normálním rozdělením. Ve STATISTICE postupujeme podobně jako při konstrukci N-P plotu: Z dvourozměrných grafů vybereme Quantile-Quantile plots, zaškrtneme Normal a vybereme proměnnou (název sloupce dat, jejichž rozdělení chceme ověřit). Výsledný obrázek je podobný N-P plotu a můžeme z něj opět posoudit shodu „našeho“ rozdělení s normálním.
1.3.5 Krabicový diagram (Box plot)
Naše testy můžeme doplnit ještě sestrojením krabicových diagramů. Ty se často používají při porovnávání dvou či několika souborů dat a je možné z nich vyčíst zajímavé vlastnosti souborů, jako jejich symetrii a variabilitu nebo existenci odlehlých či extrémních hodnot. Krabicový diagram sestrojíme následovně: umístění jeho dvou protilehlých stran bude určeno hodnotami dolního a horního kvartilu, střední příčku sestrojíme na úrovni mediánu. Tykadla vybíhající ven z obdélníku budou sahat k nejvzdálenějšímu pozorování, které není od bližšího kvartilu vzdáleno více než délku jedenapůlnásobku kvartilového rozpětí (tzv. vnitřní hradba). Existují-li nějaká vzdálenější pozorování, vyznačíme je zvlášť jako odlehlá pozorování. V případě, že některá hodnota leží za tzv. vnější hradbou (je ve vzdálenosti trojnásobku kvartilového rozpětí od bližšího kvartilu), označíme ji jako extrémní hodnotu. Ve STATISTICE opět vybíráme z nabídky dvourozměrných grafů – Box plots. Do Dependent variable vložíme název našeho sloupce dat. Dále pro data pocházející z normálního rozdělení zaškrtneme, že chceme sestrojit Box plot se střední příčkou v průměru (mean) a v případě dat z jiného rozdělení vybereme medián (median). Z výsledného obrázku můžeme vyčíst jednak vlastnosti obou výběrů a také, jak jsou si podobné navzájem. Poznámka 1.2. Ještě si připomeňme výpočet jednotlivých charakteristik použitých při konstrukci box plotu:
8
Definice. Medián ~ x udává co do velikosti prostřední hodnotu výběru a definujeme ho
x n +1 2 ~ x = 1 x n + x n 2 +1 2 2
pro n liché pro n sudé.
Dále pro 0 < p < 1 definujme 100p-percentil: Nechť k = [np ] , kde část čísla. Potom percentil x p je dán vztahem x(k +1 ) xp = 1 (x(k ) + x(k +1) ) 2
[]
je symbol pro celou
pro k ≠ np , pro k = np .
Medián je speciálním případem percentilu pro p = 0,5 . Při volbě p = 0,25 získáme dolní kvartil a při p = 0,75 horní kvartil. Rozdíl horního a dolního kvartilu nazýváme kvartilové rozpětí. Testování normality pomocí STATISTIKY si budeme demonstrovat na dvou příkladech: Data 1.1. Míra inflace v % za r. 2003.
Máme k dispozici hodnoty procentní míry inflace za rok 2003 v 15 zemích EU před vstupem 10 nových zemí v roce 2004 a těchto nově přistoupivších zemí. Data jsou uvedena v následující tabulce: Míra inflace v % za rok 2003 Belgie 1,5 Česká republika Dánsko 2,0 Estonsko Finsko 1,3 Kypr Francie 2,2 Litva Irsko 4,0 Lotyšsko Itálie 2,8 Maďarsko Lucembursko 2,5 Malta Německo 1,0 Polsko Nizozemsko 2,2 Slovensko Portugalsko 3,3 Slovinsko Rakousko 1,3 Řecko 3,4 Spojené království 1,4 Španělsko 3,1 Švédsko 2,3
-0,1 1,4 4,0 -1,1 2,9 4,7 2,5 0,7 8,5 5,7
Vložíme hodnoty do STATISTIKY a podle předcházejícího návodu provedeme K-S test a S-W test a sestrojíme diagnostické grafy.
9
Pro prvních 15 zemí nám STATISTICA vrátila následující p-hodnoty a hodnoty testových statistik: Frequency table: Mira inflace EU 15 (mira_inflace_EU) Lilliefors p> .20 Shapiro-Wilk W=,95499, p=,60615
Jelikož obě p-hodnoty jsou větší než 0,05, na dané hladině významnosti nezamítáme nulovou hypotézu o normalitě rozdělení výběru. Tento výsledek dále ověříme sestrojením N-P plotu a Q-Q plotu. Na obrázcích 1.1 a 1.2 můžeme pozorovat, že naměřená data se skutečně nijak výrazně neodchylují od osy kvadrantu, což svědčí pro naši hypotézu. Stejně tak vypočteme hodnoty testových statistik a p-hodnoty pro jednotlivé testy pro 10 nových zemí EU: Frequency table: Mira inflace EU 10 (mira_inflace_EU) Lilliefors p> .20 Shapiro-Wilk W=,97639, p=,94297
Na základě zjištěných hodnot opět nezamítáme nulovou hypotézu o normalitě rozdělení a stejně jako v předchozím případě se ještě „ujistíme“ sestrojením N-P a Q-Q plotu (obrázky 1.3 a 1.4). Na závěr ještě sestrojíme krabicové diagramy pro oba výběry, pomocí nichž můžeme vizuálně porovnat jejich rozdělení (obrázek 1.5 ).
2,0
Normal Probability Plot of Mira inflace EU 15 (mira_inflace_EU 2v*15c)
1,5
Expected Normal Value
1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
Observed Value
Obrázek 1.1: N-P plot: Míra inflace v % v roce 2003 v zemích EU 15
10
Quantile-Quantile Plot of Mira inflace EU 15 (mira_inflace_EU 2v*15c) Distribution: Normal
0,05
4,5
0,10
Mira inflace EU 15 = 2,2851+0,9297*x 0,25
0,50
0,75
0,90
0,95
4,0
Observed Value
3,5 3,0 2,5 2,0 1,5 1,0 0,5 -2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Theoretical Quantile
Obrázek 1.2: Q-Q plot: Míra inflace v % v roce 2003 v zemích EU 15
Normal Probability Plot of Mira inflace EU 10 (mira_inflace_EU 2v*15c)
2,0 1,5
Expected Normal Value
1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0
-2
0
2
4
6
8
10
Observed Value
Obrázek 1.3: N-P plot: Míra inflace v % v roce 2003 v nových 10 zemích EU
11
Quantile-Quantile Plot of Mira inflace EU 10 (mira_inflace_EU 2v*15c) Distribution: Normal
10
0,05
0,10
Mira inflace EU 10 = 2,92+3,0535*x 0,25
0,50
0,75
0,90
0,95
8
Observed Value
6 4 2 0 -2 -4 -2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Theoretical Quantile
Obrázek 1.4: Q-Q plot: Míra inflace v % v roce 2003 v nových 10 zemích EU
10
Box Plot (mira_inflace_EU 4v*15c)
8
6
4
2
0
-2
Mira inflace EU 15 Mira inflace EU 10
Mean ±SE ±SD Outliers Extremes
Obrázek 1.5: Krabicové diagramy pro míru inflace v % v roce 2003 pro 15 zemí EU i nově vstoupivších 10
12
Data 1.2. HDP na 1 obyvatele v tržních cenách za rok 2003.
Nyní budeme pracovat s hodnotami HDP na 1 obyvatele v tržních cenách za rok 2003 v 15 + 10 zemích EU. HDP na 1 obyvatele v tržních cenách za rok 2003 Belgie 25 900 Česká republika 15 420 Dánsko 27 310 Estonsko 10 560 Finsko 24 580 Kypr 18 840 Francie 25 270 Litva 10 660 Irsko 29 360 Lotyšsko 8 940 Itálie 23 900 Maďarsko 13 370 Lucembursko 46 370 Malta 16 680 Německo 24 050 Polsko 10 340 Nizozemsko 26 630 Slovensko 11 740 Portugalsko 16 740 Slovinsko 17 200 Rakousko 26 990 Řecko 17 800 Spojené království 26 490 Španělsko 21 250 Švédsko 25 360
Opět vložíme hodnoty do STATISTIKY. Nejprve otestujeme normalitu HDP naměřeného v zemích EU 15. V K-S a S-W testu jsme získali následující hodnoty: Frequency table: HDP EU 15 (HDP_v_EU) Lilliefors p<,01 Shapiro-Wilk W=,76571, p=,00138
Jelikož výsledné p-hodnoty jsou příliš malé, zamítáme tentokrát hypotézu o normalitě výběru. V tomto závěru se ještě utvrdíme sestrojením N-P a Q-Q plotu (obrázky 1.6 a 1.7). Především v N-P plotu můžeme vysledovat, že naměřené hodnoty jsou skutečně v okolí osy kvadrantu rozptýleny velice nepravidelně. Dále otestujeme druhý výběr, zbývajících 10 zemí: Frequency table: HDP EU 10 (HDP_v_EU) Lilliefors p> .20 Shapiro-Wilk W=,92036, p=,35998
Vidíme, že tentokrát nemůžeme zamítnout nulovou hypotézu o normalitě dat. Pokud ale budeme chtít tyto dva výběry porovnávat, musíme použít některý z neparametrických testů (viz dále), abychom předešli zkreslení výsledku z důvodu porušení normality prvního výběru. Testy opět doplníme o N-P a Q-Q plot (obrázky 1.8 a 1.9) a na závěr sestrojíme box plot pro oba výběry (obrázek 1.10). Poznámka 1.1. Jelikož tentokrát pracujeme s daty z nenormálního rozdělení, střední příčku box plotu sestrojíme v mediánu.
13
3,0
Normal Probability Plot of HDP EU 15 (HDP_v_EU 2v*16c)
2,5
Expected Normal Value
2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 15000
20000
25000
30000
35000
40000
45000
50000
Observed Value
Obrázek 1.6: N-P plot: HDP na 1 obyvatele v tržních cenách v roce 2003 v zemích EU 15
Quantile-Quantile Plot of HDP EU 15 (HDP_v_EU 2v*16c) Distribution: Normal
50000
0,05
HDP EU 15 = 25866,6667+5947,5708*x
0,10
0,25
0,50
0,75
0,90
0,95
45000
Observed Value
40000 35000 30000 25000 20000 15000 10000 -2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Theoretical Quantile
Obrázek 1.7: Q-Q plot: HDP na 1 obyvatele v tržních cenách v roce 2003 v zemích EU 15
14
2,0
Normal Probability Plot of HDP EU 10 (HDP_v_EU 2v*16c)
1,5
Expected Normal Value
1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 8000
10000
12000
14000
16000
18000
20000
Observed Value
Obrázek 1.8: N-P plot: HDP na 1 obyvatele v tržních cenách v roce 2003 v nových 10 zemích EU
Quantile-Quantile Plot of HDP EU 10 (HDP_v_EU 2v*16c) Distribution: Normal
20000
0,05
0,10
HDP EU 10 = 13375+3540,5634*x 0,25
0,50
0,75
0,90
0,95
18000
Observed Value
16000 14000 12000 10000 8000 6000 -2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Theoretical Quantile
Obrázek 1.9: Q-Q plot: HDP na 1 obyvatele v tržních cenách v roce 2003 v nových 10 zemích EU
15
50000
Box Plot (HDP_v_EU 2v*16c)
45000 40000 35000 30000 25000 20000 15000 Median 25%-75% Non-Outlier Range Outliers Extremes
10000 5000
HDP EU 15
HDP EU 10
Obrázek 1.10: Krabicové diagramy pro HDP na 1 obyvatele v tržních cenách v roce 2003 pro 15 zemí EU a nově vstoupivších 10
Poznámka 1.2. Jelikož k provedení testů uvedených v následujících kapitolách bude pro nás klíčová vědomost, zda porovnáváme data z normálního, anebo jiného rozdělení, provedeme před každým testováním testy normality pro použitá data.
16
2 Párové testy Nejprve se zaměříme na párové testy. K nim přistupujeme, máme-li k dispozici jeden náhodný výběr z dvourozměrného rozdělení. Máme dvojice náhodných veličin ( X 1 , Y2 ),..., ( X n , Yn ) . Tyto dvojice jsou navzájem nezávislé, uvnitř jednotlivých dvojic ( X i , Yi ) je ale nezávislost porušena, jelikož se jedná o veličiny zjišťované buď na stejném objektu, nebo na dvou objektech, které jsou nějakým způsobem příbuzné. Jde vlastně o výběr dvojic ( X 1 , Y2 ),..., ( X n , Yn ) ze stejného souboru (například zjišťujeme hodnoty určitých ukazatelů v čase t1 a těch samých ukazatelů v čase t 2 ). Párové testy, stejně jako testy dvouvýběrové (viz. kapitola 3), dělíme na testy parametrické a neparametrické. Při užití parametrických testů předpokládáme, že dané výběry pocházejí z určitého typu rozdělení, které závisí na nějakých neznámých parametrech. V našem případě se jedná o rozdělení normální. K provedení neparametrických testů nepotřebujeme předpoklad o určitém typu rozdělení, ale spokojíme se se splněním pouze obecných podmínek (např. spojitost distribuční funkce). Neparametrické testy používáme také v situaci, kdy zkoumaná data nemají intervalový či poměrový charakter, ale pouze ordinální. Tyto testy jsou ovšem ve srovnání s testy parametrickými slabší.
2.1 Parametrické párové testy
Při těchto testech, jak již bylo uvedeno, vycházíme z předpokladu normality výběrů.
2.1.1 Párový t-test Budeme testovat hypotézu H 0 , že střední hodnota rozdílu X − Y je rovna 0. Postupujeme tak, že zavedeme novou náhodnou veličinu Z i = X i − Yi . Za předpokladu, že Z i pochází z normálního rozdělení s neznámým rozptylem, provedeme párový t-test (jedná se v podstatě o klasický jednoduchý t-test pro veličiny Z 1 ,...Z n .
X − µz n. S Nulovou hypotézu H 0 : µ z = 0 zamítáme na hladině významnosti α ve prospěch alternativní
Vypočteme testovou statistiku T =
hypotézy H 1 : µ z ≠ 0 , pokud T ≥ t1−α (n − 1) . 2
2.1.2 Morganův-Pitmanův test Pro testování hypotézy H 0 : σ X2 = σ Y2 o rovnosti rozptylů proti H 1 : σ X2 ≠ σ Y2 použijeme Morganův-Pitmanův test: n 1 m Vypočteme výběrové rozptyly S x2 = (X i − X )2 a SY2 = 1 ∑ (Yi − Y )2 ∑ m − 1 i =1 n − 1 i =1
17
∑X Y n
a dále výběrový korelační koeficient r =
Zavedeme testovou statistiku T =
t (n − 2 ) .
i =1
i i
− nXY
n 2 2 n 2 ∑ X i − n X ∑ Yi 2 − nY i =1 i =1
S X2 − S Y2 2S X S Y
.
n−2 , která má za platnosti H 0 rozdělení 1− r 2
H 0 zamítáme v případě, že T ≥ t1−α (n − 2 ) . 2
2.1.3 Test hypotézy H 0 : µ x = µ y ,σ X2 = σ Y2 proti H 1 : µ x ≠ µ y , σ X2 ≠ σ Y2 Dále můžeme testovat hypotézu H 0 : µ x = µ y , σ X2 = σ Y2 proti oboustranné
alternativě H 1 . Položme Z i = X i − Yi , Vi = X i + Yi pro i = 1,.., n a označme
b1 =
n ∑ Z iVi − ∑ Z i ∑ Vi n
n
n
i =1
i =1
i =1
n n∑ Vi − ∑ Vi i =i i =1 n
2
2
,
R = ∑ Z i2 − b0 ∑ Z i − b1 ∑ Z iVi . n
n
n
i =1
i =1
i =1
Za platnosti H 0 má veličina F =
b0 =
n 1 n ∑ Z i − b1 ∑ Vi , n i =1 i =1
(n − 2 ) ∑ Z i2 − R n
i =1 2R
rozdělení F (2, n − 2 ) .
H 0 zamítneme na hladině významnosti α , pokud F ≥ F1−α (2, n − 2 ) .
2.1.4 Provedení testů s pomocí software STATISTICA Nyní si ukážeme provedení vybraných testů ve STATISTICE:
Párový t-test
Ve STATISTICE vytvoříme datový soubor o dvou proměnných a n případech a vložíme sem naměřená data. V Basic Statistics/Tables zvolíme t-test dependent samples. Ve výstupu si prohlédneme hodnotu testové statistiky a p-hodnotu. V případě, že ta bude menší než zvolená hladina významnosti α, zamítáme nulovou hypotézu o rovnosti středních hodnot výběrů. V našem příkladě použijeme hodnoty průměrného věku při odchodu do důchodu mužů a žen náhodně vybraných zemí EU v roce 2003. 18
Data 2.1. Průměrný věk odchodu do důchodu mužů a žen za rok 2003 ve vybraných 18 zemí EU. Hodnoty jsou uvedeny v následující tabulce: Průměrný věk při odchodu do důchodu v roce 2003
Země
Muži
Ženy
Česká republika
61,2
59,0
Německo
61,9
61,4
Španělsko
61,6
61,3
Belgie
Dánsko Řecko
58,6
62,3 63,9
Francie
59,7
Itálie
60,9
Irsko
62,0
58,7
62,0 62,5
59,6
62,8
61,0
Maďarsko
60,9
62,1
Rakousko
59,4
58,2
Portugalsko
63,7
60,6
Finsko
60,7
60,0
Spojené království
64,2
61,9
Nizozemsko Polsko
Slovensko Švédsko
61,0 59,8
60,0 63,5
59,9 56,4
55,9
62,8
Nejprve na hladině významnosti 0,05 otestujeme předpoklad normality (postup jsme uvedli v předcházející kapitole). Jelikož všechny získané p-hodnoty jsou větší než 0,05, předpoklad o normalitě nezamítáme. Provedením párového t-testu jsme získali následující tabulku s hodnotami: Mean
Std.Dv. N
Muzi 61,40556 1,639395
Diff.
Std.Dv. Diff
t
df
p
Zeny 60,33889 2,068856 18 1,066667 1,450355 3,120259 17 0,006228
V tabulce jsou vypočteny základní charakteristiky, hodnota testové statistiky T (označena t) a p-hodnota. Jelikož p-hodnota je menší než 0,05, na dané hladině významnosti zamítáme hypotézu o rovnosti středních hodnot. Poznámka 2.1. Již při pohledu na použitá data se dal tento výsledek očekávat; s výjimkou Maďarska je totiž průměrný důchodový věk u žen ve všech zemích nižší než u mužů.
Morganův-Pitmanův test
Dále provedeme test na shodnost rozptylů těchto dvou výběrů. Tento test není ve STATISTICE implementován přímo, budeme tedy postupovat obdobně, jako při teoretické konstrukci testu. V testu pracujeme s charakteristikami výběrový rozptyl, směrodatná odchylka a výběrový korelační koeficient, které můžeme vypočítat s pomocí Basic statistics and Tables. K výpočtu prvních dvou charakteristik použijeme Descriptive statistics, kde v Advanced zaškrtneme Standard deviation a Variance. 19
Variance Std.Dev.
Muzi 2,569474 1,602958 Zeny 4,598816 2,144485
Výběrový korelační koeficient vypočteme s pomocí Correlation matrixes, kde vybereme One variable list a do First list vložíme naše dva sloupce s daty. V Options zaškrtneme Display r, p-levels, and N´s a příkazem Summary zobrazíme tabulku: Muzi
Muzi 1,0000
Zeny
,7366
p= ---
p=,000
p=,000
p= ---
Zeny ,7366
1,0000
Hodnota výběrového korelačního koeficientu je 0,7366. Dále pokračujeme například tak, že si do Workbooku s popisnými statistikami (descriptive statistics) přidáme 3 proměnné; do první zkopírujeme hodnotu výběrového korelačního koeficientu a do Long name druhé proměnné vložíme získané hodnoty dosazené do vzorce pro výpočet testové statistiky T . V našem případě hodnota T vyšla -1,85165. Nakonec do Long name třetí proměnné vložíme funkci Vstudent(0.975;18), která vypočítá 0,975-kvantil Studentova rozložení s 18 stupni volnosti a tuto hodnotu porovnáme se získanou statistikou T . Jelikož hodnota tohoto kvantilu vyšla 2,10092, což je méně než hodnota testové statistiky T v absolutní hodnotě, na hladině významnosti 0,05 tedy nezamítáme nulovou hypotézu o rovnosti rozptylů. Test hypotézy H 0 : µ x = µ y , σ X2 = σ Y2 proti H 1 : µ x ≠ µ y , σ X2 ≠ σ Y2 Provedení tohoto testu ve STATISTICE bude poměrně zdlouhavé, jelikož použité statistiky b1 , b0 , R a F zde nejsou implementované, a tudíž je budeme muset počítat mechanicky. Budeme pracovat opět se stejnými daty. Nejdříve přidáme ke sloupcům s daty dvě nové proměnné Z a V , do jejichž Long name vložíme příslušné vzorce. Přidáme si ještě další pomocné proměnné, do kterých si uložíme dílčí výpočty Z iV , Z i2 ,Vi 2 . Pomocí funkce Sum v Descriptive statistics vypočteme sumu všech těchto pomocných proměnných. Výsledky, které se otevřou na nové stránce Workbooku, transponujeme pomocí Data – Transpose – File. Přidáme si do Workbooku čtyři nové proměnné, ve kterých po řadě vypočítáme b1 , b0 , R a F (opět vkládáme příslušné vzorce do Long name proměnných). Nakonec vytvoříme ještě jednou proměnnou, do jejíhož Long name vložíme funkci VF(0.95;2;18), která vypočte 0,95-kvantil Fisherova – Snedecorova rozdělení se stupni volnosti 2 a 18. Výsledky můžeme pozorovat v tabulce: Sum
Zi
Vi
ZiVi
Zi2
Vi2
21,5 2434,5 2578,53 63,09 296571,93 bi b0 R F F-kvantil -0,165897577 21,2688825 33,5809042 7,90871683 3,55455715
Jelikož platí F ≥ F1−α (2, n − 2 ) , zamítáme H 0 : µ x = µ y , σ X2 = σ Y2 na hladině významnosti 0,05. 20
2.2 Neparametrické párové testy V případě, že veličina Z i = X i − Yi nepochází z normálního rozdělení, ale pouze z nějakého spojitého rozdělení, musíme provést některý z neparametrických párových testů. Jelikož nadále pracujeme už jenom s jedním sloupcem hodnot, v podstatě tedy s jedním výběrem, použijeme jednovýběrové varianty testů.
2.2.1 Jednovýběrový Wilcoxonův test Pokud spojité rozdělení Z i je navíc symetrické podle mediánu (křivka hustoty Z i je symetrická se středem symetrie v mediánu), můžeme použít jednovýběrový Wilcoxonův test. Budeme testovat hypotézu, že medián Z i je roven nule proti oboustranné alternativě. Test provedeme tak, že všech n hodnot srovnáme podle velikosti, přičemž „vyškrtneme“ pozorování, kdy X i = Yi a snížíme o ně n . Dále zjistíme pořadí hodnot Z i a určíme W +
součet pořadí Z i , která jsou kladná (tzn. X i > Yi ) a W − součet pořadí přes záporné hodnoty. n(n + 1) a Za platnosti H 0 o nulovém mediánu má veličina W + střední hodnotu E (W + ) = 4 n(n + 1)(2n + 1) rozptyl D (W + ) = . 24 H 0 zamítáme na hladině významnosti α , pokud testová statistika (která je rovna
(
)
min W + ,W − v případě oboustranné alternativy, W + pro levostrannou alternativu a W − pro pravostrannou alternativu) je menší nebo rovna kritické hodnotě uvedené v tabulce. n(n + 1) W− 4 Pro velká n vypočteme statistiku U = , která se v případě platnosti nulové n(n + 1)(2n + 1) 24 hypotézy asymptoticky řídí rozdělením N(0,1). Hypotézu H 0 o nulovém mediánu Z i (tedy o rovnosti mediánů veličin X i a Yi ) zamítáme na hladině významnosti přibližně α , jestliže U ≥ u1−α . 2
V případě několika shodných pozorování Z i , označíme jejich počty t1 , t 2 ,... a nahradíme jmenovatel statistiky U výrazem
n(n + 1)(2n + 1) − 24
21
(
)
1 t 3j − t j ∑ 2 .
2.2.2 Znaménkový test Pokud je splněn pouze předpoklad spojitosti rozdělení veličiny Z i a nikoliv souměrnosti podle mediánu, použijeme test znaménkový. Opět vyškrtneme pozorování, kdy Z i = 0 a snížíme n . Označíme V počet případů, kdy X i > Yi . Vypočteme testovou statistiku U = U ≥ u1−α .
V−
n 1 − 2 2 n 4
a
H0
zamítneme, jestliže
2
Tento test se v praxi používá pro výběry s rozsahem n ≥ 20 . Pro výběry s menším rozsahem α a najdeme ve speciálních tabulkách kritické hodnoty k1 a k 2 s vlastnostmi P (V ≤ k1 ) ≤ 2 α P (V ≥ k 2 ) ≤ , kde zároveň k1 je největší a k 2 nejmenší z čísel, pro která platí dané 2 nerovnosti. Nulovou hypotézu o rovnosti mediánů potom zamítáme na hladině nejvýše α , jestliže V ≤ k1 nebo V ≥ k 2 .
2.2.3 Provedení testů s pomocí software STATISTICA Párový Wilcoxonův test
Ve STATISTICE vytvoříme datový soubor se dvěma proměnnými a n případy a vložíme sem naměřená data. Z nabídky Statistics vybereme Nonparametrics – Comparing two dependent samples (variables). Jako Variables uložíme do First variable list název našeho prvního sloupce hodnot a do Second variable list název druhého sloupce a vybereme Wilcoxon matched pair test. Ve výstupní tabulce nalezneme hodnotu testové statistiky (označena T), hodnotu asymptotické testové statistiky (ozn. Z) a její p-hodnotu. (Ve STATISTICE tedy pracujeme s asymptotickou testovou statistikou bez ohledu na rozsah výběru n .) My si použití párového Wilcoxonova testu ukážeme na příkladě, kde budeme pracovat s hodnotami tempa růstu HDP v % v letech 2002 a 2003 ve 25 zemích EU. Naměřené hodnoty jsou uvedeny v tabulce Data 2.2. U dat jsme nejprve otestovali normalitu pomocí K-S a S-W testu. Jelikož p-hodnoty vyšly výrazně menší než 0,05, zamítáme hypotézu o normalitě rozdělení dat a přikročíme tedy k neparametrickému testování. Provedením Wilcoxonova testu jsme získali následující hodnoty: Valid T
2002 & 2003 25
Z
p-level
113,0000 1,057143 0,290447
Jelikož p-hodnota nám vyšla vyšší než hladina významnosti 0,05, nemůžeme zamítnout nulovou hypotézu říkající, že růst HDP ve 25 zemích dnešní EU byl v roce 2002 stejný jako v roce 2003. 22
Data 2.2 Tempo růstu reálného HDP v %, v letech 2002 a 2003. Země
Meziroční změna HDP, % 2002
2003
Česká republika
2,0
2,9
Estonsko
6,0
Belgie
Dánsko Finsko
0,7
1,0
2,3
1,1
0,4
4,7
1,9
Francie
1,2
0,5
Itálie
0,4
0,3
Irsko Kypr Litva
Lotyšsko
6,9
2,0
6,8
6,1
Lucembursko
1,7
Malta
1,7
Maďarsko Německo
Nizozemsko Polsko
3,5
0,2
0,2
1,4
1,4
2,0
9,0
7,4
2,1
2,9
0,4
-0,1
-0,7 3,7
Portugalsko
0,4
-1,3
Řecko
3,9
4,3
Rakousko
Slovensko Slovinsko
Spojené království Španělsko Švédsko
1,4
4,4
3,4
1,6
2,0
2,1
0,7
4,2
2,3
2,2
2,4
1,6
Párový znaménkový test
Tato data otestujeme ještě párovým znaménkovým testem. Postupujeme stejně jako u párového Wilcoxonova testu, jen v posledním kroku zaškrtneme Sign test namísto Wilcoxon matched pair test.
No. of Percent Z p-level Non-ties v
P-hodnota, která se nám objevila v tabulce, je opět větší než 0,05, hypotézu o shodném růstu HDP v 25 zemích EU v letech 2002 a 2003 tedy nezamítáme. Poznámka 2.2. Když srovnáme p-hodnoty znaménkového a Wilcoxonova testu, vidíme, že Wilcoxonův test je silnější. Na závěr si ještě dané výsledky znázorníme graficky. V Comparing two variables vybereme Box & Whisker Type, vložíme názvy našich sloupců s proměnnými a zaškrtneme Median/Quart/Range. Na krabicových diagramech (obrázek 2.1) můžeme pozorovat, že 23
mediány obou výběrů se skutečně neliší. A to i přes velikou variabilitu dat, která je patrná na první pohled jak z diagramů, tak ze samotných naměřených hodnot.
10
Box & Whisker Plot
8
6
4
2
0
-2
2002
Median 25%-75% Min-Max
2003
Obrázek 2.1: Krabicové diagramy: Tempo růstu reálného HDP v % v zemích EU v letech 2002 a 2003
24
3 Dvouvýběrové testy
Dvouvýběrové testy používáme pro testování dvou navzájem nezávislých náhodných výběrů. Jako příklad můžeme uvést porovnávání makroekonomických ukazatelů ve dvou různých zemích ve stejném období. (Pozor: Kdybychom chtěli porovnávat data v jedné zemi ve dvou různých obdobích, musíme užít testů párových, viz. kapitola 2.) Při rozhodování, který z dvouvýběrových testů použít, hraje opět klíčovou roli skutečnost, zda daná data pocházejí z nějakého známého rozdělení (v našem případě normálního), či nikoliv. V závislosti na splnění či nesplnění podmínky normality dělíme testy na parametrické a neparametrické (tedy stejně jako u párového testování). Začneme opět testy parametrickými.
3.1 Parametrické dvouvýběrové testy 3.1.1 Testování rovnosti středních hodnot 3.1.1.1 Dvouvýběrový t-test
(
)
Nechť X 1 ,..., X m je náhodný výběr z normálního rozdělení N µ1 ,σ 2 a nechť Y1 ,...,Yn
(
je náhodný výběr z normálního rozdělení N µ 2 ,σ nechť n ≥ 2, m ≥ 2, σ 2 ≥ 0 . Označme
X = S x2 =
1 m ∑ Xi , m i =1
Y =
1 n ∑ Xi n i =1
1 m (X i − X )2 , ∑ m − 1 i =1
S Y2 =
2
)
a tyto výběry jsou nezávislé. Dále
výběrové průměry a
1 n (Yi − Y )2 ∑ n − 1 i =1
Potom náhodná veličina
T= má rozdělení t m +n −2 .
X − Y − (µ1 − µ 2 )
(m − 1)S
2 X
+ (n − 1)S
2 Y
mn(m + n − 2 ) m+n
Důkaz. viz [1].
25
výběrové rozptyly.
Testujeme nulovou hypotézu H 0 : µ1 − µ 2 = δ , kde δ je dané číslo ( nejčastěji δ = 0 ) proti hypotéze alternativní H 1 : µ1 − µ 2 ≠ δ ( H 1 : µ1 − µ 2 < δ , nebo H 1 : µ1 − µ 2 > δ ). Vypočteme hodnotu statistiky T (dosazením µ1 − µ1 = δ ). H 0 zamítáme na hladině α ve prospěch (oboustranné) alternativní hypotézy H 1 : µ1 − µ 2 ≠ δ , jestliže T ≥ t1−α (m + n − 2) . 2
V případě jednostranných testů postupujeme analogicky: H 0 zamítáme na hladině α ve prospěch alternativní hypotézy H 1 : µ1 − µ 2 < δ , jestliže T ≤ −t1−α (m + n − 2 ) . H 0 zamítáme na hladině α ve prospěch alternativní hypotézy H 1 : µ1 − µ 2 > δ , jestliže T ≥ t1−α (m + n − 2) . Poznámka 3.1. Test můžeme provést i pomocí konstrukce 100(1 − α )% intervalu spolehlivosti pro rozdíl středních hodnot. Interval spolehlivosti zkonstruujeme následovně: Vyjdeme z nerovnosti T ≤ t1−α (m + n − 2) , která je splněna v případě platnosti nulové 2
hypotézy a postupnými úpravami dospějeme až k žádanému intervalu.
t1−α (m + n − 2 ) ≤ 2
− t1−α (m + n − 2 ) 2
Y − X − (µ 2 − µ1 )
mn(m + n − 2 ) ≤ −t1−α (m + n − 2) 2 m+n
(m − 1)S X2 + (n − 1)SY2
((m − 1)S
. . .
)
+ (n − 1)S Y2 (m + n ) + X − Y ≤ µ1 − µ 2 mn(m + n − 2)
a
2 X
µ1 − µ 2 ≤ t1−α
µ1 − µ 2 = δ ≤ t1−α (m + n − 2) 2
(m + n − 2) ((m − 1)S + (n − 1)S )(m + n ) + X − Y mn(m + n − 2) 2 X
2
((m − 1)S
2 Y
)
+ (n − 1)S Y2 (m + n ) + X −Y mn(m + n − 2) 2 X
Zjistíme , zda náš odhad δ leží v daném intervalu. V případě, že δ leží mimo tento interval, zamítáme H 0 na hladině α ve prospěch (oboustranné) alternativní hypotézy (analogicky konstruujeme jednostranné intervaly spolehlivosti).
26
V t-testu jsme předpokládali shodnost rozptylů. V případě rozptylů různých použijeme test Cochranův-Coxův:
3.1.1.2 Test Cochranův-Coxův Vypočteme
vX =
S X2 , m
T* =
X −Y −δ , S
vY =
S Y2 , n t* =
S = v X + vY ,
v X t1−α (m ) + vY t1−α (n ) 2
v X + vY
2
.
H 0 zamítáme, pokud T * ≥ t * . (Analogicky pro jednostranné testy). Dále můžeme použít Aspinové-Welchův test:
3.1.1.3 Aspinové-Welchův test Vypočteme
f =
S4
1 1 2 v X2 + vY m −1 n −1
H 0 zamítáme v případě, že T * ≥ t1−α
2
.
( f ) . Pokud
1 − α 2 kvantil pomocí lineární interpolace.
f nevyjde jako celé číslo, vypočteme
Nebo použijeme Satterthwaiteův test:
3.1.1.4 Satterthwaiteův test Vypočteme h=
S4
1 2 1 2 vX + vY m +1 n +1
−2.
H 0 zamítáme, jestliže T * ≥ t1−α (h ) . V případě, že h není celé číslo, postupujeme lineární 2
interpolací stejně jako v předchozím testu.
Všechny tři výše uvedené testy pracují na hladině přibližně α . Předpoklad o rovnosti rozptylů můžeme otestovat pomocí F testu (viz dále). Anděl ale v [1] uvádí, že se nedoporučuje rozhodovat o výběru testu až podle výsledku F testu.
27
3.1.2 Test shodnosti dvou rozptylů Při testování shodnosti rozptylů testujeme nulovou hypotézu H 0 : σ X2 = σ Y2
σ X2 σ X2 2 2 ) proti oboustranné alternativě H : σ ≠ σ ( = ≠ 1 ). 1 1 X Y σ Y2 σ Y2 Předpokládejme, že X 1 ,..., X m a Y1 ,...,Yn jsou navzájem nezávislé náhodné výběry z rozdělení (tzn.
(
) (
)
po řadě N µ X ,σ X2 , N µ Y , σ Y2 . Dále předpokládejme, že m ≥ 2, n ≥ 2, σ X2 ≥ 0, σ Y2 ≥ 0 .
S X2 Platí-li σ = σ , pak náhodná veličina Z = 2 má rozdělení F (m − 1, n − 1) . SY Důkaz. viz [1] 2 X
2 Y
Test provedeme tak, že sestrojíme 100(1 − α )% interval spolehlivosti s hranicemi: 1 D = Fα (m − 1, n − 1) = , H = F1−α (m − 1, n − 1) . 2 2 F1−α (n − 1, m − 1) 2
H 0 zamítáme, pokud Z neleží v tomto intervalu.
3.1.2.1 Fisherův F test
K řešení můžeme použít také Fisherův F test založený na porovnání většího a menšího z obou odhadů rozptylů: Vypočteme statistiku F : F=
( (
max S X2 , S Y2 min S X2 , S Y2
) )
a H 0 zamítneme v případě, že F ≥ F1−α (nmax − 1, nmin − 1) . 2
Nevýhodou tohoto testu je jeho vysoká citlivost na normální rozdělení. Proto se k porovnání dvou rozptylů používá častěji přibližný Levenův test.
3.1.2.2 Levenův test
Tento test porovnává průměrné odchylky od výběrového průměru jednotlivých výběrů. Jedná se o dvouvýběrový t test, který pracuje s náhodnými veličinami X i − X , Yi − Y . Místo statistiky T se zpravidla používá její kvadrát F = T 2 a ten se
porovnává s kvantilem hodnotách F .
F1−α (1, n + m − 2 ) = t12−α (n + m − 2 ) . H 0 zamítáme při velkých 2
2
28
3.1.3 Provedení testů s pomocí software STATISTICA
Testy o středních hodnotách si budeme demonstrovat na datech Míra inflace v % za rok 2003 v 15 původních zemích EU a 10 nově vstoupivších. Jelikož již v první kapitole jsme otestovali normalitu těchto dat, můžeme tento předpoklad považovat za splněný a přistoupit k parametrickým testům.
Dvouvýběrový t-test
Dvouvýběrový t-test je ve STATISTICE implementován, jeho provedení je snadné a rychlé. Vytvoříme datový soubor o dvou proměnných a potřebném počtu případů, který odpovídá rozsahu „většího“ výběru. Vložíme sem naše data a z nabídky Basic statistics/Tables vybereme t-test, independent, by variables. Ve výstupní tabulce najdeme hodnotu testového kritéria (t-value) a p-hodnotu. Připomeňme si data, se kterými pracujeme: Míra inflace v % za rok 2003 Belgie 1,5 Česká republika Dánsko 2,0 Estonsko Finsko 1,3 Kypr Francie 2,2 Litva Irsko 4,0 Lotyšsko Itálie 2,8 Maďarsko Lucembursko 2,5 Malta Německo 1,0 Polsko Nizozemsko 2,2 Slovensko Portugalsko 3,3 Slovinsko Rakousko 1,3 Řecko 3,4 Spojené království 1,4 Španělsko 3,1 Švédsko 2,3
-0,1 1,4 4,0 -1,1 2,9 4,7 2,5 0,7 8,5 5,7
Hodnota testové statistiky a p-hodnota pro náš příklad jsou: t-value
p
Mira inflace EU 15 vs. Mira inflace EU 10 -0,796856 0,433684
Jelikož p-hodnota je větší než hladina významnosti 0,05, nulovou hypotézu o rovnosti středních hodnot na dané hladině nezamítáme. O správnosti tohoto závěru se můžeme přesvědčit sestrojením intervalu spolehlivosti pro rozdíl středních hodnot. Pomocí Descriptive statistics vypočteme výběrové rozptyly obou výběrů a tento soubor transponujeme. Přidáme tři nové proměnné, přičemž do první vložíme hodnotu kvantilu t1−α (m + n − 2 ) (jeho vypočtení jsme si už ukázali v předcházející kapitole) 2
a do dalších dvou zapíšeme vzorec pro výpočet dolní/horní meze intervalu. Naše výsledky jsou uvedeny v tabulce.
29
Mira inflace EU 15 Mira inflace EU 10
Variance 0,80552381
8,43288889
t-kvantil
Horni mez
2,06865761 1,64414796
Dolni mez
-1,64414796
Jelikož náš odhad µ1 − µ 2 = 0 leží v intervalu určeném těmito mezemi, došli jsme ke stejnému závěru, a to, že na dané hladině významnosti 0,05 nemůžeme zamítnout nulovou hypotézu o rovnosti středních hodnot. V tomto testu jsme předpokládali rovnost rozptylů. O správnosti tohoto předpokladu se přesvědčíme F-testem v další části textu. V případě rozptylů různých použijeme některý z následujících testů.
Test Cochranův-Coxův
Budeme postupovat tak, že využijeme našeho transponovaného souboru (jehož základem byl výpočet výběrových rozptylů). Pomocí Descriptive statistics vypočteme ještě výběrové průměry a zjistíme jejich rozdíl. Přidáme opět několik nových proměnných a s pomocí jejich Long name vypočítáme popořadě jednotlivé charakteristiky. Výsledky pro náš příklad jsou uvedeny v tabulce. Variance vx
Mira inflace EU 15
0,80552381 vy
0,0537015873 0,843288889
Mira inflace EU 10
8,43288889 S
rozdil_prumeru
T*
-0,633333333
0,947095812 -0,668710943
(
t*
2,2223502
)
Jelikož statistika T * se nachází v intervalu − t * ,t * , opět nezamítáme nulovou hypotézu.
Aspinové-Welchův test
Pokračujeme opět ve stejném workbooku, kam přidáme statistiku f a následně vypočteme hodnotu kvantilu t1−α ( f ) . Obdrželi jsme tyto hodnoty: f
f-t-kvantil
2
10,1562808 2,22350021
Jelikož T * opět leží v intervalu tα ( f ), t1−α ( f ) , nulovou hypotézu nezamítáme. 2 2
Satterthwaiteův test
Jelikož tento test je velice podobný testu předcházejícímu, pracujeme opět se stejným workbookem. h
h-t-kvantil
10,410991 2,21627343
Na základě našich výsledků jsme ani tentokrát nezamítli nulovou hypotézu.
30
Poznámka 3.2. Jak již bylo řečeno, tři výše uvedené testy pracují na hladině přibližně α (v našem případě α = 0,05 ).
Test shodnosti dvou rozptylů
K ukázce testů shodnosti dvou rozptylů použijeme opět stejná data. Na základě našich výsledků tedy uvidíme, jak moc relevantní bylo použití t-testu (předpokládajícího rovnost rozptylů obou výběrů). První test ve STATISTICE provedeme tak, že pomocí Descriptive statistics vypočteme výběrové rozptyly (ozn. variance) a na jejich základě veličinu Z . (Opět pomocí transponování dat ve workbooku a přidání proměnné.) Dále si ve stejném workbooku necháme spočíst hranice intervalu, kterými jsou 1 − α kvantily Fisherova rozdělení se 2 stupni volnosti m, n (tedy v našem případě 15 a 10). Nakonec se podíváme, zda Z leží v tomto intervalu, či nikoliv, a v návaznosti na tom formulujeme závěr testu. Získali jsme tyto výsledky:
(
Mira inflace EU 15 Mira inflace EU 10
Variance 0,80552381
8,43288889
)
Z
0,025-F-kvantil 0,975-F-kvantil
0,0955216913 0,311594396
3,79795248
Již na první pohled je zřejmé, že Z neleží v daném intervalu, nulovou hypotézu o shodných rozptylech tedy zamítáme na hladině významnosti 0,05. Tento závěr nám říká, že výsledky t-testu nemůžeme považovat za směrodatné. (Nicméně v našem případě i testy, které nepředpokládaly rovnost rozptylů, nám daly stejné závěry.)
Fisherův F test
Fisherův F-test je implementován v samotném dvouvýběrovém t-testu. Stačí tedy provést dvouvýběrový t-test pro nezávislé výběry a v tabulce nalezneme i hodnotu testové statistiky F a p-hodnotu: F-ratio p Variances Variances
Mira inflace EU 15 vs. Mira inflace EU 10 10,46883
0,000162
Podle našeho očekávání je p-hodnota opět menší než zvolená hladina významonosti 0,05, a tudíž na dané hladině zamítáme nulovou hypotézu.
Levenův test
Výsledek si ověříme ještě Levenovým testem. Ten je také součástí dvouvýběrového t-testu. Vrátíme se tedy do T-test for Independent Samples a v Options zaškrtneme Levene´s test. STATISTICA nám vrátí tabulku obsahující hodnotu kvantilu F1−α (1, n + m − 2 ) = t12−α (n + m − 2 ) , počet stupňů volnosti a p-hodnotou pro Levenův test: 2
2
df p Levene F(1,df) Levene Levene
Mira inflace EU 15 vs. Mira inflace EU 10 11,04187 23
31
0,002962
Jelikož p-hodnota je nižší než zvolená hladina významnosti 0,05, opět zamítáme nulovou hypotézu. Poznámka 3.3. Diagnostické grafy pro oba výběry byly zkonstruovány již v první kapitole.
3.2 Neparametrické dvouvýběrové testy
Neparametrické dvouvýběrové testy používáme v situaci, kdy není splněn předpoklad normality dat. V případě výběrů s většími rozsahy (n ≥ 30 ) mírné porušení normality nemá zásadní dopad na výsledky testu. Pokud se ale jedná o výběry malých rozsahů z výrazně nenormálního rozdělení, je třeba použít testy neparametrické, které nevyžadují předpoklad o konkrétním typu rozdělení.
3.2.1 Dvouvýběrový Wilcoxonův test Předpokládejme, že X 1 ,..., X m je náhodný výběr z nějakého spojitého rozdělení a Y1 ,...,Yn je na něm nezávislý náhodný výběr ze stejného spojitého rozdělení, které je proti prvnímu posunuté o konstantu δ . Náhodné veličiny X 1 ,..., X m a Y1 − δ ,...,Yn − δ mají tedy
vlastně stejné rozdělení. Testovat budeme nulovou hypotézu H 0 : δ = 0 , tzn. že tato rozdělení jsou totožná (distribuční funkce těchto rozdělení jsou shodné) proti oboustranné alternativě H1 : δ ≠ 0 . Test provedeme tak, že všech m + n hodnot X 1 ,..., X m , Y1 ,...,Yn uspořádáme vzestupně podle velikosti. Označíme T1 součet pořadí hodnot X 1 ,..., X m a T2 součet pořadí hodnot 1 Y1 ,...,Yn . Pro součet T1 + T2 platí: T1 + T2 = (m + n )(m + n + 1) . 2 n(n + 1) U 1 = mn + − T1 , Vypočteme statistiky 2 U 2 = mn +
m(m + 1) − T2 . 2
Platí U 1 + U 2 = mn . Zjistíme min (U 1 ,U 2 ) a porovnáme s tabelovanou kritickou hodnotou w m ,n (α ) . V případě, že
min (U 1 ,U 2 ) ≤ w m, n (α ) zamítáme H 0 na hladině α . Test založený na statistikách U 1 ,U 2 se někdy nazývá Mannův-Whitneyův test (pod tímto názvem je také implementován ve Statistice). Pro m → ∞, n → ∞ (v praxi stačí m, n > 30 ) má statistika U 1 asymptoticky normální mn U1 − 2 rozdělení. Vypočteme statistiku U = . V případě platnosti H 0 má mn(m + n + 1) 12 U asymptoticky rozdělení N (0,1) . H 0 tedy zamítáme na hladině α v případě, že U ≥ u1−α . 2
32
Pokud se rozdělení náhodných výběrů liší nejen posunutím, ale např. rozptylem nebo tvarem, použijeme test Waldův-Wolfowitzův (je ale slabší než dvouvýběrový Wilcoxonův), nebo Kolmogorův-Smirnovův test.
3.2.2 Waldův-Wolfowitzův test Nechť X 1 ,..., X m a Y1 ,...,Yn jsou dva nezávislé náhodné výběry ze dvou spojitých rozdělení. Testujeme hypotézu, že oba výběry pocházejí ze stejného rozdělení oproti alternativě, že pocházejí z rozdělení různých. Opět uspořádáme všech m + n hodnot vzestupně podle velikosti. Jako testovou statistiku použijeme R , což je počet iterací (počet posloupností za sebou následujících hodnot patřících do stejného výběru). Pokud R ≤ rm ,n (α ) , kde rm, n (α ) je tabelovaná kritická hodnota, H 0 zamítáme na hladině významnosti α . V případě větších rozsahů výběrů (n, m > 20) můžeme využít asymptotické normality R . 2mn 2mn(2mn − m − n ) V případě platnosti H 0 platí: E (R ) = +1, D (R ) = n+m (n + m )2 (n + m − 1)
a statistika U 0 =
R − E(R) má asymptoticky rozdělení N (0,1) . D (R )
H 0 zamítneme na asymptotické hladině významnosti α, pokud absolutní hodnota U 0 ≥ u1−α . 2
3.2.3 Dvouvýběrový Kolmogorův - Smirnovův test Nechť X 1 ,..., X m a Y1 ,...,Yn jsou dva nezávislé náhodné výběry ze dvou spojitých rozdělení. Testujeme hypotézu, že distribuční funkce těchto dvou rozdělení jsou shodné, tzn. že všech m + n veličin pochází z téhož rozdělení. Za předpokladu, že x je dané reálné číslo, zavedeme nejprve náhodné veličiny ξ i ( x ) = 1 , je-li X i ≤ x , ξ i ( x ) = 0 , je-li X i > x pro i = 1,..., m .
1 m ∑ ξ i (x ) . Funkce Fm (x ) je empirická distribuční funkce. Empirickou m i =1 distribuční funkci druhého výběru vypočteme analogicky a označíme Gn ( y ) . Můžeme ukázat, že s rostoucími m a n se funkce Fm ( x ) a Gn ( y ) blíží skutečným distribučním funkcím F ( x ) a G( y ) . Označme Dm ,n = sup Fm ( x ) − G n ( x ) . V případě malých hodnot čísel m a n porovnáme Dm ,n Položme Fm ( x ) =
s tabelovanou kritickou hodnotou Dm ,n (α ) . Nulovou hypotézu o rovnosti distribučních funkcí x
F ( x ) a G ( y ) zamítáme na hladině významnosti α , pokud Dm ,n ≥ Dm ,n (α ) .
V případě větších m a n kritickou hodnotu aproximujeme číslem Dm* ,n (α ) =
a H 0 zamítáme opět pokud Dm ,n ≥ Dm* ,n (α ) .
33
m+n 2 ln 2mn α
3.2.4 Provedení testů s pomocí software STATISTICA Všechny tři výše uvedené neparametrické testy implementovány, což nám velice usnadní jejich provedení.
jsou
ve
STATISTICE
Dvouvýběrový Wilcoxonův test
Nejprve vložíme do STATISTIKY data, se kterými chceme pracovat. Tentokrát postupujeme trochu jinak; vytvoříme datový soubor o 2 proměnných a m + n případech. Do prvního sloupce vložíme nejdříve m hodnot prvního výběru a doplníme n hodnotami výběru druhého. Do druhého sloupce napíšeme m jedniček (označuje data prvního výběru) a n dvojek. Z menu Statistics vybereme Nonparametric – Comparing two independent samples (groups). Do Dependent variable vložíme název našeho sloupce s naměřenými hodnotami a do Grouping variable pořadí výběru a zvolíme Mann – Whitney U test. Ve výstupní tabulce máme součty pořadí T1 ,T2 (ozn. Rank sum), hodnotu testové statistiky min (U 1 ,U 2 ) (ozn. U), hodnotu asymptotické testové statistiky U (zde ozn. Z ), její p-hodnotu a dále přesnou p-hodnotu (ozn. 2*1 sided exact p), kterou použijeme pro výběry s rozsahy menšími než 30. Ke konstrukci dvouvýběrového Wilcoxonova testu, stejně jako dvou dalších testů, použijeme data 1.2. HDP na 1 obyvatele v tržních cenách za rok 2003, se kterými jsme pracovali již v první kapitole. Poznámka 3.4. Zde nám z testů normality vyplynulo, že první výběr (hodnoty EU 15) je výrazně nenormální, tudíž jsme zvolili neparametrické testování. Připomeneme si naměřené hodnoty: HDP na 1 obyvatele v tržních cenách za rok 2003 Belgie 25 900 Česká republika 15 420 Dánsko 27 310 Estonsko 10 560 Finsko 24 580 Kypr 18 840 Francie 25 270 Litva 10 660 Irsko 29 360 Lotyšsko 8 940 Itálie 23 900 Maďarsko 13 370 Lucembursko 46 370 Malta 16 680 Německo 24 050 Polsko 10 340 Nizozemsko 26 630 Slovensko 11 740 Portugalsko 16 740 Slovinsko 17 200 Rakousko 26 990 Řecko 17 800 Spojené království 26 490 Španělsko 21 250 Švédsko 25 360
Podle předešlého návodu vložíme data do STATISTIKY a provedeme dvouvýběrový Wilcoxonův test. Obdrželi jsme tabulku s následujícími hodnotami:
HDP EU 15+10
Rank Sum Group 1
267,0000
Rank Sum Group 2
58,00000
U
Z
3,000000
34
3,993841
p-level 0,000065
2*1sided exact p
0,000004
Jelikož přesná p-hodnota je o mnoho menší než 0,05, na dané hladině zamítáme nulovou hypotézu o totožnosti rozdělení HDP v zemích EU 15 a EU 10. Poznámka 3.5. V první kapitole jsme zkonstruovali krabicový diagram pro oba výběry. Jeho podoba nás utvrzuje ve správnosti našeho závěru. Tato data dále otestujeme testem Waldovým – Wolfowitzovým a dvouvýběrovým Kolmogorovým – Smirnovovým testem. Postupovat budeme stejně jako u předcházejícího testu, ale v posledním kroku vybereme Wald-Wolfowitz Runs Test, resp. Kolmogorov-Smirnov Test.
Waldův-Wolfowitzův test
Ve výstupní tabulce se objeví rozsahy a průměry obou výběrů, hodnota asymptotické testové statistiky U0 (ozn. Z), p-hodnota pro U0, hodnota asymptotické testové statistiky s opravou na spojitost (Zadj), p-hodnotu pro Zadj, počet iterací (No. of Runs) a počet shodných pozorování (No. of ties). Hodnoty, které nás zajímají jsou uvedeny v tabulce:
Mean Mean Z p-level Group 1 Group 2 HDP EU 15+10 25866,67 13375 -2,98481 0,002838
Z adjstd
2,771609
p-level
0,005578
No. of No. of runs ties 6 0
Jelikož naše p-honota (p-hodnota pro adjustované Z) je menší než 0,05, i v tomto případě zamítáme nulovou hypotézu o shodném rozdělení.
Dvouvýběrový Kolmogorův - Smirnovův test
Zde ve výstupní tabulce získáme maximální záporný (ozn. Max Neg Differnc) a maximální kladný rozdíl (Max Pos Differnc) mezi hodnotami obou výběrových distribučních funkcí, dolní omezení pro p-hodnotu, průměry, směrodatné odchylky a rozsahy obou výběrů. Vybrané hodnoty jsou uvedeny v tabulce: Mean Mean Std.Dev. Std.Dev. Group 1 Group 2 Group 1 Group 2 0,866667 p < .001 25866,67 13375,00 6633,382 3439,171
Max Neg Max Pos p-level
HDP EU 15+10 0,00
Jelikož vypočtená p-hodnota je výrazně menší než 0,05, na dané hladině významnosti zamítáme nulovou hypotézu.
35
4 Permutační testy Permutační testy patří mezi výpočetně intenzivní metody testování. Pomocí permutačních testů můžeme testovat dva nezávislé náhodné výběry nebo provádět párové testování. Testujeme nulovou hypotézu o shodnosti rozdělení obou výběrů. Začneme konstrukcí párového testu. Provedení testu pro dva nezávislé výběry bez použití výpočetní techniky je komplikované, a proto naznačíme pouze jeho uskutečnění pomocí software R.
4.1 Permutační test pro dva závislé výběry
Postup si ukážeme na příkladě s hodnotami tempa růstu reálného HDP v 10 nových členských zemích EU v letech 2002 a 2003. Data 4.1. Tempo růstu reálného HDP v % v letech 2002 a 2003 v 10 nových zemích EU
Země Česká republika Estonsko Kypr Litva Lotyšsko Maďarsko Malta Polsko Slovensko Slovinsko
Meziroční změna HDP, % 2002 2003 2,0 2,9 6,0 4,7 2,0 2,0 6,8 9,0 6,1 7,4 3,5 2,9 1,7 0,4 1,4 3,7 4,4 4,2 3,4 2,3
Pro zjednodušení výpočtu všechna data vynásobíme 10 (abychom eliminovali počítání s reálnými čísly). Budeme tedy počítat s meziroční změnou HDP v desetinách procent. Upravená data tedy mají tvar:
Země Česká republika Estonsko Kypr Litva Lotyšsko Maďarsko Malta Polsko Slovensko Slovinsko
Meziroční změna HDP, 0,1% 2002 2003 20 29 60 47 20 20 68 90 61 74 35 29 17 4 14 37 44 42 34 23
36
Postup je následující: Stejně jako u znaménkového či jednovýběrového Wilcoxonova testu opět zavedeme veličinu Z i jako rozdíl naměřených veličin X i (data z roku 2002) a Yi (data z roku 2003). Opět z pozorování vyloučíme případy, kdy Z i = 0 . V našem konkrétním příkladu budeme tedy dál pracovat s vektorem Z = (− 9,13,−22,−13,6,13,−23,2,11) . Permutační test počítá přímo dosaženou hladinu testu p . Podle našeho předpokladu (nulové hypotézy) by těchto 9 hodnot mělo kolísat kolem nuly. Představme si všechny devítice, které získáme tak, že před každé z čísel buď umístíme, nebo neumístíme znaménko minus. Jelikož pro každé z čísel máme právě dvě možnosti, celkem tedy máme 2 9 = 512 možností. Mezi těmito možnostmi teď musíme najít všechny devítice, které proti nulové hypotéze svědčí alespoň tolik, jako naše data. Nejprve si ukážeme provedení testu proti jednostranné alternativě, která říká, že tempo růstu HDP v roce 2003 bylo rychlejší než v roce 2002 (ve prospěch této hypotézy nám svědčí všechna záporná z i ). Jako kritérium porovnávání zvolíme součet všech znaménky opatřených čísel z i . Stejně tak bychom mohli jako odhad použít průměr těchto devíti hodnot. Součet našich dat je -22. Ve prospěch alternativní hypotézy budou svědčit ty devítice, jejichž součet je nejvýše -22. Tento požadavek splňují všechny devítice, u nichž součet kladných čísel nepřesáhne číslo 45. Výpočtem zjistíme, že takovýchto devític je právě 162. Dosažená hladina testu je potom p = 162 / 512 = 0,3164 . Nulovou hypotézu tedy nezamítáme. Nyní otestujeme oboustrannou alternativu. V její prospěch budou vedle těchto 162 devític svědčit také případy, kdy celkový součet je příliš vysoký (tzn. v roce 2002 bylo rychlejší tempo růstu HDP než v roce 2003). Těchto devític je symetricky 162 a hladina testu je potom p = 324 / 512 = 0,6328 . Opět tedy na hladině významnosti 0,05 nezamítáme nulovou hypotézu o shodnosti rozdělení výběrů.
4.2 Provedení permutačních testů pomocí software R 4.2.1 Párový permutační test
Nejprve je třeba nainstalovat příslušný balík obsahující permutační test. (Další možností je test vlastnoručně naprogramovat.) V nabídce Packages (na horní liště) zvolíme Instal package(s) from CRAN. Program se přes internet spojí se vzdálenou knihovnou a nabídne nám dostupné balíky, z nichž vybereme exactRankTests. Poté je ještě třeba příslušný balík nahrát do programu pomocí Load package z nabídky Packages. V tomto balíku je zahrnuta i podrobná nápověda, kterou vyvoláme příkazem help(perm.test). Přistoupíme k samotnému testu. Chceme testovat dva výběry, je proto třeba je nejprve nahrát. Každý výběr zvlášť uložíme jako vektor pomocí příkazu název_vektoru<-c(x1,...,xn) (například 1. výběr uložíme jako x a 2. jako y). Pokud si chceme dané výběry prohlédnout, stačí v příkazové řádce zadat x (resp. y). Příkaz pro spuštění permutačního testu má následující tvar: perm.test(x, y, paired=FALSE, alternative=c("two.sided", "less", "greater"), mu=0, exact=NULL, conf.int=FALSE, conf.level=0.95, tol=NULL, ...), kde jednotlivé parametry znamenají: x, y vektory celočíselných hodnot, paired upřesňuje, zda chceme provést párový test (=TRUE), nebo nepárový (=FALSE), 37
alternative mu exact conf.int conf.level tol
alternativní hypotéza – „two sided“ (oboustranná; předvolená v případě nespecifikování), „greater“ (větší), nebo „less“ (menší); stačí zadat počáteční písmeno, hodnota specifikující volitelný parametr polohy, specifikuje, zda chceme, aby byla počítána přesná p-hodnota, upřesňuje, zda chceme vypočítat interval spolehlivosti (pouze pro případ dvou nezávislých výběrů), hladina spolehlivosti, (tj. 1 − α ) pro interval, v případě, že zadáváme reálná data, jsou převedena do celočíselných násobením; potom hodnota „tol“ musí být větší než absolutní rozdíl hodnoty skutečného kvantilu a aproximovaného.
Poznámka 4.1. Není nutné vypisovat všechny argumenty a jejich hodnoty. Permutační test má předvolené parametry (viz obecný tvar), takže je třeba zadávat pouze ty informace, které nesouhlasí s přednastavenými. Například pokud zadáme pouze perm.test(x,y), provede se oboustranný permutační test pro dva nezávislé výběry testující hypotézu, že µ = 0 . Poznámka 4.2. V případě, že chceme provádět nepárový test pro výběry lišící se rozsahem, je třeba za vektor x považovat výběr s menším rozsahem. Výstup obsahuje v závislosti na námi zadaných parametrech: informaci, zda se jedná o párový či nepárový test, výčet proměnných do testu vstupujících, hodnotu testové statistiky T a p-hodnotu, alternativní hypotézu, případně interval spolehlivosti a danou hladinou spolehlivosti. Zkusíme tedy v programu R ověřit výsledky, které jsme získali výpočtem. Nejprve vložíme naše data do vektorů x a y a podle návodu zadáme příkaz k provedení testu. > x<-c(20,60,20,68,61,35,17,14,44,34) > y<-c(29,47,20,90,74,29,4,37,42,23) > perm.test(x,y,paired=TRUE,alternative="less") Ve výstupu máme následující informace: 1-sample Permutation Test data: x and y T = 45, p-value = 0.3164 alternative hypothesis: true mu is less than 0
Při testu proti jednostranné “menší“ alternativě nám skutečně vyšla p-hodnota rovna 0,3164. Na hladině významnosti 0,05 tedy nezamítáme nulovou hypotézu o shodnosti rozdělení. Provedeme ještě oboustrannou alternativu: > perm.test(x,y,paired=TRUE,alternative="two.sided") 1-sample Permutation Test data: x and y 38
T = 45, p-value = 0.6328 alternative hypothesis: true mu is not equal to 0
Opět se nám potvrdila správnost našeho výpočtu a ani tentokrát tedy nezamítáme nulovou hypotézu na dané hladině 0,05.
4.2.2 Permutační test pro dva nezávislé výběry
Nyní si ukážeme ještě jak provést permutační test pro dva nezávislé výběry. Porovnáme například tempo růstu HDP za rok 2003 v těchto 10 zemích s 15 původními zeměmi EU. Data 4.2. Tempo růstu reálného HDP v % v roce 2003 v 15 původních zemích EU a 10 nově přistoupivších Meziroční změna HDP, %, v roce 2003 Belgie 1,1 Česká republika Dánsko 0,4 Estonsko Finsko 1,9 Kypr Francie 0,5 Litva Irsko 1,4 Lotyšsko Itálie 0,3 Maďarsko Lucembursko 2,1 Malta Německo -0,1 Polsko Nizozemsko -0,7 Slovensko Portugalsko -1,3 Slovinsko Rakousko 0,7 Řecko 4,3 Spojené království 2,2 Španělsko 2,4 Švédsko 1,6
2,9 4,7 2,0 9,0 7,4 2,9 0,4 3,7 4,2 2,3
Opět vytvoříme dva vektory s daty. Pro zjednodušení výpočtu, stejně jako v předchozím případě, budeme počítat s desetinásobky naměřených hodnot. Hodnoty pro 10 nových zemí už máme uložené jako vektor y, vložíme tedy zbývajících 15 pod x: x<-c(11,4,19,5,14,3,21,-1,-7,-13,7,43,22,24,16)
Provedeme všechny tři varianty nepárového permutačního testu: > perm.test(x,y) 2-sample Permutation Test data: x and y T = 168, p-value = 0.0008511 alternative hypothesis: true mu is not equal to 0 > perm.test(x,y,alternative="less") 39
2-sample Permutation Test data: x and y T = 168, p-value = 0.0007321 alternative hypothesis: true mu is less than 0 > perm.test(x,y,alternative="greater") 2-sample Permutation Test data: x and y T = 168, p-value = 0.9993 alternative hypothesis: true mu is greater than 0
Jak vidíme, nulovou hypotézu zamítáme ve prospěch oboustranné alternativy a stejně tak v případě jednostranné alternativy říkající, že střední hodnota prvního výběru je menší. Nulovou hypotézu ale nezamítáme na hladině významnosti 0,05 proti alternativní hypotéze říkající, že střední hodnota prvního výběru je větší než střední hodnota výběru druhého.
4.3 Porovnání p-hodnot získaných permutačním testem a klasickým t-testem
Pro zajímavost dané výběry otestujeme ještě klasickým t-testem pomocí STATITIKY. Ve STATISTICE nejprve otestujeme předpoklad normality a jelikož tuto hypotézu nezamítáme, provedeme párový t-test v případě prvních dvou výběrů a dvouvýběrový t-test pro druhé dva výběry. V případě párového testu s daty 4.1. získáváme následující výsledek:
Prirustek HDP EU 10 2002
t
p
Prirustek HDP EU 10 2003 -0,504184 0,626243
Vidíme, že ani tentokrát na hladině významnosti 0,05 nezamítáme nulovou hypotézu o shodném rozdělení (ve prospěch oboustranné alternativy) a citlivost testů je přibližně stejná. Pro data 4.2 jsme provedením dvouvýběrového t-testu obdrželi následující hodnoty: t-value
F-ratio p Variances Variances
p
Prirustek HDP EU 15 2003 -3,57186 0,001618 3,397989 vs. Prirustek HDP EU 10 2003
0,040121
Závěr testu je dle očekávání opět stejný (zamítnutí nulové hypotézy). Citlivost t-testu je tentokrát o něco nižší, ale vzhledem k tomu, že z tabulky je patrný fakt, že výběry se liší rozptylem, nemůžeme tento výsledek považovat za relevantní. 40
Tabulky kritických hodnot pro neparametrické testy Tabulka 1
Kritické hodnoty znaménkového testu pro n = 6, 7, .., 20, α = 0,05 a α = 0,01 n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
α = 0,05 k1 k2 0 6 0 7 0 8 1 8 1 9 1 10 2 10 2 11 2 12 3 12 3 13 4 13 4 14 4 15 5 15
α = 0,01 k1 k2 0 8 0 9 0 10 0 11 1 11 1 12 1 13 2 13 2 14 2 15 3 15 3 16 3 17
Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.8).
Tabulka 2
Kritické hodnoty jednovýběrového Wilcoxonova testu pro n = 6, 7, .., 30, α = 0,05 a α = 0,01 n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
α = 0,05 krit. hodnota 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 58 65
α = 0,01 krit. hodnota 0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 41
23 24 25 26 27 28 29 30
73 81 89 98 107 116 126 137
54 61 68 75 83 91 100 109
Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.9).
Tabulka 3
Kritické hodnoty dvouvýběrového Wilcoxonova testu pro m = 1, 2, .., 30, n = 1,2, …, 30, α = 0,05 m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
n 1 --
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0 0 0 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5
0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 13 13
0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 21 22 23
2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30 32 33
5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35 37 38 40 42 43
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54
13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53 55 57 60 62 65
17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62 64 67 70 73 76
23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71 74 77 80 83 87
30 33 37 40 44 47 51 55 58 62 65 69 73 76 80 83 87 90 94 98
37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109
45 50 54 59 63 67 72 76 80 85 89 94 98 102 107 111 116 120
55 59 64 69 74 78 83 88 93 98 102 107 112 117 122 127 131
64 70 75 80 85 90 96 101 106 111 117 122 127 132 138 143
75 81 86 92 98 103 109 115 120 126 132 137 143 149 154
87 93 99 105 111 117 123 129 135 141 147 154 160 166
99 106 112 119 125 132 138 145 151 158 164 171 177
113 119 126 133 140 147 154 161 168 175 182 189
127 134 141 149 156 161 171 178 186 193 200
Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.10a).
42
Tabulka 4
Kritické hodnoty a modifikované kritické hodnoty Kolmogorovova – Smirnovova testu pro n = 5, …, 30, α = 0,05 n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Dn(α) 0,563 0,519 0,483 0,454 0,430 0,409 0,391 0,375 0,361 0,349 0,338 0,327 0,318 0,309 0,301 0,294 0,287 0,281 0,275 0,242 0,238 0,233 0,229 0,225 0,221 0,218
Modif. Dn(α) 0,343 0,319 0,300 0,285 0,271 0,258 0,249 0,242 0,234 0,227 0,220 0,213 0,206 0,200 0,195 0,190 0,187 0,183 0,180 0,176 0,173 0,171 0,168 0,166 0,163 0,161
Zdroj: Sprent, P.: Nonparametric Statistical Method. Second edition. (Table IV)
43
Označení µ
σ2 X S2 Fn ( x )
(
N µ ,σ 2 N (0,1) t (n ) F (m, n ) uα
)
t α (n ) Fα (m, n ) U T F
střední hodnota rozptyl výběrový průměr výběrový rozptyl výběrová distribuční funkce
normální rozdělení s parametry µ a σ 2 standardizované normální rozdělení Studentovo rozdělení s n stupni volnosti Fisherovo - Snedecorovo rozdělení s m a n stupni volnosti α -kvantil standardizovaného normálního rozdělení α -kvantil Studentova rozdělení s n stupni volnosti α -kvantil Fisherova - Snedecorova rozdělení s m a n stupni volnosti statistika se standardizovaným normálním rozdělením statistika se Studentovým rozdělením statistika s Fisherovým - Snedecorovým rozdělením
44
Použitá literatura a zdroje [1] Anděl, Jiří: Statistické metody. 3. vydání, Praha: Matfyzpress, 2003 [2] Budíková, Marie, Lerch, Tomáš, Mikoláš, Štěpán: Základní statistické metody. 1. vydání, Brno: Masarykova univerzita v Brně, 2005. [3] Zvára, Karel: Biostatistika. 2. vydání, Praha: Univerzita Karlova v Praze, nakladatelství Karolinum, 2003. [4] http://www.czso.cz/ [5] http://www.r-project.org/
45