Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky
Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické metody v ekonomii
Autor bakalářské práce: Jakub Zajíček Vedoucí bakalářské práce: Mgr. Milan Bašta, Ph.D.
NEPARAMETRICKÉ A PARAMETRICKÉ TESTY
školní rok 2012/2013
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal.
V Praze dne ………………………………. podpis
2
Poděkování Úvodem bych rád poděkoval panu Mgr. Milanu Baštovi, Ph.D. za odborné vedení této bakalářské práce, za trpělivost, ochotu, cenné rady a připomínky k jejímu zpracování.
3
Abstrakt Bakalářská práce se zabývá testováním statistických hypotéz, konkrétně parametrickými a neparametrickými statistickými testy. Tato práce se skládá z teoretické a praktické části. Teoretická část obsahuje stručný úvod do problematiky testování hypotéz a popis nejpoužívanějších parametrických a neparametrických testů. Praktická část obsahuje příklady, které ilustrují možné použití uvedených testů v praxi a analýzu vlastností vybraných testů prostřednictvím Monte Carlo simulací. Cílem této analýzy je porovnání vlastností vybraného parametrického a neparametrického testu v závislosti na splnění, či nesplnění předpokladu o normálním rozdělení populace. Klíčová slova: parametrické testy, neparametrické testy, validita, síla testu, Monte Carlo simulace
Abstract The
bachelor
thesis
deals
with
the
statistical
hypothesis
testing,
specifically
with the parametric and non-parametric statistical tests. This thesis consists of a theoretical and a practical part. The theoretical part contains a brief introduction to the hypothesis testing and a description of the most used parametric and non-parametric tests. The practical part contains examples illustrating a possible use of these tests and the analysis of characteristics of the selected statistical tests. This analysis is performed through the Monte Carlo simulations. The aim of this analysis is to compare the characteristics of the selected parametric and non-parametric test in dependence on fulfilment or non-fulfilment of the normality assumption. Keywords: parametric tests, non-parametric tests, validity, power of a test, Monte Carlo simulation
4
Obsah Úvod ........................................................................................................................................... 7 1.
Proces testování hypotéz .................................................................................................. 8 1.1
Formulace hypotéz ....................................................................................................... 8
1.2
Volba testového kritéria ............................................................................................... 9
1.3
Stanovení hladiny významnosti a sestrojení kritického oboru .................................... 9
1.4
Hladina významnosti testu ......................................................................................... 10
1.5
Síla testu ..................................................................................................................... 11
1.6
Faktory ovlivňující sílu testu ..................................................................................... 12
1.7
Výpočet testového kritéria ......................................................................................... 13
1.8
Rozhodnutí ................................................................................................................. 14
1.9
P-hodnota ................................................................................................................... 14
1.10 Intervaly spolehlivosti ................................................................................................ 14 2.
Parametrické a neparametrické testy ........................................................................... 16 2.1
Parametrické testy ...................................................................................................... 16
2.2
Neparametrické testy ................................................................................................. 16
2.3
Jednovýběrový t-test .................................................................................................. 17
2.4
Jednovýběrový Wilcoxonův test ................................................................................ 20
2.5
Párový t-test ............................................................................................................... 23
2.6
Párový Wilcoxonův test ............................................................................................. 27
2.7
Dvouvýběrový t-test .................................................................................................. 30
2.8
Mann-Whitneyův test (U-test) ................................................................................... 33
2.9
Jednofaktová analýza rozptylu (F-test) ...................................................................... 36
2.10 Kruskal-Wallisův test (H-test) ................................................................................... 39 2.11 Další parametrické a neparametrické testy................................................................. 42
5
3.
Analýza vlastností vybraných statistických testů ............................................................. 43 3.1
Monte carlo simulace ................................................................................................. 43
3.2
Zkoumané vlastnosti testů ......................................................................................... 44
3.2.1
Validita ............................................................................................................... 44
3.2.1
Síla testu ............................................................................................................. 45
3.3
Odhad směrodatné chyby odhadu .............................................................................. 45
3.4
Výsledky simulací a jejich popis ............................................................................... 46
3.4.1
Normální rozdělení ............................................................................................. 46
3.4.2
Laplaceovo rozdělení .......................................................................................... 49
3.4.3
Studentovo rozdělení .......................................................................................... 51
3.4.4
Rovnoměrné rozdělení ........................................................................................ 54
3.5
Shrnutí ........................................................................................................................ 56
Závěr ........................................................................................................................................ 57 Seznam literatury ................................................................................................................... 58 Seznam internetových zdrojů ................................................................................................ 59 Přílohy ..................................................................................................................................... 60
6
Úvod Statistika bývá obecně dělena na statistiku deskriptivní a induktivní. Deskriptivní statistika, která slouží k úplnému popisu vlastností statistických populací, může být použita v situacích, kdy jsou k dispozici všechny prvky dané populace. V praktických aplikacích se však většinou pracuje s populacemi, které čítají řádově stovky a tisíce jednotek a vyčerpávající šetření by bylo velmi nákladné, někdy úplně nereálné. Pokud mají být vyvozovány závěry o vlastnostech takovýchto populací, je nutné využít induktivní statistiku, která pracuje pouze s výběrovými
soubory.
Jednou
z nejpoužívanějších
metod
této
induktivní
(neboli
matematické) statistiky je testování statistických hypotéz, které slouží k ověření předpokladů o vlastnostech populace na základě výběrového souboru. Toto testování je prováděno prostřednictvím
statistických
testů,
které
mohou
být
rozděleny
na parametrické
a neparametrické [2]. Právě těmito statistickými testy se bude tato práce zabývat. Bakalářská práce je rozdělena do tří kapitol. První kapitola se zabývá obecným popisem procesu testování hypotéz a vysvětlením základních pojmů s testováním hypotéz souvisejících. První kapitolu tak lze chápat jako čistě teoretickou. Ve druhé kapitole budou vybrané parametrické a neparametrické testy představeny, popsány a aplikovány na jednoduchých příkladech. Tato kapitola bude mít charakter jak teoretický, tak i praktický. Náplní třetí kapitoly, která představuje hlavní praktický přínos této práce, je analýza vlastností vybraného parametrického testu a jeho neparametrického protějšku v závislosti na tvaru pravděpodobnostního
rozdělení
výchozí
populace.
Tato
analýza
bude
provedena
prostřednictvím Monte Carlo simulací. Cílem této bakalářské práce je popis nejpoužívanějších parametrických a neparametrických testů a analýza vlastností vybraných testů. Při zpracování této bakalářské práce byl použit MS Excel a zejména pak statistický program R. Tento software byl použit ke tvorbě grafů prezentovaných v práci, k veškerým výpočtům a také k realizaci Monte Carlo simulací.
7
1. Proces testování hypotéz V této kapitole budou vysvětleny základní pojmy týkající se testování statistických hypotéz a bude zde popsán doporučovaný postup [3] tohoto testování.
1.1 Formulace hypotéz Prvním krokem v procesu testování hypotéz je formulace určitého předpokladu na základě praktického problému. Takový předpoklad se nazývá nulová hypotéza. Tato nulová hypotéza se týká určité populační vlastnosti a obecně je zapisována ve tvaru , kde
je neznáma skutečná hodnota určitého populačního parametru a
je jeho
předpokládaná hodnota. Vedle nulové hypotézy musí být formulována alternativní hypotéza, která platnost nulové hypotézy popírá. Existují dva typy alternativních hypotéz - oboustranné alternativní hypotézy, které udávají, že hodnota parametru je jednoduše jiná než uvádí nulová hypotéza , a jednostranné alternativní hypotézy, které jsou tvrzením, že hodnota parametru je buďto menší (levostranné), nebo větší (pravostranné), než uvádí nulová hypotéza , resp. . Nulová hypotéza reprezentuje většinou nějaký standard nebo status quo. Jejím vyvrácením jsou tak prokázány určité změny. Nulovou hypotézu není možno testem prokázat. Může být pouze zamítnuta ve prospěch alternativy, nebo nezamítnuta. Nulová hypotéza není zamítána, pokud není testem prokázáno, že její platnost je výrazně v rozporu s údaji z výběrového souboru.
8
1.2
Volba testového kritéria
Dalším krokem je volba testového kritéria
. Existují stovky různých statistických testů
a zvolit ten vhodný není vždy jednoduché. Statistické testy lze rozdělit na dvě hlavní skupiny – testy parametrické a neparametrické. Častým předpokladem pro použití parametrických testů je normální rozdělení základního souboru. Pokud normalitu populace předpokládat nelze, může být žádoucí použití neparametrického testu. Popisem vybraných parametrických a neparametrických testů a jejich vzájemným srovnáním se bude tato práce zabývat v dalších kapitolách. Konkrétní test je volen na základě testované charakteristiky (test o střední hodnotě, o rozptylu atd.), předpokladů a vlastností daného testu.
1.3
Stanovení hladiny významnosti a sestrojení kritického oboru
Množina hodnot, kterých může testové kritérium nabývat, je rozdělena na dvě disjunktní podmnožiny – obor přijetí a kritický obor. Pokud bude hodnota testového kritéria spadat do oboru přijetí , nebude nulová hypotéza zamítnuta. Pokud bude hodnota testového kritéria spadat do kritického oboru
, bude nulová hypotéza zamítnuta ve prospěch alternativy.
Hranice mezi oborem přijetí a kritickým oborem je tvořena kritickými hodnotami. Při testování hypotéz se lze dopustit dvou druhů chyb. K chybě I. druhu dochází, pokud je na základě testu rozhodnuto zamítnout nulovou hypotézu, která ale ve skutečnosti platí. Pravděpodobnost chyby I. druhu
je určena vzorcem (
|
)
(1.1)
K chybě II. druhu dochází, pokud je na základě testu rozhodnuto nezamítnout nulovou hypotézu, která ale ve skutečnosti neplatí. Pravděpodobnost chyby II. druhu
je určena
vzorcem (
|
9
)
(1.2)
Tabulka 1.1: Chyby I. a II. druhu a jejich pravděpodobnosti závěr nezamítáme zamítáme
skutečnost je platná správné rozhodnutí chyba I. druhu
je platná chyba II. druhu správné rozhodnutí Zdroj: [3], vlastní zpracování
Pravděpodobnost chyby I. druhu pravděpodobnost
je označována jako hladina významnosti testu,
jako koeficient spolehlivosti testu a pravděpodobnost
jako síla
testu. Je obtížné minimalizovat pravděpodobnosti obou chyb, protože zde existuje silný reciproční vztah mezi pravděpodobností
a
, kdy snížení jedné vyvolá zvýšení druhé.
V praxi bývá předem pevně stanovena pravděpodobnost
, tedy hladina významnosti testu.
Pokud by byla stanovena pravděpodobnost chyby II. druhu, mohlo by dojít k situaci, že pravděpodobnost nesprávného zamítnutí nulové hypotézy bude neúměrně vysoká. Zamítnutí nulové hypotézy přitom mívá větší praktický dopad, protože tím dochází k popření určitého statu quo.
1.4
Hladina významnosti testu
Stanovením hladiny významnosti je stanovena velikost kritického oboru. Ten bude tak velký, aby k chybě I. druhu docházelo jen s předem stanovenou pravděpodobností. Kritické hodnoty, které oddělují kritický obor a obor přijetí, jsou tvořeny kvantily pravděpodobnostního rozdělení zvoleného testového kritéria za platnosti
.
Za předpokladu, že testové kritérium má za platnosti nulové hypotézy normované normální rozdělení, tedy N(0,1), budou jednostranné kritické obory na hladině významnosti
vypadat
následovně. Pro levostranné alternativní hypotézy { kde
}
je vypočítaná hodnota testového kritéria a
normálního rozdělení.
10
(1.3) je
kvantil normovaného
Pro pravostranné alternativní hypotézy bude mít kritický obor tvar {
}
(1.4)
V případě oboustranné alternativní hypotézy je kritický obor určen podle vzorce {
1.5
| |
}.
(1.5)
Síla testu
Pravděpodobnost chyby II. druhu
udává riziko, s jakým nedojde k zamítnutí nulové
hypotézy, která ovšem ve skutečnosti neplatí. Pravděpodobnost
neboli síla testu pak
udává, s jakou pravděpodobností bude provedeno správné rozhodnutí. Obrázek 1.1: Grafická ilustrace síly testu
Zdroj: [10], vlastní zpracování
11
Obrázek 1.1 znázorňuje situaci, kdy je testována nulová hypotéza o střední hodnotě populace s normálním rozdělením. Test hypotézy vypadá následovně , . Horní graf zobrazuje pravděpodobnostní rozdělení výběrového průměru za platnosti nulové hypotézy. Pokud bude v tomto případě hodnota výběrového průměru spadat do šedé výseče grafu, bude nulová hypotéza zamítnuta. Spodní graf zobrazuje pravděpodobnostní rozdělení výběrového průměru za předpokladu, že skutečná střední hodnota populace je nikoliv
,
jak říká nulová hypotéza. Pokud bude v tomto případě hodnota výběrového
průměru spadat do žluté výseče grafu, bude nulová hypotéza správně zamítnuta. Pravděpodobnost správného zamítnutí nulové hypotézy je zobrazena žlutě a jedná se o sílu testu. Pravděpodobnost, že nulová hypotéza nebude zamítnuta, je zobrazena červeně. Červená část tak reprezentuje pravděpodobnost chyby II. druhu.
Faktory ovlivňující sílu testu
1.6 -
Skutečná velikost efektu Rozdíl mezi předpokládanou hodnotou parametru (tedy tou, která je uvedena v nulové hypotéze) a skutečnou hodnotou se nazývá skutečná velikost efektu. Čím je tato velikost větší, tím větší je ceteris paribus pravděpodobnost, že nulová hypotéza bude správně zamítnuta. S rostoucí skutečnou velikostí efektu tedy roste síla testu.
-
Hladina významnosti Čím menší hladina významnosti
bude zvolena, tím menší bude ceteris paribus
kritický obor a zamítnutí nulové hypotézy bude méně pravděpodobné. Existuje tak i menší pravděpodobnost, že neplatná nulová hypotéza bude správně zamítnuta. S klesající hladinou významnosti klesá síla testu.
12
-
Rozsah výběru Se zvyšujícím se rozsahem výběrového souboru klesá směrodatná chyba odhadu daného parametru. Čím menší chybou bude pozorování zatíženo, tím větší bude ceteris paribus síla testu [10].
Obecně je za nejdůležitější faktor ovlivňující sílu testu považován rozsah výběru. Přestože zde mohou existovat ekonomické bariéry (vyšší náklady), může být optimální rozsah výběru jednoduše stanoven. Dále je nutno rozlišovat mezi statistickou a praktickou významností. Pokud bude proveden výběr o neúměrně velkém rozsahu, bude síla testu sice vysoká, ale každý byť prakticky nevýznamný efekt povede k zamítnutí nulové hypotézy. Naopak při neúměrně malém výběru může být i prakticky významný efekt považován za statisticky nevýznamný. Na obrázku 1.1 byla síla testu vypočítána a posteriori, při známém rozsahu výběru a skutečné velikosti efektu. Síla testu může být stanovena také a priori, a při určení prakticky významného efektu, hladiny významnosti a odhadu směrodatné odchylky, může být použita k určení minimálního rozsahu výběru. Za dostatečnou sílu testu se obecně považuje síla testu větší než 0,8 [10]. Například pokud je testována hypotéza o střední hodnotě populace, která je normálně rozdělena a její rozptyl je známý, bude minimální rozsah výběru
vypočítán
podle vzorce [( kde
1.7
je směrodatná odchylka a rozdíl
)
]
(1.6)
udává hodnotu prakticky významného efektu.
Výpočet testového kritéria
Nyní je proveden náhodný výběr, který obsahuje
pozorování o hodnotách
.
Z těchto výběrových hodnot jsou vypočítány statistiky nezbytné pro výpočet testového kritéria. Tyto statistiky jsou v případě parametrických testů většinou bodovými odhady sledovaných populačních parametrů. V případě neparametrických testů se jedná většinou o pořadové charakteristiky. Výpočet konkrétního testového kritéria je proveden na základě vzorce pro daný test, do kterého jsou dosazeny požadované charakteristiky výběrového souboru.
13
1.8
Rozhodnutí
Výsledná hodnota testového kritéria je porovnána s oborem přijetí a kritickým oborem. Pokud bude spadat do oboru přijetí, nebude nulová hypotéza zamítnuta. Pokud bude náležet do kritického oboru, bude nulová hypotéza zamítnuta.
1.9
P-hodnota
Rozhodnutí může být také provedeno na základě p-hodnoty. P-hodnota je pravděpodobnost, že testové kritérium nabude vypočítané hodnoty (nebo hodnoty ještě extrémnější) za platnosti nulové hypotézy. Například p-hodnota testu o střední hodnotě, kdy výběr pochází z normálního rozdělení a alternativní hypotéza je oboustranná, bude vypočítána podle vzorce ( kde
(| |)),
(1.7)
(| |) je hodnota distribuční funkce daného rozdělení testového kritéria za platnosti
v bodě | |, což je hodnota testového kritéria. Přístup, kdy dochází k rozhodnutí na základě p-hodnoty, je velmi podobný jako výše popsaný klasický přístup k testování hypotéz. V případě použití tohoto konceptu není konstruován kritický obor. Po vypočítání testového kritéria je určena jeho p-hodnota a porovnáním se zvolenou hladinou významnosti je provedeno rozhodnutí o nulové hypotéze. Pokud je p-hodnota menší než zvolená hladina významnosti, je nulová hypotéza zamítnuta. Naopak, pokud je p-hodnota větší než , nebude nulová hypotéza zamítnuta.
1.10 Intervaly spolehlivosti Intervaly spolehlivosti jsou s testováním hypotéz velmi úzce spjaty. Pokud bude pro hodnotu populačního parametru sestaven
(
)
interval spolehlivosti, bude tento interval
představovat množinu všech hodnot parametru stanoveného v nulové hypotéze, pro které nebude nulová hypotéza zamítnuta.
14
Například v případě testu o střední hodnotě, kdy výběr pochází z normálního rozdělení se známým rozptylem, by vypadal interval spolehlivosti s koeficientem spolehlivosti následovně ( ̅
̅
√
√
)
(1.8)
Bude-li hodnota parametru stanovená v nulové hypotéza spadat do intervalu spolehlivosti, nebude tato hypotéza zamítnuta. Naopak, pokud bude spadat mimo tento interval, bude nulová hypotéza zamítnuta. Statistický test je prováděn s cílem zamítnout či nezamítnout stanovenou nulovou hypotézu. Výstupem testu je hodnota testového kritéria nebo p-hodnota. Tyto hodnoty se však vztahují pouze ke stanovené nulové hypotéze. Naproti tomu interval spolehlivosti podává informaci o možných hodnotách parametru na základě pořízeného výběru. Je z něj ihned patrné, jakých hodnot může na určité hladině významnosti sledovaný parametr nabývat, bez nutnosti předem stanovovat různé hypotézy. Statistický test by tak měl být, pokud je to možné, doplněn intervalem spolehlivosti. V případě některých neparametrických testů je konstrukce intervalu spolehlivosti poměrně náročná, někdy zcela nemožná.
15
2.
Parametrické a neparametrické testy
V této kapitole budou představeny nejpoužívanější parametrické testy a jejich neparametrické alternativy. Pro potřeby této bakalářské práce budou detailněji popsány pouze testy o střední hodnotě, které jsou nejpoužívanější. U každého z těchto testů budou uvedeny základní předpoklady, jejichž naplnění podmiňuje korektnost testu. Dále budou popsány výpočetní principy, na základě kterých jsou jednotlivé testy realizovány. Jednotlivé testy budou aplikovány na jednoduchých příkladech, které budou ilustrovat jejich možné použití v praxi. Zadání těchto příkladů bylo vytvořeno autorem této bakalářské práce.
2.1
Parametrické testy
Parametrické
testy
jsou
skupinou
statistických
testů,
které
předpokládají
určité
pravděpodobnostní rozdělení základního souboru. Ve většině případů se jedná o předpoklad o normálním rozdělení populace. Pokud je předpoklad o tvaru rozdělení splněn, slouží parametrické testy k ověření hypotéz o parametrech populačních rozdělení, ze kterých byl pořízen výběrový soubor. Nejčastěji se testované hypotézy týkají dvou parametrů, a to střední hodnoty a rozptylu. Tyto parametry jsou zpravidla neznámé, protože většinou je nemožné získat všechna data ze sledované populace. Parametry dané populace jsou proto odhadovány na základě bodových odhadů, které jsou konstruovány pro různá rozdělení různě. Pokud je předpoklad o tvaru rozdělení výrazně porušen, nemusí být použití parametrického testu úplně korektní a může být žádoucí využití testu neparametrického [7].
2.2
Neparametrické testy
Hlavní odlišností neparametrických testů
ve srovnání s testy parametrickými
je,
že nepředpokládají specifické populační rozdělení. Neodhadují totiž populační parametry, které jsou závislé na tvaru rozdělení, ale slouží k ověření nulových hypotéz týkajících se např. mediánu populace nebo tvaru pravděpodobnostního rozdělení. Jsou tedy používány např. v případech, kdy nemůže být rozdělení populace považováno za normální, například kvůli silné šikmosti indikující existenci odlehlých hodnot, a zejména v situacích, kdy jsou k dispozici pouze nenormální výběry malého rozsahu [1]. Pokud však normalita populace není výrazně porušena, je preferován parametrický test, neboť se vyznačuje vyšší silou [7].
16
Použití neparametrických testů je dále nezbytné v případech, kdy mají výběrová data ordinální charakter, což vyplývá z výpočetního principu těchto testů, který bude ilustrován níže.
Jednovýběrový t-test
2.3
Tento test slouží k testování hypotéz o střední hodnotě populace s použitím jednoho náhodného výběru v případě, že směrodatná odchylka populace není předem známa. Skupina t-testů (ve všech svých modifikacích) tak představuje jedny z nejpoužívanějších statistických testů. Svůj název získal test podle pravděpodobnostního rozdělení testového kritéria, kterým je za platnosti nulové hypotézy Studentovo neboli
rozdělení. Jediným parametrem tohoto
rozdělení jsou stupně volnosti . Stupně volnosti jsou určovány rozsahem výběru. Graf 2.1: Hustoty pravděpodobnosti normovaného normálního rozdělení a Studentova 0.4
rozdělení s různými stupni volnosti
0.2 0.0
0.1
f(x)
0.3
t (1) t (3) t (8) t (30) N (0,1)
-4
-2
0 x
Platí, že čím vyšší je
2
4
Zdroj: vlastní zpracování
, tím je Studentovo rozdělení bližší normovanému normálnímu
rozdělení. Studentovo rozdělení se používá pro náhodné výběry o rozsahu menším než 30. Pro rozsáhlejší výběry (
) je rozdělení téměř identické jako normované normální
rozdělení. Lze tedy rovnou použít kvantily normovaného normálního rozdělení.
17
Předpoklady -
jednotlivá pozorování mají charakter alespoň intervalových proměnných
-
výběr je proveden náhodně a jednotlivá pozorování jsou vzájemně nezávislá
-
populace je normálně rozdělena (tento předpoklad je nutný zejména pro rozsah výběru )
Princip testu Testuje se nulová hypotéza říkající, že se střední hodnota základního souboru rovná určité zvolené hodnotě. , . Střední hodnota populace je odhadnuta výběrovým průměrem ̅ kde
∑
(2.1)
jsou hodnoty jednotlivých pozorování a
je rozsah výběru. Směrodatná odchylka
populace je odhadnuta výběrovou směrodatnou odchylkou √
(∑
̅ )
(2.2)
Výpočet testového kritéria T je proveden podle vzorce ̅
√
(2.3)
Pokud je absolutní hodnota testového kritéria větší než kritická hodnota testu, která je rovna (
)
kvantilu Studentova rozdělení o
na hladině významnosti
–
stupních volnosti, je nulová hypotéza
zamítnuta. Kritický obor tedy vypadá následovně {
| |
(
18
)}
(2.4)
Příklad č. 1 Hmotnost výrobku vyráběného strojem by měla být 200g. Z dokončené šarže bylo náhodně vybráno 12 výrobků, které byly pečlivě zváženy. Na 5% hladině významnosti je potřeba ověřit, zda stroj skutečně vyrábí výrobky požadované hmotnosti. V tabulce 2.1 jsou uvedeny hmotnosti jednotlivých výrobků v gramech. Tabulka 2.1: Data k příkladu č. 1 výrobek (i) 1 2 3 4 5 6 7 8 9 10 11 12 hmotnost (xi) 196,9 201,2 203 205,3 199,8 203,4 207,1 202,2 199,7 201,9 204,2 198,6
Zdroj: vlastní zpracování
Řešení Před samotným testováním je vhodné ověřit předpoklad normality. Ten bude ověřován pomocí Q-Q grafu, který porovnává výběrové kvantily s teoretickými kvantily normálního rozdělení. Graf 2.2: Q-Q graf zkonstruovaný na základě dat k příkladu
206 202 198
Sample Quantiles
Normal Q-Q Plot
-1.5
-0.5
0.5
1.5
Theoretical Quantiles
Zdroj: vlastní zpracování Z grafu 2.2 vyplývá, že výběr byl pořízen z populace s normálním rozdělením. Předpoklad normality tak lze považovat za splněný a k ověření hypotéz může být využit t-test.
19
Cílem je otestovat nulovou hypotézu , . Nejprve jsou vypočítány nezbytné statistiky – výběrový průměr a výběrová směrodatná odchylka. Jejich hodnoty jsou následující ̅ Poté je vypočítáno testové kritérium 2,313. Hodnota testového kritéria je větší než hodnota se rovná
kvantil
rozdělení s
stupni volnosti, jehož
. Nulová hypotéza je v tomto případě zamítnuta. Stejné rozhodnutí
vyplývá z p-hodnoty testu, která je
a také z
hodnotu hmotnosti v populaci, který je
intervalu spolehlivosti pro střední Test odhalil statisticky významný
rozdíl mezi předpokládanou a skutečnou hmotností výrobků.
Jednovýběrový Wilcoxonův test
2.4
Pokud nemůže být předpoklad o normalitě základního souboru považován za splněný, může být žádoucí využití neparametrické obdoby t-testu, kterou je jednovýběrový Wilcoxonův test. Ten slouží k ověření hypotézy, že pravděpodobnostní rozdělení populace je symetrické kolem určitého bodu ̃ . Bod ̃ je tak za platnosti nulové hypotézy mediánem tohoto rozdělení.
Předpoklady -
jednotlivá pozorování mají charakter alespoň ordinálních proměnných
-
výběr je proveden náhodně a jednotlivá pozorování jsou vzájemně nezávislá
-
výběr musí obsahovat minimálně 6 pozorování (pro menší výběry nemohou být na hladině významnosti
-
definovány kritické hodnoty)
rozdělení sledované proměnné v populaci je symetrické
20
Princip testu Testuje se hypotéza, že mediánem populace je zvolená hodnota. ̃
̃ ,
̃
̃ .
Prvním krokem je zavedení nové proměnné , jejíž hodnoty jsou definovány vztahem ̃ Pokud se
(2.5)
rovná nule, je pozorování z výpočtu vyřazeno. Jednotlivé hodnoty
jsou poté
seřazeny podle absolutní velikosti | |(
| |(
)
Každé hodnotě | | je přiřazeno číslo
)
…
| |( ) .
(2.6)
, které označuje jeho pořadí. Pořadím
čísla | | se
nazývá počet těch čísel | | ,…,| | , která jsou menší nebo rovna číslu | | . Pokud jsou jednotlivé hodnoty | | shodné, je celkové pořadí těchto hodnot určeno průměrem jejich jednotlivých pořadí. Dále jsou vypočítány veličiny
a
∑ Testové kritérium ve tvaru pro jednotlivé rozsahy výběru
(
∑
(2.7)
) je porovnáno s tabelovanou kritickou hodnotou
[1]. Pokud je hodnota testového kritéria menší nebo rovna
tabelované kritické hodnotě, je nulová hypotéza zamítnuta. Pro velká
lze využít testovou statistiku (
) (2.8)
√
(
)(
)
která má za platnosti nulové hypotézy asymptoticky rozdělení
(
). Kritický obor v tomto
případě využívá kvantilů normovaného normálního rozdělení {
| |
21
}.
(2.9)
Wilcoxonův test není prováděn přímo na základě zjištěných hodnot, jako je tomu u parametrických testů, ale na základě jejich pořadových charakteristik. Proto je vhodný také pro ordinální data, u kterých sice nelze určit o kolik je jedna hodnota větší než druhá, ale lze určit jejich pořadí. Je evidentní, že pokud bude například kladných odchylek výrazně více (nebo budou výrazně větší) než záporných, nebude taková populace symetricky rozdělena okolo určeného bodu ̃ a tento bod tak nebude mediánem rozdělení. Výsledkem testu v takovém případě bude nízká hodnota veličiny
, což povede k zamítnutí nulové hypotézy.
Obrázek 2.1: Grafická ilustrace použití jednovýběrového Wilcoxonova testu
4 3 1 ̃
2
5
6 7
8
9 10 11
Zdroj: vlastní zpracování Červená čísla označují pořadí absolutních hodnot. Veličina hodnoty
, přičemž kritická hodnota pro
na
v tomto případě nabývá
hladině významnosti je
[1].
Nulová hypotéza, která by tvrdila, že mediánem rozdělení je bod ̃ , by byla na hladině významnosti
zamítnuta. Test by prokázal, že prvky sledované proměnné nejsou
v populaci symetricky rozděleny kolem bodu ̃ . Tento bod by tak nebyl mediánem rozdělení.
Příklad č. 2 Zákazníci měli ohodnotit zakoupený výrobek body 1 až 10. Náhodně bylo vybráno 15 hodnocení. Jsou-li zákazníci s výrobkem spokojeni, měl by medián hodnocení být alespoň 5. Test bude proveden na hladině významnosti 5%. V tabulce 2.2 jsou zobrazena jednotlivá hodnocení. Tabulka 2.2: Data k příkladu č. 2 zákazník (i) body (xi)
1 8
2 2
3 3
4 9
5 5
6 6
7 2
8 7
9 3
10 11 12 13 14 15 10 4 3 6 9 7
Zdroj: vlastní zpracování
22
Řešení Sledovaná proměnná má ordinální charakter, proto bude použit Wilcoxonův jednovýběrový test. Cílem je otestovat hypotézu o populačním mediánu ve tvaru ̃
,
̃
.
Tabulka 2.3: Rozšíření tabulky 2.2 o hodnoty veličiny
a pořadí
zákazník (i)
1
2
3
4
5
6
7
8
9
10 11 12 13
14
15
body (xi)
8
2
3
9
5
6
2
7
3
10
4
3
6
9
7
0 -
1 2
-3 10
2 6
-2 6
5 14
-1 2
-2 6
1 2
4 12,5
2 6
yi Ri
3 -3 -2 4 10 10 6 12,5
Zdroj: vlastní zpracování Byly vypočítány následující hodnoty veličin
a
Alternativní hypotéza je jednostranná a říká, že medián populace je větší než udává nulová hypotéza. V takovém případě bude s kritickou hodnotou porovnána statistika hodnota pro
je
[1]. Protože hodnota
není menší než
hypotéza zamítnuta. Přibližná p-hodnota tohoto testu je
. Kritická
, nebude nulová
. Testem se tedy nepodařilo
prokázat, že by medián hodnocení výrobku byl větší než . Nelze tak tvrdit, že by zákazníci byli s výrobkem nadprůměrně spokojeni.
2.5
Párový t-test
Párový test je zvláštním případem dvouvýběrového testu, kdy je proveden jeden nezávislý výběr, na kterém je zkoumána stejná veličina (nebo dvě velmi podobné), za dvou různých okolností. Může se tak jednat například o porovnání reakční doby stejných řidičů v ranních a večerních hodinách. Nejčastěji se párový test používá pro analýzu sledované veličiny před určitým jevem a po něm, například reakce pacientů na léčbu. Jednotlivé objekty výběru jsou nezávislé, ale dvojice veličin měřených na těchto objektech jsou vzájemně závislé. Z důvodu této závislosti mohou být měření v rámci jednotlivých objektů spárována. Cílem testu je podat informaci o tom, zda mezi těmito dvojicemi hodnot existuje statisticky významný rozdíl. V praxi se opět nejčastěji využívá parametrický t-test. 23
Předpoklady -
jednotlivá pozorování mají charakter alespoň intervalových proměnných
-
výběr je proveden náhodně a jednotlivé objekty jsou vzájemně nezávislé
-
párové diference jsou normálně rozdělené (tento předpoklad je nutný zejména pro rozsah výběru
)
Princip testu Testuje se nulová hypotéza o rozdílu středních hodnot obou pozorování, který je roven Ve většině případů je voleno
.
. Testuje se tak hypotéza, že mezi středními hodnotami
dvojic pozorování neexistuje statisticky významný rozdíl. , . Principem párového t-testu je zavedení nové proměnné
, která popisuje rozdíl
mezi jednotlivými páry. Touto úpravou se z dvourozměrného problému stává problém jednorozměrný. Párový t-test je tak výpočetně proveden stejně jako jednovýběrový t-test pouze s využitím jiné proměnné. Nejprve jsou vypočítány jednotlivé hodnoty párových diferencí podle vzorce (2.10) kde
je první hodnota i-tého objektu a
je druhá hodnota i-tého objektu. Výběrový
průměr párových diferencí je vypočítán podle vzorce ̅
∑
(2.11)
Dále je vypočítána výběrová směrodatná odchylka těchto diferencí √
̅ )
(∑
(2.12)
Tyto výběrové statistiky jsou dosazeny do vzorce pro výpočet testového kritéria ̅
24
√
(2.13)
Absolutní hodnota testového kritéria je porovnána s ( rozdělení o
)
kvantilem Studentova
stupních volnosti. Pokud je hodnota testového kritéria větší než tento
kvantil, je nulová hypotéza na hladině významnosti
zamítnuta. Kritický obor tedy vypadá
následovně {
| |
(
)}
(2.14)
Příklad č. 3 Závodníci testovali dva typy lyží tak, že sjeli stejný kopec jednou na lyžích A a jednou na lyžích B. Cílem testu je odpovědět na otázku, zda existuje statisticky významný rozdíl mezi těmito dvěma typy lyží na hladině významnosti 5%. V tabulce 2.4 jsou uvedeny časy (v sekundách) jednotlivých závodníků, kterých dosáhli s různými lyžemi. Tabulka 2.4: Data k příkladu č. 3 závodník (i) lyže A (x1,i) lyže B (x2,i)
1 2 3 4 5 6 7 8 9 10 11 53,2 55,7 59,6 52,8 58,9 54,4 50,1 76,3 56,1 52,5 53,5 50,2 54,8 63,4 49,5 55,6 56,2 47,9 54,5 53,2 52,9 55,2
Zdroj: vlastní zpracování
Řešení Nejprve byly vypočítány jednotlivé párové diference
.
Tabulka 2.5: Tabulka 2.4 rozšířena o hodnoty párových diferencí závodník (i) lyže A (x1,i) lyže B (x2,i) rozdíl di
1 53,2 50,3 2,9
2 3 4 5 6 7 8 9 10 11 55,7 59,6 52,8 58,9 54,4 50,1 76,3 56,1 52,5 53,5 54,8 63,4 49,5 55,6 56,2 47,9 54,5 53,3 52,9 55,2 0,9 -3,8 3,3 3,3 -1,8 2,2 21,8 2,8 -0,4 -1,7
Zdroj: vlastní zpracování
25
Graf 2.3: Q-Q graf párových diferencí
15 10 5 0
Sample Quantiles
20
Normal Q-Q Plot
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
Zdroj: Vlastní zpracování Z grafu 2.3 je patrné, že předpoklad normality je splněn. Pouze jedna hodnota se vyznačuje svou odlehlostí a normalitu porušuje. Protože odlehlé hodnoty mohou výrazně ovlivnit výsledek testu, mělo by být toto odlehlé pozorování, ke kterému došlo u 8. závodníka, vyřazeno. Velmi vysoký rozdíl mezi jednotlivými časy (více než šestinásobný oproti druhému největšímu rozdílu) byl pravděpodobně způsoben chybou závodníka v první jízdě a ne rozdílností lyží. Po vyřazení této odlehlé hodnoty z výběru může být proveden t-test. Cílem je otestovat nulovou hypotézu o rovnosti středních hodnot obou časů. , . Nejprve byl vypočítán výběrový průměr párových diferencí a jejich výběrová směrodatná odchylka. Hodnoty těchto statistik jsou následující ̅
.
Poté bylo vypočítáno testové kritérium, které má hodnotu .
26
Po porovnání hodnoty testového kritéria s jehož hodnota je
kvantilem
rozdělení s
stupni volnosti,
, je rozhodnuto nulovou hypotézu nezamítat. Ke stejnému rozhodnutí
dochází na základě p-hodnoty testu, která je párovou diferenci , který je
, nebo podle intervalu spolehlivosti pro .
Na základě získaných dat nelze zamítnout nulovou hypotézu o nulovém rozdílu mezi středními hodnotami obou naměřených časů. Přestože s lyžemi B dosahovali závodníci o něco lepších časů, nejedná se v tomto případě o statisticky významný rozdíl.
Párový Wilcoxonův test
2.6
Neparametrickým protějškem k párovému t-testu je párový Wilcoxonův test.
Předpoklady -
výběr je proveden náhodně a jednotlivé objekty jsou vzájemně nezávislé
-
párové diference jsou symetricky rozdělené
-
jednotlivá pozorování mají charakter alespoň intervalových proměnných. Na rozdíl od jiných neparametrických testů, které umí pracovat i s ordinálními proměnnými, je v tomto
případě
použití
alespoň
intervalových
proměnných
nezbytné.
Mezi jednotlivými páry musí být totiž vypočítán rozdíl a ten u ordinálních proměnných určit nelze.
Princip testu Cílem testu je ověření nulové hypotézy o mediánu populace párových diferencí ̃
,
̃
.
Stejně jako u párového t-testu jsou i v tomto případě nejdříve určeny párové diference (2.15)
27
Protože v nulové hypotéze ve většině případů figuruje
, není nutné zavádět veličinu
jako u jednovýběrového testu, neboť ta by byla ve tvaru (2.16) Jednotlivé hodnoty
seřazeny podle své absolutní velikosti (podle vzorce 2.6). Každé
hodnotě | | je přiřazeno pořadí
. Poté jsou vypočítány veličiny ∑
∑
(2.17)
Testové kritérium ve tvaru
(
) je porovnáno s tabelovanou kritickou hodnotou
pro jednotlivé rozsahy výběru
[1]. Pokud je hodnota testového kritéria menší nebo rovna
tabelované kritické hodnotě, je nulová hypotéza zamítnuta. Pro velký rozsah výběru
lze
testové kritérium aproximovat s využitím normovaného normálního rozdělení, podle vzorce (2.8).
Příklad č. 4 Účastníkům vzdělávacího kurzu byly předloženy dva testy. Jeden řešili na začátku kurzu a druhý poté, co kurz absolvovali. Firma chce tímto způsobem získat informace o praktické přínosnosti svých kurzů. Cílem testu bude na 5% hladině významnosti zjistit, zda existuje statisticky významný rozdíl mezi bodovým ziskem z obou testů. Náhodně bylo vybráno 16 účastníku, jejichž výsledky byly porovnány. V tabulce 2.6 jsou uvedeny výsledky (v %), kterých jednotliví účastníci dosáhli Tabulka 2.6: Data k příkladu č. 4 účastník (i) 1. test (x1,i) 2. test (x2,i)
1 74 83
2 38 54
3 56 64
4 83 90
5 72 78
6 86 84
7 43 57
8 63 70
9 85 87
10 91 92
11 76 89
12 59 80
13 65 74
14 81 88
15 61 72
16 78 88
Zdroj: vlastní zpracování
28
Řešení Nejprve bude ověřen předpoklad normality populace párových diferencí . Graf 2.4: Q-Q graf párových diferencí
-5 -10 -15 -20
Sample Quantiles
0
Normal Q-Q Plot
-2
-1
0
1
2
Theoretical Quantiles
Zdroj: vlastní zpracování Z grafu 2.4 vyplývá, že populace nemá normální rozdělení. Rozdělení populace je evidentně leptokurtické. Předpoklad normality je v tomto případě porušen, proto bude použit neparametrický Wilcoxonův párový test. Cílem je otestovat hypotézu o nulovém mediánu populace párových diferencí. ̃
,
̃
.
Tabulka 2.7: Tabulka 2.6 rozšířena o hodnoty párových diferencí účastník (i) 1. test (x1,i) 2. test (x2,i) rozdíl di Ri
1 74 83
12 59 80
a jejich pořadí
2 38 54
3 56 64
4 83 90
5 72 78
6 86 84
7 43 57
8 63 70
9 85 87
10 91 92
11 76 89
13 65 74
14 81 88
15 61 72
16 78 88
-9 -16 9,5 15
-8 8
-7 6
-6 4
2 -14 2,5 14
-7 6
-2 2,5
-1 1
-13 -21 -9 13 16 9,5
-7 6
-11 -10 12 11
Zdroj: vlastní zpracování Poté byly vypočítány veličiny
a
. Jejich hodnoty jsou následující
29
Testové kritérium má v tomto případě hodnotu
. Protože kritická hodnota pro výběr
[1], je nulová hypotéza na
hladině významnosti zamítnuta. Stejné
o rozsahu
je
rozhodnutí je provedeno i na základě přibližné p-hodnoty testu, která je
. Testem
se podařila prokázat statisticky významná přínosnost kurzu. Až na jedinou výjimku došlo u všech absolventů kurzu ve výběru ke zlepšení. Lze tedy odhadovat, že se zlepšila také naprostá většina všech absolventů kurzu.
Dvouvýběrový t-test
2.7
Dvouvýběrový t-test je používán v případech, kdy jsou provedeny dva nezávislé výběry ze dvou různých populací. Cílem tohoto testu je odhalit existenci statisticky významného rozdílu mezi středními hodnotami obou populací.
Předpoklady -
jednotlivá pozorování mají charakter alespoň intervalových proměnných
-
jednotlivá pozorování jsou vzájemně nezávislá
-
jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé
-
obě populace jsou normálně rozdělené (tento předpoklad je nutný zejména pro výběry o rozsahu
-
)
obě populace mají stejný, nebo velmi podobný rozptyl
Princip testu Testují se stejné hypotézy jako v případě párového t-testu, tedy , . Jsou provedeny dva nezávislé výběry. První výběr představuje veličina o rozsahu
. Druhý výběr je představován veličinou
patrné, že není nutné, aby byl rozsah obou výběrů stejný.
30
z
(
) o rozsahu
z
(
)
. Je tedy
Testové kritérium je vypočítáno podle vzorce ̅ √(
̅ )
(
(
√
)
)
(2.18)
kde ̅ a ̅ jsou výběrové průměry jednotlivých výběrů vypočítané podle vzorce (2.1) a
a
jsou rozptyly jednotlivých výběrů. Ty jsou vypočítány podle vzorce (∑
̅ )
Absolutní hodnota testového kritéria je porovnána s ( rozdělení o stupních volnosti
(2.19) )
kvantilem Studentova
. Kritický obor tedy vypadá následovně {
| |
(
)}
(2.20)
Pokud není splněn předpoklad o shodnosti rozptylů obou populací, je používána modifikace dvouvýběrového t-testu, kterou je Welchův t-test.
Příklad č. 5 25 pacientů s nadváhou bylo náhodně rozděleno na dvě části, přičemž prvních 13 pacientů dodržovalo po dobu dvou měsíců dietu A a dalších 12 pacientů dietu B. Cílem testu je na 5% hladině významnosti určit, zda existuje statisticky významný rozdíl mezi oběma dietami. Tabulka 2.8 obsahuje váhové úbytky (v kg) jednotlivých pacientů. Tabulka 2.8: data k příkladu č. 5 pacient (i) dieta A (xi) pacient (i)
1 4,8 14
2 8,7 15
3 6 16
4 7,3 17
5 8,1 18
6 5,9 19
7 3,9 20
8 6,4 21
9 10,1 22
10 5,5 23
11 6,8 24
12 8,5 25
dieta B (yi)
8,4
6,9
10,9
8,3
6,5
10,4
9,8
12,1
8,1
7,8
9,7
8,8
13 7,2
Zdroj: vlastní zpracování
31
Řešení Normalita obou populací je patrná z grafu 2.5. Graf 2.5: Q-Q grafy jednotlivých výběrů
12 10 9
4
7
8
6
7
8
Sample Quantiles
9 10
Normal Q-Q Plot
5
Sample Quantiles
Normal Q-Q Plot
-1.5
-0.5
0.5
-1.5
1.5
Theoretical Quantiles
-0.5
0.5
1.5
Theoretical Quantiles
Zdroj: vlastní zpracování Výběrové směrodatné odchylky obou výběrů jsou velmi podobné
Oba předpoklady pro použití dvouvýběrového t-testu jsou v tomto případě splněny. Cílem je otestovat nulovou hypotézu o rovnosti středních hodnot obou váhových úbytků. , . Výběrové průměry obou veličin jsou následující ̅
̅
Byla vypočítána hodnota testového kritéria .
32
kvantil
rozdělení s
stupni volnosti má hodnotu
. Protože je absolutní
hodnota testového kritéria větší než kritická hodnota, je na hypotéza zamítnuta. P-hodnota testu je
hladině významnosti nulová
. Dvouvýběrový t-test potvrdil existenci
statisticky významného rozdílu mezi efektem těchto dvou diet.
2.8
Mann-Whitneyův test (U-test)
Pokud je předpoklad normality základního souboru výrazněji porušen, nebo mají-li data charakter ordinálních proměnných, je používána neparametrická obdoba dvouvýběrového t-testu. Tou je Mann-Whitneyův test, také známý jako Mann-Whitneyův U test.
Předpoklady -
jednotlivá pozorování mají charakter alespoň ordinálních proměnných
-
jednotlivá pozorování jsou vzájemně nezávislá
-
jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé
Princip testu Mann-Whittneyův test slouží k ověření nulové hypotézy o shodnosti rozdělení obou populací. ,
Jsou provedeny dva nezávislé výběry. První výběr představuje veličina a druhý výběr veličina
o rozsahu
o rozsahu
. Ani u tohoto testu tedy není nutné, aby měly oba
výběry stejný rozsah. Jednotlivé absolutní hodnoty obou pozorování jsou uspořádány vzestupně (podle vzorce 2.6), bez ohledu na to, ze kterého výběru pocházejí. Každé absolutní hodnotě je přiřazeno pořadí
.
Pro jednotlivé výběry je nejprve vypočítán součet pořadí jednotlivých absolutních hodnot ∑
∑
33
(2.21)
Poté jsou zvlášť pro každý výběr vypočítány statistiky ( Testové kritérium ve tvaru
(
) (
)
(2.22)
) je porovnáno s tabelovanou kritickou hodnotou [1].
Pokud je hodnota testového kritéria menší (nebo rovna) než kritická hodnota, je nulová hypotéza zamítnuta. Pro výběry o velkém rozsahu (
) je možné použít testové
kritérium
√
(
(2.23)
)
které má za platnosti nulové hypotézy asymptoticky normované normální rozdělení. Pokud hodnota testového kritéria spadá do kritického oboru {
| |
je nulová hypotéza na hladině významnosti
}
(2.24)
zamítnuta.
Příklad č. 6 Náhodně bylo vybráno 16 pracujících obyvatel dvou českých měst a byly srovnány jejich hrubé měsíční mzdy. Cílem testu je určit, zda existuje statisticky významný rozdíl ve struktuře mezd v těchto městech. Test bude proveden na 5% hladině významnosti. V tabulce 2.9 jsou uvedeny měsíční mzdy (v Kč) jednotlivých obyvatel. Tabulka 2.9: Data k příkladu č. 6 obyvatel (i) 1 Praha (xi) 33 000 obyvatel (i) 9
2 24 500 10
3 46 000 11
4 22 000 12
5 16 000 13
6 63 000 14
7 23 500 15
8 25 500 16
Ostrava (yi)
23 000
10 000
16 500
42 000
12 500
11 500
24 000
9 500
Zdroj: vlastní zpracování
34
Řešení Graf 2.6: Q-Q grafy jednotlivých výběrů
-1.5
-0.5
0.5
40000 25000 10000
40000
Sample Quantiles
60000
Normal Q-Q Plot
20000
Sample Quantiles
Normal Q-Q Plot
1.5
-1.5
Theoretical Quantiles
-0.5
0.5
1.5
Theoretical Quantiles
Zdroj: vlastní zpracování Z grafu 2.6 vyplývá, že populace nemají normální rozdělení. Z důvodu nesplnění předpokladu normality bude k řešení příkladu využit Mann-Whitneyův test. Tabulka 2.10: Tabulka 2.9 rozšířena o pořadí jednotlivých hodnot obyvatel (i) 1 Praha (xi) 33 000 Ri 13
2 24 500 11
3 46 000 15
4 22 000 7
5 16 000 5
6 63 000 16
7 23 500 9
8 25 500 12
obyvatel (i) Ostrava (yi) Ri
10 23 000 8
11 10 000 2
12 16 500 6
13 42 000 14
14 12 500 4
15 11 500 3
16 24 000 10
9 9 500 1
Zdroj: vlastní zpracování Hodnoty výběrových statistik jsou následující
Hodnota testového kritéria je tedy je testu je
[1], je na
. Protože kritická hodnota pro výběr o rozsahu
hladině významnosti nulová hypotéza zamítnuta. P-hodnota
. Z výsledků vyplývá, že rozdělení obou populací jsou různá. Mezi mzdovou
strukturou v Praze a Ostravě tak existuje statisticky signifikantní rozdíl. 35
Jednofaktová analýza rozptylu (F-test)
2.9
V případech, kdy je testována hypotéza o rovnosti 3 a více středních hodnot, není možné použít t-test. Namísto něj je používána jednofaktorová analýza rozptylu, známější pod názvem jednofaktorová ANOVA (z anglického ANalysis Of VAriance). V praxi se ANOVA používá zejména v situacích, kdy je posuzován vliv určitého faktoru na sledovanou veličinu.
Předpoklady -
jednotlivá pozorování mají charakter alespoň intervalových proměnných
-
jednotlivá pozorování ve všech
-
jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé
-
jednotlivé výběry pocházejí z normálně rozdělených populací (tento předpoklad je
výběrech jsou vzájemně nezávislá
nutný zejména pro rozsah jednotlivých výběrů -
)
rozptyly jednotlivých výběrů je možno považovat za shodné
Princip testu Testuje se nulová hypotéza o rovnosti středních hodnot ve všech
populacích proti
alternativní hypotéze, že se alespoň jedna střední hodnota od ostatních liší. …
,
, jsou střední hodnoty jednotlivých populací.
kde
Jednotlivé naměřené hodnoty by měly být před samotným testováním pro přehlednost uspořádány do tabulky (viz tabulka 2.11). Tabulka 2.11: Vhodné uspořádání jednotlivých hodnot
…
…
…
k
yk1
yk2
… …
y1n1 y1n2
četnost (ni) n1 n2
…
y11 y21
hodnoty (yij) … y12 y22 …
…
výběr (i) 1 2
yknk
nk
Zdroj: [1], vlastní zpracování 36
Jak již bylo naznačeno, ověření hypotézy o rovnosti středních hodnot je provedeno na základě porovnání rozptylů. To je prováděno pomocí F-testu, který je v případě ANOVY používán k porovnání meziskupinové a vnitroskupinové variability. Testové kritérium je vypočítáno podle vzorce (2.25)
je meziskupinová variabilita,
kde
naměřených hodnot a
je vnitroskupinová variabilita,
je celkový počet
je počet výběrů. Meziskupinová a vnitroskupinová variabilita (neboli
součet čtverců) je získána rozkladem celkové variability podle vzorce ∑( ̅
kde
̅)
∑ ∑(
̅)
(2.26)
jsou jednotlivé naměřené hodnoty a ̅ je výběrovým průměrem těchto hodnot. ̅ je
výběrový průměr hodnot v -tém výběru a
je rozsah -tého výběru.
Vnitroskupinová variabilita popisuje kolísání hodnot okolo průměru v rámci jednotlivých skupin, které je způsobeno neznámými a náhodnými vlivy. Meziskupinová variabilita popisuje rozdíly průměrů jednotlivých skupin od celkového průměru a měří tak vliv posuzovaného faktoru. Hodnota testového kritéria je porovnána s ( volnosti
a
)
na zvolené hladině významnosti
kvantilem F rozdělení se stupni . Kritický obor tedy vypadá
následovně {
(
)}.
(2.27)
Příklad č. 7 Náhodně bylo vybráno 24 zaměstnanců těžební firmy pracujících v trojsměnném provozu. Cílem testu je určit na 5% hladině významnosti, zda existuje závislost mezi výkonností dělníků a směnou, ve které pracují. V tabulce 2.11 je zobrazena výkonnost jednotlivých dělníků měřena indexem výkonnosti, kde stanovená norma = 100.
37
Tabulka 2.12: Data k příkladu č. 6 směna (i) ranní odpolední noční
105 101 97
98 98 94
výkonnost (yij) 101 109 103 107 109 96 105 99 102 100 91 93
111 102 96
106 104 90
četnost (ni) 8 8 8
Zdroj: vlastní zpracování
Řešení Graf 2.7: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot 102 98
96
90
94
100
102
104
106
108
110
Normal Q-Q Plot
98
Sample Quantiles
Normal Q-Q Plot
-1.5
-0.5
0.5
1.5
-1.5
Theoretical Quantiles
-0.5
0.5
Theoretical Quantiles
1.5
-1.5
-0.5
0.5
1.5
Theoretical Quantiles
Zdroj: vlastní zpracování Z grafu 2.7 je patrné, že všechny tři výběry byly pořízeny z populací, které jsou normálně rozdělené. Výběrové směrodatné odchylky jednotlivých výběrů jsou následující
Rozptyly jednotlivých výběrů tak lze považovat za shodné. Všechny předpoklady F-testu jsou splněny. Příklad tak bude vyřešen aplikací metody ANOVA. Nejprve byla vypočítána meziskupinová a vnitroskupinová variabilita
Poté bylo vypočítáno testové kritérium
38
Protože
kvantil F-rozdělení se stupni volnosti
a
má hodnotu
hypotéza na 5% hladině významnosti zamítnuta. P-hodnota testu je
, je nulová . Test prokázal
statisticky významnou závislost výkonnosti dělníků na době směny.
2.10 Kruskal-Wallisův test (H-test) Pokud je testována hypotéza o rovnosti 3 a více středních hodnot, a pokud je předpoklad normality nebo shodnosti rozptylů výrazně porušen, nemusí být použití F-testu správné a může být žádoucí využití jeho neparametrické obdoby. Vhodnou neparametrickou alternativou je v tomto případě Kruskal-Wallisův test. Ten bude použit také v situacích, kdy mají sledované proměnné ordinální charakter.
Předpoklady -
jednotlivá pozorování mají charakter alespoň ordinálních proměnných
-
jednotlivá pozorování ve všech
-
jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé
-
jednotlivé výběry obsahují alespoň 5 pozorování
výběrech jsou vzájemně nezávislá
Princip testu Stejně jako v případě ANOVY by měly být jednotlivé naměřené hodnoty pro přehlednost uspořádány do tabulky (viz tabulka 2.11). Testuje se nulová hypotéza říkající, že všechny výběry pocházejí z totožných populací proti alternativě, že alespoň jeden výběr pochází z odlišné populace. , . Jedná se tak o stejný princip jako u Mann-Whitneyova testu rozšířený na situace, kdy je porovnáváno hodnoty všech
výběrů. Stejně jako u Mann-Whitneyova testu jsou jednotlivé absolutní pozorování uspořádány vzestupně (podle vzorce 2.6), bez ohledu na to, ze
kterého výběru pocházejí. Každé absolutní hodnotě je přiřazeno pořadí
39
.
Pro jednotlivé výběry je vypočítán součet pořadí ∑
kde
je rozsah -tého výběru. Testové kritérium je vypočítáno podle vzorce (
kde
(2.28)
)
je celkový počet pozorování a
∑
(
)
(2.29)
je počet výběrů. Za platnosti nulové hypotézy má
testové kritérium asymptoticky rozdělení
stupních volnosti.
o
Hodnota testového kritéria je porovnána s (
)
kvantilem
rozdělení s
stupni volnosti na hladině významnosti . Kritický obor tedy vypadá následovně {
(
)}.
(2.30)
Příklad č. 8 Z řešitelů testu inteligence bylo náhodně vybráno 27 osob, které byly rozděleny do čtyř skupin podle věku. Na 5% hladině významnosti má být proveden test hypotézy o existenci statisticky významné závislosti mezi velikostí IQ a věkem. V tabulce 2.13 jsou uvedeny jednotlivé zjištěné hodnoty IQ. Tabulka 2.13: Data k příkladu č. 8 věk (i) 20-29 30-39 40-49 50-59
115 98 113 85
93 135 104 89
138 141 128 101
hodnocení (xij) 104 124 118 129 110 129 91 83 105 117
151 108
118 132
četnost (ni) 120 9 8 5 5
Zdroj: vlastní zpracování
40
Řešení Graf 2.8: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot
0.5
120
-1.5
95
105
-0.5
0.5 1.0 1.5
120
Sample Quantiles
115
1.5
90 100
-0.5
85
Sample Quantiles
-1.5
100
Sample Quantiles
140 120 100
Sample Quantiles
140
Normal Q-Q Plot
-1.0
-0.5
0.0
0.5
1.0
-1.0
Theoretical Quantiles
-0.5
0.0
0.5
1.0
Theoretical Quantiles
Zdroj: vlastní zpracování Z grafu 2.8 je patrné, že výběry nepocházejí z normálně rozdělených populací. K řešení příkladu tak bude z důvodu silného porušení normality využit Kruskal – Wallisův test. Tabulka 2.14: Tabulka 2.13 rozšířena o pořadí naměřených hodnot skupina (i) A (20-29) 115 RA 14 B (30-39) 98 RB 6 C (40-49) 113 RC 13 D (50-59) 85 RD 2
93 5 135 24 104 9 89 3
138 25 141 26 128 20 101 7
hodnocení (xij) 103 124 118 8 19 16 129 110 130 21 12 22 91 83 4 1 105 117 10 15
151 27 108 11
119 17 132 23
120 18
četnost (ni) 9 8 5 5
Zdroj: vlastní zpracování
41
Byly vypočteny následující hodnoty statistik
které byly použity k výpočtu testového kritéria . Hodnota testového kritéria je větší než hodnota volnosti, který má hodnotu
kvantilu
. P-hodnota testu je
. Na
rozdělení se
stupni
hladině významnosti je
tak nulová hypotéza zamítnuta. Výsledkem Kruskal-Wallisova testu je tvrzení, že mezi hodnotou IQ a věkem existuje statisticky významná závislost.
2.11 Další parametrické a neparametrické testy Vedle testů o střední hodnotě, kterými se tato kapitola detailně zabývala, existují ještě další skupiny testů. Jsou to například tyto.
Testy o rozptylu Mezi parametrické testy o rozptylu patří
test o rozptylu, pomocí kterého jsou testovány
hypotézy, že rozptyl základního souboru je roven určité hodnotě. Pro testování hypotéz o shodě rozptylů dvou populací, je používán F-test. Bartlettovým testem jsou pak testovány hypotézy o shodně rozptylů v
výběrech. Neparametrickým testem o rozptylu je například
Siegel-Tukeyho test, který slouží k testování hypotéz o shodě rozptylů dvou populací [4].
Testy o rozdělení populace Tyto testy se používají zejména k testování nulových hypotéz, které předpokládají, že populace má pravděpodobnostní rozdělení určitého typu. Například, že je rozdělena normálně. Mezi nejpoužívanější testy z této skupiny patří
test dobré shody, Kolmogorov-Smirnovův
test pro jeden výběr nebo Shapiro-Wilkův test. Tyto uvedené testy jsou neparametrické.
42
3.
Analýza vlastností vybraných statistických testů
V předchozí kapitole bylo uvedeno několik obecných předpokladů, jejichž splnění je pro použití jednotlivých testů nezbytné. Jedná se zejména o předpoklad o normálním rozdělení populace, který je uveden u všech zmíněných parametrických testů. V předchozí kapitole bylo také uvedeno několik obecných doporučení ohledně vhodnosti použití parametrických a neparametrických testů (v oddílech 2.1 a 2.2). Jedná se zejména o tato dvě doporučení, která se v literatuře vyskytují nejčastěji: 1. Neparametrické testy jsou používány, pokud jsou k dispozici pouze výběry o malém rozsahu, které pocházejí z výrazně nenormálních rozdělení [např. 1, 7]. 2. Pokud není předpoklad normality výrazně narušen, jsou používány parametrické testy, protože jsou v těchto situacích silnější [např. 7, 11]. Náplní této kapitoly je porovnání vlastností vybraného parametrického testu a jeho neparametrické obdoby v závislosti na splnění, či nesplnění předpokladu o normálním rozdělení výchozí populace a také ověření výše uvedených obecných doporučení. Analyzovány budou vlastnosti jednovýběrového t-testu a jednovýběrového Wilcoxonova testu. Tyto testy jsou v praktických aplikacích hojně využívány zejména v podobě párových testů, které zkoumají vliv určitého jevu na sledovanou veličinu v případech, kdy byl pořízen jeden náhodný výběr z dvourozměrného rozdělení. Párové testy, podrobně popsané v kapitole 2.5 a 2.6, jsou výpočetně prováděny stejně jako testy jednovýběrové.
3.1
Monte carlo simulace
Aby mohly být vyvozeny obecné závěry o vlastnostech jednotlivých statistických testů, je potřeba, aby byly provedeny řádově tisíce náhodných výběrů, které budou následně podrobeny testování. Tento rozsáhlý počet výběrů bude realizován pomocí Monte Carlo simulací. Podstatou metody Monte Carlo je v tomto případě generování náhodných čísel z určeného pravděpodobnostního rozdělení. Takto generovaná čísla vytvoří náhodný výběr o zadaném počtu pozorování. Celkem bude pro dané vstupní parametry provedeno vždy 10 000 takových výběrů. 43
Každý z těchto výběrů bude otestován jednovýběrovým t-testem a jednovýběrovým Wilcoxonovým testem. Výstupem každého testu bude jeho p-hodnota. Zatímco p-hodnota t-testu je vždy přesná, v případě Wilcoxonova testu může být p-hodnota stanovena přesně, nebo pouze aproximována. Přesná p-hodnota pro oboustrannou alternativu je vypočítána podle vzorce [14] 2 ( ) kde
je rozsah výběru a
(3.1)
je počet možných způsobů uspořádání znamének, které vedou ke
stejné nebo menší hodnotě testového kritéria. Pokud je testové kritérium vypočteno podle vzorce (2.8), je p-hodnota tohoto testového kritéria aproximací skutečné p-hodnoty. Tato aproximace je používána pro velké rozsahy výběru. Přesná p-hodnota může být vypočítána pouze v případech, kdy výběr neobsahuje nulové nebo shodné hodnoty. Vzhledem k charakteru jednotlivých generovaných hodnot bude v tomto případě počítána přesná p-hodnota Wilcoxonova testu. Zjištěné p-hodnoty budou použity k následné analýze vlastností obou testů. Díky velkému počtu takto provedených testů budou získána velmi kvalitní data popisující chování těchto dvou testů v různých situacích.
3.2
Zkoumané vlastnosti testů
3.2.1 Validita První zkoumanou vlastností vybraných statistických testů je validita. Statistický test je považován za validní, pokud je empiricky zjištěná pravděpodobnost chyby I. druhu, tedy nesprávného zamítnutí platné nulové hypotézy, rovna stanovené hladině významnosti. Bude-li platná nulová hypotéza testována na hladině významnosti
, mělo by
k nesprávnému zamítnutí této hypotézy docházet s pravděpodobností limitně se blížící (pro
, kde
je počet provedených simulací). Všechny testy budou provedeny na
hladině významnosti
. Relativní četnost chyby I. druhu bude z provedené simulace
vypočítána jako podíl počtu těch případů, ve kterých byla nulová hypotéza zamítnuta (p-hodnota testu byla menší než
) a celkového počtu provedených testů. Při analýze
validity bude testována platná nulová hypotéza. Validita testu bude sledována v závislosti na zvoleném pravděpodobnostním rozdělení populace a počtu pozorování, které budou jednotlivé výběry obsahovat. 44
3.2.1 Síla testu Druhou zásadní vlastností testu je jeho síla. Jedná se o pravděpodobnost, že neplatná nulová hypotéza bude správně zamítnuta. Čím je síla testu větší, tím je menší pravděpodobnost chyby II. druhu a tím je daný test lepší. Síla testu bude z provedené simulace vypočítána jako podíl počtu těch případů, ve kterých byla nulová hypotéza zamítnuta (p-hodnota testu byla menší než
) a celkového počtu provedených testů. Výpočet tak bude proveden stejně
jako v případě analýzy validity pouze s tím rozdílem, že v tomto případě nebude testovaná nulová hypotéza platná. Při analýze síly testu bude testována neplatná nulová hypotéza. Síla testu bude sledována v závislosti na pravděpodobnostním rozdělení populace, počtu pozorování v jednotlivých výběrech a skutečné velikosti efektu.
3.3
Odhad směrodatné chyby odhadu
Výstupem Monte Carlo simulací budou relativní četnosti, které jsou odhadem skutečných relativních četností, a jako takové jsou zatíženy určitou chybou. Velikost této směrodatné chyby odhadu bude odhadnuta podle vzorce √ kde
je odhadovaná relativní četnost a
(
)
(3.2)
je počet provedených simulací (v tomto případě
). V případě analýzy validity testu je odhadována relativní četnost vesměs blízká hodnotě . Odhadovaná směrodatná chyba odhadu v tomto případě tak bude mít hodnotu vesměs blízkou hodnotě V případě analýzy síly testu je odhadována relativní četnost, která nabývá širokého spektra hodnot z intervalu (3.2) chápán jako funkce
. Bude-li předpis pro odhad směrodatné chyby odhadu ze vzorce , bude maxima této funkce dosaženo při
směrodatné chyby odhadu nabývá v tomto případě hodnoty
45
.
. Odhad
3.4
Výsledky simulací a jejich popis
Validita a síla jednotlivých testu byla sledována na výběrech pocházejících z vybraných symetrických rozdělení. Zvolena byla tato rozdělení – normální, Laplaceovo, Studentovo a rovnoměrné. Vybraná rozdělení se liší zejména svou špičatostí.
0.4
0.5
Graf 3.1: Hustoty pravděpodobností vybraných rozdělení
0.0
0.1
0.2
f(x)
0.3
N(0,1) L(0,1) t(2) R(-4,4)
-4
-2
0 x
2
4
Zdroj: vlastní zpracování
3.4.1 Normální rozdělení Pro potřeby simulací bylo zvoleno normované normální rozdělení, tedy normální rozdělení s parametry
. Jedná se o spojité symetrické rozdělení s nulovým koeficientem
špičatosti. Jak bylo již mnohokrát uvedeno, normalita populace je základním předpokladem validity většiny parametrických testů. Normální rozdělení bylo do simulací zařazeno jako výchozí rozdělení, které splňuje předpoklady obou testů.
46
Validita Testovány jsou nulové hypotézy resp. ̃
.
Tabulka 3.1: Relativní četnosti chyby I. druhu pro výběry z n t-test Wilcoxon
5 0,051 0,000
7 0,047 0,045
10 0,049 0,048
15 0,047 0,046
20 0,051 0,050
(
)
50 0,049 0,049
Zdroj: vlastní zpracování Relativní četnost chyby I. druhu se u obou testů pohybuje těsně kolem stanovené hodnoty ), a to pro všechny rozsahy výběrů. Pouze pro
(
dosahuje Wilcoxonův test nulové
hodnoty, v tomto případě tak ani jednou nedošlo k zamítnutí nulové hypotézy. To je způsobeno tím, že pro tak malý výběr nejsou definovány kritické hodnoty pro Wilcoxonův test. Wilcoxonovým testem lze na hladině významnosti hypotézu až pro rozsah výběru
zamítnout nulovou
[1]. Pokud výběry pocházejí z normálního rozdělení,
jsou oba testy zhruba stejně validní.
Síla testu Testovány jsou nulové hypotézy , resp. ̃ kde
, je skutečná velikost efektu. Ta v tomto případě nabývá hodnot
pochází z populace s rozdělením
(
. Výběr
). Testovaná nulová hypotéza je tudíž ve skutečnosti
neplatná.
47
Graf 3.2: Odhad síly testů pro různé rozsahy výběrů z
(
) v závislosti na skutečné
velikosti efektu
Zdroj: vlastní zpracování Z grafu 3.2 je patrné, že pro větší rozsahy výběrů dosahují oba testy podobné síly. Pro malé rozsahy výběrů, v tomto případě
, je rozdíl mezi silou obou testů největší. Pro
je
sice kritická hodnota Wilcoxonova test definována, její hodnota je však rovna 0. Nulová hypotéza tak bude zamítnuta pouze v případě, kdy všech šest těchto pozorování bude větších (nebo menších) než je testovaný medián. Pokud výběry pocházejí z populace s normálním rozdělením, bude t-test ve všech případech silnější než Wilcoxonův test. Rozdíl mezi silami obou testů se bude zmenšovat s rostoucím počtem výběrů. Protože jsou za těchto podmínek oba testy validní, je na základě provedených simulací doporučeno používat t-test, který se vyznačuje větší silou.
48
3.4.2 Laplaceovo rozdělení Laplaceovo neboli dvojité exponenciální je spojité symetrické rozdělení. Na rozdíl od normálního rozdělení je zde koeficient špičatosti větší než nula, jedná se tak o rozdělení leptokurtické. V případě leptokurtických rozdělení se sice většina hodnot nachází velmi blízko střední hodnotě, ale existuje zde také větší množství odlehlých hodnot než v případě normálního rozdělení. Tyto odlehlé hodnoty se v grafu 3.1 projevují tzv. „těžkými konci“. Výběry z Laplaceova rozdělení byly do simulací zařazeny, aby mohla být validita a síla testů sledována v případě, kdy je předpoklad normality porušen, a to rozdělením s větší špičatostí. Pro potřeby simulací bylo zvoleno Laplaceovo rozdělení s parametry
Validita Testovány jsou nulové hypotézy resp. ̃
.
Tabulka 3.2: Relativní četnosti chyby I. druhu pro výběry z ( n t-test Wilcoxon
5 0,038 0
7 0,037 0,049
10 0,044 0,050
15 0,047 0,049
20 0,047 0,049
)
50 0,048 0,050
Zdroj: vlastní zpracování Relativní četnost zamítnutí platné nulové hypotézy je v případě Wilcoxonova testu téměř identická se stanovenou relativní četností (
). Pouze pro
, kdy není kritická hodnota
Wilcoxonova testu definována, nedošlo k zamítnutí nulové hypotézy v žádném z případů. V případě t-testu docházelo, zejména při menších rozsazích výběrů, k zamítnutí platné nulové hypotézy v menším procentu případů, než by odpovídalo stanovené hodnotě. Pro malé výběry z Laplaceova rozdělení je tedy t-test testem konzervativním (tj. takovým, pro který platí, že relativní četnost chyby I. druhu je výrazně menší, než je stanovená hladina významnosti ). Přestože je konzervativní test považován za validní, není tato vlastnost ideální.
49
P-hodnota konzervativních testů je obecně vyšší, než by podle stanovených parametrů měla být. K zamítnutí nulové hypotézy (ať už platné, či nikoliv) tak dochází s menší četností, než jaká byla stanovena. To se v případě, kdy je testovaná hypotéza neplatná, projeví menší silou testu.
Síla testu Testovány jsou nulové hypotézy , resp. ̃ kde
, je skutečná velikost efektu, která v tomto případě nabývá hodnot
pochází z populace s rozdělením (
. Výběr
). Testovaná nulová hypotéza je tudíž ve skutečnosti
neplatná. Graf 3.3: Odhad síly testů pro různé rozsahy výběrů z (
) v závislosti na skutečné
velikosti efektu
Zdroj: vlastní zpracování 50
Z grafu 3.3 vyplývá, že pro velmi malé rozsahy výběrů (v tomto případě reprezentováno rozsahem výběru
) dosahuje t-test větší síly, než test Wilcoxonův, a to opět z důvodů
uvedených ve 3.4.1. Velmi zajímavá je také situace pro
, kdy pro menší hodnoty
skutečné velikosti efektu je Wilcoxonův test mírně silnější než t-test a naopak pro větší hodnoty je mírně slabší. Pro velikost rozsahu
je již Wilcoxonův test silnější ve všech
případech. Pokud mají být testovány výběry pocházející z výrazně leptokurtických rozdělení, je vhodnost použití těchto testů určena rozsahem výběru. Pro výběry, které obsahují
pozorování,
je vhodnější použít Wilcoxonův test, který se vyznačuje větší silou. Pokud jsou k dispozici výběry o menším rozsahu, bude vhodnější použít t-test, který za těchto okolností dosahuje i přes svou konzervativnost větší síly.
3.4.3 Studentovo rozdělení Dalším rozdělením zařazeným do simulací je Studentovo rozdělení, které již bylo představeno v kapitole 2.3. Studentovo rozdělení s nízkými stupni volnosti je podobně jako Laplaceovo rozdělení leptokurtické. Parametrem určujícím tvar Studentova rozdělení jsou stupně volnosti . Pro potřeby simulací byl zvolen počet stupňů volnosti
Studentovo rozdělení se
dvěma stupni volnosti se vyznačuje nejen kladným koeficientem špičatosti, ale zejména nekonečným rozptylem. Právě porušení normality vlivem teoreticky nekonečného rozptylu výchozí populace bude předmětem analýzy.
Validita Testovány jsou nulové hypotézy resp. ̃
.
51
Tabulka 3.3: Relativní četnosti chyby I. druhu pro výběry z ( ) n t-test Wilcoxon
5 0,031 0
7 0,032 0,047
10 0,033 0,050
15 0,038 0,049
20 50 1000 0,039 0,038 0,043 0,053 0,051 Zdroj: vlastní zpracování
V případě Wilcoxonova testu je relativní četnost zamítnutí platné nulové hypotézy velmi blízká teoretické pravděpodobnosti chyby I. druhu. Při použití t-testu dochází k zamítnutí platné hypotézy s menší pravděpodobností, než jaká byla stanovena. T-test je v tomto případě testem konzervativním stejně jako v případě malých výběrů z Laplaceova rozdělení. Tehdy však s rostoucím
relativní četnost konvergovala ke stanovené hladině významnosti
v důsledku klasické centrální limitní věty. V tomto případě však, v důsledku nekonečného rozptylu, není stanovená hladina významnosti (
) dosažena ani při
.
Síla testu Testovány jsou nulové hypotézy , resp. ̃
,
kde c je skutečná velikost efektu, která v tomto případě nabývá hodnot
. Výběr
pochází z populace s rozdělením ( ) a nulovou střední hodnotu. Testovaná nulová hypotéza je tudíž ve skutečnosti neplatná.
52
Graf 3.4: Odhad síly testů pro různé rozsahy výběrů z ( ) v závislosti na skutečné velikosti efektu
Zdroj: vlastní zpracování Stejně jako v předchozích případech i zde je t-test pro velmi malé rozsahy výběrů (v tomto případě
) silnější. Pro
je již mírně silnější Wilcoxonův test. Pokud výběr
obsahuje 20 pozorování, je Wilcoxonův test výrazně silnější než t-test. Z grafu je také patrné, že síla t-testu s rostoucím rozsahem výběru roste výrazně pomaleji, než síla Wilcoxonova testu. Pokud výběry pocházejí ze studentova rozdělení se dvěma stupni volnosti, je vhodnost použití testů určena rozsahem výběru. Pro velmi malé výběry (
) je vhodnější použít t-test,
který se v této situaci vyznačuje i přes svou konzervativnost větší silou. Naopak pro větší výběry je silnější Wilcoxonův test.
53
3.4.4 Rovnoměrné rozdělení Posledním rozdělením, ze kterého byly v rámci Monte Carlo simulací prováděny výběry, je rovnoměrné rozdělení. Hustota pravděpodobnosti tohoto rozdělení je mezi body
a
nenulová a konstantní. Koeficient špičatosti tohoto rozdělení je záporný a rozdělení tak je považováno za platykurtické. Toto rozdělení bylo do simulací vybráno z důvodu porušení normality, a to svou menší špičatostí. Pro potřeby simulací bylo zvoleno rozdělení s parametry
.
Validita Testovány jsou nulové hypotézy resp. ̃
.
Tabulka 3.4: Relativní četnosti chyby I. druhu pro výběry z ( n t-test Wilcoxon
5 0,068 0,000
7 0,058 0,047
10 0,054 0,046
15 0,049 0,044
20 0,052 0,048
)
50 0,049 0,047
Zdroj: vlastní zpracování Relativní četnost zamítnutí platné nulové hypotézy je v případě Wilcoxonova testu velmi blízká té stanovené (
). Jediná větší odchylka se objevuje pro
. Vzhledem k tomu,
že ostatní hodnoty nejsou výrazněji odchýleny, jedná se pravděpodobně pouze o výraznější chybu odhadu. Wilcoxonův test je validní pro všechna , pro která je definován tedy pro t-testu je, zejména pro velmi malé hodnoty Pro výběry
. V případě
, stanovená hladina významnosti překročena.
tak nemůže být t-test považován za úplně validní. Pro větší výběry
dochází vlivem klasické centrální limitní věty ke konvergenci ke stanovené hladině významnosti.
54
Síla testu Testovány jsou nulové hypotézy , resp. ̃ kde
, je skutečná velikost efektu. Ta v tomto případě nabývá hodnot
pochází z populace s rozdělením
(
. Výběr
) s nulovou střední hodnotu. Testovaná nulová
hypotéza je tudíž ve skutečnosti neplatná. Graf 3.5: Odhad síly testů pro různé rozsahy výběrů z (
) v závislosti na skutečné
velikosti efektu
Zdroj: vlastní zpracování Z grafu 3.5 je patrné, že na rozdíl od výběrů z leptokurtických rozdělení, kde byl t-test silnější pouze v případě nejmenšího výběru, je zde t-test silnější pro všechny zvolené rozsahy výběrů. Nejmarkantnější je rozdíl opět pro
, pro větší rozsahy jsou rozdíly v síle obou testů
menší, ale přesto znatelné.
55
Při testování výběrů pocházejících z rovnoměrného rozdělení je silnějším testem t-test, a to pro všechny použité rozsahy výběrů. Validita t-testu, zejména pak pro velmi malé rozsahy, je však narušena. Pokud bude preferováno dosažení stanovené hladiny významnosti, měl by být pro výběry o rozsahu
volen Wilcoxonův test, který je v takových
případech sice výrazně slabší, ale validní.
3.5
Shrnutí
Validita Pokud výběry pocházejí z normálního rozdělení, jsou oba testy stejně validní. Při výběrech z leptokurtických rozdělení jsou oba testy validní, ale t-test je konzervativní. Pokud má leptokurtické rozdělení konečný rozptyl, dochází při větším rozsahu výběru
ke konvergenci
ke stanovené relativní četnosti vlivem klasické centrální limitní věty. Pokud výběry pocházejí z rozdělení platykurtických, je validita t-testu pro malé rozsahy výběru rozsahy (zhruba pro
narušena. Pro větší
) dochází opět vlivem klasické centrální limitní věty ke
konvergenci ke stanovené relativní četnosti a t-test je tak možno opět považovat za validní.
Síla testu Pokud výběry pocházejí z normálního rozdělení, je silnější testem t-test, a to pro všechny rozsahy výběru . Při výběrech z leptokurtických rozdělení je t-test silnější pouze pro rozsahy výběru
, pro větší
je již silnější Wilcoxonův jednovýběrový test. Pokud mají
leptokurtická rozdělení nekonečný rozptyl, je rozdíl v síle testů výraznější. Pokud výběry pocházejí z platykurtických rozdělení, je pro všechna pro menší
validní.
56
silnějším testem t-test, ten však není
Závěr Tato bakalářská práce se zabývala testováním statistických hypotéz konkrétně parametrickými a neparametrickými testy. Náplní první kapitoly bylo seznámit čtenáře s teorií nezbytnou pro pochopení dalších částí práce. Byly zde vysvětleny základní pojmy související s testováním hypotéz a byl zde popsán obecný postup používaný při testování hypotéz. Ve druhé části byly popsány vybrané parametrické a neparametrické testy. Tento popis spočíval v uvedení předpokladů daných testů, vysvětlení jejich výpočetních principů a v ilustrování jejich použití na jednoduchých příkladech. Hlavní praktický přínos této práce je obsažen ve třetí kapitole. V této části byly analyzovány základní
vlastnosti
dvou
vybraných
statistických
testů
(jednovýběrového
t-testu
a jednovýběrového Wilcoxonova testu) a tyto testy byly vzájemně porovnány. Analýza byla realizována prostřednictvím Monte Carlo simulací. Cílem této kapitoly bylo ověřit obecná tvrzení, která se vyskytují v používané literatuře a která doporučují, kdy použít test parametrický a kdy neparametrický. Simulace byly provedeny na výběrech z několika symetrických rozdělení, která se liší zejména svou špičatostí. Analyzovány byly situace, kdy jsou k dispozici výběry o malém rozsahu ( Nejzajímavější
výsledky
přinesla
analýza
). leptokurtických
rozdělení
(Laplaceovo
a Studentovo). Chování t-testu je v těchto případech konzervativní, což se projevuje sníženou silou t-testu pro výběry
. Tento závěr příliš nekoresponduje s obecnými tvrzeními,
protože rozdělení, které se oproti normálnímu vyznačuje pouze mírně vyšší špičatostí, by mělo být považováno za přibližně normální. Dle tohoto doporučení by tak měl být používán t-test. Výsledky simulací však říkají něco jiného. Pokud by měly být testovány výběry z leptokurtických rozdělení o rozsahu (
), měl by být používán
Wilcoxonův test. Na základě výše uvedeného je možné považovat stanovené cíle bakalářské práce za splněné. Na práci by bylo možno v budoucnu navázat, a to provedením dalších podobných simulací (pro jiné testy, jiná rozdělení atd.). Zpracování tohoto tématu autora velmi obohatilo, a to jak po stránce teoretické, tak i po stránce praktické.
57
Seznam literatury [1] ANDĚL, Jiří. Matematická statistika. Praha: SNTL, 1985, 346 s. [2] CYHELSKÝ, Lubomír, Jana KAHOUNOVÁ a Richard HINDLS. Elementární statistická analýza. 2. vyd. Praha: Management Press, 2001, 318 s. ISBN 80-726-1003-1. [3] HINDLS, Richard, Stanislava HRONOVÁ, Jan SEGER a Jakub FISCHER. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007, 415 s. ISBN 978-80-86946-43-6. [4] KANJI, Gopal K. 100 statistical tests. 3rd ed. Thousand Oaks, Calif.: Sage Publications, 2006, 242 p. ISBN 14-129-2375-1. [5] PECÁKOVÁ, Iva. Statistika v terénních průzkumech. 2. dopl. vyd. Praha: Professional Publishing, 2011, 236 s. ISBN 978-80-7431-039-3.
58
Seznam internetových zdrojů [6] ETH ZÜRICH. Manuál k softwaru R [online]. [cit. 2013-05-17]. Dostupné z: http://stat.ethz.ch/R-manual [7] Parametric and Nonparametric: Demystifying the Terms. MAYO CLINIC [online]. [cit. 2013-05-17]. Dostupné z: http://www.mayo.edu/mayo-edu-docs/center-for-translationalscience-activities-documents/berd-5-6.pdf [8] VASSAR COLLEGE. Website for Statistical Computation [online]. [cit. 2013-05-17]. Dostupné z: http://vassarstats.net [9] A Comparison of the Power of Wilcoxon's Rank-Sum Statistic to That of Student's t Statistic under Various Nonnormal Distributions. UNIVERSITY OF SOUTH FLORIDA. [online]. [cit. 2013-05-17]. Dostupné z: http://www.jstor.org/stable/1164905 [10] Hypothesis Testing and Statistical Power of a Test. INDIANA UNIVERSITY. [online]. [cit. 2013-05-17]. Dostupné z: http://www.indiana.edu/~statmath/stat/all/power/power.pdf [11] Nonparametric tests. UNIVERSITY OF NEW ENGLAND. [online]. [cit. 2013-05-17]. Dostupné z: http://www.une.edu.au/WebStat/unit_materials/c6_common_statistical_tests/ nonparametric_test.html [12] STATSOFT. Electronic statistics textbook [online]. [cit. 2013-05-17]. Dostupné z: http://www.statsoft.com/textbook [13] Nonparametric Analysis. STATISTICS SOLLUTION. [online]. [cit. 2013-05-17]. Dostupné z: http://www.statisticssolutions.com/academic-solutions/resources/directory-ofstatistical-analyses/#NonParametricAnalysis-5 [14] Calculation of p-value for Wilcoxon Signed-Rank test. UNIVERSITY OF WASHINGTON. [online]. [cit. 2013-05-17]. Dostupné z: https://courses.washington.edu/dphs568/course/Wilcoxon%20P-values.doc
59
Přílohy A. Ukázky R kódů, prostřednictvím kterých byly provedeny Monte Carlo simulace A.1 R kód sloužící k analýze validity testu
Prostřednictvím tohoto kódu byly provedeny Monte Carlo simulace, které sloužily k analýze validity testů. Tento kód konkrétně sloužil k analýze validity testů v případě, kdy výběry pocházely z
(
) Výstupem tohoto skriptu jsou data, která jsou zobrazena v tabulce 3.1.
60
A.2 R kód sloužící k analýze síly testu
Prostřednictvím tohoto kódu byly provedeny Monte Carlo simulace, které sloužily k analýze síly testů. Tento kód konkrétně sloužil k analýze síly testů v případě, kdy výběry pocházely z
(
) Výstupem tohoto skriptu jsou data, která jsou zobrazena v tabulkách B.
61
B. Tabulky obsahující odhady síly jednotlivých testů B.1 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z
n
test
0,2 6 t-test 0,068 Wilcoxon 0,043 10 t-test 0,086 Wilcoxon 0,083 20 t-test 0,129 Wilcoxon 0,125
0,4 0,129 0,083 0,200 0,193 0,401 0,385
0,6 0,216 0,142 0,391 0,377 0,722 0,696
(
) effect size 1 1,2 0,501 0,655 0,353 0,481 0,800 0,923 0,783 0,908 0,986 0,999 0,983 0,999
0,8 0,357 0,243 0,625 0,607 0,924 0,913
1,4 0,782 0,605 0,977 0,970 1 1
1,6 1,8 2 0,877 0,936 0,972 0,716 0,800 0,868 0,995 1 1 0,993 0,999 0,999 1 1 1 1 1 1
Zdroj: vlastní zpracování Tato data byla použita ke konstrukci grafu 3.2.
B.1 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z (
n
test
0,2 6 t-test 0,053 Wilcoxon 0,049 10 t-test 0,069 Wilcoxon 0,083 20 t-test 0,092 Wilcoxon 0,109
0,4 0,102 0,088 0,151 0,169 0,255 0,306
0,6 0,176 0,148 0,273 0,295 0,475 0,551
) effect size 1 1,2 0,378 0,486 0,296 0,382 0,579 0,701 0,585 0,697 0,846 0,934 0,887 0,959
0,8 0,275 0,218 0,421 0,435 0,69 0,753
1,4 0,573 0,448 0,802 0,79 0,977 0,988
1,6 0,669 0,53 0,873 0,856 0,991 0,996
1,8 0,744 0,592 0,924 0,905 0,997 0,999
2 0,805 0,657 0,957 0,94 0,999 0,999
Zdroj: vlastní zpracování Tato data byla použita ke konstrukci grafu 3.3.
62
B.3 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z ( )
n
test
0,2 6 t-test 0,042 Wilcoxon 0,04 10 t-test 0,049 Wilcoxon 0,071 20 t-test 0,073 Wilcoxon 0,097
0,4 0,07 0,067 0,104 0,13 0,157 0,228
0,6 0,125 0,114 0,194 0,234 0,309 0,429
effect size 1 1,2 0,271 0,359 0,238 0,306 0,412 0,513 0,46 0,552 0,595 0,695 0,769 0,87
0,8 0,192 0,17 0,296 0,34 0,449 0,623
1,4 0,45 0,382 0,613 0,64 0,786 0,936
1,6 0,512 0,444 0,689 0,711 0,839 0,964
1,8 0,586 0,507 0,744 0,76 0,884 0,981
2 0,652 0,566 0,786 0,795 0,903 0,989
Zdroj: vlastní zpracování Tato data byla použita ke konstrukci grafu 3.4.
B.4 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z (
n
test
0,1 6 t-test 0,071 Wilcoxon 0,039 10 t-test 0,076 Wilcoxon 0,069 20 t-test 0,108 Wilcoxon 0,1
0,2 0,099 0,051 0,151 0,14 0,301 0,272
0,3 0,155 0,075 0,275 0,247 0,586 0,52
) effect size 0,5 0,6 0,341 0,473 0,181 0,268 0,669 0,843 0,594 0,777 0,964 0,997 0,916 0,982
0,4 0,228 0,116 0,468 0,42 0,841 0,753
0,7 0,626 0,382 0,949 0,898 1 0,998
0,8 0,768 0,531 0,989 0,973 1 1
0,9 1 0,883 0,958 0,738 1 0,999 1 0,998 1 1 1 1 1
Zdroj: vlastní zpracování Tato data byla použita ke konstrukci grafu 3.5.
63