Vysoká škola ekonomická v Praze

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky

Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické metody v ekonomii

Autor bakalářské práce: Jakub Zajíček Vedoucí bakalářské práce: Mgr. Milan Bašta, Ph.D.

NEPARAMETRICKÉ A PARAMETRICKÉ TESTY

školní rok 2012/2013

Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal.

V Praze dne ………………………………. podpis

2

Poděkování Úvodem bych rád poděkoval panu Mgr. Milanu Baštovi, Ph.D. za odborné vedení této bakalářské práce, za trpělivost, ochotu, cenné rady a připomínky k jejímu zpracování.

3

Abstrakt Bakalářská práce se zabývá testováním statistických hypotéz, konkrétně parametrickými a neparametrickými statistickými testy. Tato práce se skládá z teoretické a praktické části. Teoretická část obsahuje stručný úvod do problematiky testování hypotéz a popis nejpoužívanějších parametrických a neparametrických testů. Praktická část obsahuje příklady, které ilustrují možné použití uvedených testů v praxi a analýzu vlastností vybraných testů prostřednictvím Monte Carlo simulací. Cílem této analýzy je porovnání vlastností vybraného parametrického a neparametrického testu v závislosti na splnění, či nesplnění předpokladu o normálním rozdělení populace. Klíčová slova: parametrické testy, neparametrické testy, validita, síla testu, Monte Carlo simulace

Abstract The

bachelor

thesis

deals

with

the

statistical

hypothesis

testing,

specifically

with the parametric and non-parametric statistical tests. This thesis consists of a theoretical and a practical part. The theoretical part contains a brief introduction to the hypothesis testing and a description of the most used parametric and non-parametric tests. The practical part contains examples illustrating a possible use of these tests and the analysis of characteristics of the selected statistical tests. This analysis is performed through the Monte Carlo simulations. The aim of this analysis is to compare the characteristics of the selected parametric and non-parametric test in dependence on fulfilment or non-fulfilment of the normality assumption. Keywords: parametric tests, non-parametric tests, validity, power of a test, Monte Carlo simulation

4

Obsah Úvod ........................................................................................................................................... 7 1.

Proces testování hypotéz .................................................................................................. 8 1.1

Formulace hypotéz ....................................................................................................... 8

1.2

Volba testového kritéria ............................................................................................... 9

1.3

Stanovení hladiny významnosti a sestrojení kritického oboru .................................... 9

1.4

Hladina významnosti testu ......................................................................................... 10

1.5

Síla testu ..................................................................................................................... 11

1.6

Faktory ovlivňující sílu testu ..................................................................................... 12

1.7

Výpočet testového kritéria ......................................................................................... 13

1.8

Rozhodnutí ................................................................................................................. 14

1.9

P-hodnota ................................................................................................................... 14

1.10 Intervaly spolehlivosti ................................................................................................ 14 2.

Parametrické a neparametrické testy ........................................................................... 16 2.1

Parametrické testy ...................................................................................................... 16

2.2

Neparametrické testy ................................................................................................. 16

2.3

Jednovýběrový t-test .................................................................................................. 17

2.4

Jednovýběrový Wilcoxonův test ................................................................................ 20

2.5

Párový t-test ............................................................................................................... 23

2.6

Párový Wilcoxonův test ............................................................................................. 27

2.7

Dvouvýběrový t-test .................................................................................................. 30

2.8

Mann-Whitneyův test (U-test) ................................................................................... 33

2.9

Jednofaktová analýza rozptylu (F-test) ...................................................................... 36

2.10 Kruskal-Wallisův test (H-test) ................................................................................... 39 2.11 Další parametrické a neparametrické testy................................................................. 42

5

3.

Analýza vlastností vybraných statistických testů ............................................................. 43 3.1

Monte carlo simulace ................................................................................................. 43

3.2

Zkoumané vlastnosti testů ......................................................................................... 44

3.2.1

Validita ............................................................................................................... 44

3.2.1

Síla testu ............................................................................................................. 45

3.3

Odhad směrodatné chyby odhadu .............................................................................. 45

3.4

Výsledky simulací a jejich popis ............................................................................... 46

3.4.1

Normální rozdělení ............................................................................................. 46

3.4.2

Laplaceovo rozdělení .......................................................................................... 49

3.4.3

Studentovo rozdělení .......................................................................................... 51

3.4.4

Rovnoměrné rozdělení ........................................................................................ 54

3.5

Shrnutí ........................................................................................................................ 56

Závěr ........................................................................................................................................ 57 Seznam literatury ................................................................................................................... 58 Seznam internetových zdrojů ................................................................................................ 59 Přílohy ..................................................................................................................................... 60

6

Úvod Statistika bývá obecně dělena na statistiku deskriptivní a induktivní. Deskriptivní statistika, která slouží k úplnému popisu vlastností statistických populací, může být použita v situacích, kdy jsou k dispozici všechny prvky dané populace. V praktických aplikacích se však většinou pracuje s populacemi, které čítají řádově stovky a tisíce jednotek a vyčerpávající šetření by bylo velmi nákladné, někdy úplně nereálné. Pokud mají být vyvozovány závěry o vlastnostech takovýchto populací, je nutné využít induktivní statistiku, která pracuje pouze s výběrovými

soubory.

Jednou

z nejpoužívanějších

metod

této

induktivní

(neboli

matematické) statistiky je testování statistických hypotéz, které slouží k ověření předpokladů o vlastnostech populace na základě výběrového souboru. Toto testování je prováděno prostřednictvím

statistických

testů,

které

mohou

být

rozděleny

na parametrické

a neparametrické [2]. Právě těmito statistickými testy se bude tato práce zabývat. Bakalářská práce je rozdělena do tří kapitol. První kapitola se zabývá obecným popisem procesu testování hypotéz a vysvětlením základních pojmů s testováním hypotéz souvisejících. První kapitolu tak lze chápat jako čistě teoretickou. Ve druhé kapitole budou vybrané parametrické a neparametrické testy představeny, popsány a aplikovány na jednoduchých příkladech. Tato kapitola bude mít charakter jak teoretický, tak i praktický. Náplní třetí kapitoly, která představuje hlavní praktický přínos této práce, je analýza vlastností vybraného parametrického testu a jeho neparametrického protějšku v závislosti na tvaru pravděpodobnostního

rozdělení

výchozí

populace.

Tato

analýza

bude

provedena

prostřednictvím Monte Carlo simulací. Cílem této bakalářské práce je popis nejpoužívanějších parametrických a neparametrických testů a analýza vlastností vybraných testů. Při zpracování této bakalářské práce byl použit MS Excel a zejména pak statistický program R. Tento software byl použit ke tvorbě grafů prezentovaných v práci, k veškerým výpočtům a také k realizaci Monte Carlo simulací.

7

1. Proces testování hypotéz V této kapitole budou vysvětleny základní pojmy týkající se testování statistických hypotéz a bude zde popsán doporučovaný postup [3] tohoto testování.

1.1 Formulace hypotéz Prvním krokem v procesu testování hypotéz je formulace určitého předpokladu na základě praktického problému. Takový předpoklad se nazývá nulová hypotéza. Tato nulová hypotéza se týká určité populační vlastnosti a obecně je zapisována ve tvaru , kde

je neznáma skutečná hodnota určitého populačního parametru a

je jeho

předpokládaná hodnota. Vedle nulové hypotézy musí být formulována alternativní hypotéza, která platnost nulové hypotézy popírá. Existují dva typy alternativních hypotéz - oboustranné alternativní hypotézy, které udávají, že hodnota parametru je jednoduše jiná než uvádí nulová hypotéza , a jednostranné alternativní hypotézy, které jsou tvrzením, že hodnota parametru je buďto menší (levostranné), nebo větší (pravostranné), než uvádí nulová hypotéza , resp. . Nulová hypotéza reprezentuje většinou nějaký standard nebo status quo. Jejím vyvrácením jsou tak prokázány určité změny. Nulovou hypotézu není možno testem prokázat. Může být pouze zamítnuta ve prospěch alternativy, nebo nezamítnuta. Nulová hypotéza není zamítána, pokud není testem prokázáno, že její platnost je výrazně v rozporu s údaji z výběrového souboru.

8

1.2

Volba testového kritéria

Dalším krokem je volba testového kritéria

. Existují stovky různých statistických testů

a zvolit ten vhodný není vždy jednoduché. Statistické testy lze rozdělit na dvě hlavní skupiny – testy parametrické a neparametrické. Častým předpokladem pro použití parametrických testů je normální rozdělení základního souboru. Pokud normalitu populace předpokládat nelze, může být žádoucí použití neparametrického testu. Popisem vybraných parametrických a neparametrických testů a jejich vzájemným srovnáním se bude tato práce zabývat v dalších kapitolách. Konkrétní test je volen na základě testované charakteristiky (test o střední hodnotě, o rozptylu atd.), předpokladů a vlastností daného testu.

1.3

Stanovení hladiny významnosti a sestrojení kritického oboru

Množina hodnot, kterých může testové kritérium nabývat, je rozdělena na dvě disjunktní podmnožiny – obor přijetí a kritický obor. Pokud bude hodnota testového kritéria spadat do oboru přijetí , nebude nulová hypotéza zamítnuta. Pokud bude hodnota testového kritéria spadat do kritického oboru

, bude nulová hypotéza zamítnuta ve prospěch alternativy.

Hranice mezi oborem přijetí a kritickým oborem je tvořena kritickými hodnotami. Při testování hypotéz se lze dopustit dvou druhů chyb. K chybě I. druhu dochází, pokud je na základě testu rozhodnuto zamítnout nulovou hypotézu, která ale ve skutečnosti platí. Pravděpodobnost chyby I. druhu

je určena vzorcem (

|

)

(1.1)

K chybě II. druhu dochází, pokud je na základě testu rozhodnuto nezamítnout nulovou hypotézu, která ale ve skutečnosti neplatí. Pravděpodobnost chyby II. druhu

je určena

vzorcem (

|

9

)

(1.2)

Tabulka 1.1: Chyby I. a II. druhu a jejich pravděpodobnosti závěr nezamítáme zamítáme

skutečnost je platná správné rozhodnutí chyba I. druhu

je platná chyba II. druhu správné rozhodnutí Zdroj: [3], vlastní zpracování

Pravděpodobnost chyby I. druhu pravděpodobnost

je označována jako hladina významnosti testu,

jako koeficient spolehlivosti testu a pravděpodobnost

jako síla

testu. Je obtížné minimalizovat pravděpodobnosti obou chyb, protože zde existuje silný reciproční vztah mezi pravděpodobností

a

, kdy snížení jedné vyvolá zvýšení druhé.

V praxi bývá předem pevně stanovena pravděpodobnost

, tedy hladina významnosti testu.

Pokud by byla stanovena pravděpodobnost chyby II. druhu, mohlo by dojít k situaci, že pravděpodobnost nesprávného zamítnutí nulové hypotézy bude neúměrně vysoká. Zamítnutí nulové hypotézy přitom mívá větší praktický dopad, protože tím dochází k popření určitého statu quo.

1.4

Hladina významnosti testu

Stanovením hladiny významnosti je stanovena velikost kritického oboru. Ten bude tak velký, aby k chybě I. druhu docházelo jen s předem stanovenou pravděpodobností. Kritické hodnoty, které oddělují kritický obor a obor přijetí, jsou tvořeny kvantily pravděpodobnostního rozdělení zvoleného testového kritéria za platnosti

.

Za předpokladu, že testové kritérium má za platnosti nulové hypotézy normované normální rozdělení, tedy N(0,1), budou jednostranné kritické obory na hladině významnosti

vypadat

následovně. Pro levostranné alternativní hypotézy { kde

}

je vypočítaná hodnota testového kritéria a

normálního rozdělení.

10

(1.3) je

kvantil normovaného

Pro pravostranné alternativní hypotézy bude mít kritický obor tvar {

}

(1.4)

V případě oboustranné alternativní hypotézy je kritický obor určen podle vzorce {

1.5

| |

}.

(1.5)

Síla testu

Pravděpodobnost chyby II. druhu

udává riziko, s jakým nedojde k zamítnutí nulové

hypotézy, která ovšem ve skutečnosti neplatí. Pravděpodobnost

neboli síla testu pak

udává, s jakou pravděpodobností bude provedeno správné rozhodnutí. Obrázek 1.1: Grafická ilustrace síly testu

Zdroj: [10], vlastní zpracování

11

Obrázek 1.1 znázorňuje situaci, kdy je testována nulová hypotéza o střední hodnotě populace s normálním rozdělením. Test hypotézy vypadá následovně , . Horní graf zobrazuje pravděpodobnostní rozdělení výběrového průměru za platnosti nulové hypotézy. Pokud bude v tomto případě hodnota výběrového průměru spadat do šedé výseče grafu, bude nulová hypotéza zamítnuta. Spodní graf zobrazuje pravděpodobnostní rozdělení výběrového průměru za předpokladu, že skutečná střední hodnota populace je nikoliv

,

jak říká nulová hypotéza. Pokud bude v tomto případě hodnota výběrového

průměru spadat do žluté výseče grafu, bude nulová hypotéza správně zamítnuta. Pravděpodobnost správného zamítnutí nulové hypotézy je zobrazena žlutě a jedná se o sílu testu. Pravděpodobnost, že nulová hypotéza nebude zamítnuta, je zobrazena červeně. Červená část tak reprezentuje pravděpodobnost chyby II. druhu.

Faktory ovlivňující sílu testu

1.6 -

Skutečná velikost efektu Rozdíl mezi předpokládanou hodnotou parametru (tedy tou, která je uvedena v nulové hypotéze) a skutečnou hodnotou se nazývá skutečná velikost efektu. Čím je tato velikost větší, tím větší je ceteris paribus pravděpodobnost, že nulová hypotéza bude správně zamítnuta. S rostoucí skutečnou velikostí efektu tedy roste síla testu.

-

Hladina významnosti Čím menší hladina významnosti

bude zvolena, tím menší bude ceteris paribus

kritický obor a zamítnutí nulové hypotézy bude méně pravděpodobné. Existuje tak i menší pravděpodobnost, že neplatná nulová hypotéza bude správně zamítnuta. S klesající hladinou významnosti klesá síla testu.

12

-

Rozsah výběru Se zvyšujícím se rozsahem výběrového souboru klesá směrodatná chyba odhadu daného parametru. Čím menší chybou bude pozorování zatíženo, tím větší bude ceteris paribus síla testu [10].

Obecně je za nejdůležitější faktor ovlivňující sílu testu považován rozsah výběru. Přestože zde mohou existovat ekonomické bariéry (vyšší náklady), může být optimální rozsah výběru jednoduše stanoven. Dále je nutno rozlišovat mezi statistickou a praktickou významností. Pokud bude proveden výběr o neúměrně velkém rozsahu, bude síla testu sice vysoká, ale každý byť prakticky nevýznamný efekt povede k zamítnutí nulové hypotézy. Naopak při neúměrně malém výběru může být i prakticky významný efekt považován za statisticky nevýznamný. Na obrázku 1.1 byla síla testu vypočítána a posteriori, při známém rozsahu výběru a skutečné velikosti efektu. Síla testu může být stanovena také a priori, a při určení prakticky významného efektu, hladiny významnosti a odhadu směrodatné odchylky, může být použita k určení minimálního rozsahu výběru. Za dostatečnou sílu testu se obecně považuje síla testu větší než 0,8 [10]. Například pokud je testována hypotéza o střední hodnotě populace, která je normálně rozdělena a její rozptyl je známý, bude minimální rozsah výběru

vypočítán

podle vzorce [( kde

1.7

je směrodatná odchylka a rozdíl

)

]

(1.6)

udává hodnotu prakticky významného efektu.

Výpočet testového kritéria

Nyní je proveden náhodný výběr, který obsahuje

pozorování o hodnotách

.

Z těchto výběrových hodnot jsou vypočítány statistiky nezbytné pro výpočet testového kritéria. Tyto statistiky jsou v případě parametrických testů většinou bodovými odhady sledovaných populačních parametrů. V případě neparametrických testů se jedná většinou o pořadové charakteristiky. Výpočet konkrétního testového kritéria je proveden na základě vzorce pro daný test, do kterého jsou dosazeny požadované charakteristiky výběrového souboru.

13

1.8

Rozhodnutí

Výsledná hodnota testového kritéria je porovnána s oborem přijetí a kritickým oborem. Pokud bude spadat do oboru přijetí, nebude nulová hypotéza zamítnuta. Pokud bude náležet do kritického oboru, bude nulová hypotéza zamítnuta.

1.9

P-hodnota

Rozhodnutí může být také provedeno na základě p-hodnoty. P-hodnota je pravděpodobnost, že testové kritérium nabude vypočítané hodnoty (nebo hodnoty ještě extrémnější) za platnosti nulové hypotézy. Například p-hodnota testu o střední hodnotě, kdy výběr pochází z normálního rozdělení a alternativní hypotéza je oboustranná, bude vypočítána podle vzorce ( kde

(| |)),

(1.7)

(| |) je hodnota distribuční funkce daného rozdělení testového kritéria za platnosti

v bodě | |, což je hodnota testového kritéria. Přístup, kdy dochází k rozhodnutí na základě p-hodnoty, je velmi podobný jako výše popsaný klasický přístup k testování hypotéz. V případě použití tohoto konceptu není konstruován kritický obor. Po vypočítání testového kritéria je určena jeho p-hodnota a porovnáním se zvolenou hladinou významnosti je provedeno rozhodnutí o nulové hypotéze. Pokud je p-hodnota menší než zvolená hladina významnosti, je nulová hypotéza zamítnuta. Naopak, pokud je p-hodnota větší než , nebude nulová hypotéza zamítnuta.

1.10 Intervaly spolehlivosti Intervaly spolehlivosti jsou s testováním hypotéz velmi úzce spjaty. Pokud bude pro hodnotu populačního parametru sestaven

(

)

interval spolehlivosti, bude tento interval

představovat množinu všech hodnot parametru stanoveného v nulové hypotéze, pro které nebude nulová hypotéza zamítnuta.

14

Například v případě testu o střední hodnotě, kdy výběr pochází z normálního rozdělení se známým rozptylem, by vypadal interval spolehlivosti s koeficientem spolehlivosti následovně ( ̅

̅

√

√

)

(1.8)

Bude-li hodnota parametru stanovená v nulové hypotéza spadat do intervalu spolehlivosti, nebude tato hypotéza zamítnuta. Naopak, pokud bude spadat mimo tento interval, bude nulová hypotéza zamítnuta. Statistický test je prováděn s cílem zamítnout či nezamítnout stanovenou nulovou hypotézu. Výstupem testu je hodnota testového kritéria nebo p-hodnota. Tyto hodnoty se však vztahují pouze ke stanovené nulové hypotéze. Naproti tomu interval spolehlivosti podává informaci o možných hodnotách parametru na základě pořízeného výběru. Je z něj ihned patrné, jakých hodnot může na určité hladině významnosti sledovaný parametr nabývat, bez nutnosti předem stanovovat různé hypotézy. Statistický test by tak měl být, pokud je to možné, doplněn intervalem spolehlivosti. V případě některých neparametrických testů je konstrukce intervalu spolehlivosti poměrně náročná, někdy zcela nemožná.

15

2.

Parametrické a neparametrické testy

V této kapitole budou představeny nejpoužívanější parametrické testy a jejich neparametrické alternativy. Pro potřeby této bakalářské práce budou detailněji popsány pouze testy o střední hodnotě, které jsou nejpoužívanější. U každého z těchto testů budou uvedeny základní předpoklady, jejichž naplnění podmiňuje korektnost testu. Dále budou popsány výpočetní principy, na základě kterých jsou jednotlivé testy realizovány. Jednotlivé testy budou aplikovány na jednoduchých příkladech, které budou ilustrovat jejich možné použití v praxi. Zadání těchto příkladů bylo vytvořeno autorem této bakalářské práce.

2.1

Parametrické testy

Parametrické

testy

jsou

skupinou

statistických

testů,

které

předpokládají

určité

pravděpodobnostní rozdělení základního souboru. Ve většině případů se jedná o předpoklad o normálním rozdělení populace. Pokud je předpoklad o tvaru rozdělení splněn, slouží parametrické testy k ověření hypotéz o parametrech populačních rozdělení, ze kterých byl pořízen výběrový soubor. Nejčastěji se testované hypotézy týkají dvou parametrů, a to střední hodnoty a rozptylu. Tyto parametry jsou zpravidla neznámé, protože většinou je nemožné získat všechna data ze sledované populace. Parametry dané populace jsou proto odhadovány na základě bodových odhadů, které jsou konstruovány pro různá rozdělení různě. Pokud je předpoklad o tvaru rozdělení výrazně porušen, nemusí být použití parametrického testu úplně korektní a může být žádoucí využití testu neparametrického [7].

2.2

Neparametrické testy

Hlavní odlišností neparametrických testů

ve srovnání s testy parametrickými

je,

že nepředpokládají specifické populační rozdělení. Neodhadují totiž populační parametry, které jsou závislé na tvaru rozdělení, ale slouží k ověření nulových hypotéz týkajících se např. mediánu populace nebo tvaru pravděpodobnostního rozdělení. Jsou tedy používány např. v případech, kdy nemůže být rozdělení populace považováno za normální, například kvůli silné šikmosti indikující existenci odlehlých hodnot, a zejména v situacích, kdy jsou k dispozici pouze nenormální výběry malého rozsahu [1]. Pokud však normalita populace není výrazně porušena, je preferován parametrický test, neboť se vyznačuje vyšší silou [7].

16

Použití neparametrických testů je dále nezbytné v případech, kdy mají výběrová data ordinální charakter, což vyplývá z výpočetního principu těchto testů, který bude ilustrován níže.

Jednovýběrový t-test

2.3

Tento test slouží k testování hypotéz o střední hodnotě populace s použitím jednoho náhodného výběru v případě, že směrodatná odchylka populace není předem známa. Skupina t-testů (ve všech svých modifikacích) tak představuje jedny z nejpoužívanějších statistických testů. Svůj název získal test podle pravděpodobnostního rozdělení testového kritéria, kterým je za platnosti nulové hypotézy Studentovo neboli

rozdělení. Jediným parametrem tohoto

rozdělení jsou stupně volnosti . Stupně volnosti jsou určovány rozsahem výběru. Graf 2.1: Hustoty pravděpodobnosti normovaného normálního rozdělení a Studentova 0.4

rozdělení s různými stupni volnosti

0.2 0.0

0.1

f(x)

0.3

t (1) t (3) t (8) t (30) N (0,1)

-4

-2

0 x

Platí, že čím vyšší je

2

4

Zdroj: vlastní zpracování

, tím je Studentovo rozdělení bližší normovanému normálnímu

rozdělení. Studentovo rozdělení se používá pro náhodné výběry o rozsahu menším než 30. Pro rozsáhlejší výběry (

) je rozdělení téměř identické jako normované normální

rozdělení. Lze tedy rovnou použít kvantily normovaného normálního rozdělení.

17

Předpoklady -

jednotlivá pozorování mají charakter alespoň intervalových proměnných

-

výběr je proveden náhodně a jednotlivá pozorování jsou vzájemně nezávislá

-

populace je normálně rozdělena (tento předpoklad je nutný zejména pro rozsah výběru )

Princip testu Testuje se nulová hypotéza říkající, že se střední hodnota základního souboru rovná určité zvolené hodnotě. , . Střední hodnota populace je odhadnuta výběrovým průměrem ̅ kde

∑

(2.1)

jsou hodnoty jednotlivých pozorování a

je rozsah výběru. Směrodatná odchylka

populace je odhadnuta výběrovou směrodatnou odchylkou √

(∑

̅ )

(2.2)

Výpočet testového kritéria T je proveden podle vzorce ̅

√

(2.3)

Pokud je absolutní hodnota testového kritéria větší než kritická hodnota testu, která je rovna (

)

kvantilu Studentova rozdělení o

na hladině významnosti

–

stupních volnosti, je nulová hypotéza

zamítnuta. Kritický obor tedy vypadá následovně {

| |

(

18

)}

(2.4)

Příklad č. 1 Hmotnost výrobku vyráběného strojem by měla být 200g. Z dokončené šarže bylo náhodně vybráno 12 výrobků, které byly pečlivě zváženy. Na 5% hladině významnosti je potřeba ověřit, zda stroj skutečně vyrábí výrobky požadované hmotnosti. V tabulce 2.1 jsou uvedeny hmotnosti jednotlivých výrobků v gramech. Tabulka 2.1: Data k příkladu č. 1 výrobek (i) 1 2 3 4 5 6 7 8 9 10 11 12 hmotnost (xi) 196,9 201,2 203 205,3 199,8 203,4 207,1 202,2 199,7 201,9 204,2 198,6


Řešení Před samotným testováním je vhodné ověřit předpoklad normality. Ten bude ověřován pomocí Q-Q grafu, který porovnává výběrové kvantily s teoretickými kvantily normálního rozdělení. Graf 2.2: Q-Q graf zkonstruovaný na základě dat k příkladu

206 202 198

Sample Quantiles

Normal Q-Q Plot

-1.5

-0.5

0.5

1.5

Theoretical Quantiles

Zdroj: vlastní zpracování Z grafu 2.2 vyplývá, že výběr byl pořízen z populace s normálním rozdělením. Předpoklad normality tak lze považovat za splněný a k ověření hypotéz může být využit t-test.

19

Cílem je otestovat nulovou hypotézu , . Nejprve jsou vypočítány nezbytné statistiky – výběrový průměr a výběrová směrodatná odchylka. Jejich hodnoty jsou následující ̅ Poté je vypočítáno testové kritérium 2,313. Hodnota testového kritéria je větší než hodnota se rovná

kvantil

rozdělení s

stupni volnosti, jehož

. Nulová hypotéza je v tomto případě zamítnuta. Stejné rozhodnutí

vyplývá z p-hodnoty testu, která je

a také z

hodnotu hmotnosti v populaci, který je

intervalu spolehlivosti pro střední Test odhalil statisticky významný

rozdíl mezi předpokládanou a skutečnou hmotností výrobků.

Jednovýběrový Wilcoxonův test

2.4

Pokud nemůže být předpoklad o normalitě základního souboru považován za splněný, může být žádoucí využití neparametrické obdoby t-testu, kterou je jednovýběrový Wilcoxonův test. Ten slouží k ověření hypotézy, že pravděpodobnostní rozdělení populace je symetrické kolem určitého bodu ̃ . Bod ̃ je tak za platnosti nulové hypotézy mediánem tohoto rozdělení.

Předpoklady -

jednotlivá pozorování mají charakter alespoň ordinálních proměnných

-

výběr je proveden náhodně a jednotlivá pozorování jsou vzájemně nezávislá

-

výběr musí obsahovat minimálně 6 pozorování (pro menší výběry nemohou být na hladině významnosti

-

definovány kritické hodnoty)

rozdělení sledované proměnné v populaci je symetrické

20

Princip testu Testuje se hypotéza, že mediánem populace je zvolená hodnota. ̃

̃ ,

̃

̃ .

Prvním krokem je zavedení nové proměnné , jejíž hodnoty jsou definovány vztahem ̃ Pokud se

(2.5)

rovná nule, je pozorování z výpočtu vyřazeno. Jednotlivé hodnoty

jsou poté

seřazeny podle absolutní velikosti | |(

| |(

)

Každé hodnotě | | je přiřazeno číslo

)

…

| |( ) .

(2.6)

, které označuje jeho pořadí. Pořadím

čísla | | se

nazývá počet těch čísel | | ,…,| | , která jsou menší nebo rovna číslu | | . Pokud jsou jednotlivé hodnoty | | shodné, je celkové pořadí těchto hodnot určeno průměrem jejich jednotlivých pořadí. Dále jsou vypočítány veličiny

a

∑ Testové kritérium ve tvaru pro jednotlivé rozsahy výběru

(

∑

(2.7)

) je porovnáno s tabelovanou kritickou hodnotou

[1]. Pokud je hodnota testového kritéria menší nebo rovna

tabelované kritické hodnotě, je nulová hypotéza zamítnuta. Pro velká

lze využít testovou statistiku (

) (2.8)

√

(

)(

)

která má za platnosti nulové hypotézy asymptoticky rozdělení

(

). Kritický obor v tomto

případě využívá kvantilů normovaného normálního rozdělení {

| |

21

}.

(2.9)

Wilcoxonův test není prováděn přímo na základě zjištěných hodnot, jako je tomu u parametrických testů, ale na základě jejich pořadových charakteristik. Proto je vhodný také pro ordinální data, u kterých sice nelze určit o kolik je jedna hodnota větší než druhá, ale lze určit jejich pořadí. Je evidentní, že pokud bude například kladných odchylek výrazně více (nebo budou výrazně větší) než záporných, nebude taková populace symetricky rozdělena okolo určeného bodu ̃ a tento bod tak nebude mediánem rozdělení. Výsledkem testu v takovém případě bude nízká hodnota veličiny

, což povede k zamítnutí nulové hypotézy.

Obrázek 2.1: Grafická ilustrace použití jednovýběrového Wilcoxonova testu

4 3 1 ̃

2

5

6 7

8

9 10 11

Zdroj: vlastní zpracování Červená čísla označují pořadí absolutních hodnot. Veličina hodnoty

, přičemž kritická hodnota pro

na

v tomto případě nabývá

hladině významnosti je

[1].

Nulová hypotéza, která by tvrdila, že mediánem rozdělení je bod ̃ , by byla na hladině významnosti

zamítnuta. Test by prokázal, že prvky sledované proměnné nejsou

v populaci symetricky rozděleny kolem bodu ̃ . Tento bod by tak nebyl mediánem rozdělení.

Příklad č. 2 Zákazníci měli ohodnotit zakoupený výrobek body 1 až 10. Náhodně bylo vybráno 15 hodnocení. Jsou-li zákazníci s výrobkem spokojeni, měl by medián hodnocení být alespoň 5. Test bude proveden na hladině významnosti 5%. V tabulce 2.2 jsou zobrazena jednotlivá hodnocení. Tabulka 2.2: Data k příkladu č. 2 zákazník (i) body (xi)

1 8

2 2

3 3

4 9

5 5

6 6

7 2

8 7

9 3

10 11 12 13 14 15 10 4 3 6 9 7


22

Řešení Sledovaná proměnná má ordinální charakter, proto bude použit Wilcoxonův jednovýběrový test. Cílem je otestovat hypotézu o populačním mediánu ve tvaru ̃

,

̃

.

Tabulka 2.3: Rozšíření tabulky 2.2 o hodnoty veličiny

a pořadí

zákazník (i)

1

2

3

4

5

6

7

8

9

10 11 12 13

14

15

body (xi)

8

2

3

9

5

6

2

7

3

10

4

3

6

9

7

0 -

1 2

-3 10

2 6

-2 6

5 14

-1 2

-2 6

1 2

4 12,5

2 6

yi Ri

3 -3 -2 4 10 10 6 12,5

Zdroj: vlastní zpracování Byly vypočítány následující hodnoty veličin

a

Alternativní hypotéza je jednostranná a říká, že medián populace je větší než udává nulová hypotéza. V takovém případě bude s kritickou hodnotou porovnána statistika hodnota pro

je

[1]. Protože hodnota

není menší než

hypotéza zamítnuta. Přibližná p-hodnota tohoto testu je

. Kritická

, nebude nulová

. Testem se tedy nepodařilo

prokázat, že by medián hodnocení výrobku byl větší než . Nelze tak tvrdit, že by zákazníci byli s výrobkem nadprůměrně spokojeni.

2.5

Párový t-test

Párový test je zvláštním případem dvouvýběrového testu, kdy je proveden jeden nezávislý výběr, na kterém je zkoumána stejná veličina (nebo dvě velmi podobné), za dvou různých okolností. Může se tak jednat například o porovnání reakční doby stejných řidičů v ranních a večerních hodinách. Nejčastěji se párový test používá pro analýzu sledované veličiny před určitým jevem a po něm, například reakce pacientů na léčbu. Jednotlivé objekty výběru jsou nezávislé, ale dvojice veličin měřených na těchto objektech jsou vzájemně závislé. Z důvodu této závislosti mohou být měření v rámci jednotlivých objektů spárována. Cílem testu je podat informaci o tom, zda mezi těmito dvojicemi hodnot existuje statisticky významný rozdíl. V praxi se opět nejčastěji využívá parametrický t-test. 23

Předpoklady -


-

výběr je proveden náhodně a jednotlivé objekty jsou vzájemně nezávislé

-

párové diference jsou normálně rozdělené (tento předpoklad je nutný zejména pro rozsah výběru

)

Princip testu Testuje se nulová hypotéza o rozdílu středních hodnot obou pozorování, který je roven Ve většině případů je voleno

.

. Testuje se tak hypotéza, že mezi středními hodnotami

dvojic pozorování neexistuje statisticky významný rozdíl. , . Principem párového t-testu je zavedení nové proměnné

, která popisuje rozdíl

mezi jednotlivými páry. Touto úpravou se z dvourozměrného problému stává problém jednorozměrný. Párový t-test je tak výpočetně proveden stejně jako jednovýběrový t-test pouze s využitím jiné proměnné. Nejprve jsou vypočítány jednotlivé hodnoty párových diferencí podle vzorce (2.10) kde

je první hodnota i-tého objektu a

je druhá hodnota i-tého objektu. Výběrový

průměr párových diferencí je vypočítán podle vzorce ̅

∑

(2.11)

Dále je vypočítána výběrová směrodatná odchylka těchto diferencí √

̅ )

(∑

(2.12)

Tyto výběrové statistiky jsou dosazeny do vzorce pro výpočet testového kritéria ̅

24

√

(2.13)

Absolutní hodnota testového kritéria je porovnána s ( rozdělení o

)

kvantilem Studentova

stupních volnosti. Pokud je hodnota testového kritéria větší než tento

kvantil, je nulová hypotéza na hladině významnosti

zamítnuta. Kritický obor tedy vypadá

následovně {

| |

(

)}

(2.14)

Příklad č. 3 Závodníci testovali dva typy lyží tak, že sjeli stejný kopec jednou na lyžích A a jednou na lyžích B. Cílem testu je odpovědět na otázku, zda existuje statisticky významný rozdíl mezi těmito dvěma typy lyží na hladině významnosti 5%. V tabulce 2.4 jsou uvedeny časy (v sekundách) jednotlivých závodníků, kterých dosáhli s různými lyžemi. Tabulka 2.4: Data k příkladu č. 3 závodník (i) lyže A (x1,i) lyže B (x2,i)

1 2 3 4 5 6 7 8 9 10 11 53,2 55,7 59,6 52,8 58,9 54,4 50,1 76,3 56,1 52,5 53,5 50,2 54,8 63,4 49,5 55,6 56,2 47,9 54,5 53,2 52,9 55,2


Řešení Nejprve byly vypočítány jednotlivé párové diference

.

Tabulka 2.5: Tabulka 2.4 rozšířena o hodnoty párových diferencí závodník (i) lyže A (x1,i) lyže B (x2,i) rozdíl di

1 53,2 50,3 2,9

2 3 4 5 6 7 8 9 10 11 55,7 59,6 52,8 58,9 54,4 50,1 76,3 56,1 52,5 53,5 54,8 63,4 49,5 55,6 56,2 47,9 54,5 53,3 52,9 55,2 0,9 -3,8 3,3 3,3 -1,8 2,2 21,8 2,8 -0,4 -1,7


25

Graf 2.3: Q-Q graf párových diferencí

15 10 5 0

Sample Quantiles

20

Normal Q-Q Plot

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5


Zdroj: Vlastní zpracování Z grafu 2.3 je patrné, že předpoklad normality je splněn. Pouze jedna hodnota se vyznačuje svou odlehlostí a normalitu porušuje. Protože odlehlé hodnoty mohou výrazně ovlivnit výsledek testu, mělo by být toto odlehlé pozorování, ke kterému došlo u 8. závodníka, vyřazeno. Velmi vysoký rozdíl mezi jednotlivými časy (více než šestinásobný oproti druhému největšímu rozdílu) byl pravděpodobně způsoben chybou závodníka v první jízdě a ne rozdílností lyží. Po vyřazení této odlehlé hodnoty z výběru může být proveden t-test. Cílem je otestovat nulovou hypotézu o rovnosti středních hodnot obou časů. , . Nejprve byl vypočítán výběrový průměr párových diferencí a jejich výběrová směrodatná odchylka. Hodnoty těchto statistik jsou následující ̅

.

Poté bylo vypočítáno testové kritérium, které má hodnotu .

26

Po porovnání hodnoty testového kritéria s jehož hodnota je

kvantilem

rozdělení s

stupni volnosti,

, je rozhodnuto nulovou hypotézu nezamítat. Ke stejnému rozhodnutí

dochází na základě p-hodnoty testu, která je párovou diferenci , který je

, nebo podle intervalu spolehlivosti pro .

Na základě získaných dat nelze zamítnout nulovou hypotézu o nulovém rozdílu mezi středními hodnotami obou naměřených časů. Přestože s lyžemi B dosahovali závodníci o něco lepších časů, nejedná se v tomto případě o statisticky významný rozdíl.

Párový Wilcoxonův test

2.6

Neparametrickým protějškem k párovému t-testu je párový Wilcoxonův test.

Předpoklady -

výběr je proveden náhodně a jednotlivé objekty jsou vzájemně nezávislé

-

párové diference jsou symetricky rozdělené

-

jednotlivá pozorování mají charakter alespoň intervalových proměnných. Na rozdíl od jiných neparametrických testů, které umí pracovat i s ordinálními proměnnými, je v tomto

případě

použití

alespoň

intervalových

proměnných

nezbytné.

Mezi jednotlivými páry musí být totiž vypočítán rozdíl a ten u ordinálních proměnných určit nelze.

Princip testu Cílem testu je ověření nulové hypotézy o mediánu populace párových diferencí ̃

,

̃

.

Stejně jako u párového t-testu jsou i v tomto případě nejdříve určeny párové diference (2.15)

27

Protože v nulové hypotéze ve většině případů figuruje

, není nutné zavádět veličinu

jako u jednovýběrového testu, neboť ta by byla ve tvaru (2.16) Jednotlivé hodnoty

seřazeny podle své absolutní velikosti (podle vzorce 2.6). Každé

hodnotě | | je přiřazeno pořadí

. Poté jsou vypočítány veličiny ∑

∑

(2.17)

Testové kritérium ve tvaru

(

) je porovnáno s tabelovanou kritickou hodnotou

pro jednotlivé rozsahy výběru

[1]. Pokud je hodnota testového kritéria menší nebo rovna

tabelované kritické hodnotě, je nulová hypotéza zamítnuta. Pro velký rozsah výběru

lze

testové kritérium aproximovat s využitím normovaného normálního rozdělení, podle vzorce (2.8).

Příklad č. 4 Účastníkům vzdělávacího kurzu byly předloženy dva testy. Jeden řešili na začátku kurzu a druhý poté, co kurz absolvovali. Firma chce tímto způsobem získat informace o praktické přínosnosti svých kurzů. Cílem testu bude na 5% hladině významnosti zjistit, zda existuje statisticky významný rozdíl mezi bodovým ziskem z obou testů. Náhodně bylo vybráno 16 účastníku, jejichž výsledky byly porovnány. V tabulce 2.6 jsou uvedeny výsledky (v %), kterých jednotliví účastníci dosáhli Tabulka 2.6: Data k příkladu č. 4 účastník (i) 1. test (x1,i) 2. test (x2,i)

1 74 83

2 38 54

3 56 64

4 83 90

5 72 78

6 86 84

7 43 57

8 63 70

9 85 87

10 91 92

11 76 89

12 59 80

13 65 74

14 81 88

15 61 72

16 78 88


28

Řešení Nejprve bude ověřen předpoklad normality populace párových diferencí . Graf 2.4: Q-Q graf párových diferencí

-5 -10 -15 -20

Sample Quantiles

0

Normal Q-Q Plot

-2

-1

0

1

2


Zdroj: vlastní zpracování Z grafu 2.4 vyplývá, že populace nemá normální rozdělení. Rozdělení populace je evidentně leptokurtické. Předpoklad normality je v tomto případě porušen, proto bude použit neparametrický Wilcoxonův párový test. Cílem je otestovat hypotézu o nulovém mediánu populace párových diferencí. ̃

,

̃

.

Tabulka 2.7: Tabulka 2.6 rozšířena o hodnoty párových diferencí účastník (i) 1. test (x1,i) 2. test (x2,i) rozdíl di Ri

1 74 83

12 59 80

a jejich pořadí

2 38 54

3 56 64

4 83 90

5 72 78

6 86 84

7 43 57

8 63 70

9 85 87

10 91 92

11 76 89

13 65 74

14 81 88

15 61 72

16 78 88

-9 -16 9,5 15

-8 8

-7 6

-6 4

2 -14 2,5 14

-7 6

-2 2,5

-1 1

-13 -21 -9 13 16 9,5

-7 6

-11 -10 12 11

Zdroj: vlastní zpracování Poté byly vypočítány veličiny

a

. Jejich hodnoty jsou následující

29

Testové kritérium má v tomto případě hodnotu

. Protože kritická hodnota pro výběr

[1], je nulová hypotéza na

hladině významnosti zamítnuta. Stejné

o rozsahu

je

rozhodnutí je provedeno i na základě přibližné p-hodnoty testu, která je

. Testem

se podařila prokázat statisticky významná přínosnost kurzu. Až na jedinou výjimku došlo u všech absolventů kurzu ve výběru ke zlepšení. Lze tedy odhadovat, že se zlepšila také naprostá většina všech absolventů kurzu.

Dvouvýběrový t-test

2.7

Dvouvýběrový t-test je používán v případech, kdy jsou provedeny dva nezávislé výběry ze dvou různých populací. Cílem tohoto testu je odhalit existenci statisticky významného rozdílu mezi středními hodnotami obou populací.

Předpoklady -


-

jednotlivá pozorování jsou vzájemně nezávislá

-

jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé

-

obě populace jsou normálně rozdělené (tento předpoklad je nutný zejména pro výběry o rozsahu

-

)

obě populace mají stejný, nebo velmi podobný rozptyl

Princip testu Testují se stejné hypotézy jako v případě párového t-testu, tedy , . Jsou provedeny dva nezávislé výběry. První výběr představuje veličina o rozsahu

. Druhý výběr je představován veličinou

patrné, že není nutné, aby byl rozsah obou výběrů stejný.

30

z

(

) o rozsahu

z

(

)

. Je tedy

Testové kritérium je vypočítáno podle vzorce ̅ √(

̅ )

(

(

√

)

)

(2.18)

kde ̅ a ̅ jsou výběrové průměry jednotlivých výběrů vypočítané podle vzorce (2.1) a

a

jsou rozptyly jednotlivých výběrů. Ty jsou vypočítány podle vzorce (∑

̅ )

Absolutní hodnota testového kritéria je porovnána s ( rozdělení o stupních volnosti

(2.19) )

kvantilem Studentova

. Kritický obor tedy vypadá následovně {

| |

(

)}

(2.20)

Pokud není splněn předpoklad o shodnosti rozptylů obou populací, je používána modifikace dvouvýběrového t-testu, kterou je Welchův t-test.

Příklad č. 5 25 pacientů s nadváhou bylo náhodně rozděleno na dvě části, přičemž prvních 13 pacientů dodržovalo po dobu dvou měsíců dietu A a dalších 12 pacientů dietu B. Cílem testu je na 5% hladině významnosti určit, zda existuje statisticky významný rozdíl mezi oběma dietami. Tabulka 2.8 obsahuje váhové úbytky (v kg) jednotlivých pacientů. Tabulka 2.8: data k příkladu č. 5 pacient (i) dieta A (xi) pacient (i)

1 4,8 14

2 8,7 15

3 6 16

4 7,3 17

5 8,1 18

6 5,9 19

7 3,9 20

8 6,4 21

9 10,1 22

10 5,5 23

11 6,8 24

12 8,5 25

dieta B (yi)

8,4

6,9

10,9

8,3

6,5

10,4

9,8

12,1

8,1

7,8

9,7

8,8

13 7,2


31

Řešení Normalita obou populací je patrná z grafu 2.5. Graf 2.5: Q-Q grafy jednotlivých výběrů

12 10 9

4

7

8

6

7

8

Sample Quantiles

9 10

Normal Q-Q Plot

5

Sample Quantiles

Normal Q-Q Plot

-1.5

-0.5

0.5

-1.5

1.5


-0.5

0.5

1.5


Zdroj: vlastní zpracování Výběrové směrodatné odchylky obou výběrů jsou velmi podobné

Oba předpoklady pro použití dvouvýběrového t-testu jsou v tomto případě splněny. Cílem je otestovat nulovou hypotézu o rovnosti středních hodnot obou váhových úbytků. , . Výběrové průměry obou veličin jsou následující ̅

̅

Byla vypočítána hodnota testového kritéria .

32

kvantil

rozdělení s

stupni volnosti má hodnotu

. Protože je absolutní

hodnota testového kritéria větší než kritická hodnota, je na hypotéza zamítnuta. P-hodnota testu je

hladině významnosti nulová

. Dvouvýběrový t-test potvrdil existenci

statisticky významného rozdílu mezi efektem těchto dvou diet.

2.8

Mann-Whitneyův test (U-test)

Pokud je předpoklad normality základního souboru výrazněji porušen, nebo mají-li data charakter ordinálních proměnných, je používána neparametrická obdoba dvouvýběrového t-testu. Tou je Mann-Whitneyův test, také známý jako Mann-Whitneyův U test.

Předpoklady -


-

jednotlivá pozorování jsou vzájemně nezávislá

-


Princip testu Mann-Whittneyův test slouží k ověření nulové hypotézy o shodnosti rozdělení obou populací. ,

Jsou provedeny dva nezávislé výběry. První výběr představuje veličina a druhý výběr veličina

o rozsahu

o rozsahu

. Ani u tohoto testu tedy není nutné, aby měly oba

výběry stejný rozsah. Jednotlivé absolutní hodnoty obou pozorování jsou uspořádány vzestupně (podle vzorce 2.6), bez ohledu na to, ze kterého výběru pocházejí. Každé absolutní hodnotě je přiřazeno pořadí

.

Pro jednotlivé výběry je nejprve vypočítán součet pořadí jednotlivých absolutních hodnot ∑

∑

33

(2.21)

Poté jsou zvlášť pro každý výběr vypočítány statistiky ( Testové kritérium ve tvaru

(

) (

)

(2.22)

) je porovnáno s tabelovanou kritickou hodnotou [1].

Pokud je hodnota testového kritéria menší (nebo rovna) než kritická hodnota, je nulová hypotéza zamítnuta. Pro výběry o velkém rozsahu (

) je možné použít testové

kritérium

√

(

(2.23)

)

které má za platnosti nulové hypotézy asymptoticky normované normální rozdělení. Pokud hodnota testového kritéria spadá do kritického oboru {

| |

je nulová hypotéza na hladině významnosti

}

(2.24)

zamítnuta.

Příklad č. 6 Náhodně bylo vybráno 16 pracujících obyvatel dvou českých měst a byly srovnány jejich hrubé měsíční mzdy. Cílem testu je určit, zda existuje statisticky významný rozdíl ve struktuře mezd v těchto městech. Test bude proveden na 5% hladině významnosti. V tabulce 2.9 jsou uvedeny měsíční mzdy (v Kč) jednotlivých obyvatel. Tabulka 2.9: Data k příkladu č. 6 obyvatel (i) 1 Praha (xi) 33 000 obyvatel (i) 9

2 24 500 10

3 46 000 11

4 22 000 12

5 16 000 13

6 63 000 14

7 23 500 15

8 25 500 16

Ostrava (yi)

23 000

10 000

16 500

42 000

12 500

11 500

24 000

9 500


34

Řešení Graf 2.6: Q-Q grafy jednotlivých výběrů

-1.5

-0.5

0.5

40000 25000 10000

40000

Sample Quantiles

60000

Normal Q-Q Plot

20000

Sample Quantiles

Normal Q-Q Plot

1.5

-1.5


-0.5

0.5

1.5


Zdroj: vlastní zpracování Z grafu 2.6 vyplývá, že populace nemají normální rozdělení. Z důvodu nesplnění předpokladu normality bude k řešení příkladu využit Mann-Whitneyův test. Tabulka 2.10: Tabulka 2.9 rozšířena o pořadí jednotlivých hodnot obyvatel (i) 1 Praha (xi) 33 000 Ri 13

2 24 500 11

3 46 000 15

4 22 000 7

5 16 000 5

6 63 000 16

7 23 500 9

8 25 500 12

obyvatel (i) Ostrava (yi) Ri

10 23 000 8

11 10 000 2

12 16 500 6

13 42 000 14

14 12 500 4

15 11 500 3

16 24 000 10

9 9 500 1

Zdroj: vlastní zpracování Hodnoty výběrových statistik jsou následující

Hodnota testového kritéria je tedy je testu je

[1], je na

. Protože kritická hodnota pro výběr o rozsahu

hladině významnosti nulová hypotéza zamítnuta. P-hodnota

. Z výsledků vyplývá, že rozdělení obou populací jsou různá. Mezi mzdovou

strukturou v Praze a Ostravě tak existuje statisticky signifikantní rozdíl. 35

Jednofaktová analýza rozptylu (F-test)

2.9

V případech, kdy je testována hypotéza o rovnosti 3 a více středních hodnot, není možné použít t-test. Namísto něj je používána jednofaktorová analýza rozptylu, známější pod názvem jednofaktorová ANOVA (z anglického ANalysis Of VAriance). V praxi se ANOVA používá zejména v situacích, kdy je posuzován vliv určitého faktoru na sledovanou veličinu.

Předpoklady -


-

jednotlivá pozorování ve všech

-


-

jednotlivé výběry pocházejí z normálně rozdělených populací (tento předpoklad je

výběrech jsou vzájemně nezávislá

nutný zejména pro rozsah jednotlivých výběrů -

)

rozptyly jednotlivých výběrů je možno považovat za shodné

Princip testu Testuje se nulová hypotéza o rovnosti středních hodnot ve všech

populacích proti

alternativní hypotéze, že se alespoň jedna střední hodnota od ostatních liší. …

,

, jsou střední hodnoty jednotlivých populací.

kde

Jednotlivé naměřené hodnoty by měly být před samotným testováním pro přehlednost uspořádány do tabulky (viz tabulka 2.11). Tabulka 2.11: Vhodné uspořádání jednotlivých hodnot

…

…

…

k

yk1

yk2

… …

y1n1 y1n2

četnost (ni) n1 n2

…

y11 y21

hodnoty (yij) … y12 y22 …

…

výběr (i) 1 2

yknk

nk

Zdroj: [1], vlastní zpracování 36

Jak již bylo naznačeno, ověření hypotézy o rovnosti středních hodnot je provedeno na základě porovnání rozptylů. To je prováděno pomocí F-testu, který je v případě ANOVY používán k porovnání meziskupinové a vnitroskupinové variability. Testové kritérium je vypočítáno podle vzorce (2.25)

je meziskupinová variabilita,

kde

naměřených hodnot a

je vnitroskupinová variabilita,

je celkový počet

je počet výběrů. Meziskupinová a vnitroskupinová variabilita (neboli

součet čtverců) je získána rozkladem celkové variability podle vzorce ∑( ̅

kde

̅)

∑ ∑(

̅)

(2.26)

jsou jednotlivé naměřené hodnoty a ̅ je výběrovým průměrem těchto hodnot. ̅ je

výběrový průměr hodnot v -tém výběru a

je rozsah -tého výběru.

Vnitroskupinová variabilita popisuje kolísání hodnot okolo průměru v rámci jednotlivých skupin, které je způsobeno neznámými a náhodnými vlivy. Meziskupinová variabilita popisuje rozdíly průměrů jednotlivých skupin od celkového průměru a měří tak vliv posuzovaného faktoru. Hodnota testového kritéria je porovnána s ( volnosti

a

)

na zvolené hladině významnosti

kvantilem F rozdělení se stupni . Kritický obor tedy vypadá

následovně {

(

)}.

(2.27)

Příklad č. 7 Náhodně bylo vybráno 24 zaměstnanců těžební firmy pracujících v trojsměnném provozu. Cílem testu je určit na 5% hladině významnosti, zda existuje závislost mezi výkonností dělníků a směnou, ve které pracují. V tabulce 2.11 je zobrazena výkonnost jednotlivých dělníků měřena indexem výkonnosti, kde stanovená norma = 100.

37

Tabulka 2.12: Data k příkladu č. 6 směna (i) ranní odpolední noční

105 101 97

98 98 94

výkonnost (yij) 101 109 103 107 109 96 105 99 102 100 91 93

111 102 96

106 104 90

četnost (ni) 8 8 8


Řešení Graf 2.7: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot 102 98

96

90

94

100

102

104

106

108

110

Normal Q-Q Plot

98

Sample Quantiles

Normal Q-Q Plot

-1.5

-0.5

0.5

1.5

-1.5


-0.5

0.5


1.5

-1.5

-0.5

0.5

1.5


Zdroj: vlastní zpracování Z grafu 2.7 je patrné, že všechny tři výběry byly pořízeny z populací, které jsou normálně rozdělené. Výběrové směrodatné odchylky jednotlivých výběrů jsou následující

Rozptyly jednotlivých výběrů tak lze považovat za shodné. Všechny předpoklady F-testu jsou splněny. Příklad tak bude vyřešen aplikací metody ANOVA. Nejprve byla vypočítána meziskupinová a vnitroskupinová variabilita

Poté bylo vypočítáno testové kritérium

38

Protože

kvantil F-rozdělení se stupni volnosti

a

má hodnotu

hypotéza na 5% hladině významnosti zamítnuta. P-hodnota testu je

, je nulová . Test prokázal

statisticky významnou závislost výkonnosti dělníků na době směny.

2.10 Kruskal-Wallisův test (H-test) Pokud je testována hypotéza o rovnosti 3 a více středních hodnot, a pokud je předpoklad normality nebo shodnosti rozptylů výrazně porušen, nemusí být použití F-testu správné a může být žádoucí využití jeho neparametrické obdoby. Vhodnou neparametrickou alternativou je v tomto případě Kruskal-Wallisův test. Ten bude použit také v situacích, kdy mají sledované proměnné ordinální charakter.

Předpoklady -


-

jednotlivá pozorování ve všech

-


-

jednotlivé výběry obsahují alespoň 5 pozorování

výběrech jsou vzájemně nezávislá

Princip testu Stejně jako v případě ANOVY by měly být jednotlivé naměřené hodnoty pro přehlednost uspořádány do tabulky (viz tabulka 2.11). Testuje se nulová hypotéza říkající, že všechny výběry pocházejí z totožných populací proti alternativě, že alespoň jeden výběr pochází z odlišné populace. , . Jedná se tak o stejný princip jako u Mann-Whitneyova testu rozšířený na situace, kdy je porovnáváno hodnoty všech

výběrů. Stejně jako u Mann-Whitneyova testu jsou jednotlivé absolutní pozorování uspořádány vzestupně (podle vzorce 2.6), bez ohledu na to, ze

kterého výběru pocházejí. Každé absolutní hodnotě je přiřazeno pořadí

39

.

Pro jednotlivé výběry je vypočítán součet pořadí ∑

kde

je rozsah -tého výběru. Testové kritérium je vypočítáno podle vzorce (

kde

(2.28)

)

je celkový počet pozorování a

∑

(

)

(2.29)

je počet výběrů. Za platnosti nulové hypotézy má

testové kritérium asymptoticky rozdělení

stupních volnosti.

o

Hodnota testového kritéria je porovnána s (

)

kvantilem

rozdělení s

stupni volnosti na hladině významnosti . Kritický obor tedy vypadá následovně {

(

)}.

(2.30)

Příklad č. 8 Z řešitelů testu inteligence bylo náhodně vybráno 27 osob, které byly rozděleny do čtyř skupin podle věku. Na 5% hladině významnosti má být proveden test hypotézy o existenci statisticky významné závislosti mezi velikostí IQ a věkem. V tabulce 2.13 jsou uvedeny jednotlivé zjištěné hodnoty IQ. Tabulka 2.13: Data k příkladu č. 8 věk (i) 20-29 30-39 40-49 50-59

115 98 113 85

93 135 104 89

138 141 128 101

hodnocení (xij) 104 124 118 129 110 129 91 83 105 117

151 108

118 132

četnost (ni) 120 9 8 5 5


40

Řešení Graf 2.8: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot

0.5

120

-1.5

95

105

-0.5

0.5 1.0 1.5

120

Sample Quantiles

115

1.5

90 100

-0.5

85

Sample Quantiles

-1.5

100

Sample Quantiles

140 120 100

Sample Quantiles

140

Normal Q-Q Plot

-1.0

-0.5

0.0

0.5

1.0

-1.0


-0.5

0.0

0.5

1.0


Zdroj: vlastní zpracování Z grafu 2.8 je patrné, že výběry nepocházejí z normálně rozdělených populací. K řešení příkladu tak bude z důvodu silného porušení normality využit Kruskal – Wallisův test. Tabulka 2.14: Tabulka 2.13 rozšířena o pořadí naměřených hodnot skupina (i) A (20-29) 115 RA 14 B (30-39) 98 RB 6 C (40-49) 113 RC 13 D (50-59) 85 RD 2

93 5 135 24 104 9 89 3

138 25 141 26 128 20 101 7

hodnocení (xij) 103 124 118 8 19 16 129 110 130 21 12 22 91 83 4 1 105 117 10 15

151 27 108 11

119 17 132 23

120 18

četnost (ni) 9 8 5 5


41

Byly vypočteny následující hodnoty statistik

které byly použity k výpočtu testového kritéria . Hodnota testového kritéria je větší než hodnota volnosti, který má hodnotu

kvantilu

. P-hodnota testu je

. Na

rozdělení se

stupni

hladině významnosti je

tak nulová hypotéza zamítnuta. Výsledkem Kruskal-Wallisova testu je tvrzení, že mezi hodnotou IQ a věkem existuje statisticky významná závislost.

2.11 Další parametrické a neparametrické testy Vedle testů o střední hodnotě, kterými se tato kapitola detailně zabývala, existují ještě další skupiny testů. Jsou to například tyto.

Testy o rozptylu Mezi parametrické testy o rozptylu patří

test o rozptylu, pomocí kterého jsou testovány

hypotézy, že rozptyl základního souboru je roven určité hodnotě. Pro testování hypotéz o shodě rozptylů dvou populací, je používán F-test. Bartlettovým testem jsou pak testovány hypotézy o shodně rozptylů v

výběrech. Neparametrickým testem o rozptylu je například

Siegel-Tukeyho test, který slouží k testování hypotéz o shodě rozptylů dvou populací [4].

Testy o rozdělení populace Tyto testy se používají zejména k testování nulových hypotéz, které předpokládají, že populace má pravděpodobnostní rozdělení určitého typu. Například, že je rozdělena normálně. Mezi nejpoužívanější testy z této skupiny patří

test dobré shody, Kolmogorov-Smirnovův

test pro jeden výběr nebo Shapiro-Wilkův test. Tyto uvedené testy jsou neparametrické.

42

3.

Analýza vlastností vybraných statistických testů

V předchozí kapitole bylo uvedeno několik obecných předpokladů, jejichž splnění je pro použití jednotlivých testů nezbytné. Jedná se zejména o předpoklad o normálním rozdělení populace, který je uveden u všech zmíněných parametrických testů. V předchozí kapitole bylo také uvedeno několik obecných doporučení ohledně vhodnosti použití parametrických a neparametrických testů (v oddílech 2.1 a 2.2). Jedná se zejména o tato dvě doporučení, která se v literatuře vyskytují nejčastěji: 1. Neparametrické testy jsou používány, pokud jsou k dispozici pouze výběry o malém rozsahu, které pocházejí z výrazně nenormálních rozdělení [např. 1, 7]. 2. Pokud není předpoklad normality výrazně narušen, jsou používány parametrické testy, protože jsou v těchto situacích silnější [např. 7, 11]. Náplní této kapitoly je porovnání vlastností vybraného parametrického testu a jeho neparametrické obdoby v závislosti na splnění, či nesplnění předpokladu o normálním rozdělení výchozí populace a také ověření výše uvedených obecných doporučení. Analyzovány budou vlastnosti jednovýběrového t-testu a jednovýběrového Wilcoxonova testu. Tyto testy jsou v praktických aplikacích hojně využívány zejména v podobě párových testů, které zkoumají vliv určitého jevu na sledovanou veličinu v případech, kdy byl pořízen jeden náhodný výběr z dvourozměrného rozdělení. Párové testy, podrobně popsané v kapitole 2.5 a 2.6, jsou výpočetně prováděny stejně jako testy jednovýběrové.

3.1

Monte carlo simulace

Aby mohly být vyvozeny obecné závěry o vlastnostech jednotlivých statistických testů, je potřeba, aby byly provedeny řádově tisíce náhodných výběrů, které budou následně podrobeny testování. Tento rozsáhlý počet výběrů bude realizován pomocí Monte Carlo simulací. Podstatou metody Monte Carlo je v tomto případě generování náhodných čísel z určeného pravděpodobnostního rozdělení. Takto generovaná čísla vytvoří náhodný výběr o zadaném počtu pozorování. Celkem bude pro dané vstupní parametry provedeno vždy 10 000 takových výběrů. 43

Každý z těchto výběrů bude otestován jednovýběrovým t-testem a jednovýběrovým Wilcoxonovým testem. Výstupem každého testu bude jeho p-hodnota. Zatímco p-hodnota t-testu je vždy přesná, v případě Wilcoxonova testu může být p-hodnota stanovena přesně, nebo pouze aproximována. Přesná p-hodnota pro oboustrannou alternativu je vypočítána podle vzorce [14] 2 ( ) kde

je rozsah výběru a

(3.1)

je počet možných způsobů uspořádání znamének, které vedou ke

stejné nebo menší hodnotě testového kritéria. Pokud je testové kritérium vypočteno podle vzorce (2.8), je p-hodnota tohoto testového kritéria aproximací skutečné p-hodnoty. Tato aproximace je používána pro velké rozsahy výběru. Přesná p-hodnota může být vypočítána pouze v případech, kdy výběr neobsahuje nulové nebo shodné hodnoty. Vzhledem k charakteru jednotlivých generovaných hodnot bude v tomto případě počítána přesná p-hodnota Wilcoxonova testu. Zjištěné p-hodnoty budou použity k následné analýze vlastností obou testů. Díky velkému počtu takto provedených testů budou získána velmi kvalitní data popisující chování těchto dvou testů v různých situacích.

3.2

Zkoumané vlastnosti testů

3.2.1 Validita První zkoumanou vlastností vybraných statistických testů je validita. Statistický test je považován za validní, pokud je empiricky zjištěná pravděpodobnost chyby I. druhu, tedy nesprávného zamítnutí platné nulové hypotézy, rovna stanovené hladině významnosti. Bude-li platná nulová hypotéza testována na hladině významnosti

, mělo by

k nesprávnému zamítnutí této hypotézy docházet s pravděpodobností limitně se blížící (pro

, kde

je počet provedených simulací). Všechny testy budou provedeny na

hladině významnosti

. Relativní četnost chyby I. druhu bude z provedené simulace

vypočítána jako podíl počtu těch případů, ve kterých byla nulová hypotéza zamítnuta (p-hodnota testu byla menší než

) a celkového počtu provedených testů. Při analýze

validity bude testována platná nulová hypotéza. Validita testu bude sledována v závislosti na zvoleném pravděpodobnostním rozdělení populace a počtu pozorování, které budou jednotlivé výběry obsahovat. 44

3.2.1 Síla testu Druhou zásadní vlastností testu je jeho síla. Jedná se o pravděpodobnost, že neplatná nulová hypotéza bude správně zamítnuta. Čím je síla testu větší, tím je menší pravděpodobnost chyby II. druhu a tím je daný test lepší. Síla testu bude z provedené simulace vypočítána jako podíl počtu těch případů, ve kterých byla nulová hypotéza zamítnuta (p-hodnota testu byla menší než

) a celkového počtu provedených testů. Výpočet tak bude proveden stejně

jako v případě analýzy validity pouze s tím rozdílem, že v tomto případě nebude testovaná nulová hypotéza platná. Při analýze síly testu bude testována neplatná nulová hypotéza. Síla testu bude sledována v závislosti na pravděpodobnostním rozdělení populace, počtu pozorování v jednotlivých výběrech a skutečné velikosti efektu.

3.3

Odhad směrodatné chyby odhadu

Výstupem Monte Carlo simulací budou relativní četnosti, které jsou odhadem skutečných relativních četností, a jako takové jsou zatíženy určitou chybou. Velikost této směrodatné chyby odhadu bude odhadnuta podle vzorce √ kde

je odhadovaná relativní četnost a

(

)

(3.2)

je počet provedených simulací (v tomto případě

). V případě analýzy validity testu je odhadována relativní četnost vesměs blízká hodnotě . Odhadovaná směrodatná chyba odhadu v tomto případě tak bude mít hodnotu vesměs blízkou hodnotě V případě analýzy síly testu je odhadována relativní četnost, která nabývá širokého spektra hodnot z intervalu (3.2) chápán jako funkce

. Bude-li předpis pro odhad směrodatné chyby odhadu ze vzorce , bude maxima této funkce dosaženo při

směrodatné chyby odhadu nabývá v tomto případě hodnoty

45

.

. Odhad

3.4

Výsledky simulací a jejich popis

Validita a síla jednotlivých testu byla sledována na výběrech pocházejících z vybraných symetrických rozdělení. Zvolena byla tato rozdělení – normální, Laplaceovo, Studentovo a rovnoměrné. Vybraná rozdělení se liší zejména svou špičatostí.

0.4

0.5

Graf 3.1: Hustoty pravděpodobností vybraných rozdělení

0.0

0.1

0.2

f(x)

0.3

N(0,1) L(0,1) t(2) R(-4,4)

-4

-2

0 x

2

4


3.4.1 Normální rozdělení Pro potřeby simulací bylo zvoleno normované normální rozdělení, tedy normální rozdělení s parametry

. Jedná se o spojité symetrické rozdělení s nulovým koeficientem

špičatosti. Jak bylo již mnohokrát uvedeno, normalita populace je základním předpokladem validity většiny parametrických testů. Normální rozdělení bylo do simulací zařazeno jako výchozí rozdělení, které splňuje předpoklady obou testů.

46

Validita Testovány jsou nulové hypotézy resp. ̃

.

Tabulka 3.1: Relativní četnosti chyby I. druhu pro výběry z n t-test Wilcoxon

5 0,051 0,000

7 0,047 0,045

10 0,049 0,048

15 0,047 0,046

20 0,051 0,050

(

)

50 0,049 0,049

Zdroj: vlastní zpracování Relativní četnost chyby I. druhu se u obou testů pohybuje těsně kolem stanovené hodnoty ), a to pro všechny rozsahy výběrů. Pouze pro

(

dosahuje Wilcoxonův test nulové

hodnoty, v tomto případě tak ani jednou nedošlo k zamítnutí nulové hypotézy. To je způsobeno tím, že pro tak malý výběr nejsou definovány kritické hodnoty pro Wilcoxonův test. Wilcoxonovým testem lze na hladině významnosti hypotézu až pro rozsah výběru

zamítnout nulovou

[1]. Pokud výběry pocházejí z normálního rozdělení,

jsou oba testy zhruba stejně validní.

Síla testu Testovány jsou nulové hypotézy , resp. ̃ kde

, je skutečná velikost efektu. Ta v tomto případě nabývá hodnot

pochází z populace s rozdělením

(

. Výběr

). Testovaná nulová hypotéza je tudíž ve skutečnosti

neplatná.

47

Graf 3.2: Odhad síly testů pro různé rozsahy výběrů z

(

) v závislosti na skutečné

velikosti efektu

Zdroj: vlastní zpracování Z grafu 3.2 je patrné, že pro větší rozsahy výběrů dosahují oba testy podobné síly. Pro malé rozsahy výběrů, v tomto případě

, je rozdíl mezi silou obou testů největší. Pro

je

sice kritická hodnota Wilcoxonova test definována, její hodnota je však rovna 0. Nulová hypotéza tak bude zamítnuta pouze v případě, kdy všech šest těchto pozorování bude větších (nebo menších) než je testovaný medián. Pokud výběry pocházejí z populace s normálním rozdělením, bude t-test ve všech případech silnější než Wilcoxonův test. Rozdíl mezi silami obou testů se bude zmenšovat s rostoucím počtem výběrů. Protože jsou za těchto podmínek oba testy validní, je na základě provedených simulací doporučeno používat t-test, který se vyznačuje větší silou.

48

3.4.2 Laplaceovo rozdělení Laplaceovo neboli dvojité exponenciální je spojité symetrické rozdělení. Na rozdíl od normálního rozdělení je zde koeficient špičatosti větší než nula, jedná se tak o rozdělení leptokurtické. V případě leptokurtických rozdělení se sice většina hodnot nachází velmi blízko střední hodnotě, ale existuje zde také větší množství odlehlých hodnot než v případě normálního rozdělení. Tyto odlehlé hodnoty se v grafu 3.1 projevují tzv. „těžkými konci“. Výběry z Laplaceova rozdělení byly do simulací zařazeny, aby mohla být validita a síla testů sledována v případě, kdy je předpoklad normality porušen, a to rozdělením s větší špičatostí. Pro potřeby simulací bylo zvoleno Laplaceovo rozdělení s parametry


.

Tabulka 3.2: Relativní četnosti chyby I. druhu pro výběry z ( n t-test Wilcoxon

5 0,038 0

7 0,037 0,049

10 0,044 0,050

15 0,047 0,049

20 0,047 0,049

)

50 0,048 0,050

Zdroj: vlastní zpracování Relativní četnost zamítnutí platné nulové hypotézy je v případě Wilcoxonova testu téměř identická se stanovenou relativní četností (

). Pouze pro

, kdy není kritická hodnota

Wilcoxonova testu definována, nedošlo k zamítnutí nulové hypotézy v žádném z případů. V případě t-testu docházelo, zejména při menších rozsazích výběrů, k zamítnutí platné nulové hypotézy v menším procentu případů, než by odpovídalo stanovené hodnotě. Pro malé výběry z Laplaceova rozdělení je tedy t-test testem konzervativním (tj. takovým, pro který platí, že relativní četnost chyby I. druhu je výrazně menší, než je stanovená hladina významnosti ). Přestože je konzervativní test považován za validní, není tato vlastnost ideální.

49

P-hodnota konzervativních testů je obecně vyšší, než by podle stanovených parametrů měla být. K zamítnutí nulové hypotézy (ať už platné, či nikoliv) tak dochází s menší četností, než jaká byla stanovena. To se v případě, kdy je testovaná hypotéza neplatná, projeví menší silou testu.


, je skutečná velikost efektu, která v tomto případě nabývá hodnot

pochází z populace s rozdělením (

. Výběr

). Testovaná nulová hypotéza je tudíž ve skutečnosti

neplatná. Graf 3.3: Odhad síly testů pro různé rozsahy výběrů z (


velikosti efektu

Zdroj: vlastní zpracování 50

Z grafu 3.3 vyplývá, že pro velmi malé rozsahy výběrů (v tomto případě reprezentováno rozsahem výběru

) dosahuje t-test větší síly, než test Wilcoxonův, a to opět z důvodů

uvedených ve 3.4.1. Velmi zajímavá je také situace pro

, kdy pro menší hodnoty

skutečné velikosti efektu je Wilcoxonův test mírně silnější než t-test a naopak pro větší hodnoty je mírně slabší. Pro velikost rozsahu

je již Wilcoxonův test silnější ve všech

případech. Pokud mají být testovány výběry pocházející z výrazně leptokurtických rozdělení, je vhodnost použití těchto testů určena rozsahem výběru. Pro výběry, které obsahují

pozorování,

je vhodnější použít Wilcoxonův test, který se vyznačuje větší silou. Pokud jsou k dispozici výběry o menším rozsahu, bude vhodnější použít t-test, který za těchto okolností dosahuje i přes svou konzervativnost větší síly.

3.4.3 Studentovo rozdělení Dalším rozdělením zařazeným do simulací je Studentovo rozdělení, které již bylo představeno v kapitole 2.3. Studentovo rozdělení s nízkými stupni volnosti je podobně jako Laplaceovo rozdělení leptokurtické. Parametrem určujícím tvar Studentova rozdělení jsou stupně volnosti . Pro potřeby simulací byl zvolen počet stupňů volnosti

Studentovo rozdělení se

dvěma stupni volnosti se vyznačuje nejen kladným koeficientem špičatosti, ale zejména nekonečným rozptylem. Právě porušení normality vlivem teoreticky nekonečného rozptylu výchozí populace bude předmětem analýzy.


.

51

Tabulka 3.3: Relativní četnosti chyby I. druhu pro výběry z ( ) n t-test Wilcoxon

5 0,031 0

7 0,032 0,047

10 0,033 0,050

15 0,038 0,049

20 50 1000 0,039 0,038 0,043 0,053 0,051 Zdroj: vlastní zpracování

V případě Wilcoxonova testu je relativní četnost zamítnutí platné nulové hypotézy velmi blízká teoretické pravděpodobnosti chyby I. druhu. Při použití t-testu dochází k zamítnutí platné hypotézy s menší pravděpodobností, než jaká byla stanovena. T-test je v tomto případě testem konzervativním stejně jako v případě malých výběrů z Laplaceova rozdělení. Tehdy však s rostoucím

relativní četnost konvergovala ke stanovené hladině významnosti

v důsledku klasické centrální limitní věty. V tomto případě však, v důsledku nekonečného rozptylu, není stanovená hladina významnosti (

) dosažena ani při

.

Síla testu Testovány jsou nulové hypotézy , resp. ̃

,

kde c je skutečná velikost efektu, která v tomto případě nabývá hodnot

. Výběr

pochází z populace s rozdělením ( ) a nulovou střední hodnotu. Testovaná nulová hypotéza je tudíž ve skutečnosti neplatná.

52

Graf 3.4: Odhad síly testů pro různé rozsahy výběrů z ( ) v závislosti na skutečné velikosti efektu

Zdroj: vlastní zpracování Stejně jako v předchozích případech i zde je t-test pro velmi malé rozsahy výběrů (v tomto případě

) silnější. Pro

je již mírně silnější Wilcoxonův test. Pokud výběr

obsahuje 20 pozorování, je Wilcoxonův test výrazně silnější než t-test. Z grafu je také patrné, že síla t-testu s rostoucím rozsahem výběru roste výrazně pomaleji, než síla Wilcoxonova testu. Pokud výběry pocházejí ze studentova rozdělení se dvěma stupni volnosti, je vhodnost použití testů určena rozsahem výběru. Pro velmi malé výběry (

) je vhodnější použít t-test,

který se v této situaci vyznačuje i přes svou konzervativnost větší silou. Naopak pro větší výběry je silnější Wilcoxonův test.

53

3.4.4 Rovnoměrné rozdělení Posledním rozdělením, ze kterého byly v rámci Monte Carlo simulací prováděny výběry, je rovnoměrné rozdělení. Hustota pravděpodobnosti tohoto rozdělení je mezi body

a

nenulová a konstantní. Koeficient špičatosti tohoto rozdělení je záporný a rozdělení tak je považováno za platykurtické. Toto rozdělení bylo do simulací vybráno z důvodu porušení normality, a to svou menší špičatostí. Pro potřeby simulací bylo zvoleno rozdělení s parametry

.


.

Tabulka 3.4: Relativní četnosti chyby I. druhu pro výběry z ( n t-test Wilcoxon

5 0,068 0,000

7 0,058 0,047

10 0,054 0,046

15 0,049 0,044

20 0,052 0,048

)

50 0,049 0,047

Zdroj: vlastní zpracování Relativní četnost zamítnutí platné nulové hypotézy je v případě Wilcoxonova testu velmi blízká té stanovené (

). Jediná větší odchylka se objevuje pro

. Vzhledem k tomu,

že ostatní hodnoty nejsou výrazněji odchýleny, jedná se pravděpodobně pouze o výraznější chybu odhadu. Wilcoxonův test je validní pro všechna , pro která je definován tedy pro t-testu je, zejména pro velmi malé hodnoty Pro výběry

. V případě

, stanovená hladina významnosti překročena.

tak nemůže být t-test považován za úplně validní. Pro větší výběry

dochází vlivem klasické centrální limitní věty ke konvergenci ke stanovené hladině významnosti.

54


, je skutečná velikost efektu. Ta v tomto případě nabývá hodnot

pochází z populace s rozdělením

(

. Výběr

) s nulovou střední hodnotu. Testovaná nulová

hypotéza je tudíž ve skutečnosti neplatná. Graf 3.5: Odhad síly testů pro různé rozsahy výběrů z (


velikosti efektu

Zdroj: vlastní zpracování Z grafu 3.5 je patrné, že na rozdíl od výběrů z leptokurtických rozdělení, kde byl t-test silnější pouze v případě nejmenšího výběru, je zde t-test silnější pro všechny zvolené rozsahy výběrů. Nejmarkantnější je rozdíl opět pro

, pro větší rozsahy jsou rozdíly v síle obou testů

menší, ale přesto znatelné.

55

Při testování výběrů pocházejících z rovnoměrného rozdělení je silnějším testem t-test, a to pro všechny použité rozsahy výběrů. Validita t-testu, zejména pak pro velmi malé rozsahy, je však narušena. Pokud bude preferováno dosažení stanovené hladiny významnosti, měl by být pro výběry o rozsahu

volen Wilcoxonův test, který je v takových

případech sice výrazně slabší, ale validní.

3.5

Shrnutí

Validita Pokud výběry pocházejí z normálního rozdělení, jsou oba testy stejně validní. Při výběrech z leptokurtických rozdělení jsou oba testy validní, ale t-test je konzervativní. Pokud má leptokurtické rozdělení konečný rozptyl, dochází při větším rozsahu výběru

ke konvergenci

ke stanovené relativní četnosti vlivem klasické centrální limitní věty. Pokud výběry pocházejí z rozdělení platykurtických, je validita t-testu pro malé rozsahy výběru rozsahy (zhruba pro

narušena. Pro větší

) dochází opět vlivem klasické centrální limitní věty ke

konvergenci ke stanovené relativní četnosti a t-test je tak možno opět považovat za validní.

Síla testu Pokud výběry pocházejí z normálního rozdělení, je silnější testem t-test, a to pro všechny rozsahy výběru . Při výběrech z leptokurtických rozdělení je t-test silnější pouze pro rozsahy výběru

, pro větší

je již silnější Wilcoxonův jednovýběrový test. Pokud mají

leptokurtická rozdělení nekonečný rozptyl, je rozdíl v síle testů výraznější. Pokud výběry pocházejí z platykurtických rozdělení, je pro všechna pro menší

validní.

56

silnějším testem t-test, ten však není

Závěr Tato bakalářská práce se zabývala testováním statistických hypotéz konkrétně parametrickými a neparametrickými testy. Náplní první kapitoly bylo seznámit čtenáře s teorií nezbytnou pro pochopení dalších částí práce. Byly zde vysvětleny základní pojmy související s testováním hypotéz a byl zde popsán obecný postup používaný při testování hypotéz. Ve druhé části byly popsány vybrané parametrické a neparametrické testy. Tento popis spočíval v uvedení předpokladů daných testů, vysvětlení jejich výpočetních principů a v ilustrování jejich použití na jednoduchých příkladech. Hlavní praktický přínos této práce je obsažen ve třetí kapitole. V této části byly analyzovány základní

vlastnosti

dvou

vybraných

statistických

testů

(jednovýběrového

t-testu

a jednovýběrového Wilcoxonova testu) a tyto testy byly vzájemně porovnány. Analýza byla realizována prostřednictvím Monte Carlo simulací. Cílem této kapitoly bylo ověřit obecná tvrzení, která se vyskytují v používané literatuře a která doporučují, kdy použít test parametrický a kdy neparametrický. Simulace byly provedeny na výběrech z několika symetrických rozdělení, která se liší zejména svou špičatostí. Analyzovány byly situace, kdy jsou k dispozici výběry o malém rozsahu ( Nejzajímavější

výsledky

přinesla

analýza

). leptokurtických

rozdělení

(Laplaceovo

a Studentovo). Chování t-testu je v těchto případech konzervativní, což se projevuje sníženou silou t-testu pro výběry

. Tento závěr příliš nekoresponduje s obecnými tvrzeními,

protože rozdělení, které se oproti normálnímu vyznačuje pouze mírně vyšší špičatostí, by mělo být považováno za přibližně normální. Dle tohoto doporučení by tak měl být používán t-test. Výsledky simulací však říkají něco jiného. Pokud by měly být testovány výběry z leptokurtických rozdělení o rozsahu (

), měl by být používán

Wilcoxonův test. Na základě výše uvedeného je možné považovat stanovené cíle bakalářské práce za splněné. Na práci by bylo možno v budoucnu navázat, a to provedením dalších podobných simulací (pro jiné testy, jiná rozdělení atd.). Zpracování tohoto tématu autora velmi obohatilo, a to jak po stránce teoretické, tak i po stránce praktické.

57

Seznam literatury [1] ANDĚL, Jiří. Matematická statistika. Praha: SNTL, 1985, 346 s. [2] CYHELSKÝ, Lubomír, Jana KAHOUNOVÁ a Richard HINDLS. Elementární statistická analýza. 2. vyd. Praha: Management Press, 2001, 318 s. ISBN 80-726-1003-1. [3] HINDLS, Richard, Stanislava HRONOVÁ, Jan SEGER a Jakub FISCHER. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007, 415 s. ISBN 978-80-86946-43-6. [4] KANJI, Gopal K. 100 statistical tests. 3rd ed. Thousand Oaks, Calif.: Sage Publications, 2006, 242 p. ISBN 14-129-2375-1. [5] PECÁKOVÁ, Iva. Statistika v terénních průzkumech. 2. dopl. vyd. Praha: Professional Publishing, 2011, 236 s. ISBN 978-80-7431-039-3.

58

Seznam internetových zdrojů [6] ETH ZÜRICH. Manuál k softwaru R [online]. [cit. 2013-05-17]. Dostupné z: http://stat.ethz.ch/R-manual [7] Parametric and Nonparametric: Demystifying the Terms. MAYO CLINIC [online]. [cit. 2013-05-17]. Dostupné z: http://www.mayo.edu/mayo-edu-docs/center-for-translationalscience-activities-documents/berd-5-6.pdf [8] VASSAR COLLEGE. Website for Statistical Computation [online]. [cit. 2013-05-17]. Dostupné z: http://vassarstats.net [9] A Comparison of the Power of Wilcoxon's Rank-Sum Statistic to That of Student's t Statistic under Various Nonnormal Distributions. UNIVERSITY OF SOUTH FLORIDA. [online]. [cit. 2013-05-17]. Dostupné z: http://www.jstor.org/stable/1164905 [10] Hypothesis Testing and Statistical Power of a Test. INDIANA UNIVERSITY. [online]. [cit. 2013-05-17]. Dostupné z: http://www.indiana.edu/~statmath/stat/all/power/power.pdf [11] Nonparametric tests. UNIVERSITY OF NEW ENGLAND. [online]. [cit. 2013-05-17]. Dostupné z: http://www.une.edu.au/WebStat/unit_materials/c6_common_statistical_tests/ nonparametric_test.html [12] STATSOFT. Electronic statistics textbook [online]. [cit. 2013-05-17]. Dostupné z: http://www.statsoft.com/textbook [13] Nonparametric Analysis. STATISTICS SOLLUTION. [online]. [cit. 2013-05-17]. Dostupné z: http://www.statisticssolutions.com/academic-solutions/resources/directory-ofstatistical-analyses/#NonParametricAnalysis-5 [14] Calculation of p-value for Wilcoxon Signed-Rank test. UNIVERSITY OF WASHINGTON. [online]. [cit. 2013-05-17]. Dostupné z: https://courses.washington.edu/dphs568/course/Wilcoxon%20P-values.doc

59

Přílohy A. Ukázky R kódů, prostřednictvím kterých byly provedeny Monte Carlo simulace A.1 R kód sloužící k analýze validity testu

Prostřednictvím tohoto kódu byly provedeny Monte Carlo simulace, které sloužily k analýze validity testů. Tento kód konkrétně sloužil k analýze validity testů v případě, kdy výběry pocházely z

(

) Výstupem tohoto skriptu jsou data, která jsou zobrazena v tabulce 3.1.

60

A.2 R kód sloužící k analýze síly testu

Prostřednictvím tohoto kódu byly provedeny Monte Carlo simulace, které sloužily k analýze síly testů. Tento kód konkrétně sloužil k analýze síly testů v případě, kdy výběry pocházely z

(

) Výstupem tohoto skriptu jsou data, která jsou zobrazena v tabulkách B.

61

B. Tabulky obsahující odhady síly jednotlivých testů B.1 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z

n

test

0,2 6 t-test 0,068 Wilcoxon 0,043 10 t-test 0,086 Wilcoxon 0,083 20 t-test 0,129 Wilcoxon 0,125

0,4 0,129 0,083 0,200 0,193 0,401 0,385

0,6 0,216 0,142 0,391 0,377 0,722 0,696

(

) effect size 1 1,2 0,501 0,655 0,353 0,481 0,800 0,923 0,783 0,908 0,986 0,999 0,983 0,999

0,8 0,357 0,243 0,625 0,607 0,924 0,913

1,4 0,782 0,605 0,977 0,970 1 1

1,6 1,8 2 0,877 0,936 0,972 0,716 0,800 0,868 0,995 1 1 0,993 0,999 0,999 1 1 1 1 1 1

Zdroj: vlastní zpracování Tato data byla použita ke konstrukci grafu 3.2.

B.1 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z (

n

test


0,4 0,102 0,088 0,151 0,169 0,255 0,306

0,6 0,176 0,148 0,273 0,295 0,475 0,551

) effect size 1 1,2 0,378 0,486 0,296 0,382 0,579 0,701 0,585 0,697 0,846 0,934 0,887 0,959

0,8 0,275 0,218 0,421 0,435 0,69 0,753

1,4 0,573 0,448 0,802 0,79 0,977 0,988

1,6 0,669 0,53 0,873 0,856 0,991 0,996

1,8 0,744 0,592 0,924 0,905 0,997 0,999

2 0,805 0,657 0,957 0,94 0,999 0,999


62

B.3 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z ( )

n

test


0,4 0,07 0,067 0,104 0,13 0,157 0,228

0,6 0,125 0,114 0,194 0,234 0,309 0,429

effect size 1 1,2 0,271 0,359 0,238 0,306 0,412 0,513 0,46 0,552 0,595 0,695 0,769 0,87

0,8 0,192 0,17 0,296 0,34 0,449 0,623

1,4 0,45 0,382 0,613 0,64 0,786 0,936

1,6 0,512 0,444 0,689 0,711 0,839 0,964

1,8 0,586 0,507 0,744 0,76 0,884 0,981

2 0,652 0,566 0,786 0,795 0,903 0,989


B.4 Tabulka obsahující odhady síly jednotlivých testů v závislosti na rozsahu výběru a skutečné velikosti efektu pro výběry z (

n

test


0,2 0,099 0,051 0,151 0,14 0,301 0,272

0,3 0,155 0,075 0,275 0,247 0,586 0,52

) effect size 0,5 0,6 0,341 0,473 0,181 0,268 0,669 0,843 0,594 0,777 0,964 0,997 0,916 0,982

0,4 0,228 0,116 0,468 0,42 0,841 0,753

0,7 0,626 0,382 0,949 0,898 1 0,998

0,8 0,768 0,531 0,989 0,973 1 1

0,9 1 0,883 0,958 0,738 1 0,999 1 0,998 1 1 1 1 1


63

Vysoká škola ekonomická v Praze

Recommend Documents