TEORIE K MV2
TESTOVÁNÍ HYPOTÉZ
Testování hypotéz Nechť , , … je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: – parametry (případně jediný parametr) se rovnají určitým hodnotám • Nulová hypotéza • Alternativní hypotéza – opak nulové hypotézy, často je to právě to, co se snažíme prokázat Podle typu obou hypotéz zvolíme rozhodovací kritérium (test, testové kritériu, které závisí na realizovaném náhodném výběru. Dospějeme k některému z možných rozhodnutí: Zamítáme , pokud data (a tedy i test) svědčí proti této hypotéze Nezamítáme , pokud data (a tedy i test) nedávají dostatek důkazů proti
Chyby při rozhodování Při rozhodování mohou nastat dva druhy chyby: • chyba 1. druhu – platí a my ji zamítneme • chyba 2. druhu – neplatí a my ji nezamítneme Důležitým pojmem je hladina testu. Označujeme ji a její hodnotu volíme (obvykle 0,05). Hladina testu vyjadřuje nejvyšší přípustnou pravděpodobnost chyby 1. druhu. Možné situace představuje tabulka Rozhodnutí / Skutečnost Nezamítáme Zamítáme
platí správně chyba 1. druhu
neplatí chyba 2. druhu správně
Postup při rozhodování Podle toho, co chceme zjistit, zformulujeme a a zvolíme . Pak zvolíme vhodné rozhodovací kritérium. To uděláme tak, že z testů, jejichž hladina je menší než vybereme obvykle ten s nejmenší pravděpodobností chyby 2. druhu.
Testy o výběrových souborech Z-test – jednovýběrový test střední hodnoty při známém rozptylu Nechť , , … je náhodný výběr z rozdělení , , kde známe. Z dříve odvozeného vztahu dostaneme |
Pro hypotézu
Na hladině
Hypotézu
∀ ∃
:
|
∙ √! " # $ %1
proti alternativní hypotéze
pak zamítáme hypotézu
nezamítáme, pokud
-
: ,
∙ √!
2
() lze použít testovou statistiku
a přikloníme se k alternativní hypotéze
|-| " # $ %1 |-| . # $ %1
2 2
(
, pokud
( 1
TEORIE K MV2
TESTOVÁNÍ HYPOTÉZ
S tím souvisí závěr testování, že hypotéza může platit. Poznámka – pro dost velká ! platí tento test dle Centrální limitní věty i pro jiná rozdělení než . t-test – jednovýběrový test střední hodnoty při neznámém rozptylu , kde Nechť , , … je náhodný výběr z rozdělení , neznáme. Platí, že Z toho podobně jako u Z-testu plyne |
Pro hypotézu
Na hladině
Hypotézu
:
|
/
∙ √!~1
/
∙ √! " 1
$
proti alternativní hypotéze 2
$
%1
: ,
2
() lze použít testovou statistiku
∙ √! / a přikloníme se k alternativní hypotéze
pak zamítáme hypotézu
nezamítáme, pokud
|2| " 1
$
%1
|2| . 1
$
%1
S tím souvisí závěr testování, že hypotéza
2
může platit.
2
(
, pokud
(
Párový t-test Máme-li k dispozici dvě sady dat. Pak se snažíme porovnat jejich střední hodnoty. Označíme vybrané veličiny ,3 ,…, , 3 . Předpokládáme, že hodnoty se stejným indexem nelze považovat za nezávislé (obvykle jsou totiž měřena na jediném objektu). Hodnoty s různými indexy za nezávislé považujeme (obvykle byly měřeny na různých objektech). ,3 ,…, , 3 takovým, že a 3 Tuto situaci nazýváme dvourozměrným náhodným výběrem tvoří páry, které nelze považovat za nezávislé. Označíme 5 6, 536 4 7 Dále položme 3 ,…,3 , kde Předpokládejme, že veličiny - se dají považovat za náhodný výběr z rozdělení , 4
7
Chceme-li testovat hypotézu, že obě sady měření pocházejí z rozdělení o stejné střední hodnotě : 4 0 je totéž, jako test hypotézy : 0. 7 Test hypotézy : 0 proti alternativní hypotéze : , 0 je úlohou jednovýběrového t-testu. Vypočítáme tedy -̅ Na hladině pokud
zamítáme hypotézu
1 9 -6 , ! 6:
:
|2|
4
|-̅
/;
Dvouvýběrový t-test Mějme náhodný výběr , , … ~ 4, výběry jsou nezávislé a mají stejný rozptyl. ∀ ∃
/; 7
!
1
1
-̅
9 -6 6:
a přikloníme se k alternativní hypotéze
0|
∙ √! " 1
$
%1
a náhodný výběr
2
:
4
,
7,
( ,
,…
<~
7,
. Oba tyto
2
TEORIE K MV2
TESTOVÁNÍ HYPOTÉZ
Položme /4
!
1
1
9 6:
,
6
/7
=
1
1
<
9 36 6:
3
1 ∙ % ! 1 ∙ /4 ? = 1 ∙ /7 ( !?= 2 Pro test hypotézy, že obě sady měření pocházejí z rozdělení o stejné střední hodnotě 0 proti alternativní hypotéze : 4 7 , 0 je možno použít statistiku 3 0 !∙= 2 ∙@ ∗ / !?= Na hladině zamítáme hypotézu : 4 a přikloníme se k alternativní hypotéze 7 pokud /∗
|2| " 1
A<$
%1
2
:
4
:
4
7
,
7,
(
Znaménkový test V některých případech nejsou k dispozici výběrové soubory, ale jen informace o tom, kolikrát při velkém počtu nezávislých opakování zkoumaná veličina byla vyšší (+) nebo nižší (-) než nějaká zadaná hodnota. Přitom chceme testovat hypotézu, že medián rozdělení je roven právě té zadané hodnotě. Znaménkový test asymptotický pro velké n Mějme náhodný výběr , , … ze spojitého rozdělení s mediánem BC. Platí tedy 1 C C , E 1, … , ! 6 .B 6 DB 2 Chceme testovat hypotézu : BC B proti alternativní hypotéze : BC , B , kde B je zadaná hodnota. Utvoříme rozdíly B , B ,… B . V tomto souboru rozdílů vynecháme nulové hodnoty a příslušně snížíme !. Dostaneme tak zkoumaný soubor 3. Předpokládáme-li platnost hypotézy , pak pro počet rozdílů s kladným znaménkem je 3~FE !, G 1⁄2 . Podle Moivrovy-Laplaceovy věty pro velké ! platí 3~ !⁄2 , !⁄4 . Lze tedy konstatovat, že při platnosti je ! 3 2 23 ! J ~ 0,1 ! √! @ 4 Na hladině zamítáme hypotézu : BC B a přikloníme se k alternativní hypotéze : BC , B , pokud |J| " # $ %1
2
(
Znaménkový test exaktní (přesný) Tento test se používá jen tehdy, je-li ! malé a nelze použít Moivrovu-Laplaceovu větu. Vycházíme z předpokladu, že platí-li hypotéza , pak pro počet rozdílů s kladným znaménkem je 3~FE !, G 1⁄2 . To znamená, že očekáváme, že zjištěná hodnota 3 bude blízko své střední hodnoty !⁄2. Zvolíme hladinu testu . Nalezneme největší číslo K a nejmenší číslo K , pro která ještě platí Na hladině ∀ ∃
zamítáme hypotézu
3
: BC
K
, 3"K 2 2 B a přikloníme se k alternativní hypotéze 3 ∉ K ,K
: BC , B , když 3
TEORIE K MV2
TESTOVÁNÍ HYPOTÉZ
Možná použití znaménkového testu Znaménkový test lze použít jako test o mediánu u náhodného výběru , , … ze spojitého rozdělení Znaménkový test lze použít i místo jednovýběrového či párového t-testu. Výhodou znaménkového testu je, že u něj není požadováno normální rozdělení výběru. Nevýhodou znaménkového testu je, že u normálně rozděleného výběru je o něco větší chyba 2. druhu proti stejné chybě v t-testu. Jsme-li si jistí normalitou dat, je tudíž vhodnější použít t-test.
Test o parametru p binomického rozdělení V některých případech máme k dispozici jen informaci, kolikrát při velkém počtu nezávislých opakování nastal určitý jev. Zajímá nás pravděpodobnost, že daný jev nastane. Budeme tedy testovat hypotézu o pravděpodobnosti. Test o parametru p binomického rozdělení asymptotický Předpokládejme, že máme k dispozici realizaci náhodné veličiny 3~FE !, G , například počet nějakých událostí v ! stejných nezávislých pokusech. Chceme testovat hypotézu o pravděpodobnosti p, že událost nastane : G G proti alternativní hypotéze : G , G . Podle Moivrovy-Laplaceovy věty pro velké ! platí 3~ M! ∙ G, ! ∙ G ∙ 1 G N Lze tedy konstatovat, že při platnosti je 3 !∙G J ~ 0,1 O! ∙ G ∙ 1 G Na hladině zamítáme hypotézu : G G a přikloníme se k alternativní hypotéze : G , G , pokud |J| " # $ %1
2
(
Poznámka Znaménkový test je speciálním případem testu o parametru binomického rozdělení pro G
1⁄2.
Test o parametru p binomického rozdělení exaktní (přesný) Tento test používáme tehdy, je-li ! malé. Předpokládejme, že máme k dispozici realizaci náhodné veličiny 3~FE !, G , například počet nějakých událostí v ! stejných nezávislých pokusech. Očekáváme tedy, že zjištěná hodnoty 3 bude blízko své střední hodnoty ! ∙ G. Zvolíme hladinu testu . Nalezneme největší číslo K a nejmenší číslo K , pro která ještě platí Na hladině pokud
zamítáme hypotézu
3
: G
K
, 3"K 2 2 G a přikloníme se k alternativní hypotéze 3 ∉ K ,K
: G , G ,
Jednovýběrový Wilcoxonův test asymptotický Máme veličiny , , … ze spojitého rozdělení se symetrickou hustotou s mediánem BC. Chceme testovat hypotézu : BC B proti alternativní hypotéze : BC , B , kde B je zadaná hodnota. Z dalšího zpracování vyloučíme pozorování, pro která je 6 B a příslušně snížíme !. Určíme průměrná pořadí P6A hodnot | 6 B |. ∀ ∃
4
TEORIE K MV2
TESTOVÁNÍ HYPOTÉZ
Test je založen na součtu pořadí P6A, to je těch hodnot | /
9
6:4Q $RS T
B |, pro které je
6
P6A
6
B D 0, neboli
Vypočteme statistiku, která má za platnosti hypotézy : BC B asymptoticky normované normální rozdělení. Takovou statistikou je !∙ !?1 / 4 J @! ∙ ! ? 1 ∙ 2! ? 1 24 Na hladině zamítáme hypotézu : BC B a přikloníme se k alternativní hypotéze : BC , B , pokud |J| " # $ %1
2
(
Poznámka Tento test je založen na pořadí hodnot, nepožaduje se normalita. Jde o takzvaný neparametrický test. Nepředpokládáme u něj nějaké dané rozdělení s parametry, které je nutné odhadovat. Stejnou vlastnost má i znaménkový test. Wilcoxonův test je lepší než znaménkový test, protože má menší chybu 2. druhu.
Poznámka k výběru testu Volíme-li mezi t-testem (případně párovým) a znaménkovým testem, pak záleží na situaci. Jsme-li si jisti normalitou, je vhodnější t-test, protože má menší chybu 2. druhu. Nemáme-li k dispozici přesná měření, ale jen počet kladných či záporných odchylek od hypotetického mediánu (znaménka), nezbývá, než použít znaménkový test. Pokud data nepocházejí z normálního rozdělení, ale máme k dispozici přesné hodnoty měření, lze použít jednovýběrový Wilcoxonův test.
∀ ∃
5