11 TESTOVÁNÍ HYPOTÉZ 11.1 Základní pojmy V Kapitole 10 jsme se seznámili s postupem, jak odhadnout neznámé parametry základního souboru (populace) v případě, že nemáme k dispozici všechny jeho prvky, ale jen jeho část náhodný výběr. V praxi to ale nebývá jediný typ informace, která nás o populaci zajímá. Často chceme z údajů, získaných na základě náhodného výběru, vyvodit i jiné úsudky o celé populaci. Zajímalo-li nás v předchozí kapitole například to, s jakou střední hodnotou a rozptylem plní plnicí automat balíčky mouky, může nás navíc zajímat i to, jestli mají hmotnosti těchto balíčků normální rozdělení nebo jestli se po seřízení automatu zlepšily jeho vlastnosti (tzn. „nová“ střední hodnota je blíž k hodnotě 1 kg a „nový“ rozptyl je menší, než tomu bylo před seřízením). Každé takové tvrzení o neznámé vlastnosti základního souboru nazýváme statistická hypotéza a postup, kterým ověřujeme její správnost (na základě výsledků získaných z výběrového šetření), se nazývá testování hypotéz. Statistická hypotéza Statistická hypotéza je tvrzení, které se týká neznámé vlastnosti rozdělení pravděpodobnosti pozorované náhodné veličiny. Je to výrok, který se zakládá na předchozí zkušenosti, na rozboru dosavadních znalostí nebo na pouhé domněnce. Pojednává-li statistická hypotéza o parametrech rozdělení náhodné veličiny (střední hodnotě, mediánu, rozptylu, …), mluvíme o parametrické hypotéze, týká-li se jiných vlastností náhodné veličiny (typu rozdělení, nezávislosti výběru, …), nazýváme ji hypotézou neparametrickou. Parametrické hypotézy můžeme zapisovat • jako rovnosti resp. nerovnosti mezi testovaným parametrem a jeho předpokládanou hodnotou (např. „průměrná hmotnost balíčku mouky je u balicího automatu X rovna 1 kg“, tj. „ 1 “, resp. „průměrná hmotnost balíčku mouky je u balicího automatu X menší než 1 kg“, tj. „ 1 “), • jako rovnosti resp. nerovnosti mezi dvěma nebo více testovanými parametry (např.: „průměrná hmotnost balíčku mouky je u balicích automatů X, Y a Z stejná“, tj. „ X Y Z “, resp. „průměrná hmotnost balíčku mouky je u balicího automatu X větší než u balicího automatu Y“, tj. „ X Y “). Neparametrickými hypotézami pak mohou být například tvrzení: • produkce zmetků v jednotlivých hodinách je rovnoměrná (má rovnoměrné rozdělení), • hmotnosti v mužské populaci mají normální rozdělení, • hmotnosti a výšky v mužské populaci jsou závislé znaky. Z výše uvedených příkladů je patrno, že statistické hypotézy lze dělit i jinak než na parametrické a neparametrické, a to: • podle počtu šetřených populací na hypotézy jednovýběrové, dvouvýběrové a vícevýběrové,
1
• podle toho, zda je hypotéza jednoduchým nebo složeným výrokem, na hypotézy jednoduché a složené. Hypotéza, jejíž platnost ověřujeme, se nazývá nulová hypotéza a značí se H0. Ke každé nulové hypotéze vždy stanovíme alternativní hypotézu H𝐴 (zkráceně alternativu, někdy též označovanou H1), kterou přijmeme tehdy, když je nulová hypotéza zamítnuta. Máme-li například nulovou hypotézu H0: a , můžeme alternativní hypotézu stanovit v jednom z následujících tvarů: a) H𝐴: a , b) H𝐴: a , c) H𝐴: a . V případě a) alternativní hypotéza popírá platnost nulové hypotézy bez bližší specifikace. Tvrdí, že hodnota testovaného parametru je jiná, než udává nulová hypotéza. Takto formulovaná alternativní hypotéza se nazývá oboustranná (zajímají nás významné odchylky parametru od hodnoty a v obou směrech). V případech b) a c) hovoříme o tzv. jednostranné alternativní hypotéze (podstatná je pro nás odchylka parametru od hodnoty a jen v jednom směru). Jednostranná alternativní hypotéza rovněž popírá platnost nulové hypotézy, zároveň ale tvrdí, že hodnota testovaného parametru je buď menší, nebo větší, než je hodnota uvedená v nulové hypotéze. Tvar alternativní hypotézy volíme v souladu se zadáním problému a s informacemi získanými z výběrového souboru, jak můžeme vidět v následujících příkladech: Příklad 11.1.1: Výrobce jistého typu žárovek uvádí střední dobu svícení 1000 h. Stanovte nulovou a alternativní hypotézu pro případ, že chceme ověřit pravdivost tohoto tvrzení. Řešení: Populace (základní soubor): všechny žárovky uvedeného typu Sledovaný statistický znak (náhodná veličina): doba svícení Nulová hypotéza: H0: 1000 Alternativní hypotéza: H𝐴: 1000 Pokud bychom měli podezření, že nás výrobce klame a střední doba svícení je menší, než uvádí, a tato naše domněnka by byla podpořena informací z výběrového souboru (výběrový průměr by vyšel menší než 1000 h), stanovili bychom alternativní hypotézu ve tvaru: H𝐴: 1000 . Příklad 11.1.2: Stanovte nulovou a alternativní hypotézu pro případ, že chceme ověřit, zda seřízení automatu vedlo k menší kolísavosti v délce vyráběných součástek. Řešení: Populace 1 (základní soubor 1): všechny součástky vyrobené před seřízením Populace 2 (základní soubor 2): všechny součástky vyrobené po seřízení Sledovaný statistický znak (náhodná veličina): délka součástky Nulová hypotéza: H0: 12 22 Alternativní hypotéza: H𝐴: 12 22 Test statistické hypotézy Testem statistické hypotézy rozumíme rozhodovací proces, při kterém na základě informací získaných z výběrového souboru provedeme rozhodnutí ve prospěch jedné z hypotéz H0 a H𝐴.
2
Tyto dvě hypotézy musí být formulovány tak, aby v daném okamžiku platila právě jedna z nich. Nulovou hypotézu H0 přitom považujeme za pravdivou až do okamžiku, dokud nás informace získané z výběrového souboru nepřesvědčí o opaku (podobně je v soudnictví aplikován princip presumpce neviny, dokud se nenajde důkaz, který svědčí o vině). Výsledkem testování je pak jedno z těchto rozhodnutí: a) Zamítáme hypotézu H0 ve prospěch alternativy H𝐴 (našli jsme pádný důvod H0 zamítnout). b) Nezamítáme hypotézu H0 (nenašli jsme pádný důvod H0 zamítnout). Toto závěrečné rozhodnutí provedeme na základě vypočtených hodnot funkce T(X), nazývané testovým kritériem (někdy též testovou statistikou). Jedná se o funkci náhodného výběru, která má vztah k nulové hypotéze a která má za předpokladu její platnosti známé rozdělení. Obor hodnot testového kritéria T(X) se za předpokladu platnosti H0 dělí na dvě disjunktní podmnožiny: kritický obor Wp a jeho doplněk - obor prakticky možných hodnot Vp. Kritický obor Wp je definován tak, aby pravděpodobnost, že hodnota testové statistiky T(X) leží uvnitř tohoto oboru, byla za předpokladu platnosti nulové hypotézy rovna číslu p (tzn. P(T ( X ) Wp | H 0 ) p ). Pravděpodobnost, že T(X) leží za předpokladu platnosti nulové hypotézy mimo kritický obor Wp, tedy že leží uvnitř oboru prakticky možných hodnot Vp, je tudíž 1 – p (tzn. P(T ( X ) V p | H 0 ) 1 p ). Číslo p nazýváme hladina významnosti testu, její hodnotu volíme před začátkem testování (obvykle p = 0,05 nebo 0,01). Konkrétní podoba Wp a Vp bývá u různých testů různá. Při konstrukci těchto oblastí se držíme následujícího postupu. Vycházíme ze vztahu P(T ( X ) V p | H 0 ) 1 p . Obor prakticky možných hodnot Vp tedy určíme jako interval (a, b), kde pro hodnoty a, b platí: P(a T ( X ) b | H 0 ) 1 p . Tento interval bývá nazýván také konfidenčním intervalem nebo intervalem spolehlivosti, jak je tomu v teorii intervalových odhadů parametrů (Kapitola 10.4). Obor prakticky možných hodnot Vp totiž není nic jiného, než intervalový odhad T(X) na hladině významnosti p. Nechť naše nulová hypotéza H0 předpokládá, že A = B. Tuto hypotézu lze testovat proti alternativě A B , A B nebo A B . V případě alternativy A B používáme pro určení oboru Vp takzvaný symetrický oboustranný interval spolehlivosti, což je interval (a, b), pro který platí: p P(T ( X ) a | H 0 ) P(T ( X ) b | H 0 ) , 2 v případě alternativ A B a A B používáme jednostranný interval spolehlivosti, což je interval (a, b), pro který platí jeden z těchto dvou vztahů: P(T ( X ) a | H 0 ) 0 P(T ( X ) b | H 0 ) p , P(T ( X ) a | H 0 ) p P(T ( X ) b | H 0 ) 0 . Kritický obor Wp je pak doplňkem množiny Vp (tzn. intervalu (a, b) ) do intervalu (, ). Krajní body intervalu (a, b), tedy body, které oddělují kritický obor Wp od oboru prakticky možných hodnot Vp , určíme jako kritické hodnoty rozdělení, které má za předpokladu platnosti nulové hypotézy statistika T(X). Připomeňme, že kritická hodnota rozdělení na hladině významnosti p je hodnota, kterou náhodná veličina s tímto rozdělením (u symetrických rozdělení její absolutní hodnota) překročí s pravděpodobností p (viz Definice
3
10.4.4). Konkrétní tvar kritického oboru Wp bývá v literatuře součástí každého uvedeného testu. Teď už si jen vysvětlíme, jak na základě vypočtené hodnoty testového kritéria T(X) a kritického oboru Wp vyvodit závěrečné rozhodnutí o hypotéze H0. Stanovíme-li na začátku testování dostatečně malou hladinu významnosti p, například p = 0,05, bude pravděpodobnost toho, že hodnota testového kritéria T(X) padne za předpokladu platnosti H0 do kritického oboru Wp, rovna 5%. Jestliže pak tato situace nastane, bude to pro nás signál, že nulová hypotéza zřejmě neplatí (pravděpodobnost, že by platila, je totiž v tomto případě jen 5%). Závěr testu tudíž stanovíme takto: padne-li pozorovaná hodnota testového kritéria T(X) do kritického oboru Wp, hypotézu H0 zamítáme, padne-li tato hodnota do oboru přijetí Vp, hypotézu H0 nezamítáme. Postup při testování statistické hypotézy Postup při testování statistických hypotéz tedy můžeme shrnout do těchto šesti bodů: 1) Formulujeme předloženou otázku ve formě nulové a alternativní statistické hypotézy. Tento postup jsme si ukázali v Příkladech 11.1.1 a 11.1.2. 2) Zvolíme vhodný test s konkrétní testovou statistikou T(X). Pro testování různých typů statistických hypotéz jsou doporučeny různé testy, s těmi nejznámějšími se seznámíme na následujících stránkách této kapitoly. U každého testu je uvedeno, jaký typ hypotézy se jím dá testovat, o jakou testovou statistiku T(X) se test opírá a jak vypadá kritický obor Wp (případně jaké rozdělení má statistika T(X) za předpokladu platnosti nulové hypotézy). Některé testy předpokládají konkrétní rozdělení populace (nejčastěji je to rozdělení normální). Testy vyžadující znalost rozdělení populace označujeme jako parametrické. Pokud nejsou jejich předpoklady splněny, měli bychom použít jejich alternativu – testy neparametrické neboli robustní. Tyto testy nekladou žádné předpoklady na konkrétní rozdělení populace, mají tedy širší použití. Slabší požadavky u těchto testů však způsobují, že tyto testy nejsou tak silné, jako jejich parametrické protějšky. 3) Zvolíme přijatelnou hladinu významnosti p. Toto číslo, jak se brzy dozvíme, určuje pravděpodobnost chyby I. druhu, proto se musí volit dostatečně malé. V praxi se nejčastěji setkáváme s hodnotami p = 0,10; 0,05 a 0,01. V technických oblastech volíme obvykle hladinu významnosti p = 0,05, ve speciálních případech (některé medicínské aplikace) nároky na pravděpodobnost chyby I. druhu ještě zvyšujeme a volíme p = 0,01. 4) Vypočteme pozorovanou hodnotu testového kritéria Tobs. Tuto hodnotu získáme tak, že do příslušného vztahu pro T(X) dosadíme hodnoty náhodného vektoru X, zjištěné u jednotek výběrového souboru. 5) Vypočteme kritickou hodnotu testového kritéria na hladině významnosti p a určíme kritický obor Wp. 6) Vyslovíme závěr.
4
• hypotézu H0 zamítáme (přijímáme hypotézu HA), pokud pozorovaná hodnota testového kritéria Tobs leží v kritickém oboru Wp. Rozdíl mezi pozorovanou a teoretickou hodnotou testového kritéria považujeme v tomto případě za statisticky významný na zvolené hladině významnosti p, což znamená, že se nedá vysvětlit pouze nahodilostí výběru, • hypotézu H0 nezamítáme (zamítáme hypotézu HA), pokud pozorovaná hodnota testového kritéria Tobs neleží v kritickém oboru Wp. Znamená to, že rozdíl mezi pozorovanou a teoretickou hodnotou testového kritéria je na dané hladině významnosti p vysvětlitelný nahodilostí výběru. Příklady otázek, na které se dá odpovídat pomocí výsledků příslušných statistických testů: • Má základní soubor (ZS) předpokládanou střední hodnotu? • Mají dva soubory stejnou disperzi? • Můžeme předpokládat, že dva výběry pocházejí z téhož ZS? • Má ZS předpokládané rozdělení? Těmito slovy zřejmě nebudeme formulovat otázky v praxi, bude nás ale např. zajímat, zda: • Bylo dodáno uhlí deklarované kvality? • Pracují dva měřicí přístroje stejně přesně? • Nezměnily se provozní podmínky ovlivňující výrobu (např. seřízení obráběcích strojů)? • Je produkce zmetků v jednotlivých hodinách rovnoměrná? Chyba I. a II. druhu Je zřejmé, že závěr, který učiníme, nemusí být vždy správný. Všechny možnosti, které mohou po vyslovení konkrétního rozhodnutí nastat, popisuje následující tabulka: Tab. 11.1.1:
Skutečnost:
Výsledek tesu
Ho platí Ho neplatí
Nezamítáme Ho
Zamítáme Ho
Správné rozhodnutí 1-p (spolehlivost testu) Chyba II. druhu q
Chyba I. druhu p (hladina významnosti) Správné rozhodnutí 1-q (síla testu)
Jestliže nulová hypotéza je ve skutečnosti platná a my ji přesto zamítneme, dopouštíme se chyby, označované jako chyba I. druhu. Pravděpodobnost, že k takovémuto pochybení dojde, je rovna hladině významnosti p. Platí-li nulová hypotéza a my jsme ji nezamítli, rozhodli jsme správně. Pravděpodobnost tohoto rozhodnutí je 1 - p a nazýváme ji spolehlivost testu. Správným rozhodnutím je rovněž zamítnutí nulové hypotézy v případě, že tato hypotéza neplatí. Tohoto rozhodnutí se dopouštíme s pravděpodobností 1 - q, která bývá označována jako síla testu. Chybou II. druhu je nezamítnutí nulové hypotézy v případě, že tato hypotéza neplatí. Pravděpodobnost této chyby označujeme q. Přirovnáme-li tuto situaci k medicínskému testování (kde nulová hypotéza H0 říká, že pacient je zdráv), pak chyba I. druhu znamená falešně pozitivní výsledek (pacient je zdráv, ale testování ukazuje na nemoc), chyba II. druhu odpovídá falešně negativnímu výsledku (pacient je nemocný, ale test to neodhalí).
5
Pravděpodobnosti p a q, s nimiž chyby I. a II. druhu nastávají, rozhodují o kvalitě testu. Je-li test hypotézy H0 založený na testové statistice T(X) s kritickým oborem Wp a oborem prakticky možných hodnot Vp, pak platí následující vztahy: • P(T ( X ) Wp | H 0 ) p • P(T ( X ) V p | H 0 ) 1 p • P(T ( X ) V p | H A ) q • P(T ( X ) Wp | H A ) 1 q Při testování hypotéz se samozřejmě snažíme postupovat tak, abychom minimalizovali pravděpodobnosti obou chyb, p i q. To však není možné, neboť snížením hodnoty q se zvýší hladina významnosti p a naopak. Proto je třeba najít kompromis mezi požadavky na p a q. V praxi tedy postupujeme tak, že zvolíme dostatečně malou hladinu významnosti p a hypotézu H0 volíme (pokud to jde) tak, aby byla testem zamítnuta. V tom případě totiž máme pod kontrolou velikost chyby, které jsme se mohli dopustit (je rovna hodnotě p). Pravděpodobnost chyby II. druhu q se dá snížit volbou vhodného testu (pokud máme možnost výběru) nebo zvětšením rozsahu výběrového souboru. Jedině tak snížíme pravděpodobnost q, aniž bychom tím zvýšili pravděpodobnost p.
11.2 Hypotézy o rozptylu 1) Test o rozptylu normálního rozdělení Předpokládejme, že máme normálně rozdělenou populaci se střední hodnotou 𝜇 a rozptylem 2 a žádný z parametrů 𝜇, 2 neznáme. Na základě výběru X1, X2, …, Xn z dané populace chceme ověřit předpoklad, zda rozptyl populace 2 je roven hodnotě 02 . Neznámý rozptyl 2 odhadneme výběrovým rozptylem s 2 , který určíme z pozorovaných výběrových hodnot x1, x2 , …, xn. Je zřejmé, že vypočtená a předpokládaná hodnota rozptylu ( s 2 a 02 ) se mohou od sebe lišit. Rozdíl může být pouze nevýznamný a lze ho přičíst účinku náhodných vlivů, působících při výběru. Tento rozdíl však může být i nenáhodný (říkáme také statisticky významný nebo signifikantní). Test o rozptylu pak představuje ověření, zda se výběrový rozptyl s 2 a předpokládaný rozptyl 02 liší statisticky významně nebo pouze náhodně. Nulovou hypotézu H 0 zvolíme ve tvaru H 0 : 2 02 , u alternativy H A můžeme volit ze tří možností: H A,1 : 2 02 , H A, 2 : 2 02 , H A,3 : 2 02 . Jako testové kritérium použijeme výběrovou charakteristiku T ( X ) rozdělení 2 (n 1) (tedy 2
S2
(n 1) , která má v případě platnosti nulové hypotézy 2 rozdělení s n 1 stupni volnosti). Jak víme z Kapitoly 10,
kritická hodnota p2 (n) (tedy kritická hodnota 2 rozdělení s n stupni volnosti na hladině významnosti p) je definována tak, že pro náhodnou veličinu X s rozdělením 2 (n) platí:
6
P( X p2 (n)) p . Kritická oblast rozdělení 2 (n 1) na hladině významnosti p je tedy vymezena kritickými hodnotami 2 p (n 1) a 2p (n 1) . Testujeme-li hypotézu H 0 oproti 1
2
2
alternativě H A,1 , porovnáváme vypočtenou hodnotu testové statistiky Tobs s těmito kritickými hodnotami a hypotézu
zamítáme v případě, že platí
H0
Tobs 2 p (n 1) 1
2
nebo
Tobs 2p (n 1) . V případě alternativy H A, 2 tvoří kritickou oblast interval p2 (n 1); , 2
neboť ve prospěch této alternativy hovoří vysoké hodnoty s2 a tedy i testového kritéria T. Hypotézu H 0 pak zamítáme v případě, že platí Tobs p2 (n 1) . V případě alternativy H A,3
tvoří kritickou oblast interval ; 12 p (n 1) a hypotézu H 0 zamítáme v případě, že platí
Tobs 12 p (n 1) . Informace obsažené v tomto odstavci můžeme stručně shrnout následujícím zápisem: 1) H 0 : 2 02
H A,1 : 2 02 TK: T ( X )
S2
2
(n 1)
2
(n 1)
KO: ; 2 p (n 1) 2p (n 1); 1 2 2 ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs 2 p (n 1) nebo Tobs 2p (n 1) , pak H 0 zamítáme, jinak ne) 1
2
2
2) H 0 : 2 02
H A, 2 : 2 02 TK: T ( X )
S2
(n 1)
2 KO: p (n 1); 2
2
(n 1)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs p2 (n 1) , pak H 0 zamítáme, jinak ne) 3) H 0 : 2 02
H A,3 : 2 02 TK: T ( X )
S2
2
(n 1)
KO: ; 12 p (n 1)
2
(n 1)
7
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs 12 p (n 1) , pak H 0 zamítáme, jinak ne) Poznámka: 1) Symbol TK zde i v dalším textu označuje testové kritérium, symbol KO kritický obor. 2) Kritické hodnoty p2 (n) získáme ze statistických tabulek nebo užitím excelovské funkce CHIINV (např. 02,1 (17) = CHIINV(0,1; 17) 24,769) Příklad 11.2.1: Měřením délek 10 válečků byl získán výběrový rozptyl s2 = 0, 0021 mm2. Za předpokladu normality rozdělení těchto délek otestujte na hladině významnosti 0,05 hypotézu, že rozptyl měřené délky je 0,0025 mm2, tedy H0 : 2 = 0,0025. Řešení: n 10 ; s 2 0,0021; p 0,05 H 0 : 2 0,0025
H A : 2 0,0025 TK: T ( X )
S2
2
(n 1)
0,0021 (10 1) 7,6 0,0025 2 p (n 1) 02,975(9) CHIINV(0,975 ; 9) 2,700
Tobs 1
2
(n 1) 02,025(9) CHIINV(0,025 ; 9) 19,023 2 p 2
Kritický obor (obor zamítnutí hypotézy H0) tedy tvoří sjednocení intervalů ; 2,700 a 19,023; , obor prakticky možných hodnot je interval 19,023; 2,700 . Pozorovaná hodnota testového kritéria Tobs nepadla do kritického oboru, nulovou hypotézu tedy nezamítáme. ZÁVĚR: Tobs KO H 0 nezamítáme Rozptyl měřené délky se od hodnoty od hodnoty 0,0025 mm2 významně neliší. Příklad 11.2.2: Hmotnost kulečníkové koule lze pokládat za náhodnou veličinu s normálním rozdělením. Za kvalitní se považují koule, jejichž směrodatná odchylka hmotnosti nepřekračuje 2 gramy. Při zkoušce deseti náhodně vybraných koulí jisté značky byly zjištěny následující hodnoty jejich hmotností (v gramech): 170,176,168,170,173,169,168,170,170,170. Ověřte, zda koule této značky lze považovat za kvalitní. Řešení: n 10 ; p 0,05 (volíme sami); s 2 5,822 [g2] (vypočteme např. pomocí excelovské funkce VAR.S) Za kvalitní se považují koule, u kterých směrodatná odchylka hmotnosti nepřekračuje 2 g, tj. koule, u kterých rozptyl hmotnosti 2 nepřekračuje 4 g2. Budeme tedy testovat nulovou hypotézu H 0 : 2 4 oproti alternativě H A : 2 4 :
H0 : 2 4 8
H A : 2 4 TK: T ( X )
S2
2
(n 1)
5,822 (10 1) 13,099 4 p2 (n 1) 02,05 (9) CHIINV(0,05 ; 9) 16,919
Tobs
KO: p2 (n 1); 16,919 ; ZÁVĚR: Tobs KO H 0 nezamítáme Nelze tvrdit, že rozptyl hmotností kulečníkových koulí je větší než 4 g2, sadu kulečníkových koulí testované značky tedy lze označit za kvalitní. 2) Test o shodě dvou rozptylů (F-test) Mějme dva nezávislé výběry X1, X2, …, Xn1 a Y1, Y2, …, Yn2, které pochází ze dvou základních souborů s rozděleními N (1 , 12 ) a N ( 2 , 22 ) , jejichž parametry 1 , 12 a 2 , 22 neznáme. Pak nulovou hypotézu H 0 : 12 22 o shodě dvou rozptylů testujeme pomocí testového
S12 , kde S12 , S 22 značí výběrové disperze jednotlivých výběrů. Tato S 22 statistika má za předpokladu platnosti nulové hypotézy Fisherovo-Snedecorovo rozdělení (zkráceně F rozdělení) s n1 1 stupni volnosti pro čitatele a n2 1 stupni volnosti pro jmenovatele. Připomeňme, že kritická hodnota Fp (m, n) Fisherova-Snedecorova rozdělení s m a n stupni volnosti na hladině významnosti p je hodnota definovaná tak, že pro náhodnou veličinu X s rozdělením F (m, n) platí: P( X Fp (m, n)) p . Kritický obor u F-testu tedy určíme obdobně jako u testu předchozího a pro jednotlivé typy alternativní hypotézy můžeme postup testování zapsat takto: kritéria T ( X ,Y )
1) H 0 : 12 22
H A,1 : 12 22 TK: T ( X ,Y )
S12 S 22
T F (n1 1, n2 1)
KO: ; F p (n1 1, n2 1) F p (n1 1, n2 1); 1 2 2 ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs F
1
p 2
(n1 1, n2 1) nebo Tobs F p (n1 1, n2 1) , pak H 0 zamítáme, jinak ne) 2
2) H 0 : 12 22
H A, 2 : 12 22 S12 TK: T ( X ,Y ) 2 S2
T F (n1 1, n2 1) 9
KO: Fp (n1 1, n2 1); ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs Fp (n1 1, n2 1) , pak H 0 zamítáme, jinak ne) 3) H 0 : 12 22
H A,3 : 12 22 S12 T F (n1 1, n2 1) S 22 KO: ; F1 p (n1 1, n2 1) TK: T ( X ,Y )
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs F1 p (n1 1, n2 1) , pak H 0 zamítáme, jinak ne) Poznámka: 1) Pokud zvolíme indexy 1,2 tak, aby Tobs > 1, stačí v případě 1) porovnat hodnotu Tobs s kritickou hodnotou F p (n1 1, n2 1) a brát za kritický obor pouze interval 2
F p (n1 1, n2 1); . 2 2) Kritickou hodnotu Fp (m, n) získáme ze statistických tabulek nebo užitím excelovské funkce FINV (např. F0,01(10,12) = FINV(0,01; 10; 12) 4,296). Příklad 11.2.3: Při vyšetřování životnosti jistého typu výrobků ve dvou různých provozních podmínkách byly získány dva statistické soubory s charakteristikami n1 = 21, s12 = 0,119 h2, n2 = 23, s 22 = 0,043 h2. Za předpokladu normality rozdělení otestujte na hladině významnosti 0,05 hypotézu o různých rozptylech v obou skupinách. Řešení: n1 = 21; s12 = 0,119 h2; n2 = 23; s 22 = 0,043 h2; p 0,05 H 0 : 12 22 H A : 12 22
TK: T ( X ,Y )
S12 S 22
0,119 2,767 0,043 Protože Tobs 1 , stačí (v souladu s poznámkou 1) tuto hodnotu porovnat s kritickou hodnotou Tobs
F p (n1 1, n2 1) F0,025(20, 22) = FINV(0,025; 20; 22) 2,389 2
KO: F p (n1 1, n2 1); 2,389; 2
10
ZÁVĚR: Tobs KO H 0 zamítáme Rozdíl mezi rozptyly obou souborů je statisticky významný. Příklad 11.2.4: Byly sledovány výsledky v běhu na 50 m (v sekundách) u skupiny desetiletých chlapců a dívek. Za předpokladu normality obou rozdělení posuďte získané výsledky z hlediska vyrovnanosti výkonů v jednotlivých skupinách. Chlapci: 10,8; 9,3; 9,4; 9,9; 10,2; 9,3; 9,4; 8,9; 8,9; 9,6; 9,7; 10,6; 9,4; 9,5; 9,6; 10,0; 9,3; 9,4; 8,4; 9,8; 8,8; 9,2; 9,5; 9,8; 9,0; 10,5; 9,4; 9,3; 9,9; 9,1; 9,6; 8,7; 8,1. Dívky: 10,7; 10,8; 10,0; 10,6; 9,2; 10,2; 9,9; 10,0; 9,3; 10,2; 9,8; 10,0; 10,0; 11,0; 12,0; 10,0; 10,0; 11,2; 9,4; 10,7; 9,3; 10,1; 9,1; 10,2; 9,3; 10,0; 9,4; 10,9. Řešení: Určíme potřebné charakteristiky u obou skupin, přičemž prohodíme pořadí tak, aby vyšlo F > 1 (pak bude stačit porovnat hodnotu Tobs pouze s kritickou hodnotou F p (n1 1, n2 1) , jak tomu bylo v Příkladu 11.2.3): 2
Dívky: n1 = 28; s12 0,469 s2; Chlapci: n2 = 33; s 22 0,341 s2; p 0,05 (p volíme sami, s12 a s 22 vypočteme pomocí excelovské funkce VAR.S) H 0 : 12 22 H A : 12 22
S12 TK: T ( X ,Y ) 2 S2 0,469 Tobs 1,375 0,341 F p (n1 1, n2 1) F0,025(27, 32) = FINV(0,025; 27; 32) 2,069 2
KO: F p (n1 1, n2 1); 2,069; 2 ZÁVĚR: Tobs KO H 0 nezamítáme Mezi rozptyly není statisticky významný rozdíl, výsledky chlapců a dívek lze považovat za stejně vyrovnané.
11.3 Hypotézy o střední hodnotě 1) Test o střední hodnotě normálního rozdělení (jednovýběrový 𝑡-test) Předpokládejme, že máme normálně rozdělenou populaci se střední hodnotou 𝜇 a rozptylem 𝜎2, přičemž hodnoty těchto parametrů neznáme. Na základě výběru X1, X2, …, Xn chceme ověřit předpoklad, že se střední hodnota (populační průměr) 𝜇 rovná určité hodnotě 𝜇0. Nejlepším bodovým odhadem neznámé střední hodnoty je výběrový průměr x . Našim cílem je ověřit, zda se výběrový průměr x a hodnota 𝜇0 liší statisticky významně, nebo zda lze jejich rozdíl přisoudit náhodným vlivům. Testujeme tedy nulovou hypotézu 𝐻0: 𝜇 = 𝜇0 vůči alternativě 𝜇 𝜇0, 𝜇 > 𝜇0 nebo 𝜇 < 𝜇0. U tohoto testu používáme testovou statistiku
11
X n , která má za předpokladu platnosti nulové hypotézy rozdělení t (n 1) , S tedy Studentovo rozdělení (t rozdělení) s n 1 stupni volnosti. Studentovo rozdělení je rozdělení symetrické, proto je jeho kritická hodnota na hladině významnosti p definována tak, že pro tuto kritickou hodnotu tp(n) a náhodnou veličinu X s rozdělením t(n) platí: P(|X | > tp(n)) = p. Testujeme-li tedy na hladině významnosti p hypotézu 𝐻0: 𝜇 = 𝜇0 vůči alternativě 𝜇 𝜇0, tvoří kritický obor sjednocení intervalů ; t p (n 1) t p (n 1); , u alternativy 𝜇 > 𝜇0 T (X )
je kritickým oborem interval
; t
2p
(n 1) .
t
2p
(n 1); a u alternativy 𝜇 < 𝜇0 je to interval
1) H 0 : 0
H A,1 : 0 X n T t (n 1) S KO: ; t p (n 1) t p (n 1);
TK: T ( X )
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud |Tobs| t p (n 1) , pak H 0 zamítáme, jinak ne) 2) H 0 : 0 H A, 2 : 0 X n S KO: t 2 p (n 1);
TK: T ( X )
T t (n 1)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p (n 1) , pak H 0 zamítáme, jinak ne) 3) H 0 : 0 H A,3 : 0 X n S KO: ; t2 p (n 1)
TK: T ( X )
T t (n 1)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p (n 1) , pak H 0 zamítáme, jinak ne) Poznámka: 1) Kritickou hodnotu tp(n) získáme ze statistických tabulek nebo užitím excelovské funkce TINV (např. t0,05(5) = TINV(0,05; 5) 2,571). 2) Jednovýběrový t-test můžeme použít pouze v případě, má-li populace normální rozdělení. V případě výrazné nenormality dáváme před t-testem přednost některému z neparametrických
12
testů, nejčastěji mediánovému testu nebo jednovýběrovému Wilcoxonovu testu, které zájemci mohou najít v literatuře, která se zabývá testováním hypotéz podrobněji. Příklad 11.3.1: Na hladině významnosti 5% otestujte hypotézu, že kulečníkové koule z Příkladu 11.2.2 mají střední hmotnost 170 g. Řešení: n 10 ; p 0,05 ; s 2,413 [g] (vypočteme např. pomocí excelovské funkce SMODCH.VÝBĚR); x 170,4 [g] (vypočteme např. pomocí excelovské funkce PRŮMĚR) H 0 : 170 H A : 170 X TK: T (X ) n S 170,4 170 Tobs 10 0,524 2,413 t p (n 1) t0,05 (9) = TINV(0,05; 9) 2,262 KO: ; 2,262 2,262; ZÁVĚR: Tobs KO H 0 nezamítáme Dá se předpokládat, že střední hmotnost kulečníkových koulí je 170 g.
Příklad 11.3.2: V pivovaru došlo k opravě plnicí linky. Za předpokladu normality rozdělení otestujte na hladině významnosti p = 0,05 hypotézu, že se oprava zdařila, tedy že linka plní do láhví pivo o objemu 500 ml. Výsledky u vybraných vzorků (v mililitrech): 495,2; 496,8; 502,1; 498,5; 501; 503; 500,7; 501,5; 501,8; 499,1; 500,9; 502,2; 501,7; 500,4; 500,2; 501,1; 499,9; 500,2; 501,1; 500,8; 499,3. Řešení: n 21 ; p 0,05 ; s 1,822 [ml] (vypočteno pomocí excelovské funkce SMODCH.VÝBĚR); x 500,357 [ml] (vypočteno pomocí excelovské funkce PRŮMĚR) H 0 : 500 H A : 500 X TK: T (X ) n S 500,357 500 Tobs 21 0,898 1,822 t p (n 1) t0,05 (20) = TINV(0,05; 20) 2,086 KO: ; 2,086 2,086; ZÁVĚR: Tobs KO H 0 nezamítáme Dá se předpokládat, že střední objem piva v jedné lahvi je 500 ml, tedy že se oprava zdařila. 2) Test o shodě dvou středních hodnot (dvouvýběrový 𝑡-test) Mějme dva nezávislé výběry X1, X2, …, Xn1 a Y1, Y2, …, Yn2, které pochází ze dvou základních souborů s rozděleními N (1 , 12 ) a N ( 2 , 22 ) , jejichž parametry 1 , 12 a 2 , 22 neznáme. Pak nulovou hypotézu H 0 : 1 2 o shodě dvou středních hodnot testujeme jinak v případě shody rozptylů 12 , 22 a jinak v případě, kdy se tyto rozptyly liší. Jako první krok
13
tedy musíme provést F-test, pomocí kterého rozhodneme, zda 12 22 či nikoliv. Až poté provedeme t-test, jehož realizace vypadá následovně: a) lze-li předpokládat 12 22
T ( X ,Y )
( X 1 X 2 ) ( 1 2 )
(ověříme F-testem), použijeme testovou statistiku
n1n2 (n1 n2 2) , která má za předpokladu platnosti n1 n2
(n1 1) S (n2 1) S nulové hypotézy rozdělení t (n1 n2 2) , tedy Studentovo rozdělení s n1 n2 2 stupni volnosti. Podle tvaru alternativní hypotézy pak postupujeme takto: 2 1
2 2
1) H 0 : 1 2 H A,1 : 1 2 TK: T ( X , Y )
( X 1 X 2 ) ( 1 2 ) (n1 1) S (n2 1) S 2 1
2 2
n1n2 (n1 n2 2) n1 n2
T t (n1 n2 2)
KO: ; t p (n1 n2 2) t p (n1 n2 2);
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud |Tobs| t p (n1 n2 2) , pak H 0 zamítáme, jinak ne) 2) H 0 : 1 2 H A, 2 : 1 2 TK: T ( X ,Y )
( X 1 X 2 ) ( 1 2 ) (n1 1) S (n2 1) S 2 1
KO: t 2 p (n1 n2 2);
2 2
n1n2 (n1 n2 2) n1 n2
T t (n1 n2 2)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p (n1 n2 2) , pak H 0 zamítáme, jinak ne) 3) H 0 : 1 2 H A,3 : 1 2 TK: T ( X ,Y )
( X 1 X 2 ) ( 1 2 )
(n1 1) S (n2 1) S KO: ; t 2 p (n1 n2 2) 2 1
2 2
n1n2 (n1 n2 2) n1 n2
T t (n1 n2 2)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p (n1 n2 2) , pak H 0 zamítáme, jinak ne)
14
b) potvrdí-li F-test, že 12 22 , používá se testová statistika T ( X ,Y )
( X 1 X 2 ) ( 1 2 )
, S12 S 22 n1 n2 která má za předpokladu platnosti nulové hypotézy rozdělení t ( ) , tedy Studentovo rozdělení
s stupni volnosti, kde
S12 S 22 n1 n2
2
( je nutno zaokrouhlit na celé 2 2 1 S12 1 S 22 n1 1 n1 n2 1 n2 číslo). Podle tvaru alternativní hypotézy pak postupujeme takto: 1) H 0 : 1 2 H A,1 : 1 2
TK: T ( X ,Y )
( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2
T t ( ) ;
KO: ; t p ( ) t p ( );
S12 S 22 n1 n2 1 S12 n1 1 n1
2
2
1 S 22 n2 1 n2
2
2
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud |Tobs| t p ( ) , pak H 0 zamítáme, jinak ne) 2) H 0 : 1 2 H A,1 : 1 2
TK: T ( X ,Y )
( X 1 X 2 ) ( 1 2 )
KO: t 2 p ( );
S12 S 22 n1 n2
T t ( ) ;
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p ( ) , pak H 0 zamítáme, jinak ne) 3) H 0 : 1 2 H A,1 : 1 2
15
S12 S 22 n n 1 2 1 S12 n1 1 n1
2
2
1 S 22 n2 1 n2
TK: T ( X ,Y )
( X 1 X 2 ) ( 1 2 )
KO: ; t 2 p ( )
S12 S 22 n1 n2
T t ( ) ;
S12 S 22 n n 1 2 1 S12 n1 1 n1
2
2
1 S 22 n2 1 n2
2
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p ( ) , pak H 0 zamítáme, jinak ne) Příklad 11.3.3: Odběratel dostává zářivky od dvou dodavatelů. Při hodnocení kvality zářivek se sleduje také počet zapojení, který snesou zářivky bez poškození. Zkoušky výrobků vedly k těmto výsledkům: dodavatel A: 2139, 2041, 1968, 1903, 1952, 1980, 2089, 1915, 2389, 2163, 2072, 1712, 2018, 1792, 1849 dodavatel B: 1947, 1602, 1906, 2031, 2072, 1812, 1942, 2074, 2132. Za předpokladu normality rozdělení obou výběrů ověřte hypotézu, že kvalita obou dodávek je stejná. Hladinu významnosti volte p = 0,05. Řešení: n1 = 15; x1 1998,800; s12 27262,171; n2 = 9; x2 1946,444; s22 26498,528; p 0,05 ( x1, 2 a s12, 2 vypočteme pomocí excelovských funkcí PRŮMĚR a VAR.S); Nejdříve provedeme F-test: H 0 : 12 22
H A : 12 22 S12 TK: T ( X ,Y ) 2 T F (n1 1, n2 1) S2 27262,171 Tobs 1,029 26498,528 F p (n1 1, n2 1) F0,025(14, 8) = FINV(0,025; 14; 8) 4,130 2
KO: F p (n1 1, n2 1); 4,130; 2 ZÁVĚR: Tobs KO H 0 nezamítáme Předpokládáme tedy shodu rozptylů ( 12 22 ) a dále postupujeme jako v případě a): H 0 : 1 2 H A : 1 2 TK: T ( X ,Y )
( X 1 X 2 ) ( 1 2 ) (n1 1) S12 (n2 1) S 22
n1n2 (n1 n2 2) n1 n2
16
T t (n1 n2 2)
(1998 ,800 1946 ,444) 0 15.9(15 9 2) 0,756 15 9 14.27262 ,171 8.26498 ,528 t p (n1 n2 2) t0,05 (15 9 2) TINV (0,05; 22) 2,074
Tobs
KO: ; t p (n1 n2 2) t p (n1 n2 2); ; 2,074 2,074; ZÁVĚR: Tobs KO H 0 nezamítáme Hodnota testového kritéria nepadla do kritického oboru, hypotézu H 0 : 1 2 tedy nezamítáme a kvalitu obou dodávek vyhodnotíme jako stejnou. Příklad 11.3.4: Při antropologických měřeních obyvatelstva Egypta byla sledována šířka nosu u dvou skupin dospělých mužů, jedna skupina pocházela ze severní části země a druhá z jižní. Naměřené výsledky v centimetrech jsou zaznamenány v tabulce: sever: 3,6; 4,1; 3,3; 3,4; 3,7; 3,1; 4,0; 4,0; 3,6; 3,0; 3,3; 3,7; 4,3; 3,3; 3,4; 3,4; 3,3; 3,6; 4,0; 3,4; 3,7 jih: 4,3; 3,9; 4,3; 3,8; 4,1; 4,2; 3,8; 3,9; 3,8; 3,8; 4,0; 3,7; 3,9; 4,4; 3,7; 3,8; 3,9; 3,9; 4,0; 4,1; 3,8; 4,0; 4,3 Za předpokladu normality rozdělení obou výběrů ověřte na hladině významnosti p = 5% hypotézu H0: Šířky nosu u dospělých mužů na severu a na jihu jsou stejné. Řešení: n1 = 21; x1 3,581; s12 0,119; n2 = 23; x2 3,974; s22 0,043; p 0,05 ( x1, 2 a s12, 2 vypočteme pomocí excelovských funkcí PRŮMĚR a VAR.S); Nejdříve provedeme F-test: H 0 : 12 22
H A : 12 22 TK: T ( X ,Y ) Tobs
S12 S 22
T F (n1 1, n2 1)
0,119 2,767 0,043
F p (n1 1, n2 1) F0,025(20, 22) = FINV(0,025; 20; 22) 2,389 2
KO: F p (n1 1, n2 1); 2,389; 2 ZÁVĚR: Tobs KO H 0 zamítáme Předpokládáme tedy rozdílnost rozptylů ( 12 22 ) a dále postupujeme jako v případě b). Protože platí x1 x2 , volíme alternativní hypotézu ve tvaru 1 2 . H 0 : 1 2 H A : 1 2
17
TK: T ( X ,Y )
Tobs
( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2
T t ( ) ;
S12 S 22 n n 1 2 1 S12 n1 1 n1
2
2
1 S 22 n2 1 n2
2
(3,581 3,974) 0 4,527 0,119 0,043 21 23 2
0,119 0,043 21 23 32 2 2 1 0,119 1 0,043 21 1 21 23 1 23 t 2 p ( ) t 0,1 (32) TINV (0,1; 32) 1,694 KO: ; t 2 p ( ) ; 1,694
ZÁVĚR: Tobs KO H 0 zamítáme Hodnota testového kritéria padla do kritického oboru, hypotézu H 0 : 1 2 tedy zamítáme ve prospěch alternativy H A : 1 2 - šířky nosů dospělých mužů na severu země jsou statisticky významně menší než na jihu. 3) Test o shodě dvou středních hodnot pro párované hodnoty (párový t-test) Předcházející dvouvýběrový test umožňoval porovnat neznámé střední hodnoty dvou populací na základě dvou nezávislých výběrů. V praxi se však často stává také to, že u každé z n statistických jednotek zjišťujeme hodnoty nějakých dvou spolu souvisejících znaků (např. tlak krve před a po podání určitého léku, ostrost vidění levého a pravého oka, hmotnost před a po absolvované dietě atd.). Výsledkem zjišťování jsou pak dvojice náhodných veličin (X1, Y1), (X2, Y2), …, (Xn, Yn), které tvoří páry závislých pozorování (jde o veličiny zjišťované na stejné statistické jednotce, např. u stejné osoby). Máme tedy dva závislé výběry X1, X2, …, Xn a Y1, Y2, …, Yn, které pochází ze dvou základních souborů s neznámými středními hodnotami 𝜇1, 𝜇2. Pak nulovou hypotézu 𝐻0: 𝜇1 = 𝜇2 o shodě těchto středních hodnot můžeme vyjádřit ve tvaru 𝐻0: 𝜇1 - 𝜇2 = 0 a testovat ji tak, že si vytvoříme rozdíly párovaných hodnot Xi – Yi a zjišťujeme, je-li střední hodnota těchto rozdílů rovna nule. Chceme-li například ověřit vliv určitého léku na tlak krve, budeme u každého pacienta pozorovat dvojici znaků (Xi, Yi), kde Xi je tlak krve před podáním léku a Yi je tlak krve po podání léku u i-tého pacienta. Pro ověření účinnosti léku nemá smysl zjišťovat, zda je statisticky významný rozdíl mezi průměrným tlakem všech pacientů před podáním léku a průměrným tlakem všech pacientů po podání léku. U každého pacienta tedy určíme rozdíl tlaků krve po a před podáním léku a budeme zjišťovat, zda se střední hodnota těchto rozdílů statisticky významně liší od nuly. Nebude-li prokázána statisticky významná odchylka od nuly, bude lék prohlášen za neúčinný. Definujme tedy soubor rozdílů (diferencí) D = (D1, D2, …, Dn), kde Di = Xi – Yi. Lze předpokládat, že náhodné veličiny D1, D2, …, Dn jsou nezávislé a že mají stejné rozdělení se střední hodnotou 𝜇D = 𝜇1 − 𝜇2. Test o shodě dvou středních hodnot prováděný na základě dvou závislých výběrů tedy můžeme převést na jednovýběrový test o střední hodnotě
18
aplikovaný na soubor diferencí (rozdílů) 𝐷, tzn. můžeme testovat hypotézu 𝐻0 : 𝜇D = 0. Lze-li předpokládat normální rozdělení veličin D1, D2, …, Dn, můžeme pro toto testování použít jednovýběrový t-test, nazývaný v tomto případě párový t-test, který vypadá následovně: 1) H 0 : D 0 H A,1 : D 0
D D n T t (n 1) SD KO: ; t p (n 1) t p (n 1); TK: T ( D)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud |Tobs| t p (n 1) , pak H 0 zamítáme, jinak ne) 2) H 0 : D 0 H A, 2 : D 0
D D n SD KO: t 2 p (n 1); TK: T ( D)
T t (n 1)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p (n 1) , pak H 0 zamítáme, jinak ne) 3) H 0 : D 0 H A, 3 : D 0
D D n SD KO: ; t2 p (n 1) TK: T ( D)
T t (n 1)
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs t 2 p (n 1) , pak H 0 zamítáme, jinak ne) Příklad 11.3.5: Stanovení thiocyanového iontu (SCN-) bylo paralelně provedeno dvěma metodami (Aldridge a Barker) na 12 vzorcích. Srovnejte, zda obě metody dávají stejné výsledky. Předpokládejte normalitu rozdělení obou výběrů a hladinu významnosti zvolte p = 0,05. Aldridge 0,38 0,56 0,45 0,49 0,38 0,41 0,6 0,36 0,26 0,41 0,43 0,4 Barker 0,39 0,58 0,44 0,52 0,41 0,45 0,59 0,37 0,28 0,42 0,42 0,38 Řešení: Nejprve vypočteme rozdíly di: Aldridge 0,38 0,56 0,45 0,49 0,38 0,41 Barker 0,39 0,58 0,44 0,52 0,41 0,45 -0,01 -0,02 0,01 -0,03 -0,03 -0,04 di 19
0,6 0,59 0,01
0,36 0,26 0,41 0,37 0,28 0,42 -0,01 -0,02 -0,01
0,43 0,4 0,42 0,38 0,01 0,02
Pro hodnoty diferencí di vypočteme potřebné charakteristiky: n = 12; d 0,01; sd 0,019; ( d a s d vypočteme pomocí excelovských funkcí PRŮMĚR a SMODCH.VÝBĚR) a přistoupíme k samotnému testu: H 0 : D 0 H A : D 0 D D n T t (n 1) TK: T ( D) SD 0,01 0 Tobs 12 1,823 0,019 t p (n 1) t 0,05 (11) = TINV(0,05; 11) 2,201 KO: ; t p (n 1) t p (n 1); = ; 2,201 2,201;
ZÁVĚR: Tobs KO H 0 nezamítáme Hodnota testového kritéria nepadla do kritického oboru, hypotézu H 0 : D 0 tedy nezamítáme. Mezi výsledky obou metod nebyl shledán statisticky významný rozdíl.
11.4 Testy dobré shody Hypotéza o tom, že studovaná data (výběr) pocházejí z určitého teoretického (očekávaného) rozdělení se ověřuje tzv. testem dobré shody (jedná se o shodu mezi teoretickým (očekávaným) a empirickým (pozorovaným, výběrovým) rozdělením). Nulovou a alternativní hypotézu v tomto případě formulujeme takto: H0: Základní soubor má očekávané rozdělení. HA: Základní soubor nemá očekávané rozdělení. Nejznámějším testem dobré shody je Pearsonův test (χ2-test) dobré shody (angl. „Goodness of Fit test“). 1) Pearsonův test (χ2-test) dobré shody Tento test ověřuje, zda se pozorované četnosti npi jednotlivých variant náhodné veličiny shodují s očekávanými četnostmi noi, což jsou četnosti, které bychom očekávali v případě platnosti nulové hypotézy. Chceme-li ověřit, zda výběr pochází z diskrétního rozdělení, pak pro variantu xi zjistíme její pozorovanou četnost npi jako počet výskytů hodnoty xi ve výběrovém souboru a očekávanou četnost noi vypočteme podle vzorce noi n.P( X xi ) , kde n je rozsah výběru a X náhodná veličina s rozdělením odpovídajícím nulové hypotéze. Ověřujeme-li, zda výběr pochází z rozdělení spojitého, musíme nejprve prvky výběrového souboru rozdělit do k tříd, tedy do k intervalů (ai, bi). Za hodnoty xi pak bereme středy těchto
20
tříd (tzn. xi (ai bi ) / 2 ), hodnoty npi určíme jako třídní četnosti v jednotlivých třídách a hodnoty noi vypočteme podle vzorce noi n.P( X (ai , bi )) , kde n je rozsah výběru a X náhodná veličina s rozdělením odpovídajícím nulové hypotéze. Počet tříd k přitom musíme volit tak, aby byly splněny následující podmínky: - všechny očekávané četnosti noi musí být větší než 1, - nejvýš 20 % očekávaných četností noi může být menších než 5, - nedoporučuje se volit počet tříd k větší než 20. Pokud máme zadaný třídně rozdělený soubor, kde tyto podmínky nejsou splněny, provedeme sloučení sousedních tříd v nezbytném rozsahu. Pokud nulová hypotéza udává nejen typ rozdělení, ale i všechny jeho parametry, jde o úplně specifikovaný test. Příkladem úplně specifikovaného testu může být například ověření toho, zda výběr pochází z Poissonova rozdělení se střední hodnotou 10 (Poissonovo rozdělení má jeden parametr 𝜆, který je roven střední hodnotě tohoto rozdělení). V mnoha případech nás však zajímá pouze to, zda výběr pochází z určité třídy rozdělení – například z rozdělení normálního. Je-li v nulové hypotéze určen pouze typ rozdělení, resp. nejsou-li zadány všechny jeho parametry, mluvíme o neúplně specifikovaném testu. V tomto případě je třeba nespecifikované parametry očekávaného rozdělení odhadnout z náhodného výběru. Počet takto odhadovaných parametrů pak budeme značit s. k
Jako testové kritérium u χ2-testu používáme náhodnou veličinu T ( X ) ( N pi N oi ) 2 / N oi , i 1
která má při platnosti nulové hypotézy rozdělení (k s 1) , tedy rozdělení s k s 1 stupni volnosti. Jelikož vysoké hodnoty testového kritéria odpovídají velkým rozdílům mezi pozorovanými a očekávanými četnostmi a budou tedy svědčit ve prospěch alternativy HA, bude kritickým oborem interval p2 (k s 1); a celý test můžeme shrnout takto: 2
2
H0: Základní soubor má očekávané rozdělení. HA: Základní soubor nemá očekávané rozdělení. k
TK: T ( X ) ( N pi N oi ) 2 / N oi
T
2
(k s 1)
i 1
kde: N pi … pozorovaná četnost i-té hodnoty (resp. v i-té třídě), N oi … očekávaná četnost i-té hodnoty (resp. v i-té třídě), k … počet různých hodnot náhodné veličiny X (resp. počet tříd), s … počet nezávislých parametrů očekávaného rozdělení, které musíme odhadnout z náhodného výběru 2 KO: p (k s 1),
ZÁVĚR: Tobs KO H 0 zamítáme Tobs KO H 0 nezamítáme (tzn. pokud Tobs > p2 (k s 1) , pak H 0 zamítáme, jinak ne) Příklad 11.4.1: Náhodný výběr byl rozdělen do tříd a byla určena empirická střední hodnota 1,27 a empirická disperze 0,73. Za předpokladu, že soubor má exponenciální rozložení, byly určeny očekávané četnosti v jednotlivých třídách, jak je uvedeno v tabulce: 21
i 1 2 3 4 5 6 7 8 9 10
třída 0,00 0,40 0,80 1,20 1,60 2,00 2,40 2,80 3,20 3,60 -
npi 25 27 24 20 18 14 8 5 2 1
0,40 0,80 1,20 1,60 2,00 2,40 2,80 3,20 3,60 4,00
noi 38,92
15,12 11,04 8,05 5,88 4,29 3,13 2,28
a) Formulujte nulovou a alternativní hypotézu pro Pearsonův test dobré shody. b) Doplňte očekávané četnosti, které v tabulce chybí. c) Vyznačte sloučení tříd v potřebném rozsahu a stanovte závěr na hladině významnosti 1%. Řešení: a) H0: Základní soubor má exponenciální rozdělení. HA: Základní soubor nemá exponenciální rozdělení. b) X ~ E ( ); x 1,27; s x2 0,73 , E( X )
1
10 0, x 0 1 1 1 ; F (x) = ; n n pi 144 x E ( X ) x 1,27 i 1 1 e , x 0
no (0,4; 0,8) n.P( X (0,4; 0,8)) n.P(0,4 X 0,8) n.[ F (0,8) F (0,4)]
144. 1 e 1/ 1, 27.0,8 (1 e 1/1, 27.0, 4 ) 28,39 144 * (EXPON . DIST (0,8;1 / 1,27;1) EXPON . DIST (0,4;1 / 1,27;1)) 28,39 no (0,8;1,2) n.P( X (0,8;1,2)) n.P(0,8 X 1,2) n.[ F (1,2) F (0,8)] 144. 1 e 1/1, 27.1, 2 (1 e1/1, 27.0,8 ) 20,72 144 * (EXPON . DIST (1,2;1 / 1,27;1) EXPON . DIST (0,8;1 / 1,27;1)) 20,72 c) p 0,01 Po doplnění chybějících očekávaných četností bylo třeba sloučit poslední dvě třídy, neboť nebyly splněny předpoklady Pearsonova testu (3 z celkového počtu 10 očekávaných četností byly menší než 5, což je více než 20%):
před sloučením: interval 0,0 - 0,4 0,4 – 0,8 0,8 – 1,2 1,2 – 1,6 1,6 – 2,0 2,0 – 2,4 2,4 – 2,8 2,8 – 3,2 3,2 – 3,6 3,6 – 4,0
po sloučení:
npi
noi
npi
noi
25 27 24 20 18 14 8 5 2 1
38,92 28,39 20,72 15,12 11,04 8,05 5,88 4,29 3,13 2,28
25 27 24 20 18 14 8 5 3
38,92 28,39 20,72 15,12 11,04 8,05 5,88 4,29 5,41
22
k
TK: T ( X ) ( N pi N oi ) 2 / N oi i 1
k
Tobs (n pi noi ) 2 / noi 17,8867 i 1
(k s 1) 02,01(9 1 1) 02,01(7) 18,4753 2 p
(tuto hodnotu najdeme v příslušných statistických tabulkách nebo vypočteme v Excelu jako CHIINV (0,01;7) , k = 9 je počet tříd a s = 1, neboť z náhodného výběru jsme odhadovali 1 parametr) KO: p2 (k s 1), = 18,4753;
ZÁVĚR: Tobs KO H 0 nezamítáme Dá se předpokládat, že základní soubor má exponenciální rozdělení. Příklad 11.4.2: Výrobní firma odhaduje počet poruch určitého zařízení během dne pomocí Poissonova rozdělení se střední hodnotou 1,2. Zaměstnanci zaznamenali skutečné počty poruch ve 150 dnech, viz tabulka. Ověřte, zda lze počet poruch daného zařízení během dne skutečně modelovat pomocí Poissonova rozdělení s parametrem 𝜆 = 1,2. Počet poruch 0 1 2 3 4 a více Počet dnů 52 48 36 10 4 Řešení: H0: Základní soubor má Poissonovo rozdělení s parametrem 𝜆 = 1,2. HA: Základní soubor nemá Poissonovo rozdělení s parametrem 𝜆 = 1,2. Poissonovo rozdělení má pouze jediný parametr 𝜆. Tento parametr je specifikován v nulové hypotéze, tzn. jde o úplně specifikovaný test (počet odhadovaných parametrů s = 0). Definujeme-li náhodnou veličinu X jako počet poruch daného zařízení během jednoho dne, pak k jejím hodnotám xi (počet poruch) a jejich pozorovaným četnostem npi (počet dnů) vypočteme očekávané četnosti noi podle vzorce noi n.P( X xi ) , kde pro výpočet příslušné pravděpodobnosti použijeme známý vztah pro pravděpodobnostní funkci Poissonova rozdělení: P( X k )
k k!
e .
1,20 1, 2 e 45,18 , 0! 1,21 1, 2 no (1) n.P( X 1) 150. e 54,21 , 1! 1,2 2 1, 2 no (2) n.P( X 2) 150. e 32,53 , 2! 1,23 1, 2 no (3) n.P( X 3) 150. e 13,01 , 3! no (0) n.P( X 0) 150.
1,20 1, 2 1,21 1, 2 1,2 2 1, 2 1,23 1, 2 no (4 a více) n.P( X 4) n.[1 P( X 4)] 150. 1 e e e e 0! 1! 2! 3! 5,07 Dostáváme tedy tabulku: xi 0 1 2 3 4 a více npi 52 48 36 10 4 noi 45,18 54,21 32,53 13,01 5,07
23
k
TK: T ( X ) ( N pi N oi ) 2 / N oi i 1
k
Tobs (n pi noi ) 2 / noi 3,0332 i 1
(k s 1) 02,05 (5 0 1) 02,05 (4) 9,4877 2 p
(tuto hodnotu najdeme v příslušných statistických tabulkách nebo vypočteme v Excelu jako CHIINV (0,05;4) , s = 0 neboť z náhodného výběru jsme neodhadovali žádný parametr)
KO: p2 (k s 1), = 9,4877; ZÁVĚR: Tobs KO H 0 nezamítáme Dá se předpokládat, že základní soubor má Poissonovo rozdělení s parametrem 𝜆 = 1,2.
24
Příklady k procvičení: 1. Dva automaty vyrábějí součástky téhož druhu. Ze součástek vyrobených prvním automatem jsme změřili n1 9 součástek, ze součástek vyrobených druhým automatem n2 12 součástek. Výběrové disperze měřené délky byly s12 6 μm2, s22 23 μm2. Za předpokladu normality rozdělení obou výběrů ověřte na hladině významnosti p = 5% hypotézu o shodě disperzí. 2. Každé ze dvou polí bylo rozděleno na 10 lánů a na nich zaseto obilí, přičemž na lánech prvního pole bylo použito speciální hnojivo. U výnosů z lánů prvního a druhého pole byly vypočteny průměry x1 6 , x2 5,7 a výběrové rozptyly s12 0,071, s22 0,027 . Za předpokladu normality rozdělení obou výběrů zjistěte na 5% hladině významnosti, jestli hnojení mělo průkazný vliv na výnosy. 3. 10 dobrovolníků zkoušelo účinky redukční diety. Počáteční a koncové hmotnosti (v kilogramech), u kterých předpokládáme normální rozdělení, jsou uvedeny v tabulce. Můžeme tuto dietu doporučit? na začátku 83 92 82 73 74 88 79 93 80 86 na konci 81 84 77 71 76 85 75 92 74 86 4. Inteligenční kvocient (IQ), který popisuje inteligenci jednotlivce, má v běžné populaci normální rozdělení, přičemž za průměrnou hodnotu se považuje IQ 100 bodů. Při testu inteligence, kterého se zúčastnilo 10 náhodně vybraných studentů jistého gymnázia, byly naměřeny následující hodnoty IQ: 65, 98, 103, 77, 93, 102, 102, 113, 80, 94. Dá se na základě těchto informací tvrdit, že střední hodnota IQ studentů tohoto gymnázia je podprůměrná? 5. Na dálnici byly v průběhu několika minut naměřeny tyto časové odstupy (v sekundách) mezi průjezdy jednotlivých vozidel: 2,5; 6,8; 5,0; 9,8; 4,0; 2,3; 4,2; 1,9; 8,7; 7,7; 5,9; 5,3; 8,4; 3,6; 9,2; 4,3; 2,6; 13,0; 5,4; 8,6; 4,2; 2,9; 1,5; 1,8; 1,6; 5,9; 8,3; 5,2; 6,9; 5,1; 1,3; 6,4; 6,5; 5,7; 3,6; 4,8; 4,0; 7,3; 24,9; 10,6; 15,0; 5,3; 4,0; 3,3; 6,0; 4,6; 1,6; 1,9; 1,5; 11,1; 4,3; 5,5; 2,1; 2,9; 3,0; 3,8; 1,0; 1,5; 8,6; 4,4; 6,8; 5,2; 3,0; 8,0; 4,0; 4,7; 7,3; 2,3; 1,9; 1,9; 4,6; 6,4; 5,3; 3,9; 2,4; 1,2; 6,2; 4,3; 2,6; 2,7; 2,0; 0,8; 3,7; 6,9; 2,8; 4,3; 4,9; 4,1; 4,5; 4,4; 11,9; 9,0; 5,6; 4,8; 2,8; 2,1; 4,3; 1,0; 1,6; 2,5; 2,2; 1,3; 1,8; 1,6; 3,8; 3,1; 1,6; 4,9; 1,8; 3,9; 3,4; 1,6; 4,5; 5,8; 6,9; 1,8; 2,6; 6,8; 2,5; 1,9; 3,1; 10,8; 1,6; 2,0; 4,9; 11,2; 1,6; 2,2; 3,8; 1,1; 1,8; 1,4. Ověřte, zda lze časové odstupy mezi průjezdy vozidel na dálnici modelovat pomocí náhodné veličiny s normálním rozdělením.
25