STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená to, že je velmi nepravděpodobné, že by tento výsledek byl způsobený pouhou náhodou. Rozhodování ve statistických testech má vždy povahu pravděpodobnostní – nikdy si nejsme svým rozhodnutím beze zbytku jisti. Pravděpodobnost, že neoprávněně zamítneme nulovou hypotézu, se nazývá hladina významnosti (signifikance). Na druhé straně můžeme neoprávněně přijmout nulovou hypotézu, ačkoliv neplatí. Snižujeme-li riziko první chyby, zvětšuje se riziko druhé chyby a naopak.
DRUHY STATISTICKÝCH TESTŮ VÝZNAMNOSTI: Z hlediska náročnosti na znalost předpokladů o rozdělení dělíme testy do dvou základních skupin na testy:
PARAMETRICKÉ, které předpokládají naši znalost charakteru rozdělení studovaného statistického znaku (náhodné veličiny, dále v textu NV) a týkají se jednoho nebo více parametrů daného rozdělení (aritmetického průměru, směrodatné odchylky, ..) a NEPARAMETRICKÉ, které jsou univerzálnější, robustnější, nevyžadují splnění žádných podmínek, ale nejsou tak silné.
Parametrické testy vyžadují splnění řady předpokladů, má-li být jejich užití oprávněné (nejčastěji se požaduje, aby rozdělení náhodné veličiny bylo normální). Jedná se o početně náročnější, avšak silné testy. Parametrické testy jsou však méně robustní než neparametrické testy. Robustnost Neparametrických testů můžeme chápat jako univerzálnost: pokud nejsou splněny předpoklady pro použití parametrických testů, musíme použít univerzálnější neparametrický test, který není tak silný, ale nevyžaduje splnění žádných podmínek.
NEPARAMETRICKÉ nevyžadují splnění žádných předpokladů o rozdělení náhodné veličiny. Obvykle se týkají nějaké obecné vlastnosti rozdělení a neparametrické se nazývají proto, že testované hypotézy neobsahují žádná tvrzení o průměrech nebo rozptylech. Můžeme je použít i v případě, že neznáme rozložení náhodné veličiny. Jsou tedy univerzálnější, ale mají menší statistickou účinnost, tj. schopnost rozpoznat i malé odchylky od nulové hypotézy. Výpočetně jsou jednodušší a rychlejší. Obvykle vyžadují větší počet pozorování než parametrické.
Podle dalších hledisek dělíme testy na:
TESTY JEDNOSTRANNÉ a OBOUSTRANNÉ Podle toho, jakým způsobem formulujeme alternativní hypotézu, resp. zda nás zajímá změna pouze v jednom nebo obou směrech
TESTY JEDNOVÝBĚROVÉ, DVOUVÝBĚROVÉ a VÍCEVÝBĚROVÉ Podle počtu výběrů se liší testované hypotézy a použité metody. Viz dále.
KVANTITATIVNÍ VELIČINY - JEDNOVÝBĚROVÉ TESTY POROVNÁNÍ MÍRY POLOHY SOUBORU S NĚJAKOU KONKRÉTNÍ HODNOTOU
JEDNOVÝBĚROVÝ U-TEST (v Excelu označován jako Z-test) ověřuje, zda střední hodnota (výběrový průměr) se rovná nějaké konstantě, obvykle populačnímu průměru m . Je nutný předpoklad normality sledované veličiny se známým populačním 2 rozptylem s a nezávislost měřených hodnot (např. osoby se nesmí v souboru vyskytovat opakovaně).
Před provedením testu musíme zvolit hladinu významnosti a a rozhodnout, zda nás zajímá test jednostranný nebo oboustranný. Testovací statistika je:
U=
(x - m) n
sx
Příklad: Pro skupinu dětí zjistěte, zda nepřekračují hodnotu normy cholesterolu v krvi: 4,1 mmol/l, pokud známe populační rozptyl: 0,5. - Formulujeme H0: střední hodnota cholesterolu u testované skupiny dětí nepřekračuje hodnotu normy cholesterolu. - budeme porovnávat průměr sledované populace s hodnotou 4,1 mmol/l - zajímá nás pouze překročení hladiny cholesterolu 4,1 mmol/l - proto test jednostranný - hladinu testu (významnosti) volíme a = 0,05
Vypočteme střední hodnotu (aritmetický průměr) ve skupině dětí (výběru). Sledovanou veličinu považujeme za normálně rozloženou, můžeme tedy použít JEDNOVÝBĚROVÝ U-TEST Na základě vypočteného výběrového průměru a známé směrodatné odchylky (ze zadání) vypočteme statistiku U dosazením do vzorce U=
(4,302 - 4,1) × 57 = 2,162 0,5
U=
(x - m) n
sx
Vypočtenou statistiku U porovnáme s kritickou hodnotou ua normálního rozdělení: pro zvolenou hladinu významnosti testu a = 0,05 najdeme hledanou statistiku v programu EXCEL pomocí Distribuční funkce Normálního standardizovaného rozdělení zadáním pravděpodobnosti 1- a = 0,95
Funkce v programu EXCEL se nazývá: =NORM.S.INV(pravděpodobnost), a za pravděpodobnost dosadíme hladinu spolehlivosti (1- a ), tj. 0,95. Funkce NORM.S.INV je inverzní k distribuční funkci, to znamená, že pro zadanou pravděpodobnost vrátí hodnotu příslušného kvantilu Normálního standardizovaného rozdělení: NORM.S.INV(0,95) = 1,645 Nyní porovnáváme vypočtenou statistiku U s tabulkovou hodnotou: 2,162 > 1,645 U je větší než kritická hodnota, odchylky od normy proto neumíme na hladině významnosti a vysvětlit pouhou náhodou a zamítáme H0.
Jednodušším řešením je výpočet pravděpodobnosti, tzv. p-hodnoty. Všechny statistické programy včetně statistických funkcí v Excelu umí pro testovaná data vypočítat p-hodnotu, tj. pravděpodobnost, s jakou bychom v daném případě zamítli nulovou hypotézu. Tuto p-hodnotu pak porovnáme s předem stanovenou hladinou významnosti (námi zvolená pravděpodobnost tolerované chyby testu), a rozhodneme o platnosti nebo neplatnosti nulové hypotézy. V programu Excel, najdeme ve vzorcích statistickou funkci Z.TEST s parametry: pole (matice), testovaná hodnota a známá směrodatná odchylka základního souboru. Výsledkem funkce Z.TEST je p-hodnota. Vysvětlení:
pole - zadáme oblast dat (výběrový soubor) testovaná hodnota - zadáme normu cholesterolu dětí v populaci známá směrodatná odchylka - odmocnina z populačního rozptylu
Stejný příklad: Pro skupinu dětí zjistěte, zda nepřekračují hodnotu normy cholesterolu v krvi: 4,1 mmol/l, pokud známe populační rozptyl: 0,5. =Z.TEST(pole;4,1;ODMOCNINA(0,5)) = 0,01532 ~ 0,015 Výsledná p-hodnota 0,015 znamená, že nulovou hypotézu zamítáme na zvolené hladině významnosti 0,05. Znamená to přijetí alternativní hypotézy, kterou můžeme formulovat např.: Hodnota cholesterolu ve sledovaném výběru dětí je statisticky významně vyšší než je norma u běžné populace dětí.
Proč se v Excelu jmenuje tato funkce Z-test a ne U-test? Jedná se pouze o jiné označení - oba testy předpokládají normální rozdělení testované veličiny a porovnávají naměřené hodnoty se standardizovaným normálním rozdělením. Z-test nebo Z-rozdělení se nazývá podle tzv. z-skórů, tj. přepočtu hodnot xi na zi xi - x z = podle vzorce i , kde x je střední hodnota a s směrodatná odchylka s výběru.
JEDNOVÝBĚROVÝ T-TEST Protože v praxi často neznáme skutečný rozptyl, ale používáme jeho odhad, místo jednovýběrového U-testu použijeme jednovýběrový t-test, který je založen na Studentově t-rozdělení a testovou statistiku vypočteme podle vzorce
x-m × n t= , kde je sx
x
výběrový průměr
µ známá střední hodnota populace sx výběrová směrodatná odchylka n počet měření Vypočtenou testovou statistiku t porovnáváme s kritickou hodnotou Studentova rozdělení, kterou zjistíme např. funkcí v programu Excel =T.INV(pravděpodobnost; volnost), kde za pravděpodobnost dosadíme (1-α).
Příklad: Pro skupinu dětí zjistěte, zda nepřekračují hodnotu normy cholesterolu v krvi: 4,1 mmol/l. Populační rozptyl není znám, nahraďte jej odhadem výběrového rozptylu.
Musíme použít Studentovo rozdělení, protože odhadujeme jeden parametr (rozptyl) a není splněn předpoklad pro použití U-testu.
x-m × n 4,302 - 4,1 × 57 t= t= = 2,33 Použijeme vzorec: , po dosazení: sx 0,430 Vypočtenou testovou statistiku t = 2,33 porovnáme s kritickou hodnotou Studentova t-rozdělení, kterou vypočteme funkcí =T.INV(pravděp.; volnost), za pravděpodobnost dosadíme 1-α (pro α = 0,05) a za volnost 56 (57 měření-1)
=T.INV(0,95;56) = 1,673 Porovnáním 2,33 > 1,673 zjistíme, že test je statisticky významný, H0 zamítáme.
Protože v programu Excel jednovýběrový t-test není, museli bychom zvolit dvouvýběrový t-test a druhý („fiktivní“) výběr nahradit hodnotou, která ho bude reprezentovat (střední hodnotou µ). T-test však z jedné hodnoty neumí vypočítat rozptyl, proto musí fiktivní druhý výběr obsahovat alespoň 2 hodnoty. Výpočet najdeme v souboru: 5d_priklady_parametricke_1vyberove_testy.xlsx na listu „Z-test a t-test“
V následující tabulce vidíme porovnání t-testu a z-testu, který jsme provedli v Excelu: Srovnávací t – test pro různé CHOL_A hodnota rozptyly (2 výběry) Stř. hodnota 4,302 4,1 Odhad rozptylu 0,430 0,000 Pozorování 57 2 Hyp. rozdíl stř. hodnot 0 Rozdíl*-stupně volnosti 56 t stat 2,330 P(T<=t) (1) 0,012 t krit (1) 1,673 P(T<=t) (2) 0,023 t krit (2) 2,003
z - test (2 výběry)
CHOL_A
Stř. hodnota Známý rozptyl Pozorování Hyp. rozdíl stř. hodnot
4,302 0,5 57 0
z P(Z<=z) (1) z krit (1) P(Z<=z) (2) z krit (2)
2,162 0,015 1,645 0,031 1,960
Srovnávací hodnota
Rozdíl* je chybné označení počtu stupňů volnosti - v našem případě (počet měření - 1)
4,1 0,00001 2
Dvouvýběrový t-test pro různé rozptyly proto, že druhý výběr má „nulový“ rozptyl. Testovací statistika pro t-test je 2,33, tj. stejná jako v případě výpočtu dosazením do vzorce x-m × n
t=
sx
Porovnáním s kritickou hodnotou pro jednostranný test t krit(1) = 1,673 zamítáme nulovou hypotézu o shodě střední hodnoty s hodnotou 4,1 na hladině významnosti 0,05. T-test a Z-test se liší především kvůli použití různého rozptylu. U Z-testu jsme použili známý rozptyl 0,5, u t-testu jsme rozptyl nahradili výběrovým odhadem.
Mohli bychom zamítnout nulovou hypotézu na hladině významnosti 0,01? Vypočtená p-hodnota = 0,012 vypovídá o tom, že nulovou hypotézu bychom v případě přísnějšího testu na hladině významnosti 0,01 nemohli zamítnout. Stejné výsledky nám poskytl i z-test, pro a = 0,01 bychom H0 nemohli zamítnout (vypočtená p-hodnota = 0,015). Použití Z-testu je podmíněno znalostí populačního rozptylu. Pokud jej neznáme, musíme empirickou funkci (rozdělení výběrového souboru) porovnat se Studentovým t-rozdělením (nemůžeme použít normální rozdělení). Pro větší počet měření je Studentovo t-rozdělení prakticky shodné s normálním rozdělením.
SHRNUTÍ: Rozdíl mezi Z-testem a t-testem: - t-test je konzervativnější (zamítnutí nulové hypotézy je o trochu přísnější - zamítáme dřív) - při použití Z-testu musíme znát populační rozptyl - oba tyto testy vyžadují normalitu dat, ale pro n > 20 je možno veličinu považovat za přibližně normální, protože „součet většího počtu stejně rozdělených NV je přibližně normální“
KVANTITATIVNÍ VELIČINY - DVĚ SKUPINY POROVNÁNÍ MÍRY POLOHY DVOU VÝBĚRŮ problém porovnání střední hodnoty dvou skupin: - počet pozorování v obou skupinách se může lišit – síla testu záleží na menším výběru - skupiny se mohou lišit parametrem polohy – odhadovaným průměrem - skupiny se mohou lišit mírou variability – různé rozptyly - skupiny se mohou lišit oběmi charakteristikami současně
DVOUVÝBĚROVÝ T-TEST Použijeme za předpokladu, že je rozložení obou veličin normální. Nabídka Analýzy dat v Excelu obsahuje tyto možnosti dvouvýběrových t-testů: 1. Dvouvýběrový párový t-test na střední hodnotu 2. Dvouvýběrový t-test pro stejné rozptyly 3. Dvouvýběrový t-test pro různé rozptyly Stejné možnosti nabízí Excelová funkce T.TEST s parametry: Matice1, Matice2, Chvosty, Typ (1-spárované výběry, 2-dva výběry se shodným rozptylem, 3-dva výběry s různým rozptylem) První možnost probereme později, párová data jsou dvě hodnoty naměřené na stejných subjektech obvykle s časovým odstupem.
DVOUVÝBĚROVÝ T-TEST PRO STEJNÉ ROZPTYLY Příklad: testujeme shodu středních hodnot naměřených hodnot cholesterolu u dětí ve škole A a B a předpokládáme, že výběry mají stejný rozptyl: Dvouvýběrový t-test s rovností rozptylů Stř. hodnota Rozptyl Pozorování Společný rozptyl Hyp. rozdíl stř. hodnot Počet stupňů volnosti (rozdíl) t stat P(T<=t) (1) t krit (1) P(T<=t) (2) t krit (2)
CHOL_A CHOL_B 4,302 4,334 0,430 0,520 57 45 0,470 0 100 -0,232 0,408 1,660 0,817 1,984
Zeleně je zvýrazněna vypočtená statistika. Pro porovnání s kritickou hodnotou bereme její absolutní hodnotu kdybychom zaměnili pořadí obou výběrů, statistika by nám vyšla kladně. Modře je probarvena kritická hodnota t-rozdělení Předpokládáme Studentovo rozdělení výběr. souboru.
Zajímá nás oboustranný test, protože nevíme, na které škole mají děti nižší (vyšší) hodnoty cholesterolu. Porovnáním vypočtené statistiky a kritické hodnoty pro oboustranný test: |-0,232| < 1,984 … testovaná statistika nepřekračuje kritickou hodnotu přijímáme nulovou hypotézu, že mezi dětmi z obou škola A a B není statisticky významný rozdíl v naměřených hodnotách cholesterolu. Na základě p-hodnoty (zobrazena červeně) se rozhodujeme stejně: 0,817 > 0,05 ... p-hodnota je větší než zvolená hladina významnosti testu, tj. hodnota statistiky odpovídající této p-hodnotě nedosáhla kritické hodnoty Počet stupňů volnosti vypočteme tak, že od počtu měření v obou výběrech odečteme 1 a obě hodnoty sečteme (57-1 + 45-1).
F-TEST PRO POROVNÁNÍ ROZPTYLŮ Příklad: testujeme shodu středních hodnot naměřených hodnot cholesterolu u mladších a starších zaměstnanců, rozdělených do skupiny A (mladší) a skupiny B (starší). Nevíme, zda můžeme použít dvouvýběrový t-test pro stejné rozptyly. Nejprve otestujeme shodu rozptylů pomocí Fischerova F-testu, kde výsledkem je podíl dvou c 2 rozdělení. Stanovíme hypotézu H0 - rozptyly obou souborů se statisticky významně neliší, alternativní hypotézu HA - rozptyly obou souborů se statisticky významně liší Pokud H0 zamítneme, použijeme t-test pro různé rozptyly
Dvouvýběrový F-test pro rozptyl CHOL_B CHOL_A Stř. hodnota 4,20 4,33 Rozptyl 0,52 0,34 Pozorování 60 27 Rozdíl 59 26 F 1,54 P(F<=f) (1) 0,11 F krit (1) 1,80 Dvouvýběrový F-test pro rozptyl CHOL_A CHOL_B Stř. hodnota 4,33 4,20 Rozptyl 0,34 0,52 Pozorování 27 60 Rozdíl 26 59 F 0,65 P(F<=f) (1) 0,11 F krit (1) 0,55
Vidíme, že hodnoty v 1. tabulce odpovídají hodnotám na obrázku. Ve druhé tabulce, kde je přehozeno pořadí výběrů, musíme hodnoty F-rozdělení odečítat na grafu vlevo (v nižších hodnotách). Výsledek obou F-testů je stejný - test je statisticky nevýznamný, H0 nemůžeme zamítnout.
Poznámka: hodnota F-testu (testovací statistika) v druhém výpočtu (po přehození pořadí výběrů) je inverzní hodnota první statistiky, tj. 1 F = 1 pro obě statistiky platí vztah: F2 Na základě F-testu použijeme opět DVOUVÝBĚROVÝ T-TEST PRO STEJNÉ ROZPTYLY
Výběrové soubory otestujeme T-testem také dvakrát (podruhé v opačném pořadí výběrů), abychom zjistili, v čem se bude lišit výsledná tabulka. (Uvidíme, že se bude lišit pouze ve znaménku testovací statistiky t-stat.)
Porovnáním absolutní hodnoty t-stat a t-krit (kritická hodnota stanovenou na základě zvolené hladiny významnosti α) zjistíme, že test cholesterolu pro obě skupiny zaměstnanců je statisticky nevýznamný - skupiny se v hodnotách cholesterolu statisticky významně neodlišují. Použili jsme oboustranný test.
Dvouvýběrový t-test s rovností rozptylů Zaměstnanci CHOL_A CHOL_B Stř. hodnota 4,33 4,20 Rozptyl 0,34 0,52 Pozorování 27 60 Společný rozptyl 0,46 Hyp.rozdíl stř.hodn. 0 Rozdíl 85 t stat 0,84 P(T<=t) (1) 0,20 t krit (1) 1,66 P(T<=t) (2) 0,40 t krit (2) 1,99
Dvouvýběrový t-test s rovností rozptylů Zaměstnanci CHOL_B CHOL_A Stř. hodnota 4,20 4,33 Rozptyl 0,52 0,34 Pozorování 60 27 Společný rozptyl 0,46 Hyp.rozdíl stř.hodn. 0 Rozdíl 85 t stat -0,84 P(T<=t) (1) 0,20 t krit (1) 1,66 P(T<=t) (2) 0,40 t krit (2) 1,99
Příklad: testujeme shodu středních hodnot naměřených hodnot cholesterolu u dětí ve škole A a C. Pro výběr t-testu jsme použili nejprve F-test pro porovnání rozptylů.
Dvouvýběrový F-test pro rozptyl
Stř. hodnota Rozptyl Pozorování Rozdíl F P(F<=f) (1) F krit (1)
CHOL_A 4,408 0,333 35 34 0,493 0,021 0,564
CHOL_C 4,483 0,676 35 34
Na hladině významnosti 0,05 jsme zjistili, že se rozptyly obou výběrů významně liší. K testování shody středních hodnot proto musíme použít dvouvýběrový t-test s nerovností rozptylů
K vyhodnocení t-testu porovnáme absolutní hodnotu t-stat a t krit(2)
Dvouvýběrový t-test s nerovností rozptylů
|t stat| < t krit(2)
Stř. hodnota Rozptyl Pozorování Hyp. rozdíl stř. hodnot Rozdíl - stupně volnosti t stat P(T<=t) (1) t krit (1) P(T<=t) (2) t krit (2)
CHOL_A 4,408 0,333 35 0 61 -0,444 0,329 1,670 0,658 2,000
CHOL_C 4,483 0,676 35
proto t-test není statisticky významný a hypotézu Ho o shodě středních hodnot nemůžeme zamítnout. Totéž nám potvrzuje vysoká p-hodnota P(T<=t) (2) > α Počet stupňů volnosti se pro dvouvýběrový t-test s nerovností výběrů počítá složitějším algoritmem a vliv má především rozptyl výběru (čím je větší rozptyl, tím větší váhu má počet hodnot ve výběru).
PÁROVÉ POROVNÁNÍ používá se v situaci, kdy chceme prokázat vliv nějakého zásahu na stejné skupině objektů. Pokud máme sledovanou veličinu měřenu dvakrát, stačí vypočítat rozdíl těchto hodnot a testovat jednovýběrovým testem, zda je tato změna = 0. Technickým řešením se párové a nepárové testy „neliší“, ale z hlediska interpretace jde o zcela odlišné přístupy. Párové testy použijeme v okamžiku, kdy sledovanou charakteristiku pozorujeme na stejném objektu opakovaně (nejčastěji dvakrát) a rozdíl mezi sledovanymi subjekty je větší, než rozdíl mezi pozorováními. Snažíme se zjistit efekt času - obvykle během tohoto časového intervalu je provedena nějaká intervence a ptáme se tedy na její efekt.
Např. na skupině školních dětí byla měřena hladina HDL cholesterolu v krvi. Pak došlo ve školní jídelně k změně skladby stravy a po měsíci byla stejným dětem měřena opět hladina HDL cholesterolu. Ptáme se, zda změna jídelníčku snížila hladinu HDL cholesterolu v krvi jednotlivých dětí. Hodnota, o kterou je možno snížit hladinu HDL cholesterolu změnou části dětské stravy zřejmě nebude velká, naopak rozdíly hladiny HDL cholesterolu mezi jednotlivými dětmi mohou být mnohem větší. Pokud bychom porovnali obě skupiny dvouvýběrovým testem, zůstane efekt našeho zásahu skryt variabilitou mezi jedinci a dvouvýběrový test neprokáže významné rozdíly. Dopustili bychom se chyby tím, že bychom neuvažovali závislost hodnot na měřené osobě. Musíme tedy vyloučit vliv variability mezi osobami. Budeme pracovat s rozdíly obou měření a porovnávat změnu ke které došlo za sledované období. To je právě princip párového t-testu, který je zaměřený na odhalení změn u vzájemně „spárovaných“ hodnot - počty měření si musí navzájem odpovídat.
Dvouvýběrový párový t-test na střední hodnotu HDL1 HDL2 Stř. hodnota 1,265 1,372 Rozptyl 0,086 0,146 Pozorování 39 39 Pears. korelace 0,702 Hyp. rozdíl stř. hodnot 0 Rozdíl - počet st. volnosti 38 t stat -2,452 P(T<=t) (1) 0,009 t krit (1) 1,686 P(T<=t) (2) 0,019 t krit (2) 2,024
Stanovíme nulovou hypotézu H0: hodnoty HDL-chlesterolu se po třech měsích změny režimu u dětí nezměnily. Počet pozorování je stejný - jednalo se o 39 dětí. Počet stupňů volnosti je n-1, kde n je počet dětí v jednom výběru. Hodnoty 1. a 2. měření jsou spárované. Výsledek testu: Absolutní hodnota t-statistiky je větší než kritická hodnota (2,452 > 1,686), p-hodnota je signifikantně nízká (0,009), proto H0, že zamítáme na hladině spolehlivosti 95%.
Na základě p-hodnoty bychom nulovou hypotézu mohli zamítnout i na hladině významnosti 99% (P(T<=t) (1) < 0,01). Použili jsme jednostranný test, protože jsme předpokládali, že hodnota HDL cholesterolu se pomocí režimových opatření zlepší (bude vyšší - jedná se o tzv. „hodný cholesterol“) Další příklady pro řešení PÁROVÝM T-TESTEM jsou: · · · · ·
výkon sportovců po určité době tréninků zlepšení výsledků školních dětí v některém předmětu zlepšení zdravotních parametrů po léčbě úbytek hmotnosti po dietních opatřeních zvýšení hmotnosti po úspěšné léčbě anorexie
Vždy se musí jednat o spárované hodnoty stejných jedinců.