Opora k předmětu
Základy statistiky
Autor: Tomáš Kopf
Datum: 3. ledna 2014
Fakulta veřejných politik v Opavě Slezská univerzita v Opavě Opava 2013
Raději statistiku, než tlachy, raději přímá měření, než statistiku.
Obsah Předmluva
1
Kapitola 1. Základy: četnost a pravděpodobnost. 1.1. Úvod 1.2. Hromadné jevy a náhodné veličiny 1.3. Četnost 1.4. Pravděpodobnost 1.5. Kolmogorovovy axiomy pravděpodobnosti. 1.6. Podmíněná pravděpodobnost 1.7. Náhodné veličiny a rozdělení pravděpodobnosti
2 2 2 4 4 6 6 7
Kapitola 2. Popisná statistika: Charakteristiky polohy a rozptylu. 2.1. Úvod 2.2. Charakteristika polohy 2.3. Charakteristika variance 2.4. Kovariance a korelační koeficient 2.5. Charakterizace rozdělení pravděpodobnosti
11 11 12 13 14 15
Kapitola 3. Popisná statistika: Zpracování dat pomocí tabulkových kalkulátorů 3.1. Úvod 3.2. Tabulkový kalkulátor 3.3. Vykreslení grafu
17 17 18 22
Kapitola 4. Popisná statistika: Zpracování dat pomocí statistických programů. 4.1. Úvod 4.2. Statistické programy
27 27 27
Kapitola 5. Regresní analýza 5.1. Úvod 5.2. Regresní úloha a metoda nejmenších čtverců 5.3. Výpočet regresních koeficientů. Lineární a polynomiální regrese 5.4. Výpočet regrese v tabulkovém kalkulátoru
28 28 28 30 31
Kapitola 6. Spolehlivost a platnost 6.1. Úvod 6.2. Teorie skutečného skóre měření 6.3. Spolehlivost testu
37 37 37 38 iii
OBSAH
iv
6.4. Platnost 6.5. Vztah spolehlivosti a platnosti
40 40
Kapitola 7. Faktorová analýza 7.1. Úvod 7.2. Explorativní faktorová analýza 7.3. Konfirmativní faktorová analýza
42 42 43 44
Kapitola 8. Bodové odhady. Metoda největší věrohodnosti. Intervalové odhady 8.1. Úvod 8.2. Bodové odhady 8.3. Jak si opatřit bodové odhady: Metoda největší věrohodnosti 8.4. Intervalové odhady
45 45 46 48 50
Kapitola 9. Testování hypotéz: parametrické testy 9.1. Úvod 9.2. Princip statistického testu 9.3. Možné chyby při provedení statistického testu
51 51 51 52
Kapitola 10. Testování hypotéz: parametrické testy 10.1. Parametrické hypotézy 10.2. t-test na porovnání dvou středních hodnot výběrů stejného rozsahu a rozptylu (návod k testu)
54 54 54
Kapitola 11. Testování hypotéz: neparametrické testy 11.1. Neparametrické hypotézy 11.2. Pearsonův χ2 -test dobré shody 11.3. Nezávislost statistických znaků
57 57 57 57
Kapitola 12. Volba statistického testu a jeho provedení pomocí statistických programů. 12.1. Výběr statistického testu
59 59
Kapitola 13. Analýza časových řad 13.1. Úvod 13.2. Očištění časové řady a klouzavé průměry 13.3. Součtový (aditivní) model časových řad Povinná literatura Doporučená literatura
60 60 60 60 62 62
Literatura
63
1
Předmluva Tato opora k předmětu Základy statistiky obsahuje teorií probíranou. Je součástí elektronických stránek k předmětu na http://elearning.fvp.slu.cz/, kde registrovaní studenti najdou (zčásti interaktivní) úlohy k procvičení, podrobné podmínky k absolvování kurzu a další informace. Další úlohy a vysvětlení lze nalézt v Povinné literatuře a v Doporučené literatuře uvedené na konci tohoto textu. Za ní následující Literatura potom obsahuje odkazy speciálního, doplňkového charakteru. Autor bude vděčný za poznámky k obsahu a upozornění na případné chyby, které můžete zaslat na adresu
[email protected] aby mohly být použity k vylepšení případných příštích verzi tohoto textu. Ve Štítině, 3. ledna 2014 Tomáš Kopf
KAPITOLA 1
Základy: četnost a pravděpodobnost. Klíčová slova: hromadný jev, elementární jev, statistický znak, náhodná veličina, četnost, pravděpodobnost, Kolmogorovovy axiomy, podmíněná pravděpodobnost, nezávislé jevy, pravděpodobnostní funkce, hustota pravděpodobnost. Abstrakt: Je zaveden hromadný jev a jeho popis pomocí množiny elementárních jevů a náhodných veličin. Jsou zavedeny základní pojmy statistiky, mimo jiné četnost, pravděpodobnost a rozdělení pravděpodobnosti.
1.1. Úvod V řadě situací je naše poznání spojeno s nejistotou, kterou je lépe upřímně přiznat a vypořádat se s ní, než jí zastírat. Důvody naší nejistoty mohou mít různé příčiny: neznalost nebo neschopnost obsáhnout složitý systém, nemožnost dostatečně přesného pozorování, nedostatek prostředků pro přesnější pozorování, nebo morální či kulturní překážky bránící některým pozorováním. Nejistota může mít i fundamentální důvody, jako například při měřeních v kvantové mechanice. Evoluce nás lidi vybavila speciálními mechanismy pro zacházení s nejistotou: odhadováním toho, pro co nemáme dost důkazů, obavami a strachem, možností vážit nejisté výsledky naších činů, možností snít a tak se připravit na něco, co se jen možná a jen částečně uskuteční. Vedle toho můžeme nejistotu ovšem i čistě racionálně analyzovat. Jak se o nejistotě dá přemýšlet, o tom je tento text. Přemýšlení v nejistotě má jeden extrémní případ: přemýšlení v jistotě, totiž logiku. Logika sama o sobě se zabývá jen tím, jak se dělají úvahy, ale neříká, o čem ty úvahy jsou, zda mají smysl. Stejně tak i přemýšlení o nejistotě samo o sobě neobsahuje smysl našich pojmů a mohlo by se týkat zcela nesmyslných hříček. Zajistit, aby úvahy o nejistotě byly i smysluplné, můžeme kvalitativním pochopením a kvantitativním zpracováním skutečných údajů a důmyslným uspořádáním skutečných pokusů, které vcházejí do našich úvah [Dis93]. Právě tomu byla dle sylabu věnovaná přenáška předchozího semestru UVSRP / V0145 Metody a techniky sociálního výzkumu.V dalším budeme předpokládat, že údaje, se kterými budeme pracovat, byly získány smysluplně a budeme se věnovat jejích matematickému, statistickému zpracování a vyhodnocování. 1.2. Hromadné jevy a náhodné veličiny Námi uvažovaná nejistota se týká událostí, které dokážeme přesně vydělit popisem či definicí, a u kterých známe možné výsledky, jen nevíme, který z možných výsledků v jednotlivé události nastane. 2
1.2. HROMADNÉ JEVY A NÁHODNÉ VELIČINY
3
Příklad 1. Příkladem popsané situace může být třeba hod kostkou. „Hod kostkou“ je tedy popis oné události s možnými výsledky z množiny Ω = { , , , , , }. Náš popis, kterému může vyhovět více různých událostí (zpravidla velké množství událostí), se nazývá hromadným jevem. Soubor všech událostí vyhovujících našemu popisu se nazývá základním souborem, libovolná jeho podmnožina výběrovým souborem. Jednotlivá událost patřící do daného hromadného jevu se nazývá vzorkem nebo výběrem. Často se zajímáme nikoliv o jedinou událost, ale podíváme se na n událostí hromadného jevu. n-tici takových událostí nazýváme vzorkem rozsahu n nebo výběrem rozsahu n. Jednotlivé možné výsledky příslušející k hromadnému jevu se nazývají elementárními jevy. Množinu elementárních jevů příslušející k danému hromadnému jevu budeme značit Ω. Zkoumání otázky, jak často je ten-který elementární jev daného hromadného jevu zastoupen, je výchozí myšlenkou statistiky. Hromadné jevy mají zpravidla popis, který zahrnuje více okolností a tedy složitější elementární jevy než v Příkladu 1: Příklad 2. Uvažujme hody kostkou jednotlivými hráči (Např. hrají Albert, Božena, Cecilie a Daniel) při jedné konkrétní sehrávce hry „Člověče nezlob se“. Každý elementární jev se potom skládá jak z toho, kdo házel, tak z výsledku hodu (např. [Božena : ]). A ten, kdo házel, přináší potenciálně své další charakteristiky do možného okruhu úvah, např. pohlaví (Mají ženy víc štěstí ve hře než muži?). Jednoduchá uvažovaná charakteristika, kterou lze přiřadit každému z elementárních jevů z nějaké dané množiny hodnot je tzv. statistický znak, nebo též náhodná proměnná nebo náhodná veličina. Např. pohlaví házejícího v Příkladu 2 je statistickým znakem X s hodnotami v množině {muž, žena}. Lze rozeznávat různé druhy statistických znaků. Pro jejích definice odkazujeme na Nesmírně důležitý slovníček níže: Nesmírně důležitý slovníček 1. Podle typu hodnoty rozeznáváme náhodné veličiny • kategoriální (kvalitativní) • numerická (číselná, kvantitativní) – spojitá (např. R) – nespojitá (např. N, {1, 2, 3}) podle počtu možných hodnot: • alternativní (jen dvě možné hodnoty) • množná (více než dvě možných hodnot) Podle možnosti uspořádání a určení velikosti rozdílů: • nominální (hodnoty mají pouze jména, nelze je mezi sebou porovnávat) • ordinální (hodnoty lze mezi sebou porovnávat) • metrická (hodnoty lze mezi sebou porovnávat a navíc lze měřit velikosti jejích rozdílů)
1.4. PRAVDĚPODOBNOST
4
1.3. Četnost Pokud hromadný jev má jako možný výsledky jev A, je četností příslušného jevu A počet případů NA našeho šetření, pro které jev A nastal. Relativní četnost pA je potom rovna podílu četnosti NA jevu A v celkovém počtu N všech případů: NA (1) A Pokud výsledkem pozorování případů mohou být vzájemně se vylučující možnosti A, B, ..., Z, které lze přirozeně uspořádat (jedná se například o čísla, číselné intervaly, časy, stupně souhlasu, apod.), potom je kumulativní četnost (též nazývaná absolutní kumulativní četnost) jevu K daná četností jevu K a všech jemu předcházejících jevů, tedy součtem pA =
NA + NB + NC + . . . + NK .
(2)
Relativní kumulativní četnost je potom rovna podílu absolutní kumulativní četnosti jevu K v celkovém počtu N všech případů, tedy: NA + NB + NC + . . . + NK . N
(3)
1.4. Pravděpodobnost Pravděpodobnost je základním pojmem pro kvantitativní úvahy v situaci zahrnující nejistotu, kdy si nemůžeme být jisti, zda něco nastane či nikoliv. Disciplína vystavěná na tomto pojmu se nazývá statistikou. Hned na začátku však narazíme na problém, že existují různé představy o tom, co pravděpodobnost vlastně je a tyto různé představy mají navíc dopad na celou další teorii. Je tedy třeba zpřesnit, co se pravděpodobností myslí. Přístup k nejistotě zvolený zde se nazývá frekventistická statistika(též klasická, Laplaceova)[Rre00]. Vychází z toho, že pravděpodobnost vyjadřuje, jak často v předepsaných situacích určitého hromadného jevu nastává jev A, že pravděpodobnost P (A) je zlomek všech předepsaných situací v základním souboru, kdy uvažovaný jev A (v předepsané situaci) nastal, neboli že pravděpodobnost P (A) je relativní četnost jevu A v základním souboru: Definice 1. Pokud počet událostí v základním souboru je konečný a označíme ho N a pokud označíme NA počet událostí v základním souboru, ve kterých nastal jev A, potom pravděpodobnost P (A) je P (A) =
počet předepsaných situací, kdy nastal jev A NA ≡ . počet všech předepsaných situací N
(4)
Pokud je (v určité idealizaci) předepsaných situací nekonečně mnoho, je třeba výše uvedený vztah pro pravděpodobnost P (A) nahradit vhodnou limitou z výrazu na pravé straně: NA . N →∞ N
P (A) = lim
(5)
1.4. PRAVDĚPODOBNOST
5
Zde N , resp. NA jsou v průběhu výpočtu limity dosud zahrnuté počty událostí ze základního souboru, resp. dosud zahrnuté počty událostí ze základního souboru, ve kterých nastal jev A. Můžeme tento přístup chápat s božským odstupem tak, že všechny situace ve vesmíru, ať v minulosti, současnosti či budoucnosti, nějak dopadnou, takže nakonec je v každé situaci přesně určeno, jestli v ní jev A nastal, či nikoliv a i pravděpodobnost P (A) je přesně a jednoznačně určena. Zdrojem naší nejistoty je potom pouze to, že v konfrontaci s jednou z předepsaných situací ve své lidské omezenosti nevíme, jestli právě máme co do činění se situací, kdy jev A nastane, nebo se situací, kdy jev A nenastane. Jakou z nich jsme právě vybrali? V tomto kontextu je přirozené, že důležitou roli ve frekventistické statistice hrají náhodné výběry z předepsaných situací. Poznámka 1. Pro situace s konečným základním souborem lze říct, že pravděpodobnost jevu A je jeho relativní četností v základním souboru. Intuitivně lze podobně vnímat i případ nekonečného základního souboru, byť přesného významu je dosaženo pouze pomocí vhodných limit, jako v (23). Tvrzení 1. Pro konečný základní soubor a pro jev A platí následující: 0 ≤ P (A) ≤ 1,
(6)
P (A nebo B) = P (A) + P (B)
(7)
a pokud B je jev neslučitelný s A:
Důkaz. Vztah (6) obdržíme vydělením nerovností 0 ≤ NA ≤ N celkovým počtem N a použitím definice pravděpodobnosti (4). Obdobně obdržíme (7) vydělením rovnosti NA nebo B = NA + NB celkovým počtem N a použitím definice pravděpodobnosti (4). Poznámka 2. Vedle frekventistické statistiky existují další přístupy k nakládání s nejistotou či náhodou, viz např. Bayesovskou statistikou[Rob07], která chápe pravděpodobnost jako subjektivní míru očekávání, nebo teorii možnosti [Zad78, dC97], která přisuzuje jevu hodnotu mezi 0 a 1 dle toho, jak dalece je možné, že některý takový jev nastal. Pravděpodobnost je tedy nástrojem k tomu, abychom mohli přemýšlet o situacích spojených s nejistotou. Jak se dá s pravděpodobnostmi přesnějí zacházet, jak se s nimi dá počítat, je vystiženo tzv. Kolmogorovovými axiomy v následujícím Odseku 1.5. V Odseku 1.6 je zavedena podmíněná pravděpodobnost a vzájemná nezávislost jevů. Často se ve statistice ovšem nezabýváme množinou jevů v její úplnosti, ale každému jevu přiřadíme veličinu, která popisuje některý zkoumaný rys jevu. Zkoumáme-li např. přirozený růst dětí, nevšímáme si všech okolností těchto dětí, ale každému přiřadíme číslo vyjadřující jeho tělesnou výšku. Takto vzniklé náhodné veličiny a jejích rozdělení pravděpodobnosti jsou popsány v Odseku 1.7. Odsek 2.5 uvádí nejběžnější charakterizace rozdělení pravděpodobnosti.
1.6. PODMÍNĚNÁ PRAVDĚPODOBNOST
6
1.5. Kolmogorovovy axiomy pravděpodobnosti. Tyto axiomy jsou matematickou formalizací praktického pojmu pravděpodobnosti pomocí definičních vlastností, které lze motivovat Tvrzením (1): Definice 2. (Kolmogorovovy axiomy pravděpodobnosti) Nechť je dána • množina Ω (množina elementárníc jevů, její prvky ω ∈ Ω se nazývají elementárními jevy) a • systém tzv. měřitelných1 podmnožin F množiny Ω. Podmnožina A ∈ F se nazývá náhodným jevem. Potom pravděpodobnost je dána hodnotou zobrazením P : F → R (přičemž se P (A) nazývá pravděpodobností náhodného jevu A a zobrazení P se nazývá rozdělením pravděpodobnosti), pokud jsou splněny následující podmínky: (1) P (A) ≥ 0 pro libovolný náhodný jev A ∈ F. (2) P (Ω) = 1. (3) Pro libovolný spočetný soubor Ai ∈ Ω takových, že Ai ∩ Aj = ∅ pro i 6= j, platí: ! ∞ ∞ X [ P P (Ai ). (8) Ai = i=1
i
Trojice (Ω, F, P ) se nazývá pravděpodobnostním prostorem.
1.6. Podmíněná pravděpodobnost Pokud je množina elementárních jevů kartézským součinem Ω = Ω1 × Ω2 lze vedle pravděpodobnosti P (A, B) = P (A × B), kde A ∈ Ω1 a B ∈ Ω2 , zavést reziduální pravděpodobnosti P (A) = P (A × Ω2 ), resp. P (B) = P (Ω1 × B) a podmíněnou pravděpodobnost P (A | B) (pravděpodobnost, že nastane A za předpokladu, že nastalo B - což předpokládá nenulovou pravděpodobnost P (B)): P (A | B) =
P (A, B) . P (B)
(9)
Vztah (24) se nazývá Bayesův vzorec. 1
Tento požadavek je poněkud technický. Intuitivně si můžete představit, že libovolná rozumná podmnožina množiny Ω je měřitelná a dále se tím nezabývat. To byl i původní záměr matematiků, kteří ovšem zjistili, že za rozumných dalších požadavků nelze měřitelnost přiřknout libovolné podmnožině množiny Ω ale jen takovým, které patří do vhodné tzv. σ-algebry F (Že F je σ-algebrou znamená, že pro každou množinu A ∈ F je i její doplněk Ω \ A podmnožinou ze systému F a že libovolné spočetné sjednocení množin ze F opět náleží do F). Množiny, které nejsou měřitelné, se ovšem konstruují těžko a prakticky se s nimi nesetkáte.
1.7. NÁHODNÉ VELIČINY
7
Nezávislé jevy. Jevy A, B jsou nezávislé, pokud platí: P (A | B) = P (A),
(10)
neboli P (A, B) = P (A)P (B).
(11)
1.7. Náhodné veličiny a rozdělení pravděpodobnosti Definice 3. Náhodná veličina X je dána jednoduchým, zpravidla číselným prostorem hodnot Ω jako prostorem elementárních jevů a pravděpodobností P na tomto prostoru splňující Kolmogorovovy axiomy. Náhodná veličina se zpravidla označuje velkým písmenem a její některá hodnota příslušným malým písmenem. Náhodná veličina X je tedy jednoduchým, zpravidla číselným pravděpodobnostním prostorem. Rozdělení pravděpodobnosti na diskrétní náhodné veličině (například na konečné množině {1, 2, . . . , N }, na přirozených číslech N nebo na celých číslech Z) se zadává pomocí tzv. pravděpodobnostní funkce P (x), kteřá každému elementárnímu jevu x ∈ Ω přiřadí jeho pravděpodobnost. Geometricky lze pravděpodobnostní funkci znázornit sloupcovým grafem, viz Obrázek 1.1.
Obrázek 1.1. Znázornění pravděpodobnostní funkce P (x) sloupcovým grafem. Hodnota může udávat například pravděpodobnosti počtu telefonních hovorů přijatých zákaznickým centrem za minutu. Příklady diskretních rozdělení pravděpodobnosti:
1.7. NÁHODNÉ VELIČINY
8
• stejnoměrné: ( P (x) =
1 n−m+1
0
pro x ∈ {m, . . . , n}, jinak.
(12)
• binomické: n x P (x | n, p) = p (1 − p)n−x . p
(13)
• Poissonovo: λx −λ e . (14) x! Rozdělení pravděpodobnosti na spojité náhodné veličině (například na reálných číslech R) se zadává pomocí tzv. hustoty pravděpodobnosti p(x), což je nezáporná funkce, která každé měřitelné podmnožině A ⊂ Ω přiřadí její pravděpodobnost integrálem přes A. Pokud množina A je intervalem [a, b] v reálných číslech, dostaneme tedy pro pravděpodobnost (že náhodná veličina X padne do) intervalu: Z b p(x)dx. (15) P (X ∈ [a, b]) = P (x | λ) =
a
Protože celková pravděpodobnost všech možností musí být jednotková, musí hustota pravděpodobnosti splňovat: Z +∞ p(x)dx = 1. (16) −∞
Geometricky si lze význam hustoty pravděpodobnosti p(x) představit tak, jak je znázorněno na Obrázku 1.2.
Obrázek 1.2. Geometrický význam hustoty pravděpodobnosti p(x). Integrál z funkce p(x) počítá obecně plochu pod křivkou danou grafem této funkce. Pravděpodobnost intervalu [a, b] je potom plocha pod grafem funkce p(x) na tomto intervalu.
1.7. NÁHODNÉ VELIČINY
9
Příklady spojitých rozdělení pravděpodobnosti:
• stejnoměrné:
( p(x) =
1 b−a
0
pro x ∈ [a, b], jinak.
(17)
• normální (Gaussovo):
1 x−µ 2 1 p(x | µ, σ) = √ e− 2 ( σ ) . σ 2π
(18)
• exponenciální:
( αe−αx p(x | α) = 0
pro x ≥ 0, pro x < 0.
(19)
1.7. NÁHODNÉ VELIČINY
10
Shrnutí 1. Statistika se zabývá situacemi zatíženými nejistotou. Uvažovaná nejistota se týká událostí, které dokážeme přesně vydělit popisem či definicí, a u kterých známe možné výsledky, jen nevíme, který z možných výsledků v jednotlivé události nastane. Náš popis, kterému může vyhovět více různých událostí (zpravidla velké množství událostí), se nazývá hromadným jevem. Soubor všech událostí vyhovujících našemu popisu se nazývá základním souborem, libovolná jeho podmnožina výběrovým souborem. Jednotlivá událost patřící do daného hromadného jevu se nazývá vzorkem nebo výběrem. Často se zajímáme nikoliv o jedinou událost, ale podíváme se na n událostí hromadného jevu. n-tici takových událostí nazýváme vzorkem rozsahu n nebo výběrem rozsahu n. Jednotlivé možné výsledky příslušející k hromadnému jevu se nazývají elementárními jevy. Četnost jevu A je počet případů NA našeho šetření, pro které jev A nastal. Relativní četnost jevu A je podílu četnosti NA a celkového počtu N všech případů: NA pA = (20) A Kumulativní četnost (též nazývaná absolutní kumulativní četnost) jevu K z možného rozsahu A, B, ..., Z je součtem četnosti jevu K a všech jemu předcházejících: NA + NB + NC + . . . + NK .
(21)
Relativní kumulativní četnost je podíl absolutní kumulativní četnosti jevu K a celkového počtu N všech případů: NA + NB + NC + . . . + NK . (22) N Pravděpodobnost P (A) jevu A je relativní četností jevu A v základním souboru. Pokud je základní soubor nekonečný, je třeba pravděpodobnost vyjádřit vhodnou limitou: NA P (A) = lim . (23) N →∞ N Takto chápanou pravděpodobnost lze matematicky formulovat pomocí Kolmogorovových axiomů pravděpodobnosti. Podmíněná pravděpodobnost P (A | B), že nastane jev A za předpokladu, že nastal jev B je dán Bayesovým vzorcem pomocí pravděpodobnosti P (A, B), že nastanou zároveň jevy A i B a pomocí pravděpodobnosti P (B), že nastane jev B: P (A, B) P (A | B) = . (24) P (B) Jevy A, B jsou nezávislé, pokud platí P (A, B) = P (A)P (B).
(25)
Jednoduchý, zpravidla číselný pravděpodobnostní prostor se nazývá náhodnou veličinou. Rozdělení pravděpodobnosti na diskrétní náhodné veličině se zadává pomocí tzv. pravděpodobnostní funkce P (x), kteřá každému elementárnímu jevu x ∈ Ω přiřadí jeho pravděpodobnost. Na spojité náhodné veličině se zadává pomocí tzv. hustoty pravděpodobnosti p(x), což je nezáporná funkce, která každé měřitelné podmnožině A ⊂ Ω přiřadí její pravděpodobnost integrálem přes A. Pravděpodobnost (že náhodná veličina X padne do) intervalu [a, b] je: Z b P (X ∈ [a, b]) = p(x)dx. (26) a
Protože celková pravděpodobnost všech možností musí být jednotková, musí hustota pravR +∞ děpodobnosti splňovat: −∞ p(x)dx = 1.
KAPITOLA 2
Popisná statistika: Charakteristiky polohy a rozptylu. Klíčová slova: průměr, medián, modus, kvantil, percentil, rozpětí, rozptyl, směrodatná odchylka, variační koeficient, kovariance, korelační koeficient, střední hodnota Abstrakt: Data náhodné veličiny lze úsporně charakterizovat tím, kde leží, a tím, jak jsou rozptýlena. Zde jsou definovány k tomuto účelu používané pojmy. Navíc je charakterizována souvislost mezi změnami dvou náhodných veličin.
2.1. Úvod I když je často velké množství hodnot, které mohou být výsledky sledovaného hromadného jevu, často se v praxi stává, že se hodnoty většinou nachází jen v určité oblasti, jen omezeně rozptýlené. Jedním příkladem jsou data v Obrázku 2.1, která nenabývají zcela libovolných reálných čísel, byť by to model umožňoval.
Obrázek 2.1. Tělesná výška prezidentů USA. Data nejsou rozprostřena rovnoměrně, ale v jedné oblasti. Oblast se dá charakterizovat svojí polohou a šířkou (rozptýleností dat). Pro podrobný seznam jednotlivých prezidentů viz Wikipedia. V takových případech je možno data ve zkratce vystihnout jejích polohou a tzv. variancí, což je název pro rozptýlenost dat (Pozor: pod stejným názvem variance figuruje 11
2.2. CHARAKTERISTIKA POLOHY
12
jedna konkrétní veličina, která varianci v obecném smyslu konkrétním způsobem charakterizuje.) V Odseku 2.2 jsou definovány nejběžnější charakterizace polohy hodnot a v Odseku 2.3 potom charakterizace variance hodnot hromadného jevu. Rozšíření myšlenky variance na vícerozměrný případ je zmíněno v Odseku 2.4, zabývajícím se kovariancí a korelačním koeficientem. 2.2. Charakteristika polohy Nechť jsou pro zkoumaný hromadný jev zjištěny výsledky pozorování x1 , x2 , x3 , ..., xN o celkovém počtu N . Přitom indexy (malá čísla vpravo dole) číslují jednotlivé případy. Aritmetický průměr x¯ těchto hodnot je dán vzorcem x¯ =
x1 + x2 + x3 + . . . + xN N
(27)
Ve vzorci vystupuje součet od prvního údaje P x1 až po poslední údaj xN . Takové dlouhé součty se stručně zapisují pomocí symbolu . Pod tento symbol se píše jméno indexu a počáteční hodnota číslování a nad symbol se píše koncová hodnota: N X
xn = x1 + x2 + x3 + . . . + xN
(28)
n=1
S tímto označením můžeme definici průměru napsat úsporně jako N 1 X x¯ = xn N n=1
(29)
Aritmetický průměr lze pochopitelně spočítat jen z takových výsledků, které lze sčítat a dělit číslem. Aritmetický průměr je nejužívanější charakteristikou polohy, ale bohužel velmi citlivý na malý počet velmi výstředních hodnot. Tomu se vyhneme použitím některé z následujících charakterizací. Medián x˜ je taková hodnota, pro kterou je stejně mnoho hodnot menších jako větších. Leží tedy vprostřed v pořadí hodnot. Medián lze pochopitelně spočítat jen tehdy, pokud lze sledované hodnoty přirozeným způsobem seřadit. Kvantil x˜p je taková hodnota, pro kterou je část p z celkového počtu hodnot menších nebo rovných hodnotě x˜p . Medián x˜ je tedy kvantilem x˜0.5 , tj. pro p = 0.5: x˜ = x˜0.5 .
(30)
Pokud se hodnota p v definici kvantilu udává v celých číslech s porozuměním, že se jedná o procenta, nazývá se x˜p% p-tým percentilem, s p některým číslem z 1, 2, 3, . . . , 99. Obdobně se x˜p/4 nazývá p-tým kvartilem, s p některým číslem z 1, 2, 3. Modus xˆ je hodnota sledované veličiny, která má největší četnost.
2.3. CHARAKTERISTIKA VARIANCE
13
2.3. Charakteristika variance Rozsah xmax − xmin je rozdílem mezi největší pozorovanou hodnotou xmax a nejmenší pozorovanou hodnotou xmin . Rozptyl se označuje V ar(x) nebo σ 2 (x): N 1 X V ar(x) ≡ σ (x) = (xn − x¯)2 . N n=1 2
(31)
Poznámka 3. Proč tento vzorec? Tento vzorec vychází z myšlenky spočítat průměrnou odchylku případů od středu hodnot. Pokud ovšem jako střed hodnot bereme aritmetický průměr x¯ a jako odchylku údaje xn od aritmetického průměru jejích rozdíl, tedy xn − x¯, zjistíme, že průměrná odchylka je vždy nulová. Je to proto, že se údaje od průměru x¯ odchylují na jednu i na druhou stranu, a potom rozdíl xn − x¯ je někdy kladný a někdy záporný a členy se při zprůměrování odchylek vzájemně vyruší. Tomu by se dalo vyhnout tím, že pomocí absolutní hodnoty lze odebrat znaménko z odchylky a dostaneme velikost odchylky | xn − x¯ |. Průměr z velikosti odchylek potom je N 1 X | xn − x¯ |. N n=1
(32)
Ve složitějších aplikacích se s touto veličinou bohužel špatně počítá. Statistici zjistili, že je z toho hlediska výhodnější zrušit znaménko odchylky jejím umocněním na druhou, (xn − x¯)2 . Aritmetický průměr z těchto čtverců odchylek je potom právě vzorec (31) pro rozptyl. Směrodatná odchylka je σ(x) =
p p V ar(x) ≡ σ 2 (x).
(33)
Poznámka 4. Proč tento vzorec? S rozptylem se dobře počítá, má však jednu závadu: nedá se porovnat se samotnými hodnotami, protože má jiné jednoty. Pokud například hodnoty v Obrázku 2.1 jsou v cm, je rozptyl těchto hodnot v cm2 , což jsou jiné, nesouměřitelné jednotky. Tato závada se jednoduše opraví, pokud z rozptylu vezmeme jeho druhou odmocninu, což je právě vzorec (33) pro směrodatnou odchylku. Výběrová směrodatná odchylka je v u N u 1 X t s(x) = (xn − x¯)2 . N − 1 n=1
(34)
Poznámka 5. Proč tento vzorec? Výběrová směrodatná odchylka (34) se od směrodatné odchylky (33) liší jen tím, že místo zlomku N1 pod odmocninou má N1−1 . Pro velké N je rozdíl zanedbatelný. I proto na jejích přísném rozlišování nebudeme trvat, pokud nás k tomu nepovedou fundamentální důvody. Pro malé hodnoty N však výběrová směrodatná odchylka spočtená na výběrovém souboru dává lepší odhad pro směrodatnou odchylku základního souboru, než vzorec (33).
2.4. KOVARIANCE A KORELAČNÍ KOEFICIENT
14
Je přirozenou otázkou, jak rozptýlená jsou vlastně data relativně k celkové velikosti veličiny x. To lze přirozeně vyjádřit tzv. variačním koeficientem V , který je podílem směrodatné odchylky a průměrné hodnoty: s(x) V (x) = . (35) x¯ 2.4. Kovariance a korelační koeficient V tomto odseku rozšíříme předchozí úvahy na vícerozměrný případ: Obdobou variance je ve vícerozměrném případě tzv.kovariance. Kovariance je dána vzorcem N 1 X Cov(x, y) = (xn − x¯)(yn − y¯). N n=1
(36)
Pokud x = y, dostaneme zpět definici rozptylu (31). Pokud x 6= y, charakterizuje kovariance souvislost mezi veličinami x a y, jejíchž dvojice [xn , yn ] byly pozorovány. Součin odchylky (xn − x¯) od průměru x¯ a odchylky (yn − y¯) od průměru y¯ má následující vlastnosti: • Pokud y spíše roste, když x roste (a y spíše klesá, když x klesá), bude součin většinou kladný, protože pak – kladná výchylka v x je obvykle doprovázená kladnou výchylkou v y a součin kladných čísel je kladný, – záporná výchylka v x je obvykle doprovázená zápornou výchylkou v y a součin záporných čísel je kladný. Součet většinou kladných hodnot ve vzorci dá kovarianci jako velké kladné číslo. • Pokud y spíše klesá, když x roste (a y spíše roste, když x klesá), bude součin většinou záporný, protože pak – kladná výchylka v x je obvykle doprovázená kladnou výchylkou v y a součin kladných čísel je kladný, – záporná výchylka v x je obvykle doprovázená zápornou výchylkou v y a součin záporných čísel je kladný. Součet většinou záporných hodnot ve vzorci dá kovarianci jako velké záporné číslo. • Pokud se x, y mění spíše nezávisle, bude součin výchylek někdy kladný a někdy záporný. Součet střídavě kladných a záporných hodnot ve vzorci dá kovarianci jako male číslo, blízké nuly. Jenže, pokud získáme některé nenulové číslo pro kovarianci, máme jej považovat za malé, poukazující na nezávislost, nebo za velké, poukazující na vzájemnou souvislost mezi veličinami x, y? Vůči čemu máme danou hodnotu kovariance porovnávat. Odpověď je jednoduchá: vůči součinu směrodatných odchylek s(x), s(y) obou proměnných. Tím dostaneme tzv. korelační koeficient, který je normalizovanou podobou kovariance: Cov(x, y) rxy = (37) σ(x)σ(y) Nabývá hodnot v intervalu [−1, 1]. Pokud je
2.5. CHARAKTERISTIKA ROZDĚLENÍ PRAVDĚPODOBNOSTI
15
• blízko hodnoty +1, pak y spíše roste, když x roste (a y spíše klesá, když x klesá), • blízko hodnoty −1, pak y spíše klesá, když x roste (a y spíše roste, když x klesá), • blízko hodnoty 0, pak se x, y mění spíše nezávisle.
2.5. Charakterizace rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti lze charakterizovat stejným způsobem jako data (výběry konečného rozsahu) náhodných veličin. Pro spojitý případ je třeba součty ve vzorcích nahradit spojitými součty, tj. integrály. Polohu rozdělení pravděpodobnosti veličiny X tak charakterizujeme namísto průměru tzv. střední hodnotou E(X):
Z
+∞
E(X) =
xp(x)dx.
(38)
−∞
Varianci rozdělení pravděpodobnosti veličiny X charakterizujeme tzv. rozptylem V ar(X):
Z
+∞
V ar(X) = −∞
(x − E(X))2 p(x)dx.
(39)
2.5. CHARAKTERISTIKA ROZDĚLENÍ PRAVDĚPODOBNOSTI
16
Shrnutí 2. Polohu hodnot xn , pro n = 1, 2, 3, . . . , N lze běžně charakterizovat jednou z následujících veličin: • Aritmetický průměr x¯ je dán jako střední hodnota vzorcem N 1 X xn x¯ = N n=1
(40)
• Medián x˜ je taková hodnota, pro kterou je stejně mnoho hodnot menších jako větších. Leží tedy vprostřed v pořadí hodnot. • Kvantil x˜p je taková hodnota, pro kterou je část p z celkového počtu hodnot menších nebo rovných hodnotě x˜p . • Modus xˆ je hodnota sledované veličiny, která má největší četnost. Varianci (rozptýlenost) hodnot xn , pro n = 1, 2, 3, . . . , N lze běžně charakterizovat jednou z následujících veličin: • Rozsah xmax − xmin je rozdílem mezi největší pozorovanou hodnotou xmax a nejmenší pozorovanou hodnotou xmin . • Rozptyl se označuje V ar(x) nebo σ 2 (x): N 1 X V ar(x) ≡ σ (x) = (xn − x¯)2 . N n=1 2
(41)
• Směrodatná odchylka σ(x), resp. Výběrová směrodatná odchylka s(x) je v v u u N N u1 X u 1 X t σ(x) = (xn − x¯)2 . s(x) = t (xn − x¯)2 . (42) N n=1 N − 1 n=1 Souvislost mezi odchylkami dvou veličin od jejích průměrů lze vyjádřit Kovariancí: N 1 X Cov(x, y) = (xn − x¯)(yn − y¯). N n=1
(43)
Korelační koeficient, který je normalizovanou podobou kovariance: Cov(x, y) rxy = (44) σ(x)σ(y) Nabývá hodnot v intervalu [−1, 1]. Pokud je • blízko hodnoty +1, pak y spíše roste, když x roste (a y spíše klesá, když x klesá), • blízko hodnoty −1, pak y spíše klesá, když x roste (a y spíše roste, když x klesá), • blízko hodnoty 0, pak se x, y mění spíše nezávisle.
KAPITOLA 3
Popisná statistika: Zpracování dat pomocí tabulkových kalkulátorů Klíčová slova: tabulkový kalkulátor, sestavování tabulek a grafů
Abstrakt: Tabulkové kalkulátory umožňují elementární statistické zpracování: záznam dat, výpočet četností a grafické znázornění.
3.1. Úvod Data získaná statistickým šetřením je třeba zaznamenat a zpracovat. Vzhledem k tomu, že jakékoliv podstatnější zpracování probíhá pomocí počítače, je nejvhodnější i data pokud možno přímo do počítače zaznamenat nebo co nejdříve načíst. Ke všem účelům zpracování je možno použít specializované programy, které jsou však často drahé a ne na všech pracovištích dostupné. Z těchto důvodů budeme zde a v dalších tématech používat tabulkový kalkulátor. Rozšířené jsou například následující tabulkové kalkulátory: • Microsoft Excel, který je součásti distribuce Microsoft Office. Tento program je rozšířený, vyžaduje však placenou licenci. • OpenOffice.org Calc, který je součásti distribuce OpenOffice.Org. Tento program je možno zdarma stáhnout na jeho domovské stránce http://www.openoffice.org/ a nainstalovat pro Vaši práci. Úvodní poznámky k použití těchto tabulkových kalkulátorů najdete v následujícím Odseku 3.2. Odsek 1.3 definuje četnost jevu a s ní související pojmy. Grafické znázornění dat je diskutováno v Odseku 3.3. 17
3.2. TABULKOVÝ KALKULÁTOR
3.2. Tabulkový kalkulátor
Obrázek 3.1. Tabulkový kalkulátor. Po otevření tabulkového kalkulátoru se objeví tabulka pravidelně rozmístěných prázdných buněk. Pro porovnání je nalevo OpenOffice.org Calc a napravo Microsoft Excel. Tento i další náhledy jsou dostatečně podrobné i pro detailní prohlížení. V případě nutnosti si proto stránky s náhledy při prohlížení zvětšete.
Obrázek 3.2. Zápis do tabulkového kalkulátoru. Kliknutím na libovolnou buňku se ta zvýrazní okrajem a lze do ní psát přímo, nebo alternativně do textového pole v záhlaví aplikace, které též reprezentuje obsah zvolené buňky.
18
3.2. TABULKOVÝ KALKULÁTOR
Obrázek 3.3. Sestavení tabulky. Tabulka obvykle vyplňuje obdélníkovou oblast. Zde byly zadány pracovní dny v týdnu a první číselný údaj - o prodeji rohlíků v místním obchodě.
Obrázek 3.4. Výpočty. Údaje zadávané do tabulky jsou již úplné. Byl doplněn i nadpis. Cílem bude nyní vypočítat celkový počet rohlíků prodaných v daném týdnu. Výsledek má být umístěn pod sloupcem dat příslušného týdne. Že se obsah buňky nebude zadávat přímo, ale pomocí výpočtu, je určeno zadáním úvodního rovnítka v obsahu buňky, za kterým následuje výpočet.
19
3.2. TABULKOVÝ KALKULÁTOR
Obrázek 3.5. Odkaz na buňku. Zadat hodnotu buňky do výpočtu lze kliknutím na danou buňku. Místo její hodnoty se v zadávaném vzorci objeví odkaz na ní: zde se jedná o buňku ve sloupci B a na řádku 4, tedy o buňku B4.
Obrázek 3.6. Dokončení vzorce. Zde je již dokončeno přičtení všech údajů ve sloupci. K dokončení je třeba odeslat obsah buňky odřádkování. Výsledek ke viditelný v následujícím obrázku.
20
3.2. TABULKOVÝ KALKULÁTOR
Obrázek 3.7. Výsledek výpočtu. Po odeslání výpočtu ukazuje příslušná buňka výsledek výpočtu.
Obrázek 3.8. Funkce. Pro výpočty je možno použít i funkce. Některé přijímají jako své argumenty rozsahy zadávané první a poslední buňkou rozsahu spojených dvojtečkou. Zde se jedná o rozsah B4:B8. Samotný rozsah lze do funkce zadat stisknutím na první buňku, tažením za stálého držení a uvolněním stisku na poslední buňce rozsahu.
21
3.3. VYKRESLENÍ GRAFU
22
Obrázek 3.9. Prohlídka vzorce. Pokud kliknete na již spočtenou buňku, ukazuje stále výsledek, ale v textovém řádku v záhlaví se ukazuje vzorec, podle kterého byla hodnota spočtena. Tak se můžete kdekoliv přesvědčit, zda se jedná o zadanou či spočtenou hodnotu a případně, ze kterých buněk byl výsledek spočítán. Tabulkový kalkulátor s výsledky zachycenými tímto způsobem proto nepotřebuje zvláštního komentáře k tomu, jak byly výsledky spočítány, protože se to v něm dá jednoduše dohledat.
3.3. Vykreslení grafu Graf lze snadno vložit pomocí zvýraznění dat, které se mají znázornit a volbou vhodného typu grafu z nabízených možností. OpenOffice.org Calc
3.3. VYKRESLENÍ GRAFU
Obrázek 3.10. Vložení grafu v OpenOffice.org Calc. Tlačítko vložení grafu je v obrázku zvýrazněno šipkou. Graf překrývá tabulku. Po jeho vytvoření ho však lze posunout a změnit jeho velikost posunutím jeho hranice.
23
3.3. VYKRESLENÍ GRAFU
Microsoft Excel
Obrázek 3.11. Vložení grafu v Microsoft Excel: tlačítko vložení grafu. Tlačítko vložení grafu je v obrázku zvýrazněno šipkou, stejně tak jako záložka Vložení, na které se nachází.
Obrázek 3.12. Vložení grafu v Microsoft Excel. Tlačítko vložení grafu je v obrázku zvýrazněno šipkou.
24
3.3. VYKRESLENÍ GRAFU
Obrázek 3.13. Vykreslení více sloupců. Výběrem více sloupců lze data v grafu porovnat. Zvýrazněním nejen dat, ale i popisů se tyto popisy objeví i v grafu. Pro porovnání je opět nalevo OpenOffice.org Calc a napravo Microsoft Excel.
Obrázek 3.14. Volba druhu grafu. Výběr vhodného typu grafu může poukázat na různé skutečnosti v datech. Zde zvolený koláčový graf nevystihuje počty prodaných rohlíků ale poměrnou výši prodeje v jednotlivých dnech týdne.
25
3.3. VYKRESLENÍ GRAFU
26
Obrázek 3.15. Formát výsledku. Typickým formátem pro ukládání výsledků je .ods pro OpenOffice.org Calc a .xslx pro Microsoft Excel. Současné verze těchto programů však dokáží otevřít soubory typické pro druhý tabulkový kalkulátor a též v nich ukládat. nalevo je soubor vytvořený aplikací Microsoft Excel otevřený v OpenOffice.org Calc a napravo je soubor vytvořený aplikací OpenOffice.org Calc otevřený v Microsoft Excel. Shrnutí 3. Elementární statistické zpracování zahrnuje záznam dat, výpočet četností a grafické znázornění. K tomuto účelu lze použít tabulkový kalkulátor. Při znázornění získaných údajů je třeba zvolit vhodný druh grafu. Pohledem na graf můžeme rychle odhadnout charakter údajů a rozhodnout o dalším zpracování. Rovněž tak rychle odhalíme některé nejhrubší nesrovnalosti v datech.
KAPITOLA 4
Popisná statistika: Zpracování dat pomocí statistických programů. Klíčová slova: placené programy, freeware Abstrakt: Podstatnější statistické analýzy usnadňují specializované statistické programy.
4.1. Úvod Tabulkové kalkulátory mohou zachytit, znázornit a jednoduchými způsoby zpracovat statistické údaje. Jejích použití na složitější výpočty je však velmi pracné, neefektivní a v takovém případě se vyplatí použít specializované statistické programy. 4.2. Statistické programy Zde se omezíme jen na výčet některých běžně používaných programů: • SPSS je program rozsáhle používaný ve společenských vědách. Je flexibilní a umožňuje výpočty nejrůznějším způsobem upravovat. V základním použití je ovšem schopen volit rozumné postupy zvlášť, především na základě druhu dat a výstupy novějších verzí jsou připraveny na zkopírování výsledků přímo do publikací. Zda to vždy dává smysl, je nakonec ovšem na zodpovědnosti uživatele. Alternativou je program PSPP, který je k mání zdarma. • STATISTICA je program používaný jak v společenských, tak v technických vědách. • SAS je program často používaný pro potřeby podniků, pro ekonomické analýzy a v technických vědách. • R (open source, freeware) je v čím dál větší oblibě u profesionálních statistiků pro rozsáhlé možnosti přizpůsobení. Zde je však většinou nutno programovat. Programy SPSS, STATISTICA, či SAS nejsou laciné. Proto stojí za to zmínit, že existují i další, méně často používané programy, které jsou k mání zdarma, např Gretl nebo SOFA. Shrnutí 4. Pro podstatnější statistické analýzy je rozumné opatřit si specializovaný program podle preferencí, tradicí pracoviště a finančních možnosti. Pro nepříliš komplexní úlohy poslouží kterýkoliv z předních programů, s každým je však třeba se pro práci podrobněji seznámit a naučit se ho užívat.
27
KAPITOLA 5
Regresní analýza Klíčová slova: Regrese, součtový model, metoda nejmenších čtverců, lineární regrese, polynomiální regrese. Abstrakt: Regrese prokládá datovými body co nejlépe graf funkce daného tvaru. Používaný postup je tzv. metodou nejmenších čtverců. Standardní výpočty jsou součástí vybavení současných tabulkových kalkulátorů.
5.1. Úvod Hromadný jev může být spojen s několika náhodnými proměnnými zároveň. Například se u malých kojenců můžeme zajímat o jejích věk v týdnech, o jejích tělesnou výšku. Každý z nich bude v sobě spojovat tyto údaje. Očekáváme, že tyto veličiny jsou na sebe do jisté míry vázány: starší miminko bude spíše vyšší (tedy: spíše delší, když leží). Zároveň očekáváme, že reálná data nebudou vyhovovat nějaké přísně dodržené funkční závislosti, že stejně stará dítka nebudou stejně velká. Obě tato očekávání vyjadřuje regresní model. Ten předpokládá, že pozorované veličiny x a y jsou dílem funkční závislosti y = f (x) reprezentované grafem funkce, ale že tato závislost narušené spolupůsobením náhodných vlivů . Velmi jednoduchý model tohoto druhu je součtový model (též nazývaný aditivní model), který předpokládá, že existuje vhodná funkce f a že platí pro každou dvojici dat [xn , yn ]: yn = f (xn ) + n ,
(45)
kde n vyjadřuje působící náhodné vlivy. Cílem regrese je na základě naměřených dat sestávajících z dvojic [xn , yn ] najít (s přihlédnutím k podstatě věci) takovou funkci f , která by nejlépe vystihovala naměřená data. Tato je formulovaná v Odseku 5.2. 5.35.4
5.2. Regresní úloha a metoda nejmenších čtverců Data regresní úlohy sestávají z dvojic [xn , yn ], kde n = 1, 2, 3, . . . , N představuje číslování jednotlivých případů. Graficky lze každou dvojici vyjádřit jako bod s příslušnými souřadnicemi, viz Obrázek 5.1 28
5.2. REGRESNÍ ÚLOHA
29
Obrázek 5.1. Bodový graf. Data jsou jednotlivé dvojice čísel [x1 , y1 ], [x2 , y2 ], [x3 , y3 ], . . . , [xN , yN ] a každé dvojici [xn , yn ] odpovídá bod s x-ovou souřadnicí xn a y-ovou souřadnicí yn . Pro tato data chceme nalézt vhodný funkční vztah y = f (x), který by je co nejlépe vystihoval. Geometricky to znamená, že graf funkce f má co nejlépe vystihovat rozložení daných datových bodů. Budeme požadovat • aby funkce f měla stanovený tvar závislý jen na několika číslech β0 , β1 , . . . , βK , tzv. parametrech. V dalším proto budeme uvádět nejen závislost funkce f nejen na nezávislé proměnné x, ale i na parametrech β0 , β1 , . . . , βK : f (x; β0 , β1 , . . . , βK )
(46)
Zvolený tvar funkce f vychází ze znalostí o daném jevu (např., že vztah mezi x a y má být lineární) a případně z požadavku volit co nejjednodušší přijatelnou funkci. • aby byl graf funkce f datovým bodům co nejblíže. Máme-li k dispozici funkci f (x; β0 , β1 , . . . , βK ) se zvolenými parametry β0 , β1 , . . . , βK , můžeme lehce vyjádřit odchylku datového bodu [xn , yn ] od grafu funkce. Jednoduše do funkce dosadíme za x naměřenou hodnotu xn a podíváme se na odchylku takto vypočtené hodnoty od naměřené hodnoty yn : f (xn ; β0 , β1 , . . . , βK ) − yn .
(47)
Nabízí se, aby blízkost funkce ke všem datovým bodům najednou byla vyjádřena součtem všech odchylek. To však není rozumné, protože budou případně některé odchylky kladné a jiné záporné a dojde k jejích částečnému vyrušení. To by se dalo napravit tím, že by se sčítaly absolutní hodnoty odchylek. Ty by byly všechna kladné a k jejích vzájemnému vyrušení by nedocházelo. V praxi se však ukazuje, že se s tímto výrazem špatně počítá.
˘ 5.3. VÝPOČET REGRESNÍCH KOEFICIENTO
30
Další jednoduchou možností je sčítat druhé mocniny odchylek (neboli, čtverce odchylek), čímž dostaneme tzv. součet čtverců S: N X S= (f (x; β0 , β1 , . . . , βK ) − yn )2 . (48) n=1
Tento součet tedy charakterizuje, jak dobře křivka daná grafem funkce f (x; β0 , β1 , . . . , βK ) vystihuje data. Čím je menší, tím lépe. Tzv. metoda nejmenších čtverců nyní spočívá ve volbě parametrů β0 , β1 , . . . , βK tak, aby hodnota S byla minimální. 5.3. Výpočet regresních koeficientů. Lineární a polynomiální regrese Tento odsek uvádí pouze pro úplnost výpočty pro řešení regresní úlohy. Pro jejích praktické provedení viz Odsek . Pro zvolený tvar funkce f a pevně daným souborem dat závisí součet čtverců S již jen na parametrech β0 , β1 , . . . , βK : S = S(β0 , β1 , . . . , βK ).
(49)
V minimu funkce S(β0 , β1 , . . . , βK ) musí být veškeré derivace podle proměnných β0 , β1 , . . . , βK být nulové, ∂S ∂S ∂S =0 =0 ...... = 0, (50) ∂β0 ∂β1 ∂βK čímž jsme dostali K rovnic pro K neznámých β0 , β1 , . . . , βK . Vyřešením těchto rovnic dostaneme β0 , β1 , . . . , βK a tím i přesnou podobu funkce f (x; β0 , β1 , . . . , βK ) a jejího grafu. 5.3.1. Lineární regrese. Lineární funkce, jejíž grafem je přímka, má tvar y = β1 x + β0 ,
(51)
a závisí poze na dvou parametrech β0 , β1 . Součet čtverců (48) je potom S=
N X
(β1 xn + β0 − yn )2 .
(52)
n=1
a vede podle (50) na rovnice ∂S =0 ∂β0
∂S = 0. ∂β1
(53)
Jejích řešením obdržíme PN β0 = y¯ − β1 x¯ kde průměry x¯ a y¯ jsou dány jako PN xn x¯ = n=1 N
β1 =
(xn − x¯)(yn − y¯) PN ¯)2 n=1 (xn − x
n=1
PN y¯ =
n=1
N
yn
(54)
(55)
5.4. VÝPOČET REGRESE V TABULKOVÉM KALKULÁTORU
31
5.3.2. Polynomiální regrese. Polynom, jejíž graf je obecně křivočarý, má tvar y = βp xp + . . . + β2 x2 + β1 x + β0 ,
(56)
a závisí poze na dvou parametrech β0 , β1 . Součet čtverců (48) je potom S=
N X
2 βp xpn + . . . + β2 x2n + β1 xn + β0 − yn .
(57)
n=1
a vede podle (50) na rovnice ∂S =0 ∂β0
∂S =0 ∂β1
∂S = 0. ∂βp
......
(58)
což je soustava p lineárních rovnic pro neznámé β0 , β1 , . . . , βK . N X
β0
1 + β1
n=1
β0 β0
N X
xn + β1
N X
x2n
+ . . . + β0
N X
n=1
n=1
N X
N X
N X
x2n + β1
xin
+ β1
n=1
xi+1 n
xpn
+ β1
N X n=1
xpn
x1+p n
+ . . . + β0
N X
−
+ . . . + β0
yn = 0
(59)
N X
xn y n = 0
(60)
x2n yn = 0
(61)
.. .
(62)
xin yn = 0
(63)
.. .
(64)
xpn yn = 0
(65)
n=1
x2+p − n
N X n=1
xni+p
−
N X n=1
N X n=1
n=1
xp+1 n
−
N X n=1
n=1
n=1
n=1
N X
x3n + . . . + β0
n=1
N X
N X n=1
n=1
N X
β0
xn + . . . + β 0
n=1
n=1
β0
N X
x2p n
−
N X n=1
Jejích řešením obdržíme β0 , β1 , . . . , βK . Metoda ovšem připouští i jakékoliv jiné regresní funkce, než polynomiální. 5.4. Výpočet regrese v tabulkovém kalkulátoru Výpočet regrese metodou nejmenších čtverců je pracný a přitom zcela standardní. Je proto rozumné, že pro nejběžnější regresní funkce jsou tyto výpočty součástí vybavení tabulkových kalkulátorů. Zde uvedeme krátký návod pro výpočet regrese v Microsoft Excel (ve všech obrázcích nalevo) a v OpenOffice.org Calc (ve všech obrázcích napravo). Obrázky mají dostatečné rozlišení, aby bylo možno zřetelně vidět podrobnosti. V případě potřeby si je volbou zobrazení zvětšete. Začínáme jednoduchou tabulkou dat:
5.4. VÝPOČET REGRESE V TABULKOVÉM KALKULÁTORU
Obrázek 5.2. Data. Každý řádek představuje jednu dvojici dat [xn , yn ].
Obrázek 5.3. Výběr sloupců ke zpracování. Sloupce vybereme včetně záhlaví pro označení proměnných.
32
5.4. VÝPOČET REGRESE V TABULKOVÉM KALKULÁTORU
Obrázek 5.4. Bodový graf. Volba grafu je naznačena šipkou pro Microsoft Excel vlevo a pro OpenOffice.org Calc vpravo.
Obrázek 5.5. Výsledný graf. Data [xn , yn ] jsou v hotovém bodovém grafu vykreslena body (znázorněnými modrými značkami).
33
5.4. VÝPOČET REGRESE V TABULKOVÉM KALKULÁTORU
Obrázek 5.6. Regrese. Výpočet regrese je možno zvolit kliknutím pravým tlačítkem myši na libovolný datový bod a výběrem naznačeným v obrázku šipkou pro Microsoft Excel vlevo a pro OpenOffice.org Calc vpravo. V OpenOffice.org Calc je třeba ovšem případně nejdříve dvojitým kliknutím uvést graf do režimu na úpravu.
Obrázek 5.7. Nastavení regrese. Nastavte druh regrese (zde byla zvolena lineární regrese) a případně zaškrtněte zobrazení rovnice výsledného grafu, jak je znázorněno šipkami pro Microsoft Excel vlevo a pro OpenOffice.org Calc vpravo. Pro Microsoft Excel, který obvykle graf vykreslí jen v rozsahu dat, lze nastavit přesah za data pro účely extrapolace, což je v obrázku znázorněno příslušnou šipkou vlevo.
34
5.4. VÝPOČET REGRESE V TABULKOVÉM KALKULÁTORU
Obrázek 5.8. Výsledek regrese. Výsledek regresní analýzy je zobrazen pro Microsoft Excel vlevo a pro OpenOffice.org Calc vpravo. Zobrazený vzorec je možno v případě potřeby použít pro výpočet bodů ležících na regresní křivce, a to i mimo rozsah zobrazený v grafu.
35
5.4. VÝPOČET REGRESE V TABULKOVÉM KALKULÁTORU
36
Shrnutí 5. Regrese vychází z regresního modelu. Ten předpokládá, že pozorované veličiny x a y jsou dílem funkční závislosti y = f (x) reprezentované grafem funkce, ale že tato závislost narušené spolupůsobením náhodných vlivů . Jednoduchý model tohoto druhu je součtový model (též nazývaný aditivní model), který předpokládá, že existuje vhodná funkce f a že platí pro každou dvojici dat [xn , yn ]: yn = f (xn ) + n ,
(66)
kde n vyjadřuje působící náhodné vlivy. Regrese se pokouší dvojicemi dat proměnných x a y znázorněnými body co možná nejlépe proložit graf funkce ve tvaru tzv. regresní funkce y = f (x; β0 , β1 , . . . , βK ),
kde β0 , β1 , . . . , βK jsou regresní parametry.
(67)
Jak moc se regresní křivka odchyluje od datových bodů [x1 , y1 ], [x2 , y2 ], [x3 , y3 ], . . . , [xN , yN ], je vyjádřenou součtem čtverců: S(β0 , β1 , . . . , βK ) =
N X
(f (x; β0 , β1 , . . . , βK ) − yn )2 .
(68)
n=1
Cílem regrese je potom takové nastavení regresních parametrů β0 , β1 , . . . , βK , při kterém součet čtverců (68) je nejmenší (minimální). Postup těchto výpočtů nazývaných metodou nejmenších čtverců je pro nejběžnější regresní funkce součástí současných tabulkových kalkulátorech. Podle zvolené regresní funkce rozlišujeme • lineární regresi, y = β1 x + β0 ,
(69)
y = βp xp + . . . + β2 x2 + β1 x + β0 ,
(70)
• polynomiální regresi, • a další druhy regrese. Volba regresní funkce se provádí na základě znalosti modelů zkoumaných dat, popřípadě snahou použít co nejjednodušší přijatelnou volbu.
KAPITOLA 6
Spolehlivost a platnost Klíčová slova: teorie skutečného skóre, systematická chyba, náhodná chyba, spolehlivost, korelační koeficient, Cronbachovo α, validita Abstrakt: Jak dobrá data poskytuje dotazníkové šetření lze prošetřit posouzením jeho spolehlivosti a jeho platnosti. Spolehlivost je vlastnost testu dávat za stejných podmínek stejné výsledky. Platnost vjadřuje shodu zjišťovaného s tím, co jsme chtěli zjistit. Jednoduchým teoretickým rámcem je teorie skutečného skóre.
6.1. Úvod Dotazníkové šetření (test) může poskytnout řadu údajů. Jak užitečné tyto údaje jsou, závisí nejen na schopnosti je formálně zpracovat, ale především na tom, jak jsou data dobrá ve vystižení zkoumané situace (což lze opět zčásti zkoumat formalizovanými metodami). Klíčová je tzv. spolehlivost, která vystihuje opakovatelnost a tedy objektivní charakter zjištění, a tzv. platnost (utilita), která vystihuje to, že prováděná měření skutečně zjisťují to, co chceme zjistit. Na oba tyto pojmy, spolehlivost resp. validitu lze pohlížet z různých hledisek, viz Odsek 6.3 resp. Odsek 6.4. Vytah spolehlivosti a validity je yn8yorn2n v Odseku 6.5. Jedno možné teoretické zázemí k těmto úvahám poskytuje teorie skutečného skóre měření, která je nejdříve diskutována v Odseku 6.2. 6.2. Teorie skutečného skóre měření Teorie skutečného skóre měření vychází z toho, že výsledek xn (též nazývaný skóre) dosažený respondentem n v testu či dotazníkovém šetření je tvaru xn = tn + xn ,
(71)
kde tn je tyv. skutečné skóre respondenta charakterizující idealizovaně jeho vnitřní stabilní, krátkodobě neměnné dispozice pro získání výsledku a xn je chyba při zjisťění pravého skóre. Ani pravé skóre Tn , ani náhodnou chybu xn nemůžeme přímo zjistit, pozorujeme pouze xn . Chybu xn můžeme dále rozdělit na stálou systematickou chybu sn a proměnlivou, náhodnou chybu rn . Do jisté míry je potom proměnlivá, náhodná chyba rn zdrojem obtíží se spolehlivostí, zatímco systematická chyba sn může být příčinnou obtíží s validitou. Systematickou chybu můžeme omezit rozborem vlivů na výsledek testu, např. předběžným během testu a jeho rozborem s těmi, kdo test podstoupili. Dále můžeme systematickou chybu zeslabit použitím několika alternativních nástrojů (otázek) té samé položky. Předpokládejme tedy, že se toto podařilo a zbývá již jen náhodná chyba xn ≡ xs , po které často 37
6.3. SPOLEHLIVOST TESTU
uvažujeme, že je na tn nezávislou. Pro rozptyl nezávislých veličiny potom platí V ar(X) = V ar(T ) + V ar()
38 1
: (72)
6.3. Spolehlivost testu Spolehlivost vyjadřuje opakovatelnost stejného pokusu se stejným výsledkem. Podle (72) jí lze vyjádřit jako tu část z celkového rozptylu V ar(X), která je dány rozptylem ar(T ) skutečného skóre V ar(T ), tj jako VV ar(X) . Bohužel je skutečné skóre a jeho rozptyl přímo nepozorovatelné. Pro svou stálost oproti náhodným chybám ho však lze vyjádřit jako společnou část v rozptylech opakovaného testu s výsledky X1 , X2 , totiž jako jejích kovarianci2. Pokud navíc X1 , X2 mají stejný rozptyl, jak by i měly, platí spolehlivost =
Cov(X1 , X2 ) Cov(X1 , X2 ) V ar(T ) p = =p . V ar(X) V ar(X) V ar(X1 ) V ar(X2 )
(73)
Spolehlivost tedy obecně vystihuje normalizovaná kovariance (Pearsonův korelační koeficient): Cov(X, Y ) rX,Y = p , V ar(X)V ar(Y )
(74)
který leží mezi -1 a +1, přičemž kladná hodnota udává míru spolehlivosti, zatímco záporná hodnota je spíše anomální, neodpovídající teorii skutečného skóre. Na tomto základě lze spolehlivost z různých pohledů zkoumat a kvantifikovat: • Spolehlivost mezi pozorovateli či posuzovateli - jak dalece souhlasí subjektivní hodnocení různých rozhodčích či posuzovatelů stejné události. • Spolehlivost opakovaného testu (test-retest) - jak dalece souhlasí výsledky opakovaného, stejného testu pri stejných respondentech. Přitom mezi testy nesmí být příliš velká prodleva, aby respondenty bylo možno považovat za stejné, nedotčené osobním vývojem či významnými událostmi. • Spolehlivost paralelních dotazníků - jak dalece souhlasí výsledky dvou paralelně, stejnou skupinou respondentů současně vyplněných dotazníků údajně měřících tutéž veličinu. 1
Vskutku, pokud veličiny X, Y jsou nezávislé, platí Cov(X, Y ) = 0,
a tedy V ar(X + Y ) = V ar(X) + 2 Cov(X, Y ) +V ar(Y ) = V ar(X) + V ar(Y ). | {z } =0
2
Pokud X1 = T + 1 , X2 = T + 2 , kde chyby 1 , 2 jsou nezávislé na T i na sobě navzájem, potom Cov(X1 , X2 ) = Cov(T, T ) +Cov(1 , T ) + Cov(T, 2 ) + Cov(1 , 2 ), | {z } =V ar(T )
kde poslední tři členy jsou s důvodu nezávislosti chyb 1 , 2 nulové.
6.3. SPOLEHLIVOST TESTU
39
• Vnitřní spolehlivost - jak dalece souhlasí odpovědi na podotázky testu, které společně proměřují stejný pojem. Spolehlivost ve vnitřní konzistenci testu, který se v k otázkách snaží z různých pohledů ptát na totéž, vystihuje P tzv. Cronbachovo α pro k položek s výsledky Xi , i = 1, . . . , k a celkovým výsledkem ki=1 Xi : ! Pk V ar(X ) k i 1 − i=1Pk . (75) α= k−1 V ar( i=1 Xi ) Tato veličina odpovídá průměrné spolehlivosti mezi dvěma skupinami otázek vzniklých rozdělením daných otázek libovolným způsobem na dvě půlky. Fungování Cronbachova α si lze uvědomit pomocí následujících extrémních případů: • Pokud výsledky Xi jsou nezávisle, platí k k X X V ar( Xi ) = V ar(Xi ) i=1
α = 0.
(76)
i=1
• Pokud výsledky Xi ≡ X jsou zcela v souladu, identicky rovné X, platí k X V ar( X) = V ar(kX) = k 2 V ar(X)
α = 1.
i=1
Cronbachovo α menší než 0.5 0.5 - 0.6 0.6 - 0.7 0.7 - 0.8 0.8 - 0.9 0.9 - 1.0
Orientační posouzení nepřijatelné chabé zpochybnitelné dobré výborné příliš dobré: některá otázka bude nejspíše nadbytečná a je vhodné jí vypustit. Cronbachovo alpha lze uměle zvýšit opakováním stejné otázky, což není vhodné.
Tabulka 6.1. Orientační posouzení hodnot Cronbachova α
(77)
6.5. VZTAH SPOLEHLIVOSTI A PLATNOSTI
40
6.4. Platnost Platnost (validitu) lze zkoumat z různých pohledů, podle kterých můžeme mluvit o následujících upřesněních: • Vnější validita - zda výsledky zkoumání lze zobecnit na venek, i mímo testovanou skupinu. • vnitřní validita - zda výsledky zkoumání prokazují nebo vyvrací příčinné souvislosti mezi zkoumanými jevy, viz [Dis93]. • Konstruktová validita - zda naměřené indikátory vystihují pojem (konstrukt), který jsme měli na mysli. • Obsahová validita - zda používané nástroje skutečně měří v té obsahové oblasti, kterou máme na mysli. • Kritériová validita - zda operacionalistické zjištění či proměření daného jevu je relevantní v konfrontaci zkoumané situace nebo jedince s daným kritériem. Rozeznáváme následující: – Prediktivní validita - zda test předpovídá výsledek v budoucím poměřování dle kriteria. (Např., zda test studijních předpokladů předpovídá úspěch v následném studiu). – Souběžná validita - zda měření dokáže rozlišit podskupiny v testované populaci, které by dle teoretických předpokladů mělo být schopno rozlišit. – Konvergentní validita - zda daný nástroj dává totéž jako jiné nástroje, které by teoreticky měly dávat něco podobného. • a další aspekty validity (platnosti). Tyto pojmy se v porovnání se spolehlivostí vesměs těžko kvantifikují. Navíc je v literatuře jako celku mírný nepořádek v tom, která validita je jak pojmenovaná, takže je vhodné se u každého zdroje přesvědčit o zamýšleném významu té či oné validity.
6.5. Vztah spolehlivosti a platnosti Spolehlivost a platnost charakterizují, jak dobrá jsou data, která zpracováváme. Zatímco spolehlivost vystihuje opakovatelnost, tj. jak těsně jsou jednotlivé stejným respondentem za stejných podmínek získané výsledky u sebe, platnost se až tak nezajímá o rozptyl výsledků, jako o to, zda výsledky odpovídají našemu cíli, záměru, či teoretickému pojmu, viz Obrázek 6.1.
6.5. VZTAH SPOLEHLIVOSTI A PLATNOSTI
41
Obrázek 6.1. Spolehlivost a platnost: Pokud cíl našeho dotazníku znázorníme terčem a opakované testy či otázky jednotlivými zásahy, můžeme karikaturou vyjádřit možné kombinace (ne)spolehlivosti a (ne)platnosti. Shrnutí 6. Teorie skutečného skóre měření vychází z toho, že výsledek xn (též nazývaný skóre) dosažený respondentem n v testu či dotazníkovém šetření je tvaru xn = tn + xn ,
(78)
kde tn je tyv. skutečné skóre respondenta charakterizující idealizovaně jeho vnitřní stabilní, krátkodobě neměnné dispozice pro získání výsledku a xn je chyba při zjisťění pravého skóre. Spolehlivost vyjadřuje opakovatelnost stejného pokusu se stejným výsledkem. Rozlišujeme • Spolehlivost mezi pozorovateli či posuzovateli - jak dalece souhlasí subjektivní hodnocení různých rozhodčích či posuzovatelů stejné události. • Spolehlivost opakovaného testu (test-retest) - jak dalece souhlasí výsledky opakovaného, stejného testu při stejných respondentech. Přitom mezi testy nesmí být příliš velká prodleva, aby respondenty bylo možno považovat za stejné, nedotčené osobním vývojem či významnými událostmi. • Spolehlivost paralelních dotazníků - jak dalece souhlasí výsledky dvou paralelně, stejnou skupinou respondentů současně vyplněných dotazníků údajně měřících tutéž veličinu. • Vnitřní spolehlivost - jak dalece souhlasí odpovědi na podotázky testu, které společně proměřují stejný pojem. Spolehlivost charakterizuje korelační koeficient mezi porovnávanými výsledky. Vnitřní spolehlivost charakterizuje tzv. Cronbachovo α. V obou případech je vysoká spolehlivost charakterizována hodnotou blízko +1. Platnost (utilita) charakterizuje to, že prováděná měření skutečně zjisťují to, co chceme zjistit.
KAPITOLA 7
Faktorová analýza Klíčová slova: Explorativní faktorová analýza, konfirmativní faktorová analýza, analýza hlavních komponent, analýza hlavních faktorů Abstrakt: Faktorová analýza popisuje mnohorozměrná statistická data níže-rozměrnými složkami (komponentami či faktory), čímž situaci zjednodušuje a třídí. Explorativní faktorová analýza bez předběžných znalostí a představ prozkoumává, zda a jak se tato myšlenka může na získaná data aplikovat. Konfirmativní analýza již vychází z teoretického modelu obsahujícího několik faktorů a předpokladů o jejích vzájemným vztahu a vztahu k daty a snaží se potvrdit, že zvolená teorie je s daty slučitelná, konzistentní.
7.1. Úvod Poloha mnohorozměrných (n-rozměrných) dat je celkově popsána jejích průměrem. Často je potom zajímavé pochopit strukturu odchylek dat od tohoto průměru a jeho příčiny. Samotná velikost odchylek jednotlivých složek xi veličiny x = [x1 , x2 , . . . , xn ] je v každém rozměru i ∈ {1, 2, . . . , n} popsaná příslušným rozptylem V ar(xi ). Tyto rozptyly tvo59 diagonálu kovarianční matice Cov(x, x), která navíc mimo diagonálu obsahuje kovariance mezi jednotlivými složkami, tedy informace o statistických závislostech mezi jednotlivými složkami. Faktorová analýza se snaží uchopit a pochopit strukturu odchylek dat od průměru, a to především analýzou právě kovarianční matice Cov(x, x). Průzkumné ohledání kovarianční matice, tzv. explorativní faktorová analýza vychází vedle přímé inspekce matice Cov(x, x) buď ze snahy najít ty směry, ve kterých leží největší rozptyl (a odhlídnout případně od těch méně proměnlivých, méně zajímavých směrů; tzv. analýza hlavních komponent) nebo ze snahy pochopit strukturu korelací v matici Cov(x, x) na základě malého počtu tzv. faktorů F1 , . . . Fk , kterýchžto hodnoty se do jednotlivých složek xi měřených dat promítají podle lineárních vztahů (což lze vyšetřit pomocí tzv. analýzy společných faktorů): xi =
k X
`ij Fj + ei
i = 1, 2, . . . , n.
(79)
j=1
Faktory jsou přitom skryté, nepozorovatelné veličiny, které teoreticky předpokládáme a usuzujeme na ně na základě naměřených dat. 42
7.2. EXPLORATIVNÍ FAKTOROVÁ ANALýZA
43
Pokud o bychom naopak vycházeli z faktorů jako základních teoretických pojmů, ze struktury vztahů mezi nimi a z předpokladů o tom, jak se tyto faktory promítají do měřených dat, můžeme tuto teorii aplikovat a prověřit tzv. konfirmativní faktorovou analýzou. 7.2. Explorativní faktorová analýza 7.2.1. Analýza hlavních komponent. Analyzuje celkovou varianci beze zbytku. Cílem analýzy hlavních komponent je zjistit, ve kterých směrech jsou data nejvíce rozptýlená a ve kterých směrech je naopak rozptyl malý (takové vedlejší směry je možno případně pominout a snížit tak rozměr zkoumaného problému). Předpokladem analýzy hlavních komponent je, že jednotlivé složky dat jsou souměřitelné (mající stejné jednotky, např. fyzikální jednotky nebo stupně souhlasu či nesouhlasu respondenta). Jen tak lze velikosti rozptylů v různých směrech porovnávat. Dále se předpokládá, že má smysl chápat n složek dat jako na sebe kolmé složky v n-rozměrném prostoru. Nejpodstatnější část rozptylu pak nemusí ležet ve směru žádné jednotlivé složky, ale případně v nějakém obecném směru. Tento směr a rozptyl v tomto směru představuje hlavní komponentu. Pokud všechna data pravoúhle promítneme do přímky procházející jejích střední hodnotou, můžeme spočíst rozptyl jejích jednorozměrných průmětů. Hlavní komponentu potom najdeme tak, že je to přímka, pro kterou je příslušný rozptyl největší. Skutečně tedy charakterizuje směr a velikost nejvýznamnější složky rozptylu. Po identifikaci hlavní komponenty se lze ovšem ptát na další významné směry. Druhou nejvýznamnější komponentu lze nalézt jako hlavní komponentu z dat, které byly promítnuty na prostor kolmý k původní (a již vyšetřené) hlavní komponentě. Po identifikaci první a druhé nejvýznamnější komponenty lze v datech promítnutých na podprostor kolmý na obě komponenty obdobně identifikovat třetí nejvýznamnější komponentu atd. Tento zdlouhavý postup dává jednotlivým komponentám jasný význam. Pro výpočet se však hodí jiný postup dávající stejný výsledek kratším výpočtem: Směry a rozptyly všech komponent lze získat jako vlastní vektory a vlastní hodnoty kovarianční matice Cov(x, x). Matice Cov(x, x) je symetrická a pozitivně definitní a je proto zaručené, že všechny její vlastní vektory jsou na sebe kolmé a mají nezáporná vlastní čísla. Směr s největším vlastním číslem odpovídá hlavní komponentě, směr s druhým největším vlastním číslem odpovídá druhé nejvýznamnější komponentě, atd.
7.2.2. Analýza společných faktorů. Analýza společných faktorů (též nazývaná analýza hlavních faktorů) analyzuje jen komunalitu (kovariance svazující jednotlivé rozměry pozorování), přičemž jedinečnost (tj. ta část variance, která je charakteristická jen pro daný rozměr) zůstane faktory nevysvětlená. Jedinečnost přitom vyjadřuje jak chybu v měření tohoto rozměru, tak určitý svébytný, jedinečný obsah této veličiny, nesdílený (a tak nekorelovaný s) jiným rozměrem. Těžištěm tohoto přístupu je odlišit to, co mají některé rozměry (složky) dat společné od toho, co je pro daný rozměr jedinečné, jak je to charakterizováno korelačními koeficienty. V tom nezáleží na absolutní velikosti kovariancí. Ty se v metodě nijak nevyužívají a není
7.3. KONFIRMATIVNÍ FAKTOROVÁ ANALýZA
44
proto nutné, aby jednotlivé rozměry byly striktně souměřitelné - rozptyl je v každém směru normalizovaný na hodnotu 1. Analýza společných faktorů lze chápat jako klastrovou analýzu rozměrů založenou na kovarianční matici Cov(x, x). 7.3. Konfirmativní faktorová analýza Vychází zpravidla z toho, že jednotlivé rozměry pozorování jsou uzpůsobeny jako měřící nástroje faktorů, které jsou po skupinkách svázány s jednotlivými teoreticky předpokládanými faktory. Rozměry uvnitř jedné skupinky by mezi sebou měly mít velké korelační koeficienty (v nouzi nejméně 0.5, ale raději 0.8 až 0.9) zatímco mezi rozměry náležícími do různých skupinek, příslušejících k různým, nezávislým faktorům by korelační koeficienty měly být malé, pokud požadujeme nezávislost jednotlivých faktorů (což není vždy nutné). Pro vnitřní konzistenci indikátorů příslušejících k jednomu faktoru viz Cronbachovo α v další kapitole. Shrnutí 7. Faktorová analýza popisuje mnohorozměrná statistická data nížerozměrnými složkami (komponentami či faktory), čímž situaci zjednodušuje a třídí. Explorativní faktorová analýza bez předběžných znalostí a představ prozkoumává, v kterých směrech leží největší část rozptylu (tzv. analýza hlavních komponent), nebo zda lze korelace v datech se složkami xi úspěšně popsat několika málo faktory Fj ( tzv. analýza společných faktorů, též nazývaná analýza společných komponent) podle modelu k X xi = `ij Fj + ei i = 1, 2, . . . , n. (80) j=1
Konfirmativní faktorová analýza již vychází z teoretického modelu obsahujícího několik faktorů a předpokladů o jejích vzájemným vztahu a vztahu k daty a snaží se potvrdit, že zvolená teorie je s daty slučitelná, konzistentní. Rozměry uvnitř jedné skupinky složek dat patřící k jednomu faktoru by mezi sebou měly mít velké korelační koeficienty.
KAPITOLA 8
Bodové odhady. Metoda největší věrohodnosti. Intervalové odhady Klíčová slova: bodový odhad, věrohodnost, hladina významnosti, interval spolehlivosti Abstrakt: Na základě vzorku lze pomocí vhodné statistiky odhadnout parametr rozdělení pravděpodobnosti. Takovou vhodnou statistiku si lze opatřit metodou největší věrohodnosti. Nejistota v takovém odhadu je lépe vystižena intervalem spolehlivosti.
8.1. Úvod Matematická (analytická) statistika, kterou se zde budeme zabývat, vychází z představy, že náhodná veličina X má hustotu pravděpodobnosti 1 známého tvaru p(x, θ), závisejícího na parametru θ. Přitom předpokládáme, že hodnota parametru θ nabývá jedné konkrétní, pevné hodnoty, kterou ovšem zpravidla neznáme. (x−µ)2
Příklad 3. Normální rozdělení p(x | µ, 1) = √12π e− 2 s jednotkovou směrodatnou odchylkou σ = 1 obsahuje jeden parametr µ, který hraje roli parametru θ. Ten pro danou náhodnou veličinu má konkrétní hodnotu, kterou neznáme. Poznámka 6. V předchozím příkladu jsme považovali směrodatnou odchylku za danou, aby situace přesně zapadala do daného rámce tím, že hustota pravděpodobnosti má jeden parametr. Všechny úvahy lze ovšem snadno zobecnit na případ, kdy parametr θ chápeme jako vícerozměrný. Parametrem obecného normálního rozdělení f (x | µ, 1) = by potom mohla být uspořádaná dvojice θ = [µ, σ] ∈ R × R+ 0.
√1 e− σ 2π
(x−µ)2 2σ 2
Poznámka 7. Mohli bychom si představit, že parametr θ je nejen neznámý, ale že taky není pevně určený, že tedy parametr θ je sám též náhodnou veličinou. Zde tuto moznost výslovně neuvažujeme. Uvažovat θ jako pevně dané dává smysl, pokud chápeme pravděpodobnost jako relativní (frekvenční) zastoupení možností v základním statistickém souboru. Pro základní statistický soubor obsahující všechny realizace, které kdy nastanou, jsou relativní četnosti (popřípadě hustota četnosti) jednou provždy dané a tedy i parametry rozdělení pravděpodobnosti mají jednou pro vždy danou hodnotu. To je hledisko klasické (frekventistické) statistiky. Z jiného pohledu, dle kterého pravděpodobnost vyjadřuje naši důvěru v různé okolnosti (což je jiná interpretace pojmu pravděpodobnosti), je přirozené přisoudit parametru θ 1resp.
pravděpodobnostní funkci v případě diskrétní náhodné veličiny. V dalším se omezíme jen na spojitou náhodnou veličinu s tím, že diskrétní případ lze zpracovat obdobně. 45
8.2. BODOVÉ ODHADY
46
určité rozdělení pravděpodobnosti a nikoliv pevnou hodnotu. Toto je hledisko Bayesovské statistiky, která se s uvažovanou situací vypořádává poněkud jinak. Pro přesné pochopení dalšího je však dobré vědět, že zde přijímáme předpoklady klasické (frekventistické) statistiky a parametru θ v dalších úvahách tedy přísluší sice nám neznámá, ale provždy daná, jediná hodnota. Přestože je parametr θ základním statistickým souborem pevně určen, není nám zpravidla dostupný, protože máme k dispozici pouze výběrový statistický soubor obsahující náhodný výběr několika realizací uvažované náhodné veličiny. Na základě těchto realizací můžeme parametr θ pouze vhodně sestaveným vzorcem, tzv. statistikou odhadnout, čímž získáme bodový odhad Příklad 4. V měšci je buď 60 modrých a 40 červených žetonů (1. možnost), nebo 40 modrých a 60 červených žetonů (2. možnost). čtyřikrát vytáhneme žeton a vrátíme jej zpět to měšce, s kterým dostatečně protřepeme na zamíchání žetonů. Rozdělení pravděpodobnosti má v tomto případě diskrétní parametr θ ∈ {1, 2}. Předpokládejme, že jsme při realizaci našeho výběru vytáhli 3 červené a jeden modrý žeton. To spíše napovídá, že červených žetonů bude více a že tedy máme co do činění s 2. případem, θ = 2. Jisti si s tím však být nemůžeme. Mohlo jít o první případ s tím, že jsme ovšem přesto dílem náhody vytáhli 3 červené a jeden modrý žeton, což je možné. Za povšimnutí stojí, že zatímco nám zůstává nejistota v tom, který případ je ten odpovídající, protože máme k dispozici jen výběrový statistický soubor, je v souladu s klasickou statistikou jedna moznost ta pravá, parametr θ je pevně určený. O tom bychom se mohli v tomto případě přesvědčit prozkoumáním celého obsahu měšce s vědomím, že nalezený poměr žetonů tam byl od samého začátku. Bodový odhad pevného, ale neznámého parametru θ hustoty pravděpodobnosti p(x | θ) navrhuje přibližně jeho hodnotu, nevyjadřuje však, jak dalece této hodnotě lze důvěřovat. To lze vyjádřit pomocí intervalu spolehlivosti, který se obvykle uvádí spolu s bodovým odhadem. 8.2. Bodové odhady Můžeme se pokusit odhadnout hodnotu hledaného parametru θ hustoty pravděpodobnosti p(x, θ) na základě výběrového statistického souboru, pomocí tzv. statistiky. Definice 4. Buď T : X → Y měřitelné zobrazení z množiny elementárních jevů náhodné veličiny X (tj. z množiny čísel X) do množiny čísel Y . Potom je Y s pravděpodobnostní funkcí PY (A) = PX (f −1 A) pro všechna A ∈ F(Y ) náhodnou veličinou a nazývá se funkcí T (X) náhodné veličiny X. Statistika je funkcí T (X1 × X2 × . . . × Xn ) náhodného výběru realizovaného jako kartézského součinu X1 × X2 × . . . × Xn celkem n kopií X1 , X2 , . . . , Xn náhodné veličiny X. Příklad 5. Aritmetický průměr náhodného výběru X1 + X2 + . . . + X n Tp ([X1 , X2 , . . . , Xn ]) = n
8.2. BODOVÉ ODHADY
47
je statistikou nad náhodným výběrem [X1 , X2 , . . . , Xn ]. Příklad 6. První složka náhodného výběru T1 ([X1 , X2 , . . . , Xn ]) = X1 je statistikou nad náhodným výběrem [X1 , X2 , . . . , Xn ]. K odhadu hledaného parametru θ hustoty pravděpodobnosti p(x, θ) můžeme nyní použít různé statistiky, z nichž však některé jsou vhodnější než jiné. Proto na statistiku odhadu, kterou nazveme naším bodovým odhadem T , klademe některé z podmínek z následujících definic. Přitom často předpokládáme, že statistika T je definovaná na náhodném výběru libovolného konečného počtu n clenů a zadává tak posloupnost statistik Tn : X1 × X2 × . . . × Xn → Y . Definice 5. Bodový odhad T parametru θ je • konzistentní, pokud platí pro libovolné > 0: lim P (| Tn − θ |≤ ) = 1
n→∞
což jistě platí, pokud E(T ) = θ a lim V ar(Tn ) = 0
n→∞
• nestranný, pokud E(Tn ) = θ , • vydatný, pokud k znalosti statistiky T (X) již o parametru θ není co dodat, tj. pro podmíněné pravděpodobnosti platí: P (X < x | T (X) = t, θ) = P (X < x | T (X) = t) Příklad 7. Populační rozptyl n
1X ¯ 2, σ = (Xi − X) n i=1 2
kde n
X ¯= 1 X Xi , n i=1 není nestranným odhadem rozptylu rozdělení pravděpodobnosti. Nestranným odhadem je poněkud pozměněný, tzv. výběrový rozptyl n
1 X ¯ 2. S = (Xi − X) n − 1 i=1 2
8.3. METODA NEJVĚT. VĚROHODNOSTI
48
Vskutku: Označme střední hodnotu µ = E(Xi ) a rozptyl σ 2 = V ar(Xi ). Ty jsou stejná pro každou z náhodných veličin Xi , protože každá z nich má stejné rozdělení pravděpodobnosti. Potom n n X 1X ¯ 2 ) = 1 E( ¯ 2) = (Xi − X) ((Xi − µ) + (µ − X)) E(σ 2 ) = E( n i=1 n i=1 n n n X 1 X 2 1 X 2 ¯ ¯ 2) = = E( (Xi − µ)) + E( (Xi − µ) ) + E((µ − X) (µ − X) n i=1 n n i=1 {z } | {zi=1 } | {z } | ¯ 2) =−2E((µ−X)
=V ar(X)=σ 2
¯ 2) =E((µ−X)
¯ 2) = n − 1 σ2 ≤ σ2. = σ 2 − E((µ − X) | {z } n 1 2 σ n
Přenásobením celého výpočtu faktorem
n n−1
dostaneme
n n n−1 2 E(σ 2 ) = σ = σ2. n − 1 n − 1 n | {z } =E(S 2 )
8.3. Jak si opatřit bodové odhady: Metoda největší věrohodnosti Najít vhodný odhad parametru pravděpodobnostního rozdělení a prošetřit jeho vlastnosti není vždy snadné. V tomto odseku je jen pro informaci načrtnuta jedna obecná metoda, metoda největší věrohodnosti a jsou prozkoumány některé související skutečnosti. Pro praktické použití lze totiž říct, že nejlepším zdrojem odhadů ve standardních situacích je literatura, která ušetří jinak nutnou analýzu a navíc často uvádí i přímo rozdělení pravděpodobnosti pro danou statistiku odhadu za předpokladu p(x, θ), což lze zužitkovat pro formulaci intervalových odhadů. Definice 6. Nechť je dán soubor hustot pravděpodobností p(X | θ) náhodné veličiny X parametrizovaný parametrem θ. Potom věrohodností rozumíme funkci L(θ | x) = αp(X = x | θ), kde α je libovolný pevně zvolený koeficient. Udává, jak relativně pravděpodobná jsou naměřená data x pro různé volby parametru θ. Poznámka 8. Věrohodnost není pravděpodobností parametru θ za předpokladu x. Nemusí být jako funkce θ vůbec normovatelná. Význam mají skutečně jen poměry věroL(θ1 |x) hodností, L(θ , což je vyjádřeno libovolným koeficientem α, který se v takových poměrech 2 |x) vykrátí. ˆ Metoda největší věrohodnosti volí odhad θ(X) parametru θ na základě statistického výběru x = [x1 , x2 , . . . , xn ] tak, aby tento výběr byl při odhadnuté volbě parametru relativně co nejpravděpodobnější: ˆ θ(x) = arg max L(θ | x) θ
8.3. METODA NEJVĚT. VĚROHODNOSTI
49
Pokud L(θ | x) je diferencovatelná funkce parametru θ, lze maximum nalézt jako kritický bod. Často je snadnější najít maximum logaritmu věrohodnosti, které ovšem poskytne tutéž hodnotu parametru, protože logaritmus je monotónní funkce. Nutnou podmínkou pro maximum hladké věrohodnosti je jedna s následujících: ∂ log L(θ | x) =0 ∂θ
∂L(θ | x) =0 ∂θ
(x−µ)2
Příklad 8. Pro normální rozdělení f (x | µ, 1) = σ√12π e− 2σ2 s parametry [µ, θ] je logaritmus věrohodnosti náhodného výběru x = [x1 , x2 , . . . , xn ] dán jako log L(θ | x) = log αf (X = x | θ) = = log α + log(f (x1 | θ)f (x2 | θ) . . . f (xn | θ)) = n X = log α + log f (x2 | θ) = i=1 n 1 X 1 (xi − µ)2 = log α − n( log 2π + log σ) − 2 2 2σ i=1
Podmínka největší věrohodnosti potom vede na podmínky ∂ ∂µ
n 1 X n log σ + 2 (xi − µ)2 2σ i=1
!
∂ ∂σ
n 1 X n log σ + 2 (xi − µ)2 2σ i=1
!
= 0, = 0,
což dá n X
n 1 − 3 σ σ
! xi
i=1 n X
− nµ = 0,
(xi − µ)2 = 0.
i=1
Výsledné odhady potom jsou: n
µ=
1X xi n i=1 n
1X (xi − µ)2 σ = n i=1 2
8.4. INTERVALOVÉ ODHADY
50
8.4. Intervalové odhady Definice 7. Intervalem spolehlivosti na hladině spolehlivosti γ (na hladině významnosti α = 1 − γ) pevného, ale neznámého parametru θ hustoty pravděpodobnosti p(x | θ) je náhodný interval [u(X), v(X)] určený statistikami u(X) a v(X) tak, že pravděpodobnost, že tento interval překrývá hodnotu parametru θ je γ: P (u(X) ≤ θ ≤ v(X)) = γ = 1 − α.
(81)
Vhodné statistiky pro interval spolehlivosti lze nalézt v literatuře. Příklad 9. Bodový odhad pro parametr λ Poissonova rozdělení λx e−λ x! je dán jako aritmetický průměr vzorku xi , i = 1..n: n X ˆ= 1 λ xi n i=1 P (x | λ) =
(82)
(83)
Podle [CG59] lze stanovit interval spolehlivost na hladině významnosti α jako 1 1 2 2 ˆ dolní , λ ˆ horní ] = [λ χ α , χα , 2n 1− 2 ,2y 2n 2 ,2(y+1) kde y v argumentu df funkce χ2p,df kritických hodnot rozdělení χ2 je celkový počet zjišťovaných událostí ve všech sledovaných časových jednotkách dohromady, n je počet sledovaných časových jednotek. Shrnutí 8. Bodový odhad T parametru θ (tj., posloupnost statistik Tn ) je • konzistentní, pokud platí pro libovolné > 0: lim P (| Tn − θ |≤ ) = 1
n→∞
(84)
což jistě platí, pokud E(T ) = θ a lim V ar(Tn ) = 0
n→∞
(85)
• nestranný, pokud E(Tn ) = θ.
(86)
Intervalem spolehlivosti na hladině spolehlivosti γ (na hladině významnosti α = 1 − γ) pevného, ale neznámého parametru θ hustoty pravděpodobnosti p(x | θ) je náhodný interval [u(X), v(X)] určený statistikami u(X) a v(X) tak, že pravděpodobnost, že tento interval překrývá hodnotu parametru θ je γ: P (u(X) ≤ θ ≤ v(X)) = γ = 1 − α.
KAPITOLA 9
Testování hypotéz: parametrické testy Klíčová slova: test, statistika, hladina významnosti, chyby I. a II. druhu, síla testu. Abstrakt: Statistický test prověřuje, zda za předpokládané nulovou hypotézy je získaný vzorek výběru natolik výstřední, že zpochybňuje tuto nulovou hypotézu.
9.1. Úvod Statistickým testem prověřujeme rozdělení pravděpodobnosti p náhodného jevu (např. rozdělení p(x) náhodné veličiny X). Kdybychom věděli vše, co se kdy stalo a stane, nebylo by to vůbec zajímavé, protože bychom rozdělení pravděpodobnosti prostě znali (na základě relativních četností v celé populaci jevů). Obvykle však je nám přístupno jen několik málo realizací náhodného jevu. Jejích počet, rozsah náhodného výběru označme n. Předpokládáme, že jednotlivé realizace náhodné veličiny X (obecněji: náhodného jevu) jsou nezávislé a můžeme potom těch n realizací náhodné veličiny X chápat jako jedinou realizaci [x1 , x2 , . . . , xn ] náhodného jevu X | ×X × {z . . . × X} s rozdělením pravděpodobnosti n-krát
p × p × . . . × p. Cílem statistického testu je tedy prověřit rozdělení pravděpodobnosti p na {z } | n-krát
základě realizace [x1 , x2 , . . . , xn ] náhodného výběru. Princip statistického testu je vysvětlen v Odseku 9.2. Možné chybné závěry z testu jsou diskutovány v Odseku 9.3. Parametrické hypotézy jsou vysvětleny v Odseku 10.1 s příkladem na test v Odseku 10.2. Neparametrické hypotézy jsou vysvětleny v Odseku 11.1 s testy na shodu rozdělení pravděpodobnosti a na nezávislost v Odsecích 11.2 a 11.3. 9.2. Princip statistického testu Při statistickém testu vycházíme z následujících předpokladů: (1) Neprověřovaná přesvědčení. Uvažujeme zpravidla nikoliv všechna možná rozdělení pravděpodobnosti, ale jen rozdělení určitých vlastností nebo určitého tvaru. Například můžeme uvažovat jen normální rozdělení pravděpodobnosti a prostor všech uvažovaných rozdělení pravděpodobností je potom parametrizován střední hodnotou a rozptylem normálního rozdělení. O těchto předpokladech nediskutujeme, přijímáme je jako fakt. Nejsou součástí toho, co se testem prověřuje. Samozřejmě mohou i o těchto předpokladech 51
9.3. CHYBY TESTU
52
vzniknout pochybnosti - jejích prověření se může proto stát předmětem jiného testu. (2) Prověřovaná doměnka: nulová hypotéza. V rámci uvažovaných rozdělení pravděpodobnosti předpokládáme určitá rozdělení pravděpodobnosti. Tento předpoklad se nazývá nulovou hypotézou H0 . Doplňkem tohoto předpokladu v uvažovaném rámci je tzv. alternativní hypotéza H1 . Statistický test pochopitelně nemůže na základě realizace [x1 , x2 , . . . , xn ] náhodného výběru skutečné rozdělení pravděpodobnosti zjistit. Jen prověřuje, zda daná realizace je podle našich předpokladů (těch neprověřovaných, nediskutovaných a nulové hypotézy) plausibilní, nebo zda je daná realizace za daných předpokladů tak výstřední, že nás to donutí naše předpoklady přehodnotit - zpravidla se má zato, že v tom případě se přehodnotí nulová hypotéza H0 a přijme se namísto ní její doplněk v daném rámci, alternativní hypotéza H1 , přičemž neprověřované, nediskutované předpoklady zůstávají netknuty. Statistický test se provádí následujícím způsobem: (1) Je určena hladina významnosti α, která stanovuje, jak nepravděpodobné skutečnosti již považujeme za výstřední. Pokud se tato hodnota neuvádí, nebo se pouze mluví statistický významném výsledku testu, má se zato, že α = 5%. (2) Je vybrána statistika T : X × X × . . . × X → Y . Hodnota statistiky T v Y je potom náhodnou veličinou, jejíž rozdělení pravděpodobnosti je za předpokladu nulové hypotézy známé. (3) Obor hodnot Y statistiky T je rozdělen na obor přijetí A a kritický obor C: A ∩ C = ∅,
Y = A ∪ C.
(87)
přičemž za platnosti nulové hypotézy statistika T obvykle (tj. s pravděpodobností 1 − α) nabývá hodnot v A a jen výjimečně (tj. s pravděpodobností α) v C. (4) Pokud • T ([x1 , x2 , . . . , xn ]) ∈ A, přidržíme se nulové hypotézy. Říká se potom, že přijímáme nulovou hypotézu H0 . Toto ustálené vyjádření výsledku testu může navozovat představu, že jsme H0 dokázali, nebo našli důvody proto, že bychom H0 měli věřit. Znamená to však jen, že fakta [x1 , x2 , . . . , xn ] o nulové hypotéze nevyvolávají vážné pochybnosti. • T ([x1 , x2 , . . . , xn ]) ∈ C, zamítneme nulovou hypotézu a přijmeme alternativní hypotézu H1 . I zde je třeba opatrnosti s chápáním ustáleného vyjádření pro výsledek testu. V tomto případě fakta [x1 , x2 , . . . , xn ] o nulové hypotéze vyvolávají vážné pochybnosti a jediná další možnost v rámci námi neprověřovaných předpokladů je alternativní hypotéza. To však neříká nic o tom, zda fakta [x1 , x2 , . . . , xn ] svědčí pro alternativní hypotézu samou o sobě. 9.3. Možné chyby při provedení statistického testu Při provedení statistického testu můžeme dojít k chybným závěrům:
9.3. CHYBY TESTU
53
(1) Při testu na hladině významnosti α se může s pravděpodobností α stát, že platí nulová hypotéza H0 , ale my jí na základě výstředních dat (které jsou dílem nepříznivé náhody) přesto zamítneme. Stala se tzv. chyba I. druhu. (2) Při testu na hladině významnosti α se může s obecně jinou pravděpodobností β stát, že platí alternativní hypotéza H1 , ale my se na základě zdánlivě obvyklých dat (které jsou dílem nepříznivé náhody) přesto přidržíme nulové hypotézy. Stala se tzv. chyba II. druhu. Pravděpodobnost β je tzv. síla testu. Shrnutí 9. Statistický test prověřuje, zda za předpokládané nulovou hypotézy je získaný vzorek výběru natolik výstřední, že zpochybňuje tuto nulovou hypotézu. Statistický test se provádí následujícím způsobem: (1) Je určena hladina významnosti α, která stanovuje, jak nepravděpodobné skutečnosti již považujeme za výstřední. Pokud se tato hodnota neuvádí, nebo se pouze mluví statistický významném výsledku testu, má se zato, že α = 5%. (2) Je vybrána statistika T : X × X × . . . × X → Y . Hodnota statistiky T v Y je potom náhodnou veličinou, jejíž rozdělení pravděpodobnosti je za předpokladu nulové hypotézy známé. (3) Obor hodnot Y statistiky T je rozdělen na obor přijetí A a kritický obor C: A ∩ C = ∅,
Y = A ∪ C.
(88)
přičemž za platnosti nulové hypotézy statistika T obvykle (tj. s pravděpodobností 1 − α) nabývá hodnot v A a jen výjimečně (tj. s pravděpodobností α) v C. (4) Pokud • T ([x1 , x2 , . . . , xn ]) ∈ A, přidržíme se nulové hypotézy. Říká se potom, že přijímáme nulovou hypotézu H0 . Toto ustálené vyjádření výsledku testu může navozovat představu, že jsme H0 dokázali, nebo našli důvody proto, že bychom H0 měli věřit. Znamená to však jen, že fakta [x1 , x2 , . . . , xn ] o nulové hypotéze nevyvolávají vážné pochybnosti. • T ([x1 , x2 , . . . , xn ]) ∈ C, zamítneme nulovou hypotézu a přijmeme alternativní hypotézu H1 . I zde je třeba opatrnosti s chápáním ustáleného vyjádření pro výsledek testu. V tomto případě fakta [x1 , x2 , . . . , xn ] o nulové hypotéze vyvolávají vážné pochybnosti a jediná další možnost v rámci námi neprověřovaných předpokladů je alternativní hypotéza. To však neříká nic o tom, zda fakta [x1 , x2 , . . . , xn ] svědčí pro alternativní hypotézu samou o sobě. Při provedení statistického testu můžeme dojít k chybným závěrům: (1) Při testu na hladině významnosti α se může s pravděpodobností α stát, že platí nulová hypotéza H0 , ale my jí na základě výstředních dat (které jsou dílem nepříznivé náhody) přesto zamítneme. Stala se tzv. chyba I. druhu. (2) Při testu na hladině významnosti α se může s obecně jinou pravděpodobností β stát, že platí alternativní hypotéza H1 , ale my se na základě zdánlivě obvyklých dat (které jsou dílem nepříznivé náhody) přesto přidržíme nulové hypotézy. Stala se tzv. chyba II. druhu. Pravděpodobnost β je tzv. síla testu.
KAPITOLA 10
Testování hypotéz: parametrické testy Klíčová slova: parametrické hypotézy, t-test. Abstrakt: Parametrické testy vychází z nulové hypotézy o hodnotě parametru rozdělení pravděpodobnosti pevně určeného tvaru.
10.1. Parametrické hypotézy Často se setkáme s předpokladem, že uvažovaná rozdělení pravděpodobnosti jsou určitého, předepsaného tvaru a jsou charakterizována parametrem θ z prostoru Θ přípustných parametrů. Nulová hypotéza H0 potom předpokládá určitou hodnotu θ, nebo určitý rozsah pro hodnotu parametru θ. Alternativní hypotéza H1 potom předpokládá θ v komplementu rozsahu určeného nulovou hypotézou H0 . Takovéto hypotézy se nazývají parametrické hypotézy. 10.2. t-test na porovnání dvou středních hodnot výběrů stejného rozsahu a rozptylu (návod k testu) (1) Spočtěte aritmetické průměry x¯A , x¯B a výběrové rozptyly s2A , s2B pro rozsahy výběrů nA , nB , kde n = nA = nB : n
n
1X x¯A = xA [i] n i=1
1X x¯B = xB [i] n i=1
n
s2A
(89)
n
1 X (xA [i] − x¯A )2 = n − 1 i=1
s2B
1 X (xB [i] − x¯B )2 = n − 1 i=1
(90)
kde xA [i] (resp. xB [i]) je i-tý výsledek ve skupině A (resp. B). (2) Náhodná veličina t= q
x¯A − x¯B 1 2
q (s2A + s2B ) n2
(91)
má potom Studentovo rozdělení s df = 2n − 2 stupni volnosti. Oboustranné kritické hodnoty tα (df ) Studentova rozdělení pro hladinu významnosti α jsou tabelovány. 54
10.2. T-TEST PRO POROVNÁNÍ STŘEDNÍCH HODNOT
55
Obrázek 10.1. Oboustranné kritické hodnoty tα (df ) Studentova rozdělení pro hladinu významnosti α. Příprava návodu na statistický test často není triviální. V praxi však zpravidla postačí porozumět principu statistického testu a opatřit si příslušný návod v sbírkách statistických testů (statistických příručkách).
10.2. T-TEST PRO POROVNÁNÍ STŘEDNÍCH HODNOT
56
Příklad 10. Dvě skupiny studentů napsaly tentýž test. Skupina A Číslo Jméno Výsledek [%] 1 Altman 44 2 Bodrá 32 3 Celestýn 49 4 Dobrá 32 5 Eliášek 52 6 Fraňková 41 7 Gusev 56 8 Hlásková 49 9 Imrýšek 58 10 Jodlová 46
Skupina B Číslo Jméno Výsledek [%] 1 Andrášková 52 2 Beránek 55 3 Cajtová 75 4 Drkal 49 5 Emannová 48 6 Frmol 58 7 Grossová 38 8 Huml 53 9 Isokidisová 57 10 Janečka 30
Prověřte provedením t-testu, na porovnání dvou středních hodnot výběrů stejného rozsahu a rozptylu, zda jedna skupina je statisticky významně lepší než druhá. Shrnutí 10. Podle druhu testované hypotézy dělíme testy na parametrické a neparametrické. Parametrická hypotéza vychází z rozdělení pravděpodobnosti určitého, předepsaného tvaru s pevně danou, ale neznámou hodnotou parametru. Příkladem parametrického testu je t-test na porovnání dvou středních hodnot.
KAPITOLA 11
Testování hypotéz: neparametrické testy Klíčová slova: neparametrické hypotézy, Pearsonův test dobré shody. Abstrakt: Neparametrická nulová hypotéza se netýká parametru rozdělení pravděpodobnosti. Často se při ní ani nepředpokládá pevný tvar rozdělení pravděpodobnosti.
11.1. Neparametrické hypotézy Neparametrické hypotézy nevydělují uvažovaná rozdělení pravděpodobnosti jako parametrizovanou množinu rozdělení určitého typu. Typickými příklady neparametrických hypotéz jsou: • Předpoklad o konkretním tvaru rozdělení pravděpodobnosti jakožto nulové hypotézy H0 . Alternativou jsou potom nejrůznější jiná rozdělení, která nemusí mít jakýmkoliv jednoduchým způsobem parametrizovatelný tvar. • Předpoklad o nezávislosti pravděpodobnostního rozdělení na složkách složeného systému. 11.2. Pearsonův χ2 -test dobré shody Předpokládané rozdělení na n možnostech má rozdělení pravděpodobnosti p = [p1 , p2 , . . . , pn ] má při náhodném výběru rozsahu N předpokládané četnosti Ei = N pi , přičemž pozorované četnosti jsou Oi . Statistika 2
X =
n X (Oi − Ei )2
Ei
i=1
(92)
má potom (přibližně) χ2df rozdělení, kde df = n − 1 je počet stupňů volnosti. Aby přiblížení bylo přijatelné, požaduje se obvykle splnění pravidla, podle kterého má být v alespoň v 80% možností četnost větší než 5. 11.3. Nezávislost statistických znaků Test na nezávislost dvou částí složeného systému je vlastně Pearsonův test dobré shody aplikovaný na kontingenční tabulku. Máme-li pozorované četnosti Oij , i = 1..r, j = 1..c pro případ, že v první složce nastal případ i a v druhé složce případ j, potom lze ze součtů 57
11.3. NEZÁVISLOST
58
Pc Pr případů na jednotlivých složkách Ei• = j=1 Oij , E•j = i=1 Oij dojít k teoretickým četnostem na základě předpokladu o nezávislosti: 1 (93) Eij = Ei• E•j N kde r X c r c X X X N= Oij = Ei• = E•j (94) i=1 j=1
i=1
j=1
Statistika r X c X (Oij − Eij )2 X = Eij i=1 j=1 2
(95)
má potom (přibližně) χ2df rozdělení, kde df = (r − 1)(c − 1) je počet stupňů volnosti. Aby přiblížení bylo přijatelné, požaduje se i zde obvykle splnění pravidla, podle kterého má být v alespoň v 80% možností četnost větší než 5. Shrnutí 11. Neparametrické hypotézy nevydělují uvažovaná rozdělení pravděpodobnosti jako parametrizovanou množinu rozdělení určitého typu. Příkladem neparametrického testu je Pearsonův χ2 -test dobré shody.
KAPITOLA 12
Volba statistického testu a jeho provedení pomocí statistických programů. Klíčová slova: statistická příručka Abstrakt: Vhodný test je možno najít ve statistické příručce, na síti nebo v nabídce statistického programu.
12.1. Výběr statistického testu Vymyslet vhodný statistický test a prozkoumat jeho vlastnosti je často nesnadný výzkumný úkol. Pro běžné situace je proto často nejefektivnější prohledat literaturu, internet nebo nabídky statistických programů. Přehled některých statistických programů najdete v Kapitole 4. Podrobný návod k použití je vždy specifický pro zvolený program. Shrnutí 12. Pro praktické použití se vhodné statistické testy nevymýšlí, ale vyhledávají. Postupuje se potom dle návodu testu.
59
KAPITOLA 13
Analýza časových řad Klíčová slova: Očištění časových řad, klouzavý průměr, llineární model, trend, sezonní a cyklická složka. Abstrakt: Diskuse jednoduchých úprav a modelů časových řad.
13.1. Úvod Časové řady zaznamenávají okamžité nebo intervalové údaje xt v diskrétních hodnotách času t. Jejích analýza se pokouší o nalezení příhodného popisu a pochopení časového průběhu. Odsek 13.2 se věnuje předzpracování časových řad jejích očištěním a shlazením klouzavými průměry. Součtový model je diskutován v Odseku 13.3. 13.2. Očištění časové řady a klouzavé průměry Pokud údaj xt představují množství vzniklé v časovém intervalu t, takové údaje pro různě dlouhé intervaly bezprostředně srovnávat. Je potom účelné veškeré údaje úměrou přepočítat časové intervaly stejné délky. Např. měsíční spotřeby vody v domácnosti můžeme rozumně srovnat až po přepočítání na 30-tidenní měsíc. Tato úprava dat se nazývá očištěním časové řady. Charakter časové řady může být nezřetelný i z důvodu rychle se měnících nebo vůbec nezávislých a okamžitých poruch. Ty lze odstranit (odfiltrovat) zprůměrováním několika předcházejících a následujících hodnot spolu s hodnotou v uvažovaném čase. Jednoduchý klouzavý průměr řádu r je pro liché r = 2s + 1 dán jako x∗t =
t+s 1 X xu , r u=t−s
(96)
a pro sudé r = 2s jako x∗t
1 = r
t+s−1 X xt−s xt−s + xu + 2 2 u=t−s+1
! .
(97)
13.3. Součtový (aditivní) model časových řad Jednoduchý součtový model ekonomických časových řad vychází z toho, že časová řada xt je výsledkem několika složek, přičemž jejích jednotlivé vlivy lze sčítat, xt = Tt + St + Ct + t , 60
(98)
13.3. SOUČTOVÝ MODEL ČASOVÝCH ŘAD
61
kde • Tt je tzv. trendová složka odpovídající dlouhodobému vývoji, zpravidla z důvodu přirozeného vývoje nebo růstu, • St je tzv. sezónní složka odpovídající pravidelným výkyvům způsobeným střídáním ročních období a majícím periodu jednoho roku, • Ct je tzv. cyklická složka odpovídající cyklickým jevům s periodou jinou než jednoho roku, například způsobených hospodářským cyklům o délce několika let, • t je tzv. náhodná složka zahrnující dále nerozložitelné náhodné jevy. O náhodné složce se často předpokládá, že má nulovou střední hodnotu, případně normální rozdělení s nulovou střední hodnotou. Trendovou složku Tt lze z časové řady vydělit vhodnou formou regrese na základě metody nejmenších čtverců. Sezónní složku lze z dat odstranit klouzavým průměrem o počtu bodů odpovídajícím jednomu roku. Průměrný rozdíl přes všechny roky v datech mezi původní časovou řadou a časovou řadou s odstraněnou sezonní složkou potom poskytne samotnou sezonní složku. Shrnutí 13. Intervalové časové řady je často vhodné přepočítat na stejné délky intervalů, tj. očistit je. Rychle se měnící, nebo vůbec nezávislé a okamžité poruchy lze z časové řady odstranit klouzavými průměry. Ekonomické časové řady lze často v rámci tzv. součtového modelu rozložit na trendovou složku odpovídající dlouhodobému vývoji, zpravidla z důvodu přirozeného vývoje nebo růstu, sezónní složku odpovídající pravidelným výkyvům způsobeným střídáním ročních období a majícím periodu jednoho roku, cyklickou složku odpovídající cyklickým jevům s periodou jinou než jednoho roku, např. způsobených hospodářským cyklům o délce několika let, a náhodnou složku zahrnující dále nerozložitelné náhodné jevy. O náhodné složce se často předpokládá, že má nulovou střední hodnotu, případně normální rozdělení s nulovou střední hodnotou. Trendovou složku lze potom vydělit použitím regrese.
62
Povinná literatura (1) SWOBODA, H. Moderní statistika. Praha: Svoboda, 1977. (2) LIKEŠ, J., CYHELSKÝ, L. a HINDLS, R. Statistika A, skripta. Praha: VŠE, 1994. (3) RAMÍK J. a ČEMERKOVÁ Š. Statistika A, Statistika B, skripta. Opava, Karviná: SU, 2000. (4) NOVÁK I., SEGER J. a ZYCHOVÁ L. Statistika B, skripta. Praha: VŠE, 1992. (5) WONNACOT T. a WONNACOT R. Statistika pro obchod a hospodářství. Praha: Victoria Publishing, 1992. Doporučená literatura (1) DISMAN, M. Jak se vyrábí sociologická znalost. Praha: Karolinum, 2000. ISBN 80-246-0139-7. (2) ANDĚL, J. Statistické metody. Praha: Matfyzpress, 2007. ISBN 80-858-6327-8 (3) REISENAUER R. Metody matematické statistiky a jejich aplikace. Praha: SNTL, 1965. (4) CYHELSKÝ L., KAŇOKOVÁ J. a NOVÁK I. Základy teorie statistiky pro ekonomy. Praha: SNTL, 1979.
Literatura [CG59] E. L. Crow and R. S. Gardner, Confidence intervals for the expectation of a poisson variable, Biometrika 46 (1959), 441–453. [dC97] Gert de Cooman, Possibility theory i: the measure- and integral-theoretic groundwork, International Journal of General Systems 25 (1997), 291–323. [Dis93] Miroslav Disman, Jak se vyrábí sociologická znalost: Příručka pro uživatele, Karolinum, Praha, 1993. [Rob07] Christian P. Robert, The bayesian choice: From decision-theoretic foundations to computational implementation, 2 ed., Springer, New York, 2007. [Rre00] Jaroslav Ramík and Šárka Čemerková, Statistika, vol. A, SU Opava, Karviná, 2000, Skripta. [Zad78] Lotfi A. Zadeh, Fuzzy sets as the basis for a theory of possibility, Fuzzy Sets and Systems 1 (1978), 3–28.
63