PŘEMYSL ZÁŠKODNÝ RENATA HAVRÁNKOVÁ JIŘÍ HAVRÁNEK VLADIMÍR VURM
ZÁKLADY STATISTIKY (s aplikací na zdravotnictví)
Vznik publikace byl inspirován myšlenkami, pracemi a návrhy významného slovenského vědce v oblasti kognitivního a pojmového modelování a edukačního data miningu – ing. Pavola Tarábka, Ph.D. Náš spolupracovník Pavol Tarábek se bohužel vydání této publikace nedožil – opustil nenadále vědeckou komunitu na jaře roku 2011.
Základy statistiky (s aplikací na zdravotnictví) Přemysl Záškodný, Renata Havránková, Jiří Havránek, Vladimír Vurm, 2011. Přepracované druhé vydání Žádná část této publikace nesmí být publikována a šířena žádným způsobem a v žádné podobě bez výslovného svolení autorů a vydavatelství
Vydavatel CURRICULUM, Cholupická 39, 142 00 Praha 4, Czech Republic S podporou DIDAKTIS, s.r.o., Hýrošova 4, 811 04 Bratislava, Slovak Republic e-mail:
[email protected] Autoři Doc. RNDr. Přemysl Záškodný, CSc., University of Finance and Administration, Prague, Czech Republic University of South Bohemia, České Budějovice, Czech Republic e-mail:
[email protected] Mgr. Renata Havránková, Ph.D. University of South Bohemia, České Budějovice, Czech Republic e-mail:
[email protected] Mgr. Jiří Havránek University of South Bohemia, České Budějovice, Czech Republic e-mail:
[email protected] Doc. MUDr. Vladimír Vurm, CSc. Czech Technical University in Prague, Faculty of Biomedical Engineering, Czech Republic e-mail:
[email protected] Recenzenti Doc. MUDr. František Vorel, CSc. Doc. PaeDr. Jana Škrabánková, Ph.D. RNDr. Ivan Havlíček, CSc. On line presentation: http://sites.google.com/site/csrggroup/, www.didaktis.sk
ISBN 978-80-904948-2-4
4
OBSAH ÚVOD (Záškodný, Vurm)……………………………………………………………………..9 ČÁST A – ZÁKLADNÍ METODY 1. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – FORMULACE STATISTICKÉHO ŠETŘENÍ (Záškodný, Havránková)…………………………………14 2. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – ŠKÁLOVÁNÍ (Záškodný, Havránková)……………………………………………………………………………….17 3. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – MĚŘENÍ V DESKRIPTIVNÍ STATISTICE (Záškodný, Havránková)…………………………………………………...19 4. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – ELEMENTÁRNÍ STATISTICKÉ ZPRACOVÁNÍ (Záškodný, Havránková)……………………………….22 4.1 Tabulka………………………………………………………………………………..23 4.2 Empirické rozdělení četností………………………………………………………….24 4.3 Empirické parametry………………………………………………………………….26 4.4 Ilustrace výpočtu empirických parametrů…………………………………………….30 5. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY – NEPARAMETRICKÉ TESTOVÁNÍ (Záškodný, Havránková)…………………………………………………..32 5.1 Intervalové rozdělení četností………………………………………………………...33 5.2 Teoretické rozdělení…………………………………………………………………..34 5.3 Aparát neparametrického testování…………………………………………………...40 5.4 Ilustrace neparametrického testování…………………………………………………42 6. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY – TEORIE ODHADŮ (Záškodný, Havránková) ………………………………………………………………….47 6.1 Bodové odhady……………………………………………………………………….48 6.2 Intervalové odhady…………………………………………………………………...50 6.3 Ilustrace konstrukce intervalů spolehlivosti…………………………………………..52 7. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY – PARAMETRICKÉ TESTOVÁNÍ (Záškodný, Havránková)…………………………………………………..53 7.1 Jednovýběrové parametrické testování……………………………………………….54 7.2 Dvojvýběrové parametrické testování…………………………………………….….56 7.3 Ilustrace parametrického testování…………………………………………………...58 8. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY – MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ (Záškodný, Havránková)………………………………………………….64 8.1 Vymezení problem……………………………………………………………………64 8.2 Jednoduchá lineární a kvadratická regresní analýza………………………………….67 8.3 Jednoduchá lineární a kvadratická korelační analýza………………………………...70 8.4 Ilustrace měření statistických závislostí………………………………………………72
5
ČÁST B – ROZŠÍŘENÍ METOD 9. ROZŠÍŘENÍ METOD DESKRIPTIVNÍ STATISTIKY…………………………………79 9.1 Rozšíření formulace statistického šetření (Záškodný)………………………………..79 9.1.1 Statistický znak a jeho hodnota 9.1.2 Náhodný výběr 9.1.3 Druhy náhodného výběru 9.1.4 Analogie mezi pojmy formulace statistického šetření a pojmy teorie pravděpodobnosti a matematické statistiky
9.2 Rozšíření škálování (Záškodný)……………………………………………………….84 9.2.1 Typy škál 9.2.2 Škálování a hodnoty statistického znaku
9.3 Rozšíření měření v deskriptivní statistice (Záškodný)………………………………...86 9.3.1 Absolutní, relativní a kumulativní četnosti jako výsledky měření 9.3.2 Měření v deskriptivní statistice a matematické statistice
9.4 Rozšíření elementárního statistického zpracování (Záškodný)………………………..88 9.4.1 Tabulka 9.4.2 Grafy 9.4.3 Empirické parametry
10. PRAVDĚPODOBNOST…………………………………………………………………94 10.1 Definice pravděpodobnosti (Záškodný)……………………………………………...94 10.1.1 Potřebné pojmy teorie pravděpodobnosti a jejich vazba na pojmy deskriptivní statistiky 10.1.2 Klasická a geometrická definice pravděpodobnosti, teoretické rozdělení
10.2 Vztahy pro počítání s pravděpodobnostmi (Záškodný)……………………………...98 10.2.1 Nepodmíněná a podmíněná pravděpodobnost 10.2.2 Vztahy pro pravděpodobnost neslučitelných (nezávislých) jevů
10.3 Teoretické momenty, momentová vytvořující funkce (Záškodný)…………………101 10.3.1 Teoretické parametry Oj, Cj, Nj 10.3.2 Regrese, korelace, kovariance 10.3.3 Momentová vytvořující funkce mx(z) pro náhodnou veličinu X
10.4 Teoretická rozdělení (Záškodný)…………………………………………………...105 10.4.1 Diskrétní teoretické rozdělení – Alternativní rozdělení 10.4.2 Diskrétní teoretické rozdělení – Binomické rozdělení 10.4.3 Diskrétní teoretické rozdělení – Poissonovo rozdělení 10.4.4 Diskrétní teoretické rozdělení – Geometrické rozdělení 10.4.5 Diskrétní teoretické rozdělení – Negativní binomické rozdělení 10.4.6 Diskrétní teoretické rozdělení – Hypergeometrické rozdělení 10.4.7 Diskrétní teoretické rozdělení – Multinomické rozdělení 10.4.8 Spojité teoretické rozdělení – Rovnoměrné rozdělení 10.4.9 Spojité teoretické rozdělení – Normální a normované normální rozdělení 10.4.10 Spojité teoretické rozdělení – Lognormální rozdělení 10.4.11 Spojité teoretické rozdělení – Gama rozdělení 10.4.12 Spojité teoretické rozdělení – Exponenciální rozdělení 10.4.13 Spojité teoretické rozdělení – χ2 rozdělení 10.4.14 Spojitá teoretická rozdělení – t rozdělení, F rozdělení 10.4.15 Některé limitní věty
11. ROZŠÍŘENÍ METOD MATEMATICKÉ STATISTIKY………………………………121 11.1 Rozšíření neparametrického testování (Záškodný)…………………………………121 11.1.1 χ2-test dobré shody 11.1.2 Kolmogorovův-Smirnovův test dobré shody pro jeden výběrový statistický soubor 11.1.3 Kolmogorovův-Smirnovův test dobré shody pro dva výběrové statistické soubory 11.1.4 Přehled dalších neparametrických testů
11.2 Rozšíření teorie odhadů (Záškodný)……………………………………………......127 11.2.1 Bodové odhady 11.2.2 Intervalové odhady
6
11.3 Rozšíření parametrického testování (Záškodný)……………………………………132 11.3.1 Statistická hypotéza a její test 11.3.2 Nejsilnější a stejnoměrně nejsilnější parametrické testy 11.3.3 Parametrický test teoretických parametrů normálního rozdělení 11.3.4 Parametrický test teoretických parametrů libovolného teoretického rozdělení 11.3.5 Parametrický test shody teoretických parametrů dvou normálních rozdělení
11.4 Rozšíření měření statistických závislostí (Záškodný)………………………………138 11.4.1 Statistická závislost a cesty jejího zkoumání 11.4.2 Elementární popis závislosti kvantitativních znaků 11.4.3 Kontingenční tabulka 11.4.4 Regresní analýza – Regresní model, regresní funkce 11.4.5 Regresní analýza – Přehled regresních modelů a jejich regresních funkcí 11.4.6 Regresní analýza – Míra variability nezávisle proměnné 11.4.7 Regresní analýza – Volba typu regresní funkce 11.4.8 Korelační analýza – Sdružené regresní přímky 11.4.9 Korelační analýza – Koeficient korelace lineární závislosti 11.4.10 Korelační analýza – Test významnosti koeficientu korelace lineární závislosti 11.4.11 Korelační analýza – Pořadová korelace a Spearmanův koeficient korelace 11.4.12 Korelační analýza – Test významnosti Spearmanova koeficientu korelace
12. ÚVOD DO ZDRAVOTNICKÉ STATISTIKY………………………………………...155 12.1 Demografie (Havránková, Havránek, Vurm)……………………………………….159 12.2.1 Formulace základních pojmů 12.2.2 Základní demografické údaje
12.2 Zdravotní stav (Havránková, Havránek, Vurm)……………………………………167 12.2.1 Zhoubné novotvary 12.2.2 Vrozené vývojové vady 12.2.3 Nemoci z povolání 12.2.4 Pracovní neschopnost
12.3 Síť zdravotnických zařízení a jejich činnost (Havránková, Havránek, Vurm)……..171 12.4 Ekonomické ukazatele (Havránková, Havránek, Vurm)…………………………...174 13. APLIKACE ROZŠÍŘENÝCH METOD………………………………………………..176 13.1 Aplikace v deskriptivní statistice (Záškodný)………………………………………176 13.2 Aplikace v pravděpodobnosti (Záškodný)…………………...……………………..179 13.2.1 Ilustrace – Binomické rozdělení – Momentová vytvořující funkce 13.2.2 Ilustrace – Binomické rozdělení – Cena léčebného zařízení 13.2.3 Ilustrace – Binomické rozdělení – Test náhodnosti výběru 13.2.4 Ilustrace – Poissonovo a normální rozdělení – Neparametrické testování 13.2.5 Ilustrace – Geometrické rozdělení – Pravděpodobnostní funkce 13.2.6 Ilustrace – Hypergeometrické rozdělení – Pravděpodobnostní funkce, aproximace 13.2.7 Ilustrace – Trinomické rozdělení – Preference lékaře 13.2.8 Ilustrace – Trinomické rozdělení – Cena léčebného zařízení 13.2.9 Ilustrace – Rovnoměrné rozdělení – Hustota pravděpodobnosti 13.2.10 Ilustrace – χ2 rozdělení – Momentová vytvořující funkce, gama funkce
13.3 Aplikace v matematické statistice (Záškodný)……………………………………..198
13.4
13.3.1 Neparametrické testování – Kolmogorovův-Smirnovův test 13.3.2 Teorie odhadů – Metoda maximální věrohodnosti pro normální rozdělení N(µ, σ) 13.3.3 Parametrické testování – Nalezení nejsilnějšího testu 13.3.4 Měření statistických závislostí – Analýza rozptylu 13.3.5 Regresní analýza – Jednodušší lineární regresní model pro lineární regresní funkci 13.3.6 Regresní analýza – Složitější lineární regresní model pro lineární regresní funkci 13.3.7 Korelační analýza – Lineární korelační závislost 13.3.8 Korelační analýza – Pořadová korelace Aplikace ve zdravotnictví – Ilustrace sledování výskytu zhoubných nádorů
(Havránek, Havránková, Vurm)…………………………...……………………………………….227
7
ČÁST C – STATISTICKÉ TABULKY (Havránková, Havránek) Tab. I Tab. II Tab. III Tab. IV Tab. V Tab. VI Tab. VII Tab. VIII
– Hodnoty distribuční funkce normovaného normálního rozdělení……………..233 – Kritické hodnoty u – testu……………………………………………………...236 – Kritické hodnoty t – testu………………………………………………………237 – Kritické hodnoty χ 2 - testu……………………………………………………..238 – Kritické hodnoty F - testu pro α = 0,05……………………………………...…239 – Kritické hodnoty F - testu pro α = 0,01………………………………………..241 – Kritické hodnoty Kolmogorovova-Smirnovova testu pro jeden výběr………..243 – Kritické hodnoty Kolmogorovova-Smirnovova testu pro dva výběry stejných rozsahů………………………………………………………………………...244
REJSTŘÍK (Havránková, Havránek)………………………………………………………245 LITERATURA…………………………………………………………………………….252 CV – Přemysl Záškodný CV – Renata Havránková CV – Jiří Havránek CV – Vladimír Vurm
8
ÚVOD Předmětem zdravotnické statistiky jsou aplikace deskriptivní a matematické statistiky a teorie pravděpodobnosti při zkoumání hromadných náhodných jevů ve zdravotnictví. Aby bylo možno tyto aplikace popsat, je potřebné se nejdříve zabývat deskriptivní a matematickou statistikou a teorií pravděpodobnosti. Jelikož rozsah výkladu statistiky a jejich aplikací ve zdravotnictví je vzhledem k zaměření studijního textu na konkrétní studijní obory do jisté míry omezen, bude účelné seznámit se v Části A (Základní metody) se základními statistickými metodami a průběžně je ilustrovat zadaným příkladem, jen okrajově se dotknout některých pojmů teorie pravděpodobnosti. Část A má charakter manuálu. Část B (Rozšíření metod) se snaží vyložit také základní teoretickou a aplikační dimenzi manuálu z Části A. V Části A (Základní metody) je studijní text určen převážně pro distanční formu studia, která je pojímána ve své kombinované podobě. Pro kombinovanou formu studia je v Části A každá dílčí kapitola výkladu uvedena cíli výkladu, na cíle výkladu navazuje přehled osvojovaných pojmů a poznatků. Dále je v Části A v závěru každé dílčí kapitoly připojen přehled kontrolních otázek a kontrolní příklad, jejichž správné zodpovězení a zpracování by mělo být signálem, že lze přistoupit k seznamování s následující kapitolou. Všechny kapitoly Části A jsou spojeny s průběžně řešeným ilustrujícím příkladem. Tento ilustrující příklad je postupně obohacován o výsledky, které odrážejí algoritmicky navazující kapitoly Části A. V souhrnu pak dosažené výsledky průběžně řešeného ilustrujícího příkladu představují realizaci projektu statistického šetření. V Části B (Rozšířené metody) budou statistické metody rozšířeny jak v oblasti deskriptivní statistiky, tak i v oblasti teorie pravděpodobnosti a matematické statistiky. Rovněž bude možné v Části B přistoupit k výčtu statistik ve zdravotnictví. Část B také obsahuje řadu aplikací jednotlivých rozšířených metod, většina aplikací je již spojena s oblastí zdravotnictví. I přes tento rozšiřující modul nelze takto pojaté studium zaměňovat se souvislým a uceleným studiem statistiky a teorie pravděpodobnosti jako samostatných vědních disciplín. Část C (Statistické tabulky) je věnována potřebným statistickým tabulkám. Statistické tabulky byly voleny tak, aby byly pokryty základní potřeby neparametrického testování, teorie odhadů, parametrického testování a regresní a korelační analýzy. Konkrétní podobu statistických tabulek lze také nalézt ve Statistických funkcích běžně dostupného programu Excel.
9
Struktura výkladu je spojena s algoritmem jednotlivých kroků statistického šetření. Algoritmus jednotlivých kroků statistického šetření je zobrazen modelem na obrázku Obr. 1. Tento model je možné použít k okamžitému zařazení statistické metody a k okamžitému zjištění předcházejících a navazujících metod. Model na obrázku Obr. 1 má rovněž významnou poznávací dimenzi – ukazuje, které operace analýzy, abstrakce a syntézy je třeba provádět, aby osvojení příslušné statistické metody bylo úplné. Předkládaný model na obrázku Obr. 1 obsahuje čtyři dílčí analyticko-syntetické struktury. Obrázek Obr. 1 umožňuje okamžitou strukturální orientace, která část statistiky a jejích aplikací ve zdravotnictví je při studiu právě osvojována. Je dobré vědět: zda je vymezován výběrový statistický soubor VSS (první dílčí struktura od strukturního prvku a-1 až k prvku b-1); zda je již metodami deskriptivní statistiky vytvářen empirický obraz výběrového statistického souboru VSS (druhá dílčí struktura od strukturního prvku a-2 až k prvku b-2); zda je již metodami matematické statistiky zkoumán pravděpodobnostní obraz výběrového statistického souboru VSS (třetí dílčí struktura od strukturního prvku a-3 až k prvku b-3); zda již bylo dalšími metodami matematické statistiky vstoupeno do procesu vytváření asociativního obrazu výběrového statistického souboru VSS (čtvrtá dílčí struktura od strukturního prvku a-4 až k prvku b-4); zda již bylo použitím metod deskriptivní a matematické statistiky přistoupeno k aplikaci těchto metod např. ve zdravotnictví (strukturní prvek a-5). Návaznost čtyř dílčích analyticko-syntetických struktur na jednotlivé základní metody deskriptivní a matematické statistiky a tím také na jednotlivé kapitoly výkladu je uvedena v legendě k obrázku Obr. 1. Tuto legendu si lze vždy opětovně přečíst před studiem další kapitoly zvláště Části A. Struktura modelu na obrázku Obr. 1 se stala základem struktury výkladu v předkládaném studijním textu. Popsaná struktura výkladu byla dodržena jak v Části A (Základní metody), tak v Části B (Rozšíření metod).
10
Hromadný náhodný jev a důvody jeho zkoumání
Statistická jednotka
Statistický znak
a-1
Hodnoty statistického znaku
Výběr statistických jednotek
Výběrový statistický soubor VSS jako část základního statistického souboru Potřeba empirického zkoumání metodami deskriptivní statistiky
Tabulky četností (Empirická rozdělení)
Tvorba škály Měření
Grafické vyjádření empirických rozdělení
Empirické parametry
Empirický obraz výběrového statistického souboru VSS Potřeba pravděpodobnostního zkoumání metodami matematické statistiky
Výběr vhodného teoretického rozdělení
Neparametrické testování
Kvantifikace teoretických parametrů
b-1 = a-2
b-2 = a-3
Srovnávání teoretických a empirických parametrů
Bodové a intervalové odhady (teorie odhadů)
Parametrické testování
Empirický a pravděpodobnostní obraz výběrového statistického souboru VSS Potřeba asociativního zkoumání metodami matematické statistiky b-3 = a-4
Statitická závislost
Regresní analýza
Korelační analýza
Empirický, pravděpodobnostní a asociativní obraz výběrového statistického souboru VSS Aplikace empirické a matematické statistiky v konkrétních oblastech vědy Aplikace empirické a matematické statistiky v konkrétních oblastech lidské činnosti b-4
Aplikovaná statistika např. ve zdravotnictví
a-5
Obr. 1: Model struktury statistiky jako celku.
11
LEGENDA k obrázku Obr. 1 Část A „Základní metody“ má charakter manuálu, jak provádět statistické šetření. Obrázek Obr. 1 popisuje algoritmus jednotlivých kroků statistického šetření. Jednotlivé kroky statistického šetření odrážejí 8 základních metod statistiky – 4 základní metody statistiky deskriptivní a 4 základní metody statistiky matematické. V Části B „Rozšíření metod“ je těchto 8 základních metod převedeno z návodu, jak statistiku při statistickém šetření používat, na teoretickou a aplikační základnu statistiky. Všech 8 příček algoritmu jednotlivých kroků statického šetření a tím také 8 základních metod deskriptivní a matematické statistiky bude nyní krátce připomenuto (lze přitom sledovat obrázek Obr. 1). Vstupem do statistického šetření a do postupné realizace statistického projektu je rozhodnutí, zda je k dispozici jev, který má hodně výsledků a který je spojen s různými pravděpodobnostmi naměřených statistických dat. Takový jev je nazván hromadným náhodným jevem, jeho nositelem je tzv. statistická jednotka a statisticky šetřenou vlastností statistické jednotky je tzv. statistický znak. Množina všech statistických jednotek tvoří základní statistický soubor (neboli populaci spojenou s populačními charakteristikami), který je obvykle procesem náhodného výběru redukován na výběrový statistický soubor. Výběrový statistický soubor je spojen s výběrovými charakteristikami. Ve studijním textu budou preferovány charakteristiky výběrové – výběrová chyba jako odlišnost mezi charakteristikami populačními a výběrovými bude minimalizována jednak dostatečným rozsahem výběrového statistického souboru, jednak důsledným upozorňováním na nezbytnost náhodnosti výběru statistických jednotek. Na případné odlišnosti od charakteristik populačních bude vždy upozorněno. Popsaný vstup do statistického šetření tvoří první příčku algoritmu jednotlivých kroků a je současně první základní metodou deskriptivní statistiky nazvanou „Formulace statistického šetření“. Zkoumaný statistický znak má obvykle velké množství hodnot. Výčet hodnot statistického znaku neumožňuje zjistit, které hodnoty jsou více či méně pravděpodobné. Proto se přistupuje ke škálování, které rozčlení hodnoty statistického znaku do přiměřeného počtu skupin, které nesou název prvky škály. Popsaný postup členění hodnot statistického znaku na prvky škály tvoří druhou příčku algoritmu jednotlivých kroků a je současně druhou základní metodou deskriptivní statistiky nazvanou „Škálování“. Maje k dispozici vhodnou škálu, vynoří se otázka, kolik statistických jednotek výběrového statistického souboru náleží k jednotlivým prvkům škály. Odpověď na tuto otázku tvoří třetí příčku algoritmu jednotlivých kroků statistického šetření a je současně třetí základní metodou deskriptivní statistiky nazvanou „Měření v deskriptivní statistice“. Po provedeném měření umožní deskriptivní statistika získat absolutní četnosti (počty statistických jednotek náležejících k jednotlivým prvkům škály), relativní četnosti a kumulativní četnosti. Naměřené četnosti je zapotřebí zpracovat. Postup jejich zpracování tvoří čtvrtou příčku algoritmu jednotlivých kroků statistického šetření a je současně čtvrtou, poslední základní metodou deskriptivní statistiky nazvanou „Elementární statistické zpracování“. V rámci této poslední základní metody deskriptivní statistiky je zpracována tabulka, jsou vykresleny grafy empirických rozdělení četností a jsou vypočítány empirické parametry empirických rozdělení. Mezi empirické parametry patří např. známý aritmetický průměr a směrodatná odchylka. Nedílnou součástí „Elementárního statistického zpracování“ je inter12
pretace vypočítaných empirických parametrů a vytvoření předpokladů pro implementaci 4 navazujících základních metod statistiky matematické. Cílem matematické statistiky je vyjadřovat výsledky deskriptivní statistiky vhodnými konstrukty odvozenými z teorie pravděpodobnosti a takto získané pravděpodobnostní konstrukty dále matematicky zpracovávat. Prvním konstruktem odvozeným z teorie pravděpodobnosti je teoretické rozdělení. Podaří-li se empirické rozdělení četností nahradit teoretickým rozdělením náhodné veličiny (náhodná veličina je dobrou analogií statistického znaku), jsou pootevřena vrátka pro používání diferenciálního a integrálního počtu nebo některých možností diskrétní matematiky. Nahrazování empirického rozdělení rozdělením teoretickým tvoří pátou příčku algoritmu jednotlivých kroků statistického šetření a současně první základní metodu matematické statistiky nazvanou „Neparametrické testování“. Bez objeveného teoretického rozdělení nemá v rámci výběrových charakteristik (tj. v rámci výběrového statistického souboru) obvykle smysl pokračovat dále v šetření statistického znaku jako zkoumané vlastnosti statistické jednotky. V rámci populačních charakteristik (tj. v rámci základního statistického souboru) lze se značnou pravděpodobností předpokládat platnost často se vyskytujícího teoretického rozdělení – rozdělení normálního. Druhým konstruktem odvozeným z teorie pravděpodobnosti jsou teoretické parametry, které jsou nedílnou součástí objeveného teoretického rozdělení. Bez odhadnutí hodnot teoretických parametrů nelze pootevřená vrátka pro využívání možností matematiky plně otevřít. Odhadování teoretických parametrů tvoří šestou příčku algoritmu jednotlivých kroků statistického šetření a současně druhou základní metodu matematické statistiky nazvanou „Teorie odhadů“. Třetím konstruktem odvozeným z teorie pravděpodobnosti je srovnávání odhadnutých teoretických parametrů probíhajícího statistického šetření s jinými teoretickými nebo empirickými parametry, které byly získány ze statistických šetření jiných. Srovnávání teoretických parametrů probíhajícího statistického šetření s jinými dosaženými výsledky tvoří sedmou příčku algoritmu jednotlivých kroků statistického šetření a současně třetí základní metodu matematické statistiky nazvanou „Parametrické testování“. I v rámci čtvrté, poslední základní metody matematické statistiky lze využívat další konstrukty odvozené z teorie pravděpodobnosti, tentokrát již v přímé kombinaci s aplikacemi matematiky. V rámci této poslední základní metody matematické statistiky je reagováno na možnost, že u statistické jednotky nemusí být zkoumán jen jeden statistický znak. Při zkoumání více statistických znaků je pracováno s vícerozměrným výběrovým statistickým souborem a je zjišťována možná závislost mezi např. dvěma statistickými znaky vybraných statistických jednotek. Zjišťování závislosti mezi např. dvěma statistickými znaky tvoří osmou a poslední příčku algoritmu jednotlivých kroků statistického šetření a je současně čtvrtou, poslední základní metodou matematické statistiky nazvanou „Měření statistických závislostí“. Jde o završení projektu statistického šetření a nejpoužívanějšími postupy je regresní a korelační analýza.
13
ČÁST A
ZÁKLADNÍ METODY
1. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – FORMULACE STATISTICKÉHO ŠETŘENÍ Tato první kapitola poskytne návod, jak používat první základní metodu deskriptivní statistiky nazvanou „Formulace statistického šetření“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky. Cíle: hromadný náhodný jev a důvod jeho zkoumání; výběrový statistický soubor jako část základního statistického souboru.
Osvojované pojmy a poznatky: Hromadný náhodný jev, statistická jednotka, statistický znak, hodnoty statistického znaku, základní statistický soubor, výběrový statistický soubor.
Zadaný příklad: Testům na „úspěšnost metody léčby daného typu nádorového onemocnění“ se podrobilo 4000 pacientů. Pro předběžnou informaci bylo třeba určit průměrný „stupeň zmenšení nádoru“ po aplikaci léčebné metody na škále 1 až 5 (1 – zmenšení o 80-100 %, 2 – zmenšení o 60-80 %, …., 5 – zmenšení o 0-20 %). Proto bylo náhodně vybráno 50 testů, jejichž výsledky jsou uvedeny v tabulce Tab. 1. Hromadný náhodný jev (úspěšnost metody léčby daného typu nádorového onemocnění) zpracujte metodami deskriptivní statistiky. xi 1 2 3 4 5
ni 9 15 20 4 2 Σ 50
ni/n 0,18 0,3 0,4 0,08 0,04 Σ 1,00
Σ ni/n 0,18 0,48 0,88 0,96 1,00
xini 9 30 60 16 10 Σ 125
xi2ni 9 60 180 64 50 Σ 363
Tab. 1: Výsledky zpracování 50 testů.
14
xi3ni 9 120 540 256 250 Σ 1175
xi4ni 9 240 1620 1024 1250 Σ 4143
Formulace statistického šetření je založena na vymezení následujících pojmů: hromadný náhodný jev
HNJ
statistická jednotka
SJ
statistický znak
SZ
hodnoty statistického znaku
HSZ
základní statistický soubor a jeho rozsah
ZSS
náhodný výběr
NV
výběrový statistický soubor a jeho rozsah
VSS
Hromadný náhodný jev HNJ (např. úspěšnost metody léčby daného typu nádorového onemocnění) je realizace činností nebo procesů, jejichž výsledek nelze s jistotou předpovědět a které se odehrávají v rozsáhlé množině prvků (např. pacientů). Tyto prvky mají určitou skupinu vlastností stejných (např. stejný typ nádorového onemocnění) a další skupinu vlastností odlišných (např. odlišný stupeň úspěšnosti metody léčby, odlišné hodnoty jiných parametrů celkového zdravotního stavu). Deskriptivní a matematická statistika a teorie pravděpodobnosti se zabývají kvalitativní a kvantitativní analýzou zákonitostí hromadných náhodných jevů. Statistická jednotka SJ je vymezena stejnými vlastnostmi prvků zkoumané množiny (např. pacienti se stejným typem nádorového onemocnění). Statistický znak SZ je dán některou z odlišných vlastností prvků zkoumané množiny (např. odlišným stupněm úspěšnosti léčby, některým dalším parametrem celkového zdravotního stavu pacientů). Hodnota statistického znaku HSZ je způsob popisu zkoumaného statistického znaku (např. popis úspěšnosti léčby zmenšením nádoru od 0 % až do 100 %). Základní statistický soubor ZSS (populace) je dán všemi statistickými jednotkami, jeho rozsah je roven počtu všech statistických jednotek (např. rozsah zkoumaného základního statistického souboru ZSS je u zadaného příkladu roven celkovému počtu 4000 pacientů). Obvykle není v praktických možnostech statistiků zkoumat statistický znak u všech statistických jednotek a pracovat s populačními charakteristikami. Vhodnou cestou je přistoupit k omezení počtu statistických jednotek.
15
Náhodný výběr NV je omezení počtu zkoumaných statistických jednotek takovým způsobem, aby bylo možné přenášet získané výsledky na celý základní statistický soubor ZSS. Existují rozmanité způsoby náhodného výběru (losování, generování tabulkou náhodných čísel, stratifikovaný výběr). Je potřebné ověřovat, zda je možno získaný výběr považovat za náhodný. Výběrový statistický soubor VSS je spojen s výběrovými charakteristikami a je dán těmi statistickými jednotkami, které byly vybrány ze základního statistického souboru procesem náhodného výběru. Rozsah výběrového statistického souboru je roven počtu vybraných statistických jednotek (např. rozsah u zadaného příkladu je roven počtu 50 vybraných pacientů – k minimalizaci výběrové chyby jako odlišnosti mezi populačními a výběrovými charakteristikami je zapotřebí, aby rozsah byl větší než 30 statistických jednotek). Výběrový statistický soubor VSS je jednorozměrným, je-li u něj zkoumán jen jeden statistický znak, vícerozměrným, je-li zkoumáno více statistických znaků. Formulace statistického šetření je u zadaného příkladu uskutečněna vymezením výběrového statistického souboru 50 pacientů. V rámci tohoto vymezení musí být přesně charakterizovány všechny navazující pojmy – zkoumaný hromadný náhodný jev HNJ, definice statistické jednotky SJ, určení zkoumaného statistického znaku SZ, charakteristika hodnot statistického znaku HSZ, přesné vymezení základního statistického souboru ZSS a konečně zajištění procedury náhodného výběru NV.
Kontrolní otázky: Co je předmětem zkoumání statistiky a teorie pravděpodobnosti? Co je to hromadný náhodný jev? Jak je vymezena statistická jednotka? Jak je vymezen statistický znak a jeho hodnoty? Jaký je rozdíl mezi základním a výběrovým statistickým souborem? Proč je důležitý proces náhodného výběru?
Kontrolní příklad: Proveďte formulaci statistického šetření počtu chybných odpovědí v testu o příčinách rakoviny, kterému se podrobila skupina respondentů vybraná z vymezené populace obyvatelstva (byly nalezeny dvě chybné odpovědi u 11 respondentů, tři chybné odpovědi u 30 respondentů, čtyři chybné odpovědi u 7 respondentů, 5 chybných odpovědí u 2 respondentů).
16
2. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – ŠKÁLOVÁNÍ Tato druhá kapitola poskytne návod, jak používat druhou základní metodu deskriptivní statistiky nazvanou „Škálování“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky.
Cíle: tvorba škály; výběr typu škály.
Osvojované pojmy a poznatky: Škála, klasifikace škál, parametry vybraného typu škály.
Škálování je vhodné vyjádření hodnot statistického znaku prostřednictvím prvků škály (seskupení hodnot statistického znaku do rozumných skupin, prvky škály jsou jednotlivé skupiny). Souhrn prvků škály se nazývá škála. Podle povahy statistického znaku je možné rozlišovat např. čtyři typy škál: nominální, ordinální, kvantitativní metrickou a absolutní metrickou. Klasifikace škál lze využít také ke klasifikaci statistických znaků. V některých případech lze hodnoty statistického znaku ihned ztotožnit se škálou a škálování není nutné provádět. Nominální škála je klasifikací do kategorií (prvky škály jsou jednotlivé kategorie). O každých dvou statistických jednotkách výběrového statistického souboru lze rozhodnout, zda jsou z hlediska zkoumaného statistického znaku totožné, nebo rozdílné (např. pohlaví nebo zaměstnání, jsou-li statistickými jednotkami individuální osoby). Ordinální škála umožňuje nejen rozhodnout o totožnosti nebo rozdílnosti statistických jednotek, ale také stanovit jejich pořadí (např. dosažení stupně školního vzdělání). Prvky škály jsou jednotlivá pořadí. Neumožňuje stanovit vzdálenost mezi dvěma sousedními statistickými jednotkami uspořádanými podle této škály.
17
Kvantitativní metrická škála již umožňuje stanovit vzdálenost mezi dvěma sousedními statistickými jednotkami – z tohoto pohledu je nezbytné definovat jednotku škály (např. bodové hodnocení procentuální úspěšnosti metody léčby nádorového onemocnění nebo jiného parametru celkového zdravotního stavu, teplota ve stupních Celsia). Prvky škály jsou jednotlivé body škály vyjádřené číselnými velikostmi. Kvantitativní metrická škála vyjadřuje hodnoty statistického znaku bez možnosti věcně interpretovat počátek (nulový bod) škály – volba počátku škály je proto libovolná. Absolutní metrická škála je kvantitativní metrická škála, kde navíc lze věcně interpretovat počátek škály – nula škály odpovídá skutečné nulové hodnotě zkoumaného statistického znaku (např. teplota ve stupních Kelvina, počet chyb při testování, délka školní docházky). Prvky škály jsou jednotlivé body škály vyjádřené nejen číselnou velikostí, ale také absolutní nulou škály. Pouze absolutní metrická škála umožňuje počítat podíly, podíl libovolných dvou bodů škály nezávisí na volbě jednotky škály.
V zadaném příkladě jsou hodnoty statistického znaku „úspěšnost léčby nádorového onemocnění“ dány stupni 1, 2, …, 5. Je zřejmé, že musel být vyvinut způsob vyjádření úspěšnosti léčby nádorového onemocnění např. procentuálními intervaly zmenšení nádoru – stupně 1, 2, …, 5 lze tedy ztotožnit se škálou, která je typickou kvantitativní metrickou škálou. Prvky škály jsou body škály vyjádřené číselnými velikostmi x1 = 1, x2 = 2, .…, x5 = 5.
Kontrolní otázky: Co je to škálování? Podle čeho lze rozlišovat typy škál? Jaké jsou základní typy škál? Jaký je rozdíl mezi kvantitativní metrickou škálou a absolutní metrickou škálou?
Kontrolní příklad: Navrhněte škálování u statistického šetření, při němž je zkoumán počet chybných odpovědí v testu o příčinách rakoviny, kterému se podrobila skupina respondentů vybraná z vymezené populace obyvatelstva (dvě chybné odpovědi byly nalezeny u 11 respondentů, tři chybné odpovědi u 30 respondentů, čtyři chybné odpovědi u 7 respondentů, 5 chybných odpovědí u 2 respondentů).
18
3. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – MĚŘENÍ V DESKRIPTIVNÍ STATISTICE Tato třetí kapitola poskytne návod, jak používat třetí základní metodu deskriptivní statistiky nazvanou „Měření v deskriptivní statistice“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky.
Cíle: proces měření; vyjádření výsledků měření.
Osvojované pojmy a poznatky: Měření, absolutní četnost, relativní četnost, kumulativní četnosti.
Měření je proces, kterým je každé statistické jednotce výběrového statistického souboru VSS (o rozsahu n statistických jednotek) přiřazován jeden z k prvků škály x1, x2, .…, xk. Výsledky měření jsou zjištění, že prvek škály xi (i = 1, 2, …, k) byl naměřen ni krát. Součet všech hodnot ni (i = 1, 2, …, k), kterým se říká absolutní četnosti, musí být roven rozsahu n výběrového statistického souboru VSS. Možné výsledky měření xi (i = 1, 2, …, k) lze hodnotit podle toho, jak velkou mají pravděpodobnost, že při měření nastanou. Statistická definice pravděpodobnosti vychází z n krát nezávisle provedeného měření (počet měření n odpovídá rozsahu výběrového statistického souboru VSS) a ze zjištěných absolutních četností ni možných výsledků měření. Statistická pravděpodobnost p(xi) výsledku xi je pak dána tzv. relativní četností ni/n. Součet všech relativních četností musí být roven 1. Mezi výsledky měření lze zařadit také kumulativní četnosti. Kumulativní četnost ∑ni/n udává pravděpodobnost, že bude naměřen výsledek měření menší nebo rovný výsledku xi. Je zřejmé, že kumulativní četnosti je možné zjišťovat jen u kvantitativních metrických nebo absolutních metrických škál. Kumulativní četnosti mají velký význam např. při konstrukci finančních a ekonomických rozvah.
19
V rámci zadaného příkladu lze prostřednictvím tabulky Tab. 1 vysledovat, že bylo pracováno se škálou o 5 prvcích x1 = 1, x2 = 2, .…, x5 = 5 (viz první sloupec tabulky), jejichž absolutní četnosti byly postupně n1 = 9, n2 = 15, n3 = 20, n4 = 4, n5 = 2 (viz druhý sloupec tabulky). Relativní četnosti ni/n jsou pak uvedeny v třetím sloupci tabulky, kumulativní četnosti v sloupci čtvrtém. Z padesáti pacientů výběrového statistického souboru (n = 50) bylo u 9 pacientů zmenšení nádoru o 80-100 % (pravděpodobnost tohoto prvku škály je 0,18), u 15 pacientů zmenšení o 60-80 % (pravděpodobnost 0,30), u 20 pacientů zmenšení o 40-60% (pravděpodobnost 0,40), u 4 pacientů zmenšení o 20-40 % (pravděpodobnost 0,08) a u 2 pacientů zmenšení o 0-20 % (pravděpodobnost 0,04). V rámci zadaného příkladu je kumulativní četnost např. výsledku x3 = 3 dána pravděpodobností 0,88. Tuto pravděpodobnost, že při zkoumání zmenšení nádoru po aplikaci léčebné metody bude zjištěn prvek škály 1, 2 nebo 3, lze určit jako součet pravděpodobností p(1) + p(2) + p(3) = 0,18 + 0,30 + 0,40 = 0,88. Pravděpodobnost zmenšení nádoru o 40-100 % je tedy značně vysoká.
V případě kvantitativní metrické škály a absolutní metrické škály lze měření považovat za zobrazení množiny statistických jednotek (např. výběrového statistického souboru) do množiny reálných čísel. Metody měření jsou závislé na odborné oblasti, v jejímž rámci byl vymezen zkoumaný výběrový statistický soubor VSS. Odlišné budou např. při zkoumání hromadného náhodného jevu v sociologii (rozmanité dotazníkové formy měření) a při zkoumání hromadného náhodného jevu v medicíně (rozmanité způsoby měření velikosti nádorů před aplikací a po aplikaci léčebné metody). Metoda měření musí splňovat podmínky validity (zda je měřeno to, co má být měřeno), reliability (reprodukovatelnost měření) a objektivnosti (zda různí posuzovatelé budou měřit statistické jednotky stejným způsobem). Výsledky měření zkoumaného výběrového statistického souboru VSS jsou dány údaji o hodnotách statistického znaku, tj. údaji o absolutních četnostech a relativních četnostech jednotlivých prvků škály a údaji o četnostech kumulativních.
20
Kontrolní otázky: Co je to měření při statistickém zpracování hromadného náhodného jevu? Na čem závisí volba metody měření? Jaké podmínky musí splňovat metoda měření? Co jsou to výsledky měření? Jaká je statistická definice pravděpodobnosti? Jak je definována absolutní a relativní četnost? Jak jsou definovány kumulativní četnosti?
Kontrolní příklad: Navrhněte proces měření u statistického šetření, při němž je zkoumán počet chybných odpovědí v testu o příčinách rakoviny, kterému se podrobila skupina respondentů vybraná z vymezené populace obyvatelstva (dvě chybné odpovědi byly nalezeny u 11 respondentů, tři chybné odpovědi u 30 respondentů, čtyři chybné odpovědi u 7 respondentů, 5 chybných odpovědí u 2 respondentů). Zapište výsledky měření pomocí absolutní a relativní četnosti a také pomocí kumulativní četnosti.
21
4. ZÁKLADNÍ METODY DESKRIPTIVNÍ STATISTIKY – ELEMENTÁRNÍ STATISTICKÉ ZPRACOVÁNÍ Tato čtvrtá kapitola poskytne návod, jak používat čtvrtou základní metodu deskriptivní statistiky nazvanou „Elementární statistické zpracování“ (viz Legenda k obrázku Obr.1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky. Cíle: cíle zkoumání deskriptivní statistiky; empirický obraz výběrového statistického souboru.
Osvojované pojmy a poznatky: Tabulky četností, empirické rozdělení, grafické vyjádření, grafické vyjádření empirického rozdělení, polygon četnosti, empirické parametry, obecné momenty, centrální momenty, normované momenty.
Výsledky měření je potřebné uspořádat, graficky vyjádřit a parametrizovat vhodnými empirickými parametry. Tyto úkoly lze splnit pomocí elementárního statistického zpracování. Výsledkem elementárního statistického zpracování je empirický obraz zkoumaného výběrového statistického souboru VSS. Elementárním statistickým zpracováním je rovněž završena ta skupina základních statistických metod, kterou lze nazvat deskriptivní statistikou. Dílčí úkoly „uspořádání“, „grafické vyjádření“ a „parametrizace“ lze vystihnout třemi základními výsledky elementárního statistického zpracování – „tabulkou“, „empirickými rozděleními (nejlépe v podobě polygonu)“ a „empirickými parametry“.
22
4.1 Tabulka
Tabulka představuje formu uspořádání výsledků měření. Při popisu tabulky lze sledovat tabulku Tab. 1 uvedenou u zadaného ilustrujícího příkladu v kapitole 1. Tabulka obsahuje osm sloupců. První čtyři sloupce jsou potřebné jednak pro zpřehlednění výsledků měření (splnění úkolu „uspořádání“), jednak pro znázornění empirických rozdělení (splnění úkolu „grafického vyjádření“). Zbývající čtyři sloupce mají pomocný význam a slouží k snadnému a rychlému výpočtu empirických parametrů (splnění úkolu „parametrizace“).
První čtyři sloupce obsahují: sloupec označený xi
prvky škály;
sloupec označený ni
absolutní četnosti prvků škály;
sloupec označený ni/n
relativní četnosti prvků škály;
sloupec označený ∑ni/n
kumulativní četnosti.
Další čtyři sloupce obsahují součiny potřebné pro výpočet empirických parametrů: sloupec obsahuje součiny xini; sloupec obsahuje součiny xi2ni; sloupec obsahuje součiny xi3ni; sloupec obsahuje součiny xi4ni.
Tabulka je uzavřena součty údajů v jednotlivých sloupcích. V prvních čtyřech sloupcích mají tyto součty význam kontrolní, v dalších čtyřech sloupcích jsou potřebné pro výpočet empirických parametrů.
23
4.2 Empirická rozdělení četností
Empirická rozdělení četností lze členit na dva základní druhy. První druh přiřazuje prvkům škály xi odpovídající absolutní četnosti ni nebo relativní četnosti ni/n. Druhý druh přiřazuje prvkům škály xi odpovídající kumulativní četnosti ∑ni/n. Grafické vyjádření empirického rozdělení jednorozměrného statistického souboru je spojeno s používáním souřadnicového systému v rovině. V tomto souřadnicovém systému jsou vždy na vodorovnou osu nanášeny prvky škály xi, na svislou osu odpovídající četnosti. Grafické vyjádření těchto funkčních závislostí je dáno množinou bodů, jejichž první souřadnicí je vždy prvek škály xi, druhou souřadnicí je odpovídající četnost. Spojením sousedních bodů této množiny úsečkami lze obdržet lomenou čáru, která je nazývána „polygon“. Lze rozeznávat „polygon absolutních četností“, „polygon relativních četností“, „polygon kumulativních četností“. Vedle grafického vyjádření empirických rozdělení polygonem je používána řada pomocných grafických znázornění, jejichž „předností“ je odklon od matematicky exaktního aparátu a určitá rychlá orientace, nedostatkem pak nemožnost navázat prohloubeným aparátem matematické statistiky, především z hlediska zkoumání závislostí u vícerozměrných statistických souborů. Mezi tato pomocná grafická vyjádření patří sloupcové diagramy, sloupkové grafy, výsečové grafy apod. Všeobecně lze doporučit jednoznačný příklon k exaktnímu grafickému vyjadřování. Význam grafického vyjádření empirického rozdělení je značný. Grafické vyjádření umožňuje okamžité zkoumání, kterému teoretickému rozdělení (z hlediska teorie pravděpodobnosti) se přibližuje empirické rozdělení, získané jako výsledek deskriptivní statistiky. Další význam spočívá v okamžitém orientačním vyhodnocení parametrů polohy, variability, šikmosti a špičatosti empirického rozdělení a tím i zkoumaného statistického souboru.
V rámci zadaného příkladu si lze procvičit užitím tabulky Tab. 1 v kapitole 1. např. konstrukci polygonu absolutních a kumulativních četností. Na grafu uvedeném na obrázku Obr. 2 je znázorněn polygon absolutních četností, na grafu uvedeném na obrázku Obr. 3 pak polygon kumulativních četností.
24
25
1
20
0,8
15
0,6
10
0,4
5
0,2
0 1
2
3
4
0
5
1
Obr. 2 (graf):
2
3
4
5
Obr. 3 (graf):
Polygon absolutních četností.
Polygon kumulativních četností.
25
4.3 Empirické parametry
Empirické parametry stručně a jednoduše vystihují povahu zkoumaného statistického souboru. Většinou jsou empirické parametry vztahovány k výběrovému statistickému souboru, proto často nesou pojmenování „výběrové parametry“ a jsou součástí výběrového statistického šetření. Výběrové parametry patří mezi významné výběrové charakteristiky výběrového statistického šetření. Výběrové statistické šetření má vedle mnoha kladů i některé zápory. K hlavním záporům patří zatížení výběrovou chybou. Aby byla výběrová chyba minimalizována a aby bylo možno rozšířit poznatky získané výběrovým statistickým šetřením na základní statistický soubor (na populaci), je nutno zajistit reprezentativnost výběrového statistického souboru. Nejspolehlivější cestou k zajištění reprezentativnosti je provedení náhodného výběru statistických jednotek výběrového statistického souboru. Obvykle lze na základě náhodného výběru ztotožnit výběrové charakteristiky s charakteristikami populačními, přesahuje-li rozsah výběrového statistického souboru alespoň 30 statistických jednotek. Jinou možností je i záměrný výběr, kdy zkušený odborník vybírá ze základního statistického souboru určité statistické jednotky záměrně tak, aby byl výběrový statistický soubor souborem reprezentativním. Výběrové parametry mají statisticko-pravděpodobnostní charakter a z tohoto důvodu se chovají jako zvláštní skupina „statistických znaků“. Tento pohled nebude v dalším výkladu rozvíjen, je však nutno na něj upozornit, zvláště z hlediska hlubšího studia statistiky a teorie pravděpodobnosti. V dalším výkladu budou uvažovány výběrové charakteristiky a tím i výběrové parametry, které budou získány prostřednictvím náhodného výběru s rozsahem větším než 30 statistických jednotek. Na vyskytnuvší se rozdíly mezi populačními a výběrovými charakteristikami bude upozorněno. Empirické parametry lze dělit podle toho, který rys zkoumaného statistického souboru (zkoumaného statistického znaku) vystihují: parametr polohy, parametr proměnlivosti (variability), parametr šikmosti,
26
parametr špičatosti. Druhým dělením je dělení empirických parametrů podle způsobu jejich výpočtu: momentové parametry (vystupují jako funkce všech hodnot statistického znaku), kvantilové parametry (reprezentují jen určité hodnoty statistického znaku). Kvantilové parametry úzce souvisejí s momentovými parametry, jsou však konstruovány odlišným způsobem. Empirickým kvantilem je vždy určitá hodnota statistického znaku (již lze vyjádřit kvantitativní metrickou nebo absolutní metrickou škálou), která dělí počet menších a větších hodnot statistického znaku v určitém poměru. Např. kvantil dělící hodnoty statistického znaku na dvě stejné části (tj. padesátiprocentní kvantil) je nazýván „medián“. Mezi další známé kvantily patří kvartily, decily a percentily. Kvantilové parametry nebudou blíže zkoumány. Momentové parametry jsou děleny na obecné momenty, centrální momenty a normované momenty. Pomocí obecného momentu 1. řádu lze výstižně charakterizovat parametry (aritmetický průměr), pomocí centrálního momentu 2. řádu lze charakterizovat parametry (empirický rozptyl), pomocí normovaného momentu 3. a 4. řádu pak parametry šikmosti a špičatosti. Jelikož normované momenty lze vypočítat pomocí centrálních momentů a centrální momenty pomocí momentů obecných, bude v dalším výkladu zvolen následující postup (písmenem x bude v rámci tohoto postupu označen zkoumaný statistický znak SZ-x, prvky škály statistického znaku budou označeny xi, absolutní četnosti ni a rozsah výběrového statistického souboru n): uvedení obecných vztahů pro obecné a centrální momenty; vyjádření potřebných centrálních momentů pomocí momentů obecných; vyjádření potřebných normovaných momentů pomocí momentů centrálních.
a) Obecné vztahy pro obecné a centrální parametry, variační koeficient Obecný moment r-tého řádu:
Or ( x ) =
1 ni xi r ∑ n
Obecný moment 1. řádu:
O1 ( x ) =
1 ∑ ni xi (aritmetický průměr) n
27
Centrální moment r-tého řádu:
Cr ( x ) =
1 r ni ( xi − O1 ) ∑ n
Centrální moment 2. řádu:
C2 ( x ) =
1 2 ni ( xi − O1 ) ∑ n
(empirický rozptyl, střední kvadratická chyba) Směrodatná odchylka:
S x = C2
Variační koeficient:
Sx S , variační koeficient v procentech 100 x O1 O1
b) Vyjádření potřebných centrálních momentů pomocí momentů obecných (odvození s použitím binomické věty) C2 = O2 – O12 C3 = O3 – 3O2O1 + 2O13 C4 = O4 – 4O3O1 + 6O2O12 – 3O14
c) Vyjádření potřebných normovaných momentů pomocí momentů centrálních, obecný vztah pro normovaný moment r-tého řádu N3 =
C3 C2 C2
N4 =
C4 C2 2
n x − O1 Nr ( x ) = ∑ i i n Sx
r
Postup pro výpočet obecných, centrálních a normovaných momentů byl uskutečněn pomocí kroků ad a), ad b) a ad c). Jelikož lze pomocí tohoto postupu určit všechny potřebné momentové parametry, lze nyní popsat parametr polohy, proměnlivosti, šikmosti a špičatosti.
28
Parametr polohy je určen obecným momentem 1. řádu O1 a nese název „aritmetický průměr“. Polohou empirického rozdělení četností je myšleno jeho umístění na vodorovné ose souřadnicového systému. V uvedeném vztahu jde o vážený aritmetický průměr. Parametr proměnlivosti je určen centrálním momentem 2. řádu C2 a nese název „empirický rozptyl“ (odmocnina rozptylu pak nese název „směrodatná odchylka“). Směrodatná odchylka ukazuje, jakou výpovědní hodnotu má aritmetický průměr. Je-li směrodatná odchylka velká, výpovědní hodnota aritmetického průměru je malá a opačně. Variační koeficient v procentuální podobě udává, kolik procent z aritmetického průměru tvoří směrodatná odchylka. Parametr šikmosti je nejčastěji určován pomocí normovaného momentu 3. řádu N3 a nese pak název „koeficient šikmosti“. Je-li koeficient šikmosti kladný, pak prvky škály ležící vlevo od aritmetického průměru mají vyšší četnosti (kladně zešikmené rozdělení četností – větší koncentrace menších prvků škály, menších hodnot statistického znaku) a opačně. Parametr špičatosti je nejčastěji určován pomocí normovaného momentu 4. řádu N4 a nese pak název „koeficient špičatosti“. Špičatějšímu rozdělení četností při daném rozptylu odpovídá vyšší hodnota koeficientu špičatosti než rozdělení ploššímu. Používá se rovněž veličina „exces“, definovaná vztahem exces = N4 – 3. Exces srovnává špičatost empirického rozdělení se špičatostí známého normovaného normálního rozdělení. Je-li exces kladný, je empirické rozdělení špičatější než toto rozdělení. Ideální koeficient špičatosti má hodnotu 3.
29
4.4 Ilustrace výpočtu empirických parametrů
Pro zadaný příklad bude nyní proveden výpočet empirických parametrů polohy, proměnlivosti, šikmosti a špičatosti. Nejdříve budou užitím 5. až 8. sloupce tabulky Tab. 1 vypočítány obecné momenty 1. až 4. řádu:
O1 = 2,50 O2 = 7,26 O3 = 23,50 O4 = 82,86 Další část postupu bude spočívat ve výpočtu centrálních momentů 2. až 4. řádu:
C2 = 1,010
(směrodatná odchylka Sx = 1,005, variační koeficient je přibližně 40 %)
C3 = 0,300 C4 = 2,923 Závěrečná část výpočtu empirických parametrů bude směřovat k určení normovaných momentů 3. a 4. řádu a excesu:
N3 =
C3 = 0,296 C2 C2
N4 =
C4 = 2,865 C2 2
exces = N4 – 3 = – 0,135 Parametr polohy (aritmetický průměr) O1 ukazuje na umístění empirického rozdělení četností na vodorovné ose – aritmetický průměr zmenšení nádoru po aplikaci léčebné metody je v prvcích škály 2,5, v hodnotách statistického znaku tomu odpovídá průměrné zmenšení nádoru o 60 %. Směrodatná odchylka vyjádřená odmocninou z C2 dává informaci o výpovědní hodnotě aritmetického průměru. Informaci o výpovědní hodnotě lze kvantifikovat následujícím způsobem – v rozmezí zmenšení nádoru v prvcích škály od 1,5 do 3,5 (tj. v hodnotách statistického znaku od 80 % do 40 %) se nachází zhruba 70 % pacientů (použitelnost této infor-
30
mace závisí na tom, zda empirické rozdělení četností lze nahradit teoretickým normálním rozdělením). Kladný koeficient šikmosti N3 ukazuje na větší koncentraci nižších prvků škály, větších hodnot zmenšení nádoru. Obrázek Obr. 2 toto zjištění potvrzuje – mírná asymetrie vlevo vůči aritmetickému průměru. Poměrně vysoká hodnota koeficientu špičatosti N4 a rovněž hodnota excesu ukazují na srovnatelnost se špičatostí normovaného normálního rozdělení. Toto sdělení dodatečně podporuje závěr o dobré výpovědní hodnotě aritmetického průměru.
Kontrolní otázky: Jaké jsou hlavní cíle elementárního statistického zpracování? Jak lze vhodným způsobem uspořádat výsledky měření? Jak lze vhodným způsobem graficky vyjádřit výsledky měření? Jak lze vhodným způsobem parametrizovat výsledky měření? Co je to empirické rozdělení četností? Jak lze graficky vyjádřit empirické rozdělení jednorozměrného statistického souboru? Co je to polygon četností? Jaký je význam grafického vyjádření empirického rozdělení? Jak lze dělit empirické parametry podle popisovaného rysu zkoumaného statistického souboru? Jak lze dělit empirické parametry podle způsobu výpočtu, co jsou to kvantily? Jak jsou definovány obecné, centrální a normované momenty? Co je nejdůležitějším parametrem polohy, proměnlivosti (variability), šikmosti a špičatosti, jaká je statistická interpretace těchto parametrů? Jak je definována veličina „exces“ a jaký je její význam?
Kontrolní příklad: Proveďte elementární statistické zpracování u statistického šetření, při němž je zkoumán počet chybných odpovědí v testu o příčinách rakoviny, kterému se podrobila skupina respondentů vybraná z vymezené populace obyvatelstva (dvě chybné odpovědi byly nalezeny u 11 respondentů, tři chybné odpovědi u 30 respondentů, čtyři chybné odpovědi u 7 respondentů, 5 chybných odpovědí u 2 respondentů). Zapište výsledky měření pomocí tabulky, sestrojte grafické vyjádření empirického rozdělení četností, určete momentové charakteristiky polohy, variability, šikmosti a špičatosti u tohoto empirického rozdělení.
31
5. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY – NEPARAMETRICKÉ TESTOVÁNÍ Tato pátá kapitola poskytne návod, jak používat první základní metodu matematické statistiky nazvanou „Neparametrické testování“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky. Cíle: pravděpodobnostní zkoumání výběrového statistického souboru: výběr odpovídajícího teoretického rozdělení; pravděpodobnostní obraz výběrového statistického souboru: testování neparametrických hypotéz.
Osvojované pojmy a poznatky: Teoretické rozdělení, testování neparametrických hypotéz, test nulové hypotézy H0, přijetí nebo zamítnutí nulové hypotézy H0, hladina statistické významnosti α, např. α = 0,05.
Přiřazení teoretického rozdělení rozdělení empirickému je obsahové vystižení statistické metody, která nese název „neparametrické testování“ nebo také „testování neparametrických hypotéz“. Neparametrická hypotéza je domněnka, které teoretické rozdělení lze přiřadit rozdělení empirickému. V rámci této statistické metody bude potřebné zabývat se intervalovým rozdělením četností, pojmem „teoretické rozdělení“, aparátem neparametrického testování a zadaným příkladem. Význam testování neparametrických hypotéz spočívá především v tom, že je vždy výhodné nahradit empirické rozdělení rozdělením teoretickým – s teoretickým rozdělením je spojen jednoduchý matematický aparát, který umožňuje získat informace jinak nedostupné.
32
5.1 Intervalové rozdělení četností
V některých případech (např. pro potřeby neparametrického testování) je užitečné rozčlenit rozpětí hodnot statistického znaku nebo rozpětí prvků metrické škály u zkoumaného jednorozměrného statistického souboru na určitý počet intervalů. Do každého z vytvořených intervalů pak budou zahrnuty odpovídající hodnoty statistického znaku nebo odpovídající prvky metrické škály. Zpravidla se doporučuje sestrojit 5 až 20 intervalů stejné délky, existují také pravidla (vycházející z rozsahu n výběrového statistického souboru VSS) pro hrubé vymezení počtu k intervalů (např. Sturgesovo pravidlo k = 1 + 3,3log10n). Patřičnou pozornost je zapotřebí věnovat také stanovení hranic intervalů. V rámci zadaného příkladu bude zjišťováno, zda empirické rozdělení na grafu na obrázku Obr. 2 lze nahradit normálním rozdělením. Grafem tzv. hustoty pravděpodobnosti normálního rozdělení je Gaussova křivka, definičním oborem hustoty pravděpodobnosti je množina všech reálných čísel – dílčí intervaly je zapotřebí volit tak, aby „pokryly“ interval (-∞; ∞). Tento záměr a přibližné použití např. Sturgesova pravidla pro rozsah výběrového statistického souboru n = 50 vede ke stanovení počtu 5 dílčích intervalů a jejich hranic, tak jak je to uvedeno v tabulce Tab. 2.
xi 1 2 3 4 5 Σ
interval (−∞; 1, 5〉 (1, 5; 2,5〉 (2,5; 3, 5〉 (3,5; 4, 5〉 (4,5; ∞)
ni 9 15 20 4 2 50
ni / n 0,18 0,3 0,4 0,08 0,04 1,00
Σni/n 0,18 0,48 0,88 0,96 1,00
xini 9 30 60 16 10 125
xi2ni 9 60 180 64 50 363
Tab. 2: Intervalové rozdělení četností.
33
xi3ni 9 120 540 256 250 1175
xi4ni 9 240 1620 1024 1250 4143
5.2 Teoretické rozdělení
Pojem „teoretické rozdělení“ je jedním ze základních pojmů teorie pravděpodobnosti. Hromadný náhodný jev HNJ, který je předmětem statistiky i teorie pravděpodobnosti, je zkoumán v teorii pravděpodobnosti prostřednictvím pojmů „náhodný pokus“ a „náhodná veličina“. Náhodný pokus je realizací činností nebo procesů, jejichž výsledek nelze s jistotou předpovědět. Náhodná veličina je pak proměnnou, jejíž hodnota je jednoznačně určena výsledkem náhodného pokusu. „Hodnota náhodné veličiny“ je pojem, který má výraznou teoretickou dimenzi. Určitou analogií tohoto pojmu, jehož původ lze nalézt v teorii pravděpodobnosti, je pojem „hodnota statistického znaku HSZ“, jehož původ lze objevit v deskriptivní statistice. Pojem „hodnota statistického znaku HSZ“ má naopak výraznou dimenzi empirickou. Náhodné veličiny lze členit na diskrétní (hodnoty diskrétní náhodné veličiny na sebe „nenavazují“ a budou označovány xi) a spojité (hodnoty spojité náhodné veličiny budou ozna-
čovány x a tyto hodnoty na sebe spojitě „navazují“ – nelze nalézt nejbližší sousední hodnotu). Hodnotám náhodné veličiny lze přiřazovat pravděpodobnosti, s níž nastanou při náhodném pokusu. Tyto pravděpodobnosti mohou být definovány klasicky (počet výsledků náhodných pokusů příznivých dané hodnotě dělený počtem všech výsledků náhodných pokusů) nebo např. geometricky či kolmogorovsky (užitím teorie míry). Pravidlo, které každé hodnotě náhodné veličiny nebo každému intervalu hodnot přiřazuje pravděpodobnost, že náhodná veličina nabude této hodnoty nebo hodnoty z tohoto intervalu, je nazýváno zákonem rozdělení náhodné veličiny nebo krátce rozdělením náhodné veli-
činy nebo také teoretickým rozdělením. Z hlediska spolupráce teorie pravděpodobnosti a statistiky odpovídá pojem „teoretické rozdělení“ statistickému pojmu „empirické rozdělení
četností“. Podle povahy náhodné veličiny lze teoretická rozdělení dělit na diskrétní a spojitá. Teoretických rozdělení je používáno velké množství. Důležitou formou popisu teoretického rozdělení je distribuční funkce F. Distribuční funkce F udává v případě diskrétní náhodné veličiny pravděpodobnost, že náhodná veličina nabude hodnoty menší nebo rovné než právě zvolená hodnota xi. Tato kumulativní pravděpodobnost bude vyjádřena součtem dílčích pravděpodobností. V případě spojité náhodné veličiny distribuční funkce F udává obdobně pravděpodobnost, že náhodná veličina nabude hod-
34
noty menší nebo rovné než právě zvolená hodnota x, ale tato kumulativní pravděpodobnost bude vyjádřena místo součtu dílčích pravděpodobností integrálem, jehož dolní mez je např. u normálního rozdělení rovna −∞ a horní mez odpovídá zvolené hodnotě x. Z hlediska spolupráce teorie pravděpodobnosti a statistiky odpovídá pojem „distribuční funkce“ statistickému pojmu „kumulativní četnost“.
Binomické rozdělení – příklad diskrétního teoretického rozdělení a) Charakteristika hromadného náhodného jevu Je prováděno n nezávislých náhodných pokusů, pravděpodobnost sledovaného náhodného jevu je ve všech náhodných pokusech stejná a rovna p. Je hledána pravděpodobnost, že tento náhodný jev nastane 0, 1, …, n-krát. Podle této definice jsou hodnoty x0, x1, …, xn příslušné náhodné veličiny dány čísly 0, 1, …, n.
b) Teoretické rozdělení, distribuční funkce Teoretické rozdělení je v diskrétním případě nazýváno pravděpodobnostní funkcí. Pro popsaný náhodný jev je pravděpodobnostní funkce pravidlem, které hodnotám xj = j náhodné veličiny přiřazuje pravděpodobnosti Pj pro j = 0, 1, …, n. Tvar pravděpodobnostní funkce je n n− j Pj = p j (1 − p ) . j Příslušný tvar distribuční funkce (kumulativní pravděpodobnosti) Fj je dán součtem j
F j = ∑ Pi . i =0
Binomické rozdělení závisí na dvou teoretických parametrech – p, n.
c) Význam binomického rozdělení Typickým příkladem nezávislých náhodných pokusů je náhodný výběr prvků z nějakého souboru, jestliže každý vybraný prvek je vracen zpět. Pak jde o tzv. výběr s vracením. Lze ukázat, že v případě, kdy rozsah výběrového souboru je malý ve srovnání s rozsahem základního souboru, je rozdíl mezi výběrem s vracením a výběrem bez vracení zaned-
35
batelný. Binomické rozdělení proto může sloužit jako vhodné kritérium, zda výběrový statistický soubor vznikl na základě náhodného výběru.
Normální rozdělení – příklad spojitého teoretického rozdělení a) Charakteristika hromadného náhodného jevu Spojitá náhodná veličina, jejíž hodnoty x∈(-∞; ∞), může mít tzv. rozdělení normální. Graf funkce, která přiřazuje těmto hodnotám náhodné veličiny pravděpodobnosti, je dán velmi známou Gaussovou křivkou ve tvaru „zvonu“. Je tedy hledána pravděpodobnost, která bude přiřazena jednotkovému intervalu hodnot spojité náhodné veličiny v tom smyslu, že tento interval bude obsahovat hodnotu x.
b) Teoretické rozdělení, distribuční funkce Teoretické rozdělení je ve spojitém případě popisováno hustotou pravděpodobnosti (hodnoty náhodné veličiny na sebe spojitě „navazují“, je nutno přiřazovat pravděpodobnosti jednotkovým intervalům hodnot, neboť nejbližší sousední hodnotu hodnotě x nelze nalézt). Tvar hustoty pravděpodobnosti ρ ( x ) normálního rozdělení je ( x − µ )2 1 ρ ( x) = exp − . 2 σ 2 σ 2π Příslušný tvar distribuční funkce (kumulativní pravděpodobnosti) F(t) je dán integrálem
F (t ) =
t
∫ ρ ( x ) dx .
−∞
Normální rozdělení závisí na dvou teoretických parametrech – µ, σ. Tato závislost je obvykle zapisována N(µ, σ). Teoretický parametr µ je teoretickou analogií obecného momentu 1. řádu O1 a je tedy teoretickou obdobou empirického aritmetického průměru. Teoretický parametr σ je teoretickou analogií odmocniny centrálního momentu 2. řádu C2 a je tedy teoretickou obdobou empirické směrodatné odchylky Sx. Normální rozdělení lze normovat k hodnotám teoretických parametrů µ = 0, σ = 1 prostřednictvím normované náhodné veličiny s hodnotami u = (x – µ)/σ. Tato závislost je obvykle zapisována N(0, 1) a tímto zápisem je pak označováno tzv. „normované normální roz-
36
dělení“ (viz obrázek Obr. 4 s Gaussovským grafem hustoty pravděpodobnosti normovaného normálního rozdělení). Hustota pravděpodobnosti normovaného normálního rozdělení bude vzhledem k zavedeným hodnotám u označena ρ(u), distribuční funkce je často nazývána Laplaceovou funkcí a označována zápisem F(u). Pro hodnoty Laplaceovy funkce jsou vypracovány podrobné statistické tabulky.
0,5
0 -4
-3
-2
-1
0
1
2
3
4
Obr. 4: Grafické znázornění hustoty pravděpodobnosti ρ(u) normovaného normálního rozdělení (na vodorovnou osu jsou nanášeny hodnoty u, na svislou osu hodnoty hustoty 2 pravděpodobnosti normovaného normálního rozdělení ρ ( u ) = 1 exp −u , 2 2π vrchol grafu má souřadnice 0, 1 ). 2π
(
)
c) Význam normálního rozdělení Význam normálního rozdělení je popsán centrální limitní větou. Její podstatou je tvrzení, že náhodná veličina, která vznikla jako součet velkého počtu vzájemně nezávislých náhodných veličin, má za velmi obecných podmínek přibližně normální rozdělení. Přesnou formulaci uvádí centrální limitní věta, jejíž součástí je podmínka umožňující pracovat při dostatečně velkém rozsahu výběrového souboru s normálním rozdělením. Užitečné jsou také speciální tvary této věty – věta Lindbergova-Lévyho a věta Moivreova-Laplaceova (tato věta ukazuje, že při dostatečně velkém počtu nezávislých pokusů konverguje binomické rozdělení k rozdělení normálnímu).
37
Parametry teoretických rozdělení Důležitými parametry všech teoretických rozdělení jsou střední hodnota E a rozptyl D. Střední hodnota E je parametr polohy, který měří úroveň náhodné veličiny, rozptyl D je parametr proměnlivosti, který měří rozptýlenost hodnot náhodné veličiny. Pro diskrétní teoretická rozdělení bude Pj označovat pravděpodobnostní funkci a xi (např. pro binomické rozdělení lze pokládat xi = i) hodnoty diskrétní náhodné veličiny. Pro spojitá teoretická rozdělení bude ρ ( x ) označovat hustotu pravděpodobnosti a x hodnoty spojité náhodné veličiny.
Vztahy pro střední hodnotu binomického a normálního rozdělení pak budou mít tvar n
Ei = ∑ iPi
(hodnoty indexu i jsou uvedeny pro binomické rozdělení, pro bi-
i=0
nomické rozdělení je E = np);
E ( x) =
∞
∫ ρ ( x )dx
(meze integrálu jsou uvedeny pro normální rozdělení, pro normální roz-
−∞
dělení je E(x) = µ, pro normované normální rozdělení je E(u) = 0).
Vztahy pro rozptyl binomického a normálního rozdělení lze obdržet ve tvaru n
Di = ∑ Pi (i − E (i )) 2
(hodnoty indexu i jsou uvedeny pro binomické rozdělení,
i =0
pro binomické rozdělení je D = np(1–p));
D ( x) =
∞
∫ ρ ( x ) ( x − E ( x ))
2
dx
(meze integrálu jsou uvedeny pro normální rozdělení, pro
−∞
normální rozdělení je D(x) = σ2, pro normované normální rozdělení je D(u) = 1).
Vztah mezi empirickými a teoretickými parametry popisuje zákon velkých čísel. Při dodržování jistých podmínek lze očekávat, že empirické rozdělení a s ním spojené empirické parametry se bude blížit teoretickému rozdělení a s ním spojeným teoretickým parametrům,
38
a to tím více, čím větší bude rozsah výběrového statistického souboru (čím větší bude počet realizovaných náhodných pokusů). Přibližování se empirických parametrů parametrům teoretickým nemá charakter matematické konvergence, ale konvergence pravděpodobnostní.
39
5.3 Aparát neparametrického testování
Základem testování neparametrických (ale i parametrických) hypotéz je používání aparátu nulových hypotéz H0 a alternativních hypotéz Ha. V případě neparametrických hypotéz nulová hypotéza předpokládá, že empirické rozdělení lze nahradit zamýšleným teoretickým rozdělením (jde-li o nahrazení normálním rozdělením, je hovořeno o testu normality). Alternativní hypotéza pak předpokládá, že tato domněnka není správná. Podstatou testování neparametrických hypotéz je pak srovnávání teoretických a empirických četností. Empirické četnosti jsou vypočítávány prostřednictvím elementárního statistického zpracování ve vazbě na empirické rozdělení. Teoretické četnosti jsou vypočítávány prostřednictvím pravděpodobnostní funkce nebo hustoty pravděpodobnosti ve vazbě na zamýšlené teoretické rozdělení. Parametrické hypotézy se týkají srovnávání empirických a teoretických parametrů a nulové a alternativní hypotézy zde hrají obdobnou roli. K ověřování neparametrických i parametrických hypotéz byla vyvinuta speciální skupina teoretických rozdělení – tato rozdělení neslouží k nahrazování empirických rozdělení, nýbrž fungují jako testová kritéria. Jedinou výjimkou je normální rozdělení – ve své normované podobě může hrát roli testového kritéria, ve své nenormované podobě může nahrazovat empirická rozdělení. Mezi nejpoužívanější testová kritéria patří normované normální rozdělení (u-test), Studentovo rozdělení (t-test), Pearsonovo χ 2 rozdělení ( χ 2 -test dobré shody) a FisherovoSnedecorovo rozdělení (F-test). Pro všechna uvedená testová kritéria jsou vypracovány podrobné statistické tabulky. K ověření hypotéz H0 a Ha je zapotřebí vybrat vhodné testové kritérium. Pro ověřování neparametrické hypotézy se nejčastěji používá χ 2 -test. Je-li podmínkou pro jeho použití vytvoření intervalového rozdělení četností, pak je potřebné, aby každý dílčí interval byl spojen s absolutní četností rovnou alespoň 5. Není-li tato podmínka splněna, je nutno přistoupit ke spojování dílčích intervalů. Obdobně je zapotřebí postupovat při bodovém rozdělení četností. Po výběru testového kritéria (např. χ 2 -testu) je zapotřebí přistoupit k určení experimentální hodnoty tohoto kritéria (např. χ exp 2 ) a kritické teoretické hodnoty (např. χ teor 2 ).
40
Prostřednictvím kritické teoretické hodnoty bude zapsán tzv. kritický obor W příslušného testového kritéria. Bude-li experimentální hodnota vybraného kritéria prvkem kritického oboru W, je nezbytné přijmout alternativní hypotézu Ha – tzn. empirické rozdělení nelze nahradit zamýšleným rozdělením teoretickým. V opačném případě (experimentální hodnota nebude prvkem kritického oboru W) lze přijmout nulovou hypotézu H0 – tzn. empirické rozdělení lze nahradit zamýšleným rozdělením teoretickým. Nezbytným prvkem testování neparametrických i parametrických hypotéz je stanovení hladiny statistické významnosti α. Tato hladina statistické významnosti udává pravděpodobnost
chybného
zamítnutí
testované
hypotézy
(tj.
pravděpodobnost
tzv.
chyby
1. druhu). Nejčastějšími hladinami významnosti jsou hodnoty α = 0,05 a α = 0,01. Např. hladina významnosti 0,05 umožňuje např. při příznivém testu normality (je přijata hypotéza H0, empirické rozdělení lze nahradit rozdělením normálním, je zamítnuta hypotéza Ha) učinit závěr, že bude-li 100 krát vybrán výběrový statistický soubor VSS ze základního statistického souboru ZSS, v 95 případech se ukáže, že empirické rozdělení lze nahradit rozdělením normálním. Vlastní postup neparametrického testování si lze procvičit prostřednictvím řešení zadaného příkladu.
41
5.4 Ilustrace neparametrického testování
V rámci zadaného příkladu lze nyní sledovat postup při ověřování nulové hypotézy H0: Empirické rozdělení na obrázku Obr. 2 lze nahradit rozdělením normálním (viz obrázek Obr. 4 s grafem normovaného normálního rozdělení). Při testování bude použit χ 2 -test dobré shody jako test normality. Při aplikaci tohoto testu bude písmeno k označovat počet intervalů intervalového rozdělení četnosti, které odpovídají alespoň absolutní četnosti 5, písmeno r pak počet teoretických parametrů normálního rozdělení (tj. r = 2). Výraz ν = k – r – 1 vyjadřuje počet stupňů volnosti, který umožňuje společně s určenou hladinou významnosti α určovat pomocí statistických tabulek kritickou teoretickou hodnotu χ teor 2 = χ k − r −12 . Hladina významnosti je volena α = 0,05. Podstatou testu normality je srovnávání 5 relativních četností ni/n (viz tabulka Tab. 1 zadaného příkladu uvedená v rámci formulace statistického šetření) s 5 plochami pod Gaussovou křivkou. Budou-li rozdíly příliš velké, bude nutné přijmout alternativní hypotézu Ha, budou-li rozdíly dostatečně malé, bude možné přijmout nulovou hypotézu H0. Zjišťování příliš velkého nebo dostatečně malého rozdílu umožňuje kritická teoretická hodnota
χ teor 2 = χ k − r −12 . Základem pro zjišťování ploch jsou plochy pod Gaussovou křivkou hledaného normálního rozdělení, pomůckou jsou plochy pod Gaussovou křivkou odpovídajícího normovaného normálního rozdělení – tyto plochy lze nalézt s použitím statistických tabulek. Oba typy ploch úzce souvisejí s distribuční funkcí normálního rozdělení a s distribuční funkcí normovaného normálního rozdělení (tj. s Laplaceovou funkcí). Distribuční funkce normálního rozdělení je dána obvyklým vztahem
F (t ) =
t
∫ ρ ( x ) dx.
−∞
Laplaceova funkce F (distribuční funkce normovaného normálního rozdělení) závisí na normované náhodné veličině s hodnotami ui (ui je normovaná hodnota odrážející horní mez
xi příslušného intervalu intervalového rozdělení četností) a je dána vztahem
42
F (t ) =
t
∫ ρ ( u ) du,
ui =
−∞
xi − O1 Sx
(O1 – obecný moment 1. řádu,
Sx – směrodatná odchylka). Hledané plochy pod Gaussovou křivkou jsou pravděpodobnostmi pi a představují teoretické relativní četnosti. Po vynásobení pi rozsahem n výběrového statistického souboru VSS lze pak získat teoretické absolutní četnosti npi. Hledané plochy pi jsou pod Gaussovou křivkou omezeny horní mezí předcházejícího intervalu četnosti (tj. dolní mezí zkoumaného intervalu četnosti) a horní mezí zkoumaného intervalu četnosti – tyto meze představují dolní a horní mez příslušného integrálu. K výpočtu normovaných hodnot ui (u1 = − 1, u2 = 0, u3 = 1, u4 = 2,5, u5 = ∞) bude v souladu s elementárním statistickým zpracováním zadaného příkladu dosazováno do vztahu
xi − O1 Sx
ui =
za obecný moment 1. řádu O1 hodnota 2,5, za směrodatnou odchylku Sx přibližná hodnota 1, za xi postupně hodnoty x1 = 1,5, x2 = 2,5, x3 = 3,5, x4 = 4,5, x5 = ∞.
Pro zadaný příklad lze plochy pi vyjádřit následujícími integrály (při vyčíslení těchto integrálů je použita Laplaceova funkce F(u)): 1,5
p1 =
∫
ρ ( x )dx, p1 =
−∞ 2,5
p2 = p3 = p4 = p5 =
∫
−1
∫ ρ ( u )du = F ( −1)
−∞ 0
ρ ( x )dx, p2 = ∫ ρ ( u )du = F ( 0 ) − F ( −1)
1,5
−1
3,5
1
∫ ρ ( x )dx, p = ∫ ρ ( u )du = F (1) − F ( 0 ) 3
2,5
0
4,5
2
∫ ρ ( x )dx, p = ∫ ρ ( u )du = F ( 2 ) − F (1) 4
3,5
1
∞
∞
∫ ρ ( x )dx, p = ∫ ρ ( u )du = F ( ∞ ) − F ( 2 ) 4
4,5
2
43
Zavedené plochy pi jako teoretické relativní četnosti a součiny npi jako teoretické absolutní četnosti již umožňují obecně popsat χ 2 -test dobré shody k
( ni − npi )
i =1
npi
χ exp = ∑ 2
2
pi = F ( ui ) − F ( ui −1 ) .
,
Tabulky Tab. 3 a Tab. 4 formalizují aparát neparametrického testování (s konkrétně provedeným testem normality v rámci zadaného příkladu) do té míry, že lze předcházející výklad užitím integrálního počtu přeskočit – hodnoty F(ui) Laplaceovy funkce lze nalézt ve statistických tabulkách. Tabulka Tab. 3 ukazuje ve vazbě na tabulku Tab. 2 přibližné dílčí výpočty: xi 1 2 3 4 5
Interval (−∞; 1, 5〉 (1, 5; 2,5〉 (2,5; 3, 5〉 (3,5; 4, 5〉 (4,5; ∞)
ni 9 15 20 4 2
ui -1 0 1 2
F(ui) 0,16 0,5 0,84 0,98 1,0
∞
pi 0,16 0,34 0,34 0,14 0,02
npi 8 17 17 6 1
Tab. 3: Výpočty ui, F(ui), pi a npi..
Tabulka Tab. 4 reaguje na požadavek, že při testu normality musí být v každém intervalu nejméně 5 výsledků měření. Při nesplnění této podmínky se sdruží sousední intervaly, aby bylo dosaženo pěti a více výsledků měření. Současně jsou v této tabulce provedeny další výpočty, umožňující stanovit experimentální hodnotu testového kritéria:
xi
ni
npi
1 2 3 4+5
9 15 20 6
8 17 17 7
( ni − npi ) npi 0,125 0,235 0,529 0,143 k
( ni − npi )
i =1
npi
χ exp = ∑ 2
Tab. 4: Úprava počtu intervalů, výpočet χ exp 2 .
44
2
2
=1,032
V poslední části neparametrického testování bylo potřebné určit prostřednictvím vymezeného počtu stupňů volnosti ν = k – r – 1 = 4 – 2 – 1 = 1 a pomocí statistických tabulek kritickou teoretickou hodnotu
χ teor 2 = χ k − r −12 = χν 2 = χ12 = 3,84 při hladině statistické
významnosti α = 0,05. Prostřednictvím kritické teoretické hodnoty již bylo možno zapsat pravostranný kritický obor W = ( χ12 ( 0, 05 ) ; ∞ ) = ( 3,84; ∞ ) .
Jelikož experimentální hodnota testového kritéria χ exp 2 je rovna χ exp 2 =1,032 (tj. χ exp 2 ∉ W), lze učinit průkazný závěr týkající se testu neparametrické hypotézy: Experimentální hodnota χ exp 2 nepatří do kritického oboru, lze proto přijmout nulovou hypotézu H0 a lze empirické rozdělení (empirický polygon) nahradit na hladině statistické významnosti α = 0,05 teoretickým normálním rozdělením. Tento závěr má značný význam – lze nejen používat jednoduchý matematický aparát spojený s normálním rozdělením při vyvozování dalších informací, ale lze také při testování parametrických hypotéz používat testovacích technik, jejichž použití je vázáno právě na normální rozdělení.
Kontrolní otázky: Proč je výhodné nahradit empirické rozdělení rozdělením teoretickým? Popište rozčlenění rozpětí hodnot statistického znaku na vhodný počet intervalů. Co je to intervalové rozdělení četnosti, jaká je podmínka pro vytváření intervalového rozdělení četnosti v případě testování neparametrických hypotéz? Co je to náhodný pokus a náhodná veličina? Jak se liší hodnoty diskrétní a spojité náhodné veličiny? Jak je definováno teoretické rozdělení (rozdělení náhodné veličiny)? Jak jsou členěna teoretická rozdělení? Jaká je forma popisu diskrétního teoretického rozdělení? Jaká je forma popisu spojitého teoretického rozdělení? Jaký je rozdíl mezi pravděpodobnostní funkcí a hustotou pravděpodobnosti? Jaký je význam binomického rozdělení? Jaký je význam normálního rozdělení? Jaká je formulace centrální limitní věty? Uveďte tvar distribuční funkce binomického a normálního rozdělení. Uveďte tvar pravděpodobnostní funkce (hustoty pravděpodobnosti) binomického rozdělení (normálního rozdělení).
45
Na kolika teoretických parametrech závisí binomické a normální rozdělení? Teoretické parametry popište. Co je to normované normální rozdělení? Jaké jsou obecné vztahy pro střední hodnotu a rozptyl pro diskrétní a spojité teoretické rozdělení? Jaký je vztah mezi empirickými a teoretickými parametry? Jaký je aparát neparametrického testování? Co předpokládá nulová a alternativní hypotéza v případě neparametrického testování? V čem spočívá podstata testování neparametrických hypotéz? Jaká teoretická rozdělení jsou používána pro testování neparametrických hypotéz? Jaký je vztah teoretického rozdělení a testového kritéria? Jaký je vztah experimentální hodnoty a kritické teoretické hodnoty testového kritéria? Co je to kritický obor testového kritéria? Co je to hladina statistické významnosti? Popište testovací techniku χ2-testu.
Kontrolní příklad: Náhodný výběr výběrového statistického souboru umožnil po provedení škálování (prvky škály 0, 1, 2, 3, 4, 5) uskutečnit měření (prvek škály 0 měl absolutní četnost 230, prvek 1 četnost 400, prvek 2 četnost 250, prvek 3 četnost 100, prvek 4 četnost 20, prvek 5 četnost 0). Prvky škály odpovídaly možným úspěšným výsledkům pěti náhodných pokusů (n = 5), pravděpodobnost úspěšného výsledku byla p = 0,256, výsledku neúspěšného 0,744. Zjistěte, zda lze empirickému rozdělení (odpovídajícímu uskutečněnému měření) přiřadit diskrétní teoretické rozdělení binomické (α = 0,05). Jaký je význam provedeného zjištění?
46
6. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY – TEORIE ODHADŮ Tato šestá kapitola poskytne návod, jak používat druhou základní metodu matematické statistiky nazvanou „Teorie odhadů“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky. Cíle: pravděpodobnostní zkoumání výběrového statistického souboru: kvantifikace teoretických parametrů; pravděpodobnostní obraz výběrového statistického souboru: bodový a intervalový odhad – např. interval spolehlivosti.
Osvojované pojmy a poznatky: Bodový odhad, intervalový odhad, interval spolehlivosti, interval spolehlivosti pro střední hodnotu, interval spolehlivosti pro směrodatnou odchylku.
Další ze základních metod matematické statistiky „teorie odhadů“ navazuje na „neparametrické testování“. Teoretické rozdělení je identifikováno a neparametrickým testováním přiřazeno empirickému rozdělení četností, obsahuje však dosud neznámé hodnoty teoretických parametrů. Před využíváním výhod infinitezimálního počtu (v případě přiřazeného spojitého teoretického rozdělení) je potřebné teoretické parametry odhadnout. Pak lze přistoupit k interpretacím dosažených výsledků neparametrického testování aplikací diferenciálního a integrálního počtu. Teoretické parametry (např. v rámci zadaného příkladu střední hodnota E(x) = µ a rozptyl D(x) = σ2 v důsledku pozitivního výsledku testu normality) je zapotřebí odhadnout. Odhady teoretických parametrů mohou být dvojího druhu: bodové a intervalové.
47
6.1 Bodové odhady
Dobré bodové odhady by měly splňovat podmínky nezkreslenosti, konzistentnosti a vydatnosti. Zde jsou tyto podmínky jen připomenuty, podrobnější informace lze získat v kapitole 11. Bodový odhad lze provést momentovou metodou nebo metodou maximální věrohodnosti. Momentová metoda spočívá v tom, že za jistých podmínek lze empirické parametry považovat za odhady odpovídajících teoretických parametrů. Metoda matematické věrohodnosti je podstatně matematicky náročnější. Zavedením věrohodnostní funkce L lze např. pro normální rozdělení N(µ, σ) dokázat, že bodovými odhady teoretických parametrů µ, σ jsou empirické parametry obecný moment 1. řádu O1 a směrodatná odchylka Sx jako odmocnina centrálního momentu 2. řádu C2 (viz kapitola 11.).
V rámci zadaného příkladu vyšel test normality, proto bude bodový odhad proveden dosazením hodnot O1 = 2,5 a Sx = 1 (přibližná hodnota) do rovnice hustoty pravděpodobnosti normálního rozdělení za teoretické parametry µ, σ: ( x − µ )2 ( x − 2, 5 ) 2 1 1 ρ ( x) = exp − exp − = . 2σ 2 2 2π σ 2π
Po provedeném dosazení je již možné aplikovat potřebné operace diferenciálního a integrálního počtu. Jako příklad aplikace infinitezimálního počtu může sloužit důkaz 68% pravděpodobnosti pro hodnoty statistického znaku SZ-x „úspěšnost metody léčby daného typu nádorového onemocnění“ z intervalu
( µ − σ ; µ + σ ) = ( O1 − S x ; O1 + S x ) = (1,5; 3,5) . V tomto intervalu již byly využity bodové odhady µ = O1 = 2,5 a σ = Sx = 1. Po přechodu k normovanému normálnímu rozdělení N (0, 1) spojeného s hustotou pravděpodobnosti
ρ (u ) = 1
2π
48
(
2 exp −u
2
)
a po výpočtu odpovídajících hodnot normované náhodné veličiny u1 = -1, u2 = 1 pomocí vztahu ui =
xi − O1 Sx
lze již uvedenou 68% pravděpodobnost snadno vypočítat užitím statistických tabulek pro hodnoty Laplaceovy funkce (pro hodnoty distribuční funkce normovaného normálního rozdělení F(u)). Plocha p pod Gaussovou křivkou omezená hodnotami u1 = -1, u2 = 1 je dána integrálem 1
p = ∫ ρ ( u )du = F (1) − F ( −1) = 0, 68. −1
Interpretace výsledku říká, že zmenšení nádoru o 40 % (odpovídá z hlediska prvků škály hodnotě 3,5) až 80 % (odpovídá z hlediska prvků škály hodnotě 1,5) nastane po aplikaci léčebné metody u 68 % pacientů. Nevýhodou bodových odhadů je především neznalost přesnosti, s kterou byl odhad učiněn.
49
6.2 Intervalové odhady
Intervalové odhady odstraňují problém neznalosti přesnosti odhadu. Snaží se sestrojit interval, který by poskytoval rozumnou „záruku“ (dostatečně vysokou pravděpodobnost), že skutečná hodnota teoretického parametru leží uvnitř intervalu. Tato pravděpodobnost souvisí opět s volbou hladiny statistické významnosti a zkonstruovaný interval pak nese název „100 (1 − α)% interval spolehlivosti“ (např. pro α = 0,05 půjde o 95% interval spolehlivosti).
a) Konstrukce intervalu spolehlivosti pro střední hodnotu µ normálního rozdělení pomocí u-testu (podmínka konstrukce – rozptyl σ2 je předem zadán) vychází z tvaru testového kritéria u=
O1 − µ
σ
n.
Kritické hodnoty jsou –u(α/2), u(α/2), podmínky pro konstrukci intervalu spolehlivosti lze zapsat ve tvaru nerovností –u(α/2)< u< u(α/2). Po vyřešení uvedených nerovností lze získat interval spolehlivosti (intervalový odhad µ):
( )
( )
u α σ u α σ 2 2 . ; O1 + µ ∈ O1 − n n
b) Konstrukce intervalu spolehlivosti pro střední hodnotu µ normálního rozdělení pomocí t-testu (podmínka konstrukce – rozptyl σ2 není předem znám) vychází z tvaru testového kritéria t=
O1 − µ n. Sx
50
Kritické hodnoty jsou –tn–1(α/2), tn–1(α/2), podmínky pro konstrukci intervalu spolehlivosti lze zapsat ve tvaru nerovností –tn–1(α/2) < t < tn–1(α/2). Po vyřešení uvedených nerovností lze získat interval spolehlivosti (intervalový odhad µ):
( )
( )
tn −1 α S x tn −1 α S x 2 2 µ ∈ O1 − ; O1 + n n
c) Konstrukce intervalu spolehlivosti pro rozptyl σ2 normálního rozdělení pomocí χ 2 -testu (podmínka konstrukce – nutno vypočítat empirický rozptyl Sx2) vychází z tvaru
testového kritéria
χ2 =
(
( n − 1) S x 2 . σ2
) , χ (α 2 ) , podmínky pro konstrukci intervalu spolehlivosti lze zapsat ve tvaru nerovností χ (1 − α ) <χ < χ (α ) . Po vyřešení 2 2 Kritické hodnoty jsou χ n −12 1 − α
n −1
2
2
n −1
2
2
n −1
2
uvedených nerovností lze získat interval spolehlivosti (intervalový odhad σ2): n − 1) S x 2 n − 1) S x 2 ( ( σ ∈ ; χ 2 α χ n−12 1 − α 2 n −1 2 2
( )
51
(
)
.
6.3 Ilustrace konstrukce intervalů spolehlivosti
a) V rámci zadaného příkladu bude provedena konstrukce intervalu spolehlivosti pro střední hodnotu µ pomocí t-testu Interval spolehlivosti je dán tvarem:
( )
( )
tn −1 α S x tn −1 α S x 2 2 µ ∈ O1 − ; O1 + n n Kritické hodnoty jsou podle statistických tabulek při hladině statistické významnosti
α = 0,05, při rozsahu n = 50 výběrového statistického souboru VSS, při směrodatné odchylce Sx = 1 (přibližná hodnota) a při aritmetickém průměru O1 = 2,5 rovny ± t49 (0,025) = ± 1,96 (pro počet stupňů volnosti n–1 > 33 lze použít statistické tabulky pro u-test). Po dosazení do 95% intervalu spolehlivosti lze obdržet µ ∈ ( 2,221; 2,779 ) .
b) V rámci zadaného příkladu bude provedena konstrukce intervalu spolehlivosti pro rozptyl σ2 pomocí χ 2 -testu Interval spolehlivosti je dán tvarem: n − 1) S x 2 n − 1) S x 2 ( ( σ ∈ ; χ 2 α χ n−12 1 − α 2 n −1 2 2
( )
(
)
.
Kritické hodnoty jsou podle statistických tabulek při hladině statistické významnosti
α = 0,05, při rozsahu n = 50 výběrového statistického souboru VSS, při směrodatné odchylce Sx = 1 (přibližná hodnota)
χ 49 2 (1 − (α / 2) ) = χ 49 2 (0,975) = 30, 60 χ 49 2 (α / 2) = χ 49 2 (0, 025) = 70, 22 Po dosazení do 95% intervalu spolehlivosti lze obdržet
σ 2 ∈ ( 0, 705; 1, 617 ) , σ ∈ ( 0,839; 1, 272 ) .
52
7. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY –
PARAMETRICKÉ TESTOVÁNÍ Tato sedmá kapitola poskytne návod, jak používat třetí základní metodu matematické statistiky nazvanou „Parametrické testování“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky.
Cíle: pravděpodobnostní zkoumání výběrového statistického souboru: srovnání teoretických a empirických parametrů; pravděpodobnostní obraz výběrového statistického souboru: testování parametrických hypotéz.
Osvojované pojmy a poznatky: Testování parametrických hypotéz, aplikace u-testu, aplikace t-testu, aplikace F-testu, aplikace χ2-testu.
Testování parametrických hypotéz opět vychází z aparátu nulové hypotézy H0 a alternativní hypotézy Ha. Tento aparát je doplněn obvyklým aparátem kritického oboru W. Vzhledem k centrální limitní větě je přirozeným předpokladem, že empirickému rozdělení lze přiřadit jako nejvhodnější teoretické rozdělení rozdělení normální. Této volbě odpovídá také postupné řešení zadaného příkladu, u kterého vyšel test normality. Další výklad bude respektovat pozitivní výsledek testu normality u zadaného příkladu. Parametrické testování lze rozčlenit na jednovýběrové testování hypotézy o střední hodnotě nebo o rozptylu (pak jsou požívány jednovýběrové testy u-test a t-test pro střední hodnotu a jednovýběrový χ 2 -test pro rozptyl) a na dvojvýběrové testování hypotézy o rovnosti středních hodnot nebo rozptylů (pak jsou používány dvojvýběrové testy u-test a t-test pro rovnost středních hodnot a dvojvýběrový F-test pro rovnost rozptylů).
53
7.1 Jednovýběrové parametrické testování
V případě jednovýběrového testování lze hypotézu H0 a Ha psát ve tvaru např.: H0: µ = µ0 nebo H0: σ = σ0,
Ha: µ ≠ µ0 nebo Ha: σ ≠ σ0.
Jednovýběrové parametrické testování vychází ze srovnávání empirického parametru
µ = O1 nebo empirického parametru σ = Sx (symboly O1, Sx jsou označeny výsledky elementárního statistického zpracování výběrového statistického souboru VSS, jejichž prostřednictvím byly bodově odhadnuty příslušné teoretické parametry µ, σ odpovídajícího normálního rozdělení) s nějakými vnějšími teoretickými údaji µ0, σ0, jejichž původ může být rozmanitý (studium literatury, výzkumné zprávy, komerční ukazatele apod.). Společným jmenovatelem těchto vnějších údajů může být zjištění, že zřejmě charakterizují určitý významný základní statistický soubor ZSS. Jednovýběrové parametrické testování pak z pohledu matematické statistiky odpovídá na otázku, zda zkoumaný výběrový statistický soubor VSS mohl být vybrán z popsaného významného základního statistického souboru ZSS. Při potvrzení hypotézy H0 lze na výsledky zkoumání výběrového souboru VSS nahlížet v kontextu vytvořeném základním souborem ZSS, při přijetí hypotézy Ha nelze z tohoto kontextu vycházet. Postup při jednovýběrovém parametrickém testování je obdobný jako při testování neparametrickém. Nejdříve je potřebné naformulovat nulovou a alternativní hypotézu a zvolit hladinu statistické významnosti α. Pak je potřebné vybrat vhodné testové kritérium (jednovýběrový u-test, jednovýběrový t-test, jednovýběrový χ 2 -test), nalézt jeho kritickou hodnotu a zapsat odpovídající kritický obor W. Posléze je zapotřebí přikročit k výpočtu empirické hodnoty testového kritéria a zjistit, zda je či není prvkem kritického oboru W. Je-li empirická hodnota prvkem kritického oboru W, je zapotřebí přijmout alternativní hypotézu Ha, v opačném případě pak nulovou hypotézu H0.
Přehled nejobecnějších jednovýběrových testových kritérií (n – rozsah souboru VSS): a) Jednovýběrový u-test (testování hypotézy o střední hodnotě při známém rozptylu σ2) uexp =
µ − µ0 n , W = (−∞; −u (α 2 )〉 ∪ 〈u (α 2 ) ; ∞) . σ
54
b) Jednovýběrový t-test (testování hypotézy o střední hodnotě při neznámém rozptylu σ2) texp =
µ − µ0 Sx
n , W = (−∞; −tn −1 (α 2 )〉 ∪ 〈tn −1 (α 2 ) ; ∞) .
c) Jednovýběrový χ 2 -test (testování hypotézy o rozptylu při neznámých parametrech µ, σ2)
χ exp
2
n − 1) σ 2 ( = ,
σ0
2
W = 〈 0; χ n −12 (1 − α 2 )〉 ∪ 〈 χ n −12 (α 2 ) ; ∞) .
55
7.2 Dvojvýběrové parametrické testování
V případě dvojvýběrového testování lze hypotézy H0 a Ha psát ve tvaru např.: H0: µ1 = µ2 nebo H0: σ1 = σ2,
Ha: µ1 ≠ µ2 nebo Ha: σ1 ≠ σ2.
Dvojvýběrové parametrické testování vychází ze srovnávání empirického parametru
µ1 = O1 nebo empirického parametru σ1 = Sx (symboly O1, Sx jsou označeny výsledky elementárního statistického zpracování výběrového statistického souboru VSS1, jejichž prostřednictvím byly bodově odhadnuty příslušné teoretické parametry µ1, σ1 odpovídajícího normálního rozdělení) s nějakými vnějšími teoretickými údaji µ2, σ2. Jejich původ lze obvykle nalézt ve výsledcích zkoumání jiného výběrového statistického souboru VSS2. Dvojvýběrové parametrické testování pak z pohledu matematické statistiky odpovídá na otázku, zda oba výběrové statistické soubory VSS1 a VSS2 zkoumaly obdobnou otázku a zda tyto soubory mohou spolupracovat. Při potvrzení hypotézy H0 lze na výběrové soubory VSS1 a VSS2 pohlížet jako na výběrové soubory vybrané z téhož základního souboru ZSS a obvykle se vyplatí snaha soubor ZSS identifikovat. Při přijetí hypotézy Ha je nutno z pohledu matematické statistiky vyslovit pochybnosti o kompatibilitě souborů VSS1 a VSS2. Postup při dvojvýběrovém parametrickém testování je opět obdobný jako při testování neparametrickém. Nejdříve je potřebné naformulovat nulovou a alternativní hypotézu a zvolit hladinu významnosti α. Pak je potřebné vybrat vhodné testové kritérium (dvojvýběrový u-test, dvojvýběrový t-test, dvojvýběrový F-test), nalézt jeho kritickou hodnotu a zapsat odpovídající kritický obor W. Posléze je zapotřebí přikročit k výpočtu empirické hodnoty testového kritéria a zjistit, zda je či není prvkem kritického oboru W. Je-li empirická hodnota prvkem kritického oboru W, je zapotřebí přijmout alternativní hypotézu Ha, v opačném případě pak nulovou hypotézu H0.
56
Přehled nejobecnějších dvojvýběrových testových kritérií: a) Dvojvýběrový u-test (testování hypotézy o rovnosti středních hodnot při známých rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2 uexp =
µ1 − µ2 σ 12 n1
+
σ 22
, W = (−∞; −u (α 2 )〉 ∪ 〈u (α 2 ) ; ∞) .
n2
b) Dvojvýběrový t-test (testování hypotézy o rovnosti středních hodnot při neznámých rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2 jsou empirické směrodatné odchylky výběrových statistických souborů VSS1, VSS2
n1n2 ( n1 + n2 − 2 )
µ1 − µ 2
texp =
n1 + n2 ( n1 − 1) S x12 + ( n2 − 1) S x 2 2 W = (−∞; −tn + n − 2 (α 2 )〉 ∪ 〈tn + n − 2 (α 2 ) ; ∞) 1
2
1
,
2
c) Dvojvýběrový F-test (testování hypotézy o rovnosti rozptylů při neznámých parametrech
µ1, µ2, σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2 jsou empirické směrodatné odchylky výběrových statistických souborů VSS1, VSS2 Fexp =
S x12 , W = 〈 0; Fn1 −1,n2 −1 (1 − α 2 )〉 ∪ 〈 Fn1 −1,n2 −1 (α 2 ) ; ∞) . S x22
Poznámka: Do čitatele testového kritéria Fexp
S x12 = S x22
se obvykle vkládá větší druhá mocnina z druhých mocnin empirických směrodatných odchylek Sx12, Sx22. Z tohoto pohledu se obvykle používá pravostranný kritický obor W = 〈 Fn1 −1,n2 −1 (α ) ; ∞) s hodnotou α místo hodnoty α/2.
d) Párový t-test (převod dvojvýběrového t-testu na t-test jednovýběrový na základě nulové hypotézy H0: µ1 − µ2 = ∆, kde nejčastěji ∆ = 0)
57
7.3 Ilustrace parametrického testování
a) Zadaný příklad – testování hypotézy o střední hodnotě Zjistěte, zda zkoumaný výběrový statistický soubor VSS (µ = 2,5, n = 50) mohl být při hladině statistické významnosti α = 0,05 vybrán ze základního statistického souboru ZSS, který je charakterizován střední hodnotou a1) µ0 = 2,6, a2) µ0 = 2,9.
Informace o rozptylu chybí – je nutno použít jednovýběrový t-test: texp =
µ − µ0 Sx
n , W = (−∞; −tn −1 (α 2 )〉 ∪ 〈tn −1 (α 2 ) ; ∞)
Formulace nulové a alternativní hypotézy: H0: µ = µ0,
Ha: µ ≠ µ0
Určení kritických hodnot a kritického oboru: t49(0,025) = u(0,025) = 1,96,
W = ( − ∞; − 1,96 〉 ∪ 〈 1,96; ∞)
Výpočet experimentální hodnoty testového kritéria pro případ a1) texp = − 0,704,
texp ∉W
Interpretace výsledku: Experimentální hodnota texp nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický soubor VSS mohl být vybrán z vnějšího souboru ZSS. Rozdíl µ − µ0 je na hladině významnosti α = 0,05 statisticky nevýznamný (lze si povšimnout, že hodnota µ0 je v případě a1) prvkem 95% intervalu spolehlivosti zkonstruovaného v kapitole 6. pro zadaný příklad)
58
Výpočet experimentální hodnoty testového kritéria pro případ a2): texp = − 2,814,
texp ∈W
Interpretace výsledku: Experimentální hodnota texp je prvkem kritického oboru, na hladině statistické významnosti
α = 0,05 lze zamítnout nulovou hypotézu H0 . Zkoumaný výběrový soubor VSS nemohl být vybrán
z
vnějšího
souboru
ZSS.
Rozdíl
µ − µ0
je
na
hladině
významnosti
α = 0,05 statisticky významný (lze si povšimnout, že hodnota µ0 není v případě a2) prvkem
95% intervalu spolehlivosti zkonstruovaného v kapitole 6. pro zadaný příklad)
b) Zadaný příklad – testování hypotézy o rozptylu Zjistěte, zda zkoumaný výběrový statistický soubor VSS (µ = 2,5, Sx = σ = 1,005, n = 50) mohl být při hladině statistické významnosti α = 0,05 vybrán ze základního statistického souboru ZSS, který je charakterizován směrodatnou odchylkou b1) σ0 = 1, b2) σ0 = 0,5. Bude použit jednovýběrový χ 2 -test:
χ exp 2 =
( n − 1) σ 2 , σ0
2
W = 〈 0; χ n −12 (1 − α 2 )〉 ∪ 〈 χ n −12 (α 2 ) ; ∞) .
Formulace nulové a alternativní hypotézy: H0: σ = σ0,
Ha: σ ≠ σ0.
Určení kritických hodnot a kritického oboru:
χ 49 2 ( 0,975) = 30,60 , χ 49 2 ( 0, 025 ) = 70, 22 ,
W = 〈 0; 30, 60〉 ∪ 〈 70, 22; ∞) .
Výpočet experimentální hodnoty testového kritéria pro případ b1):
χ exp 2 = 49, 49, χ exp 2 ∉ W Interpretace výsledku: Experimentální hodnota χ exp 2 nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický soubor VSS mohl být vybrán z vnějšího souboru ZSS. Podíl mezi σ a σ0 je na hladině
59
významnosti α = 0,05 statisticky nevýznamný ((lze si povšimnout, že hodnota σ0 je v případě b1) prvkem 95% intervalu spolehlivosti zkonstruovaného v kapitole 6. pro zadaný příklad).
Výpočet experimentální hodnoty testového kritéria pro případ b2):
χ exp 2 = 197,96, χ exp 2 ∈ W Interpretace výsledku: Experimentální hodnota χ exp 2 patří do kritického oboru, na hladině statistické významnosti α = 0,05 nelze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický soubor VSS nemohl být vybrán z vnějšího souboru ZSS. Podíl mezi σ a σ0 je na hladině významnosti α = 0,05 statisticky významný ((lze si povšimnout, že hodnota σ0 není v případě b2) prvkem 95% intervalu spolehlivosti zkonstruovaného v kapitole 6. pro zadaný příklad).
c) Zadaný příklad – testování hypotézy o rovnosti středních hodnot Obdobné sledování zdravotního stavu jako u zadaného příkladu (zde byl zkoumán výběrový statistický soubor VSS1 n1 = 50 pacientů s výsledkem µ1 = 2,5) vedlo u n2 = 100 pacientů k průměrné úspěšnosti aplikace léčebné metody na daný typ nádorového onemocnění c1) µ2 = 2,6, c2) µ2 = 2,9 (rozptyly byly srovnatelné, informace o velikosti rozptylů však chybí – je nutno použít dvojvýběrový t-test). Zjistěte, zda tento výběrový statistický soubor VSS2 mohl být na hladině statistické významnosti α = 0,05 vybrán z téhož základního statistického souboru ZSS jako soubor VSS1.
Bude použit dvojvýběrový t-test:
texp =
µ1 − µ 2
( n1 − 1) S x12 + ( n2 − 1) S x 2 2
( 2 )〉 ∪ 〈t
W = (−∞; −tn1 + n2 − 2 α
n1 + n2 − 2
n1n2 ( n1 + n2 − 2 ) , n1 + n2
(α 2 ) ; ∞ )
Formulace nulové a alternativní hypotézy: H0: µ1 = µ2,
60
Ha: µ1 ≠ µ2
Určení kritických hodnot a kritického oboru: t148(0,025) = 1,96,
W = ( − ∞; − 1,96 〉 ∪ 〈 1,96; ∞)
Výpočet experimentální hodnoty testového kritéria pro případ c1): texp = − 0,574,
texp ∉W
Interpretace výsledku: Experimentální hodnota texp nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 mohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi µ1 a µ2 je na hladině významnosti α = 0,05 statisticky nevýznamný.
Výpočet experimentální hodnoty testového kritéria pro případ c2): texp = − 2,298,
texp ∈W
Interpretace výsledku: Experimentální hodnota texp patří do kritického oboru, na hladině statistické významnosti α = 0,05 nelze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 nemohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi µ1 a µ2 je na hladině významnosti α = 0,05 statisticky významný.
d) Zadaný příklad - testování hypotézy o rovnosti rozptylů Obdobné sledování zdravotního stavu jako u zadaného příkladu (zde byl zkoumán výběrový statistický soubor VSS1 n1 = 50 pacientů s výsledkem Sx12 = σ12 =1,01) vedlo u n2 = 100 pacientů k průměrné úspěšnosti léčebné metody daného typu nádorového onemocnění, která umožnila výpočet rozptylu d1) Sx22 = σ22 = 1, d2) Sx22 = σ22 = 1,631. Zjistěte, zda tento výběrový statistický soubor VSS2 mohl být na hladině významnosti α = 0,05 vybrán z téhož základního statistického souboru ZSS jako soubor VSS1.
Bude použit dvojvýběrový F-test (s pravostranným kritickým oborem W): Fexp =
S x12 , W = 〈 Fn1 −1,n2 −1 (α ) ; ∞) pro případ d1), S x22 61
Fexp =
S x22 , W = 〈 Fn1 −1,n2 −1 (α ) ; ∞) pro případ d2). S x12
Formulace nulové a pravostranné alternativní hypotézy: H0: σ1 = σ2, tj. Sx1 = Sx2
Ha: σ1 > σ2, tj. Sx1 > Sx2 (případ d1))
H0: σ2 = σ1, tj. Sx2 = Sx1
Ha: σ2 > σ1, tj. Sx2 > Sx1 (případ d2))
Určení kritické hodnoty a pravostranného kritického oboru: F49,99(0,05) = 1,545, W = 〈 1,545; ∞)
Výpočet experimentální hodnoty testového kritéria pro případ d1): Fexp = 1,01,
Fexp ∉ W
Interpretace výsledku: Experimentální hodnota Fexp nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 mohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi Sx12 = 1,01 a Sx22 = 1 je na hladině významnosti α = 0,05 statisticky nevýznamný.
Výpočet experimentální hodnoty testového kritéria pro případ d2): Fexp = 1,615, Fexp ∈ W Interpretace výsledku: Experimentální hodnota Fexp patří do kritického oboru, na hladině statistické významnosti α = 0,05 lze odmítnout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 nemohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi Sx12 = 1,01 a Sx22 = 1,631 je na hladině významnosti α = 0,05 statisticky významný.
Kontrolní otázky: Proč odhady teoretických parametrů předcházejí srovnávání teoretických a empirických parametrů? Jaké podmínky musí splňovat dobré bodové odhady? Jaké jsou metody bodových odhadů? 62
Jaké jsou přednosti intervalových odhadů? Popište způsob konstrukce intervalů spolehlivosti. Která testová kritéria jsou používána pro konstrukci intervalů spolehlivosti? Jaký je aparát parametrického testování? Jaký je rozdíl mezi jednovýběrovým a dvojvýběrovým testováním parametrických hypotéz? Jaký je postup při parametrickém testování? Uveďte přehled nejobecnějších testových kritérií.
Kontrolní příklad: Farmaceutická firma má vyrábět tablety o průměru 12 mm. Tento průměr má v jednotkách mm podle dalších výrobců normální rozdělení N(µ, 0,25). Při kontrole 36 náhodně vybraných tablet byla zjištěna hodnota kontrolovaného průměru 11,7 mm. Ověřte na hladině významnosti α = 0,05 hypotézu, že firma produkuje tablety o požadovaném průměru.
63
8. ZÁKLADNÍ METODY MATEMATICKÉ STATISTIKY –
MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ Tato osmá kapitola poskytne návod, jak používat čtvrtou základní metodu matematické statistiky nazvanou „Měření statistických závislostí“ (viz Legenda k obrázku Obr. 1). Součástí kapitoly jsou také uvedené cíle výkladu, přehled osvojovaných pojmů a poznatků, kontrolní otázky a kontrolní příklad. Výklad je založen na zadaném příkladu, který je postupně řešen v rámci celé Části A během seznamování se všemi 8 základními metodami statistiky.
Cíle: zkoumání asociací: statistická závislost – kauzální, nekauzální; asociační obraz výběrového statistického souboru: regresní analýza, korelační analýza. Osvojované pojmy a poznatky: Jednorozměrný a vícerozměrný výběrový statistický soubor, statistická závislost, jednoduchá a vícenásobná regresní závislost, lineární a nelineární regeresní závislost, regresní analýza (regression analysis), jednoduchá a vícenásobná korelace, Pearsonův koeficient korelace.
8.1 Vymezení problému
Dosud byl zkoumán jednorozměrný výběrový statistický soubor VSS, u statistických jednotek tohoto souboru byl šetřen jen jeden statistický znak SZ. Měření statistických závislostí je spojeno s vícerozměrným výběrovým souborem VSS, u statistických jednotek bude souběžně zkoumáno více statistických znaků. Statistická závislost mezi znaky SZ-x, SZ-s je dána předpisem, který naměřeným nebo zadaným hodnotám znaku SZ-x (hodnoty znaku SZ-x nemusí mít charakter náhodné veličiny) přiřazuje právě jedno empirické rozdělení četností statistického znaku SZ-s (hodnoty znaku SZ-s naopak musí vykazovat charakter náhodné veličiny). Jednoduchou (párovou) regresní závislostí se pak obecně rozumí jednostranná závislost dané náhodné veličiny SZ-s na jiné veličině SZ-x (nikoliv nutně náhodné) – jde o zkoumání dvojrozměrného výběrového statistického souboru VSS. Vícenásobnou (mnohonásobnou) regresní závislostí je závislost dané náhodné veličiny SZ-s na větším počtu
64
jiných veličin SZ-x1, SZ-x2, SZ-x3, .… (nikoliv nutně náhodných) – jde o zkoumání vícerozměrného výběrového statistického souboru VSS. Užším pojmem než „regresní závislost“ je pojem „korelační závislost“. Jednoduchou (párovou) korelací lze chápat jako vzájemnou závislost dvou náhodných veličin (dvou statistických znaků SZ-x, SZ-s), která je spojena při změně hodnot jednoho statistického znaku (buď SZ-x nebo SZ-s) se změnou aritmetického průměru vyplývajícího ze šetření druhého statistického znaku (buď SZ-s nebo SZ-x). Ve vazbě na závislost většího počtu náhodných veličin (statistických znaků) by bylo možné obdobně definovat vícenásobnou (mnohonásobnou) korelaci. Definice regresní a korelační závislosti se odlišují od definic funkcí o jedné nebo více proměnných, tedy od definic funkčních závislostí. Část matematické statistiky, která se zabývá studiem regresních a korelačních závis-
lostí se nazývá regresní a korelační analýza. Základní úkoly regresní analýzy spočívají v nalezení vhodné teoretické regresní funkce k vystižení charakteru sledované závislosti, v bodových a intervalových odhadech regresních parametrů regresní funkce a hodnot teoretické regresní funkce a v ověřování souladu regresní funkce s experimentálními údaji. Podle typu hledané vhodné teoretické regresní funkce lze hovořit také o typech regresní analýzy – např. o polynomické regresi, exponenciální regresi, logaritmické regresi, hyperbolické regresi apod. Další výklad bude zaměřen jen na hledání vhodných teoretických regresních funkcí. Základní úkoly korelační analýzy spočívají v měření těsnosti (síly, intenzity) sledo-
vané závislosti. Problematika jednoduché lineární a nelineární korelace je obvykle zkoumána za předpokladu, že změny náhodných veličin SZ-x, SZ-s (statistických znaků SZ-x, SZ-s) jsou dobře vystiženy lineární nebo nelineární regresní funkcí. Rovněž při zkoumání vícenásobné (mnohonásobné) korelace se vychází z popisu závislosti, který je dán regresní funkcí. Úkoly korelační analýzy lze pak převést na hledání vhodných koeficientů korelace jako základních měr těsnosti daného typu korelace. Vedle koeficientů korelace spojených s metrickými škálami je rovněž podstatné zkoumání koeficientů pořadové korelace – ty vycházejí z ordinálních škál. Další výklad bude zaměřen jen na používání jednoduchého vztahu pro koeficient lineární korelace. Při redukci počtu zkoumaných statistických znaků na dva lze problém měření regresních závislostí popsat ve zjednodušené podobě. Dvojrozměrný výběrový statistický soubor
65
VSS je spojen se šetřením dvou statistických znaků SZ-x a SZ-s. Se znakem SZ-x je spojena metrická škála s prvky x1, x2, …, xn (prvky škály byly měřeny a výsledky těchto měření jsou dány absolutními četnostmi jednotlivých prvků). Se znakem SZ-s jsou pak spojeny výsledky měření s1, s2, …, sn (v těchto výsledcích jsou již zahrnuty absolutní četnosti naměřené u znaku SZ-x). Tím jsou k dispozici výsledky měření ve formě n uspořádaných dvojic [xi, si]. Popsaná zjednodušená podoba je založena na možnosti identifikovat v naměřených absolutních četnostech jednotlivé statistické jednotky. Při popsaném zjednodušení lze při měření závislostí mezi znaky SZ-x a SZ-s použít metodu nejmenších čtverců (podmínkou je, aby chyby měření znaku SZ-s, jehož hodnoty vykazují charakter speciální náhodné veličiny, měly nulovou střední hodnotu a stejný, sice neznámý, ale konečný rozptyl). Bude-li v rámci jednoduché regrese popsána teoretická regresní funkce obecně výrokovou formou y = f(x), pak lze součet nejmenších čtverců vyjádřit vztahem k
S = ∑ ( si − yi ) , 2
i =1
kde k vyjadřuje v rámci zvoleného zjednodušení společný počet prvků škály u obou statistických znaků SZ-x a SZ-s. Symboly yi označují ty hodnoty regresní funkce y = f(x), které odpovídají hodnotám x = xi. Metoda nejmenších čtverců pak spočívá v hledání regresní funkce y = f(x) prostřednictvím minimální hodnoty součtu S.
66
8.2 Jednoduchá lineární a kvadratická regresní analýza
Způsob hledání regresní funkce bude popsán prostřednictvím grafického vymezení problému na obrázku Obr. 5 Jednoduchá lineární regresní analýza. Na tomto obrázku se vychází z n = 5 uspořádaných dvojic [xi, si], které charakterizují statistickou závislost mezi statistickými znaky SZ-x a SZ-s. Na vodorovnou osu jsou nanášeny prvky škály x1, x2, .…, x5 spojené se znakem SZ-x, na svislou osu výsledky měření s1, s2, .…, s5 znaku SZ-s (v těchto výsledcích jsou již zahrnuty absolutní četnosti naměřené u znaku SZ-x na základě možnosti identifikovat jednotlivé statistické jednotky). Uspořádané dvojice [xi, si] jsou souřadnicemi pěti bodů A1 [x1, s1], A2 [x2, s2], A3 [x3, s3], A4 [x4, s4], A5 [x5, s5].
Obr. 5: Jednoduchá lineární regresní analýza
Těchto pět bodů graficky představuje „pravděpodobnostní oblak“ bodů, kterým je zapotřebí v rámci jednoduché lineární regresní analýzy proložit přímku. Statistická závislost mezi znaky SZ-x a SZ-s je pak proloženou přímkou popsána. Analytické vyjádření přímky y = f(x) je dáno obvyklým tvarem pro polynomickou funkci 1. řádu y = b0 + b1x. Parametry b0 a b1 jsou regresními parametry.
67
Metoda nejmenších čtverců směřuje k hledání minimální hodnoty výrazu k
S = ∑ ( si − yi ) , 2
i =1
v němž sčítací index i nabývá hodnot i = 1, 2, …, 5. Za yi bude dosazeno yi = b0 + b1xi a bude hledáno minimum funkce S, která je funkcí g dvou proměnných b0 a b1, tj. S = g(b0, b1). Podmínky pro hledání minima jsou dány provedením parciálních derivací funkce S podle obou regresních parametrů a položením těchto derivací rovných nule (pro zájemce o přesné hledání extrémů funkcí o více proměnných lze doporučit, aby se seznámili se Sylvestrovou větou z oblasti matematické analýzy). Podmínky pro hledání minima funkce S lze tedy zapsat ve tvaru ∂S ∂S = 0, = 0. ∂b0 ∂b1 Získaná soustava rovnic se nazývá soustava normálních rovnic pro jednoduchou lineární regresi a po provedení derivací nabývá známého tvaru (k je v popsaném zjednodušení počet prvků škály u statistických znaků SZ-x a SZ-s, sčítací index i nabývá obecně hodnot i = 1, 2, …, k, v popsaném zjednodušení pro pět prvků škály je i = 1, 2, …, 5)
∑ s = kb + b ∑ x ∑s x = b ∑x +b ∑x i
0
i i
1
0
i
i
1
2
i
Vyřešením soustavy normálních rovnic lze získat hodnoty parametrů b0, b1, zapsat rovnici přímky y = b0 + b1x a prostřednictvím získané regresní funkce činit podle obrázku Obr. 5 předpovědi hodnot si odpovídající příslušným hodnotám xi pro i > 5. Předpovědi těchto časových nebo i srovnávacích trendů by nebyly možné bez provedení lineární regresní
analýzy. Obdobným způsobem lze vyložit základy jednoduché kvadratické regrese. V tomto případě by zkoumaná statistická závislost byla vystihována polynomickou funkcí 2. řádu, jejímž grafem je parabola. Analytické vyjádření y = f(x) paraboly je dáno rovnicí y = b0 + b1x + b2x2, metoda nejmenších čtverců vede opět k hledání minima funkce k
S = ∑ ( si − yi ) . 2
i =1
68
Tato funkce je funkcí h již tří proměnných S = h(b0, b1, b2), k nalezení minima jsou již potřebné tři parciální derivace a jejich položení nule vede k soustavě normálních rovnic ∂S ∂S ∂S = 0, = 0, =0. ∂b0 ∂b1 ∂b2 Po provedení derivací nabývá soustava normálních rovnic pro jednoduchou kvadratickou regresi tvaru (k je opět v popsaném zjednodušení počet prvků škály u statistických znaků SZ-x a SZ-s, sčítací index i nabývá obecně hodnot i = 1, 2, …, k)
∑ s = kb + b ∑ x + b ∑ x ∑s x = b ∑x +b ∑x +b ∑x ∑s x = b ∑x +b ∑x +b ∑x 2
i
0
1
i
2
i
2
i i
0
i
1
2
i i
3
i
2
2
0
i
3
i
1
i
2
4
i
Sčítací index i nabývá pro obrázek Obr. 5 (v případě kvadratické regrese by ovšem skupina bodů A1 [x1, s1], A2 [x2, s2], A3 [x3, s3], A4 [x4, s4], A5 [x5, s5] měla tvarově místo přímky mapovat průběh paraboly) hodnot i = 1, 2, .…, 5. Vyřešením soustavy normálních rovnic lze získat hodnoty regresních parametrů b0, b1, b2, zapsat rovnici paraboly y = b0 + b1x + b2x2 a prostřednictvím získané regresní funkce činit podle obrázku Obr. 5 předpovědi hodnot si odpovídající příslušným hodnotám xi pro i > 5. Předpovědi těchto časových nebo i srovnávacích trendů by nebyly možné bez provedení kvadratické regresní analýzy.
69
8.3 Jednoduchá lineární a kvadratická korelační analýza
K vymezení problému je opět možné použít grafické cesty naznačené prostřednictvím obrázku Obr. 5. Po provedení jednoduché lineární regresní analýzy (výsledek naznačen na obrázku Obr. 5 zakreslenou přímkou) je možné přistoupit k zjišťování těsnosti statistické závislosti mezi statistickými znaky SZ-x a SZ-s zkoumaného výběrového souboru VSS. Nejužívanější měrou těsnosti jednoduché lineární korelace je Pearsonův koeficient korelace kxs. Tento koeficient je dán vztahem k xs =
S xs , k xs ∈ 〈−1;1〉 . S x Ss
Pearsonův koeficient korelace kxs nabývá hodnot k xs ∈ 〈−1;1〉 (tento závěr lze snadno odvodit z tzv. Schwarzovy nerovnosti). Hodnoty blížící se hodnotě 1 zprava odpovídají případu pozitivní korelace (hodnoty obou statistických znaků SZ-x a SZ-s současně rostou nebo klesají, tomuto případu odpovídá obrázek Obr. 5), hodnoty blížící se hodnotě -1 zleva popisují korelaci negativní (zatímco hodnoty jednoho statistického znaku rostou, hodnoty druhého znaku klesají), hodnoty kolem 0 naznačují, že znaky nekorelují (nelze vysledovat žádné společné trendy v nárůstech či poklesech hodnot znaků). Pearsonův koeficient korelace jako empirický parametr má charakter náhodné veličiny a může být používán jako bodový odhad teoretického koeficientu korelace. Ve vztahu pro Pearsonův koeficient korelace se vyskytuje vedle obvyklých směrodatných odchylek Sx a Ss (tj. odmocnin centrálních momentů C2x a C2s) spojených se zkoumáním znaků SZ-x a SZ-s také smíšený centrální moment druhého řádu C2x,s = Sxs, který je definován vztahem (O1x a O1s jsou obecné momenty 1. řádu spojené se statistickými znaky SZ-x a SZ-s) k
S xs = ∑ i =1
ni
n
( xi − O1x )( si − O1s )
,
kde k představuje počet prvků škály u statistických znaků SZ-x a SZ-s. Smíšený centrální moment 2. řádu S xs představuje také kovarianci statistických znaků SZ-x a SZ-s – vystihuje, jak kovariují (jak se společně mění) oba statistické znaky SZ-x a SZ-s.
70
Pearsonův koeficient korelace kxs je výrazem normování kovariance na jednotkový součin směrodatných odchylek SxSs. Je tedy možno jej nazývat normovanou kovariancí statistických znaků SZ-x a SZ-s. Vedle Pearsonova koeficientu korelace jsou k měření těsnosti jednoduché lineární korelace používány i jiné veličiny (např. velikost menšího z úhlu sevřeného sdruženými regresními přímkami nebo poměr determinace). Pro měření jednoduché kvadratické korelace (statistická závislost je vystižena kvadratickou regresní funkcí) je používán „index korelace“. Vztahu pro „index korelace“ lze použít i pro zkoumání jiných jednoduchých nelineárních korelací – do tohoto vztahu je pouze zapotřebí dosadit místo kvadratické regresní funkce použitou regresní funkci.
71
8.4 Ilustrace měření statistických závislostí
a) Jednoduchá lineární regrese a korelace Sledování úspěšnosti léčebné metody daného typu nádorového onemocnění u zadaného příkladu (byl zkoumán výběrový statistický soubor VSS o rozsahu n = 50 pacientů, u pacientů byl šetřen statistický znak SZ-x „úspěšnost léčebné metody daného typu nádorového onemocnění“) bylo spojeno se sledováním druhého statistického znaku SZ-s (např. celkový zdravotní stav) s použitím obdobné metrické škály (prvek škály 1 odpovídá kvantifikovanému nejlepšímu zdravotnímu stavu, prvek škály 5 kvantifikovanému zdravotnímu stavu nejhoršímu). Zjištěné hodnoty xi (úspěšnost léčebné metody daného typu nádorového onemocnění) a si (kvantifikovaný celkový zdravotní stav) jsou uvedeny na základě možnosti identifikovat jednotlivé statistické jednotky (ne pouze absolutní četnosti náležející jednotlivým prvkům škály) v tabulce. Cílem je odhadnout typ regresní závislosti obou řad statistických údajů, vyjádřit ji vhodnou regresní funkcí a zjistit těsnost korelace pomocí vhodného koeficientu.
znak SZ-x: hodnoty xi znak SZ-s: hodnoty si
1 1,8
2 2,2
3 3,8
4 4,2
Odhadnutý typ regresní závislosti: Jednoduchá lineární regrese vyjádřená regresní přímkou y = b0 + b1x. Soustava normálních rovnic pro lineární regresi:
∑ s = kb + b ∑ x ∑s x = b ∑x +b ∑x i
0
i i
1
0
i
i
1
Soustava normálních rovnic po zadaný případ: 5b0 + 15b1 = 16,6 15b0 + 55b1 = 57,4 Nalezení regresní funkce: y = 1,04 + 0,76 x
72
i
2
5 4,6
Zkoumání trendů (tabulka by např. popisovala nárůst typu nádorového onemocnění v procentech za posledních pět let): Pro hodnotu xi = 6 znaku SZ-x lze po dosazení vypočítat odpovídající hodnotu si = 5, 6 znaku SZ-s. V následujícím šestém roce lze odhadnout nárůst sledovaného typu nádorového onemocnění o 5,6 %. Výpočet koeficientu korelace:
hodnoty dané elementárním statistickým zpracováním obou statistických znaků nechť vycházejí Ss = 0,924 (O1s = 3,024), Sx = 1,005 (O1x = 2,5);
výpočet smíšeného centrálního momentu 2. řádu (kovariance statistických znaků SZ-x a SZ-s) dává hodnotu Sxs = 0,908;
dosazení do vztahu pro Pearsonův koeficient lineární korelace umožňuje získat těsnost měřené statistické závislosti mezi znaky SZ-x a SZ-s k xs =
S xs = 0,978; S x Ss
interpretace hodnoty 0,978 zní: těsná pozitivní korelace.
b) Jednoduchá kvadratická regrese Sledování úspěšnosti léčebné metody daného typu nádorového onemocnění u zadaného příkladu (byl zkoumán výběrový statistický soubor VSS o rozsahu n = 50 pacientů, u pacientů byl šetřen statistický znak SZ-x „úspěšnost léčebné metody daného typu nádorového onemocnění“) bylo spojeno se sledováním druhého statistického znaku SZ-s (např. zlepšování celkového zdravotního stavu v procentech u skupin pacientů v jednotlivých prvcích škály xi statistického znaku SZ-x). Předpokladem statistického šetření byla možnost identifikovat jednotlivé statistické jednotky. Údaje jsou uvedeny v tabulce. Cílem je odhadnout typ regresní závislosti obou řad statistických údajů, vyjádřit ji vhodnou regresní funkcí a odhadnout možné trendy vyplývající z regresní funkce. znak SZ-x: hodnoty xi znak SZ-s: hodnoty si
1 20 %
73
2 10 %
3 6%
4 2%
5 2%
Odhadnutý typ regresní závislosti: Jednoduchá kvadratická regrese vyjádřená regresní parabolou y = b0 + b1x + b2x2. Soustava normálních rovnic pro kvadratickou regresi:
∑ s = kb + b ∑ x + b ∑ x ∑s x = b ∑x +b ∑x +b ∑x ∑s x = b ∑x +b ∑x +b ∑x 2
0
i
1
2
i
i
2
0
i i
1
i
2
3
2
i
2
i i
0
i
3
i
1
i
2
4
i
Pomocné výpočty jsou provedeny v tabulce Tab. 5: xi 1
xi2 1
xi3 1
xi4 1
si 20
sixi 20
sixi2 20
2
4
8
16
10
20
40
3 4 5
9 16 25 55
27 64 125 225
81 256 625 979
6 2 2 40
18 8 10 76
54 32 50 196
Σ 15
Tab. 5: Pomocné výpočty pro soustavu normálních rovnic
Soustava normálních rovnic má na základě tabulky Tab. 5 tvar: 5b0 + 15b1 + 55b2 = 40 15b0 + 55b1 + 225b2 = 76 55b0 + 225b1 + 980b2 = 196 Nalezení regresní funkce:
Nejdříve bude provedena úprava příslušných matic (dosažením nulových prvků pod hlavní diagonálou s využitím Gaussovy metody řešení soustavy rovnic).
5 15 55
15 55 / 40 55 225 / 76 225 980 / 196
5 0 0
15 10 60
55 / 40 60 / - 44 375 / - 244
5 0 0
15 10 0
55 60 15
/ 40 / - 44 / 20
Na základě upravených matic lze provést výpočet hodnot koeficientů b0, b1, b2: b2 = 1,33, b1 = − 12,4, b0 = 30,54.
74
Dosazením do obecné rovnice paraboly lze získat analytické vyjádření regresní paraboly y = 1,33x2 – 12,4x + 30,54 a po úpravě obdržet tvar y = 1,33 (x – 4,7)2 + 1,21. Odtud jsou zřejmé souřadnice vrcholu paraboly V [4,7; 1,21].
Nyní již může být sestrojen graf regresní paraboly jako výsledek provedené jednoduché kvadratické regresní analýzy.
30 25 20 15 10 5 0 1
2
3
4
5
Obr. 6: Jednoduchá kvadratická regrese
Zkoumání trendů: Např. pro hodnotu xi = 0,5 znaku SZ-x lze po dosazení vypočítat odpovídající hodnotu si = 24,67 % znaku SZ-s (z velmi vysokého stupně úspěšnosti léčebné metody lze vypočítat výrazné zlepšení celkového zdravotního stavu pacientů).
c) Alternativní řešení jednoduché lineární a kvadratické regrese a korelace c1) První alternativní případ – jednotlivé statistické jednotky nelze identifikovat První alternativní řešení se týká případu, kdy nelze identifikovat jednotlivé statistické jednotky a kdy je zapotřebí vycházet jen z absolutních četností přiřazených jednotlivým prvkům škály statistických znaků SZ-x a SZ-s. Tuto alternativu zobrazuje tabulka Tab. 6, hodnoty v druhém sloupci tabulky pro statistický znak SZ-x odpovídají průběžně sledovanému zadanému příkladu, hodnoty pro statistický znak SZ-s ve čtvrtém sloupci tabulky jsou dodány virtuálně (podstatné je jen zachování součtu 50):
75
xi 1 2 3 4 5
ni,x 9 15 20 4 2 50
Σ
si 1 2 3 4 5
ni,s 6 10 18 9 7 50
Tab. 6: Pomocné výpočty pro lineární regresi. Jednotlivé statistické jednotky nelze identifikovat – pak je zapotřebí přistoupit k přeformulování statistického šetření. Přeformulování je zřejmé z tabulky Tab. 7: ni,x 1 1 1 1 1
xi 9 15 20 4 2 50
Σ n=5
ni,s 1 1 1 1 1 n=5
si 6 10 18 9 7 50
Tab. 7: Pomocné výpočty pro lineární regresi v případě, že jednotlivé statistické jednotky nelze identifikovat.
Prvky škály se změnily na pět zkoumaných případů se stejnými absolutními četnostmi ni,x = ni,s= 1 pro všechny hodnoty i = 1, 2, ….,5 (viz první a třetí sloupec tabulky Tab. 7). Celkový rozsah výběrového statistického souboru v rámci přeformulovaného statistického souboru je n = 5. Statistické znaky SZ-x a SZ-s mají nyní hodnoty označené xi a si a vyjádřené kvantitativně druhým a čtvrtým sloupcem tabulky Tab. 7.
V rámci např. jednoduché lineární regresní analýzy vyjádřené soustavou normálních rovnic
∑ s = kb + b ∑ x ∑s x = b ∑x +b ∑x i
i i
0
1
0
i
i
1
2
i
je nyní potřebné za k dosadit obsahově nikoliv počet prvků škály, ale nově vymezený rozsah výběrového statistického souboru k = n = 5. Do součtů obsahujících xi a si je potřebné
76
dosazovat údaje vymezené druhým a čtvrtým sloupcem upravené tabulky. Touto cestou je opět možné dosáhnout analytického vyjádření regresní přímky y = b0 + b1x. Základní
trendy
vyplývající
z původní
formulace
statistického
šetření
a z přeformulovaného statistického šetření by měly zůstat přibližně zachovány. V rámci např. jednoduché lineární korelační analýzy vyjádřené Pearsonovým koeficientem lineární korelace k xs a kovariancí S xs k xs =
k S xs n , S xs = ∑ i ( xi − O1x )( si − O1s ) n S x Ss i =1
je nyní potřebné za relativní četnosti ni
n
pro i = 1, 2, …., 5 dosazovat 1
5
(tj. za všechny absolutní četnosti ni se dosazuje hodnota 1, za rozsah n nového výběrového statistického souboru VSS se dosazuje hodnota 5), hodnoty xi a si jsou zřejmé z druhého a čtvrtého sloupce tabulky Tab.7. Aritmetické průměry O1x a O1s vycházejí rovny 10. Směrodatné odchylky S x a S s je zapotřebí vypočítat podle obvyklých vztahů pro centrální momenty 2. řádu C2 a směrodatnou odchylku: C2 x =
1 2 ni ( xi − O1x ) , S x = C2 x ∑ n
C2 s =
1 2 ni ( si − O1s ) , S s = C2 s ∑ n
Uvedený postup umožňuje vypočítat Pearsonův koeficient lineární korelace i v rámci přeformulovaného statistického šetření. Lze očekávat, že mezi původním a přeformulovaným statistickým šetřením nebude markantní rozdíl ani v oblasti korelační analýzy.
c2) Druhý alternativní případ – počty prvků škály nejsou u statistických znaků stejné Druhé alternativní řešení se týká případu, kdy u statistických znaků SZ-x a SZ-s nebude možné v rámci metod empirické statistiky zavést z rozmanitých důvodů stejný počet prvků škály. Řešení tohoto alternativního případu lze nalézt v kapitole 11., která rozšiřuje metody matematické statistiky také v oblasti regresní a korelační analýzy.
77
Kontrolní otázky: Jaký je rozdíl mezi jednorozměrným a vícerozměrným statistickým souborem? Co je to statistická závislost? Jaký je rozdíl mezi jednoduchou a vícenásobnou regresní a korelační analýzou? V čem spočívají základní úkoly regresní analýzy? V čem spočívají základní úkoly korelační analýzy? Co je to metoda nejmenších čtverců? Jaká je soustava normálních rovnic pro jednoduchou lineární a kvadratickou regresi? Jaký je rozdíl mezi Pearsonovým koeficientem korelace a indexem korelace?
Kontrolní příklad: U vhodným způsobem vymezené populační skupiny kuřáků byla zkoumána závislost procenta výskytu chronické bronchitidy (si) na počtu vykouřených cigaret za dva dny u silných kuřáků. (xi v jednotkách desítky cigaret). Pro počet desítek vykouřených cigaret 4 bylo zjištěno procento 6,1, pro počet 5 procento 5,8, pro počet 6 procento 6,0, pro počet 7 procento 6,5, pro počet 8 procento 6,8, pro počet 9 procento 8,1, pro počet 10 procento 10,0. Nalezněte kvadratickou regresní funkci.
78
ČÁST B
ROZŠÍŘENÍ METOD
9. ROZŠÍŘENÍ METOD DESKRIPTIVNÍ STATISTIKY 9.1 Rozšíření formulace statistického šetření
V kapitole 1. „Formulace statistického šetření“ byly definovány základní pojmy deskriptivní statistiky „hromadný náhodný jev“, „statistická jednotka“, „statistický znak“, „hodnoty statistického znaku“, základní statistický soubor“, „náhodný výběr“, „výběrový statistický soubor“. Tato podoba „Formulace statistického šetření“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Nyní bude „Formulace statistického šetření“ rozšířena nad úroveň manuálu.
9.1.1 Statistický znak a jeho hodnoty Statistické znaky se nazývají proměnné a jsou hlavním předmětem statistického zkoumání. Proměnné se dělí na číselné a kvantitativní nebo na slovní, alfabetické, kategoriální, kvalitativní.
Hodnoty statistického znaku mohou být vztaženy ke konkrétní statistické jednotce nebo mohou vyjadřovat stupně zkoumané vlastnosti – pak jde o varianty nebo o obměny statistického znaku, které mají úzkou vazbu na prvky škály.
Kvantil je hodnota statistického znaku, která rozděluje množinu hodnot statistického znaku (uspořádaných podle velikosti) v jistém procentuálním rozčlenění (medián, tercily, kvartily, kvintily, decily, percentily – pomocí kvantilů se tvoří histogramy).
79
Modus (xMod) je hodnota statistického znaku s největší četností. Medián (xMed) je hodnota statistického znaku, pro níž existuje 50 % hodnot menších a 50 % hodnot větších.
Variační rozpětí R je rozdíl mezi největší a nejmenší hodnotou statistického znaku [1]
R = xmax – xmin.
Čím je menší variabilita hodnot statistického znaku, tím je menší variační rozpětí [1].
9.1.2 Náhodný výběr Podmínkou provádění náhodného výběru je, aby každá statistická jednotka základního statistického souboru měla stejnou pravděpodobnost svého výběru. Množina statistických jednotek vybraných ze základního statistického souboru tvoří výběrový statistický soubor.
Je-li základní statistický soubor dostatečně rozsáhlý, a jestliže statistické jednotky vytvářejí určitou posloupnost nezávislou na sledovaném statistickém znaku, lze provést náhodný výběr jako „systematický výběr“ výběrem každé j-té statistické jednotky.
Je-li hypoteticky nekonečný základní statistický soubor vytvářen identickými statistickými jednotkami (např. výrobky vyrobené za stejných podmínek), lze za náhodný výběr považovat jakoukoliv množinu statistických jednotek „bez techniky vybírání“.
9.1.3 Druhy náhodného výběru Prostý náhodný výběr spočívá v přímém výběru statistických jednotek, nikoliv skupin statistických jednotek.
Oblastní (stratifikovaný) náhodný výběr spočívá nejdříve v rozdělení základního statistického souboru na několik homogenních oblastí, z těchto oblastí je již prováděn prostý náhodný výběr. K členění do oblastí jsou potřebné vstupní informace (spolupráce s vhodným odborníkem).
Dvojstupňový náhodný výběr spočívá v náhodném výběru homogenních oblastí, pak následuje výběr statistických jednotek z oblastí.
Náhodný výběr s nestejnými pravděpodobnostmi vyžaduje posoudit míru významnosti každé statistické jednotky.
80
Při náhodném výběru nebývá při velkém rozsahu základního statistického souboru rozlišováno mezi vracením a nevracením vylosovaných statistických jednotek.
9.1.4 Analogie mezi pojmy formulace statistického šetření a pojmy teorie pravděpodobnosti a matematické statistiky Matematická statistika nahrazuje empirická zjištění teoretickými konstrukty vycházejícími z teorie pravděpodobnosti. Mezi základními pojmy teorie pravděpodobnosti a matematické statistiky a pojmy formulace statistického šetření lze nalézat vhodné analogie: a) Náhodný pokus je způsob zkoumání jevu, u něhož nelze kontrolovat všechny podmínky.
Analogií „náhodného pokusu“ ve formulaci statistického šetření je způsob statistického šetření. b) Hromadný náhodný jev je množina všech vlastností náhodného pokusu (tato množina může být kvantifikována všemi možnými výsledky náhodného pokusu). Náhodný jev je vlastnost náhodného pokusu (tato vlastnost může být kvantifikována výsledky náhodného pokusu), který nemusí být opakovatelný. Elementární náhodný jev je jednoprvková množina výsledků náhodného pokusu (náhodný pokus již nelze dále rozkládat). Množina náhodných jevů se nazývá jevové pole.
Analogií „hromadného náhodného jevu“ ve formulaci statistického šetření je hromadný náhodný jev jako reálný jev, u něhož lze naměřit mnoho výsledků, které mají různé pravděpodobnosti svého výskytu. c) V teorii pravděpodobnosti jsou náhodné pokusy prováděny myšlenkově na abstraktně
pojatých nositelích hromadného náhodného jevu. Analogií „abstraktně pojatého nositele hromadného náhodného jevu“ ve formulaci statistického šetření je reálně existující nositel hromadného náhodného jevu, který je nazýván statistickou jednotkou. d) V teorii pravděpodobnosti jsou zkoumány vlastnosti myšlenkově prováděného náhodného pokusu, které se nazývají náhodnými jevy, v případě kvantifikace výsledky náhodného pokusu náhodnými veličinami X.
Analogií „náhodné veličiny“ je ve formulaci statistického šetření statisticky šetřená vlastnost statistické jednotky, která je nazývána statistickým znakem.
81
e) Hodnoty náhodné veličiny jsou označovány x nebo xi, podle spojitosti či diskrétnosti náhodné veličiny. Rozdělením náhodné veličiny je funkce, která každé hodnotě náhodné veličiny x nebo xi přiřazuje reálné číslo. Má-li přiřazené reálné číslo význam pravděpodobnosti hodnoty náhodné veličiny, je taková funkce nazývána pravděpodobnostním rozdělením nebo také teoretickým rozdělením náhodné veličiny. Teoretické rozdělení je u spojité náhodné veličiny spojeno s názvem hustota pravděpodobnosti ρ(x), u diskrétní náhodné veličiny s názvem pravděpodobnostní funkce Pi. Teoretické rozdělení spojité či diskrétní náhodné veličiny může být spojeno s distribuční funkcí F(x) nebo Fi, která představuje pravděpodobnost pro hodnoty náhodné veličiny menší než x nebo xi (hodnoty xi diskrétní náhodné veličiny se často označují xi = i). Místo delšího spojení „teoretické rozdělení spojité a diskrétní náhodné veličiny“ se často používá kratší spojení „spojité a diskrétní teoretické rozdělení“.
Analogií „hodnoty náhodné veličiny“ je ve formulaci statistického šetření diskrétní hodnota statistického znaku. f) V teorii pravděpodobnosti lze uvažovat množinu všech abstraktně pojatých nositelů
hromadného náhodného jevu. Analogií „množiny všech abstraktně pojatých nositelů hromadného náhodného jevu“ je množina všech statistických jednotek – základní statistický soubor. g) V teorii pravděpodobnosti a v matematické statistice je náhodným výběrem o rozsahu n výběr n vhodných charakteristik abstraktně pojatých nositelů hromadného jevu. Těmito charakteristikami může být např. n náhodných veličin Xi (pak lze hovořit o n-rozměrném náhodném vektoru náhodných veličin [2]
uur X = [ X 1 ,..., X n ] ,
kde nezávislé náhodné veličiny Xi mají identická teoretická rozdělení) nebo také jen n hodnot jedné náhodné veličiny X nebo n hodnot x1 ,..., xn jednotlivých náhodných veličin X 1 ,..., X n . Pak lze hovořit o n-rozměrném náhodném vektoru hodnot náhodné veličiny X nebo systému náhodných veličin X 1 ,..., X n (nutno rozlišovat podle charakteru zkoumaného problému) [3]
r x = [ x1 ,..., xn ] .
82
Není-li známo při náhodném výběru pracujícím s náhodným vektorem náhodných veličin identické teoretické rozdělení náhodných veličin Xi, je nutno hledat shodu s některým typem teoretického rozdělení. V matematické statistice je zaváděn pojem „statistiky ST“ jako funkce buď náhodných veličin (v případě práce s vektorem náhodných veličin [2]), nebo hodnot náhodné veličiny (v případě práce s náhodným vektorem hodnot náhodné veličiny [3]). Mezi „statistiky ST“ patří např. teoretické obecné, centrální a normované parametry. „Statistiky ST“ mají také svá pravděpodobnostní rozdělení, kterým se v důsledku provedení náhodného výběru v rámci matematické statistiky říká „výběrová rozdělení“ – příkladem mohou být „statistiky ST“, které mají známá pravděpodobnostní rozdělení spojená s neparametrickým či parametrickým testováním v matematické statistice.
Analogií „náhodného výběru v matematické statistice“ je náhodný výběr n statistických jednotek ze základního statistického souboru, které pak vytvoří výběrový statistický soubor.
83
9.2 Rozšíření škálování
V kapitole 2. „Škálování“ byly definovány další významné pojmy deskriptivní statistiky „škálování“, „škála“, „prvek škály“, „typy škály“. Tato podoba „Škálování“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Nyní bude „Škálování“ rozšířeno nad úroveň manuálu. Při tomto rozšíření jsou již využívány výsledky kapitoly 9.1 „Rozšíření formulace statistického šetření“.
9.2.1 Typy škál Typy škál jsou dány typem vztahu mezi hodnotami statistického znaku a variantami statistického znaku (nominální, ordinální, metrické). Podle počtu k variant statistického znaku (podle počtu prvků škály) může jít o škálu alternativní (k = 2) nebo množnou (k je větší než 2).
Nominální škála – o dvou hodnotách statistického znaku lze pouze konstatovat, že jsou buď stejné, nebo různé (názvová proměnná).
Ordinální škála – statistický znak lze nazvat pořadovou proměnnou (prvky škály lze seřadit od nejmenší do největší).
Metrická škála – statistický znak lze nazvat metrickou proměnnou (lze přesně změřit, o kolik je jeden prvek škály větší než druhý). Jestliže metrická proměnná nabývá pouze kladných měřitelných hodnot, metrická škála se nazývá kardinální škálou (vždy lze metrickou proměnnou transformovat na kardinální proměnnou).
84
9.2.2 Škálování a hodnoty statistického znaku Škálování vědomě zanedbává malé odlišnosti mezi sobě blízkými hodnotami statistického znaku. Variační rozpětí R = xmax – xmin [1] mezi hodnotami statistického znaku se rozdělí na určitý počet k = 1 + 3,3 log10 n (Sturgesovo pravidlo, n je rozsah výběrového statistického souboru) disjunktních intervalů. Hodnoty statistického znaku z jednoho prvku škály jsou považovány za ekvivalentní a jsou zastoupeny středem prvku škály. Místo škály se někdy používá stem-and-leaf (tj. stonek s listy), který umožňuje snižovat ztrátu informace.
85
9.3 Rozšíření měření v deskriptivní statistice
V kapitole 3. „Měření v deskriptivní statistice“ byly vedle popisu měření v deskriptivní statistice používány další významné pojmy deskriptivní statistiky „absolutní
četnost“, „relativní četnost“, „kumulativní četnost“. Tyto pojmy byly charakterizovány jako výsledky měření v deskriptivní statistice. Tato podoba „Měření v deskriptivní statistice“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Nyní bude „Měření v deskriptivní statistice“ jen velmi stručně rozšířeno nad úroveň manuálu. Při tomto rozšíření jsou již využívány výsledky kapitol 9.1 „Rozšíření formulace statistického šetření“ a 9.2 „Rozšíření škálování“.
9.3.1 Absolutní, relativní a kumulativní četnosti jako výsledky měření Měření lze v deskriptivní statistice stručně charakterizovat jako přiřazování počtů ni statistických jednotek z výběrového statistického souboru jednotlivým prvkům škály [4]
xi (index i nabývá hodnot i = 1, 2, …., k, kde k je počet prvků škály).
Počty ni statistických jednotek jsou absolutní četnosti [5]
ni.
Zlomky ni/n jako další možný výsledek měření jsou četnostmi relativními [6]
ni/n
(n je rozsah výběrového statistického souboru daný počtem statistických jednotek výběrového statistického souboru). Relativní četnosti jsou spojeny s pojmy „statistická pravděpodobnost“ nebo „statistická váha“.
86
j ≤k
Sumace
ni
∑n
jako další možný výsledek měření představuje kumulativní četnosti
i =1
j ≤k
[7]
ni
∑n. i =1
Kumulativní četnosti představují součet j relativních četností, hodnota j sčítacího indexu musí být menší nebo rovna počtu k prvků škály. Součet pro j = k nabývá hodnoty 1, tj. k
[8]
ni
∑ n = 1 (jde o normovací podmínku v rámci deskriptivní statistiky). i =1
9.3.2 Měření v deskriptivní statistice a matematická statistika V matematické statistice, která navazuje na deskriptivní statistiku tvorbou teoretických konstruktů (s využitím teorie pravděpodobnosti), je pojem měření spojen jak s výsledky měření v deskriptivní statistice, tak s myšlenkovým prováděním náhodných pokusů v teorii pravděpodobnosti. Spojení empirického a pravděpodobnostního přístupu k měření vede k vymezení některých metod matematické statistiky – např. neparametrického testování, teorie odhadu, parametrického testování, měření statistických závislostí prostřednictvím regresní a korelační analýzy.
87
9.4 Rozšíření elementárního statistického zpracování
V kapitole 4. „Elementární statistické zpracování“ byl proveden popis tabulky s 8 sloupci a s počtem k řádků (počet řádků odpovídá počtu prvků škály), popis grafů empirických rozdělení absolutních, relativních a kumulativních četností (viz obrázky Obr. 2 a Obr. 3) a také popis a výpočet obecných, centrálních a normovaných momentů. Tyto momenty jako empirické parametry byly na bázi deskriptivní statistiky definovány následujícím způsobem: [9]
obecný moment r-tého řádu:
Or ( x ) =
[10]
obecný moment 1. řádu:
O1 =
[11]
centrální moment r-tého řádu:
Cr ( x ) =
[12]
centrální moment 2. řádu:
C2 =
1 ni xi r ∑ n
1 ∑ ni xi (aritmetický průměr) n 1 r ni ( xi − O1 ) ∑ n
1 2 ni ( xi − O1 ) ∑ n
(empirický rozptyl, střední kvadratická chyba) [13]
směrodatná odchylka:
S x = C2
[14]
variační koeficient:
V=
normovaný moment r-tého řádu:
n x − O1 Nr ( x ) = ∑ i i n Sx
[15]
Sx S , variační koeficient v procentech 100 x O1 O1
[16a] normovaný moment 3. řádu
N3 =
[16b] normovaný moment 4. řádu
N4 =
C3 C2 C2
r
(parametr šikmosti)
C4 (parametr špičatosti) C2 2
Tato podoba „Elementárního statistického zpracování“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky.
88
Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Nyní bude „Elementární statistické zpracování“ rozšířeno nad úroveň manuálu. Při tomto rozšíření jsou již využívány výsledky kapitol 9.1 „Rozšíření formulace statistického šetření“, 9.2 „Rozšíření škálování“ a 9.3 „Rozšíření měření v deskriptivní statistice“.
9.4.1 Tabulka Tabulka rozdělení četností číselného statistického znaku s mnoha hodnotami nepřináší žádoucí zpřehlednění statistických údajů, cestou je sestavení tabulky na základě škálování. Z hlediska analogií mezi deskriptivní a matematickou statistikou lze přijmout následující závěry pro jednotlivé sloupce tabulky Tab. 1: a) Prvkům škály xi (viz [4]) v deskriptivní statistice odpovídají v matematické statistice seskupení hodnot diskrétní nebo spojité náhodné veličiny, např. prostřednictvím intervalového rozdělení četnosti. b) Relativním četnostem ni/n (viz [6]) v deskriptivní statistice odpovídají v teorii pravděpodobnosti a v matematické statistice u spojité náhodné veličiny hustoty pravděpodobnosti
ρ(x),
[17]
u diskrétní náhodné veličiny pravděpodobnostní funkce [18]
Pi.
Hustota pravděpodobnosti ρ(x) je spojena spíše s geometrickou definicí pravděpodobnosti, pravděpodobnostní funkce Pi spíše s klasickou definicí pravděpodobnosti. Hustota pravděpodobnosti a pravděpodobnostní funkce jsou základem spojitého a diskrétního teoretického rozdělení náhodné veličiny. c) Kumulativním četnostem ∑ni/n (viz [7]) v deskriptivní statistice odpovídají v teorii pravděpodobnosti a v matematické statistice distribuční funkce (distribuční funkce F(x)
89
nebo Fi představuje pravděpodobnost pro hodnoty náhodné veličiny menší než x nebo xi, hodnoty xi diskrétní náhodné veličiny se často označují xi = i) [19]
F(x), Fi
spojitého a diskrétního teoretického rozdělení. Součtu ∑ni/n = 1 (viz [8]) v deskriptivní statistice odpovídají v teorii pravděpodobnosti a v matematické statistice normovací podmínky pro spojité a diskrétní teoretické rozdělení. Je-li číselný statistický znak zachycen ve více než 2 statistických souborech, může se cesta přes tabulky, grafy až k empirickým parametrům (viz kapitola 4.) stát těžkopádnou. Pak je lépe provést výpočet empirických parametrů pro každý z uvažovaných statistických souborů, nalezené empirické parametry srovnat v následné tabulce jako výsledek elementárního statistického zpracování několika statistických souborů.
9.4.2 Grafy Grafy empirického rozdělení absolutních a relativních četností se často nazývají polygony, graf empirického rozdělení kumulativních četností ogiva (lomený oblouk).
Má-li graf jen jeden vrchol, je grafem unimodálního rozdělení četností. Má-li graf více vrcholů, je grafem multimodálního rozdělení četností.
Grafům empirických rozdělení četností v deskriptivní statistice odpovídají v teorii pravděpodobnosti a v matematické statistice grafy hustot pravděpodobnosti [17], pravděpodobnostních funkcí [18] a funkcí distribučních [19] v rámci příslušných spojitých a diskrétních teoretických rozdělení.
9.4.3 Empirické parametry a) Střední hodnota, aritmetický průměr Každé hodnotě statistického znaku větší než xmin a menší než xmax (viz [1]) se říká střední hodnota (xMod, xMed, kvartily atd. – viz 9.1.1).
Prostý aritmetický průměr jako obecný moment 1. řádu O1 (viz [10]) je získán bez škálování.
90
Vážený aritmetický průměr jako obecný moment 1. řádu O1 (viz [10]) je získán prostřednictvím škálování.
Geometrický průměr je n-tá odmocnina ze součinu n hodnot statistického znaku (např. součin koeficientů růstu).
Harmonický průměr je dán vydělením počtu n hodnot statistického znaku součtem n převrácených hodnot statistického znaku (tento součet musí mít nějaký informační smysl).
Prostý kvadratický průměr (získán bez škálování) je odmocnina podílu součtu čtverců n hodnot statistického znaku a počtu n těchto hodnot.
Vážený kvadratický průměr je definován obdobně, ale na základě použití škálování. Harmonický průměr je menší než geometrický průměr, geometrický průměr je menší než aritmetický průměr, aritmetický průměr je menší než kvadratický průměr (mohou platit i rovnosti).
b) Parametr variability Mezi parametry variability lze zařadit také rozpětí: variační rozpětí [1], kvartilové rozpětí Rq = x0,75 – x0,25, decilové rozpětí Rd = x0,9 – x0,1.
Centrální moment 2. řádu C2 (viz [12]) je rozptyl řady n hodnot statistického znaku nebo také vážený rozptyl k prvků škály xi (viz [4]). Jde-li o výběrový statistický soubor, pak výběrový rozptyl C2 pracuje ve jmenovateli s n –1, pro n větší než 30 je výběrová chyba mezi populačním rozptylem a výběrovým rozptylem zanedbatelná.
Směrodatná odchylka Sx (viz [13]) je kvadratický průměr z odchylek jednotlivých hodnot od jejich aritmetického průměru, variační koeficient V (viz [14]) je podíl Sx a O1. Pro n menší než 30 má smysl vedle směrodatné odchylky Sx jedné hodnoty statistického znaku (jednoho měření) počítat také směrodatnou odchylku Sx´ výběrového aritmetického průměru. Výběrová chyba mezi populační a výběrovou charakteristikou pro směrodatné odchylky je pak odvoditelná ze vztahu Sx´ = S x
n .
Komplexní variabilita Vk hodnot kardinální proměnné přihlíží nejen k rozdílům xi – xj (i,j=1,….,n), ale i k jejich podílům xi/xj
91
x ∑∑ ( x − x ) ln x n
n
n n x ln x xi ∑ i i 2n ∑ i =1 j =1 j i =1 i =1 Vk = = − n ( n − 1) n −1 n n 2n 2n x ln x − x ln x = c ( x, ln x ) = n −1 n −1 i
i
j
(
n
∑x i
= n
i =1
)
Pozn.: c(x, ln x) je kovariance hodnot x a jejich přirozených logaritmů, výraz
x ln x označuje střední hodnotu součinu x a ln x, výraz xln x označuje součin středních hodnot x a ln x.
c) Parametr šikmosti Po obvyklé definici normovaného momentu r-tého řádu Nr [15] pomocí hodnot u nebo ui normované náhodné veličiny (která nahrazuje hodnoty x nebo xi původní náhodné veličiny, případně původní prvky škály xi [4]) [20]
u=
x − O1 x − O1 , ui = i Sx Sx
lze pro r = 3 zavést normovaný moment 3. řádu N3 [16a] jako parametr šikmosti.
Normovaný moment 1. řádu N1 = 0 (jde o vážený průměr hodnot ui normované veličiny, který je podle vztahů [15] a [20] roven 0), normovaný moment 2. řádu N2 = 1 (jde o vážený rozptyl hodnot ui normované veličiny, který je podle vztahů [15] a [20] roven 1). Normované momenty N1 a N2 vyjadřují z hlediska matematické statistiky a teorie pravděpodobnosti obvyklý vztah mezi spojitým teoretickým rozdělením N(µ, σ) (N(µ, σ) je označení normálního rozdělení s teoretickými parametry µ a σ) a spojitým teoretickým rozdělením N(0, 1) (N(0, 1) je označení normovaného normálního rozdělení s teoretickými parametry normovanými k hodnotám 0 a 1).
Normovaný moment 3. řádu N3 [16a] jako parametr šikmosti má obvyklé vlastnosti, lze s jeho pomocí definovat zešikmení doleva (N3 > 0) nebo doprava (N3 < 0).
Jednoduchá charakteristika šikmosti je dána zlomkem (n´- n´´)/n, kde n´ je počet hodnot menších než obecný moment 1. řádu O1 [10] a n´´ počet hodnot větších než O1.
92
d) Parametr špičatosti Po obvyklé definici normovaného momentu r-tého řádu Nr [15] pomocí obvyklé normované proměnné u [20] lze pro r = 4 zavést normovaný moment 4. řádu N4 [16b] jako parametr špičatosti.
Normovaný moment 4. řádu N4 jako parametr špičatosti měří zahuštěnost hodnot prostřední velikosti.
Velká špičatost znamená vysokou koncentraci hodnot v blízkosti středních hodnot, pak vrchol výrazně vystupuje (latinsky vystupovat je excedere, proto se zavádí exces). Exces je definován vztahem [21]
exces = N4 – 3.
93
10. PRAVDĚPODOBNOST 10.1 Definice pravděpodobnosti
Zaměřením Části A („Základní metody“) bylo vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Matematická statistika nahrazuje empirická zjištění teoretickými konstrukty vycházejícími z teorie pravděpodobnosti. Před rozšířením metod matematické statistiky je potřebné tyto teoretické konstrukty vycházející z teorie pravděpodobnosti popsat. Nejdříve bude věnována pozornost potřebným pojmům teorie pravděpodobnosti a definici pravděpodobnosti.
10.1.1 Potřebné pojmy teorie pravděpodobnosti a jejich vazba na pojmy empirické statistiky Základní pojmy teorie pravděpodobnosti byly v kapitole 9.1 zavedeny pomocí analogií s pojmy „formulace statistického šetření“: a) Náhodný pokus je způsob zkoumání jevu, u něhož nelze kontrolovat všechny podmínky.
Analogií „náhodného pokusu“ ve formulaci statistického šetření je způsob statistického šetření. b) Hromadný náhodný jev je množina všech vlastností (všech výsledků) náhodného pokusu. Náhodný jev je vlastnost náhodného pokusu (tato vlastnost může být kvantifikována výsledky náhodného pokusu), který nemusí být opakovatelný. Elementární náhodný jev je jednoprvková množina výsledků náhodného pokusu (náhodný pokus již nemá význam rozkládat). Množina náhodných jevů se nazývá jevové pole.
94
Analogií „hromadného náhodného jevu“ ve formulaci statistického šetření je hromadný náhodný jev jako reálný jev, u něhož lze naměřit mnoho výsledků, které mají různé pravděpodobnosti svého výskytu. c) V teorii pravděpodobnosti jsou náhodné pokusy prováděny myšlenkově na abstraktně
pojatých nositelích hromadného náhodného jevu. Analogií „abstraktně pojatého nositele hromadného náhodného jevu“ ve formulaci statistického šetření je reálně existující nositel hromadného náhodného jevu, který je nazýván statistickou jednotkou. d) V teorii pravděpodobnosti jsou zkoumány vlastnosti myšlenkově prováděného náhodného pokusu, které se nazývají náhodnými jevy, v případě kvantifikace výsledky náhodného pokusu náhodnými veličinami X.
Analogií „náhodné veličiny“ je ve formulaci statistického šetření statisticky šetřená vlastnost statistické jednotky, která je nazývána statistickým znakem. e) Hodnoty náhodné veličiny jsou označovány x nebo xi, podle spojitosti či diskrétnosti náhodné veličiny. Rozdělením náhodné veličiny je funkce, která každé hodnotě náhodné veličiny x nebo xi přiřazuje reálné číslo. Má-li přiřazené reálné číslo význam pravděpodobnosti hodnoty náhodné veličiny, je taková funkce nazývána pravděpodobnostním rozdělením nebo také teoretickým rozdělením náhodné veličiny. Teoretické rozdělení je u spojité náhodné veličiny spojeno s názvem hustota pravděpodobnosti ρ(x), u diskrétní náhodné veličiny s názvem pravděpodobnostní funkce Pi. Teoretické rozdělení spojité či diskrétní náhodné veličiny může být spojeno s distribuční funkcí F(x) nebo Fi, která představuje pravděpodobnost pro hodnoty náhodné veličiny menší než x nebo xi (hodnoty xi diskrétní náhodné veličiny se často označují xi = i). Místo delšího spojení „teoretické rozdělení spojité a diskrétní náhodné veličiny“ se často používá kratší spojení „spojité a diskrétní teoretické rozdělení“.
Analogií „hodnoty náhodné veličiny“ je ve formulaci statistického šetření diskrétní hodnota statistického znaku. f) V teorii pravděpodobnosti lze uvažovat množinu všech abstraktně pojatých nositelů
hromadného náhodného jevu. Analogií „množiny všech abstraktně pojatých nositelů hromadného náhodného jevu“ je množina všech statistických jednotek – základní statistický soubor.
95
10.1.2 Klasická a geometrická definice pravděpodobnosti, teoretické rozdělení Prostřednictvím analogií mezi pojmy teorie pravděpodobnosti a pojmy deskriptivní statistiky byly vymezeny zhruba tři skupiny pojmů teorie pravděpodobnosti:
náhodný pokus, elementární náhodný jev, náhodný jev, hromadný náhodný jev, jevové pole;
náhodná veličina, hodnota náhodné veličiny; hustota pravděpodobnosti, pravděpodobnostní funkce, distribuční funkce, spojité a diskrétní teoretické rozdělení. Uvedené tři skupiny pojmů teorie pravděpodobnosti budou nyní stručně shrnuty a použity ke klasické a geometrické definici pravděpodobnosti. Způsob zkoumání jevů, při nichž nelze kontrolovat všechny jejich podmínky, se nazývá náhodným pokusem. Množina výsledků náhodných pokusů se nazývá náhodný jev A. Množina náhodných jevů A tvoří jevové pole J. Při opakovatelném náhodném pokusu se množina výsledků nazývá hromadný náhodný jev. Elementárním náhodným jevem ei je konkrétní výsledek náhodného pokusu, který již nemá význam dále rozkládat.
Klasická definice P(A) pravděpodobnosti náhodného jevu A, který je sjednocením m elementárních náhodných jevů ei (prostor E všech elementárních náhodných jevů ei obsahuje n elementárních náhodných jevů), je P(A) = m/n. Platí P(E) = P(e1) + .… + P(en) = 1.
Geometrická definice P(A) pravděpodobnosti náhodného jevu A, kde µ(E) je míra prostoru E a kde µ(A) je míra náhodného jevu A (jev A je podmnožinou E, µ(A) může být např. délka úsečky, velikost plochy či objemu) je P(A) = µ(A) / µ(E). Je-li původní náhodný jev nahrazen hodnotami výsledků náhodných pokusů, pak je tato vlastnost náhodného pokusu nazývána náhodnou veličinou X. Rozdělením náhodné
veličiny X je funkce, která každému elementárnímu náhodnému jevu e nebo ei z prostoru E všech elementárních náhodných jevů přiřazuje reálné číslo p nebo pi, tj f(e) = p nebo f(ei) = pi. Elementární náhodné jevy e uváděné bez indexu jsou spojeny s hodnotami x spojité náhodné veličiny (f(x) = p) – hodnoty výsledků náhodných pokusů na sebe spojitě navazují. Elementární náhodné jevy ei uváděné s indexem jsou spojeny s hodnotami xi diskrétní náhodné veličiny (f(xi) = pi) – hodnoty výsledků náhodných pokusů na sebe spojitě nenava-
96
zují, mezi těmito hodnotami jsou „mezery“. Hodnoty xi spojované s elementárními náhodnými jevy ei jsou často označovány hodnotami indexu, tj. xi = i. Jsou-li hodnotami funkce f pravděpodobnosti, rozdělení náhodné veličiny se nazývá rozdělením pravděpodobnostním nebo také rozdělením teoretickým. Teoretické rozdělení spojité náhodné veličiny se nazývá spojitým teoretickým rozdělením a jeho základem je hustota pravděpodobnosti ρ(x) [17]. Teoretické rozdělení diskrétní náhodné veličiny se nazývá diskrétním teoretickým rozdělením a jeho základem je pravděpodobnostní funkce Pi [18]. Spojité nebo diskrétní teoretické rozdělení může být spojeno s distribuční funkcí F(x) nebo Fi [19], která je rovna pravděpodobnosti pro hodnoty náhodné veličiny menší než x nebo menší než xi = i. Z povahy hustoty pravděpodobnosti vyplývá vztah [22]
ρ ( x) =
97
dF ( x) . dx
10.2 Vztahy pro počítání s pravděpodobnostmi
Zaměřením Části A („Základní metody“) bylo vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Matematická statistika nahrazuje empirická zjištění teoretickými konstrukty vycházejícími z teorie pravděpodobnosti. Před rozšířením metod matematické statistiky je potřebné tyto teoretické konstrukty vycházející z teorie pravděpodobnosti popsat. V kapitole 10.1 byla věnována pozornost potřebným pojmům teorie pravděpodobnosti a definici pravděpodobnosti. V návaznosti bude nyní věnována pozornost stručnému přehledu vztahů pro počítání s pravděpodobnostmi.
10.2.1 Nepodmíněná a podmíněná pravděpodobnost Jestliže náhodný jev A, který je prvkem jevového pole J (viz kapitola 10.1), může nastat za daného souboru podmínek a současně nastává bez vazby na jiné náhodné jevy, pravděpodobnost jeho nastoupení lze nazvat nepodmíněnou pravděpodobností. Nepodmíněná pravděpodobnost bude označována P(A), a k jejímu výpočtu lze použít jak definice klasické pravděpodobnosti, tak i definice pravděpodobnosti geometrické (viz kapitola 10.1). Jestliže náhodný jev A může nastat za daného souboru podmínek a za nastoupení náhodného jevu B, pravděpodobnost nastoupení jevu A lze nazvat podmíněnou pravděpodobností. Podmíněná pravděpodobnost bude označována P(A/B), náhodné jevy A, B jsou prvky jevového pole J. Obdobně lze označit podmíněnou pravděpodobnost P(B/A) nastoupení jevu B, může-li tento jev nastat opět za daného souboru podmínek a za nastoupení jevu A.
98
Obě podmíněné pravděpodobnosti lze vypočítat podle vztahů P ( A B) =
[23]
P ( A ∩ B) P ( B)
, P ( B A) =
P ( A ∩ B) P ( A)
,
kde A ∩ B je množina elementárních náhodných jevů ei, které jsou současně prvky náhodného jevu A i náhodného jevu B.
10.2.2 Vztahy pro pravděpodobnost neslučitelných (nezávislých) jevů Jevy A, B jsou neslučitelné (nezávislé), jestliže podmíněné pravděpodobnosti P(A/B) a P(B/A) jsou dány vztahy [24]
P(A/B) = P(A), P(B/A) = P(B).
Pak vzhledem k [23] a [24] platí [25]
P ( A ∩ B ) = P( A).P( B), P ( A ∪ B ) = P( A) + P( B) .
Při nahrazení náhodného jevu výsledky náhodného pokusu lze náhodný jev A jako vlastnost náhodného pokusu nahradit náhodnou veličinou A. Definici [25] neslučitelných (nezávislých) náhodných jevů A, B lze pak vztáhnout na definici nezávislosti náhodných veličin A, B. Sjednocení A ∪ B je množina elementárních náhodných jevů ei, které jsou prvky náhodného jevu A nebo náhodného jevu B. Průnik A ∩ B je opět množina elementárních náhodných jevů ei, které jsou současně prvky náhodného jevu A i náhodného jevu B. Úplný systém neslučitelných jevů Bi (i = 1,.…,n) je takový systém náhodných jevů Bi, pro který platí n
∑ P( B ) = 1 . i =1
i
Náhodný jev A pak může nastat jen tehdy, nastane-li jeden z jevů Bi. Pro výpočet pravděpodobnosti P(A) náhodného jevu A lze pak použít vztahu pro úplnou pravděpodobnost náhodného jevu A n
P ( A) = ∑ P ( Bi ) P ( A Bi ) . i =1
99
S úplným systémem neslučitelných jevů Bi (i = 1,.…,n) souvisí také vztah pro podmíněnou pravděpodobnost P ( Bi / A) nastoupení jevu Bi za předpokladu nastoupení jevu A, který je dán Bayesovou formulí
P ( Bi / A) =
P ( Bi ) P ( A / Bi ) P ( A)
.
Pro rozšíření metod matematické statistiky a pro výklad dalších potřebných teoretických konstruktů vycházejících z teorie pravděpodobnosti jsou potřebné především vztahy [25] pro součin a součet dílčích pravděpodobností u neslučitelných (nezávislých) jevů A a B. Vztahy [25] je možno při nahrazení náhodného jevu výsledky náhodného pokusu (pak lze náhodný jev A jako vlastnost náhodného pokusu nahradit náhodnou veličinou A) transformovat na součin a součet dílčích pravděpodobností u nezávislých náhodných veličin A a B.
100
10.3 Teoretické parametry, momentová vytvořující funkce
Zaměřením Části A („Základní metody“) bylo vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Matematická statistika nahrazuje empirická zjištění teoretickými konstrukty vycházejícími z teorie pravděpodobnosti. Před rozšířením metod matematické statistiky je potřebné tyto teoretické konstrukty vycházející z teorie pravděpodobnosti popsat. V kapitolách 10.1 a 10.2 byla věnována pozornost potřebným pojmům teorie pravděpodobnosti, definici pravděpodobnosti a vztahům pro počítání s pravděpodobnostmi. V návaznosti na tyto kapitoly a na empirické parametry a způsob jejich výpočtu (viz kapitola 4. „Elementární statistické zpracování“) bude nyní věnována pozornost teoretickým parametrům a způsobům jejich výpočtu. Mezi způsoby výpočtu teoretických parametrů patří také použití momentové vytvořující funkce.
10.3.1 Teoretické parametry Oj, Cj, Nj Obecně teoretické parametry představují charakteristiky náhodné veličiny X (pojem náhodné veličiny viz kapitola 10.1). Mezi teoretické parametry se zařazují obecné, centrální a normované momenty (v empirické podobě viz kapitola 4. a vztahy [9] až [16]). S charakteristikami založenými na kvantilech se lze setkat poměrně zřídka. Výsledkem náhodného pokusu nemusí být změna hodnoty jedné náhodné veličiny X (jednoho statistického znaku SZ), ale také n-tice hodnot n náhodných veličin X1,…,Xn (n statistických znaků SZ-1 až SZ-n). Systém n náhodných veličin se nazývá podle [2] uur n-rozměrný náhodný vektor a označuje se X = [ X 1 ,..., X n ] . Případný n-rozměrný vektor r systému n hodnot těchto náhodných veličin je pak podle [3] označen x = [ x1 ,..., xn ] . Ozna101
čením hodnot x1 ,..., xn jednotlivých náhodných veličin X 1 ,..., X n lze v případě teoretického rozdělení náhodných veličin (pojem teoretického, tj. pravděpodobnostního rozdělení náhodné veličiny viz kapitola 10.1) přímo označovat tyto náhodné veličiny. uur U n-rozměrného náhodného vektoru X lze rozeznat trojí druh teoretických rozdělení
a trojí druh složitějších distribučních funkcí než je distribuční funkce [19]: [26]
- sdružené teoretické rozdělení a sdružená distribuční funkce F(x1,….,xn);
[27]
- marginální teoretické rozdělení a marginální distribuční funkce F(x1) (hodnoty x2,….,xn jsou libovolné);
[28]
- podmíněné teoretické rozdělení a podmíněná distribuční funkce F(x1) (hodnoty x2,….,xn jsou konkrétní). uur Nechť náhodný vektor X [2] je jednorozměrný náhodný vektor, pak lze uvažovat dis-
tribuční funkci F(x) [19] a hustotu pravděpodobnosti ρ(x) [17] u spojité náhodné veličiny, u nespojité náhodné veličiny distribuční funkci Fi [19] a pravděpodobnostní funkci Pi [18]. Teoretické obecné, centrální a normované momenty Oj, Cj a Nj lze pak vystihnout vzorci: [29]
b
n
a
i =1
O j = ∫ x j ρ ( x) dx, O j = ∑ i j Pi b
[30]
n
C j = ∫ ( x − O1 ) ρ ( x) dx, C j = ∑ ( i − O1 ) Pi j
i =1
a
j
j
n x − O1 i − O1 Nj = ∫ ρ ( x ) dx , N = P ∑ j C C i 1 i = a 2 2 b
[31]
j
E ( x ) − střední hodnota náhodné veličiny X ( pak E ( x ) = O1 ) či jiné funkce X ,
[32]
vlastnosti E ( x ) jsou následující (a je konstanta, X , Y nezávislé náhodné veličiny):
E ( a ) = a, E ( ax ) = aE ( x ) , E ( x + y ) = E ( x ) + E ( y ) , E ( xy ) = E ( x ) E ( y )
D ( x ) = C2 , σ = C2 − rozptyl a směrodatná odchylka náhodné veličiny X ,
[33]
vlastnosti D ( x ) jsou následující (a je konstanta, X , Y nezávislé náhodné veličiny): . D ( a ) = 0, D ( ax ) = a 2 D ( x ) , D ( x + y ) = D ( x ) + D ( y )
102
Teoretický obecný moment 1. řádu O1 je parametr polohy, teoretický centrální moment 2. řádu C2 je parametr variability, teoretický normovaný moment 3. řádu N3 je parametr šikmosti a teoretický normovaný moment 4. řádu N4 je parametr špičatosti.
10.3.2 Regrese, korelace, kovariance Obecně teoretické parametry představují charakteristiky náhodné veličiny X. Vedle obecných, centrálních a normovaných momentů (v empirické podobě viz vztahy [9] až [16], v teoretické podobě viz vztahy [29] až [33]) se mezi charakteristiky náhodné veličiny zařazují také regrese, korelace, kovariance (viz kapitola 8.).
uur uur Nechť náhodný vektor X [2] je dvojrozměrný náhodný vektor X = [ X 1 , X 2 ] , pak lze uvažovat distribuční funkci F(x1,x2) (viz [26]). Mezi charakteristiky informující o vztahu mezi náhodnými veličinami X1, X2 patří kovariance Sx1,x2 = S12 a koeficient korelace kx1,x2 = k12 (normovaná kovariance). Tyto charakteristiky lze vystihnout vztahy (označení E viz [32]) [34]
(
)
S12 = E ( x1 − E ( x1 ) ) . ( x2 − E ( x2 ) ) = E ( x1 x2 ) − E ( x1 ) .E ( x2 ) [35]
k12 =
S12 S1S 2
(S1, S2 jsou směrodatné odchylky [13]).
uur uur Nechť náhodný vektor X [2] je dvojrozměrný náhodný vektor X = [ X 1 , X 2 ] . Nechť jde o podmíněné rozdělení X1/x2, resp. X2/x1 (viz [28]). Pak podmíněné střední hodnoty (označení E viz zobecnění pojmu „střední hodnota“ zavedeného v [32]) [36]
E(X1/x2) a E(X2/x1)
jsou regresní funkce náhodné veličiny X1 na náhodné veličině X2 a náhodné veličiny X2 na náhodné veličině X1. Podmíněné rozptyly [37]
D(X1/x2) a D(X2/x1)
se nazývají skedastickými funkcemi.
uur Pro n-rozměrný náhodný vektor X = [ X 1 ,..., X n ] [2] lze zavést kovarianční matici ∑ a korelační matici K v následujících podobách (Sij viz kovariance [34], kij viz koeficienty korelace [35]):
103
[38]
S11 S Σ = 21 : Sn1
S12 S22 : Sn 2
.... S1n 1 k12 .... k1n .... S 2 n k21 1 .... k2 n , K= : : : : .... Snn kn1 kn 2 .... 1
10.3.3 Momentová vytvořující funkce mx(z) pro náhodnou veličinu X Momentová vytvořující funkce mx(z) je definována jako střední hodnota E (zobecnění pojmu „střední hodnota“ zavedeného v [32]) funkce ezx , kde z je pomocná proměnná: [39]
mx(z)=E(ezx ) (střední hodnota E musí existovat alespoň pro malé hodnoty |z|).
Nechť M je buď množina hodnot pro sčítací index, nebo určuje integrační meze, Pi a ρ(x) jsou pravděpodobnostní funkce [18] a hustota pravděpodobnosti [17]. Pro nespojitou náhodnou veličinu X (označovanou hodnotami i, obecně hodnotou j) a spojitou náhodnou veličinu X (označovanou hodnotami x) lze pak vztah [39] zapsat ve tvaru: m j ( z ) = ∑ e zi Pi
[40]
M
mx ( z ) = ∫ e zx ρ ( x )dx M
Funkce mx(z) [39] slouží k výpočtu teoretických momentů zvláště tam, kde „klasický” způsob výpočtu podle vzorců [29] až [33] je pracný. Např.
d j mx ( z ) v bodě z = 0 dz j d j my ( z ) Cj = v bodě z = 0 dz j Vytvořující funkce my ( z ) vychází z náhodné veličiny Y dané vztahem y = x − E ( x ) , Oj =
[41]
my ( z ) = e − zE ( x ) mx ( z ) .
104
10.4 Teoretická rozdělení
Zaměřením Části A („Základní metody“) bylo vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Matematická statistika nahrazuje empirická zjištění teoretickými konstrukty vycházejícími z teorie pravděpodobnosti. Před rozšířením metod matematické statistiky je potřebné tyto teoretické konstrukty vycházející z teorie pravděpodobnosti popsat. V kapitolách 10.1, 10.2 a 10.3 byla věnována pozornost potřebným pojmům teorie pravděpodobnosti, definici pravděpodobnosti, vztahům pro počítání s pravděpodobnostmi a teoretickým parametrům a jejich výpočtům. V návaznosti na tyto kapitoly a na binomické a normální rozdělení (viz kapitola 5. „Neparametrické testování“, v této kapitole bylo empirické rozdělení četností nahrazeno normálním rozdělením) bude nyní věnována pozornost některým dalším diskrétním a spojitým teoretickým rozdělením. U těchto dalších teoretických rozdělení bude kladen důraz na jejich teoretické parametry a momentové vytvořující funkce.
10.4.1 Diskrétní teoretické rozdělení – Alternativní rozdělení Alternativní rozdělení je diskrétní teoretické rozdělení A(p) s jedním teoretickým parametrem p nula-jedničkové náhodné veličiny X (náhodná veličina má hodnoty xi = i = 0, 1). Nastane-li náhodný jev, pak pravděpodobnostní funkce Pi má hodnotu P1 = p, nenastane-li, pak P0 = 1 – p. Náhodnou veličinou může být např. počet šestek, které padnou při jednom hodu kostkou. Pravděpodobnostní a distribuční funkce Pi a Fi ([18], [19]) jako analogie empirické relativní a kumulativní četnosti ([6], [7]), momentová vytvořující funkce [40] a teoretické momenty Oj, Cj [29], [30], [41] mají pro alternativní rozdělení A(p) tvary
105
i
Pi = p i (1 − p ) , kde i = 0,1, Fi = ∑ Pi , kde i ≤ 1, 1−i
j =0
momentová vytvořující funkce mi ( z ) = pe z + 1 − p, [42]
teoretické momenty O1 , C2 , C3 , C4
O1 = Ei = p, C2 = Di = p (1 − p ) , C3 = p (1 − p )(1 − 2 p ) , C4 = p (1 − p ) (1 − 3 p − 3 p 2 ) .
10.4.2 Diskrétní teoretické rozdělení – Binomické rozdělení Binomické rozdělení je diskrétní teoretické rozdělení Bi(n, p) s dvěma teoretickými parametry n, p náhodné veličiny X (náhodná veličina má hodnoty xi = i = 0,1, ….,n). Pravděpodobnostní a distribuční funkce Pi a Fi ([18], [19]) jako analogie empirické relativní a kumulativní četnosti ([6], [7]), momentová vytvořující funkce [40] a teoretické momenty Oj, Cj [29], [30], [41] mají pro binomické rozdělení Bi(n, p) tvary i n n −i Pi = p i (1 − p ) , kde i = 0,1,...., n, Fi = ∑ Pi , kde i ≤ n, j =0 i
momentová vytvořující funkce mi ( z ) = ( pe z + 1 − p ) , n
[43]
teoretické momenty O1 , C2 , C3 , C4
O1 = Ei = np, C2 = Di = np (1 − p ) , C3 = np (1 − p )(1 − 2 p ) , C4 = 3n 2 p 2 (1 − p ) + np (1 − p ) (1 − 6 p + 6 p 2 ) . 2
10.4.3 Diskrétní teoretické rozdělení – Poissonovo rozdělení Poissonovo rozdělení je diskrétní teoretické rozdělení Po(λ) s jedním teoretickým parametrem λ náhodné veličiny X (náhodná veličina má hodnoty xi = i = 0,1, …., ∞ ). Pravděpodobnostní a distribuční funkce Pi a Fi ([18], [19]) jako analogie empirické relativní a kumulativní četnosti ([6], [7]), momentová vytvořující funkce [40] a teoretické momenty Oj, Cj [29], [30], [41] mají pro Poissonovo rozdělení Po(λ) tvary Pi = e − λ
[44]
λi i!
i
, kde i = 0,1,...., ∞, Fi = ∑ Pi , kde i ≤ ∞, j =0
momentová vytvořující funkce mi ( z ) = e
(
),
λ e z −1
teoretické momenty O1 , C2 , C3 , C4 O1 = Ei = λ , C2 = Di = λ , C3 = λ , C4 = 3λ 2 + λ .
106
Binomické rozdělení Bi(n, p) lze aproximovat Poissonovým rozdělením Po(λ) pro n > 30 a pro p → 0 (stačí p ≤ 0,1). Pak je teoretický parametr Poissonova rozdělení λ = np.
10.4.4 Diskrétní teoretické rozdělení – Geometrické rozdělení Geometrické rozdělení je diskrétní teoretické rozdělení Ge(p) s jedním teoretickým parametrem p náhodné veličiny X (náhodná veličina má hodnoty xi = i = 0,1, …., ∞ ). S rostoucími hodnotami i pravděpodobnosti Pi geometricky klesají. Jsou prováděny nezávislé pokusy a pravděpodobnost nastoupení sledovaného jevu (tj. pravděpodobnost úspěchu p) je pro všechny pokusy stejná a rovna p. Pravděpodobnost, že k úspěchu dojde teprve v pokusu i + 1, je dána pravděpodobnostní funkcí Pi [18]. Pravděpodobnostní a distribuční funkce Pi a Fi ([18], [19]) jako analogie empirické relativní a kumulativní četnosti ([6], [7]), normovací podmínka jako analogie normovací podmínky [8], momentová vytvořující funkce [40] a teoretické momenty Oj, Cj [29], [30], [41] mají pro geometrické rozdělení Ge(p) tvary i
Pi = p (1 − p ) , kde i = 0,1, 2,...., ∞, Fi = ∑ Pi , kde i ≤ ∞, i
j =0
∞
normovací podmínka je ∑ Pi = i =0
[45]
p = 1, 1 − (1 − p )
momentová vytvořující funkce mi ( z ) =
p , 1 − e (1 − p ) z
teoretické momenty O1 , C2 O1 = Ei =
1− p 1− p , C2 = Di = 2 . p p
10.4.5 Diskrétní teoretické rozdělení – Negativní binomické rozdělení Negativní binomické rozdělení je diskrétní teoretické rozdělení NBi(n, p) s dvěma teoretickým parametry n, p náhodné veličiny X (náhodná veličina má hodnoty xi = i = 0, 1, …., ∞ ). Negativní binomické rozdělení představuje zobecnění geometrického rozdělení Ge(p). Zadání je obdobné zadání u geometrického rozdělení Ge(p), hodnotami i náhodné veličiny X budou počty neúspěšných pokusů předcházejících n-tému úspěšnému pokusu. Celkový počet
107
pokusů pro dosažení n úspěchů je pak i + n. Pravděpodobnost, že mezi i + n – 1 pokusy dojde k n – 1 úspěchům je pak
i + n − 1 n −1 i p (1 − p ) . n −1 Pravděpodobnost, že (i + n)-tý pokus bude úspěšný, bude dána pravděpodobnostní funkcí Pi [18]. Pravděpodobnostní a distribuční funkce Pi a Fi ([18], [19]) jako analogie empirické relativní a kumulativní četnosti ([6], [7]), normovací podmínka jako analogie normovací podmínky [8], momentová vytvořující funkce [40] a teoretické momenty Oj, Cj [29], [30], [41] mají pro negativní binomické rozdělení NBi(n, p) tvary i i + n − 1 n i 1 − , kde = 0,1, 2,...., ∞ , = Pi = p p i F Pi , kde i ≤ ∞, ( ) ∑ i j =0 n −1 ∞
normovací podmínka má tvar ∑ Pi = 1, i =0
[46]
momentová vytvořující funkce mi ( z ) = p n (1 − e z (1 − p ) ) , −n
teoretické momenty O1 , C2 O1 = Ei =
n (1 − p ) n (1 − p ) , C2 = Di = . p p2
10.4.6 Diskrétní teoretické rozdělení – Hypergeometrické rozdělení Hypergeometrické rozdělení je diskrétní teoretické rozdělení HGe(N, M, n) s třemi teoretickými parametry N, M, n náhodné veličiny X (náhodná veličina má hodnoty xi = i = max(0, M – N + n),…., min(M, n)). Hypergeometrické rozdělení má na rozdíl od předcházejících diskrétních rozdělení závislé opakované náhodné pokusy (např. je pracováno s N prvky, z nich má M prvků sledovaný znak a z těchto N prvků je vybráno n prvků bez vracení). Pravděpodobnostní funkce Pi [18] jako analogie empirické relativní četnosti [6], normovací podmínka jako analogie normovací podmínky [8] a teoretické momenty Oj, Cj [29], [30], [41] mají pro hypergeometrické rozdělení HGe(N, M, n) tvary
108
M N − M i n−i Pi = , kde i = max ( 0, M − N + n ) ,..., min( M , n), N n
[47]
min( M , n
normovací podmínka má tvar
∑
Pi = 1,
M 1 − N
N −n . N −1
i = max ( M − N + n )
teoretické parametry O1 , C2 O1 = Ei = n
M M , C2 = Di = n N N
Momentová vytvořující funkce není v přehledu [47] uváděna, v rámci ilustrace hypergeometrického rozdělení není používána. Tvary teoretických parametrů O1, C2 pro N dostatečně velké vůči n odpovídají tvarům teoretických parametrů O1, C2 binomického rozdělení Bi(n, p) s p =
M . N
Hypergeometrické rozdělení HGe(N, M, n) lze pro [48]
n M ≤ 0, 05 , p = N N
aproximovat binomickým rozdělením Bi(n, p). Hypergeometrické rozdělení HGe(N, M, n) lze pro malé zlomky
[49]
n M , a pro n velké N N
n M M ≤ 0, 05, ≤ 0,1, n ≥ 31, λ = n N N N
aproximovat Poissonovým rozdělením Po(λ).
10.4.7 Diskrétní teoretické rozdělení – Multinomické rozdělení S-násobné multinomické rozdělení je diskrétní teoretické rozdělení s-Multi(n,p1,….,ps) uur s s + 1 teoretickými parametry n, p1,…, ps náhodného vektoru [2] X = [ X 1 ,..., X s ] (náhodné veličiny X1,…, Xs vytvářející náhodný vektor [2] mají hodnoty označené i1,…, is = 0, 1,…., n).
109
Rozdělení s-Multi(n, p1,…, ps) je spojeno s neslučitelnými náhodnými jevy A1,…., As, které mohou nastat v n nezávislých pokusech s pravděpodobnostmi p1 ,…., ps (součet pravděpodobností je roven 1, v s-násobném multinomickém rozdělení je proto nezávislých jen s–1 pravděpodobností). Počty výskytu náhodných jevů Ai v n pokusech mají binomická rozdělení Bi(n, pi). Sdružená pravděpodobnostní funkce Pi (viz sdružené teoretické rozdělení [26]) jako analogie empirické relativní četnosti [6] a momentová vytvořující funkce [40] mají pro multinomické rozdělení s-Multi(n, p1,…,ps) tvary
p1i1 ... ps is 1 − ∑ p j s j =1 i1 !... is ! n − ∑ i j ! j =1 momentová vytvořující funkce Pi1 ,...,is =
[50]
s
n!
n−
s
∑i j j =1
,
n
s mi1 ,...,is ( z1 ,..., z s ) = p1e z1 + ... + ps e zs + 1 − ∑ p j . j =1
Jednotlivá binomická rozdělení Bi ( n, pi ) mají teoretické parametry vyplývající ze vztahů [34], [43] (k těmto parametrům vede také momentová vytvořující funkce [50]) [51]
O1 = Ei = npi , C2 = Di = npi (1 − pi ) , kovariance Sij = −npi p j .
uur Náhodný vektor [2] X = [ X 1 ,..., X s ] má vzhledem k momentové vytvořující funkci uv [50] vektor středních hodnot E [ np1 ,..., nps ] a kovarianční matici −np1 p2 .... − np1 ps np1 (1 − p1 ) − np1 p2 np2 (1 − p2 ) .... − np2 ps . Σ= M M M M − np2 ps .... nps (1 − ps ) − np1 ps Marginální rozdělení (viz [27]) jedné náhodné veličiny (s = 1) je binomické rozdělení Bi(n, pi). Marginální rozdělení dvojice náhodných veličin (s = 2) je trinomické rozdělení Tr(n, pi, pj). Pravděpodobnostní funkce Pi binomického rozdělení je uvedena v [43] a lze ji také získat z [50] dosazením s = 1. Pravděpodobnostní funkce Pij a momentová vytvořující funkce trinomického rozdělení Tr(n, p1, p2) jsou odvoditelné z [50] dosazením s = 2 a mají
110
pro trinomické rozdělení Tr(n, p1, p2) tvary (z nichž také vyplývá tvar vektoru středních hoduv not E )
Pij = [52]
n! n −i − j p1i p2j (1 − p1 − p2 ) , i ! j !( n − i − j ) !
mi1 ,i2 ( z1 , z2 ) = ( p1e z1 + p2e z2 + (1 − p1 − p2 ) ) , . uv E [ np1 , np2 ] . n
Multinomické rozdělení pro n → ∞, pi → 0 (i=1,…,s) lze pro λi = npi (λi jsou konečná
čísla) aproximovat vícerozměrným Poissonovým rozdělením Po(λi), jehož sdružená pravděpodobnostní funkce (viz sdružené teoretické rozdělení [26]) má tvar s
Pi1 ,...,is
∑ − λi λ1i1 ...λs is = e i=1 . i1 !... is !
Jiná možnost aproximace je vícerozměrným hypergeometrickým rozdělením HGe(N, Mj, n) se sdruženou pravděpodobnostní funkcí (viz sdružené teoretické rozdělení [26])
Pi1 ,...,is
s N − Mj ∑ M1 M s j =1 ... s i i 1 s n− i ∑ j j =1 . = N n
10.4.8 Spojité teoretické rozdělení – Rovnoměrné rozdělení Rovnoměrné rozdělení je spojité teoretické rozdělení Ro náhodné veličiny X (náhodná veličina je označována x a nabývá hodnot x ∈ a, b ). Rovnoměrné rozdělení nemá teoretický parametr. Hustota pravděpodobnosti ρ(x) [17] (odpovídající relativní četnosti [6]), distribuční funkce F(x) [19] (odpovídající kumulativní četnosti [7]) a normovací podmínka (odpovídající empirické normovací podmínce [8]) mají tvary
111
ρ ( x) =
1 , x ∈ a, b , b−a t
[53]
F ( t ) = ∫ ρ ( x ) dx, kde t ≤ b, a b
F ( b ) = ∫ ρ ( x ) dx = 1. a
Teoretické parametry O1, C2, C3, C4 (viz Oj, Cj [29], [30], [41]) lze vypočítat ve tvaru
O1 = E ( x ) = [54]
C2 = D ( x ) C3 = 0, C4
a+b 2
(b − a ) =
2
12
(b − a) =
4
80
10.4.9 Spojité teoretické rozdělení – Normální a normované normální rozdělení a) Hustoty pravděpodobnosti, teoretické parametry Normální rozdělení je spojité teoretické rozdělení N(µ, σ) náhodné veličiny X (náhodná veličina je označována x a nabývá hodnot x ∈ ( −∞; ∞ ) ). Normální rozdělení má dva teoretické parametry µ, σ. Normované normální rozdělení je spojité teoretické rozdělení N(0, 1) náhodné veličiny U (náhodná veličina je označována u a nabývá hodnot u ∈ ( −∞; ∞ ) ). U normovaného normálního rozdělení jsou parametry µ, σ normovány na hodnoty 0, 1 nahrazením náhodné veličiny X novou náhodnou veličinou U (viz také [20]) [55]
u=
x−µ
σ
x − µ E ( x) − µ x − µ D ( x) , E = 0, D = 1. = = σ σ2 σ σ
Kvantil xp normálního rozdělení N(µ, σ) je dán vztahem xp = µ + σup, kde up je kvantil normovaného normálního rozdělení N(0, 1). Hustoty pravděpodobnosti ρ(x), ρ(u) [17] (odpovídající relativní četnosti [6]), distribuční funkce F(x), F(u) [19] (odpovídající kumulativní četnosti [7]) a normovací podmínky (odpovídající empirické normovací podmínce [8]) mají tvary
112
− 1 ρ ( x) = e σ 2π
[56]
F (t ) =
( x − µ )2 2σ
2
1 − u2 , ρ (u ) = e 2π
2
t
t
∫ ρ ( x ) dx, F ( t ) = ∫ ρ ( u ) du
−∞
F (∞) =
−∞
∞
ρ ( x ) dx = 1, F ( ∞ ) =
∫
−∞
∞
∫ ρ ( u ) du = 1
−∞
Teoretické parametry O1, C2 (viz Oj, Cj [29], [30], [41]) lze vypočítat ve tvaru
O1 = E ( x ) =
∞
x ρ ( x )dx = µ , O1 = E ( u ) =
∫
−∞
[57]
C2 = D ( x ) =
∞
∫ u ρ ( u )du = 0
−∞
∞
∫ ( x − O ) ρ ( x )dx = σ 2
2
1
, C2 = D ( u ) =
−∞
∞
∫ u ρ ( u )du = 1. 2
−∞
uur Vícerozměrné normální rozdělení s náhodným vektorem [2] X = [ X 1 ,..., X n ] má
sdruženou hustotu pravděpodobnosti (viz sdružené teoretické rozdělení [26])
ρ ( x1 ,..., xn ) = [58]
1 2π
n
2
Σ
1
e
−
1 r ur x −µ 2
(
r ur
)sl Σ−1 ( x − µ )řád
,
2
r ur vektory x = [ x1 ,..., xn ] , µ = [ µ1 ,..., µn ] jsou buď sloupcové nebo řádkové,
pozitivně definitní matice Σ je symetrická typu ( n, n ) .
Marginálním rozdělením náhodné veličiny Xi (viz marginální teoretické rozdělení [27]) je jednorozměrné rozdělení N(µi, σi). uur Dvojrozměrné rozdělení N(µ1, σ1, µ2, σ2) náhodného vektoru X = [ X 1 , X 2 ] (viz [2] pro
n = 2) má hustotu pravděpodobnosti (k12 je koeficient korelace [35])
[59]
ρ ( x1 , x2 ) =
1
2πσ 1σ 2 (1 − k12
−
)
2 12
e
(
1
2 1− k122
)
( x − µ )2 ( x − µ )( x − µ ) ( x − µ )2 1 1 − 2 k12 1 1 2 2 + 2 2 2 σ1 σ1σ 2 σ 2 2
.
b) Momentová vytvořující funkce Odvození momentové vytvořující funkce mu(z) pro normované normální rozdělení N(0, 1) je podle definice [40] momentové vytvořující funkce následující:
113
∞
∞
1 z2 2 − mu ( z ) = E ( e ) = ∫ e ρ ( u )du = e ∫e 2π −∞ −∞ zu
zu
( u − z )2 2
du ∞
u−z 1 z2 2 − y2 1.substituce : y = , du = 2dy ⇒ mu ( z ) = e ∫ e du 2 π −∞ 2 dν 2.substituce :ν = y 2 , dy = ⇒ mu ( z ) = e z 2 2 ν Užitím odvozené momentové vytvořující funkce mu ( z ) = e z
[60]
2
2
lze také odvodit již uvedené teoretické parametry O1 a C2 pro normované normální rozdělení. Odvození momentové vytvořující funkce mx(z) pro normální rozdělení N(µ, σ) je podle definice [40] momentové vytvořující funkce a s použitím [20], [55], [60] následující: x = σ u + µ,
(
mx ( z ) = E e
z (σ u + µ )
) = e E (e ) = e zµ
zσ u
zµ
mu ( zσ ) = e
zµ +
z 2σ 2 2
.
Užitím odvozené momentové vytvořující funkce [61]
mx ( z ) = e
zµ +
z 2σ 2 2
lze také odvodit již uvedené teoretické parametry O1 a C2 pro normální rozdělení. Střední hodnota µ je současně mediánem xMed a modem xMod (viz kapitola 9.1.1) tohoto rozdělení. uur Dvojrozměrné rozdělení N(µ1, σ1, µ2, σ2) [59] náhodného vektoru X = [ X 1 , X 2 ] (viz
[2] pro n = 2) má momentovou vytvořující funkci (k12 je koeficient korelace [35])
[62]
(
)
z 2σ 2 + 2 z1 z2 k12σ 1σ 2 + z2 2σ 2 2 ) . 2( 1 1 Jsou-li X 1 , X 2 nezávislé náhodné veličiny, pak je mrx ( z1 , z2 ) =mrx ( z1 , 0 ) mrx ( 0, z2 ) . mrx ( z1 , z2 ) = exp z1µ1 + z2 µ2 + 1
uur Momentová vytvořující funkce mrx ( z1 ,..., zn ) náhodného vektoru [2] X = [ X 1 ,..., X n ] bude dána vztahem
114
∑ zi xi n mrx ( z1 ,..., zn ) = E e i=1 = ∏ mxi ( zi ). i =1 n
[63]
Momentová vytvořující funkce my(z) náhodné veličiny Y = y(X1,…,Xn) bude dána vztahem
(
my ( z ) = E e
zy ( X 1 ,..., X n )
).
10.4.10 Spojité teoretické rozdělení – Lognormální rozdělení Lognormální rozdělení je spojité teoretické rozdělení LN(µ, σ) náhodné veličiny X, která je rostoucí funkcí náhodné veličiny Y ve tvaru x = ey (náhodná veličina Y má normální rozdělení N(µ, σ)). Lognormální rozdělení má dva teoretické parametry µ, σ. Odtud plyne odvození hustoty pravděpodobnosti [17] (analogie relativní četnosti [6]) pro lognormální rozdělení LN(µ, σ):
( y − µ )2 ( ln x − µ )2 1 1 ρ ( y) = exp − exp − ⇒ ρ ( ln x ) = , kde − ∞ < y < ∞ 2 2 2 2 σ σ 2 σ 2π σ π
y = ln ( x ) ∧
dF ( y ) dy 1 dF ( y ) = ∧ = ρ ( y) ∧ = ρ ( x) ⇒ dx x dy dx
( ln x − µ )2 dF ( y ) dy 1 = ρ ( y) ⇒ ρ ( x) = exp − , kde 0 < x < ∞. 2 σ dx dx 2 xσ 2π
Hustota pravděpodobnosti ρ(x) [17] (odpovídající relativní četnosti [6]) byla pro lognormální rozdělení LN(µ, σ) odvozena ve tvaru [64]
( ln x − µ ) 2 ρ ( x) = exp − , kde 0 < x < ∞. 2 2 σ xσ 2π 1
115
Teoretické parametry Ok, O1, C2 (viz Oj, Cj [29], [30], [41]) lze vypočítat ve tvaru Ok = E ( x
∞
k
) = ∫ x ρ ( x )dx = exp k µ + k 2σ
k
0
σ O1 = exp µ + 2
2
[65]
2
2
2 , O2 = exp ( 2 µ + 2σ ) ,
C2 = D ( x ) = O2 − O12 = exp ( 2 µ + σ 2 )( exp σ 2 − 1) .
Lognormální rozdělení se uplatňuje např. v oblasti mzdových a příjmových rozdělení.
10.4.11 Spojité teoretické rozdělení – Gama rozdělení Gama rozdělení je spojité teoretické rozdělení Ga(a, p). Gama rozdělení má dva teoretické parametry a, p, které nabývají kladných hodnot. Gama rozdělení a některá další teoretická rozdělení vycházejí z gama funkce Γ(p) ∞
[66]
Γ ( p ) = ∫ x p −1e − x dx. 0
Gama funkce má následující vlastnosti:
Γ(p+1) = p Γ(p), Γ(p) = (p–1)! pro p=1,2,… , Γ(1/2) =
π.
Hustotu pravděpodobnosti ρ(x) [17] gama rozdělení (odpovídající relativní četnosti [6]) a některé teoretické parametry Oj, Cj [29], [30] gama rozdělení lze získat v následujících tvarech:
ρ ( x) = [67]
a p − ax p −1 e x ( x, a, p ∈ (0; ∞) ) , Γ ( p)
p ( p + 1) p , O2 = E ( x 2 ) = , a a2 p C2 = D ( x ) = O2 − O12 = 2 . a O1 = E ( x ) =
116
10.4.12 Spojité teoretické rozdělení – Exponenciální rozdělení Exponenciální rozdělení je spojité teoretické rozdělení Ga(a, p = 1) = Ga(a), které je speciálním případem gama rozdělení Ga(a, p). Exponenciální rozdělení má jeden teoretický parametr a, který nabývá kladných hodnot. Exponenciální rozdělení vychází z gama funkce Γ(p) pro p = 1. Hustota pravděpodobnosti ρ(x) [17] exponenciálního rozdělení (odpovídající
relativní četnosti [6]) je pak podle [67] dána tvarem [68]
ρ ( x) =
a1 − ax 1−1 e x = ae− ax , x ∈ ( 0; ∞ ) . Γ (1)
Exponenciální rozdělení se uplatňuje např. při zkoumání doby životnosti nebo také doby čekání na nějakou událost.
10.4.13 Spojité teoretické rozdělení – χ2 rozdělení χ2 rozdělení je speciálním případem gama rozdělení Ga(a = 1/2, p = ν/2) s jedním teo-
retickým parametrem ν. Tomu odpovídá i tvar hustoty pravděpodobnosti (analogie relativní četnosti [6] z empirické statistiky).
Náhodná veličina X, která má χ2 rozdělení, vzniká jako součet čtverců ν nezávislých náhodných veličin U12 + U 2 2 + .... + Uν 2 . Počet ν nezávislých náhodných veličin určuje počet stupňů volnosti χ2 rozdělení. Každá z těchto ν nezávislých náhodných veličin má normované normální rozdělení N(0, 1). Při výpočtu teoretických parametrů χ2 rozdělení je proto potřebné k získání teoretického centrálního momentu 2. řádu C2 dělit výpočet provedený pomocí momentové vytvořující funkce (viz [41]) počtem ν nezávislých náhodných veličin U i 2 (viz také centrální limitní věta v podobě Lindbergovy-Lévyho věty v kapitole 10.4.15). Např. centrální moment 2. řádu C2 lze také odvodit užitím vlastností rozptylu [33] a gama funkce a jejich vlastností (viz [66]).
117
Momentovou vytvořující funkce [40] a teoretické parametry obecný moment 1. řádu O1 a centrální moment 2. řádu C2 (viz Oj, Cj [29], [30], [41]) lze uvést v následujících tvarech:
mx ( z ) = (1 − 2 z )
[69]
−ν 2
,
O1 = E ( x ) = ν ,
C2 = D ( x ) = 2ν . Výrazné je použití χ2 rozdělení v teorii odhadů a v konstrukci intervalů spolehlivosti. Nechť výběrový statistický soubor má rozsah n statistických jednotek. Pak čtverec výběrové směrodatné odchylky Sx může mít v empirické podobě ve vztazích [13] nebo [33] ve jmenovateli výraz n – 1 (při větším rozsahu výběrového statistického souboru rozdíl mezi n – 1 a n ve jmenovateli zaniká). Čtverec výběrové směrodatné odchylky Sx lze také interpretovat jako střední kvadratickou chybu – v analogii s úvahami o náhodné veličině X, která má χ2 rozdělení a vzniká jako součet čtverců n nezávislých náhodných veličin U12 + U 2 2 + .... + U n 2 , lze náhodnou veličinu „čtverec výběrové směrodatné odchylky Sx“ používat jako odhad parametru σ2 normálního rozdělení N(µ, σ). Při tomto odhadu lze používat χ2 rozdělení s n – 1 stupni volnosti. χ2 rozdělení jako spojité teoretické rozdělení Ga(a = 1/2, p = ν/2) má hustotu pravdě-
podobnosti ρ(x) [17]. Náhodná veličina X, která má χ2 rozdělení, nabývá kladných hodnot x. Hustota pravděpodobnosti ρ(x) [17] nabývá podle [67] tvaru pro kladná x [70]
ρ ( x) =
ν
1 ν
ν 2 Γ 2
−1 −
x2 e
x 2
, jinde je ρ = 0 .
2
10.4.14 Spojitá teoretická rozdělení – t rozdělení, F rozdělení Další teoretická rozdělení t rozdělení a F rozdělení lze definovat pomocí gama funkce Γ(p), nikoliv pomocí gama rozdělení Ga(a, p). Také tato rozdělení mají výrazné použití v te-
orii odhadů a v konstrukci intervalů spolehlivosti. Studentovo rozdělení (t rozdělení) má jeden teoretický parametr ν, FischerovoSnedecorovo rozdělení (F rozdělení) má dva teoretické parametry ν, µ. Bez hlubšího teoretického rozboru jsou uvedeny jen hustoty pravděpodobnosti obou rozdělení.
118
Přehledově lze o Studentově rozdělení a Fischerově-Snedecorově rozdělení uvést vedle hustoty pravděpodobnosti několik dílčích poznatků:
a) Studentovo rozdělení (t rozdělení) je spojité teoretické rozdělení, jehož náhodná veličina X nabývá všech hodnot x. Hustota pravděpodobnosti ρ(x) [17] t rozdělení nabývá ve vazbě na [66] pro všechna x tvaru ρν ( x ) , kde ν je počtem stupňů volnosti Studentova rozdělení
[71]
ν +1 Γ 2 ρν ( x ) = ν Γ νπ 2
ν +1
x2 1 + ν
2
b) Fischerovo-Snedecorovo rozdělení (F rozdělení) je spojité teoretické rozdělení, jehož náhodná veličina X nabývá kladných hodnot x. Hustota pravděpodobnosti ρ(x) [17] F rozdělení nabývá ve vazbě na [66] pro kladná x tvaru ρ µ ,ν ( x ) , kde µ, ν představují stupně volnosti Fischerova-Snedecorova rozdělení
[72]
µ +ν µ µ +ν Γ µ 2 µ 2 2 −1 µ 2 ρ µ ,ν ( x ) = x 1 + x , jinde je ρ µ ,ν = 0. µ ν ν ν Γ Γ 2 2
10.4.15 Některé limitní věty a) Čebyševova nerovnost
P ( y ( x) ≥ c) ≤
E ( y ( x)) c
.
Funkce y(x) je nezáporná funkce náhodné veličiny X, střední hodnota E(y(x)) existuje, c je kladná konstanta. Čebyševova nerovnost se používá k odhadu pravděpodobností
u náhodných veličin s neznámým rozdělením.
119
b) Zákon velkých čísel Empirické rozdělení (empirické parametry) se bude blížit teoretickému rozdělení (teoretickým parametrům) tím více, čím větší bude počet realizovaných náhodných pokusů. Mezi specifikace tohoto zákona patří např. Bernoulliova věta, Čebyševova věta (kterou lze dokázat pomocí Čebyševovy nerovnosti).
c) Centrální limitní věta Je dána posloupnost náhodných veličin X1, X2, … , Xn pro n → ∞. Náhodná veličina n
X = ∑ Xi i =1
má za velmi obecných podmínek přibližně normální rozdělení (asymptoticky normální rozdělení). Mezi specifikace této věty patří věta Moivreova-Laplaceova (při dostatečně velkém počtu náhodných pokusů np(1 – p) > 9 konverguje binomické rozdělení Bi(n, p) k normálnímu rozdělení) nebo věta Lindbergova-Lévyho. Věta Lindbergova-Lévyho je spojena s následujícím tvrzením: Náhodná veličina n
X = ∑ Xi i =1
nechť je tvořena náhodnými veličinami Xi, které mají libovolný, ale identický zákon rozdělení se střední hodnotou E(xi) = µ a s rozptylem D(xi) = σ2. Pak náhodná veličina X/n má asymptoticky náhodné rozdělení se střední hodnotou E(x/n) = µ a s rozptylem D(x/n) = σ2/n.
120
11. ROZŠÍŘENÍ METOD MATEMATICKÉ STATISTIKY 11.1 Rozšíření neparametrického testování
V kapitole 5. „Neparametrické testování“ bylo z pohledu „Gaussovské statistiky“ nahrazováno empirické rozdělení absolutních a relativních četností nejznámějším spojitým teoretickým rozdělením – normálním rozdělením. Zda toto nahrazení je proveditelné, bylo zjišťováno neparametrickým testováním. Neparametrickým proto, neboť nešlo o nahrazování dílčích empirických parametrů dílčími teoretickými parametry, nýbrž o nahrazování empirického rozdělení jako celku normálním rozdělením. Používaným neparametrickým testem byl v kapitole 5. χ2-test dobré shody. Aplikace χ2-testu vedla přes použití tvaru χ2-testu vhodného pro testování normality, dále přes určení
experimentální hodnoty χ exp 2 .testového kritéria a teoretické hodnoty χ teor 2 testového kritéria až k vymezení kritického oboru W. Jestliže experimentální hodnota χ exp 2 byla prvkem kritického oboru W, bylo nutné přijmout na zvolené hladině statistické významnosti α alternativní hypotézu Ha. Tento výsledek znamenal, že zkoumané empirické rozdělení nebylo možno nahradit normálním rozdělením. Jestliže experimentální hodnota χ exp 2 nebyla prvkem kritického oboru W, bylo možné přijmout na zvolené hladině statistické významnosti α nulovou hypotézu H0. Tento výsledek znamenal, že zkoumané empirické rozdělení lze nahradit normálním rozdělením. Popsaná podoba „Neparametrického testování“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Paramet-
rické testování“ a „Měření statistických závislostí“.
121
Nyní bude „Neparametrické testování“ rozšířeno nad úroveň manuálu. Cílem bude dostat se za hranice „Gaussovské statistiky“, tj. ukázat, že empirická rozdělení četností lze nahrazovat nejen jinými spojitými teoretickými rozděleními, ale také vhodnými diskrétními teoretickými rozděleními. Dalším cílem bude dostat se za obzor χ2-test dobré shody, tj. seznámit s jinými možnostmi neparametrického testování.
11.1.1 χ2-test dobré shody Parametrické testování často vychází z apriorní znalosti teoretického rozdělení základního statistického souboru, z něhož byl výběrový statistický soubor pořízen. Ověřování předpokladu o typu hustoty pravděpodobnosti ρ(x) nebo pravděpodobnostní funkce Pi se provádí neparametrickými testy, mezi které patří i χ2-test dobré shody. Podstatou χ2-testu dobré shody je, po roztřídění výsledků zkoumání výběrového statistického souboru do nepřekrývajících se prvků škály, srovnávání teoretického obsazení prvků škály se skutečnými empirickými výsledky. Je-li dosažena shoda, lze přijmout nulovou hypotézu H0. Není-li dosažena shoda, je nutno přijmout alternativní hypotézu Ha a zvolit jiný předpoklad o typu hustoty pravděpodobnosti ρ(x) nebo pravděpodobnostní funkce Pi. Testovým kritériem je obecný tvar experimentální hodnoty χ exp 2 k
[73]
χ exp 2 = ∑ j =1
(n
j
−Nj) Nj
2
,
kde k je obvykle spojeno s redukovaným počtem prvků škály (v případě použití škálování), Nj je vystižení teoretických absolutních četností ve vazbě na testované spojité nebo diskrétní
teoretické rozdělení a nj jsou obvyklé empirické absolutní četnosti [5]. Alespoň v 80% prvcích škály by měly být empirické absolutní četnosti nj >5. Není-li tomu tak, je k dosažení tohoto požadavku zapotřebí počet prvků škály redukovat. χ2-test lze aplikovat pro jakékoliv spojité nebo diskrétní teoretické rozdělení s jakoukoliv hustotou pravděpodobnosti ρ(x) nebo pravděpodobnostní funkcí Pi. Speciální tvar experimentální hodnoty χ exp 2 lze uvést např. pro testování normálního rozdělení či Poissonova rozdělení.
122
Pro testování normálního rozdělení byl v kapitole 5. používán tvar k
[74]
χ exp 2 = ∑
(n
j
− np j )
2
np j
j =1
,
kde n je rozsah výběrového statistického souboru a označení pj je spojeno s jistým rozdílem hodnot distribuční funkce F(x) (viz [56]) normálního rozdělení (jde o jisté plochy pod Gaussovou křivkou, jejichž přesné vymezení bylo provedeno v kapitole 5.). Pro testování např. Poissonova rozdělení by vhodný tvar experimentální hodnoty χ exp 2 mohl mít podobu k
[75]
χ exp 2 = ∑ j =1
(n
j
− nPj ) nPj
2
,
kde n je opět rozsah výběrového statistického souboru, označení Pj je tentokrát spojeno s pravděpodobnostní funkcí Pj (viz [44]) Poissonova rozdělení.
11.1.2 Kolmogorovův-Smirnovův test dobré shody pro jeden výběrový statistický soubor Kolmogorovův-Smirnovův test je použitelný i tehdy, je-li rozsah n výběrového statistického souboru velmi malé číslo (pak nelze používat χ2-test dobré shody). Problémem je předběžná znalost všech teoretických parametrů uvažovaného teoretického rozdělení. Nulovou hypotézu H0 pak lze formulovat jako předpoklad, že náhodný výběr pochází z určitého teoretického rozdělení se spojitou distribuční funkcí F(x) [19], která je zcela specifikována. Alternativní hypotéza Ha tvrdí opak. Má-li teoretická distribuční funkce F(x) [19] diskrétní charakter Fi, lze požadavek spojitosti graficky alespoň částečně splnit zavedením schodovité křivky. Schodovitá křivka má body nespojitosti v místech, kde na sedlo schodu navazuje vrchol schodu. Zavedení schodovité křivky v případě diskrétního charakteru teoretické distribuční funkce F(x) [19] je pak potřebné s určitou mírou teoretické přibližnosti promítnout do aplikace testového kritéria spojeného s Kolmogorovovým-Smirnovovým testem. Testovým kritériem je největší zjištěná vzdálenost teoretické distribuční funkce F(x) [19] teoretického rozdělení od empirické distribuční funkce. Pojem empirické distribuční funkce, která má vždy nespojitý charakter, lze zavést symbolem Fj(x = j). Není-li použito
123
škálování, lze empirickou distribuční funkci definovat vztahem Fj(x = j) = j/n. Při použití škálování lze empirickou distribuční funkce Fj(x = j) ztotožnit s obvyklou kumulativní četností [7] Fj ( x = j ) =
[76]
j
ni (ni jsou absolutní četnosti [5]). i = 0 nebo 1 n
∑
Diskrétní charakter empirické distribuční funkce Fj(x = j) lze alespoň částečně nasměrovat ke spojitosti opětovným zavedením schodovité křivky s body nespojitosti v místech, kde na sedlo schodu navazuje vrchol schodu. Při použití škálování je experimentální hodnota dexp Kolmogorovova-Smirnovova testu [77]
d exp = sup d j
j
ni − F ( x ) = sup d j F j ( x = j ) − F ( x ) = sup d j . i = 0 nebo 1 n
∑
Bez použití škálování je experimentální hodnota dexp Kolmogorovova-Smirnovova testu [78]
d exp = sup d j
j − F ( x ) = sup d j Fj ( x = j ) − F ( x ) = sup d j . n
Z hlediska diskrétnosti empirické distribuční funkce [76] (a také z hlediska možné diskrétnosti teoretické distribuční funkce F(x) [19]) je nutné absolutní odchylky dj hledat v bodech nespojitosti jak ve vazbě na sedlo schodu, tak i ve vazbě na vrchol schodu. V rámci absolutní odchylky dj bude potřebné s příslušnou hodnotou teoretické distribuční funkce F(x) [19] srovnávat jak hodnotu empirické distribuční funkce Fj(x = j) (viz [76]), tak i hodnotu Fj+1(x = j + 1). Tím se počet absolutních odchylek dj téměř zdvojnásobí – z tohoto počtu je pak možné vybrat sup d j , tj. maximální absolutní odchylku dexp. Teoretickou (kritickou) hodnotu dteor = dn,1-α lze nalézt ve statistických tabulkách. Převažuje-li teoretická hodnota nad hodnotou experimentální, tj. experimentální hodnota dexp není prvkem kritického oboru W = 〈 d teor = d n ,1−α ; ∞ ) , je možné přijmout nulovou hypotézu H0. Přijetí nulové hypotézy H0 znamená potvrzení možnosti, že empirické rozdělení četností lze nahradit předpokládaným teoretickým rozdělením. V opačném případě je možné připustit hypotézu alternativní Ha.
124
11.1.3 Kolmogorovův-Smirnovův test dobré shody pro dva výběrové statistické soubory Nechť dva výběrové statistické soubory s rozsahy n1, n2 mají podle nulové hypotézy H0 stejná spojitá teoretická rozdělení a tím i stejné distribuční funkce. Ověření takové hypotézy umožňuje Kolmogorovův-Smirnovův test dobré shody testovaných spojitých teoretických rozdělení dvou nezávislých výběrových statistických souborů. Nezávislost obou výběrových statistických souborů znamená, že výběr statistických jednotek pro první výběrový statistický soubor nezávisí na výběru statistických jednotek pro druhý výběrový statistický soubor. Nechť distribuční funkce těchto teoretických rozdělení jsou označeny F1(x), F2(x) a podle testované nulové hypotézy H0 nechť vycházejí ze stejného teoretického rozdělení. Pak experimentální hodnota dexp dvojvýběrového Kolmogorovova-Smirnovova testu je dána výrazem [78a]
d exp = d n1 , n2 = max F1 ( x ) − F2 ( x ) .
Kritickou hodnotu dn1,n2,1-α Kolmogorovova-Smirnovova testu lze nalézt ve statistických tabulkách. Nulová hypotéza H0 platí za předpokladu, že kritická hodnota Kolmogorovova-Smirnovova testu je větší než jeho experimentální hodnota [78a].
11.1.4 Přehled dalších neparametrických testů a) Wilcoxonův test pro dva závislé výběry (např. výběry n1 = n a n2 = n pacientů před a po aplikaci léčebné metody) je znám také pod názvem pořadový znaménkový test. b) Friedmanův test pro více než dva závislé výběry. c) Mannův-Whitneyův test pro dva nezávislé výběry (výběr statistických jednotek pro první výběrový statistický soubor nezávisí na výběru statistických jednotek pro druhý výběrový statistický soubor) je znám také pod názvem Wilcoxonův test pro dva nezávislé výběry. d) Kruskalův-Wallisův test pro více než dva nezávislé výběry. e) McNemarův test významnosti změn zkoumá kvalitativní statistický znak ve dvou závislých výběrových statistických souborech. f) Test iterací ověřuje náhodnost uspořádání prvků dvojího druhu.
125
g) Šaldův-Wolfowitzův iterační test shody rozdělení ověřuje, zda dva nezávislé výběrové statistické soubory jsou podmnožinami téhož základního statistického souboru se spojitým teoretickým rozdělením.
126
11.2 Rozšíření teorie odhadů
V kapitole 6. „Teorie odhadů“ bylo z pohledu „Gaussovské statistiky“ ukázáno, že po úspěšné realizaci neparametrického testování v kapitole 5. je potřebné odhadnout teoretické parametry µ, σ hustoty pravděpodobnosti normálního rozdělení (viz [56]). Bez těchto odhadů nelze z hlediska infinitezimálního počtu využívat rovnici Gaussovy křivky a další vlastnosti normálního rozdělení. V kapitole 6. „Teorie odhadů“ byly stručně vyloženy dva typy odhadů – odhady bodové a odhady intervalové. V souvislosti s intervalovými odhady byla také probrána konstrukce 95% intervalů spolehlivosti pro teoretický aritmetický průměr µ a pro teoretickou směrodatnou odchylku σ. Popsaná podoba „Teorie odhadů“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Nyní bude „Teorie odhadů“ rozšířena nad úroveň manuálu. Cílem bude dostat se za hranice „Gaussovské statistiky“, tj. ukázat, že odhadovat lze i teoretické parametry jiných teoretických rozdělení, nejen rozdělení normálního. Dalším cílem bude dostat se za obzor popisného pojetí bodových a intervalových odhadů, tj. seznámit např. s možnostmi věrohodnostní funkce.
11.2.1 Bodové odhady Nechť má náhodná veličina teoretické rozdělení dané hustotou pravděpodobnosti ρ(x) [17] nebo pravděpodobnostní funkcí Pi [18]. S teoretickými parametry TPi (i = 1,…., r) (skupina teoretických parametrů TP1,…,TPr bude souhrnně označována TP) lze hustotu pravděpodobnosti a pravděpodobnostní funkci popsat v podobě [80]
ρ(x,TP1,…,TPr) = ρ(x,TP), Pi(TP1,…,TPr) = Pi(TP).
127
Teoretické parametry TPi po provedení bodového odhadu konkretizují hustotu pravděpodobnosti ρ nebo pravděpodobnostní funkcí Pi. Odhadována může být také pouze parametrická funkce γ (neobsahuje závislost na hodnotách spojité nebo diskrétní náhodné veličiny x nebo xi = i) [81]
γ(TP1,…,TPr) = γ(TP) (odhadem je statistika t, často se volí odhad γ(TP) = TP)
vhodnou „statistikou t“ (pojem „statistika ST“ byl zaveden v kapitole 9.1). Jednoduchou „statistikou t“ je právě volba parametrické funkce γ v podobě, kdy se parametrická funkce γ přímo rovná konkrétnímu teoretickému parametru TP nebo konkrétní skupině parametrů TP, tj. platí vymezení γ(TP) = TP.
a) Požadavky kladené na bodové odhady a1) Bodový odhad má být nezkreslený. Nezkreslenost je dána požadavkem, aby střední hodnota E (viz [32]) statistiky t byla určena vztahem E(t) = γ(TP), kde parametrická funkce γ(TP) a statistika t jsou dány [81]. Zkreslení je zaváděno jako rozdíl bt = E(t) – γ(TP) ≠ 0. Např. pro alternativní rozdělení A(p) je nezkresleným odhadem teoretického parametru p obecný moment 1. řádu O1 [10], neboť pro alternativní rozdělení A(p) je O1 = Ei = p (viz [42]). Dolní hranice rozptylů D(t) nezkreslených regulárních odhadů (tj. odhadů spojených s tzv. regulárním rozdělením systému hustot pravděpodobnosti ρ(x,TP) [80]) určuje kvalitu nezkreslených odhadů pomocí Raovy-Cramérovy nerovnosti. Tato nerovnost je odvoditelná z regulárního rozdělení. Součástí regulárního rozdělení je také Fischerova míra informace I(TP), která je průměrným množstvím informace o teoretických parametrech TP obsaženém v jednom pozorování náhodné veličiny X.
a2) Bodový odhad má být konzistentní. Jsou-li pro rozsah n výběrového statistického souboru používány k odhadům statistiky tn, pak konzistentním odhadem je statistika t (viz [81]), pro kterou platí t = lim tn = γ (TP) . n →∞
128
a3) Bodový odhad má být vydatný. Vydatnost nezkresleného regulárního odhadu je označena e(t) a je dána vztahem (n je rozsah výběrového statistického souboru, I(TP) je Fischerova míra informace)
∂γ ∂TP e (t ) = , kde D ( t ) ≥ nI ( TP ) D(t ) 2
∂γ ∂TP je Raova-Cramérova nerovnost. nI ( TP ) 2
Jestliže e(t) = 1, odhad je vydatný (v Raově-Cramérově nerovnosti platí rovnost). Pro mnohé parametrické funkce γ(TP) [81] neexistuje vydatný odhad, dolní hranice nezkreslených odhadů je tedy nedosažitelná.
b) Metody bodového odhadu Mezi metody bodového odhadu patří metoda maximální věrohodnosti a momentová metoda. Momentová metoda poskytuje méně hodnotné odhady. Odhady provedené momentovou metodou jsou pouze konzistentní a v podstatě sdělují, že teoretický parametr je roven empirickému parametru (to platí, pokud existují teoretické momenty Oj, Cj, Nj [29] až [31]). Metoda maximální věrohodnosti vede pro normální rozdělení N(µ, σ) k bodovým odhadům µ = O1, σ2 = C2 (viz [56]). Je používána věrohodnostní funkce L a samotná metoda spočívá v řešení věrohodnostních rovnic [82]
∂L = 0 (L je věrohodnostní funkce) ∂TP
pro jednotlivé teoretické parametry. Při náhodném výběru n statistických jednotek výběrového statistického souboru s hodnotami x1,…,xn zkoumané náhodné veličiny (zkoumaného statistického znaku) lze prar uur covat s vektory x [ x1 ,..., xn ] , TP [ TP1 ,..., TPr ] hodnot náhodné veličiny (viz [3]) a teoretických parametrů. Pak je k dispozici hustota pravděpodobnosti [17], [80] nebo pravděpodobnostní funkce [18], [80] ve tvarech [83]
(
r uur
) (
r uur
ρ x, TP , P x, TP
)
uur ( TP [ TP1 ,..., TPr ] je vektor teoretických parametrů)
129
pro spojité nebo diskrétní teoretické rozdělení. Při konkrétně daných výběrových hodnotách x1,…,xn lze tuto hustotu pravděpodobnosti nebo pravděpodobnostní funkci považovat za věrohodnostní funkci L [84]
r uur r uur L = ρ x, TP , L = P x, TP
(
)
(
)
r (hodnoty x1,…,xn náhodného vektoru x [3] jsou konkrétně dány).
r Bodový odhad teoretických parametrů TP1 ,..., TPr při konkrétně daném vektoru x [3] maximalizuje věrohodnostní funkci L. Jelikož lnL nabývá maxima ve stejném bodě jako věrohodnostní funkce L, budou mít věrohodnostní rovnice [82] tvar [85]
∂ ln L = 0 pro j = 1,...., r. ∂TPj
11.2.2 Intervalové odhady Při bodových odhadech je často nahrazována hodnota parametrické funkce γ(TP) [81] hodnotou statistiky t (mnohdy je vzata statistika t jako teoretický parametr, tj. γ(TP) = TP). Touto cestou není brána v úvahu výběrová chyba. Intervalový odhad je konstrukcí např. 95% intervalu, u něhož lze očekávat s pravděpodobností 1 – α (např. pro hladinu statistické významnosti α = 0,05 jde o pravděpodobnost 95%), že bude obsahovat skutečnou hodnotu γ(TP) (viz [81]). Interval TPd < TP < TPh, s kterým je spojena pravděpodobnost 1 – α výskytu hodnoty teoretického parametru TP při různých výběrových statistických souborech, se nazývá 100(1 – α)-procentní interval spolehlivosti. Koeficient [86]
0< α <1
je tzv. koeficient spolehlivosti (nebo také hladina statistické významnosti α). Jelikož je vyžadována vysoká spolehlivost, je 1 – α voleno blízko 1.
Čím je vyšší spolehlivost odhadu, tím je interval spolehlivosti širší. Příliš široké intervaly spolehlivosti jsou pro praktické účely bezcenné, proto je nejčastěji voleno α = 0,05, vyjímečně α = 0,01 (je-li např. k dispozici výběrový statistický soubor s velkým rozsahem n). V sociologických průzkumech se také volí α = 0,1.
130
Interval spolehlivosti může být dvojstranný, omezený shora i zdola a pravděpodobnostně symetrický. Tzn., pravděpodobnost TPd < TP bude rovna (1 – α)/2, pravděpodobnost TP < TPh rovněž (1 – α)/2. Odtud vyplývá, že pravděpodobnosti TP < TPd a TPh < TP budou rovny α/2. Intervaly spolehlivosti mohou být jednostranné – pravostranné (odhad shora) nebo levostranné (odhad zdola). Pak jsou pravděpodobnosti odhadů TP < TPh a TPd < TP rovny 1 – α. Intervaly spolehlivosti se obvykle konstruují pro teoretické parametry spojitých či diskrétních teoretických rozdělení s velkým rozsahem n výběrového statistického souboru, kdy lze aplikovat centrální limitní větu. Aplikace centrální limitní věty (viz kapitola 10.4.15) vedou k použití asymptotických teoretických rozdělení. Dvojstranné intervaly spolehlivosti pro parametry µ, σ normálního rozdělení N(µ, σ), kde n je rozsah výběrového statistického souboru, mají tvar (viz také kapitola 6.)
( )
( )
tn −1 α S x tn −1 α S x 2 2 ; O1 + µ ∈ O1 − n n n − 1) S x2 n − 1) S x2 ( ( 2 ; . σ ∈ 2 χ 2 α α 1 − χ n −1 2 n −1 2
[87]
( )
(
)
Dvojstranné intervaly spolehlivosti pro parametry µ1, σ1 normálního rozdělení N(µ1, σ1) pro výběrový statistický soubor VSS1 s rozsahem n1 (s obecným momentem 1. řádu O1x a směrodatnou odchylkou Sx) a pro parametry µ2, σ2 normálního rozdělení N(µ2, σ2) pro výběrový statistický soubor VSS2 s rozsahem n2 (s obecným momentem 1. řádu O1y a směrodatnou odchylkou Sy) mají tvar
µ1 − µ2 ∈ O1x − O1 y − tn1 + n2 − 2 α 2
( )
[88]
( )
2 S x2 S y + ; O1x − O1 y + tn1 + n2 − 2 α 2 n1 n2
S x2 σ 12 S x2 1 1 ∈ ; 2 2 2 S y Fn −1,n −1 1 − α σ 2 S y Fn −1,n −1 α 2 2 1
2
( )
1
2
(
131
)
.
2 S x2 S y + n1 n2
11.3 Rozšíření parametrického testování
V kapitole 7. „Parametrické testování“ bylo z pohledu „Gaussovské statistiky“ ukázáno, že po úspěšném neparametrickém testování normality výběrového statistického souboru VSS1 v kapitole 5. a po úspěšném odhadu teoretických parametrů µ, σ normálního rozdělení (viz [56]) bylo možné přistoupit ke srovnávání odhadnutých parametrů µ, σ s nějakými vnějšími parametry jiného normálního rozdělení. Toto srovnávání bylo v kapitole 7. nejdříve probráno na jednovýběrové úrovni – vnější parametry charakterizovaly základní statistický soubor ZSS a prostřednictvím jednovýběrových testů bylo ověřováno, zda zkoumaný výběrový statistický soubor VSS1 mohl být vybrán z onoho vnějšího základního statistického souboru ZSS. V kapitole 7. pak byly parametry srovnávány na dvojvýběrové úrovni – vnější parametry charakterizovaly jiný výběrový statistický soubor VSS2 a prostřednictvím dvojvýběrových testů bylo ověřováno, zda zkoumaný výběrový statistický soubor VSS1 i vnější výběrový statistický soubor VSS2 mohly být vybrány z téhož základního statistického souboru ZSS. Na základě srovnávání na jednovýběrové a dvojvýběrové úrovni (pomocí aparátu nulové hypotézy H0 a alternativní hypotézy Ha) statistické šetření prováděné v Části A vstoupilo do interakcí s vnějším okolím zkoumaného výběrového statistického souboru VSS1. Popsaná podoba „Parametrického testování“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly
čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Parametrické testování“ a „Měření statistických závislostí“. Nyní bude „Parametrické testování“ rozšířeno nad úroveň manuálu. Cílem bude dostat se za hranice „Gaussovské statistiky“, tj. ukázat, že srovnávat lze i teoretické parametry jiných teoretických rozdělení, nejen rozdělení normálního. Dalším cílem bude dostat se za obzor popisného pojetí parametrických testů, tj. seznámit s jejich dalšími možnostmi.
132
11.3.1 Statistická hypotéza a její test Statistickou hypotézou je obvykle tvrzení o teoretickém rozdělení náhodné veličiny (neparametrické testování při ověřování tvrzení) či tvrzení o neznámém teoretickém parametru TP (parametrické testování při ověřování tvrzení). Za parametrickou funkci γ(TP) [81] bude brán teoretický parametr TP. Ve složitějším případě se tvrzení a jeho ověřování parametrickým testováním může uur týkat vektoru neznámých teoretických parametrů TP (viz [83]). Postup ověřování statistické hypotézy neparametrickou nebo parametrickou cestou se nazývá „test statistické hypotézy“. Proti ověřované nulové hypotéze H0 je stavěna alternativní hypotéza Ha. Statistická chyba 1. druhu (pravděpodobnost této chyby se značí α) odráží možnost, že zamítneme nulovou hypotézu H0, ač platí. Statistická chyba 2. druhu (pravděpodobnost této chyby se značí β) odráží možnost, že nezamítneme H0, ač neplatí. Volbou α (viz [86] – α jako koeficient spolehlivosti nebo hladina statistické významnosti) je určována velikost tzv. kritického oboru W. Pravděpodobnost správného zamítnutí nulové hypotézy H0 je 1– β a nazývá se „síla testu“. Pro ověření nulové hypotézy H0 proti alternativní hypotéze Ha je obvykle na základě výběrového statistického souboru s rozsahem n volena hodnota hladiny statistické významnosti α a je hledán test maximalizující sílu testu. Pomocí tohoto postupu lze získat nejsilnější kritický obor W a nejsilnější test.
11.3.2 Nejsilnější a stejnoměrně nejsilnější parametrické testy Nechť je testována nulová hypotéza H0: TP = TP0 proti alternativní hypotéze Ha: TP = TPa. V rámci aparátu nulové a alternativní hypotézy je srovnáván teoretický parametr TP s teoretickým parametrem TP0 nebo s jeho alternativní hodnotou TPa. Optimální parametrické testování statistické hypotézy je spojeno s nalezením nejsilnějšího kritického oboru W a nejsilnějšího testu.
133
K nalezení nejsilnějšího kritického oboru W a nejsilnějšího testu se používá [89]
Neymanova-Pearsonova věta
vyžadující splnění dvou podmínek: Nejsilnější kritický obor Wα je určen takovou statistikou t(x1,…xn) (viz [81]), která představuje nejsilnější test a pro kterou platí 1. Poměr věrohodností
L ( TP0 ) ≤ kα , kde kα je konstanta závisející na α. L ( TPa )
2. Pravděpodobnost, že
L ( TP0 ) ≤ kα pro nulovou hypotézu H0, je rovna pravděpodobnosti L ( TPa )
α, s níž je statistika t є Wα pro nulovou hypotézu H0. Pravděpodobnost α se obvykle volí 0,05.
Poznámka: Jestliže je alternativní hypotéza Ha složená, pak je zapotřebí pokusit se nalézt tzv. stejnosměrně nejsilnější kritický obor a stejnosměrně nejsilnější test. Pokud by takový test existoval, byl by použit k testování jednoduché nulové hypotézy H0 proti složené alternativní hypotéze Ha.
11.3.3 Parametrický test teoretických parametrů normálního rozdělení Normální rozdělení N(µ, σ) má dva teoretické parametry – teoretický obecný moment 1. řádu O1 = µ = E(x) a teoretický centrální moment 2. řádu C2 = σ2 = D(x) (viz [57]). Parametrické testy lze pro tyto teoretické parametry shrnout do následujícího přehledu (v přehledu jsou postupně u každého parametrického testu uvedeny tvar testového kritéria, nulová a alternativní hypotéza, jednostranné a dvojstranné kritické obory, α = 0,05):
134
a) u-test (teoretický parametr σ je znám) u=
O1 − µ0
n , H 0 : µ = µ0
σ
levostranná alternativa W = ( −∞; −u ( 0, 05 )〉 při H a : µ je menší než µ0
[90]
pravostranná alternativa W = 〈u ( 0, 05 ) ; ∞ ) při H a : µ je větší než µ0
dvojstranná alternativa W=( − ∞; −u (0, 025)〉 ∪ 〈u (0, 025); ∞) při H a : µ ≠ µ0
b) t-test (teoretický parametr σ je neznám, t rozdělení viz [71]) t= [91]
O1 − µ0 Sx
n , H 0 : µ = µ0
levostranná alternativa W = (−∞; −tn −1 ( 0, 05 )〉 při H a : µ je menší než µ0 pravostranná alternativa W = 〈tn −1 ( 0, 05 ) ; ∞) při H a : µ je větší než µ0
dvojstranná alternativa W=( − ∞; −tn −1 (0, 025)〉 ∪ 〈tn −1 (0, 025); ∞) při H a : µ ≠ µ0
c) χ 2 -test ( χ 2 rozdělení viz [70])
n − 1) σ 2 ( χ = 2
σ0
[92]
n , H0 : σ = σ 0
levostranná alternativa W = 〈 0; χ n −12 (1 − 0, 05 )〉 při H a : σ je menší než σ 0 pravostranná alternativa W = 〈 χ n −12 ( 0, 05 ) ; ∞) při H a : σ je větší než σ 0 dvojstranná alternativa W= 〈 0; χ n −12 (1 − 0,025)〉 ∪ 〈 χ n −12 (0, 025); ∞) při H a : σ ≠ σ 0
Poznámka: V aplikacích se u tvarů kritických oborů W někdy objevují místo polozavřených nebo uzavřených intervalů jen otevřené intervaly.
11.3.4 Parametrický test teoretických parametrů libovolného teoretického rozdělení Pro případ velkých rozsahů n výběrového statistického souboru je bráno v úvahu libovolné teoretické rozdělení. Při velkém rozsahu n je možno podle centrální limitní věty (viz kapitola 10.4.15) pracovat při testování např. teoretického parametru E(x) [32] pouze s u-testem. V jisté vazbě na [90] lze testové kritérium a nulovou a alternativní hypotézu zapsat
135
ve tvarech ( E0 ( x ) je vnější parametr srovnávaný s parametrem
E ( x ) zkoumaného
výběrového statistického souboru) [93]
u=
E ( x ) − E0 ( x ) D ( x)
n , H 0 : E ( x ) = E0 ( x ) , H a : E ( x ) ≠ E0 ( x )
Teoretický parametr D(x) [33] je nutno nahradit vhodným konzistentním odhadem (viz kapitola 11.2), např. s použitím vztahů [12], [13] C2 =
1 2 1 2 ( xi − O1x ) , případně S x 2 = ( xi − O1x ) . ∑ ∑ n n −1
Jako ilustrace může posloužit Poissonovo rozdělení Po(λ) – parametrické testové kritérium a nulová a alternativní hypotéza budou mít pro rozsah n výběrového statistického souboru n>9
λ
tvary (λ0 je vnější parametr srovnávaný s parametrem λ zkoumaného výběrového statistického souboru) u=
λ − λ0 n , H 0 : λ = λ0 , H a : λ ≠ λ0 . λ0
11.3.5 Parametrický test shody teoretických parametrů dvou normálních rozdělení Nechť jsou k dispozici dva výběrové statistické soubory VSS1 a VSS2 a nechť neparametrické testování potvrdilo normalitu (viz [56], [57]) jejich empirických rozdělení četností. Soubor VSS1 a jeho náhodná veličina (odpovídající zkoumanému statistickému znaku) má pak normální rozdělení N(µ1, σ1), soubor VSS2 normální rozdělení N(µ2, σ2). Dvojvýběrovými parametrickými testy jsou pomocí obvyklých nulových a alternativních hypotéz (viz kapitola 7.) srovnávány jak teoretické obecné momenty 1. řádu µ1 a µ2, tak i odmocniny teoretických centrálních momentů 2. řádu σ1 a σ2. Stručný přehled používaných dvojvýběrových parametrických testů obsahuje tvar testového kritéria pro experimentální hodnotu a tvar kritického oboru. Hladina statistické významnosti α není konkrétně zadána.
136
a) Dvojvýběrový u-test (testování hypotézy o rovnosti středních hodnot při známých rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2 [94]
uexp =
µ1 − µ2 σ 12 n1
+
σ 22
, W = (−∞; −u (α 2 )〉 ∪ 〈u (α 2 ) ; ∞ ) .
n2
b) Dvojvýběrový t-test (testování hypotézy o rovnosti středních hodnot při neznámých rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2 jsou empirické směrodatné odchylky [13] výběrových statistických souborů VSS1, VSS2. Počet stupňů volnosti je dán výrazem n1 + n2 – 2. Tvar t rozdělení viz [71].
[95]
n1n2 ( n1 + n2 − 2 ) , n1 + n2
µ1 − µ 2
texp =
( n1 − 1) S x12 + ( n2 − 1) S x 2 2 W = (−∞; −tn + n − 2 (α 2 )〉 ∪ 〈tn + n − 2 (α 2 ) ; ∞ ) 1
2
1
2
c) Dvojvýběrový F-test (testování hypotézy o rovnosti rozptylů při neznámých parametrech µ1, µ2, σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2 jsou empirické směrodatné odchylky [13] výběrových statistických souborů VSS1, VSS2. Dvojice stupňů volnosti je dána počty n1 – 1, n2 – 1. Tvar F rozdělení viz [72]. [96]
Fexp =
S x12 , W = 〈 0; Fn1 −1,n2 −1 (1 − α 2 )〉 ∪ 〈 Fn1 −1,n2 −1 (α 2 ) ; ∞ ) . S x22
Poznámka: Do čitatele testového kritéria Fexp
S x12 = Sx22
se obvykle vkládá větší druhá mocnina z druhých mocnin empirických směrodatných odchylek Sx12, Sx22. Z tohoto pohledu se obvykle používá pravostranný kritický obor W = 〈 Fn1 −1,n2 −1 (α ) ; ∞) s hodnotou α místo hodnoty α/2. V aplikacích se u tvarů kritických oborů W někdy objevují místo polozavřených nebo uzavřených intervalů jen otevřené intervaly.
137
11.4 Rozšíření měření statistických závislostí
V kapitole 8. „Měření statistických závislostí“ byla z pohledu dvojrozměrného výběrového statistického souboru zkoumána statistická závislost mezi dvěma kvantitativními statistickými znaky SZ-x a SZ-s. Statistická závislost byla nejdříve zjišťována pomocí regresní analýzy, v návaznosti pomocí korelační analýzy. U obou statistických znaků byl identický počet prvků škály. Tomu odpovídal tvar normálních rovnic pro lineární a kvadratickou regresní analýzu, rovněž tvar vztahu pro výpočet koeficientu korelace. Popsaná podoba „Měření statistických závislostí“ podporovala zaměření Části A – vytvořit manuál, jak používat metody deskriptivní a matematické statistiky. Tento manuál nejdříve obsahoval na sebe logicky navazující čtyři základní metody deskriptivní statistiky „Formulace statistického šetření“, „Škálování“, „Měření v deskriptivní statistice“ a „Elementární statistické zpracování“. Na tyto čtyři základní metody deskriptivní statistiky pak v rámci manuálu navazovaly čtyři metody matematické statistiky „Neparametrické testování“, „Teorie odhadů“, „Paramet-
rické testování“ a „Měření statistických závislostí“. Nyní bude „Měření statistických závislostí“ rozšířeno pomocí vztahů [34], [35] a [36] nad úroveň manuálu. Cílem bude dostat se za hranice popisného používání regresních normálních rovnic a vztahu pro koeficient korelace, tj. ukázat měření statistických závislostí více z pohledu aplikačního a teoretického. Dalším cílem bude promítnout do měření statistických závislostí teorii odhadů s využitím výsledků kapitoly 11.2.
11.4.1 Statistická závislost a cesty jejího zkoumání U každé statistické jednotky budou i nadále nejčastěji zkoumány dva kvantitativní znaky SZ-x a SZ-s. Podmíněné rozdělení četností (viz také [28]) je rozdělení četností jednoho znaku, které odpovídá konkrétní hodnotě druhého znaku. Statistickou závislostí znaků SZ-x a SZ-s je jev, kdy při změně jednoho znaku se mění podmíněné rozdělení četností druhého znaku. Měření statistické závislosti dvou kvantitativních znaků je možné realizovat elementární cestou a analytickou cestou.
138
Elementární cesta spočívá v popisu závislosti těchto znaků nejčastěji korelační tabulkou, trojrozměrným grafem, bodovým diagramem, grafem podmíněných průměrů a rozptylů a analýzou rozptylu s poměrem determinace. Analytická cesta měření statistické závislosti nejen kvantitativních znaků je často uskutečňována kontingenční tabulkou, regresní analýzou, korelační analýzou a pořadovou korelací.
11.4.2 Elementární popis závislosti kvantitativních znaků a) Korelační tabulka Korelační tabulka s k řádky (řádky odpovídají např. k prvkům škály xi [4] u statistického znaku SZ-x) a s l sloupci (sloupce odpovídají např. l prvkům škály sj [4] u statistického znaku SZ-s) vznikne roztříděním n statistických jednotek do k.l polí tabulky. V každém poli je uvedena četnost [97]
nij.
Podíly nij/n udává korelační tabulka relativních četností. Korelační tabulka obsahuje [98]
sloupcové součty n•j a řádkové součty ni•
(tzv. okrajové nebo marginální četnosti).
b) Grafy, diagramy Trojrozměrný graf Oxyz os x, y, z s počátkem O ukazuje v rovině os x a y absolutní četnosti nxy (viz absolutní četnosti nij [97]), na osu z jsou nanášeny relativní četnosti nij/n
(viz [97]). Bodový diagram Oxy os x, y s počátkem O vznikne nanesením hodnot (prvků škály xi) znaku SZ-x na osu x a nanesením hodnot (prvků škály sj) znaku SZ-s na osu y. Graf podmíněných průměrů a rozptylů je dán podmíněnými průměry a rozptyly podmíněných rozdělení četností (viz také [28]) např. statistického znaku SZ-s. Pak od k prvků škály xi znaku SZ-x vede cesta ke k podmíněným rozdělením četností znaku SZ-s. Pro každé podmíněné rozdělení četností lze uvést podmíněný průměr a rozptyl.
139
c) Analýza rozptylu, poměr determinace Analýza rozptylu se obvykle týká tříděných dat (většinou jednoduše tříděných dat) a bude měřit těsnost závislosti mezi statistickými znaky SZ-x a SZ-s. Hodnoty znaku SZ-s (např. ceny vybavení nemocničních pokojů) jsou roztříděny do k skupin podle prvků škály xi statistického znaku SZ-x (např. počty postelí v nemocničním pokoji). Takto roztříděné hodnoty budou označeny sij, index i odpovídá i-té skupině vymezené prvkem škály xi, index j charakterizuje jednotlivé hodnoty znaku SZ-s umístěné v i-té skupině. Počty hodnot znaku SZ-s v jednotlivých skupinách budou označeny ni. Analýza rozptylu v podstatě vychází z kombinace prvků škály u statistického znaku SZ-x a hodnot statistického znaku SZ-s. Pro takto roztříděná data (roztříděné hodnoty statistického znaku SZ-s) lze nalézt podmíněné průměry O1i a rozptyly C2i hodnot statistického znaku SZ-s, které odpovídají konkrétnímu prvku škály xi znaku SZ-x. Lze předpokládat, že variabilita podmíněných průměrů O1i kolem cílového průměru O1 je způsobena závislostí znaku SZ-s na znaku SZ-x a variabilita znaku SZ-s uvnitř jednotlivých skupin závislostí znaku SZ-s je způsobena jinými činiteli. Jednotlivé variability lze popsat součty čtverců. Variabilita podmíněných průměrů O1i bude vyjádřena součtem čtverců Ss1 s k – 1 stupni volnosti, variabilita uvnitř skupin součtem čtverců Ss2 s n – k stupni volnosti. Variabilita zastoupená celkovým součtem čtverců bude
označena Ss a bude mít n – 1 stupňů volnosti. Vztahy pro jednotlivé variability jsou následující: k
k
S s1 = ∑ ni ( O1i − O1 ) , O1 = 2
i =1
ni
∑∑ s ∑n i =1
[99]
ni
S s 2 = ∑∑ ( sij − O1i ) k
ij
i =1 j =1 k
i
2
i =1 j =1 ni
S s = ∑∑ ( sij − O1 ) ⇒ S s =Ss1 + S s 2 k
2
i =1 j =1
140
Při výpočtech konkrétních příkladů se součty čtverců Ss1, Ss2 a Ss obvykle počítají ve tvarech
1 k ni S s = ∑∑ sij − ∑∑ sij n i =1 j =1 i =1 j =1 k
ni
2
2
[99a]
2
1 k ni S s1 = ∑ ni O1i − ∑∑ sij , S s 2 = S s − S s1 n i =1 j =1 i =1 k
2
Míra těsnosti závislosti znaku SZ-s na znaku SZ-x je dána poměrem determinace [100]
P2 = Ss1 / Ss, (P je korelační poměr).
Jak poměr determinace P2, tak korelační poměr P jsou prvkem intervalu 〈 0;1〉 . S větší těsností statistické závislosti se poměr determinace P2 a korelační poměr P více blíží 1. Roztříděním hodnot znaku SZ-s do k skupin bylo vytvořeno k výběrových statistických souborů. Základním předpokladem analýzy rozptylu s jednoduchým tříděním je normalita teoretického rozdělení znaku SZ-s pro každý z k výběrových statistických souborů se stejným rozptylem σ2 u každého výběrového statistického souboru. Nulovou hypotézu H0 lze zapsat ve tvaru H0: µ1 = … = µk, alternativní hypotéza Ha pak předpokládá, že alespoň jedna ze středních hodnot µi se liší od ostatních středních hodnot. Takto formulovaná nulová hypotéza předpokládá, že znak SZ-x neovlivňuje znak SZ-s. K ověření nulové hypotézy se používá F rozdělení [72] s tvarem testového kritéria F-testu S s1
[101]
Fexp =
Ss 2
k − 1 , ve statistických tabulkách bude hledána hodnota F
n − k , k −1
(α ) .
n−k
11.4.3 Kontingenční tabulka U každé statistické jednotky budou i nadále zkoumány dva statistické znaky SZ-x a SZ-s. Kontingenční tabulka je korelační tabulkou s tím rozdílem, že místo kvantitativních statistických znaků SZ-x a SZ-s jde o kvalitativní statistické znaky. Kontingenční tabulka obvykle využívá prvků škály u obou statistických znaků, počet řádků je označen k, počet sloupců l, absolutní četnosti v jednotlivých polích jsou opět označeny nij (viz [97]), okrajové četnosti jako sloupcové součty a řádkové součty jsou označeny
n•j a ni• (viz [98]), rozsah výběrového statistického souboru je n.
141
Každý řádek (nebo sloupec) popisuje podmíněné rozdělení četností příslušného statistického znaku (viz také [28]). Závislost kvalitativních znaků SZ-x a SZ-s je popsána kontingenční tabulkou. K hodnocení těsnosti této závislosti jsou používány různé koeficienty. Obvykle se u těchto koeficientů opět pracuje s aparátem nulové hypotézy H0, alternativní hypotézy Ha a hladiny statistické významnosti α. Často je používán χ 2 - test ve tvaru
χ 2 = ∑∑ i
ni n
(
nij − nij′
j
nij′
), 2
( i = 1,..., k , j = 1,..., l ) jsou tzv. teoretické četnosti, n nij jsou pozorované četnosti. kde nij′ =
j
Používané koeficienty jsou následující:
a) Pearsonův koeficient průměrné čtvercové (k = l) kontingence
χ2 , při nezávislosti je C = 0, při úplné závislosti C → 1. n + χ2
C=
Hodnoty 1 tento koeficient nemůže dosáhnout.
b) Čuprovův koeficient kontingence K=
χ2 n
( k − 1)( l − 1)
, při nezávislosti je K = 0, při úplné závislosti K = 1 pro k = l.
c) Cramérův koeficient kontingence V=
χ2
n ( m − 1)
, při nezávislosti je V = 0, při úplné závislosti V = 1, m = min ( k , l ) .
142
d) Koeficient asociace čtyřpolní tabulky 2x2 rxs =
n11n22 − n12 n21 , n 1 = n11 + n21 , n 2 = n12 + n22 , n1 = n11 + n12 , n2 = n21 + n22 . n 1n 2 n1 n2
rxs ∈ 〈−1,1〉 , pro nezávislost je rxs =0, pro přímou závislost je rxs větší než 0, pro nepřímou závislost je rxs menší než 0.
e) Kendallův koeficient Kendallův koeficient se používá pro pořadové znaky SZ-x a SZ-s.
11.4.4 Regresní analýza – Rregresní model, regresní funkce U každé statistické jednotky budou i nadále zkoumány dva statistické znaky SZ-x a SZ-s. Při regresní analýze se u obou statistických znaků SZ-x a SZ-s používají současně buď prvky škály [4], nebo hodnoty statistických znaků. Obecně lze pracovat se statistickým znakem SZ-s, kterému se říká vysvětlovaná nebo závisle proměnná, a se statistickými znaky SZ-x1, …, SZ-xk, kterým se říká vysvětlující nebo nezávisle proměnné. Statistický znak SZ-s má podmíněné rozdělení (a tím i podmíněnou střední hodnotu) pro dané hodnoty statistických znaků SZ-x1, …, SZ-xk (viz také [28]). Odtud již vyplývá pojem regresního modelu [102]
s = y + ε (y je regresní funkce),
kde j-tou hodnotu s závisle proměnné SZ-s lze vyjádřit jako součet podmíněné střední hodnoty y závisle proměnné SZ-s (při hodnotách x1j,…,xkj nezávisle proměnných SZ-x1, …, SZ-xk) a náhodné složky ε. Podmíněná střední hodnota y jako funkce nezávisle proměnných je nazývána regresní funkcí. Regresní modely [102] jsou zkoumány z pohledu regresní funkce. Jsou-li vzaty v úvahu statistické znaky SZ-x a SZ-s, pak je regresní funkce y funkcí jedné nezávisle proměnné x. Koeficienty vymezující operace s nezávisle proměnnou x jsou označovány bj a jsou nazývány regresními parametry. Nezávisle proměnná x (případně nezávisle proměnné x1,…,xk) nese název regresor (při větším počtu nezávisle proměnných x1,…,xk jde o regresory). Souhrnně lze zavést označení [103]
bj – regresní parametry, x (případně x1,…,xk) – regresor (regresory).
V obecném případě jsou regresory vhodnými funkcemi nezávisle proměnných.
143
Lineární regresní modely jsou lineárními z hlediska regresních parametrů [103]. Některé z lineárních regresních modelů mohou být lineárními i z hlediska regresorů [103]. Lze rovněž zkoumat nelineární regresní modely. Některé nelineární regresní modely lze transformovat na lineární regresní modely, některé nelineární regresní modely nejsou na linearitu transformovatelné.
11.4.5 Regresní analýza – přehled regresních modelů a jejich regresních funkcí a) Lineární regresní modely
y = b0 + b1 x
regresní přímka, lineární regresní funkce
y = b0 + b1 x1 + b2 x2 regresní rovina, lineární regresní funkce [104a]
1 x y = b0 + b1 log x y = b0 + b1
regresní hyperbola, lineárně lomená regresní funkce regresní logaritmická křivka, logaritmická regresní funkce
y = b0 + b1 x + b2 x 2 regresní parabola, kvadratická regresní funkce Poznámka: Regresní přímka a regresní rovina jsou lineárními modely jak z hlediska regresních parametrů [103], tak z hlediska regresorů [103].
b) Nelineární regresní modely transformovatelné na modely lineární [104b]
y = b0 xb1
mocninná regresní funkce
y = b0b1x
transformovatelná exponenciální regresní funkce
c) Příklad nelineárního regresního modelu netransformovatelného na model lineární [104c]
y = b0b1x + b2 netransformovatelná exponenciální regresní funkce
d) Odhady regresních parametrů bj [103] Bodové odhady regresních parametrů b0,. …, bk lze provést metodou nejmenších čtverců. V jednoduchém případě dvou statistických znaků SZ-x a SZ-s nechť je regresor [103] přímo spojen s nezávisle proměnnou x (se statistickým znakem SZ-x). Nechť statistický znak
144
SZ-s má hodnoty si (může také jít o prvky škály) a statistický znak SZ-x hodnoty xi (opět může také jít o prvky škály). Nechť dále y označuje regresní funkci [102], jejíž hodnoty yi odpovídají hodnotám (prvkům škály) si závisle proměnné - statistického znaku SZ-s (viz obrázek Obr. 5 v kapitole 8.). Pak lze definovat součet čtverců S = ∑ ( si − yi ) . Součet čtverců bude součtem ne2
jmenších čtverců, bude-li splněna soustava normálních rovnic ∂S ∂S ∂S = = .... = = 0. ∂b0 ∂b1 ∂bk
[105]
Řešením soustavy rovnic [105] (v obecném případě např. použitím maticové symboliky) lze již získat bodové odhady hledaných regresních parametrů b0, …, bk.
Pro lineární regresní model [104a] s lineární regresní funkcí y = b0 + b1 x lze získat soustavu normálních rovnic pomocí [105] ve tvaru (při použití škálování mají statistické znaky SZ-x a SZ-s stejný počet prvků škály označený písmenem k, bez škálování k = n označuje rozsah výběrového statistického souboru) [105a]
∑s
i
= kb0 + b1 ∑ xi ,
∑s x
i i
= b0 ∑ xi + b1 ∑ xi 2 .
Bodové odhady regresních parametrů b0,b1 je pak možno vypočítat pomocí vztahů [105b]
b0 =
∑s
i
k
− b1
∑x , i
k
b1 =
k ∑ si xi − ∑ xi ∑ si k ∑ xi 2 − ( ∑ xi )
2
.
Pro lineární regresní model [104a] s lineární regresní funkcí y = b0 + b1 x lze při nestejném počtu prvků škály u statistických znaků SZ-x a SZ-s (při použití škálování) získat soustavu normálních rovnic ve tvaru (statistický znak SZ-x nechť má počet prvků škály označen písmenem r, statistický znak SZ-s písmenem s) s
s
r
∑ s j n• j = b0 ∑ n• j + b1 ∑ xi ni• [105c]
j =1
r
j =1
i =1
s
r
∑∑ x s nij = b ∑ x n i =1 j =1
i
0
j
145
i =1
i i•
r
.
+ b1 ∑ x n i =1
2 i i•
Označení n• j , ni• , nij v rovnicích [105c] mají významy popsané v [97] a [98], xi a sj odpovídají při použití škálování prvkům škály pro statistické znaky SZ-x a SZ-s, tj, významu popsaném v [4].
Pro lineární regresní model [104a] s logaritmickou regresní funkcí y = b0 + b1 ln x lze získat soustavu normálních rovnic pomocí [105] ve tvaru (při použití škálování mají statistické znaky SZ-x a SZ-s stejný počet prvků škály označený písmenem k, bez škálování k = n označuje rozsah výběrového statistického souboru)
∑ s = kb + b ∑ ln x ∑ s ln x = b ∑ ln x + b ∑ (ln x ) 0
i
[105d]
i
1
i
0
i
1
i
2
.
i
Pro nelineární regresní model [104b] transformovatelný na model lineární a s mocninnou regresní funkcí y = b0 xb1 lze po linearizaci získat soustavu normálních rovnic následujícím postupem:
provedení linearizace ln y = ln b0 + b1 ln x ; nalezení soustavy normálních rovnic pomocí [105]. [105e]
∑ ln s = n ln b + b ∑ ln x ∑ ln s ln x = ln b ∑ ln x + b ∑ (ln x ) 0
i i
1
i
0
i
i
1
2
.
i
Pro nelineární regresní model [104b] transformovatelný na model lineární a s exponenciální regresní funkcí y = b0b1x lze po linearizaci získat soustavu normálních rovnic následujícím postupem:
provedení linearizace ln y = ln b0 + x ln b1 ; nalezení soustavy normálních rovnic pomocí [105]. [105f]
∑ ln s = n ln b + ln b ∑ x ∑ x ln s = ln b ∑ x + ln b ∑ x i
Pro
lineární
regresní
0
i
0
i
model
[104a]
1
i
i
1
2
.
i
s kvadratickou
regresní
funkcí
y = b0 + b1 x + b2 x 2 lze získat soustavu normálních rovnic pomocí [105] ve tvaru (při použití
škálování mají statistické znaky SZ-x a SZ-s stejný počet prvků škály označený písmenem k, bez škálování k = n označuje rozsah výběrového statistického souboru)
146
∑ s = kb + b ∑ x + b ∑ x ∑s x = b ∑x +b ∑x +b ∑x ∑s x = b ∑x +b ∑x +b ∑x 2
i
[105g]
0
1
i
2
i
2
i i
0
i
1
2
i i
3
i
2
2
0
i
3
1
i
.
i
2
4
i
Typické zadání pro práci s vybraným regresním modelem [102] a s jeho regresní funkcí [102] může pro zjednodušenou verzi pouze dvou statistických znaků SZ-x a SZ-s obsahovat plnění následujících úkolů:
Sestavit bodový diagram (viz např. obrázek Obr. 5 v kapitole 8.) pro statistické znaky SZ-x a SZ-s a na jeho základě odhadnout typ regresního modelu [102] a typ jeho regresní funkce [102].
Vybrat odpovídající soustavu normálních rovnic (viz např. [105a] až [105g]). Bodově odhadnout (viz např. [80]) regresní parametry bj [103] regresní funkce [102] pomocí [105] a řešení vybrané soustavy normálních rovnic.
Charakterizovat těsnost mezi skutečnou závislostí mezi statistickými znaky SZ-x a SZ-s a závislostí mezi těmito statistickými znaky, která vyplývá z vybraného regresního modelu. Ke kvantifikaci těsnosti lze využít poměru determinace I2 (viz [107]).
Intervalově odhadnout regresní parametry bj konstrukcí 95% intervalů spolehlivosti (viz např. [87], [88]) pro regresní parametry bj .
Zkonstruovat další potřebné 95% intervaly spolehlivosti (viz např. [87], [88]) např. pro vymezenou střední hodnotu nebo pro hypotetickou statistickou jednotku.
Provést t-testy (aplikace [71]) a celkový F-test (aplikace [72]) z hlediska potvrzení nebo vyvrácení závislosti mezi statistickými znaky SZ-x a SZ-s.
Využít časové řady k formulaci prognóz vyplývajících z časových řad (statistický znak SZ-x může svými hodnotami představovat časovou řadu, možné budoucí hodnoty statistického znaku SZ-s lze odečítat z analytického vyjádření regresní funkce [102]).
V obecném případě lze zkoumat závislost statistického znaku SZ-s (jedna závisle proměnná) na statistických znacích SZ-x1 až SZ-xk (skupina k nezávisle proměnných).
147
11.4.6 Regresní analýza – Míra variability závisle proměnné Ve zkoumaném jednoduchém případě regresní analýzy dvou statistických znaků SZ-x a SZ-s je závisle proměnná spojena se statistickým znakem SZ-s. Nechť opět y označuje regresní funkci [102], jejíž hodnoty yi odpovídají n hodnotám (n prvkům škály) si závisle proměnné – statistického znaku SZ-s.
a) Celkovou variabilitu závisle proměnné SZ-s vyjadřuje celkový součet čtverců n
[106a]
S s = ∑ ( si − O1s ) , kde O1s je obecný moment 1. řádu proměnné SZ-s. 2
i =1
b) Část celkové variability vysvětlená regresním modelem [102] je vyjádřena teoretickým součtem čtverců n
[106b]
ST = ∑ ( yi − O1s ) . 2
i =1
c) Část celkové variability nevysvětlená regresním modelem [102] je vyjádřena reziduálním součtem čtverců n
[106c]
S R = ∑ ( si − yi ) . 2
i =1
d) Celkový součet čtverců S s je roven součtu teoretického součtu čtverců ST a reziduálního součtu čtverců S R , platí vztah [106d]
S s = ST + S R .
e) Poměr determinace [107]
I2 =
ST ∈ 〈 0,1〉 (v případě lineární regrese jde o poměr determinace R2) Ss
určuje tu část celkové variability, kterou lze vysvětlit regresním modelem. V případě lineární regrese se poměr determinace často označuje R2. Vztah [107] lze srovnávat se vztahem [100] pro poměr determinace používaný u analýzy rozptylu.
148
11.4.7 Regresní analýza – volba typu regresní funkce Typ regresní funkce má být co nejvíce přiléhavý k hodnotám závisle proměnné SZ-s, předběžný výběr ulehčí bodový diagram (viz obrázek Obr. 5 v kapitole 8.). Po odhadu regresních parametrů bj [103] lze posoudit vhodnost regresního modelu pomocí t-testů (viz [71]), F-testu (viz [72]) a také pomocí analýzy reziduí [106c]. Pro rozdělení odhadů bj platí normální rozdělení s rozptylem σ2, tento rozptyl lze s využitím vztahu [106c] nahradit reziduálním rozptylem sR 2
SR (jde-li o vazbu závisle proměnné SZ-s na proměnnou SZ-x), n−2 SR = (proměnná SZ-s závisí na proměnných SZ-x1 ,...,SZ-x k ). n − ( k + 1)
sR 2 = [108]
sR 2
Nejvhodnější regresní funkcí [102] je regresní funkce, která je spojena s nejmenší hodnotou reziduálního rozptylu sR 2 . Nejvhodnější regresní funkce [102] je také spojena s nejvyšší hodnotou poměru determinace I2 nebo poměru determinace R2 [107].
Např. je zapotřebí rozhodnout, zda je vhodnější regresní přímka nebo regresní hyperbola y = b0 + b1 x nebo y = b0 + b1
1 (viz [104a]). x
Rozumným rozhodovacím procesem je provedení analýzy reziduí pomocí reziduálního rozptylu [108] sR 2 =
SR , n−2
kde SR je reziduální součet čtverců [106c] n
S R = ∑ ( si − yi ) . 2
i =1
Nejvhodnější regresní funkcí je ta regresní funkce, která má nejmenší hodnotu reziduálního rozptylu [108]. Pak je největší část celkové variability pozorovaných hodnot vysvětlena regresním modelem.
149
Rezidua by měla mít náhodný charakter, při velkých hodnotách reziduálního rozptylu [108] se náhodný charakter vytrácí a regresní funkce není vhodně zvolena.
11.4.8 Korelační analýza – Sdružené regresní přímky U korelačních modelů se předpokládá, že všechny proměnné (všechny statistické znaky), zkoumané z hlediska jejich závislosti, jsou náhodnými veličinami. Dále se předpokládá, že jejich sdružené teoretické rozdělení [26] je vícerozměrné normální rozdělení [58]. V případě dvou zkoumaných statistických znaků SZ-s a SZ-x pak platí předpoklad, že jde o dvojrozměrné normální rozdělení [59]. Nechť je zkoumána lineární korelační závislost dvou statistických znaků SZ-x a SZ-s. Při vzájemné záměně role závisle a nezávisle proměnné u obou znaků SZ-x a SZ-s je možné vytvořit dva regresní modely (viz [102]) se sdruženými lineárními regresními funkcemi [102], jejichž grafickým vyjádřením jsou podle [104a] sdružené regresní přímky y1 = b01 + b11 x, y2 = b02 + b12 s .
[109]
Regresní parametry (viz [103]) b11 a b12 se nazývají sdružené regresní koeficienty. Bodové odhady regresních parametrů sdružených regresních přímek [109] lze opět nalézt metodou nejmenších čtverců. Pomocí [105b] lze potřebné vztahy zapsat ve tvaru b11 =
[109a] b01 =
n ∑ xi si − ∑ xi ∑ si n∑ xi 2 − ( ∑ xi )
∑s
i
n
− b11
2
∑x ,b i
02
n
n ∑ xi si − ∑ xi ∑ si
, b12 = =
n ∑ si 2 − ( ∑ si )
∑x
i
n
− b12
2
,
∑s . i
n
11.4.9 Korelační analýza – Koeficient korelace lineární závislosti Nechť je zkoumána lineární korelační závislost dvou statistických znaků SZ-x a SZ-s. Koeficient korelace kxs měří těsnost vazby (těsnost lineární závislosti) statistických znaků SZ-x a SZ-s a je prvkem intervalu 〈−1;1〉 . Rostou-li s hodnotami jednoho statistického znaku hodnoty (nebo podmíněné střední hodnoty – viz vazba na [28]) druhého statistického znaku, jde o pozitivní korelaci s kxs > 0. V opačném případě jde o negativní korelaci s kxs < 0. Pro koeficient korelace kxs platí jeho vazba na sdružené regresní koeficienty b11 a b12.
150
Tato vazba je vyjádřena vztahem kxs2 = b11 b12.
[110]
Bodovým odhadem koeficientu korelace je koeficient korelace kxs vypočítaný pomocí [34] a [35] ve formě vztahu
[111]
k xs =
∑ 1n ( x − O )( s − O ) = i
1x
i
n∑ xi si − ∑ xi ∑ si
1s
n x 2 − ( x )2 n s 2 − ( s )2 ∑ i ∑ i ∑ i ∑ i
S x Ss
.
Ve vztahu [111] jsou použité obecné momenty 1. řádu a směrodatné odchylky dány podle [10], [12] a [13] obvyklými vzorci pro výpočet empirických parametrů [111a]
O1x =
∑x ,O i
1s
n
=
∑s , S i
n
x
= 1
x − O1x ) n( i
2
, Ss = 1
s − O1s ) n( i
2
.
V případě škálování je zapotřebí ve vztazích [111] a [111a] nahradit zlomek 1/n relativními četnostmi [6] ni/n. Kvadrát koeficientu korelace kxs2 je poměr determinace R 2 vyjádřený [107]. Platí tedy rovnost ST
k xs 2 = R 2 =
[111b]
Ss
, k xs 2 ∈ 〈 0;1〉 .
Kvadrát koeficientu korelace kxs2 vyjadřuje v souladu se vztahem [107] podíl variability závisle proměnné (např. statistického znaku SZ-s) vysvětlené příslušným regresním modelem [102] a jeho regresní přímkou.
Intervalový odhad koeficientu korelace kxs je spojen s konstrukcí intervalu spolehlivosti. Při konstruování intervalu spolehlivosti (viz např. [87], [88]) pro koeficient korelace kxs je v rámci intervalového odhadu (intervalový odhad bude označován indexem IO) po-
užívána veličina z, která má asymptoticky normální rozdělení (viz centrální limitní věta v kapitole 10.4.15). Tato veličina má tvar [112]
z=
1 1 + k xs ln . 2 1 − k xs
K intervalovému odhadu zIO této veličiny je používán u-test (viz např. [90]) ve tvaru [112a]
u = ( z − zIO ) n − 3,
151
( 2 ) < u < u (α 2 ) .
−u α
Odtud již plyne tvar intervalu spolehlivosti
[112b]
( )
( ) .
u α u α 2 2 z IO ∈ z − ;z + n−3 n−3
Tento interval má obvyklou 100 (1 − α ) % pravděpodobnost (hladina statistické významnosti α viz [86]). Obvykle se volí α = 0,05 s konstrukcí 95% intervalu spolehlivosti. Interval spolehlivosti pro intervalový odhad koeficientu korelace kxs,IO lze pak získat zpětnou transformací s užitím statistických tabulek.
V případě zkoumání závislosti mezi více než dvěma statistickými znaky se používají párové koeficienty korelace, dílčí koeficienty korelace a vícenásobné koeficienty korelace. Dílčí (parciální) koeficienty korelace vyjadřují těsnost závislosti mezi dvěma statistickými znaky při vyloučení vlivu dalších proměnných. Párové koeficienty korelace kij (statistické znaky SZ-x1, …, SZ-xr) se sestavují do korelační matice K, která je symetrická podle hlavní diagonály. Podoba korelační matice K je dána maticí
1 k12 ... k1r k21 1 ... k2 r , K= M M M M kr1 kr 2 ... 1 Nechť statistický znak SZ-s vystupuje v roli závisle proměnné, statistické znaky SZ-x1, …, SZ-xr mají význam r nezávisle proměnných. Závislost mezi nezávislými proměnnými se nazývá multikolinearita a neměla by být vysoká. V opačném případě pak obvykle nelze při regresní analýze dospět k rozumným závěrům. O multikolinearitě lze rozhodnout např. opět pomocí párových koeficientů korelace kij. Nalezení vhodné množiny nezávislých proměnných SZ-x1, …, SZ-xr se obvykle děje metodou postupné regrese (stepwise). Postupně se přidávají další proměnné tak dlouho, dokud se zvyšuje podíl regresního modelu na variabilitě pozorovaných hodnot.
152
11.4.10 Korelační analýza – Test významnosti koeficientu korelace lineární závislosti Nechť je opět zkoumána lineární korelační závislost dvou statistických znaků SZ-x a SZ-s. Testem významnosti je ověřování nulové hypotézy H0: kxs = 0 proti hypotéze alternativní Ha: kxs ≠ 0. Při přijetí nulové hypotézy H0 by se lineární korelační závislost neprokázala. Pro test významnosti lze použít t-test (viz např. [71], [91], [95]) nebo F-test (viz např. [72], [96]). a) Testové kritérium pro t-test má tvar [113]
texp =
k xs
1 − k xs 2
n − 2, kde počet stupňů volnosti je n − 2.
Při hladině statistické významnosti α lze pak kritický obor zapsat ve tvaru [113a]
( 2 ) ) ∪ ( t (α 2 ) ; ∞ ) .
(
W = −∞; −tn − 2 α
n−2
b) Testové kritérium pro F-test má tvar [114]
Fexp
k xs 2 = (n − 2), kde hodnoty dvou stupňů volnosti jsou 1 a n − 2. 1 − k xs 2
Při hladině statistické významnosti α lze pak pravostranný kritický obor zapsat ve tvaru [114a]
W = ( Fn − 2,1 (α ) ; ∞ ) .
U testového kritéria [114] lze vysledovat vazbu na testové kritérium [101] F-testu pro k = 1, jehož formulace pokrývala potřeby analýzy rozptylu.
11.4.11 Korelační analýza – Pořadová korelace a Spearmanův koeficient korelace Nechť je zkoumána obecná korelační závislost dvou statistických znaků SZ-x a SZ-s. Pořadová korelace se používá, když výběrový statistický soubor nepochází z dvojrozměrného normálního rozdělení. Pořadová korelace se rovněž používá v případě odlehlých hodnot některé z proměnných SZ-x nebo SZ-s. Pro potřeby pořadové korelace lze použít Spearmanův koeficient korelace Skxs.
153
Spearmanův koeficient korelace Skxs má tvar Sk xs = 1 −
[115]
6∑ ( ix − is ) n ( n 2 − 1)
2
, Sk xs ∈ 〈 −1;1〉.
Označení ix, is jsou pořadová čísla hodnot statistických znaků SZ-x a SZ-s, n je rozsah výběrového statistického souboru. Hodnoty Spearmanova koeficientu korelace Skxs blízké 0 ukazují na nezávislost statistických znaků SZ-x a SZ-s. Hodnoty blížící se 1 nebo –1 naopak ukazují na silnou korelaci. Obsahují-li množiny hodnot statistických znaků SZ-s nebo SZ-x několik stejných hodnot, pak lze Spearmanův koeficient pořadové korelace Skxs použít ve tvaru [115a]
Sk xs = 1 −
6∑ ( ix − is )
(n
3
2
− n) − c
, c=
1 (nx , k 3 − nx ,k ) + ∑ (ns ,k ′3 − ns ,k ′ ) . ∑ 2 k k′
Označení nx ,k je četnost k-té skupiny stejných hodnot statistického znaku SZ-x. Označení ns , k ′ je četnost k´-té skupiny stejných hodnot statistického znaku SZ-s. Každé ze stejných
hodnot ve skupině se přidělí pořadí, které je průměrem pořadí, která společně zaujímají.
11.4.12 Korelační analýza – Test významnosti Spearmanova koeficientu korelace Nechť je opět zkoumána pořadová korelační závislost dvou statistických znaků SZ-x a SZ-s. Testem významnosti je ověřování nulové hypotézy H0: Skxs = 0 (nulová hypotéza H0 je hypotézou o nezávislosti statistických znaků) proti hypotéze alternativní Ha: Skxs ≠ 0 nebo Skxs > 0 nebo Skxs < 0 (alternativní hypotéza Ha je hypotézou o závislosti statistických znaků).
Pro test významnosti lze použít např. t-test [113]. Pro rozsah výběrového statistického souboru n < 10 je zapotřebí hledat krajní body kritického oboru W ve speciálních statistických tabulkách, pro n ≥ 10 lze použít statistické tabulky pro t-test s n – 2 stupni volnosti.
Tvar t-testu pro test významnosti Spearmanova koeficientu korelace jen nahrazuje v [113] korelační koeficient kxs Spearmanovým koeficientem korelace Skxs [116]
texp =
Sk xs
1 − Sk xs 2
n − 2, kde počet stupňů volnosti je n − 2.
154
12. ÚVOD DO ZDRAVOTNICKÉ STATISTIKY
Zdravotnická statistika, někdy brána jako součást biostatistiky, se zabývá studiem hromadně se vyskytujících jevů, které vznikají v souvislosti s člověkem, jeho narozením, zdravím, nemocí a smrtí. Zdravotnická statistika je oborová, rezortní statistika a jako taková je i součástí státní statistiky, kterou provádí, řídí a kontroluje Český statistický úřad (ČSÚ). Celá řada dat, která ve zdravotnictví vznikají a jsou zde evidována, je zpracovávána státní statistikou, jedná se zejména o demografické údaje. ČSÚ schvaluje plán statistických šetření ve zdravotnictví, a to každoročně. Schválený obsah plánu statistických šetření pak vychází ve sbírce zákonů jako součást všech ostatních šetření, která provádějí ostatní rezorty i samotný Český statistický úřad. ČSÚ schvaluje i každé mimořádné statistické šetření.
Zdravotnická statistika je řízena Ústavem zdravotnických informací a statistiky
(ÚZIS) při Ministerstvu zdravotnictví ČR. Výkonnými orgány jsou pak regionální pracoviště. Tato pracoviště se zabývají sběrem, tříděním a analýzou dat ze zdravotnických zařízení. Výsledky jsou pak publikovány většinou na regionální a hlavně celostátní úrovni. ÚZIS se pak zabývá i mezinárodním srovnáváním výsledků. Účastní se také mezinárodní spolupráce, zvláště pak ve sjednocování obsahu statistických zjišťování, metodik a definic používaných v zemích Evropské unie. Spolupracuje také úzce a s orgány Světové zdravotnické organizace (World Health Organization WHO). Úkolem zdravotnické statistiky je objektivizovat a vyhodnocovat opatření realizovaná v celé škále preventivní činnosti zdravotní péče a také porovnávat výsledky primární a sekundární prevence i vlastního léčení chorob a úrazů, ve vztahu k vynaloženým finančním prostředkům. Bez kvalitativní a objektivní zdravotnické statistiky nelze provádět solidní zdravotní politiku. Kromě ÚZIS vedou také zdravotní statistiku odborné útvary zdravotních po-
jišťoven, zejména Všeobecná zdravotní pojišťovna (VZP). Statistická šetření VZP sledují právě vztah vynaložených finančních prostředků k výsledkům léčby.
155
Členění zdravotnické statistiky:
1. demografie; 2. zdravotní stav obyvatelstva; 3. síť a činnost zdravotnických zařízení; 4. ekonomické ukazatele.
Aby bylo možné jednotlivé jevy hromadně zpracovávat, je nutné provádět jejich kódování. Ve zdravotnictví k tomu slouží Mezinárodní statistická klasifikace nemocí
(MKN). V této publikaci je zahrnuta klasifikace nemocí, úrazů, otrav, komplikací léčebné péče, stavů způsobených zevními příčinami, vrozených a získaných vad, přidružených zdravotních problémů a subjektivních potíží. Jedná se o mezinárodně přijatý systém, v němž jsou nozologické jednotky zařazeny do určitých tříd a skupin. První mezinárodní uznávanou klasifikací byla klasifikace příčin smrti vydaná Dr. Jacquem Bertillonem v roce 1893. Vzhledem k vývoji medicíny bylo nutné provádět revize, většinou v desetiletých intervalech. Teprve šestá revize v roce 1948 rozšířila klasifikaci příčin smrti i o klasifikaci nemocí. V současné době, od 1. ledna 1994, platí 10. revize MKN. Nemoci jsou rozděleny do 21 tříd a v nich jsou pak setříděny jednotlivé základní diagnózy pomocí alfanumerického kódovacího systému, tvořeného velkým písmenem a dvojmístným nebo trojmístným číslem.
Přehled jednotlivých tříd: I.
Některé infekční a parazitární onemocnění
A00 – B99
II.
Novotvary
C00 – D48
III.
Nemoci krve, krvetvor. orgánů a některé poruchy
D50 – D89
týkající se mechan. imun. IV.
Nemoci endokrinní, výživy a přeměny látek
E00 – E90
V.
Duševní poruchy a poruchy chování
F00 – F99
VI.
Nemoci nervové soustavy
G00 – G99
156
VII.
Nemoci oka a očních adnex
H00 – H59
VIII.
Nemoci ucha a bradavkového výběžku
H60 – H95
IX.
Nemoci oběhové soustavy
I00 – I99
X.
Nemoci dýchací soustavy
J00 – J99
XI.
Nemoci trávicí soustavy
K00 – K93
XII.
Nemoci kůže a podkožního vaziva
L00 – L99
XIII.
Nemoci svalové a kosterní soustavy a pojivové tkáně
M00 – M99
XIV.
Nemoci močové a pohlavní soustavy
N00 – N99
XV.
Těhotenství, porod a šestinedělí
O00 – O99
XVI.
Některé stavy vzniklé v perinatálním období
P00 – P96
XVII.
Vrozené vady, deformace a chromozomální abnormality
Q00 – Q99
XVIII.
Příznaky, znaky a abnormální klinické a labor. nálezy
R00 – R99
nezařazené jinde XIX.
Poranění, otravy a některé jiné následky vnějších příčin
S00 – T98
XX.
Vnější příčiny nemocnosti a úmrtnosti
V01 – Y98
XXI.
Faktory ovlivňující zdravotní stav a kontakt
Z00 – Z99
se zdravotnickými službami
Výběr potřebných statistických metod pro třídění a analýzu dat ze zdravotnických zařízení: V úvodu každého algoritmu statistického zpracování je nutno provést formulaci statistického šetření (viz kapitola 1.). Je třeba správně vymezit základní statistický soubor, výběrový statistický soubor, statistickou jednotku, zkoumaný statistický znak a jeho hodnoty. Dále je zapotřebí vybrat vhodnou škálu (viz kapitola 2.) a posléze provést měření prvků škály (viz kapitola 3.). Naměřené absolutní četnosti umožňují přistoupit k provedení elementárního statistického zpracování výsledků měření (zpracování vhodné tabulky, znázornění empirického rozdělení četností pomocí grafu, výpočet potřebných obecných, centrálních a normovaných momentů) (viz kapitola 4.).
157
V případech, kdy je z grafu patrná podobnost mezi empirickým rozdělením a rozdělením teoretickým (např. normálním rozdělením), lze přistoupit k neparametrickému testování, které příslušnou nulovou nebo alternativní hypotézu potvrdí, nebo vyvrátí. V případě potvrzení nulové hypotézy je pak možné nahradit empirické rozdělení rozdělením teoretickým (viz kapitola 5.). V případech, kdy se jeví jako účelné srovnávat 2 soubory dat (srovnání krajů, srovnání léčebných metod apod.), je výhodné využít parametrické testování (viz kapitola 7.). Při realizaci posledního kroku, který nese název „měření závislostí“ (viz kapitola 8.), začíná být zkoumáno u statistických jednotek výběrového statistického souboru VSS více statistických znaků – soubor VSS se stává vícerozměrným. Ke zkoumání statistických závislostí mezi např. dvěma statistickými znaky lze používat metod regresní a korelační analýzy. Tyto metody umožňují postihovat těsnost korelací a časové trendy (jeden znak má charakter časové řady), nebo i trendy vývojové (např. srovnávání vývojových tendencí v rámci dvou řad
statistických dat, které souvisejí se zkoumanými dvěma znaky).
158
12.1 Demografie
Demografie je vědní obor, který zkoumá reprodukci lidských populací. Předmětem studia je demografická reprodukce = obnova lidských populací rozením a vymíráním. Základními tématy demografie jsou tedy změny v počtu obyvatel a populační přírůstek. Početní stav obyvatelstva přímo ovlivňují: proces porodnosti (narození), úmrtnost (úmrtí) a prostorová mobilita (stěhování). Při studiu populačního vývoje spolupracuje demografie s geografií obyvatelstva (ta se zabývá migracemi a rozmístěním obyvatelstva), neboť populační vývoj je nejen výsledkem přirozené obnovy populace (rozením a vymíráním), ale zároveň výsledkem prostorové mobility (migrace).
12.1.1 Formulace základních pojmů Přirozený přírůstek – rozdíl mezi počtem živě narozených dětí a zemřelých obyvatel. Migrační přírůstek – rozdíl mezi počtem přistěhovalých a vystěhovalých obyvatel. Index stáří – počet osob ve věku 65 let a více na 100 dětí ve věku do 14 let. Sňatečnost – počet sňatků na 1000 obyvatel. Rozvodovost – počet rozvodů na 1000 obyvatel. Střední délka života – udává počet let, kterých se pravděpodobně dožije dítě narozené v daném roce.
Narození živého dítěte – úplné vypuzení nebo vynětí plodu z těla matky, jestliže dítě po narození dýchá nebo projevuje jiné známky života jako srdeční činnost, pulsaci pupečníku nebo aktivní pohyb svalstva, i když pupečník nebyl přerušen nebo placenta porozena. Živě narozený plod s hmotností pod 500 g je považován za živě narozené dítě, jestliže přežije 24 hodin po porodu.
Narození mrtvého dítěte – úplné vypuzení nebo vynětí z těla matky, jestliže plod neprojevuje ani jednu ze známek života a má porodní hmotnost 1000 g a vyšší.
Potrat – takové ukončení těhotenství, při kterém plod neprojevuje ani jednu ze známek života a jeho porodní hmotnost je pod 1000 g nebo plod projevuje alespoň jednu ze
159
známek života a má porodní hmotnost do 500 g, ale nepřežije 24 hodin po porodu nebo se jedná o umělý zásah.
Úmrtí – trvalé vymizení všech známek života bez možnosti opětovného oživení. Standardizovaná úmrtnost – úmrtnost přepočtená na 100 000 obyvatel standardní evropské populace.
Kojenecká úmrtnost – počet dětí zemřelých do 1 roku věku na 1000 živě narozených dětí. Novorozenecká úmrtnost – počet dětí zemřelých do 28 dnů života na 1000 živě narozených dětí.
12.1.2 Základní demografické ukazatele Počet obyvatel a jeho věková struktura Vývoj počtu obyvatel je dán přirozeným přírůstkem a migračním přírůstkem. Součet těchto přírůstků ukazuje celkový přírůstek (úbytek) obyvatel. Populační vývoj České republiky v roce 2009 můžeme charakterizovat několika zásadními změnami: poklesl počet živě narozených, mírně se snížila intenzita plodnosti, zvýšil se počet zemřelých, intenzita úmrtnosti však nepatrně klesla. Přirozený přírůstek sice zůstal i nadále kladný, avšak byl výrazně nižší než v roce předchozím, to se však týká i přírůstku migračního. Celkově tak populace ČR vzrostla mnohem méně než v roce 2008, její věková struktura však dále zestárla. Počet obyvatel České republiky dosáhl ke konci roku 2009 celkem 10 506 813 osob. Zvýšil se tak v průběhu roku 2009 o 39,3 tisíce osob, z toho zhruba 28 tisíc představoval přírůstek migrací a pouze 11 tisíc bylo způsobeno pozitivním přirozeným přírůstkem. Ve srovnání s rokem 2008 se intenzita jak migračního, tak přirozeného přírůstku snížila (v roce 2008 migrací přibylo 72 tisíc osob, přirozenou měnou pak 14,6 tisíce osob). Určité změny v posledních letech zaznamenal nejen celkový počet obyvatel, ale i věková struktura populace. V důsledku nízkého počtu narozených začala populace ČR výrazně stárnout „zespodu“ věkové pyramidy tzv. stromu života V roce 2009 se toto populačnímu stárnutí ještě prohloubilo. Podíl dětí ve věku 0-14 let se sice mírně zvýšil na 14,2 %, avšak výrazněji vzrostl podíl seniorů 65letých a starších na 15,2 %.
160
Pro mezinárodní srovnání věkové struktury se používá index stáří. V roce 2009 dosáhl hodnoty 107,0 (105,1 v roce 2008). Ke konci roku 2009 bylo v ČR 1 599 tisíc osob ve věku 65 a více let, tedy zhruba o 43 tisíc více než v roce 2008. Jejich věková struktura se však rovněž mění a roste zastoupení osob ve věku 85 let a více. Počet obyvatel a jeho věková struktura je znázorněna tabulkou Tab. 8 a grafem Graf 1. Toto znázornění je realizací elementárního statistického zpracování (viz kapitola 4.). K elementárnímu statistickému zpracování dále patří výpočet obecných, centrálních a normovaných momentů. Z nich nejdůležitější je střední hodnota O1, rozptyl C2, směrodatnou odchylku pak vypočítáme jako
C 2 (viz [10], [12], [13]).
Je možné si položit otázku, zda je statisticky významný rozdíl v počtech mužů a žen v jednotlivých věkových skupinách. Abychom tuto otázku mohli zodpovědět, je třeba srovnat střední hodnoty počtu mužů a žen pomocí dvojvýběrového t-testu (viz [95]). Výpočet bude proveden na hladině významnosti α = 0,05. Po dosazení do vzorce vyjde texp = 23,2. Jelikož kritický obor pro náš případ je W = (−∞; −1,96〉 ∪ 〈1,96; +∞) , texp patří do kritického oboru, tzn., že v počtech mužů a žen v jednotlivých věkových kategoriích je statisticky významný rozdíl.
Graf 1: Věková struktura obyvatelstva (stav k 31. 12. 2010).
161
věková skupina 0 1–4 5–9 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39 40 – 44 45 – 49 50 – 54 55 – 59 60 – 64 65 – 69 70 – 74 75 – 79 80 – 84 85 – 89 90 – 94 95 + celkem
celkem počet % 118 609 1,13 445 936 4,24 470 960 4,48 458 865 4,37 615 991 5,86 700 740 6,67 758 921 7,22 927 504 8,83 845 964 8,05 700 861 6,67 679 938 6,47 700 751 6,67 761 690 7,25 721 200 6,86 537 277 5,11 367 737 3,50 320 822 3,05 227 014 2,16 117 447 1,12 21 415 0,20 7 171 0,07 10 506 813 100,0
muži počet 60 494 228 638 242 402 235 471 315 905 361 233 393 253 476 520 435 327 359 838 345 961 349 514 370 932 341 085 243 367 155 444 124 365 77 384 33 230 5 305 1 529 5 157 197
ženy % 1,17 4,43 4,70 4,57 6,13 7,00 7,63 9,24 8,44 6,98 6,71 6,78 7,19 6,61 4,72 3,01 2,41 1,50 0,64 0,10 0,03 100,0
počet 58 115 217 298 228 558 223 394 300 086 339 507 365 668 450 984 410 637 341 023 333 977 351 237 390 758 380 115 293 910 212 293 196 457 149 630 84 217 16 110 5 642 5 349 616
% 1,09 4,06 4,27 4,18 5,61 6,35 6,84 8,43 7,68 6,37 6,24 6,57 7,30 7,11 5,49 3,97 3,67 2,80 1,57 0,30 0,11 100,0
Tab. 8: Věková struktura obyvatelstva (stav k 31. 12. 2010).
Střední délka života Střední délka života je dalším demografickým ukazatelem, který je používán pro mezinárodní srovnávání. V tomto ukazateli se promítá vliv všech faktorů, které působí na zdravotní stav, především kvalita životního prostředí, životní styl, zdravotní péče atd. Ovlivnění střední délky života je velmi dlouhodobý a složitý proces. V 60. letech minulého století došlo k výraznému prodloužení střední délky života v důsledku eliminace infekčních chorob. V dalších letech však infekční choroby přestaly hrát významnou roli z hlediska příčin úmrtí a objevily se civilizační choroby a s nimi stagnace střední délky života. V důsledku poklesu intenzity úmrtnosti se u mužů prodloužila střední délka života na 74,2 let (74,0 v roce 2008), u žen se její hodnota nezměnila a dosahovala 80,1 let. Z grafu Graf 2 vývoje střední délky života je patrná možnost nahrazení křivky regresní křivkou a stanovení těsnosti korelace, která je vyjádřena koeficientem korelace. To vše je spo-
162
jeno s „měřením závislostí“ (viz kapitola 8.). Realizací tohoto kroku je možné přesně vyjádřit dosavadní vývoj a předpovědět další růst střední délky života. Pro střední délku života žen je rovnice regresní křivky (viz [102], [104a], [105c]) dána vztahem y = 0,78x + 71,16, hodnota 0,96 koeficientu korelace (viz [35]) odpovídá velmi těsné korelaci. Pro střední délku života mužů je rovnice regresní křivky dána vztahem y = 0,77x + 64,74, hodnota 0,89 koeficientu korelace vyjadřuje těsnou korelaci.
Graf 2: Vývoj střední délky života při narození (1955 - 2009).
Porodnost V roce 2009 se živě narodilo celkem 118 348 tisíc dětí, tedy o 1,2 tisíce méně, než v roce 2008. Po několika letech růstu počtu narozených je zaznamenán pokles. Naproti tomu došlo k vzestupu počtu mrtvě narozených o 47 dětí. Úroveň úhrnné plodnosti v roce 2009 stagnovala, na 1 ženu ve fertilním věku připadlo 1,49 dětí, ve srovnání s rokem předchozím tedy došlo jen k mírné změně ukazatele (hodnota v roce 2008 činila 1,50 dětí na 1 ženu).
Úmrtnost nenarozených sleduje zdravotnická statistika na základě evidence potratovosti. Počet potratů se v roce 2009 snížil, zaznamenáno bylo 40 528 potratů, což je zhruba o necelý tisíc (918) méně než v roce 2008. Nejvýraznější pokles zaznamenal počet miniinterrupcí, tedy umělých přerušení těhotenství do 8 týdnů od početí. Počet samovolných potratů se naopak mírně zvýšil (o 356 potratů), na celkovém počtu potratů se nyní podílejí 36 % (34,4 % v roce 2008). Z celkového počtu ukončených těhotenství v roce 2009 (celkem 163
118,6 tisíce narozených) připadalo na potraty 25,5 % (25,7 % v roce 2008), na 100 všech narozených připadalo 34 potratů. V grafu Graf 3 je provedeno srovnání porodních hmotností živě narozených chlapců a dívek v roce 2009. Rozdělení četností v jednotlivých intervalech připomíná Gaussovu křivku normálního rozdělení. Tuto neparametrickou statistickou hypotézu by bylo možné ověřit Pearsonovým χ2-testem dobré shody (viz [74]). V případě potvrzení hypotézy lze pak nahradit rozdělení četností rozdělením normálním. Dále je možné provést srovnání porodních hmotností u chlapců a u dívek. Z hlediska matematické statistiky jde o srovnání parametrů 2 výběrových statistických souborů s ověřením parametrické hypotézy, která se domnívá, že oba výběrové statistické soubory mohou pocházet ze stejného základního statistického souboru. Ke srovnání obou souborů je třeba vypočítat střední hodnotu O1 a rozptyl C2 (viz [10], [12]). Výpočet bude proveden pomocí dvojvýběrového t-testu (viz [95]) na hladině významnosti α = 0,05. Po dosazení do testového
kritéria
vyjde
texp
=
0,11.
Jelikož
kritický
obor
má
podobu
W = (−∞; −2,09〉 ∪ 〈 2,09; +∞) , texp nepatří do kritického oboru, tzn., že v porodní hmotnosti chlapců a dívek není na hladině významnosti α = 0,05 statisticky významný rozdíl.
Graf 3: Živě narození podle porodní hmotnosti v roce 2009.
164
Úmrtnost Počet zemřelých v roce 2009 činil 107,4 tisíce osob, ve srovnání s rokem 2008 vzrostl o 2,5 tisíce osob. Nárůst počtu zemřelých je zejména důsledkem stárnutí populace, resp. rostoucího počtu osob v nejstarších věkových skupinách s vysokou intenzitou úmrtnosti. Vývoj standardizované úmrtnosti, která eliminuje vliv věkové struktury, je dokladem zlepšení úmrtnostní situace. Hodnota standardizované úmrtnosti se u mužů mírně snížila na 962,5 úmrtí na 100 tis. mužů (966,5 v roce 2008), u žen se její hodnota příliš nezměnila a byla nižší než u mužů (576,5 v roce 2009). Nejčastější příčinou smrti jsou dlouhodobě nemoci oběhové soustavy, v roce 2009 se na celkovém počtu úmrtí podílely 50 %, novotvary zapříčinily dalších 26 % případů smrti. Ukazatel standardizované úmrtnosti se mezi roky 2008 a 2009 u novotvarů mírně snížil (u obou pohlaví), u nemocí oběhové soustavy u žen naopak mírně vzrostl. Zvýšila se zejména úmrtnost na cévní nemoci mozku, aterosklerózu, ale i na nemoci dýchací soustavy.
Graf 4: Specifická úmrtnost v roce 2009.
Z grafu Graf 4 je vidět, že specifická úmrtnost mužů a žen je rozdílná. Zda je specifická úmrtnost mužů a žen statisticky významně odlišná, to lze zjistit parametrickým testováním. Opět je vhodné použít ke srovnání dvojvýběrový t-test (viz [95]), hladinu významnosti je možné stanovit α = 0,05. Po dosazení do testového kritéria vychází experimentální hodnota
texp
=
–
0,32.
Jelikož
kritický
165
obor
pro
zkoumaný
případ
je
W = (−∞; −1,96〉 ∪ 〈1,96; +∞) , experimentální hodnota texp nepatří do kritického oboru, tzn., že ve specifické úmrtnosti mezi muži a ženami není na hladině významnosti α = 0,05 statisticky významný rozdíl. Významný pokles zaznamenala v 90. letech 20. století kojenecká a novorozenecká
úmrtnost. Úmrtnost kojenců do 1 roku se až do roku 2008 trvale snižovala, v roce 2009 její hodnota nepatrně vzrostla na 2,9 úmrtí dětí do 1 roku na 1 000 živě narozených (2,8 v roce 2008). V roce 2009 zemřelo celkem 341 dětí mladších 1 roku (338 v roce 2008), z toho 103 dětí ve věku 0-6 dnů. Mírný meziroční nárůst ukazatele kojenecké úmrtnosti je způsoben zejména nárůstem pozdní novorozenecké úmrtnosti (po 28. dni života). Mrtvě se narodilo 319 dětí, celkový ukazatel perinatální úmrtnosti (mrtvě narození a zemřelí do 6 dnů po porodu) činil 3,6 úmrtí na 1 000 živě narozených.
166
12.2 Zdravotní stav
Zdrojem informací pro hodnocení zdravotního stavu obyvatelstva jsou údaje získané v rámci Národního zdravotnického informačního systému (ze zdravotnických registrů, povinných hlášení, výkazů) a z výběrových šetření. Výběrová šetření jsou zaměřena většinou tak, aby doplňovala údaje z běžných statistik. Všechna výběrová šetření prováděná ve zdravotnictví musí být předem schválena Českým statistickým úřadem. K tomu, aby mohly být výsledky statistického šetření
vztahovány na celou populaci, musí být sledovaný vzorek obyvatel dostatečně reprezentativní (dostatečně velký) a získaný náhodným výběrem. Statistika povinně hlášených nemocí a vybraných patologických stavů je založena na povinném hlášení vybraných přenosných nemocí, zhoubných novotvarů, nemocí z povolání, profesionálních otrav, vrozených vývojových vad, úrazů, sebevražd atd.
12.2.1 Zhoubné novotvary Velmi rozsáhlým registrem je Národní onkologický registr ČR. V tomto registru jsou obsaženy údaje nejen o nově vzniklých onemocněních, ale také údaje o všech zjištěných předchozích případech. Rostoucí podíl novotvarů jako druhá nejčastější příčina úmrtí (po kardiovaskulárních onemocněních) potvrzuje významný vliv onkologických onemocnění na zdravotní stav populace. Pozitivní zprávou ale je, že i přes rostoucí incidenci standardizovaná úmrtnost na zhoubné novotvary mírně klesá. V roce 2007 bylo do Národního onkologického registru ČR nově hlášeno celkem 76 176 případů zhoubných novotvarů a novotvarů in situ; z toho bylo 38 502 případů u mužů a 37 674 u žen. Počet nově zjištěných a hlášených zhoubných novotvarů meziročně vzrostl o 5,6 %, nárůst se týkal mužů i žen. Nejčastěji hlášeným zhoubným novotvarem s podílem 25 % v roce 2007 byl „jiný zhoubný novotvar kůže“, ve většině případů jde o diagnózu s nízkou fatalitou. Druhým nejčastěji diagnostikovaným nádorem byl u mužů karcinom prostaty, u žen karcinom prsu. Nejvíce fatálním novotvarem byl u mužů karcinom plic, u žen karcinom prsu, přičemž ale mortalita karcinom prsu má klesající trend i přes rostoucí incidenci.
167
12.2.2 Vrozené vývojové vady Vrozené vývojové vady (tabulka Tab. 9) jsou jedním z dalších ukazatelů zdravotního stavu obyvatelstva (tabulka Tab. 9). U živě narozených dětí do 1. roku věku bylo v roce 2008 hlášeno 4 664 vrozených vad. Nejčastější vrozenou vadou jsou trvale vady srdeční, které v roce 2008 představovaly 37 % ze všech nově hlášených vad. Pro nemoci a vrozené vady bylo dispenzarizováno 776 tis. osob ve věku do 19 let. Alarmující je vývoj počtu dětí a dorostu dispenzarizovaných pro obezitu, hyperalimentaci a její následky. Od roku 1996 se jejich absolutní počet více než zdvojnásobil. Největší počet živě narozených s vrozenou vadou byl v Pardubickém a Karlovarském kraji a Hlavním městě Praha.
území, kraj Česká republika Hl. m. Praha Středočeský Jihočeský Plzeňský Karlovarský Ústecký Liberecký Královéhradecký Pardubický Vysočina Jihomoravský Olomoucký Zlínský Moravskoslezský
počet nově hlášených vrozených vad na 10 tis. živě narozených celkem chlapci dívky 550,81 622,25 475,99 608,83 669,38 544,88 576,54 635,49 514,72 524,11 582,44 463,12 545,03 511,96 579,57 558,67 679,82 431,53 546,31 646,48 440,57 475,10 579,33 386,36 609,21 755,31 455,74 691,93 790,26 584,82 361,13 398,76 321,17 429,68 487,19 369,39 488,90 535,47 440,63 597,35 705,66 481,85 603,64 672,41 520,00
živě narození s vrozenou vadou na 10 tis. živě narozených celkem 390,06 457,49 390,27 405,31 336,73 457,61 383,81 342,91 423,73 485,05 254,91 325,10 328,74 389,71 417,85
chlapci 449,08 528,17 445,87 456,66 328,02 586,62 456,22 416,51 505,62 546,85 295,63 370,21 353,30 448,78 495,51
dívky 327,93 382,85 331,94 351,63 345,82 322,21 307,38 267,55 337,70 417,73 211,68 277,82 303,29 326,73 335,38
Tab. 9: Vrozené vývojové vady podle kraje bydliště v roce 2008.
12.2.3 Nemoci z povolání Účelem zjišťování požadovaných údajů je získání informací pro analýzu problémů v oblasti ochrany zdraví při práci, kdy nemoci z povolání a ohrožení nemocemi z povolání jsou jedním ze základních ukazatelů účinnosti prevence, pro rozhodování kompetentních orgánů o přijetí potřebných organizačních a dalších opatřeních, pro vědecký výzkum, pro 168
vzdělávání v oboru a pro mezinárodní srovnávání. Výskyt nemocí z povolání je též jedním z důležitých ukazatelů zdravotního stavu obyvatelstva, zejména populace v produktivním věku. Zdravotní závažnost nemocí z povolání je umocňována jejich ekonomickými a sociálními důsledky. Z hlediska zdravotního i společenského představují nemoci z povolání vysoce nežádoucí jev, kterému je třeba předcházet vhodně volenými preventivními kroky. Předpokladem účinných opatření usilujících o minimalizaci výskytu nemocí z povolání jsou validní informace z této oblasti. Vývoj počtu nemocí z povolání ukazuje graf Graf 5. V roce 2009 bylo v České republice hlášeno u 1 107 pracovníků celkem 1 313 profesionálních onemocnění (739 případů u mužů a 574 případů u žen), z toho bylo 1 245 nemocí z povolání a 68 ohrožení nemocí z povolání. Nejčastěji hlášenou kombinací byl syndrom karpálního tunelu na pravé a na levé ruce (celkem 81 případů). Incidence profesionálních onemocnění byla v roce 2009 celkem 30,9 případů na 100 tisíc zaměstnanců v civilním sektoru nemocensky pojištěných. Ve srovnání s rokem 2008 klesl v roce 2009 nejen absolutní počet pracovníků postižených profesionálním onemocněním (pokles o 8, tj. o 0,7 % případů), ale také celkový počet hlášených profesionálních onemocnění (pokles o 90, tj. o 6,4 % případů). Nejvíce nemocí z povolání bylo v roce 2009 diagnostikováno v Moravskoslezském kraji (celkem 289, tj. 23,2 % všech hlášených případů).
12.2.4 Pracovní neschopnost Podle Českého statistického úřadu bylo v roce 2009 průměrné procento pracovní neschopnosti 4,184 (viz graf Graf 6). Výrazně se prodloužilo průměrné trvání jednoho případu pracovní neschopnosti až na 45 dnů (ve srovnání s rokem 2000 se jedná o 17 dní, proti roku 2008 se jedná o prodloužení o 6 dnů). Počet hlášení v přepočtu na 100 pojištěnců mírně poklesl. Nejvyšší počet pracovní neschopnosti je tradičně u nejmladších věkových skupin pracujících. Nejčastější příčinnou pracovních neschopností jsou nemoci dýchací soustavy, nemoci svalové a kosterní soustavy, poranění a otravy a nemoci trávící soustavy.
169
Graf 5: Vývoj počtu hlášených případů nemocí z povolání v letech 2002-2009.
Graf 6: Vývoj hlášených případů pracovní neschopnosti.
170
12.3 Síť zdravotnických zařízení a jejich činnost
Struktura sítě zdravotnických zařízení v ČR nevykazuje v posledních letech výraznějších změn. Situace se stabilizovala a větší změny lze očekávat až s přijetím nové legislativy, která v souladu s vývojem po roce 1990 nově definuje rozdělení zdravotnických zařízení podle druhu poskytované péče. Zdravotnické zařízení je zařízení, které poskytuje péči léčebnou, diagnostickou, ošetřovatelskou, preventivní, lékárenskou, poradenskou, lázeňskou nebo hygienickou. Zdravot-
nická zařízení jsou lůžková nebo ambulantní.
Lůžková zdravotnická zařízení jsou nemocnice a odborné léčebné ústavy, kam patří léčebna pro dlouhodobě nemocné, léčebna tuberkulózy a respiračních nemocí, psychiatrická léčebna, rehabilitační ústav, radioterapeutický ústav a lázeňské léčebny.
Ambulantní zdravotnická zařízení jsou tvořena především samostatnými ordinacemi praktických lékařů, pediatrů, stomatologů, gynekologů a dalších specialistů, dále pak sdružená ambulantní zařízení, laboratoře a další zařízení.
Zvláštní zdravotnická zařízení tvoří kojenecké ústavy, dětské domovy, centra a stacionáře pro děti a dospělé, jesle, záchytné stanice, dopravní a záchranná služba. Dále pak mezi zdravotnická zařízení řadíme lékárny a zařízení hygienické služby. Zdravotnická zařízení dále dělíme na státní a nestátní podle formy vlastnictví. Státní
zdravotnická zařízení jsou řízena přímo Ministerstvem zdravotnictví ČR. Nestátní jsou buď privátní, nebo řízená městem či obcí. Zdravotnická statistika sleduje kapacitní údaje a údaje o činnosti zdravotnických zařízení. Mezi kapacitní údaje patří především počty zdravotnických zařízení, počty lůžek, počty zdravotnických pracovníků a další. Z nich se pak odvozují další relativní ukazatele jako např. počet obyvatel připadajících na 1 lékařské místo praktického lékaře, stomatologa, počet dětí do 18 let připadajících na 1 lékařské místo pediatra, počet žen připadajících na 1 lékařské místo gynekologa, počet lékařů sociální zdravotní péče na počet lůžek a mnoho dalších. Tyto ukazatele slouží ke srovnání jednotlivých zdravotnických zařízení podobného typu. Některé ukazatele slouží i k mezinárodnímu srovnávání, např. počet lůžek na počet obyvatel, celkový počet lékařských míst na počet obyvatel a podobně.
171
Z údajů o činnosti zdravotnických zařízení sleduje zdravotnická statistika především údaje o lůžkových zdravotnických zařízeních. Nejznámějšími a nejužívanějšími ukazateli jsou:
využití lůžek ve dnech (podíl mezi počtem ošetřovacích dnů a průměrným počtem lůžek); využití lůžek v procentech (podíl mezi počtem ošetřovacích dnů x 100 a skutečnou lůžkovou kapacitou v počtu ošetřovacích dnů);
průměrná ošetřovací doba (2x počet ošetřovacích dnů dělený součtem přijatých, převzatých z jednoho oddělení na druhé, propuštěných, předaných a zemřelých pacientů);
průměrný počet obsazených lůžek (podíl součtu ošetřovacích dnů a počtu dnů v roce); nemocniční letalita, která se udává v promilích (podíl počtu zemřelých x 1000 na součet počtu propuštěných, zemřelých a předaných);
obrat lůžka; prostoj lůžka. Při srovnání jednotlivých ukazatelů je třeba vždy srovnávat zdravotnická zařízení s podobnou strukturou oddělení a obdobné velikosti. Při podrobnějším srovnávání se sledují jednotlivé ukazatele za oddělení stejných oborů např. neurologických odděleních, ve zdravotnických zařízeních s přibližně stejným počtem lůžek. Údaje z lůžkových zařízení se získávají ze záznamu o hospitalizaci a z údajů přijímací kanceláře. Údaje o ambulantních zdravotnických službách se získávají z výkazů o činnosti jednotlivých oborů, např. výkaz o činnosti praktického lékaře, gynekologa apod. Většinou se však jedná o počty vyšetření a ošetření, pouze některé obory mají výkaz rozšířený o sledování vybraných diagnóz. Ambulantní údaje většinou obsahují i údaje z ambulantní části lůžkových zařízení. Zdravotnická zařízení jsou především v resortu zdravotnictví, je třeba si však uvědomit, že existují zdravotnická zařízení i v resortu vnitra, obrany, spravedlnosti a dopravy. Výdaje na zdravotnictví jsou získávány jednak z veřejných zdravotních prostředků a jednak přímými platbami od pacientů. Struktura a zajištění sítě zdravotnických zařízení je v České republice relativně stabilizované. Dlouhodobě klesá podíl lékařů primární péče na celkovém počtu ambulantních lékařů. Klesá i akutní lůžková kapacita v nemocnicích. V roce 2009 nadále pokračoval
172
každoroční nárůst počtu zařízení lékárenské péče. Již druhým rokem vzrostl počet lůžek na odděleních následné ošetřovatelské péče v nemocnicích i počet lůžek vyčleněných pro sociální pobytové služby. Pokud jde o odborné léčebné ústavy, klesá téměř výhradně kapacita zařízení určených pro dětské pacienty. Jako výrazný problém se jeví „stárnoucí“ věková struktura lékařů primární péče.
Graf 7: Ambulantní specializovaná péče v roce 2009 dle druhu zařízení.
Graf 8: Ambulantní specializovaná péče v roce 2009 dle zřizovatele.
173
12.4 Ekonomické ukazatele
Zdravotnictví je financováno jednak z veřejných zdrojů, jednak ze soukromých prostředků jednotlivců.
Veřejné zdroje se dělí na prostředky ze státního rozpočtu přidělované zdravotnickým zařízením formou dotací Ministerstva zdravotnictví a formou dotací územních orgánů a na prostředky od zdravotních pojišťoven. Veřejné výdaje na zdravotnictví v přepočtu na 1 obyvatele dosáhly v roce 2008 výše 21 009 Kč. Přibližně 8,5 % z veřejných výdajů představovaly výdaje veřejných rozpočtů a cca 91,5 % činily výdaje veřejného zdravotního pojištění.
Soukromé výdaje obyvatel na zdravotnictví mají největší dynamiku růstu. Na jednoho člena průměrné domácnosti se soukromá vydání na zdraví zvýšila o 699 Kč (o 29,5 %) oproti roku 2007, na celkových 3 068 Kč ročně. Nejvyšší podíl výdajů průměrné domácnosti tvoří platby za léky a zdravotnické prostředky, což v roce 2008 činilo 68,7 %. Ze státního rozpočtu prostřednictvím dotací zdravotnickým zařízením jsou částečně financovány činnosti, které zdravotní pojišťovny nehradí (lékařský výzkum, výuka lékařů, protidrogový program, problematika AIDS…), a některé investice. Zdravotní pojišťovny hradí z prostředků veřejného zdravotního pojištění převážnou část ambulantní a lůžkové zdravotní péče, léků, prostředků zdravotnické techniky, zdravot-
nické dopravy, nezbytného léčení v zahraničí, a další. Náklady zdravotních pojišťoven na zdravotní péči vzrostly podle Českého statistického úřadu o 5,3 % oproti roku 2007. V oblasti zdravotního pojištění má rozhodující podíl Všeobecná zdravotní pojišťovna (cca 63 % ze všech registrovaných pojištěnců). Podle podkladů Ministerstva zdravotnictví ČR celkové příjmy na 1 pojištěnce v roce 2008 činily 20 392 Kč (nárůst o 3,8 % oproti roku 2008), celkové výdaje na 1 pojištěnce dosáhly 19 353 Kč, což je navýšení o 7,6 %. Stát zaplatil za své pojištěnce (důchodci, děti, studenti atd.) cca 47,2 mld. Kč, čímž pokrýval zdravotní pojištění za celkem 5 846 tisíc „státních“ pojištěnců (děti, důchodci, uchazeči o zaměstnání, osoby ve vazbě nebo ve výkonu trestu a další). K veřejným a soukromým výdajům na zdravotnictví se připočítávají výdaje ostatních resortů a dary věnované zdravotnickým zařízením.
174
Do zdravotnictví v České republice bylo tedy v roce 2009 vloženo zhruba 287 mld. Kč, tj. 7,9 % z hrubého národního produktu. Grafické znázornění výdajů na zdravotnictví (veřejných i soukromých) vykazuje neustálý růst (viz grafy Graf 9 a Graf 10). Regresní přímka má korelační koeficient pro veřejné výdaje na 1 obyvatele 0,93 a pro soukromé výdaje 0,87, což je v obou případech velmi těsná korelace. Jednoduchým dosazením do rovnic regresních přímek [104a] (y = 1151,4x + 10 285 a y = 278,71x + 1103,7) lze tedy celkem spolehlivě odhadnout výdaje pro následující roky. Pro ilustraci byl proveden odhad výše nákladů pro rok 2011. Výdaje z veřejných prostředků na zdravotnictví pro rok 2011 by měly dosáhnout výše 22 950 Kč, soukromé výdaje pak 4170 Kč na osobu.
Graf 9: Vývoj veřejných výdajů na zdravotnictví na 1 obyvatele v Kč
Graf 10: Vývoj soukromých peněžních vydání na zdravotní péči na 1 obyvatele dle statistiky rodinných účtů.
175
13. APLIKACE ROZŠÍŘENÝCH METOD 13.1 Aplikace v deskriptivní statistice
Jako aplikace rozšířených metod v deskriptivní statistice byla vybrána Lorenzova křivka, která je názorným měřením stupně koncentrace nebo špičatosti (parametr špičatosti viz [16b]). Konstrukce a vlastnosti Lorenzovy křivky budou popsány prostřednictvím ilustračního příkladu.
Příklad – zadání: Zkoumaná léčebná metoda ukázala po aplikaci u n = 50 pacientů zmenšení nádoru dané prvky škály xi [4] prvek škály x1 = 1 – zmenšení nádoru o 80-100 %, prvek škály x2 = 2 – zmenšení nádoru o 60-80 %, prvek škály x3 = 3 – zmenšení nádoru o 40-60 %, prvek škály x4 = 4 – zmenšení nádoru o 20-40 %, prvek škály x5 =5 – zmenšení nádoru o 0-20 % a absolutními četnostmi ni [5] (počty pacientů odpovídající prvkům škály xi na základě tabulky Tab. 1) n1 = 9, n2 = 15, n3 = 20, n4 = 4, n5 = 2.
Je zapotřebí názorně charakterizovat parametr špičatosti N4 (viz [16b]) měřením stupně koncentrace hodnot statistického znaku do malého počtu statistických jednotek kolem aritmetického průměru O1 (viz [10]) pomocí Lorenzovy křivky.
Příklad – řešení: a) Konstrukce Lorenzovy křivky a1) Na vodorovnou osu se nanášejí kumulativní četnosti ∑ni/n [7] v procentech (s použitím tabulky Tab. 1) n1/n = 18 %, n1/n + n2/n = 48 %, n1/n + n2/n + n3/n = 88 %,
176
n1/n + n2/n + n3/n + n4/n = 96 %, n1/n + n2/n + n3/n + n4/n + n5/n = 100 %.
a2) Na svislou osu se nanášejí v souladu s kumulativními četnostmi postupně narůstající součty ∑xini rovněž v procentech. Výpočet hodnot nanášených na svislou osu je ukázán v následujících krocích.
a3) Za xi je nyní brán střed intervalu prvku škály v hodnotách statistického znaku, tj. zmenšení nádoru pro první prvek škály o x1 = 90 %, pro druhý prvek škály o x2 = 70 %, pro třetí prvek škály o x3 = 50 %, pro čtvrtý prvek škály o x4 = 30 %, pro pátý prvek škály o x5 = 10 %.
a4) Na svislou osu se pak nanášejí v procentech hodnoty postupně narůstajících součtů ∑xini x1n1 = 810,
v procentech 810/3000 =
27 %,
x1n1 + x2n2 = 1860,
v procentech 1860/3000 = 62 %,
x1n1 + x2n2 + x3n3 = 2860,
v procentech 2860/3000 = 95 %,
x1n1 + x2n2 + x3n3 + x4n4 = 2980,
v procentech 2980/3000 = 99 %,
x1n1 + x2n2 + x3n3 + x4n4 + x5n5 = 3000,
v procentech 3000/3000 = 100 %.
a5) Množina bodů A1 až A5 se souřadnicemi ∑ni/n a ∑xini na vodorovné a svislé ose A1 [ 18 %; 27 %] A2 [ 48 %; 62 %] A3 [ 88 %; 95 %] A4 [ 96 %; 99 %] A5 [100 %; 100 %] charakterizuje Lorenzovu křivku.
177
b) Vlastnosti Lorenzovy křivky b1) V případě nulové koncentrace hodnot statistického znaku kolem aritmetického průměru O1 (viz [10]) Lorenzova křivka splývá s úhlopříčkou mezi počátkem souřadnicové soustavy
a bodem A5 [100 %; 100 %] (u všech 50 pacientů stejné zmenšení nádoru o 50 %).
b2) Čím je křivka prohnutější, tím je koncentrace hodnot sledovaného statistického znaku kolem aritmetického průměru O1 (viz [10]) větší. Pak jde o koncentraci velké části součtu hodnot statistického znaku do malého počtu statistických jednotek.
b3) Jednoduchou charakteristikou koncentrace je podíl 2 ploch: plochy mezi úhlopříčkou (úhlopříčka je spojnice počátku souřadnicové soustavy a bodu A5 [100 %; 100 %]) a Lorenzovou křivkou;
plochy celého trojúhelníka nad (pod) úhlopříčkou (pravoúhlý trojúhelník je tvořen popsanou úhlopříčkou a odvěsnami – příslušnými částmi souřadnicových os). Taková charakteristika se pohybuje od 0 (nulová koncentrace) do 1 (nejvyšší možná koncentrace). Při nejvyšší možné koncentraci se Lorenzova křivka „nafukuje“ až splyne s oběma odvěsnami trojúhelníka.
178
13.2 Aplikace v pravděpodobnosti 13.2.1 Ilustrace – Binomické rozdělení – Momentová vytvořující funkce Příklad – zadání: Pravděpodobnostní funkce [18] pro binomické rozdělení má podle [43] tvar n n −i Pi = p i (1 − p ) . i
Momentová vytvořující funkce [39] pro binomické rozdělení s náhodnou veličinou X (která má hodnoty xi = i = 0,1,….,n) má podle [40] a [43] tvar n n i n n n n −i n −i mx ( z ) = mi ( z ) = ∑ e zi p i (1 − p ) =∑ ( e z p ) (1 − p ) = ( pe z + 1 − p ) . i =0 i =0 i i
S použitím vztahů [41] a [29], [30] lze pak již vypočítat teoretický obecný moment 1. řádu O1, teoretický obecný moment 2. řádu O2 a teoretický centrální moment 2. řádu C2.
Příklad – řešení: dmi ( z ) = np ( pro z = 0 ) , dz d 2 mi ( z ) O2 = = n 2 p 2 + np (1 − p ) ( pro z = 0 ) , dz 2 2 − znp d 2 m y ( z ) d ( e mi ( z ) ) C2 = = = np (1 − p ) ( pro z = 0 ) , dz 2 dz 2 C2 = O2 − O12 = np (1 − p ). O1 =
13.2.2 Ilustrace – Binomické rozdělení – Cena léčebného zařízení Příklad – zadání: Písmenem S bude označena současná cena léčebného zařízení, která může podle zkušeností z minulosti za jedno z n budoucích období růst s indexem růstu u nebo klesat s indexem poklesu d. Možnost zaplacení léčebného zařízení na základě bezrizikové půjčky od státu je spojena s úrokovou mírou q za jedno období.
179
Základní popis binomického rozdělení je dán vztahy [43] n n− j Pj = p j (1 − p ) (pravděpodobnostní funkce), j E j = ∑ Pj . j = np, D j = ∑ ( j − E j ) Pj = np(1 − p ) (teoretické momenty O1, C2). 2
Odtud lze podle [19] a [43] získat vztah pro distribuční funkci k
Fj = ∑ Pj , k ≤ n (distribuční funkce jako součet k hodnot pravděpodobnostní funkce). j =0
Pro změny ceny léčebného zařízení lze např. pro budoucích 5 období (n = 5) nakreslit následující binomický strom:
Při následující volbě popsaných parametrů u = 1,2, d = 0,8, q = 1,1, S = 100 měnových jednotek lze snadno pomocí klasické nebo geometrické definice pravděpodobnosti (viz kapitola 10.1) vypočítat pravděpodobnosti p a 1 – p růstu a poklesu ceny léčebného zařízení za jedno období: p = (q – d)/(u – d) = 3/4, 1 – p = (u – q)/(u – d) = 1/4.
180
Dolním indexem i možné ceny Si léčebného zařízení po uplynutí 5 období bude označen počet období růstu z celkového počtu 5 období. Možné ceny léčebného zařízení budou
mít následující hodnoty: S0= d5S =32,77, S1= ud4S =49,10, S2= u2d3S =73,73, S3= u3d2S =104,19, S4= u4dS =156,29, S5= u5S =234,43.
Je potřebné po uplynutí 5 období vypočítat pravděpodobnosti možných cen léčebného zařízení a očekávanou cenu průměrnou.
Příklad – řešení: Pravděpodobnosti těchto cen umožňuje vypočítat pravděpodobnostní funkce binomické rozdělení. Dosazením zadaných hodnot lze získat pravděpodobnosti
0 5 1 4 2 3 5 3 1 5 3 1 5 3 1 1 15 90 P0 = = , P1 = = , P2 = = , 0 4 4 1024 1 4 4 1024 2 4 4 1024 3 2 4 1 5 0 5 3 1 5 3 1 5 3 1 270 405 243 P3 = = , P4 = = , P5 = = . 3 4 4 1024 4 4 4 1024 5 4 4 1024
Střední hodnota ceny léčebného zařízení je pak dána obvyklým využitím vztahu pro obecný moment 1. řádu O1 (viz vztah [10]): 5
O1 = ∑ Pj S j . j =0
Po dosazení za možné ceny Sj a jejich pravděpodobnosti Pj a po provedení součtu lze již získat očekávanou střední hodnotu ceny léčebného zařízení po uplynutí 5 období O1 = 152,15 měnových jednotek.
181
13.2.3 Ilustrace – Binomické rozdělení – Test náhodnosti výběru Příklad – zadání: Výsledky testování léčebné metody jsou spojeny se zjištěním pravděpodobnosti uzdravení pacienta p = 3/4 a se zjištěním pravděpodobnosti neúspěchu 1 – p = 1/4. Pro testování léčebné metody bylo vybráno 10 240 skupin po 5 pacientech, po vyšetření byla zjištěna následující úspěšnost aplikace léčebné metody v jednotlivých skupinách: 2400 skupin 5 uzdravených 4100 skupin 4 uzdravení 2710 skupin 3 uzdravení 880 skupin 2 uzdravení 140 skupin 1 uzdravený 10 skupin 0 uzdravených Na 95% hladině statistické významnosti (α = 0,05) je zapotřebí užitím binomického rozdělení zjistit, zda provedený výběr do skupin byl náhodným výběrem (tj. zjistit neparametrickým testováním, zda zjištěné empirické rozdělení počtu uzdravených lze nahradit binomickým rozdělením).
Příklad – řešení: Na základě kapitoly 5. „Neparametrické testování“ a vztahu [73] lze vybrat testové kritérium již v podobě uzpůsobené zkoumanému případu 5
χ exp = ∑ 2
i=0
( ni − nPi ) nPi
2
, kde Pi je pravděpodobnostní funkce binomického rozdělení (viz [43]).
Empirické absolutní četnosti ni (viz [5]) jsou dány hodnotami 2400 = n5
880 = n2
4100 = n4
140 = n1
2710 = n3
10 = n0
182
Teoretické absolutní četnosti nPi (n je rozsah výběrového statistického souboru n = 10240) lze vypočítat pomocí pravděpodobnostní funkce Pj
binomického rozdělení
(viz [43]) n n− j Pj = p j (1 − p ) . j
Po dosazení lze obdržet teoretické absolutní četnosti nPi 0
5
5 3 1 10240 nP0 = 10240 = = 10 , 1024 0 4 4 1
4
5 3 1 15.10240 nP1 = 10240 = = 150 , 1024 1 4 4 2
3
3
2
4
1
5
0
5 3 1 90.10240 nP2 = 10240 = = 900 , 1024 2 4 4 5 3 1 270.10240 nP3 = 10240 = = 2700 , 1024 3 4 4 5 3 1 405.10240 nP4 = 10240 = = 4050 , 1024 4 4 4 5 3 1 243.10240 nP5 = 10240 = = 2430 . 1024 5 4 4
S využitím aparátu χ 2 -testu dobré shody (viz postup popsaný v kapitole 5.) již lze po dosazení za empirické a teoretické absolutní četnosti ni, nPi a po provedení součtu získat experimentální hodnotu testového kritéria 5
( ni − nPi )
i =0
nPi
χ exp = ∑ 2
2
= 2,13 .
Teoretickou hodnotu χ teor 2 testového kritéria lze získat na základě stanovení počtu stupňů volnosti k – r – 1 = 3 a s použitím statistických tabulek
χ teor 2 = χ k −r −12 ( 0, 05) = χ 6−2−12 ( 0, 05) = χ32 ( 0, 05) = 7,81 .
183
Pak je možno zapsat kritický obor W ve tvaru intervalu W = 〈7,81; ∞ ) . Jelikož experimentální hodnota χ exp 2 = 2,13 testového kritéria není prvkem kritického oboru W ( χ exp 2 ∉W ), lze potvrdit, že provedený výběr je náhodným výběrem. Tato ilustrace ukazuje na použití binomického rozdělení při testování náhodnosti provedeného výběru.
13.2.4 Ilustrace – Poissonovo a normální rozdělení – Neparametrické testování Příklad – zadání: Poissonovo rozdělení Po(λ) jako diskrétní teoretické rozdělení je podle [44] dáno pravděpodobnostní a distribuční funkcí Pi = e − λ
λi i!
j
, i=0,1,2,…,∞, Fj = ∑ Pi . i =0
Střední hodnota Ei a rozptyl Di jsou podle [44] dány vztahy Ei = λ, Di = λ, počet teoretických parametrů je r =1 (teoretickým parametrem je pouze λ). V daném zdravotním pojištění je zkoumáno 5000 pojistných smluv po 50 měsíců. Rozložení výše pojistných škod při pojistném plnění vyjadřuje tabulka Tab. 10. Rozložení počtu pojistných nároků v jednotlivých měsících vyjadřuje tabulka Tab. 11.
xi
ni
ni/n
xi = i
0 1 2 3 4 5
4950 9 15 20 4 2
0,99 0,0018 0,003 0,004 0,0008 0,0004
tis. CZK
∑ 5000
∑ 1,00
0 1 2 3 4 5 počet pojist. nároků
ni = počet měsíců 18 20 10 0 1 1
0,36 0,40 0,20 0,02 0,02 0,02
∑ 50
∑ 1,00
ni/n
Tab. 11: Rozložení počtu pojistných nároků.
Tab. 10: Rozložení výše pojistných škod.
a) Je třeba určit střední výši škody a navrhnout pojistku pro zdravotní pojištění.
184
b) Je třeba určit rozptyl střední výše škody, vztáhnout jej na jednu pojistnou smlouvu a určit chybu pojistky pro n = 5000 a pro fiktivní hodnoty pojistného kmene n = 102, 104, 106. c) Co vytváří podklady pro načrtnutí grafů empirických a teoretických rozdělení výše škody a počtu pojistných událostí? d) Je zapotřebí zjistit, zda rozložení výše škody má normální rozdělení N(µ, σ) (bez škody 0 tis. CZK) a zda rozložení počtu pojistných událostí má Poissonovo rozdělení Po(λ).
Příklad – řešení: Ad a) Střední výše škody jako obecný moment 1. řádu O1 bude nalezena pomocí [10]. Po dosazení údajů z tabulky Tab. 10 lze získat střední výši škody O1(x) = 0 + 0,0018+ 0,0060 + 0,0120 + 0,0032 + 0,0020 = 0,025, tj. CZK 25,-.
Ad b) Rozptyl střední výše škody jako centrální moment 2. řádu C2 bude nalezen pomocí [12]. Po dosazení údajů z tabulky Tab. 10 lze získat rozptyl C2 = 0,99 (0–0,025)2 + 0,0018 (1–0,025)2 + … + 0,0004 (5–0,025)2 = 0,0719. Vztažení na jednu pojistnou smlouvu znamená provedení výpočtu
C2 0, 268 C2 . ≈ = n n n
Z hlediska počtu pojistných smluv n (z hlediska pojistného kmene hypotetické zdravotní pojišťovny) lze chybu pojistky zhruba vystihnout následujícím způsobem: n = 102 … chyba pojistky 25 ± 26,8 n = 104 … chyba pojistky 25 ± 2,68 n = 106 … chyba pojistky 25 ± 0,268
Ad c) Podklady pro první graf (graf empirického a teoretického rozdělení výše škod) lze nalézt v tabulce Tab. 10 (bez škody 0 tis. CZK) a v provedeném neparametrickém testování v kapitole 5. – grafy pak jsou obdobou grafů na obrázcích Obr. 2 (graf empirického rozdělení absolutních četností) a Obr. 4 (Gaussova křivka jako graf normálního rozdělení). Podklady pro druhý graf (graf empirického a teoretického rozdělení počtu pojistných událostí) lze nalézt v tabulce Tab. 11 – vytvořené grafy by pak odpovídaly grafu empirického
185
rozdělení absolutních a relativních četností a po provedeném neparametrickém testování (viz Ad d)) Poissonově křivce jako grafu Poissonova rozdělení „vzácných případů“. Pojistné událostí by pro zkoumanou hypotetickou zdravotní pojišťovnu měly být „vzácnými případy“.
Ad d) Test normality byl proveden s použitím vztahů [73] a [74] pro χ 2 -test 5
( ni − npi )
i =1
npi
χ =∑ 2
2
v kapitole 5. pro hodnoty odpovídající hodnotám v tabulce Tab. 10. Výsledkem provedeného neparametrického testování je zjištění, že výše škod má spojité teoretické rozdělení – normální rozdělení N(µ, σ) popsané vztahy [56] a [57]. Test rozložení počtu pojistných nároků bude rovněž proveden s použitím vztahu [73] pro χ 2 -test s cílem zjistit, zda rozložení počtu pojistných nároků má Poissonovo rozdělení Po(λ). Testové kritérium bude mít nyní podobu [75] 5
( ni − nPi )
i =0
nPi
χ exp = ∑ 2
2
,
kde Pi je pravděpodobnostní funkce Poissonova rozdělení Po(λ) uvedená ve vztazích [44]. Jelikož teoretický parametr λ Poissonova rozdělení Po(λ) představuje ve zkoumaném problému průměrnou frekvenci pojistných událostí za 1 měsíc a jelikož lze teoretický parametr λ bodově odhadnout empirickou průměrnou frekvencí pojistných událostí za 1 měsíc jako obecným momentem 1. řádu O1 (viz [10]), bude potřebné O1 vypočítat. Podle [10] a dosazením údajů z tabulky Tab. 11 lze hodnotu O1 získat O1 = Ei = λ = 0.0,36 + 1.0,4 + 2.0,2 + …. + 5.0,02 ≈ 1 (teoretický parametr λ lze odhadnout přibližnou hodnotou λ = 1). Pro dosazení do testového kritéria χ 2 -testu je již jen zapotřebí vypočítat hodnoty pravděpodobnostní funkce Pi Poissonova rozdělení Po(λ) s využitím vztahu Pi = e − λ
λi i!
,
který je uveden v [44]. Provedené výpočty Pi vedou k získání následujících hodnot:
186
P0 = 0,37
10 11 12 =0,37, P1=0,37 =0,37, P2=0,37 =0,18, 0! 1! 2! P3=0,06, P4=0,015, P5=0,0031.
Dosazením do testového kritéria 5
( ni − nPi )
i =0
nPi
χ exp = ∑ 2
2
(hodnoty ni jsou dosazovány z tabulky Tab. 11, n = 50)
lze získat experimentální hodnotu χ exp 2 testového kritéria
χ exp 2 = 0, 014 + 0,122 + 0,111 + 3, 000 + 0, 080 + 4,581 = 2,13 . Teoretickou hodnotu χ teor 2 testového kritéria lze pro k – r – 1 stupňů volnosti odečíst ze statistických tabulek (k je počet řádků tabulky Tab. 11, r je počet teoretických parametrů Poissonova rozdělení Po(λ)) a na jejím základě je možno zapsat kritický obor W:
χ teor 2 = χ k − r −12 ( 0, 05 ) = χ 6 −1−12 ( 0, 05 ) = χ 4 2 ( 0, 05 ) = 9, 36, W = 〈9,36; ∞) Jelikož χ exp 2 není prvkem kritického oboru W, lze empirické rozdělení počtu pojistných nároků nahradit diskrétním teoretickým rozdělením – Poissonovým rozdělením Po(λ).
13.2.5 Ilustrace – Geometrické rozdělení – Pravděpodobnostní funkce Příklad – zadání: Je volána centrála v době největšího zatížení linky, pravděpodobnost neobsazení centrály je p = 0,25. Jaká je pravděpodobnost dosažení spojení až při pátém pokusu (tj. i + 1 = 5)?
Příklad – řešení: S použitím geometrického rozdělení Ge(p) lze dosazením p = 0,25 do pravděpodobnostní funkce (viz vztahy [45])
187
Pi = p (1 − p ) , kde i = 4, i
obdržet hledanou pravděpodobnost P4 = 0,25(1 – 0,25)4 = 0,0791.
13.2.6 Ilustrace – Hypergeometrické rozdělení – Pravděpodobnostní funkce, aproximace Příklad – zadání: Výrobky pro zdravotnická zařízení jsou dodávány v sériích po 100 kusech. 5 náhodně vybraných výrobků bez zmetků znamená, že série bude přijata. Série obsahuje 4 % zmetků (N = 100, M = 4, n = 5, náhodná veličina X má hodnoty i, kterými jsou počty zmetků ve výběru). Užitím hypergeometrického rozdělení HGe(M, N, n) je zapotřebí a) zjistit pravděpodobnost, že série výrobků pro zdravotnická zařízení nebude přijata; b) provést aproximaci pravděpodobnosti binomickým rozdělením Bi(n, p); c) provést aproximaci pravděpodobnosti Poissonovým rozdělením Po(λ).
Příklad – řešení: Ad a) Pravděpodobnost, že série nebude přijata, bude zjišťována pomocí pravděpodobnostní funkce Pi hypergeometrického rozdělení HGe(M, N, n) (viz vztahy [47])
M N − M i n − i Pi = . N n Z hlediska zadání příkladu je hodnota i = 0 (žádný zmetek mezi 5 náhodně vybranými výrobky), pravděpodobnost nepřijetí série je proto dána výrazem 1 – P0. Dosazením za i, M, N, n lze obdržet hledanou pravděpodobnost nepřijetí série
4 96 0 5 1 − P0 = 1 − 100 5
188
0,1881
Ad b) Aproximace binomickým rozdělením Bi(n, p) znamená splnění podmínek [48]. Kvantifikací lze získat pro N = 100, M = 4, n = 5 hodnoty n/N = 0,05, p = M/N = 0,04. Podmínky [48] jsou známy a splněny. Dosazením do pravděpodobnostní funkce
n n −i Pi = p i (1 − p ) i pro binomické rozdělení (viz vztahy [43]) i = 0, p = 0,04, n = 5 lze získat hledanou pravděpodobnost nepřijetí série 1 – P0 = 1 – 0,965 = 0,1846.
Ad c) Aproximace Poissonovým rozdělením Po(λ) znamená splnění podmínek [49]. Podmínka
n M ≤ 0, 05 je splněna (n/N = 0,05), podmínka ≤ 0,1 je rovněž splněna (M/N = 0,04), N N
podmínka n ≥ 31 splněna není (n = 5). Dosazením do pravděpodobnostní funkce Pi = e
−λ
λi i!
pro Poissonovo rozdělení Po(λ) (viz vztahy [44]) i = 0, λ = n
M = 5.0, 04 = 0, 2 lze získat N
hledanou pravdědobnost nepřijetí série 1 – P0 = 0,1813. Jelikož n je příliš malé, shoda s hypergeometrickým rozdělením je menší než při aproximaci binomickým rozdělením.
13.2.7 Ilustrace – Trinomické rozdělení – Preference lékaře Příklad – zadání: Nechť je v nemocnici n pacientů. Nechť p1 je pravděpodobnost, že náhodně vybraný pacient preferuje lékaře A. Nechť p2 je pravděpodobnost, že náhodně vybraný pacient preferuje lékaře B. Pak s pravděpodobností 1 – p1 – p2 náhodně vybraný pacient buď preferuje jiného lékaře, nebo žádné preference nemá. Lze předpokládat, že jednotliví pacienti preferují nezávisle na sobě. Je zapotřebí vymezit vztah, kterým bude možné určit pravděpodobnost jevu, že v uvažované nemocnici bude mít lékař A i ≤ n preferencí a lékař B j ≤ n preferencí (i + j ≤ n).
189
Příklad – řešení: Pravděpodobnost Pij, že v této nemocnici bude mít i preferencí lékař A a j preferencí lékař B, vychází z trinomického rozdělení Tr(n, p1, p2). Tato pravděpodobnost je dána pravděpodobnostní funkci Pij, jejíž tvar lze odečíst z [52]
Pij =
n! n −i − j p1i p2j (1 − p1 − p2 ) . i ! j !( n − i − j ) !
13.2.8 Ilustrace – Trinomické rozdělení – Cena léčebného zařízení Příklad – zadání: Binomický model s binomickým rozdělením Bi(n, p) z ilustrace 13.2.2 vycházel z následujících údajů (jejich význam si lze přečíst v ilustraci 13.2.2) n = 3, u = 1,2, d = 0,8, q = 1,1, p = 3/4, 1 – p = 1/4, S = 100 měnových jednotek. Nechť směrodatné odchylky [13] za jedno období hodnot indexu růstu u a indexu poklesu d současné ceny S léčebného zařízení jsou dostatečně malé, pak trinomický model s trinomickým rozdělením Tr(n, p1, p2) není
potřebný. Trinomický model s trinomickým rozdělením Tr(n, p1, p2) se stává potřebným např. za následujícího zjištění: Směrodatná odchylka [13] např. indexu růstu u je podstatně větší než směrodatná odchylka indexu poklesu d. Pomocí normovaného momentu 3. řádu N3 (viz [16a]) lze konstatovat např. zešikmení doleva u indexu růstu u – nižší prvky škály s nižšími hodnotami u měly při statistickém šetření hodnot indexu růstu u větší absolutní a relativní četnosti [5] a [6]. Pomocí relativních četností [6] lze při statistickém šetření hodnot u vymezit např. 2/3 pravděpodobnosti pro index růstu u1 = 1,15 a 1/3 pravděpodobnosti pro neznámou hodnotu indexu růstu u2. Pravděpodobnost p = 3/4 indexu růstu u, zjištěná v rámci binomického rozdělení Bi(n, p), se pak rozdělí na pravděpodobnost p1 = 2/4 hodnoty indexu růstu u1 a na pravděpodobnost p2 = 1/4 hodnoty indexu růstu u2. Pravděpodobnost 1 – p hodnoty indexu poklesu d, zjištěná v rámci binomického rozdělení Bi(n, p), zůstává 1 – p = 1/4. Bude však označena jako pravděpodobnost p3 = 1 – p1 – p2 = 1/4.
190
Výpočtem na základě vztahů [9] lze nalézt neznámou hodnotu u2. Dosazením do vztahu [10] pro obecný moment 1. řádu O1 o známé hodnotě O1 = u = 1,2 2/3.u1 + 1/3.u2 = u, tj. 2/3.1,15 + 1/3.u2 = 1,2 lze nalézt u2 = 1,3. Aplikací trinomického modelu s trinomickým rozdělením Tr(n, p1, p2) je zapotřebí nalézt možné budoucí ceny léčebného zařízení a očekávanou střední cenu léčebného zařízení po uplynutí tří období.
Příklad – řešení: Aplikaci trinomického modelu s trinomickým rozdělením Tr(n, p1, p2) lze provést v následujících krocích a) až f): a) Pravděpodobnostní funkce Pij trinomického rozdělení Tr(n, p1, p2) je dána vztahem (viz [52])
Pij =
n! n −i − j p1i p2j (1 − p1 − p2 ) . i ! j !( n − i − j ) !
Tento vztah bude zkoumán pro tři období (n = 3), to znamená součet i + j = 3max (i je počet období, v nichž budoucí cena léčebného zařízení rostla s indexem růstu u1, j je počet období s indexem růstu u2). Ve vztahu pro pravděpodobnostní funkci Pij lze zavést pro terminologickou úplnost tzv. trinomické číslo n n! . = ij i ! j !( n − i − j ) !
b) Výpočet pravděpodobností budoucích možných cen léčebného zařízení na konci 3. období lze provést dosazením do pravděpodobnostní funkce Pij P00 = 1/64, P01 = 3/64, P02 = 3/64, P03 = 1/64 P10 = 6/64, P11 = 12/64, P12 = 6/64 P20 = 12/64, P21 = 12/64 P30 = 8/64
191
c) Ověření normovací podmínky, zjištění pravděpodobnosti překročení současné ceny S = 100 měnových jednotek nebo nepřekročení této ceny: 3
Normovací podmínka:
3
∑∑ P i =0 j =0
ij
= 1, i + j = 3max
Výpočet pravděpodobností (s využitím výsledků získaných v bodě d)): 54 = 84% pro ceny větší než S = 100 64 10 100. = 16% pro ceny menší než S = 100 64
100.
d) Výpočet možných cen léčebného zařízení na konci 3. období: S00 = u10u20 d 3 S = 51, 2,
S01 = 83, 2,
S10 = u11u20 d 2 S = 73, 6,
S11 = 119, 6,
S 20 = u12u20 d 1S = 105,8,
S 21 = 171, 9
S02 = u10u22 d 0 S = 135, 2,
S03 = u10u23 d 0 S = 219, 7
S12 = u11u12 d 0 S = 194, 4
S30 = u13u20 d 0 S = 152,1
e) Výpočet očekávané ceny léčebného zařízení na konci 3. období: Očekávaná cena v příslušných měnových jednotkách bude vypočítána jako obecný moment 1. řádu O1 aplikací vztahů [29], [32] 3
3
O1 = ∑∑ Pij Sij = 132,9, kde i + j = 3max i =0 j = 0
f) Pro úplnost lze uvést závěrečný krok aplikace trinomického modelu: Alespoň schematický popis trinomického stromu pro výpočet možných cen léčebného zařízení na koncích 3., 2. a 1. období (v uspořádaných trojicích čísel (i, j, n – i – j) je obsažen počet období růstu ceny léčebného zařízení s indexem růstu u1, s indexem růstu u2 a s indexem poklesu d)
192
Trinomický strom nahradí strom binomický (viz ilustrace 13.2.2), jestliže je zapotřebí místo binomického modelu s binomickým rozdělením Bi(n, p) použít trinomický model s trinomickým rozdělením Tr(n, p1, p2).
13.2.9 Ilustrace – Rovnoměrné rozdělení – hustota pravděpodobnosti Příklad – zadání: Rovnoměrné rozdělení Ro jako spojité teoretické rozdělení má hodnoty náhodné veličiny x, hustotu pravděpodobnosti ρ(x), distribuční funkci F(x), normovací podmínku, obecný moment 1. řádu O1 a centrální moment 2. řádu C2 v podobě dané vztahy [53], [54]
x ∈ 〈 a, b〉, ρ ( x ) =
t
b
1 , F ( t ) = ∫ ρ ( x ) dx, x ≤ b, ∫ ρ ( x ) dx = 1 , b−a a a
(a − b) . 1 a+b a+b 1 O1 = E ( x ) = ∫ x dx = , C2 = D ( x ) = ∫ x − dx = b−a 2 2 b−a 12 a a b
b
2
2
Rovnoměrného rozdělení Ro může být použito se současnou aplikací funkce užitku U(x) na výpočet pojištění např. investice do přístrojové techniky ve zdravotnictví. Funkce užitku U(x) =
x je znázorněna na obrázku Obr. 7.
193
Obr. 7: Grafické znázornění funkce užitku.
Příklad – řešení: a) Investice do přístrojové techniky ve zdravotnictví má být učiněna ve výši 105 měnových jednotek. Rovnoměrné rozdělení rizika investice do zdravotnické techniky lze popsat hustotou pravděpodobnosti rovnoměrného rozdělení s a = 0, b = 105. Hustota pravděpodobnosti [53] je pak dána vztahem
ρ (x ) =
1 1 = 5 . b − a 10
b) Střední ztráta z investice do zdravotnické techniky je při rozdělení rizika ρ ( x ) dána obecným momentem 1. řádu O1 [54] E ( x ) = O1 =
a+b = 50 000 měnových jednotek . 2
c) Spravedlivá pojistka P vychází z jednoduché úvahy – užitek z pojistky by se měl rovnat střednímu užitku z investice do zdravotnické techniky bez pojistky. Oba užitky budou kvantifikovány.
d) Užitek z pojistky P vychází z užitkové funkce U(x) = lze obdržet U = 105 − P .
194
x , po dosazení do užitkové funkce
e) Střední užitek E(U) je dán střední hodnotou z užitkové funkce v rámci rovnoměrného rozdělení Ro. S použitím definice střední hodnoty [32] lze po dosazení obdržet b
105
a
0
E (U ) = ∫ x ρ ( x ) dx= ∫
105
x 32 1 1 x 5 dx = = 2 105 5 3 10 3 10 2 0
f) Rovnost obou užitků U = E(U) umožňuje vypočítat výši spravedlivé pojistky P. Jednoduchým výpočtem lze spravedlivou pojistku P obdržet ve výši
105 − P = 2
3
105 ⇒ P = 5 .10 5 = 55 555 měnových jednotek. 9
g) Přijatelnost výše pojištění investice do přístrojové techniky ve zdravotnictví souvisí s mohutností pojistného kmene pojišťující instituce. Se stoupající mohutností pojistného kmene pojišťující instituce by se výše pojistky vypočítaná pro případ jedné investice zmenšovala. 13.2.10 Ilustrace – χ2 rozdělení – Momentová vytvořující funkce, gama funkce
Příklad – zadání: χ2 rozdělení je speciálním případem gama rozdělení Ga(a = 1/2, p = ν/2) s jedním teoretickým
parametrem ν. Tomu odpovídá i tvar hustoty pravděpodobnosti, momentová vytvořující funkce a teoretické momenty uvedené ve vztazích [69] a [70]. Teoretické momenty O1 a C2 lze odvodit pomocí momentové vytvořující funkce nebo také pomocí gama funkce a jejich vlastností [66].
Příklad – řešení: a) Odvození O1 a C2 pomocí momentové vytvořující funkce Náhodná veličina X, která má χ2 rozdělení, vzniká jako součet čtverců ν nezávislých náhodných veličin U12 + U 2 2 + .... + Uν 2 . Počet ν nezávislých náhodných veličin určuje počet stupňů volnosti χ2 rozdělení. Každá z těchto ν nezávislých náhodných veličin má normované normální rozdělení N(0, 1). Při výpočtu teoretických parametrů χ2 rozdělení je proto potřebné k získání teoretického centrálního momentu 2. řádu C2 dělit výpočet provedený pomocí momentové vytvořující funkce (viz [69]) počtem ν nezávislých náhodných veličin U i 2 .
195
Momentová vytvořující funkce pro χ2 rozdělení je podle [69] dána vztahem mx ( z ) = (1 − 2 z )
−ν 2
.
Teoretický obecný moment 1. řádu O1 lze pro χ2 rozdělení vypočítat pomocí [41] následujícím způsobem:
d (1 − 2 z )−ν 2 −3ν = ν (1 − 2 z ) 2 = ν . O1 = E ( x ) = z =0 dz z =0 Teoretický centrální moment 2. řádu C2 lze pro χ2 rozdělení vypočítat pomocí [41] následujícím způsobem:
)
(
−ν 2 1 − zν 2 d ν e (1 − 2 z ) = C2 = D ( x ) = dz 2 z =0 −5ν −3ν −ν = ν e− zν 3 (1 − 2 z ) 2 − 2 (1 − 2 z ) 2 + (1 − 2 z ) 2 = 2ν . z =0
b) Odvození C2 pomocí gama funkce Výsledek výpočtu rozptylu D ( x ) = 2ν lze získat také užitím vlastností rozptylu [33] a gama funkce a jejich vlastností (viz [66]). Tento postup je uveden stručně bez podrobnějšího rozboru v krocích b1), b2), b3):
)
2 ∞ ∞ 2 4 2 2 4 b1) D ( x ) = ν D ( ui ) = ν E ( ui ) − E ( ui ) = ν ∫ u ρ ( u ) du − ∫ u ρ ( u ) du −∞ −∞
(
2
b2)
∞
∞
∞
−∞
−∞
0
2 4 4 ∫ u ρ ( u ) du = 1, ∫ u ρ ( u ) du = 2∫ u ρ ( u ) du =
4
π
∞
∫t
5 −1 −t 2
e dt = 3 .
0
Předcházejícího výsledku bylo dosaženo zavedením substituce
196
t=
u2 2
do hustoty pravděpodobnosti ρ ( u ) normovaného normálního rozdělení N(0, 1) (viz [56]) 2
1 − u2 1 −t ρ (u ) = e = e 2π 2π a s využitím definice gama funkce ∞
Γ ( p ) = ∫ x p −1e − x dx (viz [66]) 0
a vlastnosti gama funkcí Γ ( p + 1) = pΓ ( p ) (viz [66]) :
4
π
∞
∫t 0
5 −1 −t 2
e dt =
4 3 3 4 3 1 1 4 3 5 Γ = Γ = Γ = π =3. π 2 π 2 2 π 2 2 2 π 4
4
b3) Po dosazení do vztahu pro D(x) již lze obdržet očekávaný výsledek:
C2 = D ( x ) = ν ( 3 − 1) = 2ν .
197
13.3 Aplikace v matematické statistice 13.3.1 Neparametrické testování – Kolmogorovův-Smirnovův test Příklad – zadání: V daném zdravotním pojištění je zkoumáno 5000 pojistných smluv po 50 měsíců. Rozložení výše pojistných škod při pojistném plnění vyjadřuje tabulka Tab. 12. Rozložení počtu pojistných nároků v jednotlivých měsících vyjadřuje tabulka Tab. 13.
xi
ni
ni/n
xi = i
0 1 2 3 4 5
4950 9 15 20 4 2
0,99 0,0018 0,003 0,004 0,0008 0,0004
tis. CZK
∑ 5000
∑ 1,00
0 1 2 3 4 5 počet pojist. nároků
ni = počet měsíců 18 20 10 0 1 1
0,36 0,40 0,20 0,02 0,02 0,02
∑ 50
∑ 1,00
ni/n
Tab. 13: Rozložení počtu pojistných nároků.
Tab. 12: Rozložení výše pojistných škod.
Pomocí Kolmogorovova-Smirnovova testu je potřebné zjistit neparametrickým testováním, zda rozložení počtu pojistných nároků (viz tabulka Tab. 13) má s jistou mírou teoretické přibližnosti Poissonovo rozdělení a rozložení výše škod (viz tabulka Tab. 12) normální rozdělení.
Příklad – řešení: a) Použití Kolmogorovova-Smirnovova testu pro zjištění, zda má rozložení počtu pojistných nároků Poissonovo rozdělení (viz tabulka Tab. 13) Poissonovo rozdělení jako diskrétní teoretické rozdělení je dáno pravděpodobnostní a distribuční funkcí (viz [44])
Pi = e − λ
λi i!
j
, i = 0,1,....∞, Fj = ∑ Pi . i=0
198
Střední hodnota Ei a rozptyl Di jsou dány vztahy Ei = O1 = λ, Di = C2 = λ (viz [44]), počet teoretických parametrů r =1 (teoretickým parametrem je pouze λ, ve zkoumaném případě má význam průměrné frekvence pojistných událostí za 1 měsíc). Jednoduchým výpočtem podle [10], [29] a tabulky Tab. 13 lze hodnotu teoretického parametru λ bodově odhadnout empirickým průměrem počtu pojistných událostí za 1 měsíc O1 = Ei = λ = 0.0,36 + 1.0,4 + 2.0,2 +….+ 5.0,02 ≈ 1. Kolmogorovův-Smirnovův test bude ve zkoumaném případě spojen s testovým kritériem [77] d exp = sup d j
j
ni
∑ n − F ( x ) = sup d i =0
j
F j ( x = j ) − F ( x ) = sup d j .
K dosazení do testového kritéria [77] budou nejdříve vypočítány hodnoty kumulativj
ních četností [7]
ni
∑n: i=0
0
ni = 0,36, ∑ i=0 n
1
ni = 0,76, ∑ i=0 n
2
ni = 0,96, ∑ i=0 n
3
ni = 0,96, ∑ i=0 n
4
ni = 0,98, ∑ i=0 n
5
ni
∑ n = 1,00. i=0
Dále budou vypočítány hodnoty pravděpodobnostní funkce Poissonova rozdělení postupným dosazováním do vztahu (viz [44]) Pi = e − λ
P0 = 0,37
λi i!
:
10 11 12 =0,37, P1=0,37 =0,37, P2=0,37 =0,18, 0! 1! 2! P3=0,06, P4=0,015, P5=0,0031.
Hodnoty teoretické distribuční funkce F(x) budou v podobě schodové funkce získány pomocí tvaru distribuční funkce Poissonova rozdělení (viz [44]) j
F j = ∑ Pi : i =0
F(0) = F0 = P0 = 0,37, F(1) = F1 = P0 + P1 = 0,74, F(2) = F2 = P0 + P1 + P2 = 0,92, F(3) = F3 = P0 + P1 + P2 + P3 = 0,98,
199
F(4) = F4 = P0 + P1 + P2 + P3 + P4 = 0,995, F(5) = F5 = P0 + P1 + P2 + P3 + P4 + P5 = 1,00. Výpočet experimentální hodnoty testového kritéria d exp = sup d j bude proveden projekcí schodových charakterů empirické distribuční funkce [76] i teoretické distribuční funkce F(x)=Fi [44]. Jednotlivé absolutní odchylky dj budou počítány vzhledem k sedlu schodu i vzhledem k navazujícímu vrcholu schodu. Každá absolutní odchylka dj bude nabývat dvou hodnot (kromě poslední absolutní odchylky d5): 0
d0 =
ni − F (0) = 0, 36 − 0, 37 = 0,01 , ∑ i=0 n
1
d0 =
i =0
1
d1 =
ni − F (1) = 0, 76 − 0, 74 = 0,02 , ∑ i =0 n
2
d1 =
ni − F (2) = 0,96 − 0, 92 = 0,04 , ∑ i =0 n 3
d3 =
ni
∑ n − F (3) = 0,96 − 0,98 = 0,02 ,
3
d2 =
i=0
4
d3 =
ni − F (4) = 0,98 − 0,995 = 0,015 , d4 = ∑ i =0 n 5
ni − F (5) = 1, 00 − 1, 00 = 0,00 , ∑ i=0 n
ni
∑ n − F (3) = 0,98 − 0,98 = 0,00 i =0
4
d5 =
ni
∑ n − F (2) = 0, 96 − 0, 92 = 0,04
i=0
d4 =
ni
∑ n − F (1) = 0,96 − 0, 74 = 0,22 i =0
2
d2 =
ni
∑ n − F (0) = 0, 76 − 0,37 = 0,39
5
i =0
6
d5 =
ni
∑ n − F (4) = 1, 00 − 0,995 = 0,005 ni
∑ n − F (5) = neexistuje − 1, 00 = neexistuje i =0
Maximální absolutní odchylka je d exp = sup d j = 0,39. Teoretická (kritická) hodnota Kolmogorovova-Smirnovova testu bude pro n = 6, α = 0,05 nalezena ve statistických tabulkách dteor = dn,1-α = d6,1-0,05 = 0,519. Teoretická (kritická) hodnota je větší než hodnota experimentální, tj. d exp = 0, 39 není prvkem kritického oboru W = 〈 d teor = d n ,1−α ; ∞) = 〈 0, 519; ∞ ) . Na základě použití testového kritéria Kolmogorovova-Smirnovova testu lze přijmout s jistou mírou teoretické přibližnosti nulovou hypotézu H0 – empirické rozdělení četností počtu pojistných nároků lze nahradit Poissonovým rozdělením.
200
b) Použití Kolmogorovova-Smirnovova testu pro zjištění, zda má rozložení výše pojistných škod normální rozdělení (viz tabulka Tab. 12) Normální rozdělení a normované normální rozdělení jako spojitá teoretická rozdělení jsou dána hustotami pravděpodobnosti a distribučními funkcemi (viz [56]) − 1 ρ ( x) = e σ 2π
F (t ) =
t
∫
( x − µ )2 2σ 2
2
1 − u2 e , ρ (u ) = 2π t
ρ ( x ) dx, F ( t ) =
∫ ρ ( u ) du
−∞
−∞
∞
∞
−∞
−∞
F (∞) =
∫ ρ ( x ) dx = 1, F ( ∞ ) = ∫ ρ ( u ) du = 1
Teoretické parametry obou spojitých teoretických rozdělení jsou dány vztahy (viz [57])
O1 = E ( x ) =
∞
∫ xρ ( x )dx = µ , O
1
= E (u ) =
−∞
C2 = D ( x ) =
∞
∫ u ρ ( u )du = 0
−∞
∞
2 2 ∫ ( x − O1 ) ρ ( x )dx = σ , C2 = D ( u ) =
−∞
∞
∫ u ρ ( u )du = 1. 2
−∞
Jednoduchým výpočtem užitím vztahů [10] a [13] lze vypočítat empirický moment 1. řádu O1 = 2,5 a směrodatnou odchylku Sx = 1 (přibližná hodnota). Těmito hodnotami lze bodově odhadnout teoretické momenty µ = O1 = 2,5 a σ = Sx = 1. Kolmogorovův-Smirnovův test bude ve zkoumaném případě opět spojen s testovým kritériem [77] d exp = sup d j
j
ni
∑ n − F ( x ) = sup d i =1
j
F j ( x = j ) − F ( x ) = sup d j .
K dosazení do testového kritéria [77] budou nejdříve vypočítány hodnoty kumulativních četností [7] bez výše škody x0 = 0 tis. CZK, tj. vzhledem k označení xi = i bez hodnoty i = 0. Kumulativní četností [7] budou pak hledány s dolní hodnotou sčítacího indexu i = 1 podle vztahu j
ni
∑n: i =1
1
ni = 0,18, ∑ i =1 n
2
ni = 0,48, ∑ i =1 n
3
ni = 0,88, ∑ i =1 n
201
4
ni = 0,96, ∑ i =1 n
5
ni
∑ n = 1,00. i =1
Dále budou vypočítány hodnoty distribuční funkce normovaného normálního rozdělení (viz také postup neparametrického testování popsaný v kapitole 5.). K tomu bude zapotřebí vypočítat hodnoty normované proměnné u podle vztahů [20] nebo [55] u = (x – O1)/Sx = (x – µ)/ σ. Dosazením hodnot x = 1,5; 2,5; 3,5; 4,5; ∞, hodnoty O1 = 2,5 a hodnoty Sx = 1 budou získány hodnoty u = -1, 0, 1, 2, ∞ normované náhodné veličiny U. Hodnoty distribuční funkce normovaného normálního rozdělení budou pak nalezeny ve statistických tabulkách jako hodnoty následujících integrálů: −1
∫ ρ ( u )du = F ( −1) = 0,16
−∞ 0
∫ ρ ( u )du = F ( 0 ) = 0,50
−∞ 1
∫ ρ ( u )du = F (1) = 0,84
−∞ 2
∫ ρ ( u )du = F ( 2 ) = 0,98
−∞ ∞
∫ ρ ( u )du = F ( ∞ ) = 1, 00
−∞
Výpočet experimentální hodnoty testového kritéria d exp = sup d j bude proveden projekcí schodových charakterů empirické distribuční funkce [76]. Jednotlivé absolutní odchylky dj budou počítány vzhledem k sedlu schodu i vzhledem k navazujícímu vrcholu schodu. Každá absolutní odchylka dj bude nabývat dvou hodnot (kromě poslední absolutní odchylky d5): 1
d1 =
ni
∑ n − F (−1) = 0,18 − 0,16 = 0,02 ,
2
d1 =
i =1
i =1
2
d2 =
ni − F (0) = 0, 48 − 0, 50 = 0,02 , ∑ i =1 n
3
d2 =
ni − F (1) = 0,88 − 0,84 = 0,04 , ∑ i =1 n
4
d3 =
ni − F (2) = 0,96 − 0, 98 = 0,02 , ∑ i =1 n
ni
∑ n − F (1) = 0,96 − 0,84 = 0,14 i =0
4
d4 =
ni
∑ n − F (0) = 0,88 − 0,50 = 0,38 i =1
3
d3 =
ni
∑ n − F (−1) = 0, 48 − 0,16 = 0,32
5
d4 =
ni
∑ n − F (2) = 1, 00 − 0, 98 = 0,02 i =1
202
5
d5 =
ni − F (∞) = 1, 00 − 1, 00 = 0,00 , ∑ i =1 n
6
d5 =
ni
∑ n − F (∞) = neexistuje − 1, 00 = neexistuje i =1
Maximální absolutní odchylka je d exp = sup d j = 0,38. Teoretická (kritická) hodnota Kolmogorovova-Smirnovova testu bude pro n = 5, α = 0,05 nalezena ve statistických tabulkách dteor = dn,1-α = d5,1-0,05 = 0,563. Teoretická (kritická) hodnota je větší než hodnota experimentální, tj. d exp = 0, 38 není prvkem kritického oboru W = 〈 d teor = d n ,1−α ; ∞ ) = 〈0,563; ∞ ) . Na základě použití testového kritéria Kolmogorovova-Smirnovova testu lze přijmout nulovou hypotézu H0 – empirické rozdělení četností výše škod lze nahradit normálním rozdělením.
13.3.2 Teorie odhadů – metoda maximální věrohodnosti pro normální rozdělení N(µ, σ) Příklad – zadání: Metodou maximální věrohodnosti je zapotřebí učinit bodové odhady teoretických parametrů µ, σ (viz [57]) normálního rozdělení N(µ, σ).
Příklad – řešení: r a) Konstrukce věrohodnostní funkce L [84] s použitím náhodného vektoru x [ x1 ,..., xn ] [3]
Nalezení tvaru hustoty pravděpodobnosti [83] pro normální rozdělení je dáno ve vazbě r na náhodný vektor x [ x1 ,..., xn ] realizací dvou kroků a1), a2)
( xi − µ ) 2 1 exp − a1) ρ ( xi ) = , 2 σ 2 σ 2π
2 n n r xi − µ ) ( 1 a2) ρ x = ∏ ρ ( xi ) = exp −∑ 2σ 2 . σ 2π i =1
()
203
U druhého kroku bylo využito vztahu [25] pro výpočet celkové pravděpodobnosti jevu tvořeného n jevy neslučitelnými (n nezávislými náhodnými veličinami), která je rovna součinu n dílčích pravděpodobností.
r Při konkrétně zadaných hodnotách xi náhodného vektoru x [ x1 ,..., xn ] má věrohod-
nostní funkce L podle [84] tvar 2 n n r xi − µ ) ( 1 L = ρ x = ∏ ρ ( xi ) = exp −∑ 2σ 2 . σ 2π i =1
()
b) Výpočet přirozeného logaritmu věrohodnostní funkce L 2 n xi − µ ) ( 1 ln L = ln + −∑ 2σ 2 . σ 2π
c) Soustava věrohodnostech rovnic [85] ∂ ln L ∂ ln L = 0, = 0. ∂µ ∂σ
d) Řešení jednotlivých věrohodnostních rovnic d1) Věrohodnostní rovnice pro bodový odhad µ
∂ ln L 1 = 0 + − 2 ( −1) 2∑ ( xi − µ ) = 0 ⇒ ∂µ 2σ
∑ x = ∑ µ = nµ i
Odtud vyplývá výpočet µ: µ =
1 ∑ xi = O1 ⇒ µ = O1 . n
Bodovým odhadem teoretického aritmetického průměru µ je empirický aritmetický průměr O1 [10].
204
d2) Věrohodnostní rovnice pro bodový odhad σ
(x − µ) −2σ −3 n 2 1 − + − ( xi − µ ) = − + ∑ i 3 = 0 ⇒ ∑ 2 2 σ σ σ n 1 1 2 2 = 3 ∑ ( xi − µ ) ⇒ σ 2 = ∑ ( xi − µ ) n σ σ 2
∂ ln L nσ 2π = ∂σ 2π
Odtud vyplývá výpočet σ: σ =
1 2 ( xi − µ ) = S x ⇒ σ = S x . ∑ n
Bodovým odhadem teoretické směrodatné odchylky σ je empirická směrodatná odchylka Sx [13].
13.3.3 Parametrické testování – nalezení nejsilnějšího testu Příklad – zadání: Nechť pro normální rozdělení N(µ = 0, σ) (viz [56]) v rámci výběrového statistického souboru s rozsahem n = 10 je zkoumána nulová hypotéza H0: σ2 = 1 proti alternativní hypotéze Ha: σ2 = 2. K nalezení nejsilnějšího testu a nejsilnějšího kritického oboru Wα bude použita Neymanova-Pearsonova věta [89]. Ke splnění dvou podmínek NeymanovyPearsonovy věty je zapotřebí nejdříve zkonstruovat dvě věrohodnostní funkce L [84] odpovídající zadání příkladu.
Příklad – řešení: r a) Konstrukce věrohodnostní funkce L [84] s použitím náhodného vektoru x [ x1 ,..., xn ] [3] Nalezení tvaru hustoty pravděpodobnosti [83] pro normální rozdělení je dáno ve vazbě r na náhodný vektor x [ x1 ,..., xn ] následujícím postupem a1), a2): ( xi − µ ) 2 1 a1) ρ ( xi ) = exp − , 2 2 σ σ 2π 2 n n r xi − µ ) ( 1 a2) ρ x = ∏ ρ ( xi ) = exp −∑ 2σ 2 . σ 2π i =1
()
205
U druhého kroku bylo využito vztahu [25] pro výpočet celkové pravděpodobnosti jevu tvořeného n jevy neslučitelnými (n nezávislými náhodnými veličinami), která je rovna součinu n dílčích pravděpodobností.
r Při konkrétně zadaných hodnotách xi náhodného vektoru x [ x1 ,..., xn ] má věrohodnostní funkce L podle [84] tvar 2 n n r xi − µ ) ( 1 L = ρ x = ∏ ρ ( xi ) = exp −∑ 2σ 2 . σ 2π i =1
()
Vzhledem k zadání příkladu je třeba nalézt dvě věrohodnostní funkce pro n = 10, µ = 0 a pro σ 2= TP0 = 1, σ 2= TPa = 2. Jejich tvary budou získány dosazením uvedených hodnot:
2 n n r xi − µ ) ( 1 1 10 2 −5 L ( TP0 = 1) = ρ x = ∏ ρ ( xi ) = exp − = 2 exp π ( ) − 2 ∑ xi , ∑ 2σ 2 σ 2π i =1 i =1
()
2 n n r xi − µ ) ( 1 1 10 2 −5 L ( TPa = 2 ) = ρ x = ∏ ρ ( xi ) = exp −∑ 2σ 2 = ( 4π ) exp − 4 ∑ xi . σ 2π i =1 i =1
()
b) Splnění 1. podmínky Neymanovy-Pearsonovy věty [89] První podmínka je spojena s výpočtem poměru věrohodností, který umožňuje nalézt nejsilnější testové kritérium. Poměr věrohodností je dán poměrem věrohodnostních funkcí:
L ( TP0 = 1) ( 2π ) = L ( TPa = 2 ) ( 4π ) −5 −5
10 exp − 1 ∑ xi 2 10 2 i =1 = 25 exp − 1 xi 2 ≤ k0,05 ∑ 10 4 i =1 exp − 1 ∑ xi 2 4 i =1
10
⇒ ∑ xi 2 ≥ 20 ln 2 − 4 ln k0,05 = konstanta c. i =1
Testovým kritériem je statistika t (pojem statistiky t viz [81]) 10
t = ∑ xi 2 , i =1
206
jejímž teoretickým rozdělením je podle výkladu provedeném v kapitole 10.4.13 χ2 rozdělení s 9 stupni volnosti a s teoretickou (kritickou) hodnotou χ 9 2 (α ) .
c) Splnění 2. podmínky Neymanovy-Pearsonovy věty [89] Pomocí statistických tabulek lze zjistit χ 9 2 (α = 0, 05) = 16,92. Nerovnost L ( TP0 ) ≤ kα L ( TPa ) byla přetransformována na nerovnost 10
t = ∑ xi 2 ≥ c . i =1
Podle 2. podmínky Neymanovy-Pearsonovy věty nerovnost t ≥ c platí pro nulovou hypotézu H0 s pravděpodobností 0,05, s níž je popsaná statistika t є W0,05 = 〈16,92; ∞) .
d) Závěr Splněním obou podmínek Neymanovy-Pearsonovy věty [89] je aplikace NeymanovyPearsonovy věty uzavřena – byl nalezen nejsilnější kritický obor W0,05 = 〈16,92; ∞) a nejsilnější testové kritérium 10
t = ∑ xi 2 . i =1
Teoretickým rozdělením nejsilnějšího testového kritéria je χ2 rozdělení s 9 stupni volnosti a s teoretickou (kritickou) hodnotou χ 9 2 (α ) . Nejsilnějším testem je χ2-test. S využitím nalezeného nejsilnějšího testu (χ2-test s 9 stupni volnosti) a nejsilnějšího kritického oboru by již bylo možné přikročit k případnému následujícímu neparametrickému či parametrickému testování ve vazbě na zadání příkladu.
207
13.3.4 Měření statistických závislostí – Analýza rozptylu Příklad – zadání: Statistický znak SZ-x je dán prvky škály 1,…., 5, které představují počty lůžek v nemocničních pokojích. Statistický znak SZ-s je spojen s cenami vybavení 24 nemocničních pokojů ve stovkách korun. Tyto ceny byly jednoduše roztříděny podle počtu lůžek následujícím způsobem: x1 = 1
s1j = 221, 255, 264, 201
n1 = 4
x2 = 2
s2j = 321, 329, 374, 335, 309
n2 = 5
x3 = 3
s3j = 592, 543, 526, 505, 528, 564
n3 = 6
x4 = 4
s4j = 640, 621, 687, 643, 672
n4 = 5
x5 = 5
s5j = 934, 648, 962, 895
n5 = 4
Pomocí analýzy rozptylu [99], [99a], poměru determinace [100] a F-testu [101] rozhodněte o závislosti či nezávislosti statistického znaku SZ-s na znaku SZ-x, určete těsnost případné závislosti a interpretujte průměrné ceny nemocničních pokojů a rozptyly těchto cen.
Příklad – řešení: a) Průměrné ceny pokojů a rozptyly těchto cen byly vypočítány podle vztahů [10], [12] ni
O1i =
∑ sij j =1
ni
ni
, C2i =
∑(s j =1
ij
− O1i )
2
ni − 1
x1 = 1
s1j = 221, 255, 264, 201
n1 = 4
O11 = 235,25
C21 = 864,25
x2 = 2
s2j = 321, 329, 374, 335, 309
n2 = 5
O12 = 333,60
C22 = 604,80
x3 = 3
s3j = 592, 543, 526, 505, 528, 564
n3 = 6
O13 = 543,00
C23 = 960,00
x4 = 4
s4j = 640, 621, 687, 643, 672
n4 = 5
O14 = 652,60
C24 = 702,30
x5 = 5
s5j = 934, 648, 962, 895
n5 = 4
O15 = 934,75
C25 = 832,92
Výsledky ukazují, že s rostoucím počtem lůžek se zvyšuje průměrná cena nemocničních pokojů. Rozptyly cen v jednotlivých prvcích škály nevykazují rostoucí ani klesající tendenci.
208
b) Výpočet variabilit (součtů čtverců) Ss, Ss1 a Ss2 [99] s využitím vztahů [99a] k
ni
∑∑ s i =1 j =1
ij
k
= 12 869,0;
∑nO i =1
i
1i
2
= 8 171 373,1
Ss = 1 286 028, Ss1 = 1 270 908, Ss2 = Ss – Ss1 = 15 120
c) Testování závislosti či nezávislosti statistických znaků SZ-x a SZ-s pomocí F-testu [101] c1) Nulová hypotéza H0 předpokládá rovnost podmíněných průměrů O1i = µi, tj. H0: µ1 = … = µk.
c2) Výpočet experimentální hodnoty Fexp testového kritéria [101] F-testu
S s1 Fexp =
Ss 2
k −1 = n−k
1270908 15120
4
19
dává hodnotu Fexp = 399.
c3) Ve statistických tabulkách lze nalézt na hladině statistické významnosti α = 0, 05 teoretickou (kritickou) hodnotu Fteor = Fk −1,n − k (α ) pro stupně volnosti k – 1 = 4 a n – k = 19
Fteor = Fn − k ,k −1 (α ) = F19,4 ( 0, 05) = 2,90.
c4) Experimentální hodnota Fexp = 399 je prvkem kritického oboru W Fexp ∈ W = 〈 2,90; ∞) .
Nulovou hypotézu lze zamítnout, předpoklad nezávislosti znaku SZ-s na znaku SZ-x nebyl potvrzen.
209
d) Výpočet těsnosti závislosti znaku SZ-s na znaku SZ-x pomocí poměru determinace [100] P2 = Ss1 / Ss = 0,988. Poměr determinace ukazuje na velmi těsnou závislost.
13.3.5 Regresní analýza – jednodušší lineární regresní model pro lineární regresní funkci Příklad – zadání: Je zapotřebí předběžně posoudit vztah letošního a loňského výskytu nemoci (vztah statistických znaků SZ-s a SZ-x) na základě pěti níže uvedených úkolů a) až e) podle údajů od 6 nemocnic N-1 až N-6:
N-1
N-2
N-3
N-4
N-5
N-6
loňský výskyt v počtech nemocí xi
20
60
70
100
150
260
znak SZ-x
letošní výskyt v počtech nemocí si
50
60
60
120
230
320
znak SZ-s
a) Odhadnout parametry regresní přímky a odhadnout letošní výskyt při loňském výskytu 110 nemocí (bodově podmíněný letošní výskyt). b) Charakterizovat pomocí poměru determinace [107] těsnost podílu regresního modelu na vysvětlení závislosti statistických znaků SZ-x a SZ-s . c) Zkonstruovat 95% intervaly spolehlivosti pro regresní parametry b0, b1. d) Zkonstruovat 95% intervaly spolehlivosti pro letošní výskyt při loňském výskytu 110 nemocí (tento údaj představuje jednak střední hodnotu, jednak hypotetickou individuální nemocnici). e) Provést t-testy a celkový F-test pro testování závislosti statistických znaků SZ-x a SZ-s
210
Příklad – řešení: Před řešením úkolů a) až e) je možné sestrojit bodový diagram tvořený body A1[20, 50], A2[60, 60], A3[70, 60], A4[100, 120], A5[150, 230], A6[260, 320]. Z bodového diagramu je patrná linearita regresní závislosti.
Ad a) Soustava normálních rovnic [105a] umožňuje získat regresní přímku následujícím postupem (k = n = 6, sumace jsou prováděny od 1 do 6, v rámci příkladu nebylo použito škálování): Soustava normálních rovnic [105a]:
∑s
= nb0 + b1 ∑ xi ,
i
∑s x
i i
= b0 ∑ xi + b1 ∑ xi 2
Vztahy [105b] pro výpočet regresních parametrů b0,b1 b0 =
∑s
i
n
− b1
∑x , i
n
b1 =
n∑ si xi − ∑ xi ∑ si n∑ xi 2 − ( ∑ xi )
2
dávají po dosazení hodnoty regresních parametrů b1 = 1, 27, b0 = 0, 69 . Získaným hodnotám regresních parametrů odpovídá analytické vyjádření regresní přímky y = 0, 69 + 1, 27 x . Směrnice přímky 1,27 např. ukazuje, že lišil-li se loňský výskyt u dvou nemocnic o 10, letos se bude průměrně lišit o 10.1,27 = 12,7 nemocí. Loňskému výskytu 110 nemocí odpovídá letošní výskyt 0,69 + 1,27.110 ≈ 140 nemocí.
Ad b) Výpočet poměru determinace [107] pomocí vztahu R2 =
ST
Ss
.
Celková variabilita S s závisle proměnné SZ-s je dána vztahem [106a] n
S s = ∑ ( si − O1s ) i =1
2
= ∑ si
2
(∑ s ) − i
n
2
= 61800 .
Část celkové variability ST vysvětlená regresním modelem je dána vztahem [106b]
211
n
ST = ∑ ( yi − O1s ) i =1
2
= b0 ∑ si + b1 ∑
(∑ s ) sx − i
i i
n
2
= 58318 .
Poměr determinace s využitím vztahu [107] vychází R2 =
ST
Ss
= 0, 944 .
Poměr determinace R2 ukazuje, že 94,4 % variability letošního výskytu lze vysvětlit zvoleným regresním modelem.
Ad c) Konstrukce 95% intervalů spolehlivosti pro regresní parametry b0, b1 95% intervaly spolehlivosti pro intervalové odhady bj,IO jsou dány obdobou obvyklých vztahů [87] a [91] při použití t-testu (index IO je označení intervalového odhadu)
t=
b j , IO − b j s (bj )
(
( 2 ) < t < t (α 2 )
, − tn − 2 α
n−2
( 2 ) s (b ) ; b + t (α 2 ) s (b )) , kde j = 0,1,
b j , IO ∈ b j − tn− 2 α
j
n−2
j
j
s ( b j ) jsou směrodatné odchylky regresních parametrů b j .
Pro lineární regresní funkci y = b0 + b1 x je zapotřebí nalézt směrodatné odchylky
s ( b0 ) a s ( b1 ) . K výpočtu lze použít vztahy s ( b0 ) = sR
∑x n∑ x − ( ∑ x ) 2
i
2
i
s ( b1 ) = sR
2
,
2
.
i
n n∑ xi − ( ∑ xi ) 2
V těchto vztazích se vyskytuje reziduální rozptyl sR 2 , který lze vypočítat podle [108] sR 2 =
SR . n−2
Část celkové variability S R nevysvětlená regresním modelem je dána vztahem [106d]
S R = S s − ST ⇒ S R = 61800 − 58318 = 3482 .
212
Po dosazení (n = 6) lze přibližně obdržet sR = 29,504 s(b0) = 20,843 s(b1) = 0,155. Ve statistických tabulkách lze nalézt teoretickou hodnotu testového kritéria
tteor = t4 ( 0, 025) = 2, 78 pro α = 0,05. Odtud již plynou 95% intervaly spolehlivosti b0, IO ∈ ( −57,19; 58,57), b1, IO ∈ (0,84;1, 70).
Se spolehlivostí 95% lze pak odhadnout, že zvýšení loňského výskytu o 1 nemoc odpovídá zvýšení letošního výskytu o 0,84 až 1,70 nemoci.
Ad d) Konstrukce 95% intervalů spolehlivosti pro střední a individuální výskyt d1) Nechť výskyt 110 nemocí je loňskou střední hodnotou O1x´. Pak pro intervalový odhad O1y,IO střední hodnoty O1y odečtené z regresní přímky pro O1x´ platí při použití t-testu (viz obdoba obvyklých vztahů [87] a [91])
t=
O1 y , IO − O1 y s ( O1 y )
(
( 2 ) < t < t (α 2 )
, − tn − 2 α
n−2
( 2 ) s (O ) ; O
O1 y , IO ∈ O1 y − tn − 2 α
1y
1y
( 2 ) s (O ))
+ tn − 2 α
1y
s ( O1 y ) je směrodatná odchylka střední hodnoty O1 y . Směrodatnou odchylku s ( O1y ) lze vypočítat pomocí vztahu
∑ xi O1x ´ − n 1 + 2 n xi ) ( ∑ 2 ∑ xi − n
2
s ( O1 y ) = sR
.
Čím bude střední hodnota O1x´ bližší skutečnému aritmetickému průměru O1x statis-
tického znaku SZ-x, tím bude konstruovaný interval spolehlivosti užší.
213
Po dosazení sR = 29,504, n = 6 lze obdržet pro hledanou směrodatnou odchylku s(O1y) hodnotu s(O1y) = 12,045. Ve statistických tabulkách lze opět nalézt teoretickou hodnotu testového kritéria
tteor = t4 ( 0, 025) = 2, 78 . 95% interval spolehlivosti pro střední výskyt lze nalézt ve tvaru O1 y , IO ∈ (106, 55;173, 45) . Odtud vyplývá, že loňskému výskytu 110 nemocí odpovídá průměrný letošní výskyt přibližně 107 až 173 nemocí.
d2) Nechť výskyt 110 nemocí je loňskou individuální hodnotou xi některé hypotetické individuální nemocnice, tj. např. xj = 110. Pak pro intervalový odhad yj,IO (individuální hodnoty yj odečtené z regresní přímky) platí při použití t-testu (viz obdoba obvyklých vztahů [87] a [91])
t=
y j , IO − y j s( yj )
(
( 2 ) < t < t (α 2 )
, − tn − 2 α
n−2
( 2 ) s ( y );
y j , IO ∈ y j − tn − 2 α
j
( 2 ) s ( y ))
y j + tn − 2 α
j
s ( y j ) je směrodatná odchylka individuální hodnoty y j . Směrodatnou odchylku s ( y j ) lze vypočítat pomocí vztahu
s ( y j ) = sR
∑ xi xj − n 1 1+ + 2 n xi ) ( ∑ 2 ∑ xi −
2
. n
Po dosazení sR = 29,504, n = 6 lze obdržet pro hledanou směrodatnou odchylku s(yj) hodnotu s(yj) = 31,868. Ve statistických tabulkách lze opět nalézt teoretickou hodnotu testového kritéria
tteor = t4 ( 0, 025) = 2, 78 . 95%
interval
spolehlivosti
pro
individuální
výskyt
lze
nalézt
ve
tvaru
y j , IO ∈ 〈51, 5; 228,5〉.
Odtud vyplývá, že u nemocnice s loňským výskytem 110 nemocí bude letošní výskyt s 95% pravděpodobností přibližně 51,5 až 228,5 nemocí.
214
Poznámka: Přílišná šíře intervalů spolehlivosti pro střední i individuální výskyt je dána malým rozsahem výběru n = 6.
Ad e) Provedení t-testů a celkového F-testu (testování závislosti statistických znaků SZ-x a SZ-s) e1) Pro testování možností b0 = 0, b1 = 0 lze použít t-testy (aplikace t rozdělení [71]). Nulová hypotéza H0: b0 = 0 předpokládá, že regresní přímka prochází počátkem. Nulová hypotéza H0: b1 = 0 (směrnice regresní přímky je nulová) předpokládá, že statistické znaky SZ-s a SZ-x na sobě nezávisejí.
Testové kritérium pro b0 má pro experimentální hodnotu texp t-testu tvar
texp =
b0 , s ( b0 )
po dosazení b0 = 0, 69, s (b0 ) = 20,843 lze obdržet texp = 0,033. Ve statistických tabulkách lze nalézt teoretickou hodnotu tteor testového kritéria
tteor = t4 ( 0, 025) = 2, 78. Odtud plyne obvyklý kritický obor [91] W = ( −∞; − 2, 78 ) ∪ ( 2, 78; ∞ ) . Experimentální hodnota texp = 0,033 není prvkem kritického oboru W. Jelikož texp ∉ W , nelze zamítnout nulovou hypotézu H0, že regresní přímka prochází počátkem.
Testové kritérium pro b1 má pro experimentální hodnotu texp t-testu tvar
texp =
b1 , s ( b1 )
po dosazení b1 = 1, 27, s (b1 ) = 0,155 lze obdržet texp = 8,194. Ve statistických tabulkách lze nalézt teoretickou hodnotu tteor testového kritéria
tteor = t4 ( 0, 025) = 2, 78.
215
Odtud plyne obvyklý kritický obor [91] W = ( −∞; − 2, 78 ) ∪ ( 2, 78; ∞ ) . Experimentální hodnota texp = 8,194 je prvkem kritického oboru W. Jelikož texp ∈ W , lze zamítnout nulovou hypotézu H0, že loňský výskyt nemocí (statistický znak SZ-x) a letošní výskyt nemocí (statistický znak SZ-s) na sobě nezávisejí.
e2) Pro testování možnosti b1 = 0 lze použít F-test (aplikace F rozdělení [72]). Nulová hypotéza H0: b1 = 0 (směrnice regresní přímky je nulová) předpokládá, že statistické znaky SZ-s a SZ-x na sobě nezávisejí.
Testové kritérium pro b1 má pro experimentální hodnotu Fexp F-testu tvar [101]
ST Fexp =
SR
k
, kde k je počet nezávisle proměnných SZ-x1 až SZ-x k .
n − ( k + 1)
Zkoumaný případ má k = 1 (pouze jeden statistický znak SZ-x), n = 6, lze tedy použít tvar testového kritéria
ST Fexp =
SR
1 . 4
Po dosazení již vypočítaných hodnot do vztahu [106d] ST = 58318, S s = 61800 S R = S s − ST ⇒ S R = 61800 − 58318 = 3482 lze získat experimentální hodnotu testového kritéria
ST Fexp =
SR
1 = 66,99. 4
Teoretickou hodnotu Fteor lze nalézt ve statistických tabulkách pro stupně volnosti n – 2 = 4, k = 1 Fteor = Fn− 2, k (α ) = F4,1 ( 0, 05) = 7, 71.
216
Odtud plyne obvyklý kritický obor W = ( 7, 71; ∞ ) .
Experimentální hodnota
Fexp = 66, 99 je prvkem kritického oboru W.
Jelikož Fexp ∈ W , lze opět zamítnout nulovou hypotézu H0, že loňský výskyt nemocí (statistický znak SZ-x) a letošní výskyt nemocí (statistický znak SZ-s) na sobě nezávisejí.
13.3.6 Regresní analýza – Složitější lineární regresní model pro lineární regresní funkci Příklad – zadání: Nechť kvantitativní statistický znak SZ-x má 6 prvků škály xi = 1,…,6 (t = 6 prvků škály), kvantitativní statistický znak SZ-s 3 prvky škály sj = 1,2,3 (u = 3 prvky škály). V rámci předpokládaného složitějšího lineárního regresního modelu [104a] s lineární regresní funkcí y = b0 + b1 x je potřebné splnit následující zadání: a)
zkonstruovat korelační tabulku;
b) napsat upravené normální rovnice; c)
nalézt regresní přímku. Složitost lineárního regresního modelu je spojena s nestejným počtem prvků škály
u statistického znaku SZ-x (t = 6 prvků škály) a u statistického znaku SZ-s (u = 3 prvky škály).
Příklad – řešení: Ad a) Konstrukce korelační tabulky Řádky – prvky škály xi znaku SZ-x (6 řádků při volbě t = 6). Sloupce – prvky škály sj znaku SZ-s (3 sloupce při volbě u = 3). Nejdříve je zapotřebí nalézt absolutní četnosti nij (viz [97]), kde index i náleží statistickému znaku SZ-x a index j náleží statistickému znaku SZ-s. Volbou absolutních četností lze dosáhnout následující podoby korelační tabulky (index i nabývá hodnot i = 1,…., 6, index j nabývá hodnot j = 1, 2, 3):
217
1. sloupec
2. sloupec
3. sloupec
s1 = 1
s2 = 2
s3 = 3
ni 1
ni 2
ni 3
4. sloupec
1. řádek x1 = 1
n1 j
19
0
0
n1• = 19
2. řádek x2 = 2
n2 j
46
26
0
n2• = 72
3. řádek x3 = 3
n3 j
21
70
4
n3• = 95
4. řádek x4 = 4
n4 j
20
60
13
n4• = 93
5. řádek x5 = 5
n5 j
11
26
4
n5• = 41
6. řádek x6 = 6
n6 j
2
3
5
n6• = 10
7. řádek
n•j
n•1 = 119
n•2 = 185
n•3 = 26
Prvních šest řádků korelační tabulky reaguje na prvky škály xi (viz [4]) statistického znaku SZ-x. První tři sloupce korelační tabulky reagují na prvky škály sj (viz [4]) statistického znaku SZ-s. Volba absolutních četností nij (viz [97]) v 6.3 = 18 polích korelační tabulky je zřejmá z uvedené korelační tabulky. Ve 4. sloupci korelační tabulky bylo zapotřebí provést řádkové součty ni• (viz [98]) absolutních četností nij (viz [97]). Výsledky řádkových součtů absolutních četností daly hodnoty n1• = 19, n2• = 72, n3• = 95, n4• = 93, n5• = 41, n6• = 10. V 7. řádku korelační tabulky bylo mimo jiné zapotřebí provést sloupcové součty n•j (viz [98]) absolutních četností nij (viz [97]). Výsledky sloupcových součtů absolutních četností daly hodnoty n•1 = 119, n•2 = 185, n•3 = 26. 5. až 8. sloupec korelační tabulky již reaguje přímo na upravené normální rovnice [105c], které vycházely z odlišných počtů prvků škály u statistických znaků SZ-x a SZ-s. Vzhledem k upraveným normálním rovnicím [105c] by bylo zapotřebí v 5. až 8. sloupci korelační tabulky (tyto sloupce v korelační tabulce nejsou uvedeny) nalézt hodnoty dané výrazy xi ni • , xi2 ni •,
3
3
j =1
j =1
∑ s j nij , xi ∑ s j nij .
218
Rovněž 5. až 8. sloupec korelační tabulky by bylo zapotřebí v 7. řádku korelační tabulky sečíst.
Ad b) Upravené normální rovnice Upravené normální rovnice [105c] měly pro řešené konkrétní zadání tvary (t = 6, u = 3) u =3
u =3
t =6
j =1
j =1
i =1
∑ s j n• j = b0 ∑ n• j + b1 ∑ xi ni•
t =6 u =3
t =6
∑ ∑ x s nij = b ∑ x n i =1
j =1
i j
0
i =1
i i•
t =6
+ b1 ∑ xi2 ni• i =1
Po dosazení hodnot z korelační tabulky do těchto upravených tvarů normálních rovnic byly získány rovnice 567 = b0 330 + b11085 1963 = b01085 + b1 4036
Ad c) Analytické vyjádření regresní přímky Řešením upravených normálních rovnic ve tvarech po dosazení hodnot z korelační tabulky byly získány přibližné bodové odhady regresních parametrů b0 a b1 (viz [103]) b0 = 1,02, b1 = 0,21 Pro prognózování hodnot SZ-s bude použita lineární regresní funkce y = b0 + b1 x ve tvaru y = 1,02 + 0,21 x.
219
13.3.7 Korelační analýza – Lineární korelační závislost Příklad – zadání: Výsledky testů ze dvou předmětů zjištěné u 8 náhodně vybraných studentů bakalářského studijního oboru se zdravotně sociálním zaměřením byly následující:
počet bodů xi z 1. testu
80
50
36
58
72
60
56
68
65
60
35
39
48
44
48
61
statistický znak SZ-x
počet bodů si z 2. testu statistický znak SZ-x
Na základě použití korelační analýzy je zapotřebí splnit následující zadání: a) Odhadnout parametry sdružených regresních přímek a určení nejlepšího odhadu jednak počtu bodů z 2. testu u studenta, který v 1. testu dosáhl 90 bodů, jednak počtu bodů z 1. testu u studenta, který v 2. testu získal 10 bodů. b) Charakterizovat těsnost lineární korelační závislosti výsledků obou testů a ověřit vztah pro koeficient korelace kxs. c) Zkonstruovat 95% interval spolehlivosti pro koeficient korelace kxs udávající těsnost závislosti výsledků z obou testů v souboru všech studentů daného bakalářského oboru. d) Testovat pro α = 0,05 hypotézu, že neexistuje lineární korelační závislost mezi výsledky obou testů.
Příklad – řešení: Ad a) Sdružené regresní přímky, nejlepší odhady Sdružené regresní přímky mají obecné rovnice [109] y1 = b01 + b11 x, y2 = b02 + b12 s.
220
Po dosazení do vztahů [109a] pro regresní parametry lze obdržet hodnoty b11=0,50, b12=0,78, b01=19,91, b02=20,88. Sdružené regresní přímky jsou analyticky vyjádřeny rovnicemi y1 = 19, 91 + 0,50 x, y2 = 20,88 + 0, 78s. Nejlepší odhady lze získat dosazením do rovnic sdružených regresních přímek. Dosazením x = 90 do rovnice y1 = 19, 91 + 0,50 x lze obdržet hodnotu y1 = 64,91. Dosazením s = 10 do rovnice y2 = 20,88 + 0, 78s lze obdržet hodnotu y2 = 28,68. U studentů, kteří dosáhli v prvním testu 90 bodů, lze v druhém testu očekávat průměrně 65 bodů. U studentů, kteří dosáhli v druhém testu 10 bodů, lze očekávat v druhém testu průměrně 29 bodů.
Ad b) Koeficient korelace kxs Užitím vztahu [111] pro výpočet koeficientu korelace kxs
k xs =
n∑ xi si − ∑ xi ∑ si
n x 2 − ( x )2 n s 2 − ( s ) 2 ∑ i ∑ i ∑ i ∑ i
lze po dosazení získat hodnotu kxs = 0,63. Výsledek lze ověřit vztahem [110] kxs2 = b11 b12 pro vztah mezi kvadrátem koeficientu korelace kxs2 a sdruženými regresními parametry b11, b12 – po dosazení, odmocnění a zaokrouhlení lze obdržet obdobný výsledek kxs = 0,62. Výsledek kxs = 0,63 ukazuje na slabou pozitivní lineární korelační závislost mezi bodovými výsledky 1. testu a 2. testu. Tento ukazatel je zapotřebí ověřit testem významnosti korelačního koeficientu kxs.
221
Ad c) Interval spolehlivosti pro koeficient korelace kxs Při konstruování intervalu spolehlivosti pro koeficient korelace kxs je v rámci intervalového odhadu používána veličina z ve tvaru [112] z=
1 1 + k xs ln . 2 1 − k xs
Po dosazení kxs = 0,63 lze získat přibližnou hodnotu z = 0,74. Interval spolehlivosti pro intervalový odhad zIO veličiny z je dán intervalem [112b] a obsahuje teoretickou hodnotu
u (α 2 ) testového kritéria [112a] pro u-test:
( )
( ) .
u α u α 2 2 z IO ∈ z − ;z+ n−3 n−3
Ve statistických tabulkách lze nalézt teoretickou hodnotu testového kritéria (hladina statistické významnosti α = 0,05) u (α 2 ) = u(0,025) = 1,96. Po dosazení n = 8 a po zaokrouhlení lze obdržet 95% interval spolehlivosti a intervalový odhad zIO veličiny z ve tvaru zIO ∈ ( −0,135; 1,615 ) . Pomocí speciálních statistických tabulek lze zpětnou transformací obdržet po zaokrouhlení 95% interval spolehlivosti pro intervalový odhad kxs,IO koeficientu korelace kxs ve tvaru kxs,IO є (-0,14; 0,92). Přílišná šíře intervalu je dána příliš malým rozsahem n = 8 výběrového statistického souboru.
Ad d) Test významnosti koeficientu korelace kxs Bude použit t-test s tvarem testového kritéria [113] pro experimentální hodnotu texp texp =
k xs 1 − k xs 2
n − 2.
Po dosazení a po zaokrouhlení vychází experimentální hodnota texp = 1,99.
222
Ve statistických tabulkách lze pro n – 2 = 6 stupňů volnosti nalézt teoretickou hodnotu tteor testového kritéria tteor = t6(0,025) = 2,45. Odtud plyne tvar kritického oboru W [113a] v podobě
W = ( −∞; − 2, 45) ∪ ( 2, 45; ∞ ) .
Jelikož experimentální hodnota texp testového kritéria není prvkem kritického oboru W, nelze zamítnout nulovou hypotézu H0: kxs = 0. Pro rozsah n = 8 výběrového statistického souboru se nepodařilo prokázat existenci závislosti mezi výsledky obou testů. K testování významnosti koeficientu korelace kxs mohl být rovněž použit F-test [114] s podobou kritického oboru W [114a].
13.3.8 Korelační analýza – Pořadová korelace Příklad – zadání: Na základě údajů o 15 náhodně vybraných nemocnicích byla sestavena tabulka s údaji o pořadí nemocnic v oblasti podílu výdajů nemocnice na služby a v oblasti vybavenosti nemocnice špičkovou technikou. Je zapotřebí ověřit nulovou hypotézu H0, že podíl výdajů nemocnice na služby (statistický znak SZ-s) nezávisí na vybavenosti nemocnic špičkovou technikou (statistický znak SZ-x). Alternativní hypotéza Ha naopak předpokládá, že podíl výdajů na služby s rostoucí vybaveností klesá.
223
Tabulka o pořadí nemocnic má následující podobu: nemocnice
pořadí ix dle vybavenosti
pořadí is podle podílu výdajů na služby
1
1 → ix = 1
12 → is = 12
2
2 → ix = 2
7 → is = 7
3
3-4 → ix = 3,5
3 → is = 3
4
3-4 → ix = 3,5
10 → is = 10
5
5 → ix = 5
14 → is = 14
6
6 → ix = 6
13 → is = 13
7
7 → ix = 7
8 → is = 8
8
8 → ix = 8
4 → is = 4
9
9 → ix = 9
1 → is = 1
10
10-12 → ix = 11
6 → is = 6
11
10-12 → ix = 11
15 → is = 15
12
10-12 → ix = 11
2 → is = 2
13
13 → ix = 13
9 → is = 9
14
14 → ix = 14
11 → is = 11
15
15 → ix = 15
5 → is = 5
Příklad – řešení: V rámci řešení příkladu bude nejdříve konstatováno, že korelační analýza statistických znaků SZ-x a SZ-s má charakter pořadové korelace. Pořadová korelace je spojena se Spearmanovým koeficientem korelace Skxs ve tvarech [115] a [115a]. Vzhledem k opakování některých hodnot statistického znaku SZ-x bude použit Spearmanův koeficient korelace Skxs ve tvaru [115a]
224
Sk xs = 1 −
6∑ ( ix − is )
(n
3
2
− n) − c
, c=
1 (nx , k 3 − nx ,k ) + ∑ (ns ,k ′3 − ns ,k ′ ) . ∑ 2 k k′
Po výpočtu Spearmanova koeficientu korelace Skxs bude k ověření nulové hypotézy H0 nebo alternativní hypotézy Ha použit t-test významnosti Spearmanova koeficientu korelace ve tvaru [116] texp =
Sk xs 1 − Sk xs 2
n − 2.
U t-testu bude využit pravostranný kritický obor W. Tento kritický obor lze získat úpravou kritického oboru [113a]
( 2 ) ) ∪ ( t (α 2 ) ; ∞ )
(
W = −∞; −tn − 2 α
n− 2
na pravostranný tvar W = ( tn − 2 (α ) ; ∞ ) .
a) Výpočet Spearmanova koeficientu korelace Skxs Opravný člen c ve výrazu [115a] bude mít hodnotu c = ½ [(23 – 2) + (33 – 3)] = 15, po dosazení do tvaru [115a] Spearmanova koeficientu korelace Skxs lze obdržet hodnotu Sk xs = 1 −
6.646, 5 = −0,16. (153 − 15) − 15
b) Test významnosti Spearmanova koeficientu korelace Skxs Test významnosti bude realizován t-testem ve tvaru [116]. Po dosazení do experimentální hodnoty texp testového kritéria lze získat hodnotu texp =
Sk xs 1 − Sk xs 2
n−2 =
−0,16 1 − 0,162
225
15 − 2 = −0,584.
Teoretickou hodnotu tteor testového kritéria lze nalézt ve statistických tabulkách na základě volby hladiny statistické významnosti α = 0,05 a na základě počtu stupňů volnosti n – 2 = 13
tteor = tn − 2 (α ) = t13 ( 0, 05) = 1, 77. Pravostranný kritický obor W bude mít podobu W = ( tn − 2 (α ) ; ∞ ) = (1, 77; ∞ ) .
Experimentální hodnota texp = −0,584 není prvkem pravostranného kritického oboru W, nelze zamítnout nulovou hypotézu H0: Skxs = 0. Nelze tvrdit, že podíl výdajů na služby statistický znak SZ-s) klesá s rostoucí vybaveností nemocnic špičkovou technikou (statistický znak SZ-x).
226
13.4 Aplikace ve zdravotnictví – Ilustrace sledování výskytu zhoubných nádorů V tabulce Tab. 14 je uveden výsledek prvních tří kroků algoritmu statistického zpracování sledování výskytu zhoubných nádorů prostaty v hypotetickém okrese OKR v letech 1977-1991. V heslovité podobě je pak popsán proces přímé a nepřímé standardizace naměřených dat. i
ai
pi
ri
wi
ei
D(ASR)
Ai
Pi
si
oi
1 (0-4)
0
85782
0
12000
0
0
0
5781539
0
0
2 (5-9)
0
92901
0
10000
0
0
0
6227616
0
0
3 (10-14)
0
94178
0
9000
0
0
1
6135921
0,016
0
4 (15-19)
0
87053
0
9000
0
0
1
5533264
0,018
0
5 (20-24)
0
84062
0
8000
0
0
5
5365873
0,093
0,1
6 (25-29)
0
84299
0
8000
0
0
6
5716047
0,105
0,1
7 (30-34)
0
90630
0
6000
0
0
2
6130386
0,033
0
8 (35-39)
0
90209
0
6000
0
0
11
5913041
0,186
0,2
9 (40-44)
0
80028
0
6000
0
0
18
5070857
0,355
0,3
10 (45-49)
4
68255
5,86
6000
0,4
309096117,575
114
4346864
2,623
1,8
11 (50-54)
5
63645
7,865
5000
0,4
308589703,642
352
4118882
8,546
5,4
12 (55-59)
11
62890
17,491
4000
0,7
444989207,874
1047
4056440
25,811
16,2
13 (60-64)
30
52711
56,914
4000
2,3
1727582223,006
2235
3308902
67,545
35,6
14 (65-69)
56
45731
122,455
3000
3,7
2409956147,4
3884
2764781 104,481
64,2
15 (70-74)
89
37756
235,724
2000
4,74
2497342126,477 51435 2185719
16 (75-79)
73
27431
266,122
1000
2,7
970151545,419
5084
1529208 332,460
91,2
17 (80-84)
39
12905
302,208
500
1,5
585448365,631
2484
687692
361,935
46,7
9
5154
174,622
500
0,9
847020047,948
765
252668
302,769
18 (85-90)
Σ316 Σ1165620
235,3
Σ100000 Σ17,2 Σ10100175484,972 Σ21157 Σ75125710
88,8
15,6 Σ366,3
Tab. 14: Sledování výskytu zhoubných nádorů v okrese OKR 1977-1991.
Přímá standardizace Popis příslušných sloupců tabulky Tab. 14:
i - věkové kategorie; ai - absolutní počet zhoubných nádorů v okrese OKR = absolutní incidence (AN), počet nových nádorů prostaty 1977- 91;
227
pi - počet člověkoroků v okrese OKR, počet mužů po celé sledované období; ri - věkově specifické incidence, jedna z relativních incidencí.
ai ∗ 10 5 , vypovídá o počtu pi
nových zhoubných nádorů na 100 tis. obyvatel v dané kategorii;
wi - počet obyvatel v i-té věkové kategorii standardu, světová standardní populace z počtu 100 tis. obyvatel;
ei - očekávaný počet případů ve standardu.
ri ∗ wi ; 10 5
D(ASR) - rozptyl přímé standardizace (ASR je označení teoretického ukazatele přímé standardizace).
Teoretický ukazatel přímé standardizace, hrubá incidence: Teoretický ukazatel ASR =
∑e ∑w
i
.105, standardizovaná incidence se vypočte jako i
podíl celkového počtu případů zhoubných nádorů prostaty ve standardu (Σei) a počtu osob ve standardu (Σwi), který je násoben 105. Ukazatel ASR vyjadřuje, jaký by byl počet případů onemocnění na 105 obyvatel, kdyby zkoumaná populace měla stejnou věkovou strukturu jako populace standardní. D(ASR) - rozptyl přímé standardizace
Hrubá incidence CR =
∑a ∑p
i
ri .w i2 .10 5 . pi
.105, i = 1,2,3,…..,A , A = 18.
i
Aplikace statistických metod: Elementární statistické zpracování – výpočet rozptylu D, směrodatné odchylky σ: D(ASR) =
∑ r w 10 (∑ w ) i
2 i
2
5
,σ=
D(ASR) , D( x ) =
i
228
D(x) 1 ∧ D(x) = Σ(xi - x )2. n n
Parametrické testování - intervalový odhad ukazatele ASR. Hranice intervalu spolehlivosti pro ukazatel ASR prostřednictvím u-testu α = 0,05 ⇒ 95 % interval spolehlivosti
ASR - u(α/2)σ, ASR + u(α/2)σ
.
Výpočty pro přímou standardizaci: Hrubá incidence: CR =
∑a ∑p
i
.105 =
i
316 .105 = 27,11. 1165620
V okrese OKR připadlo v období 1977-91 na 100 tis. mužů 27,11 nových případů zhoubných nádorů prostaty.
Věkově specifická incidence: r15 =
a 15 89 .105 = 235,724 . 105 = p15 37756
V okrese OKR připadlo v období 1977- 91 na 100 tis. mužů ve věku 70 - 74 let zhruba 235,724 případů zhoubných nádorů prostaty.
Očekávaný počet zhoubných nádorů ve standardu e15: e15 =
r15 235,724 .w15 = . 2000 = 4,7. 5 10 10 5
Jestliže na 37756 mužů ve věku 70- 74 let z okresu OKR připadá 89 případů zhoubných nádorů prostaty, pak při zachování tohoto poměru by z 2000 osob téhož věku u standardní populace bylo těchto případů 4,7.
Standardizovaná incidence ASR: ASR =
∑e ∑w
i
. 105 = i
229
17,2 . 105 = 17,2. 100000
Stejným způsobem by se ASR spočítalo i pro další okresy (či jiné územně správní jednotky) a porovnaly by se. Menší ASR znamená menší frekvenci výskytu sledované nemoci v příslušné oblasti, respektive populaci.
Směrodatná odchylka ASR a 95% intervalu spolehlivosti: σ=
D(ASR) =
10100175484,972
(10 )
5 2
= 1,01.
17,2 - u(α/2).1,1 = 17,2 - u(0,025).1,1 = 17,2 - 1,96.1,1 = 15,22 17,2 + u(α/2).1,1 = 17,2 + u(0,025).1,1 = 17,2 + 1,96.1,1 = 19,18 Skutečná hodnota ASR charakterizuje výskyt zhoubných nádorů prostaty s 95 % přesností v intervalu
15.22 , 19.18 .
Nepřímá standardizace Popis příslušných sloupců tabulky Tab. 14:
Ai - absolutní počet nových případů zhoubných nádorů prostaty pro celou ČR; Pi - počet člověkoroků v celé ČR = počet mužů v ČR; si - specifická incidence v intervalu si =
ai ∗ 10 5 ; pi
oi - očekávaný počet případů onemocnění v i-té kategorii sledované populace (okresu OKR).
Teoretický ukazatel nepřímé standardizace: SIR = ukazatel nepřímé standardizace se udává v % a vyjadřuje o kolik % je skutečná incidence srovnávané populace menší či větší než incidence ve standardní populaci; porovnává skutečný a očekávaný počet zhoubných nádorů prostaty v exponované populaci. Vztah pro SIR =
230
∑a ∑o
i i
. 100.
Aplikace statistických metod: Rozptyl SIR = D(SIR) =
∑a ( ∑o ) i
2
. 102
i
Směrodatná odchylka SIR = σ =
D(SIR)
SIR - u(α/2)σ, SIR + u(α/2)σ
99% interval spolehlivosti
Výpočty pro nepřímou standardizaci: Očekávaný počet nemocných v exponované populaci pro věkovou skupinu 70-74: o15 =
si 235,3 . pi = . 37756 = 88,8. 5 10 10 5
Znamená to, že při stejné frekvenci výskytu nových případů zhoubných nádorů prostaty jako ve standardní populaci by se v okrese OKR vyskytlo za sledované období ve věkové kategorii 70-74 let toto onemocnění u 88,8 mužů.
Ukazatel nepřímé standardizace: SIR =
∑a ∑o
i
.100 =
i
316 . 100 = 86,27 %. 366,3
Znamená to, že skutečný počet případů zhoubných nádorů prostaty v okrese OKR činí oproti situaci v celé ČR pouze 86,26 %.
Směrodatná odchylka SIR a 99 % interval spolehlivosti: σ=
D(SIR) =
∑a ∑o
i 2 i
.10 2 =
316 . 102 = 4,85. 2 366,3
SIR - u(α/2)σ, SIR + u(α/2)σ 86,27 - u(α/2) . 4,85 = 86,27 - u(0,025) . 4,85 = 86,27 – 2,576 . 2,576 = 73,76 86,27 + u(α/2) . 4,85 = 86,27 + u(0,025) . 4,85 = 86,27 + 2,576 . 2,576 = 98,74
231
⇒ interval spolehlivosti
73,76; 98,74 .
Parametr SIR leží s 99 % pravděpodobností uvnitř intervalu. Číslo 100 není prvkem intervalu ⇒ výrazně nižší výskyt zhoubných nádorů prostaty v okrese OKR, než je celostátní průměr.
232
ČÁST C
STATISTICKÉ TABULKY
Tabulka I.: Hodnoty distribuční funkce normovaného normálního rozdělení
u
F(u)
u
F(u)
u
F(u)
u
F(u)
0,00 0,01 0,02 0,03 0,04
0,500 00 0,503 99 0,507 98 0,511 97 0,515 95
0,35 0,36 0,37 0,38 0,39
0,636 83 0,640 58 0,644 31 0,648 03 0,651 73
0,70 0,71 0,72 0,73 0,74
0,758 04 0,761 15 0,764 24 0,767 30 0,770 35
1,05 1,06 1,07 1,08 1,09
0,853 14 0,855 43 0,857 69 0,859 93 0,862 14
0,05 0,06 0,07 0,08 0,09
0,519 94 0,523 92 0,527 90 0,531 88 0,535 86
0,40 0,41 0,42 0,43 0,44
0,655 42 0,659 10 0,662 76 0,666 40 0,670 03
0,75 0,76 0,77 0,78 0,79
0,773 77 0,776 37 0,779 35 0,782 30 0,785 24
1,10 1,11 1,12 1,13 1,14
0,864 33 0,866 50 0,868 64 0,870 76 0,872 86
0,10 0,11 0,12 0,13 0,14
0,539 83 0,543 80 0,547 76 0,551 72 0,555 67
0,45 0,46 0,47 0,48 0,49
0,673 64 0,677 24 0,680 82 0,684 39 0,687 93
0,80 0,81 0,82 0,83 0,84
0,788 14 0,791 03 0,793 89 0,796 73 0,799 55
1,15 1,16 1,17 1,18 1,19
0,874 93 0,876 98 0,879 00 0,881 00 0,882 98
0,15 0,16 0,17 0,18 0,19
0,559 62 0,563 56 0,567 49 0,571 42 0,575 35
0,50 0,51 0,52 0,53 0,54
0,691 46 0,694 97 0,698 47 0,701 94 0,705 40
0,85 0,86 0,87 0,88 0,89
0,802 34 0,805 11 0,807 85 0,810 57 0,813 27
1,20 1,21 1,22 1,23 1,24
0,884 93 0,886 86 0,888 77 0,890 65 0,892 51
0,20 0,21 0,22 0,23 0,24
0,579 26 0,583 17 0,587 06 0,590 95 0,594 83
0,55 0,56 0,57 0,58 0,59
0,708 84 0,712 26 0,715 66 0,719 04 0,722 40
0,90 0,91 0,92 0,93 0,94
0,815 94 0,818 59 0,821 21 0,823 81 0,826 39
1,25 1,26 1,27 1,28 1,29
0,894 35 0,896 17 0,897 96 0,899 73 0,901 47
0,25 0,26 0,27 0,28 0,29
0,598 71 0,602 57 0,606 42 0,610 26 0,614 09
0,60 0,61 0,62 0,63 0,64
0,725 75 0,729 07 0,732 37 0,735 65 0,738 91
0,95 0,96 0,97 0,98 0,99
0,828 94 0,831 47 0,833 98 0,836 46 0,838 91
1,30 1,31 1,32 1,33 1,34
0,903 20 0,904 90 0,906 58 0,908 24 0,909 88
0,30 0,31 0,32 0,33 0,34
0,617 91 0,621 72 0,625 52 0,629 30 0,633 07
0,65 0,66 0,67 0,68 0,69
0,742 15 0,745 37 0,748 57 0,751 75 0,754 90
1,00 1,01 1,02 1,03 1,04
0,841 34 0,843 75 0,846 14 0,848 50 0,850 83
1,35 1,36 1,37 1,38 1,39
0,911 49 0,913 09 0,914 66 0,916 21 0,917 74
233
u
F(u)
u
F(u)
u
F(u)
u
F(u)
1,40 1,41 1,42 1,43 1,44
0,919 24 0,920 73 0,922 20 0,923 64 0,925 07
1,85 1,86 1,87 1,88 1,89
0,967 84 0,968 56 0,969 26 0,969 95 0,970 62
2,30 2,31 2,32 2,33 2,34
0,989 28 0,989 56 0,989 83 0,990 10 0,990 36
3,00 3,02 3,04 3,06 3,08
0,998 65 0,998 74 0,998 82 0,998 89 0,998 97
1,45 1,46 1,47 1,48 1,49
0,926 47 0,927 86 0,929 22 0,930 56 0,931 89
1,90 1,91 1,92 1,93 1,94
0,971 28 0,971 93 0,972 57 0,973 20 0,973 81
2,35 2,36 2,37 2,38 2,39
0,990 61 0,990 86 0,991 11 0,991 34 0,991 58
3,10 3,12 3,14 3,16 3,18
0,999 03 0,999 16 0,999 16 0,999 21 0,999 26
1,50 1,51 1,52 1,53 1,54
0,933 19 0,934 48 0,935 74 0,936 99 0,938 22
1,95 1,96 1,97 1,98 1,99
0,974 41 0,975 00 0,975 58 0,976 15 0,976 70
2,40 2,41 2,42 2,43 2,44
0,991 80 0,992 02 0,992 24 0,992 45 0,992 66
3,20 3,22 3,24 3,26 3,28
0,999 31 0,999 36 0,999 40 0,999 44 0,999 48
1,55 1,56 1,57 1,58 1,59
0,939 43 0,940 62 0,941 79 0,942 95 0,944 08
2,00 2,01 2,02 2,03 2,04
0,977 25 0,977 78 0,978 31 0,978 82 0,979 32
2,45 2,46 2,47 2,48 2,49
0,992 86 0,993 05 0,993 05 0,993 43 0,993 48
3,30 3,32 3,34 3,36 3,38
0,999 52 0,999 55 0,999 58 0,999 61 0,999 64
1,60 1,61 1,62 1,63 1,64
0,945 20 0,946 30 0,947 38 0,948 45 0,949 50
2,05 2,06 2,07 2,08 2,09
0,979 82 0,980 30 0,980 77 0,981 24 0,981 69
2,50 2,52 2,54 2,56 2,58
0,993 79 0,994 13 0,994 46 0,994 77 0,995 06
3,40 3,42 3,44 3,46 3,48
0,999 66 0,999 69 0,999 71 0,999 73 0,999 75
1,65 1,66 1,67 1,68 1,69
0,950 53 0,951 54 0,952 54 0,953 52 0,954 49
2,10 2,11 2,12 2,13 2,14
0,982 14 0,982 57 0,983 00 0,983 41 0,983 82
2,60 2,62 2,64 2,66 2,68
0,995 34 0,995 60 0,995 85 0,996 09 0,996 32
3,50 3,55 3,60 3,65 3,70
0,999 77 0,999 81 0,999 84 0,999 87 0,999 89
1,70 1,71 1,72 1,73 1,74
0,955 43 0,956 37 0,957 28 0,958 18 0,959 07
2,15 2,16 2,17 2,18 2,19
0,984 22 0,984 61 0,985 00 0,985 37 0,985 74
2,70 2,72 2,74 2,76 2,78
0,996 53 0,996 74 0,996 93 0,997 11 0,997 28
3,75 3,80 3,85 3,90 3,95
0,999 91 0,999 93 0,999 94 0,999 95 0,999 96
1,75 1,76 1,77 1,78 1,79
0,959 94 0,960 80 0,961 64 0,962 46 0,963 27
2,20 2,21 2,22 2,23 2,24
0,986 10 0,986 45 0,986 79 0,987 13 0,987 45
2,80 2,82 2,84 2,86 2,88
0,997 44 0,997 60 0,997 74 0,997 88 0,998 01
4,00 4,05 4,10 4,15 4,20
0,999 97 0,999 97 0,999 98 0,999 98 0,999 99
234
u 1,80 1,81 1,82 1,83 1,84
F(u) 0,964 07 0,964 85 0,965 62 0,966 38 0,967 12
u 2,25 2,26 2,27 2,28 2,29
F(u) 0,987 78 0,988 09 0,988 40 0,988 70 0,988 99
u 2,90 2,92 2,94 2,96 2,98
235
F(u) 0,998 13 0,998 25 0,998 36 0,998 46 0,998 56
u 4,25 4,30 4,35 4,40 4,45
F(u) 0,999 99 0,999 99 0,999 99 0,999 99 1,000 00
Tabulka II.: Kritické hodnoty u – testu
α
0,20
0,10
0,05
0,025
0,01
0,005
u(α)
0,842
1,282
1,645
1,960
2,326
2,576
236
Tabulka III.: Kritické hodnoty tν t – testu
ν
α
1 2 3 4 5
0,05 6,31 2,92 2,35 2,13 2,02
0,025 12,71 4,30 3,18 2,78 2,57
0,01 31,82 6,96 4,54 3,75 3,36
0,005 63,66 9,92 5,84 4,60 4,03
6 7 8 9 10
1,94 1,90 1,86 1,03 1,81
2,45 2,36 2,31 2,26 2,23
3,14 3,00 2,90 2,82 2,76
3,71 3,50 3,38 3,25 3,17
11 12 13 14 15
1,80 1,70 1,77 1,76 1,75
2,2 2,18 2,16 2,14 2,13
2,72 2,68 2,65 2,62 2,6
3,11 3,06 3,01 2,98 2,95
16 17 18 19 20
1,75 1,74 1,73 1,73 1,72
2,12 2,11 2,10 2,09 2,09
2,58 2,57 2,55 2,54 2,53
2,92 2,90 2,88 2,86 2,84
21 22 23 24 25
1,72 1,72 1,71 1,71 1,71
2,08 2,07 2,07 2,06 2,06
2,52 2,51 2,50 2,49 2,48
2,83 2,82 2,81 2,80 2,79
26 27 28 29 30
1,71 1,70 1,70 1,70 1,70
2,06 2,05 2,05 2,04 2,04
2,48 2,47 2,47 2,46 2,46
2,78 2,77 2,76 2,76 2,75
31 32 33
1,70 1,69 1,69
2,04 2,03 2,03
2,45 2,45 2,45
2,75 2,74 2,74
237
Tabulka IV.: Kritické hodnoty χ2 – testu
ν
α
1 2 3 4 5
0,995 0,00 0,01 0,07 0,21 0,41
0,975 0,00 0,05 0,22 0,48 0,83
0,05 3,84 5,99 7,81 9,49 11,07
0,025 5,02 7,38 9,35 11,14 12,83
0,01 6,63 9,21 11,34 13,28 15,09
0,005 7,88 10,6 12,84 14,86 16,75
6 7 8 9 10
0,68 0,99 1,34 1,73 2,16
1,24 1,69 2,18 2,7 3,25
12,59 14,07 15,51 16,92 18,31
14,45 16,01 17,52 19,02 20,48
16,81 18,48 20,09 21,67 23,21
18,55 20,28 21,45 23,59 25,19
11 12 13 14 15
2,60 3,07 3,57 4,07 4,60
3,82 4,40 5,01 5,63 6,26
19,68 21,03 22,36 23,68 25,00
21,92 23,34 24,74 26,12 27,49
24,72 26,22 27,69 29,14 30,58
26,76 28,30 29,82 31,32 32,80
16 17 18 19 20
5,14 5,70 6,26 6,84 7,43
6,91 7,56 8,23 8,91 9,59
26,3 27,59 28,87 30,14 31,41
28,85 30,19 31,53 32,85 34,17
32,00 33,41 34,81 36,19 37,57
34,27 35,72 37,16 38,58 40,00
21 22 23 24 25
8,03 8,64 9,26 9,89 10,52
10,28 10,98 11,69 12,40 13,12
32,67 33,92 35,17 36,42 37,65
35,46 36,76 38,08 39,36 40,65
38,93 40,29 41,64 42,98 44,31
41,40 42,80 44,18 45,56 46,93
30 35 40 45 50
13,79 17,19 20,71 27,99 34,31
16,79 20,57 24,43 23,57 32,36
43,77 49,80 55,76 61,66 67,5
46,98 53,2 59,34 65,41 71,42
50,89 57,34 63,69 69,96 76,15
53,67 60,27 66,70 73,17 79,49
60 70 80 90 100
35,53 43,28 51,17 59,20 67,33
40,46 48,76 57,15 65,65 74,22
79,46 90,58 101,88 113,15 124,34
83,30 95,02 106,63 118,14 129,56
38,38 100,43 112,33 124,12 135,81
91,95 104,21 116,32 128,30 140,17
238
5,99 5,59 5,32 5,12 4,96
4,84 4,75 4,67 4,60 4,64
11 12 13 14 15
1 161 18,5 10,1 7,71 6,91
6 7 8 9 10
1 2 3 4 5
ν
3,98 3,89 3,81 3,74 3,68
5,14 4,74 4,46 4,26 4,10
2 200 19,0 9,55 6,94 5,79
3,59 3,49 3,41 3,64 3,29
4,76 4,35 4,07 3,86 3,71
3 213 19,2 9,28 6,95 5,41
3,36 3,26 3,18 3,11 3,06
4,53 4,12 3,84 3,63 3,48
4 225 19,2 9,12 6,39 5,19
3,20 3,11 3,03 2,96 2,90
4,39 3,97 3,69 3,48 3,33
5 230 19,3 9,01 6,26 5,05
Tabulka V.: Kritické hodnoty F – testu pro α = 0,05
3,09 3,00 2,92 2,85 2,79
4,28 3,87 3,58 3,37 3,22
6 234 19,3 8,94 6,16 4,95
-239-
3,01 2,91 2,83 2,76 2,71
4,21 3,79 3,50 3,29 3,14
7 237 19,4 8,89 6,09 4,88
µ
2,95 2,85 2,77 2,7 2,64
4,15 3,73 3,44 3,23 3,07
8 239 19,4 8,85 6,04 4,82
2,90 2,80 2,71 2,65 2,59
4,10 3,68 3,39 3,18 3,02
9 241 19,4 8,81 6,00 4,77
2,85 2,75 2,67 2,60 2,54
4,06 3,64 3,35 3,14 2,98
10 242 19,4 8,79 5,96 4,74
2,65 2,54 2,46 2,39 2,33
3,87 3,44 3,15 2,94 2,77
20 248 19,4 8,66 5,80 4,56
2,53 2,43 2,34 2,27 2,20
3,77 3,34 3,04 2,83 2,66
40 251 19,5 8,59 5,72 4,46
2,49 2,38 2,30 2,22 2,16
3,74 3,30 3,01 2,79 2,62
60 252 19,5 8,57 5,69 4,43
2,45 2,34 2,25 2,18 2,11
3,70 3,27 2,97 2,75 2,58
120 253 19,5 8,55 5,66 4,40
1 4,49 4,45 4,41 4,38 4,35
4,32 4,30 4,28 4,26 4,24
4,23 4,21 4,20 4,18 4,17
4,08 4,00 3,92
16 17 18 19 20
21 22 23 24 25
26 27 28 29 30
40 60 120
ν
3,23 3,15 3,07
3,37 3,35 3,34 3,33 3,32
3,47 3,44 3,42 3,40 3,39
2 3,63 3,59 3,55 3,52 3,49
2,84 2,76 2,68
2,98 2,96 2,95 2,93 2,92
3,07 3,05 3,03 3,01 2,92
3 3,24 3,20 3,16 3,13 3,10
2,61 2,53 2,45
2,74 2,73 2,71 2,70 2,69
2,84 2,82 2,80 2,78 2,76
4 3,01 2,96 2,93 2,9 2,87
2,45 2,37 2,29
2,59 2,57 2,56 2,55 2,53
2,68 2,66 2,64 2,62 2,60
5 2,85 2,81 2,77 2,74 2,71
Tabulka V.: Kritické hodnoty F – testu pro α = 0,05
2,34 2,25 2,17
2,47 2,46 2,45 2,43 2,42
2,57 2,55 2,53 2,51 2,49
6 2,74 2,70 2,66 2,63 2,60
-240-
2,25 2,17 2,09
2,39 2,37 2,36 2,35 2,33
2,49 2,46 2,44 2,42 2,40
7 2,66 2,61 2,58 2,54 2,51
µ
2,18 2,10 2,02
2,32 2,31 2,29 2,28 2,27
2,42 2,40 2,37 2,36 2,34
8 2,59 2,55 2,51 2,48 2,45
2,12 2,04 1,96
2,27 2,25 2,24 2,22 2,21
2,37 2,34 2,32 2,30 2,28
9 2,54 2,49 2,46 2,42 2,39
2,08 1,99 1,91
2,22 2,20 2,19 2,18 2,16
2,32 2,30 2,27 2,25 2,24
10 2,49 2,45 2,41 2,38 2,35
1,84 1,75 1,66
1,99 1,97 1,96 1,94 1,93
2,10 2,07 2,05 2,03 2,01
20 2,28 2,23 2,19 2,16 2,12
1,69 1,59 1,50
1,85 1,84 1,82 1,81 1,79
1,96 1,94 1,91 1,89 1,87
40 2,15 2,10 2,06 2,03 1,99
1,64 1,53 1,43
1,80 1,79 1,77 1,75 1,74
1,92 1,89 1,86 1,84 1,82
60 2,11 2,06 2,02 1,98 1,95
1,58 1,47 1,35
1,75 1,73 1,71 1,70 1,68
1,87 1,84 1,81 1,79 1,77
120 2,06 2,01 1,97 1,93 1,90
13,7 12,2 11,3 10,6 10
9,65 9,33 9,07 8,86 8,68
11 12 13 14 15
1 4050 998,5 34,1 21,2 16,3
6 7 8 9 10
1 2 3 4 5
ν
7,21 6,93 6,7 6,51 6,36
10,9 9,55 8,65 8,02 7,56
2 5000 99 30,8 18 13,3
6,22 5,95 5,74 5,56 5,42
9,78 8,45 7,59 6,99 6,55
3 5400 99,2 29,5 16,7 12,1
5,67 5,41 5,21 5,04 4,89
9,15 7,85 7,01 6,42 5,99
4 5620 99,2 28,7 16 11,4
5,32 5,06 4,86 4,69 4,56
8,75 7,46 6,63 6,06 5,64
5 5760 99,3 28,2 15,5 11
Tabulka VI.: Kritické hodnoty F – testu pro α = 0,01
5,07 4,82 4,62 4,46 4,32
8,47 7,19 6,37 5,8 5,39
6 5860 99,3 27,9 15,2 10,7
-241-
4,89 4,64 4,44 4,28 4,14
8,26 6,99 6,18 5,61 5,2
7 5930 99,4 27,7 15 10,5
µ
4,74 4,5 4,3 4,14 4
8,1 6,84 6,03 5,47 5,06
8 5980 99,4 27,5 14,8 10,3
4,63 4,39 4,19 4,03 3,39
7,98 6,72 5,91 5,35 4,94
9 6020 99,4 27,3 14,7 10,2
4,54 4,3 4,1 3,94 3,8
7,87 6,62 5,81 5,26 4,85
10 6060 99,4 27,2 14,5 10,1
4,1 3,86 3,66 3,51 3,37
7,4 6,16 5,36 4,81 4,41
20 6210 99,4 26,7 14 9,55
3,86 3,62 3,43 3,27 3,13
7,14 5,91 5,12 4,57 4,17
40 6290 99,5 26,4 13,7 9,2
3,78 3,54 3,34 3,18 3,05
7,06 5,82 5,03 4,48 4,08
60 6310 99,5 26,3 13,7 9,2
3,69 3,45 3,25 3,09 2,96
6,97 5,74 4,95 4,4 4
120 6340 99,5 26,2 13,6 9,11
1 8,53 8,4 8,29 8,18 8,1
8,02 7,95 7,88 7,82 7,77
7,72 7,68 7,64 7,6 7,56
7,31 7,08 6,85
16 17 18 19 20
21 22 23 24 25
26 27 28 29 30
40 60 120
ν
5,18 4,98 4,79
5,63 5,49 4,45 5,42 5,39
5,78 5,72 5,66 5,61 5,57
2 6,23 6,11 6,01 5,93 5,85
4,31 4,13 3,95
4,64 4,6 4,57 4,54 4,51
4,87 4,82 4,76 4,72 4,68
3 5,29 6,18 5,09 5,01 4,94
3,83 3,65 3,48
4,14 4,11 4,07 4,04 4,02
4,37 4,31 4,26 4,22 4,18
4 4,77 4,67 4,58 4,5 4,43
3,51 3,34 3,17
3,82 3,78 3,75 3,73 3,7
4,04 3,99 3,94 3,9 3,85
5 4,44 4,34 4,25 4,17 4,1
Tabulka VI.: Kritické hodnoty F – testu pro α = 0,01
3,29 3,12 2,96
3,59 3,56 3,53 3,5 3,47
3,81 3,76 3,71 3,67 3,63
6 4,2 4,1 4,01 3,94 3,87
-242-
3,12 2,95 2,79
3,42 3,39 3,36 3,33 3,3
3,64 3,59 3,54 3,5 3,46
7 4,03 3,93 3,84 3,77 3,7
µ
2,99 2,82 2,66
3,29 3,26 3,23 3,2 3,17
3,51 3,45 3,41 3,36 3,32
8 3,89 3,79 3,71 3,63 3,56
2,89 2,72 2,56
3,18 3,15 3,12 3,09 3,07
3,4 3,35 3,3 3,26 3,22
9 3,78 3,68 3,6 3,52 3,46
2,8 2,63 2,47
3,09 3,06 3,03 3 2,98
3,31 3,26 3,21 3,17 3,13
10 3,69 3,59 3,51 3,43 3,37
2,37 2,2 2,03
2,66 2,63 2,6 2,57 2,55
2,88 2,83 2,78 2,74 2,7
20 3,26 3,16 3,08 3 2,94
2,11 1,94 1,76
2,42 2,38 2,35 2,33 2,3
2,64 2,58 2,54 2,49 2,45
40 3,02 2,92 2,84 2,76 2,69
2,02 1,84 1,66
2,33 2,29 2,26 2,23 2,21
2,55 2,5 2,45 2,4 2,36
60 2,93 2,83 2,75 2,67 2,61
1,92 1,73 1,53
2,23 2,2 2,17 2,14 2,11
2,46 2,4 2,35 2,31 2,27
120 2,84 2,75 2,66 2,58 2,52
Tabulka VII.: Kritické hodnoty Kolmogorova-Smirnovova testu pro jeden výběr
dn;0,9
dn;0,95
dn;0,99
n
dn;0,9
dn;0,95
dn;0,99
1 2 3 4 5
0,950 0,776 0,636 0,565 0,509
0,975 0,842 0,708 0,624 0,563
0,995 0,929 0,829 0,734 0,669
26 27 28 29 30
0,233 0,229 0,225 0,221 0,218
0,259 0,254 0,250 0,246 0,242
0,311 0,305 0,300 0,295 0,290
6 7 8 9 10
0,468 0,436 0,410 0,387 0,369
0,519 0,483 0,454 0,430 0,409
0,617 0,576 0,542 0,513 0,489
31 32 33 34 35
0,214 0,211 0,208 0,205 0,202
0,238 0,234 0,231 0,227 0,224
0,285 0,281 0,277 0,273 0,269
11 12 13 14 15
0,352 0,338 0,325 0,314 0,304
0,391 0,375 0,361 0,349 0,338
0,468 0,449 0,432 0,418 0,404
36 37 38 39 40
0,199 0,196 0,194 0,191 0,189
0,221 0,218 0,215 0,213 0,210
0,265 0,262 0,258 0,255 0,252
16 17 18 19 20
0,295 0,286 0,279 0,271 0,265
0,327 0,318 0,309 0,301 0,294
0,392 0,380 0,371 0,361 0,352
41 42 43 44 45
0,187 0,185 0,183 0,181 0,179
0,208 0,205 0,203 0,201 0,198
0,249 0,246 0,243 0,241 0,238
21 22 23 24 25
0,259 0,253 0,247 0,242 0,238
0,287 0,281 0,275 0,269 0,264
0,344 0,337 0,330 0,323 0,317
46 47 48 49 50
0,177 0,175 0,173 0,171 0,170
0,196 0,194 0,192 0,190 0,188
0,235 0,233 0,231 0,228 0,226
Pro velká n platí přibližně: d n, 0,9 =
122 n
,
d n , 0,95 =
1,36 n
,
d n , 0,99 =
-243-
1,63 n
Tabulka VIII.: Kritické hodnoty Kolmogorova-Smirnovova testu pro výběry stejných rozsahů n
Kn;0,95
Kn;0,99
4 5 6 7 8 9 10
4 5 5 6 6 6 7
5 6 6 7 7 8
11 12 13 14 15 16 17 18 19 20
7 7 7 8 8 8 8 9 9 9
8 8 9 9 9 10 10 10 10 11
21 22 23 24 25 26 27 28 29 30
9 9 10 10 10 10 10 11 11 11
11 11 11 12 12 12 12 13 13 13
35
12
14
40
13
16
-244-
REJSTŘÍK absolutní četnost 19, 20, 23-25, 27, 40, 42-44, 66, 67, 72, 75-77, 86, 88, 90, 121, 122, 139, 141, 157, 176, 182-186, 190, 217, 218 absolutní metrická škála 17, 18, 27 alternativní hypotéza 40-42, 53, 54, 56, 58-60, 62, 121-124, 132-136, 141, 142, 153, 154, 158, 205, 223, 225 alternativní rozdělení 105, 128 ambulantní zdravotnická zařízení 171 analýza rozptylu 139-141, 148, 153, 208 aritmetický průměr 27, 29, 30, 36, 52, 65, 77, 88, 90, 91, 127, 176, 178, 204, 213 aritmetický průměr prostý 90 aritmetický průměr vážený 29, 91 Bayesova formule 100 binomické rozdělení 35-38, 105-110, 120, 179-184, 188-190, 193 biostatistika 155 bodový odhad 47-49, 56, 68, 70, 127-130, 139, 144, 145, 150, 151, 186, 199, 201, 203-205, 219 centrální limitní věta 37, 53, 117, 120, 131, 135, 151 centrální moment 27-30, 36, 48, 70, 73, 77, 83, 88, 91, 101-103, 117, 118, 134, 136, 157, 179, 185, 193, 196
Český statistický úřad 155, 167, 169, 174 demografie 156, 159-162 diskrétní náhodná veličina 34, 38, 82, 89, 90, 85-97, 128 diskrétní teoretické rozdělení 34, 35, 38, 82, 90, 95, 96, 105-109, 122, 130, 131, 184, 187, 198 distribuční funkce 34-37, 42, 49, 82, 89, 90, 95-97, 102, 122, 130, 131, 184, 187, 198 dvojvýběrové testování 53, 56, 57, 125, 133, 136 dvojvýběrový F-test 53, 56, 57, 61, 137 dvojvýběrový u-test 53, 56, 57, 137 dvojvýběrový t-test 53, 56, 57, 60, 137 ekonomické ukazatele zdravotnictví 156, 174 empirické rozdělení četností 22-27, 29-34, 38, 40-4245, 47, 53, 54, 64, 88, 90, 105, 120-122, 136, 157, 158, 182, 185, 187, 200, 203 empirický parametr 22, 23, 30, 38-40, 48, 54, 56, 70, 88, 90, 101, 120, 121, 129
-245-
empirický rozptyl 27-29, 51, 88 exces 29-31, 93 exponenciální rozdělení 117 Fisherovo-Snedecorovo rozdělení 40, 118, 119, 137, 141, 216 gama funkce 117, 118, 195-197 gama rozdělení 116-118, 195 Gaussova křivka 33, 36, 37, 42, 43, 49, 123, 164, 185 geometrická pravděpodobnost 96, 98, 180 geometrické rozdělení 107, 187 geometrický průměr 91 grafické vyjádření 22-24 harmonický průměr 91 hladina statistické významnosti α 41, 42, 130, 133, 136, 162, 222 hodnota statistického znaku 15, 27, 34, 79, 80, 82, 95, hromadný náhodný jev 15, 16, 20, 34,-36, 79, 81, 82, 94-96 hustota pravděpodobnosti 33, 36-40, 48, 82, 89, 90, 95-97, 102, 104, 111-119, 122, 127-130, 193-197, 201, 203, 205 hypergeometrické rozdělení 108, 109, 111, 188, 189
χ 2 -test dobré shody 40, 42, 44, 121, 122, 164, 183 index korelace 71 index stáří 159, 161 intervalové rozdělení četností 32, 33, 49, 42, 89 intervalový odhad 47, 50, 51, 65, 127, 130, 147, 151, 152, 212-214, 222, 229 interval spolehlivosti 50-52, 58-60, 118, 127, 130, 131, 147, 151, 152, 210, 212-215, 220, 222, 230, 231 jednoduchá lineární korelační analýza 70, 77 jednoduchá lineární regresní analýza 67, 68, 72, 76 jednoduchá kvadaratická korelační analýza 71 jednoduchá kvadratická regresní analýza 68, 69, 73-75 jednoduchá regresní závislost 64 jednorozměrný statistický soubor 16, 24, 33, 64 jednovýběrové parametrické testování 89, 96, 98, 180 jednovýběrový χ 2 -test 53-55, 58
-246-
jednovýběrový u-test 53, 54 jednovýběrový t-test 53-55, 58 klasická pravděpodobnost 89, 96, 98, 180 kojenecká úmrtnost 160, 166 koeficient korelace 70, 71, 103, 113, 114, 138, 150, 151, 220-222, 224 Kolmogorovův-Smirnovův test 123-125, 198-200 kontingenční tabulka 139, 141, 142 korelační tabulka 139, 141, 217-219 kovariance 71, 73, 92, 103 kritické hodnoty 41, 42, 45, 50-52, 54, 56, 58-62, 124, 125, 200, 203, 207, 209 kritický obor 41, 53-62, 121, 124, 133-137, 153, 154, 161, 164-166, 184, 187, 200, 203, 205, 207, 209, 215-217, 223, 225, 226 kumulativní četnost 19, 20, 23, 24, 35, 86-90, 105-108, 111, 112, 124, 176, 177, 199, 201 kvadratický průměr 91 kvantilové parametry 27, 79 kvantitativní metrická škála 17-20, 27 Laplaceova funkce 37, 42-44, 49 lognormální rozdělení 115, 116 lůžková zdravotnická zařízení 171, 172 median 27, 79, 80, 114 metoda maximální věrohodnosti 48, 129, 203 metoda nejmenších čtverců 66, 68, 144, 145, 150 mezinárodní klasifikace nemocí 156, 157 migrační přírůstek 159, 160 měření v empirické statistice 19, 20, 86, 87 míra variability 24, 148 modus 80 momentová metoda 48, 129 momentová vytvořující funkce 101, 104-110, 113-118, 179, 195, 196 momentové parametry 27, 28 multinomické rozdělení 109-111 náhodná veličina 34-38, 42, 49, 64-66, 70, 82, 83, 89-92, 94-97, 100-120, 127-129, 133136, 150, 179, 188, 193-196, 202, 204, 206
-247-
náhodný jev 96, 98-100, 105, 110 náhodný pokus 34, 35, 39, 81, 87, 94-96, 99-101, 108, 120 náhodný výběr 15, 16, 26, 36, 79-83, 123, 129, 167, 182, 184 Národní onkologický registr ČR 167 Národní zdravotnický informační system 167 narození mrtvého dítěte 159, 166 narození živého dítěte 159, 166 negativní binomické rozdělení 107, 108 negativní korelace 70, 150 nemoci z povolání 168, 169 neparametrická hypotéza 32, 40, 41, 45, 164 neparametrické testování 32, 33, 40-45, 47, 54, 46, 83, 87, 105, 121, 122, 125, 127, 132, 133, 136, 158, 182, 184-186, 198, 202, 207 nepodmíněná pravděpodobnost 98 nominální škála 17, 84 normální rozdělení 31, 33, 35-43, 48, 50-54, 56, 92, 105, 112-114, 118, 120-123, 127, 129, 131, 132, 134, 136, 149-153, 184-186, 198, 201-205, 211 normovací podmínka 87, 90, 107, 108, 111, 112, 192, 194 normovaná kovariance 71, 103 normovaná náhodná veličina 36, 42, 49, 92, 202 normované normální rozdělení 31, 36-38, 40, 42, 48, 49, 92, 112-114, 117, 195, 197, 201, 202 normované momenty 27-30, 88, 92, 93, 101-103, 157, 161, 190 novorozenecká úmrtnost 160, 166 nulová hypotéza 40, 41, 45, 53-62 obecné momenty 27-30, 36, 43, 48, 70, 88, 90-92, 101-103, 118, 128, 131, 134, 136, 151, 179, 181, 185, 186, 191-196 ordinální škála 17, 65, 84 parametr polohy 24-30, 38, 103 parametr proměnlivosti 26-31 parametr šikmosti 24-31, 88, 92, 103 parametr špičatosti 24, 27-31, 88, 92, 103 parametrická hypotéza 40, 41, 53, 54, 56, 83, 87, 122, 132-136, 158, 165, 205, 207 párový t-test 57
-248-
Pearsonovo χ 2 rozdělení 40, 164 Pearsonův koeficient korelace 70, 71, 73, 77 podmíněná pravděpodobnost 98-100 Poissonovo rozdělení 106, 136, 184-186, 189, 198 porodnost 159, 163 polygon četností 22, 24, 25, 45, 90 poměr determinace 71, 139-141, 147-151, 208-212 poměr korelace 141 pořadová korelace 65, 139, 153, 154, 223, 224 potrat 159, 163, 164 pozitivní korelace 70, 73 přirozený přírůstek 159, 160 pracovní neschopnost 169 pravděpodobnostní funkce 35, 38, 40, 82, 89, 90, 95-97, 102, 104-11, 122, 123, 127-130, 179-191, 198, 199 prvek škály 17-20, 23, 24, 27-31, 66-77, 79, 84-92, 122, 138-148, 149, 176, 177, 190, 217, 218 regrese 66, 68, 69, 72-73, 103, 148, 152 regresor 143, 144 regresní analýza 65-70, 75, 76, 87, 138, 139, 143, 144, 148, 149, 152, 158, 210, 217 regresní funkce 65-68, 71-74, 103, 143-150, 210, 212, 217, 219 regresní model 143-152, 210-212, 217 regresní parameter 65-69, 143-145, 147, 149, 150, 211, 212, 219, 220 regresní přímka 71, 72, 77, 144, 149-151, 210-217, 219, 220 relativní četnost 19, 20, 23, 24, 42-44, 77, 86-90, 105-112, 115-117, 121, 139, 151, 171, 181, 190 rovnoměrné rozdělení 111, 193, 194 rozptyl 27-29, 38, 47, 49-55, 58-61, 66, 88, 91, 92, 117, 120, 128, 137, 139-141, 149, 184, 185, 196, 199, 208 rozvodovost 159 sdružené regresní přímky 150, 220, 221 síť zdravotnických zařízení 156, 171, 172 sňatečnost 159 soukromé výdaje na zdravotnictví 174, 175 Spearmanův koeficient korelace 152, 154, 224
-249-
spojitá náhodná veličina 34, 36, 38, 82, 89, 95-97, 102, 104, 128 spojité teoretické rozdělení 34, 36, 38, 47, 90, 92, 95, 96, 105, 111, 112, 115-122, 125, 126, 130, 131, 186, 193, 201 standardizovaná úmrtnost 160, 165, 167 statistická jednotka 15-20, 26, 64, 66, 67, 72-83, 86, 95, 118, 125, 129, 138-141, 143, 147, 178, 180 statistická významnost 41, 45, 49, 50, 55, 58-62, 121, 130, 136, 152, 153, 182, 209, 222, 226 statistická závislost 64, 67, 68, 70, 72, 73, 86, 138, 139, 141, 142, 208 statistické tabulky 37, 40, 42, 44, 45, 52, 124, 152, 154, 183, 187, 200, 202, 203, 207, 209, 213-216, 222, 223, 226, 233-244 statistický znak 15-18, 20, 26-30, 33, 34, 49, 64-66, 68-77, 79-85, 89-91, 95, 101, 138-154, 176-178, 208-210, 213-218, 220, 223, 224 strom života 160 střední délka života 159, 162 střední hodnota 38, 47, 50, 52-55, 58, 66, 90, 92, 103, 104, 114, 119, 120, 128, 143, 147, 150, 181, 184, 195, 199, 210, 213 Studentovo rozdělení 40, 118, 119 stupně volnosti 42, 45, 52, 117-119, 137, 140, 154, 183, 187, 195, 207, 209, 216, 223, 226 Sturgesovo pravidlo 33, 85 škálování 17, 84, 85, 89-91, 122, 124, 145, 146, 151, 211 tabulka četností 23, 89, 139 teoretické parametry 35, 36, 38, 39, 42, 47, 48, 50, 54, 56, 92, 101, 103, 106-120, 123, 127-136, 184, 186, 195, 199, 201, 203 teoretické rozdělení 24, 31, 32, 34-36, 38, 40, 41, 45, 47, 48, 53, 82, 83, 89, 90, 92, 95-97, 102, 105136, 141, 150, 158, 184-186, 195, 198, 201, 207 test normality 40-42, 44, 47, 48, 53, 121, 132, 187 test významnosti 125, 153, 154, 222, 225 testové kritérium 40, 54, 56, 135, 153, 182, 186, 206, 207, 215, 216 t-test 40, 50, 52-58, 60, 135, 137, 147, 149, 153, 154, 210, 212-215, 222, 225 trinomické rozdělení 110, 111, 189-191, 193 úmrtí 159, 160, 162, 165-167 úmrtnost 157, 159, 160, 162, 163, 165-167 u-test 40, 50, 52-57, 135, 137, 151, 222 Ústav zdravotnických informací a statistiky 155
-250-
variační koeficient 27-30, 88, 91 variační rozpětí 80, 85, 91 veřejné výdaje na zdravotnictví 172, 174, 175 věrohodnostní funkce L 48, 127, 129, 130, 203-206 vícenásobná regresní závislost 64 vícerozměrný statistický soubor 16, 24, 64, 65, 158 vrozené vývojové vady 156, 157, 167, 168 výběrový statistický soubor 15-20, 22, 26, 27, 32-37, 39, 41, 43, 52, 54, 56-65, 70, 72, 73, 76, 77, 83, 85, 86, 91, 118, 122, 123, 125, 128-138, 141, 145, 146, 153, 154, 183, 205, 222, 223 základní statistický soubor 15-17, 26, 35, 41, 54-51, 80-83, 95, 122, 126, 132 zákon velkých čísel 38, 120 zdravotnická statistika 155, 156, 163, 171, 172 zdravotní stav 156, 157, 162, 167-169 zhoubné nádory 167 zvláštní zdravotnická zařízení 171
-251-
LITERATURA
Arlt, J., Arltová, M. (2009). Ekonomické časové řady. Praha: Professional Publishing. ISBN 978-80-86946-85-6 Baglivo, J. (2005). Mathematica Laboratories for Mathematical Statistics: Emphazing Simulation and Computer Intensive Methods. Philadelphia, U.S.A.: SIAM. ISBN-13: 978-0898715-66-8 Bílková, D., Budínský, P., Vohánka, V. (2009). Pravděpodobnost a statistika. Plzeň: Vydavatelství Aleš Čeněk. ISBN 978-80-7380-224-0 Cuellar, L., Pan, F., Roach, F., Saeger, K. (2011). Distributional Properties of Stochastic Shortest Paths for Smuggled Nuclear Material.In: Proceedings of The 2nd International MultiConference on Complexity, Informatics and Cybernetics. Orlando,U.S.A.:International Institute of Informatics and Systemics. ISBN 978-1-936338-20-7 Cyhelský, L., Kahounová, J., Hindls, R. (2001). Elementární statistická analýza. Praha: Management Press. ISBN 80-7261-003-1. Cyhelský, L., Souček, E. (2009). Základy statistiky. Praha: Eupress. ISBN 978-80-7408-013-5 Fenclová, Z. a kol. (2010). Nemoci z povolání v České republice 2009. Praha, Státní zdravotní ústav. Issapour, M., Scarlatos, L. J., Lewis, H. F. (2011). A Statistical Model for Energy Intensity. In: Proceedings of The 2nd International Multi-Conference on Complexity, Informatics and Cybernetics. Orlando,U.S.A.:International Institute of Informatics and Systemics. ISBN 9781-936338-20-7 Janečková, H., Hniličková, H. (2009). Úvod do veřejného zdravotnictví. Praha, Portál, ISBN 978-80-7367-592-9. O´Gorman, T. W. (2004). Applied Adaptive Statistical Methods: Tests of Significance and Confidence Intervals. Philadelphia, U.S.A.: SIAM. ISBN-13: 978-0-898715-53-8. Tarábek, P., Záškodný, P. (2011). Educational and Didactic Communication 2010. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, http://sites.google.com/site/csrggroup/ . ISBN 978-80-89160-78-5
-252-
Vurm, V. a kol. (2007). Vybrané kapitoly z veřejného a sociálního zdravotnictví. Praha, Triton, ISBN 978-80-7254-997-9 Zaskodny, P. (2011). Data Mining Tools in Science Education. In: Proceedings of The 2nd International
Multi-Conference
on
Complexity,
Informatics
and
Cybernetics.
Or-
lando,U.S.A.:International Institute of Informatics and Systemics. ISBN 978-1-936338-20-7 Záškodný, P. (2001). Statistical Dimension of Scientific Research. KONTAKT, 2, 5, 2001 ISSN 1212-4117 Záškodný, P., Budinský, P., Havránková, R., Havránek, J. (2007). Základy ekonomické statistiky. Prague, Czech Republic: University of Finance and Administration ISBN 80-8675400-6 Záškodný, P. , Havlíček, I., Budinský, P.(2011). Partial Data Mining Tools in Applied Statistics-in Greeks and Option Hedging. In: Educational and Didactic Communication 2010. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk http://sites.google.com/site/csrggroup/ ISBN 978-80-89160-78-5 Záškodný, P., Havlíček, I., Budinský, P., Hrdlička, L. (2011). Where will be used the partial data mining tools in statistics education? In Greeks. In: Educational and Didactic Communication 2010. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, http://sites.google.com/site/csrggroup/. ISBN 978-80-89160-78-5 Záškodný, P.., Tarábek, P. (2011). Data Mining Tools in Statistics Education. In: Educational and Didactic Communication 2010. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, http://sites.google.com/site/csrggroup/. ISBN 978-80-89160-78-5 Záškodný, P., Vurm, V., Havránková, R., Havránek, J. (2004). Základy zdravotnické statistiky. České Budějovice, Czech Republic: South Bohemia Universit. ISBN 80-7040-663-1 Zavázalová H. a kol. (2008). Inovované dodatky k vybraným kapitolám ze sociálního lékařství a veřejného zdravotnictví. Praha, Karolinum. ISBN 978-80-246-1569-1 Zavázalová, H. a kol. (2002). Sociální lékařství a veřejné zdravotnictví. Praha, Karolinum. ISBN 80-246-0467-1. Zdravotnická statistika ČR. Ekonomické informace ve zdravotnictví 2009. Ústav zdravotnických informací a statistiky ČR. Praha, ISBN 978-80-7280-910-3
-253-
Zdravotnická ročenka České republiky (2009). Ústav zdravotnických informací a statistiky
ČR. Praha, ISBN 978-80-7280-909-7 Zdravotnictví ČR ve statistických údajích. Ústav zdravotnických informací a statistiky. http://www.uzis.cz/cr-kraje
-254-
Assoc. Prof. RNDr. Přemysl Záškodný, CSc. Assoc. Prof. RNDr. Přemysl Záškodný, CSc., graduated from the MathematicalPhysics Faculty of Charles University, Czech Republic, CSc. in the physics education, and assoc. professor of physics education. As a university teacher, he is affiliated to the University of South Bohemia in České Budějovice, Czech Republic and to the University of Finance and Administration in Prague, Czech Republic. He is active in scientific work in cooperation with the International Institute of Informatics and Systemics in U.S.A., and the Curriculum Studies Research Group in Slovakia (http://sites.google.com/site/csrggroup/). In his scientific work, aimed at physics and statistics education, he deals with structuring and modelling physical and statistical knowledge and systems of knowledge and also educational data mining and curricular process. In addition to support from his university, a project granted to the author by the Avenira Foundation in Switzerland and the University of Finance and Administration in Czech Republic has brought a considerable contribution to the results achieved. The conception of the last book “Curricular Process in Physics” and last monograph “Educational & Didactic Communication 2010” is based on the scientific work of the author. Some of the further works published by the author are quoted in the references of presented book “Principles of Statistics”.
Mgr. Renata Havránková, Ph.D. Mgr. Renata Havránková, Ph.D. is a graduate from the Faculty of Health and Social Studies at the University of South Bohemia in 2001, Radiological Assistant Study Programme. Her Master thesis was on Statistics, Application in Medicine. After receiving her Master degree, she has joined the Department of Radiology and Toxicology at the Faculty of Health and Social Studies where she is currently the Deputy Head of the Department. Renata Havránková received a Ph.D. degree in Military Radiobiology from the Faculty of Military Health Sciences of the University of Defence in 2008. Her research is focused on Medical Statistics, the effects of ionizing radiation on humans and protection of population.
Mgr. Jiří Havránek Mgr. Jiří Havránek received his Masters in Radiological Assistant Study Programme at the Faculty of Health and Social Studies of the University of South Bohemia. He comleted his degree in Statistics, Application in Medicine. As a student he got a part time job for State Office for Nuclear Safety where he has become a full time employee since 2001. He works for the State Office for Nuclear Safety as a Radiation Protection Inspector/Officer.
-255-
Specific areas of research interests include development of Radiation Monitoring and Radiation Protection of Temelín Nuclear Power Station. Since 2001 he has been a member of staff at the Department of Radiology and Toxicology at the Faculty of Health and Social Studies of the University of South Bohemia. He participates in Radiation Protection Studies.
Assoc. Prof. MUDr. Vladimír Vurm, CSc. Assoc.Prof. MUDr. Vladimír Vurm, CSc., graduated from the Medical Faculty of Charles University, Czech Republic, CSc. in the social medicine, assoc. professor of social medicine, and visiting professor at the higher education institute in Trnava, Slovak Republic. As a university teacher, he is presently affiliated to the Czech Technical University in Prague, Czech Republic, Faculty of Biomedical Engineering in Kladno, Czech Republic. He is active in scientific work in cooperation with the World Health Organization in Russia, England, U.S.A., Republic of South Africa, and with the scientific boards of several higher education institutes. In his scientific work, aimed at social medicine, he deals with organization of health service. In his organization work, aimed at higher education, he has acted 6 years as the dean of Faculty of Health and Social Studies at University of South Bohemia in České Budějovice, Czech Republic. In his pedagogical work, among others, he has directed 16 Ph.D. graduates.
-256-