Matematická statistika (Opravená a rozšířená verze textu přednášky z LS 2001/2002) Základní literatura: @1D Jaroš František a kolektiv : Pravděpodobnost a statistika, VŠCHT, 1998.
@2D Jarušková Daniela : Pravděpodobnost a matematická statistika 12, ČVUT, 2000.
@3D Jarušková Daniela, Hála Martin : Pravděpodobnost a matematická statistika 12 | Příklady, ČVUT, 2000. @4D Jarušková Daniela, Hála Martin : Pravděpodobnost a matematická statistika 11 | Tabulky, ČVUT, 2000 @5D Pavlík Jiří a kolektiv : Sbírka příkladů z pravděpodobnosti a statistiky, VŠCHT, 1999. @6D Rogalewicz Vladimír : Pravděpodobnost a statistika pro inženýry, ČVUT, 1998.
Doplňková literatura: @7D Anděl Jiří : Matematická statistika, SNTL, 1985. @8D Anděl Jiří : Statistické metody, Matfyzpress, 1998. @9D Dupač Václav, Hušková Marie : Pravděpodobnost a statistika, Karolinum, 1999.
@10D Havrda Jan, Míka Stanislav, Přikryl Petr : Numerické metody a matematická statistika, ČVUT, 1980. @11D Likeš Jiří, Machek Josef : Matematická statistika, SNTL, 1983. @12D Likeš Jiří, Machek Josef : Počet pravděpodobnosti, SNTL, 1981. @13D Rényi Alfréd : Teorie pravděpodobnosti.
1. Úvod 1.1. Matematická statistika je obor, který na jedné straně velmi úzce souvisí s teorií pravděpodobnosti, nebot' je založen na stejných základních pojmech, používá v zásadě stejné postupy jako ona a podstatně využívá jejích výsledků, ale na straně druhé se od ní významně liší. Tato rozdílnost mezi oběma teoriemi je dána tím, že typy úloh, které řeší matematická statistika, jsou zpravidla zcela jiné než úlohy pravděpodobnostní a v jistém smyslu jsou k nim dokonce opačné. Úlohy teorie pravděpodobnosti zpravidla vycházejí ze znalosti přesných, skutečných pravděpodobností základních náhodných jevů a na základě znalosti těchto pravděpodobností se hledají pravděpodobnosti jiných, zpravidla složitějších náhodných jevů. Z "pravděpodobnostní" znalosti náhodných veličin, např. ze znalosti pravděpodobnostní funkce u diskrétních náhodných veličin resp. ze znalosti distribuční funkce nebo hustoty pravděpodobnosti u absolutně spojitých náhodných veličin, se odvozují číselné charakteristiky těchto náhodných veličin, jako jsou např. střední hodnota, rozptyl, obecné či centrální momenty, korelační koeficienty, kvantily apod., dělají se závěry o vlastnostech těchto náhodných veličin, např. o jejich vzájemné nezávislosti, určují se pravděpodobnosti toho, že tyto veličiny nabudou jistých hodnot nebo hodnot z jistých intervalů, apod. Lze tedy říci, že v teorii pravděpodobnosti předpokládáme, že známe skutečné rozdělení pravděpodobností základních náhodných veličin resp. matematický model základního souboru náhodných jevů. Naproti tomu ve statistických úlohách je situace zpravidla v jistém smyslu opačná. Víme např., že nastaly určité jevy z jistého základního souboru náhodných jevů, a chceme odhadnout, jaké měly tyto jevy pravděpodobnosti. Nebo jsme získali pokusem, pozorováním či měřením určitý počet hodnot zkoumané náhodné veličiny, jejíž rozdělení pravděpodobnosti neznáme, a chceme na základě těchto dat odhadnout buď toto neznámé rozdělení nebo alespoň některé číselné charakteristiky zkoumané náhodné veličiny, např. střední hodnotu nebo rozptyl, a na základě takových odhadů pak případně dělat další závěry. Obecně tedy můžeme říci, že matematická statistika se snaží formulovat závěry a tvrzení o náhodných veličinách na základě dat získaných pokusem, pozorováním nebo měřením, tj. na základě známých realizací náhodných veličin. Malou ukázkou typického statistického uvažování je následující jednoduchý příklad. 1.2. Příklad. Představme si, že máme minci, o níž máme rozhodnout, zda je přesně symetrická a homogenní. Statistickou metodou to lze provést následujícím způsobem.
2
M6b-06-Statistics.nb
Hodíme n-krát mincí a zaznamenáme, kolikrát z těchto n hodů padne lev. Z teorie pravděpodobnosti víme, že počet lvů v n mincích je náhodná veličina X s binomickým rozdělením pravděpodobnosti s parametry n a p, kde p je pravděpodobnost, že v jednom hodu padne lev. To znamená, že pravděpodobnost, že lev padne v n hodech k-krát, je dána formulí P@X = kD = J
n N pk H1 − pLn−k . k
1 1 Je-li mince symetrická a homogenní, je p = 2 , v opačném případě je p ≠ 2 . Máme tedy rozhodnout, zda platí 1 1 p = 2 nebo p ≠ 2 .
Řekněme, že jsme hodili mincí 10000-krát, přičemž lev padl 5101-krát. Je-li mince symetrická a homogenní, pak s použitím centrální limitní věty můžeme celkem snadno vypočítat, že P@ » X − 5000 » > 100D =
2 1 i 5100 − 5000 y 2 P@X > 5100D U 2 − 2 Φj z ! ‡ −t ê2 t U 2 0.023 = 4.6 %. j z = 2 − 2 è!!!!!!!!!!!! è!!!!!!! 2500 2 π −∞ k {
2
Jinými slovy, pravděpodobnost, že počet lvů v našich 10000 hodech se liší od průměrné střední hodnoty 5000 liší o více než 100, je v případě symetrické a homogenní mince pouze 4.6%. To znamená, že za předpokladu, že mince je symetrická a homogenní, náš pokus skončil výsledkem, který byl před pokusem velmi nepravděpodobný. Předpoklad symetrie tedy asi neplatí a proto rozhodneme, že mince symetrická a homogenní není. Nemůžeme si tím být sice zcela jisti, ale spolehlivost tohoto rozhodnutí, jak se ve statistice říká, je velká, konkrétně 95.4%. Tento způsob uvažování je typický pro mnoho statistických metod, speciálně pro tzv. testování hypotéz. V našem příkladě jsme stanovili hypotézu "mince je symetrická a homogenní" a na základě výsledku pokusu (10000 hodů mincí) jsme tuto hypotézu dostatečně spolehlivě (95.4%) zamítli. Kdyby při našem pokusu lev padl pouze, řekněme, 5081-krát, byla by situace poněkud jiná, neboť tentokrát bychom dostali, že P@ » X − 5000 » > 80D =
2 1 i 5080 − 5000 y 2 P@X > 5080D U 2 − 2 Φ j z ! ‡
−t ê2 t U 2 0.055 = 11 %. j z = 2 − 2 è!!!!!!!!!!!! è!!!!!!! 2500 2 π −∞ k {
8ê5
Výsledek s takovouto pravděpodobností se však nepovažuje za až tak velmi nepravděpodobný a my bychom nemohli naši hypotézu o symetrii a homogenitě mince zamítnout s dostatečně velkou pravděpodobností (spolehlivost našeho zamítnutí by byla jen 89%). Jako hranice mezi "velmi nepravděpodobný" a "ne tak velmi nepravděpodobný" výsledek se obvykle používá pravděpodobnost 5%. Tato hraniční hodnota je tzv. hladina významnosti a značí se α. Volba hodnoty této hranice je silně subjektivní záležitostí a může se měnit jak v závislosti na řešeném problému, tak i na závažnosti důsledků přijetí nebo zamítnutí hypotézy.
2. Náhodný výběr a statistiky 2.1. Ze zkušenosti je známo, že výsledky většiny pokusů jak laboratorních, tak provozních, uskutečňovaných při fyzikálním, chemickém, technickém i jiném výzkumu se vyznačují jistými náhodnými fluktuacemi. Velmi často je povaha experimentu taková, že experimentálně získaná data jsou ve své podstatě realizacemi jednorozměrné nebo vícerozměrné náhodné veličiny se zcela určitým typem rozdělení pravděpodobnosti. Podobně se v mnoha případech chovají i data charakterizující jednotlivé členy velkého souboru, tj. údaje o náhodně vybraných členech takového souboru lze též často považovat za realizace jisté náhodné veličiny. Tato náhodná veličina se obvykle nazývá základní soubor nebo populace a konečné množiny jejích hodnot, které zkoumáme a na jejichž základě prostředky teorie pravděpodobnosti vyvozujeme závěry o celém základním souboru, jsou tzv. výběrové soubory. Ukazuje se, že vhodným matematickým pojmem postihujícím takovéto situace je pojem náhodného výběru. 2.2. Definice. Nechť X je náhodná veličina s jistým rozdělením pravděpodobnosti F. Tuto náhodnou veličinu nazveme základním souborem neboli populací. Náhodným výběrem o rozsahu n, přesněji prostým náhodným výběrem o rozsahu n ze základního souboru X nebo nebo též náhodným výběrem o rozsahu n z rozdělení F nazveme
M6b-06-Statistics.nb
3
libovolnou posloupnost (vektor) × = HX1 , ... , Xn L nezávislých náhodných veličin majících stejné rozdělení pravděpodobnosti jako náhodná veličina X . Množinu všech hodnot, jichž může náhodná veličina × nabývat, nazveme výběrovým prostorem a každý bod tohoto prostoru, tj. možnou konkrétní hodnotu náhodného vektoru × , nazveme realizací náhodného výběru × . 2.3. Poznámka. Náhodná veličina je z matematického hlediska reálná resp. vektorová funkce na pravděpodobnostním prostoru. Definičním oborem základního souboru X je tedy jistý, většinou ale neznámý pravděpodobnostní prostor HW, A, PL, jehož prvky-elementární náhodné jevy můžeme interpretovat jako reprezentanty souborů všech náhodných faktorů ovlivňujících výsledek experimentu či pozorování. Přirozeným definičním oborem náhodného výběru × = HX1 , ... , Xn L z tohoto základního souboru pak není prostor HW, A, PL, ale pravděpodobnostní prostor HWn , ≈n A, QL, kde Wn je obvyklý n-násobný kartézský součin WäWäΩäW, ≈n A je nejmenší s-algebra podmnožin prostoru Wn obsahující všechny množinu tvaru A1 ä A2 äΩä An , kde Ai , i = 1, Ω, n, jsou libovolné prvky salgebry A, a pravděpodobnost Q je jednoznačně charakterizována platností vztahu QHA1 ä A2 äΩä An L = ¤ni=1 PHAi L pro libovolné prvky A1 ,ΩAn ze s-algebry A. 2.4. Poznámka. Výběrovým prostorem je zpravidla Ñn nebo n-rozměrný interval. Abychom se vyhnuli jistým komplikacím, budeme vždy implicitně předpokládat, že výběrový prostor je borelovská podmnožina prostoru Ñn , tj. je prvkem nejmenší s-algebry podmnožin prostoru Ñn obsahující všechny n-rozměrné intervaly. 2.5. Poznámka. Je-li základní soubor X p-rozměrný, jsou všechny náhodné veličiny v náhodném výběru
× = HX1 , ... , Xn L z tohoto základního souboru také p-rozměrné. Je-li p ÷ 1, potom každá realizace výběru × je
vlastně matice typu H p, nL resp. Hn, pL v závislosti na konvenci. V dalším výkladu budeme implicitně předpokládat p = 1, pokud nebude řečeno něco jiného, i když většina z následujících úvah a tvrzení zůstává po víceméně zřejmých modifikacích v platnosti i pro p > 1. 2.6. Příklad. Představme si, že jistým přesně definovaným postupem zjišťujeme obsah určité chemikálie, např. kyseliny chlorovodíkové v nějakém roztoku. Na množství HCL ve zkoumaném roztoku můžeme pohlížet jako na náhodnou veličinu X s jistým rozdělením pravděpodobnosti F, která může nabývat hodnot 0 - 100 [%]. Tato náhodná veličina představuje základní soubor, náhodný vektor × = HX1 , ... , Xn L, který představuje obsah HCL v možném výběru n vzorků, je náhodným výběrem o rozsahu n z rozdělení F a možné výsledky analýzy těchto n vzorků, tj. n-tice Hx1 , ... , xn L čísel z intervalu X0, 100\, tvoří výběrový prostor. Vybereme-li náhodně n-tici vzorků a provedeme jejich analýzu, dostaneme konkrétní prvek výběrového prostoru, tj. realizaci náhodného výběru × . Definičním oborem základního souboru je jistý pravděpodobnostní prostor HW, A, PL, který neznáme. Prvky množiny W můžeme v tomto případě považovat např. za reprezentanty všech možných experimentů, z nichž každý spočívá v analýze jednoho z možných vzorků zkoumaného roztoku. Analýza náhodně vybraných n vzorků je tedy reprezentována uspořádanou n-ticí Hw1 , Ω, wn L prvků množiny W a Xi je náhodná veličina, která této n-tici přiřazuje výsledek analýzy itého vzorku. Jinou možností je interpretovat prvky množiny W přímo jako výsledky analýz všech možných vzorků, tj. jako prvky intervalu X0, 100\. Při této interpretaci je X identické zobrazení tohoto intervalu do Ñ a náhodná veličina Xi prostě n-tici Hw1 , Ω, wn L přiřazuje číslo wi . 2.7. Z dat získaných pokusem nebo pozorováním, tj. z realizací náhodných výběrů, se zpravidla vypočítávají hodnoty různých ukazatelů, např. průměrná hodnota, minimální nebo maximální hodnota, apod. Některé z těchto ukazatelů umožňují stručně a přehledně shrnout naměřené výsledky, jiné zase umožňují určité závěry o rozdělení pravděpodobnosti pozorovaných náhodných veličin a některé mohou být i konečným cílem pokusů. Např. při opakovaném zjišťování koncentrace nějaké látky v náhodně vybraných vzorcích roztoku, viz příklad 2.6, jde konec konců o stanovení koncentrace této látky v celém roztoku a smyslem opakování je zmenšení chyby výsledku a vyloučení případných hrubých omylů. Jestliže metoda stanovení je taková, že střední hodnota všech veličin Xi je rovna skutečné hodnotě koncentrace, tj. není-li metoda měření zatížena systematickou chybou, pak jde vlastně o úlohu zjištění střední hodnoty určitého rozdělení pravděpodobnosti. Intuitivně je jasné, že tuto skutečnou koncentraci můžeme odhadnout aritmetickým průměrem naměřených hodnot x1 , ... , xn , tj. číslem 1 ñ = ‚ xi , n n
i=1
4
M6b-06-Statistics.nb
a že tento odhad asi bude tím lepší, čím větší bude n. Je však také zřejmé, že pro analýzu jiných n vzorků, tj. pro jinou realizaci náhodného výběru × = HX1 , ... , Xn L bude tento odhad jiný. To znamená, že tento aritmetický průměr má též náhodný charakter a představuje realizaci náhodné veličiny 1 × = ‚ Xi , n n
i=1
tj. realizaci aritmetického průměru veličin X1 , ... , Xn . Náhodná veličina × je příkladem tzv. statistiky neboli výběrové charakteristiky náhodného výběru. 2.8. Definice. Statistikou neboli výběrovou charakteristikou náhodného výběru × = HX1 , ... , Xn L se nazývá každá funkce tvaru gHX1 , ... , Xn L, kde g je borelovsky měřitelná funkce, jejíž definiční obor obsahuje výběrový prostor příslušný k výběru × . 2.9. Poznámka. Množina A Õ Ñn se nazývá borelovská, je-li prvkem nejmenší s-algebry na Ñn obsahující všechny otevřené podmnožiny prostoru Ñn . Reálná resp. vektorová funkce g se nazývá borelovsky měřitelná, jestliže její definiční obor je borelovsky měřitelná množina a množina g-1 HGL je borelovsky měřitelná pro každou otevřenou podmnožinu G jejího oboru hodnot. Borelovsky měřitelné jsou např. všechny spojité funkce a každá funkce, která je bodovou limitou borelovsky měřitelných funkcí, je opět borelovsky měřitelná. V konkrétních úlohách tedy můžeme s klidným svědomím předpokládat, že podmínka borelovské měřitelnosti je splněna. 2.10. Nejčastěji používané statistiky. Nejčastěji se používají statistiky, jejichž hodnoty v případě náhodného výběru dostatečně velkého rozsahu s velkou pravděpodobností dobře aproximují nejběžnější charakteristiky základního souboru, jako jsou střední hodnota, rozptyl, momenty a některé další. Výběrový průměr: 1 × = ‚ Xi . n n
i=1
Výběrový průměr je empirickým protějškem střední hodnoty náhodné veličiny. Jestliže m je střední hodnota a s je směrodatná odchylka (rozdělení) základního souboru, z něhož náhodný výběr × = HX1 , ... , Xn L pochází, potom díky nezávislosti náhodných veličin X1 , ... , Xn snadno vypočteme, že 1 nµ 1 n σ2 σ2 E × = ‚ E HXi L = = µ, varH×L = ‚ varHXi L = = . 2 2 n n n n n n
n
i=1
i=1
Podle Čebyševovy věty tedy pro každé ¶ > 0 platí nerovnost σ2 P@ » × − µ » ≥ ∂D 2 . n∂ To znamená, že pro libovolnou realizaci Hx1 , Ω , xn L náhodného výběru × bude nerovnost ƒ ƒ ƒ 1 n ƒ ƒ ƒ ƒ ƒ ƒ »ñ−µ» = ƒ x − µ ∂ ‚ ƒ ƒ i ƒ ƒ ƒ n ƒ ƒ ƒ ƒ ƒ i=1 2
s platit s pravděpodobností alespoň 1 - ÅÅÅÅ ÅÅÅÅÅ . Dále odtud plyne, že × n = ÅÅÅÅ1n ⁄ni=1 Xi konverguje podle pravděpodobnosti n ¶2 k m pro n Ø ¶, tj. že
lim P@ » ×n − µ » ≥ ∂D = 0 pro každé ∂ > 0. n→∞
M6b-06-Statistics.nb
5
Výběrový rozptyl: 1 1 2 S2 = S2× = ‚ HXi − ×L = n−1 n Hn − 1L n
i=1
2 n n i y i y j z z j 2 j z, n ≥ 2. j z j n X − X ‚ ‚ j i iz j z j z z j z ki=1 { { k i=1
Tato statistika je mírou variability experimentálních výsledků a je experimentální analogií rozptylu varHXi L = s2 . Má-li rozdělení, z něhož náhodný výběr pochází, střední hodnotu m a směrodatnou odchylku s, potom i j1 j Hn − 1L EHS2 L = Ej j j n k
2 n n i y y i y j z z j z 2 j z z= j z j z n X − X ‚ ‚ j z i i j z z j z j zz z k { i=1 i=1 k {{
n n i n 2y 2 2 z 2 2 j z = Ej = EHX L − n EH × L = EHHXi − µ + µL2 L − n EIH× − µ + µL M = X − n × ‚ ‚ ‚ j z i i j z { i=1 ki=1 i=1
σ2 = ‚ varHXi L + ‚ µ2 − n varH×L − n µ2 = n σ2 + n µ2 − n − n µ2 = Hn − 1L σ2 . n n
n
i=1
i=1
a tedy EHS2 L = σ2 . Podobným způsobem, jakým jsme určili střední hodnotu výběrového rozptylu, můžeme najít formuli pro rozptyl statistiky S 2 , avšak její odvození je podstatně složitější. Má-li rozdělení, z něhož náhodný výběr × pochází, střední hodnotu m, rozptyl s a čtvrtý centrální moment m4 , potom rozptyl statistiky S 2 je dán formulí µ4 n−3 varHS2 L = − σ4 , n ≥ 2. n n Hn − 1L Podle Čebyševovy nerovnosti tedy za uvedených předpokladů pro n > 2 a libovolné ¶ > 0 platí nerovnost 1 µ4 n−3 µ4 − σ4 N . P@ » S2 − σ2 » ≥ ∂D J n n Hn − 1L n ∂2 ∂2 Pro libovolnou realizaci Hx1 , Ω , xn L náhodného výběru × odtud plyne analogický závěr jako v případě výběrového průměru a střední hodnoty m základního souboru. 2
Poznámka. Kdybychom byli definovali S 2 formulí S 2 = ÅÅÅÅ1n ⁄ni=1 IXi - × M , s níž se též můžete setkat v některých n-1 učebnicích, dostali bychom složitější vztah vztah EHS 2 L = ÅÅÅÅ ÅÅÅÅÅÅ s2 . Podstatný rozdíl však mezi oběma definicemi není, n n-1 neboť pro n z ¶ veličina ÅÅÅÅnÅÅÅÅÅÅ s2 konverguje k s2 . Výběrová směrodatná odchylka: 2 n i 1 2y z j z S=j HX − × L ‚ j z i j n−1 z k i=1 {
1
Výběrová směrodatná odchylka je tedy druhou odmocninou z výběrového rozptylu. Tato statistika je analogií směrodatné odchylky s náhodné veličiny Xi . Protože varHSL = EHS2 L − E2HSL = σ2 − E2HSL ≥ 0,
platí pro výběr z libovolného rozdělení nerovnost EHSL σ. Výběrový r-tý obecný moment: 1 Mr = MrH×L = ‚ Xi r , r = 1, 2, ... n n
i=1
6
M6b-06-Statistics.nb
Speciálně tedy první obecný moment M1 splývá s výběrovým průměrem X . Pro střední hodnotu a rozptyl statistiky Mr se za předpokladu existence obecného momentu m2 r snadno odvodí formule 1 EHMr L = mr , varHMr L = Hm2 r − mr 2 L. n Existuje-li tedy obecný moment m2 r = EHXi 2 r L, potom pro n z ¶ výběrový moment Mr konverguje podle pravděpodobnosti k mr . Výběrový r-tý centrální moment: 1 r M'r = M'rH×L = ‚ HXi − ×L n n
i=1
n-1 2 Speciálně tedy M2' = ÅÅÅÅ ÅÅÅÅÅÅ S , takže výběrový rozptyl S 2 se neshoduje s druhým centrálním momentem. n
Výběrový koeficient šikmosti a špičatosti: M' M'4 A3 = 3 , A = − 3 4 HM'2 L3ê2 HM'2 L2 Poznámka. Zde zavedená symbolika není bohužel všeobecně přijata, takže se v literatuře můžete setkat např. s tím, že Mr znamená výběrový r-tý centrální moment, zatímco Mr' znamená výběrový r-tý obecný moment. Lišit se může i definice výběrového koeficientu špičatosti.
èèè 3. Rozdělení výběrové statistiky × Protože statistiky jsou náhodné veličiny, můžeme na ně aplikovat všechny výsledky teorie pravděpodobnosti. První z následujících dvou vět pouze opakuje vlastnosti výběrového průměru, které už známe z odstavce, ve kterém jsme výběrový průměr definovali, a druhá představuje dobře známé tvrzení z teorie pravděpodobnosti. 3.1. Věta. Výběrový průměr × náhodného výběru × = HX1 , ..., Xn L z populace se střední hodnotou m a è!!!! směrodatnou odchylkou s má rozdělení se stejnou střední hodnotou m a směrodatnou odchylkou s ë n . á 3.2. Věta. Jestliže základní soubor, z něhož náhodný výběr × = HX1 , ..., Xn L pochází, má normální rozdělení NHm, s2 L, potom výběrový průměr × má normální rozdělení NHm, s2 ê nL. á V případě, že o rozdělení základní populace nic nevíme, máme k dispozici pouze následující větu, která je jedním ze základních výsledků teorie pravděpodobnosti a je všeobecně známa jako „centrální limitní věta“. 3.3. Věta. Nechť X1 , X2 , ..., Xi , ... je nekonečná posloupnost vzájemně nezávislých náhodných veličin se stejným rozdělením F, střední hodnotou m a rozptylem s2 , takže pro každé přirozené n je ×n = HX1 , ... , Xn L náhodný výběr z rozdělení F. Jestliže X n je výběrový průměr výběru ×n , potom pro každé reálné x Ä É x Å Ñ Å Ñ 2 ×n − µ 1 Å Ñ Å lim PÅ ! xÑ ! ‡ −t ê2 t, Å è!!! Ñ = Ñ è!!!!!!! Å Ñ nz∞ 2 π −∞ Å Ñ Ç σë n Ö a to stejnoměrně na Ñ. á Výše uvedený limitní vztah znamená, řečeno ne zcela přesně, že distribuční funkci normované (standardizované) X n -m náhodné veličiny Y n = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ! lze pro dostatečně velká n přibližně nahradit distribuční funkcí normovaného normálního è!!!! së n
rozdělení, a tedy distribuční funkci statistiky × n lze pro dostatečně velká n přibližně nahradit distribuční funkcí s normálního rozdělení s parametry m a ÅÅÅÅ ÅÅÅÅ!ÅÅ , přičemž chyba , které se dopustíme, nepřesáhne předem danou kladnou è!!!! n
mez. Potíž je pouze v tom, že nevíme, co jsou to „dostatečně velká“ n.
M6b-06-Statistics.nb
7
4. Rozdělení výběrových statistik S2 a S 4.1. Rozdělení c2 . Říkáme, že náhodná veličina X má rozdělení c2 HnL neboli rozdělení c2 s n stupni volnosti, má-li stejné rozdělení pravděpodobnosti jako veličina Y = X1 2 + Ω + Xn 2 , kde X1 , X2 , ..., Xn jsou vzájemně nezávislé náhodné veličiny s rozdělením NH0, 1L. Je-li Fn distribuční funkce takové náhodné veličiny, pak zřejmě FHxL = 0 pro x < 0 a libovolné n, a proto stejnou vlastnost má i její hustota pravděpodobnosti fn . Je-li n = 1, potom pro x > 0 je zřejmě è!!!! x
2 1 è!!!! è!!!! F1HxL = P@Y xD = PAX1 x E − PAX1 < − x E = ! ‡
−t ê2 t, è!!!!!!! 2 π −è!!!! x
a tedy
è!!!!
x i y
−xê2 y x−1ê2 −xê2 1 1 i −xê2 j z −t2 ê2 j ! + ! z . f1HxL = ∂x j tz ! j j z = z è!!!!!!! è!!!!!!! è!!!! ! ‡ è!!!!
z = è!!! j è!!!!!!! 2 ΓH1 ê 2L 2 x k 2π 2π { k 2π − x {
Odtud lze již poměrně snadno pro hustotu pravděpodobnosti fn veličiny Y = X1 2 + Ω + Xn 2 s rozdělením c2 odvodit matematickou indukcí formuli 0 l o fnHxL = m nê2−1 −xê2 x o n2 L n 2nê2 ΓH
pro x 0, pro x > 0.
Indukční krok z n na n + 1 se opírá o nezávislost náhodných veličin X1 2 + Ω + Xn 2 , Xn+1 2 , o vlastnosti Eulerových funkcí Gamma a Beta a také o větu, podle níž hustota pravděpodobnosti součtu dvou nezávislých náhodných veličin je konvolucí jejich hustot. Nejprve použijeme zmíněnou větu o hustotě pravděpodobnosti součtu, potom provedeme jednoduché úpravy a jednoduchou substituci, přičemž použijeme vlastnosti zmíněných Eulerových funkcí, a postupně dostaneme Hx − tLnê2−1 −Hx−tLê2 t−1ê2 −tê2 fn+1HxL = ‡ fnHx − tL f1HtL t = ‡ t = è!!!! 2nê2 ΓHn ê 2L 2 ΓH1 ê 2L 0 0 x
x
x t=xu
−xê2 = Hx − tLnê2−1 t−1ê2 t = À À= t = x u 2Hn+1Lê2 ΓH1 ê 2L ΓHn ê 2L ‡0
−xê2 xnê2−1 x−1ê2 x
−xê2 xHn+1Lê2−1 1 n nê2−1 −1ê2 = H1 − uL u u = BJ , N = ‡ 2Hn+1Lê2 ΓH1L ΓHn ê 2L 0 2Hn+1Lê2 ΓH1 ê 2L ΓHn ê 2L 2 2 1
1 n
−xê2 xHn+1Lê2−1 ΓH L
−xê2 xHn+1Lê2−1 2 L ΓH 2 = n+1 = n+1 , Hn+1Lê2 2 ΓH1 ê 2L ΓHn ê 2L ΓH 2Hn+1Lê2 ΓH 2 L 2 L
což bylo třeba dokázat. 4.2. Statistika S 2 a rozdělení c2 . Rozdělení statistik S 2 a S náhodného výběru × = HX1 , ..., Xn L jsou známa pouze za určitých předpokladů o rozdělení základního souboru. Najdeme rozdělení těchto statistik za předpokladu, že základní soubor má normální rozdělení NHm, s2 L, a současně ukážeme, že statistiky × , S jsou nezávislé. Z definice statistiky S 2 především plyne, že
Hn − 1L S2 2 = Hn − 1L SØ 2 = ‚ HYi − ØL , σ2 n
i=1
Xi -m kde náhodné veličiny Yi = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ mají zřejmě normální rozdělení NH0, 1L. Ukážeme, že existují nezávislé náhodné s veličiny U1 , ..., Un-1 s normovaným normálním rozdělením, pro něž
8
M6b-06-Statistics.nb
Hn − 1L S2 2 = ‚ HYi − ØL = ‚ Ui 2 . σ2 Uvažujme čtvercovou matici
n
n−1
i=1
i=1
1 i j j j 0 j j j j j . j Â=j j j . j j j j 0 j j j k0
1 1 . . 0 0
. . . . . .
. . . . . .
1 0 . . 1 0
1y z z 0z z z z z .z z z z .z z z z 0z z z z 1{
řádu n, která má v prvním řádku a na diagonále jedničky a na ostatních místech nuly. Aplikujeme-li na posloupnost jejích řádkových vektorů Ü1 = H1, …, 1, 1L, …, Ün = H0, …, 0, 1L Gramův-Schmidtův ortonormalizační proces, dostaneme jistou ortogonální matici tvaru 1 i è!!!! j n j j j j a j 21 j À=j j . j j j j j j j . k an1
1 è!!!! n
. .
a22 . . .
. . . .
1 è!!!! y n z z z z a2n z z z z = Á.Â, . z z z z z . z z z ann {
. . . .
kde Á je součin elementárních matic odpovídajících jednotlivým krokům v Gramově-Schmidtově procesu. Položme ÔT = HU1 , …, Un LT = À.ØT .
Protože zřejmě U1 = vektorů, je
è!!!! n Ø a protože lineární zobrazení s ortogonální maticí zachovává skalární součin aritmetických n Ø + ‚ Ui 2 = ‚ Ui 2 = Ô.Ô = Ø.Ø = ‚ Yi 2 , n
n
n
i=2
i=1
i=1
2
a tedy Hn − 1L S2 2 2 = ‚ HYi − ØL = ‚ Yi 2 − n Ø = ‚ Ui 2 . σ2 n
n
n
i=1
i=1
i=2
Jistě jste si povšimli, že až dosud jsme předpoklad, že základní soubor má normované normální rozdělení, vlastně è!!!! nepotřebovali. Teď tento předpoklad využijeme k tomu, abychom dokázali, že náhodné veličiny U1 = n Ø, U2 , ..., Un mají normované normální rozdělení a jsou nezávislé. Protože náhodné veličiny Y1 , ... , Yn jsou nezávislé a mají normované normální rozdělení, náhodný vektor Ø má hustotu pravděpodobnosti 1 gHòL = exp J− ò.òN, 2 kde ò = Hy1 , ..., yn L
ò.ò = ‚ yi 2 . n
a
i=1
Protože násobení vektoru ortogonální maticí zachovává skalární součin, náhodný vektor Ô má hustotu pravděpodobnosti gHî.ÀL 1 1 = gHî.ÀL = exp J− Hî.ÀL.Hî.ÀLN = expJ− î.îN. » det À » 2 2
M6b-06-Statistics.nb
9
è!!!! Odtud již snadno plyne, že náhodné veličiny U1 = n Ø, U2 , Ω , Un mají všechny normované normální rozdělení a s s2 ÅÅÅÅ!ÅÅ U1 + m a S 2 = ÅÅÅÅ ÅÅÅÅÅÅ n U 2 . Dokázali jsme tedy jsou nezávislé. Jsou tedy nezávislé i náhodné veličiny × = ÅÅÅÅ è!!!! n-1 ⁄i=2 i n
následující větu o rozdělení výběrového rozptylu S 2 .
4.3. Věta. Je-li S 2 výběrový rozptyl náhodného výběru × = HX1 , ..., Xn L ze základního souboru s normálním Hn-1L S2 ÅÅÅÅÅÅÅÅÅÅÅ má rozdělení c2 s n - 1 stupni volnosti a proto S 2 má hustotu rozdělením NHm, s2 L, potom statistika ÅÅÅÅÅÅÅÅ s2 pravděpodobnosti x 0, l o 0, n−1 x Hn − 1L o −x Hn−1L hnHxL = fn−1J N = m Hn−1L x expH 2 σ L o σ2 σ2 , x > 0. o n−1 n−1 2 ΓH n 2 L σ n−1 2
n−3 2
2
n−1 2
Statistiky × , S 2 jsou kromě toho nezávislé. á 4.4. Poznámka. Vypočteme-li pomocí nalezené hustoty střední hodnotu EHS 2 L, dostaneme nám už známý výsledek EHS 2 L = s2 . Z právě vyslovené věty už snadno vyplývá následující věta o rozdělení výběrové směrodatné odchylky S. è!!!!!! 4.5. Věta. Výběrová směrodatná odchylka S = S 2 náhodného výběru × = HX1 , ..., Xn L ze základního souboru s normálním rozdělení NHm, sL má rozdělení c s n - 1 stupni volnosti a proto má hustotu pravděpodobnosti 0 l o o −Hn−1L x gnHxL = 2 x hnHx2 L = m 2 Hn−1L xn−2 expI M 2 o o σ n−1 ΓH n−1 2 L σ n 2 n−1 2
pro x 0,
2
2
n−1 2
pro x > 0.
Statistiky × , S jsou kromě toho nezávislé. á 4.6. Poznámka. Pomocí nalezené hustoty pravděpodobnosti gn bychom už celkem snadno mohli vypočítat střední hodnotu EHSL a rozptyl varHSL. Dostali bychom n n 2 ΓH Γ2H y 2 2 2 2 L σ, varHSL = i 2 L j EHSL = J N n−1 z j1 − zσ . n−1 2H L n−1 n − 1 ΓH L Γ k { 2 2 1
5. Empirická distribuční funkce, čárový diagram a histogram V aplikacích matematické statistiky máme obvykle k dispozici pouze realizace náhodného výběru z rozdělení některé náhodné veličiny X . O rozdělení pravděpodobnosti této náhodné veličiny přitom nevíme buď vůbec nic nebo, v lepším případě pouze víme, do jaké ze známých tříd rozdělení patří. První představu o tomto rozdělení můžeme získat pomocí empirické neboli výběrové distribuční funkce nebo pomocí čárového diagramu, nazývaného též úsečkový diagram nebo tyčkový diagram, nebo pomocí tzv. histogramu. 5.1. Definice. Nechť ñ = Hx1 , ... , xn L je libovolná realizace (prostého) náhodného výběru ze základního souboru X . Empirickou nebo též výběrovou distribuční funkcí se nazývá funkce Fn na množině reálných čísel definovaná předpisem 1 FnHxL = ‚ χH−∞,x\Hxi L, n n
i=1
kde cH-¶,x\ je charakteristická funkce intervalu H-¶, x\. Následující věta říká, že z dostatečně velkého náhodného výběru lze s pravděpodobností 1, neboli téměř jistě, získat libovolně podrobnou informaci o distribuční funkci základního souboru. Jejím nedostatkem je, že neříká nic o rychlosti této konvergence. 5.2. Věta (V. I. Glivenko). Nechť X1 , X2 , ..., Xi , ... je nekonečná posloupnost nezávislých náhodných veličin definovaných na pravděpodobnostním prostoru HW, A, PL a majících stejnou distribuční funkci F a nechť x1 = X1 HwL, x2 = X2 HwL, Ω , xi = Xi HwL, Ω je posloupnost jejich realizací, takže pro každé přirozené n vektor ñn = Hx1 , ..., xn L je
10
M6b-06-Statistics.nb
realizací prostého náhodného výběru ×n = HX1 , ... , Xn L z rozložení F. Jestliže Fn je empirická distribuční funkce určená realizací ñn náhodného výběru ×n , potom s pravděpodobností 1 limnz¶ Fn HxL = FHxL stejnoměrně na Ñ. 5.3. Příklad. Pomocí počítačových algebraických systémů, jako jsou např. Wolframova Mathematica 4, nebo Maple 5, lze Glivenkovu větu velmi pěkně ilustrovat graficky. Každý z následujících čtyř diagramů zobrazuje distribuční funkci normálního rozdělení NH0, 1L a empirickou distribuční funkci jedné realizace jednoho ze čtyř (pseudo)náhodných výběrů z tohoto rozdělení. Všechny čtyři realizace jsou počáteční úseky ñn délky n =100, 400, 1600 resp. 6400 seznamu ñ délky 100 * 210 , který byl generován ve Wolframově systému Mathematica 4 funkcí Random[NormalDistribution[0,1]] z balíčku Statistics`ContinuousDistributions` po nastavení generátoru pseudonáhodných čísel instrukcí SeedRandom[2512294572227566366403192]. 1
0.8
0.6
0.4
0.2
0 -4
-2
0
2
4
-4
-2
0
2
4
1
0.8
0.6
0.4
0.2
0
M6b-06-Statistics.nb
11
1
0.8
0.6
0.4
0.2
0 -4
-2
0
2
4
-4
-2
0
2
4
1
0.8
0.6
0.4
0.2
0
O rychlosti konvergence empirických distribučních funkcí Fn k distribuční funkci F rozdělení NH0, 1L dává určitou představu následující seznam přibližných hodnot maxim, kterých diference » Fn HxL - FHxL » nabývá na úsecích délky 100ä2n seznamu ñ, kde n = 0, 1, Ω, 10: 80.0613309, 0.0463055, 0.0413503, 0.0198408, 0.0191006, 0.011776, 0.00983224, 0.00519676, 0.00420458, 0.00318004, 0.00234575<
5.4. Čárový diagram. Nechť ñ = Hx1 , ... , xn L je realizace náhodného výběru × = HX1 , ..., Xn L. Nechť x∗1 < x∗2 < ... < x∗r je prostá posloupnost všech prvků množiny 8x1 , ... , xn < a nechť ni je počet všech celých čísel j z intervalu X1, n\, pro něž x j = x*i . Jinými slovy, ni je četnost, tj. počet výskytů prvku x*i v posloupnosti ñ . Čárový diagram realizace ñ náhodného výběru × znázorňuje na jedné souřadné ose hodnoty x*1 , x*2 , ..., x*r této realizace a na druhé jejich četnosti
12
M6b-06-Statistics.nb
ni ni nebo jejich relativní četnosti ÅÅÅÅ Å . Je to vlastně graf funkce f definované na množině 8x*1 , x*2 , ..., x*r <, jejíž hodnota v n ni * bodě xi je rovna ni resp. ÅÅÅÅnÅ . Pro větší názornost se místo bodů @x*i , f Hx*i LD zpravidla kreslí úsečky, spojující každý z těchto bodů s příslušným bodem @x*i , 0D.
Má-li základní soubor diskrétní rozdělení a je-li rozsah výběru dostatečně veliký, může čárový diagram dát víceméně spolehlivou představu o pravděpodobnostní funkcí základního souboru. V případě základního souboru se spojitým rozdělením to může platit jenom tehdy, jsou-li xi nikoliv přesné, ale značně hrubě zaokrouhlené hodnoty veličin Xi , neboť se prakticky nestane, aby dvě nezávislé náhodné veličiny se spojitým rozdělením nabyly přesně stejné hodnoty. Např. všechny členy seznamu ñ z příkladu 5.3 jsou různé, ale po zaokrouhlení na 4 resp. 3 resp. 2 resp. 1 desetinné místo dostaneme 37591 resp. 5827 resp. 726 resp. 87 různých čísel. 5.5. Příklad. Každý z následujících šesti diagramů zobrazuje pravděpodobnostní funkci binomického rozdělení s parametry n = 10, p = 1 ê 2 a relativní četnosti jedné realizace jednoho ze šesti (pseudo)náhodných výběrů z tohoto rozdělení. Tyto realizace jsou počátečními úseky ñn délky n =100, 400, 1600, 6400, 25600 resp. 102400 seznamu ñ délky 100 * 210 , který byl generován v systému Mathematica 4 funkcí Random[BinomialDistribution[10,1/2]] z balíčku Statistics`DiscreteDistributions` po nastavení generátoru pseudonáhodných čísel instrukcí uvedenou v příkladu 5.3. Pod každým diagramem je uveden příslušný seznam četností. 0.25 0.2 0.15 0.1 0.05 0 0
2
4
6
8
10
8
10
80, 1, 6, 12, 25, 25, 16, 8, 3, 4, 0< 0.25 0.2 0.15 0.1 0.05 0 0
2
4
6
80, 3, 22, 43, 87, 103, 65, 54, 13, 9, 1<
M6b-06-Statistics.nb
13
0.25 0.2 0.15 0.1 0.05 0 0
2
4
6
8
10
83, 14, 79, 180, 337, 401, 310, 197, 57, 20, 2< 0.25 0.2 0.15 0.1 0.05 0 0
2
4
6
8
10
85, 62, 308, 731, 1329, 1554, 1280, 778, 272, 75, 6< 0.25 0.2 0.15 0.1 0.05 0 0
2
4
6
8
823, 266, 1135, 2978, 5228, 6289, 5261, 3078, 1054, 262, 26<
10
14
M6b-06-Statistics.nb
0.25 0.2 0.15 0.1 0.05 0 0
2
4
6
8
10
8109, 1005, 4533, 11836, 21072, 25151, 20938, 12269, 4427, 962, 98< 5.6. Třídní četnosti a histogram. Zaokrouhlování hodnot náhodných veličin je vlastně zvláštním případem třídění dat. Nechť ñ = Hx1 , ... , xn L je tedy libovolná posloupnost reálných čísel. Zvolme reálná čísla c0 < c1 < Ω < ck a uvažujme intervaly I1 = Xc0 , c1 \, I2 = Hc1 , c2 \, …, Ik = Hck−1 , ck \. Intervaly I1 , Ω, Ik lze volit i jinak, vždy však musí být disjunktní a jejich sjednocení musí obsahovat všechny členy posloupnosti ñ . Obvykle se také volí stejně velké, i když stejná velikost není podmínkou. Nechť n j je počet členů posloupnosti ñ ležících v intervalu I j . Intervalům I1 , Ω, Ik se říká třídy, čísla n1 , Ωnk se nazývají (absolutní) třídní četnosti a čísla n1 ê n, Ω, nk ê n jsou tzv. relativní třídní četnosti. Součet třídních četností se zřejmě rovná n a součet relativních četností se rovná 1. Četnosti resp. relativní četnosti, tj. rozdělení členů posloupnosti ñ do jednotlivých tříd, dobře graficky znázorňuje sloupcový diagram, jehož sloupce mají za základny intervaly I1 , Ω, Ik , přičemž výška sloupce nad základnou I j je nj pro každé j rovna n j resp. n j ê n. Jestliže nad každým intervalem I j sestrojíme sloupec o výšce ÅÅÅÅ ÅÅÅÅÅ , kde d j je šířka třídy n dj
I j , dostaneme tzv. histogram. Terminologie však není ustálená a tak histogramem se často nazývá i sloupcový diagram, jehož sloupce mají výšky rovné absolutním nebo relativním četnostem. Je-li ñ realizace náhodného výběru × = HX1 , ... , Xn L ze základního souboru X se spojitým rozdělením pravděpodobnosti, pak histogram může poskytnout přibližnou představu o hustotě pravděpodobnosti náhodné veličiny X . Obecně lze říci, že při vhodné volbě tříd I1 , Ω, Ik tato představa bude tím přesnější, čím větší bude rozsah tohoto výběru, a že graf hustoty pravděpodobnosti náhodné veličiny X protne horní základnu většiny sloupců přibližně v jejím středu. Nelze však očekávat, že histogram bude pokaždé vystihovat tvar hustoty pravděpodobnosti tak věrně jako na diagramech v následujícím příkladu. 5.7. Příklad. Každý z následujících šesti diagramů zobrazuje hustotu pravděpodobnosti normálního rozdělení NH0, 1L a histogram jedné realizace jednoho ze šesti (pseudo)náhodných výběrů z tohoto rozdělení. Všech šest realizací jsou úseky délky 100, 400, 1600, 6400, 25600 resp. 102400 seznamu ñ z příkladu 5.3. Výška každého sloupce je součinem převrácené hodnoty šířky jeho základny a příslušné relativní třídní četnosti. Pod každým diagramem je uveden příslušný seznam četností.
M6b-06-Statistics.nb
15
0.4
0.3
0.2
0.1
0 -4
-2
0
2
4
2
4
80, 0, 8, 24, 41, 22, 5, 0, 0< 0.4
0.3
0.2
0.1
0 -4
-2
0
80, 2, 29, 95, 163, 90, 18, 3, 0< 0.4
0.3
0.2
0.1
0 -4
-2
0
2
4
16
M6b-06-Statistics.nb
80, 14, 101, 400, 593, 395, 87, 9, 1< 0.4
0.3
0.2
0.1
0 -4
-2
0
2
4
80, 4, 13, 100, 296, 733, 1305, 1560, 1283, 749, 256, 82, 17, 2, 0< 0.4
0.3
0.2
0.1
0 -4
-2
0
2
4
80, 1, 2, 3, 7, 26, 66, 165, 308, 555, 989, 1460, 1977, 2583, 2927, 3128, 3020, 2576, 2066, 1478, 948, 517, 316, 158, 77, 32, 9, 5, 1, 0, 0< 0.4
0.3
0.2
0.1
0 -4
-2
0
2
4
M6b-06-Statistics.nb
17
80, 0, 0, 2, 1, 4, 5, 6, 7, 22, 39, 69, 105, 155, 255, 372, 546, 748, 1060, 1374, 1828, 2421, 2852, 3499, 4083, 4731, 5240, 5833, 6249, 6393, 6498, 6405, 6206, 5731, 5331, 4820, 4034, 3563, 2859, 2336, 1867, 1433, 1018, 779, 500, 382, 267, 181, 121, 76, 37, 27, 12, 7, 4, 2, 3, 2, 0, 0, 0<
6. Bodové odhady parametrů: základní pojmy 6.1. Chceme-li ke zkoumání reálného jevu náhodného charakteru použít teorii pravděpodobnosti, musíme nejprve vytvořit jeho pravděpodobnostní model. Prvním krokem k tomuto modelu je charakterizace zkoumaného jevu vhodnou reálnou nebo vektorovou náhodnou veličinou X a odhad typu rozdělení pravděpodobnosti této náhodné veličiny. Typ rozdělení lze často určit teoretickou úvahou, na základě zkušeností s jevy podobného charakteru, pomocí předběžných testů nebo kombinací všech těchto postupů. Rozdělení pravděpodobnosti určitého typu je zpravidla charakterizováno jedním nebo několika parametry, tj. prvkem J = HJ1 , Ω, Jk L nějaké podmnožiny Q prostoru Ñk . To znamená, že jeho distribuční funkce je prvkem jisté parametrické soustavy 8FJ ; J œ Q<. Náhodné veličině X , kterou zkoumáme, přitom odpovídá zcela určitá hodnota parametru J, kterou však neznáme a kterou čistě teoretickými úvahami stanovit nelze. Druhý krok k hledanému pravděpodobnostnímu modelu proto spočívá v co nejpřesnějším odhadnutí této správné hodnoty parametru J pouze na základě experimentálních dat, tj. na základě realizací ñ náhodných výběrů × ze základního souboru X . Běžně se používají dva typy odhadů. ` Odhadujeme-li správnou hodnotu parametru J na základě realizace ñ náhodného výběru jediným prvkem J œ Q, mluvíme o bodovém odhadu. Protože pro jinou realizaci stejného náhodného výběru zřejmě dostaneme stejným ` postupem jiný odhad, musíme na bodový odhad J pohlížet jako na náhodnou veličinu. Nevýhodou bodového odhadu zpravidla je, že nevíme nic o jeho přesnosti. Proto se často dává přednost tzv. intervalovému odhadu, který spočívá v udání dvou čísel, dolního a horního odhadu, mezi nimiž správná hodnota parametru J s jistou známou pravděpodobností, zvanou koeficient spolehlivosti, leží. 6.2. Definice. Nechť X je (reálná) náhodná veličina, jejíž distribuční funkce je prvkem parametrické soustavy 8FJ ; J œ Q<, kde Q je neprázdná (borelovská) podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L, a nechť t : Q z Ñ je (borelovsky měřitelná) funkce. Množinu Q nazveme parametrickým prostorem, funkci t nazveme parametrickou funkcí a každou statistiku t` H× L, kde × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X , nazveme bodovým odhadem parametrické funkce t. 6.3. Poznámka. Odhad t` H× L parametrické funkce t je tedy náhodná veličina. Protože rozdělení pravděpodobnosti náhodného vektoru × závisí na parametru J, závisí na tomto parametru jak rozdělení pravděpodobnosti odhadu t` H× L, tak i různé jeho číselné charakteristiky, např. střední hodnota a rozptyl, ačkoliv funkce t` samotná na J nezávisí. Budeme-li chtít tuto skutečnost, kterou je třeba mít stále na zřeteli, zdůraznit, budeme psát např. EJ t` H× L místo E t` H× L, varJ t` H× L místo var t` H× L, atd. 6.4. Definice. Bodový odhad t` H× L parametrické funkce t se nazývá nestranný, jestliže EJ t` H× L = tHJL pro každé J œ Q. V opačném případě se odhad nazývá vychýlený a rozdíl BHϑL = BˆτH×LHϑL = Eϑˆ τH×L − τHϑL
se nazývá vychýlení nebo jednostrannost odhadu. Jestliže t` H× L je nestranný odhad parametrické funkce t a pro každý jiný nestranný odhad tè H× L funkce t platí implikace ˆH×L var τH×L, ϑεΘ varϑ τ ϑ
potom říkáme, že t` H× L je nejlepší nestranný odhad parametrické funkce t. 6.5. Příklad. Z článku 2.10, v němž jsme definovali výběrový průměr a výběrový rozptyl, víme, že pro každý náhodný výběr × ze základního souboru s konečnou střední hodnotou a konečným rozptylem E × = µ, EHS2× L = σ2 .
18
M6b-06-Statistics.nb
To znamená: Je-li 8FJ ; J œ Q< libovolná parametrická soustava distribučních funkcí na Ñ s konečnou střední hodnotou a konečným rozptylem a patří-li distribuční funkce základního souboru X do této soustavy, potom výběrový průměr × 2 je nestranným odhadem parametrické funkce J Ø EJ X a výběrový rozptyl S× je nestranným odhadem parametrické funkce J Ø varJ X . 6.6. Střední kvadratická chyba odhadu a relativní eficience. Nestrannost sama o sobě ještě nezaručuje, že odhad je dobrý. Kromě nestrannosti je důležitá velikost jeho rozptylu. Ze dvou nestranných odhadů si vždy vybereme odhad s menším rozptylem. Vychýlené odhady můžeme porovnávat pomocí veličiny zvané střední kvadratická chyba odhadu, což je funkce na parametrickém prostoru Q, definovaná pro odhad t` H× L formulí ˆH×L − τHϑLL2 = B2ˆ HϑL + var ˆ KHϑL = KτˆH×LHϑL = EϑHτ ϑ τH×L, ϑ ∈ Θ. τH×L
Pro nestranný odhad tedy střední kvadratická chyba odhadu splývá s jeho rozptylem. Jsou-li t`1 H× L, t`2 H× L dva odhady téže parametrické funkce, pak za lepší považujeme ten, jehož střední kvadratická chyba je menší. Číselným vyjádřením ` ` poměru kvality obou odhadů je tzv. relativní eficience neboli vydatnost odhadu t1 H× L vzhledem k odhadu t2 H× L, což je funkce na parametrickém prostoru definovaná jako poměr ˆ H×L − τHϑLL2 B2ˆτ2H×LHϑL + varϑ ˆ τ2H×L Kˆτ2H×LHϑL EϑHτ 2 = = . ˆ 2 2 ˆ Kτˆ1H×LHϑL Bˆτ1H×LHϑL + varϑ τ1H×L EϑHτ1H×L − τHϑLL 6.7. Postačující statistiky. Předpokládejme, že distribuční funkce základního souboru X je prvkem parametrické soustavy 8FJ ; J œ Q<, kde Q je neprázdná borelovská podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L, a že nastává jeden z těchto dvou případů: (a) distribuční funkce FJ je pro každé J œ Q funkcí skoků, tj. příslušné rozdělení pravděpodobnosti je diskrétní, nebo (b) distribuční funkce FJ je pro každé J œ Q absolutně spojitá. V případě (a) označme fJ HxL pravděpodobnostní funkci náhodné veličiny X , v případě (b) nechť stejný symbol znamená hustotu pravděpodobnosti veličiny X . Sdružená pravděpodobnostní funkce resp. sdružená hustota pravděpodobnosti náhodného výběru × = HX1 , Ω, Xn L ze základního souboru X je tedy pro každé J œ Q dána formulí fϑHñL ≡ fHñL = fHx1 , …, xn L = ‰ fϑHxi L. n
i=1
Říkáme, že statistiky S1H×L = S1HX1 , …, Xn L, …, SrH×L = SrHX1 , …, Xn L, kde × = HX1 , Ω, Xn L je náhodný výběr z rozdělení X , jsou postačující pro parametr J, jestliže sdruženou pravděpodobnostní funkci resp. sdruženou hustotu pravděpodobnosti fJ Hñ L náhodného výběru × lze vyjádřit ve tvaru fϑHñL = gHS1HñL, …, SrHñL; ϑL.hHñL,
kde g, h jsou nezáporné borelovské funkce. Význam postačujících statistik spočívá v následující větě. 6.8. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s rozdělením závislým na parametru J = HJ1 , Ω, Jk L œ Q Õ Ñk , nechť S1 H×L, Ω, Sr H×L jsou postačující statistiky pro parametr J a nechť t : Q Ø Ñ je parametrická funkce. Potom ke každému odhadu t` H× L funkce t existuje borelovská funkce t* Hs1 , Ω, sr L tak, že pro odhad τ∗H×L = τ∗HS1H×L, …, SkH×LL
funkce t platí implikace ϑ ∈ Θ Eϑ τ∗H×L = Eϑ ˆ τH×L,
ˆH×L − τHϑLL2 . ϑ ∈ Θ EϑHτ∗H×L − τHϑLL2 EϑHτ
Důsledek: existuje-li nejlepší nestranný odhad pro t, potom existuje nejlepší nestranný odhad pro t tvaru t* HS1 H× L, Ω, Sr H× LL. 6.9. Rozdělení exponenciálního typu. Nechť X je diskrétní nebo spojitá náhodná veličina X , jejíž distribuční funkce je prvkem parametrické soustavy 8FJ ; J œ Q<, kde Q je neprázdná borelovská podmnožina prostoru Ñk a
M6b-06-Statistics.nb
19
J = HJ1 , Ω, Jk L. Řekneme, že X má rozdělení exponenciálního typu, jestliže její pravděpodobnostní funkce resp. hustota pravděpodobnosti je dána předpisem typu r i y j z z RHϑL VHxL , j fHx, ϑL = 0 fi fHx, ϑL = expj ‚ j z j QjHϑL UjHxLz z kj=1 {
kde množina 8x; f Hx, JL > 0< nezávisí na J œ Q a Q obsahuje k-rozměrný interval.
Je-li × = HX1 , Ω, Xn L náhodný výběr z takového základního souboru X , pak pro sdruženou hustotu pravděpodobnosti f Hñ ; JL náhodného vektoru × zřejmě platí vztah r n i y i y j z j z z j z= j z fHñ, ϑL > 0 fHñ; ϑL = expj n RHϑL + Q HϑL S HñL exp ‚ ‚ j j j z j j VHxi Lz z j z j=1 ki=1 { k { = gHS1HñL, …, SrHñL; ϑL.hHñL,
kde n i n y z j z, SjHñL = ‚ UjHxi L, hHñL = exp j j j‚ VHxi Lz z ki=1 { i=1
r y i z j z z j Q HϑL s n RHϑL + gHs1 , …, sr ; ϑL = exp j ‚ j j z j z. j j=1 { k
To znamená, že S1 H× L, Ω, Sr H× L jsou postačující statistiky pro parametr J. 6.10. Příklad. Snadno se ověří, že exponenciálního typu jsou např. exponenciální rozdělení, normální rozdělení, logaritmicko-normální rozdělení, Rayleighovo rozdělení, Maxwellovo rozdělení, Weibullovo rozdělení a Poissonovo rozdělení. Jako příklad rozdělení nepatřících k exponenciálnímu typu lze uvést rovnoměrné rozdělení a Cauchyovo rozdělení. Binomické rozdělení s pravděpodobnostní funkcí ν fHx, p, νL = J N px H1 − pLν−x , x = 0, 1, …, ν, x je exponenciálního typu, pokud n je pevně zvoleno a jediným parametrem je p. Nejlepší nestranný odhad je většinou přijatelným řešením úlohy odhadu. Pro některé parametrické funkce však vůbec žádný nestranný odhad neexistuje nebo je jeho konstrukce příliš obtížná, takže se většinou nevyplatí. V takových případech volíme např. odhady, které mají dobré asymptotické vlastnosti, což znamená, že aproximují skutečnou hodnotu odhadované funkce tím lépe, čím větší je rozsah výběru. Jedna taková vlastnost je formalizována v následující definici, další pak v definici 6.15. 6.11. Definice. Pro každé přirozené n ¥ 1 nechť ×n = HX1 , Ω, Xn L je náhodný výběr ze základního souboru, jehož distribuční funkce je prvkem parametrické soustavy 8FJ ; J œ Q<. Odhad t` H×n L, n ¥ 1, přesněji posloupnost odhadů t` H×n L, n ¥ 1, parametrické funkce t, se nazývá konzistentní, jestliže ϑ ∈ Θ fl ∂ > 0 lim Pϑ @» ˆ τH×n L − τHϑL» ≥ ∂D = 0, n→∞
¶ tj. konverguje-li posloupnost 8t` H×n L
6.12. Poznámka. Nestrannost odhadu znamená, řečeno poněkud zjednodušeně, že odhad je zatížen jenom náhodnou, nikoliv systematickou chybou. Konzistence odhadu znamená, že pro realizace dostatečně velkých náhodných výběrů × , tj. pro libovolný dostatečně velký počet pozorování, bude chyba odhadu s pravděpodobností libovolně blízkou jedné libovolně malá. 6.13. Příklad. Má-li náhodná veličina X konečnou střední hodnotu m a konečný rozptyl s2 , potom podle Čebyševovy věty pro každý náhodný výběr ×n = HX1 , Ω, Xn L ze základního souboru X platí nerovnost
20
M6b-06-Statistics.nb
σ2 P@ » ×n − µ » ≥ ∂D 2 . n∂ Má-li základní soubor navíc čtvrtý centrální moment m4 , potom podle téže věty platí také pro n ¥ 3 nerovnost 1 µ4 n−3 µ4 P@ » S2×n − σ2 » ≥ ∂D J − σ4 N . ∂2 n n Hn − 1L n ∂2 To znamená: Je-li 8FJ ; J œ Q< libovolná parametrická soustava distribučních funkcí na Ñ s konečnou střední hodnotou a konečným rozptylem a patří-li distribuční funkce základního souboru X do této soustavy, potom pro každou posloupnost ×n = HX1 , Ω, Xn L, n ¥ 1, náhodných výběrů z X výběrový průměr × n , n ¥ 1, je konzistentním odhadem paramet2 rické funkce J Ø EJ X . Jestliže FJ má navíc čtvrtý centrální moment m4 pro každé J œ Q, potom výběrový rozptyl S× , n n ¥ 1, je konzistentním odhadem parametrické funkce J Ø varJ X . Za stejných předpokladů je konzistentním, nikoliv však nestranným odhadem parametrické funkce J Ø varJ X statistika 1 n−1 1 2 M'2,×n = ‚ HXi − ×n L = S2×n = S2×n − S2×n , n n n n
i=1
neboť zřejmě pro každé ¶ > 0 a každé J œ Q platí nerovnost ∂ n∂ Pϑ @» M'2,×n − varϑ X » > ∂D Pϑ A … S2×n − varϑ X … ≥ E + Pϑ AS2×n ≥ E, 2 2 v níž obě pravděpodobnosti na pravé straně konvergují k nule. 6.14. Poznámka. V definici konzistentního odhadu se někdy požaduje splnění silnější podmínky ϑ ∈ Θ Pϑ Alim ˆ τ H×n L = τ HϑLE = 1, n→∞
¶ tj. aby posloupnost 8t` H×n L
Nechť 8Xn <¶ n=1 je posloupnost nezávislých stejně rozdělených náhodných veličin. Potom 1 PAlim ‚ Xi = µ E = 1 n→∞ n n
i=1
právě když E » X1 » < ¶ a m = E X1 . Pro výběrový průměr je důkaz triviální, v případě výběrového rozptylu je třeba použít vztahy 1 2 S2×n = ‚ HXi − ×n L = n−1 n
i=1
2 1 n 2 = ‚ HXi − µL2 − ‚ HXi − µL H×n − µL + H×n − µL = n−1 n−1 n−1 n
n
i=1
i=1
1 n 2 = ‚ HXi − µL2 − H×n − µL , n−1 n−1 n
i=1
uvědomit si, že náhodné veličiny HXi - mL2 , i = 1, 2, Ω jsou nezávislé, a použít silný zákon velkých čísel. Jak už bylo řečeno výše, pro některé parametrické funkce nestranný odhad buď vůbec neexistuje nebo je příliš obtížné jej určit. Často však lze v takových případech najít vychýlený odhad, jehož vychýlení klesá s rostoucím rozsahem náhodného výběru poměrně rychle k nule. Tato vlastnost je formalizována v následující definici.
M6b-06-Statistics.nb
21
6.15. Definice. Pro každé přirozené n ¥ 1 nechť ×n = HX1 , Ω, Xn L je náhodný výběr ze základního souboru, jehož distribuční funkce je prvkem parametrické soustavy 8FJ ; J œ Q<. Odhad t` H×n L, n ¥ 1, přesněji posloupnost odhadů t` H×n L, n ¥ 1, parametrické funkce t, se nazývá asymptoticky nestranný, jestliže ϑ ∈ Θ lim BHϑL = lim E ˆ τH×n L − τHϑL = 0. n→∞
n→∞
6.16. Příklad. Odhadem parametrické funkce J Ø varJ X uvažované v příkladech 6.5 a 6.13 je také výběrový druhý centrální moment 1 2 M'2,×n = ‚ HXi − ×L , n n
n = 1, 2, ...
i=1
Protože pro každé J œ Q a každé n > 1 n−1 n−1 n−1 M'2,×n = S2×n , Eϑ M'2,×n = Eϑ S2×n = varϑ X, n n n tento odhad je asymptoticky nestranný a konzistentní. Následující věta je snadným důsledkem Čebyševovy nerovnosti. 6.17. Věta. Pro každé přirozené n ¥ 1 nechť ×n = HX1 , Ω, Xn L je náhodný výběr ze základního souboru, jehož distribuční funkce je prvkem parametrické soustavy 8FJ ; J œ Q<. Jestliže odhad t` H×n L, n ¥ 1, parametrické funkce t je asymptoticky nestranný a splňuje podmínku lim var ˆ τH×n L = 0, n→∞
potom je konzistentní.
7. Bodové odhady parametrů: metoda momentů 7.1. Metoda momentů je rychlý a početně jednoduchý způsob konstrukce bodového odhadu parametrů rozdělení pravděpodobnosti základního souboru. Odhady touto metodou získané jsou však velmi hrubé a hodí se pouze pro předběžné posouzení problému, formulaci hypotéz nebo jako výchozí bod iteračních metod. Podstata metody momentů je velmi jednoduchá. Předpokládejme, že distribuční funkce základního souboru X je prvkem parametrické soustavy 8FJ ; J œ Q<, kde J = HJ1 , Ω, Jk L, a že X má pro každé J œ Q obecné momenty m1 = m1HϑL, …, mk = mkHϑL.
Je-li × = HX1 , Ω, Xn L je náhodný výběr z X a je-li Mr,× = ÅÅÅÅn1 ⁄ni=1 Xi r jeho výběrový r-tý obecný moment, potom Eϑ M1,× = m1HϑL, …, Eϑ Mk,× = mkHϑL,
` ` takže se lze domnívat, že hodnoty J1 , Ω , Jk parametrů J1 , Ω , Jk , které řeší soustavu rovnic m1HϑL = M1,ñ, …, mkHϑL = Mk,ñ,
kde ñ je realizace výběru × , budou přibližně rovny skutečným hodnotám parametrů J1 , Ω , Jk . Metoda momentů ` ` ` spočívá v tom, že za odhad parametru J vezmeme J = IJ1 , Ω , Jk M. Jejím vážným nedostatkem je, že nedává žádnou informaci o přesnosti tohoto odhadu. Stane-li se, že k výše uvedených rovnic nestačí k jednoznačnému určení parametrů, můžeme přidat další rovnice stejného typu, pokud X má ovšem příslušné obecné momenty. 7.2. Příklad. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru s binomickým rozdělením s parametry N a p. Chceme-li odhadnout parametry metodou momentů, postupujeme např. takto. Nejprve určíme první dva obecné momenty tohoto rozdělení:
22
M6b-06-Statistics.nb
m1 = E X = N p, m2 = E X2 = EHX − E X + E XL2 = EHX − E XL2 + 2 HE XL2 − HE XL2 , m2 = var X + HE XL2 = N p H1 − pL + N2 p2 = N2 p2 + N p − N p2 . Potom je porovnáme s výběrovými obecnými momenty M1 = × , M2 = ÅÅÅÅ1n ⁄ni=1 Xi 2 a dostaneme rovnice N p = M1 , N2 p2 + N p − N p2 = M2 . Vyřešíme-li je, dostaneme odhady ˆ M21 M2 ˆ = 1 + M − . N = , p 1 M1 M1 + M21 − M2
8. Bodové odhady parametrů: metoda maximální věrohodnosti 8.1. Uvažujme tento velmi jednoduchý příklad. Nechť X1 , X2 , X3 , X4 je náhodný výběr z alternativního rozdělení s parametrem p, o němž víme, že buď p = 0.2 nebo p = 0.4 nebo p = 0.8. Máme odhadnout hodnotu tohoto parametru na základě realizace x1 = 0, x2 = 0, x3 = 1, x4 = 0. Pravděpodobnost takovýchto výsledků je pro každou hodnotu parametru p rovna P@X1 = X2 = X4 = 0, X3 = 1D = p H1 − pL3 . Pro p = 0.2 je tedy tato pravděpodobnost rovna 0.1024, zatímco pro p = 0.4 je rovna 0.0864 a konečně pro p = 0.8 je rovna 0.0064. Získané výsledky mají tedy nejvyšší pravděpodobnost v případě p = 0.2, a proto jsme nakloněni považovat za správnou spíše tuto hodnotu parametru p než ostatní dvě. V souladu s touto úvahou proto volíme za odhad skutečné hodnoty parametru p hodnotu p` = 0.2, tedy tu z jeho možných hodnot, pro kterou je získaný výsledek nejpravděpodobnější. Metoda konstrukce bodových odhadů parametrů založená na této úvaze je známa jako metoda maximální věrohodnosti a obecně je vyložena v následujících odstavcích. 8.2. Maximálně věrohodný odhad. Předpokládejme, že distribuční funkce základního souboru X je prvkem parametrické soustavy 8FJ ; J œ Q<, kde Q je neprázdná borelovská podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L, a že nastává jeden z těchto dvou případů: (a) distribuční funkce FJ je pro každé J œ Q funkcí skoků, tj. příslušné rozdělení pravděpodobnosti je diskrétní, nebo (b) distribuční funkce FJ je pro každé J œ Q absolutně spojitá. V případě (a) označme fJ HxL pravděpodobnostní funkci náhodné veličiny X , v případě (b) nechť stejný symbol znamená hustotu pravděpodobnosti veličiny X . Sdružená pravděpodobnostní funkce resp. sdružená hustota pravděpodobnosti náhodného výběru × = HX1 , Ω, Xn L ze základního souboru X je tedy pro každé J œ Q dána formulí fϑHñL ≡ fHñ; ϑL = fHx1 , …, xn ; ϑL = ‰ fϑHxi L. n
i=1
Nyní už můžeme vyslovit definici maximálně věrohodného odhadu: Říkáme, že vektor statistik ` ` ` JH×L = IJ1H×L, Ω, Jk H×LM, ` kde J : Ñn Ø Ñk je borelovsky měřitelné zobrazení, je maximálně věrohodný odhad parametru J, jestliže ˆ ϑ ∈ Θ fH×, ϑH×LL ≥ fH×; ϑL.
` ` Maximálně věrohodným odhadem parametrické funkce tHJL pak nazýváme funkci tIJH×LM, kde J H× L je maximálně věrohodný odhad parametru J. 8.3. Funkce věrohodnosti. Nechť jsou splněny předpoklady odstavce 8.2 a nechť f Hñ; JL označuje pro každé J œ Q sdruženou pravděpodobnostní funkci resp. sdruženou hustotu pravděpodobnosti náhodného výběru × = HX1 , Ω, Xn L ze základního souboru X . Funkce věrohodnosti je funkce L : Q Ø Ñ definovaná v tomto kontextu pro každé ñ œ Ñn formulí
M6b-06-Statistics.nb
23
fHñ; ϑL ≠ 0 LHϑL = fHñ; ϑL. ` Je-li J H× L maximálně věrohodný odhad parametru J a je-li LHJL funkce věrohodnosti určená realizací ñ náhodného výběru × , potom platí implikace ˆ ϑ ∈ Θ LHϑHñLL ≥ LHϑL. ` Má-li tedy funkce věrohodnosti LHJL v bodě JHñL parciální derivace, jsou tyto derivace nutně nulové.
Odtud plyne: je-li ñ realizace náhodného výběru × a je-li příslušná funkce věrohodnosti LHJL na svém definičním ` oboru diferencovatelná, potom maximálně věrohodný odhad JHñL parametru J je třeba hledat mezi jejími stacionárními body. Při výpočtech je přitom zpravidla výhodnější pracovat s funkcí ln LHJL, která má stejné stacionární body jako funkce LHJL. Rovnice ∂ ln LHϑL = 0, i = 1, …, k, ∂ ϑi které je tedy třeba řešit, se nazývají věrohodnostní rovnice. 8.4. Příklad: Exponenciální rozdělení. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s exponenciálním rozdělením, takže hustota pravděpodobnosti f Hx, lL veličiny X je dána formulí fHx, λL = λ −λ x pro x > 0, fHx, λL = 0 pro x 0 a sdružená hustota pravděpodobnosti náhodného vektoru × je dána formulí fHñ, λL = fHx1 , …, xn L = :
¤ni=1 λ −λ xi , ñ > 0, ¬ Hñ > 0L. 0,
Funkce věrohodnosti příslušná k realizaci ñ = Hx1 , Ω, xn L splňující podmínku ñ > 0 má tedy tvar LHλL = ‰ λ −λ xi . n
i=1
Protože ∂ ln LHλL n ln LHλL = ‚ Hln λ − λ xi L, = − ‚ xi , ∂λ λ n
N
i=1
i=1
věrohodnostní rovnice má tvar n n 1 1 − ‚ xi = 0 & − n ñ = 0 & λ = & E X = = ñ. λ λ ñ λ N
i=1
1 To znamená, že maximálně věrohodným odhadem parametru l = ÅÅÅÅ ÅÅÅÅÅÅ exponenciálního rozdělení je statistika ÅÅÅÅ1ÅÅÅ , tj. EX × převrácená hodnota výběrového průměru.
Maximálně věrohodným odhadem střední hodnoty E X = ÅÅÅÅ1l je výběrový průměr × . O tomto odhadu už víme, že je nestranný a konzistentní. 2
1 Maximálně věrohodným odhadem rozptylu var X = ÅÅÅÅ ÅÅ je druhá mocnina × výběrového průměru. Protože l2
k! E Xk = , λk n n i y i y 1 1 2 j z j z+ j z j E × = E X = E ‚ ‚ j j X2i z z iz j z j z 2 2 n n ki=1 { ki=1 { 1 1 = J1 + N n λ2 2
i y j z 2 1 n Hn − 1L z j Ej + = ‚ 2 Xi Xj z j z 2 j z n n λ2 n2 λ2 1i<jn k { 1 = J1 + N var X, n
24
M6b-06-Statistics.nb
maximálně věrohodný odhad rozptylu je vychýlený ale asymptoticky nestranný. Protože počet posloupností i1 , i2 , Ω, in celých nezáporných čísel se součtem 4 je stejně jako počet rozmístění 4 stejných předmětů do n přihrádek roven J
n+3 n Hn − 1L Hn − 2L Hn − 3L 6 n + 11 n2 + 6 n3 + n4 N = = , 4! 24 4
rozptyl tohoto odhadu je dán formulí 2
4
2
var × = E × − E2 × = 1 = n4
i1 +…+in =4 i1 ≥0,…,in ≥0
1 = n4
4! = n4 λ4
‚
‚
4! 1 1 2 E HXi11 … Xinn L − J1 + N = i1 ! …in ! λ4 n
i1 +…+in =4 i1 ≥0,…,in ≥0
‚ 1
i1 +…+in =4 i1 ≥0,…,in ≥0
4! i1 ! …in ! 1 1 2 − J1 + N = 4 4 i1 ! …in ! λ λ n
n+3 1 1 2 24 1 1 2 − J1 + N = J N − J1 + N = 4 4 4 4 λ n n λ λ n 4
6 n + 11 n2 + 6 n3 + n4 H1 + nL2 6 + 10 n + 4 n2 = − = . 4 4 2 4 n λ n λ n3 λ4 êêê2 êêê2 Pro n Ø ¶ tedy var × Ø 0, což znamená, že maximálně věrohodný odhad × rozptylu základního souboru je konzistentní. 8.5. Příklad: Normální rozdělení. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s normálním rozdělením NHm, s2 L, takže X má hustotu pravděpodobnosti Hx−µL 1 − 2 σ2 , xεÑ, fHx, µ, σL = !
è!!!!!!! σ 2π 2
a náhodný vektor × má sdruženou hustotu pravděpodobnosti Hxi −µL 1 − 2 σ2 , ñ ∈ Ñn .
f Hñ, µ, σL = ‰ σn H2 πLnê2 i=1 2
n
Funkce věrohodnosti má tedy pro každou realizaci ñ = Hx1 , Ω, xn L náhodného výběru × tvar Hxi −µL 1 − 2 σ2 . LHµ, σL =
‰ σn H2 πLnê2 i=1 2
n
Odtud postupně dostáváme n Hxi − µL2 ln LHµ, σL = −n lnHσL − lnH2 πL − ‚ , 2 2 σ2 n
i=1
∂ ln LHµ, σL Hxi − µL ∂ ln LHµ, σL n Hxi − µL2 = ‚ , = − + , ‚ ∂µ σ2 ∂σ σ σ3 n
n
i=1
i=1
takže věrohodnostní rovnice mají tvar Hxi − µL n Hxi − µL2 = 0, − + ‚ = 0. ‚ 2 σ σ σ3 n
n
i=1
i=1
M6b-06-Statistics.nb
25
Protože jejich řešení je zřejmě dáno formulemi 1 1 n−1 1 µ = ‚ xi = ñ, σ2 = ‚ Hxi − µL2 = ‚ Hxi − ñL2 = S2 = M'2 , n n n n n
n
n
i=1
i=1
i=1
maximálně věrohodným odhadem střední hodnoty m resp. rozptylu s2 normálního rozdělení je výběrový průměr × resp. druhý výběrový centrální moment M2' . Výběrový rozptyl S 2 je tedy nestranným, nikoliv však maximálně věrohodným odhadem rozptylu normálního rozdělení. 8.6. Příklad: Logaritmicko-normální rozdělení. Logaritmicko-normální rozdělení LNHm, s2 L (používá se často při popisu velikosti částic disperzních fází kovových materiálů nebo velikosti částic sypkých materiálů a v teorii spolehlivosti) je rozdělení pravděpodobnosti s hustotou l Hln x−µL2 o o 1 − 2 o 2 σ è!!!!!!!! fHx, µ, σ L = m σ x 2 π o o o 0 n
pro x > 0,
2
pro x 0.
Náhodný výběr × = HX1 , Ω, Xn L ze základního souboru s tímto rozdělením má tedy sdruženou hustotu pravděpodobnosti l o o ¤ni=1 x−1 i fHñ, µ, σ L = m o o σn H2 πLnê2 n 2
Hln xi −µL2 n − 2 2σ ¤i=1
0
pro ñ > 0, pro ¬ Hñ > 0L,
a funkce věrohodnosti má pro každou jeho realizaci ñ = Hx1 , Ω, xn L > 0 tvar
Hln xi −µL ¤ni=1 x−1 − . i 2 2σ LHµ, σL = nê2 ‰
n σ H2 πL i=1 2
n
Pro funkci ln LHm, sL a její parciální drivace postupně dostaneme n Hln xi − µL2 ln LHµ, σL = −‚ ln xi − n ln σ − lnH2 πL − ‚ , 2 2 σ2 n
n
i=1
i=1
∂ LHµ, σL ln xi − µ = ‚ , ∂µ σ2 n
i=1
∂ LHµ, σL n Hln xi − µL2 = − + ‚ . ∂σ σ σ3 n
i=1
Věrohodnostní rovnice mají tedy tvar Hln xi − µL2 ln xi − µ n = 0, − + ‚ = 0 ‚ 2 σ σ σ3 n
n
i=1
i=1
a jediné řešení 1 µ = ‚ ln xi , n n
i=1
n n i1 n y 1 1 j z σ2 = ‚ Hln xi − µL2 = ‚ Hln xi L2 − j ‚ ln xi z j z j z . n n n i=1 i=1 k i=1 { 2
Maximálně věrohodnými odhady parametrů m a s2 logaritmicko-normálního rozdělení jsou tedy statistiky 1 1 ˆ ˆ2 = ˆL2 . µ = ‚ ln Xi , σ ‚ Hln Xi − µ n n n
n
i=1
i=1
26
M6b-06-Statistics.nb
Odtud plyne, že maximálně věrohodnými odhady střední hodnoty resp. rozptylu tohoto rozdělení, které jsou dány formulemi σ2 E X = expJµ + N, var X = expH2 µ + σ2 L Hexp σ2 − 1L, 2 jsou statistiky iˆ jµ + expj j k
ˆ2 y σ ˆ+σ ˆ2 M Iexp σ ˆ2 − 1M. z resp. expI2 µ z 2 z {
Snadno se ověří, že m` je výběrový průměr náhodného výběru Ø = HY1 , Ω, Yn L = Hln X1 , Ω, ln Xn L ze základního n `2 souboru ln X , který má normální rozdělení NHm, s2 L, a že ÅÅÅÅ ÅÅÅÅÅÅ s je výběrový rozptyl tohoto výběru. Podle věty 4.3 n-1 2 ` ` jsou tedy náhodné veličiny m a s nezávislé a proto i i jˆ j Ej jexpj jµ + k k
ˆ2 yy ˆ ˆ2 σ z = EI µ M EI σ ê2 M, zz z 2 zz {{
ˆ+σ ˆ2 M Iexp σ ˆ2 − 1MM = EI 2 µˆ M IEI 2 σˆ2 M − EI σˆ2 MM, EIexp I2 µ `2
ns pokud mají pravé strany smysl. Uvědomíme-li si ještě, že podle věty 4.3 má veličina ÅÅÅÅ ÅÅÅÅÅÅ rozdělení pravděpodobnosti s2 2 c s Hn - 1L stupni volnosti, můžeme po delším výpočtu dospět k formulím
i i jˆ j Ej jexpj jµ + k k
1−n ˆ2 yy 2 2 σ σ σ µ+ z z 2 n J1 − N z z =
2 zz n {{ 2
σ ˆ+σ ˆ2 M Iexp σ ˆ2 − 1MM = 2 Iµ+ n M EIexpI2 µ 2
pro n > σ2 ,
i 2 σ2 2 y 4 σ2 2 z j j − J1 − N z N z j z jJ1 − n n { k 1−n
1−n
pro n > 4 σ2 .
Z nich je zřejmé, že maximálně věrohodné odhady střední hodnoty a rozptylu logaritmicko-normálního rozdělení jsou vychýlené. Na druhé straně z nich ale snadno plyne, že tyto odhady jsou asymptoticky nestranné. Podobným způsobem lze najít formule i iˆ j j varj jexpj jµ + k k
1−n 1−n ˆ2 yy σ σ σ 2 σ2 2 σ2 2 Iµ+ 2 µ+ z n M J1 − N n J1 − N z z =
z −
n 2 zz n {{ 2
2
ˆ+σ ˆ2 M Iexp σ ˆ2 − 1MM = varIexpI2 µ
pro n > 2 σ2 ,
i 2σ 8 σ2 2 6 σ2 2 4 σ2 2 y j z = 4 Iµ+ n M j N − 2 J1 − N + J1 − N z j z jJ1 − z− n n n k { 1−n
1−n
1−n
2
σ 4 Iµ+ n M 2
i 4 σ2 2 2 σ2 2 y j z j z J1 − N − J1 − N j z j z n n k { 1−n
1−n
2
pro n > 8 σ2 .
Z těchto formulí snadno plyne, že i i jˆ j lim varj jexpj jµ + n→∞ k k
ˆ2 yy σ ˆ+σ ˆ2 M Iexp σ ˆ2 − 1MM = 0, z = 0, lim varIexpI2 µ zz z 2 zz n→∞ {{
a tedy podle věty 6.17 jsou maximálně věrohodné odhady střední hodnoty a rozptylu logaritmicko-normálního rozdělení konzistentní. 8.7. Příklad: Rayleighovo rozdělení. Náhodná veličina X má Rayleighovo rozdělení pravděpodobnosti (používá se např. při zkoumání výstřednosti strojírenských součástek nebo v teorii spolehlivosti), má-li hustotu pravděpodobnosti
M6b-06-Statistics.nb
27
2
x x − fHx, σL = 2 σ2 2 σ
pro x > 0, f Hx, σL = 0 pro x 0.
Sdružená hustota pravděpodobnosti náhodného výběru × = HX1 , Ω, Xn L z takového základního souboru je pak n i xi 2 y 1 j − j z 2 σ2 z fHñ, σL = x
j z ‰ z j i σ2 n i=1 k {
pro ñ > 0, fHñ, σL = 0 pro ¬ Hñ > 0L.
Funkce věrohodnosti je tedy definována pro každou realizaci ñ = Hx1 , Ω, xn L náhodného výběru × , která splňuje podmínku ñ > 0, a má tvar n i n n xi 2 y xi 2 1 1 j − − 2 z j z 2 σ 2 σ2 . LHσL = x
= x ×
j z ‰ ‰ ‰ i z j i σ2 n σ2 n i=1 k i=1 i=1 {
Odtud postupně dostáváme xi 2 ln LHσL = −2 n lnHσL + ‚ lnHxi L − ‚ , 2 σ2 n
n
i=1
i=1
∂ ln LHσL 2n xi 2 = − + ‚ , ∂σ σ σ3 n
i=1
takže jediná věrohodnostní rovnice má tvar 1 2n xi 2 1 − + ‚ = 0 & σ2 = ‚ xi 2 = M2 . 2 σ σ3 2n n
n
i=1
i=1
Maximálně věrohodným odhadem jediného parametru s2 Rayleighova rozdělení je tedy statistika 1 1 ‚ Xi 2 = M2 , 2n 2 n
i=1
kde M2 je výběrový druhý obecný moment výběru × . Protože, jak se snadno zjistí celkem jednoduchým výpočtem, střední hodnota a rozptyl náhodné veličiny X s Rayleighovým rozdělením jsou dány vztahy π π E X = $%%%%%% % σ, var X = I2 − M σ2 , 2 2 maximálně věrohodným odhadem střední hodnoty resp. rozptylu tohoto rozdělení je statistika
è!!!!!!!!!! π M2 π è!!!!!! U 0.886227 M2 resp. I1 − M M2 U 0.214602 M2 . 2 4
Kromě toho ze vztahu EHX 2 L = var X + HE X L2 a formulí pro E X a var X plyne, že odhad ÅÅ12ÅÅ M2 parametru s2 a odhad H1 - ÅÅÅÅp4 L M2 rozptylu var X jsou nestranné. è!!!!!!!!!!!!!!
p M2 Naproti tomu odhad ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ střední hodnoty E X je pouze asymptoticky nestranný, ale cesta k tomuto výsledku není 2 právě jednoduchá. Z vět o transformaci spojitých náhodných veličin a jejich hustot snadno vyplývá, že náhodné veličiny
X 2 X 2 Y1 = 1è!!!! , …, Yn = nè!!!! σ2 σ σ2 σ jsou nezávislé a mají hustotu pravděpodobnosti
28
M6b-06-Statistics.nb
è!!!! ! i è!!! σ σ y gHyL = expj j− yz z pro y ≥ 0, 2 2 k {
g HyL = 0 pro y < 0. è!!!!!!
s Náhodný vektor Ø = HY1 , Ω, Yn L je tedy náhodným výběrem z exponenciálního rozdělení s parametrem l = ÅÅÅÅÅÅÅÅ ÅÅ . 2 Matematickou indukcí podle n se snadno dokáže, že pro libovolný takový náhodný vektor Ø náhodná veličina
Z = 2 λ ‚ Yi n
i=1
má hustotu pravděpodobnosti z zn−1 expH− 2 L pro z ≥ 0, hHzL = n 2 Γ HnL
hHzL = 0 pro z < 0,
a tedy c2 -rozdělení s 2 n stupni volnosti. Odtud v našem speciálním případě vyplývá, že náhodná veličina
è!!!!!!!!!! n n X 2 n 1 n M2 è!!!! i 2 % Z = $%%%%%%%%%%%%%%%%%%%% 2 λ ⁄ Yi = $%%%%%%%%%%%%%%%%% = X = ⁄ ⁄ $%%%%%%%%%%%%%% % i 2 σ σ i=1 i=1 σ i=1
má střední hodnotu
a tedy
è!!!! ∞ z 1 2 ΓH è!!!! zn−1 expH− è!!!! 2 L z = 2 + nL EI ZM = ‡ z , n 2 ΓHnL ΓHnL 0 1 nL i è!!!!!!!!!! π M2 y σπ H2 n − 1L !! è!!!! ΓH 2 + Ej z = ! . j z = σ π è!!!!!!! ! è!!!!!!! 2 2 2 n ΓHnL H2 n − 2L !! 2 n k {
Z integrálního počtu funkcí jedné proměnné je známa tzv. Wallisova formule, jejíž autor žil v letech 1616 - 1703, podle které 2 n HH2 n − 2L !!L2 HH2 nL !!L2 π lim = lim = . n→∞ n→∞ 2 HH2 n − 1L !!L2 H2 n + 1L HH2 n − 1L !!L2 Z této formule okamžitě plyne, že H2 n − 1L !! 2 lim = $%%%%%% % , ! n→∞ è!!!!!!! π 2 n H2 n − 2L !! a tedy
i è!!!!!!!!!! π M2 y σπ 2 π lim E j z % = σ $%%%%%% % . j z = $%%%%%% n→∞ π 2 2 2 k { è!!!!!!!!!!!!!!
p M2 Tím je důkaz asymptotické nestrannosti odhadu ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ střední hodnoty Rayleighova rozdělení pravděpodobnosti 2 dokončen.
Ukážeme ještě, že maximálně věrohodné odhady parametru s2 , střední hodnoty a rozptylu Rayleighova rozdělení jsou konzistentní. Stačí zřejmě ukázat, že lim var M2 = lim var n→∞
n→∞
è!!!!!! M2 = 0.
Z výše dokázaného vyplývá identita var
π HH2 n − 1L !!L2 y i è!!!!!! è!!!!!!! M2 = EHM2 L − E2I M2 M = 2 σ2 j z j1 − z, 2 2 n HH2 n − 2L !!L2 { k
M6b-06-Statistics.nb
29
v níž výraz v závorkách konverguje k nule. Dále vzhledem k nezávislosti náhodných veličin X1 , Ω, Xn platí identita n n 2 i y 1 1 varHX2 L E X4 − HE X2 L j 2z 2 j z var M2 = var X = varHX L = = . ‚ ‚ j z i i j z n2 n2 n 4n ki=1 { i=1
Tím je důkaz konzistence hotov, neboť pro každé reálné k > -2 E Xk = ‡
∞
0
x k x − xk 2 σ2 x = 2kê2 »σ»k ΓJ1 + N < ∞. 2 2 σ 2
8.8. Příklad: Maxwellovo rozdělení. Náhodná veličina X má Maxwellovo rozdělení pravděpodobnosti (používá se např. při studiu rychlosti molekul) s parametrem s > 0, jestliže má hustotu x2 l 2 o − # 2 x o "##### 2 σ2 fHx, σL = m π σ3
o o n0
pro x > 0, pro x 0.
Náhodný výběr × = HX1 , Ω, Xn L z takového základního souboru má proto sdruženou hustotu pravděpodobnosti n l xi 2 n o − 2 2 ¤i=1 xi 2 o H n 2 σ2
L ¤ fHñ, σL = m i=1 σ3 n π o o n0
pro ñ > 0,
pro ¬ Hñ > 0L.
Funkce věrohodnosti má tedy pro každou realizaci ñ = Hx1 , Ω, xn L > 0 takového náhodného výběru tvar xi 2 2 ¤ni=1 xi 2 − LHσL = J N 3 ‰ 2 σ2 , n π σ 2
n
n
i=1
takže n 2 xi 2 ln LHσL = lnJ N + 2 ‚ ln xi − 3 n ln σ − ‚ , 2 π 2 σ2 n
n
i=1
i=1
∂ ln LHσL 3n xi 2 = − + ‚ . ∂σ σ σ3 n
i=1
Věrohodnostní rovnice má tedy tvar 3n xi 2 1 − + ‚ = 0 & σ2 = ‚ xi 2 . σ σ3 3n n
n
i=1
i=1
Maximálně věrohodným odhadem parametru s je tedy statistika 1 n 1 ˆ= σ ⁄ Xi 2 = $%%%%%%%%%%%% M2% $%%%%%%%%%%%%%%%%%%%%%%%%% 3 n i=1 3 a maximálně věrohodným odhadem střední hodnoty E X = s "##### ÅÅÅÅ8p # resp. rozptylu var X = s2 H3 - ÅÅÅÅp8 L základního souboru X je statistika 8M 8 ˆ è!!!!!! $%%%%%% % σ = $%%%%%%%%%%%% 2 % U 0.921318 M2 3π π
8 8 ˆ2 J3 − resp. σ N = J1 − N M2 U 0.151174 M2 . π 3π
8.9. Příklad: Weibullovo rozdělení. Náhodná veličina X má Weibullovo rozdělení W Hd, cL s parametry c > 0 a d > 0, má-li hustotu pravděpodobnosti
30
M6b-06-Statistics.nb
c xc−1 −H xδ Lc l o c
δ fHx, c, δL = m o0 n
pro x > 0, pro ¬ Hx > 0L.
Weibullovo rozdělení mají např. doby života (doby do poruchy) mnohých strojních součástí a jiných zařízení, zvláště takových, u kterých se projevuje mechanické opotřebení a únava materiálu, a také některé mechanické vlastnosti materiálů, např. pevnost. Sdružená hustota pravděpodobnosti náhodného výběru × = HX1 , Ω, Xn L ze základního souboru X s Weibullovým rozdělením je tedy c x n cn c−1 −H l δ L L pro ñ > 0, o c n ¤i=1 Hxi δ fHñ, c, δL = m o0 pro ¬ Hñ > 0L n i
a věrohodnostní funkce pro každou jeho realizaci ñ = Hx1 , Ω, xn L > 0 je dána předpisem c x cn LHc, δL = ‰ Ixi c−1 −H δ L M. δc n
n
i
i=1
Tedy xi c M , ln LHc, δL = n ln c − c n ln δ + Hc − 1L ‚ ln xi − ‚ I δ n
n
i=1
i=1
∂ ln LHc, δL n xi c xi = − n ln δ + ‚ ln xi − ‚ I M ln , ∂c c δ δ n
n
i=1
i=1
xi c ∂ ln LHc, δL cn c M = − + ‚ I δ ∂δ δ δ n
i=1
a věrohodnostní rovnice mají tvar xi c xi −c n c xi c n M ln = 0, + ‚ I M = 0. − n ln δ + ‚ ln xi − ‚ I δ δ δ δ δ c n
n
n
i=1
i=1
i=1
Z druhé rovnice sice snadno vypočteme 1 δc = ‚ xi c , δ = n n
i=1
n i y 1 j z c , j ‚ xi c z j z j z n k i=1 {
1
ale soustava je řešitelná nanejvýš numericky. Ukážeme si na konkrétních datech, jak toto soustavu můžeme numericky řešit pomocí Wolframova systému Mathematica 4. << Statistics`ContinuousDistributions`; << Statistics`DataManipulation`; << Graphics`Graphics`;
M6b-06-Statistics.nb
31
SeedRandom@07324607518495042019497480653191884685D; Clear@ñD; ñ = Table@Random@
[email protected], 2DD, 8i, 1, 50
80.004, 0.067, 0.235, 0.298, 0.31, 0.353, 0.368, 0.442, 0.604, 0.635, 0.667, 0.681, 0.707, 0.763, 0.85, 0.854, 0.873, 1.03, 1.046, 1.148, 1.17, 1.198, 1.224, 1.247, 1.262, 1.351, 1.381, 1.428, 1.443, 1.484, 1.504, 1.528, 1.537, 1.642, 1.696, 1.755, 1.755, 1.897, 1.908, 1.974, 2.026, 2.465, 2.469, 2.554, 2.662, 3.11, 3.149, 3.18, 3.585, 4.518<
8Mean@ñD, Variance@ñD<
81.44074, 0.929466<
Clear@f, δD; i1 n yc cz j z ñ@@iDD δ@c_D := j ‚ j z jn z ; k i=1 { 1
n ñ@@iDD ñ@@iDD c f@c_D := − n Log @δ@cDD + ‚ Log@ñ@@iDDD − ‚ J N LogA E; c δ@cD δ@cD n
n
i=1
i=1
n = 50; Table@8c, f@cD<, 8c, 0.1, 5
0.1 1.1 2.1 3.1 4.1 N 494.602 15.8643 −18.876 −35.7812 −46.161
Table@8c, f@cD<, 8c, 1.1, 2.1, 0.2
1.1 1.3 1.5 1.7 1.9 2.1 N 15.8643 5.84033 −2.0836 −8.60004 −14.1134 −18.876
Plot@f@cD, 8c, 1.3, 1.5<, AspectRatio → 0.4D; 6 4 2
1.35 -2
1.4
1.45
1.5
32
M6b-06-Statistics.nb
cRule = FindRoot@f@cD * 0, 8c, 1.4
81.44322, 1.57395<
Střední hodnota a rozptyl náhodné veličiny X s Weibullovým rozdělením pravděpodobnosti jsou funkcemi parametrů c, a d a jsou dány formulemi 1 2 1 E X = ΓJ + 1N δ, var X = δ2 JΓJ + 1N − Γ2J + 1NN. c c c Následující tabulka ukazuje v prvním řádku přesné parametry c = 1.5, d = 2, střední hodnotu a rozptyl základního souboru, z něhož ñ pochází, v jejím druhém řádku jsou maximálně věrohodné odhady získané na základě realizace ñ a v posledním řádku jsou výběrový průměr a výběrový rozptyl. Graf pod tabulkou zobrazuje hustoty pravděpodobnosti a distribuční funkce pro přesné hodnoty parametrů a pro jejich maximálně věrohodné odhady. Přesným hodnotám odpovídají funkce, které nabývají v bodě 1 větší hodnoty. 1.5 2 1.80549 1.50276 y i j z j z j z j j 1.44322 1.57395 1.42807 1.00964 z z j z ∗ ∗ 1.44074 0.929466 { k PlotA9PDF@
[email protected], 2D, xD, ˆ, ˆ PDFAWeibullDistributionAc δE, xE, CDF@
[email protected], 2D, xD, ˆ ˆ CDFAWeibullDistributionAc, δE, xE=, 8x, 0, 5<, AspectRatio → 0.4E; 1 0.8 0.6 0.4 0.2 1
2
3
4
5
8.10. Příklad: Binomické rozdělení. Náhodná veličina X má binomické rozdělení pravděpodobnosti s parametry n œ 81, 2, 3, Ω<, p œ H0, 1L, jestliže její pravděpodobnostní funkce má tvar ν fHx, p, νL = J N px H1 − pLν−x , x = 0, 1, …, ν. x
Náhodný výběr × = HX1 , Ω, Xn L z takového základního souboru má tedy sdruženou pravděpodobnostní funkci fHñ, p, νL = ‰ J n
i=1
ν N pxi H1 − pLν−xi , i = 1, …, n, x = 0, …, ν. xi
Považujeme-li parametr n za pevně zvolený, pak funkce věrohodnosti má pro každou realizaci ñ = Hx1 , Ω, xn L výběru × tvar LHpL = ‰ J n
i=1
ν N pxi H1 − pLν−xi . xi
M6b-06-Statistics.nb
33
Postupně tedy dostaneme ln LHpL = ‚ ln J n
i=1
ν N + ‚ xi ln p + ‚ Hν − xi L lnH1 − pL, xi n
n
i=1
i=1
∂ ln LHpL xi ν − xi xi ν − xi 1 1 = ‚ − ‚ , ‚ − ‚ = 0 p = ‚ xi = ñ. ∂p p 1−p p 1−p nν ν n
n
n
n
n
i=1
i=1
i=1
i=1
i=1
Maximálně věrohodným odhadem parametru p je tedy statistika p` = ÅÅÅÅ1n × a maximálně věrohodným odhadem střední hodnoty E X = n p je statistika n p` = × . Tyto dva odhady jsou zřejmě nestranné a konzistentní. 2 Maximálně věrohodným odhadem rozptylu var X = n pH1 - pL je statistika n p` H1 - p` L = × - ÅÅÅÅ1 × . Tento odhad je n
pouze asymptoticky nestranný, neboť
1 2 1 2 E J× − × N = E × − E × = ν ν 1 1 p ν − p2 ν p − p2 = p ν − Hvar × + E2 ×L = p ν − J + p2 ν2 N = p ν H1 − pL + . ν ν n n Lze také ukázat, že je konzistentní, ale výpočet je poněkud zdlouhavý. 8.11. Příklad: Poissonovo rozdělení. Pravděpodobnostní funkce tohoto rozdělení je určena jediným parametrem l > 0 a je dána formulí λx fHx, λL = −λ , x = 0, 1, 2, … , x! takže náhodný výběr × = HX1 , Ω, Xn L ze základního souboru s tímto rozdělením pravděpodobnosti má pravděpodobnostní funkci λxi fHñ, λL = −λ n ‰ , xi = 0, 1, 2, … pro i = 1, …, n, xi ! n
i=1
a funkce věrohodnosti jeho libovolné realizace ñ = Hx1 , Ω, xn L má tvar λxi LHñL = −λ n ‰ . xi ! n
i=1
Logaritmováním a pak derivováním postupně dostaneme ln LHñL = −λ n + ‚ xi ln λ − ‚ ln Hxi !L, n
n
i=1
i=1
∂ ln LHpL xi xi 1 = −n + ‚ , −n + ‚ = 0 λ = ‚ xi = ×. λ λ n ∂p n
n
n
i=1
i=1
i=1
Protože E X = var X = l, tento odhad je současně maximálně věrohodným odhadem střední hodnoty a rozptylu základního souboru a je nestranný a konzistentní.
9. Intervalové odhady a jejich konstrukce pomocí kvantilů 9.1. Definice. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X , jehož distribuční funkce je prvkem parametrické soustavy 8FJ ; J œ Q<, kde Q je neprázdná borelovská podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L , a nechť 0 < a < 1. Dvojice statistik Ht` H× L, t` H× LL se nazývá oboustranný intervalový odhad parametrické funkce t : Q z Ñ o D
H
spolehlivosti (alespoň) 1 - a, jestliže
ˆ H×L < τHϑL < τ ˆ H×LD ≥ 1 − α. ϑ ∈ Θ Pϑ @τ D H
34
M6b-06-Statistics.nb
Statistika t`D H× L se nazývá dolní odhad parametrické funkce t : Q z Ñ o spolehlivosti (alespoň) 1 - a, jestliže ˆ H×L < τHϑLD ≥ 1 − α. ϑ ∈ Θ Pϑ @τ D
Statistika t`H H× L se nazývá horní odhad parametrické funkce t : Q z Ñ o spolehlivosti (alespoň) 1 - a, jestliže ˆ H×LD ≥ 1 − α. ϑ ∈ Θ Pϑ @τHϑL < τ H
9.2. Poznámka. Náhodné veličiny X1 , Ω, Xn a statistiky t`D H×L, t`H H×L jsou funkce na jistém pravděpodobnostním prostoru W. Konkrétní data, která experimentálně získáme, ovšem nejsou funkce na W, ale jsou to hodnoty neboli realizace náhodných veličin X1 , Ω, Xn pro jistý prvek w œ W. Sestrojíme-li tedy na jejich základě jistým přesně definovaným postupem intervalový odhad, řekněme Ha, bL, nemá smysl mluvit o pravděpodobnosti P@a < tHJL < bD, neboť všechny tři symboly a, tHJL, b představují zcela určitá čísla (i když číslo tHJL neznáme) a nerovnosti a < tHJL < b tedy buď platí nebo neplatí, tj. náš intervalový odhad je buď správný nebo nesprávný. Budeme-li však tímto postupem konstruovat intervalový odhad pro mnoho různých realizací náhodného výběru X1 , Ω, Xn , tj. pro mnoho různých prvků w œ W, můžeme se ptát, jaká je pravděpodobnost, že náš odhad bude správný. Tvrzení, že tato pravděpodobnost je (alespoň) 1 - a, tj. že náš odhad má spolehlivost (alespoň) 1 - a, pouze znamená, že poměrná četnost případů, kdy náš odhad bude správný, bude přibližně rovna 1 - a. Číslo a se ovšem volí poměrně malé, nejčastěji 0.05 nebo 0.01, takže spolehlivost je pak 0.95 resp. 0.99. Spolehlivost se také udává často v procentech, takže hodnotě a = 0.05 resp. a = 0.01 odpovídá pak spolehlivost 95 % resp. 99 %. Stejný význam má i spolehlivost dolních a horních odhadů. Kromě dostatečné spolehlivosti by měl být interval t` H× L < tHJL < t` H× L také co nejkratší. Tyto požadavky jsou však D
H
při pevném rozsahu náhodného výběru protichůdné.
Poznamenejme ještě, že podle naší definice představuje intervalový odhad otevřený interval, v němž odhadovaná hodnota parametrické funkce s jistou pravděpodobností leží. Zaměníme-li však v této definici ostré nerovnosti neostrými, bude intervalový odhad představovat uzavřený interval s toutéž vlastností. Je-li rozdělení pravděpodobnosti základního souboru spojité, není mezi těmito dvěma variantami definice 9.1 žádný rozdíl, neboť spojitost distribuční funkce implikuje ˆ H×L < τHϑL < τ ˆ H×LD = P @τ ˆ H×L τHϑL τ ˆ H×LD. ϑ ∈ Θ Pϑ @τ D H ϑ D H V opačném případě ovšem jistý rozdíl mezi těmito variantami je. 9.3. Definice. Nechť 0 < b < 1. Číslo x b se nazývá b-kvantil rozdělení pravděpodobnosti s distribuční funkcí F, jestliže Hx < xβ ⇒ FHxL < βL fl FHxβ L ≥ β. 9.4. Poznámka. Ekvivalentně lze kvantily definovat takto: je-li X náhodná veličina s distribuční funkcí F, potom x b je b-kvantil příslušného rozdělení pravděpodobnosti právě tehdy, když Hx < xβ ⇒ P@X < xD < βL fl P@X xβ D ≥ β.
Snadno je vidět, že b-kvantil x b je podmínkami v definici určen jednoznačně a že tyto podmínky lze nahradit jedinou podmínkou FHx b L = b, je-li distribuční funkce F spojitá a rostoucí. Lze také dokázat, že funkce b # x b je vždy neklesající a zleva spojitá a že je spojitá, pokud F je rostoucí. Podaná definice kvantilu však není jediná, se kterou se můžete v literatuře setkat. Všechny jsou ekvivalentní, je-li distribuční funkce spojitá a rostoucí. Není-li tato podmínka splněna, pak se mohou lišit např. tím, že buď kvantily nedefinují, nebo je definují jenom pro některé hodnoty b, nebo je nedefinují jednoznačně. 9.5. Věta. Je-li distribuční funkce F (absolutně) spojitá a rostoucí a je-li příslušná hustota pravděpodobnosti f sudá funkce, potom kvantily x b tohoto rozdělení pravděpodobnosti splňují rovnici x1−β = −xβ . Důkaz. Protože hustota pravděpodobnosti f je podle předpokladu sudá funkce,
M6b-06-Statistics.nb
35
β = FHxβ L = ‡
xβ
−∞
∞
fHtL t = 1 − ‡ fHtL t = 1 − ‡ xβ
−xβ
−∞
fHtL t = 1 − FH−xβ L,
a tedy FHx1- b L = 1 - b = FH-x b L. Odtud však plyne x1- b = -x b , neboť funkce F je podle předpokladu rostoucí. 9.6. Kvantily a konstrukce intervalových odhadů. Předpokládejme, že se nám podařilo najít funkci h náhodného výběru × = HX1 , Ω, Xn L a parametrické funkce tHJL, tj. náhodnou veličinu hH× , tHJLL, jejíž rozdělení pravděpodobnosti již nezávisí na parametru J. Jestliže 0 < a < 1 ê 2, haê2 je Ha ê 2L-kvantil a h1-aê2 je H1 - a ê 2L-kvantil tohoto rozdělení, potom, jak se snadno přesvědčíme, platí nerovnosti P@hαê2 < hH×, τHϑLL < h1−αê2 D =
α α = P@hH×, τHϑLL < h1−αê2 D − P@hH×, τHϑLL hαê2 D 1 − − = 1 − α, 2 2 P@hαê2 < hH×, τHϑLL < h1−αê2 D ≥ α α 1 − − P@hH×, τHϑLL = h1−αê2 D − − P@hH×, τHϑLL = hαê2 D ≥ 2 2 ≥ 1 − α − P@hH×, τHϑLL ∈ 8h1−αê2, hαê2
Odtud plyne: jestliže nerovnosti hαê2 < hH×, τHϑLL < h1−αê2 lze ekvivalentními úpravami převést na tvar, kde prostřední větev je rovna tHJL a krajní větve tHJL neobsahují, pak jsme sestrojili intervalový odhad ˆ ˆ H×L τDH×L < τHϑL < τ H
o spolehlivosti 1 - b, kde
α β α + P@hH×, τHϑLL ∈ 8h1−αê2, hαê2
10. Intervalové odhady parametrů normálního rozdělení 10.1. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr z normálního rozdělení NHm, s2 L, kde m œ Ñ je neznámý parametr a s2 > 0 je známá konstanta, nechť u b je b-kvantil normovaného normálního rozdělení a nechť 0 < a < 1. Jestliže × je výběrový průměr výběru × , potom σ σ y i z j j× − u1−αê2 è!!!! , × + u1−αê2 è!!!! z n n { k je oboustranný intervalový odhad parametru m o spolehlivosti 1 - a a σ σ × − u1−α è!!!! resp. × + u1−α è!!!! n n je dolní resp. horní odhad parametru m o spolehlivosti 1 - a. Důkaz. Podle věty 3.2 má výběrový průměr × normální rozdělení NHm, s2 ê nL a proto náhodná veličina è!!!! n I× - mM ë s má normální rozdělení NH0, 1L. Protože
è!!!! σ σ n H× − µL × − u1−αê2 < u1−αê2 è!!!! < µ < × + u1−αê2 è!!!! & −u1−αê2 < σ n n
a podle věty 9.5 platí rovnost uaê2 = -u1-aê2 , je
è!!!! σ σ n H× − µL < µ < × + u E = PAu < PA× − u1−αê2 < u1−αê2 E = 1 − α, 1−αê2 αê2 è!!!! è!!!! σ n n
36
M6b-06-Statistics.nb
což bylo třeba dokázat. Tvrzení o jednostranných odhadech se dokáží stejným způsobem. á 10.2. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr z normálního rozdělení NHm, s2 L, kde m œ Ñ a s2 > 0 jsou neznámé parametry, nechť t b HmL je b-kvantil Studentova t-rozdělení tHmL s m stupni volnosti a nechť 0 < a < 1. Jestliže × je výběrový průměr a S2 je výběrový rozptyl výběru × , potom S S y i j z j× − t1−αê2Hn − 1L è!!!! , × + t1−αê2Hn − 1L è!!!! z n n { k je oboustranný intervalový odhad parametru m o spolehlivosti 1 - a a S S × − t1−αê2Hn − 1L è!!!! resp. × + t1−αê2Hn − 1L è!!!! n n je dolní resp. horní odhad parametru m o spolehlivosti 1 - a. Důkaz. Podle věty 3.2 má výběrový průměr × normální rozdělení NHm, s2 ê nL a proto náhodná veličina è!!!! Hn-1L S 2 U = n I× - mM ë s má normální rozdělení NH0, 1L. Podle věty 4.3 má statistika V = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅ rozdělení c2 s n - 1 s2 stupni volnosti a náhodné veličiny U, V jsou nezávislé. Podíl è!!!! è!!!! n H× − µL σ2 % U n H× − µL = $%%%%%%%% = ! è!!!!!!!!!!!!!!!!!!!!!!! S σ S2 V ê Hn − 1L má tedy Studentovo t-rozdělení s n - 1 stupni volnosti, a proto vzhledem k ekvivalenci S S × − t1−αê2Hn − 1L è!!!! < µ < × + t1−αê2Hn − 1L è!!!! & n n è!!!! n H× − µL & −t1−αê2Hn − 1L < < t1−αê2Hn − 1L S a rovnosti taê2 Hn - 1L = -t1-aê2 Hn - 1L, viz větu 9.5, je
S S PA× − t1−αê2Hn − 1L è!!!! < µ < × + t1−αê2Hn − 1L è!!!! E = n n è!!!! n H× − µL = PA tαê2Hn − 1L < < t1−αê2Hn − 1LE = 1 − α, S
což bylo třeba dokázat. Tvrzení o jednostranných odhadech se dokáží stejným způsobem. á 10.3. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr z normálního rozdělení NHm, s2 L, kde m œ Ñ a s2 > 0 jsou neznámé parametry, nechť c2b HmL je b-kvantil rozdělení c2 HmL s m stupni volnosti a nechť 0 < a < 1. Jestliže S 2 je výběrový rozptyl výběru × , potom Hn − 1L S2 Hn − 1L S2 y i j , z 2 χ2αê2 Hn − 1L { k χ1−αê2 Hn − 1L je oboustranný intervalový odhad parametru s2 o spolehlivosti 1 - a a
Hn − 1L S2 Hn − 1L S2 resp. 2 χ2α Hn − 1L χ1−α Hn − 1L
je dolní resp. horní odhad parametru s2 o spolehlivosti 1 - a. Důkaz. Protože zřejmě Hn − 1L S2 Hn − 1L S2 < σ2 < 2 χ1−αê2 Hn − 1L χ2αê2 Hn − 1L
Hn − 1L S2 & χ2αê2 Hn − 1L < < χ21−αê2 Hn − 1L σ2
M6b-06-Statistics.nb
37
Hn-1L S a statistika ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅ má podle věty 4.3 rozdělení c2 s n - 1 stupni volnosti, je s2 Ä É Å Hn − 1L S2 Ñ Å Hn − 1L S2 Ñ 2 Ñ Å Ñ PÅ < σ < = Å Ñ 2 2 Å Ñ χ Hn − 1L χ Hn − 1L Ç 1−αê2 Ö αê2 Hn − 1L S2 = Bχ2αê2 Hn − 1L < < χ21−αê2 Hn − 1LF = 1 − α, σ2 2
což bylo třeba dokázat. Tvrzení o jednostranných odhadech se dokáží stejným způsobem. á 10.4. Tabulka intervalových odhadů pro parametry normálního rozdělení.
Parametr
Typ odhadu
Intervalový odhad na základě výběru × rozsahu n
Předpoklady
µ
Oboustranný
σ σ I× − u1−αê2 è!!!! , × + u1−αê2 è!!!! M n n
σ2 známé
µ
Dolní
µ
Horní
µ
σ × − u1−α è!!!! n
σ2 známé
σ × + u1−α è!!!! n
σ2 známé
S × − t1−αHn − 1L è!!!! n
σ2 neznámé
S S 2 Oboustranný I× − t1−αê2Hn − 1L è!!!! , × + t1−αê2Hn − 1L è!!!! M σ neznámé n n
µ
Dolní
µ
Horní
S × + t1−αHn − 1L è!!!! n
Parametr
Typ odhadu
Intervalový odhad na základě výběru × rozsahu n
Předpoklady
σ2
Oboustranný
Hn−1L S Hn−1L S I , M χ2 Hn−1L χ2 Hn−1L
µ neznámé
σ2 σ2
2
1−αê2
σ2 neznámé
2
αê2
Hn−1L S χ21−α Hn−1L 2
Dolní
Hn−1L χ2α Hn−1L S2
Horní
µ neznámé µ neznámé
10.5. Lemma. Nechť náhodný vektor HX , Y L má dvourozměrné normální rozdělení ρ σX σY z i i σX 2 yz y N2j jHµX , µY L, j j zz. σY 2 {{ k k ρ σX σY
Potom náhodná veličina Z = a X + b Y + c má normální rozdělení NHa µX + b µY + c, a2 σX 2 + 2 a b ρ σX σY + b2 σY 2 L. Důkaz. Protože
E X = µX , E Y = µY , var X = σX 2 , var Y = σY 2 , cov HX, YL = ρ σX σY ,
z vlastností střední hodnoty a kovariance snadno plyne, že E Z = a µX + b µY + c, var Z = a2 σX 2 + 2 a b ρ σX σY + b2 σY 2 . Stačí tedy ukázat, že Z - a m X - b mY - c je lineární kombinací nezávislých náhodných veličin s normálním rozdělením a nulovými středními hodnotami. Položíme-li
38
M6b-06-Statistics.nb
2 ρ σX σY y i j σX z À=j z, σY 2 { k ρ σX σY
potom hustota pravděpodobnosti náhodného vektoru HX , Y L je dána formulí
1 1 fHx, yL = expJ− Hx − µX , y − µY L.À−1 .Hx − µX , y − µY LN. è!!!!!!!!!!!!!!!!!! 2 2 π detHÀL
Protože matice À je symetrická a pozitivně definitní, existuje ortogonální matice  tak, že i α2 0 y z Á = Â.À.ÂT = j j z, α > 0, β > 0. k 0 β2 { Náhodný vektor HU , V L = Â.HX - m X , Y - mY L má tedy hustotu pravděpodobnosti 1 gHu, vL = fHÂ−1 .Hu, vLL. » detHÂL» Protože Â-1 = ÂT a det HÂL = ≤1, dostaneme postupně
1 1 gHu, vL = Hu, vL.HÂ.À−1 .ÂT L.Hu, vLN = è!!!!!!!!!!!!!!!! ! expJ− 2 2 π detHÀL
1 1 1 u2 v2 = Hu, vL.Á−1 .Hu, vLN = expJ− − N. è!!!!!!!!!!!!!!!! ! expJ− 2 2 2παβ α β2 2 π detHÁL Náhodné veličiny U , V tedy mají normální rozdělení a jsou nezávislé. Protože HX − µX , Y − µY L = Â−1 .HU, VL náhodné veličiny X - m X , Y - mY jsou lineárními kombinacemi nezávislých náhodných veličin U , V s normálním rozdělením a nulovou střední hodnotou a mají tedy normální rozdělení. Lineární kombinací veličin U, V je tedy též náhodná veličina Z − a X − b Y − c = a HX − µX L + b HY − µY L + a µX + b µY + c. Tím je důkaz o normalitě náhodné veličiny Z = a X + b Y + c hotov. á 10.6. Věta. Nechť HX1 , Y1 L, Ω, HXn , Yn L je náhodný výběr z dvourozměrného normálního rozdělení ρ σX σY y i i σX 2 y z N2j jHµX , µY L, j j zz z, σY 2 {{ k k ρ σX σY
2 jehož všechny parametry m X , mY œ Ñ, s X 2 > 0, sY 2 > 0, -1 < r < 1 jsou neznámé. Jestliže à resp. Sà je výběrový průměr resp. výběrový rozptyl náhodného výběru
à = HD1 , …, Dn L = HX1 − Y1 , …, Xn − Yn L, potom Sà Sà y i j z jà − t1−αê2Hn − 1L è!!!! , à + t1−αê2Hn − 1L è!!!! z n n { k je oboustranný intervalový odhad parametrické funkce D = m X - mY o spolehlivosti 1 - a a Sà Sà à − t1−αê2Hn − 1L è!!!! resp. à + t1−αê2Hn − 1L è!!!! n n je dolní resp. horní odhad této parametrické funkce o spolehlivosti 1 - a. Důkaz. Předpoklad o náhodných vektorech HX1 , Y1 L, Ω, HXn , Yn L a lemma 10.5 implikují, že à je náhodný výběr z normálního rozdělení NHm X - mY , s X 2 - 2 r s X sY + sY 2 L. Tvrzení věty je proto důsledkem věty 10.2. á
M6b-06-Statistics.nb
39
10.7. Věta. Nechť × = HX1 , Ω, Xm L je náhodný výběr z normálního rozdělení NHm X , s2 L, nechť Ø = HY1 , Ω, Yn L je náhodný výběr z normálního rozdělení NHmY , s2 L a nechť oba výběry jsou vzájemně nezávislé. Jestliže × , Ø jsou 2 výběrové průměry výběrů × , Ø a S× , SØ2 jsou jejich výběrové rozptyly, potom platí: m+n (a) Rozdíl × - Ø má rozdělení NHm X - mY , ÅÅÅÅÅÅÅÅ ÅÅÅ s2 L. mn
(b) Statistika Hm − 1L S2× + Hn − 1L S2Ø S2∗ = m+n−2 je nestranným odhadem parametru s2 . (c) Náhodná veličina Hm + n − 2L S2∗ σ2 má c2 -rozdělení o m + n - 2 stupních volnosti a náhodná veličina
× − Ø − HµX − µY L T = m+n # S∗ "######### mn
má Studentovo t-rozdělení o m + n - 2 stupních volnosti. (d) Jsou-li m X , mY , s2 vesměs neznámé parametry, potom i m+n m+n y j z j , × − Ø + t1−αê2Hm + n − 2L S∗ $%%%%%%%%%%%%%% z j z j× − Ø − t1−αê2Hm + n − 2L S∗ $%%%%%%%%%%%%%% mn mn z k { je oboustranný intervalový odhad parametrické funkce D = m X - mY o spolehlivosti 1 - a a m+n m+n × − Ø − t1−αHm + n − 2L S∗ $%%%%%%%%%%%%%%% % resp. × − Ø + t1−αHm + n − 2L S∗ $%%%%%%%%%%%%%% mn mn je dolní resp. horní odhad této parametrické funkce o spolehlivosti 1 - a. Důkaz. (a) Náhodné veličiny × , Ø jsou nezávislé, neboť náhodné výběry × , Ø jsou nezávislé, a podle věty 3.2 mají normální rozdělení NHm X , s ê mL resp. NHmY , s ê nL. Náhodná veličina × - Ø má tedy normální rozdělení σ2 σ2 m+n NJµX − µY , + N = NIµX − µY , σ2 M. m n mn
2 (b) Plyne z nestrannosti odhadů S× , SØ2 parametru s2 a linearity střední hodnoty. Hm-1L S 2
Hn-1L S 2
× (c) Náhodné veličiny ÅÅÅÅÅÅÅÅsÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅØÅÅÅ jsou nezávislé, protože náhodné výběry × , Ø jsou nezávislé, a mají podle věty 2 ÅÅÅÅÅÅ , ÅÅÅÅÅÅÅÅ s2 4.3 rozdělení c2 s m - 1 resp. n - 1 stupni volnosti. Jejich součet má proto rozdělení c2 s m + n - 2 stupni volnosti.
Zřejmě
× − Ø − HµX − µY L × − Ø − HµX − µY L 1 T = = , 2 m+n # m+n "######### "############### # "################################################# Hm+n−2L S 2 ∗ S∗ σ ê Hm + n − 2L# 2 mn mn σ
neboli U T = ! , è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! V ê Hm + n − 2L kde U má normované normální rozdělení a V má rozdělení c2 s m + n - 2 stupni volnosti. To však znamená, že T má Studentovo t-rozdělení s m + n - 2 stupni volnosti. (d) Plyne snadno z tvrzení (c). á
40
M6b-06-Statistics.nb
10.8. Tabulka intervalových odhadů pro rozdíl středních hodnot m X - mY dvou nezávislých výběrů × a Ø rozsahů m a n z rozdělení NHm X , s2 L a NHmY , s2 L Typ odhadu
Intervalový odhad
m+n # m+n # "######### Oboustranný I× − Ø − u1−αê2 σ "######### m n , × − Ø + u1−αê2 σ mn M m+n # × − Ø − u1−α σ "######### mn
Dolní
m+n # × − Ø + u1−α σ "######### mn
Horní
m+n # I× − Ø − t1−αê2Hn + m − 2L S∗ "######### mn , m+n # × − Ø + t1−αê2Hn + m − 2L S∗ "######### mn M
Oboustranný
m+n # × − Ø − t1−αHn + m − 2L S∗ "######### mn
Dolní
m+n # × − Ø + t1−αHn + m − 2L S∗ "######### mn
Horní
Předpoklady σ2 známé σ2 známé σ2 známé σ2 neznámé σ2 neznámé σ2 neznámé
10.9. Věta. Nechť × = HX1 , Ω, Xm L je náhodný výběr z normálního rozdělení NHm X , s X 2 L, nechť Ø = HY1 , Ω, Yn L je náhodný výběr z normálního rozdělení NHmY , sY 2 L, nechť oba výběry jsou vzájemně nezávislé a nechť F b Hr, sL je bkvantil Fisherova-Snedecorova F-rozdělení FHr, sL o r a s stupních volnosti. Potom podíl S2× σY 2 F = S2Ø σX 2 má Fisherovo-Snedecorovo F-rozdělení FHm - 1, n - 1L o m - 1 a n - 1stupních volnosti. Jsou-li m X , mY , s X 2 , sY 2 vesměs neznámé parametry, potom S2× S2× J , N 2 2 SØ F1−αê2 Hm − 1, n − 1L SØ Fαê2 Hm − 1, n − 1L je oboustranný intervalový odhad parametrické funkce s X 2 ê sY 2 o spolehlivosti 1 - a a S2× S2× resp. 2 2 SØ F1−α Hm − 1, n − 1L SØ Fα Hm − 1, n − 1L je dolní resp. horní odhad této parametrické funkce o spolehlivosti 1 - a. Důkaz. Zřejmě Hm − 1L S2× Hn − 1L S2Ø S2× σY 2 U ê Hm − 1L U = , V = F = = , 2 2 σX σY V ê Hn − 1L S2Ø σX 2 což dokazuje tvrzení o rozdělení náhodné veličiny F. Tvrzení o odhadech je okamžitým důsledkem ekvivalence nerovností S2× σX 2 S2× < < , 2 2 2 σY SØ F1−αê2 Hm − 1, n − 1L SØ Fαê2 Hm − 1, n − 1L S2× σY 2 Fαê2 Hm − 1, n − 1L < < F1−αê2 Hm − 1, n − 1L S2Ø σX 2
a tvrzení o rozdělení veličiny F. á
M6b-06-Statistics.nb
41
11. Intervalové odhady parametrů některých dalších rozdělení 11.1. Logaritmicko-normální rozdělení. Je-li × = HX1 , Ω, Xn L náhodný výběr ze základního souboru X s logaritmicko-normálním rozdělením LNHm, s2 L, potom ln × = Hln X1 , …, ln Xn L
je náhodný výběr z ln X a ln X má normální rozdělení NHm, s2 L. To znamená, že intervalové odhady parametrů m, s2 lze získat aplikací vět 10.1 - 10.3 na náhodný výběr ln × . Analogicky můžeme v případě nezávislých náhodných výběrů × = HX1 , Ω, Xm L a Ø = HY1 , Ω, Yn L z rozdělení LNHm X , s2 L resp. LNHmY , s2 L aplikovat větu 10.7 na náhodné výběry ln × a ln Ø a získat intervalový odhad pro rozdíl m X - mY . Jsou-li × a Ø náhodné výběry z rozdělení LNHm X , s X 2 L resp. LNHmY , sY 2 L s neznámými parametry m X , mY , s X 2 , sY 2 , pak aplikací věty 10.9 na náhodné výběry ln × a ln Ø získáme intervalový odhad pro podíl s X 2 ê sY 2 . 11.2. Exponenciální rozdělení. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s exponenciálním rozdělením pravděpodobnosti s parametrem l, tj. s hustotou pravděpodobnosti fHx, λL = 0 pro x 0, fHx, λL = λ −λ x pro x > 0. Matematickou indukcí se snadno odvodí, že náhodná veličina n × = X1 + Ω + Xn má rozdělení s hustotou pravděpodobnosti λn xn−1 −λ x fnHx, λL = 0 pro x 0, fnHx, λL = pro x > 0. ΓHnL Náhodná veličina 2 l n × má tedy rozdělení s hustotou pravděpodobnosti
xn−1 −xê2 l 1 x o 2n ΓHnL gnHxL = fnI , λM = m o 2λ 2λ 0 n
pro x > 0, pro x 0.
Na druhé straně rozdělení c2 s n stupni volnosti má hustotu pravděpodobnosti xnê2−1 −xê2 l o 2nê2 ΓHnê2L fnHxL = m o 0 n
pro x > 0, pro x 0.
Tedy gn HxL = f2 n HxL, což znamená, že náhodná veličina 2 l n × má rozdělení c2 s 2 n stupni volnosti. Odtud snadno vyplývá následující věta. 11.3. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr z exponenciálního rozdělení se střední hodnotou 1 ê l, kde l > 0 je neznámý parametr, nechť c2b HmL je b-kvantil rozdělení c2 HmL s m stupni volnosti a nechť 0 < a < 1. Jestliže × je výběrový průměr výběru × , potom χ2αê2H2 nL χ21−αê2H2 nL y i j , z j z 2n× k 2n× { je oboustranný intervalový odhad parametru l o spolehlivosti 1 - a a
χ2αH2 nL χ21−αH2 nL resp. 2n× 2n×
je dolní resp. horní odhad parametru l o spolehlivosti 1 - a. 11.4. Rayleighovo rozdělení. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s Rayleighovým rozdělením pravděpodobnosti s parametrem s2 , tj. s hustotou pravděpodobnosti x x2 fHx, σL = 0 pro x 0, fHx, σL = expJ− 2 N pro x > 0. σ2 2σ
42
M6b-06-Statistics.nb
Náhodný vektor X1 2 X 2 y i j Ø = HY1 , …, Yn L = j , …, nè!!! ! z z è!!!! σ2 σ { k σ2 σ 2
X je pak náhodným výběrem ze základního souboru Y = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ a protože pro y > 0 2 è!!!!!! s
=‡
σ5ê4 è!!!! y
0
s
è!!!! P@Y yD = PA0 X σ5ê4 y E = ƒ ƒ ƒ ƒ x2 ƒ ƒ t = ƒ ƒ 2 y y è!!!! è!!!! y è!!!! ƒ ƒ i 2 x ƒ ƒ σ σ i x σ σ z j z ƒ ƒ j z j ƒ ƒ x = exp − = exp − tz t, j z j ƒ ƒ ‡ j 2 σ2 z ƒ ƒ σ2 2 2 2 x ƒ ƒ k { ƒ t = ƒ 0 x { k ƒ ƒ è!!!! ƒ ƒ ƒ ƒ σ2 σ è!!!!!!
s Y má exponenciální rozdělení pravděpodobnosti s parametrem l = ÅÅÅÅÅÅÅÅ ÅÅ . Odtud a z věty 11.3 snadno vyplývá 2 2 následující věta o intervalových odhadech parametru s Rayleighova rozdělení.
11.5. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr z Rayleighova rozdělení s neznámým parametrem s2 , nechť je b-kvantil rozdělení c2 HmL s m stupni volnosti a nechť 0 < a < 1. Jestliže M2 je výběrový druhý obecný moment výběru × , potom c2b HmL
n M2 n M2 i j z , y χ2αê2H2 nL { k χ21−αê2H2 nL je oboustranný intervalový odhad parametru s2 o spolehlivosti 1 - a a n M2 n M2 resp. χ2αH2 nL χ21−αH2 nL je dolní resp. horní odhad parametru s2 o spolehlivosti 1 - a. 11.6. Weibullovo rozdělení. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s Weibullovým rozdělením. Náhodná veličina X má tedy hustotu pravděpodobnosti c xc−1 −H xδ Lc pro x > 0, l o δc
fHx, c, δL = m o 0 pro ¬ Hx > 0L, n c
X kde c > 0, d > 0 jsou parametry. Protože pro náhodnou veličinu Y = H ÅÅÅÅ Å L a y > 0 zřejmě platí d
P@Y yD = P@X δ y
1êc
D=‡
δ y1êc
0
x c ƒ ƒ t = H ƒ c xc−1 −H xδ Lc δ L ƒ ƒ c
x = ƒ ƒ xc−1 δ ƒ ƒ ƒ t = c δc x
ƒ y ƒ ƒ ƒ ƒ =
−t t, ƒ ‡ ƒ ƒ ƒ 0 ƒ
Y má exponenciální rozdělení s parametrem l = 1. Z vlastností nezávislých náhodných veličin dále plyne, že X1 c Xn c Ø = HY1 , …, Yn L = JJ N , …, J N N δ δ je náhodný výběr z Y . Z věty 11.3 proto vyplývá následující věta. 11.7. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s Weibullovým rozdělením se známým parametrem c a neznámým parametrem d, nechť c2b HmL je b-kvantil rozdělení c2 HmL s m stupni volnosti a nechť 0 < a < 1. Jestliže Mc = ÅÅÅÅ1n ⁄ni=1 Xi c je výběrový c-tý obecný moment výběru × , potom 2 n Mc 2 n Mc y i j , z χ2αê2H2 nL { k χ21−αê2H2 nL
je oboustranný intervalový odhad parametrické funkce dc o spolehlivosti 1 - a a 2 n Mc 2 n Mc resp. 2 2H2 χ nL χ1−αH2 nL α
M6b-06-Statistics.nb
43
je dolní resp. horní odhad této parametrické funkce o spolehlivosti 1 - a. 11.8. Binomické rozdělení. Nechť X je náhodná veličina s binomickým rozdělením BiHn, pL, jehož pravděpodobnostní funkce je dána formulí ν fHk, pL = Pp @X = kD = J N pk H1 − pLν−k , k = 0, 1, …, ν, k kde n je známá konstanta a p œ H0, 1L je neznámý parametr. Uvažujme funkci ν gHk, pL = ‚ J N pi H1 − pLν−i , 0 p 1, k = 0, 1, …, ν. i k
i=0
Tato funkce je při pevném p rostoucí funkcí diskrétní proměnné k, a protože pro k < n ν ν ∂g = −ν H1 − pLν−1 + ‚ Ai J N pi−1 H1 − pLν−i − Hν − iL J N pi H1 − pLν−i−1 E = i i ∂p k
i=1
ν ! pk H1 − pLν −k−1 = − < 0, k ! Hν − k − 1L !
při pevném k < n je klesající spojitou funkcí argumentu p, přičemž gHk, 0L = 1, gHk, 1L = 0. Ke každému k z množiny 80, 1, Ω, n - 1< a každému b œ H0, 1L proto existuje právě jedno pHk, bL s vlastností gHk, pHk, bLL = b.
Nechť p œ H0, 1L, b œ H0, 1L a nechť kH p, bL je největší k z množiny 80, 1, Ω, n< s vlastností gHk, pL § b, pokud takové k existuje. Potom zřejmě platí logické ekvivalence p ≥ pHk, βL & gHk, pL gHk, p Hk, βLL = β & k kHp, βL. To však znamená, že pro náhodnou veličinu pHX , bL platí vztahy Pp @p ≥ pHX, βLD = Pp @ gHX, pL βD = Pp @ X kHp, βLD = gHkHp, βL, pL β. Podobně funkce ν ν gHk, pL = 1 − gHk − 1, pL = ‚ J N pi H1 − pLν−i i i=k
je při pevném p klesající funkcí diskrétní proměnné k a při pevném k > 0 je rostoucí spojitou funkcí argumentu p, přičemž gHk, 0L = 0, gHk, 1L = 1. Ke každému k z množiny 81, Ω, n< a každému b œ H0, 1L proto existuje právě jedno pHk, bL s vlastností gIk, pHk, bLM = b. Definujeme-li ještě kH p, bL jako nejmenší k z množiny 80, 1, Ω, n< s vlastností gHk, pL § b, pokud takové k existuje, potom zřejmě p pHk, βL & gHk, pL gHk, pHk, βLL = β & k ≥ kHp, βL, a proto pro náhodnou veličinu pHX , bL platí vztahy Pp @p pHX, βLD = Pp @ gHX, pL βD = Pp @ X ≥ kHp, βLD = gHkHp, βL, pL β. Protože pro náhodný výběr × = HX1 , Ω, Xn L ze základního souboru X s binomickým rozdělením BiHn, pL náhodná veličina n × = X1 + Ω + Xn má binomické rozdělení BiHn n, pL, dokázali jsme vlastně následující větu. 11.9. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s binomickým rozdělením BiHn, pL, kde n je známá konstanta a p œ H0, 1L je neznámý parametr, a nechť × je výběrový průměr výběru × . Nechť pHk, bL je pro každé k z množiny 80, Ω, n n - 1< a každé b œ H0, 1L jediné řešení rovnice
44
M6b-06-Statistics.nb
‚ J k
i=0
nν N pi H1 − pLn ν−i = β i
o neznámé p a nechť pHk, bL je pro každé k z množiny 81, Ω, n n< a každé b œ H0, 1L jediné řešení rovnice ‚ J nν
i=k
k−1 nν nν N pi H1 − pLn ν−i = β & ‚ J N pi H1 − pLn ν−i = 1 − β. i i i=0
Položme ještě pH0, bL = 0 a pHn n, bL = 1. Potom pro každé a œ H0, 1L je
HpHn ×, α ê 2L, pHn ×, α ê 2LL
oboustranný intervalový odhad parametru p o spolehlivosti alespoň 1 - a a pHn ×, αL resp. pHn ×, αL je dolní resp. horní odhad parametru p o spolehlivosti alespoň 1 - a. 11.10. Dodatek k větě 11.9. Rovnice ‚ J k
i=0
k−1 nν nν N pi H1 − pLn ν−i = β, ‚ J N pi H1 − pLn ν−i = 1 − β i i i=0
figurující ve větě 11.9 jsou algebraickými rovnicemi o neznámé p a s vyjímkou prakticky nezajímavých případů je lze řešit pouze numericky. Jako nejjednodušší se jeví následující postup, který tyto rovnice převádí na lineární rovnice pro p, v nichž však vystupují jisté kvantily Fisherova-Snedecorova F-rozdělení se stupni volnosti závislými na n n a k. Nechť BHx, yL = ‡ tx−1 H1 − tLy−1 t, 1
0
1 IzHx, yL = ‡ tx−1 H1 − tLy−1 t pro x > 0, y > 0, 0 z 1. BHx, yL 0 z
Funkce BHx, yL je tzv. Eulerova b-funkce a IzHx, yL je tzv. neúplná b-funkce. Z formule pro ∑ p g v odstavci 11.8 lze pro 0 < p < 1, celé kladné m a k œ 80, 1, Ω, m - 1< odvodit vztah k m ‚ J N pi H1 − pLm−i = I1−pHm − k, k + 1L = 1 − IpHk + 1, m − kL i
i=0
a vhodnou transformací distribuční funkce Hn1 ,n2 Fisherova-Snedecorova rozdělení FHn1 , n2 L s n1 a n2 stupni volnosti lze ukázat, že ν2 z IzHν1 , ν2 L = H2 ν1 ,2 ν2 J N pro celá ν1 > 0, ν2 > 0 a 0 < z < 1. ν1 H1 − zL Z uvedených dvou vztahů snadno plyne, že pro k œ 80, 1, Ω, m - 1< a 0 < b < 1 m ‚ J N pi H1 − pLm−i = β & IpHk + 1, m − kL = 1 − β & i k
i=0
Hm − kL p & H2 k+2,2 m−2 kJ N = 1 − β Hk + 1L H1 − pL
&
Hm − kL p & = F1−βH2 k + 2, 2 m − 2 kL & Hk + 1L H1 − pL
M6b-06-Statistics.nb
45
Hk + 1L F1−βH2 k + 2, 2 m − 2 kL k+1 & p = = . m − k + Hk + 1L F1−βH2 k + 2, 2 m − 2 kL Hm − kL FβH2 m − 2 k, 2 k + 2L + k + 1 Záměnou b za 1 - b dostaneme pro k œ 81, Ω, m< a 0 < b < 1 ekvivalenci m ‚ J N pi H1 − pLm−i = 1 − β & i
k−1
i=0
k FβH2 k, 2 m − 2 k + 2L k & p = = . m − k + 1 + k FβH2 k, 2 m − 2 k + 2L Hm − k + 1L F1−βH2 m − 2 k + 2, 2 kL + k Za předpokladů věty 11.9 tedy dostáváme toto alternativní vyjádření oboustranného intervalového odhadu parametru p o spolehlivosti alespoň 1 - a: n ν = m, n × = k ∈ 81, …, n ν − 1< H pHn ×, α ê 2L, pHn ×, α ê 2LL =
k k+1 = J , N. Hm − k + 1L F1−αê2H2 m − 2 k + 2, 2 kL + k Hm − kL F1−αê2H2 m − 2 k, 2 k + 2L + k + 1 Analogicky lze vyjádřit dolní a horní odhad parametru p o spolehlivosti alespoň 1 - a. 11.11. Poissonovo rozdělení. Nechť X je náhodná veličina s Poissonovým rozdělením PoHlL, jehož pravděpodobnostní funkce je dána formulí λk fHk, λL = Pλ @X = kD = −λ , k = 0, 1, 2, …, k! kde l > 0 je neznámý parametr. Podobně jako v případě binomického rozdělení uvažujme funkci λi gHk, λL = −λ ‚ , λ > 0, k = 0, 1, 2, … . i! k
i=0
Tato funkce je při pevném l rostoucí funkcí diskrétní proměnné k, a protože k k k−1 i k λi ∂g λi λi−1 λi y λk z = − −λ j = − −λ ‚ + −λ ‚ = −λ j −‚ + < 0, ‚ z j z j ∂λ i! Hi − 1L ! i! i! z k! i=0 i=1 i=0 k i=0 {
při pevném k je klesající spojitou funkcí argumentu p, přičemž gHk, 0L = 1, limlØ+¶ gHk, lL = 0. Ke každému celému k ¥ 0 a každému b œ H0, 1L proto existuje právě jedno lHk, bL s vlastností gIk, lHk, bLM = b. Nechť l œ H0, 1L, b œ H0, 1L a nechť kHl, bL je největší celé k ¥ 0 s vlastností gHk, lL § b, pokud takové k existuje. Potom zřejmě platí logické ekvivalence λ ≥ λHk, βL & gHk, λL gHk, λHk, βLL = β & k kHλ, βL. To však znamená, že pro náhodnou veličinu lHX , bL platí vztahy Pλ @λ ≥ λHX, βLD = Pλ @ gHX, λL βD = Pλ @ X kHλ, βLD = gHkHλ, βL, λL β. Podobně funkce ∞
λi gHk, λL = 1 − gHk − 1, λL = −λ ‚ i! i=k
je při pevném l klesající funkcí diskrétní proměnné k a při pevném k > 0 je rostoucí spojitou funkcí argumentu l, přičemž gHk, 0L = 0, limlØ+¶ gHk, lL = 1. Ke každému celému k > 0 a každému b œ H0, 1L proto existuje právě jedno
46
M6b-06-Statistics.nb
lHk, bL s vlastností gHk, lHk, bLL = b. Definujeme-li ještě kHl, bL jako nejmenší celé k ¥ 0 s vlastností gHk, lL § b, pokud takové k existuje, potom zřejmě λ λHk, βL & gHk, λL gHk, λHk, βLL = β & k ≥ kHλ, βL, a proto pro náhodnou veličinu lHX , bL platí vztahy Pλ @λ λHX, βLD = Pλ @ gHX, λL βD = Pλ @ X ≥ kHλ, βLD = gHkHλ, βL, λL β. Protože pro náhodný výběr × = HX1 , Ω, Xn L ze základního souboru X s Poissonovým rozdělením PoHlL náhodná veličina n × = X1 + Ω + Xn má Poissonovo rozdělení PoHn lL, dokázali jsme vlastně následující větu. 11.12. Věta. Nechť × = HX1 , Ω, Xn L je náhodný výběr ze základního souboru X s Poissonovým rozdělením PoHlL, kde l > 0 je neznámý parametr, a nechť × je výběrový průměr výběru × . Nechť lHk, bL je pro každé k ¥ 0 a každé b œ H0, 1L jediné řešení rovnice HnλLi
−n λ ‚ = β i! k
i=0
o neznámé l a nechť lHk, bL je pro každé k > 0 a každé b œ H0, 1L jediné řešení rovnice
Hn λLi HnλLi
−n λ ‚ = β & −n λ ‚ = 1 − β i! i! ∞
k−1
i=k
i=0
Položme ještě pH0, bL = 0. Potom pro každé a œ H0, 1L je
HλHn ×, α ê 2L, λHn ×, α ê 2LL
oboustranný intervalový odhad parametru l o spolehlivosti alespoň 1 - a a λHn ×, αL resp. λHn ×, αL je dolní resp. horní odhad parametru l o spolehlivosti alespoň 1 - a. 11.13. Dodatek k větě 11.12. Nejvýhodnější postup řešení rovnic HnλLi HnλLi
−n λ ‚ = β, −n λ ‚ = 1 − β i! i! k
k−1
i=0
i=0
figurujících ve větě 11.12 je založen na vztahu Hn λLi 1
−n λ ‚ == ‡ −x xk x, i! k! n λ ∞
k
i=0
který se snadno ověří indukcí, a na porovnání integrandu na pravé straně s hustotou pravděpodobnosti 0 l o o mê2−1 −xê2 fmHxL = m x
o o m mê2 ΓH 2 n 2 L
pro x 0,
pro x > 0,
rozdělení c2 s m stupni volnosti pro vhodné m. Provedeme-li v tomto integrálu substituci x = t ê 2, „ x = „ t ê 2, dostaneme Hn λLi
−tê2 tk
−n λ ‚ == ‡ t = ‡ f2 k+2HtL t = P@Y ≥ 2 nλD, k+1 i! k! 2nλ 2 2nλ k
i=0
∞
∞
M6b-06-Statistics.nb
47
kde Y je libovolná náhodná veličina s rozdělením pravděpodobnosti c2 H2 k + 2L. Tedy
HnλLi
−n λ ‚ = β & P@Y ≥ 2 nλD = β & 2 n λ = χ21−βH2 k + 2L. i! k
i=0
Záměnou b za 1 - b dostaneme pro k > 0 ekvivalenci HnλLi
−n λ ‚ = β & 2 n λ = χ2βH2 kL. i! k−1
i=0
Za předpokladů věty 11.12 tedy dostáváme toto alternativní vyjádření oboustranného intervalového odhadu parametru l o spolehlivosti alespoň 1 - a: χ21−αê2H2 n × + 2L y i χ2αê2H2 n ×L HλHn ×, α ê 2L, λHn ×, α ê 2LL = j z j , z. 2n 2n k {
Analogicky lze vyjádřit dolní a horní odhad parametru l o spolehlivosti alespoň 1 - a.
12. Statistické hypotézy a jejich testování 12.1. Jednovýběrové testy. Předpokládejme, tak jako v části o odhadech parametrů, že o distribuční funkci základního souboru X víme, že je prvkem jisté parametrické soustavy distribučních funkcí 8FJ ; J œ Q<, kde Q je neprázdná (borelovská) podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L. Předpokládejme dále, že skutečnou hodnotu parametru J neznáme, ale máme vážný důvod k tvrzení, že je ve skutečnosti prvkem vlastní podmnožiny Q0 Õ Q. Každé tvrzení tohoto druhu se nazývá statistická hypotéza.
O platnosti resp. neplatnosti statistické hypotézy J œ Q0 můžeme rozhodovat pouze na základě experimentálně získaných dat, tj. na základě realizací náhodných výběrů × = HX1 , Ω, Xn L ze základního souboru X , a to pouze s určitým stupněm spolehlivosti. Pravidlo, které pro každou takovou realizaci ñ = Hx1 , Ω, xn L dovoluje rozhodnout, zda hypotézu J œ Q0 zamítneme nebo nezamítneme, se nazývá test. Hypotéze J œ Q0 , kterou testujeme, se říká nulová hypotéza a označuje se H0 . Stručně píšeme H0 : J œ Q0 . Současně s nulovou hypotézou se zpravidla uvažuje tzv. alternativní hypotéza H1 : J œ Q - Q0 , stručně alternativa, jako možnost, se kterou se najisto počítá v případě, že testovaná nulová hypotéza neplatí. V takovém případě se místo o testování hypotézy H0 mluví také o testování hypotézy H0 proti alternativě H0 . Je-li množina Q0 jednobodová, Q0 = 8J0 <, říkáme, že H0 je jednoduchá hypotéza a stručně píšeme H0 : J = J0 . Zcela analogicky říkáme, že alternativní hypotéza H1 je jednoduchá, jestliže množina Q - Q0 je jednobodová. Hypotéza, která není jednoduchá, se nazývá složená. Při rozhodování, zda danou hypotézu zamítnout nebo nezamítnout, se může stát, že hypotézu zamítneme, ačkoliv platí. V takovém případě říkáme, že se stala chyba prvního druhu. Stane-li se naopak, že hypotéza neplatí a my ji nezamítneme, říkáme, že se stala chyba druhého druhu. Riziko těchto chyb charakterizuje tzv. silofunkce testu. 12.2. Kritický obor a silofunkce testu. Test statistické hypotézy H0 : J œ Q0 na základě realizací náhodného výběru × = HX1 , Ω, Xn L je zřejmě zcela popsán množinou W všech ñ œ Ñn , pro něž test hypotézu H0 zamítá. Tato množina se nazývá kritický obor testu a předpokládáme o ní, že je borelovskou podmnožinou výběrového prostoru, abychom mohli mluvit o pravděpodobnosti jevu @× œ WD. Tato pravděpodobnost ovšem závisí na tom, jaká je skutečná hodnota parametru J, a proto ji často budeme značit PJ @× œ W D místo P@× œ W D, abychom tuto skutečnost zdůraznili. Nulovou hypotézu volíme obvykle tak, aby chyba 1. druhu byla závažnější, než chyba 2. druhu. Při volbě testu se proto snažíme minimalizovat především riziko chyby prvního druhu. Toto riziko bude zřejmě tím menší, čím menší bude pro každé J œ Q0 pravděpodobnost PJ @× œ W D. Test proto volíme tak, aby platila implikace ϑ ∈ Θ0 Pϑ @× ∈ WD α,
kde a je malé číslo z intervalu H0, 1L. Toto číslo se nazývá hladinou významnosti a test, který splňuje výše uvedenou nerovnost, se nazývá testem na hladině významnosti a. V praxi se zpravidla volí a = 0.05, někdy však a = 0.01nebo
48
M6b-06-Statistics.nb
dokonce méně. Kromě toho se definuje ještě hladina významnosti testu jako číslo a0 = sup 8PJ @× œ W D; J œ Q0 <. Funkce
PW : Θ → X0, 1\, ϑ # Pϑ @× ∈ WD
se nazývá silofunkce (mohutnost) testu resp. silofunkce (mohutnost) kritického oboru W . Protože číslo PW HJL je pravděpodobnost zamítnutí nulové hypotézy v případě, že distribuční funkce F základního souboru X je rovna FJ , je zřejmé, že silofunkce testu obsahuje podstatnou informaci o jeho spolehlivosti. Ideální by byl test, jehož silofunkce by splňovala obě podmínky ϑ ∈ Θ0 PW HϑL α,
ϑ ∈ Θ − Θ0 PW HϑL ≥ 1 − β,
kde a, b jsou předem daná malá čísla z intervalu H0, 1L. Toho však lze dosáhnout jenom málokdy a proto se alespoň snažíme, aby hodnoty, kterých silofunkce testu nabývá na množině Q - Q0 , byly při splnění první podmínky co největší. Ukazuje se, že tento slabší požadavek lze za určitých podmínek splnit alespoň v případě, kdy testujeme jednoduchou nulovou hypotézu H0 : J = J0 proti jednoduché alternativě H1 : J = J1 . 12.3. Věta (J. Neyman & K. Pearson). Nechť H0 : J = J0 , H1 : J = J1 , kde J0 ∫ J1 a nechť náhodný výběr × = HX1 , Ω, Xn L má za platnosti H0 sdruženou hustotu pravděpodobnosti p0 , kdežto za platnosti H1 má sdruženou hustotu pravděpodobnosti p1 . Nechť a œ H0, 1L je dané číslo a nechť existuje takové číslo c, že pro množinu W0 = 8ñ = Hx1 , …, xn L; p1HñL ≥ c p0HñL<
platí rovnost Pϑ0 @× ∈ W0 D = ‡ p0HñL ñ = α. W0
Potom pro každou borelovskou množinu W Õ Ñn platí implikace ‡ p0HñL ñ = α ‡ p1HñL ñ ≥ ‡ p1HñL ñ, W
tj.
W0
W
Pϑ0 @× ∈ WD = α Pϑ1 @× ∈ W0 D ≥ Pϑ1 @× ∈ WD.
Jinými slovy, ze všech kritických oborů zaručujících, že pravděpodobnost chyby 1. druhu bude rovna předepsané hodnotě a, má W0 nejmenší pravděpodobnost chyby 2. druhu. Důkaz. Implikace je bezprostředním důsledkem následujících zřejmých nerovností: ‡ p1HñL ñ − ‡ p1HñL ñ = W0
‡
W0 −W
p1HñL ñ − ‡
W−W0
W
p1HñL ñ ≥ ‡
W0 −W
c p0HñL ñ − ‡
W−W0
c p0HñL ñ =
‡ c p0HñL ñ − ‡ c p0HñL ñ = c α − c α = 0. W0
W
12.4. Poznámka. Neymanova-Pearsonova věta zůstává v platnosti, má-li náhodný výběr × diskrétní rozdělení a p0 resp p1 je jeho sdružená pravděpodobnostní funkce za předpokladu platnosti hypotézy H0 resp. H1 . Stačí všude zaměnit integrály součty resp. nekonečnými řadami. 12.5. Poznámka. Kritický obor W0 v Neymanově-Pearsonově větě můžeme interpretovat také takto: Je-li pro dané
ñ číslo p1 Hñ L podstatně větší než číslo p0 Hñ L, vede nás to k závěru, že J = J1 . Je-li obráceně p0 Hñ L mnohem větší než p1 Hñ L, usuzujeme, že J = J0 . Jedná se tu tedy vlastně o tutéž úvahu, která nás přivedla k metodě maximální věrohodnosti.
M6b-06-Statistics.nb
49
12.6. Příklad. Ukažme si konstrukci nejsilnějšího (nejmohutnějšího) testu nulové hypotézy H0 : l = l0 proti alternativě H1 : l = l1 , kde l0 > l1 , na hladině významnosti a pomocí Neymanovy-Pearsonovy věty v případě, že základní soubor má exponenciální rozdělení s hustotou pravděpodobnosti fλHxL = λ −λ x pro x ≥ 0, fλHxL = 0 pro x < 0. Náhodný výběr ×n = HX1 , Ω, Xn L z takového základního souboru má hustotu pravděpodobnosti fλ,nHñL = fλ,nHx1 , …, xn L =:
¤ni=1 λ −λ xi , ñ ≥ 0, 0, ¬ Hñ ≥ 0L,
a proto množina W0 z Neymanovy-Pearsonovy věty je charakterizována ekvivalencemi
ñ ∈ W0 fl ñ ≥ 0 & λ1 n −λ1 n ñ ≥ c λ0 n −λ0 n ñ ,
λ0 n ln λ0 n λ1 + ln c ñ ∈ W0 fl ñ ≥ 0 & Hλ0 −λ1 L n ñ ≥ c & ñ ≥ d = . n Hλ0 − λ1 L n λ1
Číslo c je ovšem nutno stanovit tak, aby byla splněna podmínka Pλ0 @× ∈ W0 D = Pλ0 @× ≥ dD = Pλ0 @2 λ0 n × ≥ 2 λ0 n dD = α. O náhodné veličině n × , kde × je náhodný výběr rozsahu n ze základního souboru se střední hodnotou ÅÅÅÅ1l a exponenciálním rozdělením pravděpodobnosti, se indukcí snadno dokáže, že má hustotu pravděpodobnosti λn xn−1 −λ x fλ,nHxL = pro x ≥ 0, fλ,nHxL = 0 pro x < 0. n! Odtud pomocí věty o transformaci hustoty pravděpodobnosti snadno odvodíme, že náhodná veličina 2 l n × má stejnou hustotu pravděpodobnosti jako veličina, která má c2 -rozdělení pravděpodobnosti s 2 n stupni volnosti. Tedy Pλ0 @× ∈ W0 D = α & 2 λ0 n d = χ21−α H2 nL,
χ21−αH2 nL ñ ∈ W0 & ñ ≥ d = , 2 λ0 n
kde c2b HnL je b-kvantil c2 -rozdělení s n stupni volnosti. Hypotézu H0 tedy zamítneme na hladině významnosti a na základě realizace ñ náhodného výběru × rozsahu n, bude-li pro její výběrový průměr ñ platit nerovnost χ21−αH2 nL 1 2nñ ñ ≥ & . 2 λ0 n λ0 χ21−αH2 nL V případě l0 < l1 bychom postupně dostali ekvivalence λ0 n ln λ0 n λ1 + ln c ñ ∈ W0 fl ñ ≥ 0 & Hλ0 −λ1 L n ñ ≥ c , n & ñ d = Hλ0 − λ1 L n λ1
Pλ0 @× ∈ W0 D = Pλ0 @× dD = Pλ0 @2 λ0 n × 2 λ0 n dD = α,
Pλ0 @× ∈ W0 D = α & 2 λ0 n d = χ2αH2 nL,
χ2αH2 nL . ñ ∈ W0 & ñ d = 2 λ0 n
Hypotézu H0 bychom tedy zamítli na hladině významnosti a na základě realizace ñ náhodného výběru × rozsahu n, pokud by pro ñ platila nerovnost χ2αH2 nL 1 2nñ ñ & ≥ . 2 λ0 n λ0 χ2αH2 nL Kdybychom nevěděli, které z čísel l0 , l1 je větší, pak bychom hypotézu H0 zamítli na hladině významnosti a na základě realizace ñ náhodného výběru × rozsahu n, pokud by pro ñ platila jedna z nerovností χ2αH2 nL χ21−αH2 nL , ñ ≥ . ñ 2 λ0 n 2 λ0 n
50
M6b-06-Statistics.nb
12.7. Standardní typy statistických hypotéz. Předpokládejme, že o distribuční funkci základního souboru X víme, že je prvkem jisté parametrické soustavy distribučních funkcí 8FJ ; J œ Q<, kde Q je neprázdná podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L, a nechť t : Q Ø Ñ je parametrická funkce. V aplikacích se nejčastěji setkáváme s hypotézami tohoto tvaru: (a) Nulová hypotéza zní Ha,0 : tHJL = t0 , alternativní hypotéza je Ha,1 : tHJL ∫ t0 . (b) Nulová hypotéza zní Hb,0 : tHJL § t0 , alternativní hypotéza je Hb,1 : tHJL > t0 . (c) Nulová hypotéza zní Hc,0 : tHJL = t0 , alternativní hypotéza je Hc,1 : tHJL > t0 . (d) Nulová hypotéza zní Hd,0 : tHJL ¥ t0 , alternativní hypotéza je Hd,1 : tHJL < t0 . (e) Nulová hypotéza zní He,0 : tHJL = t0 , alternativní hypotéza je He,1 : tHJL < t0 . Konstrukce kritických oborů je ve všech těchto případech založena na intervalech spolehlivosti pro parametrickou funkci t. 12.8. Intervaly spolehlivosti a konstrukce testů. Nechť za předpokladů předešlého odstavce
× = HX1 , Ω, Xn L je náhodný výběr ze základního souboru × a ñ je některá jeho realizace.
(a) Je-li Ht`D H× L, t`H H× LL intervalový odhad parametrické funkce t o spolehlivosti (alespoň) 1 - a, pak podle definice intervalového odhadu o dané spolehlivosti platí implikace ˆ H×L fi τHϑL ≥ τ ˆ H×LD α ϑ ∈ Θ Pϑ @τHϑL τ D H a tedy též implikace
Test s kritickým oborem
ˆ H×L fi τ ≥ τ ˆ H×LD α. τHϑL = τ0 Pϑ @τ0 τ D 0 H Wa = 8ñ ∈ Ñn ; ˆ τDHñL ≥ τ0 fi ˆ τHHñL τ0 <
je tedy testem nulové hypotézy Ha,0 proti alternativě Ha,0 na hladině významnosti a, podle něhož nulovou hypotézu Ha,0 na základě realizace ñ náhodného výběru × zamítneme, jestliže t`DHñL ¥ t0 nebo t`H HñL § t0 .
(b) Je-li t`D H× L dolní odhad parametrické funkce t o spolehlivosti (alespoň) 1 - a, pak podle definice dolního odhadu o dané spolehlivosti platí implikace ˆ H×LD α ϑ ∈ Θ Pϑ @τHϑL τ D a tedy též implikace
Test s kritickým oborem
ˆ H×LD α. τHϑL τ0 Pϑ @τ0 τ D Wb = 8ñ ∈ Ñn ; ˆ τDHñL ≥ τ0 <
je tedy testem nulové hypotézy Hb,0 proti alternativě Hb,0 na hladině významnosti a, podle něhož nulovou hypotézu Hb,0 na základě realizace ñ náhodného výběru × zamítneme, jestliže t`DHñL ¥ t0 . (c) Kritický obor je stejný jako v případě (b), nulovou hypotézu Hc,0 tedy na základě realizace ñ zamítneme na hladině významnosti a, jestliže t`DHñL ¥ t0 . (d) Je-li t`H H× L horní odhad parametrické funkce t o spolehlivosti (alespoň) 1 - a, pak podle definice horního odhadu o dané spolehlivosti platí implikace ˆ H×LD α ϑ ∈ Θ Pϑ @τHϑL ≥ τ H a tedy též implikace
Test s kritickým oborem
ˆ H×LD α. τHϑL ≥ τ0 Pϑ @τ0 ≥ τ H Wd = 8ñ ∈ Ñn ; ˆ τHHñL τ0 <
M6b-06-Statistics.nb
51
je tedy testem nulové hypotézy Hd,0 proti alternativě Hd,0 na hladině významnosti a, podle něhož nulovou hypotézu Hd,0 na základě realizace ñ náhodného výběru × zamítneme, jestliže t`H HñL § t0 . (e) Kritický obor je stejný jako v případě (d), nulovou hypotézu He,0 tedy na základě realizace ñ zamítneme na hladině významnosti a, jestliže t`H HñL § t0 . 12.9. Testy hypotéz o parametrech normálního rozdělení. Aplikujeme-li úvahy odstavce 12.8 na intervalové odhady parametrů normálního rozdělení shrnuté v tabulce v odstavci 10.4, dostaneme kritické obory testů o parametrech normálního rozdělení NHm, s2 L. Přehled takto získaných testů je uveden v následujících třech tabulách, kde × = HX1 , Ω, Xn L znamená jak náhodný výběr z rozdělení NHm, s2 L, tak i libovolnou jeho realizaci, × je výběrový průměr, S je výběrová směrodatná odchylka, u b je b-kvantil normovaného normálního rozdělení, t bHrL je b-kvantil Studentova t-rozdělení o r stupních volnosti, c2b HrL je b-kvantil c2 -rozdělení s r stupni volnosti, W je kritický obor testu a × œ W znamená zamítnutí nulové hypotézy H0 .
H0
H1
µ = µ0
µ ≠ µ0
µ µ0
µ > µ0
µ = µ0
µ > µ0
µ ≥ µ0
µ < µ0
µ = µ0
µ < µ0
H0
H1
µ = µ0
µ ≠ µ0
µ µ0
µ > µ0
µ = µ0
µ > µ0
µ ≥ µ0
µ < µ0
µ = µ0
µ < µ0
H0
H1
σ2 = σ0 2
σ2 ≠ σ0 2
σ2 σ0 2
σ2 > σ0 2
σ2 = σ0 2
σ2 > σ0 2
σ2 ≥ σ0 2
σ2 < σ0 2
σ2 = σ0 2
σ2 < σ0 2
× = HX1 , …, Xn L ∈ W, H0 zamítáme è!!!! … × − µ0 … ≥ u1−αê2 σ ë n è!!!! × − µ0 ≥ u1−α σ ë n è!!!! × − µ0 ≥ u1−α σ ë n è!!!! × − µ0 −u1−α σ ë n è!!!! × − µ0 −u1−α σ ë n
× = HX1 , …, Xn L ∈ W, H0 zamítáme è!!!! … × − µ0 … ≥ t1−αê2Hn − 1L S ë n è!!!! × − µ0 ≥ t1−αHn − 1L S ë n è!!!! × − µ0 ≥ t1−αHn − 1L S ë n è!!!! × − µ0 −t1−αHn − 1L S ë n è!!!! × − µ0 −t1−αHn − 1L S ë n
× = HX1 , …, Xn L ∈ W, H0 zamítáme Hn−1L S 2 2 σ02 ∉ Hχαê2Hn − 1L, χ1−αê2Hn − 1LL 2
Hn−1L 2 σ02 ≥ χ1−α Hn − 1L S2
Hn−1L S 2 σ02 ≥ χ1−α Hn − 1L 2
Hn−1L S 2 σ02 χα Hn − 1L 2
Hn−1L 2 σ02 χα Hn − 1L S2
Předpoklady σ2 známé σ2 známé σ2 známé σ2 známé σ2 známé
Předpoklady σ2 neznámé σ2 neznámé σ2 neznámé σ2 neznámé σ2 neznámé
Předpoklady µ neznámé µ neznámé µ neznámé µ neznámé µ neznámé
12.10. Test rovnosti středních hodnot dvourozměrného normálního rozdělení. Je-li HX1 , Y1 L, Ω, HXn , Yn L náhodný výběr z dvourozměrného normálního rozdělení
52
M6b-06-Statistics.nb
σX 2 ρ σX σY y i y j X , µY L, i j z N2jHµ j zz z, σY 2 {{ k k ρ σX σY
potom
à = HD1 , …, Dn L = HX1 − Y1 , …, Xn − Yn L,
je náhodný výběr z normálního rozdělení NHm X - mY , s2 L. Z věty 10.6 a úvah v odstavci 12.8 nebo přímo z druhé tabulky v předešlém odstavci aplikované na náhodný výběr à proto dostáváme následující test rovnosti středních hodnot dvourozměrného normálního rozdělení, který je znám jako párový t-test rovnosti středních hodnot dvou náhodných veličin nebo jako t-test rovnosti středních hodnot „spárovaných“ základních souborů. Symbol Sà znamená výběrovou směrodatnou odchylku náhodného výběru à = × - Ø , ostatní symboly mají stejný nebo analogický význam jako symboly v tabulkách v odstavci 12.9.
H0
H1
µX = µY
µX ≠ µY
µX µY
µX > µY
µX = µY
µX > µY
µX ≥ µY
µX < µY
µX = µY
µX < µY
H×, ØL ∈ W, H0 zamítáme … × − Ø … ≥ t1−αê2Hn − 1L SÃ ë
Předpoklady è!!!! n
è!!!! n è!!!! × − Ø ≥ t1−αHn − 1L SÃ ë n è!!!! × − Ø −t1−αHn − 1L SÃ ë n è!!!! × − Ø −t1−αHn − 1L SÃ ë n × − Ø ≥ t1−αHn − 1L SÃ ë
všechny parametry neznámé totéž totéž totéž totéž
12.11. Test rovnosti středních hodnot dvou nezávislých náhodných výběrů z různých normálně rozdělených základních souborů se stejným rozptylem. Nechť × = HX1 , Ω, Xm L je náhodný výběr z normálního rozdělení NHm X , s2 L, nechť Ø = HY1 , Ω, Yn L je náhodný výběr z normálního rozdělení NHmY , s2 L a nechť oba výběry jsou vzájemně nezávislé. Z věty 10.7 a úvah v odstavci 12.8 vyplývají dva testy rovnosti středních hodnot m X , mY . Oba testy jsou uvedeny v následujících dvou tabulkách. Symboly × , Ø , u b a t b HrL mají stejný význam jako v tabulkách v odstavcích 12.9 a 12.10 a Hm − 1L S2× + Hn − 1L S2Ø S2∗ = , m+n−2 2 kde S× , SØ2 jsou výběrové rozptyly náhodných výběrů × a Ø .
H0
H1
µX = µy µX ≠ µy µX µy µX > µy µX = µy µX > µy µX ≥ µy µX < µy µX = µy µX < µy
H×, ØL ∈ W, H0 zamítáme
m+n # … × − Ø … ≥ u1−αê2 σ "######### mn m+n # × − Ø ≥ u1−α σ "######### mn m+n # × − Ø ≥ u1−α σ "######### mn
m+n # × − Ø −u1−α σ "######### mn
m+n # × − Ø −u1−α σ "######### mn
Předpoklady σ známé σ známé σ známé σ známé σ známé
M6b-06-Statistics.nb
53
H0
H×, ØL ∈ W, H0 zamítáme
H1
µX = µy µX ≠ µy
Předpoklady
m+n # … × − Ø … ≥ t1−αê2Hn + m − 2L S∗ "######### mn m+n # × − Ø ≥ t1−αHn + m − 2L S∗ "######### mn
µX µy µX > µy
m+n # × − Ø ≥ t1−αHn + m − 2L S∗ "######### mn
µX = µy µX > µy
m+n # × − Ø −t1−αHn + m − 2L S∗ "######### mn
µX ≥ µy µX < µy
m+n # × − Ø −t1−αHn + m − 2L S∗ "######### mn
µX = µy µX < µy
σ neznámé σ neznámé σ neznámé σ neznámé σ neznámé
12.12. Test rovnosti rozptylů dvou nezávislých náhodných výběrů z různých normálně rozdělených základních souborů. Nechť × = HX1 , Ω, Xm L je náhodný výběr z normálního rozdělení NHm X , s X 2 L, nechť Ø = HY1 , Ω, Yn L je náhodný výběr z normálního rozdělení NHmY , sY 2 L a nechť oba výběry jsou vzájemně nezávislé. Z věty 10.9 a úvah v odstavci 12.8 vyplývá test rovnosti rozptylů s X 2 , sY 2 . Oba testy jsou uvedeny 2 přehledně v následující tabulce. Symboly S× , SØ2 jsou označeny výběrové rozptyly výběrů × a Ø , F b Hr, sL je b-kvantil Fisherova-Snedecorova F-rozdělení s r a s stupni volnosti a symboly u b a t b HrL mají stejný význam jako v tabulkách v odstavcích 12.9, 12.10 a 12.11. H0
H1
σX 2 = σY 2 σX 2 ≠ σY 2
σX 2 σY 2 σX 2 > σY 2 σX 2 = σY 2 σX 2 > σY 2 σX 2 ≥ σY 2 σX 2 < σY 2 σX 2 = σY 2 σX 2 < σY 2
H×, ØL ∈ W, H0 zamítáme
S2× ê S2Ø ≥ F1−αê2Hm − 1, n − 1L nebo S2× ê S2Ø Fαê2Hm − 1, n − 1L S2× ê S2Ø ≥ F1−αHm − 1, n − 1L S2× ê S2Ø ≥ F1−αHm − 1, n − 1L S2× ê S2Ø FαHm − 1, n − 1L S2× ê S2Ø FαHm − 1, n − 1L
Předpoklady všechny parametry neznámé totéž totéž totéž totéž
13. Testy dobré shody 13.1. Víme-li již, že distribuční funkce náhodné veličiny X patří určité parametrické soustavy 8FJ ; J œ Q<, kde Q je neprázdná (borelovská) podmnožina prostoru Ñk a J = HJ1 , Ω, Jk L, můžeme na základě náhodných výběrů odhadovat parametry J1 , Ω, Jk , vyslovovat o nich hypotézy a tyto hypotézy testovat. Prvotním problémem proto je, jak na základě náhodného výběru ze základního souboru X tuto parametrickou soustavu 8FJ ; J œ Q< určit. Prvním krokem je vždy vyslovení statistické hypotézy typu „X má normální rozdělení“ nebo „X má exponenciální rozdělení“, apod. Nejprve se tedy snažíme odhadnout, do jaké ze známých parametrických soustav distribučních funkcí by distribuční funkce náhodné veličiny X mohla patřit. Někdy lze k takovému odhadu dospět teoretickou úvahou, někdy zase grafickou analýzou experimentálních dat. Druhým krokem pak musí být test, tj. pravidlo, podle kterého na základě náhodného výběru z X na stanovené hladině významnosti rozhodneme, zda vyslovenou hypotézu přijmeme nebo zamítneme. Testy, podle nichž o hypotézách tohoto druhu rozhodujeme, se nazývají testy dobré shody a jsou založeny na jistých vlastnostech multinomického rozdělení pravděpodobnosti. 13.2. Transformovaná empirická distribuční funkce. Víme již, viz odstavce 5.1 - 5.7, že určitou představu o typu distribuční funkce resp. hustoty náhodné veličiny X můžeme získat z grafu její empirické distribuční funkce sestrojené z libovolné realizace náhodného výběru z X resp. z čárového diagramu nebo histogramu této realizace. Může však být např. velmi obtížné rozlišit, zda je křivka empirické distribuční funkce blízká křivce distribuční funkce
54
M6b-06-Statistics.nb
normálního rozdělení nebo křivce distribuční funkce logaritmicko-normálního rozdělení apod. Proto se zpravidla sestrojuje graf transformované distribuční funkce, přičemž transformace je volena tak, aby distribuční funkce určitého typu měly po této transformaci lineární průběh. Jestliže analyzovaná data jsou náhodným výběrem z rozdělení daného typu, potom graf transformované empirické distribuční funkce sleduje - až na náhodné odchylky - také přímku. Lineární průběh grafu je snadno rozeznatelný, a to je hlavní důvod takových transformací. 13.3. Příklad: Transformace distribuční funkce exponenciálního rozdělení. Exponenciální rozdělení se střední hodnotou 1 ê l má distribuční funkci FHxL = 1 − −λ x , x > 0, takže pro x > 0 1 − FHxL = −λ x ,
1 1 = λ x , ln = λ x. 1 − FHxL 1 − FHxL
Transformujeme-li tedy empirickou distribuční funkci y = Fn HxL náhodné veličiny X s tímto rozdělením funkcí 1 gHyL = ln , 1−y dostaneme funkci z = gHFn HxLL, jejíž graf bude náhodně oscilovat kolem grafu lineární funkce z = l x. Parametr l můžeme odhadnout tak, že body Hxi , zi L, kde xi je bod nespojitosti funkce g ë Fn a zi je aritmetický průměr jejích limit zleva a zprava v bodě xi , proložíme metodou nejmenších čtverců přímku. 13.4. Příklad: Transformace distribuční funkce normálního rozdělení. Má-li náhodná veličina X normální rozdělení NHm, s2 L, pak má distribuční funkci x−µ FHxL = ΦI M, σ
kde F je distribuční funkce normovaného normálního rozdělení. Funkce F je rostoucí a zobrazuje Ñ na interval H0, 1L, má tedy inverzní funkci F-1 definovanou na tomto intervalu. Aplikujeme-li tuto inverzní funkci na obě strany formule pro FHxL, dostaneme 1 uFHxL = Φ−1HFHxLL = Hx − µL, σ kde u b značí jako obvykle b-kvantil normovaného normálního rozdělení. To znamená, že pro každou empirickou distribuční funkci Fn náhodné veličiny X s normálním rozdělením NHm, s2 L bude graf funkce uFn HxL = F-1HFnHxLL oscilovat kolem přímky o rovnici z = Hx - mL ê s. Také v tomto případě můžeme parametry m, s odhadnout metodou nejmenších čtverců. 13.5. Příklad: Transformace distribuční funkce logaritmicko-normálního rozdělení. Distribuční funkce tohoto rozdělení s parametry m, s2 je rovna ln x − µ FHxL = ΦJ N, x > 0, σ kde F je distribuční funkce normovaného normálního rozdělení. Aplikací inverzní funkce F-1 na obě strany tohoto vztahu dostaneme pro x > 0 vztah 1 uFHxL = Φ−1HFHxLL = Hln x − µL, σ který znamená, že kvantil uFHxL je lineární funkcí přirozeného logaritmu argumentu x. Má-li tedy náhodná veličina X rozdělení LNHm, s2 L, potom pro každou její empirickou distribuční funkci Fn body Hln x, uFnHxL L = Hln x, Φ−1HFnHxLLL
budou náhodně oscilovat kolem přímky z = Hy - mL ê s. Parametry m, s lze tedy i zde odhadnout metodou nejmenších čtverců.
M6b-06-Statistics.nb
55
13.6. Příklad: Transformace distribuční funkce Weibullova rozdělení. Distribuční funkce tohoto rozdělení je dána předpisem x c FHxL = 1 − expI−I M M, x > 0. δ Pro x > 0 tedy platí x c x c 1 1 − FHxL = expI−I M M, lnH1 − FHxLL = −I M , ln ln = c ln x − c ln δ, δ δ 1 − FHxL což znamená, že levá strana v posledním vztahu je lineární funkcí přirozeného logaritmu argumentu x. Má-li tedy náhodná veličina X Weibullovo rozdělení, potom graf každé její empirické funkce Fn transformovaný zobrazením 1 Hx, FnHxLL # Jln x, ln ln N 1 − FnHxL bude náhodně oscilovat kolem přímky z = c y - c ln d. Pro odhad parametrů c, d lze opět použít metodu nejmenších čtverců. 13.7. Multinomické rozdělení pravděpodobnosti. Předpokládejme, že v určitém pokusu může nastat některý z jevů A1 , Ω, Ak . Nechť tyto jevy jsou navzájem disjunktní, tj. nikdy nemohou nastat dva z nich současně, a nechť vždy některý z nich nastat musí. Označíme-li pi pravděpodobnost jevu Ai , pak z učiněných předpokladů zřejmě plyne 0 < pi < 1 pro i = 1, …, k, p1 + … + pk = 1. Předpokládejme dále, že pokus zopakujeme n-krát, přičemž výsledky jednotlivých pokusů jsou na sobě nezávislé. Označíme-li Xi počet pokusů, v nichž nastal jev Ai , potom náhodný vektor HX1 , Ω, Xk L má zřejmě diskrétní rozdělení pravděpodobnosti s pravděpodobnostní funkcí n! fHx1 , …, xk L = P@X1 = x1 , ….Xk = xk D = p1 x1 …pk xk , x1 ! …xk! xi = 0, 1, …, n, x1 + … + xk = n. Rozdělení s takovou pravděpodobnostní funkcí se nazývá multinomické rozdělení s parametry n, p1 , Ω, pk . Snadno se dokáže, že platí tyto dvě věty. 13.8. Věta. Má-li náhodný vektor HX1 , Ω, Xk L multinomické rozdělení pravděpodobnosti s parametry n, p1 , Ω, pk , potom náhodný vektor HY1 , …, Yr , Yr+1 L = HXi1 , …, Xir , n − Xi1 − … − Xir L, kde 1 i1 < … < ir n, má multinomické rozdělení s parametry n, q1 = pi1 , …, qr = pir , qr+1 = 1 − pi1 − … − pir . Speciálně tedy platí, že každá náhodná veličina Xi má binomické rozdělení s parametry n, pi . á 13.9. Věta. Má-li náhodný vektor HX1 , Ω, Xk L multinomické rozdělení pravděpodobnosti s parametry n, p1 , Ω, pk , potom platí: E Xi = n pi , var Xi = n pi H1 − pi L pro i = 1, …, k, covHXi , Xj L = −n pi pj pro 1 i ≠ j k. Podstatně obtížnější je důkaz následující vlastnosti multinomického rozdělení, na níž jsou založeny testy dobré shody. 13.10. Věta. Má-li náhodný vektor HX1 , Ω, Xk L multinomické rozdělení pravděpodobnosti s parametry n, p1 , Ω, pk , potom distribuční funkce náhodné veličiny HXi − n pi L2 1 Xi 2 χ2 = ‚ = ‚ −n n pi n pi k
k
i=1
i=1
56
M6b-06-Statistics.nb
konverguje pro n Ø ¶ k distribuční funkci rozdělení c2 s k - 1 stupni volnosti. á 13.11. Poznámka. V praxi se rozdělení statistiky c2 aproximuje rozdělením c2 Hk - 1L, tj. rozdělením c2 s k - 1 stupni volnosti, jsou-li všechna čísla n p1 , Ω, n pk rovna alespoň 5. Někteří autoři uvádějí, že pro dobrou aproximaci stačí, aby všechna čísla n p1 , Ω, n pk byla rovna alespoň 1 a nerovnost n pi ¥ 5 aby platila pro alespoň 80 % indexů. Podle novějšího, tzv. Yarnoldova kritéria, je dobrá shoda obou rozdělení zaručena, platí-li k ≥ 3, n pi ≥ 5 q ê k pro i = 1, 2, …, k, kde q je počet čísel pi , pro něž platí nerovnost n pi < 5. Znamenají-li čísla pi tzv. teoretické pravděpodobnosti, takže součiny n pi jsou tzv. teoretické (třídní) četnosti, viz článek 13.13, pak lze splnění těchto podmínek dosáhnout buď vhodnou volbou tříd nebo dodatečně sdružením dvou nebo i více sousedních tříd s příliš malými teoretickými četnostmi. 13.12. Příklad. Při 4096 nezávislých hodech 12-ti hracími kostkami byly získány tyto výsledky: 5 0 1 2 3 4 6 7 a víc Celkem Počet šestek ni 447 1145 1181 796 380 115 24 8 4096 Rozhodněte, zda lze na základě těchto výsledků zamítnout na hladině významnosti a = 0.05 předpoklad, že kostky jsou pravidelné. Řešení. Pro i § 6 nechť pi je pravděpodobnost, že v jednom hodu padne právě i šestek, a Yi je počet hodů, v nichž padlo právě i šestek. Nechť p7 je pravděpodobnost, že v jednom hodu padne alespoň 7 šestek, a Y7 je počet hodů, v nichž padlo alespoň 7 šestek. Potom Ø = HY0 , Ω, Y7 L je náhodný vektor s multinomickým rozdělením pravděpodobnosti s parametry n = 4096, p0 , Ωp7 . Je-li předpoklad o pravidelnosti kostek správný, potom pi = J
6 12 1 i 5 12−i N J N J N pro i = 0, 1, …, 6, p7 = 1 − ‚ pi . 6 6 i i=0
Test provedeme pomocí statistiky c2 z věty 13.10. Vypočteme tedy pravděpodobnosti pi , součiny n pi a hodnotu statistiky c2 pro realizaci Hn0 , Ω, n7 L náhodného vektoru Ø . K výpočtům použijeme Wolframův systém Mathematica 4.0. nlist = 8447, 1145, 1181, 796, 380, 115, 24, 8<
8447, 1145, 1181, 796, 380, 115, 24, 8<
1 i 5 12−i plist = TableABinomial@12, iD J N J N , 8i, 0, 6<E êê N; 6 6 plist = Append@plist, 1 − Plus @@ plistD 80.112157, 0.269176, 0.296094, 0.197396, 0.0888281, 0.028425, 0.0066325, 0.00129254< 4096 ∗ plist 8459.394, 1102.54, 1212.8, 808.533, 363.84, 116.429, 27.1667, 5.29426< nlist − 4096 plist 8−12.3937, 42.4552, −31.7993, −12.5328, 16.1602, −1.42873, −3.1667, 2.70574<
M6b-06-Statistics.nb
57
Hnlist − 4096 plistL2
8153.603, 1802.45, 1011.19, 157.072, 261.153, 2.04127, 10.028, 7.32104<
Hnlist − 4096 plistL2 4096 plist 80.33436, 1.63481, 0.833768, 0.194268, 0.717769, 0.0175323, 0.369129, 1.38283< Hnlist − 4096 plistL2 Plus @@ 4096 plist 5.48446
Vypočtené hodnoty uspořádáme přehledně do tabulky: Počet šestek i
ni
0
447
Hni − n pi L2
Hni −n pi L np i
0.112157 459.394 −12.3937
153.603
0.33436
1
1145 0.269176 1102.54 42.45522
1802.45
1.63481
2
1181 0.296094
−31.7993
1011.19
0.83377
pi
n pi
1212.8
ni − n pi
2
3
796
0.197396 808.533 −12.5328
157.072
0.19427
4
380
0.088828
261.153
0.71777
5
115
0.028425 116.429 −1.42873
2.04127
0.01753
6
24
0.006632 27.1667 −3.16670
10.0280
0.36913
7
8
0.001293 5.29426
7.32104
1.38283
363.84
16.1602
2.70574
Hni − n pi L2 χ2 = ‚ U 5.4845 n pi 7
i=0
Vidíme, že všechny součiny n pi splňují podmínku z poznámky 13.11, takže neznámé rozdělení statistiky c2 můžeme nahradit rozdělením c2 H7L. Hypotézu o pravidelnosti kostek bychom tedy zamítli v případě, že by platila nerovnost χ2 = 5.4845 ≥ χ20.95 H7L U 14.067.
Tato nerovnost však neplatí, a proto předpoklad o pravidelnosti kostek nezamítáme. 13.13. Test dobré shody při známých parametrech. Pomocí náhodné veličiny c2 definované ve větě 13.10 můžeme testovat hypotézu H0 , že náhodná veličina (základní soubor) X má jisté, zcela přesně definované rozdělení pravděpodobnosti. Test založený na této větě je znám jako test dobré shody nebo jako Pearsonův c2 test a sestává z následujících kroků: HaL Vybereme realizaci ñ některého náhodného výběru × = HX1 , …, Xn L ze základního souboru X, neboli, řečeno volně a ne zcela přesně, provedeme náhodný výběr ñ rozsahu n z X. HbL Obor možných hodnot základního souboru X rozdělíme na zvolený počet k ≥ 3 tříd a určíme třídní četnosti n1 , …, nk výběru ñ. Vždy musí platit rovnost n1 + … + nk = n.
58
M6b-06-Statistics.nb
HcL Pro i = 1, …, k označíme Ai jev spočívající v tom, že hodnota náhodné veličiny X padne do i -té třídy, a určíme jeho teoretickou pravděpodobnost pi za předpokladu platnosti nulové hypotézy. HdL Ověříme, zda teoretické HtřídníL četnosti n p1 , Ω, n pk splňují některou z podmínek uvedených v poznámce 13.11. Můžeme |li rozdělení do tříd ovlivnit, je vhodné k těmto podmínkám při vytváření tříd přihlédnout. Není|li to možné, je někdy pro splnění některé z těchto podmínek nutné sloučit některé sousední třídy s malými teoretickými četnostmi v jednu. HeL Vypočteme Hni − n pi L2 χ2 = ‚ n pi k
i=1
a nulovou hypotézu zamítneme na hladině významnosti α, je|li χ2 ≥ χ21−α Hk − 1L. Souvislost s větou 13.10 je zřejmá, uvědomíme-li si, že z definice náhodného výběru plyne, že náhodný vektor HY1 , Ω, Yk L, kde Yi je počet indexů j œ 81, Ω, n<, pro něž X j patří do i-té třídy, má multinomické rozdělení s parametry n, p1 , Ω, pk a že vektor Hn1 , Ω, nk L je jeho realizací. 13.14. Příklad. Experimentálně získaných 80 hodnot náhodné veličiny X nabývající hodnot z intervalu X0, 480\ bylo roztříděno do 8 intervalů X0,60\,(60,120\,Ω,(420,480\ s tímto výsledkem: Index třídy i
1
2
3
4
Třídní četnost ni 10 15 20 10
5
6
7
8
8
7
5
5
Rozhodněte na hladině významnosti a = 0.05, zda X má rovnoměrné rozdělení na intervalu X0, 480\. Řešení. Je-li hypotéza o rovnoměrnosti rozdělení veličiny X pravdivá, potom všechny teoretické pravděpodobnosti pi jsou rovny 1 ê 8. Tedy i
1
2
3
4
5
6
7
8
ni
10
15
20
10
8
7
5
5
pi
0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125
n pi
10
10
10
10
10
10
10
10
ni − n pi
0
5
10
0
−2
−3
−5
−5
0
25
100
0
4
9
25
25
Hni − n pi L2 Hni −n pi L np i 2
0
2.500 10.00
0
0.400 0.900 2.500 2.500
Všechny teoretické četnosti jsou větší než 5, test dobré shody je použitelný. Protože 1 94 χ2 = H25 + 100 + 4 + 9 + 25 + 25L = = 18.80 > χ20.95H7L U 14.067, 10 5 hypotézu o rovnoměrnosti rozdělení veličiny X zamítáme. 13.15. Příklad. Nechť náhodná veličina X znamená počet šestek, které padnou při jednom hodu 12-ti kostkami, a nechť H0 je hypotéza, že všechny kostky jsou pravidelné. Provedeme-li n = 4096 nezávislých hodů, dostaneme jistou realizaci ñ náhodného výběru × = HX1 , Ω, Xn L ze základního souboru X , neboli, volně řečeno, náhodný výběr ñ rozsahu n z X . Rozdělíme-li obor možných hodnot 80, 1, Ω, 12< náhodné veličiny X do tříd tak, aby i-tá třída obsahovala z množiny 80, 1, Ω, 12< pouze číslo i pro i = 0, Ω, 6 a pouze čísla 7, 8, 9, 10, 11, 12 pro i = 7, pak pro teoretickou
M6b-06-Statistics.nb
59
pravděpodobnost pi , tj. pravděpodobnost, že za platnosti nulové hypotézy hodnota náhodné veličiny X padne do i-té třídy, zřejmě platí pi = J
6 12 1 i 5 12−i N J N J N pro i = 0, 1, …, 6, p7 = 1 − ‚ pi . 6 6 i i=0
Dále je snadno vidět, že vektor třídních četností Hn0 , Ω, n7 L je realizací náhodného vektoru Ø z příkladu 13.12.Test provedený v příkladu 13.12 je tedy testem dobré shody ve smyslu odstavce 13.13. 13.16. Test dobré shody při neznámých parametrech. Častěji než hypotézu, že daná náhodná veličina X má zcela přesně definované rozdělení pravděpodobnosti, se zpravidla testuje hypotéza H0 , že její rozdělení patří do některé určité parametrické soustavy rozdělení pravděpodobnosti. V tomto případě neznámé parametry, řekněme ` ` J1 , Ω, Jr , odhadneme z náhodného výběru hodnotami J1 , Ω, Jr a pak testujeme hypotézu, že X má rozdělení s ` ` parametry J1 , Ω, Jr . Postup se liší od schématu popsaného v odstavci 13.13 pouze v posledních dvou krocích. Za dosti obecných ` ` předpokladů o parametrické soustavě a odhadech J1 , Ω, Jr , které jsou v prakticky zajímavých případech zpravidla splněny, se dá totiž dokázat, že statistika Hni − n pi L2 χ2 = ‚ , n pi k
i=1
` ` kde pi jsou tentokrát teoretické pravděpodobnosti vypočtené pro rozdělení s parametry J1 , Ω, Jr , má při n Ø ¶ asymptoticky rozdělení c2 s k - r - 1 stupni volnosti, což znamená, že její distribuční funkce konverguje při n Ø ¶ stejnoměrně k distribuční funkci rozdělení c2 Hk - r - 1L. Obvykle se uvádí, že dobrá shoda obou rozdělení je zaručena, jsou-li všechna čísla n p1 , Ω, n pk rovna alespoň 5. Hypotézu H0 proto v tomto případě zamítneme na hladině významnosti a, platí|li nerovnost χ2 ≥ χ21−αHk − r − 1L. Je zřejmé, že musí platit nerovnost r + 1 < k. 13.17. Příklad. Hodnoty jisté realizace ñ náhodného výběru × = HX1 , Ω, Xn L ze základního souboru X byly rozděleny do tříd I1 = Xt0 , t1 \, I2 = H t1 , t2 \, …, Ik−1 = H tk−2 , tk−1 \, Ik = H tk−1 , tk \, ti = i h pro i = 0, 1, …, k − 1, tk = ∞ s třídními četnostmi n1 , Ω, nk . Rozhodněte na základě těchto experimentálních dat, zda lze na hladině významnosti a = 0.05 zamítnout hypotézu H0 , že X má exponenciální rozdělení, jestliže n = 125, k = 11, h = 50 a třídní četnosti ni mají následující hodnoty: Index třídy i ni
1
2
3
4
5
6 7 8 9 10 11
32 25 16 6 10 8 7 7 3
2
9
Řešení. Je|li hypotéza H0 pravdivá, potom X má distribuční funkci tvaru FHx, λL = 0 pro x < 0, FHx, λL = 1 − expH−λ xL pro x ≥ 0, kde l > 0 je neznámý parametr, a teoretické pravděpodobnosti pi = pi HlL jsou dány formulemi
pi = FHti , λL − FHti−1 , λL = expH−λ ti−1 L − expH−λ ti L pro i = 1, …, k − 1, pk = expH−λ tk−1 L.
Víme již, viz závěr odstavce 13.13, že náhodný vektor Ø = HY1 , Ω, Yk L, kde Yi je počet indexů j œ 81, Ω, n<, pro něž X j patří do i|té třídy, má multinomické rozdělení s parametry n, p1 , Ω, pk . Tyto parametry však závisejí na parametru ` l, který je třeba odhadnout. Protože Hn1 , Ω, nk L je je realizace náhodného vektoru Ø , je přirozené vzít za odhad l parametru l kladné číslo, pro které je pravděpodobnost
60
M6b-06-Statistics.nb
n! fHn1 , …, nk , λL = Pλ @Y1 = n1 , ….Yk = nk D = p1 n1 …pk nk n1 ! …nk! maximální, tj. maximálně věrohodný odhad parametru l. Tento odhad, jak víme, vyhovuje rovnici ∂ ln fHn1 , …, nk , λL = 0. ∂λ Protože
∂ ∂ n ∂ p HλL ln Hp1HλLn1 …pkHλLnk L = ‚ ni ln piHλL = ‚ i i = ∂λ ∂λ piHλL ∂λ k
k
i=1
i=1
ni Hti −λ ti − ti−1 −λ ti−1 L nk tk−1 −λ tk−1 = ‚ − = expH−λ ti−1 L − expH−λ ti L expH−λ tk−1 L k−1 i=1
h i ni H −λ ti − −λ ti−1 L + h ni −λ ti−1 h Hk − 1L nk −λ tk−1 − = = ‚ expH−λ ti−1 L − expH−λ ti L expH−λ tk−1 L k−1
i=1
h ni h ni + h nk , = −‚ h i ni + ‚ − h Hk − 1L nk = −‚ h i ni + ‚ 1 − expH−λ hL 1 − expH−λ hL k−1
k−1
k
k−1
i=1
i=1
i=1
i=1
věrohodnostní rovnice pro l je postupně ekvivalentní rovnicím ni = ‚ i ni − nk , ‚ 1 − expH−λ hL
k−1
k
i=1
i=1
‚ ni = ‚ i ni − expH−λ hL ‚ i ni + nk expH−λ hL, k
k
i=1
i=1
k
i=1
expHλ hL n = expHλ hL ‚ i ni − ‚ i ni + nk , k
k
i=1
i=1
y i z z = ‚ i ni − nk . j expHλ hL j j z j ‚ i ni − nz { i=1 ki=1 k
k
` Z poslední rovnice už snadno vypočteme hledaný maximálně věrohodný odhad l:
k k i yy y i ˆ ⁄ki=1 i ni − nk 1 1 i z j z j j z j z z. j j i ni − nz ln i n − n − ln λ = ln = ‚ ‚ z j z j j i k zz z j j j z k h h ⁄i=1 i ni − n {{ ki=1 k ki=1 {
Výpočty pro konkrétní data provedeme pomocí Wolframova systému Mathematica 4.0. h = 50; k = 11; ilist = 81, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11<; nlist = 832, 25, 16, 6, 10, 8, 7, 7, 3, 2, 9<; n = Plus @@ nlist; ˆ 1 ilist.nlist − Last@nlistD λ = LogA E êê N h ilist.nlist − Plus @@ nlist 0.00535283
M6b-06-Statistics.nb
61
ˆ ˆ plist = NAExpA−50 λ #E IExpA50 λE − 1ME & ê@ Drop@ilist, −1D; ˆ plist = AppendAplist, ExpA−500 λE êê NE
80.234818, 0.179678, 0.137487, 0.105202, 0.080499, 0.0615964, 0.0471325, 0.0360649, 0.0275962, 0.0211161, 0.0688095<
n ∗ plist 829.3522, 22.4598, 17.1858, 13.1503, 10.0624, 7.69955, 5.89156, 4.50812, 3.44953, 2.63952, 8.60119< Protože teoretické četnosti n p8 , n p9 a n p10 jsou menší než 5, sloučíme odpovídající třídy v jednu a kvůli srovnání povedeme další výpočet paralelně jak pro původní, tak i modifikované třídy. nlist1 = Insert@Drop@nlist, 88, 10
plist1 = Insert@Drop@plist, 88, 10
n ∗ plist1 829.3522, 22.4598, 17.1858, 13.1503, 10.0624, 7.69955, 5.89156, 10.5972, 8.60119< 8nlist − n ∗ plist, nlist1 − n ∗ plist1< êê Map@StylePrint@#, "Output"D &, #D &; 82.64777, 2.5402, −1.18584, −7.1503, −0.062374, 0.300451, 1.10844, 2.49188, −0.449529, −0.639519, 0.39881< 82.64777, 2.5402, −1.18584, −7.1503, −0.062374, 0.300451, 1.10844, 1.40284, 0.39881< 8Hnlist − n ∗ plistL2 , Hnlist1 − n ∗ plist1L2 < êê Map@StylePrint@#, "Output"D &, #D &; 87.0107, 6.45261, 1.40622, 51.1268, 0.00389052, 0.0902706, 1.22864, 6.20949, 0.202077, 0.408984, 0.15905< 87.0107, 6.45261, 1.40622, 51.1268, 0.00389052, 0.0902706, 1.22864, 1.96795, 0.15905<
62
M6b-06-Statistics.nb
Hnlist − n ∗ plistL2 Hnlist1 − n ∗ plist1L2 9 , = êê n ∗ plist n ∗ plist1 Map@StylePrint@#, "Output"D &, #D &; 80.238847, 0.287296, 0.0818241, 3.88788, 0.00038664, 0.0117241, 0.208543, 1.3774, 0.058581, 0.154946, 0.0184916< 80.238847, 0.287296, 0.0818241, 3.88788, 0.00038664, 0.0117241, 0.208543, 0.185705, 0.0184916< Vypočtené pomocné hodnoty zapíšeme do tabulek. V první tabulce jsou hodnoty pro původní třídy, v druhé tabulce jsou hodnoty pro 8. modifikovanou třídu (hodnoty pro ostatní třídy jsou v obou případech stejné): ni − n pi
Hni − n pi L2
Hni −n pi L np i
32 0.234818 29.3522
2.64777
7.0107
0.23885
2
25 0.179678 22.4598
2.5402
6.45261
0.2873
3
16 0.137487 17.1858 −1.18584
1.40622
0.08182
51.1268
3.88788
0.00389
0.00039
i
ni
1
4 5
6
pi
n pi
0.105202 13.1503
−7.1503
10 0.080499 10.0624 −0.06237
2
6
8
0.061596 7.69955
0.30045
0.09027
0.01172
7
7
0.047132 5.89156
1.10844
1.22864
0.20854
8
7
0.036069 4.50812
2.49188
6.20949
1.37740
9
3
0.027596 3.44953 −0.44953
0.20208
0.05858
10
2
0.021116 2.63952 −0.63952
0.40898
0.15495
11
9
0.06881
8.60119
0.39881
0.15905
0.01849
pi
n pi
ni − n pi
i ni 8
7
0.0847773 10.5972 1.40284
Hni − n pi L2
Hni −n pi L np i
1.96795
0.185705
2
Vypočteme hodnotu statistiky c2 pro původní i modifikované třídy: Hnlist − n ∗ plistL2 Hnlist1 − n ∗ plist1L2 Plus @@ # & ê@ 9 , = n ∗ plist n ∗ plist1 86.32592, 4.9207< Protože pro modifikované třídy Hni − n pi L2 χ2 = ‚ U 4.9207 << χ20.95 H7L U 14.06714, n pi 9
i=1
nemáme důvod hypotézu o exponenciálním rozdělení veličiny X zamítnout. Ve skutečnosti nemáme důvod zamítnout ` hypotézu, že X má exponenciální rozdělení s parametrem l =l = 0.00535283. Důvod k zamítnutí této silnější hypotézy 2 nedává ani statistika c vypočtená pro původní třídy. Je totiž
M6b-06-Statistics.nb
63
Hni − n pi L2 χ2 = ‚ U 6.32592 << χ20.95 H9L U 16.91898 n pi 11
i=1
a je splněna Yarnoldova podmínka: q = Select@n ∗ plist, # < 5 &D êê Length 3 H# > 0L & ê@ Hn ∗ plist − 5 q ê kL
8True, True, True, True, True, True, True, True, True, True, True<
13.18. Poznámka. To, že se nám v právě ukončeném příkladu podařilo explicitně vyřešit věrohodnostní rovnici pro odhad neznámého parametru, je zcela vyjímečný jev. V naprosté většině případů vznikají rovnice nebo soustavy rovnic, které sa dají vyřešit pouze numericky, a to ještě se značnými obtížemi. Proto se často používají jednodušší odhady založené na různých výběrových charakteristikách. V příkladu 13.17 např. můžeme parametr l odhadnout mnohem jednodušeji výběrovým průměrem ñ . Protože originální data neznáme, položíme přibližně 1 h h ñ U ‚ ni Jti−1 + N = ‚ H2 i − 1L ni . n 2 2n k
k
i=1
i=1
Pro zadaná konkrétní data dostaneme ˆ 1 ñ = 176.200, λ = U 0.00567537, ñ χ2 U 6.85383 << χ20.95 H9L U 16.91898 pro původní třídy, χ2 U 5.45274 << χ20.95 H7L U 14.06714 pro modifikované třídy.
14. Regresní analýza. 14.1. Úvod. Představme si, že experimentálně zkoumáme závislost fyzikální veličiny y, jejíž měření je obtížné a nepříliš přesné, na veličině x, jejíž hodnoty lze zvolit nebo stanovit velmi přesně. Výsledkem experimentu jsou uspořádané dvojice reálných (ve skutečnosti racionálních) čísel Hx1 , y1 L, …, Hxn , yn L, kde n je počet měření, x1 , Ω, xn jsou navzájem různé přesně stanovené hodnoty veličiny x a y1 , Ω, yn jsou jim odpovídající naměřené, a tedy přibližné hodnoty veličiny y. Kdybychom měření zopakovali za stejných podmínek pro stejné hodnoty veličiny x, dostali bychom obecně poněkud jiné přibližné hodnoty veličiny y. Naměřené hodnoty veličiny y lze tedy považovat za realizace jistých náhodných veličin Y1 = YHx1 L, Ω, Yn = Y Hxn L. Skutečné hodnoty veličiny y, kolem kterých naměřené hodnoty kolísají, jsou pak středními hodnotami těchto náhodných veličin a cílem našeho experimentu je vlastně stanovení závislosti střední hodnoty hHxL = E Y HxL náhodné veličiny Y HxL na nenáhodné veličině x, tj. určení funkce h nebo alespoň její dostatečně spolehlivé aproximace. Funkci h se říká regresní funkce, neboť vyjadřuje tzv. regresní závislost náhodné veličiny Y HxL na nenáhodné veličině x.
Jedním ze základních problémů, kterými se regresní analýza zabývá, je stanovení aproximace regresní funkce h na základě experimentálních dat za předpokladu, že tato funkce náleží do určité parametrické soustavy funkcí 8h b ; b œ B<, takže nalezení aproximace se redukuje, přinejmenším za určitých podmínek, na odhad hodnoty parametru b odpovídající funkci h. Příslušnost regresní funkce k určité parametrické soustavě přitom může být důsledkem známých fyzikálních zákonitostí nebo teoretických úvah nebo na ni lze usuzovat na základě experimentálních dat. Např. podle Hookova zákona je prodloužení y tyče přímo úměrné vnější síle x, kterou je tato tyč namáhána, a proto o regresní funkci můžeme v tomto případě předpokládat, že patří do parametrické soustavy 8h b ; b œ Ñ<, kde h b HxL = b x.
64
M6b-06-Statistics.nb
Na příslušnost regresní funkce k téže parametrické soustavě funkcí nebo k širší soustavě 8h b ; b = Hb0 , b1 L œ Ñ2 <, kde h b HxL = b0 + b1 x, můžeme ale usuzovat také na základě experimentálních dat, získáme-li jejich grafickým znázorněním např. takovýto obrázek,
0 z něhož je vizuálně zřejmé, že body zobrazující výsledky měření jen nepatrně kolísají kolem jisté přímky. Parametr b se zpravidla odhaduje metodou nejmenších čtverců. To znamená, že skutečnou hodnotu tohoto parametru ` odhadujeme hodnotou b minimalizující součet QHβL = ‚ Hyj − ηβHxj LL2 . n
j=1
` Stanovení této minimalizující hodnoty b je však zpravidla velmi obtížné, jestliže funkční hodnota h b HxL závisí na parametru b nelineárně. Odhadem parametru b a jeho vlastnostmi se proto budeme zabývat pouze za předpokladu, že tato závislost je lineární. 14.2. Základní model lineární regrese (ZMLR). Základní model lineární regrese je charakterizován neprázdnou množinou A, navzájem různými prvky x1 , Ω , xn této množiny, funkcemi fi : A Ø Ñ, i = 1, Ω, p, a náhodnými veličinami Y HxL, x œ A, splňujícími následující předpoklady: I. Všechny náhodné veličiny Y HxL mají konečnou střední hodnotu a rozptyl s2 nezávislý na x.
II. Regresní funkce hHxL = E YHxL je lineární kombinací funkcí fi : A Ø Ñ, i = 1, Ω, p, tj. platí implikace x ∈ A ηHxL = ηβHxL ≡ ‚ βi fiHxL, p
i=1
kde b = H b1 , Ω, b p L œ Ñ p nezávisí na x.
III. Matice Å = H fi j Li, j typu H p, nL, kde fi j = fi Hx j L, má hodnost p < n. IV. Kovarianční matice náhodného vektoru Ø = HY1 , Ω, Yn L, kde Y j = Y Hx j L pro j = 1, Ω, n, je s2 -násobkem jednotkové matice Ä, tj. covHYj , Yk L = EHHYj − E Yj LHYk − E Yk LL = :
σ2 pro j = k, 0 pro j ≠ k.
14.3. Metoda nejmenších čtverců. Nechť Å = H fi j Li, j je matice typu H p, nL hodnosti p < n, nechť y = Hy1 , Ω, yn L je libovolný pevně daný n-rozměrný vektor a nechť p i y j z QHβL = QHβ1 , …, βp ; yL = ‚ Hyj − ηβHxj LL = ‚ j y − βi fij z ‚ j z j j z . { j=1 j=1 k i=1 n
n
2
2
M6b-06-Statistics.nb
65
` ` ` Vektor b = Ib1 , Ω, b p M minimalizující funkci Q je řešením soustavy lineárních rovnic o neznámých b1 , Ω, b p ∂Q = 0, k = 1, …, p, ∂ βk která bývá nazývána soustavou normálních rovnic. Vypočteme-li naznačené parciální derivace a rovnice zřejmým způsobem upravíme, dostaneme soustavu ‚ ‚ βi fij fkj = ‚ fkj yj , k = 1, …, p, p
n
n
i=1 j=1
j=1
která, jak se snadno zjistí, je ekvivalentní maticové rovnici Å ÅT βT = Å yT . Protože matice Å má maximální možnou hodnost, matice Å ÅT je regulární, a proto tato maticová rovnice má právě jedno řešení ˆT −1 β = HÅ ÅT L Å yT
neboli
ˆ −1 β = y ÅTHÅ ÅT L .
` Vektor b minimalizující funkci Q je tedy jednoznačně určen vektorem y, na němž tato funkce implicitně závisí. Sym` bolem b proto označíme též zobrazení Ñn Ø Ñ p , které vektoru y přiřazuje jediný vektor minimalizující jím určenou funkci Q, tj. zobrazení definované formulí . ˆ ˆ ˆ −1 βHyL = Iβ1HyL, …, βpHyLM = y ÅTHÅ ÅT L . 14.4. Odhad parametrů v ZMLR metodou nejmenších čtverců. Odhadem p-rozměrného parametru b = H b1 , Ω, b p L základního modelu lineární regrese nazveme na základě předešlého odstavce p-rozměrnou statistiku ˆ ˆ ˆ −1 βHØL = Iβ1HØL, …, βpHØLM = Ø ÅTHÅ ÅT L
` kde Å a Ø mají stejný význam jako v odstavci 14.2, a odhadem parametru bi nazveme její i-tou složku bi HØL. ` ` Realizacemi statistiky bHØL, kterou budeme zpravidla značit pouze kratším symbolem b, jsou tedy odhady prozměrného parametru b vypočtené metodou nejmenších čtverců na základě realizací y = Hy1 , Ω, yn L náhodného ` vektoru Ø = HY1 , Ω, Y p L. Analogickou interpretaci mají realizace statistik bi HØL, pro které též budeme používat kratší ` ` ` označení bi . Symboly b, bi tedy mohou mít různé významy v závislosti na kontextu. 14.5. Příklad: Horizontální regresní přímka. Uvažujme ZMLR, v němž A Õ Ñ, p = 1, f0 HxL = 1 a hHxL = b0 . Potom, jak je snadno vidět, Å = H1, …, 1L, Å ÅT = n, ØÅT = ‚ yj , HÅÅT L n
j=1
−1
ˆ 1 1 ˆHxL = = , β0 = η ‚ yj . n n n
j=1
14.6. Příklad: Regresní přímka procházející počátkem. Uvažujme lineární regresní model, v němž A Õ Ñ, p = 1, f1 HxL = x a hHxL = b1 x. Grafem regresní funkce je v tomto případě přímka procházející počátkem a platí: Å = Hx1 , …, xn L, Å ÅT = ‚ x2j , ØÅT = ‚ xj yj , HÅÅ L
T −1
n
n
j=1
j=1
n n n i y i y i y ˆ j z j j 2z 2z j z j z z j z j z j z , β = x y ì x =j x ‚ ‚ ‚ j j 1 j j j z j z j z j z j z. j z j=1 j=1 j=1 k { k { k { −1
14.7. Příklad: Obecná regresní přímka. Uvažujme regresní model, v němž A Õ Ñ, p = 2, f0 HxL = 1, f1 HxL = x a hHxL = b0 + b1 x. Grafem regresní funkce je v tomto případě přímka a platí:
66
M6b-06-Statistics.nb
Å=J
n n i y ⁄nj=1 xj y i n 1 ∫ 1 j z z T j j z j z N, ÅÅT = j , ØÅ = y , xj yj z ‚ ‚ j j z j z, n n 2 j z x1 … xn x x ⁄ ⁄ j j j=1 k j=1 { j=1 kj=1 {
HÅÅT L
−1
1 = 2 n 2 n ⁄j=1 xj − H⁄nj=1 xj L
n n i ⁄j=1 x2j −⁄j=1 xj z y j j z j n z, −⁄ x n k j=1 j {
H⁄nj=1 x2j L H⁄nj=1 yj L − H⁄nj=1 xj L H⁄nj=1 xj yj L ˆ β0 = , 2 n ⁄nj=1 x2j − H⁄nj=1 xj L n ⁄nj=1 xj yj − H⁄nj=1 xj L H⁄nj=1 yj L ˆ β1 = . 2 n ⁄nj=1 x2j − H⁄nj=1 xj L
` 14.8. Věta. Jsou-li splněny předpoklady ZMLR, pak statistika b je nestranným odhadem p-rozměrného parametru b s kovarianční maticí ˆ −1 covHβL = σ2 HÅ ÅT L ,
` a tedy každá statistika bi , i = 1, Ω, p, je nestranným odhadem parametru bi . Důkaz. (a) Položíme-li Ø = HY1 , Ω, Yn L, pak podle předpokladu II základního modelu lineární regrese ` Pro střední hodnotu statistiky b tedy platí
E Ø = HE Y1 , …, E Yn L = β Å.
ˆ −1 −1 −1 E β = EIØ ÅT HÅÅT L M = HE ØL ÅT HÅÅT L = β ÅÅT HÅÅT L = β,
` ` ` což dokazuje nestrannost všech odhadů b, b1 , Ω, b p .
(b) Přímým výpočtem se snadno ověří, že kovarianční matice p-rozměrného náhodného vektoru Ô À, kde Ô je nrozměrný (řádkový) náhodný vektor a À je matice typu Hn, pL, je dána formulí covHÔ ÀL = ÀT covHUL À, a proto vzhledem k předpokladu IV základního modelu lineární regrese ˆ −1 −1 −1 cov HβL = cov IY ÅT HÅÅT L M = HÅÅT L Å cov HYL ÅT HÅÅT L =
= HÅÅT L
−1
Å Hσ2 ÄL ÅT HÅÅT L
−1
= σ2 HÅÅT L
−1
Å ÅT HÅÅT L
−1
= σ2 HÅÅT L , −1
což bylo třeba dokázat. á ` ` ` 14.9. Věta. Jsou-li splněny předpoklady ZMLR, pak pro statistiky b, b1 , Ω, b p z odstavce 14.4 a každý vektor c = Hc1 , Ω, c p L y i p ˆ ˆ z ˆ −1 j z = c.β, varIc.β EIc.βM = Ej M = σ2 c HÅÅT L cT . j z j ‚ ci βi z ki=1 {
` Důkaz. Protože statistika b je podle věty 14.8 nestranným odhadem parametru b a střední hodnota je lineární funkcí náhodné veličiny, ˆ ˆ E Ic.βM = ‚ ci E Hβi L = ‚ ci βi = c.β, p
p
i=1
i=1
a podle stejné věty a vlastnosti kovarianční matice uvedené na začátku části (b) jejího důkazu
M6b-06-Statistics.nb
67
ˆ ˆ ˆ varIc.βM = covIβ cT M = c covHβL cT =
= c covIØ ÅT HÅÅT L M cT = c HÅÅT L −1
= c HÅÅT L
−1
Å Hσ2 ÄL ÅT HÅÅT L
−1
−1
Å covHØL ÅT HÅÅT L
cT = σ2 c HÅ ÅT L
= σ2 c HÅ Å L
T −1
cT .
−1
−1
cT =
Å ÅT HÅÅT L
−1
cT =
Tím je důkaz hotov. á 14.10. Odhad lineární funkce parametrů v ZMLR. Lineární funkcí parametrů v kontextu modelu lineární regrese popsaného v odstavci 14.2 se nazývá každá funkce tvaru γ = γHβL = c.β = ‚ ci βi , p
i=1
kde c = Hc1 , Ω, c p L je nenulový vektor a "." znamená skalární součin aritmetických vektorů. Ztotožníme-li matice typu (1,1) s reálnými čísly, můžeme funkci g vyjádřit také jako součin c bT = b cT , kde c a b chápeme jako jednořádkové matice, zatímco cT a bT chápeme jako jednosloupcové matice. Lineárními parametrickými funkcemi jsou např. funkce γ = β1 − β2 , γ = ‚ βi , γ = ‚ H−1Li βi , γ = ηHxL = ‚ βi fiHxL, p
p
p
j=1
j=1
j=1
kde x je libovolný pevně zvolený prvek množiny A. Odhadem lineární parametrické funkce g se nazývá každá statistika gè, která je lineární kombinací náhodných veličin Y1 , Ω, Yn z odstavce 14.2, tj. každá statistika γ = ζ.Ø = ζ ØT = ‚ ζj Yj , n
j=1
kde z = Hz1 , Ω, zn L je nenulový vektor. Odhad gè je podle definice nestranný, jestliže pro každou hodnotu parametru b platí rovnost E gè = gHbL. Nejdůležitějším odhadem lineární parametrické funkce g = c bT je odhad získaný metodou nejmenších čtverců, tj. statistika ˆT −1 ˆ γ = c β = c HÅ ÅT L Å ØT , a to díky níže uvedené větě 14.13. 14.11. Poznámka. V případě parametrické funkce g = hHxL, kde x je libovolný prvek množiny A, se odhad `T ` hHxL = H f1 HxL Ω, f p HxLL b , který lze pro každou realizaci náhodného vektoru Ø = HY1 , Ω, Yn L chápat jako funkci argumentu x œ A, často nazývá empirická regresní funkce. 14.12. Lemma. Jsou-li splněny předpoklady ZMLR, potom matice Ï = HÅÅT L
−1
Å, Ï1 = ÅT Ï, Ï2 = Ä − Ï1
mají následující vlastnosti (Î je nulová matice a hHÌL je hodnost matice Ì): HaL Ï1 + Ï2 = Ä, HbL ÏT1 = Ï1 , ÏT2 = Ï2 , HcL Ï Ï1 = Ï, Ï Ï2 = Î, HdL Ï1 Ï1 = Ï1 , Ï2 Ï2 = Ï2 , Ï1 Ï2 = Ï2 Ï1 = Î, HeL Hz Ï1 L.Hz Ï2 L = 0 pro každý vektor z œ Ñn , HfL hHÏ1 L = p, hHÏ2 L = n - p. Důkaz. Tvrzení (a), (b) jsou zřejmá z definice matic Ï1 , Ï2 tvrzení (c) - (e) jsou důsledkem zřejmých identit
68
M6b-06-Statistics.nb
Ï Ï1 = HÅÅT L ÅÅTHÅ ÅT L Å = HÅÅT L Å = Ï, Ï Ï2 = Ï HÄ − Ï1 L = Ï − Ï Ï1 = Ï − Ï = Î, Ï1 Ï1 = ÅT Ï Ï1 = ÅT Ï = Ï1 , Ï1 Ï2 = Ï1 HÄ − Ï1 L = Ï1 − Ï1 = Î, Ï2 Ï1 = HÄ − Ï1 L Ï1 = Ï1 − Ï1 = Î, Ï2 Ï2 = Ï2 HÄ − Ï1 L = Ï2 − Ï2 Ï1 = Ï2 − Î = Ï2 , Hζ Ï1 L.Hζ Ï2 L = ζ Ï1 Ï2 ζT = ζ Î ζT = 0. −1
−1
−1
Důkaz poslední vlastnosti je poněkud obtížnější. Nechť W1 = 8ζ Ï1 ; ζ ∈ Ñn <, W2 = 8ζ Ï2 ; ζ ∈ Ñn <, takže W1 je lineární podprostor v Ñn generovaný řádkovými vektory matice Ï1 a W2 je lineární podprostor v Ñn generovaný řádkovými vektory matice Ï2 . Podle definice hodnosti matice je tedy hHÏ1 L = dimHW1 L, hHÏ2 L = dimHW2 L.
Protože matice Å ÅT je regulární, Ï1 = ÅT Ï, Ï = HÅ ÅT L vyplývají vztahy
a tedy
-1
Å Ï1 a Ï = HÅ ÅT L
-1
Å, z definice hodnosti matice ihned
hHÏ1 L hHÏL, hHÏL = hHÅ Ï1 L hHÏ1 L, hHÏL = hHÅL = p, hHÏ1 L = hHÏL = hHÅL = p.
Z již dokázaných vlastností matic Ï1 , Ï2 dále plyne, že W1 + W2 = Ñn , W1 › W2 = 80<, a proto hHÏ1 L + hHÏ2 L = dimHW1 L + dimHW2 L = n, hHÏ2 L = n − hHÏ1 L = n − p.
Tím je důkaz lemmatu dokončen. á 14.13. Věta. Nejlepším nestranným odhadem lineární funkce g = c.b parametru b v základním modelu lineární ` ` -1 regrese je statistika g` = c.b, kde b = Ø ÅT HÅÅT L . Jinými slovy, E g` = c.b pro všechna b a pro každý jiný nestranný odhad gè funkce g platí nerovnost −1 varHγL ≥ varH ˆ γL = σ2 c HÅÅT L cT .
Důkaz. Vzhledem k větě 14.9 stačí dokázat, že odhad g` má ze všech nestranných odhadů gè parametrické funkce g nejmenší rozptyl. Nechť tedy gè = z ØT = z1 Y1 + Ω + zn Yn je libovolný takový odhad. Protože podle předpokladu II základního modelu lineární regrese E Ø = b Å, z nestrannosti odhadu gè vyplývá, že pro každé b œ Ñ p Hζ ÅT − cL βT = ζ ÅT βT − c βT = ζ EHØT L − c βT = EHζ ØT L − c βT = E HγL − c βT = 0, a proto vzhledem k libovolnosti vektoru b platí rovnost c = z ÅT . Na druhé straně n n i n y j z z j z varHγL = varj ζ Y = ‚ ‚ ζj covHYj , Yk L ζk , ‚ j j j z z j kj=1 { j=1 k=1
a tedy podle předpokladu IV základního modelu a tvrzení (a), (b) a (e) lemmatu 14.12 varHγL = σ2 ‚ ζ2j = σ2Hζ.ζL = σ2 Hζ Ï1 L.HÏ1 ζL + σ2Hζ Ï2 L.HÏ2 ζL ≥ n
j=1
≥ σ2Hζ Ï1 L.HÏ1 ζL = σ2 ζ Ï1 Ï1 ζT = σ2 ζ Ï1 ζT .
Použijeme-li nyní již dokázanou identitu c = z ÅT a větu 14.9, dostaneme nerovnost varHγL ≥ σ2 ζ Ï1 ζT = σ2 ζ ÅT HÅÅT L
−1
Å ζT = σ2 c HÅÅT L
−1
ˆL, cT = varHγ
M6b-06-Statistics.nb
69
což bylo třeba dokázat. á 14.14. Poznámka. Protože bi lze považovat za speciální případ parametrické funkce, z právě dokázané věty plyne, ` že bi je pro každé i = 1, Ω, p nejlepším nestranným (lineárním) odhadem parametru bi . Totéž platí o odhadu h`HxL regresní funkce h(x). 14.15. Důležitou roli v ZMLR hraje náhodná veličina p n n i y ˆ ˆT ˆ ˆHx LL2 = jY − z SR = IØ − β ÅM IØT − ÅT β M = ‚ HYj − η βi fij z ‚j ‚ j z j j j z , { j=1 j=1 k i=1 2
a z ní odvozená náhodná veličina SR s2 = . n−p Veličina S R , pro kterou se používá též označení Se nebo R, se nazývá reziduální součet čtverců, a náhodná veličina s2 se nazývá reziduální rozptyl. Důležitost těchto náhodných veličin je dána jejich souvislostí s rozptylem s2 náhodných veličin YHxL, x œ A. 14.16. Lemma. Jsou-li splněny předpoklady ZMLR a Ï2 je matice z lemmatu 14.12, potom SR = Ø Ï2 Ï2 ØT = Ø Ï2 ØT . ` Důkaz. Podle definice náhodných veličiny SR a b a podle lemmatu 14.12 SR = IØ − Ø ÅTHÅ ÅT L ÅM IØT − ÅTHÅ ÅT L Å ØT M = = HØ − Ø Ï1 L HØT − Ï1 ØT L = Ø HÄ − Ï1 L HÄ − Ï1 L ØT = Ø Ï2 Ï2 ØT = Ø Ï2 ØT . −1
−1
14.17. Lemma. Pro libovolný n-rozměrný náhodný vektor Ô a libovolnou čtvercovou matici À řádu n EHÔ À ÔT L = HE ÔL À HE ÔLT + TrHÀ covHÔLL,
kde TrHÌL je stopa čtvercové matice Ì, tj. součet jejích diagonálních prvků. Důkaz. Pro každý náhodný vektor HX , YL platí, jak se snadno ověří, rovnost
EHX YL = HE XLHE YL + covHX, YL.
Pro náhodný vektor Ô = HU1 , Ω, Un L a matici À = Hai j L proto postupně dostáváme n y i j z z j z EHÔ À ÔT L = Ej U a U ‚ i ij j j z j z= i,j=1 k {
= ‚ aij EHUi Uj L = ‚ aij HHE Ui LHE Uj L + covHUi , Uj LL = n
n
i,j=1
i,j=1
= ‚ HE Ui LaijHE Uj L + ‚ aij covHUi , Uj L = HE ÔL À HE ÔLT + TrHÀ covHÔLL, n
n
i,j=1
i,j=1
což bylo třeba dokázat. á 14.18. Lemma. Nechť Ï1 , Ï2 jsou čtvercové matice řádu n. Jestliže Ï1 + Ï2 = Ä, Ï1 Ï1 = Ï1 , Ï2 Ï2 = Ï2 , Ï1 Ï2 = Ï2 Ï1 = Î, kde Ä je jednotková a Î nulová matice řádu n, potom TrHÏ1 L = hHÏ1 L, TrHÏ2 L = hHÏ2 L.
70
M6b-06-Statistics.nb
Důkaz. Nechť Hb1 , Ω, b p L je uspořádaná báze lineárního prostoru
W1 = 8ζ Ï1 ; ζ ∈ Ñn < ⊂ Ñn ,
Hb p+1 , Ω, bn L je uspořádaná báze lineárního prostoru
W2 = 8ζ Ï2 ; ζ ∈ Ñn < ⊂ Ñn
a He1 , Ω, en L je standardní báze prostoru Ñn . Protože, jak snadno plyne z předpokladů lemmatu, průnik W1 › W2 obsahuje pouze nulový vektor, Hb1 , Ω, bn L je uspořádaná báze prostoru Ñn , a proto matice b1 y i j j z z Â=j z j ªz j z, j z b k n{
jejímiž řádkovými vektory jsou vektory b1 , Ω, bn , je regulární. Z předpokladů lemmatu dále vyplývají implikace 1 j p bj Ï1 = bj fl bj Ï2 = 0, 1 j n − p bj Ï1 = 0 fl bj Ï2 = bj ,
a proto
 Ï1 Â−1
i j j j j j j j j j j =j j j j j j j j j j j k
b1 ª bp 0 ª 0
y i e1 z y j z z j z j z z j z ª z z j z z j z z j z z j z e z j z p i Äp Î 1 y z j z −1 z, z j z =j  = z j z z j z ÎT1 Î2 { 0 z j z k z j z z j z z j z j z ª z z j z z j z z j z 0 { k {
 Ï2 Â−1
0 i j j j j ª j j j j 0 j j =j j j bp+1 j j j j j ª j j j b k n
0 y i y z j z z j z j z z j z ª z z j z z j z z j z z j z 0 z j z i Î3 Î1 z y, −1 z j z z z =j =j z j z T z j z ep+1 z j z k Î1 Än−p { z j z z j z z j z j z ª z z j z z j z z j z e k n { {
kde Ä p , Än- p jsou jednotkové matice řádu p resp. n - p a Îk , k = 1, 2, 3, jsou nulové matice. Zřejmě
TrHÂ Ï1 Â−1 L = hHÂ Ï1 Â−1 L = p, TrHÂ Ï2 Â−1 L = hHÂ Ï2 Â−1 L = n − p,
a proto též TrHÏ1 L = hHÏ1 L = p, TrH Ï2 L = hHÏ2 L = n − p, neboť, jak se snadno ověří přímým výpočtem, pro každou čtvercovou matici Ì a pro každou regulární matici  stejného řádu TrHÂ Ì Â−1 L = TrHÌL,
hHÂ Ì Â−1 L = hHÌL.
Tím je důkaz lemmatu dokončen. á 14.19. Věta. Jsou-li splněny předpoklady ZMLR, potom reziduální rozptyl s2 je nestranným odhadem rozptylu s2 náhodných veličin Y HxL, x œ A. Důkaz. Nechť Ï1 , Ï2 jsou matice z lemmatu 14.12. Podle lemmatu 14.16 SR = Ø Ï2 ØT a podle předpokladu II základního modelu lineární regrese E Ø = b Å. Podle lemmatu 14.17 proto platí EHSR L = EHØL Ï2 EHØT L + TrHÏ2 covHØLL = β Å HÄ − Ï1 L ÅT βT + σ2 TrHÏ2 L =
= β Å ÅT βT − β Å Ï1 ÅT βT + σ2 TrHÏ2 L = β Å ÅT βT − β Å ÅT HÅÅT L Å ÅT βT + σ2 TrHÏ2 L = = β Å ÅT βT − β Å ÅT βT + σ2 TrHÏ2 L = σ2 TrHÏ2 L. −1
SR Protože s2 = ÅÅÅÅ ÅÅÅÅÅÅ , k dokončení důkazu se stačí odvolat na lemma 14.18 a tvrzení (f) lemmatu 14.12, podle nichž n- p Tr HÏ2 L = hHÏ2 L = n - p. á
M6b-06-Statistics.nb
71
První z následujících několika vět, kterou přijmeme bez důkazu, představuje podstatnou část jednoho netriviálního výsledku z teorie matic známého jako věta o singulárním rozkladu. Druhá věta, kterou s její pomocí dokážeme, obsahuje důležitou vlastnost vícerozměrného normálního rozdělení. Netriviálním výsledkem z teorie matic je též třetí věta o symetrických maticích, o níž se opírá důkaz dalších vlastností vícerozměrného normálního rozdělení pravděpodobnosti obsažených ve čtvrté a páté větě. 14.20. Věta (o singulárním rozkladu). Pro každou matici Ï typu Hn, pL, kde p § n, existují matice Ô, S, Õ s následujícími vlastnostmi: HaL Matice Ô, Õ jsou čtvercové a ortogonální, tj. Ô-1 = ÔT , Õ-1 = ÕT .
HbL Matice S je typu Hn, pL a
σ1 0 ∫ O i j j j 0 σ2 ∫ 0 j j ΣT = j j j ª ª ∏ ª j j j k 0 0 ∫ σp
0 ∫ 0y z z 0 ∫ 0z z z z, z ª ∏ 0z z z z 0 ∫ 0{
kde s1 ¥ s2 ¥ ∫ ¥ s p ¥ 0. HcL Ï = Ô S Õ. Důkaz viz např. Roger A. Horn, Charles R. Johnson: Matrix analysis, Cambridge University Press, 1986, nebo ruský překlad z r. 1989. 14.21. Věta. Nechť x œ Ñ p , Ø = HY1 , Ω, Yn L je n-rozměrný náhodný vektor a Ï je matice typu Hn, pL. Jestliže Ø má n-rozměrné normální rozdělení NHh, ÀL, kde À je pozitivně definitní symetrická matice, a matice Ï má hodnost p § n, potom p-rozměrný náhodný vektor × = x + Ø Ï má p-rozměrné normální rozdělení NHx + h Ï, ÏT À ÏL. Důkaz. Náhodný vektor Ø má rozdělení NHh, ÀL, právě když Ø - h má rozdělení NH0, ÀL, a × má rozdělení NHx + h Ï, ÏT À ÏL, právě když × - x - h Ï = HØ - hL Ï má rozdělení NH0, ÏT À ÏL. V důkazu proto můžeme bez újmy na obecnosti předpokládat h = 0, x = 0. Naším úkolem je pak dokázat: Má-li náhodný vektor Ø hustotu pravděpodobnosti 1 1 ϕHyL = expJ− y À−1 yT N, y ∈ Ñn , nê2 è!!!!!!!!!!!!!!!!!! 2 H2 πL detHÀL potom náhodný vektor × = Ø Ï má hustotu pravděpodobnosti
tj.
1 1 −1 ψHxL = expJ− x HÏT À ÏL xT N, x ∈ Ñp , pê2 è!!!!!!!!!!!!!!!!!!!!!!!!!!!! T 2 H2 πL detHÏ À ÏL P@× ∈ BD = ‡ ψHxL x B
pro každou borelovskou množinu B Õ Ñ p . I. Nechť p = n. Matice Ï je v tomto případě regulární a proto =‡
B
P@× ∈ BD = P@Ø ∈ B Ï−1 D = H1L
ϕHyL y = Ï−1
»detHÏL»−1 ‡ ϕHz Ï−1 L z = B
»detHÏL» 1 H2L = ‡ expJ− z Ï−1 À−1Ï−T zT N z = è!!!!!!!!!!!!!!!!!! 2 H2 πLnê2 detHÀL B −1
1 1 −1 = ‡ expJ− z H ÏT À ÏL N zT z = ‡ ψHxL x, è!!!!!!!!!!!!!!!!!!!!!!!!!!!! 2 H2 πLnê2 detHÏT À ÏL B B kde rovnost (1) je důsledkem substituce y = z Ï-1 a substituční věty pro vícerozměrné integrály a (2) je důsledkem dobře známých identit
72
M6b-06-Statistics.nb
Ï−1 À−1 HÏ−1 L = H ÏT À ÏL , è!!!!!!!!!!!!!!!!!!!!!!!!!!!! è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! è!!!!!!!!!!!!!!!!!! detHÏT À ÏL = detHÏT L detHÀL detHÏL = »detHÏL» detHÀL . −1
T
II. Nechť p < n a ÏT = H Ä p , ÎL, kde Ä p je jednotková matice řádu p a Î je nulová matice vhodného typu. Indukcí podle řádkového indexu se snadno dokáže existence matice Ð typu Hn - p, pL, pro kterou platí implikace Â=J
Äp Î Àp Î N Â À ÂT = J N. Ð Än−p Î Àn−p
Položíme-li y = z Â-T , dostaneme postupně P@× ∈ BD = P@Ø ∈ B × Ñn−p D = 1 = è!!!!!!!!!!!!!!!!!! H2 πLnê2 detHÀL 1 = nê2 è!!!!!!!!!!!!!!!!!! H2 πL detHÀL H2 πL−pê2 H2 πL−Hn−pLê2 = è!!!!!!!!!!!!!!!!!!!! detHÀp L è!!!!!!!!!!!!!!!!!!!!!!! detHÀn−p L!
H1L
‡
ϕHyL y =
B×Ñn−p
‡
B×Ñn−p
‡
B×Ñn−p
‡
B×Ñn−p
ϕHz Â−T L z =
1 expJ− z Â−T À−1 Â−1 zT N z = 2
1 −1 H2L expJ− z HÂ À ÂT L zT N z = 2
y yi i j z z j 1 1 j z z j −1 T −1 T j z z j expJ− z À z N z = expJ− z À z N z j z z j ‡ ‡ n−p p j z z j z zj 2 j 2 n−p { kÑ kB {
1 1 T = expJ− z À−1 p z N z, pê2 è!!!!!!!!!!!!!!!!!!!! ‡ 2 H2 πL detHÀp L B
kde (1) a (2) jsou po řadě důsledky substituční resp. Fubiniovy věty. Zbývá ukázat, že À p = ÏT À Ï. To je však snadné, neboť podle definice matice  Â−1 = J
À=J a tedy
Äp Î N, −Ð Än−p
Àp −Àp ÐT Äp Î Àp Î y i Äp −ÐT z y i z j z, NJ Nj j z=j −Ð Än−p Î Àn−p k Î Än−p { k −Ð Àp Ð Àp ÐT + Àn−p { −Àp ÐT Äp i Àp y z j z J N = Àp. ÏT À Ï = H Äp Î L j T k −Ð Àp Ð Àp Ð + Àn−p { Î
III. Nechť p < n a Ï = Ô S Õ je singulární rozklad matice Ï z věty 14.20. Podle části I důkazu má náhodný vektor Ø Ô n-rozměrné normální rozdělení NH0, ÔT ÀÔL. Položíme-li S = HD, ÎL, kde D je čtvercová matice řádu p, potom S D-1 = HÄ p , ÎL, a proto náhodný vektor Ø Ô S D-1 má podle části II důkazu p-rozměrné normální rozdělení NI0, HΣ ∆−1 L ÔT ÀÔ HΣ ∆−1 LM = NI0, HÔ Σ ∆−1 L À HÔΣ ∆−1 LM. T
T
Konečně matice D Õ řádu p je regulární, a proto náhodný vektor Ø Ï = HØ Ô S D-1 L D Õ má podle části I důkazu prozměrné normální rozdělení NI0, H∆ ÕLTHÔ Σ ∆−1 L À HÔΣ ∆−1 L H∆ ÕLM = T
= NI0, HÔ Σ ∆−1 ∆ ÕL À HÔΣ ∆−1 ∆ ÕLM = N H0, ÏT À ÏL. T
Tím je věta plně dokázána. 14.22. Věta. Matice À je symetrická, právě když existuje ortogonální matice Ô, pro kterou je matice ÔT À Ô diagonální.
M6b-06-Statistics.nb
73
Důkaz viz např. Roger A. Horn, Charles R. Johnson: Matrix analysis, Cambridge University Press, 1986, nebo ruský překlad z r. 1989. 14.23. Věta. Nechť Ø = HY1 , Ω, Yn L je n-rozměrný náhodný vektor s normálním rozdělením NHh , ÀL, Ï1 je matice typu Hn, pL a Ï2 je matice typu Hn, n - pL, kde 0 < p < n. Jestliže matice Ï = HÏ1 , Ï2 L má hodnost n, potom platí: HaL covHØL = À. HbL covHØ Ï1 , Ø Ï2 L = ÏT1 À Ï2 , covHØ Ï2 , Ø Ï1 L = ÏT2 À Ï1 . HcL Náhodné vektory Ø Ï1 , Ø Ï2 jsou nezávislé, právě když ÏT1 À Ï2 je nulová matice. HdL Náhodné veličiny Y1 , Ω, Yn jsou nezávislé, právě když matice covHØL je diagonální.
Důkaz. (a) Přímý výpočet ukazuje, že tvrzení platí, je-li matice À diagonální. Není-li À diagonální, pak podle věty 14.22 existuje ortogonální matice Ô, pro kterou je matice S = ÔT À Ô diagonální, a podle věty 14.21 má náhodný vektor × = Ø Ô normální rozdělení NHE ×, SL. Proto covHØL = covH× ÔT L = Ô covH×L ÔT = Ô Σ ÔT = Ô HÔT À ÔL ÔT = À.
(b) Náhodný vektor Ø Ï má podle věty 14.21 normální rozdělení pravděpodobnosti NH0, ÏT À ÏL, a proto na jedné straně podle již dokázaného tvrzení (a) i ÏT1 y covHØ ÏL = ÏT À Ï = j j Tz z À HÏ1 , Ï2L = k Ï2 {
ÏT1 À Ï1 ÏT1 À Ï2 y i j z j T z, k Ï2 À Ï1 ÏT2 À Ï2 {
zatímco na druhé straně podle definice kovarianční matice náhodného vektoru covHØ ÏL = J
covHØ Ï1 L covHØ Ï1 , Ø Ï2 L N. covHØ Ï2 , Ø Ï1 L covHØ Ï1 L
Porovnáme-li tato dvě vyjádření matice cov HØ ÏL, dostaneme covHØ Ï1 , Ø Ï2 L = ÏT1 À Ï2 , covHØ Ï2 , Ø Ï1 L = ÏT2 À Ï1 . (c) Jsou-li náhodné vektory Ø Ï1 , Ø Ï2 nezávislé, potom covHØ Ï1 , Ø Ï2 L = Î, a proto podle již dokázaného tvrzení (b) také ÏT1 À Ï2 = Î. Nechť obráceně ÏT1 À Ï2 = Î. Náhodný vektor Ø - h má normální rozdělení NH0 , ÀL a náhodné vektory Ø Ï1 , Ø Ï2 jsou nezávislé, právě když jsou nezávislé náhodné vektory HØ - hL Ï1 , HØ - hL Ï2 . Bez újmy na obecnosti můžeme proto předpokládat h = 0. Podle věty 14.21 má náhodný vektor Ø Ï hustotu pravděpodobnosti
1 1 −1 ϕHyL = exp J− yHÏT À ÏL yT N è!!!!!!!!!!!!!!!!!!!!!!!!!!!! 2 H2 πLnê2 detHÏT À ÏL a náhodné vektory Ø Ï1 , Ø Ï2 mají hustoty pravděpodobnosti 1 1 −1 ϕ1Hy1 L = exp J− y1 HÏT1 À Ï1 L yT1 N, 2 H2 πLpê2 è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! detHÏT1 À Ï1 L 1 1 −1 ϕ2Hy2 L = exp J− y2 HÏT2 À Ï2 L yT2 N. 2 H2 πLHn−pLê2 è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! detHÏT2 À Ï2 L Podle důkazu tvrzení (b) však HÏT À ÏL a proto
−1
Î y i ÏT1 À Ï1 z =j j z T Î Ï2 À Ï 2 { k
−1
i HÏT1 À Ï1 L−1 y Î z j z =j j z, −1 T Î HÏ2 À Ï2 L { k
detHÏT À ÏL = detHÏT1 À Ï1 L detHÏT2 À Ï2 L,
y = Hy1 , y2 L ∈ Ñp × Ñn−p yHÏT À ÏL
−1
yT = y1 HÏT1 À Ï1 L
−1
yT1 + y2 HÏT2 À Ï2 L
Platí tedy implikace y = Hy1 , y2 L ∈ Ñp × Ñn−p ϕHyL = ϕ1Hy1 L ϕ2Hy2 L,
−1
yT2 .
74
M6b-06-Statistics.nb
což dokazuje, že náhodné vektory Ø Ï1 , Ø Ï2 jsou nezávislé. (d) Podle definice nezávislosti náhodných veličin jsou náhodné veličiny Y1 , Ω, Yn nezávislé, právě když náhodný vektor HY1 , Ω, Yi-1 , Yi+1 , Ω, Yn L a náhodná veličina Yi jsou nezávislé pro každé i z množiny 81, 2, Ω, n<. Tvrzení je proto snadným důsledkem tvrzení (c). 14.24. Věta. Jsou-li splněny předpoklady ZMLR a náhodné veličiny Y1 , Ω, Yn jsou navíc nezávislé a normálně rozdělené, potom platí: ` -1 HaL Náhodný vektor b má p-rozměrné normální rozdělení NIb, s2 HÅ ÅT L M. ` HbL Náhodné veličiny b a SR jsou nezávislé. HcL Náhodná veličina SR Hn − pL s2 = σ2 σ2
má c2 -rozdělení s n - p stupni volnosti. Důkaz. (a) Z předpokladů o náhodných veličinách Y1 , Ω, Yn vyplývá, že náhodný vektor Ø má n-rozměrné normální ` -1 rozdělení NHb Å, s2 ÄL, a proto tvrzení (a) o rozdělení pravděpodobnosti vektoru b = Ø ÅT HÅ ÅT L je přímým důsledkem věty 14.21. (b) Nechť
Ï = HÅÅT L Å, Ï1 = ÅT Ï, Ï2 = Ä − Ï1 , W1 = 8ζ Ï1 ; ζ ∈ Ñn < ⊂ Ñn , W2 = 8ζ Ï2 ; ζ ∈ Ñn < ⊂ Ñn , −1
takže podle lemmatu 14.12 a jeho důkazu jsou lineární podprostory W1 , W2 jsou vzájemně ortogonální a dim W1 = p, dim W2 = n - p. Nechť b1 , Ω, b p jsou řádkové vektory matice Å, nechť Ð je matice typu Hn - p, nL, jejíž řádkové vektory Hb p+1 , Ω, bn L tvoří ortonormální bázi prostoru W2 , a nechť  je matice s řádkovými vektory b1 , Ω, bn . Potom, jak se snadno nahlédne, vektory b1 , Ω, b p leží v podprostoru W1 , a proto vzhledem k ortogonalitě podprostorů W1 , W2 i Å ÅT HÅÅT L−1 Å ÐT y Å z j z  HÏT , ÐT L = J N HÏT , ÐT L = j j z = Ä. Ð T HÅÅT L−1 T Ð Å Ð Ð k { Matice  je tedy regulární a Â-1 = HÏT , ÐT L. Z ortogonality podprostorů W1 , W2 , vlastností matic Ï, Ï1 , Ï2 , definice ` matice Ð a definice statistiky b snadno plynou identity Ï ÐT = HÅÅT L Å ÐT = Î, Ï1 ÐT = Î, Ï2 ÐT = ÐT , −1
ˆ Ø Ï1 Â−1 = Ø Ï1 HÏT , ÐT L = HØ Ï1 ÏT , Ø Ï1 ÐT L = HØ ÏT , 0L = Iβ, 0M, Ø Ï2 Â−1 = Ø Ï2 HÏT , ÐT L = HØ Ï2 ÏT , Ø Ï2 ÐT L = H0, Ø ÐT L, ˆ Ø Â−1 = Ø HÏT , ÐT L = HØ Ï1 + Ø Ï2 L HÏT , ÐT L = Iβ, Ø ÐT M,
` a proto náhodné vektory b a Ø ÐT jsou podle věty 14.23 nezávislé. Stejně snadno se dále odvodí identity Å i Å Ï2 Ø T y i 0 y z z  Ï2 ØT = J N Ï2 ØT = j z=j j T , T Ð k Ð Ï2 Ø { k Ð Ø {
Ø Ï2 ØT = Ø Ï2 Ï2 ØT = HØ Ï2 Â−1 L HÂ Ï2 ØT L = HØ Ï2 ÐT L HÐ Ï2 ØT L = HØ ÐT L HØ ÐT L . T
Protože podle lemmatu 14.16 platí rovnost SR = Ø Ï2 ØT , z těchto identit vyplývá, že SR je borelovskou funkcí náhod` ` ného vektoru Ø ÐT . Nezávislost náhodných veličin b, SR je proto důsledkem nezávislosti náhodných vektorů b a Ø ÐT . (c) Protože podle předpokladu II základního modelu lineární regrese E Ø = b Å, náhodný vektor Ø ÐT = Ø Ï2 ÐT má nulovou střední hodnotu. Kromě toho Ð ÐT je zřejmě jednotková matice řádu n - p. Z věty 14.21 proto plyne, že náhodný vektor s-1 Ø ÐT má Hn - pL-rozměrné normální rozdělení pravděpodobnosti NH0, ÄL. Souřadnice X1 , Ω, Xn- p tohoto náhodného vektoru mají standardní normální rozdělení pravděpodobnosti a podle věty 14.23 jsou nezávislé. Náhodná veličina
M6b-06-Statistics.nb
75
T SR = Hσ−1 Ø ÐT L Hσ−1 Ø ÐT L = X21 + ∫ + X2n−p σ2
má proto rozdělení c2 s n - p stupni volnosti. á 14.25. Důsledek: Intervalové odhady rozptylu s2 . Nechť jsou splněny předpoklady ZMLR, nechť vii je i-tý -1 diagonální prvek matice HÅ ÅT L a nechť c2b HmL je b-kvantil c2 -rozdělení s m stupni volnosti. Jsou-li náhodné veličiny Y1 , Ω, Yn navíc nezávislé a normálně rozdělené, potom SR SR i j z , y j 2 2 Hn − pL z χ Hn − pL χ k 1−αê2 { αê2
je oboustranný intervalový odhad rozptylu s2 náhodných veličin YHxL, x œ A, o spolehlivosti 1 - a a SR SR resp. χ2αHn − pL χ21−αHn − pL je jeho dolní resp. horní odhad o spolehlivosti 1 - a. -1
14.26. Věta. Nechť jsou splněny předpoklady ZMLR a nechť vii je i-tý diagonální prvek matice HÅ ÅT L . Jsou-li náhodné veličiny Y1 , Ω, Yn navíc nezávislé a normálně rozdělené, potom náhodná veličina ˆ βi − βi Ti = , i = 1, …, p, è!!!!!!!!!!!!!! s2 vii má Studentovo T-rozdělení s n - p stupni volnosti. Důkaz. Položme
ˆ βi − βi SR U = , V = . è!!!!!!!!!!!!!! σ2 σ2 vii
` Podle věty 14.24 má náhodná veličina V rozdělení c2 s n - p stupni volnosti a náhodný vektor b a náhodná veličina V ` jsou nezávislé. Nezávislé jsou proto i náhodné veličiny U a V. Podle téže věty má náhodný vektor b normální rozdělení -1 NHb, s2 HÅ ÅT L L, a proto náhodná veličina U má podle věty 14.21 normované normální rozdělení. Protože ˆ
ˆ
βi −βi βi −βi ! ! è!!!!!!!!!!!!!!! è!!!!!!!!!!!!!!! U σ2 vii σ2 vii Ti = = = , è!!!!!!!!!!!!!!!!!!!!!!!! 2 SR "####### "########################### # s # V ê Hn − pL ê Hn − pL 2 2 σ σ
věta je dokázána. á 14.27. Důsledek: Intervalové odhady parametrů. Nechť jsou splněny předpoklady ZMLR, nechť vii je i-tý -1 diagonální prvek matice HÅ ÅT L a nechť t b HmL je b-kvantil Studentova T-rozdělení s m stupni volnosti. Jsou-li náhodné veličiny Y1 , Ω, Yn navíc nezávislé a normálně rozdělené, potom ˆ è!!!!!!!!!!!!!! ˆ è!!!!!!!!!!!!!! Iβi − t1−αê2 Hn − pL s2 vii , βi + t1−αê2 Hn − pL s2 vii M
je oboustranný intervalový odhad parametru bi o spolehlivosti 1 - a a ˆ è!!!!!!!!!!!!!! βi − t1−α Hn − pL s2 vii
ˆ è!!!!!!!!!!!!!! resp. βi + t1−α Hn − pL s2 vii
je jeho dolní resp. horní odhad o spolehlivosti 1 - a. 14.28. Důsledek: Testy hypotéz o parametrech. Nechť jsou splněny předpoklady ZMLR a náhodné veličiny -1 Y1 , Ω, Yn navíc nezávislé a normálně rozdělené. Nechť vii je i-tý diagonální prvek matice HÅ ÅT L a nechť t b HmL je bkvantil Studentova T-rozdělení s m stupni volnosti.
76
M6b-06-Statistics.nb
H0
H0 zamítáme, jestliže
H1
βi = βi,0 βi ≠ βi,0 βi βi,0 βi > βi,0 βi = βi,0 βi > βi,0 βi ≥ βi,0 βi < βi,0 βi = βi,0 βi < βi,0
ˆ è!!!!!!!!!!!!!! …βi − βi,0 … ≥ t1−αê2 Hn − pL s2 vii ˆ è!!!!!!!!!!!!!! βi ≥ βi,0 + t1−αê2 Hn − pL s2 vii ˆ è!!!!!!!!!!!!!! βi ≥ βi,0 + t1−αê2 Hn − pL s2 vii ˆ è!!!!!!!!!!!!!! βi βi,0 − t1−αê2 Hn − pL s2 vii ˆ è!!!!!!!!!!!!!! βi βi,0 − t1−αê2 Hn − pL s2 vii
`T 14.29. Věta. Nechť jsou splněny předpoklady ZMLR, g = c bT je nenulová lineární funkce parametru b a g` = c b je její odhad. Jsou-li náhodné veličiny Y1 , Ω, Yn navíc nezávislé a normálně rozdělené, potom náhodná veličina ˆT ˆ T c β − c βT β c − β cT Tc = = "#################################### "#################################### s2 c HÅ ÅT L−1 cT s2 c HÅ ÅT L−1 cT má Studentovo T-rozdělení s n - p stupni volnosti. Důkaz. Položme ˆ T β c − β cT s2 U = , V = . σ2 "#################################### σ2 c HÅ ÅT L−1 cT
` Podle věty 14.24 má náhodná veličina V rozdělení c2 s n - p stupni volnosti a náhodný vektor b a náhodná veličina V ` jsou nezávislé. Nezávislé jsou proto i náhodné veličiny U a V. Podle téže věty má náhodný vektor b normální rozdělení -1 NHb, s2 HÅ ÅT L L, a proto náhodná veličina U má podle věty 14.21 normované normální rozdělení. Protože ˆ
β cT −β cT ˆ T è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! β c − β cT U σ2 c HÅ ÅT L−1 cT Tc = = = , è!!!!!!!!!!!!!!!!!!!!!!!! S "#################################### "########################### # R V ê Hn − pL s2 c HÅ ÅT L−1 cT σ2 ê Hn − pL
věta je dokázána. á 14.30. Důsledek: Intervalové odhady lineární parametrické funkce. Nechť jsou splněny předpoklady `T ZMLR, nechť g` = c b je odhad nenulové lineární funkce g = c bT parametru b a nechť t b HmL je b-kvantil Studentova T-rozdělení s m stupni volnosti. Jsou-li náhodné veličiny Y1 , Ω, Yn navíc nezávislé a normálně rozdělené, potom ˆT ˆT "#################################### "#################################### Jc β − t1−αê2Hn − pL s2 c HÅ ÅT L−1 cT , c β + t1−αê2Hn − pL s2 c HÅ ÅT L−1 cT N
je oboustranný intervalový odhad parametrické funkce c bT o spolehlivosti 1 - a a ˆT "#################################### c β − t1−αHn − pL s2 c HÅ ÅT L−1 cT
ˆT "#################################### resp. c β + t1−αHn − pL s2 c HÅ ÅT L−1 cT
je její dolní resp. horní odhad o spolehlivosti 1 - a. 14.31. Důsledek: Testy hypotéz o lineární parametrické funkci. Nechť jsou splněny předpoklady ZMLR a náhodné veličiny Y1 , Ω, Yn jsou navíc nezávislé a normálně rozdělené. Nechť g = c bT je lineární funkce parametru b a t b HmL je b-kvantil Studentova T-rozdělení s m stupni volnosti.
M6b-06-Statistics.nb
77
H0
H0 zamítáme, jestliže
H1
γ = γ0 γ ≠ γ0 γ γ0 γ > γ0 γ = γ0 γ > γ0 γ ≥ γ0 γ < γ0 γ = γ0 γ < γ0
"#################################### ˆ−γ À ≥ t Àγ s2 c HÅ ÅT L−1 cT 0 1−αê2Hn − pL "#################################### ˆ γ ≥ γ0 + t1−αê2Hn − pL s2 c HÅ ÅT L−1 cT
"#################################### ˆ γ ≥ γ0 + t1−αê2Hn − pL s2 c HÅ ÅT L−1 cT
"#################################### ˆ γ γ0 − t1−αê2Hn − pL s2 c HÅ ÅT L−1 cT
"#################################### ˆ γ γ0 − t1−αê2Hn − pL s2 c HÅ ÅT L−1 cT
14.32. Příklad. Předpokládaná regresní závislost je tvaru ηHxL = β0 + β1 x + β2 x2 . Na základě experimentálních dat xj 1 2 3 4 5 6 7 8 9 10 11 12 , yj 4.42 9.72 7.97 13.26 16.16 16.63 27.46 33.77 42.14 51.84 64.64 72.74 kde y j jsou výsledky stejně přesných nezávislých měření nezatížených systematickou chybou, odhadněte regresní Ýh koeficienty, parametrickou funkci h H5.5L a parametrickou funkci ÅÅÅÅ ÅÅÅÅ H5.5L a určete pro ně 95%-ní oboustranné intervaly Ýx spolehlivosti. Řešení. Z charakteristiky experimentálních dat vyplývá, že jsou splněny jak předpoklady ZMLR, tak předpoklady důsledků 14.27 a 14.30 o intervalových odhadech parametrů a lineární parametrické funkce. I. Odhad regresních koeficientů a regresní funkce: 1 1 1 1 1 1 1 1 1 1 1 1 y i z j z j z, j Å=j z j 1 2 3 4 5 6 7 8 9 10 11 12 z j z k 1 4 9 16 25 36 49 64 81 100 121 144 { 12 78 650 y i j z z z j 78 650 6084 , ÅÅT = j z j z j j z 650 6084 60710 { k
HÅÅT L
−1
1.06818 −0.340909 0.0227273 y i j z z j z −0.340909 0.133616 −0.00974026 =j , z j z j z j 0.0227273 −0.00974026 0.000749251 { k ò Å T = H360.75, 3225.35, 31730.L,
ˆ −1 β = ò Å THÅÅT L = H6.9325, −1.08209, 0.556866L,
ˆ ˆ ηHxL = β.H1, x, x2 L = 6.9325 − 1.08209 x + 0.556866 x2 . Ýh II. Odhady parametrických funkcí h H5.5L a ÅÅÅÅ ÅÅÅÅ H5.5L: Ýx
ˆ Ýη ˆ ηH5.5L = 17.8262, H5.5L = 5.0434. Ýx
III. Reziduální součet čtverců SR a reziduální rozptyl s2 :
78
M6b-06-Statistics.nb
T ˆ ˆ SR SR = IØ − β ÅM IØ − β ÅM = 37.9742, s2 = = 4.21936. 9
IV. 95%-ní intervaly spolehlivosti vypočteme podle důsledků 14.27 a 14.30: β0 ∈ H2.12999, 11.735L, β1 ∈ H−2.78063, 0.616455L, β2 ∈ H0.429674, 0.684058L, Ýη ηH5.5L ∈ H15.8569, 19.7956L, H5.5L ∈ H−2.94295, 13.0298L. Ýx 14.33. Poznámka. Data y1 , Ω, y12 v předešlém příkladu byla generována na počítači systémem Mathematica 4.0 jako součty 0.5 x2 − 0.3 x + 4 + Random@NormalDistribution@0, 2DD, x = 1, 2, …, 12, kde Random@NormalDistribution@0, 2DD je pseudonáhodné číslo z normálního rozdělení s nulovou střední hodnotou a rozptylem s2 = 4. Koeficienty regresní funkce hHxL = 0.5 x2 - 0.3 x + 4 se tedy od koeficientů empirické regresní funkce značně liší, leží však v 95%-ních intervalech spolehlivosti pro b0 , b1 a b2 stanovených na základě dat y1 , Ω, y12 . Totéž platí o hodnotách regresní funkce, jak je patrné z grafu
80 60 40 20 0 0
2
4
6
8
10
12
na němž zelená křivka je grafem regresní funkce hHxL, červená křivka je grafem empirické regresní funkce a černé křivky jsou tvořeny koncovými body intervalu spolehlivosti pro hHxL. 14.34. ZMLR a ortogonální systémy funkcí. Nechť x1 , Ω , xn jsou navzájem různé prvky neprázdné množiny A, fi : A Ø Ñ, i = 1, Ω, p, jsou reálné funkce a fi j = fi Hx j L pro 1 § i § p, 1 § j § n. Řekneme, že funkce f1 , Ω, f p jsou ortogonální na množině 8x1 , Ω, xn <, jestliže n-rozměrné vektory fi∗ = Hfi1 , …, fin L, i = 1, 2, …, p,
jsou nenulové a ortogonální. Protože nenulové ortogonální vektory jsou lineárně nezávislé, funkce f1 , Ω, f p mohou být ortogonální na n-prvkové množině pouze v případě, že jsou lineárně nezávislé a p § n. Je-li tato podmínka splněna, potom funkce g1 , Ω, g p : A Ø Ñ definované rekurentními formulemi Hgi ⋅ fk L gk = fk − ‚ gi pro 1 < k p, gi .gi k−1
g1 = f1 ,
i=1
kde f ÿ g pro libovolné funkce f , g na množině A znamená skalární součin aritmetických vektorů H f Hx1 L, ... , f Hxn LL a HgHx1 L, ... .gHxn LL, jsou ortogonální na množině 8x1 , Ω, xn < a každá funkce na A, která je lineární kombinací funkcí f1 , Ω, fk pro některé přirozené k § p, je také lineární kombinací funkcí g1 , Ω, gk a obráceně. Právě popsaná univerzální konstrukce funkcí ortogonálních na množině 8x1 , Ω, xn < je známa jako Grammův-Schmidtův ortogonalizační proces, ortogonální systém g1 , Ω, g p ekvivalentní v uvedeném smyslu původnímu systému f1 , Ω, f p však lze často získat jednodušší konstrukcí. Uvažujme nyní ZMLR, v němž funkce f1 , Ω, f p jsou ortogonální na množině 8x1 , º, xn <, a položme
M6b-06-Statistics.nb
79
wii = ‚ f2ij pro i = 1, 2, …, p. n
j=1
Řádkové vektory matice Å jsou v tomto případě ortogonální, a proto matice ÅÅT , HÅÅT L totiž diagonální:
−1
jsou velmi jednoduché,
w−1 0 0 ∫ 0 y w11 0 0 ∫ 0 y i 11 i j z j z j z j z j −1 j j z 0 w22 0 ∫ 0 z 0 w22 0 ∫ 0 z j z j z j z j z j z j z j z j z T T −1 j z j z ª 0 ∏ ª ª 0 ∏ ª ÅÅ =j , HÅ Å L = j . z z j z j z j z j z j z j z j z j z ª ª ∏ 0 ª ª ∏ 0 j z j z j z j z j z j z j 0 z 0 ∫ 0 wpp { 0 ∫ 0 w−1 k 0 pp { k Jednoduché vyjádření mají i další veličiny: n n y ˆ i z j −1 −1 z j w f Y , …, w fpj Yj z β=j ‚ ‚ 1j j pp z, j 11 z j j=1 j=1 k {
ˆ ˆ ˆ σ2 1 i, j p, i ≠ j varHβi L = , covIβi , βj M = 0, wii γ = ‚ ci βi p
i=1
‚ Y2j j=1 n
SR =
c2i ˆL = σ 2 varHγ , ‚ wii p
i=1
n n y y i j z j z 1 i j z j z j z j z f Y − ∫ − f Y ‚ ‚ 1j j pj j j z j z j z z . wpp j { kj=1 { kj=1 2
1 − w11
2
` Z uvedených formulí je zřejmé, že odhad bi závisí pouze na funkcích f1 , Ω, fi a náhodném vektoru HY1 , Ω, Yn L a jeho rozptyl závisí dokonce jenom na funkci fi . Tento fakt má spolu s tvarem formule pro reziduální součet čtverců následující důležitý důsledek. Představme si, že si nejsme jisti, který z modelů Mp : ηHxL = β1 f1HxL + ∫ + βp fpHxL, Mq : ηHxL = β1 f1HxL + ∫ + βq fqHxL, kde p < q < n, lépe vystihuje regresní závislost. Za kritérium přitom volíme velikost reziduálního rozptylu, tj. za výstižnější považujeme model s menším reziduálním rozptylem. Nejsou-li funkce f1 , Ω, fq na množině 8x1 , Ω, xn < ` ` ortogonální, neexistuje obecně žádná souvislost mezi výpočty potřebnými pro stanovení odhadů b1 , Ω, b p parametrů `* `* b1 , Ω, b p a určení reziduálního rozptylu s2 v modelu M p a výpočty potřebnými pro stanovení odhadů b1 , Ω., bq parametrů b1 , Ω.bq a určení reziduálního rozptylu s2* v modelu Mq . Jsou-li však funkce f1 , Ω, fq ortogonální na množině 8x1 , Ω, xn <, všechny výpočty z modelu M p lze použít v modelu Mq a platí ˆ∗ ˆ 1 i p βi = βi ,
1 q−p 1 = s J1 + N − ‚ n−q n−q wii q
s2∗
2
i=p+1
n i y j z j z j z f Y ‚ ij j j z j z . kj=1 { 2
Porovnání dvou modelů je proto v případě ortogonality funkcí f1 , Ω, fq na množině 8x1 , Ω, xn < podstatně jednodušší. 14.35. Polynomická regrese a ortogonální polynomy. V aplikacích ZMLR je množinou A velmi často interval a regresní závislost je vyjádřena polynomem, tj. roli funkcí f1 , Ω, f p hrají funkce 1, x, Ω, xr a ηHxL = β0 + β1 x + ∫ + βr xr
80
M6b-06-Statistics.nb
pro všechna x œ A. Stupeň r polynomu je zpravidla 1, 2 nebo 3, někdy se ale stane, že není znám a je nutné jej odhadnout. Stupeň polynomu, vystihujícího dostatečně přesně regresní závislost, lze teoreticky odhadnout např. následujícím postupem, v němž je kriteriem vhodnosti velikost reziduálního rozptylu. Protože podle předpokladu III základního modelu lineární regrese musí být r + 1 < n, v úvahu připadá n - 1 modelů Mk : ηHxL = β0 + β1 x + ∫ + βk xk , k = 0, 1, …, n − 2, s reziduálními rozptyly s20 , s21 , Ω.s2n-2 . Za stupeň r regresního polynomu přijmeme nejmenší číslo k, pro které rozdíl s2k - s2k+1 je buď menší než 0 nebo jenom zanedbatelně větší než 0. Tento postup má ale několik značných nevýhod: ∏ V modelu Mk+1 nelze použít výpočty a koeficienty polynomů z modelů M0 , Ω, Mk . ∏ Pracnost výpočtů velice rychle roste se stupněm regresního polynomu. ∏ Roste počet rovnic a počet cifer čísel, se kterými pracujeme. Každé zaokrouhlení přitom snižuje přesnost výpočtu. Těmto potížím se můžeme vyhnout, nahradíme-li funkce 1, x, x2 , Ω, xn-2 polynomy y0 , y1 Ω, yn-2 ortogonálními na množině 8x1 , Ω.xn < a splňujícími podmínku degHyk L = k pro všechna k = 0, 1, Ω, n - 2, neboť reziduální rozptyl s2k nezávisí, jak je snadno vidět, na tom, zda regresní funkci vyjádříme jako lineární kombinaci polynomů 1, x, Ω, xk nebo jako lineární kombinaci polynomů y0 , y1 Ω, yk . Výpočet matice Å je ovšem pracnější pro ortogonální polynomy y0 , y1 Ω, yk než pro polynomy 1, x, Ω, xk , neboť každý polynom yi je lineární kombinací polynomů 1, x, Ω, xi . Vhodnou rekurentní definicí polynomů yi se však dá zjednodušit nejen výpočet matice Å. Rekurentní definice ortogonálních polynomů y0 , y1 Ω, yn-2 :
ψ−1HxL = 0, ψ0HxL = 1,
ψi+1HxL = x ψiHxL − αi+1 ψiHxL − δi ψi−1HxL pro i = 0, 1, …, n − 3, kde koeficienty
⁄nj=1 xj ψ2iHxj L αi+1 = , ⁄nj=1 ψ2iHxj L
⁄nj=1 xj ψiHxj L ψi−1Hxj L δi = ⁄nj=1 ψ2i−1Hxj L
jsou řešením rovnic 0 = ‚ ψi+1Hxj L ψiHxj L = ‚ xj ψ2iHxj L − αi+1 ‚ ψ2iHxj L, n
n
n
j=1
j=1
j=1
0 = ‚ ψi+1Hxj L ψi−1Hxj L = ‚ xj ψiHxj L ψi−1Hxj L − δi ‚ ψ2i−1Hxj L n
n
n
j=1
j=1
j=1
vyplývajících z podmínek ortogonality. Předpokládejme nyní, že regresní funkce je tvaru hHxL = b0 y0 + ∫ + br yr , takže p = r + 1, a položme wii = ‚ ψ2ij pro 0 i r, kde ψij = ψiHxj L. n
j=1
Podle odstavce 14.34 v tomto případě platí: w−1 0 0 ∫ 0 y w00 0 0 ∫ 0 y i 00 i z j z j z j z j z j −1 z j j z 0 w 0 ∫ 0 z j 0 w 0 ∫ 0 11 z j 11 z j z j z j z j −1 z j z j T T z z j ª 0 ∏ ª . , HÅ Å L = ÅÅ =j ª 0 ∏ ª z j z j z j z j z j j z z j z j z j z j ª ª ∏ 0 z j ª ª ∏ 0 z j z j z j z j z j 0 ∫ 0 wrr { k 0 0 ∫ 0 w−1 k 0 rr { n n y ˆ i j −1 z −1 z j z β=j w ψ Y , …, w ψ Y ‚ ‚ 0j j rj j 00 rr j z j z, j=1 j=1 k {
M6b-06-Statistics.nb
81
ˆ ˆ ˆ σ2 0 i, j r, i ≠ j varHβi L = , covIβi , βj M = 0, wii c2i ˆL = σ 2 γ = ‚ ci βi varHγ , ‚ wii r
r
i=0
i=0
n n n y y j z j z 1 i 1 i z j z j z j z SR = ‚ Y2j − j ψ Y − ∫ − ψ Y ‚ ‚ 0j j rj j j z j z z z , w00 j wrr j j=1 j=1 j=1 k { k { SR 2 s = . n−r−1 2
2
Za chvíli si na konkrétním příkladu ukážeme, jak lze současně počítat polynomy y0 , y1 Ω, yn-2 , koeficienty regresních polynomů stupňů 0, 1, Ω, n - 2 a příslušné reziduální rozptyly. 14.36. Příklad: Explicitní formule pro y1 , y2 . Z rekurentní definice polynomů y0 , y1 Ω ortogonálních na množině 8x1 , Ω, xn < lze odvodit, že 1 ψ1HxL = x − ñ = x − ‚ xj , n n
j=1
n ⁄nj=1 Hxj − ñL3 y i ⁄nj=1 Hxj − ñL3 1 2 z z j + ñ − x2j . ψ2HxL = x2 − x j + 2 ñ + 2 ñ ‚ z j n n 2 2 n Hx − ñL Hx − ñL ⁄ ⁄ j j j=1 j=1 { k j=1
Odtud okamžitě plyne: Jsou-li body x1 , Ω, xn rozloženy symetricky kolem svého aritmetického průměru, potom 1 ψ2HxL = x2 − 2 ñ x + 2 ñ2 − ‚ x2j . n n
j=1
14.37. Příklad. Odhadněte regresní závislost náhodné veličiny YHxL na veličině x na základě experimentálních dat xj 0.3 0.4 0.5 0.6 0.7 0.8 0.9
,
yj 560 330 285 155 185 160 310 víte-li, že ji lze vyjádřit polynomem. Řešení. K určení regresní závislosti použijeme polynomy y0 , y1 Ω, y5 ortogonální na množině 8x1 , Ω, x7 <. Potřebné mezivýsledky zapíšeme přehledně do tabulek. ` ∏ Výpočet b0 , h0 , SR,0 , s20 , y1 . ⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
‚
xj
0.3
0.4
0.5
0.6
0.7
0.8
0.9
4.2
yj
560
330
285
155
185
160
310
1985
y2j
313600 108900 81225 24025 34225 25600 96100 683675
ψ0j
1
1
1
1
1
1
1
7
ψ20j
1
1
1
1
1
1
1
7
yj ψ0j
560
330
285
155
185
160
310
1985
xj ψ20j
0.3
0.4
0.5
0.6
0.7
0.8
0.9
4.2
82
M6b-06-Statistics.nb
SR,0
1985 β0 = U 283.571, ˆ η0HxL = 283.571, 7 19852 SR = 683675 − U 120786., s20 = U 20131., 7 6 4.2 α1 = = 0.6, δ0 = 0, ψ1HxL = x − 0.6. 7
∏ Výpočet b1 , h`1 , SR,1 , s21 , y2 . ⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
‚
ψ1j
−0.3
−0.2
−0.1
0.
0.1
0.2
0.3
0.
ψ21j
0.09
0.04
0.01
0.
0.01
0.04
0.09
0.28
yj ψ1j
−168.
−66.
−28.5 0.
18.5
32.
93.
−119.
xj ψ21j
0.027 0.016 0.005 0. 0.007 0.032 0.081 0.168
xj ψ1j ψ0j −0.09 −0.08 −0.05 0.
0.07
0.16
0.27
0.28
−119 β1 = U −425., 0.28 ˆ ˆ HxL − 425. Hx − 0.6L = 538.571 − 425. x, η1HxL = η 0
SR,1 119.2 SR,1 U SR,0 − U 70210.7, s21 = U 14042.1, 0.28 5 0.168 0.28 α2 U = 0.6, δ1 = = 0.04, ψ2HxL = Hx − 0.6L2 − 0.04 = x2 − 1.2 x + 0.32. 0.28 7 ` ∏ Výpočet b2 , h2 , SR,2 , s22 , y3 . ⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
‚
ψ2j
0.05
0.
−0.03
−0.04
−0.03
0.
0.05
0.0
ψ22j
0.0025
0.
0.0009
0.0016
0.0009
0.
0.0025
0.0084
yj ψ2j
28.
0.
−8.55
−6.2
−5.55
0.
15.5
23.2
xj ψ22j
0.00075 0. 0.00045 0.00096 0.00063 0. 0.00225 0.00504
xj ψ2j ψ1j −0.0045 0.
0.0015
−0.0021 0.
0.
0.0135
0.0084
23.2 β2 U U 2761.9, 0.0084 ˆ ˆ HxL + 2761.9 Hx2 − 1.2 x + 0.32L = 1422.38 − 3739.29 x + 2761.9 x2 , η2HxL = η 1
SR,2 23.22 SR,2 U SR,1 − U 6134.52, s22 = U 1533.63, 0.0084 4 0.00504 0.0084 α3 U U 0.6, δ2 = U 0.03, 0.0084 0.28 ψ3HxL = Hx − 0.6L Hx2 − 1.2 x + 0.32L − 0.03 Hx − 0.6L U x3 − 1.8 x2 + 1.01 x − 0.174.
` ∏ Výpočet b3 , h3 , SR,3 , s23 . Polynom y4 vzhledem k nerovnosti s23 > s22 již nepočítáme. ⋅ ψ3j
⋅
⋅
⋅
⋅
⋅
⋅
⋅
−0.006 0.006 0.006 0. −0.006 −0.006 0.006
ψ23j
0.36 104
0.36 104
0.36 104
yj ψ3j
−3.36
1.98
1.71
‚ 0.0
0.
0.36 104
0.36 104
0.36 104
0.000216
0.
−1.11
−0.96
1.86
0.12
M6b-06-Statistics.nb
83
0.12 β3 U U 555.556, 0.000216 ˆ ˆ HxL − 555.556 Hx3 − 1.8 x2 + 1.01 x − 0.174L = η3HxL = η 2 1519.05 − 4300.4 x + 3761.9 x2 − 555.556 x3 , SR,2 0.122 SR,3 U SR,2 − U 6067.86, s23 = U 2022.62. 0.000216 3 ` Výsledek: Regresní funkci tedy odhadneme polynomem h2 = 1422.38 - 3739.29 x + 2761.9 x2 . Dodatek. ∏ Přehled regresních polynomů až do pátého stupně a odpovídajících reziduálních rozptylů: ˆ η0 = 283.571; ˆ η1 = 538.571 − 425. x; ˆ η2 = 1422.38 − 3739.29 x + 2761.9 x2 ; ˆ η3 = 1519.05 − 4300.4 x + 3761.9 x2 − 555.556 x3 ; ˆ η4 = 3438.57 − 19636.6 x + 47113.6 x2 − 52171.7 x3 + 21969.7 x4 ; ˆ η5 = 5015.24 − 34934.4 x + 103989. x2 − 153769. x3 + 109470. x4 − 29166.7 x5 ; 8s20 , s21 , s22 , s23 , s24 , s25 < = 820131., 14042.1, 1533.63, 2022.62, 1941.72, 3825.11< ∏ Grafy regresních polynomů až do pátého stupně. Čísla u křivek znamenají stupeň polynomu.
1000 5 800 4 600
3 2
400 0 200 1
0.2
0.4
0.6
0.8
1
15. Korelační analýza. 15.1. Nejlepší prediktor náhodné veličiny. Korelační analýza se zabývá zkoumáním tzv. korelace, tj. statistické závislosti mezi náhodnými veličinami. Závislost tohoto druhu zpravidla vykazují náhodné veličiny charakterizující různé znaky téhož objektu. Jako příklad lze uvést vztah mezi výškou a váhou dospělého muže nebo vztah mezi teplotami vzduchu měřenými na dvou blízkých meteorologických stanicích. V reálných situacích se často setkáváme s dvojicemi korelovaných náhodných veličin X , Y , pro něž je charakteristické, že hodnoty náhodné veličiny X jsou k dispozici nebo je lze snadno získat, zatímco odpovídající hodnoty náhodné veličiny Y buď nelze získat vůbec nebo jenom obtížně či se značnými náklady. V takových situacích je logické pokusit se najít borelovskou funkci h reálné proměnné, pro kterou by náhodná veličina hHX L = hë X v jistém přesně definovaném smyslu nejlépe aproximovala veličinu Y . Náhodné veličině X se v tomto kontextu často říká vysvětlující
84
M6b-06-Statistics.nb
proměnná, zatímco Y se nazývá vysvětlovaná proměnná. Odchylka veličiny hHX L od veličiny Y se zpravidla měří střední hodnotou EHY − ηHXLL2 . Funkce h, pro kterou je tato střední hodnota konečná a minimální, se nazývá nejlepší prediktor nebo regresní funkce náhodné veličiny Y vzhledem k X a křivka y = hHxL se nazývá regresní křivka náhodné veličiny Y vzhledem k X . Odpověď na otázku, za jakých podmínek nejlepší prediktor náhodné veličiny Y existuje, je obsažena v následující větě. 15.2. Věta. Má-li náhodná veličina Y konečnou střední hodnotu a konečný rozptyl, potom pro každou náhodnou veličinu X existuje borelovská funkce h na Ñ s těmito vlastnostmi: HaL Pro každou borelovskou funkci f na Ñ
H∗L
EHY − ηHXLL2 EHY − fHXLL2 . HbL Náhodná veličina h HX L = hë X je verzí podmíněné střední hodnoty EHY » X L. HcL Náhodné veličiny hHX L, Y - h HX L jsou nekorelované.
Funkce h je vlastností (a) určena skoro jednoznačně v tomto smyslu: má-li tuto vlastnost také borelovská funkce h* na Ñ, potom ηHXL = η∗HXL skoro jistě, tj. P@ηHXL ≠ η∗HXLD = 0. Důkaz. I. Dokážeme nejprve poslední tvrzení věty. Toto tvrzení je bezprostředním důsledkem vlastností podmíněné střední hodnoty, ale lze je dokázat též přímo. Předpokládejme tedy, že h, h* jsou borelovské funkce na Ñ a že nerovnosti EHY − ηHXLL2 EHY − fHXLL2 ,
EHY − η∗HXLL2 EHY − fHXLL2
platí každou borelovskou funkci f na Ñ. Potom zřejmě EHY − ηHXLL2 = EHY − η∗HXLL2 EHY2 L < ∞. a obě nerovnosti platí speciálně pro každou funkci fHxL = ηHxL ± t HηHxL − η∗HxLL, t ∈ Ñ. Protože podle Minkovského (trojúhelníkové) resp. Cauchy-Schwarzovy nerovnosti EHηHXL − η∗HXLL2
"############################### "############################# EH» Y − η∗HXL » + » Y − ηHXL »L2 J EHY − η∗HXLL2 + EHY − ηHXLL2 N < ∞, 2
E2HHY − ηHXLL HηHXL − η∗HXLLL EHY − ηHXLL2 EHηHXL − η∗HXLL2 < ∞,
pro každé kladné reálné číslo t platí nerovnosti
a proto
EHY − ηHXLL2 EHY − ηHXL ± t HηHXL − η∗HXLLL2 , EHY − ηHXLL2 EHY − ηHXLL2 ± 2 t EHHY − ηHXLL HηHXL − η∗HXLLL + t2 EHηHXL − η∗HXLL2 , 0 t2 EHηHXL − η∗HXLL2 ± 2 t EHHY − ηHXLL HηHXL − η∗HXLLL, 0 t EHηHXL − η∗HXLL2 ± 2 EHHY − ηHXLL HηHXL − η∗HXLLL, ± 2 EHHY − ηHXLL HηHXL − η∗HXLLL ≥ 0, E HHY − ηHXLL HHη HXL − η∗HXLLLL = 0.
Na druhé straně
EHY − η∗HXLL2 = EHHY − ηHXLL + HηHXL − η∗HXLLL2 , EHY − η∗HXLL2 = EHY − ηHXLL2 + 2 EHHY − ηHXLL HηHXL − η∗HXLLL + EHηHXL − η∗HXLL2 , 0 = EHηHXL − η∗HXLL2 + 2 EHHY − ηHXLL HηHXL − η∗HXLLL,
M6b-06-Statistics.nb
85
a proto EHhHX L - h*HX LL2 = 0. To je však možné pouze v případě, že h HX L = h*HX L skoro jistě. II. Zbývá dokázat, že funkce h s vlastnostmi (a) | (c) existuje. Nechť EY , kde Y je náhodná veličina s konečnou střední hodnotou, je libovolná verze podmíněné střední hodnoty EHY » X L. Podle definice podmíněné střední hodnoty EY = ¶Y HX L, kde ¶Y je borelovská funkce na Ñ. Funkce h = ¶Y má jistě vlastnost (b). Ukážeme, že má i zbývající dvě vlastnosti. Nechť f je libovolná borelovská funkce na Ñ. Podle Minkowského (trojúhelníkové) nerovnosti
è!!!!!!!!!!!!!!!!!!!!! ! "##################################### "############################## è!!!!!!!!!!!!!! EHf2HXLL = EHfHXL − Y + YL2 EHY − fHXLL2 + EHY2 L ,
a proto vzhledem předpokladu E HY 2 L < ¶ platí implikace
EHf2HXLL = ∞ EHY − fHXLL2 = ∞.
V případě E H f 2HX LL = ¶ tedy nerovnost (*) platí a zbývá dokázat, že platí též v případě konečné střední hodnoty E H f 2HX LL. Pro každou náhodnou veličinu Y s konečnou střední hodnotou a každou borelovskou funkci g na Ñ skoro jistě platí EHEY L = EHYL, EHgHXL Y » XL = gHXL EY , pokud gHX L Y má konečnou střední hodnotu. Dá se dokázat, že konečnost rozptylu veličiny Y implikuje konečnost rozptylu její podmíněné střední hodnoty EY a tedy i jejího obecného momentu EHEY2 L. Podmínka konečnosti střední hodnoty veličiny gHX L Y je proto díky Cauchy|Schwarzově nerovnosti E2HgHXL YL E2H» gHXL Y »L E2Hg2HXLL E2HY2 L
jistě splněna, pokud varHY L < ¶ a E Hg2HX LL < ¶. Pro každou borelovskou funkci g na Ñ s konečným obecným momentem E Hg 2 HX LL proto platí
EHgHXL HY − ηHXLLL = EHgHXL YL − EHgHXL EY L = = EHEHgHXL Y » XLL − EHgHXL EY L = EHgHXL EY L − EHgHXL EY L = 0.
Odtud pro g = h - f vzhledem k Minkowského (trojúhelníkové) nerovnosti
"##################################### # è!!!!!!!!!!!!!! è!!!!!!!!!!!!!!!!!!!!!! EHηHXL − fHXLL2 EHE2Y L + EHf2HXLL
vyplývá nerovnost EHY − fHXLL2 = EHY − ηHXLL2 + 2 EHHY − ηHXLL HηHXL − fHXLLL + EHηHXL − fHXLL2 = = EHY − ηHXLL2 + EHηHXL − fHXLL2 ≥ EHY − ηHXLL2 , což dokazuje, že funkce h = ¶Y má vlastnost (a), zatímco volba g = h implikuje identity covHηHXL, Y − ηHXLL = = EHEY HY − EY LL − EHXL EHY − EY L = EHEY YL − EHEY EY L − EHXL EHYL − EHXL EHEY L = = EHEHEY Y » XLL − EHEHEY EY » XLL − EHXL EHYL − EHXL EHYL = = EHEY EHY » XLL − EHEY EHEY » XLL = EHE2Y L − EHE2Y L = 0, které dokazují, že náhodné veličiny hHX L, Y - hHX L jsou nekorelované. á 15.3. Nejlepší lineární prediktor náhodné veličiny. Stanovení nejlepšího prediktoru náhodné veličiny Y vzhledem k veličině X představuje velmi obtížný a většinou neřešitelný problém. Je proto přirozené nahradit množinu všech borelovských funkcí na Ñ některou její podmnožinou F, např. podmnožinou všech polynomů nebo podmnožinou polynomů stupně nejvýše n, kde n je kladné přirozené číslo, a pokusit se aproximovat náhodnou veličinu Y veličinou tvaru zHX L, kde z œ F je funkce, pro kterou platí implikace f ∈ F EHY − fHXLL2 ≥ EHY − ζHXLL2 .
H∗L
86
M6b-06-Statistics.nb
Je-li množinou F množina všech lineárních funkcí f HxL = a x + b, funkce z s touto vlastností se nazývá nejlepší lineární prediktor náhodné veličiny Y vzhledem k X a na rozdíl od nejlepšího prediktoru ji lze snadno stanovit, pokud X , Y mají konečnou střední hodnotu a konečný rozptyl. Implikace (*) totiž platí pro funkci zHxL = a x + b právě tehdy, když funkce EHY − a X − bL2 = EHY2 L + a2 EHX2 L + b2 − 2 a EHX YL − 2 b EHYL + 2 a b EHXL argumentů a, b nabývá v bodě Ha, bL svého minima. Koeficienty a, b lineární funkce z jsou proto řešením soustavy lineárních rovnic 2 ∂ l | o ∂ a EHY − a X − bL = 0 o m } o 2 o ∂ n ∂ b EHY − a X − bL = 0 ~
&
:
a EHX2 L + b EHXL = EHX YL > a EHXL + b = EHYL
Je-li varHX L ∫ 0, pak tato soustava má jediné řešení, které snadno vypočteme např. Cramérovým pravidlem. Funkce z, pro kterou platí implikace (*), má tedy za předpokladu varHX L ∫ 0 koeficienty covHX, YL covHX, YL α = , β = EHYL − EHXL. varHXL varHXL 15.4. Věta. Má-li náhodný vektor HX , YL dvourozměrné normální rozdělení, potom nejlepší prediktor náhodné veličiny Y vzhledem k X je lineární. Důkaz. Nechť zHxL = a x + b je nejlepší lineární prediktor veličiny Y vzhledem k X . Náhodný vektor HU, VL = HX, YL J
1 −α N = HX, Y − α XL 0 1
má podle věty 14.21 dvourozměrné normální rozdělení pravděpodobnosti a tudíž podle věty 14.23 jsou náhodné veličiny X , Y - a X nezávislé. Pro každou borelovskou funkci f na Ñ jsou tedy nezávislé i veličiny zHX L - f HX L, Y - zHX L, a proto EHY − fHXLL2 = EHY − ζHXLL2 + 2 EHHY − ζHXLL HζHXL − fHXLLL + EHζHXL − fHXLL2 = = EHY − ζHXLL2 + 2 EHY − ζHXLL EHζHXL − fHXLL + EHζHXL − fHXLL2 = = EHY − ζHXLL2 + EHζHXL − fHXLL2 ≥ EHY − ζHXLL2 ,
neboť vzhledem k formulím pro koeficienty a, b EHY − ζHXLL = HEHYL − α EHXL − EHYL + α EHXLL = 0. To však znamená, že nejlepší lineární prediktor veličiny Y vzhledem k X je jejím nejlepším prediktorem. 15.5. Věta. Nechť X , Y jsou náhodné veličiny s konečnou střední hodnotou a konečným nenulovým rozptylem. Potom Y je skoro jistě lineární funkcí veličiny X , tj. Y = a X + b skoro jistě, právě když corrHX , Y L = ≤1. Důkaz. Jestliže Y = a X + b skoro jistě, potom covHX, α X + βL α varHXL α corrHX, YL = = = = ± 1. è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! »α» 2 varHXL varHα X + βL varHXL α varHXL Nechť obráceně corrHX , Y L = ≤1. Z předpokladů věty vyplývá, že formule
ϕHtL = EHY0 − t X0 L2 = t2 EHX20 L − 2 t EHX0 Y0 L + EHY20 L,
kde X0 = X - EHX L, Y0 = Y - EHY L, definuje nezápornou kvadratickou funkci reálné proměnné t. Protože corrHX, YL = ± 1 &
E2HX0 Y0 L = 1 & E2HX0 Y0 L − EHX20 L EHY20 L = 0, EHX20 L EHY20 L
M6b-06-Statistics.nb
87
kvadratická rovnice jHtL = 0 má (jediný) reálný kořen t0 = EHX0 Y0 L ê EHX02 L a tedy EHY0 - t0 X0 L2 = 0.To je však možné jenom v případě, že skoro jistě Y0 = t0 X0 , tj. jenom tehdy, když skoro jistě Y = a X + b, kde a = t0 a b = EHY L - t0 EHX0 L. á 15.6. Výběrový korelační koeficient. Nechť HHX1 , Y1 L, Ω, HXn , Yn LL je náhodný výběr z dvojrozměrného základního souboru HX , YL, kde obě náhodné veličiny X , Y mají konečnou střední hodnotu a konečný rozptyl, nechť µX = EHXL, µY = EHYL, varHXL = σX2 , varHYL = σY2 , covHX, YL = σXY , × = HX1 , …, Xn L, Ø = HY1 , …, Yn L,
1 1 1 2 2 × = ‚ Xi , Ø = ‚ Yi , S2X = ‚ HXi − ×L , S2Y = ‚ HYi − ØL , n n−1 n−1 n
n
i=1
i=1
n
n
i=1
i=1
1 SXY = ‚ HXi − ×L HYi − ØL. n−1 n
i=1
Potom, jak je dobře známo, EH×L = µX , EHØL = µY , EHS2X L = σX2 , EHS2Y L = σY2 , a analogicky se dá dokázat, že výběrová kovariance S X Y je nestranným odhadem kovariance s X Y , tj. EHSXY L = σXY .
Je proto přirozené odhadnout korelační koeficient σXY R = corrHX, YL = , è!!!!!!!!!!!! σX2 σY2 definovaný za předpokladu s2X s2Y ∫ 0 statistikou
⁄ni=1 Xi Yi − n × Ø SXY = r = . è!!!!!!!!!!!! 2 2 "####################################################################### S2X S2Y I⁄ni=1 X2i − n × M I⁄ni=1 Y2i − n Ø M#
Výběrový korelační koeficient r bohužel není nestranným odhadem korelačního koeficientu R. Má-li základní soubor HX , Y L dvourozměrné normální rozdělení, potom nestranný odhad korelačního koeficientu R závisí na r a n prostřednictvím tzv. hypergeometrické funkce a Ha + 1L Ha + 2L ∫ Ha + k − 1L b Hb + 1L Hb + 2L ∫ Hb + k − 1L k FHx, a, b, cL = 1 + ‚ x , k ! c Hc + 1L Hc + 2L ∫ Hc + k − 1L ∞
k=1
kde x je proměnná a a, b, c jsou parametry, z nichž c je různé od všech celých nekladných čísel. Řada definující hypergeometrickou funkci je tzv. hypergeometrická řada, o níž se dá dokázat, že (a) konverguje absolutně, jestliže » x » < 1 nebo » x » = 1 a a + b - c < 0, (b) konverguje neabsolutně, jestliže x = -1 a 0 § a + b - c < 1,
(c) diverguje, jestliže » x » > 1 nebo x = 1 a a + b - c ¥ 0 nebo x = -1 a a + b - c ¥ 1. 15.7. Věta. Jsou-li splněny předpoklady odstavce 15.6 a základní soubor HX , YL má dvourozměrné normální rozdělení pravděpodobnosti s koeficientem korelace R œ H-1, 1L, potom platí: 2
1-R HaL EHrL = R - ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ + oH ÅÅÅÅ1n L, kde n oH ÅÅÅÅ1n L z 0 pro n z ¶. n
HbL EHarcsin rL = arcsin R.
HcL Nestranným odhadem koeficientu korelace R s minimálním rozptylem je statistika
1 1 n−2 1 − r2 r∗ = r F J1 − r2 , , , N U r J1 + N. 2 2 2 2 Hn − 2L
88
M6b-06-Statistics.nb
15.8. Věta. Jsou-li splněny předpoklady odstavce 15.6 a základní soubor HX , YL má dvourozměrné normální rozdělení pravděpodobnosti s koeficientem korelace R = 0, potom statistika n−2 % T = r $%%%%%%%%%%%%%%%% 1 − r2 má Studentovo rozdělění T-rozdělení s n - 2 stupni volnosti. 15.9. Testy hypotéz o korelačním koeficientu. Poslední věta umožňuje testovat hypotézu H0 : R = 0 proti hypotéze H1 : R ∫ 0. Hypotézu H0 zamítneme na hladině významnosti a, jestliže n−2 % ≥ t1−αê2Hn − 2L, »T» = »r» $%%%%%%%%%%%%%%%% 1 − r2 kde t b HmL je b-kvantil Studentova T-rozdělení s n - 2 stupni volnosti. Test hypotézy H0 : R = R0 proti hypotéze H1 : R ∫ R0 je složitější. Je-li hypotéza H0 správná, potom náhodná veličina è!!!!!!!!!!!! U = n - 3 HZ - z0 L, kde 1 1+r 1 1 + R0 Z = ln , ζ0 = ln , 2 1−r 2 1 − R0 má přibližně normované normální rozdělení. Rozdělení veličiny U přitom konverguje k NH0, 1L s rostoucím n velmi rychle. Proto H0 zamítneme na hladině významnosti a , když » U » ¥ u1-aê2 , kde u b je b-kvantil rozdělení NH0, 1L. Pomocí transformace Z také můžeme sestrojit (přibližný) interval spolehlivosti pro R.