Univerzita Karlova v Praze Matematicko-fyzikální fakulta
BAKALÁŘSKÁ PRÁCE
Josef Orel Úvod do bootstrapu s aplikacemi Katedra pravděpodobnosti a matematické statistiky
Vedoucí bakalářské práce: RNDr. Arnošt Komárek, Ph.D. Studijní program: Obecná matematika
2009
Chtěl bych poděkovat RNDr. Arnoštu Komárkovi, Ph.D., za odborné vedení při tvorbě této práce, za cenné rady, poskytnuté materiály a čas, které mi věnoval při konzultacích. Dále děkuji i své rodině a přítelkyni za jejich podporu během psaní bakalářské práce.
Prohlašuji, že jsem svou bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce a jejím zveřejňováním. V Praze dne 6.srpna 2009
Josef Orel
2
Obsah Úvod
6
1 Základní principy metody bootstrap 1.1 Neparametrický bootstrap . . . . . . . . . . . . . . . . . . . 1.1.1 Empirická distribuční funkce . . . . . . . . . . . . . . 1.1.2 Základní algoritmus bootstrapu . . . . . . . . . . . . 1.2 Parametrický bootstrap . . . . . . . . . . . . . . . . . . . . 1.3 Odhad směrodatné chyby pomocí metody bootstrap . . . . . 1.3.1 Přímý výpočet ideálního bootstrapového odhadu směrodatné chyby . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Odhad vychýlení metodou bootstrap . . . . . . . . . 1.3.3 Příklady . . . . . . . . . . . . . . . . . . . . . . . . . 2 Složitější modely 2.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Lineární regresní model . . . . . . . . . . . . . . . . . . . . . 2.2.1 Základní pojmy a definice . . . . . . . . . . . . . . . 2.2.2 Aplikace metody bootstrap na model lineární regrese 2.2.3 Bootstrapování náhodných chyb - reziduí . . . . . . . 2.2.4 Bootstrapování párů . . . . . . . . . . . . . . . . . . 2.2.5 Porovnání bootstrapování páru a reziduí . . . . . . . 2.2.6 Vážená metoda nejmenších čtverců . . . . . . . . . . 2.3 Intervaly spolehlivosti a metoda bootstrap . . . . . . . . . . 2.3.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Intervalové odhady s použitím normálního a Studentova rozdělení . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Bootstrap-t intervaly . . . . . . . . . . . . . . . . . . 2.3.4 Intervalové odhady percentilovou metodou . . . . . . 3
8 8 9 9 11 12 15 17 17 20 20 21 21 24 25 26 27 29 29 29 30 31 33
2.4
Kvantilová regresní analýza . . . . . . . . . . . . . . . . . .
36
Závěr
42
Literatura
43
4
Název práce: Úvod do bootstrapu s aplikacemi Autor: Josef Orel Katedra: Pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: RNDr. Arnošt Komárek, Ph.D. E-mail vedoucího:
[email protected] Abstrakt: V předložené práci studujeme základní principy statistické metody boootstrap. V textu je popsán algoritmus metody bootstrap, její parametrická a neparametrická verze a definice a základní vlastnosti směrodatné chyby odhadu získané touto metodou. Dále studujeme různé způsoby aplikace metody bootstrap na lineární regresní model a rozdíly mezi nimi a zabýváme se výpočtem intervalových odhadů spolehlivosti metodou bootstrap-t a percentilovou metodou a využitím bootstrapu při kvantilové regresní analýze. Text je doplněn příklady a obrázky, jež byly vypočteny a vykresleny pomocí statistického programu R. Klíčová slova: bootstrap, bootstrapový konfidenční interval, regresní model, simulační metoda Title: Introduction to bootstrap method and applications Author: Josef Orel Department: Department of probability and mathematical statistics Supervisor: RNDr. Arnošt Komárek, Ph.D. Supervisor’s e-mail address:
[email protected] Abstract: In presented work we deal with basic principles of statistical method bootstrap. We describe algorithm of bootstrap method, its parametric and nonparametric version and defitions and qualities of bootstrap standard error of estimate in this text. Furthermore, we study application of bootstrap method on linear regression model in different ways, calculation of confidence intervals with bootstrap-t and percentile method and use of bootstrap in quantile regression. The paper is supplemented with examples and pictures, which were calculated and drawed with use of statistic program R. Keywords: bootstrap, bootstrap confidence interval, regression model, simulation method
5
Úvod Nebývale rychlý rozvoj informačních technologií v posledních letech má vliv i na statistiku. Zejména rychlý vývoj ve výpočetním výkonu počítačů dal vzniknout nové třídě metod statistické analýzy dat, tzv. počítačově intenzivním metodám. Mezi hlavní výhody těchto metod patří, že pro své fungování nevyžadují velké výběry nebo normalitu údajů, dokaží pracovat naprosto bez vzorců a pracují obecně stejně pro různé statistiky a různé výchozí podmínky a často poskytují výsledky, které jsou přesnější než výsledky tradičních statistických postupů. Mezi počítačově intenzivní metody patří i metoda bootstrap, jíž se zabývá tato práce. Základní principy metody bootstrap publikoval Bradley Efron v roce 1979 (viz [4]) a jeho článek získal ihned velký ohlas. Metoda bootstrap vycházející z metody jacknife totiž v té době znamenala naprosto nový přístup ke statistické analýze dat. Na rozdíl od metody jacknife, která se používá k odhadu směrodatné odchylky statistiky, má bootstrap za úkol odhadnout celé rozdělení zkoumané statistiky. Tohoto cíle dosahuje pomocí mnohonásobného generování náhodných výběrů, založeném na základě nezávislých výchozích pozorování. O metodě bootstrap a jejích modifikacích vyšlo během třiceti let její existence mnoho článků a vědeckých prací, které se věnovaly konzistenci a rychlosti konvergence bootstrapu a rozšířily jeho užití na širokou škálu aplikací. Dnes používají postupy založené na metodě bootstrap nejen statistici, ale najdou uplatnění i v biologii, fyzice, medicíně, sociálních vědách, finančním sektoru nebo obchodu. Bakalářskou práci jsem rozdělil do dvou kapitol. První kapitola je věnována základním principům metody bootstrap, jsou zde definovány elementární pojmy a jednoduchým způsobem nastíněn algoritmus metody. Dále v této části vysvětluji rozdíly v použití neparametrické a parametrické verze bootstrapu a na konci kapitoly se věnuji základní aplikaci metody - výpočtu směrodatné odchylky odhadu. Cílem druhé kapitoly je ukázat bootstrap v některých složitějších situacích. Budu se zde zabývat různými způsoby aplikace metody bootstrap na model lineární regrese a kvantilové regrese a problematikou bootstrapových intervalů spolehlivosti. 6
Součástí práce jsou i vyřešené příklady, na kterých ilustruji použití metody bootstrap. Tyto příklady jsem včetně grafických výstupů zpracovával ve volně dostupném statistickém programu R1 .
1
R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-070, URL http://www.R-project.org.
7
Kapitola 1 Základní principy metody bootstrap Tato část se zabývá základní myšlenkou metody bootstrap, obsahuje definice neparametrického a parametrického bootstrapu a odvození některých charakteristik bootstrapových odhadů. Některé postupy jsou pak prezentovány na příkladech.
1.1
Neparametrický bootstrap
Představme si, že se nacházíme v následující situaci: Nechť máme nezávislé stejně rozdělené náhodné veličiny X1 , X2 , . . . , Xn , které mají rozdělení s distribuční funkcí F , a nechť vektor x = (x1 , x2 , . . . , xn ) je realizací těchto náhodných veličin. Nechť θ = t(F ) je charakteristika rozdělení, kterou se pokoušíme odhadnout na základě vektoru měření x. Pak odhad parametru θ označme θˆ = s(x). Předpokládejme, že |s(x)| < ∞ pro skoro všechna x. Poznamenejme, že na θˆ lze pohlížet též jako na funkci náhodných veličin X1 , X2 , . . . , Xn , a z toho důvodu má také nějaké pravděpodobnostní rozdělení. Toto rozdělení záleží na rozsahu výběru n a distribuční funkci F . ˆ Mohou nastat dvě možnosti: Naším cílem je získat rozdělení θ. 1. Známe distribuční funkci F , avšak θˆ = s(x) je tak komplikovaná funkce proměnných X1 , X2 , . . . , Xn , že nejsme schopni pomocí analytických prostředků rozdělení θˆ najít. 8
(V opačném případě bychom jednoduše rozdělení θˆ analyticky spočetli a nebylo by zapotřebí hledat výsledek pomocí jiných prostředků.) 2. Rozdělení náhodných veličin X1 , X2 , . . . , Xn dané distribuční funkcí F neznáme a nemáme o něm žádné informace. V první situaci můžeme pravděpodobnostní rozdělení parametru θˆ odhadnout bez složitých analytických kalkulací pomocí počítačové simulace: z rozdělení daného funkcí F vygenerujeme velmi velké množství náhodných výběrů velikosti n (počet výběrů budeme značit B). Z každého výběru spočteme příslušnou hodnotu θˆ∗ = s(x) (hodnotu parametru získaná ze simulace budeme značit znakem *). Empirické rozdělení (viz (1.1)) θˆ∗1 , θˆ∗2 , . . . , θˆ∗B ˆ pak aproximuje rozdělení θ. V druhém případě ale F neznáme. Pak se jedná o neparametrický bootstrap, jehož idea a základní vlastnosti jsou popsány na následujících řádcích.
1.1.1
Empirická distribuční funkce
V následujícím textu bude důležitý pojem empirické distribuční funkce, proto připomeňme její definici: Nechť I(A) je indikátor množiny A. Potom empirickou distribuční funkci založenou na výběru X1 , X2 , . . . , Xn definujeme jako Fn (x) =
n 1X I(X ≤ x). n i=1
(1.1)
Fn je zřejmě diskrétní rozdělení, které klade pravděpodobnost rovnou n1 na každou naměřenou hodnotu xi , i = 1, 2, . . . , n (za předpokladu, že xi jsou navzájem různé). Fn tedy přiřazuje každé podmnožině A množiny náhodného výběru pravděpodobnost Fn (A) = #{xni ∈A} .
1.1.2
Základní algoritmus bootstrapu
Bootstrapový výběr x∗ je definován jako náhodný výběr o rozsahu n z rozdělení s distribuční funkcí Fn , tedy x∗ = (x∗1 , x∗2 , . . . , x∗n ), Fn → (x∗1 , x∗2 , . . . , x∗n ). 9
Jinak řečeno, bootstrapový výběr je náhodný výběr s vracením z množiny {x1 , x2 , . . . , xn }. Hlavní myšlenka metody bootstrap spočívá ve spojení substitučního principu a metody Monte Carlo - mnohokrát generujeme z empirické distribuční funkce bootstrapový výběr, z každého tohoto výběru spočítáme příslušnou hodnotu θˆ∗i a nakonec ze souboru takto získaných hodnot můžeme aproˆ Pokud chceme znát nějakou charakteristiku θˆ - např. ximovat rozdělení θ. směrodatnou odchylku, aproximujeme ji výběrovou směrodatnou odchylkou souboru {θˆ∗1 , θˆ∗2 , . . . , θˆ∗B }. Pro přehlednost rozdělme algoritmus bootstrapu do několika kroků: 1. Z naměřených dat x = (x1 , x2 , . . . , xn ) sestrojme empirickou distribuční funkci Fn . 2. B–krát (kde B je nějaké velké přírozené číslo) generujme z Fn bootstrapový výběr. Získáme tak nezávislé výběry x∗1 , x∗2 , . . . , x∗B . 3. Vypočteme θˆn∗i předpisem θˆn∗i = sn (x∗i ) pro i = 1, 2, . . . , B. Dostaneme tak posloupnost θˆn∗1 , θˆn∗2 , . . . , θˆn∗B . 4. Posledním krokem je zkonstruování histogramu relativní četnosti z θˆn∗1 , θˆn∗2 , . . . , θˆn∗B , kde θˆn∗i položíme pravděpodobnost B1 pro i = 1, 2, . . . , B. Tento histogram určuje rozdělení, které je bootstrapovým odhadem ˆ Z tohoto rozdělení můžeme dělat závěry o vlastnostech rozdělení θ. ˆ parametru θ (který je odhadován θ). Někdy je lepší místo histogramu odhadovat distribuční funkci. Zaveďme následující označení: Rn = Rn (θn , F ) nechť je funkcionál proměnných F a θn = s(X1 , X2 , . . . , Xn ) s hodnotami v reálném oboru. Distribuční funkci statistiky Rn budeme značit jako Hn : Hn (x) = P {Rn ≤ x}. Bootstrapová verze statistiky (pro daný bootstrapový výběr x∗ = (x∗1 , x∗2 , . . . , x∗n )) Rn je Rn∗ = Rn (θˆn∗ , Fn ). Distribuční funkci Rn∗ označme Hn∗ Hn∗ = P∗ {Rn∗ ≤ x},
(1.2)
kde P∗ značí podmíněnou pravděpodobnost vzhledem ke způsobu generování bootstrapového výběru (v případě algoritmu popsaném výše je tedy tím 10
způsobem generování pomocí empirické distribuční funkce Fn ). Konečně, pro daný počet opakování B odhadujeme Hn následujícím vzorcem (viz [7]): B X ˆ∗ = 1 I{Rn (θˆn∗ , Fˆn ) ≤ x}. H n B b=1
1.2
Parametrický bootstrap
Metoda parametrického bootstrapu se používá v situaci, kdy distribuční funkce F , která určuje rozdělení náhodných veličin X1 , X2 , . . . , Xn , není zcela neznámá. Známe tedy částečný parametrický model funkce rozdělení těchto náhodných veličin, jejich distribuční funkci přeznačme na Fψ , aby bylo vidět, že závisí na neznámém vektoru parametrů ψ. Parametr ψ se odhadne z naměřených dat (x1 , x2 , . . . , xn ). Tento odhad ˆ Potom F ˆ je odhad distribuční funkce Fψ . označme jako ψ. ψ Bootstrapové výběry, na rozdíl od metody neparametrického bootstrapu, negenerujeme vybíráním s vracením z (x1 , x2 , . . . , xn ), nýbrž realizujeme B výběrů o velikosti n z rozdělení daném Fψˆ : Fψˆ → (x∗1 , x∗2 , . . . , x∗n ) = x∗ . Potom je již postup stejný jako v části 1.1.2. Z každého bootstrapového výběru x∗b vypočteme statistiku θˆ∗b , a ze souboru {θˆn∗1 , θˆn∗2 , . . . , θˆn∗B } můžeme ˆ dělat závěry o odhadu θ. Příklad 1 √ Nechť X1 , X2 , . . . , Xn je náhodný výběr z rozdělení N(µ, 1) a Rn = n(X¯n − µ). Zajímá nás rozdělení statistiky Rn . Distribuční funkce bootstrapové verze Rn∗ je Hn∗ (a) = P∗ {Rn∗ ≤ a}, kde P∗ je podmíněná pravděpodobnost vzhledem ke způsobu generování bootstrapového výběru. Pravá strana předchozí rovnosti bude v případě neparametrického bootstrapu rovna výrazu PN B = P {Rn∗ ≤ a|Fˆn },
a v případě parametrického bootstrapu
PP B = P {Rn∗ ≤ a|N(X¯n , 1)} 11
Nechť X1∗ , X2∗ , . . . , Xn∗ je bootstrapový výběr získaný z X1 , X2 , . . . , Xn (každý člen bootstrapového výběru se dá brát i jako náhodná veličina - v případě neparametrické metody je jeho rozdělení dané funkcí Fˆn , v parametrickém případě rozdělením N(X¯n , 1)). Potom X1∗ , X2∗ , . . . , Xn∗ jsou nezávislé a stejně rozdělené a platí µ∗ = EXi∗ =
n 1X Xj = X¯n . n j=1
Bootstrapová statistika je pak v obou případech √ √ Rn∗ = n(X¯n∗ − µ∗ ) = n(X¯n∗ − X¯n ). Dále jsem vygeneroval náhodný výběr o rozsahu n = 25 z rozdělení N(0, 1) a oběma metodami spočítal B = 1000 bootstrapových hodnot Rn∗ . Na obrázku 1.2 jsou vykresleny příslušné histogramy a skutečná hustota statistiky Rn ta má zřejmě rozdělení N(0, 1). Je zřejmé, že v tomto případě parametrická metoda aproximuje rozdělení Rn o něco lépe. Celý postup jsem poté zopakoval s tím rozdílem, že rozsah náhodného výběru byl větší - n = 1000. Výsledky jsou vykresleny v dolní části obrázku 1.2. Je vidět, že bootstrapové rozdělení pro větší rozsah výběru více kopíruje skutečné rozdělení statistiky Rn (zlepšení je vidět zejména u neparametrické metody).
1.3
Odhad směrodatné chyby pomocí metody bootstrap
Máme nějaký náhodný výběr X = X1 , X2 , . . . , Xn z rozdělení s distribuční funkcí F a parametr θ = t(F ) a odvodíme nějaký odhad tohoto parametru θˆ = s(X). První, co by nás mělo zajímat, je přesnost tohoto odhadu. Tu popisuje veličina, která se nazývá směrodatná chyba odhadu θˆ a kterou buˆ X = X1 , X2 , . . . , Xn je náhodný výběr z nějakého deme značit jako seF (θ). rozdělení - jestliže budeme z tohoto rozdělení opakovaně generovat náhodné výběry, dostaneme různé vektory X (ovšem všechny dané velikosti n), a tedy i hodnoty θˆ budou různé. Směrodatná chyba odhadu θˆ je definována ˆ jako směrodatná odchylka populace všech možných hodnot θ. Proč je důležité znát směrodatnou chybu odhadu? Její hodnota je totiž potřebná u široké škály statistických postupů. Například pokud známe směrodatné chyby několika veličin, jsme pak v mnoha případech schopni spočítat 12
0.2
0.4
Parametrický bootstrap
0.0
0.0
0.2
0.4
Neparametrický bootstrap
0
2
4
−4
−2
0
2
4
−4
−2
0
2
4
−4
−2
0
2
4
0.2 0.0
0.0
0.2
0.4
−2
0.4
−4
Obrázek 1.1: Vlevo √ ¯nahoře je histogram B = 1000 bootstrapových verzí statistiky Rn = n(Xn − µ), n = 25, pořízených neparametrickou metodou, vpravo pak histogram stejného počtu opakování pořízený pomocí metody parametrické. Tučnou čarou je pak vyznačeno skutečné rozdělení statistiky Rn - normované normální rozdělení. Z obrázku je zřetelné, že parametrická metoda lépe aproximuje skutečné rozdělení. Proto pokud máme alespoň částečnou informaci o rozdělení, z něhož pocházejí naměřená data, používáme raději parametrickou verzi metody bootstrap. V dolní části jsou pak histogramy bootstrapového rozdělení pořízené stejnou metodou pro n = 1000 - je vidět, že s větším rozsahem výběru je aproximace bootstrapem lepší a histogramy získané parametrickou i neparametrickou metodou jsou si podobnější. 13
ˆ je potřeba při posměrodatnou chybu funkce těchto veličin. Hodnota seF (θ) čítání intervalových odhadů spolehlivosti, testování hypotéz apod. Pro směrodatnou chybu odhadu existuje přímý vzorec pro výpočet jen pro ˆ Například při maximálně věrohodných odhaomezenou množinu odhadů θ. dech parametrů θˆM L je často nemožné spočítat seF (θˆM L ) analytickou cestou. Metoda bootstrap nabízí přijatelné řešení, jak směrodatnou chybu v podobných případech aproximovat. Pokud chceme tuto směrodatnou chybu odhadnout metodou bootstrap, použijeme substituční princip - místo neznámé distribuční funkce F budeme počítat s empirickou distribuční funkci Fˆn . ˆ je definován jako Bootstrapový odhad hodnoty seF (θ) se ˆ (θˆ∗ ). Fn
ˆ je směrodatná odchylka hodnot Jinak řečeno, bootstrapový odhad seF (θ) ∗ Fˆn (θˆ pro soubor výběrů náhodně vybraných z Fˆn o velikosti n. ˆ Výraz seFˆn (θˆ∗ ) se nazývá ideální bootstrapový odhad směrodatné chyby θ. Naneštěstí lze hodnotu seFˆn (θˆ∗ ) přesně vypočítat jen pro velmi omezenou množinu statistik θˆ = s(x) (je to možné to například pro výběrový průměr P X = ni=1 xi ). Směrodatnou chybu proto aproximujeme bootstrapovým odhadem směrodatné chyby, který značíme se ˆ B . Tento odhad je definován následovně: se ˆB =
(
B h i2 1 X θˆn∗b − θˆn∗ (.) B − 1 b=1
) 21
,
(1.3)
P ˆ∗b kde θˆn∗ (.) = B1 B b=1 θn . θˆn∗b získáme pomocí kroků popsaných na straně 10 a B je číslo označující příslušný počet bootstrapových opakování.
Vztah bootstrapového odhadu a ideálního bootstrapového odhadu objasňuje následující tvrzení: Tvrzení 1 Bootstrapový odhad směrodatné chyby se ˆ B konverguje s.j. k ideálnímu bootstrapovému odhadu seFˆn : lim se ˆ B = seFˆn = seFˆn (θˆ∗ ).
B→∞
14
[P]-s.j.
Důkaz: Označme Yi = θˆn∗i , i = 1, 2, . . . , B. Potom θˆn∗i jsou zřejmě nezávislé stejně rozdělené náhodné veličiny. Platí E|Yi | = E|θˆ∗i | = E|s(x∗i )|. Jak víme, |s(x∗i )| < ∞ a x∗i ∼ Fˆn , kde n je pevné přirozené číslo. Tedy Fˆn je diskrétní rozdělení na konečné množině a E|Yi | < ∞. var Yi = var θˆ∗i = var s(x∗ ) = se2Fˆn . Podle silného zákona velkých čísel (viz [3]) proto platí Y¯B → µ
[P]-s.j.
pro B → ∞.
Platí také vztah: B n 1 X 1 X (Yi − Y¯B )2 = (Yi − EYi )2 − (Y¯B − EYi )2 . B i=1 B i=1
Opět ze silného zákona velkých čísel plyne B 1 X (Yi − EYi)2 → varYi B i=1
[P]-s.j.
pro B → ∞.
Když dáme tři předchozí vztahy dohromady, dostaneme n 1 X (Yi − Y¯B )2 → se2FˆB B i=1
[P]-s.j.
pro B → ∞.
Konečně dosazením za Yi a odmocněním dostaneme se ˆ B → seFˆn
1.3.1
[P]-s.j.
pro B → ∞.
Přímý výpočet ideálního bootstrapového odhadu směrodatné chyby
V této části budeme potřebovat následující tvrzení:
Tvrzení 2 Nechť máme množinu {x1 , x2 , . . . , xn } a nechť platí xi 6= xj i 6= j. Potom počet od sebe různých bootstrapových výběrů je roven !
2n − 1 . n 15
(Pozn.: Bootstrapový výběr je množina, nezáleží tedy na pořadí prvků - například pro n = 2 je {x1 , x2 } ten samý bootstrapový výběr jako {x2 , x1 }.) Důkaz: Použijeme tzv. přihrádkovou metodu. Bootstrapový výběr x∗ z {x1 , x2 ,. . . ,xn } zašifrujeme pomocí posloupnosti znaků ◦ a | následujícím způsobem: předpokládejme, že máme n přihrádek; do i-té přihrádky patří všechny exempláře xi , které se v daném bootstrapovém výběru vyskytují. Rozhraní mezi i-tou a i + 1-ní přihrádkou označíme jako | - znaků | potřebujeme tedy celkem n + 1. Pro prvek xi zakreslíme do i-té přihrádky tolik znaků ◦, kolikrát se xi vyskytuje v bootstrapovém výběru x∗ . V bootstrapovém výběru je n prvků, potřebujeme tedy do přihrádek rozmístit celkem n znaků ◦. Například bootstrapový výběr (x1 , x2 , x2 , . . . , x2 ) zapíšeme následovně: ◦| |◦ ◦ {z . . . ◦} || . . . | | {z }
n−1
n−2
Od sebe různých boostrapových výběrů je zřejmě stejně jako od sebe různých posloupností n znaků ◦ a n − 1 znaků |. Počet těchto posloupností je roven počtu permutací s opakováním ze dvou prvků, z nichž jedense opakuje n-krát a druhý (n − 1)-krát. Jak je známo, P 0(n, n − 1) = n+n−1 = 2n−1 . n−1 n Tím je tvrzení dokázáno. Máme-li množinu {x1 , x2 , . . . , xn } různých hodnot jako v tvrzení výše, pak označme všechny různé bootstrapové výběry jako x1 , x2 , . . . , xm , m = 2n−1 . Pravděpodobnost, že obdržíme konkrétní náhodný výběr, pokud n bychom výběry generovali pomocí empirické distribuční funkce, se řídí multinomickým rozdělením. Pro xi označme tuto pravědpodobnost wi . Přesný vzorec pro výpočet wi je dán následovně: Bootstrapový výběr xi je generován z množiny {x1 , x2 , . . . , xn } a hodnotu xi obsahuje ji -krát. Samozřejmě musí platit, že j1 + j2 + . . . + jn = n. Pravděpodobnost, že obdržíme tento výběr, je !
n Y n 1 ( )j i , j1 j2 . . . jn i=1 n
kde
n j1 j2 ...jn
=
n! . j1 !j2 !...jn !
Nakonec můžeme spočítat ideální bootstrapový odhad směrodatné chyby 16
pomocí směrodatné odchylky populace m hodnot θˆ∗ (xi ): ˆ∗
seF (θ ) =
(
m X
h
wi θˆn∗ (xi )
i=1
−
i2 θˆn∗ (.)
)1 2
,
(1.4)
P ˆ∗ i kde θˆn∗ (.) = m i=1 wi θn (x ).
Jak je vidět z tabulky 1.1, přímý způsob výpočtu je možné použít jen pro velmi malá n. Výpočetní čas stoupá jednak s časovou náročností výpočtu jedné hodnoty statistiky θn∗ (xi ) a jednak s rostoucím n. Zřejmě však i pro velmi jednoduché statistiky je pro větší hodnoty n nepraktické počítat ideální bootstrapový odhad a musíme se spokojit s aproximací se ˆ B.
1.3.2
Odhad vychýlení metodou bootstrap
Pro odhad vychýlení (bias) parametru θˆ postupujeme obdobně jako u odhadu směrodatné odchylky - nejdříve pomocí algoritmu, který je popsaný na straně 10, získáme soubor {θˆn∗1 , θˆn∗2 , . . . , θˆn∗B }. Ideální bootstrapový odhad vychýlení θˆ je definovaný jako biasFˆn (θˆ∗ ), který aproximujeme pomocí bootstrapového odhadu vychýlení biasB : biasB =
θˆn∗b ˆ − θn , b=1 B B X
kde B je počet bootstrapových opakování.
1.3.3
Příklady
Příklad 2 : ([5], Problém 6.10) Máme zadaný datový soubor obsahující osm hodnot: 1,2 ; 3,5 ; 4,7 ; 7,3 ; 8,6 ; 12,4 ; 13,8 ; 18,1 17
Rozsah souboru Počet výběrů 3 10 5 126 10 92378 20 68923264410 50 5,044567·1028 Tabulka 1.1: Počet od sebe různých bootstrapových výběrů v závislosti na rozsahu souboru dat. Jak je vidět, počet možných bootstrapových výběrů roste v závislosti na mohutnosti naměřených dat n velmi rychle, a proto je pro n > 10 zpravidla takřka nemožné spočítat ideální bootstrapový odhad. Nechť je statistika θˆ 25% seříznutý průměr. Ten se získá tak, že se vyškrtnou dvě nejmenší a dvě největší čísla, a ze zbývajících čtyř čísel spočítáme aritmetický průměr. Úkolem je spočítat se ˆ B statistiky θˆ pro B rovno 25, 100, 200, 500, 1000 a 2000 a porovnat tyto odhady s ideálním bootstrapovým odhadem směrodatné odchylky, kterou spočítame podle vzorce (1.4). Pro různé hodnoty B aplikuji na vstupní data pomocí programu R algoritmus popsaný na straně 10 a získám tím populaci seříznutých průměrů θˆ∗1 , θˆ∗2 , . . . , θˆ∗B . Z tohoto souboru již jednoduše spočtu příslušnou hodnotu se ˆ B podle vzorce (1.3). Pro ilustraci uveďme, jak jednoduše se celý tento postup implementuje do programu R (hodnoty se ˆ B pro různé n jsou po proběhnutí algoritmu uloženy v proměnné vysledek): x=c(1.2,3.5,4.7,7.3,8.6,12.4,13.8,18.1) n=c(25,100,200,500,1000,2000) for(i in 1:6){ B=n[i] trimmedmean<-function(v){(v[3]+v[4]+v[5]+v[6])/4} resamples <- lapply(1:B, function(i) sort.int(sample(x,replace=TRUE), partial = NULL, na.last = NA, decreasing = FALSE, method = c("shell", "quick"), index.return = FALSE)) dataset <- sapply(resamples, trimmedmean) se=sqrt(var(dataset)) vysledek[i]=se} 18
B se ˆB
25 100 200 500 1000 2000 ∞ 2,638023 2,207768 2,394776 2,553717 2,478584 2,433869 2,462793
Tabulka 1.2: Odhad směrodatné odchylky seříznutého průměru pomocí metody bootstrap pro různé počty iterací B. V posledním sloupci je ideální bootstrapová směrodatná odchylka, kterou jsem spočítal přímo ze vzorce (1.4). ¯n) n seF (X se ˆ 100 se ˆ 500 se ˆ 2000 100 0,2 0,21539927 0,18525022 0,18856007 500 0,08944272 0,08969368 0,08917822 0,09396389 2000 0,04472136 0,04718756 0,04658942 0,04444724 Tabulka 1.3: Hodnoty odhadu směrodatné chyby výběrového průměru pro různé hodnoty n a B, v prvním sloupci jsou uvedeny skutečné hodnoty směrodatné chyby. V literatuře se uvádí, že zvyšování počtu bootstrapových opakování nad rozsah výběru n již nevede k přílišnému zlepšení odhadu - pro n = 500 je tomu dokonce naopak! Výsledné hodnoty se ˆ B a ideální bootstrapová směrodatná chyba (B = ∞) jsou vyneseny v tabulce 1.2.
Příklad 3 Nechť je X1 , X2 , . . . , Xn náhodný výběr z rozdělení, které má střední hodnotu µ a rozptyl σ 2 . Zajímá nás odhad parametru µ = θ. Odhadem střední ¯ n = 1 Pni=1 Xi . Naším hodnoty je výběrový průměr, proto položme θˆn = X n ¯ n ). cílem je odhadnout směrodatnou chybu seF (X Nechť Xi ∼ N(µ, σ 2 ). Tento předpoklad jsme učinili proto, abychom mohli bootstrapový odhad porovnat se skutečnou hodnotou směrodatné chyby, a získali tak představu o přesnosti metody bootstrap. Je známo (např. [1]), že pokud X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ), potom má také ¯ n normální rozdělení, X ¯ n ∼ N(µ, σ2 ). Skutečná hodnota výběrový průměr X n ¯ n ) = √σ . Pomocí programu R budeme směrodatné odchylky je tedy seF (X n generovat výběry z rozdělení N(4, 4) o různém rozsahu n a pomocí obdobného postupu jako v minulém příkladě vypočteme se ˆ B . V tabulce 1.3 jsou shrnuty hodnoty se ˆ B pro B = 100, 500, 2000 a skutečné směrodatné chyby. 19
Kapitola 2 Složitější modely 2.1
Úvod
První část této práce popisovala fungování metody bootstrap v situaci, která je ze statistického hlediska nejméně složitá - zabývali jsme se vždy jen jedním náhodným výběrem, který pocházel z jednorozměrného rozdělení s neznámou distribuční funkcí F . Data x, se kterými se pracovalo, byla generována funkcí F : F → x = (x1 , x2 , . . . , xn ).
Ve statistické analýze dat se ale často dostaneme do situací, které si s takovouto jednoduchou strukturou nevystačí. Veličiny xi nemusí být jednorozměrné body, mohou to být například dvojice, vektory, polynomy nebo cokoliv jiného. Mnoho postupů se zakládá na komplikovaných datových strukturách, například regresní modely, modelování časových řad, analýza rozptylu, vícevýběrové problémy, analýza cenzorovaných dat a mnoho dalších. Bootstrap může být aplikován obecně na každý pravděpodobnostní model.
V obecné situaci máme nějaký pravděpodobnostní model P , z něhož pocházejí naměřená data x, model P je neznámý. Tuto skutečnost značíme jako P → x = (x1 , x2 , . . . , xn ). ˆ která Z dat x je známým mechanismem vypočtena nějaká charakteristika θ, je tedy nějakou funkcí x: θˆ = s(x).
20
Klíčovým krokem je aproximování pravděpodobnostního modelu P z naměřených dat x. Na to neexistuje univerzální postup, přesto lze ve většině situací překvapivě snadno nalézt řešení - označme ho jako Pˆ . Z Pˆ generujeme velké množství bootstrapových výběrů x∗ (stejným způsobem, jakým vznikl x z P ) a nakonec získáváme θˆ∗ = s(x∗ ). Poznamenejme, že generování boostrapových výběrů Pˆ → x∗ je obvykle mnohem méně náročné na strojový počítačový čas než kalkulace θˆ∗ .
2.2
Lineární regresní model
2.2.1
Základní pojmy a definice
Regresní modely se řadí mezi nejužitečnější a nejpoužívanější prostředky statistické metody. Umožňují relativně snadno analyzovat komplikované situace, kdy se snažíme zjistit vliv velkého množství proměnných na závislou proměnnou. Lineární regresní model byl vyvinut již v počátku 19. století Gaussem a Legendrem. Základní model lineární regrese je definován takto: Nechť máme reálná čísla y1 , y2 , . . . , yn , která vznikla jako realizace náhodných veličin Y1 , Y2 , . . . , Yn , a matici daných čísel C = (cij ), která ma rozměry n × k, k ≤ n. V dalším textu potřebujeme, aby matice C > C byla regulární, proto předpokládáme, že h(C) = k. Pro budoucí účely dále označme xi = (ci , yi), kde ci je vektor 1×k, který se nazývá prediktor, yi je jemu příslušná hodnota. Dále předpokládejme, že pro vektor y = (y1 , y2 , . . . , yn )> platí y = Cβ + e, kde β = (β1 , β2 , . . . , βk )> je vektor parametrů. Tento vektor se nazývá vektor regresních parametrů. Vektor e = (e1 , e2 , . . . , en )> je vektor náhodných chyb - je to náhodný výběr z neznámého rozdělení s distribuční funkcí F , které splňuje podmínky E(e) = 0
var e = σ 2 I.
a
(2.1)
Cílem regresní analýzy je zjistit odhad vektoru β z naměřených dat x = (x1 , x2 , . . . , xn ) = ((c1 , y1), (c2 , y2), . . . , (cn , yn )). Tento odhad provádíme například pomocí metody nejmenších čtverců, tzn. hledáme minimum výrazu n RSE(b) =
X i=1
21
(yi − ci b)2 .
Odhad metodou nejmenších čtverců vektoru parametrů β se označuje jako βˆ a minimalizuje funkci RSE(b): ˆ = min {RSE(b)} . RSE(β) b Za našich předpokladů je tento odhad dán vzorcem βˆ = (C > C)−1 C > y. ˆ Nechť je G matice typu k × k dána předpisem Jak přesný je odhad β? G = C > C a G−1 inverzní matice ke G. Potom je směrodatná chyba j-té složky βˆ rovna q
se(βˆj ) = σ G−1 jj . Směrodatná odchylka náhodných chyb σ se odhaduje následujícím vzorcem: σ ˆ=
( Pn
ˆ2 − ci β) n
i=1 (yi
) 21
=
(
ˆ RSE(β) n
) 21
,
a nestrannou verzí předchozího odhadu je odhad σ ¯=
(
ˆ RSE(β) n−k
) 12
.
K těmto dvěma odhadům přísluší přirozeně definované odhady směrodatné ˆ chyby složek β: q
se( ˆ βˆj ) = σ ˆ G−1 jj
a
q
se( ¯ βˆj ) = σ¯ G−1 jj .
(2.2)
Důkazy rovností uvedených výše a další vlastnosti lineárního regresního modelu lze nalézt například v [1]. Příklad 4 V tomto a několika dalších příkladech budeme pracovat s datovým souborem, který obsahuje různé údaje o 428 automobilech, které se nacházely v roce 2004 na trhu v USA. Zdrojem těchto dat je Kiplinger’s Personal Finance, December 2003, vol. 57, no. 12, pp. 104 – 123, http://www.kiplinger.com. 22
11.9 13.9 15.9 17.9 19.9 21.9 3.9
5.9
7.9
9.9
Spotřeba [l/100 km]
11.9 13.9 15.9 17.9 19.9 21.9 9.9 3.9
5.9
7.9
Spotřeba [l/100 km]
Metoda nejmenších čtverců
839 1239
1739
2239
2739
839 1239
Hmotnost [kg]
1739
2239
2739
Hmotnost [kg]
Obrázek 2.1: V levém grafu jsou vynesena data pro n = 412 automobilů. V pravé části je pak příslušnými body proložena přímka, která je vypočítána metodou nejmenších čtverců.
23
Původní data uvedená v jednotkách běžných v USA byla převedena na jednotky užívané v kontinentální Evropě. V levé části obrázku 2.1 je vyneseno n = 412 bodů, které odpovídají údajům o hmotnosti a spotřebě ve městě. U některých položek nebyl údaj o hmotnosti nebo spotřebě ve městě uveden, a proto jsem je pro účely tohoto příkladu vyřadil. Předpokládejme, že platí regresní model yi = β0 + β1 zi + ei ,
i = 1, 2, . . . , n,
kde závislou proměnnou je spotřeba auta: yi = spotřeba ve městě i-tého vozidla v litrech na 100 km a nezávislou proměnnou je hmotnost auta: zi = hmotnost i-tého vozidla v kilogramech . Aplikací metody nejmenších čtverců popsané výše dostaneme ˆ = (1,417796; 0,006727)> β . Křivka y = βˆ0 + βˆ1 x proložená daty je znázorněna na pravé části obrázku 2.1. Jak přesný je tento odhad regresního parametru? K získání odpovědi na tuto otázku můžeme použít též metodu bootstrap.
2.2.2
Aplikace metody bootstrap na model lineární regrese
Existují dva způsoby, jak metodu bootstrap aplikovat na lineární regresní model - buď algoritmus použijeme na náhodné chyby e, anebo na dvojice x = ((c1 , y1 ), (c2 , y2), . . . , (cn , yn )). Oba způsoby jsou v následujícím textu popsány a nakonec jsou s pomocí jednoduchého příkladu ukázány rozdíly mezi nimi.
24
2.2.3
Bootstrapování náhodných chyb - reziduí
Pravděpodobnostní model P → x v případě lineární regrese má dvě složky vektor regresních parametrů β a rozdělení náhodných chyb dané distribuční funkcí F . Tedy P = (β, F ). Abychom mohli dělat závěry o lineárním regresním modelu, potřebujeme odhadnout celý pravděpodobnostní model P . Jestliže je vektor β známý, potom můžeme spočítat vektor náhodných chyb e přímo - ei = yi − ci β, i = 1, 2, . . . , n, a následně odhadnout F pomocí empirické distribuční funkce ei . ˆ - ten Obvykle ale β neznáme, a proto místo něj použijeme jeho odhad β získáme například metodou nejmenších čtverců anebo jinými prostředky. Pomocí něj spočítáme přibližné chyby ˆ eˆi = yi − ci β,
i = 1, 2, . . . , n.
Funkci F aproximujeme empirickou distribuční funkcí eˆi , kterou budeme ˆ Fˆ ) je již možno generovat bootstrapová značit jako Fˆ . S dvojicí Pˆ = (β, ∗ data x : Nejprve generujeme bootstrapový výběr náhodných chyb Fˆ → (e∗1 , e∗2 , . . . , e∗n ) = e∗ . (Pro každé e∗i platí, že se nějaké z n hodnot eˆj rovná s pravděpodobností n1 .) Dalším krokem je spočítání závislých proměnných yi∗: ˆ + e∗ , yi∗ = ci β i
i = 1, 2, . . . , n.
ˆ + e∗ . Když rovnosti převedeme do maticového zápisu, dostaneme y ∗ = C β Tímto jednoduchým postupem jsme vygenerovali bootstrapová data x∗ = (x∗1 , x∗2 , . . . , x∗n ), x∗i = (ci , yi∗). Je třeba si povšimnout, že matice C zůstala nezměněna, při bootstrapování náhodných chyb se bere jako konstanta - na rozdíl od bootstrapování páru, viz níže). ˆ ∗ a odPosledním krokem je přirozené odvození bootstrapového odhadu β hadu směrodatné chyby. Bootstrapový odhad metodou nejmenších čtverců ˆ ∗ minimalizuje funkci RSE∗ (b) = Pn (y ∗ − ci b)2 : β i=1 i n X
n X
ˆ ∗ )2 = min (y ∗ − ci b)2 . (yi∗ − ci β i b i=1 i=1
Minimum nastavá pro
ˆ ∗ = (C > C)−1 C > y ∗ . β 25
Pro rozptyl y platí var(y) = σ 2 I. Jednoduchým výpočtem dostaneme rozˆ∗ = σ ptyl var β ˆ 2 (C > C)−1 . Z toho plyne, že q ˆ seFˆ (βˆj∗) = σ G−1 jj = se(βj ). ˆ Jinak řečeno, ideální bootstrapový odhad směrodatné chyby j-té složky β je roven základnímu odhadu směrodatné chyby.
2.2.4
Bootstrapování párů
Bootstrapování párů představuje odlišný přístup k lineární regresi, než byla předchozí metoda. Nepředpokládáme zde, že náhodné chyby ei mají všechny stejný rozptyl, stačí předpokládat pouze jejich vzájemnou nezávislost. Výchozí situaci pro bootstrapování páru lze popsat takto: máme dvojice ((c1 , y1 ), (c2 , y2 ), . . . , (cn , yn )) = (x1 , x2 , . . . , xn ), které jsou realizacemi náhodných nezávislých stejně rozdělených veličin, kterým přísluší dvourozměrná distribuční funkce F . Vektor regresních paramaterů β lze chápat jako funkci F . Tu budeme aproximovat empirickou distribuční funkcí Fˆ párů (ci , yi ). Bootstrapový výběr (c∗1 , y1∗ ), (c∗2 , y2∗), . . . , (c∗n , yn∗ ) = (x∗1 , x∗2 , . . . , x∗n ) získáme pomocí Fˆ , platí že x∗i = xj pro všechna i, j = 1, 2, . . . , n. Nakonec ˆ ∗ spočítáme metodou nejmenších hodnotu bootstrapového odhadu vektoru β čtverců z bootstrapového výběru. Celý bootstrapový algoritmus se dá popsat také takto [2]: Pro b = 1, 2, . . . , B 1. Z množiny {1, 2, . . . , n} proveďme náhodný výběr s vracením - získáme ∗b ∗b tím posloupnost i∗b 1 , i2 , . . . , in . 2. Pro j = 1, 2, . . . , n položíme c∗b , yj∗b = yi∗b . j = ci∗b j j ∗b ∗b ∗b ∗b ∗b 3. Z ((c∗b 1 , y1 ), (c2 , y2 ), . . . , (cn , yn )) spočteme metodou nejmenších čtverců ˆ ∗b . odhad β
Po provedení tohoto algoritmu máme k dispozici bootstrapový odhad rozděˆ můžeme například spočítat jeho směrodatnou chybu vzorcem (1.3). lení β,
26
βˆ0 βˆ1
Tradiční vzorec 0,2992056 0,0001812
Bootstrapování párů 0,3424628 0,0002025
Tabulka 2.1: Hodnoty směrodatné odchylky složek odhadu regresního parametru βˆ pomocí standartního vzorce a metodou bootstrapování párů, B = 100.
2.2.5
Porovnání bootstrapování páru a reziduí
Jaká z výše uvedených metod je lepší? Jak již tomu ve statistice bývá, záleží na situaci a na povaze naměřených dat. Připomeňme, jak vypadají bootstrapové výběry, které obě metody generují: x∗ = {((c1 , c1 βˆ + ei1 ), ((c2 , c2 βˆ + ei2 ), . . . , ((cn , cn βˆ + ein )} x∗ = {((ci1 , yi1 ), (ci2 , yi2 ), . . . , (cin , yin ))}
boot reziduí
boot párů
Jak již bylo zmíněno, výhodou v pořadí druhé uvedené metody je absence předpokladů o vektoru náhodných chyb e. I když podmínky (2.1) vůbec neplatí, dává bootstrapování párů na rozdíl od druhého způsobu rozumné odpovědi. Jestliže je ale model konstatního rozptylu chyb (2.1) správný, je bootstrapování párů v porovnání s bootstrapováním reziduí méně efektivní. Dá se však dokázat, že v tomto případě s rostoucím rozsahem výběru n se odpovědi získané bootstrapováním párů blíží k závěrům metody bootstrapování reziduí. Za druhé, protože se při bootstrapování párů pracuje s vektory c1 , c2 , . . . , cn , dochází k pozměňování matice C. To je velmi podstatné, protože ta obsahuje informace o naměřených datech a naše závěry vždy vycházejí z naměřených dat, tedy zkreslení způsobené generováním bootstrapových výběrů může způsobit i určité zkreslení závěrů. Naštěstí se v praxi ukazuje, že již u středně velkých datových souborů tento vliv obvykle není významný.
Příklad 5 Pokračování příkladu 4 ze strany 22 Budeme pokračovat v práci s údaji o automobilech. Metodou nejmenších čtverců jsme již odhadli vektor parametrů βˆ = (1,417796; 0,006727), který udává lineární závislost spotřeby automobilu na jeho hmotnosti. Jak je odhad βˆ přesný? V programu R jsem na data aplikoval metody bootstrapování 27
Bootstrapování reziduí
0
0 500
500
1500
1500
Bootstrapování párů
0.0060
0.0066
0.0072
0.0062
0.0066
βˆ1∗
0.0
0.0
0.4
0.4
0.8
0.8
1.2
βˆ1∗
0.0070
0.5
1.0
1.5
2.0
0.5
1.0
1.5
2.0
βˆ0∗
βˆ0∗
Obrázek 2.2: Histogramy B = 500 hodnot bootstrapových opakování βˆ0∗ ,βˆ1∗ získané bootstrapováním párů a bootstrapováním reziduí. Všechny histogramy mají zhruba tvar podobný histogramu normálního rozdělení. Přerušovanou čarou jsou vyznačeny hodnoty βˆ0 , resp. βˆ1 získané metodou nejmenších čtverců.
28
párů a reziduí, obě pro B = 500. Vypočtené hodnoty se ˆ 500 (βˆ0 ), se ˆ 500 (βˆ1 ) jsou společně s hodnotami se( ¯ βˆ0 ), se( ¯ βˆ1 ), které jsou dané vzorcem (2.2), uvedeny v tabulce 2.1. Na obrázku 2.2 jsou histogramy bootstrapových opakování βˆ0∗ , βˆ1∗ .
2.2.6
Vážená metoda nejmenších čtverců
Pro úplnost uveďme ještě metodu, kterou využijeme v situaci, kdy náhodné chyby ei mají nehomogenní známý rozptyl. Nechť tedy var(e) = σ 2 W −1 , kde W je diagonální matice typu n×n známých hodnot wi - W = Diag(w1 ,w2 , . . . , wn ). Algoritmus je podobný jako v části 2.2.3 s tím rozdílem, že každá hodnota v regresním vztahu je vážena převrácenou hodnotou příslušného rozptylu. Z toho vyplývá, že proměnné s větším rozptylem bude v modelu přiřazena menší váha. Vektor regresních parametrů β váženou metodou nejmenších čtverců odhadujeme vzorcem ˆ = (C > W C)−1 C > W y. β Dál již postupujeme stejně jako v 2.2.3 - vypočteme vektor reziduí e = ˆ z něj uděláme bootstrapový výběr e∗ a spočítáme y ∗ = C β. ˆ y − C β, Číslo σ pro fungování tohoto postupu není nutné odhadovat. Pokud je ho přesto potřeba znát, je odhad dán vzorcem (viz. [2]) σ ˆ2 =
2.3 2.3.1
ˆ y > W (y − C β) . n−k
Intervaly spolehlivosti a metoda bootstrap Úvod
Nejprve připomeneme některé definice a pojmy z teorie intervalových odhadů. Zatím jsme se zabývali především bodovými odhady, tedy pro dané realizace x1 , x2 , . . . , xn náhodných veličin X1 , X2 , . . . , Xn jsme pomocí boˆ který se blížil ke skutečné hodnotě otstrapu odvozovali různé vlastnosti θ, parametru θ. Teorie intervalů spolehlivosti (nebo také konfidenčních intervalů) se zabývá úlohou, kdy se pro náhodné veličiny X1 , X2 , . . . , Xn z rozdělení s distribuční 29
funkcí F a pro nějakou charakteristiku θ = t(F ) hledá interval (θL , θU ) tak, aby s nějakou pravděpodobností (tu obvykle značíme jako 1 − 2α) pokryl skutečnou hodnotu θ. Jinak řečeno, dvojice (θL (X1 , X2 , . . . , Xn ), θU (X1 , X2 , . . . , Xn )) se nazývá intervalový odhad parametru θ o spolehlivosti 1 − 2α, jestliže P (θL (X1 , X2 , . . . , Xn ) < θ < θU (X1 , X2 , . . . , Xn )) = 1 − 2α. Intervalové odhady se zpravidla konstruují následovně: Najdeme nějakou funkci h náhodných veličin X1 , X2 , . . . , Xn = X a parametru θ, tzn. h(X, θ) a kvantily hα a h1−α rozdělení této funkce. Potom platí P (hα < h(X, θ) < h1−α ) = 1 − 2α. (2.3) Poté již stačí upravit výraz na tvar
P (θL (X) ≤ θ ≤ θU (X)) = 1 − 2α.
2.3.2
Intervalové odhady s použitím normálního a Studentova rozdělení
V následujícím textu značíme symbolem uβ kvantily normovaného normálního rozdělení N(0, 1) a tβ,n kvantily Studentova rozdělení o n stupních volnosti. Předpokládejme, že θˆn = t(Fˆn ) je odhad parametru θ = t(F ). Připoměňme, že Fˆn značí empirickou distribuční funkci založenou na náhodném výběru (X1 , X2 ,. . . , Xn ) = X, a tedy i θˆn je funkcí X. Dále nechť je se ˆ nějaký odhad směrodatné chyby odhadu θˆn . Využijeme toho, že ve většině případů rozdělení θˆ po standartizaci konverguje k normálnímu rozdělení se střední hodnotou 0 a rozptylem 1, tzn. ˆ −θ položíme-li h(X, θ) = θnse ˆ , potom h∼ ˙ N(0, 1). Jak je známo, uβ = −u1−β . Z toho a z (2.3) plyne, že pro α ∈ (0, 41 ) můžeme předchozí rovnost upravit například na tvar . P (θ ∈ (θˆn − u1−α · se, ˆ θˆn + u1−α · se)) ˆ = 1 − 2α.
V tomto případě tedy intervalový odhad vypadá (θL , θU ) = (θˆn −u1−α ·se, ˆ θˆn + u1−α · se). ˆ Tento interval budeme dále nazývat jako standardní konfidenční 30
interval o spolehlivosti 1 − 2α. Pro malé hodnoty n je však aproximace normovaným normálním rozdělením v mnoha případech nepřesná. Často je lepší aproximace Studentovým rozdělením θˆn − θ ∼ ˙ tn−1 , se ˆ kde tn−1 je Studentovo rozdělení s n − 1 stupni volnosti. (Poznamenejme, že v případě výběrového průměru θˆn = X¯n z výběru z normálního rozdělení ˆ −θ má veličina θnse přesně rozdělení tn−1 ). ˆ Intervalový odhad se spolehlivostí 1 − α potom je
(θˆn − t1−α,n−1 · se, ˆ θˆn + t1−α,n−1 · se). ˆ
Povšimněme si, že jak standardní konfidenční interval, tak i odhad s použitím Studentova rozdělení je vždy symetrický interval okolo hodnoty θˆn .
2.3.3
Bootstrap-t intervaly
Použití bootstrapu při hledání intervalových odhadů je výhodné v tom (ostatně stejně jako většina aplikací metody bootstrap), že se dobrých výsledků dobereme i bez předpokladů o rozdělení zkoumané charakteristiky θ a že intervalové odhady pomocí bootstrapu v mnohém zlepšují výsledky získané pomocí normálního nebo Studentova rozdělení. Metoda, kterou se budeme nyní zabývat, odhaduje rozdělení veličiny h přímo z dat. Kvantily tohoto bootstrapem získaného rozdělení budeme značit jako tˆβ . Postup výpočtu bootstrap-t intervalu o spolehlivosti 1 − 2α shrneme v následujícím algoritmu: 1. Ze zadaných naměřených hodnot vygenerujeme B bootstrapových výběrů x∗1 , x∗2 , . . . , x∗B . 2. Pro každý bootstrapový výběr spočítáme veličinu h: h∗b =
θˆ∗b − θˆ , se ˆ ∗b
b = 1, 2, . . . , B,
(2.4)
kde θˆ∗b = s(x∗b ) je hodnota θˆ pro bootstrapový výběr x∗b . Hodnota se ˆ ∗b představuje směrodatnou chybu θˆ∗ pro výběr x∗b . Jak získat tuto hodnotu je diskutováno níže. 31
3. Vypočteme příslušné kvantily rozdělení veličiny h: α-tý kvantil je aproximován hodnotou tˆα , která splňuje #{h∗b ≤ tˆα } = α. B
(2.5)
4. Bootstrap-t interval spolehlivosti je dán výrazem (θˆ − tˆ1−α · se, ˆ θˆ − tˆα · se). ˆ Možná není zcela zřejmé, jak se ze vzorce (2.5) získá hodnota tˆα : bootstrapové hodnoty h∗ seřadíme vzestupně do posloupnosti h∗(1) , h∗(2) , . . . , h∗(B) tzn. platí h∗(1) ≤ h∗(2) ≤ . . . ≤ h∗(B) . Položme γ = α · B (pokud je α · B desetinné číslo, pak ho zaokrouhlíme na nejbližší celé). Potom tˆα = h∗(γ+1) a tˆ1−α = h∗(B−γ) . V rovnosti (2.5) se vyskytuje hodnota se ˆ ∗b , což je odhad směrodatné chyby ∗b ∗b ˆ θˆ∗ pro výběr x∗b = (x∗b 1 , x2 , . . . , xn ). Pokud je θ výběrový průměr, pak je možné spočítat tuto hodnotu přímo vzorcem ∗b
se ˆ ={
n X i=1
1
(x∗b ¯∗b )2 /n} 2 . i −x
(2.6)
Pro většinu statistik θˆ však podobný vzorec pro výpočet směrodatné chyby neexistuje, a proto musíme spočítat bootstrapový odhad pro každý bootstrapový výběr - bootstrap tedy bude probíhat na dvou úrovních. Uvádí se, že pro výpočet bootstrapových intervalových odhadů je nutné generovat nejméně B = 1000 bootstrapových výběrů. Pro výpočet směrodatné chyby se uvádí jako dostatečný počet B1 = 25 až 200 opakování. Teoreticky pro výpočet bootstrap-t intervalu tedy potřebujeme nejméně B · B1 = 1000 · 25 = 25000 bootstrapových opakování, v každém z nich ˆ Je zřejmé, že pokud je θˆ složitější je potřeba spočítat verzi statistiky θ. funkce, je tento počet opakování již poměrně velký a i přes rychlost dnešních počítačů se výpočet může protáhnout. Obecně platí, že bootstrap-t intervaly a výsledky získané pomocí Studentova rozdělení k sobě pro rostoucí rozsah výběru n konvergují. Pro malé hodnoty n (v literatuře se uvádí pro n < 150) je již lepší použít bootstrap než standardní metody. Ty jednak často ignorují šikmost nebo jiné nepravidelnosti v 32
ˆ a jednak u nich vzniká rozdíl mezi spolehlivostí 1 − 2α, pro kterozdělení θ, rou intervalový odhad počítáme, a skutečným pokrytím pravděpodobnosti výsledného odhadu. Lepší pokrytí bootstrap-t intervalů souvisí také s tím, že kvantily rozdělení h∗ nejsou obecně symetrické kolem 0. V [5] se uvádí, že bootstrap-t intervalové odhady je vhodné používat zejména pro statistiky, pro něž platí, že pokud vynásobíme naměřená data konstantou c, pak se hodnota θˆ zvýší také c-krát. Mezi takové statistiky patří například výběrový průměr nebo medián.
2.3.4
Intervalové odhady percentilovou metodou
Výchozí situace je stejná jako obvykle: z výchozích dat generujeme bootstrapové výběry x∗ a příslušné bootstrapové verze θˆ∗ = s(x∗ ). Intervalový odhad parametru θˆ percentilovou metodou se spočítá pomocí kvantilů distribuční funkce G∗ bootstrapových opakování θˆ∗ . Tato distribuční funkce je definována jako (v souladu s (1.2)) G∗ (x) = P∗ {θˆ∗ ≤ x}. Intervalový odhad o spolehlivosti 1 − 2α je pak definován následovně: (θˆL , θˆU ) = (G∗−1 (α), G∗−1 (1 − α)).
To však platí jen pro ideální situaci, kdy by počet bootstrapových opakování musel být rovný nekonečnu. V praxi zkonstruujeme interval následujícím postupem: 1. Z výchozích dat x1 , x2 , . . . , xn vygenerujeme B bootstrapových výběrů x∗1 , x∗2 , . . . , x∗B . 2. Spočítáme hodnoty θˆ∗b = s(x∗b ), b = 1, 2, . . . , B. ∗ ∗ 3. Tyto hodnoty seřadíme vzestupně do posloupnosti: θˆ(1) ≤ θˆ(2) ≤ ... ≤ ∗ θˆ(B) .
4. Intervalový odhad o spolehlivosti 1 − 2α je aproximován následovně: ∗ ∗ (θL , θU ) ≈ (θˆ(γ) , θˆ(B−γ) ),
kde γ = α · B (případně hodnotu α · B zaokrouhlíme na nejbližší celé číslo). 33
α Bootstrap - t Percentilová metoda Studentova metoda
0,01 0,025 0,05 (3,65953; 4,61402) (3,74705; 4,53992) (3,82474; 4,46655) (3,75201; 4,60812) (3,79152; 4,56885) (3,85078; 4,50469) (3,68997; 4,63581) (3,76605; 4,55973) (3,83081; 4,49497)
Tabulka 2.2: Tato tabulka shrnuje vypočtené intervalové odhady o spolehlivosti 98%, 95% a 90% vypočtené pomocí Studentova rozdělení, percentilovou metodou a metodou bootstrap-t intervalů. Percentilová metoda je v praxi použitelná pro velkou množinu problémů s výjimkou případu, kdy se zajímáme o odhad střední hodnoty pomocí výběrového průměru a rozsah náhodného výběru n je malý. Zřejmě je výpočetně mnohem méně náročnější než metoda bootstrap-t intervalů - během té generujeme celkem B · B1 bootstrapových výběrů, zatímco percentilová metoda vyžaduje pouze B opakování. Příklad 6 Nechť je X1 , X2 , . . . , X100 náhodný výběr z rozdělení N(4, 4). Těchto 100 hodnot jsem náhodně vygeneroval v programu R. Zajímá nás intervalový odhad pro statistiku θˆ = X¯n . Odhad se ˆ směrodatné chyby θˆ jsem získal pomocí neparametrického bootstrapu s 1000 opakování. Poté jsem odvodil intervalové odhady běžným odhadem pomocí Studentova rozdělení s 99 stupni volnosti, dále percentilovou metodou pro B = 1000 iterací a bootstrap-t metodou rovněž s B = 1000 iteracemi. Směrodatné chyby pro boostrapové hodnoty θˆ∗b byly spočteny podle vzorečku (2.6). Tabulka 2.2 shrnuje výsledky percentilové metody, bootstrap-t intervalové metody a výpočtu pomocí Studentova rozdělení pro různé hodnoty α. Je vidět, že pro takto velký rozsah výběru nejsou intervalové odhady spolehlivosti příliš odlišné. Celý postup jsem pak zopakoval pro menší rozsah výběru - n = 20. Na obrázku 2.3 jsou histogramy pro B = 1000 bootstrapových opakování a vertikálními čarami jsou vyznačeny intervalové odhady o spolehlivosti 95% pro oba rozsahy výběru. Je zřejmé, že pro menší hodnotu n produkuje percentilová metoda užší interval, zatímco bootstrap-t interval a Studentův interval se zhruba shodují.
34
n = 20
0.0
0.0
0.2
0.5
0.4
1.0
0.6
1.5
0.8
2.0
1.0
n = 100
3.6
4.0
4.4
4.8
3.0
3.5
4.0
4.5
5.0
5.5
ˆ Na leObrázek 2.3: Histogramy 1000 bootstrapových opakování statistiky θ. vém obrázku je histogram pro rozsah výběru n = 100, na pravém potom histogram pro n = 20. Plnou čarou je vyznačen průměr θˆ = 4,162 souboru o velikosti n = 100 náhodně vygenerovaných hodnot z rozdělení N(4,4), resp. θˆ = 4,083 pro výběr o rozsahu n = 20 ze stejného rozdělení. Přerušované vertikální čary označují intervalové odhady o spolehlivosti 95 % získané percentilovou metodou, čerchované představují interval vypočtený pomocí Studentova rozdělení o 99 (resp. 19) stupních volnosti o stejné spolehlivosti a konečně tečkované čary označují 95%-ní bootstrap-t intervaly. Pro velký rozsah náhodného výběru jsou všechny intervalové odhady zhruba stejné, zatímco v druhém případě produkuje percentilová metoda znatelně užší interval. Pro výběrový průměr a takto malé rozsahy výběru n má bootstrap-t metoda mnohem lepší pokrytí než percentilová metoda.
35
2.4
Kvantilová regresní analýza
V části 2.2, ve které jsme se zabývali lineární regresí, jsme modelovali podmíněnou střední hodnotu E[y|C]. Nemusí nás zajímat pouze podmíněné rozdělení střední hodnoty, ale například podmíněné kvantily různých podmíněných rozdělení. Právě k tomuto cíli se používá kvantilová regresní analýza, jíž se zabývá např. R.Koenker v [6]. Výsledky kvantilové regresní analýzy nejsou zpravidla získány přímými vzorci jako v případě metody nejmenších čtverců, nýbrž různými numerickými výpočty, a z toho důvodu není obvykle možné odvodit přímý vzorec pro výpočet směrodatné chyby nebo intervalů spolehlivosti pro tyto výstupy. Proto je při určování přesnosti odhadů získaných kvantilovou regresí často bootstrap nenahraditelný. Na následujících řádcích základy kvantilové regresní analýzy a ilustrujeme ji na automobilových datech společně s odhady přesností metodou bootstrap. V následujícím textu budeme značit τ -kvantil rozdělení náhodné veličiny Y jako yτ . Připomeňme, že pro kvantil yτ platí P (Y ≤ yτ ) ≥ τ a P (Y > yτ ) ≥ 1−τ . Např. pro data z příkladu 4 dosahuje automobil 95–tého kvantilu hmotnosti, pokud 95 % souboru automobilů má menší hmotnost a naopak 5 % vozidel z tohoto souboru je těžší než daný automobil. Předpokládejme stejné značení jako v části 2.2. Nejvýznamějším kvantilem je bezesporu medián - y0,50 . Odhad metodou nejmenších čtverců byl dán minimalizací součtu čtverců reziduí; podobně odhad podmíněného mediánu získáme minimalizací součtu absolutních hodnot reziduí: n X
|yi − ci b|. βˆ0.50 = min b i=1 V jiném případě, kdy nás místo mediánu zajímá nějaký τ -kvantil, minimalizujeme obecnější výraz: n X
ρτ (yi − ci b), βˆτ = min b i=1 kde ρτ (·) označuje takzvanou ztrátovou funkci ρτ (u) = u · (τ − I(u < 0)). Tyto optimalizační úlohy jsou velmi dobře řešitelné metodami lineárního programování. 36
τ ˆ β0 βˆ1 Boot. párů se100 (βˆ0 ) se100 (βˆ1 ) Boot. reziduí se100 (βˆ0 ) se100 (βˆ1 )
0,1 0,25 0,5 0,75 0,9 0,4973637 1,1912790 1,1462441 2,3882352 2,5059203 0,0065026 0,0063953 0,0068075 0,0065359 0,0071044 0,3669734 0,2288621 0,3378647 0,7150589 0,6792194 0,0002001 0,0001935 0,0002652 0,0005191 0,0003935 0,3628389 0,2457566 0,2441471 0,4657161 0,4646243 0,0002057 0,0001374 0,0001229 0,0002698 0,0003635
Tabulka 2.3: Tato tabulka obsahuje výsledky kvantilové analýzy a následné aplikace metody bootstrap pro kvantily τ = {0,1; 0,25; 0,5; 0,75; 0,9}. Za povšimnutí stojí především poměrně hodně odlišné odhady směrodatné chyby pro τ = 0,75 a τ = 0,9 v případě bootstrapování párů a bootstrapování reziduí. Protože pro směrodatnou chybu odhadu βˆτ neexistuje vzorec jako (2.2), je vhodné použít metodu bootstrap, jak si ukážeme v následujícím příkladu: Příklad 7 Pokračování příkladu ze strany 27 Aplikujme na data s auty kvantilovou regresní analýzu. Nezávislou proměnnou je stále hmotnost, závislou je spotřeba vozidla ve městě v litrech na 100 km. Na obrázku 2.4 jsou vyneseny body představující hmotnosti a spotřeby automobilů, tučnou čarou je vyznačen podmíněný medián. Tečkované čáry představují kvantilové regresní funkce pro kvantily τ = {0,1; 0,25; 0,75; 0,9}. Přerušovanou čarou je vyznačena podmíněná střední hodnota vypočtená v příkladu 4. Dále jsem spočetl pro všechny hodnoty odhadů βˆ0,τ , βˆ1,τ směrodatné odchylky metodou bootstrap - použil jsem jak bootstrapování párů, tak reziduí. Postup je stejný jako v části 2.2.2 s jediným rozdílem, že pokaždé, kdy potřebujeme vypočítat bootstrapovou verzi odhadu regresních parametrů βˆ∗ , použijeme místo metody nejmenších čtverců výsledek optimalizační úlohy příslušné pro daný kvantil. Výsledky jsou vyneseny v tabulce 2.3. Co nás dále může zajímat, je pás spolehlivosti kolem těchto regresních přímek. Připomeňme definici pásu spolehlivosti kolem regresní přímky: nechť 37
15.9 12.9 3.9 5.9 7.9 9.9
Spotřeba [l/100 km]
18.9
21.9
Kvantilová regresní analýza
839
1139
1439
1739
2039
2339
2639
Hmotnost [kg]
Obrázek 2.4: Obrázek prezentuje výsledky kvantilové regresní analýzy pro data s auty - tučnou čarou je vyznačen podmíněný medián, tečkované čáry představují kvantilové regresní funkce pro kvantily τ = {0,1; 0,25; 0,75; 0,9}. Mezery mezi kvantilovými přímkami nám poskytují náhled na podmíněné rozdělení spotřeby v závislosti na hmotnosti - nižší kvantily jsou blízko u sebe a naopak vyšší kvantily jsou od sebe dále, což naznačuje, že graf hustoty podmíněného rozdělení spotřeby dosahuje vyšších hodnot ve své levé části a má dlouhý ocas vpravo.
38
je (β0 , β1 ) vektor regresních parametrů a c0 je daný bod. Nechť (yL , yU ) je interval, který pokryje hodnotu β0 + β1 c0 s pravděpodobnostní 1 − 2α. Při spojitě měnícím se c pak meze (yL , yU ) (rovněž se měnící) vytvoří při grafickém znázornění pás spolehlivosti kolem regresní přímky β0 + β1 c0 o koeficientu spolehlivosti 1 − 2α. V případě lineární regrese existuje vzorec pro výpočet jednotlivých intervalových odhadů hodnot β0 + β1 c, z nichž pak sestavíme celý pás spolehlivosti (viz např [1]). V případě kvantilové regrese však podobný vzorec není k dispozici, a tak je vhodné použít metodu bootstrap: 1. Získáme bootstrapové výběry x∗1 , x∗2 , . . . , x∗B (buď bootstrapováním párů, nebo reziduí). 2. Pro každý bootstrapový výběr spočítáme bootstrapové odhady regresních parametrů βˆ0∗i ,βˆ1∗i , i = 1, 2, . . . , B. 3. Pro bod c0 získáme intervalový odhad (yL , yU ) o spolehlivosti 1 − 2α obdobou percentilové metody: hodnoty (βˆ0∗i + βˆ1∗i c0 ) uspořádáme do rostoucí posloupnosti; potom yL = (βˆ0∗i + βˆ1∗i c0 )(αB) a yU = (βˆ0∗i + βˆ1∗i c0 )(B−αB) (popř. necelé hodnoty αB zaokrouhlíme). 4. Předchozí krok opakujeme pro vhodné hodnoty c tak, abychom mohli vykreslit dostatečně hladký pás spolehlivosti. Výsledky právě popsané metody pro data s auty jsou prezentovány na obrázku 2.5. Pro přehlednost jsou zde vykresleny jen pásy spolehlivosti pro regresní kvantilové funkce pro τ = {0,1; 0,5; 0,9}. Nakonec nás může zajímat celé rozdělení podmíněné kvantilové funkce spotřeby. Náhled získáme tak, že spočítáme β τ pro τ = {0,04; 0,08;. . . ;0,96} a výsledné body vyneseme do grafu. Výsledky společně s intervaly spolehlivosti pro dané hodnoty β 1 jsou znázorněny na obrázku 2.6.
39
15.9 12.9 3.9 5.9 7.9 9.9
Spotřeba [l/100 km]
18.9
21.9
Intervalové pásy
839
1139
1439
1739
2039
2339
2639
Hmotnost [kg]
Obrázek 2.5: Přibližné pásy spolehlivosti pro kvantilové regresní přímky pro τ = {0,1; 0,5; 0,9}. Křivky ohraničující pásy spolehlivosti jsou proloženy přes 47 bodů v intervalu (800, 3000). Všimněme si, že pás spolehlivosti pro kvantilovou přímku τ = 0,9 je širší než zbylé dva (souvisí to s podmíněnou hustotou spotřeby na hmotnosti).
40
1.0 0.4
0.5
0.6
0.7
βˆ1,τ
0.8
0.9
1.0 0.9 0.8 0.7 0.4
0.5
0.6
βˆ1,τ
0.1
0.3
0.5
0.7
0.9
0.1
τ
0.3
0.5
0.7
0.9
τ
Obrázek 2.6: Hodnoty β1,τ pro data s auty a intervalové odhady těchto koeficientů a spolehlivosti 90 %. Intervalové odhady jsem konstruoval pomocí ∗ percentilové metody, bootstrapové verze β1,τ jsem generoval bootstrapováním párů (levý graf ) a bootstrapováním reziduí (pravý graf ). Zejména pro vyšší kvantily očividně produkuje bootstrapování reziduí užší intervalové odhady. Z grafů se dá vyčíst, o kolik se při změně o jednotku hmotnosti změní kvantil spotřeby paliva. Je však vidět, že β1 se pro různé hodnoty τ příliš nemění.
41
Závěr Cílem této práce bylo popsat základní principy metody bootstrap a její vybrané aplikace a následně pomocí programu R je prezentovat na datech. V první kapitole jsme popsali základní algoritmus metody bootstrap, její neparametrickou i parametrickou verzi a na příkladu jsme ukázali, že v případě částečné informace o rozdělení náhodného výběru je výhodnější použít parametrickou verzi. V další části jsme prezentovali několik způsobů výpočtu směrodatné odchylky pomocí bootstrapu a dokázali jsme, že bootstrapový odhad směrodatné odchylky konverguje skoro jistě k ideálnímu odhadu, který je těžké pro větší výběry přesně spočítat. V druhé kapitole jsme se věnovali složitějším modelům, než je situace s jedním jednorozměrným náhodným výběrem. V první části této kapitoly jsme popsali dva způsoby aplikace bootstrapu na regresní modely - bootstrapování reziduí a bootstrapování párů. Bootstrapovaní reziduí je v případě normality náhodných chyb přesnější, naproti tomu bootstrapování párů vykazuje přijatelné výsledky za obecnějších předpokladů. Dále jsem se soustředili na výpočet intervalových odhadů spolehlivosti pomocí metody bootstrap. K tomu existují dva základní postupy. Prvním z nich je metoda bootstrap-t intervalů, která oproti běžným intervalovým odhadům pomocí normálního nebo Studentova rozdělení vylepšuje skutečné pokrytí pravděpodobnosti. Druhou je pak percentilová metoda, která je velmi obecná a méně náročná na výpočetní výkon než bootstrap-t metoda, avšak má horší vlastosti pokrytí. V poslední části práce jsme se věnovali kvantilové regresní analýze pro skutečná data a použili jsme zde bootstrap v podobě výše zmíněných metod. Ve všech oddílech práce jsme studované metody aplikovali na skutečná data nebo na pseudonáhodně vygenerovaná data. Výpočty byly prováděny a grafická znázornění výsledků byla pořízena pomocí statistického programu R. Tento dokument byl vysázen v prostředí LATEX 2ε .
42
Literatura [1] Anděl J.: Základy matematické statistiky, Matfyzpress, Praha 2005. [2] Davison, A. C. and Hinkley, D. V.: Bootstrap Methods and their Application, New York: Cambridge University Press, 1997. [3] Dupač V., Hušková, M.: Pravděpodobnost a matematická statistika, Karolinum, Praha, 1999, 2001. [4] Efron B.: Bootstrap methods: another look at the jackknife, Annals of Statistics, 7, 1—26, 1979. [5] Efron, B. and Tibshirani, R. J.: An Introduction to the Bootstrap, Boca Raton: Chapman & Hall/CRC, 1993. [6] Koenker, R. and Hallock, K.F.: Quantile Regression, Journal of Economic Perspectives,15 (4), 143—156, 2001. [7] Prášková Z.: Metoda bootstrap, http://www.statspol.cz/robust/robust2004/praskova.pdf.
43