Univerzita Karlova v Praze Matematicko-fyzik´aln´ı fakulta
´ RSK ˇ ´ PRACE ´ BAKALA A
Jakub Peˇc´anka
Asymptotick´ e testy Katedra pravdˇepodobnosti a matematick´e statistiky Vedouc´ı bakal´aˇrsk´e pr´ace: Prof. RNDr. Marie Huˇskov´a, DrSc. Studijn´ı program: Matematika Studijn´ı obor: Obecn´a matematika 2006
Na tomto m´ıstˇe bych r´ad podˇekoval prof. Huˇskov´e za jej´ı laskav´e veden´ı, pomoc a rady, kter´e mi poskytla pˇri vytv´aˇren´ı t´eto pr´ace. Ke studiu jsem vyuˇzil v´ıcero liter´arn´ıch pramen˚ u, kter´e jsou uvedeny na konci pr´ace v seznamu literatury. Zvl´aˇstˇe r´ad bych chtˇel podˇekovat autor˚ um publikac´ı [1] a [2], jejichˇz d´ıla jsem pˇri psan´ı t´eto pr´ace pouˇz´ıval nejv´ıce.
Prohlaˇsuji, ˇze jsem svou bakal´aˇrskou pr´aci napsal samostatnˇe a v´ yhradnˇe s pouˇzit´ım citovan´ ych pramen˚ u. Souhlas´ım se zap˚ ujˇcov´an´ım pr´ace.
V Praze dne 29. kvˇetna 2006
Jakub Peˇc´anka
N´ azev pr´ ace: Asymptotick´e testy Autor: Jakub Peˇc´anka Katedra: Katedra pravdˇepodobnosti a matematick´e statistiky Vedouc´ı bakal´ aˇ rsk´ e pr´ ace: Prof. RNDr. Marie Huˇskov´a, DrSc. e-mail vedouc´ıho:
[email protected] Abstrakt: Tato pr´ace se zamˇeˇruje na problematiku intervalov´ ych odhad˚ u a test˚ u hypot´ez zaloˇzen´ ych na centr´aln´ı limitn´ı vˇetˇe (CLV). V´ ysledky z t´eto oblasti se t´emˇeˇr v´ yhradnˇe zamˇeˇruj´ı na intervalov´e odhadov´an´ı a testov´an´ı stˇredn´ı hodnoty a rozptylu n´ahodn´eho v´ ybˇeru. Konstrukce intervalov´ ych odhad˚ u na z´akladˇe CLV umoˇzn ˇuje uˇz´ıt tyto odhady na ˇsirok´e mnoˇzstv´ı n´ahodn´ ych v´ ybˇer˚ u. V prvn´ı a druh´e kapitole pr´ace jsou formulov´any z´akladn´ı teoretick´e poznatky, kter´e jsou pozdˇeji vyuˇzity pˇri konstrukci CLV intervalov´ ych odhad˚ u a CLV testov´ ych kriteri´ı. Jsou uvedeny v´ ysledky jako Ljapunova a Lindebergova centr´aln´ı limitn´ı vˇeta nebo z´akon velk´ ych ˇc´ısel pro stejnˇe rozdˇelen´e n´ahodn´e veliˇciny. Tˇret´ı kapitola se soustˇred´ı na vlastn´ı sestrojen´ı CLV intervalov´ ych odhad˚ u a z nich plynouc´ıch CLV testov´ ych krit´eri´ı. V z´avˇeru pr´ace pak ilustrujeme uˇzit´ı z´ıskan´ ych v´ ysledk˚ u na ˇctyˇrech r˚ uzn´ ych souborech dat. Nejprve na tˇrech generovan´ ych datov´ ych souborech poch´azej´ıc´ıch jednou z norm´aln´ıho a dvakr´at z Laplaceova rozdˇelen´ı porovn´ame CLV intervalov´e odhady a intervalov´e odhady pro n´ahodn´e v´ ybˇery z norm´aln´ıho rozdˇelen´ı. Na ˇctvrt´em souboru re´aln´ ych dat jsou pak testov´any hypot´ezy o stˇredn´ı hodnotˇe a rozptylu na z´akladˇe CLV testov´ ych krit´eri´ı. Kl´ıˇ cov´ a slova: asymptotick´e testy hypot´ez, asymptotick´e intervalov´e odhady, norm´aln´ı rozdˇelen´ı, centr´aln´ı limitn´ı vˇety Title: Asymptotic Tests Author: Jakub Peˇc´anka Department: Department of Probability and Mathematical Statistics Supervisor: Prof. RNDr. Marie Huˇskov´a, DrSc. Supervisor’s e-mail address:
[email protected] Abstract: Presented thesis deals with problems concerning confidence intervals and test of significance criteria that are based on central limit theorems (CLV). The results almost exclusively regard confidence intervals and test criteria for mean and variance of random samples. The use of CLV when deriving confidence intervals assures large number of applications for the gained results. First two chapters concentrate on formulating theoretical tools that are later used for constructing the CLV confidence intervals and CLV test criteria, which are presented in the third chapter. The last chapter of this paper illustrates the use of the gained results on four particular sets of data. On first three sets of data, one of which is generated from normal distribution and two of which are generated from Laplace distribution, the difference between confidence intervals for normally distributed random samples and CLV confidence intervals is discussed. Then the use of CLV test criteria for tests of mean and variance is demonstrated on the fourth real-life set of data. Keywords: Asymptotic Tests of Significance, Asymptotic Confidence Intervals, Central Limit Theorems, Normal Distribution
Obsah ´ Uvod 1 Teoretick´ e z´ aklady 1.1 Pojmy a znaˇcen´ı . . . 1.2 Norm´aln´ı rozdˇelen´ı . 1.3 Kvantily . . . . . . . 1.4 Z´akon velk´ ych ˇc´ısel . 1.5 Centr´aln´ı limitn´ı vˇety
4
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
2 Testov´ an´ı hypot´ ez a statistick´ e odhady 2.1 N´ahodn´ y v´ ybˇer . . . . . . . . . . . . . . . . . . 2.2 Pojmy testov´an´ı hypot´ez . . . . . . . . . . . . . 2.3 V´ ybˇerov´e charakteristiky pˇri rozdˇelen´ı N(µ, σ 2 ) . 2.4 Bodov´ y odhad . . . . . . . . . . . . . . . . . . . 2.5 Intervalov´ y odhad . . . . . . . . . . . . . . . . . 2.6 Intervalov´e odhady parametr˚ u N(µ, σ 2 ) . . . . . 2.6.1 Intervalov´ y odhad stˇredn´ı hodnoty . . . 2.6.2 Intervalov´ y odhad rozptylu . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
5 5 5 6 7 8
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
11 11 11 12 12 12 13 13 14
3 Intervalov´ e odhady a testy hypot´ ez zaloˇ zen´ e na CLV 3.1 CLV intervalov´e odhady . . . . . . . . . . . . . . . . . 3.1.1 CLV intervalov´ y odhad stˇredn´ı hodnoty . . . . . 3.1.2 CLV intervalov´ y odhad rozptylu . . . . . . . . . 3.2 CLV testov´an´ı hypot´ez . . . . . . . . . . . . . . . . . . 3.2.1 CLV testy o stˇredn´ı hodnotˇe . . . . . . . . . . . 3.2.2 CLV testy o rozptylu . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
15 15 15 17 20 21 22
. . . .
23 23 24 26 26
. . . . . . . .
. . . . . . . .
4 Uˇ zit´ı CLV intervalov´ ych odhad˚ u a CLV test˚ u 4.1 Data z norm´aln´ıho rozdˇelen´ı . . . . . . . . . . √ . . . 4.2 Data z Laplaceova rozdˇelen´ı s parametry 0 a 1/ 2 . 4.3 Data z Laplaceova rozdˇelen´ı s parametry 0 a 1 . . . 4.4 Re´aln´a data . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Z´ avˇ er
28
Pˇ r´ılohy
29
Literatura
32
´ Uvod Pˇredloˇzen´a pr´ace se zab´ yv´a problematikou testov´an´ı hypot´ez s d˚ urazem poloˇzen´ ym na asymptotick´e chov´an´ı posloupnost´ı n´ahodn´ ych veliˇcin a na tzv. asymptotick´e testy. V´ ysledky zde uveden´e se t´ ykaj´ı pˇredevˇs´ım intervalov´ ych odhad˚ u a test˚ u hypot´ez o stˇredn´ı hodnotˇe a rozptylu veliˇcin n´ahodn´eho v´ ybˇeru. Prvn´ı kapitola je vˇenov´ana z´akladn´ım pojm˚ um, uˇzit´emu znaˇcen´ı a vybran´ ym tvrzen´ım teorie pravdˇepodobnosti a matematick´e statistiky, kter´e jsou v dalˇs´ım textu uˇz´ıv´any. Protoˇze v problematice asymptotick´eho chov´an´ı n´ahodn´eho v´ ybˇeru hraje velkou d˚ uleˇzitost norm´aln´ı rozdˇelen´ı, je uvedena jeho definice a z´akladn´ı vztah k dalˇs´ım d˚ uleˇzit´ ym statistick´ ym rozdˇelen´ım. Asymptotick´e chov´an´ı posloupnosti n´ahodn´ ych veliˇcin stoj´ı na dvou z´akladn´ıch pil´ıˇr´ıch - z´akonech velk´ ych ˇc´ısel a centr´aln´ıch limitn´ıch vˇet´ach. Tato z´akladn´ı tvrzen´ı jsou v u ´vodn´ı kapitole uvedena v nˇekolika formulac´ıch, na nichˇz se stav´ı v tˇret´ı kapitole. Druh´a kapitola uv´ad´ı pˇrehled nˇekter´ ych d˚ uleˇzit´ ych pojm˚ u z oblasti intervalov´ ych odhad˚ u a testov´an´ı hypot´ez. Jsou zde uvedeny tak´e poznatky o tˇechto pojmech, kter´e jsou podstatn´e z hlediska dalˇs´ıho textu. Ve tˇret´ı kapitole se zamˇeˇr´ıme na problematiku asymptotick´ ych test˚ u vych´azej´ıc´ıch z poznatk˚ u o asymptotick´em chov´an´ı posloupnost´ı n´ahodn´ ych veliˇcin. Jsou v n´ı zkonstruov´ana testov´a krit´eria a asymptotick´e intervalov´e odhady veliˇcin n´ahodn´eho v´ ybˇeru, kter´ y nen´ı nutnˇe v´ ybˇerem z norm´aln´ıho rozdˇelen´ı, avˇsak pro rostouc´ı rozsah v´ ybˇeru se mu sv´ ym chov´an´ı pˇribliˇzuje. ˇ Ctvrt´a kapitola ilustruje pouˇzit´ı sestrojen´ ych asymptotick´ ych intervalov´ ych odhad˚ u a testov´ ych krit´eri´ı na konkr´etn´ıch datech. Na generovan´ ych datech, u kter´ ych zn´ame stˇredn´ı hodnotu a rozptyl, jsou studov´any odliˇsnosti CLV intervalov´ ych odhad˚ u a odhad˚ u pˇri norm´aln´ım rozdˇelen´ı. Na re´aln´ ych datech pak aplikujeme asymptotick´a testov´a krit´eria. V t´eto pr´aci jsem vˇetˇsinu tradiˇcn´ıch vˇet matematick´e statistiky a teorie pravdˇepodobnosti uveden´ ych v prvn´ıch dvou kapitol´ach nedokazoval. M´ısto d˚ ukaz˚ u tˇechto tvrzen´ı jsou uvedeny odkazy na literaturu, kde lze pˇr´ısluˇsn´e d˚ ukazy nal´ezt. Dok´az´any jsou vˇsak tvrzen´ı uveden´a v kapitole o asymptotick´ ych testech, kter´a je pro tuto pr´aci u ´stˇredn´ı.
1 Teoretick´ e z´ aklady V t´eto kapitole zavedeme z´akladn´ı pojmy teorie pravdˇepodobnosti a matematick´e statistiky, kter´e v dalˇs´ım textu pouˇzijeme. Uvedeme z´akladn´ı teoretick´e poznatky, jako jsou z´akony velk´ ych ˇc´ısel a centr´aln´ı limitn´ı vˇety. Mnoho d˚ uleˇzit´ ych pojm˚ u a poznatk˚ u z teorie pravdˇepodobnosti a statistiky, kter´e v dalˇs´ıch textu pouˇzijeme, vˇsak nebudeme uv´adˇet. Jsou obecnˇe zn´am´e a v literatuˇre snadno dohledateln´e.
1.1
Pojmy a znaˇ cen´ı
V cel´em textu pracujeme pouze s re´aln´ ymi n´ahodn´ ymi veliˇcinami a re´aln´ ymi n´ahodn´ ymi vektory, kter´e jsou definov´any na klasick´em pravdˇepodobnostn´ım prostoru (Ω, A, P). N´ahodn´e veliˇciny znaˇc´ıme X, Y, . . . zat´ımco pro n´ahodn´e vektory pouˇz´ıv´ame tuˇcn´e p´ısmo X, Y , . . . Necht’ X je n´ahodn´a veliˇcina. Pak symbolem PX oznaˇcujeme rozdˇelen´ı n´ahodn´e veliˇciny X, tj. pravdˇepodobnostn´ı m´ıru indukovanou n´ahodnou veliˇcinou X definovanou vztahem PX (B) = P(X −1 (B)) pro vˇsechny B ⊂ R. Skuteˇcnost, ˇze n´ahodn´a veliˇcina m´a rozdˇelen´ı PX znaˇc´ıme X ∼ PX , kde PX vˇetˇsinou nahrazujeme symbolem pro konkr´etn´ı rozdˇelen´ı. Distribuˇcn´ı funkci n´ahodn´e veliˇciny X rozum´ıme funkci FX : R → [0, 1], kter´a je definov´ana vztahem FX (x) = P(X ≤ x), x ∈ R. Symbolem EX (nebo tak´e µ) oznaˇcujeme stˇredn´ı hodnotu n´ahodn´e veliˇciny √ X a varX znaˇc´ı jej´ı rozptyl. Rozptyl 2 ˇcasto znaˇc´ıme tak´e σ a smˇerodatnou odchylku varX znaˇc´ıme σ.
1.2
Norm´ aln´ı rozdˇ elen´ı
T´ematem pr´ace jsou asymptotick´e testy a s tˇemi se u ´zce v´aˇze norm´aln´ı rozdˇelen´ı. ’ Uved me jeho definici pomoc´ı hustoty: (x − µ)2 1 exp − , x ∈ R. f (x) = √ 2σ 2 2πσ 2 Skuteˇcnost, ˇze n´ahodn´a veliˇcina m´a norm´aln´ı rozdˇelen´ı s parametry µ a σ 2 znaˇc´ıme X ∼ N(µ, σ 2 ). Pokud je µ = 0 a σ 2 = 1, mluv´ıme o normovan´em norm´aln´ım rozdˇelen´ı N(0, 1) a jeho hustotu znaˇc´ıme ϕ(x) a distribuˇcn´ı funkci Φ(x). Lze uk´azat, ˇze n´ahodn´a veliˇcina X ∼ N(µ, σ 2 ) m´a stˇredn´ı hodnotu µ a rozptyl σ 2 . Pro u ´ˇcely testov´an´ı hypot´ez a intervalov´e odhady jsou velmi d˚ uleˇzit´a i nˇekter´a dalˇs´ı rozdˇelen´ı. Jedn´a se pˇredevˇs´ım o χ2 -rozdˇelen´ı a Studentovo t-rozdˇelen´ı. Zaved’me znaˇcen´ı
1.3. KVANTILY
6
Gn (x) pro distribuˇcn´ı funkci χ2n -rozdˇelen´ı o n stupn´ıch volnosti a Hn (x) pro distribuˇcn´ı funkci tn -rozdˇelen´ı o n stupn´ıch volnosti. Mezi norm´aln´ım rozdˇelen´ım a χ2n resp. tn rozdˇelen´ımi plat´ı d˚ uleˇzit´e vztahy popsan´e v n´asleduj´ıc´ıch dvou vˇet´ach. Vˇ eta 1.1. Necht’ X1 , .P . . , Xn jsou nez´ avisl´e n´ ahodn´e veliˇciny s normovan´ym norm´aln´ım n 2 2 a χn -rozdˇelen´ı. rozdˇelen´ım. Pak Z = k=1 Xk m´ D˚ ukaz. Viz [1], str. 67, vˇeta 4.13. Vˇ eta 1.2. avisl´e n´ ahodn´e veliˇciny, X ∼ N(0, 1), Z ∼ χ2k . Pak √ Necht’ X a Z jsou nez´ X Y = √Z k m´a tk -rozdˇelen´ı. D˚ ukaz. Viz [1], str. 74, vˇeta 4.22.
1.3
Kvantily
Necht’ F je distribuˇcn´ı funkce nˇejak´e n´ahodn´e veliˇciny. Zaved’me na otevˇren´em intervalu (0, 1) funkci F −1 pˇredpisem F −1 (u) = inf{x : F (x) ≥ u}. Tuto funkci budeme naz´ yvat kvantilov´ a funkce odpov´ıdaj´ıc´ı distribuˇcn´ı funkci F . Hodnot´am F −1 (u) se ˇr´ık´a kvantily. Je-li F rostouc´ı funkce, je F −1 obyˇcejn´a inverzn´ı funkce. Zaved’me nyn´ı symboliku pro oznaˇcen´ı kvantil˚ u nejd˚ uleˇzitˇejˇs´ıch rozdˇelen´ı. Budeme se 2 zab´ yvat normovan´ ym norm´aln´ım rozdˇelen´ım, χn -rozdˇelen´ım a tn -rozdˇelen´ım. Norm´aln´ı a tn rozdˇelen´ı maj´ı nenulov´e a spojit´e hustoty na cel´e re´aln´e ose a proto jsou distribuˇcn´ı funkce Φ(x) a Hn (x) spojit´e a ryze monot´onn´ı funkce. Distribuˇcn´ı funkce Gn (x) je ryze monot´onn´ı na [0, ∞). Budeme pouˇz´ıvat n´asleduj´ıc´ı znaˇcen´ı: uα := Φ−1 (α)
pro α-kvantil normovan´eho norm´aln´ıho rozdˇelen´ı
χα,n := G−1 n (α)
pro α-kvantil χ2n -rozdˇelen´ı
tα,n := Hn−1 (α)
pro α-kvantil tn -rozdˇelen´ı
Protoˇze hustoty norm´aln´ıho a tn rozdˇelen´ı jsou sud´e funkce, dost´av´ame pro jejich kvantily vztahy uα = −u1−α , tα,n = −t1−α,n ,
α ∈ (0, 1), α ∈ (0, 1).
Pro norm´aln´ı, tn a χ2n rozdˇelen´ı nav´ıc plat´ı n´asleduj´ıc´ı vˇeta, kter´a n´am d´av´a moˇznost aproximovat distribuˇcn´ı funkce Gn (x) a Hn (x) pomoc´ı Φ(x).
´ ´ ˇ ´ISEL 1.4. ZAKON VELKYCH C
7
Vˇ eta 1.3. Pro distribuˇcn´ı funkce χ2n a tn rozdˇelen´ı plat´ı n´ asleduj´ıc´ı vztahy. √ lim Gn (n + x 2n) = Φ(x), x∈R n→∞
lim Hn (x) = Φ(x),
n→∞
x ∈ R.
D˚ ukaz. Viz [2], str. 108, vˇeta 5.5. . D˚ usledkem√vˇety 1.3 je, ˇze pro kvantily pˇri velk´ ych n plat´ı aproximace tα,n = uα a . χ2α,n = n + uα 2n.
1.4
Z´ akon velk´ ych ˇ c´ısel
ˇ jsou d˚ uleˇzit´ ym teoretick´ ym n´astrojem a my je uˇzijeme Tzv. z´akony velk´ ych ˇc´ısel (ZVC) pˇri odvozov´an´ı asymptotick´ ych intervalov´ ych odhad˚ u. Uved’me nejprve definici konvergence skoro jistˇe a konvergenci v pravdˇepodobnosti posloupnosti n´ahodn´ ych veliˇcin. Definice 1.4. Necht’ je d´an pravdˇepodobnostn´ı prostor (Ω, A, P) a necht’ posloupnost ahodn´a veliˇcina X jsou definovany na (Ω, A, P). n´ahodn´ ych veliˇcin {Xn }∞ n=1 a n´ ˇ i) Rekneme, ˇze Xn konverguj´ı skoro jistˇ e (s.j.) k X, jestliˇze lim Xn (ω) = X(ω) n→∞
s.j.
pro vˇsechna ω ∈ A, kde A ∈ A takov´a, ˇze P (A) = 1. Znaˇc´ıme Xn −−−→ X. n→∞
ˇ ii) Rekneme, ˇze Xn konverguj´ı k X v pravdˇ epodobnosti, jestliˇze pro kaˇzd´e P > 0 plat´ı lim P(|Xn − X| > ) = 0. Znaˇc´ıme Xn −−−→ X. n→∞
n→∞
Vˇ eta 1.5. Jsou-li X a Xn , n ∈ N n´ ahodn´e veliˇciny, pak plat´ı s.j.
P
n→∞
n→∞
Xn −−−→ X ⇒ Xn −−−→ X. D˚ ukaz. Viz [3], str. 34, vˇeta 6.7. Plat´ı n´asleduj´ıc´ı vˇety, kter´e ˇr´ıkaj´ı, ˇze spojit´e transformace n´ahodn´ ych veliˇcin zachov´avaj´ı konvergenci v pravdˇepodobnosti a konvergenci skoro jistˇe. Analogick´e vˇety lze formulovat i pro n´ahodn´e vektory. Vˇ eta 1.6. Necht’ Tn , n ∈ N je posloupnost n´ ahodn´ych veliˇcin a necht’ tato posloupnost konverguje v pravdˇepodobnosti k η. Necht’ h : R → R je spojit´ a funkce. Pak plat´ı P
h(Tn ) −−−→ h(η). n→∞
D˚ ukaz. Viz [4], str. 433, lemma 1.9.
´ ´I LIMITN´I VETY ˇ 1.5. CENTRALN
8
D˚ usledek 1.7. Necht’ Un , n ∈ N je posloupnost n´ ahodn´ych veliˇcin a necht’ Un konverguje skoro jistˇe k η. Necht’ h : R → R je spojit´ a funkce. Pak plat´ı s.j.
h(Tn ) −−−→ h(η).
(1.1)
n→∞
D˚ ukaz. Protoˇze podle vˇety 1.5 kaˇzd´a posloupnost n´ahodn´ ych veliˇcin, kter´a konverguje skoro jistˇe, konverguje i v pravdˇepodobnosti, plyne tvrzen´ı (1.1) z vˇety 1.6. Vˇ eta 1.8 (Siln´ y z´ akon velk´ ych ˇ c´ısel). Necht’ Xn , n ∈ N je posloupnost nez´avisl´ych n´ ahodn´ych veliˇcin s koneˇcn´ym rozptylem. Necht’ jsou d´ ana ˇc´ısla 0 < b1 ≤ b2 ≤ . . ., pro n→∞ kter´a plat´ı bn −−−→ ∞ a ∞ X varXk k=1
b2k
< ∞.
Potom n 1 X s.j. (Xk − EXk ) −−−→ 0. n→∞ bn k=1
D˚ ukaz. Viz [3], str. 70, vˇeta 12.1 Vˇ eta 1.9 (Siln´ y z´ akon pro stejnˇ e rozdˇ elen´ e n´ ahodn´ e veliˇ ciny). Necht’ {Xn }∞ n=1 je posloupnost nez´avisl´ych stejnˇe rozdˇelen´ych n´ ahodn´ych veliˇcin. Pak s.j. ¯ n −− X −→ µ n→∞
pro nˇejak´e µ ∈ R, pr´avˇe tehdy, kdyˇz E|X1 | < ∞. Potom tak´e plat´ı µ = EX1 . D˚ ukaz. Viz [5], str. 336, vˇeta 3.
1.5
Centr´ aln´ı limitn´ı vˇ ety
Centr´aln´ı limitn´ı vˇety (CLV) formulujeme pomoc´ı konvergence posloupnosti n´ahodn´ ych vektor˚ u (veliˇcin) v distribuci. Definice 1.10. Oznaˇcme Fn , n ∈ N distribuˇcn´ı funkce n´ahodn´ ych veliˇcin Xn , n ∈ N. ˇ Rekneme, ˇze n´ahodn´e veliˇciny Xn , n ∈ N konverguj´ı v distribuci k n´ahodn´e veliˇcinˇe X s distribuˇcn´ı funkc´ı F , jestliˇze Fn (x) konverguj´ı k F (x) bodovˇe v kaˇzd´em bodˇe D spojitosti funkce F . Tuto skuteˇcnost pak znaˇc´ıme Xn −−−→ X. n→∞
CLV se t´ ykaj´ı konvergence v distribuci k n´ahodn´e veliˇcinˇe s norm´aln´ım rozdˇelen´ım. Protoˇze distribuˇcn´ı funkce norm´aln´ıho rozdˇelen´ı Φ(x) je spojit´a v kaˇzd´em bodˇe x ∈ R,
´ ´I LIMITN´I VETY ˇ 1.5. CENTRALN
9
jedn´a se o konvergenci distribuˇcn´ıch funkc´ı bodovˇe na cel´em R. Pokud posloupnost n´ahodn´ ych veliˇcin {Xn }∞ ahodn´e veliˇcinˇe s norm´aln´ım rozdˇelen´ım o n=1 konverguje k n´ 2 parametrech µ a σ , pak ˇr´ık´ame, ˇze m´a asymptotick´e norm´aln´ı rozdˇelen´ı a budeme pouˇz´ıvat znaˇcen´ı D Xn −−−→ N(µ, σ 2 ). n→∞
Uved’me nejprve obecnou verzi CLV. Vˇ eta 1.11 (Ljapunovova CLV). Necht’ Xn1 ,. . . ,Xnkn jsou nez´ avisl´e n´ ahodn´e veliˇciny, n ∈ N; oznaˇcme EXni = µni ,
2 varXni = σni ,
E|Xni − EXni |3 = ρ3ni , i = 1, ..., kn
Pkn (Xni − µni ) qP Zn = i=1 kn 2 i=1 σni Necht’ je splnˇeno P n 3 1/3 ρ ) ( ki=1 = 0. lim Pkn ni 2 1/2 n→∞ ( i=1 σni ) Potom plat´ı D
Zn −−−→ N(0, 1). n→∞
D˚ ukaz. Viz [2], str. 81, vˇeta 4.9. N´asleduj´ıc´ı vˇetu pouˇzijeme pˇri konstrukci intervalov´eho odhadu stˇredn´ı hodnoty. D Vˇ eta 1.12. Necht’ Zn −−−→ N(0, 1) a necht’ je d´ ana posloupnost n´ ahodn´ych veliˇcin n→∞
{Yn }n∈N , pro niˇz existuje a ∈ R takov´e, ˇze plat´ı P
Yn −−−→ a. n→∞
(1.2)
Pak plat´ı D
Zn + Yn −−−→ N(a, 1). n→∞
(1.3)
Je-li nav´ıc a > 0, pak D
Zn Yn −−−→ N(0, a2 ). n→∞
(1.4)
´ ´I LIMITN´I VETY ˇ 1.5. CENTRALN
10
D˚ ukaz. Viz [2], str. 87-88, vˇeta 4.14. Uved’me jeˇstˇe jednu verzi CLV. Tato formulace poch´azej´ıc´ı od finsk´eho matematika J.W. Lindeberga se uplatˇ nuje pˇredevˇs´ım ve statistice pˇri pr´aci s posloupnost´ı stejnˇe rozdˇelen´ ych nez´avisl´ ych veliˇcin. Vˇ eta 1.13 (Lindebergova CLV). Necht’ Xn , n ∈ N jsou nez´ avisl´e stejnˇe rozdˇelen´e n´ ahodn´e veliˇciny se stˇredn´ı hodnotou µ a s koneˇcn´ym rozptylem σ 2 . Oznaˇcme Pn (Xk − µ) . Zn = k=1 √ σ n Potom plat´ı D
Zn −−−→ N(0, 1). n→∞
D˚ ukaz. Viz [3], str. 101, vˇeta 17.4.
2 Testov´ an´ı hypot´ ez a statistick´ e odhady 2.1
N´ ahodn´ y v´ ybˇ er
Pˇri testov´an´ı hypot´ez o parametrech rozdˇelen´ı pracujeme se souborem dat. Tato data se nejˇcastˇeji reprezentuj´ı pomoc´ı n´ahodn´ ych veliˇcin respektive n´ahodn´ ych vektor˚ u, u nichˇz pˇredpokl´ad´ame stejn´e rozdˇelen´ı a nez´avislost. Definice 2.1. N´ ahodn´ y v´ ybˇ er je n-tice nez´avisl´ ych n´ahodn´ ych veliˇcin (resp. vektor˚ u) ˇ X1 , . . . , Xn se stejn´ ym rozdˇelen´ım a tedy se stejnou distribuˇcn´ı funkc´ı F . C´ıslo n se naz´ yv´a rozsah v´ ybˇ eru. D´ale definujme veliˇciny v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerov´ y rozptyl, kter´e n´am poslouˇz´ı pˇri odhadov´an´ı stˇredn´ı hodnoty a rozptylu veliˇcin n´ahodn´eho v´ ybˇeru. Definice 2.2. Necht’ je d´an n´ahodn´ y v´ ybˇer X1 , . . . , Xn . Poloˇzme n
X ¯n = 1 Xk , X n k=1
n
1 X ¯ n )2 . S = (Xk − X n − 1 k=1 2
¯ n naz´ Veliˇcinu X yv´ame v´ ybˇ erov´ y pr˚ umˇ er a S 2 naz´ yv´ame v´ ybˇ erov´ y rozptyl.
2.2
Pojmy testov´ an´ı hypot´ ez
Pˇredpokl´adejme, ˇze X1 , . . . , Xn je n´ahodn´ y v´ ybˇer z rozdˇelen´ı, kter´e je prvkem rodiny k {Fθ ; θ ∈ Θ}, kde Θ ∈ B(R ). D´ale pˇredpokl´adejme, ˇze o parametru θ tohoto rozdˇelen´ı existuj´ı dvˇe konkuruj´ıc´ı si hypot´ezy. Nulov´ a hypot´ eza H0 ˇr´ık´a, ˇze θ ∈ Θ0 (Θ0 ⊂ Θ), a podle alternativn´ı hypot´ ezy H1 plat´ı θ ∈ Θ1 (Θ1 = Θ − Θ0 ). Testem nulov´e hypot´ezy H0 proti alternativn´ı hypot´eze H1 rozum´ıme rozhodovac´ı postup zaloˇzen´ y na n´ahodn´em v´ ybˇeru X = (X1 , . . . , Xn )T , na jehoˇz z´akladˇe zam´ıtneme nebo nezam´ıtneme platnost hypot´ezy H0 . Kritick´ ych oborem testu je mnoˇzina W ⊂ n R , kterou vol´ıme tak, aby pro pˇredem zvolen´e α ∈ (0, 1) platilo Pθ (X ∈ W ) ≤ α pro vˇsechna θ ∈ Θ0 . Hypot´ezu H0 zam´ıt´ame plat´ı-li X ∈ W . Jinak hypot´ezu H0 nezam´ıt´ame. Hodnota supθ∈Θ0 P(X ∈ W ) se naz´ yv´a hladina testu.
´ EROV ˇ ´ CHARAKTERISTIKY PRI ˇ ROZDELEN ˇ ´I N(µ, σ 2 ) 2.3. VYB E
2.3
12
V´ ybˇ erov´ e charakteristiky pˇ ri rozdˇ elen´ı N(µ, σ 2)
Vlastnosti plynouc´ı z n´asleduj´ıc´ı vˇety maj´ı z´asadn´ı v´ yznam pro testov´an´ı hypot´ez o stˇredn´ı hodnotˇe a rozptylu rozdˇelen´ı veliˇcin n´ahodn´eho v´ ybˇeru z norm´aln´ıho rozdˇelen´ı. Vˇ eta 2.3. Necht’ X1 , . . . , Xn je n´ ahodn´y v´ybˇer z N(µ, σ 2 ). Potom plat´ı: ¯ n ∼ N(µ, σ2 ); i) X n
ii) je-li n > 1 a σ 2 > 0, pak (n − 1)S 2 /σ 2 ∼ χ2n−1 ; √ ¯ iii) je-li n > 2 a σ 2 > 0, pak XSnn−µ n ∼ tn−1 . D˚ ukaz. Viz [1], tvrzen´ı i), ii) viz str. 70, vˇeta 4.21 a tvrzen´ı iii) viz str. 74, vˇeta 4.23.
2.4
Bodov´ y odhad
Pˇredpokl´ad´ame, ˇze X = X1 , . . . , Xn je n´ahodn´ y vektor, jehoˇz sloˇzky tvoˇr´ı n´ahodn´ y v´ ybˇer z rozdˇelen´ı, kter´e z´avis´ı na parametru θ. Parametrickou funkc´ı nazveme kaˇzdou borelovsky mˇeˇritelnou funkci g : Θ → R. Bodov´ y odhad parametrick´e funkce g(θ) je jak´akoliv borelovsk´a funkce φ(X), jej´ıˇz funkˇcn´ı pˇredpis nez´avis´ı na parametru θ. Definice 2.4. Odhad φ(X1 , . . . , Xn ) parametrick´e funkce g(θ) nazveme nestrann´ ym, jestliˇze Eθ φ(X1 , . . . , Xn ) = g(θ) pro vˇsechna θ. Odhad φn (X1 , . . . , Xn ) parametrick´e funkce g(θ) nazveme konzistentn´ım odhadem, jestliˇze pro vˇsechna θ ∈ Θ plat´ı Pθ ( lim φn (X1 , . . . , Xn ) = g(θ)) = 1.
(2.1)
n→∞
Konzistence bodov´eho odhadu znamen´a, ˇze odhad φn s rostouc´ım n konverguje k odhadovan´emu parametru. Konzistence odhadu zaruˇcuje, ˇze jsme schopni zvˇetˇsov´an´ım poˇctu mˇeˇren´ı zpˇresˇ novat naˇse znalosti o odhadovan´em parametru θ a ˇze jsme schopni dalˇs´ımi mˇeˇren´ımi sn´ıˇzit chybu odhadu pod libovolnˇe malou pˇredem stanovenou mez. ¯ n a S 2 . Je-li X1 , . . . , Xn n´ahodn´ Pro n´as jsou d˚ uleˇzit´e pˇredevˇs´ım odhady X y v´ ybˇer n ¯ n je nestrann´ym a konzisz rozdˇelen´ı s koneˇcn´ ym rozptylem, pak v´ ybˇerov´ y pr˚ umˇer X tentn´ım odhadem stˇredn´ı hodnoty n´ahodn´eho v´ ybˇeru a v´ ybˇerov´ y rozptyl Sn2 je nestrann´ym a konzistentn´ım odhadem rozptylu n´ahodn´eho v´ ybˇeru. (Viz [2], str. 95, vˇeta 5.1)
2.5
Intervalov´ y odhad
Mˇejme n´ahodn´ y v´ ybˇer X1 , . . . , Xn , jehoˇz rozdˇelen´ı z´avis´ı na parametru θ a necht’ je ˇ d´ano α ∈ (0, 1). Rekneme, ˇze (φL , φU ) je intervalov´ y odhad g(θ) o spolehlivosti 1 − α, jestliˇze plat´ı Pθ (φL (X1 , . . . , Xn ) < g(θ) < φU (X1 , . . . , Xn )) = 1 − α,
θ ∈ Θ.
´ ODHADY PARAMETRU ˚ N(µ, σ 2 ) 2.6. INTERVALOVE
13
Intervalov´e odhady parametr˚ u n´ahodn´eho v´ ybˇeru m˚ uˇzeme pouˇz´ıt pˇri konstruov´an´ı testov´ ych krit´eri´ı pro testy hypot´ez o tˇechto parametrech. Necht’ X = (X1 , . . . , Xn ) je n´ahodn´ y v´ ybˇer z rozdˇelen´ı, kter´e z´avis´ı na parametru θ ∈ Θ ⊂ Rk a necht’ g(θ) je parametrick´a funkce. Necht’ jsou d´ale d´any hypot´ezy H0 : g(θ) = γ0 a H1 : g(θ) 6= γ0 . Je-li (φL (X), φU (X)) intervalov´ y odhad parametrick´e funkce g(θ) o spolehlivosti 1 − α, n pak pro W := {X ∈ R ; γ0 ∈ / (φL (X), φU (X))} plat´ı Pθ (X ∈ W ) = α a W je tedy kritick´ y obor testu hypot´ezy H0 proti H1 na hladinˇe α. Hypot´ezu H0 proto zam´ıt´ame, pokud plat´ı γ0 ∈ / (φL (X), φU (X)).
2.6
Intervalov´ e odhady parametr˚ u N(µ, σ 2)
Pˇredpokl´adejme, ˇze X1 , . . . , Xn je n´ahodn´ y v´ ybˇer z norm´aln´ıho rozdˇelen´ı N(µ, σ 2 ). V definici norm´aln´ıho rozdˇelen´ı vystupuj´ı dva parametry: µ (stˇredn´ı hodnota) a σ 2 (rozptyl). Nyn´ı uvedeme intervalov´e odhady pro parametry µ a σ 2 .
2.6.1
Intervalov´ y odhad stˇ redn´ı hodnoty
Intervalov´ y odhad stˇredn´ı hodnoty µ konstruujeme bud’ za pˇredpokl´adan´e znalosti parametru σ 2 , nebo v situaci, kdy σ 2 je nezn´am´a veliˇcina. Intervalov´ y odhad µ pˇ ri zn´ am´ em σ 2 Pokud zn´ame parametr σ 2 , pak aplikac´ı vˇety 2.3, tvrzen´ı i) sestroj´ıme intervalov´ y odhad parametru µ o spolehlivosti 1 − α ve tvaru: σ σ ¯ ¯ (2.2) Xn − u1−α/2 √ , Xn + u1−α/2 √ n n ¯ n − u1−α σ/√n a horn´ı intervalov´ ¯n + Doln´ ı intervalov´ y odhad µ je X y odhad je X √ u1−α σ/ n. Spolehlivost obou tˇechto jednostrann´ ych intervalov´ ych odhad˚ u je 1 − α.
Intervalov´ y odhad µ pˇ ri nezn´ am´ em σ 2 Pˇredpokl´ad´ame-li, ˇze je σ 2 nezn´am´a veliˇcina, pouˇzijeme jako jej´ı odhad v´ ybˇerov´ y roz2 ptyl Sn a na z´akladˇe bodu iii) vˇety 2.3 sestav´ıme intervalov´ y odhad parametru µ o spolehlivosti 1 − α ve tvaru: Sn ¯ Sn ¯ Xn − t1−α/2,n−1 √ , Xn + t1−α/2,n−1 √ . (2.3) n n Doln´ı intervalov´ y odhad a horn´ı intervalov´ y odhad se z (2.3) lehce odvod´ı a nebudeme je proto uv´adˇet.
´ ODHADY PARAMETRU ˚ N(µ, σ 2 ) 2.6. INTERVALOVE
2.6.2
14
Intervalov´ y odhad rozptylu
M´ame-li sestrojit intervalov´ y odhad rozptylu n´ahodn´eho v´ ybˇeru z norm´aln´ıho rozdˇelen´ı, podobnˇe jako u intervalov´ ych odhad˚ u stˇredn´ı hodnoty, i zde pracujeme se dvˇema r˚ uzn´ ymi situacemi - bud’ µ zn´ame nebo µ nezn´ame. Intervalov´ y odhad σ 2 pˇ ri nezn´ am´ em µ Pˇredpokl´ad´ame-li neznalost parametru µ, uˇzit´ım bodu ii) vˇety 2.3 dost´av´ame pro σ 2 intervalov´ y odhad o spolehlivosti 1 − α ve tvaru ! (n − 1)Sn2 (n − 1)Sn2 , . (2.4) χ21−α/2,n−1 χ2α/2,n−1 Intervalov´ y odhad σ 2 pˇ ri zn´ am´ em µ V pˇr´ıpadˇe, ˇze parametr µ zn´ame, m˚ uˇzeme pˇri odhadov´ an´ı σ 2 nam´ısto statistiky Sn2 P vyuˇz´ıt pˇresnˇejˇs´ı odhad rozptylu ve tvaru Kn2 = n1 nk=1 (Xk − µ)2 a dost´av´ame pro σ 2 intervalov´ y odhad o spolehlivosti 1 − α ve tvaru ! nKn2 nKn2 , . (2.5) χ21−α/2,n χ2α/2,n
3 Intervalov´ e odhady a testy hypot´ ez zaloˇ zen´ e na CLV V pˇredch´azej´ıc´ı kapitole jsme uvedli intervalov´e odhady stˇredn´ı hodnoty a rozptylu veliˇcin n´ahodn´eho v´ ybˇeru z norm´aln´ıho rozdˇelen´ı. V t´eto kapitole sestav´ıme intervalov´e odhady pro stˇredn´ı hodnoty a rozptyl obecnˇejˇs´ıch n´ahodn´ ych v´ ybˇer˚ u, u nichˇz vypust´ıme pˇredpoklad normality jejich rozdˇelen´ı. Pˇri sestavov´an´ı tˇechto intervalov´ ych odhad˚ u vyuˇzijeme limitn´ıho chov´an´ı n´ahodn´ ych v´ ybˇer˚ u, kter´e plyne z CLV, a proto jim budeme ˇr´ıkat CLV intervalov´e odhady.
3.1
CLV intervalov´ e odhady
Mˇejme d´an n´ahodn´ y v´ ybˇer X = (X1 , . . . , Xn ) z rozdˇelen´ı s distribuˇcn´ı funkc´ı Fµ,σ2 , kter´a z´avis´ı na parametrech µ a σ 2 , kde µ je stˇredn´ı hodnota a σ 2 je rozptyl. Necht’ nav´ıc σ 2 ∈ (0, ∞). Poznamenejme, ˇze toto rozdˇelen´ı nemus´ı splˇ novat ani poˇzadavek spojitosti a ryz´ı monotonie distribuˇcn´ı funkce, m˚ uˇze b´ yt i diskr´etn´ı. Stejnˇe jako u intervalov´ ych odhad˚ u pro parametry norm´aln´ıho rozdˇelen´ı, i v pˇr´ıpadˇe CLV intervalov´ ych odhad˚ u parametr˚ u µ a σ 2 budeme rozliˇsovat mezi situac´ı, kdy pˇri odhadov´an´ı jednoho z parametr˚ u pˇredpokl´ad´ame znalost druh´eho z nich, a situac´ı, kdy tuto znalost nepˇredpokl´ad´ame. CLV intervalov´e odhady, kter´e v t´eto kapitole uvedeme, budou m´ıt na rozd´ıl od intervalov´ ych odhad˚ u z´ıskan´ ych za pˇredpokladu normality hladinu spolehlivosti rovnou ˇ y 1 − α pouze pˇribliˇznˇe. Rekneme, ˇze (φLn (X1 , . . . , Xn ), φUn (X1 , . . . , Xn )) je intervalov´ odhad parametrick´e funkce g(θ) o asymptotick´ e spolehlivosti 1 − α, jestliˇze plat´ı n→∞ Pθ φLn (X1 , . . . , Xn ) < g(θ) < φUn (X1 , . . . , Xn ) −−−→ 1 − α, θ ∈ Θ.
3.1.1
CLV intervalov´ y odhad stˇ redn´ı hodnoty
Uved’me nejprve CLV intervalov´ y odhad pro parametr µ. CLV intervalov´ y odhad µ pˇ ri zn´ am´ em σ 2 Pˇredpokl´ad´ame-li, ˇze rozptyl n´ahodn´eho v´ ybˇeru je zn´am´a konstanta, m˚ uˇzeme na z´akladˇe vˇety 1.13 pro v´ ybˇery velk´eho rozsahu pouˇz´ıt pˇr´ımo intervalov´ y odhad stˇredn´ı hodnoty norm´aln´ıho rozdˇelen´ı (2.2) a dost´av´ame pro parametr µ CLV intervalov´ y odhad o asymptotick´e spolehlivosti 1 − α ve tvaru √ √ ¯ n + u1−α/2 σ/ n . ¯ n − u1−α/2 σ/ n, X (3.1) X
´ ODHADY 3.1. CLV INTERVALOVE
16
CLV intervalov´ y odhad µ pˇ ri nezn´ am´ em σ 2 Necht’ je nyn´ı σ 2 nezn´am´a konstanta. Na z´akladˇe n´asleduj´ıc´ı vˇety m˚ uˇzeme v pintervalov´em odhadu (3.1) nahradit parametr σ jeho konzistentn´ım odhadem Sn = Sn2 . Vˇ eta 3.1. Necht’ X1 , X2 , X3 , . . . je n´ ahodn´y v´ybˇer se stˇredn´ı hodnotou EX1 = µ a 2 koneˇcn´ym rozptylem varX1 = σ . Pak Zn =
¯n − µ √ X D n −−−→ N(0, 1). n→∞ Sn
(3.2)
√ ¯ D˚ ukaz. Oznaˇcme θ = (µ, σ 2 ) a definujme n´ahodn´e veliˇciny Wn = Xnσ−µ n, n ∈ N. Podle vˇety 1.13 maj´ı Wn asymptoticky norm´aln´ı rozdˇelen´ı. V´ ybˇerov´ y rozptyl Sn2 je 2 konzistentn´ım odhadem parametru σ a proto podle (2.1) plat´ı n→∞
Yn = σ/Sn −−−→ 1
Pθ − s.j.
Tvrzen´ı (1.4) vˇety 1.12 d´av´a platnost Z n = W n Yn =
¯n − µ √ X D n −−−→ N(0, 1). n→∞ Sn
Na z´akladˇe vˇety 3.1 a intervalov´eho odhadu (2.2) dost´av´ame CLV intervalov´ y odhad pro µ o asymptotick´e spolehlivosti 1 − α ve tvaru √ √ ¯ n − u1−α/2 Sn / n, X ¯ n + u1−α/2 Sn / n . X (3.3) Pokud by n´as zaj´ımaly jednostrann´e intervalov´e odhady pro parametr µ (o asympto¯n − tick´e spolehlivosti 1 − α), lehce se odvod´ı doln´ı intervalov´ y √odhad ve tvaru X √ ¯ y odhad ve tvaru Xn + u1−α Sn / n. u1−α Sn / n a horn´ı intervalov´ Z naˇseho postupu odvozen´ı intervalov´eho odhadu (3.3) je jasn´e, ˇze obecnˇe bychom mohli za odhad parametru σ 2 vz´ıt jak´ ykoliv konzistentn´ı odhad, nikoliv pouze Sn2 . Toho vyuˇzijeme v n´asleduj´ıc´ıch odstavc´ıch, v kter´ ych uvedeme dva d˚ uleˇzit´e speci´aln´ı pˇr´ıpady uˇzit´ı asymptotick´eho chov´an´ı posloupnosti n´ahodn´ ych veliˇcin k odhadov´an´ı parametr˚ u alternativn´ıho a Poissonova rozdˇelen´ı. Alternativn´ı rozdˇ elen´ı Mˇejme n´ahodn´ y v´ ybˇer X1 , . . . , Xn z alternativn´ıho rozdˇelen´ı A(p). Pro X ∼ A(p) plat´ı ¯ n je konzistentn´ım odhadem parametru EX = p a varX = p(1 − p). V´ ybˇerov´ y pr˚ umˇer X ¯ n (1 − X ¯ n ) konzistentn´ı odhad rozptylu p(1 − p) a m˚ p. Proto je X uˇzeme jej pouˇz´ıt v CLV intervalov´em odhadu (3.3) m´ısto Sn a dostaneme intervalov´ y odhad parametr p o asymptotick´e spolehlivosti 1 − α ve tvaru ! r r ¯ n (1 − X ¯n) ¯ n (1 − X ¯n) X X ¯ n − u1−α/2 ¯ n + u1−α/2 X ,X . (3.4) n n
´ ODHADY 3.1. CLV INTERVALOVE
17
Pouˇzijme v´ ysledek (3.4) k intervalov´emu odhadnut´ı hodnoty P(Y > t0 ), t0 ∈ R, kde Y je nˇejak´a n´ahodn´a veliˇcina. Necht’ Y1 , . . . , Yn je n´ahodn´ y v´ ybˇer ze stejn´eho rozdˇelen´ı jako m´a n´ahodn´a veliˇcina Y . Definujme n´ahodn´e veliˇciny Xi , i = 1, . . . , n vztahem 1, kdyˇz Yi > t0 Xi = 0, kdyˇz Yi ≤ t0 . Z nez´avislosti veliˇcin n´ahodn´eho v´ ybˇeru Y1 , . . . , Yn plyne, ˇze n´ahodn´e veliˇciny X1 , . . . , Xn jsou tak´e nez´avisl´e a vˇsechny maj´ı alternativn´ı rozdˇelen´ı se stejn´ ym parametrem p, kde p = P(Y1 > t0 ) = . . . = P(Yn > t0 ) = P(Y > t0 ). Jako intervalov´ y odhad o asymptotick´e spolehlivosti 1 − α pro hodnotu P(Y > t0 ) m˚ uˇzeme pro velk´a n pouˇz´ıt intervalov´ y odhad pro parametr p alternativn´ıho rozdˇelen´ı n´ahodn´eho v´ ybˇeru X1 , . . . , Xn ve tvaru (3.4). Poissonovo rozdˇ elen´ı Necht’ je nyn´ı X1 , . . . , Xn n´ahodn´ y v´ ybˇer z Poissonova rozdˇelen´ı Po(λ). Pro X ∼ Po(λ) ¯ n je konzistentn´ım odhadem stˇredn´ı hodnoty n´ahodn´eho plat´ı EX = λ a varX = λ. X v´ ybˇeru i rozptylu λ. Podobnˇe jako v pˇredchoz´ım odstavci dost´av´ame pro λ CLV intervalov´ y odhad o asymptotick´e spolehlivosti 1 − α ve tvaru r ! r ¯ ¯ ¯ n + u1−α/2 Xn . ¯ n − u1−α/2 Xn , X (3.5) X n n
3.1.2
CLV intervalov´ y odhad rozptylu
Budeme pˇredpokl´adat, ˇze X1 , . . . , Xn je n´ahodn´ y v´ ybˇer z rozdˇelen´ı o nezn´am´ ych parametrech µ a σ 2 > 0, kde µ je stˇredn´ı hodnota a σ 2 je rozptyl. Necht’ d´ale plat´ı EX 4 < ∞. Oznaˇcme ν := var(X1 − µ)2 , τ 4 := E(X1 − µ)4 a Sn4 = (Sn2 )2 . Veliˇciny X1 , . . . , Xn jsou nez´avisl´e a stejnˇe rozdˇelen´e a tedy i ([X1 −µ]2 , . . . , [Xk −µ]2 ) jsou nez´avisl´e a stejnˇe rozdˇelen´e se stˇredn´ı hodnotou σ 2 a rozptylem ν. Pouˇzijeme-li zn´am´ y vzorec varX = EX 2 − (EX)2 , dostaneme ν = τ 4 − σ4. Z pˇredpokladu EX 4 < ∞ plyne koneˇcnost τ 4 , tedy i rozptylu ν. M˚ uˇzeme aplikovat vˇetu 1.13 a dostaneme Pn 2 2 D k=1 (Xk − µ) − nσ √ −−−→ N(0, 1). (3.6) n→∞ nν Vztah (3.6) n´am poslouˇz´ı jako v´ ychoz´ı bod naˇsich snah odvodit CLV intervalov´e odhady rozptylu. Budeme postupovat tak, ˇze v (3.6) nahrad´ıme nezn´am´e veliˇciny jejich vhodn´ ymi odhady.
´ ODHADY 3.1. CLV INTERVALOVE
18
CLV intervalov´ y odhad σ 2 pˇ ri zn´ am´ em µ Nejprve pˇri intervalov´em odhadov´an´ı σ 2 pˇredpokl´adejme znalost parametru µ. Abychom z´ıskali CLV intervalov´ y odhad σ 2 , pozmˇen´ıme levou stanu (3.6) tak, aby neobsahovala nezn´amou veliˇcinu ν. Jako odhad momentu ν pouˇzijeme statistiku n
1X νˆn = (Xk − µ)4 − Sn4 . n k=1 s.j.
s.j.
Z konvergence Sn2 −−−→ σ 2 dostaneme uˇzit´ım d˚ usledku 1.7 platnost Sn4 −−−→ σ 4 . n→∞ n→∞ Pn s.j. 1 4 4 Protoˇze tak´e plat´ı n k=1 (Xk − µ) −−−→ τ , plyne z vˇety 1.9, ˇze n→∞
s.j.
νˆn −−−→ ν. n→∞
(3.7)
Na lev´e stranˇe (3.6) m˚ uˇzeme podle vˇety 1.12 nahradit ν odhadem νˆn a konvergence lev´e ´ strany v distribuci k norm´aln´ımu rozdˇelen´ı bude zachov´ana. Upravou (3.6) dostaneme 2 CLV intervalov´ y odhad σ o asymptotick´e spolehlivosti 1 − α pˇri zn´am´em µ ve tvaru ! n n X p p 1X 1 (Xk − µ)2 − u1−α/2 νˆn /n, (Xk − µ)2 + u1−α/2 νˆn /n . (3.8) n k=1 n k=1 CLV intervalov´ y odhad σ 2 pˇ ri nezn´ am´ em µ Pokud pˇredpokl´ad´ame, ˇze µ je nezn´am´ y parametr, mus´ıme v intervalov´em odhadu (3.6) P kromˇe ν nahradit vhodnou statistikou tak´e nk=1 (Xk − µ)2 . Vˇ eta 3.2. Necht’ je d´ano m ∈ N a X1 , . . . , Xn je n´ ahodn´y v´ybˇer, kde EX1m < ∞. Potom plat´ı n
1X s.j. ¯ n )m −− (Xk − X −→ E(X1 − µ)m . n→∞ n k=1 D˚ ukaz. Plat´ı n n X 1X ¯ n )m = 1 ¯ n − µ)]m (Xk − X [(Xk − µ) − (X n k=1 n k=1 n m 1 XX j m ¯ n − µ)j = (−1) (Xk − µ)m−j (X n k=1 j=0 j n m n 1X 1 XX m j m ¯ n − µ)j = (Xk − µ) + (−1) (Xk − µ)m−j (X n k=1 n j=1 k=1 j m X j m = An + (−1) Bjn Cjn , j j=1
´ ODHADY 3.1. CLV INTERVALOVE
19
kde n
n
1X An = (Xk − µ)m , n k=1
¯ n − µ)j , = (X
Bjn
Cjn
1X = (Xk − µ)m−j n k=1
Protoˇze X1 , . . . , Xn jsou nez´avisl´e a stejnˇe rozdˇelen´e, jsou nez´avisl´e a stejnˇe rozdˇelen´e tak´e ([X1 − µ]m , . . . , [Xk − µ]m ) a podle z´akona velk´ ych ˇc´ısel (vˇeta 1.9) dost´av´ame, ˇze s.j. s.j. m m−j An −−−→ E(X1 − µ) ∈ R, Cjn −−−→ E(X1 − µ) ∈ R, pro vˇsechna j = 1, . . . , m a n→∞
n→∞
Bjn
X j n 1 s.j. (Xk − µ) −−−→ 0, pro vˇsechna j = 1, . . . , m. = k=1 n→∞ n
Zbytek je d˚ usledkem zachov´an´ı konvergence skoro jistˇe pˇri spojit´e transformaci. Jako odhad ν pouˇzijeme statistiku n
1X ¯ n )4 − S 4 . ω ˆn = (Xk − X n n k=1 Abychom tak mohli uˇcinit, mus´ıme uk´azat, ˇze plat´ı s.j.
ω ˆ n −−−→ ν.
(3.9)
n→∞
s.j.
Protoˇze jiˇz v´ıme, ˇze Sn4 −−−→ σ 4 , bude staˇcit, kdyˇz uk´aˇzeme, ˇze plat´ı n→∞
n
1X s.j. ¯ n )4 − τ 4 −− (Xk − X −→ 0. n→∞ n k=1
(3.10)
P ¯ n )4 Z vˇety 3.2 dost´av´ame, ˇze ˇctvrt´ y centr´aln´ı empirick´ y moment n1 nk=1 (Xk − X 4 konverguje skoro jistˇe k ˇctvrt´emu centr´aln´ımu momentu τ , z ˇcehoˇz plyne platnost (3.10) a tedy tak´e (3.9). Z platnosti (3.9) a tvrzen´ı vˇety 1.12 plyne, ˇze na lev´e stranˇe (3.6) m˚ uˇzeme nahradit moment ν jeho odhadem ω ˆ n a konvergence lev´e strany v distribuci k norm´aln´ımu rozdˇelen´ı bude zachov´ana. P Nyn´ı se zamˇeˇrme na nk=1 (Xk − µ)2 . Jednoduchou u ´pravou v´ ybˇerov´eho rozptylu Sn2 dostaneme n X 2 ¯ n − µ)2 . (n − 1)Sn = (Xk − µ)2 − n(X Vezmˇeme v´ yraz
√
k=1
n−
1Sn2
=
√1 n−1
ζn = √
Pn
k=1 (Xk
− µ)2 −
¯n √ n (X n−1
n s.j. ¯ n − µ)2 −− (X −→ 0. n→∞ n−1
− µ)2 a ukaˇzme, ˇze (3.11)
´ ´I HYPOTEZ ´ 3.2. CLV TESTOVAN
20
Podle vˇety 1.7 staˇc´ı, kdyˇz uk´aˇzeme, ˇze plat´ı √ n X p n s.j. ¯ n − µ) = p 1 ( X ζn = √ (X − µ) − − −→ 0. k 4 4 n→∞ n−1 n2 (n − 1) k=1 Definujme bk =
(3.12)
p 4 k 2 (k − 1), k ∈ N. Pak plat´ı ∞ X varXk k=1
b2k
=σ
2
∞ X k=1
1 <∞ k k−1 √
a z vˇety 1.8 plyne platnost (3.12) a tedy i (3.11). s.j. n ¯ n − µ)2 −− −→ 0, z ˇcehoˇz plyne T´ım jsme uk´azali, ˇze √n−1 (X n→∞ n
(n −
1)Sn2
X 1 s.j. −√ (Xk − µ)2 −−−→ 0. n→∞ n − 1 k=1 2
n→∞
nSn −−→ 1, m˚ uˇzeme na lev´e stranˇe (3.6) nahradit Protoˇze d´ale (trivi´alnˇe) plat´ı (n−1)S 2 − n Pn 2 2 yrazem nSn a spoleˇcnˇe s (3.9) dost´av´ame platnost k=1 (Xk − µ) v´
Sn2 − σ 2 √ D √ n −−−→ N(0, 1). n→∞ ω ˆn p Protoˇze veliˇcina (Sn2 − σ 2 ) n/ˆ ωn m´a asymptoticky norm´aln´ı rozdˇelen´ı, m˚ uˇzeme 2 zkonstruovat CLV intervalov´ y odhad pro parametr σ o asymptotick´e spolehlivost 1 − α ve tvaru p p 2 2 ˆ n /n, Sn + u1−α/2 ω ˆ n /n . (3.13) Sn − u1−α/2 ω
3.2
CLV testov´ an´ı hypot´ ez
Bud’ Xn = (X1 , . . . , Xn ) n´ahodn´ y v´ ybˇer z rozdˇelen´ı, kter´e z´avis´ı na parametru θ. M´ame-li na z´akladˇe Xn testovat hypot´ezu H0 : θ ∈ Θ0 ⊂ Θ o parametru θ ∈ Θ a je-li d´an kritick´ y obor testu Wn ⊂ Rn a α ∈ (0, 1), ˇrekneme, ˇze hladina testu je asymptoticky rovna α, jestliˇze n→∞
sup Pθ (Xn ∈ Wn ) −−−→ α. θ∈Θ0
V´ ysledky, kter´e jsme z´ıskali v odd´ılu 3.1, m˚ uˇzeme aplikovat na CLV testov´an´ı hypot´ez o stˇredn´ı hodnotˇe µ a rozptylu σ 2 n´ahodn´eho v´ ybˇeru. Podle principu popsan´eho v odd´ılu 2.5 m˚ uˇzeme definovat kritick´e obory jednotliv´ ych test˚ u pomoc´ı doplˇ nk˚ u intervalov´ ych odhad˚ u (3.1), (3.3), (3.8) a (3.13). S takto definovan´ ymi kritick´ ymi obory dospˇejeme jednoduch´ ymi u ´pravami k CLV testov´ ym krit´eri´ım, kter´a nyn´ı uvedeme.
´ ´I HYPOTEZ ´ 3.2. CLV TESTOVAN
3.2.1
21
CLV testy o stˇ redn´ı hodnotˇ e
Pˇredpokl´adejme, ˇze X1 , . . . , Xn je n´ahodn´ y v´ ybˇer s koneˇcn´ ym a nenulov´ ym rozptylem 2 σ . Je-li u ´kolem testovat H0 : µ = µ0 oproti H1 : µ 6= µ0 , z CLV intervalov´ ych odhad˚ u (3.1) a (3.3) z´ısk´ame n´asleduj´ıc´ı v´ ysledky. Zn´ am´ e σ2 Zn´ame-li parametr σ 2 , vyjdeme z intervalov´eho odhadu (3.1) a hypot´ ame √ ezu H0 zam´ıt´ ¯ ¯ na asymptotick´ e hladinˇ e α, pokud plat´ ı µ ≤ X − u σ n nebo µ ≥ X 0 n 0 n + 1−α/2 √ u1−α/2 σ n. To je ekvivalentn´ı platnosti ¯ n − µ0 | √ |X n ≥ u1−α/2 , σ
(3.14)
coˇz je CLV testov´e krit´erium dan´eho testu. Nezn´ am´ e σ2 Je-li σ 2 nezn´am´e, uˇzijeme intervalov´eho odhadu (3.3) a H0 zam´ıtneme na asymptotick´e hladinˇe α, pokud je splnˇeno CLV krit´erium ¯ n − µ0 | √ |X n ≥ u1−α/2 . Sn
(3.15)
Kromˇe tˇechto pomˇernˇe obecn´ ych z´avˇer˚ u m˚ uˇzeme z v´ ysledk˚ u uveden´ ych v 3.1 z´ıskat n´asleduj´ıc´ı z´avˇery o alternativn´ım rozdˇelen´ı a Poissonovˇe rozdˇelen´ı. Alternativn´ı rozdˇ elen´ı Necht’ je d´an n´ahodn´ y v´ ybˇer z alternativn´ıho rozdˇelen´ı s parametrem p. Pˇri testu o stˇredn´ı hodnotˇe p, kter´ y testuje hypot´ezu H0 : p = p0 oproti H1 : p 6= p0 , zam´ıt´ame hypot´ezu H0 na hladinˇe α, jestliˇze plat´ı ¯ n − p0 | √ |X n ≥ u1−α . ¯ n (1 − X ¯n) X
p
(3.16)
Poissonovo rozdˇ elen´ı Nyn´ı bud’ X1 , . . . , Xn n´ahodn´ y v´ ybˇer z Poissonova rozdˇelen´ı s parametrem λ. Jak v´ıme, λ je z´aroveˇ n stˇredn´ı hodnotou i rozptylem tohoto v´ ybˇeru. Pˇri testu H0 : λ = λ0 oproti H1 : λ 6= λ0 hypot´ezu H0 zam´ıt´ame na hladinˇe α, jestliˇze plat´ı ¯ n − λ0 | √ |X p n ≥ u1−α . ¯n X
(3.17)
´ ´I HYPOTEZ ´ 3.2. CLV TESTOVAN
3.2.2
22
CLV testy o rozptylu
M´ame-li d´an n´ahodn´ y v´ ybˇer X1 , . . . , Xn se stˇredn´ı hodnotou µ a s koneˇcn´ ym ˇctvrt´ ym 4 absolutn´ım momentem E|X1 | , m˚ uˇzeme z CLV intervalov´ ych odhad˚ u (3.8) a (3.13) odvodit n´asleduj´ıc´ı v´ ysledky. Zn´ am´ eµ Testujeme-li H0 : σ 2 = σ02 oproti H1 : σ 2 6= σ02 a zn´ame-li µ, pak na z´akladˇe CLV intervalov´eho odhadu (3.8) hypot´ezu H0 zam´ıt´ame na asymptotick´e hladinˇe α, jestliˇze plat´ı P | n1 nk=1 (Xk − µ)2 − σ02 | √ q P n ≥ u1−α . n 1 4 − S4 (X − µ) k n k=1 n
(3.18)
Nezn´ am´ eµ Testujeme-li opˇet H0 : σ 2 = σ02 oproti H1 : σ 2 6= σ02 a µ nezn´ame, pak uˇzijeme CLV intervalov´ y odhad (3.13) a hypot´ezu H0 zam´ıt´ame na asymptotick´e hladinˇe α, jestliˇze plat´ı |Sn2 − σ02 | q P n 1 n
4 ¯ 4 k=1 (Xk − Xn ) − Sn
√
n ≥ u1−α .
(3.19)
4 Uˇ zit´ı CLV intervalov´ ych odhad˚ u a CLV test˚ u V t´eto ˇc´asti budeme na konkr´etn´ıch v´ ybˇerech ilustrovat uˇzit´ı uveden´ ych CLV intervalov´ ych odhad˚ u. Porovn´ame tak´e intervalov´e odhady z´ıskan´e za pˇredpokladu normality n´ahodn´eho v´ ybˇeru s CLV intervalov´ ymi odhady.
4.1
Data z norm´ aln´ıho rozdˇ elen´ı
Pomoc´ı statistick´eho software R jsme nagenerovali tˇri n´ahodn´e v´ ybˇery z normovan´eho norm´aln´ıho rozdˇelen´ı. Prvn´ı v´ ybˇer o rozsahu 10 oznaˇcme X, druh´ y v´ ybˇer, jehoˇz rozsah je 30, oznaˇcme Y a tˇret´ı v´ ybˇer s rozsahem 80 oznaˇcme Z. V´ ybˇery jsme generovali pomoc´ı pˇr´ıkaz˚ u: X<-rnorm(10,mean=0,sd=1); Y<-rnorm(30,mean=0,sd=1); Z<-rnorm(80,mean=0,sd=1); T´ımto postupem jsme z´ıskali tˇri soubory dat, kter´e poch´azej´ı z rozdˇelen´ı se stˇredn´ı hodnotou 0 a rozptylem 1 (data viz Pˇr´ılohy). Spoˇc´ıtali jsme pro nˇe n´asleduj´ıc´ı statistiky: ¯ 10 = −0, 191 X 2 = S10,X
0, 610
Y¯30 = −0, 052 2 S30,Y =
1, 360
Z¯80 = −0, 100 2 S80,Z =
1, 056,
2 2 2 ¯ 10 , Y¯30 , Z¯80 jsou pˇr´ısluˇsn´e v´ kde X ybˇerov´e pr˚ umˇery a S10,X , S30,Y , S80,Z jsou odpov´ıdaj´ıc´ı v´ ybˇerov´e rozptyly. Spoˇctˇeme nyn´ı intervalov´e odhady za pˇredpokladu normality a CLV intervalov´e odhady pro parametry n´ahodn´ ych v´ ybˇer˚ u X, Y , Z a vz´ajemnˇe je porovnejme. Obdrˇzen´e v´ ysledky shrnuje Tabulka 1. Odhady jsou poˇc´ıt´any pˇri standardn´ı spolehlivosti 95 % a µ znaˇc´ı stˇredn´ı hodnoty a σ 2 znaˇc´ı rozptyly n´ahodn´ ych v´ ybˇer˚ u. ˇ Ctvrt´ y sloupec tabulky obsahuje pˇr´ısluˇsn´e intervalov´e odhady (2.2)-(2.5) a v p´at´em sloupci jsou uvedeny odpov´ıdaj´ıc´ı CLV intervalov´e odhady (3.1), (3.3), (3.8) a (3.13). Sloupce RL a RP uv´adˇej´ı vz´ajemn´e porovn´an´ı intervalov´ ych odhad˚ u na dan´em ˇr´adku tabulky pomoc´ı absolutn´ı hodnoty rozd´ılu krajn´ıch hodnot jednotliv´ ych intervalov´ ych odhad˚ u. RL je absolutn´ı hodnota rozd´ılu lev´ ych mez´ı interval˚ u a RP je absolutn´ı hodnota rozd´ılu prav´ ych mez´ı interval˚ u.
√ ˇ ´I S PARAMETRY 0 A 1/ 2 4.2. DATA Z LAPLACEOVA ROZDELEN V´ ybˇer Param. Znalosti Norm. odhad CLV odhad RL 2 X (n = 10) µ σ =1 (-0,810 ; 0,429) (-0,810 ; 0,429) 0,000 µ σ 2 nezn. (-0,749 ; 0,368) (-0,675 ; 0,294) 0,074 σ2 µ =0 ( 0,286 ; 1,803) ( 0,243 ; 0,928) 0,043 2 σ µ nezn. ( 0,289 ; 0,679) ( 0,333 ; 0,887) 0,044 Y (n = 30) µ σ2 = 1 (-0,306 ; 0,409) (-0,306 ; 0,409) 0,000 2 µ σ nezn. (-0,384 ; 0,487) (-0,366 ; 0,469) 0,018 σ2 µ =0 ( 0,841 ; 2,354) ( 0,622 ; 2,013) 0,219 2 σ µ nezn. ( 0,863 ; 1,415) ( 0,643 ; 2,077) 0,220 Z (n = 80) µ σ2 = 1 (-0,319 ; 0,119) (-0,319 ; 0,119) 0,000 2 µ σ nezn. (-0,329 ; 0,129) (-0,325 ; 0,125) 0,004 2 σ µ =0 ( 0,790 ; 1,474) ( 0,742 ; 1,364) 0,048 σ2 µ nezn. ( 0,791 ; 1,076) ( 0,755 ; 1,358) 0,036 Tabulka 1: Intervalov´e odhady parametr˚ u v´ ybˇer˚ u X,Y ,Z
24 RP 0,000 0,074 0,875 0,208 0,000 0,018 0,341 0,662 0,000 0,004 0,110 0,282
Z uveden´ ych dat vid´ıme, ˇze s rostouc´ım rozsahem v´ ybˇeru se odpov´ıdaj´ıc´ı intervalov´e odhady obou parametr˚ u k sobˇe dobˇre pˇribliˇzuj´ı. Klesaj´ıc´ı rozd´ıl krajn´ıch bod˚ u intervalov´ ych odhad˚ u (2.3) a (3.3) nen´ı pˇrekvapuj´ıc´ı, protoˇze oba intervalov´e odhady stˇredn´ı hodnoty se liˇs´ı pouze v uˇzit´ı kvantil˚ u (u1−α/2 v (2.3) oproti t1−α/2,n−1 v (3.3)), kter´e se k sobˇe pro velk´a n pˇribliˇzuj´ı, jak plyne z vˇety 1.3. Oproti tomu odliˇsnost konstrukce intervalov´ ych odhad˚ u rozptylu (2.4) a (3.8) resp. (2.5) a (3.13) je mnohem v´ yraznˇejˇs´ı, neˇz je tomu v pˇr´ıpadˇe intervalov´ ych odhad˚ u stˇredn´ı hodnoty. I u nich je vˇsak patrn´ y pokles odchylek odpov´ıdaj´ıc´ıch krajn´ıch hodnot interval˚ u. Dodejme, ˇze pouˇzijeme-li na v´ ybˇery X, Y , Z Shapir˚ uv-Wilk˚ uv test normality, dostaneme pro X p-value rovnou 0,84, pro Y p-value 0,01 a pro Z p-value 0,56. Vid´ıme, ˇze v´ ybˇer Y testem normality na hladinˇe 5 % neprojde (narozd´ıl od zbyl´ ych dvou v´ ybˇer˚ u), a proto se spoˇcten´e CLV intervalov´e odhady pˇredevˇs´ım rozptylu, liˇs´ı od odpov´ıdaj´ıc´ıch intervalov´ ych odhad˚ u pˇri norm´aln´ım rozdˇelen´ı v´ yraznˇeji, neˇz je tomu v pˇr´ıpadˇe v´ ybˇer˚ u X a Z.
4.2
Data elen´ı s parametry 0 a √ z Laplaceova rozdˇ 1/ 2
Nyn´ı budeme pracovat s v´ ybˇery, kter´e nepoch´az´ı z norm´aln´ıho rozdˇelen´ı, ale z Laplaceova rozdˇelen´ı o stˇredn´ı hodnotˇe 0 a rozptylu 1. Sestavme stejn´ ym zp˚ usobem jako v pˇredchoz´ım odstavci tabulku intervalov´ ych odhad˚ u pˇri norm´aln´ım rozdˇelen´ı a CLV intervalov´ ych odhad˚ u pro 3 n´ahodn´e v´ ybˇery, kter´e jsme nagenerovali v R pomoc´ı pˇr´ıkaz˚ u: T<-rnormp(10,mu=0,sigmap=1/sqrt(2),p=1); U<-rnormp(30,mu=0,sigmap=1/sqrt(2),p=1); V<-rnormp(80,mu=0,sigmap=1/sqrt(2),p=1);
√ ˇ ´I S PARAMETRY 0 A 1/ 2 4.2. DATA Z LAPLACEOVA ROZDELEN
25
V´ ybˇery oznaˇc´ıme postupnˇe T , U , V (data viz Pˇr´ılohy). Jejich v´ ybˇerov´e pr˚ umˇery a v´ ybˇerov´e rozptyly jsou n´asleduj´ıc´ı: T¯10 = −0, 367 2 = S10,T
0, 802
U¯30 = 0, 052 2 = 1, 258 S30,U
V¯80 = −0, 148 2 = S80,V
1, 062
Tabulka intervalov´ ych odhad˚ u o (asymptotick´e) spolehlivosti 5 % vypad´a takto: V´ ybˇer T (n = 10)
Param. µ µ σ2 σ2 U (n = 30) µ µ σ2 σ2 V (n = 80) µ µ σ2 σ2 Tabulka 2:
Znalosti Norm. odhad CLV odhad RL σ2 = 1 (-0,987 ; 0,253) (-0,987 ; 0,253) 0,000 σ 2 nezn. (-1,008 ; 0,274) (-0,922 ; 0,188) 0,086 µ =0 ( 0,418 ; 2,637) ( 0,040 ; 1,672) 0,378 µ nezn. ( 0,379 ; 0,892) ( 0,329 ; 1,274) 0,050 σ2 = 1 (-0,306 ; 0,410) (-0,306 ; 0,410) 0,000 2 σ nezn. (-0,367 ; 0,471) (-0,349 ; 0,453) 0,035 µ =0 ( 0,778 ; 2,177) ( 0,383 ; 2,054) 0,395 µ nezn. ( 0,798 ; 1,309) ( 0,410 ; 2,106) 0,388 σ2 = 1 (-0,367 ; 0,071) (-0,367 ; 0,071) 0,000 2 σ nezn. (-0,377 ; 0,082) (-0,374 ; 0,079) 0,003 µ =0 ( 0,803 ; 1,499) ( 0,505 ; 1,636) 0,298 µ nezn. ( 0,796 ; 1,082) ( 0,526 ; 1,598) 0,270 Intervalov´e odhady parametr˚ u v´ ybˇer˚ u T ,U ,V
RP 0,000 0,086 0,965 0,382 0,000 0,035 0,123 0,797 0,000 0,003 0,137 0,516
Testujeme-li normalitu v´ ybˇer˚ u T , U , V , Shapir˚ uv-Wilk˚ uv test normality vr´at´ı pro T p-value rovnou 0,362, pro U p-value 0,044 a pro V p-value 0,0003. Testem normality na hladinˇe 5 % projde pouze v´ ybˇer T , zat´ımco v´ ybˇery U a V normalitu nesplˇ nuj´ı, pˇriˇcemˇz zvl´aˇstˇe v´ ybˇer V m´a dosaˇzenou hladinu testu velmi n´ızkou. Podobnˇe jako v pˇr´ıpadˇe generovan´ ych v´ ybˇer˚ u z norm´aln´ıho rozdˇelen´ı, i zde se v pˇr´ıpadˇe stˇredn´ı hodnoty s rostouc´ım rozsahem v´ ybˇeru rychle zmenˇsuj´ı rozd´ıly mezi intervalov´ ymi odhady pro norm´aln´ı rozdˇelen´ı a CLV intervalov´ ymi odhady (coˇz je opˇet d´ano sbliˇzov´an´ım hodnot kvantil˚ u norm´aln´ıho a t rozdˇelen´ı). V pˇr´ıpadˇe rozptylu je vˇsak odliˇsnost intervalov´ ych odhad˚ u pro norm´aln´ı rozdˇelen´ı a CLV intervalov´ ych odhad˚ u v´ yraznˇejˇs´ı. Ani v pˇr´ıpadˇe v´ ybˇeru V , jehoˇz rozsah 80 je jiˇz pomˇernˇe velk´ y, nen´ı rozd´ıl v mez´ıch odpov´ıdaj´ıc´ıch si intervalov´ ych odhad˚ u zanedbaˇ asteˇcnˇe lze moˇzn´a teln´ y, coˇz je patrn´e zvl´aˇstˇe pˇri neznalosti stˇredn´ı hodnoty v´ ybˇeru. C´ tuto skuteˇcnost vysvˇetlit slabou normalitou v´ ybˇeru V . Uvˇedom´ıme-li si, ˇze skuteˇcn´a stˇredn´ı hodnota v´ ybˇer˚ u T , U , V je 0, a budeme-li cht´ıt pro jednotliv´e v´ ybˇery tuto nulovost na z´akladˇe uveden´ ych intervalov´ ych odhad˚ u stˇredn´ı hodnoty otestovat, pak podle ˇz´adn´eho z nich hypot´ezu H0 : µ = 0 nezam´ıt´ame. Stejnˇe tak testujeme-li pro jednotliv´e v´ ybˇery hypot´ezu H0 : σ 2 = 1, podle vˇsech uveden´ ych intervalov´ ych odhad˚ u rozptylu ji nezam´ıt´ame.
ˇ ´I S PARAMETRY 0 A 1 4.3. DATA Z LAPLACEOVA ROZDELEN
4.3
26
Data z Laplaceova rozdˇ elen´ı s parametry 0 a 1
Nagenerovali jsme v´ ybˇery z Laplaceova rozdˇelen´ı o stˇredn´ı hodnotˇe 0 a rozptylu 2 pomoc´ı pˇr´ıkaz˚ u: K<-rnormp(10,mu=0,sigmap=1,p=1); L<-rnormp(30,mu=0,sigmap=1,p=1); M<-rnormp(80,mu=0,sigmap=1,p=1); Z´ıskan´e v´ ybˇery oznaˇc´ıme postupnˇe K, L, M (data viz Pˇr´ılohy). Jejich v´ ybˇerov´e pr˚ umˇery a v´ ybˇerov´e rozptyly jsou n´asleduj´ıc´ı: ¯ 10 = 0, 513 ¯ 30 = 0, 271 ¯ 80 = −0, 263 K L M 2 S10,K = 2, 944
2 S30,L = 2, 292
2 S80,m =
1, 688
Tabulka intervalov´ ych odhad˚ u o (asymptotick´e) spolehlivosti 5 % vypad´a takto: V´ ybˇer K (n = 10)
Param. µ µ σ2 σ2 L (n = 30) µ µ σ2 σ2 M (n = 80) µ µ σ2 σ2 Tabulka 3:
Znalosti Norm. odhad CLV odhad RL 2 σ =1 (-0,107 ; 1,133) (-0,107 ; 1,133) 0,000 2 σ nezn. (-0,714 ; 1,741) (-0,550 ; 1,577) 0,164 µ =0 ( 1,422 ; 8,972) ( 0,682 ; 5,144) 0,740 µ nezn. ( 1,391 ; 3,275) ( 1,792 ; 4,096) 0,399 σ2 = 1 (-0,087 ; 0,629) (-0,087 ; 0,629) 0,000 σ 2 nezn. (-0,294 ; 0,836) (-0,271 ; 0,813) 0,023 µ =0 ( 1,462 ; 4,089) ( 0,120 ; 4,458) 1,342 µ nezn. ( 1,454 ; 2,385) ( 0,313 ; 4,271) 1,141 σ2 = 1 (-0,482 ; 0,044) (-0,482 ; 0,044) 0,000 2 σ nezn. (-0,552 ; 0,026) (-0,547 ; 0,022) 0,004 µ =0 ( 1,302 ; 2,430) ( 1,034 ; 2,437) 0,268 µ nezn. ( 1,264 ; 1,719) ( 1,076 ; 2,299) 0,188 Intervalov´e odhady parametr˚ u v´ ybˇer˚ u K,L,M
RP 0,000 0,164 3,828 0,821 0,000 0,023 0,369 1,866 0,000 0,004 0,007 0,580
Zamˇeˇrme se nyn´ı na n´ahodn´ y v´ ybˇer M . Dosaˇzen´a hladina Shapirova-Wilkova testu normality je 0,0099 a testem normality rozdˇelen´ı na hladinˇe 5 % neprojde. Testujme nyn´ı pro M hypot´ezu H0 : σ 2 = 2 za pˇredpokladu neznalosti parametru µ. Protoˇze v´ ybˇer M poch´az´ı z Laplaceova rozdˇelen´ı s rozptylem 2, v´ıme, ˇze hypot´eza H0 je spr´avn´a. Avˇsak v pˇr´ıpadˇe intervalov´eho odhadu rozptylu pro norm´aln´ı rozdˇelen´ı ve tvaru (2.5) hypot´ezu H0 zam´ıt´ame. Naopak na z´akladˇe CLV intervalov´eho odhadu (3.13) stejnou hypot´ezu nezam´ıt´ame. To n´as varuje pˇred pouˇz´ıv´an´ım intervalov´ ych odhad˚ u pro parametry norm´aln´ıho rozdˇelen´ı na v´ ybˇery, kter´e nesplˇ nuj´ı pˇredpoklad normality.
4.4
Re´ aln´ a data
Nyn´ı ilustrujme uˇzit´ı CLV intervalov´ ych odhad˚ u a CLV test˚ u na re´aln´ ych datech. Byly namˇeˇreny n´asleduj´ıc´ı hodnoty, kter´e popisuj´ı porodn´ı d´elku novorozenc˚ u ve sledovan´em obdob´ı.
´ A ´ DATA 4.4. REALN 50 50 52 51
52 50 53 51
53 51 52 52
53 52 50 52
52 51 48 50
51 50 51 50
27
50 51 52 50 52 51 49 51 51 50 48 51 51 52 53 49 49 50 50 49 53 51 50 49 50 52 50 49 54 51 49 48 51 50 50 49 52 52 52 52 49 49 49 52 47 49 51 49 50 51 51 50 52 52 50 53 52 53 50 48 53 50 50 51 49 51 51 47 52 53 50 46 52 48 49 Tabulka 4: Porodn´ı d´elka novorozenc˚ u (v cm)
Uveden´a data reprezentujeme jako n´ahodn´ y vektor W , u kter´eho nezn´ame ani stˇredn´ı hodnotu, ani rozptyl. Nejprve testujme hypot´ezu, ˇze pr˚ umˇern´a d´elka novorozenc˚ u je 50 cm, oproti oboustrann´e hypot´eze. Je tedy H0 : EW = 50, H1 : EW 6= 50. Pot´e testujme hypot´ezu H0 : var W = 2 oproti H1 : var W 6= 2. Hladinu obou test˚ u zvolme 5 %. Pokud aplikujeme na v´ ybˇer W Shapir˚ uv-Wilk˚ uv test normality, dosaˇzen´a hladina testu je 0,002. Na hladinˇe 5 % proto zam´ıt´ame normalitu v´ ybˇeru W a nem˚ uˇzeme pro porodn´ı d´elku novorozenc˚ u pouˇz´ıt odhady (2.3) a (2.5). Mus´ıme se spolehnout na odhady (3.3) a (3.13). Vzhledem k rozsahu v´ ybˇeru W (n = 99) a skuteˇcnosti, ˇze lze 4 pˇredpokl´adat koneˇcnost EW , m˚ uˇzeme uˇz´ıt CLV intervalov´eho odhady pro testy obou nulov´ ych hypot´ez. Spoˇcten´e CLV intervalov´e odhady jsou uvedeny v n´asleduj´ıc´ı tabulce. Parametr µ σ2 Tabulka 5: CLV
Znalosti CLV intervalov´ y odhad 2 σ nezn. (50,290 ; 50,902) µ nezn. (1,764 ; 3,049) intervalov´e odhady parametr˚ u v´ ybˇeru W
Hodnota 50 neleˇz´ı v intervalu (50,290; 50,902), proto hypot´ezu H0 : EW = 50 na asymptotick´e hladinˇe 5 % zam´ıt´ame. Naopak protoˇze plat´ı 2 ∈ (1, 764; 3, 049), hypot´ezu H0 : varW = 2 na asymptotick´e hladinˇe 5 % nezam´ıt´ame.
Z´ avˇ er Vyuˇzit´ı asymptotick´ ych test˚ u zaloˇzen´ ych na CLV je ve statistice velmi rozs´ahl´e a problematika je st´ale ˇziv´a. Tato pr´ace se vˇenovala pˇredevˇs´ım CLV intervalov´ ym odhad˚ um stˇredn´ı hodnoty a rozptylu a CLV testov´an´ı hypot´ez o tˇechto veliˇcin´ach. Z´ıskali jsme n´astroje, kter´e m˚ uˇzeme uˇz´ıt pro ˇsirokou ˇsk´alu n´ahodn´ ych v´ ybˇer˚ u poch´azej´ıc´ıch z r˚ uzn´ ych rozdˇelen´ı. Uˇzit´ı CLV intervalov´ ych odhad˚ u je v podstatˇe omezeno pouze rozsahem naˇsich n´ahodn´ ych v´ ybˇer˚ u (samozˇrejmˇe za pˇredpokladu koneˇcnosti pˇr´ısluˇsn´ ych moment˚ u). Asymptotick´e testy hypot´ez o stˇredn´ı hodnotˇe jsou v literatuˇre ˇreˇseny pomˇernˇe ˇcasto, avˇsak mnohem m´enˇe hojnˇe jsou v literatuˇre uvedeny v´ ysledky t´ ykaj´ıc´ı se CLV test˚ u rozptylu n´ahodn´eho v´ ybˇeru. Pˇredloˇzen´a pr´ace pom´ah´a tuto mezeru ˇc´asteˇcnˇe zaplnit.
Pˇ r´ılohy Data k sekci 4.1 Pˇr´ıkaz: X<-rnorm(10,0,1); Data v´ ybˇeru X: 0,6772675; -0,1500226; -0,6318324; -0,5315834; -1,111143; 0,3496565;
-0,5108342; 0,3424792;
1,034077;
-1,373475;
Pˇr´ıkaz: Y<-rnorm(30,0,1); Data v´ ybˇeru Y : -0,0422204; -2,816289; 2,351662; -0,0593411; 1,065834 0,0827437; 0,1173825; -0,071946; 0,7863872; 0,1134969; 0,6402017; 0,0654511; -2,297145; 1,078493; 0,8058515; 0,3632986; 1,276802; 1,14395; -2,039793; 0,7241108 -0,2695339; -0,0104448; -1,286931; 0,498902; 1,104748; -2,011512; 0,6638219; -0,9841063; -0,0382727; 0,5908407; Pˇr´ıkaz: Z<-rnorm(80,0,1); Data v´ ybˇeru Z: 0,2274909; 0,6886953; -2,318912; -0,8232506; 0,7621366; -1,997424; 0,5684341; 1,186631; -2,332936 0,2402859; 0,2809435 0,5075744; 0,2212953; -1,04662; 0,3268839; 1,696478; -0,4767; 0,0969903; -0,8322568; -1,722207; -0,733607; 0,54954; -1,423439; 1,194445 -1,444182; -0,545271; 1,302936; -0,364043; -0,509919; 0,4675782; -1,173061; -1,740122; 0,4901296; 1,96563; -1,476945; 0,5982397; -0,4791608; 0,348879; -0,4970615 0,6643338; 0,040096;
0,6447167; -0,7201942; -0,2092552; 1,103182; -0,3848365; 0,6612358; 0,4238404; 1,390103; 2,222901; 0,0663946; 0,0036153; -0,1838034; 0,1909111;
-0,1180256; -2,207608; -0,2906491; 0,36979; -0,3986125; -0,0414723 -1,088002; -0,1990618; -1,93181; -0,9361978; -1,185667 -0,1425038; 1,966011;
0,9226968; 0,0687449; 1,362335; -0,802466; 0,3157266 0,1095766; 1,595272; -0,620827; -0,622174; -1,773387; -0,381621; 0,1091556; 0,2185288;
Data k sekci 4.2 Pˇr´ıkaz: T<-rnormp(10,mu=0,sigmap=1/sqrt(2),p=1); Data v´ ybˇeru T : 0,8625695; 0,2440958; -0,0941655; -0,2724753; -0,2809389; -1,7264034; -0,0817396; -0,8385712; 0,4421498;
-1,9265272;
Pˇr´ıkaz: U<-rnormp(30,mu=0,sigmap=1/sqrt(2),p=1); Data v´ ybˇeru U : 0,0992597; -0,4707544; 1,1246037; -0,5034563; 1,938774; -3,514119 -0,4489532; 1,9152585; -0,3642512; -0,0345644; 0,3901734; 0,5467108 -0,7172301; 0,3997976; -0,7929113; 1,5662748; -1,4479735; 0,1750013 0,2651935; 1,8407888; 0,7216074; -0,2740358; -0,3558281; 0,1744732 -0,775239; 0,2969779; -1,1836571; -0,2410211; -0,1783686; 1,4038337 Pˇr´ıkaz: V<-rnormp(80,mu=0,sigmap=1/sqrt(2),p=1); Data v´ ybˇeru V : -0,8534196; -0,0501713; -0,3328916; 1,3404887; -1,0619133; 0,4047573 0,440094; 0,0723957; 1,2109716; -0,3447313; -0,260059; -4,2647766 -0,3487439; -1,0202951; -0,826683; 0,1697885; 0,1662418; -0,7666918 -0,130073; 0,8130462; 1,1343764; -0,6112253; 0,458085; -0,3384861 -0,1128435; -0,2159987; 0,1485386; -0,4084364; 2,2736227; -0,3518093 0,4018781; 1,3054757; -0,2150044; 0,4671909; 0,5797628; -0,784891 -1,0080019; -1,7513288; 0,0305027; 0,4255604; 0,3577869; -0,2038555 -0,4573332; 2,6539124; 0,4731536; 0,7726096; -1,9582831; 0,8249812 0,1009882; 1,5037024; -0,4551862; -0,459273; -0,064241; 0,4412939 -0,6671226; -1,3562594; 0,7491618; -1,2053627; -0,8013582; -0,1073079 -0,2158937; -1,2640345; 0,2084772; -0,3609246; 0,3852504; -0,1113866; -3,4065179; -0,3651708; -0,4632871; -0,1711982; -0,4303966; 0,8890708; -2,1685798; 0,5842328; -0,1932715; -1,2672448; 0,5953047; 0,7095606; 0,0449217; -0,7528558;
Data k sekci 4.3 Pˇr´ıkaz: K<-rnormp(10,mu=0,sigmap=1,p=1); Data v´ ybˇeru K: -0,6340333; -1,1634331; -0,7509482; 3,2541529; 3,0120811; 1,3171373; -0,382179; 1,9589284; -1,1502962;
-0,3286225;
Pˇr´ıkaz: L<-rnormp(30,mu=0,sigmap=1,p=1); Data v´ ybˇeru L: 1,9881672; -4,2004929; -0,6226944; -0,1402815; 0,8244623; -0,992741 0,2477631; -1,6557546; 0,7255584; -0,3882922; 0,2117307; -0,3261224 0,7879505; -1,4524719; 2,689944; -0,8173642; -2,6741911; 0,5906371 0,046505; -0,3481485; -1,1064559; 0,8282267; -0,5044199; 0,2435418 7,1084903; 0,4155041; 1,1185465; 0,1357358; 1,0408964; -6,9875958 Pˇr´ıkaz: M<-rnormp(80,mu=0,sigmap=1,p=1); Data v´ ybˇeru M : -1,8716025; 1,1998874; 0,3172305; -3,4291951; 1,2330859; -0,4192109; -0,2923513; 0,4590955; 0,271991; -1,2102347; -2,219047; 0,0510831; -2,8622178; 0,1873772; -1,2614273; 0,068451; 0,144782; -1,3600026; 1,1265153; 0,5477727; -0,1010653; -0,5275317; 0,2980163; 0,9244962; -1,871898; 0,0921959; 1,052518; 0,2351729; 1,8710732; 1,7763493; 0,0561519; -0,1618023; -1,481541; 0,6738211; 0,5529218; -0,9552595; -0,2972253; -0,5052415; -1,0228801; 0,3802638; 1,3548522; -2,3448673; 0,6116297; -0,5352399; 0,0866905; -1,6143833; 0,1496561; 1,3986638; 0,6280385; 0,670738; -0,0017894; -1,2759388; 1,395953; 0,6030904; -2,2899057; -0,986708; 0,2446604; 0,3992568; -2,0908675; -0,9145437; -0,5466947; 0,144749; -1,4047746; 1,8665759; 2,3209917; -0,7252739; -0,0743012;
-2,4810156; 0,5579932; -2,6442384; 1,1573483; 0,4770112; -0,4692119; -0,9029138; 0,2822609; 0,1604044; -4,7417348; 0,2365599; -1,6877134; 0,2726318;
Literatura [1] Andˇel J. Z´aklady matematick´e statistiky. matfyzpress, Praha, 2005. [2] Dupaˇc V., Huˇskov´a M. Pravdˇepodobnost matematick´ a statistika. Karolinum, Praha, 2003. [3] Lachout P. Teorie pravdˇepodobnosti. Karolinum, Praha, 2004. [4] Lehmann E. L., Castella G. Theory of Point Estimation, Second Edition. Springer, New York, 1998. [5] R´enyi A. Teorie pravdˇepodobnosti. Academia, Praha, 1972.