6
Intervalov´ e odhady
parametr˚ u z´akladn´ıho souboru. V pˇredchoz´ıch kapitol´ach jsme se zab´ yvali nejprve z´akladn´ım zpracov´an´ım experiment´aln´ıch dat: grafick´e zobrazen´ı dat, v´ ypoˇcty v´ ybˇerov´ ych charakteristik (kapitola 2 a kapitola 3) a n´asleduj´ıc´ı kapitoly se zamˇeˇrily na teoretick´e modely populaˇcn´ıch soubor˚ u (kapitola 5). Jedn´ım ze z´akladn´ıch probl´em˚ u, kter´e n´am pom´ah´a statistika ˇreˇsit, je odhadnout charakter populaˇcn´ıho souboru (napˇr´ıklad odhadnout parametry modelov´eho rozdˇelen´ı) na z´akladˇe mal´eho poˇctu pozorov´an´ı nˇejak´e veliˇciny, na z´akladˇe v´ ybˇeru. V pˇredch´azej´ıc´ı kapitole jsme se podrobnˇe vˇenovali norm´aln´ımu rozdˇelen´ı, kter´e je pˇrirozen´ ym modelem pro ˇradu re´aln´ ych situac´ı. V´ yznam norm´aln´ıho rozdˇelen´ı je vˇsak tak´e v jeho statistick´ ych vlastnostech - lze uk´azat, ˇze pokud budeme opakovanˇe prov´adˇet v´ ybˇer z populace a pro kaˇzd´ y v´ ybˇer spoˇcteme aritmetick´ y pr˚ umˇer, pak tyto pr˚ umˇery se budou chovat jako by poch´azely z norm´aln´ıho rozdˇelen´ı. Rozdˇelen´ı vznikl´e opakovan´ ym vyb´ır´an´ım (vyb´ır´ame n prvk˚ u) a v´ ypoˇctem v´ ybˇerov´eho arityv´a rozdˇ elen´ı v´ ybˇ erov´ eho pr˚ umˇ eru a lze matematicky dok´azat, ˇze metick´eho pr˚ umˇeru x se naz´ toto rozdˇelen´ı m´a (pˇri velmi obecn´ ych podm´ınk´ach) norm´aln´ı rozdˇelen´ı pro rozsah v´ ybˇeru jdouc´ı do nekoneˇcna. Obr´azek 1: Rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru
1
Na obr´azku vid´ıme vlastnosti, kter´e m˚ uˇzeme formulovat n´asleduj´ıc´ım zp˚ usobem: • rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru m´a stejn´ y pr˚ umˇer (stejnou stˇredn´ı hodnotu) jako rozdˇelen´ı populace E(x) = µ; • variabilita rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru kles´a se zvˇetˇsov´an´ım rozsahu v´ ybˇeru E(x) = • rozdˇelen´ı pr˚ umˇer˚ u odpov´ıd´a norm´aln´ımu rozdˇelen´ı v´ıce neˇz rozdˇelen´ı populace x ∼ N
σ2 ; n σ2 µ; n
.
Pokud tedy naˇse namˇeˇren´a data maj´ı charakter pr˚ umˇern´ ych hodnot, m˚ uˇzeme pˇredpokl´adat, ˇze odpov´ıdaj´ı modelu norm´aln´ıho rozdˇelen´ı.
6.1
Intervaly spolehlivosti, koeficient spolehlivosti 1−α, hladina v´ yznamnosti α
Typick´ y zp˚ usob statistick´eho uvaˇzov´an´ı je n´asleduj´ıc´ı. M´ame k dispozici namˇeˇren´a data, tato data povaˇzujeme za v´ ybˇer (n´ahodn´ y v´ ybˇer) z populace rozsahu n a pˇredpokl´ad´ame, ˇze populace m´a charakter norm´aln´ıho rozdˇelen´ı. Pak podle v´ yˇse uveden´ ych vlastnost´ı m˚ uˇzeme za pˇrirozen´ y odhad populaˇcn´ıho pr˚ umˇeru µ pouˇz´ıt aritmetick´ y pr˚ umˇer naˇseho v´ ybˇerov´eho souboru. Takov´emuto odhadu ˇr´ık´ame bodov´ y odhad. V´ıme ale, ˇze bodov´ y odhad je ovlivnˇen celou ˇradou dalˇs´ıch faktor˚ u, ve kter´ ych se projevuj´ı odliˇsnosti v´ ybˇeru. Proto m´ısto bodov´ ych odhad˚ u pouˇz´ıv´ame intervalov´ e odhady, kde nalezneme interval, ve kter´em skuteˇcn´a hodnota populaˇcn´ıho pr˚ umˇeru bude velmi pravdˇepodobnˇe leˇzet. Jako hranice mezi je velmi nepravdˇepodobn´e“ a ne tak velmi nepravdˇepodobn´e“ se bˇeˇznˇe uˇz´ıv´a ” ” pravdˇepodobnost 5%, tato hraniˇcn´ı hodnota se naz´ yv´a hladina v´ yznamnosti a znaˇc´ı se α. Hodnota 1−α se naz´ yv´a koeficient spolehlivosti a intervaly, kter´e odvod´ıme pro zvolen´e α naz´ yv´ame (1 − α)100%-n´ı interval spolehlivosti. Urˇcen´ı intervalu spolehlivosti n´am tedy umoˇzn ˇuje tvrdit, ˇze pokud byly splnˇeny vˇsechny pˇredpoklady pak hodnota populaˇcn´ıho pr˚ umˇeru bude leˇzet uvnitˇr naˇseho intervalu v (1 − α)100% v´ ybˇerech. Form´alnˇe zaps´ano, kdyˇz gd je doln´ı hranice intervalu a gh je horn´ı hranice intervalu, plat´ı P(gd < µ < gh ) = 1 − α. Jinak ˇreˇceno, interval (gd ; gh ) pokryje hodnotu parametru µ s pravdˇepodobnost´ı 1 − α, resp. provedeme-li z mnoha r˚ uzn´ ych n´ahodn´ ych v´ ybˇer˚ u mnoho r˚ uzn´ ych intervalov´ ych odhad˚ u parametru µ, pak (1 − α)100% z´ıskan´ ych interval˚ u spolehlivosti bude pokr´ yvat skuteˇcnou hodnotu parametru µ. Hodnota hladiny v´ yznamnosti je obvykle vol´ı 5%, ale u velmi rozs´ahl´ ych soubor˚ u se m˚ uˇzeme setkat t´eˇz s volbou α = 1% naopak u rozsahovˇe mal´ ych soubor˚ u se nˇekdy spokoj´ıme s volbou α = 10%. Intervaly tvaru (gd ; +∞) resp. (−∞; gh ) naz´ yv´ame jednostrann´e doln´ı, resp. horn´ı intervaly spolehlivosti.
2
6.2
Interval spolehlivosti pro pr˚ umˇ er pˇ ri zn´ am´ em rozptylu
Pˇredpokl´ad´ame, ˇze na z´akladn´ı soubor m´a norm´aln´ı rozdˇelen´ı se zn´amou hodnotou rozptylu σ 2 (pˇredpokl´ad´ame, ˇze rozptyl nebo smˇerodatnou odchylku zn´ame z jin´eho statistick´eho ˇsetˇren´ı a ˇze je tuto hodnotu moˇzno pouˇz´ıt i n´aslednˇe). Dvoustrann´ y intervalov´ y odhad stˇredn´ı hodnoty µ (interval spolehlivosti pro µ) m´a tvra σ σ x − u1− α2 · √ ; x + u1− α2 · √ . n n Jednostrann´ y intervalov´ y odhad
σ x − u1−α · √ ; +∞ , n
σ −∞ ; x + u1−α · √ n
resp. ,
kde x je aritmetick´ y pr˚ umˇer, uα je kvantil normovan´eho norm´aln´ıho rozdˇelen´ı (pro α = 5%, je . . u1− α2 = u0.975 = 1.96 a u1−α = u0.95 = 1.64, σ je zn´am´a smˇerodatn´a odchylka a n je rozsah v´ ybˇeru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V Excelu najdeme hodnotu uα pomoc´ı funkce N ORM SIN V (α), napˇr´ıklad N ORM SIN V (0.95) ⇒ 1.64 . ................................................................................................ .
6.3
Interval spolehlivosti pro pr˚ umˇ er pˇ ri nezn´ am´ em rozptylu
Pˇredpokl´ad´ame, ˇze na z´akladn´ı soubor m´a norm´aln´ı rozdˇelen´ı s nezn´amou hodnotou rozptylu σ 2 (pˇredpokl´ad´ame, ˇze rozptyl nebo smˇerodatnou odchylku nezn´ame a je tˇreba ji odhadnout z dat, kter´a m´ame k dispozici). Dvoustrann´ y intervalov´ y odhad stˇredn´ı hodnoty µ (interval spolehlivosti pro µ) s s x − t1− α2 (n − 1) · √ ; x + t1− α2 (n − 1) · √ . n n Jednostrann´ y intervalov´ y odhad s x − t1−α (n − 1) · √ ; +∞ , n resp. s −∞; x + t1−α (n − 1) · √ , n kde x je aritmetick´ y pr˚ umˇer, tα (n − 1) je kvantil Studentova t-rozdˇelen´ı se stupni volnosti n − 1, n 1 X 2 s je odhad smˇerodatn´e odchylky (s2 = x − (x)2 ) a n je rozsah v´ ybˇeru. n − 1 i=1 i 3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V Excelu najdeme hodnotu tα (n) pomoc´ı funkce T IN V (a; n), kde a odpov´ıd´a hodnotˇe 2 · (1 − α), napˇr´ıklad t0.95 (10) spoˇcteme v Excelu vztahem T IN V (0.10; 10) ⇒ 1.81 a T IN V (0.10; 1000000) ⇒ 1.64 Dalˇs´ı moˇznost´ı je pouˇzit´ı funkce CON F IDEN CE(α; ssmˇerodatn´a odchylka; n), kter´a n´am poskytne s hodnotu t1−α (n − 1) · √ . n . ................................................................................................ .
6.4
Interval spolehlivosti pro rozptyl
Pˇredpokl´ad´ame, ˇze na z´akladn´ı soubor m´a norm´aln´ı rozdˇelen´ı. Dvoustrann´ y intervalov´ y odhad rozptylu σ 2 (interval spolehlivosti pro rozptyl σ 2 ) ! (n − 1)s2 (n − 1)s2 ; χ21− α (n − 1) χ2α (n − 1) 2
2
Jednostrann´ y intervalov´ y odhad
(n − 1)s2 ; +∞ χ21−α (n − 1)
resp. (n − 1)s2 −∞ ; 2 χα (n − 1) kde χ2α (n − 1) je kvantil χ2 rozdˇelen´ı se stupni volnosti n − 1, s je odhad smˇerodatn´e odchylky n 1 X 2 (s2 = xi − (x)2 ) a n je rozsah v´ ybˇeru. n − 1 i=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V Excelu najdeme hodnotu χ2α (n) pomoc´ı funkce CHIN V (a; n), kde a odpov´ıd´a hodnotˇe (1−α), napˇr´ıklad χ20.025 (20) spoˇcteme v Excelu vztahem CHIN V (0.975; 20) ⇒ 9.59 a CHIN V (0.025; 20) ⇒ 34.17 . ................................................................................................ .
6.5
Interval spolehlivosti pro rozd´ıl pr˚ umˇ er˚ u u dvou nez´ avisl´ ych v´ ybˇ er˚ u se zn´ am´ ym rozptylem
Pˇredpokl´ad´ame, ˇze m´ame k dispozici dva n´ahodn´e v´ ybˇery, kter´e jsou nez´avisl´e a poch´az´ı ze z´akladn´ıch soubor˚ u, kter´e maj´ı norm´aln´ı rozdˇelen´ı serstejnou, zn´amou hodnotou rozptylu σ 2 . 1 1 + , d´ale x1 a x2 jsou aritmetick´e pr˚ umˇery pˇr´ısluˇsn´ ych Oznaˇcme n1 ,n2 rozsahy v´ ybˇer˚ uan= n1 n2 v´ ybˇer˚ u. Dvoustrann´ y intervalov´ y odhad rozd´ılu stˇredn´ıch hodnot µ1 −µ2 (interval spolehlivosti pro µ1 −µ2 ) 4
x1 − x2 − u1− α2 · σ · n; x1 − x2 + u1− α2 · σ · n . Jednostrann´ y intervalov´ y odhad (−∞; x1 − x2 + u1−α · σ · n) ; resp. (x1 − x2 − u1−α · σ · n; +∞) .
6.6
Interval spolehlivosti pro rozd´ıl pr˚ umˇ er˚ u u dvou nez´ avisl´ ych v´ ybˇ er˚ u s nezn´ am´ ymi rozptyly
Pˇredpokl´ad´ame, ˇze m´ame k dispozici dva n´ahodn´e v´ ybˇery, kter´e jsou nez´avisl´e a poch´az´ı ze z´akladn´ıch soubor˚ u, kter´e maj´ı norm´aln´ı rozdˇelen´ı, ale o jejich rozptylech nem´ame ˇza´dn´e dalˇs´ı doplˇ nuj´ıc´ı informace. r 1 1 Oznaˇcme n1 ,n2 rozsahy v´ ybˇer˚ uan= + , d´ale x1 a x2 jsou aritmetick´e pr˚ umˇery pˇr´ısluˇsn´ ych n1 n2 v´ ybˇer a s21 a s22 jsou u jednotliv´ ych v´ ybˇer˚ u. sodhady rozptyl˚ (n1 − 1)s21 + (n2 − 1)s22 . n1 + n2 − 2 Dvoustrann´ y intervalov´ y odhad rozd´ılu stˇredn´ıch hodnot µ1 −µ2 (interval spolehlivosti pro µ1 −µ2 )
Oznaˇcme sp =
x1 − x2 − t1− α2 (n1 + n2 − 2) · sp · n; x1 − x2 + t1− α2 (n1 + n2 − 2) · sp · n . Jednostrann´ y intervalov´ y odhad (−∞; x1 − x2 + t1−α (n1 + n2 − 2) · sp · n) ; resp. (x1 − x2 − t1−α (n1 + n2 − 2) · sp · n; +∞) .
6.7
Interval spolehlivosti pro pod´ıl rozptyl˚ u dvou nez´ avisl´ ych v´ ybˇ er˚ u
Pˇredpokl´ad´ame, ˇze m´ame k dispozici dva n´ahodn´e v´ ybˇery, kter´e jsou nez´avisl´e a poch´az´ı ze z´akladn´ıch soubor˚ u, kter´e maj´ı norm´aln´ı rozdˇelen´ı, ale o jejich rozptylech nem´ame ˇza´dn´e dalˇs´ı doplˇ nuj´ıc´ı informace. σ2 σ2 Dvoustrann´ y intervalov´ y odhad pod´ılu rozptyl˚ u 12 (interval spolehlivosti pro 12 ) σ2 σ2 ! 1 s21 1 s21 ; F1− α2 (n1 − 1; n2 − 1) s22 F α2 (n1 − 1; n2 − 1) s22
5
Jednostrann´ y intervalov´ y odhad −∞;
1 s21 Fα (n1 − 1; n2 − 1) s22
resp.
1 s21 ; +∞ F1−α (n1 − 1; n2 − 1) s22
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V Excelu najdeme hodnotu Fα (n1 , n2 ) pomoc´ı funkce F IN V (a; n1 ; n2 ), kde a odpov´ıd´a hodnotˇe (1−α), napˇr´ıklad F0.975 (10, 20) spoˇcteme v Excelu vztahem F IN V (0.025; 10; 20) ⇒ 2.77 a F0.025 (10, 20) spoˇcteme vztahem F IN V (0.975; 10; 20) ⇒ 0.29 . ................................................................................................ .
6.8
Interval spolehlivosti pro relativn´ı ˇ cetnost
Pˇredpokl´adejme, ˇze provedeme n´ahodn´ y v´ ybˇer rozsahu n a zjiˇst’ujeme, kolik z prvk˚ u v naˇsem n´ahodn´em v´ ybˇeru m´a sledovanou vlastnost. Je-li jich r, pak relativn´ı ˇcetnost sledovan´e vlastnosti ve v´ ybˇeru r yskytu je p = . relativn´ı ˇcetnost se tak´e ud´av´a v procentech, v takov´em pˇr´ıpadˇe hovoˇr´ıme o procentu v´ n sledovan´e vlastnosti. Statistick´a teorie n´am ˇr´ık´a, ˇze je-li n > 100 a pp nen´ı pˇr´ıliˇs mal´e, pak relativn´ı ˇcetnost v´ yskytu vlastnosti v cel´e populaci m´a norm´aln´ı rozdˇelen´ı s pr˚ umˇer rem rovn´ ym pravdˇepodobnosti v´ yskytu vlastπ(1 − π) . nosti v cel´e populaci (π) a smˇerodatnou odchylkou s = n Dvoustrann´ y intervalov´ y odhad ˇcetnosti π v populaci (interval spolehlivosti pro π) ! r r π(1 − π) π(1 − π) p − u1− α2 · ; p + u1− α2 · . n n
6.9
Rozsah v´ ybˇ eru a jeho vliv na interval spolehlivosti
Jak jsme jiˇz uk´azali v m´a na ˇs´ıˇrku intervalu spolehlivosti velk´ y vliv zvolen´a hodnota hladiny v´ yznamnosti α, druh´ y v´ yznamn´ y faktor ovlivˇ nuj´ıc´ı ˇs´ıˇrku intervalu spolehlivosti je rozsah v´ ybˇeru n - ˇc´ım vˇetˇs´ı je rozsah v´ ybˇeru, t´ım je variabilita rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru menˇs´ı a interval spolehlivosti je uˇzˇs´ı. Oznaˇcme = gh − gd ˇs´ıˇrku odhadu intervalov´eho dvoustrann´eho odhadu. Tato ˇs´ıˇrka vyjadˇruje pˇresnost odhadu a z´avis´ı na parametrech dan´eho intervalov´eho odhadu. Pro intervalov´ y odhad pr˚ umˇeru pˇri zn´am´em rozptylu je ˇs´ıˇrka intervalu rovna σ = 2 · u1− α2 · √ . n Pokud poˇzadujeme, aby ˇs´ıˇre intervalov´eho odhadu nepˇrekroˇcila mezn´ı hranici max , pak lze urˇcit poˇzadovan´ y rozsah n´ahodn´eho v´ ybˇeru 6
2 · u1− α2 · σ . max Analogicky lze odvodit minim´aln´ı poˇzadovan´e rozsahy pro ostatn´ı intervalov´e odhady. n>
7