Statistika A Obsah: (1) Popisn´ a statistika, (2) Pravdˇ epodobnost, (3) Z´ aklady odhadu parametr˚ u a testov´ an´ı hypot´ ez Literatura: (H) Hindls & kol. Statistika pro ekonomy. Professional Publishing 2002 nebo podobn´ a publikace (S) Seger & kol. Statistika v hospod´ aˇ rstv´ı. ETC Publishing 1998 Software: Statgraphics, (Excel) ˇ m´ıd,
[email protected], 777 605 528 Vyuˇ cuj´ıc´ı: Martin S Str´ anky s informacemi: www.klec.cz/st Tento uˇ cebn´ı text je velim struˇ cn´ y - pro pˇ r´ıpravu k bakal´ aˇ rsk´ e zkuˇ sce doporuˇ cuji prosudovat t´ eˇ z nˇ ekterou monografii (zde se budu odkazovat na Hindse & kol) a vyˇ reˇ sit pˇ r´ıklady na hlavn´ı metody (napˇ r´ıklad dle cviˇ cebnic ˇ E) Jaroˇ sov´ a a kol., vydalo VS Podm´ınky z´ apoˇ ctu: - dom´ ac´ı pr´ ace: test hypot´ ezy a odhad parametru (bodov´ y i intervalov´ y) na z´ akladˇ e skuteˇ cn´ ych dat (napˇ r´ıklad ze zamˇ estn´ an´ı, kon´ıˇ cku ˇ ci ekonomick´ ych dat) 1
K ˇ cemu je statistika? Pˇ r´ıklad: Firma zamˇ estn´ av´ a dva prodejce, kteˇ r´ı maj´ı pro svou ˇ cinnost stejn´ e podm´ınky, pˇ riˇ cemˇ z prvn´ı dos´ ahl v minul´ em roce lepˇ s´ıch v´ ysledk˚ u neˇ z druh´ y. Jak ale rozliˇ sit, nakolik je tento rozd´ıl v´ ysledkem “n´ ahody” a nakolik ho lze pˇ riˇ c´ıst horˇ s´ı pr´ aci druh´ eho prodejce? Jin´ y pˇ r´ıklad: Agentura pro v´ yzkum veˇ rejn´ eho m´ınˇ en´ı odhaduje v´ ysledky referenda. Je jasn´ e, ˇ ze zeptat se vˇ sech obyvatel by pro ni bylo pˇ rinejmenˇ s´ım n´ akladn´ e, sp´ıˇ se vˇ sak neprovediteln´ e. Kolika lid´ı se m´ a zeptat, aby z´ıskala dost pˇ resn´ y v´ ysledek, ale aby v´ yzkum moc nest´ al?
2
Jeˇ stˇ e jin´ y pˇ r´ıklad: Manaˇ zer firmy se rozhoduje, jakou stanovit cenu opalovac´ıho kr´ emu tak, aby maximalizoval zisk sv´ e firmy. V´ı, ˇ ze je prodejnost kr´ emu z´ avis´ı hlavnˇ e na jeho cenˇ e, na ´ urovni jeho propagace, ale tak´ e na jin´ ych, j´ım neovlivniteln´ ych, faktorech (konkurence, poˇ cas´ı). Proto v´ı, ˇ ze nem˚ uˇ ze prodej kr´ emu pˇ ri dan´ e cenˇ e a propagaci pˇ redpovˇ edˇ et pˇ resnˇ e. Jak m´ a tedy v takov´ e situaci stanovit cenu? A jeˇ stˇ e jeden: Tento manaˇ zer byl do firmy pˇ red pˇ eti dosazen s t´ım, ˇ ze zv´ yˇ s´ı zisky. Ve skuteˇ cnosti byly zisky nˇ ekdy niˇ zˇ s´ı, nˇ ekdy vyˇ sˇ s´ı. Jak m˚ uˇ zou majitel´ e rozliˇ sit, zda jsou fulktuace ziskovosti n´ ahodn´ e nebo zda maj´ı stoupaj´ıc´ı trend? ˇ eˇ R sen´ı prvn´ıch dvou probl´ em˚ u nab´ız´ı okruh (3) tohoto semestru, ˇ reˇ sen´ı tˇ ret´ıho, ˇ ctvrt´ eho a mnoha dalˇ s´ıch se dozv´ıte v letn´ım semestru.
3
Z´ akladn´ı rozdˇ elen´ı statistiky
metody v´ ystupy
Popisn´ a statistika “vyznat” se ve zn´ am´ ych datech sbˇ er, sumarizace, anal´ yza a prezentace dat aritmetick´ e v´ ypoˇ cty numerick´ e ukazatele, grafy
v´ ysledky obt´ıˇ znost pro matematika
pˇ resn´ e mal´ a nudn´ a
´ uˇ cel obsah
Matematick´ a statistika odhadnout nezn´ am´ a data popis, odhady a pˇ redpovˇ edi n´ ahodn´ ych dˇ ej˚ u teorie pravdˇ epodobnosti bodov´ e a intervalov´ e odhady rozhodnut´ı o platnosti hypot´ ez nepˇ resn´ e velk´ a zaj´ımav´ a
Pozn´ amka. Rozdˇ elen´ı nen´ı v praxi tak striktn´ı: I popisn´ a statistika mus´ı obˇ cas odhadovat nezn´ am´ a data, naprotitomu matematick´ a statistika si obˇ cas “vyp˚ ujˇ cuje” metody popisn´ e statistiky.
4
1. Statistick´ e promˇ enn´ e • Statistick´ a jednotka: element´ arn´ı jednotka statistick´ eho pozorov´ an´ı (napˇ r. osoba, organizace) • Statistick´ y znak (promˇ enn´ a): vlastnost statistick´ e jednotky (napˇ r. mzda, st´ aˇ r´ı) • Z´ akladn´ı (populaˇ cn´ı) soubor: mnoˇ zina vˇ sech zkouman´ ych statistick´ ych jednotek (rozsah N ) • V´ ybˇ erov´ y soubor: mnoˇ zina vybran´ ych statistick´ ych jednotek z populaˇ cn´ıho souboru (rozsah n)
5
Statistick´ e znaky (promˇ enn´ e) • mˇ eˇ riteln´ e (metrick´ e): ˇ c´ıseln´ e promˇ enn´ e, jejichˇ z porovn´ an´ı (rozd´ılem a pod´ılem) m´ a smysl – spojit´ e - tˇ elesn´ a v´ yˇ ska, vˇ ek, plat, spotˇ reba auta – nespojit´ e (diskr´ etn´ı) - poˇ cet dˇ et´ı (nebo ˇ cehokoli jin´ eho), body v soutˇ eˇ zi (nebo kdekoli jinde) • poˇ radov´ e (ordin´ aln´ı) - ty, kter´ e lze porovn´ avat: jak´ ekoli poˇ rad´ı, zn´ amka ve ˇ skole, v´ ysledky dotazn´ıku typu “rozhodnˇ e ano, sp´ıˇ se ano, sp´ıˇ se ne, ˇ /SS ˇ /VS ˇ rozhodnˇ e ne”, vzdˇ el´ an´ı ZS • kvalitativn´ı (kategori´ aln´ı) - ty, jeˇ z mohou nab´ yvat koneˇ cnˇ e mnoha hodnot – alternativn´ı - ty, kter´ e nab´ yvaj´ı pouze dvou hodnot: muˇ z/ˇ zena, zdrav´ y/nemocn´ y, jin´ e promˇ enn´ e typu ano/ne – mnoˇ zn´ e: barva oˇ c´ı, st´ atn´ı pˇ r´ısluˇ snost
6
Pozn´ amky • Kaˇ zd´ a metrick´ a promˇ enn´ a je ordin´ aln´ı a na kaˇ zdou metrickou ˇ ci ordin´ aln´ı promˇ enn´ a s koneˇ cnˇ e mnoha hodnotami m˚ uˇ ze b´ yt nahl´ıˇ zeno jako na kvalitativn´ı. • Pokud m´ a diskr´ etn´ı promˇ enn´ a mnoho hodnot, bere se ˇ casto jako spojit´ a (viz plat) • Nˇ ekdy se spojit´ e promˇ enn´ e seskupuj´ı do kategori´ı (napˇ r´ıklad plat 500010000, 10001-15000 atd). Pak jde samozˇ rejmˇ e pouze o ordin´ aln´ı ˇ ci kategori´ aln´ı promˇ ennou. D˚ uvodem seskupov´ an´ı b´ yv´ a pˇ rehlednost, z hlediska matematick´ e statistiky jde ovˇ sem o ztr´ atu informace. • V (H) se metrick´ ym a ordin´ aln´ım promˇ enn´ ym souhrnnˇ eˇ r´ık´ a kvantitativn´ı - pˇ riˇ cemˇ z tyto jsou definov´ any jako promˇ enn´ e, kter´ e lze vyj´ adˇ rit ˇ c´ıselnˇ e. Podle mne to nen´ı tak ´ uplnˇ e vhodn´ a definice - i kategorie lze pˇ reci oˇ c´ıslovat. • To, zda je promˇ enn´ a ordin´ aln´ı ˇ ci pouze kategori´ aln´ı, nevypl´ yv´ a jen z jej´ı povahy, ale z pohledu statistika: Napˇ r´ıklad jednoho stagistika m˚ uˇ ze zaj´ımat kraj, kde respondent bydl´ı, jen jako kategorie (tˇ reba chce zjiˇ st’ova platy v jednotliv´ ycj kraj´ıch), zat´ımco jin´ y bude br´ at v uvahu kreje dle rozlohy (podle n´ıˇ ´ z pak lze kraje samozˇ rejmˇ e seˇ radit). 7
Rozdˇ elen´ı ˇ cetnost´ı Uvaˇ zujme promˇ ennou, kter´ a m˚ uˇ ze nab´ yvat pouze k moˇ zn´ ych hodnot, kter´ e oˇ c´ıslujme 1, 2, . . . , k. Pod slovem absolutn´ı rozdˇ elen´ı rozum´ıme poˇ cty n1 , n2 , . . . , nk jednotek s pˇ r´ısluˇ snou hodnotou znaku, slovem relativn´ı rozdˇ elen´ı m´ ame na mysli frekvence p1, p2 , . . . , pk , pi = ni /n. • Kumulativn´ı rozdˇ elen´ı: P - absolutn´ı: n1 , n2 + n2 , . . .,P i=1k ni = n - relativn´ı: p1 , p2 + p2 , . . ., i=1k pi = 1 • Intervalov´ e rozdˇ elen´ı: hodnoty se nejprve seskup´ı do interval˚ u, pro nˇ eˇ z se rozdˇ elen´ı spoˇ c´ıt´ a. • Histogram, polygon, v´ yseˇ cov´ y graf: grafick´ a vyj´ adˇ ren´ı rozdˇ elen´ı, viz napˇ r´ıklad (H)
8
2. Z´ akladn´ı charakteristiky Charakteristiky polohy
• aritmetick´ y pr˚ umˇ er x ¯ n
prost´ y
1X x ¯= xi n i=1
k
v´ aˇ zen´ y
k
X 1X x ¯= xi ni = xi pi n i=1 i=1
• medi´ an x ˜ – prostˇ redn´ı hodnota znaku ½ x((n+1)/2) pro lich´ e n x ˜= x(n/2) +x((n+2)/2) pro sud´ e n 2 • modus x ˆ – nejˇ cetnˇ ejˇ s´ı hodnota znaku • p%-kvantil x ˜p – viz d´ ale
9
Charakteristiky variability • rozptyl
Pn
Pk
2
¯) i=1 (xi − x n
σ2 =
σ2 =
k
X ¯)2 ni i=1 (xi − x ¯)2 pi = (xi − x n i=1
• v´ ybˇ erov´ y rozptyl
Pn s2 =
¯)2 i=1 (xi − x n−1
Pk s2 =
erodatn´ a odchylka • smˇ • variaˇ cn´ı koeficient (%) V =
k 2 X − x ¯ n n (x ) i i i=1 = ¯)2 pi (xi − x n−1 n − 1 i=1
σ=
√
σ2
s=
√
s2
σ x ¯
10
Charakteristiky tvaru rozdˇ elen´ı • ˇ sikmost (skewness) n P
α=
¯)3 (xi − x
i=1
nσ 3
spiˇ catost (kurtosis) • ˇ
Pn β=
i=1 (xi − nσ 4
x ¯)4
−3
11
Kvantily p-procentn´ı kvantil je takov´ a hodnota znaku, ˇ ze p jednotek v souboru m´ a znak menˇ s´ı nebo roven t´ eto hodnotˇ e (a tedy 100 − p procent jednotek jej m´ a vˇ etˇ s´ı). V´ yznaˇ cn´ e kvantily: - 50-procentn´ı kvantil se naz´ av´ a medi´ an - 25-procentn´ı kvantil se naz´ yv´ a prvn´ı kvartil, 75-procentn´ı kvantil se naz´ yv´ a tˇ ret´ı kvantil - 10,20,. . . ,90-procentn´ı kvantily se naz´ yvaj´ı decily Pˇ r´ıklad: Pokud se tedy ˇ rˇ skne, ˇ ze 23 procent lid´ı m´ a niˇ zˇ s´ı (nebo stejn´ y) pˇ r´ıjem neˇ z 5000 Kˇ c, znamen´ a to, ˇ ze 5000 je 23-procentn´ı kvantil promˇ enn´ e “pˇ r´ıjem”.
12
3. Poˇ cet pravdˇ epodobnosti Definice pravdˇ epodobnosti Klasick´ a definice (Laplace): Pomˇ er pˇ r´ızniv´ ych pˇ r´ıpad˚ u ku vˇ sem moˇ zn´ ym pˇ r´ıpad˚ um. Pˇ r´ıklad. Na minci m˚ uˇ ze padnout bud’ panna nebo orel, celkem mohou tedy nastat dva pˇ r´ıpady. Pravdˇ epodobnost toho, ˇ ze padne panna je dle klasick´ e definice 1/2. Jin´ y pˇ r´ıklad: Jak´ a je pravdˇ epodobnost, ˇ ze n´ ahodnˇ e vytaˇ zen´ a mari´ aˇ sov´ a karta bude ˇ cerven´ a? Odpovˇ ed’: V bal´ıˇ cku 32 karet je 8 ˇ cerven´ ych. Podle klasick´ e definice je hledan´ a pravdˇ epodobnost 8/32 = 1/4. ´ Umluva: D´ ale budeme kv˚ uli uˇ setˇ ren´ı m´ısta i m´ ych prst˚ u nˇ ekdy ps´ at ”prst” m´ısto ”pravdˇ epodobnost”.
13
Probl´ em: V tramvaji mohlu nastat dvˇ e moˇ znosti: revizor n´ as bud’ zkontroluje nebo nezkontroluje. Zkuˇ senost vˇ sak ukazuje, ˇ ze pravdˇ epodobnost kontroly nen´ı 1/2, ale je menˇ s´ı. Statistick´ a definice (von Mises): Uvaˇ zujme opakovateln´ y pokus, jehoˇ z v´ ysledkem je bud’ pˇ r´ızniv´ y nebo nepˇ r´ızniv´ y v´ ysledek. Pak definujeme Pravdˇ epodobnost ´ uspˇ echu =
lim
poˇ cet pokus˚ u→∞
poˇ cetpˇ r´ızniv´ ych v´ ysledk˚ u poˇ cet pokus˚ u
.
´ Uskal´ ı: Protoˇ ze m´ ame k dispozici jen koneˇ cn´ e mnoˇ zstv´ı ˇ casu, m˚ uˇ zeme udˇ elat jen koneˇ cnˇ e mnoho pokus˚ u: Prst podle t´ eto definice se tedy nikdy nedozv´ıme... “Obeplut´ı” ´ uskal´ı: Pravdˇ epodobnost se odhaduje na z´ akladˇ e “dostateˇ cnˇ e velk´ eho” mnoˇ zstv´ı pokus˚ u, pˇ riˇ cemˇ z nepˇ resnost tohoto odhadu lze kvantifikovat (viz okruh 9). Ad revizor: Neˇ z se Josef rozhodl, zda bude nebo nebude jezdit naˇ cerno, kupoval si l´ıstek a dˇ elal si ˇ c´ arky pokaˇ zd´ e, kdyˇ z pˇ riˇ sel revizor. Z dvouset j´ızd pˇ riˇ sla kontrola ˇ ctyˇ rikr´ at, proto Josef odhadl pravdˇ epodobnost pˇ r´ıchodu revizora na 0.02.
14
ˇ asto nelze uspoˇ Probl´ em C r´ adat dostateˇ cn´ e mnoˇ zstv´ı pokus˚ u s naprosto stejn´ ymi podm´ınkami. ˇ sen´ı” tohoto probl´ “Reˇ emu: Tento probl´ em se vˇ etˇ sinou ignoruje (coˇ z je moˇ zn´ a jeden z d˚ uvod˚ u mal´ e d˚ uvˇ eryhodnosti statistick´ ych metod mezi praktiky). Proto vˇ zdy pamatujme, ˇ ze prabdˇ epodobnostn´ı modely jsou jen a jen modely, kter´ e “sed´ı” tu l´ epe, tu h˚ uˇ re, nikoli skuteˇ cnost. Demonstrace: Josef usoudil, ˇ ze j´ım odhadnut´ a prst pˇ r´ıchodu revizora je dost mal´ a, aby se vyplatilo jezdit naˇ cerno. To ovˇ sem netuˇ sil, ˇ ze dopravn´ı podnik mezit´ım vyslal kromˇ e rev´ızor˚ u kontrolovat do ter´ enu jeˇ stˇ e 100 administrativn´ıch pracovn´ık˚ u (tj. dˇ elal sv˚ uj pokus za jin´ ych podm´ınek, neˇ z za kter´ ych aplikoval v´ ysledky), ˇ c´ımˇ z se frekvence kontrol zv´ yˇ sila a Josef platil a platil. Pozn´ amka. V teorii pravdˇ epodobnosti se (nejen) kv˚ uli v´ yˇ se zm´ınˇ en´ emu ´ uskal´ı a probl´ emu pouˇ ziv´ a axiomatick´ a definice prsti (prst se nijak nespojuje s prax´ı - hled´ı se na ni jen jako na matematick´ y objekt), my vˇ sak vystaˇ c´ıme se statistickou definic´ı.
15
Definice a vztahy mezi pravdˇ epodobnostm´ı Necht’ A a B jsou v´ yroky, jejichˇ z pravdivost z´ avis´ı na ”n´ ahodˇ e” (ˇ r´ıkejme jim n´ ahodn´ e jevy). Definice: y pokud P (A) = 1. • Jev A je jist´ • Jev A je nemoˇ zn´ y pokud P (A) = 0. • Jevy A a B jsou nesluˇ citeln´ e pokud P (A ∧ B) = 0. • Jevy A a B jsou nez´ avisl´ e pokud P (A ∧ B) = P (A)P (B) Pˇ reloˇ zeno do lidsk´ eˇ reˇ ci: • Jev A je jist´ y pokud urˇ citˇ e nastane. • Jev A je nemoˇ zn´ y pokud urˇ citˇ e nenastane. • Jevy A a B jsou nesluˇ citeln´ e pokud se nem˚ uˇ ze st´ at, ˇ ze oba nastanou souˇ casnˇ e. • Jevy A a B jsou nez´ avisl´ e v´ yskyt jednoho z nich nijak neovlivˇ nuje v´ yskyt druh´ eho. Jin´ ymi slovy: pokud v´ yskyt jednoho jevu nepˇ rin´ aˇ s´ı ˇ z´ adnou novou informaci o druh´ em jevu. 16
Podm´ınˇ en´ a pravdˇ epodobnost: Necht’ P (B) > 0. Pravdˇ epodobnost jevu A za podm´ınky, ˇ ze nastal jev B, definujeme vztahem P (A|B) =
lim
poˇ cet pokus˚ u→∞
poˇ cet souˇ casn´ ych v´ yskyt˚ u A i B poˇ cet v´ yskyt˚ u B
.
Slovy: Pravdˇ epodobnost, ˇ ze nastane A pokud v´ıme, ˇ ze uˇ z nastal B. Ilustrace: • Pravdˇ epodobnost, ˇ ze si l´ıznu ˇ cervenou z pln´ eho pakl´ıku je 1/32. Pokud jsou v pakl´ıku uˇ z jen ˇ ctyˇ ri karty, je podm´ınˇ en´ a pravdˇ epodobnost l´ıznut´ı ˇ cerven´ e sedmy pokud (za podm´ınky, ˇ ze) ˇ cerven´ a sedma jeˇ stˇ e neˇ sla rovna 1/4.
• Pravdˇ epodobnost, ˇ ze zemˇ ru cestou letadlem je mal´ a. Pravdˇ epodobnost, ˇ ze zemˇ ru za podm´ınky ˇ ze v m´ em letadle je bomba, je velk´ a. • Pravdˇ epodobnost, ˇ ze zbohatnu na burze, je mal´ a. Pravdˇ epodobnost t´ ehoˇ z, pokud m´ am dostatek informac´ı, je vˇ etˇ s´ı.
17
Vztahy: P (¬A) = 1 − P (A), P (A ∨ B) = P (A) + P (B) − P (A ∧ B), P (A ∧ B) = P (A|B)P (B).
(1) (2) (3)
D˚ ukaz: prvn´ı dva lze ovˇ eˇ rit pomoc´ı definice prsti, tˇ ret´ı vypl´ yv´ a z definice podm´ınˇ en´ e prsti. Intuice: Ad. (1): je celkem jasn´ e, ˇ ze pokud nˇ eco nastane na 80%, pak opak nastane na 20%. Ad. (2): Jak´ a je prst, ˇ ze si l´ıznu svrˇ ska (S) nebo zelenou (Z)? M´ am celkem 32 moˇ znost´ı Svrˇ sci jsou ˇ ctyˇ ri, zelen´ ych je osm. Zelen´ y svrˇ sek se ale nesm´ı poˇ c´ıtat dvakr´ at: poˇ cet pˇ r´ızniv´ ych pˇ r´ıpad˚ u je tedy 8 + 4 − 1 = 11. A opravdu: P (Z ∨ S) = P (Z) + P (S) − P (Z ∧ S) = 11/32 (viz pˇ r´ıklad (2) n´ıˇ ze). Ad. (3) Tento vztah v´ıcem´ enˇ e ilustruje slovn´ı definici - opkud chov´ an´ı A nez´ aleˇ z´ı na B, pak nem˚ uˇ ze “mluvit” ani do jeho prsti
D˚ usledek 1: Pokud jsou A a B nesluˇ citeln´ e, pak P (A ∨ B) = P (A) + P (B)
(4)
D˚ ukaz: d´ıky nesluˇ citelnosti plat´ı P (A ∧ B) = 0 takˇ ze lze pouˇ z´ıt (2).
D˚ usledek 2: Necht’ P (B) > 0. Pak A a B jsou nez´ avisl´ e pr´ avˇ e tehdy, kdyˇ z P (A|B) = P (A). D˚ ukaz: Staˇ c´ı dosadit (3) do definice podm. prsti. 18
Pˇ r´ıklady. (1)
(1) P (n´ ahodnˇ e vybran´ a karta nebude ˇ cerven´ a) = 1 − 1/4 = 3/4 (2) P (n´ ahodnˇ e vybran´ a karta bude sedma nebo ˇ cerven´ a) (2)
= =
P (sedma) + P (ˇ cerven´ a) − P (ˇ cerven´ a sedma) 4/32 + 8/32 − 1/32 = 11/32 = 0.344
(3) P (alespoˇ n jedna ze dvou karet je sedma) (1)
=
(3)
=
=
1 − P (prvn´ı nen´ı sedma ∧ druh´ a nen´ı sedma) 1 − P (prvn´ı nen´ı sedma|druh´ a nen´ı sedma)P (druh´ a nen´ı sedma) 28 · 27 28 1− · = 0.213 28 · 31 32
19
Jin´ y pˇ r´ıklad. Pˇ redpokl´ adejme, ˇ ze jsou dva po sobˇ e jdouc´ı hody kostkou nez´ avisl´ e. Pak P (ze dvou hod˚ u padne aspoˇ n jedna ˇ sestka) (1)
=
nez´ av.
= =
1 − P [(nepadne poprv´ e) ∧ (nepadne podruh´ e)] 1 − P (nepadne poprv´ e)P (nepadne podruh´ e) 1 − (5/6)(5/6) = 11/36 = 0.306
20
4. a 5. N´ ahodn´ e veliˇ ciny, rozdˇ elen´ı N´ ahodn´ a veliˇ cina je ˇ c´ıseln´ a veliˇ cina, z´ avisl´ a na n´ ahodn´ ych jevech. Pˇ redstava: N´ ahodnou veliˇ cinu si lze pˇ redstavit jako stroj, ze kter´ eho vypad´ avaj´ı l´ısteˇ cky z hodnotami. Pˇ r´ıklady. V´ ysledek hodu kostkou, poˇ cet ˇ c´ astic vyletuj´ıc´ıch ze z´ aˇ riˇ ce, v´ yˇ ska n´ ahodnˇ e vybran´ e osoby, teplota v poledne. Co je a co nen´ı n.v. z´ avis´ı jistˇ e na okolnostech: m´ am-li j´ızdn´ı ˇ r´ ad, nen´ı pro mne doba pˇ r´ıjezdu autobusu n´ ahodn´ a, nem´ am-li jej, jev´ı se mi pˇ rijezd jako n´ ahodn´ a veliˇ cina.
Pravdˇ epodobnostn´ı chov´ an´ı n´ ahodn´ e veliˇ ciny X (neboli jej´ı rozdˇ elen´ı) je urˇ ceno distribuˇ cn´ı funkc´ı, kter´ a je definov´ ana vztahem F (x) = P (X ≤ x)
(5)
Vlastnosti d.f. (bez d˚ ukazu): limx→−∞ F (x) = 1, limx→∞ F (x) = 0 Pouˇ zit´ı: Z d.f. lze napˇ r. snadno odeˇ c´ıst pravdˇ epodobnost, ˇ ze veliˇ cina padne do zadan´ eho intervalu: P [X ∈ (a, b]] = F (b) − F (a) D˚ ukaz P [(X > a) ∧ (X ≤ b)]
(1)
(4)
=
1 − P [(X ≤ a) ∨ (X > b)] = 1 − (P (X ≤ a) + P (X > b))
=
(1 − P (X > b)) − P (X ≤ a) = P (X ≤ b) − P (X ≤ a)
(5)
=
(1)
F (b) − F (a) 21
Diskr´ etn´ı n´ ahodn´ e veliˇ ciny jsou ty, kter´ e maj´ı nejv´ yˇ se spoˇ cetnˇ e mnoho hodnot. Vˇ etˇ sinou se definuj´ı pomoc´ı pravdˇ epodobnostn´ı funkce: pi = P (X = xi ) kde x1 , x2 , . . . jsou moˇ zn´ e hodnoty veliˇ ciny.
P
Vztah distribuˇ cn´ı a pravdˇ epodobnostn´ı funkce: F (x) = xi ≤x pi P Stˇ redn´ı hodnota: EX = ∞ umˇ eru z popisn´ e statistiky) i=1 xi pi (analogie pr˚ Rozptyl: D(X) = E(X − EX)2 =
∞ X
(xi − EX)2 pi
i=1
= EX 2 − (EX)2 =
∞ X i=1
x2i pi −
̰ X
!2 xi pi
i=1
Pozn´ amka: Nezamˇ eˇ novat s rozptylem z popisn´ e statistiky, byt’ s n´ı´ em souvis´ı. p Interpretace: Stˇ redn´ı hodnota je analogi´ı pr˚ umˇ eru. D(X) (t´ eto veliˇ cinˇ e se ˇ r´ık´ a smˇ erodatn´ a odchylka) mˇ eˇ r´ı stˇ redn´ı odchylku od pr˚ umˇ eru. Smˇ erodatn´ a odchylka se se t´ eˇ z pouˇ z´ıv´ a jako m´ıra rizika. 22
Pˇ r´ıklad: Je-li pravdˇ epodobnost pˇ r´ıchodu revizora 0.02, l´ıstek stoj´ı 12Kˇ c a je-li pokuta je 400 Kˇ c, pak ”v´ ynos” V ˇ cern´ eho pasaˇ z´ era (ve srovn´ an´ı s pˇ r´ıpadem, ˇ ze by platil) je diskr´ etn´ı n´ ahodn´ a veliˇ cina s x1 = 12, p1 = 0.98, x2 = −400 a p2 = 0.02. Stˇ redn´ı hodnota v´ ynosu je EV = 12 · 0.98 − 400 · 0.02 = 3.76, rozptyl ˇ cin´ı D(V ) = EV 2 − (EV )2 = 122 · 0.98 + 4002 · 0.02 − 3.76 = 3336.98 smˇ erodatn´ a odchylka je tedy 57.68.
23
Nejˇ castˇ ejˇ s´ı typy (rozdˇ elen´ı) diskr´ etn´ıch n. v.: • Alternativn´ı A(p) px = px (1 − p)1−x EX = p
pro x = 0, 1,
p ∈ (0, 1)
D(X) = p(1 − p)
• Binomick´ e Bi(n, p) ¡n¢ x px = x p (1 − p)n−x EX = np
pro x = 0, 1, . . . , n,
p ∈ (0, 1)
D(X) = np(1 − p)
• Poissonovo Po(λ) px =
λx x!
e−λ
EX = λ
pro x = 0, 1, . . . ,
λ>0
D(X) = λ
24
Vztahy mezi rozdˇ elen´ımi: • Plat´ı, ˇ ze
|A(p) + A(p){z+ . . . + A(p)} ∼ Bi(n, p) souˇ cet n nez´ avisl´ ych
(6)
D˚ ukaz lze prov´ est indukc´ı dle n pomoc´ı pˇ r´ım´ eho v´ ypoˇ ctu prstn´ıch funkc´ı.
• Pokud je n velk´ e, pak Bi(n, p)∼P ˙ o(np), Bez d˚ ukazu.
X ∼ R znamen´ a, ˇ ze veliˇ cina X m´ a rozdˇ elen´ı R.
25
Pˇ r´ıklady • Poˇ cet ´ uspˇ ech˚ u v jednom pokusu s prst´ı ´ uspˇ echu p ∼ A(p) • Poˇ cet ´ uspˇ ech˚ u v n takov´ ych pokusech (dle prvn´ıho vztahu) ∼ Bi(n, p). Napˇ r´ıklad poˇ cet pannen z 10 hod˚ u minc´ı ∼ Bi(10, 1/2), poˇ cet ˇ sestek z pˇ eti hod˚ u kostkou ∼ Bi(5, 1/6), poˇ cet kontrol revizorem ze 100 j´ızd ∼ Bi(100, 0.02) (pokud je prst pˇ r´ıchodu revizora 0.02). • Poˇ cet kladn´ ych odpovˇ ed´ı v anketˇ e mezi n respondenty v pr´ıpadˇ e, ˇ ze pomˇ er kladnˇ e odpov´ıdaj´ıc´ıch v cel´ e populaci je p, m´ a Bi(n, p). Proˇ c? Jednotliv´ e dotazy si m˚ uˇ zeme pˇ redstavit jako nez´ avisl´ e pokusy s prst´ı ´ uspˇ echu p.
• Pokud pˇ redpokl´ ad´ ame, ˇ ze nˇ ejak´ a ud´ alost nastane ”stejnˇ e pravdˇ epodobnˇ e” v kter´ emkoli ˇ case a jednotliv´ e ud´ alosti na sobˇ e nez´ av´ıs´ı, pak m´ a poˇ cet takov´ ychto ud´ alosti v urˇ cit´ em ˇ casov´ em intervalu Poissonovo rozdˇ elen´ı. Pˇ r´ıklady: poˇ cet poruch stroje, poˇ cet z´ akazn´ık˚ u pˇ riˇ sl´ ych do obchodu v urˇ cit´ em ˇ casov´ em intervalu, poˇ cet rozpad˚ u v radioaktivn´ım vzorku. ˇ asov´ Proˇ c? C y interval m˚ uˇ zeme rozdˇ elit na n velmi mal´ ych ´ usek˚ u, kdy je prst p, ˇ ze pˇ rijde z´ akazn´ık, velmi mal´ a, a prst, ˇ ze pˇ rijdou dva, jeˇ stˇ e mnohem menˇ s´ı, takˇ ze ji m˚ uˇ zeme zanedbat. Opˇ et si lze pˇ redstavit, ˇ ze kon´ ame n nez´ avislych pokus˚ u, celkov´ y poˇ cet z´ akazn´ık˚ u m´ a tedy ∼Bi(n, ˙ p), kter´ e lze d´ıky druh´ emu vztahu nahradit ∼P ˙ o(np). 26
Pˇ r´ıklad: Jak´ a je pravdˇ epodobnost, ˇ ze revizor pˇ rijde m´ enˇ e neˇ z dvakr´ at za ˇ eˇ 100 j´ızd, kdyˇ z prst jeho pˇ r´ıchodu pˇ ri jedn´ e j´ızdˇ e je 0.02? R sen´ı: Jak v´ıme, kontrlo m´ a Bi(100, 0, 02) dle (4) plat´ı P(prijde ≤ 2) = P(nepˇ rijde) + P(pˇ rijde jednou) + P(pˇ rijde 2 kr´ at) = p0 + p1 + p2 ³100´ ³100´ 100 = 0.98 + 0.9899 0.02 1 ³0100´ + 0.9898 0.022 = 0.67 2
27
Spojit´ a rozdˇ elen´ı jsou ta, kter´ a mohou nab´ yvat vˇ sech hodnot nˇ ejak´ eho intervalu. Nejˇ castˇ eji se definuj´ı pomoc´ı hustoty f (x). Vztah hustoty a distribuˇ cn´ı funkce: funkce Z F (x) = P(X ≤ x) =
x
f (t) dt,
−∞
jin´ ymi slovy f (x) =
dF (x) dx
≥0
D˚ usledek: Prst, ˇ ze n´ ahodn´ a veliˇ cna ”padne” do intervalu (a, b) je urˇ cena plochou vymezenou hustotou nad intervalem (a, b). Interpretace hustoty: Pokud kon´ ame mnohokr´ at opakujeme pozorov´ an´ı spojit´ e n´ ahodn´ e veliˇ ciny a z´ıskan´ y vzorek zobraz´ıme pomoc´ı histogramu s dostateˇ cnˇ e malou ˇ s´ıˇ rkou interval˚ u, tvar histogramu se vzr˚ ustaj´ıc´ım poˇ ctem pozorov´ an´ı st´ ale v´ıce pˇ ribliˇ zuje k tvaru hustoty. Stˇ redn´ı hodnota:
Z
∞
EX =
x f (x) dx −∞
28
Rozptyl:
Z 2
∞
D(X) = E(X − EX) =
(x − EX)2 f (x) dx
−∞ ∞
µZ
Z = EX 2 − (EX)2 =
x2 f (x) dx −
−∞
∞
¶2 x f (x) dx
−∞
Kvantil: qα : P(X ≤ α) = α tj. takov´ a hondnota, kter´ a je pˇ rekroˇ cena s prst´ı α. Pozn´ amka: Nezamˇ eˇ novat s rozptylem a kvantilem z popisn´ e statistiky, byt’ s nimi souvis´ı.
Nejˇ castˇ ejˇ s´ı spojit´ a rozdˇ elen´ı • Rovnomˇ ern´ e R(a, b) EX =
a+b 2
• Norm´ aln´ı EX = µ
D(X) = N(µ, σ 2 )
1 b−a (b−a)2 12
f (x) =
f (x) =
D(X) =
√ 1 2πσ 2 σ2
e
pro x ∈ (a, b)
2
− (x−µ) 2σ 2
pro x ∈ R,
µ ∈ R, σ 2 > 0
aln´ı LN(µ, σ 2 ) X ∼ LN(µ; σ 2 ) ⇐⇒ lnX ∼ N(µ; σ 2 ) • Lognorm´ 2 2 2 EX = eµ+σ /2 D(X) = e2µ+σ (eσ − 1)
29
• Ch´ı-kvadr´ at χ2 (n)
V =
n X
Ui2 ∼ χ2 (n),
kde Ui ∼ N(0; 1), U1 , . . . , Un nez´ avisl´ e
i=1
• Studentovo t(n) U T = q ∼ t(n), V n
kde U ∼ N (0, 1), V ∼ χ2 (n), U, V nez´ avisl´ e
• Fisherovo–Snedecorovo F(n1 , n2 )
Z=
V1 n1 V2 n2
∼ F(n1 , n2 ),
kde V1 ∼ χ2 (n1 ), V2 ∼ χ2 (n2), V1 , V2 nez´ avisl´ e
30
Pˇ r´ıklady • Pokud nen´ı d˚ uvod, proˇ c by veliˇ cina mˇ ela nab´ yvat jedn´ e hodnoty ”pravdˇ epodobnˇ eji” neˇ z jin´ e, vol´ıme rovomˇ ern´ e rozdˇ elen´ı (pˇ r´ıklad: tramvaj m´ a interval 10 minut a my nem´ ame j´ızdn´ı ˇ r´ ad. Vol´ıme tedy R(0, 10)). • Norm´ aln´ı rozdˇ elen´ı m´ a ve statistice ´ ustˇ redn´ı postaven´ı, viz d´ ale. • Z nˇ ekter´ ych model˚ u chov´ an´ı cen akci´ı vypl´ yv´ a, ˇ ze ceny akci´ı maj´ı lognorm´ aln´ı rozdˇ elen´ı. • Zbyl´ a tˇ ri rozdˇ elen´ı byla odvozena pro potˇ reby statistiky a v ”pˇ r´ırodˇ e” se sp´ıˇ se nevyskytuj´ı, viz d´ ale.
31
Poˇ c´ıt´ an´ı s E a D • Pro kaˇ zd´ e dvˇ e n´ ahodn´ e veliˇ ciny X a Y a konstanty a, b ∈ R plat´ı E(aX + bY ) = aEX + bEY
(7)
Bez d˚ ukazu.
• Jsou-li X a Y nez´ avisl´ e, pak D(aX + bY ) = a2 D(X) + b2D(Y )
(8)
Bez d˚ ukazu.
32
V´ ypoˇ cet pravdˇ epodobnostn´ıch a distribuˇ cn´ıch funkc´ı v Excelu: • Bi(n, p): px = BINOMDIST(x,n,p,NEPRAVDA), F (x) = BINOMDIST(x,n,p,PRAVDA) • P o(λ): px = POISSON(x,λ,NEPRAVDA), F (x) = POISSON(x,λ,PRAVDA), • N (µ, σ 2): f (x) = NORMDIST(x,µ,σ, NEPRAVDA), F (x) = NORMDIST(x,µ,σ, PRAVDA), qα = NORMINV(α,µ,σ), • N (0, 1): F (x) = NORMSDIST(x), qα = NORMSINV(α), • χ2 (n): F (x) = 1-CHIDIST(x,n), qα = CHIINV(1 − α,n) 33
• t(n): F (x) = 1-TDIST(x,n,1), qα = TINV(1 − 2α,n) • F (n1 , n2): F (x) = 1-FDIST(x,n1 ,n2 ), qα = FINV(1 − α,n1 ,n2 )
Limitn´ı vlastnosti Definice. Veliˇ ciny X a Y jsou nez´ avisl´ e, pokud pro kaˇ zd´ e A ⊆ R, B ⊆ R plat´ı P(X ∈ A ∧ Y ∈ B) = P(X ∈ A)P(Y ∈ B). • Z´ akon velk´ ych ˇ c´ısel: Je-li X1 , X2 , . . . posloupnost nez´ avisl´ ych stejnˇ e rozdˇ elen´ ych veliˇ cin, EXi = µ < ∞, pak n 1 X n→∞ Xi −→ µ n i=1
Bez d˚ ukazu. Pozn´ amka: jde o tzv. konvergenci v pravdˇ epodobnosti.
• Centr´ aln´ı limitn´ı vˇ eta: Je-li X1 , X2, . . . posloupnost nez´ avisl´ ych stejnˇ e rozdˇ elen´ ych veliˇ cin s vlastnost´ı EXi = µ, D(Xi ) = σ 2 < ∞, pak Pn i=1 Xi − nµ n→∞ √ −→ N (0, 1). nσ 2 Bez d˚ ukazu. Pozn´ amka: jde o tzv. konvergenci v distribuci.
34
Pouˇ zit´ı limitn´ıch vlastnost´ı: ˇ Zaruˇ ZVC: cuje, ˇ c´ım vˇ etˇ s´ı rozs´ ahlejˇ s´ı vzorek populace populace budeme m´ıt, t´ım v´ıce se pˇ rebliˇ zujeme k skuteˇ cn´ e odnotˇ e pr˚ umˇ eru. Pˇ r´ıklad: Pokud bude ˇ cern´ y pasaˇ z´ eˇ r jezdit dost dlouho, jeho pr˚ uˇ emrn´ y v´ ydˇ elek se bude st´ ale v´ıce bl´ıˇ zit 3.76. CLV: D´ıky t´ eto vˇ etˇ e m˚ uˇ zeme pracovat i s n´ ahodn´ ymi veliˇ cinami, jejichˇ z rozdˇ elen´ı nezn´ ame: pokud m´ ame dostateˇ cnˇ e velk´ y vzorek populace, m˚ uˇ zeme napˇ r´ıklad pr˚ umˇ er tohoto vzorku povaˇ zovat za (pˇ ribliˇ znˇ e) norm´ alnˇ e rozdˇ elenou veliˇ cinu (a pouˇ z´ıvat testy, kter´ e pˇ redpokl´ adaj´ı norm´ aln´ı rozdˇ elen´ı, viz d´ ale).
35
Aproximace rozdˇ elen´ı: S urˇ citou licenc´ı lze CLV pˇ repsat jako à ! n X X X Xi ∼N ˙ E Xi , D( Xi ) i=1
i
i
Aplikace: Protoˇ ze lze Bi(n, p) vyj´ adˇ rit jako souˇ cet nez´ avisl´ ych n´ ahodn´ ych veliˇ cin (viz v´ yˇ se), lze na tyto sˇ c´ıtance pouˇ z´ıt CLV: Bi(n, p)∼N ˙ (np, np(1 − p)) Podobnˇ e, protoˇ ze lze Poissonovo rozdˇ elen´ı vyj´ adˇ rit jakou souˇ cet mnoha Poissonov´ ych rozdˇ elen´ı (lze dok´ azat pˇ r´ım´ ym v´ ypoˇ ctem pravdˇ epodobnsotn´ıch funkc´ı) m˚ uˇ zeme ps´ at P o(λ)∼N ˙ (λ, λ).
36
6. V´ ybˇ er V´ ybˇ er z koneˇ cn´ e populace. Uvaˇ zujme koneˇ cnou populaci u kter´ ych mˇ eˇ r´ıme urˇ citou hodnotu. Vyberemi-li n´ ahodnˇ e n ˇ clen˚ u populace (tj. kaˇ zd´ a n-tice mus´ı b´ yt vybr´ ana se stejnou pravdˇ epodobnost´ı), pak se soubor n namˇ eˇ ren´ ych hodnot naz´ yv´ a v´ ybˇ erem z koneˇ cn´ e populace o rozsahu n. Pozn´ amka: Hodnota znaku, namˇ eˇ ren´ a u jednoho n´ ahodnˇ e vybran´ eho ˇ clena populace, je n´ ahodnou veliˇ cinou s pravdˇ epodobnostn´ı funkc´ı rovnou relativn´ımu rozdˇ elen´ı ˇ cetnosti znaku, stˇ redn´ı hodnotou rovnou aritmetick´ emu pr˚ umˇ eru znaku a rozptylem rovn´ ym rozptylu definovan´ emu v popisn´ e statistice. Bez d˚ ukazu.
V´ ybˇ er z nekoneˇ cn´ e populace. Pokud v´ ybˇ er vznik´ a opakovan´ ym mˇ eˇ ren´ım hodnoty nˇ ejak´ e n´ ahodn´ e veliˇ ciny, a pokud neexistuje omezen´ı rozsahu v´ ybˇ eru (napˇ r´ıklad v pˇ r´ıpadˇ e opakovan´ eho kon´ an´ı pokusu), hovoˇ r´ıme o v´ ybˇ eru z nekoneˇ cn´ e populace. Aproximace: V praxi se ˇ casto s v´ ybˇ erem z koneˇ cn´ e pracuje jako by to byl v´ ybˇ er z nekoneˇ cn´ e populace. D˚ uvodem je fakt, ˇ ze se s druh´ ym zm´ınˇ en´ ym mnohem l´ epe poˇ c´ıt´ a. Pozn´ amka: U v´ ybˇ eru t´ eˇ z b´ yv´ a poˇ zadov´ ano, aby byly jednotliv´ e hodnoty nez´ avisl´ e. V praxi to znamen´ a, ˇ ze zp˚ usob v´ ybˇ eru jedn´ e hodnoty nesm´ı 37
z´ aviset na zp˚ usobu v´ ybˇ eru druh´ e. Napˇ r´ıklad, vybral-li jsem jednoho respondenta v chudinsl´ e ˇ ctvrti (a zkouman´ a veliˇ cina na chudobˇ e z´ avis´ı), nemˇ el bych tam vybrat vˇ sechny ostatn´ı. ´ Umluva Nad´ ale tedy budeme pod slovem v´ ybˇ er o rozsahu n rozumˇ et ntici nez´ avisl´ ych stejnˇ e rozdˇ elen´ ych veliˇ cin. Budeme-li mluvit o v´ ybˇ eru z rozdˇ elen´ı R, bude to znamenat, ˇ ze vˇ sechny veliˇ ciny maj´ı rozdˇ elen´ı R.
7., 8. Statistick´ e odhady Pˇ redpokl´ adejme, ˇ ze m´ a veliˇ cina X zn´ am´ e rozdˇ elen´ı s nezn´ am´ ym parametrem θ, jehoˇ z hodnotu chceme odhadnout. D´ ale pˇ redpokl´ adejme, ˇ ze m´ ame k dispozici v´ ybˇ er X1, X2, . . . , Xn z rozdˇ elen´ı X. Bodov´ e odhady θˆ(X1 , X2 , . . . , Xn ) ∈ R (d´ ale budeme ps´ at jen θˆ). Klasifikace bodov´ ych odhad˚ u: Odhad θˆ je • nestrann´ y (nevych´ ylen´ y), pokud Eθˆ = θ • konzistentn´ı, pokud lim θˆn = θ n→∞
Jde o konvergenci v pravdˇ epodobnosti.
38
Nejbˇ eˇ znˇ ejˇ s´ı bodov´ e odhady
P ¯ = 1 ni=1 Xn je nestrann´ • X ym a konzistentn´ım odhadem parametru n ¯ = 1 D(X). M´ ¯ t´ EX, pˇ riˇ cemˇ z D(X) a-li X norm´ aln´ı rozdˇ elen´ı, m´ a X eˇ z n norm´ aln´ı rozdˇ elen´ı. Pn Pn (7)
¯ = 1/n D˚ ukaz nestrannosti: EX EXi = 1/n i=1 EX = EX. Konzistence vypl´ yv´ a i=1 ˇ . V´ ze ZVC ypoˇ cet rozptylu: vypl´ yv´ a z (8). Normalita: bez d˚ ukazu. 1 n−1
Pn
¯ 2 je nestrann´ − X) ym konzistent´ım odhadem D(X). p 2 M´ a-li X norm´ aln´ı rozdˇ elen´ı, m´ a veliˇ cina S / D(X) rozdˇ elen´ı χ2n−1.
• s2 =
i=1 (Xi
Bez d˚ ukazu.
• Je-li X ∼ Bi(n, p) se zn´ am´ ym n a nezn´ am´ ym p, je pˆ = X/n nestrann´ ym konzistentn´ım odhadem p. Pn ˇ A(p) ZVC (6) i=1 D˚ ukaz konzistence: Jak bylo ˇ reˇ ceno dˇ r´ıve, Bi(n,p) = = EA(p) = p. n n D˚ ukaz nestrannosti: Dle vlastnost´ı binomick´ eho rozdˇ elen´ı EX = np, tud´ıˇ z EX/n = p.
39
Intervalov´ e odhady (t´ eˇ z intervaly spolehlivosti) N´ ahodn´ y interval tvaru (θd , θh). B´ yv´ a konstruov´ an tak, aby pˇ rekryl parametr θ s pˇ redem urˇ cenou pravdˇ epodobnost´ı 1 − α. Klasifikace intervalov´ ych odhad˚ u • levostrann´ y interval spolehlivosti: P(θ ∈ (−∞, θh )) = 1 − α • pravostrann´ y interval spolehlivosti: P(θ ∈ (θd , ∞)) = 1 − α • dvoustrann´ y interval spolehlivosti: P(θ ∈ (θd , θh )) = 1 − α
40
Intervalov´ e odhady parametr˚ u norm´ aln´ıho rozdˇ elen´ı N (µ, σ 2 ) • Intervaly spolehivosti pro µ, pokud je σ 2 zn´ am: Oboustrann´ y: (¯ x − u1− α2 √σn , x ¯ + u1− α2 Levostrann´ y: (¯ x − u1−α √σn , ∞), Pravostrann´ y: (−∞, x ¯ + u1−α √σn )
√σ ), n
u1− α2 a u1−α jsou kvantily N (0, 1) am: • Intervaly spolehivosti pro µ, pokud σ 2 nen´ı zn´ Oboustrann´ y: (¯ x − t1− α2 √sn , x ¯ + t1− α2 Levostrann´ y: (¯ x − t1−α √sn , ∞), Pravostrann´ y: (−∞, x ¯ + t1−α √sn ),
√s ), n
t1− α2 a t1−α jsou kvantily t(n).
41
• Intervaly spolehlivosti pro parametr σ 2 µ ¶ 2 2 s (n−1) s Oboustrann´ y: (n−1) , χ2α , χ21− α 2 2 ³ ´ (n−1) s2 Levostrann´ y: ,∞ , χ21−α ´ ³ (n−1) s2 , Pravostramm´ y: −∞, χ2 α
χ21− α a χ2α jsou kvantily χ2 (n − 1) 2
2
42
Intervaly spolehlivosti pro teoretickou relativn´ı ˇ cetnost π (pˇ ribliˇ zn´ e, jen pro dostateˇ cnˇ e velk´ e n) µ ¶ q q p) p) Oboustrann´ y: pˆ − u1− α2 pˆ(1−ˆ , pˆ + u1− α2 pˆ(1−ˆ n n µ ¶ q p) ,∞ Levostrann´ y: pˆ − u1−α pˆ(1−ˆ n µ ¶ q p) Pravostrann´ y: −∞, pˆ + u1−α pˆ(1−ˆ n
43
Statistick´ e odhady ve Statgraphicsu • Bodov´ e odhady EX a D(X): Describe|Numeric Data|One-Variable Analysis V Tabular options zatrhnout Summary Statistics, V´ ysledek: ¯ Average X s Standard deviation • Intervalov´ e odhady: Describe|Numeric Data|One-Variable Analysis V Tabular options zatrhnout Confidence interval V´ ysledek: oboustrann´ y pro EX √ oboustrann´ y pro DX
confidence interval for mean confidence interval for standard deviation
44
Statistick´ e odhady ve Excelu ¯ X s
PR˚ UMˇ ER SMODCH.V´ YBˇ ER
Ostatn´ı je potˇ reba dopoˇ c´ıtat nebo pouˇ z´ıt N´ astroje|Anal´ yza dat
45
9. Testov´ an´ı hypot´ ez Uvaˇ zujme n´ ahodnou veliˇ cinu s nezn´ am´ ym parametrem, mˇ ejme dvˇ e (vyluˇ cuj´ıc´ı se) hypot´ ezy o parametru (prvn´ı nazvˇ eme nulovou hypot´ ezou a znaˇ cme ji H0 , druh´ eˇ rikejme alternativa a znaˇ cme ji H1. pˇ redpokl´ adejme, ˇ ze m´ ame k dispozici v´ ybˇ er z tohoto rozdˇ elen´ı a ˇ reˇ sme probl´ em, ke kter´ e hypot´ eze se na z´ akladˇ e tohoto v´ ybˇ eru pˇ riklonit.
46
Pˇ r´ıklad: Chceme zjistit, zda je mince symetrick´ a, tj. ˇ ze obˇ e strany padaj´ı pr˚ umˇ ernˇ e stejnˇ e ˇ casto (nulov´ a hypot´ eza) nebo zda jedna strana pad´ a pr˚ umˇ ernˇ eˇ castˇ eji neˇ z druh´ a (alternativa) ˇ eˇ R ceno v ˇ reˇ ci statistiky: H0 : EX = 1/2,
H1 : EX 6= 1/2
kde X = 0, kdyˇ z padne panna, a X = 1, padne-li orel. Abychom rozhodli, hod´ıme ”dostatˇ cnˇ ekr´ at” minc´ı (z´ısk´ ame v´ ybˇ er). Pokud bude pr˚ umˇ er pˇ r´ıpad˚ u, kdy padne orel, dostateˇ cnˇ e bl´ızko 1/2, pˇ r´ıklon´ıme se k H0 , pokud bude dostateˇ cnˇ e odliˇ sn´ y od 1/2, pˇ riklon´ıme se k H1 . Probl´ em: Jak se pozn´ a ”dostateˇ cnˇ e odliˇ sn´ y” v´ ysledek? Nem˚ uˇ ze nastat pˇ r´ıpad, kdy se nemohu rozhodnout ani pro jednu hypot´ ezu? Odpovˇ ed’ na druhou ot´ azku je ano, odpovˇ ed’ na prvn´ı ot´ azku viz d´ ale.
47
Statistick´ e testov´ an´ı hypot´ ez Mˇ ejme hypot´ ezu H0 a alternativu H1 t´ ykaj´ıc´ı se parametru µ a v´ ybˇ er X1 , X2 , . . . , X n . Statistick´ y test definujeme jako trojici tvoˇ renou funkc´ı t = t(X1, X2, . . . , Xn ), mnoˇ zinou W a ˇ c´ıslen α. Funkci t ˇ r´ık´ ame statistika, mnoˇ zinˇ e W kritick´ y obor ˇ c´ıslu α ˇ r´ık´ ame hladina. Pokud se stane, ˇ ze t ∈ W , ˇ r´ık´ ame, ˇ ze v testu vyˇ sel statisticky v´ yznamn´ y v´ ysledek a zam´ıt´ ame H0 na hladinˇ e α. Pokud t ∈ / W , hypot´ ezu H0 nezam´ıt´ ame. ¯ W = [0, 1/2 − δ) ∪ (1/2 + δ] pro vhodnˇ V naˇ sem pˇ r´ıkladu s minc´ı by bylo t = X, e zvolen´ e δ.
48
Chyba prvn´ıho druhu: Pravdˇ epodobnost, ˇ ze zam´ıtneme H0 , aˇ ckoli je spr´ avn´ a. Chyba druh´ eho druhu: Pravdˇ epodobnost, ˇ ze nezam´ıtneme H0 , aˇ ckoli plat´ı H1 . Testy jsou konstruov´ any vˇ zdy tak, ˇ ze chyba prvn´ıho druhu je menˇ s´ı nebo rovna hladinˇ e. Jako hladina testu se vˇ etˇ sinou bere 0.05. Tedy plat´ı, ˇ ze ˇ c´ım niˇ zˇ s´ı je hladina, t´ım menˇ s´ı je prst, ˇ ze se zm´ yl´ıme, zam´ıtneme-li H0 , testy s niˇ zˇ s´ı hladinou jsou tedy kvalitnˇ ejˇ s´ı
Pokud bychom nesymetrii kostky chtˇ eli testovat na hladinˇ e α, museli by¯ − 1/2| ≥ δ] ≤ chom δ nastavit tak, aby v pˇ r´ıpadˇ e, ˇ ze EX = 1/2 platilo P [|X α.
49
Pozor! Pokud hypot´ ezu nezam´ıt´ ame, neznamen´ a, ˇ ze ji pˇ rij´ım´ ame! Pˇ redstavme si, ˇ ze by mince byla nesymetrick´ a, ale jen velmi m´ alo, to znamen´ a, ˇ ze ani po mnoha hodech by pr˚ umˇ er nebyl dostateˇ cnˇ e vzd´ alen´ y od 1/2, tj. nepadl by do kritick´ eho oboru. Na z´ akladˇ e testu bychom tedy nemohli zamitnout H0 . Kdybychom vˇ sak pˇ rijali H1, dopustili bychom se omylu. Proto ˇ r´ık´ ame jen, ˇ ze H0 nezam´ıt´ ame.
50
Test hypot´ ezy o pr˚ umˇ eru norm´ aln´ıho rozdˇ elen´ı
H 0 : µ = µ0 proti nˇ ekter´ e z alternativ H1 : µ > µ 0
(pravostrann´ a alternativa)
H1 : µ < µ 0
(levostrann´ a alternativa)
H1 : µ 6= µ0
(oboustrann´ a alternativa)
Pˇ r´ıklad: M´ ame skupinu desetilet´ ych dˇ et´ı a zjiˇ st’ujeme, zda nemaj´ı nadnorm´ aln´ı vzr˚ ust (ˇ reknˇ eme, ˇ ze bˇ eˇ zn´ y pr˚ umˇ ern´ y vzr˚ ust je 130cm). O biologick´ ych veliˇ cin´ ach se ˇ casto pˇ redpokl´ ad´ a, ˇ ze maj´ı norm´ aln´ı rozdˇ eleni. Pouˇ zijeme tedy tento test s H0 : µ = 130,
H1 : µ > 130.
51
• Zn´ ame-li√rozptyl, pak test vypad´ a n´ asledonvˇ e - jako statistika se pouˇ zije x ¯−µ0 u= σ n ∼ N (0, 1), kritick´ y obor z´ avis´ı na alternativˇ e Alternativn´ı hypot´ eza H1 : µ < µ 0
Kritick´ y obor u ≤ −1, 64
H1 : µ > µ 0
u ≥ 1, 64
H1 : µ 6= µ0
u ≤ −1, 96 a u ≥ 1, 96
• Nezn´ ame-li rozptyl, je statistika: t = pak
x ¯−µ0 √ n s
∼ t(n − 1), kritick´ y obor
Alternativn´ı hypot´ eza H1 : µ < µ 0
Kritick´ y obor t ≤ tα (n − 1)
H1 : µ > µ 0
t ≥ t1−α(n − 1)
H1 : µ 6= µ0
t ≤ tα/2 (n − 1) a t ≥ t1−α/2 (n − 1)
Tento druh´ y test se naz´ yv´ a jednov´ ybˇ erov´ y t-test
52
Jednov´ ybˇ erov´ y t-test ve Statgraphicsu. Describe|Hypothesis test ¯ do Sample sigma veliˇ Do Sample mean vloˇ zit X, cinu s (pozor, nikoli s2 ) do Null hypothesis hodnotu µ0 , do Sample size hodnotu n a zatrhnout Normal Mean. Po odesl´ an´ı ze zobraz´ı v´ ysledek testu s nezn´ am´ ym rozptylem s alternativou µ 6= µ0 . Jednostrann´ e testy m˚ uˇ zeme zvolit pomoc´ı prav´ eho tlaˇ c´ıtka a volby Analysis options. Uˇ ziteˇ cn´ a rada. Ve Statgraphicsu (a jin´ ych programech) nemus´ıme srovn´ avat statistiky s tabulkami - zda test vyˇ sel v´ yznamnˇ e, pozn´ ame podle veliˇ ciny p-value: Pokud je menˇ s´ı neˇ z hladina naˇ seho testu, vyˇ sel test v´ yznamnˇ e.
53
Test shody dvou pr˚ umˇ er˚ u norm´ aln´ıho rozdˇ elen´ı
H 0 : µ1 = µ 2 • pˇ ri zn´ am´ ych rozptylech (za platnosti H0 ): x¯1 − x¯2 u=q 2 ∼ N (0, 1) σ1 σ22 + n2 n1 • pˇ ri nezn´ am´ ych 2 2 σ1 = σ2 (za platnosti H0 ): t=q
rozptylech
x¯1 − x¯2 (n1 −1)s21 +(n2 −1)s22 n1 +n2 −2
q
1 n1
+
1 n1
za
pˇ redpokladu
∼ t(n1 + n2 − 2)
Alternativn´ı hypot´ eza H 1 : µ1 < µ 2
Kritick´ y obor t ≤ tα (n1 + n2 − 2)
H 1 : µ1 > µ 2
t ≥ t1−α(n1 + n2 − 2)
H1 : µ1 6= µ2
t ≤ tα/2(n1 + n2 − 2) a t ≥ t1−α/2 (n1 + n2 − 2)
(Tento test se naz´ yv´ a dvouv´ ybˇ erov´ y t-test se shodou rozptyl˚ u). 55
• pˇ ri nezn´ am´ ych 2 2 σ1 = σ2 (za platnosti H0 ):
rozptylech
x¯1 − x¯2 t=q 2 ∼ t(ν), s22 s1 + n2 n1
bez
pˇ redpokladu
s2
ν=
s22 2 ) n2 s21 2 s22 2 1 1 ( ) + ( ) n1 −1 n1 n2 −1 n2
( n11 +
(Tento test se naz´ yv´ a dvouv´ ybˇ erov´ y t-test se beze shody rozptyl˚ u). Pˇ riklad: Pˇ ri testov´ an´ı l´ eku se jedn´ e skupinˇ e pacient˚ u pod´ a l´ ek a druh´ e placebo (pilulky s ne´ uˇ cinnou l´ atkou) a srovn´ av´ a se, zda je pr˚ umˇ ern´ a zmˇ ena pˇ r´ıznaku nemoci u prvn´ı skupiny v´ yznamnˇ e vˇ etˇ s´ı neˇ z u druh´ e skupiny. Pro srovn´ an´ı se pouˇ zije jeden z t-test˚ u
To, zda pouˇ z´ıt test se shodou rozptyl˚ u nebo beze shody rozptyl˚ u m˚ uˇ ze vyplynout bud’ z nˇ ejak´ e teoretick´ e ´ uvahy nebo na z´ akladˇ e n´ asleduj´ıc´ıcho Testu shody rozptyl˚ u dvou norm´ aln´ıch rozdˇ elen´ı: H0 : σ12 = σ22 proti jedn´ e z alternativ H1 : σ12 > σ22 , H1 : σ12 < σ22 , H1 : σ12 6= σ22 Testov´ a statistika F (za platnosti H0 ): s12 F = 2 ∼ F (n1 − 1, n2 − 1) s2 Alternativn´ı hypot´ eza H1 : σ12 < σ22
Kritick´ y obor F ≤ Fα (n1 − 1, n2 − 1)
H1 : σ12 > σ22
F ≥ F1−α ((n1 − 1, n2 − 1)
H1 : σ12 6= σ22
F ≤ Fα/2 (n1 − 1, n2 − 1) a F ≥ F1−α/2 (n1 − 1, n2 − 1)
Testy parametr˚ u dvou norm´ aln´ıch rozdˇ elen´ı v SG: Compare|Two Samples|Two Sample Comparison, v Tabular Options zatrhnout Comparison of Means (pro stˇ redn´ı hodnoty) a/nebo Comparison of Standard Deviations (pro rozptyly).
56
P´ arov´ y t-test Pˇ redpokl´ ad´ ame n1 = n2 = n a testujme H0 : µ1 = µ2 Urˇ c´ıme di = x1i − x2i , z nich spoˇ cteme d¯ a s2d . statistika t (za platnosti H0 ): t=q
d¯ s2d n−1
∼ t(n − 1)
Alternativn´ı hypot´ eza H 1 : µ1 < µ 2
Kritick´ y obor t ≤ tα(n − 1)
H 1 : µ1 > µ 2
t ≥ t1−α (n − 1)
H1 : µ1 6= µ2
t ≤ tα/2 (n − 1) a t ≥ t1−α/2 (n − 1)
Pouˇ zije se zejm´ ena v pˇ r´ıpadˇ e dvou mˇ eˇ ren´ı na kaˇ zd´ e jednotce (v tomtopˇ r´ıpadˇ e by bylo chybou pouˇ z´ıt dvouv´ ybˇ erov´ y test, protoˇ ze mˇ eˇ ren´ı mohou b´ yt z´ avisl´ a. Pˇ r´ıklad pouˇ zit´ı - jin´ y test ´ uˇ cinnosti l´ eku: Skupinˇ e liˇ c´ı je zmˇ eˇ rena hodnota pˇ r´ıznaku l´ eˇ cen´ e nemoci, pak je jim pod´ an l´ ek, a opˇ et je zmˇ eˇ rena hodnota pˇ r´ıznaku. Pomoc´ı testu se zjist´ı, zda je rozd´ıl v´ yznamn´ y.
P´ arov´ y t-test ve SG: Compare|Two Samples|Paired Samples Comparison 57
Test parametru alternativn´ıho rozdˇ elen´ı H0 : π = π0 . Pokud n > 9/(π(1 − π)) (za platnosti H0 ): p − π0
u=p
π0 (1 − π0 )
√
n ∼ N (0, 1)
kde p je v´ ybˇ erov´ aˇ cetnost. Pˇ r´ıklad: Politick´ a strana mˇ ela preference 10% a chtˇ ela si ovˇ eˇ rit, zda jej´ı preference neklesly. Nov´ y v´ yzkum na vzorku 100 lid´ı odhadl preference na 8%. Je d˚ uvod se znepokojovat? ˇ sen´ı: Testujeme hypot´ Reˇ ezu H0 : π = 0.1 oproti H1 : π > 0.1. Protoˇ ze 9/(0.1 · 0.9) = 81 ≤ 100, m˚ uˇ zeme pouˇ z´ıt uveden´ y test. Vych´ az´ı 0.08 − 0.10
√
u=p 100 = 0.10(1 − 0.10)
−0.02 10 = −0.66 0.3
Protoˇ ze jednostrann´ a kritick´ a hodnota norm´ aln´ıho rozdˇ elen´ı je 1.64, nem˚ uˇ zeme hypot´ ezu H0 zam´ıtnout, tedy nen´ı d˚ uvod se znepokojovat. Kdyby ovˇ sem byl pr˚ uzkum proveden na 1000 respondentech a vyˇ slo by 8%, statistika by vyˇ sla −2.1, dala by se H0 zam´ıtnout.
Test parametru Poissonova rozdˇ elen´ı H 0 : λ = λ0 Pokud n > 9/λ (za platnosti H0): p − λ0 √ u= √ n ∼ N (0, 1) λ0
58
Testy parametr˚ u dalˇ s´ıch rozdˇ elen´ı v pˇ r´ıpadˇ e velk´ ych v´ ybˇ er˚ u test stˇ redn´ı hodnoty H0 : E(X) = E0 (X) • podle CLV (za platnosti H0 ): x ¯ − E0 (X) √ n ∼ N (0, 1) u= p D(X) D(X) obvykle nezn´ ame, tak ho nahrad´ıme vhodn´ ym konzistentn´ım odhadem poˇ r´ızen´ ym z dat. Zpravidla v´ ybˇ erov´ ym rozptylem s2 .
59
10. Nˇ ekter´ e neparametrick´ e testy χ2 -test dobr´ e shody H0 : p j = πj H1 : non H0 P 2 j) Kritick´ y obor: G = kj=1 (nj −nπ > χ21−α (k − 1) nπj lze pouˇ zit´ı jen pro nπj > 5 Pr´ıklad pouˇ zit´ı: Podnik chce zjistit, zda je pravda, ˇ ze 70% v´ yrobk˚ u m´ a vynikaj´ıc´ı kvalitu, 20% obstojnou kvalitu a 10% je zmetk˚ u, pˇ riˇ cemˇ z nechce kontrolovat celou produkci. Vybere tedy z produkce vzorek n v´ yrobk˚ u a 2 pouˇ zije χ test s parametry π1 = 0.7,π2 = 0.2 a π3 = 0.1 (n mus´ı b´ yt alespoˇ n 50, aby byla splnˇ ena podm´ınka pro π1 ).
60
Kolmogorov˚ uv – Smirnov˚ uv test - testov´ an´ı tvaru rozdˇ elen´ı H0 : X ∼ F (spojit´ a d.f.) Kritick´ y obor:
Pn 1
H1 : non H0 dn = sup |Fn (x) − F (x)| ≥ d1−α(n), x∈R
Fn (x) = n i=1 I(Xi ≤ x) empirick´ a distribuˇ cn´ı funkce d1−α (n) tabelovan´ a kritick´ a hodnota Jednov´ ybˇ erov´ e neparametrick´ e testy: H0 : medianX = a Dvouv´ ybˇ erov´ e neparametrick´ e testy: H0 : medianX = medianY Jedno a dvouv´ ybˇ erov´ e neparametrick´ e testy lze pouˇ z´ıt pro znaˇ cnˇ e nenorm´ aln´ı veliˇ ciny
61
Z´ apoˇ cet K udˇ elen´ı z´ apoˇ ctu je tˇ reba odevzdat samostatnou pr´ aci Pr´ ace m´ a dvˇ eˇ c´ asti - odhad nˇ ejak´ eho parametru - testov´ an´ı nˇ ejak´ e statistick´ e hypot´ ezy Mus´ı se t´ ykat skuteˇ cn´ ych statistick´ ych dat. Poˇ zadovan´ a struktura:: 1. Formulace probl´ emu (napˇ r´ıklad zkoum´ an´ı d´ elky vlas˚ u muˇ z˚ u a ˇ zen, odhad v´ ynosu Harvardsk´ ych fond˚ u atd.) 2. Fromulace modelu (pˇ redpoklad o rozdˇ elen´ı, jeho od˚ uvodnˇ en´ı ˇ c´ı test) 3. Odhad parametru (bodov´ y i intervalov´ y) a test (napˇ r´ıklad odhad d´ elky vlas˚ u u muˇ zu a ˇ zen) 4. Test hypot´ ezy (napˇ r´ıklad test, zda maj´ı muˇ zi delˇ si vlasy neˇ zˇ zeny) 5. Interpretace ´ koly odevzdejte t´ U yden pˇ red term´ınem, na kter´ y jste se pˇ r´ıhl´ asili, a to elektronicky na adresu
[email protected]. Za odevzdan´ y se povaˇ zuje ´ ukol tehdy, pokud jeho pˇ rijet´ı emailem potvrd´ım. V pˇ r´ıpadˇ e probl´ em˚ u s mailem mne kontaktujte telefonicky. 62