ˇ ´ ´I VUT BRNO • FAKULTA STROJN´IHO INZEN YRSTV
´ lek Jaroslav Micha ˇ PRAVDEPODOBNOST A STATISTIKA
BRNO 2006
preprint
Kapitola 1 ´ Uvod Prudk´y rozvoj v´ypoˇcetn´ı techniky, jehoˇz jsme v posledn´ıch desetilet´ıch svˇedky, podstatnˇe zasahuje a ovlivˇ nuje vˇsechny str´anky naˇseho ˇzivota. V souˇcasn´e dobˇe je velmi snadn´e poˇr´ıdit a shrom´aˇzdit velk´e mnoˇzstv´ı u ´ daj˚ u o prvc´ıch rozs´ahl´ych soubor˚ u, kter´e jsou stˇredem naˇseho z´ajmu ˇci v´yzkumu. Takov´e u ´daje ˇcasto maj´ı charakter ˇ hromadn´ych dat. R´ık´ame, ˇze hromadn´a data jsou v´ysledkem pozorov´an´ı tzv. hromadn´ ych jev˚ u, tedy jev˚ u, kter´e sledujeme na velk´ych skupin´ach prvk˚ u, pˇriˇcemˇz nen´ı naˇs´ım c´ılem analyzovat, jak´y jev byl pozorov´an u toho kter´eho prvku, ale naopak popsat sledovan´y jev z hlediska anonymn´ıho prvku uvaˇzovan´eho souboru. Je-li napˇr. pˇredmˇetem naˇseho z´ajmu sledov´an´ı nezamˇestnanosti v dan´em souboru obyvatel, nezaj´ım´a n´as pˇri zkoum´an´ı tohoto hromadn´eho jevu, zda dan´a osoba sledovan´eho souboru je ˇci nen´ı nezamˇestnan´a, ale zaj´ım´ame se o to, jakou ˇsanci m´a dan´a anonymn´ı osoba v tomto souboru b´yt zamˇestn´ana. K z´ısk´an´ı urˇcit´ych poznatk˚ u a vysloven´ı z´avˇer˚ u o zkouman´em jevu nestaˇc´ı jednotliv´a pozorov´an´ı, ale jsou nutn´a pozorov´an´ı hromadn´a, jejichˇz v´ysledkem je hromadn´y jev. Anal´yzou hromadn´ych jev˚ u o sledovan´em souboru je moˇzn´e z´ıskat velk´e mnoˇzstv´ı informace, kterou lze vyuˇz´ıt pˇri dalˇs´ım rozhodov´an´ı. Snahu shromaˇzd’ovat hromadn´a data a analyzovat hromadn´e jevy lze pozorovat jiˇz v d´avn´e historii. Jedny z prvn´ıch hromadn´ych jev˚ u, kter´e byly v minulosti sledov´any, byly u ´ daje o popisu st´atu”, tedy u ´ daje spoˇc´ıvaj´ıc´ı ve zobrazen´ı dan´eho zemˇepisn´eho, ” hospod´aˇrsk´eho a politick´eho stavu. Protoˇze status” je stav, ale tak´e st´at (stav ” spoleˇcenstv´ı), ujal se pojem statistika pro ˇcinnosti, souvisej´ıc´ı se shromaˇzd’ov´an´ım hromadn´ych dat a anal´yzou hromadn´ych jev˚ u. Jedno z prvn´ıch st´atovˇedn´ych dˇel, kde je moˇzno pozorovat vznik statistiky jako oboru lidsk´e ˇcinnosti, je d´ılo Francesca Sansoviny: Del governo et amministratione di diversi regni (O vl´adˇe a spr´avˇe v r˚ uzn´ych kr´alovstv´ıch), kter´e vyˇslo v Ben´atk´ach v roce 1562. V 17. a 18. stolet´ı vznikla ˇrada st´atovˇedn´ych dˇel zejm´ena v Nˇemecku (Veit Ludwig von Seckendorff, Hermann Conring, Gottfried Achenwall). Tito autoˇri pˇristupovali ke statistice jako k popisn´e st´atovˇedˇe. Jejich pˇr´ıstupy ke statistice lze dodnes naj´ıt ve statistick´ych roˇcenk´ach 1
2 ˇrady st´at˚ u, kde se nejdˇr´ıve uv´ad´ı ˇrada geografick´ych u ´ daj˚ u (napˇr. rozloha, hustota populace, nejvyˇsˇs´ı vrcholy apod). Jin´y pˇr´ıstup ke statistice vznikal paralelnˇe v t´eto dobˇe v Anglii. Graunt a Petty zaloˇzili smˇer statistiky zvan´y politick´a aritmetika”. ” Jej´ım c´ılem byla evidence u ´ daj˚ u o narozen´ıch a u ´ mrt´ıch obyvatel a snaha prov´adˇet srovn´an´ı tˇechto u ´ daj˚ u a popsat ˇc´ıseln´y v´yvoj obyvatelstva pro delˇs´ı ˇcasov´e obdob´ı. V 18. stolet´ı byl dalˇs´ı rozvoj statistiky ovlivnˇen rozvojem matematiky a zejm´ena pravdˇepodobnosti. Prvn´ı myˇslenkov´e koncepce smˇerem k modern´ı statistice lze nal´ezt v d´ıle belgick´eho autora Adolpha Qu´eteleta, kde z hromadn´ych biologick´ych dat o lidsk´e populaci stanovil typ pr˚ umˇern´eho ˇclovˇeka” ( homme moyen”) a nast´ınil ” ” tak z´aklad pro budouc´ı statistiku - koncepci norm´aln´ıho rozdˇelen´ı, stˇredn´ı hodnoty a rozptylu. V 18. a 19. stolet´ı byl dalˇs´ı v´yvoj statistiky z´asadnˇe ovlivnˇen pracemi v´yznamn´ych matematik˚ u, zejm´ena pracemi bratˇr´ı Bernoulli˚ u, Eulera, Laplace, de Moivrea, Gausse a Bayese. Jejich v´ysledky mˇely pro dalˇs´ı rozvoj tzv. matematick´e statistiky z´asadn´ı ´ ı statistik˚ v´yznam. Usil´ u v 19. a v prvn´ı polovinˇe 20. stolet´ı bylo vˇenov´ano anal´yze hromadn´ych jev˚ u a zamˇeˇreno na statistickou indukci, tedy na statistick´e usuzov´an´ı z v´ybˇerov´eho souboru na z´akladn´ı soubor, z nˇehoˇz byl v´ybˇer poˇr´ızen. U zrodu matematick´ych metod poˇrizovan´ych k prov´adˇen´ı statistick´e indukce st´ali ruˇst´ı ˇ matematici Cebyˇ sev, Ljapunov a Markov. Z´asadn´ım zp˚ usobem pak v´yvoj statistiky ovlivnila anglo – americk´a ˇskola, zejm´ena pr´ace R. A. Fishera, J. Neymanna a E. S. Pearsona. Metody zpracov´an´ı statistick´ych dat, kter´e vych´azej´ı z jejich prac´ı, jsou dodnes hojnˇe vyuˇz´ıv´any a s jejich jm´eny je moˇzno se setkat v prakticky kaˇzd´em kurzu modern´ı statistiky. V´yvoj modern´ıch statistick´ych metod ve druh´e polovinˇe minul´eho stolet´ı byl orientov´an do rozvoje speci´aln´ıch obor˚ u statistiky. Jedn´ım z tˇechto obor˚ u jsou tzv. neparametrick´e statistick´e metody, jehoˇz spoluzakladatelem je ˇcesk´y matematik – statistik J. H´ajek. Koneˇcnˇe posledn´ı rozvoj a pouˇzit´ı statistick´ych technik je v´az´ano na rozvoj poˇc´ıtaˇc˚ u, rychle se rozv´ıj´ı pomˇernˇe nov´y obor – poˇc´ıtaˇcov´a statistika (computional statistics). D˚ usledkem je, ˇze k dispozici je velk´a ˇrada softwareov´ych produkt˚ u, obsahuj´ıc´ıch velmi ˇsirokou paletu statistick´ych metod, urˇcen´ych r˚ uzn´ym uˇzivatel˚ um – podle stupnˇe jejich statistick´e vyspˇelosti. Z uveden´eho struˇcn´eho historick´eho pˇrehledu v´yvoje statistiky je dobˇre patrn´e jej´ı ˇclenˇen´ı. Statistika vznikla jako st´atovˇeda”, ale v souˇcasn´e dobˇe slovo statistika ” ch´apeme ve v´ıce v´yznamech. Statistikou pˇredevˇs´ım rozum´ıme: a) ˇc´ıseln´e u ´ daje o hromadn´ych jevech b) praktickou ˇcinnost spoˇc´ıvaj´ıc´ı ve sbˇeru, zpracov´an´ı a vyhodnocov´an´ı statistick´ych u ´ daj˚ u
3 c) teoretickou vˇedn´ı discipl´ınu, kter´a se zab´yv´a metodami pro anal´yzu hromadn´ych jev˚ u a statistickou indukc´ı, tedy statistick´ym usuzov´an´ım, jak informaci z´ıskanou n´ahodn´ym v´ybˇerem ze z´akladn´ıho souboru zpˇet zobecnit na z´akladn´ı soubor. V tˇechto skriptech budeme pˇredevˇs´ım vych´azet z pojet´ı statistiky uveden´e v pˇredch´azej´ıc´ım bodˇe c) a statistiku budeme ch´apat jako vˇedn´ı obor. Jeho souˇc´ast´ı je tzv. popisn´ a statistika, kter´a se pˇredevˇs´ım zab´yv´a popisem statistick´ych dat pomoc´ı r˚ uzn´ych tabulek, graf˚ u, diagram˚ u a pomoc´ı r˚ uzn´ych funkcion´aln´ıch charakteristik, kter´e lze z datov´ych soubor˚ u snadno stanovit pomoc´ı element´arn´ıch matematick´ych prostˇredk˚ u. C´ılem tohoto statistick´eho popisu je zpˇrehlednˇen´ı informace obsaˇzen´e v datov´ych souborech (ˇcasto velmi rozs´ahl´ych). Dalˇs´ı souˇc´ast´ı statistiky jako vˇedn´ıho oboru je tzv. matematick´ a statistika, kter´a matematick´ymi prostˇredky, zejm´ena pomoc´ı teorie pravdˇepodobnosti, systematicky buduje metody pro anal´yzu statistick´ych dat a pro prov´adˇen´ı statistick´e indukce. Souˇc´ast´ı matematick´e statistiky je a) teorie odhadu, kter´a se zab´yv´a metodami pˇribliˇzn´eho stanoven´ı (odhadem) parametr˚ u z´akladn´ıho souboru (v´ychoz´ı populace) pomoc´ı dat z´ıskan´ych n´ahodn´ym v´ybˇerem. Studuj´ı se r˚ uzn´e pˇr´ıstupy ke z´ısk´an´ı tˇechto odhad˚ u a konstruuj´ı se odhady bodov´e a intervalov´e. b) testov´ an´ı statistick´ ych hypot´ ez, kde jsou vytv´aˇreny matematick´e postupy pro ovˇeˇren´ı hypot´ez o z´akladn´ım souboru a rozv´ıj´ı se metody pro srovn´an´ı statistick´ych soubor˚ u z r˚ uzn´ych hledisek. c) statistick´ a predikce, kde se rozv´ıjej´ı statistick´e techniky umoˇzn ˇ uj´ıc´ı na z´akladˇe sledovan´e dynamiky nˇejak´eho hromadn´eho jevu kvalifikovanˇe odhadnout jeho budouc´ı v´yvoj. Koneˇcnˇe dalˇs´ımi d˚ uleˇzit´ymi speci´aln´ımi statistick´ymi obory, s nimiˇz se ˇcten´aˇr tˇechto skript jistˇe setk´a, je ekonomick´ a statistika, kter´a se zab´yv´a metodami popisn´e statistiky a matematick´e statistiky pro zpracov´an´ı pˇredevˇs´ım n´arodohospod´aˇrsk´ych dat. D´ale v´ ypoˇ cetn´ı statistika, kter´a se zab´yv´a rozvojem v´ypoˇcetn´ıch metod matematick´e statistiky a konstrukc´ı poˇc´ıtaˇcovˇe orientovan´ych nov´ych statistick´ych postup˚ u napˇr. konstrukce nov´ych algoritm˚ u pro z´ısk´an´ı informace z dat (tzv. data ” mining” technologie) a koneˇcnˇe vytv´aˇren´ım nov´ych velk´ych softwareov´ych produkt˚ u pro statistickou anal´yzu rozs´ahl´ych statistick´ych dat nebo statistick´ych dat speci´aln´ıch vlastnost´ı. Jak bylo ˇreˇceno slouˇz´ı soudob´a statistika k z´ısk´av´an´ı informac´ı z rozs´ahl´ych datov´ych soubor˚ u. Pouˇz´ıv´a pˇritom postup˚ u, kter´e vych´azej´ı z matematick´e statistiky a jsou zamˇeˇreny na z´ısk´an´ı optim´aln´ı informace z dat a ˇsirok´a je tak´e nab´ıdka softwareov´ych produkt˚ u, kter´e zpˇr´ıstupˇ nuj´ı tyto pomˇernˇe sloˇzit´e statistick´e metody prakticky vˇsem
4 z´ajemc˚ um o jejich pouˇzit´ı. V t´eto situaci je lehce moˇzn´e zvolit pro zpracov´an´ı dan´eho souboru dat metodu, kter´a nen´ı optim´aln´ı nebo dokonce metodu, kter´a informaci o datov´em souboru zkresl´ı. M˚ uˇze se to st´at tak, ˇze uˇzivatel tˇechto metod dostateˇcnˇe nerozum´ı pouˇz´ıvan´e metodˇe ˇci vstup˚ um a v´ystup˚ um pouˇz´ıvan´eho softwareov´eho produktu nebo dokonce z´amˇernˇe a s ohledem na sledov´an´ı vlastn´ıch c´ıl˚ u, komentuje v´ysledek statistick´eho zkoum´an´ı tak, aby tento v´ysledek podpoˇril jeho argumenty. Pˇr´ıklad˚ u pouˇzit´ı statistiky ke z´ısk´av´an´ı zkreslen´ych z´avˇer˚ u je cel´a ˇrada. Zde uvedeme ilustrativn´ı pˇr´ıklad z knihy [17, str.45-47], kter´a pˇribliˇzuje bohatost a kr´asu statistiky ˇcten´aˇri s menˇs´ı nebo ˇz´adnou pˇredstavou o statistice. Pˇr´ıklad je tak´e struˇcnˇe pops´an v u ´ vodu citovan´e knihy na str. 9, autorem u ´ vodu je R. Frische, nositel Nobelovy ceny. Z tohoto u ´ vodu cituji: Pˇr´ıbˇeh muˇze, kter´y zam´yˇsl´ı koupit ve Zbohatl´ıkovˇe pozemek. Tento muˇz dostane r˚ uzn´e, vz´ajemnˇe zcela si odporuj´ıc´ı u ´daje o pr˚ umˇern´em roˇcn´ım pˇr´ıjmu obyvatel Zbohatl´ıkova. Zprostˇredkovatel uvedl 82 320 tolar˚ u a vysvˇetloval, ˇze 20 % obyvatel pr´y m´a pr˚ umˇern´y roˇcn´ı pˇr´ıjem 309 400 tolar˚ u. Bankovn´ı ˇreditel informoval, ˇze v´ıce neˇz polovina obyvatel m´a roˇcn´ı pˇr´ıjem pˇres 29 000 a nejˇcastˇejˇs´ı roˇcn´ı pˇr´ıjem je asi 18 000 tolar˚ u. M´ıstn´ı uˇcitel, velmi zbˇehl´y ve statistice, tvrdil, ˇze vˇetˇsina obyvatel m´ a pˇr´ıjem niˇzˇs´ı neˇz 7 500 tolar˚ u. A nakonec statistick´y u ´ˇrad na dotaz sdˇelil, ˇze vˇsechny tyto zd´anlivˇe si tak odporuj´ıc´ı u ´daje jsou pravdiv´e. Vysvˇetlilo se to t´ım, ˇze v tomto mal´em mˇestˇe bydlel milion´aˇr a ˇze matematick´e vlastnosti medi´ anu, aritmetick´eho pr˚ umˇeru, harmonick´eho pr˚ umˇeru, geometrick´eho pr˚ umˇeru a nejˇcetnˇejˇs´ı hodnoty souboru se navz´ajem podstatnˇe liˇs´ı. V souvislosti s uveden´ym pˇr´ıkladem je u ´ˇceln´e uv´est ˇcasto parafr´azovan´y v´ıce neˇz 100 rok˚ u star´y v´yrok o statistice, nejˇcastˇeji pˇrisuzovan´y Benjaminu Disraelimu: Jsou tˇri druhy lˇz´ı: lˇzi, odsouzenihodn´e lˇzi a statistiky. Je s podivem, ˇze se ˇcasto tento v´yrok cituje nekriticky, bez znalosti nebo t´emˇeˇr bez znalosti toho, co vlastnˇe statistika je. Nav´ıc uveden´y pˇr´ıklad velmi n´azornˇe ukazuje, ˇze statistick´a data lze interpretovat r˚ uzn´ymi subjektivn´ımi zp˚ usoby a aby se ˇcten´aˇr dobˇre orientoval v r˚ uzn´ych moˇznostech takov´e interpretace, m´a smysl zab´yvat se statistickou teori´ı hloubˇeji. C´ılem tˇechto skript je uv´est ˇcten´aˇre do z´akladn´ıch technik popisn´e statistiky a pomoc´ı n´ı motivovat z´akladn´ı pojmy pravdˇepodobnostn´ıho poˇctu. D´ale vyloˇzit z´aklady teorie pravdˇepodobnosti v rozsahu, kter´y umoˇzn´ı studovat modern´ı metody matematick´e statistiky a umoˇzn´ı zvl´adnut´ı z´akladn´ıch postup˚ u pouˇz´ıvan´ych pˇri vyhodnocov´an´ı zejm´ena n´arodohospod´aˇrsk´ych dat a dat v oblasti soci´alnˇe spr´avn´ı. Tedy studovat bez probl´emu metody a postupy ekonomick´e statistiky a umˇet je uˇz´ıt pˇri ˇreˇsen´ı konkr´etn´ıch praktick´ych u ´ loh.
Kapitola 2 Pravdˇ epodobnost a ˇ cetnost 2.1
N´ ahodn´ y pokus a n´ ahodn´ y jev
Z´akladn´ım pojmem, z nˇehoˇz budeme vych´azet, je pojem pokus. Pokusem budeme rozumˇet uskuteˇcnˇen´ı urˇcit´eho souboru podm´ınek. Podle toho, zda v´ysledek pokusu je moˇzn´e z realizovan´ych podm´ınek pokusu jednoznaˇcnˇe urˇcit nebo nikoliv, rozdˇelujeme pokusy na pokusy deterministick´ e a na pokusy stochastick´ e neboli n´ ahodn´ e. Deterministick´e pokusy jsou takov´e pokusy, kdy oˇcek´avan´y v´ysledek se dostav´ı vˇzdy, kdyˇz jsou spr´avnˇe dodrˇzeny podm´ınky pokusu. Typick´ymi pˇr´ıklady takov´ych pokus˚ u jsou ˇskolsk´e pokusy prov´adˇen´e ve fyzice nebo chemii. Napˇr. pˇri zahˇr´at´ı vody na 100 ◦ C pˇri atmosf´erick´em tlaku 760 torr˚ u vˇzdy pozorujeme, ˇze voda vˇre. Nebo pˇri ponoˇren´ı elektrod do roztoku CuSO4, zaˇcne se na katodˇe hromadit mˇed’. Oˇcek´avan´y v´ysledek se nedostav´ı jen tehdy, kdyˇz nejsou spr´avnˇe dodrˇzeny podm´ınky pokusu. Naproti tomu n´ahodn´e (stochastick´e) pokusy jsou takov´e pokusy, kdy realizace podm´ınek pokusu m˚ uˇze vyvolat r˚ uzn´e n´asledky, v´ysledek pokusu nen´ı jednoznaˇcnˇe urˇcen jeho podm´ınkami. Pˇri opakovan´em prov´adˇen´ı dan´eho n´ahodn´eho pokusu, se z´ıskan´e v´ysledky chaoticky mˇen´ı, nelze je pˇredpovˇedˇet ani pˇresto, ˇze podm´ınky takov´eho pokusu jsou pˇr´ısnˇe dodrˇzov´any. Na v´ysledek pokusu maj´ı vliv tak´e n´ahodn´ı ˇcinitel´e, kteˇr´ı jsou mimo naˇsi kontrolu. Takov´e pokusy se velmi podobaj´ı u ´ kon˚ um z hazardn´ıch her jako je h´azen´ı hrac´ımi kostkami nebo mincemi, rozd´av´an´ı karet, tah´an´ı los˚ u z osud´ı ˇci rozt´aˇcen´ı kola rulety. Pokusy z uveden´e oblasti se pro ilustraci z´akladn´ıch princip˚ u pravdˇepodobnostn´ı teorie zvl´aˇst hod´ı pro mal´y poˇcet moˇzn´ych v´ysledk˚ u, jejich jednoduch´y a pˇresn´y popis a dokonalou znalost podm´ınek pokusu. V mnoha odvˇetv´ıch lidsk´e ˇcinnosti b´yv´a pˇredstava pokusu nejˇcastˇeji spojov´ana s v´yzkumnou ˇcinnost´ı. My budeme pojem pokusu, zejm´ena n´ahodn´eho pokusu, ch´apat mnohem ˇs´ıˇreji, napˇr. nab´ıdka zboˇz´ı z´akazn´ıkovi, stanoven´ı d´elky fronty u nˇejak´eho zaˇr´ızen´ı hromadn´e obsluhy, poskytnut´ı sluˇzby, zjiˇstˇen´ı hodnoty kurzu koruny k euru, 5
6 v´ybˇer respondenta pro pr˚ uzkum popt´avky, velikost u ´ rody v dan´e oblasti apod. D´ale budeme uvaˇzovat pevnˇe dan´y n´ahodn´y pokus. Jak´ekoliv tvrzen´ı o v´ysledku n´ahodn´eho pokusu, o kter´em lze po uskuteˇcnˇen´ı pokusu jednoznaˇcnˇe rozhodnout, zda pˇri dan´e realizaci pokusu je ˇci nen´ı pravdiv´e, nazveme n´ ahodn´ ym jevem. Spoˇc´ıv´a-li n´ahodn´y pokus v nab´ıdce zboˇz´ı z´akazn´ıkovi, m˚ uˇze b´yt pˇr´ıkladem n´ahodn´eho jevu skuteˇcnost, ˇze z´akazn´ık nab´ızen´e zboˇz´ı zakoupil. Je-li uvaˇzovan´ym n´ahodn´ym pokusem zjiˇstˇen´ı hodnoty kurzu korunu k euru, m˚ uˇze b´yt n´ahodn´ym jevem tvrzen´ı, ˇze kurz pˇrekroˇcil hodnotu 30 korun za 1 euro apod. V teorii pravdˇepodobnosti je c´ılem ˇc´ıselnˇe ohodnotit n´ahodn´e jevy tak, abychom se mohli pˇri opakovan´em prov´adˇen´ı pokusu l´epe orientovat v tvrzen´ıch typu jev ” nast´av´a velmi ˇcasto” nebo jev prakticky nenast´av´a” ˇci jev nast´av´a pomˇernˇe ˇcasto” ” ” ˇ ıselnou kvantifikaci n´ahodn´ych jev˚ apod. C´ u chceme prov´est v souladu s naˇsimi zkuˇsenostmi. Budeme pˇredpokl´adat, ˇze dan´y pokus lze libovolnˇekr´at nez´avisle opakovat. Jednotliv´e realizace pokus˚ u mohou p˚ usobit zcela chaoticky, ale pˇri pozorov´an´ı velk´eho poˇctu tˇechto realizac´ı, tedy pˇri tzv. hromadn´em pozorov´an´ı, se mohou objevit zjevn´e z´akonitosti. Tak napˇr´ıklad, kdyˇz budeme opakovanˇe h´azet minc´ı, zjist´ıme, ˇze l´ıc pad´a pˇribliˇznˇe v pades´ati procentech hod˚ u. Budeme-li opakovanˇe h´azet kostkou, zjist´ıme, ˇze ˇc´ıslo 6 pad´a pˇribliˇznˇe v 16,66 % hod˚ u. Budeme-li sledovat poˇcty narozen´ych chlapc˚ u v dan´em st´atˇe, bude jejich pomˇer k poˇctu vˇsech narozen´ych dˇet´ı kol´ısat kolem dan´e hodnoty (tˇreba bl´ızk´e jedn´e polovinˇe). Viz Tab. 2.1. pˇrevzat´a z [4]. Rok Celkov´y poˇcet narozen´ych dˇet´ı Poˇcet narozen´ych chlapc˚ u Relativn´ı ˇcetnost
1927
1928
1929
1930
1931
1932
958 733 990 993 994 101 1 022 811 964 573 934 663
496 544 513 654 514 765
528 072
496 986 482 431
0,5179
0,5163
0,5152
0,5183
0,5178
0,5162
Tabulka 2.1: Tabulka Pˇrehled dˇet´ı narozen´ych v Polsku v letech 1927–1932 Kdyˇz pro uvaˇzovan´y n´ahodn´y jev plat´ı, ˇze pˇri dlouhodob´ych nez´avisl´ych opakov´an´ıch pokusu se relativn´ı ˇ cetnost nastoupen´ı dan´eho jevu, tj. pomˇer poˇctu nastoupen´ı sledovan´eho jevu a poˇctu opakov´an´ı pokusu, ustaluje kolem pevn´ych hodnot, ˇr´ık´ame, ˇze relativn´ı ˇcetnosti tohoto jevu jsou statisticky stabiln´ı. Jsou-li statisticky stabiln´ı relativn´ı ˇcetnosti vˇsech v dan´em pokusu uvaˇzovan´ych n´ahodn´ych jev˚ u, mluv´ıme o statisticky stabiln´ım n´ ahodn´ em pokuse. V teorii pravdˇepodobnosti se potom zab´yv´ame matematick´ym modelov´an´ım statisticky stabiln´ıch pokus˚ u. V prvn´ı ˇradˇe jde o ˇc´ıseln´e ohodnocen´ı jednotliv´ych statisticky stabiln´ıch jev˚ u, kter´e by bylo
7 v souhlasu s vlastnostmi relativn´ıch ˇcetnost´ı. Toto kvantitativn´ı ohodnocen´ı povede k zaveden´ı pravdˇepodobnosti. Dˇr´ıve neˇz pˇrikroˇc´ıme k definici pravdˇepodobnosti n´ahodn´ych jev˚ u, pop´ıˇseme z´akladn´ı operace, kter´e m˚ uˇzeme s n´ahodn´ymi jevy prov´adˇet.
2.2
Operace s n´ ahodn´ ymi jevy
V pˇredchoz´ım odstavci jsme zavedli n´ahodn´y jev jako tvrzen´ı o v´ysledku n´ahodn´eho pokusu, o nˇemˇz lze po proveden´ı pokusu jednoznaˇcnˇe ˇr´ıci, zda je pravdiv´e ˇci nikoliv. V tomto textu budeme d´ale s n´ahodn´ymi jevy pracovat. Pro struˇcnˇejˇs´ı vyjadˇrov´an´ı budeme m´ısto u ´ slov´ı n´ahodn´y jev ˇr´ıkat pouze jev. D´ale budeme jevy znaˇcit velk´ymi p´ısmeny ze zaˇc´atku abecedy, pˇr´ıpadnˇe s indexy. Napˇr. A, B, A1 , A2 , . . . , An , B0 , C apod. V dalˇs´ı pr´aci s jevy budeme potˇrebovat zav´est dva speci´aln´ı jevy: Jev jist´ y, kter´y nutnˇe nastane pˇri kaˇzd´em proveden´ı pokusu. Budeme jej znaˇcit Ω. Jev nemoˇ zn´ y, kter´y nem˚ uˇze v dan´em pokusu nikdy nastat, oznaˇc´ıme jej ∅. D´ale zavedeme dva vztahy mezi jevy: Implikace – ˇrekneme, ˇze jev A implikuje jev B nebo ekvivalentnˇe, ˇze jev A m´ a za n´ asledek jev B, jestliˇze jev B nastane vˇzdy, kdyˇz nastane jev A. Vztah jev A m´a za n´asledek jev B” oznaˇc´ıme A ⊂ B. ” Ekvivalence – ˇrekneme, ˇze jevy A a B jsou si rovny nebo t´eˇz, ˇze jevy A a B jsou ekvivalentn´ı, kdyˇz A ⊂ B a z´aroveˇ n B ⊂ A. Rovnost jev˚ uAaB oznaˇc´ıme A = B. Protoˇze jevy pˇredstavuj´ı v´yroky o v´ysledc´ıch pokusu, lze vytv´aˇret nov´e v´yroky tedy jevy pomoc´ı logick´ych spojek. Zav´ad´ıme tak n´asleduj´ıc´ı jevy: Sjednocen´ı jev˚ u. Jsou-li A1 , A2 , . . . , An jevy, pak jev, kter´y nastane, pr´avˇe kdyˇz nastane alespoˇ n jeden z jev˚ u A1 , A2 , . . . , An , nazveme sjednocen´ u S ım jev˚ A1 , A2 , . . . , An a budeme jej znaˇcit A1 ∪ A2 ∪ . . . ∪ An nebo t´eˇz ni=1 Ai . Sjednocen´ı jev˚ u m˚ uˇze obsahovat i nekoneˇcn´y poˇcet jev˚ u. Je-li jich spoˇcetn´y poˇcet, tj. lze je uspoˇr´adatSdo nekoneˇcn´e posloupnosti A1 , A2 , . . ., budeme jejich sjednocen´ı oznaˇcovat ∞ i=1 Ai .
Pr˚ unik jev˚ u. Jsou-li A1 , A2 , . . . , An jevy, pak jev, kter´y nastane, pr´avˇe kdyˇz v realizaci pokusu nastane kaˇzd´y z jev˚ u A1 , A2 , . . . , An , nazveme pr˚ u T unikem jev˚ A1 , A2 , . . . , An a oznaˇc´ıme jej A1 ∩ A2 ∩ . . . ∩ An nebo t´eˇz ni=1 Ai . Tedy
8 pr˚ unik jev˚ u A1 , A2 , . . . , An znaˇc´ı souˇcasn´y v´yskyt vˇsech u A1 , A2 , . . . , An . T∞jev˚ Pro spoˇcetnou posloupnost jev˚ u A1 , A2 , . . . , oznaˇcme i=1 Ai jejich pr˚ unik.
Rozd´ıl jev˚ u. Jsou-li A1 a A2 jevy, pak rozd´ılem jev˚ u A1 a A2 rozum´ıme jev, kter´y nastane, pr´avˇe kdyˇz jev A1 nastane a z´aroveˇ n jev A2 nenastane. Rozd´ıl jev˚ u A1 a A2 oznaˇc´ıme A1 − A2 . D´ale zavedeme: Jev opaˇ cn´ y k jevu A. Je to jev, kter´y nastane pr´avˇe tehdy, kdyˇz nenastane jev A. Budeme jej znaˇcit A. Jev opaˇcn´y se nˇekdy naz´yv´a jev komplement´ arn´ı nebo t´eˇz jev doplˇ nkov´ y. ˇ Nesluˇ citeln´ e jevy. Rekneme, ˇze jevy A1 a A2 jsou nesluˇciteln´e, jestliˇze nemohou nastat souˇcasnˇe, tj. v pˇr´ıpadˇe, ˇze jejich pr˚ unik je nemoˇzn´y jev. Tedy plat´ı, ˇze A1 ∩ A2 = ∅. Nˇekdy m´ısto rˇcen´ı, ˇze A1 a A2 jsou nesluˇciteln´e jevy ˇr´ık´ame, ˇze jevy A1 a A2 se vz´ ajemnˇ e vyluˇ cuj´ı nebo ˇze jsou disjunktn´ı. ˇ Rozklad jevu A. Rekneme, ˇze jevy A1 , A2 , . . . , An tvoˇr´ı rozklad jevu A, jestliˇze kaˇzd´e dva jsou nesluˇciteln´eStj. Ai ∩ Aj = ∅ pro i 6= j, i, j = 1, 2, . . . , n a jejich sjednocen´ı tvoˇr´ı jev A, tj. ni=1 Ai = A.
Pˇri pr´aci s jevy lze ˇcasto s v´yhodou pouˇz´ıt nˇekter´y z n´asleduj´ıc´ıch vzorc˚ u
Vyj´ adˇ ren´ı opaˇ cn´ eho jevu k pr˚ uniku. Pro libovoln´e jevy A1 , A2 , . . . , An plat´ı n \
i=1
Ai =
n [
Ai
i=1
Vyj´ adˇ ren´ı opaˇ cn´ eho jevu ke sjednocen´ı. Pro libovoln´e jevy A1 , A2 , . . . , An plat´ı n n [ \ Ai = Ai i=1
i=1
Posledn´ı dva uveden´e vzorce plat´ı i pro spoˇcetn´e sjednocen´ı a spoˇcetn´y pr˚ unik jev˚ u. V teorii mnoˇzin se tyto vzorce naz´yvaj´ı de Morganova pravidla. D´ale lze snadno nahl´ednout, ˇze pˇri pr´aci s jevy lze s v´yhodou pouˇz´ıvat Komutativn´ı z´ akony: A1 ∪ A2 = A2 ∪ A1 a A1 ∩ A2 = A2 ∩ A1 Asociativn´ı z´ akony: (A1 ∪ A2 ) ∪ A3 = A1 ∪ (A2 ∪ A3 ) a (A1 ∩ A2 ) ∩ A3 = A1 ∩ (A2 ∩ A3 )
9 Distributivn´ı z´ akony: (A1 ∪ A2 ) ∩ A3 = (A1 ∩ A3 ) ∪ (A2 ∩ A3 ) a (A1 ∩ A2 ) ∪ A3 = (A1 ∪ A3 ) ∩ (A2 ∪ A3 ) Vyj´ adˇ ren´ı rozd´ılu pomoc´ı pr˚ uniku: A1 − A2 = A1 ∩ A2 . Pozorn´y ˇcten´aˇr si jistˇe vˇsimnul, ˇze terminologie pouˇzit´a pˇri pr´aci s jevy d˚ uslednˇe odpov´ıd´a mnoˇzinov´e terminologii a rovnˇeˇz uˇzit´e oznaˇcen´ı jevov´ych operac´ı je stejn´e jako bˇeˇznˇe uˇz´ıvan´e oznaˇcen´ı mnoˇzinov´ych operac´ı. V dalˇs´ım textu uk´aˇzeme, ˇze tato shoda nen´ı n´ahodn´a, zavedeme pojem element´arn´ıho jevu a pˇrejdeme k mnoˇzinov´emu vyj´adˇren´ı (n´ahodn´eho) jevu. Element´ arn´ı jev. Jev A nazveme element´arn´ım jevem, jestliˇze neexistuj´ı jevy B a C r˚ uzn´e od A takov´e, ˇze A = B ∪ C. To znamen´a, ˇze jev A nelze vyj´adˇrit jako sjednocen´ı dvou jin´ych jev˚ u r˚ uzn´ych od A. Jin´ymi slovy, element´arn´ı jev A nelze d´ale rozloˇzit a rozum´ı se j´ım nejjednoduˇsˇs´ı moˇzn´y” v´ysledek pokusu. El” ement´arn´ı jevy budeme znaˇcit ˇreck´ym p´ısmenem ω pˇr´ıpadnˇe s indexem (napˇr. ω1 nebo ωi apod.). Prostor element´ arn´ıch jev˚ u. Mnoˇzinu vˇsech element´arn´ıch jev˚ u, kter´e mohou nastat jako v´ysledek dan´eho n´ahodn´eho pokusu, naz´ yv´ame prostorem element´arn´ıch jev˚ u. Budeme jej znaˇcit Ω. Prostor element´arn´ıch jev˚ u m˚ uˇze b´yt koneˇcn´a mnoˇzina, tedy Ω = {ω1 , ω2 , . . . , ωn } nebo nekoneˇcn´a spoˇcetn´a mnoˇzina tvoˇren´a posloupnostmi prvk˚ u, tedy Ω = {ω1 , ω2 , ω3 , . . .} nebo nekoneˇcn´a nespoˇcetn´a mnoˇzina dan´a nˇejakou vlastnost´ı V element´arn´ıch jev˚ u, pak p´ıˇseme Ω = {ω : ω maj´ı vlastnost V }. Je-li Ω prostor element´arn´ıch jev˚ u, pak libovoln´y jev A lze ch´apat jako podmnoˇzinu mnoˇziny Ω tj. A ⊂ Ω. Dˇr´ıve proveden´e jevov´e operace (sjednocen´ı, pr˚ unik, rozd´ıl, komplement) pˇresnˇe odpov´ıdaj´ı zn´am´ym mnoˇzinov´ym operac´ım (sjednocen´ı, pr˚ unik, rozd´ıl, komplement), jev nemoˇzn´y ∅ odpov´ıd´a pr´azdn´e mnoˇzinˇe, tedy mnoˇzinˇe, kter´a nem´a ˇz´adn´e prvky, jev jist´y je roven prostoru element´arn´ıch jev˚ u Ω. Proto v dalˇs´ım lze na n´ahodn´e jevy pohl´ıˇzet jako na podmnoˇziny prostoru element´arn´ıch jev˚ uΩa lze nimi prov´adˇet vˇsechny zn´am´e mnoˇzinov´e operace. Vybran´e pojmy budeme ilustrovat na pˇr´ıkladech. Pˇ r´ıklad 2.1 N´ahodn´y pokus spoˇc´ıv´a v jednom hodu ide´aln´ı hrac´ı kostkou. Budeme uvaˇzovat n´asleduj´ıc´ı n´ahodn´e jevy. A1 . . . padne sud´e ˇc´ıslo A2 . . . padne lich´e ˇc´ıslo B2 . . . padne ˇc´ıslo menˇs´ı neˇz dva B3 . . . padne ˇc´ıslo menˇs´ı neˇz tˇri C . . . nepadne lich´e ˇc´ıslo
10 Ei . . . padne ˇc´ıslo i, i = 0, 1, 2 . . . , 6, 7. Lze snadno vzhl´enout, ˇze pro uveden´e jevy plat´ı: E0 a E7 jsou jevy nemoˇzn´e S Ω = E1 ∪ E2 ∪ E3 ∪ E4 ∪ E5 ∪ E6 = 6i=1 Ei je jev jist´y B2 ⊂ B3 , tj. B2 m´a za n´asledek B3 B2 = E3 ∪ E4 ∪ E5 ∪ E6 . . . padne ˇc´ıslo vˇetˇs´ı nebo rovno neˇz 3 B3 = E4 ∪ E5 ∪ E6 . . . padne ˇc´ıslo vˇetˇs´ı nebo rovno neˇz 4 B3 ⊂ B2 tj. B3 m´a za n´asledek B2 B2 = E1 B2 a E1 jsou ekvivalentn´ı, B1 ⊂ E1 a z´aroveˇ n E1 ⊂ B2 A1 = C tj. A1 a C jsou ekvivalentn´ı jevy, protoˇze A1 ⊂ C a C ⊂ A1 . A2 ∩ B2 = E1 tj. A2 ∩ B2 je jev, ˇze padne ˇc´ıslo 1 A1 ∩ A2 = ∅ tj. A1 a A2 nemohou nastat souˇcasnˇe, tedy A1 a A2 jsou nesluˇciteln´e jevy A1 ∪ A2 = Ω tj. sjednocen´ı jev˚ u A1 a A2 je jev jist´y, A1 , A2 tvoˇr´ı rozklad jist´eho jevu, podobnˇe E1 , . . . , E6 tak´e tvoˇr´ı rozklad jist´eho jevu Ω. A1 − B2 = A1 ∩ B2 = E4 ∪ E6 tj. rozd´ıl jev˚ u A1 − B2 je jev, ˇze padne sud´e ˇc´ıslo vˇetˇs´ı neˇz 2 A2 ∩ B2 = A2 ∪ B2 = Ω − E1 = E2 ∪ E3 ∪ E4 ∪ E5 ∪ E6 je jev, ˇze nepadne ˇc´ıslo 1 A2 ∪ B2 = A2 ∩ B2 = E3 ∪ E5 je jev, ˇze padne lich´e ˇc´ıslo vˇetˇs´ı neˇz 2 (A1 ∪ A2 ) ∩ B2 = (A1 ∩ B2 ) ∪ (A2 ∩ B2 ) = ∅ ∪ (A2 ∩ B2 ) = A2 ∩ B2 = E1 je jev, ˇze padne ˇc´ıslo 1. E1 , E2 , . . . , E6 jsou element´arn´ı jevy, protoˇze je nelze d´ale rozloˇzit. V uveden´em oznaˇcen´ı m˚ uˇzeme ps´at, ˇze ω1 = E1 , ω2 = E2 , . . . , ω6 = E6 a prostor element´arn´ıch jev˚ u Ω = {ω1 , ω2 , ω3 , ω4 , ω5, ω6 }. Jednotliv´e jevy uveden´e dˇr´ıve lze zapsat v mnoˇzinov´em tvaru A1 = {ω2 , ω4 , ω6 } A2 = {ω1 , ω3 , ω5 } B2 = {ω1 } = ω1 B3 = {ω1 , ω2 } C = {ω2 , ω4 , ω6 } E0 = {} = ∅, E7 = {} = ∅. Pˇ r´ıklad 2.2 N´ahodn´y pokus spoˇc´ıv´a v trojn´asobn´em hodu minc´ı. Zavedeme n´ahodn´e jevy Ai . . . v i-t´em hodu padne l´ıc, i = 1, 2, 3 Bj . . . l´ıc padne pr´avˇe j kr´at, j = 0, 1, 2, 3. Pak zˇrejmˇe moˇzn´e v´ysledky pokusu – element´arn´ı jevy jsou jevy ω1 = [L, L, L] . . . jev, ˇze ve vˇsech hodech padl l´ıc ω2 = [L, L, R] . . . jev, ˇze v prvn´ıch dvou hodech padl l´ıc a ve 3. hodu padl rub ...
11 ω7 = [L, R, R] . . . jev, ˇze v prvn´ım hodu padl l´ıc a v ostatn´ıch rub ω8 = [R, R, R] . . . jev, ˇze ve vˇsech hodech padl rub. Pouˇzit´ı hranat´ych z´avorek v pˇredchoz´ım oznaˇcen´ı naznaˇcuje, ˇze jde o v´ysledky uspoˇr´adan´e posloupnosti hod˚ u. Tedy v´ysledek pokusu [L, R, L] znaˇc´ı, ˇze v 1. hodu padl l´ıc, ve druh´em rub a ve tˇret´ım l´ıc. Prostor element´arn´ıch jev˚ u Ω je mnoˇzina Ω = {ω1 , . . . , ω8} = {[L, L, L], . . . , [R, R, R]} a uvaˇzovan´e jevy lze mnoˇzinovˇe zapsat ve tvaru A1 = {[L, L, L], [L, L, R], [L, R, L], [L, R, R]} A2 = {[L, L, L], [L, L, R], [R, L, L], [R, L, R]} A3 = {[L, L, L], [R, L, L], [L, R, L], [R, R, L]} Zˇrejmˇe A1 ∩ A2 ∩ A3 = {[L, L, L]} = {ω1 } = ω1 B0 = {[R, R, R]} = ω8 B1 = {[L, R, R], [R, L, R], [R, R, L]} B2 = {[L, L, R], [L, R, L], [R, L, L]} B3 = {[L, L, L]} = ω1 Je zˇrejm´e, ˇze B0 , B1 , B2 a B3 tvoˇr´ı rozklad jist´eho jevu Ω A1 ∩ B1 = {[L, R, R]} = ω7 je jev, ˇze l´ıc padne pr´avˇe jednou a to v prvn´ım hodu A1 ∪ A2 ∪ A3 = B0 je jev, ˇze padne aspoˇ n v jednom hodu l´ıc tedy jev, ˇze nepadne v kaˇzd´em hodu rub.
V pˇredchoz´ıch dvou pˇr´ıkladech byl prostor element´arn´ıch jev˚ u Ω koneˇcnou mnoˇzinou. Jak ukazuj´ı n´asleduj´ıc´ı dva pˇr´ıklady, nemus´ı tomu tak b´yt vˇzdycky. Pˇ r´ıklad 2.3 N´ahodn´y pokus spoˇc´ıv´a v opakovan´em hodu minc´ı a pokus konˇc´ı, jakmile padne rub. Pak zˇrejmˇe prostor element´arn´ıch jev˚ u Ω je spoˇcetn´a mnoˇzina Ω = {ω∞ , ω1 , ω2 , ω3, . . .}, kde element´arn´ı jev ωi znaˇc´ı, ˇze rub padl poprv´e v hodu ˇc´ıslo i, i = 1, 2, 3 . . . a ω∞ je element´arn´ı jev, ˇze vˇzdy padne l´ıc a rub nepadne nikdy. Jednotliv´e element´arn´ı lze zapsat ve tvaru: ω1 = [R], ω2 = [L, R], ω3 = [L, L, R], . . . , ωi = [L, L, . . . , L, R], . . . , ω∞ = [L, L, L, . . .]. | {z } (i−1)×L
Jako pˇr´ıklad n´ahodn´ych jev˚ u, kter´e lze uvaˇzovat spolu s t´ımto pokusem uvedeme: A1 = {ω1 , ω2 , . . . , ω10 } . . . rub padne nejpozdˇeji v des´at´em hodu A2 = {ω1 , ω2 } . . . v prvn´ım nebo ve druh´em hodu padne rub A3 = {ω∞ , ω3 , ω4 , . . .} = A2 . . . v prvn´ıch dvou hodech rub nepadne A4 = {ω1 , ω3 , ω5 , . . . } . . . poprv´e padne rub, kdyˇz poˇcet hod˚ u bude lich´e ˇc´ıslo
Pˇ r´ıklad 2.4 Pˇredpokl´adejme, ˇze sledujeme situaci v dan´e pojiˇst’ovnˇe, sledov´an´ı zaˇc´ın´ame v ˇcase t = 0 a v´ysledkem sledov´an´ı je pˇresnˇe mˇeˇren´y ˇcasov´y okamˇzik (napˇr.
12 v hodin´ach), kdy byla nahl´aˇsena prvn´ı pojistn´a ud´alost. V´ysledek takov´eho sledov´an´ı m˚ uˇzeme (v rozˇs´ıˇren´em ch´ap´an´ı slova pokus) povaˇzovat za realizaci n´ahodn´eho pokusu. Za pˇredpokladu, ˇze provoz pojiˇst’ovny sledujeme neomezenou dobu a jej´ı provoz je st´ale v ust´alen´em reˇzimu, lze si pˇredstavit, ˇze tento pokus je statisticky stabiln´ı. Mnoˇzina moˇzn´ych v´ysledk˚ u tohoto pokusu pak m˚ uˇze b´yt mnoˇzina vˇsech ˇcasov´ych okamˇzik˚ u, kdy mohla b´yt nahl´aˇsena prvn´ı pojistn´a ud´alost, tedy interval h0, ∞). Proto prostor element´arn´ıch jev˚ u Ω = h0, ∞) je mnoˇzina, kter´a m´a nekoneˇcn´y poˇcet prvk˚ u a nen´ı ani spoˇcetn´a. Pˇr´ıkladem n´ahodn´ych jev˚ u mohou b´yt mnoˇziny (intervaly) A1 = h0, 10) . . . prvn´ı pojistn´a ud´alost nastane do deseti hodin od zaˇc´atku sledov´an´ı A2 = h15, 25i . . . prvn´ı pojistn´a ud´alost nastane mezi 15. a 25. hodinou A3 = (10, ∞) . . . prvn´ı pojistn´a ud´alost nastane aˇz po des´at´e sledovan´e hodinˇe Je zˇrejm´e, ˇze libovoln´y ˇcasov´y interval odpov´ıd´a nˇejak´emu n´ahodn´emu jevu. Dokonce kaˇzd´a podmnoˇzina intervalu h0, ∞) pˇredstavuje nˇejak´y n´ahodn´y jev. Z posledn´ıho uveden´eho pˇr´ıkladu je patrn´e, ˇze v pˇr´ıpadˇe, kdy mnoˇzina urˇcit´ych v´ysledk˚ u dan´eho pokusu nen´ı koneˇcn´a a nen´ı ani spoˇcetn´a, lze uvaˇzovat velk´e mnoˇzstv´ı n´ahodn´ych jev˚ u, kter´e z praktick´eho hlediska maj´ı pramal´y v´yznam. Proto je uˇziteˇcn´e v pˇr´ıpadˇe, kdy prostor element´arn´ıch jev˚ u Ω nen´ı spoˇcetn´a mnoˇzina, omezit se na nˇejak´y syst´em n´ahodn´ych jev˚ u – tedy na vhodn´y syst´em podmnoˇzin mnoˇziny Ω, kter´y je z praktick´eho hlediska dostaˇcuj´ıc´ı, obsahuje s dan´ymi jevy tak´e jevy, kter´e vzniknou pomoc´ı v´yˇse uveden´ych jevov´ych operac´ı. V uveden´em pˇr´ıkladˇe 2.4 je moˇzn´e omezit se jenom na jevy, kter´e lze vytvoˇrit z interval˚ u pomoc´ı mnoˇzinov´ych operac´ı sjednocen´ı, pr˚ unik, rozd´ıl, doplnˇek. Naznaˇcen´ym zp˚ usobem lze postupovat obecnˇe. Pro kaˇzd´y syst´em jev˚ u spojen´ych s dan´ym pokusem kter´y je uzavˇren´y vzhledem k zaveden´ym mnoˇzinov´ym operac´ım se zav´ad´ı n´azev jevov´a algebra pˇr´ıpadnˇe σ – algebra. D´ale ji budeme form´alnˇe definovat. Definice 2.1. Necht’ Ω je prostor element´arn´ıch jev˚ u pˇriˇrazen´ych dan´emu pokusu a A syst´em n´ahodn´ych jev˚ u (syst´em podmnoˇzin mnoˇziny Ω), kter´e v souvislosti s dan´ym pokusem uvaˇzujeme. Pak ˇr´ık´ame, ˇze syst´em jev˚ u A tvoˇr´ı jevovou algebru, jestliˇze plat´ı n´asleduj´ıc´ı axiomy: 1. Ω ∈ A tj. jev jist´y patˇr´ı do syst´emu A 2. A ∈ A ⇒ A ∈ A, tj. pro kaˇzd´y jev z A plat´ı, tak´e jev k nˇemu opaˇcn´y patˇr´ı do A 3. A1 , A2 ∈ A ⇒ A1 ∪ A2 ∈ A, tj. sjednocen´ı dvou jev˚ u z A je tak´e jevem z A. (Tj. syst´em A je uzavˇren´y vzhledem ke sjednocen´ı jev˚ u.) V pˇr´ıpadˇe, ˇze plat´ı axiomy 1 a 2 a nav´ıc plat´ı axiom 3 pro spoˇcetnou posloupnost jev˚ u A1 , A2 . . . , tj. plat´ı axiom
13 S 3*. Ai ∈ A, i = 1, 2 . . . ⇒ ∞ i=1 Ai ∈ A ˇ e p´ısmeno σ naznaˇcuje, Pak syst´em jev˚ u A naz´yv´ame jevovou σ-algebrou. (Reck´ ˇze jde o spoˇcetn´e sjednocen´ı jev˚ u.) Dvojici (Ω, A) pak naz´yv´ame jevov´ e pole. Kdyˇz se pˇri prov´adˇen´ı dan´eho pokusu omez´ıme na jevy z dan´e jevov´e σ-algebry A, je potˇreba zaruˇcit, ˇze pˇri konstrukci nov´ych jev˚ u, kterou prov´ad´ıme aplikov´an´ım operac´ı koneˇcn´e nebo spoˇcetn´e sjednocen´ı, koneˇcn´ y nebo spoˇcetn´y pr˚ unik, rozd´ıl apod. na posloupnosti jev˚ u z A, dostaneme opˇet jevy z jevov´e σ-algebry A. Tato skuteˇcnost plyne z vlastnosti jevov´e σ-algebry ATviz [13]. Kromˇ e jin´eho odtud plyne, T∞ n ˇze pro posloupnost jev˚ u A1 , A2 , . . . z A plat´ı, ˇze i=1 Ai ∈ A, i=1 Ai ∈ A, A1 −A2 ∈ A, ∅ ∈ A apod. Z praktick´eho hlediska pˇredstavuje jevov´e pole (Ω, A) matematick´y model n´ahodn´eho pokusu. Ω je mnoˇzina vˇsech moˇzn´ych v´ysledk˚ u pokusu a A syst´em n´ahodn´ych jev˚ u, kter´e jsou v souvislosti s kon´an´ım pokusu prakticky uˇziteˇcn´e. V pˇr´ıpadˇe, ˇze mnoˇzina Ω je koneˇcn´a, obvykle se za A vol´ı jevov´a σ-algebra, kter´a obsahuje vˇsechny podmnoˇziny mnoˇziny Ω. V pˇr´ıpadˇe, ˇze Ω je mnoˇzina nespoˇcetn´a a je tvoˇrena intervalem re´aln´ych ˇc´ısel (jako tomu bylo v pˇr´ıpadˇe 2.4), lze pˇr´ısluˇsnou σ-algebru jev˚ u vytvoˇrit pomoc´ı polouzavˇren´ych interval˚ u typu (a, bi ⊂ Ω, a < b. Takov´ato σ-algebra se potom naz´yv´a borelovsk´ a σ-algebra a odpov´ıdaj´ıc´ı jevov´e pole se naz´yv´a borelovsk´ e jevov´ e pole. Kromˇe naznaˇcen´ych praktick´ych d˚ uvod˚ u pro redukci syst´emu vˇsech n´ahodn´ych jev˚ u na jevovou σ-algebru A, je tˇreba zd˚ uraznit, ˇze existuj´ı tak´e dalˇs´ı teoretick´e d˚ uvody k t´eto redukci. Jedn´ım z podstatn´ych teoretick´ ych d˚ uvod˚ u t´eto redukce je, ˇze na jevov´em poli (Ω, A) lze pomoc´ı vhodnˇe zvolen´ych axi´om˚ u, snadno definovat pravdˇepodobnost. Zaveden´a pravdˇepodobnost, kter´a dobˇre popisuje re´aln´e situace je po matematick´e str´ance zvl´aˇst’ elegantn´ı a jednoduch´a v situaci, kdyˇz moˇzn´e jevov´e pole je borelovsk´e. Zaveden´ım pravdˇepodobnosti n´ahodn´ych jev˚ u se budeme vˇenovat v dalˇs´ım odstavci.
2.3
Pravdˇ epodobnost a ˇ cetnost
V tomto odstavci budeme vych´azet ze statisticky stabiln´ıho n´ahodn´eho pokusu. Matematick´ym modelem tohoto pokusu bude jevov´e pole (Ω, A), kde Ω je mnoˇzina vˇsech moˇzn´ych v´ysledk˚ u pokusu (prostor element´arn´ıch jev˚ u) a A je jevov´a σalgebra, tedy mnoˇzina vˇsech n´ahodn´ych jev˚ u, kterou v souvislosti s prov´adˇen´ym pokusem uvaˇzujeme. C´ılem bude jednotliv´e jevy ˇc´ıselnˇe ohodnotit, tj. pˇriˇradit kaˇzd´emu jevu ˇc´ıslo, kter´e by postihlo moˇznost nastoupen´ı toho jevu (jeho ˇsanci) pˇri dan´em prov´adˇen´ı pokusu. Takov´e numerick´e ohodnocen´ı jednotliv´ych jev˚ u z hlediska moˇz-
14 nosti jejich nastoupen´ı se naz´yv´a pravdˇepodobnost´ı. Zaveden´ı pravdˇepodobnosti by mˇely b´yt v souladu s empirick´ymi zkuˇsenostmi, tedy pravdˇepodobnost nastoupen´ı jevu A v dan´em pokuse by mˇela odpov´ıdat relativn´ı ˇcetnosti jevu A ve velk´em poˇctu nez´avisl´ych opakov´an´ıch tohoto pokusu. Uvedenou souvislost relativn´ı ˇcetnosti a pravdˇepodobnosti budeme nejdˇr´ıve ilustrovat na situaci zn´am´e z v´yzkumu veˇrejn´eho m´ınˇen´ı. Pˇri zkoum´an´ı veˇrejn´eho m´ınˇen´ı v dan´em souboru napˇr. dospˇel´ych obyvatel st´atu se vyˇsetˇruje mal´a skupina n´ahodnˇe vybran´ych obyvatel a z jejich odpovˇed´ı na dan´e ot´azky se potom usuzuje za n´azory vˇsech dospˇel´ych obyvatel st´atu. V t´eto souvislosti mluv´ıme o souboru vˇsech obyvatel st´atu jako o z´ akladn´ım souboru a o souboru vybran´ych obyvatel, kteˇr´ı byli n´ahodnˇe vybr´ani a dotazov´ani, jako o souboru v´ ybˇ erov´ em. Budeme pˇredpokl´adat, ˇze z´akladn´ı soubor m´a N prvk˚ u a poˇcet prvk˚ u v´ybˇerov´eho souboru oznaˇc´ıme n. Budeme uvaˇzovat dva z´akladn´ı pˇr´ıstupy k poˇr´ızen´ı v´ybˇerov´eho souboru: a) v´ ybˇ er s opakov´ an´ım – postupnˇe n´ahodnˇe vyb´ır´ame (po jednom) prvky z´akladn´ıho souboru a vybran´e prvky pˇred dalˇs´ım v´ybˇerem do z´akladn´ıho souboru vrac´ıme. b) v´ ybˇ er bez opakov´ an´ı – postupnˇe n´ahodnˇe vyb´ır´ame prvky z´akladn´ıho souboru a vybran´e prvky do z´akladn´ıho souboru nevrac´ıme. Je zˇrejm´e, ˇze v pˇr´ıpadˇe, kdy je rozsah v´ybˇerov´eho souboru n mal´y ve srovn´an´ı s rozsahem z´akladn´ıho souboru N, je m´alo pravdˇepodobn´e, ˇze by se pˇri v´ybˇeru s opakov´an´ım nˇekter´y prvek ve v´ybˇeru opakoval. Budeme proto pro v dalˇs´ıch u ´ vah´ach vych´azet z v´ybˇerov´eho souboru, kter´y byl z´ısk´an n´ahodn´ym v´ybˇerem s opakov´an´ım. V´ybˇery bez opakov´an´ı se budeme zab´yvat pozdˇeji. Pˇredpokl´adejme pro jednoduchost, ˇze prvky z´akladn´ıho souboru, kter´y je tvoˇren vˇsemi dospˇel´ymi obyvateli st´atu rozdˇel´ıme podle pohlav´ı na soubor muˇz˚ u, pˇredpokl´adejme, ˇze jich je K1 a na soubor ˇzen, kter´ych je N −K1 . Podle n´azoru jednotliv´ych obyvatel, m˚ uˇzeme z´akladn´ı soubor rozdˇelit na dva podsoubory, v prvn´ım podsouboru je K2 obˇcan˚ u levicovˇe sm´yˇslej´ıc´ıch a N − K2 obˇcan˚ u pravicovˇe sm´yˇslej´ıc´ıch. Plat´ı tedy, ˇze v z´akladn´ım souboru je pod´ıl muˇz˚ u p1 = KN1 a pod´ıl levicovˇe sm´yˇslej´ıc´ıch obˇcan˚ u p2 = KN2 . Pod´ıl p1 lze interpretovat jako pravdˇepodobnost” tedy numerick´e ” ohodnocen´ı moˇznosti, ˇze n´ahodnˇe vybran´a osoba ze z´akladn´ıho souboru bude muˇz. Podobnˇe lze interpretovat pod´ıl p2 . Bude-li n´ahodn´y pokus spoˇc´ıvat v n´ahodn´em vylosov´an´ı jedn´e osoby ze z´akladn´ıho souboru, m˚ uˇzeme s t´ımto pokusem uvaˇzovat n´asleduj´ıc´ı jevy: A1 . . . n´ahodnˇe vylosovan´a osoba je muˇz A2 . . . n´ahodnˇe vylosovan´a osoba je levicovˇe sm´yˇslej´ıc´ı. A1 ∩ A2 . . . n´ahodnˇe vybran´a osoba je muˇz levicovˇe sm´yˇslej´ıc´ı
15 A1 ∪ A2 . . . n´ahodnˇe vybran´a osoba je muˇz nebo osoba pravicovˇe sm´yˇslej´ıc´ı ˇ ısla p1 a p2 pak lze interpretovat jako pravdˇepodobnosti jev˚ C´ u A1 a A2 , tedy budeme ps´at p1 = P (A1 ) a p2 = P (A2 ). Odhad pravdˇepodobnost´ı lze z´ıskat pomoc´ı ˇcetnost´ı stanoven´ych z v´ybˇerov´eho souboru. Je-li v´ybˇerov´y soubor (poˇr´ızen´y v´ybˇerem s opakov´an´ım) rozsahu n oznaˇc´ıme n(A1 ) ˇcetnost muˇz˚ u ve v´ybˇeru, tj. poˇcet muˇz˚ u ve v´ybˇeru a n(A2 ) ˇcetnost levicovˇe sm´yˇslej´ıc´ıch 2) 1) a fn (A2 ) = n(A odpov´ıdaj´ıc´ı relobˇcan˚ u ve v´ybˇeru. D´ale oznaˇc´ıme fn (A1 ) = n(A n n ativn´ı ˇcetnosti. Ze zkuˇsenosti lze usoudit, ˇze pro velk´a n bude relativn´ı ˇcetnost fn (A1 ) kol´ısat kolem p1 = P (A1 ) a relativn´ı ˇcetnost fn (A2 ) kolem P (A2 ). Pˇri prov´adˇen´ı rozs´ahl´ych v´ybˇerov´ych ˇsetˇren´ı se skuteˇcnˇe nezn´am´e pravdˇepodobnosti p1 a p2 odhaduj´ı relativn´ımi ˇcetnostmi fn (A1 ) a fn (A2 ). Snadno lze tak´e stanovit relativn´ı ˇcetnosti fn (A1 ∪A2 ) nebo fn (A1 ∩A2 ) a odhadnout pˇr´ısluˇsn´e pravdˇepodobnosti P (A1 ∪ A2 ) a P (A1 ∩ A2 ) apod. Podobn´e chov´an´ı relativn´ıch ˇcetnost´ı jev˚ u lze pozorovat tak´e pˇri opakovan´em prov´adˇen´ı libovoln´eho statisticky stabiln´ıho n´ahodn´eho pokusu. Bude-li napˇr. pokus spoˇc´ıvat v hodu kostkou, pak za pˇredpokladu, ˇze kostka, kterou h´az´ıme je ide´alnˇe symetrick´a, lze oˇcek´avat, ˇze s rostouc´ım poˇctem hod˚ u n bude relativn´ı ˇcetnost fn (A) jevu A = po hodu padne ˇc´ıslo 6”, kol´ısat kolem ˇc´ısla p = 16 . ” ˇ C´ıslo p = P (1) = 16 lze interpretovat jako pravdˇepodobnost nastoupen´ı jevu A (tj. pravdˇepodobnost, ˇze po hodu padne ˇc´ıslo 6). V situaci, kdy kostka nen´ı ide´alnˇe symetrick´a se relativn´ı ˇcetnosti fn (A) opˇet budou pro velk´a n ustalovat kolem nˇejak´eho ˇc´ısla p = P (A), kter´e ovˇsem m˚ uˇze b´yt nezn´am´e a ˇcetnost fn (A) bude jeho odhadem. Lze si tedy pravdˇepodobnost pˇredstavit jako limitn´ı hodnotu relativn´ı ˇcetnosti, kdyˇz nekoneˇcnˇe roste poˇcet opakov´an´ı pokusu n. Tedy pravdˇepodobnost jevu A je v tomto pojet´ı zavedena vztahem p = P (A) = lim fn (A). n→∞
Uveden´y vztah pˇredstavuje tzv. statistickou definici pravdˇ epodobnosti a v minulosti se s touto definic´ı pravdˇepodobnosti ˇcasto pracovalo viz [14]. Jej´ı nev´yhodou je, ˇze nen´ı moˇzn´e ovˇeˇrit existenci uveden´e limity. Nicm´enˇe podstatn´a je skuteˇcnost, ˇze pravdˇepodobnost by mˇela pˇri velk´em poˇctu opakov´an´ı pokusu korespondovat s relativn´ı ˇcetnost´ı a proto se tak´e modern´ı axiomatick´a definice pravdˇepodobnosti o vlastnosti relativn´ı ˇcetnosti podstatnˇe op´ır´a. Dˇr´ıve neˇz budeme pravdˇepodobnost axiomaticky definovat, pˇripomeˇ nme vlastnosti relativn´ı ˇcetnosti. Vyjdeme ze statisticky stabiln´ıho n´ahodn´eho pokusu, jemuˇz odpov´ıd´a jevov´e pole (Ω, A) a budeme uvaˇzovat jevy A, A1 , A2 ∈ A, jev nemoˇzn´y ∅ a jev jist´y Ω. Relativn´ı ˇcetnost jevu A, kterou z´ısk´ame z n nez´avisl´ych opakov´an´ıch pokusu oznaˇc´ıme fn (A). Pak lze snadno nahl´ednout, ˇze relativn´ı ˇcetnost m´a n´asleduj´ıc´ı vlastnosti: V1 fn (∅) = 0 tedy ˇcetnost nemoˇzn´eho jevu je 0
16 V2 fn (Ω) = 1 tedy ˇcetnost jist´eho jevu je 1 V3 fn (A) ≥ 0 pro kaˇzd´y jev A ∈ A tedy ˇcetnost je nez´aporn´a V4 fn (A) ≤ 1 pro kaˇzd´y jev A ∈ A V5 fn (A1 ∪ A2 ) = fn (A1 ) + fn (A2 ) − fn (A1 ∩ A2 ) V6 fn (A1 ∪ A2 ) = fn (A1 ) + fn (A2 ), kdyˇz jevy A1 a A2 jsou nesluˇciteln´e V7 fn (A1 ) ≤ fn (A2 ), kdyˇz A1 ⊂ A2 V8 fn (A2 − A1 ) = fn (A2 ) − fn (A1 ), kdyˇz A1 ⊂ A2 Axiomatick´a definice pravdˇepodobnosti potom pˇriˇrazuje kaˇzd´emu jevu A ∈ A re´aln´e ˇc´ıslo P (A), kter´e vyjadˇruje moˇznost nastoupen´ı” jevu A v dan´em pokusu a toto ” pˇriˇrazen´ı mus´ı b´yt v souladu s vlastnostmi relativn´ı ˇcetnosti V1-V8. Lze uk´azat, ˇze rozhoduj´ıc´ı pro axiomatick´e zaveden´ı pravdˇepodobnosti jsou vlastnosti relativn´ıch ˇcetnost´ı V2,V3 a V6. Dalˇs´ı vlastnosti pravdˇepodobnosti, analogick´e zbyl´ym vlastnostem relativn´ı ˇcetnosti, lze odvodit ze z´akladn´ıch axiom˚ u. D´ale uveden´a axiomatick´a definice pravdˇepodobnosti poch´az´ı od Kolmogorova viz [9]. Definice 2.2. Axiomatick´ a definice pravdˇ epodobnosti. Necht’ (Ω, A) je jevov´e pole pˇr´ısluˇsn´e uvaˇzovan´emu pokusu. Potom zobrazen´ı P , kter´e kaˇzd´emu jevu A ∈ A pˇriˇrazuje ˇc´ıslo P (A) nazveme pravdˇepodobnost´ı na jevov´em poli (Ω, A), kdyˇz toto zobrazen´ı vyhovuje n´asleduj´ıc´ım axiom˚ um: A1 P (A) ≥ 0 pro kaˇzd´y jev A ∈ A. (Pravdˇepodobnost je nez´aporn´a) A2 P (Ω) = 1. (Pravdˇepodobnost je normovan´a) A3 Je-li A1 , A2 , A3 , . . . koneˇcn´a nebo spoˇcetn´a posloupnost po dvou disjunktn´ıch jev˚ u z A (tj. Ai ∈ A, Ai ∩ Aj = ∅ pro i 6= j, i, j = 1, 2 . . .), pak pro koneˇcnou posloupnost jev˚ u A1 , A2 , A3 , . . . An plat´ı P (∪ni=1 Ai ) =
Pn
i=1
P (Ai ) (Pravdˇepodobnost je aditivn´ı)
Pro spoˇcetnou posloupnost jev˚ u A1 , A2 , . . . plat´ı P(
S∞
i=1
Ai ) =
P∞
i=1
P (Ai) (Pravdˇepodobnost je σ-aditivn´ı).
Pro dan´y jev A pak ˇc´ıslo P (A) naz´yv´ame pravdˇepodobnost´ı jevu A. Trojici (Ω, A, P ) pak naz´yv´ame pravdˇ epodobnostn´ı prostor. Poznamenejme, ˇze axiomy A1, A2 a A3 nen´ı pravdˇepodobnost P urˇcena jednoznaˇcnˇe, to je ale jej´ı v´yhoda, protoˇze pro konkr´etn´ı pokus m˚ uˇzeme volbu pravdˇepodobnosti P zav´est tak, aby dobˇre korespondovala s relativn´ı ˇcetnost´ı. Uk´aˇzeme si to na pˇr´ıkladˇe:
17 Pˇ r´ıklad 2.5 Pokus spoˇc´ıv´a v hodu minc´ı. Pak Ω = {L, R} a A = {∅, {L}, {R}, Ω}. Podle toho, zda mince je ide´alnˇe symetrick´a nebo ne, lze pravdˇepodobnost na jevov´em poli (Ω, A) zav´est dvoj´ım zp˚ usobem: a) Pˇredpokl´adejme, ˇze mince je ide´aln´ı. Pak lze poloˇzit P (∅) = 0, P ({L}) = P ({R}) = 21 a P (Ω) = 1. Je zˇrejm´e, ˇze zvolen´e zobrazen´ı P vyhovuje axiom˚ um A1, A2, A3, jde tedy o pravdˇepodobnost na jevov´em poli (Ω, A). Uveden´a pravdˇepodobnost pˇriˇrazuje jevu padne l´ıc” pravdˇepodobnost 12 tedy stejnou ” jako jevu padne rub”. ” b) Pˇredpokl´adejme, ˇze mince nen´ı ide´aln´ı a pomoc´ı opakovan´ych hod˚ u touto minc´ı bylo vypozorov´ano, ˇze l´ıc pad´a v 55 % vˇsech hod˚ u. Pak lze na (Ω, A) zav´est pravdˇepodobnost, kter´a tuto skuteˇcnost respektuje, staˇc´ı poloˇzit P (∅) = 0, P ({L}) = 0, 55, P ({R}) = 0, 45, P (Ω) = 1. Snadno lze opˇet ovˇeˇrit, ˇze zvolen´e zobrazen´ı P vyhovuje axiom˚ um A1, A2, A3 a jde tedy o pravdˇepodobnost. D´ale se budeme zab´yvat vlastnostmi axiomatick´e pravdˇepodobnosti. Vlastnosti, ˇ aˇr si m˚ kter´e uvedeme lze snadno odvodit z axiom˚ u A1-A3. Viz [13]. Cten´ uˇze ovˇeˇrit, ˇze tyto vlastnosti odpov´ıdaj´ı vlastnostem relativn´ıch ˇcetnost´ı V1-V8. Vlastnosti pravdˇ epodobnosti. Pro libovoln´e jevy A, A1 , A2 , . . . , An z A plat´ı VP1 P (∅) = 0 VP2 0 ≤ P (A) ≤ 1 VP3 Je-li A1 ⊂ A2 , pak P (A1 ) ≤ P (A2 ) VP4 Je-li A1 ⊂ A2 , pak P (A2 − A1 ) = P (A2 ) − P (A1 ) VP5 P (A) = 1 − P (A) VP6 P (A1 − A2 ) = P (A1) − P (A1 ∩ A2 ) VP7 P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) VP8 P(
n [
Ai ) =
i=1
n X i=1
+
P (Ai) −
n−2 X n−1 X n X
i=1 j=i+1 k=j+1
VP9 P (
Sn
i=1 Ai )
≤
Pn
i=1
n−1 X n X
i=1 j=i+1
P (Ai ∩ Aj )
P (Ai ∩ Aj ∩ Ak ) − . . . + (−1)n−1 P (A1 ∩ A2 ∩ . . . ∩ An )
P (Ai)
Uveden´e vlastnosti pravdˇepodobnosti budou potˇrebn´e pˇri dalˇs´ım v´ykladu, hojnˇe se pouˇz´ıvaj´ı ve statistick´ych u ´ vah´ach. V dalˇs´ım odstavci uk´aˇzeme jejich pouˇzit´ı pˇri ˇreˇsen´ıch pravdˇepodobnostn´ıch u ´ loh.
18
2.4
Specifick´ e pˇ r´ıpady axiomatick´ e pravdˇ epodobnosti
Ve vybran´ych experiment´aln´ıch situac´ıch (jak bylo naznaˇceno v pˇr´ıkladu 2.5) lze pravdˇepodobnost P na dan´em jevov´em poli (Ω, A) vybrat tak, aby co nejl´epe odpov´ıdala podm´ınk´am pokusu. Touto volbou pak dosp´ıv´ame ke speci´aln´ım pˇr´ıpad˚ um axiomatick´e pravdˇepodobnosti. Klasick´ a pravdˇ epodobnost Pˇredpokl´ad´ame, ˇze prostor element´arn´ıch jev˚ u Ω je koneˇcn´a mnoˇzina, obsahuj´ıc´ı N prvk˚ u a vˇsechny element´arn´ı jevy ω ∈ Ω jsou stejnˇe moˇzn´e”. Pak lze libovoln´emu ” jevu A ⊂ Ω pˇriˇradit pravdˇepodobnost P (A) =
card(A) card(A) = , card(Ω) N
kde card(A) znaˇc´ı poˇcet prvk˚ u mnoˇziny A. Uveden´e pˇriˇrazen´ı vyhovuje axiom˚ um A1, A2 a A3 z definice axiomatick´e pravdˇepodobnosti. Takto zkonstruovan´e zobrazen´ı je tedy speci´aln´ım pˇr´ıpadem axiomatick´e pravdˇepodobnosti definovan´e na σ-algebˇre A, kter´a je tvoˇrena vˇsemi podmnoˇzinami Ω. Tato pravdˇepodobnost pˇriˇrazuje kaˇzd´emu element´arn´ımu jevu ω pravdˇepodobnost P (ω) = N1 . Kdyˇz element´arn´ı jev ω ⊂ A nazveme v´ysledek pokusu pˇr´ızniv´y jevu A, pak lze zavedenou pravdˇepodobnost jevu A definovat jako pod´ıl poˇctu v´ysledk˚ u pokusu pˇr´ızniv´ych jevu A a poˇctu vˇsech moˇzn´ych v´ysledk˚ u pokusu. Pravdˇepodobnost zaveden´a t´ımto zp˚ usobem se naz´yv´a klasick´ a pravdˇ epodobnost. Jej´ı pouˇzit´ı si uk´aˇzeme na nˇekolika pˇr´ıkladech. Zd˚ uraznˇeme, ˇze jej´ı pouˇzit´ı je moˇzn´e, kdyˇz mnoˇzina moˇzn´ych v´ysledk˚ u pokusu je koneˇcn´a a jednotliv´e element´arn´ı jevy maj´ı stejnou pravdˇepodobnost. Pˇ r´ıklad 2.6 Hod´ıme ide´aln´ı hrac´ı kostkou. Jak´a je pravdˇepodobnost, ˇze a) padne sud´e ˇc´ıslo? b) padne lich´e ˇc´ıslo? ˇ sen´ı: Protoˇze uvaˇzujeme ide´aln´ı hrac´ı kostku, pouˇzijeme klasickou pravdˇepodobReˇ nost. Poloˇz´ıme Ω = {ω1 , . . . ω6 }, kde ωi je element´arn´ı jev, ˇze padne ˇc´ıslo i, i = 1, 2, . . . , 6. Zavedeme jevy A – padne sud´e ˇc´ıslo a B – padne lich´e ˇc´ıslo. Pak A = {ω2 , ω4 , ω6 }, Card(Ω)= N = 6, Card(A) = 3 a uˇzit´ım klasick´e pravdˇepodobnosti dostaneme P (A) = 36 = 21 . Protoˇze B = A dostaneme uˇzit´ım vlastnosti pravdˇepodobnosti VP5 P (B) = P (A) = 1 − P (A) = 1 − 12 = 12 . Pˇ r´ıklad 2.7 H´az´ıme dvˇema stejn´ymi mincemi, kter´e nedovedeme rozliˇsit. Jak´a je pravdˇepodobnost jevu A, ˇze na obou minc´ıch padne l´ıc. ˇ sen´ı: Reˇ
19 a) Zavedeme element´arn´ı jevy ω1 . . . na obou minc´ıch padne l´ıc ω2 . . . na obou minc´ıch padne rub ω3 . . . na jedn´e minci padne l´ıc a na jedn´e rub. Pak Ω = {ω1 , ω2 , ω3 }, A = ω1 a uˇzit´ım klasick´e pravdˇepodobnosti bychom dostali P (A) = 31 . b) Mince form´alnˇe oˇc´ıslujeme, abychom je byli schopni rozliˇsit a zavedeme element´arn´ı jevy ω1∗ = [L, L] na prvn´ı minci padne l´ıc a na druh´e l´ıc ω2∗ = [L, R] na prvn´ı minci padne l´ıc a na druh´e rub ω3∗ = [R, L] na prvn´ı minci padne rub a na druh´e l´ıc ω4∗ = [R, R] na prvn´ı minci padne rub a na druh´e rub Pak Ω = {ω∗1 , ω∗2, ω∗3, ω∗4}, A = ω∗1 a klasick´a pravdˇepodobnost jevu A je P (A) = 14 . D˚ uvodem rozd´ıln´ych v´ysledk˚ u v ˇreˇsen´ı a) a b) je neopr´avnˇen´e pouˇzit´ı klasick´e pravdˇepodobnosti v bodˇe a). Ze zkuˇsenosti v´ıme, ˇze element´arn´ı jev ω3 nast´av´a pˇri opakovan´em hodu dvˇema mincemi pˇribliˇznˇe dvakr´at ˇcastˇeji neˇz element´arn´ı jev ω1 . Pˇ r´ıklad 2.8 Hod´ıme n kr´at ide´aln´ı hrac´ı kostkou. Jak´a je pravdˇepodobnost, ˇze a) ˇsestka padne pr´avˇe jednou (n´ahodn´y jev A1 ) b) ˇsestka padne v kaˇzd´em hodu (n´ahodn´y jev B) c) ˇsestka padne pr´avˇe i kr´at (n´ahodn´y jev Ai ) i = 1, 2, . . . , Ai d) ˇsestka padne aspoˇ n jednou (n´ahodn´y jev A) e) ˇseska nepadne (n´ahodn´y jev A0 ) ˇ sen´ı: Protoˇze jde o nez´avisle opakovan´e hody ide´aln´ı kostkou, pouˇzijeme klasickou Reˇ pravdˇepodobnost. V kaˇzd´em hodu je 6 moˇzn´ych v´ysledk˚ u, tud´ıˇz v n hodech je 6n moˇzn´ych a stejnˇe pravdˇepodobn´ych v´ysledk˚ u a tedy card(Ω) = 6n . a) Zavedeme jev Bi , ˇze ˇsestka padne v hodu ˇc´ıslo i a v ostatn´ıch hodech nepadne, i = 1, 2 . . . , n. Zˇrejmˇe card(Bi) = 5n−1 , protoˇze v i-t´em hodu mus´ı padnout ˇc´ıslo 6 a v ostatn´ıch n − 1 hodech m˚ uˇze padnout kter´ekoliv z ˇc´ısel 1,2,3,4,5. Jevy B1 , . . . , Bn jsou nesluˇciteln´e n−1 i) A1 = B1 ∪ B2 ∪ . . . ∪ Bn a P (Bi) = card(B = 5 6n . Proto uˇzit´ım axiomu A3 card(Ω) dostaneme n n n [ X X 5n−1 n5n−1 P (A1 ) = P ( Bi ) = P (Bi ) = = . 6n 6n i=1 i=1 i=1
20 b) Zˇrejmˇe B je element´arn´ı jev a proto P (B) =
1 . 6n
c) Poˇcet pˇr´ızniv´ych v´ysledk˚ u jevu Ai stanov´ıme tak, ˇze nejdˇr´ıve ni zp˚ usoby vybereme z n hod˚ u i hod˚ u, v nichˇz padne ˇc´ıslo 6 a v ostatn´ıch n − i hodech m˚ uˇze padnout kter´ekoliv z ˇc´ısel 1, 2, . . . , 5. Tedy v tˇechto n − i hodech m˚ uˇze n−i nastat 5 r˚ uzn´ych v´ysledk˚ u a kdyˇz tyto v´ysledky kombinujeme s v´ybˇerem i-hod˚ u, kde padnou ˇsestky dostaneme n card(A) = · 5n−i. i Odtud P (Ai ) =
n i
· 5n−i = 6n
i = 1, 2, . . . , n.
i n−i n 1 5 , i 6 6
d) Protoˇze B = A1 ∪ A2 ∪ . . . ∪ An a jevy A1 , . . . , An jsou po dvou nesluˇciteln´e dostaneme uˇzit´ım axiomu A3 n n n i n−i [ X X n 1 5 P (B) = P ( Ai ) = P (Ai ) = i 6 6 i=1 i=1 i=1 Odtud pomoc´ı binomick´e vˇety dostaneme P (B) =
n i n−i X n 1 5 i=0
i
6
6
n n n n 5 1 5 5 5 − = + − = 1− . 6 6 6 6 6
e) Poˇcet pˇr´ızniv´ych v´ysledk˚ u jevu A0 je 5n , protoˇze v kaˇzd´em hodu m˚ uˇze padnout kter´ekoliv ˇc´ıslo 1, 2, . . . , 5, aby nastal v´ysledek pˇr´ızniv´y jevu A0 . Proto P (A0 ) = 5n = ( 56 )n . 6n Srovn´an´ım v´ysledk˚ u v bodˇe d) a e) je vidˇet, ˇze pravdˇepodobnost jevu B bylo moˇzn´e poˇc´ıtat jednoduˇseji. Protoˇze B = A0 dostaneme uˇzit´ım vlastnosti VP5, ˇze P (B) = P (A0 ) = 1 − P (A0 ) = 1 − ( 56 )n . Pˇ r´ıklad 2.9 Urna obsahuje N koul´ı, K b´ıl´ych a N − K ˇcern´ych. Z urny n´ahodnˇe bez opakov´an´ı vybereme n koul´ı. Jak´a je pravdˇepodobnost, ˇze mezi vybran´ymi je pr´avˇe x koul´ı b´ıl´ych (jev Ax ) ˇ sen´ı: Reˇ a) Pˇredpokl´adejme, ˇze koule vyb´ır´ame po jedn´e. Pak prostor element´arn´ıch jev˚ u Ω je tvoˇren variacemi bez opakov´an´ı n-t´e tˇr´ıdy vybran´ych z N prvk˚ u a tedy N! cardΩ = N(N − 1) . . . (N − n + 1) = (N −n)! . Jev Ax nastane, kdyˇz v dan´e posloupnosti vybran´ych n prvk˚ u bude pr´avˇe v x taz´ıch vytaˇzena b´ıl´a koule a
21 ˇ ısla tah˚ v n − xtaz´ıch vytaˇzena ˇcern´a koule. C´ u x b´ıl´ych koul´ı lze vybrat z n n tah˚ u x zp˚ usoby. V uveden´ych x taz´ıch lze vyt´ahnout b´ıl´e koule K! K(K −1) . . . (K −x+1) = (K−x)! zp˚ usoby a ˇcern´e koule v n−x taz´ıch lze vybrat
(N −K)! zp˚ usoby. Je proto (N − K)(N − K − 1) . . . (N − K − (n − x) + 1) = (N −k−(n−x))! (N −K)! (N −K)! (N −n)! K! K! card(Ax ) = nx (K−x)! a P (AX ) = nx (K−x)! (N −K−(n−x))! (N −K−(n−x))! N !
b) Pˇredpokl´adejme, ˇze z´aroveˇ n n´ahodnˇe vybereme z urny n koul´ı. Pak Ω je tvoˇreno mnoˇzinou kombinac´ı bez opakov´an´ı K-t´e tˇr´ıdy z N prvk˚ u a tedy card(Ω) = Nk . D´ale v´ybˇer x b´ıl´ych koul´ı z K b´ıl´ych lze prov´est Kx zp˚ usoby n−k a v´ybˇer n − x ˇcern´ych koul´ı z N − k ˇcern´ych koul´ı lze prov´est n−x zp˚ usoby. k n−k Tedy celkem dost´av´ame Card(Ax ) = x n−x a pro pravdˇepodobnost P (AX ) (K)(n−k) m´ame P (Ax ) = x Nn−x . (x) ´ Upravou v´ysledku uveden´eho v bodˇe a) postupnˇe dostaneme K! (N −K)! (N −n)! (N −K)! n!(N −n)! K! = x!(k−x)! = P (AX ) = nx (K−x)! (N −K−(n−x))! N ! (n−x)!(N −K−(n−x))! N! K N−K ( )( ) = x Nn−x . (n)
A tedy v´ysledky v bodˇe a) a b) jsou shodn´e. Je lhostejno, zda v dan´em pokuse koule vyb´ır´ame z´aroveˇ n nebo po jedn´e a nevrac´ıme. Uveden´y model se vyuˇz´ıv´a v teorii v´ybˇerov´ych ˇsetˇren´ı. Jeho speci´aln´ı pˇr´ıpad pro N = 49, K = 6 a n = 6 odpov´ıd´a losov´an´ı ve Sportce, jev A6 odpov´ıd´a v´yhˇre v prvn´ım poˇrad´ı, A5 ve druh´em poˇrad´ı atd. Jev A2 ∪ A1 ∪ A0 odpov´ıd´a situaci, kdy dan´a s´azenka nevyhr´av´a. Pˇ r´ıklad 2.10 Urna obsahuje a koul´ı b´ıl´ych a b koul´ı ˇcern´ych. Dvakr´at po sobˇe vyt´ahneme po jedn´e kouli, pˇriˇcemˇz prvn´ı vytaˇzenou kouli nevrac´ıme zpˇet. Jak´a je pravdˇepodobnost, ˇze druh´a vytaˇzen´a koule je b´ıl´a. ˇ sen´ı: Zavedeme jevy A1 – prvn´ı vytaˇzen´a koule je b´ıl´a a A2 , ˇze druh´a vytaˇzen´a Reˇ koule je b´ıl´a. Pak postupn´ymi u ´ pravami dostaneme P (A2 ) = P (A2 ∩ Ω) = P (A2 ∩ (A1 ∪ A1 )) = P ((A2 ∩ A1 ) ∪ (A2 ∩ A1 )) = = P (A1 ∩ A2 ) + P (A1 ∩ A2 ). a(a−1) b·a Snadno zjist´ıme, ˇze P (A1 ∩ A2 ) = (a+b)(a+b−1) a P (A1 ∩ A2 ) = (a+b)(a+b−1) . Odtud dosazen´ım do vztahu pro P (A2 ) dostaneme a(a−1) a·b a P (A2 ) = (a+b)(a+b−1) + (a+b)(a+b−1) = a+b . a Vˇsimnˇeme si, ˇze plat´ı P (A2 ) = a+b = P (A1 ) a tedy pravdˇepodobnost vytaˇzen´ı b´ıl´e koule ve druh´em tahu je stejn´a, jako pravdˇepodobnost vytaˇzen´ı b´ıl´e koule v prvn´ım tahu. Pˇ r´ıklad 2.11 Nˇekdo napsal m dopis˚ u pro m r˚ uzn´ych osob, vloˇzil do ob´alek pak na ob´alky n´ahodnˇe napsal m odpov´ıdaj´ıc´ıch adres. Jak´a je pravdˇepodobnost, ˇze ani jeden dopis nepˇrijde osobˇe, j´ıˇz byl naps´an?
22 ˇ sen´ı: Oznaˇcme A n´ahodn´y jev, ˇze ani jeden dopis nepˇrijde osobˇe, j´ıˇz byl naps´an. Reˇ Budeme poˇc´ıtat pomoc´ı opaˇcn´eho jevu A = aspoˇ n jededen dopis pˇrijde osobˇe j´ıˇz ” byl naps´an”, kter´y vyj´adˇr´ıme pomoc´ı n´ahodn´ychSjev˚ u Aj = j-t´y dopis pˇrijde osobˇe, ” m j´ıˇz byl S naps´an”,j = 1, 2, . . . , m, ve tvaru A = A . Pak P (A) = 1 − P (A) = j j=1 Sm m 1 − P ( j=1 Aj ). Pro v´ypoˇcet P ( j=1 Aj ) vyuˇzijeme vlastnosti pravdˇepodobnosti VP8, protoˇze n´ahodn´e jevy A1 , A2 . . . . , Am nejsou nesluˇciteln´e. Nejdˇr´ıv pomoc´ı klasick´e pravdˇepodobnosti vypoˇcteme pravdˇepodobnosti P (Ai ) pro i = 1, 2, . . . , m. P (Ai ∩ Aj ) pro 1 ≤ i < j ≤ m, P (Ai ∩ Aj ∩ Ak ) pro 1 ≤ i < j < k ≤ m, ... P (A1 ∩ A2 ∩ . . . ∩ Am ) Element´arn´ı jevy jsou uspoˇr´adan´e m-tice, j-t´y ˇclen t´eto m-tice obsahuje adresu pˇriˇrazenou j-t´emu dopisu. Poˇcet tˇechto m-tic je roven poˇctu permutac´ı vˇsech m adres, a tedy poˇcet element´arn´ıch jev˚ u je m!. N´ahodn´emu jevu Aj jsou pˇr´ızniv´e ty element´arn´ı jevy, kdy j-t´emu dopisu je pˇriˇrazena adresa osoby, j´ıˇz byl dopis urˇcen a zbyl´ych m − 1 adres m˚ uˇze b´yt zbyl´ym m − 1 dopis˚ um pˇriˇrazeno libovolnˇe. Je tedy poˇcet pˇr´ızniv´ych element´arn´ıch jev˚ u Aj roven card(Aj ) = (m − 1)!, j = 1, 2, . . . , m. Podobnˇe n´ahodn´emu jevu Ai ∩ Aj , 1 ≤ i < j ≤ m, jsou pˇr´ızniv´e ty element´arn´ı jevy, kdy i-t´emu a j-t´emu dopisu jsou pˇriˇrazeny adresy osob, j´ımˇz byly dopisy urˇceny a zbyl´ych m − 2 adres je zbyl´ym m − 2 dopis˚ um pˇriˇrazeno libovolnˇe. Je tedy card(Ai ∩ Aj ) = (m − 2)!. Analogicky snadno stanov´ıme, ˇze card(Ai ∩ Aj ∩ Ak ) = (m − 3)! pro 1 ≤ i < j < k ≤ m, . . . , card(Ai ∩ Aj ∩ . . . ∩ Am ) = (m − m)! = 0! = 1. Protoˇze adresy byly dopis˚ um pˇriˇrazeny n´ahodnˇe, lze pˇredpokl´adat, ˇze vˇsechny element´arn´ı jevy jsou stejnˇe pravdˇepodobn´e a uˇzit´ım klasick´e pravdˇepodobnosti dost´av´ame P (Ai ) = (m−1)! pro i = 1, 2, . . . , m m! (m−2)! P (Ai ∩ Aj ) = m! pro 1 ≤ i < j ≤ m P (Ai ∩ Aj ∩ Ak ) = (m−3)! pro 1 ≤ i < j < k ≤ m m! ... 0! P (A1 ∩ A2 ∩ . . . ∩ Am ) = (m−m)! = m! . m! Dosad´ıme-li odtud do vlastnosti VP8, dostaneme P(
Sm
i=1
Pm Pm−1 Pm i=1 P (Ai ) − j=i+1 P (Ai ∩ Aj ) + Pm−2 Pm−1 Pi=1 m m−1 + i=1 P (A1 ∩. . .∩Am ) k=j+1 P (Ai ∩Aj ∩Ak )−. . .+(−1) Pm (m−1)!j=i+1Pm−1 Pm (m−2)! = i=1 m! − i=1 + m! Pm−2 Pm−1 Pm j=i+1 (m−3)! + i=1 − . . . + (−1)m−1) (m−m)! j=i+1 k=j+1 m! m!
Ai ) =
23 = m1 (m−1)! − m2 (m−2)! + m! m! Pm (m−i)! m = Pi=1 (−1)i−1 i m! i−1 1 . = m i=1 (−1) i!
m (m−3)! 3 m!
− . . . + (−1)m−1
m (m−m)! m m!
Odtud S Pm (−1)i−1 Pm (−1)i P (A) = 1 − P ( m = i=0 i! . i=1 Ai ) = 1 − i=1 i! Snadno lze nahl´ednout, ˇze s rostouc´ım m konverguje uveden´a pravdˇepodobnost k . ˇc´ıslu e−1 = 0, 368.
Geometrick´ a pravdˇ epodobnost Geometrickou pravdˇepodobnost je moˇzn´e povaˇzovat za zobecnˇen´ı klasick´e pravdˇepodobnosti pro pˇr´ıpad, ˇze prostor element´arn´ıch jev˚ u Ω nen´ı koneˇcn´a mnoˇzina, ale je tvoˇrena nˇejak´ym intervalem na pˇr´ımce s kladnou d´elkou nebo mnoˇzina v rovinˇe s kladn´ym obsahem nebo mnoˇzina v prostoru (trojrozmˇern´em) s kladn´ym objemem apod. Oznaˇcme symbolem m(A) d´elku respektive obsah respektive objem mnoˇziny A, je-li A interval na pˇr´ımce respektive podmnoˇzina roviny respektive podmnoˇzina prostoru. Obecnˇe se m(A) naz´yv´a m´ırou mnoˇziny A. Pak geometrickou pravdˇepodobost jevu A ⊂ Ω zav´ad´ıme v pˇr´ıpadˇe, ˇze 0 < m(Ω) < ∞ vztahem pro A ∈ A, pˇriˇcemˇz jevov´a σ-algebra A je borelovsk´a (viz odstavec P (A) = m(A) m(Ω) 2.2 pro pˇr´ıpad, ˇze Ω je interval na pˇr´ımce nebo viz [13] v obecn´em pˇr´ıpadˇe). Z vlastnosti m(A) plyne, ˇze zaveden´a geometrick´a pravdˇepodobnost vyhovuje axiom˚ um A1, A2, A3 a je tedy speci´aln´ım pˇr´ıpadem axiomatick´e pravdˇepodobnosti. Jej´ı pouˇzit´ı uk´aˇzeme na pˇr´ıkladech. Pˇ r´ıklad 2.12 Dvˇe osoby X a Y se domluvily, ˇze se setkaj´ı na smluven´em m´ıstˇe. Pˇritom kaˇzd´a z nich pˇrijde na toto m´ısto nez´avisle na druh´e v n´ahodn´em okamˇziku mezi 19. a 20. hodinou, poˇck´a 20 minut, a jestliˇze se druh´a osoba bˇehem t´eto doby nedostav´ı, odejde. Naleznˇete pravdˇepodobnost a) ˇze se osoby setkaj´ı (jev A) b) ˇze pˇrijdou z´aroveˇ n (jev B) ˇ sen´ı: Ulohu ´ Reˇ budeme ˇreˇsit pomoc´ı geometrick´e pravdˇepodobnosti. Necht’ x je okamˇzik pˇr´ıchodu osoby X na smluven´e m´ısto, mˇeˇreno v minut´ach od 19. hodiny a necht’ y znaˇc´ı tut´eˇz veliˇcinu pro osobu Y . Potom prostor element´arn´ıch jev˚ u Ω je zˇrejmˇe tvaru Ω = {(x, y) : 0 ≤ x ≤ 60, 0 ≤ y ≤ 60}. Potom jev A= osoby se setkaj´ı” lze zapsat ” ve tvaru A = {(x, y) ∈ Ω :| x − y |≤ 20} a jev B= osoby pˇrijdou z´aroveˇ n” lze zapsat ” ve tvaru B = {(x, y) ∈ Ω : x = y}. Jevy A a B jsou zn´azornˇeny na obr. 2.1. Snadno stanov´ıme obsahy m(A) = 602 − 402 , m(B) = 0 a m(Ω) = 602 . Odtud dostaneme P (A) = m(A) = 95 a P (B) = 0. m(Ω)
24
Obr´azek 2.1: Pˇ r´ıklad 2.13 (Buffonova u ´ loha o jehle) V rovinˇe jsou nar´ysov´any rovnobˇeˇzky, jejichˇz vzd´alenost je d. Na tuto rovinu n´ahodnˇe h´az´ıme jehlu d´elky L, L < d. Jak´a je pravdˇepodobnost, ˇze jehla pˇretne nˇekterou z rovnobˇeˇzek? ˇ sen´ı: Oznaˇcme x vzd´alenost stˇredu jehly od nejbliˇzˇs´ı pˇr´ımky a ϕ u Reˇ ´ hel, kter´y sv´ır´a jehla s rovnobˇeˇzkami (viz obr.2.2). Pak zˇrejmˇe prostor element´arn´ıch jev˚ u je
Obr´azek 2.2: Ω = {ϕ, x) : 0 ≤ ϕ ≤ π, 0 ≤ x ≤ d2 }. Z d˚ uvod˚ u symetrie nen´ı nutno uvaˇzovat π ≤ ϕ ≤ 2π. Jev A= jehla pˇretne nˇekterou rovnobˇeˇzku” je tvaru (viz obr. 2.2) ” A = {ϕ, x) ∈ Ω : x ≤ L2 sin ϕ}. Obˇe mnoˇziny Ω a A jsou zn´azornˇeny na obr. 2.3. Rπ Snadno vypoˇcteme m(Ω) = π d2 a m(A) = L2 sinϕ dϕ = L a odtud uˇzit´ım geomet0
rick´e pravdˇepodobnosti ihned dostaneme Pm (A) =
m(A) m(Ω)
=
2L . πd
Z´ıskan´y vzorec nˇekteˇr´ı autoˇri v minulosti pouˇzili pro pˇribliˇzn´e stanoven´ı ˇc´ısla π. Postupovali tak, ˇze po proveden´ı n hod˚ u jehlou stanovili ˇcetnost m hod˚ u, kdy jehla pˇretla nˇekterou rovnobˇeˇzku a potom pomoc´ı relativn´ı ˇcetnosti m odhadli pravdˇepodobnost n
25
Obr´azek 2.3: ˇ ıslo π potom bylo poˇc´ıt´ano ze vzorce m ≈ Pm (A) = 2L . Tedy π ≈ Pm (A). C´ n πd zaj´ımavost d´ale uv´ad´ıme tabulku nˇekter´ych takto z´ıskan´ych v´ysledk˚ u. Experiment´ator Rok Poˇcet hod˚ u-n Odhad π = 2Ln md
2Ln . md
Pro
Volf Smith Fuchs Lazarini 1850 1855 1894 1901 5 000 3 204 1 120 3 408 3, 1596 3, 1553 3, 1419 3, 1415929
V´ysledky Fuchse a Lazariniho bud´ı ponˇekud ned˚ uvˇeru, snadno lze zjistit (viz napˇr. [5]), ˇze pravdˇepodobnost obdrˇzen´ı v´ysledku, kter´y z´ıskal Lazarini pˇri pomˇernˇe ma1 l´em poˇctu hod˚ u, je menˇs´ı neˇz 30 . Ale i pˇres tuto skuteˇcnost si podobn´e v´ypoˇcetn´ı postupy dochovaly svou aktu´alnost dodnes. Jednotliv´e pokusy (jako v uveden´em pˇr´ıkladˇe bylo h´azen´ı jehlou) se neprov´adˇej´ı pˇr´ımo, ale simuluj´ı se na vysoce v´ykonn´ych poˇc´ıtaˇc´ıch. Tak se stanov´ı relativn´ı ˇcetnost sledovan´eho jevu a tou se potom aproximuje s potˇrebnou pˇresnost´ı odpov´ıdaj´ıc´ı pravdˇepodobnost. Takto aproximovan´e hodnoty pravdˇepodobnosti se pak vyuˇz´ıvaj´ı pˇri numerick´ych v´ypoˇctech v´ıcerozmˇern´ych integr´al˚ u, pˇri numerick´em ˇreˇsen´ı diferenci´aln´ıch rovnic apod. Metody numerick´e matematiky, kter´e se touto problematikou zab´ yvaj´ı, se naz´yvaj´ı metody Monte Carlo. Pravdˇ epodobnost definovan´ a pomoc´ı pravdˇ epodobnosti element´ arn´ıch jev˚ u Budeme vych´azet ze situace, ˇze prostor element´arn´ıch jev˚ u Ω je koneˇcn´a nebo spoˇcetn´a mnoˇzina, kterou zap´ıˇseme ve tvaru Ω = {ω1 , ω2 , . . .}. D´ale budeme pˇredpokl´adat, ˇzP e element´arn´ı jevy ω maj´ı zn´am´e pravdˇepodobnosti P (ω) ≥ 0, ω ∈ Ω a plat´ı, ˇzP e ω∈Ω P (ω) = 1. Pak n´ahodn´emu jevu A lze pˇriˇradit pravdˇepodobnost P (A) = ω∈A P (ω), kde se sˇc´ıtaj´ı pravdˇepodobnosti vˇsech element´arn´ıch jev˚ u, kter´e jsou pˇr´ızniv´e jevu A. Lze uk´azat, ˇze takto zaveden´a pravdˇepodobnost splˇ nuje axiomy A1, A2 a A3 a je tedy pravdˇepodobnost´ı ve smyslu axiomatick´e definice. Pouˇzit´ı t´eto pravdˇepodobnosti uk´aˇzeme na pˇr´ıkladˇe. Pˇ r´ıklad 2.14 Pˇredpokl´adejme, ˇze h´az´ıme nesymetrickou kostkou, kde ˇc´ıslo 1 pad´a s pravdˇepodobnost´ı 19 , ˇc´ıslo 6 s pravdˇepodobnost´ı 92 a kaˇzd´e z ostatn´ıch ˇc´ısel s
26 pravdˇepodobnost´ı 16 . Stanovte pravdˇepodobnost jevu A, ˇze po hodu padne sud´e ˇc´ıslo. ˇ sen´ı: Zˇrejmˇe Ω = {ω1 , . . . , ω6 } a P (ω1) = 1 , P (ω2) = P (ω3 ) = P (ω4) = P (ω5) = 1 Reˇ 9 6 a P (ω6 ) = 29 . Pak A = {ω2 , ω4 , ω6 } a pro P (A) dostaneme P (A) = P (ω2 ) + P (ω4) + P (ω6 ) = 61 + 16 + 29 = 59 . Je zˇrejm´e, ˇze uveden´a pravdˇepodobnost vznikla rozˇs´ıˇren´ım klasick´e pravdˇepodobnosti opuˇstˇen´ım pˇredpokladu stejn´e moˇznosti” element´arn´ıch jev˚ u, tj. pˇripuˇstˇen´ım ” 1 moˇznosti, ˇze aspoˇ n pro jedno ω ∈ Ω je P (ω) 6= N . Nav´ıc nen´ı nutn´e pˇredpokl´adat, ˇze Ω je koneˇcn´a mnoˇzina, ale Ω m˚ uˇze b´yt mnoˇzinou nekoneˇcnou, ale spoˇcetnou.
Kapitola 3 Podm´ınˇ en´ a pravdˇ epodobnost V pˇredchoz´ım odstavci jsme zavedli pravdˇepodobnost n´ahodn´eho jevu jako numerick´e ohodnocen´ı moˇznosti nastoupen´ı jevu pˇri prov´adˇen´ı urˇcit´eho pokusu. Kdyˇz po proveden´ı pokusu m´ame nˇejakou doplˇ nuj´ıc´ı informaci o v´ysledku sledovan´eho pokusu, lze tuto informaci vyuˇz´ıt a pomoc´ı n´ı pˇrehodnotit numerick´e ohodnocen´ı moˇznosti nastoupen´ı sledovan´eho jevu za t´eto doplˇ nuj´ıc´ı informace. Kdyˇz napˇr. pokus spoˇc´ıv´a v hodu kostkou, je pravdˇepodobnost jevu A = padne sud´e ” ˇc´ıslo” rovna 12 . Kdyˇz ale m´ame nyn´ı informaci, ˇze po proveden´ı pokusu padlo ˇc´ıslo ” menˇs´ı neˇz 4” (jev B) je potom pravdˇepodobnost, ˇze padlo sud´e ˇc´ıslo za podm´ınky, ˇze ˇc´ıslo, kter´e padlo je menˇs´ı neˇz 4 rovna (pˇri pouˇzit´ı klasick´e pravdˇepodobnosti) 13 , protoˇze mezi tˇremi ˇc´ısly menˇs´ımi neˇz 4 je jenom jedno sud´e. Pro pravdˇepodobnost jevu A za podm´ınky, ˇze jev B nastal uˇz´ıv´ame oznaˇcen´ı P (A|B). C´ılem tohoto odstavce je podm´ınˇenou pravdˇepodobnost form´alnˇe definovat. Stejnˇe jako v pˇredchoz´ım odstavci se budeme op´ırat o souvislost pravdˇepodobnosti a relativn´ı ˇcetnosti.
3.1
ˇ Cetnostn´ ı motivace
Vyjdeme z dat, kter´a popisuj´ı v´ysledky jednoduch´eho pr˚ uzkumu veˇrejn´eho m´ınˇen´ı, jehoˇz se z´ uˇcastnilo n respondent˚ u. Kaˇzd´y odpovˇedˇel na ot´azku (a), zda je levicov´eho sm´yˇslen´ı (2 typy odpovˇed´ı - ano, ne) a v odpovˇedi na ot´azku (b) uvedl pohlav´ı (ˇzena, muˇz). V´ysledky pr˚ uzkumu lze jednoduˇse popsat absolutn´ımi ˇcetnostmi: n11 . . . poˇcet odpovˇed´ı na ot´azku (a) ano a na ot´azku (b) muˇz n21 . . . poˇcet odpovˇed´ı na ot´azku (a) ano a na ot´azku (b) ˇzena n12 . . . poˇcet odpovˇed´ı na ot´azku (a) ne a na ot´azku (b) muˇz n22 . . . poˇcet odpovˇed´ı na ot´azku (a) ne a na ot´azku (b) ˇzena 27
28 V´ysledn´e ˇcetnosti lze potom zapsat do tabulky Tab. 3.1, kter´a se naz´yv´a kontingenˇ cn´ı tabulka. Ot´azka (b) Ot´azka (a) Souˇcet Pohlav´ı Levicov´e sm´yˇslen´ı ano Levicov´e sm´yˇslen´ı ne muˇz n11 n12 n1. ˇzena n21 n22 n.2 Souˇcet n.1 n.2 n Tabulka 3.1: Kontingenˇcn´ı tabulka popisuj´ıc´ı v´ysledky pr˚ uzkumu veˇrejn´eho m´ınˇen´ı V uveden´e tabulce jsme oznaˇcili: n.1 = n11 + n21 , n.2 = n12 + n22 , n1. = n11 + n12 , ˇ ısla n.1 , n.2 , n1. a n2. , kter´a se nach´azej´ı na okraji tabulky se n.2 = n21 + n22 . C´ naz´yvaj´ı margin´ aln´ı ˇ cetnosti. Pomoc´ı absolutn´ıch ˇcetnost´ı lze zav´est relativn´ı ˇcetnosti vztahy f11 = nn11 , f21 = nn21 , f12 = nn12 , f22 = nn22 , margin´aln´ı relativn´ı ˇcetnosti f.1 = f11 + f21 , f.2 = f12 + f22 , f1. = f11 + f12 , f.2 = f21 + f22 . Zˇrejmˇe f.1 = nn.1 je relativn´ı ˇcetnost levicovˇe sm´yˇslej´ıc´ıch respondent˚ u v dan´em souboru, n.2 f.2 = n je relativn´ı ˇcetnost respondent˚ u, kteˇr´ı nemaj´ı levicov´e sm´yˇslen´ı. Podobnˇe n1. f1. = n je relativn´ı ˇcetnost muˇz˚ u v dan´em souboru a f2. je relativn´ı ˇcetnost ˇzen v dan´em souboru. D´ale zavedeme s ohledem na kontingenˇcn´ı tabulku Tab. 3.1 relativn´ı ˇcetnosti ˇr´adk˚ u n12 n21 n22 r11 = nn11 , r = , r = , r = . Vˇ s imnˇ e me si, ˇ z e souˇ c et relativn´ ıch 12 21 22 n1. n2. n2. 1. ˇr´adkov´ych ˇcetnost´ı je v kaˇzd´em ˇr´adku roven 1. Tedy r11 + r12 = 1 a r21 + r22 = 1. , s12 = nn12 , s21 = nn21 , s22 = Podobnˇe zavedeme relativn´ı ˇcetnosti sloupc˚ u s11 = nn11 .1 .2 .1 n22 . Opˇ e t plat´ ı, ˇ z e souˇ c et sloupcov´ y ch relativn´ ıch ˇ c etnost´ ı je v kaˇ z d´ e m sloupci rovna n.2 1, tedy s11 + s21 = 1 a s12 + s22 = 1. Vˇsechny uveden´e relativn´ı ˇcetnosti lze zapsat do tabulky. Dostaneme pak tabulku Tab. 3.2. Nˇekdy se uveden´e ˇcetnosti ud´avaj´ı v procentech. Ot´azka(b) Ot´azka (a) Souˇcet Pohlav´ı Levicov´e sm´yˇslen´ı ano Levicov´e sm´yˇslen´ı ne muˇz f11 (r11 ) [s11 ] f12 (r12 ) [s21 ] f1. (1) [−] ˇzena f21 (r21 ) [s12 ] f22 (r22 ) [s22 ] f2. (1) [−] Souˇcet f.1 (−) [1] f.2 (−) [1] 1 (−) [−] Tabulka 3.2: Tabulka relativn´ıch ˇcetnost´ı, relativn´ıch ˇcetnost´ı ˇr´adkov´ych (uvedeny v kulat´e z´avorce) a relativn´ıch ˇcetnost´ı sloupcov´ych (uvedeny v hranat´e z´avorce) Pˇredpokl´adejme, ˇze pˇri konkr´etn´ım pr˚ uzkumu proveden´eho u n = 100 respondent˚ u byly z´ısk´any v´ysledky uveden´e v kontingenˇcn´ı tabulce Tab. 3.3. Z hodnot tabulky Tab. 3.3 byla stanovena tabulka relativn´ıch ˇcetnost´ı Tab. 3.4.
29 Ot´azka (b) Ot´azka (a) Pohlav´ı Levicov´e sm´yˇslen´ı ano Levicov´e sm´yˇslen´ı ne muˇz 20 40 ˇzena 30 10 Margin´aln´ı 50 50 ˇcetnost
Margin´aln´ı ˇcetnost 60 40 100
Tabulka 3.3: Kontingenˇcn´ı tabulka z´ıskan´a pˇri pr˚ uzkumu veˇrejn´eho m´ınˇen´ı Ot´azka(b) Pohlav´ı muˇz ˇzena Souˇcet
Ot´azka (a) Souˇcet Levicov´e sm´yˇslen´ı ano Levicov´e sm´yˇslen´ı ne 0, 20 (0, 33) [0, 40] 0, 40 (0, 67) [0, 80] 0, 60 (1) [−] 0, 30 (0, 75) [0, 60] 0, 10 (0, 25) [0, 20] 0, 40 (1) [−] 0, 50 (−) [1] 0, 50 (−) [1] 1 (−) [−]
Tabulka 3.4: Relativn´ı ˇcetnosti pˇr´ısluˇsn´e ke kontingenˇcn´ı tabulce Tab. 3.3.
Z tabulky Tab. 3.4 je dobˇre patrn´e, ˇze ze vˇsech n = 100 respondent˚ u je 50% levicov´eho sm´yˇslen´ı (f.1 = 0, 5) a 50% respondent˚ u nen´ı levicov´eho sm´yˇslen´ı (f.2 = 0, 5). Mezi muˇzi je levicov´eho sm´yˇslen´ı 33% respondent˚ u (r11 = 0, 33) a mezi ˇzenami je levicov´eho sm´yˇslen´ı 75% respondent˚ u (r12 = 0, 75). Kdyˇz oznaˇc´ıme A n´ahodn´y jev, ˇze n´ahodnˇe vybran´a osoba ze z´akladn´ıho souboru je levicov´eho sm´yˇslen´ı, pak pravdˇepodobnost P (A) lze odhadnout relativn´ı ˇcetnost´ı f.1 = 0, 5. Oznaˇc´ıme-li d´ale jev B, ˇze n´ahodnˇe vybran´a osoba ze z´akladn´ıho souboru je muˇz, lze pravdˇepodobnost P (B) odhadnout relativn´ı ˇcetnost´ı f1. = 0, 6. Koneˇcnˇe se lze pt´at, jak´a je pravdˇepodobnost jevu A, ˇze n´ahodnˇe vybran´a osoba je levicov´eho sm´yˇslen´ı, kdyˇz bude vybr´ana pouze z muˇz˚ u z´akladn´ıho souboru. Tedy jak´a je pravdˇepodobnost jevu A za podm´ınky jevu B, oznaˇcme ji P (A|B). Zˇrejmˇe lze tuto podm´ınˇenou pravdˇepodobnost odhadnout ˇr´adkovou relativn´ı ˇcetnost´ı r11 = 0, 33. Postupnˇe dostaneme, ˇze podm´ınˇenou pravdˇepodobnost, ˇze n´ahodnˇe vybran´a osoba je levicov´eho sm´yˇslen´ı, za ¯ lze odhadnout ˇr´adkovou podm´ınky, ˇze byla vybr´ana ze souboru ˇzen tedy P (A|B), relativn´ı ˇcetnost´ı r21 = 0, 75. Vid´ıme, ˇze doplˇ nuj´ıc´ı podm´ınka specifikuj´ıc´ı podsoubor respondent˚ u z nˇehoˇz vyb´ır´ame, m˚ uˇze z´asadn´ım zp˚ usobem relativn´ı ˇcetnost sledovan´eho jevu ovlivnit. Je tak´e patrn´e, ˇze v uveden´em pˇr´ıkladˇe ˇr´adkov´a relativn´ı ˇcetnost r11 je s podm´ınˇenou pravdˇepodobnost´ı P (A|B) v podobn´em vztahu jako relativn´ı f.1 s pravdˇepodobnost´ı P (A) nebo f1. a pravdˇepodobnost´ı P (B). Tohoto vztahu m˚ uˇzeme vyuˇz´ıt k form´aln´ımu zaveden´ı podm´ınˇen´e pravdˇepodobnosti P (A|B). Pomoc´ı vztah˚ u, jimiˇz byly relativn´ı ˇcetnosti zavedeny, postupnˇe dostaneme r11
n11 = = n1.
n11 n n1. n
=
f11 f1.
(3.1)
30 Protoˇze P (A|B) lze odhadovat ˇr´adkovou relativn´ı ˇcetnost´ı r11 , P (B) relativn´ı ˇcetnost´ı f1. a P (A∩B) relativn´ı ˇcetnost´ı f11 , m˚ uˇzeme na z´akladˇe vztah˚ u mezi ˇcetnostmi 3.1 definovat podm´ınˇ enou pravdˇ epodobnost jevu A za podm´ınky B vztahem P (A|B) =
P (A ∩ B) P (B)
(3.2)
za pˇredpokladu, ˇze P (B) > 0. Uveden´a definice tak´e dobˇre odpov´ıd´a situaci, kdy nastoupen´ı jevu B pˇredstavuje dodateˇcn´e podm´ınky na proveden´y experiment nebo redukci prostoru element´arn´ıch jev˚ u Ω. Lze to dobˇre demonstrovat na pˇr´ıkladu s kostkou, kter´y jsme diskutovali v u ´ vodu tohoto odstavce. Hod´ıme-li hrac´ı kostkou a jev A bude, ˇze padne sud´e ˇc´ıslo” a jev B, ˇze padne ˇc´ıslo ” ” menˇs´ı neˇz 4”, pak v u ´ vodu tohoto odstavce jsme usoudili, ˇze P (A|B) = 13 . Protoˇze P (A ∩ B) = 61 a P (B) = 12 dostaneme z definice podm´ınˇen´e pravdˇepodobnosti P (A|B) = 61 / 12 = 13 , jak jsme oˇcek´avali. V dalˇs´ım odstavci budeme vych´azet z definice podm´ınˇen´e pravdˇepodobnosti 3.2 a budeme se zab´yvat jej´ımi vlastnostmi.
3.2
Vlastnosti podm´ınˇ en´ e pravdˇ epodobnosti
Budeme uvaˇzovat pravdˇepodobnostn´ı prostor (Ω, A, P ) a nˇejak´y pevnˇe dan´y n´ahodn´y jev B ∈ A, P (B) > 0. Potom podm´ınˇenou pravdˇepodobnost P (A|B), kterou povaˇzujeme za ˇc´ıseln´e ohodnocen´ı jevu A pˇri pevn´e podm´ınce B splˇ nuje axiomy A1, A2 a A3 z definice 2.2. Snadno nahl´edneme, ˇze plat´ı: 1. P (A|B) =
P (A∩B) P (B)
≥0
2. P (Ω|B) =
P (Ω∩B) P (B)
=
P (B) P (B)
=1
2 )∩B) 2 ∩B)) 3. P (A1 ∪ A2 |B) = P ((A1P∪A = P ((A1 ∩B)∪(A = (B) P (B) = P (A1 |B) + P (A2 |B) pro libovoln´e dva nesluˇciteln´e jevy A1 , A2 ∈ A.
P (A1 ∩B) P (B)
+
P (A2 ∩B) P (B)
=
Je tud´ıˇz podm´ınˇen´a pravdˇepodobnost P (A|B) speci´aln´ım pˇr´ıpadem pravdˇepodobnosti axiomatick´e a m´a proto tak´e vˇsechny vlastnosti axiomatick´e pravdˇepodobnosti VP1 - VP8. VPP1: P (∅|B) = 0 VPP2: 0 ≤ P (A|B) ≤ 1
31 VPP3: Je-li A1 ⊂ A2 , pak P (A1 |B) ≤ P (A2|B) VPP4: Je-li A1 ⊂ A2 , pak P (A2 − A1 |B) = P (A2 |B) − P (A1 |B) ¯ VPP5: P (A|B) = 1 − P (A|B) VPP6: P (A1 − A2 |B) = P (A1 |B) − P (A1 ∩ A2 |B) VPP7: P (A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B) − P (A1 ∩ A2 |B) S P P Pn VPP8: P ( ni=1 Ai |B) = ni=1 P (Ai|B) − n−1 i=1 j=i+1 P (Ai ∩ Aj |B) + · · · + T + (−1)n−1 P ( ni=1 Ai |B) S P VPP9: P ( ni=1 Ai |B) ≤ ni=1 P (Ai |B) D´ale lze snadno odvodit, ˇze plat´ı VPP10: P (B|B) = 1 VPP11: P (A|Ω) = P (A) T VPP12: Vzorec pro pravdˇ epodobnost pr˚ uniku. Kdyˇz P ( n−1 i=1 Ai ) > 0, pak plat´ı P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 )P (A2|A1 )P (A3 |A1 ∩ A2 ) · . . . · ·P (An |A1 ∩ A2 ∩ · · · ∩ An−1 ) Uveden´e vlastnosti se pˇri poˇc´ıt´an´ı s podm´ınˇen´ymi pravdˇepodobnostmi daj´ı s v´yhodou pouˇz´ıt. V n´asleduj´ıc´ım pˇr´ıkladu uk´aˇzeme dvoj´ı pˇr´ıstup k v´ypoˇctu podm´ınˇen´e pravdˇepodobnosti. Pˇ r´ıklad 3.1 Urna obsahuje 10 koul´ı, 6 b´ıl´ych a 4 ˇcern´e. Dvakr´at po sobˇe n´ahodnˇe vybereme jednu kouli z urny, prvn´ı vybranou nevrac´ıme. Jak´a je pravdˇepodobnost, ˇze druh´a vybran´a koule je ˇcern´a kdyˇz prvn´ı vybran´a koule byla ˇcern´a. ˇ sen´ı: Oznaˇcme A1 n´ahodn´y jev, ˇze prvn´ı vybran´a koule z urny je b´ıl´a a A2 Reˇ jev, ˇze druh´a vybran´a koule z urny je b´ıl´a. Pak c´ılem je spoˇc´ıtat podm´ınˇenou pravdˇepodobnost P (A2 |A1 ). Uk´aˇzeme dva pˇr´ıstupy k ˇreˇsen´ı a) ˇreˇsen´ı pomoc´ı prostoru element´arn´ıch jev˚ u Ω, kter´y se vztahuje k cel´emu ” pokusu” s vyuˇzit´ım definice podm´ınˇen´e pravdˇepodobnosti 3.2. Pouˇzijeme klasickou pravdˇepodobnost a definici 3.2. Protoˇze v prvn´ım tahu je moˇzn´e vybrat kteroukoli z deseti koul´ı a v druh´em kteroukoli ze zbyl´ych dev´ıti koul´ı je card(Ω) = 10 · 9. Protoˇze b´ılou kouli je moˇzn´e v prvn´ım tahu 6·9 vybrat ˇsesti zp˚ usoby, je card(A1 ) = 6 · 9 a P (A1 ) = 10·9 = 35 . D´ale protoˇze
32 prvn´ı b´ılou kouli je moˇzno vybrat 6-ti zp˚ usoby a druhou b´ılou kouli je moˇzno vybrat 5-ti zp˚ usoby (vybran´a koule se nevrac´ı), je card(A1 ∩ A2 ) = 6 · 5 a 6·5 30 2 ∩A1 ) P (A1 ∩ A2 ) = 10·9 = 90 = 13 . Odtud P (A2 |A1 ) = P (A = 1/3 = 95 . P (A1 ) 3/5 b) ˇreˇsen´ı na redukovan´em prostoru element´arn´ıch jev˚ u Ω2 . M´ame stanovit podm´ınˇenou pravdˇepodobnost P (A2|A1 ). Je-li podm´ınka splnˇena a pˇri pokusu nastal jev A1 , m˚ uˇzeme pˇri v´ypoˇctu P (A2 |A1 ) vyj´ıt z prostoru element´arn´ıch jev˚ u Ω2 , kter´y vznikne redukc´ı prostoru element´arn´ıch jev˚ u Ω, kter´y jsme uvaˇzovali pˇri ˇreˇsen´ı (a). Je-li totiˇz prvn´ı vytaˇzen´a koule z urny b´ıl´a, obsahuje urna pˇred druh´ym tahem 9 koul´ı, z toho 5 b´ıl´ych a 4 ˇcern´e. Prostor element´arn´ıch jev˚ u pro druh´y tah Ω2 obsahuje card(Ω2 ) = 9 element´arn´ıch jev˚ u a z toho je pˇet pˇr´ızniv´ych jevu A2 . Je proto P (A2 |A1 ) = 95 . Z uveden´eho pˇr´ıkladu je dobˇre patrn´e, ˇze ˇreˇsen´ı uveden´e v bodˇe (b) je podstatnˇe jednoduˇsˇs´ı a proto se postup uveden´y v bodˇe (b) pˇri poˇc´ıt´an´ı podm´ınˇen´ych pravdˇepodobnost´ı ˇcasto pouˇz´ıv´a. Na z´avˇer tohoto odstavce budeme jeˇstˇe ilustrovat pouˇzit´ı vlastnosti podm´ınˇen´e pravdˇepodobnosti VPP12. Pˇ r´ıklad 3.2 Ve spoleˇcnosti 2n osob je stejn´y poˇcet muˇz˚ u a ˇzen. Tyto osoby n´ahodnˇe obsad´ı 2n m´ıst kolem stolu. Jak´a je pravdˇepodobnost, ˇze ˇz´adn´e dvˇe osoby stejn´eho pohlav´ı nebudou sedˇet vedle sebe? ˇ sen´ı: Oˇc´ıslujme m´ısta za stolem ˇc´ısly 1, 2, . . . , 2n a oznaˇc´ıme Ai n´ahodn´y jev, ˇze Reˇ i-t´e m´ısto obsad´ı ˇzena a Bi n´ahodn´y jev, ˇze i-t´e m´ısto obsad´ı muˇz, i = 1, 2, . . . , 2n N´ahodn´y jev C, ˇze ˇz´adn´e dvˇe osoby stejn´eho pohlav´ı nebudou sedˇet vedle sebe, lze vyj´adˇrit pomoc´ı n´ahodn´ych jev˚ u Ai a Bi takto C = (A1 ∩ B2 ∩ A3 ∩ B4 ∩ · · · ∩ A2n−1 ∩ B2n ) ∪ (B1 ∩ A2 ∩ B3 ∩ A4 ∩ · · · ∩ A2n ). N´ahodn´e jevy, kter´e vystupuj´ı na prav´e stranˇe uveden´eho vztahu ve sjednocen´ı, nemohou nastat souˇcasnˇe (obsad´ı-li napˇr. prvn´ı m´ısto muˇz, nem˚ uˇze je souˇcasnˇe obsadit ˇzena) a jsou tedy nesluˇciteln´e. Nav´ıc ze symetrie u ´ lohy ve vztahu k obˇema pohlav´ı plyne, ˇze jsou oba tyto n´ahodn´e jevy stejnˇe pravdˇepodobn´e a tedy staˇc´ı spoˇc´ıtat pravdˇepodobnost pouze jednoho z nich. Uˇzit´ım vlastnosti VPP12 dostaneme P (A1 ∩ B2 ∩ A3 ∩ B4 ∩ · · · ∩ A2n−1 ∩ B2n ) = P (A1 )P (B2 |A1 )P (A3 |A1 ∩ B2 )· ·P (B4|A1 ∩ B2 ∩ A3 ) · . . . · P (B2n |A1 ∩ B2 ∩ A3 ∩ B4 ∩ · · · ∩ A2n−1 ). n D´ale pomoc´ı klasick´e pravdˇepodobnosti snadno nalezneme P (A1 ) = 2n , P (B2 |A1 ) = n (nebot’ nastane-li n´ahodn´y jev A1 a prvn´ı m´ısto obsad´ı ˇzena, vyb´ır´ame n´ahodˇe 2n−1 z 2n − 1 osob mezi nimiˇz je n muˇz˚ u a n − 1 ˇzen jednoho muˇze, kter´y obsad´ı druh´e n−1 m´ısto), P (A3 |A1 ∩ B2 ) = 2n−2 (nebot’ kdyˇz nastane A1 ∩ B2 , vyb´ır´ame n´ahodnˇe z
33 2n − 2 osob mezi nimiˇz je n − 1 muˇz˚ u a n − 1 ˇzen, jednu ˇzenu, kter´a obsad´ı tˇret´ı m´ısto) atd. Tedy celkem dostaneme P (A1 ∩B2 ∩A3 ∩B4 ∩· · ·∩A2n−1 ∩B2n ) = Odtud
n n n−1 n−1 1 1 (n!)2 · · · ·. . .· · = . 2n 2n − 1 2n − 2 2n − 3 2 1 (2n)!
2(n!)2 . (2n)! Z v´ysledku je ihned patrn´e, jak bylo moˇzn´e u ´ lohu rychle ˇreˇsit bez pouˇzit´ı podm´ınˇen´e pravdˇepodobnosti. Uveden´y delˇs´ı postup v´ypoˇctu ilustruje vlastnost VPP12 a ukazuje vyuˇzit´ı podm´ınˇen´ych pravdˇepodobnost´ı, kter´e v dan´e u ´ loze explicitnˇe vystupuj´ı a nepoˇc´ıtaj´ı se z definiˇcn´ıho pˇredpisu. P (C) =
3.3
Vzorec pro celkovou pravdˇ epodobnost
Vyjdeme z pravdˇepodobnostn´ıho prostoru (Ω, A, P ) a budeme pˇredpokl´adat, ˇze n´ahodn´e jevy B1 , . . . , Bk ∈ A tvoˇr´ı rozklad jist´eho jevu (Bi ∩ Bj = ∅ pro i 6= j S a ki=1 Bi = Ω). Uvaˇzujme d´ale jev A a pˇredpokl´adejme, ˇze existuj´ı podm´ınˇen´e pravdˇepodobnosti P (A|B1), . . . , P (A|Bk ), tedy ˇze pravdˇepodobnosti P (Bi) > 0 pro i = 1, 2, . . . , k. Pak plat´ı Vzorec pro celkovou pravdˇ epodobnost P (A) =
k X
P (Bi )P (A|Bi)
(3.3)
i=1
Abychom uk´azali vyuˇzit´ı vlastnost´ı pravdˇepodobnosti a podm´ınˇen´e pravdˇepodobnosti, vzorec 3.3 odvod´ıme pro pˇr´ıpad k = 2. Nejdˇr´ıve zap´ıˇseme jev A ve tvaru A = A ∩ Ω = A ∩ (B1 ∪ B2 ) = (A ∩ B1 ) ∪ (A ∩ B2 ). Protoˇze jevy A ∩ B1 a A ∩ B2 jsou nesluˇciteln´e a pravdˇepodobnost je aditivn´ı dost´av´ame odtud P (A) = P (A ∩ B1 ) + P (A ∩ B2 ). (3.4)
Z vlastnosti VPP12 plyne P (A∩B1 ) = P (B1 )P (A|B1 ) a P (A∩B2 ) = P (B2 )P (A|B2) a odtud dosazen´ım do 3.4 dostaneme P (A) = P (B1)P (A|B1 ) + P (B2 )P (A|B2 )
¯2 a proto coˇz je vzorec 3.3 pro k = 2. Vˇsimnˇeme si, ˇze v pˇr´ıpadˇe kdy k = 2 je B1 = B ¯ pro libovoln´y jev B ∈ A, P (B) > 0 a P (B) > 0, lze vzorec 3.3 pˇrepsat do tvaru ¯ (A|B). ¯ P (A) = P (B)P (A|B) + P (B)P
Jeho pouˇzit´ı si uk´aˇzeme na pˇr´ıkladˇe.
(3.5)
34 Pˇ r´ıklad 3.3 Uvaˇzujeme zad´an´ı z pˇr´ıkladu 3.1 a c´ılem je spoˇc´ıtat pravdˇepodobnost jevu A2 , ˇze druh´a vytaˇzen´a koule z urny je b´ıl´a. ˇ sen´ı: Poloˇzme A = A2 a B = A1 a vyuˇzijeme modifikovan´y vzorec pro celkovou Reˇ 6 ¯ = 1 − P (B) = 4 a pravdˇepodobnost 3.5. Protoˇze P (B) = P (A1 ) = 10 , P (B) 10 ¯ = P (A2 |A¯1 ) = 6 dostaneme ze vzorce 3.5 P (A|B) = P (A2|A1 ) = 95 a P (A|B) 9 ¯ (A|B) ¯ = 6 · 5 + 4 · 6 = 54 = 6 P (A2 ) = P (A) = P (B)P (A|B) + P (B)P 10 9 10 9 90 10 V´ysledek je zaj´ımav´y, protoˇze P (A2 ) = P (A1 ) a tedy pravdˇepodobnost vytaˇzen´ı b´ıl´e koule ve druh´em tahu, kdyˇz prvn´ı vybranou kouli nevrac´ıme, je stejn´a jako pravdˇepodobnost vytaˇzen´ı b´ıl´e koule v prvn´ım tahu. N´asleduj´ıc´ı dva pˇr´ıklady pˇredstavuj´ı u ´ lohy, kter´e jsou typick´e pro pouˇzit´ı vzorce pro celkovou pravdˇepodobnost. Pˇ r´ıklad 3.4 (Pˇr´ıklad je volnˇe zpracov´an podle [7]) Vl´ada a banka prov´adˇej´ı nez´avislou finanˇcn´ı politiku. Zavedeme n´ahodn´e jevy A . . . ”Stabiln´ı ekonomick´y r˚ ust zemˇe” B1 . . . ”Politika banky i vl´ady je spr´avn´a” B2 . . . ”Jen politika vl´ady nebo jen politika vl´ady je spr´avn´a” B3 . . . ”Ani politika banky ani politika vl´ady nen´ı spr´avn´a” Pˇredpokl´adejme, ˇze jsou zn´am´e pravdˇepodobnosti P (B1 ) = 0, 64, P (B2 ) = 0, 32, P (B3 ) = 0, 04 a podm´ınˇen´e pravdˇepodobnosti P (A|B1 ) = 0, 95; P (A|B2 ) = 0, 70; P (A|B3 ) = 0, 40. Jak´a je pravdˇepodobnost stabiln´ıho ekonomick´eho r˚ ustu (jevu A)? ˇ sen´ı: Pro ˇreˇsen´ı uˇzijeme vzorec pro celkovou pravdˇepodobnost (3.3). Zˇrejmˇe k = 3, Reˇ jevy B1 , B2 , B3 tvoˇr´ı rozklad jist´eho jevu a po dosazen´ı do (3.3) dostaneme P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2) + P (B3 )P (A|B3 ) = 0, 64 · 0, 95 + 0, 32 · 0, 70 + 0, 04 · 0, 40 = 0, 848. Pˇ r´ıklad 3.5 Urna obsahuje m koul´ı, z nichˇz nˇekter´e jsou b´ıl´e a nˇekter´e ˇcern´e. Sloˇzen´ı urny nen´ı pˇresnˇe zn´ame, v´ıme jen, ˇze byla naplnˇena takto: m-kr´at po sobˇe nˇekdo hodil minc´ı, kdyˇz padl l´ıc, byla do urny vloˇzena b´ıl´a koule, kdyˇz padl rub, byla do urny vloˇzena ˇcern´a koule. Z takto naplnˇen´e urny byla n´ahodn´e vybr´ana jedna koule. Jak´a je pravdˇepodobnost, ˇze tato n´ahodnˇe vytaˇzen´a koule z urny je b´ıl´a? ˇ sen´ı: Oznaˇcme A n´ahodn´y jev, ˇze vytaˇzen´a koule je b´ıl´a a Bi n´ahodn´y jev, ˇze Reˇ urna po naplnˇen´ı obsahovala pr´avˇe i b´ıl´ych koul´ı, i = 0, 1, 2, . . . , m. Ze zad´an´ı u ´ lohy je patrn´e, ˇze lze snadno stanovit pravdˇepodobnosti P (Bi ) a P (A|Bi ) pro i =
35 0, 1, . . . , m. Proto bude v´yhodn´e poˇc´ıtat podle vzorce Smpro celkovou pravdˇepodobnost. N´ahodn´e jevy B0 , B1 , . . . , Bm jsou nesluˇciteln´e. i=0 Bi = Ω a pomoc´ı klasick´e pravdˇepodobnosti snadno vypoˇcteme m P (Bi ) = · 2−m , i = 0, 1, . . . , m. i nebot’ pˇri m hodech minc´ı je 2m stejnˇe moˇzn´ych v´ysledk˚ u a mezi nimi je mi takov´ych, ˇze pr´avˇe i-kr´at padl l´ıc. Tedy P (Bi) > 0 pro i = 0, 1, . . . , m a pˇredpoklady pro pouˇzit´ı vzorce pro celkovou pravdˇepodobnost jsou splnˇeny. D´ale vypoˇcteme P A|Bi), tedy pravdˇepodobnost, ˇze koule n´ahodnˇe vytaˇzen´a z urny je b´ıl´a za podm´ınky, ˇze t´ahneme z urny, kter´a obsahuje i b´ıl´ych a m − i ˇcern´ych koul´ı. Tato pravdˇepodobnost je zˇrejmˇe P (A|Bi) = mi , i = 0, 1, . . . , m. Dosazen´ım do vzorce pro celkovou pravdˇepodobnost dost´av´ame m m m m X X i 1 X m i i · = m · = P (A) = P (Bi )P (A|Bi) = m 2 m 2 i m i=0 i=0 i=1 m m 1 X m! i 1 X (m − 1)! = m · = m = 2 i=1 i!(m − i)! m 2 i=1 (i − 1)!(m − 1 − (i − 1))! m m−1 1 X m−1 1 1 1 X m−1 = m = m 2m−1 = . = m 2 i=1 i − 1 2 j=0 j 2 2
3.4
Bayes˚ uv vzorec
Stejnˇe jako v pˇredchoz´ım odstavci vyjdeme z pravdˇepodobnostn´ıho prostoru (Ω, A, P ) a budeme pˇredpokl´adat, ˇze n´ahodn´e jevy B1 , . . . Bk ∈ A tvoˇr´ı rozklad jist´eho jevu, P (Bj ) > 0, j = 1, . . . , k a pro dalˇs´ı n´ahodn´y jev A ∈ A rovnˇeˇz plat´ı P (A) > 0. Pak plat´ı Bayes˚ uv vzorec P (A|Bj )P (Bj ) P (Bj |A) = Pk , j = 1, 2, . . . , k. i=1 P (A|Bi )P (Bi )
(3.6)
Vzorec ihned plyne z vlastnosti podm´ınˇen´e pravdˇepodobnosti VPP12 a vzorce pro celkovou pravdˇepodobnost. Z definice podm´ınˇen´e pravdˇepodobnosti a VPP12 dostaneme pro libovoln´e i = 1, 2, . . . , k. P (Bj |A) =
P (A ∩ Bj ) P (A|Bj )P (Bj ) = P (A) P (A)
Po dosazen´ı za P (A) ze vzorce 3.3 hned dostaneme 3.6.
36 Pˇ r´ıklad 3.6 (Pokraˇcov´an´ı pˇr´ıkladu 3.3). Jestliˇze jsme z urny, kter´a p˚ uvodnˇe obsahovala 6 koul´ı b´ıl´ych a 4 ˇcern´e koule, vyt´ahli ve druh´em tahu b´ılou kouli, pˇriˇcemˇz koule vytaˇzen´a v prvn´ım tahu nebyla do urny vr´acena, jak´a je pravdˇepodobnost, ˇze koule vytaˇzen´a v prvn´ım tahu byla b´ıl´a? ˇ sen´ı: Pˇri vyuˇzit´ı oznaˇcen´ı z pˇr´ıkladu 3.3, je tˇreba spoˇc´ıtat podm´ınˇenou pravdˇeReˇ podobnost P (A1 |A2 ). Z Bayesova vzorce plyne P (A1 |A2 ) = Po dosazen´ı P (A1 ) = = 59 . P (A1 |A2 ) = 30 54
6 , 10
P (A2 |A1 )P (A1) . P (A2 |A1 )P (A1) + P (A2 |A¯1 )P (A¯1)
P (A¯1 ) =
4 , 10
P (A2 |A1 ) = 59 , P (A2 |A¯1 ) =
6 9
dostaneme
Pˇ r´ıklad 3.7 (Pokraˇcov´an´ı pˇr´ıkladu 3.4). Pˇredpokl´adejme, v r´amci textu pˇr´ıkladu 3.4 o finanˇcn´ı politice st´atu, ˇze ve sledovan´em obdob´ı skuteˇcnˇe doˇslo ke stabiln´ımu ekonomick´emu r˚ ustu. Pˇri uplatnˇen´ı t´eto nov´e informace je tˇreba zjistit pravdˇepodobnost, ˇze jak politika vl´ady tak politika st´atu byla ve sledovan´em obdob´ı skuteˇcnˇe spr´avn´a. ˇ sen´ı: C´ılem je spoˇc´ıtat podm´ınˇenou pravdˇepodobnost P (B1 |A). Uˇzit´ım Bayesova Reˇ vzorce a dosazen´ım za P (Bi ) a P (A|Bi ), i = 1, 2, 3 hodnoty uveden´e v pˇr´ıkladu 3.4 dostaneme P (B1 |A) = 0,64·0,95 = 0717. Analogicky lze d´ale stanovit P (B2 |A) = 0,848 0, 264 a P (B3 |A) = 0, 019. Doporuˇcujeme ˇcten´aˇri porovnat pravdˇepodobnosti P (Bi) a P (Bi|A), i = 1, 2, 3 a interpretovat jejich zmˇenu. Pˇ r´ıklad 3.8 Z urny jej´ıˇz naplnˇen´ı bylo pops´ano v pˇr´ıkladˇe 3.5, bylo n-kr´at po sobˇe n´ahodnˇe vytaˇzeno vˇzdy po jedn´e kouli, vytaˇzen´a koule byla po kaˇzd´em tahu vr´acena zpˇet a koule v urnˇe byly po tahu prom´ıch´any. Po proveden´ı tˇechto n tah˚ u se uk´azalo, ˇze vˇsechny vytaˇzen´e koule byly b´ıl´e. Jak´a je pravdˇepodobnost, ˇze urna obsahovala jen b´ıl´e koule? ˇ sen´ı: Stejnˇe jako v pˇr´ıkladˇe 3.5 oznaˇc´ıme Bi n´ahodn´y jev, ˇze urna obsahovala pr´avˇe Reˇ i b´ıl´ych koul´ı, i = 0, 1, . . . , m. D´ale oznaˇc´ıme A n´ahodn´y jev, ˇze vˇsech n vytaˇzen´ych koul´ı bylo b´ıl´ych. ame vypoˇc´ıtat pravdˇepodobnost P (Bm |A). Z pˇr´ıkladu 3.5 v´ıme, M´ m m ˇze P (Bi) = i /2 a pomoc´ı klasick´e pravdˇepodobnosti snadno vypoˇcteme podm´ınˇen´e pravdˇepodobnosti P (A|Bi) = in /mn pro i = 0, 1, . . . , m. Odtud plyne, ˇze bude v´yhodn´e poˇc´ıtat podm´ınˇenou pravdˇepodobnost P (Bm |A) pomoc´ı Bayesova vzorce. Pˇredpoklady pro jeho pouˇzit´ı jsou zˇrejmˇe splnˇeny. Postupnˇe dostaneme m mn m /2 mn 1 m in = Pm m i n . P (Bm |A) = Pm m /2m mn i=0 i=0 i i m n −m Pro vypoˇctenou pravdˇepodobnost P (Bm |A) plat´ı P (Bm |A) ≥ 1 + e− m (viz [13] −10 −10 str. 30). Pro m = 10 a n = 100 dostaneme P (B10 |A) ≥ (1 + e ) > 0, 99994.
37 Tento v´ysledek je zcela pˇrirozen´y a bylo jej moˇzno oˇcek´avat. Kdyˇz si uvˇedom´ıme, ˇze n´ahodn´y jev B10 znamen´a, ˇze urna obsahovala jen b´ıl´e koule (tj. ˇze v deseti hodech minc´ı padl vˇzdy l´ıc), pak jeho pravdˇepodobnost je bl´ızk´a nule. Zjist´ıme-li na druh´e stranˇe, ˇze z takto n´ahodnˇe naplnˇen´e urny byla 100-kr´at po sobˇe s opakov´an´ım vytaˇzena vˇzdy b´ıl´a koule (jev A), pak usoud´ıme, ˇze s pravdˇepodobnost´ı bl´ızkou 1 urna obsahuje jen b´ıl´e koule. Na z´avˇer odstavce jeˇstˇe uvedeme pozn´amku, kter´a osvˇetluje ˇcast´e pouˇzit´ı Bayesova vzorce v aplikac´ıch. N´ahodn´e jevy B1 , B2 , . . . , Bk , kter´e vystupuj´ı v Bayesovˇe vzorci, se obvykle naz´yvaj´ı hypot´ezy. Na z´akladˇe pokusu, jehoˇz v´ysledkem je n´ahodn´y jev A, se pak rozhoduje, kter´a z hypot´ez B1 , B2 , . . . , Bk plat´ı. Rozhodnut´ı se prov´ad´ı pomoc´ı hodnot pravdˇepodobnost´ı P (Bi |A), i = 1, 2, . . . , k, kter´e se naz´yvaj´ı aposteriorn´ı pravdˇepodobnosti, protoˇze se stanovuj´ı aˇz po proveden´ı pokusu. Proti tomu pravdˇepodobnosti P (Bi ), i = 1, 2, . . . , k se naz´yvaj´ı apriorn´ı, nebot’ se poˇc´ıtaj´ı jeˇstˇe pˇred proveden´ım pokusu, jehoˇz v´ysledkem je n´ahodn´y jev A. Bayes˚ uv vzorec tedy umoˇzn ˇ uje v´ypoˇcet aposteriorn´ıch pravdˇepodobnost´ı pomoc´ı pravdˇepodobnost´ı apriorn´ıch. V matematick´e statistice dal tanto vzorec podnˇet ko vzniku tzv. bayesovsk´ych odhad˚ u, kter´e jsou dnes v mnoha ekonomick´ych aplikac´ıch hojnˇe vyuˇz´ıv´any.
3.4.1
Nez´ avislost n´ ahodn´ ych jev˚ u
ˇ Castou u ´ lohou, s n´ıˇz se setk´av´ame pˇri anal´yze ekonomick´ych jev˚ u, je prov´est rozhodnut´ı, zda mezi studovan´ymi jevy je nˇejak´a statistick´a vazba. Tedy je tˇreba rozhodnout zda nastoupen´ı jednoho jevu m˚ uˇze zv´yˇsit pravdˇepodobnost nastoupen´ı druh´eho nebo naopak ji sn´ıˇzit, pˇr´ıpadnˇe nastoupen´ı jednoho jevu nem´a na pravdˇepodobnost nastoupen´ı druh´eho ˇz´adn´y vliv. V posledn´ım pˇr´ıpadˇe ˇr´ık´ame, ˇze jevy jsou nez´avisl´e. Problematiku statistick´e vazby mezi jevy osvˇetl´ıme na datech. Uvaˇzujme hypotetickou situaci, ˇze na tˇrech m´ıstech: I - v zemˇedˇelsk´e oblasti, II - v pr˚ umyslov´e oblasti a III - ve velkomˇestˇe byli n´ahodnˇe vybran´ı respondenti t´az´ani v r´amci pr˚ uzkumu veˇrejn´eho m´ınˇen´ı, zda jejich sm´yˇslen´ı je sp´ıˇse levicov´e nebo ne a z´aroveˇ n bylo zaznamen´ano, zda dotazovan´a osoba je ˇzena ˇci muˇz. V´ysledky tohoto pr˚ uzkumu jsou uvedeny v Tab. 3.5. Tato tabulka sest´av´a ze 3 kontingenˇcn´ıch tabulek pro oblasti I, II, III. Nejdˇr´ıve pro jednotliv´e oblasti vypoˇcteme relativn´ı ˇcetnosti levicovˇe sm´yˇslej´ıc´ıch respondent˚ u, oznaˇc´ıme je fn (L) a potom opˇet pro jednotliv´e oblasti spoˇcteme relativn´ı ˇcetnosti levicovˇe sm´yˇslej´ıc´ıch ˇzen fn (L|Z) a relativn´ı ˇcetnosti levicovˇe sm´yˇslej´ıc´ıch muˇz˚ u fn (L|M). V´ysledky jsou uvedeny v tabulce Tab. 3.6. Z t´eto tabulky je patrn´e, ˇze pro oblasti I plat´ı fn (L) < fn (L|M) a fn (L) > fn (L|Z). Ukazuje se, ˇze v t´eto oblasti je z muˇz˚ u levicov´eho sm´yˇslen´ı asi 66, 6% a z tˇech je levicov´eho sm´yˇslen´ı pouze 25%, pˇriˇcemˇz pro celou oblast plat´ı, ˇze v n´ı je 50% levicovˇe sm´yˇslej´ıc´ıch. Ukazuje se
ˇ MUZ ˇ ZENA Souˇcet
ANO 20 5 25
NE 10 15 25
30 20 50
Levicov´e sm´ yˇslen´ı
ANO 10 40 50
NE 20 10 30
30 50 80
III Levicov´e sm´ yˇslen´ı
ANO 30 20 50
NE 30 20 50
Souˇcet
I Levicov´e sm´ yˇslen´ı
Oblast II
Souˇcet
Pohlav´ı
Souˇcet
38
60 40 100
Tabulka 3.5: Hypotetick´e v´ysledky pr˚ uzkumu veˇrejn´eho m´ınˇen´ı Oblast
Rozsah souboru n
ˇ Cetnost fn (L)
ˇ Cetnost fn (L|Z)
ˇ Cetnost fn (L|M )
I II III
50 80 100
0,500 0,625 0,500
0,250 0,800 0,500
0,666 0,333 0,500
Tabulka 3.6: Relativn´ı ˇcetnosti a podm´ınˇen´e relativn´ı ˇcetnosti pˇr´ısluˇsn´e k tabulce Tab. 3.5 tedy, ˇze v t´eto oblasti existuje statistick´a vazba mezi pohlav´ım respondent˚ u a jejich levicov´ym sm´yˇslen´ım. V oblasti II je situace podobn´a jenom statistick´a vazba mezi pohlav´ım respondent˚ u a jejich sm´yˇslen´ım m´a oproti oblasti I opaˇcn´y smˇer. V oblast´ı III plat´ı fn (L) = fn (L|M) = fn (L|Z).
(3.7)
Tedy ˇcetnost levicovˇe sm´yˇslej´ıc´ıch v cel´em souboru respondent˚ u je stejn´a jako v souboru respondent˚ u muˇzsk´eho pohlav´ı a stejn´a jako v souboru respondent˚ u ˇzensk´eho pohlav´ı. Lze tedy o t´eto oblasti prohl´asit, ˇze levicov´e sm´yˇslen´ı respondent˚ u nez´avis´ı na jej´ıch pohlav´ı. Lze si tak´e vˇsimnout, ˇze souˇcin relativn´ıch ˇcetnost´ı fn (L)·fn (M) = 0, 5 · 0, 6 = 0, 3 coˇz je relativn´ı ˇcetnost levicovˇe sm´yˇslej´ıc´ıch muˇz˚ u v oblasti III. M˚ uˇzeme ji oznaˇcit fn (L ∩ M). Pak tedy plat´ı, ˇze fn (L ∩ M) = fn (L) · fn (M).
(3.8)
Protoˇze existuje souvislost mezi (podm´ınˇenou) relativn´ı ˇcetnost´ı a (podm´ınˇenou) pravdˇepodobnost´ı, mohou vztahy 3.7 a 3.8 poslouˇzit k definici nez´avislosti n´ahodn´ych jev˚ u. Dˇr´ıve neˇz tuto definici vyslov´ıme, uvedeme jeˇstˇe jeden jednoduch´y pˇr´ıklad. Pokus bude spoˇc´ıvat v jednom hodu kostkou a zavedeme jevy A = padne sud´e ˇc´ıslo” B = ” padne ˇc´ıslo menˇs´ı neˇz 3” a C = padne ˇc´ıslo menˇs´ı neˇz 4”. Zˇrejmˇe P (A) = 12 , ” ” P (A|B) = 21 a P (A|C) = 13 . Tedy P (A) = P (A|B) a tutu rovnost lze interpretovat tak, ˇze pˇri nastoupen´ı jevu B nedost´av´ame novou informaci a pravdˇepodobnosti nastoupen´ı jevu A. Ale protoˇze P (A) > P (A|C), dostaneme pˇri nastoupen´ı jevu
39 C dodateˇcnou informaci, ˇze pravdˇepodobnost nastoupen´ı A (za podm´ınky C) se sn´ıˇzila. Lze usoudit, ˇze mezi jevy A a B nen´ı statistick´a vazba, mezi jevy A a C statistick´a vazba existuje. Pˇrejdeme k definici nez´avisl´ych n´ahodn´ych jev˚ u. Budeme uvaˇzovat pravdˇepodobˇ nostn´ı prostor (Ω, A, P ) a n´ahodn´e jevy A, B ∈ A, P (A) > 0 a P (B) > 0. Rekneme, ˇze jev A je nez´avisl´y na jevu B, kdyˇz plat´ı P (A|B) = P (A).
(3.9)
Vˇsimnˇeme si, ˇze tato vlastnost odpov´ıd´a vlastnosti 3.7 relativn´ı ˇcetnosti. Vztah 3.9 lze d´ale pˇrepsat a postupnˇe dostaneme P (A) = P (A|B) =
P (A ∩ B) P (B|A)P (A) = P (B) P (B)
a odtud plyne, ˇze P (B|A) = P (B) a tedy tak´e jev B je nez´avisl´y na jevu A. Tedy vlastnost, ˇze jeden jev je nez´avisl´y na druh´em je symetrick´a, kdyˇz A je nez´avisl´y na B, je tak´e B nez´avisl´y na A. Nav´ıc pˇri nez´avislosti A na B plat´ı P (A ∩ B) = P (A)P (B|A) = P (A)P (B). Pomoc´ı t´eto rovnosti se nez´avislost n´ahodn´ych jev˚ u obvykle definuje, nav´ıc pˇri pouˇzit´ı tohoto vztahu jiˇz nen´ı potˇreba pˇredpokl´adat, ˇze P (A) > 0 a P (B) > 0. Takov´a definice pak odpov´ıd´a vlastnosti ˇcetnost´ı 3.8. Definice 3.1 N´ahodn´e jevy A a B definovan´e na pravdˇepodobnostn´ım prostoru (Ω, A, P ) naz´ yv´ ame nez´ avisl´ e (vzhledem k pravdˇepodobnosti P ), kdyˇz plat´ı P (A ∩ B) = P (A) · P (B). Jak plyne z definice nez´avislosti n´ahodn´ych jev˚ u, je nez´avislost jev˚ u A a B vlastnost´ı pravdˇepodobnosti P . Je moˇzn´e, ˇze jevy A a B, kter´e jsou pˇri dan´e pravdˇepodobnosti P nez´avisl´e by mohly b´yt pˇri jin´e volbˇe pravdˇepodobnosti z´avisl´e. Tato moˇznost je nast´ınˇen´a v u ´ vodn´ım pˇr´ıkladu s pr˚ uzkumem veˇrejn´eho m´ınˇen´ı, kdy v oblastech I a II byly statistick´e vazby mezi levicov´ym sm´yˇslen´ım a pohlav´ım respondenta, zat´ımco v oblasti III takov´a vazba pozorov´ana nebyla. Pojem nez´avislosti jev˚ u se nˇekdy pro svou slovn´ı podobnost neopr´avnˇenˇe zamˇen ˇ uje s pojmem nesluˇcitelnosti jev˚ u, kter´a je mnoˇzinovou vlastnost´ı jev˚ u. Pro nesluˇciteln´e jevy A a B plat´ı plat´ı, ˇze A ∩ B = ∅ a pro nez´avisl´e jevy A a B plat´ı P (A ∩ B) = P (A)P (B). Proto je zˇrejm´e, ˇze nesluˇciteln´e jevy jsou nez´avisl´e pr´avˇe kdyˇz aspoˇ n jeden z nich m´a pravdˇepodobnost rovnu nule. Uved’me si d´ale vlastnosti nez´avisl´ych n´ahodn´ych jev˚ u A a B definovan´ych na (Ω, A, P ). Snadno nahl´edneme, ˇze plat´ı: ¯ nez´avisl´e, d´ale jevy A¯ a B N1: Jsou-li jevy A a B nez´avisl´e jsou tak´e jevy A a B ¯ jsou nez´avisl´e jsou nez´avisl´e a rovnˇeˇz jevy A¯ a B
40 N2: Jev nemoˇzn´y ∅ a libovoln´y jev A jsou nez´avisl´e N3: Jev jist´y Ω a libovoln´y jev A jsou nez´avisl´e ¯ plat´ı pr´avˇe kdyˇz A a B jsou N4: Kdyˇz 0 < P (B) < 1, pak P (A|B) = P (A|B) nez´avisl´e. D´ale se budeme zab´yvat ot´azkou nez´avislosti v´ıce neˇz dvou n´ahodn´ych jev˚ u. Zaˇcneme pˇr´ıkladem. Pˇ r´ıklad 3.9 Dvakr´at hod´ıme minc´ı a zavedeme 3 n´ahodn´e jevy A . . . v prvn´ım hodu padne l´ıc B . . . v druh´em hodu padne l´ıc C . . . v obou hodech padne l´ıc nebo v obou hodech padne rub. Vyˇsetˇrete nez´avislost n´ahodn´ych jev˚ u A, B, C. ˇ sen´ı: Snadno nahl´edneme, ˇze plat´ı P (A) = P (B) = P (C) = Reˇ P (A ∩ C) = P (B ∩ C) = 41 a tedy
1 2
a P (A ∩ B) =
P (A ∩ B) = P (A)P (B) P (A ∩ C) = P (A)P (C) P (B ∩ C) = P (B)P (C) Tud´ıˇz kaˇzd´e dva z jev˚ u A, B a C jsou nez´avisl´e. D´ale vyˇsetˇr´ıme nez´avislost jev˚ u A a B ∩ C. Zˇrejmˇe P (A) = 21 , P (B ∩ C) = 14 a P (A ∩ (B ∩ C)) = P (A ∩ B ∩ C) = 0. Tedy P (A ∩ (B ∩ C)) 6= P (A)P (B ∩ C) a proto jevy A a B ∩ C nejsou nez´avisl´e, existuje mezi nimi statistick´a vazba i kdyˇz kaˇzd´e dva z jev˚ u A, B, C nez´avisl´e jsou. Budeme proto definovat nez´avislost n ≥ 2 n´ahodn´ych jev˚ u, kter´a bude zobecnˇen´ım nez´avislosti dvou jev˚ u. ˇ Definice 3.2 Rekneme, ˇze n´ahodn´e jevy A1 , A2 , . . . , An definovan´e na (Ω, A, P ) jsou skupinovˇ e nez´ avisl´ e, kdyˇz plat´ı n´asleduj´ıc´ı vztahy: P (Ai ∩ Aj ) = P (Ai )P (Aj ) pro i 6= j, i, j = 1, 2, . . . , n P (Ai ∩ Aj ∩ Ak ) = P (Ai)P (Aj )P (Ak ) pro i 6= j, i 6= k, j 6= k, i, j, k = 1, 2, . . . , n ··· P (A1 ∩ A2 ∩ . . . An ) = P (A1 )P (A2 ) · . . . · P (An ). Z definice skupinovˇe nez´avisl´ych jev˚ u ihned plyne, ˇze skupinovˇe nez´avisl´e jevy jsou tak´e nez´avisl´e po dvou, opak ovˇsem neplat´ı, jak ukazuje pˇr´ıklad 3.9. D´ale uvedeme vlastnosti skupinovˇe nez´avisl´ych jev˚ u.
41 SN1: Jsou-li A1 , A2 , . . . , An skupinovˇe nez´avisl´e jevy, potom tak´e kaˇzd´a aspoˇ n dvouprvkov´a podmnoˇzina tˇechto jev˚ u je mnoˇzina skupinovˇe nez´avisl´ych jev˚ u. SN2: Kdyˇz libovoln´ych k jev˚ u k = 1, 2, . . . , n v n-tici skupinovˇe nez´avisl´ych jev˚ u A1 , . . . An nahrad´ıme jevy opaˇcn´ymi, dostaneme opˇet n-tici skupinovˇe nez´avisl´ych jev˚ u. Napˇr. kdyˇz jevy A1 , A2 , . . . , An jsou skupinovˇe nez´avisl´e, jsou skupinovˇe nez´avisl´e tak´e jevy A¯1 , A2 , . . . , An nebo jevy A¯1 , A¯2 , . . . , A¯n . SN3: Pro sjednocen´ı skupinovˇe nez´avisl´ych jev˚ u A1 , A2 , . . . , An plat´ı P(
n [
i=1
Qn
Ai ) = 1 −
n Y (1 − P (Ai )), i=1
pˇriˇcemˇz i=1 znaˇc´ı souˇci ˇc´ısel a1 , a2 , . . . , an . Speci´alnˇe pro n = 2 plat´ı
P (A1 ∪ A2 ) = 1 − (1 − P (A1 ))(1 − P (A2 )) a pro n = 3 plat´ı P (A1 ∪ A2 ∪ A3 ) = 1 − (1 − P (A1 ))(1 − P (A2))(1 − P (A3 )). Pˇ r´ıklad 3.10 Odvod’te tvrzen´ı SN3. ˇ sen´ı: Pomoc´ı de Morganov´ych pravidel a uˇzit´ım vlastnost´ı pravdˇepodobnosti a Reˇ vlastnosti SN2 dostaneme ! ! ! n n n n n [ \ \ Y Y ¯ ¯ ¯ P Ai = P Ai = 1 − P Ai = 1 − P (Ai ) = 1 − (1 − P (Ai )) . i=1
i=1
i=1
i=1
i=1
Na z´avˇer odstavce vypoˇcteme ilustrativn´ı pˇr´ıklad. Pˇ r´ıklad 3.11 Profesor zapomene deˇstn´ık pˇri kaˇzd´e n´avˇstˇevˇe obchodu s pravdˇepodobnost´ı 14 . a) Jestliˇze mus´ı se sv´ym deˇstn´ıkem navˇst´ıvit ˇctyˇri r˚ uzn´e obchody, jak´a je pravdˇepodobnost, ˇze jej zapomene ve ˇctvrt´em obchodˇe? b) Jestliˇze pˇrijde dom˚ u bez deˇstn´ıku, jak´a je pravdˇepodobnost, ˇze jej zapomnˇel ve ˇctvrt´em obchodˇe? ˇ sen´ı: Oznaˇcme Ai n´ahodn´y jev profesor zapomene deˇstn´ık v i-t´em obchodˇe Reˇ ” pˇri jeho jednor´azov´e n´avˇstˇevˇe”, i = 1, 2, 3, 4. Pˇredpokl´ad´ame, ˇze n´ahodn´e jevy A1 , A2 , A3 , A4 mohou b´yt v´ysledky ˇctyˇr d´ılˇc´ıch nez´avisl´ych pokus˚ u a proto je budeme pokl´adat za nez´avisl´e.
42 a) Oznaˇcme A = A¯1 ∩ A¯2 ∩ A¯3 ∩ A4 n´ahodn´y jev, jehoˇz pravdˇepodobnost m´ame stanovit. Potom z nez´avislosti n´ahodn´ych jev˚ u A1 , . . . , A4 plyne P (A) = P (A¯1 ∩ A¯2 ∩ A¯3 ∩ A4 ) = P (A¯1)P (A¯2 )P (A¯3 )P (A4 ) = (1 − P (A1 ))(1 − P (A2 ))(1 − 3 . P (A3 ))P (A4 ) = 14 · 34 = 0, 11.
b) Oznaˇcme B = A1 ∪A2 ∪A3 ∪A4 . M´ame stanovit podm´ınˇenou pravdˇepodobnost S4 (A) . Potom P (B) = P P (A|B). Protoˇze A ⊆ B je P (A|B) = PP (B) i=1 Ai = 1 − Q4 . 1 4 . ı dost´av´ame P (A|B) = 0, 15. i=1 (1−P (Ai )) = 1−(1− 4 ) = 0, 64. Po dosazen´
Kapitola 4 ´ Uvod do popisn´ e statistiky Vˇsude kolem n´as se setk´av´ame se shromaˇzd’ov´an´ım velk´eho poˇctu u ´ daj˚ u o nejr˚ uznˇejˇs´ıch objektech. Mohou to b´yt n´arodohospod´aˇrsk´e u ´ daje o v´yvoji ekonomiky dan´e zemˇe sb´ıran´e v pravideln´ych ˇcasov´ych intervalech, u ´daje o klientech dan´e banky, u ´ daje o pˇr´ıjmech a v´ydaj´ıch pojiˇst’ovny, u ´ daje o zdravotn´ım stavu pacient˚ u oˇsetˇren´ych ve vybran´e nemocnici, person´aln´ı u ´ daje o studentech a u ´ daje o jejich prospˇechu na urˇcit´e univerzitˇe v dan´em roce, u ´ daje o v´yrobc´ıch dan´eho podniku a podobnˇe. Souhrnˇe, tyto u ´ daje vytv´aˇrej´ı rozs´ahl´e datov´e soubory, kter´e obsahuj´ı velk´e mnoˇzstv´ı informace. Informace obsaˇzen´a v takov´ych rozs´ahl´ych datov´ych souborech se m˚ uˇze lidsk´emu pozorovateli jevit jako nepˇrehledn´a a pro jej´ı utˇr´ıdˇen´ı se zav´ad´ı speci´aln´ı apar´at – popisn´ a statistika. C´ılem popisn´e statistiky je informaci z datov´ych soubor˚ u zhuˇstˇenˇe a pˇrehlednˇe popsat tak, aby byla snadnˇeji vn´ımateln´a. K pˇrehledn´emu popisu rozs´ahl´ych datov´ych soubor˚ u se v popisn´e statistice ˇcasto pouˇz´ıvaj´ı r˚ uzn´e typy tabulek, graf˚ u, diagram˚ u a r˚ uzn´e funkcion´aln´ı charakteristiky jednoduˇse stanoven´e pomoc´ı element´arn´ıch matematick´ych prostˇredk˚ u. Uk´azat z´akladn´ı metody popisn´e statistiky je c´ılem t´eto kapitoly.
4.1
Z´ akladn´ı pojmy
Datov´e soubory obvykle poˇrizujeme pozorov´an´ım, mˇeˇren´ım, nebo jin´ym zjiˇst’ov´an´ım hodnoty sledovan´eho ukazatele ˇci promˇenn´e na mnoˇzinˇe k tomu u ´ˇcelu vybran´ych prvk˚ u. Tyto prvky naz´yv´ame statistick´ e jednotky a jejich mnoˇzinu, kter´a je pˇredmˇetem prov´adˇen´eho sledov´an´ı naz´yv´ame statistick´ y soubor. Statistick´y soubor je obvykle dobˇre vymezen z hlediska vˇecn´eho, prostorov´eho a ˇcasov´eho. Napˇr. pˇri pr˚ uzkumu n´azor˚ u student˚ u na placen´ı ˇskoln´eho m˚ uˇze b´yt statistick´y soubor tvoˇren vˇsemi studenty studuj´ıc´ımi prvn´ı roˇcn´ık Masarykovy univerzity v Brnˇe v roce 2005. Vymezen´ı statistick´eho souboru mus´ı b´yt jednoznaˇcn´e a nemˇely by vznikat pochybnosti, zda dan´y prvek do statistick´eho souboru patˇr´ı ˇci nikoliv. V uveden´em pˇr´ıkladˇe 43
44 by tedy mˇelo b´yt ˇreˇceno, zda se soubor vztahuje tak´e na studenty distanˇcn´ıho studia nebo jenom na studenta ˇr´adn´eho studia apod. Zjiˇst’ovan´y ukazatel, kter´y na jednotliv´ych prvc´ıch statistick´eho souboru pozorujeme nebo mˇeˇr´ıme, se naz´yv´a statistick´ y znak. Statistick´e znaky budeme oznaˇcovat velk´ymi p´ısmeny z konce abecedy, napˇr. X m˚ uˇze b´yt na v´yˇse zm´ınˇen´em souboru ukazatel n´azor na placen´ı ˇskoln´eho” ” zakodovan´y takto: 1 – ano, souhlas´ı, 2 – ne, nesouhlas´ı, 3 – nev´ı, Y m˚ uˇze b´yt fi” nanˇcn´ı situace jeho rodiny” zak´odovan´a n´asleduj´ıc´ım zp˚ usobem: 1 – v´yborn´a, 2 – dobr´a, 3 – uspokojiv´a, 4 – neuspokojiv´a; Z m˚ uˇze b´yt mˇes´ıˇcn´ı v´yˇse kapesn´eho v ” 1000 Kˇc” apod. Na pˇr´ıkladu pˇredchoz´ıch tˇr´ı znak˚ u X, Y a Z je dobˇre patrn´e, ˇze se tyto znaky od sebe sv´ym charakterem mohou znaˇcnˇe liˇsit. Zat´ımco znak X m˚ uˇze nab´yvat pouze 3 hodnot z mnoˇziny {1, 2, 3} a znak Y m˚ uˇze nab´yvat pouze ˇctyˇr hodnot z mnoˇziny {1, 2, 3, 4}, m˚ uˇze znak Z nab´yvat pˇri dostateˇcnˇe pˇresn´em sledov´an´ı znaku, kter´ekoliv hodnoty v intervalu h0, ∞). (Pˇr´ıliˇs vysok´ych hodnot nab´yv´a prakticky s nulovou pravdˇepodobnost´ı.) Moˇzn´e hodnoty znaku se naz´yvaj´ı varianty, nebo t´eˇz obmˇ eny znaku a tvoˇr´ı mnoˇzinu, kterou oznaˇc´ıme V . Je-li mnoˇzina V koneˇcn´a, nebo spoˇcetn´a (tj. jej´ı prvky lze uspoˇr´adat do posloupnosti), mluv´ıme o diskr´ etn´ım znaku. Je-li mnoˇzina variant diskr´etn´ıho znaku X koneˇcn´a, oznaˇc´ıme ji VX = {x[1] , x[2] , . . . , x[r] }. ˇ ıslo r je poˇcet moˇzn´ych variant diskr´etn´ıho znaku X. V opaˇcn´em pˇr´ıpadˇe, kdyˇz je C´ mnoˇzina V tvoˇrena intervalem, mluv´ıme o spojit´ em znaku. V uveden´em pˇr´ıkladˇe je znak Z spojit´y a obor jeho hodnot je VZ = h0, ∞). Znaky X a Y jsou diskr´etn´ı. Jin´e dˇelen´ı znak˚ u dostaneme podle stupnˇe jejich kvantifikace. Vyjdeme ze statiˇ ıslo n budeme naz´yvat stick´eho souboru, kter´y obsahuje n statistick´ych jednotek. C´ rozsahem statistick´ eho souboru a hodnoty znaku X zjiˇstˇen´e na jednotliv´ych statistick´ych jednotk´ach oznaˇc´ıme x1 , x2 , . . . , xn . Potom podle obsahov´e kvantifikace hodnot znaku rozdˇelujeme znaky na: a) nomin´ aln´ı, kter´e pˇripouˇstˇej´ı mezi hodnotami x1 , x2 , . . . , xn pouze relaci rovnosti, napˇr. x1 = x2 , x2 6= x3 apod. Jednotliv´e hodnoty znak˚ u pˇredstavuj´ı pouze ˇc´ıseln´e k´ody kvalitativn´ıch pojmenov´an´ı. Napˇr. znak X – n´azor na placen´ı ˇskoln´eho je nomin´aln´ı znak. Jin´ym pˇr´ıkladem m˚ uˇze b´yt oˇc´ıslov´an´ı mˇestsk´ych tramvaj´ı, zak´odov´an´ı profese zamˇestnance apod. Nomin´aln´ı znak, kter´y m˚ uˇze nab´yvat pouze dvou hodnot se naz´yv´a alternativn´ı v opaˇcn´em pˇr´ıpadˇe mnoˇ zinn´ y. b) ordin´ aln´ı, kter´e pˇripouˇstˇej´ı kromˇe relace rovnosti tak´e obsahovou interpretaci relace uspoˇr´ad´an´ı x1 < x2 (nebo x1 > x2 ). Uspoˇr´ad´an´ı vyjadˇruje vˇetˇs´ı nebo menˇs´ı intenzitu popisovan´e vlastnosti. Napˇr. znak Y je ordin´aln´ı, pro hodnoty znaku y1 = 1, y2 = 3 a y3 = 1 plat´ı, ˇze prvn´ı a tˇret´ı student uvaˇzovan´eho statistick´eho souboru maj´ı stejnˇe ohodnocenou finanˇcn´ı situaci rodiny, ale finanˇcn´ı situace rodiny prvn´ıho studenta je lepˇs´ı neˇz finanˇcn´ı situace rodiny druh´eho studenta (y1 = y3 , ale y1 < y2 ).
45 c) kardin´ aln´ı znaky pˇripouˇstˇej´ı obsahovou interpretaci nejen relac´ı rovnosti a uspoˇr´ad´an´ı ale tak´e operac´ı souˇctu x1 + x2 a rozd´ılu x1 − x2 . To znamen´a, ˇze v pˇr´ıpadˇe kdy x1 − x2 = x2 − x3 , je interval (x2 , x1 ) stejnˇe dlouh´y jako interval (x3 , x2 ) a tato stejn´a d´elka obou interval˚ u pˇredstavuje u obou dvojic x1 , x2 a x2 , x3 tak´e stejn´y rozd´ıl v extenzitˇe zkouman´e vlastnosti. Napˇr. znak Z – mˇes´ıˇcn´ı v´yˇse kapesn´eho studenta je kardin´aln´ı znak, je-li z1 = 1.8, z2 = 2 a z3 = 2.2, je stejn´y rozd´ıl mezi kapesn´ym student˚ u 2 a 1 jako mezi kapesn´ym student˚ u 3 a 2. M´a-li u kardin´aln´ıho znaku smysluplnou obsahovou interpretaci tak´e operace pod´ılu, tj. x1 /x2 , pak se kardin´aln´ı znak naz´yv´a pomˇ erov´ y. V pˇr´ıpadˇe, ˇze operace pod´ılu nem´a smysluplnou obsahovou interpretaci, naz´yv´a se tento kardin´aln´ı znak intervalov´ y. Pˇr´ıkladem pomˇerov´eho znaku je znak Z – mˇes´ıˇcn´ı v´yˇse kapesn´eho studenta, kdy pro z1 = 3.2 a z2 = 6.4 lze smysluplnˇe prohl´asit, ˇze druh´y student dost´av´a 2x vyˇsˇs´ı kapesn´e nˇeˇz prvn´ı. Pˇr´ıkladem intervalov´eho znaku m˚ uˇze b´yt napˇr. teplota mˇeˇren´a ve stupn´ıch Celsia, kde nula na dan´e stupnici vznikla pouhou konvenc´ı. Lze proto u teploty namˇeˇren´e ve tˇrech dnech ve stupn´ıch Celsia t1 = 2, t2 = 4, t3 = 6 ˇr´ıci, ˇze z prvn´ıho na druh´y den teplota vzrostla o 2 stupnˇe Celsia a ˇze rovnˇeˇz ze druh´eho na tˇret´ı den teplota vzrostla o 2 stupnˇe Celsia. Chybn´a interpretace tˇechto u ´ daj˚ u by byla, kdybychom ˇrekli, ˇze teplota z prvn´ıho na druh´y den vzrostla dvakr´at, kdeˇzto ze druh´eho na tˇret´ı den pouze jedenap˚ ulkr´at.
4.2
Rozdˇ elen´ı ˇ cetnost´ı statistick´ eho znaku
Budeme uvaˇzovat statistick´y znak X, kter´y na dan´em statistick´em souboru nabyl hodnot x1 , x2 , . . . , xn . Pˇredpokl´adejme, ˇze mnoˇzina jeho variant je koneˇcn´a, tedy VX = {x[1] , x[2] , . . . , x[r] }. Pak zavedeme n´asleduj´ıc´ı pojmy: nj . . . absolutn´ı ˇcetnost varianty x[j] v dan´em souboru pj = nj /n . . . relativn´ı ˇcetnost varianty x[j] v dan´em souboru Je-li znak X ordin´aln´ı nebo kardin´aln´ı a varianty x[j] lze uspoˇr´adat, tj. kdyˇz x[1] < x[2] < . . . < x[r] m˚ uˇzeme zav´est kumulativn´ı ˇcetnosti P Nj = ji=1 ni . . . absolutn´ı kumulativn´ı ˇcetnost do varianty x[j] v dan´em souboru P Pj = ji=1 pi . . . relativn´ı kumulativn´ı ˇcetnost varianty x[j] v dan´em souboru
Uveden´e ˇcetnosti lze uspoˇr´adat do tabulky viz Tabulka 4.1., kter´a m´a 3 nebo 5 sloupc˚ u (podle typu znaku)a naz´yv´a se tabulka rozdˇ elen´ı ˇ cetnost´ınaku X. Tabulka rozdˇelen´ı ˇcetnost´ı pˇrehlednˇe informuje, jak jsou v uvaˇzovan´em statistick´em souboru jednotliv´e varianty sledovan´eho znaku zastoupeny.
46 Varianta
x[1] x[2] .. . x[r] Souˇcet
Absolutn´ı Relativn´ı Absolutn´ı Relativn´ı ˇcetnost ˇcetnost kumulativn´ı kumulativn´ı ˇcetnost ˇcetnost n1 p1 N1 P1 n2 p2 N2 P2 .. .. .. .. . . . . nr pr Nr Pr n 1 – –
Tabulka 4.1: Tabulka rozdˇelen´ı ˇcetnost´ı znaku X Pro jeˇstˇe lepˇs´ı pˇredstavu o namˇeˇren´em znaku X se data z tabulky rozdˇelen´ı ˇcetnost´ı zn´azorˇ nuj´ı graficky. Podle zp˚ usobu grafick´eho zn´azornˇen´ı tabulky rozdˇelen´ı ˇcetnosti m˚ uˇzeme mluvit o sloupcov´em diagramu absolutn´ıch (relativn´ıch) ˇcetnost´ı, polygonu absolutn´ı (relativn´ıch) ˇcetnost´ı, kruhov´em diagramu absolutn´ıch (relativn´ıch) ˇcetnost´ı. Pˇr´ısluˇsn´a grafick´a zn´azornˇen´ı jsou na Obr. 4.1. Podobnˇe lze pro kardin´aln´ı nebo ordin´aln´ı znak z´ıskat sloupcov´y diagram nebo polygon kumulativn´ıch ˇcetnost´ı (absolutn´ıch nebo relativn´ıch). Pˇ r´ıklad 4.1 Na n´ahodnˇe vybran´em souboru student˚ u rozsahu n = 100 byly zjiˇst’ov´any statistick´e znaky X– n´azor na placen´ı ˇskoln´eho, Y – finanˇcn´ı situace rodiny a Z – mˇes´ıˇcn´ı v´yˇse kapesn´eho, kter´e byly detailnˇeji pops´any v odstavci 4.1. V´ysledkem je ˇ uvedeno poˇradov´e ˇc´ıslo tabulka hodnot Tab. 4.2. V uveden´e tabulce je ve sloupci PC vybran´eho studenta a v dalˇs´ıch sloupc´ıch jsou postupnˇe uvedeny hodnoty znak˚ u X, Y a Z. D´ale v tabulce Tab. 4.3 je uvedeno rozdˇelen´ı ˇcetnosti znaku X a v tabulce Tab. 4.4 je uvedeno rozdˇelen´ı ˇcetnost´ı znaku Y . Grafick´e zn´azornˇen´ı znaku X pomoc´ı kruhov´eho diagramu je na obr´azku Obr. 4.2. Na Obr. 4.3 jsou uvedena vybran´a grafick´a zn´azornˇen´ı znaku Y . Z grafick´ych zn´azornˇen´ı rozdˇelen´ı ˇcetnost´ı je dobˇre patrn´e, ˇze je pˇrehledn´e a lze jej s v´yhodou uˇz´ıt v pˇr´ıpadˇe, kdy uvaˇzovan´y znak m˚ uˇze nab´yvat menˇs´ıho poˇctu variant. V pˇr´ıpadˇe, kdy diskr´etn´ı znak m˚ uˇze nab´yvat velk´eho poˇctu variant nebo pro spojit´y statistick´y znak se ˇcastˇeji m´ısto rozdˇelen´ı ˇcetnost´ı pouˇz´ıv´a tzv. skupinov´e rozdˇelen´ı, kter´e uvaˇzovan´y znak l´epe popisuje. Bude o nˇem pojedn´ano v n´asleduj´ıc´ım odstavci.
4.3
Skupinov´ e rozdˇ elen´ı ˇ cetnost´ı
Rozdˇelen´ı ˇcetnost´ı diskr´etn´ıho statistick´eho znaku, kter´y m˚ uˇze nab´yvat velk´eho poˇctu variant nebo spojit´eho statistick´eho znaku jiˇz nen´ı v´yhodn´e zn´azorˇ novat pomoc´ı rozdˇelen´ı ˇcetnost´ı, protoˇze absolutn´ı ˇcetnosti b´yvaj´ı velmi n´ızk´e, ˇcasto rovny 1 a poˇcet variant r m˚ uˇze b´yt bl´ızk´y rozsahu souboru n. V tomto pˇr´ıpadˇe se moˇzn´e
47 (p4 ) n4
(p4 ) n4
(p3 ) n3
(p3 ) n3
(p2 ) n2
(p2 ) n2
(p1 ) n1
(p1 ) n1 x[1]
x[2]
x[3]
x[4]
Obr 4.1a) Sloupcov´ y diagram absolutn´ıch (relativn´ıch) ˇcetnost´ı pro r = 4
x[1]
x[2]
x[3]
x[4]
Obr 4.1b) Polygon rozdˇelen´ı absolutn´ıch (relativn´ıch) ˇcetnost´ı pro r = 4
n1 (p1 ) .............................................. . . . . . . . . . ....... ... ... ...... .... ......... ..... ... . . ... .. ... .....PP ... PP . ... P ..... . ... ... . ... . . . ... . ... ... .... ... . . ..... . . n3 (p3 ) .......... ..... ....... ............ ....................................... n4 (p4 )
n2 (p2 )
Obr 4.1c) Kruhov´ y diagram absolutn´ıch (relativn´ıch) ˇcetnost´ı pro r = 4
Obr´azek 4.1: Grafick´a zn´azornˇen´ı tabulky rozdˇelen´ı ˇcetnosti hodnoty znaku rozdˇel´ı do interval˚ u (nˇekdy se ˇr´ık´a do tˇr´ıd nebo do tˇr´ıdn´ıch interval˚ u) a do tabulky rozdˇelen´ı ˇcetnosti se vypisuj´ı ˇcetnosti pˇr´ısluˇsn´e tˇemto interval˚ um. Mluv´ıme pak o skupinov´ em rozdˇ elen´ım ˇ cetnost´ı. Pˇredpokl´adejme, ˇze mnoˇzina variant kardin´aln´ıho znaku X (obor hodnot znaku X) je interval (a, b), −∞ < a < b < ∞. Tento interval m˚ uˇzeme zapsat jako sjednocen´ı k podinterval˚ u I1 = (a0 , a1 i, I2 = (a1 , a2 i, . . . , Ik = (ak−1 , ak ), a0 = a, ak = b,Skter´e se nepˇrekr´yvaj´ı a jejichˇz sjednocen´ım je interval (a, b). Tedy Ii ∩Ij = ∅, i 6= j, kj=1 Ij = (a, b), a = a0 < a1 < a2 < . . . < ak = b. D´ale oznaˇc´ıme di = ai − ai−1 d´elku intervalu Ii a si = 12 (ai + ai−1 ) stˇred intervalu Ii , i = 1, 2, . . . , k. Nab´yv´a-li znak X na dan´em statistick´em souboru hodnoty x1 , x2 , . . . , xn , m˚ uˇzeme stanovit ˇcetnosti jednotliv´ych interval˚ u a vyn´est je do tabulky rozdˇelen´ı ˇcetnost´ı, kde v prvn´ım sloupci budou m´ısto variant znaku tˇr´ıdn´ı intervaly. Dostaneme tak tabulku skupinov´ eho rozdˇ elen´ı ˇ cetnosti znaku X. Oznaˇcen´ı ˇcetnost´ı ponech´ame stejn´e jako v pˇredchoz´ım odstavci. Tedy znaˇc´ıme
48 ˇ X PC 1 3 2 3 3 3 4 2 5 1 6 2 7 3 8 2 9 1 10 2 11 1 12 2 13 2 14 3 15 3 16 2 17 2 18 2 19 2 20 3 21 2 22 2 23 2 24 2 25 2
Y 2 3 2 3 1 3 2 3 3 3 2 4 3 1 3 2 3 3 2 3 2 3 2 2 4
Z 7 3 6.8 2.9 8.9 3.8 4.2 4.1 2 2.5 7.6 1.2 2.6 9.1 1.9 7.3 0.8 1.9 5.9 3.2 6.4 2.9 6.5 6.6 0.9
ˇ X PC 26 2 27 2 28 2 29 2 30 2 31 1 32 2 33 3 34 2 35 2 36 1 37 2 38 1 39 1 40 3 41 2 42 2 43 2 44 2 45 2 46 2 47 2 48 2 49 3 50 2
Y 3 2 3 2 3 3 4 2 3 3 1 3 1 2 2 3 2 3 1 3 3 2 3 1 3
Z 2.4 6.8 2.5 7.3 3.2 3 0.5 7.4 3.9 2.4 7.4 1.8 10.1 7.5 8 2.3 4.2 2.1 5.2 3.3 3.4 3.9 3.5 9.6 4.1
ˇ X PC 51 3 52 2 53 2 54 2 55 2 56 3 57 2 58 2 59 1 60 2 61 2 62 1 63 2 64 2 65 2 66 2 67 2 68 1 69 2 70 2 71 2 72 3 73 2 74 2 75 1
Y 4 3 3 3 3 2 3 3 2 3 3 1 2 2 2 3 3 1 3 3 3 2 3 3 3
Z 1 1.9 2.6 2.7 2.3 7.6 2 3.4 7.5 3.5 3 11.2 7.3 7.2 7.1 3.3 3.2 8.4 3.1 2.8 2.9 7 1.9 2.8 2.5
ˇ X PC 76 2 77 2 78 1 79 2 80 1 81 2 82 2 83 3 84 2 85 2 86 2 87 3 88 3 89 2 90 2 91 2 92 1 93 3 94 3 95 2 96 1 97 1 98 3 99 2 100 2
Y 2 3 2 3 2 2 2 3 2 2 3 4 3 2 2 3 2 2 3 3 1 1 3 2 2
Z 6.8 2 6.9 2.4 6.6 5.2 8.4 3.1 7.1 7 3 1.2 3 6.9 6.8 3.1 7.2 7.3 3.2 2.9 8.9 9 3 7.1 7
Tabulka 4.2: Datov´y soubor rozsahu n = 100 se tˇremi zjiˇst’ovan´ymi znaky X, Y, Z. ˇ je uvedeno poˇradov´e ˇc´ıslo statistick´e jednotky (studenta) Ve sloupci PC
ni . . . absolutn´ı ˇcetnost i-t´eho intervalu (tj. poˇcet tˇech hodnot z x1 , . . . , xn , kter´e padnou do intervalu Ii , i = 1, . . . , k) pi = ni /n . . . relativn´ı ˇcetnost i-t´eho intervalu P Ni = ij=1 nj . . . absolutn´ı kumulativn´ı ˇcetnost intervalu Ii P Pi = ij=1 pj . . . relativn´ı kumulativn´ı ˇcetnost intervalu Ii
Kromˇe toho zav´ad´ıme jeˇstˇe tzv. ˇ cetnostn´ı hustotu. Oznaˇc´ıme fi = pi /di . . . ˇcetnostn´ı hustota i-t´eho intervalu Ii
49 Slovn´ı varianta znaku X ANO NE NEV´I Souˇcet
Zak´odovan´e varianty x[i] 1 2 3
Absolutn´ı ˇcetnosti ni 15 65 20 100
Relativn´ı ˇcetnosti pi 0.15 0.65 0.20 1
Tabulka 4.3: Rozdˇelen´ı ˇcetnost´ı znaku X ANO
.................................................. ...... ......... . . . . . ..... .... . . . p1 =0.15 ....... ... . .. . . ...... .. .... ... .. p3 =0.2 .... ... ... Z .. ... p2 =0.65 ... Z . ... . Z .... ... .... Z ... ..... .... NE ............. ..... . . . . . .............. .... .................................
NEV´IM
Obr´azek 4.2: Kruhov´y diagram relativn´ıch ˇcetnost´ı znaku X a funkci
fi ∗ f (x) = fk 0
pro ai−1 < x ≤ ai , i = 1, 2, . . . , k − 1, pro ak−1 < x <≤ ak , jinak.
nazveme ˇcetnostn´ı hustotou. Uveden´e ˇcetnosti a ˇcetnostn´ı hustotu lze uspoˇr´adat do tabulky Tab. 4.5. Tato tabulka se pak naz´yv´a tabulkou skupinov´eho rozdˇelen´ı ˇcetnost´ı znaku X. Obecnˇe nen´ı tˇreba volit tˇr´ıdn´ı intervaly stejn´e d´elky. V pˇr´ıpadˇe, ˇze d1 = d2 = . . . = dk , mluv´ıme o ekvidistantn´ıch intervalech. Grafick´ym zn´azornˇen´ım tabulky skupinov´eho rozdˇelen´ı je histogram nebo polygon. Polygon skupinov´eho rozdˇelen´ı ˇcetnost´ı (absolutn´ıch, relativn´ıch, absolutn´ıch kumulativn´ıch nebo relativn´ıch kumulativn´ıch) konstruujeme stejnˇe jako polygon rozdˇelen´ı ˇcetnost´ı, jenom na osu x se m´ısto variant znaku x[1] , . . . , x[r] vyn´aˇsej´ı stˇredy tˇr´ıdn´ıch interval˚ u s1 , . . . , sk . Polygon ˇcetnostn´ı hustoty z´ısk´ame tak, ˇze u ´ seˇckami spoj´ıme body o souˇradnic´ıch [si , fi ], i = 0, 1, 2, . . . , k, k + 1, pˇriˇcemˇz klademe f0 = fk+1 = 0 a s0 = a0 − 12 d1 , sk+1 = ak + 12 dk . Histogramemrozum´ıme graf, kter´y z´ısk´ame, kdyˇz na osu x vyneseme hranice tˇr´ı-
50 ni
pi
n1 = 50
50
0.5
n1 = 35
40
0.4
30 20 10 0
0.3 0.2
n1 = 10
1
n1 = 5 2
3
0.1 0
4
1
2
3
4
y[i]
Obr 4.3a) Sloupcov´ y ˇcetnost´ı znaku Y
diagram
absolutn´ıch
pi
y[i]
Obr 4.3b) Polygon relativn´ıch ˇcetnost´ı znaku Y pi
1
100
0.8
80
0.6
60
0.4
40
0.2
20
0
1
2
3
0
4
1
2
3
y[i]
Obr 4.3c) Sloupcov´ y diagram kumulativn´ıch relativn´ıch ˇcetnost´ı znaku Y
4 y[i]
Obr 4.3d) Polygon kumulativn´ıch absolutn´ıch ˇcetnost´ı znaku Y
Obr´azek 4.3: Grafick´e zn´azornˇen´ı rozdˇelen´ı ˇcetnost´ı znaku Y dn´ıch interval˚ u a nad kaˇzd´ym tˇr´ıdn´ım intervalem zn´azorn´ıme u ´ seˇcku rovnobˇeˇznou s osou x ve v´yˇsce fi nad intervalem Ii . Kdyˇz potom svisl´ymi u ´ seˇckami spoj´ıme hranice tˇr´ıdn´ıch interval˚ u s krajn´ımi body u ´ seˇcek, kter´e jsme z´ıskali vynesen´ım ˇcetnostn´ı hustoty, z´ısk´ame obd´eln´ıky a obsah i-t´eho z takto z´ıskan´ych obd´eln´ık˚ u je pi . Schodovit´a ˇc´ara, kter´a shora omezuje histogram je grafem ˇcetnostn´ı hustoty f ∗ (x) a obsah plochy pod ˇcetnostn´ı hustotou je 1, protoˇze p1 + p2 + · · · pk = 1. Pˇr´ıklad histogramu je pro k = 4 na Obr. 4.4. Poznamenejme jeˇstˇe, ˇze v mnoha praktick´ych situac´ıch se kromˇe uveden´eho histogramu pouˇz´ıv´a tak´e histogram absolutn´ıch nebo relativn´ıch ˇcetnost´ı, pˇr´ıpadnˇe histogram absolutn´ıch kumulativn´ıch ˇcetnost´ı nebo histogram relativn´ıch kumulativn´ıch ˇcetnost´ı. Tyto varianty histogramu se z´ıskaj´ı tak, ˇze se pˇri konstrukci histogramu na osu y vyn´aˇs´ı m´ısto ˇcetnostn´ı hustoty fi nˇekter´a z ˇcetnost´ı ni , pi , Ni nebo Pi . Takto konstruovan´e histogramy tak´e d´avaj´ı dobrou pˇredstavu o skupinov´em rozdˇelen´ı sledovan´eho znaku, ovˇsem jiˇz neplat´ı, ˇze obsah plochy pod takov´ym histogramem je jedna. Pˇri stanoven´ı skupinov´eho rozdˇelen´ı ˇcetnost´ı se ve vˇetˇsinˇe praktick´ych situac´ı vol´ı tˇr´ıdn´ı intervaly ekvidistantn´ı, tedy o stejn´e d´elce. Pro ekvidistantn´ı tˇr´ıdn´ı intervaly pak histogram konstruovan´y pomoc´ı ˇcetnostn´ı hustoty a histogram konstruovan´y
51 Slovn´ı varianta znaku Y V´yborn´a Dobr´a Uspokojiv´a Neuspokojiv´a Souˇcet
Zak´odovan´e varianty znaku Y y[i] 1 2 3 4
Absolutn´ı Relativn´ı Kumulativn´ı Kumulativn´ı ˇcetnosti ˇcetnosti absolutn´ı relativn´ı ˇcetnosti ˇcetnosti ni pi Ni Pi 10 0.10 10 0.10 35 0.35 45 0.45 50 0.50 95 0.95 5 0.05 100 1.00 100 1.00 – –
Tabulka 4.4: Tabulka rozdˇelen´ı ˇcetnost´ı znaku Y . Tˇr´ıdn´ı interval I1 = (a0 , a1 i I2 = (a0 , a2 i .. .
Stˇred intervalu s1 s2 .. .
ni n1 n2 .. .
Ik = (ak−1 , ak ) Souˇcet
sk
nk n
ˇ Cetnosti pi Ni Pi p1 N1 P1 p2 N2 P2 .. .. .. . . . pk Nk Pk 1 – –
ˇ Cetnostn´ ı hustota f1 f2 .. . fk –
Tabulka 4.5: Tabulka skupinov´eho rozdˇelen´ı ˇcetnost´ı a ˇcetnostn´ı hustoty pomoc´ı absolutn´ıch nebo relativn´ıch ˇcetnost´ı liˇs´ı pouze stupnic´ı na svisl´e ose. Pˇri vhodn´e volbˇe t´eto stupnice je jejich celkov´y vzhled shodn´y. Ot´azkou z˚ ust´av´a, jak volit poˇcet tˇr´ıdn´ıch interval˚ u k, kter´y m˚ uˇze vzhled histogramu podstatnˇe ovlivnit. N´azornˇe je tato situace demonstrov´ana na Obr. 4.5 pro znak Z z pˇr´ıkladu 4.1 (Tab. 4.2). V literatuˇre se pro volbu poˇctu tˇr´ıd doporuˇcuj´ı r˚ uzn´e postupy. Nejˇcastˇeji se uˇz´ıv´a tzv. Sturgersovo pravidlo, kter´e doporuˇcuje volit optim´aln´ı poˇcet tˇr´ıd podle vzorce (viz. [6]) . k = 1 + 3.332 log10 (n), kde k je poˇcet tˇr´ıdn´ıch interval˚ u a n je zde poˇcet r˚ uzn´ych hodnot sledovan´eho znaku. Jin´e pravidlo pro volbu poˇctu tˇr´ıd je tzv. Yulleovo pravidlo √ . k = 2.5 4 n. Podle jin´eho pˇr´ıstupu se pro kardin´aln´ı znak doporuˇcuje volit d´elku ekvidistantn´ıch tˇr´ıd d od 0.08R do 0.12R, kde R je tzv. rozpˇet´ı definovan´e vztahem R = x(n) − x(1) , pˇriˇcemˇz x(1) je nejmenˇs´ı a x(n) nejvˇetˇs´ı pozorovan´a hodnota znaku X v souboru. . Pak se poˇcet tˇr´ıd k stanov´ı podle pˇribliˇzn´eho vzorce k = Rd .
52
f2
f1 p2 f3 p1 f4
p3 p4 s0 s1 s2 s3 s4 s5 a = a0 a1 a2 a3 a4 = b I1 I2 I3 I4
x
Obr´azek 4.4: Histogram rozdˇelen´ı ˇcetnost´ı je vynesen pln´ymi ˇcarami. Polygon ˇcetnostn´ı hustoty je zn´azornˇen pˇreruˇsovanou ˇcarou. Optim´aln´ı poˇcet tˇr´ıd stanoven´y podle Sturgersova a Yulleova pravidla lze naj´ıt v z´avislosti na n v tabulce Tab. 4.6.
ni
ni 38
40
40
40
35
30
30
30 23
20
20
10 0
10
4 0
3
6
14 7
7 2
9
12
0 z
Obr 4.5a) Histogram znaku Z ekvidistantn´ı d´elka tˇr´ıd d = 3, poˇcet tˇr´ıd k = 4
0
2
4
6
8
10
12
z
Obr 4.5b) Histogram znaku Z ekvidistantn´ı d´elka tˇr´ıd d = 2, poˇcet tˇr´ıd k = 6
ni
ni
40
40 32 30 20
20 10 0
30
27
20 8
6 0
3
4.5
3 6
7.5
16
9
4
1 10.5 12
0 z
Obr 4.5c) Histogram znaku Z ekvidistantn´ı d´elka tˇr´ıd d = 1.5, poˇcet tˇr´ıd k = 8
14
16
10
10
3 1.5
24
0
5
4 3 2
4
6
8
2 1 1 10
12
z
Obr 4.5d) Histogram znaku Z ekvidistantn´ı d´elka tˇr´ıd d = 1, poˇcet tˇr´ıd k = 12
53
Obr´azek 4.5: Vliv poˇctu tˇr´ıdn´ıch interval˚ u k na vzhled histogramu znaku Z
54 Poˇcet r˚ uzn´ych hodnot znaku podle Sturgersova pravidla
Poˇcet r˚ uzn´ych hodnot znaku podle Yulleova pravidla
Optim´aln´ı poˇcet tˇr´ıd
3–5 6–11 12–22 23–45 46–90 91–181 182–362 363–724 ···
3–6 7–16 17–33 34–61 62–104 105–167 168–256 257–374 ···
3 4 5 6 7 8 9 10 ···
Tabulka 4.6: Optim´aln´ı poˇcet tˇr´ıd podle Sturgersova a Yulleova pravidla
4.4
Empirick´ a distribuˇ cn´ı funkce a empirick´ e kvantily
V pˇredchoz´ıch odstavc´ıch jsme se zab´yvali popisem rozdˇelen´ı ˇcetnost´ı statistick´eho znaku na dan´em statistick´em souboru. V tomto odstavci zavedeme dalˇs´ı moˇzn´y pˇr´ıstup k popisu rozdˇelen´ı ˇcetnost´ı dan´eho statistick´eho znaku. Budeme pˇredpokl´adat, ˇze uvaˇzovan´y znak X je ordin´aln´ı nebo kardin´aln´ı a na dan´em souboru rozsahu n nab´yv´a hodnot x1 , x2 , . . . , xn , kter´e lze uspoˇr´adat do koneˇcn´e neklesaj´ıc´ı posloupnosti x(1) ≤ x(2) ≤ · · · ≤ x(n) . Tedy x(1) je nejmenˇs´ı a x(n) nejvˇetˇs´ı hodnota mezi pozorov´an´ım x1 , x2 , . . . , xn . Nejdˇr´ıve zavedeme charakteristickou funkci mnoˇziny A (tzv. indik´ator mnoˇziny A) vztahem ( 1 kdyˇz x ∈ A, IA (x) = 0 kdyˇz x ∈ / A. Potom pro libovoln´e x ∈ (−∞, ∞) poloˇz´ıme A = (−∞, xi a snadno stanov´ıme I(−∞,xi (xi ) = 1, kdyˇz xi ≤ x a I(−∞,xi (xi ) = 0, kdyˇz xi > x, i = 1, 2, . . . , n. Potom funkce n 1X ∗ Fn (x) = I(−∞,xi(xi ) n i=1
pro dan´e x ud´av´a poˇcet pozorov´an´ı v souboru x1 , x2 , . . . , xn , kter´a jsou nejv´yˇse rovna x dˇelen´y rozsahem souboru n. Funkce Fn∗ (x) se naz´yv´a empirick´ a distribuˇ cn´ı
55 funkce. Pro dan´y statistick´y soubor d´av´a o rozdˇelen´ı ˇcetnost´ı podobnou informaci jako tabulka rozdˇelen´ı ˇcetnost´ı nebo tabulka skupinov´eho rozdˇelen´ı ˇcetnost´ı. Graf empirick´e distribuˇcn´ı funkce Fn∗ (x) snadno z´ısk´ame tak, ˇze na vodorovnou osu naneseme uspoˇr´adan´e hodnoty znaku x(1) ≤ x(1) ≤ · · · ≤ x(n) . T´ım z´ısk´ame tzv. diagram rozpt´ ylen´ı. Funkce Fn∗ (x) se potom zkonstruuje tak, ˇze je po ˇc´astech konstantn´ı, neklesaj´ıc´ı, zprava spojit´a a v kaˇzd´em bodˇe x(i) m´a skok velikosti n1 (plat´ı-li, ˇze hodnota x(i) je v dan´em souboru zastoupena ni -kr´at, je skok v bodˇe ˇ aˇr jistˇe vid´ı souvislost mezi F ∗ (x) a kumulativn´ımi x(i) roven velikosti nni ). Cten´ n relativn´ımi ˇcetnostmi Ni , i = 1, 2, . . . , k. Empirick´a distribuˇcn´ı funkce znaku Y z pˇr´ıkladu 4.1 je zn´azornˇena na Obr. 4.6. F (x)
1 0.8 0.6 0.4 0.2 0
0
1
2
3
4 x
Obr´azek 4.6: Empirick´a distribuˇcn´ı funkce znaku Y Empirickou distribuˇcn´ı funkci lze tak´e konstruovat pro spojit´y kardin´aln´ı znak s ˇ velk´ym poˇctem hodnot. Casto se ale v t´eto situaci pouˇz´ıv´a jej´ı aproximace pomoc´ı ∗ ˇcetnostn´ı hustoty f (x) tvaru Z x ∗ FA (x) = f ∗ (t)dt. −∞
Aproximace FA∗ (x) z´avis´ı na zvolen´ych tˇr´ıdn´ıch intervalech, zat´ımco empirick´a distribuˇcn´ı funkce Fn∗ (x) nikoliv. Jsou-li data rozdˇelena do tabulky skupinov´eho rozdˇelen´ı ˇcetnosti, pak aproximace FA∗ (x) empirick´e distribuˇcn´ı funkce Fn∗ (x) lze vyj´adˇrit ve tvaru 0 pro x < a0 P + (x − a )f = j−1 j−1 j Pj−1 FA∗ (x) = = i=1 pi + pj (x − aj−1 ) d1 pro x ∈ Ij = (aj−1 , aj i, j = 1, . . . , k, j 1 pro x ≥ a k
56 Pomoc´ı empirick´e distribuˇcn´ı funkce lze zav´est tzv. kvantilovou funkci, kterou si lze pˇredstavit jako zobecnˇenou inverzn´ı funkci k empirick´e distribuˇcn´ı funkci Fn∗ (x). Zav´ad´ı se pro p ∈ (0, 1) vztahem ∗ F−1 (p) = inf{x : Fn∗ (x) ≥ p},
kde inf{A} znaˇc´ı tzv. infimum ˇc´ıseln´e mnoˇziny A (viz. [?]) (Pˇripomeˇ nme, ˇze pro koneˇcnou mnoˇzinu A znaˇc´ı inf{A} jej´ı nejmenˇs´ı prvek a pro nekoneˇcnou mnoˇzinu se jedn´a o zobecnˇen´ı pojmu minim´aln´ıho prvku na nekoneˇcnou mnoˇzinu.) ∗ Pro dan´e ˇc´ıslo p ∈ (0, 1) se potom ˇc´ıslo xp = F−1 (p) naz´yv´a p-kvantilem znaku X na souboru x1 , . . . , xn . Ze zaveden´e kvantilov´e funkce je dobˇre patrn´e, ˇze p-kvantil xp je ˇc´ıslo, kter´e rozdˇeluje uspoˇr´adanou ˇradu pozorov´an´ı x(1) ≤ x(2) ≤ · · · ≤ x(n) na dvˇe ˇc´asti. Prvn´ı ˇc´ast hodnot obsahuje alespoˇ n 100p% hodnot z cel´eho souboru, kter´e jsou nejv´yˇse rovn´e kvantilu xp a druh´a ˇc´ast obsahuje alespoˇ n 100(1 − p)% hodnot, kter´e jsou vˇetˇs´ı nebo rovn´e neˇz kvantil xp . Kvantil xp je d˚ uleˇzitou charakteristiku statistick´eho souboru a pro r˚ uzn´a p poskytuj´ı kvantily o statistick´em souboru podobnou informaci jako tabulka rozdˇelen´ı nebo skupinov´eho rozdˇelen´ı ˇcetnost´ı. Dˇr´ıve neˇz uvedeme ilustrativn´ı pˇr´ıklad poznamenejme, ˇze posledn´ı slovn´ı charakteristikou nen´ı kvantil xp urˇcen jednoznaˇcnˇe. Zaveden´ı kvantilu pomoc´ı kvantilov´e funkce uˇz je jednoznaˇcn´e.
Pˇ r´ıklad 4.2 Urˇcete kvantily x0.1 , x0.25 , x0.50 a x0.75 pro znak Y z pˇr´ıkladu 4.1. ∗ Z grafu na Obr. 4.6 vid´ıme, ˇze nejmenˇs´ı ˇc´ıslo x”, pro kter´e plat´ı, ˇze F100 (x) ≥ 0.1 ” je ˇc´ıslo x0.1 = 1. Podobnˇe stanov´ıme x0.25 = 2, x0.5 = 3 a x0.75 = 3. Z´aroveˇ n vid´ıme, ˇze procento hodnot znaku Y , kter´e jsou nejv´yˇse rovny x0.25 = 2 je 35%, coˇz je v´ıce neˇz 100p%=25% a z´aroveˇ n procento hodnot znaku Y , kter´e jsou vˇetˇs´ı nebo rovny neˇz kvantil x0.25 = 2 tvoˇr´ı 90% hodnot souboru a to je procento vˇetˇs´ı nebo rovno neˇz 100(1 − p)%=75%. Tak´e je dobˇre patrn´e, ˇze kdybychom m´ısto kvantilu x0.25 = 2 zvolili libovoln´e ˇc´ıslo z intervalu h2, 3i, poˇr´ad by platilo, ˇze pˇred x0.25 a vˇcetnˇe x0.25 leˇz´ı alespoˇ n 25% hodnota a za x0.25 vˇcetnˇe x0.25 tak´e leˇz´ı alespoˇ n 75% hodnot. To je pˇr´ıklad nejednoznaˇcnosti ve volbˇe kvantilu zm´ınˇen´e v pˇredchoz´ım odstavci.
4.5
Charakteristiky rozdˇ elen´ı ˇ cetnost´ı
Rozdˇelen´ı ˇcetnost´ı nebo skupinov´e rozdˇelen´ı ˇcetnost´ı statistick´eho znaku X ud´av´a pˇrehlednou pˇredstavu, jak´ych hodnot m˚ uˇze tento znak nab´yvat a jak jsou pro dan´y statistick´y soubor tyto hodnoty poˇcetn´e. Pˇresto, ˇze rozdˇelen´ı ˇcetnost´ı nebo skupinov´e rozdˇelen´ı ˇcetnost´ı d´av´a velmi n´azornou pˇredstavu o pravdˇepodobnostn´ım chov´an´ı uvaˇzovan´eho znaku a informaci o hodnot´ach znaku x1 , x2 , . . . , xn , kter´e byly zjiˇstˇeny na statistick´em souboru velk´eho rozsahu n podstatnˇe shrnuje, je ˇcasto ˇz´adouc´ı informaci, kterou o chov´an´ı znaku X lze vyˇc´ıst z rozdˇelen´ı ˇcetnost´ı popˇr´ıpadˇe ze
57 skupinov´eho rozdˇelen´ı ˇcetnost´ı, d´ale zhuˇstˇenˇe popsat. Pouˇz´ıvaj´ı se k tomu charakteristiky rozdˇ elen´ı ˇ cetnost´ı. C´ılem tohoto odstavce bude zav´est ˇc´ıseln´e charakteristiky pro popis polohy rozdˇelen´ı ˇcetnost´ı nebo skupinov´eho rozdˇelen´ı ˇcetnost´ı a d´ale ˇc´ıseln´e charakteristiky pro popis variability hodnot statistick´eho znaku. Je zˇrejm´e, ˇze pˇri zav´adˇen´ı tˇechto mˇer je potˇreba br´at ohled na charakter popisovan´eho statistick´eho znaku. Pro nomin´aln´ı znak napˇr. nen´ı moˇzn´e jeho hodnoty sˇc´ıtat, obecnˇe nen´ı moˇzn´e d´at rozumnou interpretaci pr˚ umˇeru jeho hodnot, zat´ımco pro znak kardin´aln´ı, pr˚ umˇer zjiˇstˇen´ych hodnot znaku poskytuje v mnoha pˇr´ıpadech velmi kvalitn´ı informace o poloze rozdˇelen´ı ˇcetnost´ı na vodorovn´e ose, tedy o jak´esi stˇredn´ı velikosti zjiˇstˇen´ych hodnot znaku. Proto d´ale zavedeme charakteristiky polohy a charakteristiky variability zvl´aˇst’ pro znaky nomin´aln´ı, zvl´aˇst’ pro znaky ordin´aln´ı a zvl´aˇst’ pro znaky kardin´aln´ı.
4.5.1
Charakteristiky rozdˇ elen´ı nomin´ aln´ıho znaku
Jak bylo uvedeno v u ´ vodu, jednotliv´e varianty x[1] , . . . , x[m] nomin´aln´ıho znaku X pˇredstavuj´ı obvykle pouze ˇc´ıseln´e k´ody pro kvalitativn´ı pojmenov´an´ı tˇechto variant. Nˇekdy se variant´am ˇr´ık´a kategorie hodnot znaku X. Pˇri popisu rozdˇelen´ı ˇcetnost´ı jsou tyto kategorie zn´azornˇeny body na ose x (viz Obr. 4.1a resp. Obr. 4.1b), ovˇsem jednotliv´e zn´azornˇen´e kategorie nejsou uspoˇr´ad´any, m˚ uˇzeme je libovolnˇe permutovat a v´ypovˇedn´ı informace obsaˇzen´e ve sloupcov´em diagramu rozdˇelen´ı ˇcetnost´ı se nikterak nezmˇen´ı. Nem´a proto smysl zav´adˇet m´ıru polohy rozdˇelen´ı na ose x, ale lze zav´adˇet nejˇcetnˇejˇs´ı hodnotu znaku, nazveme ji modus a oznaˇc´ıme xˆ. Je tedy xˆ rovna t´e variantˇe x[m] , pro kterou plat´ı, ˇze ˇcetnost nm je maxim´aln´ı ze vˇsech ˇcetnost´ı n1 , n2 . . . , nr . Tedy: nm = max{n1 , n2 . . . , nr }. Modus pak ˇrad´ıme mezi charakteristiky polohy, kter´e oznaˇcuj´ı typickou hodnotu rozdˇelen´ı ˇcetnost´ı. Rozdˇelen´ı ˇcetnost´ı m˚ uˇze m´ıt dvˇe i v´ıce mod´aln´ıch kategori´ı. Mluv´ıme pak o unimod´ aln´ım, bimod´ aln´ım, trimod´ aln´ım, resp. k-mod´ aln´ım ˇ rozdˇelen´ı. Cten´aˇr snadno zjist´ı z tabulky Tab. 4.3, ˇze znak X, jehoˇz hodnoty byly prezentov´any v tabulce Tab. 4.2 je unimod´aln´ı a jeho modus xˆ = 2. Slovnˇe charakterizov´ano, ve sledovan´em souboru student˚ u, kter´y byl pops´an v odstavci 4.1, byl nejˇcetnˇejˇs´ı n´azor na placen´ı ˇskoln´eho n´azor ”neplatit ˇskoln´e”. Kdyˇz pop´ıˇseme rozdˇelen´ı ˇcetnost´ı nomin´aln´ıho znaku modem, m˚ uˇzeme se d´ale zaj´ımat jak poˇcetn´e jsou ostatn´ı kategorie vzhledem k absolutn´ı ˇcetnosti nm nebo relativn´ı ˇcetnosti fm mod´aln´ı kategorie, do jak´e m´ıry je mod´aln´ı kategorie xˆ typick´a pro cel´y soubor a d´ale jak´a je variabilita (promˇenlivost) ˇcetnost´ı dan´eho znaku v cel´em souboru. Tedy zda jsou ˇcetnosti pˇribliˇznˇe stejn´e pro jednotliv´e varianty (kategorie) znaku nebo zda napˇr. mod´aln´ı kategorie m´a ˇcetnost znaˇcnˇe pˇrevyˇsuj´ıc´ı vˇsechny ostatn´ı ˇcetnosti. Zav´ad´ıme proto n´asleduj´ıc´ı charakteristiky variability pro nomin´aln´ı znak.
58 1. Variaˇ cn´ı pomˇ er v = v(X) = 1 −
nm n
= 1 − fm ,
kde m je index nejˇcetnˇejˇs´ı varianty znaku. Tedy x[m] = xˆ. Oznaˇcen´ı v = v(X) naznaˇcuje, ˇze jde o varianˇcn´ı pomˇer znaku X. Tuto symboliku budeme pouˇz´ıvat i pˇri zav´adˇen´ı dalˇs´ıch mˇer variability. 2. Nomin´ aln´ı variance vnom =P vnom (X) = 1 − =P 1 − ri=1 fi2 = ri=1 fi (1 − fi )
Pr
ni 2 i=1 ( n )
3. Normalizovan´ a nomin´ aln´ı variance ∗ ∗ vnom = vnom (X) =
r v r−1 nom
4. Entropie H = H(X) = −
Pr
i=1 fi
ln fi ,
kde ln znaˇc´ı pˇrirozen´y logaritmus a klademe 0 ln 0 = 0. 5. Normalizovan´ a entropie H ∗ = H ∗ (X) =
H . ln r
Spoleˇcn´e vlastnosti uveden´ych charakteristik variability lze shrnout do n´asleduj´ıc´ıch bod˚ u.
a) Charakteristika nomin´aln´ı variability je rovna nule, pr´avˇe kdyˇz jsou vˇsechny hodnoty souboru soustˇredˇeny do jedn´e (mod´aln´ı) kategorie. Tedy kdyˇz nm = n nebo ekvivalentnˇe fm = 1. V pˇr´ıpadˇe nulov´e variability (tj. v pˇr´ıpadˇe u ´ pln´e homogenity hodnot znaku) plat´ı pro hodnoty znaku X, ˇze x1 = x2 = . . . = xn = x[m] = xˆ.
59 b) Charakteristika nomin´aln´ı variability nab´yv´a maxim´aln´ı hodnoty, kdyˇz ˇcetnosti n1 , . . . , nr jednotliv´ych variant x[1] , . . . , x[r] jsou stejn´e. Tedy kdyˇz n1 = . . . = nr nebo ekvivalentnˇe pro relativn´ı ˇcetnosti plat´ı f1 = f2 = . . . = fr = 1r . Jde o pˇr´ıpad maxim´aln´ıho rozpt´ylen´ı. c) Charakteristika nomin´aln´ı variability roste od nuly do jej´ı maxim´aln´ı hodnoty a ˇc´ım vˇetˇs´ı je hodnota t´eto charakteristiky, t´ım vyˇsˇs´ı je heterogenita (rozpt´ylenost) dan´eho souboru. d) Uveden´e charakteristiky nomin´aln´ı variability maj´ı n´asleduj´ıc´ı obory hodnot: ∗ i; vnom ∈ h0, r−1 i; vnom = h0, 1i; H = h0, ln ri a H ∗ = h0, 1i. v ∈ h0, r−1 r r Celkovˇe lze varianˇcn´ı pomˇer doporuˇcit pro jeho rychl´ y v´ypoˇcet ovˇsem tato m´ıra neodr´aˇz´ı cel´e rozdˇelen´ı ˇcetnost´ı, vych´az´ı pouze z mod´aln´ı ˇcetnosti. V pˇr´ıpadˇe, ˇze je potˇreba charakterizovat celou strukturu tabulky rozdˇelen´ı ˇcetnost´ı (v praxi nejˇcastˇejˇs´ı pˇr´ıpad) je vhodn´e uˇz´ıt charakteristiku vnom nebo H, kter´e maj´ı podobn´e vlastnosti. V pˇr´ıpadˇe, kdy chceme porovn´avat variabilitu soubor˚ u o r˚ uzn´ych, ale pˇredem dan´ych ∗ poˇctech variant, je vhodn´e pouˇz´ıt ke srovn´an´ı normovan´e charakteristiky vnom nebo ∗ H . Pˇ r´ıklad 4.3 V [16] jsou uvedena data o zp˚ usobu z´ısk´av´an´ı denn´ıho tisku a t´yden´ık˚ u zjiˇstˇen´a na statistick´em souboru n = 1298 n´ahodnˇe vybran´ych pravideln´ych ˇcten´aˇr˚ u. ˇ ast tˇechto dat je uvedena v tabulce Tab. 4.7. V t´eto tabulce statistick´y znak C´ pˇredstavuje zp˚ usob z´ısk´av´an´ı dan´eho periodika. Uvaˇzujeme tˇri periodika X, Y a Z a s nimi spojen´e tˇri statistick´e znaky X, Y a Z. Tedy statistick´e znaky oznaˇcujeme stejn´ymi p´ısmeny jako periodika. Znak X byl sledov´an na podsouboru rozsahu n = 414, znak Y na podsouboru rozsahu n = 230 a znak Z na podsouboru rozsahu n = 116 ˇcten´aˇr˚ u periodik X, Y a Z. U vˇsech tˇechto znak˚ u je rozliˇsov´ano r = 5 variant (kategori´ı): x[1] = 1: ˇcten´aˇr si periodikum pˇredpl´ac´ı, x[2] = 2: ˇcten´aˇr si periodikum kupuje, x[3] = 3: ˇcten´aˇr m´a periodikum k dispozici v zamˇestn´an´ı, x[4] = 4: ˇcten´aˇr si periodikum p˚ ujˇcuje, x[5] = 5: ˇcten´aˇr m´a periodikum k dispozici jin´ym zp˚ usobem. Hodnoty uveden´e v ˇr´adc´ıch tabulky Tab. 4.7 pˇredstavuj´ı relativn´ı ˇcetnosti jednotliv´ych variant. Jin´ymi slovy, ˇr´adky tabulky Tab. 4.7 ud´avaj´ı v procentech rozdˇelen´ı relativn´ıch ˇcetnost´ı uvaˇzovan´ych statistick´ych znak˚ u X, Y a Z. Charakteristiky polohy modus a spolu s n´ım vˇsechny charakteristiky variability jsou uvedeny v tabulce Tab. 4.8. Pˇr´ıklad v´ypoˇctu tˇechto charakteristik uk´aˇzeme pro znak (periodikum) Z. Postupnˇe dostaneme: Modus zˆ znaku Z je nejˇcetnˇejˇs´ı hodnota a odpov´ıd´a kategorii x[1] = 1: ”pˇredpl´ac´ı” D´ale v = v(Z) = 1 − 0, 483 = 0, 517
60 Periodikum (statistick´y znak) X Y Z
Varianta znaku - kategorie k dispozici pˇredpl´ac´ı kupuje p˚ ujˇcuje si v pr´aci 2,6 82,9 0,7 12,1 4,8 67,4 3,5 21,7 48,3 24,1 6,9 16,4
z´ısk´av´a jinak 1,7 2,6 4,3
rozsah souboru n 414 230 116
Tabulka 4.7: Data k pˇr´ıkladu 4.3 vnom = vnom (Z) = 1 − 0, 4832 − 0, 2412 − 0, 0692 − 0, 1642 − 0, 0432 = 0, 675 ∗ ∗ vnom = vnom (Z) = 54 · 0, 675 = 0, 844 H = H(Z) = −0, 483 ln 0, 483 − 0, 241 ln 0, 241 − 0, 069 ln 0, 069 − 0, 164 ln 0, 164 − 0, 043 ln 0, 043 = 1, 3107 H ∗ = H ∗ (Z) = 1,3107 = 0, 813 ln 5 Z v´ysledk˚ u uveden´ych v tabulce Tab. 4.7 je vidˇet, ˇze nejvˇetˇs´ı variabilitu vykazuje znak Z, nejmenˇs´ı vykazuje znak X. Periodikum X kupuje 82, 9 % ˇcten´aˇr˚ u a ostatn´ı kategorie tohoto znaku jsou m´alo poˇcetn´e. Proti tomu nejˇcetnˇejˇs´ı kategorie znaku Z (mod´aln´ı kategorie) je ”pˇredpl´ac´ı” a tuto variantu volilo ve v´ybˇeru 48,3 % ˇcten´aˇr˚ u, ˇcetnost´ı ostatn´ıch kategori´ı tohoto znaku jsou od 0,43 do 0,241. Proto znak Z vykazuje nejvˇetˇs´ı variabilitu, zat´ımco znak X nejmenˇs´ı. Je to vidˇet ze vˇsech vypoˇcten´ych mˇer variability. Periodikum X Y Z
Medi´an mod´aln´ı xxx nm kupuje 82,9 kupuje 67,4 pˇredpl´ac´ı 48,3
∗ v vnom vnom H H∗ 0,171 0,297 0,371 0,6099 0,3790 0,326 0,494 0,618 0,9554 0,5936 0,517 0,675 0,844 1,3107 0,8144
Tabulka 4.8: Charakteristiky nomin´aln´ıch znak˚ u z tabulky Tab. 4.7
4.5.2
Charakteristiky rozdˇ elen´ı ordin´ aln´ıho znaku
Ordin´aln´ı znak se od nomin´aln´ıho liˇs´ı t´ım, ˇze varianty (kategorie) jeho moˇzn´ych hodnot jsou uspoˇr´adan´e. Proto je moˇzn´e pro popis polohy i variability ordin´aln´ıho znaku uˇz´ıt vˇsechny charakteristiky pouˇz´ıvan´e pro popis rozdˇelen´ı nomin´aln´ıho znaku. Kromˇe toho, protoˇze hodnoty ordin´aln´ıho znaku jsou uspoˇr´adan´e, dost´avaj´ı relativn´ı ˇcetnosti fi , i = 1, . . . r tohoto znaku nov´y v´yznam vzhledem ke sv´emu postaven´ı na ordin´aln´ı stupnici. Anal´yza ordin´aln´ıch dat pak je zaloˇzena pr´avˇe na ˇcetnostech sousedn´ıch hodnot znaku a bude se podstatnˇe op´ırat o kumulativn´ı rozdˇelen´ı ˇcetnost´ı Fi , i = 1, 2 . . . , r, kter´e u nomin´aln´ıho znaku nemˇely rozumnou interpretaci. Pomoc´ı kumulativn´ıch relativn´ıch ˇcetnost´ı Fi lze snadno konstruovat empirickou distribuˇcn´ı funkci Fn∗ , kdyˇz jednotliv´e uspoˇr´adan´e kategorie ordin´aln´ıho znaku k´odujeme 1, 2, . . . , r, tedy klademe x[1] = 1, x[2] = 2, . . . , x[r] = r. Tak to bylo provedeno pro znak Y v
61 pˇr´ıkladu 4.1, viz t´eˇz tabulka Tab. 4.4. K empirick´e distribuˇcn´ı funkci Fn∗ lze pˇriˇradit ∗ kvantilovou funkci F−1 a pomoc´ı n´ı stanovit empirick´e p-kvantily, kter´e byly zavedeny v odstavci 4.4. Pro p-kvantil znaku X budeme uˇz´ıvat oznaˇcen´ı xp , p ∈ h0, 1i. Pomoc´ı p-kvantil˚ u pak zavedeme m´ıru polohy ordin´aln´ıho znaku - medi´an a nˇekter´e m´ıry variability. Medi´ an rozdˇelen´ı ˇcetnost´ı znaku X definujeme jako 0,5-kvantil x0,5 empirick´e distribuˇcn´ı funkce. Budeme jej znaˇcit x˜. Tedy plat´ı x˜ = x0,5 . Takto zaveden´y medi´an x˜ oznaˇcuje ordin´aln´ı kategorii pˇred n´ıˇz leˇz´ı m´enˇe neˇz 50 % hodnot znaku X ze vˇsech zjiˇstˇen´ych hodnot x1 , x2 , . . . , xn a aˇz do t´eto kategorie vˇcetnˇe t´eto kategorie spad´a v´ıce neˇz 50 % hodnot znaku X. Zaps´ano jinak je pˇri zaveden´ı celoˇc´ıseln´eho k´odov´an´ı kategori´ı, medi´an x˜ definov´an jako ˇc´ıslo kategorie m (tj. x˜ = x[m] = m), pro nˇeˇz plat´ı Fm−1 < 0, 5 a Fm ≥ 0, 5. V nˇekter´ych aplikac´ıch se nespokojujeme jenom s urˇcen´ım medi´anu jako hodnoty medi´anov´e kategorie x[m] = m, ale jeˇstˇe se zaj´ım´ame o pod´ıl statistick´ych jednotek v medi´anov´e kategorii, kter´e jeˇstˇe patˇr´ı k doln´ı polovinˇe souboru. Tento pod´ıl je roven Fm −0,5 ˇ ıslo x˜med a pomoc´ı tohoto pod´ılu lze zav´est ˇc´ıslo x˜med = x˜ + 21 − Fmf−0,5 . C´ fm m se nˇekdy naz´yv´a medi´ an ordin´ aln´ıho znaku a obvykle nem´a v´yznam varianty znaku (uspoˇr´adan´e kategorie), ale vznik´a interpolac´ı poˇradov´ych hodnot medi´anov´e kategorie a kategorie n´asleduj´ıc´ı. V pˇr´ıpadˇe, kdy Fm = 0, 5 je x˜med = x˜ + 21 . Medi´an ordin´aln´ıho znaku x˜med m´a n´asleduj´ıc´ı vlastnosti:
a) Medi´an x˜med je vˇzdy definov´an a jeho hodnota leˇz´ı mezi 1 a r (poˇcet variant znaku - kategori´ı) b) x˜med = 1 pr´avˇe kdyˇz vˇsechny hodnoty x1 , . . . , xn leˇz´ı v kategorii x[1] = 1 c) x˜med = r pr´avˇe kdyˇz vˇsechny hodnoty x1 , . . . , xn leˇz´ı v kategorii x[r] = r d) x˜med = x˜ = m pr´avˇe kdyˇz f1 + . . . + fm−1 = fm+1 . . . + fr e) x˜med vyjadˇruje posunut´ı pades´atiprocentn´ıho kvantilu pod´el ordin´aln´ı stupˇ ım vyˇsˇs´ı je x˜med t´ım vyˇsˇs´ıch hodnot (kategori´ı) nab´yvaj´ı hodnoty souboru nice. C´ x1 , x2 , . . . , xn . ˇ Pˇ r´ıklad 4.4 Cetnost ˇcten´ı t´yden´ık˚ u (data z [16]). Bylo sledov´ano, jak jsou ˇcteny t´yden´ıky X,Y,U,V,W,Z. Soubor ˇcten´aˇr˚ u kaˇzd´eho z uveden´ych t´yden´ık˚ u tvoˇril statistick´y soubor a pro tento soubor byl sledov´an statistick´ y znak (oznaˇcen´y shodnˇe s oznaˇcen´ım t´yden´ıku), jak je tento t´yden´ık ˇcten. Hodnoty kaˇzd´eho znaku byly ˇc´ıselnˇe k´odov´any na pˇetistupˇ nov´e ordin´aln´ı ˇsk´ale (r=5) n´asleduj´ıc´ım zp˚ usobem: 1 - ˇcten´aˇr t´yden´ık neˇcte nebo ˇcte vyj´ımeˇcnˇe, 2 - ˇcte obˇcas, 3 - ˇcte asi 1x za mˇes´ıc, 4 - ˇcte asi 1x za 14 dn´ı, 5 - ˇcte ˇcastˇeji. Rozdˇelen´ı ˇcetnost´ı udan´e v procentech pro kaˇzd´y znak X, . . . , Z je v ˇr´adc´ıch tabulky Tab. 4.9.
62 1 - neˇcte 2 - ˇcte 3 - ˇcte asi T´yden´ık ˇcte vyj´ımeˇcnˇe obˇcas 1x za mˇes´ıc X 8,2 10,0 10,9 Y 6,1 10,0 23,0 U 42,3 31,1 14,9 V 33,0 9,7 5,0 W 4,6 6,9 20,2 Z 6,9 20,1 45,5
4 - ˇcte asi 5 - ˇcte n - rozsah 1x za 14 dn´ı ˇcastˇeji souboru 60,0 10,9 558 35,9 25,0 560 8,9 2,8 562 15,0 37,3 561 35,2 33,1 563 22,8 4,7 556
Tabulka 4.9: Frekvence (v procentech) ˇcten´ı vybran´ych t´yden´ık˚ u. V´ypoˇcet medi´anu budeme ilustrovat na t´yden´ıku U. Kumulativn´ı relativn´ı ˇcetnosti jsou F1 = 0, 423, F2 = 0, 734, F3 = 0, 883, F4 = 0, 972, F5 = 1. D´ale uk´aˇzeme pˇr´ıklad numerick´eho v´ypoˇctu medi´anu. Medi´an (medi´anov´a kategorie) u˜ = u[2] = 2 nebot’ F F1 = 0, 423 < 0, 5 a F2 = 0, 743 > 0, 5. D´ale u˜med = m + 12 − 2−0,5 = 2+ f2 0,743−0,5 1 − 0,311 = 1, 75. Pro data z tabulky byly d´ale stanoveny charakteristiky polohy 2 modus uˆ, medi´any u˜ a u˜med . V´ysledky vˇcetnˇe relativn´ıch kumulaticn´ıch ˇcetnost´ı jsou uvedeny v tabulce Tab. 4.10. Z tabulky je vidˇet, ˇze podle ˇcetnost´ı lze den´ıky seˇradit do uspoˇr´adan´e ˇrady W,X,Y,V,Z,U, kdyˇz t´yden´ık W je nejˇctenˇejˇs´ı, w˜med = 4, 02 aˇz po nejm´enˇe ˇcten´y U, jeho medi´an je u˜med = 1, 75. D´ale budou uvedeny charakteristiky variablity ordin´aln´ıho znaku: 1. Ordin´ aln´ı variance znaku X vord = vord (X) = 2
Pr
i=1
P P P Fi (1 − Fi ) = 2[ ri=1 Fi − ri=1 Fi2 ] == 2 n12 ri=1 ni (n − ni ).
Ordin´aln´ı variance vord (X) znaku X je vˇzdy definov´ana, nab´yv´a hodnot mezi 0 a r−1 , je rovna nule, pr´avˇe kdyˇz vˇsechny hodnoty x1 , . . . , xn jsou soustˇredˇeny v jedn´e 2 kategorii a je rovna maxim´alnˇe hodnotˇe r−1 , pr´avˇe kdyˇz 50 % hodnot x1 , . . . , xn je v 2 ˇ ım vyˇsˇs´ı je hodnota vord (X), kategorii x[1] a 50 % tˇechto hodnot je v kategorii x[r] . C´ t´ım vyˇsˇs´ı je variabilita dat. 2. Normalizovan´ a ordin´ aln´ı variance ∗ ∗ vord = vord (X) =
2 v (X). r−1 ord
∗ Normalizovan´a ordin´aln´ı variance vord (X) leˇz´ı v intervalu h0, 1i a lze ji pouˇz´ıt ke srovn´an´ı ordin´aln´ıch varianc´ı pro ordin´aln´ı znaky, kter´e maj´ı odliˇsn´e poˇcty moˇzn´ych variant r. ∗ V´ypoˇcet mˇer variability vord (X) a vord (X) budeme ilustrovat na datech z pˇr´ıkladu 4.3 pro promˇenou U. Vyjdeme z relativn´ıch kumulaticn´ıch ˇcetnost´ı F1 , . . . , F5 stanoven´ych pˇri poˇc´ıt´an´ı medi´anu (viz tabulka Tab. 4.10). Pro ordin´aln´ı varianci vord (U) postupnˇe
63 dostaneme vord (U) = 2[0, 423(1 − 0, 423) + 0, 733(1 − 0, 733) + 0, 822(1 − 0, 822) + 0, 971(1 − 0, 971) = 1, 144. ∗ Pro jej´ı normalizovanou verzi pak dostaneme vord (U) = 24 · 1, 144 = 0, 572. T´yden´ık X Y U V W Z
kumulativn´ı relativn´ı ˇcetnosti F1 F2 F3 F4 F5 0,082 0,182 0,291 0,891 1 0,061 0,161 0,391 0,750 1 0,423 0,734 0,883 0,?71 1 0,330 0,427 0,477 0,627 1 0,046 0,115 0,317 0,669 1 0,069 0,270 0,725 0,953 1
x e x emed 4 3,85 4 3,80 2 1,75 4 3,65 4 4,02 3 3,01
x b 4 4 1 5 4 3
vord 1,053 1,236 1,144 1,898 1,167 1,011
∗ vord 0,526 0,618 0,572 0,949 0,583 0,505
v 0,400 0,641 0,578 0,627 0,648 0,545
Tabulka 4.10: Charakteristiky ordin´aln´ıch znak˚ u z tabulky Tab. 4.9 Srovn´an´ım charakteristik variability uveden´ych v tab. Tab. 4.10. snadno nahl´edneme, ˇze nejhomogenˇejˇs´ı rozdˇelen´ı (rozdˇelen´ı s nejniˇzˇs´ı ordin´aln´ı varianc´ı vord ) m´a znak Z, jehoˇz rozdˇelen´ı je t´emˇeˇr symetrick´e kolem medi´anov´e (ale i mod´aln´ı) kategorie. N´ızk´a hodnota vord (X) = 1, 053 je zp˚ usobena v´yrazn´ym modem xˆ = 4 jemuˇz odpov´ıd´a vysok´a mod´aln´ı relativn´ı ˇcetnost f4 = 0, 60. Tato vysok´a mod´aln´ı ˇcetnost tak´e zp˚ usobuje, ˇze pˇri popisu rozdˇelen´ı znaku X m´a mod´aln´ı kategorie x[4] samostatn´y interpretaˇcn´ı v´yznam, kter´y ihned plyne z n´ızk´e hodnoty variaˇcn´ıho pomˇeru v, kter´a je v(X) = 0, 400. Je to nejniˇzˇs´ı hodnota variaˇcn´ıho pomˇeru mezi vˇsemi sledovan´ymi znaky X, . . . , Z. Nejvyˇsˇs´ı ordin´aln´ı variabilitu vykazuje znak V, vord (V ) = 1, 898. Je to zp˚ usobeno rozˇstˇepen´ım ˇcten´aˇr˚ u tohoto t´yden´ıku na dva extr´emn´ı typy (dvouvrcholov´e rozdˇelen´ı relativn´ıch ˇcetnost´ı). Medi´an zde m´a jen orientaˇcn´ı v´yznam a ukazuje, ˇze skupina ˇcten´aˇr˚ u um´ıstˇen´ych na ordin´aln´ı ˇsk´ale vpravo m´a poˇcetn´ı pˇrevahu. Koneˇcnˇe relativn´ı pomˇery (nomin´aln´ı m´ıry variability) v(V ) = 0, 627 a v(W ) = 0, 648 jsou si pomˇernˇe bl´ızko, ale ordin´aln´ı m´ıry variability vord (V ) = 1, 898 a vord (W ) = 1, 167 ukazuj´ı na zcela jinak rozpt´ylen´a rozdˇelen´ı ˇcetnost´ı. Rozdˇelen´ı znaku V m´a daleko vˇetˇs´ı vnitˇrn´ı heterogenitu neˇz rozdˇelen´ı znaku W, kter´e je prakticky koncentrov´ano na mnohem niˇzˇs´ı u ´ sek ˇsk´aly. Za zm´ınku stoj´ı, ˇze odpov´ıdaj´ıc´ı m´ıry nomin´aln´ı variability jsou vnom (V ) = 0, 718 a vnom (W ) = 0, 719 a tedy zcela selh´avaj´ı pˇri popisu variability ordin´aln´ıch promˇenn´ych V a W.
4.5.3
Charakteristiky rozdˇ elen´ı kardin´ aln´ıho znaku
Kardin´aln´ı znak se liˇs´ı od ordin´aln´ıho t´ım, ˇze jeho hodnoty maj´ı v´yznam re´aln´ych ˇc´ısel, kter´a jsou pˇrirozenˇe uspoˇr´ad´ana a nav´ıc s nimi lze prov´adˇet obvykl´e ˇc´ıseln´e operace (souˇcet, rozd´ıl, souˇcin, pod´ıl). V pˇr´ıpadˇe, ˇze obor hodnot tohoto znaku je interval re´aln´ych ˇc´ısel nebo v pˇr´ıpadˇe, kdy poˇcet variant sledovan´eho znaku je velk´y, uˇz´ıv´a se pro zhuˇstˇen´y popis informace obsaˇzen´a v datov´em souboru sp´ıˇse
64 skupinov´e rozdˇelen´ı ˇcetnost´ı neˇz rozdˇelen´ı ˇcetnost´ı. Jednotliv´e intervaly skupinov´eho rozdˇelen´ı ˇcetnost´ı odpov´ıdaj´ı uspoˇr´adan´ym kategori´ım ordin´aln´ıho znaku, obvykle jsou reprezentov´any sv´ym stˇredem, lze jim pˇriˇradit absolutn´ı, relativn´ı i kumulativn´ı ˇcetnosti a je proto moˇzn´e charakterizovat skupinov´e rozdˇelen´ı ˇcetnosti kardin´aln´ıho znaku stejn´ymi charakteristikami polohy i variability, jako tomu bylo u ordin´aln´ıho znaku. Je proto moˇzn´e mluvit o mod´aln´ım intervalu, intervalu s medi´anem a podobnˇe lze zav´adˇet i interpretovat charakteristiky variability. Kromˇe toho lze pro ordin´aln´ı znak zav´est dalˇs´ı charakteristiky polohy a variability, kter´e vych´azej´ı ze skuteˇcnosti, ˇze s hodnotami kardin´aln´ıho znaku lze prov´adˇet ˇc´ıseln´e operace. V dalˇs´ı ˇc´asti tohoto odstavce zavedeme jednotliv´e m´ıry polohy a variability. Uvedeme vˇzdy vzorec, kter´y bude vych´azet z pozorovan´ych hodnot x1 , x2 . . . , xn znaku X a d´ale vzorec, kter´y bude vych´azet se skupinov´eho rozdˇelen´ı ˇcetnost´ı znaku X. Hodnoty znaku X budou nahrazeny stˇredy si interval˚ u skupinov´eho rozdˇelen´ı ˇcetnost´ı Ii , i = 1, . . . , r. Stˇredy si pak budou odpov´ıdat variant´am x[i] sledovan´eho znaku u ordin´aln´ıch promˇenn´ych. Nejdˇr´ıve se budeme zab´yvat charakteristikami polohy. 1. Aritmetick´ y pr˚ umˇ er x¯ =
1 n
Pn
i=1
xi
Pro skupinov´e rozdˇelen´ı ˇcetnost´ı lze aritmetick´y pr˚ umˇer poˇc´ıtat podle pˇribliˇzn´eho vzorceP P . x¯ = n1 ri=1 ni · si = rj=1 fj · sj Vlastnosti aritmetick´eho pr˚ umˇeru: a) Aritmetick´y pr˚ umˇer je vˇzdy definov´an a jeho hodnota leˇz´ı mezi x1 = min{x1 , . . . , xn } a xn = max{x1 , . . . , xn } P b) Souˇcet odchylek od aritmetick´eho pr˚ umˇeru je nula. Tj. plat´ı ni=1 (xi − x¯) = 0. c) x¯ je stˇredem rozdˇelen´ı pravdˇepodobnost´ı v tom smyslu, ˇze souˇcet ˇctverc˚ u odchylek vˇsech pozorov´an´ı od aritmetick´eho pr˚ umˇeru je nejmenˇs´ı moˇzn´y. To znamen´ Pa ˇze P mina ni=1 (xi − a)2 = ni=1 (xi − x¯)2
d) Kdyˇz zavedeme nov´y znak Y jako line´arn´ı transformaci znaku X, tedy poloˇz´ıme Y = a + bX, kde a, b jsou re´aln´e konstanty, plat´ı pro pr˚ umˇer y¯ hodnot y1 = a + bx1 , . . . , yn = a + bxn znaku Y vztah y¯ = a + b¯ x. e) Aritmetick´y pr˚ umˇer je vhodnou m´ırou polohy, kdyˇz skupinov´e rozdˇelen´ı ˇcetnost´ı znaku X je jednovrcholov´e a pˇribliˇznˇe symetrick´e kolem mod´aln´ıho intervalu.
65 Pro bimod´aln´ı rozdˇelen´ı nereprezentuje x¯ typickou hodnotu, ale zpravidla je um´ıstˇen mezi obˇema vrcholy. Koneˇcnˇe pro asymetrick´e rozdˇelen´ı je x¯ posunut smˇerem k prot´ahl´emu konci tohoto rozdˇelen´ı. Je moˇzn´e uk´azat, ˇze na hodnotu x¯ maj´ı tak´e velk´y vliv hodnoty, kter´e jsou od stˇredu mod´aln´ıho intervalu znaˇcnˇe odlehl´e (zejm´ena x(1) nebo x(n) ). 2. Geometrick´ y pr˚ umˇ er Q 1 √ x¯G = ( ni=1 xi ) n = n x1 · x2 , . . . , xn
Pro data uspoˇr´adan´a do skupinov´eho rozdˇelen´ı ˇcetnost´ı lze x¯G poˇc´ıtat podle pˇribliˇzn´eho vzorceQ qQ . r fj x¯G = j=1 sj = n rj=1 snj i Vlastnosti x¯G
a) Geometrick´y pr˚ umˇer je definov´an pro znak, kter´y m˚ uˇze nab´yvat pouze kladn´ych hodnot. b) V´ypoˇcet geometrick´eho pr˚ umˇeru se obvykle prov´ad´ı tak, ˇze se vypoˇcte aritmetick´y pr˚ umˇer y¯ hodnot yi = ln xi (ln znaˇc´ı pˇrirozen´y logaritmus) a potom pomoc´ı exponenci´aln´ı funkce se vypoˇcte geometrick´y pr˚ umˇer podle vzorce y¯ x¯G = e . c) x¯G je vhodn´ym ukazatelem polohy pro rozdˇelen´ı, kter´a nejsou symetrick´a, jsou ˇ unimod´aln´ı s ”protaˇzen´ym koncem”. Casto se pouˇz´ıv´a pro pomˇerov´a data a v situaci, kdy je vhodnˇejˇs´ı porovn´avat pod´ıly pozorov´an´ı xxji sp´ıˇse neˇz jejich rozd´ıly xi − xj . 3. Harmonick´ y pr˚ umˇ er Pro kladn´ an´ı x1 , . . . , xn definujeme harmonick´y pr˚ umˇer x¯H vztahem Pan pozorov´ 1 −1 x¯H = n( i=1 xi ) . Pro data uspoˇr´adan´a do tabulky skupinov´eho rozdˇelen´ı ˇcetnost´ı plat´ı pˇribliˇzn´y vzorec . P x¯H = n( ri=1
ni −1 ) . si
Harmonick´y pr˚ umˇer se pouˇz´ıv´a pˇri nˇekter´ych specifick´ych situac´ıch napˇr. pˇri v´ypoˇctu pr˚ umˇern´e rychlosti. 4. Kvadratick´ y pr˚ umˇ er Definujeme vztah x¯K =
q P n 1 n
i=1
x2i
66 Pro data uspoˇr´adan´a do skupinov´eho rozdˇelen´ı ˇcetnost´ı plat´ı pˇribliˇzn´y vzorec . x¯K =
q P r 1 n
i=1 ni · si =
pPr
i=1
fi · s2i
Kvadratick´y pr˚ umˇer se ˇcasto pouˇz´ıv´a pˇri popisu variability chyb mˇeˇren´ı. Mezi uveden´ymi charakteristikami polohy plat´ı vztahy (viz[1]) x(1) ≤ x¯H ≤ x¯G ≤ x¯ ≤ x¯K ≤ x(n) . V pˇr´ıpadˇe, ˇze x1 = . . . = xn plat´ı v uveden´ych nerovnostech rovnost. Nejsou-li si vˇsechna pozorov´an´ı rovna, jsou vˇsechny uveden´e nerovnosti ostr´e. Jinou charakteristikou polohy, kter´a nen´ı ovlivnˇena nejvˇetˇs´ımi a nejmenˇs´ımi pozorovan´ymi hodnotami znaku je jak jiˇz bylo ˇreˇceno v u ´ vodu odstavce 4.5.2 medi´an x˜. Jeho v´ypoˇcet pro skupinov´e rozdˇelen´ı ˇcetnost´ı se prov´ad´ı analogicky jak v pˇr´ıpadˇe ordin´aln´ıho znaku, tedy pomoc´ı p-kvantilu xp empirick´e distribuˇcn´ı funkce Fn∗ . Klademe x˜ = x0,5 . V pˇr´ıpadˇe, ˇze rozsah souboru n je lich´e ˇc´ıslo, tedy n = 2k − 1, lze medi´an x˜med stanovit jako hodnotu prostˇredn´ıho pozorov´an´ı xk uspoˇr´adan´e ˇrady x(1) ≤ x(2) ≤ . . . ≤ x(k) ≤ . . . ≤ xn hodnot x1 . . . xn . Tedy x˜ = x(k) . Je-li n ˇc´ıslo sud´e tedy n = 2k, poˇc´ıt´ame medi´an jako pr˚ umˇer dvou prostˇredn´ıch hodnot, tedy podle x +x vzorce x˜med = k 2(k+1) . Upozornˇeme jeˇstˇe na vztah medi´anu x˜ poˇr´ızen´eho pomoc´ı kvantilu a x˜med poˇr´ızen´eho z uspoˇr´adan´e ˇrady hodnot x(1) , . . . , x(n) . Zˇrejmˇe x˜ = x˜med , kdyˇz n je lich´e. Je-li n sud´e, n = 2k je medi´an x˜ poˇc´ıtan´y pomoc´ı kvantilu roven hodnotˇe x(k) , tj. x˜ = x(k) , x +x zat´ımco medi´an poˇc´ıtan´y pomoc´ı vzorce x˜med = k 2(k+1) nenab´yv´a v pˇr´ıpadˇe, ˇze x(k) < x(k+1) ˇz´adn´e pozorovan´e hodnoty x1 . . . xk . Z teoretick´eho hlediska je l´epe pouˇz´ıvat sp´ıˇse x˜med neˇz x˜. Charakteristiky variability 1. Empirick´ y rozptyl s2 =
1 n
Pn
i=1 (xi
− x¯)2
Pro skupinov´e rozdˇelen´ı ˇcetnost´ı lze s2 poˇc´ıtat podle pˇribliˇzn´eho vzorce . s2 =
1 n
Pr
j=1
nj · (sj − x¯)2
Vlastnosti rozptylu: a) s2 = 0 pr´avˇe kdyˇz plat´ı x1 = x2 = . . . = xn = x¯. b) Pˇri poˇcP ´ıt´an´ı rozptylu lze vyuˇz´ıt vzorce 1 2 s = n ni=1 x2i − x¯2 = x¯k − x¯2 Uveden´y vzorec je v´yhodn´y pro v´ypoˇcet rozptylu na datov´ych souborech velk´eho
67 rozsahu. c) Rozptyl s2 lze vyj´adˇrit ve tvaru s2 =
1 2n2
Pn Pn i=1
j=1 (xi
− xj )2
d) Kdyˇz znak Y = a + bX je line´arn´ı transformace znaku X, pak pro rozptyl s2y hodnot y1 = a + bx1 , . . . , yn = a + bxn plat´ı s2y = b2 s2x . e) Z definice rozptylu plyne, ˇze rozptyl hodnot znaku X popisuje kol´ıs´an´ı (variabilitu) hodnot x1 . . . , xn kolem aritmetick´eho pr˚ umˇeru. Ze vztahu pro rozptyl uveden´eho v bodˇe c) plyne, ˇze rozptyl hodnot x1 . . . , xn charakterizuje variabilitu, kter´e je mezi dvojicemi pozorov´an´ı xi a xj , i, j = 1, 2 . . . , n. Tedy variabilita hodnot x1 , . . . , xn mezi sebou je charakterizov´ana rozptylem bez ohledu na m´ıru polohy x¯. 2. Empirick´ a smˇ erodatn´ a odchylka Empirickou√smˇerodatnou odchylku s zav´ad´ıme pomoc´ı empirick´eho rozptylu s2 vztahem s = s2 . Protoˇze smˇerodatn´a odchylka s je u ´ zce sv´az´ana s rozptylem, m´a podobn´e vlastnosti jako rozptyl. Jej´ım hlavn´ım kladem je, ˇze jej´ı fyzik´aln´ı rozmˇer je ve stejn´ych jednotk´ach jako jsou jednotliv´e hodnoty x1 , x2 . . . , xn . Dalˇs´ı m´ıry variability, kter´e zavedeme a budou vych´azet z uspoˇr´adan´e ˇrady pozorov´an´ı x(1) ≤ x(2) ≤ . . . ≤ x(n) hodnot x1 , . . . , xn a z kvantil˚ u xp pˇr´ısluˇsn´ych ∗ empirick´ych distribuˇcn´ıch funkc´ı Fn . 3. Rozpˇ et´ı Rozpˇet´ı ˇrady hodnot x1 , . . . , xn definujeme vztahem R = x(n) − x(1) Jaho v´ypoˇcet je velmi rychl´y, umoˇzn ˇ uje jednoduˇse posoudit variabilitu ovˇsem na druh´e stranˇe, jeho hodnota je znaˇcnˇe zat´ıˇzen´a nejmenˇs´ı a tak´e nejvˇetˇs´ı pozorovanou hodnotou. 4. Decilov´ a odchylka Pro danou ˇradu hodnot x1 , . . . , xn znaku X naz´yv´ame empirick´e kvantily x0,1 , x0,2 , . . . , x0,9 empirick´ e decily struˇcnˇe jenom decily. Pomoc´ı nich pak definujeme decilov´ e rozpˇ et´ı RD = x0,9 − x0,1
a decilovou odchylku
1 QD = RD 2
68 . 5. Kvartilov´ a odchylka Podobnˇe jako decily zav´ad´ıme kvartily x0,25 , x0,50 , x0,75 . Kvartil x0,25 naz´yv´ame doln´ı ˇ ıslo kvartil, x0,50 je medi´an a x0,75 naz´yv´ame horn´ım kvartilem. C´ Rk = x0,75 − x0,25 pak naz´yv´ame kvartilov´ e rozpˇ et´ı a ˇc´ıslo Qk = 12 Rk naz´yv´ame kvartilovou odchylkou. V´yhodou decilov´eho a kvartilov´eho rozpˇet´ı a decilov´e a kvartilov´e odchylky je, ˇze variabilitu sledovan´e ˇrady hodnot x1 , . . . , xn mˇeˇr´ı bez ohledu na odlehl´a krajn´ı pozorov´an´ı.
15 7,1688 7,5 6,75 8,9 2 65 3,9622 3,2 2,475 6,425 0,5 20 5,0842 4,2 3 7,375 1
Smˇerodatn´a odchylka s
Rozptyl s2
Maximum z(n)
Minimum z(1)
Horn´ı kvartil z0,75
Doln´ı kvartil z0,25
Median ze
ano ne nev´ım
Pr˚ umˇer z
Hodnota znaku X
1 2 3
Rozsah n
Podsoubor
Pˇ r´ıklad 4.5 Pouˇzit´ı uveden´ych charakteristik polohy a variability statistick´eho znaku budeme ilustrovat na datech tabulky 4.2. pro znak Z - mˇes´ıˇcn´ı v´yˇse kapesn´eho. Histogram rozdˇelen´ı ˇcetnost´ı tohoto znaku pro r˚ uzn´e d´elky tˇr´ıdn´ıch interval˚ u je na obr. 4.5. Toto skupinov´e rozdˇelen´ı ˇcetnost´ı pop´ıˇseme pomoc´ı charakteristik. jednotliv´e charakteristiky vypoˇcteme podle vzorc˚ u uveden´ych v pˇredchoz´ıch odstavc´ıch. V´ysledky jsou uvedeny v tabulce Tab. 4.11.
11,2 6,4034 2,5305 8,4 4,2207 2,0544 9,6 7,2982 2,7015
Tabulka 4.11: Charakteristiky polohy a variability znaku Z z datov´eho souboru z tabulky Tab. 4.2 pro podsoubory vytvoˇren´e podle variant znaku X. Z Tab. 4.11 i Obr. 4.6 je patrn´e, ˇze studenti, kteˇr´ı jsou pro placen´ı ˇskoln´eho maj´ı hodnoty kapesn´eho (hodnoty znaku Z) vyˇsˇs´ı neˇz studenti nerozhodnut´ı a studenti, kteˇr´ı nejsou pro placen´ı ˇskoln´eho. Tito posledn´ı pak maj´ı hodnoty znaku Z nejniˇzˇs´ı. Kromˇe toho nejvyˇsˇs´ı variabilitu dosahuje znak Z v souboru nerozhodn´ych a nejniˇzˇs´ı variabilita je v souboru student˚ u, kteˇr´ı si placen´ı ˇskoln´eho nepˇrej´ı. Pˇri porovn´av´an´ı variability znak˚ u, kter´e jsou mˇeˇreny v r˚ uzn´ych jednot´ach se nˇekdy pouˇz´ıv´a variaˇ cn´ı koeficient. Definuje se vztahem s v= . x
69 Jeho v´yhodou je, ˇze je bezrozmˇern´e ˇc´ıslo. Koneˇcnˇe pˇri detailnˇejˇs´ım popisu rozdˇelen´ı ˇcetnosti nelze vystaˇcit s charakteristikami polohy a variability, ale zav´adˇej´ı se dalˇs´ı charakteristiky. Snad nejpouˇz´ıvanˇejˇs´ı z nich jsou momenty (pro popisnou statistiku se sp´ıˇse hod´ı term´ın empirick´e momenty). Pro libovoln´e pˇrirozen´e ˇc´ıslo k seP momenty zav´adˇej´ı n´asleduj´ıc´ım zp˚ usobem: n k k-t´ y obecn´ y moment: m′k = n1 P x i=1 i k-t´ y centr´ aln´ı moment mk = n1 ni=1 (xi − x)k . Je zˇrejm´e, ˇze prvn´ı obecn´y moment je roven aritmetick´emu pr˚ umˇeru, tedy m′1 = x a druh´y centr´aln´ı moment je roven empirick´emu rozptylu tedy m2 = s2 . Jsou-li data uspoˇr´ad´ana do tabulky skupinov´eho rozdˇelen´ı ˇcetnost´ı, lze uveden´e momenty poˇc´ıtat podle pˇribliˇzn´ych vzorc˚ u r
m′k a
r
X . 1X = nj skj = fj skj n j=1 j=1
r
r
X 1X nj (sj − x)k = fj (sj − x)k . m1 = n j=1 j=1
Koneˇcnˇe lze pomoc´ı moment˚ u zav´est m´ıru asymetrie souboru a3 (t´eˇz zvanou ˇ sikmost) a m´ıru koncentrace kolem pr˚ umˇeru a4 zvanou ˇ spiˇ catost. Zav´ad´ı se vztahy a3 = a4 =
m3 3/2 m2
=
m3 s3
m4 m4 − 3 = 4 − 3. 2 m2 s
Soubory, jejichˇz skupinov´e rozdˇelen´ı ˇcetnosti je pˇribliˇznˇe symetrick´e maj´ı koeficient ˇsikmosti a3 bl´ızk´y mule, jsou-li jejich skupinov´e rozdˇelen´ı protaˇzen´ı doprava, je a3 > 0 a pˇri protaˇzen´ı doleva je a3 < 0.
70
Kapitola 5 N´ ahodn´ e veliˇ ciny V´ysledkem pˇredchoz´ı kapitoly byl popis rozdˇelen´ı ˇcetnost´ı nebo skupinov´eho rozdˇelen´ı ˇcetnost´ı statistick´eho znaku pomoc´ı vhodn´e tabulky nebo pomoc´ı grafick´eho zn´azornˇen´ı. Uk´azalo se, ˇze hodnoty statistick´eho znaku zjiˇst’ovan´e na r˚ uzn´ych jednotk´ach dan´eho statistick´eho souboru mohou kol´ısat, nˇekter´e hodnoty znaku ve statistick´em souboru jsou v´ıce jin´e m´enˇe pravdˇepodobn´e. Pˇredstavu o tomto kol´ıs´an´ı d´av´a rozdˇelen´ı ˇcetnost´ı nebo skupinov´e rozdˇelen´ı ˇcetnost´ı sledovan´eho znaku. V t´eto kapitole nav´aˇzeme na v´ysledky pˇredchoz´ı kapitoly, pojem statistick´eho znaku jakoˇzto numerick´e ohodnocen´ı jednotek dan´eho statistick´eho souboru zpˇresn´ıme, zavedeme m´ısto nˇeho n´ahodnou veliˇcinu. D´ale podobn´ym zp˚ usobem jako jsme na z´akladˇe vlastnost´ı ˇcetnosti zavedli axiomaticky pravdˇepodobnost zavedeme m´ısto rozdˇelen´ı ˇcetnost´ı statistick´eho znaku rozdˇelen´ı pravdˇepodobnosti n´ahodn´e veliˇciny. Pak pop´ıˇseme vlastnosti rozdˇelen´ı pravdˇepodobnosti a uvedeme z´akladn´ı modelov´a rozdˇelen´ı pravdˇepodobnosti, kter´a jsou v aplikac´ıch – zejm´ena ekonomick´eho charakteru, ta nejˇcastˇejˇs´ı.
5.1
N´ ahodn´ a veliˇ cina a jej´ı distribuˇ cn´ı funkce
Vyjdeme z pravdˇepodobnostn´ıho prostoru (Ω, A, P ) a jednotliv´ym element´arn´ım jev˚ um ω ∈ Ω pˇriˇrad´ıme ˇc´ıseln´e ohodnocen´ı. Takov´e ˇc´ıseln´e ohodnocen´ı lze matematicky popsat pomoc´ı zobrazen´ı X, kter´e element´arn´ımu jevu ω ∈ Ω pˇriˇrad´ı re´aln´e ˇc´ıslo x ∈ (−∞, ∞). Form´alnˇe zaps´ano X(ω) = x. Pomoc´ı zobrazen´ı X lze zapisovat podmnoˇziny mnoˇziny Ω. Napˇr. je-li Ω mnoˇzina vˇsech jedinc˚ u dan´e (hypotetick´e) populace a zobrazen´ı X pˇriˇrazuje dan´emu jedinci ω jeho v´yˇsku x = X(ω) v centimetrech, lze uvaˇzovat podmnoˇziny Ω tvaru: {ω : X(ω) ≤ 150} = mnoˇzina jednotlivc˚ u s nejvyˇsˇs´ı v´yˇskou 150 cm {ω : 160 ≤ X(ω) ≤ 180} pˇredstavuje mnoˇzinu jedinc˚ u dan´e populace s v´yˇskou alespoˇ n 160 cm a s nejvyˇsˇs´ı v´yˇskou 180 cm. 71
72 {ω : X(ω) > 200} pˇredstavuje mnoˇzinu jednotlivc˚ u vyˇsˇs´ıch neˇz 200 cm apod. V situac´ıch, kdy prostor element´arn´ıch jev˚ u Ω nen´ı koneˇcn´a mnoˇzina, existuje obrovsk´e mnoˇzstv´ı zp˚ usob˚ u, jak numerick´e ohodnocen´ı v´ysledk˚ u experimentu prov´est, tedy jak vybrat zobrazen´ı X. Z hlediska aplikac´ı jsou uˇziteˇcn´a pouze takov´a zobrazen´ı X, pro kter´a jsou mnoˇziny z v´yˇse uveden´eho pˇr´ıkladu n´ahodn´e jevy na jevov´em poli (Ω, A) a lze jim pˇriˇradit pravdˇepodobnost. Zobrazen´ı, kter´a tuto vlastnost maj´ı, se naz´yvaj´ı n´ahodn´e veliˇciny. Definice 5.1 Zobrazen´ı X, kter´e kaˇzd´emu element´arn´ımu jevu ω ∈ Ω pˇriˇrazuje re´aln´e ˇc´ıslo x = X(ω) nazveme n´ ahodnou veliˇ cinou na jevov´em poli (Ω, A), kdyˇz pro libovoln´y interval re´aln´ych ˇc´ısel I plat´ı, ˇze {ω : X(ω) ∈ I} ∈ A. D´ale pro podmnoˇziny Ω typu {ω : X(ω) ∈ I} zavedeme oznaˇcen´ı [X ∈ I]. Z definice n´ahodn´e veliˇciny plyne, ˇze n´asleduj´ıc´ı mnoˇziny typu [X ≤ x] = {ω : X(ω) ≤ x}, [X > x] = {ω : X(ω) > x}, [X = x] = {ω : X(ω) = x} pro libovoln´e re´aln´e x jsou n´ahodn´e jevy, tedy prvky jevov´e σ–algebry A. Lze jim proto pˇriˇradit pravdˇepodobnosti. D´ale zavedeme zjednoduˇsen´e oznaˇcen´ı. M´ısto P ({ω : X(ω) ∈ I}) = P ([X ∈ I]) budeme struˇcnˇe ps´at P (X ∈ I) nebo m´ısto P ({ω : X(ω) ≤ x}) budeme ps´at P (X ≤ x) apod. Pravdˇepodobnosti uveden´eho typu lze pouˇz´ıt k popisu pravdˇepodobnostn´ıho chov´an´ı n´ahodn´e veliˇciny. Lze to prov´est zaveden´ım distribuˇcn´ı funkce n´ahodn´e veliˇciny. Definice Necht’ (Ω, A, P ) je pravdˇepodobnostn´ı prostor a X n´ahodn´a veliˇcina definovan´a na jevov´em poli (Ω, A). Pak funkci F (x) = P (X ≤ x) definovanou pro kaˇzd´e re´aln´e x naz´yv´ame distribuˇ cn´ı funkc´ı n´ahodn´e veliˇciny X. Uved’me si jednoduch´y pˇr´ıklad. Pˇ r´ıklad 5.1 Uvaˇzujme jednoduch´y pokus spoˇc´ıvaj´ıc´ı ve 3 hodech minc´ı a uvaˇzujme n´ahodnou veliˇcinu X, kter´a kaˇzd´e trojici hod˚ u pˇriˇrad´ı poˇcet l´ıc˚ u, kter´e v tˇechto tˇrech hodech padly. Naleznˇete a graficky zn´azornˇete distribuˇcn´ı funkci n´ahodn´e veliˇciny X. ˇ sen´ı: Prostor element´arn´ıch jev˚ Reˇ u Ω pop´ıˇseme obvykl´ym zp˚ usobem Ω = {[L, L, L], [L, L, R], . . . , [R, R, L], [R, R, R]}. Protoˇze Ω je koneˇcn´a mnoˇzina zvol´ıme za σ–algebru A syst´em vˇsech podmnoˇzin Ω a pravdˇepodobnost P zvol´ıme klasickou. N´ahodnou veliˇcinu X pak lze popsat zobrazen´ım: X([R, R, R]) = 0 X([L, R, R]) = X([R, L, R]) = X([R, R, L]) = 1 X([R, L, L]) = X([L, R, L]) = X([L, L, R]) = 2 X([L, L, L]) = 3 Pro distribuˇcn´ı funkci F (x) = P (X ≤ x) n´ahodn´e veliˇciny X pak pomoc´ı klasick´e pravdˇepodobnosti dostaneme: pro x < 0 je F (x) = P (X ≤ x) = P (∅) = 0 pro 0 ≤ x < 1 je F (x) = P (X ≤ x) = P (X = 0) = P ([R, R, R]) = 81 pro 1 ≤ x < 2 je F (x) = P (X ≤ x) = P ([X = 0] ∪ [x = 1]) = P (X = 0)
73 + P (X = 1) = P ([R, R, R]) + P ({[L, R, L], [R, L, R], [R, R, L]}) = 81 + 38 = 48 pro 2 ≤ x < 3 je F (x) = P (X ≤ x) = P ([X = 0] ∪ [X = 1] ∪ [X = 2]) = P (X = 0) + P (X = 1) + P (X = 2) = 81 + 38 + 38 = 87 pro 3 ≤ x je F (x) = P (X ≤ x) = P ([X = 0] ∪ [X = 1] ∪ [X = 2] ∪ [X = 3]) = P (Ω) = 1. Grafick´e zn´azornˇen´ı distribuˇcn´ı funkce F (x) je na obr. 5.1 Obr. 5.1 Z obr´azku 5.1 jsou dobˇre patrn´e obecn´e vlastnosti distribuˇcn´ı funkce. D´ale jsou tyto vlastnosti uvedeny pˇrehlednˇe, pˇr´ısluˇsn´y d˚ ukaz lze nal´ezt napˇr. v [13], [18] nebo v [3]. Vlastnosti distribuˇ cn´ı funkce. Pˇredpokl´adejme, ˇze X je n´ahodn´a veliˇcina definovan´a na pravdˇepodobnostn´ım prostoru (Ω, A, P ) a F (x) je jej´ı distribuˇcn´ı funkce. Pak plat´ı: VDF 1. 0 ≤ F (x) ≤ 1 pro kaˇzd´e x ∈ (−∞, ∞) VDF 2. F (x) je neklesaj´ıc´ı funkc´ı VDF 3. F (x) je funkce zprava spojit´a VDF 4. limx→∞ F (x) = 1 a limx→−∞ F (x) = 0 VDF 5. Pro libovoln´a re´aln´a ˇc´ısla x1 , x2 , x1 < x2 plat´ı P (x1 < X2 ≤ x2 ) = F (x2 ) − F (x1 ) VDF 6. Pro kaˇzd´e re´aln´e x plat´ı, ˇze P (X = x) = F (x) − lim F (y). y→x−
(Oznaˇcen´ı limy→x− F (y) znaˇc´ı, ˇze se jedn´a o limitu funkce F (y) pro y, kter´e konverguje k bodu x zleva). Uvedenou vlastnost distribuˇcn´ı funkce lze slovnˇe charakterizovat tak, ˇze velikost skoku distribuˇcn´ı funkce F v bodˇe x je rovna pravdˇepodobnosti, s n´ıˇz n´ahodn´a veliˇcina X hodnotu x m˚ uˇze nab´yt. Z vlastnosti distribuˇcn´ı funkce uveden´e v bodˇe 5 je patrn´e, ˇze distribuˇcn´ı funkce F (x) n´ahodn´e veliˇciny X umoˇzn ˇ uje pro libovoln´y interval I = (x1 , x2 i stanovit pravdˇepodobnost P (X ∈ I) = P (x1 < X ≤ x2 ). Odtud pomoc´ı dalˇs´ıch vlastnost´ı distribuˇcn´ı funkce (zejm´ena vlastnost´ı 2, 3 a 4) lze uk´azat, ˇze distribuˇcn´ı funkce F umoˇzn ˇ uje jednoznaˇcnˇe popsat vˇsechny pravdˇepodobnosti P (X ∈ B), kde mnoˇzina
74 B je libovoln´a borelovsk´a mnoˇzina (viz [13]). Lze proto pomoc´ı distribuˇcn´ı funkce F (x) n´ahodn´e veliˇciny X zav´est PX (B) = P (X ∈ B). PX (B) je pak axiomatickou pravdˇepodobnost´ı definovanou na borelovsk´em jevov´em poli (R, B) (viz odstavec 2.2). Pravdˇepodobnost PX (B), B ∈ B se naz´yv´a rozdˇ elen´ı pravdˇ epodobnosti n´ahodn´e veliˇciny X. Je-li borelovsk´a mnoˇzina B interval re´aln´ych ˇc´ısel I, pˇriˇrazuje rozdˇelen´ı pravdˇepodobnost PX tomuto intervalu pravdˇepodobnost s jakou n´ahodn´a veliˇcina X nabude sv´e hodnoty z tohoto intervalu. Protoˇze mezi distribuˇcn´ı funkc´ı n´ahodn´e veliˇciny X a jej´ım rozdˇelen´ım pravdˇepodobnosti PX je vz´ajemnˇe jednoznaˇcn´y vztah ˇr´ık´ame, ˇze distribuˇcn´ı funkce F urˇcuje nebo popisuje rozdˇelen´ı pravdˇepodobnost´ı n´ahodn´e veliˇciny X. Podle toho, jak´y tvar m´a distribuˇcn´ı funkce n´ahodn´e veliˇciny, lze prov´est kategorizaci n´ahodn´ych veliˇcin a pro n´ahodn´e veliˇciny, kter´e maj´ı distribuˇcn´ı funkce podobn´eho typu lze zav´est speci´aln´ı n´azvy. Provedeme to v odstavci 5.3. V nˇekter´ych aplikac´ıch je tˇreba konstruovat n´ahodnou veliˇcinu, kter´a by mˇela rozdˇelen´ı pravdˇepodobnost´ı s pˇredem dan´ymi vlastnostmi. Protoˇze rozdˇelen´ı pravdˇepodobnost´ı je jednoznaˇcnˇe urˇceno distribuˇcn´ı funkc´ı, nask´yt´a se ot´azka, kdy je dan´a funkce F (x) distribuˇcn´ı funkc´ı nˇejak´e n´ahodn´e veliˇciny X. Ukazuje se (viz [13]), ˇze funkce F (x) je distribuˇcn´ı funkc´ı vˇzdy, kdyˇz je neklesaj´ıc´ı, zprava spojit´a a limx→∞ F (x) = 1, limx→−∞ F (x) = 0 (tedy, aby funkce F splˇ novala vlastnosti VF2, VF3 a VF4 uveden´e v´yˇse).
5.2
Transformovan´ e n´ ahodn´ e veliˇ ciny
V mnoha praktick´ych situac´ıch je mnohdy v´yhodn´e pouˇz´ıvat m´ısto n´ahodn´e veliˇciny X jej´ı transformaci. Tak napˇr. pˇri popisu ekonomick´ych ukazatel˚ u se ˇcasto pracuje s jejich logaritmem nebo s jejich line´arn´ı transformac´ı, predikce dan´e veliˇciny se prov´ad´ı pomoc´ı kvadratick´e, kubick´e exponenci´aln´ı nebo hyperbolick´e funkce nˇejak´e jin´e n´ahodn´e veliˇciny apod. Zav´ad´ıme proto n´asleduj´ıc´ı terminologii. Je-li X n´ahodn´a veliˇcina na jevov´em poli (Ω, A) a g(x) takov´a libovoln´a re´aln´a funkce, ˇze zobrazen´ı Y = g(X) (tj. sloˇzen´e zobrazen´ı Y (ω) = g(X(ω)) je opˇet n´ahodn´a veliˇcina na jevov´em poli (Ω, A), ˇr´ık´ame, ˇze Y je transformovan´ a n´ahodn´a veliˇcina. Lze uk´azat, ˇze kdyˇz funkce g je spojit´a nebo funkce po ˇc´astech spojit´a, je Y = g(X) transformovan´a n´ahodn´a veliˇcina. Speci´alnˇe odtud dost´av´ame, ˇze funkce n´ahodn´e veliˇciny Y = log X (log znaˇc´ı pˇrirozen´y algoritmus), Y = a + bX, kde a,b jsou dan´e re´aln´e konstanty, Y = X 2 , Y = sin X, Y = eX apod jsou opˇet n´ahodn´e veliˇciny na (Ω, A). V nˇekter´ych situac´ıch je potˇreba pracovat z´aroveˇ n s v´ıce n´ahodn´ymi veliˇcinami X1 , X2 , . . . , Xn nˇekdy dokonce s posloupnost´ı n´ahodn´ych veliˇcin definovan´ych na stejn´em pravdˇepodobnostn´ım prostoru (Ω, A). Pak lze zav´est transformovanou n´ahodnou veliˇcinu obecnˇeji vztahem
75 Y = g(X1, X2 , . . . , Xn ) (tj: Y (ω) = g(X1 (ω), X2(ω), . . . , Xn (ω)), kde g je re´aln´a funkce n promˇenn´ych takov´a, ˇze Y = g(X1 , . . . , Xn ) je n´ahodn´a veliˇcina na jevov´em poli (Ω, A). Lze uk´azat viz [3], ˇze souˇcet, souˇcin, rozd´ıl a pod´ıl (pokud je definov´an) n´ahodn´ych veliˇcin definovan´ych na (Ω, A) je opˇet n´ahodn´a veliˇcina definovan´a na (Ω, A). Dalˇs´ım c´ılem bude naj´ıt distribuˇcn´ı funkci transformovan´e n´ahodn´e veliˇciny Y = g(x), kdyˇz zn´ame distribuˇcn´ı funkci n´ahodn´e veliˇciny X nebo obecnˇeji, naj´ıt distribuˇcn´ı funkci transformovan´e n´ahodn´e veliˇciny Y = g(X1 , . . . , Xn ), kdyˇz zn´ame distribuˇcn´ı funkce F1 (x), F2 (x), . . . , Fn (x) n´ahodn´ych veliˇcin X1 , . . . , Xn . Vyjdeme nejdˇr´ıve z jednoduˇsˇs´ı situace, kdy Y = g(X). Pak distribuˇcn´ı funkci transformovan´e n´ahodn´e veliˇciny Y znaˇc´ıme FY (y) a vypoˇcteme ji pomoc´ı rozdˇelen´ı pravdˇepodobnosti PX . Postupnˇe dostaneme FY (g) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ∈ By ) = PX (By ), kde By = {x : g(x) ≤ y}. Je-li By interval nebo sjednocen´ı interval˚ u pak je v´ypoˇcet jednoduch´y. Obecn´y pˇr´ıpad m˚ uˇze b´yt komplikovanˇejˇs´ı. V´ypoˇcet osvˇetl´ıme na pˇr´ıkladˇe. Pˇ r´ıklad 5.2 Pˇredpokl´adejme, ˇze n´ahodn´a danou pˇredpisem 0 pro F (x) = x pro 1 pro
veliˇcina X m´a distribuˇcn´ı funkci F (x) x ≤ −1 −1<x<1 x ≥ 1.
Naleznˇete distribuˇcn´ı funkci n´ahodn´e veliˇciny Y = X 2 . ˇ sen´ı: Oznaˇcme FY (y) = P (Y ≤ y) distribuˇcn´ı funkci n´ahodn´e veliˇciny Y. Pak Reˇ postupnˇe dostaneme FY (y) = P (Y ≤ y) = P (X 2 ≤ y). Protoˇze X 2 ≥ 0 plat´ı: pro y < 0 : FY (y) = P (X 2 ≤ y) = 0 a pro y ≥ 0 dostaneme pomoc´ı vlastnost´ı distribuˇcn´ı funkce VDF5 a VDF6 FY (y) = P (X 2 ≤ y) = P (|x| ≤
√
√ √ y) = P (− y ≤ X ≤ y) =
√ √ √ = P (X = − y) + P (− y < X ≤ y) = √ √ √ √ = F ( y) − F (− y) + F (− y) − limt→−√y F (t) = F ( y) − limt→−√y F (t). √ √ Je-li y ≥ 1, je y ≥ 1 a − y ≤ −1 a √ FY (y) = F ( y) − limt→−√y F (t) = 1 − 0 = 1
76 √ √ √ Je-li 0 ≤ y ≤ 1 plat´ı tak´e −1 ≤ ± y ≤ 1 pak F ( y) = y a limt→−√y F (t) = √ √ √ √ √ √ F (− y) = − y. Odtud FY (y) = F ( y) − limt→−√y F (t) = y − (− y) = 2 y. Celkem dost´av´ame 0 √ FY (y) = 2 y 1
pro y < 0 pro 0 ≤ y ≤ 1 pro y > 1.
Nalezen´ı distribuˇcn´ı funkce transformovan´e n´ahodn´e veliˇciny Y = g(X1 , X2 , . . . , Xn ) je u ´ loha komplikovanˇejˇs´ı. Tuto u ´ lohu budeme v obecn´em pˇr´ıpadˇe ˇreˇsit pozdˇeji, aˇz budeme mluvit o sdruˇzen´ych rozdˇelen´ıch pravdˇepodobnosti. Zde se budeme vˇenovat jednoduˇsˇs´ımu pˇr´ıpadu, c´ılem bude stanovit rozdˇelen´ı pravdˇepodobnosti Y pomoc´ı distribuˇcn´ı funkce F1 (x), . . . , Fn (x) n´ahodn´ych veliˇcin X1 , . . . , Xn pouze ve speci´aln´ım pˇr´ıpadˇe, kdyˇz n´ahodn´e veliˇciny X1 , X2 , . . . , Xn jsou nez´avisl´e. Proto budeme nez´avislost n´ahodn´ych veliˇcin nejdˇr´ıve definovat. ˇ Definice 5.2 Rekneme, ˇze n´ahodn´e veliˇciny X1 , X2 , . . . , Xn definovan´e na pravdˇepodobnostn´ım prostoru (Ω, A, P ) jsou nez´ avisl´ e, jestliˇze pro libovoln´a re´aln´a ˇc´ısla x1 , x2 , . . . , xn plat´ı, ˇze jsou nez´avisl´e n´ahodn´e jevy [X1 ≤ x1 ], [X2 ≤ x2 ], . . . , [Xn ≤ xn ]. Jsou-li X1 , X2 . . . , Xn nez´avisl´e n´ahodn´e veliˇciny lze uk´azat, ˇze tak´e n´ahodn´e jevy [X1 ∈ I1 ], [X2 ∈ I2 ], . . . , [Xn ∈ In ] jsou nez´avisl´e pˇri libovoln´e volbˇe interval˚ u I1 , I2 , . . . , In a dokonce, ˇze jsou nez´avisl´e n´ahodn´e jevy [X1 ∈ B1 ], [X2 ∈ B2 ], . . . , [Xn ∈ Bn ] pro libovoln´e borelovsk´e mnoˇziny B1 , B2 . . . , Bn (viz [13]). Pak lze distribuˇcn´ı funkci FY (y) transformovan´e n´ahodn´e veliˇciny Y = g(X1 , X2 , . . . , Xn ) napsat ve vztahu FY (y) = P (Y ≤ y) = P (g(X1, X2 , . . . , Xn ) ≤ y) a k v´ypoˇctu pravdˇepodobnosti uveden´e na prav´e stranˇe lze v nˇekter´ych situac´ıch vyuˇz´ıt vlastnosti funkce g a nez´avislosti n´ahodn´ych veliˇcin X1 , X2 , . . . , Xn . Obecn´y pˇr´ıstup pro stanoven´ı t´eto pravdˇepodobnosti uvedeme pozdˇeji. Zde uk´aˇzeme pouze ilustrativn´ı pˇr´ıklad. Pˇ r´ıklad 5.3 Pˇredpokl´adejme, ˇze n´ahodn´a veliˇcina T ud´av´a dobu ˇcek´an´ı na prvn´ı pojistnou ud´alost i-t´eho pojiˇstˇence, Ti m´a distribuˇcn´ı funkci ( 1 − e−3t pro t > 0 Fi (T ) = P (Ti ≤ t) = 0 pro t ≤ 0
pro i = 1, 2, . . . , n a doby ˇcek´an´ı T1 , T2 , . . . , Tn povaˇzujeme za nez´avisl´e. Oznaˇc´ıme T(1) = min{T1 , T2 , . . . , Tn } nejkratˇs´ı dobu ˇcek´an´ı na prvn´ı pojistnou ud´alost mezi vˇsemi pojiˇstˇenci a T(n) = max{T1 , T2 , . . . , Tn } nejdelˇs´ı dobu ˇcek´an´ı na prvn´ı pojistnou ud´alost mezi vˇsemi pojiˇstˇenci. Stanovte distribuˇcn´ı funkce n´ahodn´ych veliˇcin T(1) a T(n) .
ˇ sen´ı: Pro distribuˇcn´ı funkci F(1) (t) n´ahodn´e veliˇciny T(1) a T(n) dostaneme s Reˇ vyuˇzit´ım nez´avislosti n´ahodn´ych veliˇcin T1 , T2 , . . . , Tn a pomoc´ı vlastnosti skupinovˇe
77 nez´avisl´ych jev˚ u SN3 F(1) (t) = P (T(1) ≤ t) = P (min{T1 , T2 , . . . , Tn } ≤ t) = = P ([T Sn1 ≤ t] ∪ [T2 ≤ t] ∪ . . . ∪ [Tn ≤ t]) = = P ( i=1 [Ti ≤ t]) = = 1 − ⊓ni=1 (1 − P (Ti ≤ t)) = = 1 − ⊓ni=1 (1 − Fi (t)) Odtud pro t ≤ 0 dostaneme Fi (t) = 0 a F(1) (t) = 0. Pro t > 0 je Fi (t) = 1 − e−3t a po dosazen´ı dostaneme F(1) = 1 − ⊓ni=1 (1 − (1 − e−3t )) = 1 − e−3nt Podobnˇe pro distribuˇcn´ı funkci F(n) (t) n´ahodn´e veliˇciny T(n) dostaneme uˇzit´ım definice nez´avislosti n´ahodn´ych veliˇcin T1 , . . . , Tn : F(n) (t) = P (T(n) ≤ t) = P (max{T1 , T2 , . . . , Tn } ≤ t) = = P ([T1 ≤ t] ∩ [T2 ≤ t] ∩ . . . ∩ [Tn ≤ t]) = = P (T1 ≤ t) · P (T2 ≤ t) · . . . · P (Tn ≤ t) = F1 (t) · F2 (t) · . . . · Fn (t) = = (1 − e−3t )n pro t > 0 a F(n) (t) = 0 pro t ≤ 0
78
Literatura [1] Andˇel, J.: Statistick´e metody. Matfyzpross. Praha 1993. ˇ a Oseck´y, P.: Popisn´a statistika. MU Brno, 2001. [2] Bud´ıkov´a, M., Mikol´aˇs, S. ISBN 80-210-1831-3. [3] Dupaˇc, V. a Huˇskov´a, M.: Pravdˇepodobnost a matematick´a statistika. UK v Praze, Nakladatelstv´ı Karolinum, Praha 1999. ISBN 80-246-0009-9. [4] Fiss, M:: Rachunek prawdopodobie´ nstwa Warszawa. PWN 1967.
i statystyka
matematyczna.
[5] Gnˇedˇenko, B. V.: Kurs t´eorii verojatnostˇej. Moskva 1954. (rusky) [6] Hanousek, J., Charamca, P.: Modern´ı metody zpracov´an´ı dat - matematick´a statistika pro kaˇzd´eho. GRADA a. s. Praha 1992 ISBN 80-85623-31-5. ˇ Praha, 1993. [7] Heb´ak, P.: Rozhodov´an´ı podnikatel˚ u pˇri riziku VSE ˇ [8] Jarn´ık, V.: Diferenci´aln´ı poˇcet I. NCSAV. Praha, 1963. [9] Kolmogorov, A. N.: Grundbegriffe der Wahrscheinlichkeitsrechnung. SpringerVerbag, Berlin, 1933. [10] Likeˇs, J. a Machek, J.: Poˇcet pravdˇepodobnosti. SNTL Praha 1981. [11] Lord, W.: Die Titanic Katastropphe. M¨ unchen: Heyene Verbung 1998 [12] McClave, J. T. and Dietrich, F. H.: Statistics. Dellen Publishing Company. San Francisco, 1991. Fifth edition. ´ [13] Mich´alek, J.: Uvod do teorie pravdˇepodobnosti a matematick´e statistiky. SPN Praha, 1984. [14] Mises von, R.: Mathematical Theory of Probability and Statistics. Edited and complemented by H.Geiringer. New York and London. Acad. Press 1964. ISBN 0-02-379185-3. [15] Nov´ak, I. a kol.: Statistika v obchodˇe. SNTL Praha 1973. 79
80 ˇ ak, J. a Reh´ ˇ akov´a B.: Anal´yza kategorizovan´ych dat v sociologii. Academia [16] Reh´ ˇ Praha, 1993. Praha.1986 VSE [17] Swoboda, H.: Modern´ı statistika. Svoboda, Praha 1974. [18] Tutubatin, V. N.: Teorie pravdˇepodobnosti. SNTL praha, 1978. [19] Wonnacot T.H., Wonnacot R.J.: Statistika pro obchod a hospod´aˇrstv´ı. Victoria Publishing. Praha ISBN 80-85605-09-0.