Historie pravděpodobnosti a statistiky Popisná statistika Obsah kapitoly
Tato kapitola je věnována z části historii pravděpodobnosti a statistiky a ve druhé části základním statistickým pojmům. 1. Formulace statistického šetření
Studijní cíle
Seznámit se s historií pravděpodobnosti a statistiky. Porozumět základním statistickým pojmům.
Doba potřebná ke studiu
Základní text 1 hod. Příklady také 1 hod. Rozšiřující text ¼ hod.
Pojmy k zapamatování
Hromadný náhodný jev Statický soubor Rozsah statistického souboru Statistická jednotka Statistický znak Hodnota statistického znaku Základní statistický soubor Náhodný výběr Výběrový statistický soubor
Úvod
Termín statistika je odvozen od latinského slova status, které v latině znamená stav a v přeneseném slova smyslu stát. Z těchto uvedených termínů vznikla v období 16. až 17. století italská slova státistico, což znamená statistický nebo také statistik a státística, tj. statistika. Tento termín tehdy představoval souhrn znalostí o státních záležitostech a rovněž znamenal velmi ceněné muže statistiky, kteří byli výbornými znalci důležitých státních záležitostí.
Výkladová část
Počátky pravděpodobnosti, jako empirické vědy možná spíše hledáme, než nalézáme v hrách, z nichž patrně nejstarší jsou hry v kostky. Prvním hracím nástrojem byla zřejmě hlezenní kost ovcí a koz, která má tvar nepravidelného šestistěnu a po hození může zaujmout čtyři různé polohy (viz. Obr.). Archeologické nálezy v lidských sídlištích z doby před 40 000 let dokládají, že se patrně hrálo již tehdy. Nejstarším typem hry mohla být pouhá ekvilibristika spočívající v nadhazování a chytání kůstek hřbetem ruky. Na egyptských malbách z doby I. dynastie (3500 let př. Kr.) se kostka objevuje jako pomůcka v deskových hrách. Dochovaly se i celé hrací soupravy pro hry Senet a Psi a šakali, což jsou jisté obdoby dnešních
vrhcábů. Kostky se šesti hracími stěnami se nejprve zhotovovaly zbroušením hlezenních kůstek, ale ty se pak brzy ohrály. Ke hrám nebo možná k věštění se používaly také krátké tyčinky opatřené čísly, nebo s odpovídajícím počtem vrypů, případně runami, a to v Anglii kolem počátku našeho letopočtu a také u Mayů. O popularitě kostek v Řecku svědčí to, že byly častým motivem umělecké tvorby, dostaly se dokonce i na platidla. Také v Římské říši bylo značné rozšíření hry v kostky; dosvědčují to nástěnné mozaiky hráčů nalezené na stěnách domů v Pompejích. Rájem her v kostky byla zřejmě i starověká Indie. Přes uvedenou všeobecnou rozšířenost her v kostky však zatím nikde nebyla nalezena zmínka o relativní četnosti vrhů určitých čísel či jejich kombinací. Naopak bodování na hlezenních kůstkách přiřazuje nejnižší bodovou hodnotu vrhu s nízkou relativní četností. V historických dobách měla společnost ke hrám vztah negativní. Nářek nešťastného hráče v kostky (v Indii se používaly a doposud používají oříšky stromu vibhidaka), který svou vášní ztratil všechno, zničil svou rodinu a je v opovržení u všech příbuzných lze najít v Ridgvédě, nejstarší z indických Véd.: „Sotva ty hnědé oříšky zachřestí a padnou, běžím jim vstříc, jak zamilovaná dívka… Ač samy bez rukou pevně svírají otěže nad těmi, co je mají… Jak kouzelné uhlíky, ač chladné, v popel obrátí hráčovo srdce.“ V Bibli se kritika hráčských vášní nevyskytuje z prostého důvody, byly totiž explicitně zakázány. V Evropě se hra v kostky udržela v masové oblibě od římských dob až do renesance, kdy byla zčásti vytlačena kartami, přitom však docházelo ke kritice a zákazům, jak ze strany církve, tak i státu. Hraní kostek bylo omezeno jen na určitou dobu (kolem svátků na konci roku v Římě), jindy byly zcela zakázány (ve Francii Ludvíkem IX. Svatým, v Anglii Jindřichem VIII.), potírala je i církev v kázáních i na koncilech. A křižáci ji měli v předpisech povolenou jenom proto, aby se z nečinnosti nevěnovali jiným neřestem. Bojovníci nižší úrovně než rytíři o peníze hrát nesměli vůbec a rytíři a duchovní nesměli prohrát více než 20 šilinků za 24 hodin. Při oblibě her založených na náhodě je s podivem, že jim odpovídající teorie pravděpodobnosti se objevuje teprve v 17. století. Její počátek je obecně spojován se jmény Blaire Pascala a Pierra Fermata, kteří problémy týkající se hry v kostky a dělení sázky v roce 1654 řešili ve své korespondenci. První publikací byla ovšem krátká práce Huyghensova v roce 1665. Jedním z vysvětlení je, že hráči dávali přednost spoléhání na štěstí, před zkoumáním neúprosných zákonitostí. P. R. de Montmort píše ve své knize Esej o analýze hazardních her: „Obecným principem této pověrčivosti je připisování dobra i zla a všeho, co se v tomto světě děje osudové síle, která se neřídí žádným řádem a pravidly. Věří, že je třeba uchlácholit tuto slepou sílu, kterou
nazývají štěstěnou a donutit ji, aby jim byla příznivá a řídila se pravidly, která pro ni vymysleli.“ Hry ovšem nebyly jediným uplatněním náhodných jevů: byly využívány také k věštbám u Řeků, Římanů i Germánů. Obdobu věštění můžeme nalézt v dnešní době na stránkách internetu (Tarot, Runy, I – Ťing). Populární bylo věštění z Vergilia: Aeneida, byla otevřena na náhodné stránce, poslepu vybrán řádek a interpretován. U křesťanů byla (a možná stále je) k podobným účelům používána Bible. Skutečně pravděpodobnostní úvahy se však vyskytují v tóře a v rabínské literatuře. Náhoda je tam využívána jako prostředek k řešení nejednoznačných situací, přičemž její rozhodnutí bylo považováno za vyjádření boží vůle ve věcech podstatných a za nestranný soud v záležitostech denního života. V liturgii i pro nalezení práva bylo nejvíce rozšířeno losování z urny (dělení majetku, dědictví). Losem se řídily také zvířecí oběti, služby v chrámu a dělení masa obětovaných zvířat mezi sloužící kněžstvo. Povolení neprovádět obřízku, když předchozí novorození chlapci v důsledku obřízky zemřeli, kdy je počet zemřelých tak velký, že se jedná o mor atd. Vidíme tedy, že uplatnění pravděpodobnosti mimo hry je daleko starší a stojí za úvahu se zamyslet, kolik rozhodujících momentů historie (ztracených bitev a neúspěšných tažení, dynastických sporů,…) bylo způsobeno neočekávanými výkyvy počasí nebo propuknutím epidemie. První známou ucelenou prací o počtu pravděpodobnosti je dílo Ars conjectandi, což v češtině znamená umění předvídat, od švýcarského matematika Jacoba Bernoulliho (1654 – 1705) Dnes používaný BMI (Body Mass Index) zavedl již Quetelet (1796 – 1874), jako index tělesné váhy a označoval jím úředně stanovenou obezitu (QI > 30) V průběhu 17. a 18. století dostávala slova statistický, statistika a statistik postupně mezinárodní smysl. Od poloviny 18. století bylo slovo statistika především v Německu používáno namísto dříve preferovaného termínu státověda die Staatswissenschaft. Toto slovo označovalo cyklus přednášek na univerzitách, které se zabývaly obyvatelstvem, územím obchodem peněžnictvím, armádou apod. jednotlivých států. Uvedená univerzitní statistika představovala především slovní popis, použití čísel bylo zpočátku zcela výjimečné. Vzniku slova statistika předcházelo úřední zjišťování počtu lidí a velikosti jejich majetku. Takováto úřední zjišťování se prováděla již před několika tisíci lety a docházelo k nim zejména v těch zemích, které potřebovaly znát zejména např. přesné počty mužů schopných bojovat nebo počty osob schopných a povinných platit daně. Takováto zjišťování se v průběhu let neustále zdokonalovala až po současnou podobu sčítání lidu, která jsou organizována a prováděna současnými statistiky ve všech kulturních zemích světa přibližně každých deset let.
V 17. století, kdy se v Itálii a v Německu začala utvářet univerzitní statistika, se v Anglii, která byla hospodářsky vyspělejší, zabývá John Graunt (1620 – 1674) a William Petty (1623 – 1687) zkoumáním společenských jevů na podkladě objektivních číselných záznamů. Jednalo se o zjišťování a zkoumání počtu obyvatel, složení rodin, pravidelností v rození a umírání. Objevili např., že se rodí o něco více chlapců než dívek, že umírá více mužů než žen nebo, že ve městech umírá více lidí, než se jich tam narodí apod. Dalším předmětem jejich zájmu bylo zjišťování a zkoumání pravidelností ve výši příjmů obyvatel podle jednotlivých povolání atd. Hlavním nástrojem těchto badatelů bylo číselné charakterizování jevů. Šlo přitom o obyvatelstvo jako celek, o pravidelnosti v narozeních, úmrtích atd. John Graunt a William Petty zkoumali hromadné jevy, zkoumali tedy skutečnosti, které se neustále opakují. Postupy zkoumání hromadných jevů Johna Graunta a Williama Pettyho byly nazvány politickou aritmetikou. Důvodem pro tento název byla nejenom ta skutečnost, že se jedna z knih Williama Pettyho nazývala Politická aritmetika, ale především to, že jednak zkoumali jevy, které bylo možno po jejich zkoumání ovlivňovat a usměrňovat politicky státem, a jednak používali čísla k měření, vážení, počítání, neboli zkrátka aritmetiku při zkoumání a charakterizování hromadných jevů. Na základě záznamů o úmrtích a narozeních v některých městech prováděli podobné výpočty v Německu v 18. století Johann Peter Sűssmilch (1707 – 1767) i jiní. K ostrým střetům, ale i k vzájemnému obohacování znalostí začalo docházet posléze mezi politickými aritmetiky a univerzitními statistiky. V dalším vývoji se proto používají k charakterizování státních pozoruhodností, jako jsou území, obchod, peněžnictví, obyvatelstvo, armáda apod., stále více čísla. Sběr dat K tomu, abychom mohli provádět statistické šetření, potřebujeme data, ze kterých po zpracování statistickými metodami, získáme potřebné informace. Data je možné získat přímo (dotazníkovým šetřením, anketou, vlastním pozorováním,…) nebo je můžeme převzít z jiných zdrojů, jako je Český statistický úřad - http://www.czso.cz/, výroční zprávy podniků, články v tisku atd. My jsme provedli anketu. Studenti, kteří se v určitých dnech dostavili na přednášku, vyplnili pod pořadovými čísly svou váhu, výšku. Obdrželi jsme údaje o 97 studentech a studentkách. Ze souboru dat jsme si vybrali pouze údaje o ženách, kterých je 46 a ty budeme dále zpracovávat (stejně tak jsme si mohli vybrat údaje o mužích). Informaci jsou uvedeny v následující tabulce: č.
výška 1 2 3 4
váha č.
168 98 170 72 165 82 164 120
výška 21 22 23 24
167 168 173 173
váha č.
167 168 173 173
41 42 43 44
výška váha
168 176 158 170
64 57 51 80
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
180 71 173 64 165 83 163 79 160 82 164 106 157 64 170 60 172 60 164 78 175 60 165 78 168 85 161 56 177 65 176 63
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
167 166 171 158 170 163 168 162 165 170 176 164 164 151 167 167
167 166 171 158 170 163 168 162 165 170 176 164 164 151 167 167
165 185
45 46
94 68
Nyní si objasníme základní pojmy, se kterými se při statistickém zpracování dat pracuje. 1. Formulace statistického šetření Hromadný náhodný jev HNJ je jev, který se vyskytuje mnohokrát a neustále se může opakovat. Existují dva typy hromadných jevů. První typ spočívá ve velkém počtu opakovaných pozorování. (100x hodím jednou kostkou) Druhým typem hromadného jevu je nějaká vlastnost množiny, která se skládá z velkého počtu prvků. (hodím 100 kostek naráz) Vyzkoušejte si
Vezměte si minci a zkuste si hodit 10x touto mincí. Zapisujte si, kolikrát padne panna a kolikrát padne orel. Tento pokus několikrát zopakujte.
V tabulce je zobrazeno 10 takových sad po 10 hodech mincí. Vidíme, že poměr P:0 (panna: orel) se vyskytuje od hodnoty 3:7 až po 8:2. V takto malém souboru můžeme obdržet libovolný výsledek (třeba i 10:0). Sečteme-li však dvě sady hodů (tedy 20 hodů) dohromady, rozdíly už nejsou tak veliké a pro všech 10 sad (100 hodů) jsme obdrželi poměr 51:49, což se blíží teoretické pravděpodobnosti 50:50.
1
2
3
4
5
6
7
8
9
10
Poměr P:O 10 20
Hod Sada 1 P P O P O P P O P O
6:4
2
4:6
P P P O O O O P O O
10:10
100
3
O P O O P P O O O O
3:7
4
O O P O P P P O P O
5:5
5
O O O P P O O P O P
4:6
6
P P O O P P P O O P
6:4
7
P P O P O P O O O P
5:5
8
P O P O O O P P O P
5:5
9
P P P P O O P P P P
8:2
10
O O P P O O P P O P
5:5
8:12 10:10 10:10 13:7
51:49
Deset sad po deseti hodech mincí Z našeho pokusu vyplývá, že pro statistické šetření je potřeba vycházet z dostatečného množství pozorování. Na základě zkušeností lze konstatovat, že jakmile je uvažován soubor 30 a více prvků, můžeme již hovořit o hromadných jevech. Statistická jednotka (SJ) je vymezena stejnými vlastnostmi prvků zkoumané množiny. (studentka VŠFS) Statistický znak (SZ) je dán některou z odlišných vlastností prvků zkoumané množiny. (výška, váha studentky) Hodnota statistického znaku (HSZ) je způsob popisu zkoumaného statistického znaku. (170 cm) Základní statistický soubor (ZSS) je dán všemi statistickými jednotkami, jeho rozsah je roven počtu všech statistických jednotek. (všechny studentky VŠFS) Obvykle není v praktických možnostech statistiků zkoumat statistický znak (SZ) u všech statistických jednotek (SJ) a je nutno přistoupit k omezení počtu SJ. (ZSS je značně rozsáhlý - asi by se nám nepodařilo získat data úplně od všech studentek, pokud přece ano, tak by to bylo finančně i časově nákladné.) V některých statistických šetřeních dochází navíc ke zničení zkoumané SJ např. zkoumání životnosti baterie, z tohoto důvodu není možné testovat celou výrobu, ale pouze malou část. Náhodný výběr (NV) je omezení počtu zkoumaných statistických jednotek takovým způsobem, aby bylo možné přenášet získané výsledky na celý základní statistický soubor. Existují rozmanité způsoby náhodného výběru (losování, generování tabulkou náhodných čísel, záměrný výběr,…). Je potřebné ověřovat, zda je
možno získaný výběr považovat za náhodný. Výběrový statistický soubor VSS je dán těmi statistickými jednotkami, které byly vybrány ze základního statistického souboru procesem náhodného výběru. (Studentky, které se dostavily na příslušné semináře.) Rozsah VSS je roven počtu vybraných statistických jednotek. (46 studentek n = 46) Výběrový statistický soubor VSS je jednorozměrným, je-li u něj zkoumán jen jeden statistický znak, vícerozměrným, je-li zkoumáno více statistických znaků. (výška, váha - dvourozměrný statistický soubor)
Rozšiřující text
Za zrod moderní matematické teorie pravděpodobnosti je považována korespondence mezi francouzským matematikem Blaisem Pascalem (1623 – 1662) a Pierrem Fermatem (1601 – 1665) v 17. století. Nastínění problému: Opakovaně házíte kostkou a chcete, aby alespoň jednou padla např. 6. Jaké jsou vaše šance? Hodíte-li jednou? Hodíte-li čtyřikrát? Mnoho lidí si myslí, že je to 4/6 Pravděpodobnost, že 6 nepadne při jednom hodu je 5/6. 5 5 5 5 . . . = 0 , 48225
Při čtyřech hodech je 6 6 6 6 Pravděpodobnost, že padne je tedy 1-0,48225, což je 51,8% Ve Francii sedmnáctého století vydělával mazaný hráč jménem Antoine Gombaud, rytíř de Méré, pěkné částky tím, že se s lidmi sázel, že při čtyřech hodech kostkou padne alespoň jedna šestka. Zákon velkých čísel mu při dlouhodobém provozování zajišťuje zisk. Pak se snažil sázku upravit tak, že při 24 hodech dvěma kostkami padne alespoň jednou dvojice šestek. Uvažoval takto: pravděpodobnost, že padne dvojice šestek je 1/36, bude házet 24 krát a 24/36=4/6, budou pravděpodobnosti v obou hrách stejné a on bude dále vyhrávat. Správná hodnota je 1-(35/36)24 = 0,4914 tj. 49,1%, takže chudák rytíř začal prodělávat (opět zákon velkých čísel). Zmatený de Méré se obrátil na Pascala, který problém pak diskutoval v korespondenci s Fermatem.
B. Pascal
P. Fermat
Čerpáno z knihy Zasažen bleskem od Jeffrey S. Rosenthala Shrnutí
Seznámili jsme se s počátky pravděpodobnosti a statistiky. Vymezili jsme si základní statistické pojmy. Hromadný náhodný jev Statický soubor Rozsah statistického souboru Statistická jednotka Statistický znak Hodnota statistického znaku Základní statistický soubor Náhodný výběr Výběrový statistický soubor
Kontrolní otázky a úkoly
V tabulce jsou údaje o 30 domácnostech x1…měsíční výdaje domácnosti na potraviny v Kč x2…počet členů domácnosti x3…průměrný věk vydělávajících členů domácnosti x4…typ vlastnictví bytu (N-nájemní, V-vlastní, D-družstevní) i …symbol vyjadřující číslo řádku Proveďte formulaci statistického šetření i 1 2 3 4 5 6 7 8 9 10 11 12 13
x-i1 1900 2600 1500 3200 2900 3700 4200 2100 1600 3400 3000 3500 3200
x-i2 2 2 1 4 4 5 6 2 2 4 4 4 5
x-i3 45 25 58 35 41 28 43 24 65 42 34 38 36
x-i4 N D N V D N N D D V D V D
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
2400 2500 2900 2200 1600 3100 2700 3200 3700 3600 2100 2700 3300 2900 4500 2200 2000
3 3 4 2 1 4 4 5 6 5 3 5 4 4 6 3 2
40 45 32 52 58 30 35 40 42 44 28 36 47 38 40 22 25
N V V N N D D V V D D N V D V N N
Seznam použitých zkratek
HNJ - Hromadný náhodný jev SS - Statický soubor SJ - Statistická jednotka SZ - Statistický znak HSZ - Hodnota statistického znaku ZSS - Základní statistický soubor NV - Náhodný výběr VSS - Výběrový statistický soubor
Studijní literatura
Bílková, D. – Budinský, P. – Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 2009. Cyhelský, L. – Souček, E.: Základy statistiky. EUPRESS, Praha 2009. Hindls, R. – Hronová, S. – Seger, J.: Statistika pro ekonomy. Professional Publishing, Praha 2004.
Odkazy
Český statistický úřad - http://www.czso.cz/ Jeffrey S. Rosenthal: Zasažen bleskem
Klíč k úkolům
x1…měsíční výdaje domácnosti na potraviny v Kč HNJ - Měsíční výdaje domácnosti na potraviny v Kč SJ – Jedna domácnost SZ – Měsíční výdaje domácnosti na potraviny v Kč HSZ – Částka v Kč ZSS – Všechny domácnosti v ČR VSS – 30 vybraných domácností x2…počet členů domácnosti HNJ - Počet členů domácnosti
SJ – Jedna domácnost SZ – Počet členů domácnosti HSZ – Hodnoty 1 až 6 ZSS – Všechny domácnosti v ČR VSS – 30 vybraných domácností x3…průměrný věk vydělávajících členů domácnosti HNJ - Průměrný věk vydělávajících členů domácnosti SJ – Jedna domácnost SZ – Průměrný věk vydělávajících členů domácnosti HSZ – Věk v letech ZSS – Všechny domácnosti v ČR VSS – 30 vybraných domácností x4…typ vlastnictví bytu (N-nájemní, V-vlastní, D-družstevní) HNJ - Typ vlastnictví bytu SJ – Jedna domácnost SZ – Typ vlastnictví bytu HSZ – N-nájemní, V-vlastní, D-družstevní ZSS – Všechny domácnosti v ČR VSS – 30 vybraných domácností