Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistika a ekonometrie
Autor bakalářské práce: Pavel Vrabec Vedoucí bakalářské práce: Ing. Prokop Závodský, CSc.
ROZVOJ STATISTICKÝCH METOD V ČESKY PSANÉ LITERATUŘE VE 20. LETECH 20. STOLETÍ
školní rok 2005/2006
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal.
V Praze dne 24. 5. 2006 ………………………………. podpis
2
ABSTRAKT
Cílem práce je seznámit čtenáře s rozvojem statistických metod v česky psané literatuře 20. let 20. století. K rozvoji statistiky na českém území přispěl nemalou měrou vznik a činnost Státního úřadu statistického, který podporoval praktickou i teoretickou statistickou činnost a vydávání statistických publikací, mezi nimiž byly v daném období zejména dvě významné statistické učebnice – překlad Yuleho „Úvodu do teorie statistiky“, spíše teoretického charakteru a původní česká učebnice Kohnovy „Základy teorie statistické metody“. V této práci se snažím stručným způsobem poskytnout čtenáři ucelený pohled na rozvoj statistických metod v česky psané literatuře 20. let 20. století na základě těchto dvou statistických publikací. Úvodní část pojednává o vývoji statistiky na českém území do vzniku Státního úřadu statistického, hlavní část pojednává o rozvoji statistických metod v česky psané literatuře v daném období a vývoji české statistické terminologie. Závěrem jsou uvedeny životopisy G. U. Yuleho a S. Kohna. ---------------------------------------------------------------------------------------------------------------------------------------------------------------------The main aim of the work is to provide the reader with the description of the developement of statistical methods in the czech written literature in the twenties of 20th century. The institution and activities of the State statistic office, which endorsed practical and teoretical statistical agency and publishing of statistical publication, among them the translation of Yule’s „Introduction to the theory of statistics“ and czech original statistical textbook Kohn’s „Basics of the theory of statistics“, greatly contributed to the developement of statistics in the czech lands. The intention of this work is to provide the reader with the brief and comprehensive sight to the developement of statistical methods in the czech written literature in the twenties of 20th century based on above mentioned statistical publication. The introduction part deals with the development of statistics in the Czech lands till the institution of the State statistic office, the main part gives a description of the developement of statistical methods in the czech written literature during the given period and the developement of the czech statistical terminology. Last there is mentioned a biography of both G. U. Yule and S. Kohn.
3
OBSAH:
1. Úvod …………………….……………………………………………………………. 5 2. Vývoj statistiky na českém území na přelomu 19. a 20. století ………………...… 7 2.1 Přehled vývoje české statistiky do vzniku Státního úřadu statistického ………. 7 2.2 Rozvoj české statistiky po zřízení Státního úřadu statistického do roku 1930 .. 10 2.3 Dobroslav Krejčí: Základy statistiky zvláště pro zemědělce a družstevníky – první česká učebnice statistiky ………………………..……. 13 3. Rozvoj statistických metod v česky psané literatuře 20. let 20. století ……...… 17 3.1 George Udny Yule: Úvod do teorie statistiky ………………………….…..…… 17 3.1.1 Teorie kvalitativních znaků ………………………………………………….… 21 3.1.2 Teorie kvantitativních znaků ………………………………………………….. 25 3.1.3 Teorie náhodného výběru …………………………………………………...… 30 3.2 Stanislav Kohn: Základy teorie statistické metody …………………………….. 34 3.2.1 Statistické popisování skutečnosti (idiografický úkon statistické metody) ……………………………………..… 38 3.2.2 Statistické zkoumání příčinných spojení (nomotetický úkon statistické metody) …………….………………………… 40 4. Vývoj české statistické terminologie …………………………………………...… 48 5. Závěr ………………………………………………………………………………... 49 5.1 Životopis G. U. Yule ……………………………………………………..………... 50 5.2 Životopis S. Kohn ………..………………………………………………………... 51 Prameny a literatura ………..…………………………………………………………. 52
4
1. Úvod Statistika jako obor lidské činnosti má ve světě své hluboké historické kořeny. Již ve starověku známe díky dochovaným písemnostem případy činnosti, která se dá nazvat statistickým konáním. Jednalo se zejména o různá sčítání lidu a bojeschopného obyvatelstva (starověký Izrael, Egypt, Mezopotámie, Řecko aj.), která postupně zahrnula i soupis majetku, vlastnictví či výroby (středověká Anglie, Německo aj.). V novověku se tato činnost dále rozvíjela a specializovala a nakonec i institucionalizovala. Historické kořeny pozdější, tzv. vědecké statistiky, kdy se statistika ustavila jako systémová analýza dat, spadají do 2. poloviny 19. století a lze je rozdělit na čtyři nejdůležitější části: úřední statistiku, univerzitní statistiku, teorii pravděpodobnosti a politickou aritmetiku. Ve své práci se v první části zaměřuji na vývoj statistiky na českém území v období jejích počátků až do konce 20. let 20. století, aby se čtenář mohl seznámit s historií statistiky na našem území, jejíž znalost je pro pochopení souvislostí, spojených s rozvojem statistických metod v česky psané literatuře velmi prospěšná. V tomto období byly vydány dvě významné publikace v oblasti statistiky, kterými byl překlad Yuleho „Úvodu do statistické teorie“1, vydaný roku 1926 (z podnětu Dr. Náhlovského, překladem JUDr. Mráze a PhDr. Nováka), a Kohnovy „Základy teorie statistické metody“2, vydané roku 1929. Obě jmenovaná díla přispěla významným způsobem k ustavení české statistické terminologie, která byla do té doby neustálená, zčásti pro nedostatek původní české literatury, zčásti proto, že české území nepatřilo mezi místa, kde se odehrávaly zásadní statistické diskuze. Protože statistické termíny vznikaly zpravidla překladem z cizího jazyka, překladatelé nebo autoři statistické literatury museli pečlivě uvážit, zda konkrétní statistický termín ponechat v jeho původní podobě nebo zda je možné jej přeložit vhodným výrazem tak, aby nedocházelo k nedorozumění a záměnám, a byl zachován jeho původní význam. Tato statistická díla rovněž přiblížila českému čtenáři statistiku jako vědní obor, opírající se zejména o matematiku. Ve své práci uvádím přehled a srovnání statistických metod převážně na základě 1
Yuleho „Úvod do statistické teorie“ vyšel v Čechách nákladem Státního úřadu statistického roku 1926. Vyplnil tak prázdné místo po kvalitní statistické učebnici, která do té doby nebyla v českém jazyce dostupná. 2 Kohnovy „Základy teorie statistické metody“, vydané rovněž nákladem Státního úřadu statistického, navázaly na úspěšný překlad Yuleho „Úvodu do statistické teorie“, a autor je doplnil o metodické poznatky zejména z neanglické oblasti. Jak je v předmluvě uvedeno, Kohn se zaobírá zejména metodami (matematickými) zpracování statistických údajů. Do té doby se statistické příručky věnovaly zejména sběru a třídění statistických údajů a jen v nepatrné míře jejich vědeckému zpracování.
5
těchto dvou publikací, které měly pro vývoj statistiky velký význam i s ohledem na pozdější vývoj. To je také důvodem, který mě vedl ke zpracování této práce. Vybrané téma mi také dalo příležitost seznámit se s několika hlavními přístupy ke statistice, s přístupem anglické statistické školy (představiteli byli např. Galon, Weldon, Pearson), jejíž postupy a výsledky, jako první soustavně uspořádal a shrnul G. Y. Yule ve svém „Úvodu do teorie statistiky“. Tyto přístupy, které přistupovaly ke statistice jako k metodologické vědě, dále obohatil S. Kohn ve svém díle „Základy teorie statistické metody“ o postupy významných ruských, německých, francouzských (např. A. A. Čuprov, L. J. Bortkiewicz) statistiků své doby. Přál bych si, aby čtenář, zajímající se zejména o počátky rozvoje statistické literatury v Čechách a statistiky jako metodologické vědy, našel v této práci stručný a užitečný přehled na zvolené téma – Rozvoj statistických metod v česky psané literatuře ve 20. letech 20. století.
---
6
2. Vývoj statistiky na českém území na přelomu19. a 20. století 2.1 Přehled vývoje statistiky do vzniku Státního úřadu statistického
Nejstarší údajová zjišťování spadající do oblasti statistiky lze vysledovat již z konce prvního tisíciletí. V průběhu následujících několika staletí se pořizovaly údaje o pozemkovém vlastnictví pro účely pozemkové daně, či jiná majetková zjišťování nebo soupisy obyvatel zpravidla pro účely branné povinnosti. Zjišťování se omezovala na prosté získání údajů, které se již dále nijak nezpracovávaly, ale využívaly se pro vyměření konkrétní povinnosti, kterou v sobě obnášela. Povinnost určovala zpravidla míra daňového zatížení. Významnou byla např. berní rola3 z roku 1654. Měla za úkol zjistit počet berních poplatníků a jejich majetek. Formuláře, do kterých byly údaje vkládány, členily majetek na několik druhů, později přibylo i oceňování kvality majetku. Berní rolu později nahradil rustikální katastr tereziánský, který vešel v platnost roku 1748. Byly prováděny i soupisy obyvatelstva. Při soupisu v roce 1754 bylo obyvatelstvo rozčleněno do jednotlivých panství, dle příslušných osad a podle věku i pohlaví. Později byly soupisy ještě doplněny údaji o počtu narozených, oddaných, zemřelých apod. Soupisy obyvatel byly vždy nařízeny úřední mocí. Mezi osobnosti, zabývající se statistikou, patřili Josef Antonín Riegger4 (17421795), který shromažďoval údaje o Čechách, které následně vydal v počtu 12 svazků pod názvem „Materialien zur alten und neuen Statistik in Böhmen“. V nich uvádí údaje o obyvatelstvu, majetku, povolání ale i řadu historických nebo kulturních údajů. V díle „Skizze einer statistischen Landeskunde Böhmens“ již uvádí metodicky zpracované údaje o populačních poměrech. Po vzniku Zemědělské společnosti v roce 1769, která byla roku 1788 přeměněna na C.k. Vlastenecko-hospodářskou společnost pro Království české, se další činnosti v oblasti statistiky ujal její tajemník František Fuss (1747-1805). Ten vydal publikaci o hospodářské statistice v Čechách pod názvem „Skizze einer ökonomisch-statistischen Landeskunde des Königreichs Böhmen“, kde do tabulek uvádí údaje o obyvatelstvu a výrobě. G. B. Schnabel (1791-1856) vydává v roce 1848 „Statistik der landwirtschaftlichen Industrie 3
Zajímavý byl postup zjišťování: základem byly přiznávací listy s instrukcemi pro vyplňování a byly stanoveny i postihy za nesprávná přiznání. Ustanovená komise pak osobním výslechem porovnávala správnost údajů na odevzdaných listech. D. Krejčí hodnotí roli za předchůdce novodobých soupisů obyvatel, ale i moderního katastru. 4 J.A.Riegger byl profesorem církevního a trestního práva, od r. 1778 guberniálním radou v Praze. Jeho úsilí znamenalo počátek soustavného shromažďování statistických údajů v Čechách.
7
Böhmens“, která podnítila vznik nového odboru v C.k. Vlastenecko-hospodářské společnosti. Tím se stal Ústřední výbor pro zemědělskou a lesnickou statistiku Čech, který měl první zasedání roku 1856. To je také datum, které se označuje jako počátek organizované statistiky v Čechách. Byly vypracovány pokyny pro organizaci a postup statistických šetření. Výkonným orgánem Ústředního výboru byla Statistická kancelář, a do jejího čela byl dosazen univerzitní profesor dr. E. A. Jonák5. Po něm se vedení ujal Dr. Karel Kořistka6. Kancelář se zabývala zejména statistikou polního a lesního hospodářství, o níž vydala 13 svazkové dílo tabulek, každoročně také vydávala zprávy o své činnosti. Návrhy na transformaci Statistické kanceláře v samostatnou instituci se realizovaly až roku 1897, kdy byl zřízen Zemský statistický úřad Království Českého.
Zemský úřad Království Českého se skládal z poradního orgánu – Statistické komise a výkonného orgánu – Statistické kanceláře. Bylo stanoveno 9 oblastí, které byly předmětem statistických šetření. Přednostou úřadu se stal prof. dr. Karel Kořistka a jeho nástupcem se stal roku 1905 dr. Dobroslav Krejčí7. Nejvýznamnějšími publikacemi byly „Statistické příručky Království Českého“, zabývající se společenskou, průmyslovou a zemědělskou statistikou Čech a „Zprávy Zemského statistického úřadu Království Českého“ o výsledcích statistických šetření. Údaje v publikacích byly vhodně opatřovány příslušnými komentáři. Zemský úřad vznikl také na Moravě v Brně a ve Slezsku v Opavě. Úřady řešily zejména úkoly, spadající do oblasti vnitřní zemské správy a pro svoje účely shromažďovaly statistické údaje. Vedle zemské statistiky fungovala také městská statistika. Ta se věnovala provádění statistiky na území vymezených obcí. Po ustavení Statistické komise se rozhodlo o vzniku Statistické kanceláře hlavního města Prahy (1870), později také Plzně (1890), oddělení v Brně (1896), a komise v Olomouci (1900). Zpracovávaly se zejména výsledky sčítání lidu a v pravidelných zprávách se uváděly výsledky o činnosti a hospodaření všech obcí. Byly vydávány statistické ročenky, obsahující např. údaje za místní sčítání, sociální, soudní a obchodní statistiku. 5
E. A. Jonák (1820-1879) byl profesorem statistiky na pražské univerzitě. Jeho stat. prací je nejvýznamnější učebnice „Theorie der Statistik“, vydaná ve Vídni r.1856. Významně se také zasloužil o organizování a zaměření prvního českého statistického orgánu – Statistické kanceláře Ústředního výboru pro zeměď. a lesnickou statistiku. 6 Karel Kořistka (1825-1906) byl profesorem matematiky a geodézie na Zemském polytechnickém ústavu v Praze. Organizoval přeměnu Statistické kanceláře v Zemský statistický úřad král. Českého, který po 8 let vedl a určoval zaměření jeho práce i formu a obsah vydávaných publikací. 7 Dobroslav Krejčí (1869-1936) absolvent pražské právnické fakulty, r. 1898 nastupuje do nově vytvořeného Zemského statistického úřadu král. Českého a od r. 1905 tento úřad vede až do jeho přeměny ve Státní úřad statistický v r. 1919. Zasloužil se o vydání zákona o statistice č.49/1919 Sb. Osvědčil se nejen v organizační činnosti, ale i v publikační sféře byl velmi činný, výsledkem je několik odborných prací o statistice, mezi nejznámější patří „Základy statistiky“ – první česká souborná teoretická a metodická práce o statistice.
8
Statistikou průmyslu a obchodu se na základě zákona č. 122/1850 ř.z. zabývaly obchodní a živnostenské komory. Měly shromažďovat data potřebná pro obchodní a živnostenskou statistiku a souhrnné výkazy každoročně předkládat ministerstvu obchodu. O situaci v zemědělství vypovídá rozsáhlá statistická anketa vydaná pod názvem „Výsledky šetření (agrární anketa) poměrů hospodářských i kulturních zemědělského obyvatelstva v království Českém v letech 1898 až 1900“, provedená ve 31 tehdejších krajích. Další statistické údaje můžeme najít i ve výročních zprávách pojišťoven, spořitelen aj. hospodářských a finančních ústavů a organizací. V Rakousko-uherské
monarchii došlo roku 1863 k založení C.k.
Ústřední
statistické komise, která navázala na již dříve působící C.k. Ředitelství správní statistiky. Komise shromažďovala statistické údaje o poměrech domácích a v zahraničí. Byly publikovány zejména statistické ročenky s údaji za celou monarchii. Statistikou větších měst se zabývala ročenka „Österreichische Städtebuch“, jejíž devátý ročník obsahuje údaje za Čechy, Moravu a Slezsko. „Österreichische Statistik“ je velkou pramennou edicí s podrobnými statistickými tabulkami a obvykle i s textovým zhodnocením zjištěných skutečností. Součástí publikační činnosti byly také výsledky pravidelných sčítání lidu v monarchii (první sčítání, které již mělo znaky moderního sčítání, proběhlo roku 1869). Významná byla také Konference pro zemskou statistiku8, která v monarchii proběhla v 90. letech 19. století a její jednání bylo na Moravě a ve Slezsku podnětem ke vzniku a rozvíjení činnosti Zemských statistických úřadů. Projednávaly se otázky rozsahu, kvality, formy statistiky, organizace statistické služby. Dohodlo se zavedení jednotných zásad při shromažďování a zpracování statistických údajů o činnosti autonomní správy. Statistické materiály rovněž v monarchii připravovala ministerstva (obchodu, financí, orby), při jednotlivých ministerstvech vznikaly také statistické úřady, které soustavně zveřejňovaly statistické údaje.
8
Konference pro zemskou statistiku byla organizována z podnětu moravského a slezského zemského výboru s cílem navázat styk s C.k. Ústřední statistickou komisí a ostatními korunními zeměmi a navrhnout svolání společné konference, jejíž cílem bylo sjednocení zpracování a sestavování statistických dat v různých korunních zemích. První zasedání se konalo r. 1894 ve Vídni a na závěr diskuse bylo přijato usnesení že „Je třeba usilovat o větší jednotnost a úplnost statistiky autonomní zemské zprávy…“ Hlavním úkolem Konference pro zemskou statistiku bylo především určování obsahu statistické ročenky autonomní zemské správy a stanovení základních výkazů a souhrnů pro zpracování statistických zjišťování. Jednotlivé zemské úřady se pak podílely na sestavování statistických ročenek.
9
2.2
Rozvoj české statistiky po statistického do roku 1930
zřízení
Státního
úřadu
V lednu roku 1916 byla v odborném časopise „Obzor národohospodářský“ otištěna stať dr. Dobroslava Krejčího nazvaná „Naše statistika po válce“. Zde autor nastolil tři požadavky budoucího rozvoje české statistiky: 1. pevný právní podklad, 2. jednotný plán statistických prací, 3. budování představy o užitečnosti řádné statistiky. Konkrétní požadavky se po válce začaly postupně realizovat. Přijetím zákona č. 49 z 28. ledna roku 1919 Sb. z. a n. O organizaci statistické služby, který představil profesor národního hospodářství Karel Engliš, vznikla Statistická rada státní jako poradní a usnášející sbor a Státní úřad statistický jako výkonný orgán. Státní úřad statistický (SÚS) tak plně nahradil dosavadní zřízení, kdy nejdůležitější obory statistiky byly soustředěny do Vídně, v rámci Rakouské monarchie a Zemské statistické úřady, zřízené v jednotlivých zemích monarchie (v Čechách vznikl roku 1897, na Moravě roku 1899, ve Slezsku roku 1898) měly jen omezenou působnost. Pražská Zemská kancelář disponovala již před první světovou válkou řadou významných osobností jako František Weyr, Jan Auerhan, Josef Mráz. Výsledky své práce každoročně publikovali ve Zprávách Zemského statistického úřadu království Českého. Již tehdy si byli vědomi potřeby zákonného vymezení větších pravomocí statistického úřadu a zavedení obecné statistické povinnosti, k němuž sice na Moravě došlo již roku 1914, ale fakticky významné bylo až přijetí zákona z roku 1919. Zemská statistická kancelář v Praze se transformovala9 do nového, podstatně většího úřadu s celostátní působností. Zpočátku bylo zapotřebí vydání vládních nařízení, která by stanovila statut Statistické rady státní a Státního úřadu statistického. Do nového úřadu byl předsedou jmenován Dobroslav Krejčí – „otec československé statistiky“, ten však po neshodách na svou funkci rezignoval. Novým předsedou byl jmenován roku 1920 František Weyr (1879–1951), profesor ústavního práva, se zkušenostmi ze Zemské statistické kanceláře v Praze i z vídeňské Ústřední statistické komise. 28. listopadu roku 1919 byl vládním nařízením vydán statut Statistické rady státní a rovněž statut SÚS. V radě působili zástupci ministerstev, ústředních úřadů, univerzit, technik i volení statističtí odborníci. Předsedal jim předseda Statistického úřadu. V radě se projednával plán státní statistiky, který byl poté závazný pro Statistický úřad i instituce a 9
Podle původní osnovy zákona navrženého D. Krejčím se počítalo se začleněním všech Zemských statistických úřadů, tedy nejen ZSÚ Království Českého, ale i ZSÚ Markrabství moravského v Brně a ZSÚ vévodství slezského v Opavě.
10
občany, na které se vztahovala statistická povinnost. První schůze se konala 24. března roku 1920. Státní statistický úřad se skládal ze 6 oddělení a prezidia a koncem roku 1919 měl na 220 zaměstnanců. Organizace úřadu byla prakticky dokončena roku 1921. Bohatá byla publikační činnost Statistického úřadu. Mezi významná pramenná díla patří Statistická příručka Republiky Československé (1920) a Československá statistika (1922). Od roku 1920 byl vydáván časopis Československý statistický věstník (předchůdce dnešní Statistiky). V době, kdy neexistovala česky psaná učebnice statistických metod, publikoval úřad obsáhlé referáty matematika Václava Lásky a Josefa Mráze. SÚS významně přispěl k vývoji statistické vědy u nás také tím, že jeho nákladem byl vydán zejména překlad Yuleho „Úvodu do teorie statistiky“ a Kohnových „Základů teorie statistické metody“.
Významnými osobnostmi Státního úřadu statistického byli zejména: Dobroslav Krejčí – zasloužil se zejména o vytvoření statistického zákonodárství a vhodný výběr předních pracovníků SÚS, na svou funkci předsedy SÚS ale kvůli neshodám rezignoval. František Weyr10 – nástupce po prvním předsedovi SÚS, předsedal schůzím, vedl porady a rozhodoval v personálních otázkách. Josef Mráz – viceprezident SÚS, vybudoval odbor hospodářské statistiky. Významně přispěl k rozvoji matematické statistiky u nás. Robert Kollar – měl zásluhy na organizační výstavbě SÚS, zabýval se zejména finanční statistikou. Antonín Boháč – byl přednostou populačního odboru a věnoval se demografické statistice, zasloužil se o úspěšnou organizaci prvního sčítání lidu v Československu (1921). Bohumír Hanosek – věnoval se statistice zahraničního obchodu. Josef Ryba – zakladatel naší cenové statistiky, v letech 1920-1922 zkonstruoval první indexy maloobchodních a velkoobchodních cen. Jan Náhlovský – přednosta pro statistiku politickou a správní.
10
František Weyr (1879-1951) se věnoval zejména vědecké a pedagogické činnosti v oblasti práva. Po krátkém působení ve Vídeňské statistické komisi přichází do Prahy jako koncipista Zemského statistického úřadu. V roce 1920 převzal na 10 let vedení Státního úřadu statistického.
11
V roce 1921 byla dokončena organizace Státního úřadu statistického. Následující léta rozvoje statistiky jsou spojena zejména s působením Státního úřadu statististického. Mezi nejdůležitější události patří sčítání lidu z 15. února roku 1921, jehož výsledky byly roku 1924 publikovány tiskem, začaly vycházet „Cenové zprávy SÚS Republiky československé“, kde se sledovaly velkoobchodní a maloobchodní ceny a indexy, indexy staveb, různé cenové přehledy, kurzy a indexy deviz, diskontní sazby apod. Statistika zahraničního obchodu se od roku 1922 prováděla na základě zákona č. 235/1922 Sb., o statistice zahraničního obchodu. Z odhadové metody se přešlo na metodu deklarační, při níž se statisticky šetřila i hodnota dováženého a vyváženého zboží na základě deklarace dovozců a vývozců. Začala také vycházet edice základních pramenných děl „Československá statistika“, a to až do roku 1951, celkem vyšlo 186 svazků. Roku 1924 byl zrušen Zemský statistický úřad pro Slezsko v Opavě, který vedl Karl Berthold. Vyšla druhá „Statistická příručka Republiky Československé“, uvádějící data z let 1918-1923, zabývající se oblastmi školství, zemědělství, zahraničním obchodem, sociální statistikou apod. Roku 1926 vychází v edici Mezinárodní zemědělské organizace FAO kniha D. Krejčího „La Statistique agricole en Tchécoslovaquie“, která udává informaci o odvětvích zemědělské statistiky u nás, o způsobech sběru dat a vývoj těchto statistik. Vychází také první statistická ročenka za území hlavního města Prahy (s údaji za rok 1921). V roce 1927 byl vydán zákon č. 47/1927 Sb. o sčítání lidu a Brněnský městský statistický orgán začal vydávat pravidelně „Statistické zprávy“.
12
2.3
Dobroslav Krejčí: Základy statistiky zvláště pro zemědělce a družstevníky – první česká učebnice statistiky
Statistická vysokoškolská učebnice D. Krejčího patří mezi první česky psané dílo tohoto zaměření, proto se mu budu věnovat trochu podrobněji. Zabývá se zejména zemědělskou statistikou a přestože její výklad se opírá převážně o slovní vyjádření, už se zde objevuje výklad jednodušších statistických metod jako výpočet poměrných čísel, průměrů, či znázornění výsledků pomocí grafických obrazců. V úvodu se zaobírá podstatou statistiky jako moderní vědy, historií sběru statistických dat, zaobírá se také metodou, technikou a prostředky, zaměřenými na statistické sčítání a dále je obohacuje o metody statistického odhadu. Dále se zabývá statistikou osevu, která je konkrétní aplikací statistiky v zemědělství. Předmětem statistiky je hromadný jev (např. obyvatelstvo), který se dá vyjádřit prostými čísly. Samotné číslo nelze nazývat statistikou, ale údaje za několik období, které lze srovnávat s jinými na stejné úrovni, již statistikou jsou. Statistiku chápe jako „pomocnici téměř všech věd, zejména popisných“. Po vymezení předmětu je možno přistoupit k práci na statistických metodách. Tou je v případě statistického sčítání vhodná formulace dotazníků a sčítacích lístků dle stanoveného statistického plánu a potřeba pečlivého zpracování. Po této části je možno užít statistické vědy k účelovému srovnávání výsledků za účelem poznání příčin a pravděpodobných důsledků stávajícího stavu. Rozdělení statistiky chápe jako A/ metodu statistickou a B/ vědu statistickou, kterou dále člení na formální a věcnou. Formální zahrnuje historii, teorii a techniku. Věcná se může členit např. na statistiku obyvatelstva, života hospodářského, života intelektuálního, života politického a života mravního. Význam statistiky spatřuje zejména v rozšíření vědomostí, jakožto podmínky pokroku v oblastech lidské činnosti, podmínku pro veřejnou správu a zákonodárství. Z historie statistiky ve smyslu metody zmiňuje systematický sběr statistických dat v dějinách lidstva až k pravidelným sčítáním v posledních stoletích. S tím spojené ustavování statistických orgánů v souvislosti s rozvojem statistiky v 19. století a jejich přerodem ze státních institucí na samostatné statistické úřady. S činností úřadů je spojené vydávání statistických publikací. V Čechách byl zákonem zřízen Státní úřad statistický,
13
jejímž předsedou byl jmenován právě Dobroslav Krejčí. Pojem statistika pochází i italského slova „statista“ – muž, vyznající se ve státním umění, z něhož se vyvinulo „statistica“ – jako disciplina. Podle tzv. německé školy statistické, lze chápat statistiku jako pouze popisnou, navíc většinou slovní. Jako základ současně chápané statistiky slouží však anglo-románská škola statistická, kde již pracuje s napozorovanými údaji, které byly zapisovány do tabulek. Otcem „novodobé“ statistiky je belgický matematik, fysik, astronom a statistik Adolf Quetelet (1796-1874), který se zabýval jevy v oblasti statistiky a hledal mezi nimi příčinnou souvislost. Díky němu byly stále více uplatňovány principy matematické statistiky. Z českých významných statistiků lze uvést A. J. Rieggera (1742-1795), Fr. Fusse (1747-1805), J. Schnabela (1791-1856), nebo K. Kořistku (1825-1906).
Technika a teorie statistiky
Statistické sčítání – sčítání, odhad a anketa
Sčítání se provádí vyčerpávajícím výběrem a dbá se na řádné provedení a zpracování. Podmínkou je dostatečně veliký počet případů, tzv. zákon velkých čísel, který zajišťuje bezpečnost správnosti výsledků. Jak velký má být počet případů, k tomu lze užít pomůcky, jako Poissonovu formuli, jejíž spolehlivost ověřil Čuprov na případu novorozenců. Dalšími podmínkami sčítání je jeho úplnost, zamezení dvojího (duplicitního) sčítání a časová jednotnost sčítání. Rozlišují se zde statistické znaky kvalitativní a kvantitativní. Příprava sčítání zahrnuje plán, který vymezuje předmět, sčítací jednotku, věcný rozsah šetření, rozhodnou dobu, území, výkonné orgány, způsob sčítání (užívá se dotazníků), vhodné prostředníky a dobu a lhůtu sčítání. Plán se musí opírat o příslušný právní základ. Vlastní sčítání se provádí podle plánu, s dodržováním všech pokynů. Kontrola správnosti údajů se člení na věcnou (obsahová správnost) a formální (zda jsou splněny náležitosti dle předpisů). Metody technického zpracování statistického materiálu – úkolem je data vhodně roztřídit, soustavně sdružit a seřadit v přehledné výkazy. Vhodné je sestavení plánu zpracování, který vymezuje orgány (které provádějí zpracování), věcný rozsah (vhodné
14
rozdělení údajů do skupin, kombinace udajů), místní a časová podrobnost (teritoriální jednotka), způsoby (metody) technického zpracování: a/ prosté sestavení údajů do tabulek; b/ kombinace údajů v tabulce, c/ čárkovací metoda, d/ metoda skládací (štítků), e/ strojová metoda f/ metoda nalepování známek; a časové pořadí jednotlivých částí zpracování. Přípravy k provedení plánu spočívají v pečlivé přípravě tabulek, jejích náležitostech a přehlednosti. Analýza výsledků sčítání pro účely veřejnosti i vědeckého rozboru. Podmínky rozboru spočívají ve znalosti předmětu, způsobu získaného materiálu, nestrannost, reálnost a umírněnost. Užívá se logika, srovnávání, hledají se příčinné souvislosti. Technické pomůcky při rozboru jsou: 1/ Poměrná čísla (pro srovnávání: zejména procenta %, promile o /oo) , 2/ Statistické řady (vysledování jejich souvztažnosti, korelace), 3/ Střední veličiny statistické (průměr – aritmetický, zvážený, geometrický, harmonický, statistický střed – průměr z krajních hodnot řady, modus – nejčastější veličina, medián – prostřední veličina, dále kvartily, decily, percentily). Úkolem těchto veličin je zhustit statistickou řadu do jednoho čísla, které je vhodné pro srovnávání. 4/ Ukazatelé (indexní čísla – pro rozbor statistiky cen, koeficienty – úmrtnosti, nemocnosti), 5/ Grafika – statistické obrazce, sloužící k vizuálnímu přehledu statistických výsledků (kartogramy – mapy, zobrazující intenzitu jevu dle stanovené škály, diagramy – grafické obrazce, umožňující srovnávání i kombinování řady zjevů, pracují se škálou (tečkový, čárový (zvlášť pro vývoj zjevu(ů) během časového úseku, či zachycení korelace), osový, sloupkový, plošný (zejména kruhový), prostorový, obrázkový-piktogram), kartodiagramy – vzniklé kombinací diagramu s kartogramem. Vždy je třeba dbát na vnější zpracování – nadpis, popisky atd. 6/ Interpolace (získávání chybějících údajů z časových řad zpravidla prostou logickou úvahou).
Statistický odhad a statistická anketa
Odhadu či ankety se využívá v případech, kdy není možné provést sčítání nebo by bylo příliš nákladné. Odhad odvozuje pravdu o předmětu na základě statistických metod a subjektivního náhledu odhadce. Aby byl statistický, musí splňovat tyto podmínky: a) číselné vyjádření, b) má se vztahovat na co možná nejmenší části pozorovaného jevu s využitím zákona velkých čísel, c) jednotlivé části musí pozorovaný jev plně vyčerpávati. Statistická anketa představuje různé způsoby, sloužící k pozorování a zjišťování nejčastěji společenských jevů. Jedná se nejčastěji o názory expertů na vybranou 15
problematiku, kteří odpovídají na otázky moderátorů, ji však nelze považovat za statistickou metodu. Anketa, která se při zjišťování opírá o statistické údaje, má již prokazatelně vyšší vypovídací hodnotu a lze ji považovat za statistickou, a je užitečnou zvlášť v případně, kde není možné provést sčítání nebo odhad. Anketa se liší zejména tím, že plně nevyčerpává pozorovaný předmět šetření. Významné postavení má anketa representativní, kdy se z pozorovaného zjevu vybere vždy z každé skupiny příbuzných jednotek jedna typická a výpočtem se pak rozšíří na všechny případy. Metoda monografická se pak omezuje na podrobné vyšetření pouze vybraných vynikajících jednotek hromadných jevů. Závěrečná kapitola publikace se již věnuje výhradně statistice osevu. Zde slovně popisuje historii, účel, obsah, předmět a jiné náležitosti této statistiky, jejíž význam spadá výhradně do oblasti zemědělství, a proto zde již podrobnosti neuvádím. Nakonec je připojeno několik ukázek statistických výkazů, například dotazník se sběrnou tabulkou, sběrná tabulka pro čárkovací metodu, čárový diagram a interpolační diagram.
16
3.
Rozvoj statistických metod v česky psané literatuře 20. let 20. stol. 3.1 George Udny Yule: Úvod do teorie statistiky
Důvody pro zpracování českého překladu velmi známé učebnice o teorii statistiky byly dané potřebou kvalitní učebnice v českém jazyce, která zatím, až na již zmíněnou publikaci Dobroslava Krejčího, nebyla k dispozici. Překlad provedli Dr. Vladimír Novák a Dr. Josef Mráz, kteří se museli v mnoha případech „vypořádat“ i se zatím neustálenou českou statistickou terminologií a zavést vhodnou českou terminologii pro anglické ekvivalenty, v některých případech bylo nutno ponechat pouze anglické názvosloví11. V historii moderní statistiky zaujímá Anglie zvlášť význačné místo. Dříve byla statistika hlavně technikou sbírání a zpracovávání statistického materiálu o hromadných jevech společenských. Ve 20. letech nabyla jiného významu. Rozvinula se totiž teorie statistiky jako zvláštní metodologická věda, logického a matematického základu, opírající se zejména o teorii pravděpodobnosti. Tato nová věda postupně pronikala do nových vědeckých oborů, sociálních a přírodních. Teorie statistické metody vznikla z několika statistických pramenů. Počátky takové metody byly patrné v Anglii již v 17. století, John Graunt (1620-1674) použil takové metody pro bádání o populačních jevech. Wiliam Petty (1623-1687) ji převzal a použil dále pro bádání o hospodářských jevech (metodu nazval politická aritmetika). Tím je výstižně charakterizována statistická metoda už v době, kdy název statistika nebyl vůbec znám. Proto se považuje škola anglických aritmetiků za kolébku statistiky v dnešním slova smyslu. Anglická škola statistická 20. let má své kořeny v biometrické škole Galton-Pearsonově, která už na sklonku 19. století vypracovala celou řadu statistických metod zkoumání kolektivů, a to jak po stránce variace různých znaků, tak po stránce závislosti mezi různými znaky. Prvním příspěvkem ke statistickým metodám byla metoda stupňů, dnes nazývaná metoda procentilů. Byla užita v díle „Přirozená dědičnost“. Metodu procentilů lze považovat za využití daleko starší myšlenky pravděpodobné chyby. Velmi důležitý je Galtonův objev metody korelační. Nalezl koeficient pro těsnost vztahu mezi dvěma proměnnými veličinami. Korelační metoda vznikla z jeho studií o dědičnosti postavy a ze studií antropometrických. Míru korelace určil Galton jednoduchou grafickou metodou 11
Ve svém rozboru k danému problému se budu snažit uvádět použitou terminologii, případně terminologii, která odpovídá dnešnímu stavu názvosloví.
17
(Galtonova punkce), později ji nahradil Pearsonův vzorec. Weldon (1860-1906) se zajímal zvláště o otázky vývoje a již před rokem 1889 cítil potřebu přesnějších a určitějších metod, než jakých užívali biologové. Galtonova práce o „Přirozené dědičnosti“ ho podnítila k použití statistických metod v biologických pracech. Weldonova data užil prof. Pearson ve svém pojednání o statistické metodě (Pearson: Příspěvky k matematické teorii evoluce). Ze školy Galton-Pearsonovy vyšli další žáci a spolupracovníci jako Yule, Greenwood, Isserlis, Elderton a jiní. K vývoji moderní statistické vědy také značně přispěla německá škola sociálních statistiků, vytvořená Wilhelmem Lexisem, která se zajímala zvláště o problém tzv. stability statistických čísel, na který uplatnila teorii pravděpodobnosti. Statistickou metodou se zabývala i škola ruských matematiků představovaná P. L. Čebyševem, A. A. Markovem a A. A. Čuprovem, jejichž pracemi bylo velmi obohaceno bádání po stránce nových metod a hledisek. Velkým vědeckým úspěchem bylo vydání hodnotné statistické příručky G. U. Yuleho. Jeho „Úvod do teorie statistiky“ vychází z poznatků tzv. anglické statistické školy, která statistiku chápala již ve smyslu kvantitativního poznání hromadného jevu a která uplatňuje na její zkoumání vedle podrobného popisu také četné matematické metody. Yule se ve své knize zabývá teorií korelace prakticky i teoreticky, má velkou zásluhu na statistickém zpracování kvalitativních znaků použitím logické algebry a na rozvinutí teorie asociace mezi znaky kvalitativními. Yule sám nazývá dílo „Úvod do teorie statistiky“ pokusem o vypracování soustavného úvodu do statistických metod, které vysvětluje jako metody pro rozbor statistických dat na rozdíl od pouhého sbírání statistických dat. Pokládá svoji knihu za teoretickou, není podle něho příručkou pro běžnou statistickou prováděcí praxi (nepodává výklad o grafice, o poměrných číslech, o indexních číslech atd.). Jedinečný význam jeho knihy spočívá v tom, že výsledky moderní školy statistické (do té doby neutříděné) dovedl jako první přehledně uspořádat, zmapovat a jasně vyložit. Kniha je matematického charakteru, ale není matematickou statistikou, uplatňuje matematické a logické myšlení ve statistické práci. Výklad statistické teorie v Yuleho „Úvodu do teorie statistiky“ je rozdělen na 3 hlavní části, kterými jsou v I. části Teorie kvalitativních znaků, ve II. části Teorie kvantitativních znaků a ve III. části Teorie náhodného výběru. Jednotlivé části jsou pak rozděleny do několika kapitol, které podávají výklad k podrobnějšímu členění statistické teorie. I. a II. část se věnuje zejména popisné statistice, která je obohacena o oblast zkoumání závislostí mezi statickými znaky, jakou je korelace a regrese. III. část se věnuje teorii z oblasti pravděpodobnosti. Jednotlivé kapitoly jsou doplněny informacemi o použité literatuře a pokaždé je uvedeno několik úloh, aby si čtenář mohl procvičit
18
vědomosti získané studiem. Kniha vznikla z přednášek o statistice, které autor vedl na Londýnské univerzitě v letech 1902 – 1909 a obsahuje látku v rozsahu zhruba tří semestrů. Kniha má rozsah 490 stran včetně tří dodatků. Učebnice se zabývá těmito oblastmi statistické metodologie:
1. Úvod – Pojmy „statistika“ a jejich význam, definice „statistiky a metod“ 2. Část I. Teorie kvalitativních znaků (3.1.1) a. Značení a názvosloví – třídění, četnosti, značení a názvy b. Soulad (konzistence) četností – statistický soubor a jeho značení, konzistence četností, podmínky souladu četností c. Asociace kvalitativních znaků – kritérium nezávislosti, míry asociace d. Dílčí asociace kvalitativních znaků – zdánlivá asociace, určování dílčí asociace z četností druhého řádu, případ úplné nezávislosti e. Třídění kvalitativních znaků – princip třídění, kontingenční tabulka, koeficient kontingence, rozbor kontingenční tabulky, rozložení četností
3. Část II. Teorie kvantitativních znaků (3.1.2) a. Rozložení četností (r.č.) – příklady r. č., tabulka r.č., třídní interval, grafické znázornění r.č., ideální r.č., souměrné a nesouměrné r.č., r.č. typu „U“ b. Střední hodnoty – charakteristické vlastnosti r.č., míry polohy a rozptylu, vlastnosti střední hodnoty, druhy středních hodnot (aritmetický průměr, medián, modus, geometrický průměr, harmonický průměr) c. Míry rozptylu – variační rozpětí, směrodatná, průměrná a kvartilová odchylka, míry relativního rozptylu, míry nesouměrnosti, metoda percentilů d. Korelace – korelační tabulka, korelační koeficient, regrese; přímky a rovnice
e. Korelace: Příklady a praktické metody f. Poučky s použitím míry korelace – směrodatná odchylka součtu a rozdílu, vliv pozorovacích chyb, vliv třídění na směrodatnou odchylku, 19
zvážený aritmetický průměr g. Dílčí korelace – přímé odvození vzorců pro regrese, zvláštní značení pro případ zobecněné regrese, korelace, odchylky a směrodatné odchylky, zobecněné regrese, příklady, míra n-násobné korelace
4. Část III. Teorie náhodného výběru (3.1.3) a. Prostý náhodný výběr z kvalitativních znaků (n.v.) – druhy teorie n. v., prostý n.v., definice pravděpodobnosti, průměr a směrodatná odchylka prostého n.v., míra nespolehlivosti, příklady
b. Prostý náhodný výběr: účinek porušení podmínek prostého n.v. c. Binomické rozdělení a normální křivka – metody grafického zobrazení, přímý výpočet aritmetického průměru a směrodatné odchylky z binomického rozdělení, odvození normální křivky, souhlas křivky s řadou skutečných pozorování, kvartilová odchylka a „pravděpodobná chyba“
d. Normální korelace – lineárnost regrese, stálost směrodatné odchylky, hlavní vlastnosti normálního rozdělení četností pro n proměnných veličin
e. Jednodušší případy náhodného výběru pro kvantitativní znaky, procentily a průměr – problém n. v. pro kvantitativní znaky; jeho podmínky, vliv tvaru rozdělení obecně, problém nesplnění podmínek prostého náhodného výběru, směrodatná chyba aritmetického průměru, relativní stálost průměru a mediánu v n. v.
f. Dodatek – tabulky a řešení úloh
Úvodní část Úvodem se seznamujeme se vznikem a zavedením názvů „statistika“,
„statistický“ z historie a s jejím zavedením pro vědecké použití. Slovo „Statistika“ je odvozeno od latinského „status“ ve smyslu původního významu „politický stát“. Statistika byla v minulosti chápána jako věda, která poučuje o moderních zřízeních moderního světa. Význam pojmu se rychle měnil a od politického zřízení postupně zasáhl všechny oblasti 20
vědeckého bádání.
Definice podle Yuleho: Statistikou se rozumí číselné údaje, které jsou výrazem účinku velkého množství příčin. Statistickými metodami se rozumí metody objasňující číselné údaje, které jsou výrazem účinku množství příčin. Teorií statistiky je výklad o statistických metodách. Důraz je zde kladen na „velké“ množství příčin. Odkazy na literaturu pro úvodní část jsou rozděleny na historii pojmů, dějiny statistiky, dějiny teorie statistiky a dějiny úřední statistiky.
3.1.1 Teorie kvalitativních znaků
První kapitola o Značení a názvosloví se zabývá základními úkony vymezení pojmů a jejich značení, rozlišení mezi jednotlivými znaky, možnostmi třídění jednotek podle jednotlivých znaků, vymezují se třídní četnosti a příslušné matematické operace s nimi. Chybí zde výklad metodiky sběru statistických dat, výklad je zaměřen na rozbor a metodiku zpracování údajů. Statistická věda se zabývá pouze číselnými hodnotami. U jednotlivých statistických jednotek (kterými rozumíme různé předměty) lze však rozlišit různé vlastnosti. Podle povahy vlastností je pak můžeme členit na znaky kvalitativní nebo kvantitativní, stálé vlastnosti jsou pak povahy kvalitativní a proměnné povahy kvantitativní. Rozlišuje základní třídění kvalitativních znaků, kterým je třídění dichotomické statistické jednotky je možno třídit dle kvalitativních znaků do oddělených tříd, případně podtříd. V nejjednodušším případě lze rozlišovat členění dichotomické, které dělí třídu na dvě podtřídy. Pro teoretické účely se zavádí značení znaků a tříd, četností tříd zpravidla velkými písmeny A, B, C… Tímto způsobem označuje jednotku mající znak A písmenem A, v případě více členů třídou A. Jednotky nemající znak, označuje buď non-A nebo např. malými řeckými písmeny α, β, χ. Za kladné znaky považuje ty jednotky, které jsou označeny pouze velkými písmeny, ne jejich opaky. Třídní četností rozumí počet pozorování jednotek s příslušným(i) znakem(y). Řádem třídy je vymezen podle počtu znaků, které u jednotky sledujeme. Potom třída vymezená r znaky může být nazvána třída r-tého řádu. Souhrny třídních četností se utvářejí vždy dle stejného řádu třídní četnosti. Pro statistické zpracování stačí zjištění konečné třídní četnosti. Tedy počet všech pozorování musí být roven součtu případů v každé třídě, dle každého znaku. Každá třídní 21
četnost může být vždy vyjádřena třídními četnostmi vyššího řádu. Třídy určené všemi pozorovanými znaky lze nazvat konečnými četnostmi. Počet kladných tříd se určí součtem přes všechny řády a tvoří binomický rozvoj výrazu (1+1)n tj. 2n a proto celkový počet kladných tříd je 2n. Pochopení třídních četností je zde vysvětleno na příkladu sčítání lidu v Anglii a Walesu z roku 1891 o osobách s různými tělesnými vadami. Pokud označíme hluchoněmost písmenem A, slepotu B a mentální poruchu C, pak třídní četnosti vymezených tříd jsou u všech němých (A); slepých (B); duševně nemocných (C); němých a slepých, ale duševně zdravých (ABχ); němých a duševně nemocných, ale ne slepých (AβC); slepých a duševně nemocných, ale ne němých (αBC); slepých, němých a duševně nemocných (ABC). Další značení uvádí statistický soubor, který je, podobně jako třída, určen počtem společných znaků všech jeho členů. Značení může být opět velkými písmeny. Aby třídní četnosti v témže souboru byly konzistentní – musí být konečné četnosti kladné. Počet všech pozorování, je zde označován velkým písmenem N. Po úvodním vymezení a definování základních pojmů a značení a zavedení způsobu třídění statistických jednotek podle jejich společných znaků uvádí v I. kapitole výklad vzájemných souvislostí a závislostí mezi statistickými znaky (v tomto případě pouze kvalitativními-slovními). II. kapitola stanovuje podmínky souladu četností tak, že konečné četnosti musí být větší než nula a rozebírá je pro případ 1-2 kvalitativních znaků, které dále rozvíjí i na případ 3 znaků, což uvádí na několika stručných příkladech. Ve III. kapitole o družnosti (asociaci) kvalitativních znaků a následné IV. kapitole o dílčí družnosti kvalitativních znaků již pátrá po nějaké konkrétní závislosti mezi dvěma různými znaky a uvádí způsob, jak se o ní přesvědčit. Dále hledá možnosti, jak určit míru této závislosti. IV. kapitola otázku rozšiřuje na případ, kdy vzájemná závislost může být způsobena přítomností jiného znaku (případ zdánlivé asociace), který způsobuje domnělou závislost námi zkoumaných znaků a určuje případ úplné nezávislosti. Je mezi znaky A a B nějaký vztah? Otázku objasňuje Asociace kvalitativních znaků. Nejdříve vymezuje podmínku nezávislosti mezi znaky. Není-li mezi dvěma znaky A a B vůbec žádný vztah, pak se očekává, že se počet případů A vyskytne ve stejném poměru mezi případy B jako mezi případy „non-B“. Takové dva znaky nazývá nezávislými ( AB) ( Aβ ) (independentními) a kritérium nezávislosti lze vyjadřit rovnicí12: . Pro = (β ) ( B) 12
Vychází se ze základního pravidla o úměrách, kdy: (a±b):(c±d)=a:c=b:d, z čehož plyne úměra (b-a):b=(d-c):d.
22
přehlednost je možné jednotlivé znaky seřadit do tzv. čtyřpolní13 tabulky, kdy znak A a α vložíme do řádků a znaky B a β do sloupců. U obou stanovíme úhrn, který přes oba znaky činí N. Základní pravidlo: Jsou-li znaky A a B na sobě nezávislé, pak poměrná četnost současného se vyskytnutí znaků AB je rovna součinu poměrných četností jednotlivých ( AB) ( A) ( B) znaků A a B. Vyjadřuje je rovnice: . = ⋅ N N N Asociace kvalitativních znaků předpokládá, že znaky A a B nejsou na sobě nezávislé, že jsou tudíž v nějakém vzájemném vztahu. Namísto zmíněné rovnice nezávislostí platí ( A)( B) rovnice: ( AB ) > , kde jsou znaky A a B buď kladně (>) nebo záporně sdružené (<). N Pro určení asociace kvalitativních znaků používá metodu porovnávání procent. Pro znaky uspořádané ve čtyřpolní tabulce s úhrny určíme podíly obměn znaků ku řádkovým úhrnům a z vypočtených procent zjistíme, zda jsou dané znaky sdružené. Jako ilustrační příklad je uveden případ očkování a uniknutí nákaze, které jsou navzájem kladně sdružené nebo případ barvy očí otců a synů. Problém nezávislosti a asociace znaků dokumentuje příklad s mincí, kdy očekáváme, že mezi tím, zda ve dvou po sobě následujících hodech padne rub nebo líc, není žádná souvislost. Přesto se můžeme setkat s tím, že při praktickém provedení experimentu vychází např. mírná kladná asociace. To je však způsobeno např. v případě malých výběrů, nebo jinými vlivy. V paragrafu o mírách asociace podává výklad, jak změřit intenzitu zjištěné závislosti. Asociace nám určuje, zda existuje mezi znaky nějaká závislost, míra asociace nám pomůže změřit sílu (intenzitu) závislosti. Odvození vzorce je zde naznačeno na případu čtyřpolní tabulky a jejích 6 variant uspořádání, kdy první tři případy tvoří úplné asociace, ostatní úplné disasociace. Vzorec sestrojíme tak, aby v prvních třech případech vykazoval hodnotu +1, v ostatních -1. V případě nezávislosti znaků je hodnota 0. Koeficient asociace14: Q =
( AB )(αβ ) − ( Aβ )(αB) , kde Q=(-1,+1). ( AB)(αβ ) + ( Aβ )(αB )
Na základě předchozích příkladů, pak můžeme určit, kterou závislost lze považovat za oprávněnou, a která je následkem jen nahodilých vlivů. Učebnice zmiňuje ještě vzorce, 13
Současná statistická věda stručně definuje čtyřpolní tabulku jako tabulku, v níž obě proměnné nabývají pouze dvou hodnot – jejím konkrétním příkladem je asociační tabulka. 14 Uvedený koeficient Q užil Yule dle Queteletova jména.
23
které mají podobné vlastnosti jako koeficienty korelace pro kvantitativní znaky, např. Yuleovu míru vázanosti a dále odkazuje na některé Pearsonovy práce o korelaci znaků.
Dílčí asociace kvalitativních znaků. Předchozí kapitola pojednávala o možné závislosti mezi znaky A a B. Případná závislost naměřená koeficientem asociace však ještě neznamená přímý vztah mezi znaky, to může být způsobena pouhým kolísáním náhodného výběru. Tuto nejistotu ve výkladu pozorované asociace objasňuje případ tzv. dílčí
asociace, kdy oba zmíněné znaky jsou ovlivňovány přítomností jiného znaku (C). Vzorec zkoumající asociaci se pak vhodně rozšíří o další znak či znaky, které zapříčiňují kladnou nebo zápornou asociaci. V. kapitola se zabývá množným tříděním kvalitativních znaků. Navazuje a rozšiřuje úvodní zmíňky o základním třídění znaků, vychází z nejjednoduššího dvojdílného třídění (dichotomického), které je možno považovat za obecně nejjednodušší způsob třídění znaků s dvěma obměnami. Vícenásobné třídění nastupuje v případě potřeby třídění dle n vlastností či znaků. Na tomto základě sestavenou tabulku četností potom nazývá kontingenční tabulkou15. Tato má ve svých řádcích znaky a ve sloupcích jejich obměny. Z jednotlivých četností jsou pak uvedeny jejich řádkové i sloupcové obměny. Také zde se uplatní metoda porovnávání procent k určení asociace mezi znaky, které je možné podle potřeby vzájemně seskupovat. Důležitou metodou ke zjišťování zřetelné závislosti mezi znaky je zavedení koeficientu kontingence, obecné míry závislosti, který vypracoval prof. Pearson. Je uvedeno jeho odvození a výpočet ve tvaru C =
χ2 , kde N + χ2
veličina χ2 znamená součet řady čtverců a představuje hypotetické sdružené četnosti. Koeficient C v tomto tvaru se nazývá Pearsonova střední čtvercová míra styku a jeho výsledná hodnota se pohybuje v mezích <0,1), podle síly závislosti. Nevýhodou Pearsonova koeficientu kontingence je proměnlivá horní mez intervalu výsledku, která závisí na počtu řádků a sloupců kontingenční tabulky – čím je menší jejich počet, tím je nižší horní mez – a to představuje problém při srovnávání výsledků, počítaných z různých způsobů třídění. V návaznosti na obecný princip vícenásobného třídění znaků v kontingenční tabulce, uvádí se zde ještě výklad isotropického a anisotropického rozložení četností, které souvisí se znaménky asociace pro čtveřice sousedních četností v kontingenční tabulce. Uvádí zde případ úplné nezávislosti, který je zvláštním případem isotropie. Třídění se dále rozlišují na stejnorodá (homogenní) a nestejnorodá (heterogenní), podle toho, zda jsou shodné počty pododdílů pro každý hlavní oddíl. Asociaci lze určovat pouze u homogenních 15
Název tabulky zavedl prof. Pearson v práci „O teorii kontingence a jejím vztahu k asociaci a normální korelaci“
24
třídění a v případě jejího určování pro různá období musí být třídění v obou obdobích shodná.
3.1.2 Teorie kvantitativních znaků
Celá část teorie kvantitativních znaků navazuje na předchozí výklad o kvalitativních znacích, protože veškeré metody, které se uplatňovaly u kvalitativních znaků, lze použít i v případě znaků kvantitativních. Vzhledem k větší četnosti metod uplatnitelných u kvantitativních znaků je druhá část výrazně obsáhlejší než předchozí část. Zpočátku vymezuje a upřesňuje základní pojmy a zavádí možnosti třídění. Definuje rozdělení četností a jeho grafické znázornění. Dále se zabývá určováním charakteristických vlastností rozložení četností, postupem jejich výpočtu a interpretací. Celou kapitolu věnuje mírám rozptylu, které charakterizují variační šířku řady, zejména směrodatné odchylce a jejímu výpočtu, v oblasti zjišťování nesouměrnosti rozdělení přináší Galtonovu metodu procentilů. Rozboru závislostí mezi kvantitativními znaky se věnuje kapitola o korelaci a dílčí korelaci s množstvím praktických výpočtů a příkladů. Pro určení míry závislosti užívá koeficient korelace a ukazuje postup jeho určení, zavádí pojem regrese a určení regresní rovnice pro případ lineární regrese. Řada slovních příkladů z různých oblastí praktického života uvádí možnosti a způsoby uplatnění korelační analýzy. Stručně se kniha zmiňuje o postupu případech nelineární regrese a uvádí několik metod, určujících přibližně míru korelace. Je také uvedeno několik pouček, ve kterých je použito míry korelace. Poslední kapitola o závislosti mezi kvantitativními znaky pojednává o dílčí korelaci, která je případem vícenásobné korelace, tedy korelace mezi několika kvantitativními znaky. Oblast zkoumání kvantitativních znaků již uplatňuje metody, které nelze uplatnit pouze pro rozbor pozorování znaků kvalitativních. Číselná měření lze totiž aplikovat jen u veličin, které mohou nabývat většího počtu číselných hodnot, tyto veličiny nazývá „proměnnými16“. Právě velký počet hodnot kvantitativního znaku, jdoucích po sobě v libovolném pořádku, vyžaduje nějaké vhodné uspořádání, aby byl postihnut význam těchto pozorování. K tomuto účelu navrhuje určení třídního rozpětí a intervalů, do kterých zahrne všechna pozorování. Způsob, jak se jednotlivá pozorování zatřídí do jednotlivých 16
Ve starší české literatuře nebyl název „proměnná“ příliš obvyklý. Prof. Beneš např. ve svém díle „O statistice a její teorii“ rozlišuje mezi znaky „ličnými“ (kvantitativními) a „neličnými“ (kvalitativními).
25
intervalů, pak nazývá rozdělení četností. Rozložení četností uvádí tabulka rozložení četností – zkoumaný znak tedy rozdělí do několika intervalů a ke každému uvede jeho četnosti. Uvedena obecná pravidla a rady pro stanovení tabulky četností. Kupříkladu max .hodnota − min .hodnota k určení velikosti třídního intervalu v znaku udává, že v = . 20 Je vhodné, aby hranice intervalů tvořily celá čísla. Rozložení četností je vhodné znázorňovat graficky, aby se naznačil průběh celé řady čísel v přehledné formě. Takovým je polygon četností (zde nazývaný frekvenční polygon), kdy v souřadnicové soustavě nanáší na osu x intervaly znaku a na osu y jejich četnosti. Výsledkem jsou body v soustavě, které se propojí navzájem přímkami. Pokud se místo přímek sestrojí pravoúhelníky, vzniká histogram17. Pokud se třídní interval zmenšuje a úměrně tomu se rozšiřuje počet pozorování, blíží se polygon četností hladké křivce, tzv. frekvenční křivce (křivka četností). Potom plocha pod křivkou představuje přesně celkový počet pozorování. Tvar křivky je důležitý, zde rozlišuje 4 základní typy: souměrné rozdělení četností (od středového maxima ubývá třídních četností na obě strany až k nule – případ rozdělení v hospodářské statistice vzácný), mírně nesouměrné rozdělení četností (kdy třídní četnosti klesají na jedné straně maxima s daleko větší prudkostí než na druhé straně – případ nejčastější), rozdělení typu J (kdy stoupají třídní četnosti na jednom konci stupnice variační k maximu – např. počty úmrtí v prvních letech života) a rozdělení typu U (které má maxima četností na obou koncích variačního rozpětí a minimum blízko středu, jsou spíše vzácným typem, např. stupeň oblačnosti). Ze tvaru rozložení četností lze určovat charakteristické vlastnosti, jako střední hodnoty a míry rozptylu. Požadavkem je, aby charakteristické vlastnosti byly vyjádřitelné kvantitativně. Střední hodnoty, nazývané mírami polohy ukazují, okolo které hodnoty kvantitativního znaku se soustřeďují. Jsou vymezeny žádoucí vlastnosti středních hodnot a také jejich obvyklejší druhy. Uvádí se zde: aritmetický průměr (M), definovaný jako součet hodnot proměnné, dělený jejich počtem: M = ∑ X / N , výhodný zejména pro snadnost jeho výpočtu, uvádí jeho výpočet a vlastnosti; medián (Mi), definovaný jako prostřední nebo centrální hodnotu kvantitativního znaku, ležící mezi všemi pozorováními právě uprostřed, výpočet, vlastnosti a užití, výhodou je, že ho lze snadno určit; dále modus (Mo), definovaný jako hodnota kvantitativního znaku, která náleží maximu ideální křivky četností. Představuje nejčastější (typickou) hodnotu znaku. Vztah modu k průměru a mediánů vyjadřuje tato poučka: Mo = M − 3( M − Mi ) . Díky ní lze určit přibližnou hodnotu modu na základě hodnot průměru a mediánu. Pro obecné použití doporučuje výpočet aritmetického
17
Jak obrazec nazval prof. Pearson.
26
průměru. Mezi další metody určování středních hodnot řadí geometrický průměr, který definuje jak v odmocninovém tak logaritmickém tvaru. Jeho využití udává např. pro odhad počtu obyvatelstva pro střed mezi dvěma obdobími (počet obyvatel tvoří geom. řadu), nebo řady indexních čísel. Uvádí také základní poučku, že geometrický průměr je vždy menší než aritmetický. Harmonický průměr definuje jako převrácenou hodnotu aritmetického průměru z převrácených hodnot jejich veličin. Tento průměr je vždy nejnižší ze všech uvedených průměrů. Rozdělení četností se mohou soustřeďovat také okolo téže hodnoty, ale liší se svým rozptylem, tímto případem se zabývají míry rozptylu. Nejjednodušší je celkové rozpětí řady, tedy rozdíl mezi nejvyšší a nejnižší pozorovanou hodnotou, je však mírou nevhodnou, protože nezohledňuje extrémní pozorování, která potom výsledek ovlivňují a zkreslují. Jako vhodnější míry zde uvádí směrodatnou odchylku (σ), definovanou jako druhou odmocninu z aritmetického průměru čtverců odchylek měřených od aritmetického průměru pozorovaných hodnot. Za obecnější míru stanovuje čtvercově průměrovou odchylku, jejíž zvláštním případem je právě směrodatná odchylka. Při naznačení výpočtu též definuje prvý a n-tý moment. Zmiňuje důležité pravidlo 6 sigma, že v celkovém rozpětí řady odpovídajícím 6 násobné hodnotě směrodatné odchylky je zahrnuto obyčejně 99% i více všech pozorovaných hodnot. Směrodatnou odchylku označuje jako míru rozptylu, kterou lze snadno vypočítat a zdůrazňuje její význam srovnávací. Jako další míra rozptylu je uvedena průměrná odchylka, kterou definuje jako aritmetický průměr odchylek řady hodnot kvantitativního znaku od nějaké střední hodnoty, bez ohledu na znaménka odchylek. Za přirozené východisko odchylek uvádí medián, protože jeho užití vede k nejmenší průměrné odchylce, ale lze užít i aritmetický průměr. Tuto variantu odchylky doporučuje jen pro některé případy experimentálních měření, kdy je vhodnější její užití před směrodatnou odchylkou. Kvartilová odchylka (Q) vychází z rozdělení všech pozorovaných hodnot do čtyřech stejně četných skupin, nazývaných kvartily. Z jejího Q 3 − Q1 vzorce Q = plyne, že vyjadřuje poloviční vzdálenost obou kvartilů. Způsob jejího 2 výpočtu se podobá výpočtu mediánu, její výhodou je snadné stanovení, zvlášť v případech, kdy stanovení směrodatné odchylky není snadné nebo možné. Pro případ relativních veličin uvádí Pearsonův variační koeficient (v), definovaný jako podíl směrodatné odchylky ku aritmetickému průměru, který uvádí z kolika procent se podílí směrodatná odchylka na aritmetickém průměru. Ke vzájemnému srovnávání řad rozložení četnosti s různým stupněm nesouměrnosti slouží míry nesouměrnosti (šikmosti), které zachycují charakter rozdělení jedním bezrozměrným číslem. Nesouměrnost je zde počítána jako podíl z rozdílu
27
průměru a modu ku směrodatné odchylce. Metoda procentilů18 určuje určitou hodnotu kvantitativního znaku P tak, že p % celkového počtu pozorovaných hodnot leží pod ní a (100 – p) % leží nad ní, P nazývá tzv. procentilem. Podmínkou je, že hodnoty kvantitativního znaku musí být seřazeny podle velikosti. Decily jsou pak případem hodnot kvant. znaku, dělících celkový počet pozorování na 10 stejných dílů. V případě krátkých %ních intervalů lze podle procentilů určit celkový tvar rozdělení. Metoda procentilů má přednosti zejména jako metoda znázorňovací, neboť význam jednotlivých procentilů je snadno pochopitelný. Problémem vzájemných vztahů mezi kvantitativními znaky se zabývá korelace, které je v knize věnováno hned několik kapitol. V úvodu se věnuje sestavení a konstrukci korelační tabulky (ta se týká dvou numerických proměnných) a ukazuje ji na příkladech z praktického života. Rozložení četnosti pro 2 numerické znaky zapsané do korelační tabulky dále znázorňuje graficky v prostoru a nazává plochou četností a uvádí několik jejích základních typů – ideální symetrickou plochu četností, mírně nesouměrný typ. Při zkoumání korelační tabulky uvažuje nad otázkou, zda v průměru vysoké hodnoty jednoho kvantitativního znaku ukazují sklon k asociaci s vysokými (nízkými) hodnotami druhého znaku. Dále zkoumá, jak velká odchylka jednoho kvantitativního znaku od jeho průměru je sdružena s jednotkovou odchylkou druhého znaku, za pomoci diagramu, který znázorňuje hodnoty průměrů všech pořadí korelační tabulky. Pokračuje výkladem určení míry korelace, představovanou korelačním koeficientem (r). Odvozuje vztahy geometricky, pomocí přímek RR, na níž leží aritmetické průměry řádek a přímky CC, na které leží aritmetické průměry sloupců. Zakreslení těchto přímek je ukázáno na několika příkladech, např. v případě korelace mezi věkem manžela a manželky v Anglii a Walesu. Postupuje sestavením lineárních rovnic mezi dvěma kvantitativními znaky, aby součet čtverců chyb odhadu byl co nejmenší. Konstantu v (korelační koeficient) uvádí ve tvaru ∑( xy ) p , které je jako číslo bezrozměrnou veličinou z intervalu <-1,1>, dále uvádí = v= σxσy Nσxσy případy, kterých hodnot může nabývat. Následuje výklad regrese19, regresních přímek, kterých bylo užito při odvození korelačního koeficientu, regresních koeficientů b1 a b2 a regresní rovnice v případě, kdy je regrese lineární. Na rozdíl od regresního koeficientu, který je bezrozměrná veličina jsou regrese bezrozměrným číslem jen v případě, že pozorované znaky mají stejný rozměr. Velikosti regresí pak závisí na poměru směrodatných odchylek x a y. Regresní rovnice stanovuje jako x= b1.y a y=b2x. Dále stanovuje směrodatné odchylky řádek a sloupců sx a sy, jako směrodatné chyby, kterých se dopouští při odhadu x z y a y z x při výpočtu z jejich regresních rovnic. Vyčísluje všechny 18
Metodu procentilů zavedl a uplatnil Sir Francis Galton při svých bádáních v oblasti biologické. Jméno regrese vzniklo z názvu zavedeného při studiu dědičnosti postavy, viz. Galtonova práce „Regrese k průměrnosti při zděděné postavě“.
19
28
uvedené výrazy hodnot r, b1, b2, sx, sy a uvádí způsob jejich výpočtu i jejich interpretaci na praktických příkladech z oblasti hospodářské statistiky a z biologie a předkládá některá upozornění při počítání a užívání míry korelace. Na základní výklad korelace navazuje kapitola korelace: příklady a praktické metody. V úvodu upozorňuje, že pro výpočet míry korelace je třeba dbát na vhodnou volbu kvantitativních znaků, mezi nimiž má být korelace stanovena. Kvantitativní znaky mají být voleny tak, aby bylo možno korelaci vyložit co nejsnáze. V následujících příkladech (příčiny chudinství, dědičnost plodnosti, počasí a sklizeň), se zabývá vhodnou volbou a rozborem možných příčinných činitelů pro danou oblast zkoumání. V případě korelace mezi současnými změnami dvou kvantitativních znaků, které byly pozorovány po delší dobu rozlišuje změny neperiodické (příklad změn v dětské a v celkové úmrtnosti) a změny kvasiperiodické (např. sňatečnost a zahraniční obchod) a metody20 k oddělení krátkodobých kolísání, jimiž lze stanovit míru korelace. Zmiňuje zde také postup v případě, že regrese není lineární. Elementárními metodami zlogaritmování a zavedením nové proměnné převádí regresi na přibližně lineární. Nakonec uvádí několik hrubých metod, jak určit přibližnou míru korelace, které souvisí buď se vzorci pro obě regrese, nebo se vzorci pro směrodatné odchylky řádků a sloupců korelační tabulky. Podoba jejich vzorců je redukovaná na r = b1b 2 , nebo r = 1 −
( sx ) ^ 2 . Hodí se pro odhad hodnoty (σx ) ^ 2
korelace v případech, kdy nemáme tolik dat, jež by umožňovala správný výpočet míry korelace. V případě, kdy aritmetické průměry řádků nebo sloupců neleží těsně kolem přímek, nabízí pro určení míry korelace Pearsonův korelační poměr, při jehož výpočtu můžeme stanovit kritérium lineárnosti regrese – míru odchylky regrese hodnot X vzhledem k Y od lineárnosti, vše je pro snazší pochopení uvedeno na konkrétním příkladu. V následující kapitole je uvedeno několik pouček, které pracují s mírou korelace. Nejdříve stanovuje směrodatnou odchylku součtu nebo rozdílu, vysvětluje vliv třídění a pozorovacích chyb na směrodatnou odchylku a také vliv pozorovacích chyb na míru korelace. Oba případy řeší konstrukcí opravných vzorců, u míry korelace je jím Spearmanův opravný vzorec. Dále počítá aritmetický průměr a směrodatnou odchylku indexu a následně korelaci mezi indexy, kde jednotlivé znaky nejsou ve vzájemné korelaci a nazývá jí podle prof. Pearsona „nepravou korelací“. Také uvádí případ korelace pro čtyřpolní tabulku a míru korelace pro všechny možné páry N hodnot kvantitativního znaku. Doplňuje metodu výpočtu aritmetického průměru o jeho variantu váženého aritmetického
20
Odkazuje zde na metody ,které použil R. H. Hooker v díle „O korelaci mezi sňatečností a zahraničním obchodem“.
29
průměru ve tvaru M ' =
∑(V . X ) , kde V značí nějaký číselný činitel a nazývá vahou. Jeho ∑(V )
použití oproti aritmetickému průměru je výhodné v případě, že známe počet pozorování v každé řadě. Jsou-li váhy a kvantitativní znaky v kladné korelaci, je vážený aritmetický průměr větší, jsou-li v záporné korelaci pak je menší. Použití vah vysvětluje např. také pro opravu čísel úmrtnosti pro různost složení dle pohlaví a věku. Nakonec uvádí, že metodu vážení je možné uplatnit na jakýkoliv typ střední hodnoty. V předchozích kapitolách bylo pojednáváno o korelaci mezi dvěma numerickými znaky, kapitola o dílčí korelaci rozšiřuje výklad na několik znaků na základě teorie vícenásobné korelace. Obdobně jako v předchozím případě i zde postupuje sestavením lineárních rovnic mezi kterýmkoliv z n vyskytujících se kvantitativních znaků, přičemž opět konstantám přiřazuje takové hodnoty, aby součet čtverců chyb odhadu byl minimální. Rozšířenou regresní rovnici nazývá zobecněnou charakteristickou rovnicí a korelaci mezi dvěma znaky nazývá dílčí korelací. Způsob, kterým určuje regresní koeficienty, aby hledaný výraz byl minimem, nazývá metodou nejmenších čtverců. Zavádí zvláštní značení pro případy zobecněné regrese, zobecněné korelace a zobecněné směrodatné odchylky a uvádí možnost redukce zobecněné směrodatné odchylky, zobecněné míry korelace a zobecněné regrese, neboť např. kterákoliv regrese může být vyjádřena pomocí regresí (p– 1) řádu. Výpočet vícenásobné korelace je uveden na příkladech pro 3 a 4 kvantitativní znaky včetně interpretace dílčích korelací. Je uvedeno také geometrické modelové znázornění korelace mezi 3 kvantitativními znaky v podobě jakési skřínky, která ukazuje umístění bodů v prostoru. V závěru se ještě zabývá mírou n-násobné korelace mezi kvantitativními znaky a otázkou klamných závěrů vícenásobné korelace, kde odkazuje na práce J. W. Browna, M. Greenwooda a F. Wooda.
3.1.3 Teorie náhodného výběru
Celá třetí část Yuleho „Teorie statistiky“ je věnována teorii náhodného výběru. Ta se zabývá problémem malých rozdílů mezi statistickými měrami, jako jsou procenta, střední hodnoty, míry rozptylu u kterých nelze předpokládat, že jsou výsledkem předem zjistitelných příčin. Tyto rozdíly mohou být výsledkem neurčitých příčinných souvislostí. Pro tuto teorii kolísání rozlišuje dva hlavní druhy, jež odpovídají znakům kvalitativním (např. mince: rub a líc) a kvantitativním (např. štítky s hodnotami nějakého numerického
30
znaku). U první skupiny můžeme určovat pouze počty případů znaku, u druhého je již možné počítat střední hodnoty a míry rozptylu – teorie náhodného výběru pak objasňuje, jaké kolísání ve středních hodnotách, v měrách rozptylu a míry korelace lze očekávat pro jednotlivé po sobě jdoucí skupinové výběry. Kniha se však omezuje prakticky jen na případ kvalitativních znaků, pro obtížnost teorie pro kvantitativní znaky se jim věnuje jen okrajově. Pro jednoduchost je dále výklad omezen pouze na případ prostého náhodného výběru, kdy všechny případy zahrnuté do téhož výběru lze považovat za nezávislé na sobě. Nejdříve definuje pravděpodobnost o příznivém nebo nepříznivém výsledku určité události, uvádí příklad hodu mincí a označuje ji jako událost, kdy možnost příznivého výsledku je p a pravděpodobnost nepříznivého výsledku je q. Potom p + q = 1. Určuje průměr M = ∑( f . X ) / N , a směrodatnou odchylku absolutního počtu příznivých výsledků v n událostech, kdy směrodatná odchylka počtu příznivých výsledků σn = npq , vzniká pouze kolísáním prostého náhodného výběru, ve skupině n událostí se nemění úměrně n, ale úměrně druhé odmocnině z n. Platnost uvedených vztahů pak demonstruje na známém případu vícekrát opakovaného hodu hrací kostkou. Dále definuje směrodatná odchylku podílu příznivých výsledků sn =
pq / n , jako míru nespolehlivosti, neboť čím
větší je směrodatná odchylka, tím větší je kolísání (tj. nespolehlivost) pozorovaného poměru, přestože správný poměr je stejný. Její převrácenou hodnotu pak nazývá mírou
spolehlivosti (přesnosti). Dále předkládá podrobnější rozbor předpokladů, na nichž se zakládá vzorec pro směrodatnou odchylku – tedy podmínky prostého náhodného výběru: a/ nesmí být rozdíly v původu a době pozorování, b/ pravděpodobnosti p a q musí být stejné pro každý výběr i jednotlivý pozorovaný případ, c/ jednotlivé případy nastoupení jevu jsou na sobě nezávislé. Uvádí také postup, jak stanovit přibližnou hodnotu směrodatné odchylky za předpokladu, že některý z obou poměrů p a q je velmi malý. Redukuje tak původní rovnici na přibližný tvar σn = n. p = M . Dle této rovnice lze nalézt teoretickou směrodatnou odchylku náhodného výběru i když p je neznámé, jen když víme, že je malé. Všechny uvedené vztahy lze využít pro potvrzení a kontrolu výkladu statistických výsledků. Pomáhají určit, zda jsou pozorované rozdíly mezi očekávanými hodnotami způsobené pouze vlivem náhodného kolísání prostého náhodného výběru, nebo je rozdíl důsledkem určité příčiny/příčin významný (signifikantní). Jako základní poučku uvádí pravidlo, že téměř všechny případy kolísání náhodného výběru se pohybují v mezích ± trojnásobné směrodatné odchylky21, pokud je pozorovaný rozdíl převyšuje, bývá zpravidla signifikantní. Praktické použití vzorců a poučky je rovněž uvedeno na několika příkladech. Navazující kapitola upozorňuje na některé nedostatky předchozích metod, týkající se 21
Takže absolutní rozpětí mezí má hodnotu šestinásobku směrodatné odchylky.
31
určení chyb způsobených kolísáním náhodného výběru. Například meze stanovené trojnásobnou směrodatnou chybou v případě některých nesouměrných rozdělení, nezaručí jistotu o charakteru pozorovaných rozdílů. Rovněž tak nelze ve všech případech dosazovat do vzorce pro směrodatnou chybu místo správné hodnoty skutečně pozorovanou hodnotu p. Obojí nesnáze vznikají, když počet případů v pozorovaném výběru je malý. Zavádí pojem nestrannosti a jednostrannosti výběrů, kdy se výběrový poměr nějakým způsobem liší od poměru platného na celý soubor, také zvažuje, jaký účinek má na směrodatnou odchylku porušení podmínek prostého náhodného výběru a ukazuje výpočty na příslušných příkladech. Kapitola XV. obsahuje teorii o binomickém rozdělení a normální křivce. Ukazuje přístup ke stanovení rozdělení četností pro počet příznivých výsledků při n událostech – binomického rozdělení, četnosti jsou dány po sobě jdoucími členy binomického rozvoje výrazu N(q+p)n. Tvar rozdělení pak závisí na hodnotách p,q a n. Pro přibližné znázornění binomického rozdělení uvádí grafickou a mechanickou metodu. Od binomického rozdělení se obrací k odvození normální křivky, která je limitou binomického výrazu (p+q)n a uvádí jejich srovnání. Uvádí také postup při hledání souhlasu mezi normální křivkou a skutečnou řadou pozorování. Z tabulky ploch normální křivky vyjadřuje kvadrilovou odchylku v jednotkách směrodatné odchylky σ, interpolací vyčíslenou na 0,675σ. Tuto hodnotu nazývá pravděpodobnou chybou, která je mírou nespolehlivosti pozorovaných výsledků. Dodatek k XV. kapitole se věnuje zákonu malých pravděpodobností.
Normální korelací se zabývá kapitola XVI. Nejprve odvozuje obecný výraz pro plochu normální korelace z případu nezávislosti, potom přechází na obecný případ dvou souvztažných proměnných veličin. Poukazuje na stálost směrodatných odchylek rovnoběžných pořadí v korelační tabulce a lineárnost regrese. Za první důležitou vlastnost normálního rozdělení četností udává lineárnost regrese, druhou je stálost směrodatné odchylky pro všechna rovnoběžná pořadí v normální korelační tabulce. Normální rozdělení četností je pro dvě proměnné veličiny rozdělením isotopickým – každé seskupení vytvořené z normálního rozdělení je isotopické. Tyto předpoklady pokládá za důležité při vyšetřování kvalitativních znaků, které jsou předmětem množného třídění. Závěrem kapitoly ještě nastiňuje hlavní vlastnosti normálního rozdělení četností pro n proměnných veličin. Kapitola XVII. o jednodušších případech náhodného výběru pro kvantitativní znaky přistupuje v úvodu k úvaze o některých jednodušších větách teorie náhodného výběru pro kvantitativní znaky a jejich podmínek. Vyšetřuje kolísání náhodného výběru pro určitý procentil a stanovuje směrodatnou chybu procentilu. Uvažuje o vlivu tvaru rozdělení četností na směrodatnou chybu mediánu, protože medián je důležitou střední hodnotou, a 32
např. u rozdělení typu U bude směrodatná odchylka poměrně velká a v takovém případě tedy použití mediánu nedoporučuje. Při skupinovém rozdělení četností se dá směrodatná chyba kteréhokoliv procentilu vyloučit, neboť tu jde σ z rovnice vyloučit. Při hledání směrodatné chyby rozdílu mezi dvěma procenily ve stejném rozdělení četností nejsou chyby dvou takových procentilů na sobě nezávislé – v tomto případě stanovuje korelaci mezi chybami dvou procentilů. Za použití hodnoty korelace mezi procenily pak počítá směrodatnou chybu poloviční vzdálenosti obou kvartilů pro normální křivku. V závěru jsou uvedeny směrodatné chyby některých důležitých konstant: směrodatné odchylky, variačního koeficientu, míry korelace, míry regrese a korelačního poměru. U uvedených vztazích však lze uvažovat pouze za podmínek, že výběr není malý a jsou splněny podmínky prostého náhodného výběru. Navazujíce na teorii náhodného výběru je ještě důležité zmínit doplněk ke kapitole XVII., nazvaný „Přesnost souhlasu“. Tento pojednává o vybrané části z matematické statistiky – o neparametrických testech statistických hypotéz. Výhodou těchto testů je, že nepotřebují prakticky žádnou znalost pravděpodobnostního rozdělení. Výklad se zabývá testem dobré shody, na základě prací Pearsona, Fishera a Yuleho.
Závěrem Yuleho „Úvodu do teorie statistiky“ jsou uvedeny tři dodatky: první podává výklad o tabulkách k usnadnění statistických výpočtů, druhý obsahuje krátký seznam prací o matematické teorii statistiky a o teorii pravděpodobnosti. Třetí dodatek obsahuje seznam literatury, na základě citací, které Yule připojuje ke každé kapitole. Citovaná literatura je uspořádána chronologicky podle jazyka, jímž je psána. Na místo, kde byly v původním díle uvedeny výsledky úloh, vložili překladatelé návody a výsledky řešení úloh, které zpracoval Dr. František Nachtikal. Do samého závěru knihy je vložen seznam značek, přehled vzorců a rejstřík.
33
3.2 Stanislav Kohn: Základy teorie statistické metody Kohnovy „Základy teorie statistické metody“ jsou první, původní, česky psanou učebnicí statistiky z 20. let 20. století. Vznikly z vysokoškolských přednášek konaných prof. Kohnem22 po řadu let původně v Tbilisi na Kavkazu, pak v Paříži a v Praze. Kniha má za účel podat přehledný výklad základů moderní teorie statistické metody. Byla určena jak pro vysokoškolské studenty různých oborů tak také pro široký okruh statistiků – praktiků. V prvních kapitolách jde o výklad určený spíše pro praktiky – nematematiky, další kapitoly jsou obtížnější a jsou určeny pro čtenáře, kteří si osvojili vyjadřování ve formě matematických symbolů. Poměrně nejsložitější, pokud se týče matematického vyjadřování, je kapitola XIV. o stochastické závislosti mezi kvantitativními znaky a kapitola XV. o pojmech z oboru korelace mezi několika znaky. Autorovi jde hlavně o důkladné pochopení smyslu základních matematických symbolů. První část knihy obsahuje statistické popisování skutečností, tedy oblast popisné statistiky, druhá část zkoumání příčinných souvislostí četných složitých problémů, tedy teorii pravděpodobnosti a některé oblasti matematické statistiky. Jde také o syntézu myšlenkových směrů z různých zemí a z různých historických období. Na základě této syntézy je sestavena tato kniha. Syntéza využívá výsledků různých směrů, ale je zakotvena v určitých jednotných základních názorech. Jedním z takových základních názorů je důsledné zachování teorie statistiky o teorii pravděpodobnosti a to mnohem důslednější než tomu bylo u anglické školy. Toto „stochastické“ hledisko (bylo zvláště propracováno A. A. Čuprovem), uznával značný počet teoretiků hlavně z kontinentálních zemí. Uvažovali zpravidla o statistických veličinách jako o „náhodou ovlivněných výrazech určitých pravděpodobnostních (apriorních) veličin“ charakterizujících soustavu objektivně existujících možností. Přesným odlišením a vymezením empirických statistických veličin od těchto apriorních veličin se odklánějí od empirismu anglické školy. Základem apriorních veličin je pak sama pravděpodobnost, které je pro její význam při aplikaci na skutečné statistické jevy, a jejímu rozboru, věnována v druhé části knihy značná pozornost. Kohn zastává stanovisko tzv. objektivní pravděpodobnosti, a její pojem chápe na základě koncepce Kriesovy a Ellisovy, která dle něho nejsnáze objasňuje problémy jako např. zákon velkých čísel. Tuto koncepci uplatňuje i v kapitolách o stochastické závislosti, kde klade důraz zejména na rozbor apriorních charakteristik. V kapitolách o stochastické závislosti mezi kvalitativními znaky a korelaci mezi několika znaky se výklad drží 22
Stanislav Kohn (1888-1933) byl od r. 1918 profesorem statistiky na polytechnice v Tiflisu (Tbilisi). Od r. 1921 žil v emigraci, nejdříve v Paříži a od r. 1923 v Praze, kde působil jako soukromý docent statistiky na Ruské právnické fakultě.
34
Pearsonova a zvláště Yuleho podání, se zdůrazněním, že se zde jedná o zkoumání pravděpodobnostních, tedy „volných“ příčinných vztahů. Zvláštní postavení zaujímají kapitoly o teorii indexních čísel a o zkoumání časových řad, které má spíš ráz zvláštního pojednání, s četnými odkazy na původní literaturu pro četnost i vzájemně si odporujících názorů v oblasti konjunkturních bádání. V ostatních kapitolách jsou odkazy na příslušnou literaturu omezeny na minimum a vloženy do hlavního přehledu literatury na konci knihy. Kniha má rozsah 485 stran včetně obsáhlého přehledu české i zahraniční literatury, přehledně roztříděná podle příslušných kapitol knihy, nechybí ani seznam použitých značek a na závěr je uveden jmenný rejstřík.
Kniha se zaobírá následujícími oblastmi statistiky:
1. Úvod – podstata statistické metody, statistika popisná a matematická, co je statistika
2. Část I. – Statistické popisování skutečnosti a. Kap. I. – Základní pojmy: statistický soubor, měnlivost znaků b. Kap. II. – Popisování souborů z hlediska kvalitativních znaků: poměrné četnosti, jiná poměrná čísla, poměrné četnosti znaků a událostí c. Kap. III. – Popisování souborů z hlediska kvantitativních znaků.
Rozdělení četností a jeho grafické znázorňování: tabulky rozdělení četností, velikost, hranice a rovnost intervalů, technika třídění, grafické znázorňování rozložení četností, ideální křivky četností, typy rozdělení četností, vícevrcholové rozdělení četností d. Kap. IV. – Popisování souborů z hlediska kvantitativních znaků
(pokračování). Střední hodnoty: střední hodnoty obecně, aritmetický průměr, poměrná statistická čísla, vlastnosti aritmetického průměru, způsoby výpočtu aritmetického průměru, vážený aritmetický průměr, různý význam aritmetického průměru ve vztahu ke tvaru rozdělení četností, typické a netypické průměry, medián, modus, geometrický průměr, harmonický průměr, úvahy o středních hodnotách. 35
e. Kap. V. – Míry variability (rozptylu): základní pojmy, směrodatná odchylka a průměrná čtvercová odchylka, výpočet směrodatné odchylky, směrodatná odchylka celkového souboru a směrodatné odchylky dílčích souborů, pravidlo „šesti sigma“, variační koeficient, průměrná odchylka, kvartily, míry nesouměrnosti f. Kap. VI. – Indexní čísla: pojem indexních čísel, zásady sestavení cenových indexů, struktura indexů, kriteria vhodnosti indexních vzorců, nezvážené indexy, zvážené indexy
3. Část II. – Statistické bádání o příčinných spojeních a. Kap. VII.–Pevné a volné příčinné spojení, pojem pravděpodobnosti: pevné spojení a metody indukce, podstata volného příčinného spojení a pojem pravděpodobnosti jako jeho charakteristiky, matematický pojem pravděpodobnosti, věta o sčítání a násobení pravděpodobností b. Kap. VIII. – Pojem pravděpodobnosti v případě mnohosti příčin: charakteristika volného spojení v případě mnohosti příčin, mnohost příčin a následků, Bayesova věta c. Kap. IX. – Zákon velkých čísel: vztah empirických poměrných
četností jevů k jejich pravděpodobnostem: podstata zákona velkých čísel, postup matematického důkazu zákona velkých čísel, binomické rozdělení, Laplaceův vzorec a Bernouliho věta, pojem modulu, „obrácení“ Bernouliovy věty a Laplaceova vzorce, Laplaceův integrál a „normální“ křivka, vlastnosti normální (Gaussovy) křivky d. Kap. X. – Volné příčinné spojení a zákon velkých čísel v případě
kvantitativních znaků: zákon rozdělení a matematická naděje, základní poučky o matematických nadějích, střední chyba, další poučky o matematických nadějích, mat. naděje a aritmetický průměr, Čebyševova nerovnost, proměnlivá matematická naděje, Laplaceův integrál, formulace zákona velkých čísel e. Kap. XI. – Empirické přezkoušení a podmínky platnosti zákona
velkých čísel (z.v.č.): empirické přezkoušení z.v.č. v oboru umělých pokusů a her, otázka platnosti z.v.č. pro přirozeně probíhající jevy skutečného života, použitelnost pojmu pravděpodobnosti, podmínky
36
„nezávislosti pokusů“ a „stálosti pravděpodobnosti“ f. Kap. XII. – Stabilita statistických čísel: stabilita statistických čísel a její původní vědecká interpretace, stabilita ve světle teorie pravděpodobnosti, výsledky měření stability, úvahy, příklad výpočtu koeficientu divergence
g. Kap. XIII. – Stanovení stochastické (kolektivní) závislosti. Závislost mezi kvalitativními znaky: Pojem stochastické závislosti mezi kvalitativními znaky, základní apriorní kritéria kolektivní závislosti mezi kvalitativními znaky, možnost obrácení stochastické závislosti, charakteristiky kolektivní závislosti, míra asociace při množném třídění, dílčí asociace, metoda „porovnávání řad“
h. Kap.XIV.–Stochastická závislost mezi kvantitativními znaky: základní pojmy, zkoumání korelační závislosti, míra kontingence, lineární regrese, normální korelace, nelineární korelace, charakteristiky kolektivní závislosti mezi kvantitativ. znaky, odchylky empirických charakteristik korelační závislosti od apriorních, koeficient korelace, indukční metody
i. Kap. XV. – Základní pojmy z oboru korelace mezi několika znaky: dílčí korelace, kombinační tabulky, apriorní a empirické charakteristiky dílčí korelace, dílčí korelační poměr a koeficient, regresní rovnice pro 3 znaky, zobecnění vztahů pro větší počet znaků
j. Kap. XVI. – Symptomatické změny statistických čísel průběhem doby: trendy, sezónní kolísání, cyklická a nepravidelná kolísání, metoda postupných rozdílů, korelace časových řad, korelace a kovariance, synchronická a asynchronická korelace, „pohyblivá“ korelace
k. Přehled literatury dle jednotlivých hlav
Na začátku chci upozornit, že se ve svém rozboru Kohnovy učebnice zaměřuji hlavně na druhou oblast, která je věnována teorii pravděpodobnosti a některým oblastem matematické statistiky, abych tak navázal na Yuleho dílo, který se této látce nevěnoval dostatečně podrobně, jako tomu je právě v Kohnově díle. Rovněž výklad metod z oblasti statistiky je v obou učebnicích velice podobný, u Kohna však je přece jen zaměřený více k praktického účelu, kdy se věnuje zejména slovnímu výkladu a vzorce nebo jejich odvozování se snaží redukovat na minimum. Pro úplnost však uvedu všechny důležité metody a postupy, zvláště s ohledem na ty, které jsou pro danou učebnici statistiky charakteristické. 37
3.2.1 Statistické popisování skutečnosti (idiografický úkon statistické metody) Úvodem definuje statistický soubor jako souhrn předmětů určitého druhu a objasňuje měnlivost znaků, které rozděluje na kvalitativní a kvantitativní. Z hlediska kvalitativních znaků pak uvádí pojem poměrných četností, jako podílu pozorovaného znaku u jednotek k celkovému počtu jednotek. V případě kvantitativních znaků, kdy znak nabývá několika nebo mnoha obměn, zavádí třídění a uspořádání údajů do tabulky rozložení četností, vysvětluje rozdíly v případech spojitých a nespojitých obměn, kdy sestavuje intervalové četnosti. Jako postup při stanovení velikosti intervalů doporučuje přidržet se celkového rozpětí o velikosti 15-20 intervalů, přičemž je potřeba dbát na dodržování rovnosti intervalů, aby bylo možné udržet si představu o charakteru rozložení znaku. Tuto představu už zprostředkovává právě tabulka rozložení četností, ale ještě lépe její grafické znázornění na ose souřadnic, kde uvádí histogram a polygon četností a naznačuje význam přechodu od polygonu četností k frekvenční křivce – ideální křivce četností. Dále se zabývá základními typy rozložení četností od souměrného (symetrického) přes mírně nesouměrné (asymetrické), krajně nesouměrné k rozdělení četností „typu U“ a také zmiňuje mnohovrcholová rozdělení četností. Popisu souboru z hlediska kvantitativních znaků se zabývá IV. kapitola o středních hodnotách a následující V. kapitola o mírách variability (rozptylu). Obecně mají střední hodnoty za úkol charakterizovat rozdělení hodnot znaku v souboru, jsou stručnými charakteristikami výše hodnot znaku v souboru, polohy frekvenční křivky na ose úseček. Mezi nejznámějšími a nejpoužívanějšími uvádí aritmetický průměr, který označuje za typickou statistickou charakteristiku, protože podává představu o souboru jako celku. Podává výklad jeho 3 nejdůležitějších vlastnosti: a) nulový součet odchylek všech jednotek od a. průměru, b) možnost vyjádření celkového a. průměru souboru z jeho dílčích a. průměrů, c) a. průměr součtu nebo rozdílu hodnot dvou znaků v souboru se rovná součtu resp. rozdílu a. průměrů těchto souborů. Z této třetí vlastnosti vychází při odvození váženého aritmetického průměru a vysvětluje pojem vah u statistických jednotek a uvádí případy, za jakých podmínek je oprávněné jeho použití. Vysvětluje význam aritmetického průměru s ohledem na tvar rozložení četností ve srovnání s nejčetnější hodnotou znaku u souměrných a nesouměrných rozdělení četností a rozlišuje průměry typické a netypické23. Medián je prostřední centrální hodnotou znaku, lze ho v souboru snadno určit a naproti aritmetickému průměru nepodléhá vlivu extrémních hodnot. Modus je nejčetnější 23
Toto dělení zavedl belgický astronom a teoretik statistiky A. Quetelet
38
hodnotou znaku, užitečně doplňuje aritmetický průměr zejména v případě nesouměrných rozdělení. Mezi dalšími variantami průměrů je zařazen geometrický a harmonický průměr. Další vlastností rozdělení četností je stupeň variability (měnivosti, kolísání) znaku od jednotky k jednotce souboru, nazývaný rozptylem znaku. Základní charakteristikou je směrodatná odchylka (σ), která je průměrem čtverců odchylek od aritmetického průměru a její obecnější podoba průměrná čtvercová odchylka (s) (od libovolné veličiny A). Je uveden jejich vzorec i vzájemný vztah, výpočty (kromě obecného výpočtu i způsob založený na sečítání četností) a odvození. V případě výpočtu z intervalového členění četností zmiňuje tzv. Sheppardovu opravu, která vede ke zpřesnění výsledků směrodatné odchylky. V souvislosti se směrodatnou odchylkou ještě uvádí pravidlo „šesti sigma“. Méně používanou mírou variability je také průměrná odchylka, která vychází ze součtu absolutních veličin odchylek. Kvartily rozdělují členy řady na čtyři části, rozlišuje se spodní a vrchní kvartil a za míru variability slouží rozdíl mezi mediánem a každým z kvartilů. Charakteristikou relativní míry variability je variační koeficient (V), podíl směrodatné odchylky k aritmetickému průměru. Charakteristikou souboru z hlediska souměrnosti nebo nesouměrnosti rozložení četností je podíl z rozdílu aritmetického průměru a modu ku směrodatné odchylce, nazývaný mírou nesouměrnosti. Kapitola VI. je věnovaná problému indexních čísel, rovněž souvisí s teorií středních hodnot a týká se zejména statistické praxe. Kohn zařadil jeho výklad na konci první části knihy před druhou částí věnovanou příčinným vztahům mezi statistickými jevy. Nejdříve vysvětluje pojem indexních čísel (indexů) jako čísel zohledňujících změny statistických jevů v čase. Zmiňuje zde základní Edgeworthovu definici indexních čísel, který definoval indexní číslo jako „číslo, jež svými změnami charakterizuje zvětšení nebo zmenšení nějaké veličiny, jíž nelze přesně měřiti“. Abychom obdrželi číslo za všechny zkoumané jednotky, zavádíme úhrnné indexy, měřící změnu studovaného jevu v celku. Protože největší význam mají indexní čísla v oboru studia cen, jsou příklady zde uvedené zaměřené na tuto oblast. Nejdříve vymezuje zásady sestavení cenových indexů se zřetelem k účelu, jemuž slouží, s důrazem na a/ sestavení statků, na jejichž ceny se zaměřuje, b/ charakter cen, c/ otázku složení indexu po stránce matematické. Z hlediska formálního složení rozlišuje tři druhy indexů: 1/ průměry z jednoduchých indexů (tj. cenových poměrů) pro dvě různá časová období, 2/ poměry průměrů cen pro dvě různá období, 3/ poměry jakýmkoliv způsobem utvořených celkových obnosů pro dvě různá období. Pro konstrukci ∑ p1q 0 , kde p1 jsou jednotlivých variant indexních vzorců vychází z Laspeyresova indexu: ∑ p 0q 0 ceny statků v pozorovaném období, p0 jsou ceny v základním období a q0 příslušná množství statků v základním období. Pro zjištění vhodnosti aplikování různých forem 39
indexů pro konkrétní případ zavádí kritéria vhodnosti indexních vzorců24, tzv. zkoušku se záměnou času a zkoušku se záměnou činitelů. Teorii zkoumání vhodnosti volby indexního vzorce se věnoval také prof. Bortkiewicz, který popsal metodu zkoušky interkalace25, násobením indexů pro tři různá časová období. Tato zkouška má také praktický význam v případě, kdy je potřeba převést již dříve vypočtený index na novou základnu. Mezi zkoušky se záměnou činitelů potom řadí např. zkoušku totožnosti, zkoušku proporcionality a zkoušku nezávislosti. Indexy dále dělí na nezvážené a zvážené. Mezi nezvážené indexy řadí indexy sestrojené na základě hlavních středních hodnot (aritmetický, geometrický, harmonický průměr, medián a modus), mezi nimiž je nejvhodnější index na základě geometrického průměru. Mezi zvážené indexy řadí např. index sestrojený na základě vzorce váženého aritmetického průměru a vzorec anglického ekonoma J. Love-a26, který vyhovuje zkoušce se záměnou času i zkoušce interkalace. Teorii indexů a jejich praktickému použití se věnovali zejména prof. Irving Fisher, který ve své knize uvádí seznam o rozsahu 134 užívaných indexů a prof. Bortkiewicz, který formuloval zkoušky vhodnosti indexů.
3.2.2 Statistické zkoumání příčinných souvislostí (nomotetický úkon statistické metody) Zatímco první část knihy zkoumala statistické jevy z hlediska jejich charakteristiky a popisu, druhá část již hledá mezi statistickými jevy nějakou vazbu. Výklad je zaměřen jednak na teorii pravděpodobnosti, tak na některé části z oblasti matematické statistiky, hlavně korelaci a regresi, zatímco moderní metody matematické statistiky zde nenajdeme. V kapitolách věnovaných teorii pravděpodobnosti najdeme např. klasickou definici pravděpodobnosti, větu o sčítání pravděpodobnosti pro disjunktní náhodné jevy a větu o násobení pravděpodobností pro nezávislé náhodné jevy. V dalších částech následuje výklad Bayesovy věty, binomického rozdělení, Bernoulliovy věty, normálního rozdělení. Následující kapitoly se věnují studiu náhodných veličin, najdeme zde výklad střední hodnoty a rozptylu diskrétní náhodné veličiny, výklad stochastické závislosti mezi 24 25
Této otázce věnoval pozornost prof. Irving Fisher ve svém díle „The Making of Index Numbers“ (1922). Známou také jako „kruhová zkouška“.
∑ 26
Vzorec dle J. Love-a má tento tvar: I =
p1 ⋅ p 0q ∑ p1q p0 = ∑ p0q ∑ p 0q 40
kvalitativními a kvantitativními znaky. Závěrečná kapitola podává výklad o časových řadách. Při používání statistické metody při studiu nomotetického zkoumání se hovoří o „volných“ příčinných spojeních. Ke studiu „pevných“ příčinných spojení slouží metody indukce (metody experimentální, opírající se o všeobecný princip kauzality) – těmto zde není věnována pozornost, čtenář je odkázán na příslušnou literaturu z oboru logiky. Podstata volného příčinného spojení spočívá v mnohosti příčin, tedy z daného jevu, který považujeme za příčinu, plyne další jev, který považujeme za následek, ne s nutností, ale s určitou pravděpodobností. Podobným způsobem se může mluvit o mnohosti příčin. Charakteristiku těsnosti příčinného spojení nazývá pravděpodobností, kterou v objektivním smyslu27 definuje jako „poměr počtu možných maximálně konkrétních průběhů příčiny, které nutně vedou k výsledku nás zajímajícímu, k celkovému počtu všech možných maximálně konkrétních průběhů příčiny“. Při zkoumání pravděpodobnosti rozlišuje určení pravděpodobnosti apriori nebo aposteriori. Druhá možnost je určena následným pozorováním, první možnost předpokládá dodržení určitých podmínek a přistupuje na formulaci klasické definice pravděpodobnosti, že „pravděpodobnost události je poměr počtu stejně možných vzájemně se vylučujících případů příznivých danému výsledku k celkovému počtu stejně možných vzájemně se vylučujících případů“. Na tuto definici navazuje větou o sčítání a násobení pravděpodobností, kdy vychází ze souvislostí, existujících mezi pravděpodobnostmi událostí jednoduchých a událostí složitých. U věty o násobení rozlišuje případ nezávislosti událostí, v případě závislosti případů hovoří o podmíněné pravděpodobnosti. Nakonec oba případy zmiňuje na konkrétních příkladech s tažením koulí z osudí. Při zkoumání charakteru volného spojení v případě mnohosti příčin, který představuje určitý případ zobecněné podmíněné pravděpodobnosti, uvádí Bayesovu větu28: „pravděpodobnost toho, že daný následek nastal, způsoben určitou z možných svých příčin, rovná se zlomku, jež má v čitateli součin pravděpodobnosti této příčiny a podmíněné pravděpodobnosti nastoupení následku v předpokladu, že tato příčina se uplatnila, a ve jmenovateli součet obdobných součinů pro všechny možné příčiny následku“. Význam Bayesovy věty je, kromě konstrukce pravděpodobností v případě mnohosti příčin také při odvozování zákona velkých čísel. Zákonu velkých čísel29 se věnuje kapitola IX. o vztahu empirických poměrných 27
Pojem objektivní pravděpodobnosti byl vypracován zejména A.Cournotem, R.Ellisem, J.Kriesem a A.Čuprovem. Pojmenovaná podle jména významného anglického matematika XVIII. století Thomase Bayese 29 Odůvodnění a podložení zákona velkých čísel najdeme ve spisech matematika XVII. století J. Bernoulliho. 28
41
četností jevů k jejich pravděpodobnostem. Jeho obecná formulace praví, že „jsou-li jevy ve vzájemném volném příčinném spojení, pak při dostatečně velikém počtu pozorování nebo pokusů jsou empiricky pozorované četnosti jevů blízké jejich pravděpodobnostem; ty jsou jim tím blíže, čím je větší množství pozorování“. Svou matematickou formulací je tento zákon větou počtu pravděpodobnosti. Na obecný postup důkazu zákona velkých čísel navazuje výklad binomického rozložení. To je charakterizováno sérií pokusů, kdy znakem v tabulce četností je počet opakování události a namísto četností jsou udány pravděpodobnosti těchto ⎛n ⎞ různých hodnot znaku. Je specifikováno dle vzorce: ⎜⎜ ⎟⎟( p ^ m)((1 − p )^ (n − m)) , kde p je ⎝ m⎠ pravděpodobnost vyskytnutí jevu B při jednotlivých pokusech, n počet pokusů. Určuje jeho vlastnosti, průměr i směrodatnou odchylku. Uvádí Laplaceův vzorec, řešící úlohu výpočtu pravděpodobnosti toho, že se poměrná četnost události neodchýlí od pravděpodobnosti události více než o určitou veličinu, a na něj navazující Bernoulliho větu, kteá vymezuje vztah mezi zvětšování počtu pokusů a této pravděpodobnosti. Zavádí také pojem modulu, jako míru mezních odchylek poměrných četností událostí od jejich pravděpodobnosti. Pro praktické využití zmiňuje na příkladech případ „obrácení Bernoulliho věty“ a Laplaceova vzorce formou úpravy jeho vzorce. Dále uvádí formulaci Laplaceova integrálu, jeho rozdělení, které znamená určitý tvar symetrického rozdělení, nazývaného „normální
rozdělení“ a křivka, zobrazující toto rozdělení, se nazývá „normální“ nebo Gaussova křivka. Pro toto rozdělení stanovuje rovnici normální křivky, tvar a vlastnosti křivky a odvozuje základní vztahy a vztahy mezi momenty normálního rozdělení. X. kapitola zkoumá volné příčinné spojení v případě kvantitativních znaků. Jedná se o studium náhodných veličin, které nazývá „nahodilými proměnnými“. Definuje zákon rozdělení četností jako „systém všech kvantitativních hodnot, kterých může znak za daných podmínek nabývat, a pravděpodobností těmto hodnotám příslušejícím“. Stejně jako v případě empirického rozdělení četností i v tomto případě se zajímá o nalezení stručnějších charakteristik, které vyjadřují rozložení jedním číslem. Těmito jsou střední hodnota (nazývaná matematická naděje) a rozptyl (čtverec střední chyby). Aritmetický průměr udává obecnou výši znaku, matematická naděje udává očekávanou obecnou výši znaku, plynoucí z pravděpodobností všech jeho možných hodnot. Uvádí základní poučky o matematických nadějích, např. o matematické naději součtu nebo součinu dvou veličin. Jako charakteristiku variability udává střední chybu, kterou definuje jako odmocninu ze čtverců odchylek od matematické naděje. Využívajíc poučky o pravděpodobnostech odchylek proměnné veličiny od její matematické naděje též na takovou proměnnou veličinu jako je součet několika nezávislých proměnných veličin, odvozuje Čebyševovu nerovnost30, 30
Nerovnost byla poprvé dokázána r. 1866 ruským matematikem P. L. Čebyševem.
42
která je zde odvozena z tzv. Markovova lemmatu. Při hledání pravděpodobností matematické naděje, nebo jejích mezích i v případě poměrných četností pracuje s Laplaceovým integrálem, který dává jen přibližné výsledky, tím přesnější, čím je větší počet pozorování. Matematici věnující se problematice zákona velkých čísel byli např. Poisson, Markov, A. A. Čuprov či Bortkiewicz. Celá XI. kapitola se věnuje empirickému přezkoušení a podmínkám platnosti zákona velkých čísel. V oblasti umělých pokusů a her je možnou formou přezkoušení srovnáním poměrné četnosti nějaké události v řadě provedených pokusů s její apriorní pravděpodobností. Věnovali se jim např. francouzský matematik Buffon, či dánský statistik H. Westergaard. K vyjádření stupně shody mezi empirií a teorií je možné také použít koeficientu divergence, který je poměrem faktické směrodatné odchylky a střední chyby. Kapitola XII. nastoluje otázku stability statistických čísel a snaží se o její vědeckou interpretaci. Při porovnávání statistických čísel charakterizující určité jevy sociálního života (absolutní a poměrné četnosti událostí, průměrné hodnoty), která následují v řadě let za sebou, obsahují nápadnou stabilitu. Otázkou se z vědeckého hlediska zabýval zejména zakladatel statistické metody Belgičan Adolf Quetelet. Z pravděpodobnostního hlediska navozuje otázka stability čísel mnohé deterministické koncepce. Metodu měření stability statistických čísel vypracoval W. Lexis a k výpočtu míry stability použil koeficient divergence a určil tři stupně disperze (stupně stability): normální, nadnormální a podnormální. Tyto deterministické koncepce však nenacházejí na základě měření své opodstatnění. Následující dvě kapitoly pojednávají o stochastické (kolektivní) závislosti mezi
kvalitativními a kvantitativními znaky. V případě znaků kvalitativních se mluví o asociaci mezi znaky, v případě kvantitativních znaků se hovoří o korelační závislosti. Nejdříve se kniha zaměřuje na případ kvalitativních znaků. Stochastická závislost spočívá v tom, že při existenci znaku A se mění pravděpodobnost výskytu znaku B. Závislost může být buď „přímá“ (kladná) nebo „nepřímá“ (záporná) – kolektivní závislost mezi znaky není – znaky jsou nezávislé. Udává se základní značení pro znaky A a B, kde pravděpodobnost existence znaku A značí pA, obdobně pro znak B, a pravděpodobnost neexistence znaku značí pα. Podmíněné pravděpodobnosti značí pB(A), pro případ vyskytnutí B za předpokladu existence A. Dále stanovuje základní vztahy pro stochastickou závislost, podmínky přímé, nepřímé závislosti i nezávislosti a uvádí apriorní kritéria nezávislosti pro dva kvalitativní znaky. Zmiňuje možnost „obrácení“ stochastické závislosti, když v případě podmíněné závislosti jevů neznáme, co je příčina a co je následek závislosti. Apriorní charakteristiky nejsou dostupné bezprostřednímu pozorování, ale lze na ně usuzovat podle empirických charakteristik. Tyto mají podobu poměrných četností jednoho znaku v souboru případů za 43
přítomnosti či nepřítomnosti druhého znaku, kritéria v tomto případě nazývá empirickými kritérii závislosti. V tomto případě se musí počítat s prvkem nahodilosti, který je v každé empirické poměrné četnosti přítomen. Významnost rozdílu v podílech četností pak prokazuje výpočtem tzv. střední chyby rozdílu. Mezi mírami stochastické závislosti mezi kvalitativními znaky uvádí Yuleho „koeficient asociace“, v případě pevné závislosti Pearsonův koeficient „korelace“, a při množném třídění znaků Pearsonovu míru „kontingence“. V praktickém příkladě demonstruje např. metodu „porovnávání řad“, která zkoumá závislost poměrných četností znaků pro různé oblasti. V případě tzv. dílčí asociace vystupuje mezi zkoumanými dvěma znaky A a B ještě znak C, který může způsobovat zprostředkovanou kolektivní závislost mezi A a B, eliminování takového znaku je možné kombinovaným tříděním pozorovaných případů podle dvou znaků A a B. Metody užívané při zkoumání kolektivní závislosti nejsou indukčními metodami, které jsou založeny na jediném pozorování nebo experimentu, nýbrž operují hromadným pozorováním a jeho závěry jsou pravděpodobnostního charakteru. Hromadný charakter pozorování spočívá v tom, že každá dvojice pozorování se musí opírat o velké množství pozorování.
Stochastickou závislostí mezi kvantitativními znaky se zabývá XIV. kapitola. Mezi dvěma kvantitativními znaky existuje stochastická závislost tehdy, když se při změně číselných hodnot jednoho znaku mění pravděpodobnosti jednotlivých hodnot druhého znaku. Tuto kolektivní závislost nazývá korelační závislostí nebo korelací (souvztažností) a znaky, jež jsou navzájem v korelační závislosti, nazývá korelovanými. Závislost může být přímá (kladná), nepřímá (záporná), nebo se mluví o nepřítomnosti korelační závislosti. Podstatu korelační závislosti odlišuje od prosté funkční závislosti to, že každé dané hodnotě X odpovídá celá řada hodnot znaku Y a naopak. Grafické znázornění korelační závislosti nazývá tzv. korelačním polem, čáry, znázorňující pohyb středních hodnot jednoho znaku, odpovídajících hodnotám druhého znaku, nazývá regresními čárami. Nejdříve se zabývá elementárními (nematematickými) způsoby zkoumání korelační závislosti – jde o vzájemné srovnávání číselných hodnot dvou znaků v řadě pozorovaných případů jevu a určení toho, jak dalece v případě vyšších hodnot jednoho znaku převládají průměrně vyšší hodnoty druhého znaku – tedy např. již dříve zmiňovaná metoda „porovnávání řad“. Dále se věnuje konstrukci korelační tabulky a jejímu grafickému znázornění narýsováním čar regrese. Na základě popisu a výkladu regresních čar, v případě lineární regrese, kdy mají čáry tvar přímky, stanovuje regresní rovnice, regresní koeficienty. Regresní koeficienty určuje metodou nejmenších čtverců. Mírou lineární závislosti je korelační koeficient: r =
μX , Y , σX .σY
který se rovná střední hodnotě součinu odchylek X a Y od jejich středních hodnot, dělené
44
součinem středních chyb X a Y a nabývá hodnot v intervalu <-1,1> podle směru a síly závislosti. Korelační koeficient měří stupeň (sílu) lineární závislosti, vedle něho lze zkonstruovat ještě korelační poměr, který je v případě lineární regrese shodný s korelačním koeficientem. Jako případ lineární regrese uvádí tzv. „normální korelaci“, kdy je soustava pravděpodobností X a Y určena úplně korelačním koeficientem a každý ze znaků X a Y se řídí normálním rozdělením. Naproti tomu v případě nelineární regrese, kdy regresní čára nemá tvar přímky, ale nějaké křivky, pro úplný popis už nestačí dva koeficienty jako v případě přímky, a jako míra závislosti slouží korelační poměr. Obdobně jako v případě kvalitativních znaků, také v tomto případě nelze v praxi pozorovat apriorní charakteristiky stochastické závislosti mezi kvalitativními znaky. Na základě omezeného počtu empirických pozorování jsou dostupné empirické charakteristiky kolektivní závislosti. Jsou uvedeny vzorce pro empirickou variantu míry kontingence, empirický korelační koeficient i empirické regresní koeficienty. Pro případ nelineární regrese stanovuje empirickou obdobu korelačního poměru a ještě „index korelace31“, který udává střední míru přesnosti, s jakou určíme každou hodnotu Y na základě hodnoty X, použijeme-li rovnice proložené „teoretické“ regresní křivky. Aby se výsledky vypočtených empirických charakteristik daly považovat za spolehlivé, je potřeba stanovit jejich střední chyby (koeficientu korelace, koeficientů regrese,korelačního poměru atd.) a porovnat je s vypočtenými výsledky – tímto se eliminuje vliv nahodilých chyb. Závěrem kapitoly je uveden výpočet koeficientu korelace mezi čísly natality a úmrtnosti v 28 guberniích Ruska v letech 1909-1913. Vypočtený koeficient r=+0,86 naznačuje silnější přímou lineární závislost. O základních pojmech z oboru korelace mezi několika znaky pojednává XV. kapitola. Věnuje se zejména případu, kdy se při zkoumání korelace mezi dvěma znaky domníváme, že korelace zjištěná mezi nimi je způsobena nějakým třetím znakem, jenž je v korelaci s prvním i se druhým znakem, a že první dva bezprostředně zkorelovány nejsou. Problematice „dílčí korelace“ se však věnuje jen v nejzákladnějších rysech vzhledem k matematické obtížnosti látky. V případě eliminace vlivu třetího znaku (zprostředkujících znaků může být i více) lze postupovat např. tím, že se celkový soubor pozorování roztřídí na dílčí soubory podle hodnot třetího znaku a v těchto dílčích souborech se zkoumá korelace mezi X a Y. Na této myšlence je založena metoda „kombinačních tabulek“. V matematické podobě pak stanovuje podobu apriorních charakteristik dílčí korelace – podmíněné pravděpodobnosti událostí, podmíněné apriorní charakteristiky rozdělení znaků, podmíněné střední hodnoty, 31
Index korelace navrhl prof. Mills ve své knize „Statistical Metod“.
45
podmíněné střední chyby a také podmíněné charakteristiky korelace mezi znaky. Od apriorních veličin odvozuje empirické veličiny a řeší příklad výpočtu průměrného koeficientu korelace pro 72 zemědělských závodů Penzenské gubernie v Rusku (1926). Protože výpočet průměrů z podmíněných měr korelace je dosti pracný, naznačuje zde také možnost výpočtu dílčího korelačního poměru a dílčího korelačního koeficientu, za předpokladu, že závislost Y na Z je „homoskedastická“. K pojmu a vzorci „koeficientu dílčí korelace“ lze dojít i na základě matematických úvah v případě regresní rovnice pro 3 znaky. Koeficient dvojnásobné korelace mezi X a Y definuje jako koeficient korelace mezi skutečnými hodnotami X a těmi hodnotami, které vyplývají pro ně z regresní rovnice podle Y a Z, obdobně v případě nelineární regrese se jedná o dvojnásobný korelační poměr. Závěrem jsou uvedené vztahy (tvar regresní rovnice, koeficient dílčí korelace) zobecněné pro větší počet znaků a následuje krátká úvaha o významu měr korelace pro statistická bádání. Závěrečná kapitola XVI. o symptomatických změnách statistických čísel průběhem doby se zabývá teorií časových řad. Navazuje na otázku kolísání statistických čísel během doby, nyní však z pohledu symptomatického, ne nahodilého. U těchto řad statistických čísel hledá kolektivní charakteristiky za předpokladů časové i prostorové srovnatelnosti. Rozlišuje tyto druhy časových změn statistických čísel: sekulární pohyb (trend), sezónní kolísání, cyklická kolísání a nahodilé změny. Zjišťováním těchto změn a jejich oddělením se zabývala nejvíce tzv. „Harvardská škola“ a zejména prof. Persons. Vystižení trendu v empirické řadě čísel hledá pomocí proložení těchto čísel křivkami (zejména přímkami, parabolami), jejich parametry vypočítává metodou nejmenších čtverců. Výslednou trendovou rovnici lze zakreslit společně s původní řadou do osy souřadnic pro vizuální kontrolu vystižení tendence časové řady. Tato metoda je podle Harvardské školy účelná zejména v oblasti národohospodářské. Zmiňuje ještě metodu klouzavých průměrů, která spočívá v tom, že posloupnost původních empirických pozorování nahrazuje řadou průměrů vypočítaných z těchto pozorování. Čím větší je perioda pohyblivého průměru, tím více budou zmírněná pozůstalá kolísání. Výhodou je její dobré přizpůsobení náhlým změnám v řadě pozorování. K vystižení sezónních kolísání používá Personsovu metodu „řetězových poměrů“, kdy na základě poměrů pro každý pár měsíců sestavuje tabulku rozložení. Když je z ní případné kolísání patrné, dopočítává střední řetězový poměr za všechna léta a indexy pro všechny měsíce vzhledem k výchozímu. Patrné kolísání může být způsobeno jednak trendem nebo sezónním kolísáním, proto je nutné ještě vyloučit trendovou složku. Další metodou je metoda aritmetických průměrů, podle které se počítá aritmetický průměr z hodnot studované veličiny v daném měsíci pro všechna léta. Aby tyto průměry 46
vystihovaly správně sezónní vlivy musí z nich být rovněž eliminován vliv eventuelního trendu. Metoda32, založená na stanovení procentuálních poměrů jednotlivých měsíčních hodnot k příslušným hodnotám trendu a ve výpočtu určité střední hodnoty z těchto poměrů v jednotlivých letech pro každý měsíc, poskytuje rovněž výhodu Personsovy metody. Když byl určen trend a sezónní kolísání, lze jejich eliminací stanovit cyklická
kolísání. Za tímto účelem vypočítává Harvardská škola měsíční hodnoty trendu, opravené pro sezónní variace. Tyto opravené hodnoty trendu odečítá od původních hodnot veličiny a „zbytky“ považuje za výraz cyklických kolísání včetně nahodilých kolísání, jejichž oddělení považuje za prakticky nemožné. Vyloženou metodou bylo harvardskou školou zanalyzováno značné množství kvantitativních znaků důležitých pro národní hospodářství. Hlavním kritikem Harvardské školy byl ruský statistik O. N. Anderson. Místo metody rozkladu řad na složky navrhoval metodu tzv. „postupných rozdílů“. Metoda vychází ze známé vlastnosti velkého množství funkcí, které statistik může použít pro vystižení empirických řad hladkými křivkami, že totiž při tvoření postupných rozdílů těchto funkcí nastupuje moment, kdy se rozdíly stávají nepatrnými. Základem této metody je předpoklad o náhodné složce, která je výsledkem řady nezávislých pokusů s proměnnou veličinou mající stálý zákon rozdělení četností. Ke studiu sezónních a cyklických kolísání je možné také použít metodu harmonického rozboru nebo metody „periodogramů“. Korelace mezi časovými řadami má svá významná specifika. Jde především o problém tzv. „zdánlivé korelace“, která se může v časových řadách objevit, ale není opodstatněná, protože může souviset např. se shodným trendem obou zkoumaných řad. První metoda měření korelace mezi řadami tedy směřuje k vyloučení trendu, který je hlavní a nejčastější příčinnou zdánlivé korelace. Metoda vypočítává korelace mezi odchylkami hodnot každé řady od příslušného trendu. Alternativou této metody může být tzv. „metoda měření korelace mezi rozdíly empirických řad od vyrovnaných řad“. Vlastností časové korelace je také to, že vliv jednoho jevu na druhý se projevuje teprve po určité době. To umožňuje rozlišení korelace na synchronickou (současnou) a synchronickou (opožděnou). Nakonec je uvedena krátká zmínka o „pohyblivé korelaci“. Ta souvisí s věcnou a časovou platností stochastických závislostí, zvláště mezi sociálními jevy. V případě časových řad je nutné zkonstruovat zvláštní typ korelačního koeficientu, zohledňujícího vývoj závislosti v čase, z nichž nejznámější je varianta „pohyblivého korelačního koeficientu“, založeného na principu analogickému „pohyblivým průměrům“ ruského statistika S. Bobrova.
32
Metodu navrhli roku 1924 společně američtí statistikové H. D. Falkenerová a L. W. Hall.
47
Závěr Kohnových „Základů teorie statistické metody“ obsahuje bohatý výčet české i zahraniční literatury teorie statistické metody, rozčleněné do logických celků důležitých oblastí statistické teorie. Nechybí ani seznam značek a rejstřík s odkazy na čísla stránek, kde se značka nebo výraz objevuje.
4. Vývoj české statistické terminologie Společně se vznikem statistické vědy se začaly objevovat odborné termíny, dané potřebami této vědní discipliny. Protože statistická věda úzce souvisí s matematikou, mnohé statistické výrazy se úzce prolínají s výrazy matematickými. Statistická věda měla své počátky převážně v zahraničních zemích – Německu, Anglii a proto se statistické výrazy přirozeně formovaly právě na základě odborných publikací a studií, pocházejících z těchto zemí. V době, kdy se začaly překládat první statistické příručky do českého jazyka, museli se autoři těchto překladů potýkat s obtížemi, jak dané statistické výrazy přeložit tak, aby věrně vystihovaly svůj původní význam. O těchto problémech hovoří ve své předmluvě Yuleho „Úvodu do statistické teorie“ oba překladatelé Dr. J. Mráz a Dr. V. Novák: „Překlad sám nebyl nikterak snadný, zvláště po stránce odborné terminologie. Dosti potíží působily vhodné překlady mnohých termínů jako: ‚atribut variable, konsistence, contingency, correlation, skewness, sampling, standard deviation, range, array‘ (např. slovo correlation nepřeloženo a ponechán pro ně mezinárodní výraz: korelace). Zvláštní obtíže působilo překládání citované literatury. Často nebylo možno z pouhého nadpisu učiniti si správnou představu o obsahu práce, zvláště když celá řada prací uveřejněných v různých vědeckých časopisech anglických byla překladatelům nepřístupna. Překladatelé byli již rozhodnuti, že nadpisy prací nebudou překládati, na konec však přeložili i je, domnívajíce se, že všeliká nedorozumění jsou vyloučena, jestliže citované práce jsou v oddílech literárních uváděny také – jak se samo sebou rozumí – v jazyku původním.“ Proto bylo hlavním úkolem překladatelů vytvořit vhodný český ekvivalent, a když to nebylo možné, výraz ponechat v jeho původní podobě. Právě kvůli těmto obtížím se v prvních statistických publikacích zpravidla setkáváme s terminologií uváděnou v její české i původní podobě. 48
Navíc první české statistické příručky vznikaly právě v období 20. let 20. století a tak mnohé termíny, uváděné v těchto příručkách, zaznamenaly také svou gramatickou proměnu. Zpravidla však není těžké domyslet ekvivalentní tvar takového výrazu.
5. Závěr Rozvoj statistických metod v česky psané literatuře 20. let 20. století je úzce spojen se zřízením a rozvojem Státního úřadu statistického (SÚS). Začaly být publikovány statistické práce, např. výsledky sčítání lidu, cenové zprávy, statistický přehled zahraničního obchodu apod. V roce 1923 se začala vydávat edice monografií Knihovna Čs. statistického věstníku (později Statistického obzoru), která obsahovala mnoho hodnotných statistických prací a studií. Mezi prvními knihami, které lze považovat za učebnice statistiky patří „Základy statistiky, zvláště pro zemědělce a družstevníky“ jejíž první vydání vyšlo roku 1920. Tato kniha se zabývala zejména statistickou technikou, a byla knihou nematematického rázu. Později, roku 1926 vyšla nákladem SÚS vynikající soudobá učebnice G. U. Yuleho „Úvod do teorie statistiky“, kterou podle 7. vydání přeložili PhDr. Vladimír Novák a JUDr. Josef Mráz. Tato kniha teoretického zaměření, napsaná v intencích anglické statistické školy, byla mezi statistickou veřejností nesmírně populární a vyšla v mnoha vydáních. Roku 1929, opět nákladem SÚS, vychází původní česká učebnice statistiky „Základy statistické metody“ Stanislava Kohna. Kniha se zabývá popisnou statistikou i zkoumáním příčinných spojení, a kromě anglické statistické školy je do značné míry ovlivněna také významnými ruskými statistiky. Ve své práci jsem se snažil navodit ucelený pohled na rozvoj statistických metod v dostupné česky psané literatuře 20. let 20. století, kdy vyšly zejména tyto tři hlavní statistické publikace, které se navzájem doplňují jak svým metodických charakterem, tak oblastí statistického bádání. Krejčího „Základy statistiky, zvláště pro zemědělce a družstevníky“ se zabývají nematematickým výkladem statistické techniky, Yuleho „Úvod do teorie statistiky“ je teoretického zaměření a Kohnovy „Základy teorie statistické metody“ jsou hlavně praktického charakteru. Také česká statistická terminologie, do té doby neustálená, byla na základě těchto prací do značné míry vypracována.
49
5.1 G. U. Yule - životopis G. U. Yule se narodil 18. února 1871 ve farnosti Morhan blízko Haddingtonu ve Skotsku. Studoval tři roky na univerzitní koleji v Londýně inženýrství, kde se poznal s prof. Pearsonem, v té době profesorem aplikované matematiky. Po dvou letech praktické práce se rozhoduje pro vědeckou práci a studuje na univerzitě v Bonnu u prof. Hertze obor o elektrických vlnách. V té době přijímá nabídku asistentství u prof. Pearsona, kde setrvává až do roku 1899. Zde se pod Pearsonovým vedením blíže seznamuje se statistikou a roku 1895 vychází jeho první statistická práce. Od roku 1899 se stává tajemníkem zkušební komise londýnského Městského a cechovního ústavu pro podporu technické výchovy. Během let 1902-1909 přednáší o statistice na Londýnské univerzitě a v té době vypracoval kurs o teorii statistiky, který je základem jeho „Úvodu do teorie statistiky“. Roku 1912 zřídila Cambridgská univerzita zvláštní lektorát statistiky pro Yuleho, který se může opět vrátit k vědecké práci. Členem Královské statistické společnosti se stal roku 1895 a od roku 1923 byl dva roky jejím presidentem. Členem Mezinárodního statistického ústavu byl zvolen roku 1905. Za svého života napsal řadu významných statistických prací, které byly mezi statistiky značně populární. Ve svých drobných statistických pracech se věnuje například statistickému rozboru anglického chudinství, zabývá se teorií korelace, má zásluhu o statistické zpracování kvalitativních znaků použitím logičné algebry a rozvinutí teorie asociace, další práce věnoval teorii náhodného výběru. Jeho hlavním dílem však byl „Úvod do teorie statistiky“, ve které jedinečným způsobem stručně uspořádal výsledky anglické statistické školy. G. U. Yule umírá 26. června 1951 v Cambridge v Anglii.
(obrázek převzat z Yuleho „Úvodu do teorie statistiky“)
50
5.2 Stanislav Kohn - životopis Stanislav Kohn se narodil 2. září 1888 ve Varšavě z židovské rodiny. Zde navštěvoval střední obchodní školu, poté absolvoval 2 semestry na přírodovědecké fakultě v Krakově a záhy odchází na ruskou polytechniku v Petrohradě, kterou absolvoval roku 1911. Kvůli nepříznivým okolnostem se nemůže věnovat zamýšlenému studiu práv, a tak pracuje jako úředník u dobročinného spolku. V roce 1914 vydává svou první vědeckou práci „K otázkám finanční organizace pojišťovacích společenstev“. Následně získává místo přednosty oddělení pro statistiku sociálního pojištění na ministerstvu práce a zástupce přednosty matematicko-statistického oddělení na ministerstvu zemědělství. V roce 1918 přijímá místo ředitele statistiky ve Svazu zemstev v Tbilisi a ve stejné době získává docenturu národního hospodářství a statistiky na Tbiliském polytechnickém ústavě, kde po dobu následujících tří let přednáší. Jeho přednášky tvoří podklad jeho pozdějších českých „Základů teorie statistické metody“. Politické okolnosti tehdejšího Ruska ho vedou k tomu, aby odešel do Paříže. Zde se nejprve věnuje převážně otázkám národního hospodářství a roku 1922 se stává členem Pařížské statistické společnosti. Roku 1923 opouští Paříž, a přichází do Prahy, kde přijímá místo docenta ruské právnické fakulty. Stává se také spolupracovníkem v národohospodářském ústavu prof. Prokopoviče a Brhlíkova Zemědělského ústavu účetnicko-spravovědného. Během let 1927-1929 se společně s Dr. Mrázem věnuje úpravám textu české statistické učebnice – „Základů teorie statistické metody“, v roce 1929 následuje vydání knihy. Sám je vědecky velmi plodný, jeho poslední kniha „Studie o pracovní intenzitě a produktivitě zemědělských závodů (ze zvláštním zřetelem k zákonu o ubývajících výnosech“ vychází roku 1932, rok před jeho smrtí. Stanislav Kohn své dílo obohatil také o poznatky ruské statistické školy A. A. Čuprova. Měl kontakt z mnoha významnými statistiky své doby, byl např. korespondentem Charlese Gidda, setkal se s prof. Bortkiewiczem v Berlíně. Jeho vědecká práce došla ohlasů i v zahraničí. Stanislav Kohn umírá roku 3. listopadu 1933 v Praze. (obrázek převzat z časopisu Statistické obzory (1933): Doc. Stanislav Kohn – Posmrtné vzpomínky)
51
Prameny a literatura: 1. Yule, G. U.: Úvod do teorie statistiky, Praha 1926 2. Kohn, S.: Základy teorie statistické metody, Praha 1929 3. Krejčí, D.: Základy statistiky zvláště pro zemědělce a družstevníky, 2. vyd. Praha 1923 4. Podzimek, J.: Vývoj čs. statistiky do vzniku Státního úřadu statistického, Praha 1974 5. Podzimek, J.: Vývoj československé statistiky v událostech a datech 1919-1945, Praha 1979 6. Závodský, P.: 85 let od vzniku státní statistické služby na území České republiky, Statistika 3/2005 7. Trexler, J.: Česky psaná statistická literatura před rokem 1930. Vývoj české statistické terminologie., VŠE 2005, diplomová práce 8. Ottův Slovník naučný, sv. XXIV., 1905
52