1 Statistická data a jejich prezentace 1.1 Co je to statistika S pojmem »statistika« se můžete v praxi setkat hned ve čtyřech různých významech, které spolu souvisí: 1. Statistika jako údaj nebo souhrn údajů, který byl získán sběrem nebo dalším zpracováním. 2. Statistika jako praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů. 3. Statistika jako vědní disciplína, která se zabývá metodami sběru, zpracování a vyhodnocování statistických údajů. 4. Statistika jako úřad nebo instituce, která provádí praktickou statistickou činnost nebo tuto činnost zastřešuje. Statistickou činnost provádí člověk odpradávna, i když vlastní termín „statistika“ vznikl mnohem později. První historické zmínky jsou zřejmě záznamy o sčítání obyvatelstva a majetku starých Babylóňanů, které pocházejí z období před rokem 3 800 př. n. l. Obdobné průzkumy, obvykle pro vojenské a daňové účely, byly prováděny ve většině starověkých civilizací – od Egypta, přes Čínu, Mezopotámii, Palestinu až po Řecko a Řím. Vlastní termín »statistika« (lat. status = stav, také stát) se začal používat až v 18. století v Německu pro označení nauky o státu. Tato vědecká disciplína se začala rozvíjet v 16. století na univerzitách v Itálii a později také právě v Německu, proto se jí říká univerzitní statistika. Tehdejší statistické studie obsahovaly především údaje o evropských státech – geografické, politické, ekonomické a další. Na rozdíl od dnešní statistiky neobsahovaly mnoho čísel, většina zaznamenaných údajů byla popisných, slovních. Jiný typ statistického zkoumání se vyvinul v 17. století v Anglii pod názvem »politická aritmetika«. Tyto průzkumy vycházely z údajů tehdejších církevních matrik a na jejich základě se snažily odvodit některé obecně platné zákonitosti (např. že se rodí obecně více chlapců než děvčat). V 18. století se tento typ statistik začal prosazovat i v Německu a obě statistické školy se začaly vzájemně ovlivňovat a postupně sbližovat. Statistika začala ve větší míře používat čísla a přestala se zabývat pouze popisem státních pozoruhodností. Nezávisle na statistice se od 16. století začala rozvíjet jiná teoretická disciplína, která vznikla jako součást matematiky – teorie pravděpodobnosti. Pravděpodobnost je chápána jako šance, zda daný jev nastane nebo nikoliv. 2
Ve skutečnosti však statistika a teorie pravděpodobnosti představují dva pohledy na stejný problém. Každý hromadný jev je tvořen jednotlivými jevy individuálními a naopak opakováním individuálního jevu získáme jev hromadný. V současné době nelze teorii pravděpodobnosti a statistiku od sebe oddělit – teorie pravděpodobnosti je považována za součást moderní statistiky a tvoří její teoretický základ. Postupným splýváním univerzitní statistiky, politické aritmetiky a teorie pravděpodobnosti v 18. a 19. století vznikla statistika jako samostatná vědní disciplína, která popisovala hromadné jevy v nově vznikajících vědách – přírodních, technických i ekonomických. Proto se také nazývá popisná (neboli deskriptivní) statistika. Cílem statistických průzkumů byla vyčerpávající šetření podle zásady: čím více údajů získáme, tím přesnější budou závěry. Toto pravidlo ve statistice převládalo až do počátku 20. století. Na přelomu 19. a 20. století však dochází ve vývoji statistiky k zásadní změně. Začala éra matematické statistiky, která na základě teorie pravděpodobnosti umožňuje získat kvalifikované závěry (odhady) o sledovaném jevu i z malého dostupného vzorku údajů. Nové statistické postupy otevřely možnosti pro průzkumy veřejného mínění, namátkové testy a další postupy, ve kterých z vlastností části usuzujeme na chování celku. Současná moderní statistika využívá všech postupů a metod, které během svého dlouhého vývoje vytvořila nebo osvojila. Používá tedy jak prvky klasické popisné statistiky, založené na analýze hromadných dat, tak prvky moderní statistiky matematické, postavené na teorii pravděpodobnosti. Proto statistiku chápeme a využíváme jako nástroj poznání stejně jako nástroj rozhodování v neurčitosti. Velký význam pro rozvoj a využití statistických metod měl nástup výpočetní techniky, zejména osobních počítačů. Počítač vítězí nad člověkem především v těch úkonech, které jsou pro člověka tradičně nejzdlouhavější – při třídění, vyhledávání a výpočtech s velkým množstvím dat. Na trhu se softwarovými produkty existuje celá nabídka specializovaných statistických programů, např. SPSS, STATISTICA a další. Jejich nevýhodou je obvykle vysoká cena, základní statistické výpočty však nabízí i tabulkový kalkulátor MICROSOFT EXCEL, který patří k základní výbavě většiny osobních počítačů. V posledních letech zaznamenává statistika úspěch také v oborech a vědních disciplínách zejména humanitního charakteru, které se dlouho vstupu obdobných exaktních metod bránily: například v psychologii, sociologii, ale třeba i v historii. Tím spíše to platí také pro ekonomii, která původně vznikla také jako věda sociální, ale během svého vývoje se svými metodami přiblížila spíše vědám přírodním. Ukazuje se tedy, že statistika jako soubor nástrojů poznání a rozhodování může mít poměrně univerzální využití, jde spíše pouze o to, zda tyto nástroje známe a dokážeme využít. 3
1.2 S jakými daty statistika pracuje Jak již bylo uvedeno, úkolem statistiky je sledovat a popisovat hromadné jevy. Statistickým ukazatelem se nazývá číselné zobrazení takového jevu, případně některé jeho stránky. Jednotlivé subjekty nebo objekty, které jsou při statistickém zkoumání sledovány, se nazývají statistické jednotky. Statistickými jednotkami mohou být například: • • • •
osoby (např. pracovníci firmy, studenti, voliči); organizace (např. podniky, obce, školy); věci (např. stroje, výrobky, budovy); události (např. úrazy, meteorologické jevy, závady).
Souhrn statistických jednotek (prvků) stejného typu a vymezení tvoří statistický soubor. Ve statistickém zjišťování rozlišujeme dva typy souborů: • •
základní soubor (populace) – obsahuje všechny vymezené statistické jednotky; výběrový soubor (vzorek) – vybraná část populace, která se podrobuje statistickému šetření.
Počet prvků základního souboru je obvykle velmi vysoký. Cílem statistiky bylo původně vyčerpávající šetření těchto souborů neboli census (slovo cenzor pochází ze starověkého Říma a znamenalo původně sčítacího úředníka). Matematická statistika však přinesla možnost provádět pouze výběrová šetření, kdy se namísto celé populace zkoumá pouze daný vzorek. Výběrové šetření samozřejmě nemůže být tak přesné jako zkoumání celého základního souboru, neboť vzorek nikdy nemůže nahradit celek. Přesto mu obvykle dáváme přednost před šetřením vyčerpávajícím: • • •
výběrové šetření je méně náročné na čas i finanční prostředky; základní soubor nemusí být vždy celý dostupný; některé průzkumy mohou testované jednotky znehodnotit (např. degustace).
Z uvedených důvodů dnes výběrová šetření převažují. Mezi výběrová šetření patří například marketingové průzkumy, dotazníková šetření, ankety a podobně. Sestavit výběrový soubor tak, aby co nejlépe kopíroval vlastnosti souboru základního, není nijak jednoduché. S metodami pořizování výběrového souboru se seznámíte později. Údaje, které u statistických jednotek zjišťujeme a sledujeme, nazýváme statistické znaky (proměnné). Jednotlivé hodnoty, kterých může statistický znak nabývat, nazýváme obměny neboli varianty znaku. Seznam všech navzájem různých obměn statistického znaku nazýváme obor statistického znaku (proměnné). Například statistický znak „počet dětí v rodině“ může nabývat obměn 0, 1, 2, atd., oborem tohoto znaku jsou tedy nezáporná celá čísla. 4
Podle způsobu zobrazení hodnot dělíme statistické znaky na: • •
znaky kvalitativní – jsou vyjádřeny slovně a obvykle představují určitou vlastnost (např. pohlaví, typ podnikání, apod.); znaky kvantitativní – jsou vyjádřeny číselně a obvykle představují množství nebo velikost (např. počet studentů v ročníku, cena výrobku, apod.).
Některé znaky mohou mít kvalitativní i kvantitativní reprezentaci – například známka ze zkoušky (1 = výborně). Podle způsobu zpracování se obvykle rozlišují tři skupiny statistických znaků: •
•
•
znaky nominální – obvykle jsou vyjádřeny kvalitativně, jejich obměny jsou rovnocenné, tj. nelze je navzájem porovnávat ani seřadit do hodnotové stupnice (např. rodinný stav nebo typ podnikání); znaky ordinální – bývají rovněž vyjádřeny kvalitativně, ale jednotlivým obměnám lze přiřadit pořadí a navzájem je porovnávat nebo seřadit (např. dosažené vzdělání nebo jakostní třída výrobku); znaky metrické – jsou vyjádřeny výhradně kvantitativně, jejich obměny jsou plnohodnotná čísla, se kterými lze dále počítat (např. výška osoby nebo počet prodaných výrobků za týden).
Speciální skupinu kvalitativních znaků tvoří statistické znaky alternativní (neboli dichotomické), které mohou nabývat pouze dvou různých obměn (např. muž – žena, ano – ne). I když se tyto znaky řadí obvykle mezi nominální, mají i vlastnosti, které jinak nacházíme u znaků ordinálních (např. můžeme obě hodnoty znaku porovnávat).
1.3 Prezentace statistických dat Jedním z cílů statistiky je jednoduše a srozumitelně prezentovat statistická data a ukazatele. Před statistikem stojí úkol, jak výstižně charakterizovat a prezentovat statistická data, aby poskytla důležité informace o zkoumané problematice a také aby zaujala a upoutala potenciálního čtenáře. Popisná statistika používá čtyři základní formy prezentace statistických dat (ukazatelů): • • • •
textová prezentace; tabelární prezentace (tabulky); grafická prezentace (grafy, diagramy); číselné charakteristiky (statistiky).
Použití jednotlivých forem prezentace a jejich variant (kombinací) závisí především na povaze a druhu popisovaných statistických dat. 5
Nejjednodušší forma prezentace statistických dat je jejich uvedení v rámci textu. Tímto způsobem jsou prezentovány mnohé statistiky například v novinách nebo v různých zprávách. Nevýhodou textové prezentace je malá přehlednost, a proto se tato forma hodí pouze k uvedení malého počtu jednoduchých informací. Chceme-li prezentovat větší množství strukturovaných údajů, je vhodnější jiný způsob – pomocí tabulek nebo grafů. Výsledkem statistického šetření (sběru dat) je statistický soubor, základní nebo výběrový. Ten se obvykle zobrazuje ve formě jednoduché datové tabulky (matice), ve které řádky představují jednotky souboru (například jednotlivé dotazníky), zatímco jednotlivé znaky (proměnné) jsou umístěny ve sloupcích. První řádek tabulky (hlavička) obvykle obsahuje názvy jednotlivých proměnných (popisky sloupců). Obdobně může první sloupec obsahovat legendu, tedy popisky jednotlivých statistických jednotek. JMÉNO STUDENTA
ZNÁMKA ZNÁMKA MATEMATIKA STATISTIKA
…
Jiří Adámek
2
1
…
Petr Bubeník
3
2
…
David Cihlář
2
3
…
…
…
…
Obr. 1.1 Jednoduchá datová tabulka jako zobrazení statistického souboru Pokud jsou řádky v tabulce jednoznačně identifikovány (tedy pojmenovány), jde o tzv. pojmenovaný statistický soubor. V opačném případě, kdy nejsou řádky matice dat nijak označeny a rozlišeny, jedná se o soubor anonymní (nepojmenovaný). U anonymního souboru je možné charakterizovat soubor pouze jako celek, zatímco u pojmenovaného souboru lze charakteristiky souboru porovnávat s hodnotami u jednotlivých jednotek a například identifikovat, které jednotky mají v rámci souboru extrémní postavení (například je možné určit, kteří konkrétní studenti jsou lepší v matematice než ve statistice nebo které státy Evropské unie mají nejvyšší inflaci). Zvláštním případem pojmenovaného souboru jsou takzvané časové řady, které popisují závislost sledovaného statistického znaku na čase (například počet obyvatel v České republice nebo vývoj kursu koruny vůči americkému dolaru), a to obvykle v pravidelných intervalech. Rozlišujícím identifikačním znakem je v tomto případě časový údaj. Časové řady zobrazujeme obvykle ve formě tabulky, ve které jeden řádek (nebo sloupec) odpovídá časové proměnné, druhý (popř. další) slouží k prezentaci sledovaného znaku (znaků). 6
ROK 1991 1992 1993 1994 1995 1996 1997 1998 počet 10 309 10 318 10 331 10 336 10 331 10 315 10 304 10 295 (tisíce) Obr. 1.2 Časová řada – počet obyvatel v České republice (1991 – 1998) Zatímco jednoduché datové tabulky slouží především k zobrazení vstupních údajů statistických šetření, ve výstupních zprávách se spíše objevují tabulky, které již reprezentují výsledky výpočtů. Většinou v nich najdete hodnoty souhrnné, čili agregované, například: • • • •
počty jednotek (četnosti); součty hodnot (úhrny); percentuální podíly (relativní četnosti); průměry.
Příklad tabulky s agregovanými údaji představuje obrázek 1.3. Uvádí průměrné příjmy a výdaje v České republice agregované podle typu domácností.
TYP DOMÁCNOSTI
PRŮMĚR NA 1 ČLENA [KČ]
PRŮMĚRNÝ
POČET
POČET ČLENŮ
DOMÁCNOSTÍ [V TIS.]
roční příjmy
roční výdaje
zaměstnanců
100 544
96 067
2,81
1 370
zaměstnanců s dětmi
85 791
82 282
3,58
799
samostatně činných
87 077
88 807
3,17
342
zemědělců
80 363
78 879
3,11
327
důchodců
70 152
71 076
1,49
522
Obr. 1.3 Agregovaná tabulka – průměrné příjmy a výdaje na jednoho člena domácnosti v České republice (1998) - Zdroj: Český statistický úřad S rozvojem výpočetní techniky se stále více prosazuje možnost prezentace statistických dat pomocí grafů. Grafické zobrazení dává rychlou a názornou představu o prezentovaných hodnotách, je tedy názornou alternativou tabulky, resp. prezentace určitého znaku v tabulce. Grafy mají významný popularizační efekt, proto jsou oblíbeným doplňkem různých statistických studií (zejména ve sdělovacích prostředcích). Co se týká přehlednosti, jsou grafy mnohem názornější než čísla v tabulce – například při porovnávání jednotlivých hodnot znaku. Naopak zřejmou nevýhodou grafu je omezená schopnost vyjadřovat přesné hodnoty – zatímco v textu nebo v tabulce můžeme prezentovat číselné údaje prakticky s libovolnou přesností, možnost odečítat hodnoty z grafu je limitována 7
jeho kvalitou a rozlišením stupnic. Uvedené nevýhody však lze však vzájemně kompenzovat – například současnou prezentací tabulky i grafu. Pro zobrazení statistických údajů se nejčastěji používají tři základní typy grafů: • • •
sloupcový graf (bar chart); spojnicový graf (line chart); výsečový graf (pie chart).
Zřejmě nejčastěji používaný typ grafu pro prezentaci statistických údajů je sloupcový graf (bar chart), ve kterém jsou jednotlivé hodnoty (obměny) zobrazeny jako sloupce různých velikostí. Velikost sloupce je úměrná prezentované hodnotě, kterou lze (zhruba) odečíst s pomocí svislé stupnice. Spojnicový graf (line chart) používá k vyjádření hodnot (četností obměn) body navzájem spojené úsečkami. Tento charakter grafu (lomená čára) jej předurčuje pro znázornění vývoje, proto je vhodný například pro znázorňování časových řad. K vyjádření procentního podílu (relativní četnosti) jednotlivých obměn znaku se často využívá výsečový neboli koláčový graf (pie chart). Zastoupení jednotlivých obměn je prezentováno rozdělením kruhu (100%) na kruhové výseče, přičemž plochy těchto výsečí jsou úměrné reprezentovaným relativním hodnotám. Všechny tři základní typy grafů četností představuje obrázek 1.4. E 6%
F 3%
A 14%
D 17%
B 23%
C 37%
Obr. 1.4 Ukázky základních typů grafů – sloupcový, spojnicový, výsečový
1.4 Proč se říká, že statistiky lžou V předcházejících odstavcích jsme si ukázali, jak lze prezentovat statistické ukazatele pomocí tabulek a grafů. Umíme však tyto tabulky a grafy správně číst? Člověk snadno uvěří prezentovaným číslům, zejména jsou-li zabalena do úhledných tabulek a grafů, přičemž již nepřemýšlí, zda jsou tyto údaje věrohodné. Navíc někdy hraje roli i použitá formulace prezentovaných dat: doběhne-li v závodě atlet jako druhý ze tří, byl stejně tak »stříbrný« jako »předposlední«. Šikovný novinář nebo politik dokáže zneužít statistiku k prosazení svých 8
názorů nebo k manipulaci veřejným míněním. Proto je nutné uveřejněné statistiky vždy vnímat v kontextu ostatních dat a závěrů, nikoliv izolovaně. Na obrázku 1.5 vlevo vidíte graf vývoje zisku firmy za posledních 5 let. Je zřejmé, že firma je stále ještě v zisku, ale ten pomalu klesá a hrozí brzký propad do ztráty (tedy do „červených čísel“). Pravý graf znázorňuje tutéž situaci, tentokrát ale jako celkový úhrnný zisk firmy. Pak již stačí tento graf doplnit nic neříkajícím nadpisem „Vývoj ekonomiky firmy za posledních 5 let“ a lživá statistika je na světě.
Obr. 1.5 Jak lze zmýlit čtenáře pomocí volby grafu Následující schéma ukazuje přehledně, jakým způsobem je možné v jednotlivých fázích statistického zkoumání dojít k chybným nebo mylným závěrům.
Obr. 1.6 Možné zdroje chyb ve statistice
9