Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistika a ekonometrie
Autor bakalářské práce: Barbora Nosková Vedoucí bakalářské práce: doc. Ing. Iva Pecáková CSc
GRAFICKÉ METODY ANALÝZY HROMADNÝCH DAT
školní rok 2007/2008
Prohlášení
Prohlašuji, že jsem bakalářskou práci zpracovala samostatně a že jsem uvedla všechny použité prameny a literaturu, ze kterých jsem čerpala.
V Praze dne 2. června 2008 Barbora Nosková
1
Abstrakt Cílem mé práce je poukázat na různé možnosti grafické analýzy hromadných dat. Pro lepší představení grafických analýz jsem do své práce zařadila nejen popisy grafů, ale také jejich ukázky, které jsem vytvořila v různých statistických programech. První, teoretická část, je věnována základním principům konstrukce grafů a terminologii. Další část práce je věnována grafům, které jsou výsledkem třídění spojitých a nespojitých veličin. Následující kapitola obsahuje grafy pro identifikací odlehlých pozorování a dále se zabývám grafy, které nám umožňují porovnat naměřené hodnoty s nějakým známým statistickým rozdělením. Na závěr práce jsem uvedla některé grafy, které se mi nepodařilo zařadit do žádné z předchozích skupin, přesto najdou v grafických analýzách hromadných dat své použití.
2
Abstract Goal of my thesis is to introduce various ways of mass data graphical analysis. Not only I describe the graphs used but also I demonstrate them on figures created by myself in miscellaneous statistical software to help imagine the complexity of graphical analysis. The first teoretical part is denoted to graph construction basics and terminology. Next part deals with graphs as results of continuous or discrete quantities sorting. Subsequent chapter features graphs for extreme observation identification and further I deal with graphs which can be used for comparsion of observed values and any known statistical distribution. Finally I describe some graphs which cannot be easily classified into any of foregoing groups, nevertheless they are useful for mass data graphical analysis as well.
3
Ráda bych tímto poděkovala vedoucí své bakalářské práce doc. Ing. Ivě Pecákové, CSc. za ochotu, trpělivost a cenné připomínky.
4
Obsah Úvod
6
1 Konstrukce grafů 1.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Principy tvorby statistických grafů . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Optické klamy aneb jak ovlivnit uživatele . . . . . . . . . . . . . . . . . . . . . .
7 7 8 9
2 Základní statistické grafy 2.1 Výsečový a prstencový graf (Pie plot) 2.2 Sloupcový graf (Bar plot) . . . . . . . 2.3 Skládaný sloupcový (Seguential plot) . 2.4 Histogram (Histogram) . . . . . . . . . 2.5 Bodový graf (Scatter plot) . . . . . . . 2.6 Bublinový graf (Bubble graph) . . . . . 2.7 Spojnicový graf (Line plot) . . . . . . 2.8 Polygon četností (Polygon) . . . . . . 2.9 Plošný graf (Area graph) . . . . . . . . 2.10 Strom života (věková pyramida) . . . .
. . . . . . . . . .
12 12 13 13 13 14 15 15 15 16 17
3 Grafy pro identifikaci odlehlých pozorování 3.1 Krabičkový graf (Boxplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Další typy krabičkových grafů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Měřící bodový graf (Dot dash plot) . . . . . . . . . . . . . . . . . . . . . . . . . .
19 19 20 22
4 Grafy porovnávající naměřené hodnoty se známými rozděleními 4.1 Q-Q graf (Quantile-Quantile plot) . . . . . . . . . . . . . . . . . . . 4.2 P-P graf (Propability-Propability plot) . . . . . . . . . . . . . . . . . 4.3 Histobars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Rootogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
23 23 23 24 24
5 Speciální grafy 5.1 Matice bodových diagramů (Scatterplot matrix) . . . . . . . . . . . . . . . . . . . 5.2 Číslicový histogram (Steam and leaf diagram) . . . . . . . . . . . . . . . . . . . .
26 26 27
Závěr
28
Literatura a odkazy
29
A Terminologie grafů
34
5
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
Úvod Grafy ve statistice, a nejen v ní, začínají mít v poslední době stále větší význam. V první řadě se využívají pro publikování statistických výsledků pro širokou veřejnost. Graf působí zajímavěji a lépe se na něm představují různé vztahy a závislosti jednotlivých veličin. Další důležitou oblastí využití grafů je jejich použití k potvrzení či vyvrácení statistických analýz (např. hypotéz o rozdělení statistického souboru či analýz lineární regrese). Zejména z tohoto hlediska, které nám umožňuje odhadovat konkrétní veličiny, ale neopomineme ani to publikační, se na grafy budeme dívat i v této práci. Práce je členěna následujícím způsobem: První kapitola je věnována základním principům konstrukce grafů, terminologii a různým možnostem tvorby zkreslených grafů. Ve druhé kapitole jsou uváděny grafy, které jsou výsledkem třídění spojitých a nespojitých veličin. Pomocí těchto grafů lze odhadovat zejména statistiky polohy. Jmenujme jako nejznámějšího zástupce střední hodnotu. Kromě statistik polohy je v této skupině grafů možno najít i vzájemné vztahy dvou proměnných a nesmíme zapomenout ani na intervalové četnosti, které jsou charakteristickou statistikou u spojitých proměnných. Ve třetí kapitole jsou grafy zabývající se identifikací odlehlých pozorování. Z takových grafů lze vyčíst informace o kvartilech, odlehlých pozorováních nebo například o 95% intervalu spolehlivosti pro medián. Další skupinou, kterou se budeme zabývat v kapitole 4, je skupina grafů, pomocí nichž můžeme porovnat naměřené hodnoty s nějakými známými statistickými rozděleními. To nám může pomoci zejména při formulování hypotéz o daném rozdělení. V závěru práce představíme grafy, které nelze zařadit ani do jedné z předchozích skupin. Tyto grafy sice nejsou použitelné pro publikaci laické veřejnosti, ale najdou své specifické použití v analýzách hromadných dat. Rozsah této práce bohužel nedovoluje věnovat se všem používaným typům grafů, zůstaneme tedy u těch podle mého názoru nejpoužitelnějších a nejzajímavějších. Většinu grafů v této práci jsem vytvářela za pomoci programů Microsoft Office Excel, SPSS for Windows a Statistica standart, několik grafů jsem přejala z již publikovaných zdrojů, zejména kvůli ukázkám použití v praxi.
6
Kapitola 1
Konstrukce grafů Znázornění dat pomocí grafu nám umožňuje rychlou a přehlednou představu o vývoji a charakteristických rysech analyzovaných jevů [2]. Aby grafické znázornění statistických dat tento svůj účel splnilo, je třeba mít přehled o základních principech tvorby grafů a o možnostech jejich modifikace.
1.1
Terminologie
Sady hodnot, které chceme vynést do grafu, se nazývají datové řady. Konkrétní hodnota datové řady je datový bod. Hotový graf se skládá z mnoha prvků, jak ukazuje obrázek 1.1. Oblasti v obrázku označené čísly představují jednotlivé prvky grafu, jejichž popis následuje: 1. Povinné prvky grafu Tyto prvky bychom měli najít v každém grafu Oblast grafu - celý graf a všechny jeho prvky (7) Název grafu - text který popisuje, co graf zachycuje (2) Zobrazovaná oblast - oblast ohraničená osami grafu zahrnující všechny datové řady (1) Datová značka - grafický obrazec (sloupec, tečka, výseč), který představuje jeden datový bod (9) Osy - čáry ohraničující zobrazovanou oblast, používají se pro zanesení jednotek a možnost srovnání v grafu 7 Počty lidí v jednotlivých odvětvích 2 1200
Počty lidí v jednotlivých odvětvích 5 1
1200 1050 900 750 600 450 300 150 0
900
8
počty lidí (v tis.)
počty lidí (v tis.)
3 1050 750 600 450 300 150 0
9
A B C D E F G H I J K L M N O6 odvětví
A B C D E F G H I J K L M N O odvětví 4
Obrázek 1.1: Popis prvků grafu 7
Značky - jednotlivé čárky na osách vyznačující měřítko Popisky značek - popis konkrétních značek hodnotami nebo čísly (5,6) Názvy os - popis osy x a y pro orientaci, co je na které vyznačeno (3,4) 2. Volitelné prvky grafu Přítomnost těchto prvků záleží na rozhodnutí autora a použitém typu grafu. Popisky dat - přidávají další informace o konkrétním datovém bodu; můžeme zde najít hodnotu datového bodu, procentuelní hodnotu daného bodu, název řady či kategorie, i libovolnou kombinaci těchto prvků Legenda - popis použitých datových značek Klíče legendy - políčka v legendě zobrazující barvy a vzorky přiřazené jednotlivým datovým řadám Mřížky - mohou být použity pro usnadnění orientace v grafu, jde o úsečky rovnoběžné s osami (8)
1.2
Principy tvorby statistických grafů
Před tvorbou grafu je třeba si uvědomit, k čemu bude graf sloužit, zejména pro koho je určen. Je nezbytné, aby z grafu bylo možno vyčíst vše podstatné, ale abychom graf zároveň nezahltili informacemi, které ho udělají nepřehledným. Shrňme si tedy základních pět bodů, které jsou doporučovány při tvorbě grafů ([1], [2]). 1. Vyvarovat se příliš mnoha informací v jednom grafu. Je lépe jeden graf rozdělit do dvou, popřípadě data shrnout do intervalů. 2. Graf by měl být ohraničen rámcem, aby nebylo možné některé datové body přehlédnout. 3. Do většiny grafů patří dvě osy (na protilehlé strany je možnost zakreslit jiná měřítka) jejichž rozsah by měl být zhruba o 10% větší než je rozsah dat (aby datové body neležely na osách, kde se může snadno stát, že budou přehlédnuty). 4. Legenda a poznámky patří sice do oblasti grafu, ale mimo zobrazovanou oblast (kvůli přehlednosti). Jestliže je v grafu jen jedna datové řada, je často lepší legendu nahradit nadpisem, který nám tuto datovou řadu popisuje. 5. Jestliže zobrazujeme v grafu více datových řad, měly by být se stejným měřítkem a jasně rozlišitelnými datovými body (jiný tvar, barva..). V odborné literatuře je k nalezení ještě mnoho dalších doporučení ke tvorbě grafů. Tato doporučení se s postupem času stávají aktuálními pro stále více lidí, kteří využívají grafů zejména do svých prezentací, prací a k publikační činnosti. Vzhledem k rozsahu práce se ale nelze věnovat těmto principům do hloubky. Pro podrobné informace přidávám odkaz na internetovou stránku, která se zabývá vyhledáváním nejlepších a nejhorších statistických grafů. Na stránce [3] (http://www.math.yorku.ca/SCS/Gallery/) je taktéž ukázáno, že i mnoho informací se dá shrnout do jednoho grafu elegantně a přehledně.
8
1.3
Optické klamy aneb jak ovlivnit uživatele
Čím dál lepší dostupností techniky se grafy a obrázky stávají běžnou součástí prezentací a publikací. Některé z těchto grafů jsou záměrně vytvářeny tak, aby bez zkreslení dat ukázaly nepozornému čtenáři to, co si zrovna autor přeje říct. Aby například zobrazily, jak je na tom propagující se podnik dobře, jak jsou vyznačené výrobky výborné či spokojenost zákazníků téměř stoprocentní. Jiným případem jsou grafy, které sice jsou zkresleny, ale nezáměrně. Nejčastěji k tomu dochází v dobré víře autora v hezky vizuálně vypadající graf, aniž by si uvědomil nebezpečí ovlivnění čtenáře. V následujících odstavcích jsou uvedeny nejčastější ukázky zavádějících grafů.
Posunutí osy Pokud potřebujeme někoho přesvědčit, že se dvojnásobně snížila či zvýšila poptávka, spotřeba nebo jiný ukazatel, není nic jednoduššího, než posunout osu y tak, aby nezačínala od nulové hodnoty, ale zhruba od nižší hodnoty ze dvou datových bodů zmenšené o rozdíl hodnot obou bodů. Tím dosáhneme vizuálního efektu, jakoby vyšší veličina byla dvojnásobkem nižší. Grafy na obrázku 1.2 použila ve své reklamní brožuře firma propagující nový druh automobilového benzinu [4]. Z těchto grafů by se na první pohled mohlo zdát, že při použití nového benzinu se výkon motoru zdvojnásobí a spotřeba bude poloviční. Ovšem jen do doby, než při detailním pohledu na osu y zjistíme, že osa y ani v jednom případě nezačíná od nuly, ale od vhodně zvolené konstanty.
Změna měřítek os Jestliže máme v úmyslu opomenout některou skupinu hodnot, prohlásit ji za zanedbatelnou popř. ukázat že dvě skupiny hodnot jsou zhruba stejně velké, je možno tohoto efektu dosáhnout pomocí změny měřítek os. V grafech 1.1, 1.2 a 1.3 jsou uvedeny počty zaměstnanců v jednotlivých hospodářských odvětvích v roce 2007. Legendu k těmto grafům najdeme v tabulce 1.1. V prvním grafu je zvětšen rozsah osy y (maximum má ve 3000), odebrána vodorovná Obrázek 1.2: Ukázka grafů zkreslených posunem mřížka a nadpis umístěn přímo do zobra- osy y zované oblasti. Odebráním mřížky jsem dosáhla horší porovnatelnosti velikosti jednotlivých sloupců, přidání nadpisu do zobrazované oblasti způsobí, že protáhlá osa y nepůsobí rušivě.
9
Odvětví v ČR Zemědělství, myslivost, lesnictví Rybolov a chov ryb Těžba nerostných surovin Zpracovatelský průmysl Výroba a rozvod elektřiny, plynu a vody Stavebnictví Obchod; opravy motorových vozidel a výrobků pro osobní potřebu a převážně pro domácnost Ubytování a stravování Doprava, skladování a spoje Finanční zprostředkování Činnosti v oblasti nemovitostí a pronájmu; podnikatelské činnosti Veřejná správa a obrana; povinné sociální zabezpečení Vzdělávání Zdravotní a sociální péče; veterinární činnosti Ostatní veřejné, sociální a osobní služby
A B C D E F G H I J K L M N O
Tabulka 1.1: Legenda ke grafům 1.1, 1.2 a 1.3, data převzata z [5]
Počty lidí v jednotlivých odvětvích 4000 3500 Počet lidí v jednotlivých odvětvích počty lidí (v tis.)
počty lidí (v tis.)
3000 2500 2000 1500 1000 500 0 A
B C
D
E
F
G H I odvětví
J
K
L
M
N
1300 1200 1100 1000 900 800 700 600 500 400 300 200 100 0
O
A
B C
D
E
F
G H I odvětví
J
K
L
M
N
O
Graf 1.1: Změna rozsahu osy y, vytvořeno z dat Graf 1.2: Změna rozsahu osy y, vytvořeno z dat [5] [5] Počet lidí v jednotlivých odvětvích 4000 3500 počty lidí (v tis.)
3000 2500 2000 1500 1000 500 0 A
B C
D
E
F
G H I J odvětví
K
L
M N O Cel
Graf 1.3: Přidání extrémní hodnoty, vytvořeno z dat [5]
10
Přidání extrémní hodnoty Jednou z dalších možností, jak opticky roztáhnout (smrštit) data v grafu, je přidání extrémní hodnoty (např. součtu všech hodnot). V grafu 1.3 se počet lidí ve zpracovatelském průmyslu (D) oproti grafu 1.2 opticky dvojnásobně zmenšil.
Zaoblení spojnice Pokud chceme ukázat význačnost nějakého zlomu, popř. naopak ukázat, že trend zobrazované křivky až tolik moc nekolísá, lze k tomu s úspěchem použít ostré nebo zaoblené trendové křivky. Grafy 1.4 a 1.5 zobrazují procentuální míru inflace v ČR v letech1989 až 2006. V grafu 1.4 je použita zaoblená trendová křivka, v druhém ostrá. Pro dokreslení efektu je ještě v prvním grafu protažena osa y a zvětšeno její měřítko, čímž dosáhneme v grafu 1.4 optického klamu zmenšení kolísání trendu.
Graf 1.4: Ukázka zaoblené spojnice, vytvořeno Graf 1.5: Ukázka ostré spojnice, vytvořeno z dat z dat [6] [6]
Rok Míra inflace
1989 1,4
1990 9,7
1991 56,6
1992 11,1
1993 20,8
1994 10
1995 9,1
1996 8,8
1997 8,5
Rok Míra inflace
1998 10,7
1999 2,1
2000 3,9
2001 4,7
2002 1,8
2003 0,1
2004 2,8
2005 1,9
2006 2,5
Tabulka 1.2: Data ke grafům 1.4 a 1.5, převzato z [6]
11
Kapitola 2
Základní statistické grafy V této kapitole se budeme zabývat grafy, které jsou výsledkem třídění spojitých a nespojitých veličin. Tyto grafy slouží zejména k odhadování statistik polohy.
Výsečový a prstencový graf (Pie plot)
2.1
Výsečový graf se používá například pro znázornění podílu velikosti jednotlivých kategorií na jejich celkovém součtu, jinak řečeno, jeho struktury. Je vhodný pro třídění jedné slovní proměnné rozdělené maximálně do deseti kategorií, stejně jako pro třídění málo početné skupiny číselných nespojitých veličin. Zároveň pomocí tohoto grafu je možné vyjádřiit hodnotu veličiny (jako výseč). Výseče kruhu získáme rozdělením středového kruhu úměrně k podílu jednotlivých částí. Prstencový graf má oproti výsečovému tu výhodu, že je do něj možno zaznamenat více datových řad (jako jednotlivé prstence) a případně umístit doprostřed prstence další doplňující informace ke grafu. Počty studentů přijímaných do navazujících magisterských oborů na jednotlivých fakultách VŠE
18%
Počty studentů přijímaných ke studiu na jednotlivých fakultách VŠE
20%
8%
B NM
7%
B
1 Fakulta financí a účetnictví 2 Fakulta mezinárodních vztahů 3 Fakulta podnikohospodářská 4 Fakulta informatiky a statistiky 5 Národohospodářská fakulta
NM B
Graf 2.1: Výsečový graf, vytvořen z dat [7]
2 Fakulta mezinárodních vztahů
NM
NM Bakalářské Navaz. mag. NM
47%
1 Fakulta financí a účetnictví
B
3 Fakulta podnikohospodářská
B 4 Fakulta informatiky a statistiky 5 Národohospodářská fakulta
Graf 2.2: Prstencový graf, vytvořen z dat [7]
12
Sloupcový graf (Bar plot)
2.2
Sloupcový graf přehledně znázorňuje velikosti kategorií, taktéž z něho můžeme vyčíst vzájemné poměry mezi velikostí hodnot v jednotlivých kategoriích. Oproti výsečovému a prstencovému grafu je zde možnost zanést více kategorií dané kategoriální veličiny, popř. více hodnot číselné nespojité veličiny. Počet požárů v roce 2006
Požáry v roce 2006 Požáry celkem (počet)
20 262
Zemědělství Lesnictví Průmysl Stavebnictví Obchod doprava, spoje Domácnosti, obytné domy
667 679 883 167 251 2 145 2 631
3000
Odvětví vzniku
2500
1 2 3 4 5 6 7
2000 1500 1000 500 0 1
2
3
4 5 Počet požárů
6
7
Graf 2.3: Sloupcový graf, vytvořen z dat [8]
2.3
Tabulka 2.1: Počet požárů v ČR v roce 2006, převzato z [8]
Skládaný sloupcový (Seguential plot)
Skládaný sloupcový graf umožňuje porovnání jednotlivých kategorií vůči celku. Zároveň poskytuje detailnější pohled na složení hodnot. Z grafu 2.4 můžeme vyčíst nejen kolik lidí v které oblasti ČR v roce 2007 přibylo či ubylo, ale také jaký konkrétní typ přírůstku či úbytku to byl. Pohyb obyvatelstva v oblastech ČR v roce 2007
Praha Střední Čechy Jihozápad Severozápad Severovýchod Jihovýchod Střední Morava Moravskoslezsko
přírůstek přirozený stěhováním muži ženy muži ženy 954 33 13893 9091 1183 886 13460 11044 605 518 5210 3462 710 782 5850 3420 1167 700 4630 2895 605 485 5540 3373 388 275 1831 344 144 561 580 -678
30000 25000 přírůstek stěhováním ženy
20000
přírůstek stěhováním muži
15000 10000
přirozený přírůstek ženy
5000
přirozený přírůstek muži
0 ah -5000 Pr
a
íČ dn ře St
hy ec
a d d d ko ad av ho ho pa zs áp or ýc ýc zá oz sle ro ov ov íM o r e h k n i Jih e v s d J v ře Se av Se St or M
Tabulka 2.2: Pohyb obyvatelstva v ČR v roce Graf 2.4: Skládaný sloupcový graf, vytvořen z dat [20] 2007, převzato z [20]
2.4
Histogram (Histogram)
Histogram je graficky podobný sloupcovému grafu, ale na rozdíl od něj se histogram používá ke znázornění intervalového rozdělení četností spojité číselné proměnné. Jinak řečeno, histogram četností je vhodné grafické znázornění skupinového rozdělení četností. Jedná se o sloupcový 13
graf, který sestává z obdélníků, jejichž výška je úměrná počtu hodnot v daném intervalu [1]. Počet intervalů se obvykle pohybuje mezi 5 a 20. Známé a často používané je taktéž Sturgesovo pravidlo podle kterého je K = [1 + 3,3*log n], kde n je počet jednotek v souboru, K je počet sloupců a hranaté závorky udávají celočíselnost výrazu. V grafu 2.5 vychází počet intervalů podle Sturgesova pravidla na 29, vyjdeme tedy z horní doporučované hranice a rozdělíme soubor českých obcí na 20 stejných shora omezených intervalů a jeden poslední, shora neomezený, podle počtu obyvatel v nich žijících. Počty českých obcí podle počtu obyvatel
Počet obyvatel v českých obcích interval počet interval počet 0-200 26 2201-2400 7 201-400 628 2401-2600 17 401-600 920 2601-2800 7 601-800 997 2801-3000 3 801-1000 1003 3001-3200 12 1001-1200 569 3201-3400 1 1201-1400 613 3401-3600 0 1401-1600 383 3601-3800 0 1601-1800 60 3801-4000 0 1801-2000 44 4001 a více 839 2001-2200 120
1200 1000 800 600 400 200 0 4001 a víc
3601-3800
3201-3400
2801-3000
2401-2600
2001-2200
1601-1800
1201-1400
801-1000
401-600
0-200
Tabulka 2.3: Počty českých obcí podle počtu obyvatel, převzato z [10]
Graf 2.5: Histogram, vytvořen z dat [10]
Z grafu 2.5 je možno vyčíst, že nejvíce českých obcí má mezi 600 a 1000 obyvatel.
2.5
Bodový graf (Scatter plot)
Bodový graf je nejjednodušším grafem, který se využívá pro výsledky třídění podle dvou kvantitativních znaků, popřípadě pro znázornění závislosti mezi dvěma kvantitativními znaky. Použití nachází zejména při regresní a korelační analýze. Graf 2.6 znázorňuje počet produktů a prodej na průmyslovém trhu. Na tomto grafu je možno sledovat závislost prodeje na počtu produktů v Kč. Znázornění podílů na průmyslovém trhu 80000
Prodej
60000
40000
20000
0 5
10
15
20
25
Počet produktů
Graf 2.6: Bodový graf, vytvořen z dat [11]
14
30
2.6
Bublinový graf (Bubble graph)
Jestliže chceme do dvourozměrného bodového grafu zachytit proměnné tři, je možno využít bublinového grafu, kde třetí proměnou vyjádříme velikostí bubliny. Abychom udrželi přehlednost grafu, nesmí být datových bodů vzhledem k rozsahu os mnoho. Běžně se tento graf používá pro 5-10 datových bodů a je možno jej nalézt zejména ve firemních prezentacích, kde velikost bubliny vyjadřuje podíl na trhu či velikost firmy. Počet produktů 14 20 18 (Hodnoty x)
Prodej 11 200 Kč 60 000 Kč 14 400 Kč (Hodnoty y)
Podíl na trhu (%) 13 23 5 (Velikosti bublin)
Tabulka 2.4: Data pro bublinový graf, převzato z [11]
Graf 2.7: Bublinový graf, převzat z [11]
2.7
Spojnicový graf (Line plot)
Spojnicový graf je obdobou grafu bodového, je určen primárně pro zobrazení souvislých řad v čase a jejich srovnání se společnou stupnicí. Jednotlivé datové body je možno na spojnici vyznačovat, ale v mnoha případech to působí spíše rušivě. V grafu 2.8 je znázorněn počet zahájených a dokončených bytů v ČR v letech 1998 - 2006. V tomto grafu nejsou vyznačeny na datové ose jednotlivé datové body. V grafu 2.9 je znázorněn počet zahájených a dokončených bytů v letech 2005 - 2007. Zde jsou na datové ose jednotlivé datové body vyznačeny, což způsobí lepší odečitatelnost hodnot jednotlivých datových bodů z grafu.
2.8
Polygon četností (Polygon)
Speciálním druhem spojnicového grafu je polygon četností, který slouží ke znázornění rozdělení absolutních nebo relativních četností znaku. Na vodorovnou osu se vynášejí hodnoty sledovaného znaku, na svislou pak vynášíme absolutní nebo relativní četnosti těchto znaků. Na grafu 2.10 jsou ukázány počty jednotlivých typů škol v České republice (mateřská, základní, střední, vysoká) v roce 2003. Jestliže hodnoty jednotlivých skupin začneme postupně kumulovat, dostaneme tzv. součtovou křivku, známou taktéž pod názvem Ogiva (viz graf 2.11). Tato křivka nám vypovídá,
15
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
7 6 6 5 7 8 8 8 9 9
Zahájená výstavba Q1 Q2 Q3 760 9 943 9 534 447 10 144 8 867 651 7 259 9 080 788 8 396 7 397 822 8 127 8 824 275 8 617 10 307 145 11 219 9 725 645 9 042 12 280 117 11 089 11 699 165 10 073 12 580
7 7 9 7 8 9 9 10 11 11
Q4 790 442 387 402 815 297 948 414 842 978
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Dokončená výstavba Q1 Q2 Q3 3 867 3 638 5 312 9 5 100 3 872 6 029 8 5 521 4 222 5 420 10 5 034 4 505 5 956 9 6 531 5 047 5 798 9 5 017 4 764 7 072 10 6 099 5 988 7 845 12 6 452 6 068 8 457 11 6 929 5 188 6 049 12 8 337 6 758 8 731 17
Q4 366 733 044 264 915 274 336 868 024 824
Tabulka 2.5: Zahájená bytová výstavba, pře- Tabulka 2.6: Dokončená bytová výstavba, převzato z [12] vzato z [12] Výstavba bytů
20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 1998 Q1
20000 18000 16000 14000 Počet bytů
Počet bytů
Výstavba bytů
Zahájené Dokončené
12000 zahájené dokončené
10000 8000 6000 4000 2000 0
2000 Q1
2002 Q1
2004 Q1
2006 Q1
2005 Q1
Období
2005 Q3
2006 Q1
2006 Q3
2007 Q1
2007 Q3
Období
Graf 2.8: Spojnicový graf bez vyznačených da- Graf 2.9: Spojnicový graf s vyznačenými datotových bodů, vytvořen z dat [12] vými body, vytvořen z dat [12] kolik vzdělávacích zařízení až do určitého stupně vzdělání (základní, středoškolské) bylo v České republice v roce 2003. Počty škol v roce 2003 Mateřské školy 4842 Základní školy 3870 Střední školy 1703 VŠ+ Voš 221 Tabulka 2.7: Počty škol v roce 2003, data převzata z [13]
2.9
Plošný graf (Area graph)
Plošný graf je další možnou variantou spojnicového grafu. Zatímco u grafu spojnicového používáme k vyjádření jen spojnici daných bodů, v grafu plošném, jak už název vypovídá, se použije celé plochy pod spojnicí datových bodů. Na grafu 2.12 je ukázána bytová výstavba v České republice po jednotlivých letech. 16
Počty škol v roce 2003 12000
5000
10000
4000
8000 počet
počet
Počty škol v roce 2003 6000
3000
6000 4000
2000
2000 1000
0 Mateřské školy
0 Mateřské školy Základní školy
Střední školy
VŠ+ Voš
Základní školy
Střední školy
VŠ+ Voš
Typ školy
Typ školy
Graf 2.10: Polygon četností, vytvořen z dat [13] Graf 2.11: Graf typu ogiva, vytvořen z dat [13] Bytová výstavba 50000 45000 40000 počet bytů
35000 30000 zahájené dokončené
25000 20000 15000 10000 5000 0 1998
2000
2002
2004
2006
rok
Graf 2.12: Plošný graf, vytvořen z dat [12]
2.10
Strom života (věková pyramida)
Další obdobou histogramu je strom života, který slouží ke znázornění věkové struktury obyvatelstva dle pohlaví a věku. Pravá polovina znázorňuje věkovou strukturu žen, levá polovina věkovou strukturu mužů. Pro srovnání vývoje je možné do jednoho grafu zakreslit údaje za více let, porovnat skutečný vývoj s vývojem teoretickým či porovnat strom života dvou různých skupin obyvatel. V grafu 2.13 je porovnání věkové struktury obyvatel Tachova (ohraničen bílou čárou) a Domažlic.
17
Věk Muži 0 1-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95+
Tachov 25 636 266 1 027 1 276 1 729 1 947 1 965 2 132 2 075 1 856 1 912 1 955 2 012 1 931 1 221 878 693 456 224 59 19 3
Domažlice 29 106 288 1 118 1 386 1 785 1 931 2 071 2 574 2 540 2 037 1 959 2 062 2 350 2 331 1 567 1 085 900 619 380 84 37 2
Oba okresy 54 742 554 2 145 2 662 3 514 3 878 4 036 4 706 4 615 3 893 3 871 4 017 4 362 4 262 2 788 1 963 1 593 1 075 604 143 56 5
Věk Ženy 0 1-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95+
Tachov 25 989 241 960 1 172 1 612 1 861 1 852 2 086 2 217 1 772 1 807 1 816 1 950 1 872 1 331 1 071 933 720 513 141 51 11
Domažlice 29 891 280 1 094 1 285 1 724 1 866 1 930 2 506 2 438 1 920 1 879 1 991 2 228 2 256 1 672 1 299 1 237 1 102 799 248 122 15
Oba okresy 55 880 521 2 054 2 457 3 336 3 727 3 782 4 592 4 655 3 692 3 686 3 807 4 178 4 128 3 003 2 370 2 170 1 822 1 312 389 173 26
Tabulka 2.8: Data pro strom života obyvatel Tachova a Domažlic k 1.7.2005, převzato z [14]
Porovnání věkové struktury 95+ 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 15-19 10-14 5-9 0-4 10,00%
8,00%
6,00%
4,00%
2,00%
0,00%
2,00%
4,00%
6,00%
8,00%
Graf 2.13: Strom života, vytvořen z dat [14]
18
10,00%
Kapitola 3
Grafy pro identifikaci odlehlých pozorování V této kapitole se budeme zabývat grafy, které nám pomáhají identifikovat odlehlá pozorování. Z těchto grafů lze také snadno vyčíst informace o kvartilech či odlehlých pozorováních.
3.1
Krabičkový graf (Boxplot)
Krabičkový graf zobrazuje rozložení analyzované proměnné, čímž umožňuje syntetický pohled na průběh hodnot proměnné. V krabičkovém grafu je možno najít informace o aritmetickém průměru, dolním a horním kvartilu, minimu, maximu, případných odlehlých pozorováních a extrémních hodnotách. Další možnosti uplatnění nachází při porovnávání více souborů, můžeme umístit jednotlivé krabičky do jednoho grafu vedle sebe a snadno tak porovnat rozložení proměnné či proměnných u více statistických souborů. Na obrázku 3.1 jsou vyznačeny jednotlivé součásti krabičkového grafu.
Obrázek 3.1: Popis krabičkového grafu Krabičkový graf je možno zobrazovat jak svisle, tak i vodorovně. Pokud je graf zobrazen svisle (jako na obrázku 3.1) má značky jen na ose y a na umístění tohoto grafů vůči ose x nezáleží (pokud je zobrazen vodorovně, má značky jen na ose x). Základním prvkem krabičkového grafu je jak už název vypovídá "krabička". Tato krabička nám svou dolní a horní stranou (pokud 19
je položena svisle) vymezuje horní a dolní kvartil, tj. v krabičce leží 50 procent hodnot. Tuto krabičku předěluje vodorovná čára, jejíž umístění vůči ose y určuje, kde se nachází medián. Z krabičky vystupují dvě svislé čáry (nazývané také tykadla), které nám určují rozsah hodnot bez odlehlých pozorování a extrémních hodnot. Jako odlehlá pozorování se označují pozorování, která jsou vzdálena od horního či dolního kvartilu více než o 1,5 násobek mezikvartilového rozpětí. Tyto hodnoty jsou zpravidla v grafu označovány kroužkem. Extrémní pozorování jsou hodnoty, které jsou od horního či dolního kvartilu vzdáleny a o více než trojnásobek mezikvartilového rozpětí. Většinou bývají označeny hvězdičkou. Jednotlivé statistické programy a učebnice nevyznávají ve vyznačování odlehlých pozorování a extrémních pozorování shodu. Může se stát, že extrémní hodnoty budou zakreslovány stejně jako odlehlá a bude jim přikládán i stejný význam. Odlehlá pozorování a extrémní hodnoty bývají zakreslovány zvlášť zejména proto, aby nám významně nenadhodnocovali výslednou délku tykadel a neznehodnocovaly tak výslednou analýzu dat. Je-li extrémních hodnot vzhledem k množství pozorování mnoho, je třeba se zamyslet, zda by nebylo lepší soubor pozorování rozdělit na dva (či více) podsouborů. V grafu 3.1 je znázorněn počet škol a počet dětí (ve 100) v jednotlivých krajích České republiky. Území, kraj Česká republika Hl.město Praha Středočeský Jihočeský Plzeňský Karlovarský Ústecký Liberecký Královéhradecký Pardubický Vysočina Jihomoravský Olomoucký Zlínský Moravskoslezský
Školy*)
Třídy
4 815 320 629 295 257 118 325 213 297 310 276 633 363 309 470
12 494 1 216 1 418 801 660 352 989 583 716 656 658 1 404 832 715 1 494
Děti celkem
Děti ve školách Učitelky pro děti se SVP*) 285 419 7 352 22 367,70 29 052 788 2 367,20 32 673 366 2 494,70 18 574 203 1 386,70 15 123 377 1 184,50 8 151 181 621,4 22 529 661 1 814,10 12 601 571 1 021,40 15 856 651 1 295,90 15 323 217 1 195,70 14 722 337 1 153,70 31 466 860 2 415,50 18 720 412 1 446,50 16 732 479 1 302,30 33 897 1 249 2 668,10 SVP - speciální vzdělávací potřeby
Tabulka 3.1: Mateřské školy podle krajů za rok 2006 - 2007, převzato z [15]
3.2
Další typy krabičkových grafů
Krabičkový graf je pro svou jednoduchost a názornost velmi oblíben, nicméně právě jeho jednoduchost vedla ke vzniku dalších typů krabičkových grafů, které obsahují více informací než klasický krabičkový graf.
Krabičkový graf se zářezem (Notched box plot) Krabičkový graf se zářezem je rozšířením klasického krabičkového grafu. Na rozdíl od něj nám ale poskytuje navíc informaci o 95 procentních intervalech spolehlivosti pro medián, čehož může být
20
Graf 3.1: Boxplot, vytvořeno z dat [15] využito v různých analýzách. Horní a dolní hranici intervalu spolehlivosti pro medián vyznačuje zářez do klasické krabičky okolo mediánu.
Kombinovaný krabičkový a bodový graf (Combined box plot and dot plot) Další známým typem grafu je kombinace grafu krabičkového a bodového. Tento graf lze s úspěchem využít především ve statistických souborech malého rozsahu, kde se jednotlivá pozorování do krabičky vejdou. Jednotlivá pozorování je možno znázornit různými grafickými symboly, mezi nejčastější patři kolečka, hvězdičky a čtverečky (pomocí čtverečků jsou jednotlivá pozorování znázorněna i na grafu 3.3). Kombinovaný krabičkový a bodový graf umožňuje tedy detailnější pohled na hodnoty jednotlivých datových bodů. Skoly v roce 2006 − 2007
100
200
300
400
500
600
● ●
●
Graf 3.2: Krabičkový graf se zářezem, vytvořeno z dat [15]
Graf 3.3: Kombinovaný krabičkový a bodový graf, převzato z [16]
21
Měřící bodový graf (Dot dash plot)
3.3
Měřící bodový graf vychází z bodového grafu, ale oproti němu přináší více statisticky užitečných informací. Na rozdíl od klasického bodového grafu nezačínají popisné osy grafu v počátku, ale až od minimální hodnoty měření a končí v maximální hodnotě měření. Touto změnou počátku os je dosaženo názorného zobrazení dvourozměrného rozdělení zobrazovaných veličin. Kromě posunutí počátku jsou ještě na osách zaznamenány jednotlivé souřadnice vynášených bodů (čárkou), čímž na osách dostaneme marginální rozdělení četností, aniž bychom ztratili jednoduchost a přehlednost, která patří k hlavním výhodám bodového diagramu. Graf 3.4 nám ukazuje dobu trvání erupce v závislosti na času do další erupce. Průměrnou dobu trvání erupce a průměrnou dobu do další erupce vyznačuje červený kosočtverec na osách x a y.
Old Faithful Eruptions 306.00
Duration (sec)
250
200
150
96.00
43.00
50
60
70
80
Time till next eruption (min)
Graf 3.4: Měřící bodový graf, převzato z [21]
22
90
96.00
Kapitola 4
Grafy porovnávající naměřené hodnoty se známými rozděleními V této kapitole se budeme zabývat grafy, pomocí nichž lze porovnat naměřené hodoty s nějakými známými statistickými rozděleními. Použití nacházejí tyto grafy zejména při formulování hypotéz o naměřeném souboru hodnot.
4.1
Q-Q graf (Quantile-Quantile plot)
Q-Q graf zobrazuje, jak moc jsou výběrová data blízká některému známému statistickému rozdělení, (nejčastěji normálnímu). Jinak řečeno, zda můžeme předpokládat, že výběrový soubor pochází z jistého pravděpodobnostního rozdělení. Ověření tohoto předpokladu se děje na základě porovnávání kvantilů výběrového souboru a kvantilů nějakého známého pravděpodobnostního rozdělení, se kterým data porovnáváme. Nejdříve napozorované hodnoty seřadíme podle velikosti, přičemž vyloučíme chybějící pozorování. Potom tyto hodnoty zakreslíme proti inverzní distribuční funkci zvoleného rozdělení a nakonec do grafu zakreslíme přímku, na níž by v ideálním případě měly naměřené hodnoty ležet. Na grafu 4.1 je zobrazen Q-Q graf, který porovnává průměrné lednové teploty v letech 1997 2008 v České republice. Naměřené hodnoty budeme porovnávat s normálním rozdělením. Pokud by výběrový soubor pocházel z normálního pravděpodobnostního rozdělení, měly by zobrazované body ležet téměř na přímce. Graf 4.1 ukazuje, že průměrné lednové teploty v letech 1997 - 2008 odpovídají svým rozložením normálnímu rozdělení.
4.2
P-P graf (Propability-Propability plot)
P-P graf je využíván (stejně jako Q-Q graf) při určování, zda naměřená data odpovídají předpokládanému teoretickému rozdělení. Do grafu se zakreslují teoretické četnosti proti skutečným četnostem. Pro ověření hypotézy, že naměřené hodnoty odpovídají konkrétnímu teoretickému Rok Leden
1997 -3,58
1998 -1
1999 -1,61
2000 -4,05
2001 -1,49
2002 -4
Rok Leden
2003 -3,48
2004 -5,74
2005 -1,71
2006 -7,2
2007 2,87
2008 1,02
Tabulka 4.1: Průměrné teploty, převzato z [7] 23
Graf 4.1: Q-Q graf, vytvořen z dat [7]
Graf 4.2: P-P graf, vytvořeno z dat [7]
rozdělení, by měly všechny body ležet velmi blízko diagonály, která prochází počátkem grafu (bodem [0,0]) se směrnicí jedna (ve čtvercovém grafu). Jestliže body na přímce neleží, lze z P-P grafu vyčíst, kde se data odchylují a pomocí této informace určit pro daná data vhodnější teoretické rozdělení. Při tvorbě P-P grafu je ale třeba mít porovnávané teoretické rozdělení plně specifikováno. Využití najde P-P graf např. v průzkumové analýze dat, která se zabývá zkoumáním statistických zvláštností dat. V grafu 4.2 je vyobrazen P-P graf porovnívající průměrné lednové teploty v letech 1997 - 2008 s normálním rozdělením. Je vytvořen z dat v tabulce 4.1. Jak je z grafu vidět, většina četností leží dostatečně blízko křivce očekávaných četností. Průměrné lednové teploty lze odhadnout normálním rozdělením.
4.3
Histobars
Stejně jako Q-Q graf nám graf histobars vypovídá, zdali můžeme zkoumaná data považovat za výběr z nějakého známého pravděpodobnostního rozdělení. Nejčastěji porovnáváme s rozdělením normálním. Graf 4.3 je ukázkou grafu histobars a je přejatý z [18]. Zatímco u klasického histogramu se nejdříve zanesou jednotlivé četnosti intervalů hodnot a poté se zanese a zvolí vhodná křivka normálního rozdělení, u grafu histobars je postup opačný. Jednotlivé sloupce, znázorňující četnosti měření se zavěsí na nejvhodnější hustotu pravděpodobnosti normálního. Jestliže by zobrazovaná data byla výběrem z normálního rozdělení, potom by se jednotlivé sloupce nacházely v oblasti vymezené hustotou pravděpodobnosti normálního rozdělení a osou x vedenou z počátku soustavy souřadnic. Z tohoto grafu tedy můžeme soudit, že data z normálního rozdělení nepocházejí.
4.4
Rootogram
Rootogram je obdobou grafu histobars, ale na rozdíl od něj nezobrazuje hustotu pravděpodobnostního rozdělení, ale zobrazuje pouze odchylky dat od dané hustoty pravděpodobnostního rozdělení, s kterým data porovnáváme. Aby rozložení dat odpovídalo normálnímu rozdělení, měly by odchylky od hustoty pravděpodobnosti normálního rozdělení být minimální. Jednou z nevýhod rootogramu je, že při prvním pohledu na graf není vidět, s kterým rozdělením byla data porovnávána. Na druhou stranu, jestliže porovnáváme s více různými rozděleními a chceme 24
zkusit, s kterým budou odchylky nejmenší, pak se nám několik rootogramů vedle sebe bude porovnávat lépe, než několik grafů histobars. Na grafu 4.4 je vyobrazen rootogram, který autoři publikace [18] vytvořili ze stejných dat jako graf histobars 4.3. I tento graf vznikl porovnáním naměřených dat s normálním rozdělením.
Graf 4.3: Histobars, převzato z [18]
Graf 4.4: Rootogram, převzato z [18]
Kdyby porovnávaná data byla výběrem z normálního rozdělení, byly by záporné i kladné velikosti sloupců minimální (každý sloupec vyjadřuje odchylku). Jelikož výšky sloupců v grafu 4.4 jsou nejsou zanedbatelné, nejsou tyto data výběrem z normálního rozdělení.
25
Kapitola 5
Speciální grafy V této kapitole se budeme zabývat grafy, které se mi nepodařilo zařadit ani do jedné z předchozích skupin. Přesto si myslím, že každý z následujících grafů je něčím významný a zajímavý.
5.1
Matice bodových diagramů (Scatterplot matrix)
Matice bodových diagramů nachází uplatnění při srovnávání více časových řad dohromady i vzájemně mezi sebou (a obecně u vícerozměrných dat), stejně tak jako při sledování souvislosti veličin ve sledovaných časových řadách. Vychází z myšlenky porovnat každou dvojici z těchto řad a na základě tohoto porovnání si udělat úsudek o celkových závislostech. Jestliže matice bodových diagramů zobrazuje porovnání n časových řad, bude její rozměr n x n. V této matici bude n*(n-1) bodových grafů. Vzhledem k tomu, že se v matici nachází tentýž graf jednou pod diagonálou a jednou nad ní (jen s prohozenými osami), vykresluje se někdy jen polovina matice. Každou časovou řadu lze tedy porovnat s ostatními prohlédnutím jednoho řádku či sloupce matice (při vykreslení jen poloviny matice je k porovnání časové řady se všemi ostatními časovými řadami třeba prohlédnout řádek a sloupec matice ve kteerém porovnávaná časová řada leží). V grafu 5.1 je zobrazena vzájemná závislost inflace, reálných mezd a HDP v České republice v letech 1996 - 2008. Graf byl vytvořen z dat v tabulce 5.1.
Rok 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
inflace (%) 8,8 8,5 10,7 2,1 3,9 4,7 1,8 0,1 2,8 1,9 2,5
reálné mzdy 566381 607219 639187 659927 693577 754836 804769 853345 907318 968563 1043870
reálné HDP 1525585 1670986 1797348 2023226 2156702 2242943 2396832 2553208 2692684 2994141 3177741
Graf 5.1: Matice bodových diagramů, vytvořen Tabulka 5.1: Reálné mzdy, HDP a inflace, přez dat [19], [20] vzato z [19], [20]
26
Z grafu 5.1 je možno vidět, že mzdy a HDP mají analogický vývoj v čase, zatímco analogický vývoj inflace a mezd, ani inflace a HDP vidět není.
5.2
Číslicový histogram (Steam and leaf diagram)
Číslicový histogram je dalším typem grafu znázorňujícím rozdělení četností statistického souboru. Nevýhodou číslicového diagramu je právě jeho číselné vyjádření, které je pro laiky obtížně interpretovatelné. Oproti tomu pokud už tento graf umíme přečíst, přinese nám daleko více informací než klasický histogram. Z tohoto vyplývá také jeho nejčastější použití: umístění v odborných publikacích. Pojďme se podívat, jak by vypadal číslicový histogram pro počet mateřských škol v jednotlivých krajích ČR za rok 2004 - 2005. Školní rok 2004-2005 Území, kraj Mateřské školy Hl.město Praha 307 Středočeský 614 Jihočeský 296 Plzeňský 258 Karlovarský 138 Ústecký 323 Liberecký 208 Královéhradecký 298 Pardubický 312 Vysočina 286 Jihomoravský 614 Olomoucký 353 Zlínský 306 Moravskoslezský 463
Mateřské školy 2004 - 2005 2 6 (5) 3 2 2
1 2 3 4 5 6
3 0 0 6
5 0
1
1
8 1
9 2
9 5
Tabulka 5.2: Mateřské školy podle krajů za rok Graf 5.2: Číslicový histogram, vytvořeno z dat 2004 - 2005, převzato z [15] [15] Pro počet mateřských škol v daných krajích jsme vytvořili šest skupin (intervalů). Číslo vlevo od kolmice nám udává spodní hranici tohoto intervalu. Počet pozorování v daném intervalu (četnost) nám určuje počet čísel vpravo od kolmice, tj. první interval který je od 100-199 obsahuje 1 pozorování, v druhém intervalu s rozsahem od 200 do 299 je pět pozorování atd. Čísla vpravo od kolmice udávají taktéž druhou cifru daného čísla tj. v prvním intervalu je pozorování 130 v druhém 200, 250, 280, 290 a 290. Tím, že známe i druhou cifru se nám výrazně zmenšuje interval pozorování a tím i dané nepřesnosti a ztráty informace oproti klasickému histogramu. Pokud bychom vycházeli z klasického histogramu, byl by průměr druhé skupiny 250 (střed intervalu). Pokud však vycházíme z číslicového diagramu, je průměr druhé skupiny (200+250+280+290+290)/5 = 262. Přičemž víme že průměr ze zadaných dat v druhé skupině je 269. Jak je vidno, informace o hodnotě druhé cifry, která nám zmenšila intervaly, výrazně zpřesnila odhadovaný průměr. Kromě této informace poskytuje graf ještě informaci o kumulativních četnostech nízkých intervalů (shora) a kumulativních četnostech vysokých intervalů (zdola). Tyto kumulativní četnosti najdeme v levém sloupci. Číslo v závorce určuje interval, ve kterém se nachází medián. A na závěr je na tomto grafu možno ukázat, že jde o dvouvrcholové rozdělení četností. Počet vrcholů poznáme pomocí četnosti pozorování v jednotlivých intervalech. 27
Závěr V této práci jsem se věnovala statistickým grafům ze dvou různých hledisek. Z hlediska publikačního a z hlediska analýzy dat. První část grafů se používá zejména k publikaci dat uživatelům a pro jednodušší znázornění dosažených výsledků. V části druhé jsem se zabývala grafy využitelnými pro statistické analýzy jako takové. V první kapitole jsem shrnula terminologii a možnosti špatné (ať už záměrné či neúmyslné) tvorby grafů. V druhé kapitole jsem se věnovala grafům, které jsou výsledkem třídění spojitých a nespojitých veličin. Třetí kapitola se zaměřuje na grafy, které umožňují odlehlá pozorování, která by nám případně mohla ovlivňovat výslednou analýzu dat. S analýzou dat souvisí i následující kapitola, která se zabývá odhadováním, ze kterého známého pravděpodobnostního rozdělení data pocházejí. Tyto grafy jsou využívány zejména při testování hypotéz o rozdělení. Poslední kapitola patří grafům, které se mi nepodařilo zařadit ani do jedné z předchozích skupin, přesto ale jsou svým použitím a zobrazovanými informacemi něčím význačné. Práce ukazuje přehledným způsobem souhrn nejdůležitějších grafů, které jsou vytvořeny z ekonomicky zajímavých dat. Práci je možno využít pro inspiraci při tvorbě grafů do publikační činnosti, stejně jako při analýzách hromadných dat.
28
Literatura [1] CYHELSKÝ, Lubomír, KAHOUNOVÁ, Jana, HINDLS, Richard. Elementární statistická analýza. 2001. 319 s. ISBN 80-7261-003-1. [2] SEGER, Jan, HINDLS, Richard, HRONOVÁ, Stanislava. Statistika v hospodářství. Praha: ETC Publishing, 1998. 636 s. ISBN 80-86006-56-5. [3] FRIENDLY, Michael. Gallery of Data Visualization [online]. 2000 [cit. 2008-04-28]. Dostupný z WWW:
[4] Benzina. Letak_verva_100 [online]. [cit. 2008-04-25]. Dostupný z WWW:
[5] POČTY ZAMĚSTNANCŮ A PRŮMĚRNÉ HRUBÉ MĚSÍČNÍ MZDY V ČESKÉ REPUBLICE V JEDNOTLIVÝCH ODVĚTVÍCH [online]. 2008 [cit. 2008-03-29]. Dostupný z WWW: [6] Vývoj inflace v ČR [online]. 2007 [cit. 2008-02-15]. Dostupný z WWW: [7] Zpravodaj[online]. 2008 [cit. 2008-04-25]. Dostupný z WWW: [8] A[online]. 2007 [cit. 2008-02-05]. Dostupný z WWW:<www.czso.cz/csu/2007edicniplan. nsf/engt/FE003FE479/\protect\T1\textdollarFile/0001072526.xls> [9] Statistics Homepage Glossary[online]. 1984-2008 [cit. 2008-04-05]. Dostupný z WWW: [10] Počet obyvatel v obcích české republiky [online]. 2007 [cit. 1986-04-07]. Dostupný z WWW: . [11] Typy grafů, které jsou k dispozici - Nápověda a postupy - Microsoft Office Online[onli-ne]. 2008 [cit. 2008-04-20]. Dostupný z WWW: [12] Bytová výstavba - časové řady[online]. 2008 [cit. 2008-04-19]. Dostupný z WWW: [13] Školství do kapsy 2003 [online]. 2003 [cit. 2008-04-16]. Dostupný z WWW: [14] Demografická ročenka okresů české republiky - Plzeňský kraj[online]. 2007 [cit. 2008-0310]. Dostupný z WWW: 29
[15] Školy a školská zařízení za školní rok [online]. 2007 [cit. 2008-04-18]. Dostupný z WWW: [16] Data comparison graphs [online]. 1993-2008 [cit. 2008-05-01]. Dostupný z WWW: [17] Průměrná měsíční teplota[online]. 1997-2008 [cit. 2008-04-15]. Dostupný z WWW: <www. meteosvatonovice.unas.cz/Data/Mesictepl.xls> [18] ARLTOVÁ, Markéta, ARLT, Josef.Grafické metody analýzy ekonomických časových řad. Statistika [online]. 1995 [cit. 2008-01-10]. [19] Hrubý domácí produkt- Časové řady ukazatelů čtvrtletních účtů[online]. 2007 [cit. 2008-02-03]. Dostupný z WWW: [20] ČSÚ [online]. 2008 [cit. 2008-04-20]. Dostupný z WWW: [21] Steven J.Murdoch[online]. 2008 [cit. 2008-04-20]. Dostupný z WWW:
30
Seznam grafů 1.1 1.2 1.3 1.4 1.5 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 3.1 3.2 3.3 3.4 4.1 4.2 4.3 4.4 5.1 5.2
Změna rozsahu osy y, vytvořeno z dat [5] . . . . . . . . . . . . . . . Změna rozsahu osy y, vytvořeno z dat [5] . . . . . . . . . . . . . . . Přidání extrémní hodnoty, vytvořeno z dat [5] . . . . . . . . . . . . . Ukázka zaoblené spojnice, vytvořeno z dat [6] . . . . . . . . . . . . . Ukázka ostré spojnice, vytvořeno z dat [6] . . . . . . . . . . . . . . . Výsečový graf, vytvořen z dat [7] . . . . . . . . . . . . . . . . . . . . Prstencový graf, vytvořen z dat [7] . . . . . . . . . . . . . . . . . . . Sloupcový graf, vytvořen z dat [8] . . . . . . . . . . . . . . . . . . . Skládaný sloupcový graf, vytvořen z dat [20] . . . . . . . . . . . . . . Histogram, vytvořen z dat [10] . . . . . . . . . . . . . . . . . . . . . Bodový graf, vytvořen z dat [11] . . . . . . . . . . . . . . . . . . . . Bublinový graf, převzat z [11] . . . . . . . . . . . . . . . . . . . . . . Spojnicový graf bez vyznačených datových bodů, vytvořen z dat [12] Spojnicový graf s vyznačenými datovými body, vytvořen z dat [12] . Polygon četností, vytvořen z dat [13] . . . . . . . . . . . . . . . . . . Graf typu ogiva, vytvořen z dat [13] . . . . . . . . . . . . . . . . . . Plošný graf, vytvořen z dat [12] . . . . . . . . . . . . . . . . . . . . . Strom života, vytvořen z dat [14] . . . . . . . . . . . . . . . . . . . . Boxplot, vytvořeno z dat [15] . . . . . . . . . . . . . . . . . . . . . . Krabičkový graf se zářezem, vytvořeno z dat [15] . . . . . . . . . . . Kombinovaný krabičkový a bodový graf, převzato z [16] . . . . . . . Měřící bodový graf, převzato z [21] . . . . . . . . . . . . . . . . . . . Q-Q graf, vytvořen z dat [7] . . . . . . . . . . . . . . . . . . . . . . . P-P graf, vytvořeno z dat [7] . . . . . . . . . . . . . . . . . . . . . . Histobars, převzato z [18] . . . . . . . . . . . . . . . . . . . . . . . . Rootogram, převzato z [18] . . . . . . . . . . . . . . . . . . . . . . . Matice bodových diagramů, vytvořen z dat [19], [20] . . . . . . . . . Číslicový histogram, vytvořeno z dat [15] . . . . . . . . . . . . . . .
31
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 10 10 11 11 12 12 13 13 14 14 15 16 16 17 17 17 18 21 21 21 22 24 24 25 25 26 27
Seznam obrázků 1.1 1.2
Popis prvků grafu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ukázka grafů zkreslených posunem osy y . . . . . . . . . . . . . . . . . . . . . . .
7 9
3.1
Popis krabičkového grafu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
32
Seznam tabulek 1.1 1.2
Legenda ke grafům 1.1, 1.2 a 1.3, data převzata z [5] . . . . . . . . . . . . . . . . Data ke grafům 1.4 a 1.5, převzato z [6] . . . . . . . . . . . . . . . . . . . . . . .
10 11
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8
Počet požárů v ČR v roce 2006, převzato z [8] . . . . . . . . . . Pohyb obyvatelstva v ČR v roce 2007, převzato z [20] . . . . . Počty českých obcí podle počtu obyvatel, převzato z [10] . . . . Data pro bublinový graf, převzato z [11] . . . . . . . . . . . . . Zahájená bytová výstavba, převzato z [12] . . . . . . . . . . . . Dokončená bytová výstavba, převzato z [12] . . . . . . . . . . . Počty škol v roce 2003, data převzata z [13] . . . . . . . . . . . Data pro strom života obyvatel Tachova a Domažlic k 1.7.2005,
. . . . . . . .
13 13 14 15 16 16 16 18
3.1
Mateřské školy podle krajů za rok 2006 - 2007, převzato z [15] . . . . . . . . . . .
20
4.1
Průměrné teploty, převzato z [7] . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
5.1 5.2
Reálné mzdy, HDP a inflace, převzato z [19], [20] . . . . . . . . . . . . . . . . . . Mateřské školy podle krajů za rok 2004 - 2005, převzato z [15] . . . . . . . . . . .
26 27
33
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . převzato
. . . . . . . z
. . . . . . . . . . . . . . . . . . . . . [14]
Příloha A
Terminologie grafů Vzhledem k běžně používaným anglickým názvům v odborné statistické terminologii, přikládám seznam názvů grafů uvedených v této práci. V práci jsou používány české názvy grafů, bylo-li třeba s anglickými ekvivalenty v závorkách. Snad tedy tato tabulka pomůže k lepšímu zorientování se v problematice statistických grafů. Překlad názvů grafů Česky Anglicky Bodový graf Scatter plot Bublinový graf Blebby graph Číslicový histogram, stromkový graf Steam and Leaf diagram Graf sezónních výkyvů Seasonal Subseries Histogram Histogram Kombinovaný krabičkový a bodový graf Combined box plot and dot plot Krabičkový graf Box and Whisker plot Krabičkový graf se zářezem Notched box plot Matice bodových diagramů Scatterplot matrix Měřící bodový graf Dot dash plot Plošný graf Area graph Polygon Polygon P-P graf Propability-Propability plot Q-Q graf Quantile-Quantile plot Skládaný sloupcový Sequential plot Sloupcový graf Bar plot Spojnicový graf Line plot Strom života, věková pyramida — Výsečový graf Pie plot — Histobars — Rootogram
34