3
Grafick´ e zpracov´ an´ı dat
Grafick´e zn´azorˇ nov´an´ı je velmi u ´ˇcinn´ y zp˚ usob, jak prezentovat statistick´e u ´daje. Grafy nejsou tak pˇresn´e jako tabulky, ale rychle a l´epe mohou poskytnou n´azornou pˇredstavu o d˚ uleˇzit´ ych tendenc´ıch a souvislostech. Pomoc´ı graf˚ u m˚ uˇzeme napˇr´ıklad odhadovat trendy a kol´ıs´an´ı ˇcasov´ ych ˇrad nebo nˇekolik ˇcasov´ ych ˇrad vz´ajemnˇe srovn´avat. Nevhodn´e pouˇzit´ı grafick´eho vyj´adˇren´ı vˇsak m˚ uˇze t´eˇz sv´adˇet k chybn´ ym u ´vah´am a interpretac´ım. Graf pˇredstavuje pˇreps´an´ı ˇc´ıseln´ ych u ´daj˚ u do soustavy geometrick´ ych obrazc˚ u. Z´akladn´ı smysl ˇc´ıseln´ ych u ´daj˚ u interpretujeme pomoc´ı souˇradnic, stupnic a grafick´e s´ıtˇe. Podkladem grafick´eho zn´azornˇen´ı je vˇetˇsinou soustava souˇradnic, v n´ıˇz horizont´aln´ı osa (x) se naz´ yv´a osa u ´seˇcek (abscisa) a vertik´aln´ı osa (y) je osa souˇradnic (ordin´ata). Poloha libovoln´eho bodu je urˇcena d´elkou kolmice k ose ˇ ıselnˇe polohu bodu vyj´adˇr´ıme vzhledem k zvolen´ x a k ose y. C´ ym stupnic´ım na obou os´ach. Na kaˇzd´e stupnici jsou vyznaˇceny k´oty, kter´ ym jsou pˇriˇrazena ˇc´ısla. Vzd´alenost mezi dvˇema k´otami je grafick´ y interval, rozd´ıl mezi jejich ˇc´ıseln´ ym oznaˇcen´ım je ˇc´ıseln´ y interval. Pomˇer mezi grafick´ ym a ˇc´ıseln´ ym intervalem se naz´ yv´a modul stupnice. Jestliˇze stejn´emu ˇc´ıseln´emu intervalu v libovoln´em m´ıstˇe stupnice odpov´ıd´a stejn´ y grafick´ y interval, jde o rovnomˇernou stupnici. U nerovnomˇern´e stupnice stejn´ ym ˇc´ıseln´ ym interval˚ um odpov´ıdaj´ı nestejn´e grafick´e intervaly. Napˇr´ıklad nerovnomˇern´a stupnice, pro kterou grafick´ y interval je d´an rozd´ılem logaritm˚ u ˇc´ısel, se naz´ yv´a logaritmick´a stupnice. Kromˇe pravo´ uhl´e soustavy souˇradnic se pouˇz´ıv´a i pol´arn´ıch souˇradnic. Tato soustava urˇcuje polohu libovoln´eho bodu pomoc´ı jeho vzd´alenosti od poˇca´tku a velikosti u ´hlu, kter´ y je mˇeˇren od zadan´eho smˇeru. Uk´azka presentace dat tabulce
x1 3504 3693 4312 3850 3090 4142 4055 3870 3755 2865 3035 1980 ... ...
Tabulka 1: Zdrojov´ ych dat x2 x3 x4 18 8 307 15 8 350 14 8 440 15 8 390 N aN 4 133 N aN 8 350 13 8 350 13 8 302 13 8 318 24 4 140 23 4 151 36 4 105 ... ... ... ... ... ...
1
x5 130 165 215 190 115 165 145 130 150 92 N aN 74 ... ...
x6 1 1 1 1 1 1 2 2 2 3 3 3 ... ...
3.1 3.1.1
Z´ akladn´ı grafy Bodov´ y graf
se uˇz´ıv´a zejm´ena ke zn´azornˇen´ı z´avislosti dvou znak˚ u a zn´azorˇ nuje namˇeˇren´e hodnoty pomoc´ı bod˚ uv soustavˇe pravo´ uhl´ ych souˇradnic. Chceme-li v jednom bodov´em grafu odliˇsit hodnoty r˚ uzn´ ych kategori´ı, pouˇzijeme rozd´ıln´ ych symbol˚ u (troj´ uheln´ıˇcky, krouˇzky, kˇr´ıˇzky) nebo r˚ uzn´ ych barev. Obr´azek 1: Z´avislost veliˇciny x2 na veliˇcinˇe x1 pro r˚ uzn´e skupiny podle hodnoty x6
3.1.2
Spojnicov´ y graf
vyjadˇruje pr˚ ubˇeh ˇcasov´e ˇrady nebo slouˇz´ı ke zn´azornˇen´ı rozdˇelen´ı absolutn´ıch nebo relativn´ıch ˇcetnost´ı spojit´eho znaku a v tomto pˇr´ıpadˇe se naz´ yv´a polygon ˇcetnost´ı.
2
3.1.3
Sloupcov´ y graf
je graf, kdy ˇc´ıseln´e hodnoty jsou vyj´adˇreny pomoc´ı obd´eln´ıkov´ ych sloupc˚ u. Sloupce v grafu obvykle zakreslujeme ve svisl´e poloze. Ve vodorovn´e poloze je umist’ujeme v pˇr´ıpadˇe, ˇze text ke sloupc˚ um je pˇr´ıliˇs dlouh´ y. Chceme-li v grafu souˇcasnˇe srovn´avat v dan´em znaku v´ıce soubor˚ u, m˚ uˇzeme do t´eˇze tˇr´ıdy um´ıstit i v´ıce sloupc˚ u. Sloupce pak odliˇsujeme barevnˇe nebo r˚ uzn´ ym ˇsrafov´an´ım. Pˇri stejn´e velikosti tˇr´ıd je ˇs´ıˇrka sloupc˚ u konstantn´ı a v´ yˇska odpov´ıd´a velikosti nebo ˇcetnosti zn´azorˇ novan´eho jevu. Pˇri nestejn´e velikosti tˇr´ıd mus´ı b´ yt ˇs´ıˇrka sloupce u ´mˇern´a velikosti tˇr´ıdy a plocha odpov´ıdat ˇcetnosti. Obr´azek 2: Veˇrejn´e v´ ydaje na zdravotnictv´ı (v mil. Kˇc) a index veˇrejn´ ych v´ ydaj˚ u ve st´al´ ych cen´ach (basick´ y rok 1995=100)
3
3.1.4
Histogram
se pouˇz´ıv´a ke zn´azornˇen´ı rozdˇelen´ı absolutn´ıch nebo relativn´ıch ˇcetnost´ı spojit´eho znaku. Jedn´a se speci´aln´ı typ sloupcov´ y graf, kter´ y lze charakterizovat n´asledovnˇe: 1. Sloupce v histogramu jsou vertik´aln´ı. Jejich v´ yˇska odpov´ıd´a ˇcetnosti (absolutn´ı nebo relativn´ı). 2. Stupnice na vodorovn´e ose grafu je vˇzdy ve stejn´ ych jednotk´ach (obecn´e sloupcov´e grafy, kter´e obvykle obsahuj´ı kvalitativn´ı veliˇciny, nemus´ı m´ıt mˇeˇr´ıtko z´akladny). ˇıˇrka sloupc˚ 3. S´ u v histogramu m´a v´ yznam - z´akladna kaˇzd´eho sloupce zahrnuje tˇr´ıdu hodnot ˇ veliˇciny. Cetnost tedy odpov´ıd´a ploˇse sloupce (tj. ˇs´ıˇrce sloupce × v´ yˇsce). Pokud budeme pˇredpokl´adat, ˇze d´elka intervalu je konstantn´ı, oznaˇcme ji h, pak pˇri urˇcov´an´ı poˇctu tˇr´ıd, do kter´ ych data rozdˇelujeme, m˚ uˇzeme vych´azet z n´asleduj´ıc´ıch pravidel • Sturgesovo pravidlo - h =
R , kde R je xmax − xmin a k = 1 + log2 n; k
• Modifikovan´e Sturgasovo pravidlo - k = 1 + 3.3 · ln n; • Scottovo pravidlo - h = 3.5 ·
s n1/3
, kde s je (v´ ybˇerov´a) standardn´ı odchylka;
• Freedman, Diaconisovo pravidlo - h = 2 ·
RQ , kde RQ = Q75 − Q25 je kvartilov´e rozpˇet´ı ; n1/3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ˇ Pro urˇcov´an´ı ˇcetnost´ı pouˇz´ıv´ame v Excelu funkci CETNOSTI(DATA;HODNOTY), kde DATA je matice nebo odkaz na mnoˇzinu hodnot, jejichˇz ˇcetnosti chcete vypoˇc´ıtat a HODNOTY je matice interval˚ u (nebo odkaz na nˇe), do kter´ych chcete seskupit hodnoty uveden´e v argumentu data. Funkce je maticov´ a, tedy zad´av´ame pomoc´ı kombinace CTRL+SHIFT+ENTER. . ................................................................................................ . Speci´aln´ım typem histogramu je histogram v pol´arn´ıch souˇradnic´ıch. Obr´azek 3: Histogram veliˇciny x5 - v klasick´ ych a v pol´arn´ıch souˇradnic´ıch
4
3.1.5
Vˇ ekov´ a pyramida
(strom ˇzivota) zn´azorˇ nuje vˇekov´e sloˇzen´ı vzorku. Jedn´a se opˇet o zvl´aˇstn´ı typ sloupcov´eho grafu. Obr´azek 4: Pr˚ umˇern´e n´aklady VZP na zdravotn´ı p´eˇci na 1 pojiˇstˇence dle vˇekov´e struktury v roce 2004
5
3.1.6
Kruhov´ y graf
(v´ yseˇcov´ y, kol´aˇcov´ y) graf zachycuje strukturu souboru. Plocha kruhu pˇredstavuje cel´ y soubor a jednot◦ liv´e ˇca´sti jsou zn´azornˇeny kruhov´ ymi v´ yseˇcemi. Protoˇze 360 odpov´ıd´a 100 % plochy kruhu, pˇredsta◦ vuje v´ yseˇc o stˇredov´em u ´hlu 3,6 jedno procento. V´ yseˇce, kter´e pˇredstavuj´ı jednotliv´e sloˇzky souboru, odliˇsujeme r˚ uzn´ ym ˇsrafov´an´ım nebo barevnˇe. Obr´azek 5: Struktura n´aklad˚ u zdravotn´ıch pojiˇst’oven na zdravotn´ı p´eˇci podle segment˚ u p´eˇce v roce 2004
3.2
Speci´ aln´ı statistick´ e grafy
Z´akladn´ım probl´emem je graficky zachytit v´ıce informac´ı do jednoho grafu. Napˇr´ıklad pro r˚ uzn´e skupiny chceme graficky zachytit: pr˚ umˇer ve skupinˇe (charakteristika polohy), smˇerodatnou odchylku ve skupinˇe (charakteristika variability) a poˇcet prvk˚ u ve skupinˇe (pod´av´a informaci o velikosti skupiny). 3.2.1
Graf s chybov´ ymi u ´ seˇ ckami
je graf, zobrazujeme z´avislost pr˚ umˇeru ve skupinˇe na skupinˇe a d´ale graficky vyjadˇrujeme smˇerodatnou odchylku jako tzv. chybov´e u ´seˇcky ve smˇeru svisl´e osy. M˚ uˇzeme t´eˇz pˇridat chybov´e u ´seˇcky ve smˇeru vodorovn´e osy a vyj´adˇrit tak napˇr´ıklad poˇcet prvk˚ u ve skupinˇe.
6
Obr´azek 6: Graf kombinuj´ıc´ı sloupcov´ y graf a bodov´ y graf s chybov´ ymi u ´seˇckami
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ´ ´ RADY, ˇ V Excelu zad´av´ame chybov´e u ´seˇcky v´ybˇerem FORMATU DATOVE jejich grafickou po´ ´ ´ ˇ dobu lze ovlivnit pomoc´ı FORMATU CHYBOVYCH USECEK. Obr´azek 7: Form´at datov´e ˇrady
. ................................................................................................ .
7
3.2.2
Bublinov´ y graf
je graf, kde dalˇs´ı veliˇcina (napˇr´ıklad poˇcet prvk˚ u ve skupinˇe) je vyj´adˇrena objemem nebo ˇs´ıˇrkou bubliny.“ ” Obr´azek 8: Bublinov´ y graf , kde poˇcet prvk˚ u ve skupinˇe je vyj´adˇren plochou bubliny
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V Excelu pouˇzijeme pro vytvoˇren´ı tohoto grafu standardn´ı typ grafu: bublinov´y a jeho pˇresnˇejˇs´ı para´ ´ RADY ˇ metry m˚ uˇzeme upravit pomoc´ı FORMATU DATOVE Obr´azek 9: Form´at datov´e ˇrady
. ................................................................................................ .
8
3.2.3
Box plot grafy
(krabiˇckov´ y graf) je graf, kter´ y se obvykle pouˇz´ıv´a pro zachycen´ı robusn´ıch statistik. Z´akladem grafu je obdeln´ık, jehoˇz hrany tvoˇr´ı doln´ı a horn´ı kvartil (uvnitˇr obdeln´ıku je 50% hodnot), uvnitˇr obdeln´ıku je vyznaˇcen medi´an (pln´a ˇca´ra),ev. i pr˚ umˇer (krouˇzek). Z obdeln´ıku vedou u ´seˇcky (tzv. vousy - whiskers ), kter´e dosahuj´ı k hranice xD = Q0.25 −1.5·(Q0.75 −Q0.25 ), reps. xH = Q0.75 +1.5·(Q0.75 −Q0.25 ). Hodnoty, kter´e jsou mimo oblast vyznaˇcenou vousy“, jsou od odlehl´a pozorov´an´ı (extr´emn´ı pozorov´an´ı, outliers) ” a jsou vyznaˇceny kˇr´ıˇzkem (jeden kˇr´ıˇzek=jedno odlehl´e pozorov´an´ı). Obr´azek 10: Box graf
3.2.4
Empirick´ a distribuˇ cn´ı funkce
je graf zachycuj´ıc´ı rozloˇzen´ı dat v cel´em studovan´em souboru. Empirickou distribuˇcn´ı funkci sestroj´ıme tak, ˇze seˇrad´ıme data podle velikosti a na osu x vyn´aˇs´ıme hodnoty dat a osa y zachycuje kolik procent dat je menˇs´ıch neˇz hodnota na ose x. Obr´azek 11: Empirick´a distribuˇcn´ı funkce pro hodnoty 1, 2, 3, 3, 4, 9, 12
9
3.2.5
Paret˚ uv graf
je speci´aln´ı typ sloupcov´eho grafu, kdy jednotliv´e hodnoty jsou uspoˇr´ad´any v sestupn´em poˇrad´ı. Nav´ıc graf obvykle obsahuje kumulativn´ı hodnotu. Obr´azek 12: Paret˚ uv graf
3.2.6
Probability grafy
jsou grafy, kter´e porovn´avaj´ı namˇeˇren´e hodnoty s jejich oˇcek´avan´ ymi. Tak´e se pouˇz´ıv´a oznaˇcen´ı PP grafy. Grafy slouˇz´ı k rozhodnut´ı, zda namˇeˇren´a data poch´az´ı ze sledovan´eho rozdˇelen´ı. Typick´ ym pˇr´ıkladem jsou normal probability plot a weibull probability plot, ale grafy se daj´ı konstruovat pro vˇsechna rozdˇelen´ı. i −1 Body v grafech maj´ı souˇradnice F ; x(i) . n+1 Pouˇzit´ı uk´aˇzeme na n´asleduj´ıc´ıch pˇr´ıkladech: generujeme dvˇe sady dat DATA 1 maj´ı charakter norm´aln´ıho rozdˇelen´ı a DATA2 nemaj´ı charakter norm´aln´ıho rozdˇelen´ı a pro oba pˇr´ıpady vykresl´ıme grafy
10
Obr´azek 13: Normal P-P graf pro DATA1 a DATA2
Obr´azek 14: Weibull P-P graf pro DATA1 a DATA2
3.2.7
Q-Q grafy
porovn´avaj´ı experiment´aln´ı a teoretick´e kvartily, pˇr´ıpadnˇe porovn´avaj´ı kvartily dvou experiment´aln´ıch mˇeˇren´ı
11
Obr´azek 15: Porovn´an´ı dvou skupin dat, kter´e poch´az´ı, resp. nepoch´az´ı ze stejn´eho rozdˇelen´ı
3.2.8
Dalˇ s´ı speci´ aln´ı a kombinovan´ e grafy
Obr´azek 16: Uk´azka kombinovan´eho grafu
12
Obr´azek 17: Uk´azka kombinovan´eho grafu
3.2.9
Chernoff faces
je graf vyvinut´ y pro visualizaci v´ıcedimension´aln´ıch dat. Jednotliv´e poloˇzky dat jsou presentov´any jednotliv´ ymi charakteristikami zjednoduˇsen´eho lidsk´eho obliˇceje - excentricita obliˇceje, excentricita oˇc´ı, velikost nosu, u ´st, . . . . kaˇzd´ y parametr je reprezentov´an hodnotou v rozsahu 0 − 1.
13
3.2.10
Grafy pro meta anal´ ysu
je vhodn´ y graf pro meta anal´ yzy, kdy zpracov´av´am statistick´e studie v jedn´e oblasti do souhrnn´eho celku
14
Obr´azek 18: Uk´azka visualizace
15
Obr´azek 19: Uk´azka kombinovan´eho grafu forest plot
Obr´azek 20: Uk´azka kombinovan´eho grafu Galbraith plot
16