Mendelova zemědělská a lesnická univerzita v Brně Fakulta regionálního rozvoje a mezinárodních studií
APLIKOVANÁ STATISTIKA pro FRRMS Modul 1: Datový soubor — zjišťování, prezentace a zpracování
Prof. Ing. Bohumil Minařík, CSc.
Brno 2009
2
Vysvětlení použitých symbolů
Průvodce studiem — objevuje se v úvodu a závěru modulu, zahajuje každou lekci, formuluje hlavní problémy, snaží se motivovat čtenáře, poukazuje na návaznosti v problematice Abecední rejstřík použitých pojmů v úvodní části každé lekce. Rekapituluje všechny důležité odborné termíny zavedené v lekci.
Σ
• • • • • • •
„Bleskové“ otázky/úkoly v textu. Pokud jsou číslovány, čtenář nalezne v závěru lekce příslušné odpovědi. Čtenář by se je měl snažit splnit dříve, než postoupí dál.
Souhrn problematiky lekce. Následuje po textu lekce.
Odpovědi na „bleskové“ otázky v textu lekce.
Cvičení k lekci. Pokud je to účelné a možné, nalezne čtenář řešení úkolů na konci modulu. Klíč ke cvičením ke všem lekcím v závěru modulu.
Struktura modulu
Struktura lekce
titulní list, použité symboly, struktura modulu a lekcí, obsah modulu, průvodce studiem modulu – úvod, jednotlivé lekce modulu, klíč ke cvičením ke všem lekcím, průvodce studiem modulu – závěr.
• • • • • •
3
průvodce studiem lekce, abecední rejstřík pojmů, text lekce proložený „bleskovými“ otázkami a úkoly, souhrn lekce, odpovědi na „bleskové“ otázky, cvičení k lekci.
Obsah modulu Průvodce studiem modulu — úvodní část
5
Zjišťování a typy dat
6
Lekce 1 1.1. 1.2. 1.3. 1.4. 1.5.
Metody zjišťování dat Výběrová zjišťování Statistická data Tabulková a grafická prezentace dat Chyby v datech
Lekce 2
6 7 8 9 12
Třídění a významné hodnoty
15
2.1. Bodové třídění 2.2. Intervalové třídění 2.3. Významné hodnoty 2.4. Aproximace typické hodnoty a kvantilů u intervalového třídění
Lekce 3 3.1. 3.2. 3.3. 3.4.
15 17 19 21
24
Měření koncentrace
24 24 25 26
Pojem koncentrace Koncentrační křivka Mediál Giniův index
Klíč ke cvičením
27
Průvodce studiem — závěrečná část
28
Dodatek — Použití MS Excel pro tvorbu grafů
29
4
Lidé žijí v zajetí mnoha paradoxních omylů. Vezměme dva extrémní případy. Běžný laik nedokáže žádným způsobem předpovědět zatmění Slunce nebo Měsíce. Tyto jevy se dostavují velmi nepravidelně a ani v horizontu několika lidských životů není možno sebepečlivějším pozorováním dospět k jejich předpovědi. Běžný člověk je tedy může oprávněně považovat za výsledek jakéhosi „nebeského chaosu“ a „čisté náhody“ a odbýt je mávnutím ruky. Přesto jsou tyto jevy důsledkem velmi přesné nebeské mechaniky a odborníci jsou schopni je předvídat s velkou přesností. To, že se překvapivě dostaví „nečekané“ zatmění, je možno (na rozdíl od ropných, finančních, politických a mnoha jiných krizí) zcela vyloučit. Na druhé straně laik očekává, že trubka o světlosti 100 mm má světlost 100 mm, šroub o délce 50 mm má délku 50 mm, že balení másla zakoupené v obchodě má hmotnost 250 g, stejně jako to, že v půllitrové lahvi piva se nachází přesně 500 ml tohoto moku. Zkrátka, považuje tyto veličiny za konstantní. To ovšem není pravda. Odborník ví, že jde o realizace náhodných veličin, neboť konstruovat výrobní zařízení či plnicí linku, které pracují s absolutní přesností je, ne-li nemožné, tak alespoň velmi drahé a především zbytečné. Odhlédneme-li od těchto extrémů a věnujeme se „běžným“ náhodným jevům, jako jsou např. hustota osídlení, porodnost, příjmy domácností, apod., zjišťujeme, že je-li k dispozici zaznamenaný dostatečně početný soubor případů, začíná působit „zákon velkých čísel“ a to, co bylo v jednotlivých izolovaných případech nepředvídatelné, začíná projevovat jistou zákonitost a předvídatelnost. Hodíme-li jedenkrát jedinou mincí, můžeme padnutou stranu předpovědět s 50% rizikem omylu. Ovšem čím víckrát hodíme, tím s větší jistotou očekáváme, že počet padnutých líců a rubů se bude téměř rovnat. Statistika, tak jak ji prezentuje tato studijní opora, je exaktní věda (při precizním vedení výkladu by bylo možno ji chápat jako určité odvětví matematiky), jejímž úkolem je • • • •
zjišťovat data (tj. provádět nejrůznější statistická šetření), získaná data zpracovávat (např. podle různých hledisek uspořádat nebo třídit), zpracovaná data na různé úrovni analyzovat (typicky měřit různé vlastnosti dat pomocí statistických charakteristik), získané výsledky analýzy přiměřeně prezentovat (zpravidla v tabulkové nebo grafické podobě) pro potřeby odborné či laické veřejnosti.
Tímto způsobem je statistika angažována v nejrůznějších oblastech lidské činnosti. Charakteristickým pro statistická data je • •
hromadnost pozorování (není problém shromáždit rozsáhlý počet případů), proměnlivost jednotlivých případů — variabilita.
Statistika je empirickou vědou a poznatky, ke kterým dospívá, jsou tudíž vyvozeny z reálné skutečnosti. Statistické postupy a metody lze uplatnit také ve sféře studia problematiky regionálního rozvoje. Data z této oblasti splňují oba základní atributy (hromadnost a variabilitu), proto vytvářejí rozsáhlé pole působnosti pro uplatnění statistiky. Smyslem použití statistiky je odhalit a popsat základní zákonitosti a pravidla, která stojí za zdánlivě (a jen na první povrchní pohled) chaotickou a nahodilou skutečností.
Tento úvodní modul se ve třech lekcích věnuje • • • • •
zjišťování statistických dat v nejrůznějších situacích, jejich prezentaci prostřednictvím grafů a tabulek, jejich zpracování — zejména pomocí bodového a intervalového třídění, stanovení významných hodnot netříděného a tříděného datového souboru, měření koncentrace datového souboru.
5
Lekce 1
Zjišťování a typy dat Pokud má statistika naplnit své poslání, je třeba nejprve získat kvalitní a spolehlivé údaje — data. Pod pojmem „získávání dat“ je možno si představit rozsáhlý rejstřík postupů, od klasických exaktních laboratorních měření např. fyzikálních veličin, přes získávání poněkud vágnějších a méně spolehlivých dat z evidence různých úřadů, institucí či firem, až po organizování různých dotazníkových šetření či řízených rozhovorů s respondenty v průzkumech veřejného mínění, sociologických výzkumech apod. Data, výsledky zpracování a výsledky analýzy je třeba přiměřeným způsobem prezentovat. Základním problémem každých dat je existence chyb, případně i chybějících hodnot. Rámcový výklad problematiky zjišťování dat, jejich typů a vlastností obsahuje právě tato první lekce.
alternativní znak; anketa; časová řada; číselný znak; datový soubor; hodnota znaku; hrubá chyba; chybějící hodnota; kardinální znak; matematická statistika; množný znak; náhodná chyba; neúplné zjišťování; nevýběrová chyba; nominální znak; obměna znaku; ordinální znak; popisná statistika; populace; pořadový znak; pravděpodobnostní výběr; prostý náhodný výběr; prosté pozorování; průřezová data; rozsah souboru; řízený experiment; slovní znak; systematická chyba; úplné zjišťování; výběrová chyba; výběrová jednotka; výběrový soubor; výběrové zjišťování; základní soubor; zjišťování
1.1 Metody zjišťování dat Podle podmínek zjišťování dat rozlišujeme řízené experimenty a prostá pozorování. Řízený experiment znamená, že podmínky zjišťování jsou pod kontrolou experimentátora. Rušivé faktory jsou eliminovány, faktory jejichž vliv sledujeme jsou naopak fixovány na experimentátorem daných úrovních. Data vykazují přiměřenou variabilitu. Existuje představa o chybách měření. Běžně se hovoří o plánování experimentů. Řízené experimenty zpravidla probíhají ve zkušebnách a laboratořích (tedy do jisté míry v „umělých“ podmínkách), vyžadují čas a náklady, které mohou být někdy nepřiměřené. V určitých oblastech jsou experimenty vyloučeny (nelze např. experimentálně ovlivňovat ceny nemovitostí, úrokové sazby z vkladů apod.). Prosté pozorování znamená, že podmínky zjišťování nejsou pod kontrolou pozorovatele. Rušivé faktory nejsou eliminovány. Pozorovatel nemá vliv ani na faktory, jejichž působení hodlá sledovat a ty pak zpravidla nemají dostatečnou variabilitu, aby se jejich vliv mohl průkazně projevit. Chybí představa o možných chybách pozorování. Prosté pozorování zpravidla probíhá „v terénu“, tedy v „reálných“ podmínkách. Zpravidla vyžaduje menší čas a náklady. Používá se tam, kde je experiment vyloučen nebo pokud není možno z časových nebo finančních důvodů řízený experiment zorganizovat. Je zřejmé, že v oblasti regionálního rozvoje se běžně setkáme především s daty zjišťovanými v podmínkách prostého pozorování, bez možnosti pozorovanou skutečnost jakkoli ovlivnit.
Najděte příklady řízených experimentů a prostých pozorování z vašeho dosavadního studia či praxe.
6
Podle úplnosti zjišťování dat rozlišujeme úplná a neúplná zjišťování. Úplná zjišťování se snaží podchytit všechny existující případy, kterých zpravidla bývá velmi mnoho. Jsou časově a finančně velmi náročná a mnohdy tudíž prakticky neproveditelná. Někdy se jim ovšem není možno vyhnout, protože například povinnost úplné evidence určitých jevů a událostí vyplývá ze zákona. Množina (mnohdy jen hypotetická) zahrnující všechny možné případy se nazývá populace — např. populace voličská, zákaznická, důchodců atd. atd. Neúplná zjišťování cíleně a vědomě zaznamenávají jen určitý vzorek (za chvíli použijeme pojem výběr) existujících případů. Jejich cílem je šetřit čas a náklady. Někdy se jim nelze vyhnout. Jsou náročná na volbu strategie určení „vzorku“. Při tom se často využívá zákonů pravděpodobnosti. I při neúplných zjišťováních je konečným cílem poznat zákonitosti, kterými se řídí jev jako celek. Základním předpokladem je v této souvislosti reprezentativnost vzorku. Neúplná zjišťování, jejichž výsledkem je získání reprezentativního vzorku, se nazývají výběrová zjišťování.
Kam zařadíme z hlediska úplnosti zjišťování např. evidenci dopravních nehod, sčítání lidu, výskyt určitého nákupního chování, cestování obyvatel mimo region (turistika), preferenci určitého způsobu trávení volného času. (1–1)
1.2 Výběrová zjišťování Pravděpodobnostní výběr (také náhodný výběr) je základní metodou získání reprezentativního vzorku. Pravděpodobnostní výběr předpokládá
určení tzv. výběrové jednotky (stanovení toho, co se vybírá: jednotlivé regiony, jednotlivé obce vybraného regionu, jednotliví obyvatelé vybrané obce); z příkladů vyplývá velmi různá „velikost“ výběrové jednotky v závislosti na účelu zkoumání,
stanovení pravděpodobnosti zahrnutí výběrové jednotky do výběru (tento problém odsuneme stranou),
„ponechání náhodě“ (např. použitím losování nebo jiné adekvátní tzv. znáhodňovací techniky), která jednotka bude zahrnuta do výběru. Pravděpodobnostní výběr tedy představuje poměrně složitou a promyšlenou proceduru a nelze jej zaměňovat např. s namátkovým nebo samovolným výběrem, jejichž výsledkem reprezentativní vzorek není. Zejména musíme upozornit, že často využívaná anketa rozhodně nesplňuje požadavky, kladené na reprezentativnost vzorku. Pravděpodobnostní výběr lze klasifikovat na
výběr s opakováním a výběr bez opakování (podle toho zda jednou vybraná jednotka může či nemůže být opakovaně zahrnuta do výběru),
výběr se stejnými a výběr s nestejnými pravděpodobnostmi, přímý neomezený výběr a složitěji uspořádaný výběr. Prostý náhodný výběr je nejjednodušším případem pravděpodobnostního výběru. Je definovaný jako přímý neomezený výběr se stejnými pravděpodobnostmi prováděný s opakováním či bez opakování. Musíme ovšem upozornit na to, že v praxi je právě prostý náhodný výběr jedním z nejméně vhodných výběrů. Daleko častěji jsou výběry organizovány jako složitěji uspořádané, kdy se cíleně využívá známých vlastností populace. Tato problematika ovšem přesahuje rámec našeho výkladu. Základní soubor — populace — je množina všech existujících případů. Jejich počet — rozsah populace — se označuje písmenem N.
7
Výběrový soubor — výběr — je množina případů zahrnutých do výběru. Počet jednotek se nazývá rozsah výběru a označuje se písmenem n. V praxi jde při výběru o to, minimalizovat rozsah výběru (šetřit čas a peníze) při maximalizaci jeho informační hodnoty. Pokud způsob získání a reprezentativnost vzorku nejsou podstatné, hovoří se prostě o datovém souboru. Rozsah datového souboru se označuje rovněž symbolem n. Popisná statistika se zabývá popisem (deskripcí) datového souboru. Matematická statistika (statistická indukce) zobecňuje závěry získané na výběrovém souboru (reprezentativním vzorku) pro celou populaci. Popisná a matematická statistika jsou dvě hlavní statistické disciplíny. Matematická statistika při tom vychází z počtu pravděpodobnosti. Vyplývá to jak ze způsobu pořízení výběru, tak i ze způsobu nakládání s informacemi zjištěnými z výběru.
Kam bychom v terminologii výběrových zjišťování zařadili např. losování Sportky? Co představuje 49 čísel připravených v losovacím zařízení, jak nazveme 6 vylosovaných čísel, jaká je zde použita znáhodňovací technika? (1–2) Analyzujte případ tažení n drobných výrobků z krabice obsahující N výrobků. Všimněte si rozdílu mezi výběrem s opakováním a bez opakování (např. maximálně možný počet tahů, možnost opakovaně vybrat stejný výrobek apod.).
1.3 Statistická data Vlastnosti, které jsou aktuálním předmětem šetření, se v terminologii statistiky nazývají znaky. V této souvislosti pozor na terminologickou kolizi (např. pojem „znak“ v informatice). Jako příklady statistických znaků můžeme uvést např. počet obyvatel obce, počet členů domácnosti, věk, pohlaví nebo povolání respondenta a mnoho dalších. Z těchto příkladů vyplývá, že znaků je mnoho typů, čemuž také odpovídají velmi různorodá statistická data. Základem klasifikace je dělení znaků na číselné a slovní. Číselný znak (zde lze využít alternativně i pojem veličina či proměnná) vykazuje číselné hodnoty, které mají primárně význam velikosti (např. počet členů domácnosti, počet obyvatel obce, pořizovací cena nemovitosti v tis. Kč). Číselné znaky, které budou v našem výkladu poněkud převažovat, můžeme klasifikovat jako měřitelné a pořadové. Měřitelný — kardinální — znak je výsledkem měření (např. měření ve fyzikálním slova smyslu). U kardinálních znaků je vedle relace větší, menší, roven, definován i rozdíl (o kolik) a u některých dokonce i podíl (kolikrát). V tomto případě záleží na poloze nuly — poměrový charakter mají jen znaky s „přirozenou nulou“. Znaky, které poměrový charakter nemají, se nazývají intervalové. Pořadový — ordinální — znak vyjadřuje stupeň výskytu nějaké vlastnosti a vztahují se k němu pouze relace větší, menší, roven. Kardinální znak lze převést na ordinální očíslováním jeho hodnot pořadovými čísly. Tímto je ztracena informace o rozdílech mezi hodnotami. Slovní — nominální — znak vykazuje dvě nebo více slovně vyjádřených obměn (kategorií). Obměny nominálních znaků lze číselně kódovat, čísla však postrádají význam velikosti. Pokud nominální znak vykazuje jen dvě obměny, jedná se o alternativní (binární, dichotomický, dvojný) znak. Pokud nominální znak vykazuje více než dvě obměny, hovoří se o množném znaku.
Najděte příklady kardinálních, ordinálních a nominálních znaků. Najděte příklady intervalových a poměrových znaků (o kolik/kolikrát je jedna hodnota větší/menší než druhá). Najděte příklady alternativních a množných slovních znaků. Zaujměte stanovisko k možnosti vyjádřit o kolik/kolikrát/o kolik procent je jedna hodnota větší než druhá v případě (a) porovnání počtu obyvatel dvou obcí (např. 1000 a 2200), (b) porovnání volebního zisku dvou stran v % (např. 40 a 15 %), (c) porovnání průměrných únorových teplot ve dvou letech změřených ve °C (např. –4 a +2).
8
Statistické údaje — data — jsou shromážděné hodnoty číselných, resp. obměny slovních znaků. Typickým prostředím pro uchování statistických dat je tabulka tabulkového procesoru, případně mohou být data organizována v databázi, což usnadňuje jejich skladování, údržbu a aktualizaci, stejně jako jejich operativní získávání i z velmi rozsáhlých databází. V této souvislosti se běžně používají pojmy jako datový sklad, datová pumpa, dolování dat apod. — tyto termíny svědčí doslova o „průmyslovém“ charakteru těchto činností. K označování číselných znaků budeme používat velká písmena z konce abecedy, tj. např. X, Y, Z,…. Jejich konkrétní hodnoty pak označíme odpovídajícími malými písmeny (x, y, z, …). Při rozsahu souboru n tvoří zjištěné hodnoty znaku X datovou řadu (datový vektor) x1 , x 2 ,..., xi ,..., x n . Index i souvisí přitom s pořadím zjišťování, takže datová řada je primárně neuspořádaná. Datovou řadu umísťujeme zpravidla do jednoho sloupce tabulkového procesoru.
2
n Seznamte se důkladně s významem zápisů ∑ x i , ∑ x , ∑ x i . Vypočtěte hodnoty těchto výi =1 i =1 i =1 Mimořádně i s výsledky: 49; 1937; 2401 razů pro datovou řadu xi : 24, − 16, 9, 0, 32 . n
n
2 i
V principu se můžeme setkat s datovou řadou, jejíž jednotlivé hodnoty se vztahují ke shodnému časovému okamžiku nebo intervalu, ale různým případům (údaje o počtu obyvatel v souboru obcí jednoho regionu, o cenách stavebních pozemků v různých částech katastru obce, o zadluženosti firem v určitém odvětví nebo regionu). Takováto „statická“ data nazýváme průřezovými údaji. Někdy je ovšem vhodné měřit dynamiku, vývoj, určitého jevu v čase. Pak se jednotlivé údaje vztahují zpravidla k jednomu případu, ale k různým časovým obdobím (vývoj cen stavebních pozemků v určité lokalitě v období několika let, počet nově registrovaných uchazečů o práci v jednotlivých měsících roku v působnosti jednoho úřadu práce apod.). V tomto případě má datová řada charakter řady časové. V dalším výkladu se nejprve budeme věnovat datům průřezového charakteru. Časové řady budou předmětem našeho zájmu až později.
1.4 Tabulková a grafická prezentace dat Statistická tabulka je formálním prostředkem prezentace statistických údajů, výsledků zpracování i analýzy. S různými statistickými tabulkami se během dalšího výkladu budeme běžně setkávat. Při konstrukci tabulky (jejíž technická stránka je dnes již do značné míry záležitostí použitého textového nebo tabulkového procesoru) je třeba dodržovat některá pravidla, aby výsledný produkt splňoval jak informační hodnotu, tak i estetické hledisko. Mezi základní prvky tabulky patří: Číslo a název tabulky (ty jsou zcela nezbytné pokud dokument obsahuje více než jednu tabulku, aby bylo možno se na správnou tabulku jednoduše odvolat). Řádky a sloupce tabulky, přičemž podle potřeby často poslední řádek/sloupec slouží jako součtový. Číselné pole tabulky je tvořeno řádky a sloupci tabulky. Políčko (někdy po vzoru textových procesorů buňka) je základní jednotkou tabulky na průsečíku určitého řádku a sloupce. Záhlaví tabulky je tvořeno prvním řádkem tabulky, který zpravidla obsahuje názvy sloupců. Legenda tabulky je tvořena prvním sloupcem tabulky, který zpravidla obsahuje názvy řádků. Vysvětlivky a poznámky slouží k minimalizaci případných nejasností. Zdroj údajů — pod tabulkou je třeba uvést zdroj údajů v tabulce obsažených, např. Statistická ročenka ČR, vlastní údaje autora apod. Základní podmínkou srozumitelnosti tabulky je, aby každé políčko tabulky bylo vyplněno: číslem, textem nebo smluvenou značkou. Mezi běžně používané smluvené značky (jejich význam není třeba odborníkům zvlášť vysvětlovat) patří:
9
ležatá čárka (–), která udává, že se nevyskytl žádný případ, případně i nulovou hodnotu, ležatý křížek () symbolizuje, že vyplnit políčko by bylo nelogické, nula (0) umožňuje „vyčistit“ tabulku od malých hodnot a udává, že hodnota v příslušném políčku nedosahuje poloviny použité měrné jednotky (tj. např. označuje hodnotu menší než 500 kg v případě, že čísla jsou uváděna v tunách), tečka (.) v políčku tabulky nahrazuje neznámý nebo nespolehlivý údaj. Problematiku prezentačních tabulek ilustrujeme na jednoduchém příkladě (tabulka 1.1). Tab. 1.1 Roční spotřeba nejdůležitějších druhů potravin na obyvatele v ČR (statistická tabulka a její prvky) Rok 1995 2000 2002
1
Položka
Legenda
Obiloviny 160,8 136,3 145,8 2 Maso celkem 82,0 79,4 79,8 3 Mléko a mléčné výrobky 187,8 214,1 220,6 Ovoce a zelenina 150,1 157,9 152,2
Součtový řádek
Celkem
580,7 587,7 598,4
Nealkoholické nápoje Pivo Víno
121,3 206,0 246,0 156,9 159,9 159,9 15,4 16,1 16,2
Celkem
293,6 382,0 422,1
Číslo a název
Záhlaví
Číselné pole
Políčko
1
Potraviny jsou uvedeny v kilogramech, nápoje v litrech Vysvětlivky Včetně kostí a vnitřností 3 Kromě másla (patří mezi tuky) Zdroj údajů: Zpracováno podle Statistické ročenky ČR, ročník 2005, tabulka 9–9, str. 279. 2
Pramen
O grafech platí ještě více než o tabulkách, že vytvořit graf, který dokonale splní svoji informační funkci, je současně věda i umění. Podobně jako u tabulek uvedeme nejprve prvky grafu: Pro číslo a název grafu platí totéž co pro tabulky. Grafický obraz sestává z geometrických prostředků (body, čáry, plochy, apod.), smluvených prostředků (tloušťky, typy a barvy čar, vybarvení nebo šrafování ploch apod.) a pomocných prostředků (jako jsou osy, stupnice, sítě apod.), které především usnadňují „čtení“ grafu. Legenda grafu je klíčem ke smluveným prostředkům. Další prvky jako poznámky a vysvětlivky či zdroj údajů se shodují s tabulkami. Je zřejmé, že grafické vyjádření poskytuje obrovskou škálu možností a prostředků. Proto je velmi obtížné systematicky klasifikovat veškeré statistické grafy a každý výčet v tomto směru je nutně jen uvedením vybraných příkladů: Takže například můžeme podle použité souřadnicové soustavy rozdělit grafy na pravoúhlé, polární a grafy, které souřadnicovou soustavu nevyžadují (např. obrázkové grafy — piktogramy). Podle počtu dimenzí rozlišujeme grafy na plošné (2D) a prostorové (3D). Poslední pak na pravé 3D (všechny 3 dimenze mají význam) a nepravé 3D (zde třetí dimenze pouze vytváří prostorový efekt). Podle požadavků na přesnost na obou koncích pomyslné škály leží vědecké grafy (vysoké nároky na přesnost) a popularizační digramy (umožňují základní orientaci bez větších nároků na přesnost).
10
Podle použitých grafických prostředků rozdělujeme grafy na bodové (tečkové), čárové (spojnicové), pruhové (vodorovné) a sloupcové (svislé), kruhové, bublinové, ikonické („diamanty“, „hvězdice“, „tváře“) a mnohé jiné. Podle typu dat, která zobrazují, rozlišujeme velké množství grafů, z nichž uvedeme často využívané grafy vývoje a grafy struktury, kterým se společně říká obchodní grafy. Svoji skupinu mají také burzovní grafy. Obr. 1.2 Příklady statistických grafů
Spojnicový graf slouží zpravidla ke znázornění vývoje. Plochy mezi čarami narozených a zemřelých v Českých zemích v letech 1785 až 2005 jsou v tomto případě využity pro znázornění přirozeného přírůstku/úbytku obyvatelstva. Zdroj ČSÚ.
Kartogram míry nezaměstnanosti v jednotlivých okresech ČR k 1.1.2006. Míra nezaměstnanosti je znázorněna barevným odstínem. Alternativním řešením je např. ve 3D zobrazení znázornit míru nezaměstnanosti jako „nadmořskou výšku“ příslušného okresu. Zdroj ČSÚ. Graf Chernoffovy tváře je sofistikovaný graf (tváře nejsou pouhé „obrázky“ jako u piktogramu, ale jejich prvky znázorňují hodnoty určitých ukazatelů). Ze vzhledu jednotlivých tváří snadno odhadnete úroveň kvality života v jednotlivých regionech. Zdroj vlastní data.
11
Kartodiagram věkové struktury obyvatelstva v Jihomoravském kraji a kraji Vysočina. Mapa slouží jen jako pozadí pro výsečové grafy, které znázorňují věkovou strukturu populace: předproduktivní složka (do 19 let), produktivní (20 až 64 let) a poproduktivní složka (65+) populace v obou krajích. Výsečové grafy jsou opatřeny 3D efektem a mají vysunutou poslední výseč (kategorie 65+). Vidíme, že věková struktura v obou krajích je prakticky identická. Zdroj ČSÚ.
Speciální typy grafů jsou např. kombinace grafu a mapy, kterým se říká kartogramy (pokud je mapa nepostradatelnou součástí grafu) nebo kartodiagramy (mapa slouží spíše k ozvláštnění grafu). Moderní jsou obrázkové grafy — piktogramy. Některé grafy dovedou překvapit. Např. graf Chernoffovy tváře je poměrně komplikovaně sestrojený graf umožňující posoudit podobnost objektů, které jsou popsány několika znaky. Pokud se podíváte na obrázek znázorňující kvalitu života v šesti regionech podle několika vybraných ukazatelů (hodnota každého z nich souvisí s některým prvkem tváře), jistě se budete v tom, co graf slibuje, snadno orientovat.
1.5 Chyby v datech Údaje nelze zjišťovat bezchybně. Naopak — i z jiných zdrojů je čtenáři jistě známo, že při měření (či jiných technikách zjišťování údajů) nutně vznikají chyby. Náhodné chyby kupodivu vykazují určité zákonitosti. Nejnápadnější z nich je tendence kompenzovat se ve velkých datových souborech. Zákonitosti náhodných chyb jsou s použitím statistických metod dobře popsatelné (např. lze odhadnout jejich možnou velikost), ale problematikou teorie chyb se zabývat nebudeme. Systematické chyby vznikají soustavným působením určitého činitele po celou dobu zjišťování. Jsou obtížně zjistitelné a pochopitelně u nich nelze hovořit o tendenci ke kompenzaci s rostoucím počtem pozorování. Hrubé chyby vznikají v důsledku určitého momentálního selhání a pokud jsou to např. odlehlé hodnoty, dají se identifikovat při uspořádání zjištěných hodnot podle velikosti. Výběrová chyba vzniká v důsledku ztráty informace při výběrovém způsobu zjišťování, kdy populace je zastoupena výběrem. Vzhledem k tomu, že z populace lze zpravidla pořídit obrovský počet různých výběrů, liší se výsledky jejich popisu vzájemně mezi sebou a také od výsledků, které bychom získali z celé populace (pokud by to bylo možné). Výběrové chyby jsou s použitím statistických metod velmi dobře popsatelné a ve své podstatě jde rovněž o náhodné chyby.
12
Nevýběrová chyba vzniká sice při výběrovém způsobu zjišťování, ale je způsobena porušením „pravidel hry“, např. oslovením jiné než původně náhodně vybrané domácnosti, neprovedením zjišťování v hůře dostupné a řídce osídlené části regionu a „nahrazením“ tohoto nedostatku svévolným rozšířením šetření v dostupnější části (např. velkém městě) apod. Chybějící hodnoty — i když nejde v pravém slova smyslu o chyby v datech, musíme počítat s tím, že někdy se nepodaří dohledat všechny údaje a jejich část chybí. Na tuto skutečnost v praxi reagujeme různými metodami „ošetření“ chybějících hodnot. Touto problematikou se ovšem nebudeme zabývat.
Σ
1. Podle podmínek lze statistická zjišťování klasifikovat na řízené experimenty a prostá pozorování. V našem případě je ovšem význam řízených experimentů jen okrajový. 2. Podle úplnosti zjišťování lze statistická zjišťování klasifikovat na úplná a neúplná. V našem případě je ovšem výskyt úplných zjišťování spíše sporadický. 3. U neúplných zjišťování je rozhodujícím hlediskem reprezentativnost získaného vzorku. 4. Pokud zjišťování vede k reprezentativnímu vzorku, hovoří se o výběrovém zjišťování. 5. Základní metodou výběrových zjišťování je pravděpodobnostní výběr a jeho nejjednodušším uspořádáním je prostý náhodný výběr. 6. Rozlišujeme popisnou statistiku, pomocí níž provádíme deskripci dat a matematickou statistiku, kterou užíváme k zobecňování informací získaných z výběrových souborů směrem k populaci. 7. Vlastnosti, které jsou předmětem šetření, se nazývají znaky. 8. Znaky klasifikujeme např. na kardinální, ordinální a nominální. 9. Statistické údaje mají buď průřezový charakter nebo tvoří časovou řadu. 10. Po celou dobu výkladu nás budou doprovázet statistické tabulky a grafy. Tato lekce obsahuje základní informace o nich. 11. Statistické zjišťování je spojeno s výskytem chyb. Chyby klasifikujeme na náhodné, systematické a hrubé. S výběrovým způsobem zjišťování jsou spojeny výběrová a nevýběrová chyba.
(1.1) Sčítání obyvatel se řídí zákonem a je pokusem o úplné zjišťování; existuje zákonná povinnost evidovat dopravní nehody s určitými parametry (výše škody, zranění nebo usmrcení osob apod.). Ve všech ostatních případech lze provádět pouze reprezentativní nebo nereprezentativní neúplné zjišťování (1.2) Čísla v losovacím zařízení představují populaci. Tažená šestice představuje náhodný výběr. Jde o prostý náhodný výběr bez opakování a znáhodňovací technikou je losování.
13
1.
Charakterizujte pojmy hromadnost a variabilita.
2.
Jaké jsou výhody a nevýhody prostého pozorování?
3.
Jaké jsou výhody a nevýhody neúplných zjišťování?
4.
Vysvětlete postup při pravděpodobnostním výběru.
5.
Definujte prostý náhodný výběr.
6.
Zařaďte anketu z hlediska reprezentativnosti získaného vzorku.
7.
Existuje (aspoň teoreticky) možnost, že rozsah výběru přesáhne rozsah populace?
8.
Co je opakem deskripce ve statistice?
9.
Porovnejte obsah pojmů základní soubor, výběrový soubor, datový soubor.
10. S kterým statistickým znakem je spojen výraz hodnota/obměna. 11. O jakou informaci přicházíme, nahradíme-li naměřené hodnoty jejich pořadím? 12. Pokuste se vytvořit co nejpodrobnější schéma klasifikace statistických znaků. 13. Které smluvené značky používáme ve statistických tabulkách a jaký mají význam? 14. Jaké druhy grafických prostředků společně vytvářejí grafický obraz? 15. Co rozumíme pod pojmy obchodní grafy, piktogramy, kartogramy, kartodiagramy? 16. Tvrdím, že rovněž výběrové chyby mají tendenci s rostoucím počtem případů (tedy výběrů) se kompenzovat. Mám pravdu? 17. Co rozumíme pod pojmem nevýběrová chyba?
14
Lekce 2
Třídění a významné hodnoty Ponechme nyní poněkud stranou různorodé poznatky první lekce týkající se zjišťování a typů dat a omezme se jen na nejjednodušší případ datových souborů tvořených hodnotami kardinálních znaků. Datovou řadu (datový vektor) jsme v první lekci označili x1 , x 2 ,..., xi ,..., x n , kde index i souvisí s pořadím zjišťování a datový soubor je tudíž neuspořádaný. Rozumným krokem je uspořádání datového vektoru (vzestupně nebo sestupně). Označme nyní x (1) , x ( 2 ) ,..., x ( i ) ,..., x( n ) vzestupně uspořádaný datový vektor, pro jehož prvky platí
x(1) ≤ x( 2 ) ≤ ... ≤ x( i ) ≤ ... ≤ x( n ) a kde je tedy x(1) = x min , x( n ) = x max (nejmenší a
největší hodnota). Vektor hodnot
x[1] , x[ 2 ] ,..., x[ i ] ,..., x[ k ] , pro který x[1] < x[ 2 ] < ... < x[i ] < ... < x[ k ] , při-
čemž n >> k , se nazývá vektor variant. Základní metodou zpracování dat je jejich třídění. Pokud lze v datovém souboru nalézt vektor variant (bez ohledu na rozsah souboru se v něm systematicky opakuje jen několik málo hodnot), vede to k bodovému (též prostému) třídění. V opačném případě jde o náročnější případ intervalového třídění. Některé hodnoty uspořádaného datového souboru se vyznačují zvláštní polohou nebo jinou vlastností, jíž stojí za to si povšimnout. Ty se nazývají významné hodnoty. Ve druhé lekci se tedy budeme zabývat zásadami bodového a intervalového třídění a tabulkovou a grafickou prezentací jeho výsledků. Nejdůležitějším pojmem této lekce je pojem rozdělení četností. Vedle toho se budeme rovněž věnovat významným hodnotám datové řady. Celá tato lekce se vztahuje k problematice zpracování dat.
absolutní četnost; bodové třídění; četnost; četnostní funkce; četnostní hustota; decil; funkce četnostní hustoty; extrémní hodnota; histogram; kumulativní četnost; kvantil; kvartil; modus; oktil; percentil; p–kvantil; relativní četnost; rozdělení
četností; sedecil; spojnicový graf; střed intervalu; stupňový graf; šířka intervalu; úsečkový graf; třídicí interval; typická hodnota; varianta znaku
2.1 Bodové třídění Při bodovém třídění stačí nalézt vektor variant x[1] , x[ 2 ] ,..., x[ i ] ,..., x[ k ] a pro každou variantu zjistit počet jejích výskytů — četnost (také absolutní četnost). Četnost i–té varianty označíme ni . Je k
zřejmé, že
∑n i =1
i
= n (kde n je rozsah souboru).
Rozdělení četností při bodovém třídění si můžeme představit jako dvousloupcovou tabulku, jejíž první sloupec tvoří prvky vektoru variant a druhý sloupec prvky vektoru četností (viz tab. 2.1 v následujícím příkladu 2.1). Rovnocennou prezentací rozdělení četností při bodovém třídění je grafické vyjádření pomocí úsečkového (hůlkového) grafu v pravoúhlé souřadnicové soustavě (viz. obr. 2.1). Vedle absolutních četností využíváme při prezentaci rozdělení četností také
15
relativní četnosti, kde pro i-tou variantu je její relativní četnost pi =
ni ; tyto četnosti mohou n k
být vyjadřovány také v %; pak se pracuje s hodnotami 100 pi , přičemž
∑p i =1
i
= 1 (pro 100 pi
analogicky 100 %),
kumulativní četnosti (opět absolutní kni nebo relativní kpi ) vznikají kumulací (postupným načítáním) absolutních nebo relativních četností postupně za jednotlivé varianty, např. kni =
i
∑n j =1
j
.
Rovněž pro tyto četnosti existují adekvátní způsoby jejich grafického vyjádření, které jsou patrné z řešeného příkladu 2.1.
Pro zadání příkladu 2.1 vytvořte vzestupně uspořádaný datový vektor a nalezněte vektor variant. Zadání úlohy spočívá v tom, že u celkového počtu 25 domácností určité sociální skupiny byl zaznamenán počet dětí. Neuspořádaný datový vektor
xi : 4,3,2,2,4,0,1,4,3,3,3,3,0,1,1,2,1,2,1,3,3,2,3,4,2
Příklad 2.1 Bodové třídění údajů o počtu dětí v souboru n = 25 domácností. Tab. 2.1 Počet dětí
x[i ]
Tabulka rozdělení četností počtu dětí Absolutní Relativní Kumulativní četnost četnost četnost (v %) absolutní relativní
100 pi
ni
kni
kpi
0 1 2 3 4
2 5 6 8 4
8,0 20,0 24,0 32,0 16,0
2 7 13 21 25
0,08 0,28 0,52 0,84 1,00
Součet
25
100,0
Symbolem jsme v políčku součtového řádku označili, že sčítat kumulativní četnosti je nesmyslné. Obr. 2.1 Graf rozdělení četností (a) absolutních, (b) relativních kumulativních
Počet dětí v domácnosti
Počet dětí v domácnosti
V prvním případě jde o úsečkový (hůlkový) graf. Ve druhém případě jsme relativní kumulativní četnost znázornili pomocí spojnicového stupňového grafu.
16
k
Co udává součet součinů
∑x n i =1
i
i
? Ve statistice si často klademe otázku, zda zjištěná hodnota je
pouze přibližná (odhadnutá) nebo zda jde o přesnou hodnotu. Jak je tomu v tomto případě? (2–1) Představte si, že vedle příkladu 2.1 existuje analogický příklad, ovšem pro 2500 domácností, kde se opět vyskytují stejné varianty jako v př. 2.1. Jakým způsobem zajistíme srovnatelnost výsledků třídění (porovnání jak se četností rozdělily mezi jednotlivé varianty). (2–2)
2.2 Intervalové třídění U některých znaků nemá smysl určovat vektor variant, neboť počet variant může být (v krajním případě) roven rozsahu souboru n. V tomto případě se provádí rozdělení datového souboru do třídicích intervalů a hovoří se o intervalovém třídění. Zásady intervalového třídění můžeme stručně shrnout takto: přiměřený počet k třídicích intervalů (např. orientačně k ≈ 1 + 3,3 log n ), jejich nesporné vymezení (nesmí se ani překrývat, ani „nedokrývat“), konstantní šířka intervalu h (pokud to data dovolují), možnost otevřených krajních intervalů (pro zařazení extrémních hodnot), jejichž šířka se také pro jednoduchost považuje za rovnu h. Vyberte vhodné vymezení třídicích intervalů. Význam závorek je stejný jako při označování intervalů na číselné ose. Přihlédněte přitom k druhé zásadě intervalového třídění. Například:
(a)
(100;200), (200;300),..., (600;700) (b) 100; 200 , 200; 300 ,..., 600; 700
(c)
100;200), 200;300),..., 600;700) (d) (100; 200 ; (200; 300 ,..., (600; 700
Při intervalovém třídění je vektor variant nahrazen vektorem středů intervalů (opět xi ). Rozdělení četností při intervalovém třídění je dvousloupcová tabulka, jejíž první sloupec tvoří středy intervalů a druhý sloupec prvky vektoru četností (viz tab. 2.2 v následujícím příkladu 2.2). Rovnocennou možností je prezentovat rozdělení četností při intervalovém třídění graficky pomocí sloupcového grafu (histogramu) v pravoúhlé souřadnicové soustavě. Při intervalovém třídění se využívají rovněž relativní četnosti p i a také absolutní a relativní kumulativní četnosti kni , kpi . O nich v odstavci 2.1. Příklad 2.2 Intervalové třídění údajů o počtu obyvatel v n = 87 venkovských obcích jednoho regionu. Výsledek třídění je obsažen v tabulce 2.2. Třídění jsme provedli do k = 6 intervalů o konstantní šířce h = 300. První a poslední interval jsme koncipovali jako otevřené, ale jejich šířku považujeme za rovnu h. Součet relativních četností může vykázat zaokrouhlovací chybu. „Nevyužitá“ políčka součtového řádku jsme opět označili symbolem , aby bylo zřejmé, že hodnoty příslušného sloupce nechceme sčítat.
17
Tab. 2.2
Tabulka rozdělení četností počtu obyvatel venkovských obcí Střed Kumulativní četnost třídicího Absolutní Relativní Vymezení třídicího 1 četnost četnost (v %) absolutní relativní intervalu intervalu
ni
xi
–200> (200;500> (500;800> (800;1100> (1100;1400> (1400+ Součet 1
100 pi
kni
kpi
50 350 650 950 1250 1550
24 27 19 10 4 3
27,6 31,0 21,8 11,5 4,6 3,4
24 51 70 80 84 87
0,276 0,586 0,805 0,920 0,966 1,000
87
99,9
Šířku prvního a posledního intervalu položíme rovněž h = 300.
Obr. 2.2 Graf rozdělení četností (a) absolutních, (b) relativních kumulativních
50
350 650 950 1250 Středy tříd pro počet obyvatel obce
1550 200
500 800 1100 1400 Horní hranice tříd pro počet obyvatel obce
1700
V prvním případě jde o sloupcový graf se „slepenými“ sloupci — histogram. Ve druhém případě jsme relativní kumulativní četnost znázornili pomocí spojnicového grafu (lomená čára, často s typickým esovitým průběhem). Kumulativní četnosti se vynášejí proti horním hranicím intervalů. k
Co udává součet součinů
∑x n i =1
i
i
? Ve statistice si často klademe otázku, zda zjištěná hodnota je
pouze přibližná (odhadnutá) nebo zda jde o přesnou hodnotu. Jak je tomu v tomto případě? (2–3) Postačí v případě intervalového třídění relativní četnost pro zajištění srovnatelnosti výsledků třídění? Odhadněte, co by se stalo, pokud bychom obce podle počtu obyvatel třídili jemněji, např. do 18 intervalů o šířce 100 obyvatel? (2–4)
Hustota četností je funkce f i =
pi , tj. relativní četnost, připadající na jednotku třídicího h
intervalu. Na rozdíl od relativní četnosti nezávisí na šířce intervalu h, tj. na jemnosti třídění, a zachovává si (přibližně) svůj průběh i při třídění do stále většího počtu užších intervalů. Lze si představit, že při extrémně jemném třídění přechází lomená čára znázorňující průběh relativních kumulativních četností v hladkou křivku a podobně hladkou čarou „se obaluje“ i histogram hustoty četností.
18
Chápeme-li relativní četnost při bodovém třídění a hustotu četností při intervalovém třídění jako funkci hodnot znaku, dospíváme k pojmu četnostní funkce p(x) a funkce četnostní hustoty f(x) . Četnostní funkce je nezáporná a normovaná 0 ≤ p ( x ) ≤ 1,
∑ p( x ) = 1 . x
Četnostní hustota je nezáporná f (x) ≥ 0 a normovaná
+∞
∫ f ( x)dx = 1 (plocha histogramu četnostní
−∞
hustoty je vždy rovna jedné).
2.3 Významné hodnoty V datové řadě je vhodné povšimnout si některých hodnot, které v ní mají určité zvláštní postavení. Mezi tyto významné hodnoty patří
Extrémní hodnoty — v uspořádané řadě hodnoty x(1) = x min ; x(n ) = x max , tj. minimální a maximální hodnota. Vzdálenost těchto hodnot se nazývá variační rozpětí a označuje se symbolem R. Problémem extrémních hodnot může být to, že jedna nebo obě mohou být hrubými chybami.
Typická hodnota — také modální hodnota (modus) — představuje nejčastěji se vyskytující hodnotu (u netříděných dat a dat tříděných bodovým tříděním), u intervalového třídění za ni můžeme považovat střed intervalu s nejvyšší četností. My však budeme používat přesnější aproximaci, která přihlíží k četnostem sousedících intervalů. Modální hodnota znaku X se označuje xˆ (x se stříškou).
Kvantily tvoří celou soustavu významných hodnot, u nichž si všímáme jejich polohy v uspořádané řadě hodnot. Hlavním kvantilem je tzv. medián, který rozděluje uspořádanou datovou řadu na dvě části se stejnou četností. Medián spolu s dalšími dvěma kvartily (dolním a horním kvartilem) rozděluje datovou řadu na čtyři části se stejnou četností. Podobně devět decilů nebo 99 percentilů rozděluje uspořádanou řadu na deset/sto částí o stejné četnosti. Půlením četností mezi kvartily naopak vzniká řada alternativních kvantilů, a to nejprve 7 oktilů, po nichž následuje 16 sedecilů. Příklad 2.3 Určíme medián v řadě netříděných hodnot. Datový soubor pro n = 8 xi : 45, 11, − 3, 4, 21, 0, 21, 13 . Datový soubor pro n = 7 xi : 45, 11, − 3, 4, 21, 0, 13 Uspořádaný datový soubor pro n = 8 x ( i ) : − 3, 0, 4, 11, 13, 21, 21, 45
n + 0,5 = 4,5 . Hodnota s (hypotetickým) 2 11 + 13 pořadím 4,5 leží mezi 4. a 5. hodnotou a určíme ji jako průměr x0,50 = = 12 2 Uspořádaný datový soubor pro n = 7 x( i ) : −3, 0, 4, 11, 13, 21, 45
Pořadové číslo mediánu v uspořádaném datovém souboru je
n + 0,5 = 4 a mediánem je tudíž přímo hodnota x0,50 = 11 . 2 Obecně hovoříme o P–kvantilu (pro 0 < P < 1 ), který je takovou hodnotou x P , pro kterou je relativní četnost hodnot nejvýše rovných x p rovna P, zatímco relativní četnost hodnot větších nebo rovných x P je rovna 1 – P. Jsou-li data tříděna bodovým tříděním, je P–kvantilem ta varianta, u které poprvé kumulativní relativní četnost překračuje hodnotu P. U intervalového třídění je odhadem P– kvantilu střed intervalu, u kterého opět poprvé kumulativní relativní četnost překračuje hodnotu P. Tento odhad lze rovněž zpřesnit, pokud předpokládáme, že kumulativní četnost uvnitř intervalu roste
19
lineárně. Někdy se místo o P–kvantilu hovoří o 100P % kvantilu (např. medián je tedy 50% kvantilem). Zcela obecně, 100P% kvantilem je hodnota x(i ) , pro kterou je splněno 100 P ≤ 100ai a současně 100 − 100 P ≤ 100bi , kde ai =
i n− j 100 , bi = pro i = 1,2,..., n, j = 0,1,2,..., n − 1 . Pon n
třebné údaje pro náš příklad pro n = 7 uvádí tabulka.
Příklad 2.4 Určíme např. 33% kvantil z netříděných dat pro n = 7 (příklad 2.3). Tab. 2.4 Určení kvantilů z netříděných dat xi 45 11
x( i ) 100ai
–3
4
21
0
13
4
11
13
21
45
1 100 = 14,29 28,57 42,86 57,14 71,43 85,71 7
100,00
–3
0
7−6 100 = 14,29 7 Pomocí údajů v tabulce nalezneme 33% kvantil. Pro třetí hodnotu podle velikosti x ( 3) = 4 jako je100bi
100,00 85,71 71,43 57,14 42,86 28,57
dinou je splněno 33 ≤ 42,86 a současně 100 − 33 = 67 ≤ 71,43 . Hodnota 4 je tedy 33% kvantilem. Je ovšem např. i 39% kvantilem, neboť 39 ≤ 42,86 a současně 100 − 39 = 61 ≤ 71,43 . Upozorňujeme ovšem opět na to, že definici kvantilu mohou vyhovět dvě za sebou jdoucí hodnoty.
Využijte tabulky 2.4 a určete 60%, 70% a 90% kvantil.
(2–5)
Příklad 2.5 Určíme významné hodnoty pro příklad 2.1 (domácnosti tříděné bodovým tříděním podle počtu dětí). V tabulce 2.1 snadno najdeme obě extrémní hodnoty (0 a 4 děti). Varianta s nejvyšší četností xˆ = 3 (nejčastější výskyt zaznamenaly domácnosti se třemi dětmi). Mediánová (prostřední) varianta počtu dětí je rovna x 0,50 = 2 (u této varianty kumulativní relativní četnost poprvé překročila hodnotu 0,50). Všechny tyto hodnoty jsou určené přesně. Stejné hodnoty bychom obdrželi i z netříděných dat.
U příkladu 2.1 určete dolní kvartil
x0, 25 a horní oktil x0,9375 . Inspirujte se příkladem 2.5.
Úsporným a přehledným nástrojem pro zobrazení hlavních vlastností dat jsou tzv. krabicové grafy. Ukázku těchto grafů viz na obr. 2.3 v příkladu 2.6.
Příklad 2.6 Krabicovými grafy znázorníme datové soubory xi : 20,10,13,20,33,12,19,15,12,17,14,10,12,23 pro
n = 13 , yi : 10,1,2,10,5,5,5,4,7,3,7,10,9,15,16,10,10,14,13,12,11 pro n = 21 .
20
Obr. 2.3 Krabicové grafy Odlehlé pozorování
n = 13
n = 21
25
30
5 3
20
0 3
15
5 2
10
0 2
5 1
5
0 1
5555
0000
0
35
Výška „krabice“ koresponduje s rozsahem souboru. Levá strana krabice představuje dolní kvartil, pravá horní kvartil. Příčka uvnitř krabice je medián. „Vlákna“ označují hranice hodnot, které nejsou detekovány jako odlehlé.
2.4 Aproximace typické hodnoty a kvantilů u intervalového třídění Polohu modu lze v tomto případě určit s použitím vztahu
nm − nm−1 h, 2nm − nm−1 − nm+1 kde d m je dolní mez modálního intervalu, n m , n m −1 , n m +1 jsou postupně četnosti modálního, předchozího a následujícího intervalu a h je šířka intervalu. 100 P − 100kp q−1 Polohu kvantilů uvnitř intervalu upřesníme podle vzorce x P = d q + h, 100 p q xˆ = d m +
kde pro libovolné P jsou d q , p q postupně dolní mez a relativní četnost intervalu (q–tého) obsahujícího příslušný kvantil, kp q −1 je součtová relativní četnost předchozího intervalu a h je šířka intervalu. Příklad 2.7 Pomocí právě uvedených vzorců odhadneme polohu typické hodnoty a mediánu pro obce tříděné podle počtu obyvatel (příklad 2.2). Údaje budeme čerpat z tabulky 2.2. Typická hodnota leží ve druhém intervalu a její hrubou aproximací je jeho střed (350 obyvatel). Tuto hodnotu zkorigujeme xˆ = 200 +
3 300 = 282 . Vzhledem k tomu, že více je obsazen první interval, 3+8
je typická hodnota posunuta vlevo od středu intervalu. Medián leží rovněž ve druhém intervalu. Za předpokladu, že by hodnoty uvnitř intervalu byly rozděleny rovnoměrně, je medián x0,50 = 200 +
50 − 27,6 300 = 417 . 31
Určete horní kvartil pro příklad 2.2 .
(2–6)
21
Σ
1. Základní metodou zpracování dat ve statistice je metoda třídění. 2. Podle typu dat se používá buď bodové nebo intervalové třídění. 3. Výsledkem třídění je rozdělení četností. 4. Rozdělení četností lze vyjádřit v tabulkové nebo grafické podobě. 5. Rozdělení četností při bodovém třídění tvoří vektor variant a vektor četností. 6. Rozdělení četností při intervalovém třídění tvoří vektor středů intervalů a vektor četností. 7. Vedle absolutních četností se používají četnosti relativní a rovněž absolutní a relativní kumulativní četnosti. 8. Formálně se u bodového třídění zavádí četnostní funkce a u intervalového třídění funkce četnostní hustoty. 9. V datovém souboru lze najít významné hodnoty — extrémní hodnoty, typickou hodnotu (modus) a kvantily. 10. Soustava kvantilů obsahuje především medián, kvartily, decily a percentily. Alternativně pak po kvartilech následují oktily a sedecily. 11. Všechy významné hodnoty lze určit zcela přesně pro netříděná data a data tříděná bodovým tříděním. 12. U intervalového rozdělení četností je možno aproximovat polohu typické hodnoty a kvantilů uvnitř příslušných tříd.
(2–1) Uvedený výraz představuje úhrn (součet) hodnot znaku datového souboru tříděného bodovým tříděním. Jde o přesnou hodnotu. (2–2) K zajištění srovnatelnosti obou rozdělení četností postačí použít relativní četnosti. (2–3) U intervalového třídění jde rovněž o úhrn (součet) hodnot znaku. Na rozdíl od bodového třídění jde jen o odhadovanou hodnotu (střed intervalu reprezentuje hodnoty ležící uvnitř intervalu nedokonale). (2–4) Se zvyšující se jemností třídění (větší počet užších intervalů) klesají absolutní i relativní četnosti. Srovnatelnost rozdělení četností při intervalovém třídění zabezpečuje hustota četností. (2–5) (2–6)
x0,60 = x0, 70 = 13; x0,90 = 45 . x0,75 = 726 .
1.
Zpracujte po vzoru příkladu 2.1 bodové třídění výsledků nejméně 30 hodů hrací kostkou, které sami provedete. Určete relativní a kumulativní četnosti. Sestavte tabulku rozdělení četností a proveďte grafické znázornění po vzoru obr. 2.1.
2.
Zpracujte po vzoru příkladu 2.2 intervalové třídění fiktivního datového souboru, jehož zadání obdržíte. Třídění proveďte alternativně do šesti a do 12 intervalů. Porovnejte grafy absolutních a relativních četností a grafy hustot četností obou variant.
3.
Jaké hodnoty nabývá, případně jaký má smysl, součet absolutních četností, relativních četností a kumulativních četností?
4.
Co je histogram a jaké je jeho použití?
22
5.
Graf které četnosti a při jakém třídění má stupňovitý průběh?
6.
Objasněte pojem variační rozpětí.
7.
Určete kvartily pro datový soubor
8.
Určete kvartily u příkladu v zadání 1.
9.
Určete kvartily u příkladu 2. Nejprve zkuste vyhledat přesné hodnoty kvartilů v netříděných datech. Pak porovnejte tyto přesné hodnoty s odhady, které získáte při třídění dat do šesti intervalů.
xi : 45, 11, − 3, 4, 21, 0, 21, 13, 0 .
10. Jak se nazývají kvantily, které rozdělují uspořádaný datový soubor na čtyři, osm, deset, šestnáct a sto částí o stejné četnosti a jaký je jejich počet? 11. Jak jinak (společně) můžeme pojmenovat vždy prostřední ze všech těchto kvantilů?
23
Lekce 3
Měření koncentrace Pod pojmem koncentrace rozumíme jak rovnoměrně, či spíše jak nerovnoměrně, jsou hodnoty znaku „rozprostřeny“ mezi jednotlivé prvky datového souboru. Nulová koncentrace odpovídá stavu, kdy všechny hodnoty datového souboru jsou stejné. V opačném případě jde o větší nebo menší koncentraci, kterou můžeme vyjádřit charakteristikami koncentrace — koncentrační křivkou, mediálem a Giniovým indexem. Podmínkou pro měření koncentrace je, aby znak byl sčitatelný. Pokud tomu tak není, je třeba ho na sčitatelný znak převést. Např. počet obyvatel na jednotku plochy (hustota) je nesčitatelná, kdežto každá z obou veličin, které hustotu tvoří (počet obyvatel, plocha), sčitatelná je. Koncentraci můžeme měřit jak pro netříděná data, tak i pro data tříděná bodovým nebo intervalovým tříděním.
koncentrace; koncentrační křivka; Lorenzova křivka; mediál; relativní kumulativní četnost; relativní kumulativní úhrn hodnot znaku; sčitatelný znak
3.1
Pojem koncentrace
Povšimněme si nyní zvláště rozdělení četností tzv. sčitatelných znaků, tj. znaků, u nichž má smysl součet (úhrn) hodnot znaku za část jednotek souboru, případně za soubor jako celek. U takovýchto znaků, jak jsme se již dříve zmínili, reprezentuje u intervalového třídění součin xi ni odhad k
intervalového úhrnu a součet těchto součinů
∑ xi n i
je odhadem úhrnu hodnot znaku za celý soubor,
i =1
zatímco u prostého třídění jde vesměs o přesné hodnoty. Vytvořme nyní kumulativní, v % vyjádřenou i
∑x n veličinu 100kqi =
j =1
j
j
100 pro i, j = 1, 2, ..., k. Tato veličina reprezentuje podíl úhrnu prvních i
k
∑x n i =1
i
i
intervalů na úhrnu hodnot znaku celého souboru. U sčitatelných znaků má smysl tuto veličinu zkoui
∑n mat ve vztahu ke kumulativní relativní četnosti 100kpi =
j =1
j
100 .
k
∑n i =1
i
Právě vzájemné porovnání průběhu obou těchto veličin (např. v grafu) se nazývá měření koncentrace datového souboru.
3.2
Zvažte, ve kterých případech lze měřit koncentraci: soubor respondentů podle vzdělání, soubor domácností podle příjmů, soubor pozemků podle hektarového výnosu plodiny, soubor výrobků podle ziskové marže (zisk/tržby). Pokuste se o zdůvodnění.
Koncentrační křivka
Pokud do grafu, na jehož osách jsou veličiny 100kqi ,100kpi , vyneseme vypočtené hodnoty, které spojíme lomenou čarou, eventuálně hladkou křivkou, získáme koncentrační–Lorenzovu křivku. Tato křivka vypovídá o rovnoměrnosti (resp. nerovnoměrnosti) rozdělení úhrnu hodnot znaku mezi jednotlivé intervaly (varianty znaku u bodového třídění nebo v případě netříděných dat mezi jednotlivé
24
případy). Pokud by byly všechny hodnoty znaku v souboru konstantní, hodnoty v obou vyznačených sloupcích tabulky by se rovnaly a Lorenzova křivka by odpovídala na grafu vyznačené úhlopříčce. Na obr. 3.1 jsou příklady koncentračních „křivek“ (znázorněných prostřednictvím lomených čar) pro různý charakter osídlení regionu. Pokud by hustota osídlení byla na celé ploše konstantní, byla by koncentrační „křivkou“ úhlopříčka obrázku. S rostoucí nerovnoměrností osídlení roste zakřivení koncentrační křivky (viz obrázek 3.1).
Kumulativně (v %) vyjádřený podíl na počtu obyvatel
Obr. 3.1 Koncentrační křivky při různé rovnoměrnosti osídlení regionu
Kumulativně (v %) vyjádřený podíl na území regionu
Z obrázku např. vyplývá, že v regionu s nejméně rovnoměrným osídlením na 10 % území regionu žije 40 % jeho obyvatel, zatímco zbývajících 60 % obyvatel má k dispozici 90 % rozlohy. Ve druhém „reálném“ případě na 20 % území regionu žije 30 % obyvatel. V „ideálním“ případě zcela rovnoměrného osídlení by určité procento obyvatel žilo na části výměry vyjádřené stejnou hodnotou (viz tečkovaná úhlopříčka obrázku).
3.3 Mediál U sčitatelných znaků je mediál hodnota znaku, která půlí úhrn hodnot znaku souboru na dvě stejné části. Čím více je hodnota mediálu vzdálena od hodnoty mediánu, tím větší je nerovnoměrnost rozdělení celkového úhrnu hodnot znaku mezi jednotlivé případy a tím větší je nepoměr mezi počtem jednotek, které se „dělí“ o každou z jeho polovin.
Kumulativně (v %) vyjádřený podíl na počtu obyvatel
Obr. 3.2 Poloha mediálu
Kumulativně (v %) vyjádřený podíl na území regionu
Na našem příkladu vidíme současně, že zatímco 50 % rozlohy regionu obývá asi 90 % jeho populace, tak i naopak — 50 % populace se musí spokojit s necelými 20 % jeho území.
25
Způsob určení mediálu se podobá určení mediánu. Vzorec mediálu x M = d M +
50 − 100kq M −1 h, xM nM 100 k ∑ xi n i i =1
kde M je označení pro mediálový interval.
Příklad 3.1 Určíme mediálovou obec, tj. velikost obce, v níž by při uspořádání obcí podle velikosti žil prostřední obyvatel z celkového počtu. Použijeme data z příkladu 2.2. Tab. 3.1 Pomocná tabulka pro určení mediálu i Střed x jn j třídicího Absolutní j = 1 četnost intervalu x i ni 100
∑ k
∑xn
ni
xi
i =1
50 350 650 950 1250 1550
24 1200 27 9450 19 12350 10 9500 4 5000 3 4650
i
Kumulativní relativní četnost (v %)
100 pi
i
2,85 25,27 54,57 77,11 88,97 100,00
27,6 58,6 80,4 91,9 96,5 99,9
87 42150 Takže např. odhadujeme, že ve třetí velikostní skupině obcí (500; 800> žije 12350 obyvatel, zatímco ve všech 87 obcích je to 42150 obyvatel. Pro třetí velikostní skupinu obcí je
= 54,57 %. Mediál x M = 500 +
1200 + 9450 + 12350 100 42150
50 − 25,27 300 = 753 ukazuje, že prostřední z celkového počtu 12350 100 42150
obyvatel žije ve (fiktivní) obci se 753 obyvateli. Všimněte si, že mediál nabyl vyšší hodnoty než medián ( x0,50 = 417; x M = 753 ). Není to náhoda, je tomu tak vždy, když data jsou variabilní (v souboru se vyskytují různě velké obce).
3.3
S využitím posledních dvou sloupců tabulky 3.1 sestrojte koncentrační křivku (postačí lomená čára) pro příklad o počtu obyvatel obcí 2.2. Kumulativní četnosti (pro určení mediánu nebyly potřeba) vyneste na svislou osu. Křivka vychází z počátku.
Giniův index
Hodnotit „míru zakřivení“ koncentrační křivky (v našem případě lomené čáry) není jednoduché. Proto se jako ukazatel koncentrace využívá Giniův index, který vyjadřuje, jakou část plochy trojúhelníku obrazce pokrývá plocha pod koncentrační křivkou. Je zřejmé, že Giniův index je bezrozměrné (eventuálně v % vyjádřené) číslo, kde 0 ≤ G < 1 . Konečně, ani určení této plochy není triviální záležitostí a k výpočtu indexu se využívá řada aproximací, které ovšem nebudeme uvádět.
26
Kumulativně (v %) vyjádřený podíl na počtu obyvatel
Obr. 3.3 Princip Giniova indexu
Plocha pod křivkou Plocha trojúhelníku
Kumulativně (v %) vyjádřený podíl na území regionu
Σ
1. Pro datové soubory sčitatelných číselných znaků má smysl zkoumat jejich koncentraci. 2. Koncentraci lze měřit u netříděných dat, stejně jako u dat tříděných bodovým nebo intervalovým tříděním. 3. Charakteristikami souvisejícími s koncentrací jsou koncentrační křivka, mediál a Giniův index. 4. Nejnižší míru koncentrace vykazují data, jejichž všechny hodnoty jsou konstantní. Na opačném pólu jsou data tvořená jak extrémně vysokými, tak i nízkými hodnotami. 5. Měření koncentrace má význam jak v hospodářské oblasti (koncentrace společenského bohatství, monopolizace odvětví), tak v oblasti demografické a geografické (např. koncentrace obyvatelstva).
1.
Určete charakteristiky koncentrace (ty které znáte) pro příklad 1 z lekce o třídění.
2.
Určete charakteristiky koncentrace (ty které znáte) pro příklad 2 z lekce o třídění.
3.
V regionu působí v určitém odvětví 5 firem. Výše jejich produkce, vyjádřená v ročních tržbách je 3, 7, 15, 2 a 43 mil. Kč. Sestrojte pro tento případ koncentrační křivku. Ve které firmě je realizována „prostřední koruna“ tržeb?
Lekce 1 1.–6. Najděte odpověď v textu lekce. 7. U výběru s opakováním může (alespoň teoreticky) počet tahů n převýšit rozsah populace N. 7.–11. Najděte odpověď v textu lekce. 12. Znaky klasifikujte na číselné a slovní. Číselné pak na kardinální a ordinální. Kardinální znaky na intervalové a poměrové. Slovní znaky klasifikujte na alternativní a množné. 13.–15. Najděte odpověď v textu lekce. 16. Ano. 17. Najděte odpověď v textu lekce.
27
Lekce 2 1.–2. Výsledky jsou individuální (podle zadání). 3. Rozsah souboru, jedna (100 %), součet kumulativních četností nemá smysl. 4.–5. Odpovědi vyplývají přímo z textu lekce. 6.
R = x max − x min .
7. Prostudujete-li si příklad 2.4, získáte
x0, 25 = 0; x0,50 = 11; x0, 75 = 21 .
8.–9. Výsledky jsou individuální (podle zadání). 10. Tři kvartily, sedm oktilů, devět decilů, 15 sedecilů, 99 percentilů. 11. Vždycky jde o medián.
Lekce 3 1.–2. Výsledky příkladů jsou individuální. 3. Křivku vytvořte z hodnot
100kpi 0
20
40
60
80
100
100kqi 0 2,86 7,14 17,14 38,57 100,00 „Prostřední koruna“ tržeb je tedy realizována ve firmě s největšími tržbami.
Tento úvodní modul se ve třech lekcích věnoval • • •
zjišťování dat v nejrůznějších situacích, jejich zpracování (zejména třídění), měření koncentrace datového souboru.
Po jeho prostudování by měl mít čtenář základní představu o pořizování dat při nejrůznějších statistických šetřeních. Měl by rozlišovat řízený experiment a prostá pozorování, úplná a neúplná zjišťování. Měl by vědět, že nejspolehlivějším způsobem získání reprezentativního vzorku je pravděpodobnostní výběr. Měl by mít představu o základních druzích statistických znaků, se kterými se může v praxi setkat. Měl by vědět, že neexistují bezchybná data. Měl by prakticky zvládnout případ bodového a intervalového třídění, sestavit tabulku rozdělení četností a zvládat grafické znázornění rozdělení četností. Měl by vědět, které jsou významné hodnoty datového souboru a umět je určit z netříděných dat, dat tříděných bodovým tříděním a přibližně i z dat tříděných intervalovým tříděním. Získat představu o koncentraci jako vlastnosti datového souboru, která vypovídá o rovnoměrnosti či nerovnoměrnosti rozdělení hodnot znaku mezi jednotlivé případy. Umět se sestrojit a interpretovat koncentrační křivku pro tříděná i netříděná data. Stanovit mediál datového souboru a dokázat ho smysluplně interpretovat. Získat rámcovou představu o způsobu konstrukce Giniova indexu (bez konkrétního výpočtu). V dalším studiu lze pokračovat modulem 2 — Popis datového souboru prostřednictvím charakteristik
28
Dodatek — Použití MS Excel pro tvorbu grafů Doporučujeme používat průvodce tvorbou grafu.
Rozdělení četností
50 40 Absolutní 30 četnosti 20 10 0 100
200
300
400
500
600
700
Středy intervalů
Algoritmus:
Vložit data Vybrat nabídku Vložit — Graf Zobrazí se dialogové okno Průvodce grafem Vybereme typ grafu, definujeme datové řady, zvolíme název grafu, popisky os, umístění grafu (průvodce krok 1 až 4). Po vložení grafu můžeme graf dále libovolně upravovat (viz například dialogové okno vlevo). Pro každý prvek grafu je umožněno otevřít dialogové okno pro jeho úpravy. My jsme např. v našem grafu upravili barvu sloupců a zrušili mezery mezi nimi.
Možných je několik desítek typů grafů, počet jejich možných variant a úprav nelze dost dobře vyčíslit.
29