Lekce 1
Zjišťování a typy dat Pokud má statistika naplnit své poslání, je třeba nejprve získat kvalitní a spolehlivé údaje — data. Pod pojmem „získávání dat“ je možno si představit rozsáhlý rejstřík postupů, od klasických exaktních laboratorních měření např. fyzikálních veličin, přes získávání poněkud vágnějších a méně spolehlivých dat z evidence různých úřadů, institucí či firem, až po organizování různých dotazníkových šetření, řízených rozhovorů s respondenty apod. Základním problémem každých dat je existence chyb, případně i chybějících hodnot. Rámcový výklad problematiky zjišťování dat, jejich typů a vlastností obsahuje právě tato první lekce.
alternativní znak; časová řada; číselný znak; datový soubor; hodnota znaku; hrubá chyba; chybějící hodnota; kardinální znak; matematická statistika; množný znak; náhodná chyba; neúplné zjišťování; nominální znak; obměna znaku; ordinální znak; popisná statistika; populace; pořadový znak; pravděpodobnostní výběr; prostý náhodný výběr; prosté pozorování; průřezová data; rozsah souboru; řízený experiment; slovní znak; systematická chyba; úplné zjišťování; výběrová chyba; výběrová jednotka; výběrový soubor; výběrové zjišťování; základní soubor; zjišťování
1.1 Metody zjišťování dat Podle podmínek zjišťování dat rozlišujeme řízené experimenty a prostá pozorování. Řízený experiment znamená, že podmínky zjišťování jsou pod kontrolou experimentátora. Rušivé faktory jsou eliminovány, faktory jejichž vliv sledujeme jsou naopak fixovány na experimentátorem daných úrovních. Data vykazují přiměřenou variabilitu. Existuje představa o chybách měření. Běžně se hovoří o plánování experimentů. Řízené experimenty zpravidla probíhají ve zkušebnách a laboratořích (tedy do jisté míry v „umělých“ podmínkách), vyžadují čas a náklady, které mohou být někdy nepřiměřené. V určitých oblastech jsou experimenty vyloučeny (nelze např. inscenovat skutečné nehody, požáry apod.). Prosté pozorování znamená, že podmínky zjišťování nejsou pod kontrolou pozorovatele. Rušivé faktory nejsou eliminovány. Pozorovatel nemá vliv ani na faktory, jejichž působení hodlá sledovat a ty pak zpravidla nemají dostatečnou variabilitu, aby se jejich vliv mohl průkazně projevit. Chybí představa o možných chybách pozorování. Prosté pozorování zpravidla probíhá „v terénu“, tedy v „reálných“ podmínkách. Zpravidla vyžaduje menší čas a náklady. Používá se tam, kde je experiment vyloučen nebo pokud není možno z časových nebo finančních důvodů řízený experiment zorganizovat. Je zřejmé, že v oblasti technického znalectví a pojišťovnictví se běžně setkáme s oběma případy zjišťování dat.
Najděte příklady řízených experimentů a prostých pozorování z vašeho dosavadního studia či praxe.
Podle úplnosti zjišťování dat rozlišujeme úplná a neúplná zjišťování. Úplná zjišťování se snaží podchytit všechny existující případy, kterých zpravidla bývá velmi mnoho. Jsou časově a finančně velmi náročná a mnohdy tudíž prakticky neproveditelná. Někdy se jim ovšem není možno vyhnout, protože například povinnost úplné evidence vyplývá ze zákona. Množina (mnohdy jen hypotetická) zahrnující všechny možné případy se nazývá populace.
6
Neúplná zjišťování cíleně a vědomě zaznamenávají jen určitý vzorek (za chvíli použijeme pojem výběr) existujících případů. Jejich cílem je šetřit čas a náklady. Někdy se jim nelze vyhnout. Jsou náročná na volbu strategie určení „vzorku“. Při tom se často využívá zákonů pravděpodobnosti. I při neúplných zjišťováních je konečným cílem poznat zákonitosti, kterými se řídí jev jako celek. Základním předpokladem je v této souvislosti reprezentativnost vzorku. Neúplná zjišťování, jejichž výsledkem je získání reprezentativního vzorku, se nazývají výběrová zjišťování.
Kam zařadíme z hlediska úplnosti zjišťování např. evidenci pracovních úrazů, destruktivní zkoušení výrobků, evidenci pojistníků, evidenci pojistných událostí pojišťovnou. (1–1)
1.2 Výběrová zjišťování Pravděpodobnostní výběr (také náhodný výběr) je základní metodou získání reprezentativního vzorku. Pravděpodobnostní výběr předpokládá
určení tzv. výběrové jednotky (stanovení toho, co se vybírá: jediné laboratorní měření, jedna pojistná událost, jedna výrobní šarže, všechny výsledky jedné zkušebny za určité období),
stanovení pravděpodobnosti zahrnutí výběrové jednotky do výběru (tento problém zatím odsuneme stranou), „ponechání náhodě“ (např. použitím losování nebo jiné adekvátní tzv. znáhodňovací techniky), která jednotka bude zahrnuta do výběru. Pravděpodobnostní výběr tedy představuje poměrně složitou a promyšlenou proceduru a nelze jej zaměňovat např. s namátkovým nebo samovolným výběrem, jejichž výsledkem reprezentativní vzorek není. Pravděpodobnostní výběr lze klasifikovat na
výběr s opakováním a výběr bez opakování (podle toho zda jednou vybraná jednotka může či nemůže být opakovaně zahrnuta do výběru),
výběr se stejnými a výběr s nestejnými pravděpodobnostmi, přímý neomezený výběr a složitěji uspořádaný výběr. Prostý náhodný výběr je nejjednodušším případem pravděpodobnostního výběru. Je definovaný jako přímý neomezený výběr se stejnými pravděpodobnostmi prováděný s opakováním či bez opakování. V dalších partiích budeme uvažovat výhradně tento výběr a odsuneme tedy stranou druhý a třetí bod z posledního odstavce. Základní soubor — populace — je množina všech existujících případů. Jejich počet — rozsah populace — se označuje písmenem N. Výběrový soubor — výběr — je množina případů zahrnutých do výběru. Počet jednotek se nazývá rozsah výběru a označuje se písmenem n. V praxi jde při výběru o to, minimalizovat rozsah výběru (šetřit čas a peníze) při maximalizaci jeho informační hodnoty. Pokud způsob získání a reprezentativnost vzorku nejsou podstatné, hovoří se prostě o datovém souboru. Rozsah datového souboru se označuje rovněž symbolem n. Popisná statistika se zabývá popisem (deskripcí) datového souboru. Matematická statistika (statistická indukce) zobecňuje závěry získané na výběrovém souboru (reprezentativním vzorku) pro celou populaci.
7
Popisná a matematická statistika jsou dvě hlavní statistické disciplíny. Matematická statistika při tom vychází z počtu pravděpodobnosti. Vyplývá to (jak poznáme později) jak ze způsobu pořízení výběru, tak i ze způsobu nakládání s informacemi zjištěnými z výběru.
Kam bychom v terminologii výběrových zjišťování zařadili např. losování Sportky? Co představuje 49 čísel připravených v losovacím zařízení, jak nazveme 6 vylosovaných čísel, jaká je zde použita znáhodňovací technika? (1–2) Analyzujte případ tažení n drobných výrobků z krabice obsahující N výrobků. Všimněte si rozdílu mezi výběrem s opakováním a bez opakování (např. maximálně možný počet tahů, možnost opakovaně vybrat stejný výrobek apod.).
1.3 Statistická data Vlastnosti, které jsou aktuálním předmětem šetření, se v terminologii statistiky nazývají znaky. V této souvislosti pozor na terminologickou kolizi (např. pojem „znak“ v informatice). Jako příklady statistických znaků můžeme uvést např. jakostní třídu zboží, pořizovací cenu stroje, rozsah škody vzniklé požárem, pohlaví nebo věk pojistníka a mnoho dalších. Z těchto příkladů vyplývá, že znaků je mnoho typů, čemuž také odpovídají velmi různorodá statistická data. Základem klasifikace je dělení znaků na číselné a slovní. Číselný znak (zde lze využít alternativně i pojem veličina či proměnná) vykazuje číselné hodnoty, které mají primárně význam velikosti (např. životnost zařízení v hodinách, stupeň jeho opotřebení v procentech, pořizovací cena v tis. Kč). Číselné znaky, které budou v našem výkladu výrazně převažovat, můžeme klasifikovat jako měřitelné a pořadové. Měřitelný — kardinální — znak je výsledkem měření (např. měření ve fyzikálním slova smyslu). U kardinálních znaků je vedle relace větší, menší, roven, definován i rozdíl (o kolik) a u některých dokonce i podíl (kolikrát). V tomto případě záleží na poloze nuly — poměrový charakter mají jen znaky s „přirozenou nulou“. Znaky, které poměrový charakter nemají, se nazývají intervalové. Pořadový — ordinální — znak vyjadřuje stupeň výskytu nějaké vlastnosti a vztahují se k němu pouze relace větší, menší, roven. Kardinální znak lze převést na ordinální očíslováním jeho hodnot pořadovými čísly. Tímto je ztracena informace o rozdílech mezi hodnotami. Slovní — nominální — znak vykazuje dvě nebo více slovně vyjádřených obměn (kategorií). Obměny nominálních znaků lze číselně kódovat, čísla však postrádají význam velikosti. Pokud nominální znak vykazuje jen dvě obměny, jedná se o alternativní (binární, dichotomický, dvojný) znak. Pokud nominální znak vykazuje více než dvě obměny, hovoří se o množném znaku.
Najděte příklady kardinálních, ordinálních a nominálních znaků. Najděte příklady intervalových a poměrových znaků (o kolik/kolikrát je jedna hodnota větší/menší než druhá). Najděte příklady alternativních a množných slovních znaků. Zaujměte stanovisko k možnosti vyjádřit o kolik/kolikrát/o kolik procent je jedna hodnota větší než druhá v případě (a) porovnání počtu pojistných událostí ve dvou letech (např. 235 a 227), (b) porovnání výše škod v tis. Kč (např. 10 a 100), (c) porovnání venkovních teplot změřených ve °C (např. –15 a +20).
Statistické údaje — data — jsou shromážděné hodnoty číselných, resp. obměny slovních znaků. Typickým prostředím pro uchování statistických dat je tabulka tabulkového procesoru, případně mohou být data organizována v databázi, což usnadňuje jejich skladování, údržbu a aktualizaci, stejně jako jejich operativní získávání i z velmi rozsáhlých databází. V této souvislosti se běžně používají pojmy jako datový sklad, datová pumpa, dolování dat apod. — tyto termíny svědčí doslova o „průmyslovém“ charakteru těchto činností.
8
K označování číselných znaků budeme používat velká písmena z konce abecedy, tj. např. X, Y, Z,…. Jejich konkrétní hodnoty pak označíme odpovídajícími malými písmeny (x, y, z, …). Při rozsahu souboru n tvoří zjištěné hodnoty znaku X datovou řadu (datový vektor) x1 , x 2 ,..., xi ,..., x n . Index i souvisí přitom s pořadím zjišťování, takže datová řada je primárně neuspořádaná. Datovou řadu umísťujeme zpravidla do jednoho sloupce tabulkového procesoru.
2
n Seznamte se důkladně s významem zápisů ∑ x i , ∑ x , ∑ x i . Vypočtěte hodnoty těchto výi =1 i =1 i =1 razů pro datovou řadu xi : 24, − 16, 9, 0, 32 . Mimořádně i s výsledky: 49; 1937; 2401 n
n
2 i
V principu se můžeme setkat s datovou řadou, jejíž jednotlivé hodnoty se vztahují ke stejnému časovému období, ale různým případům (údaje o mzdách souboru pracovníků jedné firmy, o opotřebení strojů v několika dílnách, o účetních cenách firem v určitém odvětví nebo regionu). Takováto „statická“ data nazýváme průřezovými údaji. V dalším výkladu se primárně budeme věnovat datům průřezového charakteru. Někdy je ovšem vhodné měřit dynamiku, vývoj, určitého jevu v čase. Pak se jednotlivé údaje vztahují zpravidla k jednomu případu, ale k různým časovým obdobím (počet požárů v okrese KLM v letech 1995 až 2008, počet nahlášených pojistných událostí na pobočce pojišťovny ABC v jednotlivých měsících určitého roku apod.). V tomto případě má datová řada charakter řady časové.
1.4 Chyby v datech Údaje nelze zjišťovat bezchybně. Naopak — i z jiných zdrojů je čtenáři jistě známo, že při měření (či jiných technikách zjišťování údajů) nutně vznikají chyby. Náhodné chyby kupodivu vykazují určité zákonitosti. Nejnápadnější z nich je tendence kompenzovat se ve velkých datových souborech. Zákonitosti náhodných chyb jsou s použitím statistických metod dobře popsatelné (např. lze odhadnout jejich možnou velikost), ale problematikou teorie chyb se zabývat nebudeme. Systematické chyby vznikají soustavným působením určitého činitele po celou dobu zjišťování. Jsou obtížně zjistitelné a pochopitelně u nich nelze hovořit o tendenci ke kompenzaci s rostoucím počtem pozorování. Hrubé chyby vznikají v důsledku určitého momentálního selhání a pokud jsou to např. odlehlé hodnoty, dají se identifikovat při uspořádání zjištěných hodnot podle velikosti. Výběrová chyba vzniká v důsledku ztráty informace při výběrovém způsobu zjišťování, kdy populace je zastoupena výběrem. Vzhledem k tomu, že z populace lze zpravidla pořídit obrovský počet různých výběrů, liší se výsledky jejich popisu vzájemně mezi sebou a také od výsledků, které bychom získali z celé populace (pokud by to bylo možné). Výběrové chyby jsou s použitím statistických metod velmi dobře popsatelné a ve své podstatě jde rovněž o náhodné chyby. Chybějící hodnoty — i když nejde v pravém slova smyslu o chyby v datech, musíme počítat s tím, že někdy se nepodaří dohledat všechny údaje a jejich část chybí. Na tuto skutečnost v praxi reagujeme různými metodami „ošetření“ chybějících hodnot. Touto problematikou se ovšem nebudeme zabývat.
9
Σ
1. Podle podmínek lze statistická zjišťování klasifikovat na řízené experimenty a prostá pozorování. 2. Podle úplnosti zjišťování lze statistická zjišťování klasifikovat na úplná a neúplná. 3. U neúplných zjišťování je rozhodujícím hlediskem reprezentativnost získaného vzorku. 4. Pokud zjišťování vede k reprezentativnímu vzorku, hovoří se o výběrovém zjišťování. 5. Základní metodou výběrových zjišťování je pravděpodobnostní výběr a jeho nejjednodušším uspořádáním je prostý náhodný výběr. 6. Rozlišujeme popisnou statistiku, pomocí níž provádíme deskripci dat a matematickou statistiku, kterou užíváme k zobecňování informací získaných z výběrových souborů směrem k populaci. 7. Vlastnosti, které jsou předmětem šetření, se nazývají znaky. 8. Znaky klasifikujeme např. na kardinální, ordinální a nominální. 9. Statistické údaje mají buď průřezový charakter nebo tvoří časovou řadu. 10. Statistické zjišťování je spojeno s výskytem chyb. Chyby klasifikujeme na náhodné, systematické a hrubé. S výběrovým způsobem zjišťování je spojena tzv. výběrová chyba.
(1.1) Povinnost evidence pracovních úrazů je dána ze zákona, úplná evidence pojistníků a pojistných událostí je v zájmu pojišťovny. Naproti tomu v případě destruktivního zkoušení výrobků si úplné zjišťování nelze představit. (1.2) Čísla v losovacím zařízení představují populaci. Tažená šestice představuje náhodný výběr. Jde o prostý náhodný výběr bez opakování a znáhodňovací technikou je losování.
1.
Charakterizujte pojmy hromadnost a variabilita.
2.
Jaké jsou výhody a nevýhody řízeného experimentu.
3.
Jaké jsou výhody a nevýhody úplných zjišťování.
4.
Vysvětlete postup při pravděpodobnostním výběru.
5.
Definujte prostý náhodný výběr.
6.
Existuje (aspoň teoreticky) možnost, že rozsah výběru přesáhne rozsah populace?
7.
Co je opakem deskripce ve statistice.
8.
Porovnejte obsah pojmů základní soubor, výběrový soubor, datový soubor.
9.
S kterým statistickým znakem je spojen výraz hodnota/obměna.
10. O jakou informaci přicházíme, nahradíme-li naměřené hodnoty jejich pořadím? 11. Pokuste se vytvořit co nejpodrobnější schéma klasifikace statistických znaků. 12. Tvrdím, že rovněž výběrové chyby mají tendenci s rostoucím počtem případů (tedy výběrů) se kompenzovat. Mám pravdu?
10