4. Statistika jako praktická činnost
Jednotlivé etapy se navzájem prolínají, nejsou od sebe přísně odděleny. Kvalita práce v jedné etapě však ovlivňuje výsledek práce v etapách ostatních i výsledek celého statistického zkoumání.
4.1 Statistické zjišťování Statistické zjišťování (šetření) je organizované získávání a shromažďování neznámých primárních statistických dat, nutných k prozkoumání či sledování určitých hromadných jevů nebo jejich vztahů nebo jejich vývoje, a to včetně prověřování jejich správnosti. Podle toho, jestli zjišťujeme hodnoty okamžikového nebo intervalového statistického znaku, určíme rozhodný okamžik (časový okamžik, k němuž se vztahují zjištěné údaje např. 31. 10. 2008 8:00 hodin) nebo rozhodné období (časový úsek, ke kterému se vztahují zjištěné údaje např. říjen 2008). Statistická jednotka, o které se provádí zjišťování (např. pracovník), se nazývá jednotka zjišťování, údaje o ní však poskytuje tzv. zpravodajská jednotka (např.podnik o pracovníkovi). Obě jednotky však mohou být totožné. Zamyslete se nad možnými vztahy mezi jednotkou zjišťování a zpravodajskou jednotkou.
4.1.1 Organizace zjišťování Statistické zjišťování lze, jak již bylo uvedeno, organizovat jako:
vyčerpávající
výběrové
prošetří se všechny jednotky základního souboru
vědomě předem se počítá s tím, že se prošetří pouze některé jednotky ze základního souboru, tj. pouze jednotky z tzv. výběrového souboru. Výsledky zjištěné u tohoto vzorku se pak zobecňují na celý základní soubor – tomuto vztažení (projekci) výsledků ze vzorku na celou populaci říkáme statistická indukce.
Výhody: • Poskytuje zcela přesné statistiky a umožňuje činit velmi spolehlivé závěry • Zabezpečuje informaci nejen o souboru jako celku, ale i za případné dílčí soubory, dokonce i o každé jednotce jednotlivě (např. při kontrole povinností)
Výhody: • Méně časově a ekonomicky náročné než zjišťování vyčerpávající • V některých případech jde o jediný proveditelný způsob (např. u kontroly jakosti vedoucí k destrukci výrobků)
Nevýhody: • Nehospodárnost (vysoké náklady vzhledem k efektu získaných výsledků) • Časová náročnost • Praktická neproveditelnost (např. u kontroly jakosti vedoucí k destrukci výrobků)
Nevýhody: • Přesnost se nutně ztrácí – zůstává jen odhad. Výsledky zatíženy tzv. výběrovou chybou.
Oba typy zjišťování se mohou navzájem doplňovat : § rozšíření obsahu vyčerpávajícího zjišťování u vybraných jednotek § využití výběrového zjišťování jako kontrolního (opravného) zjišťování u vyčerpávajícího zjišťování § provedení vyčerpávajícího zjišťování jen u části jednotek a u zbytku (např. převážně méně významných jednotek nebo jednotek, jejichž prošetření je příliš nákladné) provedení výběrového zjiš‘ťování § ve větších časových úsecích (např. 10 let) provést zjišťování vyčerpávající (sčítání lidu)a mezitím změny odhadnout pouze výběrově Od výběrového zjišťování většinou požadujeme, aby bylo možné jeho výsledky bez problému zobecnit, tj. aby dovolilo provést potřebné odhady skutečných charakteristik celého základního souboru s určitou požadovanou přesností. Výběrový soubor musí mít tak stejné vlastnosti jako základní soubor, z něhož pochází, čili musí být věrnou zmenšeninou, miniaturním obrazem základního souboru, který má „reprezentovat“. Tento požadavek splňují pouze reprezentativní výběry (na rozdíl od výběrů nereprezentativních). Reprezentativním výběrem je především výběr náhodný, kdy o vybrání či nevybrání každé jednotky základního souboru (do výběrového souboru) rozhoduje pouze a jenom náhoda. Nejjednodušším typem náhodného výběru je prostý náhodný výběr, u kterého musí být
4.1 Statistické zjišťování
2
splněna 3 pravidla: - všechny jednotky základního souboru mají stejnou pravděpodobnost, že budou vybrány - stejnou pravděpodobnost výběru mají i všechny myslitelné n-členné kombinace jednotek - vybírání žádné jednotky není závislé na výsledku výběru předchozích jednotek. U tohoto typu výběru jde o výběr s vracením či opakováním (každá vybraná jednotka je po výběru „vrácena“ zpět do základního souboru a může být vybrána znovu, je tak zaručena stejná pravděpodobnost vybrání pro všechny jednotky základního souboru, jde o řadu nezávislých jevů). V praxi je však používanější výběr bez vracení či opakování, vybrané jednotky se již do základního souboru „nevracejí“ a každá jednotka proto může být vybrána pouze jednou. Po každém výběru se tak mění pravděpodobnost vybrání zbylých jednotek a výpočty jsou mnohem složitější (jde o řadu závislých jevů). Je-li ale rozsah základního souboru několikařádově větší než rozsah výběrového souboru, rozdíl je téměř zanedbatelný a používají se jednodušší výpočty odvozené pro výběr s vracením. Jiný možný typ výběru než prostý náhodný výběr se stejnou pravděpodobností výběru všech jednotek základního souboru je výběr s nestejnými (různými) pravděpodobnostmi. Používá se u souborů s různě velkými jednotkami či jednotkami s různě velkým významem pro statistické zkoumání. Tak se může při výběrovém zjišťování např. větším firmám či obcím přisoudit větší váha (větší šance dostat se do výběru). Všechny dosud popsané možnosti náhodného výběru jednotek patří mezi tzv. přímý výběr jednotek.
přímý výběr jednotek
Jinou modifikací výběru jsou tzv. složitější uspořádání výběru: • oblastní (stratifikovaný) výběr = základní soubor se rozdělí na dílčí oblasti (strata, dílčí soubory) tak, aby každá oblast obsahovala pokud možno jednotky stejných vlastností (homogenní), a v každé oblasti se pak provede prostý náhodný výběr. Do vzorku se tak dostanou zástupci ze všech nehomogenních oblastí. Důvodem použití je tedy nehomogenita základního souboru. Např. při zkoumání spotřeby domácností by se nejprve domácnosti rozdělily do skupin podle počtu členů a v každé skupině by se pak náhodně vybraly domácnosti.
oblastní výběr
• dvoustupňový (vícestupňový) výběr = základní soubor se rozdělí na dílčí skupiny (dílčí
4.1 Statistické zjišťování
3
soubory), z nich se v prvním stupni náhodně některé vyberou (tzv. primární jednotky) a ve druhém stupni se již jen ve vybraných skupinách náhodně vyberou samotné jednotky (tzv. sekundární jednotky). Při vícestupňovém výběru se tento postup uskutečňuje ve více krocích. Např. při zkoumání domácností v republice by se nejprve náhodně vybraly obce a městské obvody (primární jednotky) a ve vybraných obcích a městských obvodech by se opět náhodně vybraly již samotné domácnosti (sekundární jednotky).
dvoustupňový výběr
výběr skupin
• výběr skupin = základní soubor se rozdělí na dílčí skupiny (dílčí soubory), z nich se náhodně některé vyberou a do zkoumaného vzorku se pak zahrnou všechny jednotky těchto vybraných skupin. Např. při zkoumání domácností v Plzni by se nejprve náhodně vybraly domy a v těchto vybraných domech by se prošetřily všechny domácnosti. Důvodem použití dvoustupňového výběru či výběru skupin je zejména organizační zjednodušení a zlevnění zjišťování u prostorově rozptýlených jednotek, kdy uvedené výběry vedou k větší prostorové koncentraci vybraných jednotek a tím ke snížení nákladů na pořízení potřebných údajů a kontrolu jejich správnosti. Při realizaci náhodného výběru je potřeba opora výběru, což je soubor zástupců (značek, čísel, jmen, adres), které při vybírání nahrazují fyzické jednotky. Např. při výběru osob je není třeba svolávat někam na náměstí, stačí jejich jmenný seznam s rodnými čísly. Opora výběru musí být úplná, aktuální a zajišťovat jednoznačné přiřazení zástupce a jednotky. Její pořízení však bývá obtížné a někdy i nemožné (např. u osob ochrana osobních údajů). Výzkumné agentury si proto někdy sestavují určité databáze samy z veřejně dostupných zdrojů, např. telefonních seznamů, jmen uváděných na zvoncích apod. Techniky pořizování náhodného výběru (znáhodňovací techniky) jsou různé: ♦ nejstarší a nejznámější je losování. Dá se použít na všechny typy výběrů, ale ne z velkých základních souborů. Je potřeba osudí (např. obrázek) a rozstříhaná opora výběru, před výběrem řádně promíchat. ♦ náhodná čísla z tabulek náhodných čísel nebo generátoru náhodných čísel (RNG = Random Number Generator) na kalkulačkách či PC (např. v Excelu či samostatných utilitách). Tabulka náhodných čísel – obsahuje náhodný výběr číslic 0 - 9, které se podle potřeby spojují do k-místných čísel. Tato čísla pak představují vybrané jednotky základního souboru, u něhož se předem jednotky náhodně seřadily a očíslovaly od 1 do N.
4.1 Statistické zjišťování
4
Část tabulky náhodných čísel 7 8 0 3 9
4 0 8 7 2
8 7 8 3 1
8 6 3 9 6
6 0 0 0 9
9 0 6 7 2
4 9 2 4 7
0 3 5 1 4
2 9 0 1 1
5 4 8 7 1
6 0 9 1 5
2 8 7 4 9
4 3 9 5 0
1 5 2 4 2
3 2 2 7 4
3 2 4 9 8
2 7 8 9 0
3 2 0 5 8
3 0 3 2 2
4 0 0 8 0
5 6 0 5 3
3 4 1 6 6
9 3 1 4 6
7 0 0 5 2
4 3 5 2 8
6 8 1 9 5
7 5 2 2 8
9 0 9 3 7
5 3 4 7 7
7 3 8 7 0
6 1 9 7 1
8 2 2 2 1
4 1 6 6 2
8 1 9 2 2
3 0 6 7 0
8 6 7 7 2
2 5 8 8 5
4 6 9 7 1
5 6 4 5 8
4 3 7 4 3
9 6 8 9 7
5 6 5 4 1
7 2 1 2 6
6 8 5 7 2
5 1 0 6 2
6 0 9 4 1
1 3 5 2 9
0 4 9 0 3
9 3 9 0 5
3 0 5 0 2
1 1 3 4 2
5 5 2 0 7
1 4 5 2 7
8 0 5 4 6
6 1 9 0 8
9 3 4 7 0
4 5 7 1 1
9 5 5 0 5
1 8 6 8 1
8 2 8 1 7
3 2 0 4 1 4 1 4 7 3
6 0 2 2 8 4 4 7 3 2
7 9 6 7 3 7 0 5 8 7
5 6 2 4 4 3 0 7 8 9
6 0 0 5 3 7 2 8 7 0
3 8 1 6 1 8 2 7 1 6
Příklad: Ze 3 981 pracovníků jich prostřednictvím tabulky náhodných čísel vyberte 200! - Oporu výběru (seznam pracovníků) náhodně seřadíme (např. podle abecedy) a očíslujeme od 1 do 3 981. - V tabulce určíme libovolně začátek výběru (např. pravý dolní roh) a směr výběru (např. stále doleva). - Číslice v tabulce spojíme zprava do čtyřmístných čísel (N = čtyřmístné číslo). - Z tabulky postupně čteme čísla, která představují vybrané jednotky. Přitom čísla v tabulce vyšší než N vynecháme (přeskočíme). - Pokračujeme tak dlouho, dokud nedosáhneme n (požadovaného rozsahu výběru). - Výběr budou tak tvořit pracovníci s pořadovými čísly: 2 798, 2 374, 1 416, 1 833, 2 061, 867, 3 912, 2 617, 3 815, 2 022, 1 118, 170, 2, 2 627 … 7 8 0 3 9
4 0 8 7 2
8 7 8 3 1
8 6 3 9 6
6 0 0 0 9
9 0 6 7 2
4 9 2 4 7
0 3 5 1 4
2 9 0 1 1
5 4 8 7 1
6 0 9 1 5
2 8 7 4 9
4 3 9 5 0
1 5 2 4 2
3 2 2 7 4
3 2 4 9 8
2 7 8 9 0
3 2 0 5 8
3 0 3 2 2
4 0 0 8 0
5 6 0 5 3
3 4 1 6 6
9 3 1 4 6
7 0 0 5 2
4 3 5 2 8
6 8 1 9 5
7 5 2 2 8
9 0 9 3 7
5 3 4 7 7
7 3 8 7 0
6 1 9 7 1
8 2 2 2 1
4 1 6 6 2
8 1 9 2 2
3 0 6 7 0
8 6 7 7 2
2 5 8 8 5
4 6 9 7 1
5 6 4 5 8
4 3 7 4 3
9 6 8 9 7
5 6 5 4 1
7 2 1 2 6
6 8 5 7 2
5 1 0 6 2
6 0 9 4 1
1 3 5 2 9
0 4 9 0 3
9 3 9 0 5
3 0 5 0 2
1 1 3 4 2
5 5 2 0 7
1 4 5 2 7
8 0 5 4 6
6 1 9 0 8
9 3 4 7 0
4 5 7 1 1
9 5 5 0 5
1 8 6 8 1
8 2 8 1 7
3 2 0 4 1 4 1 4 7 3
6 0 2 2 8 4 4 7 3 2
7 9 6 7 3 7 0 5 8 7
5 6 2 4 4 3 0 7 8 9
Pokračujte ve výběru dalších 10 pracovníků.
6 0 0 5 3 7 2 8 7 0
3 8 1 6 1 8 2 7 1 6
začátek a směr
Excel – matematická funkce =NÁHČÍSLO() vrací náhodné číslo v rozsahu (0 – 1> nebo funkce z kategorie matematická analýza (po instalaci Excelu nutno aktivovat ) =RANDBETWEEN(dolní mez, horní mez) vrací celé náhodné číslo ze zadaného intervalu (pozor, obě funkce mění hodnotu při každém přepočítání listu) nebo nástroj Generátor pseudonáhodných čísel (slovní menu Nástroje ► Analýza dat… ►). Jaký je rozdíl mezi oběma uvedenými funkcemi při použití v praxi? Jak zajistit, aby se náhodná čísla neměnila při každém přepočítání listu?
4.1 Statistické zjišťování
5
Kalkulačka – nejčastěji funkce RAN#, vrací náhodné číslo v rozsahu <0 – 1> na tři desetinná místa. U lepších kalkulaček se vyvolává stiskem kláves RAN# a =, pro další náhodná čísla stačí mačkat =. Zadá-li se RAN#(číslo) =, vrátí se náhodné číslo v rozsahu <0 – 1> vynásobené číslem zadaným v závorce. Vyzkoušejte generátor náhodných čísel na své kalkulačce. ♦ systematický (mechanický, intervalový) výběr = z očíslované posloupnosti (od 1 do N) náhodně seřazených jednotek základního souboru se počínaje náhodně zvolenou jednotkou vybere každá k-tá jednotka, kde k = konstantní výběrový krok = N/n. Příklad: Ze 3 981 pracovníků jich vyberte 200! Oporu výběru (seznam pracovníků) náhodně seřadíme (např. podle abecedy) a očíslujeme od 1 do 3 981. N 3 981 = = 19,9 = 19 (vždy se zaokrouhluje dolů!), prvního n 200 pracovníka vylosujeme nebo vybereme pomocí náhodných čísel z rozsahu 1 – 19, dostaneme např. 13. Výběr budou tak tvořit pracovníci s pořadovými čísly: 13, 32 (13 + 19), 51 (32 + 19), 70 (51 + 19), 89 (70 + 19), …, 3 794 (3 775 + 19).
Krok výběru = k =
♦ výběr podle nezávislého znaku = vyberou se jednotky s určitou hodnotou (obměnou) znaku, který nijak nesouvisí se zkoumaným znakem (není závislý na zkoumaném znaku), např. při výběru pracovníků s cílem zjistit mzdu se vyberou ti, kteří se narodili v pondělí nebo jejichž otec či matka má vlastní jméno začínající na J. ♦ náhodná procházka = náhodně se určí tzv. startovací adresa (odkud se začne) a tazatelé dostanou obecná pravidla, určující způsob postupu (jakýsi „itinerář“ cesty), např. zahnout střídavě vpravo a jít po pravé straně ulice a pak zahnout vlevo a jít po levé straně ulice, navštívit každou pátou domácnost na této trase, počítat od přízemí nahoru zleva doprava. Problémem zejména u průzkumů prováděných mezi obyvatelstvem je odmítnutí odpovědí částí vybraných osob. Tím dochází k porušení náhodnosti (a reprezentativnosti). Proto se místo náhodného výběru velmi často používá některá varianta záměrného výběru (opírá se o stanoviska odborníků na danou problematiku a různé odhady jak získat reprezentativní výběr): • v praxi blížící se reprezentativnímu výběru je výběr kvótní. Výběrový soubor má mít stejnou strukturu se souborem základním v určitých (tzv. kvótních) znacích, významně ovlivňujících znak zkoumaný, např. u obyvatelstva jde o pohlaví, věk, vzdělání, velikost místa bydliště … • jinou variantou je typický výběr – výběr jednotek, o nichž se odborník domnívá, že jsou to jednotky pro daný soubor a zkoumaný problém typické, např. Coca-Cola při průzkumech týkajících se jejích výrobků oslovovala pouze zákazníky ve věku 18 – 22 let. Nevýhodou záměrných výběrů oproti náhodným je nemožnost vypočítat přesnost a spolehlivost závěrů o základním souboru z výběrových dat. Do druhé skupiny nereprezentativních výběrů patří ty, jež nemohou poskytnout objektivní informace obecně platné pro celý základní soubor, ale pouze informace orientační.
4.1 Statistické zjišťování
6
Jsou to zejména ankety, u kterých je vzorek tvořen těmi, kteří se rozhodnou ankety se zúčastnit a odpovědět (mluví se o tzv. „samovýběru“). Zkušenosti ukazují, že mezi účastí či neúčastí v anketě na jedné straně a dotazovanou skutečností na druhé straně bývá dosti úzký vztah, souvislost. Například ankety o výši příjmů se často nezúčastní osoby s relativně vysokými (nebo utajovanými příjmy), ankety o čtenářských zájmech spíše čtenáři zábavné literatury apod. Najděte další příklady témat a skupin obyvatel, kteří asi odmítnou odpovídat. Jiným typem je metoda základního masívu. Uskutečňuje-li se zkoumaný jev (např. výroba nebo prodej) v několika velkých (obřích) jednotkách a velkém počtu jednotek malých, stačí prošetřit jen tyto velké jednotky a malé vynechat. Ušetří se hodně práce (zjištění hodnoty příslušného znaku na velké jednotce nebývá o mnoho pracnější než v malé jednotce), ale přitom se podchytí převážná část zkoumaného jevu. Přemýšlejte, jak zreprezentativnit metodu základního masívu.
4.1.2 Formy zjišťování Statistické zjišťování se provádí: • se zpravodajskou povinností (§ 2, písmeno j zákona č. 89/95 Sb., dále jen „Zákon“): „Zpravodajskou povinností je povinnost zpravodajských jednotek poskytnout požadované individuální statistické údaje včas, úplně, správně a pravdivě pro statistická zjišťování, uvedená v programu statistických zjišťování“ Program statistických zjišťování (§ 10 Zákona) stanoví Český statistický úřad vyhláškou, kterou vypracovává v součinnosti s ministerstvy a jinými správními úřady a vyhlásí vždy nejpozději do 30. listopadu předcházejícího roku. V programu se u každého statistického zjišťování uvádí: a) účel statistického zjišťování a jeho obsah, b) okruh zpravodajských jednotek, které mají zpravodajskou povinnost, c) způsob statistického zjišťování, d) periodicita a lhůty k poskytnutí údajů, e) orgán provádějící statistické zjišťování. Zpravodajská povinnost samozřejmě platí pouze pro zjišťování prováděná státní statistickou službou. Projděte si aktuální verzi „Programu statistických zjišťování“ •
bez zpravodajské povinnosti (§ 11 Zákona): „Jiná statistická zjišťování než ta, která jsou uvedena v programu statistických zjišťování, mohou být prováděna jen bez zpravodajské povinnosti na základě dobrovolného poskytování individuálních údajů.“
Plnění zpravodajské povinnosti není ze strany zpravodajských jednotek levnou záležitostí (i když většinu poskytovaných údajů mají zachycenu v povinně vedeném podnikovém účetnictví, ale třeba v jiné podobě a struktuře). Přitom: „Náklady spojené se splněním zpravodajské povinnosti, které vzniknou zpravodajské jednotce, nese tato jednotka sama.“ (§ 15 Zákona). Neplnění zpravodajské povinnosti je možno ze strany statistiky sankcionovat: „Právnická nebo podnikající fyzická osoba se jako zpravodajská jednotka dopustí správního deliktu tím, že nesplní zpravodajskou povinnost. Za tento správní delikt se uloží pokuta do 100 000 Kč.“ (§ 26 Zákona)
4.1 Statistické zjišťování
7
Jednotky zjišťování (nejčastěji podniky) se samozřejmě obávají zneužití údajů předávaných v rámci zjišťování. Zákon jednak stanovuje povinnost mlčenlivosti zaměstnanců statistiky a jednak zaručuje anonymitu zveřejněných údajů, tzn. že neumožňují identifikaci jednotky, která je poskytla. Údaje v rámci oficiálního statistického šetření organizovaného státní statistickou službou se nejčastěji předávají ve formě výkazů (odtud dřívější název výkaznictví), ať už v papírové nebo nověji v elektronické formě. Tiskopisy dodá bezplatně statistický orgán nebo si je lze stáhnout z webu ČSÚ. Obstarejte si tiskopis libovolného statistického výkazu a seznamte se s jeho strukturou. Statistika získává údaje jednak přímo od zpravodajských jednotek (ať už v rámci plnění zpravodajské povinnosti nebo i bez zpravodajské povinnosti), a jednak i z tzv. administrativních zdrojů.(§ 9 Zákona). Jde o údaje, které zpravodajské jednotky vykazují veřejné správě pro účely daňové, celní, sociálního zabezpečení atd. a o údaje z evidence obyvatelstva. Tím se snižuje výkaznické zatížení podniků.
4.1.3 Způsoby zjišťování
4.1 Statistické zjišťování
8