Popisná statistika
Téma 3: Popisná statistika Přednáška 7 – Základní statistické pojmy Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby rozhodování. Zkoumá stav a vývoj hromadných jevů a vztahů mezi nimi prostřednictvím hromadných pozorování. Pod pojmem hromadná pozorování si představíme měření a zjišťování, kdy - jev se může mnohokrát opakovat → opakované pokusy - jev pozorujeme na vybraném počtu objektů (jednotek) → výběry Etapy statistické práce: 1. statistické měření a zjišťování, 2. zpracování statistických údajů, 3. interpretace získaných výsledků. Praktické užití statistiky se opírá o její 2 roviny: - popisnou statistiku = zpracování naměřených dat a získání informací o těchto datech (zejména zobrazení dat pomocí tabulek, grafů a výpočet číselných charakteristik), - induktivní statistiku = souhrn metod sloužících k odhadům sledovaných vlastností v základních souborech → induktivní úvahy s využitím pravděpodobnosti, tedy zobecňování získaných informací z výběru na celý soubor, ze kterého byl výběr pořízen. Základní pojmy a prostředky •
statistický soubor = množina zkoumaných objektů, které mají z daného hlediska společné vlastnosti (osoby, věci, rostliny, zvířata, podniky, události, …)
•
statistická jednotka = prvek statistického souboru (1 člověk, 1 výrobek, 1 pokus, …)
•
základní soubor = soubor, který je předmětem našeho zájmu, je předmětem statistického šetření a o jehož vlastnostech se mají dělat závěry (někdy se označuje jako populace) ∼ reálný … všechny jednotky reálně existují (studenti VŠ, Felicie vyrobené v roce 1999, denní produkce rohlíků u pekaře, … → konečný) ∼ hypotetický … obecně je definován, ale reálně existuje jenom určitá jeho část (pokračující výroba, přicházející zákazníci OD, laboratorní a fyzikální měření, … → nekonečný)
•
výběrový soubor = podmnožina základního souboru vytvořená na základě tzv. výběrového = reprezentativního šetření → klasifikace: - 36 -
Popisná statistika ∼ záměrný výběr = výběr na základě známých vlastností základního souboru: jednotky vybíráme tak, aby výběrový soubor byl dobrým reprezentantem základního souboru ∼ náhodný (pravděpodobnostní) výběr = výběr na základě předem určené pravděpodobnosti zahrnutí jednotek do výběrového souboru, tedy vlastní výběr záleží na náhodě •
rozsah výběrového souboru = počet jednotek tvořících vývěrový soubor; ozn. n
•
statistický znak = vlastnost jednotek, která je předmětem našeho zájmu nebo na základě které byl vytvořen (definován) základní soubor (hmotnost rohlíku, rychlost auta, počet zákazníků, … , znalost cizího jazyka, pohlaví, známka u zkoušky ze ST, …); ozn. X
•
hodnota znaku = výsledek 1 zjištění - měření na 1 jednotce (X = xi) → zjištěné - naměřené hodnoty představují tzv. data: x1, x2, … , xn
•
obměny – varianty znaku = různé hodnoty znaku v 1 souboru
•
klasifikace statistických znaků: statistický znak kvantitativní intervalový
kvalitativní
poměrový
ordinální
nominální alternativní
množný
- kvantitativní (numerický) znak … obměny znaku jsou přímo vyjádřené číslem (hmotnost rohlíku, % tuku v mléku, doba letu letadla, počet aut u pumpy, …) - kvalitativní (kategoriální) znak … obměny znaku jsou vyjádřené zpravidla slovně (školní klasifikace, míra slanosti uzeniny, znalost cizího jazyka, …) - intervalový znak … obměny lze srovnávat jen rozdílem (teplota ve °C, …) - poměrový znak … obměny lze srovnávat rozdílem a podílem (mzda pracovníků, výška nájemného, hmotnost rohlíku, počet zákazníků u pokladny, …) - pořadový (ordinální) znak … obměny jsou uspořádané a zpravidla vyjádřené slovně (známka ze ST, dokončené vzdělání, senzorické hodnocení sýru, …) - nominální znak … obměny jsou vyjádřené zpravidla slovně a nevystihují pořadí (znalost cizího jazyka, typ bydlení, číslo linky MHD, …) - alternativní znak … nabývá pouze 2 obměn (ano - ne, muž - žena, dobrý - vadný, …) - množný znak … nabývá více než dvou obměn (ZŠ, SŠ bez mat., SŠ s mat., VŠ - Bc, …)
- 37 -
Popisná statistika - nespojitý znak … nabývá v jistém intervalu jen izolovaných hodnot (počet členů domácnosti, počet zmetků v sérii, dosažené vzdělání, typ bydlení, číslo linky MHD, …) - spojitý znak … může nabývat v jistém intervalu všech hodnot (hmotnost rohlíku, doba čekání na obsluhu, školní vědomosti, míra sladkosti limonády, intenzita barvy, …) •
statistika používá typické vyjadřovací prostředky ∼ statistické tabulky → tabulka rozdělení četností, korelační tabulka, různé typy výpočetních tabulek, … ∼ statistické grafy → diagram rozptýlení, polygon a histogram rozdělení četností, bodový graf, výsečový graf, prostorový histogram, prostorový bodový graf, … Ukázka vybraných tabulek a grafů: Bodové rozdělení četností xi
ni
Ni
pi
Fi
79 80 81 82 83 84 85
3 5 11 16 8 4 3
3 8 19 35 43 47 50
0,06 0,1 0,22 0,32 0,16 0,08 0,06
0,06 0,16 0,38 0,7 0,86 0,94 1
Σ
50
x
1
x
X ... výška 15-ti měsíčních dětí Intervalové rozdělení četností
<1,00;1,10) <1,10;1,20) <1,20;1,30) <1,30;1,40) <1,40;1,50) <1,50;1,60) <1,60;1,70)
xj
nj
Nj
pj
Fj
1,05 1,15 1,25 1,35 1,45 1,55 1,65
6 9 11 13 10 9 2
0,100 0,150 0,183 0,217 0,167 0,150 0,033
6 15 26 39 49 58 60
0,100 0,250 0,433 0,650 0,817 0,967 1,000
x
60
1
x
x
3
X ... množství prachových částic v µg/m
- 38 -
Popisná statistika Korelační tabulka yj
xi
11
ni
7
8
9
10
12
1 2 3 4 5
3 2 1 1
2 2 3 1 2
2 2 2 2 1
1 2 1 2 3
2 1 1 1
1 3 1 5
8 11 11 7 13
nj
7
10
9
9
5
10
50
X ... délka odborné praxe Y ... platová třída Diagram rozptýlení Obsah tuku v mléku
14,6
14,7
14,8
14,9
15
15,1
15,2
15,3
15,4
Polygon četností V ýška 15-ti m ěsíčních dětí
18 16 14
četnos
12 10 8 6 4 2 0 78
79
80
81
82
83
výška p ostavy
- 39 -
84
85
86
15,5
15,6
Popisná statistika Přednáška 8 - Základní zpracování dat Základní zpracování dat představuje první práci s naměřenými daty, která směřuje k tomu poznat nejdůležitější vlastnosti sledovaného znaku prostřednictvím jednoduchých tabulek, grafů a numerických výpočtů. Z praktických důvodů rozlišujeme zpracování dat a) ruční → provádí se na základě vzorců, zpravidla s využitím kalkulačky se statistickým režimem (SD-1, SD-2, STAT, REG, …) b) počítačové → provádí se s využitím dostupného softwaru, např. Unistat, Statgraphics, QCExpert/Adstat, Statistica, jednoduché procedury obsahuje také Excel Podle počtu a zejména charakteru měřených dat použijeme jednu ze 3 možností zpracování: 1. neroztříděná data → vhodné pro malý rozsah souboru (n < 30) uspořádání dat podle velikosti: x(1) ≤ x(2) ≤ … ≤ x(n) grafické zobrazení dat - diagram rozptýlení výpočet charakteristik
2. bodové rozdělení četností → vhodné pro velký rozsah souboru, nespojitý znak a malý počet obměn (do 20) tabulkové vyjádření rozdělení četností (ni, pi, Ni, Fi, i = 1, 2, … , k, k = počet obměn) grafické zobrazení rozdělení četností (polygon četností, součtová křivka) výpočet charakteristik
3. intervalové rozdělení četností → vhodné pro velký rozsah souboru, spojitý znak nebo nespojitý znak s velký počtem obměn konstrukce intervalů (počet, šířka a počátek intervalů) tabulkové vyjádření rozdělení četností grafické zobrazení rozdělení četností (histogram a součtový histogram) výpočet charakteristik
Pozn.: konstrukce intervalů (tříd) zjistíme n, xmin, xmax a určíme variační rozpětí R = xmax - xmin stanovení počtu tříd k provedeme podle povahy a struktury dat s využitím pravidel:
Sturgesovo pravidlo: k ≈ 1 + 3,32 log n
Yuleovo pravidlo: k ≈ 2,5
jiná pravidla: k ≈ n ; k ≤ 5 log n
4
n
stanovení šířky tříd h: h ≈ R / k nebo h ≈ 0,08 ⋅ R až 0,12 ⋅ R - 40 -
Popisná statistika - počátek 1. třídy, počet a šířku tříd budeme volit tak, aby největší a nejmenší hodnota padly do prvního a posledního intervalu - intervaly budeme volit zpravidla polouzavřené zleva, tj. x′j − h / 2 ≤ x < x′j + h / 2 - hranice i středy tříd by měly být vhodně zaokrouhlené - to, jak rozdělení provedeme, je individuální
Přednáška 9 - Popis statistického souboru Charakteristiky polohy Charakteristiky polohy (úrovně) měří obecnou velikost hodnot znaku v souboru a dělí se na průměry (počítané ze všech dat) a ostatní míry polohy (počítané z vybraných hodnot). aritmetický průměr x
→ nejčastěji užívaný druh průměru, pro který platí: součet všech
diferencí hodnot od aritmetického průměru je roven nule, tj.
n
∑(x − x) = 0 . i =1
i
n
prostý aritmetický průměr
∑x
x=
i =1
n
k
vážený aritmetický průměr
x=
k
∑ ni x i
=
i =1 k
∑n i =1
i
∑n x i
i =1
i
n
i
Pozn.: u intervalového rozdělení se do vzorců pro vážený tvar dosazují středy intervalů. harmonický průměr x H → má specifické uplatnění v situacích, kdy má logický význam
součet převrácených hodnot znaku. prostý harmonický průměr
xH =
n n
1
∑x i =1
i
i
n ni ∑ i =1 x i
k
vážený harmonický průměr
xH =
∑n i =1 k
ni
∑x i =1
- 41 -
i
=
k
Popisná statistika geometrický průměr xG → má specifické uplatnění v jednoduché analýze časové řady,
kdy je smysluplné tzv. průměrné tempo růstu. prostý geometrický průměr
xG = x1 ⋅ x 2 ⋅ ⋅ ⋅ x n =
vážený geometrický průměr
xG = n x1n1 ⋅ ⋅ ⋅ xknk = n
n
n
n
∏x i =1
k
∏x
ni i
i =1
modus xˆ → hodnota znaku s největší četností.
U bodového rozdělení četností je xˆ = xM pro nM = max. ni U intervalového rozdělení uvažujeme tzv. modální interval – to je interval zahrnující největší počet hodnot znaku. Modus je však možné vyjádřit pomocí jednoho čísla xˆ ≈ x ′M +
n+ − n− h ⋅ 2 2n M − n+ − n −
kde h je šířka intervalu, xM střed modálního intervalu, n+, n−, nM jsou četnosti následujícího, předchozího a modálního intervalu. kvantil x P
→ je to hodnota znaku, pro kterou platí, že 100P % jednotek uspořádaného
souboru má hodnotu menší nebo rovnu xP a 100(1 − P) % jednotek má hodnotu větší nebo rovnu xP. Pořadový index iP kvantilu musí vyhovovat nerovnosti nP < iP < nP + 1 . U netříděných dat nebo bodového rozdělení četností stanovíme kvantily x P pro iP celé: x P = x( iP ) resp. pro nP, nP + 1 celé: x P =
x( nP ) + x( nP +1) 2
U intervalového rozdělení uvažujeme tzv. kvantilový interval - to je interval, ve kterém hledaný kvantil leží. Kvantil je však možné vyjádřit pomocí jednoho čísla xP ≈ xD +
nP + 12 − N D −1 h nj
kde xD je dolní hranice intervalu v němž kvantil leží, ND-1 je kumulativní četnost předchozího intervalu, h je šířka intervalu. kvantil x0,50 = medián, tj. prostřední hodnota uspořádaného souboru - 42 -
Popisná statistika kvantil x0,25 = dolní kvartil, kvantil x0,75 = horní kvartil, x0,10, x0,20, ... , x0,90 = decily x0,01, x0,02, ... , x0,99 = percentily Charakteristiky variability Charakteristiky variability popisují kolísání hodnot sledovaného znaku, měnlivost statistického souboru. variační rozpětí → délka intervalu, ve kterém se nacházejí hodnoty znaku souboru.
R = x max − x min kvantilové rozpětí → používá se jako hrubý ukazatel variability.
kvartilové rozpětí
RQ = x0, 75 − x 0, 25
decilové rozpětí
RD = x0,90 − x0,10
percentilové rozpětí
RC = x0,99 − x 0,01
Pozn.: RQ (RD resp. RC) je délka intervalu, ve kterém se nachází 50 % (80 % resp. 98 %) prostředních uspořádaných hodnot. kvantilové odchylky – používají se také jako předběžný ukazatel variability.
kvartilová odchylka
Q = RQ : 2
decilová odchylka
D = RD : 8
percentilová odchylka
P = RC : 98
Pozn.: Q (D resp. P) představuje průměrnou délku všech prostředních kvantilových intervalů bez prvního a posledního intervalu. průměrná odchylka → aritmetický průměr absolutních odchylek jednotlivých hodnot od
střední hodnoty, jíž jsme charakterizovali úroveň znaku (průměr, medián, ...). průměrná odchylka od aritmetického průměru - prostý tvar
n
dx =
průměrná odchylka od aritmetického průměru - vážený tvar
∑x i =1
−x
n k
dx =
i
∑x i =1
i
− x ⋅ ni n
- 43 -
Popisná statistika rozptyl (momentový) → nejužívanější míra variability − aritmetický průměr čtverců od-
chylek od aritmetického průměru pro rozsah souboru n. n
prostý tvar
∑ (x
s n2 =
i =1
n k
vážený tvar
s n2 =
− x)2
i
∑ (x i =1
− x ) 2 ⋅ ni
i
n s n2 = x 2 − x 2 . Rozptyl je vždy vyjádřený ve
Pozn.: Pro ruční výpočet lze použít vztah čtvercích jednotek sledovaného znaku.
směrodatná odchylka – odmocnina z rozptylu, je vyjádřena ve stejných jednotkách jako
sledovaný znak. s n = s n2 výběrový rozptyl → míra variability často používaná v induktivní statistice. n
prostý tvar
s n2−1 =
∑ (x i =1
s n2−1 =
− x)2
n −1 k
vážený tvar
i
∑ (x i =1
i
− x ) 2 ⋅ ni
n −1
výběrová směrodatná odchylka → odmocnina z výběrového rozptylu
s n −1 = s n2−1 variační koeficient → nejužívanější relativní míra variability – poměr směrodatné od-
chylky a průměru. Používá se tam, kde je třeba porovnat variabilitu znaku ve více souborech, zejména když se pozorované soubory liší úrovní sledovaného znaku nebo je-li v různých souborech znak vyjádřen v různých jednotkách. v=
- 44 -
sn x
Popisná statistika Charakteristiky šikmosti a špičatosti Míry šikmosti (asymetrie) jsou založené na srovnání stupně koncentrace malých hodnot sledovaného znaku se stupněm koncentrace velkých hodnot tohoto znaku. Podávají tedy informaci o tvaru rozdělení četností co do souměrnosti. Míry špičatosti jsou založené na srovnání stupně koncentrace prostředních hodnot se stupněm koncentrace ostatních hodnot resp. všech hodnot sledovaného znaku. Poskytují tedy informaci o rozdělení četností co do špičatosti. Nejprve si zavedeme r-tý obecný moment n
mr′ =
∑x i =1
r i
n
k
=
∑x i =1
r i
⋅ ni
n
Pozn.: Aritmetický průměr je první obecný moment. r-tý centrální moment n
mr =
∑ ( xi − x ) r i =1
n
k
=
∑ (x i =1
i
− x ) r ⋅ ni n
Pozn.: Momentový rozptyl je druhý centrální moment (odtud jeho název). koeficient šikmosti n
a3 =
ni
souměrné rozdělení
ni
m3 3
m2 2
=
∑ (x i =1
i
− x)3
n⋅s
3 n
m3 s n3
=
záporně zešikmené
a3 = 0
ni
a3 < 0
x
x
kladně zešikmené
a3 > 0
x
Je-li a3 = 0, je stupeň hustoty malých a velkých hodnot stejný, což představuje souměrné rozdělení četností. Je-li a3 > 0, je stupeň hustoty malých hodnot ve srovnání s hustotou velkých hodnot větší a rozdělení četností je proto zešikmené doleva. Analogicky je-li a3 < 0, je rozdělení četností zešikmené doprava. - 45 -
Popisná statistika koeficient špičatosti n
m a 4 = 42 − 3 = m2
ni
∑ (x i =1
i
− x)4
n ⋅ s n4
−3
a4 > 0
a4 < 0
a4 = 0
x Je-li a4 > 0, je stupeň koncentrace prostředních hodnot ve srovnání s koncentrací všech hodnot větší a rozdělení četností se potom projeví špičatým tvarem. Analogicky je-li a4 < 0, má rozdělení četností plochý tvar.
- 46 -