13
Popisna´ statistika
13.1 Jednorozmeˇrny´ statisticky´ soubor Statistický soubor je množina všech prvků, které jsou předmětem statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti – tzv. identifikační znaky – umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří. Identifikační znaky tedy soubor vymezují. Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru (statistických jednotkách) jednu nebo více vlastností – sledované znaky. Pokud sledujeme pouze jednu vlastnost, dostáváme jednorozměrný statistický soubor. Pokud sledujeme více vlastností, dostáváme vícerozměrný statistický soubor. Na každé statistické jednotce tedy zjišťujeme hodnotu nějakého statistického znaku X (hodnotu náhodné veličiny X). Předpokládejme, že jsme získali čísla x1 , . . . , xn , která tvoří tzv. soubor hodnot. Počet n prvků souboru je rozsah souboru. Soubor hodnot x1 , . . . , xn je třeba odlišit od množiny {x1 , . . . , xn }, v souboru hodnot se mohou některá čísla opakovat. Ve většině případů je možno pracovat s celým souborem x1 , . . . , xn , zejména díky výkonným počítačům. Je-li n velké, je někdy výhodné provést tzv. třídění, kdy údaje uspořádáme do přehledného tvaru, utvoříme tzv. tabulku rozdělení četností (četnostní tabulku, tabulku skupinového resp. intervalového rozdělení četností). a) Rozdělení četností Je-li znak X diskrétní s malým počtem hodnot a1 < · · · < ak , které byly zjištěny na n statistických jednotkách (říkáme, že X má málo variant), určíme četnostní tabulku takto: aj a1 . . . . . . ak nj n1 . . . . . . nk kde nj je počet, kolikrát se vyskytla hodnota aj , j = 1, . . . , k, v souboru hodnot x1 , . . . , xn . Zřejmě n1 + · · · + nk = n. Číslo nj je tzv. (absolutní) četnost hodnoty aj v souboru. Např. zkoušení studenti získali tyto známky: 1, 2, 2, 1, 3, 2, 4, 4, 2, 1, 2, 3. aj 1 2 3 4 nj 3 5 2 2
3
b) Intervalové rozdělení četností Je-li X diskrétní znak, který má mnoho variant nebo znak spojitý, rozdělíme obor hodnot tohoto znaku na vhodné disjunktní intervaly, např. I1 = (−∞, c1 , I2 = (c1 , c2 , . . . , (ck−1 , ∞). Označme nj počet čísel za statistického souboru x1 , . . . , xn , které patří do intervalu Ij , j = 1, . . . , k. Opět n1 + · · · + nk = n. Čísla nj , j = 1, . . . , k jsou tzv. (absolutní) intervalové četnosti. Intervaly je možno volit různými způsoby, uvedli jsme pouze jednu z možností. Obvykle se řídíme řídíme těmito pravidly: (1) každé číslo ze souboru x1 , . . . , xn lze zařadit právě do jedné třídy (zařazování je jednoznačné); (2) počet tříd k < n volit tak, aby třídění bylo přehledné (aby tříd nebylo příliš mnoho), ale zase aby se nám příliš nezjednodušil pohled na data (je-li tříd velmi málo). Pro učení počtu tříd se d oporučuje jeden z těchto vzorců: a) k ≤ 5√log n . b) k = n . c) (Sturgesovo pravidlo) k = 1 + 3.3 log n = 1 + 1.43 ln n (doporučuji) Tímto číslem se řídíme jen přibližně, zpravidla se volí intervaly stejné délky. Je třeba dbát na to, aby středy tříd byla „okrouhlá čísla. V každém intervalu se volí jedno číslo, které ve výpočtech zastupuje všechny hodnoty znaku, které do intervalu patří. Toto číslo je tzv. zastupitelná hodnota intervalu. Je-li interval (cj−1, cj konečný, je obvykle zastupitelnou hodnotou střed c +c tohoto intervalu aj = j−12 j . 1 Pokud je c0 = −∞, zvolíme zpravidla a1 = c1 − c2 −c . Podobně pro ck = ∞ 2 ck−1 −ck−2 . Jiný postup pro určení zastupitelných hodnot krajvolíme ak = ck−1 + 2 ních intervalů je tento: určíme minimální resp. maximální hodnotu ve statistickém souboru, tu pokládáme za dolní hranici prvního resp. horní hranici posledního intervalu. V těchto intervalech určíme středy a1 resp. ak . Intervalová četnostní tabulka má tvar interval (c0 , c1 (c1 , c2 · · · (ck−2 , ck−1 (ck−1 , ck aj a1 a2 · · · ak−1 ak nj n1 n2 · · · nk−1 nk Užívají se následující četnosti: n — relativní třídní četnost fj = nj , j = 1, . . . , k, — kumulativní třídní četnost Nj = n1 + · · · + nj , j = 1, . . . , k, — kumulativní relativní třídní četnost Fj = f1 + · · · + fj , j = 1, . . . , k.
4
Pro zobrazení utříděných dat užíváme následující statistické grafy 1. tyčkový graf, tyčkový diagram, sloupkový graf nj
a1
a2
a3
a4
a5
a6
a7
2. histogram: nad intervalem (cj−1 , cj se kreslí obdélník, jehož výška je rovna nj resp. je úměrná nj (nemají-li intervaly stejnou šířku, je plocha obdélníka nad daným intervalem rovna číslu nj ); nj
a1
a2
a3
a4
a5
a6
a7
3. polygon četností: lomenou čarou se spojí body (aj , nj ), j = 1, . . . , k. nj
a1 a2 a3 a4 a5 a6 a7 Podobnými grafy lze znázorňovat také relativní četnosti nebo kumulativní (absolutní i relativní) četnosti.
5
13.1.1 Mı´ry (charakteristiky) polohy Ve statistickém souboru potřebujeme často určit hodnotu, kolem které se data soustřeďují, potřebujeme stanovit jakýsi jejich „střed . Těmto číslům říkáme míry resp. charakteristiky polohy, jsou to charakteristiky úrovně znaku. Aritmetický průměr 1 xi , n i=1 n
x=
1 aj nj . n j=1 k
x=
Poznámka 1. Podle označení je zřejmé, že první vzorec užíváme pro původní data, druhý vzorec pro data utříděná do četnostní tabulky. Všechny další vzorce budeme uvádět v tomto pořadí. Vlastnosti aritmetického průměru: n
(xi − x) = 0,
resp.
i=1
k
(aj − x)nj = 0,
j=1
yi = xi + c, i = 1, . . . , n, c ∈ R1 ⇒ y = x + c, zi = kxi , i = 1, . . . , n, k ∈ R1 ⇒ z = kx. Je-li statistický soubor rozdělen do r dílčích souborů, v nichž známe aritmetické průměry x1 , . . . , xr a počty pozorování n1 , . . . , nr , potom aritmetický průměr celého souboru určíme pomocí tzv. váženého aritmetického průměru (vahami jsou rozsahy dílčích souborů) r 1 xi ni x= . n1 + · · · + nr Při ručním zpracování dat lze využít vlastnosti aritmetického průměru a počítat v případě utříděných dat pomocí tzv. metody prozatímního středu (metody vhodně zvoleného počátku): zvolíme vhodné konstanty a (nově zvolený počátek) a b (změníme „měřítko , nepočítáme s velkými čísly) a transformujeme čísla xj , j = 1, . . . , n, tj. pracujeme s novým statistickým souborem y1 , . . . , yn . Výpočet provedeme pro nové „příznivější hodnoty a potom určíme aritmetický průměr původních dat. yj =
xj − a x−a →y= → x = a + by. b b
Příklad 1. xj nj
x −74.5
yj = j 10 yj nj
34.5 2 −4 −8
44.5 3 −3 −9
54.5 11 −2 −22
64.5 20 −1 −20 6
74.5 32 0 0
84.5 25 1 25
94.5 7 n = 100 2 14 −20
1 (−20) = −0.2, x = 10y + 74.5 = 10(−0.2) + 74.5 = 72.5. 100 Aritmetický průměr má tu nevýhodu, že je ovlivněn extrémními hodnotami (jedna pětka „zkazí průměr známek studenta, který má jinak samé jedničky). y=
Harmonický průměr se často užívá při charakterizování úrovně znaku, jehož hodnoty lze vyjádřit jako poměr hodnot dvou jiných proměnných. Harmonický průměr má smysl pouze pro kladné hodnoty znaku. Užívá se např. v teorii indexů. n n xH = n 1 , xH = k nj . 1 xi
i aj
Geometrický průměr má smysl pouze tehdy, jsou-li hodnoty znaku kladné. Užívá se např. při výpočtu průměrného koeficientu růstu časové řady nebo v teorii indexů. √ xG = n x1 · · · xn , xG = n (a1 )n1 · · · (ak )nk Kvantily Nechť p ∈ (0, 1). p-kvantil x˜p , (p-tý kvantil) je ta hodnota znaku, pro kterou platí, že nejméně 100p % čísel ve statistickém souboru je ≤ x˜p a nejméně 100(1−p) procent čísel ve statistickém souboru je ≥ x˜p . Např. číslo x˜25 je určeno tak, že čísla ve statistickém souboru, která jsou menší nebo stejná jako x˜25 , tvoří 25 % a současně čísla, která jsou větší nebo stejná tvoří zbývající část statistického souboru, tj. 75 %. Číslo x˜0.5 se nazývá medián, x˜0.25 je dolní kvartil, x˜0.75 horní kvartil, x˜0.1 , x˜0.2 , . . . , x˜0.9 jsou tzv. decily, x˜0.01 , . . . , x˜0.99 jsou tzv. percentily nebo procentily. Dolní kvartil, medián a horní kvartil rozdělují uspořádanou řadu hodnot znaku na čtyři stejně početné části, decily ji rozdělují na 10 stejně početných částí atd. Jak určíme p-kvantil? Soubor, ve kterém jsme neprováděli třídění, je nutno nejprve uspořádat od nejmenších hodnot k největším. Pro uspořádaný soubor užíváme označení x(1) , . . . , x(n) , tedy x(1) ≤ x(2) ≤ · · · ≤ x(n) .
Platí x˜p =
x([np]+1) ,
np = [np],
x(np) +x(np+1) , 2
np = [np].
Symbol [·] značí funkci „celá část . Pracujeme-li s četnostní tabulkou, určíme nejprve tzv.kvantilový interval, tj. interval do kterého p-kvantil náleží. Je to interval, do kterého patří prvek s pořadovým číslem zp = np + p (zaokrouhlujeme nahoru). Kvantil určíme podle vzorce zp − Np hp + cp , x˜p = np 7
kde Np je kumulativní četnost intervalu, který předchází kvantilový interval, np je četnost kvantilového intervalu, hp je délka kvantilového intervalu, cp je dolní hranice kvantilového intervalu. Ukažme si užití tohoto postupu na příkladu Příklad 2. nj Nj
P (−∞, 700 (700, 740 (740, 780 (780, 820 (820, 860 (860, 900 (900, 940 (940, ∞) 8 25 32 26 15 6 3 1 116 8 33 65 91 106 112 115 116
Vypočteme medián x˜0.5 , tj. p = 0.5. zp = 116 · 0.5 + 0.5 = 58.5. Mediánový interval je proto interval, ve kterém leží prvek statistického souboru s pořadovým číslem 59, tj. interval (740, 780. Proto x˜0.5 =
58.5 − 33 40 + 740 = 771.875. 32
Medián se užívá tehdy, chceme-li odstranit vliv extrémních hodnot. V literatuře se můžeme setkat s názorným popisem polohy statistického souboru pomocí tzv. krabicového grafu (vousaté krabičky, [anglicky: box plot, box and whisker plot]). V obdélníku je vyznačen medián příslušného statistického souboru, dolní a horní kvartil. „Vousy ukazují hranice pro velmi nízké resp. velmi x0.75 − x˜0.25 ), končí vysoké hodnoty. Je-li h∗ = max{x1 , . . . , xn } > h = x˜0.25 + 1.5(˜ x0.75 −˜ x0.25 ), jeden z „vousů v bodě h; je-li d∗ = min{x1 , . . . , xn } < d = x˜0.75 −1.5(˜ končí druhý „vous v bodě d. V opačných případech končí „vousy v maximu h∗ pozorování resp. v minimu d∗ pozorování. V grafu se vyznačují hodnoty znaku, které leží mimo rozsah „vousů , jsou to tzv. odlehlá pozorování. y
d
x˜0.25 x˜0.50 Obr. 38
x˜0.75 h
x
Poznámka 2. Při užívání různých statistických softwarů je třeba zjistit, co krabicový graf znázorňuje. Někdy sahají „vousy k maximálnímu resp. minimálnímu pozorování nebo ke kvantilům x˜0.1 resp. x˜0.9 . Modus je ta hodnota (varianta) znaku, která má největší četnost, označíme ji xˆ; má smysl tehdy, je-li počet vzájemně různých variant znaku X ve statistickém souboru podstatně menší než rozsah n souboru. 8
V intervalovém rozdělení četností užijeme k určení modu vzorec xˆ = aj −
nj+1 − nj−1 h , 2 nj+1 − 2nj + nj−1
kde aj je střed intervalu, který má největší četnost nj , čísla nj−1 , nj+1 jsou četnosti sousedních tříd, h je šířka třídy. 13.1.2 Mı´ry (charakteristiky) variability Statistické soubory se mohou lišit variabilitou (koncentrací) hodnot kolem nějaké míry polohy. a) Míry absolutní variability — (variační) rozpětí R = x(n) − x(1) ; — kvartilové rozpětí RQ = x˜0.75 − x˜0.25 ; Polovina této hodnoty se nazývá kvartilová odchylka — průměrná odchylka 1 d= |xi − x˜0.5 |, n i=1
1 d= |ai − x˜0.5 |nj . n j=1
n
k
Někdy se v průměrné odchylce místo mediánu používá aritmetický průměr. — rozptyl n n 1 1 (xi − x)2 = x2 − (x)2 , s2x = n i=1 n i=1 i k k 1 1 s2x = (aj − x)2 nj = a2j nj − (x)2 . n j=1 n j=1 — směrodatná odchylka sx =
s2x .
Fyzikálně je směrodatná odchylka vyjádřena ve stejných jednotkách jako měřené hodnoty. Rozptyl i směrodatná odchylka jsou závislé na všech hodnotách statistického znaku. Vlastnosti rozptylu: yi = xi + c, i = 1, . . . , n, c ∈ R1 ⇒ s2y = s2x , yi = kxi , i = 1, . . . , n, k ∈ R1 ⇒ s2y = k 2 s2x . Je-li statistický soubor rozdělen do r dílčích souborů o rozsazích n1 , . . . , nr a známe-li aritmetické průměry x1 , . . . , xr a rozptyly s21 , . . . , s2r v těchto dílčích souborech, platí r r 1 1 2 (xi − x)2 ni + s ni , s2x = n i=1 n i=1 i 9
tj. rozptyl celého souboru je roven součtu rozptylu skupinových průměrů a průměru skupinových rozptylů. Při výpočtu rozptylu z četnostní tabulky můžeme také užít metodu vhodně zvoleného středu. Zvolíme vhodná čísla a, b = 0, určíme zastupitelné hodnoty a −a uj = j b , vypočteme s2y transformovaných hodnot yi =
xi − a , b
i = 1, . . . , n
a užijeme vztah s2y =
1 2 s . b2 x
b) Míry relativní variability Variabilitu dvou nebo více souborů nelze porovnávat, liší-li se výrazně úrovní znaku nebo jsou-li vyjádřeny v různých měrných jednotkách. Proto je nutné užít relativní míry variability. — variační koeficient sx Vx = , x (někdy se Vx násobí 100 a vyjadřuje variabilitu v procentech). — relativní kvartilová odchylka Qr =
x˜0.75 − x˜0.25 . x˜0.75 + x˜0.25
13.1.3 Mı´ry (charakteristiky) sˇikmosti Tyto míry udávají, zda jsou hodnoty kolem zvoleného středu rozloženy souměrně nebo zda je rozdělení hodnot sešikmeno, zda je asymetrické. Všechny dále uvedené míry šikmosti jsou v případě symetrického rozdělení rovny nule. Čím víc se tyto charakteristiky liší od nuly, tím je asymetrie rozdělení hodnot větší. — (momentový resp. výběrový) koeficient šikmosti α=
1 n
n
i=1 (xi s3x
− x)3
,
α=
1 n
k
j=1 (aj s3x
− x)3 nj
.
— kvantilový koeficient šikmosti αp =
x0.5 − x˜p ) (˜ x1−p − x˜0.5 ) − (˜ , x˜1−p − x˜p
0 < p < 0.5.
V symetrickém rozdělení spadá aritmetický průměr x, medián x˜ i modus x¯ do jednoho bodu. Čím více se rozdělení četností blíží symetrickému, tím méně se tyto charakteristiky odlišují. 10
Obr. 1 Schéma asymetrického rozdělení četností zešikmeného záporně V asymetrickém rozdělení zešikmeném záporně platí x¯ < x˜ < xˆ. Není-li asymetrické rozdělení příliš (extrémně) nesouměrné, je vzdálenost mediánu od aritmetického průměru většinou přibližně jednou třetinou vzdálenosti mezi modem a aritmetickým průměrem.
Obr. 2 Schéma asymetrického rozdělení četností zešikmeného kladně 13.1.4 Mı´ry (charakteristiky) sˇpicˇatosti — (momentový, výběrový) koeficient špičatosti n 1 (xi − x)4 − 3, β = n i=1 4 sx k 1 4 j=1 (ai − x) nj n − 3. β= s4x — kvantilový koeficient špičatosti x(n) − x(1) , 0 < p < 0.5. βp = x˜1−p − x˜p 11
Koeficient špičatosti „měří stupeň koncentrace hodnot kolem středu (stupeň koncentrace „prostředních hodnot) ve srovnání s četností ostatních hodnot. Je-li podíl četností prostředních hodnot srovnatelný s četnostmi ostatních hodnot, je rozdělení četností ploché, β < 0. Soubor s nízkou špičatostí často obsahuje hodnoty velmi vzdálené od středu. Čím je rozdělení špičatější, tím víc jsou hodnoty soustředěny kolem středu. Sheppardovy korekce. Při intervalovém rozdělení četností se při výpočtu (výběrových) centrálních momentů k 1 mr = (aj − x)r nj , n j=1 dopouštíme chyb (nahrazujeme všechna čísla z určitého intervalu jeho středem). V literatuře, např. J. Anděl: Statistické metody, Matfyzpress, 1993, je dokázáno, že vypočtené hodnoty lze opravit takto (h je délka intervalu) m∗2 = m2 −
1 2 h, 12
1 7 4 m∗4 = m4 − m2 h2 + h. 2 240
m∗3 = m3 ,
Tamtéž je uveden obecný vzorec pro opravu mr .
13.2 Dvourozmeˇrny´ statisticky´ soubor Jestliže vyšetřujeme na každé statistické jednotce dva znaky X,Y , máme podobně jako v případě jednorozměrného statistického souboru dvě možnosti: (1) pracovat se všemi daty, (2) data uspořádat do četnostní tabulky. V případu (1) tvoří statistický soubor n uspořádaných dvojic (x1 , y1 ), . . . , (xn , yn ). Základní charakteristiky jsou aritmetické průměry a rozptyly 1 x= xi , n i=1 n
kovariance sxy
1 y= yi , n i=1 n
s2x
1 = (xi − x)2 , n i=1 n
1 = (yi − y)2 , n i=1 n
n n 1 1 = (xi − x)(yi − y) = xi yi − x · y, n i=1 n i=1
korelační koeficient rxy
s2y
sxy n xi yi − ( xi )( yi ) = = 2 , je-li sx · sy = 0. sx · sy [n xi − ( xi )2 ][n yi2 − ( yi)2 ] 12