7 STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM 7.1 Základní pojmy Množinu všech předmětů pozorování (osob, věcí, jevů apod.) shromážděných na základě toho, že mají společné vlastnosti, nazýváme statistickým souborem. Jednotlivé prvky této množiny se nazývají prvky (elementy) statistického souboru nebo též statistické jednotky. Počet všech prvků statistického souboru se nazývá rozsah souboru N. Vlastnosti statistických souborů, které jsou předmětem statistického zkoumání, sleduje statistika prostřednictvím vlastností statistických jednotek daného souboru, které postihuje statistickými znaky. Statistický znak je vyjádřením určité vlastnosti statistických jednotek (prvků) sledovaného statistického souboru; slouží k charakterizování sledovaného hromadného jevu - vlastnosti daného statistického souboru. Znak (argument) souboru se zpravidla značí X. Jednotlivé hodnoty znaku se značí x1, x2, …, xN, kde N je rozsah souboru (například při určování výšky studentů dané studijní skupiny je statistickým znakem výška studentů, hodnotou znaku je číselně vyjádřená příslušná výška studenta, např. 182 cm). Hodnoty znaku mohou být vyjádřeny buď čísly, nebo jiným způsobem (zpravidla slovním popisem). V prvním případě mluvíme o znacích kvantitativních, např. tělesná výška, tělesná hmotnost, počet obyvatel měst, atp. V druhém případě mluvíme o znacích kvalitativních, které se mohou vyskytovat ve dvou druzích (znaky alternativní, např. muž-žena, vojáknevoják, prospěl-neprospěl) nebo ve více druzích (např. povolání, národnost, náboženství, atp.). V tomto textu se dále budeme zabývat pouze znaky kvantitativními. Další pojmy Když xm min ( xi ) a xM max ( xi ) , pak interval xm , xM i 1..N
i 1..N
je variační obor argumentu X.
Hodnota R = xM - xm je variační rozpětí argumentu X. Jestliže se hodnota xi vyskytuje v souboru fi-krát, nazývá se fi absolutní četnost hodnoty xi. Jestliže argument X nabývá v souboru n různých hodnot x1, x2, …, xn, pak tyto hodnoty seřazené podle velikosti spolu s jejich absolutními četnostmi fi tvoří variační řadu (statistickou řadu). f Hodnota i i je relativní četnost hodnoty xi, N i
hodnota Fi f k je kumulativní četnost do xi, k 1
hodnota i
Fi je relativní kumulativní četnost do xi. N
Příklad 7.1.1: Určete relativní, kumulativní a relativní kumulativní četnosti variační řady: xi 0 1 2 3 4 fi 7 44 56 30 12 Řešení: Všechny četnosti vypočteme z výše uvedených vzorců:
1
n
n 5, N f i 149 i 1
xi fi i Fi i
Σ 149 1
0 1 2 3 4 7 44 56 30 12 0,047 0,295 0,376 0,201 0,081 7
51
107
137
0,047 0,342 0,718 0,919
149 1
7.2 Charakteristiky statistického souboru s jedním argumentem Charakteristiky statistických souborů se definují analogicky jako charakteristiky náhodné proměnné X, kterou je u statistických souborů uvažovaný argument. Úlohu pravděpodobnosti zde hrají relativní četnosti φi (ve shodě se statistickou definicí pravděpodobnosti) a funkce φ(x) a Φ(x) lze považovat za empirické pravděpodobnostní funkce variační řady s analogickými vlastnostmi, jaké mají pravděpodobnostní a distribuční funkce náhodné veličiny X - p(x) a F(x). Mezi nejdůležitější číselné charakteristiky statistického souboru patří následující charakteristiky polohy a variability, z nichž většina je odvozena z momentových charakteristik. Charakteristiky polohy Empirická střední hodnota: 1 n x f i xi , N i 1 je aritmetický průměr hodnot znaku X. Modus statistického souboru Mo(x) je ta hodnota argumentu X, která se v souboru vyskytuje nejčastěji (má největší absolutní četnost fi). Pokud je v souboru takových hodnot více, modus se zpravidla neurčuje. Medián statistického souboru Me(x) je ta hodnota argumentu X, která rozděluje soubor uspořádaný podle velikosti na dvě části o stejném počtu prvků. Určíme jej následovně: - hodnoty argumentu X uspořádáme podle velikosti, - medián určíme jako prostřední prvek takto uspořádaného statistického souboru, pokud má tento soubor lichý počet prvků (tedy pokud rozsah souboru N je liché číslo, tzn. N:2 není celé číslo), v opačném případě jej určíme jako aritmetický průměr dvou prostředních prvků, tzn. prvků s pořadím N.0,5 a N.0,5+1. Empirický p-kvantil je taková hodnota xp, která rozděluje soubor uspořádaný podle velikosti na dvě části s rozsahy v poměru p:(1-p) (tzn. 100p procent prvků souboru má hodnotu argumentu X menší nebo rovnu xp). Hodnotu empirického p-kvantilu určíme obdobně jako hodnotu mediánu, neboť Me(x) = x0,5. Empirický p-kvantil tedy určíme jako prvek uspořádaného souboru s pořadovým číslem zp = N.p+0,5, pokud zp je celé číslo, jinak jej vypočteme jako aritmetický průměr dvou sousedních prvků. 2
Nejčastěji používanými kvantily jsou kvartily (x0,25, x0,5, x0,75), decily (x0,1, x0,2, …, x0,9) a percentily (x0,01, x0,02, …, x0,99). Charakteristiky variability Empirický rozptyl: 1 n 2 s x2 D( X ) f i xi x . N i1 Nevýhodou použití empirického rozptylu jakožto míry variability je to, že jednotka této charakteristiky je druhou mocninou jednotky proměnné X. Např. je-li proměnnou denní tržba uvedená v Kč, bude rozptyl této proměnné vyjádřen v Kč2. Následující míra variability tuto vlastnost nemá. Empirická směrodatná (standardní) odchylka:
s x s x2 . Směrodatná odchylka měří rozptýlenost dat kolem jejich průměru, přičemž s x 0 pouze v případech, kdy se všechna data rovnají stejné hodnotě, jinak je s x 0 . Směrodatná odchylka i střední hodnota jsou silně ovlivněny extrémními (odlehlými) hodnotami, i jedna odlehlá hodnota je může výrazně změnit. Je-li rozložení dat silně zešikmené (zjistíme pomocí koeficientu šikmosti - viz. dále), směrodatná odchylka neposkytuje dobrou informaci o rozptýlenosti dat - v těchto případech používáme kvantilové charakteristiky. Nevýhodou empirického rozptylu i směrodatné odchylky je skutečnost, že neumožňují porovnávat variabilitu proměnných vyjádřených v různých jednotkách. Která proměnná má větší variabilitu – výška nebo hmotnost dospělého člověka? Na tuto otázku nám dá odpověď tzv. variační koeficient. Variační koeficient: s v x . x Variační koeficient je bezrozměrný. Uvádíme jej často v procentech (hodnotu získanou z definičního vzorce vynásobíme 100%). Větší rozptýlenost vykazují veličiny s větším variačním koeficientem. Momentové charakteristiky Momentové charakteristiky definujeme takto: Počáteční empirický moment k-tého řádu: 1 n mk f i xik . N i1 Z počátečních empirických momentů má největší význam moment prvního řádu (stupně), který představuje empirickou střední hodnotu ( m1 x ). Centrální empirický moment k-tého řádu: 1 n k nk f i xi x . N i1
3
Centrální empirický moment prvního řádu je roven nule a nemá žádné praktické uplatnění. Nejdůležitějším centrálním empirickým momentem je moment druhého řádu - empirický rozptyl ( n2 s x2 ). Pro výpočty centrálních momentů se často používají vzorce analogické těm, které jsme již uvedli v Kapitole 3.4: n2 m2 m12 , n3 m3 3m2 m1 2m13 ,
n4 m4 4m3m1 6m2 m12 3m14 , … Normovaný empirický moment k-tého řádu: n n~k kk . sx Normované empirické momenty 1. a 2. řádu se nepoužívají, neboť n~1 0 a n~2 1 . Normované empirické momenty 3. a 4. řádu slouží jako ukazatele šikmosti a špičatosti: Empirický koeficient asymetrie (šikmosti): n A n~3 33 . sx Tato charakteristika udává, jsou-li hodnoty argumentu X rozloženy kolem střední hodnoty souměrně nebo je-li jejich rozdělení zešikmeno na jednu stranu. Empirický koeficient excesu (špičatosti): n e n~4 3 44 3 . sx Charakteristika špičatosti udává, jaký průběh má rozdělení hodnot kolem střední hodnoty. Čím je rozdělení špičatější, tím víc jsou hodnoty soustředěny kolem středu. Rozdělení s nízkou špičatostí pak často obsahuje hodnoty velmi vzdálené od středu rozdělení. Příklad 7.2.1: Určete empirickou střední hodnotu, rozptyl, směrodatnou odchylku, koeficienty asymetrie a excesu, modus a kvartily statistického souboru zadaného variační řadou: xi 0 1 2 3 4 fi 7 44 51 30 12 Řešení: Všechny charakteristiky vypočteme z výše uvedených vzorců: 1 5 1 7.0 44.1 51.2 30.3 12.4 1,972 m1 f i xi N i1 144 x m1 1,972 … empirická střední hodnota
1 5 1 f i xi2 7.0 2 44.12 51.2 2 30.32 12.42 4,931 N i1 144 s x2 m2 m12 1,041 … empirický rozptyl
m2
s x s x2 1,020 … empirická směrodatná odchylka
4
1 5 1 f i xi3 7.03 44.13 51.23 30.33 12.43 14,097 N i1 144 n3 m3 3m2 m1 2m13 0,267
m3
n 0,267 A n~3 33 0,252 … empirický koeficient asymetrie s x 1,0203
1 5 1 f i xi4 7.0 4 44.14 51.2 4 30.34 12.44 44,181 N i1 144 n4 m4 4m3m1 6m2 m12 3m14 2,650
m4
n 2,650 e n~4 3 44 3 3 0,554 … empirický koeficient excesu sx 1,020 4 Mo 2 … modus (hodnota s největší absolutní četností) Při výpočtu kvartilů určíme nejprve jejich pořadí podle vzorce: zp = N.p + 0,5: z0,25 = 144.0,25 + 0,5 = 36,5; z0,5 = 144.0,5 + 0,5 = 72,5; z0,75 = 144.0,75 + 0,5 = 108,5. Z vypočtených pořadí vidíme, že 1. kvartil se vypočte jako aritmetický průměr hodnot 36. a 37. prvku statistického souboru uspořádaného podle velikosti. Z tabulky je patrné, že obě hodnoty jsou rovny 1, tzn. x0,25 = 1 ... dolní kvartil, obdobně x0,5 = 2 … medián, x0,75 = 3 ... horní kvartil. Příklad 7.2.2: Při zjišťování IQ u skupiny čtyřiceti studentů byly naměřeny tyto hodnoty: 68, 71, 71, 78, 82, 82, 87, 91, 92, 92, 92, 97, 102, 102, 102, 103, 105, 105, 109, 110, 111, 111, 111, 112, 112, 114, 114, 114, 114, 116, 118, 119, 121, 122, 122, 124, 126, 131, 133, 137. Určete pro tento statistický soubor empirickou střední hodnotu, rozptyl, směrodatnou odchylku, koeficienty asymetrie a excesu, modus a kvartily. Řešení: Všechny charakteristiky bychom mohli vypočíst stejným způsobem jako v příkladu 7.2.1, museli bychom však z hodnot argumentu X – výše IQ, sestavit variační řadu. Tato procedura je však zbytečná, uvědomíme-li si, že výše uvedené vzorce je možno použít i tak, že v nich nemusíme uvažovat n různých hodnot x1, x2, …, xn s jejich absolutními četnostmi fi, ale můžeme pracovat přímo s hodnotami x1, x2, …, xN, které nemusí být nutně různé, ale každému prvku xi , i = 1, …, N, je třeba přiřadit četnost fi = 1. Výpočty pak budou vypadat následovně: 1 40 1 68 71 71 ... 137 105,575 m1 xi N i1 40 x m1 105,575 … empirická střední hodnota
1 40 2 1 xi 682 712 712 ... 137 2 11439,925 N i1 40 2 2 s x m2 m1 293,844 … empirický rozptyl
m2
s x s x2 17,142 … empirická směrodatná odchylka
5
1 40 3 1 xi 683 713 713 ... 1373 1267408,32 5 N i1 40 n3 m3 3m2 m1 2m13 -2406,997
m3
n - 2406,997 A n~3 33 - 0,478 … empirický koeficient asymetrie sx 17,142 3
1 40 4 1 xi 684 714 714 ... 137 4 143091530, 425 N i1 40 n4 m4 4m3m1 6m2 m12 3m14 221613,244
m4
n 221613,244 e n~4 3 44 3 3 - 0,433 … empirický koeficient excesu sx 17,142 4 Mo 114 … modus (hodnota s největší absolutní četností) Při výpočtu kvartilů určíme nejprve jejich pořadí podle vzorce: zp = N.p + 0,5: z0,25 = 40.0,25 + 0,5 = 10,5; z0,5 = 40.0,5 + 0,5 = 20,5; z0,75 = 40.0,75 + 0,5 = 30,5. Z vypočtených pořadí vidíme, že 1. kvartil se vypočte jako aritmetický průměr hodnot 10. a 11. prvku statistického souboru uspořádaného podle velikosti, obě tyto hodnoty jsou rovny číslu 92, tzn. x0,25 = 92 ... dolní kvartil, obdobně x0,5 = 110,5 … medián, x0,75 = 117 ... horní kvartil. U souboru, který není zadán variační řadou, ale výčtem prvků, si lze některé výpočty zjednodušit užitím excelovských funkcí. Jedná se o funkce: PRŮMĚR, VAR, SMODCH, MODE a QUARTIL. Máme-li například hodnoty našeho statistického souboru umístěny v buňkách A1:A40, budou výpočty pomocí těchto funkcí vypadat následovně:
x = PRŮMĚR(A1:A40) 105,575; s x2 = VAR(A1:A40) 293,844; s x = SMODCH(A1:A40) 17,142; Mo = MODE(A1:A40) = 114; x0,25 = QUARTIL(A1:A40;1) = 92; x0,5 = QUARTIL(A1:A40;2) = 110,5; x0,75 = QUARTIL(A1:A40;3) = 116,5.
Při výpočtu kvartilů používá Excel jiný postup, než jsme si ukázali my, proto se v některých případech mohou výsledky získané užitím funkce QUARTIL od našich výsledků lišit, jak je tomu např. u x0,75. V praxi se přitom používají postupy oba, nebudeme proto žádný z nich upřednostňovat ani naopak zavrhovat a volbu metody výpočtu kvartilů ponecháme na čtenáři.
7.3 Zpracování rozsáhlého statistického souboru Obsahuje-li statistický soubor velký počet různých hodnot argumentu X, sdružujeme hodnoty argumentu do intervalů zvaných třídy. Obvykle volíme konstantní šířku třídy.
6
Hranice tříd je nutno volit tak, aby každý prvek statistického souboru bylo možné zařadit právě do jedné třídy. Počet tříd volíme podle účelu zkoumání, obvykle 5-20 tříd. Přesné pravidlo pro výpočet počtu tříd neexistuje. Uvedeme alespoň některá doporučení:
pro šířku třídy h by mělo přibližně platit: h 0,08.( xmax xmin ) , počet tříd n by měl splňovat jednu z vlastností: n 1 3,3. log N , n 5. log N , n N , pro 30 N 100 volíme 7-10 tříd, pro 100 N 500 volíme nejvýše 15 tříd, pro N 500 volíme nejvýše 20 tříd.
Při zpracování statistického souboru nahradíme všechny hodnoty v dané třídě jedinou hodnotou, tzv. třídním znakem, kterým je aritmetický průměr obou mezí třídy. Třídní znak zastupuje všechny hodnoty, které do této třídy patří. Počet hodnot ve třídě je třídní četnost. Po rozdělení souboru do tříd už nepočítáme s jednotlivými hodnotami, ale s třídami, třídními znaky a třídními četnostmi. Rozdělením variačního oboru na třídy a shrnutím všech hodnot argumentu v každé třídě do třídního znaku se dopouštíme při výpočtu centrálních momentů systematických chyb. Anglický statistik W. F. Shepard odvodil v r. 1897 korekce, jimiž lze tyto chyby korigovat. Značí-li h šířku třídy, jsou opravené momenty dány vzorci, známými jako Shepardovy korekce:
nˆ1 n1 , nˆ3 n3 (momenty lichých řádů se neopravují) nˆ 2 n2
h2 h2 7 4 ˆ , n4 n4 n2 h . 12 2 240
Modus statistického souboru, který je rozdělen do tříd, vypočteme interpolací podle vzorce: f j 1 f j 1 h Mo x j , 2 f j 1 f j 1 2 f j x j … střed j-té třídy s největší absolutní četností fj , h … šířka třídy.
Kvantily se v tomto případě určí opět interpolací: h h x p x j ( N . p F j 1 ) , 2 fj
j … pořadí třídy, do níž je zařazen (N.p)-tý prvek uspořádaného souboru, x j … střed j-té třídy, F j 1 … kumulativní absolutní četnost (j – 1)-vé třídy, f j … absolutní četnost j-té třídy.
7
Příklad 7.3.1: U dvaceti náhodně vybraných studentů byl měřen výkon v běhu na 100 metrů. Byly získány tyto údaje (v sekundách): 12,3; 12,7; 12,9; 13,1; 13,4; 13,5; 13,6; 13,9; 14,1; 14,3; 14,4; 14,5; 15,2; 15,7; 15,8; 15,9; 16,4; 16,5; 17,2; 17,4. Proveďte třídní rozdělení četností tak, aby šířka třídy h byla rovna 1 a dolní mez první třídy 12, a vypočtěte střední hodnotu a rozptyl tohoto třídně rozděleného souboru. Řešení: Třídně rozdělený soubor: třída: střed třídy (xi): třídní četnost (fi): 12 - 13 12,5 3 13 - 14 13,5 5 14 - 15 14,5 4 15 - 16 15,5 4 16 - 17 16,5 2 17 - 18 17,5 2 n 1 1 3.12,5 5.13,5 4.14,5 4.15,5 2.16,5 2.17,5 14,65 m1 f i xi N i1 20 x m1 14,65 … střední hodnota třídně rozděleného souboru
1 n 1 f i xi2 3.12,52 5.13,52 4.14,52 4.15,52 2.16,52 2.17,52 216,950 N i1 20 2 n2 m2 m1 2,327 m2
nˆ2 n2
h2 2,244 … rozptyl třídně rozděleného souboru 12
Příklad 7.3.2: Určete momentové charakteristiky do 4. řádu, modus a kvartily následujícího třídně rozděleného souboru: xi 390 410 430 450 470 490 510 530 550 570 fi 7 10 14 22 25 12 3 3 2 2 Řešení: Počáteční momenty se vypočítají podle vzorce mk
1 N
n
fx i 1
k i i
:
1 10 1 7.390 10.410 ... 2.570 457,4 f i xi 100 i1 100 x m1 457,4 … střední hodnota třídně rozděleného souboru 1 10 1 m2 f i xi2 7.3902 10.4102 ... 2.570 2 210 708 100 i1 100 10 1 1 m3 f i xi3 7.3903 10.4103 ... 2.5703 97 773 740 100 i1 100 10 1 1 m4 f i xi4 7.3904 10.4104 ... 2.570 4 45 707 859 600 100 i1 100
m1
8
Centrální momenty se vypočítají podle vzorce nk
1 N
n
f x i 1
i
i
x , u momentů sudých řádů k
se provedou Shepardovy korekce: 1 10 n1 fi ( xi x ) 0 100 i1 1 10 1 n2 f i ( xi x ) 2 7.(390 457,4) 2 10.(410 457,4) 2 ... 2.(570 457,4) 2 1 493,24 100 i1 100
h2 20 2 n2 1 459,9 12 12 s x2 nˆ2 1 459,9 … rozptyl třídně rozděleného souboru
nˆ2 n2
s x s x2 38,2 … směrodatná odchylka třídně rozděleného souboru
1 10 1 f i ( xi x )3 7.(390 457,4)3 ... 2.(570 457,4)3 29 884,848 100 i1 100 1 10 1 n4 f i ( xi x ) 4 7.(390 457,4) 4 ... 2.(570 457,4) 4 7 919 390,9 100 i1 100
n3
nˆ4 n4 n2
h2 7 4 h 7 625 410 2 240
n Centrální momenty se vypočítají podle vzorce n~k kk : sx n n~1 11 0 sx nˆ n~2 22 1 sx n n~3 33 0,536 sx ~ A n 0,536 … koeficient asymetrie třídně rozděleného souboru 3
nˆ n~4 44 3,577 sx ~ e n4 3 0,577 … koeficient excesu třídně rozděleného souboru f j 1 f j 1 h Modus třídně rozděleného souboru vypočteme podle vzorce Mo x j , 2 f j 1 f j 1 2 f j
kde x j je střed j-té třídy s největší absolutní četností fj , tedy x j 470, a j 5
Mo 470
20 12 22 463,75 2 12 22 2.25
h h Pro kvartily použijeme vzorec x p x j ( N . p F j 1 ) , 2 fj kde j je pořadí třídy, do níž je zařazen (N.p)-tý prvek uspořádaného souboru: 20 20 x0, 25 430 (25 17) 431,4 2 14
9
20 20 (50 31) 457,3 2 22 20 20 x0,75 470 (75 53) 477,6 2 25
x0,5 450
10
Příklady k procvičení: 1. Určete medián, střední hodnotu a směrodatnou odchylku měsíční spotřeby elektrické energie (v kWh) v bytech z následujících údajů: 169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137. 2. Zkoušky životnosti žárovek daly následující výsledky (v hodinách): 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459. Určete střední dobu a disperzi životnosti žárovek. 3. Sledovaný statistický znak nabyl těchto hodnot: 60, 80, 80, 100, 100, 100, 100, 120, 120, 150, 150, 160, 180, 200, 200, 200, 200, 200, 220, 250, 250, 250, 280, 300, 300, 300, 300, 350, 350, 360, 380, 400, 400, 400, 400, 420, 450, 500, 500, 550. Proveďte třídní rozdělení četností tak, aby šířka třídy h byla rovna 100 a dolní mez první třídy 55, a vypočtěte střední hodnotu, rozptyl a medián tohoto třídně rozděleného souboru.
11