Lekce 3
Momenty a momentové charakteristiky Pokud jsme se v předešlém výkladu zmiňovali o některé statistické charakteristice, zpravidla jsme rovněž uváděli, zda ji řadíme mezi více nebo méně důležité. A byly to právě aritmetický průměr (charakteristika úrovně) a rozptyl (charakteristika variability), které jsme označili jako mimořádně významné. Důvodem je to, že obě tyto charakteristiky jsou součástí soustavy momentových charakteristik. Momenty a momentové charakteristiky je vhodné zmínit před tím, než přikročíme k měření dalších dvou statistických vlastností — šikmosti a špičatosti. Šikmost a špičatost nejobvykleji charakterizujeme pomocí momentových koeficientů, které jsou odvozeny od speciální skupiny tzv. normovaných momentů.
asymetrie; centrální moment; druhý centrální moment; exces; koeficient šikmosti; koeficient špičatosti; normování; normovaný moment; normovaný znak; obecný moment; první obecný moment; stupeň momentu; symetrie; šikmost; špičatost
3.1 Obecné, centrální a normované momenty Zavedení pojmu momenty do statistiky umožňuje definovat určitou soustavu charakteristik, které společně označujeme jako momentové charakteristiky. Do tohoto systému patří, z těch charakteristik, které jsme dosud probrali, právě ty nejdůležitější — především aritmetický průměr (jako momentová míra úrovně) a rozptyl (jako momentová míra variability). Obecným momentem (momentem okolo počátku) statistického znaku X, definovaným v prosté a ve vážené formě, nazveme charakteristiku
m′s ( X ) =
1 n s ∑ xi n i =1
m′s ( X ) =
1 k s ∑ x i ni , n i =1
kde index i v prvním případě označuje i-tou hodnotu znaku a ve druhém případě i-tý interval při intervalovém třídění. Přirozené číslo s (na rozdíl od mocninových průměrů, kde šlo o číslo reálné) se nazývá stupeň momentu. Centrálním momentem (momentem okolo konstanty, kterou je zpravidla první obecný moment), v prosté a ve vážené formě, nazveme charakteristiku
ms ( X ) =
1 n s ∑ [xi − m1′ ( X )] n i =1
ms ( X ) =
1 k s ∑ [xi − m1′ ( X )] ni n i =1
Mezi obecnými a centrálními momenty existují vztahy, které lze pro každý stupeň momentu s vyvodit úpravou vzorce pro centrálním moment (umocněním dvojčlenu na s-tou). Pro první dva centrální momenty touto úpravou získáme:
m1 ( X ) = m1′ ( X ) − m1′ ( X ) = 0 m2 ( X ) = m2′ ( X ) − [m1′ ( X )]2 a podobné (ovšem poněkud složitěji vyhlížející) vztahy lze vyvodit i pro momenty kdy s > 2. Položíme-li ve vzorcích obecného momentu v prosté nebo vážené formě s = 1, obdržíme vzorce prostého, resp. váženého aritmetického průměru. Aritmetický průměr je tedy prvním obecným momentem. Pro přirozené s větší než jedna je obecný moment stupně s současně s-tou mocninou mocninového průměru stupně s.
21
Položíme-li ve vzorcích centrálního momentu v prosté nebo vážené formě s = 2, obdržíme (s přihlédnutím k tomu, že aritmetický průměr je prvním obecným momentem) vzorce prosté, resp. vážené formy rozptylu. Rozptyl je tedy druhým centrálním momentem. Směrodatná odchylka je v momentové terminologii druhou odmocninou z druhého centrálního momentu a variační koeficient je druhou odmocninou z druhého centrálního momentu dělenou prvním obecným momentem. Ze vztahů mezi centrálními a obecnými momenty plynou alternativní vzorce pro rozptyl v prosté a vážené formě:
s x2 =
1 n 2 xi − x 2 ∑ n i =1
s x2 =
1 k 2 x i ni − x 2 , ∑ n i =1
slovně vyjádřeno: aritmetický průměr čtverců hodnot znaku zmenšený o čtverec jejich aritmetického průměru.
Jaký vztah je mezi kvadratickým průměrem a momenty?
Z definice momentů vyplývá, že např. harmonický či geometrický průměr, medián, modus, variační rozpětí, průměrné absolutní odchylky či diference apod. nejsou momentovými charakterristikami. Momentovou charakteristikou je ovšem kovariance, která patří mezi tzv. smíšené centrální momenty (momenty více než jednoho znaku).
Vyhledejte vzorec kovariance a upravte ho tak, aby v něm figurovaly jen obecné momenty!
Normování a normované momenty Normováním znaku nazveme takovou operaci se znakem X, která spočívá v jeho zmenšení o první obecný moment a dělení druhou odmocninou druhého centrálního momentu. Normovaný znak označíme U a definujeme jej vztahem
U=
X − m1′ ( X ) X − x . = sx m2 ( X )
Pro normovaný znak platí m1′ (U ) = u = 0, m2 (U ) = su2 = su = 1 . Variační koeficient normovaného znaku (vzhledem k dělení nulou) není definován. Je zřejmé, že u normovaných znaků nemá smysl rozlišovat obecné a centrální momenty. Momenty normovaného znaku se nazývají normované momenty.
Vypočtěte normované hodnoty variant (počet dětí v domácnosti) a středů intervalů (počet obyvatel obce). Použijte výsledky příkladů 1.2 a 2.2.
Mezi centrálními a normovanými momenty platí vztah
m s (U ) =
ms ( X ) m2s ( X )
.
Normované momenty jsou bezrozměrné a jsou invariantní vůči aditivní i multiplikativní konstantě. Normováním znaku odpadá problematika měření úrovně a variability (aritmetický průměr normovaného znaku je vždy roven nule, rozptyl a směrodatná odchylka jsou rovny jedné), normované znaky
22
se mohou vzájemně lišit pouze v dalších vlastnostech, které kromě úrovně a variability lze ve statistických datech identifikovat — v asymetrii (šikmosti) a ve špičatosti (excesu).
3.2
Měření asymetrie
Asymetrie (šikmost, kosost) souvisí se symetrií uspořádání dat kolem aritmetického průměru (těžiště) číselné řady. Existují jak souměrná (symetrická) rozdělení četností, tak i rozdělení nesouměrná (asymetrická). Hovoříme o pravostranné (vrchol vychýlený směrem k vyšším hodnotám) či levostranné (vrchol vychýlený směrem k nižším hodnotám) asymetrii, šikmosti či kososti. O extrémní asymetrii pak hovoříme v případě, že četnosti monotónně klesají nebo rostou a největší četnost tedy vykazuje první nebo poslední interval. Objektivní mírou asymetrie je momentový koeficient šikmosti, který je definován jako třetí normovaný moment a uvedeme jej pouze ve vážené formě (pro tříděná data) jako
k3 =
1 k 3 ∑ u i ni , n i =1
x −x kde u i = i . sx
Momentový koeficient šikmosti nabývá pro dokonale souměrná data hodnoty nula. Souměrnost ovšem chápeme ve statistickém, nikoli geometrickém slova smyslu! Jeho kladná hodnota signalizuje levostrannou (odtud kladnou) asymetrii, zatímco jeho záporná hodnota svědčí o pravostranné (a tedy záporné) asymetrii. Při interpretaci koeficientu šikmosti je třeba zohlednit značnou citlivost této charakteristiky vůči odlehlým hodnotám. Z tohoto důvodu může být jeho vypovídací schopnost někdy značně snížena. Obr. 3.1 Symetrické a levostranně asymetrické rozdělení četností
Modus Průměr Medián
Průměr Medián Modus
Menší citlivost vůči extrémním hodnotám vykazuje tzv. Pearsonův koeficient šikmosti, který není
x − xˆ . Znaménko tohoto koeficientu odpovídá sx momentovému koeficientu šikmosti, neboť pro levostranně nesouměrné rozdělení je xˆ < x (viz obr. momentovou charakteristikou a je definován jako
3.1 vpravo), zatímco u pravostranně nesouměrného rozdělení je pořadí aritmetického průměru a modu opačné. Pro symetrické rozdělení se obě uvedené charakteristiky úrovně rovnají. Poloha mediánu je v prvních dvou případech mezi aritmetickým průměrem a modem, pouze v případě symetrie se všechny tři uvedené charakteristiky úrovně rovnají (obr. 3.1 vlevo).
Jaká asymetrie odpovídá pořadí charakteristik x < x 0,50 < xˆ ?
23
3.3
Měření špičatosti
U symetrických rozdělení četností hovoříme o špičatosti (excesu) v souvislosti s mírou, hustotou nakupení (pojem koncentrace jsme již v prvním modulu vyhradili pro jinou vlastnost) hodnot souboru kolem těžiště. Objektivní mírou špičatosti je momentový koeficient špičatosti, který je roven čtvrtému normovanému momentu zmenšenému o tři. Tuto charakteristiku uvádíme opět pouze ve vážené formě (pro tříděná data) jako
k4 =
1 k 4 ∑ u i n i −3 . n i =1
Je-li jeho hodnota rovna nule, hovoří se o normální špičatosti (ve skutečnosti jde o špičatost známé matematické čáry — Gaussovy křivky), jinak se hovoří o podnormální ( k 4 < 0) nebo naopak
nadnormální (k 4 > 0) špičatosti. Tato charakteristika je mimořádně citlivá vůči odlehlým hodnotám souboru i vůči asymetrii dat a při její interpretaci se doporučuje tudíž postupovat velmi opatrně. Je třeba si rovněž uvědomit, že špičatost nesouvisí s variabilitou — jde o dvě zcela vzájemně nezávislé vlastnosti.
Obr. 3.2 Rozdělení četností s normální a nadnormální špičatostí
Čáry na obou obrázcích jsou Gaussovy křivky proložené příslušnými daty. Zatímco rozdělení četností na obrázku vlevo má přibližně normální špičatost, rozdělení četností vpravo se vyznačuje podstatně výraznějším nakupením hodnot v okolí těžiště, než by odpovídalo pro tento případ zkonstruované Gaussově křivce.
Příklad 3.1 Koeficienty šikmosti a špičatosti pro měsíční výdaje domácností na vzdělání Tab. 3.1 Pracovní tabulka pro výpočet koeficientu šikmosti a špičatosti P.č.
xi
1. 2. 3. 4. 5. 6. Součet
2000 4000 6000 8000 10000 12000
x=
ni
x i ni
11 25 48 44 19 5 152
22000 100000 288000 352000 190000 60000 1012000
xi2 ni 44000000 400000000 1728000000 2816000000 1900000000 720000000 7608000000
x − 6657,9 ui = i 2392,7
u i3 ni
-1,9467 -81,1502 -1,1108 -34,2648 -0,2750 -0,9982 0,5609 7,7644 1,3968 51,7793 2,2327 55,6495 -1,2200
u i4 ni 157,9752 38,0613 0,2745 4,3551 72,3253 124,2486 397,2400
1 k 1012000 x i ni = = 6657,8947 (v zájmu přesnosti dalších výpočtů nezaokrouhlujeme). ∑ n i =1 152
24
s x2 =
1 k 2 7608000000 − 6657,8947 2 = 5725069,74 ∑ x i ni − x 2 = n i =1 152
Obr. 3.3 Rozdělení četností domácností podle výdajů za vzdělání ni
50
40
30
20
Směrodatná odchylka
10
Modus Průměr
25% 0 1000
3000
5000
Medián 7000
75% 9000
11000
13000
Z obrázku vyplývá, že statistická souměrnost představuje širší pojem než symetrie v geometrickém slova smyslu. Přestože histogram rozdělení četností není symetrický v geometrickém slova smyslu (jako např. histogram na obr. 3.1 vlevo, který je souměrný jak v geometrickém, tak i statistickém smyslu), jsou hodnoty souboru kolem těžiště rozmístěny takovým způsobem, že ve statistickém smyslu můžeme hovořit o téměř dokonalé souměrnosti.
k3 =
1 k 3 − 1,22 = −0,01 (momentový koeficient šikmosti svědčí o téměř dokonalé symetrii), ∑ u i ni = n i =1 152
k4 =
1 k 4 397,24 − 3 = −0,39 (momentový koeficient špičatosti svědčí o nižší než nor∑ ui ni − 3 = n i =1 152
mální špičatosti, kterou potvrzuje také srovnání s Gaussovou křivkou na obr. 3.3). S použitím modální hodnoty xˆ = 5000 + míru šikmosti
23 2000 = 6704 můžeme určit také Pearsonovu 23 + 4
x − xˆ 6657,9 − 6704 = = −0,02 . Rovněž tato charakteristika potvrzuje téměř dokonasx 2392,7
lou statistickou souměrnost rozdělení četností domácností podle výdajů za vzdělání. Kromě momentové míry špičatosti existují i některé další ukazatele, které vesměs nepatří mezi momentové charakteristiky a vykazují menší citlivost vůči extrémním hodnotám, která je typickou vlastností právě momentových charakteristik (aritmetickým průměrem počínaje). Charakteristiky necitlivé vůči extrémním hodnotám označujeme společně jako charakteristiky robustní. Mezi robustní charakteristiky náleží zejména charakteristiky šikmosti a špičatosti založené na kvantilech.
25
Σ
1. Určitý systém do souhrnných statistických charakteristik vnášejí momenty. 2. Rozlišujeme obecné momenty (kolem počátku), centrální momenty (kolem prvního obecného momentu) a normované momenty. 3. Většina nejdůležitějších statistických charakteristik patří do soustavy momentových charakteristik. 4. Aritmetický průměr je prvním obecným momentem. 5. Rozptyl je druhým centrálním momentem. 6. Normování znaku a normované momenty nás zavedou k měření šikmosti a špičatosti. 7. Momentovou charakteristikou šikmosti je momentový koeficient šikmosti. 8. Momentovou charakteristikou špičatosti je momentový koeficient špičatosti. 9. Šikmost i špičatost lze ovšem měřit i prostřednictvím jiných charakterristik. 10. Všechny charakteristiky šikmosti a špičatosti jsou bezrozměrné a invariantní vůči aditivní i multiplikativní konstantě.
1.
Určete momentové koeficienty šikmosti a špičatosti datového souboru ze cvičení 1 z lekce o třídění.
2.
Určete momentové koeficienty šikmosti a špičatosti datového souboru ze cvičení 2 z lekce o třídění.
3.
Vypočtěte Pearsonovy míry šikmosti dat v tabulce 2.2.
4.
U úloh 1 a 2 konfrontujte vypočtenou šikmost s polohou aritmetického průměru, mediánu a modu.
26