Lekce 2
Měření a charakteristiky variability Po úrovni je druhou vlastností datového souboru proměnlivost — variabilita. Tato vlastnost je složitější, o čemž vypovídají jak různé koncepce chápání proměnlivosti dat, tak i značný počet disponibilních charakteristik variability. „Na výběr“ jsou tentokrát charakteristiky rozměrné i bezrozměrné, konstruované na bázi diferencí či odchylek. Vedoucí postavení mezi charakteristikami variability (i ve statistice vůbec) má průměrná čtvercová odchylka kolem aritmetického průměru — rozptyl. Variabilita ale také souvisí s chybami zjišťování, proto se rozlišuje přirozená a chybová variabilita. My předpokládáme, že chyby jsou zanedbatelné a hovoříme tedy pouze o měření přirozené variability.
diference; kovariance; mediánová absolutní odchylka od mediánu; odchylky; prostá forma; průměrná absolutní odchylka od mediánu; rozpětí kvartilů; rozptyl; směrodatná odchylka; společný rozptyl; variabilita; variační koeficient; variační rozpětí; vážená forma
2.1 Variabilita a její měření V úvodní kapitole jsme při charakterizování statistiky použili formulaci, že se zabývá proměnlivými, variabilními, vlastnostmi hromadných jevů. O variabilitě se hovoří v různých souvislostech:
Ve vztahu k různým jednotkám téhož statistického souboru. Ve vztahu k jedné jednotce na níž je určitá hodnota sledována v různých časových okamžicích nebo intervalech.
Ve vztahu k jedné jednotce, na níž je opakovaně odčítána tatáž konstantní hodnota. V tomto případě stojí za variabilitou naměřených hodnot náhodné chyby měření.
Zdrojem nežádoucí variability mohou být také různé defekty v datech. Obr. 2.1
Dva soubory lišící se v úrovni a ve variabilitě
Soubor A
rozpětí souboru A
Soubor B
rozpětí
souboru
B
Dva tříděné datové soubory na obrázku se záměrně liší v úrovni (to pro zvýšení přehlednosti) a ve variabilitě. Data souboru B (měřeno rozpětím na ose hodnot znaku) vykazují podstatně vyšší proměnlivost, variabilitu, než data souboru A. Statistické údaje tedy mohou v principu obsahovat přirozenou variabilitu, jejímž zdrojem je různost podmínek v prostoru a čase, a dále chybovou variabilitu, která je do dat vnesena náhodnými,
14
případně i hrubými chybami měření a nedokonalostí ve vymezení statistických souborů a v definování zkoumaných znaků. V rozsahu tohoto textu se budeme zabývat pouze měřením přirozené variability a budeme mlčky předpokládat nepřítomnost chybové variability. Měřením chybové variability se zabývá samostatná disciplína — teorie chyb. Od intuitivního chápání variability (viz obr. 2.1) je třeba přejít k objektivním charakteristikám, umožňujícím exaktní měření této vlastnosti a srovnávání variability dvou nebo více datových souborů. O tom, že variabilita je poněkud složitější vlastnost než v minulé kapitole probraná úroveň, svědčí mj. i to, že existuje řada koncepcí jejího měření vedoucí k celému systému charakteristik variability.
Nejprimitivnějším pojetím variability je její chápání jako rozpětí hodnot souboru. V této souvislosti se používá k měření variability variačního rozpětí R = xmax – xmin nebo rozpětí kvartilů Q = x0,75 –x0,25. V obou případech jde o nepříliš důležité charakteristiky založené na významných hodnotách. Podobně jako v případě měření úrovně dáváme přednost spíše charakteristikám, které jsou funkcemi všech hodnot a mají proto větší vypovídací schopnost.
Dalším z možných pojetí variability je její chápání ve smyslu vzájemné rozdílnosti hodnot ve dvojicích. Princip výpočtu této skupiny charakteristik spočívá ve vytvoření všech možných dvojic údajů, stanovení diferencí (rozdílů hodnot ve dvojicích) a výpočtu průměrné diference, která (vzhledem k tomu, že součet všech možných diferencí je vždy roven nule) se vyjadřuje jako aritmetický průměr absolutních hodnot diferencí (tato charakteristika se nazývá střední diference) nebo aritmetický průměr jejich čtverců (střední kvadratická diference). Výpočet diferencí je vzhledem ke značnému počtu všech možných dvojic poměrně pracný a tyto charakteristiky nemají nikterak mimořádný význam. Proto se problematice diferencí nebudeme dále věnovat. Největší význam a praktické použití mají charakteristiky založené na chápání variability jako rozdílnosti hodnot souboru od nějaké konstanty, zpravidla charakteristiky úrovně (konkrétně aritmetického průměru nebo mediánu). Tyto rozdíly (abychom je zřetelně odlišili od diferencí) nazýváme odchylky. Ovšem podobně jako u diferencí je třeba při výpočtu průměrné odchylky vycházet z absolutních hodnot nebo čtverců těchto odchylek. Charakteristiky variability na bázi průměrné absolutní nebo průměrné čtvercové odchylky jsou natolik významné, že jim v dalším textu věnujeme po samostatném odstavci. Předchozí tři skupiny charakteristik variability mají společné to, že jde o rozměrné míry variability. Tyto charakteristiky neumožňují srovnávat variabilitu znaků udaných v různých nepřevoditelných měrných jednotkách (co má větší variabilitu: kurzy akcií v Kč nebo denní teploty ve °C?) a mohou vést i k různým nedorozuměním (měsíční mzdy udané v Kč vykazují podstatně vyšší variabilitu než tytéž hodnoty udané v tis. Kč). Statistika dává přednost použít, všude tam, kde je to možné, bezrozměrné charakteristiky. Bezrozměrné charakteristiky variability jsou konstruovány jako podíl rozměrné charakteristiky a vhodné (ve stejných jednotkách uvedené) charakteristiky úrovně a označujeme je jako charakteristiky variability v relativním vyjádření.
2.2 Rozptyl a odvozené charakteristiky Rozptyl je definován jako průměrná čtvercová odchylka kolem aritmetického průměru. Je zároveň nejmenší průměrnou čtvercovou odchylkou (viz vlastnosti aritmetického průměru). Rozptyl má mezi všemi charakteristikami variability zcela výjimečné postavení, má řadu unikátních vlastností a je v celé řadě statistických úvah nepostradatelný a nenahraditelný žádnou jinou charakteristikou. Rozptyl (také variance, zkratka var)2 statistického znaku X je v prosté a vážené formě definován jako
2
Tam, kde je to vhodné, používáme pro označení rozptylu symboly
15
var x, var y atd.
s x2 =
1 n ∑ ( xi − x ) 2 n i =1
s x2 =
1 k ∑ ( x i − x ) 2 ni , n i =1
kde n v prvním případě je rozsah souboru a k ve druhém je počet intervalů. Jednou z pozoruhodných vlastností rozptylu je to, že měří variabilitu současně jak ve smyslu odchylek, tak současně i ve smyslu diferencí. Podobně jako u aritmetického průměru uvedeme nyní řadu vlastností rozptylu:
Rozptyl je vždy nezáporný. Nule je roven rozptyl konstanty. Zavedeme-li podobně jako u aritmetického průměru Y = kX + c ( k ≠ 0) , bude rozptyl 1 n 1 n s 2y = ∑ ( yi − y ) 2 = ∑ ( kxi + c − k x − c ) 2 = k 2 s x2 . n i =1 n i =1 rozptyl je tedy na rozdíl od aritmetického průměru invariantní vůči aditivní konstantě, zato se mění se čtvercem multiplikativní konstanty.
Rozptyl součtu nebo rozdílu W = X ± Y 2 2 1 n 1 n 1 n 2 2 s w = ∑ ( wi − w ) = ∑ ( xi ± yi ) − ( x ± y ) = ∑ ( xi − x ) ± ( yi − y ) = n i =1 n i =1 n i =1 1 n 1 n 1 n = ∑ ( xi − x ) 2 ± 2 ∑ ( xi − x )( yi − y ) + ∑ ( yi − y ) 2 = s x2 ± 2 s xy + s 2y . n i =1 n i =1 n i =1
[
]
[
]
Rozptyl součtu nebo rozdílu dvou znaků X, Y je roven součtu (nikdy ne rozdílu!) rozptylů zvětšenému nebo zmenšenému o dvojnásobek výrazu s xy =
1 n ∑ ( xi − x )( y i − y ) označovaného jako kovariance3 n i =1
znaků X a Y.
Je dáno k dílčích souborů o rozsazích n1 , n2 ,..., nk s dílčími aritmetickými průměry x1 , x 2 ,..., xk a dílčími rozptyly s12 , s 22 ,..., s k2 . Společný aritmetický průměr x jsme stanovili jako vážený aritmetický průměr průměrů dílčích souborů. Společný rozptyl
s2 =
1 k
k
∑ si2 ni +
∑ ni i =1
i =1
1 k
n
∑ ( xi − x ) 2 ni ,
∑ ni i =1
i =1
je definován jako součet dvou složek: průměrného rozptylu uvnitř dílčích souborů a rozptylu dílčích průměrů kolem celkového průměru. Zatímco první složka měří velikost variability uvnitř dílčích souborů, druhá složka měří velikost variability mezi dílčími soubory. Při znalosti kterýchkoli dvou členů rovnice můžeme třetí složku dopočítat. Vztah můžeme chápat dvojím způsobem: celkový rozptyl lze rozložit na složky, ale zároveň také ze složek na pravé straně lze složit celkový rozptyl. Říkáme, že rozptyl (jako jediná z charakteristik variability) má stavebnicový charakter. Tato unikátní vlastnost rozptylu předurčuje využití této charakteristiky v mnoha oblastech statistiky. Příklad 2.1 Demonstrujeme nyní nejdůležitější z uvedených vlastností rozptylu. Mějme dva datové soubory pro n1 = n2 = 5 xi : 1,2,3,4,5 y i : 15,17,19,21,23 3
Místo
s xy , podobně jako u rozptylu, se alternativně využívá označení cov xy. 16
Je zřejmé, že mezi hodnotami obou souborů je vztah yi = 2 xi + 13 . Rozptyl var y = 2 2 var x = 4 ⋅ 2 = 8 ( var x = 2 , stejně jako rozptyl každé pětice po sobě jdoucích čísel, mezi nimž jsou jednotkové rozdíly, o čemž se můžete snadno přesvědčit). Hodnoty wi = xi + y i : 16,19,22,25,28 a jejich rozptyl je roven 18 (přesvědčte se o tom!). Rozptyl
var w = 18 = 2 + 8 + 2 cov xy , z čehož cov xy = 4 . Uveďme nyní hodnoty xi v inverzním pořadí, tj. xi : 5,4,3,2,1 . Hodnoty wi : 20,21,22,23,24 a jejich rozptyl var w = 2 = 2 + 8 + 2 cov xy , z čehož cov xy = −4 . Vidíme, že hodnota kovariance závisí na způsobu uspořádání hodnot ve dvojicích. Vytvořme nyní společný datový soubor zi : 1,2,3,4,5,15,17,19,21,23 . Jeho rozptyl je var z = 69. Průměrný rozptyl uvnitř dílčích souborů je s 2 =
1 (2 ⋅ 5 + 8 ⋅ 5) = 5 . Rozdíl s x2 = 69 − 5 = 64 je 10
rozptyl mezi dílčími soubory.
Demonstrujte analogicky vlastnosti aritmetického průměru. Použijte data z příkladu 2.1. Měli byste dospět k závěru, že vlastnosti průměru jsou daleko méně komplikované.
Nevýhodou rozptylu je jeho rozměr. Proto se často nahrazuje druhou odmocninou, směrodatnou odchylkou s x =
s x2 . Směrodatná odchylka má stejný rozměr jako znak, ze kterého je vypočtena.
Variabilitu je rovněž možno měřit bezrozměrnou (resp. v % vyjádřenou) charakteristikou — variačním koeficientem v x =
sx x
nebo 100v x =
sx x
100 (%).
Jakým způsobem přeformulujeme poslední tři vlastnosti rozptylu pro směrodatnou odchylku a variační koeficient?
Rozptyl ve vážené formě je určen pro data, která byla předem zpracována pomocí bodového nebo intervalového třídění. Význam hodnot xi jsme objasnili v souvislosti s váženým aritmetickým průměrem. Tento rozptyl je tedy
s x2 =
2 2 1 k 1 k 2 2 2 , po úpravě ( x − x ) n s = x i ni − x = x 2 − x . ∑ ∑ i i x n i =1 n i =1
Příklad 2.2 V tab. 2.1 vypočteme vážený rozptyl pro počet dětí v domácnosti z úlohy na bodové třídění a pro počet obyvatel obce z úlohy na intervalové třídění. Ukážeme při tom použití absolutních i relativních četností i obou variant vzorce rozptylu. Využijeme vypočtené vážené průměry z příkladu 1.2. Tab. 2.2
Pracovní tabulka pro výpočet rozptylu ve vážené formě
Počet dětí v domácnosti
Počet obyvatel obce
( x i − x ) 2 ni
xi
ni
0 1 2 3 4
2 5 6 8 4
10,3968 8,1920 0,4704 4,1472 11,8336
25
35,0400
17
xi2 p i
xi
pi
50 350 650 950 1250 1550
0,276 690,0 0,310 37975,0 0,218 92105,0 0,115 103787,5 0,046 71875,0 0,034 81685,0 0,999 388117,5
V prvním případě určíme s x2 =
1 35,0400 = 1,4016 , což je rozptyl počtu dětí v domácnosti. 25
Ve druhém případě s x2 = 388117,5 − 483,452 = 154393,6 , což je rozptyl počtu obyvatel. Mezi oběma výsledky je ovšem stejný rozdíl jako u průměrů. Zatímco rozptyl počtu dětí je určen přesně, rozptyl počtu obyvatel je pouze odhadem skutečné hodnoty, kterou bychom stanovili z původních netříděných dat (důsledek zavedení středů intervalů jako hodnot reprezentujících celý interval). Navíc v obou případech chybí názorná představa o velikosti variability, vzhledem k nenázorné měrné jednotce výsledku (děti2, obyvatelé2?). Vážená forma rozptylu má stejné vlastnosti jako forma prostá a lze z ní podobně určit i směrodatnou odchylku a variační koeficient.
Který z obou datových souborů v příkladu 2.2 vykazuje větší variabilitu? Lze to vůbec vzhledem k různým měrným jednotkám určit?
Druhou odmocninu rozptylu s x =
s x2 nazýváme směrodatnou odchylkou. Směrodatná odchylka
je kvadratickým průměrem odchylek ( xi − x ) . Zatímco rozptyl je udán ve čtverci měrné jednotky znaku, jehož variabilitu měříme, (rozptyl mezd v Kč2, rozptyl doby obsluhy v min2, rozptyl produkce výrobků v ks2 apod.), směrodatná odchylka je vyjádřena přímo v těchto jednotkách. Bezrozměrnou charakteristikou variability je směrodatná odchylka v „relativním vyjádření“
s v x = x (pro x ≠ 0), nazývaná variační koeficient. Chceme-li vyjádřit variabilitu znaku v procenx tech, pracujeme s charakteristikou 100 v x . Variační koeficient je vhodnější používat, jsou-li hodnoty xi > 0 . Variační koeficient můžeme použít ke srovnávání variability datových souborů, jejichž znaky jsou vyjádřeny v různých vzájemně nepřevoditelných měrných jednotkách nebo souborů s velmi rozdílnou úrovní, u nichž nelze provést srovnání pomocí rozptylu nebo směrodatné odchylky. Ke směrodatné odchylce a variačnímu koeficientu ještě uvedeme, že
vůči aditivní konstantě je invariantní pouze směrodatná odchylka, zatímco variační koeficient reaguje na aditivní konstantu c ≠ 0 změnou hodnoty, kterou nelze předem stanovit (mění se pouze jmenovatel zlomku), zatímco směrodatná odchylka reaguje na multiplikativní konstantu, s y = k s x , variační koeficient je vůči ní invariantní (čitatel i jmenovatel zlomku se násobí stejným číslem),
pro směrodatnou odchylku ani variační koeficient nelze z vypočtených dílčích charakteristik vypočítat hodnotu pro součet nebo rozdíl dvou znaků ani vypočítat společnou charakteristiku z charakteristik dílčích souborů.
2.3 Průměrné a mediánové absolutní odchylky Tyto charakteristiky jsou konstruovány jako aritmetický průměr absolutních hodnot odchylek hodnot znaku od nějaké charakteristiky úrovně, nejčastěji mediánu. Použití mediánu je zdůvodněno platností vztahu
n
n
i =1
i =1
∑ xi − ~x ≤ ∑ xi − c
pro c ≠ ~ x . Průměrná absolutní odchylka konstruovaná od
mediánu v prosté a vážené formě
18
MAAD =
1 n xi − ~ x ∑ n i =1
MAAD =
1 k xi − ~ x ni , ∑ n i =1
nemůže tedy být nikdy větší než průměrná absolutní odchylka konstruovaná od jiné charakteristiky úrovně (obecně od jiné konstanty než mediánu). Průměrná absolutní odchylka od mediánu má řadu vlastností, z nichž uvedeme:
Průměrná absolutní odchylka od mediánu je invariantní vůči aditivní konstantě. V případě multiplikativní konstanty reaguje stejně jako směrodatná odchylka, tj. MAAD y = k MAAD x . Nelze určit průměrnou absolutní odchylku od mediánu pro součet nebo rozdíl dvou znaků při znalosti průměrných absolutních odchylek obou znaků, stejně tak jako nelze určit společnou průměrnou absolutní odchylku z odpovídajících charakteristik dílčích souborů.
Průměrná absolutní odchylka od mediánu je vždy menší než směrodatná odchylka stejného znaku. Průměrnou absolutní odchylku od mediánu v relativním vyjádření získáme vydělením této charakteristiky aritmetickým průměrem (nikoli mediánem). Význam této charakteristiky je obdobný jako u variačního koeficientu. Robustní charakteristikou variability je mediánová (prostřední) absolutní odchylka od mediánu MAD, kterou stanovíme jako prostřední člen podle velikosti uspořádané řady odchylek hodnot datového souboru od mediánu.
Příklad 3.5 Pro datové soubory x i : 1,2,3,4,5 y i : 1,2,3,4,5,50 vypočteme rozpětí kvartilů, rozptyl, směrodatnou odchylku, variační koeficient, průměrnou a prostřední absolutní odchylku od mediánu. Pro první datový soubor:
x = x0,50 = 3; Q = 2; s x2 = 2; s x = 1,41; 100v x = 47,1 %; MAAD = 1,20; MAD = 1 Pro druhý datový soubor:
y = 10,83; y 0,50 = 3,5; Q = 3; s 2y = 308,47; s y = 17,56; 100v y = 162,2 %; MAAD = 8,83; MAD = 1,5 Porovnáním charakteristik úrovně a variability pro oba datové soubory vidíme, že nejmenší rozdíl zaznamenáváme u robustních charakteristik — mediánu, rozpětí kvartilů a prostřední absolutní odchylky od mediánu, které nejsou tak dalece ovlivněny přítomností/nepřítomností hodnoty 50.
Σ
Všechny zde uvedené výsledky zkontrolujte!
1. Variabilita je jedním z atributů každých statistických dat. 2. V datech nalézáme přirozenou a chybovou variabilitu. 3. Existují různé koncepty variability a s tím souvisí i značné množství nejrůznějších charakteristik variability. 4. Nejvýznamnější charakteristikou variability (a společně s aritmetickým průměrem i statistiky vůbec) je rozptyl. 5. Rozptyl má řadu jedinečných vlastností, které se využívají v dalších částech statistiky (např. při měření závislostí, hodnocení experimentů 19
apod.). 6. Nejpozoruhodnější vlastností rozptylu je jeho schopnost být rozkládán ve složky a z jeho jednotlivých složek určovat rozptyl celkový. Tato vlastnost rozptylu nemá analogii. 7. Vlastnostem rozptylu (stejně jako vlastnostem aritmetického průměru) je třeba věnovat při studiu patřičnou pozornost.
1.
Charakterizujte variabilitu datového souboru ze cvičení 1 z lekce o třídění.
2.
Charakterizujte variabilitu datového souboru ze cvičení 2 z lekce o třídění.
3.
Klasifikujte pojetí variability a ke každému pojetí přiřaďte odpovídající charakteristiky variability (vytvořte schéma).
4.
Označte rozměrné, bezrozměrné a robustní charakteristiky variability (v každé skupině uveďte aspoň dvě).
5.
Pro příklad 2.1 určete rozptyl rozdílu
wi = xi − y i a dále pokračujte výpočtem
kovariance podle vzoru příkladu 2.1. 6.
Vyhotovte nákres, kde dvojice hodnot
xi , y i z příkladu 2.1 vynesete jako body
v rovině. Jak souvisí uspořádání bodů ve dvojicích s jejich uspořádáním v grafu? 7.
Propočtěte znovu příklad 2.2, zaměňte metodu výpočtu obou úloh (vzorec se závorkou/bez závorky, četnost absolutní/relativní).
8.
Je dán (a) průměrný rozptyl uvnitř dílčích souborů jako
0; 20;100 a (b) společ-
ný rozptyl jako 20;150 . Které kombinace hodnot jsou možné a k čemu vedou (název, výsledek). 9.
Bylo vypočteno hu
x = 30, var x = 12, y = 173, var y = 432 . Určete k, c ve vzta-
Y = kX + c .
20