Lekce 3
Popis datového souboru Zatím jsme hovořili převážně o zjišťování dat a jejich zpracování. Údaje datového souboru popisují každý případ zvlášť. Nyní se pokusíme využít údaje k tomu, abychom zobecnili určité typické vlastnosti datového souboru jako celku. Veličiny, které se vyznačují tím, že jediným číslem vyjadřují určitou vlastnost datového souboru jako celku, se nazývají souhrnné (statistické) charakteristiky. V souvislosti s hromadnými daty můžeme slyšet např. výroky typu •
„výše škody při nehodě kamionu je vyšší, než při havárii osobního automobilu“, přičemž to nutně neznamená, že každá nehoda kamionu je spojena s vyšší škodou, než kterákoli nehoda osobního automobilu — tato vlastnost— úroveň — se projevuje jen jako určitá tendence, která je lépe rozpoznatelná při rostoucím rozsahu datových souborů,
•
„výše pojistného u rodinných domů vykazuje menší proměnlivost, než je tomu u pojistného domů, které jsou určeny k nájemnímu bydlení“, přičemž proměnlivost — variabilitu — můžeme zatím zjednodušeně chápat třeba jako vzdálenost mezi nejmenší a největší hodnotou datového souboru (nejnižším a nejvyšším placeným pojistným v dané kategorii nemovitostí).
Nejdůležitějšími vlastnostmi datového souboru je jeho úroveň a variabilita. Tyto vlastnosti vyjadřujeme pomocí souhrnných charakteristik úrovně a variability. V úrovni a variabilitě se mohou datové soubory více či méně shodovat, nebo naopak lišit.
aritmetický průměr; asymetrie; kovariance; prostá forma; průměr; robustní charakteristika; rozptyl; směrodatná odchylka; společný průměr; společný rozptyl; úroveň; variabilita; variační koeficient; vážená forma
3.1
Úroveň a variabilita datového souboru
Na obr. 3.1 vidíme dva datové soubory (označené A, B), které byly tříděny intervalovým tříděním. Oba soubory jsou prezentovány prostřednictvím histogramů relativních četností. Z obr. 3.1 zřetel-
Relativní četnosti
Obr. 3.1 Dva datové soubory lišící se v úrovni a variabilitě
A
B Hodnoty znaku
19
ně vyplývá, že datový soubor A má nižší úroveň a současně vyšší variabilitu, než datový soubor B. Soubor A vykazuje proti souboru B převahu nižších hodnot, současně však malá část hodnot tohoto souboru je vyšší, než nejvyšší hodnota souboru B (neplatí tedy, že každá hodnota souboru A je nižší než kterákoli hodnota souboru B). Vzdálenost (variační rozpětí) mezi minimální a maximální hodnotou, a tedy proměnlivost jeho hodnot, je u souboru A přibližně dvakrát větší, než u souboru B.
3.2 Měření a charakteristiky úrovně Ke změření úrovně datového souboru můžeme z dosud známých veličin využít medián a modus. Pro medián je charakteristická poloha uvnitř datového souboru — je jeho prostřední hodnotou. Modus zase souvisí s četností výskytu (často největší četnost vykazují právě varianty nebo intervaly někde „uprostřed“ tříděného datového souboru, i když to není 100% pravidlem). Žádná z obou jmenovaných charakteristik není odvozena od všech hodnot datového souboru, krajní hodnoty dokonce na charakteristiku nemají žádný vliv. Příklad 3.1 Vlastnosti mediánu jako charakteristiky úrovně. Použijeme uspřádaný datový soubor x( i ) : − 3, 0, 4, 11, 13, 21, 21, 45 z příkladu 2.3. Jeho medián je roven x0,50 = 12 . Jak se změní medián, nahradíme-li x( n ) = 45 např. hodnotou 450? Medián se nezmění, protože nereaguje na extrémní hodnoty datového souboru. Charakteristiky s takovou vlastností nazýváme robustní charakteristiky.
Příklad 2.1 rozšiřte o variantu
x[k +1] = 9 s četností rovnou jedné a prozkoumejte, jak se v této sou-
vislosti zachová typická hodnota (modus). Svoje pozorování zobecněte. Vraťte se k příkladu 3.1 a datový soubor nyní rozšiřte o hodnotu 450. Určete medián takto rozšířeného datového souboru.
Charakteristiky, které buď nereagují vůbec nebo jen nepatrně na extrémní hodnoty datového souboru, se nazývají robustní charakteristiky. Tyto charakteristiky mají v některých částech statistiky značný význam. Nejdůležitějšími charakteristikami úrovně jsou ovšem charakteristiky, jejichž hodnoty jsou funkcemi všech hodnot datového souboru a které se nazývají průměry. Běžně se uvádí několik druhů průměrů, např. průměr aritmetický, geometrický nebo harmonický. Nejobecnější použití má aritmetický průměr x (x s pruhem), zatímco ostatní druhy průměrů se používají jen v určitých zvláštních situacích. Pro aritmetický průměr platí tzv. určující vlastnost, kterou můžeme formulovat takto:
x1 + x 2 + ... + xn = x + x + ... + x n
a můžeme ji přepsat jako
∑ xi = n x , z čehož aritmetický průměr x = i =1
1 n ∑ xi . n i =1
Vzhledem k tomu, že při výpočtu využíváme prostý součet hodnot datového souboru, nazývá se tato forma prostou formou aritmetického průměru.
20
Vlastnosti aritmetického průměru
aritmetický průměr je rozměrná veličina a lze ho určit z jakýchkoli reálných hodnot xi , aritmetický průměr konstanty je roven této konstantě, odchylky hodnot datového souboru od aritmetického průměru se kompenzují (jako bezn
prostřední důsledek určující vlastnosti) a platí
∑(x i =1
i
− x ) = 0 (aritmetický průměr je tě-
žištěm datového souboru),
souhlasně s vlastnostmi těžiště platí
n
n
i =1
i =1
∑ ( xi − c) 2 = ∑ ( xi − x) 2 + n( x − c) 2 a nejmenší
možnou hodnotu tedy součet čtverců odchylek nabývá, je-li c = x ,
je-li znak Y = kX + c , kde k , c jsou konstanty, platí také y =
1 n ∑ (kxi + c) = k x + c , n i =1
je-li znak W = X ± Y , je současně w = x ± y , je-li dáno k dílčích souborů s rozsahy n1 , n2 ,..., ni ,..., nk a dílčími průměry x i , pak společný průměr těchto dílčích souborů je roven x =
k
1
∑x n i
k
∑n i =1
i =1
i
i
Čemu se roven součet odchylek hodnot datového souboru
.
xi : 45, 11, − 3, 4, 21, 0, 21, 13
od aritmetického průměru a od mediánu? Čemu jsou rovny součty čtverců těchto odchylek? Jaký vztah je mezi oběma součty čtverců? (3–1) Určete průměrnou teplotu ve °C, jestliže průměrná teplota činila 444 °F. Mezi oběma teplotními stupnicemi je vztah °F = 1,8°C + 32.
Prostou formu aritmetického průměru využíváme při měření úrovně netříděných dat. Jsou-li data předem zpracována pomocí bodového nebo intervalového třídění, využíváme aritmetický průměr ve vážené formě. Hodnoty xi jsou v případě bodového třídění varianty a v případě intervalového třídění středy intervalů. Jde o tutéž charakteristiku, pouze o jinou formu vyjádření. I na vážený aritmetický průměr se tedy vztahují dříve uvedené vlastnosti aritmetického průměru. Aritmetický průměr ve vážené formě x = relativní četnost, n =
k
k
∑n , ∑ p i
i
i =1
i
k 1 k x n = xi pi , kde ni je absolutní a pi je ∑ ii ∑ n i =1 i =1
= 1 a k je počet variant nebo počet třídicích intervalů.
Váženou formu aritmetického průměru využíváme při měření úrovně tříděných dat.
Příklad 3.2 V tab. 3.1 vypočteme vážený aritmetický průměr pro počet zásahů obsluhy v průběhu směny v příkladu 2.1 a pro výši škody (v tis. Kč) v příkladu 2.2. Ukážeme při tom použití absolutních i relativních četností.
21
Tab. 3.1
Pracovní tabulka pro výpočet váženého aritmetického průměru
Počet zásahů obsluhy
xi
ni
x i ni
0 1 2 3 4
2 5 6 8 4
0 5 12 24 16
x
25
57
V prvním případě určíme x =
Výše škody (tis. Kč)
xi
pi
x i pi
40 80 120 160 200 240 x
0,276 0,310 0,218 0,115 0,046 0,034 0,999
11,04 24,80 26,16 18,40 9,20 8,16 97,76
1 57 = 2,28 , což je průměrný počet zásahů obsluhy v průběhu směny. 25
Ve druhém případě vyčteme v součtovém řádku posledního sloupce přímo hodnotu 97,76, což je průměrná výše škody v tis. Kč. Mezi oběma výsledky je ovšem zásadní rozdíl. Zatímco průměrný počet zásahů je určen přesně, průměrná výše škody je pouze odhadem skutečné hodnoty, kterou bychom stanovili z původních netříděných dat (důsledek zavedení středů intervalů jako hodnot reprezentujících celý interval). Vzájemná poloha aritmetického průměru, modu a mediánu určuje tvar rozdělení četností, pokud jde o jeho symetrii, resp. asymetrii. U symetrického rozdělení četností platí x = xˆ = x0,50 . Máme zde ovšem na mysli „statistickou“ symetrii, nikoli symetrii přísně geometrickou. U asymetrických rozdělení bude
xˆ < x u levostranně nesouměrného rozdělení četností, x < xˆ u pravostranně nesouměrného rozdělení četností. Symetrie či asymetrie datového souboru je jeho další měřitelnou statistickou vlastností. Jejím měřením se ovšem nebudeme zabývat.
3.3
Vyjádřete se k symetrii/asymetrii rozdělení četností počtu zásahů obsluhy a rozdělení četností výše škody tak, že porovnáte aritmetické průměry a typické hodnoty obou rozdělení. Zkontrolujte, zda grafická znázornění rozdělení četností na obr. 2.1 a 2.2 jsou i geometricky v souladu s vašimi závěry.
Měření a charakteristiky variability
Variabilita je poněkud komplikovanější vlastností. Protože ji můžeme chápat různě (vzdálenost mezi minimální a maximální hodnotou je jen nejprimitivnější pojetí variability), existuje celá řada statistických charakteristik variability, jejichž určení je složitější, než tomu bylo u měření úrovně. Bezkonkurenčně nejdůležitější (a v mnoha směrech unikátní) charakteristikou variability je průměrná čtvercová odchylka kolem aritmetického průměru, nazývaná rozptyl. Rozptyl v prosté formě je určen pro měření variability u netříděných dat a stanovíme ho (pro datový soubor znaku X) v souladu s jeho definicí
22
s x2 =
2 2 1 n 1 n 2 2 2 , po úpravě ( ) s xi − x = x 2 − x x − x = ∑ ∑ i x n i =1 n i =1 2
x2 − x !
Vyjádřete slovně význam zápisu
Alternativně pro označení rozptylu znaku X můžeme použít i symbol var x (var je zkratkou slova variance). Vlastnosti rozptylu
rozptyl je rozměrná charakteristika (jako čtverec má rozměr, který je čtvercem rozměru znaku X) a lze ho určit z libovolných reálných hodnot xi , rozptyl, jako čtverec, je vždy nezáporný, nule je roven při výpočtu z konstanty, rozptyl je v souladu se čtvrtou vlastností aritmetického průměru nejmenší průměrnou čtvercovou odchylkou, je-li znak Y = kX + c , kde k, c jsou konstanty, platí var y = k 2 var x , 1 n ∑ ( wi − w) 2 = var x + var y ± 2 cov xy (zdůrazňujeme n i =1 znaménko + mezi oběma rozptyly, přičemž mezi znaky je ± ),
je-li znak W = X ± Y , je var w =
cov xy =
1 n 1 n ( x − x )( y − y ) = ∑ i ∑ xi yi − x y = xy − x y , cov xy ≥≤ 0 , i n i =1 n i =1
je tzv. kovariance znaků X, Y, jejíž hodnota souvisí s uspořádáním hodnot xi , y i do dvojic (stejné hodnoty při různém uspořádání vedou k různé hodnotě kovariance),
je-li dáno k dílčích souborů s rozsahy n1 , n2 ,..., ni ,..., nk , dílčími průměry x i a dílčími rozptyly si2 , společný rozptyl těchto dílčích souborů s2 =
k
1
∑s n
k
∑n i =1
i =1
i
2 i i
+
k
1
∑(x
k
∑n i =1
i =1
i
− x ) 2 ni = s 2 + s x2 ,
i
přičemž první sčítanec reprezentuje průměrný rozptyl uvnitř dílčích souborů a druhý sčítanec rozptyl dílčích průměrů kolem společného průměru ( x ).
Příklad 3.3 Demonstrujeme nejdůležitější z uvedených vlastností rozptylu. Mějme dva datové soubory pro n1 = n2 = 5 xi : 1,2,3,4,5 y i : 15,17,19,21,23 Je zřejmé, že mezi hodnotami obou souborů je vztah yi = 2 xi + 13 . Rozptyl var y = 2 2 var x = 4 ⋅ 2 = 8 ( var x = 2 , stejně jako rozptyl každé pětice po sobě jdoucích čísel, mezi nimž jsou jednotkové rozdíly, o čemž se můžete snadno přesvědčit). Hodnoty wi = xi + y i : 16,19,22,25,28 a jejich rozptyl je roven 18 (přesvědčte se o tom!). Rozptyl
var w = 18 = 2 + 8 + 2 cov xy , z čehož cov xy = 4 .
23
Uveďme nyní hodnoty xi v inverzním pořadí, tj. xi : 5,4,3,2,1 . Hodnoty wi : 20,21,22,23,24 a jejich rozptyl var w = 2 = 2 + 8 + 2 cov xy , z čehož cov xy = −4 . Vidíme, že hodnota kovariance závisí na způsobu uspořádání hodnot ve dvojicích. Vytvořme nyní společný datový soubor zi : 1,2,3,4,5,15,17,19,21,23 . Jeho rozptyl je var z = 69. Průměrný rozptyl uvnitř dílčích souborů je s 2 =
1 (2 ⋅ 5 + 8 ⋅ 5) = 5 . Rozdíl s x2 = 69 − 5 = 64 je 10
rozptyl mezi dílčími soubory.
Demonstrujte analogicky vlastnosti aritmetického průměru. Použijte data z příkladu 3.3.
Praktický výpočet rozptylu v prosté formě (stejně jako aritmetického průměru) provedeme pomocí kalkulačky (téměř každá tyto charakteristiky dokonce přímo „umí“), případně v MS Excelu vložením funkce VAR (nebo PRŮMĚR). Nevýhodou rozptylu je jeho rozměr. Proto se často nahrazuje druhou odmocninou, směrodatnou odchylkou s x =
s x2 . Rozměr směrodatné odchylky odpovídá rozměru znaku X, ze kterého je
vypočtena. Variabilitu je rovněž možno měřit bezrozměrnou (resp. v % vyjádřenou) charakteristikou — variačním koeficientem v x =
sx x
nebo 100v x =
sx x
100 (%).
Jakým způsobem přeformulujeme poslední tři vlastnosti rozptylu pro směrodatnou odchylku a variační koeficient? (3–2)
Rozptyl ve vážené formě je určen pro data, která byla předem zpracována pomocí bodového nebo intervalového třídění. Význam hodnot xi jsme objasnili v souvislosti s váženým aritmetickým průměrem. Tento rozptyl je tedy
s x2 =
2 2 1 k 1 k 2 2 2 , po úpravě ( x − x ) n s = x i ni − x = x 2 − x . ∑ ∑ i i x n i =1 n i =1
Příklad 3.4 V tab. 3.2 vypočteme vážený rozptyl pro počet zásahů obsluhy v průběhu směny z příkladu 2.1 a pro výši škody (v tis. Kč) z příkladu 2.2. Ukážeme při tom použití absolutních i relativních četností i obou variant vzorce rozptylu. Využijeme vypočtené vážené průměry z příkladu 3.2. Tab. 3.2
Pracovní tabulka pro výpočet rozptylu ve vážené formě
Počet zásahů obsluhy
Výše škody (tis. Kč)
( x i − x ) 2 ni
xi
ni
0 1 2 3 4
2 5 6 8 4
10,3968 8,1920 0,4704 4,1472 11,8336
x
25
35,0400
xi2 p i
xi
pi
40 80 120 160 200 240 x
0,276 441,6 0,310 1984,0 0,218 3139,2 0,115 2944,0 0,046 1840,0 0,034 1958,4 0,999 12307,2
V tabulce vidíme, že ne všechna čísla v průběhu výpočtu jsou jednoduchá. Je třeba věnovat pozornost zaokrouhlování; některé hodnoty mohou být zase poměrně vysoké.
24
V prvním případě určíme s x2 =
1 35,0400 = 1,4016 , což je rozptyl počtu zásahů obsluhy v průběhu 25
směny. Ve druhém případě s x2 = 12307,2 − 97,76 2 = 2750,18 , což je rozptyl výše škody v (tis. Kč)2. Mezi oběma výsledky je ovšem stejný rozdíl jako u průměrů. Zatímco rozptyl počtu zásahů je určen přesně, rozptyl výše škody je pouze odhadem skutečné hodnoty, kterou bychom stanovili z původních netříděných dat (důsledek zavedení středů intervalů jako hodnot reprezentujících celý interval). Navíc v obou případech chybí názorná představa o velikosti variability, vzhledem k nevyhovující měrné jednotce výsledku. Vážená forma rozptylu má stejné vlastnosti jako forma prostá a lze z ní podobně určit i směrodatnou odchylku a variační koeficient.
Který z obou datových souborů v příkladu 3.4 vykazuje větší variabilitu? Lze to vůbec vzhledem k různým měrným jednotkám určit? (3–3)
Průměrná a prostřední absolutní odchylka od mediánu Podobně, jako je průměrná čtvercová odchylka od aritmetického průměru — rozptyl — nejmenší průměrnou čtvercovou odchylkou, platí pro absolutní odchylky od mediánu n
∑x i =1
n
i
− x 0,50 ≤ ∑ x i − c pro c ≠ x 0,50 . i =1
Zavedení absolutních odchylek je alternativou ke kvadratickým odchylkám, přičemž společným smyslem obou konceptů je zamezení vzájemné kompenzace kladných a záporných odchylek od příslušné konstanty.
n
Srovnejte právě uvedenou vlastnost s odpovídající vlastností
∑(x i =1
Průměrná absolutní odchylka od mediánu MAAD =
i
− x) 2 !
1 n ∑ x i − x 0,50 (zde uvedena v prosté n i =1
formě) je další z možných rozměrných charakteristik variability. Zatímco rozptyl (a směrodatná odchylka) více reagují na větší odchylky od průměru (v důsledku toho, že odchylky se umocňují na druhou), průměrná absolutní odchylka od mediánu tuto vlastnost nemá. Absolutní odchylky od mediánu není bezpodmínečně nutno průměrovat. Alternativní, tentokrát robustní, charakteristikou variability je prostřední (mediánová) absolutní odchylka od mediánu MAD. Příklad 3.5 Pro datové soubory x i : 1,2,3,4,5 y i : 1,2,3,4,5,50 vypočteme rozptyl, směrodatnou odchylku, variační koeficient, průměrnou a prostřední absolutní odchylku od mediánu. Pro první datový soubor:
x = x 0,50 = 3; s x2 = 2; s x = 1,41; 100v x = 47,1 %; MAAD = 1,20; MAD = 1 Pro druhý datový soubor:
y = 10,83; y 0,50 = 3,5; s 2y = 308,47; s y = 17,56; 100v y = 162,2 %; MAAD = 8,83; MAD = 1,5
25
Porovnáním charakteristik úrovně a variability pro oba datové soubory vidíme, že nejmenší rozdíl zaznamenáváme u robustních charakteristik — mediánu a prostřední absolutní odchylky od mediánu, které nejsou ovlivněny přítomností/nepřítomností hodnoty 50.
Σ
1. Každý datový soubor jako celek vykazuje určité statistické vlastnosti. 2. Nejdůležitějšími vlastnostmi datového souboru jsou jeho úroveň a variabilita. 3. Vlastnosti datového souboru měříme pomocí souhrnných statistických charakteristik. 4. Souhrnné charakteristiky se vyskytují v prosté nebo vážené formě, a to v návaznosti na eventuální předchozí třídění datového souboru. 5. Nejdůležitější charakteristikou úrovně je aritmetický průměr. 6. Nejdůležitější charakteristikou variability je rozptyl. 7. Charakteristikami variability odvozenými od rozptylu jsou směrodatná odchylka a variační koeficient. 8. V určitém kontextu mají jako charakteristiky variability značný význam absolutní odchylky kolem mediánu.
(3–1) Součet odchylek od průměru (14) je roven nule. Součet odchylek od mediánu (12) je roven 16. Součty čtverců odchylek jsou 1654 a 1686. Rozdíl mezi nimi je 32 = 8(14 –
+12)2. (3–2)
s y = ks x , s w nelze vyjádřit pomocí s x , s y , z dílčích směrodatných odchylek nelze
spočítat společnou. Z
v x nelze určit v y , neboť v y =
ks x . Další dvě odpovědi jsou kx + c
stejné jako pro směrodatnou odchylku. (3–3) Variabilita obou datových souborů je přibližně stejná, oba variační koeficienty dosahují hodnoty lehce nad 50 %.
1.
Pokračujte v řešení úkolu 1 z předešlé lekce. Vypočtěte vážený aritmetický průměr, rozptyl, směrodatnou odchylku a variační koeficient počtu bodů na hrací kostce.
2.
Pokračujte v řešení úkolu 2 z předešlé lekce. Vypočtěte vážený aritmetický průměr, rozptyl, směrodatnou odchylku a variační koeficient.
3.
Zopakujte si příklad 3.3. Při tom zaveďte
4.
Platí
5.
Z 12 strojů byly u sedmi provedeny opravy. Průměrná cena opravy připadající na jeden stroj (pro všech 12 strojů) je 18 tis. Kč. Jaká byla skutečná průměrná cena opravy (pro skutečně opravované stroje). Použijte poslední z vlastností aritmetického průměru.
6.
Datový soubor při bodovém třídění rozšíříme o jednu variantu s četností 1, která je shodou okolností nenižší hodnotou souboru. Která charakteristika úrovně se zcela jistě změní, která zcela jistě nezmění (pokud existuje) a která se může, ale nemusí změnit?
wi = 0,5 y i − xi .
yi = kxi + c . Znáte xˆ, y 0,50 . Určete yˆ , x 0,50 .
26
7.
Co se stane s aritmetickým průměrem, mediánem, modem, rozptylem, směrodatnou odchylkou a variačním koeficientem, pokud se každá hodnota datového souboru zvýší o 20 %/sníží o 30 %.
8.
Jakou vlastnost datového souboru by mohla měřit charakteristika konstruovaná jako vzdálenost dolního a horního kvartilu (rozpětí kvartilů)? Hodí se k ní označení robustní charakteristika?
9.
Jakou vlastnost datového souboru by mohla měřit charakteristika založená na rozdílu
x − xˆ (včetně znaménka)?
10. Lze pomocí krabicových grafů (příklad 2.5) srovnat úroveň a variabilitu datových souborů? Lze se vyjádřit k jejich symetrii či asymetrii?
27