Statistika Tímto pojmem většinou označujeme: a) statistické údaje a jejich některé funkce, b) statistickou činnost a instituce, které tuto činnost provozují, c) statistickou teorii. Statistické údaje neboli statistická data jsou číselné údaje o hromadných jevech, tj. čísla o různých skutečnostech vyskytujících se hromadně. Statistika ve smyslu statistické činnosti znamená získávání statistických údajů (pozorováním, měřením, vážením apod.), jejich zpracování (třídění, výpočet charakteristik, předkládání výsledků) a hodnocení.
Statistická jednotka, statistický soubor a statistické znaky Statistickou jednotkou se rozumí každý prvek souboru, jehož některé vlastnosti jsou předmětem statistického zjišťování (jsou vzhledem k ostatním prvkům proměnlivé), zatímco některé přesně vymezené vlastnosti jsou shodné s ostatními prvky souboru. Statistickou jednotkou může být člověk, zvíře, věc, rostlina, území, událost, období, instituce apod. Právě shodné vlastnosti statistických jednotek dovolují vytvářet statistické soubory. Vlastnosti statistických jednotek určitého statistického souboru se snažíme postihnout (charakterizovat) statistickými znaky. Jsou-li varianty statistického znaku vyjádřeny čísly, hovoříme o kvantitativním statistickém znaku, zatímco jsou-li vyjádřeny slovy, mluvíme o kvalitativním statistickém znaku.
Poznámka. (Rozdělení četností jednoho kvantitativního statistického znaku) Statistické znaky se obvykle označují velkými písmeny z konce abecedy. Označme určitý kvantitativní statistický znak X a číselné hodnoty n statistických jednotek statistického souboru xi, kde i je pomocný symbol, za který můžeme dosadit jakékoli celé číslo od 1 do n. Znamená to, že x1 je číselná hodnota X u první statistické jednotky, x2 číselná hodnota X u druhé statistické jednotky, ..., xn je číselná hodnota X u n-té statistické jednotky.
Cvičení 1. Statistickým znakem X je počet operací, kterými výrobek musí projít. Ve sledovaném podniku se v daném období vyrábí celkem n = 10 podobných výrobků. U každého z nich jsme zjistili počet výrobních operací (číselnou hodnotu znaku X). Dostali jsme řadu čísel xi: 2, 3, 3, 2, 1, 4, 5, 4, 3, 3 Dosadíme-li za i např. 5, jde o hodnotu X u páté statistické jednotky; v příkladu x5 = 1. Označme xj různé hodnoty statistického znaku X, kde j je pomocný symbol, za který dosadíme pořadové číslo hodnoty znaku uspořádaného podle velikosti hodnot. Znamená to, že x1 představuje nejnižší hodnotu znaku X, x2 druhou nejnižší hodnotu znaku X, ..., xk představuje nejvyšší hodnotu znaku X. Celkový počet různých hodnot znaku X je k ≤ n . Rovnost platí jen v případě, že počet různých hodnot k je stejný jako počet statistických jednotek n, tedy v případě, že každá jednotka souboru nabývá jiné hodnoty sledovaného znaku. Počet statistických jednotek se stejnou hodnotou xj pro j = 1, 2, ..., k nazýváme (absolutní) četnost hodnoty xj.
1
Cvičení 2. Údaje z předcházejícího cvičení uspořádáme do tabulky rozdělení četností. Počet výrobních operací Počet výrobků xj nj 1 1 2 2 3 4 4 2 5 1 V souboru je celkem n = 10 statistických jednotek, a tedy i hodnot statistického znaku X, z toho je k = 5 různých hodnot znaku X. Pro označení součtu se používá velké řecké písmeno sigma Σ, které čteme jako suma (sumace). Například zápis k
∑n
j
j =1
čteme jako suma nj, pro j od jedné do k. Pro operace se sumacemi se často využívají vztahy: a) Pro znaky X a Y platí: n
n
n
∑(x ± y ) = ∑ x ± ∑ y i
i
i
i =1
i
i =1
i =1
b) Pro znak X a konstantu c platí: n
n
∑ ( x ± c ) = ∑ x ± nc i
i
i =1
i =1 n
n
i =1
i =1
∑ cxi = c∑ xi c) Pro znak X, který nabývá kladných hodnot, platí: 2
n n 2 x > ∑ i ∑ xi i =1 i =1 d) Pro znaky X a Y, které nabývají kladných hodnot, platí: n
n
n
i =1
i =1
i =1
∑ xi ⋅ ∑ yi > ∑ xi yi Příklad 1. Hodnoty statistických znaků X a Y jsou uspořádány do tabulky. Na těchto údajích ověřte uvedené vztahy mezi sumacemi, jestliže konstanta c = 3. i xi yi 1 4 2 2 5 1 3 3 1 4 6 4 5 4 2
2
Intervalové rozdělení četností V některých případech, kdy je rozsah souboru a počet variant kvantitativního statistického znaku velký, můžeme zjednodušit rozdělení četností záměrným zanedbáním malých rozdílů mezi hodnotami znaku. Při tomto uspořádání údajů rozdělíme obor hodnot statistického znaku na intervaly (skupiny, třídy). Hodnoty, které patří do stejného intervalu, považujeme za rovnocenné a nahrazuje je střed intervalu. Počet intervalů k by měl odpovídat rozsahu souboru n. Např. Sturgesovo pravidlo, podle kterého má být počet intervalů přibližně 1 + 3,3log n.
Cvičení 3. V podniku je 1 000 pracovníků, jejichž měsíční příjem se pohybuje od 1 501 do 4 800 Kč. Navrhněte podle Sturgesova pravidla vhodný počet intervalů a formu intervalového rozdělení četností Podle Sturgesova pravidla by přibližný počet intervalů měl být 1 + 3,3log1000 = 10,9 11 . Pro dodržení požadavku stejně velkých příjmových intervalů bude vhodné uvažovat intervaly po (4 800 – 1 500) : 11 = 300 Kč. Takže získáváme intervalové rozdělení četností
3
Pořadové číslo intervalu 1 2 3 4 5 6 7 8 9 10 11
Interval příjmu v Kč 1 501 – 1 800 1 801 – 2 100 2 101 – 2 400 2 401 – 2 700 2 701 – 3 000 3 001 – 3 300 3 301 – 3 600 3 601 – 3 900 3 901 – 4 200 4 201 – 4 500 4 501 – 4 800
Střed intervalu (xj) 1 650 1 950 2 250 2 550 2 850 3 150 3 450 3 750 4 050 4 350 4 650
Rozdělení relativních četností Relativní četnost vyjadřuje podíl četnosti určité hodnoty (varianty) statistického znaku nebo skupiny (intervalu) hodnot a součtu četností všech hodnot. Jde tedy o podíl absolutní četností nj a rozsahu souboru n. Označíme-li relativní četnost pj pro všechna j od 1 do k, můžeme zapsat nj pj = pro j = 1, 2, …, k. n Je zřejmé, že součet všech relativních četností k n n n 1 p j = p1 + p2 + ... + pk = 1 + 2 + ... + k = ( n1 + n2 + ... + nk ) = 1 , ∑ n n n n j =1 protože součet všech absolutních četností se rovná n.
Poznámka. V praxi bývá zvykem násobit relativní četnosti 100, čímž je vyjádříme v procentech.
Cvičení 4. Doplňte tabulku z cvičení 2 o sloupec relativních četností a o sloupec četností vyjádřených v procentech. Relativní četnosti Četnosti Hodnoty znaku Absolutní četnosti nj v procentech xj nj pj = 100pj n 1 1 0,1 10 2 2 0,2 20 3 4 0,4 40 4 2 0,2 20 5 1 0,1 10 Součet 10 1,0 100
Příklad 2. Při zjišťování počtu nezletilých dětí ve dvaceti domácnostech jsme dostali výsledky 0, 0, 2, 2, 1, 1, 1, 1, 1, 0, 0, 0, 3, 2, 1, 1, 2, 3, 2, 1. Uspořádejte údaje do tabulky rozdělení četností, vypočítejte relativní četnosti a vyjádřete zastoupení jednotlivých variant statistického znaku v procentech.
4
Příklad 3. Navrhněte podle Sturgesova pravidla formu intervalového rozdělení četností věků u 2000 pracovníků. Požadujeme, aby jednotlivé , intervaly byly stejně velké, a víme, že věk pracovníků je v intervalu od 18 do 66 let. Podle Sturgesova pravidla je k = 1 + 3,3log 2000 12 , takže je třeba věkový interval od 18 do 66 let rozdělit na 12 stejně velkých intervalů. Jelikož (66 – 18) : 12 = 4, je vhodné při sestavování intervalů tvořit věkové skupiny po čtyřech letech.
Příklad 4. Ve třídě je 10 žáků s prospěchem od 1 do 1,5, 15 žáků s prospěchem od 1,5 do 2, 12 žáků s prospěchem od 2 do 2,5 a 5 žáků s prospěchem od 2,5 do 3. Sestavte tabulku intervalového rozdělení četností prospěchu žáků; četnosti intervalů prospěchu vyjádřete absolutně, relativně a v procentech.
Příklad 5. Doplňte intervalové rozdělení četností z tabulky o relativní četnosti intervalů a jejich vyjádření v procentech. Pořadové číslo Interval příjmu Počet pracovníků intervalu v Kč (nj) 1 1 501 – 1 800 48 2 1 801 – 2 100 114 3 2 101 – 2 400 246 4 2 401 – 2 700 301 5 2 701 – 3 000 112 6 3 001 – 3 300 64 7 3 301 – 3 600 42 8 3 601 – 3 900 28 9 3 901 – 4 200 18 10 4 201 – 4 500 16 11 4 501 – 4 800 11
5
Statistické charakteristiky Statistický popis rozdělení četností se soustřeďuje především na dvě hlavní vlastnosti každého rozdělení, tj. na velikost (polohu) hodnot a měnlivost (variabilitu) hodnot sledovaného statistického znaku. Smyslem statistických charakteristik je umožnit srovnání dvou nebo více rozdělení četností.
Charakteristiky polohy Charakteristiky polohy neboli střední hodnoty jsou čísla, která umožňují srovnávat úroveň zkoumaného jevu u dvou nebo více souborů. Pro srovnání polohy hodnot znaku v různých souborech se nejčastěji používají průměry, jejichž výše přímo závisí na velikosti všech hodnot.
Aritmetický průměr Aritmetický průměr znaku X je definován jako podíl součtu hodnot (úhrnu) m a počtu hodnot (rozsahu) n. Aritmetický průměr se značí x ; můžeme zapsat x + x + ... + xn 1 n m x= 1 2 = ∑ xi = . n n i =1 n Takto vyjádřený aritmetický průměr se nazývá prostý aritmetický průměr. Vycházíme-li z rozdělení četností, pak součet jednotlivých hodnot (úhrn) můžeme zapsat k
m = x1n1 + x2 n2 + ... + xk nk = ∑ x j n j . j =1
Vážený aritmetický průměr Dosazením do vzorce
m dostáváme aritmetický průměr ve formě váženého aritmetického n
průměru k
∑x n j
x=
j =1 k
∑n
j
. j
j =1
6
Poznámka. Pro využití relativních četností k výpočtu aritmetického průměru můžeme předchozí vzorec přepsat do tvaru k k nj x = ∑ xj = ∑ xj pj n j =1 j =1 nj kde p j = jsou relativní četnosti hodnot xj. n Vidíme, že aritmetický průměr (definovaný jako podíl úhrnu m a rozsahu n) můžeme v závislosti na způsobu uspořádání údajů vypočíst pomocí jednoho z následujících vzorců: k
m 1 n x = = ∑ xj = n n j =1
∑x n j
j =1 k
∑n
j
k
= ∑ xj pj j =1
j
j =1
Cvičení 5. Máme údaje o počtu dětí ve dvaceti domácnostech: 0, 1, 1, 1, 1, 2, 2, 2, 2, 0, 0, 0, 3, 4, 1, 0, 0, 1, 1, 2. Vypočítejte prostý aritmetický průměr a po uspořádání údajů do tabulky rozdělení četností ukažte, že ke stejnému výsledku dojdeme i použitím vzorce pro vážený aritmetický průměr. Výsledek je stále stejný, ať vycházíme z absolutních, či relativních četností. Sečtením všech 20 hodnot dostáváme úhrn m = 24. Tento součet vyjadřuje, že ve sledovaných 20 domácnostech je celkem 24 dětí. Na jednu domácnost tedy průměrně připadá 24 x= = 1, 2 dětí. 20 Uspořádáním údajů do tabulky rozdělení četností a doplněním o součiny xjnj a xjpj dostáváme tabulku Počet dětí xj
Počet domácností nj
Počet domácností relativně pj
xjnj
xjpj
0 1 2 3 4 Součet
6 7 5 1 1 20
0,30 0,35 0,25 0,05 0,05 1,00
0 7 10 3 4 24
0,00 0,35 0,50 0,15 0,20 1,20
k
Z tabulky je vidět, že hodnota úhrnu m, vypočítaná jako
∑x n j
j
, je skutečně 24, takže i nyní
j =1
je x=
24 = 1, 2 , 20
což je i součet součinů xjpj z tabulky.
7
Vlastnosti aritmetického průměru 1. Z definice aritmetického průměru vyplývá, že aritmetický průměr nahrazuje hodnoty všech prvků tak, že se nezmění celkový úhrn hodnot znaku x1 + x2 + ... + xn = x + x + ... + x . 2. Násobíme-li všechny četnosti nj nenulovou konstantou, aritmetický průměr se nezmění. 3. Připočteme-li ke všem hodnotám statistického znaku nezápornou konstantu, průměr se o tuto konstantu zvětší. Podobně je možné rozšířit tuto vlastnost na odečtení konstanty od všech hodnot a na vynásobení či vydělení všech hodnot nenulovou konstantou. Stejným způsobem se změní i aritmetický průměr. 4. Rozdělíme-li soubor hodnot xi pro i = l, 2 ..., n do skupin, pak průměr celého souboru je váženým aritmetickým průměrem skupinových průměrů, přičemž jako četnosti vystupují počty hodnot v jednotlivých skupinách. Tuto vlastnost lze symbolicky zapsat L
∑x n j
x=
j =1 L
∑n
j
, j
j =1
kde L je počet skupin, j pořadové číslo skupiny, x j průměr j-té skupiny, nj četnost j-té skupiny.
Příklad 6. Podle textu cvičení 5 ověřte, že přičteme-li ke všem hodnotám xi pro i = 1, 2, ..., 20 konstantu c = 2, zvětší se i aritmetický průměr o 2.
Příklad 7. Z rozdělení četností v následující tabulce vypočítejte nejdříve aritmetický průměr x a potom x j − 3000 aritmetický průměr nové proměnné y j = ; porovnejte průměry x a y . 500 xj nj 1 500 126 2 500 381 3 500 481 4 500 12 Součet 1 000
8
Příklad 8. V první skupině jsou hodnoty statistického znaku 1, 2, 3, ve druhé skupině 2, 3, 5, 6 a ve třetí skupině 4, 5, 6. Vypočítejte průměry v jednotlivých skupinách a ukažte, že průměr všech tří skupin dohromady je vážený aritmetický průměr skupinových průměrů.
9
Poznámka. Přes velmi časté použití aritmetického průměru nemusí vždy vhodně zastupovat úroveň statistického znaku. Méně vhodný je především v situacích, kdy hodnoty znaku nejsou rovnoměrně rozložené kolem aritmetického průměru, a v případech, kdy v souboru jsou extrémně nízké nebo vysoké hodnoty. Použití aritmetického průměru je zcela nevhodné, jestliže součet hodnot sledovaného znaku nemá věcný smysl.
Harmonický průměr Používá se při výpočtu průměru z poměrných čísel. Harmonický průměr z nenulových hodnot statistického znaku je definován jako podíl rozsahu souboru a součtu převrácených hodnot znaku: n n xh = = n 1 1 1 1 + + ... + ∑ x1 x2 xn i =1 xi Zápis harmonického průměru má formu prostého harmonického průměru. Při uspořádání údajů do tabulky rozdělení četností použijeme při výpočtu formu váženého harmonického průměru. Při zachování symboliky použijeme vzorec k
∑n xh =
j
j =1 k
nj
.
∑x j =1
i
Harmonický průměr má některé podobné vlastnosti jako aritmetický průměr.
Cvičení 6. Dva pracovníci opakovaně provádějí stejnou výrobní operaci. Prvnímu pracovníkovi trvá operace 2 minuty, zatímco druhému pracovníkovi 6 minut. Jak dlouho trvá průměrně 1 operace? V daném případě součet čísel 2 a 6 postrádá věcný smysl. Je zřejmé, že např. za hodinu provede příslušnou operaci první pracovník 30 krát a druhý pracovník 10 krát. Na každého z nich průměrně připadá 20 operací za hodinu, což znamená průměrně 3 minuty na provedení 1 operace. Ke stejnému výsledku dojdeme použitím harmonického průměru
xh =
2 = 3. 1 1 + 2 6
Cvičení 7. Údaje o výrobě určitého výrobku jsou uspořádány do tabulky. Vypočítejte průměrné procento splnění plánu za všechny tři závody dohromady. Závod Splnění plánu (%) Skutečná výroba (kusy) 1 110 550 2 90 720 3 80 560 Sledovaným statistickým znakem je poměrné číslo nazvané procento splnění plánu. Toto poměrné číslo lze symbolicky vyjádřit
10
skutečná výroba v kusech ⋅100 . Znamená to, že průměrné plánovaná výroba v kusech procento splnění plánu je 100násobek podílu součtu skutečné a plánované výroby. Doplnímeli tabulku vypočítáním plánované výroby skutečná výroba plánovaná výroba = ⋅100 , splnění plánu plánovaná výroba v kusech 500 800 700 procento splnění plánu =
můžeme vypočítat průměrné procento splnění plánu 1830 ⋅100 = 91, 5 . 2000 Ke stejnému výsledku dojdeme použitím váženého harmonického průměru, kde jako četnosti vystupují skutečné objemy výroby jednotlivých závodů.
Geometrický průměr Geometrický průměr z kladných hodnot znaku je definován takto: xg = n x1 ⋅ x2 ⋅ ... ⋅ xn
Cvičení 8. V roce 1980 byla spotřeba určitého druhu zboží dvakrát vyšší než spotřeba v roce 1979. V roce 1981 byla spotřeba stejného druhu zboží šestkrát vyšší než v roce 1980. Kolikrát průměrně ročně stoupla spotřeba tohoto druhu zboží? V daném případě má smysl pouze součin čísel 2 a 6. Vyjadřuje, kolikrát vzrostla spotřeba celkem, tj. v roce 1981 proti roku 1979. Průměrný růst spotřeby charakterizuje geometrický průměr xg = 2 ⋅ 6 3, 464 .
Modus Modus je nejčetnější hodnota statistického souboru; je to hodnota (varianta) znaku, která se v souboru nejčastěji vyskytuje.
Poznámka. Někdy říkáme, že aritmetický průměr je dobrým představitelem polohy statistického znaku, jestliže se příliš neliší od nejčetnější hodnoty (modu).
Medián Medián je prostřední hodnota statistického souboru, který je uspořádán podle velikosti hodnot statistického znaku. Při lichém počtu hodnot je medián jednoznačně určen, zatímco při sudém n jde o prostý aritmetický průměr ze dvou prostředních hodnot.
11
Cvičení 9. Údaje o počtu zameškaných hodin v kursu angličtiny jsou uspořádány do tabulky. Počet zmeškaných hodin Počet žáků 0 1 1 11 2 0 3 2 4 0 5 0 19 1 Aritmetický průměr zameškaných hodin je: 1 ⋅11 + 2 ⋅ 0 + 3 ⋅ 2 + 5 ⋅ 0 + 19 ⋅1 = 2, 4 15 Uvědomíme-li si,že dvanáct žáků z patnácti má méně než 2 zameškané hodiny, potom průměr 2,4 nelze považovat za vhodnou charakteristiku úrovně. Výskyt extrémní hodnoty v souboru (19 zameškaných hodin u 1 žáka) zkresluje hodnotu aritmetického průměru. V dané situaci je vhodnější charakteristikou modus nebo medián. Nejčastější je 1 zameškaná hodina (11 žáků) a rovněž prostřední hodnota je 1, jak je lépe vidět z rozepsané řady jednotlivých hodnot 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 3, 19. Prostřední je osmá hodnota, což je jedna zameškaná hodina. Jedna zameškaná hodina lépe charakterizuje úroveň souboru než aritmetický průměr 2,4 hodiny. x=
Příklad 9. Ze 44 žáků je 12 ve věku 17 let, 30 ve věku 18 let a 2 ve věku 19 let. Jaký je průměrný věk žáků?
Příklad 10. V první třídě nasbíral jeden žák průměrně 20 kg papíru, ve druhé třídě 30 kg a ve třetí 40 kg. Kolik kilogramů papíru sebral průměrně jeden žák za všechny tři třídy dohromady, jestliže ve druhé třídě byl stejný počet žáků jako v první třídě, ale ve třetí třídě byla polovina žáků ve srovnání s první i druhou třídou?
12
Příklad 11. Jak se změní průměr, zvýšíme-li hodnotu každého prvku souboru o 10 %?
Příklad 12. Z 20 dělníků jich 10 provádí určitou práci za 2 minuty, 5 za 5 minut a 5 za 10 minut. Kolik minut připadá průměrně na 1 dělníka?
Příklad 13. Za 5 let má vzrůst objem výroby o 50 %. O kolik procent musí průměrně ročně růst?
Příklad 14. Pro rozdělení četností v tabulce určete modus a medián. xj nj 1 8 2 9 3 19 4 50 5 14 6 7 7 2 8 1 Součet 110
13
Charakteristiky variability Kromě polohy sledovaných znaků je třeba zkoumat i to, jak se jednotlivé hodnoty liší od míry polohy i jak se liší vzájemně. Odlišnost hodnot příslušného znaku nazýváme měnlivost nebo též variabilita. Zcela různé řady hodnot či zcela různá rozdělení četností mohou mít stejné míry polohy. Například řada 7, 7, 7, 8, 8, 8, 8, 9, 9, 9 má zcela stejný průměr, medián i modus jako řada 1, 1, 1, 8, 8, 8, 8, 15, 15, 15, i když se tyto dvě řady od sebe výrazně liší právě variabilitou. Lze říci, že čím větší je variabilita sledovaného znaku, tím méně reprezentativní je charakteristika polohy. Charakteristiky se používají především při srovnávání variability dvou nebo více znaků různé polohy nebo v různých měřicích jednotkách. Nejpoužívanější charakteristikou variability je průměrná čtvercová odchylka od aritmetického průměru nazývaná rozptyl.
Rozptyl Rozptyl statistického znaku X je v prosté formě definován: n
∑(x − x )
2
i
sx2 =
i =1
n Při uspořádání údajů do tabulky rozdělení četností používáme pro výpočet váženou formu rozptylu k
2
∑( xj − x ) nj sx2 =
j =1
.
k
∑n
j
j =1
Poznámka. V některých případech je při výpočtu výhodnější použít výpočetní tvar rozptylu v prosté formě n
sx2 =
∑x
2 i
− x2
i =1
n
nebo ve vážené formě k
∑x n sx2 =
2
j =1 k
∑n
j
− x2 . j
j =1
Poznámka. Někdy se krátce říká, že rozptyl je průměr čtverců mínus čtverec průměru sx2 = x 2 − x 2 . Někoho může napadnout, proč jako míru variability doporučujeme průměr druhých mocnin odchylek od aritmetického průměru. Je však třeba mít na mysli, že průměrná odchylka od průměru je vždy nulová, protože součet odchylek od aritmetického průměru n
∑(x − x ) = 0 . i
i =1
Určitou možností je nerozlišovat záporné a kladné odchylky od průměru a definovat 14
průměrnou absolutní odchylku: k
n
∑ d=
∑x
xi − x
i =1
n
=
j
− x ⋅ nj
j =1 k
∑n
j
j =1
Zkušenosti s používáním charakteristik variability, jakož i matematické vlastnosti těchto charakteristik ukazují, že průměrná čtvercová odchylka (rozptyl) je užitečnější charakteristikou než průměrná absolutní odchylka.
Směrodatná odchylka Kromě průměrné čtvercové odchylky se často používá i tzv. směrodatná odchylka sx, která je druhou odmocninou z rozptylu. Interpretace směrodatné odchylky je velmi blízká interpretaci průměrné odchylky.
Variační koeficient Jako relativní míra variability se nejčastěji používá variační koeficient, který je podílem směrodatné odchylky a aritmetického průměru: s vx = x x Variační koeficient se používá především pro srovnání variability dvou nebo více souborů v různých měřicích jednotkách nebo různé úrovně.
Variační rozpětí Doplňujícími charakteristikami variability jsou variační rozpětí R = xmax – xmin
Cvičení 10. Pro řadu čísel 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 vypočítejte variační rozpětí, průměrnou absolutní odchylku, rozptyl a směrodatnou odchylku, variační koeficient. Dokažte, že součet odchylek jednotlivých hodnot od aritmetického průměru je nula. Úhrn je m = l + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 = 55, takže aritmetický průměr je 55 x= = 5, 5 . Odchylky od aritmetického průměru jsou: 10 xi − x : –4,5 –3,5 –2,5 –1,5 –0,5 0,5 1,5 2,5 3,5 4,5 Je vidět, že součet těchto odchylek je nula a že součet absolutních odchylek od aritmetického průměru je 25, takže průměrná absolutní odchylka je 25 d = = 2, 5 . 10 Variační rozpětí 10 – 1 = 9. Rozptyl můžeme vypočítat jako součet čtvercových odchylek od průměru dělený jejich počtem n: 20, 25 + 12, 25 + 6, 25 + 2, 25 + 0, 25 + 0, 25 + 2, 25 + 6, 25 + 12, 25 + 20, 25 sx2 = = 8, 25 10 Jinou možností výpočtu je výpočetní tvar, podle kterého je : 1 + 4 + 9 + 16 + 25 + 36 + 49 + 64 + 81 + 100 sx2 = − 5, 52 = 38, 5 − 30, 25 = 8, 25 10
15
Směrodatná odchylka je sx = 8, 25 2,87 . Variační koeficient je vx
8, 25 0, 522 . 5, 5
Cvičení 11. Na základě údajů tabulky vypočítejte směrodatnou odchylku počtu zmetků. Počet zmetků Počet případů xj nj 2 13 3 15 4 25 5 18 6 12 7 12 8 8 Celkem 100 Nejdříve vypočítáme rozptyl podle výpočetního tvaru k
∑x n 2 x
s =
2
j =1
n
j
− x2 .
Potřebné výpočty jsou uspořádány do tabulky xjnj 26 45 100 90 72 84 64 481 Potom
x 2j n j 52 135 400 450 432 588 512 2 569 2
sx2 =
2569 481 − 2,554 , 100 100
takže směrodatná odchylka je
sx = 2,554 1,598 .
Cvičení 12. Porovnejte diferenciaci mezd dvou podniků na základě údajů v tabulce. Podnik A Podnik B hodinová mzda v Kč počet pracovníků měsíční mzda v Kč počet pracovníků 5 30 2 000 40 10 80 2 500 60 15 50 3 000 100 20 40 3 500 20 4 000 10 Celkem 200 Celkem 230
16
K porovnání diferenciace (variability) mezd vyjádřených v různých jednotkách (hodinové a měsíční mzdy) se nejlépe hodí variační koeficient. Vypočítáme nejdříve průměry a rozptyly. Výpočty a mezivýsledky jsou uspořádány do tabulky Podnik A Podnik B 2 xj nj x 2j n j xjnj xjnj 150 800 750 800
750 8 000 11 250 16 000
2 500
36 000
80 000 150 000 300 000 70 000 40 000 640 000
160 000 000 375 000 000 900 000 000 245 000 000 160 000 000 1 840 000 000
Pro podnik A je rozptyl 2
36000 2500 s = − = 23, 75 , 200 200 2 x
z čehož variační koeficient je vx =
23, 75 0, 39 . 12,5
Pro podnik B je rozptyl 2
1765000000 640000 s = − 257089 , 230 230 z čehož variační koeficient je 257089 vx = 0,18 . 2782, 6 Variabilita mezd v podniku B je nižší než v podniku A. 2 x
Cvičení 13. Měřicí přístroj se při 20 měřeních dopustil následujících odchylek od skutečné hodnoty parametru pozorované součástky. 0,01 –0,02 0,01 0,01 –0,01 0,00 0,01 –0,02 0,02 0,01 –0,01 0,00 0,03 0,01 –0,03 –0,01 0,02 0,01 0,00 –0,02 Na základě hodnoty aritmetického průměru chyby měření zhodnoťme, zda chyby přístroje mají náhodný charakter, nebo je můžeme považovat spíše za systematické. Podle velikosti směrodatné odchylky chyb měření posuďme přesnost měřícího přístroje. Odchylky naměřených hodnot od skutečné hodnoty parametru součástky považujeme za statistický znak X. Napozorované hodnoty uspořádáme do tabulky rozdělení četností.
17
Chyby měření Počet případů xi ni –0,03 1 –0,02 3 –0,01 3 0,00 3 0,01 7 0,02 2 0,03 1 Celkem 20 Aritmetický průměr se vypočítá jako podíl součtu jednotlivých hodnot a jejich počtu, tedy jako 0, 02 x= = 0, 001 . 20 Ke stejnému výsledku bychom dospěli výpočtem podílu součtu součinů xini a počtu pozorování. Přesvědčte se o tom. Tabulka rozdělení četností i hodnota aritmetického průměru naznačuje tendenci k eliminaci kladných a záporných chyb měření. Počet měření není příliš velký, ale i tak výsledky mají spíše charakter náhodných chyb než systematických. Směrodatná odchylka hodnot x je odmocninou z rozptylu těchto hodnot. Rozptyl se vypočítá podle vzorce ve váženém tvaru 7
∑(x
2
j
− x ) nj
j =1
=
7
∑n
0, 004780 = 0, 000239 20
j
j =1
nebo podle téhož vzorce upraveného do výpočetního tvaru 7
∑x n 2 j
j =1 7
∑n
j
− x2 =
0, 0048 − 0, 0012 = 0, 000239 . 20
j
j =1
Hledaná směrodatná odchylka tedy je 0, 000239 0, 015460 . Interpretujeme-li výsledek jako průměrnou vzdálenost pozorovaných hodnot od skutečné hodnoty parametru, tak zároveň hodnotíme i přesnost měřícího přístroje.
Příklad 15. Pro řadu čísel 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 7, 8 vypočítejte variační rozpětí, rozptyl, směrodatnou a průměrnou absolutní odchylku.
18
Příklad 16. Podle údajů v tabulce vypočítejte rozptyl. Hodnoty znaku 1 2 3 4 5
Četnosti 12 80 14 8 6
Příklad 17. Ve třídě je 30 % žáků bez sourozence, 60 % žáků s jedním sourozencem a 10 % žáků se dvěma sourozenci. Vypočítejte směrodatnou odchylku počtu sourozenců ve třídě.
19
Příklad 18. Jak se změní rozptyl, když každou hodnotu statistického znaku zvětšíme o kladnou konstantu c?
Příklad 19. Jak se změní rozptyl, když každou hodnotu statistického znaku zvětšíme o 10 %?
Příklad 20. Porovnejte variabilitu řady hodnot 1, 2, 3, 4, 5 s variabilitou řady hodnot 100, 200, 300, 400, 500.
20