cvičící Ing. Jana Fenclová
3. cvičení 4ST201 - řešení Obsah: Míry variability
☺
Rozptyl ☺ Směrodatná odchylka ☺ Variační koeficient ☺ Rozklad rozptylu na meziskupinovou a vnitroskupinovou variabilitu ☺ Změna rozptylu ☺
Vysoká škola ekonomická
VŠE kurz 4ST201
1
Ing. Jana Fenclová
Míry variability Příklad 3.1.:
V menze jsme sledovali dva stoly, u kterých sedělo shodně 6 strávníků. Sledovali jsme počet snědených ovocných knedlíků. U prvního stolu jsme zjistili hodnoty: 2,2,5,5,8,8. U druhého stolu jsme zjistili hodnoty 5,5,5,5,5,5. Co byste řekli o obou stolech? Průměrný počet snězených knedlíků je u obou stolů shodný 5. Ale liší se minimální a maximální hodnoty snědených knedlíků. Liší se tedy odchylky od průměru. Můžeme říci, že se oba stoly shodují v „poloze“, ale liší se ve „variabilitě“.
Uveďte jak se od sebe liší míry polohy a míry variability? Proč u datových souborů sledujeme tyto míry, jaké nám udávají informace? Ilustrujte na předchozím příkladě. Míry polohy charakterizují typickou hodnotu v souboru. Variabilita nám ukazuje, jak moc se jednotlivé hodnoty od sebe odlišují. Tuto odlišnost sledujeme vzdáleností jednotlivých hodnot od průměru. Tuto vzdálenost můžeme posuzovat více metodami. Pro nás nejdůležitější je průměrná kvadratická odchylka sledovaných hodnot od průměru, která je základem rozptylu. Rozptyl hodnot je základní mírou variability.
2
VŠE kurz 4ST201
Ing. Jana Fenclová
Míry variability
Vše naleznete na www.statistika.vse.cz
Najděte si ve vzorcích následující statistiky:
3
VŠE kurz 4ST201
Ing. Jana Fenclová
Míry variability Absolutní míry variability 1. Variační rozpětí: 2. Rozptyl:
R = xmax − xmin 1 n 2 s = ∑ ( xi − x ) n i =1 2 x
3. Směrodatná odchylka:
s x = s x2
Relativní míry variability 4. Variační koeficient:
Vx =
sx x 4
VŠE kurz 4ST201
Ing. Jana Fenclová
Míry variability – základní příklad Příklad 3.2.: Sledovali jsme dva studenty Adama a Evu. Oba se připravovali na 1.test ze statistiky celkem 5 dní. Zajímalo nás, kolik hodin denně se na test připravovali. U Adama jsme zjistili následující hodiny: 1,1,2,1,10 a u Evy 2,4,3,4,2. Pokuste se popsat přípravu na test Adama a Evy. Pro každého spočítejte následující míry : 1. Průměr 2. Medián 3. Rozptyl 4. Variační rozpětí 5. Variační koeficient Z výsledků popište, jak se Adam a Eva připravují na test. Zkuste využít vše, co jste vypočítali. 5
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 3.2.: 1. 2.
x=
∑x
i
n
=
1 + 1 + 1 + 2 + 10 =3 5
~ x =1
[
n
]
1 1 62 ∑ (xi − x )2 = 5 (1 − 3)2 + (1 − 3)2 + (1 − 3)2 + (2 − 3)2 + (10 − 3)2 = 5 = 12,4 n i =1
3.
s x2 =
4.
R = xmax − xmin = 10 − 1 = 9
5.
Vx =
1.
x=
2. 3. 4. 5.
Adam Adam má průměrnou denní přípravu 3 hodiny, přesto vidíme, že jeho rozptyl je 12,4. Je vidět, že se neučí stabilně a spíše si nechává učivo na jeden den.
s x 3,5 = = 1,2 x 3
∑x
i
n
=
2+ 2+3+ 4+ 4 =3 5
Eva
~ x =3
[
]
1 n 1 4 2 2 2 2 2 2 s = ∑ ( xi − x ) = (2 − 3) + (2 − 3) + (3 − 3) + (4 − 3) + (4 − 3) = = 0,8 5 n i =1 5 2 x
R = xmax − xmin = 4 − 2 = 2 Vx =
Eva je pilná studentka, také se učí tři hodiny denně. Ale vidíme, že její roztpyl je pouze 0,8. Je vidět, že se učí pravidělně a stabilně.
s x 0,89 = = 0,3 x 3
6
VŠE kurz 4ST201
Ing. Jana Fenclová
Podívejte se do vzorců!
Rozptyl Základní tvar n
Z nesetříděných dat
Ze setříděných dat – pomocí absolutních četností
s =
i
i =1
n
∑ (x − x )
2
i =1
i
n
∑n i =1
Ze setříděných dat – pomocí relativních četností
∗ ni
n
i
s = ∑ ( xi − x ) ∗ pi 2 x
2
i =1
2
2 i
2
n
s =
n x ∑ xi ∑ ___ 2 2 2 i =1 sx = x − x = − i =1 n n n
∑ (x − x )
2 x
2 x
Výpočtový tvar
k x ∗ n ∑ xi * ni ∑ ___ i − i =1 k s x2 = x 2 − x 2 = i =1 k ni ∑ ni ∑ i =1 i =1 k
2
2 i
k s = x − x = ∑ x ∗ pi − ∑ xi ∗ pi i =1 i =1 2 x
___ 2
k
2
2
2 i
7
VŠE kurz 4ST201
Ing. Jana Fenclová
Rozptyl - příklad Příklad 3.3.: Opět budeme počítat rozptyl hodin, které věnuje přípravě ke studiu Adam. Použijte jiný tvar rozptylu než ten, který jsme užívali při prvním výpočtu. Vyjdou rozptyly stejně? Vypočítejte rozptyl i v SASu. Příklad 3.4.: V internetové kavárně jsme sledovali dobu, po kterou setrvali návštěvníci na internetu v průběhu jednoho dne. Zjistili jsme, že ze všech pondělních zákazníků byla: 1/5 zákazníků na internetu 1 hodinu 2/5 zákazníků na internetu 2 hodiny 1/4 zákazníků na internetu 4 hodiny Zbytek zákazníků byl na internetu 30 minut. Jaká je směrodatná odchylka hodin, které stráví zákazníci na internetu?
8
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 3.3.: 2
n
___
s x2 = x 2 − x 2 =
∑ xi2 i =1
n
n ∑ xi 2 2 12 + 12 + 12 + 2 2 + 10 2 1 + 1 + 1 + 2 + 10 107 15 − = − − i =1 = = 21,4 − 9 = 12,4 n 5 5 5 5 Co to je?
Řešení příkladu 3.4.: 2
k s = x − x = ∑x ∗ pi − ∑xi ∗ pi = i =1 i =1 2 x
___ 2
k
2
2 i
[
]
= 12 ∗1/ 5 + 22 ∗ 2 / 5 + 42 ∗1/ 4 + 0.5 2 ∗ 3 / 20 − [1∗1/ 5 + 2 ∗ 2 / 5 + 4 ∗1/ 4 + 0.5 ∗ 3 / 20] = 2
= 5 ,837− ( 2,075)2 = 5 ,837− 4 ,3 = 1,53 sx = 1,53 = 1,24
9
VŠE kurz 4ST201
Ing. Jana Fenclová
Rozklad rozptylu Máme-li datový soubor, který je rozdělen na skupiny a jsou-li zadané skupinové četnosti, skupinové průměry a skupinové rozptyly, počítáme celkový rozptyl pomocí rozkladu rozptylu na meziskupinovou a vnitroskupinovou variabilitu.
A
Meziskupinová AB
2,2,2,2,2 M ez
Vnitroskupinová A
i sk
u AC pin ov á Vnitroskupinová C
B -1,0,2,0,1
C 5,5,5,5,5
vá no i p ku B Vnitroskupinová s i z C B Me
10
VŠE kurz 4ST201
Ing. Jana Fenclová
Rozklad rozptylu - vzorec Pokud máme statistický soubor o n jednotek rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly , dílčí průměry a dílčí četnosti, potom rozptyl celého souboru je dán součtem rozptylu skupinových průměrů a průměru ze skupinových rozptylů. Podívejte se do vzorců!
∑ (x − x ) * n k
s = 2
2
i
i =1
k
xˆ
s =s +s ∑ ∑ (x − x ) k
s = 2
ni
2
x
x
ij
k
∑n i =1
i
∑n
i
i =1
2
2
i =1 j =1
x
2
i
k
s = 2
∑s * n 2
ix
i =1
i
k
∑n i =1
i
11
VŠE kurz 4ST201
Ing. Jana Fenclová
Rozklad rozptylu – základní příklad Příklad 3.5.: Sledujeme dvě cukrárny , které vyrábějí stejný zákusek, který se jmenuje „Dokonalé potěšení“. Cukrárna „Na růžku“ vyrábí ročně 2000 těchto zákusků, průměrná cena za rok je 12 Kč, cena má směrodatnou odchylku 1. Cukrárna „U Jakuba“ vyrábí ročně 1500 těchto zákusků, průměrná cena za rok 15 Kč, cena má směrodatnou odchylku 2. Spočítejte variační koeficient ceny zákusku „Dokonalé potěšení“ za obě dvě cukrárny, který bude vyjadřovat, jak variabilita ceny zákusku kolísá během celého roku.
12
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 3.5.: Cukrárna „Na Růžku“:
n1 = 2000
x1 = 12
s1 = 1
Cukrárna „U Jakuba“:
n2 = 1500
x2 = 15
s2 = 2
k
k
s x2 = s x2 + s 2 =
2 ∑ (xi − x ) * ni i =1
k
∑ ni
+
i =1
∑s i =1
2 ix
Celkový rozptyl = rozptyl skupinových průměrů + průměr skupinových rozptylů
* ni
k
∑n i =1
* nutno dopočítat celkový průměr ze skupinových průměrů
i
n
x=
∑ x ∗n
i
1
i =1
∑n k
∑ (x i =1
12 * 2000 + 15 *1500 46500 = = 13,3 2000 + 1500 3500
i
i =1
s x2ˆ =
=
n
− x ) * ni 2
i
k
∑n i =1
=
(12 − 13,3 )2 * 2000 + (15 − 13,3 )2 * 1500 1500 + 2000
s2 =
i =1
2 ix
* ni
k
∑n i =1
3380 + 4335 7715 = = 2, 2 3500 3500
i
k
∑s
=
12 * 2000 + 2 2 *1500 8000 = = 2,3 = 2000 + 1500 3500
i
s x2 = s x2 + s 2 = 2,2 + 2,3 = 4,5
s x = 4,5 = 2,1
Vx =
sx 2,1 = = 0,16 x 13,3
Relativní variabilita ceny vyjádřená variačním koeficientem je 16%. V průběhu roku kolísá cena „Dokonalého potěšení“ blízko průměrné ceny.
13
VŠE kurz 4ST201
Ing. Jana Fenclová
Rozklad rozptylu – těžší příklad Příklad . 3.6.: Byla vypracována studie vývoje tělesné váhy mužů a žen ve věku 21-24 let. Ze studie byly uveřejněny následující výsledky. Potvrďte či vyvraťte představu autorů o tom, že váha žen má menší relativní variabilitu než váha mužů. •
Nápověda: Relativní variabilitu určujeme variačním koeficientem jako podíl celkové směrodatné odchylky a celkového průměru. Jsou li data zadána jako v tomto příkladě (tj. průměry a směrodatné odchylky v jednotlivých skupinách) musíme použít k výpočtu celkový rozptyl, který složíme ze dvou částí (vnitroskupinovou a meziskupinovou). K řešení využijte rozklad rozptylu na vnitroskupinový a meziskupinový.
14
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 3.6.: Postup řešení je identický jako v příkladu 3.5. Následovný postup je zpracován v excelu (soubor je uložen na webu).
Relativní variabilita tělesné váhy je u mužů nižší než u žen. 15
VŠE kurz 4ST201
Ing. Jana Fenclová
Výpočet změny rozptylu Příklad 3.7.: Zeptali jsme se 20 lidí, kolik utratí na svátek svatého Valentýna za dárky pro své drahé polovičky. Zjistili jsme průměrnou cenu 250 Kč a směrodatná odchylka ceny 100 Kč. Vypočítejte: 1. Zjistili jsme u dvou lidí špatně zapsanou cenu. Místo ceny 500Kč měla být zaznamenána cena 450 s místo ceny 300 mělo být zapsáno 400. Jak se změní sledovaný průměr a rozptyl? 2. Pokud se zeptáme navíc ještě tří lidí, kteří odpověděli 500 Kč, 150 Kč a 2500 Kč. Jak se tentokrát změní průměr a cena?
16
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 3.7.: x nový =
1.
s =
i − starý
i − starý
i − starý
n
2 x
∑x * n ∑n
∑ x i2 i =1
n
n ∑ xi − i =1 n
±Δ
±Δ
=
20 * 250 − 50 + 100 = 252 ,5 20
Pro výpočet NOVÉHO rozptylu: známe NOVÉ n, NOVÝ průměr, ale neznáme NOVOU SUMU x2
2 n
Výpočet NOVÉ sumy X2
100 = 2
∑x i =1
2 i
n
− (250 )
Staré
2
20
i =1
n
Nové 1472500 2 − (252 ,2 ) = 9869 20 s x = 99 ,3
x nový =
s =
i − starý
i − starý
i − starý
n
2 x
∑x * n ∑n
∑x i =1
n
2 i
n ∑ xi − i =1 n
±Δ
±Δ
∑x i =1
s x2 =
2.
=
∑x
2 i
2 i
= 1450000
= 1450000 − 500 2 + 450 2 − 300 2 + 400 2
20 * 250 + 500 + 1500 + 2500 = 413 20 + 3
2 n
Výpočet NOVÉ sumy X2
100 = 2
∑x i =1
20
2 i
n
− (250 )
Staré
2
i =1
n
Nové 10200000 2 − (413 ) = 272909 23 s x = 522
∑x
∑x i =1
2 i
2 i
= 1450000
= 1450000 + 500 2 + 1500 2 + 2000 2
s x2 =
17
VŠE kurz 4ST201
Ing. Jana Fenclová
Rychlé opakování popisné statistiky na doma: Př. 3.8.: U studentů z VŠE a UK bylo zkoumáno kolik času věnují týdně studiu. V souboru data_cv03_opakovani.sas7bdat jsou uvedená zjištěná data. 1.
Vytvořte tabulku četnostní pro celý souboru(ručně i v SASu)
2.
Vytvořte tabulku četností pro každou vysokou školu zvlášť(ručně i v SASu)
3.
Vypočítejte průměrný čas věnovaný studiu za celek i za jednotlivé školy(ručně i v SASu).
4.
Vypočítejte celkový průměrný čas pomocí průměrů v jednotlivých školách.(ručně)
5.
Spočítejte medián, horní a dolní kvartil za celý soubor.(ručně i v SASu)
6.
Spočítejte rozptyl a směrodatné odchylky pro každou školu zvlášť (ručně i v SASu) a to:
7.
a)
Pro VŠE počítejte z neroztříděných dat (bez použití tabulky četností)
b)
Pro UK počítejte z roztříděných dat (s použitím tabulky četností)
Spočítejte variační a kvartilové rozpětí pro celý soubor. A jdeme z popisné statistiky na pravděpodobnost….☺ 18
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení rychlého opakování na doma: Výsledky: kdo bude mít problém s výpočty nebo jiný dotaz, přijďte na KH.
19
VŠE kurz 4ST201
Ing. Jana Fenclová
Děkuji za pozornost! Pokud budete mít jakékoliv dotazy či připomínky, pište mi na mail
[email protected] nebo přijďte do konzultačních hodin každý pátek 9:00-11:00 JM317.
20