Věk
1.
20
2.
20
3.
21
4.
22
5.
22
6.
23
7.
23
8.
24
9.
24
10.
24
Obecný vzorec pro výpočet kvantilů – sudé n:
n
p p zp n 1 100 100
Dolní kvartil:
p p 25 25 zp n 1 10 z p 10 1 100 100 100 100 2,5 z p 2,5 1 x 0,25 x (3) 21 n
Horní kvartil:
p p 25 25 n zp n 1 10 z p 10 1 100 100 100 100 7,5 z p 7,5 1 x 0,75 x (8) 24
Tomáš Karel LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji.
Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!
Tomáš Karel - 4ST201
3.10.2013
3
cv.
Program cvičení
1.
Úvod, popisná statistika
2.
Popisná statistika
3.
Míry variability, pravděpodobnost
4.
Pravděpodobnost, náhodné veličiny a jejich charakteristiky
5.
Pravděpodobnostní rozdělení
6.
TEST, odhady parametrů
7.
Testování hypotéz
8.
Chí – kvadrát test dobré shody, kontingenční tabulky, ANOVA
9.
Regrese
10. Regrese, korelace 11. TEST, časové řady (bazické a řetězové indexy) 12. Časové řady 13. Indexní analýza
Kombinační čísla
Četnosti ◦ Absolutní
n n! k (n k )!k!
ni , i 1,2,..., k pi
◦ Relativní ◦ Kumulativní
n1 n2 ... -absolutní
k
n i 1
Charakteristiky úrovně ◦ Průměr
Prostý aritmetický
i
n
k
p i 1
i
1
n
x
x
Harmonický/vážený harmonický x
◦ Kvartily
p1 p2 ... -relativní
i
i 1
k
n x
Vážený aritmetický
◦ Medián
ni n
n n
i 1 k
i
i
n i 1
1
x i 1
xn i
medián
i
21; 21; 22; 22; 22; 23; 24 1. kvartil
2.kvartil
n
Prostý aritmetický průměr
i
i 1
n
Při zpracování studie o průměrné výši měsíčních příjmů v České republice jsme získali data celkem od 5-ti tazatelů. Každý z těchto pěti souborů dat obsahoval údaje o deseti statistických jednotkách (respondentech - těch, kteří odpověděli). soubor
1.
2.
3.
4.
5.
Počet respondentů
10
10
10
10
10
18,5
21,2
24,2
19
26,2
Průměr v souboru (tis. Kč)
x
x
Vypočítejte celkovou průměrnou hodnotu ze všech získaných dat.
soubor
1.
2.
3.
4.
5.
Počet respondentů
10
10
10
10
10
Průměr v souboru (tis. Kč)
18,5
21,2
24,2
19
26,2
Prostý aritmetický průměr n
x
x i 1
n
i
18,5 21, 2 24, 2 19 26, 2 109,1 21,82 5 5
k
Vážený aritmetický průměr
x
xn i 1 k
i
n i 1
i
i
Při zpracování studie o průměrné výši měsíčních příjmů v České republice jsme získali data celkem od 5-ti tazatelů. Každý z těchto pěti souborů dat obsahoval odlišný počet údajů o statistických jednotkách (respondentech - těch, kteří odpověděli). soubor
1.
2.
3.
4.
5.
Počet respondentů
10
13
15
7
5
Průměr v souboru (tis. Kč)
18,5
21,2
24,2
19
26,2
Vypočítejte celkovou průměrnou hodnotu ze všech získaných dat.
soubor
1.
2.
3.
4.
5.
Počet respondentů - ni
10
13
15
7
5
Průměr v souboru – xi (tis. Kč)
18,5
21,2
24,2
19
26,2
Vážený aritmetický průměr k
x
x n i 1 k
i
n i 1
i
i
18,5 10 21, 2 13 24, 2 15 19 7 26, 2 5 1079,9 21, 75 10 13 15 7 5 50
Jak je možné, že průměrná mzda v České republice je 24,5 tis Kč a více jak 60 % obyvatel ČR má plat nižší ??? Datový soubor od prvního tazatele: respondent
1.
2.
3.
příjem
10,5
11
9,5
4.
5.
6.
11,5 15,5 16,5
7.
8.
9.
16
15 16,5
10
průměr
63
18,5
n
x
x i 1
n
i
10,5 11 9,5 11,5 15,5 16,5 16 15 16,5 63 18,5 10
1) Seřadit podle velikosti respondent
1.
3.
příjem
9,5 10,5
2.
4.
11
11,5
8.
5.
7.
15 15,5
medián
•
• •
•
6.
16
9.
16,5 16,5
10
průměr
63
18,5
průměr
• • • •
•
•
90% hodnot menších než průměr !!!
63,0
15 15,5 15, 25 2
...
23,0
22,5
22,0
21,5
21,0
20,5
2
20,0
x (5) x (6)
19,5
19,0
18,5
18,0
x 0,5 x
17,5
17,0
16,5
16,0
15,5
15,0
14,5
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
10,0
9,5
9,0
2) Určit prostřední hodnotu
1) Seřadit podle velikosti respondent
1.
3.
9,5 10,5
příjem
2.
4.
11
11,5
8.
5.
15 15,5
medián
•
• •
•
•
6.
16
9.
10
průměr 18,5
16,5 16,5 63,1
průměr
• • • •
•
x 0,25 x (3) 11 x 0,75 x (8) 16,5
90% hodnot menších než průměr !!!
63,0
...
23,0
22,5
22,0
21,5
21,0
20,5
20,0
p p zp n 1 100 100 p p n zp n 1 100 100 n
19,5
19,0
18,5
18,0
17,5
17,0
16,5
16,0
15,5
15,0
3) Určit 3. kvartil x0,75
14,5
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
10,0
9,5
9,0
2) Určit 1. kvartil x0,25
7.
Modus (modální hodnota) je taková hodnota, která je v souboru nejčastěji zastoupena (má největší četnost) modus medián
•
• •
•
•
průměr • • • •
•
18,5 tis Kč
„průměrná hodnota“
• Modus
16,5 tis Kč
„nejčastěji zastoupená hodnota“
• Medián
15,25 tis Kč
„prostřední hodnota“
63,0
...
23,0
22,5
22,0
21,5
21,0
20,5
20,0
19,5
19,0
18,5
18,0
17,5
17,0
16,5
16,0
15,5
15,0
14,5
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
10,0
9,5
9,0
• Průměr
Rozptyl ◦ směrodatná odchylka ◦ variační koeficient ◦ variační rozpětí
Rozklad rozptylu ◦ vnitroskupinový rozptyl ◦ meziskupinový rozptyl
Vlastnosti rozptylu
Sociální nůžky Představme si dvě městečka v Jihočeském kraji* Levicov a Pravicov V obou městech bylo provedeno šetření o průměrném měsíčním příjmu obyvatel. Z výzkumu vyšlo, že v obou městech je průměrný měsíční příjem stejný a to 20 tis. Kč. Zdá se, že se v průměru se daří obyvatelům obou měst stejně. Pokud se však podíváme na bodový graf podrobněji v něčem se tato města liší. Přestože průměrný příjem jejich obyvatel je stejný. Jak to ale číselně vyjádřit?
• •• •
•• •••• 9 10 11 12 13 14 15
x 20 tis Kč
průměr 16
17 18 19 20 21 22 23 24 25
26
27 28 29 30 31
32
33 34
35
36
37
38
39
40
Pravicov
• •• •••• •• • 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31
32 33 34 35 36
37 38
39
Levicov průměr
x 20 tis Kč
40
Na minulém cvičení jsme se zabývali měrami polohy (průměry, medián, modus), které charakterizovaly hodnotovou úroveň souboru, typickou hodnotu v souboru apod. Často je však zapotřebí kromě typické hodnotové úrovně poznat i to, jak moc se jednotlivé hodnoty souboru od sebe odlišují (tzv. variabilitu souboru – Levicov vs. Pravicov). K tomuto účelu slouží právě míry variability. Abychom zachytili vzájemnou odlišnost hodnot souboru, můžeme studovat například to, jak se jednotlivé hodnoty liší od průměru. Abychom dokázali kvantifikovat (číselně vajádřit) tuto vlastnost (tj. odlišnost hodnot souboru od průměru) můžeme zvolit několik různých přístupů. Můžeme např. studovat průměrnou absolutní odchylku hodnot souboru od průměru, nebo průměrnou kvadratickou odchylku hodnot souboru od průměru apod. Právě průměrná kvadratická odchylka hodnot souboru od průměru je základem definice rozptylu jako jedné z nejvýznamnějších měr variability souboru. Existují však samozřejmě i jiné míry variability
Absolutní
◦ Rozptyl – kvadratická odchylka od průměru (Klasický) rozptyl – známe všechny hodnoty všech jednotek
(v každém městě je pouze 10 obyvatel)
n
1 s (x i x) 2 n i 1 2 x
Výběrový rozptyl –
známe pouze některé hodnoty ze souboru
1 n 2 s´x (x i x) 2 n 1 i 1
(v každém městě je víc jak 10 obyvatel)
◦ Směrodatná odchylka – je druhá odmocnina z rozptylu s x nebo s´x ◦ Variační rozpětí
- nejvyšší hodnota mínus nejnižší
R x max x min
Relativní
◦ Variační koeficient –
směrodatná odchylka dělená průměrem
Vx
sx s´ ,nebo V´x x x x
• •• •
•• •••• 9 10 11 12 13 14 15
Výběrový Rozptyl:
16
17 18 19 20 21 22 23 24 25
26
27 28 29 30 31
32
33 34
35
36
37
38
39
40
1 n 1 Pravicov (9000 20000)2 (9000 20000)2 ... (x i x) 2 n 1 i 1 10 1 1 ... (36000 20000)2 (37000 20000)2 ( 11000)2 (11000) 2 ... 140002 130002 ) 190 106 9 Výběrová směrodatná odchylka: Variační koeficient: Variační rozpětí: s´ 13784 s´2x
s´x s´2x 190 106 13784
R x max x min 37000 9000 28000
V´x
x
x
20000
0, 689
• •• •••• •• • 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31
32 33 34 35 36 37 38
39
40
1 1 Levicov (18000 20000)2 (19000 20000)2 ... (x i x) 2 n 1 i 1 10 1 1 ... (21000 20000)2 (22000 20000)2 ( 2000)2 (1000)2 ... 10002 20002 ) 1,333 106 9 Výběrová směrodatná Variační koeficient: odchylka:
Výběrový Rozptyl:
s´2x
n
s´x s´2x 1,333 106 1154
Variační rozpětí:
R x max x min 22000 18000 4000
V´x
s´x 1154 0, 058 x 20000
Míra variability
Pravicov
Levicov
Výběrový rozptyl
190x106
1,333x106
Výběrová směrodatná odchylka
13 784
1 154
Variační rozpětí
28 000
4 000
0,689
0,058
Míra úrovně (polohy)
Pravicov
Levicov
Průměr
20 000
20 000
Medián
10 000
20 000
Modus
9 000
20 000
Variační koeficient
Co by se stalo s mírami variability v jednotlivých městech, pokud by Česká republika vstoupila do měnové unie se směným kurzem 26 Kč/EUR?
Pravicov (CZK)
Levicov (CZK)
Pravicov (EUR)
Levicov (EUR)
Výběrový rozptyl
190x106
1,333x106
281 065
1 972
Výběrová směrodatná odchylka
13 784
1 154
530
44
Variační rozpětí
28 000
4 000
1 077
154
0,689
0,058
0,689
0,058
Míra úrovně (polohy)
Pravicov (CZK)
Levicov (CZK)
Pravicov (EUR)
Levicov (EUR)
Průměr
20 000
20 000
769
769
Medián
10 000
20 000
385
769
Modus
9 000
20 000
346
769
absolutní
Míra variability
relativní
Variační koeficient
Vypočítejte míry variability (rozptyl, směrodatnou odchylku), jestliže jsou údaje z předešlého příkladu zadány v relativních četnostech a známy pro celé město (=základní rozptyl). Levicov 1/10 obyvatel má příjem 2/10 obyvatel má příjem 4/10 obyvatel má příjem 2/10 obyvatel má příjem zbytek obyvatel má příjem
18 000 Kč 19 000 Kč 20 000 Kč 21 000 Kč 22 000 Kč
1 2 4 2 1 10 10 10 10 10
Příjem 22 000 Kč má: 1
Průměr z relativních četností n
x x i pi 18000 i 1
1 2 4 2 1 19000 20000 21000 22000 20000 10 10 10 10 10 2
k 2 2 2 2 Rozptyl z relativních četností s x x x x i pi x i pi i 1 i 1 1 2 4 2 1 2 180002 190002 200002 210002 220002 20000 1, 2 106 10 10 10 10 10 k
Směrodatná odchylka
s x s2x 1, 2 106 1095
Jak se změní průměr, rozptyl a směrodatná odchylka, pokud každou hodnotu v souboru zvýším o 10?
Pokud jste něčemu nerozuměli, nebo Vám je něco nejasné, zastavte se v konzultačních hodinách nebo mi pošlete e-mail. Rád Vám nejasnosti vysvětlím. Email:
[email protected]