Tomáš Karel LS 2012/2013
Vypočítejte:
8 ? 3 10 ? 9
29.11.2014
Tomáš Karel - 4ST201
2
n n! 8! 8 7 6 5 4 3 2 1 40320 56 k (n k)! k! (8 3)! 3! (5 4 3 2 1) 3 2 1 120 6
n n! 10! 10 9 8 7 6 5 4 3 2 1 10 k (n k)! k! (10 9)! 9! (1) (9 8 7 6 5 4 3 2 1)
Tomáš Karel - 4ST201
29.11.2014
3
V populárním seriálu The Big Bang Theory (Teorie velkého třesku) jedna z hlavních postav tohoto seriálu, Sheldon Cooper, uvádí rozšíření tradiční hry kámen – nůžky – papír o další dva symboly tapíra a Spocka (postava ze Star Treku) celkem na pětici symbolů
kámen – nůžky – papír – tapír – Spock http://www.youtube.com/watch?v=_F0pszFyQqI
Kolik musí být ve hře s pěti symboly stanoveno pravidel, podle kterých se vůči sobě jednotlivé symboly chovají?
Např. 1) Papír balí kámen, 2) nůžky stříhají papír …
Tomáš Karel - 4ST201
29.11.2014
4
Ve hře s pěti symboly musí být udáno celkem
n 5 5! 5 4 3 2 1 120 10 6 k 2 (5 2)! 2! 3 2 1 2 1 pravidel, určujících jak se jednotlivé symboly vůči sobě chovají:
Nůžky stříhají papír Tapír balí kámen Kámen rozdrtí Tapíra Tapír otráví Spocka Spock zničí nůžky Nůžky ustřihnou hlavu Tapírovi Tapír sní papír Papír usvědčuje Spocka Spock nechá vypařit kámen A jak je tomu zvykem, kámen tupí nůžky
Tomáš Karel - 4ST201
29.11.2014
5
Statistické znaky
kvantitativní
ordinální (pořadové)
29.11.2014
měřitelné
kvalitativní
alternativní (binomické)
Tomáš Karel - 4ST201
množné
6
absolutní četnosti
ni , i 1,2,..., k
relativní četnosti
pi
kumulativní absolutní četnosti platí:
k
n i 1
k
p i 1
i
n1 n2 ...
n
kumulativní relativní četnosti platí:
29.11.2014
i
ni n
p1 p2 ...
1
Tomáš Karel - 4ST201
7
průměr (aritmetický, geometrický, harmonický, kvadratický)
modus = hodnota s nejvyšší četností
a%-ní kvantil = dělí soubor uspořádaný podle velikosti (od nejnižších hodnot po nejvyšší) na prvních a% hodnot a zbývajících (100-a)% medián = prostřední hodnota v souboru uspořádaném podle velikosti = 50% kvantil
dolní kvartil = 25% kvantil
horní kvartil = 75% kvantil
29.11.2014
Tomáš Karel - 4ST201
8
29.11.2014
Tomáš Karel - 4ST201
9
Jaký je průměrný počet věk vybraných spolužáků? (vypočtěte dvojím způsobem - nejdříve ze základní tabulky a poté z tabulky rozdělení četností) n
ze základní tabulky
x
(prostý aritmetický průměr)
x i 1
i
n k
z tabulky rozdělení četností
(vážený aritmetický průměr)
x
xn i 1 k
i
n i 1
29.11.2014
i
Tomáš Karel - 4ST201
i
10
POZOR NA GRAFY !!!
Kombinační čísla
Četnosti ◦ Absolutní
n n! k (n k )!k!
ni , i 1,2,..., k pi
◦ Relativní ◦ Kumulativní
n1 n2 ... -absolutní
k
n i 1
Charakteristiky úrovně ◦ Průměr
Prostý aritmetický
i
n
k
p i 1
i
1
n
x
x
Harmonický/vážený harmonický x
◦ Kvartily
p1 p2 ... -relativní
i
i 1
k
n x
Vážený aritmetický
◦ Medián
ni n
n n
i 1 k
i
i
n i 1
1
x i 1
xn i
medián
i
21; 21; 22; 22; 22; 23; 24
1. kvartil
2.kvartil
n
Prostý aritmetický průměr
i
i 1
n
Při zpracování studie o průměrné výši měsíčních příjmů v České republice jsme získali data celkem od 5-ti tazatelů. Každý z těchto pěti souborů dat obsahoval údaje o deseti statistických jednotkách (respondentech - těch, kteří odpověděli). soubor
1.
2.
3.
4.
5.
Počet respondentů
10
10
10
10
10
18,5
21,2
24,2
19
26,2
Průměr v souboru (tis. Kč)
x
x
Vypočítejte celkovou průměrnou hodnotu ze všech získaných dat.
soubor
1.
2.
3.
4.
5.
Počet respondentů
10
10
10
10
10
Průměr v souboru (tis. Kč)
18,5
21,2
24,2
19
26,2
Prostý aritmetický průměr n
x
x i 1
n
i
18,5 21, 2 24, 2 19 26, 2 109,1 21,82 5 5
k
Vážený aritmetický průměr
x
xn i 1 k
i
n i 1
i
i
Při zpracování studie o průměrné výši měsíčních příjmů v České republice jsme získali data celkem od 5-ti tazatelů. Každý z těchto pěti souborů dat obsahoval odlišný počet údajů o statistických jednotkách (respondentech - těch, kteří odpověděli). soubor
1.
2.
3.
4.
5.
Počet respondentů
10
13
15
7
5
Průměr v souboru (tis. Kč)
18,5
21,2
24,2
19
26,2
Vypočítejte celkovou průměrnou hodnotu ze všech získaných dat.
soubor
1.
2.
3.
4.
5.
Počet respondentů - ni
10
13
15
7
5
Průměr v souboru – xi (tis. Kč)
18,5
21,2
24,2
19
26,2
Vážený aritmetický průměr k
x
x n i 1 k
i
n i 1
i
i
18,5 10 21, 2 13 24, 2 15 19 7 26, 2 5 1079,9 21, 75 11 13 15 7 4 50
Jak je možné, že průměrná mzda v České republice je 24,5 tis Kč a více jak 60 % obyvatel ČR má plat nižší ??? Datový soubor od prvního tazatele: respondent
1.
2.
3.
příjem
10,5
11
9,5
4.
5.
6.
11,5 15,5 16,5
7.
8.
9.
16
15 16,5
10
průměr
63
18,5
n
x
x i 1
n
i
10,5 11 9,5 11,5 15,5 16,5 16 15 16,5 63 18,5 10 Odkaz 1
Odkaz2
1) Seřadit podle velikosti respondent
1.
3.
příjem
9,5 10,5
2.
4.
11
11,5
8.
5.
7.
15 15,5
medián
•
• •
•
6.
16
9.
16,5 16,5
10
průměr
63
18,5
průměr
• • • •
•
•
90% hodnot menších než průměr !!!
63,0
15 15,5 15, 25 2
...
23,0
22,5
22,0
21,5
21,0
20,5
2
20,0
x (5) x (6)
19,5
19,0
18,5
18,0
x 0,5 x
17,5
17,0
16,5
16,0
15,5
15,0
14,5
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
10,0
9,5
9,0
2) Určit prostřední hodnotu
1) Seřadit podle velikosti respondent
1.
3.
9,5 10,5
příjem
2.
4.
11
11,5
8.
5.
15 15,5
medián
•
• •
•
•
6.
16
9.
10
průměr 18,5
16,5 16,5 63,1
průměr
• • • •
•
x 0,25 x (3) 11 x 0,75 x (8) 16,5
90% hodnot menších než průměr !!!
63,0
...
23,0
22,5
22,0
21,5
21,0
20,5
20,0
p p zp n 1 100 100 p p n zp n 1 100 100 n
19,5
19,0
18,5
18,0
17,5
17,0
16,5
16,0
15,5
15,0
3) Určit 3. kvartil x0,75
14,5
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
10,0
9,5
9,0
2) Určit 1. kvartil x0,25
7.
Modus (modální hodnota) je taková hodnota, která je v souboru nejčastěji zastoupena (má největší četnost)
modus medián •
• •
•
•
průměr • • • •
•
18,5 tis Kč
„průměrná hodnota“
• Modus
16,5 tis Kč
„nejčastěji zastoupená hodnota“
• Medián
15,25 tis Kč
„prostřední hodnota“
63,0
...
23,0
22,5
22,0
21,5
21,0
20,5
20,0
19,5
19,0
18,5
18,0
17,5
17,0
16,5
16,0
15,5
15,0
14,5
14,0
13,5
13,0
12,5
12,0
11,5
11,0
10,5
10,0
9,5
9,0
• Průměr
Rozptyl ◦ směrodatná odchylka ◦ variační koeficient ◦ variační rozpětí
Rozklad rozptylu ◦ vnitroskupinový rozptyl ◦ meziskupinový rozptyl
Vlastnosti rozptylu
Sociální nůžky Představme si dvě městečka v Jihočeském kraji* Levicov a Pravicov V obou městech bylo provedeno šetření o průměrném měsíčním příjmu obyvatel. Z výzkumu vyšlo, že v obou městech je průměrný měsíční příjem stejný a to 20 tis. Kč. Zdá se, že se v průměru se daří obyvatelům obou měst stejně. Pokud se však podíváme na bodový graf podrobněji v něčem se tato města liší. Přestože průměrný příjem jejich obyvatel je stejný. Jak to ale číselně vyjádřit?
• •• •
•• •••• 9 10 11 12 13 14 15
x 20 tis Kč
průměr 16
17 18 19 20 21 22 23 24 25
26 27 28 29 30 31
32
33 34
35
36
37
38
39
40
Pravicov
• •• •••• •• • 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31
32 33 34 35 36 37 38
39
Levicov průměr
x 20 tis Kč
40
Na minulém cvičení jsme se zabývali měrami polohy (průměry, medián, modus), které charakterizovaly hodnotovou úroveň souboru, typickou hodnotu v souboru apod. Často je však zapotřebí kromě typické hodnotové úrovně poznat i to, jak moc se jednotlivé hodnoty souboru od sebe odlišují (tzv. variabilitu souboru – Levicov vs. Pravicov). K tomuto účelu slouží právě míry variability. Abychom zachytili vzájemnou odlišnost hodnot souboru, můžeme studovat například to, jak se jednotlivé hodnoty liší od průměru. Abychom dokázali kvantifikovat (číselně vajádřit) tuto vlastnost (tj. odlišnost hodnot souboru od průměru) můžeme zvolit několik různých přístupů.
Můžeme např. studovat průměrnou absolutní odchylku hodnot souboru od průměru, nebo průměrnou kvadratickou odchylku hodnot souboru od průměru apod. Právě průměrná kvadratická odchylka hodnot souboru od průměru je základem definice rozptylu jako jedné z nejvýznamnějších měr variability souboru. Existují však samozřejmě i jiné míry variability
Absolutní
◦ Rozptyl – kvadratická odchylka od průměru (Klasický) rozptyl – známe všechny hodnoty všech jednotek
(v každém městě je pouze 10 obyvatel)
n
1 s (x i x) 2 n i 1 2 x
Výběrový rozptyl –
známe pouze některé hodnoty ze souboru
1 n 2 s´x (x i x) 2 n 1 i 1
(v každém městě je víc jak 10 obyvatel)
◦ Směrodatná odchylka – je druhá odmocnina z rozptylu s x nebo s´x ◦ Variační rozpětí
- nejvyšší hodnota mínus nejnižší
R x max x min
Relativní
◦ Variační koeficient –
směrodatná odchylka dělená průměrem
Vx
sx s´ ,nebo V´x x x x
• •• •
•• •••• 9 10 11 12 13 14 15
16
17 18 19 20 21 22 23 24 25
26 27 28 29 30 31
32
33 34
35
36
37
38
39
40
1 n 1 Pravicov (9000 20000)2 (9000 20000)2 ... (x i x) 2 n 1 i 1 10 1 1 ... (36000 20000)2 (37000 20000)2 ( 11000)2 (11000) 2 ... 140002 130002 ) 190 106 9 Směrodatná odchylka: Variační koeficient: Variační rozpětí: s´ 13784
Rozptyl: s´2x
s´x s´2x 190 106 13784
R x max x min 37000 9000 28000
V´x
x
x
20000
0, 689
• •• •••• •• • 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31
32 33 34 35 36 37 38
39
40
1 1 Levicov (18000 20000)2 (19000 20000)2 ... (x i x) 2 n 1 i 1 10 1 1 ... (21000 20000)2 (22000 20000)2 ( 2000)2 (1000)2 ... 10002 20002 ) 1,333 106 9 Směrodatná odchylka: Variační koeficient:
Rozptyl: s´2x
n
s´x s´2x 1,333 106 1154
Variační rozpětí:
R x max x min 22000 18000 4000
V´x
s´x 1154 0, 058 x 20000
Míra variability
Pravicov
Levicov
Výběrový rozptyl
190x106
1,333x106
Výběrová směrodatná odchylka
13 784
1 154
Variační rozpětí
28 000
4 000
0,689
0,058
Míra úrovně (polohy)
Pravicov
Levicov
Průměr
20 000
20 000
Medián
10 000
20 000
Modus
9 000
20 000
Variační koeficient
Co by se stalo s mírami variability v jednotlivých městech, pokud by Česká republika vstoupila do měnové unie se směným kurzem 26 Kč/EUR?
Pravicov (CZK)
Levicov (CZK)
Pravicov (EUR)
Levicov (EUR)
Výběrový rozptyl
190x106
1,333x106
281 065
1 972
Výběrová směrodatná odchylka
13 784
1 154
530
44
Variační rozpětí
28 000
4 000
1 077
154
0,689
0,058
0,689
0,058
Míra úrovně (polohy)
Pravicov (CZK)
Levicov (CZK)
Pravicov (EUR)
Levicov (EUR)
Průměr
20 000
20 000
769
769
Medián
10 000
20 000
385
769
Modus
9 000
20 000
346
769
absolutní
Míra variability
relativní
Variační koeficient
Vypočítejte míry variability (rozptyl, směrodatnou odchylku), jestliže jsou údaje z předešlého příkladu zadány v relativních četnostech a známy pro celé město (=základní rozptyl).
Levicov 1/10 obyvatel má příjem 2/10 obyvatel má příjem 4/10 obyvatel má příjem 2/10 obyvatel má příjem zbytek obyvatel má příjem
18 000 Kč 19 000 Kč 20 000 Kč 21 000 Kč 22 000 Kč
1 2 4 2 1 10 10 10 10 10
Příjem 22 000 Kč má: 1
Průměr z relativních četností n
x x i pi 18000 i 1
1 2 4 2 1 19000 20000 21000 22000 20000 10 10 10 10 10 2
k 2 2 2 2 Rozptyl z relativních četností s x x x x i pi x i pi i 1 i 1 1 2 4 2 1 2 180002 190002 200002 210002 220002 20000 1, 2 106 10 10 10 10 10 k
Směrodatná odchylka
s x s2x 1, 2 106 1095
Náhodný pokus pokus, jehož výsledek se i při dodržení podmínek mění, tj. jehož výsledek závisí na náhodě (např. hod kostkou). Náhodný jev výsledek náhodného pokusu (např. na kostce padla šestka). Náhodný jev budeme značit většinou velkými písmeny, např. A, B atd. Pravděpodobnost náhodného jevu A budeme označovat jako P(A). Jev jistý (označíme např. jako nebo E) Jev, jež nastane vždy, tj. při každém opakování náhod. pokusu (např. na kostce padne nějaké číslo z 1, 2, 3, 4, 5, 6), P() =1 Jev nemožný (označíme jako Ø) Jev, jež nikdy nenastane (např. na kostce padne číslo 7), P(Ø ) = 0
Elementární jev nelze vyjádřit jako sjednocení (viz. další slide) dvou jevů, jež jsou různé od tohoto jevu. Doplňkový (opačný) jev k jevu A (označíme A) Jev jež nastane právě, když nenastane jev A, P( A ) = 1 - P( A )
KLASICKÁ DEFINICE PRAVDĚPODOBNOSTI ◦ říká, že pravděpodobnost nějakého jevu je rovna podílu počtu výsledků, jež jsou danému jevu příznivé, ku celkovému (konečnému) počtu výsledků, jež jsou apriori stejně pravděpodobné.
STATISTICKÁ DEFINICE PRAVDĚPODOBNOSTI ◦ říká, že pravděpodobnost nějakého jevu je relativní četností výskytu tohoto jevu v souboru o velké velikosti (v limitě blížící se k nekonečnu).
P( A B) P( A) P( B) Příklad nezávislých jevů při hodu dvěma kostkami:
A = na první kostce padne 1, B = na druhé kostce padne 1.
1 1 1 P( A B) P( A) P( B) 6 6 36
Příklad závislých jevů při hodu dvěma kostkami:
A = na první kostce padne 1, B = součet na obou kostkách bude 10. Jev je jevem nemožným (nemůže na první kostce padnou 1 a zároveň být součet 10), proto:
1 3 0 P( A B) P( A) P( B) 6 36
P( A B) P( A) P( B) P( A B)
plocha průniku je při součtu P(A)+P(B) započítána 2x, proto jí musíme 1x odečíst pokud jevy A a B nemají průnik, nazýváme je neslučitelné (disjunktní)
pokud jevy A a B jsou neslučitelné, přechází pravidlo o sčítání PP. na:
P( A B) P( A) P( B)
Příklad neslučitelných jevů při hodu jednou kostkou: A = padne liché číslo B = padne sudé číslo
P(A B) P(A) P(B)
3 3 1 6 6
Příklad jevů, které nejsou neslučitelné při hodu jednou kostkou: A = padne některé z čísel 1, 2, 3 nebo 4 B = padne 4, 5 nebo 6
P(A B) P(A) P(B) P(A B)
4 3 1 1 6 6 6
Jaká je pravděpodobnost, že při hodu dvěma kostkami padne: a) b)
c) d)
e)
na obou kostkách šestka alespoň jedna šestka právě jedna šestka žádná šestka na obou kostkách sudé číslo Jev Jev Jev Jev
A . . . padla šestka na první kostce B . . . padla šestka na druhé kostce C . . . padlo sudé číslo na první kostce D . . . padlo sudé číslo na druhé kostce
Z publikací Českého statistického úřadu byl převzat počet narozených chlapců a děvčat v letech 1990 – 1997. Vypočítejte přibližnou pravděpodobnost, že narozené dítě bude chlapec a přibližnou pravděpodobnost, že narozené dítě bude děvče. Absolutní četnosti Rok
Chlapci
Děvčata
Celkem
1990
67 234
63 860
131 094
1991
66 895
62 955
129 850
1992
62 946
59 196
122 142
1993
62 362
59 108
121 470
1994
54 887
52 028
106 915
1995
49 570
46 827
96 397
1996
46 605
44 158
90 763
1997
46 705
44 225
90 930
Celkem
457 204
432 357
889 561
P(chlapec) 457 204 P(chlapec) 0,514 P(celkem) 889 561 P(dívka) 432 357 P(dívka) 0, 486 P(celkem) 889 561
Na viděnou na příštím cvičení. Pokud jste něčemu nerozuměli, nebo Vám je něco nejasné, zastavte se v konzultačních hodinách nebo mi pošlete e-mail. Rád Vám nejasnosti vysvětlím. Email:
[email protected]
Náhodný pokus pokus, jehož výsledek se i při dodržení podmínek mění, tj. jehož výsledek závisí na náhodě (např. hod kostkou). Náhodný jev výsledek náhodného pokusu (např. na kostce padla šestka). Náhodný jev budeme značit většinou velkými písmeny, např. A, B atd. Pravděpodobnost náhodného jevu A budeme označovat jako P(A).
Jev jistý (označíme např. jako nebo E) Jev, jež nastane vždy, tj. při každém opakování náhod. pokusu (např. na kostce padne nějaké číslo z 1, 2, 3, 4, 5, 6), P( ) =1 Jev nemožný (označíme jako Ø) Jev, jež nikdy nenastane (např. na kostce padne číslo 7), P( Ø ) = 0 Elementární jev nelze vyjádřit jako sjednocení (viz. další slide) dvou jevů, jež jsou různé od tohoto jevu. Doplňkový (opačný) jev k jevu A (označíme A) Jev jež nastane právě, když nenastane jev A, P( A ) = 1 - P( A )
- proměnná, která v závislosti na náhodě nabývá různých hodnot - její hodnota je jednoznačně určena výsledkem náhodného pokusu, před provedením náhodného pokusu nelze určit její konkrétní hodnotu - podle typu dělíme náhodné veličiny na
DISKRÉTNÍ náhodné veličiny
SPOJITÉ náhodné veličiny
!!! Prosím rozlišujte mezi velkým X pro označení náhodné veličiny a malým x pro označení hodnoty, které veličina X nabyla !!! X = počet koupených piv „v El Magicu„ náhodně vybraným studentem za dnešní večer (středa) (program) x = 0, 1, 2, 3, 4, 5, 6 . . . ; diskrétní náhodná veličina X = počet pivních tácků ve stojánku, x = 2, 3, 4, . . diskrétní náhodná veličina X = počet hostů v plackárně na Blanici, x = 1, 2, 3, . . . ; diskrétní náhodná veličina X = počet SMS obdržených v průběhu téhle hodiny statistiky, x = 0, 1, 2, 3, . . . ; diskrétní náhodná veličina
Je pravidlo, které každé hodnotě nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že NV nabude této hodnoty nebo hodnoty z určitého intervalu
Distribuční funkce F(x) • Udává pravděpodobnost, že náhodná veličina X nabude hodnoty menší nebo rovné hodnotě x
F ( x) P( X x)
Pravděpodobnostní funkce P(x) • Udává pravděpodobnost, že veličina X nabude hodnoty x.
P( x) P( X x)
Podávají souhrnnou informaci o náhodné veličině
Střední hodnota
Rozptyl
E ( X ) x P ( x) x
D(X) E X E(X)
2
x 2 P(x) xP(x) x x
2
příslušné vztahy pro střední hodnotu a rozptyl náhodné veličiny též ve vzorcích z webu porovnejte s výpočtem rozptylu a průměru ze souboru dat za pomoci relativních četností
Průměr
x xi pi i
Rozptyl
s x2 xi2 pi xi pi i i
2
Nejmenovaný klub umístěný pod studentskou kolejí Vltava očekává v příštím roce čtyři možné zisky (před zdaněním) s následujícími pravděpodobnostmi: a)
-1 mil. Kč s pravděpodobností 1 mil. Kč s pravděpodobností 2 mil. Kč s pravděpodobností 3 mil. Kč s pravděpodobností
0,1 0,4 0,3 0,2
Sestrojte pravděpodobnostní a distribuční funkci pro náhodnou veličinu zisk.
b)
Sestavte graf distribuční funkce.
c)
Jaká je střední hodnota zisku podniku? Co tato hodnota představuje?
d)
Jak byste ohodnotili nejistotu, že tento očekávaný zisk bude realizován?
Náhodnou veličinu zisk podniku v následujícím roce označme jako X Pravděpodobnostní funkce (zadaná tabulkou) x
-1
1
2
3
P(x)
0,1
0,4
0,3
0,2
0,5
0,8
1
F(x) 0,1 Distribuční funkce
F(x) 0 x 1 F(x) 0,1 1 x 1 F(x) 0,5 1 x 2 F(x) 0,8 2 x 3 F(x) 1, 0 x 3
Distribuční funkce: ◦ Spojitá zprava ◦ Neklesající ◦ F(X) nabývá hodnot z intervalu <0;1>
Střední (očekávaná) hodnota zisku podniku
E(X) x P(x) (1) 0,1 1 0, 4 2 0,3 3 0, 2 1,5 x
Pokud by pravděpodobnosti jednotlivých zisků v zadání platily pro každý rok, a pokud bychom každý rok po mnoho let zaznamenávali zisky podniku, pak by se průměrný zisk za jeden rok „blížil“ k hodnotě 1,5 mil. CZK. Neformálně řečeno: „podnik je v průměru ziskový, v průměru očekáváme v dlouhodobém horizontu zisk 1,5 milion CZK za rok“.
Nejistotu (riziko) spojené s podnikáním můžeme charakterizovat charakteristikami variability např. rozptylem D(X) náhodné veličiny X směrodatnou odchylkou s(X) náhodné veličiny X.
Rozptyl D(X) můžeme počítat dvěma ekvivalentními tvary:
Po dosazení do druhého výpočetního tvaru získáváme 2
2 D(X) E(X 2 ) E(X) x 2 P(x) xP(x) x x
(1) 2 .0,1 (1) 2 .0, 4 (2) 2 .0,3 (3) 2 .0, 2 1,5 3,5 2, 25 1, 25 2
D(X) 1, 25 1,12 Pokud by pravděpodobnosti jednotlivých zisků v zadání platily pro každý rok, a pokud bychom každý rok po mnoho let zaznamenávali zisky podniku, a počítali směrodatnou odchylku těchto zisků, potom by se tato odchylka blížila 1,12 milionům CZK (s velmi velkou pravděpodobností). Řečeno jinak: očekávaná ‘typická’ odchylka zisku od očekávaného zisku 1,5 milion CZK je 1,12 miliony CZK.
Výsledné známek z předmětu statistika byly v minulém semestru 2012/2013 popsány následující tabulkou. Výsledná známka
1
2
3
4
celkem
Počet studentů
264
382
325
182
1 153
Určete přibližně pravděpodobnost, že náhodně vybraný student statistiky z minulého semestru získal výslednou známku: a) jedna b) lepší než tři c) prospěl d) neprospěl
400 300 200 100
264
382
325 182
0 1
2
3
4
Tabulka četností: Výsledná známka
1
2
3
4
celkem
Počet studentů
264
382
325
182
1 153
=> Tabulka rozdělení pravděpodobnosti
A) B) C) D)
Výsledná známka
1
2
3
4
celkem
pravděpodobnost
0,23
0,33
0,28
0,16
1
P(1) P(X 1) 0, 23 P(X 3) 0, 23 0,33 0,56 P(X 3) 0, 23 0,33 0, 28 0,84 P(X 4) 1 P(X 3) 1 0,84 0,16
některé náhodné veličiny mají jistý specifický tvar pravděpodobnostní funkce, resp. pravděpodobnostního rozdělení. Mezi nejznámější „modelová“ pravděpodobnostní rozdělení náhodné veličiny patří např.: ◦ diskrétní náhodné veličiny: Alternativní Binomické Poissonovo Hypergeometrické
Pokus: Házíme jednou kostkou a potřebujeme, aby padla „šestka“. Náš pokus má tedy pouze dva výsledky (v jednom náhodném pokusu může nabýt pouze dvou hodnot) x = 1 jev nastane x = 0 jev nenastane
Pravděpodobnostní funkce
◦ střední hodnota ◦ rozptyl
P(X=1)=p16 P(X=0)=1-p 56
P( x) p x (1 p )1 x
E(X) p 1/ 6
1 1 D(X) p (1 p ) 1 0,139 6 6
◦ zvláštní případ binomického rozdělení pro n=1 (viz. dále)
Udává pravděpodobnost úspěchu v sérii n nezávislých pokusů, z nichž každý pokus má stejnou pravděpodobnost úspěchu п (např. jaká je pravděpodobnost, že v deseti hodech kostkou padne 3x šestka) pravděpodobnostní funkce
n 10 3 P(x) p x (1 p )n x 1/ 6 (1 1/ 6)103 0,155 x 3
střední hodnota
E(X) n p 10 1/ 6 1,666
rozptyl
1 1 D(X) n p (1 p ) 10 1 1,389 6 6
Příklady, kdy ho použít: • Obecně: výběr s vracením (z malého osudí) nebo výběr bez vracením z „velkého osudí“ • Počet úspěchů v sérii n nezávislých pokusů, z nichž každý pokus má stejnou pravděpodobnost úspěchu p. • Např. jaká je pravděpodobnost, že z 15 hodů kostkou padne pětkrát trojka.
V osudí jsou míčky bílé barvy a míčky černé barvy. Pravděpodobnost vytažení míčku bílé barvy je 1/7. Z osudí vytáhneme náhodně jeden míček, zapíšeme si jeho barvu a míček do osudí vrátíme! Poté taháme znovu, zapíšeme si opět barvu vytaženého míčku, a míček opět do osudí vrátíme atd. Celkem takto vytáhneme s vracením 4 míčky. Určete pravděpodobnost, že a) žádný, b) Jeden c) dva z těchto 4 míčků budou bílé barvy. Poté nalezněte obecný vzorec udávající pravděpodobnost, že při vytažení celkem n míčků s vracením jich x bude bílých, pokud pravděpodobnost vytažení bílého míčku v jednom tahu je p.
a)
c)
b)
d)
Pravděpodobnost, že se narodí chlapec je 0,515. Jaká je pravděpodobnost, že mezi 7 po sobě narozenými dětmi v porodnici budou:
a) b)
první 3 děvčata a další 4 chlapci právě 3 děvčata?
a) první 3 jsou děvčata a další 4 chlapci
P(x) p x (1 p )n x 0, 485 (1 0, 485)73 0,008 3
b) právě 3 děvčata
n x 7 3 n x P(x) p (1 p ) 0, 485 (1 0, 485)7 3 0, 281 x 3
Udává pravděpodobnost výskytu náhodného jevu v určitém časovém intervalu Mají ho například ◦ Veličiny, které představují výskyt x událostí v pevném časovém intervalu, přičemž události musejí nastávat nezávisle od okamžiku poslední události ◦ veličiny, které mají rozdělení binomické a zároveň počet pozorování velký (n>30) a п je malé (п<0,1)
pravděpodobnostní funkce
P( x)
x x!
střední hodnota
E(X)
rozptyl
D(X)
e
Poissonovo rozdělení mají např. následující 2 typy náhodných veličin: 1.) Veličiny, které mají rozdělení binomické a zároveň parametr n tohoto binomického rozdělení je velký (n>30) a parametr p tohoto binomického rozdělení je malý (p<0,1). Takováto binomická veličina má přibližně také Poissonovo rozdělení, přičemž pro parametr l tohoto Poissonova rozdělení platí = np. 2.) Veličiny, jež představují výskyt x událostí v pevném časovém (případně plošném, prostorovém) intervalu, pokud známe průměrný počet událostí l, které v tomto intervalu nastávají. Navíc události musejí nastávat nezávisle od okamžiku (případně místa výskytu) poslední události.
P( x)
x x!
e
E(X) D(X)
Při kontrole účetních dokladů v určitém velkém průmyslovém podniku auditor, že zkušenosti ví, že lze předpokládat formální chyby u 2 % účetních dokladů. Jestliže ze souboru účetních dokladů jich auditor vybere 100, jaká je pravděpodobnost, že
a) mezi nimi budou právě 2 chybné? b) ani jeden chybný? c) maximálně dva chybné?
Učebnice (2.6 / str. 102, neřešený)
Student ze zkušenosti ví, že v době od 15:00 do 19:00 obdrží v průměru 3 SMSky od svých kamarádů. Dnes měl v době od 16:00 do 18:00 rozbitý mobil. a.) Jaká je pravděpodobnost, že mu kamarádi během těchto dvou hodin neposlali žádnou SMS? b.) Jaká je střední hodnota a rozptyl počtu náhodné veličiny „počet příchozích SMSek v době od 16:00 do 18:00“?
Modifikace příkladu z učebnice (2.7 / str. 103, neřešený)
Na povrchu skla se v průměru vyskytuje 5 kazů na metr čtvereční. Jaká je pravděpodobnost, že na skleněné desce o ploše 2 metry čtvereční bude přesně 7 kazů?
Pravděpodobnost, že na 2 m2 bude přesně 7 kazů je 0,09.
máme-li soubor N jednotek, z nichž M má určitou vlastnost a ze souboru vybíráme bez vracení n jednotek ( x výběr s vracením binomické rozdělení)
pravděpodobnostní funkce
střední hodnota
rozptyl
M N M x nx P( x) N n
E(X) n
M N
M M Nn D(X) n 1 N N N 1
V osudí je 30 míčků modrých a 20 červených. Náhodně vybereme 10 míčků. Jaká je pravděpodobnost, že mezi vybranými míčky bude právě 6 červených, jestliže: a)
b)
vybíráme s vracením vybíráme bez vracení?
a)
vybíráme s vracením (-> binomické rozdělení) 6 10 6 10 n x 2 2 P(x) p (1 p ) n x 1 0,111 x 6 5 5
b)
vybíráme bez vracení? (-> hypergeometrické rozdělení)
Výběr bez vracení z malého (!!) osudí. V „osudí“ je M prvků s danou vlastností a N – M prvků bez této vlastnosti. Vybíráme celkem n objektů a ptáme se, jaká je pravděpodobnost, že prvků s danou vlastností jsme vybrali právě x.
n = 10;
N = 50;
M = 20;
x=6
M N M 20 50 20 x n x 6 10 6 0,103 P(x) N 50 n 10
Určitý typ součástek je dodáván v sériích po 100 kusech. Při přejímací kontrole je z každé série náhodně vybráno 10 výrobků. Série je přijata, jestliže mezi kontrolovanými výrobky je maximálně 1 zmetek. Jaká je pravděpodobnost, že série bude přijata, jestliže obsahuje 8 zmetků. Kontrola je přitom prováděna tak, že kontrolovaný výrobek je podroben destrukční zkoušce. Jedná se o příklad typu „výběr bez vracení z malého osudí“ => hypergeometrické rozdělení
Příklady spojitých náhodných veličin: • X = výška náhodně vybraného studenta, 100 cm < x < 220 cm; • X = čas, který náhodně vybraný student stráví denně na facebooku, 0 ≤ x ≤ 24 hodin; • X = doba, kterou musíme čekat na obsluhu u baru v El magicu • X = maximální rychlost automobilu, kterou automobil dosáhne na dálnici Jednotlivé náhodné veličiny mají různá pravděpodobnostní rozdělení
Jak popsat rozdělení pravděpodobnosti pro spojitou náhodnou veličinu?
Distribuční funkce F(x)
Distribuční funkce F(x) udává pravděpodobnost, že náhodná veličina X nabude hodnoty menší nebo rovné hodnotě x
Hustota pravděpodobnosti f(x) b
f (x)dx P(a X b) F(b) F(a) a
Hustota pravděpodobnosti f(x) je taková funkce, že pro
libovolné a < b platí:
“Sumace byla u spojité NV zaměněna za integraci, pravděpodobnostní funkce za hustotu pravděpodobnosti”
Střední hodnota
Rozptyl
Kvantily
(pouze pro spojité NV) 100p% kvantil pravd. rozdělení spojité NV je takové číslo xp pro které platí: xp
P(X x p )
f (x)dx F(x
p
)p
Normální rozdělení Normované normální rozdělení Logaritmicko normální rozdělení Chí-kvadrát Studentovo Fisherovo
významné rozdělení v teorii pravděpodobnosti a matematické statistiky,
mnohé NV v ekonomii, technice a přírodních vědách mají přibližně normální rozdělení (zákon chyb)
aproximují (nahrazují) se jím některá nespojitá rozdělení
hustota pravděpodobnosti:
střední hodnota: E (X )
f ( x)
rozptyl:
D( X ) 2
kvantily:
xp u p
1 e 2p
( x )2 2 2
x
Příklady využití: ◦ tělesná výška, teplota, hmotnost ◦ chyby měření ◦ velikost chodidla
Jaká je pravděpodobnost, že náhodně vybraný muž bude mít výšku v rozmezí 170 až 185 cm? Předpokládejme přitom, že výška mužů má normální rozdělení s parametry:
μ = 180
σ2=49
2 => 49 7
Pro výpočet využijeme transformaci na normované normální rozdělení
Takto transformovaná veličina se označuje jako U a má normální rozdělení s parametry μ = 0 a σ2 =1. N(0;1) -> NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
hodnoty kvantilů normovaného normálního rozdělení jsou tabelovány v tabulkách (např. příloha učebnice Hindls a kol.) resp. na http://statistika.vse.cz/download/materialy/tabulky.pdf
Jaká je pravděpodobnost, že náhodně vybraná žena bude mít výšku v rozmezí 160 a 175 cm? Předpokládejme přitom, že výška žen má normální rozdělení s parametry μ = 170 a σ2 = 36.
a) b) c) d) e)
f)
Náhodná veličina X má normální rozdělení s parametry μ = 10 a σ2 = 25. Určete následující pravděpodobnosti a kvantily: P(X < 5) P(8<X<12) P(X >18) P(X = 5) X0,975 X0,05
Bylo zjištěno, že pevnost v tahu určitého druhu výrobku má normální rozdělení se střední hodnotou 200 jednotek a směrodatnou odchylkou 40 jednotek. Každý výrobek je před expedicí testován a ty výrobky, jejichž pevnost v tahu je větší než 220 jednotek, jsou označovány za velmi kvalitní. Jaká je pravděpodobnost vyrobení velmi kvalitního výrobku?
Odchylka rozměru výrobku od požadované hodnoty má normální rozdělení se střední hodnotou 0 mm a se směrodatnou odchylkou 5mm. Jaká musí být šířka intervalu normy (symetrického kolem požadované hodnoty) pro velikost výrobku, aby rozměr výrobku nepřekročil interval s pravděpodobností 0,95?
Statistické odhady - metody odhadování neznámých parametrů základního souboru na základě informací o charakteristikách náhodného výběru Testování statistických hypotéz –induktivní postupy, které vedou k zamítnutí nebo potvrzení určitých tvrzení (hypotéz) o základním souboru
Biolog, matematik, informatik a statistik jsou na safari. Zastaví džíp a pozorují dalekohledem. •
Biolog: Podívejte se! Stádo zeber! A mezi nimi bílá zebra! To je fantastické! Existují bílé zebry! Budeme slavní!
•
Matematik: Ve skutečnosti pouze víme, že existuje zebra, která je na jedné straně bílá.
•
Informatik: Ale kdepak! To je výjimka!
•
Statistik: To mě nezajímá, to není významné. Hypotézu, že bílé zebry neexistují nemůžeme na rozumné hladině významnosti zamítnout!
Základním souborem mohou být např.:
• Domácnosti v ČR. Zkoumaným znakem mohou být např. finanční výdaje domácností za říjen 09. Některými z parametrů tohoto základního souboru mohou být průměrné výdaje (μ ), rozptyl těchto výdajů (σ2) apod. • Velká zásilka konzerv. Zkoumaným znakem muže být např. kvalita konzerv. Jedním z parametrů tohoto základního souboru může být relativní četnost zkažených konzerv (p ) apod. • „Velký“ (příp. nekonečný) soubor hodnot pocházející z jistého pravděpodobnostního rozdělení se střední hodnotou μ a rozptylem σ2 atd.
Výběrovým souborem k základním souborům z předchozího slajdu může být : • 1000 náhodně vybraných domácnosti v ČR. Parametry tohoto výběrového souboru jsou průměrné výdaje ( ), výběrový rozptyl těchto výdajů ( ) v tomto výběrovémsouboru apod. Rozsah výběru je n = 1000. • 100 konzerv náhodně vybraných z celé zásilky. Jedním z parametrů tohoto výběrového souboru je relativní četnost zkažených konzerv (p) v tomto výběrové m souboru. Rozsah výběru je n = 100 • Několik hodnot „tažených“ z jistého pravděpodobnostního rozdělení. Parametrem tohoto výběrového souboru je průměr, rozptyl tohoto výběrového souboru apod.
Bodový odhad
pomocí vhodné výběrové statistiky odhadujeme skutečnou hodnotu parametru rozdělení, ze kterého hodnoty pocházejí
Intervalový odhad
konstruujeme co nejužší interval, který se zvolenou spolehlivostí obsahuje odhadovaný parametr
interval, který s předem danou spolehlivostí bude obsahovat skutečnou hodnotu některého z parametrů základního souboru
Sestrojme nyní interval, ve kterém bude s předem danou pravděpodobností ležet námi hledaný parametr Výběrový průměr (z normálního rozdělení) má následující rozdělení.
Interval je náhodný! Jeho význam je takový, že v (1 – α).100 % případů konstrukce tohoto intervalu (pokud bychom jeho konstrukci mnohokrát opakovali z více výběrů), tento interval v sobě bude zahrnovat skutečnou hodnotu μ . Jeden konkrétní interval skutečnou hodnotu μ buď zahrnuje anebo nezahrnuje. Snižuji-li α , zvyšuji spolehlivost odhadu (pravděpodobnost, že teoretická hodnota bude v intervalu ležet), ale snižuji přesnost odhadu (neboť dostanu širší interval spolehlivosti).
Byla změřena výška 6 žen s následujícími výsledky 163 cm, 175 cm, 177 cm, 165 cm, 171 cm, 174 cm a.) Nalezněte bodový odhad průměrné výšky žen v celé republice.
b.) Sestrojte 95% oboustranný interval spolehlivosti pro odhad průměrné výšky žen v celé republice. c.) Výšku kolika žen bychom museli změřit, abychom přiíustnou chybu
intervalového odhadu průměrné výšky žen v celé republice snížili pod 1 cm. Předpokládejte, že výška jedné náhodně vybrané ženy má normální rozdělení s neznámou střední hodnotou (tu právě odhadujeme) a s rozptylem stejným jako byl rozptyl výšky jednoho náhodně vybraného muže (z 5. cvičení), neboli 2 = 49..
Bodový odhad průměrné výšky žen v celé republice je 170,83 cm.
Pokud budeme chtít přípustnou chybu odhadu snížit pod 1 cm (s předem zvolenou pravděpodobností 0,95),museli bychom změřit výšku alespoň 189 žen.
Z velké zásilky balení brambůrků Bohemia Chips bylo vybráno 5 balení a byla zjištěna jejich hmotnost. Výsledky jsou: 163 g, 159 g, 161 g, 157 g, 158 g a)
b)
c)
nalezněte bodový odhad pro průměrnou hmotnost jednoho balení v celé zásilce sestrojte 99% oboustranný interval spolehlivosti pro průměrnou hmotnost jednoho balení v celé zásilce odhadněte, kolik váží celá zásilka, pokud víte, že obsahuje 90 balení.
Předpokládejme, že rozdělení hmotnosti balení v zásilce je normální, se známým rozptylem 25.
Z velké zásilky balení s kukuřičnými vločkami jsme vybrali celkem 5 balení a zjistili jsme jejich hmotnost. Zde jsou výsledky: 460 gramů, 520 gramů, 490 gramů, 560 gramů, 510 gramů. a.) Nalezněte bodový odhad pro průměrnou hmotnost jednoho balení v celé zásilce. b.) Sestrojte 99% oboustranný interval spolehlivosti pro průměrnou hmotnost jednoho balení v celé zásilce. c.) Odhadněte, kolik váží celá zásilka pokud víte, že obsahuje celkem 2400 balení. Předpokládejme přitom, že rozdělení hmotností balení v zásilce je normální.
Bodový odhad průměrné hmotnosti zásilky s čokoládovými kuličkami je 508 g.
99% interval spolehlivosti pro hmotnost celé zásilky
Dne 25. a 26. ledna 2013 se v České republice konalo druhé kolo prezidentské volby. V závěrečném duelu se utkal Karel Schwarzenberg se pozdějším vítězem volby Milošem Zemanem. Představme si hypotetickou situaci. 200 náhodně vybraných voličů, po té co vhodilo svůj hlas do urny, bylo dotázáno, koho volilo. 110 z nich odpovědělo, že Miloše Zemana.
Předpokládejme, že odpovědi jsou pravdivé, že vybraný vzorek dotázaných voličů je reprezentativním vzorkem voličů ČR a že k dispozici nejsou žádné jiné dodatečné průzkumy nebo indicie nasvědčující vítězství M. Zemana případně K. Schwarzenberga v daném místě.
a.) Bodově odhadněte podíl voličů Miloše Zemana v kraji Vysočina.
b.) Nalezněte 95% oboustranný interval spolehlivosti pro podíl voličů
Miloše Zemana v kraji Vysočina.
Bodový odhad procentuelního zastoupení voličů, kteří volí M. Zemana v kraji Vysočina je 55%.
Zdroj: idnes.cz
statistická hypotéza je určitý předpoklad o parametrech nebo tvaru určitého rozdělení. test statistické hypotézy = postup, kterým na základě výběrových dat ověřujeme platnost dané hypotézy
Chceme otestovat, zda je mince symetrická (tj. zda orel i hlava padají se stejnou pravděpodobností). Při 150 hodech touto mincí padl 90-krát orel.
Proveďte test hypotézy o symetrii mince na hladině významnosti 1 %.
Mediálně známý ředitel velkého podniku tvrdí, že průměrná mzda v jeho zaměstnanců je 25000 korun. Chceme ověřit toto ředitelovo tvrzení, neboť ho podezíráme, že průměrnou mzdu nadhodnocuje. Zjistili jsme tedy mzdy 49 náhodně vybraných zaměstnanců podniku, a napočetli průměr těchto 49 mezd: 23500 korun, a výběrovou směrodatnou odchylku těchto 49 mezd: 5500 korun. Na 5 % hladině významnosti ověřte, zda je možné na základě těchto údajů zamítnout hypotézu o průměrně mzdě 25000 korun v celém podniku (tj. řečeno neformálně: „vyvrátit tvrzení ředitele“.)
Bylo vybráno 73 polí stejné kvality. Na 38 z nich se zkoušel nový způsob hnojení, zbývajících 35 bylo ošetřeno běžným způsobem. Průměrné výnosy pšenice při novém způsobu hnojení (tzn. průměrné výnosy napočtené z 38 polí pohnojených novým hnojivem) byly 5,3875 tun na hektar a výběrový rozptyl (výnosů napočtený z 38 polí pohnojených novým hnojivem) byl 0,2698. Průměrné výnosy pšenice při běžném způsobu hnojení (tzn. průměrné výnosy napočtené z 35 polí pohnojených běžným hnojivem) byly 4,7 tun na hektar a výběrový rozptyl (výnosů napočtený z 35 polí pohnojených běžným hnojivem) byl 0,24. Je třeba zjistit, zda nový způsob hnojení má vliv na výnosy pšenice.
MODIFIKACE příkladu z: Anděl, J: Statistické metody, 1998, matfyzpress, Vydavatelství Matematicko-fyzikální fakulty UK
Čím více se budou lišit výběrové průměry výnosů u nového a běžného způsobu hnojení, tím „větší je šance“, že nový způsob hnojení má vliv na výnosy.
ROVNOST STŘEDNÍCH HODNOT DVOU ROZDĚLENÍ
Při sledování životnosti nových baterií VTEC 3000 bylo ze souboru 50000 baterií vybráno 30 a u nich byl vypočten průměr 195 dnů. Směrodatná odchylka v základním souboru je známá a její hodnota je 20. Předpokládáme, že životnost baterií se řídí normálním rozdělením. a) b)
c)
sestrojte 95% oboustranný interval spolehlivosti (IS) Vypočtěte, jak se změní IS, pokud zvýšíme rozsah výběru na 100 baterií Jak se změní IS, pokud nebudeme požadovat spolehlivost 95 %, ale 99 %?
Prodejna potravin odebírá uzenářské výrobky od dvou dodavatelů a za důležitou považuje dobu, která uplyne od předání objednávky dodavatelům do okamžiku dodání objednaného zboží. První dodavatel byl testován ve 14 případech, průměrná doba čekání na objednané zboží byla 58 hodin při rozptylu 8,5. U druhého dodavatele uzenin bylo provedeno 11 pozorování, s průměrnou dobou 56 hodin s rozptylem 5. Na hladině významnosti 5 % ověřte hypotézu, zda mezi oběma dodavateli existuje takový rozdíl v rychlosti dodávek uzenin, který by byl pro vedení prodejny potravin podstatný.
dosud jsme se zabývali testy o parametrech nějakého rozdělení předpokládali jsme tedy, že náhodný výběr pochází z určitého rozdělení ale i tento předpoklad musíme ověřit testy o tvaru rozdělení testy dobré shody testovaná hypotéza: test shody empirickým rozdělením četností
mezi
teoretickým
a
hlavní podmínky použití: ◦ nezávislost jevů ◦ velký rozsah výběrového souboru
k
(ni n p 0,i ) 2
i 1
n p 0 ,i
G
2 [k 1]
Předpokládá se, že v České republice má: ◦ ◦ ◦ ◦
41 % obyvatel krevní skupinu A 14 % obyvatel krevní skupinu B 7 % obyvatel krevní skupinu AB 38 % obyvatel krevní skupinu 0
V jistém týdnu darovalo krev celkem 215 dárců, kteří měli následující krevní skupiny: ◦ ◦ ◦ ◦
82 38 26 69
mělo mělo mělo mělo
krevní krevní krevní krevní
skupinu skupinu skupinu skupinu
A B AB 0
Na 1% hladině významnosti rozhodněte, zda tyto zjištěné údaje jsou v souladu s předpokladem o poměrném zastoupení krevních skupin v České republice.
k
(ni n p 0,i ) 2
i 1
n p 0 ,i
G
2 [k 1]
kontingence = závislost 2 kvalitativních proměnných ◦ zkoumá závislost mezi kvalitativními znaky
k ověření závislosti se používá Chí-kvadrát test nezávislosti, založený na porovnání empirických teoretických četností 1) stanovení hypotézy H0: X a Y jsou nezávislé H1: non H0
2) výpočet testového kritéria
U 6800 osob byla zjišťována barva očí a vlasů. Výsledky jsou zaneseny v tabulce. Barva vlasů Barva očí
světlá
kaštanová
černá
zrzavá
celkem
světle modrá šedá nebo zelená tmavohnědá celkem
1768 946 115 2829
807 1387 438 2632
189 746 288 1223
47 53 16 116
2811 3132 857 6800
Rozhodněte, zda barva očí a barva vlasů jsou závislé znaky.
kontingenční tabulka Barva vlasů Barva očí
světlá
kaštanová
černá
zrzavá
celkem
světle modrá
n11
n12
n13
n14
n1•
šedá nebo zelená
n21
n22
n23
n24
n2•
tmavohnědá
n31 n•1
n32 n•2
n33 n•3
n34 n•4
n3• n
celkem
3 obměny prvního kvalitativního znaku(barvy očí) 4 obměny druhého kvalitativního znaku(barvy vlasů)
pokud by znaky byly nezávislé, potom bychom v průměru očekávali následující hodnoty:
Barva vlasů Barva očí
světlá
kaštanová
černá
zrzavá
celkem
světle modrá
1169,46 1303,00 356,54 2829
1088,02 1212,27 331,71 2632
505,57 563,30 154,13 1223
47,95 53,43 14,62 116
2811 3132 857 6800
šedá nebo zelená tmavohnědá
celkem
sílu závislosti dvou kvalitativních proměnných můžeme vyjádřit pomocí: Pearsonova koeficientu kontingence:
Cramérova koeficientu kontingence:
pro zcela nezávislé veličiny: jsou C i V =0
1.
vytvoření kontingenční tabulky karta Vložení kontingenční tabulka
2.
očekávané relativní četnosti v případě
3.
testová statistika G
4.
Pearsonův koeficient kontingence
5.
Cramérův koeficient kontingence
nezávislosti
Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví. Bydliště Pohlaví
Město
Venkov
Muž
71
91
Žena
82
56
závislost kvalitativní (slovní) a kvantitativní (číselné) proměnné nejčastější případ – potřebujeme posoudit, zda má na určitou kvantitativní veličinu vliv kvalitativní nebo kvantitativní faktor
metoda vychází z rozkladu rozptylu (součtu čtvercových odchylek) na vnitroskupinovou a meziskupinovou variabilitu je-li uvažovaná numerická proměnná nezávislá na zmíněné kategoriální proměnné, platí, že:
Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)
Varianta testu
Dosažené body
A
91
81
74
57
B
83
72
63
47
C
71
69
58
40
P2 R-square 0, 2178
slouží k popisu jednostranné závislosti dvou číselných proměnných, kdy proti sobě stojí vysvětlující (nezávislá) proměnná jako „pří-čina“ a vysvětlovaná (závislá) proměnná jako „následek“ regresní funkce = „idealizující“ matematická funkce, která co nejlépe vyjadřuje charakter závislosti
V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tisících dolarů): Náklady
835
63
240
1005
184
213
313
658
195
545
Cena
136
24
52
143
42
43
67
106
61
99
a) b) c) d) e)
modelujte závislost nákladů na údržbu na ceně regresní přímkou zhodnoťte kvalitu modelu pomocí koeficientu determinace interpretujte věcně hodnotu regresního koeficientu b1 odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů ověřte pomocí testu, zda se jedná o významnou závislost
Výpočet pomocí EXCELU a metody nejmenších čtverců i
yi
xi
xiy i
xi2
1 2 3 4 5 6 7 8 9 10 suma průměr
835 63 240 1005 184 213 313 658 195 545 4251 425,1
136 24 52 143 42 43 67 106 61 99 773 77,3
113560 1512 12480 143715 7728 9159 20971 69748 11895 53955 444723 44472,3
18496 576 2704 20449 1764 1849 4489 11236 3721 9801 75085 7508,5
závislost nákladů na údržbu na ceně můžeme modelovat následující přímkou:
MS excel: 1) 2) 3) 4)
data analýza dat regrese Vstupní oblast y– sloupec „Náklady“ Vstupní oblast x – sloupec „Cena“ Nic jiného neupravovat (max. popisky)- OK
bo - konstanta
b1 – směrnice přímky, regresní koeficient
b) zhodnoťte kvalitu modelu pomocí koeficientu determinace
vztah je tím silnější a regresní funkce je tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou vzdálené od odhadnuté regresní funkce závislost y a x bude tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na celkovém rozptylu
i
yi
xi
Yi
yi-Yi
1
835
136
869,68
-34,68
1202,43 168018,01
2
63
24
21,42
41,58
1728,74 131116,41
3
240
52
233,49
6,51
4
1005
143
922,69
82,31
5
184
42
157,75
26,25
689,14
58129,21
6
213
43
165,32
47,68
2273,18
44986,41
7
313
67
347,09
-34,09
1162,19
12566,41
8
658
106
642,47
15,53
241,33
54242,41
9
195
61
301,65
10
545
99
589,45
-44,45
-
0
suma
(yi-Yi)2
42,44
(yi-y_)2
34262,01
6774,61 336284,01
-106,65 11373,95 52946,01 1975,74
14376,01
27463,75 906926,90
SR
Sy
R2 = I2 – Index determinace Upravený index determinace
29.11.2014
21 1
c) interpretujte věcně hodnotu regresního koeficientu b1
d) odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů
e.) Ověřte pomocí testu, zda se jedná o významnou závislost.
Výběrový regresní koeficient b1 je náhodná veličina v tom smyslu, že jeho hodnota závisí na konkrétním výběru (tj. na konkrétních datech, jimiž jsme prokládali přímku). V našem případě vyšla hodnota
Teoretický regresní koeficient β1, který neznáme (a je konstantou), může být přesto roven nule. V tom případě by mezi cenou a náklady neexistovala lineární závislost. Otestujme proto hypotézu o nulové hodnotě teoretického regresního koeficientu β1.
e) ověřte pomocí testu, zda se jedná o významnou závislost
Test. kritérium
Teoretický součet čtverců Reziduální součet čtverců Celkový součet čtverců
P- hodnota
P-hodnota 0,00 je menší než hladina významnosti (α=0,05). Zamítáme tedy nulovou hypotézu. Lineární závislost je statisticky významná.
Na 5% hladině významnosti můžeme na základě testu o modelu zamítnout hypotézu o nulové hodnotě regresního parametru β1. Lineární závislost je tedy statisticky významná
a) b) c) d)
U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. Údaje jsou uvedeny v následující tabulce: Rychlost
40
50
60
70
80
90
100
110
Spotřeba
5,7
5,4
5,2
5,2
5,8
6,0
7,5
8,1
vyrovnejte data regresní parabolou charakterizujte těsnost závislosti ověřte význam kvadratického členu v modelu proveďte bodový odhad spotřeby při rychlosti 80 km/h
Y = bo + b1x + b2x2 = = 9,752 – 0,151x + 0,001x2
Pro těsnost závislosti charakterizovanou indexem determinace a upraveným indexem determinace platí, že modelem bylo vysvětleno 96, 83 % veškeré variability
Y b0 b1x b 2 x 2 9, 752 0,151x 0, 001x 2 9, 752 0,151 80 0, 001 802 4, 072
Tabulka obsahuje údaje o stáří, počtu najetých km a ceně 20 ojetých aut značky Octavia Combi. 1) zkonstruujte regresní model závislosti ceny auta na jeho stáří a počtu najetých km 2) posuďte jeho kvalitu 3) a použijte jej k odhadu ceny auta starého 6 let, které má najeto 60 tis.km
Hodnota testového kritéria F
Hladina významnosti