Tomáš Karel LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!
Tomáš Karel - 4ST201
20.10.2013
2
cv.
Program cvičení
1.
Úvod, popisná statistika
2.
Popisná statistika
3.
Míry variability, pravděpodobnost
4.
Pravděpodobnost, náhodné veličiny a jejich charakteristiky
5.
Pravděpodobnostní rozdělení
6.
TEST, odhady parametrů
7.
Testování hypotéz
8.
Chí – kvadrát test dobré shody, kontingenční tabulky, ANOVA
9.
Regrese
10. Regrese, korelace 11. TEST, časové řady (bazické a řetězové indexy) 12. Časové řady 13. Indexní analýza
Náhodný pokus pokus, jehož výsledek se i při dodržení podmínek mění, tj. jehož výsledek závisí na náhodě (např. hod kostkou). Náhodný jev výsledek náhodného pokusu (např. na kostce padla šestka). Náhodný jev budeme značit většinou velkými písmeny, např. A, B atd. Pravděpodobnost náhodného jevu A budeme označovat jako P(A).
Jev jistý (označíme např. jako nebo E) Jev, jež nastane vždy, tj. při každém opakování náhod. pokusu (např. na kostce padne nějaké číslo z 1, 2, 3, 4, 5, 6), P( ) =1 Jev nemožný (označíme jako Ø) Jev, jež nikdy nenastane (např. na kostce padne číslo 7), P( Ø ) = 0 Elementární jev nelze vyjádřit jako sjednocení (viz. další slide) dvou jevů, jež jsou různé od tohoto jevu. Doplňkový (opačný) jev k jevu A (označíme A) Jev jež nastane právě, když nenastane jev A, P( A ) = 1 - P( A )
Jeden z kolika ???
◦ Tři kamarádi na obědě se stejnou barvou oblečení ◦ Sen o kamarádovi ◦ Šéfova manželka chodila do stejné základní školy jako Vy …
◦ Tetička z Krkonoš a jackpot … ◦ Hod mincí (10x panna) 1:1024 … 0,0009765 ◦ Kolik existuje možností ? Víkend ve Špindlerově mlýně … 10 000 000 obyvatel ČR 1/10 000 000 - 8 000 návštěvníků 1/1250 - Co ostatní známí? Cca 500 -> 1/ 2,5 -> 0,4 -
-
-
Babička a telefon… Richard Feynman 1965
Náhodně vybraných 23 lidí -> DNEŠNÍ CVIČENÍ šance vyšší než 50% !!!
41 lidí … Šance vyšší než 90% Jeden z kolika? 365 dní 23 lidí pokryje jen 6,3% Dobrá odpověď na špatnou otázku … Správná otázka: Zda má někdo narozeniny ve stejný den jako někdo jiný, aniž bychom upřesnili konkrétní den. -> dvojic lidí je mnohem více než lidí
23 hostů -> 253 dvojic
253/365
Počet osob
Počet dvojic
Průměrný počet shod
Pravděpodobnost shody
4
6
0,02
0,0164
10
45
0,12
0,1169
20
190
0,52
0,4114
23
253
0,69
0,5073
30
435
1,19
0,7063
35
595
1,63
0,8144
40
780
2,14
0,8912
41
820
2,25
0,9032
45
990
2,71
0,9410
50
1225
3,36
0,9704
- proměnná, která v závislosti na náhodě nabývá různých hodnot - její hodnota je jednoznačně určena výsledkem náhodného pokusu, před provedením náhodného pokusu nelze určit její konkrétní hodnotu - podle typu dělíme náhodné veličiny na
DISKRÉTNÍ náhodné veličiny
SPOJITÉ náhodné veličiny
!!! Prosím rozlišujte mezi velkým X pro označení náhodné veličiny a malým x pro označení hodnoty, které veličina X nabyla !!! X = počet koupených piv „na Blanici „ náhodně vybraným studentem za včerejší večer (středa) (program) x = 0, 1, 2, 3, 4, 5, 6 . . . ; diskrétní náhodná veličina X = počet pivních tácků ve stojánku, x = 2, 3, 4, . . diskrétní náhodná veličina X = počet hostů v plackárně Moribundus, x = 1, 2, 3, . . . ; diskrétní náhodná veličina X = počet SMS obdržených v průběhu jednoho večera, x = 0, 1, 2, 3, . . . ; diskrétní náhodná veličina
Je pravidlo, které každé hodnotě nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že NV nabude této hodnoty nebo hodnoty z určitého intervalu
Distribuční funkce F(x) • Udává pravděpodobnost, že náhodná veličina X nabude hodnoty menší nebo rovné hodnotě x
F ( x) P( X x)
Pravděpodobnostní funkce P(x) • Udává pravděpodobnost, že veličina X nabude hodnoty x.
P( x) P( X x)
Podávají souhrnnou informaci o náhodné veličině
Střední hodnota
Rozptyl
E ( X ) x P ( x) x
D(X) E X E(X)
2
x 2 P(x) xP(x) x x
2
příslušné vztahy pro střední hodnotu a rozptyl náhodné veličiny též ve vzorcích z webu porovnejte s výpočtem rozptylu a průměru ze souboru dat za pomoci relativních četností
Průměr
x xi pi i
Rozptyl
s x2 xi2 pi xi pi i i
2
Nejmenovaný klub umístěný pod studentskou kolejí Blanice očekává v příštím roce čtyři možné zisky (před zdaněním) s následujícími pravděpodobnostmi: 3 mil. Kč s pravděpodobností 2 mil. Kč s pravděpodobností 1 mil. Kč s pravděpodobností -1 mil. Kč s pravděpodobností a)
0,2 0,3 0,4 0,1
Sestrojte pravděpodobnostní a distribuční funkci pro náhodnou veličinu zisk.
b)
Sestavte graf distribuční funkce.
c)
Jaká je střední hodnota zisku podniku? Co tato hodnota představuje?
d)
Jak byste ohodnotili nejistotu, že tento očekávaný zisk bude realizován?
Náhodnou veličinu zisk podniku v následujícím roce označme jako X Pravděpodobnostní funkce (zadaná tabulkou)
x
-1
1
2
3
P(x)
0,1
0,4
0,3
0,2
F(x)
0,1
0,5
0,8
1
Distribuční funkce
F(x) 0 x 1 F(x) 0,1 1 x 1 F(x) 0,5 1 x 2 F(x) 0,8 2 x 3 F(x) 1, 0 x 3
Distribuční funkce: ◦ Spojitá zprava ◦ Neklesající ◦ F(X) nabývá hodnot z intervalu <0;1>
Střední (očekávaná) hodnota zisku podniku
E(X) x P(x) (1) 0,1 1 0, 4 2 0,3 3 0, 2 1,5 x
Pokud by pravděpodobnosti jednotlivých zisků v zadání platily pro každý rok, a pokud bychom každý rok po mnoho let zaznamenávali zisky podniku, pak by se průměrný zisk za jeden rok „blížil“ k hodnotě 1,5 mil. CZK. Neformálně řečeno: „podnik je v průměru ziskový, v průměru očekáváme v dlouhodobém horizontu zisk 1,5 milion CZK za rok“.
Nejistotu (riziko) spojené s podnikáním můžeme charakterizovat charakteristikami variability např. rozptylem D(X) náhodné veličiny X směrodatnou odchylkou s(X) náhodné veličiny X.
Rozptyl D(X) můžeme počítat dvěma ekvivalentními tvary:
Po dosazení do druhého výpočetního tvaru získáváme 2
2 D(X) E(X 2 ) E(X) x 2 P(x) xP(x) x x
(1) 2 .0,1 (1) 2 .0, 4 (2) 2 .0,3 (3) 2 .0, 2 1,5 3,5 2, 25 1, 25 2
D(X) 1, 25 1,12 Pokud by pravděpodobnosti jednotlivých zisků v zadání platily pro každý rok, a pokud bychom každý rok po mnoho let zaznamenávali zisky podniku, a počítali směrodatnou odchylku těchto zisků, potom by se tato odchylka blížila 1,12 milionům CZK (s velmi velkou pravděpodobností). Řečeno jinak: očekávaná ‘typická’ odchylka zisku od očekávaného zisku 1,5 milion CZK je 1,12 miliony CZK.
Výsledné známek z předmětu statistika byly v minulém semestru 2012/2013 popsány následující tabulkou. Výsledná známka
1
2
3
4
celkem
Počet studentů
264
382
325
182
1 153
Určete přibližně pravděpodobnost, že náhodně vybraný student statistiky z minulého semestru získal výslednou známku: a) jedna b) lepší než tři c) prospěl d) neprospěl
400 300 200 100
264
382
325 182
0 1
2
3
4
Tabulka četností: Výsledná známka
1
2
3
4
celkem
Počet studentů
264
382
325
182
1 153
=> Tabulka rozdělení pravděpodobnosti
A) B) C) D)
Výsledná známka
1
2
3
4
celkem
pravděpodobnost
0,23
0,33
0,28
0,16
1
P(1) P(X 1) 0, 23 P(X 3) 0, 23 0,33 0,56 P(X 3) 0, 23 0,33 0, 28 0,84 P(X 4) 1 P(X 3) 1 0,84 0,16
některé náhodné veličiny mají jistý specifický tvar pravděpodobnostní funkce, resp. pravděpodobnostního rozdělení. Mezi nejznámější „modelová“ pravděpodobnostní rozdělení náhodné veličiny patří např.: ◦ diskrétní náhodné veličiny: Alternativní Binomické Poissonovo Hypergeometrické
Pokus: Házíme jednou kostkou a potřebujeme, aby padla „šestka“. Náš pokus má tedy pouze dva výsledky (v jednom náhodném pokusu může nabýt pouze dvou hodnot) x = 1 jev nastane x = 0 jev nenastane
Pravděpodobnostní funkce
◦ střední hodnota ◦ rozptyl
P(X=1)=p1/6 P(X=0)=1-p 5/6
P( x) p x (1 p )1 x
E(X) p 1/ 6
1 1 D(X) p (1 p ) 1 0,139 6 6
◦ zvláštní případ binomického rozdělení pro n=1 (viz. dále)
Udává pravděpodobnost úspěchu v sérii n nezávislých pokusů, z nichž každý pokus má stejnou pravděpodobnost úspěchu п (např. jaká je pravděpodobnost, že v deseti hodech kostkou padne 3x šestka) pravděpodobnostní funkce
n 10 3 P(x) p x (1 p )n x 1/ 6 (1 1/ 6)103 0,155 x 3
střední hodnota
E(X) n p 10 1/ 6 1,666
rozptyl
1 1 D(X) n p (1 p ) 10 1 1,389 6 6
Příklady, kdy ho použít: • Obecně: výběr s vracením (z malého osudí) nebo výběr bez vracením z „velkého osudí“ • Počet úspěchů v sérii n nezávislých pokusů, z nichž každý pokus má stejnou pravděpodobnost úspěchu p. • Např. jaká je pravděpodobnost, že z 15 hodů kostkou padne pětkrát trojka.
V osudí jsou míčky bílé barvy a míčky černé barvy. Pravděpodobnost vytažení míčku bílé barvy je 1/7. Z osudí vytáhneme náhodně jeden míček, zapíšeme si jeho barvu a míček do osudí vrátíme! Poté taháme znovu, zapíšeme si opět barvu vytaženého míčku, a míček opět do osudí vrátíme atd. Celkem takto vytáhneme s vracením 4 míčky. Určete pravděpodobnost, že a) žádný, b) Jeden c) dva z těchto 4 míčků budou bílé barvy. Poté nalezněte obecný vzorec udávající pravděpodobnost, že při vytažení celkem n míčků s vracením jich x bude bílých, pokud pravděpodobnost vytažení bílého míčku v jednom tahu je p.
a)
c)
b)
d)
Pravděpodobnost, že se narodí chlapec je 0,515. Jaká je pravděpodobnost, že mezi 7 po sobě narozenými dětmi v porodnici budou:
a) b)
první 3 děvčata a další 4 chlapci právě 3 děvčata?
a) první 3 jsou děvčata a další 4 chlapci
P(x) p x (1 p )n x 0, 485 (1 0, 485)73 0,008 3
b) právě 3 děvčata
n x 7 3 n x P(x) p (1 p ) 0, 485 (1 0, 485)7 3 0, 281 x 3