S TATISTIKA A ANALÝZA DAT Jan Picek Katedra aplikované matematiky
doktorandské studium na EF TUL 2013/2014
KONTAKT Jan Picek Katedra aplikované matematiky ˇ e-humanitní ˇ Fakulta pˇrírodovedn a pedagogická budova H (4.patro), ˇ Voronežská 13 tel. 485 352 290, konzultaˇcní hodiny:Út 9:00-10:30 e-mail:
[email protected]
Jan Picek
Statistické metody
P OŽADAVKY Požadavky: ˇ rené na využití Zpracování semestrální práce zameˇ statistických metod ve vazbeˇ na téma disertaˇcní práce. Ústní komisionální zkouška.
Jan Picek
Statistické metody
L ITERATURA
ˇ J. Statistické metody. 4. vyd. Praha: Matfyzpress, 2007. ANDEL, ISBN 978-80-7378-003-6. ˇ HEBÁK, P. a kol. Vícerozmerné statistické metody, díl 1-3. 2. vyd. Praha: Informatorium, 2007. ISBN 978-80-7333-001-9. HENDL, J. Pˇrehled statistických metod zpracování dat. Portál: Praha, 2012 (4.vyd.). ISBN 978-80-262-0200-4. MELOUN, M. a J. MILITKÝ. Kompendium statistického zpracování dat. 2. vyd. Praha: Academia, 2006. ISBN 80-200-1396-2. PECÁKOVÁ , I. Statistika v terénních pruzkumech. ˚ 2. vyd. Praha: Professional Publishing, 2011. ISBN 978-80-7431-039-3. ˇ REZANKOVÁ, H., D. HÚSEK a V. SNÁŠEJ. Shluková analýza dat. 2. vyd. Praha: Professional Publishing, 2009. ISBN 978-80-86946-81-8.
Jan Picek
Statistické metody
L ITERATURA
ˇ JURECKOVÁ, J. a J. PICEK. Robust statistical methods with R. 1st ed. Boca Raton: Chapman & Hall, 2005. ISBN 9781584884545. WARNER, R. M. Applied Statistics: From Bivariate Through Multivariate Techniques. 2nd ed. Thousand Oaks: SAGE Publications, 2012. ISBN 978-1412991346.
Jan Picek
Statistické metody
L ITERATURA
http://moodle.vsb.cz/vyuka/course/info.php?id=3 Jaroslav Ramík: Statistické metody v marketingu http://www.studopory.vsb.cz/ http://mathonline.fme.vutbr.cz/ http://home.zcu.cz/ friesl/hpsb/tit.html http://kap.fp.tul.cz
Jan Picek
Statistické metody
Ú VOD ˇ Motto: "Vystaˇcím si s prum ˚ erem .....", "Co po mne chcete, to je pˇrece výsledek z poˇcítaˇce ...."
Jan Picek
Statistické metody
Ú VOD ˇ Motto: "Vystaˇcím si s prum ˚ erem .....", "Co po mne chcete, to je pˇrece výsledek z poˇcítaˇce ...." ˇ I tak jednoduchý ukazatel, jako je aritmetický prum ˚ er, muže ˚ mít vlastnosti, které pˇrekvapí.
Jan Picek
Statistické metody
Ú VOD ˇ Motto: "Vystaˇcím si s prum ˚ erem .....", "Co po mne chcete, to je pˇrece výsledek z poˇcítaˇce ...." ˇ I tak jednoduchý ukazatel, jako je aritmetický prum ˚ er, muže ˚ mít vlastnosti, které pˇrekvapí. ˇ ˇ ˇ 1: Naprostá vetšina Pˇríklad c. lidí má nadprum ˚ erný poˇcet nohou
Jan Picek
Statistické metody
Ú VOD ˇ Motto: "Vystaˇcím si s prum ˚ erem .....", "Co po mne chcete, to je pˇrece výsledek z poˇcítaˇce ...." ˇ I tak jednoduchý ukazatel, jako je aritmetický prum ˚ er, muže ˚ mít vlastnosti, které pˇrekvapí. ˇ ˇ ˇ 1: Naprostá vetšina Pˇríklad c. lidí má nadprum ˚ erný poˇcet nohou ˇ 2: Dveˇ firmy na trhu zabývající se stejnou Pˇríklad c. ˇ cˇ inností uvádí prum ˚ ernou mzdu. První ji má 22 857 Kˇc a druhá 18 981 Kˇc.
Jan Picek
Statistické metody
Ú VOD 1. firma: ˇ 10 delník u˚ 2 adm. pracovníci 1 zástupce ˇreditele 1 ˇreditel
............. ............. ............. .............
Jan Picek
15 000 25 000 40 000 80 000
Statistické metody
Ú VOD 1. firma: ˇ 10 delník u˚ 2 adm. pracovníci 1 zástupce ˇreditele 1 ˇreditel ˇ prum ˚ er
............. ............. ............. ............. .............
Jan Picek
15 000 25 000 40 000 80 000 22 857
Statistické metody
Ú VOD 1. firma: ˇ 10 delník u˚ 2 adm. pracovníci 1 zástupce ˇreditele 1 ˇreditel ˇ prum ˚ er
............. ............. ............. ............. .............
15 000 25 000 40 000 80 000 22 857
2. firma: ˇ 100 delník u˚ 5 adm. pracovníku˚ 2 zástupci ˇreditele 1 ˇreditel
............. ............. ............. .............
17 000 30 000 50 000 100 000
Jan Picek
Statistické metody
Ú VOD 1. firma: ˇ 10 delník u˚ 2 adm. pracovníci 1 zástupce ˇreditele 1 ˇreditel ˇ prum ˚ er
............. ............. ............. ............. .............
15 000 25 000 40 000 80 000 22 857
2. firma: ˇ 100 delník u˚ 5 adm. pracovníku˚ 2 zástupci ˇreditele 1 ˇreditel ˇ prum ˚ er
............. ............. ............. ............. .............
17 000 30 000 50 000 100 000 18 981
Jan Picek
Statistické metody
Ú VOD ˇ situace muže ˇ Opustíme-li prum ˚ ery, ˚ být ješteˇ zamotanejší kategorie mladší starší celkem
ženy 5 6 11
okres A muži celkem 6 11 3 9 9 20
ženy 3 9 12
okres B muži celkem 4 7 5 14 9 21
ˇ kategorii je podíl žen v okrese A vetší ˇ než v okrese B: V mladší vek. 5 3 = 45, 5% > = 42, 9% 11 7 ˇ Ve starší vekové kategorie je to stejné: 9 6 = 66, 7% > = 64, 3% 9 14
Jan Picek
Statistické metody
Ú VOD ˇ situace muže ˇ Opustíme-li prum ˚ ery, ˚ být ješteˇ zamotanejší kategorie mladší starší celkem
ženy 5 6 11
okres A muži celkem 6 11 3 9 9 20
ženy 3 9 12
okres B muži celkem 4 7 5 14 9 21
ˇ kategorii je podíl žen v okrese A vetší ˇ než v okrese B: V mladší vek. 5 3 = 45, 5% > = 42, 9% 11 7 ˇ Ve starší vekové kategorie je to stejné: 9 6 = 66, 7% > = 64, 3% 9 14 ˇ než v okrese B ? Je podíl žen v okrese A vetší
Jan Picek
Statistické metody
Ú VOD ˇ situace muže ˇ Opustíme-li prum ˚ ery, ˚ být ješteˇ zamotanejší kategorie mladší starší celkem
ženy 5 6 11
okres A muži celkem 6 11 3 9 9 20
ženy 3 9 12
okres B muži celkem 4 7 5 14 9 21
ˇ kategorii je podíl žen v okrese A vetší ˇ než v okrese B: V mladší vek. 5 3 = 45, 5% > = 42, 9% 11 7 ˇ Ve starší vekové kategorie je to stejné: 9 6 = 66, 7% > = 64, 3% 9 14 ˇ než v okrese B ? NE Je podíl žen v okrese A vetší 12 11 = 55, 0% > = 57, 1% 20 21 Jan Picek
Statistické metody
Ú VOD Okres Jablonec Semily Liberec
Podíl žáku˚ na gymnáziích 38.6% 29.0% 18.6%
Jan Picek
Statistické metody
Ú VOD Okres Jablonec Semily Liberec
Podíl žáku˚ na gymnáziích 38.6% 29.0% 18.6%
Okres Jablonec Semily Liberec
poˇcet 986 1009 1614
Studenti 2555 3479 8680
Jan Picek
Podíl 38.6% 29.0% 18.6%
Statistické metody
Ú VOD Okres Jablonec Semily Liberec
Podíl žáku˚ na gymnáziích 38.6% 29.0% 18.6%
Okres Jablonec Semily Liberec
poˇcet 986 1009 1614
Studenti 2555 3479 8680
Jan Picek
Podíl 38.6% 29.0% 18.6%
Statistické metody
Bydlí 4196 3724 7724
Podíl 23.5% 27.1% 20.9%
ˇ ˇ RÍCÍ ˇ M Eˇ RENÉ ZNAKY A M E ŠKÁLY
ˇ rení, oznaˇcujeme Vlastnosti, které jsou podrobovány meˇ ˇ ren na vhodné zvolené škále, jako znaky. Znak je meˇ stupnici.
Jan Picek
Statistické metody
ˇ ˇ RÍCÍ ˇ M Eˇ RENÉ ZNAKY A M E ŠKÁLY
ˇ rení, oznaˇcujeme Vlastnosti, které jsou podrobovány meˇ ˇ ren na vhodné zvolené škále, jako znaky. Znak je meˇ stupnici. ˇ rení rozdelujeme ˇ Meˇ podle typu: 1. Metrické (kardinální) 2. Ordinální 3. Nominální (jmenné)
Jan Picek
Statistické metody
ˇ ENÍ ˇ DATA : T RÍD
ˇ Pˇredmetem zájmu obvykle není jediný, izolovaný objekt, ˇ rení se podrobují ale soubor objektu. ˚ Pozorování cˇ i meˇ všichny prvky tohoto souboru. Pro každou ze sledovaných vlastností, definujících znak, tak dostáváme soubor údaju˚ odeˇcítaných na pˇríslušných škálách - tj. data x1 , . . . , xn .
Jan Picek
Statistické metody
ˇ ENÍ ˇ DATA : T RÍD
ˇ Pˇredmetem zájmu obvykle není jediný, izolovaný objekt, ˇ rení se podrobují ale soubor objektu. ˚ Pozorování cˇ i meˇ všichny prvky tohoto souboru. Pro každou ze sledovaných vlastností, definujících znak, tak dostáváme soubor údaju˚ odeˇcítaných na pˇríslušných škálách - tj. data x1 , . . . , xn . 174, 178, 183, 168, 163, 175, 178, 177, 169, 182, 188, 176, 177, 178, 184, 185, 170, 168, 157, 158, 174, 174, 173, 171, 168, 170, 172, 174, 176, 179, 179, 188, 186, 181, 180, 169, 172, 174, 165, 164, 156, 174, 184, 182, 181, 172, 176, 177, 185, 181, 178, 175, 170, 168, 180, 183, 183, 181, 180, 173, 175, 177, 179, 164, 161, 172, 174, 178, 184, 176, 179, 162, 182, 177.
Jan Picek
Statistické metody
ˇ ENÍ ˇ DATA : T RÍD
ˇ Tˇrídní rozdelení cˇ etností: Interval absol. relativ. h156, 161) 3 0.04 h161, 166) 6 0.08 h166, 171) 9 0.12 h171, 176) 17 0.23 h176, 181) 21 0.29 h181, 186) 15 0.20 h186, 191) 3 0.04
Jan Picek
kumul.abs. 3 9 18 35 56 71 74
Statistické metody
kumul.rel. 0.04 0.12 0.24 0.47 0.76 0.96 1.00
ˇ ENÍ ˇ DATA : T RÍD
Poˇcet a volba tˇríd:
mnoho × málo
Doporuˇcení:
M = 1 + 3.3 log(n) Stugarsovo pravidlo M=
√
n odmocninové pravidlo
Jan Picek
Statistické metody
ˇ ENÍ ˇ DATA : T RÍD
25
20
15
10
5
0 155
160
165
170
175
Histogram Jan Picek
Statistické metody
180
185
190
ˇ ENÍ ˇ DATA : T RÍD
Pohlaví Muž Žena Známka 1 2 3 4 5
Kuˇrák Nekuˇrák 300 300 150 250 poˇcet žáku˚ 4 8 5 2 1
Jan Picek
Statistické metody
DATA : POPIS Základní úlohou, které ˇreší popis dat, je úloha ˇ informace v datech obsažené, tak kondenzace, zhuštení že se puvodní ˚ primární data zredukují do mnohem menšího poˇctu údaju, ˚ tzv. charakteristik souboru:
polohy ˇ variability (promenlivosti) ˇ renými daty vzájemného vztahu, souvislosti mezi meˇ ....
Jan Picek
Statistické metody
C HARAKTERISTIKY POLOHY 1
ˇ – citlivý na hrubé chyby, pouze pro aritmetický prum ˚ er metrický znak n 1X xi . x¯ = n i=1
Jan Picek
Statistické metody
C HARAKTERISTIKY POLOHY 1
2
ˇ – citlivý na hrubé chyby, pouze pro aritmetický prum ˚ er metrický znak n 1X xi . x¯ = n i=1 ˇ ˇ i velkými výberový medián – "robustní" - není ovlivnen ˇ ˇ zmenami nekolika hodnot. n liché: xˆ = x( n+1 ) 2
Jan Picek
Statistické metody
C HARAKTERISTIKY POLOHY 1
2
3
ˇ – citlivý na hrubé chyby, pouze pro aritmetický prum ˚ er metrický znak n 1X xi . x¯ = n i=1 ˇ ˇ i velkými výberový medián – "robustní" - není ovlivnen ˇ ˇ zmenami nekolika hodnot. n liché: xˆ = x( n+1 ) 2 1 n sudé: xˆ = 2 x( n2 ) + x( n2 +1) . modální hodnota (modus) x˜ – je definován jako ˇ hodnota. Obecneˇ není urˇcena nejˇcetnejší ˇ jednoznaˇcne.
Jan Picek
Statistické metody
C HARAKTERISTIKY POLOHY ˇ setˇrídená data: x(1) ≤ x(2) ≤ ... ≤ x(n) 156 157 158 161 162 163 164 164 165 168 168 168 168 169 169 170 170 170 171 172 172 172 172 173 173 174 174 174 174 174 174 174 175 175 175 176 176 176 176 177 177 177 177 177 178 178 178 178 178 179 179 179 179 180 180 180 181 181 181 181 182 182 182 183 183 183 184 184 184 185 185 186 188 188
Jan Picek
Statistické metody
C HARAKTERISTIKY POLOHY α-kvantil xα ( α ∈ (0, 1)) xα = x(⌈αn⌉) , kde ⌈a⌉ oznaˇcuje a, pokud je to celé cˇ íslo, jinak nejbliží vyšší celé cˇ íslo. Kromeˇ mediánu, což je kvantil pro α = 0.5, se cˇ asto užívají i kvartily, x0.25 a x0.75 .
Jan Picek
Statistické metody
C HARAKTERISTIKY POLOHY 156 157 158 161 162 163 164 164 165 168 168 168 168 169 169 170 170 170 171 172 172 172 172 173 173 174 174 174 174 174 174 174 175 175 175 176 176 176 176 177 177 177 177 177 178 178 178 178 178 179 179 179 179 180 180 180 181 181 181 181 182 182 182 183 183 183 184 184 184 185 185 186 188 188
Jan Picek
Statistické metody
C HARAKTERISTIKY VARIABILITY
Jan Picek
Statistické metody
C HARAKTERISTIKY VARIABILITY
Rozptyl (variance, disperze) ˇ ˇ - prum ˚ erná kvadratická odchylka od prum ˚ eru n
1X 1 s2 = (xi − x¯)2 = n i=1 n
ˇ smerodatná odchylka s = stˇrední chyba
variaˇcní koeficient
√
n X i=1
s2
s √ n
s x¯ - definován pouze pro x1 , . . . , xn > 0. v=
Jan Picek
Statistické metody
x2i − n¯ x2
!
C HARAKTERISTIKY VARIABILITY
ˇ prum ˚ erná absolutní odchylka n
1X d= |xi − xˆ| n i=1
ˇ R = x(n) − x(1) rozpetí ˇ RM = x0.75 − x0.25 mezikvartilové rozpetí entropie (pro nominální znak) h=−
r X ni i=1
Jan Picek
n
log
n
Statistické metody
i
n
DALŠÍ CHARAKTERISTIKY 1
Obecný moment k–tého ˇrádu n
m′k 2
1X k x , = n i=1 i
k = 0, 1, . . .
Centrální moment k–tého ˇrádu n
mk = 3
4
1X (xi − x¯)k , n i=1
k = 0, 1, . . .
šikmost – míra (ne)symetrie a3 =
m3 s3
a4 =
m4 s4
špiˇcatost
Jan Picek
Statistické metody
ˇ je Prum ˚ er n
ˇ výberový rozptyl
1X x¯ = xi = 175.08, n i=1 n
1X s = (xi − x¯n )2 = 51.72, n i=1 2
ˇ smerodatná odchylka
s= variaˇcní koeficient v= šikmost a3 = špiˇcatost
1 n
√
s2 = 7.19,
s = 0.041, x¯
Pn
1 n
i=1 (xi s3
Pn
− x¯)3
= −0.629,
(xi −Statistické x¯)4 metody
i=1 Jan Picek
C HARAKTERISTIKY - BOX PLOT cˇ . 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.
výška 153.0 161.0 163.0 175.0 149.0 171.0 159.0 159.0 162.0 152.5 162.0 162.5
výška otce 178 180 182 180 175 175 187 177 189 178 194 183
Jan Picek
výška matky 176 165 170 170 163 160 174 167 175 170 168 168
Statistické metody
váha 42.5 61.0 62.0 65.5 54.6 105.2 60.7 58.0 63.0 46.3 82.0 76.4
tuk 44.0 88.0 69.0 58.0 69.5 120.5 66.0 74.0 49.2 31.7 80.5 89.7
C HARAKTERISTIKY - BOX PLOT cˇ . 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
výška 161.5 150.0 150.5 163.5 159.5 167.5 167.0 170.0 161.0 160.0
výška otce 182 176 173 183 180 187 188 180 179 183
Jan Picek
výška matky 180 160 165 170 165 173 164 175 168 171
Statistické metody
váha 74.0 53.1 52.8 46.2 57.2 65.5 67.9 63.3 64.0 49.5
tuk 85.2 52.2 45.3 30.5 57.5 57.5 48.9 66.6 62.4 31.9
150
160
170
180
190
C HARAKTERISTIKY - BOX PLOT
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU
Statistiky ukazují, že 10% dopravních nehod zpusobují ˚ opilí ˇridiˇci. Z toho plyne, že zbývajících 90% dopravních ˇ by se tedy nehod je zpusobeno ˚ stˇrízlivými ˇridiˇci. Nemelo stˇrízlivým ˇridiˇcum ˚ zakázat ˇrízení vozidel ?
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU (x1 , y1 ), . . . , (xn , yn ) korelaˇcní koeficient: rx,y =
Cx,y . sx sy
kovariance: n
Cx,y
1X 1 = (xi − x¯) (yi − y¯) = n i=1 n
Jan Picek
Statistické metody
n X i=1
xi yi
!
− x¯y¯,
C HARAKTERISTIKY VZTAHU Korelaˇcní matice (výška, výška otce, výška matky , váha, tuk):
1.00000000 0.38105466 0.17817213 0.58595366 0.33694167
0.38105466 1.00000000 0.39432681 0.21713439 −0.05810178
0.17817213 0.39432681 1.00000000 −0.19823197 −0.22884187
Jan Picek
0.58595366 0.21713439 −0.19823197 1.00000000 0.84130799
Statistické metody
0.33694167 −0.05810178 −0.22884187 0.84130799 1.00000000
C HARAKTERISTIKY VZTAHU Spearmanuv ˚ korelaˇcní koeficient n
X 6 rS = 1 − (Ri − Qi )2 2 n(n − 1) i=1
Ri a Qi je poˇradí
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU Žák (i) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
xi 2 4 3 3 2 2 4 4 3 3
yi 1 2 1 2 2 3 2 4 1 2
Ri 2 9 5,5 5,5 2 2 9 9 5,5 5,5
Qi 2 6 2 6 6 9 6 10 2 6
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU Žák (i) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
xi 2 4 3 3 2 2 4 4 3 3
yi 1 2 1 2 2 3 2 4 1 2
Ri 2 9 5,5 5,5 2 2 9 9 5,5 5,5
Qi 2 6 2 6 6 9 6 10 2 6
rS = 0.266
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU Pohlaví Muž Žena
Kuˇrák Nekuˇrák 300 300 150 250
Jan Picek
Statistické metody
C HARAKTERISTIKY VZTAHU Pohlaví Muž Žena
Kuˇrák Nekuˇrák 300 300 150 250
Míry asociace založeny na χ2 =
ni. nj. 2 n ni. nj. n
r X s X nij − i=1 j=1
napˇr. C=
s
Jan Picek
χ2 χ2 + n
Statistické metody
C HARAKTERISTIKY VZTAHU Pohlaví Muž Žena
Kuˇrák Nekuˇrák 300 300 150 250
C = 0.122
Míry asociace založeny na χ2 =
ni. nj. 2 n ni. nj. n
r X s X nij − i=1 j=1
napˇr. C=
s
Jan Picek
χ2 χ2 + n
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD ˇ Pˇríklad: placení školného, dotáži se nekolika vybranných jedincu: ˚ 1. 7 osob, 1x ANO, 7x NE pro je
1 7
= 0.143 = 14.3(%)
Jan Picek
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD ˇ Pˇríklad: placení školného, dotáži se nekolika vybranných jedincu: ˚ 1. 7 osob, 1x ANO, 7x NE pro je
1 7
= 0.143 = 14.3(%)
Kolik osob do šetˇrení vybrat ?
Jan Picek
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD ˇ Pˇríklad: placení školného, dotáži se nekolika vybranných jedincu: ˚ 1. 7 osob, 1x ANO, 7x NE pro je
1 7
= 0.143 = 14.3(%)
Kolik osob do šetˇrení vybrat ?
2. 3000 osob, 430x ANO, 2570x NE pro je
430 3000
= 0.143 = 14.3(%)
Jan Picek
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD ˇ Pˇríklad: placení školného, dotáži se nekolika vybranných jedincu: ˚ 1. 7 osob, 1x ANO, 7x NE pro je
1 7
= 0.143 = 14.3(%)
Kolik osob do šetˇrení vybrat ?
2. 3000 osob, 430x ANO, 2570x NE pro je
430 3000
= 0.143 = 14.3(%)
Pˇresnost - tzv. intervalové odhady, kvalita - reprezentativnost
Jan Picek
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD Intervalový odhad: 1) (0.4%, 57.9%) 2) (13.1%, 15.6%)
Jan Picek
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD Intervalový odhad: 1) (0.4%, 57.9%) 2) (13.1%, 15.6%)
Základní soubor - úplné šetˇrení ˇ Vzorek - výberové šetˇrení
Jan Picek
Statistické metody
I NDUKTIVNÍ STATISTIKA - ÚVOD Matematická statistika ˇreší dveˇ základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz) Obvykle pˇredpokládáme, že pro danou situaci známe vhodný model (distribuˇcní funkci, hustotu aj.) až na hodnotu parametru. ˚ Úlohy jsou pak pˇrevedeny na úvahy o ˇ techto parametrech.
Jan Picek
Statistické metody
O DHADY
bodový (odhad cˇ íslem) intervalový - interval, který s pˇredepsanou ˇ pravdepodobností (1 − α) pokrývá hodnotu neznámého parametru
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ ˇ Pˇredmetem teorie pravdepodobnosti je studium ˇ u, ˇ u, náhodných dej ˚ tj. takových dej ˚ jejichž výsledek není pˇredem jednoznaˇcneˇ urˇcen a oˇcekává se pouze, že výsledek bude jedním z dané množiny možných výsledku˚ Ω – neprázdná abstraktní množina. Poˇcet jejích prvku˚ muže ˚ být koneˇcný, spoˇcetný, ale i nespoˇcetný. ˇ budeme ˇríkat náhodný pokus. Náhodnému deji Výsledkem pokusu mohou být cˇ ísla, cˇ íselné vektory, ˇ nejaké ˇ cˇ íselné posloupnosti, cˇ asový prub ˚ eh funkce na daném intervalu, ale i libovolný kvalitativní ukazatel. Všechny možné výsledky pokusu ω ∈ Ω nazýváme elementárními jevy. Podmnožiny množiny Ω nazýváme jevy
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Klasická definice pravdepodobnosti. Tato definice je použitelná v pˇrípadech, kdy situace je popsána koneˇcným poˇctem n ruzných ˚ výsledku˚ (elementárních jevu˚ ω), z nichž každý je "stejneˇ možný". Potom m(A) , P (A) = n kde m(A) je poˇcet elementárních jevu, ˚ které tvoˇrí náhodný jev A.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Náhodná veliˇcina Cíl: matematický popis náhodných jevu˚ ("kvantifikovace" popisu - vyjádˇrení pomocí reálných cˇ ísel.) ˇ v anketeˇ "ano", "ne" – "1", "0", odpovedi "kvalita výrobku" – oznaˇcení 1,2,3, ... pro tˇrídy kvality, ˇ Casto je už náš základní prostor jevu˚ cˇ ástí R (výsledky ˇ rení, doba bezporuchového provozu, poˇcet výrobku˚ za meˇ ˇ atd.). smenu
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Náhodnou velicinou budeme nazývat zobrazení X : Ω → R. ˇ Náhodná veliˇcina se vyznaˇcuje rozdelením ˇ pravdepodobnosti na R, což není nic jiného než puvodní ˚ ˇ pravdepodobnost na Ω pˇrevedená na R. Existují dva typy náhodných veliˇcin, náhodná veliˇcina ˇ ˇ s diskrétním rozdelením pravdepodobnosti a náhodná ˇ ˇ veliˇcina se spojitým rozdelením pravdepodobnosti.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Diskrétní rozdelení ˇ Rekneme, že náhodná veliˇcina X je náhodná veliˇcina ˇ ˇ s diskrétním rozdelením pravdepodobnosti, jestliže existuje nejvýše spoˇcetneˇ mnoho bodu˚ xj a nejvýše spoˇcetneˇ mnoho kladných cˇ ísel pj = P (X = xj ) > 0, P ˇ splnujících P (X = xj ) = 1. j Funkci PX (xj ) = P (X = xj ) nazýváme ˇ pravdepodobnostní funkcí.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Rekneme, že náhodná veliˇcina X je náhodná veliˇcina ˇ spojitým rozdelením, ˇ s (absolutne) jestliže existuje ˇ nezáporná reálná funkce fX reálné promenné taková, že Z b fX (x)dx P (a ≤ X < b) = a
pro libovolná reálná a, b; a ≤ b. ˇ Funkce fX se nazývá hustotou rozdelení ˇ pravdepodobnosti.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ funkcí náhodné veliˇciny X budeme nazývat Distribucní ˇ reálnou funkci reálné promenné, pro kterou platí FX (x) = P (X < x).
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ funkce Vlastnosti distribucní 1. 0 ≤ FX (x) ≤ 1 pro všechna reálná x. 2. FX je neklesající funkce, tj. FX (x1 ) ≤ FX (x2 ) pro každé x1 , x2 ∈ R, x1 < x2 . 3. Pro libovolná reálná cˇ ísla a, b ∈ R; a < b platí P (a ≤ X < b) = FX (b) − FX (a). 4. lim FX (x) = 0, lim FX (x) = 1. x→−∞
x→∞
5. FX je zleva spojitá v libovolném bodeˇ x ∈ R. 6. Pro libovolné reálné cˇ íslo x ∈ R platí P (X = x) = limt→x+ FX (t) − FX (x). 7. Distribuˇcní funkce má nejvýše spoˇcetneˇ mnoho bodu˚ nespojitosti.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Císelné charakteristiky ˇ ˇ Rozdelení pravdepodobnosti dává úplnou informaci o náhodném chování náhodné veliˇciny. Pˇri vyhodnocování pokusu˚ a sledování náhodných jevu˚ ˇ však cˇ asto vystaˇcíme se znalostí jen nekterých zvláštních ˇ charakteristik, které odráží nejakou duležitou ˚ stránku tohoto pokusu resp. náhodného jevu.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ z takovýchto charakteristik je hodnota, Nejduležit ˚ ejší kolem které se kumulují hodnoty náhodné veliˇciny. Tuto ˇ hodnotu nazýváme stˇrední hodnotou, nekdy též hovoˇríme ˇ o oˇcekávané hodnote. X EX = xi P (X = xi ). i∈I
resp. Z+∞ x fX (x) dx. EX = −∞
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Rozptyl ˇ Kromeˇ stˇrední hodnoty, nejužívanejším momentem je ˇ druhý centrální, tzv. rozptyl (variance) náhodné veliciny varX = E(X − EX)2 =
X i∈I
(xi − EX)2 P (X = xi ).
resp. Z+∞ (x − EX)2 fX (x) dx varX = E(X − EX)2 = −∞
ˇ Druhou odmocninu z rozptylu nazýváme smerodatnou odchylkou (σ).
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Vlastnosti rozptylu a stˇrední hodnoty. 1. varX ≥ 0. 2. varX = EX 2 − (EX)2 . 3. Necht’ a, b ∈ R a X je náhodná veliˇcina, potom platí var(a + bX) = b2 varX a E(a + bX) = a + bEX. 4. Nemusí existovat.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Je-li g funkce, pak Eg(X) =
X
g(xi ) P (X = xi ).
i∈I
resp. Z+∞ Eg(X) = g(x) fX (x) dx. −∞
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Obecné a centrální momenty Obecný moment r-tého rˇádu X µ′r = EX r = xri P (X = xi ), r = 1, 2, . . . , i∈I
resp. Z+∞ µ′r = EX r = xr fX (x) dx. −∞
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Centrální moment r-tého rˇádu X µr = E(X − EX)r = (xi − EX)r P (X = xi ) i∈I
resp.
Z+∞ (x − EX)r fX (x) dx µr = E(X − EX) = r
−∞
ˇ Šikmost a špicatost: α3 = α3 (X) = α4 = α4 (X) = Jan Picek
µ3 , σ3
µ4 (−3) σ4
Statistické metody
ˇ P RAVD EPODOBNOST
Kvantilové cˇ íselné charakteristiky Necht’ X náhodná veliˇcina s distribuˇcní funkci FX . Potom funkce FX−1 daná vztahem FX−1 (α) = inf {x ; FX (x) ≥ α}
0 < α < 1,
se nazývá kvantilová funkce. Hodnotám funkce FX−1 (α) ˇríká α-kvantil (nebo 100α%-ní kvantil).
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Mediánem x˜ rozumíme 50%-ní kvantil. Dolním kvartilem x0.25 rozumíme 25%-ní kv. Horním kvartilem x0.75 rozumíme 75%-ní kv. k-tým decilem rozumíme FX−1 (k/10) pro k = 1, 2, . . . , 9. k-tým percentilem rozumíme FX−1 (k/100) pro k = 1, 2, . . . , 99. ˇ x0.75 − x0.25 mezikvartilové rozpetí
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Používaná diskrétní rozdelení
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Alternativní rozdelení X ∼ Alt(p) Necht’ náhodná veliˇcina X nabývá pouze dvou hodnot 0 a ˇ 1, a to s pravdepodobnostmi P (X = 1) = p, P (X = 0) = (1 − p),
kde 0 < p < 1. ˇ ˇ Rozdelení se nekdy oznaˇcuje jako 0 – 1. EX = p,
varX = p(1 − p)
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Binomické rozdelení X ∼ Bi(n, p) Necht’ náhodná veliˇcina X nabývá hodnot 0, 1, . . . , n ˇ s pravdepodobnostmi n i P (X = i) = p (1 − p)n−i , i = 0, 1, . . . , n, i kde 0 < p < 1. EX = np,
varX = np(1 − p)
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Binomické rozdelení X ∼ Bi(n, p) ˇ ˇ Binomickým rozdelením se ˇrídí cˇ etnost nejakého jevu A v n nezávislých pokusech, když v každém pokusu je ˇ pravdepodobnost jevu A stále stejná a je rovna p.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Poissonovo rozdelení X ∼ P o(λ) Necht’ X je náhodná veliˇcina nabývající hodnot ˇ i = 0, 1, 2, . . . s pravdepodobnostmi P (X = i) =
λi −λ e , i!
kde λ > 0 je dané cˇ íslo. EX = var (X)
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Poissonovo rozdelení X ∼ P o(λ) ˇ se používá pro popis pravdepodobnosti ˇ Nejˇcasteji poˇctu ˇ událostí v nejakém cˇ asovém intervalu. (poˇcet telefonních hovoru, ˚ dopravních nehod, pˇríchodu˚ zákazníku˚ do obchodu apod.) ˇ Poissonovo rozdelení je možno také použít místo binomické náhodné veliˇciny X ∼ Bi(n, p), pˇriˇcemž n je velmi velké cˇ íslo, p je velmi malé cˇ íslo a souˇcin λ = np je stálý.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Geometrické rozdelení X ∼ Ge(p) Uvažujme náhodnou veliˇcinu X, která nabývá hodnot ˇ i = 0, 1, 2, . . . , a to s pravdepodobnostmi P (X = i) = p(1 − p)i , kde p ∈ (0, 1) je parametr. EX =
1−p , p
Jan Picek
varX = (1 − p)p2
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Geometrické rozdelení X ∼ Ge(p) Sledujme výskyt jevu A v nezávislých opakováních ˇ náhodného pokusu, pˇriˇcemž pravdepodobnost jevu A je v každém pokusu rovna p. Náhodná veliˇcina ˇ s geometrickým rozdelením udává poˇcet nezávislých opakování onoho náhodného pokusu pˇred prvním výskytem jevu A.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Hypergeometrické rozdelení X ∼ Hg(N, n, M ) Necht’ N, M a n jsou pˇrirozená cˇ ísla taková, že M < N, n < N. Necht’ X nabývá pouze celoˇcíselných ˇ hodnot i s pravdepodobnostmi M N −M P (X = i) =
i
n−i N n
,
pro max(0, M + n − N ) ≤ i ≤ min(M, n). nA n−1 nA(N − A) EX = 1− , var (X) = . N N2 N −1
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Hypergeometrické rozdelení X ∼ Hg(N, n, A) ˇ Toto rozdelení je možné popsat následující situací. Uvažujme množinu, která obsahuje N objektu, ˚ z nichž M má jistou vlastnost. Vybereme náhodneˇ z této množiny n objektu. ˚ Potom X oznaˇcuje poˇcet vybraných objektu˚ mající uvažovanou vlastnost.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Spojitá rozdelení
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
FX (x) =
Z
x −∞
fX (y) dy pro každé x ∈ R.
Ve všech bodech, kde existuje derivace distribuˇcní funkce FX , platí vztah dFX (x) = fX (x). dx Z ∞ fX (x)dx = 1 −∞
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
Pro libovolná reálná cˇ ísla a, ba ≤ b platí P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = Z b fX (t) dt. a
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ ˇ Rovnomerné rozd X ∼ R(a, b) elení 1 pro a < x < b b−a f (x) = 0 pro x ≤ a nebo x ≥ b. x≤a 0 x−a a<x
EX =
(a + b) , 2
Jan Picek
var(X) =
Statistické metody
(b − a)2 . 12
ˇ P RAVD EPODOBNOST
ˇ Normální (Gaussovo) rozdelení X ∼ N (µ, σ) 1 (x − µ)2 1 exp − , pro x ∈ R, f (x) = √ 2 σ2 2πσ
parametry: µ = EX a σ 2 = var(X).
Distribuˇcní funkce - nexistuje žádná explicitní formule. Hodnoty distribuˇcní funkce s parametry 0, 1 velice pˇresneˇ tabelovány.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
0.8
µ=0, σ=0.5
0.6
0.4
µ=0, σ=1
µ=2, σ=1
0
2
0.2 µ=0, σ=2 0.0 -4
-2
4
ˇ Graf hustoty normalního rozdelení pro ruzné ˚ hodnoty parametru˚ µ a σ. Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Exponenciální rozdelení X ∼ Exp(c) −cx ce x≥0 f (x) = 0 jinak, Z x 1 − e−cx x ≥ 0 f (t) dt = FX (x) = 0 x < 0. −∞ EX = 1/c,
Jan Picek
var(X) = 1/c2
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Weibullovo rozdelení X ∼ W b(c, d) ˇ ˇ Zobecnením exponenciálního rozdelení d 1 − e−cx x ≥ 0 F (x) = 0 x < 0. s parametry c, d > 0. cdxd−1 exp(−cxd ) x ≥ 0 f (x) = 0 x < 0.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
1.0
0.8
c=1, d=2
0.6 c=2, d=1 c=1, d=1 0.4
0.2 c=1, d=0.5 0.0 0.0
0.5
1.0
1.5
2.0
ˇ Graf hustoty Weibullova rozdelení pro ruzné ˚ hodnoty parametru˚ c a d.
Jan Picek
Statistické metody
ˇ P RAVD EPODOBNOST
ˇ Cauchyovo rozdelení f (x) = parametry θ a λ.
λ 1 · 2 , π λ + (x − θ)2
1 1 F (x) = + arctan 2 π
x−θ λ
.
ˇ Toto rozdelení nemá stˇrední hodnotu a rozptyl.
Jan Picek
Statistické metody
O DHADY Matematická statistika ˇreší dveˇ základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz) Obvykle pˇredpokládáme, že pro danou situaci známe vhodný model (distribuˇcní funkci, hustotu aj.) až na hodnotu parametru. ˚ Úlohy jsou pak pˇrevedeny na úvahy o ˇ techto parametrech.
Jan Picek
Statistické metody
O DHADY Informaci pro statistickou analýzu obdržíme ve formeˇ dat, která považujeme za realizace zkoumaných náhodných ˇ veliˇcin. Náhodným výberem rozumíme vektor složený ˇ z nezávislých a stejneˇ rozdelených náhodných veliˇcin. ˇ ˇ Císlo n je rozsah výberu. ˇ je model pro situace, kdy pozorujeme n Náhodný výber nezávislých, “stejných" objektu, ˚ nebo opakujeme nezávisle n krát tentýž pokus. Náhodná veliˇcina je modelem pro onu veliˇcinu, kterou na daných objektech zkoumáme.
Jan Picek
Statistické metody
O DHADY ˇ – za rozumnou dobu a s rozumnými náklady "výber" schopni zjistit údaje jen o n vybraných objektech. Na ˇ deláme ˇ ˇ o charakteristikách celého základeˇ výberu závery souboru. ˇ Pˇríklady: namátková cˇ i výberová kontrola výrobku, ˚ ˇ výzkumy veˇrejného mínení, testování léˇcebných postupu. ˚ Duležitou ˚ otázka - reprezentativnost
Jan Picek
Statistické metody
O DHADY ˇ odhady : Mezi nejpoužívanejší ˇ ˇ výberový prum ˚ er n
X ¯n = 1 Xi X n i=1 ˇ a výberový rozptyl n n 1 X 1 X 2 2 ¯ ¯ 2, ) S = (Xi − Xn ) = ( X i − nX n n − 1 i=1 n − 1 i=1 2
Jan Picek
Statistické metody
O DHADY
ˇ z rozdelení, ˇ Necht’ X1 , . . . , Xn je náhodný výber které má stˇrední hodnotu µ a koneˇcný rozptyl σ 2 . Pak platí ¯ = µ, EX
2 ¯=σ varX n
ˇ N (µ, σ 2 ). Pak Necht’ X1 , . . . , Xn je náhodný výber ¯ ∼ N (µ, σ 2 /n). platí X
Jan Picek
Statistické metody
O DHADY
ˇ z rozdelení, ˇ Necht’ X1 , . . . , Xn je náhodný výber které má stˇrední hodnotu µ a koneˇcný rozptyl σ 2 . Pak platí ES 2 = σ 2
varS 2 = σ 4
2n (n − 1)2
ˇ N (µ, σ 2 ). Pak Necht’ X1 , . . . , Xn je náhodný výber 2 2 2 ¯ platí (n − 1)S /σ ∼ χn−1 a X a S 2 jsou nezávislé.
Jan Picek
Statistické metody
O DHADY P 2 2 ˇ Náhodná veliˇcina Z = m když 1 Zj má χ -rozdelení, ˇ Z1 , Z2 , . . . , Zm jsou nezávislé stejneˇ rozdelené veliˇciny z ˇ rozdelení N (0, 1). Pak hustota Z je gm (z) =
1 2 Γ m 2
Γ(p) je gamma-funkce, Γ(p) = (p − 1)!. E(Z) = n, var (Z) = 2n
z
m 2
R∞ 0
m
e− 2 z 2 −1 ,
pro z ≥ 0,
xp−1 e−x dx, pro p celé > 0 je
Jan Picek
Statistické metody
O DHADY
ˇ z rozdelení, ˇ Necht’ X1 , . . . , Xn je náhodný výber které má stˇrední hodnotu µ a koneˇcný rozptyl σ 2 . Pak platí ES 2 = σ 2
varS 2 = σ 4
2n (n − 1)2
ˇ N (µ, σ 2 ). Pak Necht’ X1 , . . . , Xn je náhodný výber 2 2 2 ¯ platí (n − 1)S /σ ∼ χn−1 a X a S 2 jsou nezávislé.
Jan Picek
Statistické metody
O DHADY Necht’ U, Z jsou nezávislé náhodné veliˇciny, kde U je ˇ normální N (0, 1) a Z 2 má χ2√ -rozdelení o n stupních U volnosti. Pak veliˇcina T = Z n má Studentovo ˇ t-rozdelení o n stupních volnosti dané hustotou t2 , 1 + hn (t) = √ n nB n2 , 21 1
Jan Picek
− n+1 2
Statistické metody
− ∞ < t < ∞.
O DHADY Necht’ U, V jsou dveˇ nezávislé náhodné veliˇciny ˇ ˇ o χ2 -rozdeleních o n a m stupních volnosti. Rozdelení jejich podílu U/n W = V /m ˇ se pak nazývá F -rozdelení s n a m stupni volnosti a má hustotu m n −1 2 z2 n+m n m 2 , (m+nz) 2 2 n
gn,m (z) =
n2m
B(
)
gn,m = 0
pro z > 0 jinak.
Jan Picek
Statistické metody
O DHADY Teorie bodového odhadu ˇ (reprezentuje data): nezávislé stejneˇ Náhodný výber ˇ ˇ rozdelené náhodné veliˇciny mají rozdelení z urˇcité tˇrídy ˇ rozdelení {F (x, θ)}, kde θ ∈ Θ ⊂ Rk je neznámý parametr. ˇ Uvažujeme tedy náhodný vektor X, jejíž rozdelení závisí na parametru θ. FX (x, θ) =
n Y
F (xi , θ)
i=1
Jan Picek
Statistické metody
O DHADY Úkolem je odhad parametru θ. Parametr θ "charakterizuje vlastnost, kterou z dat chceme odhadnout." Odhad je obecneˇ funkcí pozorovaných náhodných veliˇcin, ˇ náhodná tj. T(X) z Rn to Rk (statistika). Odhad je opet veliˇcina (vektor), konkrétní "odhad" aktuální hodnoty parametru θ je hodnota T(X), když x je realizace X. Cíl vybrat funkci statistiku Tn (X), která by "co nejlépe" odhadovala neznámý parametr θ.
Jan Picek
Statistické metody
O DHADY Požadované vlastnosti odhadu: ˚ 1 Nestrannost (nevychýlenost): pro každé θ platí Eθ Tn (X) = θ. 2 3
Konzistence: limn→∞ Tn (X) = θ Eficience (vydatnost): odhad Tn (x) je eficientní, když pro každý jiný odhad Tn∗ (x) mající koneˇcný druhý moment platí Eθ {(Tn (X) − θ)2 } ≤ Eθ {(Tn∗ (X) − θ)2 } tj. pro nestranné odhady var θ (Tn (X) ≤ var θ (Tn∗ (X))
Jan Picek
Statistické metody
O DHADY Metody odhadu ˇ Metoda maximální verohodnosti ˇ Maximálneˇ verohodným odhadem parametru θ pˇri ˇ rených hodnotách x1 , x2 , . . . , xn je hodnota θ0 ∈ Θ, nameˇ ˇ pro kterou funkce Lθ (x) Q je verohodnostní Q maximální. Lθ (x) = ni=1 f (xi , θ) pro spojité, resp. P (Xi = xi , θ) ˇ pro diskrétní rozložení pravdepodobnosti.
Jan Picek
Statistické metody
O DHADY Protože log L má maximum v témže bodeˇ jako L, ˇ prakticky se cˇ asto odhad hledá jako ˇrešení verohodnostní rovnice ∂ log Lθ (x) / ∂θ = 0. ˇ Maximálneˇ verohodný odhad je konzistentní.
Jan Picek
Statistické metody
O DHADY Momentová metoda ˇ Porovnání teoretických a výberových momentu˚
Jan Picek
Statistické metody
O DHADY Odhady: bodový (odhad c ˇ íslem) intervalový - interval, který s pˇ redepsanou ˇ pravdepodobností (1 − α) pokrývá hodnotu neznámého parametru
Jan Picek
Statistické metody
O DHADY ˇ Intervalový odhad: model normálního rozdelení 100(1 − α)% interval pro µ a neznámé σ 2 : S S X − tn−1 (1 − α/2) √ , X + tn−1 (1 − α/2) √ n n pro µ a známé σ 2 : σ σ −1 −1 X − Φ (1 − α/2) √ , X + Φ (1 − α/2) √ n n tn−1 (1 − α/2), Φ−1 (1 − α/2) - kvantily (tabulkové hodnoty), α - zvolená (pˇredepsaná) hodnota, obvykle 0.05, 0.01
Jan Picek
Statistické metody
O DHADY ˇ Intervalový odhad: model normálního rozdelení 100(1 − α)% interval pro σ 2 : (n − 1)S 2 (n − 1)S 2 , χ2n−1 (1 − α/2) χ2n−1 (α/2) χ2n−1 (α/2) - kvantily (tabulkové hodnoty), α - zvolená (pˇredepsaná) hodnota, obvykle 0.05, 0.01
Jan Picek
Statistické metody
O DHADY ˇ Intervalový odhad: model binomického rozdelení 100(1 − α)% interval pro p:
m Φ−1 (1 − α/2) − n n
r r m m Φ−1 (1 − α/2) m m(1 − ), + m(1 − n n n n
ˇ Φ−1 (1 − α/2) - kvantil normálního rozdelení (tabulky), m/n ˇ relativní cetnost "výskytu sledovaného jevu" ve ˇ výberovém souboru
Jan Picek
Statistické metody
T ESTY Testování hypotéz: ˇ x = (X1 , . . . , Xn )′ , jehož Na základeˇ náhodného výberu ˇ rozdelení závisí na parametru θ, který patˇrí do parametrického prostoru Θ, chceme rozhodnout, zda platí ˇ napˇríklad, že θ patˇrí do urˇcité tvrzení o náhodné veliˇcine, urˇcité vlastní podmnožiny θ ∗ prostoru Θ. Toto tvrzení nazýváme (nulová) hypotéza.
Jan Picek
Statistické metody
T ESTY Toto tvrzení nazýváme (nulová) hypotéza. H0 : θ ∈ θ ∗ . Protikladné tvrzení v rámci uvažovaného modelu se nazývá alternativa, napˇr. A:θ∈ / θ∗ . Je-li θ ∗ jednobodová, pak mluvíme o jednoduché hypotéze.
Jan Picek
Statistické metody
T ESTY ˇ Vlastní test: Na základeˇ náhodného výberu zkonstruujeme testovou statistiku T a urˇcíme množinu W , která se nazve kritický obor. Nastane-li jev {T ∈ W }, pak zamítneme hypotézu H0 . Pˇri tomto ˇ rozhodování nastane nekterý z následujících pˇrípadu: ˚ 1. 2. 3. 4.
H0 H0 H0 H0
platí a test ji nezamítá. Rozhodnutí je správné. neplatí a test ji zamítá. Rozhodnutí je správné. ˇ platí a test ji zamítá. Ríká se, že nastala chyba 1. druh ˇ neplatí a test ji nezamítá. Ríká se, že nastala chyba 2.
Jan Picek
Statistické metody
T ESTY Kriticky obor pˇritom konstruujeme tak, aby ˇ pravdepodobnost chyby 1. druhu nepˇrekroˇcila pˇredem dané cˇ íslo α hladina testu. Nejlepší volba kritického oboru a testové statistiky je taková, kdy pˇri dodržení podmínky na chybu na chybu 1. druhu je ˇ pravdepodobnost chyby 2. druhu minimální.
Jan Picek
Statistické metody
T ESTY ˇ T-test: Model normální rozdelení: nulová hypotéza: H0 : µ = µ0 (pˇredepsané cˇ íslo) alternativa: A : µ 6= µ0
Jan Picek
Statistické metody
T ESTY Rozhodovací kritérium: T =
X − µ0 √ n S
Je-li |T | ≥ tn−1 (1 − α/2) zamítám nulovou hypotézu ("tvrdím, že správná je alternativa"), v pˇrípadeˇ opaˇcné nerovnosti nezamítám nulovou hypotézu ("je správná").
Jan Picek
Statistické metody
T ESTY Párový t-test: se používá v situacích, kdy máme na ˇ reny dveˇ veliˇciny (X1 , Y1 ), každém z n objektu˚ meˇ . . . , (Xn , Yn ). Jednotlivé objekty lze zpravidla pokládat za ˇ rení na témž objektu nikoli. nezávislé, ale meˇ Položme Z1 = X1 − Y1 , . . . , Zn = Xn − Yn . Pˇredpokládejme, že Zi ∼ N (µ, σ 2 ), i = 1, . . . , n, kde ˇ pak jde o µ = µ1 − µ2 . Jsou-li tyto pˇredpoklady splneny, test H : µ = 0 proti alternativeˇ A : µ 6= 0. (Úloha ˇ pˇrevedena na jednovýberový t-test.)
Jan Picek
Statistické metody
T ESTY Testová statistika: n
1 X Z√ n, kde S 2 = T = (Zi − Z)2 S n − 1 i=1 Je-li |T | ≥ tn−1 (1 − α/2) zamítám nulovou hypotézu, v pˇrípadeˇ opaˇcné nerovnosti nezamítám nulovou hypotézu.
Jan Picek
Statistické metody
T ESTY ˇ Dvouvýberový t-test: jako párový test porovnává dveˇ ˇ rení), mužeme skupiny dat (meˇ ˚ ho použít pouze v ˇ nezávislost všech situacích, kdy máme skuteˇcneˇ zajištenu ˇ veliˇcin X1 , . . . , Xn , Y1 , . . . , Ym . Užijeme-li dvouvýberový t test v situaci, pro kterou je nezbytný test párový, pak to zpravidla vede k nesmyslným výsledkum. ˚ Naproti tomu není hrubou chybou použít párový test v pˇrípadeˇ n = m i ˇ dvouvýberový ˇ v situaci, pro kterou je vhodnejší t-test.
Jan Picek
Statistické metody
T ESTY Položme S2 = kde
1 2 (n − 1)SX + (m − 1)SY2 , n+m−2 n
2 SX
1 X (Xi − X)2 , = n − 1 i=1 m
SY2 =
1 X (Yi − Y )2 m − 1 i=1
Jan Picek
Statistické metody
T ESTY Testová statistika: X −Y T = S
r
nm . n+m
Je-li |T | ≥ tn+m−2 (1 − α/2) zamítám nulovou hypotézu (tj. stˇrední hodnoty jsou ruzné), ˚ v pˇrípadeˇ opaˇcné nerovnosti nezamítám nulovou hypotézu (rovnost stˇredních hodnot).
Jan Picek
Statistické metody
T ESTY Znaménkový test: Alternativa k t-testu, nepožaduje se normalita. Testuje se hypotéza H : x˜ = x0 , tj. medián je roven danému cˇ íslu.
Jan Picek
Statistické metody
T ESTY P OSTUP : ˇ 1. Vylouˇcíme z dalšího zpracování pozorování, pro než ˇ n. Xi = x0 a pˇríslušneˇ snížíme rozsah výberu 2. Urˇcíme v kolika pˇrípadech nastal jev Xi > x0 . Poˇcet ˇ techto pˇrípadu˚ oznaˇcíme Z. ˇ 3. Z je náhodná veliˇcina s binomickým rozdelením Bi(n, p), kde p = P (Xi > x0 ).
Jan Picek
Statistické metody
T ESTY T ESTOVÁ STATISTIKA . 2Z − n Z − n/2 = . U= p n n/4
Je-li |U | ≥ Φ−1 (1 − α/2) zamítám nulovou hypotézu (medián není roven cˇ íslu x0 ), v pˇrípadeˇ opaˇcné nerovnosti nezamítám nulovou hypotézu.
Jan Picek
Statistické metody
T ESTY ˇ Jednovýberový Wilcoxonuv ˚ test: Test o hodnoteˇ mediánu (jako znaménkový test), založen na poˇradí hodnot. ˇ 1. Vylouˇcíme z dalšího zpracování pozorování, pro než Xi = x0 a pˇríslušneˇ snížíme rozsah n. 2. Urˇcíme poˇradí Ri+ náhodných veliˇcin |Xi − x0 |. ˇ veliˇcin 3. Test je založen na souˇctu poˇradí Ri+ tech |Xi − x0 |, pro které je Xi − x0 > 0.
Jan Picek
Statistické metody
T ESTY T ESTOVÁ STATISTIKA . V =
X
Ri+
i:xi >x0
V − U=q
n(n+1) 4
n(n+1)(2n+1) 24
Je-li |U | ≥ Φ−1 (1 − α/2) zamítám nulovou hypotézu (medián není roven cˇ íslu x0 ), v pˇrípadeˇ opaˇcné nerovnosti nezamítám nulovou hypotézu.
Jan Picek
Statistické metody
T ESTY ˇ Dvouvýberový Wilcoxonuv ˚ test: Test o shodeˇ hodnot ˇ mediánu˚ (obdoba dvouvýberového t-testu), založen na poˇradí hodnot. 1. Urˇcíme poˇradí Ri náhodných veliˇcin ve slouˇceném ˇ výberu. ˇ veliˇcin, které 2. Test je založen na souˇctu poˇradí Ri tech ˇ jsou v prvním výberu.
Jan Picek
Statistické metody
T ESTY T ESTOVÁ STATISTIKA . Vx =
X
Rix
xi
Vx − U= q
nx (nx +ny +1) 2
nx ny (nx +ny +1) 12
Je-li |U | ≥ Φ−1 (1 − α/2) zamítám nulovou hypotézu (mediány si nejsou rovny), v pˇrípadeˇ opaˇcné nerovnosti nezamítám nulovou hypotézu.
Jan Picek
Statistické metody