ˇ ı technologie a statistika Informacn´ 1 ´ sej´ıc´ı: pˇrednaˇ
Martin Schindler KAP, tel. 48 535 2836, budova G konzul. hodiny: po dohodeˇ e-mail:
[email protected] ´ r´ı 2015 naposledy upraveno: 21. zaˇ
,
1/33
´ ı a obhajen´ ´ ı ˇ ´ ctu: ˇ Poˇzadavek na udelen´ ı zapo vypracovan´ ´ ı prace. ´ semestraln´
,
2/33
Literatura
´ ´ rske´ vedy. ˇ HAVRANEK, T.: Statistika pro biologicke´ a lekaˇ Praha: Academia, 1993. ´ ı dat. HENDL, J.: Pˇrehled statistick´ych metod zpracovan´ ´ Praha, 2012 (4.vyd.) Portal: ´ ˇ AN ´ J.: Pravdepodobnost ˇ ZVARA K., Sˇ Tˇ EP a matematicka´ statistika. Praha: Matfyzpress, 2002.
,
3/33
Literatura online
´ ´ J.: Zaklady ´ ZVAROV A, statistiky pro biomedic´ınske´ obory. http://new.euromise.org/czech/tajne/ucebnice/html/html/main.html
http://moodle.vsb.cz/vyuka/course/info.php?id=3 http://www.studopory.vsb.cz/ http://mathonline.fme.vutbr.cz/ http://home.zcu.cz/ friesl/hpsb/tit.html tato prezentace: http://147.230.193.199/ ms/
,
4/33
Statistika statistika je jedn´ım z oboru˚ zab´yvaj´ıc´ıch se ´ ım, zpracovan´ ´ ım a analyzovan´ ´ ım dat shromaˇzd’ovan´ vznikaj´ıc´ıch pˇri studiu tzv. hromadnych ´ jevu, ˚ coˇz jsou jevy ´ vyskytuj´ıc´ı se teprve u velkeho souboru pˇr´ıpadu, ˚ ne jen u pˇr´ıpadu˚ jednotliv´ych. statisticky´ soubor je mnoˇzina statistickych ´ jednotek ´ obce, firmy,...), na nichˇz meˇ ˇ r´ıme (zjiˇst’ujeme) (obyvatele, ˇ poˇcet obyvatel, obrat,...) hodnoty statistickych ´ znaku(v ˚ ek, ˇ ´ zjiˇstenou hodnotu znaku vyjadˇrujeme ve vhodneˇ zvolenem ˇ r´ıtku (stupnici). meˇ ˇ rit nekolik ˇ na jedne´ jednotce muˇ znaku˚ - to umoˇzn´ı ˚ zeme meˇ ´ vyˇsetˇrovat zavislost (existuje souvislost mezi v´ysˇ kou a hmotnost´ı osob ve studovane´ populaci?). ,
5/33
´ ´ ˇ Ke studovanemu datovemu souboru lze pˇristoupit dvema zpusoby: ˚ 1 ˇ ych dat chceme cˇ init zav ´ ery ˇ Popisna´ statistika - ze zjiˇsten´ pouze pro studovan´y datov´y soubor (proˇsetˇrili jsme celou populaci, kterou chceme popsat) 2 ˇ ı) statistika - Studovan´y soubor Matematicka´ (inferencn´ ´ ˇ chapeme jako vyb ´ erov y´ soubor – mnoˇzina prvku˚ ´ ´ ´ vybran´ych nahodn eˇ a nezavisle ze zakladn´ ıho souboru, ´ y (z duvod kter´y je rozsahl´ u˚ cˇ asov´ych, finanˇcn´ıch, ˚ organizaˇcn´ıch aj. nelze prozkoumat cel´y). Z hodnot ˇ ych zjiˇsten´ ˇ ych ve v´yberov ˇ em ´ souboru chceme cˇ init promenn´ ´ ery ˇ o zakladn´ ´ zav ım souboru (v druhe´ puli ˚ semestru).
,
6/33
Popisna´ statistika
ˇ r´ıtek Typy meˇ ´ ´ ˇ nula-jednickov e´ (muˇz/ˇzena, kuˇrak/nekuˇ rak) ´ ı (rodinn´y stav, barva oˇc´ı) - disjunktn´ı kategorie, nominaln´ ´ ktere´ nelze uspoˇradat ˇ an´ ´ ı, m´ıra spokojenosti) ´ ı (nejvyˇssˇ ´ı dosaˇzene´ vzdel ordinaln´ ´ ı meˇ ˇ r´ıtko s uspoˇradan´ ´ nominaln´ ymi kategoriemi intervalove´ (teplota v Celsiove´ stupnici, rok narozen´ı) ´ moˇzne´ hodnoty jsou cˇ ´ıselneˇ oznaˇceny, vzdalenost mezi sousedn´ımi hodnotami je konstatn´ı ˇ pomerov e´ (hmotnost, v´ysˇ ka, poˇcet obyvatel) - hodnoty jsou ´ any ´ v nasobc´ ´ udav ıch dohodnute´ jednotky, nula znamena´ ˇ rene´ vlastnosti. neexistenci meˇ ´ nominaln´ ´ ı, ordinaln´ ´ ı - Kvalitativn´ı: nula-jedniˇckove, ´ pomerov ˇ e´ ´ intervalove, - Kvantitativn´ı (spojite): ,
7/33
Popisna´ statistika
ˇ y Pˇr´ıklad - jednorozmern´ ˇ a´ data (zaj´ıma´ nas ´ pouze jeden znak) - jednorozmern ´ ´ u˚ 8. tˇr´ıd v jiste´ sˇ kole zkoumame IQ 62 zˇ ak ´ jak struˇcneˇ popsat (zhodnotit), co maj´ı data spoleˇcneho, ´ nebo do jake´ m´ıry jsou odliˇsne? ˇ ren´ych hodnot zkoumaneho ´ ´ z nameˇ znaku spoˇc´ıtame ˇ charakteristiky (m´ıry) nekter´ ych jeho hromadn´ych vlastnost´ı ˇ ı, u (charakteristiky polohy, variability, tvaru rozdelen´ ˇ ´ v´ıcerozmern´ych dat to budou i charakteristiky zavislosti) ´ r´ı danou charakteristiky (statistiky) jedn´ım cˇ ´ıslem vyjadˇ vlastnost
,
8/33
Popisna´ statistika
ˇ rena´ data Pˇr´ıklad - nameˇ ˇ rena´ data oznaˇcme x1 , x2 . . . , xn , nyn´ı tedy n = 62. nameˇ 107 92 107 138 104 134 96
141 105 111 112 96 103 140 136 92 72 123 140 112 127 120 106 117 92 108 117 141 109 109 106 113 112 119 109 80 111 86 111 120 96 103 112 103 125 101 132 113 108 106 97 121 84 108 84 129 116 107 112 128 133 94
´ uspoˇradan y´ soubor oznaˇcme x(1) ≤ x(2) ≤ ... ≤ x(n)
,
72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 84 86 92 92 92 94 96 97 101 103 103 103 104 105 106 107 107 107 108 108 108 109 109 111 111 112 112 112 112 112 113 117 117 119 120 120 121 123 125 129 132 133 134 136 138 140 140 9/33
Popisna´ statistika
ˇ ı cˇ etnost´ı Tˇr´ıdn´ı rozdelen´ Pokud se hodnoty cˇ asto opakuj´ı, tak vytvoˇr´ıme tzv. ˇ cetnostn´ ı tabulku. Pokud jde o spojitou veliˇcinu s velk´ym n (poˇctem ˇ ren´ych hodnot), lze pro pˇrehlednost obor hodnot dat nameˇ ˇ do M intervalu˚ ohraniˇcen´ych body rozdelit a = a0 < a1 < a2 < ... < aM−1 < aM = b. ´ ı z daneho ´ vˇsechna pozorovan´ intervalu lze nahradit ´ zastupnou hodnotou (zpravidla stˇredem intervalu) xi∗ , i = 1, . . . , k. necht’ ni oznaˇcuje poˇcet hodnot, ktere´ pˇr´ısluˇs´ı intervalu ˇ hai−1 , ai ), i = 1, . . . , M – tzv. tˇr´ıdn´ı (absolutn´ı) cetnost (jednotlive´ intervaly se naz´yvaj´ı tˇr´ıdy). ´ a´ poˇcet hodnot v dane´ (i-te) ´ ˇ kumulativn´ı cetnost Ni udav ´ pˇredchazej´ ´ ıc´ıch tˇr´ıdeˇ a tˇr´ıdach ˇ cˇ ´ısla ni /n oznaˇcuj´ı relativn´ı cetnost. ,
10/33
Popisna´ statistika
ˇ ı cˇ etnost´ı Pˇr´ıklad - tˇr´ıdn´ı rozdelen´
Interval < 80 h80, 90) h90, 100) h100, 110) h110, 120) h120, 130) h130, 140) ≥ 140
,
xi∗ 75 85 95 105 115 125 135 145
absol. ni 1 4 8 18 14 8 5 4
ni /n 0.016 0.065 0.129 0.290 0.226 0.129 0.081 0.065
kumul. Ni 1 5 13 31 45 53 58 62
Ni /n 0.016 0.081 0.210 0.500 0.726 0.855 0.935 1.000
11/33
Popisna´ statistika
Histogram ´ ˇ ı tˇr´ıdn´ıch cˇ etnost´ı graficke´ znazorn en´ ´ ´ ıcˇ ek tak, aby jeho kaˇzdemu intervalu je pˇriˇrazen obdeln´ ˇ a´ cˇ etnosti daneho ´ plocha byla um intervalu ´ ern ˇ maj´ı intervaly stejnou sˇ ´ıˇrku (ˇcasto vhodneˇ nejˇcasteji ´ ıku˚ odpov´ıda´ cˇ etnostem. zaokrouhlenou), pak v´ysˇ ka obdeln´ ´ problem: volba poˇctu intervalu˚ M lze pouˇz´ıt napˇr. tzv. Sturgesovo pravidlo: . M ≈ 1 + 3.3 log10 (n) = 1 + log2 (n) u naˇseho pˇr´ıkladu: 1 + log2 (62) = 6.95
,
12/33
Popisna´ statistika
Pˇr´ıklad - histogram
0
5
četnost 10
15
Histogram IQ
80
100
120
140
IQ ,
13/33
Popisna´ statistika
Charakteristiky polohy
Charakteristiky polohy umoˇzn´ı charakterizovat urove nˇ cˇ ´ıselne´ veliˇciny jedn´ım ´ ˇ ren´ı cˇ ´ıslem - ohodnocen´ı, jak mal´ych cˇ i velk´ych hodnot meˇ nab´yvaj´ı. ˇ platit, zˇ e pro charakteristiku polohy m souboru dat x by melo ˇ ı se zmenou ˇ ˇ r´ıtka, tj. zˇ e pro libovolne´ se pˇrirozeneˇ men´ meˇ konstanty a, b: m(a · x + b) = a · m(x) + b ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ s´ı o b charakteristika zvetˇ ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a, pak se ˇ s´ı a-krat ´ v´ysledna´ charakteristika zvetˇ
,
14/33
Popisna´ statistika
Charakteristiky polohy
ˇ Aritmetick´y prum ˚ er n
1X 1 x= xi = (x1 + x2 + . . . + xn ) n n i=1
1 (107 + 141 + . . . + 94) = 111.0645 u naˇseho pˇr´ıkladu: x = 62 ´ ı. Jen pro citliv´y na hrube´ chyby, odlehla´ pozorovan´ ˇ r´ıtka. kvantitativn´ı meˇ ´ zen´y prum ˇ z tabulky cˇ etnost´ı lze spoˇc´ıtat jako tzv. vaˇ ˚ er
x=
PM M ∗ 1X 1 · 75 + 4 · 85 + . . . + 4 · 145 i=1 ni xi = ni xi∗ = P = 111.7742 M n 62 ni i=1
i=1
cet jedniˇcek u nula-jedniˇckove´ veliˇciny: poˇpoˇ = relativn´ı cˇ etnost cet nul i jedniˇcek ´ (procento) jedniˇcek (pozorovan´ı s danou vlastnost´ı). ´ je chlapec) , u naˇseho pˇr´ıkladu yi = 0 (i-t´y zˇ ak 32 ´ yi = 1 (i-t´y zˇ ak je d´ıvka): y = 62 = 0.516 ,
15/33
Popisna´ statistika
Charakteristiky polohy
Modus ˇ s´ı hodnota xˆ - nejˇcastejˇ ´ ı a ordinaln´ ´ ı meˇ ˇ r´ıtko ma´ smysl urˇcovat i pro nominaln´ nen´ı vˇzdy jednoznaˇcneˇ urˇcen u naˇseho pˇr´ıkladu: 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 84 86 92 92 92 94 96 97 101 103 103 103 104 105 106 107 107 107 108 108 108 109 109 111 111 112 112 112 112 112 113 117 117 119 120 120 121 123 125 129 132 133 134 136 138 140 140 xˆ = 112
,
16/33
Popisna´ statistika
Charakteristiky polohy
´ Median ˇ ı uspoˇradan´ ´ x˜ - cˇ ´ıslo, ktere´ del´ y soubor na dveˇ stejneˇ velke´ ´ ´ ´ v´yberu ˇ je uprostˇred. cˇ asti. V uspoˇradan em pro n liche´ x˜ = x( n+1 ) 2 1 x˜ = x n + x( n2 +1) pro n sude´ 2 (2) ˇ i velk´ymi zmenami ˇ ˇ robustn´ı - nen´ı ovlivnen nekolika hodnot. ´ ı meˇ ˇ r´ıtko. U naˇseho pˇr´ıkladu: Lze cˇ asto uˇz i pro ordinaln´ 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 97 107 111 117 129
84 101 107 111 117 132
x˜ = ,
86 103 107 112 119 133
92 103 108 112 120 134
92 103 108 112 120 136
92 104 108 112 121 138
1 x(31) + x(32) = 110 2
94 105 109 112 123 140
96 106 109 113 125 140
17/33
Popisna´ statistika
Charakteristiky polohy
Kvantily: percentily, decily, kvartily ˇ ı uspoˇradan´ ´ ´ α-kvantil xα ( α ∈ (0, 1)) - del´ y soubor na dveˇ cˇ asti ´ eˇ α-pod´ıl tech ˇ nejmenˇs´ıch hodnot je menˇs´ıch neˇz xα tak, zˇ e prav xα = x(dαne) , kde dae oznaˇcuje a, pokud je to cele´ cˇ ´ıslo, jinak nejbliˇzsˇ ´ı vyˇssˇ ´ı cele´ cˇ ´ıslo. ´ ı pˇr´ıpady kvantilu: specialn´ ˚ percentily: α = 0.01, 0.02, . . . , 0.99 decily: α = 0.1, 0.2, . . . , 0.9 kvartily: α = 0.25, 0.5, 0.75 1. (doln´ı) kvartil znaˇc´ıme Q1 = x0.25 3. (horn´ı) kvartil znaˇc´ıme Q3 = x0.75 ´ je vlastneˇ 50%-n´ı kvantil, 50-t´y percentil, 5-t´y decil a median 2-h´y kvartil ,
18/33
Popisna´ statistika
Charakteristiky polohy
84 101 107 111 117 132
92 103 108 112 120 134
Pˇr´ıklad - kvantily 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 97 107 111 117 129
86 103 107 112 119 133
92 103 108 112 120 136
92 104 108 112 121 138
94 105 109 112 123 140
96 106 109 113 125 140
1. kvartil Q1 = x0.25 = x(d0.25·62e) = x(d15.5e) = x(16) = 103 3. kvartil Q3 = x0.75 = x(d0.75·62e) = x(d46.5e) = x(47) = 120 1. decil (10%-n´ı kvantil) x0.1 = x(d0.1·62e) = x(d6.2e) = x(7) = 92 9. decil (90%-n´ı kvantil) x0.9 = x(d0.9·62e) = x(d55.8e) = x(56) = 134 ,
19/33
Popisna´ statistika
Charakteristiky polohy
Boxplot
,
120 90 100 80
u naˇseho pˇr´ıkladu: Q1 = 103,x˜ = 110, Q3 = 120, 72 jako odlehle´ ´ ı pozorovan´
70
ˇ cˇ esky krabickov y´ diagram - zobrazuje ´ minimum, kvartily, median, maximum a pˇr´ıpadneˇ ´ ı (jsou odlehla´ pozorovan´ ´ od bliˇzsˇ ´ıho kvartilu dale neˇz 1.5 · (Q3 − Q1 ))
140
boxplot hodnot IQ
20/33
Popisna´ statistika
Charakteristiky variability
Charakteristiky variability ˇ r´ı rozpt´ylen´ı, promenlivost, ˇ meˇ nestejnost, variabilitu souboru dat. ˇ platit, pro charakteristiku variability s souboru dat x by melo zˇ e pro libovolnou konstantu b a pro libovolnou kladnou konstantu a > 0: s(a · x + b) = a · s(x) ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ ı charakteristika nezmen´ ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a, pak se ˇ s´ı a-krat ´ v´ysledna´ charakteristika zvetˇ
,
21/33
Popisna´ statistika
Charakteristiky variability
Rozptyl (variance) (populaˇcn´ı) rozptyl sx2 = var (x) - stˇredn´ı kvadraticka´ odchylka ˇ od prum ˚ eru ! ! n n n 1 X 2 1 X 2 1X 2 2 2 (xi − x) = xi − nx xi − x 2 = sx = n n n i=1
i=1
i=1
u naˇseho pˇr´ıkladu: sx2 =
i 1 h (107 − 111.0645)2 + . . . + (94 − 111.0645)2 = 246.4797 62
z naˇs´ı tabulky cˇ etnost´ı: sx2 =
1 n
PM
= (1 · 752 + . . . + 4 ·
P
1 n 1452 )
∗ 2 i=1 ni (xi − x) =
M ∗2 i=1 ni xi
− x2
− 111.77422 = 257.3361
2 pro rozptyl plat´ı sa·x+b = a2 sx2 ,
22/33
Popisna´ statistika
Charakteristiky variability
ˇ Smerodatn a´ odchylka, variaˇcn´ı koeficient ˇ a) ´ smerodatn ˇ (nev´yberov a´ odchylka: odmocnina z rozptylu p sx = sx2 ´ ı rozmer ˇ jako puvodn´ stejn´y fyzikaln´ ı data ˚ ˇ ı koeficient: variacn´ v=
sx x
´ pouze pro kladne´ hodnoty x1 , . . . , xn > 0 definovan ´ ı na volbeˇ meˇ ˇ r´ıtka, lze pouˇz´ıt na porovnan´ ´ ı ruzn´ nezavis´ ˚ ych souboru˚ √ u naˇsich dat: sx = 246.4797 = 15.70 15.70 v = 111.0645 = 0.1414 ,
23/33
Popisna´ statistika
Charakteristiky variability
ˇ ı: rozd´ıl maxima a minima souboru rozpet´ R = x(n) − x(1) ˇ ı: rozd´ıl tˇret´ıho a prvn´ıho kvartilu mezikvartilove´ rozpet´ RM = Q3 − Q1 = x0.75 − x0.25 ˇ absolutn´ıch odchylek od medianu ´ stˇredn´ı odchylka: prum ˚ er ˇ (nebo prum ˚ eru) n
1X d= |xi − x˜ | n i=1
u naˇsich dat: R = 141 − 72 = 69 d= ,
1 62 (|107
RM = 120 − 103 = 17
− 110| + . . . + |94 − 110|) = 12.03 24/33
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ y Pˇr´ıklad - v´ıcerozmern´
ˇ a´ data (zaj´ıma´ nas ´ v´ıce znaku) - v´ıcerozmern ˚ ˇ ˇ a´ znamka ´ zjiˇsteno IQ, pohlav´ı, prum v pololet´ı v 7. a 8. ˚ ern ´ u˚ tˇr´ıdeˇ 62 zˇ ak ´ jak zhodnotit vztah (zavislost) mezi jednotliv´ymi znaky? vypoˇcten´ım vhodne´ statistiky (ˇc´ısla) nebo grafick´ym zobrazen´ım
,
25/33
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ rena´ v´ıcerozmern ˇ a´ data Pˇr´ıklad - nameˇ
,
D´ıvka Zn7 Zn8 IQ
1 1 1 107
0 1 1 141
D´ıvka Zn7 Zn8 IQ
1 1.85 1.45 92
0 3.15 3.18 72
D´ıvka Zn7 Zn8 IQ
0 2.07 2.45 107
D´ıvka Zn7 Zn8 IQ
0 1 1 138
0 3.15 3 105
1 1.62 1.73 111
0 2.69 2.09 112
1 1.92 2.09 96
0 2.38 2.55 103
0 1 1 140
1 1.4 1.9 136
1 1.46 1.45 92
0 1.15 1.18 123
0 1 1 140
1 1.69 1.91 112
0 1.6 1.72 127
1 1.62 1.63 120
1 1.38 1.36 106
1 1.7 1.9 117
0 3.23 3.36 92
0 1.84 1.9 108
1 1.2 1.36 117
1 1.31 1.45 141
1 1.4 1.73 109
1 1.53 1.6 109
0 1.84 1.54 106
1 1 1 113
0 1.3 1.45 112
1 1.4 1.82 119
0 2.92 2.82 109
1 2.23 2.45 80
1 1.69 1.54 111
0 2.61 2.54 86
1 1.07 1 111
0 1.46 1.36 120
1 2.15 1.9 96
0 1.69 1.82 103
0 1.38 1.18 112 26/33
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ a´ data - pokraˇcovan´ ´ ı v´ıcerozmern
,
D´ıvka Zn7 Zn8 IQ
1 1.46 1.54 104
1 1.6 1.63 103
1 1.07 1 125
0 1.3 1.27 101
0 2.08 1.54 132
1 2 2.09 113
0 1.69 1.91 108
1 1.4 1.45 106
1 2.23 2 97
0 1.6 1.81 121
D´ıvka Zn7 Zn8 IQ
1 1.07 1.27 134
0 3.13 3.27 84
1 1.84 1.82 108
1 1.8 1.63 84
0 1 1 129
1 1.92 1.9 116
0 2.2 2.25 107
1 1.53 1.54 112
1 1.3 1.45 128
0 1 1.18 133
D´ıvka Zn7 Zn8 IQ
0 2.85 2.91 96
0 2.61 2.81 94
27/33
Popisna´ statistika
´ Charakteristiky zavislosti
´ ˇ ı zavislosti ´ Graficke´ znarozn en´
,
80
90
100 110 120 130 140
boxplot IQ zvlášť pro obě pohlaví
70
´ z´ı na typu Zaleˇ ˇ r´ıtka meˇ ´ pro zavislost kvantit. znaku na kvalitativn´ım lze nakreslit boxplot/histogram pro kaˇzdou kategorii kvalit. znaku ´ zobrazen´ı zavislosti IQ na pohlav´ı x hoch = 112.0 x divka = 110.2
hoch
dívka 28/33
Popisna´ statistika
´ Charakteristiky zavislosti
´ ˇ ı zavislosti ´ Graficke´ znarozn en´ -2 ´ Rozptylovy´ diagram: zavislost dvou kvantitativn´ıch znaku˚
+ + + + + ++ + + + + ++ + ++ + + + + ++ + + + ++ + + + + + + + + + + +++ ++ + + + ++ + +
kladná korelace
3.0
+ chlapec + dívka
1.5
zn7
,
2.5
zn8
2.5 +
3.0
+
1.5
+
+
2.0
+
+
1.0
+
+
2.0
+
70 1.0
+
+
+
+
80
90
100
iq
120
140
záporná korelace
+ + + + + + ++ + ++ ++ + ++ + + ++ + ++ + + + + + ++ 1.0
1.5
+
+
+
+
++ + ++ + + + + + +
+
+ + 2.0
+ + +
2.5
chlapec dívka zn8=zn7 3.0
zn7
29/33
Popisna´ statistika
´ Charakteristiky zavislosti
´ Charakteristiky zavislosti ´ dva znaky na kaˇzde´ jednotce, tj. mame (x1 , y1 ), . . . , (xn , yn ) ˇ r´ı smer ˇ zavislosti, ´ ˇ ˇ ˇ r´ıtka kovariance: meˇ ovlivnena zmenou meˇ ! n n 1 X 1X sxy = (xi − x) (yi − y ) = xi yi − x · y, n n i=1
Plat´ı sxx =
i=1
Pn 1 n
i=1 (xi
− x)2 = sx2 ,
syy = sy2
ˇ r´ı ˇ ı koeficient: normovana´ kovariance, meˇ (Pearsonuv) ˚ korelacn´ ˇ i velikost zavislosti ´ smer n sxy sxy 1 X xi − x yi − y rx,y = q = = · sx sy n sx sy sx2 sy2 i=1 u naˇsich dat pro znaky IQ a zn7: −6.2876 rIQ,zn7 = = −0.6559 15.6997 · 0.6106 ,
30/33
Popisna´ statistika
´ Charakteristiky zavislosti
Korelaˇcn´ı koeficient ˇ r´ı smer ˇ a m´ıru linearn´ ´ ı zavislosti ´ meˇ nab´yva´ jen hodnot z intervalu h−1, 1i ´ ´ ´ rx,y ≈ 0 (znaky x a y vzajemn eˇ nezavisl e) ´ ´ rx,y bl´ızko 1 (kladna zavislost: s rostouc´ım x znak y v ˇ roste) prum ˚ eru ´ ´ rx,y bl´ızko −1 (zaporn a´ zavislost: s rostouc´ım x znak y v ˇ klesa) ´ prum ˚ eru U naˇsich dat lze spoˇc´ıtat pro kaˇzdou dvojici znaku˚ d´ıvka, iq, zn7, ˇ ı matice zn8: tzv. korelacn´ d´ıvka iq zn7 zn8 ,
d´ıvka 1.0000 -0.0597 -0.3054 -0.2661
iq -0.0597 1.0000 -0.6559 -0.6236
zn7 -0.3054 -0.6559 1.0000 0.9481
zn8 -0.2661 -0.6236 0.9481 1.0000 31/33
Popisna´ statistika
´ Charakteristiky zavislosti
Regresn´ı pˇr´ımka - metoda nejmenˇs´ıch cˇ tvercu˚ ´ Mame sadu dvojic (xi , yi ), i = 1, . . . , n. Chceme z dan´ych hodnot ´ ame ´ ´ ı znaku x odhadnout hodnoty znaku y . Pˇredpoklad linearn´ ´ zavislost y na x, tj. zˇ e pˇribliˇzneˇ plat´ı . y =a+b·x
Parametry a a b regresn´ı pˇr´ımky se odhadnou metodou ´ ˇ ıch ctverc ˇ nejmens´ u, ˚ tj. hledame hodnoty, pro ktere´ je v´yraz P n 2 minimaln´ ˇ sen´ım jsou: ´ (y − (a + b · x )) ı . Reˇ i i=1 i Pn Sxy (xi · yi ) − n · x · y ˆ = i=1 ˆ·x ˆ =y −b b = a Pn 2 2 Sx2 i=1 xi − n · x
,
32/33
Popisna´ statistika
´ Charakteristiky zavislosti
´ ´ ˇ ı linearn´ ´ ı zavislosti dvou Regresn´ı pˇr´ımka: znazorn en´ kvantitativn´ıch znaku˚
+ + + ++ +
+
+
+
+ +
+ +
90
+ +
+
+
+
+ + +
+ +
+
+
+ +
+ +
70
+ 1.0
1.5
140
+ 80
80
+
,
130 120
+
+ + + + + +
2.0
110
+
+
iq
+
++
++
100
110
+ +
100
iq
+ +
chlapec dívka trend trend chl. trend dív.
90
+
+ +
+
2.5
70
140
+
+ + + +
120
+ + +
130
lineární regrese
3.0 33/33