MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi –
u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset
jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS (u statistických jednotek souběžně zkoumáno více statistických znaků) Hledání tzv. příčinných (kauzálních) souvislostí. Dvě náhodné veličiny mohou být statisticky závislé, nebo nezávislé. dvojice měření (xi, yj), i = 1, …, n, j = 1, …, m, lze graficky znázornit.
graf typu 1 - body vyplňují zhruba plochu kruhu - statistická nezávislost. - jednotlivým hodnotám xi odpovídají libovolné hodnoty yj grafy typu 2, 3 - body soustředěné na ploše elipsy - vyšším hodnotám jedné proměnné odpovídají spíše vyšší hodnoty druhé proměnné, nebo vyšším hodnotám jedné proměnné odpovídají spíše menší hodnoty druhé proměnné - zakreslené výsledky seskupeny kolem přímek - lineární závislost graf typu 4 - body se přimykají ke křivce (různé od přímky) - nelineární závislost
Jestliže každé hodnotě veličiny X odpovídá několik hodnot NV Y, např. yj, j = 1, …, k, z hodnot yj můžeme vypočítat podmíněné průměry si, které závisejí na x. Hledáme funkční závislost si = f(x), tuto funkci nazýváme regresní funkcí.
Př: Údaje v tabulce jsou výsledkem průzkumu výšky a váhy studentek VŠFS. V něm každá z 46 oslovených studentek odpovídala na dvě otázky: 1) Kolik měří – znak x 2) Kolik váží – znak y
č. 89 34 51 94 32 41 83 31 81 4 33 37 87 88 7 3 39 84 96 49 44 91 48 90 1 45 40 82 92 95 2 85
SZ1 ž/m výška váha výška SZ2 váha ž 151 45 1 1 ž 157 80 1 6 ž 158 49 1 1 ž 158 49 1 1 ž 160 49 1 1 ž 161 52 2 2 ž 162 75 2 5 ž 163 60 2 3 ž 163 68 2 4 ž 164 51 2 1 ž 164 55 2 2 ž 164 60 2 3 ž 164 62 2 3 ž 164 62 2 3 ž 165 52 2 2 ž 165 54 2 2 ž 165 55 2 2 ž 165 60 2 3 ž 165 60 2 3 ž 166 57 3 2 ž 167 58 3 3 ž 167 58 3 3 ž 167 65 3 4 ž 167 75 3 5 ž 168 53 3 2 ž 168 58 3 3 ž 168 60 3 3 ž 168 60 3 3 ž 168 79 3 6 ž 170 58 3 3 ž 170 64 3 4 ž 170 68 3 4
35 80 50 36 6 46 47 38 43 93 86 42 5 97
ž ž ž ž ž ž ž ž ž ž ž ž ž ž
170 170 171 172 173 173 173 175 176 176 176 177 180 185
70 70 65 59 56 60 63 64 54 70 87 68 82 95
3 3 4 4 4 4 4 4 5 5 5 5 5 5
5 5 4 3 2 3 3 4 2 5 6 4 6 6
Dostáváme 46 dvojic hodnot znaku x a y. Znak x – výška Interval do 160 (160-165> (165-170> (170-175> 175 a více
xi 1 2 3 4 5
ni 5 14 15 6 6
Znak y – váha Interval do 51> (51-57> (57-63> (63-69> (69-75> 75 a více
yi 1 2 3 4 5 6
ni 5 9 15 7 5 5
Setřídíme tyto hodnoty do tabulky dvourozměrného rozdělení četností ozn. korelační tabulka.
yj–SZ2 váha 1 xi–SZ1 výška 1 2 3 4 5 Absolutní četnosti SZ2 – n.,j ni
2
3
4
5
6
Absolutní četnosti SZ1 – ni,.
xi
4 1 0 0 0
0 5 2 1 1
0 6 6 3 0
0 1 3 2 1
0 1 3 0 1
1 0 1 0 3
5 14 15 6 6
5
9
15
7
5
5
46
si
5 14 15 6 6
1 2 3 4 5
2,00 2,71 3,67 3,17 4,83
k
y j n ij si
j 1
ni ,
s1= (1*4+2*0+3*0+4*0+5*0+6*1)/5 = 2,00 s2= (1*1+2*5+3*6+4*1+5*1+6*0)/14= 2,71 … Základní úkol regresní analýzy = nalezení vhodné teoretické regresní funkce k vystižení sledované závislosti. x je nezávisle proměnná v úloze „příčin“ y je závisle proměnná v úloze „následků“ Korelační analýza - navazuje na regresní analýzu - hlavní úkol = měření těsnosti zkoumané statistické závislosti. correlatió – znamená vzájemná souvislost
1. Regresní analýza Cíl regresní analýzy: proložit množinu bodů A1, …, A5 hladkou matematickou křivkou (ve zvoleném příkladu přímkou
jednoduchá lineární regresní analýza.
Typy regresních analýz
podle typu prokládané křivky
(lineární (ekonomie), kvadratická (obecně polynomická regrese), exponenciální regrese (šíření epidemií), logaritmická regrese, hyperbolická regrese, …).
Lineární regresní analýza přímka o rovnici
y
b0
b1 x
bude optimálně
proložena, když součet S vzdáleností si a bodů na této přímce yi bude minimální S = (yi - si)2 minimum :
si
nb0
si xi
b1
b0
b1
výpočet b0, b1 ni 5 14 15 6 6 46
16,38 = 55,26 =
si 1 2 3 4 5 15
5 . b0 b0 . 15
2
xi
analýzu
předpověď trendů
xi
S b0
= 0,
S b1
S = (b0 + b1xi - si)2
=0
- tzv. první a druhá normální rovnice pro lineární regresní
xi
xi
yi = b0 + b1xi
xi . si 2,00 2,71 3,67 3,17 4,83 16,38
+ b1 . 15 + b1 . 55
2,00 5,43 11,00 12,67 24,17 55,26
xi2 1 4 9 16 25 55
6,12 = b1 = b0 =
10 b1 0,612 1,44
Regresní přímka má tvar y = 1,44 + 0,612x
Kvadratická regresní analýza S = (si - yi)2
S
y = b0 + b1x + b2x2
b0
=0
S b1
=0
S b2
=0
si = nb0 + b1 xi + b2 xi2 sixi = b0 xi + b1 xi2 + b2 xi3 sixi2 = b0 xi2 + b1 xi3 + b2 xi4
výpočet b0, b1, b2
předpověď trendů
největší uplatnění RA v ekonomii – časové řady ekonomických ukazatelů (rozpočty).
2. Korelační analýza Cíl korelační analýzy: po provedení regresní analýzy zjistit korelační analýzou TĚSNOST statistické závislosti mezi statistickými znaky SZ-x, SZ-s daného VSS.
Jednoduchá lineární korelace (statistická závislost je vystižena lineární regresní funkcí) Pearsonův korelační koeficient
k xs
S xs S x.S s
S xs
Pi ( xi
x )( si
Sx
2
Pi ( xi
x)
Ss
2
Pi ( s i
s)
s ) smíšený centrální moment C2(x,s)
2
centrální moment C2(x)
2
centrální moment C2(s)
Pi = ni /n
k xs
1;1
1; 0, 6
těsná negativní korelace
0, 6 ; 0, 2
volná negativní korelace
0, 2 ; 0, 2
nekorelováno
0, 2 ; 0, 6
volná pozitivní korelace
0, 6 ;1
těsná pozitivní korelace
ni
xi
5 14 15 6 6 46
si
1 2 3 4 5 15
ni.xi
2,00 2,71 3,67 3,17 4,83 16,38
ni. si
5 28 45 24 30 132
10,00 37,94 55,05 19,02 28,98 150,99
(xi – ) -1,87 -0,87 0,13 1,13 2,13
(si- )
ni. (xi- ).(si - )
-1,28 -0,57 0,38 -0,12 1,55
11,99 6,92 0,75 -0,79 19,82 38,70
=1/n∑ni.xi = 132/46 = 2,87 = 150,99/46 = 3,28 s ) = 38,70/46 = 0,841
S xs
Pi ( xi
x )( si
2
Pi ( xi
x ) = 63,22/46 = 1,37
Sx
2
Ss2 = 29,47/46 = 0,641 k xs
S xs S x.S s
Sx = √Sx2 = 1,172
Ss = 0,800
= 0,841/(1,172 * 0,800) = 0,897
Těsná pozitivní korelace mezi výškou a váhou studentek.
ni. (xi – )2 17,48 10,59 0,26 7,67 27,23 63,22
ni. (si - )2 8,23 4,52 2,21 0,08 14,43 29,47
1) V tabulce jsou uvedeny údaje o růstu průměrných mezd v posledních deseti letech. Trend výše mezd vystihněte lineární trendovou funkcí. Tab. 2 – Výše mezd v letech 1998 - 2007
Rok Mzdy yt 1998 11 555 1999 12 587 2000 13 323 2001 14 490 2002 15 568 2003 16 527 2004 17 735 2005 18 837 2006 19 954 2007 21 470 Při znalosti trendové přímky zkonstruujte bodovou předpověď vývoje průměrných mezd pro roky 2008 a 2009. výsledky: y = 10 236 + 1085.t