1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost, síla) jejich vzájemného ovlivňování. V praxi neznáme společné rozdělení pravděpodobností těchto znaků – pro zkoumání těsnosti musíme využít metody matematické statistiky korelační analýzy.
1.1.
Teoretické základy korelační analýzy
Předpokládejme, že máme dvě náhodné veličiny X; Y, které mají nekonečné a nenulové rozptyly DX; DY. Pokud jsou X; Y závislé, musíme závislost číselně vyjádřit. K vyjádření míry závislosti se u lineárního typu závislosti používá korelační koeficient.
…
Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
… Náhodné veličiny X; Y jsou korelované, existuje mezi nimi korelační vztah.
1
Kovariance Uvažujeme případ, kdy: X = (X1; X2; …; Xm)
je m-rozměrný náhodný vektor
Y = (Y1; Y2; …; Ym) EX = (EX1; EX2; …; EXm)
s vektorem středních hodnot a
EY = (EY1; EY2; …; EYm) s konečnými nenulovými rozptyly jednotlivých složek.
Kovariance náhodných veličin X a Y vyjadřuje vzájemný vztah mezi těmito veličinami a je dána výrazem:
cov (X;Y) = E [(X-EX) (Y-EY)] = EXY – EXEY
Náhodný vektor může být i více než dvojrozměrný. Proto musíme vyjádřit vztah mezi každou dvojicí Xi a Xj náhodných. Kovariance všech dvojic pak zapisujeme do matice.
Kovariance Kovariance je střední hodnota součinu odchylek obou náhodných veličin X, Y od jejich středních hodnot. Máme-li dvourozměrný náhodný vektor, jehož složkami jsou náhodné veličiny X,
Y, pak vztah
mezi těmito veličinami lze vyjádřit pomocí kovariance C(X,Y), která je definována jako
2
2. Výběrový koeficient korelace Nechť je dán dvojrozměrný náhodný výběr [(X1; Y1); (X2; Y2); …; (Xn; Yn);]. Výběrový koeficient korelace rX; Y náhodných veličin X a Y definujeme jako podíl:
Čitatel: výběrová kovariance. Jmenovatel: součin výběrových směrodatných odchylek. Pro praktické výpočty je výhodnější výpočtový tvar tohoto vztahu:
Vlastnosti výběrového koeficientu korelace 1. 2. 3. 4.
pro ac
5.
pro ac 3
4
3. Test významnosti pro koeficient korelace Zjišťujeme, zda mezi dvěma náhodnými veličinami X; Y je korelační vztah. Pokud jsou korelované, je tam vztah. !!!!!! Veličiny jsou nekorelované
veličiny jsou nezávislé !!!!!!
Proto testujeme hypotézu: H0: q=0 (mezi náhodnými veličinami není korelační vztah) proti H1: q 0 (je korelační vztah)
Předpoklady: Nechť je dán dvojrozměrný náhodný výběr (X1; Y1); (X2; Y2); …; (Xn; Yn) ze základního souboru (X; Y), Základní soubor má dvojrozměrné normální rozložení pravděpodobností N( Nechť r je výběrový koeficient korelace. (
5
.
Testujeme hypotézu, že koeficient korelace základního souboru je roven nule: H0: q=0 proti
H1: q 0
(není korelační vztah)
(je korelační vztah)
Testovací kritérium:
Za předpokladu platnosti hypotézy má náhodná veličina T Studentovo rozdělení pravděpodobností s n – 2 stupni volnosti.
Kritická oblast:
6
Příklad: V následující tabulce jsou uvedeny hodnoty dvojrozměrného náhodného výběru. Na úrovni významnosti
zjistěte, zda mezi náhodnými veličinami X a Y existuje korelační
vztah. Předpokládejme normální rozložení pravděpodobností základního souboru (X; Y).
xi yi
94 2,1
98 127 1,9 3,5
88 1,5
85 3,2
95 111 1,6 1,9
75 102 2,5 2,6
7
82 1,9
Řešení: Testujeme hypotézu: H0: q=0 proti i
xi 1 2 3 4 5 6 7 8 9 10
součty průměr
xi2
yi 94 98 127 88 85 95 111 75 102 82 957 95,7
2,1 1,9 3,5 1,5 3,2 1,6 1,9 2,5 2,6 1,9 22,7 2,27
8836 9604 16129 7744 7225 9025 12321 5625 10404 6724 93637
H1: q 0
xi * yi yi2 197,4 4,41 186,2 3,61 444,5 12,25 132 2,25 272 10,24 152 2,56 210,9 3,61 187,5 6,25 265,2 6,76 155,8 3,61 2203,5 55,55
Testovací kritérium:
Dopočítáme hodnotu výběrového koeficientu korelace ve výpočtovém tvaru:
Kritická oblast
Kritická hranice (tabulky Studentova t-rozdělení pravděpodobností pro n – 2 st. vol.)
…
.
Hodnota TK padla do OPH. H0 nezamítáme. Mezi náhodnými veličinami není korelační vztah. 8
4. Spearmanův korelační koeficient Tento test používáme, když při hodnocení těsnosti vztahu náhodných veličin nelze použít obyčejný korelační koeficient: nejsou splněny předpoklady normality rozložení pravděpodobností základního souboru, nebo když v náhodném výběru nemůžeme hodnoty náhodných veličin přesně zjistit a máme k dispozici jen jejich pořadí veličin X1; X2; …; Xn a Y1; Y2; …; Yn. Jsou-li tato pořadí podobná, svědčí to o vztahu veličin Xi a Yi.
Postup testu: 1. seřadíme prvky náhodného výběru X1; X2; …; Xn do neklesající posloupnosti a zjistíme jejich pořadí R1; R2; …; Rn 2. seřadíme prvky náhodného výběru Y1; Y2; …; Yn do neklesající posloupnosti a zjistíme jejich pořadí Q1; Q2; …; Qn Testovací kritérium (rs):
Kritická oblast: W = rs: rs
r
9
Příklad: Zjistěte, zda existuje korelace mezi výkonností hokejistů NHL, vyjádřenou umístěním hokejistů v kanadském bodování po skončení základní části a jejich příjmem. Údaje jsou uvedeny v tabulce. Testujte na hladině významnosti 0,05. xi (pořadí) 1
2
3
4
5
6
7
8
yi (příjem) 3,75
2,5
1,9
3,3
2,15
2,0
3,0
2,85
10
Řešení: Qi
1
2
3
4
5
6
7
8
x
Ri
8
4
1
7
3
2
6
5
x
4
4
9
4
16
1
9
96
(Qi – Ri)2 49
Testovací kritérium
Kritická hranice z tabulek (r ) r = r0,05 = 0,6905 Vzorec kritické oblasti W = r s: r s 0,143
r
0,6905
Hodnota testovacího kritéria padla do OPH. Nulovou hypotézu nezamítáme. Můžeme tedy tvrdit, že není korelační závislost mezi výkonností hráčů NHL a jejich příjmem.
11
5. Korelace u více náhodných veličin Korelační matice Nechť (X1; X2; …; Xn) je náhodný výběr z m-rozměrného základního souboru X = (X1; X2; …; Xm)´. Výběrovou korelační maticí budeme nazývat matici
Diagonální prvky této matice jsou vždy rovny jedné, nediagonální prvky jsou výběrové korelační koeficienty odpovídajících složek. Matice je čtvercová a symetrická.
12
Příklad: U 7 studentů ekonomické školy byly zaznamenány výsledky zkoušek z předmětů matematická ekonomie, mikroekonomie, bankovnictví a finance. Vyjádřete vztah, který je mezi předměty.
Student MME MI BA FI
Jana 1 1 2 3
Eva 4 1 1 2
Petr 2 3 4 1
Jan 1 2 3 2
Martin 2 2 2 2
Řešení: Počítáme korelace mezi (X1; X2; X3; X4). Testujeme každý korelační koeficient, abychom mohli říci, zda je významný.
Předmět MME MI BA FI
MME MI 1 +0,295 1 -0,428 +0,61 +0,026 -0,31
BA
FI
1 -0,40
1
13
Iva 4 3 2 2
Lucie 1 1 2 1