Úvod do korelační a regresní analýzy Bude nás zajímat, jak těsně spolu souvisí dva sledované jevy Příklady: · vztah mezi rychlostí auta a brzdnou dráhou · vztah mezi věkem žáka a rychlostí v běhu na 60 m · vztah mezi spotřebou hnojiva a výnosem Jedna veličina je považována za nezávislou (vysvětlující) – značíme x. Jiná veličina je považovaná za závislou (vysvětlovanou), obvykle ji značíme y.
Pokud děláme nějaký experiment (pokus), jednu veličinu vnějším zásahem měníme a sledujeme, co se děje s druhou veličinou. Statistika se zabývá zkoumáním, zda se při změně první veličiny změní druhá veličina tak, že změnu nelze vysvětlit pouhou náhodou. Přestože by bylo vhodnější používat pojmy vysvětlující a vysvětlovaná veličina, budeme pro názornost používat pojmy závislá a nezávislá veličina. Naší snahou je obvykle prokázat závislost veličin. Nezávislost nedokazujeme pouze v některých případech neumíme statisticky prokázat závislost. V souladu s teorií testování hypotéz bude nulová hypotéza H0 znamenat nezávislost veličin a alternativní hypotéza HA závislost veličin.
Pro statistické sledování vztahu musíme mít k dispozici výběr s hodnotami jedné proměnné a tomu odpovídajícími hodnotami druhé proměnné (resp. dalších proměnných). Jedná se o data: · dvourozměrná: např. při sledování spotřeby paliva v závislosti na rychlosti vždy dostaneme uspořádanou dvojici hodnot · vícerozměrná (vektory), kdy pro jeden prvek výběru jsou současně zjištěny hodnoty více proměnných: např. při zjišťování závislosti příjmů na vzdělání, délce praxe a pohlaví jsou to čtyři hodnoty pro každého vybraného jedince.
Při sledování vztahu mezi zjištěnými hodnotami závisle a nezávisle proměnné můžeme ve statistice řešit otázky: · Zda existuje či neexistuje závislost (vztah, korelace) mezi veličinami · Pokud závislost existuje, sledujeme míru intenzity (těsnosti) tohoto vztahu: - zda je vztah blízký funkční závislosti - nebo se naopak se blíží nezávislosti Statistický obor, který se zabývá existencí závislosti a mírou těsnosti vztahu veličin, pokud existuje, se nazývá korelační analýza. V případě, že prokážeme závislost, může nás zajímat tvar této závislosti. Matematickým popisem závislosti veličin se zabývá regresní analýza.
· Při statistickém šetření závislosti bychom nejprve měli řešit problém korelace sledovaných veličin. Např. když měříme veličiny na „stejné úrovni“ (hladinu cholesterolu, HDL-cholesterolu, triglyceridů v krvi). · Pokud se mezi sledovanými veličinami prokáže závislost (tj. znalost nezávislé veličiny nám pomůže odhadnout hodnoty závislé veličiny), pak se snažíme ji vyjádřit matematickým vztahem, tj. řešit otázku regrese. • • • •
podle výšky otců odhadujeme výšku synů na základě výšky odhadujeme váhu výška dítěte závisí na jeho věku krevní tlak souvisí s věkem (a dalšími veličinami)
Podle těsnosti vazby, příp. síly závislosti, můžeme rozlišit 1. funkční závislost (pevná) 2. stochastická závislost (volná) 3. nezávislost (náhodná souvislost) Podle typu vztahu můžeme rozlišit 1. lineární závislost 2. nelineární závislost
1. Funkční (pevná) závislost. Kdy určité hodnotě vysvětlující proměnné odpovídá právě jedna hodnota vysvětlované proměnné. Lze vyjádřit vztahem y = f(x)
výsvětlovaná proměnná
funkční závislost 20
10
0 0
2
4
6
vysvětlující proměnná
8
10
2. Závislost stochastická (volná). Závislost, kdy vysvětlovaná proměnná, případně i vysvětlující proměnná jsou náhodné veličiny. Určité hodnotě vysvětlující proměnné pak přísluší možné hodnoty vysvětlované proměnné vybrané z určitého rozdělení. Lze vyjádřit E(y) = f(x) střední hodnota náhodné veličiny y je funkcí proměnné x.
výsvětlovaná proměnná
s to c h as tick á zá vislo s t
20
10
0 0
2
4
6
vysvětlující p ro měn n á
8
10
3. Nezávislost. Náhodná veličina sledovaná jako vysvětlovaná se mění pouze náhodně bez ohledu na vysvětlující proměnnou; střední hodnota jedné veličiny se nemění, i když se hodnoty druhé veličiny mění.
výsvětlovaná proměnná
nezávislost 5 2,5 0 0
2
4
6
-2,5 -5 vysvětlující proměnná
8
10
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN - analogie Při analýze jednotlivých veličin zjišťujeme - míry polohy - míry měřítka v případě normálně rozložených veličin
- průměr - rozptyl
Pokusme se najít míry vztahu mezi dvěmi spojitými normálně rozloženými veličinami u kterých předpokládáme lineární závislost. - Analogií míry polohy bude přímka nejlépe vystihující průběh jejich závislosti - Analogií míry měřítka bude míra těsnosti dat vzhledem k této přímce. Tuto charakteristiku budeme nazývat kovariance.
KOVARIANCE – míra lineárního vztahu dvou veličin Matematicky je kovariance zobecněním pojmu rozptylu: n 1 výběrovou kovarianci vypočteme vzorcem cov( x, y ) = (xi - x )( yi - y ) å n - 1 i =1
a intuitivně si ji můžeme vysvětlit podobně jako u rozptylu – nepracujeme přímo s hodnotami sledovaných veličin, ale s jejich odchylkami od průměru Z definice kovariance plyne: cov(x,y) = cov(y,x) může nabývat kladných i záporných hodnot pokud cov(x,y) = 0 ... neexistuje lineární vazba mezi x, y
Omezení: kovariance je mírou pouze lineární vazby – neumí charakterizovat nelineární závislost. Musíme předem ověřit lineární závislost dat. Kovariance je závislá na rozptylu veličin x, y kolem jejich středních hodnot. Čím je rozptyl zkoumaných veličin větší, tím je hodnota kovariance větší. Stejnou úvahu jako jsme provedli pro zobecnění rozptylu, můžeme provést i pro xi - x sx
tzv. z-skóry n
rx , y =
å (x
i
i =1
n
å (x i =1
,
a výraz rx, y
- x ) × ( yi - y ) n
- x ) × å ( yi - y ) 2 2
i
yi - y sy
i =1
1 n æ xi - x öæç yi - y ö÷ ÷ = åç n - 1 i=1 çè s x ÷øçè s y ÷ø
po úpravě
je tzv. Pearsonův korelační koeficient, neboli koeficient lineární korelace, neboli výběrový Pearsonův lineární korelační koeficient.
Z-skóry jsou konstruovány tak, aby jejich rozptyl byl roven jedné, proto korelační koeficient není závislý na variabilitě veličin x a y a nabývá hodnot z intervalu < -1, +1 >
KOEFICIENT LINEÁRNÍ KORELACE je něco jako "normovaná" neboli "standardizovaná" míra kovariance a můžeme cov( x, y ) ho odvodit také dosazením do vztahu n
rx , y
1 ( xi - x ) × ( y i - y ) å n - 1 i =1 = 1 n 1 n 2 ( xi - x ) × ( yi - y ) 2 å å n - 1 i =1 n - 1 i =1
rx , y =
s x2 × s y2
Po úpravě se zjednoduší na tvar r ( x, y ) =
1 n å ( xi - x ) × ( yi - y ) n - 1 i=1 1 × n -1
n
å (x
i
i =1
- x) × 2
n
å (x
i
i =1
- x)
n
= 2
å (x
i
- x ) × ( yi - y )
i =1
n
å (x
i
i =1
n
- x ) × å ( xi - x ) 2 2
i =1
Korelační analýza pomocí lineárního korelačního koeficientu 1. 2.
Zjišťujeme existenci závislosti mezi x, y Určujeme těsnost závislosti · korelační koeficient kladný (r > 0) y roste s rostoucím x (přímá úměra) · korelační koeficient záporný (r < 0) y s rostoucím x klesá (nepřímá úměra) (lineární závislost se zápornou směrnicí)
teoretická hodnota koeficientu korelace = r empirický (výběrový) koeficient vypočtený z výsledků výběru = r
Je–li |r| =|r| = 1 … funkční závislost tj. je-li absolutní hodnota koeficientu korelace 1, jde o funkční závislost -> body leží na přímce Je–li r=0 resp. r®0 … naprostá nezávislost tj. pokud je parametr r roven 0, jedná se o naprostou nezávislost mezi veličinami -> body jsou rozhozeny v elipse, jejíž osa je rovnoběžná s osou x Čím je |r| blíže 1, tím těsnější je závislost. Pozor! Vztah je vyšetřován pouze jako lineární závislost!
Při složitější funkční závislosti může nastat kurióznímu případ, kdy při jasné n závislosti je korelační koeficient nulový (např. funkční závislost ve tvaru paraboly)
rx, y =
å(x - x)( y - y) i =1
n
i
i
n
2 ( ) ( ) x x y y å i å i i=1
2
i=1
Při výpočtech odhadu korelace základního souboru použijeme výběrový Pearsonův lineární korelační koeficient: ze vzorce je zřejmé, že se nemění, zaměníme-li x za y (je stejný pro závislost y na x i pro závislost x na y). Při určování koeficientu korelace mohou být obě veličiny náhodné.
Výpočty koeficientu lze provést v programu EXCEL: funkce CORREL nebo Korelace v Analýze dat Při malých výběrech je odhad koeficientu korelace základního souboru r výběrovým koeficientem „r“ zkreslený, neboť r nadhodnocuje intenzitu závislosti. Nezkreslený odhad získáme ze vztahu
r = 1 - (1 - r 2 ) )
n -1 n-2
Test nezávislosti veličin x a y r=0 … korelační koeficient základního souboru má hodnotu nula, když není mezi veličinami závislost. Jestliže tedy statisticky prokážeme, že se vypočtená hodnota výběrového koeficientu r významně liší od nuly, prokážeme tím, že mezi veličinami je lineární závislost K tomu potřebujeme: -
hodnotu výběrového korelačního koeficientu r
-
kritickou hodnotu korelačního koeficientu rk pro zvolenou hladinu významnosti α a počet stupňů volnosti (n - 2), kde n je počet měření a 2 je počet odhadovaných parametrů (odhadujeme x a y )
nebo - testovací statistiku t
é r t=ê 2 ë 1- r
ù ú × n - 2, û
která má Studentovo t-rozdělení s (n – 2) stupni volnosti -
kritickou hodnotu Studentova rozdělení tk zjistíme v Excelu funkcí TINV(α, n-2)
Příklad: Na hladině významnosti 0,05 testujte, zda existuje statisticky významný vztah mezi výrobními náklady a hektarovým výnosem obilí; data byla zjištěna v 11 různých zemědělských podnicích
výr. náklady v tis. Kč na ha hektarový výnos obilí v tunách
29,5 40,5 23,8 34,0 46,1 41,5 31,9 38,1 31,0 31,0 33,0 3,5 3,9 3,4 3,7 4,5 4,9 3,5 3,9 4,8 4,6 4,6
Výběrový korelační koeficient r = 0,431 n = 11, α = 0,05 kritická hodnota rk z tabulek = 0,602 r < rk -> nelze zamítnout hypotézu H0, nebyla prokázána statisticky významná závislost mezi náklady a výnosem.
Míry monotónního vztahu - robustní varianty koeficientů korelace V některých případech není vhodné nebo přímo nelze použít klasický korelační koeficient pro sledování závislosti mezi dvěma znaky. Nevhodné je použití např. tehdy, když mezi naměřenými hodnotami jsou hodnoty odlehlé (není splněn předpoklad normálního rozdělení), nebo když hodnoty sledovaných znaků je možné nebo vhodné matematicky srovnat pouze pořadím. Např. sledujeme, zda existuje vztah mezi umístěním určitých závodníků na mistrovství světa a na Olympijských hrách. Nebo hledáme vztah mezi pořadím dokonalosti vyprání prádla (ohodnoceno čísly) a cenou použitého pracího prášku. V těchto případech lze s výhodou použít Spearmanův nebo Kendalův pořadový korelační koeficient.
Spearmanův korelační koeficient porovnává do jaké míry je uspořádání analyzovaných dat podle veličiny X stejné jako podle veličiny Y. Je vhodný pro monotónní závislost - nevyžaduje linearitu. Kendalův koeficient Všechny body rozdělíme pomocí mediánů veličiny X a Y do čtyř kvadrantů a uděláme součet počtu bodů v I. a III. kvadrantu (C) a ve II. a IV. kvadrantu (D). Rozdíl C - D je upraven tak, aby konstruovaný koeficient byl v rozsahu < -1; +1> n n 1 t= sign( Ri - R j ) sign(Qi - Q j ) åå n (n - 1) i =1 j =1
Spearmanův korelační koeficient (pořadový) a test nezávislosti - postup Sledujeme významnost korelace mezi dvěma znaky (x, y). Pro oba znaky určíme podle velikosti pořadí (i) a z párů pořadí (ix, iy) vypočteme Spearmanův n koeficient korelace (rs) dle vztahu 6 å (i x - i y ) 2 rs = 1 - i =1 2 n × ( n - 1) Kritickou hodnotu koeficientu rs(a,n) pro daný počet sledovaných dvojic n a hladinu významnosti a můžeme najít v tabulkách. Je-li vypočtené rs větší než kritická hodnota, zamítáme hypotézu o nezávislosti obou znaků (o nulové hodnotě rs). Hodnota rs rovněž informuje o intenzitě závislosti mezi oběma sledovanými znaky.
Příklad: Pro náhodný výběr šesti států USA byly zjištěny spotřeby cigaret na hlavu a roční míra úmrtnosti na 100 000 lidí následkem rakoviny plic. Určete, zda existuje významná korelace mezi Spotřeba cigaret Úmrtnost těmito znaky. Stát USA x ix y iy (ix-iy)2 Suma kvadrátů sloupci
10,5 v posledním
rs = 1 – 6 * 10,5 / [6.(62-1)] = 0,7 Kritická hodnota rs(a,n) = 0,829 pro a = 0,05, n = 6
Delaware
3400
6
24
5
1
Indiana
2600
4
20
3,5
0,25
Iowa
2200
2
17
1
1
Montana
2400
3
19
2
1
New Yersy
2900
5
26
6
1
Washington
2100
1
20
3,5
6,25
Závěr: rs=0,7 < 0,829, korelace tedy nebyla prokázána.
Poznámky ke korelační analýze Kritická hodnota korelačního koeficientu klesá s počtem bodů ! (podle n=n-2) Přímka určena dvěma body Þ pro 2 dvojice x, y vždy jednoznačně určená přímka Þ funkční závislost r by vyšlo 1 nebo -1 (r není v tomto případě definováno), i když žádná závislost mezi x, y nemusí být Čím větší počet bodů Þ tím větší možnost nalezení případné závislosti bez ohledu na chyby měření Þ hodnota kritické hodnoty koeficientu klesá. Jinými slovy: nižší hodnota korelačního koeficientu z více měření může prokázat větší míru závislosti než vyšší hodnota korelačního koeficientu z malého počtu měření.
Přítomnost vychýleného bodu v datech 1,2 1 0,8 0,6 y
Při korelační analýze (hledání, zda existuje významná přímková závislost) jediný bod vzdálený (odlehlý) od ostatních může zajistit nalezení významné korelace, ač zbylé body mohou vykazovat naprostou nezávislost mezi x, y.
0,4 0,2 0 -0,2 0
5
10
15
20
25
-0,4 x
Velký počet shluklých bodů jevících jasnou nezávislost zajistí nízkou kritickou hodnotu korelačního
koeficientu a jediný vzdálený, možná problematický bod, ovlivní hodnotu korelačního koeficientu tak, že může překročit kritickou hodnotu. V takovém případě nelze brát výsledek testu příliš vážně (rozdělení bodů zřejmě odporuje předpokladu o normálním rozdělení). Z tohoto důvodu musí korelační analýze předcházet analýza vstupních dat s výpočtem základních charakteristik míry polohy a míry měřítka, abychom zjistili, zda data splňují předpoklady použití daných statistických metod. r = -0,055
bez odlehlého bodu
r = 0,74
s odlehlým bodem
Pro α = 5% a n = 20 je kritická hodnota korelačního koeficientu 0,444.
SOUHRN KORELACE je matematický postup, který vyjadřuje číselně zjištění o souvislostech dvou veličin. Neřeší, zda mezi veličinami existuje závislost (na rozdíl od REGRESE). Může existovat náhodná, zdánlivá nebo bezvýznamná korelace? ANO Může existovat úplná matematická nezávislost dvou proměnných znaků? NE ani v případě, kdy prokazatelně neexistují žádné souvislosti
Zdánlivé a náhodné korelace vznikají pokud výběrové soubory mají malý rozsah. Ani zřetelná korelace nevypovídá o vnitřní přímé souvislosti.
i
i
- y)
190 180
i =1
N
i =1
i =1
å (xi - x )2 å ( xi - x )2
160
N
-1 ≤ r ≤ 1
150
r=
å (x - x )( y
170
N
Výška syna
Žlutě vyznačen úhel obou regresních přímek: - malý úhel - vysoká korelace - velký úhel - nízká korelace
200
Pearsonův koeficient lineární korelace r
160
165
170
175
180
Výška otce
185
190
195
Tvary závislostí
r =1,000
r =0,967
r =-1,000
r =0,000
r =0,857
r =-0,143
r =0,934
r =0,608
Tvary závislostí
Korelační koeficienty r – Pearsonův s – Spearmanův
k - Kendalův
r =1,000 s =1,000 k =1,000
r =-1,000 s =-1,000 k =-1,000
r =0,000 s =0,000 k =0,000
r =0,934 s =1,000 k =1,000
r =0,967 s =0,836 k =0,966
r =0,857 s =0,712 k =0,889
r =-0,143 s =-0,099 k =-0,150
r =0,608 s =0,953 k =0,964
Další pasti a pastičky u Pearsonova korelačního koeficientu Problém rozložení hodnot
Problém typu modelu Y
Y
r = 0,761 (p < 0,032)
r = 0,981 (p < 0,001)
X
X
Problém velikosti vzorku Y
Y
r = 0,212 (p < 0,008)
r = 0,891 (p < 0,214)
X
X