Přednáška č. 9 – Korelace, metody regresní analýzy, výpočet parametrů lineární regrese, nelineární regrese Korelace a korelační koeficient Při zkoumání závislostí mezi dvěma veličinami jsou možné dva druhy závislostí: - funkcionální závislost, kdy ke každé hodnotě jedné náhodné veličiny je přiřazena určitá hodnota druhé náhodné veličiny, - stochastická závislost, ke každé hodnotě jedné náhodné veličiny je přiřazena určitá průměrná hodnota druhé náhodné veličiny. Zvláštním případem stochastických závislostí jsou korelační závislosti. Korelační závislost mezi náhodnými veličinami je možné vyjádřit kovariancí a korelačním koeficientem. Kovariance náhodných veličin X,Y je definována následujícím způsobem. Pokud náhodné veličiny X, Y jsou nezávislé pak pro střední hodnoty platí E ( X .Y ) E ( X ).E (Y ) Pro veličiny závislé vztah neplatí a rozdíl středních hodnot je definován jako kovariance
K xy E ( X .Y ) E ( X ).E (Y ) Závislost náhodných veličin je kovariancí vyjádřena v absolutních hodnotách a je obtížné posoudit míru závislosti náhodných veličin. Z tohoto důvodů se k vyjádření míry závislosti (těsnosti vztahu) používá poměrná hodnota označovaná jako korelační koeficient xy. Korelační koeficient se určuje dle vztahu
xy
K xy
x . y
kde: x … střední směrodatná odchylka náhodné veličiny X y … střední směrodatná odchylka náhodné veličiny Y Vlastnosti korelačního koeficientu: - hodnota korelačního koeficientu je v mezích -1 ≤ xy ≤ 1, - lineární transformací náhodných veličin se absolutní hodnota korelačního koeficientu nemění, - jsou-li náhodné veličiny nezávislé je korelační koeficient xy = 0, - pro hodnotu xy> 0 je korelace kladná (obě náhodné veličiny se mění ve stejném směru), - pro hodnotu xy< 0 je korelace záporná (veličiny X,Y se mění v opačném směru). Regresní analýza Je analytická statistická metoda která umožňuje: - určení vhodného vztahu (regresní funkce) mezi dvěma či více závislými náhodnými veličinami, - určení míry těsnosti vztahu (regresní funkce) s hodnotami výběrového souboru.
Postup určení regresní funkce (pro případ dvou náhodných veličin) 1) analyzované náhodné veličiny X,Y jsou popsány výběrových souborem n vzájemně přiřazených dvojic x1, y1; x2, y2; …….xn, yn. 2) zvolíme jednu z veličin jako nezávislou náhodnou veličinu X, druhá veličina bude závislá Y 3) každé hodnotě xi odpovídá řada hodnot veličiny závislé Y. Pro popis výskytu hodnot závislé náhodné veličiny se volí normální náhodná veličina. 4) Střední hodnota závislé náhodné veličiny Y je podmíněnou střední hodnotou pro hodnotu nezávislé náhodné veličiny. 5) Regresní funkce f(x) je spojnicí podmíněných středních hodnot. 6) Typ průběhu regresní funkce se volí podle vlastností výběrového souboru a určení parametrů regresní funkce určíme z požadavku minimálních odchylek mezi výběrovým souborem a teoretickou regresní funkcí. 7) Míru těsnosti regresní funkce vyjadřuje regresní koeficient.
Obr. Schéma pro určení regresní funkce Výpočet lineární regrese Lineární regrese je základním typem vztahu dvou náhodných veličin a je vyjádřena vztahem Y ( x) f ( x) a o a1 . X parametry jsou konstanty ao , a1. Výpočet konstant se provádí z požadavku minimální velikosti součtu druhých mocnin odchylek. Schéma lineární regrese je na následujícím obrázku.
Celkovou velikost druhých mocnin odchylek lze napsat ve tvaru normálové rovnice n
n
Q y i Yi y i a o a1 .xi 2
1
2
1
Požadavek minimální velikosti odchylek bude splněn při zvoleném typu lineární regrese pokud platí Q Q 0 a o a1
což bude splněno pokud n Q 2. ( yi ao a1 .xi ) 0 a o 1 n Q 2. ( y i ao a1 .xi ).xi 0 a1 1 Neznámé v těchto vztazích jsou konstanty ao, a1. Po rozepsání do dílčích sumací řešíme soustavu dvou rovnic n
n
n
y a a x i
o
1 i
1
1
0
1
n
n
n
x . y a .x a .x i
i
o
1
i
1
1
2
i
0
1
Výsledek řešení soustavy rovnic jsou vztahy pro výpočet parametru regresní přímky ve tvaru n
ao
n
yi a1 xi 1
n
a1
y a1 x
1
n n
n
n. xi . y i xi . y i 1
1
1
n. x i xi 1 1 n
n
2
2
Konstanty ao, a1 byly určeny z hodnot výběrového souboru a proto jsou to bodové odhady. Věrohodnost jejich odhadu závisí na vlastnostech výběrového souboru a zejména na velikosti souboru. Konstanty mají určitou variabilitu, kterou můžeme číselně určit rozptylem. Vypočteme charakteristiku variability hodnot na regresní přímce n
2 xy
y
i
Yi
1
n
2
a rozptyly konstant budou n
2
ao
2
xy
.
x
2
i
1
n
n. xi x
2
1
n
2a
(y
i
Yi ) 2
1
1
n
Výpočet regresního koeficientu Schéma pro výpočet je na následujícím obrázku. K posouzení těsnosti je vyhodnocován vztah variability střední hodnoty nezávislé náhodné veličiny a variability hodnot na regresní funkci. Regresní koeficient se zjišťuje odhadem na základě vyhodnocení výběrového souboru. Regresní koeficient má obdobné vlastnosti jako korelační koeficient. Velikost koeficientu je v rozmezí -1≤ rxy ≤ 1.
Odhad střední hodnoty podmíněných středních hodnot závislé náhodné veličiny y
1 n yi n 1
Rozptyl závislé náhodné veličiny
2 1 n yi y n 1 1 Rozptyl vzhledem k teoretickým hodnotám (hodnotám na regresní přímce)
2
y
2 xy
1 n yi Yi 2 n 1 1
Regresní koeficient
2 xy R xy rxy 1 2 y
Poznámka: pokud je regresní koeficient rxy= l pak vypočtená regresní přímka (funkce) prochází všemi body výběrového souboru. Větší hodnoty regresního koeficientu vyjadřují vyšší těsnost regresní funkce k hodnotám experimentálním. Výpočet regresního koeficientu lze provést použitím hodnot výběrového souboru dle vztahu n
rxy
n
n
1
1
n. xi . y i xi . y i 1
2 n 2 n n 2 n n x i xi .n y i y i 1 1 1 1 2
Nelineární regrese Pokud vybraný tvar regresní funkce není přímka jedná se nelineární regresní analýzu. K výpočtu nelineární regrese lze použít předchozí teorii s tím, že původní náhodné veličiny vhodnou transformací převedeme do lineární závislosti. Výpočet provedeme v linearizovaných souřadnicích. Vhodné typy nelineární regrese jsou v následující tabulce. Regresní funkce Transformace Linearizovaný tvar x Y=a.b Z = log Y Log Y = log a + x. log b Y = a . eb . x Z = log Y Log Y = log a + 0,4343 . b . x Y=a+b.√x Z=√x Y=a+b.Z Y = x/(a+b . x) Z = x/Y Z=a+b.x Y = a + b/x Z = 1/x Y = a +b . Z b Z = log a + b . lob x Y=a.x 1. transformace Z = log Y Z = log a + b . u 2. transformace u = log x Spearmanův korelační koeficient pořadové korelace Tento koeficient vyhodnocuje pořadí hodnot náhodné veličiny. Jestliže náhodná veličina nabývá v souboru hodnot: x1, x2, …… , xn uspořádáme tyto hodnoty do rostoucí posloupnosti. K jednotlivým hodnotám přiřadíme pořadové číslo v posloupnosti. Pokud se některá hodnota opakuje několikrát, přiřadíme všem těmto hodnotám totéž pořadové číslo, které vypočteme jako průměr všech pořadových čísel, které by hodnoty měly, pokud by následovaly bezprostředně po sobě. Při posuzování vzájemně přiřazených dvojic náhodných veličin X, Y postupujeme u obou náhodných veličin stejným způsobem. Získáme tak dvě souvisící posloupnosti. Pro uspořádanou dvojici xi, yi určíme rozdíl di. Korelační koeficient vyhodnocuje průběh diferencí a je definován vztahem
s 1
6 n.(n
2
n
d 1)
2
i
1
Korelační koeficient pořadové korelace (stručně Spearmanův koeficient) má podobný význam jako korelační koeficient dříve definovaný.
Testování hypotéz o koleračním koeficientu I) Testování korelační nezávislosti 1) Formulace hypotéz Ho: = 0 alternativní H1: ≠ 0
pro hladinu významnosti Test bude oboustranný
2) Výpočet charakteristik výběrového souboru Z výběrového souboru dvourozměrné náhodné veličiny o četnosti dvojic hodnot n vypočteme odhad korelačního koeficientu
xy
K xy
x . y
3) Výpočet testovacího kritéria
xy
T
1
2
. n2
xy
Testovací kritérium je náhodná veličina Studentova o počtu stupňů volnosti k=n-2 4) Určení kritické hodnoty testovacího kritéria Pro případ oboustranného testu určíme dvě kritické hodnoty odpovídající kvantilům veličiny tk. Tkr1 t Tkr 2 t 2
,k n 2
1 , k n 2 2
5) Platnost Ho Pro přijetí hypotézy se musí skutečná hodnota testovacího kritéria vyskytovat mezi kritickými hodnotami Tkr1 T Tkr 2 Poznámka: max. hodnotu bodového odhadu korelačního koeficientu, při které můžeme pro hladinu významnosti předpokládat veličiny nezávislé (xy = 0) lze určit dle vztahu t
xy
t
2
1 , k n 2 2
1 , k n 2 2
II) Testovaní velikosti korelačního koeficientu 1) Formulace hypotéz Ho: xy = o= konst. alternativní H1: ≠ o
n2
pro hladinu významnosti Test bude oboustranný
2) Výpočet charakteristik výběrového souboru Z výběrového souboru dvourozměrné náhodné veličiny o četnosti dvojic hodnot n vypočteme odhad korelačního koeficientu
xy
K xy
x . y
3) Výpočet testovacího kritéria
n 3 1 xy 1 o ln o ln 2 1 xy 1 o n 1 Testovací kritérium je náhodná veličina normální normovaná. T
4) Určení kritické hodnoty testovacího kritéria Pro případ oboustranného testu určíme dvě kritické hodnoty odpovídající kvantilům veličiny normální normované náhodné veličin. Tkr1 u
Tkr 2 u
1
2
2
5) Platnost Ho Pro přijetí hypotézy se musí skutečná hodnota testovacího kritéria vyskytovat mezi kritickými hodnotami Tkr1 T Tkr 2 III. Testování shodnosti korelačních koeficientů dvou dvojrozměrných náhodných veličin Při testu se posuzuje, zda na základě vlastností dvou výběrů, které popisují dvojrozměrné náhodné veličiny můžeme přijmout statistickou hypotézu o stejných závislostech veličin v základních souborech. 1) Formulace hypotéz Ho: = alternativní H1: ≠ 2
pro hladinu významnosti Test bude oboustranný
2) Výpočet charakteristik výběrového souboru Z výběrových souborů dvourozměrných náhodných veličin o četnosti dvojic hodnot n1 a n2 vypočteme odhady korelačních koeficientů
1xy
K 1xy
1x . 1 y
2 xy
K 2 xy
2 x . 2 y
a poměrné hodnoty U1
1 1 1xy ln 2 1 1xy
U2
1 1 2 xy ln 2 1 2 xy
3) Výpočet testovacího kritéria
T (U 1 U 2 )
1
1 1 n1 3 n2 3 Testovací kritérium je náhodná veličina normální normovaná.
4) Určení kritické hodnoty testovacího kritéria Pro případ oboustranného testu určíme dvě kritické hodnoty odpovídající kvantilům veličiny normální normované náhodné veličin. Tkr1 u
Tkr 2 u
1
2
2
5) Platnost Ho Pro přijetí hypotézy se musí skutečná hodnota testovacího kritéria vyskytovat mezi kritickými hodnotami Tkr1 T Tkr 2