Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
KGG/STG Statistika pro geografy 10. Regresnı´ analy´za
Mgr. David Fiedor 27. dubna 2015
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Nelinea´rnı´ za´vislost - korelacˇnı´ pomeˇr uzˇitı´ v prˇ´ıpadeˇ, kdy regresnı´ cˇa´ra nenı´ prˇ´ımka, ale je vyja´drˇena slozˇiteˇjsˇ´ı matematickou funkcı´ prvky vy´beˇru za´visle promeˇnne´ yi rozdeˇlı´me podle hodnot neza´visle promeˇnne´ xi do skupin oznacˇeny´ch yj a pro kazˇdou skupinu se vypocˇı´ta´ pru˚meˇr y¯j korelacˇnı´ pomeˇr se vypocˇı´ta´ podle vztahu s s ¯ ¯ ( y − y ) · n ∑ j ∑(y¯ j nj − ny¯ )2 j = ηyx = ∑(yi − y¯ )2 ∑ yi2 − ny¯ 2 nj je cˇetnost v yj porovna´nı´ hodnot korelacˇnı´ho koeficientu a korelacˇnı´ho pomeˇru lze pouzˇ´ıt jako krite´ria linearity vztahu 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Koeficient mnohona´sobne´ korelace vztah dvou promeˇnny´ch je cˇasto ovlivneˇn dalsˇ´ımi promeˇnny´mi - chceme zjistit celkovou sı´lu vztahu mezi zvolenou promeˇnnou na jedne´ straneˇ a neˇkolika dalsˇ´ımi promeˇnny´mi pro hodnocenı´ korelacˇnı´ za´vislosti trˇ´ı nebo vı´ce vy´beˇru˚ na´hodny´ch velicˇin - koeficient mnohona´sobne´ korelace vyjadrˇuje cˇı´selneˇ mı´ru predikce cı´love´ promeˇnne´ X pomocı´ promeˇnny´ch Y a Z v u 2 2 − 2r · r · r u rxz + ryz xy xz yz rx.yz = t 2 1 − rxy 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Parcia´lnı´ korelacˇnı´ koeficient zaby´va´ se ota´zkou vlivu jedne´ nebo vı´ce neza´visle promeˇnny´ch na za´visle promeˇnnou prˇi vyloucˇenı´ vlivu zby´vajı´cı´ch neza´visle promeˇnny´ch, u nichzˇ prˇedpokla´da´me konstantnı´ hodnotu tento koeficient lze povazˇovat za zvla´sˇtnı´ prˇ´ıpad koeficientu mnohona´sobne´ korelace, kdy dalsˇ´ı promeˇnne´ povazˇujeme za „rusˇive´“ rxy − rxz · ryz rxy.z = q 2 ) · (1 − r 2 ) (1 − rxz yz prˇ´ıkladem z le´karˇske´ praxe mohou by´t promeˇnne´ veˇk, krevnı´ tlak a koncentrace cholesterolu v krvi u zˇen (parametr veˇku bereme jako rusˇivy´ element) 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Korelacˇnı´ pole
bodovy´ graf zna´zornˇujı´cı´ obeˇ na´hodne´ velicˇiny (za´visle promeˇnnou na ose x a neza´visle promeˇnnou na ose y pomocı´ tohoto grafu lze posoudit dvourozmeˇrnou normalitu dat (prˇi dostatecˇneˇ velke´m pocˇtu pozorova´nı´ by meˇly body tvorˇit elipsu)
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Korelacˇnı´ pole
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Regresnı´ analy´za - u´vod jizˇ se nejedna´ o urcˇenı´ sı´ly za´vislosti statisticky´ch znaku˚ (korelacˇnı´ analy´za), ale o urcˇenı´ druhu za´vislosti u´kolem je tedy sestavit vztah (model) za´vislosti mezi za´visle a neza´visle promeˇnnou regresnı´ analy´za se zaby´va´ odhadem nezna´my´ch parametru˚ regresnı´ funkce, testova´nı´m hypote´z o teˇchto parametrech a take´ oveˇrˇova´nı´m prˇedpokladu˚ regresnı´ho modelu prˇedevsˇ´ım se budeme veˇnovat linea´rnı´ regresnı´ za´vislosti (regresnı´ prˇ´ımkou) 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Linea´rnı´ regresnı´ za´vislost
nejjednodusˇsˇ´ı prˇ´ıpad regresnı´ za´vislosti - prˇ´ımka y´ = a + bx symbol y´ se pouzˇ´ıva´ pro oznacˇenı´ nejpravdeˇpodobneˇjsˇ´ı teoreticke´ hodnoty y odpovı´dajı´cı´ dane´mu x - hodnoty, ktera´ „lezˇ´ı“ na regresnı´ prˇ´ımce (veˇtsˇinou se tato hodnota odlisˇuje od konkre´tnı´ hodnoty yi nacha´zejı´cı´ se mimo prˇ´ımku) vyvsta´va´ ota´zka: jak urcˇit rovnici regresnı´ prˇ´ımky?
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Metoda nejmensˇ´ıch cˇtvercu˚ urcˇuje pru˚beˇh regresnı´ prˇ´ımky - jejı´ parametry urcˇujı´cı´ podmı´nka: soucˇet cˇtvercu˚ vzda´lenostı´ vsˇech bodu˚ pole od prˇ´ımky musı´ by´t minima´lnı´, tj.:
∑(yi − y´i )2 = min
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Metoda nejmensˇ´ıch cˇtvercu˚ vy´pocˇet vertika´lnı´ vzda´lenosti bodu˚ korelacˇnı´ho pole od regresnı´ prˇ´ımky se prova´dı´ podle prˇedchozı´ho obra´zku vzda´lenost konkre´tnı´ hodnoty za´visle promeˇnne´ yi od bodu regresnı´ prˇ´ımky y´i musı´ platit vztah: yi − y´i = yi − a − bxi soucˇet cˇtvercu˚ „svisly´ch“ vzda´lenostı´ yi od regresnı´ prˇ´ımky je potom
∑(yi − y´i )2 = ∑(yi − a − bxi )2 = A pro metodu nejmensˇ´ıch cˇtvercu˚ musı´ platit A = ∑(yi − a − bxi )2 = min 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Vy´pocˇet koeficientu˚ regresnı´ prˇ´ımky ´ pravami vztahu˚ dostaneme vy´razy pro vy´pocˇet U koeficientu˚ regresnı´ prˇ´ımky: ¯ ∑ xi yi − nxy 2 ∑ xi − nx¯ 2 Tento koeficient je smeˇrnicı´ prˇ´ımky (tangenta u´hlu, ktery´ svı´ra´ prˇ´ımka s osou x. b=
a = y¯ − b x¯ Uda´va´ pru˚secˇı´k prˇ´ımky a osy y. 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Vy´pocˇet koeficientu˚ regresnı´ prˇ´ımky
Vy´pocˇet koeficientu b lze zjednodusˇit pomocı´ vztahu˚ pro kovarianci a smeˇrodatnou odchylku, tedy: b=
10. Regresnı´ analy´za
Sxy Sx2
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Intervaly a pa´sy spolehlivosti linea´rnı´ regresnı´ za´vislosti regresnı´ prˇ´ımku konstruujeme z dat vy´beˇrove´ho souboru z tohoto du˚vodu se mohou rovnice te´to prˇ´ımky lisˇit pro ru˚zne´ na´hodne´ vy´beˇry ze stejne´ho za´kladnı´ho souboru obdobneˇ jako bodovy´ a intervalovy´ odhad parametru˚ za´kladnı´ho souboru funguje i regresnı´ prˇ´ımka doplneˇnı´ pru˚beˇhu regresnı´ prˇ´ımky intervalem spolehlivosti - prˇi vykreslenı´ vzniknou „pa´sy spolehlivosti“ urcˇujeme interval v neˇmzˇ se pro dane´ x s danou pravdeˇpodobnostı´ bude nacha´zet i hodnota y prˇ´ıslusˇna´ hodnoteˇ x 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Intervaly a pa´sy spolehlivosti linea´rnı´ regresnı´ za´vislosti zvolı´me mı´ru spolehlivosti pro pa´sy spolehlivosti polovicˇnı´ sˇ´ırˇka tohoto intervalu je da´na vztahem √ h A l = t1 − α ( n − 2 ) · √ , n−2 s (x − x¯ )2 kde h = n1 + (n − 1)Sx2 hodnota t1−α (n − 2) je hodnota kvantilu Studentova t rozdeˇlenı´ 1 − α pro n − 2 stupnˇu˚ volnosti 10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Pa´sy spolehlivosti Dolnı´ mez: y´ − l Hornı´ mez: y´ + l
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Testova´nı´ vy´znamnosti regresnı´ za´vislosti k testova´nı´ lze vyuzˇ´ıt jednovy´beˇrove´ho t-testu (nulova´ hypote´za bude tvrdit, zˇe se smeˇrnice prˇ´ımky b nelisˇ´ı vy´znamneˇ od nuly) cˇasteˇji pouzˇ´ıva´me ale analy´zu rozptylu zjistı´me celkovou variabilitu hodnot y vypocˇı´ta´me, z kolika procent je tato celkova´ variabilita vysveˇtlena variabilitou hodnot x celkova´ variabilita: celkova´ suma cˇtvercu˚ odchylek hodnot od pru˚meˇru rozdeˇlı´me ji na variabilitu regresnı´ (tj. vysveˇtlena regresnı´ prˇ´ımkou) a variabilitu rezidua´lnı´ (tj. zbytkovou nevysveˇtlenou regresnı´m modelem)
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Testova´nı´ vy´znamnosti regresnı´ za´vislosti konkre´tnı´m zpu˚sobem se vsˇak jizˇ nebudeme zaby´vat (postacˇı´ postup v syste´mu STATISTICA)
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Prˇ´ıklad Prˇ´ıklad z prˇedna´sˇky Korelacˇnı´ analy´za Jaka´ je za´vislost mezi pH pu˚dy na vy´sypka´ch a pocˇtem rostlinny´ch druhu˚?
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
ˇ esˇenı´ R
Statistiky–Vı´cena´sbona´ regrese volba promeˇnny´ch - za´visle a neza´visle promeˇnna´ Vy´pocˇet: Vy´sledky regrese OK, na za´lozˇce Bodove´ grafy–Korelace 2 promeˇnny´ch - vykreslenı´ grafu korelacˇnı´ho pole s pa´sy spolehlivosti a regresnı´ prˇ´ımkou
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Dalsˇ´ı typy regresnı´ch funkcı´ - nelinea´rnı´
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Hleda´nı´ vhodne´ho regresnı´ho modelu Postupovat lze dveˇma zpu˚soby: volba vhodne´ho modelu na za´kladeˇ prakticke´ zkusˇenosti cˇi teoreticky´ch prˇedpokladu˚ posouzenı´m bodove´ho grafu a interpretacı´ na´stroju˚ regresnı´ analy´zy Zpu˚soby hodnocenı´ vhodnosti regresnı´ho modelu: analy´za rezidua´lnı´ch hodnot vy´pocˇet smeˇrodatne´ chyby odhadu vy´pocˇet koeficientu determinace
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Analy´za rezidua´lnı´ch hodnot
rezidua jsou vzda´lenosti skutecˇny´ch hodnot yi od modelem odhadnuty´ch hodnot y´i model je vhodny´, pokud rezidua´lnı´ hodnoty splnˇujı´ na´sledujı´cı´ podmı´nky 1 2
rezidua jsou na´hodna´ a neza´visla´ majı´ norma´lnı´ rozdeˇlenı´ s nulovy´m pru˚meˇrem a konstantnı´m rozptylem
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Smeˇrodatna´ chyba odhadu
vyjadrˇuje smeˇrodatnou odchylku, resp. rozptyl rezidua´lnı´ch hodnot a je vhodnou mı´rou pro posouzenı´ vhodnosti pouzˇite´ regresnı´ za´vislosti cˇı´m je hodnota rezidua´lnı´ho rozptylu nizˇsˇ´ı, tı´m je model vhodneˇjsˇ´ı s ∑ni=1 (yi − y´i )2 se = n−2
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Koeficient determinace
zavedli jsme jej jizˇ drˇ´ıve (korelacˇnı´ pocˇet) cˇı´m je hodnota koeficientu determinace veˇtsˇ´ı, tı´m je model vhodneˇjsˇ´ı r2 =
10. Regresnı´ analy´za
SSregres SStotal
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Vı´cerozmeˇrna´ regrese
popisuje za´vislost vı´ce promeˇnny´ch vysveˇtlujı´cı´ch jednu promeˇnnou v prˇ´ıpadeˇ, zˇe ma´me dveˇ vysveˇtlujı´cı´ promeˇnne´, tak je regresnı´ model rovinou odhad parametru˚ se opeˇt prova´dı´ pomocı´ metody nejmensˇ´ıch cˇtvercu˚ y´ = a + b1 x1 + b2 x2 + . . .
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy
Doplneˇnı´ korelacˇnı´ analy´zy Regresnı´ analy´za
Metoda nejmensˇ´ıch cˇtvercu˚, regresnı´ prˇ´ımka Testova´nı´ vy´znamnosti regresnı´ za´vislosti Nelinea´rnı´ regresnı´ funkce Hleda´nı´ vhodne´ho regresnı´ho modelu
Deˇkuji za pozornost...
10. Regresnı´ analy´za
KGG/STG Statistika pro geografy