Regrese a korelace
Regrese g versus korelace Regrese (regression regression)* )* popisuje vztah = závislost dvou a více kvantitativních popisuje vztah = závislost dvou a více kvantitativních (popř. ordinálních) proměnných (popř. ordinálních) proměnných formou formou funkční závislosti funkční závislosti
Korelace (correlation) correlation) měří měří těsnost těsnost vztahu = závislosti mezi dvěma proměnnými Liší se chápání proměnných u obou metod? Regrese:: Regrese: Regrese : lze rozlišit, která proměnná závisí na které (= lze rozlišit, která proměnná závisí na které (= příčinnost příčinnost) ) –– rozlišujeme nezávislou (independent; rozlišujeme nezávislou rozlišujeme (independent; není zatížena „chybou (independent; není zatížena „chybou není zatížena chybou“)) a a závislou ((dependent závislou dependent, response; , response; prediktor prediktor, , je je zatížena chybou) zatížena chybou) proměnnou (variable variable)) variable) ) (Pozn.: lze řešit i případy, kdy obě proměnné jsou zatíženy (Pozn : lze řešit i případy kdy obě proměnné jsou zatíženy chybou…)
Korelace: Korelace: nelze rozlišit proměnné na závislou a nezávislou (obě jsou zatíženy chybou) * v užším slova smyslu
Graf závislosti (Scatter plot =x-y graf) 80.0
KVETU U CELKE EM
Osa yy = závislá pro Osa oměnn ná
Vztah mezi počtem květů a celkovou biomasou rostliny
53.3
26.7
0.0 0.0
2.7
5.3
8.0
celková biomasa
Osa x = nezávislá proměnná Osa x Osa = nezávislá proměnná
Jednoduchá regrese - lineární model ‐ nejjednodušší případ regrese: „ nejjednodušší případ regrese: „jednoduchá jednoduchá“ = pouze 1 nezávislá “ = pouze 1 nezávislá proměnná; „lineární p proměnná; „ ; „lineární“ = závislost “ = závislost yy na na xx vyjadřujeme přímkou yj j p Předpoklady lineární regrese: 1 homogenní rozptyl: 1. homogenní rozptyl: všechna homogenní rozptyl: všechna všechna Y mají stejnou rozptýlenost 2 linearita 2. linearita:: střední hodnota linearita: : střední hodnota y střední hodnota yi leží na regresní přímce populace 3. nezávislost 4. proměnná proměnná X je měřena bez proměnná X je měřena bez chyby (pokud ne, pak užít chyby (pokud ne, pak užít Model Model II regrese II regrese*)) Náhodné veličiny Y1,Y2,.., Náhodné veličiny Y ,..,Y Yi jsou nezávislé se střední hodnotou α+β α+ βxi a rozptylem σ a rozptylem σ2
Obecné populace Y Obecné populace Y podle podle X X
Speciální forma populací Y Speciální forma populací Y uvažovaných při jed. lineární regresi
Jednoduchá lineární regrese (simple linear regression)
Obecný předpis
yi=α+βxi
Jak to vypadá ale v populaci? Jak to vypadá ale v populaci?
Nezávislá proměnná Nezávislá proměnná x je je na horizontální ose x na horizontální ose x, závislá proměnná y závislá proměnná y je na vertikální ose y. vertikální ose y vertikální ose
... chyba = reziduál chyba = reziduál chyba = reziduál yi=α+βxi+εi ...
(residuum residuum)=odchylka )=odchylka očekávaného očekávaného od skutečného y očekávaného od skutečného od skutečného yi
Jak ale nalézt přímku, která bude „nejlépe“ fitovat Jak ale nalézt přímku, která bude „nejlépe“ fitovat = = prokládat naše data? Tak kterou?
Musí platit, aby (reziduální) Musí platit, aby (reziduální) součet čtverců odchylek skutečných od očekávaných hodnot (RSS) byl minimální n
RSS = ∑ (y i − y )2 = min. i =1
Jak vybrat nejlepší přímku? 1) spočítat celkový průměr všech hodnot y a vynést ho do grafu 2) přímka prochází bodem (x, y) 3) rotuj přímku kolem bodu (2) přičemž SSY=SSR+SSE a musí být splněno n
SSY = RSS = ∑ (y i − y )2 = min. min i =1
4) pak byla nalezena nejlepší kb l l jl ší možná přímka (Grafen a Hails a Hails 2002, str. 24)
Výpočet parametrů regresní rovnice yi=α+βxi
y=a+bx
... „odhad“ (pracujeme s výběrem) (pracujeme s výběrem)
β (b) = regresní koeficient (směrnice přímky, směrnice přímky, slope slope)) může ůž nabý nabýva bývat t všech t všech š h hodnot h d t na reálné ál é ose směrnice b směrnice b = změna = změna Y Y, která je způsobena změnou , která je způsobena změnou X X o jednotku
( x − x )( y − y ) ∑ b= ∑ (x − x) i
i
2
i
α (a) ( ) = absolutní (a) = b l í člen čl (průsečík ů čík s s osou osou y; ; intercept intercept)) ‐ bod b d daný d ý koordinátami k di át i ( x , y ) leží l ží vždy na přímce, přímce, pak
a = y − bx b
b a
Jak blízko je odhadovaná přímka skutečné č é regresníí přímce ří populace? Odhad b je zatížen Odhad b chybou ( chybou (SE y (SEb;; ; ssb;; standard error standard error of b): ta má normální rozdělení
SE =
sy
∑ (x − x) i
2
=
1 2 ( y − y ) ∑ i n−2 2 ∑ ( xi − x )
Jak „zlepšit“ odhad b? Jak „zlepšit“ odhad b 1 snížením rozptylu 1. snížením rozptylu Y snížením rozptylu Y 2. zvýšením n zvýšením n 3 zvýšením rozptylu 3. zvýšením rozptylu X (Wonnacot & Wonnacot 1993, str. 406)
Dělení variability v regresi celková variabilita y celková variabilita yi
Celková variabilita proměnné ě é y je j
SS TOTAL = ∑ ( yi − y ) 2
Tuto variabilitu lze rozdělit na variabilitu vysvětlenou regresním modelem modelem::
SS REG = ∑ ( yˆ i − y )
2
aa zbytkovou, a zbytkovou zbytkovou, nevysvětlenou nevysvětlenou variabilitu:: variabilitu
SS ERROR = ∑ ( yi − yˆ i ) 2
variabilita vysvětlená vysvětlená reg. modelem
Yˆ3 − Y Yˆ2 − Y
reziduum
Testovat regresi? Proč? A co?
náhodný ý výběr ý (n=5)) z p (n populace p s β=0
(Lepš 1996)
Testování signifikance g regrese g H0: b=0 [yi = α + εi] HA: b≠0 [yi = α + β1xi+ εi]
Máme 2 možnosti: ANOVA ANOVA a t‐ ANOVA a t a t‐ t‐test
porovnáme obě dílčí variability: čím menší bude SSERROR , tím těsnější bude vztah mezi skutečnými hodnotami a přímkou DFREG=1 DFERR=n‐2
MS REG
SS REG = 1
MS ERR
SS ERR = n−2
alternativně:
b − β0 t= sb
jje-li t ≥ tα(2), nn--2 je... zamítáme H0
MS REG pak F = MS ERR
je--li F ≥Fα(1), je (1) 1, 1 nn- 2 ... zamítáme H0
Jak a „úspěšná“ „úspěš á by byla a regrese? eg ese Koeficient determinace (coefficient of determination determination)) ‐ udává ( udává (rozsah rozsah <<0;1>, , popř. *100 v % popř. *100 v % <0;100> <0;100>), jaká část variability ), jaká část variability závisle proměnné je vysvětlena regresním modelem
SS REG r =R = SSTOT 2
vysoký R2
2
střední R2
nízký R2
(Lepš 1996)
Lineární regrese - příklad Y 1 2 3 4 5 6 Y n Průměr ů s
3 5 9 12 17 23
2 0 25.0
18.8
Y
X
X 6 11.5 7.5299
6 3.5 1.8708
(X,Y)
12.5
6.3
0.0
1.0
2.3
3.5
4.8
X
Y= -2.4 + 3.97 * X Analysis of Variance Section Sum of Source DF Squares Slope 1 276 0143 276.0143 Error 4 7.485714
Mean Prob Square F-Ratio Level 276 0143 147.4885 276.0143 147 4885 0.0003 0 0003 1.871429
6.0
Interpolace, p , extrapolace p Interpolace = stanovení nových hodnot ležících uvnitř rozmezí sebraných dat p = stanovení nových hodnot ležících mimo rozmezí ý Extrapolace sebraných dat Lineární modely mohou Lineární modely mohou aproximovat nelineární závislosti v omezeném závislosti v omezeném rozsahu nezávislé proměnné X. ‐ interpolace uvnitř těchto limitů bude akceptovatelná, i p , když mimo ně (extrapolace) nepopisuje skutečnou p p j závislost YY na závislost na X X
skutečný funkční vztah X a Y lilineární model interpoluje dobře uvnitř sebraných dat á í d li l j d bř i ř b ý hd
(Gotelli & Ellison 2004 2004, str. , str. 241)
Konfidenční a p predikční intervalyy Cílem regresní analýzy není pouze predikce hodnoty závisle proměnné na nezávislé proměnné, ale i určení přesnosti takové predikce! p , p p • Pro β: b±tα(2), α(2),n n-2*SEb • Pro střední hodnotu Pro střední hodnotu yi při Pro střední hodnotu y při daném xxi: daném konfidenční interval interval (confidence bands) bands) • Pro individuální (jednotlivé) hodnoty yi (jednotlivé) hodnoty y (jednotlivé) hodnoty při daném x při daném xi: p predikční interval (prediction intervals intervals))
Diagnostické testy: kdy je použití lineární á í regrese chybné? é Reziduály y jako jako funkce jejich příslušného x jako funkce jejich příslušného funkce jejich příslušného x x (graf residuálů (graf residuálů = = residual residual plot) yi − yˆ i
Nutný Nutný další regresor další regresor**
Heteroskedalita
věk
věk
Ulétlé hodnoty
yi − yˆ i
yi − yˆ i
věk
Homoskedalita Regrese Reziduály
yi − yˆ i
věk
Špatně specifikován reg. model Regrese Reziduály
Tak takhle tedyy ne...
Nepřiměřený vliv 1 bodu může zcela změnit závislost y zcela změnit závislost y na na xx, pokud není dodržena podmínka zahrnutí celého (resp. většího) rozmezí proměnné x rozmezí proměnné í ě é x do d analýzy...
(Gotelli & & Ellison Ellison 2004)
Ty ulétlé hodnoty... hodnoty
Role X a Y: záleží které je které? Model I regrese: jsou minimalizovány vertikální odchylky Model I regrese: jsou minimalizovány vertikální odchylky jjiný pohled: „ ýp „fitovaná p přímka popisuje vztah mezi naměřenými p p j ý → jiný pohled: „fitovaná hodnotami X a očekávanými hodnotami Y“ → hodnotami X a očekávanými hodnotami Y“ → výsledný vztah je podmíněný použitým souborem hodnot X Model II regrese: uvažujeme existenci chyby jak pro X, tak pro Y. Model II regrese: uvažujeme existenci chyby jak pro X, tak pro Y. → lze využít pouze tehdy lze využít pouze tehdy, když zároveň , když zároveň (a) jedinou příčinou odchylek naměřených hodnot od přímky je chyba měření (measurement měření ( measurement error error)) (b) tuto chybu lze přesně rozdělit mezi X a Y proměnnou objem=--87,1+1,54*výška objem=
výška=69,0+0,232*objem
(Grafen a Hails a Hails 2002, str. 43)
Jiné typy regresní analýzy I. Robustní regrese (robust regression regression): ): ‐ reziduály se počítají ne pomocí čtverce (rozdíl2), ale jako např. absolutní odchylky, ale existuje řada jiných typů (např. absolutní odchylky, ale existuje řada jiných typů (např. M M‐ estimators, , least estimators least‐‐trimmed trimmed,...) ,...) ‐ méně náchylná na vliv ulétlých méně náchylná na vliv ulétlých hodnot (zvl. jsou‐ hodnot (zvl. jsou‐li skutečné) ‐ nelze použít klasického postupu, nutno užít nelze použít klasického postupu, nutno užít iterační procedury iterační procedury pro nalezení parametrů přímky Kvantilová regrese (quantile regression quantile regression): ): ‐ minimalizuje odchylky od fitované regresní přímky, ale l d h lk d f é í ří k l minimalizující funkce je asymetrická minimalizující funkce je asymetrická –– pozitivní a negativní odchylky jsou váženy rozdílně d h lk j áž díl ě
Jiné typy regresní analýzy II. Logistická regrese (logistic regression regression): ): ‐ speciální forma regrese, kde speciální forma regrese, kde proměnná proměnná yy je kategoriální (nejčastěji 2 kategorie, méně často více) k i é ěč í ) ‐ závislost je vyjádřena tzv. S závislost je vyjádřena tzv. S‐‐křivkou, tedy logistickou křivkou, která stoupá od jisté minimální hodnoty (0 a vyšší) do maximální asymptoty t á d ji té i i ál í h d t (0 šší) d i ál í t t (max.=1) ‐ výpočet parametrů je prováděn tzv. výpočet parametrů je prováděn tzv maximum likelihood výpočet parametrů je prováděn tzv. maximum maximum likelihood approach (princip maximální věrohodnosti)
β0 + β1 x
e p= β0 + β1 x 1+ e β0 = pravděpodobnost úspěchu (y (y=1), když je x=0 β1= určuje, určuje jak rychle bude křivka stoupat k hodnotě p =1
Jiné typy regresní analýzy III. Nelineární regrese (Non Non‐‐linear regression regression)) - jde o typ regrese, kde regresní funkce není lineární v parametrech (α, β, ε), tj. nenínení-li jejich lineární kombinací
y = ab y = abb
x exponenciální růst ůt
− x exponenciální exponenciální
a y= x 1 + bc b
pokles logistický růst
Vý č t Výpočet parametrů tů regresní rovnice je složitý g j ý a provádí se tzv iterační procedurou tzv. iterační procedurou (iteration iteration))
Mnohonásobná lineární regrese (Multiple (M lti l linear li regression) i )
‐ studuje závislost jedné závislé proměnné na 2 a více j j p nezávislých proměnných
yj=α+β1x1j+ β2x2j+ β3x3j+...+ + +εj parciální regresní koeficienty iál í í k fi i (partial regression coefficients coefficients)) testuje j se obecná hypotéza yp F-testem: H0: β1 = β2 =...= βm = 0 v případě zamítnutí H0 se testují dílčí parciální koeficienty tt-testem: H0: βi= 0
Příklad rovina: 2 nezávislé proměnné
Jak vypadá výstup mnohonásobné á é regrese z PC? Závislá proměnná (Dependent vv.): ): počet pacibulek česneku domácího Regression Equation Section IndependentRegression Standard
T-Value
Prob
Decision
Power
Variable
Coefficient Error
(Ho: B=0)
Level
(5%)
(5%)
Intercept
12.54699
18.82904
0.6664
0.507279
Accept Ho
0.100829
výška ý rost. 1.017877
0.3341421
3.0462
0.003224
Reject j Ho
0.852213
počet listů
-9.270854
4.083927
-2.2701
0.026155
Reject Ho
0.610345
R-Squared
0.152349
Prob
Power
F-Ratio
Level
(5%)
6.5602
0.002398
0.898402
Analysis of Variance Section Sum of
Mean
Source
DF
Squares
Square
Intercept
1
130227.8
130227.8
Model
2
8336.867
4168.434
Error
73
46385.29
635.4149
Total
75
54722.16
729.6288
R-Squared
0.1523
Adj R-Squared 0.1291
testování parciálních koeficientů t‐testem
ANOVA (F ANOVA (F‐‐test)
Polynomická regrese g (Polynomial regression)
‐ jedná se o zvláštní typ mnohonásobné regrese jedná se o zvláštní typ mnohonásobné regrese ‐ pouze jedna proměnná pouze jedna proměnná X X, ale v rovnici se vyskytují její 1 , ale v rovnici se vyskytují její 1‐‐n n mocniny mocniny
y=a+b1xi+b2xi2+...+bmxim+ει Kolik členů použít? T t j Testujeme postupně b Testujeme postupně t ě bm stále vyšších mocnin na H tál šší h i H0: : b bm=0 a podle 0 dl výsledku určujeme počet členů rovnice
(nejužívanější je kvadratická regrese)
Polynomická regreseregresePolynom 1. st. příklad: ří
Polynom 3. st. Polynom 3. st.
Polynom 2. st.
Polynom 4. st. Polynom 4. st.
Který je nejvhodnější?
Polynom 5. st. (Lepš 1996)
Analýza kovariance (ANCOVA) ‐„hybrid“ regrese a ANOVy „hybrid“ regrese a ANOVy ‐ užívá se v případě, kdy v analýze pomocí ANOVA zohledňuji zohledňuji dodatečnou dodatečnou kvantitativní proměnnou (kovariáta kovariáta) měřenou pro každé ) měřenou pro každé opakování ‐ hypotéza je, že také hypotéza je, že také kovariáta kovariáta přispívá k variabilitě závisle proměnné Model:* Yij = μ + Ai + βi(xij- xi ) + εij
Možné výsledky experimentů s ANCOVA designem
Pokud má kovariáta Pokud má kovariáta vliv, pak reziduály budou výrazně menší a test rozdílů mezi zásahy bude test rozdílů mezi zásahy bude výrazně silnější *nejkomplexnější model, kdy každá hladina faktoru A má vlastní regresní přímku
(Gotelli et Ellison 2004, str. 334)
ANCOVA - příklad p Př.: Liší se počet květů v květenství česneku domácího mezi Liší se počet květů v květenství česneku domácího mezi cytotypy cytotypy (4x, 5x) s odstraněním vlivu počtu pacibulek (kovariáta 5x) s odstraněním vlivu počtu pacibulek ( kovariáta)? )? Analysis of Variance Table Source
Sum of
Mean
Prob
Term
DF
Squares
Square
F-Ratio
Level
X(pocet X( pocet_pacibulek) _pacibulek)
1
6554.282
6554.282
86.72
0.000000*
A: Ploidie
1
761.285
761.285
10.07
0.001671*
S
282
21313 13 21313.13
75 57848 75.57848
Total (Adjusted) Adjusted)
284
28147.87
Total
KVETU_CELKEM vs pocet_pacibulek
285
80 0 80.0
KVET TU_CELKEM M
* Term significant at alpha = 0.05
Ploidie 5 4
53.3
26.7
0.0 0.0
40.0
80.0
pocet_pacibulek
120.0
Kovariance
(covariance)
‐ jedním číslem vyjadřuje vztah mezi dvěma (kvantitativními) proměnnými ‐ její hodnoty závisí na jednotkách, ve kterých jsou měřeny proměnné (viz čitatel vzorce) ‐ teoreticky se pohybuje od teoreticky se pohybuje od ‐‐∞ do + ∞ do + ∞ ∞
( x − x )( y ∑ COV = i
i
− y)
n −1
Variance‐covariance matrix: matice Variance‐ matice n n x x n n proměnných (čtverec), kde na úhlopříčce leží variance jednotlivých proměnných, a nad a pod diagonálou leží kovariance párů proměn diagonálou leží kovariance párů proměnných ných xxi a a xxj
Parametrická korelace
(correlation)
‐ měří stupeň neboli měří stupeň neboli těsnost těsnost lineární závislosti dvou kvantitativn kvantitativ ních proměnných
Pearsonův korelační koeficient (correlation coefficient)
∑ ( xi − x )( yi − y )
1 n ⎛ xi − x ⎞⎛⎜ yi − y ⎞⎟ ⎜⎜ ⎟⎟ = r= ∑ 2 2 ⎜ ⎟ n − 1 s s i =1 ⎝ x ⎠⎝ y ⎠ ∑ ( xi − x ) ∑ ( yi − y ) ‐ standardizovaná kovariance standardizovaná kovariance ‐nelze rozlišit závislou a nezávislou proměnnou (obě jsou zatíženy chybou) ‐parametrický výběrový korelační koeficient + je odhadem p parametru r parametru ‐ je bezrozměrný, nabývá hodnot je bezrozměrný, nabývá hodnot <‐1;+1> Předpoklad užití: dvourozměrná normální populace (!!!)
Dvourozměrné normální rozdělení
(Quinn & Keough 2002, str. 73)
Dvourozměrné Dvourozměrné normální normální rozdělení pro dvě proměnné proměnné YY1 a Y a Y2, které které jsou slabě korelované. jsou slabě korelované.
Dvourozměrné Dvourozměrné normální normální rozdělení pro dvě proměnné Y1 a Y a Y2 které jsou které jsou silně silně pozitivně korelované.
Jaký význam má korelační koeficient? (A) r>0 ...po (A) (A) r>0 ... 0 pozitivní zitivní i i í korelace k l A ‐ stoupá stoupá X X, stoupá , stoupá Y Y ( b á ěj t (obráceně je to zcela totožné) l t t ž é) ((B) r (B) r=1 ... úplná pozitivní =1 ... úplná pozitivní (deterministická) korelace) (deterministická) korelace) (C) r<0 ... negativní korelace ‐ stoupá stoupá X, klesá stoupá X , klesá Y klesá Y C (= stoupá Y, klesá X) ((D) r= (D) r= (D) r r=‐1 ... úplná negativní 1 úplná negativní (deterministická) korelace) (E) r=0 0 ... nulová korelace ... nulová korelace (proměnné jsou E nekorelované)) nekorelované ‐ není lineární vztah mezi proměnnými
B r=0.60
r=1.00
r=‐‐0.80 r=
r=‐‐1.00 r= D ALE POZOR !!!
E r=0.00
r=0.00
r je odhadem: je nutno ho testovat ! H0: r=0 0 HA: r≠0 r
r t= sr
1− r sr = n−2 2
kde
= standardní chyba korelačního koeficientu
je--li ⎜tt⎜ ≥ tα(2),n je (2),n--2 ... zamítáme H0
A co když nemám splněnu podmínku d í k pro užití žití param. korelace? Spearmanův p pořadový koeficient korelace p ý n
rs = 1 −
6∑ d i i =1 3
(Spearman rank correlation rank correlation coefficient) coefficient) 2
kde d kde di2 = rozdíl pořadí mezi = rozdíl pořadí mezi xxi a a yyi
n −n
‐pracujeme s pořadím ‐ nevyžaduje dvourozměrné normální rozdělení ‐interpretace jako u parametrického interpretace jako u parametrického rr ‐ testování se provádí porovnáním s kritickými hodnotami na zvolené hladině významnosti při příslušné velikosti souboru (v tabulkách)
Parciální korelace (Parcial correlation)
‐vyjadřuje těsnost závislosti dvou proměnných za vyjadřuje těsnost závislosti dvou proměnných za předpokladu, že další proměnná (proměnné) se nemění ‐ umožňuje odfiltrovat interakce ‐mají úzkou souvislost s parciálními regresními koeficienty