16.11.2011
LINEÁRNÍ REGRESE
Chemometrie I, © David MILDE
Lineární regresní model
ACH/CHEX1, 2011
1
16.11.2011
Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé) proměnné: síla vzájemného vztahu, popisovaná korelačním koeficientem R. REGRESE: vztah náhodné (nezávislé) proměnné x a závisle proměnné y, které má určité rozdělení pravděpodobnosti. ACH/CHEX1, 2011
Metoda nejmenších čtverců (MNČ) MNČ je v regresní analýze nejpoužívanější pro výpočet odhadů parametrů bi do regresního modelu. Např. pro přímku: y = b0 + b1x RSC – reziduální součet čtverců y
RSC: Σ
y3,reg y2
y2,reg
y1,reg
y3
y1
x
= min.
Tento součet čtverců je: ∑ = min. ∑ , = min. reziduum: ei = , ACH/CHEX1, 2011
2
16.11.2011
Metoda nejmenších čtverců (MNČ) Legendre a Gauss navrhli, aby se od každého bodu vedla ve svislém směru úsečka až k uvažované přímce. Tato úsečka se bere jako strana čtverce. Řekne se, že přímka je tím lepší, čím menší součet čtverců vytváří. Máme-li proložit přímku více než 2 body, řešíme tzv. přeurčený systém – více rovnic než neznámých. To lze pro určitou podmínku a tou je právě požadavek na nejmenší čtverce. Pro obrázek na předchozím slidu: y1,reg = b0 + b1x1 y2,reg = b0 + b1x2 y3,reg = b0 + b1x3 ACH/CHEX1, 2011
Výpočet regresních koeficientů bi
∑
∑ ∑
∑
∑
ACH/CHEX1, 2011
3
16.11.2011
Výpočet regresních koeficientů bi Regresní koeficienty:
b0 – úsek (absolutní člen) b1 – směrnice přímky ACH/CHEX1, 2011
Směrodatné odchylky Intervaly spolehlivosti bi
2
ACH/CHEX1, 2011
4
16.11.2011
Pás spolehlivosti regresního modelu
ACH/CHEX1, 2011
Testování hypotéz v lineární regresi
5
16.11.2011
Testování významnosti parametrů (bi) Je-li parametr nevýznamný, znamená to, že je = 0! H0: bi = 0; H1: bi 0 ti
bi sbi
ti v absolutní hodnotě porovnáváme s tkrit(1-/2) Studentova rozdělení pro (n-m) stupňů volnosti, kde n je počet hodnot a m je počet parametrů bi. Pokud b0 = 0, říkáme, že přímka prochází počátkem a regresní závislost se zjednoduší na y = b1x. ACH/CHEX1, 2011
F test významnosti regrese Test významnosti všech regresních koeficientů bi kromě absolutního členu (b0). Také označován jako test významnosti R2 H0: R2 = 0; H1: R2 0 FR
R 2 ( n m) (1 R 2 ) (m 1)
FR porovnáváme s kritickou hodnotou F-rozdělení s (m-1) a (n-m) stupni volnosti. ACH/CHEX1, 2011
6
16.11.2011
F test významnosti regrese Standardním výstupem programů regresní analýzy je závěr FR testu o významnosti koeficientu determinace a Studentova testu o významnosti jednotlivých parametrů bi. Mohou nastat tyto případy: FR i všechny ti nevýznamné regresní model nevýhodný, nevystihuje variabilitu proměnné y. FR i všechny ti významné vhodný regresní model k vystižení variability proměnné y. FR významný, ale ti nevýznamný pro některé parametry vhodný model a provádí se vypouštění vysvětlujících proměnných xi, pro které jsou parametry bi nevýznamné. FR významný a všechny ti nevýznamné. Model formálně vyhovuje jako celek, ale žádná vysvětlující proměnná xi není významná. Je to důsledek multikolinearity a porušení předpokladu MNČ. ACH/CHEX1, 2011
F test linearity Jeden z testů linearity (tj. vhodnosti přímkového regresního modelu), který je založený na volbě mezi přímkou (y = b0 + b1x) a parabolou (y = b0 + b1x + b2x2). H0: b2 = 0, pokud přijmeme H0, je závislost lineární H1: b2 0, pokud přijmeme H1, je závislost kvadratická
FL porovnáváme s Fkrit(1, n-3) stupni volnosti. FL
( RSC L RSC K ) (n 3) RSC K
,
kde RSCL a RSCK je reziduální součet čtverců pro lineární a kvadratickou závislost. ACH/CHEX1, 2011
7
16.11.2011
Chowův test shody 2 lineárních modelů Testuje shodu parametrů b pro regresní model A a model B: yA = b0A + b1Ax + A, který má RSCA yB = b0B + b1Bx + A, který má RSCB H0: bA = bB; H1: bA bB
FC
( RSC RSC A RSC B ) (n 2m) ( RSC A RSC B ) m
,
yA X A A y X b . B B B
Za předpokladu homoskedasticity obou výběrů se statistika FC porovnává s Fkrit pro m a (n-2m) stupňů volnosti. V případě heteroskedasticity je nutné použit aproximativní vzorec pro určení stupňů volnosti, který zde není uveden. ACH/CHEX1, 2011
Lineární vs. nelineární regrese Pro lineární regresi platí následující podmínka: gj
f (x, b) konst. bi
Pokud alespoň pro jeden bi je parciální derivace gj funkcí, tak jde o nelineární regresi! Př. lineárních regresních modelů: y = b0 + b1x – b2x2 – polynom; y = b0 + (b1/x) – hyperbola
Př. nelineárních regresních modelů: y = b0.xb1; y = b0 + b1exp(b2x) ACH/CHEX1, 2011
8