LINEÁRNÍ REGRESE. Lineární regresní model

16.11.2011

LINEÁRNÍ REGRESE

Chemometrie I, © David MILDE

Lineární regresní model

ACH/CHEX1, 2011

1

16.11.2011

Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé) proměnné: síla vzájemného vztahu, popisovaná korelačním koeficientem R. REGRESE: vztah náhodné (nezávislé) proměnné x a závisle proměnné y, které má určité rozdělení pravděpodobnosti. ACH/CHEX1, 2011

Metoda nejmenších čtverců (MNČ) MNČ je v regresní analýze nejpoužívanější pro výpočet odhadů parametrů bi do regresního modelu. Např. pro přímku: y = b0 + b1x RSC – reziduální součet čtverců y

RSC: Σ

y3,reg y2

y2,reg

y1,reg

y3

y1

x

= min.

Tento součet čtverců je: ∑ = min. ∑ , = min. reziduum: ei = , ACH/CHEX1, 2011

2

16.11.2011

Metoda nejmenších čtverců (MNČ) Legendre a Gauss navrhli, aby se od každého bodu vedla ve svislém směru úsečka až k uvažované přímce. Tato úsečka se bere jako strana čtverce. Řekne se, že přímka je tím lepší, čím menší součet čtverců vytváří. Máme-li proložit přímku více než 2 body, řešíme tzv. přeurčený systém – více rovnic než neznámých. To lze pro určitou podmínku a tou je právě požadavek na nejmenší čtverce. Pro obrázek na předchozím slidu: y1,reg = b0 + b1x1 y2,reg = b0 + b1x2 y3,reg = b0 + b1x3 ACH/CHEX1, 2011

Výpočet regresních koeficientů bi

∑

∑ ∑

∑

∑

ACH/CHEX1, 2011

3

16.11.2011

Výpočet regresních koeficientů bi Regresní koeficienty:

b0 – úsek (absolutní člen) b1 – směrnice přímky ACH/CHEX1, 2011

Směrodatné odchylky Intervaly spolehlivosti bi

2

ACH/CHEX1, 2011

4

16.11.2011

Pás spolehlivosti regresního modelu

ACH/CHEX1, 2011

Testování hypotéz v lineární regresi

5

16.11.2011

Testování významnosti parametrů (bi) Je-li parametr nevýznamný, znamená to, že je = 0! H0: bi = 0; H1: bi  0 ti 

bi sbi

ti v absolutní hodnotě porovnáváme s tkrit(1-/2) Studentova rozdělení pro (n-m) stupňů volnosti, kde n je počet hodnot a m je počet parametrů bi. Pokud b0 = 0, říkáme, že přímka prochází počátkem a regresní závislost se zjednoduší na y = b1x. ACH/CHEX1, 2011

F test významnosti regrese Test významnosti všech regresních koeficientů bi kromě absolutního členu (b0). Také označován jako test významnosti R2 H0: R2 = 0; H1: R2  0 FR 

R 2 ( n  m) (1  R 2 ) (m  1)

FR porovnáváme s kritickou hodnotou F-rozdělení s (m-1) a (n-m) stupni volnosti. ACH/CHEX1, 2011

6

16.11.2011

F test významnosti regrese Standardním výstupem programů regresní analýzy je závěr FR testu o významnosti koeficientu determinace a Studentova testu o významnosti jednotlivých parametrů bi. Mohou nastat tyto případy: FR i všechny ti nevýznamné regresní model nevýhodný, nevystihuje variabilitu proměnné y. FR i všechny ti významné vhodný regresní model k vystižení variability proměnné y. FR významný, ale ti nevýznamný pro některé parametry vhodný model a provádí se vypouštění vysvětlujících proměnných xi, pro které jsou parametry bi nevýznamné. FR významný a všechny ti nevýznamné. Model formálně vyhovuje jako celek, ale žádná vysvětlující proměnná xi není významná. Je to důsledek multikolinearity a porušení předpokladu MNČ. ACH/CHEX1, 2011

F test linearity Jeden z testů linearity (tj. vhodnosti přímkového regresního modelu), který je založený na volbě mezi přímkou (y = b0 + b1x) a parabolou (y = b0 + b1x + b2x2). H0: b2 = 0, pokud přijmeme H0, je závislost lineární H1: b2  0, pokud přijmeme H1, je závislost kvadratická

FL porovnáváme s Fkrit(1, n-3) stupni volnosti. FL 

( RSC L  RSC K ) (n  3) RSC K

,

kde RSCL a RSCK je reziduální součet čtverců pro lineární a kvadratickou závislost. ACH/CHEX1, 2011

7

16.11.2011

Chowův test shody 2 lineárních modelů Testuje shodu parametrů b pro regresní model A a model B: yA = b0A + b1Ax + A, který má RSCA yB = b0B + b1Bx + A, který má RSCB H0: bA = bB; H1: bA  bB

FC 

( RSC  RSC A  RSC B ) (n  2m) ( RSC A  RSC B ) m

,

 yA   X A   A   y    X  b    .  B  B  B

Za předpokladu homoskedasticity obou výběrů se statistika FC porovnává s Fkrit pro m a (n-2m) stupňů volnosti. V případě heteroskedasticity je nutné použit aproximativní vzorec pro určení stupňů volnosti, který zde není uveden. ACH/CHEX1, 2011

Lineární vs. nelineární regrese Pro lineární regresi platí následující podmínka: gj 

 f (x, b)  konst.  bi

Pokud alespoň pro jeden bi je parciální derivace gj funkcí, tak jde o nelineární regresi! Př. lineárních regresních modelů: y = b0 + b1x – b2x2 – polynom; y = b0 + (b1/x) – hyperbola

Př. nelineárních regresních modelů: y = b0.xb1; y = b0 + b1exp(b2x) ACH/CHEX1, 2011

8

LINEÁRNÍ REGRESE. Lineární regresní model

Recommend Documents