12. Regrese Teoretické základy

12. Regrese Jedním z hlavních úkolů matematické statistiky je hledání a studium závislostí mezi dvěma či více proměnnými. Závisle proměnná se zpravidla označuje Y a nezávisle proměnné X1 , … , Xi ,i ¥ 1. Závislosti mezi Y a skupinou proměnných X mohou být funkční nebo statistické. V případě přímé funkční závislosti je náhodná část ve vyjádření této závislosti nulová, proto se jí nebudeme samozřejmě zabývat. V běžných situacích však nastává situace , kdy Y má povahu náhodné veličiny . Nezávisle proměnné X1 , … , Xi mohou být nenáhodnými ( pevnými ) veličinami nebo náhodnými veličinami. Statistickou závislostí mezi náhodnou veličinou Y a veličinami X1 , … , Xi rozumíme předpis, který každé uspořádané i – tici x1 , … , xi přiřazuje právě jedno podmíněné rozdělení náhodné veličiny Y . Náhodná veličina Y je tedy statisticky závislá na veličinách X1 , … , Xi , jestliže změny v hodnotách x1 , … , xi mají za následek změnu podmíněného rozdělení náhodné veličiny Y.

12.1 Teoretické základy V praxi není většinou zákon rozdělení ( typ náhodné veličiny Y ) znám. Máme většinou k dispozici pouze data ve formě uspořádaných i+1 – tic , kde prvních i složek odpovídá hodnotám x a poslední složka odpovídá hodnotě y. Na základě experimentálních údajů se provede výběr funkce , která má co nejlépe vystihovat rozložení skutečných údajů , tuto funkci nazýváme teoretickou regresní funkcí a je uváděna ve tvaru y = f ( x1 ,… , xi ; γ 0 ,… , γ p ) (12.1),

kde hodnoty γ 0 ,… , γ p jsou nazývány teoretickými regresními parametry ( koeficienty ) . Tyto parametry mají povahu konstant, které nejsou známy . V modelovaných vztazích je budeme nahrazovat jejich bodovými odhady a0 , … , ap tak , aby funkce Y = f ( x1 ,… , xi ; a0 ,… , a p ) (12.2) co nejlépe aproximovala naměřené hodnoty Y .Funkce (12.2) se nazývá empirickou regresní funkcí a veličiny a0 , … , ap empirickými regresními parametry. Empirické regresní parametry jsou náhodné veličiny. Jednou z metod jak je určit je použít metodu nejmenších čtverců. V dalším textu bude dále závisle proměnná Y ( vysvětlovaná proměnná ) náhodnou veličinou , naopak nezávisle proměnné ( vysvětlující proměnné ) X1 , … , Xi jsou nenáhodnými veličinami. Regresní závislostí bude pro naše potřeby jednostranná závislost dané náhodné veličiny ( např. Y ) na jiné veličině – ne nutně náhodné veličině ( např. X1 , … , Xi ). Pro další účely třídění a studování regresních závislostí se rozlišují následující situace: a. Náhodná veličina závisí na jedné další veličině – párová regrese. Například : y = γ 0 .x +

γ1 x +γ3

b. Náhodná veličina –závisí na dvou a více veličinách – mnohonásobná regrese γ .x .Například : y = γ 1.x1 + 2 2 + γ 0 γ 3 + x3 Z pohledu tvaru funkce (12.1) můžeme dále dělit jednotlivé případy regresních závislostí na: 1. Lineární regresi – uvažovaná funkce f je lineární vzhledem k parametrům γ 0 ,… , γ p . Například : y = γ 1.x1 + γ 2 .x2 + γ 0

2. Nelineární regresi – uvažovaná funkce f je nelineární funkcí vzhledem γ .x + γ .x k parametrům γ 0 ,… , γ p . Například : y = 1 1 2 2 . γ 3 .x3 + γ 4 .x4 Regresní analýzou nazveme tedy tu část matematické statistiky , která se zabývá studiem a konstrukcí regrese. Nejdříve určíme podmínky regresního modelu. Definice 12.1 Určujeme regresi Y na i nenáhodných veličinách x1 , … , xi . Nechť je dále dáno n ( n > p+1 ) uspořádaných i+1 – tic ( x1k ,… xik , yk ) , kde k = 1 , … , n . Tyto údaje byly

postupně získány empiricky. Na základě těchto údajů byla zvolena teoretická regresní funkce s neznámými parametry γ 0 ,… , γ p . Dále předpokládejme , že pro náhodné veličiny Yk , k=1,…,n platí:

1. Yk = f ( x1 ,… , xi ; γ 0 ,… , γ p ) + ek

(12.2)

Veličiny ek představují náhodné chyby měření a jsou zřejmě také náhodnými veličinami. Tyto náhodné veličiny musí splňovat následující podmínky: 2. E( ek ) = 0 (12.3) 2 3. Var( ek ) = s (12.4) 4. cov( ek , el ) = 0 (12.5) Dále platí 5. E(Yk) = f ( x1k ,… , xik ; γ 0 ,… , γ p ) 6. VAR(Yk) = s2 . K řešení výše popsaného modelu používáme nejčastěji metodu nejmenších čtverců. Součástí řešení je nalezení odhadů parametrů γ 0 ,… , γ p . Tyto odhady budeme dále označovat symboly c1 , … , cp . Metoda spočívá v nalezení minima čtverců hodnot ek Obecněji budeme studovat tuto metodu aplikovanou na případ lineární regrese. Hledáme tedy minimum funkce n

n

k =1

k =1

(

)

S r (γ 0 ,… , γ p ) = ∑ ek2 = ∑ Yk − f ( x1 ,… , xi ; γ 0 ,… , γ p ) , 2

(12.6)

požadujeme tedy , aby součet čtverců odchylek naměřených hodnot Yk od teoretických hodnot f ( x1 ,… , xi ; γ 0 ,… , γ p ) byl minimální. Najdeme tedy nejdříve podezřelé body ( stacionární body S ) : ∂S (γ 0 ,… , γ p ) = 0, k = 0,… , p (12.7) ∂γ k Poté ověříme pomocí klasických metod, zda v nalezených bodech se nachází minimum. Soustava rovnic (12.6) se nazývá soustavou normálních rovnic . Řešení této soustavy je jednoznačné , jestliže alespoň p + 1 z uspořádaných k – tic [ x1k ,..., xik ] , k=1,…,n je navzájem různých. Řešením soustavy (12.6) budou potom hodnoty a1 , … , ap , které budou bodovým odhadem parametrů γ 0 ,… , γ p . Odtud tedy získáme bodové odhady teoretické regresní funkce (12.1) ve tvaru Yˆk = f ( x1k ,...xik ; a0 ,...a p ) , Rozdíly eˆk = Yk − Yˆk se nazývají rezidui a veličina

k = 1,..., n (12.8)

n

n

k =1

k =1

S r = ∑ eˆk2 = ∑ (Yk − Yˆk ) 2

(12.9)

se nazývá reziduálním součtem čtverců. Studiem řešení soustavy normálních rovnic a reziduálního součtu čtverců se budeme zabývat dále v následujících částech této kapitoly a v kapitole následující.

12.2 Model lineární regrese V této části se budeme zabývat nejjednodušším případem lineární regrese – případem , kdy odhadujeme jen dva parametry a a b. Takovýto speciální vztah označujeme jako regresní přímku a je vyjádřen Y = a + b.x +e (12.10) K odvození bodových odhadů skutečných parametrů a a b použijeme klasickou metodu nejmenších čtverců. Bodové odhady označíme pro naše potřeby a a b .Tedy podle (12.6) je n

n

k =1

k =1

S ( a, b ) = ∑ ek2 = ∑ (Yk − a − b.xk )

2

(12.11)

Tento výraz budeme derivovat podle proměnných a , b . Výsledná soustava normálních rovnic je potom následující n ∂S ( a, b ) = −2.∑ (Yk − a − b.xk ) = 0 (12.12) ∂a k =1 n ∂S ( a, b ) (12.13) = −2.∑ xk . (Yk − a − b.xk ) = 0 ∂b k =1 Přepíšeme – li tuto soustavu klasickým způsobem máme: n

n

n.a + b.∑ xk = ∑ Yk , k =1

k =1

n

n

k =1

k =1

n

a.∑ xk + b.∑ x = ∑ xk Yk 2 k

,

(12.14)

k =1

Z této soustavy vyplývá , že řešení existuje , je – li determinant soustavy různý od 2

 n  nuly. Tedy n.∑ x −  ∑ xk  ≠ 0 , ale tento vztah nastane, jestliže hodnoty xk budou k =1  k =1  navzájem různé ( stačí dokonce , aby aspoň dva byly navzájem různé ). Soustava tedy bude mít právě jedno řešení. Nejprve upravíme první rovnici v (12.14) tím , že ji vydělíme hodnotou n , získáme tak a + b.x = Y (12.15) Budeme – li znát jednu z hodnot a , b pomocí tohoto vztahu dopočteme druhou . Určíme hodnotu b , dosazením (12.15) do druhého vztahu v (12.14). n

2 k

n

n

(Y − b.x ) .n.x + b.∑ x = ∑ x Y k =1

2 k

k =1

k k

⇒

 n  n b.  ∑ xk2 − n.x 2  = ∑ xk Yk − n.x .Y ⇒  k =1  k =1 n

b=

∑x Y k =1 n

k k

− n.x .Y

 2 2  ∑ xk − n.x   k =1 

(12.16)

Ze vztahů (12.15) a (12.16) určíme samozřejmě hodnoty a , b. Příklad 12.2 V 15 za sebou následujících dnech byla zaznamenána hodnota relativní vlhkosti v % a hodnota orosení v mm3. Naměřené údaje jsou uvedeny v tabulce dále Relativní vlhkost Hodnota orosení

46 53 29 61 36 39 47 49 52 38 55 32 57 54 44 12 15

7 17 10 11 11 12 14

9 16

8 18 14 12

Provedeme – li výpočet získáme následující hodnoty a = -2,51 a hodnota b = 0,32. Výsledek můžeme také zobrazit graficky 18

16

14

Hodnota orosení

12

teoretická hodnota

10

8

6 25

30

35

40

45

50

55

60

65

Z výše uvedeného grafu je patrno , že žádná ze skutečných naměřených hodnot Y na přímce neleží , přesto však je vyjádření vztahu mezi x a Y pomocí lineárního vztahu dobré. Podle předpokladů lineárního modelu předpokládáme , že střední hodnota chyb ek je rovna nule, jejich rozptyl je konstantní a roven s2 . Dále předpokládáme, že hodnoty Yk ( tzv. vysvětlované proměnné ) jsou typu normální rozdělení. Odtud tedy vyplývá , že E (Yk ) = α + β .xk a dále VAR (Yk ) = σ 2 . Celkově tedy Yk ∼ N (α + β .xk , σ 2 ) . Budeme dále vyšetřovat vlastnosti bodových odhadů parametrů a a b. Tedy n  n  n  ∑ xk Yk − n.x .Y  ∑ ( xk − x ) E (Yk ) ∑ ( xk − x ) . (α + β .xk )  = k =1 E (b) = E  k =1n = k =1 n = n    2 2  2 2 2 2   ∑ xk − n.x    ∑ xk − n.x   ∑ xk − n.x    k =1   k =1    k =1



 n 2 2  ∑ xk − n.x   k =1  = β .  k =1 =β. = k =1 n n   2 2 2 2  ∑ xk − n.x   ∑ xk − n.x   k =1   k =1  Protože je E(b) = b , je podle definice 11.12 z kapitoly 11. tento odhad nevychýlený. Zjistíme dále hodnotu rozptylu tohoto odhadu n  n  n 2 2 x Y n . x . Y ( x x ) . VAR Y σ . ( xk − x ) 2 − − ( k) ∑ k k  ∑ k ∑ k =1  = k =1 VAR(b) = VAR  k =1n = = 2 2 n n  2 2      2 2 2 2   ∑ xk − n.x    ∑ xk − n.x   ∑ xk − n.x  1 = k      k =1   k =1  n



n

α .∑ ( xk − x ) + β .  ∑ xk . ( xk − x ) 

σ2

=

(12.17)

 n 2 2  ∑ xk − n.x   k =1  Při výpočtu jsme využili následující rovnost n

∑ (x k =1

k

n

− x ) 2 = ∑ xk2 − n.x 2

(12.18)

k =1

Podobně nyní zjistíme střední hodnotu a rozptyl pro odhad a.  n   ∑ Yk  n α + β .x k E (a ) = E  k =1 − b.x  = ∑ − x .E (b) = α + β .x − x .β = α , n  n  k =1     tedy i bodový odhad parametru a je nevychýlený. Rozptyl hodnoty a je roven n

∑VAR(Yk )

n

+ ( x 2 ) .VAR ( b ) =

σ2

σ 2 .x 2

∑x

2 k

k =1 = σ 2. n  n 2    2 n.  ∑ xk2 − n.x 2   ∑ xk − n.x   k =1   k =1  Závěrem můžeme tedy konstatovat , že náhodné veličiny a a b jsou typu normální rozdělení ( jsou lineární kombinací nezávislých náhodných veličin typu normálního rozdělení ) a můžeme navíc určit jejich parametry tedy n     2 σ . xk2     ∑ 2 σ k =1  a dále b ∼ N  β , . a ∼ N α , n     n 2    2 2  2  n.  ∑ xk − n.x     ∑ xk − n.x    k =1      k =1 Tyto dva vztahy budou klíčové pro další určení intervalových odhadů skutečných parametrů a a b.

VAR (a ) =

k =1

n2

n

+

Věta 12.3

Nechť Sr je reziduální součet čtverců definovaný vztahem (12.6) . Potom Důkaz: Proveden například v [1] .

Sr

σ

2

∼ χ n2−2 .

Poznámka 12.4 Výše uvedený důkaz budeme motivovat následující úvahou: Náhodné veličiny Yk nezávislé , jsou dále normálního typu. Pokud je znormujeme máme Yk − E (Yk ) Yk − α − β .xk = (12.19) σ VAR (Yk )

jsou

Proto tedy 2

 Yk − α − β .xk  2   ∼ χn ∑ σ k =1   Protože ale nahradíme skutečné hodnoty a a b jejich nevychýlenými odhady a a b , sníží se počet stupňů volnosti o 2 – tedy o počet parametrů, které jsme odhadovali. n

Pro další práci označme n

n

k =1

k =1

S xY = ∑ ( xk − x ) . (Yk − Y ) = ∑ xk Yk − n.x .Y n

(12.20)

n

S xx = ∑ ( xk − x ) = ∑ xk2 − n.x 2

(12.21)

SYY = ∑ (Yk − Y ) = ∑ Yk2 − n.Y 2

(12.22)

2

k =1 n

2

k =1

k =1 n

k =1

Jestliže použijeme tuto notaci můžeme koeficienty a a b zapsat také takto S b = xY ; a = Y − b.x . S xx Dále odvodíme následující výpočetní identitu :

S xx .SYY − S xY 2 Sr = S xx

(12.23)

n

S r = ∑ (Yk − a − b.xk ) k =1

2

2

  S S =∑  Yk − Y + xY .x − xY .xk  = S xx S xx  k =1  n

 S xx .(Yk − Y ) − S xY .( xk − x )  S xx 2 .SYY − 2.S xx .S xY .S xY + S xY 2 .S xx = ∑ =  = 2   S xx S k =1  xx  S .S − S xY 2 = xx YY S xx 2

n

Ze všech výše uvedených rovností vyplývají následující tvrzení:

1.

Sr

σ

2

∼ χ n2−2

(12.24)

(b − β ) σ

2.

S xx Sr 2 σ .( n − 2 )

=

( n − 2 ).S xx . Sr

( b − β ) ∼ tn − 2

(12.25)

3.

n.( n − 2 ) .S xx n

∑ x .S k =1

2 k

.( a − α ) ∼ tn − 2

(12.26)

r

Toto jsou základní vztahy , pomocí nichž je možno konstruovat jak intervalové odhady neznámých parametrů a a b , ale i neznámé hodnoty s. Dále jsou na nich založeny klasické statistické hypotézy o těchto parametrech. Často jsme postaveni před otázku nalezení odhadu ( prognózy ) hodnot v nějakém bodě x0 , na základě znalosti vstupních dat {xk , Yk }. Podle způsobu naší konstrukce je zřejmé, že přirozeným bodovým odhadem je v tomto případě hodnota a + b.x0 ( je opět nevychýleným odhadem skutečné neznámé hodnoty – dokažte! ) . Podobně jako v předchozích krocích nás bude především zajímat typ náhodné veličiny . n

a + b.x0 =

∑ Yk k =1

n

n

−

∑ Y .( x k =1

k

k

− x ) . ( x − x0 ) S xx

n  1 ( x − x ) . ( x − x0 )  = ∑ Yk .  − k  (12.27) S xx k =1 n 

Z předchozího vztahu (12.25) vyplývá ( proč ? ), že náhodná veličina a + b.x0 je typu normální rozdělení . Je tedy nutno zjisti jeho střední hodnotu a rozptyl. A. E ( a + b.x0 ) = E (a ) + x0 .E (b) = α + β .x0 B. n

VAR(a + b.x0 ) = ∑ k =1

2 2 2 n   1 ( xk − x ) . ( x − x0 )  xk − x ) . ( x − x0 ) ( xk − x ) . ( x − x0 )  ( 1 2 + =  −  .VAR(Yk ) = σ .∑  2 − 2. 2  S xx n S S . k =1 n xx xx n   

n  2  ( xk − x )  ∑  1 2. ( x − x ) n ( x − x )  1 ( x − x0 )2  2 k =1 k 0 2 2  = σ . + = σ . − + ( x − x0 ) . .∑ . n  S xx n S xx 2 S n  k =1 xx       Z těchto rovností tedy vyplývá , že

  1 ( x0 − x )2   2 a + b.x0 ∼ N  α + β .x0 , σ .  +   n S    xx  

(12.28)

Pro intervalový odhad skutečných hodnot využijeme vztahů (12.24) a (12.28) . Z těchto vztahů vyplývá a + b.x0 − α − β .x0 1 ( x0 − x ) + . n S xx 2

Sr ( n − 2)

∼ tn − 2

(12.29)

Pomocí tohoto vztahu je možno odhadovat chování a + b.x v daném bodě x0 ( odhadujeme chování parametrů !). Na druhou stranu je někdy důležité vyšetřit chování hodnoty Y v konkrétním bodě x0 . V tomto případě stanovujeme budoucí hodnotu náhodné veličiny Y. Opět platí nám známé vztahy v bodě x0 Y ∼ N (α + β .x0 , σ 2 )

(12.30)

a vztah (12.29). Z nich můžeme stanovit rozdělení následujícího rozdílu   1 ( x0 − x )2   2 Y − a − b.x0 ∼ N  0, σ . 1 + +   nebo ekvivalentně  n   S xx   

Y − a − b.x0 n + 1 ( x0 − x ) σ . + n S xx

2

∼ N ( 0,1)

(12.31)

Využijeme – li dále vztahu (12.24) získáváme

Y − a − b.x0 n + 1 ( x0 − x ) + . n S xx 2

Sr ( n − 2)

∼ tn − 2

(12.32)

Tento vztah je rozhodující pro stanovení odhadu budoucí hodnoty Y v bodě x0 .

12. Regrese Teoretické základy

Recommend Documents