EKONOMETRIE – 8. přednáška Klasický lineární regresní model Formulace a podmínky (pozor na označení parametrů) • Základní jednorovnicový model: • zobrazuje ekonomickou hypotézu o vztahu mezi jednou vysvětlovanou ekonomickou veličinou a jednou nebo několika vysvětlujícími veličinami. • Jedná se o klasický lineární regresní model, který budeme psát ve tvaru Y = β0 + β1 x1 + β2 x2 + ... + βk xk + u , •
Pro n pozorování musí platit Y1 = β0 1 + β 1 x11 + β2 x21 + ... + βk xk1 + u1 Y2 = β0 1 + β1 x12 + β2 x22 + ... + βk xk2 + u2 ......................................... Yn = β0 1 + β1 x1n + β2 x2n + ... + βk xk n + un
•
Soustavu můžeme přepsat v maticovém vyjádření y = Xβ + u , Y 1 Y 2 . . = . Y n
1 1 . . . 1
x 11 x 12 . . . x 1n
x 21 x 22 . . . x 2n
. . . . . .
. . . . . .
. x β u k1 0 1 . x k 2 β1 u 2 . . . . • + . . . . . . . . β u . x n kn k
• Z n pozorování odhadneme výběrovou regresní funkci: $ = b0 + b1 x1 + b2 x2 + ... + bk xk , Y • Pro i-té pozorování (i = 1,2,...,n) dostáváme Yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui , $ i = b0 + b1 x1i + b2 x2i + ... + bk xki Y $ i jsou • Rozdíly mezi skutečnými hodnotami Yi a vyrovnanými hodnotami Y tzv. rezidua, což jsou odhady neznámých náhodných složek ui $ i, i = 1,2,...,n . ei = Yi - Y
• Model je potom možno napsat v maticovém vyjádření.
• Pro vyrovnané hodnoty: y$ = Xb • pro skutečné hodnoty: y = Xb + e • Aby bylo možné statisticky odhadnout vektor odhadů parametrů b, je třeba zavést zásadní předpoklady. • Tyto podmínky jsou pro kvantifikaci modelu zásadní, aby bylo možno použít pro odhad parametrů metodu nejmenších čtverců. • Nejdříve podmínky vyjádříme formálně a potom je budeme dále analyzovat. Symbolem u` vyjadřujeme transpozici vektoru u. • Podmínky 1. E(u) = 0 2. E (uu`) = σ2In , 3. E(X`u) = 0 , 4. h(X ) = k+1 ≤ n .
Metoda nejmenších čtverců • Při splnění podmínek základního modelu lze použít pro odhad parametrů metodu nejmenších čtverců. • Pro obecné odvození vzorců použijeme maticového vyjádření. • Model v maticovém vyjádření: y = Xb + e • Kritérium pro odvození odhadové funkce je minimum součtu čtverců reziduí: e`e = (y-Xb)` (y-Xb) = y`y - 2b`X`y + b`X`Xb.
• Hledáme minimum této kvadratické formy, proto položíme parciální derivace podle parametrů rovny nule. • Což maticově vyjádřeno zapíšeme následovně:
∂ ( e `e ) = − 2 X `y + 2 X `X b = 0 . ∂b ` • Řešením této soustavy dostáváme normální rovnice: X`Xb = X`y • Při existenci inverzní matice (X`X)-1 dostáváme bodovou odhadovou funkci: b = (X`X)-1X`y
• Metoda nejmenších čtverců poskytuje odhady s dobrými vlastnostmi i pro malé výběry pozorování. • Vlastnosti odhadové funkce:
1. nestrannost 2. vydatnost
• Nestrannost znamená, že střední hodnota odhadu parametrů se rovná parametrům teoretické regresní funkce: E(b) = β . • To znamená, že odhadová funkce b je při opakovaných výběrech v průměru přesná. • Vyjdeme z odhadové funkce: b = (X`X)-1X`y • dosadíme y = Xβ + u a dostáváme: b = (X`X)-1X`(Xβ + u) = β + (X`X)-1X`u
• Spočteme střední hodnotu b a vzhledem k podmínce E(u) = 0, dostáváme E(b) = E(β) + (X`X)-1X`E(u) = β
• Jestliže neplatí: E(b) = β, odhadová funkce je vychýlená, kde vychýlení je rovno E(b) – β • Vydatnost znamená, že odhadová funkce má nejmenší rozptyl mezi všemi nestrannými odhadovými funkcemi. • Kovarianční matice pro b je definována následovně a vzhledem k podmínce E (uu`) = σ2In , dostáváme V(b) = E[ (b-β)`(b-β)] = E[ (X`X)-1X`uu`X(X`X)-1] = (X`X)-1X` E( uu`)X(X`X)-1= σ2(X`X)-1 .
• Rozptyly odhadnutých parametrů jsou rovny součinu rozptylu náhodné složky σ2 a odpovídajících diagonálních prvků matice (X`X)-1. • Dá se ukázat, že tyto rozptyly jsou nejmenší. • Odhad kovarianční matice V(b) označíme S(b) a neznámý rozptyl náhodné složky σ2 nahradíme jeho odhadem s2: S(b) = s2(X`X)-1, • kde
s2 =
e `e n − ( k + 1)
• Hodnota n – (k+1) je počet stupňů volnosti. • Čím je větší počet pozorování oproti počtu odhadovaných parametrů modelu, tím je menší rozptyl s2 a i rozptyly odhadu parametrů.
Testy • Statistická verifikace modelu spočívá v provedení řady statistických testů.
• Testy významnosti parametrů • Při stanovení bodového odhadu parametrů modelu pomocí metody čtverců nebylo nutné mít žádný předpoklad nejmenších o pravděpodobnostním rozdělení náhodných složek. • Při testování významnosti parametrů a při intervalových odhadech parametrů musíme připojit předpoklad normálního rozdělení náhodných složek s nulovými středními hodnotami a kovarianční maticí: u ~ N( 0 , σ2In ). • Odhady rozptylů odhadnutých parametrů bj jsou na diagonále kovarianční matice: S(b) = (X`X)-1 : = s2xjj • Odmocniny těchto hodnot jsou odhady standardních chyb sbj odhadů bj. • Kovariance dvojic představují nediagonální prvky : cov(bi,bj) = s2xij ,i ≠j. • Testové kritérium je statistika:
t
j
=
b
j
−
sb
β
j
j
• která má pro n < 30 Studentovo t rozdělení s n – (k+1) stupňů volnosti. • V ekonometrické analýze velice často testujeme nulovou hypotézu, že regresní parametr βj = 0, což znamená, že vysvětlující proměnná xj nemá vliv na vysvětlovanou proměnnou. • Stanovíme nulovou a alternativní hypotézu: H0 : βj = 0 H1 : βj ≠ 0
• Jestliže platí |tj| ≤ t*α/2 akceptujeme hypotézu H0 . • Jestliže platí |tj| > t*α/2 odmítneme hypotézu H0 ve prospěch hypotézy H1. • Hladina významnosti α se většinou bere 0,05. • To znamená, prohlásíme-li, že platí hypotéza H1, neseme 5% riziko nesprávnosti tohoto výroku a 95% spolehlivosti výroku. • Hodnoty t*α/2 najdeme v tabulkách studentova rozdělení s n – (k+1) stupni volnosti. • Intervaly spolehlivosti parametrů • Určení intervalů spolehlivosti znamená najít meze, mezi kterými leží skutečné hodnoty parametrů se zadaným stupněm spolehlivosti 1 – α . • Z testování hypotéz víme, že: P(– t*α/2 < tj < t*α/2 ) = 1 – α.
• Po dosazení statistiky:
t
j
=
b
j
−
sb
β dostáváme: j
j
P( bj – t*α/2sbj < βj < bj + t*α/2sbj ) = 1 – α .
• To znamená, že s pravděpodobností 1 – α, leží skutečná hodnota parametru βj v mezích: bj – t*α/2sbj < βj < bj + t*α/2sbj . • Test shody odhadnutého modelu s daty • Nejčastěji se pro testování shody modelu s daty používá jako míra koeficient determinace. • Víme, že z napozorovaných empirických hodnot a vyrovnaných hodnot vypočtených z regresní funkce můžeme určit 3 rozptyly s různou vypovídací schopností: a) rozptyl empirických hodnot y 1 2 s2y = ∑ ( yi − y) , tj. celkový součet čtverců (CSČ), n b) rozptyl vyrovnaných hodnot 2 1 s2y$ = ∑ ( y$ i − y) , tj. vysvětlený součet čtverců (VSČ), n c) reziduální rozptyl 2 1 s2( y− y$ ) = ∑( y i − y$ ) tj. nevysvětlený součet čtverců (NSČ). n • Koeficient determinace určíme jako podíl vysvětleného součtu čtverců na celkovém součtu čtverců.
R2 =
V SČ N SČ e`e = 1− = 1− , R2 ∈< 0 , 1> 2 C SČ C SČ y`y − ny
• Korigovaný koeficient determinace: R 2 = R 2 −
k (1 − R 2 ) n − ( k + 1)
• Statistickou významnost modelu jako celku podle koeficientu determinace, lze testovat podle testovacího kritéria F=
R 2 n − ( k + 1) k 1− R2
• Stanovíme nulovou a alternativní hypotézu:
H0 : statistická nevýznamnost R2 H1 : statistická významnost R2
• Jestliže platí F > F*, odmítneme hypotézu H0 ve prospěch hypotézy H1, že hodnota R2 je statisticky významná a rovněž shoda modelu s daty je významná.