Masarykova Univerzita Ekonomicko-správní fakulta
gretl – uživatelská příručka
Kolektiv autorů (Jaroslav Bil, Daniel Němec, Martin Pospiš)
podzim 2009
ii
Obsah Předmluva
ix
1 Úvod 1.1 Co je Gretl? . . . . . . . . . . . 1.1.1 Instalace Gretlu . . . . 1.1.2 Základy práce v Gretlu 1.2 Import dat . . . . . . . . . . . 1.3 Programovaní v Gretlu . . . . . 1.4 Session koncept . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
1 1 1 2 2 5 7
2 Jednoduchá lineární regrese 2.1 Načtení dat . . . . . . . . . 2.2 Sestrojení grafu . . . . . . . 2.3 Odhad parametrů . . . . . . 2.4 Elasticita . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
11 11 11 14 15
3 Model vícenásobné regrese 3.1 Vytvoření modelu . . . . . . . 3.2 Statistiky modelu . . . . . . . 3.3 Testování parametrů modelu 3.3.1 Multikolinearita . . . 3.3.2 T–test . . . . . . . . . 3.3.3 F–test . . . . . . . . . 3.4 Nelineární rozšíření modelu .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
21 21 22 25 25 28 28 34
4 Testování klasických předpokladů 4.1 Normalita reziduí . . . . . . . . . . . . . . . . 4.2 Heteroskedasticita . . . . . . . . . . . . . . . 4.2.1 Testovaní homoskedasticity . . . . . . 4.2.2 Řešení problémů s heteroskedasticitou 4.3 Autokorelace . . . . . . . . . . . . . . . . . . 4.3.1 Testování a řešení . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
39 39 40 40 44 45 47
Literatura
51
iv
OBSAH
Seznam tabulek
vi
SEZNAM TABULEK
Seznam obrázků 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11
Hlavní okno programu Gretl. . . . . . . . Import dat prostřednictvím GUI Gretlu. . Záložky nainstalovaných datových zdrojů. Zobrazení hodnot proměnné y. . . . . . . Seznam dostupných příkazů. . . . . . . . . Seznam výpočetních funkcí. . . . . . . . . Editor skriptů programu Gretl. . . . . . . Nástrojová lišta Gretlu. . . . . . . . . . . Ikonický úložný prostor. . . . . . . . . . . Ukládání obsahu “session” do souboru. . . Modelová tabulka v okně Gretlu. . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
2 3 4 4 5 6 6 7 8 8 9
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11
Otevření datového souboru. . . . . . Úprava atributů proměnných. . . . . Okno k editaci atributů proměnných. Nastavení proměnných k grafu. . . . Výsledný graf. . . . . . . . . . . . . Metoda nejmenších čtverců. . . . . . Nastavení proměnných modelu. . . . Okno s výsledkem regrese. . . . . . . Kovarianční matice regresorů. . . . . Popisná statistika dat. . . . . . . . . Tabulka popisné statistiky dat. . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
12 12 13 13 14 15 16 17 17 18 19
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10
Řešení modelu vícenásobné regrese. . . . . Sestavení modelu. . . . . . . . . . . . . . . Výsledky sestaveného modelu. . . . . . . . Sestavení ANOVA tabulky. . . . . . . . . Analýza rozptylu. . . . . . . . . . . . . . . Zobrazení korelační matice. . . . . . . . . Sestavení korelační matice. . . . . . . . . Korelační matice. . . . . . . . . . . . . . . Sestavení tabulky konfidenčních intervalů. Konfidenční intervaly koeficientů. . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
22 23 24 24 25 26 27 27 29 29
. . . . . . . . . . .
. . . . . . . . . . .
viii
SEZNAM OBRÁZKŮ
3.11 3.12 3.13 3.14 3.15 3.16 3.17
Výsledky F–testu. . . . . . . . . . . . . . . . . . Vynechání proměnné. . . . . . . . . . . . . . . . Výběr proměnné k vynechání. . . . . . . . . . . . Výsledky redukovaného modelu. . . . . . . . . . Lineární omezení modelu. . . . . . . . . . . . . . Výsledky modelu s lineárním omezením. . . . . . Přidání druhých mocnin vybraných proměnných.
4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13
Výsledky testů normality reziduí. . . . . . . . Graf reziduí. . . . . . . . . . . . . . . . . . . Graf reziduí v závislosti na WAGE. . . . . . . Graf reziduí v závislosti na EDUC. . . . . . . Graf reziduí v závislosti na EXPER. . . . . . Výběr příslušného testu heteroskedasticity. . Robustní směrodatné chyby. . . . . . . . . . . Výsledky odhadu metodou WLS s robustními Nastavení časových řad. . . . . . . . . . . . . Výběr korelogramu reziduí. . . . . . . . . . . Nastavení maximálního zpoždění. . . . . . . . Graf ACF a PACF. . . . . . . . . . . . . . . . Tabulka korelogramu. . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
30 31 32 33 34 35 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . sm. chybami. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
40 41 41 42 42 43 44 46 47 48 49 49 50
Předmluva Tento text je založen primárně na anglickém, volně dostupném textu Adkinse [1], který doprovází učebnici základů ekonometrie trojice Hill, Griffiths a Lim [2]. Jedná se sice o velmi zkrácený (postupně doplňovaný) český překlad Adkinsonovy příručky, nicméně pro základní orientaci v práci s gretlem je dostačující.
x
Předmluva
Kapitola 1
Úvod V první kapitole se seznámíme se základy programu Gretl, procesem jeho instalace a s popisem základního uživatelského rozhraní.
1.1
Co je Gretl?
Název programu Gretl je zkratkou vycházející z Gnu Regression, Econometrics and Time-series Library. Jedná sa o softvérový balíček, který obsahuje užitečné a jednoduše aplikovatelné nástroje ekonometrické analýzy. Potěšující vlastností je jeho volná dostupnost, díky které si program můžete stáhnout zdarma z internetové adresy gretl.sourceforge.net. Gretl je možné rozšírit o množství vzorových datových zdrojů a databází makroekonomických časových řad. Program využívá při výpočtech plejádu účelových odhadových techník, s kterými se postupně obeznámíme v následujících kapitolách. Samozřejmostí je schopnost vykreslovat data do přehledných grafů, případně generovat textový výstup do standartních formátů (TXT, RTF), včetně populárního LATEX.
1.1.1
Instalace Gretlu
Práci s programem Gretl začneme jeho instalací. Po stáhnutí instalačního souboru z internetu nebo fakultního serveru a jeho následným spuštěním se aplikace dotazuje na umístění programu a název složky v seznamu nainstalovaných programů. Ideální je vše ponechat na přednastavených hodnotách, čím sa vyhneme případným problémům při pozdějším instalování dodatečných modulů a datových zdrojů. Nahrávání těchto doplňků do Gretlu probíhá stejným triviálním způsobem jako jeho samotná instalace(tedy opakovaným stláčením tlačítka „Nextÿ). Jelikož v této příručce využijeme příklady z publikace [2], je užitečné naplnit Gretl daty. Spuštěním souboru “POEdata.exe”, nacházejícím se ve složce
2
Úvod
Obrázek 1.1: Hlavní okno programu Gretl.
“gretl - data files”, začneme instalační proces datového zdroje a s využitím výše uvedeného postupu se dopracujeme k jeho úspěšnému konci.
1.1.2
Základy práce v Gretlu
Stejných výsledků můžeme v Gretlu dosáhnout třemi způsoby: prostřednictvím grafického uživatelského rozhraní (GUI), konzole na psaní kódu a systémového příkazového řádku. Poslední z uvedených možností přeskočíme, neboť ji nebudeme využívat.
1.2
Import dat
Prostředníctvím Gretlu můžeme pracovat s velkým množstvím vysoce kvalitních dat z různých ekonometrických učebnic, tak i reálného makroekonomického prostředí. Na ukázku načítáme do programu údaje z druhé kapitoly [2], představující výdaje na jídlo (za předpokladu, že datový zdroj „OEdata.exeÿ byl úspěšne nainstalovaný postupem, který je uvedený v sekci 1.1.1). Datová sada se skládá z dvou proměnných nazvaných x a y. Proměnná y představuje týdenní výdaje na jídlo v domácnosti a pod x se skrývá týdenní příjem měřený v $100 jednotkách. Z menu lišty hlavního okna Gretlu vybereme položku Soubor > Otevřít data > Vzorový soubor [File > Open data > Sample file], jak je vyobrazené na obrázku 1.2.
1.2 Import dat
3
Obrázek 1.2: Import dat prostřednictvím GUI Gretlu.
Alternativně je možné využít rychlejší způsob, a sice kliknout na tlačítko „Otevřít datový soubor [open dataset]ÿ v nástrojové liště. Docílíme tak otevření okna s názvem „Datové soubory [data files]ÿ (obrázek 1.3), které obsahuje záložky reprezentující datové zdroje už nainstalované do Gretlu. Přejdeme na záložku „PoEÿ, vybereme datovou sadu pojmenovanou „foodÿ a klikneme na tlačítko „Otevřít [open]ÿ ve vrchní části okna. Tato operace nám zabezpečí načtení dat týkajících se výdajů domácností na jídlo do Gretlu. V tomto okamžiku stačí pro zobrazení hodnot proměnné y vybrat v menu lišty Data > Ukázat hodnoty [Data > Display values] (obrázek 1.4). Pokud si přejeme zobrazit hodnoty několika proměnných, označíme příslušné řádky a zopakujeme právě uvedený postup. Přes rozbalovací menu Data můžeme navíc data editovat, přidávat další pozorování a v neposlední řadě též určit strukturu datové sady. Struktura určuje, zda pracujeme s časovými řadami, průřezovými nebo panelovými daty. Výběr vhodného typu je velmi důležitý, neboť každá datová struktura má charakteristický rozsah dostupných funkcí pro její analýzu. Přes volbu Soubor > Otevřít data > Importovat [File > Open data > Import] je možné nahrát do Gretlu i data jiných formátů (např. z Excelovského .xls) bez nutnosti instalace datového zdroje. Rovněž je program schopný exportovat datovou sadu do dalších formátů nebo přes volbu Soubor > Databáze > Na databázovém serveru [File > Databases > On database server] zpřístupnit obrovské množství dat z internetu.
4
Úvod
Obrázek 1.3: Záložky nainstalovaných datových zdrojů.
Obrázek 1.4: Zobrazení hodnot proměnné y.
1.3 Programovaní v Gretlu
5
Obrázek 1.5: Seznam dostupných příkazů.
1.3
Programovaní v Gretlu
Gretlovské GUI se vyznačuje rychlostí a jednoduchostí použití, i když k náročnějším úlohám je výhodnější využít konzolu na psaní kódu v jazyce Gretl. Tu si otevřeme buď prostředníctvím tlačítka na nástrojové liště nebo přes Nástroje > Konzole gretlu [Tools > Gretl console] v menu. Je důležité mít na zřeteli, že jazyk Gretlu rozlišuje velká a malá písmena, takže názvy příkazů musíme psát tak, jak jsou uvedené v seznamu dostupných příkazů (obrázek 1.5). Ten získáme stlačením příslušného tlačítka na nástrojové liště, přes menu v Nápověda > Popis příkazu > Prostý text [Help > Command reference > Plain text], případně zadáním příkazu help do konzoly. Podobně nápovědu k požadovanému příkazu vyvoláme napsáním “help název příkazu” (např. help arima). K seznamu dostupných výpočtových funkcí (obrázek 1.6) se dostaneme přes Nápověda > Popis funkce [Help > Function reference]. Nevýhodou konzole programu Gretl je skutečnost, že umožňuje jen postupné a jednorázové zadávání příkazů. Toto omezení snadno překonáme v editoru na psani skriptů, přístupného buď přes menu Soubor > Scriptové soubory > Nový script [File > Script files > New script] nebo tlačítkem na nástrojové liště. Editor (obrázek 1.7) slouží na vytvoření série příkazů (v souhrnu označované jako skript), které jsou následně provedeny v jedné dávce stlačením příslušného tlačítka . Skript může být uložen do samostatného souboru a spuštěná později. Pokud si nejsme jisti významem konkrétní funkce, stlačením „záchranného v okně editoru skriptů se kurzor myši obohatí o otázník a následným kruhuÿ kliknutím na text neznámeho příkazu vyskočí okno s nápovědou. Dobrou zprávou je, že všechny příkazy vykonané přes GUI nebo konzoli
6
Úvod
Obrázek 1.6: Seznam výpočetních funkcí.
Obrázek 1.7: Editor skriptů programu Gretl.
1.4 Session koncept
7
Obrázek 1.8: Nástrojová lišta Gretlu.
Gretlu zůstanou zaznamenané v příkazovém protokole, který nájdeme v menu Nástroje > Výpis příkazu [Tools > Command log]. Pro zopakovaní uvádíme obrázek 1.8 s popisem tlačítek na nástrojové liště Gretlu.
1.4
Session koncept
Gretl disponuje schopností ukládat modely, grafy a datové sady do společného, tzv. ikonického úložného prostoru s názvem „relace [session]ÿ. K tomuto prostoru (obrázek 1.9) sa dostaneme jako obvykle stlačením příslušného tlačítka na nástrojové liště, a samozřejme též přes menu Zobrazit > Zobrazit ikony [View > Icon view]. Objekty (modely, grafy atd.) je možné do „relace [session]ÿ přidávat výběrem Soubor > Uložit do relace jako ikonu [File > Save to session as icon] v menu okna (případně vyvoláním kontextové nabídky stisknutím pravého tlačítka myši), které si přejeme uchovat na pozdější použití. Celý obsah „relace [session]ÿ následně uložíme přes Soubor > Soubory relace > Uložit relaci [File > Session files > Save session] z hlavního okna programu Gretl, jak je vyobrazené na obrázku 1.10. Vraťme se ještě k úložnému prostoru „icon viewÿ (obrázek 1.9). Z názvů jednotlivých ikon vyplývá, že umožňují zobrazení výsledků modelů a grafů, informace o datech a jejich editaci, náhled na souhrnou statistiku a korelace. Pokud posuneme kurzor myši na ikonu „Tabulka modelu [Model table]ÿ, sestavíme si přehlednou tabulku dosažených výsledků (obrázek 1.11), kterou můžeme vyexportovat do různých formátů včetně LATEXu. Podobný postup je možné aplikovat za účelem vytvoření tabulky grafů.
8
Úvod
Obrázek 1.9: Ikonický úložný prostor.
Obrázek 1.10: Ukládání obsahu “session” do souboru.
1.4 Session koncept
Obrázek 1.11: Modelová tabulka v okně Gretlu.
9
10
Úvod
Kapitola 2
Jednoduchá lineární regrese Připomeňme, že jednoduchý lineární regresní model je tvaru: yt = β1 + β2 xt + t , kde yt je tzv. závisle proměnná, kterou odhadujeme pomocí parametrů β1 a β2 na základě pozorované veličiny xt a t je vektor reziduí, o němž předpokládáme, že jeho složky mají identické normální rozdělení s nulovou střední hodnotou a jsou nezávislé. Ještě doplňme, že odhad modelu je založen na metodě nejmenších čtverců.
2.1
Načtení dat
Po spuštení Gretlu klikněte na Soubor > Otevřít data > Soubor uživatele [File > Open data > User file] nebo Vzorový soubor [Sample file]. Následně vyberte vámi zvolený datový soubor, s kterým budete chtít dále pracovat. Dále pak klikněte pravým tlačítkem myši a vyberte “Otevřít [Open]” nebo klikněte na ikonku nahoře vlevo viz obr. 2.1. Pak by se vám mělo otevřít následující okno obr. 2.2 s uvedením všech proměnných, které jsou v datovém souboru uloženy popř. i s jejich popiskem. Budete-li chtít upravit atributy jednotlivé proměnné (např. jak se má daná proměnná zobrazovat v grafech), pak klikněte na zvolenou proměnnou pravým tlačítkem myši a zvolte „Upravit atributy [Edit attributes]ÿ. Alternativní postup vede z hlavního panelu přes Proměnná > Upravit atributy [Variable > Edit attributes]. Mělo by se vám otevřít následující okno, kde můžete jednotlivé atributy pozměnit či doplnit (obr. 2.3).
2.2
Sestrojení grafu
Pro vytvoření grafu nejdříve klikneme na ikonku dole „graf X-Y [X-Y graph]ÿ, (třetí zprava). Objeví se nám okno jako na obr. 2.4.
12
Jednoduchá lineární regrese
Obrázek 2.1: Otevření datového souboru.
Obrázek 2.2: Úprava atributů proměnných.
2.2 Sestrojení grafu
Obrázek 2.3: Okno k editaci atributů proměnných.
Obrázek 2.4: Nastavení proměnných k grafu.
13
14
Jednoduchá lineární regrese
Obrázek 2.5: Výsledný graf.
Zvolíme nezávisle proměnnou, kterou chceme vynést na osu X a klikneme na tlačítko „Vybrat [Choose]ÿ. Následně zvolíme závisle proměnnou(é), kterou(é) vyneseme na osu Y a klikneme na „Přidat [Add]ÿ. Teď už stačí jen potvrdit tlačítkem „OKÿ a dostaneme požadovanou regresní přímku (obr. 2.5). Křížkem jsou vyznačeny jednotlivá data,(najetím kursoru na příslušný datový prvek se zobrazí jeho časový údaj). V levém horním rohu je pak explicitně vyjádřena rovnice regresní přímky.
2.3
Odhad parametrů
K odhadu parametrů modelu je třeba vybrat z hlavní nabídky záložku Model > Obyčejné nejmenší čtverce [Model > Ordinary Least Squares] nebo kliknout na ikonku “OLS model” vpravo dole. Poté se vám otevře okno podobné tomu jako v případě vykreslování grafu (obr. 2.7). Stejným způsobem zadáte závisle a nezávisle proměnné. Implicitně se vám nastaví do modelu konstantní složka,(budete–li odhadovat model, o němž víte, že by regresní přímka měla procházet počátkem, bude třeba položku „constÿ ze seznamu nezávisle proměnných odebrat). Po odkliknutí „OKÿ se vám otevře následující okno s výsledkem (obr. 2.8), kde v prvním sloupečku jsou uvedeny odhadnuté koeficienty β1 , β2 modelu, ve druhém směrodatné odchylky těchto odhadů, ve třetím pak realizace testové
2.4 Elasticita
15
Obrázek 2.6: Metoda nejmenších čtverců.
statistiky a konečně v posledním tzv. p–hodnota, která udává (v procentech ×100) maximální možnou hladinu významnosti, za které by nulová hypotéza (v tomto případě β1 = −384, 105) byla přijata. Počet hvězdiček jen znázorňuje, jaká by hladina významnosti měla být, aby nulová hypotéza byla přijata (*** - menší než 1%, ** - 1% až 5%, * - 5% až 10%). Pod tabulkou následuje výčet mnoha dalších z modelu vypočtených statistických údajů. Za zmínku stojí koeficient determinace, který pro připomenutí ukazuje, jak velký díl výchozí variability hodnot závisle proměnné se nám podařilo vysvětlit uvažovanou regresní závislostí. K odhadu rozptylů a kovariancí regresorů, tedy kovarianční matice, stačí zvolit z hlavního menu Analýza > Kovarianční matice regresorů [Analysis > Coefficient covariance matrix], jak ukazuje obr. 2.9.
2.4
Elasticita
Elasticita křivky je koncept, který je ekonomickou teorií poměrně často využíván. Připomeňme, že vyjadřuje míru citlivosti reakce zkoumané veličiny na změny jiné veličiny. Pokud bychom z našeho ilustrativního příkladu chtěli zjistit citlivost průměrné spotřeby ke změně důchodu, známý vztah převedeme do této podoby: ∆E(C)/E(C) Y = = β2 , ∆Y /Y E(C)
16
Jednoduchá lineární regrese
Obrázek 2.7: Nastavení proměnných modelu.
2.4 Elasticita
17
Obrázek 2.8: Okno s výsledkem regrese.
Obrázek 2.9: Kovarianční matice regresorů.
18
Jednoduchá lineární regrese
Obrázek 2.10: Popisná statistika dat.
kde E(C) a Y nahradíme jejich průměry. Ty získáme tak, že kursorem vybereme zmíněné proměnné (popř. podržením klávesy „Ctrlÿ a zaklikáním všech potřebných proměnných) a dále v hlavní nabídce najdeme Zobrazit > Popisné statistiky [View >Summary statistics] jak je ukázáno na obr. 2.10. Alternativní způsob by byl po zatržení proměnných kliknout pravým tlačítkem myši a z nabídky vybrat Deskriptivní statistika [Descriptive statistics]’. Otevře se vám tabulka (obr. 2.11), ve které máte pro zvolené veličiny vypočteny střední hodnoty, mediány (prostřední hodnota ze seřazeného seznamu prvků), minimální a maximální hodnoty, směrodatné odchylky, variační koeficienty, které vyjadřují míru variability a jsou definované jako podíl směrodatné odchylky a absolutní hodnoty ze střední hodnoty a nakonec koeficienty šikmosti a špičatosti. V našem výpočtu elasticity bysme dostali: = 0, 932738 ×
13803 = 1.03. 12491
2.4 Elasticita
19
Obrázek 2.11: Tabulka popisné statistiky dat.
20
Jednoduchá lineární regrese
Kapitola 3
Model vícenásobné regrese Tento model je určitým rozšířením předchozího modelu, které spocívá zejména v tom, že nyní budeme pracovat s více než jednou vysvětlující proměnnou. Obecný tvar tohoto modelu můžeme zapsat následovně: yi = β0 + β1 xi1 + · · · + βK xiK
i = 1, 2, . . . , N,
kde index i značí jednotlivá pozorování a index k = 1, 2, . . . , K pak jednotlivé vysvětlující proměnné, a tedy β0 , β1 , . . . .βK jsou parametry jež odhadujeme. Tento model oproti předchozímu musíme rovnež obohatit o jeden předpoklad, že libovolnou z vysvětlujících proměnných nejsme schopni vyjádřit jako nějakou lineární kombinaci ostatních vysvětlujících proměnných (pak by jsme totiž nemohli jednoznačně určit odhadované parametry, protože by existovala celá řada kombinací bet, která by stejně kvalitně vysvětlovala veličinu y). O tomto problému se obecně mluví jako o problému multikolinearity,(v dusledku existence korelací mezi vysvětlujícími proměnnými), a prakticky je jím do určité míry zatížen každý model. Ještě dodejme poznámku ke správné interpretaci obdrženého modelu. Jednotlivé odhadnuté parametry β1 , . . . .βK udávájí, jak moc se v průměru změní odhadovaná veličina y, kdybysme o jednotku zvýšili příslušnou (k βk ) vysvětlující proměnnou xk o jednotku, za předpokladu, že ostatní vysvětlující proměnné se nezmění.
3.1
Vytvoření modelu
Nejprve opět musíme načíst nějaký datový soubor, s kterým budeme chtít pracovat. Zde uvedený ilustrativní příklad najdete ve vzorových datových souborech Gretlu v záložce Ramanathan pod názvem data6-4 (Salary and employment characteristics). Kliknutím na ikonku s „íčkemÿ zjistíte, že tento datový soubor obsahuje informace o mzdách, úrovni vzdělání, věku a počtem roků jež jsou zaměstnanci u dané společnosti zaměstnáni.
22
Model vícenásobné regrese
Obrázek 3.1: Řešení modelu vícenásobné regrese.
Když už máme datový soubor načtený, můžeme se pustit do sestavení samotného modelu. Postup se prakticky shoduje s případem jednoduché regrese. Tedy klikneme buď na ikonu „OLS modelÿ v dolní liště nebo vybereme záložku Model > Obyčejné nejmenší čtverce [Model > Ordinary Least Squares] (obr. 3.1). Vyskočí nám již známé okno, kde postupně přidáme závisle proměnnou mzdu (WAGE) a do nezávisle proměnných zbývající proměnné (není nutné a zpravidla ne i optimální do modelu zahrnout všechny dostupné proměnné). My pro začátek do modelu zahrneme všechny dostupné proměnné: vliv vzdělání, věrnosti společnosti a věk, tedy k nezávisle proměnným přidáme veličiny EDUC, EXPER a AGE (obr. 3.2). Poté klikneme na tlačítko „OKÿ a můžeme se podívat na obdržené výsledky (obr. 3.3), kterým v této kapitolce věnujeme trošku více pozornosti.
3.2
Statistiky modelu
K výpočtu jednotlivých statistik se často využívá hodnot, jež jsou obsaženy v tzv. ANOVA tabulce. Tu získame tak, že z okna s modelem klikneme na záložku Analýza > ANOVA [Analysis > ANOVA]. Otevře se nám pak následující okno s analýzou rozptylu. Postup je zachycen na obrázcích 3.4 a 3.5. V prvním sloupci najdeme postupně součet čtverců regrese, reziduií a nakonec celkový součet čtverců, které jsou v literatuře obvykle značeny jako SSR, SSE a SST . Připomeňme, že SST vyjadřuje kvadratický součet odchylek od
3.2 Statistiky modelu
Obrázek 3.2: Sestavení modelu.
23
24
Model vícenásobné regrese
Obrázek 3.3: Výsledky sestaveného modelu.
Obrázek 3.4: Sestavení ANOVA tabulky.
3.3 Testování parametrů modelu
25
Obrázek 3.5: Analýza rozptylu.
PN střední hodnoty z pozorovaných dat, matematicky zapsáno SST = i=1 (Yi − Y¯ )2 , kde Y¯ značí střední hodnotu. SST se rozkládá na součet SSR a SSE, kde SSR je kvadratický součet PN odchylek od střední hodnoty z odhadnutých dat, matematicky SSR = i=1 (Yˆi − Y¯ )2 , kde Yˆ jsou odhadnuté hodnoty pomocí modelu. Tedy můžeme říci, že SSR udává, vysvětlenou velikost variability z původních dat. Ta nevysvětlená je pak zahrnuta v SSE, kterou vyjádříme jako PN SSE = i=1 (Yi − Yˆ )2 . V druhém sloupci jsou pak uvedeny příslušné stupně volnosti. Jejich vydělením pak obdržíme, zde uváděný „střední kvadrátÿ. Významná je zejména střední chyba reziduí, v literatuře značená jako M SE, jež je s využitím nestrannosti odhadu modelu pomocí metody nejmenších čtverců zároveň odhadem rozptylu reziduí. Poslední hodnota uvedená v ANOVA tabulce vyjadřuje odhad rozptylu závisle proměnné. Pod tabulkou pak máme vypočtený koeficient determinace, o nemž jsme se již zmínili dříve včetně postupu k jeho určení. Nakonec je tam i uvedena hodnota F-statistiky, ale o ní blíže pojednáme v následující subkapitole. Vraťme se ještě k výsledkům našeho modelu. Níže uvedené střední odchylky jsou získány jednoduše jako odmocniny z rozptylu, získaných např. z ANOVA tabulky. Je zde však zapotřebí upozornit na nepříliš vhodně zvolený výraz pro střední chybu reziduí, která je v české verzi značena jako S.CH. regrese (v původní angl. verzi tento problém není). Spíše pro zajímavost ještě stručně vysvětleme co je tzv. adjustovaný koeficient determinace. Jedná se o snahu klasický koeficient determinace očistit (snížit) od skutečnosti, že se koeficient zlepší jen v důsledku přidání další vysvětlující proměnné do modelu.
3.3 3.3.1
Testování parametrů modelu Multikolinearita
V úvodu kapitoly jsme se zmínili o problému kolinearity, který vzniká v důsledku korelace mezi nezávisle proměnnými. Nejjednodušším způsobem jak zjistit, zda existuje silná korelace mezi proměnnými je, se podívat na korelační matici. Tu
26
Model vícenásobné regrese
Obrázek 3.6: Zobrazení korelační matice.
v Gretlu získáme, když z hlavní nabídky Gretlu vybereme záložku Zobrazit > Korelační matice [View > Correlation matrix] (obr. 3.6). Otevře se vám následující okno (obr. 3.7), kde již známým postupem přes tlačítko „Pridatÿ vyberete proměnné, z nichž budete chtít sestavit korelační matici. Pak již stačí odkliknout „OKÿ. V našem případě vidíme, že korelace nejsou příliš významné (obr. 3.8). Nejsilnější lineární vztah je mezi věkem a délkou zaměstnání, jak by se dalo i očekávat. Nicméně hodnota 0, 4 není natolik vysoká, aby způsobila větší problémy s multikolinearitou (dle [3] je hodnota závažná jestliže se vyskytne korelace v absolutní hodnotě větší než 0, 9). To jak daná míra korelace ovlivní intervaly spolehlivosti jednotlivých parametrů, závisí taktéž na tom, jak velký máme datový soubor a na velikosti rozptylu jednotlivých proměnných. Pokud budeme mít malý datový soubor s vysokou variací jednotlivých proměnných, pak i menší korelace mohou způsobit nevýznamnost jednotlivých parametrů modelu a naopak. I když tato metoda zjišťování multikolinearity není zrovna nejtechničtější, tak její síla spočívá zejména v jednoduchosti, a tedy průhlednosti. Ještě přidejme jednu menší poznámku, že pokud máme model s více jak dvěmi nezávisle proměnnými, pak jednotlivé korelace mohou být zkresleny od reality tím, že při jejich výpočtu nejsme schopni dobře rozlišit vzájemný vztah mezi dvěma proměnnými od vlivu lineární kombinace ostatních proměnných.
3.3 Testování parametrů modelu
Obrázek 3.7: Sestavení korelační matice.
Obrázek 3.8: Korelační matice.
27
28
Model vícenásobné regrese
3.3.2
T–test
T–testy slouží především ke zkoumání významnosti jednotlivých odhadnutých koeficientů. To zda nulovou hypotézu, že βi = 0 zamítneme (a tedy řekneme, že na zvolené hladině významnosti není daný koeficient statisticky nevýznamný) můžeme zjistit třemi způsoby: • pomocí intervalů spolehlivosti, • porovnáním testové statistiky s kritickou hodnotou, • pomocí p–hodnoty. Intervaly spolehlivosti pro jednotlivé parametry modelu získáme jednoduše tak, že v okně s výsledkem modelu vybereme Analýza > Konfidenční intervaly koeficientů [Analysis > Confidence intervals for coefficients]. Pokud příslušný interval spolehlivosti obsahuje nulu, pak nulovou hypotézu nemůžeme zamítnout. V našem případe tedy nulové hypotézy, že const = 0 a AGE = 0 nemůžeme na hladině významnosti 95% zamítnout. Ze šířky intervalu také můžeme usuzovat o přesnosti odhadu. Čím je daný interval relativně vůči své střední hodnotě širší, tím je odhad parametru méně přesný (k tomuto účelu však lépe poslouží směrodatné odchylky parametrů uvedené ve výsledcích modelu). Změnu hladiny významnosti provedete kliknutím na ikonku „alfyÿ. Proč se intervaly spolehlivosti při vyšší hladině významnosti rozšiřují a naopak, ponecháme na promyšlení čtenáři. Postup s výsledky najdete na obrázcích 3.9 a 3.10. K stejnému zjištění můžeme dojít porovnáme–li hodnoty realizací testových statistik s kritickou hodnotou. Jestliže absolutní hodnota testové statistiky bude větší než kritická hodnota, tedy že se realizuje v kritickém oboru, pak nulovou hypotézu zamítame. Hodnoty testových statistik pro jednotlivé parametry modelu naleznete ve čtvrtém sloupečku v okně s výsledky modelu a kritickou hodnotu pak na prvním řádku okna konfidenčních intervalů spolehlivosti. Ještě udělejme poznámku, jak postupovat v případě alternetivní jednostranné,(pravo či levostranné) hypotézy (H1 : βi > 0 βi < 0). Jednoduše kritickou hodnotu najdeme tak, že hladinu významnosti nastavíme na dvojnásobek než požadujeme. V případě levostranné hypotézy navíc využijeme vlastnosti symetrie studentova rozdělení (tedy si před kritickou hodnotu přimyslíme znaménko minus). Na závěr jsme si nechali uživatelsky nejpohodlnější metodu založenou na tzv. p–hodnotě. O ní jsme již pojednali v předchozí kapitole, tak jen krátce shrneme, že nulovou hypotézu zamítneme, jestliže je p–hodnota nižší než požadovaná hladina významnosti.
3.3.3
F–test
F–testy lze formálně využít na testování jakékoli hypotézy, kterou lze zapsat lineární kombinací regresních koeficientů. My se zde hlavně zaměříme na testování významnosti modelu jako celku a na testování podmodelů, které nám umožní model co nejlépe specifikovat. Kdyby náš model obsahoval irelevantní
3.3 Testování parametrů modelu
Obrázek 3.9: Sestavení tabulky konfidenčních intervalů.
Obrázek 3.10: Konfidenční intervaly koeficientů.
29
30
Model vícenásobné regrese
Obrázek 3.11: Výsledky F–testu.
(z hlediska vysvětlovací síly) vysvětlující proměnné, pak by to vedlo k výšší variabilitě odhadnutých parametrů. Naopak kdybychom do modelu nezahrnuly relevantní proměnné, pak by odhady našich parametrů byly vychýlené. Připomeňme ještě matematickou konstrukci F–statistiky: F =
(SSEu − SSEr )/(Ru − Rr ) ∼ F(Ru −Rr ,N −Ru ) jestliže je H0 pravdivá, SSu /(N − Ru )
kde N je počet pozorování, R = K + 1 je počet regresorů modelu a indexy r a u značí, zda se jedná o model omezený (restricted ) nebo neomezený (unrestricted ). Z této konstrukce je dobře vidět, že statistika nabyde nízkých hodnot, což nepovede k zamítnutí nulové hypotézy, jestliže se součty čtverců reziduí zkoumaných modelů nebudou výrazněji lišit. Pokud nás zajímá, jestli náš model celkově dobře vysvěluje chování závisle proměnné, potom vlastně testujeme nulovou hypotézu H0 : β1 , . . . , βk = 0. Výsledky tohoto testu včetně p–hodnoty jsou k nálezení v okně modelu popř. pod ANOVA tabulkou. V našem případě je p–hodnota velice nízká, což nás vede k jednoznačnému zamítnutí nulové hypotézy (obr. 3.11). Pusťme se do zajímavějšího zkoumání toho, zda nějaké vysvětlující proměnné nejsou v našem modelu nadbytečné. Z výsledků našeho modelu jako největší kandidát na vyřazení se jeví parametr AGE. V Gretlu se s tím jednoduše vypořádáme tak, že v okně s modelem najedeme na Testy > Vynechat proměnné [Tests > Omit variables]. Otevře se nám následující okno, jak je zachyceno na obr. 3.12 a 3.13.
3.3 Testování parametrů modelu
31
Obrázek 3.12: Vynechání proměnné.
Vybereme proměnnou AGE a přes tlačítko “Přidat” ji dáme do seznamu proměnných, které budou vynechány. Necháme zatržené políčko Odhadnout redukovaný model (Waldův test sice přinaší stejné výsledky, dokonce je operačně méně náročný, ale jeho výsledky jsou v Gretlu skromnějšího charakteru). Poté stačí odkliknout „OKÿ a dostane se nám podrobných informací o výsledcích testu (obr. 3.14). Tedy nejlepší lineární model, který z dostupných dat můžeme naestimovat je (můžete si sami vyzkoušet, že odbourání jakékoliv další proměnné k lepším výsledkům nepovede): W AGEi = 561 + 143EDU Ci + 42EXP ERi + i Alternativní přístup, jak sestavit co nejlepší model je ten, že nejprve vytvoříme model s tou(těmi) vysvětlující(mi) proměnnou(-ými), u nichž jsme si jisti, že budou mít silnou vysvětlovací schopnost a pak postupně model zkoušíme obohacovat o další proměnné, přičemž sledujeme, zda přidání určité nové proměnné zlepšilo statistiky modelu. K tomu slouží nástroj Přidat proměnné [Add variables], který najdete hned pod nástrojem Vynechat proměnné. Postup práce je analogický jako při odebírání proměnných, tedy není nutné ho zde uvádět. Závěrem se budeme zabývat případem testování složitějších hypotéz. Předpokládejme, že se daná firma chválí tím, že každý dosažený vyšší stupeň vzdělání (pro jednoduchost budeme předpokládat, že každy další vyšší stupeň vzdělání je dosažen po třech letech) se u jejich zaměstnanců promítne v nárustu $500 v měsíční mzdě, a že každým rokem jsou zaměstnacům platy navyšovány v
32
Model vícenásobné regrese
Obrázek 3.13: Výběr proměnné k vynechání.
3.3 Testování parametrů modelu
Obrázek 3.14: Výsledky redukovaného modelu.
33
34
Model vícenásobné regrese
Obrázek 3.15: Lineární omezení modelu.
průměru o $50. Naším úkolem bude na základě námi dostupných dat zjistit, zda chování firmy svědčí o tom, co prohlašuje. Tedy naší nulovou hypotézu, kterou budeme chtít testovat můžeme zapsat následovně: H0 : 3 ∗ EDU C = 500, EXP ER = 70 K tomu bude zapotřebí kliknout na Testy > Lineární omezení [Tests > Linear restrictions]. Otevře se vám následující okno (obr. 3.15), do kterého budeme muset ručně zadat požadovanou testovou hypotézu. Hypotéza se zadává jako systém rovnic, přičemž by mělo být respektováno to, že na levé straně rovnice bude nějaká lineární kombinace parametrů a na straně pravé pouze hodnota. Parametry modelu se zadávají ve formě b[pořadí parametru]. Zde je nutno si dát pozor, neboť naše β0 odpovídá b[1] atd. . Tedy naší nulovou hypotézu zapíšeme jako: 3 ∗ b[2] = 500 b[3] = 70 Pak stačí už jen odkliknout „OKÿ a otevře se nám následující okno (obr. 3.16) s výsledkem. Vidíme, že i toto na první pohled nadnesené tvrzení nemůžeme na hladině významnosti 95% (ani 90%) zamítnout.
3.4
Nelineární rozšíření modelu
Zatím jsme zkoumali jen lineární závislosti mezi vysvětlovanou a vysvětlujícími proměnnými. V skutečnosti však může chování závisle proměnné lépe vyjadřovat nějaký jiný funkcionální vztah. Na druhou stranu použitím nějakého
3.4 Nelineární rozšíření modelu
35
Obrázek 3.16: Výsledky modelu s lineárním omezením.
složitého modelu ztratíme jasnou vypovídací schopnost jednotlivých parametrů. Vyjímku tvoří datové soubory s exponenciálním trendem (v ekonomii je např. dobrým příkladem Cobb–Douglesova produkční funkce), které po jejich logaritmizaci nabydou lineární podoby, kdy pak při interpratice parametrů stačí zaměnit slůvko o jednotku s o jeden procetní bod. Krom této log–lineární formy se v praxi můžeme setkat s tzv. polynomickými modely, kdy obecně jednotlivé vysvětlující proměnné jsou vyjádřeny ve formě polynomu stupně n (ale většinou je dostačující použít kvadratickou závislost). Nyní zkusme náš dosavadní model lépe odhadnout s využitím druhých mocnin vysvětlujících proměnných EDUC a EXPER (u proměnné AGE nemá smysl uvažovat existenci kvadratického vztahu vzhledem k nevýznamnosti lineárního vztahu). Tedy náš nový model bude moci být zapsán v následujícím tvaru: W AGEi = β0 + β1 EDU Ci + β2 EXP ERi + β3 EDU Ci2 + β4 EXP ERi2 + i Abysme mohli náš nový model sestavit potřebujeme do datového souboru přidat proměnné EDU Ci2 a EXP ERi2 . V Gretlu to provedeme nejdříve vybráním požadovaných proměnných a následným najetím kurzoru myši na Přidat > Druhé mocniny vybraných proměnných [Add > Squares of selected variables], jak to ukazuje následující obrázek 3.17. Přidání nových proměnných do dosavadního modelu se provede výše popsaným způsobem. Je lepší do modelu proměnné přidávat postupně a přitom sledovat statistiky modelu (jestliže je model po přidání nové proměnné horší, tak tuto novou proměnnou do modelu nezahrneme, ale zkusíme přidat další, naopak pokud se náš model vylepší, tak pouze náš model zkoušíme dále obohatit). Neexistuje však naprosto jednoznačné stanovisko, která by nám vždy řeklo, zda je nový model lepší nebo horší než ten předchozí. Kromě výsledků, které nám Gretl při srovnání modelů vypíše je dobré sledovat, jak se mění t–statistiky či
36
Model vícenásobné regrese
Obrázek 3.17: Přidání druhých mocnin vybraných proměnných.
směrodatné odchylky parametrů a hodnotu koeficientu determinace. Může se stát, že nový model bude lepší vysvětlovací sílu na úkor zhoršení přesnosti odhadů parametrů modelu. Pak závísí především na nás a na požadovaném cíli, s kterým model budujeme, pro který model se nakonec rozhodneme. Když si s naším modelem chvilku pohrajete, pak nejlepší forma, které pravděpodobně dosáhnete bude následující: W AGEi = 937 + 44EXP ERi + 11EDU Ci2 + i Z modelu vyplývá, že v daném podniku s délkou zaměstnání roste mzda lineárně, zatímco s dosaženým vyšším stupněm vzdělání kvadraticky. Na závěr zkusme ještě obohatit náš uvedený příklad o vlivu vzdělání a věrnosti podniku na průměrnou mzdu. Pro případné zájemce o práci v této firmě by byla relevantnější informace o kolik procent jim ročně mzda poroste. Proto firma dodává, že průměrný roční růst mezd je 5%. Zkusme otestovat tuto hypotézu. Abysme přímo zjistili, jak se každý další rok strávený u této společnosti promítne v procentním zhodnocení mzdy, musíme náš model odhadnout ve tvaru: log W AGEi = β0 + β1 EDU Ci + β2 EXP ERi + i Zlogaritmované hodnoty mezd dostaneme obdobným způsobem jako druhé mocniny tak, že klikneme na Přidat > Logaritmy vybraných proměnných [Add > Logs of selected variables]. Pak odhadneme výše zmíněný model, na
3.4 Nelineární rozšíření modelu
37
kterém otestujeme hypotézu H0 : β2 = 0.05, kterou v Gretlu zapíšeme jako b[3] = 0, 051 . V tomto případě již nulovou hypotézu zamítáme.
1V
Gretlu se nepouživá klasická anglická tečková notace nýbrž česká s desetinnou čárkou.
38
Model vícenásobné regrese
Kapitola 4
Testování klasických předpokladů V této kapitole si ukážeme některé postupy, které nám poslouží k ověření předpokladů modelu. Pokud některé předpoklady nejsou dodrženy, dochází ke zkreslení obdržených výsledků. Zaměříme se na testování normality a homoskedasticity reziduí a v závěru také autokorelace, která bývá spíše spojováná jen s dynamickými modely. V následujících dvou podkapitolách budeme vycházet z lineárního modelu odhadnutého v předchozí kapitole, který měl následující podobu: W AGEi = 561 + 143EDU Ci + 42EXP ERi + i
4.1
Normalita reziduí
Dle předpokladů by náhodná složka i , která je pro nás představována rezidui, měla mít normální rozdělení s nulovou střední hodnotou. Nulové střední hodnoty bude v případě zahrnutí úrovňové konstaty do modelu vždy dosaženo. Pak pracujeme s dostatečně velkým souborem, tak i s normalitou se nemusíme moc trápit, neboť odhad vektoru parametrů β má asymptoticky normální rozdělení. V našem případě datový soubor je tvořen 49–ti pozorování, proto ověření normality bude na místě. Abychom mohli s rezidui pohodlně pracovat, bude vhodné si je uložit jako další proměnnou. K tomu stačí najet na záložku Uložit > Rezidua [Save > Residuals]. K otestovaní normality, kdy za nulovou hypotézu bereme, že rezidua mají normální rozdělení, stačí vybrat Proměnná > Test normality [Variable > Normality test]. Ukáže se nám okno (obr. 4.1) s výsledky čtyř různých testů včetně na přednášce uvedeného Jarque-Berova testu, využivajícího koeficientu šikmosti a špičatosti. Vidíme, že nulová hypotéza je zamítnuta jen v případě Lillieforsova testu. Tedy můžeme říct, že předpoklad normality reziduí je pro náš model přípustný. Pokud bychom chtěli si Gretlovský výpočet ověřit ručně, tak potřebné koeficienty získáme z tabulky popisných statistik, k níž se dostaneme přes Zobrazit > Popisné statistiky [View > Summary
40
Testování klasických předpokladů
Obrázek 4.1: Výsledky testů normality reziduí.
statistics] (mj. zde můžeme ověřit nulovost střední hodnoty reziduí). Z okna s modelem najetím na Testy > Normalita reziduí [Tests > Normality of residuals] dostaneme výsledek Doornik-Hansenova testu-jeho stavbou se zde však zabývat nebudeme.
4.2 4.2.1
Heteroskedasticita Testovaní homoskedasticity
Jedním z nejjednoduších, i když technicky ne zrovna nejpřesnějších způsobů, je podívat se čistě na graf reziduí a okem usoudit zda rozptyly můžeme považovat za homoskedastické. Graf jednoduše dostaneme, když v okně s modelem najedeme na Grafy > Graf reziduí > Podle čísla pozorování [Graphs > Residual graph > Against number of observations]. Pokud bychom chtěli na grafu něco poupravit, nyní se např. může nabýzet úprava pro lepší znázornění na schodovity tvar. Té bysme docílili kliknutím na graf a z možností vybrali Editovat [Edit] a v nově otevřeném okně vybrali záložku Čáry [Lines], kde jako typ čáry zvolíme Kroky [Steps]. Z grafu vidíme (obr. 4.2), že několika větších výkyvů složka reziduí dosahuje, i když to není až zas tak dramatické. Pokud by nás zajímala, zda rozptyl závisí na jednotlivých proměnných, pak stačí myší najet na Grafy > Graf reziduí > V závislosti na WAGE, EDUC, EXPER [Graphs > Residual graph > Against WAGE, EDUC, EXPER]. Zde vidíme, že se určitá závislost projevuje (obr. 4.3, 4.4 a 4.5). Nyní se podívejme na jednotlivé testy, které nám Gretl poskytuje. Ty jsou dostupné v záložce Testy > Heteroskedasticita [Tests > Heteroskedasticity] a kliknutím na příslušný test, který si přejeme provést (obr. 4.6). Whiteův test patří k obecnější testům, kdy za alternativní hypotézu bereme obecně
4.2 Heteroskedasticita
41
Obrázek 4.2: Graf reziduí.
Obrázek 4.3: Graf reziduí v závislosti na WAGE.
42
Testování klasických předpokladů
Obrázek 4.4: Graf reziduí v závislosti na EDUC.
Obrázek 4.5: Graf reziduí v závislosti na EXPER.
4.2 Heteroskedasticita
43
Obrázek 4.6: Výběr příslušného testu heteroskedasticity.
H1 : σi 6= σ, kdy je pak v našem případě2 odhadován model: εˆ2i = α1 + α2 EDU Ci + α3 EXP ERi + α4 EDU Ci EXP ERi + α5 EDU Ci2 + + α6 EXP ERi2 + νi Pak výsledná statistika N ∗ R2 , kde N je počet pozorování by měla mít za platnosti nulové hypotézy chí–kvadrát rozdělení se tupni o jeden méně než je počet parametrů. Whiteův test s dodatkem pouze mocniny provede stejný test jen s tím rozdílem, že v odhadovaném regresním modelu jsou vynechány smíšené členy. Dalším v Gretlu uvedeným a zde posledně zmíněným je Breusch–Paganův test. V něm by byla obecně pro náš případ alternativní hypotéza brána ve formě H1 : σi = h(α1 + α2 EDU Ci + α3 EXP ERi ), kdy za funkci h se obvykle bere funkce exponenciální nebo lineární, jak je tomu v případě Gretlu. Tedy při výpočtu je odhadován model: εˆ2i = α1 + α2 EDU Ci + α3 EXP ERi + νi 2 Obecně jsou v regresi pro rozptyl jako nezávisle proměnné brány všechny nezávisle proměnné a jejich kvadráty z původního modelu plus smíšené součiny těchto regresorů.
44
Testování klasických předpokladů
Obrázek 4.7: Robustní směrodatné chyby.
Potřebná statistika je pak stejná jako u Whiteova testu. Všechny tyto modely naši nulovou hypotézu zamítají, tedy naše dosavadní výsledky jsou zatíženy tímto porušením předpokladů.
4.2.2
Řešení problémů s heteroskedasticitou
Jedno z uživatelsky příjemných řešení, jak se s heteroskedasticitou vypořádat spočívá v tzv. robustních odhadech směrodatné odchylky, kdy odhady směrodatných odchylek parametrů jsou získány z variační matice vektoru parametrů. Gretl nám to jednoduše umožní tak, že v okně, kde specifukujeme model zatrhneme políčko „Robustní směrodatné chyby [Robust standard errors]ÿ viz. obr. 4.7. Kliknutím na tlačítko „nastavit [configure]ÿ lze vybrat jednu z odhadovacích technik. Všimněme si, že s využitím robustních odhadů získáme vyšší směrodatné odchylky parametrů, a tedy i širší intervaly spolehlivosti. Další z používaných metod a v Gretlu implementovaných je tzv. vážená
4.3 Autokorelace
45
metoda nejmenších čtverců. Tu je možné použít v případě, kdy jsme schopni odhadnout funkční závislost rozptylu na vysvětlujících proměných. Pro jednoduchost se můžeme omezit pouze na možnou existenci lineárního, či v případě určitého multiplikačního efektu exponenciálního tvaru. S využítím v předchozích kapitolách již zmíněných technik, dospějeme k tomuto nejlepšímu vyjádření (i když ne zrovna příliš přesvědčivému): σi2 = −418784 + 112159EDU C + νi Kvadrát vektoru vah, který Gretl vyžaduje, je roven převrácené hodnotě výše odhadnutého rozptylu. Nejdříve si tedy uložíme hodnoty odhadnutých rozptylů tak, že myší najedeme na Uložit > Vyrovnané hodnoty [Save > Predicted values]. Převrácené hodnoty pak docílíme najetím na Přidat > Definovat novou proměnnou...[Add > Define new variable...]. Do otevřeného okna pak zapíšeme vzorec, kterým bude nová proměnná získána - v našem případě tedy: prevh = 1/sighat.3 Nyní se již můžeme bez potíží pustit ke stanovení modelu. Vybereme záložku Model > Další lineární modely > Vážené nejmenší čtverce... [Model > Other linear models > Weighted least squares...]. Otevře se nám podobné okno, jak je tomu u klasického modelu, jen s tím rozdílem, že zde je navíc políčko pro váhovou proměnou, do které přiáme zde značenou proměnnou prevh.4 Pak stačí kliknout na „OKÿ. Otevře se již známé okno s výsledky (obr. 4.8), které mj. nabízí i srovnání určitých hodnot s klasickým modelem.
4.3
Autokorelace
V lineárním regresním modelu předpokládáme, že jednotlivá pozorování nejsou mezi sebou korelována. Tento předpoklad může být porušen zejména v případě, že pracujeme s časovými řadami. Dochází pak k tomu, že složky nevysvětlené části modelu (jež je obsaženy ve vektoru reziduí) budou mezi sebou korelovány. Vliv autokorelace, podobně jako heteroskedasticity, způsobí, že odhady parametrů nebudou nejlepší (tj. s minimálním rozptylem), a že odhady směrodatných odchylek parametrů nebudou konzistentní. Ke zkoumání autokorelace využijeme příklad z kapitoly o jednoduchém lineárním regresním modelu, kde jsme odhadovali závislost spotřeby na produktu. Náš odhadnutý model dosáhl této konečné podoby: Ct = −384 + 0, 93Yt + t . Aby Gretl mohl autokorelace testovat, je zapotřebí mít nastaveno, že pracujeme s časovými řadami. Toto nastavení můžeme zkontrolovat (bude-li třeba 3 Pojmenování samozřejmě může být různé, zde jsme novou proměnnou nazvali prevh a vyrovnané hodnoty rozptylu jsme uložili jako sighat. 4 V našem případě Gretl zahlásí chybu, že váhy obsahují záporné hodnoty. U 40–tého pozorování došlo k tomu, že odhadnutá hodnota rozptylu je záporná. Jelikož až na tuto skutečnost model vykazoval poměrně dobré vlastnosti, tak tento problém byl zde vyřešen hrubou silou, a to přepsáním hodnoty 40–té proměnné na hodnotu 0. Provede se to pravým kliknutím na proměnnou prevh a následným kliknutím na Upravit hodnoty.
46
Testování klasických předpokladů
Obrázek 4.8: Výsledky odhadu metodou WLS s robustními sm. chybami.
4.3 Autokorelace
47
Obrázek 4.9: Nastavení časových řad.
upravit) vybráním záložky Data > Struktura souboru dat... [Data > Data set structure]. V otevřeném okno zatrhneme Časové řady [Time series] a klikneme na „Forwardÿ. V dalším okně vybereme délku mezi jednotlivými pozorováními (v našem případě se jedná o roční data) a opět odklikneme „Forwardÿ. V dalším okně zadáme počateční pozorování (v tomto případě rok 1959). V posledním nabídnutém okně už jen odsouhlasíme délku našich pozorování. Uvedený postup je pro názornost ukázán na následujících obrázcích (obr. 4.9).
4.3.1
Testování a řešení
Jedním z velmi používaných testů je tzv. Durbin-Watsonova statistika, která slouží k detekci autokorelace prvního řádu (tedy, že jednotlivá rezidua můžeme simulovat AR(1) procesem). Durbin-Watsonova statistika nám vrátí hodnotu mezi 0 až 4, přičemž hodnota v okolí dvojky autokorelaci vyvrací. Nízké hodnoty ukazují na existenci pozitivní korelace mezi rezidui a naopak vysoké hodnoty poukazují na negativní korelaci. Dolní a horní limity k určení toho, zda případná hodnota značí existenci autokorelace, jsou pak sestrojovány v závislosti
48
Testování klasických předpokladů
Obrázek 4.10: Výběr korelogramu reziduí.
na počtu pozorování. V Gretlu se pří výše uvedeném nastavení hodnota DurbinWatsonova testu zobrazí přímo v okně s modelem. V našem případě hodnota 0,514 jasně signalizuje existenci pozitivní autokorelace. Kdybychom chtěli znát připadně p-hodnotu testu (ve spornějších případech), pak je zapotřebí myší najet na Testy > Durbin-Watson p-value [Test > Durbin-Watson p-value]. Dalším z užitečných nástrojů k prošetření autokorelace je tzv. korelogram, který vykreslí vzájemné korelace mezi rezidui až do zvoleného řádu. V Gretlu ho získáme vybráním položky Grafy > Korelogram reziduí [Graphs > Correlogram]. Otevře se nám okno, kde je potřeba zadat délku zpoždení, do které chceme autokorelace zkoumat (zvolme např. 6). Poté se již zobrazí okno se spočtenými autokorelacemi (ACF), tak i parciálními autokorelacemi (PACF),jejichž hodnoty jsou v grafu vyznačeny červeně. Modrými linkami jsou pak vymezeny intervaly spolehlivosti, jejichž překročení signalizuje zamítnutí hypotézy o nulovosti příslušného koeficientu. V následujícím okně s tabulkou jsou již jen znázorněné hodnoty vyčísleny (navíc hodnoty Ljung-Box Q statistiky, o níž blíže pojednávat nebudeme). Uvedený postup je pro ilustraci znázorněn na obrázcích 4.10 – 4.13. Hodnoty získané z korelogramu potvrzují výsledek Durbin-Watsonova testu, navíc signalizují i výskyt autokorelace druhého řádu. Kromě výše uvedených testových možností Gretl nabízí i další, které naleznete vybráním Testy > Autokorelace [Test > Autocorrelation].
4.3 Autokorelace
49
Obrázek 4.11: Nastavení maximálního zpoždění.
Obrázek 4.12: Graf ACF a PACF.
50
Testování klasických předpokladů
Obrázek 4.13: Tabulka korelogramu.
Podobně jako v případě opravy heteroskedasticity existují pro případ časových řad tzv. HAC (heteroskedasticity autocorrelated consistent) robustní odhady směrodatných odchylek. Ty v Gretlu získáme stejným způsobem, jako v případě heteroskedasticity, tedy v okně se specifikací modelu je potřeba zatrhnout políčko Robustní směrodatné chyby [Robust standart errors]5 .
5 Tím, že máme v Gretlu nastaveno, že pracujeme s časovou řadou, tak je automaticko použito HAC odhadů namísto HC odhadů
Literatura [1] Adkins, L. C. Using gretl for Principles of Econometrics, 3 ed. Version 1.31, July 2009. [2] Hill, R. C., Griffiths, W. E., and Lim, G. C. Principles of Econometrics, 3 ed. John Wiley & Sons, 2008. [3] Koop, G. Introduction to Econometrics, 1 ed. John Wiley & Sons, 2008.