Závislost vysvětlujících proměnných v regresním modelu The dependency of the explanatory variables in the regression model Hynek ČERNÝ
Abstrakt Neexistence (či spíše akceptovatelná hodnota) multikolinearity je jedním z předpokladů úspěšné aplikace klasického lineárního regresního modelu. Obvyklé řešení bývá postupná eliminace vzájemně provázaných proměnných a hodnocení parametrů takto vzniklých modelů. V poslední době se osvědčily méně pracné techniky a systematičtější způsoby řešení tohoto zajímavého problému. Klíčová slova: multikolinearita, regrese, PCL, PLSR. Abstract The absence (or rather the acceptable value) of multicolinearity is one of the prerequisites of a successful application of the classical linear regression model. The usual solution is the gradual elimination of interrelated variables and followingassessmentof the resulting models. In recent times the less laborious techniques and more systematic ways of resolving this interesting issue appeared. Key words: multicollinearity, regression, PCL, PLSR.
Vedecký časopis FINANČNÉ TRHY, Bratislava, Derivat 2016, ISSN 1336-5711, 2/2016
Úvod V regresní analýze se zabýváme vytvořením vhodného matematického modelu závislosti mezi vysvětlovanou a vysvětlujícími proměnnými (prediktory), stanovujeme parametry tohoto modelu a ověřujeme hypotézy vhodnosti modelu a jeho vlastností.Počet potenciálních faktorů, které lze začlenit do regresního modelu je teoreticky omezen pouze kapacitami a dostupností dat.Fakticky je však třeba vzít v úvahu některá omezení. Předpoklady klasického modelu Předpoklady klasického lineárního regresního modelu (Greene, 2008) jsou následující: linearita – model specifikuje lineární závislost mezi y a x1, …, xk, hodnotnost (neexistence multikolinearity) – neexistuje přímá lineární závislost mezi žádnou z nezávislých proměnných xi v modelu, exogenita nezávislých proměnných – odhadovaná hodnota reziduí εi pozorovánínení funkcí pozorování žádných nezávislých proměnných. To znamená, ženezávislé proměnné nejsou nositeli žádné informace použitelné k predikcináhodné složky.Předpokládá se, že náhodná složka má, podmíněně, očekávanou hodnotu každého pozorování rovnu nule, homoskedasticita a neautokorelace reziduí – každá náhodná složka εi má stejnýa konečný rozptyl σ2a není korelována s žádnými jinými rezidui. Předpokládáse, že odchylky pozorování od jejich očekávaných hodnot jsou nekorelované, normální rozdělení – náhodné složky jsou náhodně rozděleny. Multikolinearita Často diskutovaným požadavkem je neexistence multikolinearity. Multikolinearita je pojem, jehož význam spočívá ve faktu, že je třeba vážit nejen výběr vhodných regresorů ale i jejich počet. Neadekvátní výběr a počet regresorů může způsobit nemožnost stanovení jeho koeficientů, v lepším případě učiní model nesrozumitelným a neaplikovatelným. Multikolinearita je dána korelací prediktoru s jiným prediktorem, nebo se skupinou jiných prediktorů v navrhovaném modelu (silná závislost mezi vysvětlujícími proměnnými) a znamená, že některé prediktory jsou v navrhovaném modelu více či méně nadbytečné a způsobují tak jeho zbytnělost a nesrozumitelnost. Multikolinearita je do určité míry běžný jev a nemusí způsobovat větší potíže. Avšak velká multikolinearita je značný problém, neboť nadhodnocuje součty čtverců regresních koeficientů, což vede k nadhodnocení důležitosti některých vysvětlujících proměnných. Multikolinearitataké zvyšuje rozptyly odhadů a snižuje tím přesnost odhadů individuálních hodnot. Vedecký časopis FINANČNÉ TRHY, Bratislava, Derivat 2016, ISSN 1336-5711, 2/2016
Některé regresní koeficienty se tak jeví statisticky nevýznamné, i když F-test může být významný, což by jinak nasvědčovalo dobrému modelu. Odhady regresních koeficientů mohou být nestabilní, dochází k numerickým problémům při jejich vyčíslení. Čím větší rozptyl koeficienty mají, tím obtížnější je interpretace individuálního vlivu jednotlivých vysvětlujících proměnných a jejich vliv nelze odděleně sledovat. Obecné příčiny multikolinearity jsou zejména: regresní model obsahuje nadměrný počet vysvětlujících proměnných, nevhodná volba kombinací hodnot vysvětlujících proměnných, nevhodné rozmístění experimentálních bodů, omezení v modelu nebo v datech, tendence časových řad ekonomických ukazatelů (makroúdajů) vyvíjet se stejným směrem (např. HDP, export, import....), zahrnutí zpožděných endonebo exogenních proměnných. Pro posouzení, zda se v daném modelu zabývat problémem multikolinearity je vhodné sledovat následující signály. regresní koeficient není významný, ačkoli by teoreticky měl být vysoce korelován se závisle proměnnou, přidání nebo odebrání proměnné do/z modelu způsobí dramatické změny v regresních koeficientech, regresní koeficient má opačné znaménko, např. záporné, když očekáváme pozitivní změnu závisle proměnné na kladný pohyb příslušné nezávisle proměnné, nezávisle proměnné mají zjevně vysoké párové korelace. Multikolinearita se prokazuje zejména následujícími metodami: determinant korelační matice se při silné vzájemné lineární závislosti vysvětlujících proměnných blíží nule, nízká hodnota nejmenšího charakteristického čísla indikuje silnou lineární závislost vysvětlujících proměnných, index podmíněnosti korelační matice (odmocnina poměru největšího a nejmenšího charakteristického čísla) nad hodnotou 30 naznačuje existenci multikolinearity,
Vedecký časopis FINANČNÉ TRHY, Bratislava, Derivat 2016, ISSN 1336-5711, 2/2016
jednoduché korelační koeficienty dvojic vysvětlujících proměnných (nebo vícenásobné korelační koeficienty j-té vysvětlující proměnné vzhledem k ostatním vysvětlujícím proměnným) mají absolutní hodnoty> 0,8 (někdy se udává 0,9), kritérium M (založeno na paradoxu F-testu a dílčích t-testů) -kde ti jsou testová kritéria pro dílčí t-testy a F je testové kritérium pro celkový F-test. Orientačně, je-li (M>0,8), lineární závislost se označuje za silnou. Jedním ze způsobů měření multikolinearity je VIF (variance inflationfactor), který vyhodnocuje, jak moc se rozptyl odhadovaného regresního koeficientu zvýší, pokud jsou prediktory korelované. Pokud má VIF hodnotu jedna, nevyskytuje se v modelu multikolinearita. Naopak hodnota VIF v rozmezí 510 svědčí již o vysoké multikolinearitě. Hodnoty nad 10 znamenají problematickou spolehlivost korelačních koeficientů. S multikolinearitou se běžně lze vypořádat různými způsoby. Nejradikálnější možností bývá opatření jiných dat a pozorovacích metod, výběr jiných proměnných do modelu. Zpravidla se však zpočátku zkouší odstranění vysoce korelovaných prediktorů z modelu. V případě existence dvou, nebo více faktorů s vysokým VIF, je třeba jeden z nich z modeluodstranit, neboť představuje zřejmě nadbytečnou informaci. Odstranění jedné ze zkorelovaných proměnných zpravidla nesníží nijak dramaticky R2. Účinným postupempři provádění regrese je postupné vynechávání proměnných i s využitím speciálních znalostí sady dat (použití pomocných regresí). Pokud jsoukoeficienty determinace z pomocných regresí nižší než koeficient zkoumaného celku, pak lze multikolinearitu posoudit jako akceptovatelnou1. Progresivní možnosti řešení Zmíněné možnosti mají nevýhodu, že bývají pracné a nejsou úplně systematické. V posledních letech se proto začaly úspěšně využívat další techniky. Programový modul „PrincipalComponent and Partial Least SquaresRegression in R“2. Z názvu plyne, že modul běží v dostupném programovém prostředí „R“. Jde o relativně nově vyvinuté regresní metody (tzv. „multivariate regression methods“), které omezujípočet prediktorů na menší datovou sadu „nekorelovaných“ komponent3. Patří sem principalcomponentregression (PCR)apartial leastsquaresregression (PLSR). Tyto metody se staly populární v celé řadě oblastí, včetně přírodních 1
http://blog.minitab.com/blog/statistics-and-quality-data-analysis/giving-thanks-for-the-regression-menu-v2 http://mevik.net/work/software/pls.html 3 Autoři Bjørn-HelgeMevik (Norwegian University ofLifeSciences), Ron Wehrens (Radboud University Nijmegen) 2
Vedecký časopis FINANČNÉ TRHY, Bratislava, Derivat 2016, ISSN 1336-5711, 2/2016
věd. Hlavním důvodem je, že byly navrženy, aby se vyrovnaly se situací, kdy je mnoho, zřejmě též korelovaných, prediktorů a relativně málo pozorování. Zobecněný tvar regresní funkce má tvar Y = XB + a jeho řešení je dáno vztahem B = (XTX)−1 XTY Častým problémem je, žeXTX je singulární, protože počet proměnných (sloupců)X překračuje počet objektů (pozorování), nebo proměnné vykazují multi/kolinearitu. Obě metody, PCR i PLSR řeší tento problém dekompozicí X na ortogonální vektory T a sloupcové vektory P X=TP a regresí Y nikoli vůči X samotným ale vůči prvním sloupcům vektorů T. Zajímavým a relativně novým způsobem řešení problému je využití metod Bayesovské statistiky, např. Bayesian Model Averaging4 pro lineární modelys možností volby a vlastních definic „priors“(apriorní informace). Naše informace o hodnotě neznámého parametru (apriorní informace)může totiž být vyjádřena pomocí pravděpodobnostního rozdělení, tj. neznámý parametr můžeme považovat za náhodnou proměnnou s určitým rozdělením pravděpodobnosti a nikoliv za neznámou konstantu, jak je tomu v klasické statistice.Kvalita apriorních informací je důležitá, protože zásadním způsobem ovlivňuje aposteriorní rozdělení a tím i závěr, který vyvodíme.Když o parametru žádné apriorní informaceneznáme,předpokládáme, že každá možná hodnota odhadovaného parametru je stejně pravděpodobná. Je třeba se smířit s argumentací klasické statistiky, že apriorní informace másubjektivní charakter, čímž je dána i subjektivita modelu. V modelu vestavěné priors zahrnují apriorní koeficienty (fixní, flexibilní a hyper-g priors),pět typů modelů apriorních informací, dále vzorkovací modely nebo různé postupy na bázi MCMC.Navazující funkce umožňujíanalýzy posteriorních rozdělení apravděpodobností modelů, koeficientů, momentů a prediktivních hustot. Závěr Nejčastější případy multikolinearity jsou bohužel způsobeny ekonomickými souvislostmi vysvětlujících proměnných v modelu (analogicky v přírodních vědách). Jsou svým způsobem dané a přirozené a jejich eliminace např. vypuštěním proměnných může vést k systematickým chybám a ani
4
Autoři Martin Feldkircher and Stefan Zeugner, http://bms.zeugner.eu/doc/BMS-manual.pdf
Vedecký časopis FINANČNÉ TRHY, Bratislava, Derivat 2016, ISSN 1336-5711, 2/2016
pokus o pořízení jiného vzorku dat k lepším výstupům nemusí vést. Nastíněné metody řešení však mohou významně urychlit a zjednodušit optimalizaci výběru proměnných do modelu.
Použitá literatura Hušek, R.: Ekonometrická analýza, 1. vydání, Praha 1999 Hebák, P., Svobodová, A.: Regrese II. část, VŠE v Praze, Praha 2001 Handling Multicollinearity in Regression Analysis dostupné na: http://blog.minitab.com/blog/understanding-statistics/handling-multicollinearity-in-regressionanalysis
Hynek Černý Česká národní banka Na Příkopě 28 115 03 Praha 1
[email protected]
Vedecký časopis FINANČNÉ TRHY, Bratislava, Derivat 2016, ISSN 1336-5711, 2/2016