Obsah 1 Pˇ redmluva
4
´ ´ 2 UVOD DO REGRESN´ I ANALYZY
9
3 LINERN´ I REGRESN´ I MODEL 3.1 Odhad regresn´ıch koeficient˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Odhad rozptylu n´ahodn´ ych fluktuac´ı . . . . . . . . . . . . . . . . . . . . . . . . .
19 19 35
4 DIAGNOSTIKA ODHADU REGRESN´ IHO MODELU 4.1 Rozdˇelen´ı kvadratick´ ych forem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Rozdˇelen´ı odhadu rozptylu n´ahodn´ ych fluktuac´ı a studentizovan´ ych odhad˚ u regresn´ıch koeficient˚ u. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Intervaly a p´asy spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Testov´an´ı submodel˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 V´ ybˇer modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43 43
´ ˇ ˇ ´ 5 VYSTUPY Z POCTA COV YCH KNIHOVEN 5.1 Tabulky v´ ysledk˚ u. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Grafy rezidu´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60 60 70
ˇ ROV ˇ ´ ´ ´ ´ ˇ ˚ 6 OVE AN I ZAKLADN ICH PREDPOKLAD U 6.1 Homoskedasticita a heteroskedasticita . . . . . . . . . . . . . . . . . 6.1.1 Pˇr´ıklady situac´ı s heteroskedastick´ ymi fluktuacemi . . . . . . 6.1.2 Modely heteroskedasticity . . . . . . . . . . . . . . . . . . . . 6.1.3 Testy homoskedasticity . . . . . . . . . . . . . . . . . . . . . 6.1.4 Z´avˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Normalita n´ahodn´ ych fluktuac´ı . . . . . . . . . . . . . . . . . . . . . 6.3 Nez´avislost n´ahodn´ ych fluktuac´ı . . . . . . . . . . . . . . . . . . . . 6.4 Nez´avislost vysvˇetluj´ıc´ıch promˇenn´ ych a n´ahodn´ ych fluktuac´ı . . . . 6.4.1 vod a pˇr´ıklady situac´ı poruˇsen´ı nez´avislosti . . . . . . . . . . 6.4.2 Instrument´aln´ı promˇenn´e . . . . . . . . . . . . . . . . . . . . 6.4.3 Hausman˚ uv test nez´avislosti regresor˚ u a n´ahodn´ ych fluktuac´ı 6.4.4 Z´avˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
72 72 72 74 79 83 84 86 92 92 95 97 99
. . . . . . .
100 100 102 105 106 107 109 113
´ ˇ MODELU 7 UVAHY O SENSITIVITE 7.1 Efekt podurˇcen´ı . . . . . . . . . . . . . . . 7.2 Efekt pˇreurˇcen´ı . . . . . . . . . . . . . . . 7.3 Vliv jednoho pozorov´an´ı . . . . . . . . . . 7.4 Kolinearita . . . . . . . . . . . . . . . . . 7.4.1 Zdroje a rozpozn´an´ı kolinearity . . 7.4.2 Hˇrebenov´a regrese . . . . . . . . . 7.4.3 Odhady s line´arn´ımi ohraniˇcuj´ıc´ımi
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . podm´ınkami
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
45 48 52 55 58
7.4.4 7.4.5 7.4.6
Alternativn´ı indik´atory kolinearity a jejich z´aludnosti . . . . . . . . . . . 120 Alternativn´ı ˇreˇsen´ı probl´emu kolinearity . . . . . . . . . . . . . . . . . . . 123 Z´avˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
ˇ ´ SPECIALN ´ ´ 8 NEKTER E I TYPY REGRESN´ IHO MODELU 128 8.1 Zobecnˇen´ y regresn´ı model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 8.2 Model s diskr´etn´ı vysvˇetlovanou promˇennou . . . . . . . . . . . . . . . . . . . . . 129 8.2.1 Probl´emy s pouˇzit´ım klasick´eho regresn´ıho modelu pro bin´arn´ı vysvˇetlovanou veliˇcinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 8.2.2 Model s bin´arn´ı moˇznost´ı v´ ybˇeru . . . . . . . . . . . . . . . . . . . . . . . 131 8.2.3 Odhady parametr˚ u v line´arn´ım pravdˇepodobnostn´ım modelu . . . . . . . 132 8.2.4 Odhady parametr˚ u v probitov´em a logitov´em modelu . . . . . . . . . . . 134 8.2.5 Diskuze k pouˇzit´ı probitov´eho a logitov´eho modelu . . . . . . . . . . . . . 138 8.3 Model s kategori´aln´ımi vysvˇetluj´ıc´ımi promˇenn´ ymi . . . . . . . . . . . . . . . . . 139 8.4 Vysvˇetluj´ıc´ı promˇenn´e mˇeˇren´e s n´ahodn´ ymi chybami . . . . . . . . . . . . . . . . 141 8.5 Aproximace nepˇr´ıstupn´ ych vysvˇetluj´ıc´ıch veliˇcin . . . . . . . . . . . . . . . . . . . 143 ˇ ˇ ˇ 9 MODEL S V´ ICEROZMERNOU VYSVETLOVANOU PROMENNOU 9.1 Zd´anlivˇe nesouvisej´ıc´ı rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Simult´an´ı rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Probl´em identifikace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Identifikace pomoc´ı omezen´ı na kovarianˇcn´ı matici n´ahodn´ ych fluktuac´ı 9.2.3 Dvoustupˇ nov´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u . . . . . . . . . . . . 9.2.4 Trojstupˇ nov´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u. . . . . . . . . . . . .
. . . . . .
144 144 147 151 154 155 157
´ 10 ANALYZA VARIANCE 159 10.1 Jednoduch´e tˇr´ıdˇen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.2 Dvojn´e tˇr´ıdˇen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 ˇ ´ NETRADICN ˇ ´ ´ 11 NEKTER E I METODY REGRESN´ I ANALYZY
171
12 Literatura
174
13 Autorsk´ y rejstˇ r´ık
181
14 Vˇ ecn´ y rejstˇ r´ık
184
4
1
Pˇ redmluva
Zpracov´an´ı dat, at’ uˇz jsou numerick´eho ˇci kategori´ aln´ı charakteru, se stalo v modern´ı vˇedˇe jednou ze standarn´ıch metod vyhodnocov´an´ı informace. Zpracov´ an´ı samo je pak obvykle zaloˇzeno na nˇejak´e naˇs´ı pˇredstavˇe o charakteru dat, ˇci chcete-li o mechanizmu, kter´ y generoval dan´a data. Zm´ınˇen´a pˇredstava je zpravidla formalizov´ ana do nˇejak´e vˇedeck´e, ˇci se tak alespoˇ n tv´aˇr´ıc´ı, teorie. Koneˇcnˇe pak v´ ysledky zpracov´an´ı jsou pokl´ad´ any za objektivn´ı zjiˇstˇen´ı o svˇetˇe, kter´ y n´as obklopuje a kter´ y se takto pokouˇs´ıme pochopit a (naivnˇe) ovl´ adnout. Cel´ y tento postup je obklopen, ˇci sp´ıˇse “proniknut” celou ˇradou m´ yt˚ u a zav´ adˇej´ıc´ıch pˇredstav, kter´e maj´ı sv´e historick´e koˇreny v renesanci a osv´ıcenectv´ı, a sv´e ideov´e a moˇzn´ a, ˇze by bylo pˇresnˇejˇs´ı ˇr´ıci ideologick´e, koˇreny v p´ yˇse ˇclovˇeka, coby p´ana pˇr´ırody. Nˇekdy jdou pˇredstavy tˇech, kteˇr´ı toto zpracov´an´ı aplikuj´ı aˇz tak daleko, ˇze kaˇzd´e jin´e zpracov´ an´ı informace pokl´adaj´ı pˇrinejmenˇs´ım za druhoˇrad´e, ne-li rovnou za bezcenn´e. Dodejme rovnou, ˇze obvykle jsou to ti, kteˇr´ı nekriticky obdivuj´ı vˇedeck´e pozn´an´ı a neuvˇedomuj´ı si ani re´aln´e moˇznosti modern´ı vˇedy, na stranˇe jedn´e, ani jej´ı nepˇrekroˇciteln´e hranice, na stranˇe druh´e. Skripta, kter´a m´ate pˇred sebou, jsou v´ ykladem jedn´e z metod zpracov´ an´ı dat, a dodejme, ˇze jedn´e z nejefektivnˇejˇs´ıch, totiˇz regresn´ı anal´ yzy. Jako takov´ a nab´ıdnou propracovanou teorii, ˇci pˇresnˇeji ˇreˇceno, jej´ı ˇc´ast, kterou bychom dnes mohli nazvat snad klasickou ˇc´ ast´ı regresn´ı anal´ yzy. Tato je t´emˇeˇr v´ yhradnˇe zaloˇzena na metodˇe nejmenˇs´ıch ˇctverc˚ u a zhruba po tˇrech desetilet´ıch budov´an´ı robustn´ı statistiky, je jiˇz souˇcasn´e dobˇe menˇs´ı ˇc´ ast´ı teorie regrese. D˚ uvody, proˇc se t´eto klasick´e teorii budeme vˇenovat, jsou n´asleduj´ıc´ı. Mezi uˇzivateli je mimo jakoukoliv pochybnost st´ale nejv´ıce zn´ama a nejv´ıce uˇz´ıv´ ana, aˇc se snadno prok´aˇze, ˇze metoda nejmenˇs´ıch ˇctverc˚ u je jednou z nejn´achylnˇejˇs´ıch k “vyprodukov´ an´ı” zav´ adˇej´ıc´ıch v´ ysledk˚ u. T´ım sp´ıˇse je tˇreba si ji osvojit tak, abychom vˇcas rozpoznali, kdy k nˇeˇcemu takov´emu m˚ uˇze doj´ıt. Dalˇs´ım d˚ uvodem je pak to, ˇze jsou jej´ı v´ ysledky velmi ˇcasto chybnˇe interpretov´ any a to i v pˇr´ıpadˇe, ˇze jej´ı v´ ysledky jsou korektn´ı. T´ım sp´ıˇse je tˇreba si ji osvojit tak, abychom vˇcas rozpoznali, kdy k nˇeˇcemu takov´emu doˇslo a umˇeli to uv´est na pravou m´ıru. Dalˇs´ım d˚ uvodem je nepochybnˇe tak´e to, ˇze nab´ız´ı snadno akceptovatelnou geometrickou interpretaci (ted’ mluv´ıme o interpretaci metody nikoliv o interpretaci v´ ysledk˚ u, aby bylo jasno). Pochopen´ı t´eto interpretace metody nejmenˇs´ıch ˇctverc˚ u n´ as snad nejl´epe vyzbroj´ı k rozpozn´ an´ı v´yhod i nev´yhod jin´ych metod odhadu regresn´ıch koeficient˚ u. Koneˇcnˇe pak komplexnost t´eto klasick´e teorie, zejm´ena pak jej´ı rozs´ahl´e diagnostick´e partie napov´ıdaj´ı a zkuˇsenosti to potvrzuj´ı, ˇze bez zevrubn´e a eficientn´ı aposteriorn´ı diagnostiky nen´ı nadˇeje na spolehlivost odhadnut´eho modelu solidnˇe podepˇrena. To n´ am umoˇzn´ı postavit se kriticky k tˇem metod´ am, obvykle ad hoc vyvinut´ych na z´ akladˇe zd´ anlivˇe rozumn´e heuristiky, 1 kter´ e takov´yto “doprovodn´y” apar´ at nenab´ızej´ı ˇci jej alespoˇ n neumoˇzn ˇuj´ı pˇrevz´ıt z klasick´e regrese. Dˇr´ıve neˇz se vˇsak pust´ıme do vlastn´ıho v´ ykladu, vrat’me se alespoˇ n velmi struˇcnˇe k tomu, 1 V pr˚ ubˇehu dalˇs´ıho v´ ykladu bude nˇekolikr´ at pouˇzito slovo heuristika, kter´e nepatˇr´ı mezi nejbˇeˇznˇeji pouˇz´ıvan´ a slova kaˇzdodenn´ı ˇceˇstiny. Upˇresnˇeme proto, co budeme t´ımto slovem rozumˇet. T´ımto slovem budeme oznaˇcovat jak´ ysi soubor idej´ı a pˇredstav, ˇci “rozumov´ ych” argument˚ u, kter´e cosi vysvˇetluj´ı, obvykle d˚ uvody, proˇc urˇcitou teorii ˇci jej´ı ˇca ´st vytv´ aˇr´ıme pr´ avˇe tak, jak pak d´ ale n´ asleduje. Nejde tedy jen o filozofick´e pˇredstavy, ale o cosi ˇsirˇs´ıho, zaloˇzen´eho na “racion´ aln´ım” pˇr´ıstupu ke svˇetu, coˇz vˇsak, pr´ avˇe d´ıky t´e “zˇrejm´e racionalitˇe” se m˚ uˇze uk´ azat v r´ amci formalizovan´e teorie inkonsistentn´ı, lich´e ˇci zav´ adˇej´ıc´ı. Vzpomeˇ nme jen toho, ˇze vzhledem k tomu, ˇze mezi kaˇzd´ ymi dvˇema racion´ aln´ımi ˇc´ısly je iracion´ aln´ı a kaˇzd´ ymi dvˇema iracion´ aln´ımi je racion´ aln´ı, “zdrav´ y” rozum (nˇekdy t´eˇz oznaˇcovan´ y jako “selsk´ y”) usoud´ı, ˇze je jich stejn´e mnoˇzstv´ı.
5
co bylo ˇreˇceno na zaˇc´atku, totiˇz k nˇekter´ ym m´ yt˚ um, ˇci chcete-li k filozofii, kter´a stoj´ı v pozad´ı zpracov´an´ı dat, zejm´ena v pozad´ı interpretace v´ ysledk˚ u. Renesance pˇrinesla lidstvu osvobozen´ı od mnoha dogmat, kter´a jej do t´e doby svazovala, ale z dneˇsn´ıho pohledu jsme jiˇz schopni zˇretelnˇe nahl´ednout, ˇze nastolila mnoh´a jin´a dogmata, kter´a ˇzel Bohu st´ale jeˇstˇe pˇreˇz´ıvaj´ı. Jedn´ım z nich je nekritick´ y obdiv k vˇedˇe, kter´ y je vˇsak pro ni obvykle medvˇed´ı sluˇzbou. Mˇejme vˇzdy na pamˇeti, byt’ budeme st´at v tv´aˇri v tv´aˇr nej´ uˇzasnˇejˇs´ım metod´am, kter´e modern´ı vˇeda nab´ız´ı, ˇze je tato jen a jen v´ ytvorem lidsk´eho ducha a zasluhuje si n´aˇs obdiv, nikoliv vˇsak nekritick´ y. Nav´ıc omezenost jej´ıch moˇznosti je v´ıc neˇz patrn´a. Staˇc´ı si uvˇedomit, ˇze na ˇradu velmi z´avaˇzn´ ych, ne-li nejpodstatnˇejˇs´ıch probl´em˚ u lidsk´eho ˇzivota, vˇeda nem´a a ani nem˚ uˇze m´ıt uspokojivou odpovˇed’. Jsou to napˇr. ot´azky po smyslu lidsk´eho ˇzivota, po tom, odkud se bere l´aska, touha ˇci nadˇeje. Odpovˇedi na tyto ot´azky mus´ıme hledat jinde, napˇr. v teologii, kter´a vˇsak zase pˇrirozenˇe neum´ı tak dobˇre pˇredpov´ıdat, jak´ y ˇze bude napˇr. hrub´ y n´arodn´ı d˚ uchod v pˇr´ıˇst´ım ˇctvrtlet´ı. Renesance vˇsak pˇrinesla jeˇstˇe dalˇs´ı pˇredstavy, kter´e se dnes jev´ı jiˇz jen tˇeˇzko udrˇziteln´e (z hlediska modern´ı filozofie vˇedy), ale kter´e jeˇstˇe st´ale ovlivˇ nuj´ı pohled modern´ıho ˇclovˇeka na to, co to vlastnˇe vˇeda je. Jednou z nich je pˇredstava, ˇze za abstrakc´ı, kterou uˇcin´ıme na z´akladˇe pozorov´an´ı (mnoha) opakov´ an´ı t´ehoˇz jevu, ˇcasto navozen´eho pevnˇe dan´ ymi okolnostmi, napˇr. upuˇstˇen´ y k´amen vˇzdy pad´a k zemi, stoj´ı jak´asi entita (gravitace), kterou sice nem˚ uˇzeme “na vlastn´ı oˇci” vidˇet (tak jak nem˚ uˇzeme napˇr. vidˇet vzduch), ale kter´a, podobnˇe jako vzduch objektivnˇe existuje a projevuje se nˇejakou kauz´ aln´ı z´ akonitost´ı (viz v´ yˇse zm´ınˇen´ a pˇredstava o mechanizmu, kter´ y generoval data). Tato z´akonitost je pak pops´ana teori´ı, pˇriˇcemˇz za ide´aln´ı se povaˇzuje matematicky zformalizovan´ a teorie. K jej´ı verifikaci se pak pouˇzije pokus, ve kter´em se zkouman´e objekty zachovaj´ı tak, jak to “pˇredpov´ı” tato teorie. Renesaˇcn´ı vˇeda pak pˇredpokl´adala, ˇze svˇet se vlastnˇe skl´ad´a z (koneˇcn´eho) poˇctu takov´ ych z´akonitost´ı, ˇci chcete-li princip˚ u, kter´e byly jednoznaˇcnˇe do svˇeta veps´ any jeho p˚ uvodn´ım hybatelem ˇci se (po velk´em 2 tˇresku ) samy od sebe nˇejak objektivnˇe ustavily. Pokusme se ponˇekud hloubˇeji proniknout do toho, co bylo pr´avˇe ˇreˇceno. Jiˇz v 18. stolet´ı napsal Immanuel Kant, ˇze Galileo Galilei podrobil pˇr´ırodu v´yslechu a idealizoval ji, to jest zmrzaˇcil ji tak, aˇz byla ochotna hovoˇrit jazykem, kter´y od n´ı chtˇel slyˇset, tj. jazykem matematiky. Aˇz pˇriznala, ˇze se odjakˇziva ˇr´ıd´ı onˇemi jednoduch´ymi principy, tj. z´ akonitostmi. Galileo Galilei nenaslouchal pˇr´ırodˇe jako ˇz´ ak uˇciteli, naslouchal ji jako soudce u ´trpn´eho pr´ ava. (Viz Prigogine a Stengers (1977).) Zamysl´ıme-li se nad celou vˇec´ı, snadno nahl´edneme onu “troufalost”, kter´a si mysl´ı, ˇze vysvˇetlen´ı, zejm´ena kauz´aln´ı vysvˇetlen´ı, kter´e jsme tou ˇci onou teori´ı podali, je jedin´e moˇzn´e. Ostatnˇe jiˇz Karl R. Popper v B´ıdˇe historicismu (Popper (1957)) naznaˇcil, ˇze vˇsichni ti, kteˇr´ı si mysl´ı, ˇze naˇsli jedin´e moˇzn´e z´ akonit´e, pokud moˇzno deterministicky kauz´ aln´ı 3 vysvˇetlen´ı trp´ı jen nedostatkem fantazie (ne-li i nˇeˇc´ım horˇs´ım) . Je naprosto jasn´e, ˇze v´ yˇse ’ uveden´e abstrakce (jako je napˇr. gravitace) jsou nesm´ırnˇe uˇziteˇcn´e, nebot dovoluj´ı popsat urˇcit´ y jev nar´az a nikoliv v jeho jednotlivostech. Na druh´e stranˇe, uzn´an´ı ˇci pˇrijmut´ı objektivn´ı existence takov´e entity (jako napˇr. gravitace) vyˇzaduje pˇrinejmenˇs´ım velice rozs´ahlou diskuzi o tom, co to je objektivn´ı existence, ale sp´ıˇse to prostˇe vyˇzaduje urˇcit´ y krok v´ıry. 2
Ten samozˇrejmˇe renesance jeˇstˇe nepˇredpokl´ adala, proto ty z´ avorky. Pros´ım vzpomeˇ nte si na Karla Rainmunda Poppera vˇzdy, kdykoliv V´ as nˇekdo bude pˇresvˇedˇcovat, ˇze jedinˇe on m´ a pravdu; trp´ı jen (snad jen) nedostatkem pˇredstavivosti. 3
6
V pracech Ilji Prigogina a Isabely Stengersov´e (viz napˇr. Prigogine a Stengers (1984)) pak zv´ıdav´ y ˇcten´aˇr m˚ uˇze tak´e nal´ezt diskuzi k tomu, ˇze podobn´e, ˇcasto velmi nezˇreteln´e a tud´ıˇz ˇspatnˇe rozpoznateln´e kroky v´ıry si vyˇzaduj´ı i ty “nejprimitivnˇejˇs´ı” poˇc´ atky zkoum´ an´ı svˇeta, kter´e uˇcin´ıme uˇz ve sv´em rann´em dˇetstv´ı. Jejich pr´ace diskutuj´ı rovnˇeˇz “sklon” vˇedeck´ ych teori´ı ke kauzalitˇe. Touha po dosaˇzen´ı teorie maj´ıc´ı charakter kauz´ aln´ıch souvislost´ı m´a svoje koˇreny rovnˇeˇz v renesanci. Problematiˇcnost tohoto pojmu zaˇcala b´ yt zˇrejm´ a v modern´ı fyzice a odv´ıj´ı se od prac´ı Nielse Bohra. Zd´anlivˇe tato problematika souvis´ı s neˇreˇsitelnou a vlastnˇe v podstaˇe zav´adˇej´ıc´ı ot´azkou o deterministick´em ˇci indeterministick´em charakteru svˇeta. Ve skuteˇcnosti vˇsak jedn´a o ot´azku adekv´atnosti (akceptovatelnosti, v´ yhodnosti atd.) kauz´ aln´ıho ˇci pravdˇepodobnostn´ıho popisu svˇeta. Zd˚ uraznˇeme, ˇze to zda zvol´ıme pro popis svˇeta kauz´ aln´ı teorii ˇci teorii vyuˇz´ıvaj´ıc´ı pravdˇepodobnostn´ı formalizmus, ˇci jin´ y n´astroj na formalizaci neurˇcitosti a nejistoty, nikterak nevypov´ıd´a o tom, zda si mysl´ıme, ˇze svˇet je deterministick´ y ˇci nikoliv. Jak jsme totiˇz uk´azali v´ yˇse, n´azor, ˇze naˇse teorie vysvˇetluj´ı jak´ y svˇet “ve skuteˇcnosti” je, je jen tˇeˇzko udrˇziteln´ y. Tato problematika je u ´zce sv´az´ ana s v´ ysledky Kurta Gdela o ne´ uplnosti bezesporn´ ych axiomatick´ ych syst´em˚ u. Jeho v´ ysledky patrnˇe napov´ıdaj´ı, ˇze pravdˇepodobnostn´ı popis svˇeta je inherentnˇe vloˇzen do naˇseho racion´aln´ıho uvaˇzov´ an´ı zakotven´eho v matamatice tak, jak se historicky vyvinula. V´ yˇse jsme ˇrekli, ˇze renesanˇcn´ım ide´alem “vysvˇetluj´ıc´ı” teorie byla matematicky formalizovan´a teorie. To patrnˇe plat´ı i dnes. Pr´avˇe naznaˇcen´ a diskuze naznaˇcila, ˇze c´ılem budov´ an´ı (formalizovan´ ych) teori´ı dost dobˇre nem˚ uˇze b´ yt objektivn´ı, jednoznaˇcn´e vysvˇetlen´ı svˇeta. Spokoj´ımeli se vˇsak se skromnˇejˇs´ım c´ılem, totiˇz s nalezen´ım n´astroje na funkˇcn´ı predikci, bude jedno, zda takov´ ych n´astroj˚ u bude v´ıce ˇci jen jeden. Hlavnˇe, kdyˇz bude d´avat spolehliv´e pˇredpovˇedi ˇci n´avody, chcete-li, jak napˇr. urovnat v´aleˇcn´e konflikty, zv´ yˇsit u ´rodu a zm´ırnit hlad mnoha n´arod˚ u. Samozˇrejmˇe, ˇze pak formalizovanˇejˇs´ı teorie m´a vˇetˇs´ı cenu neˇz jak´esi v´agn´ı z´avˇery, nebot’ m´a vˇetˇs´ı nadˇeji d´at efektivnˇejˇs´ı pˇredpovˇedi. Je nutn´e si vˇsak uvˇedomit, ˇze kaˇzd´ a takov´ a teorie ˇ se op´ır´a o zkuˇsenost. C´ım je tato zkuˇsenost d˚ uvˇeryhodnˇejˇs´ı, tj. ˇc´ım jsou data, kter´a jsme pouˇzili spolehlivˇejˇs´ı a pˇresnˇejˇs´ı, t´ım m˚ uˇze b´ yt i v´ ysledek formalizovanˇejˇs´ı. Kaˇzd´ y, kdo v ˇzivotˇe prov´ adˇel nˇejak´e v´ ypoˇcty, si je vˇedom toho, ˇze nem´a obvykle cenu ud´avat v´ ysledek na deset desetinn´ ych m´ıst, byla-li data mˇeˇrena s pˇresnost´ı na jedno desetinn´e m´ısto. Jedn´ım z dalˇs´ıch m´ yt˚ u, kter´ y dosud pˇreˇzil a kter´ y je “´ uspˇeˇsnˇe pouˇz´ıv´ an” je v´ yˇse zm´ınˇen´ y m´ ytus ovˇeˇrovac´ıho pokusu. Je aˇz zar´aˇzej´ıc´ı, ˇze ˇcasto i vˇedeˇct´ı pracovn´ıci, kter´ ym se dostalo alespoˇ n element´arn´ıho statistick´eho vzdˇel´ an´ı, si neuvˇedomuj´ı, ˇze ovˇeˇrovac´ı pokus nen´ı nic v´ıce ani nic m´enˇe neˇz testov´an´ı hypot´ezy. To bud’ hypot´ezu zam´ıtne nebo nezam´ıtne, ale nikdy nepotvrd´ı - kromˇe uˇcebnicov´ ych akademick´ ych pˇr´ıpad˚ u, kdy hypot´eza a alternativa jsou komplement´ arn´ı. Koneˇcn´ y, neodvolaten´ y verdikt o teorii m˚ uˇze b´ yt jen zam´ıtav´ y, totiˇz kdyˇz pˇredpovˇed’ selˇze. Jinak si lze vˇzdy pˇredstavit, ˇze jin´a data (jin´e okolnosti, chcete-li to ˇr´ıci jinak) mohou naˇsi teorii ˇ ısla 3, 5, 7, 11, 13 jsou sice lich´ (hypot´ezu) docela dobˇre vyvr´atit. C´ a ˇc´ısla a prvoˇc´ısla, ale to jeˇstˇe neznamen´a, ˇze jin´a ˇc´ısla teorii o tom, ˇze vˇsechna lich´ a ˇc´ısla jsou prvoˇc´ısla, nemohou vyvr´atit. Z´avˇerem t´eto kr´atk´e exkurze do filozofie (matematick´eho) modelov´ an´ı si dovolme jeˇstˇe jednu pozn´amku. Ta ostatnˇe rovnˇeˇz souvis´ı s charakterem vˇedeck´ ych teori´ı, tak jak byl v´ yˇse diskutov´ an. V souvislosti s t´ım, ˇze mnohdy se st´ale m´a za to, ˇze teorie je jak´ ymsi objektivn´ım obrazem svˇeta, ˇcasto oproˇstˇen´eho od spousty nepodstatn´ ych vˇec´ı a okolnost´ı, interpretuje se to, co “vyˇslo” po aplikaci nˇekter´e teorie jako jak´esi objektivn´ı zjiˇstˇen´ı. To co “vyˇslo”, je pokl´ad´ ano za cosi, co 7
stoj´ı kdesi za daty, ˇci chcete-li, co je nˇejak v nich ukryto a k ˇcemu jsme se pr´avˇe pomoci naˇsich matematick´ ych n´astroj˚ u dopracovali. Podobnˇe jako kdyˇz oloupeme ˇslupky z cibule, najdeme jej´ı j´adro. Potom z´avˇery anal´ yzy dat prezentujeme tak, ˇze to tak objektivnˇe vyˇslo. Aˇckoliv to tak moˇzn´a na prvn´ı pohled vypad´a, ve skuteˇcnosti tomu tak nen´ı. Abychom to nahl´edli vrat’me se jeˇstˇe kr´atce k v´ yˇse uveden´e diskuzi. Uvˇedomme si, ˇze v´ yˇse zm´ınˇen´a abstrakce proveden´ a na z´akladˇe opakov´ an´ı mnoha podobn´ ych jev˚ u je vˇec proveden´a nˇekter´ ym subjektem, tj. badatelem. Na tomto m´ıstˇe pros´ım ˇcten´ aˇre, aby se oprostil od marxismem pˇestovan´eho pejorativn´ıho n´adechu slova subjektivn´ı, nebot’ dokud bude vˇeda prov´adˇena jednotliv´ ymi muˇzi a ˇzenami, bude vˇzdy subjektivn´ı v tom smyslu, ˇze odpovˇednost za v´ yˇse naznaˇcenou abstrakci, pr´avˇe tak jako za vytvoˇren´ı teorie a jej´ı pˇr´ıpadnou aplikaci nese (postupnˇe) ten, kdo ji provedl, vymyslel a pˇr´ıpadnˇe rozhodl aplikovat. Nanejv´ yˇse m˚ uˇze doj´ıt k “zobjektivozov´an´ı” tohoto postupu t´ım, ˇze se na nˇem shodne v´ıce odborn´ık˚ u z dan´e oblasti. Ani to vˇsak nezmˇen´ı charakter v´ ysledku na objektivn´ı ˇci spr´ avn´y ˇci udrˇziteln´y (pˇr´ıpadnˇe si ˇcten´aˇr m˚ uˇze doplnit jin´e vzneˇsen´e slovo). Staˇc´ı vzpomenout “zobjektivizovan´ y” n´azor mnoha stˇredovˇek´ ych odborn´ık˚ u o geocentrick´e podstatˇe naˇseho planet´arn´ıho syst´emu. Podobnˇe pˇri anal´ yze dat volba metody a interpretace v´ ysledk˚ u je zcela na zodpovˇednosti toho, kdo ji pouˇzil a v´ ysledky interpretoval. Prohl´as´ıli nˇekdo, ˇze cosi objektivnˇe vyˇslo bud’ se boj´ı n´est odpovˇednost za v´ ysledek nebo cosi nalh´av´ a sobˇe a ostatn´ım. ’ Na z´avˇer pˇredmluvy jeˇstˇe uved me dvˇe technick´e pozn´amky. Pˇrednˇe dodejme, ˇze pˇredkl´adan´a skripta jiˇz sama o sobˇe pˇredstavuj´ı takov´ y objem textu, kter´ y je na sam´e hranici moˇznost´ı b´ yti vyloˇzen v jednom semestru. Proto nebylo moˇzno do skript zaˇradit dalˇs´ı partie, kter´e jsou sice u ´zce sv´az´ any s regresn´ı anal´ yzou (robustn´ı regrese, dynamick´ y model spolu s alespoˇ n kr´atkou exkurz´ı do ˇcasov´ ych ˇrad, atd.), ale kter´e jsou stejnˇe pˇredn´ aˇseny aˇz v r´amci v´ ybˇerov´e pˇredn´aˇsky, navazuj´ıc´ı na tu, pro kterou jsou urˇcena tato skripta. Proto autor pl´anuje napsat dalˇs´ı d´ıl skript (v pr˚ ubˇehu jednoho aˇz dvou let), kter´ y (pˇrinejmenˇs´ım) pokryje pr´avˇe zm´ınˇen´e partie. Mezi pˇripom´ınkami tˇech, kteˇr´ı rukopis skript ˇcetli se nˇekdy objevila ta, ˇze text je pˇr´ıliˇs zat´ıˇzen vsuvkami um´ıstˇen´ ymi v z´avork´ ach. Ostatnˇe je zn´amo, ˇze nˇekter´e ˇcasopisy bud’ zcela nebo t´emˇeˇr odm´ıtaj´ı text, ve kter´em jsou z´avorky. To je pˇr´ıstup nepochybnˇe extr´emn´ı a ponˇekud nerozumn´ y. Je sice pravda, ˇze to, co je um´ıstˇeno v z´avork´ ach, lze vˇzdy vyj´adˇrit dalˇs´ı vˇetou um´ıstˇenou kdesi d´ale v textu, ˇci vedlejˇs´ı vˇetou, ale je to (prakticky) vˇzdy za cenu vˇetˇs´ıho m´ısta. Napˇr. z´avorky u slova prakticky v pˇredchoz´ı vˇetˇe d´avaj´ı tuˇsit, ˇze je to cel´e m´ınˇeno s jakousi pravdˇepodobnost´ı, tj. plat´ı to maliˇcko slabˇeji, neˇz by to platilo bez tˇech z´avorek. Podobn´ y pˇr´ıklad z n´ıˇze uveden´eho textu, totiˇz : “Naprosto pˇr´ımoˇcar´ ym zobecnˇen´ım tohoto modelu je model uvaˇzuj´ıc´ı soubor M regresn´ıch rovnic typu (3), kter´e spolu (na prvn´ı pohled) nesouvisej´ı (odtud n´azev).” demonstruje, ˇze ˇceˇstina (tedy alespoˇ n psan´ y jazyk) pomoc´ı z´avorek rozvinula cosi, co moˇzn´a ˇrada jin´ ych jazyk˚ u nem´a. Pokud by totiˇz ono na prvn´ı pohled nebylo v z´avorce, znamenalo by to sdˇelen´ı, ˇze rovnice spolu opravdu nesouvisej´ı, dokonce evidentnˇe nesouvisej´ı, jak je vidˇet na prvn´ı pohled. Takto naopak vˇeta ˇr´ık´ a, ˇze se na prvn´ı pohled zd´ a, ˇze spolu nesouvisej´ı, ale nen´ı to pravda, rovnice spolu nˇejak souvisej´ı. Vˇsimli jste si kolik m´ısta nav´ıc jsme potˇrebovali. Samozˇrejmˇe, ˇze to nˇekdy ˇcin´ı ˇcten´ı textu m´enˇe plynul´e, coˇz vˇsak tak´e m˚ uˇze znamenat, ˇze to ˇcten´aˇre donut´ı pˇreˇc´ıst si danou vˇetu dvakr´ at a t´ım vypadnout z “polosp´anku”, do kter´eho upad´a, je-li text pˇr´ıliˇs plynul´ y. Na druh´e stranˇe, nˇekdy je tˇreba, aby ˇcten´ aˇr plynule sledoval l´ınii u ´vah, 8
nebot’ jinak nedojde ke stejn´emu z´avˇeru jako autor. (Nˇekteˇr´ı autoˇri, zejm´ena ve “spoleˇcenskovˇedn´ı” oblasti tento princip vyuˇz´ıvaj´ı tak obratnˇe, ˇze ˇcten´ aˇr pak jen tˇeˇzko hled´a bod, ve ktr´em autor uˇcinil “krok stranou” a t´ım doˇsel pr´avˇe k tomu, k ˇcemu chtˇel doj´ıt.) Pˇrirozenˇe jako vˇsechny n´astroje usnadˇ nuj´ıc´ı sdˇelov´an´ı informac´ı, tak i tento mus´ı m´ıt svoji m´ıru. Ostatnˇe ˇz´ adn´ y extr´emismus nen´ı nikdy ku prospˇechu vˇeci. Proto byly nˇekter´e z´avorky (a trof´am si ˇr´ıci, ˇze v´ıce neˇz polovina, tj. ty kter´e ˇsly bez vˇetˇs´ı spotˇreby m´ısta) odstranˇeny. Podˇ ekov´ an´ı. Autor skript by r´ad podˇekoval vˇsem, kteˇr´ı mu ke skript˚ um dodali nˇejak´e pˇripom´ınky, zejm´ena recenzentovi doc. ing. Igoru Vajdovi, DrSc., kter´ y skripta pˇreˇcetl velmi pozornˇe a navrhl ˇradu zlepˇsen´ı. Za vˇsechny pˇr´ıpadn´e nedostatky vˇsak nesu odpovˇednost toliko j´a, a pros´ım proto o ˇcten´aˇrovu shov´ıvavost. Velice ocen´ım vˇsechny dalˇs´ı pˇripom´ınky, zejm´ena t´ ykaj´ıc´ı se obsahu a tˇech m´ıst, kde jsou vyjadˇrov´ ana stanoviska k vhodnosti, pouˇzitelnosti atd. toho ˇci onoho postupu.
V Praze, 25. ˇr´ıjna 1997
9
´ ´ UVOD DO REGRESN´I ANALYZY
2
Je naprosto pˇrirozen´e, ˇze ti, kdo se rozhodli sezn´amit se statistick´ ym zpracov´ an´ım dat, se v z´akladn´ıch uˇcebnic´ıch nejprve setk´avaj´ı s u ´lohami, ve kter´ ych se odhaduj´ı parametry rozdˇelen´ı n´ahodn´ ych veliˇcin, pˇr´ıpadnˇe se testuj´ı nˇekter´e jednoduch´e hypot´ezy o nich. Se skuteˇcnˇe zaj´ımav´ ymi statistick´ ymi postupy se vˇsak setkaj´ı aˇz ve chv´ıli, kdy dojde na u ´lohy, snaˇz´ıc´ı se postihnout vz´ajemn´e vztahy n´ahodn´ ych veliˇcin. R˚ uzn´ ych metod, kter´e analyzuj´ı strukturu vztah˚ u mezi n´ahodn´ ymi veliˇcinami je pˇrirozenˇe velk´e mnoˇzstv´ı a kaˇzd´ a z nich m´a za sebou historii, kter´a napov´ıd´a, proˇc byla takov´a metoda budov´ ana, tj. jak´e byly p˚ uvodn´ı d˚ uvody pro jej´ı navrˇzen´ı, jak´a byla motivace, ˇci chcete-li inspirace, autor˚ u. Nam´atkou jmenujme napˇr. anal´ yzu variance, zpracov´an´ı kontingenˇcn´ıch tabulek ˇci diskriminaˇcn´ı a shlukovou anal´ yzu. Nˇekter´e postupy vznikly pˇrirozenˇe zcela “mimo” statistiku, napˇr. faktorov´ a anal´ yza, a byly statistiky teprve rozvinuty, pˇr´ıpadnˇe “dovybaveny” vhodn´ ym teoretick´ ym apar´atem. Historick´e z´aznamy dokl´adaj´ı mimo jakoukoliv pochybnost, ˇze pokusy o nalezen´ı vz´ajemn´eho vztahu n´ahodn´ ych veliˇcin existovaly od sam´ ych poˇc´atk˚ u budov´an´ı teorie pravdˇepodobnosti (Galilei (1632), Boscovitch (a Maire) (1757), Laplace (1793), Legendre (1805), Gauss (1809)). Skripta, kter´e pr´avˇe zaˇc´ın´ ate studovat, jsou vˇenov´ana jedn´e z nejefektivnˇejˇs´ıch metod anal´ yzy mnoharozmˇern´ ych (ˇci v´ıcerozmˇern´ ych, 4 jak chcete ) dat. Regresn´ı anal´ yza, aˇc se to m˚ uˇze zd´at pˇrekvapiv´e, odvozuje sv˚ uj n´azev od anglick´eho slova regression. V roce 1885 totiˇz Sir Francis Galton publikoval v´ ysledek sv´ ych studi´ı o vztahu v´ yˇsky otc˚ u a syn˚ u v ˇcl´anku “Regression towards mediocrity in hereditary stature”. Jak napov´ıd´a n´azev ˇcl´anku, zjistil, ˇze je pravdˇepodobnˇejˇs´ı jev, ˇze v´ yˇska syna bude bl´ıˇze populaˇcn´ımu pr˚ umˇeru neˇz v´ yˇska otce, neˇz jev opaˇcn´ y, totiˇz ˇze v´ yˇska syna se bude od pr˚ umˇern´e v´ yˇsky muˇz˚ u liˇsit v´ıce neˇz se liˇs´ı v´ yˇska jeho otce. Ostatnˇe, kdyˇz uˇz toto zjiˇstˇen´ı v´ıme, pˇripad´ a n´am zcela pˇrirozen´e, nebot’ pokud by takov´a tendence neplatila, doch´ azelo by k neomezen´e fluktuaci v´ yˇsek muˇz˚ u, tj. dnes uˇz by mezi n´ami museli ˇz´ıt jak obˇri tak trpasl´ıci. Odhad koeficient˚ u modelu byla poˇr´ızen, podobnˇe jako je tomu i v pˇrev´aˇzn´e vˇetˇsinˇe pˇr´ıpad˚ u dnes, metodou nejmenˇs´ıch ˇctverc˚ u (the least squares), kter´a v t´e dobˇe byla jiˇz t´emˇeˇr sto let zn´ama, viz Adrien Marie Legendre (1805) a Carl Friedrich Gauss (1809). Aˇckoliv v dobˇe, kdy Sir Francis Galton psal sv˚ uj ˇcl´ anek byla zn´ama i jin´a metoda odhadu parametr˚ u, totiˇz metoda minimalizuj´ıc´ı souˇcet absolutn´ıch odchylek, je celkem pˇrirozen´e, ˇze byla pouˇzita metoda nejmenˇs´ıch ˇctverc˚ u, nebot’ je jednoduch´ a a d´av´ a explicitn´ı vztah pro vyˇc´ıslen´ı odhad˚ u na z´akladˇe analyzovan´ ych dat. Naopak metoda minimalizuj´ıc´ı souˇcet absolutn´ıch odchylek (Galileo Galilei (1632), Roger Joseph (ˇci Rodjer Josef) Boscovich (1757), Pierre Simon Laplace (1793)), kter´a je dnes pouˇz´ıv´ ana alternativnˇe k metodˇe nejmenˇs´ıch ˇctverc˚ u, vyˇzaduje, pˇri vˇetˇs´ım poˇctu dat, nasazen´ı v´ ykonn´e v´ ypoˇcetn´ı techniky. Na rozd´ıl od nejmenˇs´ıch ˇctverc˚ u vˇsak jej´ı v´ ysledky l´epe “vzdoruj´ı” kontaminac´ı dat, nebot’ v r´amci dnes pouˇz´ıvan´ ych pojm˚ u je tato metoda robustn´ı alespoˇ n proti odlehl´ ym pozorov´ an´ım ve vysvˇetlovan´e promˇenn´e a “navzdory” obecnˇe panuj´ıc´ı domnˇence ˇci pˇredsudku o jej´ı mal´e eficienci lze uk´azat, ˇze pokud data generovan´a byt’ pˇresnˇe norm´aln´ım modelem obsahuj´ı na kaˇzd´ ych 1000 pozorov´ an´ı dvˇe poˇskozen´a (kontaminovan´a) pozorov´an´ı, je tato metoda v´ ykonnˇejˇs´ı (eficientnˇejˇs´ı - pro ty, kdo 4
Nˇekdy jsou vedeny zd´ anlivˇe uˇcen´e diskuze o tom, zda uˇz´ıvat to ˇci ono slovo. Je celkem pˇrirozen´e, ˇze se takov´e diskuze objevuj´ı, nebot’ nˇekter´e vˇedn´ı obory by patrnˇe jinak nemˇely co dˇelat. Je vˇsak pˇrinejmenˇs´ım pˇrekvapiv´e, ˇze se takov´e diskuze objevuj´ı dokonce i v matematice, kde definice pˇresnˇe vymezuj´ı, o ˇcem je ˇreˇc a tedy, aˇz snad na pˇr´ıpady extr´emˇe necitliv´eho pouˇzit´ı nˇekter´ ych slov, je celkem jedno, jak´e slovn´ı oznaˇcen´ı je zvoleno.
10
nejsou jazykov´ ymi puristy) neˇz metoda nejmenˇs´ıch ˇctverc˚ u. Tato metoda b´ yva z pochopiteln´ ych d˚ uvod˚ u oznaˇcov´ana jako L1 a podobnˇe jako nˇekolik nezn´am´ ych pojm˚ u pouˇzit´ ych v pˇredchoz´ı vˇetˇe bude diskutov´ana n´ıˇze. Obrat’me nyn´ı naˇsi pozornost na to, jak´e c´ıle si klade regresn´ı anal´ yza. Nˇeco bylo vlastnˇe jiˇz ˇreˇceno v´ yˇse, totiˇz ˇze regresn´ı anal´ yza patˇr´ı mezi metody studuj´ıc´ı strukturu vz´ajemn´ ych z´avislost´ı mezi jednotliv´ ymi veliˇcinami. Mnohdy jsou vˇsak ambice t´eto metody charakterizov´ any snahou o nalezen´ı n´astroje na predikci hodnoty jedn´e n´ahodn´e veliˇciny za pˇredpokladu, ˇze jiˇz zn´ame hodnoty nˇekolika jin´ ych n´ahodn´ ych veliˇcin ˇci nen´ahodn´ ych vysvˇetluj´ıc´ıch faktor˚ u. Nˇekdy se oznaˇcuje tento druh´ y c´ıl za v´ıce ambicizn´ı a implicitnˇe se t´ım m´ın´ı, ˇze ten prv´ y je jakoby lehˇc´ı “podˇc´ast´ı” toho druh´eho. Obecnˇe vˇsak kaˇzd´ y z tˇechto c´ıl˚ u vyˇzaduje jin´e ˇreˇsen´ı, jak ostatnˇe d´ale uvid´ıme. Teorie, kter´a je v uˇcebnic´ıch a monografi´ıch obvykle vykl´ad´ ana, vede k ˇreˇsen´ı prv´eho c´ıle, ale nemus´ı b´ yt vˇzdy ˇreˇsen´ım toho druh´eho. Dˇr´ıve neˇz budeme pokraˇcovat ve v´ ykladu zaved’me alespoˇ n nejz´akladnˇejˇs´ı, zcela standardn´ı oznaˇcen´ı. Oznaˇcme tedy symbolem N mnoˇzinu vˇsech pˇrirozen´ ych ˇc´ısel, R re´ alnou pˇr´ımku, R+ jej´ı kladnou ˇc´ast, Rp p-rozmˇern´ y Euklidovsk´ y prostor, Rn,k (nˇekter´ y) k-rozmˇern´ y podprostor prosn toru R a koneˇcnˇe pak (Ω, A, P ) z´akladn´ı pravdˇepodobnostn´ı prostor. Regresn´ı model budeme uvaˇzovat ve tvaru: Yi = g(Xi , β 0 ) + Ei ,
i = 1, 2, . . . , n
(1)
pro vˇsechna n ∈ N , kde g(x, β) bude nˇekter´ a hladk´a funkce, g : Rq ×Rp → R (q, p ∈ N ). Posloup∞ nost {Xi }i=1 bude bud’ deterministick´ a posloupnost q-rozmˇern´ ych vektor˚ u (v tom pˇr´ıpadˇe ∞ budeme ps´at {xi }i=1 ) ˇci posloupnost (nez´avisl´ ych a stejnˇe rozdˇelen´ ych) n´ahodn´ ych veliˇcin, tj. ∞ q Xi (ω) : Ω → R , kter´e jsou nav´ıc nez´avisl´e od posloupnosti {Ei }i=1 , Ei (ω) : Ω → R, coˇz je jin´a posloupnost, obvykle stejnˇe rozdˇelen´ ych, nikoliv vˇsak nutnˇe nez´avisl´ ych, n´ahodn´ ych veliˇcin. Posledn´ı pˇredpoklad neb´ yv´a v nˇekter´ ych textech jasnˇe zd˚ uraznˇen, ale jak uvid´ıme pozdˇeji, jeho naruˇsen´ı m´a v´aˇzn´e d˚ usledky. Veliˇcina Yi stoj´ıc´ı na lev´e stranˇe rovnosti (1) b´ yv´ a oznaˇcov´ ana jako z´avisle promˇenn´a, veliˇciny Xi jako nez´avisle promˇenn´e a Ei jako fluktuace. N´ıˇze uveden´ a diskuze t´ ykaj´ıc´ı se interpretace v´ ysledk˚ u regresn´ı anal´ yzy ale naznaˇc´ı, ˇze je patrnˇe lepˇs´ı pouˇz´ıvat pojmy jako vysvˇetlovan´a veliˇcina (pro Yi ) a vysvˇetluj´ıc´ı veliˇciny pro Xi . Toto “n´azvoslov´ı” totiˇz nesv´ad´ı k domnˇence, ˇze odhadnuty model m˚ uˇzeme pouˇz´ıt k predikci pro jak´ekoliv hodnoty nez´ avisle promˇenn´ ych. V dalˇs´ım textu se jeˇstˇe k tomuto probl´emu vr´at´ıme. Pro veliˇciny Yi , Xi a Ei b´ yv´a uv´adˇena i cel´a ˇrada jin´ ych term´ın˚ u, kter´e se snaˇz´ı napovˇedˇet charakter tˇechto veliˇcin vzhledem k nˇekter´ ym ˇcast´ ym pouˇzit´ım ˇci interpretac´ım regresn´ıho modelu. Napˇr. Xi jsou nˇekdy oznaˇcov´any jako nosiˇce, regresory ˇci jako faktory a pˇr´ısluˇsn´ y Rq jako faktorov´ y prostor. Tak´e v tomto textu budeme obˇcas tato r˚ uzn´ a “pojmenov´ an´ı” pouˇz´ıvat, abychom si na nˇe pˇrivykli a neˇcinily n´am pot´ıˇze pˇri ˇcten´ı r˚ uzn´ ych pramen˚ u. Pro ty, kteˇr´ı se nˇekdy v budoucnu budou vˇenovat ekonomick´ ym aplikac´ım, poznamenejme, ˇze se jeˇstˇe setkaj´ı s rozliˇsen´ım, ˇcasto sporn´ ym, charakteru veliˇcin vstupuj´ıc´ıch do modelu a naraz´ı na pojmy endogen´ı (ˇcesky snad koncov´ a ˇci v´ ystupn´ı), oznaˇcuj´ıc´ı veliˇciny zpravidla na “lev´e” stranˇe modelu, tj. v roli Yi a predeterminovan´ a (ˇcesky snad pˇredurˇcen´a, ale sp´ıˇse vstupn´ı) veliˇcina, stoj´ıc´ıch v roli Xi . Druh´ y typ veliˇcin pak b´ yv´a jeˇstˇe dˇelen na posunut´e endogen´ı (lagged endogenous) a exogen´ı (ˇcesky asi vnˇejˇs´ı ˇci mimo model urˇcen´e; nechme vˇsak nad´ale pˇreklady jazykozpytc˚ um, v matematick´em textu, ostatnˇe jsme to jiˇz v´ yˇse zm´ınili, jde o jednoznaˇcnost, kter´a je zajiˇstˇena formalizmem a nen´ı naˇstˇest´ı 11
z´avisl´a na n´azvech). Povˇsimnˇeme si, ˇze rozliˇsen´ı na exogen´ı a endogen´ı souvis´ı opˇet s pojmem kauzality. Jak jsme uvedli v´ yˇse, byl tento protagonistou renesanˇcn´ıho paradigmatu vˇedeck´eho pozn´an´ı a ˇzel Bohu st´ale jeˇstˇe v mnoha vˇedn´ıch discipl´ın´ ach pˇreˇz´ıv´ a. Nen´ı bez zaj´ımavosti, ˇze do ekonomie, ˇci sp´ıˇse do ekonometrie byl “ve statistick´e modifikaci” zaveden C. W. J. Grangerem na konci ˇsedes´at´ ych let, tj. v dobˇe, kdy filosofie vˇedy naopak zaˇcala uvaˇzovat a v´aˇznˇe diskutovat o jeho problematiˇcnosti. Samozˇrejmˇe, ˇze nen´ı tˇeˇzk´e uk´azat pˇr´ıklady - a to i z kaˇzdodenn´ıho ˇzivota, kter´e demostruj´ı jeho problematiˇcnost. Grangerova definice a test, Granger (1969), se op´ıraj´ı o pojem statistick´e nez´avislosti a v tomto duchu je tˇreba je interpretovat. Uˇzivatel´e to vˇsak zpravidla (bohorovnˇe) pˇrehl´ıˇzej´ı a jednaj´ı s t´ımto pojmem jako by ˇslo o bˇeˇzn´ y pojem pˇr´ıˇcinn´e souvislosti. Jak´e to m˚ uˇze m´ıt n´asledky si snadno pˇredstav´ıme, uv´aˇz´ıme-li napˇr., ˇze se mnoh´a (politick´ a) rozhodnut´ı odv´ıjej´ı sp´ıˇse od vˇedeck´ ych hypot´ez vysloven´ ych na z´akladˇe pr´avˇe popsan´eho zp˚ usobu interpretace v´ ysledk˚ u neˇz od historicky ovˇeˇren´ ych postup˚ u. Vrat’me se vˇsak ke vztahu (1) a dokonˇceme vysvˇetlen´ı jednotliv´ ych veliˇcin v nˇem vys0 0 T 0 0 tupuj´ıc´ıch. Vektor β = (β1 , β2 , . . . , βp ) bude oznaˇcov´ an jako vektor regresn´ıch parametr˚ u, pokud budeme mluvit o neline´arn´ı regresi, a jako regresn´ıch koeficient˚ u, v line´arn´ı regresi. T Koneˇcnˇe pak horn´ı index “ ” oznaˇcuje transpozici vektoru ˇci matice. V pˇrev´ aˇzn´e ˇc´ asti dalˇs´ıho textu budeme uvaˇzovat model s pevn´ ymi (deterministick´ ymi) vysvˇetluj´ıc´ımi promˇenn´ ymi. Exkurze do modelu s n´ahodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi budou jen obˇcasn´e. Za n´ahodn´ y bude tedy v modelu povaˇzov´an pouze ˇsum (ˇci chcete-li fluktuace nebo n´ahodn´e fluktuace) , kter´ y je represen∞ tovan´ y (jsou representov´any) posloupnost´ı n´ahodn´ ych veliˇcin {Ei }i=1 . N´ahodnost disturbanc´ı samozˇrejmˇe m´a za n´asledek to, ˇze i vysvˇetlovan´ a veliˇcina Y je n´ahodn´a. Prvn´ım c´ılem regresn´ı anal´ yzy, jak uˇz bylo ostatnˇe konstatov´ ano v´ yˇse, je popis struktury dat (ˇci chcete-li, vysvˇetlen´ı dat). Po t´e, co jsme zavedli oznaˇcen´ı pro regresn´ı model, m˚ uˇzeme tento c´ıl specifikovat jako odhad modelu ve statistick´em smyslu. Jin´ ymi slovy to znamen´a, ˇze na z´akladˇe dat, kter´a z hlediska druh´eho c´ıle regresn´ı anal´ yzy, totiˇz predikce, m˚ uˇzeme povaˇzovat za tr´enovac´ı soubor, chceme nejprve odhadnout charakter (tvar) funkce g(x, β) a n´aslednˇe odhadnout β 0 . Anal´ yza dat tedy m˚ uˇze zaˇc´ıt v podstatˇe testem, zda g(x, β) je line´arn´ı ˇci nikoliv, nebo se prostˇe na z´akladˇe zkuˇsenost´ı (fyzik´aln´ıch, soci´aln´ıch, demografick´ ych, ekonomick´ ych ˇci jin´ ych) ˇci okolnost´ı rozhodneme pro nˇekterou funkci g(x, β) (ˇci typ funkce). Obvykle je tvar funkce (alespoˇ n) “tuˇsen´ y” a proto se ˇcasto omezujeme na odhad vektoru β 0 . Tak jako v drtiv´e vˇetˇsinˇe statistick´e literatury budeme odhad poˇr´ızen´ y nˇekterou odhadovac´ı ˆ metodou oznaˇcovat β. Nav´ıc indexy, dole ˇci nahoˇre, budou napov´ıdat, jakou metodou byl odhad vyˇc´ıslen, ˇci na z´akladˇe kolika pozorov´ an´ı byl zkonstruov´ an, atd.. Tak napˇr. βˆ(LS,n) bude naznaˇcovat, ˇze se jedn´a o odhad poˇr´ızen´ y metodou nejmenˇs´ıch ˇctverc˚ u na z´akladˇe dat o rozsahu (LS,n) ˆ n. Rovnˇeˇz zcela standardnˇe jak jsme na to zvykl´ı, βi bude oznaˇcovat i-tou sloˇzku (souˇradnici, (LS,n) ˆ koordin´atu) vektoru β . Podrobnˇejˇs´ı vysvˇetlen´ı ˇci rozˇs´ıˇren´ı oznaˇcen´ı a symbol˚ u bude vˇzdy uvedeno v m´ıstech, kde to budeme potˇrebovat tak, aby nebylo nutn´e je drˇzet dlouho a bez uˇzitku v pamˇeti. V´ yˇse uveden´e bezprostˇrednˇe napov´ıd´ a, ˇze pokud uvaˇzujeme model s n´ahodn´ ymi nosiˇci pˇredpokl´ad´ ame, n n ˇze pro naˇse data Dn existuje ω0 ∈ Ω tak, ˇze hodnoty n´ahodn´ ych veliˇcin {Yi (ω)}i=1 a {Xi (ω)}i=1
12
jsou v bodˇe ω0 rovny dat˚ um Dn , tj.
y1 , x11 , · · · , x1p y2 , x21 , · · · , x2p Dn = .. .. . . yn , xn1 , · · · , xnp
Y1 (ω0 ), X11 (ω0 ), · · · , X1p (ω0 ) Y2 (ω0 ), X21 (ω0 ), · · · , X2p (ω0 ) = .. .. . . Yn (ω0 ), Xn1 (ω0 ), · · · , Xnp (ω0 )
.
(2)
Z pr´avˇe uveden´eho a tak´e ostatnˇe z (1) okamˇzitˇe plyne, ˇze k regresn´ımu modelu patˇr´ı samozˇrejmˇe ∞ i posloupnosti n´ahodn´ ych veliˇcin {Yi (ω)}∞ r´ıpadnˇe, kdyˇz uvaˇzujeme pevn´e i=1 a {Xi (ω)}i=1 , pˇ ∞ nosiˇce, pouze prv´a posloupnost {Yi (ω)}i=1 . Na druh´e stranˇe vˇsak patrnˇe neexistuje text vˇenovan´ y ’ regresn´ı anal´ yze, kter´ y by pod odhadem modelu rozumˇel tak´e odhad tˇechto veliˇcin, byt pˇrirozenˇe diagnostick´e partie teorie regresn´ı anal´ yzy studuj´ı napˇr. postupy umoˇzn ˇuj´ıc´ı posoudit, zda charakter rezidu´ı nekoliduje s pˇredpokl´adan´ ym charakterem fluktuac´ı; takov´e postupy budeme studovat pozdˇeji. Na druh´e stranˇe je vˇsak tˇreba pˇripustit, ˇze n´as v regresn´ım modelu obvykle zaj´ım´a pouze vektor β 0 a tedy ostatn´ı nezn´am´e “ˇc´ asti” modelu mohou b´ yt vn´ım´ any jen jako ruˇsiv´e parametry, kter´e nejsou odhadov´ any. Jak jsme jiˇz pˇredeslali v´ yˇse, v naˇsem v´ ykladu se omez´ıme pˇrev´ aˇznˇe na line´arn´ı regresn´ı model s pevn´ ymi, tj. deterministicky dan´ ymi nosiˇci. Dostaneme model Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n.
(3)
Na prvn´ı pohled se omezen´ı na linearn´ı model m˚ uˇze zd´at drastick´e, ale nen´ı tomu tak. Staˇc´ı si uvˇedomit, ˇze vˇetˇsina funkc´ı g(x, β) uvaˇzovan´ ych v modelu (1) se pˇredpokl´ad´ a b´ yt spojit´ ymi v x. Uv´aˇz´ıme-li pak, ˇze lze mezi nosiˇce dodat vyˇsˇs´ı mocniny vysvˇetluj´ıc´ıch veliˇcin jako nov´e vysvˇetluj´ıc´ı veliˇciny, coˇz nen´ı na u ´jmu odhadu modelu pokud m´ame k dispozici rozumn´e mnoˇzstv´ı dat, a vezmeme-li v u ´vahu Stone-Weierstrassovu vˇetu o tom, ˇze pˇri omezen´ı se na kompaktn´ı nosiˇc je syst´em vˇsech polynom˚ u hust´ y ve tˇr´ıdˇe spojit´ ych funkc´ı (Hewitt a Stromberg (1965)), je zˇrejm´e, ˇze teoreticky pomoc´ı line´arn´ıho regresn´ıho modelu m˚ uˇzeme aproximovat velmi ˇsirokou tˇr´ıdu regresn´ıch z´avislost´ı. Pˇrirozenˇe toto m´a, nˇekdy praktick´ a, omezen´ı, vypl´ yvaj´ıc´ı napˇr. z pot´ıˇz´ı s kolinearitou, poˇctem pozorov´an´ı, “pˇr´ıliˇsnou” determinac´ı modelu, tj. chcete-li, pˇr´ıliˇsn´ ym potlaˇcen´ım n´ahodnosti, atd. Podotknˇeme jeˇstˇe, ˇze toto omezen´ı se na lin´arn´ı model, vyd´avaj´ı nˇekter´e monografie za d˚ uvod k omezen´ı se na line´arn´ı odhady. Toto druh´e omezen´ı je zcela u ´ˇcelov´e, totiˇz aby bylo moˇzno prohl´asit, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u je velice dobr´ y at’ uˇz jsou fluktuace v modelu rozdˇeleny norm´alnˇe ˇci nikoliv. Zd˚ uraznˇeme proto, ˇze omezen´ı se na tˇr´ıdu line´arn´ıch 0 odhad˚ u vektoru β je drastick´e a odhad metodou nejmenˇs´ıch ˇctverc˚ u je opravdu dobr´ y jen v pˇr´ıpadˇe, podaˇr´ı-li se nal´ezt model, ve kter´em rozdˇelen´ı rezidu´ı je t´emˇeˇr norm´aln´ı. Podrobnˇeji budeme diskutovat tento probl´em v z´avˇeru skript. Pro n´ahodn´e veliˇciny, jako je napˇr. vysvˇetlovan´ a promˇenn´ a Y ˇci fluktuace E, budeme pouˇz´ıvat zpravidla velk´a p´ısmena. Ostatnˇe to jiˇz naznaˇcil z´apis (2). V´ yjimku budou tvoˇrit rezidua v regresn´ım modelu, ale ta pop´ıˇseme podrobnˇeji o nˇekolik ˇr´ adk˚ u n´ıˇze. V´ yjimka bude uˇcinˇena proto, aby nemohlo doj´ıt k z´amˇenˇe s oznaˇcen´ım pro re´alnou pˇr´ımku. Nˇekdy ten fakt, ˇze se jedn´a o n´ahodn´e veliˇciny naznaˇc´ıme jeˇstˇe z´apisem Y (ω) ˇci E(ω). Pro realizace n´ahodn´ ych veliˇcin budeme uˇz´ıvat mal´a p´ısmenka, tj. v naˇsem pˇr´ıkladˇe y a e. Pro matice budeme d˚ uslednˇe pouˇz´ıvat
13
velk´a p´ısmena. Nav´ıc charakter dan´e entity, kromˇe toho, ˇze bude patrn´ y z jej´ıho slovn´ıho popisu, bude ˇcasto tak´e zˇrejm´ y z toho, ˇze bude uvedeno, do kter´e mnoˇziny patˇr´ı, napˇr. Y ∈ Rn . Jak jsme uˇz uvedli v´ yˇse, budeme v pˇrev´ aˇzn´e ˇc´ asti tohoto textu pˇredpokl´adat, ˇze matice pl´anu je deterministick´a, tj. omez´ıme se na model s pevn´ ymi nosiˇci. Model s n´ahodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi je obdobn´ y, nˇekdy “jednoduˇsˇs´ı”, nˇekdy “komplikovanˇejˇs´ı” neˇz model s pevn´ ymi nosiˇci. Pˇredpoklady pro obdobn´a tvrzen´ı v obou modelech jsou analogick´e, kromˇe toho, ˇze v modelu s n´ahodn´ ymi nosiˇci je tˇreba pˇredpokl´adat nez´avislost nosiˇc˚ u a fluktuac´ı. Jak uˇz jsme v´ yˇse ˇrekli, toto neb´ yv´a v uˇcebnic´ıch regresn´ı anal´ yzy zd˚ uraznˇeno, aˇc pokud tento pˇredpoklad neplat´ı, bˇeˇzn´e odhady, a to nejen metodou nejmenˇs´ıch ˇctverc˚ u, nejsou obecnˇe konsistentn´ı a je tˇreba uˇz´ıt jin´ ych postup˚ u, napˇr. instrument´aln´ıch promˇenn´ ych, kter´ ym bude vˇenov´ an jeden odstavec dalˇs´ıho textu. Pˇritom je zˇrejm´e, ˇze nˇekdy bude charakter dat takov´ y, ˇze model s n´ahodn´ ymi nosiˇci bude adakv´atnˇejˇs´ı. Pˇr´ıkladem m˚ uˇze poslouˇzit pr´avˇe situace, kdy n´ahodn´e fluktuace jsou evidentnˇe z´avisl´e na nˇekter´e vysvˇetluj´ıc´ı promˇenn´e. Na druh´e stranˇe, jak uvid´ıme pozdˇeji pˇri diskuzi o v´ ypisech z statistick´ ych poˇc´ıtaˇcov´ ych knihovem, vˇetˇsina z nich nab´ız´ı i v r´amci regresn´ı anal´ yzy “z´akladn´ı” popisnou anal´ yzu dat, tj. napˇr. pr˚ umˇery a rozptyly jednotliv´ ych veliˇcin, jejich kovarianˇcn´ı matici, atd. Tyto charakteristiky, aˇz na ty, kter´e se t´ ykaj´ı vysvˇetlovan´e promˇenn´e, ovˇsem striktnˇe vzato postr´adaj´ı smysl, pokud uvaˇzujeme model s pevn´ ymi nosiˇci. ’ A nyn´ı uved me nˇekter´e pˇr´ıklady datov´ ych soubor˚ u, kter´e lze zpracovat regresn´ı anal´ yzou. Pˇ r´ıklad 1 Data o spalovac´ıch motorech. Data zachycuj´ı (potenci´aln´ı) z´avislost poˇctu ot´ aˇcek motoru (y) na ˇcasov´ an´ı z´ aˇzehu (x1 ), bohatosti palivov´e smˇesi (x2 ), teplotˇe t´eto smˇesi pˇri nas´avan´ı (x3 ) a teplotˇe spalin pˇri v´ yfuku (x4 ) (Mason, Gunst, Hess (1989) nebo Hettmansperger, Sheather (1992)).) Data vypadaj´ı takto: Data o spalovac´ıch motorech Poˇrad´ı
ˇ Casov´ an´ı z´aˇzehu
Bohatost smˇesi
Teplota smˇesi
Teplota spalin
Poˇcet ot´aˇcek
1 2 3 4 5 6 7 8 9 10 11 12 13
13.3 13.3 13.4 12.7 14.4 14.4 14.5 14.2 12.2 12.2 12.2 12.0 12.9
13.9 14.1 15.2 13.8 13.6 13.8 13.9 13.7 14.8 15.3 14.9 15.2 15.4
31 30 32 31 31 30 32 31 36 35 36 37 36
697 697 700 669 631 638 643 629 724 739 722 743 723
84.4 84.1 88.4 84.2 89.8 84.0 83.7 84.1 90.5 90.1 89.4 90.2 93.8
14
Data o spalovac´ıch motorech (pokraˇcov´ an´ı) Poˇrad´ı
ˇ Casov´ an´ı z´aˇzehu
Bohatost smˇesi
Teplota smˇesi
Teplota spalin
Poˇcet ot´aˇcek
14 15 16
12.7 12.9 12.7
16.1 15.1 15.9
35 36 37
649 721 696
93.0 93.3 93.1
Model odhadnut´ y pro v´ yˇse zm´ınˇenou z´avislost vypad´a takto: y = 12.01 + 1.10 · x1 + 2.19 · x2 + 0.93 · x3 + 0.002 · x4 + f luktuace Skripta, kter´a m´ate pˇred sebou V´am umoˇzn´ı nahl´ednout, jak se takov´ y model odhadne z dat, jak se posoud´ı, ˇze m´a tento model nadˇeji b´ yt spolehliv´ y a pouˇziteln´ y napˇr. pro predikci. Nab´ıdnou V´am moˇznost nahl´ednout r˚ uzn´a u ´skal´ı, na kter´a pˇri zpracov´ an´ı dat m˚ uˇzete narazit aniˇz byste si jich tˇreba na prvn´ı pohled byli vˇedomi, a nauˇc´ı V´as jak se tˇemto u ´skal´ım vyhnout ˇci je zdolat. Jedn´ım z takov´ ych u ´skal´ı mohou b´ yt vlivn´e body, kter´e je tˇreba rozpoznat a zjistit, zda jejich vliv na v´ ysledek regresn´ı anal´ yzy je pˇr´ınosn´ y nebo naopak destruktivn´ı. Pˇ r´ıklad 2 Data o slanosti vody v pr˚ ulivu “North Carolina Pamlico”. Data zaznamen´avaj´ı slanost vody (y) v jednom z pr˚ uliv˚ u v Severn´ı Karolinˇe v z´avislosti na slanosti, kter´a byla namˇeˇrena pˇred ˇctrn´acti dny (oznaˇceno jako Posunut´ a slanost; x1 ), na stˇr´ıd´ an´ı dvout´ ydenn´ıch obdob´ı, o nichˇz si experiment´atoˇri mysleli, ˇze mohou b´ yt signifikantn´ı (oznaˇceno Trend; x2 ) a na proudˇen´ı vody pr˚ ulivem (oznaˇceno Pr˚ utok; x3 ) (Ruppert, Carroll (1980) nebo Rousseeuw, Leroy (1987)). Data jsou uvedena v n´asleduj´ıc´ı tabulce: Data o slanosti vody v pr˚ ulivu “North Carolina Pamlico” Poˇrad´ı
Posunut´a slanost
Trend
Pr˚ utok
Slanost vody
1 2 3 4 5 6 7 8 9 10 11 12 13 14
8.2 7.6 4.6 4.3 5.9 5.0 6.5 8.3 10.1 13.2 12.6 10.4 10.8 13.1
4 5 0 1 2 3 4 5 0 1 2 3 4 5
23.01 23.87 26.42 24.87 29.90 24.20 23.22 21.86 22.27 23.83 25.14 22.43 21.79 22.38
7.6 7.7 4.3 5.9 5.0 6.5 8.3 8.2 13.2 12.6 10.4 10.8 13.1 12.3
15
Data o slanosti vody v pr˚ ulivu “North Carolina Pamlico” (pokraˇcov´ an´ı) Poˇrad´ı
Posunut´a slanost
Trend
Pr˚ utok
Slanost vody
15 16 17 18 19 20 21 22 23 24 25 26 27 28
13.3 10.4 10.5 7.7 10.0 12.0 12.1 13.6 15.0 13.5 11.5 12.0 13.0 14.1
0 1 2 3 0 1 4 5 0 1 2 3 4 5
23.93 33.44 24.86 22.69 21.79 22.04 21.03 21.01 25.87 26.29 22.93 21.31 20.77 21.39
10.4 10.5 7.7 9.5 12.0 12.6 13.6 14.1 13.5 11.5 12.0 13.0 14.1 15.1
Po odhadnut´ı pˇr´ısluˇsn´ ych koeficient˚ u v modelu dostaneme: y = 9.590 + 0.777 · x1 − 0.026 · x2 − 0.295 · x3 + f luktuace. Zvl´aˇstn´ı na tˇechto datech je to, ˇze jednou promˇennou na prav´e stranˇe rovnice, tj. vysvˇetluj´ıc´ı promˇennou je vlastnˇe jen posunut´a ta promˇenn´ a, kterou se odhadovan´ y model snaˇz´ı vysvˇetlit pomoc´ı jin´ ych promˇenn´ ych. O tom, zda je v˚ ubec moˇzn´e nˇeco takov´eho prov´est, aniˇz by zklamaly bˇeˇznˇe pouˇz´ıvan´e metody, budeme ve skriptech tak´e diskutovat. Pˇ r´ıklad 3 Data o sportovn´ım klubu. Data zaznamen´avaj´ı ˇcasy dosaˇzen´e v bˇehu na jednu m´ıli (y) jako promˇennou, kter´a m´a b´ yt vysvˇetlena, a v´ ahu bˇeˇzc˚ u (x1 ), jejich zbytkov´ y puls po urˇcit´e dobˇe dobˇehnut´ı do c´ıle (x2 ) pˇri zkuˇsebn´ım bˇehu na ˇctvrt m´ıle (x3 ) a s´ılu paˇz´ı a nohou (x4 ) (Chatterjee, Hadi (1988)). Data vypadaj´ı takto: Data o sportovn´ım klubu Poˇrad´ı
V´aha
Puls
S´ıla
Zkuˇsebn´ı bˇeh
ˇ Cas
1 2 3 4 5 6 7 8
217 141 152 153 180 193 162 180
67 52 58 56 66 71 65 80
260 190 203 183 170 178 160 170
91 66 68 70 77 82 74 84
481 292 338 357 396 429 345 469
16
Data o sportovn´ım klubu (pokraˇcov´ an´ı) Poˇrad´ı
V´aha
Puls
S´ıla
Zkuˇsebn´ı bˇeh
ˇ Cas
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
205 168 232 146 173 155 212 138 147 197 165 125 161 132 257 236 149 161 198 245 141 177
77 74 65 68 51 64 66 70 54 76 59 58 52 62 64 72 57 57 59 70 63 53
188 170 220 158 243 198 220 180 150 228 188 160 190 163 313 225 173 173 220 218 193 183
83 79 72 68 56 59 77 62 75 88 70 66 69 59 96 84 68 65 62 69 60 75
425 358 393 346 279 311 401 267 404 442 368 295 391 264 487 481 374 309 367 469 252 338
Odhad modelu pro tato data je n´asleduj´ıc´ı: y = −3.619 + 1.268 · x1 − 0.525 · x2 − 0.505 · x3 + 3.903 · x4 + f luktuace. M˚ uˇze matematick´a anal´ yza pˇrin´est nˇejak´ a pˇrekvapen´ı oproti bˇeˇzn´emu oˇcek´ av´ an´ı ? Patrnˇe ano, ’ nebot se uk´aˇze, ˇze ani promˇennou puls ani s´ıla paˇz´ı a nohou nen´ı tˇreba pouˇz´ıt k vysvˇetlen´ı celkov´eho ˇcasu. ´ data. Data popisuj´ı (moˇznou) z´avislost hrub´eho n´arodn´ıho Pˇ r´ıklad 4 Demograficka d˚ uchodu na hlavu v roce 1957 (y) na dˇetsk´e u ´mrtnosti (pr˚ umˇern´ y poˇcet u ´mrt´ı na 1000 ˇzivˇe narozen´ ych dˇet´ı - x1 ), poˇctu obyvatel na jednoho l´ekaˇre (x2 ), hustotˇe os´ıdlen´ı (poˇcet obyvatel 2 na km - x3 ), poˇctu obyvatel na 1000 ha zemˇedˇelsky vyuˇz´ıvan´e p˚ udy (x4 ), procentu gramotn´eho obyvatelstva starˇs´ıho 15 let (x5 ), a na poˇctu student˚ u na vysok´ ych ˇskol´ ach na 105 obyvatel (x6 ), a to ve 49 zem´ıch svˇeta (Chatterjee, Hadi (1988)). Tady jsou data (na dalˇs´ı stranˇe):
17
Demografick´ a data Poˇrad´ı
Zemˇe
x1
x2
x3
x4
x5
x6
y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
Australia Austria Barbados Belgium British Guiana Bulgaria Canada Chile Costa Rica Cyprus Czechoslovakia Denmark El Salvador Finland France Guatemala Hong Kong Hungary Iceland India Ireland Italy Jamaica Japan Luxembourg Malaya Malta Mauritius Mexico Netherlands New Zeland Nicaragua Norway Panama Poland Portugal Puerto Rico Romania Singapore Spain Sweden Switzerland
19.5 37.5 60.4 35.4 67.1 45.1 27.3 127.9 78.9 29.9 31.0 23.7 76.3 21.0 27.4 91.9 41.5 47.6 22.4 225.0 30.5 48.7 58.7 37.7 31.5 68.9 38.3 69.5 77.7 16.5 22.8 71.7 20.2 54.8 74.7 77.5 52.4 75.7 32.3 43.5 16.6 21.1
860 695 3000 819 3900 740 900 1700 2600 1400 620 830 5400 16001 1014 6400 3300 650 840 5200 1000 746 4300 930 910 6400 980 4500 1700 900 700 2800 946 3200 1100 1394 2200 788 2800 1000 1089 765
1 84 548 301 3 72 2 11 24 62 108 107 127 13 83 36 3082 108 2 138 40 164 143 254 123 54 1041 352 18 346 9 10 11 15 96 100 271 78 2904 61 17 133
21 1720 7121 5257 192 1380 257 1164 948 1042 1821 1434 1497 1512 1288 1365 98143 1370 79 2279 598 2323 3410 7563 2286 2980 8050 4711 296 4855 170 824 3420 838 1411 1087 4030 1248 108214 1347 1705 2320
98.5 98.5 91.1 96.7 74.0 85.0 97.5 80.1 79.4 60.5 97.5 98.5 39.4 98.5 96.4 29.4 57.5 97.5 98.5 19.3 98.5 87.5 77.0 98.0 96.5 38.4 57.6 51.8 50.0 98.5 98.5 38.4 98.5 65.7 95.0 55.9 81.0 89.0 50.0 87.0 88.5 98.5
856 546 24 536 27 456 645 257 326 78 398 570 89 529 667 135 176 258 445 220 362 362 42 750 36 475 142 14 258 923 839 110 258 371 351 272 1192 226 437 258 401 398
1316 670 200 1196 235 365 1947 379 357 467 680 1057 219 794 943 189 272 490 572 73 550 516 316 306 1388 356 377 225 262 836 1310 160 1130 329 475 224 563 360 400 293 1380 1428
18
Demografick´ a data. (pokraˇcov´an´ı) Poˇrad´ı
Zemˇe
x1
x2
x3
x4
x5
x6
y
43 44 45 46 47 48 49
Taiwan Trinidad United Kingdom United States USSR West Germany Yugoslavia
30.5 45.4 24.1 26.4 35.0 33.8 100.0
1500 2300 935 780 578 798 1637
305 168 217 20 10 217 73
10446 4383 2677 399 339 3631 1215
54.0 73.8 98.5 98.0 95.0 98.5 77.0
329 61 460 1983 539 528 524
161 423 1189 2577 600 927 265
Odhadnut´ y model vypad´a takto y = 112.89 − 3.62 · x1 + 0.01 · x2 − 0.19 · x3 + 0.003 · x4 + 5.57 · x5 + 0.69 · x6 + f luktuace. Nˇekter´e velmi mal´e koeficienty u nˇekter´ ych vysvˇetluj´ıc´ıch promˇenn´ ych napov´ıdaj´ı, ˇze byly zaˇrazeny do modelu patrnˇe zbyteˇcnˇe. I to se v dalˇs´ım textu nauˇc´ıme posoudit, pr´avˇe tak jako zda cel´ y model je adekv´atn´ı ˇci nikoliv. ´ daj´ıch na ˇ Pˇ r´ıklad 5 Data o vy skolstv´ı. Data vypov´ıdaj´ı o (moˇzn´e) z´avislosti v´ ydaj˚ u na ˇskolstv´ı v 50 st´atech v U.S.A. (y) na procentu obyvatel st´atu bydl´ıc´ıch v urbanistick´ ych centrech (x1 ), osobn´ım pˇr´ıjmu na jednoho obyvatele (x2 ) a procentu obyvatel mladˇs´ıch 18 let (x3 ) (Chatterjee, Price (1977)). Vzhledem k tomu, ˇze dalˇs´ı pomˇernˇe rozs´ahl´ a data by zbyteˇcnˇe pl´ ytvala m´ıstem, odkazujeme ˇcten´aˇre na p˚ uvodn´ı zdroj, pˇr´ıpadnˇe na autora tˇechto skript, kter´ y m´a tato (a mnoh´a dalˇs´ı data) na magnetick´em nosiˇci. Model poˇr´ızen´ y z tˇechto dat je n´asleduj´ıc´ı y = −556.57 − 0.0043 · x1 + 0.072 · x2 + 1.55 · x3 + f luktuace. Znaˇcnˇe velk´a hodnota absolutn´ıho ˇclenu v modelu oproti hodnot´am koeficient˚ u u vysvˇetluj´ıc´ıch promˇenn´ ych sv´ad´ı k tomu si myslet, ˇze vlastnˇe vysvˇetluj´ıc´ı promˇenn´e nic nevysvˇetluj´ı. Je tomu opravdu tak ? Zodpovˇedˇet takovou ot´azku se tak´e d´ale nauˇc´ıme. ˇ v U.S.A. Data obsahuj´ı u Pˇ r´ıklad 6 Data o kriminalite ´daje o v´ yˇsi kriminality ve 47 st´atech Spojen´ ych st´at˚ u (y), o procentu muˇz˚ u mezi 18 a 28 roky vˇeku (x1 ), u ´daje o vzdˇelanosti obyvatelstva (x2 ), o v´ ydaj´ıch na policii (x3 ) a u ´daje o pˇr´ıjmu na jednoho obyvatele (x4 ) (Vandaele (1978)nebo Hand a ostat. (1994) ). Data by opˇet zab´ırala dosti velk´e m´ısto a tak odkazujeme na p˚ uvodn´ı zdroj ˇci autora skript, kter´ y je kter´emukoliv z´ajemci r´ad okop´ıruje. Odhadneme-li opˇet model, dostaneme y = −424.92 + 0.76 · x1 + 1.66 · x2 + 1.30 · x3 + 0.64 · x4 + f luktuace. Dalˇs´ı pˇr´ıklady m˚ uˇze zv´ıdav´ y ˇcten´aˇr nal´ezt napˇr. v monografii Berndt (1990) ˇci Kmenta (1986). 19
V z´avˇeru u ´vodu si dovolme pˇripomenout jednu interpretaˇcn´ı z´aleˇzitost. V nˇekter´ ych uˇcebnic´ıch jsou n´ahodn´e fluktuace Ei interpretov´any jako chyby mˇeˇren´ı vysvˇetlovan´e veliˇciny Yi . To je vˇsak interpretace jen omezenˇe udrˇziteln´a. Pokud bychom pˇredpokl´adali situaci, ˇze jak vysvˇetlovan´ a, tak vysvˇetluj´ıc´ı promˇenn´e jsou mˇeˇreny (zhruba) se stejnou pˇresnost´ı, pak by tento fakt vyˇzadoval, aby byl zahrnut do naˇsich u ´vah. Takov´ y model probereme n´ıˇze a uvid´ıme, ˇze k jeho zvl´adnut´ı je potˇreba ponˇekud jin´ y pˇr´ıstup neˇz k modelu (3). Slovo “omezenˇe”, uˇzit´e o nˇekolik ˇr´ adk˚ u v´ yˇse naznaˇcuje, ˇze tato interpretace je udrˇziteln´ a za pˇredpokladu, ˇze by pˇresnost mˇeˇren´ı vysvˇetluj´ıc´ıch veliˇcin xi byla mnohem pˇresnˇejˇs´ı neˇz pˇresnost mˇeˇren´ı Yi . Daleko pˇrirozenˇejˇs´ı interpretace ˇci chcete-li aplikace modelu je ta, kdy pˇredpokl´ad´ ame, ˇze na veliˇcinu Yi maj´ı (n´ahodn´ y) vliv jeˇstˇe dalˇs´ı faktory, kter´e ale bud’ nen´ı snadn´e modelovat nebo je u ´myslnˇe nechceme, z nˇejak´eho d˚ uvodu, popsat explicite, ˇci jsou tyto “n´ahodn´e v´ ykyvy” tak mal´e, ˇze je l´epe je nemodelovat. Dˇr´ıve neˇz se pust´ıme do vlastn´ıho v´ ykladu regresn´ı anal´ yzy, poznamenejme jeˇstˇe, ˇze koncepce skript je takov´a, aby zhruba ve sv´e prv´e polovinˇe prok´azala, ˇze regresn´ı anal´ yza je postavena na solidn´ı matematice a jej´ı teorie je dobˇre propracovan´ a. Druh´a ˇc´ ast skript, patrnˇe vˇsak menˇs´ı polovina, je m´ısty ps´ana jiˇz jen pˇrehledovˇe, byt’ nˇekter´e partie, viz napˇr. kapitola vˇenovan´ a Durbin-Watsonovˇe statistce, jsou naopak podrobnˇejˇs´ı neˇz mnoh´e monografie a popisuj´ı dokonce historii v´ yvoje t´e ˇci on´e oblasti regresn´ı anal´ yzy. A pr´avˇe partie vˇenovan´ a Durbin-Watsonovˇe statistce ukazuje, ˇze i dnes stoj´ı za to alespoˇ n obˇcas nahl´ednout do p˚ uvodn´ıch pramen˚ u, nebot’ se st´av´a, ˇze pˇr´ısluˇsn´e partie jsou opisov´any z monografie do monografie, vˇcetnˇe zkreslen´ı, kter´eho se dopustil autor t´e prv´e. D´ıky tomu se pak m˚ uˇze do povˇedom´ı ˇsirok´e veˇrejnosti dostal ponˇekud zkreslen´ y obraz o p˚ uvodn´ım v´ ysledku. V citovan´em pˇr´ıpadˇe se napˇr. traduje naprosto heuristika, kter´a stoj´ı za Durbin-Watsonovou statistikou, kter´a neodpov´ıd´ a heuristice, kter´a vysv´ıt´ az postupu, kter´ y Durbin a Watson pouˇzili. statist
3 3.1
LINERN´I REGRESN´I MODEL Odhad regresn´ıch koeficient˚ u
Budeme tedy nad´ale uvaˇzovat model Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n
(4)
pro vˇsechna pˇrirozen´a n, a to s pevnˇe zadan´ ymi nosiˇci x1 , x2 , . . . , xn , kde transponovan´ y vektor T xi = xi1 , xi2 , . . . , xip tvoˇr´ı i-t´ y ˇr´adek matice pl´anu
x11 , x12 , · · · , x1p x21 , x22 , · · · , x2p X= .. .. . . xn1 , xn2 , · · · , xnp
.
(5)
Pˇri studiu line´arn´ıho regresn´ıho modelu se nˇekdy prvn´ı souˇradnice vektoru regresn´ıch koeficient˚ u uvaˇzuje spoleˇcn´a vˇsem pozorov´an´ım. Jin´ ymi slovy, nen´asob´ıme tento koeficient ˇz´ adnou vysvˇetluj´ıc´ı promˇennou a oznaˇcujeme jej jako absolutn´ı ˇclen, v anglick´e literatuˇre (a nyn´ı ˇcasto i v ˇcesk´e) intercept. Toto druh´e oznaˇcen´ı pouˇzijeme v pˇr´ıpadˇe, kdyˇz budeme potˇrebovat ˇsetˇrit 20
m´ıstem, napˇr. v tabulk´ach. Model je pak ˇcasto zapisov´ an ve tvaru Yi = α + xTi β 0 + Ei , ˇci Yi = α +
k X
xij βj0 + Ei ,
i = 1, 2, . . . , n
i = 1, 2, . . . , n,
j=1
kde k = p − 1. My vˇsak budeme v cel´ ych skriptech d´avat pˇrednost z´apisu (4), z ˇcehoˇz plyne, ˇze pokud budeme uvaˇzovat model s absolutn´ım ˇclenem, mus´ıme m´ıt xi1 = 1, i = 1, 2, . . . , n. To vˇsak neznamen´a, ˇze by tento z´apis naznaˇcoval, ˇze absolutn´ı ˇclen a zb´ yvaj´ıc´ı regresn´ı koeficienty, ze zˇrejm´eho d˚ uvodu nˇekdy oznaˇcovan´e slopes, maj´ı v modelu stejn´e postaven´ı. Pozdˇeji se vr´at´ıme k diskuzi, proˇc m´a absolutn´ı ˇclen zvl´aˇstn´ı m´ısto v modelu a proˇc je dobˇre s n´ım poˇc´ıtat i v pˇr´ıpadˇe, kdy rutinn´ı postup pˇri regresn´ı anal´ yze naznaˇcuje, ˇze by mohl b´ yt tento parametr statisticky nev´ yznamn´ y. Matice X b´ yv´a ˇcasto oznaˇcov´ana jako o designov´ a matice. Znovu pˇripom´ın´ ame, ˇze v dalˇs´ım ’ v´ ykladu budeme m´ıt na mysli, byt toto budeme pro jistotu obˇcas opakovat, zejm´ena situaci, kdy plat´ı podm´ınky: Podm´ınky A Posloupnost {Ei }∞ ı nekorelovan´ych n´ ahodn´ych veliˇcin s i=1 je posloupnost´ 2 nulovou stˇredn´ı hodnotou a koneˇcn´ym kladn´ym rozptylem σ , kter´y je stejn´y pro vˇsechny tyto veliˇciny. Podm´ınky A lze pomoci jiˇz zaveden´eho formalizmu pˇrepsat n´asledovnˇe: 1.
IE Ei = 0,
i = 1, 2, ...
2.
IE Ei2 = σ 2 , i = 1, 2, ... σ 2 ∈ (0, ∞),
3.
IE Ei Ej = 0 i = 1, 2, ... i < j,
kde symbol IE oznaˇcuje stˇredn´ı hodnotu. Nˇekdy jsou jednotliv´e podm´ınky (z v´ yˇse uveden´ ych) oznaˇcov´any “jm´eny”. Mluv´ıme pak o podm´ınce homoskedasticity, ˇr´ıkaj´ıc´ı, ˇze vˇsechny rozptyly jsou stejn´e (to je podm´ınka ˇc´ıslo 2), ˇci o podm´ınce nekorelovanosti (to je podm´ınka ˇc´ıslo 3). Pozdˇeji budeme nˇekdy pˇredpokl´adat, ˇze vˇsechny veliˇciny Ei maj´ı stejn´e a to norm´aln´ı rozdˇelen´ı. Potom samozˇrejmˇe z pˇredpokladu nekorelovanosti dostaneme jejich nez´avislost. V cel´em tomto uˇcebn´ım textu budeme pro zachov´ an´ı jednoduchosti, poˇr´ adku a vylouˇcen´ı pˇr´ıpadn´ ych omyl˚ u vˇsechny vektory uvaˇzovat jako sloupcov´e. To znamen´a, ˇze pokud vyjmeme nˇekter´ y, ˇreknˇeme `-t´ y, ˇr´adek z matice pl´anu X budeme jej povaˇzovat nikoliv za ˇr´ adek, ale za sloupcov´ y vektor x` . Pro sloupce matice zavedeme, aˇz to budeme potˇrebovat, jin´e symboly neˇz x` . Pro kaˇzd´e β ∈ Rp definujme rezidua ri (β) = yi − xTi β
i = 1, 2, . . . , n.
Opˇet se bude jednat bud’ o ˇc´ısla, ri (β), vzeˇsl´ a z nˇekter´e numerick´e anal´ yzy nebo o n´ahodn´e veliˇciny ri (β, ω), kter´e jsou n´ahodn´e proto, ˇze Y je n´ahodn´a veliˇcina a xi a β jsou deterministicky
21
dan´e, nebo i Xi jsou n´ahodn´e veliˇciny, pak ri (β) = Yi − Xi β nebo ri (βˆ(n) ) = Yi − Xi βˆ(n) , tj. i βˆ(n) je n´ahodn´e, nebo koneˇcnˇe, coˇz bude n´aˇs nejˇcastˇejˇs´ı pˇr´ıpad, ri (βˆ(LS,n) ) = Yi − xTi βˆ(LS,n)
i = 1, 2, . . . , n,
(6)
tj. Y a βˆ(LS,n) jsou n´ahodn´e a xi deterministick´e. Jednotliv´e eventuality budou opˇet snadno rozliˇsiteln´e z kontextu. Budeme-li se napˇr´ıklad bavit o vlastnostech LS-odhadu a jeho rezidu´ı, bude zˇrejm´e, ˇze jde o eventualitu (6). Pˇripomeˇ nme, ˇze fluktuace Ei v modelu (4) nejsou nic v´ıce 0 ani m´enˇe neˇz ri (β , ω). Po pˇreps´ an´ı modelu (4) do maticov´eho z´apisu, dostaneme Y = Xβ 0 + E,
(7)
kde Y = (Y1 , Y2 , . . . , Yn )T , X a β 0 jsou jiˇz dˇr´ıve popsan´a matice pl´anu a vektor regresn´ıch koeficient˚ u a koneˇcnˇe E = (E1 , E2 , . . . , En )T je vektor n´ahodn´ ych fluktuac´ı. Tento z´apis je pˇrirozenˇe pˇrehlednˇejˇs´ı, byt’ ponˇekud m´enˇe “samovysvˇetluj´ıc´ı” sv˚ uj v´ yznam neˇz (4). Budeme jej vˇsak pˇresto pouˇz´ıvat alternativnˇe se z´apisem (4), nebot’ v nˇekter´ ych pˇr´ıpadech zjednoduˇs´ı a zpˇrehledn´ı prov´adˇen´e u ´pravy v´ yraz˚ u. Odhad regresn´ıch koeficient˚ u metodou nejmenˇs´ıch ˇctverc˚ u definuje pak jako βˆ(LS,n) (ω) = arg min β∈Rp
n X
(Yi − xTi β)2 = arg min (Y − Xβ)T (Y − Xβ), β∈Rp
i=1
(8)
kde “arg min” znamen´a, ˇze za odhad povaˇzujeme takovou hodnotu argumentu, v naˇsem pˇr´ıpadˇe β ∈ Rp , kter´a pˇr´ısluˇsn´ y v´ yraz, kter´ y n´asleduje za “arg min”, minimalizuje. Podobnˇe pro “arg max”. Heuristika, jistˇe nikoliv jedin´a, stoj´ıc´ı za metodou LS se op´ır´ a o myˇslenku, ˇze mal´a rezidua jsou nepodstatn´a a tedy je umocnˇen´ım na druhou jeˇstˇe zmenˇs´ıme a nebereme je pˇr´ıliˇs v u ´vahu. Na druh´e stranˇe velk´a rezidua jsou z´avaˇzn´ a a umocnˇen´ım na druhou je jeˇstˇe zvˇetˇs´ıme, ˇc´ımˇz “donut´ıme” minimalizaˇcn´ı proces vz´ıt tato velk´ a rezidua velmi v´aˇznˇe. To je samozˇrejmˇe velice ’ dobˇre akceptovateln´a myˇslenka, nebot vede k tomu, ˇze metoda LS je citliv´a na odlehl´a pozorov´an´ı ve vysvˇetluj´ıc´ı promˇenn´e (takov´ a pozorov´ an´ı b´ yvaj´ı oznaˇcov´ ana jako outliers) i na odlehl´a pozorov´an´ı ve vysvˇetluj´ıc´ıch promˇenn´ ych (takov´ a pozorov´ an´ı b´ yvaj´ı oznaˇcov´ ana jako leverage points, a patrnˇe neexistuje uspokojiv´ y ˇcesk´ y pˇreklad). Snad by bylo moˇzn´e mluvit o odlehl´ych bodech u prv´e skupiny a o p´ akov´ych bodech ve druh´e skupinˇe, pokud bychom pouˇzili otrock´eho pˇrekladu. Samozˇrejmˇe se nab´ız´ı srovn´ an´ı s p´ akov´ym efektem, kter´ y je zn´am v ekonomii. Obˇe skupiny pozorov´an´ı se z pochopiteln´ ych d˚ uvod˚ u ˇcasto oznaˇcuj´ı jako vlivn´e body. D˚ uvody, proˇc tato pozorov´an´ı jsou vlivn´a snadno nahl´edneme z norm´aln´ıch rovnic, kter´e za chv´ıli uvedeme. V´ yˇse uveden´a idea m´a vˇsak i sv´e ˇcertovo kop´ ytko a nepochybnˇe lze se stejnou samozˇrejmost´ı obhajovat i zcela opaˇcn´ y poˇzadavek, totiˇz ˇze by metoda odhadu parametr˚ u nemˇela b´ yt citliv´a na velk´a rezidua, pokud by jich bylo jen nˇekolik. To, ˇze citlivost na vlivn´e body m˚ uˇze b´ yt nˇekdy, napˇr. pˇri automatizovan´em zpracov´an´ı dat, prob´ıhaj´ıc´ım bez d˚ ukladn´eho dozoru zpracovatele, sebevraˇzedn´a, snad nejl´epe ukazuje n´asleduj´ıc´ı obr´azek presentuj´ıc´ı data, kter´a popisuj´ı z´avislost mezi povrchovou teplotou hvˇezdy a jej´ım jasem (Humphreys (1978)). 22
A A Z´ avislost jasu hvˇezdy na jej´ı povrchov´e teplotˇe.
(Pln´a ˇc´ara naznaˇcuje odhad modelu poˇr´ızen´ y pomoc´ı LS.)
Obr. 1
Nen´ı tˇreba m´ıt sebemenˇs´ı matematick´e vzdˇel´ an´ı k tomu, aby n´as napadlo, ˇze ˇctyˇri body leˇz´ıc´ı v lev´em horn´ım rohu obr´azku jsou “nekonsistentn´ı” s ostatn´ımi pozorov´ an´ımi a opravdu pˇri dalˇs´ım zkoum´an´ı se uk´azala fyzik´aln´ı odliˇsnost tˇechto objekt˚ u od vˇsech ostatn´ıch. Vylouˇc´ımeli tyto body ze souboru, dostaneme toto. Z´ avislost jasu hvˇezdy na jej´ı povrchov´e teplotˇe.
(Pln´a ˇc´ara naznaˇcuje odhad modelu poˇr´ızen´ y pomoc´ı LS po vylouˇcen´ı v´ yˇse diskutovan´ ych bod˚ u.)
Obr. 2
Z tohoto pˇr´ıkladu se zd´a, ˇze vizu´aln´ı anal´ yza dat m˚ uˇze mnohdy podstatnˇe napomoci pˇri jejich zpracov´an´ı. To je jistˇe pravda, ale jako kaˇzd´ y postup m´a i tento sv´a ohraniˇcen´ı. Snadno 23
lze nal´ezt v´ıcerozmˇern´a data, ve kter´ ych jsou vlivn´a pozorov´ an´ı tak dobˇre zamaskov´ ana, ˇze ani dobr´ y grafick´ y editor, umoˇzn ˇuj´ıc´ı napˇr. trojrozmˇern´e zobrazen´ı dat a jejich ot´aˇcen´ı v prostoru, tuto kontaminaci dat nenalezne. (Tento term´ın, zamaskov´ ana se pˇri zpracov´ an´ı dat opravdu pouˇz´ıv´a, tj. nejde o metaforu. Z tˇechto d˚ uvod˚ u je vhodn´e pouˇz´ıt pˇri zpracov´ av´ an´ı dat tak´e nˇekter´e diagnostick´e prostˇredky, pˇr´ıpadnˇe jin´e odhady modelu neˇz jen LS. Vr´ at´ıme se k tˇemto probl´em˚ um pozdˇeji. Dˇr´ıve neˇz postoup´ıme d´ale poctivˇe pˇriznejme, ˇze d˚ uvod k zaveden´ı LS, alespoˇ n pro Carla Friedricha Gausse, byla numerick´a proveditelnost v´ yˇse naznaˇcen´e minimalizace, tj. technick´ a jednoduchost metody. V pr´aci z roku 1809 napsal: “Ale ze vˇsech tˇechto princip˚ u je metoda nejmenˇs´ıch ˇctverc˚ u principem nejz´ akladnˇejˇs´ım. Vˇsechny ostatn´ı n´ as zav´ adˇej´ı do mnohem komplikovanˇejˇs´ıch v´ypoˇct˚ u.” Moˇzn´a, ˇze se nˇekter´emu ˇcten´ aˇri bude zd´at divn´e, ˇze je technick´ a jednoduchost nadˇrazena “objektivitˇe” (ˇci “spr´avnosti” ˇci “pravdivosti”, pˇr´ıpadnˇe si doplˇ nte jin´e vzneˇsen´e slovo). Pˇripomeˇ nme vˇsak, ˇze jednoduchost teorie je obecnˇe pˇrij´ıman´ ym krit´eriem pˇri porovn´ av´ an´ı teori´ı ˇci d´av´an´ı pˇrednosti jinak stejnˇe dobˇre funguj´ıc´ım teori´ım, viz Ocamova bˇritva, Kuhn (1965). Nav´ıc, pˇred masov´ ym rozˇs´ıˇren´ım relativnˇe levn´e a nepochybnˇe v´ ykonn´e poˇc´ıtaˇcov´e techniky, byla jednoduchost v´ ypoˇctu vlastnˇe podm´ınkou aplikovatelnosti metody. Zaˇcnˇeme nyn´ı s budov´an´ım vlastn´ı teorie. Snadno se nahl´edne, ˇze vˇzdy existuje ˇreˇsen´ı probl´emu (8). Ukazuje to n´asleduj´ıc´ı lemma. Dˇr´ıve neˇz ji vˇsak vyslov´ıme, zaved’me jeˇstˇe jedno oznaˇcen´ı. Symbolem M(A) budeme oznaˇcovat vektorov´ y podprostor prostoru Rn , kter´ y je generov´an sloupci matice A. Dimenze podprostoru i typ matice vyplyne z kontextu. Jeˇstˇe jednou zd˚ uraznˇeme, ˇze M(A) je generov´an sloupci matice A. Ostatnˇe tvar regresn´ıho modelu, ve kter´em kombinujeme pomoc´ı vektoru regresn´ıch koeficient˚ u β sloupce matice X napov´ıd´ a, ˇze se budeme zaj´ımat o prostory generovan´e sloupci pˇr´ısluˇsn´ ych matic. Je sice pravda, ˇze prostoty T M(A) a M(A ) maj´ı mnoho spoleˇcn´eho (napˇr. hodnost), ale jinak se jedn´a o r˚ uzn´e prostory. LEMMA 1 Necht’ Y ∈ Rn a k necht’ je dimense podprostoru generovan´eho sloupci matice pl´ anu. Potom existuje pr´ avˇe jeden vektor U ∈ M(X) = Rn,k takov´y, ˇze Y = U + Z a Z⊥M(X), kde “⊥” oznaˇcuje fakt, ˇze vektor Z je kolm´y k podprostoru M(X). D˚ ukaz. Necht’ {u1 , u2 , . . . , uk } a {u1 , u2 , . . . , uk . . . , un } jsou ortogon´aln´ı b´aze M(X) a Rn . Pak n Y =
X i=1
αi ui , P
P
pro nˇekter´a re´aln´a α1 , α2 , . . . , αn . Poloˇzme U = ki=1 αi ui a Z = ni=k+1 αi ui . Pak Z⊥M(X) a Y = U + Z. T´ım je dok´az´ana existence vektor˚ u U a Z. Necht’ d´ale Y = U1 + Z1 a Y = U2 + Z2 , U1 , U2 ∈ M(X), Z1 , Z2 ⊥M(X). Pak U1 − U2 = Z1 − Z2 a nav´ıc U1 − U2 ∈ M(X) a Z1 − Z2 ⊥M(X), a tedy U1 − U2 ⊥Z1 − Z2 , tj. U1 − U2 = 0 = Z1 − Z2 . T´ım je uk´az´ ana jednoznaˇcnost rozkladu. 2 Nyn´ı necht’ U ∈ M(X) je vektor z pˇredchoz´ıho lemmatu. Pro libovoln´ y jin´ y vektor W ∈ M(X) pak m´ame (Y − W )T (Y − W ) = [(Y − U ) − (U − W )]T [(Y − U ) − (U − W )] = (Y − U )T (Y − U ) + (U − W )T (U − W ) ≥ (Y − U )T (Y − U ). 24
K ˇreˇsen´ı (8) tedy staˇc´ı nal´ezt β ∈ Rk tak, aby line´arn´ı kombinace sloupc˚ u matice pl´anu, kter´a (LS,n) vystupuje v (8) jako Xβ, byla rovna U , tj. U = X βˆ . To vˇzdy lze prov´est a nav´ıc pokud k = p, tj. pokud je dimenze prostoru M(X) rovna p. V tom pˇr´ıpadˇe mluv´ıme o tom, ˇze matice X je pln´e hodnosti ˇci ˇze model je pln´e hodnosti. Sloupce matice X pak tvoˇr´ı b´azi pˇr´ısluˇsn´eho podprostoru a βˆ(LS,n) je urˇceno jednoznaˇcnˇe. Pˇripomeˇ nme, ˇze p oznaˇcuje poˇcet sloupc˚ u matice X. Vzhledem k tomu, ˇze nyn´ı jiˇz v´ıme, ˇze ˇreˇsen´ı probl´emu (8) vˇzdy existuje m˚ uˇzeme je hledat T tak, ˇze vypoˇcteme parci´aln´ı derivace funkcion´ alu (Y − Xβ) (Y − Xβ) dle β` a poloˇz´ıme je rovn´e nule. Takto vznikl´e soustavˇe rovnic se ˇcasto ˇr´ık´ a norm´ aln´ı rovnice. Protoˇze ∂
Pp
j=1 xij βj
∂β` m´ame
∂
Pn
i=1 (Yi
− xTi β)2
∂β`
= −2
= xi` , n X
(Yi − xTi β)xi` .
i=1
Norm´aln´ı rovnice tedy maj´ı tvar n X
(Yi − xTi β)xi` = 0
pro
` = 1, 2, . . . , p,
(9)
i=1
ˇci v maticov´em z´apise X T (Y − Xβ) = 0.
(10)
βˆ(LS,n) = (X T X)−1 X T Y,
(11)
Je-li k = p dostaneme pokud k < p, pak βˆ(LS,n) = (X T X)− X T Y, kde (X T X)− je nˇekter´a lev´a pseudoinverse matice X T X, coˇz (znovu) indikuje, ˇze v tomto pˇr´ıpadˇe βˆ(LS,n) nen´ı urˇceno jednoznaˇcnˇe. Nad´ale budeme pro jednoduchost pˇredpokl´adat, ˇze matice pl´anu je pln´e hodnosti. Ostatnˇe pokud by matice pl´anu nebyla pln´e hodnosti prostˇe nˇekter´ y z jej´ıch sloupc˚ u vylouˇc´ıme. Tento postup nen´ı moˇzn´ y, ˇci je alespoˇ n problematick´ y, v pˇr´ıpadˇe, ˇze se jedn´a o n´ahodn´e nosiˇce nebo uvaˇzujeme matici X z´ avislou na nˇejak´ ych parametrech, pˇriˇcemˇz pouze pro nˇekterou “konstelaci” parametr˚ u dojde ke ztr´atˇe pln´e hodnosti modelu. V dalˇs´ım vˇsak pˇrijmeme pˇredpoklady, kter´e (alespoˇ n asymptoticky) tuto moˇznost vylouˇc´ı. Nicm´enˇe v literatuˇre lze nal´ezt diskuzi takov´ ych situac´ı, Judge a kol. (1980), Zv´ara (1989)). Pot´ıˇze v´ ypoˇcetn´ıho r´azu a zhorˇsen´ı kvality odhadu (ve smyslu velk´eho rozptylu) mohou nastat v pˇr´ıpadˇe, ˇze matice X T X je sice regul´arn´ı a tedy (X T X)−1 existuje, ale je tzv. ˇspatnˇe podm´ınˇena, tj. je na “pokraji” singularity. V takov´em pˇr´ıpadˇe jsou jej´ı sloupce “t´emˇeˇr” line´arnˇe z´avisl´e a mluv´ıme o probl´emu kolinearity, ke kter´emu se rovnˇeˇz pozdˇeji vr´at´ıme. Form´ alnˇe se v´ yˇse naznaˇcen´e vylouˇcen´ı nˇekter´eho sloupce (ˇci sloupc˚ u) matice X v pˇr´ıpadˇe, ˇze tato nen´ı pln´e hodnosti, provede takto: Necht’ V1 , V2 , . . . , Vk , Vk+1 , . . . , Vp jsou sloupce matice X, pˇriˇcemˇz prvn´ıch k je line´arnˇe nez´avisl´ ych, ostatn´ı jsou na nich z´avisl´e, jin´ ymi slovy jsou line´arn´ımi kombinacemi tˇech prvn´ıch k. Form´ alnˇe to znamen´a, ˇze existuje matice Λ takov´ a, ˇze (Vk+1 , . . . , Vp ) = (V1 , V2 , . . . , Vk ) · Λ. 25
Pak ale Xβ 0 = (V1 , V2 , . . . , Vk )(β1 , β2 , . . . , βk )T + (V1 , V2 , . . . , Vk )Λ(βk+1 , βk+2 , . . . , βp )T = (V1 , V2 , . . . , Vk )(γ10 , γ20 , . . . , γk0 )T , kde γ 0 = (γ10 , γ20 , . . . , γk0 )T = (β1 , β2 , . . . , βk )T + Λ(βk+1 , βk+2 , . . . , βp )T , odkud opravdu potˇrebujeme pouze k parametr˚ u. (n) ˆ Odhad β oznaˇcujeme jako line´arn´ı, pokud βˆ(n) = LY kde L je nˇekter´ a, na Y nez´avisl´a, (p × n)-rozmˇern´a matice. Pochopitelnˇe, ˇze bude L = L(X), tj. slovy, funkc´ı vysvˇetluj´ıc´ıch promˇenn´ ych. Jinak by byl odhad βˆ(n) dosti podivn´ y, nebot’ u ´vahu informaci nesenou vysvˇetluj´ıc´ımi promˇenn´ ymi.
je vidˇet, ˇze samozˇrejmˇe matice L je by nebral v
LEMMA 2 Necht’ posloupnost {Ei }∞ ı nez´ avisl´ych a stejnˇe rozdˇelen´ych n´ ahodn´ych i=1 je posloupnost´ veliˇcin s nulovou stˇredn´ı hodnotou a koneˇcn´ym kladn´ym rozptylem σ 2 . Potom je βˆ(LS,n) nejlepˇs´ım nestrann´ym line´ arn´ım odhadem parametru β 0 . Pokud nav´ıc existuje h(n) : N → R tak, ˇze (X T X)−1 = O(h−1 (n))
(12)
X T X = o(h2 (n)),
(13)
a potom βˆ(LS,n) je silnˇe konsistentn´ım odhadem. Zes´ıl´ıme-li jeˇstˇe (12) na lim n→∞
1 T X X = Q, n
(14)
kde Q je nˇekter´ a regul´ arn´ı matice, potom √ n(βˆ(LS,n) − β 0 )
(15)
je asymptoticky norm´ aln´ı N (0, Σ), kde Σ = σ 2 Q−1 . Dˇr´ıve neˇz pust´ıme do d˚ ukazu tohoto lemmatu, uˇcin´ıme dvˇe technick´e pozn´amky. Pozorn´ y ˇcten´aˇr dosud uveden´eho textu jiˇz nahl´edl, ˇze je tˇreba odliˇsovat βˆ(n) jako statistiku (tj. n´ahodnou veliˇcinu) a βˆ(n) jako hodnotu odhadu pro nˇekter´ a data. Rozliˇsen´ı vyplyne z kontextu. Ve statistick´e literatuˇre se tyto dvˇe entity obvykle ani form´alnˇe nerozliˇsuj´ı a je docela moˇzn´e, ˇze nˇekdy m´enˇe pozorn´ı ˇcten´aˇri tento rozd´ıl ani nezaznamenaj´ı. Proto si obˇcas dovol´ıme, bude-li to vhodn´e, naznaˇcit oznaˇcen´ım βˆ(n) (ω), ˇze se jedn´a o tu prvn´ı moˇznost, tj. o odhad jako n´ahodnou veliˇcinu. To znamen´a jin´ ymi slovy, ˇze βˆ(LS,n) (ω) je nalezen jako nˇejak´ a formule zahrnuj´ıc´ı Yi a Xi , i = 1, 2, . . . , n, viz (11), metodou nejmenˇs´ıch ˇctverc˚ u na z´akladˇe poˇc´ ateˇcn´ıho ∞ ∞ u ´seku d´elky n ∈ N posloupnost´ı n´ahodn´ ych veliˇcin {Yi (ω)}i=1 a {Xi (ω)}i=1 a bude pouˇz´ıv´ an (LS,n) ˆ k teoretick´ ym u ´vah´am (napˇr. k d˚ ukazu konsistence odhadu), zat´ımco β je vyˇc´ıslen pro nˇekter´a konkr´etn´ı data, tj. pro deterministick´e posloupnosti {Yi (ω0 )}ni=1 a {Xi (ω0 )}ni=1 , kde ω0 je nˇekter´ y bod z Ω. Zd˚ urazˇ nujeme vˇsak jeˇstˇe jednou, ˇze ve vˇetˇsinˇe pˇr´ıpad˚ u budeme “(ω)” vynech´ avat, nebot’ (n) ˆ ˆ rozliˇsen´ı mezi β (ω) a β bude naprosto zˇrejm´e z kontextu. Budeme-li napˇr. mluvit o konsistenci 26
ˆ bude zˇrejm´e, ˇze m´ame na mysli odhad jako n´ahodnou veliˇcinu, tj. ˇci asymptotick´e normalitˇe β, ˆ β(ω), a nikoliv ˇc´ıselnou hodnotu odhadu pro nˇekter´ a data. Druh´a pozn´amka je urˇcena ˇcten´aˇri, kter´ y se snad poprv´e v ˇzivotˇe setk´av´ a s tvrzen´ım o asymptotick´em rozdˇelen´ı nˇekter´eho odhadu. Jak plyne z Lemmatu 2 (tedy aˇz jej dok´aˇzeme) je odhad βˆ(LS,n) silnˇe konsistentn´ı. To je d˚ uvod proˇc se ve vztahu (15) objevuje n´asoben´ı faktorem √ n. Bez t´eto normalizace by samozˇrejmˇe naznaˇcen´ y rozd´ıl pˇri n → ∞ konvergoval k nule. D˚ ukaz Lemmatu 2. Necht’ L je nˇekter´ a (p×n)-rozmˇern´ a matice, L∗ = (X T X)−1 X T a β˜(n) = LY . Pak z poˇzadavku nestrannosti, kter´ y mus´ı platit pro libovoln´e β ∈ Rp , nebot’ nezn´ ame 0 p hodnotu β , plyne, ˇze pro vˇsechna β ∈ R IEβ β˜(n) = LIEβ Y = LXβ = β
(16)
LX = I,
(17)
a tud´ıˇz kde I je (p × p)-rozmˇern´a jednotkov´a matice a doln´ı index u stˇredn´ı hodnoty naznaˇcuje, ˇze tato je poˇc´ıt´ana “v modelu”, ve kter´em je vektor regresn´ıch koeficient˚ u roven β. Abychom uzavˇreli d˚ ukaz prv´e ˇc´asti tvrzen´ı lemmatu, potˇrebujeme dok´azat, ˇze pro libovoln´e λ ∈ Rp je λT cov{βˆ(LS,n) }λ ≤ λT cov{β˜(n) }λ, kde cov{·} oznaˇcuje pˇr´ısluˇsnou kovarianˇcn´ı matici. Snadno se ovˇeˇr´ı, ˇze (viz (16) a (17)) λT cov{β˜(n) }λ = λT IE {(LY − β)T (LY − β)}λ = λT IE {(LY − LXβ)T (LY − LXβ)}λ = λT LIE {(Y − Xβ)T (Y − Xβ)}LT λ = λT Lσ 2 ILT λ = σ 2 λT LLT λ. Podobnˇe λT cov{βˆ(LS,n) }λ = σ 2 λT L∗ (L∗ )T λ = σ 2 λT (X T X)−1 λ. Nyn´ı λT LLT λ = λT (L − L∗ + L∗ )(L − L∗ + L∗ )T λ = λT (L − L∗ )(L − L∗ )T λ + λT L∗ (L∗ )T λ, nebot’ (L − L∗ )(L∗ )T = (L − (X T X)−1 X T )X(X T X)−1 = LX(X T X)−1 − (X T X)−1 = 0 a tedy tak´e L∗ (L − L∗ )T = 0. Vzhledem k tomu, ˇze L∗ (L∗ )T = (X T X)−1 a (L − L∗ )(L − L∗ )T jsou pozitivnˇe semidefinitn´ı, je d˚ ukaz prv´e ˇc´ asti lemmatu dokonˇcen. K d˚ ukazu druh´e ˇc´asti pouˇzijeme Kolmogor˚ uv siln´ y z´akon velk´ ych ˇc´ısel (viz napˇr. Rao (1978), (LS,n) ˆ tˇep´an (1987)) . Odhad β m˚ uˇzeme totiˇz ps´at jako (X T X)−1 X T Y = β 0 + nh(n) · (X T X)−1
1 1 1 X T E = β0 + ( X T X)−1 X T E, (18) nh(n) nh(n) nh(n)
27
kde E = (E1 , E2 , . . . , En )T . Uvaˇzujme nejprve pro libovoln´e `, 1 ≤ ` ≤ p n´ ahodnou veliˇcinu Zn(`) = (1)
(2)
n 1 X xi` Ei nh(n) i=1
(p)
a Zn = (Zn , Zn , . . . , Zn )T . Protoˇze var{xi` Ei } = x2i` σ 2 , m´ame var(Zn(`) ) =
n n X X 1 1 2 var{x E } = σ x2 → 0 i` i n2 h2 (n) i=1 n2 h2 (n) i=1 i`
as n → ∞,
a tedy dle (13) Zn → 0 s. j.. Pouˇzit´ım Sluck´eho vˇety (viz opˇet Rao (1978), tˇep´ an (1987)) nebo 0 T −1 prostˇe pˇr´ımo ovˇeˇren´ım konvergence s. j. pro transformaci β + n · (X X) Zn pˇri platnosti (12), dokonˇc´ıme d˚ ukaz. Dˇr´ıve neˇz postoup´ıme k d˚ ukazu posledn´ı ˇc´ asti vˇety upozornˇeme, ˇze v nˇekter´ ych monografi´ıch 1 T se podrobnˇe diskutuje charakter posloupnosti matic n X X pro n → ∞ a ˇz´ ad´ a se, aby byla (LS,n) ˆ ohraniˇcena v pravdˇepodobnosti. Vˇsimnˇeme si, ˇze pro d˚ ukaz konsistence β potˇrebujeme 1 T naopak to aby n X X nebyla pˇr´ıliˇs “mal´a”. Rovnˇeˇz si povˇsimnˇeme, ˇze poruˇsen´ı pˇredpokladu homoskedasticity nemus´ı v´est ke ztr´atˇe konsistence, nebot’ prostˇe staˇc´ı, aby n X 1 σ 2 x2 → 0 n2 h2 (n) i=1 i i`
as n → ∞,
pochopitelnˇe pˇri zachov´an´ı (12). V ˇcl´anku Rao a Zhao (1992) lze nal´ezt zaj´ımav´ y n´apad studovat (LS,n) nam´ısto konsistence odhadu βˆ pro p˚ uvodn´ı data, ohraniˇcenost v pravdˇepodobnosti odhadu (LS,n) βˆ pro data transformovan´a n´asleduj´ıc´ım zp˚ usobem. T Protoˇze pˇredpokl´ad´ame, ˇze matice X X je symetrick´ a (a re´aln´ a) lze ji ps´at jako QQT , kde Q je ˇctvercov´a matice (typu p × p) a protoˇze nav´ıc pˇredpokl´ad´ ame, ˇze X T X je regul´arn´ı, je regul´arn´ı tak´e matice Q. Toto vˇse bude dok´az´ ano n´ıˇze, viz D˚ usledek 2. To znamen´a, ˇze existuje −1 Q a tedy m˚ uˇzeme nam´ısto modelu (4) studovat model Yi = x ˜Ti β (n) + Ei ,
i = 1, 2, . . . , n, ³
(19)
´−1
kde x ˜i = xTi Q−1 a β (n) = Qβ 0 . Nyn´ı staˇc´ı pˇredpokl´adat, ˇze X T X = o(1) a uk´azat, ˇze v modelu (19) je βˆ(LS,n) = Op (1). Rao a Zhao provedli d˚ ukaz v r´amci studia M -odhad˚ u, avˇsak pˇredpoklady, za kter´ ych v´ ysledek plat´ı, jsou splnˇeny i pro odhad metodou nejmenˇs´ıch ˇctverc˚ u. D˚ ukaz je vˇsak komplikovan´ y a proto z´ajemce odkazujeme na p˚ uvodn´ı ˇcl´ anek. K d˚ ukazu posledn´ı ˇc´asti lemmatu pak vyuˇzijeme Varadarajanovu a Feller-Lindebergovu vˇetu (opˇet Rao (1978), tˇep´an (1987)). Ze vztahu (18) snadno odvod´ıme, ˇze √ 1 n(βˆ(LS,n) − β 0 ) = n · (X T X)−1 √ X T E. n Zkoumejme nejprve pro libovoln´e κ ∈ Rp n´ahodnou veliˇcinu Sn = κT √1n σ 2 n1 κT X T Xκ.
Pn
ı i=1 xi Ei . Jej´ p κ ∈ R podaˇr´ı
stˇredn´ı hodnota je rovna nule a rozptyl Pokud se n´am pro libovoln´e dok´azat, ˇze Sn m´a asymptoticky norm´aln´ı rozdˇelen´ı s nulovou stˇredn´ı hodnotou a rozptylem 28
P
σ 2 κQκ, pak z Varadarajanovy vˇety plyne, ˇze √1n ni=1 xi Ei m´ a asymptoticky norm´aln´ı rozdˇelen´ı s nulov´ ym vektorem stˇredn´ıch hodnot a kovarianˇcn´ı matic´ı σ 2 Q. Konkretizac´ı Feller-Lindebergovy podm´ınky pro Sn a ε > 0, dostaneme v´ yraz σ
−2
T
T
−1
[κ X Xκ]
n Z X 1
T T T 2 i=1 |κ xi z|>εσ[κ X Xκ]
(κT xi z)2 dFEi (z),
(20)
kde FEi (z) oznaˇcuje distribuˇcn´ı funkci n´ahodn´e veliˇciny Ei . D´ıky pˇredpokladu o stejn´em rozdˇelen´ı vˇsech Ei , jsou vˇsechny tyto distribuˇcn´ı funkce stejn´e. Piˇsme tedy nam´ısto FEi (z) prostˇe F (z). Je tˇreba dok´azat, ˇze tento v´ yraz konverguje k nule pro n → ∞. Zvolme nˇekter´e pevn´e τ > 0 a naleznˇeme dostateˇcnˇe velk´e K > 1 takov´e, ˇze Z
z 2 dF (z) < τ σ 2 .
|z|>K
Snadno se nahl´edne, ˇze v i-t´em integr´alu ve v´ yraze (20) integrujeme pˇres oblast 1
εσ[κT X T Xκ] 2 . |κT xi |
|z| >
Na druh´e stranˇe z pˇredpokladu (14) plyne, ˇze κT X T Xκ je, poˇc´ınaje od nˇekter´eho n0 , vˇetˇs´ı neˇz 2 κT Qκ 1 T eˇz z (14) m´ame pro δ < εσ 4K , poˇc´ınaje ˇreknˇeme nˇekter´ ym n1 > n0 2 2 nκ Qκ a rovnˇ ¯ ¯ ¯1 T T ¯ ¯ κ X Xκ − κT Qκ¯ < δ, ¯n ¯
coˇz implikuje pro i > n1 a n > n1
¯ ¯ ¯1 T ¯ ¯ κ xi xT κ¯ < 2δ. i ¯ ¯n
Protoˇze vˇsak n1 < ∞, existuje n2 > n1 tak, ˇze pro n > n2 ¯ ¯ ¯ ¯1 T ¯ κ xi xT κ¯ < 2δ i ¯ ¯n
pro vˇsechna i ∈ N . Pak ovˇsem pro n > n2 m´ame "
(
max
1
εσ[κT X T Xκ] 2
1≤i≤n
tj.
(
"
min 1≤i≤n
Odtud plyne σ −2 [κT X T Xκ]−1 ≤σ
)#2
|κT xi |
−2
T
<
1
εσ[κT X T Xκ] 2 |κT xi |
4δ 1 < 2, εσ 2 κT Qκ K )#2
> K 2.
n Z X 1
T T T 2 i=1 |κ xi z|>εσ[κ X Xκ]
T
−1
[κ X Xκ]
n Z X i=1 |z|>K
(κT xi z)2 dF (z)
Z
= σ −2 [κT X T Xκ]−1
|z|>K
z 2 dF (z) ·
n X i=1
29
(κT xi z)2 dF (z)
κT xi xTi κ ≤ τ.
Protoˇze ε i τ byla libovoln´a kladn´a ˇc´ısla, dok´azali jsme platnost Feller-Lindebergovy podm´ınky pro Sn . Protoˇze rovnˇeˇz κ bylo libovoln´e, pouˇzit´ım Varadarajanovy vˇety, jak jsme uˇz ostatnˇe P v´ yˇse uvedli, dostaneme, ˇze asymptotick´e rozdˇelen´ı n´ahodn´e veliˇciny √1n ni=1 xi Ei je norm´aln´ı s nulov´ ym vektorem stˇredn´ıch hodnot a kovarianˇcn´ı matic´ı σ 2 Q. P P Potom ovˇsem n´ahodn´a veliˇcina n·(X T X)−1 √1n ni=1 xi Ei = ( n1 X T X)−1 √1n ni=1 xi Ei asymptoticky norm´aln´ı rozdˇelen´ı s nulov´ ym vektorem stˇredn´ıch hodnot a kovarianˇcn´ı matic´ı σ 2 Q−1 . 2 Nyn´ı jsme dospˇeli do st´adia, ve kter´em si budeme moci n´azornˇe zd˚ uvodnit to, co jsme v´ yˇse jiˇz jednou naznaˇcili, totiˇz ˇze omezen´ı na line´arn´ı odhad je drastick´e. Pˇripomeˇ nme, ˇze Lemma 2 ukazuje, ˇze βˆ(LS,n) je nejlepˇs´ım nestrann´ ym line´arn´ım odhadem. Norm´aln´ı rovnice (9) pˇrep´ıˇseme do tvaru n X
(Yi − xTi β)xi = 0.
(21)
i=1
Bez u ´jmy na obecnosti pˇredpokl´adejme, ˇze jsme data posunuli ve faktorov´em prostoru tak, ˇze leˇz´ı okolo poˇc´atku. Ostatnˇe jak plyne z tvaru βˆ(LS,n) , je tento invariantn´ı k line´arn´ı transformaci dat a odhad pro p˚ uvodn´ı data lze z´ıskat z odhadu pro posunut´ a data prostˇe inverzn´ı transformac´ı. Z (21) je patrn´e, ˇze pozorov´an´ı, kter´e bude m´ıt velk´e hodnoty x-ov´ ych souˇradnic, tj. bude “leverage pointem”, dostane vˇetˇs´ı v´ahu v norm´aln´ıch rovnic´ıch a v´ıce ovlivn´ı jejich ˇreˇsen´ı. Podobnˇe degraduj´ıc´ı vliv bude m´ıt pozorov´ an´ı se znaˇcnˇe odlehlou y-ovou souˇradnic´ı (outlier), nebot’ u nˇeho bude v (21) zase velik´ y prvn´ı souˇcinitel. Celkov´ y efekt bude potom takov´ y, jak´ y je naznaˇcen na obr´azku 1. To vˇsak znamen´a, ˇze i nejlepˇs´ı mezi line´arn´ımi odhady d´a ponˇekud pˇrekvapiv´ y v´ ysledek. Jsme-li vˇsak v situaci, kdy nem´ame pochybnosti o tom, ˇze fluktuace jsou, alespoˇ n pˇribliˇznˇe, norm´alnˇe rozdˇeleny a n´aslednˇe to ovˇeˇr´ıme norm´aln´ım grafem, pˇr´ıpadnˇe testem na normalitu rezidu´ı, kter´ y bude tak´e pops´an n´ıˇze, pak z n´asleduj´ıc´ı vˇety plyne, ˇze βˆ(LS,n) je dokonce nejlepˇs´ı 5 mezi vˇsemi nestrann´ ymi odhady. ˇ VETA 1 Necht’ {Ei }∞ avisl´ych norm´ alnˇe rozdˇelen´ych (N (0, σ 2 ), σ 2 ∈ (0, ∞)) i=1 je posloupnost nez´ n´ ahodn´ych veliˇcin. Oznaˇcme βˆ(M L,n) maxim´ alnˇe vˇerohodn´y odhad β 0 . Potom βˆ(LS,n) = βˆ(M L,n) a βˆ(LS,n) dosahuje doln´ı Rao-Cramerovy hranice rozptylu, tj. je nejlepˇs´ım nestrann´ym odhadem β 0 . Naopak, je-li βˆ(LS,n) nejlepˇs´ı nestrann´y odhad dosahuj´ıc´ı doln´ı Rao-Cramerovy hranice 2 ˆ(LS,n) = βˆ(M L,n) . rozptylu, pak pˇr´ısluˇsn´e rozdˇelen´ı fluktuac´ı {Ei }∞ i=1 je N (0, σi ) a β D˚ ukaz. Vzhledem k tomu, ˇze v pˇredch´ azej´ıc´ım textu jiˇz byla nestrannost dok´az´ ana, budeme dokazovat jen zb´ yvaj´ıc´ı ˇc´ast tvrzen´ı vˇety. Snadno se rozpomeneme, ˇze pouˇzit´ı metody maxim´aln´ı vˇerohodnosti vˇzdy pˇredpokl´ad´ ame, ˇze pˇr´ısluˇsn´a n´ahodn´a veliˇcina, v naˇse pˇr´ıpadˇe Yi , m´a rozdˇelen´ı urˇcit´eho typu s nezn´am´ ymi T 2 parametry, v naˇse pˇr´ıpadˇe N (xi β, σ ), a snaˇz´ıme se nal´ezt hodnoty parametr˚ u tak, aby se maximalizovala vˇerohodnostn´ı funkce. V pr´avˇe dokazovan´em pˇr´ıpadˇe, vzhledem k pˇredpokladu normality, m´ame ) ( (Yi − xTi β)2 1 . exp − f (Yi , β) = √ 2σ 2 σ 2π 5 Odhad je nejlepˇs´ı ve smyslu minim´ aln´ıho rozptylu. Pro jin´e krit´erium by byl (obecnˇe) nejlepˇs´ım jin´ y odhad. Napˇr. L1 -odhad by byl nejlepˇs´ım v pˇr´ıpadˇe, ˇze by krit´eriem byl stˇredn´ı absolutn´ı vych´ ylen´ı odhadu.
30
Tvar vˇerohodnostn´ı funkce je tedy n´asleduj´ıc´ı n Y
`n (Y, β) =
(
i=1
)
1 (Y − xTi β)2 √ exp(− i ) . 2σ 2 σ 2π
Zlogaritmov´an´ım dostaneme n √ 1 X log`n (Y, β) = −n log(σ 2π) − 2 (Yi − xTi β)2 . 2σ i=1
Nyn´ı βˆ(M L,n) = argmax {log`n (Y, β)} β∈Rp
(
= argmax
−
β∈Rp
= arg min β∈Rp
( n X
n X
)
xTi β)2
(Yi −
i=1
)
= βˆ(LS,n) .
(Yi − xTi β)2
i=1
βˆ(LS,n)
D´ale uk´aˇzeme, ˇze dosahuje doln´ı Rao-Cramerovy hranice. Rao-Cramerova vˇeta b´ yv´ a uv´adˇena v uˇcebnic´ıch a z´akladn´ıch kursech statistiky obvykle pro jednorozmˇern´ y parametr. Proto kr´atce zopakujeme jej´ı d˚ ukaz pro v´ıcerozmˇern´ y parametr. Pˇredpokl´ad´ame-li, ˇze statistika Tn (y, x) je nestrann´ ym odhadem β, potom IEβ Tn (y, x) = β p pro vˇsechna β ∈ R (pˇripom´ın´ame, ˇze doln´ı index “β ” u symbolu stˇredn´ı hodnoty naznaˇcuje, ˇze stˇredn´ı hodnota je poˇc´ıt´ana v modelu, kter´ y pˇredpokl´ad´ a jako “skuteˇcnou” hodnotu regresn´ıch koeficient˚ u pr´avˇe β). Oznaˇcme hustotu n´ahodn´e veliˇciny Y pˇri hodnot´ach parametr˚ u modelu rovn´ ych X a β symbolem pn (y, X, β). Potom m´ame (1)
(2)
βj − βj
Z
n
o
Tnj (y, x) pn (y, X, β (1) ) − pn (y, X, β (2) ) dµ(y)
=
j = 1, 2, . . . . , p,
kde µ(y) je pˇr´ısluˇsn´a σ-koneˇcn´a m´ıra, v˚ uˇci kter´e byla nalezena hustota pravdˇepodobnosti (jako Radon-Nikodymova derivace odpov´ıdaj´ıc´ı pravdˇepodobnostn´ı m´ıry). Pro jednoduchost pˇredpokl´adejme, ˇze nosiˇc hustoty pravdˇepodobnosti pn (y, X, β) je cel´a pˇr´ımka. Ostatnˇe v´ ysledek tˇechto u ´vah budeme aplikovat na norm´aln´ı rozdˇelen´ı, kde toto je, pr´avˇe tak jako dalˇs´ı, n´ıˇze pouˇzit´e pˇredpoklady jsou, opr´avnˇen´e. Dˇr´ıve neˇz budeme pokraˇcovat d´ale, pˇripomeneme (ˇci uvˇedom´ıme) si, jak je definov´ana parci´aln´ı derivace funkce v´ıce promˇenn´ ych, ˇreknˇeme f (t), kde t = (t1 , t2 , . . . , tp )T . Parci´aln´ı derivac´ı v bodˇe t0 rozum´ıme limitu, pokud existuje (0)
lim ∆→0
(0)
(0)
= (1)
(1)
(0)
(0)
(0)
(0)
f (t1 , t2 , . . . , tj + ∆, . . . , tp ) − f (t1 , t2 , . . . , tj , . . . , t0p ) ∆
(1)
lim(0) (1)
f (t(1) ) − f (t(0) (1)
(0)
tj − tj
tj →tj
,
(1)
kde (t1 , t2 , . . . , tj , . . . , tp ) = (t01 , t02 , . . . , t0j + ∆, . . . , t0p ). Nyn´ı m´ame (1)
(1)
Z
(2)
βj − βj
(2)
β` − β`
=
Tnj (y, x)
pn (y, X, β (1) ) − pn (y, X, β (2) ) (1)
(2)
pn (y, X, β (2) )(β` − β` ) 31
pn (y, X, β (2) )dµ(y),
1 ≤ j, ` ≤ p.
Pokud existuj´ı pˇr´ısluˇsn´e parci´aln´ı derivace, a pokud lze prohodit integraci a limitudostaneme (1) (2) (mˇejme na pamˇeti, ˇze βj − βj = 0 pro j 6= `) Z
δj` =
Tnj (y, x)
∂log pn (y, X, β) pn (y, X, β)dµ(y) ∂β`
j, ` = 1, 2, . . . , p.
(22)
Poznamenejme, ˇze pro norm´aln´ı rozdˇelen´ı parci´aln´ı derivace existuj´ı a prohozen´ı intedrace a n (y,X,β) derivov´an´ı lze prov´est. Necht’ nyn´ı τ (β) je pozitivnˇe semidefinitn´ı matice a oznaˇcme ∂log p∂β vektor parci´aln´ıch derivac´ı a necht’ ξ je vektor zadan´ y rovnost´ı ·
ξ=
∂log pn (y, X, β) ∂β
¸T
τ (β).
Zn´asob´ıme-li nyn´ı vztah (22) pro kaˇzd´e j, ` = 1, 2, . . . , p ˇc´ıslem τ`k (β) a seˇcteme toto pˇres `, dostaneme p X
Z
δj` τ (β)`k =
Tnj (y, x)
`=1
p ½ X ∂log pn (y, X, β)
∂β`
`=1
¾
pn (y, X, β)τ`k (β) dµ(y),
takˇze v maticov´em z´apise m˚ uˇzeme ps´at ·
Z
τ (β) =
Tn (y, x)
∂log pn (y, X, β) ∂β
Z
=
Z
¸T
τ (β)pn (y, X, β)dµ(y)
Tn (y, x) [ξ − IEβ ξ]T pn (y, X, β)dµ(y),
Tn (y, x)ξ T pn (y, X, β)dµ(y) =
kde posledn´ı rovnost plyne z pˇredpokladu, ˇze ·
IEβ ξ = IEβ
∂log pn (y, X, β) ∂β
¸T
τ (β) = 0,
kter´ y plat´ı napˇr. je-li hustota pn (y, X, β) nulov´ a na “okraj´ıch” sv´eho nosiˇce. Vzhledem k tomu, ˇze budeme v dalˇs´ım aplikovat nalezen´e vztahy na norm´aln´ı hustotu, bude toto splnˇeno. Z posledn´ıho vztahu vˇsak rovnˇeˇz plyne, ˇze Z
[Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T pn (y, X, β)dµ(y),
τ (β) =
coˇz se snadno ovˇeˇr´ı pˇr´ım´ ym v´ ypoˇctem. Potom pro libovoln´e λ ∈ Rp m´ame Z
λT τ (β)λ =
λT [Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T λpn (y, X, β)dµ(y) n
o
≤ var λT Tn (y, x) var
(·
∂log pn (y, X, β) ∂β
)
¸T
τ (β)λ ,
(23)
kde jsme pouˇzili Schwarzovu nerovnost. Protoˇze ve Schwarzovˇe nerovnosti nast´av´ a rovnost pr´avˇe kdyˇz n´ahodn´a veliˇcina “v prv´e varianci” je skoro jistˇe line´arnˇe z´avisl´ a na n´ahodn´e veliˇcinˇe “ve druh´e varianci”, znamen´a to, ˇze rovnost nastane pokud pro libovoln´e λ ∈ Rp ·
λT Tn (y, x) = τ (β) ·
¸T
∂log pn (y, X, β) + γ(β) ∂β 32
λ
skoro jistˇe. Dˇr´ıve neˇz budeme pokraˇcovat, pˇripomeˇ nme si (ˇci uvˇedomme si), co kter´ y symbol p znamen´a. τ (β) je pozitivnˇe semidefinitn´ı matice typu (p × p) a γ(β) ∈ R . Z libovolnosti λ pak plyne, ˇze ∂log pn (y, X, β) Tn (y, x) = τ (β) · + γ(β), (24) ∂β kde nav´ıc τ (β) a γ(β) mus´ı b´ yt takov´e, aby IEβ Tn (Y, x) = β a Tn (y, x) nesm´ı samozˇrejmˇe z´aviset na β. Je-li nyn´ı ·
1 pn (y, X, β) = √ σ 2π m´ame Tn (y, x) = τ (β)
)
( ¸n Y n i=1
(Yi − xTi β)2 ) , exp(− 2σ 2 o
n n X
(Yi − xTi β)xi + γ(β),
i=1
tj. Tn (y, x) = τ (β)
n X
Yi xi − τ (β)
i=1
n X
xi xTi β + γ(β).
(25)
i=1
Protoˇze Tn (y, x) nesm´ı z´aviset na β, mus´ı posledn´ı dva ˇcleny v (25) b´ yt konstantn´ı (tj. nez´avisl´e Pn T p na β), neboli je tˇreba, aby γ(β) = τ (β) i=1 xi xi β + a, a ∈ R . Pak ovˇsem m´ame Tn (y, x) = τ (β)
n X
Yi xi + a
i=1
a protoˇze β = IEβ Tn (Y, x) = τ (β) je koneˇcnˇe τ (β) =
³P
n T i=1 xi xi
´−1
Pn P IE Yi xi + a = τ (β) ni=1 xi xTi β + a pro libovoln´e β ∈ Rp , i=1 ³ ´−1 T
= X X
³
T
Tn (Y, x) = X X
a a = 0. Dostali jsme
n ´−1 X
³
Yi xi = X T X
´−1
X T Y,
i=1
³
jin´ ymi slovy X T X
´−1
X T Y dosahuje doln´ı Rao-Cramerovy hranice rozptylu. Necht’ nyn´ı naopak ³
Tn (Y, x) = X T X
´−1
XT Y
(26)
je nejlepˇs´ım nestrann´ ym odhadem dosahuj´ıc´ım doln´ı Rao-Cramerovu hranici rozptylu. Potom, jak uˇz bylo ˇreˇceno v´ yˇse (viz (24)) Tn (y, x) = τ (β) ·
∂log pn (y, X, β) + γ(β). ∂β
Pˇripomeˇ nme, ˇze τ (β) je matice typu (p × p) a γ(β) ∈ Rp . Pro jednoduchost pˇredpokl´adejme, ˇze τ je regul´arn´ı. Pokud by tomu tak nebylo, museli bychom pouˇz´ıt pseudoinverze a u ´vahy by se ponˇekud zkomplikovaly, nicm´enˇe by vedly nakonec ke stejn´emu z´avˇeru. Potom ∂log pn (y, X, β) = [τ (β)]−1 [Tn (y, x) − γ(β)] ∂β a integrov´an´ım dostaneme log pn (y, X, β) = κ(β)Tn (y, x) − δ(β) + U (y), 33
(27)
kde jsme oznaˇcili κ(β) vektor z Rp , jehoˇz matice parci´aln´ıch derivac´ı je rovna [τ (β)]−1 , δ(β) je funkce jej´ıˇz parci´aln´ı derivace jsou rovny [τ (β)]−1 γ(β) a U (y) je integraˇcn´ı konstanta (konstanta v˚ uˇci promˇenn´e pˇres kterou se integrovalo a tou bylo β). Po dosazen´ı z (26) do (27) dostaneme ³
log pn (y, X, β) = κ(β) X T X
´−1
X T y − δ(β) + U (y).
Zde snadno nahl´edneme, co se stane pokud matice τ (β) nen´ı regul´arn´ı. Potom κ(β) nen´ı urˇceno jednoznaˇcnˇe a mus´ıme prov´est reparametrizaci regresn´ıch koeficient˚ u. Protoˇze κ(β) ∈ Rp , exisT tuje pro libovolnou regul´arn´ı matici A typu (p × p) β¯ tak, ˇze κ(β) = β¯T A, a zvol´ıme-li A = Xσ2X , dostaneme ¯ = σ −2 β¯T X T y + δ( ¯ β) ¯ + U (y), log pn (y, X, β) ¯ β) ¯ je funkce odpov´ıdaj´ıc´ı δ(β) po proveden´ı reparametrizace a transformace regresn´ıch kde δ( koeficient˚ u pomoc´ı matice A a zmˇenˇe znam´enka. Potom m´ame ¯ = exp(σ −2 β¯T X T y) · exp(δ( ¯ β) ¯ + U (y)). pn (y, X, β) ¯ T (y − X β) ¯ nalezneme Doplnˇen´ım σ −2 β¯T X T y na “ˇctverec” − 2σ1 2 (y − X β) ¯ = exp{− 1 (y − X β) ¯ T (y − X β)} ¯ · exp(δ( ˜ β) ¯ +U ˜ (y)), pn (y, X, β) 2σ 2 kde
˜ β) ¯ = δ( ¯ β) ¯ + 1 β¯T X T X β¯ δ( 2σ 2
a
˜ (y) = U (y) + 1 y T y. U 2σ 2
Nyn´ı uplatn´ıme okrajov´e podm´ınky, kter´e v naˇsem pˇr´ıpadˇe ˇr´ıkaj´ı, ˇze pro vˇsechna β¯ ∈ Rp a vˇsechny matice X typu (n × p) mus´ı platit Z
¯ pn (y, X, β)dµ(y) =1
a
β¯ =
Z ³
XT X
´−1
¯ X T ypn (y, X, β)dµ(y).
(28)
Provedeme transformaci y − X β¯ = z a dostaneme z druh´eho vztahu v (28) β¯ =
Z ³
XT X
´−1
¯ X T z p˜n (z, X, β)dµ(z) + β¯
Z
¯ p˜n (z, X, β)dµ(z).
Protoˇze pˇredchoz´ı vztah mus´ı platit pro vˇsechna β¯ ∈ Rp , m´ame Z ³
XT X
tj.
³
´−1
´−1
¯ X T z p˜n (z, X, β)dµ(z) = 0,
Z
1 T ¯ · exp{δ( ¯ β)}dµ(z) ¯ ˜ (z + X β)} z z+U = 0, 2σ 2 coˇz znovu pˇripom´ın´ame mus´ı platit pro vˇsechna β¯ ∈ Rp , tj. T
X X
X
T
z exp{−
Z
z exp{−
1 T ¯ ˜ (z + xβ)}dµ(z) z z+U =0 2σ 2
34
(29)
˜ ≡ 0. Protoˇze nav´ıc pro vˇsechna β¯ mus´ı platit i prvn´ı vztah v (28) a tedy U n
¯ = (2πσ)− 2 exp{− p˜n (z, X, β) a koneˇcnˇe n
¯ = (2πσ)− 2 exp{− pn (y, X, β)
zT z } 2σ 2
(y − Xβ)T (y − Xβ) }. 2σ 2
2 V dalˇs´ım odstavci se budeme vˇenovat odhadu rozptylu rezidu´ı, tj. odhadu posledn´ıho parametru regresn´ıho modelu, kter´ y jeˇstˇe neum´ıme odhadovat. Neˇz vˇsak otevˇreme tuto kapitolu, pˇripomeˇ nme si jeˇstˇe jednou, co jsme vlastnˇe dok´azali v pˇredchoz´ı vˇetˇe. V nˇekter´ ych textech o regresn´ı anal´ yze se totiˇz v´ ysledek pˇredchoz´ı vˇety interpretuje tak, ˇze norm´aln´ı rozdˇelen´ı fluktuac´ı je ekvivalentn´ı s rovnost´ı odhad˚ u metodou nejmenˇs´ıch ˇctverc˚ u a metodou maxim´aln´ı vˇerohodnosti. Toto ovˇsem nen´ı pravda. Uvaˇzme n´asleduj´ıc´ı pˇr´ıklad. Necht’ Y1 , Y2 , ..., Yn maj´ı Poissonovo rozdˇelen´ı s koeficienty λ1 , λ2 , ..., λn , tj. λk P (Yi = k) = i e−λi i = 1, 2, ..., n k! T 0 a necht’ λi = xi β . (To implicitnˇe pˇredpokl´ad´ a, ˇze vysvˇetlovan´ a veliˇcina nab´ yv´ a pouze hodnot rovn´ ych pˇrirozen´ ym ˇc´ısl˚ um. Jak dalece je pak vhodn´e pro ni uvaˇzovat line´arn´ı regresn´ı model, je samozˇrejmˇe vˇec´ı diskuze. Nechme vˇsak tento probl´em pro tento okamˇzik stranou, vr´at´ıme se k nˇemu pozdˇeji, v kapitole vˇenovan´e pr´avˇe situaci, kdy vysvˇetlovan´ a veliˇcina nab´ yv´ a diskr´etn´ıch hodnot.) Podobnˇe jako v´ yˇse vˇerohodnostn´ı funkce m´a pro obecn´e β tvar n Y
`n (Y, β) =
(
i=1
[xTi β]Yi −xT β 0 e i Yi !
)
a jej´ı logaritmus je log`n (Y, β) =
n ³ X
´
Yi log(xTi β) − xTi β − log(Yi !) .
i=1
Vzhledem k tomu, ˇze v´ yraz
Pn
i=1 log(Yi !)
log`n (Y, β) =
je nez´avisl´ y na vektoru β, staˇc´ı maximalizovat n ³ X
´
Yi log(xTi β) − xTi β .
i=1
Snadno ovˇeˇr´ıme, ˇze
(
n xij ∂log`n (Y, β) X Yi T − xij = ∂βj xi β i=1
)
a tedy norm´aln´ı rovnice maj´ı tvar n X i=1
Yi xij =
n X
xij XiT β,
j = 1, 2, ..., p.
i=1
Po pˇreps´an´ı do maticov´eho tvaru dostaneme X T Y = X T Xβ 35
a koneˇcnˇe
³
βˆ(M L,n) = X T X
´−1
X T Y.
To znamen´a, ˇze βˆ(M L,n) = βˆ(LS,n) . Prvn´ı, co by n´as mohlo napadnout, je to, ˇze podstatn´e bylo to, ˇze jsme ve Vˇetˇe 1 pˇredpokl´adali, ˇze βˆ(LS,n) dosahuje doln´ı Rao-Cramerovy hranice rozptylu, a ˇze to v tomto pˇr´ıkladˇe nemus´ı platit. Pro jednoduchost pˇredpokl´adejme, ˇze xTi β 0 = λ, tj. stˇredn´ı hodnota vˇsech veliˇcin Y1 , Y2 , ..., Yn je stejn´a. To je speci´aln´ı pˇr´ıpad n´ami vyˇsetˇrovan´e situace. Pokud tedy zjist´ıme, ˇze v tomto pˇr´ıpadˇe maxim´alnˇe vˇerohodn´ y odhad dosahuje doln´ı Rao-Cramerovy hranice rozptylu, pak naˇse domnˇenka, ˇze tento pˇredpoklad, totiˇz dosaˇzen´ı t´eto hranice, byl podstatn´ y, nebyla na m´ıstˇe. Snadno spoˇcteme, ˇze IE Yi = λ a var(Yi ) = λ pro i = 1, 2, ..., n. Podobnˇe jednoduch´ y v´ ypoˇcet −1 uk´aˇze, ˇze Fischerova informace je rovna λ . Vzhledem k tomu, ˇze maxim´alnˇe vˇerohodn´ ym P odhadem parametru λ pro n pozorov´ an´ı je n−1 ni=1 Yi , je jeho rozptyl roven n−1 λ a doln´ı Rao-Cramerova hranice rozptylu je pro n pozorov´ an´ı rovnˇeˇz n−1 λ. Jin´ ymi slovy maxim´alnˇe vˇerohodn´ y odhad dosahuje doln´ı Rao-Cramerovy hranice. Podstatn´ ym pˇredpokladem je totiˇz to, ˇze vysvˇetlovan´ a veliˇcina Y je spojit´eho typu. To umoˇzn ˇuje ps´at (28) v tom tvaru, v jak´em byl tento vztah zaps´an, a dok´azat, ˇze z (29) plyne ˜ U ≡ 0 (srovnej Rao (1978), pˇr´ıklad 10.1 v kapitole 5). Podrobnˇejˇs´ı diskuzi o ekvivalenci odhadu z´ıskan´eho metodou nejmenˇs´ıch ˇctverc˚ u a maxim´alnˇe vˇerohodn´eho odhadu, a to i v pˇr´ıpadˇe, kdy je poruˇsen pˇredpoklad o homoskedasticitˇe, tj. pˇredpoklad oznaˇcen´ y jako “2.” v Podm´ınk´ ach A, lze nal´ezt v pr´aci Charnes et al. (1976), kde jsou zobecnˇeny p˚ uvodn´ı v´ ysledky z pr´ace Bradley (1973). Dalˇs´ı podrobnosti o regresn´ıch modelech, ve kter´ ych se pˇredpokl´ad´ a, ˇze n´ahodn´e fluktuace a tud´ıˇz tak´e vysvˇetlovan´a veliˇcina, jsou rozdˇeleny dle Poissonova rozdˇelen´ı lze z´ıskat v pr´aci Frome et al. (1973).
3.2
Odhad rozptylu n´ ahodn´ ych fluktuac´ı
Dˇr´ıve neˇz budeme pokraˇcovat ve v´ ykladu, pˇripomeˇ nme, ˇze, jak plyne z v´ yˇse uveden´eho, je Yˆ = X βˆ(LS,n) = X(X T X)−1 X T Y
(30)
projekc´ı Y do prostoru M(X), tj. do prostoru generovan´eho sloupci matice pl´anu. Proto se matice X(X T X)−1 X T ˇcasto oznaˇcuje jako projekˇcn´ı matice . V literatuˇre se tak´e ˇc´ ast mluv´ı o t´eto matici jako o “hat” matici, patrnˇe dle “hat” nad Y . LEMMA 3 Rezidua r(βˆ(n) ) = Y − Yˆ a projekce Yˆ jsou navz´ ajem kolm´e a tedy nekorelovan´e. 2 2 Je-li nav´ıc rozdˇelen´ı Ei norm´ aln´ı N (0, σ ) 0 < σ < ∞, pak jsou rezidua r(βˆ(n) ) a projekce Yˆ nez´ avisl´e. Koneˇcnˇe pak ³
´
L(r(βˆ(n) )) = N (0, σ 2 I − X(X T X)−1 X T )
(31)
L(Yˆ ) = N (0, σ 2 X(X T X)−1 X T ),
(32)
a kde “L” znaˇc´ı rozdˇelen´ı t´e n´ ahodn´e veliˇciny, kter´ a je uvedena v z´ avork´ ach (p´ısmeno L je od slova Law). 36
D˚ ukaz. Snadno ovˇeˇr´ıme, ˇze (Y − Yˆ )T Yˆ = Y T Yˆ − Yˆ T Yˆ = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T X(X T X)−1 X T Y = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y = 0, kde jsme vyuˇzili faktu, ˇze matice X(X T X)−1 X T je symetrick´ a a idempotentn´ı. Z (30) d´ale 0 ˆ m´ame IEβ 0 Y = Xβ a IEβ 0 (Yˆ − Xβ 0 )(Yˆ − Xβ 0 )T = IEβ 0
n
X(X T X)−1 X T (Y − Xβ 0 )(Y − Xβ 0 )T X(X T X)−1 X T
o
= σ 2 X(X T X)−1 X T . Podobnˇe IEβ 0 (Y − Yˆ ) = IEβ 0 (I − X(X T X)−1 X T )Y = (I − X(X T X)−1 X T )Xβ 0 = 0 a jednoduch´ y obdobn´ y v´ ypoˇcet d´a IEβ 0 (Y − Yˆ )(Y − Yˆ )T n
o
(I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0 ×
= IEβ 0 n
× (I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0
oT
= IEβ 0 (I − X(X T X)−1 X T )(Y − Xβ 0 )(Y − Xβ 0 )T (I − X(X T X)−1 X T ) = σ 2 (I − X(X T X)−1 X T ), kde jsme pouˇzili fakt, ˇze (I − X(X T X)−1 X T )X = 0. Protoˇze rezidua r(βˆ(n) ) a projekce Yˆ jsou line´arn´ı transformac´ı Y , jsou samozˇrejmˇe tak´e norm´alnˇe rozdˇelena a v´ yˇse uveden´e v´ ypoˇcty ud´avaj´ı parametry tˇechto rozdˇelen´ı. T´ım je dok´az´ ano (31) a (32). Koneˇcnˇe pak z nekorelovanosti a z normality plyne nez´avislost. 2 ˚ DUSLEDEK 1 Za pˇredpokladu Lemmatu 3 je βˆ(LS,n) nez´ avisl´y na vektoru rezidu´ı r(βˆ(n) ). D˚ ukaz. Vzhledem k tomu, ˇze (X T X)−1 X T X = I, m´ame dle (30) βˆ(LS,n) = (X T X)−1 X T Y = (X T X)−1 X T X(X T X)−1 X T Y = (X T X)−1 X T Yˆ . 2 Nyn´ı vyslov´ıme nˇekolik tvrzen´ı, kter´a budeme potˇrebovat pˇri vyˇsetˇrov´ an´ı odhadu rozptylu rezidu´ı. TVRZEN´ I 1 Necht’ {Ei }∞ avisl´ych stejnˇe rozdˇelen´ych n´ ahodn´ych veliˇcin s i=1 je posloupnost nez´ 2 3 4 4 IE Ei = 0, varEi = σ ∈ (0, ∞), IE |Ei | < ∞ a IE Ei = σ (γ + 3) (kde posledn´ı vztah vlastnˇe definuje hodnotu γ). Potom pro vˇsechny symetrick´e matice A m´ ame ( T
2
IE (E AE) = σ
4
γ
n X
)
a2ii
2
2
+ (tr(A)) + 2tr(A ) ,
i=1
“tr” znamen´ a stopa (trace) a aii je i-t´y diagon´ aln´ı prvek matice A. Nav´ıc γ ≥ −2. 37
D˚ ukaz.
n X n X n X n X
IE (E T AE)2 = IE
=
n X
a2ii IE Ei4 +
i=1
= σ 4 (γ + 3)
n X X
Ei aij Ej Ek ak` E`
i=1 j=1 k=1 `=1
aii ajj IE Ei2 Ej2 + 2
i=1 j6=i n X
n X X
a2ij IE Ei2 IE Ej2
i=1 j6=i
Ã
a2ii + σ 4 tr(A)tr(A) −
i=1
n X
!
Ã
a2ii + 2σ 4 tr(A2 ) −
i=1
n X
!
a2ii .
i=1
Koneˇcnˇe pak n
o
0 ≤ var (Ei − IE Ei )2 = IE (Ei − IE Ei )4 − IE 2 (Ei − IE Ei )2 = µ4 − σ 4 = σ 4 (γ + 2). ©
ª
Rovnost by nastala pouze tehdy, kdyˇz by var (Ei − IE Ei )2 = 0, tj. kdyˇz Ei = 0 s. j., ale to vzhledem k pˇredpokladu σ 2 ∈ (0, ∞) nen´ı moˇzn´e. 2 TVRZEN´ I2 tr (M1 · M2 ) = tr (M2 · M1 ) . D˚ ukaz.
m X n X
(1)
(2)
mkj · mjk =
k=1 j=1
n X m X
(2)
(1)
mjk · mkj .
j=1 k=1
2 TVRZEN´ I 3 Necht’ A je idempotentn´ı matice, tj. A · A = A. Potom rank(A) = tr(A), kde “rank” znamen´ a hodnost. D˚ ukaz.Pro rank(A) = 0 je tvrzen´ı zˇrejm´e. Necht’ rank(A) = r 6= 0, A necht’ je typu (n × n) a B (typu (n × r)) necht’ m´a za sloupce b´azi prostoru M(A), tj. prostoru generovan´eho sloupci matice A. Nepochybnˇe sloupce matice A jsou line´arn´ımi kombinacemi sloupc˚ u matice B, tj. T T existuje matice C takov´a, ˇze A = B · C. Potom B B i CC jsou regul´arn´ı, nebot’ obˇe jsou typu (r × r) a kdyby jejich hodnost byla menˇs´ı neˇz r, pak by tak´e B (pˇr´ıpadnˇe C) mˇelo hodnost menˇs´ı neˇz r. Toto se snadno nahl´edne takto: Pokud B T B nen´ı regul´arn´ı, pak existuje λ ∈ Rr , λ 6= 0 tak, ˇze B T Bλ = 0. Pak ale tak´e λT B T Bλ = 0, tj. (Bλ)T Bλ = 0. Potom ovˇsem Bλ = 0 a tedy rank(B) < r a to je spor. Stejnˇe se to uk´aˇze pro C. Pokud by totiˇz rank(C) byl menˇs´ı neˇz r, pak by tak´e rank(A) < r. Tento fakt okamˇzitˇe plyne z toho, ˇze dimenze prostoru M(A) je stejn´a jako dimenze M(AT ). Poloˇzme D = B(B T B)−1 , E = C T (CC T )−1 . Potom DT B = Ir a CE = Ir . D´ale pak m´ame A = A · A = B · C · B · C = B · C a tedy po zn´asoben´ı zleva matic´ı DT a zprava E dostaneme DT BCBCE = DT BCE a tedy Ir CBIr = Ir Ir . 38
Koneˇcnˇe pak CB = Ir . Nyn´ı tr(A) = tr(BC) = tr(CB) = tr(Ir ) = r, kde jsme vyuˇzili pˇredchoz´ı tvrzen´ı a naznaˇcovali jsme rozmˇer jednotkov´e matice.
2
TVRZEN´ I 4 Je-li A pozitivnˇe definitn´ı (semidefinitn´ı), potom vlastn´ı ˇc´ısla jsou kladn´ a (nez´ aporn´ a). D˚ ukaz. Pˇripomeˇ nme, ˇze vlastn´ı vektory a vlastn´ı ˇc´ısla jsou zad´any rovnost´ı A · q = λq,
q 6= 0
a tedy λkqk2 = λq T q = q T Aq > 0 (≥ 0). TVRZEN´ I 5 Necht’ A je symetrick´ a matice. Potom vlastn´ı ˇc´ısla jsou re´ aln´ a a vlastn´ı vektory lze zvolit re´ aln´e. D˚ ukaz. Necht’ q je vlastn´ı vektor, r a s necht’ je jeho re´aln´ a a imagin´arn´ı ˇc´ ast. Podobnˇe necht’ ’ λ je vlastn´ı ˇc´ıslo pˇr´ısluˇsn´e ke q, τ a κ necht je jeho re´aln´ a a imagin´arn´ı ˇc´ ast. Koneˇcnˇe pak necht’ v tomto d˚ ukaze i znaˇc´ı imagin´arn´ı jednotku. Pˇripomeˇ nme, ˇze z definice vlastn´ıho vektoru plyne, 2 ˇze kqk > 0. Potom m´ame A(r + is) = (τ + iκ)(r + is) a porovn´an´ım re´aln´ ych a imagin´arn´ıch ˇc´ asti dostaneme Ar = τ r − κs
(33)
As = τ s + κr.
(34)
a Po vyn´asoben´ı zleva vztahu (33) sT a vztahu (34) rT , dostaneme sT Ar = τ sT r − κsT s a rT As = τ rT s + κrT r a odeˇcten´ım prvn´ı rovnosti od druh´e z´ısk´ ame d´ıky symetrii matice A rovnost 0 = κ(rT r + sT s) = κkqk2 , odkud plyne, ˇze κ = 0, nebot’ kqk2 > 0. Pokud vektory r a s ˇreˇs´ı vztahy (33) a (34), pak je ˇreˇs´ı tak´e r a 0. 2 TVRZEN´ I 6 Necht’ matice A je typu (n × n). Potom pro libovoln´y vektor Z ∈ Rn , existuje vlastn´ı vektor q ∈ M(Z, AZ, A2 Z, . . .). 39
n
o
D˚ ukaz. Poloˇzme k0 = min k : Ak Z + bk−1 Ak−1 Z + . . . + b0 Z = 0, b ∈ Rk , kde b = (b0 , b1 , . . . , bk−1 )T . Nepochybnˇe mnoˇzina na n´ıˇz je hled´ano minimum je nepr´azdn´ a, nebot’ vektory Z, AZ, A2 Z, A3 Z, . . . mohou obsahovat nejv´ yˇse n nez´ avisl´ ych. Odtud k0 ≤ n. D´ale uk´aˇzeme, ˇze lze ps´at Ak0 Z + bk0 −1 Ak0 −1 Z + . . . + b0 Z = (A − µ1 I)(A − µ2 I) · . . . · (A − µk0 I)Z
(35)
pro libovoln´ y vektor Z ∈ Rn . Aby to opravdu ˇslo, je tˇreba uk´azat, ˇze existuj´ı µ1 , µ2 , . . . , µk0 (obecnˇe komplexn´ı ˇc´ısla) tak, ˇze plat´ı n´asleduj´ıc´ı vztahy, kter´e dostaneme rozn´asoben´ım prav´e strany (35) a porovn´an´ım koeficient˚ u u stejn´ ych mocnin matice A, µ1 + µ2 + . . . + µk0 = bk0 −1 , k0 X X
µi µj = bk0 −2 ,
i=1 j6=i k0 X X X
µi µj µ` = bk0 −3
i=1 j6=i `6=i,`6=j
atd. aˇz µ1 · µ2 · . . . · µk0 = b0 . To, ˇze takov´ato soustava rovnic m´a ˇreˇsen´ı µ1 , µ2 , . . . , µk0 plyne okamˇzitˇe z faktu, ˇze stejn´a soustava vznikne, rozn´asob´ıme-li pravou stranu rovnosti tk0 + bk0 −1 tk0 −1 + . . . + b0 = (t − µ1 )(t − µ2 ) · . . . · (t − µk0 ) a porovn´ame koeficienty na prav´e a lev´e stranˇe. Na druh´e stranˇe, to ˇze prav´ a strana t´eto rovnosti je rozkladem lev´e, plyne ze zn´am´e vˇety o poˇctu koˇren˚ u polynomu. Tento poˇcet je vˇzdy roven stupni polynomu a koˇreny mohou b´ yt komplexn´ı. Potom ovˇsem q = (A − µ2 I)(A − µ3 I) · . . . · (A − µk0 I)Z 6= 0, (36) nebot’ jinak by k0 nebylo minimem. Pak m´ame (A − µ1 I)q = 0 a tedy Aq = µ1 q, a nepochybnˇe q ∈ M(Z, AZ, A2 Z, . . .). 2 Povˇsimnˇeme si, ˇze vektor q je ovˇsem obecnˇe komplexn´ı. TVRZEN´ I 7 (Spektr´ aln´ı rozklad matice.) Necht’ A je re´ aln´ a symetrick´ a matice typu (m × m). Potom existuje ortogon´ aln´ı re´ aln´ a matice Q takov´ a,ˇze QT AQ = Λ = diag {λ1 , λ2 , . . . , λm } , kde λ1 , λ2 , . . . , λm jsou vlastn´ı ˇc´ısla matice A, diag {λ1 , λ2 , . . . , λm } znaˇc´ı diagon´ aln´ı matici typu m × m s prvky λ1 , λ2 , . . . , λm na diagon´ ale a QT Q = Im . Potom tak´e QQT = Im , a koneˇcnˇe A = QΛQT .
40
D˚ ukaz. Pˇredpokl´adejme, ˇze jsme jiˇz naˇsli s ortogon´aln´ıch vlastn´ıch vektor˚ u matice A, tj. qiT qj = δij pro 1 ≤ i, j ≤ s. Pokud s < m, necht’ Z⊥M(q1 , q2 , . . . , qs ). Pro libovoln´e r ∈ N d´ale m´ame Z T Ar qi = Z T Ar−1 λi qi = Z T λri qi = 0
pro
1 ≤ i ≤ s.
Tedy M(Z, AZ, A2 Z, . . .)⊥M(q1 , q2 , . . . , qs ). Dle Tvrzen´ı 6 existuje qs+1 ∈ M(Z, ZA, ZA2 , . . .), tj. existuje dalˇs´ı vlastn´ı vektor, kter´ y je ortogon´aln´ı k q1 , q2 , . . . , qs . Existuje tedy ortogon´aln´ı T matice Q, tj. Q Q = Im , tak, ˇze AQ = QΛ, kde Λ je diagon´aln´ı matice vlastn´ıch ˇc´ısel. Tedy QT AQ = Λ. Pak ovˇsem i QQT = Im , nebot’ pro regul´arn´ı matici je lev´a a prav´a inverze totoˇzn´ a, a tedy A = QΛQT . Nyn´ı uk´aˇzeme, ˇze Q m˚ uˇze b´ yt zvolena re´aln´ a. Necht’ do konce d˚ ukazu znaˇc´ı i opˇet imagin´arn´ı jednotku. Z pˇredchoz´ıho tvrzen´ı v´ıme, ˇze vlastn´ı ˇc´ısla symetrick´e matice jsou re´aln´ a a vlastn´ı vektory lze zvolit re´aln´e. Pokud tedy matice A je nav´ıc symetrick´ a, dostali jsme pˇri hled´an´ı prvn´ıho vlastn´ıho vektoru nˇejak´e re´aln´e vlastn´ı ˇc´ıslo λ1 a tento vektor, ˇreknˇeme q1 jsme zvolili re´aln´ y. Po nalezen´ı vlastn´ıho vektoru q2 kolm´eho ke q1 v´ yˇse naznaˇcenou indukc´ı dostaneme obecnˇe komplexn´ı vlastn´ı vektor q2 s vlastn´ım ˇc´ıslem λ2 , kter´e je re´aln´e. Oznaˇcme re´alnou (R) (I) sloˇzku vektoru q2 symbolem q2 a imagin´arn´ı sloˇzkou q2 a dostaneme (R)
q1T (q2 (R)
Odtud q1T q2
(I)
(R)
+ iq2 ) = q1T q2
(I)
+ iq1T q2 = 0.
= 0. Nav´ıc faktu, ˇze λ2 je re´aln´e plyne, ˇze rovnˇeˇz (R)
Aq2
(R)
= λ2 q2 ,
tj. q2 lze zvolit re´aln´e. Indukc´ı se d˚ ukaz uzavˇre. 2 Povˇsimnˇeme si, ˇze pro d˚ ukaz toho, ˇze v pˇredchoz´ım tvrzen´ı lze pro symetrickou matici zvolit pˇr´ısluˇsn´e vlastn´ı vektory re´aln´e, nelze pouˇz´ıt Tvrzen´ı 5 pˇr´ımo, nebot’ pak nen´ı zˇrejm´e, zda z˚ ustane zachov´ana jejich vz´ajemn´a ortogonalita. ´ POZNAMKA 1 Vˇsimnˇeme si, ˇze A=
m X
λi qi qiT .
i=1
Tomuto se ˇr´ık´ a spektr´ aln´ı rozklad matice A. ˚ DUSLEDEK 2 Snadno nahl´edneme, ˇze √ √ A = (Q Λ)D(Q Λ)T , np o √ p p Λ = diag |λ1 |, |λ2 |, . . . , |λn | a kde D je diagon´ aln´ı matice s prvky 1,-1, nebo 0 p √ T ˜ Q ˜ . Pokud A je (semi)pozitivn´ı, pak samozˇrejmˇe |λi | = λi pro na diagon´ ale, tj. A = QD vˇsechna i a D nepotˇrebujeme, tj. A lze ps´ at jako QQT , kde ovˇsem v pˇr´ıpadˇe, ˇze matice A je semipozitivn´ı a nen´ı regul´ arn´ı, matice Q m´ a hodnost menˇs´ı neˇz n.
kde
41
D˚ ukaz je v podstatˇe zˇrejm´ y. Staˇc´ı si uvˇedomit, ˇze diagon´aln´ı matici mohu ps´at jako souˇcin tˇr´ı diagon´aln´ıch, z nichˇz jedna “zajiˇst’uje” znam´enka, a dalˇs´ı dvˇe maj´ı na diagon´ale odmocniny absolutn´ıch hodnot diagon´aln´ıch prvk˚ u p˚ uvodn´ı diagon´aln´ı matice. Vˇsimnˇeme si, ˇze dokonce zm´ınˇen´e matice mohou b´ yt n´asobeny v libovoln´em poˇrad´ı. ´ POZNAMKA 2 Podle Tvrzen´ı 1 je γ = τ − 3, kde τ je ˇspiˇcatost τ=
µ4 , σ4
a kde µ4 je ˇctvrt´y centr´ aln´ı model a σ 4 je (samozˇrejmˇe) druh´ a mocnina rozptylu. Nˇekdy se za ˇspiˇcatost bere hodnota γ; potom je tato nulov´ a pro standardn´ı norm´ aln´ı rozdˇelen´ı. 2 rezidu´ aln´ı souˇcet ˇctverc˚ u, tj. LEMMA 4 Oznaˇcme SR 2 SR
h
iT
= r(βˆ(LS,n) )
r(βˆ(LS,n) ) =
n X
(Yi − xTi βˆ(LS,n) )2
i=1 2 . Pˇ a poloˇzme s2 = (n − p)−1 SR redpokl´ adejme d´ ale, ˇze σ 2 ∈ (0, ∞). Pokud ˇspiˇcatost γ = 0 nebo diagon´ aln´ı prvky projekˇcn´ı matice X(X T X)−1 X T jsou konstantn´ı, je s2 nejlepˇs´ım nestrann´ym odhadem rozptylu rezidu´ı σ 2 mezi vˇsemi nestrann´ymi kvadratick´ymi odhady.
D˚ ukaz. Piˇsme h
iT
IE s2 = (n − p)−1 IE r(βˆ(LS,n) ) µ
h
r(βˆ(LS,n) ) = IE (n − p)−1 tr iT ¶
= (n − p)−1 IE tr r(βˆ(LS,n) ) r(βˆ(LS,n) )
µ
µh
iT
(βˆ(LS,n) )
h
¶
r(βˆ(LS,n) ) iT ¶
= (n − p)−1 tr IE r(βˆ(LS,n) ) r(βˆ(LS,n) )
³
´
= (n − p)−1 tr var(r(βˆ(LS,n) )) , kde var(r(βˆ(LS,n) )) je kovarianˇcn´ı matice vektoru rezidu´ı r(βˆ(LS,n) ) a posledn´ı rovnost plat´ı d´ıky tomu, ˇze IE r(βˆ(LS,n) ) = IE (Y − X βˆ(LS,n) ) = 0, nebot’ βˆ(LS,n) je nestrann´ ym odhadem β 0 . Protoˇze var(r(βˆ(LS,n) )) = σ 2 (I − X(X T X)−1 X T ) (viz Lemma 3), potˇrebujeme nal´ezt tr(I − X(X T X)−1 X T ). Vzhledem k tomu, ˇze projekˇcn´ı matice X(X T X)−1 X T m´a hodnost p a je idempotentn´ı je tr(X(X T X)−1 X T ) = p a tedy tr(I − X(X T X)−1 X T ) = n − p (viz Tvrzen´ı 3). T´ım je uk´az´ ana nestrannost. To ovˇsem tak´e znamen´a, 2 je nestrann´ ym odhadem (n − p)σ 2 . ˇze (n − p)s2 = SR Nyn´ı hledejme jin´ y nestrann´ y kvadratick´ y odhad veliˇciny (n−p)σ 2 , tj. odhad ve tvaru Y T AY , 2 m´ a tak´e kde A je nˇekter´a pozitivnˇe semidefinitn´ı, tj. tak´e symetrick´ a matice. Pˇripomeˇ nme, ˇze SR T T −1 (LS,n) T −1 T 2 ˆ tento tvar, nebot’ r(β ) = (I − X(X X) X )Y a tedy SR = Y (I − X(X X) X T )Y , kde matice I − X(X T X)−1 X T je idempotentn´ı a tedy pozitivnˇe semidefinitn´ı. Poznamenejme jeˇstˇe, ˇze jsme se omezili na pozitivnˇe semidefinitn´ı matice, abychom pro libovoln´e Y ∈ Rn mˇeli Y T AY ≥ 0, nebot’ jinak by to byl ponˇekud podivn´ y odhad σ 2 . Z poˇzadavku nestrannosti plyne, ˇze h i ³ h i´ (n − p)σ 2 = IEβ 0 Y T AY = IE tr(AY Y T ) = tr AIE Y Y T 42
h
i
= tr A(Xβ 0 [β 0 ]T X T + σ 2 I) = [β 0 ]T X T AXβ 0 + σ 2 tr(A),
(37)
nebot’ i
h
h
IE Y Y T = IE (Xβ 0 + E)(Xβ 0 + E)T = IE Xβ 0 [β 0 ]T X + EXβ 0 + Xβ 0 E T + EE T
i
= Xβ 0 [β 0 ]T X + σ 2 I. Protoˇze v´ ysledek ve vztahu (37) nesm´ı z´aviset na hodnotˇe β 0 (kter´e nezn´ame), je nutnˇe X T AX = 0 a tr(A) = n − p. Protoˇze matice A je pozitivnˇe semidefinitn´ı, je moˇzn´e ji ps´at jako QQT . Pak ovˇsem X T QQT X = 0 a tedy tak´e QT X = 0 a koneˇcnˇe QQT X = 0, tj. AX = 0. To vˇsak okamˇzitˇe implikuje Y T AY = (Xβ 0 + E)T A(Xβ 0 + E) = E T AE. Nyn´ı
n
o
var Y T AY "
=σ
4
γ
n
o
= var E T AE = IE (E T AE)2 − IE 2 (E T AE) n X
#
a2ii
2
+ (tr(A)) + 2tr(A ) − σ 4 (n − p)2
i=1
"
= σ4 γ
n X
2
#
a2ii + 2tr(A2 ) ,
(38)
i=1
kde aii , i = 1, 2, . . . , n jsou diagon´aln´ı prvky matice A. Oznaˇcme M = I − X(X T X)−1 X T a piˇsme A = M + D. Pak tr(D) = 0 (39) a protoˇze M X = 0, je rovnˇeˇz DX = 0 a samozˇrejmˇe D = DT . Odtud h
i
M D = I − X(X T X)−1 X T D = D. D´ale A2 = (M + D)(M + D) = M + M D + DM + D2 = M + 2D + D2 , tj. tr(A2 ) = n−p+2tr(D)+tr(D2 ) = n−p+tr(D2 ), nebot’ tr(D) = 0. Budeme-li nyn´ı pokraˇcovat v (38), dostaneme ( T
var(Y AY ) = σ
4
γ
n h X
m2ii
2
)
i
+ 2mii dii + dii
2
+ 2(n − p) + 2tr(D )
i=1
(
=σ
4
γ
n X
)
m2ii
+ 2(n − p) + σ 4 c,
(40)
i=1
kde opˇet mii a dii , i = 1, 2, . . . , n jsou diagon´aln´ı prvky matic M a D. Prvn´ı ˇclen v (40) pˇredstavuje var(Y T M Y ) a je nez´avisl´ y na volbˇe matice D. Koneˇcnˇe pak c=γ
n n X
o
d2ii + 2mii dii + 2tr(D2 ).
i=1
Staˇc´ı tedy zkoumat to, jak´a volba matice D vede k minimu v (40).
43
Pokud γ = 0 (coˇz nastane napˇr. jsou-li rezidua norm´alnˇe rozdˇelena) nastane minimum pokud tr(D2 ) = 0. Protoˇze vˇsak n
D P
2
o
k`
=
n X
dkj dj` ,
j=1
P
plyne z tr(D2 ) = nk=1 nj=1 d2kj = 0 tak´e D = 0. Pokud je mii = const = m (a tedy m = n−p n ), je c=γ
( n X i=1
d2ii
(n − p)tr(D) +2 n
)
+2
n X n X
d2ij ,
i=1 j=1
kde ovˇsem tr(D) = 0 (viz (39)) a tedy c = (γ + 2)
n X
d2ii + 4
i=1
n X n X
d2ij .
i=1 j=i+1
Protoˇze γ ≥ −2 je prvn´ı i druh´ y ˇclen prav´e strany posledn´ıho v´ yrazu nez´aporn´ y a tedy minimum nastane opˇet pro D = 0. Pak ovˇsem A = M . 2 Dˇr´ıve neˇz postoup´ıme k v´ ykladu otev´ıraj´ıc´ımu cestu k interpretaci a z´akladn´ı diagnostice v´ ysledk˚ u regresn´ı anal´ yzy, shrˇ nme nˇekter´ a fakta, se kter´ ymi jsme se jiˇz sezn´amili. Na zaˇc´atku t´eto kapitoly jsme uvedli Podm´ınky A, pˇri platnosti kter´ ych je odhad metodou nejmenˇs´ıch ˇctverc˚ u nejlepˇs´ım nestrann´ ym line´arn´ım odhadem, tj. tento odhad m´a nejmenˇs´ı rozptyl mezi vˇsemi line´arn´ımi odhady. Uk´azali jsme vˇsak tak´e, ˇze omezen´ı se na line´arn´ı odhady je drastick´e. Nechceme-li se tedy omezit na tˇr´ıdu line´arn´ıch odhad˚ u a chceme-li, aby n´aˇs odhad, tj. odhad metodou nejmenˇs´ıch ˇctverc˚ u byl akceptovateln´ y i v r´amci tˇr´ıdy vˇsech nestrann´ ych odhad˚ u, mus´ıme jej pouˇz´ıvat jen v pˇr´ıpadech, kdy n´ahodn´e fluktuace v modelu jsou rozdˇeleny norm´alnˇe. Budeme tedy i normalitu disturbanc´ı povaˇzovat za jeden ze z´akladn´ıch pˇredpoklad˚ u regresn´ı anal´ yzy prov´adˇen´e metodou nejmenˇs´ıch ˇctverc˚ u. Jak jsme se jiˇz zm´ınili v u ´vodu, v pˇr´ıpadˇe, kdy vysvˇetluj´ıc´ı promˇenn´e jsou n´ahodn´e veliˇciny, m˚ uˇze statistick´a z´avislost mezi nimi a fluktuacemi zp˚ usobit, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u bude vych´ ylen´ y a nekonsistentn´ı. Pokud budeme tedy realizovat regresn´ı anal´ yzu v situaci, kdy je adekv´atnˇejˇs´ı povaˇzovat vysvˇetluj´ıc´ı promˇenn´e za n´ahodn´e veliˇciny neˇz za deterministicky dan´e vektory, mˇeli bychom k z´akladn´ım pˇredpoklad˚ um regresn´ı anal´ yzy dodat pˇredpoklad o statistick´e nez´avislosti vysvˇetluj´ıc´ıch promˇenn´ ych a n´ahodn´ ych fluktuac´ı. A diagnostikovat jeho splnˇen´ı.
4 4.1
DIAGNOSTIKA ODHADU REGRESN´IHO MODELU Rozdˇ elen´ı kvadratick´ ych forem
Kvadratickou formou se rozum´ı QF : Rn → R, kter´a m´a tvar QF (t) = tT At, kde A je nˇekter´ a n symetrick´a matice typu (n × n) a t ∈ R (pro nˇekter´e n ∈ N ). LEMMA 5 Kaˇzdou kvadratickou formu lze pˇrev´est na kvadratickou formu obsahuj´ıc´ı jen ˇctverce promˇenn´ych.
44
´ POZNAMKA 3 Uveden´e lemma pˇrirozenˇe neˇr´ık´ a, ˇze obecnˇe lze kvadratickou formu transformavat tak, aby byla souˇctem ˇctverc˚ u p˚ uvodn´ıch promˇenn´ych, naopak transformovan´ a kvadratick´ a forma bude obsahovat promˇenn´e v jin´e souˇradn´e soustavˇe. D˚ ukaz (Lemmatu 5). Z D˚ usledeku 2 okamˇzitˇe plyne, ˇze QF (t) = tT At = tT QDQT t, kde diagon´aln´ı matice D m´a na diagon´ale jedniˇcky, minus jedniˇcky nebo nuly. Pˇrirozenˇe poˇcet nenulov´ ych diagon´aln´ıch prvk˚ u je roven hodnosti matice A. Nav´ıc Tvrzen´ı 7 a D˚ usledek 2 napov´ıdaj´ı, ˇze matice Q byla zkonstruov´ ana z vlastn´ıch vektor˚ u matice A, tj. Q = q1 , q2 , . . . , q` , 0, . . . , 0), kde ` je hodnost matice A. Definujme nov´e promˇenn´e vztahem z = QT t. Potom T 2 T 2 T 2 QF (z) = z T Dz = + − (q1 t) + − (q2 t) + − ... + − (q` t) .
2 LEMMA 6 (Fisher-Cochran) Necht’ t(ω) ∈ Rn a L(ti ) = N (µi , 1) i = 1, 2, . . . , n. D´ ale necht’ F T Qi (t) = t (ω)Ai t(ω), i = 1, 2, . . . , k, rank(Ai ) = ni . Oznaˇcme jeˇstˇe µ = (µ1 , µ2 , . . . , µn )T , a necht’ tT (ω)t(ω) = QF1 (t) + QF2 (t) + . . . + QFk (t). (41) Potom QFi (t) jsou navz´ ajem nez´ avisl´e a L(QFi (t)) = χ2 (ni , κi ) s κi = µT Ai µ, pr´ avˇe kdyˇz Pk Pn Pk 2 ıc i=1 µi = j=1 κj . i=1 ni = n. Potom nav´ D˚ ukaz. Aplikujeme-li pˇredchoz´ı lemma dostaneme T 2 T 2 T 2 QFi = + − (q(i)1 t) + − (q(i)2 t) + − ... + − (q(i)ni t) ,
kde Ai = Q(i) D(i) QT(i) s n
o
n
Q(i) = q(i)1 , q(i)2 , . . . , q(i)ni
a
o
D(i) = diag d(i)1 , d(i)2 , . . . , d(i)ni , 0, . . . , 0 ,
kde “diag” bylo opˇet pouˇzito pro diagon´aln´ı matici, kter´a m´a na diagon´ale prvky, kter´e jsou vyjmenovan´e v z´avorce. V naˇsem pˇr´ıpadˇe to jsou d(i)j = + ame, − 1. D´ıky tomu, ˇze pˇredpokl´ad´ T t) = N (ν , τ 2 ) pro nˇ ˇze vektor t je norm´alnˇe rozdˇelen, m´ame L(q(i)j ekter´ a νij a τij2 . Nyn´ı budeme ij ij
P
a pˇredpokl´adat, ˇze ki=1 ni = n a uk´aˇzeme, ˇze kvadratick´e formy jsou nez´avisl´e a maj´ı pˇr´ısluˇsn´ 2 χ rozdˇelen´ı. Oznaˇcme Q = (q(1)1 , q(1)2 , . . . , q(1)n1 , q(2)1 , . . . , q(2)n2 , . . . , q(k)1 , . . . , q(k)nk ) a
n
D = diag
o
+ − 1, + − 1, . . . , + − 1 ,
kde byla znam´enka pˇrirozenˇe vybr´ana tak, aby to odpov´ıdalo “polaritˇe” diagon´aln´ıch prvk˚ uv matic´ıch D(1) , D(2) , . . . , D(k) , tj. znam´enk˚ um vlastn´ıch ˇc´ısel odpov´ıdaj´ıc´ıch vlastn´ıch vektor˚ u. Potom m´ame tT t =
k X
tT Q(i) D(i) QT(i) t = tT QDQT t.
i=1
45
(42)
Vztah (42) mus´ı pˇrirozenˇe platit pro vˇsechna t ∈ Rn , nebot’ norm´alnˇe rozdˇelen´ a n´ahodn´a veliˇcina T m˚ uˇze nab´ yvat libovoln´e hodnoty. To implikuje In = QDQ a tak´e rank(Q) = n, tj. Q je regul´arn´ı. Rozpomeneme-li se, ˇze regul´arn´ı matice m´a stejnou pravou a levou inverzn´ı matici, £ ¤T ¡ ¢T ¡ ¢T dost´av´ame I = Q · Q−1 = Q−1 · QT a to ˇr´ık´ a, ˇze Q−1 je inverzn´ı matic´ı ke QT , tj. (QT )−1 = (Q−1 )T . Koneˇcnˇe tedy D = Q−1 In (Q−1 )T . Z toho plyne, ˇze D je pozitivnˇe definitn´ı a koneˇcnˇe D = In . To vˇsak implikuje, ˇze In = QQT a tedy Q je orthogon´aln´ı a pak tak´e QT Q = In . Proved’me transformaci n´ahodn´ ych veliˇcin z(ω) = QT t(ω) a vyuˇzijme pˇredpokladu L(ti ) = N (µi , 1). Z orthogonality matice Q a normality t okamˇzitˇe zjist´ıme, ˇze z(ω) m´a nez´avisl´e souˇradnice a L(z) = N (QT µ, I). Necht’ j, 1 ≤ j ≤ k je libovoln´e. Snadno nahl´edneme, ˇze T T T QFj (t) = (q(j)1 t)2 + (q(j)2 t)2 + . . . + (q(j)n t)2 = Σ(j) zl2 , j
(43)
kde z kontextu je patrn´e, pˇres kter´e vybran´e souˇradnice vektoru z se sˇc´ıt´ a v posledn´ı sumˇe. Snadno se rovnˇeˇz ovˇeˇr´ı,a patrnˇe je to vidˇet na prvn´ı pohled, ˇze pro kvadratick´e formy QFj (t) a QFk (t) pro j 6= k, jsou souˇradnice vstupuj´ıc´ı do sum Σ(j) zl2 a Σ(k) zl2 r˚ uzn´e. To ovˇsem implikuje nez´avislost tˇechto kvadratick´ ych forem. Koneˇcnˇe pak ze vztahu z (43) plyne, ˇze L(QFj (t)) = χ2 (nj , κj ), kde κj =
nj X
T (q(j)` µ)2 = µT Q(j) D(j) QT(j) = µT A(j) µ
`=1
a tedy k X j=1
κj =
nj k X X
T (q(j)` µ)2 = µT QQT µ = µT Iµ.
j=1 `=1
Dokazujme nyn´ı tvrzen´ı opaˇcn´ ym smˇerem, tj. pˇredpokl´adejme, ˇze QF(j) (t), 1 ≤ j ≤ k jsou P
P
nez´avisl´e a maj´ı χ2 (nj , κj ) rozdˇelen´ı. Potom ovˇsem m´a jejich souˇcet χ2 ( kj=1 nj , kj=1 κj ) . Vzhledem k tomu, ˇze na lev´e stranˇe (41) stoj´ı tT (ω)t(ω), m´a pˇri pˇredpokladech tohoto lemmatu P χ2 (n, κ) a tedy kj=1 nj = n. 2
4.2
Rozdˇ elen´ı odhadu rozptylu n´ ahodn´ ych fluktuac´ı a studentizovan´ ych odhad˚ u regresn´ıch koeficient˚ u
LEMMA 7 Necht’ {Ei }∞ avisl´ych norm´ alnˇe rozdˇelen´ych n´ ahodn´ych veliˇcin i=1 je posloupnost nez´ 2 · σ −2 ) = χ2 (n − p). s IE Ei = 0, IE Ei2 = σ 2 ∈ (0, ∞). Potom L(SR D˚ ukaz. Pˇredpokl´adan´a normalita fluktuac´ı implikuje normalitu vysvˇetlovan´e veliˇciny, tj. L(Y ) = N (Xβ 0 , σ 2 I). Snadno se ovˇeˇr´ı rovnost n
σ −2 Y T Y = σ −2 (Y − Yˆ + Yˆ )T (Y − Yˆ + Yˆ ) = σ −2 (Y − Yˆ )T (Y − Yˆ ) + Yˆ T Yˆ n
= σ −2 Y T (I − X(X T X)−1 X T )Y + Y T X(X T X)−1 X T Y
o
o
2. kde prvn´ı ˇclen druh´eho ˇr´adku reprezentuje Y T (I − X(X T X)−1 X T )Y = (Y − Yˆ )T (Y − Yˆ ) = SR Poloˇzme A1 = I − X(X T X)−1 X T a A2 = X(X T X)−1 X T a ovˇeˇrme, ˇze rank(A1 ) = n − p
46
a rank(A2 ) = p. Argumenty pro toto tvrzen´ı jsou n´asleduj´ıc´ı: Obˇe matice jsou projekˇcn´ı a tedy idempotentn´ı, A2 m´a evidentnˇe hodnost p, nebot’ jsme pˇredpokl´adali plnou hodnost u matice pl´anu X; pak je ovˇsem trace(A2 ) = p a tedy A1 m´ a stopu rovnou n − p; koneˇcnˇe pak rank(A1 ) = n − p. Aplikace Fisher-Cochranova lemmatu na kvadratick´e formy zadan´e maticemi 2 σ −2 je rozdˇ A1 a A2 pak d´av´a tento v´ ysledek: Rezidu´aln´ı souˇcet ˇctverc˚ u SR elen dle χ2 (n − p) a je nez´avisl´ y na kvadratick´e formˇe σ −2 Yˆ T Yˆ . 2 ˇ VETA 2 Necht’ {Ei }∞ et posloupnost nez´ avisl´ych norm´ alnˇe rozdˇelen´ych n´ ahodn´ych veliˇcin i=1 je opˇ 2 (LS,n) 0 2 T −1 s IE Ei = 0 a var(Ei ) = σ ∈ 0, ∞). Potom L(βˆ − β ) = N (0, σ (X X) ). Poloˇzme 1
³
´
− (LS,n) tˆi (ω) = s−1 cii 2 βˆi (ω) − βi0 ,
i
h
kde cii = (X T X)−1 volnosti).
ii
. Potom L(tˆi ) = tn−p (tj. tˆi je rozdˇeleno jako Studentovo t o n−p stupn´ıch
D˚ ukaz. Pouˇzijeme-li z´akladn´ı vztah zad´avaj´ıc´ı line´arn´ı model (viz (1)) a dosad´ıme-li jej do “vzorce” pro odhad metodou nejmenˇs´ıch ˇctverc˚ u, dostaneme βˆ(LS,n) = (X T X)−1 X T Y = (X T X)−1 X T (Xβ 0 + E) = β 0 + (X T X)−1 X T E, tj. βˆ(LS,n) − β 0 = (X T X)−1 X T E, a tedy L(βˆ(LS,n) − β 0 ) = N (0, Σ), kde ³
Σ = IE ½h
= IE ½h
= IE
µ
−1 σ −1 cii 2
−1
(X X) T
−1
(X X)
= (X T X)−1 X T IE To znamen´a, ˇze L
T
βˆ(LS,n) − β 0 ) T
X Y −β
T
0
0
´³
ih ih
X (Y − Xβ )
´¶
−1
T
−1
(X X)
(Y − Xβ 0 )(Y − Xβ 0 )T
(LS,n) βˆi − βi0
T
(X X)
n ³
´T
βˆ(LS,n) − β 0 )
oh
T
X Y −β
0
T
iT ¾
0
iT ¾
X (Y − Xβ )
(X T X)−1 X T
iT
= σ 2 (X T X)−1 .
= N (0, 1). D˚ usledek 1 ˇr´ık´ a, ˇze βˆ(LS,n) nez´ avisl´ y na
rezidu´ıch r(βˆ(n) ) = Y − Yˆ . Uv´aˇz´ıme-li, ˇze rezidu´aln´ı souˇcet ˇctverc˚ u je naopak ˇctvercem normy h iT vektoru rezidu´ı, tj. S 2 = r(βˆ(n) ) r(βˆ(n) ), zjist´ıme, ˇze βˆ(LS,n) a S 2 jsou nez´avisl´e. Nav´ıc dle R −2 2) L(σ SR
R
χ2 (n
= − p). Dokonˇcen´ı d˚ ukazu plyne okamˇzitˇe z definice Studentova Lemmatu 7 je t rozdˇelen´ı o n − p stupn´ıch volnosti, kter´e m˚ uˇze b´ yt symbolicky zaps´ano jako N (0, 1) [(n −
p)−1 χ2 (n
1
− p)]− 2
.
2 Poznamenejme, ˇze v pr´avˇe dok´azan´e vˇetˇe jsme mohli, d´ıky pˇredpokladu o normalitˇe n´ahodn´ ych (LS,n) 0 ˆ fluktuac´ı, vyslovit tvrzen´ı o rozdˇelen´ı rozd´ılu β −β bez jak´ekoliv normalizace (na rozd´ıl od tvrzen´ı z Lemmatu 2). To pˇrirozenˇe neznamen´a, ˇze by rozd´ıl βˆ(LS,n) −β 0 pˇri splnˇen´ı pˇredpoklad˚ u p pˇredchoz´ı vˇety nekonvergoval k 0 ∈ R , tj. nebyl konsistentn´ı. Naopak odtud plyne, ˇze kovarianˇcn´ı matice odhadu βˆ(LS,n) konverguje k nulov´e matici. 47
˚ DUSLEDEK 3 Za pˇredpoklad˚ u pˇredchoz´ı vˇety m´ a n´ ahodn´ a veliˇcina ³
´T
³
βˆ(LS,n) − β 0 )
´
X T X βˆ(LS,n) − β 0 ) n − p 2 p SR
(44)
Fisher-Snedecorovo rozdˇelen´ı Fp,n−p . D˚ ukaz. Pouˇzit´ım Tvrzen´ı 7 nalezneme orthogon´aln´ı matici L a diagon´aln´ı matici D tak, ˇze D = LT (X T X)−1 L, a v´ıme, ˇze na diagon´ale matice D stoj´ı vlastn´ı ˇc´ısla matice (X T X)−1 . Orthogonalita matice L umoˇzn ˇuje pˇrepsat tento vztah do tvaru LD−1 LT = X T X.
(45)
Pozitivn´ı definitnost matice (X T X)−1 implikuje nav´ıc to, ˇze jsou vˇsechna jej´ı ˇc´ısla kladn´a. Necht’ ˜ je diagon´aln´ı matice, kter´a m´a na diagon´ale pˇrevr´ tedy matice D acen´e hodnoty odmocnin z ˜ T T T −1 ˜ tˇechto ˇc´ısel (v poˇrad´ı odpov´ıdaj´ıc´ım matici D, pˇrirozenˇ ³ ´ e). Pak ovˇsem D L (X X) LD = Ip . ˜ a poloˇzme ξ = H T βˆ(LS,n) − β 0 ) . Je zˇrejm´e, ˇze stˇredn´ı hodnota vektoru ξ Oznaˇcme H = LD je nulov´a a u ´pravou v´ yˇse uveden´ ych vztah˚ u dostaneme ³
Σξ = IE ξξ T = IE H T βˆ(LS,n) − β 0
´³
βˆ(LS,n) − β 0
´T
H
σ 2 H T (X T X)−1 H = σ 2 Ip . To ovˇsem napov´ıd´a, ˇze souˇradnice vektoru σ −1 ξ jsou nekorelovan´e a kaˇzd´ a je rozdˇelena dle −2 T 2 N (0, 1). To pak implikuje, ˇze n´ahodn´a veliˇcina σ ξ ξ je rozdˇelena dle χ (p) a nav´ıc, jak bylo 2 , pˇ napˇr. uk´az´ano v d˚ ukaze pˇredchoz´ı vˇety, je nez´avisl´ a na SR riˇcemˇz rovnˇeˇz z d˚ ukazu pˇredchoz´ı −2 2 2 vˇety v´ıme, ˇze L(σ SR ) = χ (n − p). Pokud se n´am podaˇr´ı uk´azat, ˇze ³
σ −2 ξ T ξ = βˆ(LS,n) − β 0
´T
³
´
(X T X) βˆ(LS,n) − β 0 ,
bude d˚ ukaz t´emˇeˇr dokonˇcen. Provedeme to s pouˇzit´ım (45). ³
σ −2 ξ T ξ = σ −2 βˆ(LS,n) − β 0 ³
= σ −2 βˆ(LS,n) − β 0 ³
= βˆ(LS,n) − β 0 ³
= βˆ(LS,n) − β 0 ³
´T
´T
³
HH T βˆ(LS,n) − β 0 ³
H · Ip · H T βˆ(LS,n) − β 0
´
´
³
H · H T (X T X)−1 H · H T βˆ(LS,n) − β 0 ³
´
˜D ˜ T LT (X T X)−1 LD ˜D ˜ T LT βˆ(LS,n) − β 0 LD
= βˆ(LS,n) − β 0 ³
´T
´T
´T
³
LD−1 DD−1 LT βˆ(LS,n) − β 0
= βˆ(LS,n) − β 0
´T
³
´
´
´
(X T X) βˆ(LS,n) − β 0 .
Ku ´pln´emu dokonˇcen´ı d˚ ukazu staˇc´ı pˇripomenout definici Fisher-Snedecorova Fp,n−p , kter´a m˚ uˇze b´ yt symbolicky vyj´adˇrena takto χ2 (p) (n − p) . χ2 (n − p) p 2 48
4.3
Koeficient determinace
Po t´e, co odhadneme nˇekter´ y regresn´ı model, je tˇreba posoudit, zda tento je ˇci nen´ı “statisticky relevantn´ı” pro vysvˇetlen´ı dat. V´ yˇse uveden´ a teorie n´am umoˇzn ˇuje, sice za dosti siln´eho pˇredpokladu normality disturbanc´ı, nicm´enˇe umoˇzn ˇuje, otestovat signifikantnost jednotliv´ ych koeficient˚ u modelu. A aˇz budeme mluvit o v´ ystupech z pˇr´ısluˇsn´ ych softwarov´ ych produkt˚ u pˇripomeneme si tuto moˇznost. Na druh´e stranˇe bychom r´adi posoudili odhad modelu jako celek. Patrnˇe nen´ı sporu o tom, ˇze hlavn´ı informac´ı o tom, zda model byl navrˇzen rozumnˇe v sobˇe nesou rezidua. Budeme pˇredpokl´adat, pˇriˇcemˇz nechme na okamˇzik stranou jak dalece je to realistick´e, ˇze jsou tato rozdˇelena norm´alnˇe. Pˇripomeˇ nme si ze z´akladn´ıho kurzu statistiky, ˇze souˇcet ˇctverc˚ u nez´avisl´ ych stejnˇe norm´alnˇe rozdˇelen´ ych n´ahodn´ ych veliˇcin je jednou ze (dvou) sloˇzek postaˇcuj´ıc´ı statistiky. To je d˚ uvod, proˇc je jedna z nejjednoduˇsˇs´ıch charakteristik “adekv´atnosti” modelu, totiˇz koeficient determinace, zaloˇzen na souˇctu ˇctverc˚ u rezidu´ı. Pozdˇeji uk´aˇzeme, ˇze jeho role by nemˇela b´ yt pˇreceˇ nov´ana. Podobnˇe jako jin´e statistick´e testy, i tento hypot´ezu o adekv´atnosti modelu “pouze” nezam´ıt´a, tj. pokud je hodnota koeficientu determinace vysok´a (a projde-li pˇr´ısluˇsn´ ym testem) ˇr´ık´a to, ˇze dan´ y model nelze zam´ıtnout, ale je to jeˇstˇe daleko z´avˇeru, ˇze model je rozumn´ y. Abychom nabyli alespoˇ n rozumn´eho stupnˇe v´ıry v to, ˇze n´aˇs odhad modelu je pˇrijateln´ y, je nezbytn´e pˇrinejmenˇs´ım prov´est ˇradu dalˇs´ıch test˚ u a aposteriorn´ıch diagnostick´ ych u ´kon˚ u. Ani pak vˇsak bez pouˇzit´ı cele ˇsk´aly robustn´ıch proced˚ ur nem˚ uˇzeme zaruˇcit, ˇze nelze nal´ezt, v jak´emsi smyslu - napˇr. ve smyslu velikosti souˇctu ˇctverc˚ u rezidu´ı “vˇetˇsiny” pozorov´ an´ı, (mnohem) lepˇs´ı model. DEFINICE 1 Necht’ model obsahuje absolutn´ı ˇclen. Pak poloˇzme R02 = P Y¯ = n−1 ni=1 Yi . Koeficientem determinace rozum´ıme R2 =
2 R02 − SR . R02
Pokud model neobsahuje absolutn´ı ˇclen, poloˇzme R02 = opˇet rozum´ıme (46).
Pn
i=1 (Yi
− Y¯ )2 , kde
(46)
Pn
2 i=1 Yi .
Koeficientem determinace pak
Heuristika stoj´ıc´ı v podaz´ı definice koeficientu determinace je zˇrejm´ a a velmi pˇr´ımoˇcar´a. Pokud je totiˇz n´aˇs model “adekv´atn´ı” (“relevantn´ı”, “rozumn´ y” atd. jak sami chcete) pro vysvˇetlen´ı dat, je rezidu´aln´ı souˇcet ˇctverc˚ u mal´ y v porovn´ an´ı s R02 a tedy hodnota koeficientu determinace je bl´ızk´a k 1. Jestliˇze tedy n´aˇs model dobˇre “vystihne” variabilitu vysvˇetlovan´e promˇenn´e, tj. rezidua budou m´ıt jen malou variabilitu, je koeficient determinace vysok´ y. V opaˇcn´em pˇr´ıpadˇe, je-li model “neadekv´atn´ı”, bude rezidu´aln´ı souˇcet ˇctverc˚ u srovnateln´ y s R02 a koeficient determinace bude bl´ızko k nule. Nenechme se vˇsak m´ ylit, ˇze lze jednotnˇe, tj. pro r˚ uzn´e oblasti pouˇzit´ı regresn´ıho modelu udat, co to znamen´a, ˇze je koeficient determinace dostateˇcnˇe ˇ velk´ y. Casto se uv´ad´ı, ˇze technick´e ˇci pˇr´ırodovˇedn´e modely ˇci obecnˇeji modely v exaktn´ıch vˇed´ach, by mˇely m´ıt R2 > 0.6. V humanitn´ıch oborech jsou vˇsak ˇcasto akceptov´ any i modely s 2 R = 0.2. V ekonomick´e literatuˇre, tj. v oboru kter´ y leˇz´ı nˇekde mezi “exaktn´ımi” a humanitn´ımi, naleznete napˇr. v´ yrok: “William F. Sharpe [1985, p. 167] notes that for an individual company a typical R2 measure from a Capital Asset Pricing Model equation is about 0.3 but that as one diversifies across companies” assets into a larger portfolio, the R2 measure increases, owing to the reduction of specific risk through diversification” (viz Berndt (1990), p. 40). 49
Zamysleme se nad touto situaci jeˇstˇe pˇri trochu jin´em u ´hlu pohledu. R2 totiˇz pˇredstavuje (mnohon´asobn´ y) korelaˇcn´ı koeficient mezi vysvˇetlovanou a vysvˇetluj´ıc´ımi promˇenn´ ymi; nejl´epe je to vidˇet pˇri jednoduch´e regresi, viz napˇr. Andˇel (1978). Ani mezi statistiky vˇsak nen´ı obecnˇe zn´amo, ˇze pokud pro dvourozmˇernou norm´alnˇe rozdˇelenou n´ahodnou veliˇcinu budeme kreslit mnoˇzinu bod˚ u, ve kter´ ych je sdruˇzen´ a hustota rovna nˇekter´emu pevnˇe zvolen´emu ˇc´ıslu, dostaneme elipsu v´ yraznˇeji se liˇs´ıc´ı od kruˇznice aˇz pr´avˇe pro hodnoty ρ = 0.6 ˇci 0.7. To napov´ıd´a, ˇze vazba mezi vysvˇetlovanou a vysvˇetluj´ıc´ımi promˇenn´ ymi je dosti slab´a, je-li R2 < 0.6. Naznaˇcen´a heuristika rovnˇeˇz napov´ıd´ a, proˇc je koeficient determinace poˇc´ıt´ an jednou tak, ˇze porovn´av´ame naˇs model s modelem Yi = Y¯ + Ei ,
i = 1, 2, . . . , n
a podruh´e porovn´av´ame odhadnut´ y model s modelem Yi = Ei ,
i = 1, 2, . . . , n
(viz rovnˇeˇz Lemma 8). V dalˇs´ım textu budeme uvaˇzovat model s absolutn´ım ˇclenem, pro model bez absolutn´ıho ˇclenu by se uv´adˇen´a tvrzen´ı snadno modifikovala. Upozornˇeme snad jeˇstˇe na “z´aludnost”, kter´a vznik´a t´ım, ˇze nˇekter´e poˇc´ıtaˇcov´e statistick´e knihovny poˇc´ıtaj´ı R2 automaticky dle prvn´ı ˇci druh´e definice v z´avislosti od toho, zda byl odhadov´ an model s absolutn´ım ˇclenem ˇci bez absolutn´ıho ˇclenu. Pak obˇcas nast´av´a “absurdn´ı” situace, kdy model s absolutn´ım ˇclenem se zd´a b´ yt h˚ uˇre determinov´an neˇz model bez nˇej. Jeˇstˇe se o takov´ ychto “naschv´ alech” zm´ın´ıme aˇz budeme diskutovat v´ ystupy z poˇc´ıtaˇcov´ ych knihoven. TVRZEN´ I 8 Pro koeficient determinace plat´ı R2 =
kY − 1Y¯ k2 (Y − 1Y¯ )T (Y − 1Y¯ ) = , 2 R0 kY − 1Y¯ kkYˆ − 1Y¯ k
kde 1 = (1, 1, . . . , 1)T . D˚ ukaz. Poloˇzme ν = (n−1 , n−1 , . . . , n−1 )T a 1 = (1, 1, . . . , 1)T . Pak m´ame R02 = kY − 1Y¯ k2 =
n n X
o
Yi2 − 2Y¯ Yi + Y¯ 2 = kY k2 − k1Y¯ k2
(47)
i=1
a ³
kYˆ − 1Y¯ k2 = kX(X T X)−1 X T Y − 1ν T Y k2
= Y T X(X T X)−1 X T − 1ν T
´³
´
X(X T X)−1 X T − 1ν T Y
= Y T X(X T X)−1 X T X(X T X)−1 X T Y − 2Y T X(X T X)−1 X T 1ν T Y + nY¯ 2 = kYˆ k2 − 2Y T 1νY + nY¯ 2 = kYˆ k2 − k1Y¯ k2 . Pˇri u ´prav´ach jsme pouˇzili fakt, ˇze X(X T X)−1 X T 1 = 1. Ten plyne z toho, ˇze 1 ∈ M(X) a tedy projekce vektoru 1 je opˇet vektor 1. Nav´ıc kY k2 = (Y − Yˆ )T (Y − Yˆ ) + Yˆ T Yˆ = kY − Yˆ k2 + kYˆ k2 50
a koneˇcnˇe kY − 1Y¯ k2 = kY k2 − k1Y¯ k2 = kY − Yˆ k2 + kYˆ k2 − k1Y¯ k2 = kY − Yˆ k2 + kYˆ − 1Y¯ k2 , tj. 2 R02 − SR = kYˆ − 1Y¯ k2 .
(48)
To uzav´ır´a d˚ ukaz prv´e ˇc´asti tvrzen´ı. Podotknˇeme vˇsak, ˇze toto lze snadnˇeji nahl´ednout geometricky. V´ıme, ˇze Yˆ je projekc´ı Y do prostoru M(X), ve kter´em leˇz´ı tak´e 1 a 1Y¯ je projekc´ı Y do prostoru M(1), kter´ y je podprostorem prostoru M(X). To znamen´a, ˇze 1Y¯ je tak´e projekc´ı Yˆ do prostoru M(1). Suma sumarum, kY − 1Y¯ k2 je pˇrepona pravo´ uhl´eho troj´ uheln´ıka, ve kter´em 2 2 ˆ ¯ ˆ jsou odvˇesnami kY − 1Y k a kY − Y k . Aplikac´ı Pythagorovy vˇety pak dostaneme kY − Yˆ k2 + kYˆ − 1Y¯ k2 = kY − 1Y¯ k2 .
(49)
Pˇripomeˇ nme jeˇstˇe, ˇze ve v´ yˇse zm´ınˇen´emu pravo´ uhl´emu troj´ uheln´ıku pomˇer d´elky pˇrilehl´e odvˇesny ku pˇreponˇe d´av´a kosinus pˇr´ısluˇsn´eho u ´hlu. Pak ovˇsem dostaneme "
kYˆ − 1Y¯ k R = kY − 1Y¯ k
#2
2
= cos2 α,
kde prv´a rovnost plyne z (48) a (49). Oznaˇc´ıme-li jeˇstˇe α u ´hel mezi Yˆ −1Y¯ a Y −1Y¯ , plyne druh´a z pr´avˇe proveden´ ych u ´vah. K dokonˇcen´ı si staˇc´ı vzpomenout, ˇze ˇctverec kosinu u ´hlu mezi dvˇema vektory dostaneme jako jejich skal´arn´ı souˇcin, pokud tyto vektory maj´ı jednotkovou d´elku, tj. h
R2 = (Yˆ − 1Y¯ )kYˆ − 1Y¯ k−1
iT
· (Y − 1Y¯ )kY − 1Y¯ k−1 . 2
´ POZNAMKA 4 Tvrzen´ı 8 bylo uvedeno proto, ˇze v nˇekter´ych pramenech b´yvaj´ı uvedeny alternat´ıvn´ı definice koeficientu determinace a na prvn´ı pohled nemus´ı b´yt patrn´e, zda jsou vˇsechny ekvivalentn´ı. Je celkem pˇrirozen´e, ˇze hodnota koeficientu determinace dobˇre poslouˇz´ı k prv´emu n´ahledu toho, jak model dobˇre vystihuje data. Na druh´e stranˇe bychom nepochybnˇe chtˇeli pomoci nˇejak´eho statistick´eho testu stanovit, zda m´ıra “vystiˇzen´ı” je statisticky signifikantn´ı ˇci nikoliv. DEFINICE 2 Necht’ R2 je koeficient determinace. Pokud model obsahuje absolutn´ı ˇclen, poloˇzme F =
R2 n−p · , 1 − R2 p − 1
pokud absolutn´ı ˇclen v modelu nen´ı mˇejme F =
R2 n−p · . 2 1−R p
F se obvykle oznaˇcuje jako Fisher-Snedecorovo F (v regresi; stejn´e oznaˇcen´ı se pouˇz´ıv´ a pro n´ ahodnou veliˇcinu, jej´ıˇz definici vz´ apˇet´ı pˇripomeneme). 51
V dalˇs´ım lemmatu budeme potˇrebovat n´ahodnou veliˇcinu, kter´a b´ yv´ a oznaˇcov´ ana jako Fisher-Snedecorovo F`,k . Tato veliˇcina se dostane jako pod´ıl dvou nez´avisl´ ych n´ahodn´ ych veliˇcin, 2 rozdˇelen´ ych dle χ -rozdˇelen´ı a normovan´ ych pˇr´ısluˇsn´ ymi stupni volnosti, tj. symbolicky ps´ano F`,k =
χ2 (`) k · 2 . ` χ (k)
LEMMA 8 Necht’ fluktuace v modelu (3) jsou rozdˇeleny dle N (0, σ 2 I). Pokud model neobsahuje absolutn´ı ˇclen a IE Y = 0, potom F je rozdˇeleno jako Fp,n−p , tj. jako Fisher-Snedecorovo F s p a n − p stupni volnosti. Pokud model absolutn´ı ˇclen obsahuje a IE Y = γ · 1, potom je F rozdˇeleno jako Fp−1,n−p . D˚ ukaz. D˚ ukaz bude proveden jen pro druh´ y pˇr´ıpad, nebot’ nutn´e modifikace pro pˇr´ıpad prvn´ı jsou okamˇzitˇe patrn´e. Pouˇzijeme-li pˇredpoklad, ˇze IE Y = γ1, dostaneme Xβ 0 = γ1. Nav´ıc h
i
h
i
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − N Y + Y T N Y,
(50)
kde jsme symbolem N oznaˇcili matici, kter´a m´a vˇsechny prvky rovn´e n−1 . V´ ypoˇctem ovˇeˇr´ıme, ˇze T −1 T N N = N . Vzhledem k tomu, ˇze 1 ∈ M(X), je tak´e X(X X) X 1 = 1 a nav´ıc X(X T X)−1 X T N = N . To umoˇzn ˇuje ovˇeˇrit, ˇze h
X(X T X)−1 X T − N
ih
i
X(X T X)−1 X T − N = X(X T X)−1 X T − N ,
a tedy rank(X(X T X)−1 X T − N ) = tr(X(X T X)−1 X T − N ) = p − 1. Jiˇz v´ yˇse jsme nˇekolikr´ at pouˇzili fakt, ˇze rank(I − X(X T X)−1 X T ) = tr(I − X(X T X)−1 X T ) = n − p. Aplikace Fisher-Cochranova lemmatu d´av´ a ³
h
i
´
³
h
i
´
L Y T I − X(X T X)−1 X T Y a
L Y T X(X T X)−1 X T − N Y s
h
i
= χ2 (n − p, λ(1) )
= χ2 (p − 1, λ(2) )
h
i
λ(1) = µT I − X(X T X)−1 X T µ = [β 0 ]T X T I − X(X T X)−1 X T Xβ 0 = 0 (na tuto rovnost nen´ı tˇreba hypot´ezy Xβ 0 = γ1) a h
i
h
i
λ(2) = µT X(X T X)−1 X T − N µ = [β 0 ]T X T X(X T X)−1 X T − N Xβ 0 h
i
= γ 2 1T X(X T X)−1 X T − N 1 = 0. Fisher-Cochranovo lemma nav´ıc umoˇzn ˇuje tvrdit, ˇze jsou tyto dvˇe kvadratick´e formy nez´avisl´e. Pak jiˇz staˇc´ı uv´aˇzit rovnost 2 2 R02 − SR R02 − SR R02 R2 = = . · 2 2 2 2 2 1 − R2 R0 R0 − R0 + SR SR
52
K dokonˇcen´ı d˚ ukazu pak vezmˇeme v u ´vahu ten fakt, ˇze Yˆ je projekc´ı Y do prostoru M(X) a 1Y¯ je projekc´ı jak Y tak Yˆ do prostoru M(1). Z nˇej plyne, ˇze h
i
2 R02 − SR = (Yˆ − 1Y¯ )T (Yˆ − 1Y¯ ) = Y T X(X T X)−1 X T − N Y
a podobnˇe
h
i
2 SR = Y T I − X(X T X)−1 X T Y,
(51)
pˇriˇcemˇz posledn´ı a pˇredposledn´ı rovnost se napˇr. snadno ovˇeˇr´ı uˇzit´ım idempotentnosti pˇr´ısluˇsn´ ych matic. K d˚ ukaz pro model bez absolutn´ıho ˇclenu je tˇreba ps´at (50) ve tvaru h
i
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T Y a uvˇedomit si, ˇze napˇr. opˇet z geometrick´e pˇredstavy a z faktu, ˇze nyn´ı R02 = Y T Y , plyne, ˇze 2 R02 − SR = Y T X(X T X)−1 X T Y
a ˇze tato kvadratick´a forma m´a χ2 -rozdˇelen´ı o p stupn´ıch volnosti.
4.4
2
Intervaly a p´ asy spolehlivosti
Pˇri pouˇzit´ı diagnostick´ ych graf˚ u, obˇcas vˇsak i pˇri jin´ ych procedur´ach, napˇr. z oblasti z´akladn´ı popisn´e statistiky, se stane, ˇze kromˇe pˇr´ımky naznaˇcuj´ıc´ı regresn´ı vztah jedn´e veliˇciny na druh´e, se na obrazovce objev´ı tak´e jak´esi kˇrivky, a pod´ıv´ ame-li se do manu´ alu nalezneme tam vysvˇetlen´ı, ˇze se jedn´a o 95% p´as ˇci interval spolehlivosti. Samozˇrejmˇe, ˇze u ´roveˇ n spolehlivost m˚ uˇze b´ yt v r˚ uzn´ ych poˇc´ıtaˇcov´ ych knihovn´ach r˚ uzn´a, dokonce nˇekdy i nastaviteln´ a. Obvykle vˇsak v manu´ alu marnˇe p´atr´ame po vysvˇetlen´ı, jak byly tyto kˇrivky z´ısk´ any. N´asleduj´ıc´ı v´ yklad ukazuje, ˇze z´aleˇzitost p´asu spolehlivosti nen´ı aˇz tak jednoduch´ a, abychom ji pˇreˇsli bez podrobnˇejˇs´ıho v´ ykladu. Interval spolehlivosti pro jednotliv´e souˇradnice vektoru regresn´ıch koeficient˚ u lze nal´ezt pouˇzit´ım Vˇety 2. Z n´ı totiˇz plyne, ˇze intervalem µ
¶
1 1 α α (LS,n) (LS,n) βˆi − scii2 tn−p (1 − ), βˆi + scii2 tn−p (1 − ) , 2 2
je hodnota i-t´e souˇradnice vektoru β 0 pokryta s pravdˇepodobnost´ı 1 − α. Pˇripom´ın´ ame, ˇze s je odhad rozptylu rezidu´ı (viz napˇr. Lemma 7), cii je i-t´ y diagon´aln´ı prvek matice (X T X)−1 a tn−p (1 − α2 ) je horn´ı α2 kvantil Studentova t. Pˇrirozenˇe, ˇze zaj´ımavˇejˇs´ı je nalezen´ı “intervalu” spolehlivosti pro vˇsechny souˇradnice vektoru regresn´ıch koeficient˚ u souˇcasnˇe. Tvar takov´eho “intervalu” m˚ uˇze b´ yt r˚ uzn´ y, v podstatˇe libovoln´ y. V ˇsedes´at´ ych letech se pˇrev´aˇznˇe studovaly rektangul´arn´ı intervaly spolehlivosti (viz napˇr. id´ak (1967)), v souˇcasn´e dobˇe se vˇsak ˇcastˇeji uvaˇzuj´ı konfidenˇcn´ı oblasti ve tvaru (rotaˇcn´ıch) elipsoid˚ u. K sestrojen´ı takov´eho elipsoidu pouˇzijeme d˚ usledek 3. Z nˇej plyne, ˇze pro libovoln´e α ∈ (0, 1) (LS,n) ˆ padne β do elipsoidu (
E=
β∈R
¡ p
:
¢T
β − β0)
¡
¢
X T X β − β0) n − p ≤ Fp,n−p (1 − α) 2 p SR 53
)
(52)
2 je rezidu´ s pravdˇepodobnost´ı 1 − α. Opˇet pˇripom´ın´ ame ˇze, SR aln´ı souˇcet ˇctverc˚ u a Fp,n−p (1 − α) je α-kvantil Fisher-Snedecorova F o p a n − p stupn´ıch volnosti. Jin´ ymi slovy lze tvrdit, ˇze je-li (LS,n) ˆ β odhad regresn´ıch koeficient˚ u, potom s pravdˇepodobnost´ı 1−α m˚ uˇze β 0 b´ yt jen z mnoˇziny
³
β ∈ Rp :
´T
βˆ(LS,n) − β)
³
´
X T X βˆ(LS,n) − β) n − p . ≤ F (1 − α) p,n−p 2 p SR
Podobnˇe m˚ uˇzeme nal´ezt konfidenˇcn´ı interval pro hodnotu veliˇciny Yn+1 v nˇekter´em bodˇe xn+1 . Nejprve pro x ∈ Rp oznaˇcme d2 (x) = xT (X T X)−1 x a pˇrirozenˇe pˇredpokl´adejme, ˇze Yn+1 = xTn+1 β 0 + En+1 . Uvˇedomme si, ˇze En+1 je statisticky nez´avisl´e na βˆ(LS,n) , nebot’ tento odhad byl poˇr´ızen na z´akladˇe prv´ ych n pozorov´an´ı ˇci chcete-li, budete-li uvaˇzovat βˆ(LS,n) jako n´ahodnou veliˇcinu, je tato z´avisl´a jen na E1 , E2 , ..., En . To znamen´a, ˇze n´ahodn´a veliˇcina ³
´
Yn+1 − xTn+1 βˆ(LS,n) = xTn+1 β 0 − βˆ(LS,n) + En+1 , 2. m´a dle v´ yˇse uveden´ ych v´ ysledk˚ u rozdˇelen´ı N (0, σ 2 (1 + d2 (xn+1 ))) a je statisticky nez´avisl´ a s SR To vˇsak implikuje, ˇze ! Ã Yn+1 − xTn+1 βˆ(LS,n) = tn−p L 1 s(1 + d2 (xn+1 )) 2
a proto interval µ
1
xTn+1 βˆ(LS,n) − s(1 + d2 (xn+1 )) 2 tn−p (1 −
α ), 2 1
xTn+1 βˆ(LS,n) + s(1 + d2 (xn+1 )) 2 tn−p (1 −
¶
α ) 2
(53)
pokryje Yn+1 s pravdˇepodobnost´ı 1 − α. Podobnˇe snadno nalezneme, pro nˇekter´e pevn´e xn+1 ∈ Rp , interval spolehlivosti pro xTn+1 β 0 . Ze vztahu (53) snadno zjist´ıme, ˇze interval µ
xTn+1 βˆ(LS,n)
¶
α α − sd(x)tn−p (1 − ), xTn+1 βˆ(LS,n) + sd(x)tn−p (1 − ) 2 2
(54)
pokr´ yv´a xTn+1 β 0 s pravdˇepodobnost´ı 1 − α. Uk´aˇzeme si jeˇstˇe, jak je moˇzn´e nal´ezt p´as spolehlivosti, kter´ y souˇcasnˇe, pro vˇsechna x z nˇejak´e T 0 pˇredem zadan´e oblasti, pokr´ yv´a x β s pˇredem zvolenouu pravdˇepodobnost´ı. Z v´ yˇse uveden´eho (LS,n) ˆ v´ıme, ˇze β padne do elipsoidu E (viz (52)) s pravdˇepodobnost´ı 1 − α. Odtud ihned plyne, ˇze zvol´ıme-li libovoln´e (ale pevn´e) x ∈ Rp , bude s pravdˇepodobnost´ı 1 − α hodnota xT βˆ(LS,n) mezi hodnotou L(x) = inf xT β β∈E
a hodnotou U (x) = sup xT β. β∈E
54
Hledejme nejprve v´ yraz pro U (x). Podobnˇe jako jiˇz nˇekolikr´ at v´ yˇse, pouˇzijeme Tvrzen´ı 7. To n´am T T umoˇzn´ı ps´at matici X X ve tvaru QDQ , kde Q a D jsou postupnˇe orthogon´aln´ı a diagon´aln´ı √ matice s kladn´ ymi prvky na diagon´ale. Necht’ symbol D oznaˇcuje diagon´aln´ı matici, kter´a m´a na diagon´ale odmocniny z vlastn´ıch ˇc´ısel matice X T X, a to ve stejn´em poˇrad´ı jako stoj´ı na √ ¡ ¢ diagon´ale matice D, a poloˇzme κ = s2 pFp,n−p (1 − α). Oznaˇcme jeˇstˇe ξ(β) = DQT β − β 0 ) . Dostaneme p ³
β − β0
´T
³
´
X T X β − β 0 = ξ T (β)ξ(β) =
X
ξk2 (β),
k=1
a z (52) plyne, ˇze pro kaˇzd´e β ∈ E m´ame p X
ξk2 (β) ≤ κ.
(55)
k=1
√ matici inverzn´ı k diagon´aln´ı matici D, tj. matici maj´ıc´ı na diagon´ale √ pˇrevr´acen´e hodnoty prvk˚ u stoj´ıc´ıch na diagon´ale matice D. Jednoduch´ ym v´ ypoˇctem nalezneme Oznaˇcme symbolem
√1 D
1 1 xT β = xT (β 0 + Q √ ξ) = xT β 0 + xT Q √ ξ, D D
(56)
coˇz n´am umoˇzn´ı nalezen´ı sup xT β. Uvˇedomme si, ˇze prv´ y ˇclen prav´e strany (56) (totiˇz xT β 0 ) je β∈E
konstantn´ı, a tedy maxima v´ yrazu xT β dos´ ahneme, zmaximalizujeme-li xT Q √1D ξ, samozˇrejmˇe pˇri splnˇen´ı vedlejˇs´ı podm´ınky (55). Protoˇze se jedn´a o skal´ arn´ı souˇcin dvou vektor˚ u, maxima 1 1 T dos´ahneme pro takov´e ξ, kter´e bude n´asobkem vektoru √D Q x, tj. pro ξ = λ · √D QT x, kde λ je tˇreba vybrat tak, aby platilo (55). Spoˇcteme-li normu vektoru ξ a poloˇz´ıme-li ji rovnou κ, dostaneme λ2 xT QD−1 QT x = λ2 xT (X T X)−1 x = κ neboli λ=
√ κ . d(x)
√ 1 Vypoˇcteme U (x) = xT β 0 + κd(x) = xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 a analogick´ ym postupem 1 T 0 t´eˇz L(x) = x β − sd(x)(pFp,n−p (1 − α)) 2 . Potom ovˇsem nerovnosti 1
1
xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 ≤ xT βˆ(LS,n) ≤ xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 plat´ı pro vˇsechna x ∈ Rp s pravdˇepodobnost´ı 1 − α. To znamen´a, ˇze konfidenˇcn´ı oblast s doln´ı a horn´ı mez´ı danou vztahy 1
xT βˆ(LS,n) − sd(x) (p Fp,n−p (1 − α)) 2 a
1
xT βˆ(LS,n) + sd(x) (p Fp,n−p (1 − α)) 2
pokr´ yv´a “skuteˇcn´ y” model IE Y = xβ 0 s pravdˇepodobnost´ı 1 − α. Nen´ı bez zaj´ımavosti, ˇze tento p´as je pro kaˇzd´e konkr´etn´ı x ∈ Rp ˇsirˇs´ı neˇz interval spolehlivosti dan´ y v (54). Moˇzn´a, ˇze stoj´ı za explicitn´ı zd˚ uraznˇen´ı fakt, kter´ y umoˇznil nalezen´ı p´asu spolehlivosti p pro vˇsechna x ∈ R nar´az. Snadno se nahl´edne, ˇze je to skuteˇcnost, ˇze βˆ(LS,n) padne do E 55
s pravdˇepodobnost´ı 1 − α a to nez´avisle na x. Nav´ıc nalezen´e hranice tohoto konfidenˇcn´ıho p´asu (ˇci oblasti, chcete-li) naznaˇcuj´ı, proˇc se tento p´as (je-li zobrazen na displeji) na okraj´ıch rozˇsiˇruje. Pˇripomeˇ nme nejprve, ˇze diagon´aln´ı prvky projekˇcn´ı matice (“hat” matice) ud´avaj´ı vzd´alenost kaˇzd´eho pozorov´an´ı od bodu, jehoˇz souˇradnice jsou d´any pr˚ umˇery pˇres sloupce matice pl´anu. D´ale si uvˇedomme, ˇze i-t´ y diagon´aln´ı prvek projekˇcn´ı matice je roven d2 (xi ). Spojen´ı tˇechto 1 fakt˚ u pak implikuje to, ˇze v´ yraz sd(x) (p Fp,n−p (1 − α)) 2 je vˇetˇs´ı “na okraj´ıch” dat a menˇs´ı v jejich stˇredu.
4.5
Testov´ an´ı submodel˚ u
Odhadneme-li nˇekter´ y regresn´ı model, pak jedna z nejpˇrirozenˇejˇs´ıch ot´azek se bude t´ ykat poˇctu regresor˚ u, tj. toho, zda model je dostateˇcnˇe urˇcen ˇci naopak, zda nen´ı zbyteˇcnˇe pˇreurˇcen. Jak si uk´aˇzeme pozdˇeji, je prv´ y pˇr´ıpad, patrnˇe podstatnˇe, nebezpeˇcnˇejˇs´ı pro dalˇs´ı pouˇzit´ı modelu neˇz pˇr´ıpad druh´ y. To m˚ uˇze navodit myˇslenku, ˇze je l´epe zaˇradit do modelu v´ıce vysvˇetluj´ıc´ıch promˇenn´ ych, vˇcetnˇe nˇekter´ ych, kter´e nejsou pro vysvˇetlen´ı veliˇciny Y signifikantn´ı, neˇz se dopustit toho, ˇze nˇekterou podstatnou vysvˇetluj´ıc´ı promˇennou vynech´ ame. Potom ovˇsem m˚ uˇze nˇekter´ y uˇzivatel pˇrij´ıt s dotazem, zda by nˇekter´ y submodel uˇz nebyl stejnˇe dobr´ y jako model, kter´ y byl navrˇzen n´ami. Abychom umˇeli takov´ y dotaz zodpovˇedˇet, nauˇc´ıme se v tomto odstavci testovat submodel proti “z´akladn´ımu” modelu. To n´am nav´ıc v z´avˇeru odstavce umoˇzn´ı sezn´amit se ˇcasto pouˇz´ıvan´ ym Chowov´ ym testem, tj. testem posuzuj´ıc´ım shodnost ˇci rozd´ılnost koeficient˚ u regresn´ıch model˚ u odhadnut´ ych pro dva soubory dat. D˚ ukaz Chowova testu bude pak provedem, na rozd´ıl od p˚ uvodn´ı pr´ace a na rozd´ıl od dalˇs´ıch monografi´ı, do kter´ ych byl p˚ uvadn´ı d˚ ukaz opisov´an, podstatnˇe jednoduˇseji. Budeme tedy pˇredpokl´adat, ˇze data byla generov´ ana modelem Yi = ziT β 0 + Ei ,
i = 1, 2, . . . , n,
(57)
kde matice Z, jej´ıˇz ˇr´adky jsou jako obvykle tvoˇreny transponovan´ ymi vektory ziT , je takov´a, ˇze M(Z) ⊂ M(X), tj. prostor generovan´ y matic´ı pl´anu “z´ uˇzen´eho” modelu je podprostorem prostoru generovan´eho matic´ı X. Nejpodstatnˇejˇs´ım krokem v pr´avˇe naznaˇcovan´em v´ ykladu je pak nahl´ednout, ˇze rozd´ıl projekˇcn´ıch matic X(X T X)−1 X T − Z(Z T Z)−1 Z T je opˇet projekˇcn´ı matice. Lze se o tom pˇresvˇedˇcit takto. Z jiˇz dˇr´ıve pˇripom´ınan´e geometrick´e podstaty vˇeci okamˇzitˇe plyne, ˇze tento rozd´ıl projektuje do podprostoru prostoru M(X), kter´ y je kolm´ y na podprostor M(Z). Jistˇe nen´ı tˇeˇzk´e nahl´ednout, ˇze je-li X(X T X)−1 X T v projekce vektoru v do M(X), m˚ uˇzeme tuto projekci rozloˇzit na souˇcet vektor˚ u z M(Z) a z podprostoru, kter´ y je kolm´ y na M(Z). Sloˇzky tohoto rozkladu jsou projekcemi vektoru v do odpov´ıdaj´ıc´ıch podprostor˚ u, tj. do M(Z) a do podprostoru, kter´ y je na tento kolm´ y. Jin´a cesta je ˇcistˇe form´aln´ı, tj. provedeme pˇr´ımo zn´asoben´ı matic a uvˇedom´ıme si, ˇze sloupce projekˇcn´ı matice Z(Z T Z)−1 Z T jsou vektory z M(Z) a ˇze tento prostor je dle pˇredpokladu podprostorem prostoru M(X). Jin´ ymi slovy, pokud pomoc´ı projekˇcn´ı matice X(X T X)−1 X T zprojektujeme sloupce matice Z(Z T Z)−1 Z T do M(X), dostaneme tyt´eˇz vektory, tj. vektory, kter´e jsou sloupci matice Z(Z T Z)−1 Z T . Plat´ı tedy Z(Z T Z)−1 Z T · X(X T X)−1 X T = Z(Z T Z)−1 Z T 56
a protoˇze obˇe projekˇcn´ı matice jsou symetrick´e, m´ame tak´e X(X T X)−1 X T · Z(Z T Z)−1 Z T = Z(Z T Z)−1 Z T . To d´ale znamen´a, ˇze ³
X(X T X)−1 X T − Z(Z T Z)−1 Z T
´T ³
· X(X T X)−1 X T − Z(Z T Z)−1 Z T
´
= X(X T X)−1 X T · X(X T X)−1 X T − X(X T X)−1 X T · Z(Z T Z)−1 Z T −Z(Z T Z)−1 Z T · X(X T X)−1 X T + Z(Z T Z)−1 Z T · Z(Z T Z)−1 Z T = X(X T X)−1 X T − Z(Z T Z)−1 Z T . Pr´avˇe ukonˇcen´ y v´ yklad pˇredstavuje d˚ ukaz n´asleduj´ıc´ıho tvrzen´ı. TVRZEN´ I 9 Necht’ matice Z je takov´ a, ˇze M(Z) ⊂ M(X). Potom rozd´ıl projekˇcn´ıch matic T −1 T T −1 T X(X X) X − Z(Z Z) Z je opˇet projekˇcn´ı matice, tj. tato matice je symetrick´ a a idempotentn´ı. LEMMA 9 Necht’ matice pl´ an˚ u v modelech (4) a (57), X a Z, jsou pln´e hodnosti p a q a fluk∞ tuace {Ei }i=1 jsou rozdˇeleny dle N (0, σ 2 I). D´ ale necht’ prostor M(Z) je podprostorem prostoru (LS,n) (LS,n) M(X). V r´ amci tohoto lemmatu necht’ βˆ(X) a βˆ(Z) oznaˇcuj´ı odhady z´ıskan´e metodou ne2 2 ’ jmenˇs´ıch ˇctverc˚ u v tˇechto modelech. Koneˇcnˇe pak necht S(X) a S(Z) oznaˇcuj´ı rezidu´ aln´ı souˇcty (LS,n) (LS,n) ˆ ˆ ˇctverc˚ u pˇr´ısluˇsn´e k β aβ . Potom statistika (X)
(Z)
F =
2 − S2 S(Z) (X) n − p · 2 p−q S(X)
m´ a Fisher-Snedecorovo F -rozdˇelen´ı s p − q a n − p stupni volnosti. D˚ ukaz. Analogicky jako v´ yˇse rozloˇz´ıme souˇcet ˇctverc˚ u Y T Y takto ³
´
³
´
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y +Y T Z(Z T Z)−1 Z T Y.
(58)
Nyn´ı pouˇzijeme faktu, ˇze matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je idempotentn´ı, a budeme aplikovat Tvrzen´ı 3, tj. zjist´ıme, ˇze hodnost t´eto matice je rovna jej´ı stopˇe a koneˇcnˇe pak, ˇze je jej´ı hodnost rovna rozd´ılu stop matic X(X T X)−1 X T a Z(Z T Z)−1 Z T . Protoˇze vˇsak obˇe matice jsou rovnˇeˇz idempotentn´ı, jsou jejich stopy rovny hodnostem tˇechto matic. Koneˇcnˇe tedy dost´av´ame: hodnost matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je p − q. Podobnou u ´vahou, kterou jsme ostatnˇe udˇelali jiˇz v´ yˇse, dostaneme, ˇze hodnost matice I − X(X T X)−1 X T je n − p. Pˇripomeˇ nme, ˇze jsme pˇredpokl´adali, ˇze hodnost matice Z je rovna q a m´ame souˇcet hodnost´ı matic roven (n − p) + (p − q) + q = n. Koneˇcnˇe pak pouˇzit´ım Fisher-Cochranova lemmatu nalezneme, ˇze kvadratick´e formy ³
´
Y T I − X(X T X)−1 X T Y
³
a
´
Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y
57
jsou nez´avisl´e a maj´ı χ2 rozdˇelen´ı s n − p a p − q stupni volnosti. K dokonˇcen´ı d˚ ukazu staˇc´ı ovˇeˇrit, ˇze 2 S(X) =
n ³ X i=1
´ (LS,n) 2
Yi − XiT βˆ(X)
³
³
= Y − X(X T X)−1 X T Y
´T ³
³
= Y T I − X(X T X)−1 X T ³
´T ³
= Y − X βˆ(LS,n) x
Y − X βˆ(LS,n) x
Y − X(X T X)−1 X T Y
´T ³
´
´
´
I − X(X T X)−1 X T Y
´
= Y T I − X(X T X)−1 X T Y = Y T Y − Y T X(X T X)−1 X T Y a 2 S(Z) =
n ³ X i=1
´ (LS,n) 2
Yi − XiT βˆ(Z)
³
= Y − X βˆ(LS,n) z
³
= Y − Z(Z T Z)−1 Z T Y ³
´T ³
= Y T I − Z(Z T Z)−1 Z T ³
´T ³
´
Y − X βˆ(LS,n) x
Y − Z(Z T Z)−1 Z T Y
´T ³
´
´
I − Z(Z T Z)−1 Z T Y
´
= Y T I − Z(Z T Z)−1 Z T Y = Y T Y − Y T Z(Z T Z)−1 Z T Y. Odtud 2 2 S(Z) − S(X) = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y
³
´
= Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y. 2 T´ımto lemmatem jsme uzavˇreli z´akladn´ı poznatky o regresn´ı anal´ yze pomoc´ı metody minimalizace souˇctu ˇctverc˚ u, ˇcasto zkr´acenˇe oznaˇcovan´e jako metoda nejmenˇs´ıch ˇctverc˚ u ˇci dokonce jen nejmenˇs´ı ˇctverce, a t´ım jsme se pˇripravili na to, abychom umˇeli interpretovat z´akladn´ı v´ ystupy procedur pro regresn´ı anal´ yzu z vˇetˇsiny poˇc´ıtaˇcov´ ych knihoven. V dalˇs´ı kapitolce si o tom nˇeco m´alo ˇrekneme. Dˇr´ıve neˇz se vˇsak do toho pust´ıme, ˇreknˇeme si jeˇstˇe, ˇze s testov´ an´ım submodel˚ u u ´zce souvis´ı jin´a u ´loha, kter´a sice nen´ı po form´aln´ı str´ance totoˇzn´ a s testov´ an´ım submodel˚ u, ale jak uvid´ıme myˇslenka jej´ıho ˇreˇsen´ı je naprosto stejn´a. V roce 1960 publikoval v ˇcasopise Econometrica G. C. Chow ˇcl´ anek (Chow (1960)), kter´ y kromˇe probl´em˚ u, kter´e my probereme v odstavci Vliv jednoho pozorov´ an´ı, ˇreˇsil probl´em testov´ an´ı shodnosti regresn´ıho modelu (ˇci jeho podmodelu - vˇse bude jasn´e z d´ale uveden´eho v´ ykladu) pro dva soubory dat. Touto u ´lohou se stal ˇcl´anek zn´am´ ym. loha byla zad´ana takto. Pˇredpokl´adejme, ˇze dva soubory dat maj´ı postupnˇe regresn´ı modely, pokud plat´ı hypot´eza Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) , Y (2) = Z (2) γ (2) + W (2) δ (2) + E (2) ,
(59)
pˇr´ıpadnˇe pˇri alternativˇe jsou ˇc´asti vektor˚ u regresn´ıch koeficient˚ u, totiˇz γ (1) a γ (2) , stejn´e, takˇze m˚ uˇzeme pro data uvaˇzovat model Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) , Y (2) = Z (2) γ (1) + W (2) δ (2) + E (2) . 58
(60)
Modely lze pˇrepsat do tvaru "
Y (1) Y (2)
#
"
=
Z (1)
0
W (1)
0
Z (2)
0
γ (1)
# (2) " (1) # γ E · + (2) (1) W E (2) δ
0
δ (2) a "
# Y (1)
Y (2)
"
=
Z (1) W (1) Z (2)
0 W (2)
0
#
γ (1)
(1) + · δ
"
δ (2)
E (1) E (2)
#
.
Oznaˇcme nejprve "
X
(1)
=
Z (1) W (1) Z (2)
0
0 W (2)
#
"
a
X
(2)
=
Z (1)
0
W (1)
0
0
Z (2)
0
W (2)
#
.
Protoˇze M(X (1) ) ⊂ M(X (2) ) (pˇripomeˇ nme, ˇze se jedn´a o prostory generovan´e sloupci matic, kter´e stoj´ı v z´avork´ach za M), m˚ uˇze b´ yt projekce vektoru (Y (1) , Y (2) )T do prostoru M(X (1) ) z´ısk´ana jako postupn´a projekce do prostoru M(X (2) ) a n´aslednˇe do M(X (1) ). Potom ovˇsem rezidu´aln´ı souˇcet ˇctverc˚ u v modelu (60) m˚ uˇze b´ yt rozloˇzen na rezidu´aln´ı souˇcet ˇctverc˚ u v modelu (59) a souˇcet ˇctverc˚ u, kter´ y je s n´ım nez´avisl´ y. Podobnˇe jako v´ yˇse, pouˇzit´ım Fisher-Cochranova lemmatu pak dostaneme n´asleduj´ıc´ı tvrzen´ı. 2 a R2 jsou rezidu´ TVRZEN´ I 10 Necht’ R(1) aln´ı souˇcty ˇctverc˚ u v modelech (60) a (59) a necht’ (2)
q a p − q jsou poˇcty souˇradnic vektor˚ u γ (1) a δ (1) (vektor γ (2) m´ a stejn´y poˇcet souˇradnic jako (1) (1) (2) γ ; stejnˇe to plat´ı o δ a δ ). Potom statistika 2 − R2 R(1) (2) n − 2p · F = 2 q R(2)
m´ a za hypot´ezy (tj. v modelu (59)) Fisher-Snedecorovo Fq,n−2p .
4.6
V´ ybˇ er modelu
Z v´ yˇse uveden´eho lze tuˇsit, ˇze jedn´ım z probl´em˚ u regresn´ı anal´ yzy, je probl´em vhodn´e volby vysvˇetluj´ıc´ıch promˇenn´ ych, kter´e m´ın´ıme zaˇradit do modelu. Tento probl´em b´ yv´ a oznaˇcov´ an, jako probl´em v´ybˇeru modelu (nˇekdy je vˇsak stejn´ y term´ın pouˇzit k oznaˇcen´ı situace, kdy r˚ uzn´e metody odhadu regresn´ıch koeficient˚ u daj´ı rozd´ıln´e v´ ysledky, nˇekdy dokonce znaˇcnˇe rozd´ıln´e, a my “mus´ıme” vybrat jeden z nich napˇr. pro predikci). Pˇrirozenˇe, ˇze nˇekdy nast´av´ a situace, ˇze m´ame tak m´alo pozorov´an´ı i vysvˇetluj´ıc´ıch promˇenn´ ych, ˇze jsme r´adi, ˇze nˇejak´ y model d´ame v˚ ubec dohromady a zcela “vynech´ame” u ´vahy o optimalitˇe nalezen´eho modelu. Z toho, co jsme si zat´ım vyloˇzili plyne, ˇze diagnostick´ ymi prostˇredky pouˇziteln´ ymi pro ˇreˇsen´ı tohoto probl´emu jsou studentizovan´e odhady regresn´ıch koeficient˚ u, respektive odpov´ıdaj´ıc´ı pravdˇepodobnosti, oznaˇcovan´e jako P -values, (viz v´ yklad o v´ ystupech z poˇc´ıtaˇce), a koeficient determinace. Koeficient determinace je vˇsak rostouc´ı ˇci pˇrinejmenˇs´ım neklesaj´ıc´ı funkc´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych a tedy bez “zabudov´ an´ı” nˇejak´e penalizace, nelze pomoci nˇeho nal´ezt jak´ ysi “objektivnˇe” optim´aln´ı model. Nicm´enˇe intuitivnˇe c´ıt´ıme a v´ yˇse uveden´e v´ ysledky to 59
potvrzuj´ı, ˇze bychom nemˇeli “zatˇeˇzovat” model zbyteˇcn´ ymi a k vysvˇetlen´ı dat nepˇrisp´ıvaj´ıc´ımi vysvˇetluj´ıc´ımi veliˇcinami. Jin´ ymi slovy to znamen´a, ˇze jsme ochotni pˇripustit, ˇze bychom mˇeli b´ yt nˇejak´ ym zp˚ usobem penalizov´ani za to, pokud bychom zvolili zbyteˇcnˇe komplikovan´ y model. N´ıˇze si uk´aˇzeme, jak je zbyteˇcn´e pˇreurˇcen´ı modelu automaticky penalizov´ ano zvˇetˇsen´ım rozptylu odhadu regresn´ıch koeficient˚ u. Vzhledem k tomu, ˇze vˇsak nezn´ame doln´ı hranici rozptylu odhad˚ u regresn´ıch koeficient˚ u, tuto penalizaci vlastnˇe nem˚ uˇzeme br´at na vˇedom´ı. To implikuje z´avˇer, ˇze penalizace za zbyteˇcnˇe bohat´ y model mus´ı b´ yt explicitn´ı, tak aby mohla ovlivnit v´ ybˇer modelu. V monografi´ıch vˇenovan´ ych regresn´ı anal´ yze lze pˇrirozenˇe nal´ezt celou ˇsk´ alu n´apad˚ u, ˇcasto podloˇzen´ ych pˇr´ımoˇcarou heuristikou ˇci dokonce i “objektivizuj´ıc´ı” teori´ı, jak penalizovat neopodstatnˇenou komplikovanost modelu. Z tˇechto krit´eri´ı je patrnˇe nejzn´amˇejˇs´ı krit´erium Cp zaveden´e C. L. Mallowsem (Mallows (1973)). Statistika, kterou C. L. Mallows navrhl, m´a tvar Cp =
Y T (I − P ) Y + 2p − n, σ ˆ2
(61)
kde σ ˆ 2 je odhad rozptylu v “ˇsirˇs´ım” (ˇci “vˇetˇs´ım”, chcete-li) modelu. Obvykle tento model zahrnuje vˇsechny “rozumn´e” vysvˇetluj´ıc´ı promˇenn´e, ˇcasto zahrnuje dokonce vˇsechny dostupn´e vysvˇetluj´ıc´ı promˇenn´e. Jeho dimenzi oznaˇc´ıme proto pmax , zat´ımco dimenzi “aktu´aln´ıho” modelu jsme v (61) oznaˇcili p. Heuristika, kter´a stoj´ı v pozad´ı tohoto krit´eria, je snadno akceptovateln´a. Abychom to nahl´edli, pˇrep´ıˇsme kriterium (61) do tvaru Cp =
(n − p) · σ ˆp2 Y T (I − P ) Y n − p · + 2p − n = + 2p − n, n−p σ ˆ2 σ ˆ2
kde σ ˆp2 jsme oznaˇcili odhad rozptylu rezidu´ı v “aktu´aln´ım” modelu, tj. v modelu dimenze p. Je-li nyn´ı “aktu´aln´ı” model t´emˇeˇr tak dobr´ y jako ten s dimenz´ı pmax , tj. je-li σ ˆp2 ≈ σ ˆ 2 , pak Cp ≈ n − p + 2p − n = p. Jin´e kriterium, kter´e b´ yv´a ˇcasto pouˇz´ıv´ ano navrhl Akaike (Akaike (1974) a (1981)), a je zaloˇzeno na Kullback-Leiblerovˇe vzd´alenosti (Kullback (1959)). Zad´ano je n´asleduj´ıc´ım vztahem ³
AIC = ln
´
Y T I − X(X T X)−1 X T Y n
+
2p , n
kde p (a t´ım i X) je vybr´ano tak, aby AIC bylo minim´aln´ı. Snadno se nahl´edne z tˇechto dvou uveden´ ych pˇr´ıklad˚ u, ˇze se jedn´a vˇzdy o stejnou myˇslenku, totiˇz pouˇzit´ı souˇctu ˇctverc˚ u rezidu´ı plus uplatnˇen´ı nˇejak´e penalizace, kter´a je monoton´ı funkc´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych. Uprav´ıme-li takto koeficient determinace dostaneme dalˇs´ı popul´arnm krit´erium - upraven´ y koeficient determinace (adjusted R2 ), viz napˇr. Zv´ara (1989). Slovo upraven´y vˇsak bohuˇzel nevystihuje obsah anglick´eho slova “adjusted”, kter´e napov´ıd´ a, ˇze jde o charakteristiku, kter´a je adjustovan´ a, tj. pˇrizp˚ usoben´a, aretovan´ a k dan´emu modelu 6 . Jej´ı definice pak napov´ıd´a, ˇze je adjustovan´ a k poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych. Ve statistick´ ych 2 knihovn´ach b´ yv´a oznaˇcov´ana jako R -adjusted a je zad´ana vztahem 2 Radjusted = 1 − (1 − R2 )
S2 n − 1 n−1 = 1 − R2 · . n−p R0 n − p
6 Bylo by asi l´epe pouˇz´ıt oznaˇcen´ı adjustovan´ y koeficient determinace, ale to by urˇcitˇe nˇekteˇr´ı jazykov´ı experti nepˇrenesli pˇres srdce.
60
Snadno se nahl´edne, napˇr. z druh´eho vyj´adˇren´ı upraven´eho koeficientu determinace, ˇze je tento 2 tak dimenzi modelu p. Vzhledem nepˇr´ımo u ´mˇern´ y jak velikosti rezidu´aln´ıho souˇctu ˇctverc˚ u SR k tomu, ˇze se jej snaˇz´ıme maximalizovat, hledejme model s co nejmenˇs´ım rezidu´aln´ım souˇctem ˇctverc˚ u pˇri co nejmenˇs´ım poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych. Je evidentn´ı, ˇze pokud zaˇcneme s mal´ ym poˇctem vysvˇetluj´ıc´ıch promˇenn´ ych, pak pokles rezidu´aln´ıho souˇctu ˇctverc˚ u, pˇrid´ ame2 li dalˇs´ı regresor, m˚ uˇze b´ yt tak velk´ y, ˇze vliv tohoto poklesu na Radjusted pˇrev´ aˇz´ı nad vlivem 2 n´ar˚ ustu dimenze p a Radjusted bude vzr˚ ustat. Nepochybnˇe vˇsak po jist´em poˇctu krok˚ u, vliv n´ar˚ ustu dimenze modelu, pokud budeme m´ıt k dispozici dostateˇcn´ y poˇcet regresor˚ u, pˇrev´aˇz´ı 2 a R2 cne klesat. nad poklesem SR adjusted zaˇ Snad jiˇz na tomto m´ıstˇe stoj´ı za to zd˚ uraznit, ˇze v´ ybˇer vhodn´eho modelu nen´ı zdaleka jednoduch´a a pˇr´ımoˇcar´a z´aleˇzitost, nebot’ pro p-dimenzion´aln´ı data je pˇrirozenˇe 2p moˇznost´ı jak vybrat regresory do modelu. Nav´ıc je dobr´e trvale drˇzet na pamˇeti, ˇze podurˇcen´ı modelu vede vˇzdy k z´avaˇzn´ ym nedostatk˚ um (jak uk´aˇze jeden z n´asleduj´ıc´ıch odstavc˚ u), zat´ımco pˇreurˇcen´ı modelu v pˇr´ıpadˇe statick´eho regresn´ıho modelu, tj. modelu pro pr˚ uˇrezov´ a data, vede pouze k poklesu eficience odhad˚ u a jak d´ale naznaˇc´ıme, lze dokonce tento pokles eliminovat vhodnou transformac´ı regresor˚ u za cenu maliˇcko komplikovanˇejˇs´ı interpretace modelu). To napov´ıd´ a, ˇze 2 je lepˇs´ı se rozhodnout pro takov´ y soubor regresor˚ u, pro kter´ y sice Radjusted nedosahuje pˇresnˇe maxima, ale kter´ y t´emˇeˇr jistˇe zaruˇcuje to, ˇze jsme nevynechali ˇz´ adn´ y d˚ uleˇzit´ y regresor, tj. tento soubor vysvˇetluj´ıc´ıch promˇenn´ ych nevede k podurˇcen´ı modelu. Na druh´e stranˇe je vˇsak patrnˇe uˇziteˇcn´e si vˇzdy uvˇedokit, ˇze pˇreurˇcen´ı modelu pˇrece jenom zvyˇsuje rozptyl odhad˚ u regresn´ıch koeficient˚ u a to se m˚ uˇze projevit na pˇresnosti predikce, kter´a m˚ uˇze tento fakt, tj. to, ˇze odhady koeficient˚ u mohou b´ yt m´enˇe pˇresn´e, jeˇstˇe nepˇr´ıjemnˇe zes´ılit. Ostatnˇe to n´ıˇze uvid´ıme na pˇr´ıkladˇe o kombinov´an´ı pˇredpovˇed´ı ekonomick´eho r˚ ustu ve Spojen´em kr´alovstv´ı. Na z´avˇer tohoto odstavce zmiˇ nme jeˇstˇe to, ˇze nˇekter´e statistick´e knihovny nab´ızej´ı procedury na automatizovan´ y v´ ybˇer regresor˚ u, obvykle oznaˇcovan´ y jako “stepwise” s moˇznost´ı v´ ybˇeru toho, zda krokov´a procedura bude postupovat nahoru, tj. od ˇz´ adn´eho regresoru, ˇci dolu, tj. od vˇsech dostupn´ ych. Rovnou ˇreknˇeme, ˇze autorovy zkuˇsenosti s tˇemito postupy jsou m´ırnˇe ˇreˇceno rozporupln´e. Skoro nejhorˇs´ı na tˇechto postupech je to, ˇze nen´ı obvykle zcela jasnˇe ˇreˇceno, jak´a je filosofie za nimi, tj. dle jak´eho pravidla nakonec vyberou model. Abychom l´epe nahl´edli danou situaci, pˇredpokl´adejme napˇr., ˇze budeme postupovat ze zdola a kaˇzd´ y dalˇs´ı regresor bude “vˇclenˇen” do modelu, pokud bude m´ıt vhodnou velikost P -value a bude nejv´ıce, ze vˇsech jeˇstˇe “nezaˇrazen´ ych” regresor˚ u, zvˇetˇsovat koeficient determinace. Je okamˇzitˇe vidˇet, ˇze hodnota koeficientu determinace po dvou kroc´ıch m˚ uˇze b´ yt menˇs´ı neˇz maxim´aln´ı hodnota tohoto koeficientu pro model obsahuj´ıc´ı dva regresory. A to jsme nechali stranou to, ˇze vyb´ırat model jen dle koeficientu determinace je riskantn´ı. Nicm´enˇe nikdy nen´ı na ˇskodu vyzkouˇset vˇse, co n´am dan´ y package nab´ız´ı.
5 5.1
´ ˇ ˇ ´ VYSTUPY Z POCTA COV YCH KNIHOVEN Tabulky v´ ysledk˚ u
Regresn´ı anal´ yza je jednou z nejpouˇz´ıvanˇejˇs´ıch technik pro zpracov´ an´ı dat a proto ji lze nal´ezt patrnˇe ve vˇsech statistick´ y knihovn´ach program˚ u. Dnes jiˇz dokonce i vˇetˇsina tabulkov´ ych procesor˚ u (“spreadsheet˚ u”, jako je napˇr. EXCEL) umoˇzn ˇuje v´ ypoˇcet z´akladn´ıch v´ ysledk˚ u v regresi. V´ ysledky z´ıskan´e pomoc´ı subroutin nab´ızen´ ych v tabulkov´ ych procesorech je vˇsak nutn´e 61
povaˇzovat pouze za pˇredbˇeˇzn´e a orientaˇcn´ı, nebot’ tyto subroutiny obvykle nedovoluj´ı prov´est ani nejz´akladnˇejˇs´ı diagnostiku typu norm´aln´ı graf (“normal graph”) ˇci indexov´ y graf (“index plot”). Na druh´e stranˇe ani ˇrada komerˇcnˇe dod´avan´ ych knihoven nenab´ız´ı proveden´ı regresn´ı anal´ yzy dat v tom rozsahu, ve kter´em je ji nutn´e prov´est, m´ame-li m´ıt nadˇeji, ˇze z´avˇery, kter´e uˇcin´ıme nejsou zav´adˇej´ıc´ı. Neumoˇzn ˇuj´ı totiˇz napˇr. jednoduˇse prov´est testy normality ˇci heteroskedasticity a obvykle se omezuj´ı na grafick´e “podp˚ urn´e” prostˇredky, o kter´ ych si pov´ıme n´ıˇze. Na druh´e stranˇe, tyto knihovny ˇcasto nab´ızej´ı v jin´ ych parti´ıch neˇz je urˇcena k odhadu regresn´ıho modelu proceduryt, kter´e je moˇzn´e pouˇz´ıt k doplnˇen´ı diagnostiky v´ ysledk˚ u. Jedn´a se napˇr. o testy dobr´e shody, nalezen´ı vlastn´ıch ˇc´ısel matice atd. Jeˇstˇe se o tˇechto moˇznostech zm´ın´ıme tam, kde to bude na m´ıstˇe. Nyn´ı si kr´atce pov´ıme, kter´e nejz´akladnˇejˇs´ı u ´daje se obvykle objev´ı, ve formˇe nˇejak´e tabulky (jedn´e ˇci v´ıce) po aplikaci pˇr´ısluˇsn´e regresn´ı procedury na data a jak se tyto zinterpretuj´ı. Pomineme-li to, ˇze jsou obvykle nab´ızeny v´ ysledky popisn´e statistiky, tj. jako odhady stˇredn´ıch hodnot, rozptylu ˇci kovarianˇcn´ı matice dat, je vˇzdy poskytnuta informace o odhadech regresn´ıch koeficient˚ u, jejich vz´ajemn´ ych vztaz´ıch a z´akladn´ı u ´daje o spolehlivosti ˇci adekv´atnost modelu jako celku. Aˇckoliv se jedn´a o nejz´akladnˇejˇs´ı u ´daje o odhadnut´em modelu, i jejich interpretace m˚ uˇze skr´ yvat nebezpeˇc´ı myln´ ych z´avˇer˚ u. Upozorn´ıme na toto nebezpeˇc´ı v tˇech m´ıstech dalˇs´ıho textu, kter´a k tomu budou m´ıt nejbl´ıˇze (napˇr. o pouˇzit´ı kovarianˇcn´ı matice dat ve FarrarGlauberovˇe testu na kolinearitu (Farrar a Glauber (1967)), kter´ y bez verifikace - a to dosti pˇr´ısn´e - na normalitu m˚ uˇze d´at, a obvykle d´a, zav´ adˇej´ıc´ı v´ ysledky). Ve formˇe tabulek uvedeme nyn´ı pˇr´ıklad nejz´ akladnˇ ejˇ s´ıch v´ ysledk˚ u regresn´ı anal´ yzy pro data, kter´a byla uvedena v u ´vodu skript jako pˇr´ıklad 3, “Data o sportovn´ım klubu”. Nejz´akladnˇejˇs´ı u ´daje o v´ ysledc´ıch regresn´ı anal´ yzy mohou vypadat tedy n´asledovnˇe (a obvykle se liˇs´ı od n´ıˇze uveden´eho jen formou, nikoliv obsahem):
Tabulka 1 Odhad stˇredn´ıch hodnot a rozptyl˚ u Stˇredn´ı hodnota Rozptyl
V´ aha 367.5 84.5
Puls 166.5 34.1
S´ıla 64.0 8.9
Zˇcas 188.0 26.7
Cˇcas 70.0 10.3
Tabulka 2 Diagon´ aln´ı prvky projekˇcn´ı matice 1 0.24 16 0.23
2 0.12 17 0.24
3 0.09 18 0.22
4 0.07 19 0.04
5 0.09 20 0.11
6 0.11 21 0.11
7 0.08 22 0.12
8 0.22 23 0.51
62
9 0.14 24 0.14
10 0.12 25 0.07
11 0.21 26 0.08
12 0.09 27 0.16
13 0.29 28 0.38
14 0.16 29 0.16
15 0.07 30 0.19
Tabulka 3 Kovarianˇcn´ı matice dat (prav´ a horn´ı ˇc´ ast) a korelaˇcn´ı matice (lev´ a doln´ı ˇc´ ast, na diagon´ ale by byly jedniˇcky)
Cˇcas V´aha Puls S´ıla Zˇcas
Cˇcas 4824.55 0.798 0.501 0.445 0.848
V´aha 1963.94 1255.14 0.420 0.737 0.643
Puls 277.97 118.81 63.77 0.060 0.539
S´ıla 1081.80 913.94 16.88 1226.66 0.400
Zˇcas 594.07 229.78 43.40 141.33 101.71
Tabulka 4 V´ysledn´ a tabulka odhad˚ u regresn´ıch koeficient˚ u Variable
Estimate
Intercept V´aha Puls S´ıla Zˇcas
-3.61 1.26 -0.52 -0.50 3.90
Standard error 56.10 0.28 0.86 0.24 0.74
t-value
P -value
-0.06 4.41 -0.60 -2.05 5.21
0.949 0.000 0.548 0.050 0.000
Tabulka 5 Kovarianˇcn´ı matice odhad˚ u regresn´ıch koeficient˚ u Intercept V´aha Puls S´ıla Zˇcas
3147.50 6.62 -30.89 -7.73 -11.23
0.08 -0.08 -0.05 -0.07
0.74 0.08 -0.23
0.06 -0.00
0.55
Tabulka 6 Tabulka shrnuj´ıc´ı z´ akladn´ı u ´daje o kvalitˇe modelu Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 4 and 25 df ) P-value Median of absolute values of all residuals Interquantile of all residua (0.250) (i.e. 2 ∗ α of residuals have been cut away)
= = = = = = = =
20551.361 25 28.671 0.853 36.299 0.000 19.307 38.615
Vˇenujme se nyn´ı anal´ yze alespoˇ n nˇekter´ ych v´ yˇse uveden´ ych tabulek. O tom, o ˇcem vypov´ıdaj´ı odhady stˇredn´ıch hodnot, rozptyl˚ u, kovarianˇcn´ı a korelaˇcn´ı matice 63
nen´ı patrnˇe ˇcten´aˇre tˇechto skript nutn´e pouˇcovat. K nˇekter´ ym “subtilnˇejˇs´ım” ot´azk´ am spojen´ ym s tˇemito u ´daji se vr´at´ıme pozdˇeji. Proto se nebudeme Tabulkou 1 a 3 zab´ yvat. Upˇresnˇeme jen, ˇze k odhad˚ um stˇredn´ıch hodnot a rozptyl˚ u byl pouˇzit medi´an a medi´anov´ a absolutn´ı odchylka (median absolute deviation); protoˇze druh´ y z pouˇzit´ ych odhad˚ u nen´ı v obecn´em povˇedom´ı dovol´ıme si pˇripomenout, ˇze je definov´an vztahem µ
σ ˆM AD
= 1.483 · med
1≤i≤n
¶
|zi − med (zi )| 1≤i≤n
,
kde faktor “1.483” je pouˇzit proto, aby bylo dosaˇzeno nestrannosti v norm´aln´ım rozdˇelen´ı. Tabulka 2 obsahuje diagon´aln´ı prvky matice X(X T X)−1 X T , tj. “hat” matice. Co tyto prvky ud´avaj´ı, se snadno nahl´edne z n´ıˇze uveden´e rovnosti, viz (62). Pokud je v modelu absolutn´ı ˇclen, tj. je-li prv´ y sloupec matice X tvoˇren jedniˇckami, je prv´ y sloupec (a tedy tak´e ˇr´ adek) matice T −1 (X X) roven vektoru n¯ x, kde x ¯ = (1, Snadno se ovˇeˇr´ı, ˇze
n n n 1X 1X 1X xi2 , xi3 , . . . , xip )T . n i=1 n i=1 n i=1
n¯ x(X T X)−1 = (1, 0, 0, . . . , 0),
nebot’ X T X(X T X)−1 = In , kde In oznaˇcuje opˇet jednotkovou matici typu n × n. To ovˇsem znamen´a, ˇze 1 (62) (xi − x ¯)T (X T X)−1 (xi − x ¯) = xTi (X T X)−1 xi − . n Pˇripomeˇ nme si, ˇze k u ´spˇeˇsn´e verifikaci (62), je tˇreba m´ıt na pamˇeti, ˇze vektor xi m´a prvou souˇradnici rovnou jedniˇcce. To indikuje, ˇze diagon´aln´ı prvky ud´avaj´ı vzd´alenost, v metrice dan´e tensorem (X T X)−1 , od x ¯, tj. vzd´alenost jednotliv´ ych pozorov´ an´ı od “tˇeˇziˇstˇe oblaku dat”. Znovu podotknˇeme, ˇze vzd´alenost je mˇeˇrena nikoliv v euklidovsk´e metrice, ale v riemanovsk´e, tj. oproti euklidovsk´e, ve kter´e je pˇr´ısluˇsn´ ym tensorem jednotkov´ a matice I, je zde pouˇzita metrika “adaptovan´a” k dat˚ um. ˇ Casto se uv´adˇej´ı pˇribliˇzn´a pravidla, ud´avaj´ıc´ı jak´a jeˇstˇe m˚ uˇze b´ yt hodnota i-t´eho diagon´aln´ıho prvku projekˇcn´ı matice, aniˇz bychom povaˇzovali i-t´e pozorov´ an´ı za odlehl´e (leverage point) a t´ım vlivn´e. V monografii Chatterjee, Hadi (1988) je napˇr. uvedena n´asleduj´ıc´ı tabulka ud´avaj´ıc´ı aproximace 95% kvantil˚ u pro diagon´aln´ı prvky projekˇcn´ı matice za pˇredpokladu, ˇze ˇr´ adky matice pl´anu (tj. matice X) byly generov´any standardn´ım norm´aln´ım rozdˇelen´ım (pˇredpokl´ad´ a se, ˇze n − p > 30). Tabulka 7 Pˇribliˇzn´e 95% kvantily pro diagon´ aln´ı prvky projekˇcn´ı matice Je-li p vˇetˇs´ı neˇz
Aproximace kvantilu
2
2.5p n 2.0p n 1.5p n
6 12
64
Obecnˇe lze vˇsak ˇr´ıci, ˇze hodnoty ud´avan´e touto aproximac´ı pˇreceˇ nuj´ı skuteˇcn´e hodnoty kvantil˚ cl´anku´Belsley, Kuh a Welsch (1980) je totiˇz uk´az´ ano, ˇze pokud jsou ˇr´ adky matice ³ u. V ˇ −1 T ˜ = I − n 11 X nez´avisl´e a rozdˇelen´e dle p-rozmˇern´eho norm´aln´ıho rozdˇelen´ı, je X Ã
n − p hii − n−1 L p − 1 1 − hii
!
≈ Fp−1,n−p ,
kde hii = xTi (X T X)−1 xi . I pˇri pˇredpokladu, ˇze ˇr´ adky matice X jsou nez´avisl´e p-rozmˇern´e norm´alnˇe rozdˇelen´e n´ahodn´e veliˇciny, ˇr´ adky matice x ˜ nejsou nikdy zcela nez´avisl´e. Nicm´enˇe pro rostouc´ı poˇcet pozorov´an´ı z´avislost mezi nimi kles´a. M˚ uˇzeme tedy povaˇzovat tento v´ ysledek za aplikovateln´ y. Odtud snadno dostaneme a hkritick´ (α) ii
=
Fp−1,n−k + n−p p−1
n−p (p−1)·n
+ Fp−1,n−p
.
(63)
N´asleduj´ıc´ı tabulky ukazuj´ı srovn´an´ı aproximac´ı. Tabulka 8 Srovn´ an´ı aproximace kvantil˚ u dan´e vztahem (63) a Tabulkou 7. (Prv´ a aproximace - dle Tabulky 7 - je oznaˇcena jako A1, druh´ a - dle (63) - jako A2). Dimenze modelu p = 3
Dimenze modelu p = 6
Poˇcet pozorov´an´ı
A1
A2
Poˇcet pozorov´ an´ı
A1
A2
40 60 80 100 150
0.1547 0.1034 0.0776 0.0621 0.0414
0.1875 0.1250 0.0938 0.0750 0.0500
40 60 80 100 150
0.2743 0.1865 0.1410 0.1133 0.0760
0.3750 0.2500 0.1875 0.1500 0.1000
Dimenze modelu p = 7
Dimenze modelu p = 10
Poˇcet pozorov´an´ı
A1
A2
Poˇcet pozorov´ an´ı
A1
A2
70 100 130 160 190
0.1814 0.1282 0.0991 0.0808 0.0681
0.2000 0.1400 0.1077 0.0875 0.0737
100 130 160 200 240
0.1699 0.1317 0.1075 0.0863 0.0721
0.2000 0.1538 0.1250 0.1000 0.0833
Dimenze modelu p = 14
Dimenze modelu p = 16
Poˇcet pozorov´an´ı
A1
A2
Poˇcet pozorov´ an´ı
A1
A2
140 180 220 280 340
0.1599 0.1252 0.1029 0.0811 0.0670
0.2000 0.1556 0.1273 0.1000 0.0824
160 200 250 300 400
0.1563 0.1258 0.1010 0.0844 0.0635
0.1500 0.1200 0.0960 0.0800 0.0600
65
Dimenze modelu p = 20
Dimenze modelu p = 24
Poˇcet pozorov´an´ı
A1
A2
Poˇcet pozorov´ an´ı
A1
A2
200 250 300 400 500
0.1506 0.1211 0.1013 0.0763 0.0611
0.1500 0.1200 0.1000 0.0750 0.0600
250 300 400 500 600
0.1405 0.1176 0.0886 0.0711 0.0593
0.1440 0.1200 0.0900 0.0720 0.0600
Z Tabulky 8 je vidˇet, ˇze jednoduch´ a aproximace udan´a v Tabulce 7 opravdu pˇreceˇ nuje kvantily diagon´aln´ıch prvk˚ u aˇz na pˇr´ıpady, kdy dimenze modelu je mezi 16 a 24. Protoˇze zejm´ena pro mal´e dimenze modelu a mal´ y poˇcet pozorov´ an´ı jsou hodnoty aproximac´ı dosti odliˇsn´e a protoˇze se lze domn´ıvat, ˇze vztah (63) je bl´ıˇze skuteˇcn´e hodnotˇe, je patrnˇe l´epe pouˇz´ıt pˇr´ımo tento vztah. Nyn´ı vysvˇetl´ıme obsah Tabulek 4, 5 a 6. Prv´a z nich kromˇe jmen vysvˇetluj´ıc´ıch promˇenn´ ych, tak jak je zvol´ıme na zaˇc´atku zpracov´ an´ı dat, shrnuje (ve druh´em sloupci) odhady regresn´ıch (LS,n) ˆ koeficient˚ u, tj. βi , i = 1, 2, . . . , p, a ve tˇret´ım odhady rozptyl˚ u nebo smˇerodatn´ ych od2 T −1 chylek tˇechto odhad˚ u, tj. bud’ diagon´aln´ı prvky matice s (X X) nebo, a to daleko ˇcastˇeji, jejich druh´e odmocniny. Je tˇreba se pod´ıvat do manu´ alu, dodan´eho ke statistick´e knihovnˇe, kterou pr´avˇe pouˇz´ıv´ame. V naˇsem pˇr´ıpadˇe jsou ve tˇret´ım sloupci smˇerodatn´e odchylky odhad˚ u. V pˇredposledn´ım sloupci jsou ud´any studentizovan´e odhady regresn´ıch koeficient˚ u, tj. hodnoty uveden´e ve druh´em sloupci jsou vydˇeleny smˇerodatn´ ymi odchylkami odhad˚ u koeficient˚ u, a koneˇcnˇe pak v posledn´ım sloupci jsou shrom´aˇzdˇeny pravdˇepodobnosti toho, ˇze n´ahodn´a veliˇcina, kter´a m´a Studentovo rozdˇelen´ı o n − p stupn´ıch volnosti pˇrekroˇc´ı hodnotu studentizovan´eho odhadu pˇr´ısluˇsn´eho koeficientu, tj. hodnotu uvedenou ve ˇctvrt´em sloupci. Jedn´a se tedy o pravdˇepodobnost µ ¶ 1 −1 − 2 ˆ(LS,n) P t(n−p) (ω) > s c β , ii
1
i
− (LS,n) kde s−1 cii 2 βˆi je pˇr´ısluˇsn´e ˇc´ıslo uveden´e v pˇredposledn´ım sloupci Tabulky 4 a i = 1, 2, . . . , p. Z Vˇety 2 v´ıme, ˇze pˇri nulov´e hypot´eze, tj. hypot´eze, ˇze pˇr´ısluˇsn´ y regresn´ı koeficient je nulov´ y, je studentizovan´ y odhad tohoto koeficientu rozdˇelen dle Studentova t o n − p stupn´ıch volnosti. To znamen´a, ˇze by nemˇela v´ yˇse uveden´a pravdˇepodobnost, pokud hypot´eza plat´ı, b´ yt pˇr´ıliˇs mal´a. Koneˇcnˇe tedy, pokud je v posledn´ım sloupci “dostateˇcnˇe” mal´e ˇc´ıslo, zam´ıtneme hypot´ezu, ˇze pˇr´ısluˇsn´ y koeficient v modelu je nulov´ y. Z uveden´eho plyne, ˇze pr´avˇe pouˇzit´e slovo “dostateˇcnˇe” se vztahuje k hladinˇe v´ yznamnosti, na kter´e se rozhodneme zm´ınˇenou hypot´ezu testovat. Pokud napˇr. zvol´ıme hladinu v´ yznamnosti rovnou 5%, pak zam´ıtneme hypot´ezu o nulovosti koeficientu v pˇr´ıpadˇe, ˇze tato pravdˇepodobnost (tj. ˇc´ıslo v posledn´ım sloupci) je menˇs´ı neˇz 0.05. Obˇcas se setk´ame s t´ım, ˇze pr´avˇe uveden´ a tabulka obsahuje jeˇstˇe dalˇs´ı informaci Nˇekter´e statistick´e knihovny (napˇr. STATISTICA) vypisuj´ı totiˇz jeˇstˇe dva dalˇs´ı sloupce, a to vsunut´e hned za sloupec jmen vysvˇetluj´ıc´ıch promˇenn´ ych. V nich je uvedena informace podobn´a informaci uveden´e v druh´em a tˇret´ım sloupci v´ yˇse popisovan´e tabulky. Jedn´a se o odhady regresn´ıch koeficient˚ u a odhady jejich rozptyl˚ u, ale nikoliv pro origin´aln´ı (tj. p˚ uvodn´ı) data, ale pro normalizovan´a data, kter´a maj´ı vˇsechny promˇenn´e transformov´ any tak, ˇze maj´ı nulov´ y pr˚ umˇer a
66
jednotkov´ y v´ ybˇerov´ y rozptyl. Pro takto normalizovan´ a data je potom uveden odhad modelu bez absolutn´ıho ˇclenu. Mˇejme model (4), tj. p X
Yi =
xij βj0 + Ei .
(64)
j=1
Vysˇc´ıt´an´ım pˇres i, tj. vˇsech ˇr´adk˚ u matice X, a n´asledn´ ym vydˇelen´ım ˇc´ıslem n, dostaneme p X
Y¯ =
¯ x ¯j βj0 + E,
(65)
j=1
¯ jsou pr˚ kde Y¯ , x ¯j a E umˇery vysvˇetlovan´e a vysvˇetluj´ıc´ıch veliˇcin a pr˚ umˇer n´ahodn´ ych fluktuac´ı. Nyn´ı odeˇcteme (65) od (64) a dostaneme Yi − Y¯ =
p X
¯ (xij − x ¯j )βj0 + Ei − E.
j=1
a koneˇcnˇe vydˇelen´ım v´ ybˇerov´ ymi rozptyly7 dostaneme p ¯ X xij − x ¯j βj0 sj Ei − E Yi − Y¯ = + . sY sj sY sY j=1
Pˇripomeˇ nme si, ˇze uvaˇzujeme model s deterministick´ ymi nosiˇci a ˇze tedy rozptyl vysvˇetlovan´e promˇenn´e je shodn´ y s rozptylem n´ahodn´ ych fluktuac´ı. Posledn´ı rovnost lze pˇrepsat do tvaru Y˜i =
p X
˜i , x ˜ij β˜j0 + E
i = 1, 2, . . . , n.
j=1
Nyn´ı se snadno nahl´edne, proˇc je uveden pr´avˇe model bez absolutn´ıho ˇclenu. Pokud je totiˇz xi1 = 1 pro i = 1, 2, ..., n, je xi1 − x ¯1 = 0. Z posledn´ıho vztahu je patrn´e, proˇc je tato informace uv´adˇena. V regresn´ım modelu (4) ovlivˇ nuj´ı jednotliv´e vysvˇetluj´ıc´ı promˇenn´e hodnotu vysvˇetlovan´e promˇenn´e nejen skrze velikost pˇr´ısluˇsn´eho regresn´ıho koeficientu, ale tak´e t´ım jakou maj´ı absolutn´ı velikost. Nˇekdy je vˇsak uˇziteˇcn´e m´ıt pˇredstavu o tom, jak moc by ta ˇci ona vysvˇetluj´ıc´ı veliˇcina ovlivnila vysvˇetlovanou veliˇcinu, kdyby vˇsechny byly stejnˇe “variabiln´ı”, tj. kdyby mˇely stejn´ y rozptyl. Proto normalizace na jednotkov´ y rozptyl. Normalizace na nulov´ y pr˚ umˇer nen´ı podstatn´a v pr´avˇe popsan´em smyslu vlivu absolutn´ı velikosti vysvˇetluj´ıc´ıch veliˇcin na vysvˇetlovanou veliˇcinu ˇci alespoˇ n nikoliv pˇr´ımo, ale m˚ uˇze hr´at tak´e podstatnou (zkresluj´ıc´ı) roli. Z pˇr´ıkladu o jasu hvˇezd, kter´ y byl uveden na zaˇc´atku skript, je vidˇet, ˇze pr´avˇe proveden´ a studentizace bude m´ıt zav´ adˇej´ıc´ı v´ ysledky, nebot’ d´ıky ˇctyˇrem odlehl´ ym pozorov´an´ım, budou pr˚ umˇery jednotliv´ ych souˇradnic napozorovan´ ych dat leˇzet t´emˇeˇr mimo “hlavn´ı” oblak dat, na rozd´ıl od medi´an˚ u, kter´e by posunuly pozorov´ an´ı tak, ˇze by poˇc´atek souˇradn´eho syst´emu leˇzel uprostˇred “hlavn´ıho” oblaku dat. Jestliˇze vˇsak posuneme data tak, ˇze poˇc´atek souˇradn´e soustavy bude mimo hlavn´ı “oblak” dat a pak “vnut´ıme” dat˚ um model bez absolutn´ıho ˇclenu, bude tento model vypadat tak jakoby poˇc´ atek byl jeden bod a 7
Samozˇrejmˇe pokud uvaˇzujeme model s pevn´ ymi nosiˇci, je toto trochu n´ asiln´e. Na druh´e stranˇe, m˚ uˇzeme to povaˇzovat za jakousi transformaci nosiˇc˚ u, kter´ a je znormuje na stejnou “velikost”.
67
data druh´ y bod urˇcuj´ıc´ı regresn´ı pˇr´ımku. V pˇr´ıpadˇe v´ıcerozmˇern´ ych dat bude situace ponˇekud sloˇzitˇejˇs´ı, ale neadekv´atnost modelu bude stejnˇe zˇrejm´ a. Vid´ıme tedy, ˇze je podstatn´e, co zvol´ıme za “tˇeˇziˇstˇe” dat, zda napˇr. pr˚ umˇery vˇsech veliˇcin, jak je tomu v knihovnˇe STATISTICA, ˇci medi´any, ˇci u ´plnˇe nˇeco jin´eho. Pˇrirozenˇe pokud budou data “dostateˇcnˇe homogenn´ı” nebude volba napˇr. mezi pr˚ umˇery a medi´any moc ovlivˇ novat koneˇcn´ y v´ ysledek. V pˇr´ıpadˇe, kdy data vˇsak budou “nezanedbatelnˇe zneˇciˇstˇena” (kontaminov´ ana) nˇejak´ ymi chybami v z´apise ˇci pozorov´an´ımi, kter´a do nich fakticky nepatˇr´ı, ˇci nˇeˇc´ım jin´ ym, m˚ uˇze b´ yt v´ ysledek velmi podivn´ y. Modern´ı statistika, kter´a se, alespoˇ n v rozumn´e m´ıˇre snaˇz´ı zabezpeˇcit proti kontaminaci dat, proto doporuˇcuje interpretovat tuto informaci v kontextu s celou ˇsk´ alou dalˇs´ıch, zejm´ena diagnostick´ ych informac´ı. Tabulka 5 uv´ad´ı odhad kovarianˇcn´ı matice odhad˚ u, tj. s2 (X T X)−1 . Jedn´a, aˇz na faktor s2 , o inverzn´ı matici k X T X, kter´a je, opˇet aˇz na faktor n−1 , odhadem kovarianˇcn´ı matice dat, samozˇrejmˇe bez vysvˇetlovan´e promˇenn´e. Proto tato tabulka nepˇrin´ aˇs´ı mnoho nov´e informace a nem´a pro interpretaci v´ ysledk˚ u regresn´ı anal´ yzy z´asadn´ı v´ yznam. Posledn´ı tabulka pak shrnuje celkovou informaci o adekv´atnosti modelu. Znovu vˇsak zd˚ uraznˇeme, ˇze se jedn´a pouze o prvn´ı a orientaˇcn´ı informaci. Nen´ı totiˇz obt´ıˇzn´e naj´ıt soubory dat, pro kter´e tyto charakteristiky byly “v´ yborn´e”, ale model byl odhadnut zcela ˇspatnˇe (spr´avn´ y model jsme ’ bud znali, protoˇze data byla simulov´ana, nebo jsme jinou metodou odhadli model, kter´ y, po vylouˇcen´ı mal´eho poˇctu bod˚ u - jednoho ˇci dvou, vykazoval ˇr´ adovˇe menˇs´ı souˇcet ˇctverc˚ u rezidu´ı, nikoliv vˇsak nutnˇe vyˇsˇs´ı koeficient determinace). K tomu abychom dospˇeli k pˇresvˇedˇcen´ı, ˇze odhadnut´ y model je adekv´atn´ı, je nutn´e prov´est alespoˇ n nˇekolik dalˇs´ıch diagnostick´ ych vyˇsetˇren´ı. O tˇech si budeme pov´ıdat v nˇekter´e z dalˇs´ıch kapitol. P˚ ujde pˇrev´ aˇznˇe o aposteriorn´ı diagnostiku. V Tabulce 6 je ud´an, kromˇe jin´eho, tak´e odhad parametru mˇeˇr´ıtka, ˇci chcete-li odhad ˇ eji vˇsak b´ smˇerodatn´e odchylky (scale estimate). Castˇ yv´ a ud´av´ an odhad rozptylu rezidu´ı (variance estimate), nˇekdy b´ yv´a uvedeno oboj´ı. To, co je ve v´ ypise ud´ano, lze zjistit obvykle v manu´alu. Nˇekdy se vˇsak ani pˇri peˇcliv´em ˇcten´ı manu´ alu prostˇe ned´a zjistit, ˇci sp´ıˇse ned´a dospˇet k naprost´e jistotˇe, co dan´a knihovna vlastnˇe nab´ız´ı a pak je to prostˇe tˇreba zkusit na datech, u kter´ ych, d´ıky tomu, ˇze jsme je nejprve zpracovali pomoci softwaru, kter´ y zn´ame, v´ıme, co m´a vyj´ıt. Pr´avˇe popsan´e situace vznikaj´ı t´ım, ˇze “softwar´ aˇri”, kteˇr´ı knihovny pˇripravuj´ı a p´ıˇs´ı k nim manu´aly, obvykle pouˇz´ıvaj´ı n´azvoslov´ı, kter´e nen´ı (zcela) totoˇzn´e s n´azvoslov´ım pouˇz´ıvan´ ym v bˇeˇzn´ ych statistick´ ych monografi´ıch. Dˇr´ıve neˇz pokroˇc´ıme d´ale, zastavme se jeˇstˇe u jedn´e poloˇzky Tabulky 6. I v t´eto tabulce, podobnˇe jako v tabulce s odhady regresn´ıch koeficient˚ u, je uvedena P -value. Tato P -value ud´av´ a pravdˇepodobnost, ˇze n´ahodn´a veliˇcina rozdˇelen´ a jako Fisher-Snedecorovo F s p − 1 (pˇr´ıpadnˇe p) a n − p stupni volnosti pˇrekroˇc´ı hodnotu F uvedenou na p´at´em ˇr´ adku Tabulky 6, pˇriˇcemˇz je tato pravdˇepodobnost vyˇc´ıslena pˇri platnosti hypot´ezy, ˇze IE Y = γ · 1, je-li v modelu absolutn´ı ˇclen, ˇci IE Y = 0, je-li model bez absolutn´ıho ˇclenu (viz Lemma 8). To znamen´a, ˇze pokud hodnota na ˇsest´em ˇr´adku Tabulky 6 je menˇs´ı neˇz zvolen´ a hladina v´ yznamnosti, zam´ıtneme hypot´ezu, ˇze vysvˇetlovan´a promˇenn´a je nez´avisl´a na vysvˇetluj´ıc´ıch faktorech a akceptujeme odhadnut´ y model. Uvˇedomme si vˇsak, ˇze to nen´ı potvrzen´ı platnosti modelu, nebot’ se jedn´a o statistick´ y test a tedy jeho v´ yrok ˇr´ık´a, ˇze je patrnˇe vhodn´e zam´ıtnout hypot´ezu, ˇze je vysvˇetlovan´ a veliˇcina nez´avisl´a na vysvˇetluj´ıc´ıch. Snadno si ale um´ıme pˇredstavit, ˇze model˚ u popisuj´ıc´ıch z´avislost mezi tˇemito (n´ahodn´ ymi) veliˇcinami m˚ uˇze b´ yt nespoˇcet. 68
Vˇetˇsina statistick´ ych poˇc´ıtaˇcov´ ych knihoven, ne-li vˇsechny, nab´ız´ı vyˇc´ıslen´ı dalˇs´ıch charakteristik “vhodnosti” modelu ˇci test˚ u toho, zda pˇredpoklady, za kter´ ych jsme v´ yˇse v tomto textu (LS,n) ˆ odvozovali optimalitu odhadu β , jsou (alespoˇ n pˇribliˇznˇe) splnˇeny. Jedn´ım z nejzn´amˇejˇs´ıch test˚ u je nepochybnˇe Durbin-Watsonova statistika, testuj´ıc´ı nez´avislost n´ahodn´ ych fluktuac´ı mezi ˇ sebou. Casto jsou vˇsak k dispozici i r˚ uzn´e typy statistik dobr´e shody (byt’ je uˇzivatel mus´ı hledat v jin´ ych odd´ılech neˇz v regresi), r˚ uzn´e typy diagnostick´ ych graf˚ u atd. Vˇsechny tyto moˇznosti budeme diskutovat pozdˇeji. Nyn´ı se vˇsak jeˇstˇe na moment zastavme u probl´emu, kter´ y m´a mnoho spoleˇcn´eho s pr´avˇe popisovan´ ymi tabulkami. Nˇekdy se totiˇz stane, ˇze v´ ysledky v Tabulce 4 indikuj´ı, ˇze je do modelu zahrnuto nˇekolik vysvˇetluj´ıc´ıch promˇenn´ ych, kter´e nejsou signifikantn´ı pro vysvˇetlen´ı vysvˇetlovan´e veliˇciny. Jejich P -hodnoty jsou totiˇz (znaˇcnˇe) velk´e. Vypust´ıme-li vˇsak tyto promˇenn´e a pˇrepoˇc´ıt´ame-li model, klesne pov´aˇzlivˇe koeficient determinace. Takov´ y model n´as pˇrirozenˇe neuspokoj´ı a my se rozhodneme nˇekterou vylouˇcenou promˇennou do modelu vr´atit. S podivem zjist´ıme, ˇze nyn´ı m´a tato promˇenn´ a P -hodnotu velmi malou, coˇz signalizuje, ˇze v modelu patrnˇe hraje signifikantn´ı roli. Vysvˇetlen´ı je samozˇrejmˇe prost´e. Ve verzi modelu, se kterou jsme zaˇcali naˇsi anal´ yzu, bylo nˇekolik promˇenn´ ych, kter´e byly v´ıce ˇci m´enˇe, nicm´enˇe dostateˇcnˇe line´arnˇe z´avisl´e, tak aby se “pˇretahovaly ve snaze vysvˇetlit” Y . Jednou z nejˇcastˇeji se objevuj´ıc´ıch situac´ı, kdy tento “jev” nast´av´a, je situace, kdy variabilita nˇekter´e vysvˇetluj´ıc´ı promˇenn´e mal´a ve srovn´an´ı s variabilitou vysvˇetlovan´e promˇenn´e. Potom tato vysvˇetluj´ıc´ı promˇenn´ a “soupeˇr´ı o vliv” s absolutn´ım ˇclenem. Probl´em b´ yv´ a oznaˇcov´ an v regresn´ı anal´ yze jako probl´em kolinearity (ˇci multikolinearity) a budeme jej studovat pozdˇeji. Ted’ si vˇsak dovolme si jeˇstˇe jednu, v podstatˇe technickou pozn´amku. Nˇekdy se stane, ˇze pˇri regresn´ı anal´ yze proveden´e pomoc´ı nˇekter´e statistick´e poˇc´ıtaˇcov´e knihovny naraz´ıme na “z´ahadu”, kter´a je evidentnˇe podivn´a uˇz na prvn´ı pohled, ale jen na ten, jak ihned uvid´ıme. Stane se totiˇz, ˇze v´ ysledky Tabulky 4 napov´ıdaj´ı, ˇze absolutn´ı ˇclen je v modelu nev´ yznamn´ y. Po zmenˇsen´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych o absolutn´ı ˇclen dojde nutnˇe ke zv´ yˇsen´ı hodnoty rezidu´aln´ıho souˇctu ˇctverc˚ u a tedy intuitivnˇe c´ıt´ıme, ˇze i ke zhorˇsen´ı determinace modelu. Pˇresto vˇsak se hodnota koeficientu determinace zv´ yˇs´ı. Jak je to moˇzn´e? ’ Odpovˇed je skryta v Definici 1. V prv´em pˇr´ıpadˇe totiˇz poˇc´ıtaˇc vyˇc´ıslil koeficient determinace v˚ uˇci nulov´e hypot´eze IE Y = γ · 1, v druh´em pˇr´ıpadˇe tak uˇcinil v˚ uˇci hypot´eze IE Y = 0. To Pn 2 ovˇsem implikuje, ˇze za R0 bylo v prv´em pˇr´ıpadˇe vzata suma i=1 (Yi − Y¯ )2 , v druh´em pˇr´ıpadˇe P to byla suma ni=1 Yi2 , kter´a je vˇzdy, a nˇekdy m˚ uˇze b´ yt dokonce podstatnˇe, vˇetˇs´ı neˇz ta prvn´ı. Vliv tohoto faktu na hodnotu koeficientu determinace je nyn´ı jiˇz snadno nahl´ednuteln´ y. Ne ve vˇsech uˇcebnic´ıch regerse se zd˚ urazˇ nuje fakt, ˇze je patrnˇe vhodnˇejˇs´ı poˇc´ıtat vˇzdy, pokud proti tomu nejsou opravdu z´avaˇzn´e d˚ uvody, model s absolutn´ım ˇclenem a to i v pˇr´ıpadˇe, ˇze se dle studentizovan´ ych statistik jev´ı jako nev´ yznamn´ y. Toto doporuˇcen´ı vych´ az´ı z faktu, ˇze absolutn´ı ˇclen hraje trochu jinou u ´lohu v modelu neˇz ostatn´ı regresn´ı koeficienty, kter´e ud´avaj´ı sklon regresn´ı nadroviny. Pokusme se to bl´ıˇze vysvˇetlit. Pˇredpokl´adejme, ˇze naˇse data jsou um´ıstˇena daleko od poˇc´ atku. Uvˇedom´ıme-li si, ˇze absolutn´ı ˇclen je souˇradnic´ı bodu, ve kter´em regresn´ı nadrovina prot´ın´ a y-novou osu, tj. osu na kterou nan´aˇs´ıme hodnoty vysvˇetlovan´e promˇenn´e, snadno nahl´edneme, ˇze mal´a zmˇena ve sklonu regresn´ı nadroviny zp˚ usob´ı velkou zmˇenu absolutn´ıho ˇclenu. Na druh´e stranˇe mal´a zmˇena ve sklonu regresn´ı nadroviny zp˚ usob´ı jen malou zmˇenu v predikc´ıch uˇcinˇen´ ych v oblasti dat nebo 69
v jejich bl´ızk´em okol´ı. Zde je tˇreba m´ıt na pamˇeti to, ˇze smyslpln´e predikce lze prov´ adˇet pouze v t´e oblasti faktorov´eho prostoru, kterou pokr´ yvala “tr´enovac´ı” data, tj. data, ze kter´ ych jsme odhadovali model. Odtud je vidˇet, ˇze vˇsechny u ´vahy o signifikantnosti absolutn´ıho ˇclenu jsou podm´ınˇen´e polohou dat ve faktorov´em prostoru. Na druh´e stranˇe, obvykle chceme, aby naˇse z´avˇery byly v jist´em smyslu invariantn´ı. Napˇr. pokud jen posuneme data ve faktorov´em prostoru a neprovedeme nˇejak´e jejich otoˇcen´ı, patrnˇe opodstatnˇenˇe oˇcek´ av´ ame, ˇze predikce proveden´e pomoc´ı model˚ u na p˚ uvodn´ıch a posunut´ ych datech se budou liˇsit pr´avˇe je t´ım posunut´ım. To vˇsak v´ıce m´enˇe vyˇzaduje, aby zaˇclenˇen´ı absolutn´ıho ˇclenu do modelu bylo nez´avisl´e na posunut´ı dat. To implikuje, ˇze u ´vahy o signifikantnosti absolutn´ıho ˇclenu maj´ı tedy smysl pouze tehdy, pokud je tato poloha v jak´emsi smyslu “absolutn´ı”. Pak ovˇsem zase naopak ztr´acej´ı smysl u ´vahy o invarianci odhadu a to m˚ uˇze m´ıt dalekos´ ahl´e d˚ usledky pro volbu odhadu, tj. m˚ uˇzeme pak d´at pˇrednost jin´emu odhadu neˇz je odhad metodou nejmenˇs´ıch ˇctverc˚ u. Dˇr´ıve neˇz uzavˇreme tento odstavec, dovol´ıme se dotknout jednoho probl´emu, kter´ y svou sv˚ udnost´ı pˇripom´ın´a Skyllu (ˇci Charibdu). Jednoduˇse a snad i v´ ystiˇznˇe by se tento probl´em dal oznaˇcit jako un´ ahlen´e z´ avˇery vyvozen´e ze znam´enka odhad˚ u regresn´ıch koeficient˚ u. Aˇckoliv po kr´atk´e diskuzi snadno nahl´edneme, jak zav´ adˇej´ıc´ı mohou b´ yt u ´vahy opˇren´e o znam´enko odhadu pˇr´ısluˇsn´eho regresn´ıho koeficientu, st´ale se jeˇstˇe objevuj´ı a to i v jinak docela serizn´ıch ˇcl´ anc´ıch. O co se jedn´a? Probl´em je patrnˇe, kromˇe jin´eho, v tom, ˇze v ˇradˇe uˇcebn´ıch text˚ u o regresn´ı anal´ yze nen´ı bud’ v˚ ubec, ˇci je jen velmi povrchnˇe diskutov´ ana ot´azka, jak interpretovat v´ ysledky regresn´ı anal´ yzy. Toto opomenut´ı pak zp˚ usob´ı, ˇze se m˚ uˇzeme setkat s v´ yroky typu: “Znam´enka odhad˚ u regresn´ıch koeficient˚ u vyˇsla v souladu s naˇsimi pˇredstavami o kauz´ aln´ıch souvislostech, nebot’ n´ ar˚ ust hladiny δ-terfendinu (jedna z vysvˇetluj´ıc´ıch promˇenn´ych) by mˇel negativnˇe ovlivˇ novat adrenergn´ı stimulaci (vysvˇetlovan´ a promˇenn´ a) pacienta”. Pˇri takov´eto interpretaci v´ ysledk˚ u regresn´ı anal´ yzy je vˇsak zcela opominut fakt, ˇze uvolˇ nov´ an´ı δ-terfendinu je spojeno s u ´bytkem κ-histaminu a η-proteinu (jin´e dvˇe vysvˇetluj´ıc´ı promˇenn´e), v ˇreˇci statistiky, jedna z vysvˇetluj´ıc´ıch promˇenn´ ych je t´emˇeˇr nepˇr´ımo u ´mˇern´a dalˇs´ım dvˇema. Tud´ıˇz n´ar˚ ust hladiny δ-terfendinu vyvol´ a, aˇz na statistick´e odchylky, pokles κ-histaminu a η-proteinu a celkov´ y dopad na adrenergn´ı stimulaci m˚ uˇze b´ yt pozitivn´ı, tj. zcela jin´ y neˇz napov´ıdaj´ı jednotliv´a znam´enka (ˇci velikosti) odhad˚ u regresn´ıch koeficient˚ u. Jin´ ymi slovy, pˇri interpretaci v´ ysledk˚ u regresn´ı anal´ yzy je tˇreba posuzovat model komplexnˇe, tj. je nutn´e vz´ıt v u ´vahu rovnˇeˇz vz´ajemnou z´avislost (a jej´ı m´ıru, ˇci stupeˇ n, chcete-li) mezi vysvˇetluj´ıc´ımi promˇenn´ ymi, a to bohuˇzel u kaˇzd´eho jednotliv´eho subjektu. Vysvˇetleme to podrobnˇeji. Prvn´ı domnˇenka, kter´a n´as napadne bude to, ˇze pr´avˇe popsan´a situace je d˚ usledkem (vysok´e) korelovanosti nˇekter´ ych vysvˇetluj´ıc´ıch promˇenn´ ych. Tuto vysokou korelovanost jsme vyj´adˇrili slovy “t´emˇeˇr nepˇr´ımo u ´mˇern´e”. Odtud je jen krok k dohadu, ˇze tato korelovanost by se mˇela projevit v kolinearitˇe. O t´e se budeme bavit pozdˇeji podrobnˇe a proto nyn´ı jen kr´atce vysvˇetleme, ˇze kolinearita je pr´avˇe oznaˇcen´ı pro situaci, kdy jsou nˇekter´e vysvˇetluj´ıc´ı promˇenn´e t´ emˇ eˇ r line´ arnˇ e z´avisl´e. Zd˚ uraznˇeme jeˇstˇe jednou, ˇze se jedn´a o situaci, kdy jsou regresory t´ emˇ eˇ r line´ arnˇ e z´avisl´e, pˇriˇcemˇz d˚ uraz je jak na slovˇe t´emˇeˇr, tak na slovˇe line´ arnˇe. K prvn´ımu z tˇechto dvou slov znovu pˇripomeˇ nme, ˇze napˇr. pro dvourozmˇern´e norm´aln´ı rozdˇelen´ı “vrstevnice na hustotˇe” budou v´ yraznˇeji eliptick´eho tvaru s moˇznost´ı alespoˇ n n´aznaku jak´esi intervalov´e predikce jedn´e souˇradnice pˇri znalosti t´e druh´e aˇz pro absolutn´ı hodnoty korelaˇcn´ıho koeficientu alespoˇ n 70
0.6 ˇci sp´ıˇse 0.8. Podobnˇe druh´e slovo je d˚ uleˇzit´e, nebot’ kolinearita, jak ostatnˇe n´azev napov´ıd´ a, bude indikov´ana jen pˇri line´arn´ım vztahu mezi regresory. Ostatnˇe si je lehk´e pˇredstavit, ˇze napˇr. ve chv´ıli, kdy se budeme domn´ıvat, ˇze vysvˇetlovan´ a promˇenn´ a je polynomi´alnˇe z´avisl´ a na nˇekter´e vysvˇetluj´ıc´ı promˇenn´e, prostˇe zaˇrad´ıme do matice pl´anu sloupce pˇredstavuj´ıc´ı vyˇsˇs´ı mocniny t´eto vysvˇetluj´ıc´ı promˇenn´e. Pokud bude variabilita t´eto promˇenn´e v datech dosti vysok´a, nezp˚ usob´ı to kolinearitu, ale v´ yˇse zm´ınˇen´ y probl´em to dok´aˇze vyvolat zcela perfektnˇe. Ve v´ yˇse citovan´em pˇr´ıkladˇe by naprosto analogick´a situace vznikla pokud by napˇr. κ-histamin byl (t´emˇeˇr) kvadraticky z´avisl´ y na δ-terfendin a podobnˇe η-protein (t´emˇeˇr) z´avisl´ y na δ-terfendin ve tˇret´ı mocninˇe. Probl´em tedy je v tom, ˇze kolinearita nemus´ı b´ yt indikov´ ana z toho d˚ uvodu, protoˇze tam prostˇe nen´ı. Nav´ıc v´ yˇse zm´ınˇen´a t´emˇeˇr nepˇr´ım´ a u ´mˇernost m˚ uˇze m´ıt u kaˇzd´eho pacienta jin´ y pr˚ ubˇeh a tud´ıˇz v cel´em souboru dat o n pacientech tuto t´emˇeˇr nepˇr´ımou u ´mˇernost prostˇe nezjist´ıme. Snadno si lze pˇredstavit, ˇze pokud bude vˇetˇs´ı nepˇr´ım´ au ´mˇernost mezi δ-terfendinem a κ-histaminen “kompenzov´ana” menˇs´ı nepˇr´ımou u ´mˇernost´ı mezi δ-terfendinem a η-proteinem u jednoho subjektu (pacienta) a u jin´eho tomu bude naopak, nebudou prostˇe data ˇz´ adnou kolinearitu vykazovat, ale v´ yˇse uveden´ y efekt bude opˇet bez probl´emu fungovat. Proto je tˇ reba pˇ ristupovat k interpretaci odhad˚ u regresn´ıch koeficient˚ u a dokonce i jejich znam´ enek velmi obezˇ retnˇ e. Zejm´ ena vyvozov´ an´ı jak´ ychkoliv kauz´ aln´ıch, ˇ ci “skoro” kauz´ aln´ıch z´ avˇ er˚ u je velmi riskantn´ı. Na z´avˇer jeˇstˇe poznamenejme, ˇze pokud vˇsak jsou naˇse pˇredstavy o kauzalitˇe zaloˇzeny na dobˇre obhajiteln´ ych u ´vah´ach (napˇr. rozloha m´ıstnosti je patrnˇe pˇr´ımo u ´mˇern´ a d´elce jejich stˇen), pak samozˇrejmˇe m˚ uˇzeme tyto “pˇredstavy” pouˇz´ıt jako “diagnostickou” informaci pro posouzen´ı adekv´atnosti modelu. Na druh´e stranˇe, je pojem kauzality tˇreba br´at, vzhledem k v´ yvoji vˇedy a zejm´ena filosofie vˇedy v druh´e polovinˇe dvac´ at´eho stolet´ı, s n´aleˇzitou rezervou a opatrnost´ı. To znamen´a, pokud jsou naˇse pˇredstavy o kauzalitˇe sp´ıˇse hypot´ezami, kter´e si snaˇz´ıme empirickou studi´ı potvrdit, nejsou v´ yˇse uveden´e u ´vahy o “spr´avn´em” znam´enku odhad˚ u regresn´ıch koeficient˚ u v˚ ubec nam´ıstˇe.
5.2
Grafy rezidu´ı
Jedn´ım z bˇeˇznˇe pouˇz´ıvan´ ych n´astroj˚ u diagnostiky jsou grafick´e metody. Je zˇrejm´e, ˇze na rozd´ıl od test˚ u, kter´e na pˇredem zvolen´e hladinˇe jednoznaˇcnˇe otestuj´ı napˇr. hypot´ezu o normalitˇe ˇci homoskedasticitˇe rezidu´ı, grafick´e medoty sp´ıˇse napov´ıdaj´ı cosi o poruˇsen´ı tˇechto hypot´ez. Jejich v´ yhodou je vˇsak to, ˇze jsou snadno dostupn´e v mnoha statistick´ ych knihovn´ ach, obvykle na jedno kliknut´ı myˇsi, a nav´ıc to, ˇze ˇcasto tvar grafu ˇci poloha bod˚ u na grafu indikuj´ı, kter´e body jsou atypick´e, pˇr´ıpadnˇe co je d˚ uvodem poruˇsen´ı pˇredpokladu. Koneˇcnˇe pak nˇekdy napovˇed´ı moˇzn´ y zp˚ usob n´apravy situace. Poznamenejme vˇsak, ˇze pˇrirozenˇe probl´em nen´ı zda pouˇz´ıvat radˇeji grafick´e metody ˇci rigirozn´ı testy. Mˇeli bychom vyuˇz´ıvat oboj´ı ! Nyn´ı si dovol´ıme popsat nˇekter´e nejbˇeˇznˇeji pouˇz´ıvan´e grafick´e metody. Dˇr´ıve vˇsak neˇz se do toho pust´ıme, pˇripomeˇ nme, ˇze jsme pˇredpokl´adali, ˇze data jsou generov´ ana modelem Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n,
(66)
ve kter´em posloupnost {Ei }∞ ı nez´avisl´ ych stejnˇe rozdˇelen´ ych n´ahodn´ ych veliˇcin. i=1 je posloupnost´ Aˇc je to samozˇrejm´e, pˇripomeˇ nme, ˇze z toho, ˇze veliˇciny Ei , i = 1, 2, . . . jsou stejnˇe rozdˇelen´e 71
plyne, ˇze maj´ı stejn´ y rozptyl. Situaci, kdy vˇsechny n´ahodn´e fluktuace maj´ı stejn´ y rozptyl, ˇr´ık´ame homoskedasticita a opaˇcn´e, tj. takov´e, kdy rozptyl vˇsech n´ahodn´ ych fluktuac´ı nen´ı ˇ stejn´ y, heteroskedasticita. Casto, a hned poznamenejme, ˇze aˇz pˇr´ıliˇs ˇcasto a mnohdy evidentnˇe neopr´avnˇenˇe, pˇredpokl´ad´ame, ˇze se fluktuace ˇr´ıd´ı norm´aln´ım rozdˇelen´ım. Normalita rezidu´ı, jejich homoskedasticita, vz´ajemn´a nez´avislost a nez´avislost s regresory, pokud je adekv´atnˇejˇs´ı tyto pokl´adat za n´ahodn´e, jsou z´akladn´ımi pˇredpoklady pro u ´spˇeˇsn´e proveden´ı regresn´ı anal´ yzy pomoc´ı nejmenˇs´ıch ˇctverc˚ u. Grafick´e metody jsou jednou z moˇznost´ı jak ovˇeˇrit prv´e dva z tˇechto pˇredpoklad˚ u. Mezi nejzn´amˇejˇs´ı grafick´e n´astroje patˇr´ı n´asleduj´ıc´ı dva typy graf˚ u. Prvn´ı typ je zaloˇzen na myˇslence, kter´a ˇr´ık´a: Pokud maj´ı vˇsechny n´ahodn´e fluktuace stejn´ y rozptyl nesm´ı graf, ve kter´em vyneseme rezidua proti nˇekter´e jin´e veliˇcinˇe, napˇr. indexu pozorov´ an´ı (index plot), nˇekter´e vysvˇetluj´ıc´ı promˇenn´e ˇci nˇekter´e jin´e charakteristice jednotliv´eho pozorov´ an´ı vykazovat ˇz´ adnou pravidelnost. Pokud dojde k nˇejak´e “pravidelnosti”, napˇr. rezidua budou v´ıce rozpt´ ylena pro vyˇsˇs´ı hodnoty index˚ u, je pravdˇepodobn´e, ˇze hypot´eza o homoskedasticitˇe nen´ı nam´ıstˇe. Podobnˇe, pokud vyneseme rezidua proti nˇekter´e vysvˇetluj´ıc´ı promˇenn´e a objev´ıme nˇejakou pravidelnost, je l´epe nepˇredpokl´adat homoskedasticitu. Nˇekdy se doporuˇcuje vyn´aˇset rezidua proti vyhlazen´ ym (ˇci chcete-li, vyrovnan´ ym) hodnot´am vysvˇetlovan´e promˇenn´e. Za t´ımto doporuˇcen´ım stoj´ı myˇslenka, ˇze se t´ım posoud´ı vliv vˇsech vysvˇetluj´ıc´ıch promˇenn´ ych na velikost rozptylu n´ahodn´ ych fluktuac´ı najednou. Pˇritom vliv jednotliv´ ych vysvˇetluj´ıc´ıch promˇenn´ ych je zv´aˇzen ve stejn´em pomˇeru v jak´em se pod´ılej´ı na predikov´an´ı stˇredn´ı hodnoty vysvˇetlovan´e promˇenn´e. Druh´ y typ grafu je konstruov´an tak, ˇze se vyn´aˇsej´ı rezidua proti kvantil˚ um toho rozdˇelen´ı, o kter´em se domn´ıv´ame, ˇze se j´ım ˇr´ıd´ı n´ahodn´e fluktuace v naˇsem modelu. Abychom nahl´edli heuristiku druh´eho typu graf˚ u, staˇc´ı si uvˇedomit, ˇze pokud bychom st´ali pˇred u ´kolem odhadnut´ı α-kvantilu pro jednorozmˇern´a data o rozsahu n postupovali bychom takto. Seˇradili bychom pozorov´an´ı dle velikosti a za odhad α-kvantilu bychom vzali pozorov´ an´ı stoj´ıc´ı na k-t´em m´ıstˇe v t´eto uspoˇr´adan´e ˇradˇe, pro k = [n · α], kde [n · α] je nejvˇetˇs´ı cel´e ˇc´ıslo, kter´e je menˇs´ı n · α. Podle Glivenkovy vˇety (Glivenko (1933), Rao (1978)) konverguje tento odhad α-kvantilu k teoretick´e hodnotˇe α-kvantilu. To znamen´a, ˇze pokud jsou rezidua rozdˇelena norm´alnˇe a jestliˇze je seˇrad´ıme dle velikosti, mˇela by tato uspoˇr´adan´a rezidua b´ yt pˇribliˇznˇe rovna odpov´ıdaj´ıc´ım kvantil˚ um norm´aln´ıho rozdˇelen´ı. Vyneseme-li tedy do grafu uspoˇr´ adan´ a rezidua proti kvantil˚ um norm´aln´ıho rozdˇelen´ı, mˇel by takov´ y graf tvoˇrit pˇribliˇznˇe pˇr´ımku. Pokud tedy obdrˇz´ıme cosi, co je znaˇcnˇe odliˇsn´e od pˇr´ımky, je nerozumn´e trvat na hypot´eze normality. Na z´avˇer t´eto kapitoly se jeˇstˇe zmiˇ nme o grafu, kter´ y se sv´ ym charakterem vymyk´ a z bˇeˇzn´ ych graf˚ u rezidu´ı. Umoˇzn ˇuje totiˇz graficky nahl´ednout vliv jednoho pozorov´ an´ı, kter´ y budeme studovat n´ıˇze. Graf b´ yv´a ve statistick´ ych knihovn´ ach oznaˇcov´ an jako Residuals and deleted residuals a b´ yv´a v nˇem pro kaˇzd´ y bod vyneseno vˇzdy jeho rez´ıduum v modelu budovan´em na z´akladˇe vˇsech dat proti rez´ıduu tohoto bodu, ale v modelu, kter´ y byl odhadnut na z´akladˇe dat, ze kter´ ych byl pr´avˇe tento bod vylouˇcen. Pˇrirozenˇe heuristika, kter´a je za t´ımto grafem je snadno pochopiteln´a. Je-li pˇr´ısluˇsn´ y bod vlivn´ y, pak modely odhadnut´e na z´akladˇe vˇsech bod˚ u a na z´akladˇe dat neobsahuj´ıc´ıch tento bod budou (podstatnˇe) odliˇsn´e, ve smyslu velikosti rezidua pro tento bod, tj. ve smyslu vysvˇetlov´an´ı funkˇcn´ı hodnoty modelu v tomto bodˇe, a tedy pˇr´ısluˇsn´ y body v grafu leˇz´ı daleko od hlavn´ı diagon´aly. Pokud se tedy na displeji objev´ı body, kter´e jsou 72
(velmi) daleko od hlavn´ı diagon´aly, je moˇzn´e pojmout podezˇren´ı, ˇze tyto body jsou vlivn´e ˇci atypick´e, a je tˇreba jim vˇenovat dalˇs´ı pozornost. Na druh´e stranˇe, snadno si domysl´ıme i slabiny tohoto grafu. Vypuˇstˇen´ı jednoho bodu z dat m˚ uˇze m´ıt docela podstatn´ y vliv na odhady hodnot regresn´ıch koeficient˚ u, coˇz se m˚ uˇze, ale ve v´ıcerozmˇern´em pˇr´ıpadˇe tak´e nemus´ı, projevit na hodnot´ach rezidu´ı. Pˇrirozenˇe vˇsak se tato zmˇena rezidu´ı m˚ uˇze t´ ykat daleko v´ıce jin´ ych bod˚ u, neˇz pr´avˇe toho, kter´ y byl z dat vypuˇstˇen. Nezb´ yv´ a tedy neˇz znova apelovat na to, ˇze ˇz´ adn´ y diagnostick´ y prostˇredek by nemˇel b´ yt pouˇz´ıv´ an slovˇe, ale k vytvoˇren´ı si pˇredstavy o “opr´avnˇenosti” modelu by mˇely b´ yt vyuˇzity vˇsechny diagnostick´e prostˇredky, kter´e jsou v t´e knihovnˇe, kterou pouˇz´ıv´ame, k dispozici. Toto tvrzen´ı jistˇe plat´ı i naopak: nemˇeli bychom pouˇz´ıvat knihovnu, kter´a nenab´ız´ı sluˇsnou ˇsk´alu diagnostick´ ych n´astroj˚ u, viz napˇr. tabulkov´e procesory.
6
ˇ ROV ˇ ´ ´I ZAKLADN ´ ´ICH PREDPOKLAD ˇ ˚ OVE AN U
Jak jsme uvedli na konci prvn´ı kapitoly, povaˇzujeme za z´akladn´ı pˇredpoklady regresn´ı anal´ yzy splnˇen´ı podm´ınek A, tj. nulovost stˇredn´ı hodnoty n´ahodn´ ych fluktuac´ı, jejich homoskedasticitu a vz´ajemnou nez´avislost, a d´ale pak jejich normalitu a pˇr´ıpadnˇe nez´avislost na vysvˇetluj´ıc´ıch promˇenn´ ych. V t´eto kapitole se nauˇc´ıme testovat, pˇrirozenˇe aposteriornˇe na z´akladˇe rezidu´ı, jejich splnˇen´ı. Pokud je v modelu intercept, a v´ yˇse jsme uvedli argumenty, doporuˇcuj´ıc´ı jej v modelu vˇzdy podrˇzet, jedna z norm´aln´ıch rovnic zaruˇcuje nulovost pr˚ umˇeru rezidu´ı. To znamen´a, ˇze co se t´ yk´a pˇredpokladu o nulovosti stˇredn´ı hodnoty n´ahodn´ ych fluktuac´ı, nen´ı co testovat. Budeme se tedy vˇenovat vyˇsetˇrov´an´ı dalˇs´ıch pˇredpoklad˚ u.
6.1
Homoskedasticita a heteroskedasticita
Jak plyne z n´azvu tohoto odstavce, budeme si nyn´ı pov´ıdat o homoskedasticitˇe a heteroskedasticitˇe, jejich testov´an´ı, pˇr´ıpadnˇe modelov´ an´ı. Pˇri odvozov´ an´ı dosud uveden´ ych v´ ysledk˚ u jsme pˇredpokl´adali homoskedasticitu. Zd´alo by se tedy logick´e nejprve uv´est testy homoskedasticity, pot´e popsat nejbˇeˇznˇejˇs´ı modely heteroskedasticity a koneˇcnˇe pak jej´ı vliv na βˆ(LS,n) . Vzhledem k tomu, ˇze pˇrinejmenˇs´ım nˇekter´e testy homoscedasticity vyˇzaduj´ı pops´an´ı alternativy, tj. pops´an´ı modelu heteroskedasticity, zaˇcneme vlastnˇe od konce, totiˇz popisem model˚ u heteroskedasticity. Dnes se ˇcasto v r´amci teorie ˇcasov´ ych ˇrad a dynamick´e verze regresn´ıho modelu tyto modely rozptylu oznaˇcuj´ı jako modely volatility. Dˇr´ıve vˇsak neˇz se budeme vˇenovat tˇemto model˚ um, pokusme se zamyslet nad t´ım, kdy m˚ uˇze b´ yt pˇredpoklad o homoskedasticitˇe (evidentnˇe) poruˇsen. 6.1.1
Pˇ r´ıklady situac´ı s heteroskedastick´ ymi fluktuacemi
Jedn´ım z typick´ ych pˇr´ıklad˚ u z mikroekonomie, kdy je t´emˇeˇr evidentn´ı, ˇze pˇredpoklad homoskedasticity je pˇrinejmenˇs´ım diskutabiln´ı, je model v´ ydaj˚ u dom´acnost´ı. Zd´a se pˇrirozen´e, ˇze ty dom´acnosti, kter´e maj´ı menˇs´ı pˇr´ıjmy, budou m´ıt tak´e menˇs´ı rozptyl ve sv´ ych v´ ydaj´ıch, ’ neboli stoj´ı-li v´ ydaje dom´acnosti at uˇz v roli vysvˇetlovan´e ˇci vysvˇetluj´ıc´ı veliˇciny, je velikost n´ahodn´ ych fluktuac´ı z´avisl´a od t´eto veliˇciny, viz Prais, Houthakker (1955) nebo Theil (1971) . Jin´ ymi slovy rozptyl n´ahodn´ ych fluktuac´ı nen´ı nez´avisl´ y od (indexu) pozorov´ an´ı. Kromˇe pr´avˇe zm´ınˇen´eho pˇr´ıkladu b´ yv´ a v literatuˇre nejˇcastˇeji pˇripom´ın´ ana situace, kdy naˇse data vznikla jako zpr˚ umˇerovan´e hodnoty, napˇr. pˇres v´ıce jedinc˚ u, pˇres nˇekter´e teritorium, v 73
pr˚ ubˇehu nˇekter´eho ˇcasov´eho intervalu a pod., a d´ale pak model, ve kter´em jsou regresn´ı koeficienty n´ahodn´e. Pˇrirozenˇe se pˇredpokl´ad´ a mal´a odchylka od jak´esi jejich stˇredn´ı hodnoty, mal´a v porovn´an´ı s hodnotou tˇechto koeficient˚ u. Kr´atce popiˇsme oba pˇr´ıklady. Pˇredpokl´adejme, ˇze dat jsou rozdˇelena do K skupin, v kaˇzd´e skupinˇe je nk jedinc˚ u, celkov´ y PK poˇcet jedinc˚ u je tedy n = k=1 nk a plat´ı model Yi = xTi β 0 + Ei , i = 1, 2, ..., n,
(67)
ve kter´em IE EE T = σIn , kde jako obvykle E = (E1 , E2 , ..., En )T a kde jedinci s indexem i, n1 + n2 + ... + nk−1 < i ≤ n1 + n2 + ... + nk patˇr´ı do k-t´e skupiny. Nyn´ı pˇredpokl´adejme, ˇze m´ame k dispozici pouze pr˚ umˇery pˇres jednotliv´e skupiny, tj. jsou n´am pˇr´ıstupn´e pouze hodnoty ¯ Yk , x ¯k , k = 1, 2, ..., K, kde 1 Y¯k = nk
i=n1 +n 2 +...+nk X
Yi
x ¯k =
i=n1 +n2 +...+nk−1
1 nk
i=n1 +n 2 +...+nk X
xi ,
i=n1 +n2 +...+nk−1
kde v posledn´ım v´ yraze je samozˇrejmˇe naznaˇcen´ a operace m´ınˇena po sloˇzk´ ach pˇr´ısluˇsn´ ych vektor˚ u. Z (67) plyne ¯k , k = 1, 2, ..., K, Y¯k = x ¯Tk β 0 + E (68) kde samozˇrejmˇe ¯k = 1 E nk
i=n1 +n 2 +...+nk X
Ei
i=n1 +n2 +...+nk−1
je nepˇr´ıstupn´e mˇeˇren´ı a pˇredstavuje jak´esi “zpr˚ umˇerovan´e” n´ahodn´e fluktuace. Je patrn´e, ˇze ¯ IE Ek = 0, ale
2
i=n1 +n 2 +...+nk X
¯k2 = 1 IE IE E n2k i=n
Ei =
1 +n2 +...+nk−1
σ2 nk σ 2 = , nk n2k
¯k E ¯j = 0 pro k 6= j (d´ıky neboli fluktuace v modelu (68) jsou heteroskedastick´e. Naˇstˇest´ı IE E tomu, ˇze v pˇr´ısluˇsn´ ych sum´ach vystupuj´ı nekorelovan´e n´ahodn´e veliˇciny) a tedy (
¯E ¯ T = diag IE E
σ2 σ2 σ2 , , ..., n1 n2 nK
)
,
kde diag {a, b, ..., c} oznaˇcuje diagon´aln´ı matici s uveden´ ymi prvky na diagon´ale. To znamen´a, ˇze zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u bude m´ıt jednoduch´ y tvar βˆ(GLS,n) =
à !−1 K X σ2
k=1
nk
−1 Ã !−1 K X σ2
x ¯k x ¯Tk
k=1
nk
Y¯k x ¯k =
(K X
nk x ¯k x ¯Tk
k=1
)−1 K X
nk Y¯k x ¯k .
k=1
Protoˇze poˇcty jedinc˚ u nk v jednotliv´ ych tˇr´ıd´ ach jsou obvykle zn´am´e, je moˇzn´e tento odhad pˇr´ımo vyˇc´ıslit. Ponˇekud jin´a situace nast´av´a v pˇr´ıpadˇe, kdy pˇredpokl´ad´ ame, ˇze regresn´ı koeficienty fluktuuj´ı, ponˇekud a samozˇrejmˇe ne pˇr´ıliˇs, okolo jak´esi sv´e stˇredn´ı hodnoty. Pˇredpokl´adejme tedy model Yi = xTi β(i) + Ei , i = 1, 2, ..., n, 74
(69)
n
on
0 = β 0 +V kde β(i) ım, ˇze V(i) ∈ Rp a V(i) je posloupnost n´ahodn´ ych vektor˚ u. Poprv´e byl (i) s t´ i=1 takov´ y model studov´an v pr´aci Hildreth a Houck (1968), kde autoˇri pˇredpokl´adali, ˇze vektory V(i) jsou nez´avisl´e a stejnˇe rozdˇelen´e a s navz´ ajem nez´avisl´ ymi souˇradnicemi, kter´e maj´ı nulov´e stˇredn´ı hodnoty a pozitivn´ı rozptyly αj , j = 1, 2, ..., p. Potom m˚ uˇzeme model (69) pˇrepsat do tvaru ³ ´ Yi = xTi β 0 + V(i) + Ei = xTi β 0 + Ui , i = 1, 2, ..., n,
P
kde ovˇsem Ui = Ei + xTi V(i) a tedy IE Ui = 0, ale σi2 = IE Ui2 = pj=1 αj x2ij . Poloˇz´ımeª © ymi slovy kovarianˇcn´ı li tedy U = (U1 , U2 , ..., Un )T , m´ame IE U U T = diag σ12 , σ22 , ..., σn2 . Jin´ matice n´ahodn´ ych fluktuac´ı je diagon´aln´ı, ale nen´ı u ´mˇern´ a jednotkov´e matici. V obou uveden´ ych pˇr´ıkladech tedy opˇet nen´ı rozptyl n´ahodn´e fluktuace i-t´eho pozorov´ an´ı nez´avisl´ y od indexu i. Povˇsimnˇeme si, a v textu jsme to z´amˇernˇe zd˚ uraznili, ˇze to co jsme rozumˇeli na zaˇc´ atku v´ ykladu v tˇechto skriptech pod homoskedasticitou byla konstantnost rozptylu n´ahodn´ ych fluktuac´ı. Z t´e samozˇrejmˇe plyne, v pˇr´ıpadˇe modelu s deterministick´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi, i konstantnost rozptylu vysvˇetlovan´e veliˇciny. V pˇr´ıpadˇe modelu s n´ahodn´ ymi vysvˇetluj´ıc´ımi veliˇcinami, vˇsak toto neplat´ı a i v pˇr´ıpadˇe, ˇze bude zachov´ ana homoskedasticita n´ahodn´ ych fluktuac´ı, bude m´ıt vysvˇetlovan´a promˇenn´ a obecnˇe rozptyl z´avisl´ y na indexu i. To vˇsak nebude na z´avadu eficientnosti odhadu βˆ(LS,n) , pokud tyto vysvˇetluj´ıc´ı promˇenn´e budou nekorelovan´e s n´ahodn´ ymi fluktuacemi; vˇse si vysvˇetl´ıme n´ıˇze, v odstavci o instrument´ aln´ıch promˇenn´ ych. (LS,n) Pokud bychom ve v´ yˇse uveden´ ych pˇr´ıkladech aplikovali odhad βˆ , nedostaneme eficientn´ı odhady regresn´ıch koeficient˚ u. Na druh´e stranˇe, pˇr´ım´ a aplikace odhadu βˆ(GLS,n) nen´ı (obvykle) moˇzn´a, nebot’ nejsou zn´am´e hodnoty σi2 . K jejich vyˇc´ıslen´ı bychom potˇrebovali zn´at vektor α, coˇz je ovˇsem nerealistick´ y pˇredpoklad. Bˇeˇznˇe se tato situace ˇreˇs´ı tak, ˇze nezn´am´e parametry, v naˇsem pˇr´ıpadˇe souˇradnice vektoru α, odhadneme a dosad´ıme do vztahu pro βˆ(GLS,n) . Mluv´ıme potom o estimated generalized least squares estimator, ˇcesky patrnˇe (kostrbatˇe) zobecnˇen´em odhadu metodou nejmenˇs´ıch ˇctverc˚ u s odhadnut´ymi parametry. Tento odhad bude v dalˇs´ım oznaˇcov´ an (EGLS,n) ˆ jako β . Dˇr´ıve neˇz postoup´ıme d´ale, poznamenejme jeˇstˇe, ˇze pokud je kovarianˇcn´ı matice n´ahodn´ ych fluktuac´ı diagon´aln´ı, ale nen´ı u ´mˇern´a jednotkov´e matici, mluv´ıme ˇcasto o v´aˇzen´em odhadu metodou nejmenˇs´ıch ˇctverc˚ u. Snadno se totiˇz nahl´edne, ˇze βˆ(GLS,n) je bˇeˇzn´ ym odhadem metodou nejmenˇs´ıch ˇctverc˚ u v modelu Yi xT Ei = i β 0 + , i = 1, 2, ..., n. σi σi σi Popiˇsme nyn´ı alespoˇ n nejbˇeˇznˇeji studovan´e modely pro rozptyl n´ahodn´ ych fluktuac´ı. 6.1.2
Modely heteroskedasticity
Je naprosto pˇrirozen´e, ˇze v pˇr´ıpadˇe, kdy pojmeme podezˇren´ı, ˇze n´ahodn´e fluktuace v regresn´ım modelu nejsou homoskedastick´e (a pˇr´ıpadnˇe se toto podezˇren´ı potvrd´ı nˇekter´ ym n´ıˇze uveden´ ym testem), se pokus´ıme sloˇzitˇejˇs´ı kovarianˇcn´ı strukturu n´ahodn´ ych fluktuac´ı namodelovat a odhadnout parametry navrˇzen´eho modelu. Nejjednoduˇsˇs´ım se pˇrirozenˇe jev´ı pouˇz´ıt´ı nˇekter´eho regresn´ıho modelu, ve kter´em “jeˇstˇe jednou” pouˇzijeme informaci, kter´a je obsaˇzena ve zpracov´avan´ ych datech k namodelov´an´ı zm´ınˇen´e kovarianˇcn´ı struktury. Obecnˇe se m˚ uˇze st´at, ˇze relevantn´ı vysvˇetluj´ıc´ı promˇenn´e pro model kovarianˇcn´ı struktury n´ahodn´ ych fluktuac´ı budou r˚ uzn´e 75
od relevantn´ıch vysvˇetluj´ıc´ı promˇenn´ ych v p˚ uvodn´ım regresn´ım modelu. Toto bude form´alnˇe reflektov´ano v n´ıˇze uveden´ ych vztaz´ıch, byt’ samozˇrejmˇe ve vˇetˇsinˇe aplikac´ı se bude jednat o ty sam´e promˇenn´e. Dˇr´ıve neˇz se budeme vˇenovat jednotliv´ ym model˚ um heteroskedasticity pˇripomeˇ nme, ˇze v pˇr´ıpadˇe heteroskedasticity, pokud chceme dos´ahnout eficientn´ıho dohadu, mus´ıme pouˇz´ıt zobecnˇen´ y (GLS,n) ˆ odhad β . To implikuje, ˇze pokud bychom nebyli schopni odhadnout kovarianˇcn´ı matici Σ, nem˚ uˇzeme v tomto u ´sil´ı uspˇet. Na druh´e stranˇe, za docela obecn´ ych podm´ınek m˚ uˇzeme, podobnˇe (GLS,n) ˆ jako jsme to provedli v´ yˇse, dok´azat asymptotickou normalitu odhadu β , tj. uk´azat, ˇze L
´
³√
n(βˆ(GLS,n) − β 0 ) → N (0, Q−1 V Q−1 ),
kde se pˇredpokl´ad´a, ˇze existuje regul´arn´ı matice Q jakoˇzto limita v´ yraz˚ u n1 xT x a matice V jakoˇzto limita v´ yraz˚ u n1 xT Σx. A za urˇcit´ ych podm´ınek (viz napˇr. Eicker (1967), White (1980) P nebo Nicholls, Pagan (1983)) lze uk´azat, ˇze Vˆ = n1 ni=1 ri2 xi xTi (kde ri = Yi − xTi βˆ(LS,n) ) je konsistentn´ım odhadem V . To znamen´a, ˇze budemeli cht´ıt napˇr. testovat hypot´ezu, ˇze Cβ 0 = κ, kde C je matice typu (` × p) a pln´e hodnosti, a κ ∈ R` , m˚ uˇzeme pouˇz´ıt toho, ˇze Ã
·
³
L [C(βˆ(LS,n) − β 0 )]T C X T X
´−1
T
³
T
X ΣX X X
´−1
T
C
¸−1
!
[C(βˆ(LS,n) − β 0 )]
→ χ2 (`).
Jin´ ymi slovy to znamen´a, ˇze nˇekter´e hypot´ezy o regresn´ıch koeficientech je moˇzn´e testovat bez toho, ˇze bychom odhadli matici Σ (tj. bez bliˇzˇs´ı specifikace kovarianˇcn´ı sktuktury n´ahodn´ ych fluktuac´ı). Smˇ erodatn´ a odchylka jako line´ arn´ı funkce vysvˇ etluj´ıc´ıch promˇ enn´ ych Uvaˇzujme line´arn´ı regresn´ı model Yi = xTi β 0 + Ei i = 1, 2, ..., n
(70)
s kovarianˇcn´ı strukturou n´ahodn´ ych fluktuac´ı danou n´asledovnˇe: ³
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = ziT α
´2
i 6= j = 1, 2, ...n.,
(71)
kde {zi }ni=1 je posloupnost nen´ahodn´ ych s-rozmˇern´ ych vektor˚ u a α ∈ Rs je vektor regresn´ıch koeficient˚ u popisuj´ıc´ı kovarianˇcn´ı strukturu n´ahodn´ ych fluktuac´ı. Jak jsme uˇz podotkli v´ yˇse, n n ˇ posloupnost {zi }i=1 m˚ uˇze, ale nemus´ı b´ yt r˚ uzn´ a od posloupnosti {xi }i=1 . Casto nav´ıc pˇredpokl´ad´ ame, ˇze n´ahodn´e veliˇciny Ei , i = 1, 2, ..., n jsou nez´avisl´e ˇci ˇze n jejich rozdˇelen´ı je stejn´ e ho typu, tj. liˇ s ´ ı o se pouze velikost´ı rozptylu. Protoˇze Σ = IE EE T = diag z1T α, z2T α, ..., znT α , m´ame βˆ(GLS,n) =
à n X
!−1 n X
i=1
i=1
(zi α)−2 xi xTi
(zi α)−2 xi Yi .
Je ovˇsem nerealistick´e pˇredpokl´adat, ˇze budeme zn´at vektor α, jin´ ymi slovy to znamen´a, ˇze je (EGLS,n) ˆ tˇreba odhadnout tento vektor a pouˇz´ıt odhad β . K n´avrhu vhodn´eho odhadu pro α m˚ uˇze v´est n´asleduj´ıc´ı u ´vaha. Pˇredpokl´adejme nad´ale, ˇze typ rozdˇelen´ı velˇcin Ei , i = 1, 2, ..., n je pro vˇsechny stejn´ y. Z (71) pak plyne, ˇze studentizovan´e veliˇciny σ1−1 E1 , σ2−1 E2 , ..., σn−1 En jsou 76
stejnˇe rozdˇelen´e a tedy IE σi−1 Ei = c, i = 1, 2, ...n, kde c ∈ R+ . Toto neznamen´a nic jin´eho neˇz, ˇze IE σi Ei = cσi , i = 1, 2, ...n, a tedy m˚ uˇzeme ps´at |ri | = ziT α + Vi ,
(72)
kde ri = Yi −xTi βˆ(LS,n) a Vi , i = 1, 2, ..., n je vhodn´a posloupnost n´ahodn´ ych veliˇcin (je okamˇzitˇe vidˇet, ˇze Vi = |ri | − IE |Ei |). Odtud ³
cˆ α(LS,n) = Z T Z
´−1
Z T |r|,
kde Z = (z1 , z2 , ...zn )T a r = (r1 , r2 , ..., rn )T a koneˇcnˇe βˆ(EGLS,n) =
à n X
(zi α ˆ
(LS,n) −2
)
xi xTi
!−1 n X
(zi α ˆ (LS,n) )−2 xi Yi
i=1
=
à n X
(czi α ˆ
i=1
(LS,n) −2
)
xi xTi
!−1 n X
(czi α ˆ (LS,n) )−2 xi Yi .
i=1
(73)
i=1
Probl´emy ovˇsem nastanou pokud chceme odhadnout kovarianˇcn´ı matici tohoto odhadu, nebot’ tam se projev´ı fakt, ˇze nezn´ame a ani jednoduˇse neum´ıme odhadnout c. Dalˇs´ı probl´emem je samozˇrejmˇe to, ˇze cˆ α(LS,n) ani zdaleka nemus´ı b´ yt dobr´ ym odhadem cα. Protoˇze i v pˇr´ıpadˇe (LS,n) ˆ heteroskedasticity m˚ uˇze b´ yt β konsistentn´ım odhadem (viz pozn´amka v d˚ ukaze Lemmatu (LS,n) ˆ 2), bude, v pˇr´ıpadˇe konsistentnosti odhadu β , |ri | konvergovat v distribuci k |Ei | a to stejnomˇernˇe pro i = 1, 2, ..., n (podrobnˇejˇs´ı diskuzi lze nal´ezt napˇr. v pracech Harvey (1974) ˇci Theil (1971) ). To znamen´a, ˇze asymptoticky budou m´ıt n´ahodn´e fluktuace Vi nulovou stˇredn´ı hodnotu a rozptyl IE Vi2 = IE |Ei |2 − (IE |Ei |)2 = σi2 (1 − c2 ) = (ziT α)2 (1 − c2 ). Posledn´ı vztah naznaˇcuje, ˇze fluktuace Vi jsou “asymptoticky heteroskedastick´e” a tedy bychom k odhadu mˇeli pouˇz´ıt α ˆ (GLS,n) . Pokud budeme pˇredpokl´adat, ˇze v modelu (70) jsou n´ahodn´e fluktuace nez´ e, budou Vi , i = 1, 2, ..., n tak´e, alespoˇ n asymptoticky, nez´avisl´e. Potom bude n avisl´ o T 2 2 T 2 2 T 2 2 ΣV = diag (z1 α) (1 − c ), (z2 α) (1 − c ), ..., (zn α) (1 − c ) a tedy α ˆ
(GLS,n)
=
à n X
(zi α ˆ
(LS,n) −2
)
zi ziT
i=1
a koneˇcnˇe ˆ(EGLS,n)
β
=
à n X
(zi α ˆ
!−1 n X
(zi α ˆ (LS,n) )−2 zi ri
i=1
(GLS,n) −2
)
xi xTi
i=1
!−1 n X
(zi α ˆ (GLS,n) )−2 xi Yi .
(74)
i=1
Aˇckoliv jsme ve vztaz´ıch (73) a (74) form´alnˇe nerozliˇsili, ˇze se jedn´a o dva r˚ uzn´e odhady, je jasn´e, v ˇcem spoˇc´ıv´a jejich odliˇsnost. Vlastnosti tˇechto odhad˚ u nebyly dosud plnˇe prostudov´ any a aˇckoliv je (t´emˇeˇr) zˇrejm´e, ˇze asymptoticky budou ekvivalentn´ı, lze tuˇsit, ˇze pro koneˇcn´ y v´ ybˇer dat, m˚ uˇze patrnˇe estim´ator ze vztahu (74) d´avat lepˇs´ı v´ ysledky neˇz ten ze vztahu (73). Dalˇs´ı moˇznost´ı, jak se vypoˇr´adat s heteroskedasticitou n´ahodn´ ych fluktuac´ı, je pouˇz´ıt maxim´alnˇe vˇerohodn´ y odhad pro β a α. Obvykle se v tom pˇr´ıpadˇe pˇredpokl´ad´ a norm´aln´ı rozdˇelen´ı n´ahodn´ ych 77
fluktuac´ı. Derivace logaritmu vˇerohodnostn´ı funkce vˇsak vede na neline´arn´ı rovnice a je nutn´ a numerick´a maximalizace. To jistˇe v dobˇe rozvinut´e poˇc´ıtaˇcov´e techniky nen´ı z´asadn´ı probl´em. Probl´emem sp´ıˇse je fakt, ˇze pˇredpoklad normality fluktuac´ı je nesm´ırnˇe siln´ y, nebot’ i pˇri mal´ ych odchylk´ach od tohoto pˇredpokladu se zmˇen´ı, pˇrirozenˇe k horˇs´ımu, vlastnosti statistik (optim´aln´ıch pˇri pˇredpokladu normality) daleko v´ıce neˇz jsme ochotni pˇripustit. Jeden takov´ y pˇr´ıklad, kter´ y byl zn´am uˇz R. A. Fisherovi v roce 1922, si pˇripomeneme v kapitole vˇenovan´e kolinearitˇe. Proto se nebudeme touto alternativou podrobnˇeji zab´ yvat. Rozptyl jako line´ arn´ı funkce vysvˇ etluj´ıc´ıch promˇ enn´ ych Budeme opˇet uvaˇzovat line´arn´ı regresn´ı model (70) tentokr´ at vˇsak s kovarianˇcn´ı strukturou n´ahodn´ ych fluktuac´ı danou takto: IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = σi2 = ziT α
i 6= j = 1, 2, ...n.,
kde {zi }ni=1 je posloupnost nen´ahodn´ ych s-rozmˇern´ ych vektor˚ u a α ∈ Rs je vektor regresn´ıch koeficient˚ u popisuj´ıc´ı kovarianˇcn´ı strukturu n´ahodn´ ych fluktuac´ı. Podobnˇe jako v´ yˇse m˚ uˇzeme ps´at ri2 = ziT α + Vi ,
(75)
kde opˇet ri = Yi −xTi βˆ(LS,n) a Vi , i = 1, 2, ..., n je vhodn´a posloupnost n´ahodn´ ych veliˇcin. Odtud ³
α ˆ (LS,n) = Z T Z
´−1
Z T r2 ,
kde Z = (z1 , z2 , ...zn )T a r2 = (r12 , r22 , ..., rn2 )T . Probl´emem je, ˇze tento odhad je vych´ ylen´ y, d´ıky tomu, ˇze n´ahodn´e veliˇciny Vi nemaj´ı v tomto pˇr´ıpadˇe ani asymptoticky nulovou stˇredn´ı hodnotu, jsou heteroskedastick´e a korelovan´e. O vych´ ylen´ı odhadu α ˆ (LS,n) si lze udˇelat snadno pˇredstavu. Pro vektor rezidu´ı m´ame ³
´
r = Y − X βˆ(LS,n) = I − X(X T X)−1 X T Y ³
= I − X(X T X)−1 X T neboli ri = ovˇsem
Pn
j=1 mij Ej ,
´³
´
³
´
Xβ 0 + E = I − X(X T X)−1 X T E,
(76)
kde jsme mij oznaˇcili i, j-t´ y prvek matice I − X(X T X)−1 X T . Potom IE ri2 =
n X
m2ij IE Ej2 =
j=1
n X
m2ij zjT α
(77)
j=1
a tedy ˜ Zα, IE r2 = M
(78)
˜ oznaˇcili matici, kter´a m´a na i, j-t´em m´ıstˇe m2 . Z poslednˇe uveden´eho kde jsme symbolem M ij vztahu plyne ³ ´−1 ˜ Zα. IE α ˆ (LS,n) = Z T Z ZT M Odtud vypl´ yv´a, ˇze vych´ ylen´ı odhadu ³
α ˆ (LS,n)
·³
je rovno
´−1
ZT Z
´−1
¸
˜Z ZT M
− I α. Protoˇze obvykle
˜ Z 6= I, nen´ı odhad α ZT Z ZT M ˆ (LS,n) obvykle nevych´ ylen´ ym odhadem. Jako nevych´ ylen´e odhady b´ yvaj´ı navrhov´any ³ ´−1 ˜M ˜Z ˜ r2 , α ˆ (1) = Z T M ZT M 78
viz Hildreth a Houck (1968), nebo ³
˜Z α ˆ (2) = Z T M
´−1
Z T r2 ,
viz Froehlich (1973). Ze tvaru odhadu α ˆ (1) je zˇrejm´e, ˇze se jedn´a o odhad metodou nejmenˇs´ıch pro model ˜ Zα + W, r2 = M (79) pro jehoˇz n´avrh byl inspirac´ı vztah (78) a ve kter´em m´ame IE W = 0. Druh´ y odhad je MINQUE (minimum quadratic unbiased estimator) odhadem, viz opˇet Froehlich (1973). Jak jsme jiˇz podotkli v´ yˇse, n´ahodn´e fluktuace v modelu (75) jsou heteroskedastick´e. To m˚ uˇze b´ yt (1) (2) (LS,n) ˆ inspirac´ı k modifikovat odhad˚ u α ˆ a α ˆ , podobnˇe jako byl odhad β modifikov´ an na βˆ(GLS,n) . Ukaˇzme si jak to lze prov´est pro α ˆ (1) . Pˇredpokl´adejme, ˇze vektor n´ahodn´ ych fluktuac´ı m´a nulovou stˇredn´ı hodnotu a kovarianˇcn´ı matici Φ, o kter´e budeme pˇredpokl´adat, ˇze je diagon´aln´ı, pˇriˇcemˇz na diagon´ale stoj´ı σ12 , σ22 , ..., σn2 tj. je poruˇsena pouze homoskedasticita rezidu´ı, nikoliv jejech nekorelovanost. Uˇzijeme-li nyn´ı P vztah ri = n`=1 mi` E` (viz (76) ) a vztah (77) (kde nam´ısto zjT α budeme ps´at σj2 ) nalezneme ½³
IE
= IE
= IE
à n X
mi` E`
mik Ek −
k=1
`=1
( n X
n X
mi` E`
`=1
n X
n X
mik Ek
mjs Es +
`=1
−
`=1
=3
n X `=1
n X
n X
n X
n X
!Ã n X
n X
m2i` σ`2
´T ¾
n X
n X
n X
m2i` σ`2 +
n X
mi` E`
n X
m2i` σ`2
+2
n X
n X
n X
m2is σs2
mik Ek )
n X
m2ir σr2
r=1
r=1
mi` mj` σ`2
m2i` σ`2 +
`=1
m2ir σr2
!T
m2ir σr2
`=1 n X
n X r=1
k=1
`=1
s=1
mi` mj` σ`2
mjr Er −
`=1
m2ik σk2
n X
n X r=1
k=1
`=1
rj2
mjs Es
mjr Er −
`=1
m2ir σr2 −
n X
− IE
r=1
mjr Er
r=1
m2i` m2j` σ`4 + 2
rj2
s=1
mjs Es
`=1
m2i` σ`2
´³
m2i` σ`2
r=1
m2i` m2j` σ`4
n X
n X
s=1
s=1
=3
− IE
ri2
`=1
k=1
− n X
ri2
n X
mik mjk σk2
k=1 n X
n X
m2i` σ`2
r=1
`=1
h
˜ Φ2 M ˜ mik mjk σk2 = 3 M
k=1
m2ir σr2
i ij
+ 2 [M ΦM ]2ij .
Oznaˇcme tuto matici Ψ. Nahrad´ıme-li nyn´ı matici Φ napˇr. odhadem Z α ˆ (LS,n) (ˇci jin´ ym v´ yˇse ˆ uveden´ ym odhadem pro α) a oznaˇc´ıme-li odhad takto z´ıskan´ y odhad matice Ψ jako Ψ, dostaneme ³
˜Ψ ˆ −1 M ˜Z α ˆ (1)EG = Z T M
´−1
˜Ψ ˆ −1 r2 , ZT M
kde jsme horn´ım indexem EG naznaˇcili, ˇze se jedn´a o zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u s odhadnutou kovarianˇcn´ı matic´ı. Rozs´ahlejˇs´ı diskuzi tohoto modelu heteroskedasticity lze naj´ıt napˇr. v pr´aci Harvey (1974), Amemiya (1977) nebo Raj, Srivastava a Upadhyaya (1980) a v referenc´ıch tam uveden´ ych. 79
Rozptyl jako jin´ a funkce vysvˇ etluj´ıc´ıch promˇ enn´ ych Z dalˇs´ıch model˚ u heteroskedasticity jsou ˇcasto jeˇstˇe studov´ any modely, ve kter´ ych jsou rozptyl ˇci smˇerodatn´a odchylka vysvˇetlovan´e veliˇciny u ´mˇern´e nˇekter´e mocninˇe jej´ı stˇredn´ı hodnoty, tj. modely, kter´e mohou b´ yt ps´any napˇr. n´asledovnˇe h
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2
i1 2
³
= σi = xTi α
´r
i 6= j = 1, 2, ...n,
kde r je obvykle nˇekter´e (cel´e) kladn´e ˇc´ıslo, viz napˇr. Amemiya (1973) ˇci Battese a Bonyhady (1981). Je ihned patrn´e, ˇze pro r = 2 dost´av´ ame speci´aln´ı pˇr´ıpad modelu, kter´ y byl diskutov´an v t´eto kapitole jako prvn´ı. Podobnˇe model˚ um s exponenci´aln´ı z´avislosti rozptylu na vhodnˇe vybran´ ych vysvˇetluj´ıc´ıch veliˇcin´ach se dostalo znaˇcn´e popularity. Form´ aln´ı vyj´adˇren´ı m˚ uˇze vypadat napˇr. ³
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = σi2 = exp ziT α
´r
i 6= j = 1, 2, ...n.
Podrobnou diskuzi tˇechto model˚ u lze nal´ezt napˇr. v pracech Just a Pope (1978), Griffiths a Anderson (1982) ˇci Kmenta (1986). Podotknˇeme jeˇstˇe, ˇze se tˇemto model˚ um ˇcasto ˇr´ık´ a multiplikativn´ı modely heteroskedasticity, coˇz b´ yv´ a nepˇr´ıliˇs pˇresvˇedˇcivˇe zd˚ uvodˇ nov´ ano t´ım, ˇze historicky byl neprve studov´an logaritmus rozptylu vysvˇetlovan´e veliˇciny jako n´asobek jej´ı stˇredn´ı hodnoty. 6.1.3
Testy homoskedasticity
Jak n´azev tohoto odstavce napov´ıd´a, budou d´ale vysvˇetleny testy, ve kter´ ych bude hypot´ezou vˇzdy model, ve kter´em jsou n´ahodn´e fluktuace homoskedastick´e. n´ıˇze popsan´e testy obvykle nejsou bˇeˇznˇe nab´ızeny v komerˇcnˇe dostupn´ ych statistick´ ych knihovn´ ach a tak je na uˇzivateli, aby si je doprogramoval s´am, coˇz nˇekter´e statistick´e knihovny to dovoluj´ı pˇr´ımo v r´amci t´eto knihovny. Autor tohoto textu v´ı pouze o jedn´e knihovnˇe, kter´a nab´ız´ı test tohoto druhu, totiˇz White˚ uv test. Jedn´a se o knihovnu E-views (pˇr´ıpadnˇe TSP). Nav´ıc White˚ uv test ve skuteˇcnosti testuje nez´avislost regresor˚ u a n´ahodn´ ych fluktuac´ı, tj. testuje o nˇeco silnˇejˇs´ı pˇredpoklad neˇz je homoskedasticita. Podrobnˇeji tyto probl´emy prodiskutujeme aˇz se budeme zab´ yvat Whiteov´ ym testem. Popis vˇsech test˚ u lze nal´ezt bud’ v n´ıˇze uv´adˇen´ ych origin´aln´ıch ˇcl´ anc´ıch, kde lze nal´ezt i d˚ ukazy n´asleduj´ıc´ıch tvrzen´ı nebo v Judge a kol. (1980), kde je tak´e “jen” popisn´ y text. Dˇr´ıve neˇz se pust´ıme do popisu jednotliv´ ych test˚ u, poznamenejme jeˇstˇe, ˇze testov´ an´ı homoskedasticity (ˇci chcete-li, heteroskedasticity, coˇz znovu pˇripom´ın´ ame je situace opaˇcn´ a k 2 homoskedasticitˇe, tj. situace, kdy je v modelu (66) alespoˇ n pro jedno i IE Ei 6= σ = IE E1 ) m´a docela bohatou historii. Tomto ohledu je zaj´ımav´ y ˇcl´ anek Cook, Weisberg (1983). Breusch-Pagan˚ uv test (Breusch, Pagan (1979)) Breusch-Pagan˚ uv test pˇredpokl´ad´ a, ˇze rozptyl jednotliv´ ych n´ahodn´ ych fluktuac´ı se ˇr´ıd´ı modelem (dnes ponˇekud mdnˇe pouˇz´ıvan´ a terminologie by ˇrekla modelem volatility, byt’ tento term´ın pˇredpokl´ad´ a (implicitnˇe) sp´ıˇse z´avislost na ˇcase) σi2 = h(ziT α), kde h je nˇekter´a, dostateˇcnˇe hladk´a funkce, zi ∈ Rk , z technick´ ych d˚ uvod˚ u maj´ıc´ı prvn´ı souˇradnici T T k rovnou 1 a α = (α1 , α ˜ ) ∈ R . Jak je okamˇzitˇe vidˇet, model pro rozptyly n´ahodn´ ych fluktuac´ı 80
je zaloˇzen opˇet na line´arn´ı regresi, kter´a je “modifikov´ ana” nˇekterou (hladkou) funkc´ı h. Vektory zi , (i = 1, 2, . . . , n) jsou vlastnˇe hodnoty regresor˚ u pro i-t´e pozorov´ an´ı, tj. souˇradnice tˇechto vektor˚ u jsou pr´avˇe ty charakteristick´e vlastnosti (atributy) pozorov´ an´ı, o kter´ ych m´ame podezˇren´ı, ˇze mohou ovlivˇ novat velikost rozptylu n´ahodn´ ych fluktuac´ı. Vektor α je pak vybr´an tak, aby zv´aˇzil vliv tˇechto charakteristick´ ych atribut˚ u. Podobnˇe je vybr´ana funkce h, pˇr´ıklady prob´ıran´e v r˚ uzn´ ych ˇcl´anc´ıch jsou napˇr. h(v) = v, h(v) = v 2 ˇci h(v) = exp(v). Je pˇrirozen´e, ˇze jak volba vektor˚ u zi ’s, tak volba regresn´ıch koeficient˚ u α, a samozˇrejmˇe tak´e volba funkce h, (podstatnˇe) ovlivn´ı v´ ysledek testu, co se t´ yˇce jeho s´ıly. Nicm´enˇe, jak je vidˇet z podstaty probl´emu, nelze, pˇrinejmenˇs´ım ne jednoduˇse, d´at nˇejak´e obecn´e doporuˇcen´ı ˇci n´avod, jak tyto zvolit. Ostatnˇe jako mnoho jin´ ych vˇec´ı ovlivˇ nuj´ıc´ıch solidn´ı zpracov´ an´ı dat, konec konc˚ u poˇc´ınaje samotn´ ym v´ ybˇerem modelu a jeho odhadu, je i tato volba znaˇcnˇe z´avisl´ a na zkuˇsenosti a invenci toho, kdo data zpracov´av´a. Teoretick´e z´avˇery, kter´ ych Breusch a Pagan (1979) dos´ahli, ˇr´ıkaj´ı, ˇze za nulov´e hypot´ezy, kterou je homoskedasticita, coˇz v naˇsem formalizmu znamen´a α ˜ = 0, existuje lok´alnˇe nejsilnˇejˇs´ı test zaloˇzen´ y na statistice q T Z(Z T Z)−1 Z T q η= , 2s4 S2 kde q T = (q1 , q2 , . . . , qn ), qi = r2 (βˆ(LS,n) ) − s2 , Z = (z1 , z2 , . . . , zn )T a s2 = R . Pˇri platnosti i
H0 m´a statistika η asymptoticky rozdˇelen´ı χ2 (k − 1). Nav´ıc statistika q T Z(Z T Z)−1 Z T q
η∗ = n−1
Pn
i=1
³
ri2 (βˆ(LS,n) ) − s2
n−p
´2
je s η asymptoticky ekvivalentn´ı, tj. je asymptoticky tak´e rozdˇelena jako χ2 (k − 1), ale je m´enˇe ypoˇcet je vˇsak ponˇekud sloˇzitˇejˇs´ı neˇz zraniteln´a odchylkami ve ˇspiˇcatosti σµ44 rozdˇelen´ı. Jej´ı v´ v´ ypoˇcet statistiky η. Ve skuteˇcnosti je to tak, ˇze statistiky η a η ∗ maj´ı za Podm´ınek A (viz zaˇc´ atek 2 skript) asymptotick´e rozdˇelen´ı rovn´e χ (k − 1), nicm´enˇe jejich chov´ an´ı je nejl´epe prostudov´ ano pˇri pˇredpokladu normality fluktuac´ı, a proto se v´ı, ˇze pro situaci ˇsikm´eho rozdˇelen´ı je chov´ an´ı ∗ 2 statistiky η lepˇs´ı ve smyslu tˇesnˇejˇs´ı (asymptotick´e) aproximace pomoc´ı χ (k − 1). Bartlett˚ uv test (Bartlett (1937), Kendall, Stuart (1973)) Necht’ jsou data rozdˇelena do m skupin dat, pˇriˇcemˇz i-t´a obsahuje ni pozorov´ an´ı yij , tj. i = 1, 2, . . . , m, j = 1, 2, . . . , ni . Potom statistika P (n − m)ln(ˆ σ2) − m ˆi 2 ) i=1 (ni − 1)ln(σ i hP i, h m+ m 1 1 − 1 + 31 (m − 1) · i=1 ni −1 n−m P
P
P
P
ni i σi2 a y¯i = n−1 σ2 = m kde (ni −1)ˆ σi2 = nj=1 (yij − y¯i )2 , n = m i=1 (ni −1)ˆ i=1 ni , (n− m)ˆ i j=1 yij , 2 2 2 2 m´a asymptoticky χ (m−1) distribuci za pˇredpokladu, ˇze σ1 = σ2 = . . . = σm . Aˇckoliv to nebylo explicite ˇreˇceno, Bartlett˚ uv test jako (jakousi “minim´aln´ı”) alternativu pˇredpokl´ad´ a, ˇze alespoˇ n v jedn´e skupinˇe je rozptyl jin´ y neˇz v ostatn´ıch, coˇz implicitnˇe znamen´a, ˇze pˇr´ısluˇsn´ a data pro regresn´ı anal´ yzu byla nˇejak smysluplnˇe rozdˇelena do skupin, napˇr. m´ame data, kde pro stejn´ y vektor regresor˚ u byla opakovanˇe mˇeˇrena ˇci pozorov´ ana vysvˇetlovan´ a veliˇcina Y .
Goldfeld-Quandt˚ uv test (Goldfeld, Quand (1965), (1972)) Pˇredpokl´adejme, ˇze data byla “pˇreindexov´ana” tak, ˇze 2 σi2 ≥ σi−1
pro i = 2, 3, . . . , n. 81
(80)
Goldfeld-Quandt˚ uv test je zaloˇzen na n´asleduj´ıc´ıch kroc´ıch: • Vynech´ame r pozorov´an´ı, jejichˇz rozptyly stoj´ı na centr´ aln´ıch m´ıstech v posloupnosti (80), n r je pˇredem zvolen´e ˇc´ıslo obvykle cel´e ˇc´ıslo bl´ızk´e k 3 . • Aplikujeme regresn´ı model na prvn´ıch a posledn´ıch ˜2 = • Vyˇc´ısl´ıme R
S22 , S12
n−r 2
pozorov´ an´ı.
kde S12 a S22 jsou rezidu´aln´ı souˇcty ˇctverc˚ u v prv´e a druh´e skupinˇe.
˜ 2 s kvantily rozdˇelen´ı F s • Porovn´ame statistiku R je dimenze modelu.
n−r−2p 2
a
n−r−2p 2
stupni volnosti, kde p
Je zˇrejm´e, ˇze rozdˇelen´ı pozorov´an´ı do skupin m´a za c´ıl “oddˇelit” od sebe dvˇe skupiny pozorov´an´ı tak, aby se (znaˇcnˇe) podpoˇrila moˇznost toho, ˇze rozptyl fluktuac´ı u pozorov´ an´ı v tˇechto skupin´ach se bude liˇsit pokud neplat´ı hypot´eza o homoskedasticitˇe. Samozˇrejmˇe, ˇze rovnˇeˇz podstatn´ ym pˇredpokladem pro dobr´e fungov´ an´ı testu je nez´avislost n´ahodn´ ych fluktuac´ı u jednotliv´ ych pozorov´an´ı, kter´a by mˇela b´ yt tedy nejdˇr´ıve otestov´ ana napˇr. Durbin-Watsonov´ ym testem. Okamˇzitˇe n´as jistˇe napadne, ˇze lze prov´est rozdˇelen´ı do jin´ ych (pˇrirozenˇe nestejnˇe poˇcetn´ ych) 2 ˜ skupin. Pak bude rozdˇelen´ı statistiky R opˇet Fisher-Snedecorovo, ale s jin´ ymi stupni volnosti. Szroeterova tˇ r´ıda test˚ u (Szroeter (1978)) Pokusme se, podobnˇe jako u Goldfeld-Quandtova testu, pˇreˇc´ıslovat pozorov´an´ı tak, ˇze 2 σi2 ≥ σi−1
a poloˇzme
pro i = 2, 3, . . . , n,
P hi r2 (βˆ(LS,n) ) ˜ , h = Pi∈A 2i ˆ(LS,n) ) i∈A ri (β
(81)
(82)
kde A je nˇekter´a nepr´azdn´a podmnoˇzina index˚ u a hi , i = 1, 2, . . . , n jsou ˇc´ısla splˇ nuj´ıc´ı hi ≤ hj pro i < j, jak´esi testov´e v´ahy jednotliv´ ych rezidu´ı. Hypot´eza homoskedasticity zam´ıtne pokud ˜ > c. h Kritick´a hodnota c pˇrirozenˇe z´avis´ı na tom, jak zvol´ıme vektor vah h a jak definujeme mnoˇzinu A. n+r Napˇr. zvol´ıme-li hi = −1 pro i = 1, 2, . . . , n−r zina 2 a hi = 1 pro i = 2 + 1, . . . , n a mnoˇ A bude obsahovat vˇsechny indexy, bude test (82) pˇri platnosti hypot´ezy, ˇze vˇsechna data jsou generov´ana modelem (4) a ˇze rozptyl fluktuac´ı nen´ı ovlivˇ nov´ an tˇemi faktory, na kter´e jsme mˇeli podezˇren´ı a dle kter´ ych jsme vlastnˇe rozdˇelili ˇci pˇreindexovali data, viz (81) nebo (80), asymptoticky v pravdˇepodobnosti ekvivalentn´ı Goldfeld-Quandtovu testu. Szroeter˚ uv n´avrh byl tento: ·
µ
π(i − p) hi = 2 1 − cos n−p+1
¶¸
i = p + 1, . . . , n
a A = {p + 1, p + 2, . . . , n}. Kritick´e hodnoty pro tuto moˇznost lze odvodit od tzv. von Neumannova r (von Nemann (1941)), spoˇc´ıtan´eho pro n − p + 1 pozorov´ an´ı. 82
Dalˇs´ı moˇznost, jak zvolit vektor vah je n´asleduj´ıc´ı ·
µ
hi = 2 1 − cos
πi n+1
¶¸
i = 1, 2, . . . , n.
(83)
V´ yhodou t´eto volby je to, ˇze kritick´e hodnoty pro A = {1, 2, . . . , n} jsou totoˇzn´e s kritick´ ymi hodnotami pro Durbin-Watsonovu statistiku (Durbin, Watson (1952)), o kter´e bude ˇreˇc pozdˇeji. ˜ vˇetˇs´ı neˇz Pro tuto chv´ıli pouze poznamenejme, ˇze zad´ame-li h dle (83), potom pokud je h 4 − dL (kde dL je tzv. doln´ı kritick´a hodnota D-W statistiky a m˚ uˇze b´ yt nalezena napˇr. v ˜ knize Kmenta (1986)), zam´ıtneme hypot´ezu o homoskedasticitˇe, je-li h < 4 − dU , kde dU je horn´ı kritick´a hodnota D-W statistiky, nezam´ıtneme hypot´ezu o homoskedasticitˇe. Pokud je ˜ < 4 − dL , povaˇzujeme test za nerozhoduj´ıc´ı. V jiˇz dˇr´ıve citovan´e monografii Judge a 4 − dU < h spol. (1980) lze nal´ezt i jin´e n´avrhy pro volbu hi . White˚ uv test (White (1980), Judge a spol. (1980)) Origin´aln´ı n´apad jak testovat homoskedasticitu poch´az´ı od H. White a spoˇc´ıv´ a v tom, ˇze porovn´ ame dva odhady matice n−1 σ 2 X T X, totiˇz n 1 T 1X X X s2 a Xi XiT ri2 , (84) n n i=1 kde (pˇripom´ın´ame) Xi je i-t´ y ˇr´adek matice X, uvaˇzovan´ y stejnˇe jako v´ yˇse jako sloupcov´ y vektor, 1 Pn T 2 LS 2 T s = n−p i=1 (Yi − Xi βˆ ) a ri = Yi − Xi β. Snadno se nahl´edne, ˇze v pˇr´ıpadˇe nez´avislosti fluktuac´ı ei a vektoru Xi , matice v (84) (pˇribliˇznˇe) rovny v tom smyslu, ˇze konverguj´ı ke stejn´e limitˇe, nebot’ potom pˇribliˇznˇe n 1X Xi XiT ri2 = IE n i=1
=
emp {X1
· X1T r12 } = IE
emp {X1
· X1T } IE
2 emp {r1 }
n n 1X 1 1X Xi · XiT · ri2 ≈ X T X · s2 , n i=1 n i=1 n
(85)
kde subindex emp naznaˇcuje, ˇze se jedn´a o stˇredn´ı hodnotu vzhledem k empirick´e distribuˇcn´ı funkci. V ˇradˇe monografi´ı se trvd´ı, ˇze pokud neplat´ı hypot´eza homoskedasticity, potom aˇz na velmi speci´aln´ı pˇr´ıpady heteroskedasticity, budou tyto dva odhady divergovat pro n → ∞. Na druh´e stranˇe, to jak´e pˇr´ıpady heteroskedasticity jeˇstˇe projdou, lze snadno vystopovat z (85). Napˇr. pˇredpokl´adejme, ˇze kaˇzd´ a z n´ahodn´ ych veliˇcin pˇredstavuj´ıc´ıch fluktuace v regresn´ım modelu bude rozdˇelena dle nˇekter´eho rozdˇelen´ı vybran´eho z pˇredem dan´eho koneˇcn´eho poˇctu typ˚ u rozdˇelen´ı; omezme se vˇsak - bez u ´jmy na obecnosti - na pˇr´ıpad dvou typ˚ u. Nyn´ı, z d˚ uvodu zjednoduˇsen´ı dalˇs´ıho z´apisu, pˇreuspoˇr´ ad´ ame naˇse pozorov´ an´ı tak, aby na zaˇc´ atku byla ta pozorov´an´ı, kter´a maj´ı n´ahodn´e fluktuace rozdˇeleny dle prvn´ıho typu rozdˇelen´ı (jejich poˇcet oznaˇcme mn ) a d´ale jsou ta ostatn´ı (jejich poˇcet pak je n − mn ). Pˇripomeˇ nme, ˇze jsme pˇredpokl´adali (viz (14)) 1 T lim X X = Q, n→∞ n a pˇredpokl´adejme tedy, ˇze tak´e odpov´ıdaj´ıc´ı ˇc´ asti matic konverguj´ı k matici Q, tj. lim mn →∞
mn 1 X Xi XiT = Q mn i=1
lim
a
n−mn →∞
83
1 n − mn
n X i=mn +1
Xi XiT = Q.
Pak m´ame (podobnˇe jako v´ yˇse)
mn n 1X 1 1 X 1 Xi XiT ri2 = mn Xi XiT ri2 + (n − mn ) n i=1 n mn i=1 n − mn
= = ≈
1n mn IE n
mn Q IE n
1n mn IE n emp {X1
2 emp {r1 } +
emp {X1
· X1T } IE
n X
Xi XiT ri2
i=mn +1
emp {Xmn +1
T · Xm r2 } n +1 mn +1
2 emp {r1 }
emp {Xmn +1
T · Xm } IE n +1
n − mn Q IE n
½ 2 emp {rmn +1 } = Q
mn 1 1 X 1 ≈ Q mn ri2 + n − mn n mn i=1 n − mn
o
· X1T r12 } + (n − mn )IE + (n − mn )IE
mn IE n
n X i=mn +1
ri2
2 emp {r1 } +
=Q
2 emp {rmn +1 }
n − mn IE n
o ¾
2 emp {rmn +1 }
n 1X 1 ri2 ≈ X T X · s2 . n i=1 n
yˇse zm´ınˇen´ ych Je zˇrejm´e, ˇze oznaˇc´ıme-li σ12 a σ22 postupnˇe rozptyly prv´eho a druh´eho typu v´ rozdˇelen´ı fluktuac´ı a budou-li pomˇery poˇct˚ u fluktuac´ı ˇr´ıd´ıc´ıch se prvn´ım a druh´ ym typem rozdˇelen´ı stabiln´ı, tj. bude-li napˇr.
n→∞
mn = λ, n
λ ∈ [0, 1]
bude nav´ıc s2 (silnˇe) konvergovat k λ · σ12 + (1 − λ) · σ22 . Z toho je patrn´e, ˇze White˚ uv test sp´ıˇse odhal´ı z´avislost mezi regresory a fluktuacemi neˇz poruˇsen´ı homoskedasticity. Nav´ıc nedostatkem tohoto testu je fakt, ˇze zjiˇst’ov´ an´ı konvergence ˇci divergence odhad˚ u pro jeden soubor dat je patrnˇe mysliteln´e jen pro dosti rozs´ahl´e soubory. Test je napˇr. nab´ızen v E View a TSP, a pokud je autorovi tohoto textu zn´amo nen´ı zaloˇzen na zkoum´ an´ı konvergence ˇci divergence, ale prostˇe na porovn´an´ı v´ yraz˚ u uveden´ ych v (84). Proto je tˇreba br´at z´avˇery z tohoto testu s jistou opatrnost´ı. 6.1.4
Z´ avˇ er
Z toho, co uˇz bylo ˇreˇceno plyne, ˇze pˇri zpracov´ an´ı dat, m˚ uˇze nastat situace, kdy pojmeme podezˇren´ı, ˇze fluktuace v regresn´ım modelu jsou korelov´ any, pro r˚ uzn´ a pozorov´ an´ı, tj. cov(Ei , Ej ) 6= 0 pro i 6= j. V tom pˇr´ıpadˇe pouˇzijeme Durbin-Watson˚ uv test, o kter´em jsme se v´ yˇse uˇz zm´ınili, a o kter´em pojedn´ame podrobnˇe pozdˇeji. Poznamenejme vˇsak, ˇze na rozd´ıl od Durbin-Watsonova testu, kter´ y je robustn´ı proti heteroskedasticitˇe, jsou testy na heteroskedasticitu v pˇr´ıpadˇe korelovanosti fluktuac´ı obvykle velmi slab´e, pokud je nepovaˇzujeme za zcela nevyhovuj´ıc´ı, a mohou d´at (a obvykle d´avaj´ı) zav´adˇej´ıc´ı v´ ysledky. Podobnˇe, dojde-li k podurˇcen´ı modelu, v´ yˇse uveden´e testy obvykle indikuj´ı heteroskedasticitu, byt’ po doplnˇen´ı dalˇs´ıch vysvˇetluj´ıc´ıch promˇenn´ ych by test bez probl´em˚ u “proˇsel”. Obecnˇe sice plat´ı, ˇze poruˇsen´ı homoskedasticity m˚ uˇze, pokud je znaˇcn´e, podstatnˇe sn´ıˇzit (LS,n) ˆ eficienci odhadu β . Vzhledem k tomu vˇsak, ˇze i pˇri heteroskedastick´ ych n´ahodn´ ych fluk(LS,n) ˆ tuakc´ıch je odhad β st´ale jeˇstˇe konsistentn´ı a pokud budou pˇr´ısluˇsn´e individu´aln´ı rozptyly stˇejnomˇernˇe ohraniˇceny a fluktuace budou nez´avisl´e, dokonce asymptoticky norm´aln´ı, lze v pˇr´ıpadˇe, ˇze indexov´ y graf neindikuje podezˇren´ı na heteroskedasticitu, pouˇz´ıt βˆ(LS,n) . 84
6.2
Normalita n´ ahodn´ ych fluktuac´ı
Test na “alespoˇ n pˇribliˇzn´e ovˇeˇren´ı” pˇredpokladu normality fluktuac´ı je patrnˇe d˚ uleˇzitˇejˇs´ı neˇz v´ yˇse uveden´e testy na homoskedasticitu. Z n´asleduj´ıc´ıho pˇr´ıkladu okamˇzitˇe pochop´ıme proˇc. Oznaˇcme Φ0 standardn´ı norm´aln´ı rozdˇelen´ı a poloˇzme PΦ0 (²) = {Q ∈ M(X) : Q = (1 − τ )Φ0 + τ H, H ∈ M(X), τ ∈ (0, ²) } . Potom Studentovo rozdˇelen´ı s 9 stupni volnosti je prvkem “okol´ı” PΦ0 (²) pro ² ≥ 0.028 a se 3 stupni volnosti pro ² ≥ 0.078. To jin´ ymi slovy znamen´a, ˇze v prv´em pˇr´ıpadˇe staˇc´ı, aby se dva tˇricetiprvkov´e n´ahodn´e v´ ybˇery liˇsily v jednom pozorov´ an´ı a jeden v´ ybˇer m˚ uˇze b´ yt ze standardn´ıho norm´aln´ıho rozdˇelen´ı, zat´ımco ten druh´ y ze Studentova. Pro druh´ y pˇr´ıpad staˇc´ı, aby se 50-ti prvkov´e v´ ybˇery liˇsily ve ˇctyˇrech pozorov´ an´ıch. To se na prvn´ı pohled m˚ uˇze zd´at jako vysok´ a kontaminace, nicm´enˇe napˇr. v Hampel a kol. (1986) lze nal´ezt ˇradu pˇr´ıklad˚ u (re´aln´ ych dat), ukazuj´ıc´ıch, ˇze 10% kontaminace nen´ı jev nikterak ojedinˇel´ y, sp´ıˇse naopak. Na druh´e stranˇe, uˇz v roce 1922 Sir Ronald Aylmer Fisher uk´azal, ˇze asymptotick´ a eficience pr˚ umˇeru x je pˇri Studentovˇe tk rovna 1−6/[k(k +1)]. Pro odhad rozptylu sn dostaneme hodnotu asymptotick´e eficience rovnou 1 − 12/[k(k + 1)]. To znamen´a, ˇze pro t9 a t3 je asymptotick´ a efficience pr˚ umˇeru x postupnˇe rovna 93 % a 50 %, a eficience rozptylu je pro tyto dva pˇr´ıpady 83 % a 0 %. To napov´ıd´a, ˇze vlastnosti tˇech statistik, kter´e byly odvozeny jako optim´aln´ı pro norm´aln´ı rozdˇelen´ı, se mohou znaˇcnˇe zhorˇsovat v pˇr´ıpadˇe, kdy data byla generov´ ana rozdˇelen´ım, kter´e, jak napov´ıd´a prvn´ı ˇc´ast pˇr´ıkladu, prakticky nejsme schopni rozliˇsit od norm´aln´ıho. Podotknˇeme, ˇze pˇr´ıpadn´a skepse, kter´a by snad mohla b´ yt inspirov´ ana t´ımto pˇr´ıkladem nen´ı na m´ıstˇe, nebot’ napˇr´ıklad eficience 6%-n´ıho usekan´eho pr˚ umˇer˚ u neklesne pod 96% pro hodnoty ² ∈ (0, 0.3). Takov´ ym odhad˚ um se ˇr´ık´a robustn´ı a dnes je jich pro regresn´ı anal´ yzu zn´amo v´ıce neˇz je tˇreba k solidn´ı anal´ yze dat. Tak´e si o nich pozdˇeji v z´avˇeru tˇechto a zejm´ena v dalˇs´ım d´ıle skript nˇeco pov´ıme. Jak jsme uˇz ˇrekli v´ yˇse d˚ uvodem, proˇc zde prob´ır´ ame metodu nejmenˇs´ıch ˇctverc˚ uak n´ı n´aleˇzej´ıc´ı diagnostick´e prostˇredky tak podrobnˇe, je ten fakt, ˇze tuto metodu pouˇz´ıv´ a st´ale mnoho uˇzivatel˚ u a chceme-li se nauˇcit zodpovˇednˇe nauˇcit posuzovat jejich v´ ysledky a z´avˇery, mus´ıme tuto metodu dobˇre ovl´adat. Dˇr´ıve neˇz se pust´ıme do vlastn´ıho v´ ykladu uved’me alespoˇ n nˇekter´e citace prac´ı t´ ykaj´ıc´ıch se testov´an´ı normality rezidu´ı. Mezi ty, kter´e b´ yvaj´ı ˇcasto v r˚ uzn´ ych uˇcebn´ıch textech uv´adˇeny patˇr´ı napˇr. Pearson a kol. (1977), Locke a Spurrier (1977), Saniga a Miles (1979), Bera a Jarque (1981) ˇci Kiefer a Salmon (1983) (mnoho dalˇs´ıch referenc´ı lze nal´ezt v Judge a kol. (1980)). Je asi uˇziteˇcn´e poznamenat, ˇze lze uk´azat, ˇze za urˇcit´ ych podm´ınek (White, MacDonald (1980)) bˇeˇzn´e testy na normalitu maj´ı asymptoticky stejn´e vlastnosti, uplatn´ıme-li je na rezidua z regresn´ı anal´ yzy provedenou metodou nejmenˇs´ıch ˇctverc˚ u, jako kdybychom je aplikovali na soubor nez´avisl´ ych pozorov´ an´ı. Jeˇstˇe se k tomu vr´at´ıme v z´avˇeru tohoto v´ ykladu. Dˇr´ıve byl v uˇcebnic´ıch a monografi´ıch zd˚ urazˇ nov´ an fakt, ˇze rez´ıdua jsou mezi sebou z´avisl´a, byt’ tato z´avislost sl´abne se stoupaj´ıc´ım poˇctem pozorov´ an´ı, a bylo doporuˇcov´ ano pouˇzit´ı BLUS rezidu´ı r˜ (Theil (1965)), tj. rezidu´ı, kter´a jsou: • line´arn´ımi funkcemi vysvˇetlovan´e promˇenn´e Y (uvˇedomme si, ˇze ³
´
r(βˆ(LS,n) ) = I − X(X T X)−1 X T Y 85
jsou line´arnˇe z´avisl´a na Y ), • jsou nevych´ ylen´a, • jsou homoskedastick´a a nekorelovan´ a, a • minimalizuj´ı
h
i
IE (˜ r − rˆ)T (˜ r − rˆ) , kde rˆ je zad´ano v (87). Samozˇrejmˇe, ˇze bez nˇejak´eho algoritmu, kter´ y by vedl k vyˇc´ıslen´ı BLUS rezidu´ı, by jejich pouˇzit´ı bylo v´ıce m´enˇe jen teoretickou moˇznost´ı. Tady je tedy “n´avod”, jak z bˇeˇzn´ ych rezidu´ı r(βˆ(LS,n) ) vypoˇc´ıtat BLUS rezidua (viz Judge a kol. (1980), str. 173, vztah (5.5.12)) #
" H X
dh qh qhT rˆ0 , 1 + d h h=1
r˜ = rˆ − X (1) [X (0) ]−1
(86)
kde r(βˆ(LS,n) ) = Y − X · βˆ(LS,n) = (ˆ r0T , rˆT )T , rˆ0 ∈ Rp , rˆ ∈ Rn−p
(87)
a X = (X (0)T , X (1)T )T a X (0) je typu (p × p), a pˇredpokl´ad´ ame, ˇze je regul´arn´ı (to m˚ uˇze 2 2 2 vyˇzadovat pˇreˇc´ıslov´an´ı ˇr´adk˚ u matice X), a koneˇcnˇe d1 , d2 , . . . , dp a q1 , q2 , . . . , qp jsou vlastn´ı ˇc´ısla a vlastn´ı vektory matice X (0) (X T X)−1 X (0)T . Takov´ a matice m´a p vlastn´ıch kladn´ ych ˇc´ısel, z nichˇz H ˇc´ısel je (ostˇre) menˇs´ıch neˇz jedna. Tato ˇc´ısla a vektory se objevuj´ı v (86). Koneˇcnˇe pak seˇrad´ıme jednotliv´e souˇradnice tohoto vektoru r˜ dle velikosti, tj. r˜(1) ≤ r˜(2) ≤ . . . ≤ r˜(n−p) a nalezneme Shapiro-Wilkovu statistiku ³P
W =
h i=1 ai,n−p
h
r˜(n−p−i+1) − r˜(i)
Pn−p ³ i=1
i´2
´2
r˜i − ˜r˜
,
P
n−p n−p−1 1 ˜i a ai,n−p jsou koeficienty kde h = n−p (pro sud´e ˇci lich´e n − p), ˜r˜ = n−p i=1 r 2 nebo h = 2 tabelovan´e v Shapiro, Wilk (1965). Tam lze nal´ezt tak´e kritick´e hodnoty pro statistiku W . Jak uˇz jsme se v´ yˇse zm´ınili, existuj´ı v´ ysledky napov´ıdaj´ıc´ı, ˇze lze pouˇz´ıt i bˇeˇzn´ a, tj. nikterak neupravovan´ a rezidua a ˇze v´ ysledek m˚ uˇze b´ yt lepˇs´ı neˇz s BLUS rezidu´ı (napˇr. Huang, Bolch (1974)). Aˇckoliv jednoznaˇcn´e doporuˇcen´ı lze jen tˇeˇzko d´at, faktem z˚ ust´ av´ a, ˇze se mnoh´e testy urˇcen´e k testov´an´ı normality jednorozmˇern´ ych dat, kter´a jsou povaˇzov´ ana za realizaci posloupnosti nez´avisl´ ych n´ahodn´ ych veliˇcin, ˇcasto pouˇz´ıvaj´ı i v regresi (bez dalˇs´ıch u ´prav). Pˇripomeˇ nme proto, ˇze se ˇcasto pouˇz´ıv´a test na ˇsikmost a ˇspiˇcatost, kter´ y je zaloˇzen´ y na studentizovan´e v´ ybˇerov´e ˇsikmosti a ˇspiˇcatosti. Tyto jsou zad´any vztahy
δ=
m3 s3
(ˇsikmost) a
86
γ=
m4 s4
(ˇspiˇcatost),
kde ms je s-t´ y v´ ybˇerov´ y centr´aln´ı moment ms =
n 1X (zi − z¯)s n i=1
a kde z¯ oznaˇcuje pr˚ umˇer namˇeˇren´ ych (napozorovan´ ych) hodnot. Pro stˇredn´ı hodnoty a rozptyly tˇechto statistik lze odvodit formulky IE δ = 0 a var(δ)
a
6(n − 2) (n + 1)(n + 3)
a
IE γ = 3 −
var(γ) =
6 n+1
24n(n − 2)(n − 3) . (n + 1)2 (n + 3)(n + 5)
Nen´ı pˇr´ıliˇs obt´ıˇzn´e dok´azat, ˇze δ a γ jsou asymptoticky nekorelovan´e. Odpov´ıdaj´ıc´ı testy jsou tedy zaloˇzeny na veliˇcin´ach T3 =
δ 1 2
var (δ)
a T4 =
γ − IE γ 1
var 2 (γ)
.
Koneˇcnˇe pak kritick´e hodnoty se najdou v pr´aci Mulholland (1977) (pro rozsahy v´ ybˇeru menˇs´ı nebo rovn´e 25) a v ˇcl´anku Pearson a Hartley (1956, 1972). N´apady na zlepˇsen´ı tˇechto test˚ u lze nal´ezt v knize Andˇel (1993) ˇci v pr´aci D’Agostino a kol. (1990).
6.3
Nez´ avislost n´ ahodn´ ych fluktuac´ı
Jedn´ım z pˇredpoklad˚ u, se kter´ ym jsme zaˇcali n´aˇs v´ yklad regresn´ı anal´ yzy, byla nez´avislost n´ahodn´ ych fluktuac´ı u jednotliv´ ych pozorov´ an´ı. Nicm´enˇe lze jednoduˇse uk´azat, ˇze i v pˇr´ıpadˇe, kdy “naivnˇe” pouˇzijeme odhad nejmenˇs´ıch ˇctverc˚ u aˇc pr´avˇe zm´ınˇen´ y pˇredpoklad je poruˇsen, dostaneme nestrann´ y a konsistentn´ı odhad regresn´ıch koeficient˚ u. Obvykle se vˇsak uv´ad´ı, ˇze m˚ uˇze doj´ıt ke znaˇcn´e ztr´atˇe eficience odhadu. To je pravda a dokonce byly provedeny (numerick´e) studie ukazuj´ıc´ı, jak mnoho z eficience ztrat´ıme. Autoˇri si vˇsak neuvˇedomuj´ı, ˇze ztr´ata eficience, jdouc´ı na vrub kontaminace dat je (typicky) vˇzdy vˇetˇs´ı, neˇz ztr´ata zp˚ usoben´a vz´ajemnou z´avislost´ı fluktuac´ı (viz napˇr. Hampel a kol. (1986) ). Proto je nutn´e br´at n´avrhy na korigov´ an´ı z´avislosti fluktuac´ı (viz Cochrane, Orcutt (1949) nebo Prais, Winsten (1954)) s jistou rezervou. Pov´ıme si o tom pozdˇeji, patrnˇe v dalˇs´ım d´ıle skript. Snadno nahl´edneme, ˇze i v pˇr´ıpadˇe, ˇze v modelu (4) jsou n´ahodn´e fluktuace statisticky striktnˇe nez´avisl´e, jsou rezidua vˇzdy slabˇe korelov´ ana - a tedy tak´e z´avisl´ a. Z´avislost rezidu´ı plyne napˇr. ze vztahu IE (Y − X βˆ(LS,n) )(Y − X βˆ(LS,n) ) = IE (Y − X(X T X)−1 X T Y )(Y − X(X T X)−1 X T Y )T h
ih
= IE Y − X(X T X)−1 X T (Xβ 0 + E) h
i
h
iT
Y − X(X T X)−1 X T (Xβ 0 + E) i
h
i
= IE Ip − X(X T X)−1 X T EE T Ip − X(X T X)−1 X T = σ 2 Ip − X(X T X)−1 X T , ukazuj´ıc´ı vˇsak mna druh´e stranˇe, ˇze za dosti obecn´ ych podm´ınek jsou rezidua alespoˇ n asymptoticky nez´avisl´a. Test, jeˇz bude d´ale vyloˇzen, vˇsak nespol´eh´ a na tuto “pouze” asymptotickou nez´avislost a je zkonstruov´an tak, aby rozhodoval o z´avislosti ˇci nez´avislosti teoretick´ ych n´ahodn´ ych 87
fluktuac´ı. Navrhli jej v roce 1952 J. Durbin a G. S. Watson a je ˇc´ asteˇcnˇe zaloˇzen na v´ ysledc´ıch ˇcl´anku T. W. Andersona (1948) a ˇc´asteˇcnˇe na excelentn´ım triku, kter´ y d´ale pop´ıˇseme. Anderson zjistil, ˇze pokud pˇredpokl´ad´ame, ˇze vektor n´ahodn´ ych fluktuac´ı je rozdˇelen bud’ (hypot´eza) dle n-rozmˇern´eho norm´aln´ıho rozdˇelen´ı s kovarianˇcn´ı matic´ı Ψ−1 nebo (alternativa) dle t´ehoˇz rozdˇelen´ı, ale s kovarianˇcn´ı matic´ı Θ−1 a pokud vektor regresn´ıch koeficient˚ u je vlastn´ım vektorem matice Ψ a Θ , pak statistika z(r(βˆ(LS,n) )) =
rT (βˆ(LS,n) ) Θ r(βˆ(LS,n) ) rT (βˆ(LS,n) ) Ψ r(βˆ(LS,n)
poslouˇz´ı jako z´aklad ke konstrukci nejsilnˇejˇs´ıho testu pro testov´ an´ı t´eto hypot´ezy proti jist´e tˇr´ıdˇe alternativ, pˇrirozenˇe zahrnuj´ıc´ı v´ yˇse uvedenou alternativu. Tento v´ ysledek se zd´al ponˇekud ’ nepraktick´ y, nebot jak d´ale uvid´ıme, statistika z z´ avis´ı na matici pl´anu X a tedy i kritick´e hodnoty pˇr´ısluˇsn´eho testu budou tak´e z´avisl´e na X. Avˇsak Durbinovi a Watsonovi se v roce 1952 podaˇrilo tuto nesn´az pˇrekonat. Nejprve poznamenejme, ˇze studovali tuto statistiku pro speci´aln´ı pˇr´ıpad, kdy hypot´ezou je nez´avislost, tj. matice Ψ = I. Durbin a Watson rovnˇeˇz pozmˇenili oznaˇcen´ı kovarianˇcn´ı matice pˇri alternativˇe z Θ na A a protoˇze (veˇsker´ a) literatura vˇenovan´a t´eto problematice se pˇridrˇzuje jejich znaˇcen´ı, uˇcin´ıme tak i my. Budeme tedy nad´ale ps´at rT A r z(r) = T , (88) r r r oznaˇcuje bˇeˇzn´a rezidua z anal´ yzy pomoc´ı nejmenˇs´ıch ˇctverc˚ u r(βˆ(LS,n) ). Vezmeme-li v u ´vahu, ˇze βˆ(LS,n) = (X T X)−1 X T Y, dostaneme
h
i
r(βˆ(LS,n) ) = Y − X(X T X)−1 X T Y = In − X(X T X)−1 X T Y h
i
h
i
= In − X(X T X)−1 X T [X β 0 + E] = In − X(X T X)−1 X T E. Pro zjednoduˇsen´ı z´apisu oznaˇcme M = In − X(X T X)−1 X T . Pak m´ame rT (βˆ(LS,n) ) A r(βˆ(LS,n) ) = E T M T A M E = E T M A M E, pˇriˇcemˇz posledn´ı rovnost plyne ze symetrie matice M . Jak jsme uk´azali v´ yˇse pro libovolnou re´alnou symetrickou matici existuje ortogon´aln´ı matice, kter´a ji diagonalizuje po vyn´asoben´ı zleva a zprava (viz Tvrzen´ı 7). Pro projekˇcn´ı matici M oznaˇcme tuto matici L, tj. L bude matice, pro kterou bude platit LT · L = In a oznaˇc´ıme-li D diagon´aln´ı matici maj´ıc´ı na diagon´ale vlastn´ı ˇc´ısla matice M , m´ame nav´ıc LT M L = D. Pˇripomeˇ nme, ˇze d´ıky tomu, ˇze L je ortogon´aln´ı a tedy regul´arn´ı, je lev´a inversn´ı matice rovna prav´e a tedy tak´e L LT = In . Nav´ıc, d´ıky tomu, ˇze matice L je sloˇzena z vlastn´ıch vektor˚ u matice M (viz opˇet Tvrzen´ı 7) a matice M je projekˇcn´ı matic´ı do prostoru M(M ) (tj. do line´arn´ıho prostoru generovan´e sloupci matice M ) je tato matice idempotentn´ı (tj. M · M = M ) a to implikuje, ˇze D obsahuje jen nuly a jedniˇcky. Protoˇze nav´ıc rank(D) = rank(M ) = n − p,
88
m˚ uˇzeme pˇreuspoˇr´adat sloupce matice L tak, ˇze (0 zastupuje nulov´e matice s pˇr´ısluˇsn´ ym poˇctem ˇr´adk˚ u a sloupc˚ u)
.. In−p . 0 T L M L = .......... . .. 0 . 0 Nyn´ı m˚ uˇzeme ps´at LT M A M L = LT M L · LT A L · LT M L .. .. .. I . 0 B . B I . 0 3 n−p 1 n−p = .......... · .......... · .......... , .. .. .. . 0 0 . 0 B2 . B4 0
.. B1 . B3 kde . . . . . . . . . . je pˇr´ısluˇsn´e dˇelen´ı re´aln´e symetrick´e matice LT A L. Necht’ N1 je ortogon´aln´ı . B2 .. B4 matice, kter´a diagonalizuje B1 , tj. (pr´azdn´ a m´ısta representuj´ı nuly)
ν1
ν2
N1T B1 N1 = "
Potom N =
N1 0 0 Ip
..
,
.
(89)
νn−p
#
je ortogon´aln´ı, tak ˇze H = L · N je tak´e ortogon´aln´ı. Odtud H T M H = N T LT M L N "
=N
T
In−p 0 0 0
#
"
N=
In−p 0 0 0
#
a HT M A M H = HT M H · HT A H HT M H .. ν . 1 .. ν2 . 0 .. .. . . = . .. νn−p . ....................... .. 0 . 0 Poloˇz´ıme-li koneˇcnˇe ξ = H T E, m´ame d´ıky ortogonalitˇe matice H z(βˆ(LS,n) ) =
(90)
E = H ξ a tedy
ET M T A M E ET M T A M E rT (βˆ(LS,n) ) A r(βˆ(LS,n) ) = = ET M T M E ET M E rT (βˆ(LS,n,`) ) r(βˆ(LS,n) ) P
n−p 2 ξT H T M T A M H ξ i=1 νi ξi = = P n−p 2 . ξT H T M H ξ i=1 ξi
(91)
Vztah (91) je moˇzn´e vyuˇz´ıt k nalezen´ı kritick´ ych hodnot pro statistiku z(r), pouˇzijeme-li n´asleduj´ıc´ı lemma, dok´azan´e Durbinem a Watsonem a formalizuj´ıc´ı vlastnˇe geni´aln´ı trik, umoˇzn ˇuj´ıc´ı konstrukci cel´eho testu.
89
LEMMA 10 (Durbin and Watson (1952)) Jsou-li r a E n × 1 vektory takov´e, ˇze r = M · E, T kde M = In −X(X T X)−1 X T a z = rrTArr (viz (88)), kde A je re´ aln´ a symetrick´ a matice, potom: (a) Existuje ortogon´ aln´ı transformace E = H ξ takov´ a, ˇze Pn−p
νi ξi2 z = Pi=1 n−p 2 i=1 ξi kde ν1 , ν2 , . . . , νn−p jsou ta vlastn´ı ˇc´ısla matice M A, kter´ a jsou nenulov´ a. (b) Je-li n − p − s sloupc˚ u matice X line´ arn´ımi kombinacemi n − p − s vlastn´ıch vektor˚ u matice A, potom n − p − s ˇc´ısel ν’s je rovno vlastn´ım ˇc´ısl˚ um odpov´ıdaj´ıc´ım tˇemto vlastn´ım vektor˚ um; po pˇreˇc´ıslov´ an´ı ostatn´ıch vlastn´ıch ˇc´ısel tak, ˇze ν1 ≤ ν2 ≤ · · · ≤ νs a λ1 ≤ λ2 ≤ · · · ≤ λs+p , kde λ’s jsou vlastn´ı ˇc´ısla matice A, dostaneme λt ≤ νt ≤ λt+p ,
t = 1, 2, . . . , s.
ˇ ast (a) byla vlastnˇe jiˇz dok´az´ana v´ C´ yˇse, zbytek lze nal´ezt v Durbin a Watson (1952) (d˚ ukaz ˇc´asti (b) je pomˇernˇe dlouh´ y aˇc pˇr´ımoˇcar´ y a je zaloˇzen na faktu, ˇze M je projekˇcn´ı matice a tedy je rozloˇziteln´a na souˇcin M1 ·M2 ·. . .·Mp p matic´ı typu In −u·uT , kde u ∈ Rn (viz Durbin and Watson (1952)). Poznamenejme jeˇstˇe, ˇze jak plyne z (89) a (90) ν’s jsou vlastn´ı ˇc´ısla matice B1 pr´avˇe tak jako (nenulov´a) vlastn´ı ˇc´ısla matice M T A M , nebot’ N1 a H diagonalizuj´ı B1 a M T A M . Protoˇze vlastn´ı ˇc´ısla souˇcinu matic nez´avis´ı na poˇrad´ı n´asoben´ı matic (pokud to jde zn´asobit, viz napˇr. Macdufee (1946)), ν’s jsou tak´e vlastn´ımi ˇc´ısly matice M M T A = M 2 A = M A, pˇriˇcemˇz posledn´ı rovnost plat´ı d´ıky tomu, ˇze matice M je projekˇcn´ı a tud´ıˇz idempotentn´ı. Pˇripomeˇ nme jeˇstˇe, ˇze v ˇcl´anku von Neumann (1941) je moˇzn´e nal´ezt vztah pro ˇc´ısla λi ’s, totiˇz ½ µ ¶¾ π(i − 1) λi = 2 1 − cos , i = 1, 2, . . . , n. n Obvykle se traduje, ˇze kritick´e hodnoty pro Durbin-Watson˚ uv test byly nalezeny pomoc´ı statistik Pn−p 2 (LS,n) i=1 λi ξi ˆ zL (β )= P n−p 2 i=1 ξi a Pn−p λi+p ξi2 zU (βˆ(LS,n) ) = i=1 Pn−p 2 . i=1 ξi Z v´ yˇse uveden´eho lemmatu nepochybnˇe plyne zL (βˆ(LS,n) ) ≤ z(βˆ(LS,n) ) ≤ zU (βˆ(LS,n) ). a tedy by to bylo principi´alnˇe moˇzn´e. Durbin s Watsonem vˇsak pouˇzili pˇr´ımo aproximace distribuˇcn´ı funkce statistiky rT A r . (92) rT r 90
K aproximaci pouˇzili norm´aln´ı distribuci, pro velk´ a n − p (viz tak´e Anderson (1948)), nebo beta-distribuci pro stˇredn´ı hodnoty n − p. Nejprve nalezli pomoc´ı pˇredchoz´ıho lemmatu horn´ı a doln´ı hranice pro momenty a ty pak pouˇzili pro konstrukci “doln´ı” a “horn´ı” distribuˇcn´ı funkce a n´asledn´e aproximace kritick´ ych hodnot. Jejich u ´vahy byly zaloˇzeny na dvou faktech. Za prv´e, ortogon´aln´ı transformace vektoru, jehoˇz sloˇzky jsou norm´alnˇe rozdˇelen´e a jsou nez´avisl´e d´av´a vektor, kter´ y m´a sloˇzky opˇet norm´alnˇe rozdˇelen´e se stejn´ ymi parametry a kter´e jsou i nad´ale nez´avisl´e. Za druh´e, pˇri pˇredpokladu normality a nez´avislosti sloˇzek vektoru E, statistika z(βˆ(LS,n) ) a jej´ı jmenovatel rT (βˆ(LS,n) ) · r(βˆ(LS,n) ) jsou statisticky nez´avisl´e (Pitman (1937), von Neumann (1941)) a tedy (pro libovoln´e s ∈ N ) m´ame n
IE
os
rT (βˆ(LS,n) ) A r(βˆ(LS,n) )
n
os
z(βˆ(LS,n) )
= IE
n
IE
os
rT (βˆ(LS,n) ) r(βˆ(LS,n) )
.
Koneˇcnˇe pak m´ame n
IE
os
z(βˆ(LS,n) )
n
=
IE IE
rT (βˆ(LS,n) ) A r(βˆ(LS,n) )
n
os
os
rT (βˆ(LS,n) ) r(βˆ(LS,n) )
a Durbin-Watsonovo lemma pak dovoluje nal´ezt horn´ı a doln´ı hranici pro momenty statistiky z. Budeme-li specifikovat alternativu k nez´avislosti Ei ’s jako autoregresn´ı proces, tj. Ei = θEi−1 + Vi , i = 2, 3, . . . , n, |θ| < 1 budeme-li pˇredpokl´adat, ˇze {Vi }∞ avisl´ ych a stejnˇe rozdˇelen´ ych n´ahodn´ ych i=1 je posloupnost nez´ veliˇcin - podrobnˇe budou autoregresn´ı procesy probr´any v dalˇs´ım d´ıle skript, pˇr´ım´ y v´ ypoˇcet d´av´a (pr´azdn´a m´ısta opˇet reprezentuj´ı nuly)
1 −θ −θ 1 + θ2 −θ −θ 1 + θ2 −θ Aθ = .. .. .. . . . −θ 1 + θ2 −θ −θ 1
.
Okamˇzitˇe je vidˇet, ˇze θ = 1 a θ = −1 pˇredstavuj´ı dva limitn´ı pˇr´ıpady, kter´e sice jiˇz nejsou akceptovateln´e z hlediska teorie pravdˇepodobnosti v tom smyslu, ˇze nen´ı zaruˇcena stacionarita posloupnosti n´ahodn´ ych fluktuac´ı, ale z hlediska budov´ an´ı naˇseho testu je m˚ uˇzeme pˇrijmout. Pro prvn´ı dostaneme 1 −1 −1 2 −1 −1 2 −1 A1 = .. .. .. . . .
a z(βˆ(LS,n) ) =
−1 Pn−1 i=1
2 −1 −1 1
[ri (βˆ(LS,n) ) − ri+1 (βˆ(LS,n) )]2 Pn r2 (βˆ(LS,n) ) i=1 i
91
(93)
=2−
2
Pn−1 i=1
ri (βˆ(LS,n) ) ri+1 (βˆ(LS,n) ) + r12 (βˆ(LS,n) ) + rn2 (βˆ(LS,n) ) Pn r2 (βˆ(LS,n) ) i=1 i
≈ 2(1 − ρˆ). Uvaˇzujeme-li druhou krajn´ı moˇznost, totiˇz θ = −1, dostaneme z(βˆ(LS,n) ) ≈ 2(1 + ρˆ). To umoˇzn ˇuje zverifikovat, ˇze statistiky, kter´e vyjdou at’ uˇz z jednoho ˇci druh´eho extr´emu, jsou schopny se vypoˇr´adat souˇcasnˇe jak s pozitivn´ı tak negativn´ı z´avislost´ı mezi po sobˇe n´asleduj´ıc´ımi n´ahodn´ ymi fluktuacemi, tj. jak s pˇr´ıpadem θ > 0 tak s θ < 0, nebot’ obˇe obsahuj´ı koeficient korelace. Historick´e d˚ uvody vedly k tomu, ˇze se oznaˇcen´ı Durbin-Watsonova statistika vˇzilo pro (93) (viz napˇr. Kmenta (1986), Judge a kol. (1980) nebo Zv´ara (1989)), avˇsak d˚ usledek toho je, ˇze je nutn´e uˇz´ıvat nejen kritick´e hodnoty implikovan´e “doln´ı” a “horn´ı” statistikou zL (βˆ(LS,n) ) a zU (βˆ(LS,n) ) (ve smyslu, kter´ y byl v´ yˇse podrobnˇe pops´an) a kter´e m˚ uˇzeme napˇr. oznaˇcit zL a zU , ale i kritick´e hodnoty, kter´e jsou zrcadlov´ ym obrazem tˇechto prv´ ych. To znamen´a, ˇze (LS,n) ˆ zam´ıtneme hypot´ezu o nez´avislosti rezidu´ı pokud z(β ) < zL nebo z(βˆ(LS,n) ) > 4 − zL , a naopak nezam´ıtneme tuto hypot´ezu pokud z(βˆ(LS,n) ) ∈ (zU , 4 − zU ). V ostatn´ıch pˇr´ıpadech je v´ ysledek “nerozhodnut´ y” (bohuˇzel). Pokud chceme rozhodnout i v takov´em pˇr´ıpadˇe, nezb´ yv´ a neˇz vypoˇc´ıtat pˇresn´e kritick´e hodnoty, kter´e jsou pˇrirozenˇe z´avisl´e na matici pl´anu X. Postup je n´asleduj´ıc´ı. Nejprve se vypoˇc´ıt´ a (LS,n) (LS,n) ˆ ˆ stˇredn´ı hodnota IE z(r(β )) a rozptyl var(z(r(β ))) dle n´asleduj´ıc´ıch vztah˚ u: IE z(r(βˆ(LS,n) )) =
2(n − 1) − tr(X T AX(X T X)−1 ) n−p
a var(z(r(βˆ(LS,n) ))) =
n h i o 2 Q∗ − 2(n − 1) − tr(X T AX(X T X)−1 ) IE z(r(βˆ(LS,n) )) . (n − p)(n − p + 2)
V´ yraz pro Q∗ je ponˇekud sloˇzitˇejˇs´ı, totiˇz h
i2
2(3n − 4) − 2tr(X T A2 X(X T X)−1 ) + tr( X T AX(X T X)−1 ), nicm´enˇe s pomoc´ı dneˇsn´ı v´ ypoˇcetn´ı techniky nen´ı nepˇrekonatelnou pˇrek´ aˇzkou. Potom se vyˇreˇs´ı rovnice IE z(r(βˆ(LS,n) )) = a + bIE z ∗ a var(z(r(βˆ(LS,n) ))) = b2 var(z ∗ ). Hodnoty IE z ∗ a var(z ∗ ) se najdou v tabulk´ach napˇr. v ˇcl´ anku Judge a kol. (1982). nalezen´ı pˇresn´e kritick´e hodnoty ∗ zC = a + bzU .
92
Zb´ yv´ a
Povˇsimnˇeme si jeˇstˇe, ˇze zat´ımco matice Aθ je pro θ ∈ (−1, 1) regul´arn´ı, matice A1 uˇz regul´arn´ı nen´ı (snadno se to nahl´edne z rozkladu matice A(θ), kter´ y vypad´a takto. Aθ = PθT · Pθ , kde
√ Pθ =
1 − θ2 −θ
1 −θ
1 .. .
,
..
. −θ
1 −θ
1
a kde Pθ je evidentnˇe singul´arn´ı pro |θ| = 1).
6.4 6.4.1
Nez´ avislost vysvˇ etluj´ıc´ıch promˇ enn´ ych a n´ ahodn´ ych fluktuac´ı vod a pˇ r´ıklady situac´ı poruˇ sen´ı nez´ avislosti
V modelu, ve kter´em pˇredpokl´ad´ame, ˇze je nˇekter´ a vysvˇetluj´ıc´ı promˇenn´ a statisticky z´avisl´ a (LS,n) ˆ s n´ahodn´ ymi fluktuacemi, nelze zaruˇcit, ˇze bude odhad β obecnˇe nestrann´ y a konsistentn´ı. Tento fakt neb´ yv´a v nˇekter´ ych uˇcebnic´ıch regresn´ı anal´ yzy zd˚ uraznˇen a m˚ uˇze v´est k nevhodn´e aplikaci metody nejmenˇs´ıch ˇctverc˚ u. Snaha o vypoˇr´ ad´ an´ı se s touto situac´ı vedla vlastnˇe k rozvinut´ı cel´e jedn´e partie teorie regresn´ı anal´ yzy, totiˇz k teorii instrument´ aln´ıch promˇenn´ych (instrumental variables). Budeme uvaˇzovat model Yi = XiT β 0 + Ei ,
i = 1, 2, . . . , n,
(94)
kde pouˇzit´ı velk´eho p´ısmena pro nosiˇce Xi naznaˇcuje, jak plyne z u ´mluvy na zaˇc´ atku skript, ˇze budeme uvaˇzovat n´ahodn´e nosiˇce (vysvˇetluj´ıc´ı promˇenn´e). Jiˇz na sam´em zaˇc´ atku tohoto textu (viz text pod vztahem (1)) jsme pˇredeslali, ˇze pokud m´ame n´ahodn´e nosiˇce, obvykle pˇredpokl´ad´ame, ˇze tyto nosiˇce a n´ahodn´e fluktuace v jednom ˇr´ adku modelu (94) jsou nekorelovan´e, tj. IE {Xi Ei } = 0. Pˇredpokl´adejme, ze tomu ¾ tak nen´ı, tj. IE {Xi Ei } = IE {X1 E1 } 6= 0, ½ ˇ a ˇze posloupnost vektor˚ u {Zi }∞ i=1 =
³
XiT , Ei
´T ∞
je posloupnost´ı nez´avisl´ ych a stejnˇe
i=1
rozdˇelen´ ych n´ yoch vektor˚ u. Bez podstatn´e u ´jmy na obecnosti pˇredpokl´adejme, ˇze matnahodn´ T ice Q = IE Xi Xi je regul´arn´ı. V´ yˇse jsme si ˇrekli, ˇze pokud by byla singul´arn´ı, obvykle vypust´ıme nˇekter´ y sloupec matice X a v tom pokraˇcujeme tak dlouho, aˇz dos´ahneme regularity matice Q. Aplikace siln´eho z´akona velk´ ych ˇc´ısel d´av´ a n 1 T 1X X X = lim Xi XiT = Q s.j., n→∞ n n→∞ n i=1
lim
coˇz je ekvivalentn´ı s
µ
lim
n→∞
Podobnˇe
1 T X X n
¶−1
= Q−1
s.j..
n 1 T 1X X E = lim Xi Ei = IE {X1 E1 } n→∞ n n→∞ n i=1
lim
93
s.j. .
To ovˇsem implikuje µ
lim
n→∞
1 T X X n
¶−1
1 T X E = Q−1 IE {X1 E1 } n
s.j. .
Koneˇcnˇe pak dostaneme vztah ³
βˆ(LS,n) = β 0 + X T X µ 0
=β +
1 T X X n
¶−1
1 T X E = β0 + n
´−1
µ
XT E
1 T X X n
¶−1
n 1X Xi Ei , n i=1
(95)
kter´ y napov´ıd´a, ˇze lim βˆ(LS,n) = β 0 + Q−1 IE {X1 E1 }
n→∞
s.j.,
(96)
tj. napov´ıd´a, ˇze βˆ(LS,n) nen´ı konsistentn´ım odhadem. Diskuze nestrannosti nen´ı tak jednoduch´a, ale spoˇcten´ım stˇredn´ı hodnoty ve vztahu (95) dostaneme (µ
IE βˆ(LS,n) = β 0 + IE
1 T X X n
¶−1
n 1X Xi Ei , n i=1
)
.
Dopln´ıme-li tedy v´ yˇse pouˇz´ıvan´e pˇredpoklady napˇr. o to, ˇze kXi k = O(1)½(coˇz z hlediska aplikac´ ı ¾ ³ ´−1 nen´ı siln´ y pˇredpoklad), zjist´ıme, ˇze βˆ(LS,n) nen´ı ani nestrann´ y, nebot’ IE X T E 6= 0. XT X S daty, pro kter´a je l´epe pˇredpokl´adat, ˇze adekv´atn´ım modelem pro nˇe je model, ve kter´em jsou n´ahodn´e fluktuace statisticky z´avisl´e na nˇekter´e vysvˇetluj´ıc´ı promˇenn´e, se m˚ uˇzeme setkat pomˇernˇe ˇcasto. Jedna moˇznost je, ˇze ze sam´e podstaty situace toto plyne, ˇze napˇr. rozptyl ˇci jin´a charakteristika (napˇr.ˇsikmost) n´ahodn´ ych fluktuac´ı je ovlivnˇena velikost´ı vysvˇetluj´ıc´ı promˇenn´e. Snad nejˇcastˇeji uv´adˇen´ ym pˇr´ıkladem modelu, ve kter´em jsou vysvˇetluj´ıc´ı veliˇciny a n´ahodn´e fluktuace z´avisl´e, je model s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı vysvˇetluj´ıc´ı veliˇciny. Tento model bude vˇsak podrobnˇeji probr´an patrnˇe aˇz v dalˇs´ım d´ıle skript. Uvaˇzujme tedy jednoduch´ y model s geometrickou strukturou regresn´ıch koeficient˚ u Yi = β
∞ X
λj−1 xi−j+1 + Ei .
(97)
j=1
Je okamˇzitˇe vidˇet, ˇze pro tento tvar modelu neum´ıme pˇr´ımo nal´ezt odhady parametr˚ u. Pouˇzijme tedy tento postup. Pro i − 1 piˇsme λYi−1 = β
∞ X
λj xi−j + Ei .
(98)
j=1
Odeˇcteme-li (98) od (97), dostaneme Yi = λYi−1 + βxi + Ei − λEi−1 . Dostali jsme tedy model Yi = λYi−1 + βxi + Ui , 94
(99)
ve kter´em vysvˇetluj´ıc´ı promˇenn´a Yi−1 je korelovan´ a s Ui , tj. s n´ahodnou veliˇcinou representuj´ıc´ı fluktuaci v modelu. Budeme-li uvaˇzovat model, kter´ y poˇc´ıt´ a s n´ahodn´ ymi chybami mˇeˇren´ı u vysvˇetluj´ıc´ıch promˇenn´ ych, zjist´ıme, ˇze se opˇet nevyhneme z´avislosti mezi nosiˇci a disturbancemi. Probereme tento model pro jednoduch´ y pˇr´ıpad jedn´e vysvˇetluj´ıc´ı promˇenn´e. Zobecnˇen´ı na v´ıce promˇenn´ ych bude probr´ano v n´asleduj´ıc´ı kapitole. Budeme tedy uvaˇzovat model Yi = α + βχi + Ui (100) a Xi = χi + Vi ,
(101)
pro i = 1, 2, . . . , n. Jin´ ymi slovy to znamen´a, ˇze pˇredpokl´ad´ ame, ˇze vysvˇetlovan´ a veliˇcina Yi je line´arnˇe z´avisl´a na vysvˇetluj´ıc´ı veliˇcinˇe χi a absolutn´ım ˇclenu α, ale naˇse mˇeˇren´ı veliˇciny χi je zat´ıˇzeno n´ahodnou chybou Vi , takˇze registrujeme nam´ısto n´ı veliˇcinu Xi . Povˇsimnˇeme si, ˇze to, zda Ui representuje tak´e chybu mˇeˇren´ı veliˇciny Yi , ˇci tak´e n´ahodnou fluktuaci (pˇr´ıpadnˇe pouze n´ahodnou fluktuaci) a veliˇcina Yi (pˇrirozenˇe vˇcetnˇe t´eto fluktuace) je mˇeˇrena pˇresnˇe, je v tomto kontextu irelevantn´ı. Vysvˇetleme jeˇstˇe, ˇze t´ım, ˇze ˇrekneme, ˇze je veliˇcina Yi mˇeˇrena pˇresnˇe, m´ın´ıme to, ˇze chyba jej´ıho mˇeˇren´ı je (podstatnˇe) menˇs´ı neˇz chyba mˇeˇren´ı veliˇciny χi , pˇr´ıpadnˇe podstatnˇe menˇs´ı neˇz n´ahodn´e fluktuace vstupuj´ıc´ı do modelu. Pro zaj´ımavost uved’me, ˇze patrnˇe nejzn´amˇejˇs´ım modelem tohoto typu v ekonomii je Friedmanova hypot´eza st´al´eho d˚ uchodu (Friedman (1957)), kde Yi pˇredstavuje (pozorovanou) spotˇrebu v obdob´ı i a χi d˚ uchod v tomt´eˇz obdob´ı, a pˇredpokl´ad´ ame, ˇze spotˇreba je line´arnˇe z´avisl´ a na st´al´em d˚ uchodu, zat´ımco my pozorujeme moment´ aln´ı d˚ uchod Xi . Podotknˇeme vˇsak, ˇze se dnes m´a za prok´azan´e, ˇze empirick´a data tuto hypot´ezu pˇr´ıliˇs nepodpoˇrila. Po dosazen´ı z (101) do (100), z´ısk´ame nov´ y model Yi = α + β(Xi − Vi ) + Ui = α + βXi + Ui − βVi = α + βXi + Zi , kde jsme Zi oznaˇcily jak´esi “nov´e” disturbance v modelu. Snadno se vˇsak pro nˇe nalezne IE {Xi · Zi } = IE {(χi + Vi )(Ui − βVi )} = −βIE Vi2 . Jak uˇz bylo v´ yˇse konstatov´ano, vztah (96) ukazuje, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u koeficient˚ u α a β nen´ı v tomto pˇr´ıpadˇe nestrann´ y ani konsistentn´ı a detailnˇejˇs´ı anal´ yza uk´aˇze, ˇze dojde k podcenˇen´ı β. V z´avˇeru tˇechto skrip bude jeden paragraf vˇenov´ an tak´e syst´emu simult´ an´ıch rovnic. Uk´aˇzeme si tam, ˇze tyto rovnice popisuj´ı rovnˇeˇz situaci, kdy n´ahodn´e fluktuace v modelu jsou korelov´ any s vysvˇetluj´ıc´ımi promˇenn´ ymi a tedy pˇr´ım´ a aplikace metody nejmenˇs´ıch ˇctverc˚ u vede k odhad˚ um, kter´e nejsou obecnˇe ani konsistentn´ı ani nestrann´e. ˇ Cten´ aˇr se nyn´ı pˇrirozenˇe zept´a, jak danou situaci rozpoznat, tj. jak zjistit, zda nosiˇce a n´ahodn´e fluktuace jsou (ne)z´avisl´e a jak postupovat v pˇr´ıpadˇe, ˇze bude hypot´eza o nez´avislosti zam´ıtnuta. Odpovˇed’ na prvou ot´azku nab´ız´ı Hausman˚ uv test, k ˇreˇsen´ı probl´emu z´avislosti fluktuac´ı na vysvˇetluj´ıc´ıch promˇenn´ ych pak byla vyvinuta metoda instrument´ aln´ıch promˇenn´ ych. Bylo by nepochybnˇe logick´e vˇenovat se nejprve Hausmanovu testu a pot´e vyloˇzit, alespoˇ n 95
v z´akladech, teorii instrument´aln´ıch promˇenn´ ych. Vzhledem k tomu, ˇze vˇsak Hausman˚ uv test vyuˇz´ıv´a odhadu regresn´ıch koeficient˚ u, kter´ y byl poˇr´ızen metodou instrument´ aln´ıch promˇenn´ ych, vyloˇz´ıme nejprve tuto metodu. 6.4.2
Instrument´ aln´ı promˇ enn´ e
Pˇredstavme si, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u mohl b´ yt odvozen tak´e n´asleduj´ıc´ım, ponˇekud intuitivn´ım zp˚ usobem. Vztah (7) zn´asob´ıme zleva v´ yrazem n1 X T a dostaneme 1 T 1 1 X Y = X T Xβ 0 + X T E. n n n Budeme-li pˇredpokl´adat, ˇze 1 T X E=0 n→∞ n lim
v pravdˇepodobnosti,
budou m´ıt v´ yrazy
1 T 1 T X Y a X Xβ 0 n n stejnou limitu v pravdˇepodobnosti. To m˚ uˇze v´est k n´avrhu odhadu µ
βˆ =
1 T X X n
¶−1
³ ´−1 1 T X Y = XT X X T Y = βˆ(LS,n) n
a k vyˇsetˇrov´an´ı jeho vlastnost´ı. Pˇredpokl´adejme, ˇze m´ame k dispozici matici Z takovou, ˇze lim
n→∞
1 T Z E=0 n
a zn´asoben´ım vztahu (7) zleva v´ yrazem
1 T nZ
v pravdˇepodobnosti,
(102)
odvod’me
1 T 1 1 Z Y = Z T Xβ 0 + Z T E. n n n Nyn´ı zjiˇst’ujeme, ˇze v´ yrazy 1 T Z Y n
1 T Z Xβ 0 n
a
maj´ı tak´e stejnou limitu v pravdˇepodobnosti. “Analogicky” jako v pˇr´ıpadˇe odhadu metodou nejmenˇs´ıch ˇctverc˚ u, zaved’me odhad µ
βˆIP =
1 T Z X n
¶−1
³ ´−1 1 T Z Y = ZT X Z T Y. n
(103)
Tomuto odhadu budeme ˇr´ıkat odhad metodou instrument´ aln´ıch promˇenn´ych. Podobnˇe jako v´ yˇse pro odhad metodou nejmenˇs´ıch ˇctverc˚ u pro nˇej nalezneme alternativn´ı vyj´adˇren´ı ³
βˆIP = Z T X
´−1
Z
T
³
T
´
0
µ 0
X β +E =β +
1 T Z X n
¶−1
1 T Z E, n
(104)
kter´e ukazuje, ˇze odhad βˆIP je konsistentn´ı . Opˇet s nestrannost´ı je to ponˇekud komplikovanˇejˇs´ı, ale lze nal´ezt (slab´e) pˇredpoklady, za kter´ ych plat´ı. Lze pˇrirozenˇe tuˇsit, ˇze odhad βˆIP bude t´ım 96
lepˇs´ı (ve smyslu eficience), ˇc´ım v´ıce bude Z a X korelov´ ano (myˇsleno po sloupc´ıch), tj. pokud T T T T Z X dobˇre nahrad´ı X X a Z Y nahrad´ı X Y , samozˇrejmˇe pˇri zachov´ an´ı podm´ınky (102). V nˇekter´ ych monografi´ıch je vyloˇzena trochu obecnˇejˇs´ı inspirace vedouc´ı k zaveden´ı metody instrument´aln´ıch promˇenn´ ych. Vyj´adˇr´ıme-li n´ahodn´e fluktuace jako E = Y − Xβ 0 , vid´ıme, ˇze (102) je ekvivalentn´ı 1 lim Z T (Y − Xβ 0 ) = 0 v pravdˇepodobnosti. (105) n→∞ n Mohli bychom tedy studovat odhad, kter´ y by “minimalizoval” Z T (Y −Xβ) (´ uvozovky naznaˇcuj´ı fakt, ˇze na prav´e stranˇe vztahu (105) stoj´ı nulov´ y vektor a tedy to, ˇze Z T (Y − Xβ) bude minim´aln´ı je tˇreba uv´est na pravou m´ıru). Lze to udˇelat napˇr´ıklad takto. Zvol´ıme nˇekterou pozitivnˇe definitn´ı matici W a budeme minimalizovat kvadratickou formu (Y − Xβ)T ZW Z T (Y − Xβ).
(106)
Z v´ yˇse odvozen´eho tvrzen´ı o spektr´aln´ım rozkladu pozitivnˇe definitn´ı matice vypl´ yv´ a existence matice S takov´e, ˇze ZW Z T = S T S a uvaˇzujeme-li nyn´ı transformovan´e veliˇciny Y˜ = SY
˜ = SX X
a
˜ = S(Y − Xβ), tj. (Y˜ − Xβ) ˜ T (Y˜ − Xβ) ˜ budeme m´ıt Y˜ − Xβ = (Y − Xβ)T ZW Z T (Y − Xβ) a z v´ yˇse uveden´e teorie plyne, ˇze minimum se nab´ yv´ a pro ³
˜ T X) ˜ −1 X ˜ T Y = X T ZW Z T X βˆIP = (X
´−1
X T ZW Z T Y.
Pr´avˇe “odvozen´ y” odhad pˇripom´ın´a zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u, kter´ y je T diskutov´an na jin´em m´ıstˇe tˇechto skript. Pokud bude matice Z X regul´arn´ı a tedy invertovateln´a, dostaneme ³
βˆIP = X T ZW Z T X
´−1
³
³
X T ZW Z T Y = Z T X
= ZT X
´−1
´−1
³
W −1 X T Z
³
W −1 W Z T Y = Z T X
´−1
´−1
X T ZW Z T Y
Z T Y,
tj. dojdeme k odhadu (103), a nav´ıc zjist´ıme, ˇze postup je nez´avisl´ y na volbˇe matice W . Vˇenujme se jeˇstˇe na chv´ıli modelu s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı vysvˇetluj´ıc´ı veliˇciny, kter´ y vedl ke vztahu (99). Poloˇz´ıme-li totiˇz
Y =
Y2 Y3 .. .
,
Yn dojdeme k odhadu
Y1 Y2 .. .
X=
X2 X3 .. .
a
Yn−1 Xn "
ˆ λ βˆ
#
Z=
X1 X2 .. .
X2 X3 .. .
,
Xn−1 Xn
³
= ZT X
´−1
Z T Y.
Je jasn´e, ˇze podm´ınka (102) je splnˇena a nav´ıc odhad m´a nadˇeji b´ yt dosti eficientn´ı, nebot’ instrument´aln´ı promˇenn´a X je patrnˇe dosti korelov´ ana s Y , viz Liviatan (1963). ˇ Cten´ aˇre, kter´ y se chce o metodˇe instrument´ aln´ıch promˇenn´ ych dovˇedˇet v´ıce odkazujeme na monografii Bowden, Turkington (1984). Dovolme si jeˇstˇe pˇripomenout, ˇze se v nˇekter´ ych 97
uˇcebnic´ıch spojuje vybudov´an´ı teorie instrument´ aln´ıch promˇenn´ ych pr´avˇe s modelem s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı vysvˇetluj´ıc´ı veliˇciny. Zd´a se vˇsak, ˇze se tato metoda objevila daleko dˇr´ıve neˇz byl studov´an tento model, totiˇz jiˇz v pr´aci Working (1927), viz tak´e Goldberger (1972). Nyn´ı se jiˇz budeme moci vˇenovat v´ ykladu testu, kter´ y napov´ı, zda je vhodn´e pouˇz´ıt metodu instrument´aln´ıch promˇenn´ ych, ˇci zda vystaˇc´ıme s metodou nejmenˇs´ıch ˇctverc˚ u aplikovanou na p˚ uvodn´ı data. 6.4.3
Hausman˚ uv test nez´ avislosti regresor˚ u a n´ ahodn´ ych fluktuac´ı
Test byl navrˇzen J. Hausmanem v roce 1978 a lze jej nal´ezt napˇr. v monografii Greene (1993) a samozˇrejmˇe tak´e v p˚ uvodn´ım ˇcl´anku Hausman (1978). Protoˇze byl test p˚ uvodnˇe urˇcen pro to, aby rozpoznal zda se jedn´a o mˇeˇren´ı vysvˇetluj´ıc´ıch promˇenn´ ych s chybami, ˇcasto je uv´adˇen jako Specification test for measurement error, nicm´enˇe jak snadno nahl´ednete z n´ıˇze uveden´eho v´ ykladu, ve skuteˇcnosti se opravdu testuje, kter´ y model je adekv´atnˇejˇs´ı pro dan´a data. Heuristika, kter´a vedla k zaveden´ı testu byla n´asleduj´ıc´ı: Jestliˇze jsou vysvˇetluj´ıc´ı promˇenn´e nez´avisl´e na n´ahodn´ ych fluktuac´ıch (to budeme oznaˇcovat ve zb´ yvaj´ıc´ı ˇc´asti t´eto kapitoly jako hypot´ezu H0 ), jsou oba odhady βˆ(LS,n) i βˆIP konsistent´ımi odhady β 0 . Prvn´ı z nich je samozˇrejmˇe eficientn´ı, zat´ımco druh´ y tuto vlastnost obecnˇe nem´a. IP ˆ Uvˇedomme si vˇsak, ˇze obvykle uv´adˇen´e tvrzen´ı, ˇze β je neeficientn´ı nen´ı tak zcela spr´avn´e, nebot’ obecnˇe i βˆ(LS,n) je instrument´aln´ım odhadem vzhledem k tomu, ˇze jsme nezak´azali volbu Z = X, byt’ je to ˇcistˇe akademick´a moˇznost. Na druh´e stranˇe pokud n´ahodn´e fluktuace a vysvˇetluj´ıc´ı promˇenn´e jsou statisticky z´avisl´e, je prvn´ı odhad (pokud plat´ı napˇr. (14) ) nutnˇe vych´ ylen´ y, zat´ımco ten druh´ y, pokud je Z zvolena tak, aby platilo (102), je konsistentn´ı. Potom ovˇsem za platnosti hypot´ezy H0 je vektor q = βˆ(LS,n) − βˆIP konsistentn´ım odhadem nulov´eho vektoru. Pokud tato hypot´eza neplat´ı bude norma tohoto vektoru obecnˇe nenulov´ a. Zaloˇz´ıme-li tedy test na nˇekter´e kvadratick´e formˇe T W = q Aq bude jej´ı hodnota mal´a v pˇr´ıpadˇe platnosti hypot´ezy H0 , ale velk´ a v opaˇcn´em pˇr´ıpadˇe. J. Hausmanovi se podaˇrilo uk´azat, ˇze pokud za A zvol´ıme [V1 − V0 ]−1 , kde V0 a V1 jsou po ˇradˇe n-n´asobky odhad˚ u asymptotick´e kovarianˇcn´ı matice odhad˚ u βˆ(LS,n) a βˆIP , je L(W ) ≈ χ2 (p). Naznaˇc´ıme si jak lze v´est d˚ ukaz tohoto v´ ysledku. Nejprve pˇripomeˇ nme, ˇze pod asymptotickou covarianˇcn´ı matic´ı odhadu βˆ(n) se rozum´ı covarianˇcn´ı matice pˇ r´ısluˇsn´eho´asymptotick´eho rozdˇelen´ı normovan´eho vektoru βˆ(n) − β 0 , tj. ob√ ³ ˆ(n) √ vykle vektoru n β − β 0 , nebot’ obvykle d´av´ ame pˇrednost n-konsistentn´ım odhad˚ um. V pˇredch´azej´ıc´ım textu jsme v pˇr´ıpadˇe odhadu βˆ(LS,n) uˇz´ıvali pro tuto asymptotickou kovarianˇcn´ı matici oznaˇcen´ı Q (viz (15) ). Vzhledem k (104) m´ame
³
´−1
³
´−1
βˆIP − β 0 = Z T X Odtud
³
βˆIP − β 0
´³
βˆIP − β 0
´T
= ZT X
a koneˇcnˇe ³
n · varas (βˆIP ) = σ 2 Z T X
´−1
T
³
T
Z Z X Z
´−1
·
=σ 98
2
T
Z T E. ³
Z T EE T Z X T Z ³
T
X Z Z Z
´−1
T
´−1
Z X
¸−1
³
ˆTX ˆ = σ2 X
´−1
,
ˆ je projekce kde subindex as naznaˇcuje, ˇze se jedn´a o asymptotickou covarianˇcn´ı matici a kde X ³
´−1
matice X pomoc´ı projekˇcn´ı matice Z Z T Z Z T . Odhadem asymptotick´e kovarianˇcn´ı mat³ ´ ³ ´−1 √ ˆTX ˆ ice vektoru n βˆIP − β 0 tedy m˚ uˇze b´ yt s2 X . Protoˇze d´ale je n · varas (βˆ(LS,n) ) = σ 2 (X T X)−1 , m´ame nq T
·³
ˆTX ˆ X
´−1
W = √ ³ ˆIP n β − βˆ(LS,n)
´T ·³
³
− XT X s2
ˆ ˆTX X
´−1
³
− XT X
=
´−1 ¸−1
q
´−1 ¸−1 √ ³
n βˆIP − βˆ(LS,n)
´
.
s2
V Lemmatu 2 jsme uk´azali, ˇze pokud jsou fluktuace mezi sebou vz´ajemnˇe nez´avisl´e, stejnˇe rozdˇelen´ e a maj´ı nulovou stˇredn´ı hodnotu a koneˇcn´ y pozitivn´ı rozptyl, a plat´ı-li nav´ıc (15), pak ´ √ ³ ˆ(LS,n) 0 je n β − β asymptoticky norm´aln´ı s nulovou stˇredn´ı hodnotou a covarianˇcn´ı matic´ı 2 −1 σ Q . D˚ ukaz vych´azel ze vztahu (18). Nyn´ı ze vztahu (18) a (104) dostaneme "µ
βˆIP − βˆ(LS,n) =
1 T Z X n
¶−1
1 T Z − n
µ
1 T X X n
¶−1
#
1 T X E n
a tedy n·varas (βˆIP − βˆ(LS,n) ) = σ 2 (·
=σ
2
T
³
T
X Z Z Z
·³
´−1
T
Z X
´−1
¸−1
T
Z X
³
T
T
Z − X X ³
T
− X X
´−1
X
T
¸ ·³
)
´−1
X
T
= σ2
T
Z X ·³
´−1
ˆTX ˆ X
³
T
T
Z − X X
´−1
³
− XT X
´−1
´−1 ¸
X
T
¸T
.
Zopakov´an´ım d˚ ukazu Lemmatu 2 (s mal´ ymi modifikacemi) pˇri pˇredpokladu, ˇze existuje limita "µ
lim n→∞
1 ˆT ˆ X X n
¶−1
µ
−
1 T X X n
¶−1 #
= QZX ,
´ √ ³ kde QZX je regul´arn´ı matice, bychom nalezli, ˇze vektor ζ = n βˆIP − βˆ(LS,n) je asymptoticky norm´alnˇe rozdˇelen s nulov´ ym vektorem stˇredn´ıch hodnot a s asymptotickou kovarianˇcn´ı 2 matic´ı σ QZX . Vzhledem k tomu, ˇze matice QZX je symetrick´ a a pozitivnˇe definitn´ı, existuje ortogon´aln´ı (nikoliv nutnˇe ortonorm´aln´ı) matice P tak, ˇze
P T QZX P = I
(107)
a tud´ıˇz n´ahodn´ y vektor ξ = σ1 P T ζ je asymptoticky rozdˇelen dle p-rozmˇern´eho norm´aln´ıho rozdˇelen´ı s nulov´ ym vektorem stˇredn´ıch hodnot a s jednotkovou kovarianˇcn´ı matic´ı. To ovˇsem implikuje, ˇze statistika ξ T ξ je asymptoticky rozdˇelena dle χ2 (p). Invertov´ an´ım vzhatu (107) −1 −1 T −1 dostaneme [P ] QZX P = I a tedy koneˇcnˇe ³
βˆIP − βˆ(LS,n)
´T ·³
ˆTX ˆ X
´−1
W =
³
− XT X s2
99
´−1 ¸−1 ³
βˆIP − βˆ(LS,n)
´
=
´T ·³ ´−1 ¸−1 √ ³ ´ ´−1 ³ √ ³ ˆIP 1 ˆT ˆ 1 T (LS,n) ˆ ˆIP − βˆ(LS,n) X X n β −β X X − n β n n
s2
1 T −1 −1 ζ QZX ζ = ξ T [P −1 ]T Q−1 ξ = ξ T ξ. ZX P σ2 V pˇr´ıpadˇe, ˇze se jedn´a o jednoduchou regresi, pak je Hausman˚ uv test ekvivalentn´ı testu v´ yznamnosti koeficientu γ v modelu ≈
Yi = β0 + β1 xi + γ u ˆi + ²i , i = 1, 2..... kde u ˆi , i = 1, 2, ... jsou rezidua z´ıskan´ a po projekci vysvˇetluj´ıc´ı veliˇciny x na instrument´ aln´ı veliˇcinu z, kter´a je v tomto pˇr´ıpadˇe pˇrirozenˇe skal´ arn´ı. 6.4.4
Z´ avˇ er
Z v´ yˇse uveden´eho textu je zˇrejm´e, ˇze metoda instrument´ aln´ıch promˇenn´ ych nem´a nepochybnˇe charakter “kuchaˇrky”, tj. nepˇredstavuje n´avod, co a jak by se mˇelo udˇelat, zejm´ena ned´av´ a n´avod, jak zvolit instrumenty. To m˚ uˇze zp˚ usobit, ˇze jsou instrumenty zvoleny tak, ˇze eficience odhadu je velmi mal´a neboli rozptyl odhadu βˆIP je znaˇcn´ y a tedy konkr´etn´ı hodnoty odhad˚ u IP ˆ regresn´ıch koeficient˚ u metodou instrument´ aln´ıch promˇenn´ ych, tj. sloˇzky vektoru β , mohou b´ yt velmi vzd´aleny skuteˇcn´ ym hodnot´am regresn´ıch koeficient˚ u. Pochopitelnˇe, ˇze pˇredpokl´ad´ ame, ˇze jsme v situaci, kdy regresory a n´ahodn´e fluktuace jsou opravdu z´avisl´e a pouˇzit´ı metody instrument´aln´ıch promˇenn´ ych je nam´ıstˇe. Pˇredpokl´adejme d´ale, ˇze d´ıky z´avislosti regresor˚ u a n´ahodn´ ych fluktuac´ı je odhad metodou nejmenˇs´ıch ˇctverc˚ u znaˇcnˇe vych´ ylen (mluv´ıme st´ale o konkr´etn´ı ˇc´ıseln´e hodnotˇe odhadu pro nˇekter´ a data). Je-li tento odhad vych´ ylen “stejn´ ym smˇerem” jako odhad metodou instrument´ aln´ıch promˇenn´ ych, lze si pˇredstavit, ˇze jejich rozd´ıl bude mal´ y a Hausman˚ uv test nebude indikovat vhodnost pouˇzit´ı instrument´ aln´ıch promˇenn´ ych. Lze si snadno pˇredstavit i opaˇcnou situaci, totiˇz ˇze regresory a n´ahodn´e fluktuace jsou nez´avisl´e, ale d´ıky ˇspatn´e volbˇe instrument˚ u bude odhad βˆIP znaˇcnˇe vych´ ylen´ y. Hausman˚ uv test vˇsak poˇc´ıt´a s t´ım, ˇze pr´avˇe tento odhad je nevych´ ylen´ y a pokud je rozd´ıl tohoto odhadu a odhadu metodou nejmenˇs´ıch ˇctverc˚ u velk´ y, indikuje vych´ ylenost tohoto druh´eho odhadu, a tedy tak´e z´avislost regresor˚ u a n´ahodn´ ych fluktuac´ı. Z toho, co bylo pr´avˇe ˇreˇceno plyne, ˇze je tˇreba volbˇe instrument˚ u vˇenovat mimoˇr´ adnou pozornost a pokusit se naj´ıt takov´e, kter´e jsou opravdu co nejv´ıce korelov´ any s regresory. Zpr´avou, kter´a n´as vˇsak nepotˇeˇs´ı je to, ˇze ani to nemus´ı postaˇcit. Staˇc´ı si totiˇz uvˇedomit, ˇze odhad pomoci instrument´aln´ıch promˇenn´ ych je odhadem poˇr´ızen´ ym vlastnˇe jinou metodou neˇz jsou nejmenˇs´ı ˇctverce aplikovan´e na p˚ uvodn´ı data. Pak jiˇz staˇc´ı vz´ıt v u ´vahu v´ ysledek prezentovan´ y napˇr. ve V´ıˇsek (1997 d, e), kter´ y ˇr´ık´a, ˇze bez ohledu na poˇcet pozorov´ an´ı mohou dva konzistentn´ı odhady d´avat dva velmi odliˇsn´e v´ ysledky, nebot’ kaˇzd´ y z tˇechto odhad˚ u “d´av´ a pˇrednost” reprezentaci (ˇci chcete-li, vysvˇetlen´ı) dat pomoci jin´eho regresn´ıho modelu. K tomu, aby nenastal tento na prvn´ı pohled podivn´ y jev bychom potˇrebovali stejnomˇernou konvergenci vˇsech konsistentn´ıch odhad˚ u ve vˇsech regresn´ıch modelech, a to je evidentnˇe pˇr´ıliˇs siln´ y poˇzadavek. Proto je tˇreba k pouˇzit´ı instrument´aln´ıch promˇenn´ ych pˇristupovat se stejnou opatrnost´ı jako k pouˇzit´ı robustn´ıch metod, o kter´ ych se velice kr´atce zm´ın´ıme na konci skript. Nepochybnˇe vˇsak o metodˇe instrument´aln´ıch promˇenn´ ych plat´ı tot´eˇz co o robustn´ıch metod´ach. To, ˇze je nezbytn´e je pouˇz´ıvat 100
s (alespoˇ n urˇcitou d´avkou) opatrnosti, by n´as nemˇelo zrazovat od jejich pouˇzit´ı, nebot’ pokud je nepouˇzijeme a situace bude takov´a, ˇze by je bylo nam´ıstˇe pouˇz´ıt, d´a n´am metoda nejmenˇs´ıch ˇctverc˚ u zav´adˇej´ıc´ı v´ ysledky.
´ ˇ MODELU UVAHY O SENSITIVITE
7
V t´eto kapitole se budeme vˇenovat studiu situac´ı, kter´e se obvykle shrnuj´ı pod pojem sensitivita (ˇci chcete-li citlivost) modelu a rozum´ı se t´ım to, jak´e zmˇeny ve vlastnostech odhadu (metodou nejmenˇs´ıch ˇctverc˚ u) se objev´ı, pokud bude napˇr. do modelu zaˇrazen jin´ y neˇz “spr´avn´ y” poˇcet vysvˇetluj´ıc´ıch veliˇcin, jak´ y vliv na odhad m˚ uˇze m´ıt jedno, ˇci v´ıce (vlivn´ ych) pozorov´ an´ı, jak m˚ uˇze to ˇci ono krit´erium ovlivnit v´ ybˇer “optim´aln´ıho” modelu atd. (viz napˇr. Chatterjee, Hadi (1988) ). Nejprve se budeme vˇenovat situaci, kdy je model podurˇcen, ˇci pˇreurˇcen. Co t´ım bude rozumnˇeno bude ihned patrn´e z form´aln´ıho zad´an´ı situace.
7.1
Efekt podurˇ cen´ı
Situac´ı, kdy budeme mluvit o podurˇcen´ı (underfitting), budeme rozumˇet to, ˇze do matice pl´anu nezahrneme vˇsechny regresory, kter´e by “tam mˇely b´ yt”. Form´ alnˇe to znamen´a, ˇze budeme ∞ pˇredpokl´adat, ˇze n´ahodn´e veliˇciny {Yn }n=1 jsou rozdˇeleny dle modelu (1)
Yi = [xi ]T β (1) + Ei ,
i = 1, 2, . . . ,
(108)
avˇsak ve skuteˇcnosti budou tyto generov´ any modelem (1)
(2)
Yi = [xi ]T β (1) + [xi ]T β (2) + Ei ,
i = 1, 2, . . . ,
(109)
(1)
kde, podobnˇe jako v´ yˇse, X (1) bude oznaˇcovat matici jej´ıˇz i-t´ y ˇr´ adek je roven [xi ]T (podobnˇe pro X (2) ). Oba pˇr´ıpady, tj. jak model ((108), tak (109)) budou uvaˇzov´ any s pevn´ ymi (tj. nestochastick´ ymi) nosiˇci. Tuto situaci, tj. kdyˇz si mysl´ıme, ˇze data lze vysvˇetlit “menˇs´ım” modelem (108) aˇc vhodn´ ym by byl (109), budeme oznaˇcovat jako podurˇcen´ı modelu. Nejprve si pˇriprav´ıme pomocn´e technick´e tvrzen´ı. TVRZEN´ I 11 Necht’ t ∈ Rn je n´ ahodn´y vektor s navz´ ajem nez´ avisl´ymi stejnˇe rozdˇelen´ymi souˇradnicemi. Pˇredpokl´ adejme, ˇze existuje IE (t1 − IE t1 )2 = σ02 ∈ (0, ∞) a Q necht’ je ˇctvercov´ a matice typu n × n. Potom IE tT Qt = σ02 tr(Q) + µT Qµ, kde µ = IE t. D˚ ukaz. V´ ypoˇctem se ovˇeˇr´ı, ˇze IE tT Qt = IE = IE
n X n X
n
(t − µ)T Q(t − µ) + tT Qµ + µT Qt − µT Qµ
qij (t − µ)i (t − µ)j + µT Qµ = σ02
i=1 j=1
n X n X
o
δij qij + µT Qµ,
i=1 j=1
kde δij je Kroneckerovo δ, tj. δij = 1 pro i = j a δij = 0 pro i 6= j. 101
2
ˇ VETA 3 Necht’ n´ ahodn´e veliˇciny {Yi }∞ any modelem (109). Potom odhad i=1 jsou generov´ ³
βˆLS(1) = [X (1) ]T X (1)
´−1
[X (1) ]T Y
je nestrann´ym odhadem β (1) pouze tehdy, je-li β (2) = 0 nebo je-li [X (1) ]T X (2) = 0. Podobnˇe ³ ´2 P (1) 2 rezidu´ aln´ı souˇcet ˇctverc˚ u SR(1) = ni=1 Yi − [xi ]T βˆLS(1) je nestrann´ym odhadem (n − p)σ 2 ·
³
pouze tehdy, kdyˇz I − X (1) [X (1) ]T X (1)
´−1
¸
[X (1) ]T X (2) β (2) = 0.
D˚ ukaz. Snadno ovˇeˇr´ıme, ˇze stˇredn´ı hodnota odhadu βˆLS(1) je ³
IE βˆLS(1) = [X (1) ]T X (1) ³
= [X (1) ]T X (1)
´−1
³
´−1
[X (1) ]T IE Y
´
³
[X (1) ]T X (1) β (1) + X (2) β (2) = β (1) + [X (1) ]T X (1)
´−1
[X (1) ]T X (2) β (2) .
Pokud chceme dos´ahnout nestrannosti, pak rozumnˇe pˇripadaj´ı v u ´vahu jen dvˇe moˇznosti: • bud’ β (2) = 0 • nebo [X (1) ]T X (2) = 0. Jejich diskuzi provedeme v n´asleduj´ıc´ı pozn´amce. Nyn´ı oznaˇc´ıme symbolem P (1) projekˇcn´ı ³
matici pˇr´ısluˇsnou k matici pl´anu X (1) , tj. P (1) = X (1) [X (1) ]T X (1) pˇredpˇripraven´e technick´e tvrzen´ı. Dostaneme n
2 IE SR(1) = IE
³
´
Y T I − P (1) Y
³
= σ 2 tr(I − P (1) ) + X (1) β (1) + X (2) β (2)
´T ³
I − P (1)
³
´−1
[X (1) ]T , a pouˇzijeme
o
´³
´
X (1) β (1) + X (2) β (2) ,
´
= σ 2 (n − p) + [β (2) ]T [X (2) ] I − P (1) X (2) β (2) = σ 2 (n − p) +
n³
´
I − P (1) X (2) β (2)
oT ³
´
I − P (1) X (2) β (2) . 2
´ POZNAMKA 5 Pokud bude β (2) = 0 nebo X (2) = 0, model (109) spl´yv´ a s modelem (108) (1) T (2) a tedy tˇeˇzko mluvit o podurˇcen´ı. Zb´yv´ a tedy moˇznost [X ] X = 0, coˇz m˚ uˇzeme dokonce docela dobˇre zaˇr´ıdit, aby platilo. Vezmeme-li totiˇz nam´ısto vysvˇetluj´ıc´ıch promˇenn´ych obsaˇzen´ych v matici X (2) pˇr´ısluˇsn´e vektory rezidu´ı, kter´e dostaneme pˇri projekci tˇechto veliˇcin do pros˜ (2) = 0 (kde X ˜ (2) oznaˇcuje matici poskl´ toru M(X (1) ), dos´ ahneme toho, ˇze [X (1) ]T X ad´ anou z pˇr´ısluˇsn´ych vektor˚ u rezidu´ı), a nav´ıc model je pak, co do schopnosti vysvˇetlen´ı veliˇciny Y , ekvivalentn´ı modelu (109). 2 Dos´ ahnout nestrannosti odhadu em modelu je ponˇekud obt´ıˇznˇejˇs´ı. V´yˇse uveden´e ´ cen´ ³ σ v podurˇ (2) (1) X β (2) = 0 pro vˇsechna β (2) (nebot’ β (2) nezn´ ame). vztahy napov´ıdaj´ı, ˇze mus´ı platit I − P ³
´
³
´
To znamen´ a, ˇze I − P (1) X (2) mus´ı b´yt nulov´e. To je ekvivalentn´ı s X (2) ⊥ I − P (1) , ale to znamen´ a, ˇze X (2) ⊂ M(X (1) ). Pak je ovˇsem rozˇs´ıˇren´ı modelu o X (2) pouze form´ aln´ı. Zb´yv´ a tedy (2) (2) β = 0, ale pak je rozˇs´ıˇren´ı modelu o X opˇet jen form´ aln´ı. Nav´ıc je cel´y postup kontroverzn´ı (2) ˜ uˇz na prvn´ı pohled. Pokud totiˇz chceme u ´pravou X na X (2) zajistit nestrannost βˆLS(1) vlastnˇe pˇripouˇst´ıme, ˇze plat´ı model (109). Pak je ovˇsem nesmysln´e odhadovat model (108). 102
7.2
Efekt pˇ reurˇ cen´ı
V tomto odstavci uvaˇzujme situaci, kter´a je v jist´em smyslu symetrick´ a ˇci chcete-li opaˇcn´ a k t´e, kterou jsme studovali v pˇredchoz´ım odstavci. V takov´e situaci budeme pˇrirozenˇe mluvit o pˇreurˇcen´ı modelu (overfitting). Pˇredpˇripravme si opˇet nejprve pomocn´e tvrzen´ı. TVRZEN´ I 12 Necht’ sloupce matice X (1) jsou line´ arnˇe nez´ avisl´e na sloupc´ıch matice X (2) , kter´ a je pln´e hodnosti, pak W = [X (2) ]T (I − P (1) )X (2) je regul´ arn´ı. D˚ ukaz. Je-li W singul´arn´ı, pak lze nal´ezt (alespoˇ n jeden) vektor v 6= 0 tak, ˇze W v = 0, tj. T tak´e v W v = 0. Dosad´ıme-li za W , dostaneme ³
0 = v T W v = v T [X (2) ]T (I − P (1) )X (2) v = (I − P (1) )X (2) v ³
´T ³
´
(I − P (1) )X (2) v .
´
Potom ovˇsem tak´e (I − P (1) )X (2) v = 0. Pˇredpokl´adali jsme vˇsak, ˇze X (2) m´ a plnou hodnost a tedy jeho sloupce jsou line´arnˇe nez´avisl´e. To implikuje fakt, ˇze bez ohledu na to, kter´ y vektor ³ ´ (2) (1) (2) (2) (1) v byl vybr´an, je X v 6= 0. Pak ovˇsem m´ame I − P ⊥X v, tj. X v ⊂ M(X ), a to znamen´a, ˇze alespoˇ n jeden ze sloupc˚ u matice X (1) lze vyj´adˇrit jako kombinaci sloupc˚ u z X (2) . Doˇsli jsme tedy ke sporu s pˇredpoklady tvrzen´ı. 2 Abychom mohli vyslovit pˇrehlednˇe dalˇs´ı vˇetu budeme potˇrebovat nˇekter´ a dalˇs´ı oznaˇcen´ı. Necht’ ·³ ´T ³ ´¸−1 ³ ´T LS(1,2) (1) (2) (1) (2) ˆ β = X ,X X ,X X (1) , X (2) Y a pˇripomeˇ nme, ˇze jsme v pˇredchoz´ı vˇetˇe oznaˇcili ³
βˆLS(1) = [X (1) ]T X (1)
´−1
[X (1) ]T Y.
D´ale pak oznaˇcme βˆ(1) a βˆ(2) ty ˇc´asti odhadu βˆLS(1,2) , kter´e odpov´ıdaj´ı β (1) a β (2) , tj. βˆ(1) obsahuje prvn´ıch p souˇradnic vektoru βˆLS(1,2) zat´ımco βˆ(2) obsahuje zbytek. Koneˇcnˇe necht’ ³
A = [X (1) ]T X (1) tvrzen´ı.
´−1
[X (1) ]T X (2) a pˇripomeˇ nme, ˇze matice W byla zavedena v pˇredchoz´ım
ˇ VETA 4 Necht’ n´ ahodn´e veliˇciny {Yi }∞ any modelem (108). Necht’ d´ ale matice i=1 jsou generov´ (1) (2) (1) X a X v modelu (109) jsou typ˚ u (n×p) a (n×q) a necht’ matice (X , xd) je pln´e hodnosti. Pak m´ ame βˆ(1) = βˆLS(1) − Aβˆ(2) a
³
´
βˆ(2) = W −1 [X (2) ]T I − P (1) Y. D´ ale IE βˆ(1) = β (1) ,
IE βˆ(2) = 0,
kde σ ˆ2 =
Y T (I − P ) Y n−p−q 103
a
IE σ ˆ 2 = σ2,
a
³
P = X
(1)
,X
(2)
´ ·³
X
(1)
,X
(2)
´T ³
X
(1)
,X
(2)
´¸−1 ³
X (1) , X (2)
´T
.
Koneˇcnˇe pak
[X (1) ]T X (1) + AW −1 AT
−AW −1
var(βˆLS(1,2) ) = σ 2
.
−W −1 AT
W −1
D˚ ukaz. Piˇsme norm´aln´ı rovnice ve tvaru [X (1) ]T X (1) βˆ(1) + [X (1) ]T X (2) βˆ(2) = [X (1) ]T Y
(110)
[X (2) ]T X (1) βˆ(1) + [X (2) ]T X (2) βˆ(2) = [X (2) ]T Y.
(111)
a S pˇrihl´ednut´ım k v´ yˇse zaveden´emu oznaˇcen´ı, dostaneme z (110) βˆ(1) = βˆLS(1) − Aβˆ(2) a tedy
(112) ³
´
[X (2) ]T X (2) βˆ(2) = [X (2) ]T Y − [X (2) ]T X (1) βˆLS(1) − Aβˆ(2) . Dosad´ıme-li nyn´ı za matici A, dojdeme k ³
[X (2) ]T X (2) βˆ(2) − [X (2) ]T X (1) [X (1) ]T X (1)
´−1
[X (1) ]T X (2) βˆ(2)
= [X (2) ]T Y − [X (2) ]T X (1) βˆLS(1) . Odtud
³
´
³
´
[X (2) ]T I − P (1) X (2) βˆ(2) = [X (2) ]T I − P (1) Y a tedy
³
´
βˆ(2) = W −1 [X (2) ]T I − P (1) Y.
(113)
Snadno ovˇeˇr´ıme, ˇze IE βˆ(2) = IE ³
n
³
´
W −1 [X (2) ]T I − P (1) Y
o
³
´
= W −1 [X (2) ]T I − P (1) X (1) β (1) = 0,
´
nebot’ I − P (1) X (1) = 0. Posledn´ı rovnost plyne z faktu, ˇze projekce matice do podprostoru, kter´ y sama generuje d´a pr´avˇe tuto matici. To vˇsak implikuje to, ˇze IE βˆ(1) = β (1) (viz (112)). Spoˇcteme-li stˇredn´ı hodnotu rezidu´aln´ıho souˇctu ˇctverc˚ u 2 IE SR = IE Y T (I − P ) (I − P ) Y = IE Y T (I − P ) Y
n
= IE ³
³
tr Y T (I − P ) Y
´o
n
= IE
´
³
tr Y Y T (I − P )
´o
= tr IE Y Y T (I − P ) = σ 2 tr (I − P ) = σ 2 (n − p − q),
104
2 je nestrann´ zjist´ıme, ˇze σ ˆ 2 = (n − p − q)−1 SR ym odhadem rozptylu rezidu´ı. Ze vztahu (113) vypl´ yv´a, ˇze
³
´
³
´
³
var(βˆ(2) ) = W −1 [X (2) ]T I − P (1) var(Y ) I − P (1)
´T
X (2) W −1
= σ 2 W −1 [X (2) ]T I − P (1) [X (2) ]T W −1 = σ 2 W −1 a cov(βˆLS(1) , βˆ(2) ) = cov
½³
³
[X (1) ]T X (1)
= σ 2 [X (1) ]T X (1)
´−1
³
´−1
´
¾
[X (1) ]T Y, W −1 [X (2) ]T I − P (1) Y ³
´
[X (1) ]T I − P (1) X (2) W −1 = 0,
³
´
kde jsme opˇet pouˇzili faktu, ˇze [X (1) ]T I − P (1) = 0. Nakonec spoˇcteme rozptyl odhadu βˆ(1) var(βˆ(1) ) = var(βˆLS(1) − Aβˆ(2) ) = var(βˆLS(1) ) + Avar(βˆ(2) )AT = σ 2
½³
[X
(1) T
] X
(1)
´−1
¾
+ AW
−1
T
A
a jeho kovarianci s odhadem βˆ(2) cov(βˆ(1) , βˆ(2) ) = cov(βˆLS(1) − Aβˆ(2) , βˆ(2) ) = −σ 2 AW −1 . 2 ´ POZNAMKA 6 Vzhledem k tomu, ˇze rozd´ıl kovarianˇcn´ıch matic var(βˆ(1) ) a var(βˆLS(1) ) je roven σ 2 AW −1 AT , coˇz je semidefinitn´ı matice, bude “rozptyl” odhadu regresn´ıch koeficient˚ u v pˇreurˇcen´em modelu alespoˇ n tak velk´y jako v modelu spr´ avn´em. Nav´ıc je tento odhad, pr´ avˇe tak 2 jako odhad σ ˆ , nestrann´y. Jiˇz v´yˇse jsme naznaˇcili, ˇze lze, co se t´yk´ a matematick´e str´ anky vˇeci, bez probl´em˚ u zaˇr´ıdit, aby var(βˆ(1) ) = var(βˆLS(1) ) a to tak, ˇze dos´ ahneme nulovosti matice A. Uk´ azali jsme, ˇze staˇc´ı nahradit matici X (2) matic´ı ˜ (2) , kter´ X a bude sloˇzena z rezidu´ı, kter´e z´ısk´ ame po projekci sloupc˚ u matice X (2) do prostoru generovan´eho matic´ı X (1) , tj. ³ ´ ˜ (2) = I − P (1) X (2) X ³
(pˇripom´ın´ ame, ˇze P (1) = X (1) [X (1) ]T X (1)
´−1
[X (1) ]T ). Snadno se ovˇeˇr´ı, ˇze nov´y model
˜ (2) β (2) + E Y = X (1) β (1) + X ³
´
³
´
˜ (2) ). To znabude pˇrirozenˇe ekvivalentn´ı modelu (109), nebot’ M( X (1) , X (2) ) = M( X (1) , X men´ a, ˇze v pˇr´ıpadˇe, kdy si nejsme moc jisti, zda je uˇziteˇcn´e zaˇradit do modelu dalˇs´ı vysvˇetluj´ıc´ı promˇenn´e, m˚ uˇzeme se zabezpeˇcit proti zvˇetˇsen´ı rozptylu odhad˚ u regresn´ıch koeficient˚ u pr´ avˇe popsan´ym postupem. M˚ uˇze se vˇsak pˇrirozenˇe st´ at, ˇze nov´y model p˚ ujde (ponˇekud) h˚ uˇre interpretovat neˇz ten p˚ uvodn´ı. Interpretace modelu, tedy pˇresnˇeji interpretace v´ysledk˚ u regresn´ı anal´yzy vˇsak nen´ı nikdy zcela jednoduch´ a a vyˇzaduje urˇcit´e zkuˇsenosti, kter´e se sp´ıˇse neˇz ˇcten´ım skript z´ıskaj´ı zpracov´ av´ an´ım soubor˚ u dat. Nicm´enˇe se pokus´ıme v tˇechto skriptech uv´est na pravou m´ıru alespoˇ n nejbˇeˇznˇeji se objevuj´ıc´ı ˇspatn´e interpretace v´ysledk˚ u. 105
7.3
Vliv jednoho pozorov´ an´ı
Na z´avˇer t´eto kapitoly si pov´ıme nˇeco o charakteristice, kter´a byla pouˇz´ıv´ ana jako diagnostick´ y n´astroj snad od sam´eho poˇc´atku budov´ an´ı regresn´ı anal´ yzy. Je snadno pochopiteln´e, ˇze souˇcasnˇe s rozˇsiˇrov´an´ım naˇsich vˇedomost´ı o regresn´ım modelu, respektive o vlastnostech odhadu jeho koeficient˚ u, byla snaha nal´ezt jednoduch´e n´astroje na rozpozn´an´ı vlivn´ ych bod˚ u, tj. bod˚ u, kter´e nejv´ıce ovlivˇ nuj´ı v´ ysledky regresn´ı anal´ yzy. TVRZEN´ I 13 Oznaˇcme odhad poˇr´ızen´y metodou nejmenˇs´ıch ˇctverc˚ u pro data, ze kter´ych bylo (LS,n,`) ˆ vypuˇstˇeno `-t´e pozorov´ an´ı, symbolem β . Potom plat´ı ³
βˆ(LS,n) − βˆ(LS,n,`) = X { ` }T X { ` }
´−1
´
³
x` Y` − xT` βˆ(LS,n) ,
(114)
kde X { ` } je matice, kter´ a vznikne z matice X po vypuˇstˇen´ı xT` , tj. `-t´eho ˇr´ adku a kde jsme pˇredpokl´ adali, ˇze tato matice je tak´e pln´e hodnosti. D˚ ukaz. Norm´aln´ı rovnice, ze kter´ ych vyˇc´ıslujeme odhady βˆ(LS,n) a βˆ(LS,n,`) maj´ı tvar p X n X
(LS,n)
xij xik βˆk
=
k=1 i=1
a
p n X X
n X
xij Yi
j = 1, 2, . . . , p
i=1 n X
(LS,n,`) xij xik βˆk =
k=1 i=1,i6=`
xij Yi
j = 1, 2, . . . , p.
i=1,i6=`
Jejich porovn´an´ım dostaneme p n X X
³
xij xik
´
(LS,n) (LS,n,`) βˆk − βˆk = x`j Y` −
p X
(LS,n) x`k βˆk
j = 1, 2, . . . , p,
k=1
k=1 i=1,i6=`
nebo ekvivalentnˇe pomoc´ı maticov´eho formalizmu ³
´
³
´
X { ` }T X { ` } βˆ(LS,n) − βˆ(LS,n,`) = x` Y` − xT` βˆ(LS,n) . 2 ´ POZNAMKA 7 Pr´ avˇe dok´ azan´e tvrzen´ı usnadˇ nuje nalezen´ı “nejvlivnˇejˇs´ıho” pozorov´ an´ı. Potvrzuje totiˇz intuitivn´ı domˇenku, ˇze nejvlivnˇejˇs´ı bod bude mezi tˇemi, kter´e maj´ı velk´ a rezidua a souˇcasnˇe jsou daleko od poˇc´ atku (nenechme se m´ ast t´ım, ˇze ve vztahu vystupuje x` a nikoliv nˇejak´ a { ` }T { ` } standardizovan´ a hodnota; o standardizaci se postar´ a X X ). Samozˇrejmˇe tento postup, (LS,n) ˆ hledaj´ıc´ı bod, jehoˇz vypuˇstˇen´ı maximalizuje normu rozd´ılu β − βˆ(LS,n,`) , nevezme v u ´vahu glob´ aln´ı vztahy mezi pozorov´ an´ımi, nebot’ ty se mohou navz´ ajem “maskovat”. Jin´ymi slovy, pokud mezi daty bude v´ıce vlivn´ych bod˚ u tvoˇr´ıc´ıch skupinu, mus´ıme pouˇz´ıt analogii (114) odvozenou pro (LS,n,J ) ˆ odhad β , tj. pro odhad poˇr´ızen´y pro data, ze kter´ych jsme vylouˇcili pozorov´ an´ı s indexy, kter´e jsou ve zvolen´e indexov´e mnoˇzinˇe J . Pomˇernˇe snadno lze nal´ezt i asymptotick´e rozdˇelen´ı pro rozd´ıl ´ √ ³ (LS,n) nλ βˆ − βˆ(LS,n,Jk ) , kde Jk je k-ˇclen´ a podskupina index˚ u z {1, 2, . . . , n}, pro poˇcet vylouˇcen´ych bod˚ u k jdouc´ıch do k nekoneˇcna souˇcasnˇe se zvyˇsuj´ıc´ım se poˇctem pozorov´ an´ı n (napˇr. n → λ ∈ (0, 1) pro n → ∞), viz V´ıˇsek (1997 a). 106
´ POZNAMKA 8 Dˇr´ıve se v literatuˇre ˇcasto pˇripom´ınalo, ˇze pro v´ypoˇcet matice
³
X { ` }T X { ` }
´−1
, m˚ uˇze b´yt v´yhodn´e pouˇz´ıt vztahu ³
X { ` }T X { ` }
´−1
³
= XT X
´−1
³
+
XT X
´−1
³
x` xT` X T X
1 − xT` (X T X)−1 x`
´−1
,
kter´y plyne z obecn´e rovnosti ³
A + BDC T
´−1
³
= A−1 − A−1 B D−1 + C T A−1 B
´−1
C T A−1 ,
kterou snadno ovˇeˇr´ıme vyn´ asoben´ım matic´ı A + BDC T . V souˇcasn´e dobˇe, kdy m´ ame k dispozici v´ykonnou v´ypoˇcetn´ı techniku, m˚ uˇze m´ıt tato moˇznost v´yznam snad jen v pˇr´ıpadˇe, kdy zpracov´ av´ ame stovky ˇci tis´ıce dat.
7.4
Kolinearita
Pˇri u ´vah´ach o tom, jak dalece je regresn´ı model, pˇr´ıpadnˇe metoda nejmenˇs´ıch ˇctverc˚ u citliv´a na T r˚ uzn´e situace, bychom mˇeli tak´e prostudovat situaci, kdy matice X X je “na pokraji singularity”. V´ yraz na pokraji singularity naznaˇcuje, ˇze matice X T X je st´ale jeˇstˇe regul´arn´ı, nicm´enˇe jej´ı regularita je v jist´em smyslu jiˇz tak problematick´ a, ˇze m˚ uˇze b´ yt poˇc´ atkem pot´ıˇz´ı pˇri zpracov´an´ı dat. Pˇripomeˇ nme, ˇze v tom pˇr´ıpadˇe mluv´ıme o matici X jako ˇspatnˇe podm´ınˇen´e a napˇr. T inverze matice X X, kterou potˇrebujeme k v´ ypoˇctu odhadu metodou nejmenˇs´ıch ˇctverc˚ u, m˚ uˇze zp˚ usobit (v´ ypoˇcetn´ı) pot´ıˇze. N´ıˇze vˇsak uvid´ıme, ˇze to nejsou jedin´e pot´ıˇze, kter´e m˚ uˇze ˇspatn´a podm´ınˇenost matice X zp˚ usobit. Nastane-li pr´avˇe popsan´a situace, mluv´ıme o kolinearitˇe (collinearity) ˇci multikolinearitˇe matice pl´anu. Jin´ ymi slovy, kolinearitou ˇci multikolinearitou budeme rozumˇet pouze situaci, kdy alespoˇ n jeden ze sloupc˚ u matice X je skoro line´arn´ı kombinac´ı tˇech ostatn´ıch. Slov´ıˇcko “skoro” se v tomto kontextu ˇspatnˇe formalizuje a tak se o to nebudeme ani pokouˇset a radˇeji uvedeme nˇejak´e diagnostick´e n´astroje, kter´e to rozpoznaj´ı. Dˇr´ıve neˇz tak vˇsak uˇcin´ıme, uvedeme jednu pozn´amku a pˇriprav´ıme si jeden technick´ y n´astroj. ´ POZNAMKA 9 Nˇekter´e publikace vˇenovan´e regresn´ı anal´yze zahrnuj´ı pod pojem kolinearita tak´e situaci, kdy nosiˇce jsou opravdu line´ arnˇe z´ avisl´e, tj. kdy matice pl´ anu nen´ı pln´e hodnosti (a mluv´ı o perfektn´ı kolinearitˇe). Na druh´e stranˇe to v praxi, aˇz snad na pˇr´ıpady, kdy se br´ an´ıme z v´ıce ˇci ˇcastˇeji vˇsak m´enˇe pochopiteln´ych d˚ uvod˚ u ke zmˇenˇe matice pl´ anu, vede k vylouˇcen´ı nˇekter´eho sloupce z matice, ˇc´ımˇz jsou pˇr´ısluˇsn´e probl´emy vyˇreˇseny. Nebudeme tedy situaci, kdy je matice X ne´ upln´e hodnosti jako kolinearitu vn´ımat, tj. budeme nad´ ale pˇredpokl´ adat, ˇze matice T X X je regul´ arn´ı. Jak vˇsak uvid´ıme, ˇreˇsen´ı probl´emu kolinearity, tak jak si o nˇem budeme d´ ale pov´ıdat, se uk´ aˇze b´yti schopno ˇreˇsit i situaci “pln´e” line´ arn´ı z´ avislosti nosiˇc˚ u. Nyn´ı si koneˇcnˇe “pˇredpˇr´ıprav´ıme” v´ yˇse sl´ıben´ y pomocn´ y technick´ y n´astroj. TVRZEN´ I 14 Necht’ matice A typu (n × m), n ≥ m, m´ a hodnost r ≤ m. Potom existuj´ı matice P, S a Q typ˚ u (n × m), (m × m) a (m × m) a plat´ı: • Matice S je diagon´ aln´ı, 107
• A = P SQT , • P T P = Im a • QT Q = QQT = Im . Tomuto rozkladu, tj. rovnosti A = P SQT , se ˇcasto ˇr´ık´ a singul´ arn´ı rozklad matice. D˚ ukaz. Definujme Q = (q1 , q2 , . . . , qm ), kde qi , i = 1, 2, . . . , m jsou vlastn´ı ortogon´aln´ı vektory matice AT A s vlastn´ımi ˇc´ısly λ1 ≥ λ2 ≥ . . . ≥ λm ≥ 0. Posledn´ı nerovnost plyne z faktu, ˇze matice AT A je nutnˇe pozitivnˇe semidefinitn´ı. Existence takov´ ych vektor˚ u plyne z Tvrzen´ı 6. Bez u ´jmy na obecnosti pˇredpokl´adejme, ˇze vektory maj´ı jednotkovou d´elku. Ttak je lze samozˇrejmˇe vˇzdy zvolit. Z pˇredpokladu, ˇze hodnost matice A je r plyne, ˇze prvn´ıch r vlastn´ıch √ n ˇc´ısel je nenulov´ ych a m˚ uˇzeme tedy poloˇzit si = λi a pi = s−1 i Aqi ∈ R pro i = 1, 2, . . . , r. Potom dostaneme 1 T T sj qi A Aqj = qiT qj = δij . pTi pj = si sj si D´ale dopln´ıme matici P ∗ = (p1 , p2 , . . . , pr ) dalˇs´ımi ortogon´aln´ımi vektory jednotkov´e d´elky na matici P typu (n × m), libovolnˇe. Z volby matice Q plyne, ˇze QT Q = Im . Protoˇze matice Q je regul´arn´ı a inverzn´ı matice je jen jedna, je tak´e QQT = Im , a tedy A = AQQT = (s1 p1 , s2 p2 , . . . , sm pm )QT = P SQT , kde jsme vyuˇzili fakt, ˇze sr+1 , . . . , sm = 0. 2 ’ Vrat me se nyn´ı ke kolinearitˇe. Jak´e jsou jej´ı zdroje (ˇci pˇr´ıˇciny, chcete-li) a jak ji m˚ uˇzeme rozpoznat? Jestliˇze uˇz v´ıme, ˇze naˇse data vykazuj´ı kolinearitu, a to ve stupni, kter´ y by mohl z d˚ uvod˚ u, kter´e si d´ale uk´aˇzeme, ovlivnit jejich zpracov´ an´ı, co bychom mˇeli podniknout? Na tyto ot´azky nyn´ı postupnˇe odpov´ıme. 7.4.1
Zdroje a rozpozn´ an´ı kolinearity
Jako zdroj kolinearity b´ yv´a nejˇcastˇeji uv´adˇena jedna z n´asleduj´ıc´ıch pˇr´ıˇcin: • zp˚ usob sbˇeru dat, • omezen´ı v populaci, ze kter´e byla data vyb´ır´ ana, • ˇspatn´a specifikace modelu. Zastavme se na chv´ıli u jednotliv´ ych pˇr´ıˇcin kolinearity. Prvn´ı z nich upozorˇ nuje na to, ˇze obˇcas urˇcit´e rysy nˇekter´e metody sbˇeru dat mohou v´est k tomu, ˇze vlastnˇe “vtiskneme” dat˚ um kolinearitu sami. Napˇr. se omez´ıme na ty prvky v nˇejak´e ˇsirˇs´ı populaci, kter´e souˇcasnˇe splˇ nuj´ı to a to, a pokud jsou tato omezen´ı zvolena tak neˇst’astnˇe, ˇze pˇredstavuj´ı nadrovinu ve faktorov´em prostoru, budou data vykazovat kolinearitu. Druh´a ˇr´ıˇcina je velmi podobn´a t´e prvn´ı, ale s t´ım rozd´ılem, ˇze vlastnˇe v cel´e populaci existuje takov´ y typ vazby, jak´ y byl v pˇredchoz´ım pˇr´ıpadˇe “neˇst’astnˇe” vybr´an jako selektivn´ı pravidlo pro 108
sbˇer dat. Pak je samozˇrejmˇe zbyteˇcn´e shromaˇzd’ovat o jednotliv´ ych pˇr´ıpadech vˇsechny poloˇzky, naopak nˇekter´e poloˇzky, kter´e d´ıky line´arn´ı vazbˇe vlastnˇe “plynou” z hodnot jin´ ych vysvˇetluj´ıc´ıch promˇenn´ ych (jin´ ych poloˇzek) nen´ı tˇreba shromaˇzd’ovat. Koneˇcnˇe pak tˇret´ı pˇr´ıˇcina je pˇreurˇcen´ı modelu, o kter´em jsme si pov´ıdali jiˇz dˇr´ıve. Podrobnou diskuzi ke vˇsem tˇemto bod˚ um uv´adˇej´ı pr´ace Mason a kol. (1975) ˇci Gunst (1983). Pˇr´ıklad dat vykazuj´ıc´ıch kolinearitu z d˚ uvodu uveden´eho jako prvn´ı lze nal´etz v Marquart, Snee (1975). Nyn´ı si nˇeco pov´ıme o zp˚ usobech, jak kolinearitu rozpoznat. Prvn´ı, a jak se hned uk´aˇze zav´adˇej´ıc´ı n´apad, vezme v u ´vahu to, ˇze pokud matice pl´anu X nen´ı pln´e hodnosti, m´a matice T X X nulov´ y determinant. Napadne n´as tedy, ˇze ˇc´ım bude matice X h˚ uˇre podm´ınˇena, t´ım bude jej´ı determinant menˇs´ı. Mohli bychom se tedy pokusit rozpoznat kolinearitu pomoci velikosti jej´ıho determinantu. Je-li vˇsak matice X T X “pouze” ˇspatnˇe podm´ınˇena, tj. sloupce v matici X jsou “t´emˇeˇr” line´arnˇe z´avisl´e, je determinant matice nenulov´ y a m˚ uˇze b´ yt, vyn´asob´ıme-li napˇr. vˇsechny prvky matice X stejn´ ym ˇc´ıslem, “udˇel´ an” libovolnˇe velk´ ym ˇci libovolnˇe mal´ ym, aniˇz by se cokoliv zmˇenilo na “stupni” z´avislosti mezi sloupci matice X. Tot´eˇz plat´ı i o vlastn´ıch ˇc´ıslech, jejichˇz hodnota m˚ uˇze b´ yt takto zvˇetˇsena ˇci zmenˇsena dle libosti. Naˇstˇest´ı je okamˇzitˇe patrn´e, ˇze zm´ınˇen´e u ´pravy matice nic nezmˇen´ı na pomˇeru vlastn´ıch ˇc´ısel, tj. jin´ ymi slovy, pomˇer kter´ ychkoliv dvou pevnˇe zvolen´ ych vlastn´ıch ˇc´ısel je hodnota absolutn´ı, nezmˇeniteln´ a n´asoben´ım matice. Mohli bychom tedy tento pomˇer, napˇr. pomˇer nejvˇetˇs´ıho ku nejmenˇs´ımu vlastn´ımu ˇc´ıslu matice X T X, pouˇz´ıvat jako ˇc´ıselnou charakteristiku podm´ınˇenosti t´eto matice. Je-li totiˇz matice singul´arn´ı, je alespoˇ n jedno vlastn´ı ˇc´ıslo nulov´e. Je-li tedy matice “na pokraji singularity”, je alespoˇ n jedno vlastn´ı ˇc´ıslo (v´ yraznˇe) menˇs´ı neˇz to nejvˇetˇs´ı, byt’ samozˇrejmˇe i to nejmenˇs´ı m˚ uˇze b´ yt znaˇcnˇe velik´e. Z jak´ ychsi historick´ ych d˚ uvod˚ u (viz singul´arn´ı rozklad matice) se vˇsak pouˇz´ıv´a odmocnina pomˇeru vlastn´ıch ˇc´ısel. Pˇripomeˇ nme, ˇze d´ıky tomu, ˇze pˇredpokl´ad´ ame plnou T hodnost matice X, je matice X X positivnˇe definitn´ı a tedy m´a vˇsechna vlastn´ı ˇc´ısla kladn´a. √ Pˇredpokl´adejme, ˇze je oˇc´ıslujeme λ1 ≥ λ2 ≥ . . . ≥ λp > 0 a poloˇz´ıme si = λi , 1 ≤ i ≤ p. DEFINICE 3 j-t´ym indexem podm´ınˇenosti matice X budeme rozumˇet veliˇcinu s1 ηj = , j = 1, 2, . . . , p. sj Index podm´ınˇenosti, tentokr´ at bez pˇr´ıvlastku j-t´y, matice X bude s1 κ(X) = ηp = . sp TVRZEN´ I 15 Necht’ P SQT je singul´ arn´ı rozklad matice X. Potom pro j = 1, 2, . . . , p m´ ame (LS,n)
var(βˆj
) = σ2
p X
2 s−2 i qij ,
(115)
i=1
kde qij je i, j-t´y prvek matice Q. D˚ ukaz. Nˇekolikr´at jsme v pˇredchoz´ım textu pouˇzili to, ˇze var(βˆ(LS,n) ) = σ 2 (X T X)−1 . Matici X T X m˚ uˇzeme ps´at jako QS 2 QT a tedy, uvˇedom´ıme-li si, ˇze matice Q je inverzn´ı ke QT a matice S je diagon´aln´ı, m´ame h
(X T X)−1 = QS 2 QT
i−1
= QS −2 QT =
p X i=1
109
T s−2 i qi qi ,
kde jsme symbolicky psali S −2 nam´ısto S −1 S −1 . Posledn´ı rovnost se snadno ovˇeˇr´ı, jestliˇze rozep´ıˇseme pˇr´ısluˇsn´ y souˇcin pomoc´ı sumac´ı. 2 Ze vztahu (115) je ihned patrn´e, jak´e jsou d˚ usledky toho, je-li alespoˇ n jedno si dosti mal´e. (LS,n) ˆ Je vidˇet, ˇze rozptyl var(βk ) m˚ uˇze b´ yt znaˇcnˇe velk´ y. Jak jsme pˇripomˇeli v´ yˇse, absolutn´ı velikost ˇc´ısel si lze ovlivnit zn´asoben´ım matice X. To znamen´a, ˇze lze t´ımto ovlivnit rovnˇeˇz rozptyl odhadu regresn´ıch koeficient˚ u. To samozˇrejmˇe souhlas´ı s intuitivn´ı pˇredstavou, ˇze ˇc´ım jsou body, ve kter´ ych se uskuteˇcnilo pozorov´ an´ı v´ıce vzd´aleny od sebe, t´ım je odhad pˇresnˇejˇs´ı. Povˇsimnˇeme si vˇsak, ˇze to nic nemˇen´ı na relativn´ı pˇresnosti predikce hodnoty vysvˇetlovan´e promˇenn´e v nˇekter´em bodˇe x ∈ Rp , samozˇrejmˇe za pˇredpokladu, ˇze je cel´ y v´ ypoˇcet prov´ adˇen na dostateˇcn´ y poˇcet desetinn´ ych m´ıst tak, aby se kdesi cestou hodnˇe mal´e ˇc´ıslo nepovaˇzovalo za nulu. Nav´ıc (115) naznaˇcuje, ˇze pokud je jedno si mal´e ve srovn´ an´ı s ostatn´ımi ˇc´ısly sk , bude m´ıt i-t´ y ˇclen v souˇctu (115) mimoˇr´adnou v´ahu a m˚ uˇze “destabilizovat” odhad. Nastane-li situace, kdy κ(X) > 100 mluv´ı se zpravidla o siln´e kolinearitˇe a patrnˇe jedin´a pomoc je nˇekter´ y sloupec matice X vypustit. Je-li κ(X) > κ, kde κ ∈ (10, 30) je jak´asi kritick´a, ale v podstatˇe individu´aln´ı hodnota dle vkusu a zkuˇsenost´ı toho ˇci onoho zpracovatele dat, pouˇzije se obvykle nˇekter´a metoda na potlaˇcen´ı kolinearity. 7.4.2
Hˇ rebenov´ a regrese
A. E. Hoerl a R. W.Kennard navrhli v roce 1970 jeden z moˇzn´ ych zp˚ usob˚ u, (Hoerl a Kennard (1970 a, b)) jak se vyrovnat s nepˇr´ıjemn´ ym vlivem kolinearity. Jejich n´avrhu se zaˇcalo ˇr´ıkat ridge regression, ˇcesky se pomalu uj´ım´ a hˇrebenov´ a regrese, nebot’ n´azev, jak v angliˇctinˇe tak v ˇceˇstinˇe, zachycuje ten fakt, ˇze se v matici “zvedne” umˇele diagon´ala, tj. vytvoˇr´ı se jak´ ysi (horsk´ y) hˇreben, a t´ım se (ponˇekud) potlaˇc´ı kolinearita. Vysvˇetleme si nyn´ı podrobnˇeji, v ˇcem spoˇc´ıv´ a n´avrh p´an˚ u Hoerla a Kennarda. Ukaˇzeme T nejprve, ˇze matice X X + δI, kde δ je (mal´e) pozitivn´ı ˇc´ıslo, je vˇzdy regul´arn´ı, a tedy pozitivnˇe definitn´ı. Protoˇze matice X T X je symetrick´ a, plyne z Tvrzen´ı 7, ˇze X T X = QS 2 QT , kde S 2 je diagon´aln´ı matice maj´ıc´ı na diagon´ale vlastn´ı ˇc´ısla matice X T X a QT Q = QQT = I. Vzhledem k tomu, ˇze nav´ıc pˇredpokl´ad´ame, ˇze X T X je regul´arn´ı a tedy pozitivnˇe definitn´ı jsou prvky na diagon´ale matice S 2 kladn´e, byt’ patrnˇe mal´e. Uvˇedomme, ˇze matici X T X + δI m˚ uˇzeme 2 T T 2 ’ ps´at jako Q(S + δI)Q , nebot QQ = I. Je vˇsak evidentn´ı, ˇze matice Q(S + δI)QT je regul´arn´ı. Kaˇz³d´ y z ˇcinitel˚ u´ v tomto souˇcinu je totiˇz tak´e regul´arn´ı. Posledn´ı rovnost vˇsak ihned T implikuje, ˇze X X + δI Q = Q(S 2 + δI), neboli, ˇze ˇc´ısla na diagon´ale matice S 2 + δI jsou vlastn´ımi ˇc´ısly matice X T X + δI. To vˇsak znamen´a, ˇze velikost tˇechto ˇc´ısel a jejich pomˇer˚ u m˚ uˇzeme mˇenit pomoc´ı volby ˇc´ısla δ, m˚ uˇzeme tak´e mˇenit index podm´ınˇenosti t´eto matice. A to je hlavn´ı myˇslenka hˇrebenov´e regrese, totiˇz umˇel´ a zmˇena pomˇeru vlastn´ıch ˇc´ısel matice jej´ıˇz inverzi hled´ame. Po tˇechto pˇredbˇeˇzn´ ych u ´vah´ach, studujme nyn´ı nam´ısto odhadu βˆ(LS,n) = (X T X)−1 X T Y odhad ³ ´−1 βˆ(R,δ,n) = X T X + δI X T Y. ³
TVRZEN´ I 16 Vych´ylen´ı odhadu βˆ(R,δ,n) je −δ X T X + δI 110
´−1
β 0 a matice stˇredn´ıch kvadrat-
ick´y odchylek (MSE) m´ a tvar ³
X T X + δI
´−1 h
σ 2 X T X + δ 2 β 0 [β 0 ]T
i³
X T X + δI
´−1
.
D˚ ukaz. Snadno se ovˇeˇr´ı, ˇze vych´ ylen´ı odhadu βˆ(R,δ,n) je h
i
³
IE βˆ(R,δ,n) − β 0 = X T X + δI ³
= X T X + δI
´−1 h
´−1
X T Xβ 0 − β 0
i
³
X T X − X T X − δI β 0 = −δ X T X + δI
´−1
β0.
V´ ypoˇctem m˚ uˇzeme ovˇeˇrit, ˇze pro kaˇzd´ y n´ahodn´ y vektor Z je matice stˇredn´ıch kvadratick´ ych odchylek ( MSE(Z) ) od pevn´eho vektoru h rovna n
(Z − h)(Z − h)T
IE
o
n
= IE
(Z − IE Z + IE Z − h)(Z − IE Z + IE Z − h)T
o
= var(Z) + (IE Z − h)(IE Z − h)T . Nav´ıc je okamˇzitˇe patrn´e, ˇze ³
IE βˆ(R,δ,n) = X T X + δI ³
a tedy βˆ(R,δ,n) − IE βˆ(R,δ,n) = X T X + δI var(βˆ(R,δ,n) ) = IE
½³
´−1
³
X X + δI
³
X T Xβ 0
X T (Y − Xβ 0 ) = X T X + δI
T
= σ 2 X T X + δI
´−1
´−1
´−1
T
T
³
T
X E · E X X X + δI ³
X T X X T X + δI
´−1
´−1
X T E. Odtud
´−1 ¾
.
Koneˇcnˇe pak ³
MSE(βˆ(R,δ,n) ) = X T X + δI
´−1 h
σ 2 X T X + δ 2 β 0 [β 0 ]T
i³
X T X + δI
´−1
. 2
LEMMA 11 Necht’ model (4) m´ a plnou hodnost a necht’ IE E = 0 a IE E · E T = σ 2 I, σ 2 ∈ 2 (0, ∞). Koneˇcnˇe necht’ 0 < δ < 2 kβσ0 k2 . Potom var(βˆ(LS,n) ) − MSE(βˆ(R,δ,n) ) je pozitivnˇe definitn´ı. D˚ ukaz. Pˇriprav´ıme si nejprve n´asleduj´ıc´ı pomocn´e tvrzen´ı. TVRZEN´ I 17 Necht’ C je pozitivnˇe definitn´ı matice, ˇreknˇeme typu (n×n). Potom pro libovoln´y vektor a ∈ Rn je aT Ca ≤ 1 pr´ avˇe tehdy, pokud je C −1 − aT a pozitivnˇe semidefinitn´ı matice. Pokud m´ a platit ostr´ a nerovnost aT Ca < 1 je nutn´e a staˇc´ı, aby matice C −1 − aT a byla pozitivnˇe definitn´ı.
111
D˚ ukaz. V´ıme, ˇze C lze ps´at jako QDQT , kde Q je regul´arn´ı ortogon´aln´ı matice a D je diagon´aln´ı s kladn´ ymi prvky na diagon´ale. Fakticky jde o vlastn´ı ˇc´ısla matice C. To znamen´a, −1 −1 −1 je tak´ ˇze C = QD QT , kde D−1 je diagon´aln´ı matice maj´ıc´ı na diagon´ale d−1 e ii , tj. C pozitivnˇe definitn´ı. Dokazovan´e tvrzen´ı tedy plat´ı pro a = 0. ˜Q ˜ T , kde Q ˜ je rovnˇeˇz regul´arn´ı. Potom aT Ca ≤ 1 Matice C m˚ uˇze b´ yt ovˇsem tak´e ps´ana jako Q ˜ ≤ 1. Z jednoduch´e geometrick´e u je ekvivalentn´ı s kQak ´vahy plyne, ˇze rozd´ıl projekˇcn´ıch matic T ˜ T ˜ −1 T ˜ T ˜ Q ˜ T Q) ˜ −1 Q ˜ T − Qa(a ˜ Q( Q Qa) a Q ,
je rovnˇeˇz projekˇcn´ı matic´ı (viz Tvrzen´ı 9). nebot’ M(Qa) ⊂ M(Q). ˜ ≤ 1, pak pro libovoln´e λ ∈ Rn je Plat´ı-li nyn´ı kQak ˜ TQ ˜T λ λT Qaa T ˜ T ˜ −1 T ˜ T ˜ TQ ˜ T λ. ˜ ≥ λT Qaa λT Qa(a Q Qa) a Q λ = ˜ ˜ T Qa aT Q To ovˇsem ˇr´ık´a, ˇze
n
o
T ˜ T ˜ −1 T ˜ T ˜ Q ˜ T Q) ˜ −1 Q ˜ T − Qa(a ˜ 0 ≤ λT Q( Q Qa) a Q λ
n
o
˜ Q ˜ T Q) ˜ −1 Q ˜ T − Qaa ˜ TQ ˜T λ ≤ λT Q( ˜ T λ, dostaneme a tedy pro τ = Q ³
´
˜ T Q) ˜ −1 − aaT τ ≥ 0, τ T (Q coˇz vˇsak znamen´a, ˇze je pozitivnˇe semidefinitn´ı tak´e ˜ T Q) ˜ −1 − aaT = C −1 − aaT . (Q Dokazujme nyn´ı opaˇcn´e tvrzen´ı. Necht’ C −1 − aaT je pozitivnˇe semidefinitn´ı. Pak pro vektor ˜ T Qa, ˜ at’ uˇz je nulov´ ξ=Q y ˇci nikoliv, je ³
´
³
´
³
´
˜ T Qa ˜ ˜ T Q) ˜ −1 − aaT ξ = aT Q ˜T Q ˜ (Q ˜ T Q) ˜ −1 − aaT Q 0 ≤ ξ T C −1 − aaT ξ = ξ T (Q ˜ T Q( ˜ Q ˜ T Q) ˜ −1 Q ˜ T Qa ˜ − aT Q ˜ T Qaa ˜ TQ ˜ T Qa. ˜ = aT Q ˜ leˇz´ı v prostoru M(Q), ˜ tj. Q( ˜ Q ˜ T Q) ˜ −1 Q ˜ T Qa ˜ = Qa ˜ a tedy Nyn´ı vyuˇzijeme toho, ˇze vektor Qa m´ame ˜ T Q( ˜ Q ˜ T Q) ˜ −1 Q ˜ T Qa ˜ − aT Q ˜ T Qaa ˜ TQ ˜ T Qa ˜ = aT Q ˜ T Qa ˜ − aT Q ˜ T Qaa ˜ TQ ˜ T Qa ˜ 0 ≤ aT Q ˜ 2 − kQak ˜ 4 = kQak ˜ 2 (1 − kQak ˜ 2 ). = kQak ˜ 2 ≤ 1, neboli aT Q ˜ T Qa ˜ = aT Ca ≤ 1. D˚ Posledn´ı nerovnost implikuje to, ˇze kQak ukaz tvrzen´ı s ostr´ ymi nerovnostmi je zaloˇzen na faktu, ˇze pro matici ·
F =
A B C D
¸
,
kde A a D jsou regul´arn´ı, m´ame |F | = |A| · |D − CA−1 B| = |D| · |A − BD−1 C|, 112
(116)
kde |F |, |A|, atd. je determinant matice F, A, atd.. Posledn´ı rovnost se ovˇeˇr´ı takto: ¯ ¯
¯ ¯ I
|F | = ¯¯ ¯ ¯ I = ¯¯ 0
¯ ¯
¯
0 ¯¯ ¯¯ I 0 ¯¯ ¯¯ A B ¯¯ ·¯ · ¯ 0 D 0 D−1 ¯ ¯ C D ¯
¯ ¯
¯
¯
¯ ¯
¯
0 ¯¯ ¯¯ A B ¯¯ ¯¯ I 0 ¯¯ ¯¯ A − BD−1 C 0 ¯¯ · ¯ −1 = · . ¯ D D C I ¯ ¯ 0 D ¯ ¯ D−1 C I ¯
Vyuˇzijeme-li jak prvou, tak druhou rovnost z (116), dostaneme ¯ −1 ¯ C ¯ ¯ aT
¯
a ¯¯ = |C −1 |(1 − aT Ca) = |C −1 − aaT |. 1 ¯
To vˇsak dokazuje to, ˇze C −1 − aaT je singul´arn´ı pr´avˇe kdyˇz 1 = aT Ca. Koneˇcnˇe pak z faktu, ˇze pozitivnˇe semidefinitn´ı matice je pozitivnˇe definitn´ı pr´avˇe tehdy, je-li regul´arn´ı plyne druh´e tvrzen´ı. 2 D˚ ukaz lemmatu 10. Pˇripomeˇ nme, ˇze v´ yraz pro kovarianˇcn´ı matici odhadu metodou nej(LS,n) ˆ menˇs´ıch ˇctverc˚ u vypad´a takto var(β ) = σ 2 (X T X)−1 . Aplikac´ı Tvrzen´ı 6 dostaneme var(βˆ(LS,n) ) − MSE(βˆ(R,δ,n) ) ³
= X T X + δI
´−1 h
σ 2 (X T X + δI)(X T X)−1 (X T X + δI) −σ 2 X T X − δ 2 β 0 [β 0 ]T
³
= X T X + δI
i³
X T X + δI
´−1 h
σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T
i³
´−1
X T X + δI
´−1
.
(117)
Je-li tedy δ ∈ (0, 2σ 2 kβ 0 k−2 ), potom pro C = 12 Iδσ −2 m´ame [β 0 ]T 21 Iδσ −2 β 0 = 12 δσ −2 kβ 0 k2 < 1 a tedy dle Tvrzen´ı 7 je 2Iσ 2 δ −1 − β 0 [β 0 ]T pozitivnˇe definitn´ı. Pak ovˇsem i 2Iσ 2 δ − δ 2 β 0 [β 0 ]T je pro δ > 0 pozitivnˇe definitn´ı a tedy tak´e matice σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T je pozitivnˇe definitn´ı, coˇz ovˇsem ihned implikuje, ˇze i (117) je pozitivnˇe definitn´ı.
2
TVRZEN´ I 18 Necht’ P SQT je singul´ arn´ı rozklad matice X. Potom var(βˆ(R,δ,n) ) = σ 2
p X
"
i=1
si 2 si + δ
#2
qi qiT .
D˚ ukaz. Podobnˇe jako v´ yˇse piˇsme X T X = QS 2 QT a tedy
³
X T X + δI
´−1
= Q(S 2 +
δI)−1 QT . Potom ³
βˆ(R,δ,n) = X T X + δI
´−1
X T Y = Q(S + δI)−1 QT QSP T Y = Q(S + δI)−1 SP T Y,
a koneˇcnˇe tedy var(βˆ(R,δ,n) ) = Q(S + δI)−1 SP T var(Y ) P S(S + δI)−1 QT 2
−1 2
= σ Q(S + δI)
−1
S (S + δI)
T
Q =σ
2
p X i=1
Ã
si 2 si + δ
!2
qi qiT . 2
113
´ POZNAMKA 10 Bude-li matice X T X ˇspatnˇe podm´ınˇen´ a, nalezne se mezi jej´ımi vlastn´ımi ˇc´ısly nˇekter´e dosti mal´e, v porovn´ an´ı s ostatn´ımi. To znamen´ a, ˇze pro toto vlastn´ı ˇc´ıslo (ˇreknˇeme −1 i-t´e) bude si , kter´e vystupuje v (115), dosti velk´e, avˇsak si (s2i +δ)−1 m˚ uˇze b´yt opˇet naopak mal´e. Vzhledem k tomu, ˇze samozˇrejmˇe nezn´ame ani σ 2 ani kβ 0 k, nen´ı jasn´e, jak velk´e m˚ uˇze b´ yt zvoleno δ. Existuj´ı v podstatˇe dvˇe moˇznosti, jak se s t´ımto probl´emem vypoˇr´ adat. Jednou (R,δ,n) ˆ z moˇznost´ı je vypoˇc´ıtat β jako funkci δ pro r˚ uzn´e hodnoty δ a vyn´est grafy jednotliv´ ych (R,δ,n) ˆ sloˇzek vektoru β v z´avislosti na δ. Pot´e se doporuˇcuje zvolit δ takov´e, od kter´eho poˇc´ınaje se uˇz grafy “stabilizuj´ı”. Jinou moˇznost´ı je zvolit nˇejak δ, vypoˇc´ıtat odhad βˆ(R,δ,n) a σ ˆ 2 , a pot´e vˇzdy pˇrekontrolovat, zda δ < 2ˆ σ 2 kβˆ(R,δ,n) k−2 . Alternativou hˇrebenov´ ych odhad˚ u je nalezen´ı hlavn´ıch komponent matice X T X a vybudov´an´ı regresn´ıho modelu na tˇechto komponent´ ach. O tom si pov´ıme v dalˇs´ım odstavci. 7.4.3
Odhady s line´ arn´ımi ohraniˇ cuj´ıc´ımi podm´ınkami
Je pochopiteln´e, ˇze pokud pomoc´ı napˇr. faktorov´e anal´ yzy ˇci anal´ yzy hlavn´ıch komponent T pouˇzit´e pro X X by se uk´azalo, ˇze “variabilita” dat maj´ıc´ıch za kovarianˇcn´ı matici pr´avˇe X T X je vysvˇetliteln´a pouze r faktory, znamen´a to, ˇze p − r sloupc˚ u matice X je “t´emˇeˇr” z´avisl´ ych na nˇekter´ ych r. To odpov´ıd´a pˇribliˇznˇe situaci, kdy dimenze prostoru M(X) je r a nalezneme matici K tak, ˇze M(X) ∩ M(K) = ∅ a M(X ∪ K) = p a hled´ame odhad modelu Y = Xβ + E,
Kβ = 0,
(118)
kde K je typu ((p − r) × p). Opˇet lze uk´azat, ˇze, oznaˇc´ıme-li βˆ(C,n) odhad regresn´ıch koeficient˚ u C v tomto modelu metodou nejmenˇs´ıch ˇctverc˚ u (kde horn´ı index naznaˇcuje, ˇze jde o odhad s omezen´ımi - constraints), je var(βˆ(LS,n) ) − MSE(βˆ(C,n) ) (119) pozitivnˇe definitn´ı, opˇet samozˇrejmˇe za urˇcit´ ych podm´ınek na si , viz Zv´ara (1989). Nam´ısto toho, abychom uvedli pˇresn´ y d˚ ukaz tohoto tvrzen´ı, uk´aˇzeme, jak takov´ y odhad s line´arn´ımi omezen´ımi vypoˇc´ıtat. Nejprve budeme studovat jednoduch´ y pˇr´ıklad, kdy omezen´ı jsou (LS,n) βˆ1 = 0, (120) tj. model bude bez absolutn´ıho ˇclenu, a p X ˆ(n)
βj
j=1
=
p X ˆ(n)
βj
= 1.
(121)
j=2
Tato u ´loha patrnˇe poch´az´ı z oblasti kombinov´ an´ı pˇredpovˇed´ı ˇcasov´ ych ˇrad, napˇr. kombinov´ an´ı predikc´ı velikosti hrub´eho n´arodn´ıho produktu, kter´e byly vytvoˇreny r˚ uzn´ ymi agenturami. Vhodn´a kombinace je hled´ana pomoc´ı line´arn´ıho regresn´ıho modelu, vytvoˇren´eho tak, ˇze predikovan´ a ˇrada, jej´ıˇz hodnoty aˇz do souˇcasnosti zn´ame, se zprojektuje na matici pl´anu, jej´ıˇz sloupce jsou tvoˇreny pr´avˇe ˇradami pˇredpovˇed´ı predikovan´eho procesu, kter´e v minulosti vyd´avali r˚ uzn´ı “prediktoˇri”.
114
Pˇripravme si vˇsak nejprve technick´ y n´astroj. Pomˇernˇe snadno se ovˇeˇri, ˇze ³
IE
Yˆt+1 − Yt+1
´2
"
=σ
2
µh
T Xt+1
X
(t)
iT
X
(t)
#
¶−1
Xt+1 + 1 ,
(122)
kde jsme horn´ım indexem (t) u X (t) naznaˇcili, ˇze se jedn´a o matici pl´anu (kter´a je sloˇzena z pˇredpovˇed´ı jednotliv´ ych pˇredpov´ıdatel˚ u, na m´ıstˇe sloupc˚ u) pro obdob´ı 1, 2, ...t. D´ale pak Yt+1 a Yˆt+1 jsou hodnoty pˇredpov´ıdan´eho procesu a jeho odhadu v obdob´ı t + 1 a koneˇcnˇe Xt+1 je vektor pˇredpovˇed´ı jednotliv´ ych pˇredpov´ıdatel˚ u na obdob´ı t+1. Zapiˇsme v´ yˇse uveden´ a ohraniˇcen´ı na koeficienty regresn´ıho modelu maticovˇe. Dostaneme Cβ = κ,
(123)
kde c11 = 1, c1i = 0 pro i = 2, 3, ..., p, c21 = 0, c2i = 1 pro i = 2, 3, ..., p a κ = (0, 1)T . Naleznˇeme odhad regresn´ıch koeficient˚ u v modelu (118) a oznaˇcme predikci z´ıskanou pomoc´ı tohoto odhadu jako Y˜t+1 . Potom m´ame ³
Y˜t+1 − Yt+1
IE µh
−
X (t)
iT
X (t)
¶−1
"
CT C
µh
X (t)
iT
´2
(
=σ
X (t)
2
¶−1
"µ
T Xt+1
h
X
#−1
CT
(t)
iT
µh
X
X (t)
C
iT
(t)
¶−1
X (t)
¶−1
Xt+1 + 1 . (124)
To, ˇze rozd´ıl v´ yraz˚ u v (122) a (124) je nez´aporn´ y, plyne z faktu, ˇze matice µh
X
(t)
iT
X
(t)
"
¶−1
C
T
µh
C
X
(t)
iT
X
(t)
#−1
¶−1
C
T
µh
C
X
(t)
iT
X
(t)
¶−1
je pozitivnˇe semidefinitn´ı (byt’ zlepˇsen´ı je ˇr´ adu 1t ; podrobnˇejˇs´ı diskuzi lze nal´ezt v Clemen (1986)). Vyloˇzme si nyn´ı, jak se naleznou v´ yˇse zm´ınˇen´e odhady regresn´ıch koeficient˚ u pro speci´aln´ı ohraniˇcen´ı dan´a v (123). Pak si uvedeme data a uk´aˇzeme, jak je velk´ y zisk - ve smyslu souˇctu ˇctverc˚ u chyb pˇredpovˇed´ı, pouˇzijeme-li obyˇcejn´e nejmenˇs´ı ˇctverce, tj. bez omezen´ı, ˇci odhad splˇ nuj´ıc´ı (120) a (121). Tak jako obvykle, budeme pˇredpokl´adat, ˇze matice pl´anu obsahuje v prvn´ım sloupci sam´e jedniˇcky, ve druh´em prvn´ı vysvˇetluj´ıc´ı promˇennou, atd. . Nyn´ı ztransformujeme data n´asleduj´ıc´ım zp˚ usobem. Necht’ pro i = 1, 2, . . . , n a j = 1, 2, . . . , p − 2 Y˜i = Yi − Xi2 ,
˜ ij = Xi,j+2 − Xi2 X
˜ β˜ + E. Koneˇcnˇe pak definujme vz´ajemnˇe jednoznaˇcnou a nalezneme βˆ(LS,n) pro model Y˜ = X P p−2 transformaci T z R na podprostor Rp zadan´ y podm´ınkou βˆ1 = 0 a pj=1 βˆj = 1 ˜ = βˆ1 = 0, T2 (β) ˜ = βˆ2 = 1 − T1 (β)
p−2 X
β˜j ,
˜ = βˆj = β˜j−2 , j =, 3, 4, . . . , p. Tj (β)
j=1
Potom ovˇsem
Pp
ˆ = 1, tj. omezen´ı (121) je splnˇeno. D´ale (pˇripom´ın´ ame, ˇze βˆ1 = 0)
j=1 βj
n X
(Yi −
i=1
ˆ2 XiT β)
=
n X
(Yi − Xi2 βˆ2 −
i=1
p X j=3
115
Xij βˆj )2
(125)
=
n X
(Yi − Xi2 (1 −
i=1
p−2 X
β˜j ) −
j=1
p−2 X
Xi,j+2 β˜j )2 =
j=1
=
n X
n X
p−2 X
i=1
j=1
(Yi − Xi2 −
˜ ij β˜j )2 X
˜ 2, ˜ iT β) (Y˜i − X
(126)
i=1
tj. vektory βˆ∗ a β˜∗ , kter´e minimalizuj´ı sumy (125) a (126) si navz´ ajem odpov´ıdaj´ı, tj. βˆ∗ = T (β˜∗ ). ˇ sen´ı u Reˇ ´lohy s omezen´ımi (120) a (121) nalezneme tedy snadno takto: Nam´ısto p˚ uvodn´ı matice pl´anu vezmeme matici, kterou dostaneme tak, ˇze vynech´ ame prvn´ı sloupec, pokud byl tvoˇren jedniˇckami, tj. pokud se poˇc´ıtalo s absolutn´ım ˇclenem, a uprav´ıme data tak, ˇze vezmeme druhou vysvˇetluj´ıc´ı promˇennou, odeˇcteme od n´ı tu prvn´ı a novˇe vzniklou promˇennou povaˇzujeme za novou prvn´ı vysvˇetluj´ıc´ı promˇennou atd. aˇz po p−2-hou novou vysvˇetluj´ıc´ı promˇennou. Podobnˇe od vysvˇetlovan´e promˇenn´e odeˇcteme prvn´ı vysvˇetluj´ıc´ı a tuto transformovanou promˇennou budeme uvaˇzovat jako novou vysvˇetlovanou promˇennou. Nakonec vypoˇcteme norm´aln´ı (chceteli bˇeˇzn´ y) odhad metodou nejmenˇs´ıch ˇctverc˚ u a ten pak ztransformujeme zpˇet pomoc´ı v´ yˇse ˜ naznaˇcen´e transformace T (β). Nyn´ı se budeme vˇenovat v´ yˇse sliben´emu pˇr´ıkladu o v´ yvoji hrub´eho n´arodn´ıho d˚ uchodu ve Spojen´em kr´alovstv´ı. Data byla publikov´ ana v ˇcl´ anku Holden a Peel (1989) a popisuj´ı tedy r˚ ust hrub´eho n´arodn´ıho produktu v U. K. a to od 1977/1 do 1985/2, pˇriˇcemˇz r˚ ust byl pˇrepoˇc´ıt´ an k cen´am z roku 1988. Zkratky v n´asleduj´ıc´ıch tabulk´ach naznaˇcuj´ı, ˇze jednotliv´e pˇredpovˇedi byly vytvoˇreny tˇemito agenturami: • HCT - Henley Centre for Forecasting, • LBS - London Business School, • NI - National Institute of Economic and Social Research, • OECD - Organization for Economic Co-operation and Development a • PD - Phillips and Drew. V n´asleduj´ıc´ı tabulce jsou uvedena data, tak jak byla publikov´ ana ˇcl´ anku v Holden a Peel (1989) a to na tˇri desetinn´a m´ısta, pokud ovˇsem v pˇr´ısluˇsn´em sloupci se neobjevilo alespoˇ n jedno ˇc´ıslo udan´e na v´ıce platn´ ych cifer. TABULKA 9 Ekonomick´y r˚ ust ve Spojen´em kr´ alovstv´ı Poˇrad´ı
Obdob´ı
HCF
LBS
NI
OECD
PD
R˚ ust
1
1977/1
2.5875
2.650
1.270
1.125
-0.400
1.76899
2
1977/2
3.0375
2.360
3.310
1.000
1.000
3.62319
3
1977/3
3.4500
2.240
3.150
1.875
1.500
3.40205
4
1977/4
3.0750
2.050
2.570
1.500
-0.400
2.76075
5
1978/1
3.1000
3.470
3.460
2.875
-3.000
2.04499
6
1978/2
2.9125
3.340
1.470
2.000
2.200
3.39661
116
Ekonomick´y r˚ ust ve Spojen´em kr´ alovstv´ı (pokraˇcov´ an´ı) Poˇrad´ı
Obdob´ı
HCF
LBS
NI
OECD
PD
R˚ ust
7
1978/3
3.2125
1.660
0.830
2.125
3.000
2.79163
8
1978/4
3.1375
2.820
2.620
1.750
4.500
2.58706
9
1979/1
2.7000
3.160
2.960
1.875
3.500
2.30461
10
1979/2
1.9250
3.100
1.980
1.500
0.900
-2.70532
11
1979/3
0.3375
-0.930
1.100
2.625
-0.400
-3.68575
12
1979/4
-0.1375
-0.100
0.820
1.000
0.800
-5.04364
13
1980/1
-1.9000
-0.980
1.850
-1.625
1.500
-3.91773
14
1980/2
-1.0125
-0.040
0.470
-0.500
-3.700
-2.58193
15
1980/3
-0.6375
-0.200
1.600
2.750
-2.600
-0.50352
16
1980/4
-0.5500
1.980
1.130
-1.000
-5.000
2.04290
17
1981/1
1.4000
2.270
-0.050
-1.000
-5.600
1.63099
18
1981/2
-0.4500
2.480
-0.230
-1.250
-4.500
2.34455
19
1981/3
0.5500
2.560
0.150
-0.250
-2.400
1.31579
20
1981/4
1.4500
2.470
0.530
0.750
-0.500
1.10111
21
1982/1
-1.7500
2.790
0.310
1.000
1.000
3.10932
22
1982/2
1.6375
3.020
1.090
1.750
1.800
2.49004
23
1982/3
1.9375
2.910
0.860
1.750
1.200
4.09591
24
1982/4
2.2875
2.180
1.850
1.625
0.400
4.05940
25
1983/1
1.6250
2.210
1.780
1.500
1.300
3.11285
26
1983/2
2.1375
2.120
1.250
1.625
2.400
2.62390
27
1983/3
2.5125
2.920
1.200
2.375
3.000
2.69714
28
1983/4
2.0875
2.430
1.100
2.250
3.400
2.66413
29
1984/1
2.5000
2.360
1.980
2.250
1.700
3.30189
30
1984/2
2.2500
4.050
3.050
1.750
3.900
4.92424
31
1984/3
2.1000
2.220
3.740
2.750
2.710
3.45794
32
1984/4
2.3500
2.180
2.950
2.000
2.980
2.78035
33
1985/1
2.8300
3.400
1.360
3.630
2.810
2.37442
34
1985/2
2.4500
2.600
1.350
2.880
2.740
1.35379
Data byla zpracov´ana takto. Poˇc´ınaje ˇctvrtlet´ım 1982/1 byly konstruov´ any kombinovan´e pˇredpovˇedi hrub´eho n´arodn´ıho d˚ uchodu a to t´ımto zp˚ usobem. Na z´akladˇe dat aˇz do tohoto ˇctvrtlet´ı, tj. na z´akladˇe t prv´ ych ˇr´adk˚ u TABULKY 9, a byl vypoˇcten βˆ(LS,t) a βˆ(C,t) , kde veliˇcina “R˚ ust” figurovala jako vysvˇetlovan´a a veliˇciny “HCF”, “LBS”, “NI”, “OECD” a “PD” jako vysvˇetluj´ıc´ı. To odpov´ıd´a myˇslence, ˇze na z´akladˇe dat z minulosti, kdy uˇz zn´ame v´ yvoj veliˇciny “R˚ ust” se nauˇc´ıme “co nejl´epe kombinovat” pˇredpovˇedi jednotliv´ ych pˇredpov´ıdatel˚ u a ve chv´ıli, kdy tito pˇredpov´ıdatel´e uvoln´ı pro veˇrejnost svoje pˇredpovˇedi na dalˇs´ı ˇctvrtlet´ı, vytvoˇr´ıme kombinovan´e pˇredpovˇedi xTt+1 βˆ(LS,t) a xTt+1 βˆ(C,t) . 117
Na konci kaˇzd´eho ˇctvrtlet´ı, napˇr. t + 1, kdy uˇz zn´ame Yt+1 , posoud´ıme “kvalitu” pˇredpovˇedi, napˇr. pomoc´ı ˇctverc˚ u (Yt+1 − xTt+1 βˆ(LS,t) )2
a
(Yt+1 − xTt+1 βˆ(C,t) )2 .
(127)
D´ıky tomu, ˇze v naˇsem pˇr´ıpadˇe uˇz zn´ame data pro cel´e obdob´ı 1977/1 aˇz 1985/2, m˚ uˇzeme to udˇelat nar´az pro t = 21, 22, . . . , 33. Jak plyne z hlaviˇcky tabulky byly uvaˇzov´ any i modely, kter´e splˇ nuj´ı pouze jedno z omezen´ı (120) a (121). Poznamenejme jeˇstˇe, ˇze Tabulka 10 uv´ad´ı v´ ysledky z´ıskan´e pro pˇr´ıpad, kdy byly vzaty v u ´vahu vˇsechny pˇredpovˇedi, tj. HCF, LBS, NI, OECD a PD. TABLE 10 Postupn´e souˇcty ˇctverc˚ u chyb pˇredpovˇed´ı Kumulativn´ı souˇcty Obdob´ı S interceptem Bez interceptu Bez S Bez S omezen´ı omezen´ımi omezen´ı omezen´ımi 1982/2 0.073 0.310 0.000 0.457 1982/3 3.527 1.304 2.076 1.269 1982/4 9.739 5.012 7.250 4.697 1983/1 12.356 6.236 9.406 5.825 1983/2 13.328 6.236 9.515 5.825 1983/3 13.370 7.012 9.748 6.620 1983/4 13.691 7.077 9.763 6.704 1984/1 15.099 7.741 11.121 7.282 1984/2 15.708 9.312 14.081 8.752 1984/3 18.479 12.556 19.705 12.553 1984/4 18.997 12.710 20.253 12.978 1985/1 21.240 15.418 21.803 14.653 1985/2 22.444 17.910 23.574 16.709 N´asleduj´ıc´ı tabulka uv´ad´ı hodnoty sum ˇctverc˚ u chyb pro vˇsechny moˇzn´e dvojice pˇredpovˇed´ı. Je ihned patrn´e, ˇze v Tabulce 10 se projevil efekt pˇreurˇcen´ı modelu, o kter´em jsme si pov´ıdali v´ yˇse. Je ihned patrn´e, ˇze efekt pˇreurˇcen´ı zp˚ usobil to, ˇze rozptyly odhad˚ u jednotliv´ ych koeficient˚ u jsou v pˇreurˇcen´em modelu vˇetˇs´ı neˇz v modelu, kter´ y by mˇel “pr´avˇe tolik vysvˇetluj´ıc´ıch promˇenn´ ych, kolik by mˇel m´ıt”. To zp˚ usobilo to, ˇze i pˇredpovˇed’ nalezen´a pomoc´ı pˇreurˇcen´eho modelu, m´a vˇetˇs´ı rozptyl neˇz ta vytvoˇren´ a modelem, kter´ y m´a dostateˇcn´ y poˇcet vysvˇetluj´ıc´ıch promˇenn´ ych, ale nikoliv zbyteˇcnˇe mnoho. V naˇsem pˇr´ıkladˇe v´ ysledky uveden´e v Tabulk´ ach 10 a 11 ukazuj´ı, ˇze model obsahuj´ıc´ı jako vysvˇetluj´ıc´ı promˇenn´e vˇsechny pˇredpovˇedi, je pˇreurˇcen´ y. Ostatnˇe, souˇctu ˇctverc˚ u chyb jednotliv´ ych pˇredpovˇed´ı uk´aˇzou, ˇze vˇsechny modely obsahuj´ıc´ı v´ıce jak jeden regresor jsou v tomto pˇr´ıpadˇe pˇreurˇcen´e. To vˇsak necvhme pro tuto chv´ıli stranou, nebot’ to nic nezmˇen´ı na tom, co chceme demostrovat. Abychom pˇredeˇsli nedorozumˇen´ı, co Tabulka 11 zachycuje, dodejme jen, ˇze vlastnˇe kaˇzd´ y ˇr´adek t´eto tabulky je hypotetick´ ym posledn´ım ˇr´ adkem tabulky analogick´e k Tabulce 10, ale vytvoˇren´e vˇzdy pro jednu dvojici pˇredpovˇed´ı. To znamen´a, ˇze v n´asleduj´ıc´ı tabulce jsou shrom´aˇzdˇeny
118
kumulativn´ı souˇcty ˇctverc˚ u (127) pˇres vˇsechna v´ yˇse uveden´ a obdob´ı, tj. 33 X
(Yt+1 − xTt+1 βˆ(LS,t) )2
33 X
a
t=21
(Yt+1 − xTt+1 βˆ(C,t) )2 .
t=21
TABLE 11 Kumulativn´ı souˇcty ˇctverc˚ u chyb pˇredpovˇed´ı Pˇredpovˇedi,
S omezen´ımi
Bez omezen´ı
kter´e byly kombinov´any
Bez interceptu
S interceptem
Bez interceptu
S interceptem
HCF, LBS HCF, NI HCF, OECD HCF, PD LBS, NI LBS, OECD LBS, PD NI,OECD NI, PD OECD, PD
23.55 52.85 57.01 48.99 30.39 13.19 13.93 35.57 37.86 36.43
35.76 63.61 81.87 82.45 30.39 30.78 31.44 47.25 31.44 47.25
25.02 62.35 75.80 55.79 21.81 19.12 15.79 49.06 53.64 56.04
28.84 66.98 84.77 87.67 22.52 23.71 23.29 49.61 51.63 41.69
Tabulka 11 dokumentuje, ˇze zisk z uplatnˇen´ı omezen´ı (120) a (121) m˚ uˇze b´ yt znaˇcn´ y. Jeˇstˇe vˇetˇs´ıho zisku se dos´ahne pˇri pouˇzit´ı nˇekter´e robustn´ı metody odhadu regresn´ıho modelu (viz V´ıˇsek (1997 b)), ale o tom si pov´ıme pozdˇeji (patrnˇe aˇz v dalˇs´ım d´ıle skript). Uved’me nyn´ı obecn´e ˇreˇsen´ı u ´lohy odhadu regresn´ıch koeficient˚ u pˇri line´arn´ıch omezen´ıch. Uvaˇzujme matici C typu (` × p), rank(C) = ` a hledejme ˆ(C,n)
β
= arg min
( n X
)
(Yi −
XiT β)2 ,
p
β ∈R , C ·β =κ .
(128)
i=1
LEMMA 12 Necht’ C je typu (` × p), rank(C) = `, κ ∈ R` . Potom pro vˇsechny Y ∈ Rn ˜ typu (n × (p − `)) a vz´ a vˇsechny matice typu (n × p) existuje Y˜ ∈ Rn a matice X ajemnˇe jednoznaˇcn´e zobrazen´ı T : Rp−` → {β ∈ Rp , Cβ = κ} takov´e, ˇze pro libovoln´e λ ∈ Rp−` m´ ame ˜ = Y − XT (λ). Y˜ − Xλ D˚ ukaz. D˚ usledkem toho, ˇze rank(C) = `, je existence matice C˜ typu (p − ` × p) takov´e, ˇze T T ˜ = (C , C )T je regul´arn´ı a C C˜ T = 0. Pˇredpokl´adejme, ˇze β ∗ ∈ Rp je nˇekter´ y vektor takov´ y, ∗ p−` ˇze Cβ = κ a poloˇzme pro kaˇzd´e λ ∈ R C∗
T (λ) = C˜ T λ + β ∗ . Snadno ovˇeˇr´ıme, ˇze C · T (λ) = C · (C˜ T λ + β ∗ ) = κ. 119
Nyn´ı uk´aˇzeme, ˇze zobrazen´ı T (λ) je prost´e. Necht’ λ1 , λ2 ∈ Rp−` a pˇredpokl´adejme, ˇze T (λ1 ) = T (λ2 ). Potom m´ame C˜ T (λ1 − λ2 ) = 0 (129) ˜ = p − `, existuje p − ` nez´ a protoˇze rank(C) avisl´ ych ˇr´ adk˚ u matice C˜ T tvoˇr´ıc´ıch regul´arn´ı matici T typu (p − `) × (p − `). Pro tuto matici m´ T (λ − λ ) = 0, nebot’ tato soustava rovnic C˜R ame C˜R 1 2 je podsoustavou (129). To vˇsak znamen´a, ˇze λ1 = λ2 . Rovnˇeˇz snadno se dok´aˇze, ˇze zobrazen´ı T (λ) je na mnoˇzinu S = {β ∈ Rp , Cβ = κ}. Je-li totiˇz β¯ ∈ S, pak C(β¯ − β ∗ ) = 0 a tedy β¯ − β ∗ ⊥C, coˇz znamen´a, ˇze β¯ − β ∗ ∈ M(C˜ T ) a tedy existuje λ ∈ Rp−` tak, ˇze C˜ T · λ = β¯ − β ∗ , neboli β¯ = C˜ T · λ + β ∗ . ˜ = X C˜ T Zb´ yv´a ovˇeˇrit, ˇze pro libovoln´e λ ∈ Rp−` m´ ame pro Y˜ = Y − Xβ ∗ a X ˜ = Y − Xβ ∗ − X C˜ T λ = Y − X(C˜ T λ + β ∗ ) = Y − XT (λ). Y˜ − Xλ 2 ´ POZNAMKA 11 Lemma 12 vlastnˇe ˇr´ık´ a, ˇze βˆ(C,n) = T ( arg min λ∈Rp−`
n X
˜ iT λ)2 ). (Y˜i − X
i=1
Nav´ıc z jeho d˚ ukazu plyne n´ avod, jak pˇr´ısluˇsnou transformaci nal´ezt. Bude-li d˚ uvod povaˇzovat omezen´ı C · β = κ za n´ahodn´a (viz (128)), budeme moci ps´at pro libovoln´e δ 6= 0 · ¸ · ¸ · ¸ Y X E = β+ 0 δC δκ a tedy βˆ(C,n) = (X T X + δC T C)−1 X T Y.
(130)
To ukazuje, ˇze podobn´ ym zp˚ usobem, jak´ ym byly nalezeny ve Tvrzen´ı 16 a v Lemmatu 11 vlastnosti hˇrebenov´eho odhadu, bylo by moˇzn´e dok´azat v´ yˇse zm´ınˇen´e vlastnosti odhadu βˆ(C,n) . Nen´ı rovnˇeˇz bez zaj´ımavosti, ˇze k odhadu t´emˇeˇr shodn´emu s odhadem (130), totiˇz k odhadu βˆ = (X T X + Σ−1 )−1 (X T Y + Σ−1 µ), dojdeme, pokud nalezneme aposteriorn´ı stˇredn´ı hodnotu pro β, pˇri pˇredpokladu, ˇze apriorn´ı rozdˇelen´ı regresn´ıch koeficient˚ u β pˇri pevn´em rozptylu fluktuac´ı σ 2 bylo mnoharozmˇern´e norm´aln´ı s parametry µ a σ 2 Σ, tj. 2
q(β|σ ) =
const p
σ2
µ
¶
1 exp − 2 (β − µ)T Σ−1 (β − µ) 2σ
a apriorn´ı rozdˇelen´ı rozptylu n´ahodn´ ych fluktuac´ı σ 2 bylo q(σ 2 ) = σ −2(d−1) cd Γ−1 (d)exp(−cσ −2 ), tj. γ-rozdˇelen´ı s parametry c a d. Pokud nav´ıc, napˇr. pˇri mal´e apriorn´ı informaci o β, poloˇz´ıme µ = 0, dostaneme pˇr´ımo (130). 120
7.4.4
Alternativn´ı indik´ atory kolinearity a jejich z´ aludnosti
Nˇekter´e knihovny (a je jich pohˇr´ıchu patrnˇe vˇetˇsina) nenab´ızej´ı pˇr´ımo (a automaticky) vyˇc´ıslen´ı indexu podm´ınˇenosti. Lze si vˇsak obvykle snadno pomoci pouˇzit´ım subroutin pro faktorovou anal´ yzu. Nam´ısto indexu podm´ınˇenosti nab´ız´ı napˇr. knihovna STATISTICA tabulku koeficient˚ u determinace, kde vˇzdy jedna z vysvˇetluj´ıc´ıch promˇenn´ ych hraje roli vysvˇetlovan´e a je vysvˇetlov´ana vˇsemi ostatn´ımi. Pˇr´ısluˇsn´ a tabulka je v knihovnˇe STATISTCA oznaˇcena Redundancy. V t´eto tabulce jsou kromˇe zmiˇ novan´ ych koeficient˚ u determinace uvedeny tak´e jejich doplˇ nky do jedniˇcky. Je to patrnˇe proto, ˇze pˇrevr´ acen´ a hodnota doplˇ nku j-t´eho koeficientu de2 terminace je, aˇz na faktor σ , rozptylem odhadu j-t´eho regresn´ıho koeficientu a b´ yv´ a v literatuˇre oznaˇcov´ana jako VIF (variance inflation factor, viz napˇr. Marquart a Snee (1975)). a nˇekter´e prameny doporuˇcuj´ı tento diagnostick´ y prostˇredek, at’ uˇz zmiˇ novan´e koeficienty determinace ˇci VIF, jako dosti spolehliv´ y diagnostick´ y prostˇredek pro odhalen´ı kolinearity, napˇr. Montgomery, Peck (1982). Pod´ıvejme se na vˇec trochu podrobnˇeji. Intuitivnˇe c´ıt´ıme, ˇze pokud bude koeficient determinace pro nˇekterou vysvˇetluj´ıc´ı promˇennou vysok´ y, m˚ uˇze vzniknout podezˇren´ı na kolinearitu. Obvykle to je opravdu tak, ale ponˇekud paradoxnˇe v pˇr´ıpadˇe, kdy v modelu, nyn´ı mysl´ıme model pro “p˚ uvodn´ı”, tj. cel´a data, je rozptyl n´ahodn´ ych fluktuac´ı velmi mal´ y, m˚ uˇze nastat situace, kdy zm´ınˇen´ a tabulka (velmi) vysok´ ymi hodnotami pˇr´ısluˇsn´ ych koeficient˚ u determinace indikuje zd´ anlivˇe znaˇcn´ y stupeˇ n kolinearity (viz Tabulka 14), ale index podm´ınˇenosti je jeˇstˇe v mez´ıch, kdy se nenab´ad´ a k vylouˇcen´ı nˇekter´eho sloupce matice X, nejv´ yˇse se doporuˇcuje pouˇzit´ı nˇekter´e metody, kter´a se um´ı vyrovnat s kolinearitou, napˇr. hˇrebenov´a regrese. Tady je numerick´ y pˇr´ıklad takov´e situace. Vyuˇz´ıv´ a ˇc´ ast dat, kter´a byla pouˇzita o nˇekolik str´anek zpˇet k ilustraci efektivnosti omezen´ı, kter´a “naloˇz´ıme” na koeficienty regresn´ıho modelu a jejich odhady. Proto jen pˇripomeˇ nme, ˇze ta ˇc´ ast dat, kterou d´ale pouˇzijeme, popisuje ekonomick´ y r˚ ust (GDP) ve Velk´e Brit´anii v letech 1977/1 aˇz 1984/2, (tj. po ˇctvrtlet´ıch). Na rozd´ıl od dat dˇr´ıve pouˇzit´ ych, promˇenn´e oznaˇcen´e jako LBS (London Business School) a OECD (Organization for Economic Cooperation and Development) jsou upraven´e pˇredpovˇedi ekonomick´eho r˚ ustu uˇcinˇen´e tˇemito institucemi a promˇenn´ a DEC oznaˇcuje dekomposici LBS a OECD na vektor representuj´ıc´ı informaci, kter´a byla v dobˇe, kdy byly vytv´aˇreny zm´ınˇen´e pˇredpovˇedi, spoleˇcn´a obˇema v´ yˇse uveden´ ym instituc´ım. Slovo upraven´e naznaˇcuje, ˇze jednak byly vˇsechny hodnoty pˇrepoˇc´ıt´any k cen´am z roku 1988 a jednak, ˇze byly pˇredpovˇedi modifikov´ any tak, aby pˇredstavovaly projekci GDP, tj. aby se minimalizoval souˇcet ˇctverc˚ u rezidu´ı mezi pˇredpov´ıdanou veliˇcinou a pˇredpovˇed´ı. Na vysvˇetlenou jenom dodejme, ˇze data v t´eto podobˇe byla pˇripravena pro vytv´aˇren´ı pˇredpovˇedi nikoliv pomoc´ı line´arn´ı kombinace, tak jak jsme to udˇelali o nˇekolik stranek zpˇet, ale pomoci metody dekomposice, jej´ıˇz popis lze nal´ezt napˇr. ve V´ıˇsek (1997 c).) Tabulka 12 Data popisuj´ıc´ı ekonomick´y v´yvoj (GDP) ve Velk´e Brit´ anii Obdob´ı
LBS
OECD
DEC
GDP
1977/1 1977/2 1977/3
2.437 1.982 1.793
1.531 1.461 1.952
1.600 1.393 1.860
1.769 3.623 3.402
121
Tabulka 12 Data popisuj´ıc´ı ekonomick´y v´yvoj (GDP) ve Velk´e Brit´ anii (pokraˇcov´ an´ı) Obdob´ı 1977/4 1978/1 1978/2 1978/3 1978/4 1979/1 1979/2 1979/3 1979/4 1980/1 1980/2 1980/3 1980/4 1981/1 1981/2 1981/3 1981/4 1982/1 1982/2 1982/3 1982/4 1983/1 1983/2 1983/3 1983/4 1984/1 1984/2
LBS 1.495 3.723 3.519 .883 2.703 3.237 3.143 -3.180 -1.878 -3.259 -1.784 -2.035 1.385 1.840 2.170 2.295 2.154 2.656 3.017 2.844 1.699 1.746 1.605 2.860 2.091 1.982 4.633
OECD 1.741 2.512 2.022 2.092 1.882 1.952 1.741 2.372 1.461 -.011 .620 2.442 .339 .339 .199 .760 1.321 1.461 1.882 1.882 1.812 1.741 1.812 2.232 2.162 2.162 1.882
DEC 1.665 2.647 2.083 1.946 1.918 2.049 2.105 2.195 1.507 -.095 .574 2.196 .343 .406 .262 .869 1.408 1.481 1.951 1.850 1.681 1.669 1.750 2.264 2.129 2.085 1.967
GDP 2.761 2.045 3.397 2.792 2.587 2.305 -2.705 -3.686 -5.044 -3.918 -2.582 -0.504 2.043 1.631 2.345 1.316 1.101 3.109 2.490 4.096 4.059 3.113 2.624 2.697 2.664 3.302 4.924
(Tato ˇc´ast dat byla vybr´ana proto, ˇze na nich nast´av´ a popisovan´ y efekt nejv´ yraznˇeji.) Tabulka 13 Odhady regresn´ıch koeficient˚ u v modelu GDP = β0 + β1 · LBS + β2 · OECD + β3 · DEC + n´ ahodn´ e f luktuace a jejich charakteristiky. β˜ oznaˇcuj´ı koeficienty ve studentizovan´em modelu (viz v´yˇse text o automatick´em studentizov´ an´ı dat), ˆ zat´ımco β jsou odhady koeficint˚ u pro data tak, jak jsou uvedena v Tabulce 12. β˜ β0 β1 β2 β3
1.30 4.81 -4.93
q
˜ var( ˆ β)
.0009 .0049 .0050
βˆ 0.0042 1.680 18.030 -18.720
q
ˆ var( ˆ β) 0.0042 .0011 .0184 .0193
tβˆ(26) 0.98 1490.56 979.79 -970.78
P-hodnoty 0.337 0.000 0.000 0.000
Koeficient determinace modelu R2 vyˇsel roven .99998, Fisher-Snedecorovo F = 79750 a odhad rozptylu n´ahodn´ ych fluktuac´ı pak s2 = .00901. V´ yˇse zmiˇ novan´e koeficienty determinace v modelech, kde vˇzdy jedna z vysvˇetluj´ıc´ıch promˇenn´ ych je postavena do role vysvˇetlovan´e a vˇsechny ostatn´ı vysvˇetluj´ıc´ı hraj´ı d´ale roli vysvˇetluj´ıc´ıch, vyˇsly n´asledovnˇe. 122
Tabulka 14 Koeficienty determinace (tabulka b´yv´ a ˇcasto oznaˇcov´ ana jako “Redundancy”). β1
β2
β2
.455749
.982717
.983803
Hodnoty koeficient˚ u determinace u druh´e a tˇret´ı promˇenn´e napov´ıdaj´ı, ˇze jsou tyto t´emˇeˇr nahraditeln´e kombinac´ı vˇzdy tˇech zb´ yvaj´ıc´ıch dvou. Vyjmˇeme tedy z modelu napˇr. druhou promˇennou (tj. OECD). Budeme tedy odhadovat d´ale koeficienty a jejich charakteristiky v modelu GDP = β0∗ + β1∗ · LBS + β3∗ · DEC + n´ ahodn´ e f luktuace. Pˇr´ısluˇsn´e odhady jsou v n´asleduj´ıc´ı tabulce. Tabulka 15 Odhady regresn´ıch koeficient˚ u a jejich charakteristik. β˜ β0∗ β1∗ β3∗
.774 .000
q
˜ var( ˆ β) .130 .130
βˆ .000 1.000 -.000
q
ˆ var( ˆ β) .799 .167 .492
tβˆ(26) .000 5.968 -.000
P-hodnoty .999 .000 .999
Hodnota koeficientu determinace tohoto nov´eho modelu je 0.5988, coˇz je sice jen nepatrnˇe pod onou magickou hodnotou 0.6, kter´a b´ yv´ a v monografi´ıch uv´adˇena jako pˇrijateln´ a pro modely z technick´ych oblasti, ale na druh´e stranˇe je jistˇe zar´aˇzej´ıc´ı, ˇze to nyn´ı vypad´a tak, ˇze posledn´ı vysvˇetluj´ıc´ı promˇenn´a nen´ı pro model signifikantn´ı, aˇc P -hodnoty v Tabulce 13 naznaˇcovaly prav´ y opak. Nav´ıc odhad rozptylu n´ahodn´ ych fluktuac´ı v tomto nov´em modelu je s2 = 1.698. Porovn´ame-li toto ˇc´ıslo s velikost´ı dat uveden´ ych v Tabulce 12, dojdeme k z´avˇeru, ˇze tento model nen´ı patrnˇe pr´avˇe nejvhodnˇejˇs´ı. Pro u ´plnost Fisher-Snedecorovo F je rovno 20.146. Spoˇcteme-li si pro p˚ uvodn´ı data (uveden´a v Tabulce 12) vlastn´ı ˇc´ısla matice X T X dostaneme 2.1335, 0.8581 a 0.0083, coˇz znamen´a, ˇze index podm´ınˇenosti vyjde s
κ=
λmax = λmin
r
2.1335 = 16.03, 0.0083
a to je hodnota, kter´a napov´ıd´a, ˇze se nejedn´a o kolinearitu vyˇzaduj´ıc´ı vylouˇcen´ı nˇekter´e vysvˇetluj´ıc´ı promˇenn´e z matice pl´anu, ale o takov´ y stupeˇ n, kdy je moˇzn´e ˇreˇsit situaci pouˇzit´ım napˇr. hˇrebenov´e regrese, o kter´e jsme mluvili v´ yˇse. Prakticky v kaˇzd´e ekonometrick´e monografii, obsahuj´ıc´ı tak´e pas´aˇz o regresi, nalezneme dalˇs´ı testy na kolinearitu, napˇr. zaloˇzen´e na kovarianˇcn´ı ˇci korelaˇcn´ı matici, viz napˇr. Kumar (1975), Willan a Watts (1978), Belsley, Kuh and Welsch (1980) nebo Friedman (1982). Pˇr´ıklad uveden´ y pr´aci v Leamer (1983) ukazuje, ˇze si na nˇe mohou uˇzivatel´e udˇelat r˚ uzn´e n´azory. Jako ’ pˇr´ıklad ˇcast´eho problematick´eho pouˇzit´ı takov´eho testu uved me aplikaci Farrar-Glauberovy statistiky (viz Farrar and Glauber (1967)) bez verifikace pˇr´ısluˇsn´eho pˇredpoklad˚ u, totiˇz normality vysvˇetluj´ıc´ıch promˇenn´ ych a nez´avislosti jednotliv´ ych ˇr´ adk˚ u matice pl´anu, tj. nez´avislosti 123
vektorov´ ych n´ahodn´ ych veliˇcin, jejichˇz realizace vytvoˇrily ˇr´ adky matice pl´anu. Nav´ıc je tˇreba si uvˇedomit to, co vlastnˇe bylo implicitnˇe ˇreˇceno v pˇredchoz´ı vˇetˇe, totiˇz ˇze pokud pouˇzijeme korelaˇcn´ı matici dat k testu na kolinearitu, v podstatˇe pˇrijmeme pˇredpoklad, ˇze matice pl´anu nen´ı nestochastick´a, neboli zaˇcneme uvaˇzovat v r´amci modelu s n´ahodn´ ymi nosiˇci Xij i = 1, 2, . . . , n, j = 1, 2, . . . , p (s n´ahodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi). Potom je vˇsak tˇreba m´ıt (LS,n) ˆ na pamˇeti, ˇze β je nestrann´ ym odhadem pouze tehdy, jsou-li tyto nosiˇce statisticky nez´avisl´e na n´ahodn´ ych fluktuac´ıch E a v odstavci vˇenovan´emu instrument´ aln´ım promˇenn´ ym jsme uk´azali, proˇc tomu tak je. To, moˇzn´a trochu paradoxnˇe znamen´a, ˇze kdyˇz se rozhodneme pouˇz´ıt korelaˇcn´ı matici dat k testu na kolinearitu, mˇeli bychom nejprve otestovat nez´avislost nosiˇc˚ u a rezidu´ı a n´aslednˇe tak´e normalitu rozdˇelen´ı nosiˇc˚ u, nebot’ pokud je tato naruˇsena test m˚ uˇze d´at naprosto zav´adˇej´ıc´ı v´ ysledky. Jak plyne z v´ yˇse uveden´eho je Farrar-Glauber˚ uv test, zaloˇzen na determinantu v´ ybˇerov´e korelaˇcn´ı matice. Vzhledem k tomu, ˇze v´ ybˇerov´ y korelaˇcn´ı koeficient, podobnˇe jako vˇsechny ostatn´ı “klasick´e” v´ ybˇerov´e charakteristiky, je citliv´ y na odlehl´a pozorov´ an´ı, vykazuje determinant v´ ybˇerov´e korelaˇcn´ı matice tak´e znaˇcnou citlivost na odlehl´a pozorov´ an´ı a z toho plynouc´ı nespolehlivost indikace kolinearity. 7.4.5
Alternativn´ı ˇ reˇ sen´ı probl´ emu kolinearity
Uved’me nyn´ı v´ yˇse sl´ıben´ y pˇr´ıklad, ukazuj´ıc´ı, ˇze rozˇs´ıˇren´ı dat o dalˇs´ı pozorov´ an´ı m˚ uˇze (pˇrirozenˇe) odstranit kolinearitu. Souˇcasnˇe tento pˇr´ıklad ukazuje, ˇze nˇekdy lze podezˇren´ı na kolinearitu pojmout pˇr´ımo na z´akladˇe odhad˚ u regresn´ıch koeficient˚ u. Jedn´a se totiˇz o pˇr´ıpad, kdy na rozd´ıl od diskuze uveden´e v kapitole vˇenovan´e v´ ystup˚ um z poˇc´ıtaˇce, kde jsme varovali pˇred un´ahlen´ ymi u ´sudky uˇcinˇen´ ymi na z´akladˇe znam´enek odhad˚ u, jsme si “t´emˇeˇr” jisti t´ım, jak´e znam´enko by pˇr´ısluˇsn´ y koeficient (a tedy i jeho odhad) mˇel m´ıt. Data byla uvedena v Montgomery, Askin (1981) a popisuj´ı poˇzadavek na dod´avky elektrick´e energie do jednotliv´ ych dom´acnost´ı ve ˇspiˇck´ach o v´ıkendech (vztaˇzeno na jednu hodinu odbˇeru) (y) a to v z´avislosti na rozloze domu (x1 ), na pˇr´ıjmu dom´ acnosti (x2 ), na kapacitˇe klimatizaˇcn´ıho agreg´ atu um´ıstˇen´eho v domˇe (x3 ), na hodnotˇe spotˇrebitelsk´eho indexu, kter´ y si stanovuje dodavatelsk´ a firma na z´akladˇe souˇctu pˇr´ıkon˚ u hlavn´ıch spotˇrebiˇc˚ u (x4 ) a na typick´em poˇctu lid´ı ob´ yvaj´ıc´ıch d˚ um o v´ıkendech (x5 ). Data vypadaj´ı takto: Tabulka 16. Data o poˇzadavc´ıch na dod´ avky elektrick´e energie pro dom´ acnosti Poˇrad´ı 1 2 3 4 5 6 7 8 9
y 7.518 3.579 5.910 4.790 4.997 2.242 7.427 4.533 5.990
x1 3.164 1.929 2.613 2.337 2.757 1.398 3.366 2.378 2.881
x2 34.990 21.446 28.731 25.058 30.358 15.464 37.267 25.939 32.362 124
x3 7.0 1.5 6.5 4.0 4.0 1.0 5.0 3.0 3.5
x4 7.789 5.251 6.325 5.733 6.216 3.113 9.415 6.142 7.700
x5 4 5 3 4 1 6 1 2 5
Tabulka 16. Data o poˇzadavc´ıch na dod´ avky elektrick´e energie pro dom´ acnosti (pokraˇcov´ an´ı) Poˇrad´ı 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
y 4.101 1.685 4.560 4.657 3.151 2.976 2.867 2.662 4.363 2.991 2.766 5.323 6.553 3.736 6.796 4.496 2.831 5.495 6.656 2.349 6.824 5.354 5.802 4.790 6.283 3.400 6.083 5.740 3.599 5.010 4.625 4.385 4.505 3.958 6.071 4.571 6.849 2.610 5.829 4.755 2.646
x1 2.098 1.178 2.360 2.236 1.771 1.852 1.823 1.578 2.117 2.052 1.715 2.333 2.887 1.972 2.886 1.874 1.408 2.526 2.821 1.328 2.856 2.223 2.489 2.455 2.720 2.201 2.694 2.456 1.772 2.253 2.398 1.598 1.868 2.036 2.598 2.204 3.313 1.685 2.379 2.286 1.512
x2 22.395 12.531 25.784 25.152 19.106 20.677 20.037 18.154 23.951 22.069 18.324 25.942 32.236 22.123 32.161 21.070 15.957 27.687 31.145 14.160 31.812 24.788 26.661 27.203 29.524 23.424 29.096 27.076 19.177 24.535 25.949 17.604 20.614 22.277 27.924 24.587 30.016 18.485 26.341 25.327 17.351
125
x3 2.5 0.0 4.0 2.5 1.0 1.0 1.5 0.5 2.5 1.5 1.5 5.0 5.5 2.0 6.0 3.0 1.5 4.5 5.5 0.5 6.0 5.0 6.0 3.0 5.5 1.0 5.0 3.5 2.0 5.0 2.5 3.5 3.0 2.5 5.5 2.0 6.5 1.0 3.5 3.0 1.0
x4 5.222 2.575 5.536 6.208 5.213 4.659 4.453 3.978 6.236 4.892 3.960 5.038 7.815 4.432 7.039 5.254 2.967 6.481 7.284 3.652 7.186 5.965 6.862 6.007 6.715 5.625 6.949 6.143 4.864 4.975 6.947 3.914 4.817 5.581 6.233 6.073 6.054 3.677 7.345 5.230 3.824
x5 1 1 2 2 3 1 3 4 1 4 5 1 3 5 4 1 6 2 4 4 1 3 4 5 4 1 2 7 1 2 3 4 6 1 2 2 1 2 4 5 1
Tabulka 16. Data o poˇzadavc´ıch na dod´ avky elektrick´e energie pro dom´ acnosti (pokraˇcov´ an´ı) 51 52 53 54 55 56 57 58 59 60
4.279 3.701 4.561 4.707 4.541 3.891 6.394 6.528 2.925 5.059
2.246 1.819 2.288 2.320 2.276 1.994 3.454 3.490 1.936 4.061
24.612 19.754 25.720 25.444 25.439 22.150 27.855 31.998 21.215 22.962
2.0 2.5 3.0 3.0 3.0 2.0 4.0 5.0 1.0 3.0
5.950 4.522 6.313 5.579 6.113 5.316 7.215 7.145 4.506 5.854
2 1 4 4 3 4 2 2 4 1
P˚ uvodnˇe bylo shrom´aˇzdˇeno jen 40 pozorov´ an´ı a provedena klasick´ a regresn´ı anal´ yza. V´ ysledky byly n´asleduj´ıc´ı. Tabulka 17. V´ysledky regresn´ı anal´yzy pro data o spotˇrebˇe elektrick´e energie. (40 dom´ acnost´ı) Variable
Estimate
intercept x1 x2 x3 x4 x5
-.04160 -2.49756 .26947 .41430 .37931 .03035
Standard error .253137 1.026253 .089492 .039236 .089459 .023183
t-value
P -value
-.16434 -2.43367 3.01115 10.55908 4.24012 1.30919
.870438 .020354 .004882 .000000 .000162 .199248
Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 5 and 34 df ) P-value
= = = = = =
8.160 34 0.240 0.979 313.918 0.000
Model je dobˇre determinov´an a i odhad velikosti rozptylu fluktuac´ı se zd´a b´ yt pˇrijateln´ y vzhledem k hodnot´am, kter´ ych nab´ yv´a vysvˇetlovan´ a veliˇcina. Hodnota P -value pro absolutn´ı ˇclen sice signalizuje, ˇze je moˇzn´a tento v modelu zbyteˇcn´ y, a jistˇe bychom dovedli nal´ezt i vˇecn´e argumenty, proˇc by tam nemˇel b´ yt, napˇr. ˇze pokud rozloha domu bude nulov´ a, nebude v domˇe klimatizace, nikdo nebude na v´ıkend doma atd., odbˇer elektrick´e energie bude nulov´ y. Pr´avˇe tak lze sn´est ˇradu argument˚ u, ˇze tomu tak nebude. Napˇr. ledniˇcka ˇci ohˇr´ıvaˇce vody se obvykle nevyp´ınaj´ı, alespoˇ n v dom´acnostech s vyˇsˇs´ımi pˇr´ıjmy, ani kdyˇz nikdo na v´ıkend nen´ı doma. Vzhledem k tomu, co bylo ˇreˇceno o u ´loze absolutn´ıho ˇclenu v´ yˇse, ponech´ ame jej v modelu. Nev´ yznamn´ ym se rovnˇeˇz zd´a b´ yt poˇcet lid´ı v domˇe v dobˇe v´ıkendu. To si samozˇrejmˇe lze 126
vysvˇetlit tak, ˇze zv´ yˇsen´ı spotˇreby elektrick´e energie pˇri zv´ yˇsen´ı poˇctu lid´ı v domˇe nebude aˇz tak velik´e. Ovˇsem i opak m˚ uˇze b´ yt pravdou. Mohli bychom tedy model akceptovat. Prohl´ednˇeme si jej ale pozornˇeji. Patrnˇe kaˇzd´ y by (racion´alnˇe) oˇcek´ aval, ˇze pˇri vˇetˇs´ı rozloze domu, bude poˇzadavek na dod´avky elektrick´e energie vˇetˇs´ı. To koliduje se z´aporn´ ym znam´enkem u odhadu pˇr´ısluˇsn´eho regresn´ıho koeficientu. Aˇckoliv jsme to jiˇz dˇr´ıve pˇripomˇeli, tato u ´vaha nen´ı v rozporu s varov´an´ım o un´ahlen´e a zcestnˇe jednostrann´e interpretaci znam´enek odhad˚ u regresn´ıch koeficient˚ u, na kterou jsme upozorˇ novali v kapitole o v´ ystupech ze statistick´ ych poˇc´ıtaˇcov´ ych ’ ’ knihoven, nebot tady znam´enko “neobjevujeme”, ˇci nezjiˇst ujeme, chcete-li, ale m´ame o nˇem dosti opr´avnˇen´e a proirn´ı pˇredstavy. Vzhledem k v´ yˇse uveden´e diskuzi o signifikantnosti absolutn´ıho ˇclenu a poˇctu lid´ı v domˇe jeˇstˇe podotknˇeme, ˇze pˇrepoˇc´ıt´ ame-li model po vylouˇcen´ı t´eto vysvˇetluj´ıc´ı veliˇciny, z´aporn´e znam´enko u “rozlohy domu” se nezmˇen´ı, jen se nepatrnˇe zmˇen´ı hodnota odhadu, totiˇz na −2.634; podobnˇe vylouˇc´ıme-li absolutn´ı ˇclen dojde ke zmˇenˇe na −2.541. To m˚ uˇze v´est k podezˇren´ı, ˇze nˇeco nen´ı s modelem v poˇr´ aku, a jednou z pˇr´ıˇcin by mohla b´ yt kolinearite vysvˇetluj´ıc´ıch promˇenn´ ych. Spoˇcteme tedy vlastn´ı ˇc´ısla matice X T X a dostaneme poˇradˇe 3.69689, 0.983788, 0.266574, 0.049994 a 0.002752. Odtud odmocnina z pomˇeru nejvˇetˇs´ıho a nejmenˇs´ıho z nich je 36.65. To ukazuje (jak jsme ostatnˇe uvedli v´ yˇse) na takov´ y stupeˇ n kolinearity, kter´ y patrnˇe nelze jen tak ignorovat. Spoˇcteme-li vˇsak hˇrebenovou regresi, napˇr. pro δ = 0.1 (to je defaultov´ a hodnota nab´ızen´ a STATISTICOU), zmiz´ı sice “nepatˇriˇcn´e” minusov´e znam´enko u rozlohy domu, ale tato vysvˇetluj´ıc´ı promˇenn´a se stane statisticky nev´ yznamnou. V´ yznamn´ ymi z˚ ustanou pouze kapacita klimaσ ˆ2 tizaˇcn´ıho agreg´ atu a hodnota spotˇrebitelsk´eho indexu. Aˇckoliv je ˆ(LS,n) = 0.712 > 0.1 a kβ k2 tedy je patrnˇe splnˇena podm´ınka z Lemmatu 11, zd´a se b´ yt tento model podivn´ y, nebot’ jak poˇcet lid´ı tr´av´ıc´ıch v domˇe v´ıkend, tak zejm´ena rozloha domu by patrnˇe mˇely hr´at roli pro velikost spotˇreby elektrick´e energie. Aˇckoliv pro vyˇsˇs´ı hodnoty δ se stanou v´ yznamn´ ymi t´emˇeˇr vˇsechny vysvˇetluj´ıc´ı promˇenn´e, autoˇri dat (Montgomery, Askin (1981) ) zvolili jinou cestu, ob´avaj´ıce se moˇzn´ a pˇr´ıliˇsn´eho (R,δ,n) ˆ vych´ ylen´ı odhadu β . Vzhledem k tomu, ˇze nelze nikdy vylouˇcit moˇznost, ˇze kolinerita nastala d´ıky n´ahodnˇe “jednostranˇe”, ˇci chcete-lii “vych´ ylenˇe”, poˇr´ızen´ ym dat˚ um, a vzhledem k tomu, ˇze rozˇs´ıˇren´ı dat nebylo ekonomicky aˇz tak n´aroˇcn´e jako by mohly b´ yt d˚ usleky ˇspatnˇe odhadnut´eho modelu, zvolili cestu poˇr´ızen´ı dalˇs´ıch dat, tj. soubor byl rozˇs´ıˇren na takov´ y, jak´ y je uveden v Tabulce 16. Anal´ yza proveden´ a pro tato data d´av´ a tyto hodnoty. Tabulka 18. V´ysledky regresn´ı anal´yzy pro data o spotˇrebˇe elektrick´e energie. (60 dom´ acnost´ı) Variable
Estimate
intercept x1 x2 x3 x4 x5
-.039315 .407674 .003333 .437516 .375983 .044368
Standard error .229760 .121617 .025156 .036150 .076869 .022014 127
t-value
P -value
-.17111 3.35211 .13248 12.10284 4.89121 2.01544
.864774 .001470 .895094 .000000 .000009 .048848
Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 5 and 54 df ) P-value
= = = = = =
14.418 54 0.267 0.968 328.221 0.000
Odhad koeficientu pro “rozlohu domu” se zd´a nyn´ı, alespoˇ n co do znam´enka, rozumnˇejˇs´ı, neˇz T pro data obsahuj´ıc´ı jen 40 dom´acnost´ı. Vlastn´ı ˇc´ısla matice X X maj´ı nyn´ı hodnoty 3.478789, 0.985613, 0.304462, a 0.045914 a tedy koeficient podm´ınˇenosti m´a hodnotu 8.70, coˇz je hodnota, kterou lze povaˇzovat za jeˇstˇe pˇrijatelnou, tj. dovoluj´ıc´ı “ignorovat” kolinearitu. Pr´avˇe probran´ y pˇr´ıklad ukazuje, ˇze regresn´ı anal´ yza vyˇzaduje nebrat ˇz´ adn´ a pˇredem stanoven´ a, doporuˇcen´a ˇci zabˇehan´a kriteria zcela dogmaticky, tj. bez jak´ekoliv pochybnosti ˇci vyj´ımky. Je sp´ıˇse tˇreba zam´ yˇslet se na vhodnost´ı modelu ze vˇsech moˇzn´ ych stanovisek a zkoumat jeho akceptovatelnost vzhledem ke vˇsem informac´ım, i k tˇem, kter´e se n´am nepodaˇrilo ˇci kter´e jsme nechtˇeli do modelu zaˇclenit. 7.4.6
Z´ avˇ er
ˇ Na konci tohoto odstavce se jeˇstˇe jednou zopakujme, co jsme jiˇz v´ yˇse naznaˇcili. Rekli jsme si, ˇze v nˇekter´ ych uˇcebnic´ıch se doporuˇcuje k rozezn´an´ı kolinearity “test” na nulovost determinantu ˇctverce matice pl´anu, tj. matice X T X a uk´azali jsme si hned v u ´vodu odstavce, ˇze vyn´asoben´ım vˇsech dat, kter´e m´ame k dispozici stejn´ ym ˇc´ıslem nezmˇen´ıme regresn´ı model, ale determinant matice pl´anu m˚ uˇze b´ yt zmˇenˇen na libovolnˇe velk´ y. Aby toto bylo uvedeno na “pravou m´ıru” doporuˇcuj´ı nˇekter´e z tˇechto uˇcebnic nejprve normovat data tak, ˇze je posuneme pomoc´ı pr˚ umˇer˚ u sloupc˚ u a vydˇel´ıme odhadem smˇerodatn´e odchylky (viz pˇredchoz´ı odstavec o Farrar-Glauberovˇe testu). Podotknˇeme, ˇze nˇekter´e texty pˇredpokl´adaj´ı od sam´eho zaˇc´ atku, ˇze data jsou normov´ana pr´avˇe naznaˇcen´ ym zp˚ usobem, viz Montgomery, Peck (1982). Snadno se nahl´edne, jak toto m˚ uˇze (neblaze) ovlivnit zpracov´ an´ı dat, pokud tato budou obsahovat nˇejak´e odlehl´e (ˇci chcete-li, atypick´e) u ´daje. Nehledˇe na to, ˇze pak vlastnˇe posuzujeme podm´ınˇenost jin´e matice. Ostatnˇe jsme si to jiˇz ukazovali v odstavci 5.1 (viz text zhruba jeden a p˚ ul str´anky za Tabulkou 8). Je aˇz s podivem, jak nˇekter´e texty, t´ ykaj´ıc´ı se regren´ı anal´ yzy realizovan´e pomoci metody nejmenˇs´ıch ˇctverc˚ u, zcela opom´ıjej´ı nebezpeˇc´ı vypl´ yvaj´ıc´ı z velik´e citlivosti t´eto metody na kontaminaci (zneˇciˇstˇen´ı) dat, napˇr. odlehl´ ymi pozorov´ an´ımi. Autoˇri tˇechto textu si bud’ nejsou vˇedomi ˇci poceˇ nuj´ı toto nebezpeˇc´ı a dopady, kter´e m˚ uˇze m´ıt na zpracov´ an´ı dat, aˇckoliv v pracech vˇenovan´ ych robustn´ı regresn´ı anal´ yze bylo jiˇz uvedeno mnoho pˇr´ıklad˚ u osvˇetluj´ıc´ıch zejm´ena z´aludnost t´eto situace. Lze totiˇz pomˇernˇe snadno nal´ezt pˇr´ıklady dat, kter´e projdou klasickou regresn´ı anal´ yzou i bˇeˇzn´ ymi diagnostick´ ymi vyˇsetˇren´ımi aniˇz by vzbudily i jen n´aznak podezˇren´ı na to, ˇze je cosi v nepoˇr´adku, viz napˇr. Hampel a kol. (1986), Rousseeuw, Leroy ´ (1996 b, c), (1997 d). (1987) ˇci V´ıˇsek, J. A Na u ´pln´ y z´avˇer jeˇstˇe poznamenejme, ˇze vzhledem k tomu, ˇze matice X T X je vlastnˇe, aˇz na n´asobek, odhadem kovarianˇcn´ı matice vysvˇetluj´ıc´ıch promˇenn´ ych a je citliv´a na odlehl´a poT zorov´an´ı. To znamen´a, ˇze pˇri v´ ypoˇctu vlastn´ıch ˇc´ısel matice X X, tj. pˇri hled´an´ı κ(X), se nevy128
hneme probl´emu vlivn´ ych bod˚ u. Pomoci si m˚ uˇzeme, aplikujeme-li nˇekterou robustn´ı metodu na odhad kovarianˇcn´ı matice (viz opˇet Hampel a kol. (1986), Lopuha˝a (1989)).
8
ˇ ´ SPECIALN ´ ´I TYPY REGRESN´IHO MODELU NEKTER E
Jak n´azev t´eto kapitoly napov´ıd´a, probereme v n´ı nˇekter´e typy regresn´ıch model˚ u, kter´e se vymykaj´ı bˇeˇzn´emu regresn´ımu modelu. Nejprve si vˇsimneme zobecnˇen´eho regresn´ıho modelu, pot´e modelu, ve kter´em vysvˇetlovan´a promˇenn´ a nen´ı spojit´eho typu. V dalˇs´ıch odstavc´ıch se budeme vˇenovat naopak pˇr´ıpadu, kdy regresory budou diskr´etn´ı ˇci chcete-li, kvalitativn´ı, (coˇz nen´ı u ´plnˇe tot´eˇz, ale nen´ı to pˇr´ıliˇs odliˇsn´e), pˇr´ıpadnˇe, kdy tyto budou mˇeˇreny s nˇejakou n´ahodnou chybou.
8.1
Zobecnˇ en´ y regresn´ı model
Je patrn´e, ˇze pokud budou naˇse data pˇredstavovat z´aznam nˇekter´ ych ˇcasov´ ych ˇrad , ale nejen v tomto pˇr´ıpadˇe, nemus´ı b´ yt dodrˇzen pˇredpoklad nez´avislosti fluktuac´ı mezi jednotliv´ ymi ˇr´ adky v modelu (4). Ke zpracov´an´ı takov´ ych dat budeme potˇrebovat zobecnˇen´ı z´akladn´ıho regresn´ıho modelu. V t´eto kapitole budeme tedy pˇredpokl´adat, ˇze plat´ı Podm´ınky A∗ Pro kaˇzd´e pevn´e n ∈ N je posloupnost {Ei }ni=1 posloupnost´ı stejnˇe rozdˇelen´ych n´ ahodn´ych veliˇcin s nulovou stˇredn´ı hodnotou a kovarianˇcn´ı matic´ı Σ, kter´ a je regul´ arn´ı. ³
TVRZEN´ I 19 Plat´ı-li Podm´ınky A∗ , potom βˆ(LS,n) = X T Σ−1 X
´−1
X T Σ−1 Y .
D˚ ukaz. K d˚ ukazu pouˇzijeme spektr´aln´ı rozklad matice a budeme ps´at Σ = QT Q, kde Q je regul´arn´ı. Zinvertov´an´ım dostaneme Σ−1 = Q−1 [Q−1 ]T . Necht’ Y˜ = [Q−1 ]T Y
˜ = [Q−1 ]T X X
˜ = [Q−1 ]T E. E
a
Z p˚ uvodn´ıho modelu Y = Xβ + E zn´asoben´ım zleva matic´ı [Q−1 ]T dostaneme ˜ + E, ˜ Y˜ = Xβ ˜ ·E ˜ T = IE [Q−1 ]T E · E T [Q−1 ] = I. Nyn´ı jiˇz se snadno ovˇeˇr´ı, ˇze odhad metodou nejmenˇs´ıch s IE E ˇctverc˚ u bude d´an vztahem ³
˜TX ˜ βˆ(LS,n) = X
´−1
³
˜ T Y˜ = X T Q−1 [Q−1 ]T X X ³
= X T Σ−1 X
´−1
´−1
X T Σ−1 Y.
X T Q−1 [Q−1 ]T Y (131) 2
´ POZNAMKA 12 Odhad (131) se v literatuˇre nˇekdy oznaˇcuje jako Aitken˚ uv, ˇcastˇeji vˇsak jako zobecnˇen´y odhad metodou nejmenˇs´ıch ˇctverc˚ u. Budeme jej proto oznaˇcovat βˆ(GLS,n) , a to zejm´ena tam, kde bude tˇreba zd˚ uraznit, ˇze pˇr´ısluˇsn´ a kovarianˇcn´ı matice Σ 6= σ 2 I. Odhad m´ a za (LS,n) pˇredpoklad˚ u, kter´e byly uv´ adˇeny v´yˇse pro βˆ vˇsechny dobr´e (i m´enˇe dobr´e) vlastnosti odhadu nejmenˇs´ıch ˇctverc˚ u. 129
Nyn´ı si ujasnˇeme, co se stane pokud odhadneme β 0 pomoc´ı bˇeˇzn´eho odhadu nejmenˇs´ıch ˇctverc˚ u (Ordinary Least Squares). N´asleduj´ıc´ı vztahy ukazuj´ı ³
XT X
IE
´−1
³
XT Y = XT X
´−1
X T Xβ 0 = β 0
a ³
XT X
´−1
³
XT Y = XT X = β0 +
´−1
³
X T β0 + X T X
´−1
³
´
³
X T Y − Xβ 0 = β 0 + X T X
n ³ T ´−1 T X X X E = β0 + n
µ
1 T X X n
¶−1
´−1
XT E
1 T X E, n
ˇze pokud budeme ignorovat z´avislost mezi n´ahodn´ ymi fluktuacemi, odhad bude st´ale jeˇstˇe nestrann´ y a konsistentn´ı. Lze vˇsak oˇcek´avat a snadno se to ovˇeˇr´ı, ˇze nebude nejlepˇs´ı, tj. eficientn´ı. K nalezen´ı eficientn´ıho odhadu potˇrebujeme zn´at matici Σ, ˇci alespoˇ n jej´ı “spolehliv´ y” odhad. Z n´asleduj´ıc´ı u ´vahy je ihned patrn´e, ˇze pokud nebudeme v jednotliv´ ych bodech faktorov´eho prostoru opakovat pozorov´an´ı a matice Σ bude zcela obecn´a nezn´am´ a matice, nelze v zobecnˇen´em regresn´ım modelu regresn´ı koeficienty eficientnˇe odhadnout. Museli bychom totiˇz odhadnout (LS,n) 2 , k, j = 1, 2, . . . , n, tj., vzhledem k symetrii matice Σ, n(n+1) + p βˆj , j = 1, 2, . . . , p a σkj 2 parametr˚ u modelu z n·(p+1) napozorovan´ ych ˇc´ısel. A to je nemoˇzn´e. V´ ychodiskem m˚ uˇze b´ yt to, ˇze se sn´ıˇz´ı poˇcet odhadovan´ ych parametr˚ u, napˇr. t´ım, ˇze budeme pˇredpokl´adat speci´aln´ı strukturu matice Σ. To je ekvivalentn´ı pˇredpokladu, ˇze z´avislost mezi jednotliv´ ymi ˇr´ adky v modelu (4) bude nˇekter´eho jednoduch´eho typu. Budeme-li napˇr. uvaˇzovat model s markovsk´ ymi fluktu2 acemi, tj. bude IE Ei Ei−1 = σ∗ , i = 2, 3, . . . , n a IE Ei Ej = 0 pro |i − j| > 1, coˇz zaps´ano ve tvaru matice d´av´a 2 σ σ∗2 0 . . . 0 0 σ2 σ2 σ2 . . . 0 0 ∗ ∗ 2 2 0 σ σ . . . 0 0 ∗ T IE E · E = 0 0 σ 2 . . . 0 0 , ∗ .. .. .. .. .. . . . . . 0
0
0
. . . σ∗2 σ 2
budeme odhadovat pouze 2 + p parametr˚ u. Pozdˇeji se setk´ame s dalˇs´ımi situacemi, ve kter´ ych specifick´ y tvar matice Σ umoˇzn´ı pouˇz´ıt v´ ysledky t´eto kapitoly. Snadno se nahl´edne, ˇze po form´aln´ı str´ance, bychom vlastnˇe nepotˇrebovali pˇredpoklad o stejn´em rozdˇelen´ı jednotliv´ ych n´ahodn´ ych fluktuac´ı. Zt´ıˇzilo by to vˇsak odhad matice Σ.
8.2
Model s diskr´ etn´ı vysvˇ etlovanou promˇ ennou
Pomˇernˇe ˇcasto se m˚ uˇzeme setkat s daty, kde vysvˇetlovan´ a promˇenn´ a nem´a spojit´ y charakter a nab´ yv´a jen diskr´etn´ıch hodnot. Uved’me si nejprve nˇekolik pˇr´ıklad˚ u situac´ı, kter´e “produkuj´ı” takov´a data. Vysvˇetlovan´a promˇenn´a: • popisuje nula-jedniˇckov´ y stav nˇeˇceho ˇci nˇekoho, napˇr. zamˇestnan´ y-nezamˇestnan´ y, plavecneplavec, kuˇr´ak-nekuˇr´ak, gramotn´ y-negramotn´ y, tekut´ y-pevn´ y, prodejn´ y-neprodejn´ y, funkˇcn´ınefunkˇcn´ı atd., 130
• je ˇc´ıtac´ıho charakteru, napˇr. poˇcet pˇrihl´ aˇsek telefonu, poˇcet uchazeˇc˚ u o studium, poˇcet patent˚ u, poˇcet z´akazn´ık˚ u atd., • je vlastnˇe zakdovan´a ryze kvalitativn´ı promˇenn´ a, napˇr. souhlas´ı bez v´ yhrad, souhlas´ı s v´ yhradami, nev´ı, nesouhlas´ı, z´asadnˇe nesouhlas´ı ˇci v´ ybornˇe pˇripraven, velmi dobˇre pˇripraven, dobˇre pˇripraven, ˇspatnˇe pˇripraven, velmi ˇspatnˇe pˇripraven, zcela nepˇripraven atd., • je sice v podstatˇe spojit´eho charakteru, ale je obvykle ud´av´ ana jen jako diskr´etn´ı, napˇr. poˇcet odpracovan´ ych hodin, vzd´alenost v kilometrech, pˇr´ıkon v kilowatech atd.. Z matematick´eho hlediska je zˇrejm´e, ˇze pokud budeme umˇet posoudit situaci tj. prov´est diskuzi probl´em˚ u, kter´e vyvst´avaj´ı pˇri pouˇzit´ı klasick´eho regresn´ıho modelu a navrhnout jejich ˇreˇsen´ı pro pˇr´ıpad, kdy vysvˇetlovan´ a veliˇcina je bin´arn´ı, je u ´loha t´emˇeˇr vyˇreˇsena. Modely s vysvˇetluj´ıc´ı veliˇcinou, kter´a nab´ yv´a koneˇcn´eho poˇctu hodnot jsou vlastnˇe “jen” (pˇr´ımoˇcar´ ym) zobecnˇen´ım tohoto bin´ arn´ıho modelu 8.2.1
Probl´ emy s pouˇ zit´ım klasick´ eho regresn´ıho modelu pro bin´ arn´ı vysvˇ etlovanou veliˇ cinu
Uvaˇzujme na chv´ıli jednoduchou situaci, kdy vysvˇetlovan´ a promˇenn´ a bude nab´ yvat hodnoty nula a jedna, kduj´ıc´ı skuteˇcnost, zda dan´a dom´acnost vlastn´ı auto ˇci auto nevlastn´ı. Pˇredpokl´adejme, ˇze toto z´avis´ı jen od v´ yˇse disponibiln´ıho pˇr´ıjmu. To sice nen´ı zcela raealistick´e, ale pro naˇse u ´ˇcely to bude po form´aln´ı str´ance v´ yhodn´e, a na podstatˇe d´ale uveden´e diskuze by pˇr´ıtomnost v´ıce vysvˇetluj´ıc´ıch promˇenn´ ych nic nezmˇenila. Pokusme se tedy popsat uvedenou z´avislost jednoduch´ ym regresn´ım modelem Yi = β1 + xi2 β2 + Ei ,
i = 1, 2, ..., n.
Protoˇze IE Yi = β1 + xi2 lβ2 a souˇcasnˇe IE Yi = 1 · P (Yi = 1) + 0 · P (Yi = 0) = P (Yi = 1), m´ame P (Yi = 1) = β1 +xi2 β2 . Proto se takov´ y model obvykle oznaˇcuje jako line´ arn´ı pravdˇepodobnostn´ı model. Je evidentn´ı, ˇze model se bude pot´ ykat hned s nˇekolika probl´emy najednou. Za prv´e, vzhledem k tomu, ˇze Yi , i = 1, 2, ..., n nab´ yv´ a jen hodnoty 0 nebo 1, mus´ı Ei b´ yt rovno bud’ −β1 − xi2 β2 , pokud Yi = 0, nebo 1 − β1 − xi2 β2 v pˇr´ıpadˇe, ˇze Yi = 1. Pokud nav´ıc budeme cht´ıt, aby IE Ei = 0, mus´ı b´ yt P (Ei = −β1 − xi2 β2 ) = 1 − β1 − xi2 β2 a P (Ei = 1 − β1 − xi2 β2 ) = β1 + xi2 β2 . Potom ovˇsem varEi = (β1 + xi2 β2 ) (1 − β1 − xi2 β2 ) ,
131
coˇz znamen´a, ˇze model vykazuje heteroskedasticitu. Dalˇs´ım probl´emem je to, ˇze β1 + xi2 β2 mus´ı b´ yt nez´aporn´e, ale ne vˇetˇs´ı neˇz jedna, a to pro vˇsechny (povolen´e) hodnoty xi2 . To pˇredstavuje omezen´ı na koeficienty a jejich odhady, samozˇrejmˇe, ˇreknˇeme alespoˇ n pˇri dan´ ych datech. To obecnˇe pˇrevede line´arn´ı probl´em odhadu regresn´ıch koeficient˚ u na probl´em kvadratick´ y. T´ım obecnˇe ztrat´ı platnost vˇsechna tvrzen´ı dok´azan´ a pro klasick´ y linearn´ı regresn´ı model, tj. napˇr. nelze pomoc´ı studentizovan´ ych odhad˚ u testovat jejich signifikantnost ani pomoci FisherSnedecorova F posoudit determinovanost modelu. 8.2.2
Model s bin´ arn´ı moˇ znost´ı v´ ybˇ eru
Abychom se vyhnuli v´ yˇse uveden´ ym probl´em˚ um s t´ım, ˇze n´ahodn´e fluktuace jsou bin´arn´ı, a z toho plynouc´ım probl´em˚ um s heteroskedasticitou, obvykle konstruujeme model pro bin´arn´ı v´ ybˇer pomoc´ı uˇzitk˚ u jednotliv´ ych variant v´ ybˇeru pro danou dom´acnost, firmu atd.. Necht’ tedy po ˇradˇe Ui1 a Ui2 jsou uˇzitky z prvn´ı a druh´e volby pro i-tou dom´acnost, firmu, subjekt, atd.. D´ale necht’ zi1 a zi2 jsou vektory charakterizuj´ıc´ı v´ yhodnost prv´e a druh´e alternativy, tak jak jsou vn´ım´ any i-t´ ym subjektem, a wi necht’ je vektor socio-ekonomick´ ych charakteristik i-t´eho subjektu. Potom, pˇredpokl´ad´ame-li linearitu, m˚ uˇzeme ps´at T Uij = αj + zij δ + wiT γj + Vij ,
i = 1, 2, ..., n, j = 1, 2.
D´ale budeme pˇredpokl´adat, ˇze Yi bude rovno jedn´e, pokud subjekt i zvol´ı prvn´ı alternativu a rovno nule v opaˇcn´em pˇr´ıpadˇe. Upozornˇeme na tomto m´ıstˇe, ˇze pro dva r˚ uzn´e subjekty je fakt “rozhodnut´ı se pro prvn´ı alternativu” obecnˇe pops´an dvˇema r˚ uzn´ ymi jevy, ˇreknˇeme Ai a Aj z nˇejak´e z´akladn´ı σ-algebry A; v nˇekter´ ych textech o probitov´e anal´ yze doch´ az´ı ke zmatk˚ um v okamˇziku, kdy autoˇri rozliˇsuj´ı mezi pravdˇepodobnostmi Pi pro r˚ uzn´e subjekty subindexem i viz (132) n´ıˇze, ale zm´ınˇen´ y fakt formalizuj´ı n´ahodn´ ym jevem, ˇreknˇeme A, bez rozliˇsen´ı pomoci indexu. Protoˇze i-t´ y subjekt zvol´ı prvn´ı alternativu tehdy, bude-li tato pro nˇej v´ yhodnˇejˇs´ı neˇz druh´a, tj. pokud Ui1 > Ui2 , m´ame (prvn´ı rovnost je zaveden´ım d´ale pouˇz´ıvan´eho oznaˇcen´ı) Pi = P (Yi = 1) = P (Ui1 > Ui2 ) ³
(132) ´
T T = P Vi1 − Vi2 < α2 − α1 + (zi2 − zi1 )δ + wiT (γ2 − γ1 ) = F (xTi β), T − z T , w T ) a β T = (α − α , δ T , γ T − γ T ). P´ kde xTi = (1, zi2 ısmenem F jsme oznaˇcili distribuˇcn´ı 2 1 2 1 i1 i funkci rozd´ılu Vi1 − Vi2 . Nejbˇeˇznˇeji studovan´e modely jsou ty, kde funkce F byla zvolena:
line´arn´ı pravdˇepodobnostn´ı model
F (xTi β) = xTi β,
probitov´ y model
F (xTi β) =
logitov´ y model
F (xTi β) =
R xTi β −∞
2
t √1 e− 2 2π
dt,
1
1+e
−xT β i
Prvn´ı variantu jsme jiˇz v´ yˇse diskutovali a uk´azali, ˇze nepatˇr´ı ke ˇst’astn´ ym volb´ am. Druh´a varianta representuje pˇr´ıpad, kdy za F zvol´ıme standardn´ı norm´aln´ı distribuci. Ve tˇret´ı variantˇe byla zvolena logistick´a distribuˇcn´ı funkce. Pˇri t´eto pˇr´ıleˇzitosti upozornˇeme na to, ˇze nˇekter´e monografie vˇenovan´e regresn´ı anal´ yze ˇci ekonometrii, uˇz´ıvaj´ı jeˇstˇe pojmu logistick´ y model, pˇriˇcemˇz nˇekter´e t´ım m´ın´ı to, co jsme v´ yˇse 132
oznaˇcili, ve shodˇe s drtivou vˇetˇsinou autor˚ u, jako logitov´ y model, nˇekter´e t´ım rozumˇej´ı model ˇcasov´e ˇrady s logistick´ ym trendem. To je asi tˇreba m´ıt na pamˇeti pˇri ˇcten´ı aplikaˇcn´ıch studi´ı, ve kter´ ych bez bliˇzˇs´ı specifikace autor prav´ı, ˇze pouˇzije logistick´ y model pro zpracov´ an´ı dat. Z kontextu by vˇsak mˇelo b´ yt jasn´e, o co jde. Neˇz postoup´ıme d´ale ve v´ ykladu, uvˇedomme si jeˇstˇe, ˇze P (Yi = 1) = F (xTi β), i = 1, 2, ..., n pˇredstavuj´ı teoretick´e pravdˇepodobnosti (oznaˇcme je Pi ), zat´ımco my m´ame k dispozici jejich v´ ybˇerov´e “protˇejˇsky” (ˇreknˇeme πi ). Vlastnˇe se tedy pokouˇs´ıme odhadnout regresn´ı koeficienty v modelu πi = Pi + Ei = F (xTi β) + Ei , i = 1, 2, ..., n. (133) V dalˇs´ım v´ ykladu bude π oznaˇcovat vektor v´ ybˇerov´ ych pravdˇepodobnost´ı (π1 , π2 , ..., πn )T . 8.2.3
Odhady parametr˚ u v line´ arn´ım pravdˇ epodobnostn´ım modelu
V´ yˇse jsme diskutovali pot´ıˇze, kter´e s sebou pˇrin´ aˇs´ı pouˇzit´ı line´arn´ıho pravdˇepodobnostn´ıho modelu a naznaˇcili jsme, ˇze model s bin´arn´ı moˇznost´ı v´ ybˇeru by mohl pomoci ˇreˇsit tyto probl´emy, a to v pˇr´ıpadˇe, ˇze za funkci F nezvol´ıme identitu, nebot’ jinak se opˇet dostaneme k line´arn´ımu pravdˇepodobnostn´ımu modelu. Pokud bychom vˇsak z nˇejak´ ych d˚ uvod˚ u potˇrebovali pˇreci jenom odhadnout parametry β v line´arn´ım pravdˇepodobnostn´ım modelu, pak lze postupovat v podstatˇe dvˇema zp˚ usoby. Oba vˇsak pˇredpokl´adaj´ı (dostateˇcnˇe kr´at proveden´e) opakov´ an´ı pozorov´ an´ı (mˇeˇren´ı) v jednotliv´ ych bodech faktorov´eho prostoru. Prvn´ı z nich vezme do u ´vahy to, ˇze model vykazuje heteroskedasticitu, a prostˇe aplikuje Aitken˚ uv odhad, ve kter´em pouˇzije nam´ısto nezn´am´e kovarianˇcn´ı matice Σ jej´ı odhad. Jin´ ymi slovy, nejprve odhadneme pomoci bˇeˇzn´eho odhadu metodou nejmenˇs´ıch ˇctverc˚ u regresn´ı koeficienty β, spoˇcteme rezidua a odhadneme kovarianˇcn´ı matici Σ. Aˇckoliv odhad regresn´ıch koeficient˚ u je neeficientn´ı, je nevych´ ylen´ y, jak jsme si ostatnˇe uk´azali v kapitole vˇenovan´e zobecnˇen´emu odhadu metodou nejmenˇs´ıch ˇctverc˚ u. To umoˇzn ˇuje nestrannˇe odhadnout matici Σ (EGLS,n) ˆ a spoˇc´ıtat ve druh´em kroku β (estimated generalized least squares). Tento pˇr´ıstup ovˇsem nevyˇreˇs´ı ten probl´em, ˇze potˇrebujeme omezit hodnotu v´ yrazu XiT βˆ(LS,n) na interval [0, 1]. Proto je patrnˇe obecnˇe pˇrijatelnˇejˇs´ı druh´ y postup spoˇc´ıvaj´ıc´ı v tom, ˇze vyˇc´ısl´ıme odhad s omezen´ımi dan´ ymi pˇr´ısluˇsn´ ymi nerovnostmi. Budeme tedy pˇredpokl´adat, ˇze jsme, podobnˇe jako v´ yˇse provedli (neeficientn´ı) odhad regresn´ıch koeficient˚ u a spoˇcetli na z´akladˇe rezidu´ı odhad kovarianˇcn´ı matice Σ. V druh´em kroku pak budeme ˇreˇsit u ´lohu (srovnej se (133) ) ˆ −1 (π − Xβ) βˆ(C,n) = arg min (π − Xβ)T Σ β∈Rp
pˇri vedlejˇs´ıch podm´ınk´ach Xβ ≤ 1
(134)
Xβ ≥ 0.
(135)
a Pˇripom´ın´ame, ˇze symbolem 1 jsme v Tvrzen´ı 8 oznaˇcili vektor maj´ıc´ı vˇsechny souˇradnice rovn´e jedn´e. Na druh´e stranˇe jsme vˇsak v pˇredchoz´ım textu pro nulov´ y vektor bˇeˇznˇe uˇz´ıvali symbol 133
0 a nikoliv 0, nebot’ z kontextu bylo zˇrejm´e o co jde. Pˇridrˇzeli jsme se proto tohoto oznaˇcen´ı i nyn´ı. V nˇekter´ ych pˇr´ıpadech, a tyto nemus´ı b´ yt tak ojedinˇel´e, jak by se na prvn´ı pohled mohlo zd´at, budeme a priori zn´at body faktorov´eho prostoru, ve ktr´ ych bude v budoucnu poˇzadov´ ana ˜ predikce pˇr´ısluˇsn´ ych pravdˇepodobnost´ı. Necht’ tyto body jsou oznaˇceny matic´ı X (typu (p × m), ˇreknˇeme). Pak se ovˇsem naˇse u ´loha rozˇs´ıˇr´ı jeˇstˇe o omezen´ı ˜ ≤1 Xβ
(136)
˜ ≥ 0. Xβ
(137)
a Kombinace obou p´ar˚ u omezen´ı d´a ·
W −W
¸
·
β≤
kde
"
W =
X ˜ X
1 0
¸
,
(138)
#
.
M˚ uˇzeme tedy napˇr. uvaˇzovat Lagrageovou funkci ˆ −1 (π − Xβ) + 2λT1 (1 − W β) + 2λT2 W β, L(β, λ1 , λ2 ) = (π − Xβ)T Σ kde λ1 a λ2 jsou vektory Lagrangeov´ ych multiplik´ ator˚ u (oba z Rn+m ). Budeme tedy ˇreˇsit soustavu ˆ −1 (π − Xβ) − W λ1 + W λ2 , −X T Σ 1 − W β ≥ 0,
λT1 (1 − W β) = 0,
W β ≥ 0 a λT2 W β = 0. Oznaˇc´ıme-li u1 = 1 − W β a u2 = W β, lze u ´lohu pˇrepsat na ˆ −1 π = W λ2 − W λ1 + X T Σ ˆ −1 Xβ, XT Σ 1 = W β + u1 ,
0 = −W β + u2 ,
λT1 u1 = 0,
λT2 u2 = 0
pˇri podm´ınk´ach nez´apornosti λ1 ≥ 0,
λ2 ≥ 0,
u1 ≥ 0 a u2 ≥ 0.
Vzhledem k linearitˇe syst´emu rovnic, lze tuto u ´lohu ˇreˇsit pomoci simplexov´e metody, pro kterou je dnes jiˇz pomˇernˇe snadno dostupn´ y software.
134
8.2.4
Odhady parametr˚ u v probitov´ em a logitov´ em modelu
Dˇr´ıve neˇz se pust´ıme do studia moˇznost´ı odhadu regresn´ıch koeficient˚ u pro probitov´ y a logitov´ y model, vrat’me se kr´atce k d˚ uvod˚ um, kter´e vedly k tomu, ˇze byly vybr´any pr´avˇe tyto dvˇe distribuˇcn´ı funkce. Za touto volbou stoj´ı zhruba tato logika. Pˇredpokl´ad´ ame, ˇze se i-t´ y subjekt (dom´acnost, firma, agent atd.) t´ım sp´ıˇse rozhodne pro variantu Ai (coˇz jsme formalizovali jako Yi = 1), ˇc´ım vˇetˇs´ı bude hodnota v´ yrazu xTi β 0 , kde ovˇsem β 0 nezn´ ame a chceme je odhadnout. Pokud je hodnota tohoto v´ yrazu implicitnˇe z´avisl´ a na mnoha nez´avisl´ ych a v podstatˇe n´ahodn´ ych faktorech, ˇci chcete-li jevech, jejichˇz vliv se agreguje, pak centr´ aln´ı limitn´ı vˇeta, aplikovan´ a T 0 znaˇcnˇe neform´alnˇe, napov´ıd´a, ˇze rozdˇelen´ı “veliˇciny” Zi = xi β je pˇribliˇznˇe norm´aln´ı a tedy pravdˇepodobnost toho, ˇze rozhodnut´ı bude ve prospˇech varianty Ai je rovna Φ(xTi β 0 ), kde jsme pouˇzili symbol Φ pro distribuˇcn´ı funkci standardn´ıho norm´aln´ıho rozdˇelen´ı. Volba logistick´e distribuˇcn´ı funkce pak souvis´ı s faktem, ˇze tato docela sluˇsnˇe aproximuje norm´aln´ı distribuci a je jednoduch´a z technick´eho hlediska. V nˇekter´ ych monografi´ıch se pˇri tomto zd˚ uvodnˇen´ı tvrd´ı, ˇze logistick´a d. f. aproximuje standarn´ı norm´aln´ı velmi dobˇre a tento argument je st´ale znova pˇrej´ım´an dalˇs´ımi autory, aniˇz by skuteˇcnˇe ovˇeˇrili, jak “daleko” od sebe tyto distribuce skuteˇcnˇe jsou; uved’me tedy pro poˇr´adek, ˇze max |Φ(t) − Flogistick´a (t)| = 0.1174 t∈R
a toto maximum nast´av´a v bodech t = 1.3246 a t = −1.3246. Podobnˇe jako v´ yˇse budeme pˇredpokl´adat, ˇze m´ame opakovan´a pozorov´ an´ı v jednotliv´ ych bodech faktorov´eho prostoru. Ostatnˇe jinak bychom nebyli schopni odhadnout kovarianˇcn´ı matici Σ, jak jsme jiˇz v´ yˇse nˇekolikr´at pˇripomˇeli, ale tak´e regresn´ı model (133) by trochu “ztr´acel na lesku”, nebot’ by bylo podivn´e odhadovat pravdˇepodobnost Pi nˇejakou hodnotou πi vypoˇc´ıtanou na z´akladˇe jednoho pozorov´ an´ı. V dalˇs´ım v´ ykladu rozliˇs´ıme dva pˇr´ıpady, totiˇz • m´ame k dispozici dostateˇcn´e mnoˇzstv´ı opakov´ an´ı a • m´ame k dispozici jen nˇekolik opakov´ an´ı. Pˇrirozenˇe je na uˇzivateli posoudit, kdy je vhodnˇejˇs´ı, pro dan´a data, pouˇz´ıt ten ˇci onen pˇr´ıstup. Postup pro pˇ r´ıpad, kdy je k dispozici dostateˇ cn´ e mnoˇ zstv´ı opakov´ an´ı Studujme nejprve probitov´y model. Pˇripomeˇ nme, ˇze uvaˇzujeme model πi = Pi + Ei = Φ(xTi β) + Ei ,
i = 1, 2, ..., n,
(139)
kde πi je odhad teoretick´e pravdˇepodobnosti, ˇze se i-t´ y subjekt rozhodne pro variantu Ai . Odhad πi je zaloˇzen na ni opakov´an´ıch pozorov´ an´ı i-t´eho subjektu, tj. na opakov´ an´ıch pozorov´an´ı v i-t´em bodˇe faktorov´eho prostoru, ˇreˇceno v terminologii, kterou jsme pouˇz´ıvali pro “klasick´ y” regresn´ı model. Protoˇze jistˇe zvol´ıme konsistentn´ı odhad πi , bude Ei konvergovat v pravdˇepodobnosti k nule pro ni → ∞. Vzhledem k tomu, co bylo ˇreˇceno v´ yˇse, totiˇz, ˇze pˇredpokl´ad´ame, ˇze Pi je pravdˇepodobnost toho, ˇze se i-t´ y subjekt rozhodne pro variantu Ai , 135
je pˇrirozen´e pˇredpokl´adat, ˇze πi bude maxim´alnˇe vˇerohodn´ y odhad t´eto pravdˇepodobnosti, tj. poˇcet pˇr´ıpad˚ u, kdy se v ni pozorov´an´ıch i-t´ y subjekt rozhodl pro variantu Ai . Potom ovˇsem πi =
ni X yik k=1
ni
,
kde yik je k-t´a realizace Bernoulliovsk´e n´ahodn´e veliˇciny Yi nab´ yvaj´ıc´ı hodnoty 1 v pˇr´ıpadˇe, kdy se i-t´ y subjekt rozhodne pro variantu Ai a 0 v pˇr´ıpadˇe, kdy se rozhodne pro doplnˇek t´eto varianty. Jin´ ymi slovy, zcela v souladu s v´ yˇse v t´eto kapitole veden´ ymi u ´vahami Yi je n´ahodn´a veliˇcina, kter´a nab´ yv´a hodnoty 1 s pravdˇepodobnost´ı Pi a hodnoty 0 s pravdˇepodobnost´ı 1 − Pi . Odtud plyne, ˇze Pi (1 − Pi ) . IE Ei = 0 a var(Ei ) = ni Podotknˇeme jeˇstˇe, ˇze v nˇekter´ ych monografi´ıch se pr´avˇe uveden´e vztahy “deklaruj´ı” bez specifikace typu odhad˚ u πi teoretick´ ych pravdˇepodobnost´ı Pi . Je sice pravda, ˇze podobn´ y v´ ysledek dostaneme pro vˇetˇsinu akceptovateln´ ych odhad˚ u pravdˇepodobnost´ı Pi , ale obecnˇe to nemus´ı √ platit. V podstatˇe to pˇredpokl´ad´a, ˇze odhad πi je nestrann´ y a ni -konsistentn´ı, tj. √ ni (πi − Pi ) = Op (1). Model (139) lze pˇrepsat do tvaru Φ−1 (πi ) = Φ−1 (Pi + Ei ), kde si pro nˇekolik dalˇs´ıch okamˇzik˚ u odpust´ıme neust´al´e opakov´ an´ı “pro i = 1, 2, ..., n”. Rozvinut´ım pomoci Taylorovy ˇrady dostaneme Φ−1 (πi ) = Φ−1 (Pi ) + Ei
dΦ−1 (Pi ) + Ri , dPi
kde Ri = O(1) · Ei2 a tedy Ri nejen konverguje k nule v pravdˇepodobnosti, ale je pˇrirozenˇe (opˇet v pravdˇepodobnosti) ˇr´adovˇe menˇs´ı neˇz druh´ y ˇclen prav´e strany posledn´ı rovnosti. Koneˇcnˇe tedy Φ−1 (πi ) ≈ Φ−1 (Pi ) + Ei
1 , φ(Φ−1 (Pi ))
(140)
kde jsme symbolem φ(t) oznaˇcili hustotu standardn´ıho norm´aln´ıho rozdˇelen´ı. Vzhledem k tomu, ˇze Φ−1 (Pi ) = xTi β 0 , m˚ uˇzeme pro ξi = Φ−1 (πi ) uvaˇzovat model ξi = xTi β 0 + Vi , kde ξi b´ yv´a oznaˇcov´ano jako “napozorovan´ y” probit a xTi β 0 je “skuteˇcn´ y” (ve smyslu anglosask´eho true) probit. Nyn´ı pokud odhad πi pravdˇepodobnosti Pi byl nestrann´ y, m´ame z (140) Ei Vi ≈ φ(Φ−1 (Pi )) a tedy IE Vi ≈ 0
a
var(Vi ) ≈ 136
Pi (1 − Pi ) . ni (φ(Φ−1 (Pi )))2
(141)
Odhadneme-li tedy β 0 pomoci ³
ˆ −1 X βˆ(LS,n) = X T Σ
´−1
ˆ −1 ξ, XT Σ
ˆ je odhad kovarianˇcn´ı matice n´ahodn´ kde Σ ych fluktuac´ı Vi . Vzhledem k tomu, ˇze obvykle pˇredpokl´ad´ame (statistickou) nez´avislost subjekt˚ u, tj. tak´e statistickou nez´avislost jev˚ u i-t´y subjekt se rozhodl pro variantu Ai a j-t´y subjekt se rozhodl pro variantu Aj , budou i n´ahodn´e fluktuace Ei statisticky nez´avisl´e, a koneˇcnˇe pak tot´eˇz lze pˇredpokl´adat o fluktuac´ıch Vi . To znamen´a, ˇze odhad kovarianˇcn´ı matice Σ bude diagon´aln´ı s t´ım, ˇze na diagon´ale budou st´at pr´avˇe odhady rozptyl˚ u uveden´e v (141). Samozˇrejmˇe se nab´ızej´ı i jin´e odhady, jak jsme ostatnˇe v´ yˇse zm´ınili. Napˇr. m˚ uˇzeme, pokud jsme si jisti t´ım, ˇze Pi = φ(xTi β 0 ), pouˇz´ıt odhad P˜i = Φ(ξˆi ) = Φ(xTi (X T X)−1 X T ξ). Pro logitov´y model lze postupovat obdobnˇe. Pˇripomeˇ nme, ˇze tento model pˇredpokl´ad´ a, ˇze Pi = P (Ai |xi ) = coˇz implikuje
µ
Pi ln 1 − Pi
1 , 1 + exp{xTi β 0 } ¶
= xTi β 0 .
Vzhledem k tomu, ˇze jsme pˇredpokl´adali regresn´ı model (139), m´ame πi Pi + Ei = . 1−π 1 − Pi − Ei Rozvineme-li pravou stranu pomoci Taylorova rozvoje v bodˇe
Pi 1−Pi
a vezmeme-li v u ´vahu, ˇze
Pi Ei Ei Pi + Ei − = ≈ , 1 − Pi − Ei 1 − Pi (1 − Pi − Ei )(1 − Pi ) (1 − Pi )2 dostaneme
µ
πi ln 1 − πi
¶
µ
Pi = ln 1 − Pi
¶
+
Ei + Ri , Pi (1 − Pi )
kde podobnˇe jako v´ yˇse Ri = Op (Ei2 ), tj. konverguje za dosti obecn´ ych podm´ınek v pravdˇepodobnosti k nule pro ni → ∞. M´ame tedy µ
ln ³
Poloˇz´ıme-li tedy ζi = ln
πi 1−πi
πi 1 − πi
¶
≈ xTi β 0 +
Ei . Pi (1 − Pi )
´
a budeme-li uvaˇzovat model ζi = xTi β 0 + Ui ,
budeme m´ıt Ui ≈
Ei Pi (1−Pi )
a tedy IE Ui ≈ 0
a
var(Ui ) =
1 . ni Pi (1 − Pi )
Dalˇs´ı postup je naprosto shodn´ y s postupem pro probitov´y model.
137
Postup pro pˇ r´ıpad, kdy je k dispozici jen nˇ ekolik opakov´ an´ı Pˇripomeˇ nme, ˇze jsme v´ yˇse uk´azali, ˇze v pr´avˇe diskutovan´ ych modelech se nevyhnutelnˇe setk´ame s heteroskedasticitou. M´ame-li vˇsak k dispozici jen mal´ y poˇcet opakov´ an´ı, pˇr´ıpadnˇe jen jedno, v i-t´em bodˇe faktorov´eho prostoru, nejsme schopni odhadnout rozptyl vysvˇetlovan´e veliˇciny v tomto bodˇe a tedy ani kovarinˇcn´ı matici Σ. Znamen´a to, ˇze se nejsme schopni vyrovnat s heteroskedasticitou pomoci zobecnˇen´eho odhadu nejmenˇs´ıch ˇctverc˚ u. Alternat´ıvn´ı moˇznost´ı je pouˇzit´ı maxim´alnˇe vˇerohodn´eho odhadu. To samozˇrejmˇe ovˇsem znamen´a, ˇze podstatn´ ym zp˚ usobem “vstoup´ı do hry” a priorn´ı informace o rozdˇelen´ı F (pozor, zde se nejedn´a o rozdˇelen´ı n´ahodn´ ych fluktuac´ı Ei v modelu (133), ale o distribuˇcn´ı funkci F popisuj´ıc´ı z´avislost Pi na xTi β 0 ). Dˇr´ıve neˇz zaˇcneme s vlastn´ım v´ ykladem pˇripomeˇ nme znovu na jednu form´aln´ı vˇec. V pˇredchoz´ı pas´aˇzi jsme oznaˇcovali pomoci ni poˇcet opakov´ an´ı pozorov´ an´ı v i-t´em bodˇe faktorov´eho prostoru a mylnˇe by se mohlo zd´at, ˇze Yi oznaˇcovalo poˇcet pˇr´ıpad˚ u ze zm´ınˇen´ ych ni opakov´ an´ı, kdy se i-t´ y subjekt rozhodl pro prvn´ı alternativu. Ve skuteˇcnosti jsme ale pˇredpokl´adali, ˇze to, co vstupuje do diskutovan´ ych regresn´ıch model˚ u, jsou probity (tj. Φ−1 (πi )), pˇr´ıpadnˇe logπi ) a Yi oznaˇcovalo n´ahodnou veliˇcinu nab´ yvaj´ıc´ı hodnotu 1 pro pˇr´ıpad, kdy se i-t´ y ity (tj. 1−π i subjekt rozhodl pro prvn´ı alternativu. Odtud plyne, ˇze pokud bylo pozorov´ an´ı na i-t´em subjektu ni -kr´at opakov´ano, m´ame ni realizac´ı veliˇciny Yi , kter´e jsme oznaˇcili yi1 , yi2 , ..., yini (coˇz je posloupnost nul a jedniˇcek), a poˇcet pˇr´ıpad˚ u, kdy se i-t´ y subjekt rozhodl pro prvn´ı variantu P i je nj=1 yij . Protoˇze toto ˇc´ıslo budeme d´ale potˇrebonat v n´asleduj´ıc´ım odstavci diskutuj´ıc´ım pouˇzit´ı probitov´eho a logitov´eho modelu, oznaˇcme je mi . Uvˇedomme si jeˇstˇe, ˇze vˇsechna tato pozorov´an´ı (mˇeˇren´ı) byla provedena ve stejn´em bodˇe faktorov´eho prostoru, jak jsme uˇz jednou v´ yˇse zd˚ uraznili, tj. xi1 = xi2 = ... = xini . Vr´ at´ıme-li se tedy k tomu, ˇze jsme pˇredpokl´adali, ˇze do diskutovan´ ych regresn´ıch model˚ u vstupuj´ı probity a logity, m´ame jak´asi “p˚ uvodn´ı” data vlastnˇe sdruˇzena do onˇech K skupin, v matici pl´anu vystupuje pˇr´ısluˇsn´ y bod xi jen jednou, matice m´a K ˇr´adk˚ u (a p sloupc˚ u) a jako vysvˇetlovan´ a veliˇcina vystupuje napozorovan´ y probit PK ˇci logit. Celkov´ y poˇcet pozorov´an´ı je pak n = i=1 ni . Vzhledem k tomu, ˇze jsme pˇredpokl´adali, ˇze Pi = P (Yi = 1) je pravdˇepodobnost, ˇze se i-t´ y subjekt rozhodne pro prvn´ı alternativu (a 1 − Pi = P (Yi = 0)), m´ame vˇerohodnostn´ı funkci `=
K Y
PiYi (1 − Pi )1−Yi =
K Y
³
´1−Yi
[F (xTi β)]Yi 1 − F (xTi β)
i=1
i=1
a koneˇcnˇe logaritmus vˇerohodnostn´ı funkce bude ln ` =
K n X
o
Yi ln(F (xTi β)) + (1 − Yi )ln(1 − F (xTi β)) ,
(142)
i=1
kde volbou F = Φ, pˇr´ıpadnˇe F = Flogistick´a specifikujeme situaci pro probitov´ y ˇci logitov´ y model. Hled´an´ı extr´emu je pak numerick´a z´aleˇzitost a m˚ uˇze b´ yt provedeno napˇr. Newton-Raphsonovou metodou, tj. budeme poˇc´ıtat iterativnˇe odhady
βˆ(r+1)
−1 "
¯
∂ 2 ln ` ¯¯ = βˆ(r) − ¯ ∂β∂β T ¯β=βˆ (r)
138
¯
#
∂ln ` ¯¯ , ∂β ¯β=βˆ(r)
kde doln´ı index (r) oznaˇcuje krok v iterativn´ım procesu. Odhady budeme “opakovat” tak dlouho aˇz se tyto stabilizuj´ı. O odhadu z´ıskan´em touto cestou je zn´amo, ˇze m´a asymptoticky norm´aln´ı rozdˇelen´ı (Judge a kol. (1980)), tj.
´ √ ³ n βˆ − β 0 → N 0, lim
n→∞
"
1 ∂ 2 ln ` − IE n ∂β∂β T
#−1 ,
kde se samozˇrejmˇe mus´ı pˇredpokl´adat, ˇze naznaˇcen´ a limita existuje. Podotknˇeme jeˇste, ˇze uveden´a stˇredn´ı hodnota (v kovarianˇcn´ı matici) mus´ı b´ yt uvaˇzov´ ana vzhledem ke “skuteˇcn´emu rozdˇelen´ı” G, tj. nikoliv v˚ uˇci F . To m˚ uˇze zp˚ usobit, ˇze asymptotick´ y rozptyl odhadu βˆ(r) m˚ uˇze b´ yt (podstatnˇe) vˇetˇs´ı neˇz bychom oˇcek´avali. Jinou moˇznost´ı je pouˇz´ıt metodu skrov´ an´ı, viz napˇr. Judge a kol. (1980). Nˇekdy mohou nastat pot´ıˇze se stanoven´ım poˇc´ ateˇcn´ıho odhadu pro iterativn´ı proces. Obvykle je vˇsak moˇzno pouˇz´ıt i dosti hrub´ y odhad, nebot’ je zn´amo, ˇze napˇr. pro probitov´ y a logitov´ y model tato volba nehraje asymptoticky ˇz´ adnou roli, viz Dhrymes (1978). Je pˇrirozen´e, ˇze z numerick´eho hlediska vˇsak volba poˇc´ateˇcn´ıho odhadu hraje podstatnou roli. Bohuˇzel vˇsak neexistuje spolehliv´e doporuˇcen´ı, jak v tomto pˇr´ıpadˇe postupovat. 8.2.5
Diskuze k pouˇ zit´ı probitov´ eho a logitov´ eho modelu
Pro alespoˇ n ˇc´asteˇcnou u ´plnost dodejme, ˇze model πi = F (xTi β) + Ei , i = 1, 2, ..., K byl studov´an i pro jin´a rozdˇelen´ı F neˇz jen Φ a Flogistick´a , viz napˇr. Zellner, Lee (1965), nicm´enˇe obl´ıbenost probitov´eho a logitopv´eho modelu daleko pˇrevyˇsuje jin´e aplikace. U probitov´eho modelu jde patrnˇe o to, ˇze za modelem je alespoˇ n jak´asi heuristika a tak´e pro obl´ıbenost norm´aln´ıho rozdˇelen´ı. U logitov´eho modelu hraje jistˇe roli jeho technick´ a jednoduchost pˇri zpracov´ an´ı. Pˇr´ıklady (a to dosti obs´ahl´e) pouˇzit´ı probitov´eho a logitov´eho modelu lze nal´ezt v pracech McFadden, D. (1976), Hensher, Johnson (1981) nebo Amemiya (1981). V´ yˇse jsme se zm´ınili, jak je tˇreba s opatrnost´ı interpretovat odhady regresn´ıch koeficient˚ u, dokonce jejich znam´enka, viz z´avˇer kapitoly V´ystupy z poˇc´ıtaˇcov´ych knihoven. Zde k tomu jeˇstˇe pˇristupuje to, ˇze i kdyˇz budou napˇr. regresory nez´avisl´e a tedy pot´ıˇz, na kterou jsme v pr´avˇe pˇripomenut´e kapitole upozorˇ novali (a kter´a mˇela sv´e koˇreny pr´avˇe ve vysok´em stupni line´arn´ı z´avislosti mezi vysvˇetluj´ıc´ımi promˇenn´ ymi), odpadne, velikost odhad˚ u regresn´ıch koeficient˚ u neindikuje velikost zmˇeny vysvˇetlovan´e veliˇciny (tj. pˇr´ısluˇ e pravdˇ epodobnosti Pi ), ale sp´ıˇse ³ sn´ ´ Pi −1 zmˇeny Φ (Pi ) pro probitov´ y model, a velikosti zmˇeny ln 1−Pi pro logitov´ y model. Snadno se nahl´edne, ˇze pˇr´ısluˇsn´ ym indik´atorem velikosti e pravdˇepodobnosti v z´avislosti ³ zmˇ ´ eny odhadovan´ T na zmˇenˇe j-t´e souˇradnice bodu xi bude f xi β βj , kde f je hustota pˇr´ısluˇsn´ a k F. 0 0 0 Ukaˇzme si nyn´ı, jak by se otestovala hypot´eza H0 : β2 = β3 = ... = βp = 0 proti alternativˇe ˆ kde βˆ je odhad poˇr´ızen´ H1 : β 0 = β, y nˇekterou metodou popsanou v´ yˇse v t´eto kapitole. Uˇciˇ nme tak pro jednoduch´ y pˇr´ıpad, kdy bylo provedeno n opakovan´ ych mˇeˇren´ı na jednom subjektu, tj. p v nˇekter´em bodˇe x ∈ R a kdy se v m pˇr´ıpadech tento rozhodl pro prvn´ı variantu. Uvˇedomme si, ˇze pˇri hypot´eze H0 m´ame xT β = x1 β1 a oznaˇcme γ = F (x1 β1 ) (kde doln´ı index 1 oznaˇcuje 139
vyj´ımeˇcnˇe prvn´ı souˇradnici bod˚ u x a β). Potom (uvˇedomme si, ˇze xi = x pro i = 1, 2, ..., n) ln ` (H0 ) = arg max γ∈R
n n X
yi ln(F (xTi β)) + (1 − yi )ln(1 − F (xTi β))
o
i=1
= arg max {mlnγ + (n − m)ln(1 − γ)} = mln γ∈R
m n−m + (n − m)ln( ). n n
Oznaˇcme jeˇstˇe hodnotu logaritmu vˇerohodnostn´ı funkce pro hypot´ezu H1 , kterou dostaneme dosad´ıme-li odhad βˆ do (142), symbolem ln`(H1 ). Za pˇr´ısluˇsnou testovou statistiku vezmeme pak logaritmus vˇerohosnostn´ıho pomˇeru, tj. −2 [ln`(H0 ) − ln`(H1 )] ,
(143)
kter´a m´a asymptoticky rozdˇelen´ı χ2 (p − 1). Pokud by bylo provedeno pozorov´an´ı (mˇeˇren´ı) na K subjektech, na kaˇzd´em ni -kr´at pr´avˇe uveden´e u ´vahy by se zkomplikovaly, a to nejen po form´aln´ı str´ance, ale i po str´ance vˇecn´e. Patrnˇe bychom totiˇz chtˇeli m´ıt v´ıce “parametr˚ u” γ, ale nulov´ a hypot´eza H0 striktnˇe vzato ve formalizmu, kter´ y jsme pouˇz´ıvali v odstavci “Postup pro pˇr´ıpad, kdy je k dispozici dostateˇcn´e mnoˇzstv´ı opakov´ an´ı”, popisuje situaci, kdy Pi = const, i = 1, 2, ..., K. Uˇzivatel´e probitov´ ych a logitov´ ych model˚ u se tak´e ˇcasto zaj´ımaj´ı o analogii koeficientu determinace pro tyto modely. Odkazujeme proto na pr´aci Amemiya (1981), (1981) ve kter´e je podrobnˇejˇs´ı diskuze k tomuto t´ematu. Zde jen uved’me, ˇze patrnˇe nejbˇeˇznˇeji pouˇz´ıvan´e statistiky jsou bud’ χ2 uveden´a v (143) nebo “pseudo-R2 ” definovan´ y jako ρ2 = 1 −
ln`(H0 ) . ln`(H1 )
Jak vypl´ yv´a z v´ yˇse uveden´eho v´ ykladu a diskuze, jsou probitov´e a logitov´e modely vlastnˇe jakousi “berliˇcku” pro data, pro kter´a nen´ı regresn´ı model pˇr´ımo urˇcen. Ostatnˇe v nˇekter´ ych statistick´ ych knihovn´ach jsou probitov´e a logitov´e modely zaˇclenˇeny do neline´arn´ıch odhad˚ u, neline´arn´ı regrese ˇci maj´ı sv˚ uj speci´aln´ı odd´ıl. Proto b´ yv´ a tak´e studov´ ana jejich v´ ykonnost ve srovn´an´ı s jin´ ymi metodami, napˇr. s diskriminaˇcn´ı anal´ yzou, viz Press, Wilson (1978) nebo Amemiya, Powell (1980) nebo regresn´ımi stromy, viz Breiman a kol. (1984).
8.3
Model s kategori´ aln´ımi vysvˇ etluj´ıc´ımi promˇ enn´ ymi
ˇ Casto se st´av´a, ˇze nˇekter´a promˇenn´a v datech m´a charakter kategori´ aln´ı nebo kvalitativn´ı promˇenn´e, jako je napˇr. sex, rasa, vˇekov´ a kategorie, st´atn´ı pˇr´ısluˇsnost, pˇr´ısluˇsnost k nˇekter´e politick´e stranˇe, barva, druh materi´alu, zp˚ usob zpracov´ an´ı, doba vzniku, osobn´ı preference atd. Jedna z moˇznost´ı by zajist´e byla rozdˇelit data na v´ıce soubor˚ u dle t´eto kategori´ aln´ı promˇenn´e a zpracovat kaˇzd´ y soubor samostatnˇe. Na druh´e stranˇe, pokud se budeme domn´ıvat, ˇze vysvˇetlovan´ a veliˇcina byla generov´ana jak´ ymsi “mechanizmem’, kter´ y je spoleˇcn´ y pro vˇsechna data v souboru a pouze pro jednotliv´e kategorie obsahoval jin´ y absolutn´ı ˇclen, m˚ uˇzeme data zpracovat nar´az, coˇz povede k tomu, ˇze informace o tˇech koeficientech, kter´e jsou spoleˇcn´e pro vˇsechny kategorie bude l´epe vyuˇzita. Znamen´a to tedy, ˇze potˇrebujeme form´alnˇe zapsat model, kter´ y automaticky zvol´ı pro dan´e pozorov´an´ı absolutn´ı ˇclen dle pˇr´ısluˇsnosti dan´eho pozorov´ an´ı (dan´eho jedince) k t´e 140
ˇci on´e kategorii. Pˇredpokl´adejme, ˇze naˇse data obsahuj´ı kategori´ aln´ı promˇennou (pro jednoduchost pouze jednu; zobecnˇen´ı na v´ıce kategori´ aln´ıch promˇenn´ ych je pˇr´ımoˇcar´e), kter´a nab´ yv´ aK hodnot (stav˚ u). Regresn´ı model pak m˚ uˇzeme ps´at ve tvaru Yi = Zγ + Xβ 0 + Ei , i = 1, 2, ..., n, kde Z je matice typu (n × K) a plat´ı, ˇze zik = 1 pokud i-t´e pozorov´ an´ı patˇr´ı do k-t´e kategorie, k = 1, 2, ..., K). Pokud bychom vˇsechna pozorov´ an´ı patˇr´ıc´ı do prvn´ı kategorie um´ıstili na zaˇc´ atek dat, za nˇe um´ıstili vˇsechna pozorov´an´ı patˇr´ıc´ı do druh´e kategorie, atd. a pokud oznaˇc´ıme `k poˇcet pozorov´an´ı patˇr´ıc´ıch do k-t´e kategorie, bude matice pl´anu vypadat takto [Z, X] =
1 0 0 . . . 0 x1,1 1 0 0 . . . 0 x2,1 .. .. .. .. .. . . . . . 1 0 0 . . . 0 x`1 ,1
x1,2 x2,2 .. .
. . . x1,p . . . x2,p .. .
x`1 ,2
...
0 1 0 . . . 0 x`1 +1,1 0 1 0 . . . 0 x`1 +2,1 .. .. .. .. .. . . . . . 0 1 0 . . . 0 x`1 +`2 ,1 .. .. .. .. .. . . . . . .. .. .. .. .. . . . . . .. .. .. .. .. . . . . .
x`1 +1,2 x`1 +2,2 .. .
... ...
x`1 +`2 ,2 .. . .. . .. .
...
0 0 0 . . . 1 x`1 +`2 +...+`K−1 +1,1 0 0 0 . . . 1 x`1 +`2 +...+`K−1 +2,1 .. .. .. .. .. . . . . . 0 0 0 . . . 1 x`1 +`2 +...+`K ,1
x`1 +`2 +...+`K−1 +1,2 . . . x`1 +`2 +...+`K−1 +2,2 . . . .. . x`1 +`2 +...+`K ,2
x`1 ,p x`1 +1,p x`1 +2,p .. . x`1 +`2 ,p . .. . .. . .. . x`1 +`2 +...+`K−1 +1,p x`1 +`2 +...+`K−1 +2,p .. .
. . . x`1 +`2 +...+`K ,p
Odhad regresn´ıch koeficient˚ u lze prov´est pomoc´ı bˇeˇzn´eho odhadu metodou nejmenˇs´ıch ˇctverc˚ u, kter´ y bude vypadat takto "
γˆ (LS,n) βˆ(LS,n)
#
³
´−1
= [Z, X]T [Z, X]
[Z, X]T Y.
(144)
Jeˇstˇe jednou pˇripom´ın´ame, ˇze, jak je ostatnˇe zˇrejm´e z tvaru matice pl´anu, pro kaˇzdou kategorii pozorov´an´ı je jakoby odhadnut “samostatnˇe” absolutn´ı ˇclen zat´ımco odhady ostatn´ıch koeficient˚ u modelu jsou “spoleˇcn´e”. Slovo jakoby a u ´vozovky u slov samostatnˇe a spoleˇcnˇe naznaˇcuj´ı, ˇze pˇri odhadu absolutn´ıho ˇclenu pro jednu, ˇreknˇeme k-tou kategorii, je ve skuteˇcnosti zprostˇredkovanˇe vyuˇzita i informace obsaˇzen´ a v pozorov´ an´ıch z jin´ ych kategori´ı, (viz (144). Komplikovanˇejˇs´ı by byla situace, kdy by bylo adekv´atnˇejˇs´ı pˇredpokl´adat, ˇze pˇr´ısluˇsnost jednotliv´eho pozorov´an´ı do k-t´e kategorie je n´ahodn´ y jev, tj. ˇze matice Z je n´ahodn´a. Naˇstˇest´ı se s takovou situac´ı setk´ame jen velmi zˇr´ıdka. Na druh´e stranˇe, v takov´em pˇr´ıpadˇe lze postupovat standardn´ım postupem, kter´ y aplikujeme v modelu s n´ahodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi. Jiˇz v´ yˇse bylo vysvˇetleno, v odstavci vˇenovan´emu instrument´ aln´ım promˇenn´ ym, jak je tˇreba v 141
takov´em pˇr´ıpadˇe postupovat. “Jedin´ ym” probl´emem, kter´ y je v tom pˇr´ıpadˇe totiˇz tˇreba posoudit, je to zda n´ahodn´e fluktuace a ty vysvˇetluj´ıc´ı promˇenn´e, kter´e povaˇzujeme za n´ahodn´e, jsou (asymptoticky) korelov´any ˇci nikoliv. Slovo jedin´ym je d´ano do u ´vozovek, nebot’ se sice opravdu jedn´a jen o jedin´ y probl´em, ale za to dosti podstatn´ y a nikoliv snadno testovateln´ y. Na druh´e stranˇe, vzhledem k tomu, ˇze konstanta je vˇzdy nez´avisl´ a (a tedy tak´e nekorelovan´ a) s jakoukoliv n´ahodnou veliˇcinou, m´ame nadˇeji, ˇze pokud nastane pr´avˇe diskutovan´ a situace, pak, pokud bude pˇr´ısluˇsn´a kategori´aln´ı veliˇcina nab´ yvat jen mal´eho poˇctu hodnot, bude (alespoˇ n asymptoticky) nekorelovan´a s n´ahodn´ ymi fluktuacemi. Nˇekdy se m˚ uˇzeme setkat se situac´ı, kdy jsou mezi vysvˇetluj´ıc´ımi promˇenn´ ymi kvalitativn´ı, tak jak jsme si o tom pov´ıdali v t´eto kapitole, ale kvalitativn´ı veliˇcina (znak) nab´ yv´ a tolika hodnot, ˇze patrnˇe nelze pro kaˇzdou odhadnout absolutn´ı ˇclen, nebot’ by vlastnˇe jeho hodnota byla odhadnuta z nˇekolika m´alo pozorov´ an´ı. V takov´em pˇr´ıpadˇe patrnˇe nezb´ yv´ a, neˇz zkusit “nˇeco” jin´eho neˇz regresn´ı model. Jednou m´enˇe zn´amou, ale patrnˇe velmi efektivn´ı variantou je pouˇzit´ı regresn´ıch strom˚ u (regression trees), viz Breiman a kol. (1984). Myˇslenka je velmi jednoduch´a, totiˇz rozdˇelit data na dvˇe (ˇci v´ıce ˇc´ ast´ı) dle kvalitativn´ı (kategori´ aln´ı) veliˇciny a to tak, aby co nejv´ıce poklesla variabilita vysvˇetlovan´e veliˇciny v obou tˇr´ıd´ ach. Jak jsme ˇrekli, myˇslenka je to velmi jednoduch´a a snadno akceptovateln´ a, proveden´ı je znaˇcnˇe komplikovan´e. Uvˇedomme si, ˇze pokud pˇr´ısluˇsn´a kategori´ aln´ı promˇenn´ a nab´ yv´ a k “hodnot” (stav˚ u), lze data k−1 rozdˇelit do dvou skupin 2 − 1 zp˚ usoby. Nav´ıc kategori´ aln´ıch promˇenn´ ych m˚ uˇze b´ yt v´ıce, v datech mohou chybˇet nˇekter´e u ´daje (missing values) atd. Proto tak´e b´ yv´ a software pro tuto metodu znaˇcnˇe drah´ y.
8.4
Vysvˇ etluj´ıc´ı promˇ enn´ e mˇ eˇ ren´ e s n´ ahodn´ ymi chybami
Na sam´em zaˇc´atku skript jsme diskutovali, co by znamenalo to, kdybychom n´ahodn´e fluktuˇ ace vysvˇetlovan´e veliˇciny interpretovali jako chyby mˇeˇren´ı. Rekli jsme, ˇze pak bychom museli posoudit, zda nen´ı adekv´atn´ı uvaˇzovat o tom, ˇze tak´e (nˇekter´e) vysvˇetluj´ıc´ı promˇenn´e mohou b´ yt mˇeˇreny s nezanedbatelnou (n´ahodnou) chybou. Poznamenali jsme, ˇze pak je tˇreba uvaˇzovat o jin´em tvaru regresn´ıho modelu a jin´em pˇr´ıstupu k odhadu jeho parametr˚ u (koeficient˚ u). Jednoduch´ y model t´eto situace jsme si uˇz uk´azali v jednom z pˇredchoz´ıch odstavc˚ u. Nyn´ı si uk´aˇzeme obecnˇejˇs´ı tvar takov´eho modelu. Podobnˇe jako dˇr´ıve budeme pˇredpokl´adat, ˇze vysvˇetlovan´a promˇenn´a line´arnˇe z´avis´ı na sadˇe vysvˇetluj´ıc´ıch promˇenn´ ych, tedy pˇresnˇeji ˇreˇceno na skuteˇcn´ ych hodnot´ach tˇechto vysvˇetluj´ıc´ıch promˇenn´ ych Y = Zγ 0 + X ∗ β 0 + V,
(145)
kde Z pˇredstavuje tu ˇc´ast matice pl´anu, kter´a zahrnuje ty vysvˇetluj´ıc´ı promˇenn´e, jejichˇz chyba mˇeˇren´ı je mal´a ve srovn´an´ı s rozptylem n´ahodn´ ych fluktuac´ı. V matici X ∗ jsou zahrnuty skuteˇcn´e hodnoty tˇech regresor˚ u, jejichˇz mˇeˇren´ı je zat´ıˇzeno nezanedbatelnou chybou, tj. v matici X ∗ jsou hodnoty, kter´e n´am vˇsak nejsou pˇr´ıstupny. My m´ame k dispozici pouze matici X namˇeˇren´ ych hodnot tˇechto regresor˚ u, tj. hodnot, kter´e jsou zat´ıˇzeny (znaˇcnou) chybou mˇeˇren´ı. Form´ alnˇe to znamen´a, ˇze X = X ∗ + U. (146)
142
Pˇrirozenˇe, ˇze stejnˇe jako pro n´ahodn´e fluktuace E pˇredpokl´ad´ ame, ˇze IE U = 0 a nav´ıc IE Ui V T = 0, kde Ui je i-t´ y ˇr´adek matice U , tj. na prav´e stranˇe posledn´ı rovnosti stoj´ı matice nul. Symboly 0 0 γ a β jsme oznaˇcili vektory regresn´ıch koeficient˚ u a V jsou samozˇrejmˇe n´ahodn´e fluktuace. Jestliˇze (146) dosad´ıme do (145), dostaneme Y = Zγ 0 + Xβ 0 + E = W δ 0 + E (W = (Z, X), δ 0 = (γ 0 , β 0 ) a E = V − U β 0 ). Zcela analogicky jako pˇri studiu klasick´eho regresn´ıho modelu budeme pˇredpokl´adat, ˇze existuj´ı regul´arn´ı matice Qzz , Qzx a Qxx tak, ˇze lim
n→∞
1 T Z Z = Qzz , n
1 T Z X = Qzx n 1 lim X T X = Qxx n→∞ n lim
n→∞
(147)
v pravdˇepodobnosti,
(148)
v pravdˇepodobnosti
(149)
(viz (14)) a nav´ıc, ˇze lim
n→∞
1 T U U = Σuu n
v pravdˇepodobnosti.
Nen´ı tˇeˇzk´e zjistit, ˇze bˇeˇzn´ y ˇci chcete-li naivn´ı odhad metodou nejmenˇs´ıch ˇctverc˚ u "
δˆ =
γˆ (n) βˆ(n)
#
³
= WTW
´−1
³
WTY = WTW
´−1
³
´
³
W T W δ0 + E = δ0 + W T W
´−1
WTE (150)
m˚ uˇze b´ yt obecnˇe vych´ ylen´ y a nen´ı konsistentn´ı, nebot’ lim
n→∞
1 1 T X E = lim U T (V − U β 0 ) = −Σuu β 0 n→∞ n n
v pravdˇepodobnosti.
Poznamenejme jeˇstˇe, ˇze z toho, jak jsme zavedli matice Q (viz (147), (148) a (149)) m´ame 1 lim W T W = n→∞ n a
1 lim W T E = n→∞ n
·
·
¸
Qzz Qzx QTzx Qxx 0 −Σuu β 0
v pravdˇepodobnosti
(151)
¸
v pravdˇepodobnosti.
(152)
Vztah (152) by mohl sv´adˇet k tomu, ˇze vektor γ 0 bude odhadnut nestrannˇe. Snadno vˇsak nahl´edneme ze vztahu (150), ˇze pˇri v´ ypoˇctu γˆ(n) figuruje cel´ y vektor stoj´ıc´ı na prav´e stranˇe vztahu (152). Potom tedy dostaneme "
lim
n→∞
γˆ (n) − γ 0 βˆ(n) − β 0
#
·
=
−1 0 −1 T Q−1 zz Qzx (Qxx − Qzx Qzz Qzx ) Σuu β −1 0 −(Qxx − QTzx Q−1 zz Qzx ) Σuu β
¸
.
(153)
Proto ani ta ˇc´ast vektoru regresn´ıch koeficient˚ u, kter´a odpov´ıd´ a tˇem regresor˚ um, kter´e jsou mˇeˇreny “pˇresnˇe”, nen´ı odhadnuta nestrannˇe. Bez pˇrijet´ı dalˇs´ıch pˇredpoklad˚ u, specifikuj´ıc´ı ponˇekud v´ıce celou situaci se bohuˇzel d´a jen tˇeˇzko nˇeco usoudit o velikosti a smˇeru vych´ ylen´ı odhad˚ u γˆ(n) a βˆ(n) . Pokud vˇsak napˇr. nastane pˇr´ıpad, ˇze je s chybami mˇeˇrena jen jedna vysvˇetluj´ıc´ı promˇenn´ a, pak Σuu = σu2 (ˇreknˇeme) 143
2 2 ı rovnost zavedla oznaˇcen´ı pro rozptyl veliˇciny a (Qxx − QTzx Q−1 zz Qzx ) = σx (1 − Rxz ) (kde posledn´ 2 ) jsou x a pro koeficient mnohon´asobn´e korelace mezi x a Z). Protoˇze jak σu2 tak σx2 (1 − Rxz nez´aporn´e, je vych´ ylen´ı odhadu koeficientu β 0 vˇzdy negativn´ı, tj. dojde k podcenˇen´ı. Jak vˇsak m˚ uˇzeme nahl´ednout z (153), vych´ ylen´ı odhadu koeficientu γ 0 z´avis´ı na Q−1 zz Qzx a nelze je tedy bez znalosti t´eto matice v´ıce popsat. Pokud je vˇsak n´aˇs model extr´emnˇe jednoduch´ y, tj. obsahuje pouze jednu vysvˇetluj´ıc´ı, tj. Z = 0, kter´a je mˇeˇrena s n´ahodn´ ymi chybami, pak vych´ ylen´ı odhadu 0 koeficientu β je d´ano vztahem
³
lim
n→∞
8.5
´
0 2
β σ βˆ(n) − β 0 = − 2 u σx
v pravdˇepodobnosti.
Aproximace nepˇ r´ıstupn´ ych vysvˇ etluj´ıc´ıch veliˇ cin
Model (145) je form´alnˇe podobn´ y modelu modelu, ve kter´em vystupuj´ı vysvˇetluj´ıc´ı promˇenn´e, kter´e nem˚ uˇzeme pˇr´ımo mˇeˇrit, ale jsme o nich pˇresvˇedˇceni, ˇze jsou relevantn´ı pro vysvˇetlen´ı veliˇciny Y . Pˇr´ıkladem m˚ uˇze b´ yt situace, kdy se budeme snaˇzit vysvˇetlit v´ yˇsi pˇr´ıjmu fyzick´ ych osob na z´akladˇe r˚ uzn´ ych faktor˚ u. Jedn´ım z faktor˚ u bude nepochybnˇe u ´roveˇ n vzdˇel´ an´ı, kter´eho dotyˇcn´ y(´a) dos´ahl. Okamˇzitˇe n´am vˇsak bude jasn´e, ˇze u ´roveˇ n vzdˇel´ an´ı bude z´avisl´ a nejen od poˇctu let str´aven´ ych ve ˇskoln´ıch lavic´ıch, ale tak´e od typu a hlavnˇe kvality ˇskoly, kterou navˇstˇevoval. To bychom mohli jeˇstˇe nˇejak zohlednit, ale jednak by to bylo obt´ıˇzn´e, tedy pˇrinejmenˇs´ım technicky komplikovan´e, jednak by to st´ale jeˇstˇe nevystihlo vˇsechny probl´emy, kter´e jsou s u ´rovn´ı vzdˇel´an´ı spojeni. Nˇekdo dalˇs´ı by totiˇz mohl nam´ıtnou, ˇze je tˇreba vz´ıt v u ´vahu to, jak´ ych zn´amek dotyˇcn´ y dos´ahl (coˇz uˇz by ani nemuselo b´ yt zjistiteln´e), ale pak pˇrijde dalˇs´ı a ˇrekne, ˇze pˇreci ˇ na t´e ˇskole byli r˚ uznˇe pˇr´ısn´ı examin´atoˇri atd. Casto v takov´em pˇr´ıpadˇe “rezignujeme” a prostˇe nahrad´ıme veliˇcinu, o kter´e c´ıt´ıme, ˇze je relevantn´ı, veliˇcinou, kter´a ji (v´ıce ˇci m´enˇe) dobˇre aproximujeme. Anglosask´e literatuˇre se mluv´ı o proxy variables a v posledn´ı dobˇe se toto oznaˇcen´ı, totiˇz proxy promˇenn´e zaˇcalo uj´ımat i u n´as. Jazykov´ y puristi asi budou proteslovat, ale pokud autor toho ˇci onoho textu na jeho zaˇc´atku pˇresnˇe vymez´ı, co ˇc´ım bude oznaˇcovat, nen´ı toto slova ˇ pr´avˇe z tˇech, kter´e by v ˇceˇstinˇe znˇelo nelibozvuˇcnˇe. Casto se tedy uvaˇzuje model Y = zγ 0 + xβ 0 + E,
(154)
o kter´em jsme si vˇedomi, ˇze veliˇcina x je aproximac´ı veliˇciny x∗ , tj. plat´ı x = x∗ + u, kde u ovˇsem nen´ı n´ahodn´a chyba mˇeˇren´ı a ani ji nelze dost dobˇre za n´ahodnou povaˇzovat, v tom smyslu, ˇze ji nejsme schopni popsat v term´ınech n´ahodn´e veliˇciny. Potom pˇred n´ami stoj´ı probl´em (dilema), zda uvaˇzovat model (154) ˇci model ˜ Y = zγ 0 + E,
(155)
s t´ım, ˇze vzhledem k tomu, co bylo ˇreˇceno o vztahu x a x∗ nejsme schopni posoudit “tˇesnost” aproximace. V literatuˇre lze nal´ezt studie diskutuj´ıc´ı tento probl´em (viz napˇr. Aigner (1974), Maddala (1977)), ale z´avˇery jsou ˇcasto dosti sporn´e. Problematiˇcnost totiˇz spoˇc´ıv´ a v tom, ˇze 144
kaˇzd´a takov´a studie mus´ı chtˇe nechtˇe nakonec udˇelat nˇejak´e pˇredpoklady o veliˇcinˇe u a nav´ıc mus´ı zvolit nˇekter´e kriterium pro hodnocen´ı odhadu z toho ˇci onoho modelu. Obvykle je to vych´ ylen´ı ˇci rychlost konsistence, pˇr´ıpadnˇe jej´ı ztr´ata. Napˇr. B. T. McCallum (1972) a M. R. Wickens (1972) nez´avisle dok´azali, ˇze pokud o u pˇredpokl´ad´ ame, ˇze je to n´ahodn´a veliˇcina nez´avisl´ a jak ∗ na x tak na E, potom je odhad z modelu (154) vˇzdy m´enˇe vych´ ylen neˇz odhad z modelu (155) (vzhledem k tomu, co bylo ˇreˇceno v´ yˇse, se o modelu (155) pˇredpokl´ad´ a, ˇze je podurˇcen a tedy pˇr´ısluˇsn´ y odhad je obecnˇe vych´ ylen´ y - viz odstavec o podurˇcen´ı modelu). Na druh´e stranˇe nen´ı jasn´e, jak dalece m˚ uˇze b´ yt model (154) ˇspatnˇe specifikov´ an. M´ame na mysli to, co anglosask´a literatura oznaˇcuje slovem misspecified a pro co patrnˇe nem´ame jeˇstˇe ust´alen´ y technick´ y term´ın; znamen´a to, ˇze do podurˇcen´eho modelu (155) sice pˇrid´ ame dalˇs´ı vysvˇetluj´ıc´ı veliˇciny, ale tyto jsou (t´emˇeˇr) irelevantn´ı pro vysvˇetlen´ı veliˇciny Y . To sice nezhorˇs´ı ani vych´ ylen´ı modelu ani to nevede ke ztr´atˇe konsistence, ale m˚ uˇze to znamenat takov´e zv´ yˇsen´ı rozptylu odhad˚ u koeficient˚ u, ˇze to napˇr´ıklad m˚ uˇze (podstatnˇe) poˇskodit kvalitu n´asledn´e predikce.
9 9.1
ˇ ˇ ˇ MODEL S V´ICEROZMERNOU VYSVETLOVANOU PROMENNOU Zd´ anlivˇ e nesouvisej´ıc´ı rovnice
Aˇz dosud jsme uvaˇzovali regresn´ı model, ve kter´em byla vysvˇetlovan´ a veliˇcina jednorozmˇern´a. Naprosto pˇr´ımoˇcar´ ym zobecnˇen´ım tohoto modelu je model uvaˇzuj´ıc´ı soubor M regresn´ıch rovnic typu (3), kter´e spolu (na prvn´ı pohled) nesouvisej´ı. Odtud n´azev (angl. seemingly unrelated equations). Budeme tedy uvaˇzovat pro j = 1, 2, . . . , M model (j)T
Yij = xi
β(j) + Eij ,
i = 1, 2, . . . , n.
(156)
Oznaˇc´ıme-li Y(j) = (Y1j , Y2j , . . . , Ynj )T ∈ Rn (tj. Yij oznaˇcuje i-t´e pozorov´ an´ı v j-t´em regresn´ım (j)T
modelu), matice X (j) je typu (n × p(j) ) a je evidentnˇe sloˇzena z ˇr´ adk˚ u xi p(j) (β1(j) , β2(j) , . . . , βp(j) (j) ) ∈ R , dostaneme Y(j) = X (j) β(j) + E(j) ,
j = 1, 2, . . . , M.
, a koneˇcnˇe β(j) =
(157)
Pˇrirozenˇe budeme pˇredpokl´adat zobecnˇen´ı Podm´ınek A, tj. jako obvykle n
IE E(j) = 0 ale nav´ıc
a n
IE
IE
o
T 2 E(j) E(j) = σjj I,
(158)
o
T 2 E(j) E(k) = σjk I.
(159)
Znamen´a to tedy, ˇze nad´ale pˇredpokl´ad´ame, ˇze n´ahodn´e fluktuace pro r˚ uzn´e ˇr´ adky jsou nez´avisl´e, a to jak uvnitˇr jednoho modelu, napˇr. j-t´eho (viz (158)), tak pro r˚ uzn´e modely, napˇr. j-t´ y a kt´ y, zat´ımco fluktuace ve stejn´em ˇr´adku pro r˚ uzn´e modely maj´ı obecnˇe nenulovou korelaci (viz (159)). Zaveden´ y formalizmus je na prvn´ı pohled ponˇekud zvl´aˇstn´ı a nejednotn´ y, co se t´ yk´ a vysvˇetlovan´e a vysvˇetluj´ıc´ı promˇenn´e. V paragrafu vˇenovan´emu simult´ an´ım rovnic´ım se pak uk´aˇze, proˇc byl zvolen pr´avˇe takto. Pro studium simult´ an´ıch rovnic budeme totiˇz potˇrebovat sloˇzitˇejˇs´ı formalizmus a bylo by proto nelogick´e, abychom se pro kaˇzd´ y dalˇs´ı odstavec uˇcili nov´emu oznaˇcen´ı, nekonzistentn´ımu s t´ım z odstavce pˇredchoz´ıho. Proto bylo jiˇz nyn´ı zavedeno 145
oznaˇcen´ı, kter´e, po mal´em doplnˇen´ı, bude vyhovovat i pro dalˇs´ı v´ yklad. Nav´ıc takto snadnˇeji ovˇeˇr´ıme, ˇze syst´em zd´anlivˇe nesouvisej´ıc´ıch rovnic je opravdu speci´aln´ım pˇr´ıpadem syst´emu simult´an´ıch rovnic. ³ ´−1 Opˇet snadno ovˇeˇr´ıme, ˇze “naivn´ı” odhad βˆ(j) = [X (j) ]T X (j) [X (j) ]T Y(j) , je nestrann´ y ³
IE βˆ(j) = [X (j) ]T X (j)
´−1
[X (j) ]T X (j) β(j) = β(j)
a vzhledem k tomu, ˇze ³
βˆ(j) = β(j) + βˆ(j) − β(j) = β(j) + [X (j) ]T X (j) µ
´−1
³
[X (j) ]T Y(j) − X (j) β(j)
´
¶
1 (j) T (j) −1 1 (j) T [X ] X [X ] E(j) , (160) n n vid´ıme, ˇze si tento odhad podrˇz´ı i konsistenci. Jedin´ ym probl´emem je tedy eficience. Pˇrirozenˇe, ˇze n´as napadne pˇrepsat maticov´ y model (157) do jak´esi “supermaticov´e” podoby a pouˇz´ıt Aitkenova odhadu. Dostaneme = β(j) +
Y(1) Y(2) .. .
=
Y(M )
X (1) 0 ... 0 0 X (2) . . . 0 .. .. .. . . . 0 0 . . . X (M )
β(1) β(2) · . . .
E(1) E(2) .. .
+
β(M )
.
E(M )
Jestliˇze se tedy pˇridrˇz´ıme “n´apovˇedy”, kterou poskytuje pr´avˇe uveden´ y z´apis a oznaˇc´ıme-li T T T T M ·n Y = (Y(1) , Y(2) , . . . , Y(M ) ) ∈ R , X blokovou matici, kter´a m´a na diagon´ale bloky X (j) , j = 1, 2, . . . , M (tj. je typu (n · M × PM
PM
j=1 p(j) )
), za vektor regresn´ıch koeficient˚ u vezmeme β 0 =
p
T , β T , . . . , β T )T ∈ R j=1 (j) a koneˇ cnˇe pak pro n´ahodn´e fluktuace budeme ps´at E = (β(1) (2) (M ) T T T T M ·n (E(1) , E(2) , . . . , E(M ) ) ∈ R , dostaneme opˇet model
Y = Xβ 0 + E stejnˇe jako v (4). Na rozd´ıl od (4) vˇsak nyn´ı i = 1, 2, . . . , M · n a kovarianˇcn´ı matice nen´ı diagon´aln´ı, ale
n
IE
T E(1) E(1)
o
n o n o IE E E T (2) (1) Σ = IE E · E T = .. . n o T E(M ) E(1)
IE
2 I σ11
2 σ I 21 = .. .
n
T E(1) E(2)
IE
n
IE n
IE
T E(2) E(2) .. .
o
n
... o
T E(M ) E(2)
2 I σ12
...
2 I σ1M
2 I σ22 .. .
...
2 I σ2M .. .
IE
T E(1) E(M )
o
o T IE E(2) E(M ) .. . n o n
... o
. . . IE
T E(M ) E(M )
.
2 I σ2 I . . . σ2 σM MM I M2 1
Abychom se snadnˇeji zorientovali v t´eto nov´e problematice, vˇenujme se nejprve jednoduch´emu pˇr´ıkladu, kdy M = 2 a X (1) = X (2) . Pro ten m´ame "
Σ=
2 I σ2 I σ11 12 2 I σ2 I σ21 22
146
#
.
Oznaˇcme
"
σ (11) σ (12) σ (21) σ (22)
#
"
inverzn´ı matic´ı k "
Zn´asoben´ım matic se snadno ovˇeˇr´ı, ˇze potom je matice
2 2 σ11 σ12
#
2 2 σ21 σ22
σ (1,1) I σ (1,2) I σ (2,1) I σ (2,2) I
.
#
inverzn´ı k matici Σ.
Potom (d´ıky tomu, ˇze X (1) = X (2) )
X T Σ−1 X =
=
T
X (1)
0
0
X (1)
σ (11) X (1)T
σ (12) X (1)T
σ (21) X (1)T
σ (22) X (1)T
·
·
σ (11) I σ (12) I σ (21) I σ (22) I
X (1)
0
0
X (1)
=
·
X (1)
0
0
X (1)
σ (11) X (1)T X (1) σ (12) X (1)T X (2) σ (21) X (1)T X (1) σ (22) X (1)T X (1)
.
Koneˇcnˇe tedy
βˆ(LS,n) =
σ (11) X (1)T X (1) σ (12) X (1)T X (1) σ (21) X (1)T X (1)
σ (22) X (1)T X (1)
−1
·
σ (11) X (1)T Y (1) + σ (12) X (1)T Y (2) σ (21) X (1)T Y (1)
+
σ (22) X (1)T Y (2)
.
Rozdˇelme βˆ(LS,n) na dva stejnˇe velk´e bloky βˆ(1) a βˆ(2) . Dostaneme norm´aln´ı rovnice σ (11) X (1)T X (1) βˆ(1) + σ (12) X (1)T X (1) βˆ(2) = σ (11) X (1)T Y(1) + σ (12) X (1)T Y(2) a σ (21) X (1)T X (1) βˆ(1) + σ (22) X (1)T X (1) βˆ(2) = σ (12) X (1)T Y(1) + σ (22) X (1)T Y(2) . Po jednoduch´e u ´pravˇe, totiˇz zn´asoben´ı druh´e rovnice ˇc´ıslem [σ (22) ]−1 · σ (12) a seˇcten´ı s prvn´ı, dostaneme ! Ã ! Ã (12) ]2 (12) ]2 [σ [σ X (1)T X (1) βˆ(1) = σ (11) − (22) X (1)T Y(1) , σ (11) − (22) σ σ tj.
³
´−1
³
´−1
βˆ(1) = X (1)T X (1)
X (1)T Y(1) .
Stejnˇe tak pro βˆ(2) nalezneme βˆ(2) = X (2)T X (2)
X (2)T Y(2) .
Zjistili jsme tedy, ˇze pro tento jednoduch´ y pˇr´ıpad jsou “obyˇcejn´e” odhady nejmenˇs´ıch ˇctverc˚ u shodn´e s Aitkenov´ ym odhadem. Jestliˇze vˇsak matice pl´anu pro jednotliv´e modely nejsou totoˇzn´e, nezb´ yv´ a neˇz jednotliv´e parametry kovarianˇcn´ı matice Σ odhadnout. Vzhledem k tomu, ˇze jsme pˇredpokl´adali, ˇze m´ame 2 je kovarianc´ pro kaˇzd´ y model n pozorov´an´ı, je to provediteln´e. Pˇripomeˇ nme, ˇze σjk ı n´ahodn´ ych fluktuac´ı z j-t´e a k-t´e rovnice v (156). Tuto kovarianci m˚ uˇzeme odhadnout napˇr´ıklad statistikou 2 σ ˆjk =
n 1 X (j) (k) ri (βˆ(j) )ri (βˆ(k) ), ∗ n − p i=1
147
n
o
(`)
(`)T
kde jsme oznaˇcili p∗ = max p(j) , p(k) a ri (βˆ(`) ) = Yi(`) − Xi
2 I σ ˆ11
2 I σ ˆ12
2 I σ ˆ1M
...
2 2 I 2 I σ ˆ I σ ˆ22 ... σ ˆ2M ˆ = Σ 21 .. .. .. . . . 2 2 2 σ ˆM 1 I σ ˆM 2 I . . . σ ˆM M I
a koneˇcnˇe
³
ˆ ˆ −1 X βˆ(LS,n) = X T Σ
´−1
· βˆ(`) . Potom poloˇz´ıme
ˆ −1 Y. XT Σ
V monografii Kmenta (1986) se lze pˇresvˇedˇcit, ˇze tento dvoustupˇ nov´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u je asymptoticky ekvivalentn´ı maxim´alnˇe vˇerohodn´emu odhadu pˇri pˇredpokladu normality fluktuac´ı . Maxim´alnˇe vˇerohodn´ y odhad pˇrirozenˇe pˇredstavuje alternativu k nejmenˇs´ım ˇctverc˚ um. Vzhledem k tomu, ˇze vˇerohodnostn´ı funkce m´a tvar L=−
1 1 n·M log(2π) − log|Σ| − (Y − Xβ)T Σ−1 (Y − Xβ), 2 2 2
(kde opˇet |Σ| oznaˇcuje determinant matice Σ), dostaneme µ
h
ˆ (M L,n) βˆ(M L,n) = X T Σ a
ˆ (M L,n) = Σ
2 I σ ˜11 2 I σ ˜21 .. .
i−1
¶−1
X
2 I σ ˜12 2 I σ ˜22 .. .
h
ˆ (M L,n) XT Σ
... ...
2 I σ ˜1M 2 I σ ˜2M .. .
i−1
Y
,
2 I σ 2 I ... σ 2 σ ˜M ˜M ˜M 1 2 MI
kde
´ ³ ´ 1³ (M L,n) T (M L,n) Y(j) − x(j) βˆ(j) Y(k) − x(k) βˆ(k) , j, k = 1, 2, . . . , M. n (Diskuzi k tomuto postupu lze nal´ezt v Judge a kol. (1980) nebo Kmenta (1986).) 2 σ ˜jk =
9.2
Simult´ an´ı rovnice
Pro v´ yklad simult´an´ıch rovnic (simultaneous equations) budeme potˇrebovat ponˇekud rozˇs´ıˇrit dosud zaveden´a oznaˇcen´ı. Pˇripomeˇ nme, ˇze jsme vˇsechny vektory uvaˇzovali jako sloupcov´e a proto jsme pro skal´arn´ı souˇcin i-t´eho ˇr´adku matice pl´anu X a vektoru regresn´ıch koeficient˚ u psali xTi β, nebot’ jsme i-t´ y ˇr´adek matice pl´anu (po “vytrˇzen´ı” z matice) povaˇzovali za sloupcov´ y vektor. Pro obecnou matici A typu m×q budeme tedy jej´ı i-t´ y ˇr´ adek oznaˇcovat tak jak jsme jej dosud oznaˇcovali, totiˇz Ai , pˇr´ıpadnˇe ai , pokud A je nen´ahodn´a, Ai , ai ∈ Rq , a jej´ı j-t´ y sloupec A(j) tj. m vektor z R , coˇz jsme dosud nepotˇrebovali, ale v pˇredchoz´ım odstavci jsme oznaˇcen´ı konsistentn´ı s t´ımto vlastnˇe jiˇz zavedli a pouˇz´ıvali, viz (157). Podobn´e oznaˇcen´ı podrˇz´ıme i pro vektory v pˇr´ıpadˇe, kdy β(j) bude oznaˇcovat vektor regresn´ıch koeficient˚ u v j-t´em regresn´ım modelu v nˇejak´e soustavˇe model˚ u (viz opˇet (157) ). Koneˇcnˇe pak budeme symbolem β{j} oznaˇcovat vektor, kter´ y vznikne z vektoru β(j) po vyjmut´ı j-t´e souˇradnice. Zb´ yv´a zav´est oznaˇcen´ı pro matici, ze kter´e vyjmeme j-t´ y sloupec. Pˇripom´ın´ ame, ˇze jsme v´ yˇse, v kapitole vˇenovan´e vlivu jednoho pozorov´ an´ı, oznaˇcovali matici, kter´a vznikne z matice A 148
po vyjmut´ı `-t´eho ˇr´adku symbolem A{ ` } . Oznaˇc´ıme tedy matici, ze kter´e vyjmeme `-t´ y sloupec {|`|} symbolem A . Zaveden´e oznaˇcen´ı je patrnˇe dosti n´azorn´e a snadno zapamatovateln´e, pˇresto v dalˇs´ım textu obˇcas pˇripomeneme, co kter´ y symbol znamen´a. Pˇridrˇzme se osvˇedˇcen´eho pedagogick´eho pravidla, ˇze nejn´azornˇeji se nov´ a teorie, jej´ı motivace a postupy, osvˇetl´ı pˇr´ıkladem. Necht’ tedy Q, P, X oznaˇcuje postupnˇe rovnov´ aˇzn´e vymˇen ˇovan´e mnoˇzstv´ı zboˇz´ı, jeho rovnov´aˇznou cenu a d˚ uchod (pˇr´ıjem) spotˇrebitel˚ u a sestavme popt´avkovou a nab´ıdkovou rovnici Q = f1 (P, X)
(popt´avka)
Q = f2 (P )
(nab´ıdka).
a Nav´ıc snadno akceptovateln´a pˇredstava, ˇze popt´avka kles´a s rostouc´ı cenou a roste s rostouc´ımi 1 d˚ uchody, a podobnˇe, ˇze nab´ıdka roste s rostouc´ı cenou, napov´ıd´ a, ˇze lze oˇcek´ avat, ˇze ∂f ∂P ≤ ∂f2 1 0, ∂f rirozenˇe zvolit (t´emˇeˇr libovolnou) hladkou funkci, avˇsak ∂X ≥ 0 a ∂P ≤ 0. Za f1 a f2 lze pˇ pro jednoduchost uk´aˇzeme ˇreˇsen´ı pouze pro line´arn´ı funkce. Nen´ı snad vˇsak tˇreba se ani pouˇstˇet do diskuze o tom, ˇze pˇrinejmenˇs´ım zobecnˇen´ı na polynomi´aln´ı funkce f1 a f2 by bylo v podstatˇe pˇr´ımoˇcar´e. Pro line´arn´ı funkce f1 a f2 , dostaneme pro i = 1, 2, . . . , n Qi = β11 + γ11 Pi + β12 Xi + Ei1
(popt´avka)
(161)
a Qi = β21 + γ21 Pi + Ei2
(nab´ıdka).
(162)
Vzhledem k tomu, co bylo v´ yˇse uvedeno o parci´aln´ıch derivac´ıch, mˇelo by po odhadnut´ı koefiˆ cient˚ u vyj´ıt γˆ11 ≤ 0, β12 ≥ 0 a γˆ21 ≥ 0. D˚ uvodem toho, proˇc jsme zvolili oznaˇcen´ı koeficient˚ u v (161) a (162) na prvn´ı pohled trochu zvl´aˇstnˇe, je zachov´ an´ı konsistence s n´ıˇze pouˇz´ıvan´ ym znaˇcen´ım v obecn´em tvaru simult´an´ıch rovnic. Pˇredpokl´adejme, ˇze pro n´ahodn´e fluktuace, kter´e jsou nyn´ı reprezentov´any dvourozmˇern´ ymi vektory {Ei }∞ ı i=1 ) plat´ ·
IE Ei = IE
Ei1 Ei2
¸
·
=
0 0
¸
n
a
IE
Ei ·
EiT
"
o
=
2 2 σ11 σ12 2 2 σ12 σ22
#
.
(163)
Rovnice (161) a (162) byly, pr´avˇe tak jako rovnice v kter´emkoliv sloˇzitˇejˇs´ım syst´emu simult´an´ıch rovnic budou, sestaveny na z´akladˇe naˇs´ı pˇredstavy o jak´ ychsi kauz´ aln´ıch souvislostech, byt’ tyto pˇredstavy, kdyˇz je podrob´ıme trochu fundovanˇejˇs´ı filosofick´e kritice, co se t´ yk´ a kauzality, se mohou uk´azat jako neudrˇziteln´e, zejm´ena proto, ˇze s´am pojem kauzality utrpˇel v posledn´ıch nˇekolika desetilet´ıch v´aˇzn´e trhliny. Pokud si vˇsak nebudeme namlouvat, ostatnˇe obvykle mylnˇe, ˇze modelem (161) a (162) cosi “objektivnˇe” vysvˇetlujeme, ale, podobnˇe jako je tomu pˇri jin´em modelov´an´ı, spokoj´ıme se s t´ım, ˇze se n´am podaˇr´ı naj´ıt funguj´ıc´ı, tj. predikce schopn´ y model, je konec konc˚ u jedno, jak jsme k nˇemu dospˇeli. Zd´a se pˇrirozen´e, ˇze rovnov´ aˇzn´e vymˇen ˇovan´e mnoˇzstv´ı zboˇz´ı Q a jeho rovnov´aˇznou cenu P budeme uvaˇzovat jako vysvˇetlovan´e promˇenn´e a d˚ uchod spotˇrebitel˚ u X za vysvˇetluj´ıc´ı promˇennou. Samozˇrejmˇe, ˇze se budeme snaˇzit dostat soustavu regresn´ıch rovnic, z nichˇz kaˇzd´ a bude jedn´ım regresn´ım modelem, tak jak jsme tento
149
model dosud studovali. Za t´ım u ´ˇcelem budeme muset soustavu (161) a (162) pˇrepoˇc´ıtat tak, aby vysvˇetlovan´e promˇenn´e byly na lev´e stranˇe a vysvˇetluj´ıc´ı na prav´e. Nakonec dostaneme Qi =
γ11 β21 − β11 γ21 −γ21 Ei1 + γ11 Ei2 β12 γ21 − Xi + γ11 − γ21 γ11 − γ21 γ11 − γ21
(164)
β12 −Ei1 + Ei2 −β11 + β21 − Xi + . γ11 − γ21 γ11 − γ21 γ11 − γ21
(165)
a Pi =
Soustava rovnic (161) a (162) (a tak´e (164) a (165)) je oznaˇcov´ ana jako syst´em simult´ an´ıch rovnic (z ihned patrn´eho d˚ uvodu), pˇriˇcemˇz o rovnic´ıch (161) a (162) obvykle mluv´ıme jako o struktur´ aln´ıch na rozd´ıl od (164) a (165), o nichˇz ˇcasto ˇr´ık´ ame, ˇze jsou v redukovan´em tvaru. ˇ Casto vˇsak mluv´ıme pˇr´ımo o redukovan´ych rovnic´ıch. Vztahy (164) a (165) n´am napomohou se snadno pˇresvˇedˇcit o tom, ˇze cena P a n´ahodn´e fluktuace E nejsou nez´avisl´e. Dostaneme totiˇz IE {Pi Ei1 } =
2 + σ2 −σ11 12 γ11 − γ21
pro i = 1, 2, . . . , n
IE {Pi Ei2 } =
2 + σ2 −σ12 22 γ11 − γ21
pro i = 1, 2, . . . , n.
a
To indikuje, ˇze pokud bychom odhadli γ11 , γ21 a β11 , β12 , β21 z (161) a (162), nebudou tyto odhady konsistentn´ı, a obecnˇe ani nestrann´e. Pˇripomeˇ nme, ˇze v odstavci vˇenovan´em instrument´aln´ım promˇenn´ ym jsme uk´azali, proˇc tomu tak je. Na druh´e stranˇe pokud odhadneme regresn´ı koeficienty v syst´emu redukovan´ ych rovnic, dostaneme nestrann´e a konsistentn´ı odhady. Snadno ovˇeˇr´ıme, ˇze koeficienty z redukovan´ ych rovnic a koeficienty ze struktyr´aln´ıch rovnic jsou sv´az´ any vztahy π11 =
γ11 β21 − β11 γ21 , γ11 − γ21
π21 =
π12 = −
−β11 + β21 γ11 − γ21
a
π22 = −
β12 γ21 , γ11 − γ21
β12 . γ11 − γ21
(166) (167)
To znamen´a, ˇze se m˚ uˇzeme pokusit pˇrepoˇc´ıtat nestrann´e a konsistentn´ı odhady koeficient˚ u πij na koeficienty βij a γij . Pˇrirozenˇe, ˇze se to nemus´ı vˇzdy podaˇrit. Bude totiˇz z´aleˇzet na poˇctu tˇech a onˇech koeficient˚ u, pˇr´ıpadnˇe na hodnosti pˇr´ısluˇsn´eho syst´emu rovnic. Spoˇcteme-li ale kovarianci mezi n´ahodn´ ymi fluktuacemi z rovnice (164) a (165), dostaneme ½
IE
−Ei1 + Ei2 −γ21 Ei1 + γ11 Ei2 · γ11 − γ21 γ11 − γ21
¾
=
2 γ − σ 2 (γ − γ ) + γ σ 2 σ1,1 21 21 11 2,2 1,2 11 . (γ11 − γ21 )2
To napov´ıd´a, ˇze pokud pouˇzijeme bˇeˇzn´ y odhad nejmenˇs´ıch ˇctverc˚ u, odhad koeficiet˚ u π nebude eficientn´ı. Chceme-li tedy dos´ahnout eficientn´ıch odhad˚ u, mus´ıme pro odhad koeficient˚ u v (164) a (165) pouˇz´ıt Aitkenova odhadu. Zkus´ıme nyn´ı nahl´ednout situaci pˇri odhadov´ an´ı koeficient˚ u ve struktur´aln´ıch rovnic´ıch obecnˇe. Na pr´avˇe uveden´ y pˇr´ıklad se budeme odkazovat jako na ilustraci. Je zˇrejm´e, ˇze lze simult´an´ı rovnice ps´at obecnˇe ve tvaru (struktur´aln´ı forma) γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig , 150
(168)
kde g = 1, 2, . . . , G a i = 1, 2, . . . , n, pˇriˇcemˇz {Ei }∞ avisl´ ych stejnˇe rozdˇelen´ ych i=1 je posloupnost nez´ G-rozmˇern´ ych vektor˚ u, jejichˇz rozdˇelen´ı je N (0, Σ) se
2 σ11
σ2 Σ = .21 ..
2 σ12
...
2 σ1G
2 σ22 .. .
...
2 σ2G .. .
.
2 2 2 σG1 σG2 . . . σGG
Nyn´ı je moˇzn´e nahl´ednout, ˇze jsme zvolili indexy koeficient˚ u v rovnic´ıch (161) a (162) tak, aby to vyhovovalo nyn´ı prob´ıran´emu obecnˇejˇs´ımu pˇr´ıkladu. Uvˇedomme si pros´ım, ˇze, jak jsme v´ yˇse poznamenali, sestavujeme obvykle jednotliv´e rovnice simult´ an´ıho syst´emu tak, aby odpov´ıdali naˇsim pˇredstav´am o kauz´aln´ıch, at’ uˇz ˇcistˇe deterministick´ ych ˇci ˇc´ asteˇcnˇe n´ahodn´ ych, souvislostech. Jin´ ymi slovy to znamen´a, ˇze syst´em rovnic ve struktur´aln´ım tvaru sestavujeme obvykle (vˇzdy ?) pro jednu z vysvˇetlovan´ ych promˇenn´ ych Y(g) = (Y1g , Y2g , . . . , Yng )T ,
g = 1, 2, . . . , M.
(169)
Proto lze bez u ´jmy na obecnost pˇredpokl´adat, ˇze tato veliˇcina vstupuje do t´eto rovnice s koeficientem 1, tj. napˇr. m´ame γgg = 1. Odtud plyne, ˇze v kaˇzd´e ze struktur´aln´ıch rovnic odhadujeme (nejv´ yˇse) G − 1 + p parametr˚ u. V naˇsem pˇr´ıkladˇe je G = 2 a p = 2 (nesm´ıme zapomenout na absolutn´ı ˇclen), a protoˇze je γ12 = −1, γ22 = −1 a β22 = 0, m´ame v prv´e rovnici G − 1 + p = 2 − 1 + 2 = 3 = poˇcet odhadovan´ ych koeficient˚ u a ve druh´e 3 > 2 = poˇcet odhadovan´ ych koeficient˚ u. Dohromady vˇsak v prv´e a druh´e rovnici budeme odhadovat 5 parametr˚ u, zat´ımco z redukovan´ ych rovnic budeme m´ıt pouze 4 u ´daje a ˇctyˇri vztahy pro koeficienty, viz (166) a (167). Odtud je zˇrejm´e, ˇze koeficienty βij a γij ze struktur´aln´ıch rovnic (161) a (162) nebudou jednoznaˇcnˇe urˇceny. Pozdˇeji provedeme tuto u ´vahu pro obecnou soustavu rovnic. Nejprve si vˇsak na obecn´e u ´rovni ujasnˇeme vztahy mezi koeficienty ze struktur´aln´ıch a redukovan´ ych rovnic. Pˇrepiˇsme rovnice (168) do maticov´eho tvaru ΓYi + Bxi = Ei ,
(170)
kde
Γ=
γ11 γ21 .. .
γ12 γ22 .. .
... ...
γ1G γ2G .. .
a
B=
γG1 γG2 . . . γGG
β11 β21 .. .
β12 β22 .. .
... ...
β1p β2p .. .
,
βG1 βG2 . . . βGp
a d´ale jsme oznaˇcili Yi = (Yi1 , Yi2 , . . . , YiG )T , xi = (xi1 , xi2 , . . . , xip )T a Ei = (Ei1 , Ei2 , . . . , EiG )T . V dalˇs´ım v´ ykladu mˇejme na pamˇeti, ˇze Γ a B jsou typu (G × G) a (G × p). Poloˇz´ıme-li n
Y = YiT n
on i=1
coˇz je matice typu (n × G), a jako obvykle X = xTi n
a koneˇcnˇe E = EiT
on
i=1
,
on i=1
(171) , (stejnˇe jako v´ yˇse matice typu (n × p))
(opˇet matice typu (n × G)), dostaneme Y · ΓT + X · B T = E. 151
(172)
Ze vztahu (170) je vidˇet, ˇze m˚ uˇzeme ps´at redukovan´ y tvar simult´ an´ıch rovnic tak´e n´asledovnˇe. Yi = Πxi + Vi = −Γ−1 Bxi + Γ−1 Ei ,
i = 1, 2, . . . , n.
(173)
Matice Π je typu (G × p), Vi ∈ RG a plat´ı Π = −Γ−1 B,
a
Vi = −Γ−1 Ei .
(174)
Pro koeficienty πij se obvykle uˇz´ıv´a oznaˇcen´ı neomezen´e, ve smyslu anglick´eho slova unrestricted, , zat´ımco koeficienty γij a βij se oznaˇcuj´ı jako omezen´e (restricted). Pˇrirozenˇe, ˇze i redukovan´ y syst´em rovnic lze napsat ve zcela “ˇcist´e” maticov´e podobˇe, podobnˇe jako tomu bylo u struktur´aln´ıho tvaru simult´an´ıch rovnic, viz (172). Dostaneme rovnice Y = X · ΠT + V,
(175) n
kde matice Y je zad´ana v (171), matice X je bˇeˇzn´ a matice pl´anu a V = ViT
on i=1
.
Podle toho, jak´eho je matice Γ typu, se v ekonometrick´e literatuˇre rozliˇsuj´ı typy soustav rovnic: Γ Γ Γ
-
diagon´aln´ı blok-diagon´aln´ı triangul´arn´ı
−→ −→ −→
Γ Γ
-
blok-triangul´arn´ı u ´pln´a (obecn´a) matice
−→ −→
9.2.1
zd´ anlivˇe nesouvisej´ıc´ı rovnice, neintegrovan´ a struktura, (nonintegrated structure), triangul´ arn´ı (troj´ uheln´ıkov´ a) struktura rekursivn´ı syst´em rovnic, blok-triangul´ arn´ı struktura, integrovan´ a struktura (general interdependent system).
Probl´ em identifikace
Jak uˇz jsme naznaˇcili v´ yˇse, pot´e co spoˇcteme z redukovan´eho tvaru simult´ an´ıch rovnic odhady ’ koeficient˚ u π, r´adi bychom je pˇrevedli na odhady koeficient˚ u γ a β, nebot pro ty m´ame obvykle ekonomickou interpretaci. A jak jsme tak´e v´ yˇse vidˇeli, je ot´azka, zda je to moˇzn´e. Ze vztahu (174) 2 doslova spoˇcteme, ˇze obecnˇe m´ame G +G·p koeficient˚ u γ a β a jen G·p koeficient˚ u π . Vzhledem k tomu, ˇze vˇsak ze struktur´aln´ıho tvaru simult´ an´ıch rovnic m˚ uˇze b´ yt apriori zˇrejm´e, ˇze nˇekter´e γ a β jsou nulov´e, m˚ uˇze doj´ıt k situaci, ˇze transformace z π na γ a β bude jednoznaˇcn´ a. V takov´em pˇr´ıpadˇe, tj. kdyˇz je vazba mezi π na jedn´e stranˇe a γ a β na stranˇe druh´e jednoznaˇcn´ a, mluv´ıme o pˇresn´e identifikaci. Je-li poˇcet koeficient˚ u γ a β menˇs´ı neˇz poˇcet koeficient˚ u π, ˇr´ık´ ame, ˇze doˇslo k pˇreurˇcen´ı, v opaˇcn´em pˇr´ıpadˇe, kdy je m´enˇe koeficient˚ u π neˇz koeficient˚ u γ a β, mluv´ıme ˇ o podurˇcen´ı. Casto se v literatuˇre pouˇz´ıv´ a tato terminologie i v pˇr´ıpadˇe, kdy mluv´ıme o jedn´e ze simult´an´ıch rovnic. O cel´e soustavˇe pak ˇr´ık´ ame, ˇze je identifikovan´ a, pokud nastala pˇresn´ a identifikace nebo doˇslo k pˇreurˇcen´ı. Obecnˇe jsme nalezli vztah mezi mezi koeficienty π na jedn´e stranˇe a γ a β na stranˇe druh´e ve vztahu (174), kter´ y v dalˇs´ım v´ ykladu pouˇzijeme k anal´ yze ’ identifikovanosti koeficient˚ u γ a β. Jeˇstˇe jednou se vrat me k naˇsemu pˇr´ıkladu ze zaˇc´ atku tohoto odstavce, nebot’ ten n´am napov´ı, jak postupovat v obecn´e situaci. V´ yˇse jsme uvedli vztahy, vyjadˇruj´ıc´ı koeficienty π pomoci korficient˚ u β a γ, (viz (153) a (167)). Ty bychom mohli pˇrev´est na vztahy, vyjadˇruj´ıc´ı koeficienty β a γ pomoci korficient˚ u π. 152
Alternat´ıvn´ı moˇznost je pˇrirozenˇe odvodit ze simult´ an´ıch rovnic takov´e vztahy pˇr´ımo. Vr´ at´ıme-li se k redukovan´ ym rovnic´ım (164) a (165) a pˇrep´ıˇseme-li je do tvaru Qi = π11 + π12 Xi + V1i a Pi = π21 + π22 Xi + V2i , a koneˇcnˇe pak dosad´ıme-li z nich do (161) a (162), dostaneme π11 + π12 Xi + V1i = β11 + γ11 (π21 + π22 Xi + V2i ) + β12 Xi + E1i
(popt´avka)
(176)
(nab´ıdka).
(177)
a π11 + π12 Xi + V1i = β21 + γ21 (π21 + π22 Xi + V2i ) + E2i Porovn´an´ım koeficient˚ u u pˇr´ısluˇsn´ ych promˇenn´ ych dostaneme π11 = β11 + γ11 π21
a
π12 = γ11 π22 + β12
(178)
π12 = γ21 π22 .
(179)
a π11 = β21 + γ21 π21
a
T´ımto postupem nakonec z´ısk´ame vztahy β21 = π11 −
π12 π21 π22
a
γ21 =
π12 , π22
(180)
coˇz znamen´a, ˇze koeficienty γ a β nab´ıdkov´e rovnice jsou pˇresnˇe urˇceny koeficienty π. Pro koeficienty popt´avkov´e rovniceβ11 , β12 a γ11 analogicky zjist´ıme, ˇze nejsou jednoznaˇcnˇe urˇceny koeficienty π, tj. popt´avkov´a rovnice je podurˇcena (pozdˇeji si uk´aˇzeme, jak lze tuto situaci ˇreˇsit). Nyn´ı se jiˇz pust’me do anal´ yzy obecn´eho syst´emu simult´ an´ıch rovnic. Z (174) plyne vztah ΓΠ = −B, tj.
γ11 γ21 .. .
γ12 γ22 .. .
... ...
γ1G γ2G .. .
γG1 γG2 . . . γGG
·
π11 π21 .. .
π12 π22 .. .
... ...
π1p π2p .. .
πG1 πG2 . . . πGp
= −
β11 β21 .. .
β12 β22 .. .
... ...
β1p β2p .. .
.
βG1 βG2 . . . βGp
Pro g = 1, 2, . . . , G postupnˇe oznaˇcme γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T . Pak m´ame T T γ(g) Π = −β(g) . Abychom zjednoduˇsili anal´ yzu identifikovanosti koeficient˚ u γ a β zaved’me jeˇstˇe toto oznaˇcen´ı: 8 ∆ ’ ych v g-t´e rovnici, tj. poˇcet nenulov´ ych koefiGg necht oznaˇcuje poˇcet endogen´ıch promˇenn´ ∗ ∆ ∆∆ ’ ’ cient˚ u γ v g-t´e rovnici a Gg = G − Gg . Podobnˇe necht pg necht je rovno poˇctu exogen´ıch 8
Endogen´ı a exogen´ı veliˇciny byly zavedeny v u ´vodu skript a kr´ atce ˇreˇceno: endogen´ı jsou ty, kter´e jsou modelem urˇcov´ any, vysvˇetlov´ any, a exogen´ı jsou pak ty, kter´e do modelu vstupuj´ı z vnˇejˇsku.
153
(tj. pˇreddeterminovan´ ych) promˇenn´ ych v g-t´e rovnici, kter´e maj´ı nenulov´ y koeficient, tj. poˇcet ∗∗ ∗ nenulov´ ych β v g-t´e rovnici, a pg = p − pg . Vˇenujme se nyn´ı jedn´e, ˇreknˇeme g-t´e simult´ an´ı rovnici. Bez ztr´aty obecnosti pˇredpokl´adejme, ˇze jsme pˇrerovnali souˇradnice vektor˚ u γ(g) a β(g) T T T a ˇr´adky matice Π, ˇze γ(g) = (γg∆ , 0g∆∆ ), kde doln´ı indexy u γg∆ a 0g∆∆ napov´ıdaj´ı, ˇze tyto ∆∆ souˇ T = (β T , 0T ) je rozdˇ vektory maj´ı G∆ radnic. Podobnˇe β(g) elen na u ´seky o p∗g a p∗∗ g a Gg g∗ g∗∗ g souˇradnic´ıch. Nakonec rozdˇelme matici Π na bloky ·
Π= Potom plat´ı
· T (γg∆ , 0Tg∆∆ )
·
Π∆∗ Π∆∗∗ Π∆∆∗ Π∆∆∗∗
Π∆∗ Π∆∗∗ Π∆∆∗ Π∆∆∗∗
¸
.
¸ T = −(βg∗ , 0Tg∗∗ ).
Pˇrep´ıˇseme-li posledn´ı vztah “po ˇr´adc´ıch”, dostaneme T T γg∆ Π∆∗ = −βg∗
(181)
T γg∆ Π∆∗∗ = 0Tg∗∗ .
(182)
a Tyto vztahy napov´ıdaj´ı, ˇze pokud bude vztah (182) urˇcovat pr´avˇe vˇsechny koeficienty γ, pak je budeme moci dosadit do rovnic (181), kter´ ych je pr´avˇe tolik, kolik je koeficient˚ u β, a budeme hotovi. Jiˇz v´ yˇse jsme uk´azali, ˇze je pˇrijateln´e pˇredpokl´adat, ˇze jedno γ je v kaˇzd´e rovnici rovno ∆ 1, tj. m´ame G∆ u γ v g-t´e rovnici. Pak je tedy nutn´e, aby p∗∗ g − 1 koeficient˚ g ≥ Gg − 1. Tomuto se obvykle ˇr´ık´a podm´ınka na poˇcet parametr˚ u. To znamen´a, ˇze k tomu, aby (181) jednoznaˇcnˇe ∗∗ urˇcovalo γg∆ , je tˇreba, aby matice Π∆∗∗ , kter´a je typu (G∆ ela hodnost G∆ g − 1 × pg ), mˇ g − 1, ∗∗ ∆ coˇz lze splnit, pokud je pg ≥ Gg − 1. Tomuto se ˇr´ık´ a podm´ınka na hodnost. Dokonˇc´ıme-li pr´avˇe proveden´e u ´vahy pro vˇsechny eventuality, dostaneme tabulku Tabulka 17 Vz´ ajemn´e vztahy poˇct˚ u koeficient˚ u γ, hodnosti matice Π∆∗∗ a identifikovanosti koeficient˚ u γ a β. ∆ p∗∗ g > Gg − 1
rank(Π∆∗∗ ) = G∆ g −1
pˇreurˇcen´ı
∆ p∗∗ g = Gg − 1
rank(Π∆∗∗ ) = G∆ g −1
pˇresn´ a identifikace
∆ p∗∗ g ≥ Gg − 1
rank(Π∆∗∗ ) < G∆ g −1
podurˇcen´ı
∆ p∗∗ g < Gg − 1
rank(Π∆∗∗ ) libovoln´ y
podurˇcen´ı
Zkusme vztahy zachycen´e v t´eto tabulce aplikovat na n´aˇs pˇr´ıklad. V nˇem vystupuj´ı dvˇe endogen´ı veliˇciny, rovnov´aˇzn´e vymˇen ˇovan´e mnoˇzstv´ı zboˇz´ı Q a jeho rovnov´ aˇzn´ a cenu P , a rovnˇeˇz dvˇe exogen´ı, absolutn´ı ˇclen a d˚ uchod spotˇrebitel˚ u X. Pro rovnici (161), ve kter´e maj´ı obˇe endogen´ı pr´avˇe tak jako obˇe exogen´ı veliˇciny (obecnˇe) nenulov´e koeficienty, tedy m´ame G∆ 1 −1 = 1 a ∗ ∗∗ ∆ ∗∗ p = 2, neboli p = 0. To znamen´a, ˇze G1 − 1 > p a z Tabulky 2 pak plyne, ˇze prvn´ı rovnice (tj. popt´avka) je podurˇcen´a. Nen´ı pˇrirozenˇe ani tˇreba zjiˇst’ovat hodnost matice Π∆∗∗ . Pro rovnici
154
∗ ∗∗ (162) m´ame opˇet G∆ ı 2 − 1 = 1, ale p2 = 1, nebot’ Y v rovnici nevystupuje, neboli p2 = 1. Nyn´ ovˇsem potˇrebujeme nal´ezt hodnost matice Π∆∗∗ . Matice Π vypad´a takto
·
Π=
π11 π12 π21 π22
¸
=
£
Π∆∗ Π∆∗∗
¤
,
∗ pˇriˇcemˇz pˇripomeˇ nme, ˇze G∆ rejm´e, ˇze matice Π∆∗ m´a hodnost 1 a tedy 2 − 1 = 1 a p2 = 1. Je zˇ ∆ rank(Π∆∗ ) = p∗∗ 2 = G2 − 1,
coˇz znamen´a, ˇze rovnice (162) je pˇresnˇe identifikov´ ana. Specifikace obecn´ ych v´ ysledk˚ u tedy vedla ke stejn´ ym z´avˇer˚ um jako v´ yˇse proveden´a anal´ yza pro n´aˇs konkr´etn´ı pˇr´ıklad. 9.2.2
Identifikace pomoc´ı omezen´ı na kovarianˇ cn´ı matici n´ ahodn´ ych fluktuac´ı
V´ yˇse uveden´a anal´ yza ukazuje, ˇze mohou nastat v podstatˇe dva pˇr´ıpady. Bud’ jsou koeficienty β a γ jednoznaˇcnˇe urˇceny koeficienty π (coˇz zahrnuje i pˇr´ıpad pˇreurˇcen´ı) nebo ne. V pˇr´ıpadˇe, ˇze dojde k podurˇcen´ı koeficient˚ u β a γ, napadne n´as, zda by nebylo moˇzn´e zvolit dodateˇcnˇe napˇr. nˇejak´a dalˇs´ı omezen´ı na koeficienty, pˇr´ıpadnˇe zadat nˇejak´e dalˇs´ı vztahy mezi pˇr´ısluˇsn´ ymi veliˇcinami tak, abychom dos´ahli identifikace. Uk´azku toho, jak to udˇelat si pˇredvedeme na naˇsem pˇr´ıkladˇe, ve kter´em stanov´ıme dodateˇcnou podm´ınku nekorelovanosti n´ahodn´ ych fluktuac´ı v rovnic´ıch (161) a (162), tj. IE Ei1 Ei2 = 0. V´ yˇse jsme nalezli vz´ajemn´ y vztah koeficient˚ u γ a β ze struktur´aln´ıch rovnic (161) a (162) a koeficient˚ u π z redukovan´ ych rovnic (164) a (165) π11 = β11 + γ11 π21
a
π12 = γ11 π22 + β12
(183)
π12 = γ21 π22 .
(184)
a π11 = β21 + γ21 π21
a
K tˇemto vztah˚ um pˇrid´ame tedy poˇzadavek nekorelovanosti ˇsumu. Ze vztah˚ u (164) a (165) m´ame Vi1 =
−γ21 Ei1 + γ11 Ei2 γ11 − γ21
a
Vi2 =
−Ei1 + Ei2 . γ11 − γ21
(185)
Z (163) nyn´ı plyne, ˇze pro i = 1, 2, . . . , n IE Vi1 = 0
a
IE Vi2 = 0
(186)
Oznaˇcme jeˇstˇe 2 cov(Vij , Vik ) = σ(V )jk .
(187)
2 Hodnoty kovarianc´ı σ(V uˇzeme odhadnout z rezidu´ı po aplikaci napˇr. nejmenˇs´ıch ˇctverc˚ u na )jk m˚ 2 redukovan´e rovnice (164) a (165). Oznaˇcme tyto odhady jako σ ˆ(V )jk . Ze vztahu (185) nalezneme
Ei1 = Vi1 − γ11 Vi2
a
Ei2 = Vi1 − γ21 Vi2 ,
coˇz znamen´a, ˇze dodateˇcnˇe stanoven´a podm´ınka m´a tvar IE (Vi1 − γ11 Vi2 ) (Vi1 − γ21 Vi2 ) = 0 155
a tedy 2 2 2 2 σ(V )11 − γ11 σ(V )12 − γ21 σ(V )21 + γ11 γ21 σ(V )22 = 0.
Koneˇcnˇe pak ze vztahu (180) plyne γ21 = a tedy pro γ11 m´ame γ11 =
π12 π22
2 2 π12 σ(V )12 − π22 σ(V )11 2 2 π12 σ(V )22 − π22 σ(V )12
.
Dospˇeli jsme tedy k z´avˇeru, ˇze pro v´ ypoˇcet koeficient˚ u β a γ v popt´avkov´e rovnici (viz (161)) z koeficient˚ u π je tˇreba ˇreˇsit soustavu rovnic β11 = π11 − γ11 π21 ,
β21 = π11 − γ21 π21
(tyto vztahy plynou z lev´ ych rovnost´ı v (183) a (184) ) a γ11 =
2 2 ˆ(V π12 σ ˆ(V )12 − π22 σ )11 2 2 π12 σ ˆ(V ˆ(V )22 − π22 σ )12
.
Vid´ıme, ˇze vˇsechny koeficienty jsou jiˇz nyn´ı pˇresnˇe identifikov´ any. 9.2.3
Dvoustupˇ nov´ y odhad metodou nejmenˇ s´ıch ˇ ctverc˚ u
Dˇr´ıve neˇz se pust´ıme do vlastn´ıho v´ ykladu dvoustupˇ nov´eho odhadu, pˇripomeˇ nme, ˇze jsme v´ yˇse pro g-t´ y sloupec matice Y (viz (171) a (172)) ) zavedli oznaˇcen´ı Y(g) , tj. Y(g) = (Y1g , Y2g , . . . , Yng )T (g = 1, 2, . . . , G) (viz (169)) a podobnˇe pro g-t´ y sloupec matice E (viz opˇet (172) ) E(g) . Poloˇzme T jeˇstˇe γ(g) = (γg1 , γg2 , . . . , γgG ) a β(g) = (βg1 , βg2 , . . . , βgp )T . Toto oznaˇcen´ı vektor˚ u regresn´ıch koeficient˚ u γ a β je ostatnˇe ve shodˇe s oznaˇcen´ım pouˇz´ıvan´ ym v cel´ ych skriptech, pouze pˇribyl in{|g|} dex naznaˇcuj´ıc´ı ˇc´ıslo simult´an´ı rovnice. Koneˇcnˇe pak oznaˇcme Y (pro g = 1, 2, . . . , G) matici, jej´ıˇz i-t´ y ˇr´adek je roven Yi1 , Yi2 , . . . , Yi,g−1 , Yi,g+1 , . . . , YiG (kde jsme, tak jak jsme to v´ yˇse slibovali, pouˇzili “ˇc´arku” mezi indexy, abychom pˇredeˇsli pˇr´ıpadn´emu nedorozumˇen´ı), tj. matice Y {|g|} se dostane z matice Y (viz opˇet (171) ) vypuˇstˇen´ım g-t´eho sloupce. Koneˇcnˇe pak pˇripomeˇ nme, ˇze jsme uvedli, ˇze symbolem γ{g} budeme oznaˇcovat vektor, kter´ y dostaneme z vektoru γ(g) po vypuˇstˇen´ı g-t´e souˇradnice, tj. γ{g} = (γg1 , γg2 , . . . , γg,g−1 , γg,g+1 , . . . , γgG )T . Jeˇstˇe pˇripomeˇ nme, ˇze jsme pˇredpokl´adali, ˇze v kaˇzd´e simult´ an´ı rovnici je jeden koeficient γ roven 1. Snadno se nahl´edne, ˇze tento pˇredpoklad neub´ır´a na obecnosti naˇsim u ´vah´ am, nebot’ pokud by tomu tak nebylo prostˇe bychom jedn´ım koeficientem γ celou rovnici vydˇelili. M˚ uˇzeme tedy pˇredpokl´adat, ˇze γgg = 1. Uvˇedomme si, ˇze to souˇcasnˇe znamen´a, ˇze potˇrebujeme odhadnout jenom γ{g} a β(g) (pro g = 1, 2, . . . , G). Nyn´ı se jiˇz pust’me do v´ ykladu dvojstupˇ nov´eho odhadu koeficient˚ u. Nejprve se vrat’me zp´atky ke vztahu (168), tj. k obecn´emu tvaru simult´ an´ıch rovnic γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig , opˇet pro g = 1, 2, . . . , G a i = 1, 2, . . . , n. Uvaˇzujme prvn´ı rovnici. Jak jsme jiˇz v´ yˇse konstaovali, m˚ uˇzeme pˇredpokl´adat, ˇze γ11 = 1. To znamen´a, ˇze m˚ uˇzeme tuto rovnici ps´at s pomoc´ı oznaˇcen´ı, kter´a jsme pr´avˇe zavedli, ve tvaru Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) . 156
(188)
Analogicky jako pro vektory regresn´ıch koeficient˚ u γ a β, oznaˇcme π(g) = (πg1 , πg2 , . . . , πgp )T , g = 1, 2, . . . , G a V(g) g-t´ y sloupec matice V (viz (175) ). Rovnice (175) ted’ m˚ uˇzeme pˇrev´est na tvar (Y(1) , Y(2) , . . . , Y(G) ) = X · (π(1) , π(2) , . . . , π(G) ) + (V(1) , V(2) , . . . , V(G) )
(189)
pˇr´ıpadnˇe Y(g) = X · π(g) + V(g)
pro g = 1, 2, . . . , G.
(190)
Koneˇcnˇe oznaˇcme symbolem V {|g|} matici, kterou z´ısk´ ame z matice V (viz (175) ) vynech´ an´ım {|g|} g-t´eho sloupce (g = 1, 2, . . . , G), viz zaveden´ı matice Y . Ze vztahu (189) dostaneme po vynech´an´ı vztahu pro Y(1) Y {|1|} − V {|1|} = X · (π(2) , π(3) , . . . , π(G) ).
(191)
Modifikac´ı rovnic (188) dostaneme ³
´
Y(1) = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) − V {|1|} γ{1} ³
´
∗ = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) ,
(192)
∗ . D´ pˇriˇcemˇz pro E(1) − V {|1|} γ{1} jsme pouˇzili oznaˇcen´ı E(1) ıky tomu, ˇze Y {|1|} − V {|1|} z´avis´ı jen od matice pl´anu X a od regresn´ıch koeficient˚ u z redukovan´ ych rovnic π(2) , π(3) , . . . , π(G) (viz ∗ {|1|} (191)), je nekorelovan´e s E(1) . Nav´ıc je IE V = 0 d´ıky prav´e rovnosti v (174). Z (174) tak´e ihned plyne, ˇze Vi a Vj jsou pro i 6= j nekorelovan´e vektory, maj´ıc´ı zajist´e korelovan´e souˇradnice ∗ m´ “uvnitˇr” jednoho vektoru, tj. pro pevn´e i. To ihned implikuje, ˇze vektor E(1) a nekorelovan´e souˇradnice. To znamen´a, ˇze (192) pˇredstavuje regresn´ı model, kter´ y splˇ nuje vˇsechny podm´ınky pro pouˇzit´ı bˇeˇzn´ ych nejmenˇs´ıch ˇctverc˚ u (OLS). Jedin´ ym probl´emem, kter´ y je tˇreba vyˇreˇsit, je to, {|1|} {|1|} ˇze matice Y −V nen´ı dostupn´a “mˇeˇren´ı”. Pˇrirozenˇe totiˇz nezn´ame V {|1|} ). Nicm´enˇe matici Y {|1|} − V {|1|} m˚ uˇzeme odhadnout, a to pomoc´ı X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ), kde π ˆ(2) , π ˆ(3) , . . . , π ˆ(G) jsou odhady regresn´ıch koeficient˚ u z redukovan´ ych rovnic (189) (ˇci (190), chcete-li. Oznaˇcme {|1|} ˆ X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ) jako Y . Z v´ yˇse uveden´e teorie v´ıme, ˇze
lim Yˆ {|1|} lim
n→∞
³
n→∞
a
³
lim
n→∞
´
Y {|1|} − Vˆ {|1|} = lim X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ) = Y {|1|} − V {|1|} s. j. n→∞
´
h
³
´
E(1) − Vˆ {|1|} γ{1} = lim E(1) − Y {|1|} − X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ) γ{1} ³
n→∞
i
´
= E(1) − Y {|1|} − X · (π(2) , π(3) , . . . , π(G) ) γ{1} = E(1) − V {|1|} γ{1} s. j.. To dokazuje, ˇze Yˆ {|1|}
a
E(1) − Vˆ {|1|} γ{1}
∗∗ = E ˆ {|1|} γ{1} , dostaneme z jsou asymptoticky nekorelovan´e a poloˇz´ıme-li E(1) (1) − V ∗∗ Y(1) = −Yˆ {|1|} γ{1} − X · β(1) + E(1) ,
(193)
konsistentn´ı, byt’ obecnˇe nikoliv nestrann´e odhady pro γ{1} a β(1) . Tˇemto odhad˚ um se, celkem z evidentn´ıch d˚ uvod˚ u, ˇr´ık´a dvoustupˇ nov´e. 157
V tomto momentˇe m˚ uˇze padnout ot´azka, proˇc jsme se smaˇzili odvodit toto dvojstupˇ nov´e sch´ema v´ ypoˇctu odhad˚ u regresn´ıch koeficient˚ u, kdyˇz v´ yˇse prezentovan´e u ´vahy naznaˇcuj´ı, ˇze bychom mohli pouˇz´ıt pˇreveden´ı struktur´aln´ıch rovnic na redukovan´e, vypoˇc´ıtat odhady koeficient˚ u π a ty pak pˇrepoˇc´ıtat na koeficienty β a γ. Odpovˇed’ je vlastnˇe skryta v samotn´e ot´azce. Pˇri pr´avˇe popsan´em postupu jde o pˇrepoˇc´ıt´ av´ an´ı koeficient˚ u, kter´e bude vˇzdy “ˇsito na m´ıru’ tomu ˇci onomu syst´emu simult´an´ıch rovnic. V´ yhodou dvojstupˇ nov´eho algoritmu je to, ˇze odhady m˚ uˇzeme vyˇc´ıslit aniˇz bychom pˇrepoˇc´ıt´ avali strukturov´e rovnice na redukovan´e a naopak po vyˇc´ıslen´ı odhad˚ u pro koeficienty π pˇrepoˇc´ıt´ avali tyto zpˇet na odhady koeficient˚ u γ a β. Staˇc´ı totiˇz vyˇreˇsit rovnice (189), dosadit do rovnic (193) a opˇet vypoˇc´ıtat odhady pro koeficienty γ a β. To jsou vˇsechno standarn´ı, pro vˇsechny simult´ an´ı syst´emy stejn´e operace provediteln´e (snad) ve vˇsech statistick´ ych knihovn´ach. 9.2.4
Trojstupˇ nov´ y odhad metodou nejmenˇ s´ıch ˇ ctverc˚ u
Naprosto stejn´a filozofie, kter´a st´ala v pozad´ı dvojstupˇ nov´eho algoritmu, vede k odvozen´ı algoritmu trojstupˇ nov´eho, kter´ y umoˇzn ˇuje vyˇc´ıslen´ı vˇsech odhad˚ u koeficient˚ u β a γ bez toho, abychom je z´ısk´ avali pˇrevodem z koeficient˚ u π. N´ıˇze uveden´e u ´vahy jsou tedy m´ırn´ ym zobecnˇen´ım u ´vah z pˇredchoz´ıho odstavce. Soustavu simult´an´ıch rovnic budeme tedy ps´at ve tvaru (viz (188) ) Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) , Y(2) + Y {|2|} · γ{2} + X · β(2) = E(2) , .. .. .. .. . . . .
(194)
Y(G) + Y {|G|} · γ{G} + X · β(G) = E(g) . K n´ı pˇr´ısluˇsn´a soustava redukovan´ ych rovnic (190) m´a tvar Y(1) = X · π(1 + V(1) , Y(2) = X · π(2) + V(2) , .. .. .. . . . Y(G) = X · π(g) + V(G) . Z poslednˇe uveden´e soustavy vypoˇcteme Vˆ {|g|} pro g = 1, 2, . . . , G a poloˇz´ıme Yˆ {|g|} = Y {|g|} − Vˆ {|g|} opˇet pro g = 1, 2, . . . , G. Koneˇcnˇe pak nam´ısto soustavy (194) budeme uvaˇzovat soustavu
158
∗ Y(1) = −Yˆ {|1|} · γ{1} − X · β(1) + E(1) , {|2|} ∗ Y(2) = −Yˆ · γ{2} − X · β(2) + E ,
(195)
(2)
.. .
.. .
.. .
.. .
∗ Y(G) = −Yˆ {|G|} · γ{G} − X · β(G) + E(g) , ∗ =E ˆ {|g|} · γ{g} pro g = 1, 2, . . . , G. Po t´e, co zjist´ıme, kde podobnˇe jako v´ yˇse oznaˇc´ıme E(g) (g) + V ∗ ∗ ∗ ∗ jsou nekorelovan´e a E`(g) jsou nekorelovan´e pro k 6= ` a g 6= h (dokonce i Ek(g) a E`(h) ˇze sice Ek(g) ∗ ∗ pro k 6= `), ale Ek(g) a Ek(h) korelovan´e jsou pro libovolnou dvojice g a h, dojdeme samozˇrejmˇe k z´avˇeru, ˇze na soustavu (195) je tˇreba nahl´ıˇzet jako na soustavu zd´anlivˇe nesouvisej´ıc´ıch rovnic. Vypoˇcteme tedy nejprve “naivn´ı” odhady, ˇreknˇeme γ˜{g} a β˜(g) a spoˇcteme odhady kovarianc´ı
³
σ ˆgh =
Y(g) + Y {|g|} · γ˜{g} + X · β˜(g)
´T ³
Y(h) + Y {|h|} · γ˜{h} + X · β˜(h)
ϑ
kde
n
∗ ∆ ∗ ϑ = max n − G∆ g + 1 − pg , n − G h + 1 − ph
´
,
o
∗ ∆ ∗ a kde, v souladu s oznaˇcen´ım uˇz´ıvan´ ym v odstavci o probl´emu identifikace, G∆ g , pg , Gh a ph , oznaˇcuje postupnˇe skuteˇcn´ y poˇcet endogen´ıch a exogen´ıch veliˇcin v g-t´e a h-t´e rovnici soustavy (195). Odhad kovarianˇcn´ı matice Σ m´a tedy tvar
2 I σ ˆ11
2 I σ ˆ21 ˆ = Σ .. .
2 I σ ˆ12
...
2 I σ ˆ1G
2 I σ ˆ22 .. .
...
2 I σ ˆ2G .. .
,
2 I σ 2 I ... σ 2 I σ ˆG1 ˆG2 ˆGG
kde vˇsechny jednotkov´e matice I jsou typu (n × n), a spoˇcteme Aitken˚ uv odhad (viz (131) ), coˇz je v naˇsem pˇr´ıpadˇe uˇz tˇret´ı pouˇzit´ı nejmenˇs´ıch ˇctverc˚ u. Odtud pˇrirozenˇe n´azev metody. Pro odhady koeficient˚ u tedy m˚ uˇzeme uˇz´ıt vztahu ³
T ,Y T ,...,Y T kde Y = Y(1) (2) (G)
´T
γˆ βˆ
³ ´−1 ˆ −1 Z ˆ −1 Y, = ZT Σ ZT Σ
,
ˆ {|1|} Y 0 Z= .. .
0
0
...
0
X
0
...
0
Yˆ {|2|} . . . .. .
0 .. .
0 .. .
X ... .. .
0 .. .
0
0
0
. . . Yˆ {|G|}
,
... X
kde vˇsechny submatice Yˆ {|g|} jsou typu (n × G − 1) (pro g = 1, 2, . . . , G) a X je typu (n × p), ³ ´T ³ ´T T , γT , . . . , γT T , βT , . . . , βT a kde γˆ a βˆ jsou tedy odhady vektor˚ u γ{1} a β . {2} {G} (1) (2) (G) 159
´ ANALYZA VARIANCE
10
Anal´ yza variance je jednou z tradiˇcn´ıch statistick´ ych discipl´ın a patrnˇe byla studov´ ana dˇr´ıve neˇz regresn´ı anal´ yza. V t´eto kapitole vˇsak uk´aˇzeme, ˇze ji lze interpretovat jako speci´aln´ı pˇr´ıpad regresn´ı anal´ yzy. Zd˚ uraznˇeme hned na sam´em zaˇc´ atku, ˇze jsme ˇrekli lze interpretovat, nebot’ n´aˇs v´ yklad nem´a v ˇz´adn´em pˇr´ıpadˇe uk´azat, ˇci snad dokonce dok´azat, ˇze anal´ yza variance je speci´aln´ım pˇr´ıpadem regrese. Jej´ı filozofie je zcela sv´ebytn´ a a tak´e jej´ı znaˇcen´ı se ust´alilo zcela odliˇsnˇe od formalizmu regresn´ı anal´ yzy a to naneˇstˇest´ı tak, ˇze je to m´ısty zav´ adˇej´ıc´ı pro ty, kdo maj´ı “zaˇzit´e” znaˇcen´ı v regresi. Nicm´enˇe vzhledem k ust´alenosti a n´azornosti znaˇcen´ı, kter´e je v anal´ yze variance pouˇz´ıv´ano, pˇridrˇz´ıme se tohoto znaˇcen´ı pokud to bude moˇzn´e. K usnadnˇen´ı pak ˇcten´ı textu budeme na tyto odliˇsnosti obˇcas upozorˇ novat. Jak bude moˇzn´e nahl´ednout z n´ıˇze uveden´eho textu, nˇekter´e partie t´eto teorie, zejm´ena jednoduch´e a dvojn´e tˇr´ıdˇen´ı, pˇredstavuj´ı kr´asn´ y pˇr´ıklad aplikace v´ıcen´asobn´eho regresn´ıho modelu, takˇze lze v´ ysledky tˇechto parti´ı z´ıskat okamˇzitˇe specifikac´ı obecnˇejˇs´ıch v´ ysledk˚ u z regrese pro tyto speci´aln´ı modely. Proto byla tato partie zaˇrazena do textu skript, aby napovˇedˇela skuteˇcnou ˇs´ıˇri pouˇzitelnosti (ˇci snad l´epe, pokud nejsme jazykov´ı puristi, aplikability9 ) regresn´ıho schematu.
10.1
Jednoduch´ e tˇ r´ıdˇ en´ı
Jak je tradiˇcn´ı v anal´ yze variance zvykem budeme uvaˇzovat model Yij = µ + αi + Eij
pro
i = 1, 2, . . . , I, j = 1, 2, . . . , Ji ,
(196)
a budeme pˇredpokl´adat, ˇze je splnˇena okrajov´ a podm´ınka I X
Ji αi = 0.
(197)
i=1
Bez t´eto okrajov´e podm´ınky (197), bychom mˇeli v modelu pˇr´ıliˇs mnoho parametr˚ u. Odhadovali bychom totiˇz I souˇradnic vektoru α a hodnotu µ, tj. I + 1 parametr˚ u, zat´ımco matice pl´anu, kter´a je uvedena na dalˇs´ı stranˇe, m´a hodnost I. M´ame tedy dvˇe moˇznosti: • bud’ vypustit jeden parametr, napˇr. µ • nebo uvalit na odhadovan´e parametry nˇejakou vazebn´ı podm´ınku, napˇr. (197). Z historick´ ych d˚ uvod˚ u, ale i z d˚ uvodu jek´esi “symetrie” modelu se dala pˇrednost druh´e variantˇe. Model (196) m˚ uˇzeme alternativnˇe ps´at ve tvaru IE Yij = µ + αi
pro
i = 1, 2, . . . , I, j = 1, 2, . . . , Ji .
Definujme Y˜ = (Y11 , Y12 , . . . , Y1J1 , Y21 , Y22 , . . . , Y2J2 , . . . , YI1 , YI2 , . . . , YIJI )T , 9
Pˇriˇcemˇz ovˇsem druh´e z tˇechto dvou slov je patrnˇe ponˇekud obecnˇejˇs´ı.
160
(198)
X=
1 1 0 ............ 1 1 0 ............ .. .. .. . . . 1 1 0 ............
0 0 .. .
1 0 1 ............ 1 0 1 ............ .. .. .. . . . 1 0 1 ............
0 0 .. .
.. . .. . .. .
.. . .. . .. .
.. . .. . .. .
0
0
.. . .. . .. .
1 0 0 ............ 1 0 0 ............ .. .. .. . . . 1 0 0 ............
1 1 .. .
,
1
vodorovn´e ˇc´ary pˇres celou ˇs´ıˇri matice naznaˇcuj´ı vˇzdy konec bloku. Upˇresnˇeme, ˇze prv´ y blok (maj´ıc´ı jedniˇcky ve druh´em sloupci) m´a J1 ˇr´ adk˚ u, druh´ y J2 ˇr´ adk˚ u atd., tj. cel´a matice m´a PI 0 n = `=1 J` ˇr´adk˚ u a I + 1 sloupc˚ u, a koneˇcnˇe β = (µ, α1 , α2 , . . . , αI )T . Vektor regresn´ıch koeficient˚ u budeme d´ale ps´at ve tvaru β 0 = (β0 , β1 , β2 , . . . , βI )T a podobnˇe souˇradnice vektoru X` budeme ˇc´ıslovat od nuly, tj. (X`0 , X`1 , X`2 , . . . , X`I ) pro ` = 1, 2, . . . , n. Nyn´ı m˚ uˇzeme ps´at regresn´ı model Y˜ = X · β 0 + E. Vektor n´ahodn´ ych fluktuac´ı je pˇrirozenˇe tohoto tvaru E = (E11 , E12 , . . . , E1J1 , E21 , E22 , . . . , E2J2 , . . . , EI1 , EI2 , . . . , EIJI )T . Nen´ı obt´ıˇzn´e ovˇeˇrit, ˇze T X X=
n J1 J2 J1 J1 0 J2 0 J2 .. .. .. . . . JI 0 0
kde
. . . JI ... 0 ... 0 .. .
T ˜ X Y =
a
. . . JI J
I X i 1X Yij Y¯ = n i=1 j=1
a
nY¯ J1 Y¯1 J2 Y¯2 .. . JI Y¯I
,
Ji 1 X Yij . Y¯i = Ji j=1
Podobnˇe snadno nalezneme norm´aln´ı rovnice nβ0
+ J1 β1 + J2 β2 + . . . + JI βI
J1 β0 + J1 β1 + J2 β0 + .. . JI βI +
0 .. . 0
0
+...+
0
+ J2 β2 + . . . + 0 .. .. . . + 0 + . . . + JI βI 161
=
nY¯
= J1 Y¯1 = J2 Y¯2 . .. . = JI Y¯I
(199)
Vezmeme-li v u ´vahu okrajovou podm´ınku (197) J1 β1 + J2 β2 + . . . + JI βI = 0, dostaneme z prvn´ı rovnice v soustavˇe (199) βˆ0 = Y¯
(200)
a to umoˇzn´ı pˇrepsat norm´aln´ı rovnice do tvaru (vynech´ an´ım prvn´ı z nich a uplatnˇen´ım znalosti ˆ o β0 ) J1 β1 + 0 +...+ 0 = J1 (Y¯1 − Y¯ ) 0 .. . 0
+ J2 β2 + . . . + 0 .. .. . . + 0 + . . . + JI βI
= J2 (Y¯2 − Y¯ ) . .. . = JI (Y¯I − Y¯ )
Pak jiˇz nen´ı tˇeˇzk´e ovˇeˇrit, ˇze βˆi = Y¯i − Y¯ pro i = 1, 2, . . . , I.
(201)
Nyn´ı z (200) a (201) plyne, ˇze pro ` = 1, 2, . . . , n a pro vˇsechna k takov´ a, ˇze ` = J1 +J2 +. . .+Jh +k a 0 < k ≤ Jh+1 predikce vysvˇetlovan´e promˇenn´e je Yˆ`k = X`T βˆ(LS,n) = X`1 β0 + X`k βk = Y¯i , Rezidu´aln´ı souˇcet ˇctverc˚ u pro hypot´ezu H : “spr´avn´ ym” modelem je (196), je tedy 2 SH =
Ji I X X ¡
Yij − Y¯i
¢2
.
i=1 j=1
Jeho alternativn´ı z´apis m˚ uˇze b´ yt ³
´
Y˜ T I − X(X T X)−1 X T Y˜ ,
(202)
ostanˇe jsme to jiˇz dˇr´ıve nˇekolikr´at udˇelali, viz napˇr. (50) ˇci (51) (Y˜ je zavedeno ve (198) ). Budeme-li pˇredpokl´adat alternativu A ve tvaru Yij = µ + Eij
pro
i = 1, 2, . . . , I, j = 1, 2, . . . , Ji ,
tj. budeme pˇredpokl´adat α1 = α2 = . . . = αI = 0, u ´vahami podobn´ ymi v´ yˇse uveden´ ym, ˇci pˇr´ımou minimalizac´ı pˇr´ısluˇsn´eho souˇctu ˇctverc˚ u, nalezneme βˆ0 = µ ˆ = Y¯ a pˇr´ısluˇsn´ y rezidu´aln´ı souˇcet ˇctverc˚ u 2 SA =
Ji I X X ¡
Yij − Y¯
¢2
=
I X
¡
Ji Yij − Y¯
¢2
= Y˜ T (I − N ) Y˜ .
(203)
i=1
i=1 j=1
Matice N (podobnˇe jako v´ yˇse) m´a vˇsechny prvky stejn´e, rovn´e n1 . Opˇet pouˇzijeme rozklad souˇctu ˇctverc˚ u ³
´
³
´
Y˜ T Y˜ = Y˜ T I − X(X T X)−1 X T Y˜ + Y˜ T X(X T X)−1 X T − N Y˜ + Y˜ T N Y˜ 162
(204)
neboli
Ji I X X
Yij2
=
i=1 j=1
Ji I X X ¡
Yij − Y¯i
¢2
+
i=1 j=1
I X
¡
Ji Y¯i − Y¯
¢2
+ nY¯ 2 .
i=1
Pouˇzit´ım Fisher-Cochranova lemmatu (viz Lemma 6) pro pr´avˇe nalezen´ y rozklad souˇctu ˇctverc˚ u, ˜ zjist´ıme, ˇze za pˇredpokladu, ˇze Y je rozdˇeleno norm´alnˇe, tj. fluktuace Eij v (196) jsou rozdˇeleny norm´alnˇe, m´a 2 SH
=
Ji I X X ¡
Yij − Y¯i
¢2
i=1 j=1
³
´
= Y˜ T I − X(X T X)−1 X T Y˜ χ2 rozdˇelen´ı s n − I stupni volnosti, nebot’ matice X m´ a hodnost I. Analogickou u ´vahou se uk´aˇze, ˇze za stejn´ ych podm´ınek m´a rozd´ıl souˇctu ˇctverc˚ u 2 2 SA − SH =
I X
¡
Ji Y¯i − Y¯
¢2
³
´
= Y˜ T X(X T X)−1 X T − N Y˜
i=1 2 tak´e rozdˇelen´ı χ2 o I − 1 stupn´ıch volnosti. Nav´ıc z Fisher-Cochranova lemmatu plyne, ˇze SH 2 − S 2 jsou statisticky nez´ a SA avisl´e, tj. H
PI
F =
¡
Y¯i − Y¯ I −1
i=1 Ji
¢2
· PI
i=1
n−I
PJi ¡ j=1
Yij − Y¯i
¢2
je rozdˇeleno jako FI−1,n−I , tj. Fisher-Snedecorovo F o I − 1 a n − I stupn´ıch volnosti. Proto, podobnˇe jako v kapitole o testov´ an´ı submodelu, je moˇzn´e test o platnosti hypot´ezy H proti alternativˇe A zaloˇzit na t´eto statistice. Pro u ´plnost uved’me, ˇze klasick´e pr´ace vˇenovan´e anal´ yze tˇr´ıdˇen´ı (Scheffe (1959), Draper, Smith (1966),(1981), Andˇel, J. (1978), Rao (1978)) uv´adˇej´ı pˇr´ısluˇsn´e souˇcty ˇctverc˚ u (viz (204)) obvykle v n´asleduj´ıc´ı tabulce (tato byla v podstatˇe pˇrevzata z Draper, Smith (1966)).
Tabulka 18 Rozklad souˇctu ˇctverc˚ u pro jednoduch´e tˇr´ıdˇen´ı. Zdroj Mezi tˇr´ıdami Uvnitˇr tˇr´ıd
Suma ˇctverc˚ u 2 = SA 2 = SH
PI
i=1 Ji
PI
i=1
Y¯i − Y¯
PJi ¡ j=1
¢2
Yij − Y¯i
¢2
nY¯ 2
Pr˚ umˇern´a hodnota Celkem
¡
Stupnˇe volnosti
PI
i=1
PJi
2 j=1 Yij
Stˇredn´ı ˇctverce
I −1
s2A =
n−I
s2H =
2 SA I−1 2 SH n−I
1 PI
i=1 Ji
=n
Rovnˇeˇz pomˇernˇe ˇcasto b´ yv´a posledn´ı tabulka uv´adˇena vˇsak ve tvaru (napˇr. Rao (1978))
163
Tabulka 18 a Zdroj Mezi tˇr´ıdami Uvnitˇr tˇr´ıd
Suma ˇctverc˚ u 2 = SA 2 = SH
10.2
i=1 Ji
PI
i=1
PI
Centrovan´ y souˇcet
PI
i=1
¡
Stupnˇe volnosti
Y¯i − Y¯
¢2
PJi ¡
Yij − Y¯i
j=1
PJi
j=1 (Yij
¢2
− Y¯ )2
Stˇredn´ı ˇctverce
I −1
s2A =
n−I
s2H =
2 SA I−1 2 SH n−I
n−1
Dvojn´ e tˇ r´ıdˇ en´ı
Pro jednoduchost budeme uvaˇzovat model se stejn´ ym poˇctem jednotek v kaˇzd´e buˇ nce dvojn´eho tˇr´ıdˇen´ı. Model, kter´ y nepˇredpokl´ad´a stejn´ y poˇcet pozorov´ an´ı v kaˇzd´e buˇ nce je sice touto cestou tak´e zvl´adnuteln´ y, ale po form´aln´ı str´ance se cel´a vˇec stane nepˇrehlednou. Budeme tedy studovat model IE Yijk = µ + αi + βj + γij pro i = 1, 2, . . . , I j = 1, 2, . . . , J, (205) k = 1, 2, . . . , K. To znamen´a, ˇze pˇredpokl´ad´ame, ˇze model m´a I ˇr´ adk˚ u, J sloupc˚ u a K jednotek v kaˇzd´e buˇ nce. Snadno se opˇet nahl´edne, ˇze bez zad´an´ı okrajov´ ych podm´ınek, kter´e zkompenzuj´ı “nadbytek” parametr˚ u v modelu, bychom nemohli parametry modelu jednoznaˇcnˇe odhadnout. Tyto okrajov´e podm´ınky budou m´ıt tvar I X
αi = 0
a
i=1
J X
βj = 0,
j=1
a d´ale pak pro vˇsechna j = 1, 2, . . . , J I X
γij = 0.
i=1
Koneˇcnˇe pro vˇsechna i = 1, 2, . . . , I J X
γij = 0.
j=1
Vysvˇetlovan´a veliˇcina m´a pˇrirozenˇe opˇet tvar Y˜ = (Y11 , Y112 , . . . , Y11K , Y121 , Y122 , . . . , Y12K , . . . , Y1J1 , Y1J2 , . . . , Y1JK , Y211 , . . . , YIJ1 , YIJ2 , . . . , YIJK )T .
(206)
Matice pl´anu je ponˇekud komplikovan´a X a je uvedena na dalˇs´ı str´ance. M´a vˇsechny bloky (ve svisl´em smˇeru) o K ˇr´adc´ıch, coˇz znamen´a, ˇze cel´a matice m´a n = IJK ˇr´ adk˚ u. Ve vodorovn´em smˇeru m´a prv´ y blok jeden sloupec (pro absolutn´ı ˇclen µ), druh blok m´a I sloupc˚ u, tˇret´ı m´a J sloupc˚ u atd., aˇz posledn´ı pak IJ sloupc˚ u. Vodorovn´e pln´e ˇc´ ary pˇres celou ˇs´ıˇri matice a svisl´e ˇc´ary pˇres v´ yˇsku blok˚ u opˇet naznaˇcuj´ı oddˇelen´ı vodorovn´ ych, pˇr´ıpadnˇe svisl´ ych blok˚ u. Jak vz´apˇet´ı uvid´ıme, k z´ısk´an´ı rezidu´aln´ıho souˇctu ˇctverc˚ u pouˇzijeme jin´ y model, kter´ y je s 164
t´ımto modelem ekvivalentn´ı, ale kter´ y umoˇzn´ı nalezen´ı tohoto souˇctu snadnˇeji. Proto vektor regresn´ıch koeficient˚ u nebudeme ani podrobnˇe popisovat. Vˇenujme se na okamˇzik matici pl´anu. Ta je znaˇcnˇe “redundantn´ı, nebot’ prv´ y sloupec ve druh´em bloku (ve vodorovn´em smˇeru, tj. v bloku, kter´ y odpov´ıd´ a parametr˚ um α v (205) ) je stejn´ y jako souˇcet prvn´ıho, (I + 1)-n´ıho, 2I + 1-n´ıho, ...,[(J − 1)I + 1]-n´ıho sloupce v posledn´ım bloku (tj. v bloku, kter´ y odpov´ıd´a parametr˚ um γ). Podobnˇe pro druh´ y sloupec druh´eho bloku zjist´ıme, ˇze je roven souˇctu druh´eho, (I + 2)-h´eho, (2I + 2)-h´eho,...,[(J − 1)I + 2]-h´eho sloupce v posledn´ım bloku, atd. Koneˇcnˇe pak snadno ovˇeˇr´ıme, ˇze prvn´ı sloupec tˇret´ıho bloku, tj. bloku, kter´ y odpov´ıd´a parametr˚ um β, je souˇctem prv´eho, druh´eho,..., I-t´eho sloupce v posledn´ım bloku. Nav´ıc prvn´ı sloupec matice, tj. sloupec odpov´ıdaj´ıc´ı absolutn´ımu ˇclenu), je napˇr. souˇctem vˇsech sloupc˚ u posledn´ıho bloku. Odtud plyne, ˇze hodnost matice X je I · J a ˇze m˚ uˇzeme z modelu vypustit prv´ y, druh´ y a tˇret´ı blok sloupc˚ u, tj. model, kter´ y bude m´ıt stejnou vysvˇetlovanou ˜ ˜ veliˇcinu Y jak´a je zadan´a v (206) a matici X, kter´a bude obsahovat pouze sloupce posledn´ıho bloku matice X, bude ekvivalentnˇe vysvˇetlovat veliˇcinu Y˜ jako model se ˇsirˇs´ı matic´ı pl´anu X. Ani v tomto pˇr´ıpadˇe nen´ı tˇreba vektor regresn´ıch koeficient˚ u pˇresnˇe specifikovat. Tento alternativn´ı model, jehoˇz matice pl´anu je vˇsak pln´e hodnosti, umoˇzn´ı snadnˇeji nal´ezt minimum souˇctu ˇctverc˚ u I X J X K X
(Yijk − γij )2 .
i=1 j=1 k=1
˜TX ˜ m´a pro tento model pˇrekvapivˇe jednoduch´ ˜ T Y˜ , jmenovitˇe Matice X y tvar pr´avˇe tak jako X ˜TX ˜ = X
K
0
0
K ...
.. .
.. .
0
0
...
0
PK
k=1 Y11k
P K k=1 Y12k T ˜ ˜ X Y = .. . PK
0
a
.. .
... K
.
k=1 YIJk
To samozˇrejmˇe vede k jednoduch´ ym norm´aln´ım rovnic´ım
K
0
0
K ...
.. .
.. .
0
0
...
0
γ11
0 γ12 · .. . . ..
... K
γJK
PK
k=1 Y11k
P K k=1 Y12k = .. . PK
,
k=1 YIJk
ze kter´ ych okamˇzitˇe najdeme γij =
1 K
PK
k=1 Yijk
= Y¯ij ,
i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K.
Rezidu´aln´ı souˇcet ˇctverc˚ u pro hypot´ezu, ˇze data se ˇr´ıd´ı modelem (205) je tedy roven 2 SH =
I X J X K X ¡
Yijk − Y¯ij
i=1 j=1 k=1
167
¢2
.
Stejnˇe jako v pˇredchoz´ım odstavci pouˇzijeme Fisher-Cochranovo lemma, kter´e po u ´vah´ ach podobn´ ych tˇem, kter´e jsme provedli v pˇredchoz´ım odstavci potvrd´ı, ˇze tento souˇcet ˇctverc˚ u m´a, samozˇrejmˇe opˇet za pˇredpokladu, ˇze n´ahodn´e fluktuace E jsou norm´alnˇe rozdˇelen´e, χ2 rozdˇelen´ı o I · J · (K − 1) stupn´ıch volnosti. Ostatnˇe tento v´ ysledek m´a kr´asnou mnemotechniku, nebot’ poˇcet stupˇ n˚ u volnosti lze interpretovat tak, ˇze jde o I · J · K ˇctverc˚ u, ale v kaˇzd´e buˇ nce, ¯ kter´ ych je I · J padne jeden stupeˇ n volnosti na pr˚ umˇer Yij . Jako alternativu budeme uvaˇzovat model IE Yijk = µ + αi + βj pro
i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K.
(207)
jehoˇz okrajov´e podm´ınky maj´ı tvar I X
αi = 0
a
i=1
J X
βj = 0.
(208)
j=1
Z toho plyne, ˇze budeme minimalizovat I X J X K X
(Yijk − αi − βj )2 .
i=1 j=1 k=1
Vysvˇetlovan´a promˇenn´a je pˇrirozenˇe stejn´a jako pˇri hypot´eze (viz (206) ) a matice pl´anu je rovna prvn´ım tˇrem blok˚ um matice X (viz pˇredchoz´ı strana). Opˇet snadno nalezneme T ˜ ˜ X X=
n
J · K J · K ... J · K I · K I · K ... I · K
J ·K 0 J · K ... 0 K K ... K .. .. .. .. .. .. .. . . . . . . . J ·K 0 0 ... J · K K K ... K , ......................................................... I ·K K K ... K I ·K 0 ... 0 I ·K K K ... K 0 I · K ... 0 .. .. .. .. .. .. .. . . . . . . .
......................................................... J ·K J ·K 0 ... 0 K K ... K
I ·K
K
K
...
168
K
0
0
... I · K
PI PJ PK i=1 j=1 k=1 Yijk P P J K j=1 k=1 Y1jk P P J K j=1 k=1 Y2jk .. . P P J K ˜ T Y˜ = X j=1 k=1 YIjk P P I K i=1 k=1 Yi1k P P I K i=1 k=1 Yi2k .. . PI PK
β˜ =
a
α1
.
α2 .. . αI β1 β2 .. . βJ
k=1 YiJk
i=1
µ
Norm´aln´ı rovnice sice vypadaj´ı na prvn´ı pohled trochu komplikovan´e nµ + J · K
PI
i=1 αi
J · Kµ + J · Kαi + K I · Kµ + K
PJ
+I ·K
PI
i=1 αi
PJ
j=1 βj
=
j=1 βj
=
+ I · Kβj
=
PI
i=1
PJ
j=1
PJ
PK
PI
PK
j=1 i=1
PK
k=1 Yijk
k=1 Yijk
pro i = 1, 2, . . . , I
k=1 Yijk
pro j = 1, 2, . . . , J,
ale vezmeme-li v u ´vahu okrajovou podm´ınku (208), zredukuj´ı se na nµ
PI
=
i=1
J · Kµ + J · Kαi = I · Kµ + I · Kβj
PJ
PK
PJ
PK
PI
PK
j=1
=
j=1
i=1
k=1 Yijk ,
k=1 Yijk
pro i = 1, 2, . . . , I,
k=1 Yijk
pro j = 1, 2, . . . , J.
Pak jiˇz snadno nalezneme odhady parametr˚ u
α ˆ i = Y¯i· − Y¯
=
PJ PK 1 PI i=1 j=1 k=1 Yijk , n P P J K 1 ¯ j=1 k=1 Yijk − Y J·K
βˆj
=
1 I·K
µ ˆ
=
Y¯
=
= Y¯·j − Y¯
PI
i=1
PK
k=1 Yijk
− Y¯
pro i = 1, 2, . . . , I, pro j = 1, 2, . . . , J.
Rezidu´aln´ı souˇcet ˇctverc˚ u pro alternativu, ˇze spr´avn´ ym modelem je (207), je tedy 2 SA =
I X J X K X ¡
Yijk − Y¯i· − Y¯·j + Y¯
¢2
.
i=1 j=1 k=1
Naprosto stejnˇe jako v pˇredchoz´ım paragrafu pouˇzit´ım Fisher-Cochranova lemmatu uk´aˇzeme, 2 − S 2 m´ a χ2 o I · J · K − I − J + 1 − I · J · (K − 1) = (I − 1)(J − 1) ˇze rozd´ıl souˇct˚ u ˇctverc˚ u SA H 2 . To znamen´ a, ˇze statistika stupn´ıch volnosti a je nez´avisl´ y se souˇctem ˇctverc˚ u SH 2 − S2 SA I · J(K − 1) H · 2 (I − 1)(J − 1) SH
(209)
je pˇr´ıhodn´a k testov´an´ı hypot´ezy H proti alternativˇe A. Snadno si lze pˇredstavit testov´an´ı jin´ ych alternativ, napˇr. m˚ uˇzeme testovat pˇr´ıpadnou pˇredstavu o tom, ˇze data nez´avis´ı na efektu od ˇr´adk˚ u, tj. IE Yijk = µ + βj pro i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K. 169
Upozornˇeme vˇsak na to, ˇze se v nˇekter´ ych monografi´ıch tato alternativa k z´akladn´ımu modelu presentuje jako αi = 0 pro i = 1, 2, . . . , I, ale opomene se ˇr´ıci, ˇze pokud m´a b´ yt ˇr´ adkov´ y efekt nulov´ y znamen´a to tak´e γij = 0 pro i = 1, 2, . . . , I a j = 1, 2, . . . , J. Stejnˇe jako v pˇredchoz´ım paragrafu vytvoˇr´ıme tabulky souˇct˚ u ˇctverc˚ u
Tabulka 19 Rozklad souˇctu ˇctverc˚ u pro dvojn´e tˇr´ıdˇen´ı. Zdroj
Suma ˇctverc˚ u
ˇ adky R´
J ·K
Sloupce
I ·K
Interakce
K
Rezidu´aln´ı
PI
¡
PJ
¡
j=1
PI
PJ
¡
PI
PJ
PK
i=1
j=1
i=1
Y¯i· − Y¯
¢2
Y¯·j − Y¯
¢2
i=1
j=1
Y¯ij − Y¯i· − Y¯·j + Y¯ ¡
Yijk − Y¯ij
k=1
¢2
PI
Celkem
i=1
PJ
¢2
I −1
s2r
J −1
s2c
IJ(K − 1)
2 SH n−I
s2rc = s2
1
PK
2 k=1 Yijk
j=1
Stˇredn´ı ˇctverce
(I − 1)(J − 1)
nY¯ 2
Pr˚ umˇern´a hodnota
Stupnˇe volnosti
IJK = n
Upozornˇeme rovnˇeˇz, ˇze jestliˇze se ve druh´em a tˇret´ım ˇr´ adku pr´avˇe uveden´e tabulky mluv´ı ˇ o “R´adc´ıch” a “Sloupc´ıch”, zd´alo by se pˇrirozen´e mluvit ve ˇctvrt´em o “Buˇ nk´ ach”, tak jak to ostatnˇe dˇel´a anglicky psan´a literatura. V ˇcesk´e literatuˇre se vˇsak z jak´ ychsi historick´ ych d˚ uvod˚ u ust´alil n´azev “Interakce”. Nˇekter´e prameny opˇet uv´adˇej´ı alternativn´ı tabulku Tabulka 19 a Zdroj
Suma ˇctverc˚ u
ˇ adky R´
J ·K
Sloupce
I ·K
Interakce Rezidu´aln´ı Centrovan´ y souˇcet
K
PI
¡
PJ
¡
j=1
PI
PJ
¡
PI
PJ
PK
PI
PJ
PK
i=1 i=1
¢2
Y¯·j − Y¯
¢2
Y¯ij − Y¯i· − Y¯·j + Y¯
j=1
i=1
Y¯i· − Y¯
i=1
j=1
j=1
k=1
¡
Yijk − Y¯ij
k=1 (Yijk
¢2
Stupnˇe volnosti
Stˇredn´ı ˇctverce
I −1
s2r
J −1
s2c
(I − 1)(J − 1)
¢2
− Y¯ )2
IJ(K − 1)
s2rc =
2 SH n−I
s2
n−1
Podobnˇe jako jsme v´ yˇse odvodili test alternativy A : mezi ˇr´ adky a sloupci nejsou interakce, tj. γij = 0 pro vˇsechna i a j, totiˇz (viz (209) ) F =
2 − S2 I · J(K − 1) SA H · (I − 1)(J − 1) SH
170
=
K
PI
i=1
¡
PJ
Y¯ij − Y¯i· − Y¯·j + Y¯ (I − 1)(J − 1)
¢2
j=1
2
I · J · (K − 1)
· PI
i=1
¡
PJi PK
k=1
j=1
Yijk − Y¯ij
src ¢2 = 2 , s
naˇsli bychom testy dalˇs´ıch alternativ k z´akladn´ımu modelu: • IE Yijk nez´avis´ı na i F =
JK
¡
PI
Y¯i· − Y¯ (I − 1)
¢2
i=1
I · J · (K − 1)
· PI
i=1
PJ
j=1
¡
PK
k=1
Yijk − Y¯ij
¢2 =
s2r s2
s I − 1 a I · J · (K − 1) stupni volnosti, • IE Yijk nez´avis´ı na j F =
IK
¡
PJ
Y¯·j − Y¯ (J − 1)
¢2
j=1
s2
I · J · (K − 1)
· PI
i=1
PJ
j=1
c ¢2 = 2 ¯ s k=1 Yijk − Yij
¡
PK
s J − 1 a I · J · (K − 1) stupni volnosti, • IE Yijk nez´avis´ı ani na i ani na j PI
i=1
F =
PJ
j=1
¡
PK
k=1
× PI =
K
PI
i=1
PJ
¡
¢2
P
P
Yijk − Y¯ij − Ii=1 Jj=1 IJ(K − 1) − IJK + 1 I · J · (K − 1)
i=1
PJ
j=1
Y¯ij − Y¯ IJ − 1
k=1
¢2
j=1
¡
PK
· PI
Yijk − Y¯ij
i=1
PK
¡
k=1
Yijk − Y¯
j=1
×
¢2
I · J · (K − 1)
PJ
¢2
PK
¡
k=1
Yijk − Y¯ij
¢2
s IJ − 1 a I · J · (K − 1) stupni volnosti.
11
ˇ ´ NETRADICN ˇ ´I METODY REGRESN´I ANALYZY ´ NEKTER E
Jiˇz na zaˇc´atku skript jsme se zm´ınili, ˇze metoda L1 , tj. metoda minimalizuj´ıc´ı souˇcet absolutn´ıch hodnot rezidu´ı byla pouˇzita o v´ıce neˇz stopades´at let dˇr´ıve neˇz byla publikov´ ana metoda nejmenˇs´ıch ˇctverc˚ u. To dokl´ad´a, ˇze alternativn´ı metody k metodˇe nejmenˇs´ıch ˇctverc˚ u nejsou “vymyˇslenost´ı” posledn´ıch let. Metoda L1 je vˇseobecnˇe povaˇzov´ ana za velmi robustn´ı a je ˇcasto uv´adˇena jako pˇr´ıklad metody, kter´a si je schopna u ´spˇeˇsnˇe poradit s (jakoukoliv) kontaminac´ı dat. Odhadem polohy dat poˇr´ızen´ ym metodou L1 je medi´an a snadno se pˇresvˇedˇc´ıme, ˇze tento odhad je schopen pˇrekonat i 50% kontaminaci dat, v tom smyslu, ˇze teprve zmˇena v´ıce neˇz 50% dat m˚ uˇze podstatnˇe zmˇenit hodnotu medi´anu. Nˇekteˇr´ı autoˇri pak z tohoto faktu usoud´ı, ˇze se metoda L1 dok´aˇze vyrovnat i s (velmi) vysokou kontaminac´ı dat tak´e v regresn´ım schematu. Bohuˇzel opak je pravdou. Metoda L1 si sice um´ı poradit s odlehl´ ymi hodnotami ve vysvˇetlovan´e promˇenn´e (tzv. outliery), ale neum´ı se vyrovnat s body, kter´e jsou odlehl´e ve faktorov´em prostoru (tzv. leverage pointy). D˚ uvody k tomuto chov´ an´ı lze snadno nahl´ednout, nap´ıˇseme-li si norm´aln´ı rovnice pro tuto metodu. Jejich tvar je ∂
Pn
i=1 |Yi
∂β`
− xTi β|
= −2
n X
xi` sign(Yi − xTi β),
i=1
171
` = 1, 2, ..., p.
Je vidˇet, ˇze pokud dojde k tomu, ˇze nˇekter´ y bod m´a podstatnˇe vˇetˇs´ı nˇekterou souˇradnici neˇz jin´e body, bude jeho vliv na ˇreˇsen´ı norm´aln´ıch rovnic podstatnˇe vˇetˇs´ı neˇz vliv ostatn´ıch bod˚ u. To znamen´a, ˇze i jeden jedin´ y bod (velmi) vzd´alen´ y od ostatn´ıch bod˚ u ve faktorov´em prostoru m˚ uˇze podstatnˇe ovlivnit (pˇr´ıpadnˇe zcela “zniˇcit”) z´avˇery regresn´ı anal´ yzy proveden´e pomoc´ı metody L1 . Pˇrirozenˇe, ˇze m˚ uˇzete nam´ıtnout, ˇze jeden bod hodnˇe vzd´alen´ y ve faktorov´em prostoru bude n´apadn´ y a bude mu vˇenov´ana pˇri anal´ yze dat mimoˇr´ adn´ a pozornost. Probl´em nast´av´ a, jde-li o opakovan´e automatizovan´e zpracov´an´ı dat (viz napˇr. digitalizovan´ y pˇrenos ˇreˇci pomoci auotregresn´ıch model˚ u segment˚ u zvukov´eho sign´alu), ˇci je-li v datech v´ıce vlivn´ ych bod˚ u, takˇze se navz´ajem maskuj´ı a to se jim bude daˇrit zejm´ena pokud p˚ ujde o v´ıcerozmˇern´ a data (ˇreknˇeme p > 7). Proto byl s velk´ ym zaujet´ım studov´ an probl´em nalezen´ı metody (ˇci metod), kter´a by si byla schopna poradit s vysokou kontaminac´ı (nejl´epa s 50%) a to jak´ehokoliv typu, tj. tvoˇrenou ˇ jak outliery tak leverage pointy. Reknˇ eme rovnou, ˇze pr´avˇe zm´ınˇen´ y probl´em dok´azal vzdorovat soustˇredˇen´emu “ataku” arm´ady statistik˚ u t´emˇeˇr deset let. Dnes vˇsak zn´ame a m´ame implementov´anu, coˇz je tak´e velmi podstatn´e, celou ˇradu metod, jejichˇz m´ıru robustnosti lze dokonce volit nastaven´ım nˇekter´eho parametru metody od nuly do 50%. Jedn´ım z nejl´epe prostudovan´ ych a “vyzkouˇsen´ ych” odhad˚ u tohoto typu je patrnˇe odhad metodou nejmenˇs´ıch usekan´ ych ˇctverc˚ u (the least trimmed squares), kter´ y je zad´an takto (viz p ’ Hampel a kol. (1986)). Necht pro libovoln´e β ∈ R a i = 1, 2, ..., n je ri (β) = Yi − xTi β a 2 (β) necht’ jsou tedy poˇ r(i) r´adkov´e statistiky pˇr´ısluˇsn´e ke ˇctverc˚ um rezidu´ı. Potom poloˇzme pro h, n2 ≤ h ≤ n βˆ(LT S,n) = arg min β∈Rp
h X
2 r(i) (β).
i=1
Autor tˇechto skript nab´ız´ı tˇem, kdo by si chtˇeli vyzkouˇset, jak tento odhad funguje, program, kter´ y je snadn´e pouˇz´ıt na v´ ypoˇcet tohoto odhadu. Souˇcasnˇe si dovolme upozornit, ˇze ˇcasto doch´az´ı k z´amˇenˇe tohoto odhadu s odhadem, kter´emu se ˇr´ık´ a odhad metodou usekan´ ych nejmenˇs´ıch ˇctverc˚ u (the trimmed least squares) a kter´ y nemus´ı, a obvykle nem´a zdaleka tak dobr´e (LT S,n) ˆ vlastnosti jako odhad β . Jak ale poˇrad´ı slov v n´azvu obou odhad˚ u naznaˇcuje, tento druh´ y odhad pˇredpokl´ad´a, ˇze nejprve podle nˇejak´eho pˇredem dan´eho pravidla usek´ame nˇekter´ a pozorov´an´ı a pak uplatn´ıme na zbytek dat metodu nejmenˇs´ıch ˇctverc˚ u, zat´ımco prvn´ı odhad vlastnˇe s´am, ale zase pouze implicitnˇe napov´ıd´a, kter´a pozorov´ an´ı maj´ı b´ yt “usek´ana”. Jednou z n´amitek, kter´e st´ale jˇeˇstˇe vzn´aˇsej´ı “skaln´ı” zast´anci metody nejmenˇs´ıch ˇctverc˚ u, je n´amitka t´ ykaj´ıc´ı se mal´e eficience robustn´ıch metod zejm´ena v pˇr´ıpadˇe, kdy plat´ı pˇredpoklady pro aplikaci nejmenˇs´ıch ˇctverc˚ u. Tato n´amitka je lich´ a. Ztr´ata na eficienci robustn´ıch metod je obvykle daleko menˇs´ı neˇz ztr´ata na eficienci nejmenˇs´ıch ˇctverc˚ u i pˇri dosti mal´e kontaminaci dat. Ot´azka, kter´a kaˇzdeho ˇcten´aˇre napadne po pˇreˇcten´ı nˇekolika posledn´ıch ˇr´ adek je: Proˇc jsme tedy na tolika str´ ank´ ach vykl´ adali vˇsechny moˇzn´e vlastnosti a triky spojen´e s metodou nejmenˇs´ıch ˇctverc˚ u? Odpovˇed’ je nasnadˇe. St´ale mnoho uˇzivatel˚ u aplikuje nejmenˇs´ı ˇctverce a chceme-li b´ yt schopni sledovat jejich v´ yklad a rozumˇet jejich z´avˇer˚ um, mus´ıme zn´at dobˇre tuto klasickou metodu, byt’ v´ıme, ˇze m˚ uˇze snadno selhat i pˇri dosti mal´e kontaminaci, ale hned dodejme, tak´e obvykle dosti mal´e pozornosti uˇzivatele k vlivn´ ym bod˚ u. Nav´ıc st´ale mnoho, patrnˇe dokonce drtiv´a vˇetˇsina,
172
statistick´ ych softwarov´ ych knihoven nab´ız´ı ˇzel jen nejmenˇs´ı ˇctverce. Ne posledn´ım a urˇcitˇe ne nejmenˇs´ım d˚ uvodem pak je to, ˇze metoda nejmenˇs´ıch ˇctverc˚ u je geometricky n´azorn´ a a m´a nejl´epe vypracovanou teorii, vˇcetnˇe sofistikovan´ ych trik˚ u, kter´e ji napom´ahaj´ı, dostane-li se do pot´ıˇz´ı (napˇr. hˇrebenov´a regrese). Je zˇrejm´e, ˇze ani v pˇr´ıpadˇe, ˇze si osvoj´ıme ˇradu robustn´ıch metod a budeme m´ıt k tomu pˇr´ıleˇzitost v dalˇs´ım d´ıle skript, “nezavrhneme” metodu nejmenˇs´ıch ˇctverc˚ u jako nemodern´ı a zastaralou, nebot’ takovou opravdu nen´ı. Jen potom budeme aplikovat v´ıce metod, vˇcetnˇe nejmenˇs´ıch ˇctverc˚ u a ze shody (pˇribliˇzn´e) ˇci neshody (signifikantn´ı, viz napˇr. Rubio a kol. (1992)) jejich v´ ysledk˚ u budeme usuzovat na pˇr´ıtomnost, pˇr´ıpadnˇe velikost a p˚ uvod, kontaminace. Posledn´ı vˇeta je ostatnˇe doporuˇcen´ı, ˇci chcete-li teze, modern´ı statistiky (pˇrelomu druh´eho a tˇret´ıho tis´ıcilet´ı): Aplikujte tolik metod regresn´ı anal´ yzy, kolik jich m´ ate k dispozici na sv´ em poˇ c´ıtaˇ ci, vˇ zdy vˇ sak alespoˇ n dvˇ e nebo tˇ ri, a vz´ ajemnˇ e porovnejte jejich v´ ysledky. Pokud se tyto (statisticky v´ yznamnˇ e, a na to dnes jiˇ z existuj´ı testy - viz Rubio a kol. (1992)) liˇ s´ı, je tˇ reba vˇ enovat dat˚ um zvl´ aˇ stn´ı pozornost. Pˇ r´ıˇ cinou je obvykle kontaminace dat, tj. data nepˇ redstavuj´ı “jednu populaci”, ale jsou nesourod´ a. ˇ Casto V´ am m˚ uˇ ze mnoho napovˇ edˇ et “klasick´ a” diagnostika, o kter´ e jsme si pov´ıdali v´ yˇ se. Pokud se V´ am podaˇ r´ı nal´ ezt “podsoubor” dat, na kter´ em uˇ z budou r˚ uzn´ e metody d´ avat pˇ ribliˇ znˇ e stejn´ eˇ reˇ sen´ı a na kter´ em klasick´ e diagnostick´ e prostˇ redky neobjev´ı nic podezˇ rel´ eho, m´ ate vyhr´ ano. Nicm´ enˇ e vysvˇ etlen´ı, ˇ ci chcete-li potvrzen´ı toho, ˇ ze “zbytek” dat je kontaminace, pˇ r´ıpadnˇ e proˇ c, hledejte vˇ zdy ve spolupr´ aci s odborn´ıkem z t´ e oblast, ze kter´ e poch´ azej´ı data, nejl´ epe s t´ım, kdo data namˇ eˇ ril ˇ ci jinak shrom´ aˇ zdil ˇ ci V´ as o zpracov´ an´ı poˇ z´ adal.
173
12
Literatura
174
Reference [1] Aigner, D. J. (1974): MSE dominance of least squares with errors of observation. Journal of Econometrics 2, 365–372. [2] Akaike, H. (1974): A new look at the statistical model identification. IEEE Transactions on Automatic Control 19, 716 - 723. [3] Akaike, H. (1981): Likelihood of a model and information criteria. Journal of Econometrics 16, 3 - 14. [4] Amemiya, T. (1973): Regression analysis when the variance of the dependent variable is proportional to the square of its expectation. Journal of American Statistical Association 68, 928–934. [5] Amemiya, T. (1977): A note on a heteroscedastic model. Journal of Econometrics 6, 365-370. and “Corrigenda”. Jouranl of Econometrics 8, 275. [6] Amemiya, T. (1981): Qualitative response model: A survey. Journal of Economic Literature 19, 1483 - 1536. [7] Amemiya, T., Powell, J. (1980): A comparison of the logit model and normal discriminant analysis when independent variables are binary. Technical Report No. 320, Institute for Mathematical Studies in the Social Sciences, Encina Hall, Stanford University, Stanford, California. [8] Andˇel, J. (1978): Matematick´ a statistika. Praha, Bratislava: SNTL & ALFA. [9] Andˇel, J. (1993): Statistick´e metody, MATFYZPRESS, Praha, 1993. [10] Anderson, T. W. (1948): On the theory of testing serial correlation. Skandinavisk Aktuarietidskrift 31, 88-116. [11] Bartlett, M. S. (1937): Properties of sufficiency and statistical tests. Proceedings of the Royal Society, Series A 160, 268 - 282. [12] Bates, J. M., Granger, C. W. J. (1969): The combination of forecasts. Operational Research Quarterly, 20, 451-468. [13] Battese, G. E., Bonyhady, B. P. (1981): Estimation of household expenditure functions: An application of a class of heteroscedastic regression models. The Economic Record 57, 80–85. [14] Belsley, D. A., Kuh, E., Welsch, R. E. (1980): Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: J. Wiley & Sons. [15] Bera, A. K., Jarque, C. M. (1981): An efficient large-sample test for normality of observations and regression residuals. Australian National University Working Papers in Econometrics No. 40, Cambera. 173
[16] Berndt, E. (1990): The Practice of Econometrics. Reading, Mass.,Addison-Wesley, 1990. [17] Boscovisch, R. J. (1757): De litteraria expeditione per pontificiam ditionem, et synopsis amplioris operis, ac habentur plura eius ex exemplaria etiam sensorum impressa. Boloniensi Scientiarum et Artium Instituto Atque Academia Commentarii 4, 353-396. [18] Bowden, R. J., Turkington, D. A. (1984): Instrumental Variables. Cambridge: Cambridge University Press. [19] Bradley, E. L. (1973): Equivalence of maximum likelihood and weighted least squares estimates in the exponential family. Journal of American Statistical Association 768, 199 200. [20] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984): Classification and Regression Trees. Belmont, California: Wadsworth International Group. [21] Breusch, T. S., Pagan, A. R. (1979): A simple test for heteroscedasticity and random coefficient variation. Econometrica 47, 1287 -1294. [22] Charnes, A., Frome, E. L., Yu, P. L. (1976): The equivalence of generalized least squares and maximum likelihood estimates in the exponential family. Journal of American Statistical Association 71, 169 - 171. [23] Chatterjee, S., Hadi, A. S. (1988): Sensitivity Analysis in Linear Regression. New York: J. Wiley & Sons. [24] Chatterjee, S., Price, B. (1977): Regression Analysis by Example. New York: J. Wiley & Sons. [25] Chow, G. C. (1960): Tests of equality between sets of coefficients in two linear regressions. Econometrica 28, 591 - 605. [26] Clemen, R. T. (1986): Linear constraints and efficiency of combined forecasts. Journal of Forecasting 6, 31 - 38. [27] Cochrane, D., Orcutt, G. H. (1949): Application of least squares regression to relationships containing autocorrelated error terms. Journal of the American Statistical Association, 44, 32 - 61. [28] Cook, R. D., Weisberg, S. (1983): Diagnostics of heteroscedasticity in regression. Biometrika 70, 1 - 10. [29] D’Agostino, R. B., Belanger, A., D’Agostino, R. B. Jr. (1990): A suggestion for using powerful and informative tests of normality. American Statisticians 44, 316 - 321. [30] Dhrymes, P. J.(1978): Introductory Econometrics. Springer-Verlag, New York. [31] Draper, N. R., Smith, H. (1981): Applied Regression Analysis. New York: J.Wiley & Sons, 2nd edition (1st edition 1966). 174
[32] Durbin, J., Watson, G. S. (1952): Testing for serial correlation in least squares regression. I. Biometrika 37, 409-428. [33] Eicker, F. (1967): Limit theorems for regression with unequal and dependent errors. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, L. Le Cam, J. Neyman, eds., Berkeley: University of California Press. [34] Farrar, D. E., Glauber, R. R. (1967): Multicollinearity in regression analysis: The problem revisited. Review of Economics and Statistics 49, 92-107. [35] Fisher, R. A. (1922): On the mathematical foundations of theoretical statistics. Philos. Trans. Roy. Soc. London Ser. A 222, pp. 309–368. [36] Friedman, M. (1957): A Theory of the Consumption Function. Princeton: Princeton University Press. [37] Friedman, R. (1982): Multicollinearity and ridge regression. Allgemeines Statistisches Archiv 66, 120 - 128. [38] Froehlich, B. R. (1973): Some estimators for a random coefficient regression model. Journal of the American Satistical Association 68, 329–334. [39] Frome, E. L., Kutner, M. H., Beauchamp, J. J. (1973): Regression analysis of Poissondistributed data. Journal of American Statistical Association 68, 935 - 940. [40] Galilei, G. (1632): Dialogo dei masimi sistemi. [41] Galton F. (1886): Regression towards mediocrity in hereditary stature. Journal of the Antropological Institute 15, 246–263. [42] Gauss F. C. (1809): Theoria molus corporum celestium. Hamburg: Perthes et Besser. [43] Glivenko, V. I. (1933): Sulla determinazione empirica delle leggi di probabilita. Giorn. Inst.Ital. Attuari 4, 92. [44] Goldberger, A. S. (1972): Structural equation methods in the social sciences. Econometrica 40, 979 - 1001. [45] Goldfeld, S. M., Quand, R. E. (1965): Some tests for homoscedasticity. Journal of American Statiststical Association 60, 539 - 547. [46] Goldfeld, S. M., Quand, R. E. (1972): Nonlinear Methods in Econometrics. North-Holland, Amsterdam. [47] Granger, C. W. J. (1969): Ivestigating casual relations by econometric models and crossspectral methods. Econometrica 37, 424 - 438. [48] Greene, W.H. (1993): Econometric Analysis, New York. Macmillam Press.
175
[49] Griffiths, W. E., Anderson, J. R. (1982): Using time-series and cross-section data to estimate a production function with positive and negative marginal risks. Journal of American Statistical Association 77, 529–536. [50] Gunst, R. F. (1983): Regression analysis with multicollinear predictor variables: The problem revisted. Review of Economic Statistics 49, 92 - 107. [51] Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., Stahel, W.A. (1986): Robust Statistics – The Approach Based on Influence Functions. New York: J.Wiley & Sons. [52] Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., Ostrowski, E. (1994): Handbook of Small Data Sets. London: Chapman & Hall. [53] Harvey, A. C. (1974): Estimation of parameters in a heteroscedastic regression model. European Meeting of the Econometric Society, Grenoble, France. [54] Hausman, J. (1978): Specification test in econometrics. Econometrica, 46, 1978, 1251 1271. [55] Hensher, D., Johnson, L. (1981): Applied Discrete-Choice Modelling. New York: Halsted. [56] Hettmansperger, T. P., Sheather, S. J. (1992): A Cautionary Note on the Method of Least Median Squares. The American Statistician 46, 79–83. [57] Hewitt, E., Stromberg, K. (1965): Real and Abstract Analysis. Berlin: Springer - Verlag. [58] Hildreth, C., Houck, J. P. (1968): Some estimators for a linear model with random coefficients. Journal of the American Statistical Association 63, 584 –595. [59] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Biased estimation for nonorthogonal problems. Technometrics 12, 55 - 68. [60] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Application to nonorthogonal problems. Technometrics 12, 69 - 82. [61] Huang, H. C., Bolch, B. W. (1974): On the testing of regression disturbances for normality. Journal of American Statistical Association 69, 330 - 335. [62] Humphreys, R. M. (1978): Studies of luminous stars in nearby galaxies. I. Supergiants and 0 stars in the milky way. Astrophysical Jouranal Supplemant Series 38, 309–350. [63] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1982): Introduction to the Theory and Practice of Econometrics. New York: J.Wiley & Sons. [64] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1985): The Theory and Practice of Econometrics. New York: J.Wiley & Sons (second edition). [65] Just, R. E., Pope, R. D. (1978): Stochastic specification on production function and Economic implications. Journal of Econometrics 7, 67–86.
176
[66] Kendall, M. G., Stuart, A. (1973): The Advanced Theory of Statistics. Vol. 2. Inference and Relationship. New York: Hafner. [67] Kiefer, N. M., Salmon, M. (1983): Testing normality in econometric models. Economics Letters 11, 123 - 128. [68] Kmenta, J. (1986): Elements of Econometrics. New York: Macmillan Publishing Company. [69] Kuhn, T. S. (1965): Structure of Scientific Revolution. Chicago: University of Chicago Press, Phoenix Broks 159. [70] Kullback, S. (1959): Information Theory and Statistics. New York: J. Wiley & Sons. [71] Kumar, T. K. (1975): Multicollinearity in regression analysis. Review of Econometrics and Statistics, 57, 365 - 366. [72] Laplace, P. S. (1793): Sur quelques points du systeme du mode. Memoires de l’Academie Royale des Sciences de Paris, 1-87. [73] Leamer, E: (1983): Model choice and specification analysis. In Handbook of Econometrics, Vol. I, 285 - 331. Z. Griliches and M. Intriligator, eds. Amsterdam, North Holand. [74] Legendre, A. M. (1805): Nouvelles m´ethodes pour la d´etermination des orbites des com`etes. Paris: Courcier. [75] Liviatan, N. (1963): Consistent estimator of distributed lags. International Economic Review, 4, 44 - 52. [76] Locke, C., Spurrier, J. S. (1977): The use of U-statistics for testing normality against alternative with both tails heavy or both tails light. Biometrika 64, 638 - 640. [77] Lopuha, H. P. (1989): Estimation of location and covariance with high breakdown point. Ph D Thesis. Technical University of Delft. [78] Mallows, C. L. (1973): Some comments on Cp . Technometrics 15, 661 - 676. [79] Marquart, D. W. (1970): Genaralized inverses, ridge regression, biased linear estimation and nonlinear estimation. Technometrics 12, 591 - 612. [80] Marquart, D. W., Snee, R. D. (1975): Ridge regression in practice. American Statistician 29, 3 - 20. [81] Mason, R. L., Gunst, R. F., Hess, J. L. (1989): Statistical Design and Analysis of Experiments, New York: J.Wiley & Sons. [82] Mason, R. L., Gunst, R. F., Webster, J. T. (1975): Regression analysis and problems of multicollinearity. Communication in Statistics 4, 277 - 292. [83] McCallum, B. T. (1972): Relative asymptotic bias from errors of observation and measurement. Econometrica 40, 757–758. 177
[84] McFadden, D. (1976): Quantal choice analysis : A survey. Annals of Economic and Social Measurement 5, 363 - 390. [85] Montgomery, D. C., Askin, R. G. (1981): Problems of nonnormality and multicollinerityfor forecasting methods based on the leat squares. AIIE Transactions 13, 102 - 115. [86] Montgomery, D. C., Peck, E. A. (1982): Introduction to Linear Regression Analysis. New York: J.Wiley & Sons. √ [87] Mulholland, H. P. (1977): On the null distribution of b1 for samples of size at most 25 with tables. Biometrika 64, 401 - 409. [88] von Neumann, J. (1941): Distribution of the ratio of the mean-square successive difference to the variance. Annals of Mathematical Statistics 12, 367 - 395. [89] Nicholls, D. F., Pagan, A. R. (1983): Heteroscedasticity in models with lagged dependent variables. Econometrica 51, 1233–1242. [90] Pearson, E. S., D’Agostino, R. B., Bowman, K. O. (1977): Tests for departure from normality: Comparison of powers. Biometrika 64, 231 - 246. [91] Pearson, E. S., Hartley, H. O. (1956, 1972): Biometrika Tables for Statisticians I., II. Cambridge University Press. [92] Pitman, E. J. G. (1937): The ‘closest’ estimates of statistical parameters. Proc. Camb. Phil. Soc. 33, 212-222. [93] Prais, S. J., Houthakker, H. S. (1955): The Analysis of Family Budgets. New York: Cambridge University Press. [94] Prais, S. J., Winsten, C. B. (1954): Trend estimators and serial correlation. Cowless Commission Discussion Paper No 383, Chicago. [95] Press, S., Wilson, S. (1978): Choosing between logistic regression and discriminant analysis. Journal of the American Statistical Association 23, 699 - 705. [96] Prigogine, I., Stengers, I. (1977): La Nouvelle Alliance. SCIENTIA, 1977, issues 5-12. [97] Prigogine, I., Stengers, I. (1984): Out of Chaos. London: William Heinemann Ltd. [98] Raj, B., Srivastava, V., Upadhyaya, S. (1980): The efficiency of estimating a random coefficient model. Journal of Econometrics 12, 285–299. [99] Rao, R. C.. (1978): Line´ arn´ı metody statistick´e indukce a jejich aplikace. Praha: Academia. [100] Rao, R. C., Zhao, LC. (1992): On the consistency of M -estimate in linear model obtained through an estimating equation. Statistics & Probability Letters 14, 79 - 84. [101] Rousseeuw, P.J., Leroy, A.M. (1987): Robust Regression and Outlier Detection. New York: J.Wiley & Sons. 178
´ (1992): Testing for difference between models. Compu[102] Rubio, A., Aguilar, L., Vˇsek, J. A. tational Statistics 8, 57 - 70. [103] Ruppert, D., Carroll, R. J. (1980): Trimmed least squares estimation in linear model. J. Americal Statist. Ass., 75 (372), pp. 828–838. [104] Saniga, E. M., Miles, J. A. (1979): Power of some standard goodness-of-fit tests of normality against asymmetric stable alternatives. Journal of the American Statistical Ass. 74, 861 865. [105] Scheffe, H. (1959): The Analysis of Variance. New York: J.Wiley & Sons. [106] Schwarz, G. (1978): Estimating the dimension of model. The Annals of Statistics, 6, 461 - 464. [107] Shapiro, S. S., Wilk, M. B. (1965): An analysis of variance test for normality(complete samples). Biometrika 52, 591 - 611. ˇ ak, Z. (1967): Rectangular confidence regions for the means of multivariate normal [108] Sid´ distributions. J. Amer. Statist. Assoc. 62, pp. 626–633. ˇ ep´an, J. (1987): Teorie pravdˇepodobnosti. Praha: Academia. [109] Stˇ [110] Szroeter, J. (1978): A class of parametric tests of heteroscedasticity in linear econometric models. Econometrica 46, 1311 - 1328. [111] Theil, H. (1965): The analysis of disturbance in regression analysis. J. Amer. Statist. Assoc. 60, 1067 - 1079. [112] Theil, H. (1971): Principles of Econometrics. New York: J.Wiley & Sons. [113] Vandaele, W. (1978): Participation in illegitimate activities: Erlich revisted. In Deterrence and incapacitation, Blumstein,A., Cohen, J., Nagin, D., eds. Washington. D. C.: National Academy of Sciences, 270 - 335. ´ (1996 a): Sensitivity analysis of M -estimates. Annals of the Institute of Statis[114] V´ıˇsek, J. A tical Mathematics 48(1996), 469-495. ´ (1996 b): On the coefficient o determination: Simple but ... . Bulletin 5/1996 [115] V´ıˇsek, J. A of the Czech Econometric Society, 117 - 124. ´ (1996 c): On high breakdown point estimation. Preprint. Computational Statis[116] V´ıˇsek, J. A tics (1996) 11:137-146, Berlin. ´ (1997 a): Data subsample influence in M -estimation of the non-linear regression [117] V´ıˇsek, J. A model. Preprint. ´ (19967 b): Robust constrained combination of forecasts. Working paper pre[118] V´ıˇsek, J. A sented on The Econometric Society European Meeting, Bogazi University, Istanbul 25 - 29 August, 1996. 179
´ (1997 c): Combining the forecasts by their decomposition. Proceedings of the [119] V´ıˇsek, J. A Mathematical Methods in Economics, Ostrava, September 9 - 11, 1997, pp. 188 - 193. ´ (1997 d): On the diversity of estimates. Submitted to Computational Statistics [120] V´ıˇsek, J. A and Data Analysis. ´ (1997 e): Contamination level and sensitivity of robust tests. Handbook of [121] V´ıˇsek, J. A Statistics, volume 15, 633 - 642, eds. G. S. Maddala & C. R. Rao. [122] White, H. (1980): A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroscedasticity. Econometrica 48, 817 - 838. [123] White, H., MacDonald, G. M. (1980): Some large-sample tests for non-normality in the linear regression model. Journal of the American Statistical Association 75, 16 - 28. [124] Wickens, M. R. (1972): A note on the use of proxy variables. Econometrica 40, 759–761. [125] Willan, A. R., Watts, D. G. (1978): Meaningful multicollinearity measures. Technometrics 20, 407 - 411. [126] Working, E. J. (1927): What do statistical demend curves show. Quarterly Journal of Economics 39, 503 - 545. [127] Zellner, A., Lee, T. H. (1965): Joint Estimation of relationships involving discrete random variables. Econometrica 33, 382 - 394. [128] Zv ara, K. (1989): Regresn´ı anal´yza (Regression Analysis – in Czech). Praha: Academia.
180
13
Autorsk´ y rejstˇ r´ık
181
Index Aguilar, L. 171 Aigner,D. J. 144 Akaike, H. 60, 87 Amemiya, T 79, 80, 139, 140 Anderson, J. R. 80 Anderson, T. W. 91, 95 Andˇel, J. 51, 97, 131, 163 Askin, R. G. 124 Bartlett, M. S. 81 Belanger, A. 87 Belsley, D. A. 123 Bera, A. K. 85 Berndt, E. 19, 49, 51 Beuchamp, J. J. 36 Bohr, N. 7 Bolch, B. W. 86 bonyhady, B. P. 80 Boscovitch, R. J. 10 Bowden, R. J. 97 Bowman, K. O. 85 Bradley, E. L. 36 Breiman, L. 142 Breusch, T. S. 80, 81 Carroll, R. J. 15 Charnes, A. 36 Chatterjee, S. 16, 17, 64, 101 Cramer, H. 30, 31 Chow, G. C. 58 Clemen, R. T. 115 Cochran, W. G. 87 Cook, R. D. 80 D’Agostino, R. B. 85 Daly, F. 19 Dhrymes, P. J. 139 Draper, N. R. 163 Durbin, J. 83, 88, 90 Eicker, F. 76
Farrar, D. E. 123, 124 Fisher, R. A. 44, 85 Friedman, J. 142 Friedman, M. 95 Friedman, R. 123 Froehlich, B. R. 79 Frome, E. L. 36 Galilei, G. 8, 10 Galton, F. 10 Gauss, C. F. 10, 24 Glauber, R. R. 123, 124 Glivenko, V. I. 72 G˝odel, K. 8 Goldberger, A. S. 99 Goldfeld, S. M. 81 Granger, C. W. J. 12 Greene, W. H. 98 Griffiths, W. E. 25, 80, 83, 85, 86, 92, 139, 148 Gunst, R. F. 13, 109 Hadi, A. S. 16, 17, 64, 101 Hand, D. J. 19 Hampel, F. R. 85, 87, 128, 129 Hartley, H. O. 87 Harvey, A. C. 77, 79 Hausman, J. 98 Hensher, D. 139 Hess, J. L. 14 Hettmansperger, T. P. 14 Hewitt, E. 13 Hill, R. C. 25, 80, 83, 85, 86, 92, 139, 148 Hoerl, A. E. 67 Huang, H. C. 95 Humphreys, R. M. 22 Jarque, C. M. 85 Johnson, L. 139 Judge, G. G. 25, 80, 83, 85, 86, 92, 139, 148 Just, R. E. 80 Kant, I. 8 181
Kennard, R. W. 110 Kendall, M. G. 81 Kiefer, N. M. 85 Kmenta, J. 19, 80, 83, 92, 148 Kuh, E. 123 Kuhn, T. S. 24 Kullback, S. 60 Kumar, T. K. 123 Kutner, M. H. 36 Laplace, P. S. 10 Leamer, E. 123 Lee, T. C. 25, 80, 83, 85, 86, 92, 139, 148 Legendre, A. M. 10 Leroy, A. M. 14, 128 Liviatan, N. 97 Locke,C. 85 Lopuha˝a, H. P. 129 Lunn, A. D. 19 L˝ utkepohl, H. 25, 80, 83, 85, 86, 92, 139, 148 MacDonald, G. M. 85 Mallows, C. L. 60 Mason, R. L. 14, 109 McCllum, B. T. 145 McConway, K. 19 McFaden, D. 139 Miles, J. A. 85 Montgomery, D. C. 121 Mulholland, H. P. 87 von Neumann, J. 82, 90, 91 Olshen, R. A. 142 Orcutt, G. H. 87 Ostrowski, E. 19 Pagan, A. R. 79, 80, 81 Pearson, E. S. 85, 87 Peck, E. A. 121, 128 Pitman, E. J. G. 91 Popper, K. 8 Powell, J. 140 Prais, S. J. 73, 87 Press, S. 140
Price, B. 18 Prigogine, I. 8, 9 Quand, R. E. 81 Raj, B. 79 Rao, R. C. 27, 28, 30, 36, 72, 163 Ronchetti, E. M. 85, 87, 128, 129 Rousseeuw, P. J. 15, 85, 87, 128, 129 Rubio, A. M. 171 Ruppert, D. 15 Salmon, M. 85 Saniga, E. M. 85 Scheffe, H. 163 Shapiro, S. S. 86 Sheather, S. J. 14 Smith, H. 163 Snee, R. D. 109 Spurrier, J. S. 85 Srivastava, V. 79 Stahel, W. A. 85, 87, 128, 129 Stone, C. J. 142 Stromberg, K. 13 Stengers, I. 8, 9 Stuart, A. 81 Szroeter, J. 82 ˇ ak, Z. 53 Sid´ ˇ ep´ Stˇ an, J. 27, 28 Theil, H. 73, 77, 86 Turkington, D. A. 97 Upadhyaya, S. 79 Vandaele, W. 19 Varadarajan 28 ´ 106, 119, 121, 128, 171 V´ıˇsek, J. A. Watson, G. S. 83, 88, 90 Watts, D. G. 123 Webster, J. T. 109 Weisberg, S. 80 Welsch, R. E. 123 White, H. 76, 83 182
Wickens, M. R. 145 Wilk, M. B. 86 Willan, A. R. 123 Wilson, S. 140 Winsten, C. B. 87 Working, E. J. 98 Yu, P. L. 36 Zellner, A. 139 Zhao, LC. 28 Zv´ara, K. 25, 61, 92, 114
183
14
Vˇ ecn´ y rejstˇ r´ık
184
Index absolutn´ı ˇclen 21, 69, 70 Aitken˚ uv odhad 74, 130, 159 anal´ yza variance 160 dvojn´e tˇr´ıdˇen´ı 160, 164 jednoduch´e tˇr´ıdˇen´ı 160 norm´aln´ı rovnice 161 okrajov´a podm´ınka 160, 164 testov´an´ı submodelu 163 rozklad souˇctu ˇctverc˚ u pro jednoduch´e tˇr´ıdˇen´ı 163 pro dvojn´e tˇr´ıdˇen´ı 169 nadbytek parametr˚ u v modelu 164 anal´ yza diskriminaˇcn´ı 140 faktorov´a 114 hlavn´ıch komponent 114 CAPM (capital asset pricing model) 50 data homogenn´ı 68 normalizovan´a 66 diagnostick´e n´astroje 69, 106 doln´ı Rao-Cramerovy hranice 30 Durbin-Watsonovo lemma 90 Durbin-Watsonova statistika 90, 92 doln´ı kritick´a hodnota D-W 83 horn´ı kritick´a hodnota D-W 83 efekt podurˇcen´ı 101 pˇreurˇcen´ı 103 faktory 11 faktorov´ y prostor 11 Feller-Lindebergova vˇeta 28 Fisher-Cochranovo lemma 45, 52 Fisher-Snedecorovo F 52 fluktuace, nez´avislost 129 graf diagnostick´ y 69
stabilizace 114 rezidu´ı 71 proti indexu (index plot) 72 proti norm´aln´ım kvantil˚ um (normal plot) 72 proti predikovan´e stˇredn´ı hodnotˇe vysvˇetlovan´e promˇenn´e 72 heteroskedasticita 72, 80 hladina v´ yznamnosti 68 homoskedasticita 72, 80 hˇrebenov´ a regrese (ridge regression) 110 hypot´eza Friedmanova, st´al´eho d˚ uchodu 95 chyby pˇredpovˇedi 118 instrument´ aln´ı promˇenn´e 93 interkvantil 63 interval spolehlivosti 53 kauzalita 11 koeficient determinace 49, 63 upraven´ y (adjusted) 61 velikost 51 kolinearita 25, 65, 69, 107 (multikolinearita) definice 107 determinant matice pl´anu 109 diagnostick´e n´astroje 107 pomˇer vlastn´ıch ˇc´ısel 107 kombinov´ an´ı pˇredpovˇed´ı ˇcasov´ ych ˇrad 114 krit´erium Akaikeho 60 Mallowsovo Cp 60 Kroneckerovo δ 101 kvadratick´ a forma 44 kvalita pˇredpovˇedi 118 matice determinant 112 diagon´aln´ı 40 184
idempotentn´ı 38, 57 Ocamova bˇritva 24 index podm´ınˇenosti 109 odhad interval spolehlivosti 53 Aitken˚ uv 74, 130, 159 korelaˇcn´ı 63 asymptoticky norm´aln´ı 26 kovarianˇcn´ı 63 dvoustupov´ y 148, 156, 158 odhad˚ u regresn´ıch koeficient˚ u 63 trojstupov´ y 158 nulov´ y determinant 109 inkonsistence βˆ(LS,n) 94 p´as spolehlivosti 53 invariance 70 pl´anu (designov´a) 20, 21 konsistentn´ı 26 kolinearita 25, 65, 69, 107 kvadratick´ y 42 pln´a hodnost 25, 106 line´arn´ı 13, 26 pomˇer vlastn´ıch ˇc´ısel 109 maxim´alnˇe vˇerohodn´ y 30, 148 pozitivnˇe definitn´ı 39 metodou nejmenˇs´ıch ˇctverc˚ u 22, 24, 55, 74 pozitivnˇe semidefinitn´ı 39, 108 naivn´ı 143 projekˇcn´ı (hat) 36 nejlepˇs´ı nestrann´ y 30 diagon´aln´ı prvky 62, 64 nestrann´ y 26, 42 rozd´ıl projekˇcn´ıch matic 56, 57 rozptylu 46, 68 singul´arn´ı rozklad 108, 109 stˇredn´ı kvadratick´ a odchylka 68, 110 spektr´aln´ı rozklad 41 studentizovan´e, regresn´ıch koeficient˚ u 46 vlastn´ı ˇc´ıslo 39 studentizovan´ y 66 vlastn´ı vektor 39 vych´ ylen´ı 110 medi´an 63, 64 omezen´ı medi´anov´a absolutn´ı odchylka 64 line´arn´ı 114 metoda nejmenˇs´ıch ˇctverc˚ u 22, 24, 58 n´ahodn´a 120 model P -hodnoty 69 adekv´atnost 68 p´as spolehlivosti 53 interpretace 105 p´akov´ y efekt 25, 106 s geometrickou strukturou regresn´ıch koepln´a hodnost 24 ficient˚ u 94 podm´ınka okrajov´ a 160, 164 s n´ahodn´ ymi chybami mˇeˇren´ı u vysvˇetluj´ıc´ıch podurˇcen´ı modelu 101 promˇenn´ ych 95, 142 pozorov´ an´ı s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı 97 leverage points (p´akov´ y bod) 22, 30 multikolinearita - viz kolinearita odlehl´a (outliers) 22, 30 nejmenˇs´ı ˇctverce 22, 24, 58, 143 vlivn´ y bod 22, 106 nez´avislost pˇredpoklad statistick´a 12 nez´avislosti fluktuac´ı 129 n´ahodn´ ych fluktuac´ı 87 normality rezidu´ı 46, 47, 49 normalita fluktuac´ı 30, 85 pˇreurˇcen´ı modelu 101 ˇsikmost 87 Pythagorova vˇeta 51 ˇspiˇcatost 42, 87 regresn´ı model 11 nosiˇce 11 absolutn´ı ˇclen (intercept) 21 pevn´e 67 185
role absolutn´ıho ˇclenu 69 signifikantnost absolutn´ıho ˇclenu 70 bin´arn´ı 131 fluktuace (n´ahodn´e) 12, 14, 20, 130 interpretace 105 interval spolehlivosti 53 koeficienty 12, 22, 63 koeficient determinace 49, 63 upraven´ y (adjusted) 61 kolinearita 25, 65, 69, 107 definice 107 kvalita 118 line´arn´ı 13, 21 line´arn´ı pravdˇepodobnostn´ı 131 logitov´ y 137 maticov´ y z´apis 22 normalita fluktuac´ı 30, 85 P -hodnoty 69 parametry 12 p´as spolehlivosti 53 penalizace za bohat´ y model 60 Akaikeho krit´erium 60 Mallowsovo krit´erium Cp 60 pevn´e nosiˇce 67 podurˇcen´ı modelu 101 probitov´ y 135 pˇreurˇcen´ı modelu 103 regresory 11 spolehlivost, adekv´atnost 62 submodel 56 ˇsum 12 testov´an´ı submodel˚ u 56, 58, 131 v´ ybˇer 59 zobecnˇen´ y 129, 130 rezidu´aln´ı souˇcet ˇctverc˚ u 42, 47, 49, 57, 69 reziduum 21 BLUS 86 heteroskedasticita 72, 80 homoskedasticita 72, 80 nez´avislost n´ahodn´ ych fluktuac´ı 129 normalita 46, 47, 49 volatilita 80 rovnice
norm´aln´ı 147 simult´ an´ı 11, 95, 148 anal´ yza identifikovanosti koeficient˚ u 153 neomezen´e (unrestricted) 152 odhad dvoustupov´ y 148, 156, 158 odhad trojstupov´ y 158 omezen´e (restricted) 152 podm´ınka na poˇcet parametr˚ u 154 podm´ınka na hodnost matice 154 podm´ınka identifikovatelnosti koeficient˚ u pomoc´ı omezen´ı 155 probl´em identifikace 152, 159 redukovan´ y tvar 148 struktur´aln´ı tvar 148 typy soustav rovnic 152 zd´anlivˇe nesouvisej´ıc´ı 145, 159 rozptyl 62 rezidu´ı 63 Shapiro-Wilkova statistika 86 siln´ y z´akon velk´ ych ˇc´ısel 27 simult´ an´ı rovnice 11, 95, 148 Sluck´eho vˇeta 28 Studentovo t 47 stˇredn´ı hodnoty 62 stupnˇe volnosti 63 ˇsikmost 87 ˇspiˇcatost 42, 87 test Bartlett˚ uv 82 Breusch-Pagan˚ uv 81 Chow˚ uv 58 Durbin-Watson˚ uv 83 Farrar-Glauber˚ uv 62 Goldfeld-Quandt˚ uv 82 heteroskedasticity, v pˇr´ıpadˇe korelovanosti fluktuac´ı 84 Shapiro-Wilk˚ uv 86 Szroeterova tˇr´ıda 82 White˚ uv 82 testov´ an´ı shodnosti regresn´ıch model˚ u 58 186
submodel˚ u 56, 58 tˇeˇziˇstˇe dat 68 veliˇcina endogen´ı 11 exogen´ı 11 koncov´a 11 lagged endogenous 11 posunut´e endogen´ı 11 predeterminovan´a 11 proxy 144 v´ ystupn´ı 11 vysvˇetlovan´a 11 vysvˇetluj´ıc´ı 11 absolutn´ı velikost 67 diskr´etn´ı 130 kvalitativn´ı 130 mˇeˇren´e s chybami 95, 142 n´ahodn´e 14 nepˇr´ıstupn´a 144 vypuˇstˇen´ı 69 vlastn´ı ˇc´ıslo 39 vlastn´ı vektor 39 vlivn´ y bod 22, 106 volatilita 80 vypuˇstˇen´ı promˇenn´ ych 69 v´ ystupy z poˇc´ıtaˇcov´ ych knihoven 61 zmˇena ve sklonu regresn´ı nadroviny 69 v predikci 69 zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u 74 s odhadnut´ ymi parametry 75
187