1 Předmluva 4. 3 LINERNÍ REGRESNÍ MODEL Odhad regresních koeficientů Odhad rozptylu náhodných fluktuací... 35

Obsah 1 Pˇ redmluva

4

´ ´ 2 UVOD DO REGRESN´ I ANALYZY

9

3 LINERN´ I REGRESN´ I MODEL 3.1 Odhad regresn´ıch koeficient˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Odhad rozptylu náhodn´ ych fluktuac´ı . . . . . . . . . . . . . . . . . . . . . . . . .

19 19 35

4 DIAGNOSTIKA ODHADU REGRESN´ IHO MODELU 4.1 Rozdˇelen´ı kvadratick´ ych forem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Rozdˇelen´ı odhadu rozptylu náhodn´ ych fluktuac´ı a studentizovan´ ych odhad˚ u regresn´ıch koeficient˚ u. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Intervaly a pásy spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Testován´ı submodel˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 V´ ybˇer modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43 43

´ ˇ ˇ ´ 5 VYSTUPY Z POCTA COV YCH KNIHOVEN 5.1 Tabulky v´ ysledk˚ u. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Grafy rezidu´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60 60 70

ˇ ROV ˇ ´ ´ ´ ´ ˇ ˚ 6 OVE AN I ZAKLADN ICH PREDPOKLAD U 6.1 Homoskedasticita a heteroskedasticita . . . . . . . . . . . . . . . . . 6.1.1 Pˇr´ıklady situac´ı s heteroskedastick´ ymi fluktuacemi . . . . . . 6.1.2 Modely heteroskedasticity . . . . . . . . . . . . . . . . . . . . 6.1.3 Testy homoskedasticity . . . . . . . . . . . . . . . . . . . . . 6.1.4 Závˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Normalita náhodn´ ych fluktuac´ı . . . . . . . . . . . . . . . . . . . . . 6.3 Nezávislost náhodn´ ych fluktuac´ı . . . . . . . . . . . . . . . . . . . . 6.4 Nezávislost vysvˇetluj´ıc´ıch promˇenn´ ych a náhodn´ ych fluktuac´ı . . . . 6.4.1 vod a pˇr´ıklady situac´ı poruˇsen´ı nezávislosti . . . . . . . . . . 6.4.2 Instrumentáln´ı promˇenné . . . . . . . . . . . . . . . . . . . . 6.4.3 Hausman˚ uv test nezávislosti regresor˚ u a náhodn´ ych fluktuac´ı 6.4.4 Závˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . .

72 72 72 74 79 83 84 86 92 92 95 97 99

. . . . . . .

100 100 102 105 106 107 109 113

´ ˇ MODELU 7 UVAHY O SENSITIVITE 7.1 Efekt podurˇcen´ı . . . . . . . . . . . . . . . 7.2 Efekt pˇreurˇcen´ı . . . . . . . . . . . . . . . 7.3 Vliv jednoho pozorován´ı . . . . . . . . . . 7.4 Kolinearita . . . . . . . . . . . . . . . . . 7.4.1 Zdroje a rozpoznán´ı kolinearity . . 7.4.2 Hˇrebenová regrese . . . . . . . . . 7.4.3 Odhady s lineárn´ımi ohraniˇcuj´ıc´ımi

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . podm´ınkami

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

45 48 52 55 58

7.4.4 7.4.5 7.4.6

Alternativn´ı indikátory kolinearity a jejich záludnosti . . . . . . . . . . . 120 Alternativn´ı ˇreˇsen´ı problému kolinearity . . . . . . . . . . . . . . . . . . . 123 Závˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

ˇ ´ SPECIALN ´ ´ 8 NEKTER E I TYPY REGRESN´ IHO MODELU 128 8.1 Zobecnˇen´ y regresn´ı model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 8.2 Model s diskrétn´ı vysvˇetlovanou promˇennou . . . . . . . . . . . . . . . . . . . . . 129 8.2.1 Problémy s pouˇzit´ım klasického regresn´ıho modelu pro binárn´ı vysvˇetlovanou veliˇcinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 8.2.2 Model s binárn´ı moˇznost´ı v´ ybˇeru . . . . . . . . . . . . . . . . . . . . . . . 131 8.2.3 Odhady parametr˚ u v lineárn´ım pravdˇepodobnostn´ım modelu . . . . . . . 132 8.2.4 Odhady parametr˚ u v probitovém a logitovém modelu . . . . . . . . . . . 134 8.2.5 Diskuze k pouˇzit´ı probitového a logitového modelu . . . . . . . . . . . . . 138 8.3 Model s kategoriáln´ımi vysvˇetluj´ıc´ımi promˇenn´ ymi . . . . . . . . . . . . . . . . . 139 8.4 Vysvˇetluj´ıc´ı promˇenné mˇeˇrené s náhodn´ ymi chybami . . . . . . . . . . . . . . . . 141 8.5 Aproximace nepˇr´ıstupn´ ych vysvˇetluj´ıc´ıch veliˇcin . . . . . . . . . . . . . . . . . . . 143 ˇ ˇ ˇ 9 MODEL S V´ ICEROZMERNOU VYSVETLOVANOU PROMENNOU 9.1 Zdánlivˇe nesouvisej´ıc´ı rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Simultán´ı rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Problém identifikace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Identifikace pomoc´ı omezen´ı na kovarianˇcn´ı matici náhodn´ ych fluktuac´ı 9.2.3 Dvoustupˇ nov´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u . . . . . . . . . . . . 9.2.4 Trojstupˇ nov´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u. . . . . . . . . . . . .

. . . . . .

144 144 147 151 154 155 157

´ 10 ANALYZA VARIANCE 159 10.1 Jednoduché tˇr´ıdˇen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.2 Dvojné tˇr´ıdˇen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 ˇ ´ NETRADICN ˇ ´ ´ 11 NEKTER E I METODY REGRESN´ I ANALYZY

171

12 Literatura

174

13 Autorsk´ y rejstˇ r´ık

181

14 Vˇ ecn´ y rejstˇ r´ık

184

4

1

Pˇ redmluva

Zpracován´ı dat, at’ uˇz jsou numerického ˇci kategori´ aln´ı charakteru, se stalo v modern´ı vˇedˇe jednou ze standarn´ıch metod vyhodnocován´ı informace. Zpracov´ an´ı samo je pak obvykle zaloˇzeno na nˇejaké naˇs´ı pˇredstavˇe o charakteru dat, ˇci chcete-li o mechanizmu, kter´ y generoval daná data. Zm´ınˇená pˇredstava je zpravidla formalizov´ ana do nˇejaké vˇedecké, ˇci se tak alespoˇ n tváˇr´ıc´ı, teorie. Koneˇcnˇe pak v´ ysledky zpracován´ı jsou poklád´ any za objektivn´ı zjiˇstˇen´ı o svˇetˇe, kter´ y nás obklopuje a kter´ y se takto pokouˇs´ıme pochopit a (naivnˇe) ovl´ adnout. Cel´ y tento postup je obklopen, ˇci sp´ıˇse “proniknut” celou ˇradou m´ yt˚ u a zav´ adˇej´ıc´ıch pˇredstav, které maj´ı své historické koˇreny v renesanci a osv´ıcenectv´ı, a své ideové a moˇzn´ a, ˇze by bylo pˇresnˇejˇs´ı ˇr´ıci ideologické, koˇreny v p´ yˇse ˇclovˇeka, coby pána pˇr´ırody. Nˇekdy jdou pˇredstavy tˇech, kteˇr´ı toto zpracován´ı aplikuj´ı aˇz tak daleko, ˇze kaˇzdé jiné zpracov´ an´ı informace pokládaj´ı pˇrinejmenˇs´ım za druhoˇradé, ne-li rovnou za bezcenné. Dodejme rovnou, ˇze obvykle jsou to ti, kteˇr´ı nekriticky obdivuj´ı vˇedecké poznán´ı a neuvˇedomuj´ı si ani reálné moˇznosti modern´ı vˇedy, na stranˇe jedné, ani jej´ı nepˇrekroˇcitelné hranice, na stranˇe druhé. Skripta, která máte pˇred sebou, jsou v´ ykladem jedné z metod zpracov´ an´ı dat, a dodejme, ˇze jedné z nejefektivnˇejˇs´ıch, totiˇz regresn´ı anal´ yzy. Jako takov´ a nab´ıdnou propracovanou teorii, ˇci pˇresnˇeji ˇreˇceno, jej´ı ˇcást, kterou bychom dnes mohli nazvat snad klasickou ˇc´ ast´ı regresn´ı anal´ yzy. Tato je témˇeˇr v´ yhradnˇe zaloˇzena na metodˇe nejmenˇs´ıch ˇctverc˚ u a zhruba po tˇrech desetilet´ıch budován´ı robustn´ı statistiky, je jiˇz souˇcasné dobˇe menˇs´ı ˇc´ ast´ı teorie regrese. D˚ uvody, proˇc se této klasické teorii budeme vˇenovat, jsou následuj´ıc´ı. Mezi uˇzivateli je mimo jakoukoliv pochybnost stále nejv´ıce známa a nejv´ıce uˇz´ıv´ ana, aˇc se snadno prokáˇze, ˇze metoda nejmenˇs´ıch ˇctverc˚ u je jednou z nejnáchylnˇejˇs´ıch k “vyprodukov´ an´ı” zav´ adˇej´ıc´ıch v´ ysledk˚ u. T´ım sp´ıˇse je tˇreba si ji osvojit tak, abychom vˇcas rozpoznali, kdy k nˇeˇcemu takovému m˚ uˇze doj´ıt. Dalˇs´ım d˚ uvodem je pak to, ˇze jsou jej´ı v´ ysledky velmi ˇcasto chybnˇe interpretov´ any a to i v pˇr´ıpadˇe, ˇze jej´ı v´ ysledky jsou korektn´ı. T´ım sp´ıˇse je tˇreba si ji osvojit tak, abychom vˇcas rozpoznali, kdy k nˇeˇcemu takovému doˇslo a umˇeli to uvést na pravou m´ıru. Dalˇs´ım d˚ uvodem je nepochybnˇe také to, ˇze nab´ız´ı snadno akceptovatelnou geometrickou interpretaci (ted’ mluv´ıme o interpretaci metody nikoliv o interpretaci v´ ysledk˚ u, aby bylo jasno). Pochopen´ı této interpretace metody nejmenˇs´ıch ˇctverc˚ u n´ as snad nejlépe vyzbroj´ı k rozpozn´ an´ı výhod i nevýhod jiných metod odhadu regresn´ıch koeficient˚ u. Koneˇcnˇe pak komplexnost této klasické teorie, zejména pak jej´ı rozsáhlé diagnostické partie napov´ıdaj´ı a zkuˇsenosti to potvrzuj´ı, ˇze bez zevrubné a eficientn´ı aposteriorn´ı diagnostiky nen´ı nadˇeje na spolehlivost odhadnutého modelu solidnˇe podepˇrena. To n´ am umoˇzn´ı postavit se kriticky k tˇem metod´ am, obvykle ad hoc vyvinutých na z´ akladˇe zd´ anlivˇe rozumné heuristiky, 1 kter´ e takovýto “doprovodný” apar´ at nenab´ızej´ı ˇci jej alespoˇ n neumoˇzn ˇuj´ı pˇrevz´ıt z klasické regrese. Dˇr´ıve neˇz se vˇsak pust´ıme do vlastn´ıho v´ ykladu, vrat’me se alespoˇ n velmi struˇcnˇe k tomu, 1 V pr˚ ubˇehu dalˇs´ıho v´ ykladu bude nˇekolikr´ at pouˇzito slovo heuristika, které nepatˇr´ı mezi nejbˇeˇznˇeji pouˇz´ıvan´ a slova kaˇzdodenn´ı ˇceˇstiny. Upˇresnˇeme proto, co budeme t´ımto slovem rozumˇet. T´ımto slovem budeme oznaˇcovat jak´ ysi soubor idej´ı a pˇredstav, ˇci “rozumov´ ych” argument˚ u, které cosi vysvˇetluj´ı, obvykle d˚ uvody, proˇc urˇcitou teorii ˇci jej´ı ˇca ´st vytv´ aˇr´ıme pr´ avˇe tak, jak pak d´ ale n´ asleduje. Nejde tedy jen o filozofické pˇredstavy, ale o cosi ˇsirˇs´ıho, zaloˇzeného na “racion´ aln´ım” pˇr´ıstupu ke svˇetu, coˇz vˇsak, pr´ avˇe d´ıky té “zˇrejmé racionalitˇe” se m˚ uˇze uk´ azat v r´ amci formalizované teorie inkonsistentn´ı, liché ˇci zav´ adˇej´ıc´ı. Vzpomeˇ nme jen toho, ˇze vzhledem k tomu, ˇze mezi kaˇzd´ ymi dvˇema racion´ aln´ımi ˇc´ısly je iracion´ aln´ı a kaˇzd´ ymi dvˇema iracion´ aln´ımi je racion´ aln´ı, “zdrav´ y” rozum (nˇekdy téˇz oznaˇcovan´ y jako “selsk´ y”) usoud´ı, ˇze je jich stejné mnoˇzstv´ı.

5

co bylo ˇreˇceno na zaˇcátku, totiˇz k nˇekter´ ym m´ yt˚ um, ˇci chcete-li k filozofii, která stoj´ı v pozad´ı zpracován´ı dat, zejména v pozad´ı interpretace v´ ysledk˚ u. Renesance pˇrinesla lidstvu osvobozen´ı od mnoha dogmat, která jej do té doby svazovala, ale z dneˇsn´ıho pohledu jsme jiˇz schopni zˇretelnˇe nahlédnout, ˇze nastolila mnohá jiná dogmata, která ˇzel Bohu stále jeˇstˇe pˇreˇz´ıvaj´ı. Jedn´ım z nich je nekritick´ y obdiv k vˇedˇe, kter´ y je vˇsak pro ni obvykle medvˇed´ı sluˇzbou. Mˇejme vˇzdy na pamˇeti, byt’ budeme stát v tváˇri v tváˇr nej´ uˇzasnˇejˇs´ım metodám, které modern´ı vˇeda nab´ız´ı, ˇze je tato jen a jen v´ ytvorem lidského ducha a zasluhuje si náˇs obdiv, nikoliv vˇsak nekritick´ y. Nav´ıc omezenost jej´ıch moˇznosti je v´ıc neˇz patrná. Staˇc´ı si uvˇedomit, ˇze na ˇradu velmi závaˇzn´ ych, ne-li nejpodstatnˇejˇs´ıch problém˚ u lidského ˇzivota, vˇeda nemá a ani nem˚ uˇze m´ıt uspokojivou odpovˇed’. Jsou to napˇr. otázky po smyslu lidského ˇzivota, po tom, odkud se bere láska, touha ˇci nadˇeje. Odpovˇedi na tyto otázky mus´ıme hledat jinde, napˇr. v teologii, která vˇsak zase pˇrirozenˇe neum´ı tak dobˇre pˇredpov´ıdat, jak´ y ˇze bude napˇr. hrub´ y národn´ı d˚ uchod v pˇr´ıˇst´ım ˇctvrtlet´ı. Renesance vˇsak pˇrinesla jeˇstˇe dalˇs´ı pˇredstavy, které se dnes jev´ı jiˇz jen tˇeˇzko udrˇzitelné (z hlediska modern´ı filozofie vˇedy), ale které jeˇstˇe stále ovlivˇ nuj´ı pohled modern´ıho ˇclovˇeka na to, co to vlastnˇe vˇeda je. Jednou z nich je pˇredstava, ˇze za abstrakc´ı, kterou uˇcin´ıme na základˇe pozorován´ı (mnoha) opakov´ an´ı téhoˇz jevu, ˇcasto navozeného pevnˇe dan´ ymi okolnostmi, napˇr. upuˇstˇen´ y kámen vˇzdy padá k zemi, stoj´ı jakási entita (gravitace), kterou sice nem˚ uˇzeme “na vlastn´ı oˇci” vidˇet (tak jak nem˚ uˇzeme napˇr. vidˇet vzduch), ale která, podobnˇe jako vzduch objektivnˇe existuje a projevuje se nˇejakou kauz´ aln´ı z´ akonitost´ı (viz v´ yˇse zm´ınˇen´ a pˇredstava o mechanizmu, kter´ y generoval data). Tato zákonitost je pak popsána teori´ı, pˇriˇcemˇz za ideáln´ı se povaˇzuje matematicky zformalizovan´ a teorie. K jej´ı verifikaci se pak pouˇzije pokus, ve kterém se zkoumané objekty zachovaj´ı tak, jak to “pˇredpov´ı” tato teorie. Renesaˇcn´ı vˇeda pak pˇredpokládala, ˇze svˇet se vlastnˇe skládá z (koneˇcného) poˇctu takov´ ych zákonitost´ı, ˇci chcete-li princip˚ u, které byly jednoznaˇcnˇe do svˇeta veps´ any jeho p˚ uvodn´ım hybatelem ˇci se (po velkém 2 tˇresku ) samy od sebe nˇejak objektivnˇe ustavily. Pokusme se ponˇekud hloubˇeji proniknout do toho, co bylo právˇe ˇreˇceno. Jiˇz v 18. stolet´ı napsal Immanuel Kant, ˇze Galileo Galilei podrobil pˇr´ırodu výslechu a idealizoval ji, to jest zmrzaˇcil ji tak, aˇz byla ochotna hovoˇrit jazykem, který od n´ı chtˇel slyˇset, tj. jazykem matematiky. Aˇz pˇriznala, ˇze se odjakˇziva ˇr´ıd´ı onˇemi jednoduchými principy, tj. z´ akonitostmi. Galileo Galilei nenaslouchal pˇr´ırodˇe jako ˇz´ ak uˇciteli, naslouchal ji jako soudce u ´trpného pr´ ava. (Viz Prigogine a Stengers (1977).) Zamysl´ıme-li se nad celou vˇec´ı, snadno nahlédneme onu “troufalost”, která si mysl´ı, ˇze vysvˇetlen´ı, zejména kauzáln´ı vysvˇetlen´ı, které jsme tou ˇci onou teori´ı podali, je jediné moˇzné. Ostatnˇe jiˇz Karl R. Popper v B´ıdˇe historicismu (Popper (1957)) naznaˇcil, ˇze vˇsichni ti, kteˇr´ı si mysl´ı, ˇze naˇsli jediné moˇzné z´ akonité, pokud moˇzno deterministicky kauz´ aln´ı 3 vysvˇetlen´ı trp´ı jen nedostatkem fantazie (ne-li i nˇeˇc´ım horˇs´ım) . Je naprosto jasné, ˇze v´ yˇse ’ uvedené abstrakce (jako je napˇr. gravitace) jsou nesm´ırnˇe uˇziteˇcné, nebot dovoluj´ı popsat urˇcit´ y jev naráz a nikoliv v jeho jednotlivostech. Na druhé stranˇe, uznán´ı ˇci pˇrijmut´ı objektivn´ı existence takové entity (jako napˇr. gravitace) vyˇzaduje pˇrinejmenˇs´ım velice rozsáhlou diskuzi o tom, co to je objektivn´ı existence, ale sp´ıˇse to prostˇe vyˇzaduje urˇcit´ y krok v´ıry. 2

Ten samozˇrejmˇe renesance jeˇstˇe nepˇredpokl´ adala, proto ty z´ avorky. Pros´ım vzpomeˇ nte si na Karla Rainmunda Poppera vˇzdy, kdykoliv V´ as nˇekdo bude pˇresvˇedˇcovat, ˇze jedinˇe on m´ a pravdu; trp´ı jen (snad jen) nedostatkem pˇredstavivosti. 3

6

V pracech Ilji Prigogina a Isabely Stengersové (viz napˇr. Prigogine a Stengers (1984)) pak zv´ıdav´ y ˇctenáˇr m˚ uˇze také nalézt diskuzi k tomu, ˇze podobné, ˇcasto velmi nezˇretelné a tud´ıˇz ˇspatnˇe rozpoznatelné kroky v´ıry si vyˇzaduj´ı i ty “nejprimitivnˇejˇs´ı” poˇc´ atky zkoum´ an´ı svˇeta, které uˇcin´ıme uˇz ve svém ranném dˇetstv´ı. Jejich práce diskutuj´ı rovnˇeˇz “sklon” vˇedeck´ ych teori´ı ke kauzalitˇe. Touha po dosaˇzen´ı teorie maj´ıc´ı charakter kauz´ aln´ıch souvislost´ı má svoje koˇreny rovnˇeˇz v renesanci. Problematiˇcnost tohoto pojmu zaˇcala b´ yt zˇrejm´ a v modern´ı fyzice a odv´ıj´ı se od prac´ı Nielse Bohra. Zdánlivˇe tato problematika souvis´ı s neˇreˇsitelnou a vlastnˇe v podstaˇe zavádˇej´ıc´ı otázkou o deterministickém ˇci indeterministickém charakteru svˇeta. Ve skuteˇcnosti vˇsak jedná o otázku adekvátnosti (akceptovatelnosti, v´ yhodnosti atd.) kauz´ aln´ıho ˇci pravdˇepodobnostn´ıho popisu svˇeta. Zd˚ uraznˇeme, ˇze to zda zvol´ıme pro popis svˇeta kauz´ aln´ı teorii ˇci teorii vyuˇz´ıvaj´ıc´ı pravdˇepodobnostn´ı formalizmus, ˇci jin´ y nástroj na formalizaci neurˇcitosti a nejistoty, nikterak nevypov´ıdá o tom, zda si mysl´ıme, ˇze svˇet je deterministick´ y ˇci nikoliv. Jak jsme totiˇz ukázali v´ yˇse, názor, ˇze naˇse teorie vysvˇetluj´ı jak´ y svˇet “ve skuteˇcnosti” je, je jen tˇeˇzko udrˇziteln´ y. Tato problematika je u ´zce sváz´ ana s v´ ysledky Kurta Gdela o ne´ uplnosti bezesporn´ ych axiomatick´ ych systém˚ u. Jeho v´ ysledky patrnˇe napov´ıdaj´ı, ˇze pravdˇepodobnostn´ı popis svˇeta je inherentnˇe vloˇzen do naˇseho racionáln´ıho uvaˇzov´ an´ı zakotveného v matamatice tak, jak se historicky vyvinula. V´ yˇse jsme ˇrekli, ˇze renesanˇcn´ım ideálem “vysvˇetluj´ıc´ı” teorie byla matematicky formalizovaná teorie. To patrnˇe plat´ı i dnes. Právˇe naznaˇcen´ a diskuze naznaˇcila, ˇze c´ılem budov´ an´ı (formalizovan´ ych) teori´ı dost dobˇre nem˚ uˇze b´ yt objektivn´ı, jednoznaˇcné vysvˇetlen´ı svˇeta. Spokoj´ımeli se vˇsak se skromnˇejˇs´ım c´ılem, totiˇz s nalezen´ım nástroje na funkˇcn´ı predikci, bude jedno, zda takov´ ych nástroj˚ u bude v´ıce ˇci jen jeden. Hlavnˇe, kdyˇz bude dávat spolehlivé pˇredpovˇedi ˇci návody, chcete-li, jak napˇr. urovnat váleˇcné konflikty, zv´ yˇsit u ´rodu a zm´ırnit hlad mnoha národ˚ u. Samozˇrejmˇe, ˇze pak formalizovanˇejˇs´ı teorie má vˇetˇs´ı cenu neˇz jakési vágn´ı závˇery, nebot’ má vˇetˇs´ı nadˇeji dát efektivnˇejˇs´ı pˇredpovˇedi. Je nutné si vˇsak uvˇedomit, ˇze kaˇzd´ a takov´ a teorie ˇ se op´ırá o zkuˇsenost. C´ım je tato zkuˇsenost d˚ uvˇeryhodnˇejˇs´ı, tj. ˇc´ım jsou data, která jsme pouˇzili spolehlivˇejˇs´ı a pˇresnˇejˇs´ı, t´ım m˚ uˇze b´ yt i v´ ysledek formalizovanˇejˇs´ı. Kaˇzd´ y, kdo v ˇzivotˇe prov´ adˇel nˇejaké v´ ypoˇcty, si je vˇedom toho, ˇze nemá obvykle cenu udávat v´ ysledek na deset desetinn´ ych m´ıst, byla-li data mˇeˇrena s pˇresnost´ı na jedno desetinné m´ısto. Jedn´ım z dalˇs´ıch m´ yt˚ u, kter´ y dosud pˇreˇzil a kter´ y je “´ uspˇeˇsnˇe pouˇz´ıv´ an” je v´ yˇse zm´ınˇen´ y m´ ytus ovˇeˇrovac´ıho pokusu. Je aˇz zaráˇzej´ıc´ı, ˇze ˇcasto i vˇedeˇct´ı pracovn´ıci, kter´ ym se dostalo alespoˇ n elementárn´ıho statistického vzdˇel´ an´ı, si neuvˇedomuj´ı, ˇze ovˇeˇrovac´ı pokus nen´ı nic v´ıce ani nic ménˇe neˇz testován´ı hypotézy. To bud’ hypotézu zam´ıtne nebo nezam´ıtne, ale nikdy nepotvrd´ı - kromˇe uˇcebnicov´ ych akademick´ ych pˇr´ıpad˚ u, kdy hypotéza a alternativa jsou komplement´ arn´ı. Koneˇcn´ y, neodvolaten´ y verdikt o teorii m˚ uˇze b´ yt jen zam´ıtav´ y, totiˇz kdyˇz pˇredpovˇed’ selˇze. Jinak si lze vˇzdy pˇredstavit, ˇze jiná data (jiné okolnosti, chcete-li to ˇr´ıci jinak) mohou naˇsi teorii ˇ ısla 3, 5, 7, 11, 13 jsou sice lich´ (hypotézu) docela dobˇre vyvrátit. C´ a ˇc´ısla a prvoˇc´ısla, ale to jeˇstˇe neznamená, ˇze jiná ˇc´ısla teorii o tom, ˇze vˇsechna lich´ a ˇc´ısla jsou prvoˇc´ısla, nemohou vyvrátit. Závˇerem této krátké exkurze do filozofie (matematického) modelov´ an´ı si dovolme jeˇstˇe jednu poznámku. Ta ostatnˇe rovnˇeˇz souvis´ı s charakterem vˇedeck´ ych teori´ı, tak jak byl v´ yˇse diskutov´ an. V souvislosti s t´ım, ˇze mnohdy se stále má za to, ˇze teorie je jak´ ymsi objektivn´ım obrazem svˇeta, ˇcasto oproˇstˇeného od spousty nepodstatn´ ych vˇec´ı a okolnost´ı, interpretuje se to, co “vyˇslo” po aplikaci nˇekteré teorie jako jakési objektivn´ı zjiˇstˇen´ı. To co “vyˇslo”, je poklád´ ano za cosi, co 7

stoj´ı kdesi za daty, ˇci chcete-li, co je nˇejak v nich ukryto a k ˇcemu jsme se právˇe pomoci naˇsich matematick´ ych nástroj˚ u dopracovali. Podobnˇe jako kdyˇz oloupeme ˇslupky z cibule, najdeme jej´ı jádro. Potom závˇery anal´ yzy dat prezentujeme tak, ˇze to tak objektivnˇe vyˇslo. Aˇckoliv to tak moˇzná na prvn´ı pohled vypadá, ve skuteˇcnosti tomu tak nen´ı. Abychom to nahlédli vrat’me se jeˇstˇe krátce k v´ yˇse uvedené diskuzi. Uvˇedomme si, ˇze v´ yˇse zm´ınˇená abstrakce proveden´ a na základˇe opakov´ an´ı mnoha podobn´ ych jev˚ u je vˇec provedená nˇekter´ ym subjektem, tj. badatelem. Na tomto m´ıstˇe pros´ım ˇcten´ aˇre, aby se oprostil od marxismem pˇestovaného pejorativn´ıho nádechu slova subjektivn´ı, nebot’ dokud bude vˇeda provádˇena jednotliv´ ymi muˇzi a ˇzenami, bude vˇzdy subjektivn´ı v tom smyslu, ˇze odpovˇednost za v´ yˇse naznaˇcenou abstrakci, právˇe tak jako za vytvoˇren´ı teorie a jej´ı pˇr´ıpadnou aplikaci nese (postupnˇe) ten, kdo ji provedl, vymyslel a pˇr´ıpadnˇe rozhodl aplikovat. Nanejv´ yˇse m˚ uˇze doj´ıt k “zobjektivozován´ı” tohoto postupu t´ım, ˇze se na nˇem shodne v´ıce odborn´ık˚ u z dané oblasti. Ani to vˇsak nezmˇen´ı charakter v´ ysledku na objektivn´ı ˇci spr´ avný ˇci udrˇzitelný (pˇr´ıpadnˇe si ˇctenáˇr m˚ uˇze doplnit jiné vzneˇsené slovo). Staˇc´ı vzpomenout “zobjektivizovan´ y” názor mnoha stˇredovˇek´ ych odborn´ık˚ u o geocentrické podstatˇe naˇseho planetárn´ıho systému. Podobnˇe pˇri anal´ yze dat volba metody a interpretace v´ ysledk˚ u je zcela na zodpovˇednosti toho, kdo ji pouˇzil a v´ ysledky interpretoval. Prohlás´ıli nˇekdo, ˇze cosi objektivnˇe vyˇslo bud’ se boj´ı nést odpovˇednost za v´ ysledek nebo cosi nalháv´ a sobˇe a ostatn´ım. ’ Na závˇer pˇredmluvy jeˇstˇe uved me dvˇe technické poznámky. Pˇrednˇe dodejme, ˇze pˇredkládaná skripta jiˇz sama o sobˇe pˇredstavuj´ı takov´ y objem textu, kter´ y je na samé hranici moˇznost´ı b´ yti vyloˇzen v jednom semestru. Proto nebylo moˇzno do skript zaˇradit dalˇs´ı partie, které jsou sice u ´zce sváz´ any s regresn´ı anal´ yzou (robustn´ı regrese, dynamick´ y model spolu s alespoˇ n krátkou exkurz´ı do ˇcasov´ ych ˇrad, atd.), ale které jsou stejnˇe pˇredn´ aˇseny aˇz v rámci v´ ybˇerové pˇrednáˇsky, navazuj´ıc´ı na tu, pro kterou jsou urˇcena tato skripta. Proto autor plánuje napsat dalˇs´ı d´ıl skript (v pr˚ ubˇehu jednoho aˇz dvou let), kter´ y (pˇrinejmenˇs´ım) pokryje právˇe zm´ınˇené partie. Mezi pˇripom´ınkami tˇech, kteˇr´ı rukopis skript ˇcetli se nˇekdy objevila ta, ˇze text je pˇr´ıliˇs zat´ıˇzen vsuvkami um´ıstˇen´ ymi v závork´ ach. Ostatnˇe je známo, ˇze nˇekteré ˇcasopisy bud’ zcela nebo témˇeˇr odm´ıtaj´ı text, ve kterém jsou závorky. To je pˇr´ıstup nepochybnˇe extrémn´ı a ponˇekud nerozumn´ y. Je sice pravda, ˇze to, co je um´ıstˇeno v závork´ ach, lze vˇzdy vyjádˇrit dalˇs´ı vˇetou um´ıstˇenou kdesi dále v textu, ˇci vedlejˇs´ı vˇetou, ale je to (prakticky) vˇzdy za cenu vˇetˇs´ıho m´ısta. Napˇr. závorky u slova prakticky v pˇredchoz´ı vˇetˇe dávaj´ı tuˇsit, ˇze je to celé m´ınˇeno s jakousi pravdˇepodobnost´ı, tj. plat´ı to maliˇcko slabˇeji, neˇz by to platilo bez tˇech závorek. Podobn´ y pˇr´ıklad z n´ıˇze uvedeného textu, totiˇz : “Naprosto pˇr´ımoˇcar´ ym zobecnˇen´ım tohoto modelu je model uvaˇzuj´ıc´ı soubor M regresn´ıch rovnic typu (3), které spolu (na prvn´ı pohled) nesouvisej´ı (odtud název).” demonstruje, ˇze ˇceˇstina (tedy alespoˇ n psan´ y jazyk) pomoc´ı závorek rozvinula cosi, co moˇzná ˇrada jin´ ych jazyk˚ u nemá. Pokud by totiˇz ono na prvn´ı pohled nebylo v závorce, znamenalo by to sdˇelen´ı, ˇze rovnice spolu opravdu nesouvisej´ı, dokonce evidentnˇe nesouvisej´ı, jak je vidˇet na prvn´ı pohled. Takto naopak vˇeta ˇr´ık´ a, ˇze se na prvn´ı pohled zd´ a, ˇze spolu nesouvisej´ı, ale nen´ı to pravda, rovnice spolu nˇejak souvisej´ı. Vˇsimli jste si kolik m´ısta nav´ıc jsme potˇrebovali. Samozˇrejmˇe, ˇze to nˇekdy ˇcin´ı ˇcten´ı textu ménˇe plynulé, coˇz vˇsak také m˚ uˇze znamenat, ˇze to ˇctenáˇre donut´ı pˇreˇc´ıst si danou vˇetu dvakr´ at a t´ım vypadnout z “polospánku”, do kterého upadá, je-li text pˇr´ıliˇs plynul´ y. Na druhé stranˇe, nˇekdy je tˇreba, aby ˇcten´ aˇr plynule sledoval l´ınii u ´vah, 8

nebot’ jinak nedojde ke stejnému závˇeru jako autor. (Nˇekteˇr´ı autoˇri, zejména ve “spoleˇcenskovˇedn´ı” oblasti tento princip vyuˇz´ıvaj´ı tak obratnˇe, ˇze ˇcten´ aˇr pak jen tˇeˇzko hledá bod, ve ktrém autor uˇcinil “krok stranou” a t´ım doˇsel právˇe k tomu, k ˇcemu chtˇel doj´ıt.) Pˇrirozenˇe jako vˇsechny nástroje usnadˇ nuj´ıc´ı sdˇelován´ı informac´ı, tak i tento mus´ı m´ıt svoji m´ıru. Ostatnˇe ˇz´ adn´ y extrémismus nen´ı nikdy ku prospˇechu vˇeci. Proto byly nˇekteré závorky (a trofám si ˇr´ıci, ˇze v´ıce neˇz polovina, tj. ty které ˇsly bez vˇetˇs´ı spotˇreby m´ısta) odstranˇeny. Podˇ ekov´ an´ı. Autor skript by rád podˇekoval vˇsem, kteˇr´ı mu ke skript˚ um dodali nˇejaké pˇripom´ınky, zejména recenzentovi doc. ing. Igoru Vajdovi, DrSc., kter´ y skripta pˇreˇcetl velmi pozornˇe a navrhl ˇradu zlepˇsen´ı. Za vˇsechny pˇr´ıpadné nedostatky vˇsak nesu odpovˇednost toliko já, a pros´ım proto o ˇctenáˇrovu shov´ıvavost. Velice ocen´ım vˇsechny dalˇs´ı pˇripom´ınky, zejména t´ ykaj´ıc´ı se obsahu a tˇech m´ıst, kde jsou vyjadˇrov´ ana stanoviska k vhodnosti, pouˇzitelnosti atd. toho ˇci onoho postupu.

V Praze, 25. ˇr´ıjna 1997

9

´ ´ UVOD DO REGRESNÍ ANALYZY

2

Je naprosto pˇrirozené, ˇze ti, kdo se rozhodli seznámit se statistick´ ym zpracov´ an´ım dat, se v základn´ıch uˇcebnic´ıch nejprve setkávaj´ı s u ´lohami, ve kter´ ych se odhaduj´ı parametry rozdˇelen´ı náhodn´ ych veliˇcin, pˇr´ıpadnˇe se testuj´ı nˇekteré jednoduché hypotézy o nich. Se skuteˇcnˇe zaj´ımav´ ymi statistick´ ymi postupy se vˇsak setkaj´ı aˇz ve chv´ıli, kdy dojde na u ´lohy, snaˇz´ıc´ı se postihnout vzájemné vztahy náhodn´ ych veliˇcin. R˚ uzn´ ych metod, které analyzuj´ı strukturu vztah˚ u mezi náhodn´ ymi veliˇcinami je pˇrirozenˇe velké mnoˇzstv´ı a kaˇzd´ a z nich má za sebou historii, která napov´ıdá, proˇc byla taková metoda budov´ ana, tj. jaké byly p˚ uvodn´ı d˚ uvody pro jej´ı navrˇzen´ı, jaká byla motivace, ˇci chcete-li inspirace, autor˚ u. Namátkou jmenujme napˇr. anal´ yzu variance, zpracován´ı kontingenˇcn´ıch tabulek ˇci diskriminaˇcn´ı a shlukovou anal´ yzu. Nˇekteré postupy vznikly pˇrirozenˇe zcela “mimo” statistiku, napˇr. faktorov´ a anal´ yza, a byly statistiky teprve rozvinuty, pˇr´ıpadnˇe “dovybaveny” vhodn´ ym teoretick´ ym aparátem. Historické záznamy dokládaj´ı mimo jakoukoliv pochybnost, ˇze pokusy o nalezen´ı vzájemného vztahu náhodn´ ych veliˇcin existovaly od sam´ ych poˇcátk˚ u budován´ı teorie pravdˇepodobnosti (Galilei (1632), Boscovitch (a Maire) (1757), Laplace (1793), Legendre (1805), Gauss (1809)). Skripta, které právˇe zaˇc´ın´ ate studovat, jsou vˇenována jedné z nejefektivnˇejˇs´ıch metod anal´ yzy mnoharozmˇern´ ych (ˇci v´ıcerozmˇern´ ych, 4 jak chcete ) dat. Regresn´ı anal´ yza, aˇc se to m˚ uˇze zdát pˇrekvapivé, odvozuje sv˚ uj název od anglického slova regression. V roce 1885 totiˇz Sir Francis Galton publikoval v´ ysledek sv´ ych studi´ı o vztahu v´ yˇsky otc˚ u a syn˚ u v ˇclánku “Regression towards mediocrity in hereditary stature”. Jak napov´ıdá název ˇclánku, zjistil, ˇze je pravdˇepodobnˇejˇs´ı jev, ˇze v´ yˇska syna bude bl´ıˇze populaˇcn´ımu pr˚ umˇeru neˇz v´ yˇska otce, neˇz jev opaˇcn´ y, totiˇz ˇze v´ yˇska syna se bude od pr˚ umˇerné v´ yˇsky muˇz˚ u liˇsit v´ıce neˇz se liˇs´ı v´ yˇska jeho otce. Ostatnˇe, kdyˇz uˇz toto zjiˇstˇen´ı v´ıme, pˇripad´ a nám zcela pˇrirozené, nebot’ pokud by taková tendence neplatila, doch´ azelo by k neomezené fluktuaci v´ yˇsek muˇz˚ u, tj. dnes uˇz by mezi námi museli ˇz´ıt jak obˇri tak trpasl´ıci. Odhad koeficient˚ u modelu byla poˇr´ızen, podobnˇe jako je tomu i v pˇreváˇzné vˇetˇsinˇe pˇr´ıpad˚ u dnes, metodou nejmenˇs´ıch ˇctverc˚ u (the least squares), která v té dobˇe byla jiˇz témˇeˇr sto let známa, viz Adrien Marie Legendre (1805) a Carl Friedrich Gauss (1809). Aˇckoliv v dobˇe, kdy Sir Francis Galton psal sv˚ uj ˇcl´ anek byla známa i jiná metoda odhadu parametr˚ u, totiˇz metoda minimalizuj´ıc´ı souˇcet absolutn´ıch odchylek, je celkem pˇrirozené, ˇze byla pouˇzita metoda nejmenˇs´ıch ˇctverc˚ u, nebot’ je jednoduch´ a a dáv´ a explicitn´ı vztah pro vyˇc´ıslen´ı odhad˚ u na základˇe analyzovan´ ych dat. Naopak metoda minimalizuj´ıc´ı souˇcet absolutn´ıch odchylek (Galileo Galilei (1632), Roger Joseph (ˇci Rodjer Josef) Boscovich (1757), Pierre Simon Laplace (1793)), která je dnes pouˇz´ıv´ ana alternativnˇe k metodˇe nejmenˇs´ıch ˇctverc˚ u, vyˇzaduje, pˇri vˇetˇs´ım poˇctu dat, nasazen´ı v´ ykonné v´ ypoˇcetn´ı techniky. Na rozd´ıl od nejmenˇs´ıch ˇctverc˚ u vˇsak jej´ı v´ ysledky lépe “vzdoruj´ı” kontaminac´ı dat, nebot’ v rámci dnes pouˇz´ıvan´ ych pojm˚ u je tato metoda robustn´ı alespoˇ n proti odlehl´ ym pozorov´ an´ım ve vysvˇetlované promˇenné a “navzdory” obecnˇe panuj´ıc´ı domnˇence ˇci pˇredsudku o jej´ı malé eficienci lze ukázat, ˇze pokud data generovaná byt’ pˇresnˇe normáln´ım modelem obsahuj´ı na kaˇzd´ ych 1000 pozorov´ an´ı dvˇe poˇskozená (kontaminovaná) pozorován´ı, je tato metoda v´ ykonnˇejˇs´ı (eficientnˇejˇs´ı - pro ty, kdo 4

Nˇekdy jsou vedeny zd´ anlivˇe uˇcené diskuze o tom, zda uˇz´ıvat to ˇci ono slovo. Je celkem pˇrirozené, ˇze se takové diskuze objevuj´ı, nebot’ nˇekteré vˇedn´ı obory by patrnˇe jinak nemˇely co dˇelat. Je vˇsak pˇrinejmenˇs´ım pˇrekvapivé, ˇze se takové diskuze objevuj´ı dokonce i v matematice, kde definice pˇresnˇe vymezuj´ı, o ˇcem je ˇreˇc a tedy, aˇz snad na pˇr´ıpady extrémˇe necitlivého pouˇzit´ı nˇekter´ ych slov, je celkem jedno, jaké slovn´ı oznaˇcen´ı je zvoleno.

10

nejsou jazykov´ ymi puristy) neˇz metoda nejmenˇs´ıch ˇctverc˚ u. Tato metoda b´ yva z pochopiteln´ ych d˚ uvod˚ u oznaˇcována jako L1 a podobnˇe jako nˇekolik neznám´ ych pojm˚ u pouˇzit´ ych v pˇredchoz´ı vˇetˇe bude diskutována n´ıˇze. Obrat’me nyn´ı naˇsi pozornost na to, jaké c´ıle si klade regresn´ı anal´ yza. Nˇeco bylo vlastnˇe jiˇz ˇreˇceno v´ yˇse, totiˇz ˇze regresn´ı anal´ yza patˇr´ı mezi metody studuj´ıc´ı strukturu vzájemn´ ych závislost´ı mezi jednotliv´ ymi veliˇcinami. Mnohdy jsou vˇsak ambice této metody charakterizov´ any snahou o nalezen´ı nástroje na predikci hodnoty jedné náhodné veliˇciny za pˇredpokladu, ˇze jiˇz známe hodnoty nˇekolika jin´ ych náhodn´ ych veliˇcin ˇci nenáhodn´ ych vysvˇetluj´ıc´ıch faktor˚ u. Nˇekdy se oznaˇcuje tento druh´ y c´ıl za v´ıce ambicizn´ı a implicitnˇe se t´ım m´ın´ı, ˇze ten prv´ y je jakoby lehˇc´ı “podˇcást´ı” toho druhého. Obecnˇe vˇsak kaˇzd´ y z tˇechto c´ıl˚ u vyˇzaduje jiné ˇreˇsen´ı, jak ostatnˇe dále uvid´ıme. Teorie, která je v uˇcebnic´ıch a monografi´ıch obvykle vyklád´ ana, vede k ˇreˇsen´ı prvého c´ıle, ale nemus´ı b´ yt vˇzdy ˇreˇsen´ım toho druhého. Dˇr´ıve neˇz budeme pokraˇcovat ve v´ ykladu zaved’me alespoˇ n nejzákladnˇejˇs´ı, zcela standardn´ı oznaˇcen´ı. Oznaˇcme tedy symbolem N mnoˇzinu vˇsech pˇrirozen´ ych ˇc´ısel, R re´ alnou pˇr´ımku, R+ jej´ı kladnou ˇcást, Rp p-rozmˇern´ y Euklidovsk´ y prostor, Rn,k (nˇekter´ y) k-rozmˇern´ y podprostor prosn toru R a koneˇcnˇe pak (Ω, A, P ) základn´ı pravdˇepodobnostn´ı prostor. Regresn´ı model budeme uvaˇzovat ve tvaru: Yi = g(Xi , β 0 ) + Ei ,

i = 1, 2, . . . , n

(1)

pro vˇsechna n ∈ N , kde g(x, β) bude nˇekter´ a hladká funkce, g : Rq ×Rp → R (q, p ∈ N ). Posloup∞ nost {Xi }i=1 bude bud’ deterministick´ a posloupnost q-rozmˇern´ ych vektor˚ u (v tom pˇr´ıpadˇe ∞ budeme psát {xi }i=1 ) ˇci posloupnost (nezávisl´ ych a stejnˇe rozdˇelen´ ych) náhodn´ ych veliˇcin, tj. ∞ q Xi (ω) : Ω → R , které jsou nav´ıc nezávislé od posloupnosti {Ei }i=1 , Ei (ω) : Ω → R, coˇz je jiná posloupnost, obvykle stejnˇe rozdˇelen´ ych, nikoliv vˇsak nutnˇe nezávisl´ ych, náhodn´ ych veliˇcin. Posledn´ı pˇredpoklad neb´ yvá v nˇekter´ ych textech jasnˇe zd˚ uraznˇen, ale jak uvid´ıme pozdˇeji, jeho naruˇsen´ı má váˇzné d˚ usledky. Veliˇcina Yi stoj´ıc´ı na levé stranˇe rovnosti (1) b´ yv´ a oznaˇcov´ ana jako závisle promˇenná, veliˇciny Xi jako nezávisle promˇenné a Ei jako fluktuace. N´ıˇze uveden´ a diskuze t´ ykaj´ıc´ı se interpretace v´ ysledk˚ u regresn´ı anal´ yzy ale naznaˇc´ı, ˇze je patrnˇe lepˇs´ı pouˇz´ıvat pojmy jako vysvˇetlovaná veliˇcina (pro Yi ) a vysvˇetluj´ıc´ı veliˇciny pro Xi . Toto “názvoslov´ı” totiˇz nesvád´ı k domnˇence, ˇze odhadnuty model m˚ uˇzeme pouˇz´ıt k predikci pro jakékoliv hodnoty nez´ avisle promˇenn´ ych. V dalˇs´ım textu se jeˇstˇe k tomuto problému vrát´ıme. Pro veliˇciny Yi , Xi a Ei b´ yvá uvádˇena i celá ˇrada jin´ ych term´ın˚ u, které se snaˇz´ı napovˇedˇet charakter tˇechto veliˇcin vzhledem k nˇekter´ ym ˇcast´ ym pouˇzit´ım ˇci interpretac´ım regresn´ıho modelu. Napˇr. Xi jsou nˇekdy oznaˇcovány jako nosiˇce, regresory ˇci jako faktory a pˇr´ısluˇsn´ y Rq jako faktorov´ y prostor. Také v tomto textu budeme obˇcas tato r˚ uzn´ a “pojmenov´ an´ı” pouˇz´ıvat, abychom si na nˇe pˇrivykli a neˇcinily nám pot´ıˇze pˇri ˇcten´ı r˚ uzn´ ych pramen˚ u. Pro ty, kteˇr´ı se nˇekdy v budoucnu budou vˇenovat ekonomick´ ym aplikac´ım, poznamenejme, ˇze se jeˇstˇe setkaj´ı s rozliˇsen´ım, ˇcasto sporn´ ym, charakteru veliˇcin vstupuj´ıc´ıch do modelu a naraz´ı na pojmy endogen´ı (ˇcesky snad koncov´ a ˇci v´ ystupn´ı), oznaˇcuj´ıc´ı veliˇciny zpravidla na “levé” stranˇe modelu, tj. v roli Yi a predeterminovan´ a (ˇcesky snad pˇredurˇcená, ale sp´ıˇse vstupn´ı) veliˇcina, stoj´ıc´ıch v roli Xi . Druh´ y typ veliˇcin pak b´ yvá jeˇstˇe dˇelen na posunuté endogen´ı (lagged endogenous) a exogen´ı (ˇcesky asi vnˇejˇs´ı ˇci mimo model urˇcené; nechme vˇsak nadále pˇreklady jazykozpytc˚ um, v matematickém textu, ostatnˇe jsme to jiˇz v´ yˇse zm´ınili, jde o jednoznaˇcnost, která je zajiˇstˇena formalizmem a nen´ı naˇstˇest´ı 11

závislá na názvech). Povˇsimnˇeme si, ˇze rozliˇsen´ı na exogen´ı a endogen´ı souvis´ı opˇet s pojmem kauzality. Jak jsme uvedli v´ yˇse, byl tento protagonistou renesanˇcn´ıho paradigmatu vˇedeckého poznán´ı a ˇzel Bohu stále jeˇstˇe v mnoha vˇedn´ıch discipl´ın´ ach pˇreˇz´ıv´ a. Nen´ı bez zaj´ımavosti, ˇze do ekonomie, ˇci sp´ıˇse do ekonometrie byl “ve statistické modifikaci” zaveden C. W. J. Grangerem na konci ˇsedesát´ ych let, tj. v dobˇe, kdy filosofie vˇedy naopak zaˇcala uvaˇzovat a váˇznˇe diskutovat o jeho problematiˇcnosti. Samozˇrejmˇe, ˇze nen´ı tˇeˇzké ukázat pˇr´ıklady - a to i z kaˇzdodenn´ıho ˇzivota, které demostruj´ı jeho problematiˇcnost. Grangerova definice a test, Granger (1969), se op´ıraj´ı o pojem statistické nezávislosti a v tomto duchu je tˇreba je interpretovat. Uˇzivatelé to vˇsak zpravidla (bohorovnˇe) pˇrehl´ıˇzej´ı a jednaj´ı s t´ımto pojmem jako by ˇslo o bˇeˇzn´ y pojem pˇr´ıˇcinné souvislosti. Jaké to m˚ uˇze m´ıt následky si snadno pˇredstav´ıme, uváˇz´ıme-li napˇr., ˇze se mnohá (politick´ a) rozhodnut´ı odv´ıjej´ı sp´ıˇse od vˇedeck´ ych hypotéz vysloven´ ych na základˇe právˇe popsaného zp˚ usobu interpretace v´ ysledk˚ u neˇz od historicky ovˇeˇren´ ych postup˚ u. Vrat’me se vˇsak ke vztahu (1) a dokonˇceme vysvˇetlen´ı jednotliv´ ych veliˇcin v nˇem vys0 0 T 0 0 tupuj´ıc´ıch. Vektor β = (β1 , β2 , . . . , βp ) bude oznaˇcov´ an jako vektor regresn´ıch parametr˚ u, pokud budeme mluvit o nelineárn´ı regresi, a jako regresn´ıch koeficient˚ u, v lineárn´ı regresi. T Koneˇcnˇe pak horn´ı index “ ” oznaˇcuje transpozici vektoru ˇci matice. V pˇrev´ aˇzné ˇc´ asti dalˇs´ıho textu budeme uvaˇzovat model s pevn´ ymi (deterministick´ ymi) vysvˇetluj´ıc´ımi promˇenn´ ymi. Exkurze do modelu s náhodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi budou jen obˇcasné. Za náhodn´ y bude tedy v modelu povaˇzován pouze ˇsum (ˇci chcete-li fluktuace nebo náhodné fluktuace) , kter´ y je represen∞ tovan´ y (jsou representovány) posloupnost´ı náhodn´ ych veliˇcin {Ei }i=1 . Náhodnost disturbanc´ı samozˇrejmˇe má za následek to, ˇze i vysvˇetlovan´ a veliˇcina Y je náhodná. Prvn´ım c´ılem regresn´ı anal´ yzy, jak uˇz bylo ostatnˇe konstatov´ ano v´ yˇse, je popis struktury dat (ˇci chcete-li, vysvˇetlen´ı dat). Po té, co jsme zavedli oznaˇcen´ı pro regresn´ı model, m˚ uˇzeme tento c´ıl specifikovat jako odhad modelu ve statistickém smyslu. Jin´ ymi slovy to znamená, ˇze na základˇe dat, která z hlediska druhého c´ıle regresn´ı anal´ yzy, totiˇz predikce, m˚ uˇzeme povaˇzovat za trénovac´ı soubor, chceme nejprve odhadnout charakter (tvar) funkce g(x, β) a následnˇe odhadnout β 0 . Anal´ yza dat tedy m˚ uˇze zaˇc´ıt v podstatˇe testem, zda g(x, β) je lineárn´ı ˇci nikoliv, nebo se prostˇe na základˇe zkuˇsenost´ı (fyzikáln´ıch, sociáln´ıch, demografick´ ych, ekonomick´ ych ˇci jin´ ych) ˇci okolnost´ı rozhodneme pro nˇekterou funkci g(x, β) (ˇci typ funkce). Obvykle je tvar funkce (alespoˇ n) “tuˇsen´ y” a proto se ˇcasto omezujeme na odhad vektoru β 0 . Tak jako v drtivé vˇetˇsinˇe statistické literatury budeme odhad poˇr´ızen´ y nˇekterou odhadovac´ı ˆ metodou oznaˇcovat β. Nav´ıc indexy, dole ˇci nahoˇre, budou napov´ıdat, jakou metodou byl odhad vyˇc´ıslen, ˇci na základˇe kolika pozorov´ an´ı byl zkonstruov´ an, atd.. Tak napˇr. βˆ(LS,n) bude naznaˇcovat, ˇze se jedná o odhad poˇr´ızen´ y metodou nejmenˇs´ıch ˇctverc˚ u na základˇe dat o rozsahu (LS,n) ˆ n. Rovnˇeˇz zcela standardnˇe jak jsme na to zvykl´ı, βi bude oznaˇcovat i-tou sloˇzku (souˇradnici, (LS,n) ˆ koordinátu) vektoru β . Podrobnˇejˇs´ı vysvˇetlen´ı ˇci rozˇs´ıˇren´ı oznaˇcen´ı a symbol˚ u bude vˇzdy uvedeno v m´ıstech, kde to budeme potˇrebovat tak, aby nebylo nutné je drˇzet dlouho a bez uˇzitku v pamˇeti. V´ yˇse uvedené bezprostˇrednˇe napov´ıd´ a, ˇze pokud uvaˇzujeme model s náhodn´ ymi nosiˇci pˇredpoklád´ ame, n n ˇze pro naˇse data Dn existuje ω0 ∈ Ω tak, ˇze hodnoty náhodn´ ych veliˇcin {Yi (ω)}i=1 a {Xi (ω)}i=1

12

jsou v bodˇe ω0 rovny dat˚ um Dn , tj. 

y1 , x11 , · · · , x1p   y2 , x21 , · · · , x2p Dn =  .. ..  . .  yn , xn1 , · · · , xnp





Y1 (ω0 ), X11 (ω0 ), · · · , X1p (ω0 )     Y2 (ω0 ), X21 (ω0 ), · · · , X2p (ω0 ) = .. ..   . .   Yn (ω0 ), Xn1 (ω0 ), · · · , Xnp (ω0 )

    .  

(2)

Z právˇe uvedeného a také ostatnˇe z (1) okamˇzitˇe plyne, ˇze k regresn´ımu modelu patˇr´ı samozˇrejmˇe ∞ i posloupnosti náhodn´ ych veliˇcin {Yi (ω)}∞ r´ıpadnˇe, kdyˇz uvaˇzujeme pevné i=1 a {Xi (ω)}i=1 , pˇ ∞ nosiˇce, pouze prvá posloupnost {Yi (ω)}i=1 . Na druhé stranˇe vˇsak patrnˇe neexistuje text vˇenovan´ y ’ regresn´ı anal´ yze, kter´ y by pod odhadem modelu rozumˇel také odhad tˇechto veliˇcin, byt pˇrirozenˇe diagnostické partie teorie regresn´ı anal´ yzy studuj´ı napˇr. postupy umoˇzn ˇuj´ıc´ı posoudit, zda charakter rezidu´ı nekoliduje s pˇredpokládan´ ym charakterem fluktuac´ı; takové postupy budeme studovat pozdˇeji. Na druhé stranˇe je vˇsak tˇreba pˇripustit, ˇze nás v regresn´ım modelu obvykle zaj´ımá pouze vektor β 0 a tedy ostatn´ı neznámé “ˇc´ asti” modelu mohou b´ yt vn´ım´ any jen jako ruˇsivé parametry, které nejsou odhadov´ any. Jak jsme jiˇz pˇredeslali v´ yˇse, v naˇsem v´ ykladu se omez´ıme pˇrev´ aˇznˇe na lineárn´ı regresn´ı model s pevn´ ymi, tj. deterministicky dan´ ymi nosiˇci. Dostaneme model Yi = xTi β 0 + Ei ,

i = 1, 2, . . . , n.

(3)

Na prvn´ı pohled se omezen´ı na linearn´ı model m˚ uˇze zdát drastické, ale nen´ı tomu tak. Staˇc´ı si uvˇedomit, ˇze vˇetˇsina funkc´ı g(x, β) uvaˇzovan´ ych v modelu (1) se pˇredpoklád´ a b´ yt spojit´ ymi v x. Uváˇz´ıme-li pak, ˇze lze mezi nosiˇce dodat vyˇsˇs´ı mocniny vysvˇetluj´ıc´ıch veliˇcin jako nové vysvˇetluj´ıc´ı veliˇciny, coˇz nen´ı na u ´jmu odhadu modelu pokud máme k dispozici rozumné mnoˇzstv´ı dat, a vezmeme-li v u ´vahu Stone-Weierstrassovu vˇetu o tom, ˇze pˇri omezen´ı se na kompaktn´ı nosiˇc je systém vˇsech polynom˚ u hust´ y ve tˇr´ıdˇe spojit´ ych funkc´ı (Hewitt a Stromberg (1965)), je zˇrejmé, ˇze teoreticky pomoc´ı lineárn´ıho regresn´ıho modelu m˚ uˇzeme aproximovat velmi ˇsirokou tˇr´ıdu regresn´ıch závislost´ı. Pˇrirozenˇe toto má, nˇekdy praktick´ a, omezen´ı, vypl´ yvaj´ıc´ı napˇr. z pot´ıˇz´ı s kolinearitou, poˇctem pozorován´ı, “pˇr´ıliˇsnou” determinac´ı modelu, tj. chcete-li, pˇr´ıliˇsn´ ym potlaˇcen´ım náhodnosti, atd. Podotknˇeme jeˇstˇe, ˇze toto omezen´ı se na linárn´ı model, vydávaj´ı nˇekteré monografie za d˚ uvod k omezen´ı se na lineárn´ı odhady. Toto druhé omezen´ı je zcela u ´ˇcelové, totiˇz aby bylo moˇzno prohlásit, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u je velice dobr´ y at’ uˇz jsou fluktuace v modelu rozdˇeleny normálnˇe ˇci nikoliv. Zd˚ uraznˇeme proto, ˇze omezen´ı se na tˇr´ıdu lineárn´ıch 0 odhad˚ u vektoru β je drastické a odhad metodou nejmenˇs´ıch ˇctverc˚ u je opravdu dobr´ y jen v pˇr´ıpadˇe, podaˇr´ı-li se nalézt model, ve kterém rozdˇelen´ı rezidu´ı je témˇeˇr normáln´ı. Podrobnˇeji budeme diskutovat tento problém v závˇeru skript. Pro náhodné veliˇciny, jako je napˇr. vysvˇetlovan´ a promˇenn´ a Y ˇci fluktuace E, budeme pouˇz´ıvat zpravidla velká p´ısmena. Ostatnˇe to jiˇz naznaˇcil zápis (2). V´ yjimku budou tvoˇrit rezidua v regresn´ım modelu, ale ta pop´ıˇseme podrobnˇeji o nˇekolik ˇr´ adk˚ u n´ıˇze. V´ yjimka bude uˇcinˇena proto, aby nemohlo doj´ıt k zámˇenˇe s oznaˇcen´ım pro reálnou pˇr´ımku. Nˇekdy ten fakt, ˇze se jedná o náhodné veliˇciny naznaˇc´ıme jeˇstˇe zápisem Y (ω) ˇci E(ω). Pro realizace náhodn´ ych veliˇcin budeme uˇz´ıvat malá p´ısmenka, tj. v naˇsem pˇr´ıkladˇe y a e. Pro matice budeme d˚ uslednˇe pouˇz´ıvat

13

velká p´ısmena. Nav´ıc charakter dané entity, kromˇe toho, ˇze bude patrn´ y z jej´ıho slovn´ıho popisu, bude ˇcasto také zˇrejm´ y z toho, ˇze bude uvedeno, do které mnoˇziny patˇr´ı, napˇr. Y ∈ Rn . Jak jsme uˇz uvedli v´ yˇse, budeme v pˇrev´ aˇzné ˇc´ asti tohoto textu pˇredpokládat, ˇze matice plánu je deterministická, tj. omez´ıme se na model s pevn´ ymi nosiˇci. Model s náhodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi je obdobn´ y, nˇekdy “jednoduˇsˇs´ı”, nˇekdy “komplikovanˇejˇs´ı” neˇz model s pevn´ ymi nosiˇci. Pˇredpoklady pro obdobná tvrzen´ı v obou modelech jsou analogické, kromˇe toho, ˇze v modelu s náhodn´ ymi nosiˇci je tˇreba pˇredpokládat nezávislost nosiˇc˚ u a fluktuac´ı. Jak uˇz jsme v´ yˇse ˇrekli, toto neb´ yvá v uˇcebnic´ıch regresn´ı anal´ yzy zd˚ uraznˇeno, aˇc pokud tento pˇredpoklad neplat´ı, bˇeˇzné odhady, a to nejen metodou nejmenˇs´ıch ˇctverc˚ u, nejsou obecnˇe konsistentn´ı a je tˇreba uˇz´ıt jin´ ych postup˚ u, napˇr. instrumentáln´ıch promˇenn´ ych, kter´ ym bude vˇenov´ an jeden odstavec dalˇs´ıho textu. Pˇritom je zˇrejmé, ˇze nˇekdy bude charakter dat takov´ y, ˇze model s náhodn´ ymi nosiˇci bude adakvátnˇejˇs´ı. Pˇr´ıkladem m˚ uˇze poslouˇzit právˇe situace, kdy náhodné fluktuace jsou evidentnˇe závislé na nˇekteré vysvˇetluj´ıc´ı promˇenné. Na druhé stranˇe, jak uvid´ıme pozdˇeji pˇri diskuzi o v´ ypisech z statistick´ ych poˇc´ıtaˇcov´ ych knihovem, vˇetˇsina z nich nab´ız´ı i v rámci regresn´ı anal´ yzy “základn´ı” popisnou anal´ yzu dat, tj. napˇr. pr˚ umˇery a rozptyly jednotliv´ ych veliˇcin, jejich kovarianˇcn´ı matici, atd. Tyto charakteristiky, aˇz na ty, které se t´ ykaj´ı vysvˇetlované promˇenné, ovˇsem striktnˇe vzato postrádaj´ı smysl, pokud uvaˇzujeme model s pevn´ ymi nosiˇci. ’ A nyn´ı uved me nˇekteré pˇr´ıklady datov´ ych soubor˚ u, které lze zpracovat regresn´ı anal´ yzou. Pˇ r´ıklad 1 Data o spalovac´ıch motorech. Data zachycuj´ı (potenciáln´ı) závislost poˇctu ot´ aˇcek motoru (y) na ˇcasov´ an´ı z´ aˇzehu (x1 ), bohatosti palivové smˇesi (x2 ), teplotˇe této smˇesi pˇri nasávan´ı (x3 ) a teplotˇe spalin pˇri v´ yfuku (x4 ) (Mason, Gunst, Hess (1989) nebo Hettmansperger, Sheather (1992)).) Data vypadaj´ı takto: Data o spalovac´ıch motorech Poˇrad´ı

ˇ Casov´ an´ı záˇzehu

Bohatost smˇesi

Teplota smˇesi

Teplota spalin

Poˇcet otáˇcek

1 2 3 4 5 6 7 8 9 10 11 12 13

13.3 13.3 13.4 12.7 14.4 14.4 14.5 14.2 12.2 12.2 12.2 12.0 12.9

13.9 14.1 15.2 13.8 13.6 13.8 13.9 13.7 14.8 15.3 14.9 15.2 15.4

31 30 32 31 31 30 32 31 36 35 36 37 36

697 697 700 669 631 638 643 629 724 739 722 743 723

84.4 84.1 88.4 84.2 89.8 84.0 83.7 84.1 90.5 90.1 89.4 90.2 93.8

14

Data o spalovac´ıch motorech (pokraˇcov´ an´ı) Poˇrad´ı

ˇ Casov´ an´ı záˇzehu

Bohatost smˇesi

Teplota smˇesi

Teplota spalin

Poˇcet otáˇcek

14 15 16

12.7 12.9 12.7

16.1 15.1 15.9

35 36 37

649 721 696

93.0 93.3 93.1

Model odhadnut´ y pro v´ yˇse zm´ınˇenou závislost vypadá takto: y = 12.01 + 1.10 · x1 + 2.19 · x2 + 0.93 · x3 + 0.002 · x4 + f luktuace Skripta, která máte pˇred sebou Vám umoˇzn´ı nahlédnout, jak se takov´ y model odhadne z dat, jak se posoud´ı, ˇze má tento model nadˇeji b´ yt spolehliv´ y a pouˇziteln´ y napˇr. pro predikci. Nab´ıdnou Vám moˇznost nahlédnout r˚ uzná u ´skal´ı, na která pˇri zpracov´ an´ı dat m˚ uˇzete narazit aniˇz byste si jich tˇreba na prvn´ı pohled byli vˇedomi, a nauˇc´ı Vás jak se tˇemto u ´skal´ım vyhnout ˇci je zdolat. Jedn´ım z takov´ ych u ´skal´ı mohou b´ yt vlivné body, které je tˇreba rozpoznat a zjistit, zda jejich vliv na v´ ysledek regresn´ı anal´ yzy je pˇr´ınosn´ y nebo naopak destruktivn´ı. Pˇ r´ıklad 2 Data o slanosti vody v pr˚ ulivu “North Carolina Pamlico”. Data zaznamenávaj´ı slanost vody (y) v jednom z pr˚ uliv˚ u v Severn´ı Karolinˇe v závislosti na slanosti, která byla namˇeˇrena pˇred ˇctrnácti dny (oznaˇceno jako Posunut´ a slanost; x1 ), na stˇr´ıd´ an´ı dvout´ ydenn´ıch obdob´ı, o nichˇz si experimentátoˇri mysleli, ˇze mohou b´ yt signifikantn´ı (oznaˇceno Trend; x2 ) a na proudˇen´ı vody pr˚ ulivem (oznaˇceno Pr˚ utok; x3 ) (Ruppert, Carroll (1980) nebo Rousseeuw, Leroy (1987)). Data jsou uvedena v následuj´ıc´ı tabulce: Data o slanosti vody v pr˚ ulivu “North Carolina Pamlico” Poˇrad´ı

Posunutá slanost

Trend

Pr˚ utok

Slanost vody

1 2 3 4 5 6 7 8 9 10 11 12 13 14

8.2 7.6 4.6 4.3 5.9 5.0 6.5 8.3 10.1 13.2 12.6 10.4 10.8 13.1

4 5 0 1 2 3 4 5 0 1 2 3 4 5

23.01 23.87 26.42 24.87 29.90 24.20 23.22 21.86 22.27 23.83 25.14 22.43 21.79 22.38

7.6 7.7 4.3 5.9 5.0 6.5 8.3 8.2 13.2 12.6 10.4 10.8 13.1 12.3

15

Data o slanosti vody v pr˚ ulivu “North Carolina Pamlico” (pokraˇcov´ an´ı) Poˇrad´ı

Posunutá slanost

Trend

Pr˚ utok

Slanost vody

15 16 17 18 19 20 21 22 23 24 25 26 27 28

13.3 10.4 10.5 7.7 10.0 12.0 12.1 13.6 15.0 13.5 11.5 12.0 13.0 14.1

0 1 2 3 0 1 4 5 0 1 2 3 4 5

23.93 33.44 24.86 22.69 21.79 22.04 21.03 21.01 25.87 26.29 22.93 21.31 20.77 21.39

10.4 10.5 7.7 9.5 12.0 12.6 13.6 14.1 13.5 11.5 12.0 13.0 14.1 15.1

Po odhadnut´ı pˇr´ısluˇsn´ ych koeficient˚ u v modelu dostaneme: y = 9.590 + 0.777 · x1 − 0.026 · x2 − 0.295 · x3 + f luktuace. Zvláˇstn´ı na tˇechto datech je to, ˇze jednou promˇennou na pravé stranˇe rovnice, tj. vysvˇetluj´ıc´ı promˇennou je vlastnˇe jen posunutá ta promˇenn´ a, kterou se odhadovan´ y model snaˇz´ı vysvˇetlit pomoc´ı jin´ ych promˇenn´ ych. O tom, zda je v˚ ubec moˇzné nˇeco takového provést, aniˇz by zklamaly bˇeˇznˇe pouˇz´ıvané metody, budeme ve skriptech také diskutovat. Pˇ r´ıklad 3 Data o sportovn´ım klubu. Data zaznamenávaj´ı ˇcasy dosaˇzené v bˇehu na jednu m´ıli (y) jako promˇennou, která má b´ yt vysvˇetlena, a v´ ahu bˇeˇzc˚ u (x1 ), jejich zbytkov´ y puls po urˇcité dobˇe dobˇehnut´ı do c´ıle (x2 ) pˇri zkuˇsebn´ım bˇehu na ˇctvrt m´ıle (x3 ) a s´ılu paˇz´ı a nohou (x4 ) (Chatterjee, Hadi (1988)). Data vypadaj´ı takto: Data o sportovn´ım klubu Poˇrad´ı

Váha

Puls

S´ıla

Zkuˇsebn´ı bˇeh

ˇ Cas

1 2 3 4 5 6 7 8

217 141 152 153 180 193 162 180

67 52 58 56 66 71 65 80

260 190 203 183 170 178 160 170

91 66 68 70 77 82 74 84

481 292 338 357 396 429 345 469

16

Data o sportovn´ım klubu (pokraˇcov´ an´ı) Poˇrad´ı

Váha

Puls

S´ıla

Zkuˇsebn´ı bˇeh

ˇ Cas

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

205 168 232 146 173 155 212 138 147 197 165 125 161 132 257 236 149 161 198 245 141 177

77 74 65 68 51 64 66 70 54 76 59 58 52 62 64 72 57 57 59 70 63 53

188 170 220 158 243 198 220 180 150 228 188 160 190 163 313 225 173 173 220 218 193 183

83 79 72 68 56 59 77 62 75 88 70 66 69 59 96 84 68 65 62 69 60 75

425 358 393 346 279 311 401 267 404 442 368 295 391 264 487 481 374 309 367 469 252 338

Odhad modelu pro tato data je následuj´ıc´ı: y = −3.619 + 1.268 · x1 − 0.525 · x2 − 0.505 · x3 + 3.903 · x4 + f luktuace. M˚ uˇze matematická anal´ yza pˇrinést nˇejak´ a pˇrekvapen´ı oproti bˇeˇznému oˇcek´ av´ an´ı ? Patrnˇe ano, ’ nebot se ukáˇze, ˇze ani promˇennou puls ani s´ıla paˇz´ı a nohou nen´ı tˇreba pouˇz´ıt k vysvˇetlen´ı celkového ˇcasu. ´ data. Data popisuj´ı (moˇznou) závislost hrubého národn´ıho Pˇ r´ıklad 4 Demograficka d˚ uchodu na hlavu v roce 1957 (y) na dˇetské u ´mrtnosti (pr˚ umˇern´ y poˇcet u ´mrt´ı na 1000 ˇzivˇe narozen´ ych dˇet´ı - x1 ), poˇctu obyvatel na jednoho lékaˇre (x2 ), hustotˇe os´ıdlen´ı (poˇcet obyvatel 2 na km - x3 ), poˇctu obyvatel na 1000 ha zemˇedˇelsky vyuˇz´ıvané p˚ udy (x4 ), procentu gramotného obyvatelstva starˇs´ıho 15 let (x5 ), a na poˇctu student˚ u na vysok´ ych ˇskol´ ach na 105 obyvatel (x6 ), a to ve 49 zem´ıch svˇeta (Chatterjee, Hadi (1988)). Tady jsou data (na dalˇs´ı stranˇe):

17

Demografick´ a data Poˇrad´ı

Zemˇe

x1

x2

x3

x4

x5

x6

y

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

Australia Austria Barbados Belgium British Guiana Bulgaria Canada Chile Costa Rica Cyprus Czechoslovakia Denmark El Salvador Finland France Guatemala Hong Kong Hungary Iceland India Ireland Italy Jamaica Japan Luxembourg Malaya Malta Mauritius Mexico Netherlands New Zeland Nicaragua Norway Panama Poland Portugal Puerto Rico Romania Singapore Spain Sweden Switzerland

19.5 37.5 60.4 35.4 67.1 45.1 27.3 127.9 78.9 29.9 31.0 23.7 76.3 21.0 27.4 91.9 41.5 47.6 22.4 225.0 30.5 48.7 58.7 37.7 31.5 68.9 38.3 69.5 77.7 16.5 22.8 71.7 20.2 54.8 74.7 77.5 52.4 75.7 32.3 43.5 16.6 21.1

860 695 3000 819 3900 740 900 1700 2600 1400 620 830 5400 16001 1014 6400 3300 650 840 5200 1000 746 4300 930 910 6400 980 4500 1700 900 700 2800 946 3200 1100 1394 2200 788 2800 1000 1089 765

1 84 548 301 3 72 2 11 24 62 108 107 127 13 83 36 3082 108 2 138 40 164 143 254 123 54 1041 352 18 346 9 10 11 15 96 100 271 78 2904 61 17 133

21 1720 7121 5257 192 1380 257 1164 948 1042 1821 1434 1497 1512 1288 1365 98143 1370 79 2279 598 2323 3410 7563 2286 2980 8050 4711 296 4855 170 824 3420 838 1411 1087 4030 1248 108214 1347 1705 2320

98.5 98.5 91.1 96.7 74.0 85.0 97.5 80.1 79.4 60.5 97.5 98.5 39.4 98.5 96.4 29.4 57.5 97.5 98.5 19.3 98.5 87.5 77.0 98.0 96.5 38.4 57.6 51.8 50.0 98.5 98.5 38.4 98.5 65.7 95.0 55.9 81.0 89.0 50.0 87.0 88.5 98.5

856 546 24 536 27 456 645 257 326 78 398 570 89 529 667 135 176 258 445 220 362 362 42 750 36 475 142 14 258 923 839 110 258 371 351 272 1192 226 437 258 401 398

1316 670 200 1196 235 365 1947 379 357 467 680 1057 219 794 943 189 272 490 572 73 550 516 316 306 1388 356 377 225 262 836 1310 160 1130 329 475 224 563 360 400 293 1380 1428

18

Demografick´ a data. (pokraˇcován´ı) Poˇrad´ı

Zemˇe

x1

x2

x3

x4

x5

x6

y

43 44 45 46 47 48 49

Taiwan Trinidad United Kingdom United States USSR West Germany Yugoslavia

30.5 45.4 24.1 26.4 35.0 33.8 100.0

1500 2300 935 780 578 798 1637

305 168 217 20 10 217 73

10446 4383 2677 399 339 3631 1215

54.0 73.8 98.5 98.0 95.0 98.5 77.0

329 61 460 1983 539 528 524

161 423 1189 2577 600 927 265

Odhadnut´ y model vypadá takto y = 112.89 − 3.62 · x1 + 0.01 · x2 − 0.19 · x3 + 0.003 · x4 + 5.57 · x5 + 0.69 · x6 + f luktuace. Nˇekteré velmi malé koeficienty u nˇekter´ ych vysvˇetluj´ıc´ıch promˇenn´ ych napov´ıdaj´ı, ˇze byly zaˇrazeny do modelu patrnˇe zbyteˇcnˇe. I to se v dalˇs´ım textu nauˇc´ıme posoudit, právˇe tak jako zda cel´ y model je adekvátn´ı ˇci nikoliv. ´ daj´ıch na ˇ Pˇ r´ıklad 5 Data o vy skolstv´ı. Data vypov´ıdaj´ı o (moˇzné) závislosti v´ ydaj˚ u na ˇskolstv´ı v 50 státech v U.S.A. (y) na procentu obyvatel státu bydl´ıc´ıch v urbanistick´ ych centrech (x1 ), osobn´ım pˇr´ıjmu na jednoho obyvatele (x2 ) a procentu obyvatel mladˇs´ıch 18 let (x3 ) (Chatterjee, Price (1977)). Vzhledem k tomu, ˇze dalˇs´ı pomˇernˇe rozsáhl´ a data by zbyteˇcnˇe pl´ ytvala m´ıstem, odkazujeme ˇctenáˇre na p˚ uvodn´ı zdroj, pˇr´ıpadnˇe na autora tˇechto skript, kter´ y má tato (a mnohá dalˇs´ı data) na magnetickém nosiˇci. Model poˇr´ızen´ y z tˇechto dat je následuj´ıc´ı y = −556.57 − 0.0043 · x1 + 0.072 · x2 + 1.55 · x3 + f luktuace. Znaˇcnˇe velká hodnota absolutn´ıho ˇclenu v modelu oproti hodnotám koeficient˚ u u vysvˇetluj´ıc´ıch promˇenn´ ych svád´ı k tomu si myslet, ˇze vlastnˇe vysvˇetluj´ıc´ı promˇenné nic nevysvˇetluj´ı. Je tomu opravdu tak ? Zodpovˇedˇet takovou otázku se také dále nauˇc´ıme. ˇ v U.S.A. Data obsahuj´ı u Pˇ r´ıklad 6 Data o kriminalite ´daje o v´ yˇsi kriminality ve 47 státech Spojen´ ych stát˚ u (y), o procentu muˇz˚ u mezi 18 a 28 roky vˇeku (x1 ), u ´daje o vzdˇelanosti obyvatelstva (x2 ), o v´ ydaj´ıch na policii (x3 ) a u ´daje o pˇr´ıjmu na jednoho obyvatele (x4 ) (Vandaele (1978)nebo Hand a ostat. (1994) ). Data by opˇet zab´ırala dosti velké m´ısto a tak odkazujeme na p˚ uvodn´ı zdroj ˇci autora skript, kter´ y je kterémukoliv zájemci rád okop´ıruje. Odhadneme-li opˇet model, dostaneme y = −424.92 + 0.76 · x1 + 1.66 · x2 + 1.30 · x3 + 0.64 · x4 + f luktuace. Dalˇs´ı pˇr´ıklady m˚ uˇze zv´ıdav´ y ˇctenáˇr nalézt napˇr. v monografii Berndt (1990) ˇci Kmenta (1986). 19

V závˇeru u ´vodu si dovolme pˇripomenout jednu interpretaˇcn´ı záleˇzitost. V nˇekter´ ych uˇcebnic´ıch jsou náhodné fluktuace Ei interpretovány jako chyby mˇeˇren´ı vysvˇetlované veliˇciny Yi . To je vˇsak interpretace jen omezenˇe udrˇzitelná. Pokud bychom pˇredpokládali situaci, ˇze jak vysvˇetlovan´ a, tak vysvˇetluj´ıc´ı promˇenné jsou mˇeˇreny (zhruba) se stejnou pˇresnost´ı, pak by tento fakt vyˇzadoval, aby byl zahrnut do naˇsich u ´vah. Takov´ y model probereme n´ıˇze a uvid´ıme, ˇze k jeho zvládnut´ı je potˇreba ponˇekud jin´ y pˇr´ıstup neˇz k modelu (3). Slovo “omezenˇe”, uˇzité o nˇekolik ˇr´ adk˚ u v´ yˇse naznaˇcuje, ˇze tato interpretace je udrˇziteln´ a za pˇredpokladu, ˇze by pˇresnost mˇeˇren´ı vysvˇetluj´ıc´ıch veliˇcin xi byla mnohem pˇresnˇejˇs´ı neˇz pˇresnost mˇeˇren´ı Yi . Daleko pˇrirozenˇejˇs´ı interpretace ˇci chcete-li aplikace modelu je ta, kdy pˇredpoklád´ ame, ˇze na veliˇcinu Yi maj´ı (náhodn´ y) vliv jeˇstˇe dalˇs´ı faktory, které ale bud’ nen´ı snadné modelovat nebo je u ´myslnˇe nechceme, z nˇejakého d˚ uvodu, popsat explicite, ˇci jsou tyto “náhodné v´ ykyvy” tak malé, ˇze je lépe je nemodelovat. Dˇr´ıve neˇz se pust´ıme do vlastn´ıho v´ ykladu regresn´ı anal´ yzy, poznamenejme jeˇstˇe, ˇze koncepce skript je taková, aby zhruba ve své prvé polovinˇe prokázala, ˇze regresn´ı anal´ yza je postavena na solidn´ı matematice a jej´ı teorie je dobˇre propracovan´ a. Druhá ˇc´ ast skript, patrnˇe vˇsak menˇs´ı polovina, je m´ısty psána jiˇz jen pˇrehledovˇe, byt’ nˇekteré partie, viz napˇr. kapitola vˇenovan´ a Durbin-Watsonovˇe statistce, jsou naopak podrobnˇejˇs´ı neˇz mnohé monografie a popisuj´ı dokonce historii v´ yvoje té ˇci oné oblasti regresn´ı anal´ yzy. A právˇe partie vˇenovan´ a Durbin-Watsonovˇe statistce ukazuje, ˇze i dnes stoj´ı za to alespoˇ n obˇcas nahlédnout do p˚ uvodn´ıch pramen˚ u, nebot’ se stává, ˇze pˇr´ısluˇsné partie jsou opisovány z monografie do monografie, vˇcetnˇe zkreslen´ı, kterého se dopustil autor té prvé. D´ıky tomu se pak m˚ uˇze do povˇedom´ı ˇsiroké veˇrejnosti dostal ponˇekud zkreslen´ y obraz o p˚ uvodn´ım v´ ysledku. V citovaném pˇr´ıpadˇe se napˇr. traduje naprosto heuristika, která stoj´ı za Durbin-Watsonovou statistikou, která neodpov´ıd´ a heuristice, která vysv´ıt´ az postupu, kter´ y Durbin a Watson pouˇzili. statist

3 3.1

LINERNÍ REGRESNÍ MODEL Odhad regresn´ıch koeficient˚ u

Budeme tedy nadále uvaˇzovat model Yi = xTi β 0 + Ei ,

i = 1, 2, . . . , n

(4)

pro vˇsechna pˇrirozená n, a to s pevnˇe zadan´ ymi nosiˇci x1 , x2 , . . . , xn , kde transponovan´ y vektor T xi = xi1 , xi2 , . . . , xip tvoˇr´ı i-t´ y ˇrádek matice plánu 

x11 , x12 , · · · , x1p   x21 , x22 , · · · , x2p X= .. ..  . .  xn1 , xn2 , · · · , xnp

   .  

(5)

Pˇri studiu lineárn´ıho regresn´ıho modelu se nˇekdy prvn´ı souˇradnice vektoru regresn´ıch koeficient˚ u uvaˇzuje spoleˇcná vˇsem pozorován´ım. Jin´ ymi slovy, nenásob´ıme tento koeficient ˇz´ adnou vysvˇetluj´ıc´ı promˇennou a oznaˇcujeme jej jako absolutn´ı ˇclen, v anglické literatuˇre (a nyn´ı ˇcasto i v ˇceské) intercept. Toto druhé oznaˇcen´ı pouˇzijeme v pˇr´ıpadˇe, kdyˇz budeme potˇrebovat ˇsetˇrit 20

m´ıstem, napˇr. v tabulkách. Model je pak ˇcasto zapisov´ an ve tvaru Yi = α + xTi β 0 + Ei , ˇci Yi = α +

k X

xij βj0 + Ei ,

i = 1, 2, . . . , n

i = 1, 2, . . . , n,

j=1

kde k = p − 1. My vˇsak budeme v cel´ ych skriptech dávat pˇrednost zápisu (4), z ˇcehoˇz plyne, ˇze pokud budeme uvaˇzovat model s absolutn´ım ˇclenem, mus´ıme m´ıt xi1 = 1, i = 1, 2, . . . , n. To vˇsak neznamená, ˇze by tento zápis naznaˇcoval, ˇze absolutn´ı ˇclen a zb´ yvaj´ıc´ı regresn´ı koeficienty, ze zˇrejmého d˚ uvodu nˇekdy oznaˇcované slopes, maj´ı v modelu stejné postaven´ı. Pozdˇeji se vrát´ıme k diskuzi, proˇc má absolutn´ı ˇclen zvláˇstn´ı m´ısto v modelu a proˇc je dobˇre s n´ım poˇc´ıtat i v pˇr´ıpadˇe, kdy rutinn´ı postup pˇri regresn´ı anal´ yze naznaˇcuje, ˇze by mohl b´ yt tento parametr statisticky nev´ yznamn´ y. Matice X b´ yvá ˇcasto oznaˇcována jako o designov´ a matice. Znovu pˇripom´ın´ ame, ˇze v dalˇs´ım ’ v´ ykladu budeme m´ıt na mysli, byt toto budeme pro jistotu obˇcas opakovat, zejména situaci, kdy plat´ı podm´ınky: Podm´ınky A Posloupnost {Ei }∞ ı nekorelovaných n´ ahodných veliˇcin s i=1 je posloupnost´ 2 nulovou stˇredn´ı hodnotou a koneˇcným kladným rozptylem σ , který je stejný pro vˇsechny tyto veliˇciny. Podm´ınky A lze pomoci jiˇz zavedeného formalizmu pˇrepsat následovnˇe: 1.

IE Ei = 0,

i = 1, 2, ...

2.

IE Ei2 = σ 2 , i = 1, 2, ... σ 2 ∈ (0, ∞),

3.

IE Ei Ej = 0 i = 1, 2, ... i < j,

kde symbol IE oznaˇcuje stˇredn´ı hodnotu. Nˇekdy jsou jednotlivé podm´ınky (z v´ yˇse uveden´ ych) oznaˇcovány “jmény”. Mluv´ıme pak o podm´ınce homoskedasticity, ˇr´ıkaj´ıc´ı, ˇze vˇsechny rozptyly jsou stejné (to je podm´ınka ˇc´ıslo 2), ˇci o podm´ınce nekorelovanosti (to je podm´ınka ˇc´ıslo 3). Pozdˇeji budeme nˇekdy pˇredpokládat, ˇze vˇsechny veliˇciny Ei maj´ı stejné a to normáln´ı rozdˇelen´ı. Potom samozˇrejmˇe z pˇredpokladu nekorelovanosti dostaneme jejich nezávislost. V celém tomto uˇcebn´ım textu budeme pro zachov´ an´ı jednoduchosti, poˇr´ adku a vylouˇcen´ı pˇr´ıpadn´ ych omyl˚ u vˇsechny vektory uvaˇzovat jako sloupcové. To znamená, ˇze pokud vyjmeme nˇekter´ y, ˇreknˇeme `-t´ y, ˇrádek z matice plánu X budeme jej povaˇzovat nikoliv za ˇr´ adek, ale za sloupcov´ y vektor x` . Pro sloupce matice zavedeme, aˇz to budeme potˇrebovat, jiné symboly neˇz x` . Pro kaˇzdé β ∈ Rp definujme rezidua ri (β) = yi − xTi β

i = 1, 2, . . . , n.

Opˇet se bude jednat bud’ o ˇc´ısla, ri (β), vzeˇsl´ a z nˇekteré numerické anal´ yzy nebo o náhodné veliˇciny ri (β, ω), které jsou náhodné proto, ˇze Y je náhodná veliˇcina a xi a β jsou deterministicky

21

dané, nebo i Xi jsou náhodné veliˇciny, pak ri (β) = Yi − Xi β nebo ri (βˆ(n) ) = Yi − Xi βˆ(n) , tj. i βˆ(n) je náhodné, nebo koneˇcnˇe, coˇz bude náˇs nejˇcastˇejˇs´ı pˇr´ıpad, ri (βˆ(LS,n) ) = Yi − xTi βˆ(LS,n)

i = 1, 2, . . . , n,

(6)

tj. Y a βˆ(LS,n) jsou náhodné a xi deterministické. Jednotlivé eventuality budou opˇet snadno rozliˇsitelné z kontextu. Budeme-li se napˇr´ıklad bavit o vlastnostech LS-odhadu a jeho rezidu´ı, bude zˇrejmé, ˇze jde o eventualitu (6). Pˇripomeˇ nme, ˇze fluktuace Ei v modelu (4) nejsou nic v´ıce 0 ani ménˇe neˇz ri (β , ω). Po pˇreps´ an´ı modelu (4) do maticového zápisu, dostaneme Y = Xβ 0 + E,

(7)

kde Y = (Y1 , Y2 , . . . , Yn )T , X a β 0 jsou jiˇz dˇr´ıve popsaná matice plánu a vektor regresn´ıch koeficient˚ u a koneˇcnˇe E = (E1 , E2 , . . . , En )T je vektor náhodn´ ych fluktuac´ı. Tento zápis je pˇrirozenˇe pˇrehlednˇejˇs´ı, byt’ ponˇekud ménˇe “samovysvˇetluj´ıc´ı” sv˚ uj v´ yznam neˇz (4). Budeme jej vˇsak pˇresto pouˇz´ıvat alternativnˇe se zápisem (4), nebot’ v nˇekter´ ych pˇr´ıpadech zjednoduˇs´ı a zpˇrehledn´ı provádˇené u ´pravy v´ yraz˚ u. Odhad regresn´ıch koeficient˚ u metodou nejmenˇs´ıch ˇctverc˚ u definuje pak jako βˆ(LS,n) (ω) = arg min β∈Rp

n X

(Yi − xTi β)2 = arg min (Y − Xβ)T (Y − Xβ), β∈Rp

i=1

(8)

kde “arg min” znamená, ˇze za odhad povaˇzujeme takovou hodnotu argumentu, v naˇsem pˇr´ıpadˇe β ∈ Rp , která pˇr´ısluˇsn´ y v´ yraz, kter´ y následuje za “arg min”, minimalizuje. Podobnˇe pro “arg max”. Heuristika, jistˇe nikoliv jediná, stoj´ıc´ı za metodou LS se op´ır´ a o myˇslenku, ˇze malá rezidua jsou nepodstatná a tedy je umocnˇen´ım na druhou jeˇstˇe zmenˇs´ıme a nebereme je pˇr´ıliˇs v u ´vahu. Na druhé stranˇe velká rezidua jsou závaˇzn´ a a umocnˇen´ım na druhou je jeˇstˇe zvˇetˇs´ıme, ˇc´ımˇz “donut´ıme” minimalizaˇcn´ı proces vz´ıt tato velk´ a rezidua velmi váˇznˇe. To je samozˇrejmˇe velice ’ dobˇre akceptovatelná myˇslenka, nebot vede k tomu, ˇze metoda LS je citlivá na odlehlá pozorován´ı ve vysvˇetluj´ıc´ı promˇenné (takov´ a pozorov´ an´ı b´ yvaj´ı oznaˇcov´ ana jako outliers) i na odlehlá pozorován´ı ve vysvˇetluj´ıc´ıch promˇenn´ ych (takov´ a pozorov´ an´ı b´ yvaj´ı oznaˇcov´ ana jako leverage points, a patrnˇe neexistuje uspokojiv´ y ˇcesk´ y pˇreklad). Snad by bylo moˇzné mluvit o odlehlých bodech u prvé skupiny a o p´ akových bodech ve druhé skupinˇe, pokud bychom pouˇzili otrockého pˇrekladu. Samozˇrejmˇe se nab´ız´ı srovn´ an´ı s p´ akovým efektem, kter´ y je znám v ekonomii. Obˇe skupiny pozorován´ı se z pochopiteln´ ych d˚ uvod˚ u ˇcasto oznaˇcuj´ı jako vlivné body. D˚ uvody, proˇc tato pozorován´ı jsou vlivná snadno nahlédneme z normáln´ıch rovnic, které za chv´ıli uvedeme. V´ yˇse uvedená idea má vˇsak i své ˇcertovo kop´ ytko a nepochybnˇe lze se stejnou samozˇrejmost´ı obhajovat i zcela opaˇcn´ y poˇzadavek, totiˇz ˇze by metoda odhadu parametr˚ u nemˇela b´ yt citlivá na velká rezidua, pokud by jich bylo jen nˇekolik. To, ˇze citlivost na vlivné body m˚ uˇze b´ yt nˇekdy, napˇr. pˇri automatizovaném zpracován´ı dat, prob´ıhaj´ıc´ım bez d˚ ukladného dozoru zpracovatele, sebevraˇzedná, snad nejlépe ukazuje následuj´ıc´ı obrázek presentuj´ıc´ı data, která popisuj´ı závislost mezi povrchovou teplotou hvˇezdy a jej´ım jasem (Humphreys (1978)). 22

A A Z´ avislost jasu hvˇezdy na jej´ı povrchové teplotˇe.

(Plná ˇcára naznaˇcuje odhad modelu poˇr´ızen´ y pomoc´ı LS.)

Obr. 1

Nen´ı tˇreba m´ıt sebemenˇs´ı matematické vzdˇel´ an´ı k tomu, aby nás napadlo, ˇze ˇctyˇri body leˇz´ıc´ı v levém horn´ım rohu obrázku jsou “nekonsistentn´ı” s ostatn´ımi pozorov´ an´ımi a opravdu pˇri dalˇs´ım zkoumán´ı se ukázala fyzikáln´ı odliˇsnost tˇechto objekt˚ u od vˇsech ostatn´ıch. Vylouˇc´ımeli tyto body ze souboru, dostaneme toto. Z´ avislost jasu hvˇezdy na jej´ı povrchové teplotˇe.

(Plná ˇcára naznaˇcuje odhad modelu poˇr´ızen´ y pomoc´ı LS po vylouˇcen´ı v´ yˇse diskutovan´ ych bod˚ u.)

Obr. 2

Z tohoto pˇr´ıkladu se zdá, ˇze vizuáln´ı anal´ yza dat m˚ uˇze mnohdy podstatnˇe napomoci pˇri jejich zpracován´ı. To je jistˇe pravda, ale jako kaˇzd´ y postup má i tento svá ohraniˇcen´ı. Snadno 23

lze nalézt v´ıcerozmˇerná data, ve kter´ ych jsou vlivná pozorov´ an´ı tak dobˇre zamaskov´ ana, ˇze ani dobr´ y grafick´ y editor, umoˇzn ˇuj´ıc´ı napˇr. trojrozmˇerné zobrazen´ı dat a jejich otáˇcen´ı v prostoru, tuto kontaminaci dat nenalezne. (Tento term´ın, zamaskov´ ana se pˇri zpracov´ an´ı dat opravdu pouˇz´ıvá, tj. nejde o metaforu. Z tˇechto d˚ uvod˚ u je vhodné pouˇz´ıt pˇri zpracov´ av´ an´ı dat také nˇekteré diagnostické prostˇredky, pˇr´ıpadnˇe jiné odhady modelu neˇz jen LS. Vr´ at´ıme se k tˇemto problém˚ um pozdˇeji. Dˇr´ıve neˇz postoup´ıme dále poctivˇe pˇriznejme, ˇze d˚ uvod k zaveden´ı LS, alespoˇ n pro Carla Friedricha Gausse, byla numerická proveditelnost v´ yˇse naznaˇcené minimalizace, tj. technick´ a jednoduchost metody. V práci z roku 1809 napsal: “Ale ze vˇsech tˇechto princip˚ u je metoda nejmenˇs´ıch ˇctverc˚ u principem nejz´ akladnˇejˇs´ım. Vˇsechny ostatn´ı n´ as zav´ adˇej´ı do mnohem komplikovanˇejˇs´ıch výpoˇct˚ u.” Moˇzná, ˇze se nˇekterému ˇcten´ aˇri bude zdát divné, ˇze je technick´ a jednoduchost nadˇrazena “objektivitˇe” (ˇci “správnosti” ˇci “pravdivosti”, pˇr´ıpadnˇe si doplˇ nte jiné vzneˇsené slovo). Pˇripomeˇ nme vˇsak, ˇze jednoduchost teorie je obecnˇe pˇrij´ıman´ ym kritériem pˇri porovn´ av´ an´ı teori´ı ˇci dáván´ı pˇrednosti jinak stejnˇe dobˇre funguj´ıc´ım teori´ım, viz Ocamova bˇritva, Kuhn (1965). Nav´ıc, pˇred masov´ ym rozˇs´ıˇren´ım relativnˇe levné a nepochybnˇe v´ ykonné poˇc´ıtaˇcové techniky, byla jednoduchost v´ ypoˇctu vlastnˇe podm´ınkou aplikovatelnosti metody. Zaˇcnˇeme nyn´ı s budován´ım vlastn´ı teorie. Snadno se nahlédne, ˇze vˇzdy existuje ˇreˇsen´ı problému (8). Ukazuje to následuj´ıc´ı lemma. Dˇr´ıve neˇz ji vˇsak vyslov´ıme, zaved’me jeˇstˇe jedno oznaˇcen´ı. Symbolem M(A) budeme oznaˇcovat vektorov´ y podprostor prostoru Rn , kter´ y je generován sloupci matice A. Dimenze podprostoru i typ matice vyplyne z kontextu. Jeˇstˇe jednou zd˚ uraznˇeme, ˇze M(A) je generován sloupci matice A. Ostatnˇe tvar regresn´ıho modelu, ve kterém kombinujeme pomoc´ı vektoru regresn´ıch koeficient˚ u β sloupce matice X napov´ıd´ a, ˇze se budeme zaj´ımat o prostory generované sloupci pˇr´ısluˇsn´ ych matic. Je sice pravda, ˇze prostoty T M(A) a M(A ) maj´ı mnoho spoleˇcného (napˇr. hodnost), ale jinak se jedná o r˚ uzné prostory. LEMMA 1 Necht’ Y ∈ Rn a k necht’ je dimense podprostoru generovaného sloupci matice pl´ anu. Potom existuje pr´ avˇe jeden vektor U ∈ M(X) = Rn,k takový, ˇze Y = U + Z a Z⊥M(X), kde “⊥” oznaˇcuje fakt, ˇze vektor Z je kolmý k podprostoru M(X). D˚ ukaz. Necht’ {u1 , u2 , . . . , uk } a {u1 , u2 , . . . , uk . . . , un } jsou ortogonáln´ı báze M(X) a Rn . Pak n Y =

X i=1

αi ui , P

P

pro nˇekterá reálná α1 , α2 , . . . , αn . Poloˇzme U = ki=1 αi ui a Z = ni=k+1 αi ui . Pak Z⊥M(X) a Y = U + Z. T´ım je dokázána existence vektor˚ u U a Z. Necht’ dále Y = U1 + Z1 a Y = U2 + Z2 , U1 , U2 ∈ M(X), Z1 , Z2 ⊥M(X). Pak U1 − U2 = Z1 − Z2 a nav´ıc U1 − U2 ∈ M(X) a Z1 − Z2 ⊥M(X), a tedy U1 − U2 ⊥Z1 − Z2 , tj. U1 − U2 = 0 = Z1 − Z2 . T´ım je ukáz´ ana jednoznaˇcnost rozkladu. 2 Nyn´ı necht’ U ∈ M(X) je vektor z pˇredchoz´ıho lemmatu. Pro libovoln´ y jin´ y vektor W ∈ M(X) pak máme (Y − W )T (Y − W ) = [(Y − U ) − (U − W )]T [(Y − U ) − (U − W )] = (Y − U )T (Y − U ) + (U − W )T (U − W ) ≥ (Y − U )T (Y − U ). 24

K ˇreˇsen´ı (8) tedy staˇc´ı nalézt β ∈ Rk tak, aby lineárn´ı kombinace sloupc˚ u matice plánu, která (LS,n) vystupuje v (8) jako Xβ, byla rovna U , tj. U = X βˆ . To vˇzdy lze provést a nav´ıc pokud k = p, tj. pokud je dimenze prostoru M(X) rovna p. V tom pˇr´ıpadˇe mluv´ıme o tom, ˇze matice X je plné hodnosti ˇci ˇze model je plné hodnosti. Sloupce matice X pak tvoˇr´ı bázi pˇr´ısluˇsného podprostoru a βˆ(LS,n) je urˇceno jednoznaˇcnˇe. Pˇripomeˇ nme, ˇze p oznaˇcuje poˇcet sloupc˚ u matice X. Vzhledem k tomu, ˇze nyn´ı jiˇz v´ıme, ˇze ˇreˇsen´ı problému (8) vˇzdy existuje m˚ uˇzeme je hledat T tak, ˇze vypoˇcteme parciáln´ı derivace funkcion´ alu (Y − Xβ) (Y − Xβ) dle β` a poloˇz´ıme je rovné nule. Takto vzniklé soustavˇe rovnic se ˇcasto ˇr´ık´ a norm´ aln´ı rovnice. Protoˇze ∂

Pp

j=1 xij βj

∂β` máme

∂

Pn

i=1 (Yi

− xTi β)2

∂β`

= −2

= xi` , n X

(Yi − xTi β)xi` .

i=1

Normáln´ı rovnice tedy maj´ı tvar n X

(Yi − xTi β)xi` = 0

pro

` = 1, 2, . . . , p,

(9)

i=1

ˇci v maticovém zápise X T (Y − Xβ) = 0.

(10)

βˆ(LS,n) = (X T X)−1 X T Y,

(11)

Je-li k = p dostaneme pokud k < p, pak βˆ(LS,n) = (X T X)− X T Y, kde (X T X)− je nˇekterá levá pseudoinverse matice X T X, coˇz (znovu) indikuje, ˇze v tomto pˇr´ıpadˇe βˆ(LS,n) nen´ı urˇceno jednoznaˇcnˇe. Nadále budeme pro jednoduchost pˇredpokládat, ˇze matice plánu je plné hodnosti. Ostatnˇe pokud by matice plánu nebyla plné hodnosti prostˇe nˇekter´ y z jej´ıch sloupc˚ u vylouˇc´ıme. Tento postup nen´ı moˇzn´ y, ˇci je alespoˇ n problematick´ y, v pˇr´ıpadˇe, ˇze se jedná o náhodné nosiˇce nebo uvaˇzujeme matici X z´ avislou na nˇejak´ ych parametrech, pˇriˇcemˇz pouze pro nˇekterou “konstelaci” parametr˚ u dojde ke ztrátˇe plné hodnosti modelu. V dalˇs´ım vˇsak pˇrijmeme pˇredpoklady, které (alespoˇ n asymptoticky) tuto moˇznost vylouˇc´ı. Nicménˇe v literatuˇre lze nalézt diskuzi takov´ ych situac´ı, Judge a kol. (1980), Zvára (1989)). Pot´ıˇze v´ ypoˇcetn´ıho rázu a zhorˇsen´ı kvality odhadu (ve smyslu velkého rozptylu) mohou nastat v pˇr´ıpadˇe, ˇze matice X T X je sice regulárn´ı a tedy (X T X)−1 existuje, ale je tzv. ˇspatnˇe podm´ınˇena, tj. je na “pokraji” singularity. V takovém pˇr´ıpadˇe jsou jej´ı sloupce “témˇeˇr” lineárnˇe závislé a mluv´ıme o problému kolinearity, ke kterému se rovnˇeˇz pozdˇeji vrát´ıme. Form´ alnˇe se v´ yˇse naznaˇcené vylouˇcen´ı nˇekterého sloupce (ˇci sloupc˚ u) matice X v pˇr´ıpadˇe, ˇze tato nen´ı plné hodnosti, provede takto: Necht’ V1 , V2 , . . . , Vk , Vk+1 , . . . , Vp jsou sloupce matice X, pˇriˇcemˇz prvn´ıch k je lineárnˇe nezávisl´ ych, ostatn´ı jsou na nich závislé, jin´ ymi slovy jsou lineárn´ımi kombinacemi tˇech prvn´ıch k. Form´ alnˇe to znamená, ˇze existuje matice Λ takov´ a, ˇze (Vk+1 , . . . , Vp ) = (V1 , V2 , . . . , Vk ) · Λ. 25

Pak ale Xβ 0 = (V1 , V2 , . . . , Vk )(β1 , β2 , . . . , βk )T + (V1 , V2 , . . . , Vk )Λ(βk+1 , βk+2 , . . . , βp )T = (V1 , V2 , . . . , Vk )(γ10 , γ20 , . . . , γk0 )T , kde γ 0 = (γ10 , γ20 , . . . , γk0 )T = (β1 , β2 , . . . , βk )T + Λ(βk+1 , βk+2 , . . . , βp )T , odkud opravdu potˇrebujeme pouze k parametr˚ u. (n) ˆ Odhad β oznaˇcujeme jako lineárn´ı, pokud βˆ(n) = LY kde L je nˇekter´ a, na Y nezávislá, (p × n)-rozmˇerná matice. Pochopitelnˇe, ˇze bude L = L(X), tj. slovy, funkc´ı vysvˇetluj´ıc´ıch promˇenn´ ych. Jinak by byl odhad βˆ(n) dosti podivn´ y, nebot’ u ´vahu informaci nesenou vysvˇetluj´ıc´ımi promˇenn´ ymi.

je vidˇet, ˇze samozˇrejmˇe matice L je by nebral v

LEMMA 2 Necht’ posloupnost {Ei }∞ ı nez´ avislých a stejnˇe rozdˇelených n´ ahodných i=1 je posloupnost´ veliˇcin s nulovou stˇredn´ı hodnotou a koneˇcným kladným rozptylem σ 2 . Potom je βˆ(LS,n) nejlepˇs´ım nestranným line´ arn´ım odhadem parametru β 0 . Pokud nav´ıc existuje h(n) : N → R tak, ˇze (X T X)−1 = O(h−1 (n))

(12)

X T X = o(h2 (n)),

(13)

a potom βˆ(LS,n) je silnˇe konsistentn´ım odhadem. Zes´ıl´ıme-li jeˇstˇe (12) na lim n→∞

1 T X X = Q, n

(14)

kde Q je nˇekter´ a regul´ arn´ı matice, potom √ n(βˆ(LS,n) − β 0 )

(15)

je asymptoticky norm´ aln´ı N (0, Σ), kde Σ = σ 2 Q−1 . Dˇr´ıve neˇz pust´ıme do d˚ ukazu tohoto lemmatu, uˇcin´ıme dvˇe technické poznámky. Pozorn´ y ˇctenáˇr dosud uvedeného textu jiˇz nahlédl, ˇze je tˇreba odliˇsovat βˆ(n) jako statistiku (tj. náhodnou veliˇcinu) a βˆ(n) jako hodnotu odhadu pro nˇekter´ a data. Rozliˇsen´ı vyplyne z kontextu. Ve statistické literatuˇre se tyto dvˇe entity obvykle ani formálnˇe nerozliˇsuj´ı a je docela moˇzné, ˇze nˇekdy ménˇe pozorn´ı ˇctenáˇri tento rozd´ıl ani nezaznamenaj´ı. Proto si obˇcas dovol´ıme, bude-li to vhodné, naznaˇcit oznaˇcen´ım βˆ(n) (ω), ˇze se jedná o tu prvn´ı moˇznost, tj. o odhad jako náhodnou veliˇcinu. To znamená jin´ ymi slovy, ˇze βˆ(LS,n) (ω) je nalezen jako nˇejak´ a formule zahrnuj´ıc´ı Yi a Xi , i = 1, 2, . . . , n, viz (11), metodou nejmenˇs´ıch ˇctverc˚ u na základˇe poˇc´ ateˇcn´ıho ∞ ∞ u ´seku délky n ∈ N posloupnost´ı náhodn´ ych veliˇcin {Yi (ω)}i=1 a {Xi (ω)}i=1 a bude pouˇz´ıv´ an (LS,n) ˆ k teoretick´ ym u ´vahám (napˇr. k d˚ ukazu konsistence odhadu), zat´ımco β je vyˇc´ıslen pro nˇekterá konkrétn´ı data, tj. pro deterministické posloupnosti {Yi (ω0 )}ni=1 a {Xi (ω0 )}ni=1 , kde ω0 je nˇekter´ y bod z Ω. Zd˚ urazˇ nujeme vˇsak jeˇstˇe jednou, ˇze ve vˇetˇsinˇe pˇr´ıpad˚ u budeme “(ω)” vynech´ avat, nebot’ (n) ˆ ˆ rozliˇsen´ı mezi β (ω) a β bude naprosto zˇrejmé z kontextu. Budeme-li napˇr. mluvit o konsistenci 26

ˆ bude zˇrejmé, ˇze máme na mysli odhad jako náhodnou veliˇcinu, tj. ˇci asymptotické normalitˇe β, ˆ β(ω), a nikoliv ˇc´ıselnou hodnotu odhadu pro nˇekter´ a data. Druhá poznámka je urˇcena ˇctenáˇri, kter´ y se snad poprvé v ˇzivotˇe setkáv´ a s tvrzen´ım o asymptotickém rozdˇelen´ı nˇekterého odhadu. Jak plyne z Lemmatu 2 (tedy aˇz jej dokáˇzeme) je odhad βˆ(LS,n) silnˇe konsistentn´ı. To je d˚ uvod proˇc se ve vztahu (15) objevuje násoben´ı faktorem √ n. Bez této normalizace by samozˇrejmˇe naznaˇcen´ y rozd´ıl pˇri n → ∞ konvergoval k nule. D˚ ukaz Lemmatu 2. Necht’ L je nˇekter´ a (p×n)-rozmˇern´ a matice, L∗ = (X T X)−1 X T a β˜(n) = LY . Pak z poˇzadavku nestrannosti, kter´ y mus´ı platit pro libovolné β ∈ Rp , nebot’ nezn´ ame 0 p hodnotu β , plyne, ˇze pro vˇsechna β ∈ R IEβ β˜(n) = LIEβ Y = LXβ = β

(16)

LX = I,

(17)

a tud´ıˇz kde I je (p × p)-rozmˇerná jednotková matice a doln´ı index u stˇredn´ı hodnoty naznaˇcuje, ˇze tato je poˇc´ıtána “v modelu”, ve kterém je vektor regresn´ıch koeficient˚ u roven β. Abychom uzavˇreli d˚ ukaz prvé ˇcásti tvrzen´ı lemmatu, potˇrebujeme dokázat, ˇze pro libovolné λ ∈ Rp je λT cov{βˆ(LS,n) }λ ≤ λT cov{β˜(n) }λ, kde cov{·} oznaˇcuje pˇr´ısluˇsnou kovarianˇcn´ı matici. Snadno se ovˇeˇr´ı, ˇze (viz (16) a (17)) λT cov{β˜(n) }λ = λT IE {(LY − β)T (LY − β)}λ = λT IE {(LY − LXβ)T (LY − LXβ)}λ = λT LIE {(Y − Xβ)T (Y − Xβ)}LT λ = λT Lσ 2 ILT λ = σ 2 λT LLT λ. Podobnˇe λT cov{βˆ(LS,n) }λ = σ 2 λT L∗ (L∗ )T λ = σ 2 λT (X T X)−1 λ. Nyn´ı λT LLT λ = λT (L − L∗ + L∗ )(L − L∗ + L∗ )T λ = λT (L − L∗ )(L − L∗ )T λ + λT L∗ (L∗ )T λ, nebot’ (L − L∗ )(L∗ )T = (L − (X T X)−1 X T )X(X T X)−1 = LX(X T X)−1 − (X T X)−1 = 0 a tedy také L∗ (L − L∗ )T = 0. Vzhledem k tomu, ˇze L∗ (L∗ )T = (X T X)−1 a (L − L∗ )(L − L∗ )T jsou pozitivnˇe semidefinitn´ı, je d˚ ukaz prvé ˇc´ asti lemmatu dokonˇcen. K d˚ ukazu druhé ˇcásti pouˇzijeme Kolmogor˚ uv siln´ y zákon velk´ ych ˇc´ısel (viz napˇr. Rao (1978), (LS,n) ˆ tˇepán (1987)) . Odhad β m˚ uˇzeme totiˇz psát jako (X T X)−1 X T Y = β 0 + nh(n) · (X T X)−1

1 1 1 X T E = β0 + ( X T X)−1 X T E, (18) nh(n) nh(n) nh(n)

27

kde E = (E1 , E2 , . . . , En )T . Uvaˇzujme nejprve pro libovolné `, 1 ≤ ` ≤ p n´ ahodnou veliˇcinu Zn(`) = (1)

(2)

n 1 X xi` Ei nh(n) i=1

(p)

a Zn = (Zn , Zn , . . . , Zn )T . Protoˇze var{xi` Ei } = x2i` σ 2 , máme var(Zn(`) ) =

n n X X 1 1 2 var{x E } = σ x2 → 0 i` i n2 h2 (n) i=1 n2 h2 (n) i=1 i`

as n → ∞,

a tedy dle (13) Zn → 0 s. j.. Pouˇzit´ım Sluckého vˇety (viz opˇet Rao (1978), tˇep´ an (1987)) nebo 0 T −1 prostˇe pˇr´ımo ovˇeˇren´ım konvergence s. j. pro transformaci β + n · (X X) Zn pˇri platnosti (12), dokonˇc´ıme d˚ ukaz. Dˇr´ıve neˇz postoup´ıme k d˚ ukazu posledn´ı ˇc´ asti vˇety upozornˇeme, ˇze v nˇekter´ ych monografi´ıch 1 T se podrobnˇe diskutuje charakter posloupnosti matic n X X pro n → ∞ a ˇz´ ad´ a se, aby byla (LS,n) ˆ ohraniˇcena v pravdˇepodobnosti. Vˇsimnˇeme si, ˇze pro d˚ ukaz konsistence β potˇrebujeme 1 T naopak to aby n X X nebyla pˇr´ıliˇs “malá”. Rovnˇeˇz si povˇsimnˇeme, ˇze poruˇsen´ı pˇredpokladu homoskedasticity nemus´ı vést ke ztrátˇe konsistence, nebot’ prostˇe staˇc´ı, aby n X 1 σ 2 x2 → 0 n2 h2 (n) i=1 i i`

as n → ∞,

pochopitelnˇe pˇri zachován´ı (12). V ˇclánku Rao a Zhao (1992) lze nalézt zaj´ımav´ y nápad studovat (LS,n) nam´ısto konsistence odhadu βˆ pro p˚ uvodn´ı data, ohraniˇcenost v pravdˇepodobnosti odhadu (LS,n) βˆ pro data transformovaná následuj´ıc´ım zp˚ usobem. T Protoˇze pˇredpokládáme, ˇze matice X X je symetrick´ a (a reáln´ a) lze ji psát jako QQT , kde Q je ˇctvercová matice (typu p × p) a protoˇze nav´ıc pˇredpoklád´ ame, ˇze X T X je regulárn´ı, je regulárn´ı také matice Q. Toto vˇse bude dokáz´ ano n´ıˇze, viz D˚ usledek 2. To znamená, ˇze existuje −1 Q a tedy m˚ uˇzeme nam´ısto modelu (4) studovat model Yi = x ˜Ti β (n) + Ei ,

i = 1, 2, . . . , n, ³

(19)

´−1

kde x ˜i = xTi Q−1 a β (n) = Qβ 0 . Nyn´ı staˇc´ı pˇredpokládat, ˇze X T X = o(1) a ukázat, ˇze v modelu (19) je βˆ(LS,n) = Op (1). Rao a Zhao provedli d˚ ukaz v rámci studia M -odhad˚ u, avˇsak pˇredpoklady, za kter´ ych v´ ysledek plat´ı, jsou splnˇeny i pro odhad metodou nejmenˇs´ıch ˇctverc˚ u. D˚ ukaz je vˇsak komplikovan´ y a proto zájemce odkazujeme na p˚ uvodn´ı ˇcl´ anek. K d˚ ukazu posledn´ı ˇcásti lemmatu pak vyuˇzijeme Varadarajanovu a Feller-Lindebergovu vˇetu (opˇet Rao (1978), tˇepán (1987)). Ze vztahu (18) snadno odvod´ıme, ˇze √ 1 n(βˆ(LS,n) − β 0 ) = n · (X T X)−1 √ X T E. n Zkoumejme nejprve pro libovolné κ ∈ Rp náhodnou veliˇcinu Sn = κT √1n σ 2 n1 κT X T Xκ.

Pn

ı i=1 xi Ei . Jej´ p κ ∈ R podaˇr´ı

stˇredn´ı hodnota je rovna nule a rozptyl Pokud se nám pro libovolné dokázat, ˇze Sn má asymptoticky normáln´ı rozdˇelen´ı s nulovou stˇredn´ı hodnotou a rozptylem 28

P

σ 2 κQκ, pak z Varadarajanovy vˇety plyne, ˇze √1n ni=1 xi Ei m´ a asymptoticky normáln´ı rozdˇelen´ı s nulov´ ym vektorem stˇredn´ıch hodnot a kovarianˇcn´ı matic´ı σ 2 Q. Konkretizac´ı Feller-Lindebergovy podm´ınky pro Sn a ε > 0, dostaneme v´ yraz σ

−2

T

T

−1

[κ X Xκ]

n Z X 1

T T T 2 i=1 |κ xi z|>εσ[κ X Xκ]

(κT xi z)2 dFEi (z),

(20)

kde FEi (z) oznaˇcuje distribuˇcn´ı funkci náhodné veliˇciny Ei . D´ıky pˇredpokladu o stejném rozdˇelen´ı vˇsech Ei , jsou vˇsechny tyto distribuˇcn´ı funkce stejné. Piˇsme tedy nam´ısto FEi (z) prostˇe F (z). Je tˇreba dokázat, ˇze tento v´ yraz konverguje k nule pro n → ∞. Zvolme nˇekteré pevné τ > 0 a naleznˇeme dostateˇcnˇe velké K > 1 takové, ˇze Z

z 2 dF (z) < τ σ 2 .

|z|>K

Snadno se nahlédne, ˇze v i-tém integrálu ve v´ yraze (20) integrujeme pˇres oblast 1

εσ[κT X T Xκ] 2 . |κT xi |

|z| >

Na druhé stranˇe z pˇredpokladu (14) plyne, ˇze κT X T Xκ je, poˇc´ınaje od nˇekterého n0 , vˇetˇs´ı neˇz 2 κT Qκ 1 T eˇz z (14) máme pro δ < εσ 4K , poˇc´ınaje ˇreknˇeme nˇekter´ ym n1 > n0 2 2 nκ Qκ a rovnˇ ¯ ¯ ¯1 T T ¯ ¯ κ X Xκ − κT Qκ¯ < δ, ¯n ¯

coˇz implikuje pro i > n1 a n > n1

¯ ¯ ¯1 T ¯ ¯ κ xi xT κ¯ < 2δ. i ¯ ¯n

Protoˇze vˇsak n1 < ∞, existuje n2 > n1 tak, ˇze pro n > n2 ¯ ¯ ¯ ¯1 T ¯ κ xi xT κ¯ < 2δ i ¯ ¯n

pro vˇsechna i ∈ N . Pak ovˇsem pro n > n2 máme "

(

max

1

εσ[κT X T Xκ] 2

1≤i≤n

tj.

(

"

min 1≤i≤n

Odtud plyne σ −2 [κT X T Xκ]−1 ≤σ

)#2

|κT xi |

−2

T

<

1

εσ[κT X T Xκ] 2 |κT xi |

4δ 1 < 2, εσ 2 κT Qκ K )#2

> K 2.

n Z X 1

T T T 2 i=1 |κ xi z|>εσ[κ X Xκ]

T

−1

[κ X Xκ]

n Z X i=1 |z|>K

(κT xi z)2 dF (z)

Z

= σ −2 [κT X T Xκ]−1

|z|>K

z 2 dF (z) ·

n X i=1

29

(κT xi z)2 dF (z)

κT xi xTi κ ≤ τ.

Protoˇze ε i τ byla libovolná kladná ˇc´ısla, dokázali jsme platnost Feller-Lindebergovy podm´ınky pro Sn . Protoˇze rovnˇeˇz κ bylo libovolné, pouˇzit´ım Varadarajanovy vˇety, jak jsme uˇz ostatnˇe P v´ yˇse uvedli, dostaneme, ˇze asymptotické rozdˇelen´ı náhodné veliˇciny √1n ni=1 xi Ei je normáln´ı s nulov´ ym vektorem stˇredn´ıch hodnot a kovarianˇcn´ı matic´ı σ 2 Q. P P Potom ovˇsem náhodná veliˇcina n·(X T X)−1 √1n ni=1 xi Ei = ( n1 X T X)−1 √1n ni=1 xi Ei asymptoticky normáln´ı rozdˇelen´ı s nulov´ ym vektorem stˇredn´ıch hodnot a kovarianˇcn´ı matic´ı σ 2 Q−1 . 2 Nyn´ı jsme dospˇeli do stádia, ve kterém si budeme moci názornˇe zd˚ uvodnit to, co jsme v´ yˇse jiˇz jednou naznaˇcili, totiˇz ˇze omezen´ı na lineárn´ı odhad je drastické. Pˇripomeˇ nme, ˇze Lemma 2 ukazuje, ˇze βˆ(LS,n) je nejlepˇs´ım nestrann´ ym lineárn´ım odhadem. Normáln´ı rovnice (9) pˇrep´ıˇseme do tvaru n X

(Yi − xTi β)xi = 0.

(21)

i=1

Bez u ´jmy na obecnosti pˇredpokládejme, ˇze jsme data posunuli ve faktorovém prostoru tak, ˇze leˇz´ı okolo poˇcátku. Ostatnˇe jak plyne z tvaru βˆ(LS,n) , je tento invariantn´ı k lineárn´ı transformaci dat a odhad pro p˚ uvodn´ı data lze z´ıskat z odhadu pro posunut´ a data prostˇe inverzn´ı transformac´ı. Z (21) je patrné, ˇze pozorován´ı, které bude m´ıt velké hodnoty x-ov´ ych souˇradnic, tj. bude “leverage pointem”, dostane vˇetˇs´ı váhu v normáln´ıch rovnic´ıch a v´ıce ovlivn´ı jejich ˇreˇsen´ı. Podobnˇe degraduj´ıc´ı vliv bude m´ıt pozorov´ an´ı se znaˇcnˇe odlehlou y-ovou souˇradnic´ı (outlier), nebot’ u nˇeho bude v (21) zase velik´ y prvn´ı souˇcinitel. Celkov´ y efekt bude potom takov´ y, jak´ y je naznaˇcen na obrázku 1. To vˇsak znamená, ˇze i nejlepˇs´ı mezi lineárn´ımi odhady dá ponˇekud pˇrekvapiv´ y v´ ysledek. Jsme-li vˇsak v situaci, kdy nemáme pochybnosti o tom, ˇze fluktuace jsou, alespoˇ n pˇribliˇznˇe, normálnˇe rozdˇeleny a následnˇe to ovˇeˇr´ıme normáln´ım grafem, pˇr´ıpadnˇe testem na normalitu rezidu´ı, kter´ y bude také popsán n´ıˇze, pak z následuj´ıc´ı vˇety plyne, ˇze βˆ(LS,n) je dokonce nejlepˇs´ı 5 mezi vˇsemi nestrann´ ymi odhady. ˇ VETA 1 Necht’ {Ei }∞ avislých norm´ alnˇe rozdˇelených (N (0, σ 2 ), σ 2 ∈ (0, ∞)) i=1 je posloupnost nez´ n´ ahodných veliˇcin. Oznaˇcme βˆ(M L,n) maxim´ alnˇe vˇerohodný odhad β 0 . Potom βˆ(LS,n) = βˆ(M L,n) a βˆ(LS,n) dosahuje doln´ı Rao-Cramerovy hranice rozptylu, tj. je nejlepˇs´ım nestranným odhadem β 0 . Naopak, je-li βˆ(LS,n) nejlepˇs´ı nestranný odhad dosahuj´ıc´ı doln´ı Rao-Cramerovy hranice 2 ˆ(LS,n) = βˆ(M L,n) . rozptylu, pak pˇr´ısluˇsné rozdˇelen´ı fluktuac´ı {Ei }∞ i=1 je N (0, σi ) a β D˚ ukaz. Vzhledem k tomu, ˇze v pˇredch´ azej´ıc´ım textu jiˇz byla nestrannost dokáz´ ana, budeme dokazovat jen zb´ yvaj´ıc´ı ˇcást tvrzen´ı vˇety. Snadno se rozpomeneme, ˇze pouˇzit´ı metody maximáln´ı vˇerohodnosti vˇzdy pˇredpoklád´ ame, ˇze pˇr´ısluˇsná náhodná veliˇcina, v naˇse pˇr´ıpadˇe Yi , má rozdˇelen´ı urˇcitého typu s neznám´ ymi T 2 parametry, v naˇse pˇr´ıpadˇe N (xi β, σ ), a snaˇz´ıme se nalézt hodnoty parametr˚ u tak, aby se maximalizovala vˇerohodnostn´ı funkce. V právˇe dokazovaném pˇr´ıpadˇe, vzhledem k pˇredpokladu normality, máme ) ( (Yi − xTi β)2 1 . exp − f (Yi , β) = √ 2σ 2 σ 2π 5 Odhad je nejlepˇs´ı ve smyslu minim´ aln´ıho rozptylu. Pro jiné kritérium by byl (obecnˇe) nejlepˇs´ım jin´ y odhad. Napˇr. L1 -odhad by byl nejlepˇs´ım v pˇr´ıpadˇe, ˇze by kritériem byl stˇredn´ı absolutn´ı vych´ ylen´ı odhadu.

30

Tvar vˇerohodnostn´ı funkce je tedy následuj´ıc´ı n Y

`n (Y, β) =

(

i=1

)

1 (Y − xTi β)2 √ exp(− i ) . 2σ 2 σ 2π

Zlogaritmován´ım dostaneme n √ 1 X log`n (Y, β) = −n log(σ 2π) − 2 (Yi − xTi β)2 . 2σ i=1

Nyn´ı βˆ(M L,n) = argmax {log`n (Y, β)} β∈Rp

(

= argmax

−

β∈Rp

= arg min β∈Rp

( n X

n X

)

xTi β)2

(Yi −

i=1

)

= βˆ(LS,n) .

(Yi − xTi β)2

i=1

βˆ(LS,n)

Dále ukáˇzeme, ˇze dosahuje doln´ı Rao-Cramerovy hranice. Rao-Cramerova vˇeta b´ yv´ a uvádˇena v uˇcebnic´ıch a základn´ıch kursech statistiky obvykle pro jednorozmˇern´ y parametr. Proto krátce zopakujeme jej´ı d˚ ukaz pro v´ıcerozmˇern´ y parametr. Pˇredpokládáme-li, ˇze statistika Tn (y, x) je nestrann´ ym odhadem β, potom IEβ Tn (y, x) = β p pro vˇsechna β ∈ R (pˇripom´ınáme, ˇze doln´ı index “β ” u symbolu stˇredn´ı hodnoty naznaˇcuje, ˇze stˇredn´ı hodnota je poˇc´ıtána v modelu, kter´ y pˇredpoklád´ a jako “skuteˇcnou” hodnotu regresn´ıch koeficient˚ u právˇe β). Oznaˇcme hustotu náhodné veliˇciny Y pˇri hodnotách parametr˚ u modelu rovn´ ych X a β symbolem pn (y, X, β). Potom máme (1)

(2)

βj − βj

Z

n

o

Tnj (y, x) pn (y, X, β (1) ) − pn (y, X, β (2) ) dµ(y)

=

j = 1, 2, . . . . , p,

kde µ(y) je pˇr´ısluˇsná σ-koneˇcná m´ıra, v˚ uˇci které byla nalezena hustota pravdˇepodobnosti (jako Radon-Nikodymova derivace odpov´ıdaj´ıc´ı pravdˇepodobnostn´ı m´ıry). Pro jednoduchost pˇredpokládejme, ˇze nosiˇc hustoty pravdˇepodobnosti pn (y, X, β) je celá pˇr´ımka. Ostatnˇe v´ ysledek tˇechto u ´vah budeme aplikovat na normáln´ı rozdˇelen´ı, kde toto je, právˇe tak jako dalˇs´ı, n´ıˇze pouˇzité pˇredpoklady jsou, oprávnˇené. Dˇr´ıve neˇz budeme pokraˇcovat dále, pˇripomeneme (ˇci uvˇedom´ıme) si, jak je definována parciáln´ı derivace funkce v´ıce promˇenn´ ych, ˇreknˇeme f (t), kde t = (t1 , t2 , . . . , tp )T . Parciáln´ı derivac´ı v bodˇe t0 rozum´ıme limitu, pokud existuje (0)

lim ∆→0

(0)

(0)

= (1)

(1)

(0)

(0)

(0)

(0)

f (t1 , t2 , . . . , tj + ∆, . . . , tp ) − f (t1 , t2 , . . . , tj , . . . , t0p ) ∆

(1)

lim(0) (1)

f (t(1) ) − f (t(0) (1)

(0)

tj − tj

tj →tj

,

(1)

kde (t1 , t2 , . . . , tj , . . . , tp ) = (t01 , t02 , . . . , t0j + ∆, . . . , t0p ). Nyn´ı máme (1)

(1)

Z

(2)

βj − βj

(2)

β` − β`

=

Tnj (y, x)

pn (y, X, β (1) ) − pn (y, X, β (2) ) (1)

(2)

pn (y, X, β (2) )(β` − β` ) 31

pn (y, X, β (2) )dµ(y),

1 ≤ j, ` ≤ p.

Pokud existuj´ı pˇr´ısluˇsné parciáln´ı derivace, a pokud lze prohodit integraci a limitudostaneme (1) (2) (mˇejme na pamˇeti, ˇze βj − βj = 0 pro j 6= `) Z

δj` =

Tnj (y, x)

∂log pn (y, X, β) pn (y, X, β)dµ(y) ∂β`

j, ` = 1, 2, . . . , p.

(22)

Poznamenejme, ˇze pro normáln´ı rozdˇelen´ı parciáln´ı derivace existuj´ı a prohozen´ı intedrace a n (y,X,β) derivován´ı lze provést. Necht’ nyn´ı τ (β) je pozitivnˇe semidefinitn´ı matice a oznaˇcme ∂log p∂β vektor parciáln´ıch derivac´ı a necht’ ξ je vektor zadan´ y rovnost´ı ·

ξ=

∂log pn (y, X, β) ∂β

¸T

τ (β).

Znásob´ıme-li nyn´ı vztah (22) pro kaˇzdé j, ` = 1, 2, . . . , p ˇc´ıslem τ`k (β) a seˇcteme toto pˇres `, dostaneme p X

Z

δj` τ (β)`k =

Tnj (y, x)

`=1

p ½ X ∂log pn (y, X, β)

∂β`

`=1

¾

pn (y, X, β)τ`k (β) dµ(y),

takˇze v maticovém zápise m˚ uˇzeme psát ·

Z

τ (β) =

Tn (y, x)


Z

=

Z

¸T

τ (β)pn (y, X, β)dµ(y)

Tn (y, x) [ξ − IEβ ξ]T pn (y, X, β)dµ(y),

Tn (y, x)ξ T pn (y, X, β)dµ(y) =

kde posledn´ı rovnost plyne z pˇredpokladu, ˇze ·

IEβ ξ = IEβ


¸T

τ (β) = 0,

kter´ y plat´ı napˇr. je-li hustota pn (y, X, β) nulov´ a na “okraj´ıch” svého nosiˇce. Vzhledem k tomu, ˇze budeme v dalˇs´ım aplikovat nalezené vztahy na normáln´ı hustotu, bude toto splnˇeno. Z posledn´ıho vztahu vˇsak rovnˇeˇz plyne, ˇze Z

[Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T pn (y, X, β)dµ(y),

τ (β) =

coˇz se snadno ovˇeˇr´ı pˇr´ım´ ym v´ ypoˇctem. Potom pro libovolné λ ∈ Rp máme Z

λT τ (β)λ =

λT [Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T λpn (y, X, β)dµ(y) n

o

≤ var λT Tn (y, x) var

(·


)

¸T

τ (β)λ ,

(23)

kde jsme pouˇzili Schwarzovu nerovnost. Protoˇze ve Schwarzovˇe nerovnosti nastáv´ a rovnost právˇe kdyˇz náhodná veliˇcina “v prvé varianci” je skoro jistˇe lineárnˇe závisl´ a na náhodné veliˇcinˇe “ve druhé varianci”, znamená to, ˇze rovnost nastane pokud pro libovolné λ ∈ Rp ·

λT Tn (y, x) = τ (β) ·

¸T

∂log pn (y, X, β) + γ(β) ∂β 32

λ

skoro jistˇe. Dˇr´ıve neˇz budeme pokraˇcovat, pˇripomeˇ nme si (ˇci uvˇedomme si), co kter´ y symbol p znamená. τ (β) je pozitivnˇe semidefinitn´ı matice typu (p × p) a γ(β) ∈ R . Z libovolnosti λ pak plyne, ˇze ∂log pn (y, X, β) Tn (y, x) = τ (β) · + γ(β), (24) ∂β kde nav´ıc τ (β) a γ(β) mus´ı b´ yt takové, aby IEβ Tn (Y, x) = β a Tn (y, x) nesm´ı samozˇrejmˇe záviset na β. Je-li nyn´ı ·

1 pn (y, X, β) = √ σ 2π máme Tn (y, x) = τ (β)

)

( ¸n Y n i=1

(Yi − xTi β)2 ) , exp(− 2σ 2 o

n n X

(Yi − xTi β)xi + γ(β),

i=1

tj. Tn (y, x) = τ (β)

n X

Yi xi − τ (β)

i=1

n X

xi xTi β + γ(β).

(25)

i=1

Protoˇze Tn (y, x) nesm´ı záviset na β, mus´ı posledn´ı dva ˇcleny v (25) b´ yt konstantn´ı (tj. nezávislé Pn T p na β), neboli je tˇreba, aby γ(β) = τ (β) i=1 xi xi β + a, a ∈ R . Pak ovˇsem máme Tn (y, x) = τ (β)

n X

Yi xi + a

i=1

a protoˇze β = IEβ Tn (Y, x) = τ (β) je koneˇcnˇe τ (β) =

³P

n T i=1 xi xi

´−1

Pn P IE Yi xi + a = τ (β) ni=1 xi xTi β + a pro libovolné β ∈ Rp , i=1 ³ ´−1 T

= X X

³

T

Tn (Y, x) = X X

a a = 0. Dostali jsme

n ´−1 X

³

Yi xi = X T X

´−1

X T Y,

i=1

³

jin´ ymi slovy X T X

´−1

X T Y dosahuje doln´ı Rao-Cramerovy hranice rozptylu. Necht’ nyn´ı naopak ³

Tn (Y, x) = X T X

´−1

XT Y

(26)

je nejlepˇs´ım nestrann´ ym odhadem dosahuj´ıc´ım doln´ı Rao-Cramerovu hranici rozptylu. Potom, jak uˇz bylo ˇreˇceno v´ yˇse (viz (24)) Tn (y, x) = τ (β) ·

∂log pn (y, X, β) + γ(β). ∂β

Pˇripomeˇ nme, ˇze τ (β) je matice typu (p × p) a γ(β) ∈ Rp . Pro jednoduchost pˇredpokládejme, ˇze τ je regulárn´ı. Pokud by tomu tak nebylo, museli bychom pouˇz´ıt pseudoinverze a u ´vahy by se ponˇekud zkomplikovaly, nicménˇe by vedly nakonec ke stejnému závˇeru. Potom ∂log pn (y, X, β) = [τ (β)]−1 [Tn (y, x) − γ(β)] ∂β a integrován´ım dostaneme log pn (y, X, β) = κ(β)Tn (y, x) − δ(β) + U (y), 33

(27)

kde jsme oznaˇcili κ(β) vektor z Rp , jehoˇz matice parciáln´ıch derivac´ı je rovna [τ (β)]−1 , δ(β) je funkce jej´ıˇz parciáln´ı derivace jsou rovny [τ (β)]−1 γ(β) a U (y) je integraˇcn´ı konstanta (konstanta v˚ uˇci promˇenné pˇres kterou se integrovalo a tou bylo β). Po dosazen´ı z (26) do (27) dostaneme ³

log pn (y, X, β) = κ(β) X T X

´−1

X T y − δ(β) + U (y).

Zde snadno nahlédneme, co se stane pokud matice τ (β) nen´ı regulárn´ı. Potom κ(β) nen´ı urˇceno jednoznaˇcnˇe a mus´ıme provést reparametrizaci regresn´ıch koeficient˚ u. Protoˇze κ(β) ∈ Rp , exisT tuje pro libovolnou regulárn´ı matici A typu (p × p) β¯ tak, ˇze κ(β) = β¯T A, a zvol´ıme-li A = Xσ2X , dostaneme ¯ = σ −2 β¯T X T y + δ( ¯ β) ¯ + U (y), log pn (y, X, β) ¯ β) ¯ je funkce odpov´ıdaj´ıc´ı δ(β) po proveden´ı reparametrizace a transformace regresn´ıch kde δ( koeficient˚ u pomoc´ı matice A a zmˇenˇe znaménka. Potom máme ¯ = exp(σ −2 β¯T X T y) · exp(δ( ¯ β) ¯ + U (y)). pn (y, X, β) ¯ T (y − X β) ¯ nalezneme Doplnˇen´ım σ −2 β¯T X T y na “ˇctverec” − 2σ1 2 (y − X β) ¯ = exp{− 1 (y − X β) ¯ T (y − X β)} ¯ · exp(δ( ˜ β) ¯ +U ˜ (y)), pn (y, X, β) 2σ 2 kde

˜ β) ¯ = δ( ¯ β) ¯ + 1 β¯T X T X β¯ δ( 2σ 2

a

˜ (y) = U (y) + 1 y T y. U 2σ 2

Nyn´ı uplatn´ıme okrajové podm´ınky, které v naˇsem pˇr´ıpadˇe ˇr´ıkaj´ı, ˇze pro vˇsechna β¯ ∈ Rp a vˇsechny matice X typu (n × p) mus´ı platit Z

¯ pn (y, X, β)dµ(y) =1

a

β¯ =

Z ³

XT X

´−1

¯ X T ypn (y, X, β)dµ(y).

(28)

Provedeme transformaci y − X β¯ = z a dostaneme z druhého vztahu v (28) β¯ =

Z ³

XT X

´−1

¯ X T z pñ (z, X, β)dµ(z) + β¯

Z

¯ pñ (z, X, β)dµ(z).

Protoˇze pˇredchoz´ı vztah mus´ı platit pro vˇsechna β¯ ∈ Rp , máme Z ³

XT X

tj.

³

´−1

´−1

¯ X T z pñ (z, X, β)dµ(z) = 0,

Z

1 T ¯ · exp{δ( ¯ β)}dµ(z) ¯ ˜ (z + X β)} z z+U = 0, 2σ 2 coˇz znovu pˇripom´ınáme mus´ı platit pro vˇsechna β¯ ∈ Rp , tj. T

X X

X

T

z exp{−

Z

z exp{−

1 T ¯ ˜ (z + xβ)}dµ(z) z z+U =0 2σ 2

34

(29)

˜ ≡ 0. Protoˇze nav´ıc pro vˇsechna β¯ mus´ı platit i prvn´ı vztah v (28) a tedy U n

¯ = (2πσ)− 2 exp{− pñ (z, X, β) a koneˇcnˇe n

¯ = (2πσ)− 2 exp{− pn (y, X, β)

zT z } 2σ 2

(y − Xβ)T (y − Xβ) }. 2σ 2

2 V dalˇs´ım odstavci se budeme vˇenovat odhadu rozptylu rezidu´ı, tj. odhadu posledn´ıho parametru regresn´ıho modelu, kter´ y jeˇstˇe neum´ıme odhadovat. Neˇz vˇsak otevˇreme tuto kapitolu, pˇripomeˇ nme si jeˇstˇe jednou, co jsme vlastnˇe dokázali v pˇredchoz´ı vˇetˇe. V nˇekter´ ych textech o regresn´ı anal´ yze se totiˇz v´ ysledek pˇredchoz´ı vˇety interpretuje tak, ˇze normáln´ı rozdˇelen´ı fluktuac´ı je ekvivalentn´ı s rovnost´ı odhad˚ u metodou nejmenˇs´ıch ˇctverc˚ u a metodou maximáln´ı vˇerohodnosti. Toto ovˇsem nen´ı pravda. Uvaˇzme následuj´ıc´ı pˇr´ıklad. Necht’ Y1 , Y2 , ..., Yn maj´ı Poissonovo rozdˇelen´ı s koeficienty λ1 , λ2 , ..., λn , tj. λk P (Yi = k) = i e−λi i = 1, 2, ..., n k! T 0 a necht’ λi = xi β . (To implicitnˇe pˇredpoklád´ a, ˇze vysvˇetlovan´ a veliˇcina nab´ yv´ a pouze hodnot rovn´ ych pˇrirozen´ ym ˇc´ısl˚ um. Jak dalece je pak vhodné pro ni uvaˇzovat lineárn´ı regresn´ı model, je samozˇrejmˇe vˇec´ı diskuze. Nechme vˇsak tento problém pro tento okamˇzik stranou, vrát´ıme se k nˇemu pozdˇeji, v kapitole vˇenované právˇe situaci, kdy vysvˇetlovan´ a veliˇcina nab´ yv´ a diskrétn´ıch hodnot.) Podobnˇe jako v´ yˇse vˇerohodnostn´ı funkce má pro obecné β tvar n Y

`n (Y, β) =

(

i=1

[xTi β]Yi −xT β 0 e i Yi !

)

a jej´ı logaritmus je log`n (Y, β) =

n ³ X

´

Yi log(xTi β) − xTi β − log(Yi !) .

i=1

Vzhledem k tomu, ˇze v´ yraz

Pn

i=1 log(Yi !)

log`n (Y, β) =

je nezávisl´ y na vektoru β, staˇc´ı maximalizovat n ³ X

´

Yi log(xTi β) − xTi β .

i=1

Snadno ovˇeˇr´ıme, ˇze

(

n xij ∂log`n (Y, β) X Yi T − xij = ∂βj xi β i=1

)

a tedy normáln´ı rovnice maj´ı tvar n X i=1

Yi xij =

n X

xij XiT β,

j = 1, 2, ..., p.

i=1

Po pˇrepsán´ı do maticového tvaru dostaneme X T Y = X T Xβ 35

a koneˇcnˇe

³

βˆ(M L,n) = X T X

´−1

X T Y.

To znamená, ˇze βˆ(M L,n) = βˆ(LS,n) . Prvn´ı, co by nás mohlo napadnout, je to, ˇze podstatné bylo to, ˇze jsme ve Vˇetˇe 1 pˇredpokládali, ˇze βˆ(LS,n) dosahuje doln´ı Rao-Cramerovy hranice rozptylu, a ˇze to v tomto pˇr´ıkladˇe nemus´ı platit. Pro jednoduchost pˇredpokládejme, ˇze xTi β 0 = λ, tj. stˇredn´ı hodnota vˇsech veliˇcin Y1 , Y2 , ..., Yn je stejná. To je speciáln´ı pˇr´ıpad námi vyˇsetˇrované situace. Pokud tedy zjist´ıme, ˇze v tomto pˇr´ıpadˇe maximálnˇe vˇerohodn´ y odhad dosahuje doln´ı Rao-Cramerovy hranice rozptylu, pak naˇse domnˇenka, ˇze tento pˇredpoklad, totiˇz dosaˇzen´ı této hranice, byl podstatn´ y, nebyla na m´ıstˇe. Snadno spoˇcteme, ˇze IE Yi = λ a var(Yi ) = λ pro i = 1, 2, ..., n. Podobnˇe jednoduch´ y v´ ypoˇcet −1 ukáˇze, ˇze Fischerova informace je rovna λ . Vzhledem k tomu, ˇze maximálnˇe vˇerohodn´ ym P odhadem parametru λ pro n pozorov´ an´ı je n−1 ni=1 Yi , je jeho rozptyl roven n−1 λ a doln´ı Rao-Cramerova hranice rozptylu je pro n pozorov´ an´ı rovnˇeˇz n−1 λ. Jin´ ymi slovy maximálnˇe vˇerohodn´ y odhad dosahuje doln´ı Rao-Cramerovy hranice. Podstatn´ ym pˇredpokladem je totiˇz to, ˇze vysvˇetlovan´ a veliˇcina Y je spojitého typu. To umoˇzn ˇuje psát (28) v tom tvaru, v jakém byl tento vztah zapsán, a dokázat, ˇze z (29) plyne ˜ U ≡ 0 (srovnej Rao (1978), pˇr´ıklad 10.1 v kapitole 5). Podrobnˇejˇs´ı diskuzi o ekvivalenci odhadu z´ıskaného metodou nejmenˇs´ıch ˇctverc˚ u a maximálnˇe vˇerohodného odhadu, a to i v pˇr´ıpadˇe, kdy je poruˇsen pˇredpoklad o homoskedasticitˇe, tj. pˇredpoklad oznaˇcen´ y jako “2.” v Podm´ınk´ ach A, lze nalézt v práci Charnes et al. (1976), kde jsou zobecnˇeny p˚ uvodn´ı v´ ysledky z práce Bradley (1973). Dalˇs´ı podrobnosti o regresn´ıch modelech, ve kter´ ych se pˇredpoklád´ a, ˇze náhodné fluktuace a tud´ıˇz také vysvˇetlovaná veliˇcina, jsou rozdˇeleny dle Poissonova rozdˇelen´ı lze z´ıskat v práci Frome et al. (1973).

3.2

Odhad rozptylu n´ ahodn´ ych fluktuac´ı

Dˇr´ıve neˇz budeme pokraˇcovat ve v´ ykladu, pˇripomeˇ nme, ˇze, jak plyne z v´ yˇse uvedeného, je Yˆ = X βˆ(LS,n) = X(X T X)−1 X T Y

(30)

projekc´ı Y do prostoru M(X), tj. do prostoru generovaného sloupci matice plánu. Proto se matice X(X T X)−1 X T ˇcasto oznaˇcuje jako projekˇcn´ı matice . V literatuˇre se také ˇc´ ast mluv´ı o této matici jako o “hat” matici, patrnˇe dle “hat” nad Y . LEMMA 3 Rezidua r(βˆ(n) ) = Y − Yˆ a projekce Yˆ jsou navz´ ajem kolmé a tedy nekorelované. 2 2 Je-li nav´ıc rozdˇelen´ı Ei norm´ aln´ı N (0, σ ) 0 < σ < ∞, pak jsou rezidua r(βˆ(n) ) a projekce Yˆ nez´ avislé. Koneˇcnˇe pak ³

´

L(r(βˆ(n) )) = N (0, σ 2 I − X(X T X)−1 X T )

(31)

L(Yˆ ) = N (0, σ 2 X(X T X)−1 X T ),

(32)

a kde “L” znaˇc´ı rozdˇelen´ı té n´ ahodné veliˇciny, kter´ a je uvedena v z´ avork´ ach (p´ısmeno L je od slova Law). 36

D˚ ukaz. Snadno ovˇeˇr´ıme, ˇze (Y − Yˆ )T Yˆ = Y T Yˆ − Yˆ T Yˆ = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T X(X T X)−1 X T Y = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y = 0, kde jsme vyuˇzili faktu, ˇze matice X(X T X)−1 X T je symetrick´ a a idempotentn´ı. Z (30) dále 0 ˆ máme IEβ 0 Y = Xβ a IEβ 0 (Yˆ − Xβ 0 )(Yˆ − Xβ 0 )T = IEβ 0

n

X(X T X)−1 X T (Y − Xβ 0 )(Y − Xβ 0 )T X(X T X)−1 X T

o

= σ 2 X(X T X)−1 X T . Podobnˇe IEβ 0 (Y − Yˆ ) = IEβ 0 (I − X(X T X)−1 X T )Y = (I − X(X T X)−1 X T )Xβ 0 = 0 a jednoduch´ y obdobn´ y v´ ypoˇcet dá IEβ 0 (Y − Yˆ )(Y − Yˆ )T n

o

(I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0 ×

= IEβ 0 n

× (I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0

oT

= IEβ 0 (I − X(X T X)−1 X T )(Y − Xβ 0 )(Y − Xβ 0 )T (I − X(X T X)−1 X T ) = σ 2 (I − X(X T X)−1 X T ), kde jsme pouˇzili fakt, ˇze (I − X(X T X)−1 X T )X = 0. Protoˇze rezidua r(βˆ(n) ) a projekce Yˆ jsou lineárn´ı transformac´ı Y , jsou samozˇrejmˇe také normálnˇe rozdˇelena a v´ yˇse uvedené v´ ypoˇcty udávaj´ı parametry tˇechto rozdˇelen´ı. T´ım je dokáz´ ano (31) a (32). Koneˇcnˇe pak z nekorelovanosti a z normality plyne nezávislost. 2 ˚ DUSLEDEK 1 Za pˇredpokladu Lemmatu 3 je βˆ(LS,n) nez´ avislý na vektoru rezidu´ı r(βˆ(n) ). D˚ ukaz. Vzhledem k tomu, ˇze (X T X)−1 X T X = I, máme dle (30) βˆ(LS,n) = (X T X)−1 X T Y = (X T X)−1 X T X(X T X)−1 X T Y = (X T X)−1 X T Yˆ . 2 Nyn´ı vyslov´ıme nˇekolik tvrzen´ı, která budeme potˇrebovat pˇri vyˇsetˇrov´ an´ı odhadu rozptylu rezidu´ı. TVRZEN´ I 1 Necht’ {Ei }∞ avislých stejnˇe rozdˇelených n´ ahodných veliˇcin s i=1 je posloupnost nez´ 2 3 4 4 IE Ei = 0, varEi = σ ∈ (0, ∞), IE |Ei | < ∞ a IE Ei = σ (γ + 3) (kde posledn´ı vztah vlastnˇe definuje hodnotu γ). Potom pro vˇsechny symetrické matice A m´ ame ( T

2

IE (E AE) = σ

4

γ

n X

)

a2ii

2

2

+ (tr(A)) + 2tr(A ) ,

i=1

“tr” znamen´ a stopa (trace) a aii je i-tý diagon´ aln´ı prvek matice A. Nav´ıc γ ≥ −2. 37

D˚ ukaz.

 n X n X n X n X

IE (E T AE)2 = IE

=

n X

a2ii IE Ei4 +

i=1

= σ 4 (γ + 3)



n X X

 

Ei aij Ej Ek ak` E`

i=1 j=1 k=1 `=1

aii ajj IE Ei2 Ej2 + 2

i=1 j6=i n X

n X X



a2ij IE Ei2 IE Ej2

i=1 j6=i

Ã

a2ii + σ 4 tr(A)tr(A) −

i=1

n X

!

Ã

a2ii + 2σ 4 tr(A2 ) −

i=1

n X

!

a2ii .

i=1

Koneˇcnˇe pak n

o

0 ≤ var (Ei − IE Ei )2 = IE (Ei − IE Ei )4 − IE 2 (Ei − IE Ei )2 = µ4 − σ 4 = σ 4 (γ + 2). ©

ª

Rovnost by nastala pouze tehdy, kdyˇz by var (Ei − IE Ei )2 = 0, tj. kdyˇz Ei = 0 s. j., ale to vzhledem k pˇredpokladu σ 2 ∈ (0, ∞) nen´ı moˇzné. 2 TVRZEN´ I2 tr (M1 · M2 ) = tr (M2 · M1 ) . D˚ ukaz.

m X n X

(1)

(2)

mkj · mjk =

k=1 j=1

n X m X

(2)

(1)

mjk · mkj .

j=1 k=1

2 TVRZEN´ I 3 Necht’ A je idempotentn´ı matice, tj. A · A = A. Potom rank(A) = tr(A), kde “rank” znamen´ a hodnost. D˚ ukaz.Pro rank(A) = 0 je tvrzen´ı zˇrejmé. Necht’ rank(A) = r 6= 0, A necht’ je typu (n × n) a B (typu (n × r)) necht’ má za sloupce bázi prostoru M(A), tj. prostoru generovaného sloupci matice A. Nepochybnˇe sloupce matice A jsou lineárn´ımi kombinacemi sloupc˚ u matice B, tj. T T existuje matice C taková, ˇze A = B · C. Potom B B i CC jsou regulárn´ı, nebot’ obˇe jsou typu (r × r) a kdyby jejich hodnost byla menˇs´ı neˇz r, pak by také B (pˇr´ıpadnˇe C) mˇelo hodnost menˇs´ı neˇz r. Toto se snadno nahlédne takto: Pokud B T B nen´ı regulárn´ı, pak existuje λ ∈ Rr , λ 6= 0 tak, ˇze B T Bλ = 0. Pak ale také λT B T Bλ = 0, tj. (Bλ)T Bλ = 0. Potom ovˇsem Bλ = 0 a tedy rank(B) < r a to je spor. Stejnˇe se to ukáˇze pro C. Pokud by totiˇz rank(C) byl menˇs´ı neˇz r, pak by také rank(A) < r. Tento fakt okamˇzitˇe plyne z toho, ˇze dimenze prostoru M(A) je stejná jako dimenze M(AT ). Poloˇzme D = B(B T B)−1 , E = C T (CC T )−1 . Potom DT B = Ir a CE = Ir . Dále pak máme A = A · A = B · C · B · C = B · C a tedy po znásoben´ı zleva matic´ı DT a zprava E dostaneme DT BCBCE = DT BCE a tedy Ir CBIr = Ir Ir . 38

Koneˇcnˇe pak CB = Ir . Nyn´ı tr(A) = tr(BC) = tr(CB) = tr(Ir ) = r, kde jsme vyuˇzili pˇredchoz´ı tvrzen´ı a naznaˇcovali jsme rozmˇer jednotkové matice.

2

TVRZEN´ I 4 Je-li A pozitivnˇe definitn´ı (semidefinitn´ı), potom vlastn´ı ˇc´ısla jsou kladn´ a (nez´ aporn´ a). D˚ ukaz. Pˇripomeˇ nme, ˇze vlastn´ı vektory a vlastn´ı ˇc´ısla jsou zadány rovnost´ı A · q = λq,

q 6= 0

a tedy λkqk2 = λq T q = q T Aq > 0 (≥ 0). TVRZEN´ I 5 Necht’ A je symetrick´ a matice. Potom vlastn´ı ˇc´ısla jsou re´ aln´ a a vlastn´ı vektory lze zvolit re´ alné. D˚ ukaz. Necht’ q je vlastn´ı vektor, r a s necht’ je jeho reáln´ a a imaginárn´ı ˇc´ ast. Podobnˇe necht’ ’ λ je vlastn´ı ˇc´ıslo pˇr´ısluˇsné ke q, τ a κ necht je jeho reáln´ a a imaginárn´ı ˇc´ ast. Koneˇcnˇe pak necht’ v tomto d˚ ukaze i znaˇc´ı imaginárn´ı jednotku. Pˇripomeˇ nme, ˇze z definice vlastn´ıho vektoru plyne, 2 ˇze kqk > 0. Potom máme A(r + is) = (τ + iκ)(r + is) a porovnán´ım reáln´ ych a imaginárn´ıch ˇc´ asti dostaneme Ar = τ r − κs

(33)

As = τ s + κr.

(34)

a Po vynásoben´ı zleva vztahu (33) sT a vztahu (34) rT , dostaneme sT Ar = τ sT r − κsT s a rT As = τ rT s + κrT r a odeˇcten´ım prvn´ı rovnosti od druhé z´ısk´ ame d´ıky symetrii matice A rovnost 0 = κ(rT r + sT s) = κkqk2 , odkud plyne, ˇze κ = 0, nebot’ kqk2 > 0. Pokud vektory r a s ˇreˇs´ı vztahy (33) a (34), pak je ˇreˇs´ı také r a 0. 2 TVRZEN´ I 6 Necht’ matice A je typu (n × n). Potom pro libovolný vektor Z ∈ Rn , existuje vlastn´ı vektor q ∈ M(Z, AZ, A2 Z, . . .). 39

n

o

D˚ ukaz. Poloˇzme k0 = min k : Ak Z + bk−1 Ak−1 Z + . . . + b0 Z = 0, b ∈ Rk , kde b = (b0 , b1 , . . . , bk−1 )T . Nepochybnˇe mnoˇzina na n´ıˇz je hledáno minimum je neprázdn´ a, nebot’ vektory Z, AZ, A2 Z, A3 Z, . . . mohou obsahovat nejv´ yˇse n nez´ avisl´ ych. Odtud k0 ≤ n. Dále ukáˇzeme, ˇze lze psát Ak0 Z + bk0 −1 Ak0 −1 Z + . . . + b0 Z = (A − µ1 I)(A − µ2 I) · . . . · (A − µk0 I)Z

(35)

pro libovoln´ y vektor Z ∈ Rn . Aby to opravdu ˇslo, je tˇreba ukázat, ˇze existuj´ı µ1 , µ2 , . . . , µk0 (obecnˇe komplexn´ı ˇc´ısla) tak, ˇze plat´ı následuj´ıc´ı vztahy, které dostaneme roznásoben´ım pravé strany (35) a porovnán´ım koeficient˚ u u stejn´ ych mocnin matice A, µ1 + µ2 + . . . + µk0 = bk0 −1 , k0 X X

µi µj = bk0 −2 ,

i=1 j6=i k0 X X X

µi µj µ` = bk0 −3

i=1 j6=i `6=i,`6=j

atd. aˇz µ1 · µ2 · . . . · µk0 = b0 . To, ˇze takováto soustava rovnic má ˇreˇsen´ı µ1 , µ2 , . . . , µk0 plyne okamˇzitˇe z faktu, ˇze stejná soustava vznikne, roznásob´ıme-li pravou stranu rovnosti tk0 + bk0 −1 tk0 −1 + . . . + b0 = (t − µ1 )(t − µ2 ) · . . . · (t − µk0 ) a porovnáme koeficienty na pravé a levé stranˇe. Na druhé stranˇe, to ˇze prav´ a strana této rovnosti je rozkladem levé, plyne ze známé vˇety o poˇctu koˇren˚ u polynomu. Tento poˇcet je vˇzdy roven stupni polynomu a koˇreny mohou b´ yt komplexn´ı. Potom ovˇsem q = (A − µ2 I)(A − µ3 I) · . . . · (A − µk0 I)Z 6= 0, (36) nebot’ jinak by k0 nebylo minimem. Pak máme (A − µ1 I)q = 0 a tedy Aq = µ1 q, a nepochybnˇe q ∈ M(Z, AZ, A2 Z, . . .). 2 Povˇsimnˇeme si, ˇze vektor q je ovˇsem obecnˇe komplexn´ı. TVRZEN´ I 7 (Spektr´ aln´ı rozklad matice.) Necht’ A je re´ aln´ a symetrick´ a matice typu (m × m). Potom existuje ortogon´ aln´ı re´ aln´ a matice Q takov´ a,ˇze QT AQ = Λ = diag {λ1 , λ2 , . . . , λm } , kde λ1 , λ2 , . . . , λm jsou vlastn´ı ˇc´ısla matice A, diag {λ1 , λ2 , . . . , λm } znaˇc´ı diagon´ aln´ı matici typu m × m s prvky λ1 , λ2 , . . . , λm na diagon´ ale a QT Q = Im . Potom také QQT = Im , a koneˇcnˇe A = QΛQT .

40

D˚ ukaz. Pˇredpokládejme, ˇze jsme jiˇz naˇsli s ortogonáln´ıch vlastn´ıch vektor˚ u matice A, tj. qiT qj = δij pro 1 ≤ i, j ≤ s. Pokud s < m, necht’ Z⊥M(q1 , q2 , . . . , qs ). Pro libovolné r ∈ N dále máme Z T Ar qi = Z T Ar−1 λi qi = Z T λri qi = 0

pro

1 ≤ i ≤ s.

Tedy M(Z, AZ, A2 Z, . . .)⊥M(q1 , q2 , . . . , qs ). Dle Tvrzen´ı 6 existuje qs+1 ∈ M(Z, ZA, ZA2 , . . .), tj. existuje dalˇs´ı vlastn´ı vektor, kter´ y je ortogonáln´ı k q1 , q2 , . . . , qs . Existuje tedy ortogonáln´ı T matice Q, tj. Q Q = Im , tak, ˇze AQ = QΛ, kde Λ je diagonáln´ı matice vlastn´ıch ˇc´ısel. Tedy QT AQ = Λ. Pak ovˇsem i QQT = Im , nebot’ pro regulárn´ı matici je levá a pravá inverze totoˇzn´ a, a tedy A = QΛQT . Nyn´ı ukáˇzeme, ˇze Q m˚ uˇze b´ yt zvolena reáln´ a. Necht’ do konce d˚ ukazu znaˇc´ı i opˇet imaginárn´ı jednotku. Z pˇredchoz´ıho tvrzen´ı v´ıme, ˇze vlastn´ı ˇc´ısla symetrické matice jsou reáln´ a a vlastn´ı vektory lze zvolit reálné. Pokud tedy matice A je nav´ıc symetrick´ a, dostali jsme pˇri hledán´ı prvn´ıho vlastn´ıho vektoru nˇejaké reálné vlastn´ı ˇc´ıslo λ1 a tento vektor, ˇreknˇeme q1 jsme zvolili reáln´ y. Po nalezen´ı vlastn´ıho vektoru q2 kolmého ke q1 v´ yˇse naznaˇcenou indukc´ı dostaneme obecnˇe komplexn´ı vlastn´ı vektor q2 s vlastn´ım ˇc´ıslem λ2 , které je reálné. Oznaˇcme reálnou (R) (I) sloˇzku vektoru q2 symbolem q2 a imaginárn´ı sloˇzkou q2 a dostaneme (R)

q1T (q2 (R)

Odtud q1T q2

(I)

(R)

+ iq2 ) = q1T q2

(I)

+ iq1T q2 = 0.

= 0. Nav´ıc faktu, ˇze λ2 je reálné plyne, ˇze rovnˇeˇz (R)

Aq2

(R)

= λ2 q2 ,

tj. q2 lze zvolit reálné. Indukc´ı se d˚ ukaz uzavˇre. 2 Povˇsimnˇeme si, ˇze pro d˚ ukaz toho, ˇze v pˇredchoz´ım tvrzen´ı lze pro symetrickou matici zvolit pˇr´ısluˇsné vlastn´ı vektory reálné, nelze pouˇz´ıt Tvrzen´ı 5 pˇr´ımo, nebot’ pak nen´ı zˇrejmé, zda z˚ ustane zachována jejich vzájemná ortogonalita. ´ POZNAMKA 1 Vˇsimnˇeme si, ˇze A=

m X

λi qi qiT .

i=1

Tomuto se ˇr´ık´ a spektr´ aln´ı rozklad matice A. ˚ DUSLEDEK 2 Snadno nahlédneme, ˇze √ √ A = (Q Λ)D(Q Λ)T , np o √ p p Λ = diag |λ1 |, |λ2 |, . . . , |λn | a kde D je diagon´ aln´ı matice s prvky 1,-1, nebo 0 p √ T ˜ Q ˜ . Pokud A je (semi)pozitivn´ı, pak samozˇrejmˇe |λi | = λi pro na diagon´ ale, tj. A = QD vˇsechna i a D nepotˇrebujeme, tj. A lze ps´ at jako QQT , kde ovˇsem v pˇr´ıpadˇe, ˇze matice A je semipozitivn´ı a nen´ı regul´ arn´ı, matice Q m´ a hodnost menˇs´ı neˇz n.

kde

41

D˚ ukaz je v podstatˇe zˇrejm´ y. Staˇc´ı si uvˇedomit, ˇze diagonáln´ı matici mohu psát jako souˇcin tˇr´ı diagonáln´ıch, z nichˇz jedna “zajiˇst’uje” znaménka, a dalˇs´ı dvˇe maj´ı na diagonále odmocniny absolutn´ıch hodnot diagonáln´ıch prvk˚ u p˚ uvodn´ı diagonáln´ı matice. Vˇsimnˇeme si, ˇze dokonce zm´ınˇené matice mohou b´ yt násobeny v libovolném poˇrad´ı. ´ POZNAMKA 2 Podle Tvrzen´ı 1 je γ = τ − 3, kde τ je ˇspiˇcatost τ=

µ4 , σ4

a kde µ4 je ˇctvrtý centr´ aln´ı model a σ 4 je (samozˇrejmˇe) druh´ a mocnina rozptylu. Nˇekdy se za ˇspiˇcatost bere hodnota γ; potom je tato nulov´ a pro standardn´ı norm´ aln´ı rozdˇelen´ı. 2 rezidu´ aln´ı souˇcet ˇctverc˚ u, tj. LEMMA 4 Oznaˇcme SR 2 SR

h

iT

= r(βˆ(LS,n) )

r(βˆ(LS,n) ) =

n X

(Yi − xTi βˆ(LS,n) )2

i=1 2 . Pˇ a poloˇzme s2 = (n − p)−1 SR redpokl´ adejme d´ ale, ˇze σ 2 ∈ (0, ∞). Pokud ˇspiˇcatost γ = 0 nebo diagon´ aln´ı prvky projekˇcn´ı matice X(X T X)−1 X T jsou konstantn´ı, je s2 nejlepˇs´ım nestranným odhadem rozptylu rezidu´ı σ 2 mezi vˇsemi nestrannými kvadratickými odhady.

D˚ ukaz. Piˇsme h

iT

IE s2 = (n − p)−1 IE r(βˆ(LS,n) ) µ

h

r(βˆ(LS,n) ) = IE (n − p)−1 tr iT ¶

= (n − p)−1 IE tr r(βˆ(LS,n) ) r(βˆ(LS,n) )

µ

µh

iT

(βˆ(LS,n) )

h

¶

r(βˆ(LS,n) ) iT ¶

= (n − p)−1 tr IE r(βˆ(LS,n) ) r(βˆ(LS,n) )

³

´

= (n − p)−1 tr var(r(βˆ(LS,n) )) , kde var(r(βˆ(LS,n) )) je kovarianˇcn´ı matice vektoru rezidu´ı r(βˆ(LS,n) ) a posledn´ı rovnost plat´ı d´ıky tomu, ˇze IE r(βˆ(LS,n) ) = IE (Y − X βˆ(LS,n) ) = 0, nebot’ βˆ(LS,n) je nestrann´ ym odhadem β 0 . Protoˇze var(r(βˆ(LS,n) )) = σ 2 (I − X(X T X)−1 X T ) (viz Lemma 3), potˇrebujeme nalézt tr(I − X(X T X)−1 X T ). Vzhledem k tomu, ˇze projekˇcn´ı matice X(X T X)−1 X T má hodnost p a je idempotentn´ı je tr(X(X T X)−1 X T ) = p a tedy tr(I − X(X T X)−1 X T ) = n − p (viz Tvrzen´ı 3). T´ım je ukáz´ ana nestrannost. To ovˇsem také znamená, 2 je nestrann´ ym odhadem (n − p)σ 2 . ˇze (n − p)s2 = SR Nyn´ı hledejme jin´ y nestrann´ y kvadratick´ y odhad veliˇciny (n−p)σ 2 , tj. odhad ve tvaru Y T AY , 2 m´ a také kde A je nˇekterá pozitivnˇe semidefinitn´ı, tj. také symetrick´ a matice. Pˇripomeˇ nme, ˇze SR T T −1 (LS,n) T −1 T 2 ˆ tento tvar, nebot’ r(β ) = (I − X(X X) X )Y a tedy SR = Y (I − X(X X) X T )Y , kde matice I − X(X T X)−1 X T je idempotentn´ı a tedy pozitivnˇe semidefinitn´ı. Poznamenejme jeˇstˇe, ˇze jsme se omezili na pozitivnˇe semidefinitn´ı matice, abychom pro libovolné Y ∈ Rn mˇeli Y T AY ≥ 0, nebot’ jinak by to byl ponˇekud podivn´ y odhad σ 2 . Z poˇzadavku nestrannosti plyne, ˇze h i ³ h i´ (n − p)σ 2 = IEβ 0 Y T AY = IE tr(AY Y T ) = tr AIE Y Y T 42

h

i

= tr A(Xβ 0 [β 0 ]T X T + σ 2 I) = [β 0 ]T X T AXβ 0 + σ 2 tr(A),

(37)

nebot’ i

h

h

IE Y Y T = IE (Xβ 0 + E)(Xβ 0 + E)T = IE Xβ 0 [β 0 ]T X + EXβ 0 + Xβ 0 E T + EE T

i

= Xβ 0 [β 0 ]T X + σ 2 I. Protoˇze v´ ysledek ve vztahu (37) nesm´ı záviset na hodnotˇe β 0 (které neznáme), je nutnˇe X T AX = 0 a tr(A) = n − p. Protoˇze matice A je pozitivnˇe semidefinitn´ı, je moˇzné ji psát jako QQT . Pak ovˇsem X T QQT X = 0 a tedy také QT X = 0 a koneˇcnˇe QQT X = 0, tj. AX = 0. To vˇsak okamˇzitˇe implikuje Y T AY = (Xβ 0 + E)T A(Xβ 0 + E) = E T AE. Nyn´ı

n

o

var Y T AY "

=σ

4

γ

n

o

= var E T AE = IE (E T AE)2 − IE 2 (E T AE) n X

#

a2ii

2

+ (tr(A)) + 2tr(A ) − σ 4 (n − p)2

i=1

"

= σ4 γ

n X

2

#

a2ii + 2tr(A2 ) ,

(38)

i=1

kde aii , i = 1, 2, . . . , n jsou diagonáln´ı prvky matice A. Oznaˇcme M = I − X(X T X)−1 X T a piˇsme A = M + D. Pak tr(D) = 0 (39) a protoˇze M X = 0, je rovnˇeˇz DX = 0 a samozˇrejmˇe D = DT . Odtud h

i

M D = I − X(X T X)−1 X T D = D. Dále A2 = (M + D)(M + D) = M + M D + DM + D2 = M + 2D + D2 , tj. tr(A2 ) = n−p+2tr(D)+tr(D2 ) = n−p+tr(D2 ), nebot’ tr(D) = 0. Budeme-li nyn´ı pokraˇcovat v (38), dostaneme ( T

var(Y AY ) = σ

4

γ

n h X

m2ii

2

)

i

+ 2mii dii + dii

2

+ 2(n − p) + 2tr(D )

i=1

(

=σ

4

γ

n X

)

m2ii

+ 2(n − p) + σ 4 c,

(40)

i=1

kde opˇet mii a dii , i = 1, 2, . . . , n jsou diagonáln´ı prvky matic M a D. Prvn´ı ˇclen v (40) pˇredstavuje var(Y T M Y ) a je nezávisl´ y na volbˇe matice D. Koneˇcnˇe pak c=γ

n n X

o

d2ii + 2mii dii + 2tr(D2 ).

i=1

Staˇc´ı tedy zkoumat to, jaká volba matice D vede k minimu v (40).

43

Pokud γ = 0 (coˇz nastane napˇr. jsou-li rezidua normálnˇe rozdˇelena) nastane minimum pokud tr(D2 ) = 0. Protoˇze vˇsak n

D P

2

o

k`

=

n X

dkj dj` ,

j=1

P

plyne z tr(D2 ) = nk=1 nj=1 d2kj = 0 také D = 0. Pokud je mii = const = m (a tedy m = n−p n ), je c=γ

( n X i=1

d2ii

(n − p)tr(D) +2 n

)

+2

n X n X

d2ij ,

i=1 j=1

kde ovˇsem tr(D) = 0 (viz (39)) a tedy c = (γ + 2)

n X

d2ii + 4

i=1

n X n X

d2ij .

i=1 j=i+1

Protoˇze γ ≥ −2 je prvn´ı i druh´ y ˇclen pravé strany posledn´ıho v´ yrazu nezáporn´ y a tedy minimum nastane opˇet pro D = 0. Pak ovˇsem A = M . 2 Dˇr´ıve neˇz postoup´ıme k v´ ykladu otev´ıraj´ıc´ımu cestu k interpretaci a základn´ı diagnostice v´ ysledk˚ u regresn´ı anal´ yzy, shrˇ nme nˇekter´ a fakta, se kter´ ymi jsme se jiˇz seznámili. Na zaˇcátku této kapitoly jsme uvedli Podm´ınky A, pˇri platnosti kter´ ych je odhad metodou nejmenˇs´ıch ˇctverc˚ u nejlepˇs´ım nestrann´ ym lineárn´ım odhadem, tj. tento odhad má nejmenˇs´ı rozptyl mezi vˇsemi lineárn´ımi odhady. Ukázali jsme vˇsak také, ˇze omezen´ı se na lineárn´ı odhady je drastické. Nechceme-li se tedy omezit na tˇr´ıdu lineárn´ıch odhad˚ u a chceme-li, aby náˇs odhad, tj. odhad metodou nejmenˇs´ıch ˇctverc˚ u byl akceptovateln´ y i v rámci tˇr´ıdy vˇsech nestrann´ ych odhad˚ u, mus´ıme jej pouˇz´ıvat jen v pˇr´ıpadech, kdy náhodné fluktuace v modelu jsou rozdˇeleny normálnˇe. Budeme tedy i normalitu disturbanc´ı povaˇzovat za jeden ze základn´ıch pˇredpoklad˚ u regresn´ı anal´ yzy provádˇené metodou nejmenˇs´ıch ˇctverc˚ u. Jak jsme se jiˇz zm´ınili v u ´vodu, v pˇr´ıpadˇe, kdy vysvˇetluj´ıc´ı promˇenné jsou náhodné veliˇciny, m˚ uˇze statistická závislost mezi nimi a fluktuacemi zp˚ usobit, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u bude vych´ ylen´ y a nekonsistentn´ı. Pokud budeme tedy realizovat regresn´ı anal´ yzu v situaci, kdy je adekvátnˇejˇs´ı povaˇzovat vysvˇetluj´ıc´ı promˇenné za náhodné veliˇciny neˇz za deterministicky dané vektory, mˇeli bychom k základn´ım pˇredpoklad˚ um regresn´ı anal´ yzy dodat pˇredpoklad o statistické nezávislosti vysvˇetluj´ıc´ıch promˇenn´ ych a náhodn´ ych fluktuac´ı. A diagnostikovat jeho splnˇen´ı.

4 4.1

DIAGNOSTIKA ODHADU REGRESNÍHO MODELU Rozdˇ elen´ı kvadratick´ ych forem

Kvadratickou formou se rozum´ı QF : Rn → R, která má tvar QF (t) = tT At, kde A je nˇekter´ a n symetrická matice typu (n × n) a t ∈ R (pro nˇekteré n ∈ N ). LEMMA 5 Kaˇzdou kvadratickou formu lze pˇrevést na kvadratickou formu obsahuj´ıc´ı jen ˇctverce promˇenných.

44

´ POZNAMKA 3 Uvedené lemma pˇrirozenˇe neˇr´ık´ a, ˇze obecnˇe lze kvadratickou formu transformavat tak, aby byla souˇctem ˇctverc˚ u p˚ uvodn´ıch promˇenných, naopak transformovan´ a kvadratick´ a forma bude obsahovat promˇenné v jiné souˇradné soustavˇe. D˚ ukaz (Lemmatu 5). Z D˚ usledeku 2 okamˇzitˇe plyne, ˇze QF (t) = tT At = tT QDQT t, kde diagonáln´ı matice D má na diagonále jedniˇcky, minus jedniˇcky nebo nuly. Pˇrirozenˇe poˇcet nenulov´ ych diagonáln´ıch prvk˚ u je roven hodnosti matice A. Nav´ıc Tvrzen´ı 7 a D˚ usledek 2 napov´ıdaj´ı, ˇze matice Q byla zkonstruov´ ana z vlastn´ıch vektor˚ u matice A, tj. Q = q1 , q2 , . . . , q` , 0, . . . , 0), kde ` je hodnost matice A. Definujme nové promˇenné vztahem z = QT t. Potom T 2 T 2 T 2 QF (z) = z T Dz = + − (q1 t) + − (q2 t) + − ... + − (q` t) .

2 LEMMA 6 (Fisher-Cochran) Necht’ t(ω) ∈ Rn a L(ti ) = N (µi , 1) i = 1, 2, . . . , n. D´ ale necht’ F T Qi (t) = t (ω)Ai t(ω), i = 1, 2, . . . , k, rank(Ai ) = ni . Oznaˇcme jeˇstˇe µ = (µ1 , µ2 , . . . , µn )T , a necht’ tT (ω)t(ω) = QF1 (t) + QF2 (t) + . . . + QFk (t). (41) Potom QFi (t) jsou navz´ ajem nez´ avislé a L(QFi (t)) = χ2 (ni , κi ) s κi = µT Ai µ, pr´ avˇe kdyˇz Pk Pn Pk 2 ıc i=1 µi = j=1 κj . i=1 ni = n. Potom nav´ D˚ ukaz. Aplikujeme-li pˇredchoz´ı lemma dostaneme T 2 T 2 T 2 QFi = + − (q(i)1 t) + − (q(i)2 t) + − ... + − (q(i)ni t) ,

kde Ai = Q(i) D(i) QT(i) s n

o

n

Q(i) = q(i)1 , q(i)2 , . . . , q(i)ni

a

o

D(i) = diag d(i)1 , d(i)2 , . . . , d(i)ni , 0, . . . , 0 ,

kde “diag” bylo opˇet pouˇzito pro diagonáln´ı matici, která má na diagonále prvky, které jsou vyjmenované v závorce. V naˇsem pˇr´ıpadˇe to jsou d(i)j = + ame, − 1. D´ıky tomu, ˇze pˇredpoklád´ T t) = N (ν , τ 2 ) pro nˇ ˇze vektor t je normálnˇe rozdˇelen, máme L(q(i)j ekter´ a νij a τij2 . Nyn´ı budeme ij ij

P

a pˇredpokládat, ˇze ki=1 ni = n a ukáˇzeme, ˇze kvadratické formy jsou nezávislé a maj´ı pˇr´ısluˇsn´ 2 χ rozdˇelen´ı. Oznaˇcme Q = (q(1)1 , q(1)2 , . . . , q(1)n1 , q(2)1 , . . . , q(2)n2 , . . . , q(k)1 , . . . , q(k)nk ) a

n

D = diag

o

+ − 1, + − 1, . . . , + − 1 ,

kde byla znaménka pˇrirozenˇe vybrána tak, aby to odpov´ıdalo “polaritˇe” diagonáln´ıch prvk˚ uv matic´ıch D(1) , D(2) , . . . , D(k) , tj. znaménk˚ um vlastn´ıch ˇc´ısel odpov´ıdaj´ıc´ıch vlastn´ıch vektor˚ u. Potom máme tT t =

k X

tT Q(i) D(i) QT(i) t = tT QDQT t.

i=1

45

(42)

Vztah (42) mus´ı pˇrirozenˇe platit pro vˇsechna t ∈ Rn , nebot’ normálnˇe rozdˇelen´ a náhodná veliˇcina T m˚ uˇze nab´ yvat libovolné hodnoty. To implikuje In = QDQ a také rank(Q) = n, tj. Q je regulárn´ı. Rozpomeneme-li se, ˇze regulárn´ı matice má stejnou pravou a levou inverzn´ı matici, £ ¤T ¡ ¢T ¡ ¢T dostáváme I = Q · Q−1 = Q−1 · QT a to ˇr´ık´ a, ˇze Q−1 je inverzn´ı matic´ı ke QT , tj. (QT )−1 = (Q−1 )T . Koneˇcnˇe tedy D = Q−1 In (Q−1 )T . Z toho plyne, ˇze D je pozitivnˇe definitn´ı a koneˇcnˇe D = In . To vˇsak implikuje, ˇze In = QQT a tedy Q je orthogonáln´ı a pak také QT Q = In . Proved’me transformaci náhodn´ ych veliˇcin z(ω) = QT t(ω) a vyuˇzijme pˇredpokladu L(ti ) = N (µi , 1). Z orthogonality matice Q a normality t okamˇzitˇe zjist´ıme, ˇze z(ω) má nezávislé souˇradnice a L(z) = N (QT µ, I). Necht’ j, 1 ≤ j ≤ k je libovolné. Snadno nahlédneme, ˇze T T T QFj (t) = (q(j)1 t)2 + (q(j)2 t)2 + . . . + (q(j)n t)2 = Σ(j) zl2 , j

(43)

kde z kontextu je patrné, pˇres které vybrané souˇradnice vektoru z se sˇc´ıt´ a v posledn´ı sumˇe. Snadno se rovnˇeˇz ovˇeˇr´ı,a patrnˇe je to vidˇet na prvn´ı pohled, ˇze pro kvadratické formy QFj (t) a QFk (t) pro j 6= k, jsou souˇradnice vstupuj´ıc´ı do sum Σ(j) zl2 a Σ(k) zl2 r˚ uzné. To ovˇsem implikuje nezávislost tˇechto kvadratick´ ych forem. Koneˇcnˇe pak ze vztahu z (43) plyne, ˇze L(QFj (t)) = χ2 (nj , κj ), kde κj =

nj X

T (q(j)` µ)2 = µT Q(j) D(j) QT(j) = µT A(j) µ

`=1

a tedy k X j=1

κj =

nj k X X

T (q(j)` µ)2 = µT QQT µ = µT Iµ.

j=1 `=1

Dokazujme nyn´ı tvrzen´ı opaˇcn´ ym smˇerem, tj. pˇredpokládejme, ˇze QF(j) (t), 1 ≤ j ≤ k jsou P

P

nezávislé a maj´ı χ2 (nj , κj ) rozdˇelen´ı. Potom ovˇsem má jejich souˇcet χ2 ( kj=1 nj , kj=1 κj ) . Vzhledem k tomu, ˇze na levé stranˇe (41) stoj´ı tT (ω)t(ω), má pˇri pˇredpokladech tohoto lemmatu P χ2 (n, κ) a tedy kj=1 nj = n. 2

4.2

Rozdˇ elen´ı odhadu rozptylu n´ ahodn´ ych fluktuac´ı a studentizovan´ ych odhad˚ u regresn´ıch koeficient˚ u

LEMMA 7 Necht’ {Ei }∞ avislých norm´ alnˇe rozdˇelených n´ ahodných veliˇcin i=1 je posloupnost nez´ 2 · σ −2 ) = χ2 (n − p). s IE Ei = 0, IE Ei2 = σ 2 ∈ (0, ∞). Potom L(SR D˚ ukaz. Pˇredpokládaná normalita fluktuac´ı implikuje normalitu vysvˇetlované veliˇciny, tj. L(Y ) = N (Xβ 0 , σ 2 I). Snadno se ovˇeˇr´ı rovnost n

σ −2 Y T Y = σ −2 (Y − Yˆ + Yˆ )T (Y − Yˆ + Yˆ ) = σ −2 (Y − Yˆ )T (Y − Yˆ ) + Yˆ T Yˆ n

= σ −2 Y T (I − X(X T X)−1 X T )Y + Y T X(X T X)−1 X T Y

o

o

2. kde prvn´ı ˇclen druhého ˇrádku reprezentuje Y T (I − X(X T X)−1 X T )Y = (Y − Yˆ )T (Y − Yˆ ) = SR Poloˇzme A1 = I − X(X T X)−1 X T a A2 = X(X T X)−1 X T a ovˇeˇrme, ˇze rank(A1 ) = n − p

46

a rank(A2 ) = p. Argumenty pro toto tvrzen´ı jsou následuj´ıc´ı: Obˇe matice jsou projekˇcn´ı a tedy idempotentn´ı, A2 má evidentnˇe hodnost p, nebot’ jsme pˇredpokládali plnou hodnost u matice plánu X; pak je ovˇsem trace(A2 ) = p a tedy A1 m´ a stopu rovnou n − p; koneˇcnˇe pak rank(A1 ) = n − p. Aplikace Fisher-Cochranova lemmatu na kvadratické formy zadané maticemi 2 σ −2 je rozdˇ A1 a A2 pak dává tento v´ ysledek: Reziduáln´ı souˇcet ˇctverc˚ u SR elen dle χ2 (n − p) a je nezávisl´ y na kvadratické formˇe σ −2 Yˆ T Yˆ . 2 ˇ VETA 2 Necht’ {Ei }∞ et posloupnost nez´ avislých norm´ alnˇe rozdˇelených n´ ahodných veliˇcin i=1 je opˇ 2 (LS,n) 0 2 T −1 s IE Ei = 0 a var(Ei ) = σ ∈ 0, ∞). Potom L(βˆ − β ) = N (0, σ (X X) ). Poloˇzme 1

³

´

− (LS,n) tî (ω) = s−1 cii 2 βî (ω) − βi0 ,

i

h

kde cii = (X T X)−1 volnosti).

ii

. Potom L(tî ) = tn−p (tj. tî je rozdˇeleno jako Studentovo t o n−p stupn´ıch

D˚ ukaz. Pouˇzijeme-li základn´ı vztah zadávaj´ıc´ı lineárn´ı model (viz (1)) a dosad´ıme-li jej do “vzorce” pro odhad metodou nejmenˇs´ıch ˇctverc˚ u, dostaneme βˆ(LS,n) = (X T X)−1 X T Y = (X T X)−1 X T (Xβ 0 + E) = β 0 + (X T X)−1 X T E, tj. βˆ(LS,n) − β 0 = (X T X)−1 X T E, a tedy L(βˆ(LS,n) − β 0 ) = N (0, Σ), kde ³

Σ = IE ½h

= IE ½h

= IE

µ

−1 σ −1 cii 2

−1

(X X) T

−1

(X X)

= (X T X)−1 X T IE To znamená, ˇze L

T

βˆ(LS,n) − β 0 ) T

X Y −β

T

0

0

´³

ih ih

X (Y − Xβ )

´¶

−1

T

−1

(X X)

(Y − Xβ 0 )(Y − Xβ 0 )T

(LS,n) βî − βi0

T

(X X)

n ³

´T

βˆ(LS,n) − β 0 )

oh

T

X Y −β

0

T

iT ¾

0

iT ¾

X (Y − Xβ )

(X T X)−1 X T

iT

= σ 2 (X T X)−1 .

= N (0, 1). D˚ usledek 1 ˇr´ık´ a, ˇze βˆ(LS,n) nez´ avisl´ y na

rezidu´ıch r(βˆ(n) ) = Y − Yˆ . Uváˇz´ıme-li, ˇze reziduáln´ı souˇcet ˇctverc˚ u je naopak ˇctvercem normy h iT vektoru rezidu´ı, tj. S 2 = r(βˆ(n) ) r(βˆ(n) ), zjist´ıme, ˇze βˆ(LS,n) a S 2 jsou nezávislé. Nav´ıc dle R −2 2) L(σ SR

R

χ2 (n

= − p). Dokonˇcen´ı d˚ ukazu plyne okamˇzitˇe z definice Studentova Lemmatu 7 je t rozdˇelen´ı o n − p stupn´ıch volnosti, které m˚ uˇze b´ yt symbolicky zapsáno jako N (0, 1) [(n −

p)−1 χ2 (n

1

− p)]− 2

.

2 Poznamenejme, ˇze v právˇe dokázané vˇetˇe jsme mohli, d´ıky pˇredpokladu o normalitˇe náhodn´ ych (LS,n) 0 ˆ fluktuac´ı, vyslovit tvrzen´ı o rozdˇelen´ı rozd´ılu β −β bez jakékoliv normalizace (na rozd´ıl od tvrzen´ı z Lemmatu 2). To pˇrirozenˇe neznamená, ˇze by rozd´ıl βˆ(LS,n) −β 0 pˇri splnˇen´ı pˇredpoklad˚ u p pˇredchoz´ı vˇety nekonvergoval k 0 ∈ R , tj. nebyl konsistentn´ı. Naopak odtud plyne, ˇze kovarianˇcn´ı matice odhadu βˆ(LS,n) konverguje k nulové matici. 47

˚ DUSLEDEK 3 Za pˇredpoklad˚ u pˇredchoz´ı vˇety m´ a n´ ahodn´ a veliˇcina ³

´T

³

βˆ(LS,n) − β 0 )

´

X T X βˆ(LS,n) − β 0 ) n − p 2 p SR

(44)

Fisher-Snedecorovo rozdˇelen´ı Fp,n−p . D˚ ukaz. Pouˇzit´ım Tvrzen´ı 7 nalezneme orthogonáln´ı matici L a diagonáln´ı matici D tak, ˇze D = LT (X T X)−1 L, a v´ıme, ˇze na diagonále matice D stoj´ı vlastn´ı ˇc´ısla matice (X T X)−1 . Orthogonalita matice L umoˇzn ˇuje pˇrepsat tento vztah do tvaru LD−1 LT = X T X.

(45)

Pozitivn´ı definitnost matice (X T X)−1 implikuje nav´ıc to, ˇze jsou vˇsechna jej´ı ˇc´ısla kladná. Necht’ ˜ je diagonáln´ı matice, která má na diagonále pˇrevr´ tedy matice D acené hodnoty odmocnin z ˜ T T T −1 ˜ tˇechto ˇc´ısel (v poˇrad´ı odpov´ıdaj´ıc´ım matici D, pˇrirozenˇ ³ ´ e). Pak ovˇsem D L (X X) LD = Ip . ˜ a poloˇzme ξ = H T βˆ(LS,n) − β 0 ) . Je zˇrejmé, ˇze stˇredn´ı hodnota vektoru ξ Oznaˇcme H = LD je nulová a u ´pravou v´ yˇse uveden´ ych vztah˚ u dostaneme ³

Σξ = IE ξξ T = IE H T βˆ(LS,n) − β 0

´³

βˆ(LS,n) − β 0

´T

H

σ 2 H T (X T X)−1 H = σ 2 Ip . To ovˇsem napov´ıdá, ˇze souˇradnice vektoru σ −1 ξ jsou nekorelované a kaˇzd´ a je rozdˇelena dle −2 T 2 N (0, 1). To pak implikuje, ˇze náhodná veliˇcina σ ξ ξ je rozdˇelena dle χ (p) a nav´ıc, jak bylo 2 , pˇ napˇr. ukázáno v d˚ ukaze pˇredchoz´ı vˇety, je nezávisl´ a na SR riˇcemˇz rovnˇeˇz z d˚ ukazu pˇredchoz´ı −2 2 2 vˇety v´ıme, ˇze L(σ SR ) = χ (n − p). Pokud se nám podaˇr´ı ukázat, ˇze ³

σ −2 ξ T ξ = βˆ(LS,n) − β 0

´T

³

´

(X T X) βˆ(LS,n) − β 0 ,

bude d˚ ukaz témˇeˇr dokonˇcen. Provedeme to s pouˇzit´ım (45). ³

σ −2 ξ T ξ = σ −2 βˆ(LS,n) − β 0 ³

= σ −2 βˆ(LS,n) − β 0 ³

= βˆ(LS,n) − β 0 ³

= βˆ(LS,n) − β 0 ³

´T

´T

³

HH T βˆ(LS,n) − β 0 ³

H · Ip · H T βˆ(LS,n) − β 0

´

´

³

H · H T (X T X)−1 H · H T βˆ(LS,n) − β 0 ³

´

˜D ˜ T LT (X T X)−1 LD ˜D ˜ T LT βˆ(LS,n) − β 0 LD

= βˆ(LS,n) − β 0 ³

´T

´T

´T

³

LD−1 DD−1 LT βˆ(LS,n) − β 0

= βˆ(LS,n) − β 0

´T

³

´

´

´

(X T X) βˆ(LS,n) − β 0 .

Ku ´plnému dokonˇcen´ı d˚ ukazu staˇc´ı pˇripomenout definici Fisher-Snedecorova Fp,n−p , která m˚ uˇze b´ yt symbolicky vyjádˇrena takto χ2 (p) (n − p) . χ2 (n − p) p 2 48

4.3

Koeficient determinace

Po té, co odhadneme nˇekter´ y regresn´ı model, je tˇreba posoudit, zda tento je ˇci nen´ı “statisticky relevantn´ı” pro vysvˇetlen´ı dat. V´ yˇse uveden´ a teorie nám umoˇzn ˇuje, sice za dosti silného pˇredpokladu normality disturbanc´ı, nicménˇe umoˇzn ˇuje, otestovat signifikantnost jednotliv´ ych koeficient˚ u modelu. A aˇz budeme mluvit o v´ ystupech z pˇr´ısluˇsn´ ych softwarov´ ych produkt˚ u pˇripomeneme si tuto moˇznost. Na druhé stranˇe bychom rádi posoudili odhad modelu jako celek. Patrnˇe nen´ı sporu o tom, ˇze hlavn´ı informac´ı o tom, zda model byl navrˇzen rozumnˇe v sobˇe nesou rezidua. Budeme pˇredpokládat, pˇriˇcemˇz nechme na okamˇzik stranou jak dalece je to realistické, ˇze jsou tato rozdˇelena normálnˇe. Pˇripomeˇ nme si ze základn´ıho kurzu statistiky, ˇze souˇcet ˇctverc˚ u nezávisl´ ych stejnˇe normálnˇe rozdˇelen´ ych náhodn´ ych veliˇcin je jednou ze (dvou) sloˇzek postaˇcuj´ıc´ı statistiky. To je d˚ uvod, proˇc je jedna z nejjednoduˇsˇs´ıch charakteristik “adekvátnosti” modelu, totiˇz koeficient determinace, zaloˇzen na souˇctu ˇctverc˚ u rezidu´ı. Pozdˇeji ukáˇzeme, ˇze jeho role by nemˇela b´ yt pˇreceˇ nována. Podobnˇe jako jiné statistické testy, i tento hypotézu o adekvátnosti modelu “pouze” nezam´ıtá, tj. pokud je hodnota koeficientu determinace vysoká (a projde-li pˇr´ısluˇsn´ ym testem) ˇr´ıká to, ˇze dan´ y model nelze zam´ıtnout, ale je to jeˇstˇe daleko závˇeru, ˇze model je rozumn´ y. Abychom nabyli alespoˇ n rozumného stupnˇe v´ıry v to, ˇze náˇs odhad modelu je pˇrijateln´ y, je nezbytné pˇrinejmenˇs´ım provést ˇradu dalˇs´ıch test˚ u a aposteriorn´ıch diagnostick´ ych u ´kon˚ u. Ani pak vˇsak bez pouˇzit´ı cele ˇskály robustn´ıch proced˚ ur nem˚ uˇzeme zaruˇcit, ˇze nelze nalézt, v jakémsi smyslu - napˇr. ve smyslu velikosti souˇctu ˇctverc˚ u rezidu´ı “vˇetˇsiny” pozorov´ an´ı, (mnohem) lepˇs´ı model. DEFINICE 1 Necht’ model obsahuje absolutn´ı ˇclen. Pak poloˇzme R02 = P Y¯ = n−1 ni=1 Yi . Koeficientem determinace rozum´ıme R2 =

2 R02 − SR . R02

Pokud model neobsahuje absolutn´ı ˇclen, poloˇzme R02 = opˇet rozum´ıme (46).

Pn

i=1 (Yi

− Y¯ )2 , kde

(46)

Pn

2 i=1 Yi .

Koeficientem determinace pak

Heuristika stoj´ıc´ı v podaz´ı definice koeficientu determinace je zˇrejm´ a a velmi pˇr´ımoˇcará. Pokud je totiˇz náˇs model “adekvátn´ı” (“relevantn´ı”, “rozumn´ y” atd. jak sami chcete) pro vysvˇetlen´ı dat, je reziduáln´ı souˇcet ˇctverc˚ u mal´ y v porovn´ an´ı s R02 a tedy hodnota koeficientu determinace je bl´ızká k 1. Jestliˇze tedy náˇs model dobˇre “vystihne” variabilitu vysvˇetlované promˇenné, tj. rezidua budou m´ıt jen malou variabilitu, je koeficient determinace vysok´ y. V opaˇcném pˇr´ıpadˇe, je-li model “neadekvátn´ı”, bude reziduáln´ı souˇcet ˇctverc˚ u srovnateln´ y s R02 a koeficient determinace bude bl´ızko k nule. Nenechme se vˇsak m´ ylit, ˇze lze jednotnˇe, tj. pro r˚ uzné oblasti pouˇzit´ı regresn´ıho modelu udat, co to znamená, ˇze je koeficient determinace dostateˇcnˇe ˇ velk´ y. Casto se uvád´ı, ˇze technické ˇci pˇr´ırodovˇedné modely ˇci obecnˇeji modely v exaktn´ıch vˇedách, by mˇely m´ıt R2 > 0.6. V humanitn´ıch oborech jsou vˇsak ˇcasto akceptov´ any i modely s 2 R = 0.2. V ekonomické literatuˇre, tj. v oboru kter´ y leˇz´ı nˇekde mezi “exaktn´ımi” a humanitn´ımi, naleznete napˇr. v´ yrok: “William F. Sharpe [1985, p. 167] notes that for an individual company a typical R2 measure from a Capital Asset Pricing Model equation is about 0.3 but that as one diversifies across companies” assets into a larger portfolio, the R2 measure increases, owing to the reduction of specific risk through diversification” (viz Berndt (1990), p. 40). 49

Zamysleme se nad touto situaci jeˇstˇe pˇri trochu jiném u ´hlu pohledu. R2 totiˇz pˇredstavuje (mnohonásobn´ y) korelaˇcn´ı koeficient mezi vysvˇetlovanou a vysvˇetluj´ıc´ımi promˇenn´ ymi; nejlépe je to vidˇet pˇri jednoduché regresi, viz napˇr. Andˇel (1978). Ani mezi statistiky vˇsak nen´ı obecnˇe známo, ˇze pokud pro dvourozmˇernou normálnˇe rozdˇelenou náhodnou veliˇcinu budeme kreslit mnoˇzinu bod˚ u, ve kter´ ych je sdruˇzen´ a hustota rovna nˇekterému pevnˇe zvolenému ˇc´ıslu, dostaneme elipsu v´ yraznˇeji se liˇs´ıc´ı od kruˇznice aˇz právˇe pro hodnoty ρ = 0.6 ˇci 0.7. To napov´ıdá, ˇze vazba mezi vysvˇetlovanou a vysvˇetluj´ıc´ımi promˇenn´ ymi je dosti slabá, je-li R2 < 0.6. Naznaˇcená heuristika rovnˇeˇz napov´ıd´ a, proˇc je koeficient determinace poˇc´ıt´ an jednou tak, ˇze porovnáváme naˇs model s modelem Yi = Y¯ + Ei ,

i = 1, 2, . . . , n

a podruhé porovnáváme odhadnut´ y model s modelem Yi = Ei ,

i = 1, 2, . . . , n

(viz rovnˇeˇz Lemma 8). V dalˇs´ım textu budeme uvaˇzovat model s absolutn´ım ˇclenem, pro model bez absolutn´ıho ˇclenu by se uvádˇená tvrzen´ı snadno modifikovala. Upozornˇeme snad jeˇstˇe na “záludnost”, která vzniká t´ım, ˇze nˇekteré poˇc´ıtaˇcové statistické knihovny poˇc´ıtaj´ı R2 automaticky dle prvn´ı ˇci druhé definice v závislosti od toho, zda byl odhadov´ an model s absolutn´ım ˇclenem ˇci bez absolutn´ıho ˇclenu. Pak obˇcas nastává “absurdn´ı” situace, kdy model s absolutn´ım ˇclenem se zdá b´ yt h˚ uˇre determinován neˇz model bez nˇej. Jeˇstˇe se o takov´ ychto “naschv´ alech” zm´ın´ıme aˇz budeme diskutovat v´ ystupy z poˇc´ıtaˇcov´ ych knihoven. TVRZEN´ I 8 Pro koeficient determinace plat´ı R2 =

kY − 1Y¯ k2 (Y − 1Y¯ )T (Y − 1Y¯ ) = , 2 R0 kY − 1Y¯ kkYˆ − 1Y¯ k

kde 1 = (1, 1, . . . , 1)T . D˚ ukaz. Poloˇzme ν = (n−1 , n−1 , . . . , n−1 )T a 1 = (1, 1, . . . , 1)T . Pak máme R02 = kY − 1Y¯ k2 =

n n X

o

Yi2 − 2Y¯ Yi + Y¯ 2 = kY k2 − k1Y¯ k2

(47)

i=1

a ³

kYˆ − 1Y¯ k2 = kX(X T X)−1 X T Y − 1ν T Y k2

= Y T X(X T X)−1 X T − 1ν T

´³

´

X(X T X)−1 X T − 1ν T Y

= Y T X(X T X)−1 X T X(X T X)−1 X T Y − 2Y T X(X T X)−1 X T 1ν T Y + nY¯ 2 = kYˆ k2 − 2Y T 1νY + nY¯ 2 = kYˆ k2 − k1Y¯ k2 . Pˇri u ´pravách jsme pouˇzili fakt, ˇze X(X T X)−1 X T 1 = 1. Ten plyne z toho, ˇze 1 ∈ M(X) a tedy projekce vektoru 1 je opˇet vektor 1. Nav´ıc kY k2 = (Y − Yˆ )T (Y − Yˆ ) + Yˆ T Yˆ = kY − Yˆ k2 + kYˆ k2 50

a koneˇcnˇe kY − 1Y¯ k2 = kY k2 − k1Y¯ k2 = kY − Yˆ k2 + kYˆ k2 − k1Y¯ k2 = kY − Yˆ k2 + kYˆ − 1Y¯ k2 , tj. 2 R02 − SR = kYˆ − 1Y¯ k2 .

(48)

To uzav´ırá d˚ ukaz prvé ˇcásti tvrzen´ı. Podotknˇeme vˇsak, ˇze toto lze snadnˇeji nahlédnout geometricky. V´ıme, ˇze Yˆ je projekc´ı Y do prostoru M(X), ve kterém leˇz´ı také 1 a 1Y¯ je projekc´ı Y do prostoru M(1), kter´ y je podprostorem prostoru M(X). To znamená, ˇze 1Y¯ je také projekc´ı Yˆ do prostoru M(1). Suma sumarum, kY − 1Y¯ k2 je pˇrepona pravo´ uhlého troj´ uheln´ıka, ve kterém 2 2 ˆ ¯ ˆ jsou odvˇesnami kY − 1Y k a kY − Y k . Aplikac´ı Pythagorovy vˇety pak dostaneme kY − Yˆ k2 + kYˆ − 1Y¯ k2 = kY − 1Y¯ k2 .

(49)

Pˇripomeˇ nme jeˇstˇe, ˇze ve v´ yˇse zm´ınˇenému pravo´ uhlému troj´ uheln´ıku pomˇer délky pˇrilehlé odvˇesny ku pˇreponˇe dává kosinus pˇr´ısluˇsného u ´hlu. Pak ovˇsem dostaneme "

kYˆ − 1Y¯ k R = kY − 1Y¯ k

#2

2

= cos2 α,

kde prvá rovnost plyne z (48) a (49). Oznaˇc´ıme-li jeˇstˇe α u ´hel mezi Yˆ −1Y¯ a Y −1Y¯ , plyne druhá z právˇe proveden´ ych u ´vah. K dokonˇcen´ı si staˇc´ı vzpomenout, ˇze ˇctverec kosinu u ´hlu mezi dvˇema vektory dostaneme jako jejich skalárn´ı souˇcin, pokud tyto vektory maj´ı jednotkovou délku, tj. h

R2 = (Yˆ − 1Y¯ )kYˆ − 1Y¯ k−1

iT

· (Y − 1Y¯ )kY − 1Y¯ k−1 . 2

´ POZNAMKA 4 Tvrzen´ı 8 bylo uvedeno proto, ˇze v nˇekterých pramenech bývaj´ı uvedeny alternat´ıvn´ı definice koeficientu determinace a na prvn´ı pohled nemus´ı být patrné, zda jsou vˇsechny ekvivalentn´ı. Je celkem pˇrirozené, ˇze hodnota koeficientu determinace dobˇre poslouˇz´ı k prvému náhledu toho, jak model dobˇre vystihuje data. Na druhé stranˇe bychom nepochybnˇe chtˇeli pomoci nˇejakého statistického testu stanovit, zda m´ıra “vystiˇzen´ı” je statisticky signifikantn´ı ˇci nikoliv. DEFINICE 2 Necht’ R2 je koeficient determinace. Pokud model obsahuje absolutn´ı ˇclen, poloˇzme F =

R2 n−p · , 1 − R2 p − 1

pokud absolutn´ı ˇclen v modelu nen´ı mˇejme F =

R2 n−p · . 2 1−R p

F se obvykle oznaˇcuje jako Fisher-Snedecorovo F (v regresi; stejné oznaˇcen´ı se pouˇz´ıv´ a pro n´ ahodnou veliˇcinu, jej´ıˇz definici vz´ apˇet´ı pˇripomeneme). 51

V dalˇs´ım lemmatu budeme potˇrebovat náhodnou veliˇcinu, která b´ yv´ a oznaˇcov´ ana jako Fisher-Snedecorovo F`,k . Tato veliˇcina se dostane jako pod´ıl dvou nezávisl´ ych náhodn´ ych veliˇcin, 2 rozdˇelen´ ych dle χ -rozdˇelen´ı a normovan´ ych pˇr´ısluˇsn´ ymi stupni volnosti, tj. symbolicky psáno F`,k =

χ2 (`) k · 2 . ` χ (k)

LEMMA 8 Necht’ fluktuace v modelu (3) jsou rozdˇeleny dle N (0, σ 2 I). Pokud model neobsahuje absolutn´ı ˇclen a IE Y = 0, potom F je rozdˇeleno jako Fp,n−p , tj. jako Fisher-Snedecorovo F s p a n − p stupni volnosti. Pokud model absolutn´ı ˇclen obsahuje a IE Y = γ · 1, potom je F rozdˇeleno jako Fp−1,n−p . D˚ ukaz. D˚ ukaz bude proveden jen pro druh´ y pˇr´ıpad, nebot’ nutné modifikace pro pˇr´ıpad prvn´ı jsou okamˇzitˇe patrné. Pouˇzijeme-li pˇredpoklad, ˇze IE Y = γ1, dostaneme Xβ 0 = γ1. Nav´ıc h

i

h

i

Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − N Y + Y T N Y,

(50)

kde jsme symbolem N oznaˇcili matici, která má vˇsechny prvky rovné n−1 . V´ ypoˇctem ovˇeˇr´ıme, ˇze T −1 T N N = N . Vzhledem k tomu, ˇze 1 ∈ M(X), je také X(X X) X 1 = 1 a nav´ıc X(X T X)−1 X T N = N . To umoˇzn ˇuje ovˇeˇrit, ˇze h

X(X T X)−1 X T − N

ih

i

X(X T X)−1 X T − N = X(X T X)−1 X T − N ,

a tedy rank(X(X T X)−1 X T − N ) = tr(X(X T X)−1 X T − N ) = p − 1. Jiˇz v´ yˇse jsme nˇekolikr´ at pouˇzili fakt, ˇze rank(I − X(X T X)−1 X T ) = tr(I − X(X T X)−1 X T ) = n − p. Aplikace Fisher-Cochranova lemmatu dáv´ a ³

h

i

´

³

h

i

´

L Y T I − X(X T X)−1 X T Y a

L Y T X(X T X)−1 X T − N Y s

h

i

= χ2 (n − p, λ(1) )

= χ2 (p − 1, λ(2) )

h

i

λ(1) = µT I − X(X T X)−1 X T µ = [β 0 ]T X T I − X(X T X)−1 X T Xβ 0 = 0 (na tuto rovnost nen´ı tˇreba hypotézy Xβ 0 = γ1) a h

i

h

i

λ(2) = µT X(X T X)−1 X T − N µ = [β 0 ]T X T X(X T X)−1 X T − N Xβ 0 h

i

= γ 2 1T X(X T X)−1 X T − N 1 = 0. Fisher-Cochranovo lemma nav´ıc umoˇzn ˇuje tvrdit, ˇze jsou tyto dvˇe kvadratické formy nezávislé. Pak jiˇz staˇc´ı uváˇzit rovnost 2 2 R02 − SR R02 − SR R02 R2 = = . · 2 2 2 2 2 1 − R2 R0 R0 − R0 + SR SR

52

K dokonˇcen´ı d˚ ukazu pak vezmˇeme v u ´vahu ten fakt, ˇze Yˆ je projekc´ı Y do prostoru M(X) a 1Y¯ je projekc´ı jak Y tak Yˆ do prostoru M(1). Z nˇej plyne, ˇze h

i

2 R02 − SR = (Yˆ − 1Y¯ )T (Yˆ − 1Y¯ ) = Y T X(X T X)−1 X T − N Y

a podobnˇe

h

i

2 SR = Y T I − X(X T X)−1 X T Y,

(51)

pˇriˇcemˇz posledn´ı a pˇredposledn´ı rovnost se napˇr. snadno ovˇeˇr´ı uˇzit´ım idempotentnosti pˇr´ısluˇsn´ ych matic. K d˚ ukaz pro model bez absolutn´ıho ˇclenu je tˇreba psát (50) ve tvaru h

i

Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T Y a uvˇedomit si, ˇze napˇr. opˇet z geometrické pˇredstavy a z faktu, ˇze nyn´ı R02 = Y T Y , plyne, ˇze 2 R02 − SR = Y T X(X T X)−1 X T Y

a ˇze tato kvadratická forma má χ2 -rozdˇelen´ı o p stupn´ıch volnosti.

4.4

2

Intervaly a p´ asy spolehlivosti

Pˇri pouˇzit´ı diagnostick´ ych graf˚ u, obˇcas vˇsak i pˇri jin´ ych procedurách, napˇr. z oblasti základn´ı popisné statistiky, se stane, ˇze kromˇe pˇr´ımky naznaˇcuj´ıc´ı regresn´ı vztah jedné veliˇciny na druhé, se na obrazovce objev´ı také jakési kˇrivky, a pod´ıv´ ame-li se do manu´ alu nalezneme tam vysvˇetlen´ı, ˇze se jedná o 95% pás ˇci interval spolehlivosti. Samozˇrejmˇe, ˇze u ´roveˇ n spolehlivost m˚ uˇze b´ yt v r˚ uzn´ ych poˇc´ıtaˇcov´ ych knihovnách r˚ uzná, dokonce nˇekdy i nastaviteln´ a. Obvykle vˇsak v manu´ alu marnˇe pátráme po vysvˇetlen´ı, jak byly tyto kˇrivky z´ısk´ any. Následuj´ıc´ı v´ yklad ukazuje, ˇze záleˇzitost pásu spolehlivosti nen´ı aˇz tak jednoduch´ a, abychom ji pˇreˇsli bez podrobnˇejˇs´ıho v´ ykladu. Interval spolehlivosti pro jednotlivé souˇradnice vektoru regresn´ıch koeficient˚ u lze nalézt pouˇzit´ım Vˇety 2. Z n´ı totiˇz plyne, ˇze intervalem µ

¶

1 1 α α (LS,n) (LS,n) βî − scii2 tn−p (1 − ), βî + scii2 tn−p (1 − ) , 2 2

je hodnota i-té souˇradnice vektoru β 0 pokryta s pravdˇepodobnost´ı 1 − α. Pˇripom´ın´ ame, ˇze s je odhad rozptylu rezidu´ı (viz napˇr. Lemma 7), cii je i-t´ y diagonáln´ı prvek matice (X T X)−1 a tn−p (1 − α2 ) je horn´ı α2 kvantil Studentova t. Pˇrirozenˇe, ˇze zaj´ımavˇejˇs´ı je nalezen´ı “intervalu” spolehlivosti pro vˇsechny souˇradnice vektoru regresn´ıch koeficient˚ u souˇcasnˇe. Tvar takového “intervalu” m˚ uˇze b´ yt r˚ uzn´ y, v podstatˇe libovoln´ y. V ˇsedesát´ ych letech se pˇreváˇznˇe studovaly rektangulárn´ı intervaly spolehlivosti (viz napˇr. idák (1967)), v souˇcasné dobˇe se vˇsak ˇcastˇeji uvaˇzuj´ı konfidenˇcn´ı oblasti ve tvaru (rotaˇcn´ıch) elipsoid˚ u. K sestrojen´ı takového elipsoidu pouˇzijeme d˚ usledek 3. Z nˇej plyne, ˇze pro libovolné α ∈ (0, 1) (LS,n) ˆ padne β do elipsoidu (

E=

β∈R

¡ p

:

¢T

β − β0)

¡

¢

X T X β − β0) n − p ≤ Fp,n−p (1 − α) 2 p SR 53

)

(52)

2 je rezidu´ s pravdˇepodobnost´ı 1 − α. Opˇet pˇripom´ın´ ame ˇze, SR aln´ı souˇcet ˇctverc˚ u a Fp,n−p (1 − α) je α-kvantil Fisher-Snedecorova F o p a n − p stupn´ıch volnosti. Jin´ ymi slovy lze tvrdit, ˇze je-li (LS,n) ˆ β odhad regresn´ıch koeficient˚ u, potom s pravdˇepodobnost´ı 1−α m˚ uˇze β 0 b´ yt jen z mnoˇziny

  

³

β ∈ Rp :

´T

βˆ(LS,n) − β)

 

³



´

  X T X βˆ(LS,n) − β) n − p . ≤ F (1 − α) p,n−p 2  p SR 

Podobnˇe m˚ uˇzeme nalézt konfidenˇcn´ı interval pro hodnotu veliˇciny Yn+1 v nˇekterém bodˇe xn+1 . Nejprve pro x ∈ Rp oznaˇcme d2 (x) = xT (X T X)−1 x a pˇrirozenˇe pˇredpokládejme, ˇze Yn+1 = xTn+1 β 0 + En+1 . Uvˇedomme si, ˇze En+1 je statisticky nezávislé na βˆ(LS,n) , nebot’ tento odhad byl poˇr´ızen na základˇe prv´ ych n pozorován´ı ˇci chcete-li, budete-li uvaˇzovat βˆ(LS,n) jako náhodnou veliˇcinu, je tato závislá jen na E1 , E2 , ..., En . To znamená, ˇze náhodná veliˇcina ³

´

Yn+1 − xTn+1 βˆ(LS,n) = xTn+1 β 0 − βˆ(LS,n) + En+1 , 2. má dle v´ yˇse uveden´ ych v´ ysledk˚ u rozdˇelen´ı N (0, σ 2 (1 + d2 (xn+1 ))) a je statisticky nezávisl´ a s SR To vˇsak implikuje, ˇze ! Ã Yn+1 − xTn+1 βˆ(LS,n) = tn−p L 1 s(1 + d2 (xn+1 )) 2

a proto interval µ

1

xTn+1 βˆ(LS,n) − s(1 + d2 (xn+1 )) 2 tn−p (1 −

α ), 2 1

xTn+1 βˆ(LS,n) + s(1 + d2 (xn+1 )) 2 tn−p (1 −

¶

α ) 2

(53)

pokryje Yn+1 s pravdˇepodobnost´ı 1 − α. Podobnˇe snadno nalezneme, pro nˇekteré pevné xn+1 ∈ Rp , interval spolehlivosti pro xTn+1 β 0 . Ze vztahu (53) snadno zjist´ıme, ˇze interval µ

xTn+1 βˆ(LS,n)

¶

α α − sd(x)tn−p (1 − ), xTn+1 βˆ(LS,n) + sd(x)tn−p (1 − ) 2 2

(54)

pokr´ yvá xTn+1 β 0 s pravdˇepodobnost´ı 1 − α. Ukáˇzeme si jeˇstˇe, jak je moˇzné nalézt pás spolehlivosti, kter´ y souˇcasnˇe, pro vˇsechna x z nˇejaké T 0 pˇredem zadané oblasti, pokr´ yvá x β s pˇredem zvolenouu pravdˇepodobnost´ı. Z v´ yˇse uvedeného (LS,n) ˆ v´ıme, ˇze β padne do elipsoidu E (viz (52)) s pravdˇepodobnost´ı 1 − α. Odtud ihned plyne, ˇze zvol´ıme-li libovolné (ale pevné) x ∈ Rp , bude s pravdˇepodobnost´ı 1 − α hodnota xT βˆ(LS,n) mezi hodnotou L(x) = inf xT β β∈E

a hodnotou U (x) = sup xT β. β∈E

54

Hledejme nejprve v´ yraz pro U (x). Podobnˇe jako jiˇz nˇekolikr´ at v´ yˇse, pouˇzijeme Tvrzen´ı 7. To nám T T umoˇzn´ı psát matici X X ve tvaru QDQ , kde Q a D jsou postupnˇe orthogonáln´ı a diagonáln´ı √ matice s kladn´ ymi prvky na diagonále. Necht’ symbol D oznaˇcuje diagonáln´ı matici, která má na diagonále odmocniny z vlastn´ıch ˇc´ısel matice X T X, a to ve stejném poˇrad´ı jako stoj´ı na √ ¡ ¢ diagonále matice D, a poloˇzme κ = s2 pFp,n−p (1 − α). Oznaˇcme jeˇstˇe ξ(β) = DQT β − β 0 ) . Dostaneme p ³

β − β0

´T

³

´

X T X β − β 0 = ξ T (β)ξ(β) =

X

ξk2 (β),

k=1

a z (52) plyne, ˇze pro kaˇzdé β ∈ E máme p X

ξk2 (β) ≤ κ.

(55)

k=1

√ matici inverzn´ı k diagonáln´ı matici D, tj. matici maj´ıc´ı na diagonále √ pˇrevrácené hodnoty prvk˚ u stoj´ıc´ıch na diagonále matice D. Jednoduch´ ym v´ ypoˇctem nalezneme Oznaˇcme symbolem

√1 D

1 1 xT β = xT (β 0 + Q √ ξ) = xT β 0 + xT Q √ ξ, D D

(56)

coˇz nám umoˇzn´ı nalezen´ı sup xT β. Uvˇedomme si, ˇze prv´ y ˇclen pravé strany (56) (totiˇz xT β 0 ) je β∈E

konstantn´ı, a tedy maxima v´ yrazu xT β dos´ ahneme, zmaximalizujeme-li xT Q √1D ξ, samozˇrejmˇe pˇri splnˇen´ı vedlejˇs´ı podm´ınky (55). Protoˇze se jedná o skal´ arn´ı souˇcin dvou vektor˚ u, maxima 1 1 T dosáhneme pro takové ξ, které bude násobkem vektoru √D Q x, tj. pro ξ = λ · √D QT x, kde λ je tˇreba vybrat tak, aby platilo (55). Spoˇcteme-li normu vektoru ξ a poloˇz´ıme-li ji rovnou κ, dostaneme λ2 xT QD−1 QT x = λ2 xT (X T X)−1 x = κ neboli λ=

√ κ . d(x)

√ 1 Vypoˇcteme U (x) = xT β 0 + κd(x) = xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 a analogick´ ym postupem 1 T 0 téˇz L(x) = x β − sd(x)(pFp,n−p (1 − α)) 2 . Potom ovˇsem nerovnosti 1

1

xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 ≤ xT βˆ(LS,n) ≤ xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 plat´ı pro vˇsechna x ∈ Rp s pravdˇepodobnost´ı 1 − α. To znamená, ˇze konfidenˇcn´ı oblast s doln´ı a horn´ı mez´ı danou vztahy 1

xT βˆ(LS,n) − sd(x) (p Fp,n−p (1 − α)) 2 a

1

xT βˆ(LS,n) + sd(x) (p Fp,n−p (1 − α)) 2

pokr´ yvá “skuteˇcn´ y” model IE Y = xβ 0 s pravdˇepodobnost´ı 1 − α. Nen´ı bez zaj´ımavosti, ˇze tento pás je pro kaˇzdé konkrétn´ı x ∈ Rp ˇsirˇs´ı neˇz interval spolehlivosti dan´ y v (54). Moˇzná, ˇze stoj´ı za explicitn´ı zd˚ uraznˇen´ı fakt, kter´ y umoˇznil nalezen´ı pásu spolehlivosti p pro vˇsechna x ∈ R naráz. Snadno se nahlédne, ˇze je to skuteˇcnost, ˇze βˆ(LS,n) padne do E 55

s pravdˇepodobnost´ı 1 − α a to nezávisle na x. Nav´ıc nalezené hranice tohoto konfidenˇcn´ıho pásu (ˇci oblasti, chcete-li) naznaˇcuj´ı, proˇc se tento pás (je-li zobrazen na displeji) na okraj´ıch rozˇsiˇruje. Pˇripomeˇ nme nejprve, ˇze diagonáln´ı prvky projekˇcn´ı matice (“hat” matice) udávaj´ı vzdálenost kaˇzdého pozorován´ı od bodu, jehoˇz souˇradnice jsou dány pr˚ umˇery pˇres sloupce matice plánu. Dále si uvˇedomme, ˇze i-t´ y diagonáln´ı prvek projekˇcn´ı matice je roven d2 (xi ). Spojen´ı tˇechto 1 fakt˚ u pak implikuje to, ˇze v´ yraz sd(x) (p Fp,n−p (1 − α)) 2 je vˇetˇs´ı “na okraj´ıch” dat a menˇs´ı v jejich stˇredu.

4.5

Testov´ an´ı submodel˚ u

Odhadneme-li nˇekter´ y regresn´ı model, pak jedna z nejpˇrirozenˇejˇs´ıch otázek se bude t´ ykat poˇctu regresor˚ u, tj. toho, zda model je dostateˇcnˇe urˇcen ˇci naopak, zda nen´ı zbyteˇcnˇe pˇreurˇcen. Jak si ukáˇzeme pozdˇeji, je prv´ y pˇr´ıpad, patrnˇe podstatnˇe, nebezpeˇcnˇejˇs´ı pro dalˇs´ı pouˇzit´ı modelu neˇz pˇr´ıpad druh´ y. To m˚ uˇze navodit myˇslenku, ˇze je lépe zaˇradit do modelu v´ıce vysvˇetluj´ıc´ıch promˇenn´ ych, vˇcetnˇe nˇekter´ ych, které nejsou pro vysvˇetlen´ı veliˇciny Y signifikantn´ı, neˇz se dopustit toho, ˇze nˇekterou podstatnou vysvˇetluj´ıc´ı promˇennou vynech´ ame. Potom ovˇsem m˚ uˇze nˇekter´ y uˇzivatel pˇrij´ıt s dotazem, zda by nˇekter´ y submodel uˇz nebyl stejnˇe dobr´ y jako model, kter´ y byl navrˇzen námi. Abychom umˇeli takov´ y dotaz zodpovˇedˇet, nauˇc´ıme se v tomto odstavci testovat submodel proti “základn´ımu” modelu. To nám nav´ıc v závˇeru odstavce umoˇzn´ı seznámit se ˇcasto pouˇz´ıvan´ ym Chowov´ ym testem, tj. testem posuzuj´ıc´ım shodnost ˇci rozd´ılnost koeficient˚ u regresn´ıch model˚ u odhadnut´ ych pro dva soubory dat. D˚ ukaz Chowova testu bude pak provedem, na rozd´ıl od p˚ uvodn´ı práce a na rozd´ıl od dalˇs´ıch monografi´ı, do kter´ ych byl p˚ uvadn´ı d˚ ukaz opisován, podstatnˇe jednoduˇseji. Budeme tedy pˇredpokládat, ˇze data byla generov´ ana modelem Yi = ziT β 0 + Ei ,

i = 1, 2, . . . , n,

(57)

kde matice Z, jej´ıˇz ˇrádky jsou jako obvykle tvoˇreny transponovan´ ymi vektory ziT , je taková, ˇze M(Z) ⊂ M(X), tj. prostor generovan´ y matic´ı plánu “z´ uˇzeného” modelu je podprostorem prostoru generovaného matic´ı X. Nejpodstatnˇejˇs´ım krokem v právˇe naznaˇcovaném v´ ykladu je pak nahlédnout, ˇze rozd´ıl projekˇcn´ıch matic X(X T X)−1 X T − Z(Z T Z)−1 Z T je opˇet projekˇcn´ı matice. Lze se o tom pˇresvˇedˇcit takto. Z jiˇz dˇr´ıve pˇripom´ınané geometrické podstaty vˇeci okamˇzitˇe plyne, ˇze tento rozd´ıl projektuje do podprostoru prostoru M(X), kter´ y je kolm´ y na podprostor M(Z). Jistˇe nen´ı tˇeˇzké nahlédnout, ˇze je-li X(X T X)−1 X T v projekce vektoru v do M(X), m˚ uˇzeme tuto projekci rozloˇzit na souˇcet vektor˚ u z M(Z) a z podprostoru, kter´ y je kolm´ y na M(Z). Sloˇzky tohoto rozkladu jsou projekcemi vektoru v do odpov´ıdaj´ıc´ıch podprostor˚ u, tj. do M(Z) a do podprostoru, kter´ y je na tento kolm´ y. Jiná cesta je ˇcistˇe formáln´ı, tj. provedeme pˇr´ımo znásoben´ı matic a uvˇedom´ıme si, ˇze sloupce projekˇcn´ı matice Z(Z T Z)−1 Z T jsou vektory z M(Z) a ˇze tento prostor je dle pˇredpokladu podprostorem prostoru M(X). Jin´ ymi slovy, pokud pomoc´ı projekˇcn´ı matice X(X T X)−1 X T zprojektujeme sloupce matice Z(Z T Z)−1 Z T do M(X), dostaneme tytéˇz vektory, tj. vektory, které jsou sloupci matice Z(Z T Z)−1 Z T . Plat´ı tedy Z(Z T Z)−1 Z T · X(X T X)−1 X T = Z(Z T Z)−1 Z T 56

a protoˇze obˇe projekˇcn´ı matice jsou symetrické, máme také X(X T X)−1 X T · Z(Z T Z)−1 Z T = Z(Z T Z)−1 Z T . To dále znamená, ˇze ³

X(X T X)−1 X T − Z(Z T Z)−1 Z T

´T ³

· X(X T X)−1 X T − Z(Z T Z)−1 Z T

´

= X(X T X)−1 X T · X(X T X)−1 X T − X(X T X)−1 X T · Z(Z T Z)−1 Z T −Z(Z T Z)−1 Z T · X(X T X)−1 X T + Z(Z T Z)−1 Z T · Z(Z T Z)−1 Z T = X(X T X)−1 X T − Z(Z T Z)−1 Z T . Právˇe ukonˇcen´ y v´ yklad pˇredstavuje d˚ ukaz následuj´ıc´ıho tvrzen´ı. TVRZEN´ I 9 Necht’ matice Z je takov´ a, ˇze M(Z) ⊂ M(X). Potom rozd´ıl projekˇcn´ıch matic T −1 T T −1 T X(X X) X − Z(Z Z) Z je opˇet projekˇcn´ı matice, tj. tato matice je symetrick´ a a idempotentn´ı. LEMMA 9 Necht’ matice pl´ an˚ u v modelech (4) a (57), X a Z, jsou plné hodnosti p a q a fluk∞ tuace {Ei }i=1 jsou rozdˇeleny dle N (0, σ 2 I). D´ ale necht’ prostor M(Z) je podprostorem prostoru (LS,n) (LS,n) M(X). V r´ amci tohoto lemmatu necht’ βˆ(X) a βˆ(Z) oznaˇcuj´ı odhady z´ıskané metodou ne2 2 ’ jmenˇs´ıch ˇctverc˚ u v tˇechto modelech. Koneˇcnˇe pak necht S(X) a S(Z) oznaˇcuj´ı rezidu´ aln´ı souˇcty (LS,n) (LS,n) ˆ ˆ ˇctverc˚ u pˇr´ısluˇsné k β aβ . Potom statistika (X)

(Z)

F =

2 − S2 S(Z) (X) n − p · 2 p−q S(X)

m´ a Fisher-Snedecorovo F -rozdˇelen´ı s p − q a n − p stupni volnosti. D˚ ukaz. Analogicky jako v´ yˇse rozloˇz´ıme souˇcet ˇctverc˚ u Y T Y takto ³

´

³

´

Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y +Y T Z(Z T Z)−1 Z T Y.

(58)

Nyn´ı pouˇzijeme faktu, ˇze matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je idempotentn´ı, a budeme aplikovat Tvrzen´ı 3, tj. zjist´ıme, ˇze hodnost této matice je rovna jej´ı stopˇe a koneˇcnˇe pak, ˇze je jej´ı hodnost rovna rozd´ılu stop matic X(X T X)−1 X T a Z(Z T Z)−1 Z T . Protoˇze vˇsak obˇe matice jsou rovnˇeˇz idempotentn´ı, jsou jejich stopy rovny hodnostem tˇechto matic. Koneˇcnˇe tedy dostáváme: hodnost matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je p − q. Podobnou u ´vahou, kterou jsme ostatnˇe udˇelali jiˇz v´ yˇse, dostaneme, ˇze hodnost matice I − X(X T X)−1 X T je n − p. Pˇripomeˇ nme, ˇze jsme pˇredpokládali, ˇze hodnost matice Z je rovna q a máme souˇcet hodnost´ı matic roven (n − p) + (p − q) + q = n. Koneˇcnˇe pak pouˇzit´ım Fisher-Cochranova lemmatu nalezneme, ˇze kvadratické formy ³

´

Y T I − X(X T X)−1 X T Y

³

a

´

Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y

57

jsou nezávislé a maj´ı χ2 rozdˇelen´ı s n − p a p − q stupni volnosti. K dokonˇcen´ı d˚ ukazu staˇc´ı ovˇeˇrit, ˇze 2 S(X) =

n ³ X i=1

´ (LS,n) 2

Yi − XiT βˆ(X)

³

³

= Y − X(X T X)−1 X T Y

´T ³

³

= Y T I − X(X T X)−1 X T ³

´T ³

= Y − X βˆ(LS,n) x

Y − X βˆ(LS,n) x

Y − X(X T X)−1 X T Y

´T ³

´

´

´

I − X(X T X)−1 X T Y

´

= Y T I − X(X T X)−1 X T Y = Y T Y − Y T X(X T X)−1 X T Y a 2 S(Z) =

n ³ X i=1

´ (LS,n) 2

Yi − XiT βˆ(Z)

³

= Y − X βˆ(LS,n) z

³

= Y − Z(Z T Z)−1 Z T Y ³

´T ³

= Y T I − Z(Z T Z)−1 Z T ³

´T ³

´

Y − X βˆ(LS,n) x

Y − Z(Z T Z)−1 Z T Y

´T ³

´

´

I − Z(Z T Z)−1 Z T Y

´

= Y T I − Z(Z T Z)−1 Z T Y = Y T Y − Y T Z(Z T Z)−1 Z T Y. Odtud 2 2 S(Z) − S(X) = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y

³

´

= Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y. 2 T´ımto lemmatem jsme uzavˇreli základn´ı poznatky o regresn´ı anal´ yze pomoc´ı metody minimalizace souˇctu ˇctverc˚ u, ˇcasto zkrácenˇe oznaˇcované jako metoda nejmenˇs´ıch ˇctverc˚ u ˇci dokonce jen nejmenˇs´ı ˇctverce, a t´ım jsme se pˇripravili na to, abychom umˇeli interpretovat základn´ı v´ ystupy procedur pro regresn´ı anal´ yzu z vˇetˇsiny poˇc´ıtaˇcov´ ych knihoven. V dalˇs´ı kapitolce si o tom nˇeco málo ˇrekneme. Dˇr´ıve neˇz se vˇsak do toho pust´ıme, ˇreknˇeme si jeˇstˇe, ˇze s testov´ an´ım submodel˚ u u ´zce souvis´ı jiná u ´loha, která sice nen´ı po formáln´ı stránce totoˇzn´ a s testov´ an´ım submodel˚ u, ale jak uvid´ıme myˇslenka jej´ıho ˇreˇsen´ı je naprosto stejná. V roce 1960 publikoval v ˇcasopise Econometrica G. C. Chow ˇcl´ anek (Chow (1960)), kter´ y kromˇe problém˚ u, které my probereme v odstavci Vliv jednoho pozorov´ an´ı, ˇreˇsil problém testov´ an´ı shodnosti regresn´ıho modelu (ˇci jeho podmodelu - vˇse bude jasné z dále uvedeného v´ ykladu) pro dva soubory dat. Touto u ´lohou se stal ˇclánek znám´ ym. loha byla zadána takto. Pˇredpokládejme, ˇze dva soubory dat maj´ı postupnˇe regresn´ı modely, pokud plat´ı hypotéza Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) , Y (2) = Z (2) γ (2) + W (2) δ (2) + E (2) ,

(59)

pˇr´ıpadnˇe pˇri alternativˇe jsou ˇcásti vektor˚ u regresn´ıch koeficient˚ u, totiˇz γ (1) a γ (2) , stejné, takˇze m˚ uˇzeme pro data uvaˇzovat model Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) , Y (2) = Z (2) γ (1) + W (2) δ (2) + E (2) . 58

(60)

Modely lze pˇrepsat do tvaru  "

Y (1) Y (2)

#

"

=

Z (1)

0

W (1)

0

Z (2)

0

γ (1)



#  (2)  " (1) #  γ  E   ·  + (2) (1)   W E (2)  δ 

0

δ (2) a "

# Y (1)

Y (2)

"

=

Z (1) W (1) Z (2)

0 W (2)

0

#



γ (1)



 (1)  + ·  δ 

"

δ (2)

E (1) E (2)

#

.

Oznaˇcme nejprve "

X

(1)

=

Z (1) W (1) Z (2)

0

0 W (2)

#

"

a

X

(2)

=

Z (1)

0

W (1)

0

0

Z (2)

0

W (2)

#

.

Protoˇze M(X (1) ) ⊂ M(X (2) ) (pˇripomeˇ nme, ˇze se jedná o prostory generované sloupci matic, které stoj´ı v závorkách za M), m˚ uˇze b´ yt projekce vektoru (Y (1) , Y (2) )T do prostoru M(X (1) ) z´ıskána jako postupná projekce do prostoru M(X (2) ) a následnˇe do M(X (1) ). Potom ovˇsem reziduáln´ı souˇcet ˇctverc˚ u v modelu (60) m˚ uˇze b´ yt rozloˇzen na reziduáln´ı souˇcet ˇctverc˚ u v modelu (59) a souˇcet ˇctverc˚ u, kter´ y je s n´ım nezávisl´ y. Podobnˇe jako v´ yˇse, pouˇzit´ım Fisher-Cochranova lemmatu pak dostaneme následuj´ıc´ı tvrzen´ı. 2 a R2 jsou rezidu´ TVRZEN´ I 10 Necht’ R(1) aln´ı souˇcty ˇctverc˚ u v modelech (60) a (59) a necht’ (2)

q a p − q jsou poˇcty souˇradnic vektor˚ u γ (1) a δ (1) (vektor γ (2) m´ a stejný poˇcet souˇradnic jako (1) (1) (2) γ ; stejnˇe to plat´ı o δ a δ ). Potom statistika 2 − R2 R(1) (2) n − 2p · F = 2 q R(2)

m´ a za hypotézy (tj. v modelu (59)) Fisher-Snedecorovo Fq,n−2p .

4.6

V´ ybˇ er modelu

Z v´ yˇse uvedeného lze tuˇsit, ˇze jedn´ım z problém˚ u regresn´ı anal´ yzy, je problém vhodné volby vysvˇetluj´ıc´ıch promˇenn´ ych, které m´ın´ıme zaˇradit do modelu. Tento problém b´ yv´ a oznaˇcov´ an, jako problém výbˇeru modelu (nˇekdy je vˇsak stejn´ y term´ın pouˇzit k oznaˇcen´ı situace, kdy r˚ uzné metody odhadu regresn´ıch koeficient˚ u daj´ı rozd´ılné v´ ysledky, nˇekdy dokonce znaˇcnˇe rozd´ılné, a my “mus´ıme” vybrat jeden z nich napˇr. pro predikci). Pˇrirozenˇe, ˇze nˇekdy nastáv´ a situace, ˇze máme tak málo pozorován´ı i vysvˇetluj´ıc´ıch promˇenn´ ych, ˇze jsme rádi, ˇze nˇejak´ y model dáme v˚ ubec dohromady a zcela “vynecháme” u ´vahy o optimalitˇe nalezeného modelu. Z toho, co jsme si zat´ım vyloˇzili plyne, ˇze diagnostick´ ymi prostˇredky pouˇziteln´ ymi pro ˇreˇsen´ı tohoto problému jsou studentizované odhady regresn´ıch koeficient˚ u, respektive odpov´ıdaj´ıc´ı pravdˇepodobnosti, oznaˇcované jako P -values, (viz v´ yklad o v´ ystupech z poˇc´ıtaˇce), a koeficient determinace. Koeficient determinace je vˇsak rostouc´ı ˇci pˇrinejmenˇs´ım neklesaj´ıc´ı funkc´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych a tedy bez “zabudov´ an´ı” nˇejaké penalizace, nelze pomoci nˇeho nalézt jak´ ysi “objektivnˇe” optimáln´ı model. Nicménˇe intuitivnˇe c´ıt´ıme a v´ yˇse uvedené v´ ysledky to 59

potvrzuj´ı, ˇze bychom nemˇeli “zatˇeˇzovat” model zbyteˇcn´ ymi a k vysvˇetlen´ı dat nepˇrisp´ıvaj´ıc´ımi vysvˇetluj´ıc´ımi veliˇcinami. Jin´ ymi slovy to znamená, ˇze jsme ochotni pˇripustit, ˇze bychom mˇeli b´ yt nˇejak´ ym zp˚ usobem penalizováni za to, pokud bychom zvolili zbyteˇcnˇe komplikovan´ y model. N´ıˇze si ukáˇzeme, jak je zbyteˇcné pˇreurˇcen´ı modelu automaticky penalizov´ ano zvˇetˇsen´ım rozptylu odhadu regresn´ıch koeficient˚ u. Vzhledem k tomu, ˇze vˇsak neznáme doln´ı hranici rozptylu odhad˚ u regresn´ıch koeficient˚ u, tuto penalizaci vlastnˇe nem˚ uˇzeme brát na vˇedom´ı. To implikuje závˇer, ˇze penalizace za zbyteˇcnˇe bohat´ y model mus´ı b´ yt explicitn´ı, tak aby mohla ovlivnit v´ ybˇer modelu. V monografi´ıch vˇenovan´ ych regresn´ı anal´ yze lze pˇrirozenˇe nalézt celou ˇsk´ alu nápad˚ u, ˇcasto podloˇzen´ ych pˇr´ımoˇcarou heuristikou ˇci dokonce i “objektivizuj´ıc´ı” teori´ı, jak penalizovat neopodstatnˇenou komplikovanost modelu. Z tˇechto kritéri´ı je patrnˇe nejznámˇejˇs´ı kritérium Cp zavedené C. L. Mallowsem (Mallows (1973)). Statistika, kterou C. L. Mallows navrhl, má tvar Cp =

Y T (I − P ) Y + 2p − n, σ ˆ2

(61)

kde σ ˆ 2 je odhad rozptylu v “ˇsirˇs´ım” (ˇci “vˇetˇs´ım”, chcete-li) modelu. Obvykle tento model zahrnuje vˇsechny “rozumné” vysvˇetluj´ıc´ı promˇenné, ˇcasto zahrnuje dokonce vˇsechny dostupné vysvˇetluj´ıc´ı promˇenné. Jeho dimenzi oznaˇc´ıme proto pmax , zat´ımco dimenzi “aktuáln´ıho” modelu jsme v (61) oznaˇcili p. Heuristika, která stoj´ı v pozad´ı tohoto kritéria, je snadno akceptovatelná. Abychom to nahlédli, pˇrep´ıˇsme kriterium (61) do tvaru Cp =

(n − p) · σ ˆp2 Y T (I − P ) Y n − p · + 2p − n = + 2p − n, n−p σ ˆ2 σ ˆ2

kde σ ˆp2 jsme oznaˇcili odhad rozptylu rezidu´ı v “aktuáln´ım” modelu, tj. v modelu dimenze p. Je-li nyn´ı “aktuáln´ı” model témˇeˇr tak dobr´ y jako ten s dimenz´ı pmax , tj. je-li σ ˆp2 ≈ σ ˆ 2 , pak Cp ≈ n − p + 2p − n = p. Jiné kriterium, které b´ yvá ˇcasto pouˇz´ıv´ ano navrhl Akaike (Akaike (1974) a (1981)), a je zaloˇzeno na Kullback-Leiblerovˇe vzdálenosti (Kullback (1959)). Zadáno je následuj´ıc´ım vztahem ³

AIC = ln

´

Y T I − X(X T X)−1 X T Y n

+

2p , n

kde p (a t´ım i X) je vybráno tak, aby AIC bylo minimáln´ı. Snadno se nahlédne z tˇechto dvou uveden´ ych pˇr´ıklad˚ u, ˇze se jedná vˇzdy o stejnou myˇslenku, totiˇz pouˇzit´ı souˇctu ˇctverc˚ u rezidu´ı plus uplatnˇen´ı nˇejaké penalizace, která je monoton´ı funkc´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych. Uprav´ıme-li takto koeficient determinace dostaneme dalˇs´ı populárnm kritérium - upraven´ y koeficient determinace (adjusted R2 ), viz napˇr. Zvára (1989). Slovo upravený vˇsak bohuˇzel nevystihuje obsah anglického slova “adjusted”, které napov´ıd´ a, ˇze jde o charakteristiku, která je adjustovan´ a, tj. pˇrizp˚ usobená, aretovan´ a k danému modelu 6 . Jej´ı definice pak napov´ıdá, ˇze je adjustovan´ a k poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych. Ve statistick´ ych 2 knihovnách b´ yvá oznaˇcována jako R -adjusted a je zadána vztahem 2 Radjusted = 1 − (1 − R2 )

S2 n − 1 n−1 = 1 − R2 · . n−p R0 n − p

6 Bylo by asi lépe pouˇz´ıt oznaˇcen´ı adjustovan´ y koeficient determinace, ale to by urˇcitˇe nˇekteˇr´ı jazykov´ı experti nepˇrenesli pˇres srdce.

60

Snadno se nahlédne, napˇr. z druhého vyjádˇren´ı upraveného koeficientu determinace, ˇze je tento 2 tak dimenzi modelu p. Vzhledem nepˇr´ımo u ´mˇern´ y jak velikosti reziduáln´ıho souˇctu ˇctverc˚ u SR k tomu, ˇze se jej snaˇz´ıme maximalizovat, hledejme model s co nejmenˇs´ım reziduáln´ım souˇctem ˇctverc˚ u pˇri co nejmenˇs´ım poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych. Je evidentn´ı, ˇze pokud zaˇcneme s mal´ ym poˇctem vysvˇetluj´ıc´ıch promˇenn´ ych, pak pokles reziduáln´ıho souˇctu ˇctverc˚ u, pˇrid´ ame2 li dalˇs´ı regresor, m˚ uˇze b´ yt tak velk´ y, ˇze vliv tohoto poklesu na Radjusted pˇrev´ aˇz´ı nad vlivem 2 nár˚ ustu dimenze p a Radjusted bude vzr˚ ustat. Nepochybnˇe vˇsak po jistém poˇctu krok˚ u, vliv nár˚ ustu dimenze modelu, pokud budeme m´ıt k dispozici dostateˇcn´ y poˇcet regresor˚ u, pˇreváˇz´ı 2 a R2 cne klesat. nad poklesem SR adjusted zaˇ Snad jiˇz na tomto m´ıstˇe stoj´ı za to zd˚ uraznit, ˇze v´ ybˇer vhodného modelu nen´ı zdaleka jednoduchá a pˇr´ımoˇcará záleˇzitost, nebot’ pro p-dimenzionáln´ı data je pˇrirozenˇe 2p moˇznost´ı jak vybrat regresory do modelu. Nav´ıc je dobré trvale drˇzet na pamˇeti, ˇze podurˇcen´ı modelu vede vˇzdy k závaˇzn´ ym nedostatk˚ um (jak ukáˇze jeden z následuj´ıc´ıch odstavc˚ u), zat´ımco pˇreurˇcen´ı modelu v pˇr´ıpadˇe statického regresn´ıho modelu, tj. modelu pro pr˚ uˇrezov´ a data, vede pouze k poklesu eficience odhad˚ u a jak dále naznaˇc´ıme, lze dokonce tento pokles eliminovat vhodnou transformac´ı regresor˚ u za cenu maliˇcko komplikovanˇejˇs´ı interpretace modelu). To napov´ıd´ a, ˇze 2 je lepˇs´ı se rozhodnout pro takov´ y soubor regresor˚ u, pro kter´ y sice Radjusted nedosahuje pˇresnˇe maxima, ale kter´ y témˇeˇr jistˇe zaruˇcuje to, ˇze jsme nevynechali ˇz´ adn´ y d˚ uleˇzit´ y regresor, tj. tento soubor vysvˇetluj´ıc´ıch promˇenn´ ych nevede k podurˇcen´ı modelu. Na druhé stranˇe je vˇsak patrnˇe uˇziteˇcné si vˇzdy uvˇedokit, ˇze pˇreurˇcen´ı modelu pˇrece jenom zvyˇsuje rozptyl odhad˚ u regresn´ıch koeficient˚ u a to se m˚ uˇze projevit na pˇresnosti predikce, která m˚ uˇze tento fakt, tj. to, ˇze odhady koeficient˚ u mohou b´ yt ménˇe pˇresné, jeˇstˇe nepˇr´ıjemnˇe zes´ılit. Ostatnˇe to n´ıˇze uvid´ıme na pˇr´ıkladˇe o kombinován´ı pˇredpovˇed´ı ekonomického r˚ ustu ve Spojeném královstv´ı. Na závˇer tohoto odstavce zmiˇ nme jeˇstˇe to, ˇze nˇekteré statistické knihovny nab´ızej´ı procedury na automatizovan´ y v´ ybˇer regresor˚ u, obvykle oznaˇcovan´ y jako “stepwise” s moˇznost´ı v´ ybˇeru toho, zda kroková procedura bude postupovat nahoru, tj. od ˇz´ adného regresoru, ˇci dolu, tj. od vˇsech dostupn´ ych. Rovnou ˇreknˇeme, ˇze autorovy zkuˇsenosti s tˇemito postupy jsou m´ırnˇe ˇreˇceno rozporuplné. Skoro nejhorˇs´ı na tˇechto postupech je to, ˇze nen´ı obvykle zcela jasnˇe ˇreˇceno, jaká je filosofie za nimi, tj. dle jakého pravidla nakonec vyberou model. Abychom lépe nahlédli danou situaci, pˇredpokládejme napˇr., ˇze budeme postupovat ze zdola a kaˇzd´ y dalˇs´ı regresor bude “vˇclenˇen” do modelu, pokud bude m´ıt vhodnou velikost P -value a bude nejv´ıce, ze vˇsech jeˇstˇe “nezaˇrazen´ ych” regresor˚ u, zvˇetˇsovat koeficient determinace. Je okamˇzitˇe vidˇet, ˇze hodnota koeficientu determinace po dvou kroc´ıch m˚ uˇze b´ yt menˇs´ı neˇz maximáln´ı hodnota tohoto koeficientu pro model obsahuj´ıc´ı dva regresory. A to jsme nechali stranou to, ˇze vyb´ırat model jen dle koeficientu determinace je riskantn´ı. Nicménˇe nikdy nen´ı na ˇskodu vyzkouˇset vˇse, co nám dan´ y package nab´ız´ı.

5 5.1

´ ˇ ˇ ´ VYSTUPY Z POCTA COV YCH KNIHOVEN Tabulky v´ ysledk˚ u

Regresn´ı anal´ yza je jednou z nejpouˇz´ıvanˇejˇs´ıch technik pro zpracov´ an´ı dat a proto ji lze nalézt patrnˇe ve vˇsech statistick´ y knihovnách program˚ u. Dnes jiˇz dokonce i vˇetˇsina tabulkov´ ych procesor˚ u (“spreadsheet˚ u”, jako je napˇr. EXCEL) umoˇzn ˇuje v´ ypoˇcet základn´ıch v´ ysledk˚ u v regresi. V´ ysledky z´ıskané pomoc´ı subroutin nab´ızen´ ych v tabulkov´ ych procesorech je vˇsak nutné 61

povaˇzovat pouze za pˇredbˇeˇzné a orientaˇcn´ı, nebot’ tyto subroutiny obvykle nedovoluj´ı provést ani nejzákladnˇejˇs´ı diagnostiku typu normáln´ı graf (“normal graph”) ˇci indexov´ y graf (“index plot”). Na druhé stranˇe ani ˇrada komerˇcnˇe dodávan´ ych knihoven nenab´ız´ı proveden´ı regresn´ı anal´ yzy dat v tom rozsahu, ve kterém je ji nutné provést, máme-li m´ıt nadˇeji, ˇze závˇery, které uˇcin´ıme nejsou zavádˇej´ıc´ı. Neumoˇzn ˇuj´ı totiˇz napˇr. jednoduˇse provést testy normality ˇci heteroskedasticity a obvykle se omezuj´ı na grafické “podp˚ urné” prostˇredky, o kter´ ych si pov´ıme n´ıˇze. Na druhé stranˇe, tyto knihovny ˇcasto nab´ızej´ı v jin´ ych parti´ıch neˇz je urˇcena k odhadu regresn´ıho modelu proceduryt, které je moˇzné pouˇz´ıt k doplnˇen´ı diagnostiky v´ ysledk˚ u. Jedná se napˇr. o testy dobré shody, nalezen´ı vlastn´ıch ˇc´ısel matice atd. Jeˇstˇe se o tˇechto moˇznostech zm´ın´ıme tam, kde to bude na m´ıstˇe. Nyn´ı si krátce pov´ıme, které nejzákladnˇejˇs´ı u ´daje se obvykle objev´ı, ve formˇe nˇejaké tabulky (jedné ˇci v´ıce) po aplikaci pˇr´ısluˇsné regresn´ı procedury na data a jak se tyto zinterpretuj´ı. Pomineme-li to, ˇze jsou obvykle nab´ızeny v´ ysledky popisné statistiky, tj. jako odhady stˇredn´ıch hodnot, rozptylu ˇci kovarianˇcn´ı matice dat, je vˇzdy poskytnuta informace o odhadech regresn´ıch koeficient˚ u, jejich vzájemn´ ych vztaz´ıch a základn´ı u ´daje o spolehlivosti ˇci adekvátnost modelu jako celku. Aˇckoliv se jedná o nejzákladnˇejˇs´ı u ´daje o odhadnutém modelu, i jejich interpretace m˚ uˇze skr´ yvat nebezpeˇc´ı myln´ ych závˇer˚ u. Upozorn´ıme na toto nebezpeˇc´ı v tˇech m´ıstech dalˇs´ıho textu, která k tomu budou m´ıt nejbl´ıˇze (napˇr. o pouˇzit´ı kovarianˇcn´ı matice dat ve FarrarGlauberovˇe testu na kolinearitu (Farrar a Glauber (1967)), kter´ y bez verifikace - a to dosti pˇr´ısné - na normalitu m˚ uˇze dát, a obvykle dá, zav´ adˇej´ıc´ı v´ ysledky). Ve formˇe tabulek uvedeme nyn´ı pˇr´ıklad nejz´ akladnˇ ejˇ s´ıch v´ ysledk˚ u regresn´ı anal´ yzy pro data, která byla uvedena v u ´vodu skript jako pˇr´ıklad 3, “Data o sportovn´ım klubu”. Nejzákladnˇejˇs´ı u ´daje o v´ ysledc´ıch regresn´ı anal´ yzy mohou vypadat tedy následovnˇe (a obvykle se liˇs´ı od n´ıˇze uvedeného jen formou, nikoliv obsahem):

Tabulka 1 Odhad stˇredn´ıch hodnot a rozptyl˚ u Stˇredn´ı hodnota Rozptyl

V´ aha 367.5 84.5

Puls 166.5 34.1

S´ıla 64.0 8.9

Zˇcas 188.0 26.7

Cˇcas 70.0 10.3

Tabulka 2 Diagon´ aln´ı prvky projekˇcn´ı matice 1 0.24 16 0.23

2 0.12 17 0.24

3 0.09 18 0.22

4 0.07 19 0.04

5 0.09 20 0.11

6 0.11 21 0.11

7 0.08 22 0.12

8 0.22 23 0.51

62

9 0.14 24 0.14

10 0.12 25 0.07

11 0.21 26 0.08

12 0.09 27 0.16

13 0.29 28 0.38

14 0.16 29 0.16

15 0.07 30 0.19

Tabulka 3 Kovarianˇcn´ı matice dat (prav´ a horn´ı ˇc´ ast) a korelaˇcn´ı matice (lev´ a doln´ı ˇc´ ast, na diagon´ ale by byly jedniˇcky)

Cˇcas Váha Puls S´ıla Zˇcas

Cˇcas 4824.55 0.798 0.501 0.445 0.848

Váha 1963.94 1255.14 0.420 0.737 0.643

Puls 277.97 118.81 63.77 0.060 0.539

S´ıla 1081.80 913.94 16.88 1226.66 0.400

Zˇcas 594.07 229.78 43.40 141.33 101.71

Tabulka 4 Výsledn´ a tabulka odhad˚ u regresn´ıch koeficient˚ u Variable

Estimate

Intercept Váha Puls S´ıla Zˇcas

-3.61 1.26 -0.52 -0.50 3.90

Standard error 56.10 0.28 0.86 0.24 0.74

t-value

P -value

-0.06 4.41 -0.60 -2.05 5.21

0.949 0.000 0.548 0.050 0.000

Tabulka 5 Kovarianˇcn´ı matice odhad˚ u regresn´ıch koeficient˚ u Intercept Váha Puls S´ıla Zˇcas

3147.50 6.62 -30.89 -7.73 -11.23

0.08 -0.08 -0.05 -0.07

0.74 0.08 -0.23

0.06 -0.00

0.55

Tabulka 6 Tabulka shrnuj´ıc´ı z´ akladn´ı u ´daje o kvalitˇe modelu Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 4 and 25 df ) P-value Median of absolute values of all residuals Interquantile of all residua (0.250) (i.e. 2 ∗ α of residuals have been cut away)

= = = = = = = =

20551.361 25 28.671 0.853 36.299 0.000 19.307 38.615

Vˇenujme se nyn´ı anal´ yze alespoˇ n nˇekter´ ych v´ yˇse uveden´ ych tabulek. O tom, o ˇcem vypov´ıdaj´ı odhady stˇredn´ıch hodnot, rozptyl˚ u, kovarianˇcn´ı a korelaˇcn´ı matice 63

nen´ı patrnˇe ˇctenáˇre tˇechto skript nutné pouˇcovat. K nˇekter´ ym “subtilnˇejˇs´ım” otázk´ am spojen´ ym s tˇemito u ´daji se vrát´ıme pozdˇeji. Proto se nebudeme Tabulkou 1 a 3 zab´ yvat. Upˇresnˇeme jen, ˇze k odhad˚ um stˇredn´ıch hodnot a rozptyl˚ u byl pouˇzit medián a mediánov´ a absolutn´ı odchylka (median absolute deviation); protoˇze druh´ y z pouˇzit´ ych odhad˚ u nen´ı v obecném povˇedom´ı dovol´ıme si pˇripomenout, ˇze je definován vztahem µ

σ ˆM AD

= 1.483 · med

1≤i≤n

¶

|zi − med (zi )| 1≤i≤n

,

kde faktor “1.483” je pouˇzit proto, aby bylo dosaˇzeno nestrannosti v normáln´ım rozdˇelen´ı. Tabulka 2 obsahuje diagonáln´ı prvky matice X(X T X)−1 X T , tj. “hat” matice. Co tyto prvky udávaj´ı, se snadno nahlédne z n´ıˇze uvedené rovnosti, viz (62). Pokud je v modelu absolutn´ı ˇclen, tj. je-li prv´ y sloupec matice X tvoˇren jedniˇckami, je prv´ y sloupec (a tedy také ˇr´ adek) matice T −1 (X X) roven vektoru n¯ x, kde x ¯ = (1, Snadno se ovˇeˇr´ı, ˇze

n n n 1X 1X 1X xi2 , xi3 , . . . , xip )T . n i=1 n i=1 n i=1

n¯ x(X T X)−1 = (1, 0, 0, . . . , 0),

nebot’ X T X(X T X)−1 = In , kde In oznaˇcuje opˇet jednotkovou matici typu n × n. To ovˇsem znamená, ˇze 1 (62) (xi − x ¯)T (X T X)−1 (xi − x ¯) = xTi (X T X)−1 xi − . n Pˇripomeˇ nme si, ˇze k u ´spˇeˇsné verifikaci (62), je tˇreba m´ıt na pamˇeti, ˇze vektor xi má prvou souˇradnici rovnou jedniˇcce. To indikuje, ˇze diagonáln´ı prvky udávaj´ı vzdálenost, v metrice dané tensorem (X T X)−1 , od x ¯, tj. vzdálenost jednotliv´ ych pozorov´ an´ı od “tˇeˇziˇstˇe oblaku dat”. Znovu podotknˇeme, ˇze vzdálenost je mˇeˇrena nikoliv v euklidovské metrice, ale v riemanovské, tj. oproti euklidovské, ve které je pˇr´ısluˇsn´ ym tensorem jednotkov´ a matice I, je zde pouˇzita metrika “adaptovaná” k dat˚ um. ˇ Casto se uvádˇej´ı pˇribliˇzná pravidla, udávaj´ıc´ı jaká jeˇstˇe m˚ uˇze b´ yt hodnota i-tého diagonáln´ıho prvku projekˇcn´ı matice, aniˇz bychom povaˇzovali i-té pozorov´ an´ı za odlehlé (leverage point) a t´ım vlivné. V monografii Chatterjee, Hadi (1988) je napˇr. uvedena následuj´ıc´ı tabulka udávaj´ıc´ı aproximace 95% kvantil˚ u pro diagonáln´ı prvky projekˇcn´ı matice za pˇredpokladu, ˇze ˇr´ adky matice plánu (tj. matice X) byly generovány standardn´ım normáln´ım rozdˇelen´ım (pˇredpoklád´ a se, ˇze n − p > 30). Tabulka 7 Pˇribliˇzné 95% kvantily pro diagon´ aln´ı prvky projekˇcn´ı matice Je-li p vˇetˇs´ı neˇz

Aproximace kvantilu

2

2.5p n 2.0p n 1.5p n

6 12

64

Obecnˇe lze vˇsak ˇr´ıci, ˇze hodnoty udávané touto aproximac´ı pˇreceˇ nuj´ı skuteˇcné hodnoty kvantil˚ clánku´Belsley, Kuh a Welsch (1980) je totiˇz ukáz´ ano, ˇze pokud jsou ˇr´ adky matice ³ u. V ˇ −1 T ˜ = I − n 11 X nezávislé a rozdˇelené dle p-rozmˇerného normáln´ıho rozdˇelen´ı, je X Ã

n − p hii − n−1 L p − 1 1 − hii

!

≈ Fp−1,n−p ,

kde hii = xTi (X T X)−1 xi . I pˇri pˇredpokladu, ˇze ˇr´ adky matice X jsou nezávislé p-rozmˇerné normálnˇe rozdˇelené náhodné veliˇciny, ˇr´ adky matice x ˜ nejsou nikdy zcela nezávislé. Nicménˇe pro rostouc´ı poˇcet pozorován´ı závislost mezi nimi klesá. M˚ uˇzeme tedy povaˇzovat tento v´ ysledek za aplikovateln´ y. Odtud snadno dostaneme a hkritick´ (α) ii

=

Fp−1,n−k + n−p p−1

n−p (p−1)·n

+ Fp−1,n−p

.

(63)

Následuj´ıc´ı tabulky ukazuj´ı srovnán´ı aproximac´ı. Tabulka 8 Srovn´ an´ı aproximace kvantil˚ u dané vztahem (63) a Tabulkou 7. (Prv´ a aproximace - dle Tabulky 7 - je oznaˇcena jako A1, druh´ a - dle (63) - jako A2). Dimenze modelu p = 3

Dimenze modelu p = 6

Poˇcet pozorován´ı

A1

A2

Poˇcet pozorov´ an´ı

A1

A2

40 60 80 100 150

0.1547 0.1034 0.0776 0.0621 0.0414

0.1875 0.1250 0.0938 0.0750 0.0500

40 60 80 100 150

0.2743 0.1865 0.1410 0.1133 0.0760

0.3750 0.2500 0.1875 0.1500 0.1000




A1

A2


A1

A2

70 100 130 160 190

0.1814 0.1282 0.0991 0.0808 0.0681

0.2000 0.1400 0.1077 0.0875 0.0737

100 130 160 200 240

0.1699 0.1317 0.1075 0.0863 0.0721

0.2000 0.1538 0.1250 0.1000 0.0833




A1

A2


A1

A2

140 180 220 280 340

0.1599 0.1252 0.1029 0.0811 0.0670

0.2000 0.1556 0.1273 0.1000 0.0824

160 200 250 300 400

0.1563 0.1258 0.1010 0.0844 0.0635

0.1500 0.1200 0.0960 0.0800 0.0600

65




A1

A2


A1

A2

200 250 300 400 500

0.1506 0.1211 0.1013 0.0763 0.0611

0.1500 0.1200 0.1000 0.0750 0.0600

250 300 400 500 600

0.1405 0.1176 0.0886 0.0711 0.0593

0.1440 0.1200 0.0900 0.0720 0.0600

Z Tabulky 8 je vidˇet, ˇze jednoduch´ a aproximace udaná v Tabulce 7 opravdu pˇreceˇ nuje kvantily diagonáln´ıch prvk˚ u aˇz na pˇr´ıpady, kdy dimenze modelu je mezi 16 a 24. Protoˇze zejména pro malé dimenze modelu a mal´ y poˇcet pozorov´ an´ı jsou hodnoty aproximac´ı dosti odliˇsné a protoˇze se lze domn´ıvat, ˇze vztah (63) je bl´ıˇze skuteˇcné hodnotˇe, je patrnˇe lépe pouˇz´ıt pˇr´ımo tento vztah. Nyn´ı vysvˇetl´ıme obsah Tabulek 4, 5 a 6. Prvá z nich kromˇe jmen vysvˇetluj´ıc´ıch promˇenn´ ych, tak jak je zvol´ıme na zaˇcátku zpracov´ an´ı dat, shrnuje (ve druhém sloupci) odhady regresn´ıch (LS,n) ˆ koeficient˚ u, tj. βi , i = 1, 2, . . . , p, a ve tˇret´ım odhady rozptyl˚ u nebo smˇerodatn´ ych od2 T −1 chylek tˇechto odhad˚ u, tj. bud’ diagonáln´ı prvky matice s (X X) nebo, a to daleko ˇcastˇeji, jejich druhé odmocniny. Je tˇreba se pod´ıvat do manu´ alu, dodaného ke statistické knihovnˇe, kterou právˇe pouˇz´ıváme. V naˇsem pˇr´ıpadˇe jsou ve tˇret´ım sloupci smˇerodatné odchylky odhad˚ u. V pˇredposledn´ım sloupci jsou udány studentizované odhady regresn´ıch koeficient˚ u, tj. hodnoty uvedené ve druhém sloupci jsou vydˇeleny smˇerodatn´ ymi odchylkami odhad˚ u koeficient˚ u, a koneˇcnˇe pak v posledn´ım sloupci jsou shromáˇzdˇeny pravdˇepodobnosti toho, ˇze náhodná veliˇcina, která má Studentovo rozdˇelen´ı o n − p stupn´ıch volnosti pˇrekroˇc´ı hodnotu studentizovaného odhadu pˇr´ısluˇsného koeficientu, tj. hodnotu uvedenou ve ˇctvrtém sloupci. Jedná se tedy o pravdˇepodobnost µ ¶ 1 −1 − 2 ˆ(LS,n) P t(n−p) (ω) > s c β , ii

1

i

− (LS,n) kde s−1 cii 2 βî je pˇr´ısluˇsné ˇc´ıslo uvedené v pˇredposledn´ım sloupci Tabulky 4 a i = 1, 2, . . . , p. Z Vˇety 2 v´ıme, ˇze pˇri nulové hypotéze, tj. hypotéze, ˇze pˇr´ısluˇsn´ y regresn´ı koeficient je nulov´ y, je studentizovan´ y odhad tohoto koeficientu rozdˇelen dle Studentova t o n − p stupn´ıch volnosti. To znamená, ˇze by nemˇela v´ yˇse uvedená pravdˇepodobnost, pokud hypotéza plat´ı, b´ yt pˇr´ıliˇs malá. Koneˇcnˇe tedy, pokud je v posledn´ım sloupci “dostateˇcnˇe” malé ˇc´ıslo, zam´ıtneme hypotézu, ˇze pˇr´ısluˇsn´ y koeficient v modelu je nulov´ y. Z uvedeného plyne, ˇze právˇe pouˇzité slovo “dostateˇcnˇe” se vztahuje k hladinˇe v´ yznamnosti, na které se rozhodneme zm´ınˇenou hypotézu testovat. Pokud napˇr. zvol´ıme hladinu v´ yznamnosti rovnou 5%, pak zam´ıtneme hypotézu o nulovosti koeficientu v pˇr´ıpadˇe, ˇze tato pravdˇepodobnost (tj. ˇc´ıslo v posledn´ım sloupci) je menˇs´ı neˇz 0.05. Obˇcas se setkáme s t´ım, ˇze právˇe uveden´ a tabulka obsahuje jeˇstˇe dalˇs´ı informaci Nˇekteré statistické knihovny (napˇr. STATISTICA) vypisuj´ı totiˇz jeˇstˇe dva dalˇs´ı sloupce, a to vsunuté hned za sloupec jmen vysvˇetluj´ıc´ıch promˇenn´ ych. V nich je uvedena informace podobná informaci uvedené v druhém a tˇret´ım sloupci v´ yˇse popisované tabulky. Jedná se o odhady regresn´ıch koeficient˚ u a odhady jejich rozptyl˚ u, ale nikoliv pro origináln´ı (tj. p˚ uvodn´ı) data, ale pro normalizovaná data, která maj´ı vˇsechny promˇenné transformov´ any tak, ˇze maj´ı nulov´ y pr˚ umˇer a

66

jednotkov´ y v´ ybˇerov´ y rozptyl. Pro takto normalizovan´ a data je potom uveden odhad modelu bez absolutn´ıho ˇclenu. Mˇejme model (4), tj. p X

Yi =

xij βj0 + Ei .

(64)

j=1

Vysˇc´ıtán´ım pˇres i, tj. vˇsech ˇrádk˚ u matice X, a následn´ ym vydˇelen´ım ˇc´ıslem n, dostaneme p X

Y¯ =

¯ x ¯j βj0 + E,

(65)

j=1

¯ jsou pr˚ kde Y¯ , x ¯j a E umˇery vysvˇetlované a vysvˇetluj´ıc´ıch veliˇcin a pr˚ umˇer náhodn´ ych fluktuac´ı. Nyn´ı odeˇcteme (65) od (64) a dostaneme Yi − Y¯ =

p X

¯ (xij − x ¯j )βj0 + Ei − E.

j=1

a koneˇcnˇe vydˇelen´ım v´ ybˇerov´ ymi rozptyly7 dostaneme p ¯ X xij − x ¯j βj0 sj Ei − E Yi − Y¯ = + . sY sj sY sY j=1

Pˇripomeˇ nme si, ˇze uvaˇzujeme model s deterministick´ ymi nosiˇci a ˇze tedy rozptyl vysvˇetlované promˇenné je shodn´ y s rozptylem náhodn´ ych fluktuac´ı. Posledn´ı rovnost lze pˇrepsat do tvaru Y˜i =

p X

˜i , x ˜ij β˜j0 + E

i = 1, 2, . . . , n.

j=1

Nyn´ı se snadno nahlédne, proˇc je uveden právˇe model bez absolutn´ıho ˇclenu. Pokud je totiˇz xi1 = 1 pro i = 1, 2, ..., n, je xi1 − x ¯1 = 0. Z posledn´ıho vztahu je patrné, proˇc je tato informace uvádˇena. V regresn´ım modelu (4) ovlivˇ nuj´ı jednotlivé vysvˇetluj´ıc´ı promˇenné hodnotu vysvˇetlované promˇenné nejen skrze velikost pˇr´ısluˇsného regresn´ıho koeficientu, ale také t´ım jakou maj´ı absolutn´ı velikost. Nˇekdy je vˇsak uˇziteˇcné m´ıt pˇredstavu o tom, jak moc by ta ˇci ona vysvˇetluj´ıc´ı veliˇcina ovlivnila vysvˇetlovanou veliˇcinu, kdyby vˇsechny byly stejnˇe “variabiln´ı”, tj. kdyby mˇely stejn´ y rozptyl. Proto normalizace na jednotkov´ y rozptyl. Normalizace na nulov´ y pr˚ umˇer nen´ı podstatná v právˇe popsaném smyslu vlivu absolutn´ı velikosti vysvˇetluj´ıc´ıch veliˇcin na vysvˇetlovanou veliˇcinu ˇci alespoˇ n nikoliv pˇr´ımo, ale m˚ uˇze hrát také podstatnou (zkresluj´ıc´ı) roli. Z pˇr´ıkladu o jasu hvˇezd, kter´ y byl uveden na zaˇcátku skript, je vidˇet, ˇze právˇe proveden´ a studentizace bude m´ıt zav´ adˇej´ıc´ı v´ ysledky, nebot’ d´ıky ˇctyˇrem odlehl´ ym pozorován´ım, budou pr˚ umˇery jednotliv´ ych souˇradnic napozorovan´ ych dat leˇzet témˇeˇr mimo “hlavn´ı” oblak dat, na rozd´ıl od medián˚ u, které by posunuly pozorov´ an´ı tak, ˇze by poˇcátek souˇradného systému leˇzel uprostˇred “hlavn´ıho” oblaku dat. Jestliˇze vˇsak posuneme data tak, ˇze poˇcátek souˇradné soustavy bude mimo hlavn´ı “oblak” dat a pak “vnut´ıme” dat˚ um model bez absolutn´ıho ˇclenu, bude tento model vypadat tak jakoby poˇc´ atek byl jeden bod a 7

Samozˇrejmˇe pokud uvaˇzujeme model s pevn´ ymi nosiˇci, je toto trochu n´ asilné. Na druhé stranˇe, m˚ uˇzeme to povaˇzovat za jakousi transformaci nosiˇc˚ u, kter´ a je znormuje na stejnou “velikost”.

67

data druh´ y bod urˇcuj´ıc´ı regresn´ı pˇr´ımku. V pˇr´ıpadˇe v´ıcerozmˇern´ ych dat bude situace ponˇekud sloˇzitˇejˇs´ı, ale neadekvátnost modelu bude stejnˇe zˇrejm´ a. Vid´ıme tedy, ˇze je podstatné, co zvol´ıme za “tˇeˇziˇstˇe” dat, zda napˇr. pr˚ umˇery vˇsech veliˇcin, jak je tomu v knihovnˇe STATISTICA, ˇci mediány, ˇci u ´plnˇe nˇeco jiného. Pˇrirozenˇe pokud budou data “dostateˇcnˇe homogenn´ı” nebude volba napˇr. mezi pr˚ umˇery a mediány moc ovlivˇ novat koneˇcn´ y v´ ysledek. V pˇr´ıpadˇe, kdy data vˇsak budou “nezanedbatelnˇe zneˇciˇstˇena” (kontaminov´ ana) nˇejak´ ymi chybami v zápise ˇci pozorován´ımi, která do nich fakticky nepatˇr´ı, ˇci nˇeˇc´ım jin´ ym, m˚ uˇze b´ yt v´ ysledek velmi podivn´ y. Modern´ı statistika, která se, alespoˇ n v rozumné m´ıˇre snaˇz´ı zabezpeˇcit proti kontaminaci dat, proto doporuˇcuje interpretovat tuto informaci v kontextu s celou ˇsk´ alou dalˇs´ıch, zejména diagnostick´ ych informac´ı. Tabulka 5 uvád´ı odhad kovarianˇcn´ı matice odhad˚ u, tj. s2 (X T X)−1 . Jedná, aˇz na faktor s2 , o inverzn´ı matici k X T X, která je, opˇet aˇz na faktor n−1 , odhadem kovarianˇcn´ı matice dat, samozˇrejmˇe bez vysvˇetlované promˇenné. Proto tato tabulka nepˇrin´ aˇs´ı mnoho nové informace a nemá pro interpretaci v´ ysledk˚ u regresn´ı anal´ yzy zásadn´ı v´ yznam. Posledn´ı tabulka pak shrnuje celkovou informaci o adekvátnosti modelu. Znovu vˇsak zd˚ uraznˇeme, ˇze se jedná pouze o prvn´ı a orientaˇcn´ı informaci. Nen´ı totiˇz obt´ıˇzné naj´ıt soubory dat, pro které tyto charakteristiky byly “v´ yborné”, ale model byl odhadnut zcela ˇspatnˇe (správn´ y model jsme ’ bud znali, protoˇze data byla simulována, nebo jsme jinou metodou odhadli model, kter´ y, po vylouˇcen´ı malého poˇctu bod˚ u - jednoho ˇci dvou, vykazoval ˇr´ adovˇe menˇs´ı souˇcet ˇctverc˚ u rezidu´ı, nikoliv vˇsak nutnˇe vyˇsˇs´ı koeficient determinace). K tomu abychom dospˇeli k pˇresvˇedˇcen´ı, ˇze odhadnut´ y model je adekvátn´ı, je nutné provést alespoˇ n nˇekolik dalˇs´ıch diagnostick´ ych vyˇsetˇren´ı. O tˇech si budeme pov´ıdat v nˇekteré z dalˇs´ıch kapitol. P˚ ujde pˇrev´ aˇznˇe o aposteriorn´ı diagnostiku. V Tabulce 6 je udán, kromˇe jiného, také odhad parametru mˇeˇr´ıtka, ˇci chcete-li odhad ˇ eji vˇsak b´ smˇerodatné odchylky (scale estimate). Castˇ yv´ a udáv´ an odhad rozptylu rezidu´ı (variance estimate), nˇekdy b´ yvá uvedeno oboj´ı. To, co je ve v´ ypise udáno, lze zjistit obvykle v manuálu. Nˇekdy se vˇsak ani pˇri peˇclivém ˇcten´ı manu´ alu prostˇe nedá zjistit, ˇci sp´ıˇse nedá dospˇet k naprosté jistotˇe, co daná knihovna vlastnˇe nab´ız´ı a pak je to prostˇe tˇreba zkusit na datech, u kter´ ych, d´ıky tomu, ˇze jsme je nejprve zpracovali pomoci softwaru, kter´ y známe, v´ıme, co má vyj´ıt. Právˇe popsané situace vznikaj´ı t´ım, ˇze “softwar´ aˇri”, kteˇr´ı knihovny pˇripravuj´ı a p´ıˇs´ı k nim manuály, obvykle pouˇz´ıvaj´ı názvoslov´ı, které nen´ı (zcela) totoˇzné s názvoslov´ım pouˇz´ıvan´ ym v bˇeˇzn´ ych statistick´ ych monografi´ıch. Dˇr´ıve neˇz pokroˇc´ıme dále, zastavme se jeˇstˇe u jedné poloˇzky Tabulky 6. I v této tabulce, podobnˇe jako v tabulce s odhady regresn´ıch koeficient˚ u, je uvedena P -value. Tato P -value udáv´ a pravdˇepodobnost, ˇze náhodná veliˇcina rozdˇelen´ a jako Fisher-Snedecorovo F s p − 1 (pˇr´ıpadnˇe p) a n − p stupni volnosti pˇrekroˇc´ı hodnotu F uvedenou na pátém ˇr´ adku Tabulky 6, pˇriˇcemˇz je tato pravdˇepodobnost vyˇc´ıslena pˇri platnosti hypotézy, ˇze IE Y = γ · 1, je-li v modelu absolutn´ı ˇclen, ˇci IE Y = 0, je-li model bez absolutn´ıho ˇclenu (viz Lemma 8). To znamená, ˇze pokud hodnota na ˇsestém ˇrádku Tabulky 6 je menˇs´ı neˇz zvolen´ a hladina v´ yznamnosti, zam´ıtneme hypotézu, ˇze vysvˇetlovaná promˇenná je nezávislá na vysvˇetluj´ıc´ıch faktorech a akceptujeme odhadnut´ y model. Uvˇedomme si vˇsak, ˇze to nen´ı potvrzen´ı platnosti modelu, nebot’ se jedná o statistick´ y test a tedy jeho v´ yrok ˇr´ıká, ˇze je patrnˇe vhodné zam´ıtnout hypotézu, ˇze je vysvˇetlovan´ a veliˇcina nezávislá na vysvˇetluj´ıc´ıch. Snadno si ale um´ıme pˇredstavit, ˇze model˚ u popisuj´ıc´ıch závislost mezi tˇemito (náhodn´ ymi) veliˇcinami m˚ uˇze b´ yt nespoˇcet. 68

Vˇetˇsina statistick´ ych poˇc´ıtaˇcov´ ych knihoven, ne-li vˇsechny, nab´ız´ı vyˇc´ıslen´ı dalˇs´ıch charakteristik “vhodnosti” modelu ˇci test˚ u toho, zda pˇredpoklady, za kter´ ych jsme v´ yˇse v tomto textu (LS,n) ˆ odvozovali optimalitu odhadu β , jsou (alespoˇ n pˇribliˇznˇe) splnˇeny. Jedn´ım z nejznámˇejˇs´ıch test˚ u je nepochybnˇe Durbin-Watsonova statistika, testuj´ıc´ı nezávislost náhodn´ ych fluktuac´ı mezi ˇ sebou. Casto jsou vˇsak k dispozici i r˚ uzné typy statistik dobré shody (byt’ je uˇzivatel mus´ı hledat v jin´ ych odd´ılech neˇz v regresi), r˚ uzné typy diagnostick´ ych graf˚ u atd. Vˇsechny tyto moˇznosti budeme diskutovat pozdˇeji. Nyn´ı se vˇsak jeˇstˇe na moment zastavme u problému, kter´ y má mnoho spoleˇcného s právˇe popisovan´ ymi tabulkami. Nˇekdy se totiˇz stane, ˇze v´ ysledky v Tabulce 4 indikuj´ı, ˇze je do modelu zahrnuto nˇekolik vysvˇetluj´ıc´ıch promˇenn´ ych, které nejsou signifikantn´ı pro vysvˇetlen´ı vysvˇetlované veliˇciny. Jejich P -hodnoty jsou totiˇz (znaˇcnˇe) velké. Vypust´ıme-li vˇsak tyto promˇenné a pˇrepoˇc´ıtáme-li model, klesne pováˇzlivˇe koeficient determinace. Takov´ y model nás pˇrirozenˇe neuspokoj´ı a my se rozhodneme nˇekterou vylouˇcenou promˇennou do modelu vrátit. S podivem zjist´ıme, ˇze nyn´ı má tato promˇenn´ a P -hodnotu velmi malou, coˇz signalizuje, ˇze v modelu patrnˇe hraje signifikantn´ı roli. Vysvˇetlen´ı je samozˇrejmˇe prosté. Ve verzi modelu, se kterou jsme zaˇcali naˇsi anal´ yzu, bylo nˇekolik promˇenn´ ych, které byly v´ıce ˇci ménˇe, nicménˇe dostateˇcnˇe lineárnˇe závislé, tak aby se “pˇretahovaly ve snaze vysvˇetlit” Y . Jednou z nejˇcastˇeji se objevuj´ıc´ıch situac´ı, kdy tento “jev” nastává, je situace, kdy variabilita nˇekteré vysvˇetluj´ıc´ı promˇenné malá ve srovnán´ı s variabilitou vysvˇetlované promˇenné. Potom tato vysvˇetluj´ıc´ı promˇenn´ a “soupeˇr´ı o vliv” s absolutn´ım ˇclenem. Problém b´ yv´ a oznaˇcov´ an v regresn´ı anal´ yze jako problém kolinearity (ˇci multikolinearity) a budeme jej studovat pozdˇeji. Ted’ si vˇsak dovolme si jeˇstˇe jednu, v podstatˇe technickou poznámku. Nˇekdy se stane, ˇze pˇri regresn´ı anal´ yze provedené pomoc´ı nˇekteré statistické poˇc´ıtaˇcové knihovny naraz´ıme na “záhadu”, která je evidentnˇe podivná uˇz na prvn´ı pohled, ale jen na ten, jak ihned uvid´ıme. Stane se totiˇz, ˇze v´ ysledky Tabulky 4 napov´ıdaj´ı, ˇze absolutn´ı ˇclen je v modelu nev´ yznamn´ y. Po zmenˇsen´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ ych o absolutn´ı ˇclen dojde nutnˇe ke zv´ yˇsen´ı hodnoty reziduáln´ıho souˇctu ˇctverc˚ u a tedy intuitivnˇe c´ıt´ıme, ˇze i ke zhorˇsen´ı determinace modelu. Pˇresto vˇsak se hodnota koeficientu determinace zv´ yˇs´ı. Jak je to moˇzné? ’ Odpovˇed je skryta v Definici 1. V prvém pˇr´ıpadˇe totiˇz poˇc´ıtaˇc vyˇc´ıslil koeficient determinace v˚ uˇci nulové hypotéze IE Y = γ · 1, v druhém pˇr´ıpadˇe tak uˇcinil v˚ uˇci hypotéze IE Y = 0. To Pn 2 ovˇsem implikuje, ˇze za R0 bylo v prvém pˇr´ıpadˇe vzata suma i=1 (Yi − Y¯ )2 , v druhém pˇr´ıpadˇe P to byla suma ni=1 Yi2 , která je vˇzdy, a nˇekdy m˚ uˇze b´ yt dokonce podstatnˇe, vˇetˇs´ı neˇz ta prvn´ı. Vliv tohoto faktu na hodnotu koeficientu determinace je nyn´ı jiˇz snadno nahlédnuteln´ y. Ne ve vˇsech uˇcebnic´ıch regerse se zd˚ urazˇ nuje fakt, ˇze je patrnˇe vhodnˇejˇs´ı poˇc´ıtat vˇzdy, pokud proti tomu nejsou opravdu závaˇzné d˚ uvody, model s absolutn´ım ˇclenem a to i v pˇr´ıpadˇe, ˇze se dle studentizovan´ ych statistik jev´ı jako nev´ yznamn´ y. Toto doporuˇcen´ı vych´ az´ı z faktu, ˇze absolutn´ı ˇclen hraje trochu jinou u ´lohu v modelu neˇz ostatn´ı regresn´ı koeficienty, které udávaj´ı sklon regresn´ı nadroviny. Pokusme se to bl´ıˇze vysvˇetlit. Pˇredpokládejme, ˇze naˇse data jsou um´ıstˇena daleko od poˇc´ atku. Uvˇedom´ıme-li si, ˇze absolutn´ı ˇclen je souˇradnic´ı bodu, ve kterém regresn´ı nadrovina prot´ın´ a y-novou osu, tj. osu na kterou nanáˇs´ıme hodnoty vysvˇetlované promˇenné, snadno nahlédneme, ˇze malá zmˇena ve sklonu regresn´ı nadroviny zp˚ usob´ı velkou zmˇenu absolutn´ıho ˇclenu. Na druhé stranˇe malá zmˇena ve sklonu regresn´ı nadroviny zp˚ usob´ı jen malou zmˇenu v predikc´ıch uˇcinˇen´ ych v oblasti dat nebo 69

v jejich bl´ızkém okol´ı. Zde je tˇreba m´ıt na pamˇeti to, ˇze smyslplné predikce lze prov´ adˇet pouze v té oblasti faktorového prostoru, kterou pokr´ yvala “trénovac´ı” data, tj. data, ze kter´ ych jsme odhadovali model. Odtud je vidˇet, ˇze vˇsechny u ´vahy o signifikantnosti absolutn´ıho ˇclenu jsou podm´ınˇené polohou dat ve faktorovém prostoru. Na druhé stranˇe, obvykle chceme, aby naˇse závˇery byly v jistém smyslu invariantn´ı. Napˇr. pokud jen posuneme data ve faktorovém prostoru a neprovedeme nˇejaké jejich otoˇcen´ı, patrnˇe opodstatnˇenˇe oˇcek´ av´ ame, ˇze predikce provedené pomoc´ı model˚ u na p˚ uvodn´ıch a posunut´ ych datech se budou liˇsit právˇe je t´ım posunut´ım. To vˇsak v´ıce ménˇe vyˇzaduje, aby zaˇclenˇen´ı absolutn´ıho ˇclenu do modelu bylo nezávislé na posunut´ı dat. To implikuje, ˇze u ´vahy o signifikantnosti absolutn´ıho ˇclenu maj´ı tedy smysl pouze tehdy, pokud je tato poloha v jakémsi smyslu “absolutn´ı”. Pak ovˇsem zase naopak ztrácej´ı smysl u ´vahy o invarianci odhadu a to m˚ uˇze m´ıt dalekos´ ahlé d˚ usledky pro volbu odhadu, tj. m˚ uˇzeme pak dát pˇrednost jinému odhadu neˇz je odhad metodou nejmenˇs´ıch ˇctverc˚ u. Dˇr´ıve neˇz uzavˇreme tento odstavec, dovol´ıme se dotknout jednoho problému, kter´ y svou sv˚ udnost´ı pˇripom´ıná Skyllu (ˇci Charibdu). Jednoduˇse a snad i v´ ystiˇznˇe by se tento problém dal oznaˇcit jako un´ ahlené z´ avˇery vyvozené ze znaménka odhad˚ u regresn´ıch koeficient˚ u. Aˇckoliv po krátké diskuzi snadno nahlédneme, jak zav´ adˇej´ıc´ı mohou b´ yt u ´vahy opˇrené o znaménko odhadu pˇr´ısluˇsného regresn´ıho koeficientu, stále se jeˇstˇe objevuj´ı a to i v jinak docela serizn´ıch ˇcl´ anc´ıch. O co se jedná? Problém je patrnˇe, kromˇe jiného, v tom, ˇze v ˇradˇe uˇcebn´ıch text˚ u o regresn´ı anal´ yze nen´ı bud’ v˚ ubec, ˇci je jen velmi povrchnˇe diskutov´ ana otázka, jak interpretovat v´ ysledky regresn´ı anal´ yzy. Toto opomenut´ı pak zp˚ usob´ı, ˇze se m˚ uˇzeme setkat s v´ yroky typu: “Znaménka odhad˚ u regresn´ıch koeficient˚ u vyˇsla v souladu s naˇsimi pˇredstavami o kauz´ aln´ıch souvislostech, nebot’ n´ ar˚ ust hladiny δ-terfendinu (jedna z vysvˇetluj´ıc´ıch promˇenných) by mˇel negativnˇe ovlivˇ novat adrenergn´ı stimulaci (vysvˇetlovan´ a promˇenn´ a) pacienta”. Pˇri takovéto interpretaci v´ ysledk˚ u regresn´ı anal´ yzy je vˇsak zcela opominut fakt, ˇze uvolˇ nov´ an´ı δ-terfendinu je spojeno s u ´bytkem κ-histaminu a η-proteinu (jiné dvˇe vysvˇetluj´ıc´ı promˇenné), v ˇreˇci statistiky, jedna z vysvˇetluj´ıc´ıch promˇenn´ ych je témˇeˇr nepˇr´ımo u ´mˇerná dalˇs´ım dvˇema. Tud´ıˇz nár˚ ust hladiny δ-terfendinu vyvol´ a, aˇz na statistické odchylky, pokles κ-histaminu a η-proteinu a celkov´ y dopad na adrenergn´ı stimulaci m˚ uˇze b´ yt pozitivn´ı, tj. zcela jin´ y neˇz napov´ıdaj´ı jednotlivá znaménka (ˇci velikosti) odhad˚ u regresn´ıch koeficient˚ u. Jin´ ymi slovy, pˇri interpretaci v´ ysledk˚ u regresn´ı anal´ yzy je tˇreba posuzovat model komplexnˇe, tj. je nutné vz´ıt v u ´vahu rovnˇeˇz vzájemnou závislost (a jej´ı m´ıru, ˇci stupeˇ n, chcete-li) mezi vysvˇetluj´ıc´ımi promˇenn´ ymi, a to bohuˇzel u kaˇzdého jednotlivého subjektu. Vysvˇetleme to podrobnˇeji. Prvn´ı domnˇenka, která nás napadne bude to, ˇze právˇe popsaná situace je d˚ usledkem (vysoké) korelovanosti nˇekter´ ych vysvˇetluj´ıc´ıch promˇenn´ ych. Tuto vysokou korelovanost jsme vyjádˇrili slovy “témˇeˇr nepˇr´ımo u ´mˇerné”. Odtud je jen krok k dohadu, ˇze tato korelovanost by se mˇela projevit v kolinearitˇe. O té se budeme bavit pozdˇeji podrobnˇe a proto nyn´ı jen krátce vysvˇetleme, ˇze kolinearita je právˇe oznaˇcen´ı pro situaci, kdy jsou nˇekteré vysvˇetluj´ıc´ı promˇenné t´ emˇ eˇ r line´ arnˇ e závislé. Zd˚ uraznˇeme jeˇstˇe jednou, ˇze se jedná o situaci, kdy jsou regresory t´ emˇ eˇ r line´ arnˇ e závislé, pˇriˇcemˇz d˚ uraz je jak na slovˇe témˇeˇr, tak na slovˇe line´ arnˇe. K prvn´ımu z tˇechto dvou slov znovu pˇripomeˇ nme, ˇze napˇr. pro dvourozmˇerné normáln´ı rozdˇelen´ı “vrstevnice na hustotˇe” budou v´ yraznˇeji eliptického tvaru s moˇznost´ı alespoˇ n náznaku jakési intervalové predikce jedné souˇradnice pˇri znalosti té druhé aˇz pro absolutn´ı hodnoty korelaˇcn´ıho koeficientu alespoˇ n 70

0.6 ˇci sp´ıˇse 0.8. Podobnˇe druhé slovo je d˚ uleˇzité, nebot’ kolinearita, jak ostatnˇe název napov´ıd´ a, bude indikována jen pˇri lineárn´ım vztahu mezi regresory. Ostatnˇe si je lehké pˇredstavit, ˇze napˇr. ve chv´ıli, kdy se budeme domn´ıvat, ˇze vysvˇetlovan´ a promˇenn´ a je polynomiálnˇe závisl´ a na nˇekteré vysvˇetluj´ıc´ı promˇenné, prostˇe zaˇrad´ıme do matice plánu sloupce pˇredstavuj´ıc´ı vyˇsˇs´ı mocniny této vysvˇetluj´ıc´ı promˇenné. Pokud bude variabilita této promˇenné v datech dosti vysoká, nezp˚ usob´ı to kolinearitu, ale v´ yˇse zm´ınˇen´ y problém to dokáˇze vyvolat zcela perfektnˇe. Ve v´ yˇse citovaném pˇr´ıkladˇe by naprosto analogická situace vznikla pokud by napˇr. κ-histamin byl (témˇeˇr) kvadraticky závisl´ y na δ-terfendin a podobnˇe η-protein (témˇeˇr) závisl´ y na δ-terfendin ve tˇret´ı mocninˇe. Problém tedy je v tom, ˇze kolinearita nemus´ı b´ yt indikov´ ana z toho d˚ uvodu, protoˇze tam prostˇe nen´ı. Nav´ıc v´ yˇse zm´ınˇená témˇeˇr nepˇr´ım´ a u ´mˇernost m˚ uˇze m´ıt u kaˇzdého pacienta jin´ y pr˚ ubˇeh a tud´ıˇz v celém souboru dat o n pacientech tuto témˇeˇr nepˇr´ımou u ´mˇernost prostˇe nezjist´ıme. Snadno si lze pˇredstavit, ˇze pokud bude vˇetˇs´ı nepˇr´ım´ au ´mˇernost mezi δ-terfendinem a κ-histaminen “kompenzována” menˇs´ı nepˇr´ımou u ´mˇernost´ı mezi δ-terfendinem a η-proteinem u jednoho subjektu (pacienta) a u jiného tomu bude naopak, nebudou prostˇe data ˇz´ adnou kolinearitu vykazovat, ale v´ yˇse uveden´ y efekt bude opˇet bez problému fungovat. Proto je tˇ reba pˇ ristupovat k interpretaci odhad˚ u regresn´ıch koeficient˚ u a dokonce i jejich znam´ enek velmi obezˇ retnˇ e. Zejm´ ena vyvozov´ an´ı jak´ ychkoliv kauz´ aln´ıch, ˇ ci “skoro” kauz´ aln´ıch z´ avˇ er˚ u je velmi riskantn´ı. Na závˇer jeˇstˇe poznamenejme, ˇze pokud vˇsak jsou naˇse pˇredstavy o kauzalitˇe zaloˇzeny na dobˇre obhajiteln´ ych u ´vahách (napˇr. rozloha m´ıstnosti je patrnˇe pˇr´ımo u ´mˇern´ a délce jejich stˇen), pak samozˇrejmˇe m˚ uˇzeme tyto “pˇredstavy” pouˇz´ıt jako “diagnostickou” informaci pro posouzen´ı adekvátnosti modelu. Na druhé stranˇe, je pojem kauzality tˇreba brát, vzhledem k v´ yvoji vˇedy a zejména filosofie vˇedy v druhé polovinˇe dvac´ atého stolet´ı, s náleˇzitou rezervou a opatrnost´ı. To znamená, pokud jsou naˇse pˇredstavy o kauzalitˇe sp´ıˇse hypotézami, které si snaˇz´ıme empirickou studi´ı potvrdit, nejsou v´ yˇse uvedené u ´vahy o “správném” znaménku odhad˚ u regresn´ıch koeficient˚ u v˚ ubec nam´ıstˇe.

5.2

Grafy rezidu´ı

Jedn´ım z bˇeˇznˇe pouˇz´ıvan´ ych nástroj˚ u diagnostiky jsou grafické metody. Je zˇrejmé, ˇze na rozd´ıl od test˚ u, které na pˇredem zvolené hladinˇe jednoznaˇcnˇe otestuj´ı napˇr. hypotézu o normalitˇe ˇci homoskedasticitˇe rezidu´ı, grafické medoty sp´ıˇse napov´ıdaj´ı cosi o poruˇsen´ı tˇechto hypotéz. Jejich v´ yhodou je vˇsak to, ˇze jsou snadno dostupné v mnoha statistick´ ych knihovn´ ach, obvykle na jedno kliknut´ı myˇsi, a nav´ıc to, ˇze ˇcasto tvar grafu ˇci poloha bod˚ u na grafu indikuj´ı, které body jsou atypické, pˇr´ıpadnˇe co je d˚ uvodem poruˇsen´ı pˇredpokladu. Koneˇcnˇe pak nˇekdy napovˇed´ı moˇzn´ y zp˚ usob nápravy situace. Poznamenejme vˇsak, ˇze pˇrirozenˇe problém nen´ı zda pouˇz´ıvat radˇeji grafické metody ˇci rigirozn´ı testy. Mˇeli bychom vyuˇz´ıvat oboj´ı ! Nyn´ı si dovol´ıme popsat nˇekteré nejbˇeˇznˇeji pouˇz´ıvané grafické metody. Dˇr´ıve vˇsak neˇz se do toho pust´ıme, pˇripomeˇ nme, ˇze jsme pˇredpokládali, ˇze data jsou generov´ ana modelem Yi = xTi β 0 + Ei ,

i = 1, 2, . . . , n,

(66)

ve kterém posloupnost {Ei }∞ ı nezávisl´ ych stejnˇe rozdˇelen´ ych náhodn´ ych veliˇcin. i=1 je posloupnost´ Aˇc je to samozˇrejmé, pˇripomeˇ nme, ˇze z toho, ˇze veliˇciny Ei , i = 1, 2, . . . jsou stejnˇe rozdˇelené 71

plyne, ˇze maj´ı stejn´ y rozptyl. Situaci, kdy vˇsechny náhodné fluktuace maj´ı stejn´ y rozptyl, ˇr´ıkáme homoskedasticita a opaˇcné, tj. takové, kdy rozptyl vˇsech náhodn´ ych fluktuac´ı nen´ı ˇ stejn´ y, heteroskedasticita. Casto, a hned poznamenejme, ˇze aˇz pˇr´ıliˇs ˇcasto a mnohdy evidentnˇe neoprávnˇenˇe, pˇredpokládáme, ˇze se fluktuace ˇr´ıd´ı normáln´ım rozdˇelen´ım. Normalita rezidu´ı, jejich homoskedasticita, vzájemná nezávislost a nezávislost s regresory, pokud je adekvátnˇejˇs´ı tyto pokládat za náhodné, jsou základn´ımi pˇredpoklady pro u ´spˇeˇsné proveden´ı regresn´ı anal´ yzy pomoc´ı nejmenˇs´ıch ˇctverc˚ u. Grafické metody jsou jednou z moˇznost´ı jak ovˇeˇrit prvé dva z tˇechto pˇredpoklad˚ u. Mezi nejznámˇejˇs´ı grafické nástroje patˇr´ı následuj´ıc´ı dva typy graf˚ u. Prvn´ı typ je zaloˇzen na myˇslence, která ˇr´ıká: Pokud maj´ı vˇsechny náhodné fluktuace stejn´ y rozptyl nesm´ı graf, ve kterém vyneseme rezidua proti nˇekteré jiné veliˇcinˇe, napˇr. indexu pozorov´ an´ı (index plot), nˇekteré vysvˇetluj´ıc´ı promˇenné ˇci nˇekteré jiné charakteristice jednotlivého pozorov´ an´ı vykazovat ˇz´ adnou pravidelnost. Pokud dojde k nˇejaké “pravidelnosti”, napˇr. rezidua budou v´ıce rozpt´ ylena pro vyˇsˇs´ı hodnoty index˚ u, je pravdˇepodobné, ˇze hypotéza o homoskedasticitˇe nen´ı nam´ıstˇe. Podobnˇe, pokud vyneseme rezidua proti nˇekteré vysvˇetluj´ıc´ı promˇenné a objev´ıme nˇejakou pravidelnost, je lépe nepˇredpokládat homoskedasticitu. Nˇekdy se doporuˇcuje vynáˇset rezidua proti vyhlazen´ ym (ˇci chcete-li, vyrovnan´ ym) hodnotám vysvˇetlované promˇenné. Za t´ımto doporuˇcen´ım stoj´ı myˇslenka, ˇze se t´ım posoud´ı vliv vˇsech vysvˇetluj´ıc´ıch promˇenn´ ych na velikost rozptylu náhodn´ ych fluktuac´ı najednou. Pˇritom vliv jednotliv´ ych vysvˇetluj´ıc´ıch promˇenn´ ych je zváˇzen ve stejném pomˇeru v jakém se pod´ılej´ı na predikován´ı stˇredn´ı hodnoty vysvˇetlované promˇenné. Druh´ y typ grafu je konstruován tak, ˇze se vynáˇsej´ı rezidua proti kvantil˚ um toho rozdˇelen´ı, o kterém se domn´ıváme, ˇze se j´ım ˇr´ıd´ı náhodné fluktuace v naˇsem modelu. Abychom nahlédli heuristiku druhého typu graf˚ u, staˇc´ı si uvˇedomit, ˇze pokud bychom stáli pˇred u ´kolem odhadnut´ı α-kvantilu pro jednorozmˇerná data o rozsahu n postupovali bychom takto. Seˇradili bychom pozorován´ı dle velikosti a za odhad α-kvantilu bychom vzali pozorov´ an´ı stoj´ıc´ı na k-tém m´ıstˇe v této uspoˇrádané ˇradˇe, pro k = [n · α], kde [n · α] je nejvˇetˇs´ı celé ˇc´ıslo, které je menˇs´ı n · α. Podle Glivenkovy vˇety (Glivenko (1933), Rao (1978)) konverguje tento odhad α-kvantilu k teoretické hodnotˇe α-kvantilu. To znamená, ˇze pokud jsou rezidua rozdˇelena normálnˇe a jestliˇze je seˇrad´ıme dle velikosti, mˇela by tato uspoˇrádaná rezidua b´ yt pˇribliˇznˇe rovna odpov´ıdaj´ıc´ım kvantil˚ um normáln´ıho rozdˇelen´ı. Vyneseme-li tedy do grafu uspoˇr´ adan´ a rezidua proti kvantil˚ um normáln´ıho rozdˇelen´ı, mˇel by takov´ y graf tvoˇrit pˇribliˇznˇe pˇr´ımku. Pokud tedy obdrˇz´ıme cosi, co je znaˇcnˇe odliˇsné od pˇr´ımky, je nerozumné trvat na hypotéze normality. Na závˇer této kapitoly se jeˇstˇe zmiˇ nme o grafu, kter´ y se sv´ ym charakterem vymyk´ a z bˇeˇzn´ ych graf˚ u rezidu´ı. Umoˇzn ˇuje totiˇz graficky nahlédnout vliv jednoho pozorov´ an´ı, kter´ y budeme studovat n´ıˇze. Graf b´ yvá ve statistick´ ych knihovn´ ach oznaˇcov´ an jako Residuals and deleted residuals a b´ yvá v nˇem pro kaˇzd´ y bod vyneseno vˇzdy jeho rez´ıduum v modelu budovaném na základˇe vˇsech dat proti rez´ıduu tohoto bodu, ale v modelu, kter´ y byl odhadnut na základˇe dat, ze kter´ ych byl právˇe tento bod vylouˇcen. Pˇrirozenˇe heuristika, která je za t´ımto grafem je snadno pochopitelná. Je-li pˇr´ısluˇsn´ y bod vlivn´ y, pak modely odhadnuté na základˇe vˇsech bod˚ u a na základˇe dat neobsahuj´ıc´ıch tento bod budou (podstatnˇe) odliˇsné, ve smyslu velikosti rezidua pro tento bod, tj. ve smyslu vysvˇetlován´ı funkˇcn´ı hodnoty modelu v tomto bodˇe, a tedy pˇr´ısluˇsn´ y body v grafu leˇz´ı daleko od hlavn´ı diagonály. Pokud se tedy na displeji objev´ı body, které jsou 72

(velmi) daleko od hlavn´ı diagonály, je moˇzné pojmout podezˇren´ı, ˇze tyto body jsou vlivné ˇci atypické, a je tˇreba jim vˇenovat dalˇs´ı pozornost. Na druhé stranˇe, snadno si domysl´ıme i slabiny tohoto grafu. Vypuˇstˇen´ı jednoho bodu z dat m˚ uˇze m´ıt docela podstatn´ y vliv na odhady hodnot regresn´ıch koeficient˚ u, coˇz se m˚ uˇze, ale ve v´ıcerozmˇerném pˇr´ıpadˇe také nemus´ı, projevit na hodnotách rezidu´ı. Pˇrirozenˇe vˇsak se tato zmˇena rezidu´ı m˚ uˇze t´ ykat daleko v´ıce jin´ ych bod˚ u, neˇz právˇe toho, kter´ y byl z dat vypuˇstˇen. Nezb´ yv´ a tedy neˇz znova apelovat na to, ˇze ˇz´ adn´ y diagnostick´ y prostˇredek by nemˇel b´ yt pouˇz´ıv´ an slovˇe, ale k vytvoˇren´ı si pˇredstavy o “oprávnˇenosti” modelu by mˇely b´ yt vyuˇzity vˇsechny diagnostické prostˇredky, které jsou v té knihovnˇe, kterou pouˇz´ıváme, k dispozici. Toto tvrzen´ı jistˇe plat´ı i naopak: nemˇeli bychom pouˇz´ıvat knihovnu, která nenab´ız´ı sluˇsnou ˇskálu diagnostick´ ych nástroj˚ u, viz napˇr. tabulkové procesory.

6

ˇ ROV ˇ ´ Í ZAKLADN ´ ÍCH PREDPOKLAD ˇ ˚ OVE AN U

Jak jsme uvedli na konci prvn´ı kapitoly, povaˇzujeme za základn´ı pˇredpoklady regresn´ı anal´ yzy splnˇen´ı podm´ınek A, tj. nulovost stˇredn´ı hodnoty náhodn´ ych fluktuac´ı, jejich homoskedasticitu a vzájemnou nezávislost, a dále pak jejich normalitu a pˇr´ıpadnˇe nezávislost na vysvˇetluj´ıc´ıch promˇenn´ ych. V této kapitole se nauˇc´ıme testovat, pˇrirozenˇe aposteriornˇe na základˇe rezidu´ı, jejich splnˇen´ı. Pokud je v modelu intercept, a v´ yˇse jsme uvedli argumenty, doporuˇcuj´ıc´ı jej v modelu vˇzdy podrˇzet, jedna z normáln´ıch rovnic zaruˇcuje nulovost pr˚ umˇeru rezidu´ı. To znamená, ˇze co se t´ yká pˇredpokladu o nulovosti stˇredn´ı hodnoty náhodn´ ych fluktuac´ı, nen´ı co testovat. Budeme se tedy vˇenovat vyˇsetˇrován´ı dalˇs´ıch pˇredpoklad˚ u.

6.1

Homoskedasticita a heteroskedasticita

Jak plyne z názvu tohoto odstavce, budeme si nyn´ı pov´ıdat o homoskedasticitˇe a heteroskedasticitˇe, jejich testován´ı, pˇr´ıpadnˇe modelov´ an´ı. Pˇri odvozov´ an´ı dosud uveden´ ych v´ ysledk˚ u jsme pˇredpokládali homoskedasticitu. Zdálo by se tedy logické nejprve uvést testy homoskedasticity, poté popsat nejbˇeˇznˇejˇs´ı modely heteroskedasticity a koneˇcnˇe pak jej´ı vliv na βˆ(LS,n) . Vzhledem k tomu, ˇze pˇrinejmenˇs´ım nˇekteré testy homoscedasticity vyˇzaduj´ı popsán´ı alternativy, tj. popsán´ı modelu heteroskedasticity, zaˇcneme vlastnˇe od konce, totiˇz popisem model˚ u heteroskedasticity. Dnes se ˇcasto v rámci teorie ˇcasov´ ych ˇrad a dynamické verze regresn´ıho modelu tyto modely rozptylu oznaˇcuj´ı jako modely volatility. Dˇr´ıve vˇsak neˇz se budeme vˇenovat tˇemto model˚ um, pokusme se zamyslet nad t´ım, kdy m˚ uˇze b´ yt pˇredpoklad o homoskedasticitˇe (evidentnˇe) poruˇsen. 6.1.1

Pˇ r´ıklady situac´ı s heteroskedastick´ ymi fluktuacemi

Jedn´ım z typick´ ych pˇr´ıklad˚ u z mikroekonomie, kdy je témˇeˇr evidentn´ı, ˇze pˇredpoklad homoskedasticity je pˇrinejmenˇs´ım diskutabiln´ı, je model v´ ydaj˚ u domácnost´ı. Zdá se pˇrirozené, ˇze ty domácnosti, které maj´ı menˇs´ı pˇr´ıjmy, budou m´ıt také menˇs´ı rozptyl ve sv´ ych v´ ydaj´ıch, ’ neboli stoj´ı-li v´ ydaje domácnosti at uˇz v roli vysvˇetlované ˇci vysvˇetluj´ıc´ı veliˇciny, je velikost náhodn´ ych fluktuac´ı závislá od této veliˇciny, viz Prais, Houthakker (1955) nebo Theil (1971) . Jin´ ymi slovy rozptyl náhodn´ ych fluktuac´ı nen´ı nezávisl´ y od (indexu) pozorov´ an´ı. Kromˇe právˇe zm´ınˇeného pˇr´ıkladu b´ yv´ a v literatuˇre nejˇcastˇeji pˇripom´ın´ ana situace, kdy naˇse data vznikla jako zpr˚ umˇerované hodnoty, napˇr. pˇres v´ıce jedinc˚ u, pˇres nˇekteré teritorium, v 73

pr˚ ubˇehu nˇekterého ˇcasového intervalu a pod., a dále pak model, ve kterém jsou regresn´ı koeficienty náhodné. Pˇrirozenˇe se pˇredpoklád´ a malá odchylka od jakési jejich stˇredn´ı hodnoty, malá v porovnán´ı s hodnotou tˇechto koeficient˚ u. Krátce popiˇsme oba pˇr´ıklady. Pˇredpokládejme, ˇze dat jsou rozdˇelena do K skupin, v kaˇzdé skupinˇe je nk jedinc˚ u, celkov´ y PK poˇcet jedinc˚ u je tedy n = k=1 nk a plat´ı model Yi = xTi β 0 + Ei , i = 1, 2, ..., n,

(67)

ve kterém IE EE T = σIn , kde jako obvykle E = (E1 , E2 , ..., En )T a kde jedinci s indexem i, n1 + n2 + ... + nk−1 < i ≤ n1 + n2 + ... + nk patˇr´ı do k-té skupiny. Nyn´ı pˇredpokládejme, ˇze máme k dispozici pouze pr˚ umˇery pˇres jednotlivé skupiny, tj. jsou nám pˇr´ıstupné pouze hodnoty ¯ Yk , x ¯k , k = 1, 2, ..., K, kde 1 Y¯k = nk

i=n1 +n 2 +...+nk X

Yi

x ¯k =

i=n1 +n2 +...+nk−1

1 nk

i=n1 +n 2 +...+nk X

xi ,

i=n1 +n2 +...+nk−1

kde v posledn´ım v´ yraze je samozˇrejmˇe naznaˇcen´ a operace m´ınˇena po sloˇzk´ ach pˇr´ısluˇsn´ ych vektor˚ u. Z (67) plyne ¯k , k = 1, 2, ..., K, Y¯k = x ¯Tk β 0 + E (68) kde samozˇrejmˇe ¯k = 1 E nk

i=n1 +n 2 +...+nk X

Ei

i=n1 +n2 +...+nk−1

je nepˇr´ıstupné mˇeˇren´ı a pˇredstavuje jakési “zpr˚ umˇerované” náhodné fluktuace. Je patrné, ˇze ¯ IE Ek = 0, ale 

2

i=n1 +n 2 +...+nk X

¯k2 = 1 IE  IE E n2k i=n

Ei  =

1 +n2 +...+nk−1

σ2 nk σ 2 = , nk n2k

¯k E ¯j = 0 pro k 6= j (d´ıky neboli fluktuace v modelu (68) jsou heteroskedastické. Naˇstˇest´ı IE E tomu, ˇze v pˇr´ısluˇsn´ ych sumách vystupuj´ı nekorelované náhodné veliˇciny) a tedy (

¯E ¯ T = diag IE E

σ2 σ2 σ2 , , ..., n1 n2 nK

)

,

kde diag {a, b, ..., c} oznaˇcuje diagonáln´ı matici s uveden´ ymi prvky na diagonále. To znamená, ˇze zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u bude m´ıt jednoduch´ y tvar βˆ(GLS,n) =

 Ã !−1 K X σ2 

k=1

nk

−1 Ã !−1 K  X σ2

x ¯k x ¯Tk 

k=1

nk

Y¯k x ¯k =

(K X

nk x ¯k x ¯Tk

k=1

)−1 K X

nk Y¯k x ¯k .

k=1

Protoˇze poˇcty jedinc˚ u nk v jednotliv´ ych tˇr´ıd´ ach jsou obvykle známé, je moˇzné tento odhad pˇr´ımo vyˇc´ıslit. Ponˇekud jiná situace nastává v pˇr´ıpadˇe, kdy pˇredpoklád´ ame, ˇze regresn´ı koeficienty fluktuuj´ı, ponˇekud a samozˇrejmˇe ne pˇr´ıliˇs, okolo jakési své stˇredn´ı hodnoty. Pˇredpokládejme tedy model Yi = xTi β(i) + Ei , i = 1, 2, ..., n, 74

(69)

n

on

0 = β 0 +V kde β(i) ım, ˇze V(i) ∈ Rp a V(i) je posloupnost náhodn´ ych vektor˚ u. Poprvé byl (i) s t´ i=1 takov´ y model studován v práci Hildreth a Houck (1968), kde autoˇri pˇredpokládali, ˇze vektory V(i) jsou nezávislé a stejnˇe rozdˇelené a s navz´ ajem nezávisl´ ymi souˇradnicemi, které maj´ı nulové stˇredn´ı hodnoty a pozitivn´ı rozptyly αj , j = 1, 2, ..., p. Potom m˚ uˇzeme model (69) pˇrepsat do tvaru ³ ´ Yi = xTi β 0 + V(i) + Ei = xTi β 0 + Ui , i = 1, 2, ..., n,

P

kde ovˇsem Ui = Ei + xTi V(i) a tedy IE Ui = 0, ale σi2 = IE Ui2 = pj=1 αj x2ij . Poloˇz´ımeª © ymi slovy kovarianˇcn´ı li tedy U = (U1 , U2 , ..., Un )T , máme IE U U T = diag σ12 , σ22 , ..., σn2 . Jin´ matice náhodn´ ych fluktuac´ı je diagonáln´ı, ale nen´ı u ´mˇern´ a jednotkové matici. V obou uveden´ ych pˇr´ıkladech tedy opˇet nen´ı rozptyl náhodné fluktuace i-tého pozorov´ an´ı nezávisl´ y od indexu i. Povˇsimnˇeme si, a v textu jsme to zámˇernˇe zd˚ uraznili, ˇze to co jsme rozumˇeli na zaˇc´ atku v´ ykladu v tˇechto skriptech pod homoskedasticitou byla konstantnost rozptylu náhodn´ ych fluktuac´ı. Z té samozˇrejmˇe plyne, v pˇr´ıpadˇe modelu s deterministick´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi, i konstantnost rozptylu vysvˇetlované veliˇciny. V pˇr´ıpadˇe modelu s náhodn´ ymi vysvˇetluj´ıc´ımi veliˇcinami, vˇsak toto neplat´ı a i v pˇr´ıpadˇe, ˇze bude zachov´ ana homoskedasticita náhodn´ ych fluktuac´ı, bude m´ıt vysvˇetlovaná promˇenn´ a obecnˇe rozptyl závisl´ y na indexu i. To vˇsak nebude na závadu eficientnosti odhadu βˆ(LS,n) , pokud tyto vysvˇetluj´ıc´ı promˇenné budou nekorelované s náhodn´ ymi fluktuacemi; vˇse si vysvˇetl´ıme n´ıˇze, v odstavci o instrument´ aln´ıch promˇenn´ ych. (LS,n) Pokud bychom ve v´ yˇse uveden´ ych pˇr´ıkladech aplikovali odhad βˆ , nedostaneme eficientn´ı odhady regresn´ıch koeficient˚ u. Na druhé stranˇe, pˇr´ım´ a aplikace odhadu βˆ(GLS,n) nen´ı (obvykle) moˇzná, nebot’ nejsou známé hodnoty σi2 . K jejich vyˇc´ıslen´ı bychom potˇrebovali znát vektor α, coˇz je ovˇsem nerealistick´ y pˇredpoklad. Bˇeˇznˇe se tato situace ˇreˇs´ı tak, ˇze neznámé parametry, v naˇsem pˇr´ıpadˇe souˇradnice vektoru α, odhadneme a dosad´ıme do vztahu pro βˆ(GLS,n) . Mluv´ıme potom o estimated generalized least squares estimator, ˇcesky patrnˇe (kostrbatˇe) zobecnˇeném odhadu metodou nejmenˇs´ıch ˇctverc˚ u s odhadnutými parametry. Tento odhad bude v dalˇs´ım oznaˇcov´ an (EGLS,n) ˆ jako β . Dˇr´ıve neˇz postoup´ıme dále, poznamenejme jeˇstˇe, ˇze pokud je kovarianˇcn´ı matice náhodn´ ych fluktuac´ı diagonáln´ı, ale nen´ı u ´mˇerná jednotkové matici, mluv´ıme ˇcasto o váˇzeném odhadu metodou nejmenˇs´ıch ˇctverc˚ u. Snadno se totiˇz nahlédne, ˇze βˆ(GLS,n) je bˇeˇzn´ ym odhadem metodou nejmenˇs´ıch ˇctverc˚ u v modelu Yi xT Ei = i β 0 + , i = 1, 2, ..., n. σi σi σi Popiˇsme nyn´ı alespoˇ n nejbˇeˇznˇeji studované modely pro rozptyl náhodn´ ych fluktuac´ı. 6.1.2

Modely heteroskedasticity

Je naprosto pˇrirozené, ˇze v pˇr´ıpadˇe, kdy pojmeme podezˇren´ı, ˇze náhodné fluktuace v regresn´ım modelu nejsou homoskedastické (a pˇr´ıpadnˇe se toto podezˇren´ı potvrd´ı nˇekter´ ym n´ıˇze uveden´ ym testem), se pokus´ıme sloˇzitˇejˇs´ı kovarianˇcn´ı strukturu náhodn´ ych fluktuac´ı namodelovat a odhadnout parametry navrˇzeného modelu. Nejjednoduˇsˇs´ım se pˇrirozenˇe jev´ı pouˇz´ıt´ı nˇekterého regresn´ıho modelu, ve kterém “jeˇstˇe jednou” pouˇzijeme informaci, která je obsaˇzena ve zpracovávan´ ych datech k namodelován´ı zm´ınˇené kovarianˇcn´ı struktury. Obecnˇe se m˚ uˇze stát, ˇze relevantn´ı vysvˇetluj´ıc´ı promˇenné pro model kovarianˇcn´ı struktury náhodn´ ych fluktuac´ı budou r˚ uzné 75

od relevantn´ıch vysvˇetluj´ıc´ı promˇenn´ ych v p˚ uvodn´ım regresn´ım modelu. Toto bude formálnˇe reflektováno v n´ıˇze uveden´ ych vztaz´ıch, byt’ samozˇrejmˇe ve vˇetˇsinˇe aplikac´ı se bude jednat o ty samé promˇenné. Dˇr´ıve neˇz se budeme vˇenovat jednotliv´ ym model˚ um heteroskedasticity pˇripomeˇ nme, ˇze v pˇr´ıpadˇe heteroskedasticity, pokud chceme dosáhnout eficientn´ıho dohadu, mus´ıme pouˇz´ıt zobecnˇen´ y (GLS,n) ˆ odhad β . To implikuje, ˇze pokud bychom nebyli schopni odhadnout kovarianˇcn´ı matici Σ, nem˚ uˇzeme v tomto u ´sil´ı uspˇet. Na druhé stranˇe, za docela obecn´ ych podm´ınek m˚ uˇzeme, podobnˇe (GLS,n) ˆ jako jsme to provedli v´ yˇse, dokázat asymptotickou normalitu odhadu β , tj. ukázat, ˇze L

´

³√

n(βˆ(GLS,n) − β 0 ) → N (0, Q−1 V Q−1 ),

kde se pˇredpokládá, ˇze existuje regulárn´ı matice Q jakoˇzto limita v´ yraz˚ u n1 xT x a matice V jakoˇzto limita v´ yraz˚ u n1 xT Σx. A za urˇcit´ ych podm´ınek (viz napˇr. Eicker (1967), White (1980) P nebo Nicholls, Pagan (1983)) lze ukázat, ˇze Vˆ = n1 ni=1 ri2 xi xTi (kde ri = Yi − xTi βˆ(LS,n) ) je konsistentn´ım odhadem V . To znamená, ˇze budemeli cht´ıt napˇr. testovat hypotézu, ˇze Cβ 0 = κ, kde C je matice typu (` × p) a plné hodnosti, a κ ∈ R` , m˚ uˇzeme pouˇz´ıt toho, ˇze Ã

·

³

L [C(βˆ(LS,n) − β 0 )]T C X T X

´−1

T

³

T

X ΣX X X

´−1

T

C

¸−1

!

[C(βˆ(LS,n) − β 0 )]

→ χ2 (`).

Jin´ ymi slovy to znamená, ˇze nˇekteré hypotézy o regresn´ıch koeficientech je moˇzné testovat bez toho, ˇze bychom odhadli matici Σ (tj. bez bliˇzˇs´ı specifikace kovarianˇcn´ı sktuktury náhodn´ ych fluktuac´ı). Smˇ erodatn´ a odchylka jako line´ arn´ı funkce vysvˇ etluj´ıc´ıch promˇ enn´ ych Uvaˇzujme lineárn´ı regresn´ı model Yi = xTi β 0 + Ei i = 1, 2, ..., n

(70)

s kovarianˇcn´ı strukturou náhodn´ ych fluktuac´ı danou následovnˇe: ³

IE Ei = 0,

IE Ei Ej = 0,

IE Ei2 = ziT α

´2

i 6= j = 1, 2, ...n.,

(71)

kde {zi }ni=1 je posloupnost nenáhodn´ ych s-rozmˇern´ ych vektor˚ u a α ∈ Rs je vektor regresn´ıch koeficient˚ u popisuj´ıc´ı kovarianˇcn´ı strukturu náhodn´ ych fluktuac´ı. Jak jsme uˇz podotkli v´ yˇse, n n ˇ posloupnost {zi }i=1 m˚ uˇze, ale nemus´ı b´ yt r˚ uzn´ a od posloupnosti {xi }i=1 . Casto nav´ıc pˇredpoklád´ ame, ˇze náhodné veliˇciny Ei , i = 1, 2, ..., n jsou nezávislé ˇci ˇze n jejich rozdˇelen´ı je stejn´ e ho typu, tj. liˇ s ´ ı o se pouze velikost´ı rozptylu. Protoˇze Σ = IE EE T = diag z1T α, z2T α, ..., znT α , máme βˆ(GLS,n) =

Ã n X

!−1 n X

i=1

i=1

(zi α)−2 xi xTi

(zi α)−2 xi Yi .

Je ovˇsem nerealistické pˇredpokládat, ˇze budeme znát vektor α, jin´ ymi slovy to znamená, ˇze je (EGLS,n) ˆ tˇreba odhadnout tento vektor a pouˇz´ıt odhad β . K návrhu vhodného odhadu pro α m˚ uˇze vést následuj´ıc´ı u ´vaha. Pˇredpokládejme nadále, ˇze typ rozdˇelen´ı velˇcin Ei , i = 1, 2, ..., n je pro vˇsechny stejn´ y. Z (71) pak plyne, ˇze studentizované veliˇciny σ1−1 E1 , σ2−1 E2 , ..., σn−1 En jsou 76

stejnˇe rozdˇelené a tedy IE σi−1 Ei = c, i = 1, 2, ...n, kde c ∈ R+ . Toto neznamená nic jiného neˇz, ˇze IE σi Ei = cσi , i = 1, 2, ...n, a tedy m˚ uˇzeme psát |ri | = ziT α + Vi ,

(72)

kde ri = Yi −xTi βˆ(LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodn´ ych veliˇcin (je okamˇzitˇe vidˇet, ˇze Vi = |ri | − IE |Ei |). Odtud ³

cˆ α(LS,n) = Z T Z

´−1

Z T |r|,

kde Z = (z1 , z2 , ...zn )T a r = (r1 , r2 , ..., rn )T a koneˇcnˇe βˆ(EGLS,n) =

Ã n X

(zi α ˆ

(LS,n) −2

)

xi xTi

!−1 n X

(zi α ˆ (LS,n) )−2 xi Yi

i=1

=

Ã n X

(czi α ˆ

i=1

(LS,n) −2

)

xi xTi

!−1 n X

(czi α ˆ (LS,n) )−2 xi Yi .

i=1

(73)

i=1

Problémy ovˇsem nastanou pokud chceme odhadnout kovarianˇcn´ı matici tohoto odhadu, nebot’ tam se projev´ı fakt, ˇze neznáme a ani jednoduˇse neum´ıme odhadnout c. Dalˇs´ı problémem je samozˇrejmˇe to, ˇze cˆ α(LS,n) ani zdaleka nemus´ı b´ yt dobr´ ym odhadem cα. Protoˇze i v pˇr´ıpadˇe (LS,n) ˆ heteroskedasticity m˚ uˇze b´ yt β konsistentn´ım odhadem (viz poznámka v d˚ ukaze Lemmatu (LS,n) ˆ 2), bude, v pˇr´ıpadˇe konsistentnosti odhadu β , |ri | konvergovat v distribuci k |Ei | a to stejnomˇernˇe pro i = 1, 2, ..., n (podrobnˇejˇs´ı diskuzi lze nalézt napˇr. v pracech Harvey (1974) ˇci Theil (1971) ). To znamená, ˇze asymptoticky budou m´ıt náhodné fluktuace Vi nulovou stˇredn´ı hodnotu a rozptyl IE Vi2 = IE |Ei |2 − (IE |Ei |)2 = σi2 (1 − c2 ) = (ziT α)2 (1 − c2 ). Posledn´ı vztah naznaˇcuje, ˇze fluktuace Vi jsou “asymptoticky heteroskedastické” a tedy bychom k odhadu mˇeli pouˇz´ıt α ˆ (GLS,n) . Pokud budeme pˇredpokládat, ˇze v modelu (70) jsou náhodné fluktuace nez´ e, budou Vi , i = 1, 2, ..., n také, alespoˇ n asymptoticky, nezávislé. Potom bude n avisl´ o T 2 2 T 2 2 T 2 2 ΣV = diag (z1 α) (1 − c ), (z2 α) (1 − c ), ..., (zn α) (1 − c ) a tedy α ˆ

(GLS,n)

=

Ã n X

(zi α ˆ

(LS,n) −2

)

zi ziT

i=1

a koneˇcnˇe ˆ(EGLS,n)

β

=

Ã n X

(zi α ˆ

!−1 n X

(zi α ˆ (LS,n) )−2 zi ri

i=1

(GLS,n) −2

)

xi xTi

i=1

!−1 n X

(zi α ˆ (GLS,n) )−2 xi Yi .

(74)

i=1

Aˇckoliv jsme ve vztaz´ıch (73) a (74) formálnˇe nerozliˇsili, ˇze se jedná o dva r˚ uzné odhady, je jasné, v ˇcem spoˇc´ıvá jejich odliˇsnost. Vlastnosti tˇechto odhad˚ u nebyly dosud plnˇe prostudov´ any a aˇckoliv je (témˇeˇr) zˇrejmé, ˇze asymptoticky budou ekvivalentn´ı, lze tuˇsit, ˇze pro koneˇcn´ y v´ ybˇer dat, m˚ uˇze patrnˇe estimátor ze vztahu (74) dávat lepˇs´ı v´ ysledky neˇz ten ze vztahu (73). Dalˇs´ı moˇznost´ı, jak se vypoˇrádat s heteroskedasticitou náhodn´ ych fluktuac´ı, je pouˇz´ıt maximálnˇe vˇerohodn´ y odhad pro β a α. Obvykle se v tom pˇr´ıpadˇe pˇredpoklád´ a normáln´ı rozdˇelen´ı náhodn´ ych 77

fluktuac´ı. Derivace logaritmu vˇerohodnostn´ı funkce vˇsak vede na nelineárn´ı rovnice a je nutn´ a numerická maximalizace. To jistˇe v dobˇe rozvinuté poˇc´ıtaˇcové techniky nen´ı zásadn´ı problém. Problémem sp´ıˇse je fakt, ˇze pˇredpoklad normality fluktuac´ı je nesm´ırnˇe siln´ y, nebot’ i pˇri mal´ ych odchylkách od tohoto pˇredpokladu se zmˇen´ı, pˇrirozenˇe k horˇs´ımu, vlastnosti statistik (optimáln´ıch pˇri pˇredpokladu normality) daleko v´ıce neˇz jsme ochotni pˇripustit. Jeden takov´ y pˇr´ıklad, kter´ y byl znám uˇz R. A. Fisherovi v roce 1922, si pˇripomeneme v kapitole vˇenované kolinearitˇe. Proto se nebudeme touto alternativou podrobnˇeji zab´ yvat. Rozptyl jako line´ arn´ı funkce vysvˇ etluj´ıc´ıch promˇ enn´ ych Budeme opˇet uvaˇzovat lineárn´ı regresn´ı model (70) tentokr´ at vˇsak s kovarianˇcn´ı strukturou náhodn´ ych fluktuac´ı danou takto: IE Ei = 0,

IE Ei Ej = 0,

IE Ei2 = σi2 = ziT α

i 6= j = 1, 2, ...n.,

kde {zi }ni=1 je posloupnost nenáhodn´ ych s-rozmˇern´ ych vektor˚ u a α ∈ Rs je vektor regresn´ıch koeficient˚ u popisuj´ıc´ı kovarianˇcn´ı strukturu náhodn´ ych fluktuac´ı. Podobnˇe jako v´ yˇse m˚ uˇzeme psát ri2 = ziT α + Vi ,

(75)

kde opˇet ri = Yi −xTi βˆ(LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodn´ ych veliˇcin. Odtud ³

α ˆ (LS,n) = Z T Z

´−1

Z T r2 ,

kde Z = (z1 , z2 , ...zn )T a r2 = (r12 , r22 , ..., rn2 )T . Problémem je, ˇze tento odhad je vych´ ylen´ y, d´ıky tomu, ˇze náhodné veliˇciny Vi nemaj´ı v tomto pˇr´ıpadˇe ani asymptoticky nulovou stˇredn´ı hodnotu, jsou heteroskedastické a korelované. O vych´ ylen´ı odhadu α ˆ (LS,n) si lze udˇelat snadno pˇredstavu. Pro vektor rezidu´ı máme ³

´

r = Y − X βˆ(LS,n) = I − X(X T X)−1 X T Y ³

= I − X(X T X)−1 X T neboli ri = ovˇsem

Pn

j=1 mij Ej ,

´³

´

³

´

Xβ 0 + E = I − X(X T X)−1 X T E,

(76)

kde jsme mij oznaˇcili i, j-t´ y prvek matice I − X(X T X)−1 X T . Potom IE ri2 =

n X

m2ij IE Ej2 =

j=1

n X

m2ij zjT α

(77)

j=1

a tedy ˜ Zα, IE r2 = M

(78)

˜ oznaˇcili matici, která má na i, j-tém m´ıstˇe m2 . Z poslednˇe uvedeného kde jsme symbolem M ij vztahu plyne ³ ´−1 ˜ Zα. IE α ˆ (LS,n) = Z T Z ZT M Odtud vypl´ yvá, ˇze vych´ ylen´ı odhadu ³

α ˆ (LS,n)

·³

je rovno

´−1

ZT Z

´−1

¸

˜Z ZT M

− I α. Protoˇze obvykle

˜ Z 6= I, nen´ı odhad α ZT Z ZT M ˆ (LS,n) obvykle nevych´ ylen´ ym odhadem. Jako nevych´ ylené odhady b´ yvaj´ı navrhovány ³ ´−1 ˜M ˜Z ˜ r2 , α ˆ (1) = Z T M ZT M 78

viz Hildreth a Houck (1968), nebo ³

˜Z α ˆ (2) = Z T M

´−1

Z T r2 ,

viz Froehlich (1973). Ze tvaru odhadu α ˆ (1) je zˇrejmé, ˇze se jedná o odhad metodou nejmenˇs´ıch pro model ˜ Zα + W, r2 = M (79) pro jehoˇz návrh byl inspirac´ı vztah (78) a ve kterém máme IE W = 0. Druh´ y odhad je MINQUE (minimum quadratic unbiased estimator) odhadem, viz opˇet Froehlich (1973). Jak jsme jiˇz podotkli v´ yˇse, náhodné fluktuace v modelu (75) jsou heteroskedastické. To m˚ uˇze b´ yt (1) (2) (LS,n) ˆ inspirac´ı k modifikovat odhad˚ u α ˆ a α ˆ , podobnˇe jako byl odhad β modifikov´ an na βˆ(GLS,n) . Ukaˇzme si jak to lze provést pro α ˆ (1) . Pˇredpokládejme, ˇze vektor náhodn´ ych fluktuac´ı má nulovou stˇredn´ı hodnotu a kovarianˇcn´ı matici Φ, o které budeme pˇredpokládat, ˇze je diagonáln´ı, pˇriˇcemˇz na diagonále stoj´ı σ12 , σ22 , ..., σn2 tj. je poruˇsena pouze homoskedasticita rezidu´ı, nikoliv jejech nekorelovanost. Uˇzijeme-li nyn´ı P vztah ri = n`=1 mi` E` (viz (76) ) a vztah (77) (kde nam´ısto zjT α budeme psát σj2 ) nalezneme ½³

IE

= IE

= IE

Ã n  X 

mi` E`

mik Ek −

k=1

`=1

( n X

n X

mi` E`

`=1

n X

n X

mik Ek

mjs Es +

`=1

−

`=1

=3

n X `=1

n X

n X

n X

n X

!Ã n X

n X

m2i` σ`2

´T ¾

n X

n X

n X

m2i` σ`2 +

n X

mi` E`

n X

m2i` σ`2

+2

n X

n X

n X

m2is σs2

mik Ek )

n X



m2ir σr2

r=1

r=1

mi` mj` σ`2

m2i` σ`2 +

`=1

m2ir σr2

!T  

m2ir σr2

`=1 n X

n X r=1

k=1

`=1

s=1

mi` mj` σ`2

mjr Er −

`=1

m2ik σk2

n X

n X r=1

k=1

`=1

rj2

mjs Es

mjr Er −

`=1

m2ir σr2 −

n X

− IE

r=1

mjr Er

r=1

m2i` m2j` σ`4 + 2

rj2

s=1

mjs Es

`=1

m2i` σ`2

´³

m2i` σ`2

r=1

m2i` m2j` σ`4

n X

n X

s=1

s=1

=3

− IE

ri2

`=1

k=1

− n X

ri2

n X

mik mjk σk2

k=1 n X

n X

m2i` σ`2

r=1

`=1

h

˜ Φ2 M ˜ mik mjk σk2 = 3 M

k=1

m2ir σr2

i ij

+ 2 [M ΦM ]2ij .

Oznaˇcme tuto matici Ψ. Nahrad´ıme-li nyn´ı matici Φ napˇr. odhadem Z α ˆ (LS,n) (ˇci jin´ ym v´ yˇse ˆ uveden´ ym odhadem pro α) a oznaˇc´ıme-li odhad takto z´ıskan´ y odhad matice Ψ jako Ψ, dostaneme ³

˜Ψ ˆ −1 M ˜Z α ˆ (1)EG = Z T M

´−1

˜Ψ ˆ −1 r2 , ZT M

kde jsme horn´ım indexem EG naznaˇcili, ˇze se jedná o zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u s odhadnutou kovarianˇcn´ı matic´ı. Rozsáhlejˇs´ı diskuzi tohoto modelu heteroskedasticity lze naj´ıt napˇr. v práci Harvey (1974), Amemiya (1977) nebo Raj, Srivastava a Upadhyaya (1980) a v referenc´ıch tam uveden´ ych. 79

Rozptyl jako jin´ a funkce vysvˇ etluj´ıc´ıch promˇ enn´ ych Z dalˇs´ıch model˚ u heteroskedasticity jsou ˇcasto jeˇstˇe studov´ any modely, ve kter´ ych jsou rozptyl ˇci smˇerodatná odchylka vysvˇetlované veliˇciny u ´mˇerné nˇekteré mocninˇe jej´ı stˇredn´ı hodnoty, tj. modely, které mohou b´ yt psány napˇr. následovnˇe h

IE Ei = 0,

IE Ei Ej = 0,

IE Ei2

i1 2

³

= σi = xTi α

´r

i 6= j = 1, 2, ...n,

kde r je obvykle nˇekteré (celé) kladné ˇc´ıslo, viz napˇr. Amemiya (1973) ˇci Battese a Bonyhady (1981). Je ihned patrné, ˇze pro r = 2 dostáv´ ame speciáln´ı pˇr´ıpad modelu, kter´ y byl diskutován v této kapitole jako prvn´ı. Podobnˇe model˚ um s exponenciáln´ı závislosti rozptylu na vhodnˇe vybran´ ych vysvˇetluj´ıc´ıch veliˇcinách se dostalo znaˇcné popularity. Form´ aln´ı vyjádˇren´ı m˚ uˇze vypadat napˇr. ³

IE Ei = 0,

IE Ei Ej = 0,

IE Ei2 = σi2 = exp ziT α

´r

i 6= j = 1, 2, ...n.

Podrobnou diskuzi tˇechto model˚ u lze nalézt napˇr. v pracech Just a Pope (1978), Griffiths a Anderson (1982) ˇci Kmenta (1986). Podotknˇeme jeˇstˇe, ˇze se tˇemto model˚ um ˇcasto ˇr´ık´ a multiplikativn´ı modely heteroskedasticity, coˇz b´ yv´ a nepˇr´ıliˇs pˇresvˇedˇcivˇe zd˚ uvodˇ nov´ ano t´ım, ˇze historicky byl neprve studován logaritmus rozptylu vysvˇetlované veliˇciny jako násobek jej´ı stˇredn´ı hodnoty. 6.1.3

Testy homoskedasticity

Jak název tohoto odstavce napov´ıdá, budou dále vysvˇetleny testy, ve kter´ ych bude hypotézou vˇzdy model, ve kterém jsou náhodné fluktuace homoskedastické. n´ıˇze popsané testy obvykle nejsou bˇeˇznˇe nab´ızeny v komerˇcnˇe dostupn´ ych statistick´ ych knihovn´ ach a tak je na uˇzivateli, aby si je doprogramoval sám, coˇz nˇekteré statistické knihovny to dovoluj´ı pˇr´ımo v rámci této knihovny. Autor tohoto textu v´ı pouze o jedné knihovnˇe, která nab´ız´ı test tohoto druhu, totiˇz White˚ uv test. Jedná se o knihovnu E-views (pˇr´ıpadnˇe TSP). Nav´ıc White˚ uv test ve skuteˇcnosti testuje nezávislost regresor˚ u a náhodn´ ych fluktuac´ı, tj. testuje o nˇeco silnˇejˇs´ı pˇredpoklad neˇz je homoskedasticita. Podrobnˇeji tyto problémy prodiskutujeme aˇz se budeme zab´ yvat Whiteov´ ym testem. Popis vˇsech test˚ u lze nalézt bud’ v n´ıˇze uvádˇen´ ych origináln´ıch ˇcl´ anc´ıch, kde lze nalézt i d˚ ukazy následuj´ıc´ıch tvrzen´ı nebo v Judge a kol. (1980), kde je také “jen” popisn´ y text. Dˇr´ıve neˇz se pust´ıme do popisu jednotliv´ ych test˚ u, poznamenejme jeˇstˇe, ˇze testov´ an´ı homoskedasticity (ˇci chcete-li, heteroskedasticity, coˇz znovu pˇripom´ın´ ame je situace opaˇcn´ a k 2 homoskedasticitˇe, tj. situace, kdy je v modelu (66) alespoˇ n pro jedno i IE Ei 6= σ = IE E1 ) má docela bohatou historii. Tomto ohledu je zaj´ımav´ y ˇcl´ anek Cook, Weisberg (1983). Breusch-Pagan˚ uv test (Breusch, Pagan (1979)) Breusch-Pagan˚ uv test pˇredpoklád´ a, ˇze rozptyl jednotliv´ ych náhodn´ ych fluktuac´ı se ˇr´ıd´ı modelem (dnes ponˇekud mdnˇe pouˇz´ıvan´ a terminologie by ˇrekla modelem volatility, byt’ tento term´ın pˇredpoklád´ a (implicitnˇe) sp´ıˇse závislost na ˇcase) σi2 = h(ziT α), kde h je nˇekterá, dostateˇcnˇe hladká funkce, zi ∈ Rk , z technick´ ych d˚ uvod˚ u maj´ıc´ı prvn´ı souˇradnici T T k rovnou 1 a α = (α1 , α ˜ ) ∈ R . Jak je okamˇzitˇe vidˇet, model pro rozptyly náhodn´ ych fluktuac´ı 80

je zaloˇzen opˇet na lineárn´ı regresi, která je “modifikov´ ana” nˇekterou (hladkou) funkc´ı h. Vektory zi , (i = 1, 2, . . . , n) jsou vlastnˇe hodnoty regresor˚ u pro i-té pozorov´ an´ı, tj. souˇradnice tˇechto vektor˚ u jsou právˇe ty charakteristické vlastnosti (atributy) pozorov´ an´ı, o kter´ ych máme podezˇren´ı, ˇze mohou ovlivˇ novat velikost rozptylu náhodn´ ych fluktuac´ı. Vektor α je pak vybrán tak, aby zváˇzil vliv tˇechto charakteristick´ ych atribut˚ u. Podobnˇe je vybrána funkce h, pˇr´ıklady prob´ırané v r˚ uzn´ ych ˇclánc´ıch jsou napˇr. h(v) = v, h(v) = v 2 ˇci h(v) = exp(v). Je pˇrirozené, ˇze jak volba vektor˚ u zi ’s, tak volba regresn´ıch koeficient˚ u α, a samozˇrejmˇe také volba funkce h, (podstatnˇe) ovlivn´ı v´ ysledek testu, co se t´ yˇce jeho s´ıly. Nicménˇe, jak je vidˇet z podstaty problému, nelze, pˇrinejmenˇs´ım ne jednoduˇse, dát nˇejaké obecné doporuˇcen´ı ˇci návod, jak tyto zvolit. Ostatnˇe jako mnoho jin´ ych vˇec´ı ovlivˇ nuj´ıc´ıch solidn´ı zpracov´ an´ı dat, konec konc˚ u poˇc´ınaje samotn´ ym v´ ybˇerem modelu a jeho odhadu, je i tato volba znaˇcnˇe závisl´ a na zkuˇsenosti a invenci toho, kdo data zpracovává. Teoretické závˇery, kter´ ych Breusch a Pagan (1979) dosáhli, ˇr´ıkaj´ı, ˇze za nulové hypotézy, kterou je homoskedasticita, coˇz v naˇsem formalizmu znamená α ˜ = 0, existuje lokálnˇe nejsilnˇejˇs´ı test zaloˇzen´ y na statistice q T Z(Z T Z)−1 Z T q η= , 2s4 S2 kde q T = (q1 , q2 , . . . , qn ), qi = r2 (βˆ(LS,n) ) − s2 , Z = (z1 , z2 , . . . , zn )T a s2 = R . Pˇri platnosti i

H0 má statistika η asymptoticky rozdˇelen´ı χ2 (k − 1). Nav´ıc statistika q T Z(Z T Z)−1 Z T q

η∗ = n−1

Pn

i=1

³

ri2 (βˆ(LS,n) ) − s2

n−p

´2

je s η asymptoticky ekvivalentn´ı, tj. je asymptoticky také rozdˇelena jako χ2 (k − 1), ale je ménˇe ypoˇcet je vˇsak ponˇekud sloˇzitˇejˇs´ı neˇz zranitelná odchylkami ve ˇspiˇcatosti σµ44 rozdˇelen´ı. Jej´ı v´ v´ ypoˇcet statistiky η. Ve skuteˇcnosti je to tak, ˇze statistiky η a η ∗ maj´ı za Podm´ınek A (viz zaˇc´ atek 2 skript) asymptotické rozdˇelen´ı rovné χ (k − 1), nicménˇe jejich chov´ an´ı je nejlépe prostudov´ ano pˇri pˇredpokladu normality fluktuac´ı, a proto se v´ı, ˇze pro situaci ˇsikmého rozdˇelen´ı je chov´ an´ı ∗ 2 statistiky η lepˇs´ı ve smyslu tˇesnˇejˇs´ı (asymptotické) aproximace pomoc´ı χ (k − 1). Bartlett˚ uv test (Bartlett (1937), Kendall, Stuart (1973)) Necht’ jsou data rozdˇelena do m skupin dat, pˇriˇcemˇz i-tá obsahuje ni pozorov´ an´ı yij , tj. i = 1, 2, . . . , m, j = 1, 2, . . . , ni . Potom statistika P (n − m)ln(ˆ σ2) − m î 2 ) i=1 (ni − 1)ln(σ i hP i, h m+ m 1 1 − 1 + 31 (m − 1) · i=1 ni −1 n−m P

P

P

P

ni i σi2 a y¯i = n−1 σ2 = m kde (ni −1)ˆ σi2 = nj=1 (yij − y¯i )2 , n = m i=1 (ni −1)ˆ i=1 ni , (n− m)ˆ i j=1 yij , 2 2 2 2 má asymptoticky χ (m−1) distribuci za pˇredpokladu, ˇze σ1 = σ2 = . . . = σm . Aˇckoliv to nebylo explicite ˇreˇceno, Bartlett˚ uv test jako (jakousi “minimáln´ı”) alternativu pˇredpoklád´ a, ˇze alespoˇ n v jedné skupinˇe je rozptyl jin´ y neˇz v ostatn´ıch, coˇz implicitnˇe znamená, ˇze pˇr´ısluˇsn´ a data pro regresn´ı anal´ yzu byla nˇejak smysluplnˇe rozdˇelena do skupin, napˇr. máme data, kde pro stejn´ y vektor regresor˚ u byla opakovanˇe mˇeˇrena ˇci pozorov´ ana vysvˇetlovan´ a veliˇcina Y .

Goldfeld-Quandt˚ uv test (Goldfeld, Quand (1965), (1972)) Pˇredpokládejme, ˇze data byla “pˇreindexována” tak, ˇze 2 σi2 ≥ σi−1

pro i = 2, 3, . . . , n. 81

(80)

Goldfeld-Quandt˚ uv test je zaloˇzen na následuj´ıc´ıch kroc´ıch: • Vynecháme r pozorován´ı, jejichˇz rozptyly stoj´ı na centr´ aln´ıch m´ıstech v posloupnosti (80), n r je pˇredem zvolené ˇc´ıslo obvykle celé ˇc´ıslo bl´ızké k 3 . • Aplikujeme regresn´ı model na prvn´ıch a posledn´ıch ˜2 = • Vyˇc´ısl´ıme R

S22 , S12

n−r 2

pozorov´ an´ı.

kde S12 a S22 jsou reziduáln´ı souˇcty ˇctverc˚ u v prvé a druhé skupinˇe.

˜ 2 s kvantily rozdˇelen´ı F s • Porovnáme statistiku R je dimenze modelu.

n−r−2p 2

a

n−r−2p 2

stupni volnosti, kde p

Je zˇrejmé, ˇze rozdˇelen´ı pozorován´ı do skupin má za c´ıl “oddˇelit” od sebe dvˇe skupiny pozorován´ı tak, aby se (znaˇcnˇe) podpoˇrila moˇznost toho, ˇze rozptyl fluktuac´ı u pozorov´ an´ı v tˇechto skupinách se bude liˇsit pokud neplat´ı hypotéza o homoskedasticitˇe. Samozˇrejmˇe, ˇze rovnˇeˇz podstatn´ ym pˇredpokladem pro dobré fungov´ an´ı testu je nezávislost náhodn´ ych fluktuac´ı u jednotliv´ ych pozorován´ı, která by mˇela b´ yt tedy nejdˇr´ıve otestov´ ana napˇr. Durbin-Watsonov´ ym testem. Okamˇzitˇe nás jistˇe napadne, ˇze lze provést rozdˇelen´ı do jin´ ych (pˇrirozenˇe nestejnˇe poˇcetn´ ych) 2 ˜ skupin. Pak bude rozdˇelen´ı statistiky R opˇet Fisher-Snedecorovo, ale s jin´ ymi stupni volnosti. Szroeterova tˇ r´ıda test˚ u (Szroeter (1978)) Pokusme se, podobnˇe jako u Goldfeld-Quandtova testu, pˇreˇc´ıslovat pozorován´ı tak, ˇze 2 σi2 ≥ σi−1

a poloˇzme

pro i = 2, 3, . . . , n,

P hi r2 (βˆ(LS,n) ) ˜ , h = Pi∈A 2i ˆ(LS,n) ) i∈A ri (β

(81)

(82)

kde A je nˇekterá neprázdná podmnoˇzina index˚ u a hi , i = 1, 2, . . . , n jsou ˇc´ısla splˇ nuj´ıc´ı hi ≤ hj pro i < j, jakési testové váhy jednotliv´ ych rezidu´ı. Hypotéza homoskedasticity zam´ıtne pokud ˜ > c. h Kritická hodnota c pˇrirozenˇe závis´ı na tom, jak zvol´ıme vektor vah h a jak definujeme mnoˇzinu A. n+r Napˇr. zvol´ıme-li hi = −1 pro i = 1, 2, . . . , n−r zina 2 a hi = 1 pro i = 2 + 1, . . . , n a mnoˇ A bude obsahovat vˇsechny indexy, bude test (82) pˇri platnosti hypotézy, ˇze vˇsechna data jsou generována modelem (4) a ˇze rozptyl fluktuac´ı nen´ı ovlivˇ nov´ an tˇemi faktory, na které jsme mˇeli podezˇren´ı a dle kter´ ych jsme vlastnˇe rozdˇelili ˇci pˇreindexovali data, viz (81) nebo (80), asymptoticky v pravdˇepodobnosti ekvivalentn´ı Goldfeld-Quandtovu testu. Szroeter˚ uv návrh byl tento: ·

µ

π(i − p) hi = 2 1 − cos n−p+1

¶¸

i = p + 1, . . . , n

a A = {p + 1, p + 2, . . . , n}. Kritické hodnoty pro tuto moˇznost lze odvodit od tzv. von Neumannova r (von Nemann (1941)), spoˇc´ıtaného pro n − p + 1 pozorov´ an´ı. 82

Dalˇs´ı moˇznost, jak zvolit vektor vah je následuj´ıc´ı ·

µ

hi = 2 1 − cos

πi n+1

¶¸

i = 1, 2, . . . , n.

(83)

V´ yhodou této volby je to, ˇze kritické hodnoty pro A = {1, 2, . . . , n} jsou totoˇzné s kritick´ ymi hodnotami pro Durbin-Watsonovu statistiku (Durbin, Watson (1952)), o které bude ˇreˇc pozdˇeji. ˜ vˇetˇs´ı neˇz Pro tuto chv´ıli pouze poznamenejme, ˇze zadáme-li h dle (83), potom pokud je h 4 − dL (kde dL je tzv. doln´ı kritická hodnota D-W statistiky a m˚ uˇze b´ yt nalezena napˇr. v ˜ knize Kmenta (1986)), zam´ıtneme hypotézu o homoskedasticitˇe, je-li h < 4 − dU , kde dU je horn´ı kritická hodnota D-W statistiky, nezam´ıtneme hypotézu o homoskedasticitˇe. Pokud je ˜ < 4 − dL , povaˇzujeme test za nerozhoduj´ıc´ı. V jiˇz dˇr´ıve citované monografii Judge a 4 − dU < h spol. (1980) lze nalézt i jiné návrhy pro volbu hi . White˚ uv test (White (1980), Judge a spol. (1980)) Origináln´ı nápad jak testovat homoskedasticitu pocház´ı od H. White a spoˇc´ıv´ a v tom, ˇze porovn´ ame dva odhady matice n−1 σ 2 X T X, totiˇz n 1 T 1X X X s2 a Xi XiT ri2 , (84) n n i=1 kde (pˇripom´ınáme) Xi je i-t´ y ˇrádek matice X, uvaˇzovan´ y stejnˇe jako v´ yˇse jako sloupcov´ y vektor, 1 Pn T 2 LS 2 T s = n−p i=1 (Yi − Xi βˆ ) a ri = Yi − Xi β. Snadno se nahlédne, ˇze v pˇr´ıpadˇe nezávislosti fluktuac´ı ei a vektoru Xi , matice v (84) (pˇribliˇznˇe) rovny v tom smyslu, ˇze konverguj´ı ke stejné limitˇe, nebot’ potom pˇribliˇznˇe n 1X Xi XiT ri2 = IE n i=1

=

emp {X1

· X1T r12 } = IE

emp {X1

· X1T } IE

2 emp {r1 }

n n 1X 1 1X Xi · XiT · ri2 ≈ X T X · s2 , n i=1 n i=1 n

(85)

kde subindex emp naznaˇcuje, ˇze se jedná o stˇredn´ı hodnotu vzhledem k empirické distribuˇcn´ı funkci. V ˇradˇe monografi´ı se trvd´ı, ˇze pokud neplat´ı hypotéza homoskedasticity, potom aˇz na velmi speciáln´ı pˇr´ıpady heteroskedasticity, budou tyto dva odhady divergovat pro n → ∞. Na druhé stranˇe, to jaké pˇr´ıpady heteroskedasticity jeˇstˇe projdou, lze snadno vystopovat z (85). Napˇr. pˇredpokládejme, ˇze kaˇzd´ a z náhodn´ ych veliˇcin pˇredstavuj´ıc´ıch fluktuace v regresn´ım modelu bude rozdˇelena dle nˇekterého rozdˇelen´ı vybraného z pˇredem daného koneˇcného poˇctu typ˚ u rozdˇelen´ı; omezme se vˇsak - bez u ´jmy na obecnosti - na pˇr´ıpad dvou typ˚ u. Nyn´ı, z d˚ uvodu zjednoduˇsen´ı dalˇs´ıho zápisu, pˇreuspoˇr´ ad´ ame naˇse pozorov´ an´ı tak, aby na zaˇc´ atku byla ta pozorován´ı, která maj´ı náhodné fluktuace rozdˇeleny dle prvn´ıho typu rozdˇelen´ı (jejich poˇcet oznaˇcme mn ) a dále jsou ta ostatn´ı (jejich poˇcet pak je n − mn ). Pˇripomeˇ nme, ˇze jsme pˇredpokládali (viz (14)) 1 T lim X X = Q, n→∞ n a pˇredpokládejme tedy, ˇze také odpov´ıdaj´ıc´ı ˇc´ asti matic konverguj´ı k matici Q, tj. lim mn →∞

mn 1 X Xi XiT = Q mn i=1

lim

a

n−mn →∞

83

1 n − mn

n X i=mn +1

Xi XiT = Q.

Pak máme (podobnˇe jako v´ yˇse) 

mn n 1X 1 1 X 1 Xi XiT ri2 = mn Xi XiT ri2 + (n − mn ) n i=1 n mn i=1 n − mn

= = ≈

1n mn IE n

mn Q IE n

1n mn IE n emp {X1

2 emp {r1 } +



emp {X1

· X1T } IE

n X

Xi XiT ri2

i=mn +1

emp {Xmn +1

T · Xm r2 } n +1 mn +1

2 emp {r1 }

emp {Xmn +1

T · Xm } IE n +1

n − mn Q IE n

½ 2 emp {rmn +1 } = Q

mn 1  1 X 1 ≈ Q mn ri2 + n − mn  n mn i=1 n − mn



o

· X1T r12 } + (n − mn )IE + (n − mn )IE

 

mn IE n

n X i=mn +1

ri2

2 emp {r1 } +

  

=Q

2 emp {rmn +1 }

n − mn IE n

o ¾

2 emp {rmn +1 }

n 1X 1 ri2 ≈ X T X · s2 . n i=1 n

yˇse zm´ınˇen´ ych Je zˇrejmé, ˇze oznaˇc´ıme-li σ12 a σ22 postupnˇe rozptyly prvého a druhého typu v´ rozdˇelen´ı fluktuac´ı a budou-li pomˇery poˇct˚ u fluktuac´ı ˇr´ıd´ıc´ıch se prvn´ım a druh´ ym typem rozdˇelen´ı stabiln´ı, tj. bude-li napˇr.

n→∞

mn = λ, n

λ ∈ [0, 1]

bude nav´ıc s2 (silnˇe) konvergovat k λ · σ12 + (1 − λ) · σ22 . Z toho je patrné, ˇze White˚ uv test sp´ıˇse odhal´ı závislost mezi regresory a fluktuacemi neˇz poruˇsen´ı homoskedasticity. Nav´ıc nedostatkem tohoto testu je fakt, ˇze zjiˇst’ov´ an´ı konvergence ˇci divergence odhad˚ u pro jeden soubor dat je patrnˇe myslitelné jen pro dosti rozsáhlé soubory. Test je napˇr. nab´ızen v E View a TSP, a pokud je autorovi tohoto textu známo nen´ı zaloˇzen na zkoum´ an´ı konvergence ˇci divergence, ale prostˇe na porovnán´ı v´ yraz˚ u uveden´ ych v (84). Proto je tˇreba brát závˇery z tohoto testu s jistou opatrnost´ı. 6.1.4

Z´ avˇ er

Z toho, co uˇz bylo ˇreˇceno plyne, ˇze pˇri zpracov´ an´ı dat, m˚ uˇze nastat situace, kdy pojmeme podezˇren´ı, ˇze fluktuace v regresn´ım modelu jsou korelov´ any, pro r˚ uzn´ a pozorov´ an´ı, tj. cov(Ei , Ej ) 6= 0 pro i 6= j. V tom pˇr´ıpadˇe pouˇzijeme Durbin-Watson˚ uv test, o kterém jsme se v´ yˇse uˇz zm´ınili, a o kterém pojednáme podrobnˇe pozdˇeji. Poznamenejme vˇsak, ˇze na rozd´ıl od Durbin-Watsonova testu, kter´ y je robustn´ı proti heteroskedasticitˇe, jsou testy na heteroskedasticitu v pˇr´ıpadˇe korelovanosti fluktuac´ı obvykle velmi slabé, pokud je nepovaˇzujeme za zcela nevyhovuj´ıc´ı, a mohou dát (a obvykle dávaj´ı) zavádˇej´ıc´ı v´ ysledky. Podobnˇe, dojde-li k podurˇcen´ı modelu, v´ yˇse uvedené testy obvykle indikuj´ı heteroskedasticitu, byt’ po doplnˇen´ı dalˇs´ıch vysvˇetluj´ıc´ıch promˇenn´ ych by test bez problém˚ u “proˇsel”. Obecnˇe sice plat´ı, ˇze poruˇsen´ı homoskedasticity m˚ uˇze, pokud je znaˇcné, podstatnˇe sn´ıˇzit (LS,n) ˆ eficienci odhadu β . Vzhledem k tomu vˇsak, ˇze i pˇri heteroskedastick´ ych náhodn´ ych fluk(LS,n) ˆ tuakc´ıch je odhad β stále jeˇstˇe konsistentn´ı a pokud budou pˇr´ısluˇsné individuáln´ı rozptyly stˇejnomˇernˇe ohraniˇceny a fluktuace budou nezávislé, dokonce asymptoticky normáln´ı, lze v pˇr´ıpadˇe, ˇze indexov´ y graf neindikuje podezˇren´ı na heteroskedasticitu, pouˇz´ıt βˆ(LS,n) . 84

6.2

Normalita n´ ahodn´ ych fluktuac´ı

Test na “alespoˇ n pˇribliˇzné ovˇeˇren´ı” pˇredpokladu normality fluktuac´ı je patrnˇe d˚ uleˇzitˇejˇs´ı neˇz v´ yˇse uvedené testy na homoskedasticitu. Z následuj´ıc´ıho pˇr´ıkladu okamˇzitˇe pochop´ıme proˇc. Oznaˇcme Φ0 standardn´ı normáln´ı rozdˇelen´ı a poloˇzme PΦ0 (²) = {Q ∈ M(X) : Q = (1 − τ )Φ0 + τ H, H ∈ M(X), τ ∈ (0, ²) } . Potom Studentovo rozdˇelen´ı s 9 stupni volnosti je prvkem “okol´ı” PΦ0 (²) pro ² ≥ 0.028 a se 3 stupni volnosti pro ² ≥ 0.078. To jin´ ymi slovy znamená, ˇze v prvém pˇr´ıpadˇe staˇc´ı, aby se dva tˇricetiprvkové náhodné v´ ybˇery liˇsily v jednom pozorov´ an´ı a jeden v´ ybˇer m˚ uˇze b´ yt ze standardn´ıho normáln´ıho rozdˇelen´ı, zat´ımco ten druh´ y ze Studentova. Pro druh´ y pˇr´ıpad staˇc´ı, aby se 50-ti prvkové v´ ybˇery liˇsily ve ˇctyˇrech pozorov´ an´ıch. To se na prvn´ı pohled m˚ uˇze zdát jako vysok´ a kontaminace, nicménˇe napˇr. v Hampel a kol. (1986) lze nalézt ˇradu pˇr´ıklad˚ u (reáln´ ych dat), ukazuj´ıc´ıch, ˇze 10% kontaminace nen´ı jev nikterak ojedinˇel´ y, sp´ıˇse naopak. Na druhé stranˇe, uˇz v roce 1922 Sir Ronald Aylmer Fisher ukázal, ˇze asymptotick´ a eficience pr˚ umˇeru x je pˇri Studentovˇe tk rovna 1−6/[k(k +1)]. Pro odhad rozptylu sn dostaneme hodnotu asymptotické eficience rovnou 1 − 12/[k(k + 1)]. To znamená, ˇze pro t9 a t3 je asymptotick´ a efficience pr˚ umˇeru x postupnˇe rovna 93 % a 50 %, a eficience rozptylu je pro tyto dva pˇr´ıpady 83 % a 0 %. To napov´ıdá, ˇze vlastnosti tˇech statistik, které byly odvozeny jako optimáln´ı pro normáln´ı rozdˇelen´ı, se mohou znaˇcnˇe zhorˇsovat v pˇr´ıpadˇe, kdy data byla generov´ ana rozdˇelen´ım, které, jak napov´ıdá prvn´ı ˇcást pˇr´ıkladu, prakticky nejsme schopni rozliˇsit od normáln´ıho. Podotknˇeme, ˇze pˇr´ıpadná skepse, která by snad mohla b´ yt inspirov´ ana t´ımto pˇr´ıkladem nen´ı na m´ıstˇe, nebot’ napˇr´ıklad eficience 6%-n´ıho usekaného pr˚ umˇer˚ u neklesne pod 96% pro hodnoty ² ∈ (0, 0.3). Takov´ ym odhad˚ um se ˇr´ıká robustn´ı a dnes je jich pro regresn´ı anal´ yzu známo v´ıce neˇz je tˇreba k solidn´ı anal´ yze dat. Také si o nich pozdˇeji v závˇeru tˇechto a zejména v dalˇs´ım d´ıle skript nˇeco pov´ıme. Jak jsme uˇz ˇrekli v´ yˇse d˚ uvodem, proˇc zde prob´ır´ ame metodu nejmenˇs´ıch ˇctverc˚ uak n´ı náleˇzej´ıc´ı diagnostické prostˇredky tak podrobnˇe, je ten fakt, ˇze tuto metodu pouˇz´ıv´ a stále mnoho uˇzivatel˚ u a chceme-li se nauˇcit zodpovˇednˇe nauˇcit posuzovat jejich v´ ysledky a závˇery, mus´ıme tuto metodu dobˇre ovládat. Dˇr´ıve neˇz se pust´ıme do vlastn´ıho v´ ykladu uved’me alespoˇ n nˇekteré citace prac´ı t´ ykaj´ıc´ıch se testován´ı normality rezidu´ı. Mezi ty, které b´ yvaj´ı ˇcasto v r˚ uzn´ ych uˇcebn´ıch textech uvádˇeny patˇr´ı napˇr. Pearson a kol. (1977), Locke a Spurrier (1977), Saniga a Miles (1979), Bera a Jarque (1981) ˇci Kiefer a Salmon (1983) (mnoho dalˇs´ıch referenc´ı lze nalézt v Judge a kol. (1980)). Je asi uˇziteˇcné poznamenat, ˇze lze ukázat, ˇze za urˇcit´ ych podm´ınek (White, MacDonald (1980)) bˇeˇzné testy na normalitu maj´ı asymptoticky stejné vlastnosti, uplatn´ıme-li je na rezidua z regresn´ı anal´ yzy provedenou metodou nejmenˇs´ıch ˇctverc˚ u, jako kdybychom je aplikovali na soubor nezávisl´ ych pozorov´ an´ı. Jeˇstˇe se k tomu vrát´ıme v závˇeru tohoto v´ ykladu. Dˇr´ıve byl v uˇcebnic´ıch a monografi´ıch zd˚ urazˇ nov´ an fakt, ˇze rez´ıdua jsou mezi sebou závislá, byt’ tato závislost slábne se stoupaj´ıc´ım poˇctem pozorov´ an´ı, a bylo doporuˇcov´ ano pouˇzit´ı BLUS rezidu´ı r˜ (Theil (1965)), tj. rezidu´ı, která jsou: • lineárn´ımi funkcemi vysvˇetlované promˇenné Y (uvˇedomme si, ˇze ³

´

r(βˆ(LS,n) ) = I − X(X T X)−1 X T Y 85

jsou lineárnˇe závislá na Y ), • jsou nevych´ ylená, • jsou homoskedastická a nekorelovan´ a, a • minimalizuj´ı

h

i

IE (˜ r − rˆ)T (˜ r − rˆ) , kde rˆ je zadáno v (87). Samozˇrejmˇe, ˇze bez nˇejakého algoritmu, kter´ y by vedl k vyˇc´ıslen´ı BLUS rezidu´ı, by jejich pouˇzit´ı bylo v´ıce ménˇe jen teoretickou moˇznost´ı. Tady je tedy “návod”, jak z bˇeˇzn´ ych rezidu´ı r(βˆ(LS,n) ) vypoˇc´ıtat BLUS rezidua (viz Judge a kol. (1980), str. 173, vztah (5.5.12)) #

" H X

dh qh qhT rˆ0 , 1 + d h h=1

r˜ = rˆ − X (1) [X (0) ]−1

(86)

kde r(βˆ(LS,n) ) = Y − X · βˆ(LS,n) = (ˆ r0T , rˆT )T , rˆ0 ∈ Rp , rˆ ∈ Rn−p

(87)

a X = (X (0)T , X (1)T )T a X (0) je typu (p × p), a pˇredpoklád´ ame, ˇze je regulárn´ı (to m˚ uˇze 2 2 2 vyˇzadovat pˇreˇc´ıslován´ı ˇrádk˚ u matice X), a koneˇcnˇe d1 , d2 , . . . , dp a q1 , q2 , . . . , qp jsou vlastn´ı ˇc´ısla a vlastn´ı vektory matice X (0) (X T X)−1 X (0)T . Takov´ a matice má p vlastn´ıch kladn´ ych ˇc´ısel, z nichˇz H ˇc´ısel je (ostˇre) menˇs´ıch neˇz jedna. Tato ˇc´ısla a vektory se objevuj´ı v (86). Koneˇcnˇe pak seˇrad´ıme jednotlivé souˇradnice tohoto vektoru r˜ dle velikosti, tj. r˜(1) ≤ r˜(2) ≤ . . . ≤ r˜(n−p) a nalezneme Shapiro-Wilkovu statistiku ³P

W =

h i=1 ai,n−p

h

r˜(n−p−i+1) − r˜(i)

Pn−p ³ i=1

i´2

´2

r˜i − ˜r˜

,

P

n−p n−p−1 1 ˜i a ai,n−p jsou koeficienty kde h = n−p (pro sudé ˇci liché n − p), ˜r˜ = n−p i=1 r 2 nebo h = 2 tabelované v Shapiro, Wilk (1965). Tam lze nalézt také kritické hodnoty pro statistiku W . Jak uˇz jsme se v´ yˇse zm´ınili, existuj´ı v´ ysledky napov´ıdaj´ıc´ı, ˇze lze pouˇz´ıt i bˇeˇzn´ a, tj. nikterak neupravovan´ a rezidua a ˇze v´ ysledek m˚ uˇze b´ yt lepˇs´ı neˇz s BLUS rezidu´ı (napˇr. Huang, Bolch (1974)). Aˇckoliv jednoznaˇcné doporuˇcen´ı lze jen tˇeˇzko dát, faktem z˚ ust´ av´ a, ˇze se mnohé testy urˇcené k testován´ı normality jednorozmˇern´ ych dat, která jsou povaˇzov´ ana za realizaci posloupnosti nezávisl´ ych náhodn´ ych veliˇcin, ˇcasto pouˇz´ıvaj´ı i v regresi (bez dalˇs´ıch u ´prav). Pˇripomeˇ nme proto, ˇze se ˇcasto pouˇz´ıvá test na ˇsikmost a ˇspiˇcatost, kter´ y je zaloˇzen´ y na studentizované v´ ybˇerové ˇsikmosti a ˇspiˇcatosti. Tyto jsou zadány vztahy

δ=

m3 s3

(ˇsikmost) a

86

γ=

m4 s4

(ˇspiˇcatost),

kde ms je s-t´ y v´ ybˇerov´ y centráln´ı moment ms =

n 1X (zi − z¯)s n i=1

a kde z¯ oznaˇcuje pr˚ umˇer namˇeˇren´ ych (napozorovan´ ych) hodnot. Pro stˇredn´ı hodnoty a rozptyly tˇechto statistik lze odvodit formulky IE δ = 0 a var(δ)

a

6(n − 2) (n + 1)(n + 3)

a

IE γ = 3 −

var(γ) =

6 n+1

24n(n − 2)(n − 3) . (n + 1)2 (n + 3)(n + 5)

Nen´ı pˇr´ıliˇs obt´ıˇzné dokázat, ˇze δ a γ jsou asymptoticky nekorelované. Odpov´ıdaj´ıc´ı testy jsou tedy zaloˇzeny na veliˇcinách T3 =

δ 1 2

var (δ)

a T4 =

γ − IE γ 1

var 2 (γ)

.

Koneˇcnˇe pak kritické hodnoty se najdou v práci Mulholland (1977) (pro rozsahy v´ ybˇeru menˇs´ı nebo rovné 25) a v ˇclánku Pearson a Hartley (1956, 1972). Nápady na zlepˇsen´ı tˇechto test˚ u lze nalézt v knize Andˇel (1993) ˇci v práci D’Agostino a kol. (1990).

6.3

Nez´ avislost n´ ahodn´ ych fluktuac´ı

Jedn´ım z pˇredpoklad˚ u, se kter´ ym jsme zaˇcali náˇs v´ yklad regresn´ı anal´ yzy, byla nezávislost náhodn´ ych fluktuac´ı u jednotliv´ ych pozorov´ an´ı. Nicménˇe lze jednoduˇse ukázat, ˇze i v pˇr´ıpadˇe, kdy “naivnˇe” pouˇzijeme odhad nejmenˇs´ıch ˇctverc˚ u aˇc právˇe zm´ınˇen´ y pˇredpoklad je poruˇsen, dostaneme nestrann´ y a konsistentn´ı odhad regresn´ıch koeficient˚ u. Obvykle se vˇsak uvád´ı, ˇze m˚ uˇze doj´ıt ke znaˇcné ztrátˇe eficience odhadu. To je pravda a dokonce byly provedeny (numerické) studie ukazuj´ıc´ı, jak mnoho z eficience ztrat´ıme. Autoˇri si vˇsak neuvˇedomuj´ı, ˇze ztráta eficience, jdouc´ı na vrub kontaminace dat je (typicky) vˇzdy vˇetˇs´ı, neˇz ztráta zp˚ usobená vzájemnou závislost´ı fluktuac´ı (viz napˇr. Hampel a kol. (1986) ). Proto je nutné brát návrhy na korigov´ an´ı závislosti fluktuac´ı (viz Cochrane, Orcutt (1949) nebo Prais, Winsten (1954)) s jistou rezervou. Pov´ıme si o tom pozdˇeji, patrnˇe v dalˇs´ım d´ıle skript. Snadno nahlédneme, ˇze i v pˇr´ıpadˇe, ˇze v modelu (4) jsou náhodné fluktuace statisticky striktnˇe nezávislé, jsou rezidua vˇzdy slabˇe korelov´ ana - a tedy také závisl´ a. Závislost rezidu´ı plyne napˇr. ze vztahu IE (Y − X βˆ(LS,n) )(Y − X βˆ(LS,n) ) = IE (Y − X(X T X)−1 X T Y )(Y − X(X T X)−1 X T Y )T h

ih

= IE Y − X(X T X)−1 X T (Xβ 0 + E) h

i

h

iT

Y − X(X T X)−1 X T (Xβ 0 + E) i

h

i

= IE Ip − X(X T X)−1 X T EE T Ip − X(X T X)−1 X T = σ 2 Ip − X(X T X)−1 X T , ukazuj´ıc´ı vˇsak mna druhé stranˇe, ˇze za dosti obecn´ ych podm´ınek jsou rezidua alespoˇ n asymptoticky nezávislá. Test, jeˇz bude dále vyloˇzen, vˇsak nespoléh´ a na tuto “pouze” asymptotickou nezávislost a je zkonstruován tak, aby rozhodoval o závislosti ˇci nezávislosti teoretick´ ych náhodn´ ych 87

fluktuac´ı. Navrhli jej v roce 1952 J. Durbin a G. S. Watson a je ˇc´ asteˇcnˇe zaloˇzen na v´ ysledc´ıch ˇclánku T. W. Andersona (1948) a ˇcásteˇcnˇe na excelentn´ım triku, kter´ y dále pop´ıˇseme. Anderson zjistil, ˇze pokud pˇredpokládáme, ˇze vektor náhodn´ ych fluktuac´ı je rozdˇelen bud’ (hypotéza) dle n-rozmˇerného normáln´ıho rozdˇelen´ı s kovarianˇcn´ı matic´ı Ψ−1 nebo (alternativa) dle téhoˇz rozdˇelen´ı, ale s kovarianˇcn´ı matic´ı Θ−1 a pokud vektor regresn´ıch koeficient˚ u je vlastn´ım vektorem matice Ψ a Θ , pak statistika z(r(βˆ(LS,n) )) =

rT (βˆ(LS,n) ) Θ r(βˆ(LS,n) ) rT (βˆ(LS,n) ) Ψ r(βˆ(LS,n)

poslouˇz´ı jako základ ke konstrukci nejsilnˇejˇs´ıho testu pro testov´ an´ı této hypotézy proti jisté tˇr´ıdˇe alternativ, pˇrirozenˇe zahrnuj´ıc´ı v´ yˇse uvedenou alternativu. Tento v´ ysledek se zdál ponˇekud ’ nepraktick´ y, nebot jak dále uvid´ıme, statistika z z´ avis´ı na matici plánu X a tedy i kritické hodnoty pˇr´ısluˇsného testu budou také závislé na X. Avˇsak Durbinovi a Watsonovi se v roce 1952 podaˇrilo tuto nesnáz pˇrekonat. Nejprve poznamenejme, ˇze studovali tuto statistiku pro speciáln´ı pˇr´ıpad, kdy hypotézou je nezávislost, tj. matice Ψ = I. Durbin a Watson rovnˇeˇz pozmˇenili oznaˇcen´ı kovarianˇcn´ı matice pˇri alternativˇe z Θ na A a protoˇze (veˇsker´ a) literatura vˇenovaná této problematice se pˇridrˇzuje jejich znaˇcen´ı, uˇcin´ıme tak i my. Budeme tedy nadále psát rT A r z(r) = T , (88) r r r oznaˇcuje bˇeˇzná rezidua z anal´ yzy pomoc´ı nejmenˇs´ıch ˇctverc˚ u r(βˆ(LS,n) ). Vezmeme-li v u ´vahu, ˇze βˆ(LS,n) = (X T X)−1 X T Y, dostaneme

h

i

r(βˆ(LS,n) ) = Y − X(X T X)−1 X T Y = In − X(X T X)−1 X T Y h

i

h

i

= In − X(X T X)−1 X T [X β 0 + E] = In − X(X T X)−1 X T E. Pro zjednoduˇsen´ı zápisu oznaˇcme M = In − X(X T X)−1 X T . Pak máme rT (βˆ(LS,n) ) A r(βˆ(LS,n) ) = E T M T A M E = E T M A M E, pˇriˇcemˇz posledn´ı rovnost plyne ze symetrie matice M . Jak jsme ukázali v´ yˇse pro libovolnou reálnou symetrickou matici existuje ortogonáln´ı matice, která ji diagonalizuje po vynásoben´ı zleva a zprava (viz Tvrzen´ı 7). Pro projekˇcn´ı matici M oznaˇcme tuto matici L, tj. L bude matice, pro kterou bude platit LT · L = In a oznaˇc´ıme-li D diagonáln´ı matici maj´ıc´ı na diagonále vlastn´ı ˇc´ısla matice M , máme nav´ıc LT M L = D. Pˇripomeˇ nme, ˇze d´ıky tomu, ˇze L je ortogonáln´ı a tedy regulárn´ı, je levá inversn´ı matice rovna pravé a tedy také L LT = In . Nav´ıc, d´ıky tomu, ˇze matice L je sloˇzena z vlastn´ıch vektor˚ u matice M (viz opˇet Tvrzen´ı 7) a matice M je projekˇcn´ı matic´ı do prostoru M(M ) (tj. do lineárn´ıho prostoru generované sloupci matice M ) je tato matice idempotentn´ı (tj. M · M = M ) a to implikuje, ˇze D obsahuje jen nuly a jedniˇcky. Protoˇze nav´ıc rank(D) = rank(M ) = n − p,

88

m˚ uˇzeme pˇreuspoˇrádat sloupce matice L tak, ˇze (0 zastupuje nulové matice s pˇr´ısluˇsn´ ym poˇctem ˇrádk˚ u a sloupc˚ u) 



..  In−p . 0  T L M L =  .......... . .. 0 . 0 Nyn´ı m˚ uˇzeme psát LT M A M L = LT M L · LT A L · LT M L       .. .. .. I . 0 B . B I . 0 3   n−p    1  n−p =  ..........  ·  ..........  ·  .......... , .. .. .. . 0 0 . 0 B2 . B4 0 



..  B1 . B3  kde  . . . . . . . . . .  je pˇr´ısluˇsné dˇelen´ı reálné symetrické matice LT A L. Necht’ N1 je ortogonáln´ı . B2 .. B4 matice, která diagonalizuje B1 , tj. (prázdn´ a m´ısta representuj´ı nuly)  



ν1

ν2

N1T B1 N1 =  "

Potom N =

N1 0 0 Ip

..

 ,

.

(89)

νn−p

#

je ortogonáln´ı, tak ˇze H = L · N je také ortogonáln´ı. Odtud H T M H = N T LT M L N "

=N

T

In−p 0 0 0

#

"

N=

In−p 0 0 0

#

a HT M A M H = HT M H · HT A H HT M H   .. ν . 1   ..  ν2 . 0    .. ..   . . = . ..     νn−p .  .......................  .. 0 . 0 Poloˇz´ıme-li koneˇcnˇe ξ = H T E, máme d´ıky ortogonalitˇe matice H z(βˆ(LS,n) ) =

(90)

E = H ξ a tedy

ET M T A M E ET M T A M E rT (βˆ(LS,n) ) A r(βˆ(LS,n) ) = = ET M T M E ET M E rT (βˆ(LS,n,`) ) r(βˆ(LS,n) ) P

n−p 2 ξT H T M T A M H ξ i=1 νi ξi = = P n−p 2 . ξT H T M H ξ i=1 ξi

(91)

Vztah (91) je moˇzné vyuˇz´ıt k nalezen´ı kritick´ ych hodnot pro statistiku z(r), pouˇzijeme-li následuj´ıc´ı lemma, dokázané Durbinem a Watsonem a formalizuj´ıc´ı vlastnˇe geniáln´ı trik, umoˇzn ˇuj´ıc´ı konstrukci celého testu.

89

LEMMA 10 (Durbin and Watson (1952)) Jsou-li r a E n × 1 vektory takové, ˇze r = M · E, T kde M = In −X(X T X)−1 X T a z = rrTArr (viz (88)), kde A je re´ aln´ a symetrick´ a matice, potom: (a) Existuje ortogon´ aln´ı transformace E = H ξ takov´ a, ˇze Pn−p

νi ξi2 z = Pi=1 n−p 2 i=1 ξi kde ν1 , ν2 , . . . , νn−p jsou ta vlastn´ı ˇc´ısla matice M A, kter´ a jsou nenulov´ a. (b) Je-li n − p − s sloupc˚ u matice X line´ arn´ımi kombinacemi n − p − s vlastn´ıch vektor˚ u matice A, potom n − p − s ˇc´ısel ν’s je rovno vlastn´ım ˇc´ısl˚ um odpov´ıdaj´ıc´ım tˇemto vlastn´ım vektor˚ um; po pˇreˇc´ıslov´ an´ı ostatn´ıch vlastn´ıch ˇc´ısel tak, ˇze ν1 ≤ ν2 ≤ · · · ≤ νs a λ1 ≤ λ2 ≤ · · · ≤ λs+p , kde λ’s jsou vlastn´ı ˇc´ısla matice A, dostaneme λt ≤ νt ≤ λt+p ,

t = 1, 2, . . . , s.

ˇ ast (a) byla vlastnˇe jiˇz dokázána v´ C´ yˇse, zbytek lze nalézt v Durbin a Watson (1952) (d˚ ukaz ˇcásti (b) je pomˇernˇe dlouh´ y aˇc pˇr´ımoˇcar´ y a je zaloˇzen na faktu, ˇze M je projekˇcn´ı matice a tedy je rozloˇzitelná na souˇcin M1 ·M2 ·. . .·Mp p matic´ı typu In −u·uT , kde u ∈ Rn (viz Durbin and Watson (1952)). Poznamenejme jeˇstˇe, ˇze jak plyne z (89) a (90) ν’s jsou vlastn´ı ˇc´ısla matice B1 právˇe tak jako (nenulová) vlastn´ı ˇc´ısla matice M T A M , nebot’ N1 a H diagonalizuj´ı B1 a M T A M . Protoˇze vlastn´ı ˇc´ısla souˇcinu matic nezávis´ı na poˇrad´ı násoben´ı matic (pokud to jde znásobit, viz napˇr. Macdufee (1946)), ν’s jsou také vlastn´ımi ˇc´ısly matice M M T A = M 2 A = M A, pˇriˇcemˇz posledn´ı rovnost plat´ı d´ıky tomu, ˇze matice M je projekˇcn´ı a tud´ıˇz idempotentn´ı. Pˇripomeˇ nme jeˇstˇe, ˇze v ˇclánku von Neumann (1941) je moˇzné nalézt vztah pro ˇc´ısla λi ’s, totiˇz ½ µ ¶¾ π(i − 1) λi = 2 1 − cos , i = 1, 2, . . . , n. n Obvykle se traduje, ˇze kritické hodnoty pro Durbin-Watson˚ uv test byly nalezeny pomoc´ı statistik Pn−p 2 (LS,n) i=1 λi ξi ˆ zL (β )= P n−p 2 i=1 ξi a Pn−p λi+p ξi2 zU (βˆ(LS,n) ) = i=1 Pn−p 2 . i=1 ξi Z v´ yˇse uvedeného lemmatu nepochybnˇe plyne zL (βˆ(LS,n) ) ≤ z(βˆ(LS,n) ) ≤ zU (βˆ(LS,n) ). a tedy by to bylo principiálnˇe moˇzné. Durbin s Watsonem vˇsak pouˇzili pˇr´ımo aproximace distribuˇcn´ı funkce statistiky rT A r . (92) rT r 90

K aproximaci pouˇzili normáln´ı distribuci, pro velk´ a n − p (viz také Anderson (1948)), nebo beta-distribuci pro stˇredn´ı hodnoty n − p. Nejprve nalezli pomoc´ı pˇredchoz´ıho lemmatu horn´ı a doln´ı hranice pro momenty a ty pak pouˇzili pro konstrukci “doln´ı” a “horn´ı” distribuˇcn´ı funkce a následné aproximace kritick´ ych hodnot. Jejich u ´vahy byly zaloˇzeny na dvou faktech. Za prvé, ortogonáln´ı transformace vektoru, jehoˇz sloˇzky jsou normálnˇe rozdˇelené a jsou nezávislé dává vektor, kter´ y má sloˇzky opˇet normálnˇe rozdˇelené se stejn´ ymi parametry a které jsou i nadále nezávislé. Za druhé, pˇri pˇredpokladu normality a nezávislosti sloˇzek vektoru E, statistika z(βˆ(LS,n) ) a jej´ı jmenovatel rT (βˆ(LS,n) ) · r(βˆ(LS,n) ) jsou statisticky nezávislé (Pitman (1937), von Neumann (1941)) a tedy (pro libovolné s ∈ N ) máme n

IE

os

rT (βˆ(LS,n) ) A r(βˆ(LS,n) )

n

os

z(βˆ(LS,n) )

= IE

n

IE

os

rT (βˆ(LS,n) ) r(βˆ(LS,n) )

.

Koneˇcnˇe pak máme n

IE

os

z(βˆ(LS,n) )

n

=

IE IE

rT (βˆ(LS,n) ) A r(βˆ(LS,n) )

n

os

os

rT (βˆ(LS,n) ) r(βˆ(LS,n) )

a Durbin-Watsonovo lemma pak dovoluje nalézt horn´ı a doln´ı hranici pro momenty statistiky z. Budeme-li specifikovat alternativu k nezávislosti Ei ’s jako autoregresn´ı proces, tj. Ei = θEi−1 + Vi , i = 2, 3, . . . , n, |θ| < 1 budeme-li pˇredpokládat, ˇze {Vi }∞ avisl´ ych a stejnˇe rozdˇelen´ ych náhodn´ ych i=1 je posloupnost nez´ veliˇcin - podrobnˇe budou autoregresn´ı procesy probrány v dalˇs´ım d´ıle skript, pˇr´ım´ y v´ ypoˇcet dává (prázdná m´ısta opˇet reprezentuj´ı nuly) 

1 −θ  −θ 1 + θ2 −θ    −θ 1 + θ2 −θ Aθ =  .. .. ..  . . .   −θ 1 + θ2 −θ  −θ 1

     .    

Okamˇzitˇe je vidˇet, ˇze θ = 1 a θ = −1 pˇredstavuj´ı dva limitn´ı pˇr´ıpady, které sice jiˇz nejsou akceptovatelné z hlediska teorie pravdˇepodobnosti v tom smyslu, ˇze nen´ı zaruˇcena stacionarita posloupnosti náhodn´ ych fluktuac´ı, ale z hlediska budov´ an´ı naˇseho testu je m˚ uˇzeme pˇrijmout. Pro prvn´ı dostaneme   1 −1  −1  2 −1     −1 2 −1     A1 =  .. .. ..  . . .    

a z(βˆ(LS,n) ) =

−1 Pn−1 i=1



2 −1  −1 1

[ri (βˆ(LS,n) ) − ri+1 (βˆ(LS,n) )]2 Pn r2 (βˆ(LS,n) ) i=1 i

91

(93)

=2−

2

Pn−1 i=1

ri (βˆ(LS,n) ) ri+1 (βˆ(LS,n) ) + r12 (βˆ(LS,n) ) + rn2 (βˆ(LS,n) ) Pn r2 (βˆ(LS,n) ) i=1 i

≈ 2(1 − ρˆ). Uvaˇzujeme-li druhou krajn´ı moˇznost, totiˇz θ = −1, dostaneme z(βˆ(LS,n) ) ≈ 2(1 + ρˆ). To umoˇzn ˇuje zverifikovat, ˇze statistiky, které vyjdou at’ uˇz z jednoho ˇci druhého extrému, jsou schopny se vypoˇrádat souˇcasnˇe jak s pozitivn´ı tak negativn´ı závislost´ı mezi po sobˇe následuj´ıc´ımi náhodn´ ymi fluktuacemi, tj. jak s pˇr´ıpadem θ > 0 tak s θ < 0, nebot’ obˇe obsahuj´ı koeficient korelace. Historické d˚ uvody vedly k tomu, ˇze se oznaˇcen´ı Durbin-Watsonova statistika vˇzilo pro (93) (viz napˇr. Kmenta (1986), Judge a kol. (1980) nebo Zvára (1989)), avˇsak d˚ usledek toho je, ˇze je nutné uˇz´ıvat nejen kritické hodnoty implikované “doln´ı” a “horn´ı” statistikou zL (βˆ(LS,n) ) a zU (βˆ(LS,n) ) (ve smyslu, kter´ y byl v´ yˇse podrobnˇe popsán) a které m˚ uˇzeme napˇr. oznaˇcit zL a zU , ale i kritické hodnoty, které jsou zrcadlov´ ym obrazem tˇechto prv´ ych. To znamená, ˇze (LS,n) ˆ zam´ıtneme hypotézu o nezávislosti rezidu´ı pokud z(β ) < zL nebo z(βˆ(LS,n) ) > 4 − zL , a naopak nezam´ıtneme tuto hypotézu pokud z(βˆ(LS,n) ) ∈ (zU , 4 − zU ). V ostatn´ıch pˇr´ıpadech je v´ ysledek “nerozhodnut´ y” (bohuˇzel). Pokud chceme rozhodnout i v takovém pˇr´ıpadˇe, nezb´ yv´ a neˇz vypoˇc´ıtat pˇresné kritické hodnoty, které jsou pˇrirozenˇe závislé na matici plánu X. Postup je následuj´ıc´ı. Nejprve se vypoˇc´ıt´ a (LS,n) (LS,n) ˆ ˆ stˇredn´ı hodnota IE z(r(β )) a rozptyl var(z(r(β ))) dle následuj´ıc´ıch vztah˚ u: IE z(r(βˆ(LS,n) )) =

2(n − 1) − tr(X T AX(X T X)−1 ) n−p

a var(z(r(βˆ(LS,n) ))) =

n h i o 2 Q∗ − 2(n − 1) − tr(X T AX(X T X)−1 ) IE z(r(βˆ(LS,n) )) . (n − p)(n − p + 2)

V´ yraz pro Q∗ je ponˇekud sloˇzitˇejˇs´ı, totiˇz h

i2

2(3n − 4) − 2tr(X T A2 X(X T X)−1 ) + tr( X T AX(X T X)−1 ), nicménˇe s pomoc´ı dneˇsn´ı v´ ypoˇcetn´ı techniky nen´ı nepˇrekonatelnou pˇrek´ aˇzkou. Potom se vyˇreˇs´ı rovnice IE z(r(βˆ(LS,n) )) = a + bIE z ∗ a var(z(r(βˆ(LS,n) ))) = b2 var(z ∗ ). Hodnoty IE z ∗ a var(z ∗ ) se najdou v tabulkách napˇr. v ˇcl´ anku Judge a kol. (1982). nalezen´ı pˇresné kritické hodnoty ∗ zC = a + bzU .

92

Zb´ yv´ a

Povˇsimnˇeme si jeˇstˇe, ˇze zat´ımco matice Aθ je pro θ ∈ (−1, 1) regulárn´ı, matice A1 uˇz regulárn´ı nen´ı (snadno se to nahlédne z rozkladu matice A(θ), kter´ y vypadá takto. Aθ = PθT · Pθ , kde

 √     Pθ =     



1 − θ2 −θ

1 −θ

1 .. .

    ,    

..

. −θ

1 −θ

1

a kde Pθ je evidentnˇe singulárn´ı pro |θ| = 1).

6.4 6.4.1

Nez´ avislost vysvˇ etluj´ıc´ıch promˇ enn´ ych a n´ ahodn´ ych fluktuac´ı vod a pˇ r´ıklady situac´ı poruˇ sen´ı nez´ avislosti

V modelu, ve kterém pˇredpokládáme, ˇze je nˇekter´ a vysvˇetluj´ıc´ı promˇenn´ a statisticky závisl´ a (LS,n) ˆ s náhodn´ ymi fluktuacemi, nelze zaruˇcit, ˇze bude odhad β obecnˇe nestrann´ y a konsistentn´ı. Tento fakt neb´ yvá v nˇekter´ ych uˇcebnic´ıch regresn´ı anal´ yzy zd˚ uraznˇen a m˚ uˇze vést k nevhodné aplikaci metody nejmenˇs´ıch ˇctverc˚ u. Snaha o vypoˇr´ ad´ an´ı se s touto situac´ı vedla vlastnˇe k rozvinut´ı celé jedné partie teorie regresn´ı anal´ yzy, totiˇz k teorii instrument´ aln´ıch promˇenných (instrumental variables). Budeme uvaˇzovat model Yi = XiT β 0 + Ei ,

i = 1, 2, . . . , n,

(94)

kde pouˇzit´ı velkého p´ısmena pro nosiˇce Xi naznaˇcuje, jak plyne z u ´mluvy na zaˇc´ atku skript, ˇze budeme uvaˇzovat náhodné nosiˇce (vysvˇetluj´ıc´ı promˇenné). Jiˇz na samém zaˇc´ atku tohoto textu (viz text pod vztahem (1)) jsme pˇredeslali, ˇze pokud máme náhodné nosiˇce, obvykle pˇredpokládáme, ˇze tyto nosiˇce a náhodné fluktuace v jednom ˇr´ adku modelu (94) jsou nekorelované, tj. IE {Xi Ei } = 0. Pˇredpokládejme, ze tomu ¾ tak nen´ı, tj. IE {Xi Ei } = IE {X1 E1 } 6= 0, ½ ˇ a ˇze posloupnost vektor˚ u {Zi }∞ i=1 =

³

XiT , Ei

´T ∞

je posloupnost´ı nezávisl´ ych a stejnˇe

i=1

rozdˇelen´ ych n´ yoch vektor˚ u. Bez podstatné u ´jmy na obecnosti pˇredpokládejme, ˇze matnahodn´ T ice Q = IE Xi Xi je regulárn´ı. V´ yˇse jsme si ˇrekli, ˇze pokud by byla singulárn´ı, obvykle vypust´ıme nˇekter´ y sloupec matice X a v tom pokraˇcujeme tak dlouho, aˇz dosáhneme regularity matice Q. Aplikace silného zákona velk´ ych ˇc´ısel dáv´ a n 1 T 1X X X = lim Xi XiT = Q s.j., n→∞ n n→∞ n i=1

lim

coˇz je ekvivalentn´ı s

µ

lim

n→∞

Podobnˇe

1 T X X n

¶−1

= Q−1

s.j..

n 1 T 1X X E = lim Xi Ei = IE {X1 E1 } n→∞ n n→∞ n i=1

lim

93

s.j. .

To ovˇsem implikuje µ

lim

n→∞

1 T X X n

¶−1

1 T X E = Q−1 IE {X1 E1 } n

s.j. .

Koneˇcnˇe pak dostaneme vztah ³

βˆ(LS,n) = β 0 + X T X µ 0

=β +

1 T X X n

¶−1

1 T X E = β0 + n

´−1

µ

XT E

1 T X X n

¶−1

n 1X Xi Ei , n i=1

(95)

kter´ y napov´ıdá, ˇze lim βˆ(LS,n) = β 0 + Q−1 IE {X1 E1 }

n→∞

s.j.,

(96)

tj. napov´ıdá, ˇze βˆ(LS,n) nen´ı konsistentn´ım odhadem. Diskuze nestrannosti nen´ı tak jednoduchá, ale spoˇcten´ım stˇredn´ı hodnoty ve vztahu (95) dostaneme (µ

IE βˆ(LS,n) = β 0 + IE

1 T X X n

¶−1

n 1X Xi Ei , n i=1

)

.

Dopln´ıme-li tedy v´ yˇse pouˇz´ıvané pˇredpoklady napˇr. o to, ˇze kXi k = O(1)½(coˇz z hlediska aplikac´ ı ¾ ³ ´−1 nen´ı siln´ y pˇredpoklad), zjist´ıme, ˇze βˆ(LS,n) nen´ı ani nestrann´ y, nebot’ IE X T E 6= 0. XT X S daty, pro která je lépe pˇredpokládat, ˇze adekvátn´ım modelem pro nˇe je model, ve kterém jsou náhodné fluktuace statisticky závislé na nˇekteré vysvˇetluj´ıc´ı promˇenné, se m˚ uˇzeme setkat pomˇernˇe ˇcasto. Jedna moˇznost je, ˇze ze samé podstaty situace toto plyne, ˇze napˇr. rozptyl ˇci jiná charakteristika (napˇr.ˇsikmost) náhodn´ ych fluktuac´ı je ovlivnˇena velikost´ı vysvˇetluj´ıc´ı promˇenné. Snad nejˇcastˇeji uvádˇen´ ym pˇr´ıkladem modelu, ve kterém jsou vysvˇetluj´ıc´ı veliˇciny a náhodné fluktuace závislé, je model s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı vysvˇetluj´ıc´ı veliˇciny. Tento model bude vˇsak podrobnˇeji probrán patrnˇe aˇz v dalˇs´ım d´ıle skript. Uvaˇzujme tedy jednoduch´ y model s geometrickou strukturou regresn´ıch koeficient˚ u Yi = β

∞ X

λj−1 xi−j+1 + Ei .

(97)

j=1

Je okamˇzitˇe vidˇet, ˇze pro tento tvar modelu neum´ıme pˇr´ımo nalézt odhady parametr˚ u. Pouˇzijme tedy tento postup. Pro i − 1 piˇsme λYi−1 = β

∞ X

λj xi−j + Ei .

(98)

j=1

Odeˇcteme-li (98) od (97), dostaneme Yi = λYi−1 + βxi + Ei − λEi−1 . Dostali jsme tedy model Yi = λYi−1 + βxi + Ui , 94

(99)

ve kterém vysvˇetluj´ıc´ı promˇenná Yi−1 je korelovan´ a s Ui , tj. s náhodnou veliˇcinou representuj´ıc´ı fluktuaci v modelu. Budeme-li uvaˇzovat model, kter´ y poˇc´ıt´ a s náhodn´ ymi chybami mˇeˇren´ı u vysvˇetluj´ıc´ıch promˇenn´ ych, zjist´ıme, ˇze se opˇet nevyhneme závislosti mezi nosiˇci a disturbancemi. Probereme tento model pro jednoduch´ y pˇr´ıpad jedné vysvˇetluj´ıc´ı promˇenné. Zobecnˇen´ı na v´ıce promˇenn´ ych bude probráno v následuj´ıc´ı kapitole. Budeme tedy uvaˇzovat model Yi = α + βχi + Ui (100) a Xi = χi + Vi ,

(101)

pro i = 1, 2, . . . , n. Jin´ ymi slovy to znamená, ˇze pˇredpoklád´ ame, ˇze vysvˇetlovan´ a veliˇcina Yi je lineárnˇe závislá na vysvˇetluj´ıc´ı veliˇcinˇe χi a absolutn´ım ˇclenu α, ale naˇse mˇeˇren´ı veliˇciny χi je zat´ıˇzeno náhodnou chybou Vi , takˇze registrujeme nam´ısto n´ı veliˇcinu Xi . Povˇsimnˇeme si, ˇze to, zda Ui representuje také chybu mˇeˇren´ı veliˇciny Yi , ˇci také náhodnou fluktuaci (pˇr´ıpadnˇe pouze náhodnou fluktuaci) a veliˇcina Yi (pˇrirozenˇe vˇcetnˇe této fluktuace) je mˇeˇrena pˇresnˇe, je v tomto kontextu irelevantn´ı. Vysvˇetleme jeˇstˇe, ˇze t´ım, ˇze ˇrekneme, ˇze je veliˇcina Yi mˇeˇrena pˇresnˇe, m´ın´ıme to, ˇze chyba jej´ıho mˇeˇren´ı je (podstatnˇe) menˇs´ı neˇz chyba mˇeˇren´ı veliˇciny χi , pˇr´ıpadnˇe podstatnˇe menˇs´ı neˇz náhodné fluktuace vstupuj´ıc´ı do modelu. Pro zaj´ımavost uved’me, ˇze patrnˇe nejznámˇejˇs´ım modelem tohoto typu v ekonomii je Friedmanova hypotéza stálého d˚ uchodu (Friedman (1957)), kde Yi pˇredstavuje (pozorovanou) spotˇrebu v obdob´ı i a χi d˚ uchod v tomtéˇz obdob´ı, a pˇredpoklád´ ame, ˇze spotˇreba je lineárnˇe závisl´ a na stálém d˚ uchodu, zat´ımco my pozorujeme moment´ aln´ı d˚ uchod Xi . Podotknˇeme vˇsak, ˇze se dnes má za prokázané, ˇze empirická data tuto hypotézu pˇr´ıliˇs nepodpoˇrila. Po dosazen´ı z (101) do (100), z´ıskáme nov´ y model Yi = α + β(Xi − Vi ) + Ui = α + βXi + Ui − βVi = α + βXi + Zi , kde jsme Zi oznaˇcily jakési “nové” disturbance v modelu. Snadno se vˇsak pro nˇe nalezne IE {Xi · Zi } = IE {(χi + Vi )(Ui − βVi )} = −βIE Vi2 . Jak uˇz bylo v´ yˇse konstatováno, vztah (96) ukazuje, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u koeficient˚ u α a β nen´ı v tomto pˇr´ıpadˇe nestrann´ y ani konsistentn´ı a detailnˇejˇs´ı anal´ yza ukáˇze, ˇze dojde k podcenˇen´ı β. V závˇeru tˇechto skrip bude jeden paragraf vˇenov´ an také systému simult´ an´ıch rovnic. Ukáˇzeme si tam, ˇze tyto rovnice popisuj´ı rovnˇeˇz situaci, kdy náhodné fluktuace v modelu jsou korelov´ any s vysvˇetluj´ıc´ımi promˇenn´ ymi a tedy pˇr´ım´ a aplikace metody nejmenˇs´ıch ˇctverc˚ u vede k odhad˚ um, které nejsou obecnˇe ani konsistentn´ı ani nestranné. ˇ Cten´ aˇr se nyn´ı pˇrirozenˇe zeptá, jak danou situaci rozpoznat, tj. jak zjistit, zda nosiˇce a náhodné fluktuace jsou (ne)závislé a jak postupovat v pˇr´ıpadˇe, ˇze bude hypotéza o nezávislosti zam´ıtnuta. Odpovˇed’ na prvou otázku nab´ız´ı Hausman˚ uv test, k ˇreˇsen´ı problému závislosti fluktuac´ı na vysvˇetluj´ıc´ıch promˇenn´ ych pak byla vyvinuta metoda instrument´ aln´ıch promˇenn´ ych. Bylo by nepochybnˇe logické vˇenovat se nejprve Hausmanovu testu a poté vyloˇzit, alespoˇ n 95

v základech, teorii instrumentáln´ıch promˇenn´ ych. Vzhledem k tomu, ˇze vˇsak Hausman˚ uv test vyuˇz´ıvá odhadu regresn´ıch koeficient˚ u, kter´ y byl poˇr´ızen metodou instrument´ aln´ıch promˇenn´ ych, vyloˇz´ıme nejprve tuto metodu. 6.4.2

Instrument´ aln´ı promˇ enn´ e

Pˇredstavme si, ˇze odhad metodou nejmenˇs´ıch ˇctverc˚ u mohl b´ yt odvozen také následuj´ıc´ım, ponˇekud intuitivn´ım zp˚ usobem. Vztah (7) znásob´ıme zleva v´ yrazem n1 X T a dostaneme 1 T 1 1 X Y = X T Xβ 0 + X T E. n n n Budeme-li pˇredpokládat, ˇze 1 T X E=0 n→∞ n lim

v pravdˇepodobnosti,

budou m´ıt v´ yrazy

1 T 1 T X Y a X Xβ 0 n n stejnou limitu v pravdˇepodobnosti. To m˚ uˇze vést k návrhu odhadu µ

βˆ =

1 T X X n

¶−1

³ ´−1 1 T X Y = XT X X T Y = βˆ(LS,n) n

a k vyˇsetˇrován´ı jeho vlastnost´ı. Pˇredpokládejme, ˇze máme k dispozici matici Z takovou, ˇze lim

n→∞

1 T Z E=0 n

a znásoben´ım vztahu (7) zleva v´ yrazem

1 T nZ


(102)

odvod’me

1 T 1 1 Z Y = Z T Xβ 0 + Z T E. n n n Nyn´ı zjiˇst’ujeme, ˇze v´ yrazy 1 T Z Y n

1 T Z Xβ 0 n

a

maj´ı také stejnou limitu v pravdˇepodobnosti. “Analogicky” jako v pˇr´ıpadˇe odhadu metodou nejmenˇs´ıch ˇctverc˚ u, zaved’me odhad µ

βÎP =

1 T Z X n

¶−1

³ ´−1 1 T Z Y = ZT X Z T Y. n

(103)

Tomuto odhadu budeme ˇr´ıkat odhad metodou instrument´ aln´ıch promˇenných. Podobnˇe jako v´ yˇse pro odhad metodou nejmenˇs´ıch ˇctverc˚ u pro nˇej nalezneme alternativn´ı vyjádˇren´ı ³

βÎP = Z T X

´−1

Z

T

³

T

´

0

µ 0

X β +E =β +

1 T Z X n

¶−1

1 T Z E, n

(104)

které ukazuje, ˇze odhad βÎP je konsistentn´ı . Opˇet s nestrannost´ı je to ponˇekud komplikovanˇejˇs´ı, ale lze nalézt (slabé) pˇredpoklady, za kter´ ych plat´ı. Lze pˇrirozenˇe tuˇsit, ˇze odhad βÎP bude t´ım 96

lepˇs´ı (ve smyslu eficience), ˇc´ım v´ıce bude Z a X korelov´ ano (myˇsleno po sloupc´ıch), tj. pokud T T T T Z X dobˇre nahrad´ı X X a Z Y nahrad´ı X Y , samozˇrejmˇe pˇri zachov´ an´ı podm´ınky (102). V nˇekter´ ych monografi´ıch je vyloˇzena trochu obecnˇejˇs´ı inspirace vedouc´ı k zaveden´ı metody instrumentáln´ıch promˇenn´ ych. Vyjádˇr´ıme-li náhodné fluktuace jako E = Y − Xβ 0 , vid´ıme, ˇze (102) je ekvivalentn´ı 1 lim Z T (Y − Xβ 0 ) = 0 v pravdˇepodobnosti. (105) n→∞ n Mohli bychom tedy studovat odhad, kter´ y by “minimalizoval” Z T (Y −Xβ) (´ uvozovky naznaˇcuj´ı fakt, ˇze na pravé stranˇe vztahu (105) stoj´ı nulov´ y vektor a tedy to, ˇze Z T (Y − Xβ) bude minimáln´ı je tˇreba uvést na pravou m´ıru). Lze to udˇelat napˇr´ıklad takto. Zvol´ıme nˇekterou pozitivnˇe definitn´ı matici W a budeme minimalizovat kvadratickou formu (Y − Xβ)T ZW Z T (Y − Xβ).

(106)

Z v´ yˇse odvozeného tvrzen´ı o spektráln´ım rozkladu pozitivnˇe definitn´ı matice vypl´ yv´ a existence matice S takové, ˇze ZW Z T = S T S a uvaˇzujeme-li nyn´ı transformované veliˇciny Y˜ = SY

˜ = SX X

a

˜ = S(Y − Xβ), tj. (Y˜ − Xβ) ˜ T (Y˜ − Xβ) ˜ budeme m´ıt Y˜ − Xβ = (Y − Xβ)T ZW Z T (Y − Xβ) a z v´ yˇse uvedené teorie plyne, ˇze minimum se nab´ yv´ a pro ³

˜ T X) ˜ −1 X ˜ T Y = X T ZW Z T X βÎP = (X

´−1

X T ZW Z T Y.

Právˇe “odvozen´ y” odhad pˇripom´ıná zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u, kter´ y je T diskutován na jiném m´ıstˇe tˇechto skript. Pokud bude matice Z X regulárn´ı a tedy invertovatelná, dostaneme ³

βÎP = X T ZW Z T X

´−1

³

³

X T ZW Z T Y = Z T X

= ZT X

´−1

´−1

³

W −1 X T Z

³

W −1 W Z T Y = Z T X

´−1

´−1

X T ZW Z T Y

Z T Y,

tj. dojdeme k odhadu (103), a nav´ıc zjist´ıme, ˇze postup je nezávisl´ y na volbˇe matice W . Vˇenujme se jeˇstˇe na chv´ıli modelu s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı vysvˇetluj´ıc´ı veliˇciny, kter´ y vedl ke vztahu (99). Poloˇz´ıme-li totiˇz    

Y =

Y2 Y3 .. .

   , 

Yn dojdeme k odhadu



Y1 Y2 .. .

  

X=

X2 X3 .. .





   

a

Yn−1 Xn "

ˆ λ βˆ

#

  

Z=

X1 X2 .. .

X2 X3 .. .

   , 

Xn−1 Xn

³

= ZT X

´−1

Z T Y.

Je jasné, ˇze podm´ınka (102) je splnˇena a nav´ıc odhad má nadˇeji b´ yt dosti eficientn´ı, nebot’ instrumentáln´ı promˇenná X je patrnˇe dosti korelov´ ana s Y , viz Liviatan (1963). ˇ Cten´ aˇre, kter´ y se chce o metodˇe instrument´ aln´ıch promˇenn´ ych dovˇedˇet v´ıce odkazujeme na monografii Bowden, Turkington (1984). Dovolme si jeˇstˇe pˇripomenout, ˇze se v nˇekter´ ych 97

uˇcebnic´ıch spojuje vybudován´ı teorie instrument´ aln´ıch promˇenn´ ych právˇe s modelem s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı vysvˇetluj´ıc´ı veliˇciny. Zdá se vˇsak, ˇze se tato metoda objevila daleko dˇr´ıve neˇz byl studován tento model, totiˇz jiˇz v práci Working (1927), viz také Goldberger (1972). Nyn´ı se jiˇz budeme moci vˇenovat v´ ykladu testu, kter´ y napov´ı, zda je vhodné pouˇz´ıt metodu instrumentáln´ıch promˇenn´ ych, ˇci zda vystaˇc´ıme s metodou nejmenˇs´ıch ˇctverc˚ u aplikovanou na p˚ uvodn´ı data. 6.4.3

Hausman˚ uv test nez´ avislosti regresor˚ u a n´ ahodn´ ych fluktuac´ı

Test byl navrˇzen J. Hausmanem v roce 1978 a lze jej nalézt napˇr. v monografii Greene (1993) a samozˇrejmˇe také v p˚ uvodn´ım ˇclánku Hausman (1978). Protoˇze byl test p˚ uvodnˇe urˇcen pro to, aby rozpoznal zda se jedná o mˇeˇren´ı vysvˇetluj´ıc´ıch promˇenn´ ych s chybami, ˇcasto je uvádˇen jako Specification test for measurement error, nicménˇe jak snadno nahlédnete z n´ıˇze uvedeného v´ ykladu, ve skuteˇcnosti se opravdu testuje, kter´ y model je adekvátnˇejˇs´ı pro daná data. Heuristika, která vedla k zaveden´ı testu byla následuj´ıc´ı: Jestliˇze jsou vysvˇetluj´ıc´ı promˇenné nezávislé na náhodn´ ych fluktuac´ıch (to budeme oznaˇcovat ve zb´ yvaj´ıc´ı ˇcásti této kapitoly jako hypotézu H0 ), jsou oba odhady βˆ(LS,n) i βÎP konsistent´ımi odhady β 0 . Prvn´ı z nich je samozˇrejmˇe eficientn´ı, zat´ımco druh´ y tuto vlastnost obecnˇe nemá. IP ˆ Uvˇedomme si vˇsak, ˇze obvykle uvádˇené tvrzen´ı, ˇze β je neeficientn´ı nen´ı tak zcela správné, nebot’ obecnˇe i βˆ(LS,n) je instrumentáln´ım odhadem vzhledem k tomu, ˇze jsme nezakázali volbu Z = X, byt’ je to ˇcistˇe akademická moˇznost. Na druhé stranˇe pokud náhodné fluktuace a vysvˇetluj´ıc´ı promˇenné jsou statisticky závislé, je prvn´ı odhad (pokud plat´ı napˇr. (14) ) nutnˇe vych´ ylen´ y, zat´ımco ten druh´ y, pokud je Z zvolena tak, aby platilo (102), je konsistentn´ı. Potom ovˇsem za platnosti hypotézy H0 je vektor q = βˆ(LS,n) − βÎP konsistentn´ım odhadem nulového vektoru. Pokud tato hypotéza neplat´ı bude norma tohoto vektoru obecnˇe nenulov´ a. Zaloˇz´ıme-li tedy test na nˇekteré kvadratické formˇe T W = q Aq bude jej´ı hodnota malá v pˇr´ıpadˇe platnosti hypotézy H0 , ale velk´ a v opaˇcném pˇr´ıpadˇe. J. Hausmanovi se podaˇrilo ukázat, ˇze pokud za A zvol´ıme [V1 − V0 ]−1 , kde V0 a V1 jsou po ˇradˇe n-násobky odhad˚ u asymptotické kovarianˇcn´ı matice odhad˚ u βˆ(LS,n) a βÎP , je L(W ) ≈ χ2 (p). Naznaˇc´ıme si jak lze vést d˚ ukaz tohoto v´ ysledku. Nejprve pˇripomeˇ nme, ˇze pod asymptotickou covarianˇcn´ı matic´ı odhadu βˆ(n) se rozum´ı covarianˇcn´ı matice pˇ r´ısluˇsnéhoásymptotického rozdˇelen´ı normovaného vektoru βˆ(n) − β 0 , tj. ob√ ³ ˆ(n) √ vykle vektoru n β − β 0 , nebot’ obvykle dáv´ ame pˇrednost n-konsistentn´ım odhad˚ um. V pˇredcházej´ıc´ım textu jsme v pˇr´ıpadˇe odhadu βˆ(LS,n) uˇz´ıvali pro tuto asymptotickou kovarianˇcn´ı matici oznaˇcen´ı Q (viz (15) ). Vzhledem k (104) máme

³

´−1

³

´−1

βÎP − β 0 = Z T X Odtud

³

βÎP − β 0

´³

βÎP − β 0

´T

= ZT X

a koneˇcnˇe ³

n · varas (βÎP ) = σ 2 Z T X

´−1

T

³

T

Z Z X Z

´−1

·

=σ 98

2

T

Z T E. ³

Z T EE T Z X T Z ³

T

X Z Z Z

´−1

T

´−1

Z X

¸−1

³

ˆTX ˆ = σ2 X

´−1

,

ˆ je projekce kde subindex as naznaˇcuje, ˇze se jedná o asymptotickou covarianˇcn´ı matici a kde X ³

´−1

matice X pomoc´ı projekˇcn´ı matice Z Z T Z Z T . Odhadem asymptotické kovarianˇcn´ı mat³ ´ ³ ´−1 √ ˆTX ˆ ice vektoru n βÎP − β 0 tedy m˚ uˇze b´ yt s2 X . Protoˇze dále je n · varas (βˆ(LS,n) ) = σ 2 (X T X)−1 , máme nq T

·³

ˆTX ˆ X

´−1

W = √ ³ ÎP n β − βˆ(LS,n)

´T ·³

³

− XT X s2

ˆ ˆTX X

´−1

³

− XT X

=

´−1 ¸−1

q

´−1 ¸−1 √ ³

n βÎP − βˆ(LS,n)

´

.

s2

V Lemmatu 2 jsme ukázali, ˇze pokud jsou fluktuace mezi sebou vzájemnˇe nezávislé, stejnˇe rozdˇelen´ e a maj´ı nulovou stˇredn´ı hodnotu a koneˇcn´ y pozitivn´ı rozptyl, a plat´ı-li nav´ıc (15), pak ´ √ ³ ˆ(LS,n) 0 je n β − β asymptoticky normáln´ı s nulovou stˇredn´ı hodnotou a covarianˇcn´ı matic´ı 2 −1 σ Q . D˚ ukaz vycházel ze vztahu (18). Nyn´ı ze vztahu (18) a (104) dostaneme "µ

βÎP − βˆ(LS,n) =

1 T Z X n

¶−1

1 T Z − n

µ

1 T X X n

¶−1

#

1 T X E n

a tedy n·varas (βÎP − βˆ(LS,n) ) = σ 2 (·

=σ

2

T

³

T

X Z Z Z

·³

´−1

T

Z X

´−1

¸−1

T

Z X

³

T

T

Z − X X ³

T

− X X

´−1

X

T

¸ ·³

)

´−1

X

T

= σ2

T

Z X ·³

´−1

ˆTX ˆ X

³

T

T

Z − X X

´−1

³

− XT X

´−1

´−1 ¸

X

T

¸T

.

Zopakován´ım d˚ ukazu Lemmatu 2 (s mal´ ymi modifikacemi) pˇri pˇredpokladu, ˇze existuje limita "µ

lim n→∞

1 ˆT ˆ X X n

¶−1

µ

−

1 T X X n

¶−1 #

= QZX ,

´ √ ³ kde QZX je regulárn´ı matice, bychom nalezli, ˇze vektor ζ = n βÎP − βˆ(LS,n) je asymptoticky normálnˇe rozdˇelen s nulov´ ym vektorem stˇredn´ıch hodnot a s asymptotickou kovarianˇcn´ı 2 matic´ı σ QZX . Vzhledem k tomu, ˇze matice QZX je symetrick´ a a pozitivnˇe definitn´ı, existuje ortogonáln´ı (nikoliv nutnˇe ortonormáln´ı) matice P tak, ˇze

P T QZX P = I

(107)

a tud´ıˇz náhodn´ y vektor ξ = σ1 P T ζ je asymptoticky rozdˇelen dle p-rozmˇerného normáln´ıho rozdˇelen´ı s nulov´ ym vektorem stˇredn´ıch hodnot a s jednotkovou kovarianˇcn´ı matic´ı. To ovˇsem implikuje, ˇze statistika ξ T ξ je asymptoticky rozdˇelena dle χ2 (p). Invertov´ an´ım vzhatu (107) −1 −1 T −1 dostaneme [P ] QZX P = I a tedy koneˇcnˇe ³

βÎP − βˆ(LS,n)

´T ·³

ˆTX ˆ X

´−1

W =

³

− XT X s2

99

´−1 ¸−1 ³

βÎP − βˆ(LS,n)

´

=

´T ·³ ´−1 ¸−1 √ ³ ´ ´−1 ³ √ ³ ÎP 1 ˆT ˆ 1 T (LS,n) ˆ ÎP − βˆ(LS,n) X X n β −β X X − n β n n

s2

1 T −1 −1 ζ QZX ζ = ξ T [P −1 ]T Q−1 ξ = ξ T ξ. ZX P σ2 V pˇr´ıpadˇe, ˇze se jedná o jednoduchou regresi, pak je Hausman˚ uv test ekvivalentn´ı testu v´ yznamnosti koeficientu γ v modelu ≈

Yi = β0 + β1 xi + γ u î + ²i , i = 1, 2..... kde u î , i = 1, 2, ... jsou rezidua z´ıskan´ a po projekci vysvˇetluj´ıc´ı veliˇciny x na instrument´ aln´ı veliˇcinu z, která je v tomto pˇr´ıpadˇe pˇrirozenˇe skal´ arn´ı. 6.4.4

Z´ avˇ er

Z v´ yˇse uvedeného textu je zˇrejmé, ˇze metoda instrument´ aln´ıch promˇenn´ ych nemá nepochybnˇe charakter “kuchaˇrky”, tj. nepˇredstavuje návod, co a jak by se mˇelo udˇelat, zejména nedáv´ a návod, jak zvolit instrumenty. To m˚ uˇze zp˚ usobit, ˇze jsou instrumenty zvoleny tak, ˇze eficience odhadu je velmi malá neboli rozptyl odhadu βÎP je znaˇcn´ y a tedy konkrétn´ı hodnoty odhad˚ u IP ˆ regresn´ıch koeficient˚ u metodou instrument´ aln´ıch promˇenn´ ych, tj. sloˇzky vektoru β , mohou b´ yt velmi vzdáleny skuteˇcn´ ym hodnotám regresn´ıch koeficient˚ u. Pochopitelnˇe, ˇze pˇredpoklád´ ame, ˇze jsme v situaci, kdy regresory a náhodné fluktuace jsou opravdu závislé a pouˇzit´ı metody instrumentáln´ıch promˇenn´ ych je nam´ıstˇe. Pˇredpokládejme dále, ˇze d´ıky závislosti regresor˚ u a náhodn´ ych fluktuac´ı je odhad metodou nejmenˇs´ıch ˇctverc˚ u znaˇcnˇe vych´ ylen (mluv´ıme stále o konkrétn´ı ˇc´ıselné hodnotˇe odhadu pro nˇekter´ a data). Je-li tento odhad vych´ ylen “stejn´ ym smˇerem” jako odhad metodou instrument´ aln´ıch promˇenn´ ych, lze si pˇredstavit, ˇze jejich rozd´ıl bude mal´ y a Hausman˚ uv test nebude indikovat vhodnost pouˇzit´ı instrument´ aln´ıch promˇenn´ ych. Lze si snadno pˇredstavit i opaˇcnou situaci, totiˇz ˇze regresory a náhodné fluktuace jsou nezávislé, ale d´ıky ˇspatné volbˇe instrument˚ u bude odhad βÎP znaˇcnˇe vych´ ylen´ y. Hausman˚ uv test vˇsak poˇc´ıtá s t´ım, ˇze právˇe tento odhad je nevych´ ylen´ y a pokud je rozd´ıl tohoto odhadu a odhadu metodou nejmenˇs´ıch ˇctverc˚ u velk´ y, indikuje vych´ ylenost tohoto druhého odhadu, a tedy také závislost regresor˚ u a náhodn´ ych fluktuac´ı. Z toho, co bylo právˇe ˇreˇceno plyne, ˇze je tˇreba volbˇe instrument˚ u vˇenovat mimoˇr´ adnou pozornost a pokusit se naj´ıt takové, které jsou opravdu co nejv´ıce korelov´ any s regresory. Zprávou, která nás vˇsak nepotˇeˇs´ı je to, ˇze ani to nemus´ı postaˇcit. Staˇc´ı si totiˇz uvˇedomit, ˇze odhad pomoci instrumentáln´ıch promˇenn´ ych je odhadem poˇr´ızen´ ym vlastnˇe jinou metodou neˇz jsou nejmenˇs´ı ˇctverce aplikované na p˚ uvodn´ı data. Pak jiˇz staˇc´ı vz´ıt v u ´vahu v´ ysledek prezentovan´ y napˇr. ve V´ıˇsek (1997 d, e), kter´ y ˇr´ıká, ˇze bez ohledu na poˇcet pozorov´ an´ı mohou dva konzistentn´ı odhady dávat dva velmi odliˇsné v´ ysledky, nebot’ kaˇzd´ y z tˇechto odhad˚ u “dáv´ a pˇrednost” reprezentaci (ˇci chcete-li, vysvˇetlen´ı) dat pomoci jiného regresn´ıho modelu. K tomu, aby nenastal tento na prvn´ı pohled podivn´ y jev bychom potˇrebovali stejnomˇernou konvergenci vˇsech konsistentn´ıch odhad˚ u ve vˇsech regresn´ıch modelech, a to je evidentnˇe pˇr´ıliˇs siln´ y poˇzadavek. Proto je tˇreba k pouˇzit´ı instrumentáln´ıch promˇenn´ ych pˇristupovat se stejnou opatrnost´ı jako k pouˇzit´ı robustn´ıch metod, o kter´ ych se velice krátce zm´ın´ıme na konci skript. Nepochybnˇe vˇsak o metodˇe instrumentáln´ıch promˇenn´ ych plat´ı totéˇz co o robustn´ıch metodách. To, ˇze je nezbytné je pouˇz´ıvat 100

s (alespoˇ n urˇcitou dávkou) opatrnosti, by nás nemˇelo zrazovat od jejich pouˇzit´ı, nebot’ pokud je nepouˇzijeme a situace bude taková, ˇze by je bylo nam´ıstˇe pouˇz´ıt, dá nám metoda nejmenˇs´ıch ˇctverc˚ u zavádˇej´ıc´ı v´ ysledky.

´ ˇ MODELU UVAHY O SENSITIVITE

7

V této kapitole se budeme vˇenovat studiu situac´ı, které se obvykle shrnuj´ı pod pojem sensitivita (ˇci chcete-li citlivost) modelu a rozum´ı se t´ım to, jaké zmˇeny ve vlastnostech odhadu (metodou nejmenˇs´ıch ˇctverc˚ u) se objev´ı, pokud bude napˇr. do modelu zaˇrazen jin´ y neˇz “správn´ y” poˇcet vysvˇetluj´ıc´ıch veliˇcin, jak´ y vliv na odhad m˚ uˇze m´ıt jedno, ˇci v´ıce (vlivn´ ych) pozorov´ an´ı, jak m˚ uˇze to ˇci ono kritérium ovlivnit v´ ybˇer “optimáln´ıho” modelu atd. (viz napˇr. Chatterjee, Hadi (1988) ). Nejprve se budeme vˇenovat situaci, kdy je model podurˇcen, ˇci pˇreurˇcen. Co t´ım bude rozumnˇeno bude ihned patrné z formáln´ıho zadán´ı situace.

7.1

Efekt podurˇ cen´ı

Situac´ı, kdy budeme mluvit o podurˇcen´ı (underfitting), budeme rozumˇet to, ˇze do matice plánu nezahrneme vˇsechny regresory, které by “tam mˇely b´ yt”. Form´ alnˇe to znamená, ˇze budeme ∞ pˇredpokládat, ˇze náhodné veliˇciny {Yn }n=1 jsou rozdˇeleny dle modelu (1)

Yi = [xi ]T β (1) + Ei ,

i = 1, 2, . . . ,

(108)

avˇsak ve skuteˇcnosti budou tyto generov´ any modelem (1)

(2)

Yi = [xi ]T β (1) + [xi ]T β (2) + Ei ,

i = 1, 2, . . . ,

(109)

(1)

kde, podobnˇe jako v´ yˇse, X (1) bude oznaˇcovat matici jej´ıˇz i-t´ y ˇr´ adek je roven [xi ]T (podobnˇe pro X (2) ). Oba pˇr´ıpady, tj. jak model ((108), tak (109)) budou uvaˇzov´ any s pevn´ ymi (tj. nestochastick´ ymi) nosiˇci. Tuto situaci, tj. kdyˇz si mysl´ıme, ˇze data lze vysvˇetlit “menˇs´ım” modelem (108) aˇc vhodn´ ym by byl (109), budeme oznaˇcovat jako podurˇcen´ı modelu. Nejprve si pˇriprav´ıme pomocné technické tvrzen´ı. TVRZEN´ I 11 Necht’ t ∈ Rn je n´ ahodný vektor s navz´ ajem nez´ avislými stejnˇe rozdˇelenými souˇradnicemi. Pˇredpokl´ adejme, ˇze existuje IE (t1 − IE t1 )2 = σ02 ∈ (0, ∞) a Q necht’ je ˇctvercov´ a matice typu n × n. Potom IE tT Qt = σ02 tr(Q) + µT Qµ, kde µ = IE t. D˚ ukaz. V´ ypoˇctem se ovˇeˇr´ı, ˇze IE tT Qt = IE = IE

n X n X

n

(t − µ)T Q(t − µ) + tT Qµ + µT Qt − µT Qµ

qij (t − µ)i (t − µ)j + µT Qµ = σ02

i=1 j=1

n X n X

o

δij qij + µT Qµ,

i=1 j=1

kde δij je Kroneckerovo δ, tj. δij = 1 pro i = j a δij = 0 pro i 6= j. 101

2

ˇ VETA 3 Necht’ n´ ahodné veliˇciny {Yi }∞ any modelem (109). Potom odhad i=1 jsou generov´ ³

βˆLS(1) = [X (1) ]T X (1)

´−1

[X (1) ]T Y

je nestranným odhadem β (1) pouze tehdy, je-li β (2) = 0 nebo je-li [X (1) ]T X (2) = 0. Podobnˇe ³ ´2 P (1) 2 rezidu´ aln´ı souˇcet ˇctverc˚ u SR(1) = ni=1 Yi − [xi ]T βˆLS(1) je nestranným odhadem (n − p)σ 2 ·

³

pouze tehdy, kdyˇz I − X (1) [X (1) ]T X (1)

´−1

¸

[X (1) ]T X (2) β (2) = 0.

D˚ ukaz. Snadno ovˇeˇr´ıme, ˇze stˇredn´ı hodnota odhadu βˆLS(1) je ³

IE βˆLS(1) = [X (1) ]T X (1) ³

= [X (1) ]T X (1)

´−1

³

´−1

[X (1) ]T IE Y

´

³

[X (1) ]T X (1) β (1) + X (2) β (2) = β (1) + [X (1) ]T X (1)

´−1

[X (1) ]T X (2) β (2) .

Pokud chceme dosáhnout nestrannosti, pak rozumnˇe pˇripadaj´ı v u ´vahu jen dvˇe moˇznosti: • bud’ β (2) = 0 • nebo [X (1) ]T X (2) = 0. Jejich diskuzi provedeme v následuj´ıc´ı poznámce. Nyn´ı oznaˇc´ıme symbolem P (1) projekˇcn´ı ³

matici pˇr´ısluˇsnou k matici plánu X (1) , tj. P (1) = X (1) [X (1) ]T X (1) pˇredpˇripravené technické tvrzen´ı. Dostaneme n

2 IE SR(1) = IE

³

´

Y T I − P (1) Y

³

= σ 2 tr(I − P (1) ) + X (1) β (1) + X (2) β (2)

´T ³

I − P (1)

³

´−1

[X (1) ]T , a pouˇzijeme

o

´³

´

X (1) β (1) + X (2) β (2) ,

´

= σ 2 (n − p) + [β (2) ]T [X (2) ] I − P (1) X (2) β (2) = σ 2 (n − p) +

n³

´

I − P (1) X (2) β (2)

oT ³

´

I − P (1) X (2) β (2) . 2

´ POZNAMKA 5 Pokud bude β (2) = 0 nebo X (2) = 0, model (109) splýv´ a s modelem (108) (1) T (2) a tedy tˇeˇzko mluvit o podurˇcen´ı. Zbýv´ a tedy moˇznost [X ] X = 0, coˇz m˚ uˇzeme dokonce docela dobˇre zaˇr´ıdit, aby platilo. Vezmeme-li totiˇz nam´ısto vysvˇetluj´ıc´ıch promˇenných obsaˇzených v matici X (2) pˇr´ısluˇsné vektory rezidu´ı, které dostaneme pˇri projekci tˇechto veliˇcin do pros˜ (2) = 0 (kde X ˜ (2) oznaˇcuje matici poskl´ toru M(X (1) ), dos´ ahneme toho, ˇze [X (1) ]T X ad´ anou z pˇr´ısluˇsných vektor˚ u rezidu´ı), a nav´ıc model je pak, co do schopnosti vysvˇetlen´ı veliˇciny Y , ekvivalentn´ı modelu (109). 2 Dos´ ahnout nestrannosti odhadu em modelu je ponˇekud obt´ıˇznˇejˇs´ı. Výˇse uvedené ´ cen´ ³ σ v podurˇ (2) (1) X β (2) = 0 pro vˇsechna β (2) (nebot’ β (2) nezn´ ame). vztahy napov´ıdaj´ı, ˇze mus´ı platit I − P ³

´

³

´

To znamen´ a, ˇze I − P (1) X (2) mus´ı být nulové. To je ekvivalentn´ı s X (2) ⊥ I − P (1) , ale to znamen´ a, ˇze X (2) ⊂ M(X (1) ). Pak je ovˇsem rozˇs´ıˇren´ı modelu o X (2) pouze form´ aln´ı. Zbýv´ a tedy (2) (2) β = 0, ale pak je rozˇs´ıˇren´ı modelu o X opˇet jen form´ aln´ı. Nav´ıc je celý postup kontroverzn´ı (2) ˜ uˇz na prvn´ı pohled. Pokud totiˇz chceme u ´pravou X na X (2) zajistit nestrannost βˆLS(1) vlastnˇe pˇripouˇst´ıme, ˇze plat´ı model (109). Pak je ovˇsem nesmyslné odhadovat model (108). 102

7.2

Efekt pˇ reurˇ cen´ı

V tomto odstavci uvaˇzujme situaci, která je v jistém smyslu symetrick´ a ˇci chcete-li opaˇcn´ a k té, kterou jsme studovali v pˇredchoz´ım odstavci. V takové situaci budeme pˇrirozenˇe mluvit o pˇreurˇcen´ı modelu (overfitting). Pˇredpˇripravme si opˇet nejprve pomocné tvrzen´ı. TVRZEN´ I 12 Necht’ sloupce matice X (1) jsou line´ arnˇe nez´ avislé na sloupc´ıch matice X (2) , kter´ a je plné hodnosti, pak W = [X (2) ]T (I − P (1) )X (2) je regul´ arn´ı. D˚ ukaz. Je-li W singulárn´ı, pak lze nalézt (alespoˇ n jeden) vektor v 6= 0 tak, ˇze W v = 0, tj. T také v W v = 0. Dosad´ıme-li za W , dostaneme ³

0 = v T W v = v T [X (2) ]T (I − P (1) )X (2) v = (I − P (1) )X (2) v ³

´T ³

´

(I − P (1) )X (2) v .

´

Potom ovˇsem také (I − P (1) )X (2) v = 0. Pˇredpokládali jsme vˇsak, ˇze X (2) m´ a plnou hodnost a tedy jeho sloupce jsou lineárnˇe nezávislé. To implikuje fakt, ˇze bez ohledu na to, kter´ y vektor ³ ´ (2) (1) (2) (2) (1) v byl vybrán, je X v 6= 0. Pak ovˇsem máme I − P ⊥X v, tj. X v ⊂ M(X ), a to znamená, ˇze alespoˇ n jeden ze sloupc˚ u matice X (1) lze vyjádˇrit jako kombinaci sloupc˚ u z X (2) . Doˇsli jsme tedy ke sporu s pˇredpoklady tvrzen´ı. 2 Abychom mohli vyslovit pˇrehlednˇe dalˇs´ı vˇetu budeme potˇrebovat nˇekter´ a dalˇs´ı oznaˇcen´ı. Necht’ ·³ ´T ³ ´¸−1 ³ ´T LS(1,2) (1) (2) (1) (2) ˆ β = X ,X X ,X X (1) , X (2) Y a pˇripomeˇ nme, ˇze jsme v pˇredchoz´ı vˇetˇe oznaˇcili ³

βˆLS(1) = [X (1) ]T X (1)

´−1

[X (1) ]T Y.

Dále pak oznaˇcme βˆ(1) a βˆ(2) ty ˇcásti odhadu βˆLS(1,2) , které odpov´ıdaj´ı β (1) a β (2) , tj. βˆ(1) obsahuje prvn´ıch p souˇradnic vektoru βˆLS(1,2) zat´ımco βˆ(2) obsahuje zbytek. Koneˇcnˇe necht’ ³

A = [X (1) ]T X (1) tvrzen´ı.

´−1

[X (1) ]T X (2) a pˇripomeˇ nme, ˇze matice W byla zavedena v pˇredchoz´ım

ˇ VETA 4 Necht’ n´ ahodné veliˇciny {Yi }∞ any modelem (108). Necht’ d´ ale matice i=1 jsou generov´ (1) (2) (1) X a X v modelu (109) jsou typ˚ u (n×p) a (n×q) a necht’ matice (X , xd) je plné hodnosti. Pak m´ ame βˆ(1) = βˆLS(1) − Aβˆ(2) a

³

´

βˆ(2) = W −1 [X (2) ]T I − P (1) Y. D´ ale IE βˆ(1) = β (1) ,

IE βˆ(2) = 0,

kde σ ˆ2 =

Y T (I − P ) Y n−p−q 103

a

IE σ ˆ 2 = σ2,

a

³

P = X

(1)

,X

(2)

´ ·³

X

(1)

,X

(2)

´T ³

X

(1)

,X

(2)

´¸−1 ³

X (1) , X (2)

´T

.

Koneˇcnˇe pak 



 [X (1) ]T X (1) + AW −1 AT  

−AW −1  

var(βˆLS(1,2) ) = σ 2 

. 

−W −1 AT

W −1

D˚ ukaz. Piˇsme normáln´ı rovnice ve tvaru [X (1) ]T X (1) βˆ(1) + [X (1) ]T X (2) βˆ(2) = [X (1) ]T Y

(110)

[X (2) ]T X (1) βˆ(1) + [X (2) ]T X (2) βˆ(2) = [X (2) ]T Y.

(111)

a S pˇrihlédnut´ım k v´ yˇse zavedenému oznaˇcen´ı, dostaneme z (110) βˆ(1) = βˆLS(1) − Aβˆ(2) a tedy

(112) ³

´

[X (2) ]T X (2) βˆ(2) = [X (2) ]T Y − [X (2) ]T X (1) βˆLS(1) − Aβˆ(2) . Dosad´ıme-li nyn´ı za matici A, dojdeme k ³

[X (2) ]T X (2) βˆ(2) − [X (2) ]T X (1) [X (1) ]T X (1)

´−1

[X (1) ]T X (2) βˆ(2)

= [X (2) ]T Y − [X (2) ]T X (1) βˆLS(1) . Odtud

³

´

³

´

[X (2) ]T I − P (1) X (2) βˆ(2) = [X (2) ]T I − P (1) Y a tedy

³

´

βˆ(2) = W −1 [X (2) ]T I − P (1) Y.

(113)

Snadno ovˇeˇr´ıme, ˇze IE βˆ(2) = IE ³

n

³

´

W −1 [X (2) ]T I − P (1) Y

o

³

´

= W −1 [X (2) ]T I − P (1) X (1) β (1) = 0,

´

nebot’ I − P (1) X (1) = 0. Posledn´ı rovnost plyne z faktu, ˇze projekce matice do podprostoru, kter´ y sama generuje dá právˇe tuto matici. To vˇsak implikuje to, ˇze IE βˆ(1) = β (1) (viz (112)). Spoˇcteme-li stˇredn´ı hodnotu reziduáln´ıho souˇctu ˇctverc˚ u 2 IE SR = IE Y T (I − P ) (I − P ) Y = IE Y T (I − P ) Y

n

= IE ³

³

tr Y T (I − P ) Y

ó

n

= IE

´

³

tr Y Y T (I − P )

ó

= tr IE Y Y T (I − P ) = σ 2 tr (I − P ) = σ 2 (n − p − q),

104

2 je nestrann´ zjist´ıme, ˇze σ ˆ 2 = (n − p − q)−1 SR ym odhadem rozptylu rezidu´ı. Ze vztahu (113) vypl´ yvá, ˇze

³

´

³

´

³

var(βˆ(2) ) = W −1 [X (2) ]T I − P (1) var(Y ) I − P (1)

´T

X (2) W −1

= σ 2 W −1 [X (2) ]T I − P (1) [X (2) ]T W −1 = σ 2 W −1 a cov(βˆLS(1) , βˆ(2) ) = cov

½³

³

[X (1) ]T X (1)

= σ 2 [X (1) ]T X (1)

´−1

³

´−1

´

¾

[X (1) ]T Y, W −1 [X (2) ]T I − P (1) Y ³

´

[X (1) ]T I − P (1) X (2) W −1 = 0,

³

´

kde jsme opˇet pouˇzili faktu, ˇze [X (1) ]T I − P (1) = 0. Nakonec spoˇcteme rozptyl odhadu βˆ(1) var(βˆ(1) ) = var(βˆLS(1) − Aβˆ(2) ) = var(βˆLS(1) ) + Avar(βˆ(2) )AT = σ 2

½³

[X

(1) T

] X

(1)

´−1

¾

+ AW

−1

T

A

a jeho kovarianci s odhadem βˆ(2) cov(βˆ(1) , βˆ(2) ) = cov(βˆLS(1) − Aβˆ(2) , βˆ(2) ) = −σ 2 AW −1 . 2 ´ POZNAMKA 6 Vzhledem k tomu, ˇze rozd´ıl kovarianˇcn´ıch matic var(βˆ(1) ) a var(βˆLS(1) ) je roven σ 2 AW −1 AT , coˇz je semidefinitn´ı matice, bude “rozptyl” odhadu regresn´ıch koeficient˚ u v pˇreurˇceném modelu alespoˇ n tak velký jako v modelu spr´ avném. Nav´ıc je tento odhad, pr´ avˇe tak 2 jako odhad σ ˆ , nestranný. Jiˇz výˇse jsme naznaˇcili, ˇze lze, co se týk´ a matematické str´ anky vˇeci, bez problém˚ u zaˇr´ıdit, aby var(βˆ(1) ) = var(βˆLS(1) ) a to tak, ˇze dos´ ahneme nulovosti matice A. Uk´ azali jsme, ˇze staˇc´ı nahradit matici X (2) matic´ı ˜ (2) , kter´ X a bude sloˇzena z rezidu´ı, které z´ısk´ ame po projekci sloupc˚ u matice X (2) do prostoru generovaného matic´ı X (1) , tj. ³ ´ ˜ (2) = I − P (1) X (2) X ³

(pˇripom´ın´ ame, ˇze P (1) = X (1) [X (1) ]T X (1)

´−1

[X (1) ]T ). Snadno se ovˇeˇr´ı, ˇze nový model

˜ (2) β (2) + E Y = X (1) β (1) + X ³

´

³

´

˜ (2) ). To znabude pˇrirozenˇe ekvivalentn´ı modelu (109), nebot’ M( X (1) , X (2) ) = M( X (1) , X men´ a, ˇze v pˇr´ıpadˇe, kdy si nejsme moc jisti, zda je uˇziteˇcné zaˇradit do modelu dalˇs´ı vysvˇetluj´ıc´ı promˇenné, m˚ uˇzeme se zabezpeˇcit proti zvˇetˇsen´ı rozptylu odhad˚ u regresn´ıch koeficient˚ u pr´ avˇe popsaným postupem. M˚ uˇze se vˇsak pˇrirozenˇe st´ at, ˇze nový model p˚ ujde (ponˇekud) h˚ uˇre interpretovat neˇz ten p˚ uvodn´ı. Interpretace modelu, tedy pˇresnˇeji interpretace výsledk˚ u regresn´ı analýzy vˇsak nen´ı nikdy zcela jednoduch´ a a vyˇzaduje urˇcité zkuˇsenosti, které se sp´ıˇse neˇz ˇcten´ım skript z´ıskaj´ı zpracov´ av´ an´ım soubor˚ u dat. Nicménˇe se pokus´ıme v tˇechto skriptech uvést na pravou m´ıru alespoˇ n nejbˇeˇznˇeji se objevuj´ıc´ı ˇspatné interpretace výsledk˚ u. 105

7.3

Vliv jednoho pozorov´ an´ı

Na závˇer této kapitoly si pov´ıme nˇeco o charakteristice, která byla pouˇz´ıv´ ana jako diagnostick´ y nástroj snad od samého poˇcátku budov´ an´ı regresn´ı anal´ yzy. Je snadno pochopitelné, ˇze souˇcasnˇe s rozˇsiˇrován´ım naˇsich vˇedomost´ı o regresn´ım modelu, respektive o vlastnostech odhadu jeho koeficient˚ u, byla snaha nalézt jednoduché nástroje na rozpoznán´ı vlivn´ ych bod˚ u, tj. bod˚ u, které nejv´ıce ovlivˇ nuj´ı v´ ysledky regresn´ı anal´ yzy. TVRZEN´ I 13 Oznaˇcme odhad poˇr´ızený metodou nejmenˇs´ıch ˇctverc˚ u pro data, ze kterých bylo (LS,n,`) ˆ vypuˇstˇeno `-té pozorov´ an´ı, symbolem β . Potom plat´ı ³

βˆ(LS,n) − βˆ(LS,n,`) = X { ` }T X { ` }

´−1

´

³

x` Y` − xT` βˆ(LS,n) ,

(114)

kde X { ` } je matice, kter´ a vznikne z matice X po vypuˇstˇen´ı xT` , tj. `-tého ˇr´ adku a kde jsme pˇredpokl´ adali, ˇze tato matice je také plné hodnosti. D˚ ukaz. Normáln´ı rovnice, ze kter´ ych vyˇc´ıslujeme odhady βˆ(LS,n) a βˆ(LS,n,`) maj´ı tvar p X n X

(LS,n)

xij xik βˆk

=

k=1 i=1

a

p n X X

n X

xij Yi

j = 1, 2, . . . , p

i=1 n X

(LS,n,`) xij xik βˆk =

k=1 i=1,i6=`

xij Yi

j = 1, 2, . . . , p.

i=1,i6=`

Jejich porovnán´ım dostaneme p n X X

³

xij xik

´

(LS,n) (LS,n,`) βˆk − βˆk = x`j Y` −

p X

(LS,n) x`k βˆk

j = 1, 2, . . . , p,

k=1

k=1 i=1,i6=`

nebo ekvivalentnˇe pomoc´ı maticového formalizmu ³

´

³

´

X { ` }T X { ` } βˆ(LS,n) − βˆ(LS,n,`) = x` Y` − xT` βˆ(LS,n) . 2 ´ POZNAMKA 7 Pr´ avˇe dok´ azané tvrzen´ı usnadˇ nuje nalezen´ı “nejvlivnˇejˇs´ıho” pozorov´ an´ı. Potvrzuje totiˇz intuitivn´ı domˇenku, ˇze nejvlivnˇejˇs´ı bod bude mezi tˇemi, které maj´ı velk´ a rezidua a souˇcasnˇe jsou daleko od poˇc´ atku (nenechme se m´ ast t´ım, ˇze ve vztahu vystupuje x` a nikoliv nˇejak´ a { ` }T { ` } standardizovan´ a hodnota; o standardizaci se postar´ a X X ). Samozˇrejmˇe tento postup, (LS,n) ˆ hledaj´ıc´ı bod, jehoˇz vypuˇstˇen´ı maximalizuje normu rozd´ılu β − βˆ(LS,n,`) , nevezme v u ´vahu glob´ aln´ı vztahy mezi pozorov´ an´ımi, nebot’ ty se mohou navz´ ajem “maskovat”. Jinými slovy, pokud mezi daty bude v´ıce vlivných bod˚ u tvoˇr´ıc´ıch skupinu, mus´ıme pouˇz´ıt analogii (114) odvozenou pro (LS,n,J ) ˆ odhad β , tj. pro odhad poˇr´ızený pro data, ze kterých jsme vylouˇcili pozorov´ an´ı s indexy, které jsou ve zvolené indexové mnoˇzinˇe J . Pomˇernˇe snadno lze nalézt i asymptotické rozdˇelen´ı pro rozd´ıl ´ √ ³ (LS,n) nλ βˆ − βˆ(LS,n,Jk ) , kde Jk je k-ˇclen´ a podskupina index˚ u z {1, 2, . . . , n}, pro poˇcet vylouˇcených bod˚ u k jdouc´ıch do k nekoneˇcna souˇcasnˇe se zvyˇsuj´ıc´ım se poˇctem pozorov´ an´ı n (napˇr. n → λ ∈ (0, 1) pro n → ∞), viz V´ıˇsek (1997 a). 106

´ POZNAMKA 8 Dˇr´ıve se v literatuˇre ˇcasto pˇripom´ınalo, ˇze pro výpoˇcet matice

³

X { ` }T X { ` }

´−1

, m˚ uˇze být výhodné pouˇz´ıt vztahu ³

X { ` }T X { ` }

´−1

³

= XT X

´−1

³

+

XT X

´−1

³

x` xT` X T X

1 − xT` (X T X)−1 x`

´−1

,

který plyne z obecné rovnosti ³

A + BDC T

´−1

³

= A−1 − A−1 B D−1 + C T A−1 B

´−1

C T A−1 ,

kterou snadno ovˇeˇr´ıme vyn´ asoben´ım matic´ı A + BDC T . V souˇcasné dobˇe, kdy m´ ame k dispozici výkonnou výpoˇcetn´ı techniku, m˚ uˇze m´ıt tato moˇznost význam snad jen v pˇr´ıpadˇe, kdy zpracov´ av´ ame stovky ˇci tis´ıce dat.

7.4

Kolinearita

Pˇri u ´vahách o tom, jak dalece je regresn´ı model, pˇr´ıpadnˇe metoda nejmenˇs´ıch ˇctverc˚ u citlivá na T r˚ uzné situace, bychom mˇeli také prostudovat situaci, kdy matice X X je “na pokraji singularity”. V´ yraz na pokraji singularity naznaˇcuje, ˇze matice X T X je stále jeˇstˇe regulárn´ı, nicménˇe jej´ı regularita je v jistém smyslu jiˇz tak problematick´ a, ˇze m˚ uˇze b´ yt poˇc´ atkem pot´ıˇz´ı pˇri zpracován´ı dat. Pˇripomeˇ nme, ˇze v tom pˇr´ıpadˇe mluv´ıme o matici X jako ˇspatnˇe podm´ınˇené a napˇr. T inverze matice X X, kterou potˇrebujeme k v´ ypoˇctu odhadu metodou nejmenˇs´ıch ˇctverc˚ u, m˚ uˇze zp˚ usobit (v´ ypoˇcetn´ı) pot´ıˇze. N´ıˇze vˇsak uvid´ıme, ˇze to nejsou jediné pot´ıˇze, které m˚ uˇze ˇspatná podm´ınˇenost matice X zp˚ usobit. Nastane-li právˇe popsaná situace, mluv´ıme o kolinearitˇe (collinearity) ˇci multikolinearitˇe matice plánu. Jin´ ymi slovy, kolinearitou ˇci multikolinearitou budeme rozumˇet pouze situaci, kdy alespoˇ n jeden ze sloupc˚ u matice X je skoro lineárn´ı kombinac´ı tˇech ostatn´ıch. Slov´ıˇcko “skoro” se v tomto kontextu ˇspatnˇe formalizuje a tak se o to nebudeme ani pokouˇset a radˇeji uvedeme nˇejaké diagnostické nástroje, které to rozpoznaj´ı. Dˇr´ıve neˇz tak vˇsak uˇcin´ıme, uvedeme jednu poznámku a pˇriprav´ıme si jeden technick´ y nástroj. ´ POZNAMKA 9 Nˇekteré publikace vˇenované regresn´ı analýze zahrnuj´ı pod pojem kolinearita také situaci, kdy nosiˇce jsou opravdu line´ arnˇe z´ avislé, tj. kdy matice pl´ anu nen´ı plné hodnosti (a mluv´ı o perfektn´ı kolinearitˇe). Na druhé stranˇe to v praxi, aˇz snad na pˇr´ıpady, kdy se br´ an´ıme z v´ıce ˇci ˇcastˇeji vˇsak ménˇe pochopitelných d˚ uvod˚ u ke zmˇenˇe matice pl´ anu, vede k vylouˇcen´ı nˇekterého sloupce z matice, ˇc´ımˇz jsou pˇr´ısluˇsné problémy vyˇreˇseny. Nebudeme tedy situaci, kdy je matice X ne´ uplné hodnosti jako kolinearitu vn´ımat, tj. budeme nad´ ale pˇredpokl´ adat, ˇze matice T X X je regul´ arn´ı. Jak vˇsak uvid´ıme, ˇreˇsen´ı problému kolinearity, tak jak si o nˇem budeme d´ ale pov´ıdat, se uk´ aˇze býti schopno ˇreˇsit i situaci “plné” line´ arn´ı z´ avislosti nosiˇc˚ u. Nyn´ı si koneˇcnˇe “pˇredpˇr´ıprav´ıme” v´ yˇse sl´ıben´ y pomocn´ y technick´ y nástroj. TVRZEN´ I 14 Necht’ matice A typu (n × m), n ≥ m, m´ a hodnost r ≤ m. Potom existuj´ı matice P, S a Q typ˚ u (n × m), (m × m) a (m × m) a plat´ı: • Matice S je diagon´ aln´ı, 107

• A = P SQT , • P T P = Im a • QT Q = QQT = Im . Tomuto rozkladu, tj. rovnosti A = P SQT , se ˇcasto ˇr´ık´ a singul´ arn´ı rozklad matice. D˚ ukaz. Definujme Q = (q1 , q2 , . . . , qm ), kde qi , i = 1, 2, . . . , m jsou vlastn´ı ortogonáln´ı vektory matice AT A s vlastn´ımi ˇc´ısly λ1 ≥ λ2 ≥ . . . ≥ λm ≥ 0. Posledn´ı nerovnost plyne z faktu, ˇze matice AT A je nutnˇe pozitivnˇe semidefinitn´ı. Existence takov´ ych vektor˚ u plyne z Tvrzen´ı 6. Bez u ´jmy na obecnosti pˇredpokládejme, ˇze vektory maj´ı jednotkovou délku. Ttak je lze samozˇrejmˇe vˇzdy zvolit. Z pˇredpokladu, ˇze hodnost matice A je r plyne, ˇze prvn´ıch r vlastn´ıch √ n ˇc´ısel je nenulov´ ych a m˚ uˇzeme tedy poloˇzit si = λi a pi = s−1 i Aqi ∈ R pro i = 1, 2, . . . , r. Potom dostaneme 1 T T sj qi A Aqj = qiT qj = δij . pTi pj = si sj si Dále dopln´ıme matici P ∗ = (p1 , p2 , . . . , pr ) dalˇs´ımi ortogonáln´ımi vektory jednotkové délky na matici P typu (n × m), libovolnˇe. Z volby matice Q plyne, ˇze QT Q = Im . Protoˇze matice Q je regulárn´ı a inverzn´ı matice je jen jedna, je také QQT = Im , a tedy A = AQQT = (s1 p1 , s2 p2 , . . . , sm pm )QT = P SQT , kde jsme vyuˇzili fakt, ˇze sr+1 , . . . , sm = 0. 2 ’ Vrat me se nyn´ı ke kolinearitˇe. Jaké jsou jej´ı zdroje (ˇci pˇr´ıˇciny, chcete-li) a jak ji m˚ uˇzeme rozpoznat? Jestliˇze uˇz v´ıme, ˇze naˇse data vykazuj´ı kolinearitu, a to ve stupni, kter´ y by mohl z d˚ uvod˚ u, které si dále ukáˇzeme, ovlivnit jejich zpracov´ an´ı, co bychom mˇeli podniknout? Na tyto otázky nyn´ı postupnˇe odpov´ıme. 7.4.1

Zdroje a rozpozn´ an´ı kolinearity

Jako zdroj kolinearity b´ yvá nejˇcastˇeji uvádˇena jedna z následuj´ıc´ıch pˇr´ıˇcin: • zp˚ usob sbˇeru dat, • omezen´ı v populaci, ze které byla data vyb´ır´ ana, • ˇspatná specifikace modelu. Zastavme se na chv´ıli u jednotliv´ ych pˇr´ıˇcin kolinearity. Prvn´ı z nich upozorˇ nuje na to, ˇze obˇcas urˇcité rysy nˇekteré metody sbˇeru dat mohou vést k tomu, ˇze vlastnˇe “vtiskneme” dat˚ um kolinearitu sami. Napˇr. se omez´ıme na ty prvky v nˇejaké ˇsirˇs´ı populaci, které souˇcasnˇe splˇ nuj´ı to a to, a pokud jsou tato omezen´ı zvolena tak neˇst’astnˇe, ˇze pˇredstavuj´ı nadrovinu ve faktorovém prostoru, budou data vykazovat kolinearitu. Druhá ˇr´ıˇcina je velmi podobná té prvn´ı, ale s t´ım rozd´ılem, ˇze vlastnˇe v celé populaci existuje takov´ y typ vazby, jak´ y byl v pˇredchoz´ım pˇr´ıpadˇe “neˇst’astnˇe” vybrán jako selektivn´ı pravidlo pro 108

sbˇer dat. Pak je samozˇrejmˇe zbyteˇcné shromaˇzd’ovat o jednotliv´ ych pˇr´ıpadech vˇsechny poloˇzky, naopak nˇekteré poloˇzky, které d´ıky lineárn´ı vazbˇe vlastnˇe “plynou” z hodnot jin´ ych vysvˇetluj´ıc´ıch promˇenn´ ych (jin´ ych poloˇzek) nen´ı tˇreba shromaˇzd’ovat. Koneˇcnˇe pak tˇret´ı pˇr´ıˇcina je pˇreurˇcen´ı modelu, o kterém jsme si pov´ıdali jiˇz dˇr´ıve. Podrobnou diskuzi ke vˇsem tˇemto bod˚ um uvádˇej´ı práce Mason a kol. (1975) ˇci Gunst (1983). Pˇr´ıklad dat vykazuj´ıc´ıch kolinearitu z d˚ uvodu uvedeného jako prvn´ı lze nalétz v Marquart, Snee (1975). Nyn´ı si nˇeco pov´ıme o zp˚ usobech, jak kolinearitu rozpoznat. Prvn´ı, a jak se hned ukáˇze zavádˇej´ıc´ı nápad, vezme v u ´vahu to, ˇze pokud matice plánu X nen´ı plné hodnosti, má matice T X X nulov´ y determinant. Napadne nás tedy, ˇze ˇc´ım bude matice X h˚ uˇre podm´ınˇena, t´ım bude jej´ı determinant menˇs´ı. Mohli bychom se tedy pokusit rozpoznat kolinearitu pomoci velikosti jej´ıho determinantu. Je-li vˇsak matice X T X “pouze” ˇspatnˇe podm´ınˇena, tj. sloupce v matici X jsou “témˇeˇr” lineárnˇe závislé, je determinant matice nenulov´ y a m˚ uˇze b´ yt, vynásob´ıme-li napˇr. vˇsechny prvky matice X stejn´ ym ˇc´ıslem, “udˇel´ an” libovolnˇe velk´ ym ˇci libovolnˇe mal´ ym, aniˇz by se cokoliv zmˇenilo na “stupni” závislosti mezi sloupci matice X. Totéˇz plat´ı i o vlastn´ıch ˇc´ıslech, jejichˇz hodnota m˚ uˇze b´ yt takto zvˇetˇsena ˇci zmenˇsena dle libosti. Naˇstˇest´ı je okamˇzitˇe patrné, ˇze zm´ınˇené u ´pravy matice nic nezmˇen´ı na pomˇeru vlastn´ıch ˇc´ısel, tj. jin´ ymi slovy, pomˇer kter´ ychkoliv dvou pevnˇe zvolen´ ych vlastn´ıch ˇc´ısel je hodnota absolutn´ı, nezmˇeniteln´ a násoben´ım matice. Mohli bychom tedy tento pomˇer, napˇr. pomˇer nejvˇetˇs´ıho ku nejmenˇs´ımu vlastn´ımu ˇc´ıslu matice X T X, pouˇz´ıvat jako ˇc´ıselnou charakteristiku podm´ınˇenosti této matice. Je-li totiˇz matice singulárn´ı, je alespoˇ n jedno vlastn´ı ˇc´ıslo nulové. Je-li tedy matice “na pokraji singularity”, je alespoˇ n jedno vlastn´ı ˇc´ıslo (v´ yraznˇe) menˇs´ı neˇz to nejvˇetˇs´ı, byt’ samozˇrejmˇe i to nejmenˇs´ı m˚ uˇze b´ yt znaˇcnˇe veliké. Z jak´ ychsi historick´ ych d˚ uvod˚ u (viz singulárn´ı rozklad matice) se vˇsak pouˇz´ıvá odmocnina pomˇeru vlastn´ıch ˇc´ısel. Pˇripomeˇ nme, ˇze d´ıky tomu, ˇze pˇredpoklád´ ame plnou T hodnost matice X, je matice X X positivnˇe definitn´ı a tedy má vˇsechna vlastn´ı ˇc´ısla kladná. √ Pˇredpokládejme, ˇze je oˇc´ıslujeme λ1 ≥ λ2 ≥ . . . ≥ λp > 0 a poloˇz´ıme si = λi , 1 ≤ i ≤ p. DEFINICE 3 j-tým indexem podm´ınˇenosti matice X budeme rozumˇet veliˇcinu s1 ηj = , j = 1, 2, . . . , p. sj Index podm´ınˇenosti, tentokr´ at bez pˇr´ıvlastku j-tý, matice X bude s1 κ(X) = ηp = . sp TVRZEN´ I 15 Necht’ P SQT je singul´ arn´ı rozklad matice X. Potom pro j = 1, 2, . . . , p m´ ame (LS,n)

var(βˆj

) = σ2

p X

2 s−2 i qij ,

(115)

i=1

kde qij je i, j-tý prvek matice Q. D˚ ukaz. Nˇekolikrát jsme v pˇredchoz´ım textu pouˇzili to, ˇze var(βˆ(LS,n) ) = σ 2 (X T X)−1 . Matici X T X m˚ uˇzeme psát jako QS 2 QT a tedy, uvˇedom´ıme-li si, ˇze matice Q je inverzn´ı ke QT a matice S je diagonáln´ı, máme h

(X T X)−1 = QS 2 QT

i−1

= QS −2 QT =

p X i=1

109

T s−2 i qi qi ,

kde jsme symbolicky psali S −2 nam´ısto S −1 S −1 . Posledn´ı rovnost se snadno ovˇeˇr´ı, jestliˇze rozep´ıˇseme pˇr´ısluˇsn´ y souˇcin pomoc´ı sumac´ı. 2 Ze vztahu (115) je ihned patrné, jaké jsou d˚ usledky toho, je-li alespoˇ n jedno si dosti malé. (LS,n) ˆ Je vidˇet, ˇze rozptyl var(βk ) m˚ uˇze b´ yt znaˇcnˇe velk´ y. Jak jsme pˇripomˇeli v´ yˇse, absolutn´ı velikost ˇc´ısel si lze ovlivnit znásoben´ım matice X. To znamená, ˇze lze t´ımto ovlivnit rovnˇeˇz rozptyl odhadu regresn´ıch koeficient˚ u. To samozˇrejmˇe souhlas´ı s intuitivn´ı pˇredstavou, ˇze ˇc´ım jsou body, ve kter´ ych se uskuteˇcnilo pozorov´ an´ı v´ıce vzdáleny od sebe, t´ım je odhad pˇresnˇejˇs´ı. Povˇsimnˇeme si vˇsak, ˇze to nic nemˇen´ı na relativn´ı pˇresnosti predikce hodnoty vysvˇetlované promˇenné v nˇekterém bodˇe x ∈ Rp , samozˇrejmˇe za pˇredpokladu, ˇze je cel´ y v´ ypoˇcet prov´ adˇen na dostateˇcn´ y poˇcet desetinn´ ych m´ıst tak, aby se kdesi cestou hodnˇe malé ˇc´ıslo nepovaˇzovalo za nulu. Nav´ıc (115) naznaˇcuje, ˇze pokud je jedno si malé ve srovn´ an´ı s ostatn´ımi ˇc´ısly sk , bude m´ıt i-t´ y ˇclen v souˇctu (115) mimoˇrádnou váhu a m˚ uˇze “destabilizovat” odhad. Nastane-li situace, kdy κ(X) > 100 mluv´ı se zpravidla o silné kolinearitˇe a patrnˇe jediná pomoc je nˇekter´ y sloupec matice X vypustit. Je-li κ(X) > κ, kde κ ∈ (10, 30) je jakási kritická, ale v podstatˇe individuáln´ı hodnota dle vkusu a zkuˇsenost´ı toho ˇci onoho zpracovatele dat, pouˇzije se obvykle nˇekterá metoda na potlaˇcen´ı kolinearity. 7.4.2

Hˇ rebenov´ a regrese

A. E. Hoerl a R. W.Kennard navrhli v roce 1970 jeden z moˇzn´ ych zp˚ usob˚ u, (Hoerl a Kennard (1970 a, b)) jak se vyrovnat s nepˇr´ıjemn´ ym vlivem kolinearity. Jejich návrhu se zaˇcalo ˇr´ıkat ridge regression, ˇcesky se pomalu uj´ım´ a hˇrebenov´ a regrese, nebot’ název, jak v angliˇctinˇe tak v ˇceˇstinˇe, zachycuje ten fakt, ˇze se v matici “zvedne” umˇele diagonála, tj. vytvoˇr´ı se jak´ ysi (horsk´ y) hˇreben, a t´ım se (ponˇekud) potlaˇc´ı kolinearita. Vysvˇetleme si nyn´ı podrobnˇeji, v ˇcem spoˇc´ıv´ a návrh pán˚ u Hoerla a Kennarda. Ukaˇzeme T nejprve, ˇze matice X X + δI, kde δ je (malé) pozitivn´ı ˇc´ıslo, je vˇzdy regulárn´ı, a tedy pozitivnˇe definitn´ı. Protoˇze matice X T X je symetrick´ a, plyne z Tvrzen´ı 7, ˇze X T X = QS 2 QT , kde S 2 je diagonáln´ı matice maj´ıc´ı na diagonále vlastn´ı ˇc´ısla matice X T X a QT Q = QQT = I. Vzhledem k tomu, ˇze nav´ıc pˇredpokládáme, ˇze X T X je regulárn´ı a tedy pozitivnˇe definitn´ı jsou prvky na diagonále matice S 2 kladné, byt’ patrnˇe malé. Uvˇedomme, ˇze matici X T X + δI m˚ uˇzeme 2 T T 2 ’ psát jako Q(S + δI)Q , nebot QQ = I. Je vˇsak evidentn´ı, ˇze matice Q(S + δI)QT je regulárn´ı. Kaˇz³d´ y z ˇcinitel˚ u´ v tomto souˇcinu je totiˇz také regulárn´ı. Posledn´ı rovnost vˇsak ihned T implikuje, ˇze X X + δI Q = Q(S 2 + δI), neboli, ˇze ˇc´ısla na diagonále matice S 2 + δI jsou vlastn´ımi ˇc´ısly matice X T X + δI. To vˇsak znamená, ˇze velikost tˇechto ˇc´ısel a jejich pomˇer˚ u m˚ uˇzeme mˇenit pomoc´ı volby ˇc´ısla δ, m˚ uˇzeme také mˇenit index podm´ınˇenosti této matice. A to je hlavn´ı myˇslenka hˇrebenové regrese, totiˇz umˇel´ a zmˇena pomˇeru vlastn´ıch ˇc´ısel matice jej´ıˇz inverzi hledáme. Po tˇechto pˇredbˇeˇzn´ ych u ´vahách, studujme nyn´ı nam´ısto odhadu βˆ(LS,n) = (X T X)−1 X T Y odhad ³ ´−1 βˆ(R,δ,n) = X T X + δI X T Y. ³

TVRZEN´ I 16 Vychýlen´ı odhadu βˆ(R,δ,n) je −δ X T X + δI 110

´−1

β 0 a matice stˇredn´ıch kvadrat-

ický odchylek (MSE) m´ a tvar ³

X T X + δI

´−1 h

σ 2 X T X + δ 2 β 0 [β 0 ]T

i³

X T X + δI

´−1

.

D˚ ukaz. Snadno se ovˇeˇr´ı, ˇze vych´ ylen´ı odhadu βˆ(R,δ,n) je h

i

³

IE βˆ(R,δ,n) − β 0 = X T X + δI ³

= X T X + δI

´−1 h

´−1

X T Xβ 0 − β 0

i

³

X T X − X T X − δI β 0 = −δ X T X + δI

´−1

β0.

V´ ypoˇctem m˚ uˇzeme ovˇeˇrit, ˇze pro kaˇzd´ y náhodn´ y vektor Z je matice stˇredn´ıch kvadratick´ ych odchylek ( MSE(Z) ) od pevného vektoru h rovna n

(Z − h)(Z − h)T

IE

o

n

= IE

(Z − IE Z + IE Z − h)(Z − IE Z + IE Z − h)T

o

= var(Z) + (IE Z − h)(IE Z − h)T . Nav´ıc je okamˇzitˇe patrné, ˇze ³

IE βˆ(R,δ,n) = X T X + δI ³

a tedy βˆ(R,δ,n) − IE βˆ(R,δ,n) = X T X + δI var(βˆ(R,δ,n) ) = IE

½³

´−1

³

X X + δI

³

X T Xβ 0

X T (Y − Xβ 0 ) = X T X + δI

T

= σ 2 X T X + δI

´−1

´−1

´−1

T

T

³

T

X E · E X X X + δI ³

X T X X T X + δI

´−1

´−1

X T E. Odtud

´−1 ¾

.

Koneˇcnˇe pak ³

MSE(βˆ(R,δ,n) ) = X T X + δI

´−1 h

σ 2 X T X + δ 2 β 0 [β 0 ]T

i³

X T X + δI

´−1

. 2

LEMMA 11 Necht’ model (4) m´ a plnou hodnost a necht’ IE E = 0 a IE E · E T = σ 2 I, σ 2 ∈ 2 (0, ∞). Koneˇcnˇe necht’ 0 < δ < 2 kβσ0 k2 . Potom var(βˆ(LS,n) ) − MSE(βˆ(R,δ,n) ) je pozitivnˇe definitn´ı. D˚ ukaz. Pˇriprav´ıme si nejprve následuj´ıc´ı pomocné tvrzen´ı. TVRZEN´ I 17 Necht’ C je pozitivnˇe definitn´ı matice, ˇreknˇeme typu (n×n). Potom pro libovolný vektor a ∈ Rn je aT Ca ≤ 1 pr´ avˇe tehdy, pokud je C −1 − aT a pozitivnˇe semidefinitn´ı matice. Pokud m´ a platit ostr´ a nerovnost aT Ca < 1 je nutné a staˇc´ı, aby matice C −1 − aT a byla pozitivnˇe definitn´ı.

111

D˚ ukaz. V´ıme, ˇze C lze psát jako QDQT , kde Q je regulárn´ı ortogonáln´ı matice a D je diagonáln´ı s kladn´ ymi prvky na diagonále. Fakticky jde o vlastn´ı ˇc´ısla matice C. To znamená, −1 −1 −1 je tak´ ˇze C = QD QT , kde D−1 je diagonáln´ı matice maj´ıc´ı na diagonále d−1 e ii , tj. C pozitivnˇe definitn´ı. Dokazované tvrzen´ı tedy plat´ı pro a = 0. ˜Q ˜ T , kde Q ˜ je rovnˇeˇz regulárn´ı. Potom aT Ca ≤ 1 Matice C m˚ uˇze b´ yt ovˇsem také psána jako Q ˜ ≤ 1. Z jednoduché geometrické u je ekvivalentn´ı s kQak ´vahy plyne, ˇze rozd´ıl projekˇcn´ıch matic T ˜ T ˜ −1 T ˜ T ˜ Q ˜ T Q) ˜ −1 Q ˜ T − Qa(a ˜ Q( Q Qa) a Q ,

je rovnˇeˇz projekˇcn´ı matic´ı (viz Tvrzen´ı 9). nebot’ M(Qa) ⊂ M(Q). ˜ ≤ 1, pak pro libovolné λ ∈ Rn je Plat´ı-li nyn´ı kQak ˜ TQ ˜T λ λT Qaa T ˜ T ˜ −1 T ˜ T ˜ TQ ˜ T λ. ˜ ≥ λT Qaa λT Qa(a Q Qa) a Q λ = ˜ ˜ T Qa aT Q To ovˇsem ˇr´ıká, ˇze

n

o

T ˜ T ˜ −1 T ˜ T ˜ Q ˜ T Q) ˜ −1 Q ˜ T − Qa(a ˜ 0 ≤ λT Q( Q Qa) a Q λ

n

o

˜ Q ˜ T Q) ˜ −1 Q ˜ T − Qaa ˜ TQ ˜T λ ≤ λT Q( ˜ T λ, dostaneme a tedy pro τ = Q ³

´

˜ T Q) ˜ −1 − aaT τ ≥ 0, τ T (Q coˇz vˇsak znamená, ˇze je pozitivnˇe semidefinitn´ı také ˜ T Q) ˜ −1 − aaT = C −1 − aaT . (Q Dokazujme nyn´ı opaˇcné tvrzen´ı. Necht’ C −1 − aaT je pozitivnˇe semidefinitn´ı. Pak pro vektor ˜ T Qa, ˜ at’ uˇz je nulov´ ξ=Q y ˇci nikoliv, je ³

´

³

´

³

´

˜ T Qa ˜ ˜ T Q) ˜ −1 − aaT ξ = aT Q ˜T Q ˜ (Q ˜ T Q) ˜ −1 − aaT Q 0 ≤ ξ T C −1 − aaT ξ = ξ T (Q ˜ T Q( ˜ Q ˜ T Q) ˜ −1 Q ˜ T Qa ˜ − aT Q ˜ T Qaa ˜ TQ ˜ T Qa. ˜ = aT Q ˜ leˇz´ı v prostoru M(Q), ˜ tj. Q( ˜ Q ˜ T Q) ˜ −1 Q ˜ T Qa ˜ = Qa ˜ a tedy Nyn´ı vyuˇzijeme toho, ˇze vektor Qa máme ˜ T Q( ˜ Q ˜ T Q) ˜ −1 Q ˜ T Qa ˜ − aT Q ˜ T Qaa ˜ TQ ˜ T Qa ˜ = aT Q ˜ T Qa ˜ − aT Q ˜ T Qaa ˜ TQ ˜ T Qa ˜ 0 ≤ aT Q ˜ 2 − kQak ˜ 4 = kQak ˜ 2 (1 − kQak ˜ 2 ). = kQak ˜ 2 ≤ 1, neboli aT Q ˜ T Qa ˜ = aT Ca ≤ 1. D˚ Posledn´ı nerovnost implikuje to, ˇze kQak ukaz tvrzen´ı s ostr´ ymi nerovnostmi je zaloˇzen na faktu, ˇze pro matici ·

F =

A B C D

¸

,

kde A a D jsou regulárn´ı, máme |F | = |A| · |D − CA−1 B| = |D| · |A − BD−1 C|, 112

(116)

kde |F |, |A|, atd. je determinant matice F, A, atd.. Posledn´ı rovnost se ovˇeˇr´ı takto: ¯ ¯

¯ ¯ I

|F | = ¯¯ ¯ ¯ I = ¯¯ 0

¯ ¯

¯

0 ¯¯ ¯¯ I 0 ¯¯ ¯¯ A B ¯¯ ·¯ · ¯ 0 D 0 D−1 ¯ ¯ C D ¯

¯ ¯

¯

¯

¯ ¯

¯

0 ¯¯ ¯¯ A B ¯¯ ¯¯ I 0 ¯¯ ¯¯ A − BD−1 C 0 ¯¯ · ¯ −1 = · . ¯ D D C I ¯ ¯ 0 D ¯ ¯ D−1 C I ¯

Vyuˇzijeme-li jak prvou, tak druhou rovnost z (116), dostaneme ¯ −1 ¯ C ¯ ¯ aT

¯

a ¯¯ = |C −1 |(1 − aT Ca) = |C −1 − aaT |. 1 ¯

To vˇsak dokazuje to, ˇze C −1 − aaT je singulárn´ı právˇe kdyˇz 1 = aT Ca. Koneˇcnˇe pak z faktu, ˇze pozitivnˇe semidefinitn´ı matice je pozitivnˇe definitn´ı právˇe tehdy, je-li regulárn´ı plyne druhé tvrzen´ı. 2 D˚ ukaz lemmatu 10. Pˇripomeˇ nme, ˇze v´ yraz pro kovarianˇcn´ı matici odhadu metodou nej(LS,n) ˆ menˇs´ıch ˇctverc˚ u vypadá takto var(β ) = σ 2 (X T X)−1 . Aplikac´ı Tvrzen´ı 6 dostaneme var(βˆ(LS,n) ) − MSE(βˆ(R,δ,n) ) ³

= X T X + δI

´−1 h

σ 2 (X T X + δI)(X T X)−1 (X T X + δI) −σ 2 X T X − δ 2 β 0 [β 0 ]T

³

= X T X + δI

i³

X T X + δI

´−1 h

σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T

i³

´−1

X T X + δI

´−1

.

(117)

Je-li tedy δ ∈ (0, 2σ 2 kβ 0 k−2 ), potom pro C = 12 Iδσ −2 máme [β 0 ]T 21 Iδσ −2 β 0 = 12 δσ −2 kβ 0 k2 < 1 a tedy dle Tvrzen´ı 7 je 2Iσ 2 δ −1 − β 0 [β 0 ]T pozitivnˇe definitn´ı. Pak ovˇsem i 2Iσ 2 δ − δ 2 β 0 [β 0 ]T je pro δ > 0 pozitivnˇe definitn´ı a tedy také matice σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T je pozitivnˇe definitn´ı, coˇz ovˇsem ihned implikuje, ˇze i (117) je pozitivnˇe definitn´ı.

2

TVRZEN´ I 18 Necht’ P SQT je singul´ arn´ı rozklad matice X. Potom var(βˆ(R,δ,n) ) = σ 2

p X

"

i=1

si 2 si + δ

#2

qi qiT .

D˚ ukaz. Podobnˇe jako v´ yˇse piˇsme X T X = QS 2 QT a tedy

³

X T X + δI

´−1

= Q(S 2 +

δI)−1 QT . Potom ³

βˆ(R,δ,n) = X T X + δI

´−1

X T Y = Q(S + δI)−1 QT QSP T Y = Q(S + δI)−1 SP T Y,

a koneˇcnˇe tedy var(βˆ(R,δ,n) ) = Q(S + δI)−1 SP T var(Y ) P S(S + δI)−1 QT 2

−1 2

= σ Q(S + δI)

−1

S (S + δI)

T

Q =σ

2

p X i=1

Ã

si 2 si + δ

!2

qi qiT . 2

113

´ POZNAMKA 10 Bude-li matice X T X ˇspatnˇe podm´ınˇen´ a, nalezne se mezi jej´ımi vlastn´ımi ˇc´ısly nˇekteré dosti malé, v porovn´ an´ı s ostatn´ımi. To znamen´ a, ˇze pro toto vlastn´ı ˇc´ıslo (ˇreknˇeme −1 i-té) bude si , které vystupuje v (115), dosti velké, avˇsak si (s2i +δ)−1 m˚ uˇze být opˇet naopak malé. Vzhledem k tomu, ˇze samozˇrejmˇe neznáme ani σ 2 ani kβ 0 k, nen´ı jasné, jak velké m˚ uˇze b´ yt zvoleno δ. Existuj´ı v podstatˇe dvˇe moˇznosti, jak se s t´ımto problémem vypoˇr´ adat. Jednou (R,δ,n) ˆ z moˇznost´ı je vypoˇc´ıtat β jako funkci δ pro r˚ uzné hodnoty δ a vynést grafy jednotliv´ ych (R,δ,n) ˆ sloˇzek vektoru β v závislosti na δ. Poté se doporuˇcuje zvolit δ takové, od kterého poˇc´ınaje se uˇz grafy “stabilizuj´ı”. Jinou moˇznost´ı je zvolit nˇejak δ, vypoˇc´ıtat odhad βˆ(R,δ,n) a σ ˆ 2 , a poté vˇzdy pˇrekontrolovat, zda δ < 2ˆ σ 2 kβˆ(R,δ,n) k−2 . Alternativou hˇrebenov´ ych odhad˚ u je nalezen´ı hlavn´ıch komponent matice X T X a vybudován´ı regresn´ıho modelu na tˇechto komponent´ ach. O tom si pov´ıme v dalˇs´ım odstavci. 7.4.3

Odhady s line´ arn´ımi ohraniˇ cuj´ıc´ımi podm´ınkami

Je pochopitelné, ˇze pokud pomoc´ı napˇr. faktorové anal´ yzy ˇci anal´ yzy hlavn´ıch komponent T pouˇzité pro X X by se ukázalo, ˇze “variabilita” dat maj´ıc´ıch za kovarianˇcn´ı matici právˇe X T X je vysvˇetlitelná pouze r faktory, znamená to, ˇze p − r sloupc˚ u matice X je “témˇeˇr” závisl´ ych na nˇekter´ ych r. To odpov´ıdá pˇribliˇznˇe situaci, kdy dimenze prostoru M(X) je r a nalezneme matici K tak, ˇze M(X) ∩ M(K) = ∅ a M(X ∪ K) = p a hledáme odhad modelu Y = Xβ + E,

Kβ = 0,

(118)

kde K je typu ((p − r) × p). Opˇet lze ukázat, ˇze, oznaˇc´ıme-li βˆ(C,n) odhad regresn´ıch koeficient˚ u C v tomto modelu metodou nejmenˇs´ıch ˇctverc˚ u (kde horn´ı index naznaˇcuje, ˇze jde o odhad s omezen´ımi - constraints), je var(βˆ(LS,n) ) − MSE(βˆ(C,n) ) (119) pozitivnˇe definitn´ı, opˇet samozˇrejmˇe za urˇcit´ ych podm´ınek na si , viz Zvára (1989). Nam´ısto toho, abychom uvedli pˇresn´ y d˚ ukaz tohoto tvrzen´ı, ukáˇzeme, jak takov´ y odhad s lineárn´ımi omezen´ımi vypoˇc´ıtat. Nejprve budeme studovat jednoduch´ y pˇr´ıklad, kdy omezen´ı jsou (LS,n) βˆ1 = 0, (120) tj. model bude bez absolutn´ıho ˇclenu, a p X ˆ(n)

βj

j=1

=

p X ˆ(n)

βj

= 1.

(121)

j=2

Tato u ´loha patrnˇe pocház´ı z oblasti kombinov´ an´ı pˇredpovˇed´ı ˇcasov´ ych ˇrad, napˇr. kombinov´ an´ı predikc´ı velikosti hrubého národn´ıho produktu, které byly vytvoˇreny r˚ uzn´ ymi agenturami. Vhodná kombinace je hledána pomoc´ı lineárn´ıho regresn´ıho modelu, vytvoˇreného tak, ˇze predikovan´ a ˇrada, jej´ıˇz hodnoty aˇz do souˇcasnosti známe, se zprojektuje na matici plánu, jej´ıˇz sloupce jsou tvoˇreny právˇe ˇradami pˇredpovˇed´ı predikovaného procesu, které v minulosti vydávali r˚ uzn´ı “prediktoˇri”.

114

Pˇripravme si vˇsak nejprve technick´ y nástroj. Pomˇernˇe snadno se ovˇeˇri, ˇze ³

IE

Yˆt+1 − Yt+1

´2

"

=σ

2

µh

T Xt+1

X

(t)

iT

X

(t)

#

¶−1

Xt+1 + 1 ,

(122)

kde jsme horn´ım indexem (t) u X (t) naznaˇcili, ˇze se jedná o matici plánu (která je sloˇzena z pˇredpovˇed´ı jednotliv´ ych pˇredpov´ıdatel˚ u, na m´ıstˇe sloupc˚ u) pro obdob´ı 1, 2, ...t. Dále pak Yt+1 a Yˆt+1 jsou hodnoty pˇredpov´ıdaného procesu a jeho odhadu v obdob´ı t + 1 a koneˇcnˇe Xt+1 je vektor pˇredpovˇed´ı jednotliv´ ych pˇredpov´ıdatel˚ u na obdob´ı t+1. Zapiˇsme v´ yˇse uveden´ a ohraniˇcen´ı na koeficienty regresn´ıho modelu maticovˇe. Dostaneme Cβ = κ,

(123)

kde c11 = 1, c1i = 0 pro i = 2, 3, ..., p, c21 = 0, c2i = 1 pro i = 2, 3, ..., p a κ = (0, 1)T . Naleznˇeme odhad regresn´ıch koeficient˚ u v modelu (118) a oznaˇcme predikci z´ıskanou pomoc´ı tohoto odhadu jako Y˜t+1 . Potom máme ³

Y˜t+1 − Yt+1

IE µh

−

X (t)

iT

X (t)

¶−1

"

CT C

µh

X (t)

iT

´2

(

=σ

X (t)

2

¶−1

"µ

T Xt+1

h

X

#−1

CT

(t)

iT

µh

X

X (t)

C

iT

(t)

¶−1

X (t)

¶−1

 



 Xt+1 + 1 . (124) 

To, ˇze rozd´ıl v´ yraz˚ u v (122) a (124) je nezáporn´ y, plyne z faktu, ˇze matice µh

X

(t)

iT

X

(t)

"

¶−1

C

T

µh

C

X

(t)

iT

X

(t)

#−1

¶−1

C

T

µh

C

X

(t)

iT

X

(t)

¶−1

je pozitivnˇe semidefinitn´ı (byt’ zlepˇsen´ı je ˇr´ adu 1t ; podrobnˇejˇs´ı diskuzi lze nalézt v Clemen (1986)). Vyloˇzme si nyn´ı, jak se naleznou v´ yˇse zm´ınˇené odhady regresn´ıch koeficient˚ u pro speciáln´ı ohraniˇcen´ı daná v (123). Pak si uvedeme data a ukáˇzeme, jak je velk´ y zisk - ve smyslu souˇctu ˇctverc˚ u chyb pˇredpovˇed´ı, pouˇzijeme-li obyˇcejné nejmenˇs´ı ˇctverce, tj. bez omezen´ı, ˇci odhad splˇ nuj´ıc´ı (120) a (121). Tak jako obvykle, budeme pˇredpokládat, ˇze matice plánu obsahuje v prvn´ım sloupci samé jedniˇcky, ve druhém prvn´ı vysvˇetluj´ıc´ı promˇennou, atd. . Nyn´ı ztransformujeme data následuj´ıc´ım zp˚ usobem. Necht’ pro i = 1, 2, . . . , n a j = 1, 2, . . . , p − 2 Y˜i = Yi − Xi2 ,

˜ ij = Xi,j+2 − Xi2 X

˜ β˜ + E. Koneˇcnˇe pak definujme vzájemnˇe jednoznaˇcnou a nalezneme βˆ(LS,n) pro model Y˜ = X P p−2 transformaci T z R na podprostor Rp zadan´ y podm´ınkou βˆ1 = 0 a pj=1 βˆj = 1 ˜ = βˆ1 = 0, T2 (β) ˜ = βˆ2 = 1 − T1 (β)

p−2 X

β˜j ,

˜ = βˆj = β˜j−2 , j =, 3, 4, . . . , p. Tj (β)

j=1

Potom ovˇsem

Pp

ˆ = 1, tj. omezen´ı (121) je splnˇeno. Dále (pˇripom´ın´ ame, ˇze βˆ1 = 0)

j=1 βj

n X

(Yi −

i=1

ˆ2 XiT β)

=

n X

(Yi − Xi2 βˆ2 −

i=1

p X j=3

115

Xij βˆj )2

(125)

=

n X

(Yi − Xi2 (1 −

i=1

p−2 X

β˜j ) −

j=1

p−2 X

Xi,j+2 β˜j )2 =

j=1

=

n X

n X

p−2 X

i=1

j=1

(Yi − Xi2 −

˜ ij β˜j )2 X

˜ 2, ˜ iT β) (Y˜i − X

(126)

i=1

tj. vektory βˆ∗ a β˜∗ , které minimalizuj´ı sumy (125) a (126) si navz´ ajem odpov´ıdaj´ı, tj. βˆ∗ = T (β˜∗ ). ˇ sen´ı u Reˇ ´lohy s omezen´ımi (120) a (121) nalezneme tedy snadno takto: Nam´ısto p˚ uvodn´ı matice plánu vezmeme matici, kterou dostaneme tak, ˇze vynech´ ame prvn´ı sloupec, pokud byl tvoˇren jedniˇckami, tj. pokud se poˇc´ıtalo s absolutn´ım ˇclenem, a uprav´ıme data tak, ˇze vezmeme druhou vysvˇetluj´ıc´ı promˇennou, odeˇcteme od n´ı tu prvn´ı a novˇe vzniklou promˇennou povaˇzujeme za novou prvn´ı vysvˇetluj´ıc´ı promˇennou atd. aˇz po p−2-hou novou vysvˇetluj´ıc´ı promˇennou. Podobnˇe od vysvˇetlované promˇenné odeˇcteme prvn´ı vysvˇetluj´ıc´ı a tuto transformovanou promˇennou budeme uvaˇzovat jako novou vysvˇetlovanou promˇennou. Nakonec vypoˇcteme normáln´ı (chceteli bˇeˇzn´ y) odhad metodou nejmenˇs´ıch ˇctverc˚ u a ten pak ztransformujeme zpˇet pomoc´ı v´ yˇse ˜ naznaˇcené transformace T (β). Nyn´ı se budeme vˇenovat v´ yˇse slibenému pˇr´ıkladu o v´ yvoji hrubého národn´ıho d˚ uchodu ve Spojeném královstv´ı. Data byla publikov´ ana v ˇcl´ anku Holden a Peel (1989) a popisuj´ı tedy r˚ ust hrubého národn´ıho produktu v U. K. a to od 1977/1 do 1985/2, pˇriˇcemˇz r˚ ust byl pˇrepoˇc´ıt´ an k cenám z roku 1988. Zkratky v následuj´ıc´ıch tabulkách naznaˇcuj´ı, ˇze jednotlivé pˇredpovˇedi byly vytvoˇreny tˇemito agenturami: • HCT - Henley Centre for Forecasting, • LBS - London Business School, • NI - National Institute of Economic and Social Research, • OECD - Organization for Economic Co-operation and Development a • PD - Phillips and Drew. V následuj´ıc´ı tabulce jsou uvedena data, tak jak byla publikov´ ana ˇcl´ anku v Holden a Peel (1989) a to na tˇri desetinná m´ısta, pokud ovˇsem v pˇr´ısluˇsném sloupci se neobjevilo alespoˇ n jedno ˇc´ıslo udané na v´ıce platn´ ych cifer. TABULKA 9 Ekonomický r˚ ust ve Spojeném kr´ alovstv´ı Poˇrad´ı

Obdob´ı

HCF

LBS

NI

OECD

PD

R˚ ust

1

1977/1

2.5875

2.650

1.270

1.125

-0.400

1.76899

2

1977/2

3.0375

2.360

3.310

1.000

1.000

3.62319

3

1977/3

3.4500

2.240

3.150

1.875

1.500

3.40205

4

1977/4

3.0750

2.050

2.570

1.500

-0.400

2.76075

5

1978/1

3.1000

3.470

3.460

2.875

-3.000

2.04499

6

1978/2

2.9125

3.340

1.470

2.000

2.200

3.39661

116

Ekonomický r˚ ust ve Spojeném kr´ alovstv´ı (pokraˇcov´ an´ı) Poˇrad´ı

Obdob´ı

HCF

LBS

NI

OECD

PD

R˚ ust

7

1978/3

3.2125

1.660

0.830

2.125

3.000

2.79163

8

1978/4

3.1375

2.820

2.620

1.750

4.500

2.58706

9

1979/1

2.7000

3.160

2.960

1.875

3.500

2.30461

10

1979/2

1.9250

3.100

1.980

1.500

0.900

-2.70532

11

1979/3

0.3375

-0.930

1.100

2.625

-0.400

-3.68575

12

1979/4

-0.1375

-0.100

0.820

1.000

0.800

-5.04364

13

1980/1

-1.9000

-0.980

1.850

-1.625

1.500

-3.91773

14

1980/2

-1.0125

-0.040

0.470

-0.500

-3.700

-2.58193

15

1980/3

-0.6375

-0.200

1.600

2.750

-2.600

-0.50352

16

1980/4

-0.5500

1.980

1.130

-1.000

-5.000

2.04290

17

1981/1

1.4000

2.270

-0.050

-1.000

-5.600

1.63099

18

1981/2

-0.4500

2.480

-0.230

-1.250

-4.500

2.34455

19

1981/3

0.5500

2.560

0.150

-0.250

-2.400

1.31579

20

1981/4

1.4500

2.470

0.530

0.750

-0.500

1.10111

21

1982/1

-1.7500

2.790

0.310

1.000

1.000

3.10932

22

1982/2

1.6375

3.020

1.090

1.750

1.800

2.49004

23

1982/3

1.9375

2.910

0.860

1.750

1.200

4.09591

24

1982/4

2.2875

2.180

1.850

1.625

0.400

4.05940

25

1983/1

1.6250

2.210

1.780

1.500

1.300

3.11285

26

1983/2

2.1375

2.120

1.250

1.625

2.400

2.62390

27

1983/3

2.5125

2.920

1.200

2.375

3.000

2.69714

28

1983/4

2.0875

2.430

1.100

2.250

3.400

2.66413

29

1984/1

2.5000

2.360

1.980

2.250

1.700

3.30189

30

1984/2

2.2500

4.050

3.050

1.750

3.900

4.92424

31

1984/3

2.1000

2.220

3.740

2.750

2.710

3.45794

32

1984/4

2.3500

2.180

2.950

2.000

2.980

2.78035

33

1985/1

2.8300

3.400

1.360

3.630

2.810

2.37442

34

1985/2

2.4500

2.600

1.350

2.880

2.740

1.35379

Data byla zpracována takto. Poˇc´ınaje ˇctvrtlet´ım 1982/1 byly konstruov´ any kombinované pˇredpovˇedi hrubého národn´ıho d˚ uchodu a to t´ımto zp˚ usobem. Na základˇe dat aˇz do tohoto ˇctvrtlet´ı, tj. na základˇe t prv´ ych ˇrádk˚ u TABULKY 9, a byl vypoˇcten βˆ(LS,t) a βˆ(C,t) , kde veliˇcina “R˚ ust” figurovala jako vysvˇetlovaná a veliˇciny “HCF”, “LBS”, “NI”, “OECD” a “PD” jako vysvˇetluj´ıc´ı. To odpov´ıdá myˇslence, ˇze na základˇe dat z minulosti, kdy uˇz známe v´ yvoj veliˇciny “R˚ ust” se nauˇc´ıme “co nejlépe kombinovat” pˇredpovˇedi jednotliv´ ych pˇredpov´ıdatel˚ u a ve chv´ıli, kdy tito pˇredpov´ıdatelé uvoln´ı pro veˇrejnost svoje pˇredpovˇedi na dalˇs´ı ˇctvrtlet´ı, vytvoˇr´ıme kombinované pˇredpovˇedi xTt+1 βˆ(LS,t) a xTt+1 βˆ(C,t) . 117

Na konci kaˇzdého ˇctvrtlet´ı, napˇr. t + 1, kdy uˇz známe Yt+1 , posoud´ıme “kvalitu” pˇredpovˇedi, napˇr. pomoc´ı ˇctverc˚ u (Yt+1 − xTt+1 βˆ(LS,t) )2

a

(Yt+1 − xTt+1 βˆ(C,t) )2 .

(127)

D´ıky tomu, ˇze v naˇsem pˇr´ıpadˇe uˇz známe data pro celé obdob´ı 1977/1 aˇz 1985/2, m˚ uˇzeme to udˇelat naráz pro t = 21, 22, . . . , 33. Jak plyne z hlaviˇcky tabulky byly uvaˇzov´ any i modely, které splˇ nuj´ı pouze jedno z omezen´ı (120) a (121). Poznamenejme jeˇstˇe, ˇze Tabulka 10 uvád´ı v´ ysledky z´ıskané pro pˇr´ıpad, kdy byly vzaty v u ´vahu vˇsechny pˇredpovˇedi, tj. HCF, LBS, NI, OECD a PD. TABLE 10 Postupné souˇcty ˇctverc˚ u chyb pˇredpovˇed´ı Kumulativn´ı souˇcty Obdob´ı S interceptem Bez interceptu Bez S Bez S omezen´ı omezen´ımi omezen´ı omezen´ımi 1982/2 0.073 0.310 0.000 0.457 1982/3 3.527 1.304 2.076 1.269 1982/4 9.739 5.012 7.250 4.697 1983/1 12.356 6.236 9.406 5.825 1983/2 13.328 6.236 9.515 5.825 1983/3 13.370 7.012 9.748 6.620 1983/4 13.691 7.077 9.763 6.704 1984/1 15.099 7.741 11.121 7.282 1984/2 15.708 9.312 14.081 8.752 1984/3 18.479 12.556 19.705 12.553 1984/4 18.997 12.710 20.253 12.978 1985/1 21.240 15.418 21.803 14.653 1985/2 22.444 17.910 23.574 16.709 Následuj´ıc´ı tabulka uvád´ı hodnoty sum ˇctverc˚ u chyb pro vˇsechny moˇzné dvojice pˇredpovˇed´ı. Je ihned patrné, ˇze v Tabulce 10 se projevil efekt pˇreurˇcen´ı modelu, o kterém jsme si pov´ıdali v´ yˇse. Je ihned patrné, ˇze efekt pˇreurˇcen´ı zp˚ usobil to, ˇze rozptyly odhad˚ u jednotliv´ ych koeficient˚ u jsou v pˇreurˇceném modelu vˇetˇs´ı neˇz v modelu, kter´ y by mˇel “právˇe tolik vysvˇetluj´ıc´ıch promˇenn´ ych, kolik by mˇel m´ıt”. To zp˚ usobilo to, ˇze i pˇredpovˇed’ nalezená pomoc´ı pˇreurˇceného modelu, má vˇetˇs´ı rozptyl neˇz ta vytvoˇren´ a modelem, kter´ y má dostateˇcn´ y poˇcet vysvˇetluj´ıc´ıch promˇenn´ ych, ale nikoliv zbyteˇcnˇe mnoho. V naˇsem pˇr´ıkladˇe v´ ysledky uvedené v Tabulk´ ach 10 a 11 ukazuj´ı, ˇze model obsahuj´ıc´ı jako vysvˇetluj´ıc´ı promˇenné vˇsechny pˇredpovˇedi, je pˇreurˇcen´ y. Ostatnˇe, souˇctu ˇctverc˚ u chyb jednotliv´ ych pˇredpovˇed´ı ukáˇzou, ˇze vˇsechny modely obsahuj´ıc´ı v´ıce jak jeden regresor jsou v tomto pˇr´ıpadˇe pˇreurˇcené. To vˇsak necvhme pro tuto chv´ıli stranou, nebot’ to nic nezmˇen´ı na tom, co chceme demostrovat. Abychom pˇredeˇsli nedorozumˇen´ı, co Tabulka 11 zachycuje, dodejme jen, ˇze vlastnˇe kaˇzd´ y ˇrádek této tabulky je hypotetick´ ym posledn´ım ˇr´ adkem tabulky analogické k Tabulce 10, ale vytvoˇrené vˇzdy pro jednu dvojici pˇredpovˇed´ı. To znamená, ˇze v následuj´ıc´ı tabulce jsou shromáˇzdˇeny

118

kumulativn´ı souˇcty ˇctverc˚ u (127) pˇres vˇsechna v´ yˇse uveden´ a obdob´ı, tj. 33 X

(Yt+1 − xTt+1 βˆ(LS,t) )2

33 X

a

t=21

(Yt+1 − xTt+1 βˆ(C,t) )2 .

t=21

TABLE 11 Kumulativn´ı souˇcty ˇctverc˚ u chyb pˇredpovˇed´ı Pˇredpovˇedi,

S omezen´ımi

Bez omezen´ı

které byly kombinovány

Bez interceptu

S interceptem

Bez interceptu

S interceptem

HCF, LBS HCF, NI HCF, OECD HCF, PD LBS, NI LBS, OECD LBS, PD NI,OECD NI, PD OECD, PD

23.55 52.85 57.01 48.99 30.39 13.19 13.93 35.57 37.86 36.43

35.76 63.61 81.87 82.45 30.39 30.78 31.44 47.25 31.44 47.25

25.02 62.35 75.80 55.79 21.81 19.12 15.79 49.06 53.64 56.04

28.84 66.98 84.77 87.67 22.52 23.71 23.29 49.61 51.63 41.69

Tabulka 11 dokumentuje, ˇze zisk z uplatnˇen´ı omezen´ı (120) a (121) m˚ uˇze b´ yt znaˇcn´ y. Jeˇstˇe vˇetˇs´ıho zisku se dosáhne pˇri pouˇzit´ı nˇekteré robustn´ı metody odhadu regresn´ıho modelu (viz V´ıˇsek (1997 b)), ale o tom si pov´ıme pozdˇeji (patrnˇe aˇz v dalˇs´ım d´ıle skript). Uved’me nyn´ı obecné ˇreˇsen´ı u ´lohy odhadu regresn´ıch koeficient˚ u pˇri lineárn´ıch omezen´ıch. Uvaˇzujme matici C typu (` × p), rank(C) = ` a hledejme ˆ(C,n)

β

= arg min

( n X

)

(Yi −

XiT β)2 ,

p

β ∈R , C ·β =κ .

(128)

i=1

LEMMA 12 Necht’ C je typu (` × p), rank(C) = `, κ ∈ R` . Potom pro vˇsechny Y ∈ Rn ˜ typu (n × (p − `)) a vz´ a vˇsechny matice typu (n × p) existuje Y˜ ∈ Rn a matice X ajemnˇe jednoznaˇcné zobrazen´ı T : Rp−` → {β ∈ Rp , Cβ = κ} takové, ˇze pro libovolné λ ∈ Rp−` m´ ame ˜ = Y − XT (λ). Y˜ − Xλ D˚ ukaz. D˚ usledkem toho, ˇze rank(C) = `, je existence matice C˜ typu (p − ` × p) takové, ˇze T T ˜ = (C , C )T je regulárn´ı a C C˜ T = 0. Pˇredpokládejme, ˇze β ∗ ∈ Rp je nˇekter´ y vektor takov´ y, ∗ p−` ˇze Cβ = κ a poloˇzme pro kaˇzdé λ ∈ R C∗

T (λ) = C˜ T λ + β ∗ . Snadno ovˇeˇr´ıme, ˇze C · T (λ) = C · (C˜ T λ + β ∗ ) = κ. 119

Nyn´ı ukáˇzeme, ˇze zobrazen´ı T (λ) je prosté. Necht’ λ1 , λ2 ∈ Rp−` a pˇredpokládejme, ˇze T (λ1 ) = T (λ2 ). Potom máme C˜ T (λ1 − λ2 ) = 0 (129) ˜ = p − `, existuje p − ` nez´ a protoˇze rank(C) avisl´ ych ˇr´ adk˚ u matice C˜ T tvoˇr´ıc´ıch regulárn´ı matici T typu (p − `) × (p − `). Pro tuto matici m´ T (λ − λ ) = 0, nebot’ tato soustava rovnic C˜R ame C˜R 1 2 je podsoustavou (129). To vˇsak znamená, ˇze λ1 = λ2 . Rovnˇeˇz snadno se dokáˇze, ˇze zobrazen´ı T (λ) je na mnoˇzinu S = {β ∈ Rp , Cβ = κ}. Je-li totiˇz β¯ ∈ S, pak C(β¯ − β ∗ ) = 0 a tedy β¯ − β ∗ ⊥C, coˇz znamená, ˇze β¯ − β ∗ ∈ M(C˜ T ) a tedy existuje λ ∈ Rp−` tak, ˇze C˜ T · λ = β¯ − β ∗ , neboli β¯ = C˜ T · λ + β ∗ . ˜ = X C˜ T Zb´ yvá ovˇeˇrit, ˇze pro libovolné λ ∈ Rp−` m´ ame pro Y˜ = Y − Xβ ∗ a X ˜ = Y − Xβ ∗ − X C˜ T λ = Y − X(C˜ T λ + β ∗ ) = Y − XT (λ). Y˜ − Xλ 2 ´ POZNAMKA 11 Lemma 12 vlastnˇe ˇr´ık´ a, ˇze βˆ(C,n) = T ( arg min λ∈Rp−`

n X

˜ iT λ)2 ). (Y˜i − X

i=1

Nav´ıc z jeho d˚ ukazu plyne n´ avod, jak pˇr´ısluˇsnou transformaci nalézt. Bude-li d˚ uvod povaˇzovat omezen´ı C · β = κ za náhodná (viz (128)), budeme moci psát pro libovolné δ 6= 0 · ¸ · ¸ · ¸ Y X E = β+ 0 δC δκ a tedy βˆ(C,n) = (X T X + δC T C)−1 X T Y.

(130)

To ukazuje, ˇze podobn´ ym zp˚ usobem, jak´ ym byly nalezeny ve Tvrzen´ı 16 a v Lemmatu 11 vlastnosti hˇrebenového odhadu, bylo by moˇzné dokázat v´ yˇse zm´ınˇené vlastnosti odhadu βˆ(C,n) . Nen´ı rovnˇeˇz bez zaj´ımavosti, ˇze k odhadu témˇeˇr shodnému s odhadem (130), totiˇz k odhadu βˆ = (X T X + Σ−1 )−1 (X T Y + Σ−1 µ), dojdeme, pokud nalezneme aposteriorn´ı stˇredn´ı hodnotu pro β, pˇri pˇredpokladu, ˇze apriorn´ı rozdˇelen´ı regresn´ıch koeficient˚ u β pˇri pevném rozptylu fluktuac´ı σ 2 bylo mnoharozmˇerné normáln´ı s parametry µ a σ 2 Σ, tj. 2

q(β|σ ) =

const p

σ2

µ

¶

1 exp − 2 (β − µ)T Σ−1 (β − µ) 2σ

a apriorn´ı rozdˇelen´ı rozptylu náhodn´ ych fluktuac´ı σ 2 bylo q(σ 2 ) = σ −2(d−1) cd Γ−1 (d)exp(−cσ −2 ), tj. γ-rozdˇelen´ı s parametry c a d. Pokud nav´ıc, napˇr. pˇri malé apriorn´ı informaci o β, poloˇz´ıme µ = 0, dostaneme pˇr´ımo (130). 120

7.4.4

Alternativn´ı indik´ atory kolinearity a jejich z´ aludnosti

Nˇekteré knihovny (a je jich pohˇr´ıchu patrnˇe vˇetˇsina) nenab´ızej´ı pˇr´ımo (a automaticky) vyˇc´ıslen´ı indexu podm´ınˇenosti. Lze si vˇsak obvykle snadno pomoci pouˇzit´ım subroutin pro faktorovou anal´ yzu. Nam´ısto indexu podm´ınˇenosti nab´ız´ı napˇr. knihovna STATISTICA tabulku koeficient˚ u determinace, kde vˇzdy jedna z vysvˇetluj´ıc´ıch promˇenn´ ych hraje roli vysvˇetlované a je vysvˇetlována vˇsemi ostatn´ımi. Pˇr´ısluˇsn´ a tabulka je v knihovnˇe STATISTCA oznaˇcena Redundancy. V této tabulce jsou kromˇe zmiˇ novan´ ych koeficient˚ u determinace uvedeny také jejich doplˇ nky do jedniˇcky. Je to patrnˇe proto, ˇze pˇrevr´ acen´ a hodnota doplˇ nku j-tého koeficientu de2 terminace je, aˇz na faktor σ , rozptylem odhadu j-tého regresn´ıho koeficientu a b´ yv´ a v literatuˇre oznaˇcována jako VIF (variance inflation factor, viz napˇr. Marquart a Snee (1975)). a nˇekteré prameny doporuˇcuj´ı tento diagnostick´ y prostˇredek, at’ uˇz zmiˇ nované koeficienty determinace ˇci VIF, jako dosti spolehliv´ y diagnostick´ y prostˇredek pro odhalen´ı kolinearity, napˇr. Montgomery, Peck (1982). Pod´ıvejme se na vˇec trochu podrobnˇeji. Intuitivnˇe c´ıt´ıme, ˇze pokud bude koeficient determinace pro nˇekterou vysvˇetluj´ıc´ı promˇennou vysok´ y, m˚ uˇze vzniknout podezˇren´ı na kolinearitu. Obvykle to je opravdu tak, ale ponˇekud paradoxnˇe v pˇr´ıpadˇe, kdy v modelu, nyn´ı mysl´ıme model pro “p˚ uvodn´ı”, tj. celá data, je rozptyl náhodn´ ych fluktuac´ı velmi mal´ y, m˚ uˇze nastat situace, kdy zm´ınˇen´ a tabulka (velmi) vysok´ ymi hodnotami pˇr´ısluˇsn´ ych koeficient˚ u determinace indikuje zd´ anlivˇe znaˇcn´ y stupeˇ n kolinearity (viz Tabulka 14), ale index podm´ınˇenosti je jeˇstˇe v mez´ıch, kdy se nenabád´ a k vylouˇcen´ı nˇekterého sloupce matice X, nejv´ yˇse se doporuˇcuje pouˇzit´ı nˇekteré metody, která se um´ı vyrovnat s kolinearitou, napˇr. hˇrebenová regrese. Tady je numerick´ y pˇr´ıklad takové situace. Vyuˇz´ıv´ a ˇc´ ast dat, která byla pouˇzita o nˇekolik stránek zpˇet k ilustraci efektivnosti omezen´ı, která “naloˇz´ıme” na koeficienty regresn´ıho modelu a jejich odhady. Proto jen pˇripomeˇ nme, ˇze ta ˇc´ ast dat, kterou dále pouˇzijeme, popisuje ekonomick´ y r˚ ust (GDP) ve Velké Británii v letech 1977/1 aˇz 1984/2, (tj. po ˇctvrtlet´ıch). Na rozd´ıl od dat dˇr´ıve pouˇzit´ ych, promˇenné oznaˇcené jako LBS (London Business School) a OECD (Organization for Economic Cooperation and Development) jsou upravené pˇredpovˇedi ekonomického r˚ ustu uˇcinˇené tˇemito institucemi a promˇenn´ a DEC oznaˇcuje dekomposici LBS a OECD na vektor representuj´ıc´ı informaci, která byla v dobˇe, kdy byly vytváˇreny zm´ınˇené pˇredpovˇedi, spoleˇcná obˇema v´ yˇse uveden´ ym instituc´ım. Slovo upravené naznaˇcuje, ˇze jednak byly vˇsechny hodnoty pˇrepoˇc´ıtány k cenám z roku 1988 a jednak, ˇze byly pˇredpovˇedi modifikov´ any tak, aby pˇredstavovaly projekci GDP, tj. aby se minimalizoval souˇcet ˇctverc˚ u rezidu´ı mezi pˇredpov´ıdanou veliˇcinou a pˇredpovˇed´ı. Na vysvˇetlenou jenom dodejme, ˇze data v této podobˇe byla pˇripravena pro vytváˇren´ı pˇredpovˇedi nikoliv pomoc´ı lineárn´ı kombinace, tak jak jsme to udˇelali o nˇekolik stranek zpˇet, ale pomoci metody dekomposice, jej´ıˇz popis lze nalézt napˇr. ve V´ıˇsek (1997 c).) Tabulka 12 Data popisuj´ıc´ı ekonomický vývoj (GDP) ve Velké Brit´ anii Obdob´ı

LBS

OECD

DEC

GDP

1977/1 1977/2 1977/3

2.437 1.982 1.793

1.531 1.461 1.952

1.600 1.393 1.860

1.769 3.623 3.402

121

Tabulka 12 Data popisuj´ıc´ı ekonomický vývoj (GDP) ve Velké Brit´ anii (pokraˇcov´ an´ı) Obdob´ı 1977/4 1978/1 1978/2 1978/3 1978/4 1979/1 1979/2 1979/3 1979/4 1980/1 1980/2 1980/3 1980/4 1981/1 1981/2 1981/3 1981/4 1982/1 1982/2 1982/3 1982/4 1983/1 1983/2 1983/3 1983/4 1984/1 1984/2

LBS 1.495 3.723 3.519 .883 2.703 3.237 3.143 -3.180 -1.878 -3.259 -1.784 -2.035 1.385 1.840 2.170 2.295 2.154 2.656 3.017 2.844 1.699 1.746 1.605 2.860 2.091 1.982 4.633

OECD 1.741 2.512 2.022 2.092 1.882 1.952 1.741 2.372 1.461 -.011 .620 2.442 .339 .339 .199 .760 1.321 1.461 1.882 1.882 1.812 1.741 1.812 2.232 2.162 2.162 1.882

DEC 1.665 2.647 2.083 1.946 1.918 2.049 2.105 2.195 1.507 -.095 .574 2.196 .343 .406 .262 .869 1.408 1.481 1.951 1.850 1.681 1.669 1.750 2.264 2.129 2.085 1.967

GDP 2.761 2.045 3.397 2.792 2.587 2.305 -2.705 -3.686 -5.044 -3.918 -2.582 -0.504 2.043 1.631 2.345 1.316 1.101 3.109 2.490 4.096 4.059 3.113 2.624 2.697 2.664 3.302 4.924

(Tato ˇcást dat byla vybrána proto, ˇze na nich nastáv´ a popisovan´ y efekt nejv´ yraznˇeji.) Tabulka 13 Odhady regresn´ıch koeficient˚ u v modelu GDP = β0 + β1 · LBS + β2 · OECD + β3 · DEC + n´ ahodn´ e f luktuace a jejich charakteristiky. β˜ oznaˇcuj´ı koeficienty ve studentizovaném modelu (viz výˇse text o automatickém studentizov´ an´ı dat), ˆ zat´ımco β jsou odhady koeficint˚ u pro data tak, jak jsou uvedena v Tabulce 12. β˜ β0 β1 β2 β3

1.30 4.81 -4.93

q

˜ var( ˆ β)

.0009 .0049 .0050

βˆ 0.0042 1.680 18.030 -18.720

q

ˆ var( ˆ β) 0.0042 .0011 .0184 .0193

tβˆ(26) 0.98 1490.56 979.79 -970.78

P-hodnoty 0.337 0.000 0.000 0.000

Koeficient determinace modelu R2 vyˇsel roven .99998, Fisher-Snedecorovo F = 79750 a odhad rozptylu náhodn´ ych fluktuac´ı pak s2 = .00901. V´ yˇse zmiˇ nované koeficienty determinace v modelech, kde vˇzdy jedna z vysvˇetluj´ıc´ıch promˇenn´ ych je postavena do role vysvˇetlované a vˇsechny ostatn´ı vysvˇetluj´ıc´ı hraj´ı dále roli vysvˇetluj´ıc´ıch, vyˇsly následovnˇe. 122

Tabulka 14 Koeficienty determinace (tabulka býv´ a ˇcasto oznaˇcov´ ana jako “Redundancy”). β1

β2

β2

.455749

.982717

.983803

Hodnoty koeficient˚ u determinace u druhé a tˇret´ı promˇenné napov´ıdaj´ı, ˇze jsou tyto témˇeˇr nahraditelné kombinac´ı vˇzdy tˇech zb´ yvaj´ıc´ıch dvou. Vyjmˇeme tedy z modelu napˇr. druhou promˇennou (tj. OECD). Budeme tedy odhadovat dále koeficienty a jejich charakteristiky v modelu GDP = β0∗ + β1∗ · LBS + β3∗ · DEC + n´ ahodn´ e f luktuace. Pˇr´ısluˇsné odhady jsou v následuj´ıc´ı tabulce. Tabulka 15 Odhady regresn´ıch koeficient˚ u a jejich charakteristik. β˜ β0∗ β1∗ β3∗

.774 .000

q

˜ var( ˆ β) .130 .130

βˆ .000 1.000 -.000

q

ˆ var( ˆ β) .799 .167 .492

tβˆ(26) .000 5.968 -.000

P-hodnoty .999 .000 .999

Hodnota koeficientu determinace tohoto nového modelu je 0.5988, coˇz je sice jen nepatrnˇe pod onou magickou hodnotou 0.6, která b´ yv´ a v monografi´ıch uvádˇena jako pˇrijateln´ a pro modely z technických oblasti, ale na druhé stranˇe je jistˇe zaráˇzej´ıc´ı, ˇze to nyn´ı vypadá tak, ˇze posledn´ı vysvˇetluj´ıc´ı promˇenná nen´ı pro model signifikantn´ı, aˇc P -hodnoty v Tabulce 13 naznaˇcovaly prav´ y opak. Nav´ıc odhad rozptylu náhodn´ ych fluktuac´ı v tomto novém modelu je s2 = 1.698. Porovnáme-li toto ˇc´ıslo s velikost´ı dat uveden´ ych v Tabulce 12, dojdeme k závˇeru, ˇze tento model nen´ı patrnˇe právˇe nejvhodnˇejˇs´ı. Pro u ´plnost Fisher-Snedecorovo F je rovno 20.146. Spoˇcteme-li si pro p˚ uvodn´ı data (uvedená v Tabulce 12) vlastn´ı ˇc´ısla matice X T X dostaneme 2.1335, 0.8581 a 0.0083, coˇz znamená, ˇze index podm´ınˇenosti vyjde s

κ=

λmax = λmin

r

2.1335 = 16.03, 0.0083

a to je hodnota, která napov´ıdá, ˇze se nejedná o kolinearitu vyˇzaduj´ıc´ı vylouˇcen´ı nˇekteré vysvˇetluj´ıc´ı promˇenné z matice plánu, ale o takov´ y stupeˇ n, kdy je moˇzné ˇreˇsit situaci pouˇzit´ım napˇr. hˇrebenové regrese, o které jsme mluvili v´ yˇse. Prakticky v kaˇzdé ekonometrické monografii, obsahuj´ıc´ı také pasáˇz o regresi, nalezneme dalˇs´ı testy na kolinearitu, napˇr. zaloˇzené na kovarianˇcn´ı ˇci korelaˇcn´ı matici, viz napˇr. Kumar (1975), Willan a Watts (1978), Belsley, Kuh and Welsch (1980) nebo Friedman (1982). Pˇr´ıklad uveden´ y práci v Leamer (1983) ukazuje, ˇze si na nˇe mohou uˇzivatelé udˇelat r˚ uzné názory. Jako ’ pˇr´ıklad ˇcastého problematického pouˇzit´ı takového testu uved me aplikaci Farrar-Glauberovy statistiky (viz Farrar and Glauber (1967)) bez verifikace pˇr´ısluˇsného pˇredpoklad˚ u, totiˇz normality vysvˇetluj´ıc´ıch promˇenn´ ych a nezávislosti jednotliv´ ych ˇr´ adk˚ u matice plánu, tj. nezávislosti 123

vektorov´ ych náhodn´ ych veliˇcin, jejichˇz realizace vytvoˇrily ˇr´ adky matice plánu. Nav´ıc je tˇreba si uvˇedomit to, co vlastnˇe bylo implicitnˇe ˇreˇceno v pˇredchoz´ı vˇetˇe, totiˇz ˇze pokud pouˇzijeme korelaˇcn´ı matici dat k testu na kolinearitu, v podstatˇe pˇrijmeme pˇredpoklad, ˇze matice plánu nen´ı nestochastická, neboli zaˇcneme uvaˇzovat v rámci modelu s náhodn´ ymi nosiˇci Xij i = 1, 2, . . . , n, j = 1, 2, . . . , p (s náhodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi). Potom je vˇsak tˇreba m´ıt (LS,n) ˆ na pamˇeti, ˇze β je nestrann´ ym odhadem pouze tehdy, jsou-li tyto nosiˇce statisticky nezávislé na náhodn´ ych fluktuac´ıch E a v odstavci vˇenovanému instrument´ aln´ım promˇenn´ ym jsme ukázali, proˇc tomu tak je. To, moˇzná trochu paradoxnˇe znamená, ˇze kdyˇz se rozhodneme pouˇz´ıt korelaˇcn´ı matici dat k testu na kolinearitu, mˇeli bychom nejprve otestovat nezávislost nosiˇc˚ u a rezidu´ı a následnˇe také normalitu rozdˇelen´ı nosiˇc˚ u, nebot’ pokud je tato naruˇsena test m˚ uˇze dát naprosto zavádˇej´ıc´ı v´ ysledky. Jak plyne z v´ yˇse uvedeného je Farrar-Glauber˚ uv test, zaloˇzen na determinantu v´ ybˇerové korelaˇcn´ı matice. Vzhledem k tomu, ˇze v´ ybˇerov´ y korelaˇcn´ı koeficient, podobnˇe jako vˇsechny ostatn´ı “klasické” v´ ybˇerové charakteristiky, je citliv´ y na odlehlá pozorov´ an´ı, vykazuje determinant v´ ybˇerové korelaˇcn´ı matice také znaˇcnou citlivost na odlehlá pozorov´ an´ı a z toho plynouc´ı nespolehlivost indikace kolinearity. 7.4.5

Alternativn´ı ˇ reˇ sen´ı probl´ emu kolinearity

Uved’me nyn´ı v´ yˇse sl´ıben´ y pˇr´ıklad, ukazuj´ıc´ı, ˇze rozˇs´ıˇren´ı dat o dalˇs´ı pozorov´ an´ı m˚ uˇze (pˇrirozenˇe) odstranit kolinearitu. Souˇcasnˇe tento pˇr´ıklad ukazuje, ˇze nˇekdy lze podezˇren´ı na kolinearitu pojmout pˇr´ımo na základˇe odhad˚ u regresn´ıch koeficient˚ u. Jedná se totiˇz o pˇr´ıpad, kdy na rozd´ıl od diskuze uvedené v kapitole vˇenované v´ ystup˚ um z poˇc´ıtaˇce, kde jsme varovali pˇred unáhlen´ ymi u ´sudky uˇcinˇen´ ymi na základˇe znamének odhad˚ u, jsme si “témˇeˇr” jisti t´ım, jaké znaménko by pˇr´ısluˇsn´ y koeficient (a tedy i jeho odhad) mˇel m´ıt. Data byla uvedena v Montgomery, Askin (1981) a popisuj´ı poˇzadavek na dodávky elektrické energie do jednotliv´ ych domácnost´ı ve ˇspiˇckách o v´ıkendech (vztaˇzeno na jednu hodinu odbˇeru) (y) a to v závislosti na rozloze domu (x1 ), na pˇr´ıjmu dom´ acnosti (x2 ), na kapacitˇe klimatizaˇcn´ıho agreg´ atu um´ıstˇeného v domˇe (x3 ), na hodnotˇe spotˇrebitelského indexu, kter´ y si stanovuje dodavatelsk´ a firma na základˇe souˇctu pˇr´ıkon˚ u hlavn´ıch spotˇrebiˇc˚ u (x4 ) a na typickém poˇctu lid´ı ob´ yvaj´ıc´ıch d˚ um o v´ıkendech (x5 ). Data vypadaj´ı takto: Tabulka 16. Data o poˇzadavc´ıch na dod´ avky elektrické energie pro dom´ acnosti Poˇrad´ı 1 2 3 4 5 6 7 8 9

y 7.518 3.579 5.910 4.790 4.997 2.242 7.427 4.533 5.990

x1 3.164 1.929 2.613 2.337 2.757 1.398 3.366 2.378 2.881

x2 34.990 21.446 28.731 25.058 30.358 15.464 37.267 25.939 32.362 124

x3 7.0 1.5 6.5 4.0 4.0 1.0 5.0 3.0 3.5

x4 7.789 5.251 6.325 5.733 6.216 3.113 9.415 6.142 7.700

x5 4 5 3 4 1 6 1 2 5

Tabulka 16. Data o poˇzadavc´ıch na dod´ avky elektrické energie pro dom´ acnosti (pokraˇcov´ an´ı) Poˇrad´ı 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

y 4.101 1.685 4.560 4.657 3.151 2.976 2.867 2.662 4.363 2.991 2.766 5.323 6.553 3.736 6.796 4.496 2.831 5.495 6.656 2.349 6.824 5.354 5.802 4.790 6.283 3.400 6.083 5.740 3.599 5.010 4.625 4.385 4.505 3.958 6.071 4.571 6.849 2.610 5.829 4.755 2.646

x1 2.098 1.178 2.360 2.236 1.771 1.852 1.823 1.578 2.117 2.052 1.715 2.333 2.887 1.972 2.886 1.874 1.408 2.526 2.821 1.328 2.856 2.223 2.489 2.455 2.720 2.201 2.694 2.456 1.772 2.253 2.398 1.598 1.868 2.036 2.598 2.204 3.313 1.685 2.379 2.286 1.512

x2 22.395 12.531 25.784 25.152 19.106 20.677 20.037 18.154 23.951 22.069 18.324 25.942 32.236 22.123 32.161 21.070 15.957 27.687 31.145 14.160 31.812 24.788 26.661 27.203 29.524 23.424 29.096 27.076 19.177 24.535 25.949 17.604 20.614 22.277 27.924 24.587 30.016 18.485 26.341 25.327 17.351

125

x3 2.5 0.0 4.0 2.5 1.0 1.0 1.5 0.5 2.5 1.5 1.5 5.0 5.5 2.0 6.0 3.0 1.5 4.5 5.5 0.5 6.0 5.0 6.0 3.0 5.5 1.0 5.0 3.5 2.0 5.0 2.5 3.5 3.0 2.5 5.5 2.0 6.5 1.0 3.5 3.0 1.0

x4 5.222 2.575 5.536 6.208 5.213 4.659 4.453 3.978 6.236 4.892 3.960 5.038 7.815 4.432 7.039 5.254 2.967 6.481 7.284 3.652 7.186 5.965 6.862 6.007 6.715 5.625 6.949 6.143 4.864 4.975 6.947 3.914 4.817 5.581 6.233 6.073 6.054 3.677 7.345 5.230 3.824

x5 1 1 2 2 3 1 3 4 1 4 5 1 3 5 4 1 6 2 4 4 1 3 4 5 4 1 2 7 1 2 3 4 6 1 2 2 1 2 4 5 1

Tabulka 16. Data o poˇzadavc´ıch na dod´ avky elektrické energie pro dom´ acnosti (pokraˇcov´ an´ı) 51 52 53 54 55 56 57 58 59 60

4.279 3.701 4.561 4.707 4.541 3.891 6.394 6.528 2.925 5.059

2.246 1.819 2.288 2.320 2.276 1.994 3.454 3.490 1.936 4.061

24.612 19.754 25.720 25.444 25.439 22.150 27.855 31.998 21.215 22.962

2.0 2.5 3.0 3.0 3.0 2.0 4.0 5.0 1.0 3.0

5.950 4.522 6.313 5.579 6.113 5.316 7.215 7.145 4.506 5.854

2 1 4 4 3 4 2 2 4 1

P˚ uvodnˇe bylo shromáˇzdˇeno jen 40 pozorov´ an´ı a provedena klasick´ a regresn´ı anal´ yza. V´ ysledky byly následuj´ıc´ı. Tabulka 17. Výsledky regresn´ı analýzy pro data o spotˇrebˇe elektrické energie. (40 dom´ acnost´ı) Variable

Estimate

intercept x1 x2 x3 x4 x5

-.04160 -2.49756 .26947 .41430 .37931 .03035

Standard error .253137 1.026253 .089492 .039236 .089459 .023183

t-value

P -value

-.16434 -2.43367 3.01115 10.55908 4.24012 1.30919

.870438 .020354 .004882 .000000 .000162 .199248

Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 5 and 34 df ) P-value

= = = = = =

8.160 34 0.240 0.979 313.918 0.000

Model je dobˇre determinován a i odhad velikosti rozptylu fluktuac´ı se zdá b´ yt pˇrijateln´ y vzhledem k hodnotám, kter´ ych nab´ yvá vysvˇetlovan´ a veliˇcina. Hodnota P -value pro absolutn´ı ˇclen sice signalizuje, ˇze je moˇzná tento v modelu zbyteˇcn´ y, a jistˇe bychom dovedli nalézt i vˇecné argumenty, proˇc by tam nemˇel b´ yt, napˇr. ˇze pokud rozloha domu bude nulov´ a, nebude v domˇe klimatizace, nikdo nebude na v´ıkend doma atd., odbˇer elektrické energie bude nulov´ y. Právˇe tak lze snést ˇradu argument˚ u, ˇze tomu tak nebude. Napˇr. ledniˇcka ˇci ohˇr´ıvaˇce vody se obvykle nevyp´ınaj´ı, alespoˇ n v domácnostech s vyˇsˇs´ımi pˇr´ıjmy, ani kdyˇz nikdo na v´ıkend nen´ı doma. Vzhledem k tomu, co bylo ˇreˇceno o u ´loze absolutn´ıho ˇclenu v´ yˇse, ponech´ ame jej v modelu. Nev´ yznamn´ ym se rovnˇeˇz zdá b´ yt poˇcet lid´ı v domˇe v dobˇe v´ıkendu. To si samozˇrejmˇe lze 126

vysvˇetlit tak, ˇze zv´ yˇsen´ı spotˇreby elektrické energie pˇri zv´ yˇsen´ı poˇctu lid´ı v domˇe nebude aˇz tak veliké. Ovˇsem i opak m˚ uˇze b´ yt pravdou. Mohli bychom tedy model akceptovat. Prohlédnˇeme si jej ale pozornˇeji. Patrnˇe kaˇzd´ y by (racionálnˇe) oˇcek´ aval, ˇze pˇri vˇetˇs´ı rozloze domu, bude poˇzadavek na dodávky elektrické energie vˇetˇs´ı. To koliduje se záporn´ ym znaménkem u odhadu pˇr´ısluˇsného regresn´ıho koeficientu. Aˇckoliv jsme to jiˇz dˇr´ıve pˇripomˇeli, tato u ´vaha nen´ı v rozporu s varován´ım o unáhlené a zcestnˇe jednostranné interpretaci znamének odhad˚ u regresn´ıch koeficient˚ u, na kterou jsme upozorˇ novali v kapitole o v´ ystupech ze statistick´ ych poˇc´ıtaˇcov´ ych ’ ’ knihoven, nebot tady znaménko “neobjevujeme”, ˇci nezjiˇst ujeme, chcete-li, ale máme o nˇem dosti oprávnˇené a proirn´ı pˇredstavy. Vzhledem k v´ yˇse uvedené diskuzi o signifikantnosti absolutn´ıho ˇclenu a poˇctu lid´ı v domˇe jeˇstˇe podotknˇeme, ˇze pˇrepoˇc´ıt´ ame-li model po vylouˇcen´ı této vysvˇetluj´ıc´ı veliˇciny, záporné znaménko u “rozlohy domu” se nezmˇen´ı, jen se nepatrnˇe zmˇen´ı hodnota odhadu, totiˇz na −2.634; podobnˇe vylouˇc´ıme-li absolutn´ı ˇclen dojde ke zmˇenˇe na −2.541. To m˚ uˇze vést k podezˇren´ı, ˇze nˇeco nen´ı s modelem v poˇr´ aku, a jednou z pˇr´ıˇcin by mohla b´ yt kolinearite vysvˇetluj´ıc´ıch promˇenn´ ych. Spoˇcteme tedy vlastn´ı ˇc´ısla matice X T X a dostaneme poˇradˇe 3.69689, 0.983788, 0.266574, 0.049994 a 0.002752. Odtud odmocnina z pomˇeru nejvˇetˇs´ıho a nejmenˇs´ıho z nich je 36.65. To ukazuje (jak jsme ostatnˇe uvedli v´ yˇse) na takov´ y stupeˇ n kolinearity, kter´ y patrnˇe nelze jen tak ignorovat. Spoˇcteme-li vˇsak hˇrebenovou regresi, napˇr. pro δ = 0.1 (to je defaultov´ a hodnota nab´ızen´ a STATISTICOU), zmiz´ı sice “nepatˇriˇcné” minusové znaménko u rozlohy domu, ale tato vysvˇetluj´ıc´ı promˇenná se stane statisticky nev´ yznamnou. V´ yznamn´ ymi z˚ ustanou pouze kapacita klimaσ ˆ2 tizaˇcn´ıho agreg´ atu a hodnota spotˇrebitelského indexu. Aˇckoliv je ˆ(LS,n) = 0.712 > 0.1 a kβ k2 tedy je patrnˇe splnˇena podm´ınka z Lemmatu 11, zdá se b´ yt tento model podivn´ y, nebot’ jak poˇcet lid´ı tráv´ıc´ıch v domˇe v´ıkend, tak zejména rozloha domu by patrnˇe mˇely hrát roli pro velikost spotˇreby elektrické energie. Aˇckoliv pro vyˇsˇs´ı hodnoty δ se stanou v´ yznamn´ ymi témˇeˇr vˇsechny vysvˇetluj´ıc´ı promˇenné, autoˇri dat (Montgomery, Askin (1981) ) zvolili jinou cestu, obávaj´ıce se moˇzn´ a pˇr´ıliˇsného (R,δ,n) ˆ vych´ ylen´ı odhadu β . Vzhledem k tomu, ˇze nelze nikdy vylouˇcit moˇznost, ˇze kolinerita nastala d´ıky náhodnˇe “jednostranˇe”, ˇci chcete-lii “vych´ ylenˇe”, poˇr´ızen´ ym dat˚ um, a vzhledem k tomu, ˇze rozˇs´ıˇren´ı dat nebylo ekonomicky aˇz tak nároˇcné jako by mohly b´ yt d˚ usleky ˇspatnˇe odhadnutého modelu, zvolili cestu poˇr´ızen´ı dalˇs´ıch dat, tj. soubor byl rozˇs´ıˇren na takov´ y, jak´ y je uveden v Tabulce 16. Anal´ yza proveden´ a pro tato data dáv´ a tyto hodnoty. Tabulka 18. Výsledky regresn´ı analýzy pro data o spotˇrebˇe elektrické energie. (60 dom´ acnost´ı) Variable

Estimate

intercept x1 x2 x3 x4 x5

-.039315 .407674 .003333 .437516 .375983 .044368

Standard error .229760 .121617 .025156 .036150 .076869 .022014 127

t-value

P -value

-.17111 3.35211 .13248 12.10284 4.89121 2.01544

.864774 .001470 .895094 .000000 .000009 .048848

Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 5 and 54 df ) P-value

= = = = = =

14.418 54 0.267 0.968 328.221 0.000

Odhad koeficientu pro “rozlohu domu” se zdá nyn´ı, alespoˇ n co do znaménka, rozumnˇejˇs´ı, neˇz T pro data obsahuj´ıc´ı jen 40 domácnost´ı. Vlastn´ı ˇc´ısla matice X X maj´ı nyn´ı hodnoty 3.478789, 0.985613, 0.304462, a 0.045914 a tedy koeficient podm´ınˇenosti má hodnotu 8.70, coˇz je hodnota, kterou lze povaˇzovat za jeˇstˇe pˇrijatelnou, tj. dovoluj´ıc´ı “ignorovat” kolinearitu. Právˇe probran´ y pˇr´ıklad ukazuje, ˇze regresn´ı anal´ yza vyˇzaduje nebrat ˇz´ adn´ a pˇredem stanoven´ a, doporuˇcená ˇci zabˇehaná kriteria zcela dogmaticky, tj. bez jakékoliv pochybnosti ˇci vyj´ımky. Je sp´ıˇse tˇreba zam´ yˇslet se na vhodnost´ı modelu ze vˇsech moˇzn´ ych stanovisek a zkoumat jeho akceptovatelnost vzhledem ke vˇsem informac´ım, i k tˇem, které se nám nepodaˇrilo ˇci které jsme nechtˇeli do modelu zaˇclenit. 7.4.6

Z´ avˇ er

ˇ Na konci tohoto odstavce se jeˇstˇe jednou zopakujme, co jsme jiˇz v´ yˇse naznaˇcili. Rekli jsme si, ˇze v nˇekter´ ych uˇcebnic´ıch se doporuˇcuje k rozeznán´ı kolinearity “test” na nulovost determinantu ˇctverce matice plánu, tj. matice X T X a ukázali jsme si hned v u ´vodu odstavce, ˇze vynásoben´ım vˇsech dat, které máme k dispozici stejn´ ym ˇc´ıslem nezmˇen´ıme regresn´ı model, ale determinant matice plánu m˚ uˇze b´ yt zmˇenˇen na libovolnˇe velk´ y. Aby toto bylo uvedeno na “pravou m´ıru” doporuˇcuj´ı nˇekteré z tˇechto uˇcebnic nejprve normovat data tak, ˇze je posuneme pomoc´ı pr˚ umˇer˚ u sloupc˚ u a vydˇel´ıme odhadem smˇerodatné odchylky (viz pˇredchoz´ı odstavec o Farrar-Glauberovˇe testu). Podotknˇeme, ˇze nˇekteré texty pˇredpokládaj´ı od samého zaˇc´ atku, ˇze data jsou normována právˇe naznaˇcen´ ym zp˚ usobem, viz Montgomery, Peck (1982). Snadno se nahlédne, jak toto m˚ uˇze (neblaze) ovlivnit zpracov´ an´ı dat, pokud tato budou obsahovat nˇejaké odlehlé (ˇci chcete-li, atypické) u ´daje. Nehledˇe na to, ˇze pak vlastnˇe posuzujeme podm´ınˇenost jiné matice. Ostatnˇe jsme si to jiˇz ukazovali v odstavci 5.1 (viz text zhruba jeden a p˚ ul stránky za Tabulkou 8). Je aˇz s podivem, jak nˇekteré texty, t´ ykaj´ıc´ı se regren´ı anal´ yzy realizované pomoci metody nejmenˇs´ıch ˇctverc˚ u, zcela opom´ıjej´ı nebezpeˇc´ı vypl´ yvaj´ıc´ı z veliké citlivosti této metody na kontaminaci (zneˇciˇstˇen´ı) dat, napˇr. odlehl´ ymi pozorov´ an´ımi. Autoˇri tˇechto textu si bud’ nejsou vˇedomi ˇci poceˇ nuj´ı toto nebezpeˇc´ı a dopady, které m˚ uˇze m´ıt na zpracov´ an´ı dat, aˇckoliv v pracech vˇenovan´ ych robustn´ı regresn´ı anal´ yze bylo jiˇz uvedeno mnoho pˇr´ıklad˚ u osvˇetluj´ıc´ıch zejména záludnost této situace. Lze totiˇz pomˇernˇe snadno nalézt pˇr´ıklady dat, které projdou klasickou regresn´ı anal´ yzou i bˇeˇzn´ ymi diagnostick´ ymi vyˇsetˇren´ımi aniˇz by vzbudily i jen náznak podezˇren´ı na to, ˇze je cosi v nepoˇrádku, viz napˇr. Hampel a kol. (1986), Rousseeuw, Leroy ´ (1996 b, c), (1997 d). (1987) ˇci V´ıˇsek, J. A Na u ´pln´ y závˇer jeˇstˇe poznamenejme, ˇze vzhledem k tomu, ˇze matice X T X je vlastnˇe, aˇz na násobek, odhadem kovarianˇcn´ı matice vysvˇetluj´ıc´ıch promˇenn´ ych a je citlivá na odlehlá poT zorován´ı. To znamená, ˇze pˇri v´ ypoˇctu vlastn´ıch ˇc´ısel matice X X, tj. pˇri hledán´ı κ(X), se nevy128

hneme problému vlivn´ ych bod˚ u. Pomoci si m˚ uˇzeme, aplikujeme-li nˇekterou robustn´ı metodu na odhad kovarianˇcn´ı matice (viz opˇet Hampel a kol. (1986), Lopuha˝a (1989)).

8

ˇ ´ SPECIALN ´ Í TYPY REGRESNÍHO MODELU NEKTER E

Jak název této kapitoly napov´ıdá, probereme v n´ı nˇekteré typy regresn´ıch model˚ u, které se vymykaj´ı bˇeˇznému regresn´ımu modelu. Nejprve si vˇsimneme zobecnˇeného regresn´ıho modelu, poté modelu, ve kterém vysvˇetlovaná promˇenn´ a nen´ı spojitého typu. V dalˇs´ıch odstavc´ıch se budeme vˇenovat naopak pˇr´ıpadu, kdy regresory budou diskrétn´ı ˇci chcete-li, kvalitativn´ı, (coˇz nen´ı u ´plnˇe totéˇz, ale nen´ı to pˇr´ıliˇs odliˇsné), pˇr´ıpadnˇe, kdy tyto budou mˇeˇreny s nˇejakou náhodnou chybou.

8.1

Zobecnˇ en´ y regresn´ı model

Je patrné, ˇze pokud budou naˇse data pˇredstavovat záznam nˇekter´ ych ˇcasov´ ych ˇrad , ale nejen v tomto pˇr´ıpadˇe, nemus´ı b´ yt dodrˇzen pˇredpoklad nezávislosti fluktuac´ı mezi jednotliv´ ymi ˇr´ adky v modelu (4). Ke zpracován´ı takov´ ych dat budeme potˇrebovat zobecnˇen´ı základn´ıho regresn´ıho modelu. V této kapitole budeme tedy pˇredpokládat, ˇze plat´ı Podm´ınky A∗ Pro kaˇzdé pevné n ∈ N je posloupnost {Ei }ni=1 posloupnost´ı stejnˇe rozdˇelených n´ ahodných veliˇcin s nulovou stˇredn´ı hodnotou a kovarianˇcn´ı matic´ı Σ, kter´ a je regul´ arn´ı. ³

TVRZEN´ I 19 Plat´ı-li Podm´ınky A∗ , potom βˆ(LS,n) = X T Σ−1 X

´−1

X T Σ−1 Y .

D˚ ukaz. K d˚ ukazu pouˇzijeme spektráln´ı rozklad matice a budeme psát Σ = QT Q, kde Q je regulárn´ı. Zinvertován´ım dostaneme Σ−1 = Q−1 [Q−1 ]T . Necht’ Y˜ = [Q−1 ]T Y

˜ = [Q−1 ]T X X

˜ = [Q−1 ]T E. E

a

Z p˚ uvodn´ıho modelu Y = Xβ + E znásoben´ım zleva matic´ı [Q−1 ]T dostaneme ˜ + E, ˜ Y˜ = Xβ ˜ ·E ˜ T = IE [Q−1 ]T E · E T [Q−1 ] = I. Nyn´ı jiˇz se snadno ovˇeˇr´ı, ˇze odhad metodou nejmenˇs´ıch s IE E ˇctverc˚ u bude dán vztahem ³

˜TX ˜ βˆ(LS,n) = X

´−1

³

˜ T Y˜ = X T Q−1 [Q−1 ]T X X ³

= X T Σ−1 X

´−1

´−1

X T Σ−1 Y.

X T Q−1 [Q−1 ]T Y (131) 2

´ POZNAMKA 12 Odhad (131) se v literatuˇre nˇekdy oznaˇcuje jako Aitken˚ uv, ˇcastˇeji vˇsak jako zobecnˇený odhad metodou nejmenˇs´ıch ˇctverc˚ u. Budeme jej proto oznaˇcovat βˆ(GLS,n) , a to zejména tam, kde bude tˇreba zd˚ uraznit, ˇze pˇr´ısluˇsn´ a kovarianˇcn´ı matice Σ 6= σ 2 I. Odhad m´ a za (LS,n) pˇredpoklad˚ u, které byly uv´ adˇeny výˇse pro βˆ vˇsechny dobré (i ménˇe dobré) vlastnosti odhadu nejmenˇs´ıch ˇctverc˚ u. 129

Nyn´ı si ujasnˇeme, co se stane pokud odhadneme β 0 pomoc´ı bˇeˇzného odhadu nejmenˇs´ıch ˇctverc˚ u (Ordinary Least Squares). Následuj´ıc´ı vztahy ukazuj´ı ³

XT X

IE

´−1

³

XT Y = XT X

´−1

X T Xβ 0 = β 0

a ³

XT X

´−1

³

XT Y = XT X = β0 +

´−1

³

X T β0 + X T X

´−1

³

´

³

X T Y − Xβ 0 = β 0 + X T X

n ³ T ´−1 T X X X E = β0 + n

µ

1 T X X n

¶−1

´−1

XT E

1 T X E, n

ˇze pokud budeme ignorovat závislost mezi náhodn´ ymi fluktuacemi, odhad bude stále jeˇstˇe nestrann´ y a konsistentn´ı. Lze vˇsak oˇcekávat a snadno se to ovˇeˇr´ı, ˇze nebude nejlepˇs´ı, tj. eficientn´ı. K nalezen´ı eficientn´ıho odhadu potˇrebujeme znát matici Σ, ˇci alespoˇ n jej´ı “spolehliv´ y” odhad. Z následuj´ıc´ı u ´vahy je ihned patrné, ˇze pokud nebudeme v jednotliv´ ych bodech faktorového prostoru opakovat pozorován´ı a matice Σ bude zcela obecná neznám´ a matice, nelze v zobecnˇeném regresn´ım modelu regresn´ı koeficienty eficientnˇe odhadnout. Museli bychom totiˇz odhadnout (LS,n) 2 , k, j = 1, 2, . . . , n, tj., vzhledem k symetrii matice Σ, n(n+1) + p βˆj , j = 1, 2, . . . , p a σkj 2 parametr˚ u modelu z n·(p+1) napozorovan´ ych ˇc´ısel. A to je nemoˇzné. V´ ychodiskem m˚ uˇze b´ yt to, ˇze se sn´ıˇz´ı poˇcet odhadovan´ ych parametr˚ u, napˇr. t´ım, ˇze budeme pˇredpokládat speciáln´ı strukturu matice Σ. To je ekvivalentn´ı pˇredpokladu, ˇze závislost mezi jednotliv´ ymi ˇr´ adky v modelu (4) bude nˇekterého jednoduchého typu. Budeme-li napˇr. uvaˇzovat model s markovsk´ ymi fluktu2 acemi, tj. bude IE Ei Ei−1 = σ∗ , i = 2, 3, . . . , n a IE Ei Ej = 0 pro |i − j| > 1, coˇz zapsáno ve tvaru matice dává  2  σ σ∗2 0 . . . 0 0  σ2 σ2 σ2 . . . 0 0   ∗  ∗   2 2 0 σ σ . . . 0 0   ∗ T  IE E · E =  0 0 σ 2 . . . 0 0  , ∗  .. .. .. ..   ..   . . . . .  0

0

0

. . . σ∗2 σ 2

budeme odhadovat pouze 2 + p parametr˚ u. Pozdˇeji se setkáme s dalˇs´ımi situacemi, ve kter´ ych specifick´ y tvar matice Σ umoˇzn´ı pouˇz´ıt v´ ysledky této kapitoly. Snadno se nahlédne, ˇze po formáln´ı stránce, bychom vlastnˇe nepotˇrebovali pˇredpoklad o stejném rozdˇelen´ı jednotliv´ ych náhodn´ ych fluktuac´ı. Zt´ıˇzilo by to vˇsak odhad matice Σ.

8.2

Model s diskr´ etn´ı vysvˇ etlovanou promˇ ennou

Pomˇernˇe ˇcasto se m˚ uˇzeme setkat s daty, kde vysvˇetlovan´ a promˇenn´ a nemá spojit´ y charakter a nab´ yvá jen diskrétn´ıch hodnot. Uved’me si nejprve nˇekolik pˇr´ıklad˚ u situac´ı, které “produkuj´ı” taková data. Vysvˇetlovaná promˇenná: • popisuje nula-jedniˇckov´ y stav nˇeˇceho ˇci nˇekoho, napˇr. zamˇestnan´ y-nezamˇestnan´ y, plavecneplavec, kuˇrák-nekuˇrák, gramotn´ y-negramotn´ y, tekut´ y-pevn´ y, prodejn´ y-neprodejn´ y, funkˇcn´ınefunkˇcn´ı atd., 130

• je ˇc´ıtac´ıho charakteru, napˇr. poˇcet pˇrihl´ aˇsek telefonu, poˇcet uchazeˇc˚ u o studium, poˇcet patent˚ u, poˇcet zákazn´ık˚ u atd., • je vlastnˇe zakdovaná ryze kvalitativn´ı promˇenn´ a, napˇr. souhlas´ı bez v´ yhrad, souhlas´ı s v´ yhradami, nev´ı, nesouhlas´ı, zásadnˇe nesouhlas´ı ˇci v´ ybornˇe pˇripraven, velmi dobˇre pˇripraven, dobˇre pˇripraven, ˇspatnˇe pˇripraven, velmi ˇspatnˇe pˇripraven, zcela nepˇripraven atd., • je sice v podstatˇe spojitého charakteru, ale je obvykle udáv´ ana jen jako diskrétn´ı, napˇr. poˇcet odpracovan´ ych hodin, vzdálenost v kilometrech, pˇr´ıkon v kilowatech atd.. Z matematického hlediska je zˇrejmé, ˇze pokud budeme umˇet posoudit situaci tj. provést diskuzi problém˚ u, které vyvstávaj´ı pˇri pouˇzit´ı klasického regresn´ıho modelu a navrhnout jejich ˇreˇsen´ı pro pˇr´ıpad, kdy vysvˇetlovan´ a veliˇcina je binárn´ı, je u ´loha témˇeˇr vyˇreˇsena. Modely s vysvˇetluj´ıc´ı veliˇcinou, která nab´ yvá koneˇcného poˇctu hodnot jsou vlastnˇe “jen” (pˇr´ımoˇcar´ ym) zobecnˇen´ım tohoto bin´ arn´ıho modelu 8.2.1

Probl´ emy s pouˇ zit´ım klasick´ eho regresn´ıho modelu pro bin´ arn´ı vysvˇ etlovanou veliˇ cinu

Uvaˇzujme na chv´ıli jednoduchou situaci, kdy vysvˇetlovan´ a promˇenn´ a bude nab´ yvat hodnoty nula a jedna, kduj´ıc´ı skuteˇcnost, zda daná domácnost vlastn´ı auto ˇci auto nevlastn´ı. Pˇredpokládejme, ˇze toto závis´ı jen od v´ yˇse disponibiln´ıho pˇr´ıjmu. To sice nen´ı zcela raealistické, ale pro naˇse u ´ˇcely to bude po formáln´ı stránce v´ yhodné, a na podstatˇe dále uvedené diskuze by pˇr´ıtomnost v´ıce vysvˇetluj´ıc´ıch promˇenn´ ych nic nezmˇenila. Pokusme se tedy popsat uvedenou závislost jednoduch´ ym regresn´ım modelem Yi = β1 + xi2 β2 + Ei ,

i = 1, 2, ..., n.

Protoˇze IE Yi = β1 + xi2 lβ2 a souˇcasnˇe IE Yi = 1 · P (Yi = 1) + 0 · P (Yi = 0) = P (Yi = 1), máme P (Yi = 1) = β1 +xi2 β2 . Proto se takov´ y model obvykle oznaˇcuje jako line´ arn´ı pravdˇepodobnostn´ı model. Je evidentn´ı, ˇze model se bude pot´ ykat hned s nˇekolika problémy najednou. Za prvé, vzhledem k tomu, ˇze Yi , i = 1, 2, ..., n nab´ yv´ a jen hodnoty 0 nebo 1, mus´ı Ei b´ yt rovno bud’ −β1 − xi2 β2 , pokud Yi = 0, nebo 1 − β1 − xi2 β2 v pˇr´ıpadˇe, ˇze Yi = 1. Pokud nav´ıc budeme cht´ıt, aby IE Ei = 0, mus´ı b´ yt P (Ei = −β1 − xi2 β2 ) = 1 − β1 − xi2 β2 a P (Ei = 1 − β1 − xi2 β2 ) = β1 + xi2 β2 . Potom ovˇsem varEi = (β1 + xi2 β2 ) (1 − β1 − xi2 β2 ) ,

131

coˇz znamená, ˇze model vykazuje heteroskedasticitu. Dalˇs´ım problémem je to, ˇze β1 + xi2 β2 mus´ı b´ yt nezáporné, ale ne vˇetˇs´ı neˇz jedna, a to pro vˇsechny (povolené) hodnoty xi2 . To pˇredstavuje omezen´ı na koeficienty a jejich odhady, samozˇrejmˇe, ˇreknˇeme alespoˇ n pˇri dan´ ych datech. To obecnˇe pˇrevede lineárn´ı problém odhadu regresn´ıch koeficient˚ u na problém kvadratick´ y. T´ım obecnˇe ztrat´ı platnost vˇsechna tvrzen´ı dokázan´ a pro klasick´ y linearn´ı regresn´ı model, tj. napˇr. nelze pomoc´ı studentizovan´ ych odhad˚ u testovat jejich signifikantnost ani pomoci FisherSnedecorova F posoudit determinovanost modelu. 8.2.2

Model s bin´ arn´ı moˇ znost´ı v´ ybˇ eru

Abychom se vyhnuli v´ yˇse uveden´ ym problém˚ um s t´ım, ˇze náhodné fluktuace jsou binárn´ı, a z toho plynouc´ım problém˚ um s heteroskedasticitou, obvykle konstruujeme model pro binárn´ı v´ ybˇer pomoc´ı uˇzitk˚ u jednotliv´ ych variant v´ ybˇeru pro danou domácnost, firmu atd.. Necht’ tedy po ˇradˇe Ui1 a Ui2 jsou uˇzitky z prvn´ı a druhé volby pro i-tou domácnost, firmu, subjekt, atd.. Dále necht’ zi1 a zi2 jsou vektory charakterizuj´ıc´ı v´ yhodnost prvé a druhé alternativy, tak jak jsou vn´ım´ any i-t´ ym subjektem, a wi necht’ je vektor socio-ekonomick´ ych charakteristik i-tého subjektu. Potom, pˇredpokládáme-li linearitu, m˚ uˇzeme psát T Uij = αj + zij δ + wiT γj + Vij ,

i = 1, 2, ..., n, j = 1, 2.

Dále budeme pˇredpokládat, ˇze Yi bude rovno jedné, pokud subjekt i zvol´ı prvn´ı alternativu a rovno nule v opaˇcném pˇr´ıpadˇe. Upozornˇeme na tomto m´ıstˇe, ˇze pro dva r˚ uzné subjekty je fakt “rozhodnut´ı se pro prvn´ı alternativu” obecnˇe popsán dvˇema r˚ uzn´ ymi jevy, ˇreknˇeme Ai a Aj z nˇejaké základn´ı σ-algebry A; v nˇekter´ ych textech o probitové anal´ yze doch´ az´ı ke zmatk˚ um v okamˇziku, kdy autoˇri rozliˇsuj´ı mezi pravdˇepodobnostmi Pi pro r˚ uzné subjekty subindexem i viz (132) n´ıˇze, ale zm´ınˇen´ y fakt formalizuj´ı náhodn´ ym jevem, ˇreknˇeme A, bez rozliˇsen´ı pomoci indexu. Protoˇze i-t´ y subjekt zvol´ı prvn´ı alternativu tehdy, bude-li tato pro nˇej v´ yhodnˇejˇs´ı neˇz druhá, tj. pokud Ui1 > Ui2 , máme (prvn´ı rovnost je zaveden´ım dále pouˇz´ıvaného oznaˇcen´ı) Pi = P (Yi = 1) = P (Ui1 > Ui2 ) ³

(132) ´

T T = P Vi1 − Vi2 < α2 − α1 + (zi2 − zi1 )δ + wiT (γ2 − γ1 ) = F (xTi β), T − z T , w T ) a β T = (α − α , δ T , γ T − γ T ). P´ kde xTi = (1, zi2 ısmenem F jsme oznaˇcili distribuˇcn´ı 2 1 2 1 i1 i funkci rozd´ılu Vi1 − Vi2 . Nejbˇeˇznˇeji studované modely jsou ty, kde funkce F byla zvolena:

lineárn´ı pravdˇepodobnostn´ı model

F (xTi β) = xTi β,

probitov´ y model

F (xTi β) =

logitov´ y model

F (xTi β) =

R xTi β −∞

2

t √1 e− 2 2π

dt,

1

1+e

−xT β i

Prvn´ı variantu jsme jiˇz v´ yˇse diskutovali a ukázali, ˇze nepatˇr´ı ke ˇst’astn´ ym volb´ am. Druhá varianta representuje pˇr´ıpad, kdy za F zvol´ıme standardn´ı normáln´ı distribuci. Ve tˇret´ı variantˇe byla zvolena logistická distribuˇcn´ı funkce. Pˇri této pˇr´ıleˇzitosti upozornˇeme na to, ˇze nˇekteré monografie vˇenované regresn´ı anal´ yze ˇci ekonometrii, uˇz´ıvaj´ı jeˇstˇe pojmu logistick´ y model, pˇriˇcemˇz nˇekteré t´ım m´ın´ı to, co jsme v´ yˇse 132

oznaˇcili, ve shodˇe s drtivou vˇetˇsinou autor˚ u, jako logitov´ y model, nˇekteré t´ım rozumˇej´ı model ˇcasové ˇrady s logistick´ ym trendem. To je asi tˇreba m´ıt na pamˇeti pˇri ˇcten´ı aplikaˇcn´ıch studi´ı, ve kter´ ych bez bliˇzˇs´ı specifikace autor prav´ı, ˇze pouˇzije logistick´ y model pro zpracov´ an´ı dat. Z kontextu by vˇsak mˇelo b´ yt jasné, o co jde. Neˇz postoup´ıme dále ve v´ ykladu, uvˇedomme si jeˇstˇe, ˇze P (Yi = 1) = F (xTi β), i = 1, 2, ..., n pˇredstavuj´ı teoretické pravdˇepodobnosti (oznaˇcme je Pi ), zat´ımco my máme k dispozici jejich v´ ybˇerové “protˇejˇsky” (ˇreknˇeme πi ). Vlastnˇe se tedy pokouˇs´ıme odhadnout regresn´ı koeficienty v modelu πi = Pi + Ei = F (xTi β) + Ei , i = 1, 2, ..., n. (133) V dalˇs´ım v´ ykladu bude π oznaˇcovat vektor v´ ybˇerov´ ych pravdˇepodobnost´ı (π1 , π2 , ..., πn )T . 8.2.3

Odhady parametr˚ u v line´ arn´ım pravdˇ epodobnostn´ım modelu

V´ yˇse jsme diskutovali pot´ıˇze, které s sebou pˇrin´ aˇs´ı pouˇzit´ı lineárn´ıho pravdˇepodobnostn´ıho modelu a naznaˇcili jsme, ˇze model s binárn´ı moˇznost´ı v´ ybˇeru by mohl pomoci ˇreˇsit tyto problémy, a to v pˇr´ıpadˇe, ˇze za funkci F nezvol´ıme identitu, nebot’ jinak se opˇet dostaneme k lineárn´ımu pravdˇepodobnostn´ımu modelu. Pokud bychom vˇsak z nˇejak´ ych d˚ uvod˚ u potˇrebovali pˇreci jenom odhadnout parametry β v lineárn´ım pravdˇepodobnostn´ım modelu, pak lze postupovat v podstatˇe dvˇema zp˚ usoby. Oba vˇsak pˇredpokládaj´ı (dostateˇcnˇe krát provedené) opakov´ an´ı pozorov´ an´ı (mˇeˇren´ı) v jednotliv´ ych bodech faktorového prostoru. Prvn´ı z nich vezme do u ´vahy to, ˇze model vykazuje heteroskedasticitu, a prostˇe aplikuje Aitken˚ uv odhad, ve kterém pouˇzije nam´ısto neznámé kovarianˇcn´ı matice Σ jej´ı odhad. Jin´ ymi slovy, nejprve odhadneme pomoci bˇeˇzného odhadu metodou nejmenˇs´ıch ˇctverc˚ u regresn´ı koeficienty β, spoˇcteme rezidua a odhadneme kovarianˇcn´ı matici Σ. Aˇckoliv odhad regresn´ıch koeficient˚ u je neeficientn´ı, je nevych´ ylen´ y, jak jsme si ostatnˇe ukázali v kapitole vˇenované zobecnˇenému odhadu metodou nejmenˇs´ıch ˇctverc˚ u. To umoˇzn ˇuje nestrannˇe odhadnout matici Σ (EGLS,n) ˆ a spoˇc´ıtat ve druhém kroku β (estimated generalized least squares). Tento pˇr´ıstup ovˇsem nevyˇreˇs´ı ten problém, ˇze potˇrebujeme omezit hodnotu v´ yrazu XiT βˆ(LS,n) na interval [0, 1]. Proto je patrnˇe obecnˇe pˇrijatelnˇejˇs´ı druh´ y postup spoˇc´ıvaj´ıc´ı v tom, ˇze vyˇc´ısl´ıme odhad s omezen´ımi dan´ ymi pˇr´ısluˇsn´ ymi nerovnostmi. Budeme tedy pˇredpokládat, ˇze jsme, podobnˇe jako v´ yˇse provedli (neeficientn´ı) odhad regresn´ıch koeficient˚ u a spoˇcetli na základˇe rezidu´ı odhad kovarianˇcn´ı matice Σ. V druhém kroku pak budeme ˇreˇsit u ´lohu (srovnej se (133) ) ˆ −1 (π − Xβ) βˆ(C,n) = arg min (π − Xβ)T Σ β∈Rp

pˇri vedlejˇs´ıch podm´ınkách Xβ ≤ 1

(134)

Xβ ≥ 0.

(135)

a Pˇripom´ınáme, ˇze symbolem 1 jsme v Tvrzen´ı 8 oznaˇcili vektor maj´ıc´ı vˇsechny souˇradnice rovné jedné. Na druhé stranˇe jsme vˇsak v pˇredchoz´ım textu pro nulov´ y vektor bˇeˇznˇe uˇz´ıvali symbol 133

0 a nikoliv 0, nebot’ z kontextu bylo zˇrejmé o co jde. Pˇridrˇzeli jsme se proto tohoto oznaˇcen´ı i nyn´ı. V nˇekter´ ych pˇr´ıpadech, a tyto nemus´ı b´ yt tak ojedinˇelé, jak by se na prvn´ı pohled mohlo zdát, budeme a priori znát body faktorového prostoru, ve ktr´ ych bude v budoucnu poˇzadov´ ana ˜ predikce pˇr´ısluˇsn´ ych pravdˇepodobnost´ı. Necht’ tyto body jsou oznaˇceny matic´ı X (typu (p × m), ˇreknˇeme). Pak se ovˇsem naˇse u ´loha rozˇs´ıˇr´ı jeˇstˇe o omezen´ı ˜ ≤1 Xβ

(136)

˜ ≥ 0. Xβ

(137)

a Kombinace obou pár˚ u omezen´ı dá ·

W −W

¸

·

β≤

kde

"

W =

X ˜ X

1 0

¸

,

(138)

#

.

M˚ uˇzeme tedy napˇr. uvaˇzovat Lagrageovou funkci ˆ −1 (π − Xβ) + 2λT1 (1 − W β) + 2λT2 W β, L(β, λ1 , λ2 ) = (π − Xβ)T Σ kde λ1 a λ2 jsou vektory Lagrangeov´ ych multiplik´ ator˚ u (oba z Rn+m ). Budeme tedy ˇreˇsit soustavu ˆ −1 (π − Xβ) − W λ1 + W λ2 , −X T Σ 1 − W β ≥ 0,

λT1 (1 − W β) = 0,

W β ≥ 0 a λT2 W β = 0. Oznaˇc´ıme-li u1 = 1 − W β a u2 = W β, lze u ´lohu pˇrepsat na ˆ −1 π = W λ2 − W λ1 + X T Σ ˆ −1 Xβ, XT Σ 1 = W β + u1 ,

0 = −W β + u2 ,

λT1 u1 = 0,

λT2 u2 = 0

pˇri podm´ınkách nezápornosti λ1 ≥ 0,

λ2 ≥ 0,

u1 ≥ 0 a u2 ≥ 0.

Vzhledem k linearitˇe systému rovnic, lze tuto u ´lohu ˇreˇsit pomoci simplexové metody, pro kterou je dnes jiˇz pomˇernˇe snadno dostupn´ y software.

134

8.2.4

Odhady parametr˚ u v probitov´ em a logitov´ em modelu

Dˇr´ıve neˇz se pust´ıme do studia moˇznost´ı odhadu regresn´ıch koeficient˚ u pro probitov´ y a logitov´ y model, vrat’me se krátce k d˚ uvod˚ um, které vedly k tomu, ˇze byly vybrány právˇe tyto dvˇe distribuˇcn´ı funkce. Za touto volbou stoj´ı zhruba tato logika. Pˇredpoklád´ ame, ˇze se i-t´ y subjekt (domácnost, firma, agent atd.) t´ım sp´ıˇse rozhodne pro variantu Ai (coˇz jsme formalizovali jako Yi = 1), ˇc´ım vˇetˇs´ı bude hodnota v´ yrazu xTi β 0 , kde ovˇsem β 0 nezn´ ame a chceme je odhadnout. Pokud je hodnota tohoto v´ yrazu implicitnˇe závisl´ a na mnoha nezávisl´ ych a v podstatˇe náhodn´ ych faktorech, ˇci chcete-li jevech, jejichˇz vliv se agreguje, pak centr´ aln´ı limitn´ı vˇeta, aplikovan´ a T 0 znaˇcnˇe neformálnˇe, napov´ıdá, ˇze rozdˇelen´ı “veliˇciny” Zi = xi β je pˇribliˇznˇe normáln´ı a tedy pravdˇepodobnost toho, ˇze rozhodnut´ı bude ve prospˇech varianty Ai je rovna Φ(xTi β 0 ), kde jsme pouˇzili symbol Φ pro distribuˇcn´ı funkci standardn´ıho normáln´ıho rozdˇelen´ı. Volba logistické distribuˇcn´ı funkce pak souvis´ı s faktem, ˇze tato docela sluˇsnˇe aproximuje normáln´ı distribuci a je jednoduchá z technického hlediska. V nˇekter´ ych monografi´ıch se pˇri tomto zd˚ uvodnˇen´ı tvrd´ı, ˇze logistická d. f. aproximuje standarn´ı normáln´ı velmi dobˇre a tento argument je stále znova pˇrej´ımán dalˇs´ımi autory, aniˇz by skuteˇcnˇe ovˇeˇrili, jak “daleko” od sebe tyto distribuce skuteˇcnˇe jsou; uved’me tedy pro poˇrádek, ˇze max |Φ(t) − Flogistická (t)| = 0.1174 t∈R

a toto maximum nastává v bodech t = 1.3246 a t = −1.3246. Podobnˇe jako v´ yˇse budeme pˇredpokládat, ˇze máme opakovaná pozorov´ an´ı v jednotliv´ ych bodech faktorového prostoru. Ostatnˇe jinak bychom nebyli schopni odhadnout kovarianˇcn´ı matici Σ, jak jsme jiˇz v´ yˇse nˇekolikrát pˇripomˇeli, ale také regresn´ı model (133) by trochu “ztrácel na lesku”, nebot’ by bylo podivné odhadovat pravdˇepodobnost Pi nˇejakou hodnotou πi vypoˇc´ıtanou na základˇe jednoho pozorov´ an´ı. V dalˇs´ım v´ ykladu rozliˇs´ıme dva pˇr´ıpady, totiˇz • máme k dispozici dostateˇcné mnoˇzstv´ı opakov´ an´ı a • máme k dispozici jen nˇekolik opakov´ an´ı. Pˇrirozenˇe je na uˇzivateli posoudit, kdy je vhodnˇejˇs´ı, pro daná data, pouˇz´ıt ten ˇci onen pˇr´ıstup. Postup pro pˇ r´ıpad, kdy je k dispozici dostateˇ cn´ e mnoˇ zstv´ı opakov´ an´ı Studujme nejprve probitový model. Pˇripomeˇ nme, ˇze uvaˇzujeme model πi = Pi + Ei = Φ(xTi β) + Ei ,

i = 1, 2, ..., n,

(139)

kde πi je odhad teoretické pravdˇepodobnosti, ˇze se i-t´ y subjekt rozhodne pro variantu Ai . Odhad πi je zaloˇzen na ni opakován´ıch pozorov´ an´ı i-tého subjektu, tj. na opakov´ an´ıch pozorován´ı v i-tém bodˇe faktorového prostoru, ˇreˇceno v terminologii, kterou jsme pouˇz´ıvali pro “klasick´ y” regresn´ı model. Protoˇze jistˇe zvol´ıme konsistentn´ı odhad πi , bude Ei konvergovat v pravdˇepodobnosti k nule pro ni → ∞. Vzhledem k tomu, co bylo ˇreˇceno v´ yˇse, totiˇz, ˇze pˇredpokládáme, ˇze Pi je pravdˇepodobnost toho, ˇze se i-t´ y subjekt rozhodne pro variantu Ai , 135

je pˇrirozené pˇredpokládat, ˇze πi bude maximálnˇe vˇerohodn´ y odhad této pravdˇepodobnosti, tj. poˇcet pˇr´ıpad˚ u, kdy se v ni pozorován´ıch i-t´ y subjekt rozhodl pro variantu Ai . Potom ovˇsem πi =

ni X yik k=1

ni

,

kde yik je k-tá realizace Bernoulliovské náhodné veliˇciny Yi nab´ yvaj´ıc´ı hodnoty 1 v pˇr´ıpadˇe, kdy se i-t´ y subjekt rozhodne pro variantu Ai a 0 v pˇr´ıpadˇe, kdy se rozhodne pro doplnˇek této varianty. Jin´ ymi slovy, zcela v souladu s v´ yˇse v této kapitole veden´ ymi u ´vahami Yi je náhodná veliˇcina, která nab´ yvá hodnoty 1 s pravdˇepodobnost´ı Pi a hodnoty 0 s pravdˇepodobnost´ı 1 − Pi . Odtud plyne, ˇze Pi (1 − Pi ) . IE Ei = 0 a var(Ei ) = ni Podotknˇeme jeˇstˇe, ˇze v nˇekter´ ych monografi´ıch se právˇe uvedené vztahy “deklaruj´ı” bez specifikace typu odhad˚ u πi teoretick´ ych pravdˇepodobnost´ı Pi . Je sice pravda, ˇze podobn´ y v´ ysledek dostaneme pro vˇetˇsinu akceptovateln´ ych odhad˚ u pravdˇepodobnost´ı Pi , ale obecnˇe to nemus´ı √ platit. V podstatˇe to pˇredpokládá, ˇze odhad πi je nestrann´ y a ni -konsistentn´ı, tj. √ ni (πi − Pi ) = Op (1). Model (139) lze pˇrepsat do tvaru Φ−1 (πi ) = Φ−1 (Pi + Ei ), kde si pro nˇekolik dalˇs´ıch okamˇzik˚ u odpust´ıme neustálé opakov´ an´ı “pro i = 1, 2, ..., n”. Rozvinut´ım pomoci Taylorovy ˇrady dostaneme Φ−1 (πi ) = Φ−1 (Pi ) + Ei

dΦ−1 (Pi ) + Ri , dPi

kde Ri = O(1) · Ei2 a tedy Ri nejen konverguje k nule v pravdˇepodobnosti, ale je pˇrirozenˇe (opˇet v pravdˇepodobnosti) ˇrádovˇe menˇs´ı neˇz druh´ y ˇclen pravé strany posledn´ı rovnosti. Koneˇcnˇe tedy Φ−1 (πi ) ≈ Φ−1 (Pi ) + Ei

1 , φ(Φ−1 (Pi ))

(140)

kde jsme symbolem φ(t) oznaˇcili hustotu standardn´ıho normáln´ıho rozdˇelen´ı. Vzhledem k tomu, ˇze Φ−1 (Pi ) = xTi β 0 , m˚ uˇzeme pro ξi = Φ−1 (πi ) uvaˇzovat model ξi = xTi β 0 + Vi , kde ξi b´ yvá oznaˇcováno jako “napozorovan´ y” probit a xTi β 0 je “skuteˇcn´ y” (ve smyslu anglosaského true) probit. Nyn´ı pokud odhad πi pravdˇepodobnosti Pi byl nestrann´ y, máme z (140) Ei Vi ≈ φ(Φ−1 (Pi )) a tedy IE Vi ≈ 0

a

var(Vi ) ≈ 136

Pi (1 − Pi ) . ni (φ(Φ−1 (Pi )))2

(141)

Odhadneme-li tedy β 0 pomoci ³

ˆ −1 X βˆ(LS,n) = X T Σ

´−1

ˆ −1 ξ, XT Σ

ˆ je odhad kovarianˇcn´ı matice náhodn´ kde Σ ych fluktuac´ı Vi . Vzhledem k tomu, ˇze obvykle pˇredpokládáme (statistickou) nezávislost subjekt˚ u, tj. také statistickou nezávislost jev˚ u i-tý subjekt se rozhodl pro variantu Ai a j-tý subjekt se rozhodl pro variantu Aj , budou i náhodné fluktuace Ei statisticky nezávislé, a koneˇcnˇe pak totéˇz lze pˇredpokládat o fluktuac´ıch Vi . To znamená, ˇze odhad kovarianˇcn´ı matice Σ bude diagonáln´ı s t´ım, ˇze na diagonále budou stát právˇe odhady rozptyl˚ u uvedené v (141). Samozˇrejmˇe se nab´ızej´ı i jiné odhady, jak jsme ostatnˇe v´ yˇse zm´ınili. Napˇr. m˚ uˇzeme, pokud jsme si jisti t´ım, ˇze Pi = φ(xTi β 0 ), pouˇz´ıt odhad P˜i = Φ(ξî ) = Φ(xTi (X T X)−1 X T ξ). Pro logitový model lze postupovat obdobnˇe. Pˇripomeˇ nme, ˇze tento model pˇredpoklád´ a, ˇze Pi = P (Ai |xi ) = coˇz implikuje

µ

Pi ln 1 − Pi

1 , 1 + exp{xTi β 0 } ¶

= xTi β 0 .

Vzhledem k tomu, ˇze jsme pˇredpokládali regresn´ı model (139), máme πi Pi + Ei = . 1−π 1 − Pi − Ei Rozvineme-li pravou stranu pomoci Taylorova rozvoje v bodˇe

Pi 1−Pi

a vezmeme-li v u ´vahu, ˇze

Pi Ei Ei Pi + Ei − = ≈ , 1 − Pi − Ei 1 − Pi (1 − Pi − Ei )(1 − Pi ) (1 − Pi )2 dostaneme

µ

πi ln 1 − πi

¶

µ

Pi = ln 1 − Pi

¶

+

Ei + Ri , Pi (1 − Pi )

kde podobnˇe jako v´ yˇse Ri = Op (Ei2 ), tj. konverguje za dosti obecn´ ych podm´ınek v pravdˇepodobnosti k nule pro ni → ∞. Máme tedy µ

ln ³

Poloˇz´ıme-li tedy ζi = ln

πi 1−πi

πi 1 − πi

¶

≈ xTi β 0 +

Ei . Pi (1 − Pi )

´

a budeme-li uvaˇzovat model ζi = xTi β 0 + Ui ,

budeme m´ıt Ui ≈

Ei Pi (1−Pi )

a tedy IE Ui ≈ 0

a

var(Ui ) =

1 . ni Pi (1 − Pi )

Dalˇs´ı postup je naprosto shodn´ y s postupem pro probitový model.

137

Postup pro pˇ r´ıpad, kdy je k dispozici jen nˇ ekolik opakov´ an´ı Pˇripomeˇ nme, ˇze jsme v´ yˇse ukázali, ˇze v právˇe diskutovan´ ych modelech se nevyhnutelnˇe setkáme s heteroskedasticitou. Máme-li vˇsak k dispozici jen mal´ y poˇcet opakov´ an´ı, pˇr´ıpadnˇe jen jedno, v i-tém bodˇe faktorového prostoru, nejsme schopni odhadnout rozptyl vysvˇetlované veliˇciny v tomto bodˇe a tedy ani kovarinˇcn´ı matici Σ. Znamená to, ˇze se nejsme schopni vyrovnat s heteroskedasticitou pomoci zobecnˇeného odhadu nejmenˇs´ıch ˇctverc˚ u. Alternat´ıvn´ı moˇznost´ı je pouˇzit´ı maximálnˇe vˇerohodného odhadu. To samozˇrejmˇe ovˇsem znamená, ˇze podstatn´ ym zp˚ usobem “vstoup´ı do hry” a priorn´ı informace o rozdˇelen´ı F (pozor, zde se nejedná o rozdˇelen´ı náhodn´ ych fluktuac´ı Ei v modelu (133), ale o distribuˇcn´ı funkci F popisuj´ıc´ı závislost Pi na xTi β 0 ). Dˇr´ıve neˇz zaˇcneme s vlastn´ım v´ ykladem pˇripomeˇ nme znovu na jednu formáln´ı vˇec. V pˇredchoz´ı pasáˇzi jsme oznaˇcovali pomoci ni poˇcet opakov´ an´ı pozorov´ an´ı v i-tém bodˇe faktorového prostoru a mylnˇe by se mohlo zdát, ˇze Yi oznaˇcovalo poˇcet pˇr´ıpad˚ u ze zm´ınˇen´ ych ni opakov´ an´ı, kdy se i-t´ y subjekt rozhodl pro prvn´ı alternativu. Ve skuteˇcnosti jsme ale pˇredpokládali, ˇze to, co vstupuje do diskutovan´ ych regresn´ıch model˚ u, jsou probity (tj. Φ−1 (πi )), pˇr´ıpadnˇe logπi ) a Yi oznaˇcovalo náhodnou veliˇcinu nab´ yvaj´ıc´ı hodnotu 1 pro pˇr´ıpad, kdy se i-t´ y ity (tj. 1−π i subjekt rozhodl pro prvn´ı alternativu. Odtud plyne, ˇze pokud bylo pozorov´ an´ı na i-tém subjektu ni -krát opakováno, máme ni realizac´ı veliˇciny Yi , které jsme oznaˇcili yi1 , yi2 , ..., yini (coˇz je posloupnost nul a jedniˇcek), a poˇcet pˇr´ıpad˚ u, kdy se i-t´ y subjekt rozhodl pro prvn´ı variantu P i je nj=1 yij . Protoˇze toto ˇc´ıslo budeme dále potˇrebonat v následuj´ıc´ım odstavci diskutuj´ıc´ım pouˇzit´ı probitového a logitového modelu, oznaˇcme je mi . Uvˇedomme si jeˇstˇe, ˇze vˇsechna tato pozorován´ı (mˇeˇren´ı) byla provedena ve stejném bodˇe faktorového prostoru, jak jsme uˇz jednou v´ yˇse zd˚ uraznili, tj. xi1 = xi2 = ... = xini . Vr´ at´ıme-li se tedy k tomu, ˇze jsme pˇredpokládali, ˇze do diskutovan´ ych regresn´ıch model˚ u vstupuj´ı probity a logity, máme jakási “p˚ uvodn´ı” data vlastnˇe sdruˇzena do onˇech K skupin, v matici plánu vystupuje pˇr´ısluˇsn´ y bod xi jen jednou, matice má K ˇrádk˚ u (a p sloupc˚ u) a jako vysvˇetlovan´ a veliˇcina vystupuje napozorovan´ y probit PK ˇci logit. Celkov´ y poˇcet pozorován´ı je pak n = i=1 ni . Vzhledem k tomu, ˇze jsme pˇredpokládali, ˇze Pi = P (Yi = 1) je pravdˇepodobnost, ˇze se i-t´ y subjekt rozhodne pro prvn´ı alternativu (a 1 − Pi = P (Yi = 0)), máme vˇerohodnostn´ı funkci `=

K Y

PiYi (1 − Pi )1−Yi =

K Y

³

´1−Yi

[F (xTi β)]Yi 1 − F (xTi β)

i=1

i=1

a koneˇcnˇe logaritmus vˇerohodnostn´ı funkce bude ln ` =

K n X

o

Yi ln(F (xTi β)) + (1 − Yi )ln(1 − F (xTi β)) ,

(142)

i=1

kde volbou F = Φ, pˇr´ıpadnˇe F = Flogistická specifikujeme situaci pro probitov´ y ˇci logitov´ y model. Hledán´ı extrému je pak numerická záleˇzitost a m˚ uˇze b´ yt provedeno napˇr. Newton-Raphsonovou metodou, tj. budeme poˇc´ıtat iterativnˇe odhady 

βˆ(r+1)

−1 "

¯

∂ 2 ln ` ¯¯  = βˆ(r) −  ¯ ∂β∂β T ¯β=βˆ (r)

138

¯

#

∂ln ` ¯¯ , ∂β ¯β=βˆ(r)

kde doln´ı index (r) oznaˇcuje krok v iterativn´ım procesu. Odhady budeme “opakovat” tak dlouho aˇz se tyto stabilizuj´ı. O odhadu z´ıskaném touto cestou je známo, ˇze má asymptoticky normáln´ı rozdˇelen´ı (Judge a kol. (1980)), tj. 

´ √ ³ n βˆ − β 0 → N 0, lim

n→∞

"

1 ∂ 2 ln ` − IE n ∂β∂β T

#−1  ,

kde se samozˇrejmˇe mus´ı pˇredpokládat, ˇze naznaˇcen´ a limita existuje. Podotknˇeme jeˇste, ˇze uvedená stˇredn´ı hodnota (v kovarianˇcn´ı matici) mus´ı b´ yt uvaˇzov´ ana vzhledem ke “skuteˇcnému rozdˇelen´ı” G, tj. nikoliv v˚ uˇci F . To m˚ uˇze zp˚ usobit, ˇze asymptotick´ y rozptyl odhadu βˆ(r) m˚ uˇze b´ yt (podstatnˇe) vˇetˇs´ı neˇz bychom oˇcekávali. Jinou moˇznost´ı je pouˇz´ıt metodu skrov´ an´ı, viz napˇr. Judge a kol. (1980). Nˇekdy mohou nastat pot´ıˇze se stanoven´ım poˇc´ ateˇcn´ıho odhadu pro iterativn´ı proces. Obvykle je vˇsak moˇzno pouˇz´ıt i dosti hrub´ y odhad, nebot’ je známo, ˇze napˇr. pro probitov´ y a logitov´ y model tato volba nehraje asymptoticky ˇz´ adnou roli, viz Dhrymes (1978). Je pˇrirozené, ˇze z numerického hlediska vˇsak volba poˇcáteˇcn´ıho odhadu hraje podstatnou roli. Bohuˇzel vˇsak neexistuje spolehlivé doporuˇcen´ı, jak v tomto pˇr´ıpadˇe postupovat. 8.2.5

Diskuze k pouˇ zit´ı probitov´ eho a logitov´ eho modelu

Pro alespoˇ n ˇcásteˇcnou u ´plnost dodejme, ˇze model πi = F (xTi β) + Ei , i = 1, 2, ..., K byl studován i pro jiná rozdˇelen´ı F neˇz jen Φ a Flogistická , viz napˇr. Zellner, Lee (1965), nicménˇe obl´ıbenost probitového a logitopvého modelu daleko pˇrevyˇsuje jiné aplikace. U probitového modelu jde patrnˇe o to, ˇze za modelem je alespoˇ n jakási heuristika a také pro obl´ıbenost normáln´ıho rozdˇelen´ı. U logitového modelu hraje jistˇe roli jeho technick´ a jednoduchost pˇri zpracov´ an´ı. Pˇr´ıklady (a to dosti obsáhlé) pouˇzit´ı probitového a logitového modelu lze nalézt v pracech McFadden, D. (1976), Hensher, Johnson (1981) nebo Amemiya (1981). V´ yˇse jsme se zm´ınili, jak je tˇreba s opatrnost´ı interpretovat odhady regresn´ıch koeficient˚ u, dokonce jejich znaménka, viz závˇer kapitoly Výstupy z poˇc´ıtaˇcových knihoven. Zde k tomu jeˇstˇe pˇristupuje to, ˇze i kdyˇz budou napˇr. regresory nezávislé a tedy pot´ıˇz, na kterou jsme v právˇe pˇripomenuté kapitole upozorˇ novali (a která mˇela své koˇreny právˇe ve vysokém stupni lineárn´ı závislosti mezi vysvˇetluj´ıc´ımi promˇenn´ ymi), odpadne, velikost odhad˚ u regresn´ıch koeficient˚ u neindikuje velikost zmˇeny vysvˇetlované veliˇciny (tj. pˇr´ısluˇ e pravdˇ epodobnosti Pi ), ale sp´ıˇse ³ sn´ ´ Pi −1 zmˇeny Φ (Pi ) pro probitov´ y model, a velikosti zmˇeny ln 1−Pi pro logitov´ y model. Snadno se nahlédne, ˇze pˇr´ısluˇsn´ ym indikátorem velikosti e pravdˇepodobnosti v závislosti ³ zmˇ ´ eny odhadovan´ T na zmˇenˇe j-té souˇradnice bodu xi bude f xi β βj , kde f je hustota pˇr´ısluˇsn´ a k F. 0 0 0 Ukaˇzme si nyn´ı, jak by se otestovala hypotéza H0 : β2 = β3 = ... = βp = 0 proti alternativˇe ˆ kde βˆ je odhad poˇr´ızen´ H1 : β 0 = β, y nˇekterou metodou popsanou v´ yˇse v této kapitole. Uˇciˇ nme tak pro jednoduch´ y pˇr´ıpad, kdy bylo provedeno n opakovan´ ych mˇeˇren´ı na jednom subjektu, tj. p v nˇekterém bodˇe x ∈ R a kdy se v m pˇr´ıpadech tento rozhodl pro prvn´ı variantu. Uvˇedomme si, ˇze pˇri hypotéze H0 máme xT β = x1 β1 a oznaˇcme γ = F (x1 β1 ) (kde doln´ı index 1 oznaˇcuje 139

vyj´ımeˇcnˇe prvn´ı souˇradnici bod˚ u x a β). Potom (uvˇedomme si, ˇze xi = x pro i = 1, 2, ..., n) ln ` (H0 ) = arg max γ∈R

n n X

yi ln(F (xTi β)) + (1 − yi )ln(1 − F (xTi β))

o

i=1

= arg max {mlnγ + (n − m)ln(1 − γ)} = mln γ∈R

m n−m + (n − m)ln( ). n n

Oznaˇcme jeˇstˇe hodnotu logaritmu vˇerohodnostn´ı funkce pro hypotézu H1 , kterou dostaneme dosad´ıme-li odhad βˆ do (142), symbolem ln`(H1 ). Za pˇr´ısluˇsnou testovou statistiku vezmeme pak logaritmus vˇerohosnostn´ıho pomˇeru, tj. −2 [ln`(H0 ) − ln`(H1 )] ,

(143)

která má asymptoticky rozdˇelen´ı χ2 (p − 1). Pokud by bylo provedeno pozorován´ı (mˇeˇren´ı) na K subjektech, na kaˇzdém ni -krát právˇe uvedené u ´vahy by se zkomplikovaly, a to nejen po formáln´ı stránce, ale i po stránce vˇecné. Patrnˇe bychom totiˇz chtˇeli m´ıt v´ıce “parametr˚ u” γ, ale nulov´ a hypotéza H0 striktnˇe vzato ve formalizmu, kter´ y jsme pouˇz´ıvali v odstavci “Postup pro pˇr´ıpad, kdy je k dispozici dostateˇcné mnoˇzstv´ı opakov´ an´ı”, popisuje situaci, kdy Pi = const, i = 1, 2, ..., K. Uˇzivatelé probitov´ ych a logitov´ ych model˚ u se také ˇcasto zaj´ımaj´ı o analogii koeficientu determinace pro tyto modely. Odkazujeme proto na práci Amemiya (1981), (1981) ve které je podrobnˇejˇs´ı diskuze k tomuto tématu. Zde jen uved’me, ˇze patrnˇe nejbˇeˇznˇeji pouˇz´ıvané statistiky jsou bud’ χ2 uvedená v (143) nebo “pseudo-R2 ” definovan´ y jako ρ2 = 1 −

ln`(H0 ) . ln`(H1 )

Jak vypl´ yvá z v´ yˇse uvedeného v´ ykladu a diskuze, jsou probitové a logitové modely vlastnˇe jakousi “berliˇcku” pro data, pro která nen´ı regresn´ı model pˇr´ımo urˇcen. Ostatnˇe v nˇekter´ ych statistick´ ych knihovnách jsou probitové a logitové modely zaˇclenˇeny do nelineárn´ıch odhad˚ u, nelineárn´ı regrese ˇci maj´ı sv˚ uj speciáln´ı odd´ıl. Proto b´ yv´ a také studov´ ana jejich v´ ykonnost ve srovnán´ı s jin´ ymi metodami, napˇr. s diskriminaˇcn´ı anal´ yzou, viz Press, Wilson (1978) nebo Amemiya, Powell (1980) nebo regresn´ımi stromy, viz Breiman a kol. (1984).

8.3

Model s kategori´ aln´ımi vysvˇ etluj´ıc´ımi promˇ enn´ ymi

ˇ Casto se stává, ˇze nˇekterá promˇenná v datech má charakter kategori´ aln´ı nebo kvalitativn´ı promˇenné, jako je napˇr. sex, rasa, vˇekov´ a kategorie, státn´ı pˇr´ısluˇsnost, pˇr´ısluˇsnost k nˇekteré politické stranˇe, barva, druh materiálu, zp˚ usob zpracov´ an´ı, doba vzniku, osobn´ı preference atd. Jedna z moˇznost´ı by zajisté byla rozdˇelit data na v´ıce soubor˚ u dle této kategori´ aln´ı promˇenné a zpracovat kaˇzd´ y soubor samostatnˇe. Na druhé stranˇe, pokud se budeme domn´ıvat, ˇze vysvˇetlovan´ a veliˇcina byla generována jak´ ymsi “mechanizmem’, kter´ y je spoleˇcn´ y pro vˇsechna data v souboru a pouze pro jednotlivé kategorie obsahoval jin´ y absolutn´ı ˇclen, m˚ uˇzeme data zpracovat naráz, coˇz povede k tomu, ˇze informace o tˇech koeficientech, které jsou spoleˇcné pro vˇsechny kategorie bude lépe vyuˇzita. Znamená to tedy, ˇze potˇrebujeme formálnˇe zapsat model, kter´ y automaticky zvol´ı pro dané pozorován´ı absolutn´ı ˇclen dle pˇr´ısluˇsnosti daného pozorov´ an´ı (daného jedince) k té 140

ˇci oné kategorii. Pˇredpokládejme, ˇze naˇse data obsahuj´ı kategori´ aln´ı promˇennou (pro jednoduchost pouze jednu; zobecnˇen´ı na v´ıce kategori´ aln´ıch promˇenn´ ych je pˇr´ımoˇcaré), která nab´ yv´ aK hodnot (stav˚ u). Regresn´ı model pak m˚ uˇzeme psát ve tvaru Yi = Zγ + Xβ 0 + Ei , i = 1, 2, ..., n, kde Z je matice typu (n × K) a plat´ı, ˇze zik = 1 pokud i-té pozorov´ an´ı patˇr´ı do k-té kategorie, k = 1, 2, ..., K). Pokud bychom vˇsechna pozorov´ an´ı patˇr´ıc´ı do prvn´ı kategorie um´ıstili na zaˇc´ atek dat, za nˇe um´ıstili vˇsechna pozorován´ı patˇr´ıc´ı do druhé kategorie, atd. a pokud oznaˇc´ıme `k poˇcet pozorován´ı patˇr´ıc´ıch do k-té kategorie, bude matice plánu vypadat takto                    [Z, X] =                   

1 0 0 . . . 0 x1,1 1 0 0 . . . 0 x2,1 .. .. .. .. .. . . . . . 1 0 0 . . . 0 x`1 ,1

x1,2 x2,2 .. .

. . . x1,p . . . x2,p .. .

x`1 ,2

...

0 1 0 . . . 0 x`1 +1,1 0 1 0 . . . 0 x`1 +2,1 .. .. .. .. .. . . . . . 0 1 0 . . . 0 x`1 +`2 ,1 .. .. .. .. .. . . . . . .. .. .. .. .. . . . . . .. .. .. .. .. . . . . .

x`1 +1,2 x`1 +2,2 .. .

... ...

x`1 +`2 ,2 .. . .. . .. .

...

0 0 0 . . . 1 x`1 +`2 +...+`K−1 +1,1 0 0 0 . . . 1 x`1 +`2 +...+`K−1 +2,1 .. .. .. .. .. . . . . . 0 0 0 . . . 1 x`1 +`2 +...+`K ,1

x`1 +`2 +...+`K−1 +1,2 . . . x`1 +`2 +...+`K−1 +2,2 . . . .. . x`1 +`2 +...+`K ,2



       x`1 ,p    x`1 +1,p   x`1 +2,p   ..  .    x`1 +`2 ,p .  ..   .  ..   .   ..  .   x`1 +`2 +...+`K−1 +1,p   x`1 +`2 +...+`K−1 +2,p    ..  . 

. . . x`1 +`2 +...+`K ,p

Odhad regresn´ıch koeficient˚ u lze provést pomoc´ı bˇeˇzného odhadu metodou nejmenˇs´ıch ˇctverc˚ u, kter´ y bude vypadat takto "

γˆ (LS,n) βˆ(LS,n)

#

³

´−1

= [Z, X]T [Z, X]

[Z, X]T Y.

(144)

Jeˇstˇe jednou pˇripom´ınáme, ˇze, jak je ostatnˇe zˇrejmé z tvaru matice plánu, pro kaˇzdou kategorii pozorován´ı je jakoby odhadnut “samostatnˇe” absolutn´ı ˇclen zat´ımco odhady ostatn´ıch koeficient˚ u modelu jsou “spoleˇcné”. Slovo jakoby a u ´vozovky u slov samostatnˇe a spoleˇcnˇe naznaˇcuj´ı, ˇze pˇri odhadu absolutn´ıho ˇclenu pro jednu, ˇreknˇeme k-tou kategorii, je ve skuteˇcnosti zprostˇredkovanˇe vyuˇzita i informace obsaˇzen´ a v pozorov´ an´ıch z jin´ ych kategori´ı, (viz (144). Komplikovanˇejˇs´ı by byla situace, kdy by bylo adekvátnˇejˇs´ı pˇredpokládat, ˇze pˇr´ısluˇsnost jednotlivého pozorován´ı do k-té kategorie je náhodn´ y jev, tj. ˇze matice Z je náhodná. Naˇstˇest´ı se s takovou situac´ı setkáme jen velmi zˇr´ıdka. Na druhé stranˇe, v takovém pˇr´ıpadˇe lze postupovat standardn´ım postupem, kter´ y aplikujeme v modelu s náhodn´ ymi vysvˇetluj´ıc´ımi promˇenn´ ymi. Jiˇz v´ yˇse bylo vysvˇetleno, v odstavci vˇenovanému instrument´ aln´ım promˇenn´ ym, jak je tˇreba v 141

takovém pˇr´ıpadˇe postupovat. “Jedin´ ym” problémem, kter´ y je v tom pˇr´ıpadˇe totiˇz tˇreba posoudit, je to zda náhodné fluktuace a ty vysvˇetluj´ıc´ı promˇenné, které povaˇzujeme za náhodné, jsou (asymptoticky) korelovány ˇci nikoliv. Slovo jediným je dáno do u ´vozovek, nebot’ se sice opravdu jedná jen o jedin´ y problém, ale za to dosti podstatn´ y a nikoliv snadno testovateln´ y. Na druhé stranˇe, vzhledem k tomu, ˇze konstanta je vˇzdy nezávisl´ a (a tedy také nekorelovan´ a) s jakoukoliv náhodnou veliˇcinou, máme nadˇeji, ˇze pokud nastane právˇe diskutovan´ a situace, pak, pokud bude pˇr´ısluˇsná kategoriáln´ı veliˇcina nab´ yvat jen malého poˇctu hodnot, bude (alespoˇ n asymptoticky) nekorelovaná s náhodn´ ymi fluktuacemi. Nˇekdy se m˚ uˇzeme setkat se situac´ı, kdy jsou mezi vysvˇetluj´ıc´ımi promˇenn´ ymi kvalitativn´ı, tak jak jsme si o tom pov´ıdali v této kapitole, ale kvalitativn´ı veliˇcina (znak) nab´ yv´ a tolika hodnot, ˇze patrnˇe nelze pro kaˇzdou odhadnout absolutn´ı ˇclen, nebot’ by vlastnˇe jeho hodnota byla odhadnuta z nˇekolika málo pozorov´ an´ı. V takovém pˇr´ıpadˇe patrnˇe nezb´ yv´ a, neˇz zkusit “nˇeco” jiného neˇz regresn´ı model. Jednou ménˇe známou, ale patrnˇe velmi efektivn´ı variantou je pouˇzit´ı regresn´ıch strom˚ u (regression trees), viz Breiman a kol. (1984). Myˇslenka je velmi jednoduchá, totiˇz rozdˇelit data na dvˇe (ˇci v´ıce ˇc´ ast´ı) dle kvalitativn´ı (kategori´ aln´ı) veliˇciny a to tak, aby co nejv´ıce poklesla variabilita vysvˇetlované veliˇciny v obou tˇr´ıd´ ach. Jak jsme ˇrekli, myˇslenka je to velmi jednoduchá a snadno akceptovateln´ a, proveden´ı je znaˇcnˇe komplikované. Uvˇedomme si, ˇze pokud pˇr´ısluˇsná kategori´ aln´ı promˇenn´ a nab´ yv´ a k “hodnot” (stav˚ u), lze data k−1 rozdˇelit do dvou skupin 2 − 1 zp˚ usoby. Nav´ıc kategori´ aln´ıch promˇenn´ ych m˚ uˇze b´ yt v´ıce, v datech mohou chybˇet nˇekteré u ´daje (missing values) atd. Proto také b´ yv´ a software pro tuto metodu znaˇcnˇe drah´ y.

8.4

Vysvˇ etluj´ıc´ı promˇ enn´ e mˇ eˇ ren´ e s n´ ahodn´ ymi chybami

Na samém zaˇcátku skript jsme diskutovali, co by znamenalo to, kdybychom náhodné fluktuˇ ace vysvˇetlované veliˇciny interpretovali jako chyby mˇeˇren´ı. Rekli jsme, ˇze pak bychom museli posoudit, zda nen´ı adekvátn´ı uvaˇzovat o tom, ˇze také (nˇekteré) vysvˇetluj´ıc´ı promˇenné mohou b´ yt mˇeˇreny s nezanedbatelnou (náhodnou) chybou. Poznamenali jsme, ˇze pak je tˇreba uvaˇzovat o jiném tvaru regresn´ıho modelu a jiném pˇr´ıstupu k odhadu jeho parametr˚ u (koeficient˚ u). Jednoduch´ y model této situace jsme si uˇz ukázali v jednom z pˇredchoz´ıch odstavc˚ u. Nyn´ı si ukáˇzeme obecnˇejˇs´ı tvar takového modelu. Podobnˇe jako dˇr´ıve budeme pˇredpokládat, ˇze vysvˇetlovaná promˇenná lineárnˇe závis´ı na sadˇe vysvˇetluj´ıc´ıch promˇenn´ ych, tedy pˇresnˇeji ˇreˇceno na skuteˇcn´ ych hodnotách tˇechto vysvˇetluj´ıc´ıch promˇenn´ ych Y = Zγ 0 + X ∗ β 0 + V,

(145)

kde Z pˇredstavuje tu ˇcást matice plánu, která zahrnuje ty vysvˇetluj´ıc´ı promˇenné, jejichˇz chyba mˇeˇren´ı je malá ve srovnán´ı s rozptylem náhodn´ ych fluktuac´ı. V matici X ∗ jsou zahrnuty skuteˇcné hodnoty tˇech regresor˚ u, jejichˇz mˇeˇren´ı je zat´ıˇzeno nezanedbatelnou chybou, tj. v matici X ∗ jsou hodnoty, které nám vˇsak nejsou pˇr´ıstupny. My máme k dispozici pouze matici X namˇeˇren´ ych hodnot tˇechto regresor˚ u, tj. hodnot, které jsou zat´ıˇzeny (znaˇcnou) chybou mˇeˇren´ı. Form´ alnˇe to znamená, ˇze X = X ∗ + U. (146)

142

Pˇrirozenˇe, ˇze stejnˇe jako pro náhodné fluktuace E pˇredpoklád´ ame, ˇze IE U = 0 a nav´ıc IE Ui V T = 0, kde Ui je i-t´ y ˇrádek matice U , tj. na pravé stranˇe posledn´ı rovnosti stoj´ı matice nul. Symboly 0 0 γ a β jsme oznaˇcili vektory regresn´ıch koeficient˚ u a V jsou samozˇrejmˇe náhodné fluktuace. Jestliˇze (146) dosad´ıme do (145), dostaneme Y = Zγ 0 + Xβ 0 + E = W δ 0 + E (W = (Z, X), δ 0 = (γ 0 , β 0 ) a E = V − U β 0 ). Zcela analogicky jako pˇri studiu klasického regresn´ıho modelu budeme pˇredpokládat, ˇze existuj´ı regulárn´ı matice Qzz , Qzx a Qxx tak, ˇze lim

n→∞

1 T Z Z = Qzz , n

1 T Z X = Qzx n 1 lim X T X = Qxx n→∞ n lim

n→∞

(147)


(148)

v pravdˇepodobnosti

(149)

(viz (14)) a nav´ıc, ˇze lim

n→∞

1 T U U = Σuu n

v pravdˇepodobnosti.

Nen´ı tˇeˇzké zjistit, ˇze bˇeˇzn´ y ˇci chcete-li naivn´ı odhad metodou nejmenˇs´ıch ˇctverc˚ u "

δˆ =

γˆ (n) βˆ(n)

#

³

= WTW

´−1

³

WTY = WTW

´−1

³

´

³

W T W δ0 + E = δ0 + W T W

´−1

WTE (150)

m˚ uˇze b´ yt obecnˇe vych´ ylen´ y a nen´ı konsistentn´ı, nebot’ lim

n→∞

1 1 T X E = lim U T (V − U β 0 ) = −Σuu β 0 n→∞ n n


Poznamenejme jeˇstˇe, ˇze z toho, jak jsme zavedli matice Q (viz (147), (148) a (149)) máme 1 lim W T W = n→∞ n a

1 lim W T E = n→∞ n

·

·

¸

Qzz Qzx QTzx Qxx 0 −Σuu β 0

v pravdˇepodobnosti

(151)

¸


(152)

Vztah (152) by mohl svádˇet k tomu, ˇze vektor γ 0 bude odhadnut nestrannˇe. Snadno vˇsak nahlédneme ze vztahu (150), ˇze pˇri v´ ypoˇctu γˆ(n) figuruje cel´ y vektor stoj´ıc´ı na pravé stranˇe vztahu (152). Potom tedy dostaneme "

lim

n→∞

γˆ (n) − γ 0 βˆ(n) − β 0

#

·

=

−1 0 −1 T Q−1 zz Qzx (Qxx − Qzx Qzz Qzx ) Σuu β −1 0 −(Qxx − QTzx Q−1 zz Qzx ) Σuu β

¸

.

(153)

Proto ani ta ˇcást vektoru regresn´ıch koeficient˚ u, která odpov´ıd´ a tˇem regresor˚ um, které jsou mˇeˇreny “pˇresnˇe”, nen´ı odhadnuta nestrannˇe. Bez pˇrijet´ı dalˇs´ıch pˇredpoklad˚ u, specifikuj´ıc´ı ponˇekud v´ıce celou situaci se bohuˇzel dá jen tˇeˇzko nˇeco usoudit o velikosti a smˇeru vych´ ylen´ı odhad˚ u γˆ(n) a βˆ(n) . Pokud vˇsak napˇr. nastane pˇr´ıpad, ˇze je s chybami mˇeˇrena jen jedna vysvˇetluj´ıc´ı promˇenn´ a, pak Σuu = σu2 (ˇreknˇeme) 143

2 2 ı rovnost zavedla oznaˇcen´ı pro rozptyl veliˇciny a (Qxx − QTzx Q−1 zz Qzx ) = σx (1 − Rxz ) (kde posledn´ 2 ) jsou x a pro koeficient mnohonásobné korelace mezi x a Z). Protoˇze jak σu2 tak σx2 (1 − Rxz nezáporné, je vych´ ylen´ı odhadu koeficientu β 0 vˇzdy negativn´ı, tj. dojde k podcenˇen´ı. Jak vˇsak m˚ uˇzeme nahlédnout z (153), vych´ ylen´ı odhadu koeficientu γ 0 závis´ı na Q−1 zz Qzx a nelze je tedy bez znalosti této matice v´ıce popsat. Pokud je vˇsak náˇs model extrémnˇe jednoduch´ y, tj. obsahuje pouze jednu vysvˇetluj´ıc´ı, tj. Z = 0, která je mˇeˇrena s náhodn´ ymi chybami, pak vych´ ylen´ı odhadu 0 koeficientu β je dáno vztahem

³

lim

n→∞

8.5

´

0 2

β σ βˆ(n) − β 0 = − 2 u σx


Aproximace nepˇ r´ıstupn´ ych vysvˇ etluj´ıc´ıch veliˇ cin

Model (145) je formálnˇe podobn´ y modelu modelu, ve kterém vystupuj´ı vysvˇetluj´ıc´ı promˇenné, které nem˚ uˇzeme pˇr´ımo mˇeˇrit, ale jsme o nich pˇresvˇedˇceni, ˇze jsou relevantn´ı pro vysvˇetlen´ı veliˇciny Y . Pˇr´ıkladem m˚ uˇze b´ yt situace, kdy se budeme snaˇzit vysvˇetlit v´ yˇsi pˇr´ıjmu fyzick´ ych osob na základˇe r˚ uzn´ ych faktor˚ u. Jedn´ım z faktor˚ u bude nepochybnˇe u ´roveˇ n vzdˇel´ an´ı, kterého dotyˇcn´ y(á) dosáhl. Okamˇzitˇe nám vˇsak bude jasné, ˇze u ´roveˇ n vzdˇel´ an´ı bude závisl´ a nejen od poˇctu let stráven´ ych ve ˇskoln´ıch lavic´ıch, ale také od typu a hlavnˇe kvality ˇskoly, kterou navˇstˇevoval. To bychom mohli jeˇstˇe nˇejak zohlednit, ale jednak by to bylo obt´ıˇzné, tedy pˇrinejmenˇs´ım technicky komplikované, jednak by to stále jeˇstˇe nevystihlo vˇsechny problémy, které jsou s u ´rovn´ı vzdˇelán´ı spojeni. Nˇekdo dalˇs´ı by totiˇz mohl nam´ıtnou, ˇze je tˇreba vz´ıt v u ´vahu to, jak´ ych známek dotyˇcn´ y dosáhl (coˇz uˇz by ani nemuselo b´ yt zjistitelné), ale pak pˇrijde dalˇs´ı a ˇrekne, ˇze pˇreci ˇ na té ˇskole byli r˚ uznˇe pˇr´ısn´ı examinátoˇri atd. Casto v takovém pˇr´ıpadˇe “rezignujeme” a prostˇe nahrad´ıme veliˇcinu, o které c´ıt´ıme, ˇze je relevantn´ı, veliˇcinou, která ji (v´ıce ˇci ménˇe) dobˇre aproximujeme. Anglosaské literatuˇre se mluv´ı o proxy variables a v posledn´ı dobˇe se toto oznaˇcen´ı, totiˇz proxy promˇenné zaˇcalo uj´ımat i u nás. Jazykov´ y puristi asi budou proteslovat, ale pokud autor toho ˇci onoho textu na jeho zaˇcátku pˇresnˇe vymez´ı, co ˇc´ım bude oznaˇcovat, nen´ı toto slova ˇ právˇe z tˇech, které by v ˇceˇstinˇe znˇelo nelibozvuˇcnˇe. Casto se tedy uvaˇzuje model Y = zγ 0 + xβ 0 + E,

(154)

o kterém jsme si vˇedomi, ˇze veliˇcina x je aproximac´ı veliˇciny x∗ , tj. plat´ı x = x∗ + u, kde u ovˇsem nen´ı náhodná chyba mˇeˇren´ı a ani ji nelze dost dobˇre za náhodnou povaˇzovat, v tom smyslu, ˇze ji nejsme schopni popsat v term´ınech náhodné veliˇciny. Potom pˇred námi stoj´ı problém (dilema), zda uvaˇzovat model (154) ˇci model ˜ Y = zγ 0 + E,

(155)

s t´ım, ˇze vzhledem k tomu, co bylo ˇreˇceno o vztahu x a x∗ nejsme schopni posoudit “tˇesnost” aproximace. V literatuˇre lze nalézt studie diskutuj´ıc´ı tento problém (viz napˇr. Aigner (1974), Maddala (1977)), ale závˇery jsou ˇcasto dosti sporné. Problematiˇcnost totiˇz spoˇc´ıv´ a v tom, ˇze 144

kaˇzdá taková studie mus´ı chtˇe nechtˇe nakonec udˇelat nˇejaké pˇredpoklady o veliˇcinˇe u a nav´ıc mus´ı zvolit nˇekteré kriterium pro hodnocen´ı odhadu z toho ˇci onoho modelu. Obvykle je to vych´ ylen´ı ˇci rychlost konsistence, pˇr´ıpadnˇe jej´ı ztráta. Napˇr. B. T. McCallum (1972) a M. R. Wickens (1972) nezávisle dokázali, ˇze pokud o u pˇredpoklád´ ame, ˇze je to náhodná veliˇcina nezávisl´ a jak ∗ na x tak na E, potom je odhad z modelu (154) vˇzdy ménˇe vych´ ylen neˇz odhad z modelu (155) (vzhledem k tomu, co bylo ˇreˇceno v´ yˇse, se o modelu (155) pˇredpoklád´ a, ˇze je podurˇcen a tedy pˇr´ısluˇsn´ y odhad je obecnˇe vych´ ylen´ y - viz odstavec o podurˇcen´ı modelu). Na druhé stranˇe nen´ı jasné, jak dalece m˚ uˇze b´ yt model (154) ˇspatnˇe specifikov´ an. Máme na mysli to, co anglosaská literatura oznaˇcuje slovem misspecified a pro co patrnˇe nemáme jeˇstˇe ustálen´ y technick´ y term´ın; znamená to, ˇze do podurˇceného modelu (155) sice pˇrid´ ame dalˇs´ı vysvˇetluj´ıc´ı veliˇciny, ale tyto jsou (témˇeˇr) irelevantn´ı pro vysvˇetlen´ı veliˇciny Y . To sice nezhorˇs´ı ani vych´ ylen´ı modelu ani to nevede ke ztrátˇe konsistence, ale m˚ uˇze to znamenat takové zv´ yˇsen´ı rozptylu odhad˚ u koeficient˚ u, ˇze to napˇr´ıklad m˚ uˇze (podstatnˇe) poˇskodit kvalitu následné predikce.

9 9.1

ˇ ˇ ˇ MODEL S VÍCEROZMERNOU VYSVETLOVANOU PROMENNOU Zd´ anlivˇ e nesouvisej´ıc´ı rovnice

Aˇz dosud jsme uvaˇzovali regresn´ı model, ve kterém byla vysvˇetlovan´ a veliˇcina jednorozmˇerná. Naprosto pˇr´ımoˇcar´ ym zobecnˇen´ım tohoto modelu je model uvaˇzuj´ıc´ı soubor M regresn´ıch rovnic typu (3), které spolu (na prvn´ı pohled) nesouvisej´ı. Odtud název (angl. seemingly unrelated equations). Budeme tedy uvaˇzovat pro j = 1, 2, . . . , M model (j)T

Yij = xi

β(j) + Eij ,

i = 1, 2, . . . , n.

(156)

Oznaˇc´ıme-li Y(j) = (Y1j , Y2j , . . . , Ynj )T ∈ Rn (tj. Yij oznaˇcuje i-té pozorov´ an´ı v j-tém regresn´ım (j)T

modelu), matice X (j) je typu (n × p(j) ) a je evidentnˇe sloˇzena z ˇr´ adk˚ u xi p(j) (β1(j) , β2(j) , . . . , βp(j) (j) ) ∈ R , dostaneme Y(j) = X (j) β(j) + E(j) ,

j = 1, 2, . . . , M.

, a koneˇcnˇe β(j) =

(157)

Pˇrirozenˇe budeme pˇredpokládat zobecnˇen´ı Podm´ınek A, tj. jako obvykle n

IE E(j) = 0 ale nav´ıc

a n

IE

IE

o

T 2 E(j) E(j) = σjj I,

(158)

o

T 2 E(j) E(k) = σjk I.

(159)

Znamená to tedy, ˇze nadále pˇredpokládáme, ˇze náhodné fluktuace pro r˚ uzné ˇr´ adky jsou nezávislé, a to jak uvnitˇr jednoho modelu, napˇr. j-tého (viz (158)), tak pro r˚ uzné modely, napˇr. j-t´ y a kt´ y, zat´ımco fluktuace ve stejném ˇrádku pro r˚ uzné modely maj´ı obecnˇe nenulovou korelaci (viz (159)). Zaveden´ y formalizmus je na prvn´ı pohled ponˇekud zvláˇstn´ı a nejednotn´ y, co se t´ yk´ a vysvˇetlované a vysvˇetluj´ıc´ı promˇenné. V paragrafu vˇenovanému simult´ an´ım rovnic´ım se pak ukáˇze, proˇc byl zvolen právˇe takto. Pro studium simult´ an´ıch rovnic budeme totiˇz potˇrebovat sloˇzitˇejˇs´ı formalizmus a bylo by proto nelogické, abychom se pro kaˇzd´ y dalˇs´ı odstavec uˇcili novému oznaˇcen´ı, nekonzistentn´ımu s t´ım z odstavce pˇredchoz´ıho. Proto bylo jiˇz nyn´ı zavedeno 145

oznaˇcen´ı, které, po malém doplnˇen´ı, bude vyhovovat i pro dalˇs´ı v´ yklad. Nav´ıc takto snadnˇeji ovˇeˇr´ıme, ˇze systém zdánlivˇe nesouvisej´ıc´ıch rovnic je opravdu speciáln´ım pˇr´ıpadem systému simultán´ıch rovnic. ³ ´−1 Opˇet snadno ovˇeˇr´ıme, ˇze “naivn´ı” odhad βˆ(j) = [X (j) ]T X (j) [X (j) ]T Y(j) , je nestrann´ y ³

IE βˆ(j) = [X (j) ]T X (j)

´−1

[X (j) ]T X (j) β(j) = β(j)

a vzhledem k tomu, ˇze ³

βˆ(j) = β(j) + βˆ(j) − β(j) = β(j) + [X (j) ]T X (j) µ

´−1

³

[X (j) ]T Y(j) − X (j) β(j)

´

¶

1 (j) T (j) −1 1 (j) T [X ] X [X ] E(j) , (160) n n vid´ıme, ˇze si tento odhad podrˇz´ı i konsistenci. Jedin´ ym problémem je tedy eficience. Pˇrirozenˇe, ˇze nás napadne pˇrepsat maticov´ y model (157) do jakési “supermaticové” podoby a pouˇz´ıt Aitkenova odhadu. Dostaneme = β(j) +

    

Y(1) Y(2) .. .





    =   

Y(M )

X (1) 0 ... 0 0 X (2) . . . 0 .. .. .. . . . 0 0 . . . X (M )

  β(1)     β(2) · .   . . 





E(1) E(2) .. .

    +  

β(M )

   . 

E(M )

Jestliˇze se tedy pˇridrˇz´ıme “nápovˇedy”, kterou poskytuje právˇe uveden´ y zápis a oznaˇc´ıme-li T T T T M ·n Y = (Y(1) , Y(2) , . . . , Y(M ) ) ∈ R , X blokovou matici, která má na diagonále bloky X (j) , j = 1, 2, . . . , M (tj. je typu (n · M × PM

PM

j=1 p(j) )

), za vektor regresn´ıch koeficient˚ u vezmeme β 0 =

p

T , β T , . . . , β T )T ∈ R j=1 (j) a koneˇ cnˇe pak pro náhodné fluktuace budeme psát E = (β(1) (2) (M ) T T T T M ·n (E(1) , E(2) , . . . , E(M ) ) ∈ R , dostaneme opˇet model

Y = Xβ 0 + E stejnˇe jako v (4). Na rozd´ıl od (4) vˇsak nyn´ı i = 1, 2, . . . , M · n a kovarianˇcn´ı matice nen´ı diagonáln´ı, ale 

n

IE

T E(1) E(1)

o

  n o  n o  IE E E T  (2) (1) Σ = IE E · E T =   ..  .  n o  T E(M ) E(1)

IE



2 I σ11

 2  σ I 21 =  ..  .

n

T E(1) E(2)

IE

n

IE n

IE

T E(2) E(2) .. .

o

n

... o

T E(M ) E(2)

2 I σ12

...

2 I σ1M

2 I σ22 .. .

...

2 I σ2M .. .

IE

T E(1) E(M )

o 

  o  T IE E(2) E(M )     ..  .  n o  n

... o

. . . IE

T E(M ) E(M )

   .  

2 I σ2 I . . . σ2 σM MM I M2 1

Abychom se snadnˇeji zorientovali v této nové problematice, vˇenujme se nejprve jednoduchému pˇr´ıkladu, kdy M = 2 a X (1) = X (2) . Pro ten máme "

Σ=

2 I σ2 I σ11 12 2 I σ2 I σ21 22

146

#

.

Oznaˇcme

"

σ (11) σ (12) σ (21) σ (22)

#

"

inverzn´ı matic´ı k "

Znásoben´ım matic se snadno ovˇeˇr´ı, ˇze potom je matice

2 2 σ11 σ12

#

2 2 σ21 σ22

σ (1,1) I σ (1,2) I σ (2,1) I σ (2,2) I

.

#

inverzn´ı k matici Σ.

Potom (d´ıky tomu, ˇze X (1) = X (2) ) 

X T Σ−1 X =  

=

T 

X (1)

0

0

X (1)

σ (11) X (1)T

σ (12) X (1)T

σ (21) X (1)T

σ (22) X (1)T

  ·

 ·

σ (11) I σ (12) I σ (21) I σ (22) I 

X (1)

0

0

X (1)



=

  ·

X (1)

0

0

X (1)

 

σ (11) X (1)T X (1) σ (12) X (1)T X (2) σ (21) X (1)T X (1) σ (22) X (1)T X (1)

 .

Koneˇcnˇe tedy 

βˆ(LS,n) = 

σ (11) X (1)T X (1) σ (12) X (1)T X (1) σ (21) X (1)T X (1)

σ (22) X (1)T X (1)

−1  

·

σ (11) X (1)T Y (1) + σ (12) X (1)T Y (2) σ (21) X (1)T Y (1)

+

σ (22) X (1)T Y (2)

 .

Rozdˇelme βˆ(LS,n) na dva stejnˇe velké bloky βˆ(1) a βˆ(2) . Dostaneme normáln´ı rovnice σ (11) X (1)T X (1) βˆ(1) + σ (12) X (1)T X (1) βˆ(2) = σ (11) X (1)T Y(1) + σ (12) X (1)T Y(2) a σ (21) X (1)T X (1) βˆ(1) + σ (22) X (1)T X (1) βˆ(2) = σ (12) X (1)T Y(1) + σ (22) X (1)T Y(2) . Po jednoduché u ´pravˇe, totiˇz znásoben´ı druhé rovnice ˇc´ıslem [σ (22) ]−1 · σ (12) a seˇcten´ı s prvn´ı, dostaneme ! Ã ! Ã (12) ]2 (12) ]2 [σ [σ X (1)T X (1) βˆ(1) = σ (11) − (22) X (1)T Y(1) , σ (11) − (22) σ σ tj.

³

´−1

³

´−1

βˆ(1) = X (1)T X (1)

X (1)T Y(1) .

Stejnˇe tak pro βˆ(2) nalezneme βˆ(2) = X (2)T X (2)

X (2)T Y(2) .

Zjistili jsme tedy, ˇze pro tento jednoduch´ y pˇr´ıpad jsou “obyˇcejné” odhady nejmenˇs´ıch ˇctverc˚ u shodné s Aitkenov´ ym odhadem. Jestliˇze vˇsak matice plánu pro jednotlivé modely nejsou totoˇzné, nezb´ yv´ a neˇz jednotlivé parametry kovarianˇcn´ı matice Σ odhadnout. Vzhledem k tomu, ˇze jsme pˇredpokládali, ˇze máme 2 je kovarianc´ pro kaˇzd´ y model n pozorován´ı, je to proveditelné. Pˇripomeˇ nme, ˇze σjk ı náhodn´ ych fluktuac´ı z j-té a k-té rovnice v (156). Tuto kovarianci m˚ uˇzeme odhadnout napˇr´ıklad statistikou 2 σ ˆjk =

n 1 X (j) (k) ri (βˆ(j) )ri (βˆ(k) ), ∗ n − p i=1

147

n

o

(`)

(`)T

kde jsme oznaˇcili p∗ = max p(j) , p(k) a ri (βˆ(`) ) = Yi(`) − Xi  

2 I σ ˆ11

2 I σ ˆ12

2 I σ ˆ1M

...

 2 2 I 2 I σ ˆ I σ ˆ22 ... σ ˆ2M ˆ = Σ  21 .. .. ..  . . .  2 2 2 σ ˆM 1 I σ ˆM 2 I . . . σ ˆM M I

a koneˇcnˇe

³

ˆ ˆ −1 X βˆ(LS,n) = X T Σ

´−1

· βˆ(`) . Potom poloˇz´ıme

      

ˆ −1 Y. XT Σ

V monografii Kmenta (1986) se lze pˇresvˇedˇcit, ˇze tento dvoustupˇ nov´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u je asymptoticky ekvivalentn´ı maximálnˇe vˇerohodnému odhadu pˇri pˇredpokladu normality fluktuac´ı . Maximálnˇe vˇerohodn´ y odhad pˇrirozenˇe pˇredstavuje alternativu k nejmenˇs´ım ˇctverc˚ um. Vzhledem k tomu, ˇze vˇerohodnostn´ı funkce má tvar L=−

1 1 n·M log(2π) − log|Σ| − (Y − Xβ)T Σ−1 (Y − Xβ), 2 2 2

(kde opˇet |Σ| oznaˇcuje determinant matice Σ), dostaneme µ

h

ˆ (M L,n) βˆ(M L,n) = X T Σ a

 

ˆ (M L,n) =  Σ  

2 I σ ˜11 2 I σ ˜21 .. .

i−1

¶−1

X

2 I σ ˜12 2 I σ ˜22 .. .

h

ˆ (M L,n) XT Σ

... ...

2 I σ ˜1M 2 I σ ˜2M .. .

i−1

Y

   , 

2 I σ 2 I ... σ 2 σ ˜M ˜M ˜M 1 2 MI

kde

´ ³ ´ 1³ (M L,n) T (M L,n) Y(j) − x(j) βˆ(j) Y(k) − x(k) βˆ(k) , j, k = 1, 2, . . . , M. n (Diskuzi k tomuto postupu lze nalézt v Judge a kol. (1980) nebo Kmenta (1986).) 2 σ ˜jk =

9.2

Simult´ an´ı rovnice

Pro v´ yklad simultán´ıch rovnic (simultaneous equations) budeme potˇrebovat ponˇekud rozˇs´ıˇrit dosud zavedená oznaˇcen´ı. Pˇripomeˇ nme, ˇze jsme vˇsechny vektory uvaˇzovali jako sloupcové a proto jsme pro skalárn´ı souˇcin i-tého ˇrádku matice plánu X a vektoru regresn´ıch koeficient˚ u psali xTi β, nebot’ jsme i-t´ y ˇrádek matice plánu (po “vytrˇzen´ı” z matice) povaˇzovali za sloupcov´ y vektor. Pro obecnou matici A typu m×q budeme tedy jej´ı i-t´ y ˇr´ adek oznaˇcovat tak jak jsme jej dosud oznaˇcovali, totiˇz Ai , pˇr´ıpadnˇe ai , pokud A je nenáhodná, Ai , ai ∈ Rq , a jej´ı j-t´ y sloupec A(j) tj. m vektor z R , coˇz jsme dosud nepotˇrebovali, ale v pˇredchoz´ım odstavci jsme oznaˇcen´ı konsistentn´ı s t´ımto vlastnˇe jiˇz zavedli a pouˇz´ıvali, viz (157). Podobné oznaˇcen´ı podrˇz´ıme i pro vektory v pˇr´ıpadˇe, kdy β(j) bude oznaˇcovat vektor regresn´ıch koeficient˚ u v j-tém regresn´ım modelu v nˇejaké soustavˇe model˚ u (viz opˇet (157) ). Koneˇcnˇe pak budeme symbolem β{j} oznaˇcovat vektor, kter´ y vznikne z vektoru β(j) po vyjmut´ı j-té souˇradnice. Zb´ yvá zavést oznaˇcen´ı pro matici, ze které vyjmeme j-t´ y sloupec. Pˇripom´ın´ ame, ˇze jsme v´ yˇse, v kapitole vˇenované vlivu jednoho pozorov´ an´ı, oznaˇcovali matici, která vznikne z matice A 148

po vyjmut´ı `-tého ˇrádku symbolem A{ ` } . Oznaˇc´ıme tedy matici, ze které vyjmeme `-t´ y sloupec {|`|} symbolem A . Zavedené oznaˇcen´ı je patrnˇe dosti názorné a snadno zapamatovatelné, pˇresto v dalˇs´ım textu obˇcas pˇripomeneme, co kter´ y symbol znamená. Pˇridrˇzme se osvˇedˇceného pedagogického pravidla, ˇze nejnázornˇeji se nov´ a teorie, jej´ı motivace a postupy, osvˇetl´ı pˇr´ıkladem. Necht’ tedy Q, P, X oznaˇcuje postupnˇe rovnov´ aˇzné vymˇen ˇované mnoˇzstv´ı zboˇz´ı, jeho rovnováˇznou cenu a d˚ uchod (pˇr´ıjem) spotˇrebitel˚ u a sestavme poptávkovou a nab´ıdkovou rovnici Q = f1 (P, X)

(poptávka)

Q = f2 (P )

(nab´ıdka).

a Nav´ıc snadno akceptovatelná pˇredstava, ˇze poptávka klesá s rostouc´ı cenou a roste s rostouc´ımi 1 d˚ uchody, a podobnˇe, ˇze nab´ıdka roste s rostouc´ı cenou, napov´ıd´ a, ˇze lze oˇcek´ avat, ˇze ∂f ∂P ≤ ∂f2 1 0, ∂f rirozenˇe zvolit (témˇeˇr libovolnou) hladkou funkci, avˇsak ∂X ≥ 0 a ∂P ≤ 0. Za f1 a f2 lze pˇ pro jednoduchost ukáˇzeme ˇreˇsen´ı pouze pro lineárn´ı funkce. Nen´ı snad vˇsak tˇreba se ani pouˇstˇet do diskuze o tom, ˇze pˇrinejmenˇs´ım zobecnˇen´ı na polynomiáln´ı funkce f1 a f2 by bylo v podstatˇe pˇr´ımoˇcaré. Pro lineárn´ı funkce f1 a f2 , dostaneme pro i = 1, 2, . . . , n Qi = β11 + γ11 Pi + β12 Xi + Ei1

(poptávka)

(161)

a Qi = β21 + γ21 Pi + Ei2

(nab´ıdka).

(162)

Vzhledem k tomu, co bylo v´ yˇse uvedeno o parciáln´ıch derivac´ıch, mˇelo by po odhadnut´ı koefiˆ cient˚ u vyj´ıt γˆ11 ≤ 0, β12 ≥ 0 a γˆ21 ≥ 0. D˚ uvodem toho, proˇc jsme zvolili oznaˇcen´ı koeficient˚ u v (161) a (162) na prvn´ı pohled trochu zvláˇstnˇe, je zachov´ an´ı konsistence s n´ıˇze pouˇz´ıvan´ ym znaˇcen´ım v obecném tvaru simultán´ıch rovnic. Pˇredpokládejme, ˇze pro náhodné fluktuace, které jsou nyn´ı reprezentovány dvourozmˇern´ ymi vektory {Ei }∞ ı i=1 ) plat´ ·

IE Ei = IE

Ei1 Ei2

¸

·

=

0 0

¸

n

a

IE

Ei ·

EiT

"

o

=

2 2 σ11 σ12 2 2 σ12 σ22

#

.

(163)

Rovnice (161) a (162) byly, právˇe tak jako rovnice v kterémkoliv sloˇzitˇejˇs´ım systému simultán´ıch rovnic budou, sestaveny na základˇe naˇs´ı pˇredstavy o jak´ ychsi kauz´ aln´ıch souvislostech, byt’ tyto pˇredstavy, kdyˇz je podrob´ıme trochu fundovanˇejˇs´ı filosofické kritice, co se t´ yk´ a kauzality, se mohou ukázat jako neudrˇzitelné, zejména proto, ˇze sám pojem kauzality utrpˇel v posledn´ıch nˇekolika desetilet´ıch váˇzné trhliny. Pokud si vˇsak nebudeme namlouvat, ostatnˇe obvykle mylnˇe, ˇze modelem (161) a (162) cosi “objektivnˇe” vysvˇetlujeme, ale, podobnˇe jako je tomu pˇri jiném modelován´ı, spokoj´ıme se s t´ım, ˇze se nám podaˇr´ı naj´ıt funguj´ıc´ı, tj. predikce schopn´ y model, je konec konc˚ u jedno, jak jsme k nˇemu dospˇeli. Zdá se pˇrirozené, ˇze rovnov´ aˇzné vymˇen ˇované mnoˇzstv´ı zboˇz´ı Q a jeho rovnováˇznou cenu P budeme uvaˇzovat jako vysvˇetlované promˇenné a d˚ uchod spotˇrebitel˚ u X za vysvˇetluj´ıc´ı promˇennou. Samozˇrejmˇe, ˇze se budeme snaˇzit dostat soustavu regresn´ıch rovnic, z nichˇz kaˇzd´ a bude jedn´ım regresn´ım modelem, tak jak jsme tento

149

model dosud studovali. Za t´ım u ´ˇcelem budeme muset soustavu (161) a (162) pˇrepoˇc´ıtat tak, aby vysvˇetlované promˇenné byly na levé stranˇe a vysvˇetluj´ıc´ı na pravé. Nakonec dostaneme Qi =

γ11 β21 − β11 γ21 −γ21 Ei1 + γ11 Ei2 β12 γ21 − Xi + γ11 − γ21 γ11 − γ21 γ11 − γ21

(164)

β12 −Ei1 + Ei2 −β11 + β21 − Xi + . γ11 − γ21 γ11 − γ21 γ11 − γ21

(165)

a Pi =

Soustava rovnic (161) a (162) (a také (164) a (165)) je oznaˇcov´ ana jako systém simult´ an´ıch rovnic (z ihned patrného d˚ uvodu), pˇriˇcemˇz o rovnic´ıch (161) a (162) obvykle mluv´ıme jako o struktur´ aln´ıch na rozd´ıl od (164) a (165), o nichˇz ˇcasto ˇr´ık´ ame, ˇze jsou v redukovaném tvaru. ˇ Casto vˇsak mluv´ıme pˇr´ımo o redukovaných rovnic´ıch. Vztahy (164) a (165) nám napomohou se snadno pˇresvˇedˇcit o tom, ˇze cena P a náhodné fluktuace E nejsou nezávislé. Dostaneme totiˇz IE {Pi Ei1 } =

2 + σ2 −σ11 12 γ11 − γ21

pro i = 1, 2, . . . , n

IE {Pi Ei2 } =

2 + σ2 −σ12 22 γ11 − γ21

pro i = 1, 2, . . . , n.

a

To indikuje, ˇze pokud bychom odhadli γ11 , γ21 a β11 , β12 , β21 z (161) a (162), nebudou tyto odhady konsistentn´ı, a obecnˇe ani nestranné. Pˇripomeˇ nme, ˇze v odstavci vˇenovaném instrumentáln´ım promˇenn´ ym jsme ukázali, proˇc tomu tak je. Na druhé stranˇe pokud odhadneme regresn´ı koeficienty v systému redukovan´ ych rovnic, dostaneme nestranné a konsistentn´ı odhady. Snadno ovˇeˇr´ıme, ˇze koeficienty z redukovan´ ych rovnic a koeficienty ze struktyráln´ıch rovnic jsou sváz´ any vztahy π11 =

γ11 β21 − β11 γ21 , γ11 − γ21

π21 =

π12 = −

−β11 + β21 γ11 − γ21

a

π22 = −

β12 γ21 , γ11 − γ21

β12 . γ11 − γ21

(166) (167)

To znamená, ˇze se m˚ uˇzeme pokusit pˇrepoˇc´ıtat nestranné a konsistentn´ı odhady koeficient˚ u πij na koeficienty βij a γij . Pˇrirozenˇe, ˇze se to nemus´ı vˇzdy podaˇrit. Bude totiˇz záleˇzet na poˇctu tˇech a onˇech koeficient˚ u, pˇr´ıpadnˇe na hodnosti pˇr´ısluˇsného systému rovnic. Spoˇcteme-li ale kovarianci mezi náhodn´ ymi fluktuacemi z rovnice (164) a (165), dostaneme ½

IE

−Ei1 + Ei2 −γ21 Ei1 + γ11 Ei2 · γ11 − γ21 γ11 − γ21

¾

=

2 γ − σ 2 (γ − γ ) + γ σ 2 σ1,1 21 21 11 2,2 1,2 11 . (γ11 − γ21 )2

To napov´ıdá, ˇze pokud pouˇzijeme bˇeˇzn´ y odhad nejmenˇs´ıch ˇctverc˚ u, odhad koeficiet˚ u π nebude eficientn´ı. Chceme-li tedy dosáhnout eficientn´ıch odhad˚ u, mus´ıme pro odhad koeficient˚ u v (164) a (165) pouˇz´ıt Aitkenova odhadu. Zkus´ıme nyn´ı nahlédnout situaci pˇri odhadov´ an´ı koeficient˚ u ve strukturáln´ıch rovnic´ıch obecnˇe. Na právˇe uveden´ y pˇr´ıklad se budeme odkazovat jako na ilustraci. Je zˇrejmé, ˇze lze simultán´ı rovnice psát obecnˇe ve tvaru (strukturáln´ı forma) γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig , 150

(168)

kde g = 1, 2, . . . , G a i = 1, 2, . . . , n, pˇriˇcemˇz {Ei }∞ avisl´ ych stejnˇe rozdˇelen´ ych i=1 je posloupnost nez´ G-rozmˇern´ ych vektor˚ u, jejichˇz rozdˇelen´ı je N (0, Σ) se 

2 σ11

  σ2  Σ =  .21  .. 

2 σ12

...

2 σ1G

2 σ22 .. .

...

2 σ2G .. .

    .  

2 2 2 σG1 σG2 . . . σGG

Nyn´ı je moˇzné nahlédnout, ˇze jsme zvolili indexy koeficient˚ u v rovnic´ıch (161) a (162) tak, aby to vyhovovalo nyn´ı prob´ıranému obecnˇejˇs´ımu pˇr´ıkladu. Uvˇedomme si pros´ım, ˇze, jak jsme v´ yˇse poznamenali, sestavujeme obvykle jednotlivé rovnice simult´ an´ıho systému tak, aby odpov´ıdali naˇsim pˇredstavám o kauzáln´ıch, at’ uˇz ˇcistˇe deterministick´ ych ˇci ˇc´ asteˇcnˇe náhodn´ ych, souvislostech. Jin´ ymi slovy to znamená, ˇze systém rovnic ve strukturáln´ım tvaru sestavujeme obvykle (vˇzdy ?) pro jednu z vysvˇetlovan´ ych promˇenn´ ych Y(g) = (Y1g , Y2g , . . . , Yng )T ,

g = 1, 2, . . . , M.

(169)

Proto lze bez u ´jmy na obecnost pˇredpokládat, ˇze tato veliˇcina vstupuje do této rovnice s koeficientem 1, tj. napˇr. máme γgg = 1. Odtud plyne, ˇze v kaˇzdé ze strukturáln´ıch rovnic odhadujeme (nejv´ yˇse) G − 1 + p parametr˚ u. V naˇsem pˇr´ıkladˇe je G = 2 a p = 2 (nesm´ıme zapomenout na absolutn´ı ˇclen), a protoˇze je γ12 = −1, γ22 = −1 a β22 = 0, máme v prvé rovnici G − 1 + p = 2 − 1 + 2 = 3 = poˇcet odhadovan´ ych koeficient˚ u a ve druhé 3 > 2 = poˇcet odhadovan´ ych koeficient˚ u. Dohromady vˇsak v prvé a druhé rovnici budeme odhadovat 5 parametr˚ u, zat´ımco z redukovan´ ych rovnic budeme m´ıt pouze 4 u ´daje a ˇctyˇri vztahy pro koeficienty, viz (166) a (167). Odtud je zˇrejmé, ˇze koeficienty βij a γij ze strukturáln´ıch rovnic (161) a (162) nebudou jednoznaˇcnˇe urˇceny. Pozdˇeji provedeme tuto u ´vahu pro obecnou soustavu rovnic. Nejprve si vˇsak na obecné u ´rovni ujasnˇeme vztahy mezi koeficienty ze strukturáln´ıch a redukovan´ ych rovnic. Pˇrepiˇsme rovnice (168) do maticového tvaru ΓYi + Bxi = Ei ,

(170)

kde    

Γ=

γ11 γ21 .. .

γ12 γ22 .. .

... ...

γ1G γ2G .. .





   

  

a

B=

γG1 γG2 . . . γGG

β11 β21 .. .

β12 β22 .. .

... ...

β1p β2p .. .

   , 

βG1 βG2 . . . βGp

a dále jsme oznaˇcili Yi = (Yi1 , Yi2 , . . . , YiG )T , xi = (xi1 , xi2 , . . . , xip )T a Ei = (Ei1 , Ei2 , . . . , EiG )T . V dalˇs´ım v´ ykladu mˇejme na pamˇeti, ˇze Γ a B jsou typu (G × G) a (G × p). Poloˇz´ıme-li n

Y = YiT n

on i=1

coˇz je matice typu (n × G), a jako obvykle X = xTi n

a koneˇcnˇe E = EiT

on

i=1

,

on i=1

(171) , (stejnˇe jako v´ yˇse matice typu (n × p))

(opˇet matice typu (n × G)), dostaneme Y · ΓT + X · B T = E. 151

(172)

Ze vztahu (170) je vidˇet, ˇze m˚ uˇzeme psát redukovan´ y tvar simult´ an´ıch rovnic také následovnˇe. Yi = Πxi + Vi = −Γ−1 Bxi + Γ−1 Ei ,

i = 1, 2, . . . , n.

(173)

Matice Π je typu (G × p), Vi ∈ RG a plat´ı Π = −Γ−1 B,

a

Vi = −Γ−1 Ei .

(174)

Pro koeficienty πij se obvykle uˇz´ıvá oznaˇcen´ı neomezené, ve smyslu anglického slova unrestricted, , zat´ımco koeficienty γij a βij se oznaˇcuj´ı jako omezené (restricted). Pˇrirozenˇe, ˇze i redukovan´ y systém rovnic lze napsat ve zcela “ˇcisté” maticové podobˇe, podobnˇe jako tomu bylo u strukturáln´ıho tvaru simultán´ıch rovnic, viz (172). Dostaneme rovnice Y = X · ΠT + V,

(175) n

kde matice Y je zadána v (171), matice X je bˇeˇzn´ a matice plánu a V = ViT

on i=1

.

Podle toho, jakého je matice Γ typu, se v ekonometrické literatuˇre rozliˇsuj´ı typy soustav rovnic: Γ Γ Γ

-

diagonáln´ı blok-diagonáln´ı triangulárn´ı

−→ −→ −→

Γ Γ

-

blok-triangulárn´ı u ´plná (obecná) matice

−→ −→

9.2.1

zd´ anlivˇe nesouvisej´ıc´ı rovnice, neintegrovan´ a struktura, (nonintegrated structure), triangul´ arn´ı (troj´ uheln´ıkov´ a) struktura rekursivn´ı systém rovnic, blok-triangul´ arn´ı struktura, integrovan´ a struktura (general interdependent system).

Probl´ em identifikace

Jak uˇz jsme naznaˇcili v´ yˇse, poté co spoˇcteme z redukovaného tvaru simult´ an´ıch rovnic odhady ’ koeficient˚ u π, rádi bychom je pˇrevedli na odhady koeficient˚ u γ a β, nebot pro ty máme obvykle ekonomickou interpretaci. A jak jsme také v´ yˇse vidˇeli, je otázka, zda je to moˇzné. Ze vztahu (174) 2 doslova spoˇcteme, ˇze obecnˇe máme G +G·p koeficient˚ u γ a β a jen G·p koeficient˚ u π . Vzhledem k tomu, ˇze vˇsak ze strukturáln´ıho tvaru simult´ an´ıch rovnic m˚ uˇze b´ yt apriori zˇrejmé, ˇze nˇekteré γ a β jsou nulové, m˚ uˇze doj´ıt k situaci, ˇze transformace z π na γ a β bude jednoznaˇcn´ a. V takovém pˇr´ıpadˇe, tj. kdyˇz je vazba mezi π na jedné stranˇe a γ a β na stranˇe druhé jednoznaˇcn´ a, mluv´ıme o pˇresné identifikaci. Je-li poˇcet koeficient˚ u γ a β menˇs´ı neˇz poˇcet koeficient˚ u π, ˇr´ık´ ame, ˇze doˇslo k pˇreurˇcen´ı, v opaˇcném pˇr´ıpadˇe, kdy je ménˇe koeficient˚ u π neˇz koeficient˚ u γ a β, mluv´ıme ˇ o podurˇcen´ı. Casto se v literatuˇre pouˇz´ıv´ a tato terminologie i v pˇr´ıpadˇe, kdy mluv´ıme o jedné ze simultán´ıch rovnic. O celé soustavˇe pak ˇr´ık´ ame, ˇze je identifikovan´ a, pokud nastala pˇresn´ a identifikace nebo doˇslo k pˇreurˇcen´ı. Obecnˇe jsme nalezli vztah mezi mezi koeficienty π na jedné stranˇe a γ a β na stranˇe druhé ve vztahu (174), kter´ y v dalˇs´ım v´ ykladu pouˇzijeme k anal´ yze ’ identifikovanosti koeficient˚ u γ a β. Jeˇstˇe jednou se vrat me k naˇsemu pˇr´ıkladu ze zaˇc´ atku tohoto odstavce, nebot’ ten nám napov´ı, jak postupovat v obecné situaci. V´ yˇse jsme uvedli vztahy, vyjadˇruj´ıc´ı koeficienty π pomoci korficient˚ u β a γ, (viz (153) a (167)). Ty bychom mohli pˇrevést na vztahy, vyjadˇruj´ıc´ı koeficienty β a γ pomoci korficient˚ u π. 152

Alternat´ıvn´ı moˇznost je pˇrirozenˇe odvodit ze simult´ an´ıch rovnic takové vztahy pˇr´ımo. Vr´ at´ıme-li se k redukovan´ ym rovnic´ım (164) a (165) a pˇrep´ıˇseme-li je do tvaru Qi = π11 + π12 Xi + V1i a Pi = π21 + π22 Xi + V2i , a koneˇcnˇe pak dosad´ıme-li z nich do (161) a (162), dostaneme π11 + π12 Xi + V1i = β11 + γ11 (π21 + π22 Xi + V2i ) + β12 Xi + E1i

(poptávka)

(176)

(nab´ıdka).

(177)

a π11 + π12 Xi + V1i = β21 + γ21 (π21 + π22 Xi + V2i ) + E2i Porovnán´ım koeficient˚ u u pˇr´ısluˇsn´ ych promˇenn´ ych dostaneme π11 = β11 + γ11 π21

a

π12 = γ11 π22 + β12

(178)

π12 = γ21 π22 .

(179)

a π11 = β21 + γ21 π21

a

T´ımto postupem nakonec z´ıskáme vztahy β21 = π11 −

π12 π21 π22

a

γ21 =

π12 , π22

(180)

coˇz znamená, ˇze koeficienty γ a β nab´ıdkové rovnice jsou pˇresnˇe urˇceny koeficienty π. Pro koeficienty poptávkové rovniceβ11 , β12 a γ11 analogicky zjist´ıme, ˇze nejsou jednoznaˇcnˇe urˇceny koeficienty π, tj. poptávková rovnice je podurˇcena (pozdˇeji si ukáˇzeme, jak lze tuto situaci ˇreˇsit). Nyn´ı se jiˇz pust’me do anal´ yzy obecného systému simult´ an´ıch rovnic. Z (174) plyne vztah ΓΠ = −B, tj.     

γ11 γ21 .. .

γ12 γ22 .. .

... ...

γ1G γ2G .. .

γG1 γG2 . . . γGG

      ·  

π11 π21 .. .

π12 π22 .. .

... ...

π1p π2p .. .

πG1 πG2 . . . πGp





     = −  

β11 β21 .. .

β12 β22 .. .

... ...

β1p β2p .. .

   . 

βG1 βG2 . . . βGp

Pro g = 1, 2, . . . , G postupnˇe oznaˇcme γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T . Pak máme T T γ(g) Π = −β(g) . Abychom zjednoduˇsili anal´ yzu identifikovanosti koeficient˚ u γ a β zaved’me jeˇstˇe toto oznaˇcen´ı: 8 ∆ ’ ych v g-té rovnici, tj. poˇcet nenulov´ ych koefiGg necht oznaˇcuje poˇcet endogen´ıch promˇenn´ ∗ ∆ ∆∆ ’ ’ cient˚ u γ v g-té rovnici a Gg = G − Gg . Podobnˇe necht pg necht je rovno poˇctu exogen´ıch 8

Endogen´ı a exogen´ı veliˇciny byly zavedeny v u ´vodu skript a kr´ atce ˇreˇceno: endogen´ı jsou ty, které jsou modelem urˇcov´ any, vysvˇetlov´ any, a exogen´ı jsou pak ty, které do modelu vstupuj´ı z vnˇejˇsku.

153

(tj. pˇreddeterminovan´ ych) promˇenn´ ych v g-té rovnici, které maj´ı nenulov´ y koeficient, tj. poˇcet ∗∗ ∗ nenulov´ ych β v g-té rovnici, a pg = p − pg . Vˇenujme se nyn´ı jedné, ˇreknˇeme g-té simult´ an´ı rovnici. Bez ztráty obecnosti pˇredpokládejme, ˇze jsme pˇrerovnali souˇradnice vektor˚ u γ(g) a β(g) T T T a ˇrádky matice Π, ˇze γ(g) = (γg∆ , 0g∆∆ ), kde doln´ı indexy u γg∆ a 0g∆∆ napov´ıdaj´ı, ˇze tyto ∆∆ souˇ T = (β T , 0T ) je rozdˇ vektory maj´ı G∆ radnic. Podobnˇe β(g) elen na u ´seky o p∗g a p∗∗ g a Gg g∗ g∗∗ g souˇradnic´ıch. Nakonec rozdˇelme matici Π na bloky ·

Π= Potom plat´ı

· T (γg∆ , 0Tg∆∆ )

·

Π∆∗ Π∆∗∗ Π∆∆∗ Π∆∆∗∗

Π∆∗ Π∆∗∗ Π∆∆∗ Π∆∆∗∗

¸

.

¸ T = −(βg∗ , 0Tg∗∗ ).

Pˇrep´ıˇseme-li posledn´ı vztah “po ˇrádc´ıch”, dostaneme T T γg∆ Π∆∗ = −βg∗

(181)

T γg∆ Π∆∗∗ = 0Tg∗∗ .

(182)

a Tyto vztahy napov´ıdaj´ı, ˇze pokud bude vztah (182) urˇcovat právˇe vˇsechny koeficienty γ, pak je budeme moci dosadit do rovnic (181), kter´ ych je právˇe tolik, kolik je koeficient˚ u β, a budeme hotovi. Jiˇz v´ yˇse jsme ukázali, ˇze je pˇrijatelné pˇredpokládat, ˇze jedno γ je v kaˇzdé rovnici rovno ∆ 1, tj. máme G∆ u γ v g-té rovnici. Pak je tedy nutné, aby p∗∗ g − 1 koeficient˚ g ≥ Gg − 1. Tomuto se obvykle ˇr´ıká podm´ınka na poˇcet parametr˚ u. To znamená, ˇze k tomu, aby (181) jednoznaˇcnˇe ∗∗ urˇcovalo γg∆ , je tˇreba, aby matice Π∆∗∗ , která je typu (G∆ ela hodnost G∆ g − 1 × pg ), mˇ g − 1, ∗∗ ∆ coˇz lze splnit, pokud je pg ≥ Gg − 1. Tomuto se ˇr´ık´ a podm´ınka na hodnost. Dokonˇc´ıme-li právˇe provedené u ´vahy pro vˇsechny eventuality, dostaneme tabulku Tabulka 17 Vz´ ajemné vztahy poˇct˚ u koeficient˚ u γ, hodnosti matice Π∆∗∗ a identifikovanosti koeficient˚ u γ a β. ∆ p∗∗ g > Gg − 1

rank(Π∆∗∗ ) = G∆ g −1

pˇreurˇcen´ı

∆ p∗∗ g = Gg − 1

rank(Π∆∗∗ ) = G∆ g −1

pˇresn´ a identifikace

∆ p∗∗ g ≥ Gg − 1

rank(Π∆∗∗ ) < G∆ g −1

podurˇcen´ı

∆ p∗∗ g < Gg − 1

rank(Π∆∗∗ ) libovoln´ y

podurˇcen´ı

Zkusme vztahy zachycené v této tabulce aplikovat na náˇs pˇr´ıklad. V nˇem vystupuj´ı dvˇe endogen´ı veliˇciny, rovnováˇzné vymˇen ˇované mnoˇzstv´ı zboˇz´ı Q a jeho rovnov´ aˇzn´ a cenu P , a rovnˇeˇz dvˇe exogen´ı, absolutn´ı ˇclen a d˚ uchod spotˇrebitel˚ u X. Pro rovnici (161), ve které maj´ı obˇe endogen´ı právˇe tak jako obˇe exogen´ı veliˇciny (obecnˇe) nenulové koeficienty, tedy máme G∆ 1 −1 = 1 a ∗ ∗∗ ∆ ∗∗ p = 2, neboli p = 0. To znamená, ˇze G1 − 1 > p a z Tabulky 2 pak plyne, ˇze prvn´ı rovnice (tj. poptávka) je podurˇcená. Nen´ı pˇrirozenˇe ani tˇreba zjiˇst’ovat hodnost matice Π∆∗∗ . Pro rovnici

154

∗ ∗∗ (162) máme opˇet G∆ ı 2 − 1 = 1, ale p2 = 1, nebot’ Y v rovnici nevystupuje, neboli p2 = 1. Nyn´ ovˇsem potˇrebujeme nalézt hodnost matice Π∆∗∗ . Matice Π vypadá takto

·

Π=

π11 π12 π21 π22

¸

=

£

Π∆∗ Π∆∗∗

¤

,

∗ pˇriˇcemˇz pˇripomeˇ nme, ˇze G∆ rejmé, ˇze matice Π∆∗ má hodnost 1 a tedy 2 − 1 = 1 a p2 = 1. Je zˇ ∆ rank(Π∆∗ ) = p∗∗ 2 = G2 − 1,

coˇz znamená, ˇze rovnice (162) je pˇresnˇe identifikov´ ana. Specifikace obecn´ ych v´ ysledk˚ u tedy vedla ke stejn´ ym závˇer˚ um jako v´ yˇse provedená anal´ yza pro náˇs konkrétn´ı pˇr´ıklad. 9.2.2

Identifikace pomoc´ı omezen´ı na kovarianˇ cn´ı matici n´ ahodn´ ych fluktuac´ı

V´ yˇse uvedená anal´ yza ukazuje, ˇze mohou nastat v podstatˇe dva pˇr´ıpady. Bud’ jsou koeficienty β a γ jednoznaˇcnˇe urˇceny koeficienty π (coˇz zahrnuje i pˇr´ıpad pˇreurˇcen´ı) nebo ne. V pˇr´ıpadˇe, ˇze dojde k podurˇcen´ı koeficient˚ u β a γ, napadne nás, zda by nebylo moˇzné zvolit dodateˇcnˇe napˇr. nˇejaká dalˇs´ı omezen´ı na koeficienty, pˇr´ıpadnˇe zadat nˇejaké dalˇs´ı vztahy mezi pˇr´ısluˇsn´ ymi veliˇcinami tak, abychom dosáhli identifikace. Ukázku toho, jak to udˇelat si pˇredvedeme na naˇsem pˇr´ıkladˇe, ve kterém stanov´ıme dodateˇcnou podm´ınku nekorelovanosti náhodn´ ych fluktuac´ı v rovnic´ıch (161) a (162), tj. IE Ei1 Ei2 = 0. V´ yˇse jsme nalezli vzájemn´ y vztah koeficient˚ u γ a β ze strukturáln´ıch rovnic (161) a (162) a koeficient˚ u π z redukovan´ ych rovnic (164) a (165) π11 = β11 + γ11 π21

a

π12 = γ11 π22 + β12

(183)

π12 = γ21 π22 .

(184)

a π11 = β21 + γ21 π21

a

K tˇemto vztah˚ um pˇridáme tedy poˇzadavek nekorelovanosti ˇsumu. Ze vztah˚ u (164) a (165) máme Vi1 =

−γ21 Ei1 + γ11 Ei2 γ11 − γ21

a

Vi2 =

−Ei1 + Ei2 . γ11 − γ21

(185)

Z (163) nyn´ı plyne, ˇze pro i = 1, 2, . . . , n IE Vi1 = 0

a

IE Vi2 = 0

(186)

Oznaˇcme jeˇstˇe 2 cov(Vij , Vik ) = σ(V )jk .

(187)

2 Hodnoty kovarianc´ı σ(V uˇzeme odhadnout z rezidu´ı po aplikaci napˇr. nejmenˇs´ıch ˇctverc˚ u na )jk m˚ 2 redukované rovnice (164) a (165). Oznaˇcme tyto odhady jako σ ˆ(V )jk . Ze vztahu (185) nalezneme

Ei1 = Vi1 − γ11 Vi2

a

Ei2 = Vi1 − γ21 Vi2 ,

coˇz znamená, ˇze dodateˇcnˇe stanovená podm´ınka má tvar IE (Vi1 − γ11 Vi2 ) (Vi1 − γ21 Vi2 ) = 0 155

a tedy 2 2 2 2 σ(V )11 − γ11 σ(V )12 − γ21 σ(V )21 + γ11 γ21 σ(V )22 = 0.

Koneˇcnˇe pak ze vztahu (180) plyne γ21 = a tedy pro γ11 máme γ11 =

π12 π22

2 2 π12 σ(V )12 − π22 σ(V )11 2 2 π12 σ(V )22 − π22 σ(V )12

.

Dospˇeli jsme tedy k závˇeru, ˇze pro v´ ypoˇcet koeficient˚ u β a γ v poptávkové rovnici (viz (161)) z koeficient˚ u π je tˇreba ˇreˇsit soustavu rovnic β11 = π11 − γ11 π21 ,

β21 = π11 − γ21 π21

(tyto vztahy plynou z lev´ ych rovnost´ı v (183) a (184) ) a γ11 =

2 2 ˆ(V π12 σ ˆ(V )12 − π22 σ )11 2 2 π12 σ ˆ(V ˆ(V )22 − π22 σ )12

.

Vid´ıme, ˇze vˇsechny koeficienty jsou jiˇz nyn´ı pˇresnˇe identifikov´ any. 9.2.3

Dvoustupˇ nov´ y odhad metodou nejmenˇ s´ıch ˇ ctverc˚ u

Dˇr´ıve neˇz se pust´ıme do vlastn´ıho v´ ykladu dvoustupˇ nového odhadu, pˇripomeˇ nme, ˇze jsme v´ yˇse pro g-t´ y sloupec matice Y (viz (171) a (172)) ) zavedli oznaˇcen´ı Y(g) , tj. Y(g) = (Y1g , Y2g , . . . , Yng )T (g = 1, 2, . . . , G) (viz (169)) a podobnˇe pro g-t´ y sloupec matice E (viz opˇet (172) ) E(g) . Poloˇzme T jeˇstˇe γ(g) = (γg1 , γg2 , . . . , γgG ) a β(g) = (βg1 , βg2 , . . . , βgp )T . Toto oznaˇcen´ı vektor˚ u regresn´ıch koeficient˚ u γ a β je ostatnˇe ve shodˇe s oznaˇcen´ım pouˇz´ıvan´ ym v cel´ ych skriptech, pouze pˇribyl in{|g|} dex naznaˇcuj´ıc´ı ˇc´ıslo simultán´ı rovnice. Koneˇcnˇe pak oznaˇcme Y (pro g = 1, 2, . . . , G) matici, jej´ıˇz i-t´ y ˇrádek je roven Yi1 , Yi2 , . . . , Yi,g−1 , Yi,g+1 , . . . , YiG (kde jsme, tak jak jsme to v´ yˇse slibovali, pouˇzili “ˇcárku” mezi indexy, abychom pˇredeˇsli pˇr´ıpadnému nedorozumˇen´ı), tj. matice Y {|g|} se dostane z matice Y (viz opˇet (171) ) vypuˇstˇen´ım g-tého sloupce. Koneˇcnˇe pak pˇripomeˇ nme, ˇze jsme uvedli, ˇze symbolem γ{g} budeme oznaˇcovat vektor, kter´ y dostaneme z vektoru γ(g) po vypuˇstˇen´ı g-té souˇradnice, tj. γ{g} = (γg1 , γg2 , . . . , γg,g−1 , γg,g+1 , . . . , γgG )T . Jeˇstˇe pˇripomeˇ nme, ˇze jsme pˇredpokládali, ˇze v kaˇzdé simult´ an´ı rovnici je jeden koeficient γ roven 1. Snadno se nahlédne, ˇze tento pˇredpoklad neub´ırá na obecnosti naˇsim u ´vah´ am, nebot’ pokud by tomu tak nebylo prostˇe bychom jedn´ım koeficientem γ celou rovnici vydˇelili. M˚ uˇzeme tedy pˇredpokládat, ˇze γgg = 1. Uvˇedomme si, ˇze to souˇcasnˇe znamená, ˇze potˇrebujeme odhadnout jenom γ{g} a β(g) (pro g = 1, 2, . . . , G). Nyn´ı se jiˇz pust’me do v´ ykladu dvojstupˇ nového odhadu koeficient˚ u. Nejprve se vrat’me zpátky ke vztahu (168), tj. k obecnému tvaru simult´ an´ıch rovnic γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig , opˇet pro g = 1, 2, . . . , G a i = 1, 2, . . . , n. Uvaˇzujme prvn´ı rovnici. Jak jsme jiˇz v´ yˇse konstaovali, m˚ uˇzeme pˇredpokládat, ˇze γ11 = 1. To znamená, ˇze m˚ uˇzeme tuto rovnici psát s pomoc´ı oznaˇcen´ı, která jsme právˇe zavedli, ve tvaru Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) . 156

(188)

Analogicky jako pro vektory regresn´ıch koeficient˚ u γ a β, oznaˇcme π(g) = (πg1 , πg2 , . . . , πgp )T , g = 1, 2, . . . , G a V(g) g-t´ y sloupec matice V (viz (175) ). Rovnice (175) ted’ m˚ uˇzeme pˇrevést na tvar (Y(1) , Y(2) , . . . , Y(G) ) = X · (π(1) , π(2) , . . . , π(G) ) + (V(1) , V(2) , . . . , V(G) )

(189)

pˇr´ıpadnˇe Y(g) = X · π(g) + V(g)

pro g = 1, 2, . . . , G.

(190)

Koneˇcnˇe oznaˇcme symbolem V {|g|} matici, kterou z´ısk´ ame z matice V (viz (175) ) vynech´ an´ım {|g|} g-tého sloupce (g = 1, 2, . . . , G), viz zaveden´ı matice Y . Ze vztahu (189) dostaneme po vynechán´ı vztahu pro Y(1) Y {|1|} − V {|1|} = X · (π(2) , π(3) , . . . , π(G) ).

(191)

Modifikac´ı rovnic (188) dostaneme ³

´

Y(1) = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) − V {|1|} γ{1} ³

´

∗ = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) ,

(192)

∗ . D´ pˇriˇcemˇz pro E(1) − V {|1|} γ{1} jsme pouˇzili oznaˇcen´ı E(1) ıky tomu, ˇze Y {|1|} − V {|1|} závis´ı jen od matice plánu X a od regresn´ıch koeficient˚ u z redukovan´ ych rovnic π(2) , π(3) , . . . , π(G) (viz ∗ {|1|} (191)), je nekorelované s E(1) . Nav´ıc je IE V = 0 d´ıky pravé rovnosti v (174). Z (174) také ihned plyne, ˇze Vi a Vj jsou pro i 6= j nekorelované vektory, maj´ıc´ı zajisté korelované souˇradnice ∗ m´ “uvnitˇr” jednoho vektoru, tj. pro pevné i. To ihned implikuje, ˇze vektor E(1) a nekorelované souˇradnice. To znamená, ˇze (192) pˇredstavuje regresn´ı model, kter´ y splˇ nuje vˇsechny podm´ınky pro pouˇzit´ı bˇeˇzn´ ych nejmenˇs´ıch ˇctverc˚ u (OLS). Jedin´ ym problémem, kter´ y je tˇreba vyˇreˇsit, je to, {|1|} {|1|} ˇze matice Y −V nen´ı dostupná “mˇeˇren´ı”. Pˇrirozenˇe totiˇz neznáme V {|1|} ). Nicménˇe matici Y {|1|} − V {|1|} m˚ uˇzeme odhadnout, a to pomoc´ı X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ), kde π ˆ(2) , π ˆ(3) , . . . , π ˆ(G) jsou odhady regresn´ıch koeficient˚ u z redukovan´ ych rovnic (189) (ˇci (190), chcete-li. Oznaˇcme {|1|} ˆ X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ) jako Y . Z v´ yˇse uvedené teorie v´ıme, ˇze

lim Yˆ {|1|} lim

n→∞

³

n→∞

a

³

lim

n→∞

´

Y {|1|} − Vˆ {|1|} = lim X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ) = Y {|1|} − V {|1|} s. j. n→∞

´

h

³

´

E(1) − Vˆ {|1|} γ{1} = lim E(1) − Y {|1|} − X · (ˆ π(2) , π ˆ(3) , . . . , π ˆ(G) ) γ{1} ³

n→∞

i

´

= E(1) − Y {|1|} − X · (π(2) , π(3) , . . . , π(G) ) γ{1} = E(1) − V {|1|} γ{1} s. j.. To dokazuje, ˇze Yˆ {|1|}

a

E(1) − Vˆ {|1|} γ{1}

∗∗ = E ˆ {|1|} γ{1} , dostaneme z jsou asymptoticky nekorelované a poloˇz´ıme-li E(1) (1) − V ∗∗ Y(1) = −Yˆ {|1|} γ{1} − X · β(1) + E(1) ,

(193)

konsistentn´ı, byt’ obecnˇe nikoliv nestranné odhady pro γ{1} a β(1) . Tˇemto odhad˚ um se, celkem z evidentn´ıch d˚ uvod˚ u, ˇr´ıká dvoustupˇ nové. 157

V tomto momentˇe m˚ uˇze padnout otázka, proˇc jsme se smaˇzili odvodit toto dvojstupˇ nové schéma v´ ypoˇctu odhad˚ u regresn´ıch koeficient˚ u, kdyˇz v´ yˇse prezentované u ´vahy naznaˇcuj´ı, ˇze bychom mohli pouˇz´ıt pˇreveden´ı strukturáln´ıch rovnic na redukované, vypoˇc´ıtat odhady koeficient˚ u π a ty pak pˇrepoˇc´ıtat na koeficienty β a γ. Odpovˇed’ je vlastnˇe skryta v samotné otázce. Pˇri právˇe popsaném postupu jde o pˇrepoˇc´ıt´ av´ an´ı koeficient˚ u, které bude vˇzdy “ˇsito na m´ıru’ tomu ˇci onomu systému simultán´ıch rovnic. V´ yhodou dvojstupˇ nového algoritmu je to, ˇze odhady m˚ uˇzeme vyˇc´ıslit aniˇz bychom pˇrepoˇc´ıt´ avali strukturové rovnice na redukované a naopak po vyˇc´ıslen´ı odhad˚ u pro koeficienty π pˇrepoˇc´ıt´ avali tyto zpˇet na odhady koeficient˚ u γ a β. Staˇc´ı totiˇz vyˇreˇsit rovnice (189), dosadit do rovnic (193) a opˇet vypoˇc´ıtat odhady pro koeficienty γ a β. To jsou vˇsechno standarn´ı, pro vˇsechny simult´ an´ı systémy stejné operace proveditelné (snad) ve vˇsech statistick´ ych knihovnách. 9.2.4

Trojstupˇ nov´ y odhad metodou nejmenˇ s´ıch ˇ ctverc˚ u

Naprosto stejná filozofie, která stála v pozad´ı dvojstupˇ nového algoritmu, vede k odvozen´ı algoritmu trojstupˇ nového, kter´ y umoˇzn ˇuje vyˇc´ıslen´ı vˇsech odhad˚ u koeficient˚ u β a γ bez toho, abychom je z´ısk´ avali pˇrevodem z koeficient˚ u π. N´ıˇze uvedené u ´vahy jsou tedy m´ırn´ ym zobecnˇen´ım u ´vah z pˇredchoz´ıho odstavce. Soustavu simultán´ıch rovnic budeme tedy psát ve tvaru (viz (188) ) Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) , Y(2) + Y {|2|} · γ{2} + X · β(2) = E(2) , .. .. .. .. . . . .

(194)

Y(G) + Y {|G|} · γ{G} + X · β(G) = E(g) . K n´ı pˇr´ısluˇsná soustava redukovan´ ych rovnic (190) má tvar Y(1) = X · π(1 + V(1) , Y(2) = X · π(2) + V(2) , .. .. .. . . . Y(G) = X · π(g) + V(G) . Z poslednˇe uvedené soustavy vypoˇcteme Vˆ {|g|} pro g = 1, 2, . . . , G a poloˇz´ıme Yˆ {|g|} = Y {|g|} − Vˆ {|g|} opˇet pro g = 1, 2, . . . , G. Koneˇcnˇe pak nam´ısto soustavy (194) budeme uvaˇzovat soustavu

158

∗ Y(1) = −Yˆ {|1|} · γ{1} − X · β(1) + E(1) , {|2|} ∗ Y(2) = −Yˆ · γ{2} − X · β(2) + E ,

(195)

(2)

.. .

.. .

.. .

.. .

∗ Y(G) = −Yˆ {|G|} · γ{G} − X · β(G) + E(g) , ∗ =E ˆ {|g|} · γ{g} pro g = 1, 2, . . . , G. Po té, co zjist´ıme, kde podobnˇe jako v´ yˇse oznaˇc´ıme E(g) (g) + V ∗ ∗ ∗ ∗ jsou nekorelované a E`(g) jsou nekorelované pro k 6= ` a g 6= h (dokonce i Ek(g) a E`(h) ˇze sice Ek(g) ∗ ∗ pro k 6= `), ale Ek(g) a Ek(h) korelované jsou pro libovolnou dvojice g a h, dojdeme samozˇrejmˇe k závˇeru, ˇze na soustavu (195) je tˇreba nahl´ıˇzet jako na soustavu zdánlivˇe nesouvisej´ıc´ıch rovnic. Vypoˇcteme tedy nejprve “naivn´ı” odhady, ˇreknˇeme γ˜{g} a β˜(g) a spoˇcteme odhady kovarianc´ı

³

σ ˆgh =

Y(g) + Y {|g|} · γ˜{g} + X · β˜(g)

´T ³

Y(h) + Y {|h|} · γ˜{h} + X · β˜(h)

ϑ

kde

n

∗ ∆ ∗ ϑ = max n − G∆ g + 1 − pg , n − G h + 1 − ph

´

,

o

∗ ∆ ∗ a kde, v souladu s oznaˇcen´ım uˇz´ıvan´ ym v odstavci o problému identifikace, G∆ g , pg , Gh a ph , oznaˇcuje postupnˇe skuteˇcn´ y poˇcet endogen´ıch a exogen´ıch veliˇcin v g-té a h-té rovnici soustavy (195). Odhad kovarianˇcn´ı matice Σ má tedy tvar



2 I σ ˆ11

 2 I  σ ˆ21 ˆ = Σ  ..  . 

2 I σ ˆ12

...

2 I σ ˆ1G

2 I σ ˆ22 .. .

...

2 I σ ˆ2G .. .

    ,  

2 I σ 2 I ... σ 2 I σ ˆG1 ˆG2 ˆGG

kde vˇsechny jednotkové matice I jsou typu (n × n), a spoˇcteme Aitken˚ uv odhad (viz (131) ), coˇz je v naˇsem pˇr´ıpadˇe uˇz tˇret´ı pouˇzit´ı nejmenˇs´ıch ˇctverc˚ u. Odtud pˇrirozenˇe název metody. Pro odhady koeficient˚ u tedy m˚ uˇzeme uˇz´ıt vztahu   ³

T ,Y T ,...,Y T kde Y = Y(1) (2) (G)

´T

γˆ βˆ



³ ´−1 ˆ −1 Z ˆ −1 Y,  = ZT Σ ZT Σ

,

 ˆ {|1|} Y   0  Z= ..  . 

0

0

...

0

X

0

...

0

Yˆ {|2|} . . . .. .

0 .. .

0 .. .

X ... .. .

0 .. .

0

0

0

. . . Yˆ {|G|}

    ,  

... X

kde vˇsechny submatice Yˆ {|g|} jsou typu (n × G − 1) (pro g = 1, 2, . . . , G) a X je typu (n × p), ³ ´T ³ ´T T , γT , . . . , γT T , βT , . . . , βT a kde γˆ a βˆ jsou tedy odhady vektor˚ u γ{1} a β . {2} {G} (1) (2) (G) 159

´ ANALYZA VARIANCE

10

Anal´ yza variance je jednou z tradiˇcn´ıch statistick´ ych discipl´ın a patrnˇe byla studov´ ana dˇr´ıve neˇz regresn´ı anal´ yza. V této kapitole vˇsak ukáˇzeme, ˇze ji lze interpretovat jako speciáln´ı pˇr´ıpad regresn´ı anal´ yzy. Zd˚ uraznˇeme hned na samém zaˇc´ atku, ˇze jsme ˇrekli lze interpretovat, nebot’ náˇs v´ yklad nemá v ˇzádném pˇr´ıpadˇe ukázat, ˇci snad dokonce dokázat, ˇze anal´ yza variance je speciáln´ım pˇr´ıpadem regrese. Jej´ı filozofie je zcela svébytn´ a a také jej´ı znaˇcen´ı se ustálilo zcela odliˇsnˇe od formalizmu regresn´ı anal´ yzy a to naneˇstˇest´ı tak, ˇze je to m´ısty zav´ adˇej´ıc´ı pro ty, kdo maj´ı “zaˇzité” znaˇcen´ı v regresi. Nicménˇe vzhledem k ustálenosti a názornosti znaˇcen´ı, které je v anal´ yze variance pouˇz´ıváno, pˇridrˇz´ıme se tohoto znaˇcen´ı pokud to bude moˇzné. K usnadnˇen´ı pak ˇcten´ı textu budeme na tyto odliˇsnosti obˇcas upozorˇ novat. Jak bude moˇzné nahlédnout z n´ıˇze uvedeného textu, nˇekteré partie této teorie, zejména jednoduché a dvojné tˇr´ıdˇen´ı, pˇredstavuj´ı krásn´ y pˇr´ıklad aplikace v´ıcenásobného regresn´ıho modelu, takˇze lze v´ ysledky tˇechto parti´ı z´ıskat okamˇzitˇe specifikac´ı obecnˇejˇs´ıch v´ ysledk˚ u z regrese pro tyto speciáln´ı modely. Proto byla tato partie zaˇrazena do textu skript, aby napovˇedˇela skuteˇcnou ˇs´ıˇri pouˇzitelnosti (ˇci snad lépe, pokud nejsme jazykov´ı puristi, aplikability9 ) regresn´ıho schematu.

10.1

Jednoduch´ e tˇ r´ıdˇ en´ı

Jak je tradiˇcn´ı v anal´ yze variance zvykem budeme uvaˇzovat model Yij = µ + αi + Eij

pro

i = 1, 2, . . . , I, j = 1, 2, . . . , Ji ,

(196)

a budeme pˇredpokládat, ˇze je splnˇena okrajov´ a podm´ınka I X

Ji αi = 0.

(197)

i=1

Bez této okrajové podm´ınky (197), bychom mˇeli v modelu pˇr´ıliˇs mnoho parametr˚ u. Odhadovali bychom totiˇz I souˇradnic vektoru α a hodnotu µ, tj. I + 1 parametr˚ u, zat´ımco matice plánu, která je uvedena na dalˇs´ı stranˇe, má hodnost I. Máme tedy dvˇe moˇznosti: • bud’ vypustit jeden parametr, napˇr. µ • nebo uvalit na odhadované parametry nˇejakou vazebn´ı podm´ınku, napˇr. (197). Z historick´ ych d˚ uvod˚ u, ale i z d˚ uvodu jekési “symetrie” modelu se dala pˇrednost druhé variantˇe. Model (196) m˚ uˇzeme alternativnˇe psát ve tvaru IE Yij = µ + αi

pro

i = 1, 2, . . . , I, j = 1, 2, . . . , Ji .

Definujme Y˜ = (Y11 , Y12 , . . . , Y1J1 , Y21 , Y22 , . . . , Y2J2 , . . . , YI1 , YI2 , . . . , YIJI )T , 9

Pˇriˇcemˇz ovˇsem druhé z tˇechto dvou slov je patrnˇe ponˇekud obecnˇejˇs´ı.

160

(198)

                    X=                   

1 1 0 ............ 1 1 0 ............ .. .. .. . . . 1 1 0 ............

0 0 .. .

1 0 1 ............ 1 0 1 ............ .. .. .. . . . 1 0 1 ............

0 0 .. .

.. . .. . .. .

.. . .. . .. .

.. . .. . .. .

0

0

.. . .. . .. .

1 0 0 ............ 1 0 0 ............ .. .. .. . . . 1 0 0 ............

1 1 .. .

                    ,                   

1

vodorovné ˇcáry pˇres celou ˇs´ıˇri matice naznaˇcuj´ı vˇzdy konec bloku. Upˇresnˇeme, ˇze prv´ y blok (maj´ıc´ı jedniˇcky ve druhém sloupci) má J1 ˇr´ adk˚ u, druh´ y J2 ˇr´ adk˚ u atd., tj. celá matice má PI 0 n = `=1 J` ˇrádk˚ u a I + 1 sloupc˚ u, a koneˇcnˇe β = (µ, α1 , α2 , . . . , αI )T . Vektor regresn´ıch koeficient˚ u budeme dále psát ve tvaru β 0 = (β0 , β1 , β2 , . . . , βI )T a podobnˇe souˇradnice vektoru X` budeme ˇc´ıslovat od nuly, tj. (X`0 , X`1 , X`2 , . . . , XÌ ) pro ` = 1, 2, . . . , n. Nyn´ı m˚ uˇzeme psát regresn´ı model Y˜ = X · β 0 + E. Vektor náhodn´ ych fluktuac´ı je pˇrirozenˇe tohoto tvaru E = (E11 , E12 , . . . , E1J1 , E21 , E22 , . . . , E2J2 , . . . , EI1 , EI2 , . . . , EIJI )T . Nen´ı obt´ıˇzné ovˇeˇrit, ˇze     T X X=   



n J1 J2 J1 J1 0 J2 0 J2 .. .. .. . . . JI 0 0

kde



. . . JI ... 0    ... 0  ..   . 

   T ˜ X Y =   

a

. . . JI J

I X i 1X Yij Y¯ = n i=1 j=1

a

nY¯ J1 Y¯1 J2 Y¯2 .. . JI Y¯I

    ,   

Ji 1 X Yij . Y¯i = Ji j=1

Podobnˇe snadno nalezneme normáln´ı rovnice nβ0

+ J1 β1 + J2 β2 + . . . + JI βI

J1 β0 + J1 β1 + J2 β0 + .. . JI βI +

0 .. . 0

0

+...+

0

+ J2 β2 + . . . + 0 .. .. . . + 0 + . . . + JI βI 161

=

nY¯

= J1 Y¯1 = J2 Y¯2 . .. . = JI Y¯I

(199)

Vezmeme-li v u ´vahu okrajovou podm´ınku (197) J1 β1 + J2 β2 + . . . + JI βI = 0, dostaneme z prvn´ı rovnice v soustavˇe (199) βˆ0 = Y¯

(200)

a to umoˇzn´ı pˇrepsat normáln´ı rovnice do tvaru (vynech´ an´ım prvn´ı z nich a uplatnˇen´ım znalosti ˆ o β0 ) J1 β1 + 0 +...+ 0 = J1 (Y¯1 − Y¯ ) 0 .. . 0

+ J2 β2 + . . . + 0 .. .. . . + 0 + . . . + JI βI

= J2 (Y¯2 − Y¯ ) . .. . = JI (Y¯I − Y¯ )

Pak jiˇz nen´ı tˇeˇzké ovˇeˇrit, ˇze βî = Y¯i − Y¯ pro i = 1, 2, . . . , I.

(201)

Nyn´ı z (200) a (201) plyne, ˇze pro ` = 1, 2, . . . , n a pro vˇsechna k takov´ a, ˇze ` = J1 +J2 +. . .+Jh +k a 0 < k ≤ Jh+1 predikce vysvˇetlované promˇenné je Yˆ`k = X`T βˆ(LS,n) = X`1 β0 + X`k βk = Y¯i , Reziduáln´ı souˇcet ˇctverc˚ u pro hypotézu H : “správn´ ym” modelem je (196), je tedy 2 SH =

Ji I X X ¡

Yij − Y¯i

¢2

.

i=1 j=1

Jeho alternativn´ı zápis m˚ uˇze b´ yt ³

´

Y˜ T I − X(X T X)−1 X T Y˜ ,

(202)

ostanˇe jsme to jiˇz dˇr´ıve nˇekolikrát udˇelali, viz napˇr. (50) ˇci (51) (Y˜ je zavedeno ve (198) ). Budeme-li pˇredpokládat alternativu A ve tvaru Yij = µ + Eij

pro

i = 1, 2, . . . , I, j = 1, 2, . . . , Ji ,

tj. budeme pˇredpokládat α1 = α2 = . . . = αI = 0, u ´vahami podobn´ ymi v´ yˇse uveden´ ym, ˇci pˇr´ımou minimalizac´ı pˇr´ısluˇsného souˇctu ˇctverc˚ u, nalezneme βˆ0 = µ ˆ = Y¯ a pˇr´ısluˇsn´ y reziduáln´ı souˇcet ˇctverc˚ u 2 SA =

Ji I X X ¡

Yij − Y¯

¢2

=

I X

¡

Ji Yij − Y¯

¢2

= Y˜ T (I − N ) Y˜ .

(203)

i=1

i=1 j=1

Matice N (podobnˇe jako v´ yˇse) má vˇsechny prvky stejné, rovné n1 . Opˇet pouˇzijeme rozklad souˇctu ˇctverc˚ u ³

´

³

´

Y˜ T Y˜ = Y˜ T I − X(X T X)−1 X T Y˜ + Y˜ T X(X T X)−1 X T − N Y˜ + Y˜ T N Y˜ 162

(204)

neboli

Ji I X X

Yij2

=

i=1 j=1

Ji I X X ¡

Yij − Y¯i

¢2

+

i=1 j=1

I X

¡

Ji Y¯i − Y¯

¢2

+ nY¯ 2 .

i=1

Pouˇzit´ım Fisher-Cochranova lemmatu (viz Lemma 6) pro právˇe nalezen´ y rozklad souˇctu ˇctverc˚ u, ˜ zjist´ıme, ˇze za pˇredpokladu, ˇze Y je rozdˇeleno normálnˇe, tj. fluktuace Eij v (196) jsou rozdˇeleny normálnˇe, má 2 SH

=

Ji I X X ¡

Yij − Y¯i

¢2

i=1 j=1

³

´

= Y˜ T I − X(X T X)−1 X T Y˜ χ2 rozdˇelen´ı s n − I stupni volnosti, nebot’ matice X m´ a hodnost I. Analogickou u ´vahou se ukáˇze, ˇze za stejn´ ych podm´ınek má rozd´ıl souˇctu ˇctverc˚ u 2 2 SA − SH =

I X

¡

Ji Y¯i − Y¯

¢2

³

´

= Y˜ T X(X T X)−1 X T − N Y˜

i=1 2 také rozdˇelen´ı χ2 o I − 1 stupn´ıch volnosti. Nav´ıc z Fisher-Cochranova lemmatu plyne, ˇze SH 2 − S 2 jsou statisticky nez´ a SA avislé, tj. H

PI

F =

¡

Y¯i − Y¯ I −1

i=1 Ji

¢2

· PI

i=1

n−I

PJi ¡ j=1

Yij − Y¯i

¢2

je rozdˇeleno jako FI−1,n−I , tj. Fisher-Snedecorovo F o I − 1 a n − I stupn´ıch volnosti. Proto, podobnˇe jako v kapitole o testov´ an´ı submodelu, je moˇzné test o platnosti hypotézy H proti alternativˇe A zaloˇzit na této statistice. Pro u ´plnost uved’me, ˇze klasické práce vˇenované anal´ yze tˇr´ıdˇen´ı (Scheffe (1959), Draper, Smith (1966),(1981), Andˇel, J. (1978), Rao (1978)) uvádˇej´ı pˇr´ısluˇsné souˇcty ˇctverc˚ u (viz (204)) obvykle v následuj´ıc´ı tabulce (tato byla v podstatˇe pˇrevzata z Draper, Smith (1966)).

Tabulka 18 Rozklad souˇctu ˇctverc˚ u pro jednoduché tˇr´ıdˇen´ı. Zdroj Mezi tˇr´ıdami Uvnitˇr tˇr´ıd

Suma ˇctverc˚ u 2 = SA 2 = SH

PI

i=1 Ji

PI

i=1

Y¯i − Y¯

PJi ¡ j=1

¢2

Yij − Y¯i

¢2

nY¯ 2

Pr˚ umˇerná hodnota Celkem

¡

Stupnˇe volnosti

PI

i=1

PJi

2 j=1 Yij

Stˇredn´ı ˇctverce

I −1

s2A =

n−I

s2H =

2 SA I−1 2 SH n−I

1 PI

i=1 Ji

=n

Rovnˇeˇz pomˇernˇe ˇcasto b´ yvá posledn´ı tabulka uvádˇena vˇsak ve tvaru (napˇr. Rao (1978))

163

Tabulka 18 a Zdroj Mezi tˇr´ıdami Uvnitˇr tˇr´ıd

Suma ˇctverc˚ u 2 = SA 2 = SH

10.2

i=1 Ji

PI

i=1

PI

Centrovan´ y souˇcet

PI

i=1

¡

Stupnˇe volnosti

Y¯i − Y¯

¢2

PJi ¡

Yij − Y¯i

j=1

PJi

j=1 (Yij

¢2

− Y¯ )2


I −1

s2A =

n−I

s2H =

2 SA I−1 2 SH n−I

n−1

Dvojn´ e tˇ r´ıdˇ en´ı

Pro jednoduchost budeme uvaˇzovat model se stejn´ ym poˇctem jednotek v kaˇzdé buˇ nce dvojného tˇr´ıdˇen´ı. Model, kter´ y nepˇredpokládá stejn´ y poˇcet pozorov´ an´ı v kaˇzdé buˇ nce je sice touto cestou také zvládnuteln´ y, ale po formáln´ı stránce se celá vˇec stane nepˇrehlednou. Budeme tedy studovat model IE Yijk = µ + αi + βj + γij pro i = 1, 2, . . . , I j = 1, 2, . . . , J, (205) k = 1, 2, . . . , K. To znamená, ˇze pˇredpokládáme, ˇze model má I ˇr´ adk˚ u, J sloupc˚ u a K jednotek v kaˇzdé buˇ nce. Snadno se opˇet nahlédne, ˇze bez zadán´ı okrajov´ ych podm´ınek, které zkompenzuj´ı “nadbytek” parametr˚ u v modelu, bychom nemohli parametry modelu jednoznaˇcnˇe odhadnout. Tyto okrajové podm´ınky budou m´ıt tvar I X

αi = 0

a

i=1

J X

βj = 0,

j=1

a dále pak pro vˇsechna j = 1, 2, . . . , J I X

γij = 0.

i=1

Koneˇcnˇe pro vˇsechna i = 1, 2, . . . , I J X

γij = 0.

j=1

Vysvˇetlovaná veliˇcina má pˇrirozenˇe opˇet tvar Y˜ = (Y11 , Y112 , . . . , Y11K , Y121 , Y122 , . . . , Y12K , . . . , Y1J1 , Y1J2 , . . . , Y1JK , Y211 , . . . , YIJ1 , YIJ2 , . . . , YIJK )T .

(206)

Matice plánu je ponˇekud komplikovaná X a je uvedena na dalˇs´ı stránce. Má vˇsechny bloky (ve svislém smˇeru) o K ˇrádc´ıch, coˇz znamená, ˇze celá matice má n = IJK ˇr´ adk˚ u. Ve vodorovném smˇeru má prv´ y blok jeden sloupec (pro absolutn´ı ˇclen µ), druh blok má I sloupc˚ u, tˇret´ı má J sloupc˚ u atd., aˇz posledn´ı pak IJ sloupc˚ u. Vodorovné plné ˇc´ ary pˇres celou ˇs´ıˇri matice a svislé ˇcáry pˇres v´ yˇsku blok˚ u opˇet naznaˇcuj´ı oddˇelen´ı vodorovn´ ych, pˇr´ıpadnˇe svisl´ ych blok˚ u. Jak vzápˇet´ı uvid´ıme, k z´ıskán´ı reziduáln´ıho souˇctu ˇctverc˚ u pouˇzijeme jin´ y model, kter´ y je s 164

t´ımto modelem ekvivalentn´ı, ale kter´ y umoˇzn´ı nalezen´ı tohoto souˇctu snadnˇeji. Proto vektor regresn´ıch koeficient˚ u nebudeme ani podrobnˇe popisovat. Vˇenujme se na okamˇzik matici plánu. Ta je znaˇcnˇe “redundantn´ı, nebot’ prv´ y sloupec ve druhém bloku (ve vodorovném smˇeru, tj. v bloku, kter´ y odpov´ıd´ a parametr˚ um α v (205) ) je stejn´ y jako souˇcet prvn´ıho, (I + 1)-n´ıho, 2I + 1-n´ıho, ...,[(J − 1)I + 1]-n´ıho sloupce v posledn´ım bloku (tj. v bloku, kter´ y odpov´ıdá parametr˚ um γ). Podobnˇe pro druh´ y sloupec druhého bloku zjist´ıme, ˇze je roven souˇctu druhého, (I + 2)-hého, (2I + 2)-hého,...,[(J − 1)I + 2]-hého sloupce v posledn´ım bloku, atd. Koneˇcnˇe pak snadno ovˇeˇr´ıme, ˇze prvn´ı sloupec tˇret´ıho bloku, tj. bloku, kter´ y odpov´ıdá parametr˚ um β, je souˇctem prvého, druhého,..., I-tého sloupce v posledn´ım bloku. Nav´ıc prvn´ı sloupec matice, tj. sloupec odpov´ıdaj´ıc´ı absolutn´ımu ˇclenu), je napˇr. souˇctem vˇsech sloupc˚ u posledn´ıho bloku. Odtud plyne, ˇze hodnost matice X je I · J a ˇze m˚ uˇzeme z modelu vypustit prv´ y, druh´ y a tˇret´ı blok sloupc˚ u, tj. model, kter´ y bude m´ıt stejnou vysvˇetlovanou ˜ ˜ veliˇcinu Y jaká je zadaná v (206) a matici X, která bude obsahovat pouze sloupce posledn´ıho bloku matice X, bude ekvivalentnˇe vysvˇetlovat veliˇcinu Y˜ jako model se ˇsirˇs´ı matic´ı plánu X. Ani v tomto pˇr´ıpadˇe nen´ı tˇreba vektor regresn´ıch koeficient˚ u pˇresnˇe specifikovat. Tento alternativn´ı model, jehoˇz matice plánu je vˇsak plné hodnosti, umoˇzn´ı snadnˇeji nalézt minimum souˇctu ˇctverc˚ u I X J X K X

(Yijk − γij )2 .

i=1 j=1 k=1

˜TX ˜ má pro tento model pˇrekvapivˇe jednoduch´ ˜ T Y˜ , jmenovitˇe Matice X y tvar právˇe tak jako X     ˜TX ˜ = X    

K

0

0

K ...

.. .

.. .

0

0

...

0



 PK

k=1 Y11k



 P  K  k=1 Y12k  T ˜ ˜ X Y = ..   .  PK

0   

a

..   .  

... K

     .   

k=1 YIJk

To samozˇrejmˇe vede k jednoduch´ ym normáln´ım rovnic´ım         

K

0

0

K ...

.. .

.. .

0

0

...

0

   

γ11

 0    γ12   · ..    . .   ..  

... K

γJK



 PK

k=1 Y11k

  P   K   k=1 Y12k   = ..     .   PK

     ,   

k=1 YIJk

ze kter´ ych okamˇzitˇe najdeme γij =

1 K

PK

k=1 Yijk

= Y¯ij ,

i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K.

Reziduáln´ı souˇcet ˇctverc˚ u pro hypotézu, ˇze data se ˇr´ıd´ı modelem (205) je tedy roven 2 SH =

I X J X K X ¡

Yijk − Y¯ij

i=1 j=1 k=1

167

¢2

.

Stejnˇe jako v pˇredchoz´ım odstavci pouˇzijeme Fisher-Cochranovo lemma, které po u ´vah´ ach podobn´ ych tˇem, které jsme provedli v pˇredchoz´ım odstavci potvrd´ı, ˇze tento souˇcet ˇctverc˚ u má, samozˇrejmˇe opˇet za pˇredpokladu, ˇze náhodné fluktuace E jsou normálnˇe rozdˇelené, χ2 rozdˇelen´ı o I · J · (K − 1) stupn´ıch volnosti. Ostatnˇe tento v´ ysledek má krásnou mnemotechniku, nebot’ poˇcet stupˇ n˚ u volnosti lze interpretovat tak, ˇze jde o I · J · K ˇctverc˚ u, ale v kaˇzdé buˇ nce, ¯ kter´ ych je I · J padne jeden stupeˇ n volnosti na pr˚ umˇer Yij . Jako alternativu budeme uvaˇzovat model IE Yijk = µ + αi + βj pro

i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K.

(207)

jehoˇz okrajové podm´ınky maj´ı tvar I X

αi = 0

a

i=1

J X

βj = 0.

(208)

j=1

Z toho plyne, ˇze budeme minimalizovat I X J X K X

(Yijk − αi − βj )2 .

i=1 j=1 k=1

Vysvˇetlovaná promˇenná je pˇrirozenˇe stejná jako pˇri hypotéze (viz (206) ) a matice plánu je rovna prvn´ım tˇrem blok˚ um matice X (viz pˇredchoz´ı strana). Opˇet snadno nalezneme                T ˜ ˜ X X=              

n

J · K J · K ... J · K I · K I · K ... I · K



       J ·K 0 J · K ... 0 K K ... K   .. .. .. .. .. .. ..   . . . . . . .    J ·K 0 0 ... J · K K K ... K  ,  .........................................................   I ·K K K ... K I ·K 0 ... 0     I ·K K K ... K 0 I · K ... 0   .. .. .. .. .. .. ..   . . . . . . .  

......................................................... J ·K J ·K 0 ... 0 K K ... K

I ·K

K

K

...

168

K

0

0

... I · K

 PI PJ PK i=1 j=1 k=1 Yijk  P P J K   j=1 k=1 Y1jk  P P  J K  j=1 k=1 Y2jk   ..   .   P P J K ˜ T Y˜ =  X j=1 k=1 YIjk   P P  I K  i=1 k=1 Yi1k  P P  I K  i=1 k=1 Yi2k    ..  .  PI PK





                        

            β˜ =             

a

 

α1  

        .            

α2  .. . αI β1 β2 .. . βJ

k=1 YiJk

i=1

µ

Normáln´ı rovnice sice vypadaj´ı na prvn´ı pohled trochu komplikované nµ + J · K

PI

i=1 αi

J · Kµ + J · Kαi + K I · Kµ + K

PJ

+I ·K

PI

i=1 αi

PJ

j=1 βj

=

j=1 βj

=

+ I · Kβj

=

PI

i=1

PJ

j=1

PJ

PK

PI

PK

j=1 i=1

PK

k=1 Yijk

k=1 Yijk

pro i = 1, 2, . . . , I

k=1 Yijk

pro j = 1, 2, . . . , J,

ale vezmeme-li v u ´vahu okrajovou podm´ınku (208), zredukuj´ı se na nµ

PI

=

i=1

J · Kµ + J · Kαi = I · Kµ + I · Kβj

PJ

PK

PJ

PK

PI

PK

j=1

=

j=1

i=1

k=1 Yijk ,

k=1 Yijk

pro i = 1, 2, . . . , I,

k=1 Yijk

pro j = 1, 2, . . . , J.

Pak jiˇz snadno nalezneme odhady parametr˚ u

α ˆ i = Y¯i· − Y¯

=

PJ PK 1 PI i=1 j=1 k=1 Yijk , n P P J K 1 ¯ j=1 k=1 Yijk − Y J·K

βˆj

=

1 I·K

µ ˆ

=

Y¯

=

= Y¯·j − Y¯

PI

i=1

PK

k=1 Yijk

− Y¯

pro i = 1, 2, . . . , I, pro j = 1, 2, . . . , J.

Reziduáln´ı souˇcet ˇctverc˚ u pro alternativu, ˇze správn´ ym modelem je (207), je tedy 2 SA =

I X J X K X ¡

Yijk − Y¯i· − Y¯·j + Y¯

¢2

.

i=1 j=1 k=1

Naprosto stejnˇe jako v pˇredchoz´ım paragrafu pouˇzit´ım Fisher-Cochranova lemmatu ukáˇzeme, 2 − S 2 m´ a χ2 o I · J · K − I − J + 1 − I · J · (K − 1) = (I − 1)(J − 1) ˇze rozd´ıl souˇct˚ u ˇctverc˚ u SA H 2 . To znamen´ a, ˇze statistika stupn´ıch volnosti a je nezávisl´ y se souˇctem ˇctverc˚ u SH 2 − S2 SA I · J(K − 1) H · 2 (I − 1)(J − 1) SH

(209)

je pˇr´ıhodná k testován´ı hypotézy H proti alternativˇe A. Snadno si lze pˇredstavit testován´ı jin´ ych alternativ, napˇr. m˚ uˇzeme testovat pˇr´ıpadnou pˇredstavu o tom, ˇze data nezávis´ı na efektu od ˇrádk˚ u, tj. IE Yijk = µ + βj pro i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K. 169

Upozornˇeme vˇsak na to, ˇze se v nˇekter´ ych monografi´ıch tato alternativa k základn´ımu modelu presentuje jako αi = 0 pro i = 1, 2, . . . , I, ale opomene se ˇr´ıci, ˇze pokud má b´ yt ˇr´ adkov´ y efekt nulov´ y znamená to také γij = 0 pro i = 1, 2, . . . , I a j = 1, 2, . . . , J. Stejnˇe jako v pˇredchoz´ım paragrafu vytvoˇr´ıme tabulky souˇct˚ u ˇctverc˚ u

Tabulka 19 Rozklad souˇctu ˇctverc˚ u pro dvojné tˇr´ıdˇen´ı. Zdroj

Suma ˇctverc˚ u

ˇ adky R´

J ·K

Sloupce

I ·K

Interakce

K

Reziduáln´ı

PI

¡

PJ

¡

j=1

PI

PJ

¡

PI

PJ

PK

i=1

j=1

i=1

Y¯i· − Y¯

¢2

Y¯·j − Y¯

¢2

i=1

j=1

Y¯ij − Y¯i· − Y¯·j + Y¯ ¡

Yijk − Y¯ij

k=1

¢2

PI

Celkem

i=1

PJ

¢2

I −1

s2r

J −1

s2c

IJ(K − 1)

2 SH n−I

s2rc = s2

1

PK

2 k=1 Yijk

j=1


(I − 1)(J − 1)

nY¯ 2

Pr˚ umˇerná hodnota

Stupnˇe volnosti

IJK = n

Upozornˇeme rovnˇeˇz, ˇze jestliˇze se ve druhém a tˇret´ım ˇr´ adku právˇe uvedené tabulky mluv´ı ˇ o “Rádc´ıch” a “Sloupc´ıch”, zdálo by se pˇrirozené mluvit ve ˇctvrtém o “Buˇ nk´ ach”, tak jak to ostatnˇe dˇelá anglicky psaná literatura. V ˇceské literatuˇre se vˇsak z jak´ ychsi historick´ ych d˚ uvod˚ u ustálil název “Interakce”. Nˇekteré prameny opˇet uvádˇej´ı alternativn´ı tabulku Tabulka 19 a Zdroj

Suma ˇctverc˚ u

ˇ adky R´

J ·K

Sloupce

I ·K

Interakce Reziduáln´ı Centrovan´ y souˇcet

K

PI

¡

PJ

¡

j=1

PI

PJ

¡

PI

PJ

PK

PI

PJ

PK

i=1 i=1

¢2

Y¯·j − Y¯

¢2

Y¯ij − Y¯i· − Y¯·j + Y¯

j=1

i=1

Y¯i· − Y¯

i=1

j=1

j=1

k=1

¡

Yijk − Y¯ij

k=1 (Yijk

¢2

Stupnˇe volnosti


I −1

s2r

J −1

s2c

(I − 1)(J − 1)

¢2

− Y¯ )2

IJ(K − 1)

s2rc =

2 SH n−I

s2

n−1

Podobnˇe jako jsme v´ yˇse odvodili test alternativy A : mezi ˇr´ adky a sloupci nejsou interakce, tj. γij = 0 pro vˇsechna i a j, totiˇz (viz (209) ) F =

2 − S2 I · J(K − 1) SA H · (I − 1)(J − 1) SH

170

=

K

PI

i=1

¡

PJ

Y¯ij − Y¯i· − Y¯·j + Y¯ (I − 1)(J − 1)

¢2

j=1

2

I · J · (K − 1)

· PI

i=1

¡

PJi PK

k=1

j=1

Yijk − Y¯ij

src ¢2 = 2 , s

naˇsli bychom testy dalˇs´ıch alternativ k základn´ımu modelu: • IE Yijk nezávis´ı na i F =

JK

¡

PI

Y¯i· − Y¯ (I − 1)

¢2

i=1

I · J · (K − 1)

· PI

i=1

PJ

j=1

¡

PK

k=1

Yijk − Y¯ij

¢2 =

s2r s2

s I − 1 a I · J · (K − 1) stupni volnosti, • IE Yijk nezávis´ı na j F =

IK

¡

PJ

Y¯·j − Y¯ (J − 1)

¢2

j=1

s2

I · J · (K − 1)

· PI

i=1

PJ

j=1

c ¢2 = 2 ¯ s k=1 Yijk − Yij

¡

PK

s J − 1 a I · J · (K − 1) stupni volnosti, • IE Yijk nezávis´ı ani na i ani na j PI

i=1

F =

PJ

j=1

¡

PK

k=1

× PI =

K

PI

i=1

PJ

¡

¢2

P

P

Yijk − Y¯ij − Ii=1 Jj=1 IJ(K − 1) − IJK + 1 I · J · (K − 1)

i=1

PJ

j=1

Y¯ij − Y¯ IJ − 1

k=1

¢2

j=1

¡

PK

· PI

Yijk − Y¯ij

i=1

PK

¡

k=1

Yijk − Y¯

j=1

×

¢2

I · J · (K − 1)

PJ

¢2

PK

¡

k=1

Yijk − Y¯ij

¢2

s IJ − 1 a I · J · (K − 1) stupni volnosti.

11

ˇ ´ NETRADICN ˇ Í METODY REGRESNÍ ANALYZY ´ NEKTER E

Jiˇz na zaˇcátku skript jsme se zm´ınili, ˇze metoda L1 , tj. metoda minimalizuj´ıc´ı souˇcet absolutn´ıch hodnot rezidu´ı byla pouˇzita o v´ıce neˇz stopadesát let dˇr´ıve neˇz byla publikov´ ana metoda nejmenˇs´ıch ˇctverc˚ u. To dokládá, ˇze alternativn´ı metody k metodˇe nejmenˇs´ıch ˇctverc˚ u nejsou “vymyˇslenost´ı” posledn´ıch let. Metoda L1 je vˇseobecnˇe povaˇzov´ ana za velmi robustn´ı a je ˇcasto uvádˇena jako pˇr´ıklad metody, která si je schopna u ´spˇeˇsnˇe poradit s (jakoukoliv) kontaminac´ı dat. Odhadem polohy dat poˇr´ızen´ ym metodou L1 je medián a snadno se pˇresvˇedˇc´ıme, ˇze tento odhad je schopen pˇrekonat i 50% kontaminaci dat, v tom smyslu, ˇze teprve zmˇena v´ıce neˇz 50% dat m˚ uˇze podstatnˇe zmˇenit hodnotu mediánu. Nˇekteˇr´ı autoˇri pak z tohoto faktu usoud´ı, ˇze se metoda L1 dokáˇze vyrovnat i s (velmi) vysokou kontaminac´ı dat také v regresn´ım schematu. Bohuˇzel opak je pravdou. Metoda L1 si sice um´ı poradit s odlehl´ ymi hodnotami ve vysvˇetlované promˇenné (tzv. outliery), ale neum´ı se vyrovnat s body, které jsou odlehlé ve faktorovém prostoru (tzv. leverage pointy). D˚ uvody k tomuto chov´ an´ı lze snadno nahlédnout, nap´ıˇseme-li si normáln´ı rovnice pro tuto metodu. Jejich tvar je ∂

Pn

i=1 |Yi

∂β`

− xTi β|

= −2

n X

xi` sign(Yi − xTi β),

i=1

171

` = 1, 2, ..., p.

Je vidˇet, ˇze pokud dojde k tomu, ˇze nˇekter´ y bod má podstatnˇe vˇetˇs´ı nˇekterou souˇradnici neˇz jiné body, bude jeho vliv na ˇreˇsen´ı normáln´ıch rovnic podstatnˇe vˇetˇs´ı neˇz vliv ostatn´ıch bod˚ u. To znamená, ˇze i jeden jedin´ y bod (velmi) vzdálen´ y od ostatn´ıch bod˚ u ve faktorovém prostoru m˚ uˇze podstatnˇe ovlivnit (pˇr´ıpadnˇe zcela “zniˇcit”) závˇery regresn´ı anal´ yzy provedené pomoc´ı metody L1 . Pˇrirozenˇe, ˇze m˚ uˇzete nam´ıtnout, ˇze jeden bod hodnˇe vzdálen´ y ve faktorovém prostoru bude nápadn´ y a bude mu vˇenována pˇri anal´ yze dat mimoˇr´ adn´ a pozornost. Problém nastáv´ a, jde-li o opakované automatizované zpracován´ı dat (viz napˇr. digitalizovan´ y pˇrenos ˇreˇci pomoci auotregresn´ıch model˚ u segment˚ u zvukového signálu), ˇci je-li v datech v´ıce vlivn´ ych bod˚ u, takˇze se navzájem maskuj´ı a to se jim bude daˇrit zejména pokud p˚ ujde o v´ıcerozmˇern´ a data (ˇreknˇeme p > 7). Proto byl s velk´ ym zaujet´ım studov´ an problém nalezen´ı metody (ˇci metod), která by si byla schopna poradit s vysokou kontaminac´ı (nejlépa s 50%) a to jakéhokoliv typu, tj. tvoˇrenou ˇ jak outliery tak leverage pointy. Reknˇ eme rovnou, ˇze právˇe zm´ınˇen´ y problém dokázal vzdorovat soustˇredˇenému “ataku” armády statistik˚ u témˇeˇr deset let. Dnes vˇsak známe a máme implementovánu, coˇz je také velmi podstatné, celou ˇradu metod, jejichˇz m´ıru robustnosti lze dokonce volit nastaven´ım nˇekterého parametru metody od nuly do 50%. Jedn´ım z nejlépe prostudovan´ ych a “vyzkouˇsen´ ych” odhad˚ u tohoto typu je patrnˇe odhad metodou nejmenˇs´ıch usekan´ ych ˇctverc˚ u (the least trimmed squares), kter´ y je zadán takto (viz p ’ Hampel a kol. (1986)). Necht pro libovolné β ∈ R a i = 1, 2, ..., n je ri (β) = Yi − xTi β a 2 (β) necht’ jsou tedy poˇ r(i) rádkové statistiky pˇr´ısluˇsné ke ˇctverc˚ um rezidu´ı. Potom poloˇzme pro h, n2 ≤ h ≤ n βˆ(LT S,n) = arg min β∈Rp

h X

2 r(i) (β).

i=1

Autor tˇechto skript nab´ız´ı tˇem, kdo by si chtˇeli vyzkouˇset, jak tento odhad funguje, program, kter´ y je snadné pouˇz´ıt na v´ ypoˇcet tohoto odhadu. Souˇcasnˇe si dovolme upozornit, ˇze ˇcasto docház´ı k zámˇenˇe tohoto odhadu s odhadem, kterému se ˇr´ık´ a odhad metodou usekan´ ych nejmenˇs´ıch ˇctverc˚ u (the trimmed least squares) a kter´ y nemus´ı, a obvykle nemá zdaleka tak dobré (LT S,n) ˆ vlastnosti jako odhad β . Jak ale poˇrad´ı slov v názvu obou odhad˚ u naznaˇcuje, tento druh´ y odhad pˇredpokládá, ˇze nejprve podle nˇejakého pˇredem daného pravidla usekáme nˇekter´ a pozorován´ı a pak uplatn´ıme na zbytek dat metodu nejmenˇs´ıch ˇctverc˚ u, zat´ımco prvn´ı odhad vlastnˇe sám, ale zase pouze implicitnˇe napov´ıdá, která pozorov´ an´ı maj´ı b´ yt “usekána”. Jednou z námitek, které stále jˇeˇstˇe vznáˇsej´ı “skaln´ı” zastánci metody nejmenˇs´ıch ˇctverc˚ u, je námitka t´ ykaj´ıc´ı se malé eficience robustn´ıch metod zejména v pˇr´ıpadˇe, kdy plat´ı pˇredpoklady pro aplikaci nejmenˇs´ıch ˇctverc˚ u. Tato námitka je lich´ a. Ztráta na eficienci robustn´ıch metod je obvykle daleko menˇs´ı neˇz ztráta na eficienci nejmenˇs´ıch ˇctverc˚ u i pˇri dosti malé kontaminaci dat. Otázka, která kaˇzdeho ˇctenáˇre napadne po pˇreˇcten´ı nˇekolika posledn´ıch ˇr´ adek je: Proˇc jsme tedy na tolika str´ ank´ ach vykl´ adali vˇsechny moˇzné vlastnosti a triky spojené s metodou nejmenˇs´ıch ˇctverc˚ u? Odpovˇed’ je nasnadˇe. Stále mnoho uˇzivatel˚ u aplikuje nejmenˇs´ı ˇctverce a chceme-li b´ yt schopni sledovat jejich v´ yklad a rozumˇet jejich závˇer˚ um, mus´ıme znát dobˇre tuto klasickou metodu, byt’ v´ıme, ˇze m˚ uˇze snadno selhat i pˇri dosti malé kontaminaci, ale hned dodejme, také obvykle dosti malé pozornosti uˇzivatele k vlivn´ ym bod˚ u. Nav´ıc stále mnoho, patrnˇe dokonce drtivá vˇetˇsina,

172

statistick´ ych softwarov´ ych knihoven nab´ız´ı ˇzel jen nejmenˇs´ı ˇctverce. Ne posledn´ım a urˇcitˇe ne nejmenˇs´ım d˚ uvodem pak je to, ˇze metoda nejmenˇs´ıch ˇctverc˚ u je geometricky názorn´ a a má nejlépe vypracovanou teorii, vˇcetnˇe sofistikovan´ ych trik˚ u, které ji napomáhaj´ı, dostane-li se do pot´ıˇz´ı (napˇr. hˇrebenová regrese). Je zˇrejmé, ˇze ani v pˇr´ıpadˇe, ˇze si osvoj´ıme ˇradu robustn´ıch metod a budeme m´ıt k tomu pˇr´ıleˇzitost v dalˇs´ım d´ıle skript, “nezavrhneme” metodu nejmenˇs´ıch ˇctverc˚ u jako nemodern´ı a zastaralou, nebot’ takovou opravdu nen´ı. Jen potom budeme aplikovat v´ıce metod, vˇcetnˇe nejmenˇs´ıch ˇctverc˚ u a ze shody (pˇribliˇzné) ˇci neshody (signifikantn´ı, viz napˇr. Rubio a kol. (1992)) jejich v´ ysledk˚ u budeme usuzovat na pˇr´ıtomnost, pˇr´ıpadnˇe velikost a p˚ uvod, kontaminace. Posledn´ı vˇeta je ostatnˇe doporuˇcen´ı, ˇci chcete-li teze, modern´ı statistiky (pˇrelomu druhého a tˇret´ıho tis´ıcilet´ı): Aplikujte tolik metod regresn´ı anal´ yzy, kolik jich m´ ate k dispozici na sv´ em poˇ c´ıtaˇ ci, vˇ zdy vˇ sak alespoˇ n dvˇ e nebo tˇ ri, a vz´ ajemnˇ e porovnejte jejich v´ ysledky. Pokud se tyto (statisticky v´ yznamnˇ e, a na to dnes jiˇ z existuj´ı testy - viz Rubio a kol. (1992)) liˇ s´ı, je tˇ reba vˇ enovat dat˚ um zvl´ aˇ stn´ı pozornost. Pˇ r´ıˇ cinou je obvykle kontaminace dat, tj. data nepˇ redstavuj´ı “jednu populaci”, ale jsou nesourod´ a. ˇ Casto V´ am m˚ uˇ ze mnoho napovˇ edˇ et “klasick´ a” diagnostika, o kter´ e jsme si pov´ıdali v´ yˇ se. Pokud se V´ am podaˇ r´ı nal´ ezt “podsoubor” dat, na kter´ em uˇ z budou r˚ uzn´ e metody d´ avat pˇ ribliˇ znˇ e stejn´ eˇ reˇ sen´ı a na kter´ em klasick´ e diagnostick´ e prostˇ redky neobjev´ı nic podezˇ rel´ eho, m´ ate vyhr´ ano. Nicm´ enˇ e vysvˇ etlen´ı, ˇ ci chcete-li potvrzen´ı toho, ˇ ze “zbytek” dat je kontaminace, pˇ r´ıpadnˇ e proˇ c, hledejte vˇ zdy ve spolupr´ aci s odborn´ıkem z t´ e oblast, ze kter´ e poch´ azej´ı data, nejl´ epe s t´ım, kdo data namˇ eˇ ril ˇ ci jinak shrom´ aˇ zdil ˇ ci V´ as o zpracov´ an´ı poˇ z´ adal.

173

12

Literatura

174

Reference [1] Aigner, D. J. (1974): MSE dominance of least squares with errors of observation. Journal of Econometrics 2, 365–372. [2] Akaike, H. (1974): A new look at the statistical model identification. IEEE Transactions on Automatic Control 19, 716 - 723. [3] Akaike, H. (1981): Likelihood of a model and information criteria. Journal of Econometrics 16, 3 - 14. [4] Amemiya, T. (1973): Regression analysis when the variance of the dependent variable is proportional to the square of its expectation. Journal of American Statistical Association 68, 928–934. [5] Amemiya, T. (1977): A note on a heteroscedastic model. Journal of Econometrics 6, 365-370. and “Corrigenda”. Jouranl of Econometrics 8, 275. [6] Amemiya, T. (1981): Qualitative response model: A survey. Journal of Economic Literature 19, 1483 - 1536. [7] Amemiya, T., Powell, J. (1980): A comparison of the logit model and normal discriminant analysis when independent variables are binary. Technical Report No. 320, Institute for Mathematical Studies in the Social Sciences, Encina Hall, Stanford University, Stanford, California. [8] Andˇel, J. (1978): Matematick´ a statistika. Praha, Bratislava: SNTL & ALFA. [9] Andˇel, J. (1993): Statistické metody, MATFYZPRESS, Praha, 1993. [10] Anderson, T. W. (1948): On the theory of testing serial correlation. Skandinavisk Aktuarietidskrift 31, 88-116. [11] Bartlett, M. S. (1937): Properties of sufficiency and statistical tests. Proceedings of the Royal Society, Series A 160, 268 - 282. [12] Bates, J. M., Granger, C. W. J. (1969): The combination of forecasts. Operational Research Quarterly, 20, 451-468. [13] Battese, G. E., Bonyhady, B. P. (1981): Estimation of household expenditure functions: An application of a class of heteroscedastic regression models. The Economic Record 57, 80–85. [14] Belsley, D. A., Kuh, E., Welsch, R. E. (1980): Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: J. Wiley & Sons. [15] Bera, A. K., Jarque, C. M. (1981): An efficient large-sample test for normality of observations and regression residuals. Australian National University Working Papers in Econometrics No. 40, Cambera. 173

[16] Berndt, E. (1990): The Practice of Econometrics. Reading, Mass.,Addison-Wesley, 1990. [17] Boscovisch, R. J. (1757): De litteraria expeditione per pontificiam ditionem, et synopsis amplioris operis, ac habentur plura eius ex exemplaria etiam sensorum impressa. Boloniensi Scientiarum et Artium Instituto Atque Academia Commentarii 4, 353-396. [18] Bowden, R. J., Turkington, D. A. (1984): Instrumental Variables. Cambridge: Cambridge University Press. [19] Bradley, E. L. (1973): Equivalence of maximum likelihood and weighted least squares estimates in the exponential family. Journal of American Statistical Association 768, 199 200. [20] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984): Classification and Regression Trees. Belmont, California: Wadsworth International Group. [21] Breusch, T. S., Pagan, A. R. (1979): A simple test for heteroscedasticity and random coefficient variation. Econometrica 47, 1287 -1294. [22] Charnes, A., Frome, E. L., Yu, P. L. (1976): The equivalence of generalized least squares and maximum likelihood estimates in the exponential family. Journal of American Statistical Association 71, 169 - 171. [23] Chatterjee, S., Hadi, A. S. (1988): Sensitivity Analysis in Linear Regression. New York: J. Wiley & Sons. [24] Chatterjee, S., Price, B. (1977): Regression Analysis by Example. New York: J. Wiley & Sons. [25] Chow, G. C. (1960): Tests of equality between sets of coefficients in two linear regressions. Econometrica 28, 591 - 605. [26] Clemen, R. T. (1986): Linear constraints and efficiency of combined forecasts. Journal of Forecasting 6, 31 - 38. [27] Cochrane, D., Orcutt, G. H. (1949): Application of least squares regression to relationships containing autocorrelated error terms. Journal of the American Statistical Association, 44, 32 - 61. [28] Cook, R. D., Weisberg, S. (1983): Diagnostics of heteroscedasticity in regression. Biometrika 70, 1 - 10. [29] D’Agostino, R. B., Belanger, A., D’Agostino, R. B. Jr. (1990): A suggestion for using powerful and informative tests of normality. American Statisticians 44, 316 - 321. [30] Dhrymes, P. J.(1978): Introductory Econometrics. Springer-Verlag, New York. [31] Draper, N. R., Smith, H. (1981): Applied Regression Analysis. New York: J.Wiley & Sons, 2nd edition (1st edition 1966). 174

[32] Durbin, J., Watson, G. S. (1952): Testing for serial correlation in least squares regression. I. Biometrika 37, 409-428. [33] Eicker, F. (1967): Limit theorems for regression with unequal and dependent errors. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, L. Le Cam, J. Neyman, eds., Berkeley: University of California Press. [34] Farrar, D. E., Glauber, R. R. (1967): Multicollinearity in regression analysis: The problem revisited. Review of Economics and Statistics 49, 92-107. [35] Fisher, R. A. (1922): On the mathematical foundations of theoretical statistics. Philos. Trans. Roy. Soc. London Ser. A 222, pp. 309–368. [36] Friedman, M. (1957): A Theory of the Consumption Function. Princeton: Princeton University Press. [37] Friedman, R. (1982): Multicollinearity and ridge regression. Allgemeines Statistisches Archiv 66, 120 - 128. [38] Froehlich, B. R. (1973): Some estimators for a random coefficient regression model. Journal of the American Satistical Association 68, 329–334. [39] Frome, E. L., Kutner, M. H., Beauchamp, J. J. (1973): Regression analysis of Poissondistributed data. Journal of American Statistical Association 68, 935 - 940. [40] Galilei, G. (1632): Dialogo dei masimi sistemi. [41] Galton F. (1886): Regression towards mediocrity in hereditary stature. Journal of the Antropological Institute 15, 246–263. [42] Gauss F. C. (1809): Theoria molus corporum celestium. Hamburg: Perthes et Besser. [43] Glivenko, V. I. (1933): Sulla determinazione empirica delle leggi di probabilita. Giorn. Inst.Ital. Attuari 4, 92. [44] Goldberger, A. S. (1972): Structural equation methods in the social sciences. Econometrica 40, 979 - 1001. [45] Goldfeld, S. M., Quand, R. E. (1965): Some tests for homoscedasticity. Journal of American Statiststical Association 60, 539 - 547. [46] Goldfeld, S. M., Quand, R. E. (1972): Nonlinear Methods in Econometrics. North-Holland, Amsterdam. [47] Granger, C. W. J. (1969): Ivestigating casual relations by econometric models and crossspectral methods. Econometrica 37, 424 - 438. [48] Greene, W.H. (1993): Econometric Analysis, New York. Macmillam Press.

175

[49] Griffiths, W. E., Anderson, J. R. (1982): Using time-series and cross-section data to estimate a production function with positive and negative marginal risks. Journal of American Statistical Association 77, 529–536. [50] Gunst, R. F. (1983): Regression analysis with multicollinear predictor variables: The problem revisted. Review of Economic Statistics 49, 92 - 107. [51] Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., Stahel, W.A. (1986): Robust Statistics – The Approach Based on Influence Functions. New York: J.Wiley & Sons. [52] Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., Ostrowski, E. (1994): Handbook of Small Data Sets. London: Chapman & Hall. [53] Harvey, A. C. (1974): Estimation of parameters in a heteroscedastic regression model. European Meeting of the Econometric Society, Grenoble, France. [54] Hausman, J. (1978): Specification test in econometrics. Econometrica, 46, 1978, 1251 1271. [55] Hensher, D., Johnson, L. (1981): Applied Discrete-Choice Modelling. New York: Halsted. [56] Hettmansperger, T. P., Sheather, S. J. (1992): A Cautionary Note on the Method of Least Median Squares. The American Statistician 46, 79–83. [57] Hewitt, E., Stromberg, K. (1965): Real and Abstract Analysis. Berlin: Springer - Verlag. [58] Hildreth, C., Houck, J. P. (1968): Some estimators for a linear model with random coefficients. Journal of the American Statistical Association 63, 584 –595. [59] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Biased estimation for nonorthogonal problems. Technometrics 12, 55 - 68. [60] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Application to nonorthogonal problems. Technometrics 12, 69 - 82. [61] Huang, H. C., Bolch, B. W. (1974): On the testing of regression disturbances for normality. Journal of American Statistical Association 69, 330 - 335. [62] Humphreys, R. M. (1978): Studies of luminous stars in nearby galaxies. I. Supergiants and 0 stars in the milky way. Astrophysical Jouranal Supplemant Series 38, 309–350. [63] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1982): Introduction to the Theory and Practice of Econometrics. New York: J.Wiley & Sons. [64] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1985): The Theory and Practice of Econometrics. New York: J.Wiley & Sons (second edition). [65] Just, R. E., Pope, R. D. (1978): Stochastic specification on production function and Economic implications. Journal of Econometrics 7, 67–86.

176

[66] Kendall, M. G., Stuart, A. (1973): The Advanced Theory of Statistics. Vol. 2. Inference and Relationship. New York: Hafner. [67] Kiefer, N. M., Salmon, M. (1983): Testing normality in econometric models. Economics Letters 11, 123 - 128. [68] Kmenta, J. (1986): Elements of Econometrics. New York: Macmillan Publishing Company. [69] Kuhn, T. S. (1965): Structure of Scientific Revolution. Chicago: University of Chicago Press, Phoenix Broks 159. [70] Kullback, S. (1959): Information Theory and Statistics. New York: J. Wiley & Sons. [71] Kumar, T. K. (1975): Multicollinearity in regression analysis. Review of Econometrics and Statistics, 57, 365 - 366. [72] Laplace, P. S. (1793): Sur quelques points du systeme du mode. Memoires de l’Academie Royale des Sciences de Paris, 1-87. [73] Leamer, E: (1983): Model choice and specification analysis. In Handbook of Econometrics, Vol. I, 285 - 331. Z. Griliches and M. Intriligator, eds. Amsterdam, North Holand. [74] Legendre, A. M. (1805): Nouvelles méthodes pour la détermination des orbites des comètes. Paris: Courcier. [75] Liviatan, N. (1963): Consistent estimator of distributed lags. International Economic Review, 4, 44 - 52. [76] Locke, C., Spurrier, J. S. (1977): The use of U-statistics for testing normality against alternative with both tails heavy or both tails light. Biometrika 64, 638 - 640. [77] Lopuha, H. P. (1989): Estimation of location and covariance with high breakdown point. Ph D Thesis. Technical University of Delft. [78] Mallows, C. L. (1973): Some comments on Cp . Technometrics 15, 661 - 676. [79] Marquart, D. W. (1970): Genaralized inverses, ridge regression, biased linear estimation and nonlinear estimation. Technometrics 12, 591 - 612. [80] Marquart, D. W., Snee, R. D. (1975): Ridge regression in practice. American Statistician 29, 3 - 20. [81] Mason, R. L., Gunst, R. F., Hess, J. L. (1989): Statistical Design and Analysis of Experiments, New York: J.Wiley & Sons. [82] Mason, R. L., Gunst, R. F., Webster, J. T. (1975): Regression analysis and problems of multicollinearity. Communication in Statistics 4, 277 - 292. [83] McCallum, B. T. (1972): Relative asymptotic bias from errors of observation and measurement. Econometrica 40, 757–758. 177

[84] McFadden, D. (1976): Quantal choice analysis : A survey. Annals of Economic and Social Measurement 5, 363 - 390. [85] Montgomery, D. C., Askin, R. G. (1981): Problems of nonnormality and multicollinerityfor forecasting methods based on the leat squares. AIIE Transactions 13, 102 - 115. [86] Montgomery, D. C., Peck, E. A. (1982): Introduction to Linear Regression Analysis. New York: J.Wiley & Sons. √ [87] Mulholland, H. P. (1977): On the null distribution of b1 for samples of size at most 25 with tables. Biometrika 64, 401 - 409. [88] von Neumann, J. (1941): Distribution of the ratio of the mean-square successive difference to the variance. Annals of Mathematical Statistics 12, 367 - 395. [89] Nicholls, D. F., Pagan, A. R. (1983): Heteroscedasticity in models with lagged dependent variables. Econometrica 51, 1233–1242. [90] Pearson, E. S., D’Agostino, R. B., Bowman, K. O. (1977): Tests for departure from normality: Comparison of powers. Biometrika 64, 231 - 246. [91] Pearson, E. S., Hartley, H. O. (1956, 1972): Biometrika Tables for Statisticians I., II. Cambridge University Press. [92] Pitman, E. J. G. (1937): The ‘closest’ estimates of statistical parameters. Proc. Camb. Phil. Soc. 33, 212-222. [93] Prais, S. J., Houthakker, H. S. (1955): The Analysis of Family Budgets. New York: Cambridge University Press. [94] Prais, S. J., Winsten, C. B. (1954): Trend estimators and serial correlation. Cowless Commission Discussion Paper No 383, Chicago. [95] Press, S., Wilson, S. (1978): Choosing between logistic regression and discriminant analysis. Journal of the American Statistical Association 23, 699 - 705. [96] Prigogine, I., Stengers, I. (1977): La Nouvelle Alliance. SCIENTIA, 1977, issues 5-12. [97] Prigogine, I., Stengers, I. (1984): Out of Chaos. London: William Heinemann Ltd. [98] Raj, B., Srivastava, V., Upadhyaya, S. (1980): The efficiency of estimating a random coefficient model. Journal of Econometrics 12, 285–299. [99] Rao, R. C.. (1978): Line´ arn´ı metody statistické indukce a jejich aplikace. Praha: Academia. [100] Rao, R. C., Zhao, LC. (1992): On the consistency of M -estimate in linear model obtained through an estimating equation. Statistics & Probability Letters 14, 79 - 84. [101] Rousseeuw, P.J., Leroy, A.M. (1987): Robust Regression and Outlier Detection. New York: J.Wiley & Sons. 178

´ (1992): Testing for difference between models. Compu[102] Rubio, A., Aguilar, L., Vˇsek, J. A. tational Statistics 8, 57 - 70. [103] Ruppert, D., Carroll, R. J. (1980): Trimmed least squares estimation in linear model. J. Americal Statist. Ass., 75 (372), pp. 828–838. [104] Saniga, E. M., Miles, J. A. (1979): Power of some standard goodness-of-fit tests of normality against asymmetric stable alternatives. Journal of the American Statistical Ass. 74, 861 865. [105] Scheffe, H. (1959): The Analysis of Variance. New York: J.Wiley & Sons. [106] Schwarz, G. (1978): Estimating the dimension of model. The Annals of Statistics, 6, 461 - 464. [107] Shapiro, S. S., Wilk, M. B. (1965): An analysis of variance test for normality(complete samples). Biometrika 52, 591 - 611. ˇ ak, Z. (1967): Rectangular confidence regions for the means of multivariate normal [108] Sid´ distributions. J. Amer. Statist. Assoc. 62, pp. 626–633. ˇ epán, J. (1987): Teorie pravdˇepodobnosti. Praha: Academia. [109] Stˇ [110] Szroeter, J. (1978): A class of parametric tests of heteroscedasticity in linear econometric models. Econometrica 46, 1311 - 1328. [111] Theil, H. (1965): The analysis of disturbance in regression analysis. J. Amer. Statist. Assoc. 60, 1067 - 1079. [112] Theil, H. (1971): Principles of Econometrics. New York: J.Wiley & Sons. [113] Vandaele, W. (1978): Participation in illegitimate activities: Erlich revisted. In Deterrence and incapacitation, Blumstein,A., Cohen, J., Nagin, D., eds. Washington. D. C.: National Academy of Sciences, 270 - 335. ´ (1996 a): Sensitivity analysis of M -estimates. Annals of the Institute of Statis[114] V´ıˇsek, J. A tical Mathematics 48(1996), 469-495. ´ (1996 b): On the coefficient o determination: Simple but ... . Bulletin 5/1996 [115] V´ıˇsek, J. A of the Czech Econometric Society, 117 - 124. ´ (1996 c): On high breakdown point estimation. Preprint. Computational Statis[116] V´ıˇsek, J. A tics (1996) 11:137-146, Berlin. ´ (1997 a): Data subsample influence in M -estimation of the non-linear regression [117] V´ıˇsek, J. A model. Preprint. ´ (19967 b): Robust constrained combination of forecasts. Working paper pre[118] V´ıˇsek, J. A sented on The Econometric Society European Meeting, Bogazi University, Istanbul 25 - 29 August, 1996. 179

´ (1997 c): Combining the forecasts by their decomposition. Proceedings of the [119] V´ıˇsek, J. A Mathematical Methods in Economics, Ostrava, September 9 - 11, 1997, pp. 188 - 193. ´ (1997 d): On the diversity of estimates. Submitted to Computational Statistics [120] V´ıˇsek, J. A and Data Analysis. ´ (1997 e): Contamination level and sensitivity of robust tests. Handbook of [121] V´ıˇsek, J. A Statistics, volume 15, 633 - 642, eds. G. S. Maddala & C. R. Rao. [122] White, H. (1980): A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroscedasticity. Econometrica 48, 817 - 838. [123] White, H., MacDonald, G. M. (1980): Some large-sample tests for non-normality in the linear regression model. Journal of the American Statistical Association 75, 16 - 28. [124] Wickens, M. R. (1972): A note on the use of proxy variables. Econometrica 40, 759–761. [125] Willan, A. R., Watts, D. G. (1978): Meaningful multicollinearity measures. Technometrics 20, 407 - 411. [126] Working, E. J. (1927): What do statistical demend curves show. Quarterly Journal of Economics 39, 503 - 545. [127] Zellner, A., Lee, T. H. (1965): Joint Estimation of relationships involving discrete random variables. Econometrica 33, 382 - 394. [128] Zv ara, K. (1989): Regresn´ı analýza (Regression Analysis – in Czech). Praha: Academia.

180

13

Autorsk´ y rejstˇ r´ık

181

Index Aguilar, L. 171 Aigner,D. J. 144 Akaike, H. 60, 87 Amemiya, T 79, 80, 139, 140 Anderson, J. R. 80 Anderson, T. W. 91, 95 Andˇel, J. 51, 97, 131, 163 Askin, R. G. 124 Bartlett, M. S. 81 Belanger, A. 87 Belsley, D. A. 123 Bera, A. K. 85 Berndt, E. 19, 49, 51 Beuchamp, J. J. 36 Bohr, N. 7 Bolch, B. W. 86 bonyhady, B. P. 80 Boscovitch, R. J. 10 Bowden, R. J. 97 Bowman, K. O. 85 Bradley, E. L. 36 Breiman, L. 142 Breusch, T. S. 80, 81 Carroll, R. J. 15 Charnes, A. 36 Chatterjee, S. 16, 17, 64, 101 Cramer, H. 30, 31 Chow, G. C. 58 Clemen, R. T. 115 Cochran, W. G. 87 Cook, R. D. 80 D’Agostino, R. B. 85 Daly, F. 19 Dhrymes, P. J. 139 Draper, N. R. 163 Durbin, J. 83, 88, 90 Eicker, F. 76

Farrar, D. E. 123, 124 Fisher, R. A. 44, 85 Friedman, J. 142 Friedman, M. 95 Friedman, R. 123 Froehlich, B. R. 79 Frome, E. L. 36 Galilei, G. 8, 10 Galton, F. 10 Gauss, C. F. 10, 24 Glauber, R. R. 123, 124 Glivenko, V. I. 72 G˝odel, K. 8 Goldberger, A. S. 99 Goldfeld, S. M. 81 Granger, C. W. J. 12 Greene, W. H. 98 Griffiths, W. E. 25, 80, 83, 85, 86, 92, 139, 148 Gunst, R. F. 13, 109 Hadi, A. S. 16, 17, 64, 101 Hand, D. J. 19 Hampel, F. R. 85, 87, 128, 129 Hartley, H. O. 87 Harvey, A. C. 77, 79 Hausman, J. 98 Hensher, D. 139 Hess, J. L. 14 Hettmansperger, T. P. 14 Hewitt, E. 13 Hill, R. C. 25, 80, 83, 85, 86, 92, 139, 148 Hoerl, A. E. 67 Huang, H. C. 95 Humphreys, R. M. 22 Jarque, C. M. 85 Johnson, L. 139 Judge, G. G. 25, 80, 83, 85, 86, 92, 139, 148 Just, R. E. 80 Kant, I. 8 181

Kennard, R. W. 110 Kendall, M. G. 81 Kiefer, N. M. 85 Kmenta, J. 19, 80, 83, 92, 148 Kuh, E. 123 Kuhn, T. S. 24 Kullback, S. 60 Kumar, T. K. 123 Kutner, M. H. 36 Laplace, P. S. 10 Leamer, E. 123 Lee, T. C. 25, 80, 83, 85, 86, 92, 139, 148 Legendre, A. M. 10 Leroy, A. M. 14, 128 Liviatan, N. 97 Locke,C. 85 Lopuha˝a, H. P. 129 Lunn, A. D. 19 L˝ utkepohl, H. 25, 80, 83, 85, 86, 92, 139, 148 MacDonald, G. M. 85 Mallows, C. L. 60 Mason, R. L. 14, 109 McCllum, B. T. 145 McConway, K. 19 McFaden, D. 139 Miles, J. A. 85 Montgomery, D. C. 121 Mulholland, H. P. 87 von Neumann, J. 82, 90, 91 Olshen, R. A. 142 Orcutt, G. H. 87 Ostrowski, E. 19 Pagan, A. R. 79, 80, 81 Pearson, E. S. 85, 87 Peck, E. A. 121, 128 Pitman, E. J. G. 91 Popper, K. 8 Powell, J. 140 Prais, S. J. 73, 87 Press, S. 140

Price, B. 18 Prigogine, I. 8, 9 Quand, R. E. 81 Raj, B. 79 Rao, R. C. 27, 28, 30, 36, 72, 163 Ronchetti, E. M. 85, 87, 128, 129 Rousseeuw, P. J. 15, 85, 87, 128, 129 Rubio, A. M. 171 Ruppert, D. 15 Salmon, M. 85 Saniga, E. M. 85 Scheffe, H. 163 Shapiro, S. S. 86 Sheather, S. J. 14 Smith, H. 163 Snee, R. D. 109 Spurrier, J. S. 85 Srivastava, V. 79 Stahel, W. A. 85, 87, 128, 129 Stone, C. J. 142 Stromberg, K. 13 Stengers, I. 8, 9 Stuart, A. 81 Szroeter, J. 82 ˇ ak, Z. 53 Sid´ ˇ ep´ Stˇ an, J. 27, 28 Theil, H. 73, 77, 86 Turkington, D. A. 97 Upadhyaya, S. 79 Vandaele, W. 19 Varadarajan 28 ´ 106, 119, 121, 128, 171 V´ıˇsek, J. A. Watson, G. S. 83, 88, 90 Watts, D. G. 123 Webster, J. T. 109 Weisberg, S. 80 Welsch, R. E. 123 White, H. 76, 83 182

Wickens, M. R. 145 Wilk, M. B. 86 Willan, A. R. 123 Wilson, S. 140 Winsten, C. B. 87 Working, E. J. 98 Yu, P. L. 36 Zellner, A. 139 Zhao, LC. 28 Zvára, K. 25, 61, 92, 114

183

14

Vˇ ecn´ y rejstˇ r´ık

184

Index absolutn´ı ˇclen 21, 69, 70 Aitken˚ uv odhad 74, 130, 159 anal´ yza variance 160 dvojné tˇr´ıdˇen´ı 160, 164 jednoduché tˇr´ıdˇen´ı 160 normáln´ı rovnice 161 okrajová podm´ınka 160, 164 testován´ı submodelu 163 rozklad souˇctu ˇctverc˚ u pro jednoduché tˇr´ıdˇen´ı 163 pro dvojné tˇr´ıdˇen´ı 169 nadbytek parametr˚ u v modelu 164 anal´ yza diskriminaˇcn´ı 140 faktorová 114 hlavn´ıch komponent 114 CAPM (capital asset pricing model) 50 data homogenn´ı 68 normalizovaná 66 diagnostické nástroje 69, 106 doln´ı Rao-Cramerovy hranice 30 Durbin-Watsonovo lemma 90 Durbin-Watsonova statistika 90, 92 doln´ı kritická hodnota D-W 83 horn´ı kritická hodnota D-W 83 efekt podurˇcen´ı 101 pˇreurˇcen´ı 103 faktory 11 faktorov´ y prostor 11 Feller-Lindebergova vˇeta 28 Fisher-Cochranovo lemma 45, 52 Fisher-Snedecorovo F 52 fluktuace, nezávislost 129 graf diagnostick´ y 69

stabilizace 114 rezidu´ı 71 proti indexu (index plot) 72 proti normáln´ım kvantil˚ um (normal plot) 72 proti predikované stˇredn´ı hodnotˇe vysvˇetlované promˇenné 72 heteroskedasticita 72, 80 hladina v´ yznamnosti 68 homoskedasticita 72, 80 hˇrebenov´ a regrese (ridge regression) 110 hypotéza Friedmanova, stálého d˚ uchodu 95 chyby pˇredpovˇedi 118 instrument´ aln´ı promˇenné 93 interkvantil 63 interval spolehlivosti 53 kauzalita 11 koeficient determinace 49, 63 upraven´ y (adjusted) 61 velikost 51 kolinearita 25, 65, 69, 107 (multikolinearita) definice 107 determinant matice plánu 109 diagnostické nástroje 107 pomˇer vlastn´ıch ˇc´ısel 107 kombinov´ an´ı pˇredpovˇed´ı ˇcasov´ ych ˇrad 114 kritérium Akaikeho 60 Mallowsovo Cp 60 Kroneckerovo δ 101 kvadratick´ a forma 44 kvalita pˇredpovˇedi 118 matice determinant 112 diagonáln´ı 40 184

idempotentn´ı 38, 57 Ocamova bˇritva 24 index podm´ınˇenosti 109 odhad interval spolehlivosti 53 Aitken˚ uv 74, 130, 159 korelaˇcn´ı 63 asymptoticky normáln´ı 26 kovarianˇcn´ı 63 dvoustupov´ y 148, 156, 158 odhad˚ u regresn´ıch koeficient˚ u 63 trojstupov´ y 158 nulov´ y determinant 109 inkonsistence βˆ(LS,n) 94 pás spolehlivosti 53 invariance 70 plánu (designová) 20, 21 konsistentn´ı 26 kolinearita 25, 65, 69, 107 kvadratick´ y 42 plná hodnost 25, 106 lineárn´ı 13, 26 pomˇer vlastn´ıch ˇc´ısel 109 maximálnˇe vˇerohodn´ y 30, 148 pozitivnˇe definitn´ı 39 metodou nejmenˇs´ıch ˇctverc˚ u 22, 24, 55, 74 pozitivnˇe semidefinitn´ı 39, 108 naivn´ı 143 projekˇcn´ı (hat) 36 nejlepˇs´ı nestrann´ y 30 diagonáln´ı prvky 62, 64 nestrann´ y 26, 42 rozd´ıl projekˇcn´ıch matic 56, 57 rozptylu 46, 68 singulárn´ı rozklad 108, 109 stˇredn´ı kvadratick´ a odchylka 68, 110 spektráln´ı rozklad 41 studentizované, regresn´ıch koeficient˚ u 46 vlastn´ı ˇc´ıslo 39 studentizovan´ y 66 vlastn´ı vektor 39 vych´ ylen´ı 110 medián 63, 64 omezen´ı mediánová absolutn´ı odchylka 64 lineárn´ı 114 metoda nejmenˇs´ıch ˇctverc˚ u 22, 24, 58 náhodná 120 model P -hodnoty 69 adekvátnost 68 pás spolehlivosti 53 interpretace 105 pákov´ y efekt 25, 106 s geometrickou strukturou regresn´ıch koeplná hodnost 24 ficient˚ u 94 podm´ınka okrajov´ a 160, 164 s náhodn´ ymi chybami mˇeˇren´ı u vysvˇetluj´ıc´ıch podurˇcen´ı modelu 101 promˇenn´ ych 95, 142 pozorov´ an´ı s nekoneˇcn´ ym poˇctem zpoˇzdˇen´ı 97 leverage points (pákov´ y bod) 22, 30 multikolinearita - viz kolinearita odlehlá (outliers) 22, 30 nejmenˇs´ı ˇctverce 22, 24, 58, 143 vlivn´ y bod 22, 106 nezávislost pˇredpoklad statistická 12 nezávislosti fluktuac´ı 129 náhodn´ ych fluktuac´ı 87 normality rezidu´ı 46, 47, 49 normalita fluktuac´ı 30, 85 pˇreurˇcen´ı modelu 101 ˇsikmost 87 Pythagorova vˇeta 51 ˇspiˇcatost 42, 87 regresn´ı model 11 nosiˇce 11 absolutn´ı ˇclen (intercept) 21 pevné 67 185

role absolutn´ıho ˇclenu 69 signifikantnost absolutn´ıho ˇclenu 70 binárn´ı 131 fluktuace (náhodné) 12, 14, 20, 130 interpretace 105 interval spolehlivosti 53 koeficienty 12, 22, 63 koeficient determinace 49, 63 upraven´ y (adjusted) 61 kolinearita 25, 65, 69, 107 definice 107 kvalita 118 lineárn´ı 13, 21 lineárn´ı pravdˇepodobnostn´ı 131 logitov´ y 137 maticov´ y zápis 22 normalita fluktuac´ı 30, 85 P -hodnoty 69 parametry 12 pás spolehlivosti 53 penalizace za bohat´ y model 60 Akaikeho kritérium 60 Mallowsovo kritérium Cp 60 pevné nosiˇce 67 podurˇcen´ı modelu 101 probitov´ y 135 pˇreurˇcen´ı modelu 103 regresory 11 spolehlivost, adekvátnost 62 submodel 56 ˇsum 12 testován´ı submodel˚ u 56, 58, 131 v´ ybˇer 59 zobecnˇen´ y 129, 130 reziduáln´ı souˇcet ˇctverc˚ u 42, 47, 49, 57, 69 reziduum 21 BLUS 86 heteroskedasticita 72, 80 homoskedasticita 72, 80 nezávislost náhodn´ ych fluktuac´ı 129 normalita 46, 47, 49 volatilita 80 rovnice

normáln´ı 147 simult´ an´ı 11, 95, 148 anal´ yza identifikovanosti koeficient˚ u 153 neomezené (unrestricted) 152 odhad dvoustupov´ y 148, 156, 158 odhad trojstupov´ y 158 omezené (restricted) 152 podm´ınka na poˇcet parametr˚ u 154 podm´ınka na hodnost matice 154 podm´ınka identifikovatelnosti koeficient˚ u pomoc´ı omezen´ı 155 problém identifikace 152, 159 redukovan´ y tvar 148 strukturáln´ı tvar 148 typy soustav rovnic 152 zdánlivˇe nesouvisej´ıc´ı 145, 159 rozptyl 62 rezidu´ı 63 Shapiro-Wilkova statistika 86 siln´ y zákon velk´ ych ˇc´ısel 27 simult´ an´ı rovnice 11, 95, 148 Sluckého vˇeta 28 Studentovo t 47 stˇredn´ı hodnoty 62 stupnˇe volnosti 63 ˇsikmost 87 ˇspiˇcatost 42, 87 test Bartlett˚ uv 82 Breusch-Pagan˚ uv 81 Chow˚ uv 58 Durbin-Watson˚ uv 83 Farrar-Glauber˚ uv 62 Goldfeld-Quandt˚ uv 82 heteroskedasticity, v pˇr´ıpadˇe korelovanosti fluktuac´ı 84 Shapiro-Wilk˚ uv 86 Szroeterova tˇr´ıda 82 White˚ uv 82 testov´ an´ı shodnosti regresn´ıch model˚ u 58 186

submodel˚ u 56, 58 tˇeˇziˇstˇe dat 68 veliˇcina endogen´ı 11 exogen´ı 11 koncová 11 lagged endogenous 11 posunuté endogen´ı 11 predeterminovaná 11 proxy 144 v´ ystupn´ı 11 vysvˇetlovaná 11 vysvˇetluj´ıc´ı 11 absolutn´ı velikost 67 diskrétn´ı 130 kvalitativn´ı 130 mˇeˇrené s chybami 95, 142 náhodné 14 nepˇr´ıstupná 144 vypuˇstˇen´ı 69 vlastn´ı ˇc´ıslo 39 vlastn´ı vektor 39 vlivn´ y bod 22, 106 volatilita 80 vypuˇstˇen´ı promˇenn´ ych 69 v´ ystupy z poˇc´ıtaˇcov´ ych knihoven 61 zmˇena ve sklonu regresn´ı nadroviny 69 v predikci 69 zobecnˇen´ y odhad metodou nejmenˇs´ıch ˇctverc˚ u 74 s odhadnut´ ymi parametry 75

187

1 Předmluva 4. 3 LINERNÍ REGRESNÍ MODEL Odhad regresních koeficientů Odhad rozptylu náhodných fluktuací... 35

Recommend Documents