E¨ otv¨ os Lor´ and Tudom´ anyegyetem Term´ eszettudom´ anyi Kar
Statisztikai modellek ´ ert´ ekel˝ o elj´ ar´ asai Szakdolgozat
K´esz´ıtette: Kov´acs Gergely Matematika BSc, Matematikai elemz˝o szakir´any
T´emavezet˝o: Pr˝ohle Tam´as Matematikai Int´ezet Val´ osz´ın˝ us´egelm´eleti ´es Statisztika Tansz´ek
Budapest 2015
K¨ osz¨ onetnyilv´ an´ıt´ as Soha ki nem fogy´o h´al´as k¨osz¨onettel tartozom ´edesany´amnak, aki f´elt˝o szeretet´evel ´es gondoskod´as´aval mindenben t´amogatott, biztatott ´es ha kellett, noszogatott, valamint t´emavezet˝omnek, Pr˝ohle Tam´asnak, akihez b´armikor be tudtam menni, mindig volt hozz´am egy j´o szava ´es aki szakmailag ´es emberileg is mindent megtett az´ert, hogy ez a szakdolgozat siker¨ ulj¨on.
ii
Tartalomjegyz´ ek C´ımlap
i
K¨ osz¨ onetnyilv´ an´ıt´ as
ii
Tartalomjegyz´ ek
ii
Bevezet´ es
1
1. Modellv´ alaszt´ as
3
1.1. A modellv´alaszt´as lehets´eges m´odszerei . . . . . . . . . . . . . . . . . . . .
3
1.2. A keresztvalid´aci´os m´odszerek fajt´ai . . . . . . . . . . . . . . . . . . . . . .
4
1.2.1. Leave-one-out Cross-Validation ’egyet hagyj ki’, LOO, CV(1) . . . . . . . . . . . . . . . . . . . . .
5
1.2.2. Hold Out Cross-Validation ’vedd ki’, HO, CV (nv ) . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.3. K-fold Cross-Validation ’K-szoros’, KCV, KCV (k) . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.4. Monte Carlo Cross-Validation, MCCV, M CCV (nv ) . . . . . . . . .
6
1.2.5. Balanced Incomplete Cross-Validation ’kiegyens´ ulyozott nemteljes’, BICV, BICV (nv ) . . . . . . . . . . .
6
1.3. A keresztvalid´aci´os m´odszer szerinti modell v´alaszt´as menete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Modellv´ alaszt´ as keresztvalid´ aci´ oval ´ altal´ anosan
7 8
2.1. Modellv´alaszt´as menete ´altal´anosan . . . . . . . . . . . . . . . . . . . . . .
8
2.2. Az optim´alis feloszt´asi h´anyados meghat´aroz´asa keresztvalid´aci´oval . . . .
9
2.2.1. A HO-m´odszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2. A KCV -m´odszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3. Az MCCV-m´odszer . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. Szimul´aci´ok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.1. 1. szimul´aci´o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 iii
2.3.2. 2. szimul´aci´o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4. A szimul´aci´ok ´ertelmez´ese . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1. 1. szimul´aci´o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.2. 2. szimul´aci´o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3. Modellv´ alaszt´ as keresztvalid´ aci´ oval line´ aris regresszi´ o eset´ en
17
3.1. Modellv´alaszt´as menete a line´aris regresszi´o fix ´es v´eletlen modellje eset´en . 17 3.2. Mintam´eret meghat´aroz´asa . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.1. N´eh´any eloszl´as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.2. A regresszi´os modell mintanagys´ag´anak elm´eleti meghat´aroz´asa a korrel´aci´o f¨ uggv´eny´eben . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.3. A regresszi´os modell mintanagys´ag´anak gyakorlati meghat´aroz´asa t´abl´azattal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3. A line´aris regresszi´o modell el˝orejelz´esi hib´aja . . . . . . . . . . . . . . . . 24 3.4. V´altoz´oszelekci´o keresztvalid´aci´oval . . . . . . . . . . . . . . . . . . . . . . 26 3.4.1. A CV (1) m´odszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.4.2. A BICV (nv ) m´odszer . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4.3. M´as CV (nv ) m´odszerek . . . . . . . . . . . . . . . . . . . . . . . . 32 3.4.4. Szimul´aci´o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4.5. A szimul´aci´o ´ertelmez´ese . . . . . . . . . . . . . . . . . . . . . . . . 37 Irodalomjegyz´ ek
38
iv
Bevezet˝ o A term´eszet ´es a t´arsadalom jelens´egeinek vizsg´alata sor´an a kutat´o szeretn´e meg´erteni a jelens´egek m¨og¨ott megh´ uz´od´o okokat ´es o¨sszef¨ ugg´eseket, ez´ert ennek ´erdek´eben megfigyel´eseket v´egez ´es azokr´ol adatokat gy˝ ujt. A val´os´agot azonban nem tudjuk azt felfogni, megragadni u ´gy, ahogy van, ez´ert modellek seg´ıts´eg´evel igyeksz¨ unk azt ´ertelmezni. Egy modell funkci´oja, hogy seg´ıtsen megmagyar´azni egy rendszert, tanulm´anyozni a k¨ ul¨onb¨oz˝o komponenseinek a hat´asait ´es el˝orejelz´eseket tenni a viselked´es´ere. A modellben megjelen˝o mennyis´egeket v´altoz´okra ´es param´eterekre oszthatjuk. A modell v´altoz´oi azok a mennyis´egek, amelyek f¨ uggetlen¨ ul m´erhet˝ok egy k´ıs´erletben. Egy modellt az´ert tervez¨ unk, hogy megmagyar´azzuk a v´altoz´ok k¨ozti kapcsolatokat. A modell param´eterei olyan ´alland´ok, amelyek a term´eszet valamilyen inherens tulajdons´agait jel¨olik. A modellez´es sor´an az adatokat predikci´os f¨ uggv´enyek seg´ıts´eg´evel modellezz¨ uk, az ismeretlen modellparam´etereket pedig az adatokb´ol becs¨ ulj¨ uk. Az adatok v´altoz´okb´ol ´allnak. A v´altoz´ok t´ıpusai: magyar´az´o (f¨ uggetlen) ´es magyar´azand´o (f¨ ugg˝o) v´altoz´ok. A f¨ uggetlen v´altoz´ok az inputokat/okokat jelen´ıtik meg, vagy pedig az ker¨ ul megvizsg´al´asra, hogy a t´enyleges okok megegyeznek-e a felt´etelezett okokkal. A f¨ ugg˝o v´altoz´o az outputot/hat´ast jelen´ıti meg, vagy pedig az ker¨ ul megvizsg´al´asra, hogy a t´enyleges hat´as megegyezik-e a felt´etelezett hat´assal. A modellez´es c´elja annak vizsg´alata, hogy a f¨ uggetlen v´altoz´ok vari´al´as´aval a f¨ ugg˝o v´altoz´o is vari´al´odik-e, ´es ha igen, hogyan ´es milyen m´ert´ekben. Egy modell helyess´eg´et a legjobban u ´gy lehet m´erni, hogy mennyire j´ol tudja megmagyar´azni a m´ar ismert jelens´egeket (milyen magyar´az´o ereje van), illetve hogy mennyire j´ol tudja megj´osolni a m´eg ismeretlen jelens´egeket (milyen predikci´os ereje van). Ha egy modell j´o, akkor a predikci´os ´ert´ek ”k¨ozel” van a t´enyleges ´ert´ekhez. A predikci´os ´es a t´enyleges ´ert´ek k¨ozti k¨ ul¨onbs´eg a predikci´os hiba. A predikci´os hib´at u ´gy ´ertelmezhetj¨ uk, hogy ez a f¨ ugg˝o v´altoz´onak a f¨ uggetlen v´altoz´o a´ltal nem megmagyar´azott v´altoz´ekonys´aga. Egy adott jelens´eget a´ltal´aban nagyon sokf´ele modellen kereszt¨ ul lehet vizsg´alni, amelyek elt´ernek egym´ast´ol bonyolults´agban ´es pontoss´agban, ez´ert a modellv´alaszt´as a tudom´anyos vizsg´al´od´as egyik alapvet˝o feladata.
1
A modellv´alaszt´as 2 f´azisb´ol a´ll: Az els˝o f´azisban a kutat´o a sz´amtalan sz´oba j¨ov˝o, lehets´eges modell k¨oz¨ ul kiv´alaszt n´eh´anyat, gyakran a h´att´erismeret´ere, el˝ozetes tud´as´ara, intu´ıci´oj´ara t´amaszkodva, esetleg figyelembe v´eve egy´eb szempontokat is (pl. a t´ ulzott bonyolults´ag ker¨ ul´es´e´ert polinomokat haszn´al fel, b´ar tudja, hogy nem az a legpontosabb). Az els˝o f´azis sor´an a kutat´o a´ltal kiv´alasztott modelleket jel¨oltmodelleknek (candidate model) nevezz¨ uk. A m´asodik f´azisban pedig a statisztikai elemz´esre h´arul az a feladat, hogy a jel¨oltmodelleket ´ert´ekelje, egym´assal o¨sszehasonl´ıtsa, hat´ekonys´agukat ´es az illeszked´es j´os´ag´at min´el pontosabban m´erje, annak ´erdek´eben, hogy a kutat´o ki tudja v´alasztani a jel¨oltmodellek k¨oz¨ ul a sz´and´eka ´es a tudom´anyos vizsg´alat szempontjai szerint ’legjobb’ modellt (vagyis azt, amelyik a legjobban le´ırja ´es megmagyar´azza a kutat´o a´ltal vizsg´alt jelens´eget).
2
1. fejezet Modellv´ alaszt´ as
1.1. A modellv´ alaszt´ as lehets´ eges m´ odszerei A modellv´alaszt´as probl´em´aja teh´at azzal a k´erd´esk¨orrel foglalkozik, hogy egy jelens´eg megmagyar´az´as´anak c´elj´ab´ol ¨osszegy˝ ujt¨ott adatokra illeszthet˝o sz´amtalan statisztikai modell k¨oz¨ ul melyik a ’legjobb’, amelyet a kutat´onak ´erdemes kiv´alasztania, hogy azzal modellezze az adott jelens´eget. E probl´em´anak a fontoss´ag´at j´ol mutatja az a t´eny, hogy milyen sokf´ele m´odszert dolgoztak ki a ’legjobb’ modell fogalm´anak a pontos meghat´aroz´as´ara ´es a modellv´alaszt´as megk¨onny´ıt´es´ere. Ilyen m´odszerek p´eld´aul: Akaike inform´aci´os krit´erium (AIC), Bayes inform´aci´os krit´erium (BIC), Mallows Cp , kh´ı-n´egyzet teszt, az F teszt hierarchikus modellekre, minden modell ´ert´ekel´ese (exhaustive search), l´ep´esenk´enti m´odszer (stepwise), a vissz- vagy el˝orel´ep˝o modell v´alaszt´o m´odszer, keresztvalid´aci´o, Bayes-faktor, Bayes-f´ele modell a´tlagol´as stb. P´eld´aul az Akaike inform´aci´os krit´eriumon alapul´o modellv´alaszt´asi m´odszer egy statisztikai modell min˝os´eg´et az o¨sszes t¨obbi modellhez viszony´ıtva becsli meg. Viszont amikor a modellez´es c´elja az el˝orejelz´es, vagyis meg akarj´ak becs¨ ulni azt, hogy egy predikt´ıv modell a gyakorlatban milyen pontosan fog m˝ uk¨odni, akkor el˝ony¨osebb valid´aci´os halmazon alapul´o modellv´alaszt´asi m´odszert haszn´alni. Mivel a m´eg le nem zajlott jelens´egekr˝ol sz´ol´o megfigyel´esek nem ´allnak rendelkez´esre, ez´ert j¨on az az o¨tlet, hogy a rendelkez´esre a´ll´o megfigyel´esek egy r´esz´et tekints¨ uk u ´gy, mintha j¨ov˝obeli megfigyel´esek voln´anak ´es vizsg´aljuk meg, hogy a t¨obbi megfigyel´esre illesztett modell mennyire j´ol k´epes el˝orejelezni ezeket a j¨ov˝obelinek tekintett megfigyel´eseket, vagyis ´ert´ekelj¨ uk a modell teljes´ıtm´eny´et. A modellv´alaszt´as valid´aci´os halmazon alapul´o megk¨ozel´ıt´ese (validation set approach, VSA) teh´at nem a modelleket viszony´ıtja egym´ashoz, hanem az adathalmazt (a megfi3
gyel´esek halmaz´at) valamilyen m´odszer szerint k´et r´eszre osztja fel: a konstrukci´os halmazra (construction set/training set) ´es a valid´aci´os halmazra (validation set). A konstrukci´os halmazra illesztj¨ uk a modellt, majd pedig ezt az illesztett modellt a valid´aci´os halmazban l´ev˝o megfigyel´esek el˝orejelz´es´ere (predikci´oj´ara) haszn´aljuk fel. A valid´aci´os halmazban l´ev˝o megfigyel´esek egy konkr´et el˝orejelz´ese k¨ozben tett hib´at valid´aci´os hib´anak, az el˝orejelz´esek v´arhat´o hib´aj´at pedig generaliz´aci´os hib´anak nevezz¨ uk. A generaliz´aci´os hiba alapj´an k´epet kaphatunk az adott modell generaliz´aci´os k´epess´eg´er˝ol, vagyis arr´ol a k´epess´egr˝ol, hogy mennyire j´ol ”´altal´anos´ıt” u ´j megfigyel´esekre. A valid´aci´os hiba a generaliz´aci´os hiba egy becsl´es´et adja meg. A valid´aci´os hiba ´ert´ek´et az a´tlagos n´egyzetes hib´aval (mean square error, MSE) ´ert´ekelj¨ uk ki, s ez az MSE-mennyis´eg alkalmas a modell teljes´ıtm´eny´enek m´er´es´ere. A modell teljes´ıtm´eny´enek m´er´ese viszont arra is lehet˝os´eget ad, hogy o¨sszehasonl´ıtsuk alternat´ıv modellek teljes´ıtm´eny´et. Az a modell jobb, aminek kisebb a valid´aci´os hib´aja (vagyis generaliz´aci´os hibabecsl´ese). Az alternat´ıv modellek teljes´ıtm´eny´enek o¨sszehasonl´ıt´asa pedig megteremti annak a lehet˝os´eg´et, hogy az alternat´ıv modellek k¨oz¨ ul kiv´alasszuk a (sz´amunkra) optim´alis modellt. A modellv´alaszt´as v´egs˝o c´elja a ”j´o” generaliz´aci´o, de emellett k´ıv´anatos tulajdons´ag m´eg a konzisztens v´alaszt´as is. Egy modellv´alaszt´as akkor konzisztens, ha 1-hez tart annak a val´osz´ın˝ us´ege, hogy a helyes ´es optim´alis modellt v´alasztjuk. Ez a k´et c´el: a ”j´o” generaliz´aci´o ´es a konzisztens modellv´alaszt´as azonban egyszerre nem val´os´ıthat´o meg, vagyis egym´assal szemben a´ll´o d¨ont´esi szab´alyokhoz vezet. Sokf´ele m´odszer ´es szempont szerint lehet felosztani a megfigyel´esek halmaz´at. Ezeket a k¨ ul¨onb¨oz˝o m´odszerek ´es szempontok szerinti feloszt´asokat t´argyaljuk a k¨ovetkez˝o fejezetben.
1.2. A keresztvalid´ aci´ os m´ odszerek fajt´ ai A valid´aci´os halmazon alapul´o megk¨ozel´ıt´esnek (VSA-nak) k´et h´atr´anya van: 1. Mivel v´eletlenszer˝ u az, hogy mely megfigyel´esek ker¨ ulnek a konstrukci´os halmazba ´es melyek a valid´aci´os halmazba, ez´ert a valid´aci´os halmazon sz´amolt becsl´es nagy m´ert´ekben f¨ ugg a megfigyel´esek feloszt´as´at´ol, ´ıgy nagyon v´altoz´ekony lehet; 2. A valid´aci´os hiba hajlamos t´ ulbecs¨ ulni a generaliz´aci´os hib´at, ha a modellt a teljes adathalmazra illesztj¨ uk. ´ Ujramintav´ etelez´esi technik´ak haszn´alat´aval (keresztvalid´aci´o, bootstrap) azonban ezek a korl´atok lek¨ uzdhet˝ok (a sz´am´ıt´asok megn¨oveked´es´enek az a´r´an). Ezeknek a m´odszereknek 4
n´eh´any v´altozat´at mutatjuk most be.
1.2.1. Leave-one-out Cross-Validation ’egyet hagyj ki’, LOO, CV(1) CV(1)-m´odszer eset´en a valid´aci´ora egyetlen megfigyel´est haszn´alunk, a t¨obbi megfigyel´es a konstrukci´os halmazt alkotja. Ezt megism´etelj¨ uk n-szer ´es kisz´am´ıtjuk az n becsl´es a´tlag´at. El˝onyei a VSA-val szemben: 1. A torz´ıt´as sokkal kisebb (mivel a konstrukci´os halmaz n − 1 megfigyel´est tartalmaz); 2. Az LOO ism´etl´ese mindig ugyanazt az MSE-t eredm´enyezi (mivel nincs v´eletlenszer˝ us´eg a konstrukci´os/valid´aci´os feloszt´asban). H´atr´anyai: 1. A kisz´am´ıt´asa dr´aga lehet (mivel a modellt n-szer kell illeszteni); 2. Aszimptotikusan helytelen; 3. Konzervat´ıv (ami azt jelenti, hogy hajlamos az optim´alisn´al b˝ovebb modellt v´alasztani). Ennek a probl´em´aj´aval a 3.4.1. fejezetben foglalkozunk. CV (1) .
1.2.2. Hold Out Cross-Validation ’vedd ki’, HO, CV (nv ) A hold out-m´odszer eset´en is a megfigyel´esek halmaz´at k´et r´eszre bontjuk: a konstrukci´os halmazra ´es a valid´aci´os halmazra. A modellt a konstrukci´os adatr´esz alapj´an illesztj¨ uk, a predikci´os hib´at pedig a valid´aci´os adatr´eszen sz´amoljuk, mintha azok a j¨ov˝obeli ´ert´ekek voln´anak. Ezt gyakran jel¨olik CV (nv )-vel, ahol nv a valid´aci´os halmaz elemsz´am´at jel¨oli. L´athat´o, hogy a CV (1) m´odszer CV (nv ) speci´alis esete nv ≡ 1-gyel. Innen ´erthet˝o a jel¨ol´es is.
1.2.3. K-fold Cross-Validation ’K-szoros’, KCV, KCV (k) A KF-m´odszer eset´en az A adathalmazt k db, k¨ozel egyenl˝o m´eret˝ u diszjunkt r´eszhalmazra osztjuk fel, majd k l´ep´esben k db k¨ ul¨onb¨oz˝o modellt ´ep´ıt¨ unk u ´gy, hogy mindig egy 5
k¨ ul¨onb¨oz˝o r´eszhalmazt v´alasztunk valid´aci´os halmaznak, a t¨obbi pedig a konstrukci´os halmazt alkotja, s a m´odszer generaliz´aci´os hib´aj´anak a k db k¨ ul¨onb¨oz˝o modell generaliz´aci´os hib´ainak az a´tlag´at tekintj¨ uk. ´ Eszrevehet˝ o, hogy az LOO ´es a VSA egyfajta kever´eke; pontosabban az LOO a KCV speci´alis esete k = n esetben. El˝onyei: 1. Sz´am´ıt´asi gyorsas´ag; 2. Az LOO-n´al jobb becsl´eseket ad a tesztel´esi hib´ara; 3. Az LOO-nak nagyobb a hibavarianci´aja (mivel a hib´ak er˝osen korrel´altak egym´assal, de kisebb a torz´ıt´asa); 4. A KCV k = 5 vagy k = 10 eset´en olyan tesztel´esi hib´akat ad, ami nem szenved a t´ ulzott torz´ıt´ast´ol vagy varianci´at´ol.
1.2.4. Monte Carlo Cross-Validation, MCCV, M CCV (nv ) Annyiban k¨ ul¨onb¨ozik az el˝oz˝ot˝ol, hogy a konstrukci´os ´es valid´aci´os halmazra val´o feloszt´ast minden alkalommal, a t¨obbi alkalomt´ol f¨ uggetlen¨ ul, v´eletlenszer˝ uen tessz¨ uk, a m´odszer generaliz´aci´os hib´aja pedig a kapott generaliz´aci´os hib´ak a´tlaga.
1.2.5. Balanced Incomplete Cross-Validation ’kiegyens´ ulyozott nemteljes’, BICV, BICV (nv ) A BICV -m´odszert az CV (1) m´odszer aszimptotikus helytelens´eg´enek ´es konzervat´ıv volt´anak a kijav´ıt´as´ara fejlesztett´ek ki. L´enyege, hogy az illeszt´est ´es a valid´aci´ot nem az o¨sszes k¨ ul¨onb¨oz˝o feloszt´asra, hanem csak azok egy j´ol megv´alasztott r´esz´ere v´egezz¨ uk el. Ezt a r´eszt az u ´n. ’egyens´ ulyi felt´etelekkel’ v´alasztjuk ki, ´es a 3.4.2. fejezetben t´argyaljuk. Az approxim´alt CV (nv ) m´odszer (AP CV (nv )) a speci´alis esete bizonyos felt´etelek teljes¨ ul´ese eset´en. Ezt a 3.4.3. fejezetben t´argyaljuk. Az AP CV el˝onyei: 1. konzisztens; 2. kevesebb sz´am´ıt´ast ig´enyel, mint a BICV vagy az M CCV .
6
1.3. A keresztvalid´ aci´ os m´ odszer szerinti modell v´ alaszt´ as menete A keresztvalid´aci´os megk¨ozel´ıt´esben a modellv´alaszt´as k´et nagy f´azisa a tervez´es ´es az ´ert´ekel´es, a tervez´es k´et nagy f´azisa pedig az optimaliz´al´as ´es a v´alaszt´as. A valid´aci´os megk¨ozel´ıt´es l´enyege, hogy mindh´arom f´azist az adathalmaz k¨ ul¨on r´eszein v´egezz¨ uk el. Ennek ´erdek´eben teh´at az o¨sszes megfigyel´esb˝ol a´ll´o A adathalmazt valamilyen m´odszer ´es szempont szerint 3 diszjunkt r´eszre osztjuk: a K konstrukci´os halmazra, a V valid´aci´os halmazra ´es az E teszthalmazra (a K konstrukci´os halmazt ´es a V valid´aci´os halmazt egy¨ uttesen a T tan´ıt´o halmaznak nevezz¨ uk). A K konstrukci´os halmazban l´ev˝o megfigyel´esekre t¨obb k¨ ul¨onb¨oz˝o modellt illeszt¨ unk (ez´altal ”hangoljuk” a modellparam´etereket), az illesztett modelleknek megbecs¨ ulj¨ uk a generaliz´aci´os hib´aj´at a V valid´aci´os halmazban l´ev˝o megfigyel´esek alapj´an, a generaliz´aci´os hiba becsl´eseinek ¨osszehasonl´ıt´asa alapj´an kiv´alasztjuk az optim´alis modellt, v´eg¨ ul pedig ennek az optim´alis modellnek a teljes´ıtm´eny´et ´ert´ekelj¨ uk az E teszthalmaz alapj´an. Az adathalmaz tan´ıt´o- ´es teszthalmazra val´o feloszt´as´at az´ert v´egezz¨ uk, hogy egy olyan modellt nyerj¨ unk, aminek nagy a generaliz´aci´os k´epess´ege ´es a generaliz´aci´os hib´at is megb´ızhat´oan tudjuk ´ert´ekelni, a tan´ıt´o halmaz konstrukci´os ´es valid´aci´os halmazra val´o feloszt´as´at pedig az´ert v´egezz¨ uk, hogy a l´etrej¨ov˝o modell generaliz´aci´os k´epess´ege a lehet˝o legnagyobb legyen. Ez teh´at a keresztvalid´aci´o m˝ uk¨od´esi elve. A dolgozat tov´abbi r´esz´eben arra mutatunk p´eld´akat, hogy a keresztvalid´aci´o milyen probl´em´ak megold´as´aban lehet hasznos.
7
2. fejezet Modellv´ alaszt´ as keresztvalid´ aci´ oval ´ altal´ anosan 2.1. Modellv´ alaszt´ as menete ´ altal´ anosan Tegy¨ uk fel, hogy egy p(x, y) egy¨ uttes val´osz´ın˝ us´egi eloszl´asb´ol vett K = {x(k), y(k)}N k=1 adathalmazra egy f (x; ω) f¨ uggv´eny ´altal le´ırt modellt szeretn´enk illeszteni (vagyis az y ´ert´ekeket az x ´ert´ekek alapj´an akarjuk k¨ozel´ıteni az f (x; ω) f¨ uggv´eny alapj´an, ahol az ω a modellparam´eterekb˝ol ´all´o, p dimenzi´os vektor). Az y ´ert´ek x pontokon vett f (.; ω) a´ltali k¨ozel´ıt´es´et (predikci´oj´at, el˝orejelz´es´et) yˆ(k) = f (x(k); ω)-val jel¨olj¨ uk. A t´enyleges ´es a predikci´os ´ert´ek k¨oz¨otti k¨ ul¨onbs´eget egy ` vesztes´egf¨ uggv´ennyel m´erj¨ uk ´es predikci´os hib´anak nevezz¨ uk. Ilyen ` f¨ uggv´eny lehet p´eld´aul a log-likelihood f¨ uggv´eny vagy ak´ar egyszer˝ uen a n´egyzetes elt´er´es: (`(y, yˆ) = ky − yˆk2 ). Ekkor a modellt egy C(K, ω) k¨olts´egf¨ uggv´eny minimaliz´al´as´aval szokt´ak illeszteni: C(K, ω) = S(K, ω) + R(ω) =
X
`(y, f (x; ω)) + R(ω)
(x,y)∈K
Ez a k¨olts´egf¨ uggv´eny k´et tag ¨osszege: az S(K, ω) tag az illesztett modell j´os´ag´at m´eri, az R(ω) tag pedig a v´alasztott modell bonyolults´ag´at m´eri. Az R(ω) p´eld´aul a param´etersz´am, vagy annak valamely monoton n¨ovekv˝o f¨ uggv´enye. Az illesztett modell a param´etervektor becs¨ ult ´ert´ek´evel foglalhat´o o¨ssze: ω ˆ = arg minω C(K, ω). 2.1.1. Defin´ıci´ o. Egy f (.; ω) modell generaliz´aci´os hib´aj´anak egy (x, y) j¨ov˝obeli f¨ uggetlen megfigyel´es v´arhat´o vesztes´eg´et nevezz¨ uk, ami nem m´as, mint az `(y, f (x; ω)) vesztes´egf¨ uggv´enynek az (x, y) adatokon vett, p(x, y) eloszl´as szerinti v´arhat´o ´ert´eke. K´eplettel: Z G(ˆ ω ) = Ex,y (`(y, yˆ)) = `(y, yˆ)p(x, y)dxdy 8
2.1.2. Defin´ıci´ o. Egy f (.; ω) modell ´atlagos generaliz´aci´os hib´aja nem m´as, mint a G(ˆ ω) ´ert´ekeknek az ¨osszes lehets´eges K halmazon vett ´atlaga. K´eplettel: Z Γ = EK (G(ˆ ω )) = G(ˆ ω )p(K)dK A Γ teh´at egy elm´eleti ´ert´ek, a gyakorlatban nem ismert, csak becs¨ ulni lehet. A modell optimaliz´al´asa azt jelenti, hogy a V valid´aci´os halmaz alapj´an minimaliz´aljuk a Γ generaliz´aci´os hiba tapasztalati becsl´eseit. V´eg¨ ul pedig az E teszthalmaz az eredm´eny¨ ul kapott modell generaliz´aci´os hib´aj´ara egy torz´ıtatlan tapasztalati becsl´est ad. A modellv´alaszt´as szokv´anyos menete, hogy el˝obb a T adatr´esz K r´esz´et felhaszn´alva kiv´alasztunk egy ω ˆ K param´etert. Majd ezt az f (., ω ˆ K ) modellt ´ert´ekelj¨ uk a modell generaliz´aci´os hib´aj´anak a T adatr´esz V r´esz´en mutatkoz´o hib´ai alapj´an becs¨ ulve. Addig keres¨ unk u ´jabb ´es u ´jabb f (., ω ˆ K ) modelleket, m´ıg ez ut´obbi szempont szerint optim´alis ω ˆ param´etert nem tal´alunk. V´eg¨ ul a f (., ω ˆ ) modell generaliz´aci´os hib´aj´at az E adatr´esz alapj´an becs¨ ulj¨ uk. Ugyanis mivel a V adatr´eszt felhaszn´altuk a modell illeszt´ese sor´an, csak ez ut´obbi E adatr´esz alapj´an becs¨ ult generaliz´aci´os hiba lehet torz´ıtatlan becsl´ese a t´enyleges generaliz´aci´os hib´anak.
2.2. Az optim´ alis feloszt´ asi h´ anyados meghat´ aroz´ asa keresztvalid´ aci´ oval A bevezet˝oben l´athattuk, hogy a keresztvalid´aci´os megk¨ozel´ıt´esben a modellv´alaszt´as k´et nagy f´azisa a tervez´es ´es az ´ert´ekel´es: a modellparam´eterek hangol´as´aval kiv´alasztjuk az optim´alis modellt a T tan´ıt´o halmazon a generaliz´aci´os hiba becsl´eseinek seg´ıts´eg´evel, majd pedig az optim´alis modellt ´ert´ekelj¨ uk az E teszthalmazon az ´atlagos n´egyzetes hiba (mean squared error, M SE) seg´ıts´eg´evel. Azt a modellt szeretn´enk kiv´alasztani (az a modell optim´alis), amelyre a generaliz´aci´os hiba becsl´ese minim´alis (vagyis ω ∗ = arg minω G(ω)). De a kiv´alasztott modell ´es a generaliz´aci´os hiba becsl´ese is f¨ ugg att´ol, hogy h´any megfigyel´esre illesztj¨ uk a modellt, illetve h´any megfigyel´est k¨ ul¨on´ıt¨ unk el tesztel´esre. Jel¨olj¨ uk γ ∈ [0, 1]-val azt, hogy a megfigyel´esek h´anyad r´esz´et k¨ ul¨on´ıtj¨ uk el a E r´eszbe (a modell ´ert´ekel´es´ere) ´es nevezz¨ uk ezt feloszt´asi h´anyadosnak (teh´at γ =
ne )! n
Gyakorlati
okok miatt γn csak eg´esz sz´am lehet (vagyis γ = i/n, ahol i = 1, ..., n − 1). Azt a γ ´ert´eket, amelyre a generaliz´aci´os hib´ara adott becsl´es min˝os´eg´enek ellen˝orz´es´ere haszn´alt MSE-mennyis´eg minim´alis, optim´alis feloszt´asi h´anyadosnak nevezz¨ uk ´es γopt -tal jel¨olj¨ uk (vagyis γopt = arg minγ M SE(γ)). Ez az optim´alis γ ´ert´ek f¨ ugg att´ol is, hogy melyik 9
keresztvalid´aci´os m´odszert haszn´aljuk. Ebben a fejezetben a γopt meghat´aroz´as´aval foglalkozunk a k¨ ul¨onb¨oz˝o keresztvalid´aci´os m´odszerek eset´en. Jel¨olje ω ˆ a T adatr´esz alapj´an illesztett modellparam´etert, jel¨olje G(ˆ ω ) ennek a ω ˆ moˆ HO (ˆ dellparam´eternek a t´enyleges generaliz´aci´os hib´aj´at, G ω ) pedig a ω ˆ modellparam´eter generaliz´aci´os hib´aj´anak az E adatr´esz alapj´an vett, HO-m´odszer szerinti becsl´es´et. Legyen ω ∗ az a param´eter, amelyre a modell G(ω ∗ ) generaliz´aci´os hib´aja minim´alis. Jel¨olje EA a megfelel˝o elt´er´esn´egyzetek v´arhat´o ´ert´ek´et a rendelkez´esre ´all´o A adatok szerint.
2.2.1. A HO-m´ odszer A HO-m´odszer eset´en a generaliz´aci´os hiba HO-becsl´ese a predikci´os hib´ak E halmazon vett a´tlaga, az MSE pedig a HO szerint becs¨ ult generaliz´aci´os hiba ´es az optim´alis modell generaliz´aci´os hib´aja k¨ozti elt´er´esn´egyzet v´arhat´o ´ert´eke. K´eplettel: 1 X ˆ HO (ˆ G ω) = `(y(k), yˆ(k)) ne k∈E ´es ˆ HO (ˆ M SEHO = EA (G ω ) − G(ω ∗ ))2 ˆ HO (ˆ Ez az M SEHO mennyis´eg felbonthat´o k´et tagra: egy varianciatagra: (G ω ) − G(ˆ ω ))2 ´es egy torz´ıt´astagra: (G(ˆ ω ) − G(ω ∗ ))2 . A varianciatag a HO-becsl´es megb´ızhat´os´ag´at m´eri, a torz´ıt´astag pedig a modell f¨ol¨os generaliz´aci´oja. A varianciatag onnan sz´armazik, hogy a HO-m´odszerrel becs¨ ult modell generaliz´aci´os hib´aj´at az E adatr´esz alapj´an csak becs¨ ulni tudjuk, a torz´ıt´astag pedig onnan, hogy a HO-m´odszerrel becs¨ ult modell generaliz´aci´os hib´aja nem felt´etlen minim´alis. A γ cs¨okken´es´enek hat´as´ara a varianciatag n˝o, a torz´ıt´astag pedig cs¨okken. Ennek az a magyar´azata, hogy az E m´eret´enek cs¨okken´es´ere a ˆ HO (ˆ generaliz´aci´os hiba G ω ) becsl´ese romlik, az E n¨oveked´ese viszont a G(ˆ ω ) javul´as´aval (a torz´ıt´as cs¨okken´es´evel) j´ar. P´eldak´ent vegy¨ uk az egyik lehet˝o legegyszer˝ ubb modellt! Vizsg´aljuk azt az esetet, amikor a megfigyel´esek y ∼ N (µ, σ 2 ) eloszl´as´ uak, ismert σ sz´or´assal ´es ismeretlen — az adatokb´ol becs¨ ulend˝o — µ v´arhat´o ´ert´ekkel. Ekkor az optim´alis modell param´eter´enek a generaliz´aci´oja σ 2 , egy tetsz˝oleges ω˙ param´eter generaliz´aci´os hib´aja pedig G(ˆ ω ) = σ 2 + (µ − ω) ˙ 2. Ebben az esetben hossz´ u, a´mde elemi sz´amol´assorral bel´athat´o, hogy az a γ ´ert´ek, amelyre a HO-m´odszerrel nyert generaliz´aci´os hiba a legkisebb, a k¨ovetkez˝o:
10
2σ 4 M SEHO (γ) = nγ
2 1+ (1 − γ)n
+
3σ 4 (1 − γ)2 n2
ahol az p A = −324n2 − 144n + 8 + 12n 3(243n2 + 472n − 28) konstans mellett a
2 8 A1/3 1 + . + + A1/3 6n 3nA1/2 3n Ebb˝ol a k´epletb˝ol leolvashat´o, hogy az 1 − γopt = O(n1/3 ), ha n → ∞, vagyis az opγopt = 1 −
tim´alis feloszt´asi h´anyados — meglehet˝osen lassan — tart az 1-hez. Ami azt jelenti, hogy ahhoz, hogy egy pontos HO-becsl´est nyerj¨ unk a generaliz´aci´os hib´ara, az adatok z¨om´et aszimptotikusan a valid´aci´ora kell fenntartani. Ezt a k¨ovetkeztet´est az ´altalunk elv´egzett szimul´aci´os k´ıs´erlet is meger˝os´ıti.
2.2.2. A KCV -m´ odszer Mint ahogy az 1.5.3. alfejezetben m´ar utaltunk erre, a KCV -m´odszer az A adathalmazt k db k¨ozel egyenl˝o diszjunkt r´eszhalmazra bontjuk (A = ∪kj=1 Ej ) ´es mindegyik r´eszhalmazon ´ert´ekelj¨ uk a t¨obbi (Tj = A \ Ej ) adatra illesztett modellt. Az Ej n´elk¨ ul illesztett modellt yˆ−j -vel jel¨olj¨ uk. A KCV -becsl´es a generaliz´aci´os hiba k db becsl´es´enek az a´tlaga: k
XX ˆ KCV = 1 Γ `(y(k), yˆ−j (k)) n j=1 k∈E j
Az M SE pedig a HO-hoz hasonl´oan a KCV szerint becs¨ ult generaliz´aci´os hiba ´es az optim´alis modell generaliz´aci´os hiba k¨ozti elt´er´esn´egyzet v´arhat´o ´ert´eke, ami hasonl´ok´eppen egy variancia- ´es torz´ıt´astagb´ol ´all. K´eplettel: ˆ KCV − G(ω ∗ ))2 M SEKCV = EA (Γ A sz´am´ıt´asok elv´egz´ese ut´an az MSE ´ert´ek´ere az al´abbi k´epletet kapjuk: ( M SEKCV (γ) =
σ 4 (2γ 3 n−2γ 2 −6nγ 2 +7γ+6nγ−7−2n) n2 (γ−1)2 σ 4 (−4nγ 2 −9γ+8+2nγ+2γ 2 +2γ 3 n) n2 (γ−1)2 γ
Mivel az M SEKCV (γ) γ szerinti deriv´altja pozit´ıv minden 0 ≤ γ ≤ 1 ´es n ´ert´ekre, ez´ert M SEKCV a CV (1)-m´odszer (LOO) eset´eben lesz minim´alis (γopt = 1/n) f¨ uggetlen¨ ul az n m´eret´et˝ol. Ezt a k¨ovetkeztet´est meger˝os´ıti az a´ltalunk elv´egzett szimul´aci´os k´ıs´erlet is. Megfigyelhet˝o az az ´erdekess´eg, hogy ezeknek a g¨orb´eknek a meredeks´ege γ = 1/2re nemfolytonos, ami annak k¨osz¨onhet˝o, hogy ilyen γ ´ert´ek k¨or¨ ul v´altoznak ´at az az a´tfed´esben l´ev˝o konstrukci´os halmazok a´tfed´esben l´ev˝o teszthalmazokk´a. 11
2.2.3. Az MCCV-m´ odszer Mint ahogy az 1.5.5. alfejezetben m´ar utaltunk erre, a MCCV-m´odszer u ´jramintav´etelezi a teszthalmazokat u ´gy, hogy v´eletlenszer˝ uen kiv´alaszt ne = nγ mint´at teszthalmaznak, a t¨obbit pedig konstrukci´os halmaznak. Ez legfeljebb k ≤ nne -szor ism´etelhet˝o meg. Mindegyik permut´aci´o eset´en egy ωˆj param´eterekkel rendelkez˝o yˆj modellt illeszt¨ unk, azt´an pedig kisz´am´ıtjuk a generaliz´aci´onak a k db teszthalmazon kisz´am´ıtott tapasztalati becsl´es´et. ´Igy kapjuk: k X ˆ M CCV = 1 ˆ ωj ) , Γ G(ˆ k j=1 a M SE pedig ugyanaz, mint KCV eset´en. A sz´am´ıt´asok elv´egz´ese ut´an azt kapjuk, hogy az M CCV a KCV -hez k´epest egyenletesen alacsonyabb (vagy egyenl˝o) MSE-becsl´eseket ad (ha k el´eg nagy). Mivel a KCV eset´en a minim´alis M SE-t mindig LOO eset´en ´erj¨ uk el, ez´ert ez a min˝os´egi eredm´eny itt is v´altozatlan marad.
12
2.3. Szimul´ aci´ ok 2.3.1. 1. szimul´ aci´ o Az ¨osszes g¨orb´et ´atlagoljuk az adat 40000 replik´aci´oj´an az n = 4, 8, 16, 32, 64 mintam´eretekre (az ´abr´an fentr˝ol lefel´e), ´es γ-t ´abr´azoljuk M SE f¨ uggv´eny´eben. Az eredm´enyek k¨oz¨ ul a bal oldali ´abra a HO-m´odszerre, a jobb oldali a´bra pedig KCV -m´odszerre adja meg a kapott pontokat. A t¨om¨ott karika a g¨orb´ek minimum´at jelzi, a hibahat´arok pedig k´etszeres standard sz´or´as szerintiek.
2.3.2. 2. szimul´ aci´ o A modellv´alaszt´as feladat´anak megk¨onny´ıt´es´ere is elv´egz¨ unk egy szimul´aci´os k´ıs´erletet. √ Most egyetlen n = 25 elemb˝ol a´ll´o mint´at haszn´alunk. Az eredm´enyek csak a θ = µ n/σ normaliz´alt v´altoz´o f¨ uggv´enye lesznek, ´es θ-t a µ ´ert´ek´en kereszt¨ ul v´altoztatjuk. Az n db megfigyel´est az N (µ, 1) eloszl´asb´ol vessz¨ uk, ´es most is minden eredm´enyt a´tlagolunk az n megfigyel´es 40000 replik´aci´oj´an. A 2. ´abra mutatja a HO eset´en eredm´eny¨ ul kapott modell generaliz´aci´oj´at a µ n¨ovekv˝o ´ert´ekeire (alul µ = 0, fel¨ ul µ = 1 0,2-es n¨ovekm´enyekkel, a karika jelzi a minimumot). A bal oldali ´abra a γ f¨ uggv´eny´eben a HO-becsl´es f¨ol¨os generaliz´aci´oj´at, a jobb oldali a´bra a helyesen kiv´alasztott modellek sz´azal´ekar´any´at mutatja.
13
3. a´bra: modellv´alaszt´as KCV eset´en µ = 0-t´ol 1-ig 0,2-es n¨ovekm´enyekkel. A bal oldali a´bra a γ f¨ uggv´eny´eben a KCV -becsl´es f¨ol¨os generaliz´aci´os hib´aj´at, a jobb oldali a´bra pedig a helyesen kiv´alasztott modellek sz´azal´ekar´any´at mutatja.
14
2.4. A szimul´ aci´ ok ´ ertelmez´ ese 2.4.1. 1. szimul´ aci´ o Az ´abr´akr´ol leolvashat´o, hogy HO eset´en az optim´alis feloszt´asi h´anyados (γopt ) az n n¨oveked´es´evel 1 fel´e tart (de lassan), m´ıg KCV eset´en mindig γopt = n1 . Ez azt jelenti, hogy min´el t¨obb megfigyel´es¨ unk van, a HO eset´en a megfigyel´eseknek ann´al nagyobb h´anyad´at kell a valid´aci´ora fenntartani (´es ´ıgy ann´al kisebb h´anyad´at az illeszt´esre), m´ıg KCF eset´en a megfigyel´esek sz´am´at´ol f¨ uggetlen¨ ul elegend˝o egyetlen megfigyel´est f´elretenni a valid´aci´ora, a t¨obbire illeszthet¨ unk. Az a´br´akon az is ´eszrevehet˝o, hogy az n n¨oveked´es´evel az M SE-g¨orb´ek kilaposodnak. Ez azt jelzi, hogy a k¨ozel optim´alis feloszt´asi h´anyadosok egy sz´eles intervallumban helyezkednek el.
2.4.2. 2. szimul´ aci´ o HO-m´ odszer A legnagyobb feloszt´asi h´anyados (γ =
n−1 ) n
a µ kis ´ert´ekeire optim´alis. A 2. ´abra jobb ol-
dali fele j´ol illusztr´alja azt, hogy ezekben az esetekben majdnem mindig a minim´almodellt v´alasztjuk ki, mert a minim´almodell a teljes modelln´el jobb becsl´est ad. Viszont θ = 1-re, azaz µ = 0.2-re a γ = 1/n (vagyis az LOO) lesz optim´alis. Ekkor egy u ´n. f´azis´atmenet t¨ort´enik. A 2. a´bra bal oldali fel´en a megfelel˝o g¨orbe majdnem lapos, ´es ann´al a pontos ´ert´ekn´el, ahol a f´azis´atmenet t¨ort´enik, a γ nagy ´es kis ´ert´ekei is az optimum hibahat´ar´an bel¨ ul vannak. A µ n¨oveked´es´evel az optim´alis feloszt´asi h´anyados most is nagyon lass´ u, aszimptotikus u ¨temben tart az 1-hez. A 2. ´abra jobb oldali fele azt mutatja, hogy ez az´ert van, mert a leghelyesebb modellt ad´o feloszt´asi h´anyados az 1-hez tart. A µ n¨oveked´es´evel a g¨orb´ek egyre laposabb´a v´alnak, ami a v´arakoz´asoknak megfelel˝oen azt jelzi, hogy a γ majdnem minden v´alaszt´as´aval a helyes modellt v´alasztjuk ki, s ´ıgy k¨ozel optim´alis generaliz´aci´ot kapunk.
KCV -m´ odszer A feloszt´asi h´anyados legnagyobb γ =
n−1 n
´ert´eke most is a µ kis ´ert´ekeire optim´alis, ´es
ebben az esetben is van egy a´tmenet a minim´al modell ´es a legink´abb konzisztens modell
15
√ k¨oz¨ott γopt = 1/2-re a µ = σ/ n = 0.2 k¨or¨ ul. A KCV viszont k¨ ul¨onb¨ozik a HO-t´ol abban, hogy a µ kis ´ert´ekeire a legink´abb konzisztens becsl´est nem γ = 1/n (vagyis LOO), hanem γ = 1/2 adja! S˝ot a KCV -n´el van m´eg egy a´tmenet: γopt = 1/n-hez (vagyis LOO-hoz) egy enyh´en nagyobb ´ert´ekre. Ennek a konstrukci´os ´es a valid´aci´os halmaz k¨oz¨otti ´atfed´es az oka. Ez a m´asodik a´tmenet akkor t¨ort´enik, amikor az LOO a KCV (2)-n´el helyesebb modelleket kezd adni. Tov´abbi k¨ ul¨onbs´egek a KCV - ´es a HO-m´odszer a´ltal adott becsl´esek k¨oz¨ott: a KCV eset´en a µ n¨oveked´es´evel az LOO optim´alis marad; a minim´alis f¨ol¨os generaliz´aci´os hiba (minimum excess generalization error) alacsonyabb; a helyesen v´alasztott modellek ar´anya gyorsabb u ¨temben tart az 1-hez. Megjegyzend˝o m´eg, hogy az aszimptotikusan optim´alis feloszt´asi h´anyados 1/n, mivel a f´azis´atmeneti k¨ usz¨ob¨ok ford´ıtottan ar´anyosak n-nel minden µ 6= 0-ra. M CCV -m´ odszer Az M CCV eredm´enyei most is hasonl´ok a KCV -´ehez, s az eredm´enyb˝ol levont kvalitat´ıv k¨ovetkeztet´es is azonos: A γ optim´a´elis ´ert´eke γopt = 1/n, vagyis az LOO elj´ar´as az optim´alis. Az viszont elt´er a KCV -t˝ol, hogy γ = 1/2-n´el nincs nemfolytonoss´ag. Ez annak k¨osz¨onhet˝o, hogy a a´tlagol´asi strat´egia jobb a k¨ozb¨ uls˝o feloszt´asi h´anyadosokra. Teh´at csak egy γ-´atmenet van: az egyik sz´els˝o´ert´ekr˝ol a m´asikra.
16
3. fejezet Modellv´ alaszt´ as keresztvalid´ aci´ oval line´ aris regresszi´ o eset´ en 3.1. Modellv´ alaszt´ as menete a line´ aris regresszi´ o fix ´ es v´ eletlen modellje eset´ en Legyen y magyar´az´o v´altoz´o ´es x1 , ..., xp magyar´azand´o v´altoz´ok. Legyen (y, x)0 = (y, x1 , ..., xp )0 . A line´aris regresszi´o egy olyan param´eteres regresszi´os modell, amely felt´etelezi az y magyar´az´o v´altoz´o ´es az x1 , ..., xp magyar´azand´o v´altoz´ok k¨ozti (param´etereiben) line´aris kapcsolatot. A line´aris kapcsolat a k¨ovetkez˝ok´eppen fejezhet˝o ki: y = β0 + β1 x1 + β2 x2 + ... + βp xp + e, ugyanez z´artabb form´aban fel´ırva: y = Xβ + e, ahol: • n a mintanagys´ag (m´er´esek/megfigyel´esek sz´ama) ´es p + 1 a magyar´az´o v´altoz´ok sz´ama (konstanssal egy¨ utt); • y ∈ Rn×1 a magyar´azand´o v´altoz´o ´ert´ek´ere vonatkoz´o n megfigyel´est tartalmaz´o n × 1 m´eret˝ u oszlopvektor; • X ∈ Rn×(p+1) a p magyar´az´o v´altoz´o ´ert´ek´ere vonatkoz´o n db xk ∈ Rn×1 megfigyel´est tartalmaz´o m´atrix, amit tervm´atrixnak nevez¨ unk. Ha a tervm´atrixban l´ev˝o ´ert´ekek a k´ıs´erlet v´egz˝oje ´altal r¨ogz´ıtett (vagyis fix) ´ert´ekek, akkor fix hat´as modellr˝ol besz´el¨ unk. Ha viszont a tervm´atrix a v´eletlent˝ol f¨ ugg, m´eghozz´a u ´gy, hogy (y, x)0 = (y, x1 , ..., xp )0 t¨obbdimenzi´os norm´alis eloszl´as´ u (µy , µx )0 = (µy , µx1 , ..., µxp )0 v´arhat´o 17
´ert´ekkel ´es
σy,y σy,x
!
σx,y σx,x modellr˝ol besz´el¨ unk;
part´ıcion´alt kovariancia m´atrixszal, akkor v´eletlen hat´as
• β ∈ R(p+1)×1 a modellparam´etereket tartalmaz´o p dimenzi´os vektor (a param´eterek itt azokat a s´ ulyokat jelentik, amelyekkel az egyes magyar´az´o v´altoz´ok a magyar´azand´o v´altoz´o ´ert´ek´et k¨ozel´ıt˝o line´aris f¨ uggv´enyben szerepelnek); • e ∈ Rn×1 pedig a regresszi´o hib´ait tartalmaz´o n elem˝ u vektor (amely egy ε ∼ N (0, σ 2 I) v´eletlen mennyis´eg aktu´alis ´ert´eke). A β ´es az e ismeretlen, ezeket az adatokb´ol kell becs¨ uln¨ unk. A line´aris regresszi´o becsl´ese sor´an a β param´etervektort becs¨ ulj¨ uk a rendelkez´esre a´ll´o mint´ab´ol u ´gy, hogy az ¨osszn´egy2 zetes hib´at minimaliz´alja: βˆ = arg minβ ky − Xβk . A legegyszer˝ ubb becsl´esi m´odszer a legkisebb n´egyzetek m´odszere. A legkisebb n´egyzetek m´odszere alapj´an a param´eterre adott becsl´es az ismert k´eplet szerint: βˆ = (X T X)−1 X T y. A param´eterre adott becsl´es alapj´an az el˝orejelz´esi ´ert´ek (predikci´os ´ert´ek) yˆ = X βˆ (s ´ıgy E(y) = Xβ), az el˝orejelz´esi hiba (predikci´os hiba, rezidu´alis) pedig eˆ = y − X βˆ (s ´ıgy E(e) = 0). Az yˆ ´es az eˆ becs¨ ult ´ert´ekeket kifejezhetj¨ uk az X k´epter´ere vet´ıt˝o projekci´os m´atrix ´es a k´ept´erre mer˝oleges komponenst el˝oa´ll´ıt´o annihil´ator seg´ıts´eg´evel (ami egy´ebk´ent maga is egy projekci´o). Ha P = X(X T X)−1 X T az X oszlopai a´ltal kifesz´ıtett t´erre vet´ıt˝o projekci´os m´atrix ´es M = In − P az X-re mer˝oleges t´erre vet´ıt˝o annihil´ator m´atrix, akkor yˆ = P y, eˆ = M y = M e. A P projekci´os m´atrix i-edik ´atl´oelem´et wi -vel jel¨olj¨ uk.
3.2. Mintam´ eret meghat´ aroz´ asa 3.2.1. N´ eh´ any eloszl´ as Ezekre az eloszl´asokra a mintanagys´agot meghat´aroz´o k´epletek meg´ert´es´ehez van sz¨ uks´eg. Az egyszer˝ us´eg kedv´e´ert a meghat´aroz´asokban szerepl˝o eloszl´as jel¨ol´eseket ´ertelmezz¨ uk u ´gy, mintha azok v´eletlen mennyis´egek voln´anak, az adott eloszl´assal!
18
Kh´ı-n´ egyzet eloszl´ as A kh´ı-n´egyzet eloszl´as nem m´as, mint egy k dimenzi´os, standard norm´alis eloszl´as´ u pontnak az orig´ot´ol vett t´avols´agn´egyzet´enek az eloszl´asa. Egyetlen param´etere, a szabads´agfok azt mutatja meg, hogy h´any f¨ uggetlen, standard norm´alis eloszl´as´ u mennyis´eg n´egyzet¨osszeg´enek az eloszl´as´ar´ol van sz´o. Vagyis: χ2k
∼
k X
N 2 (0, 1).
j=1
t-eloszl´ as A t-eloszl´asnak egy param´etere van, a szabads´agfok. E param´eter azt mutatja, hogy mennyi a nevez˝oj´eben szerepl˝o kh´ı-n´egyzet eloszl´asnak a szabads´agfoka. Ugyanis: N (0, 1) tk ∼ p 2 χk /k E k´eplet u ´gy ´ertend˝o, hogy a t eloszl´as´ u mennyis´eg eloszl´asa olyan, mint k´et olyan f¨ uggetlen v´eletlen mennyis´eg h´anyados´anak az eloszl´asa, amelyek egyr´eszt standard norm´alis, m´asr´eszt χ2 eloszl´as´ u. F-eloszl´ as Az F-eloszl´asnak k´et param´etere van, k´et szabads´agfok. Annak a k´et, f¨ uggetlen χ2 eloszl´asnak a szabads´agfoka, amelyek a h´anyadosak´ent az F eloszl´as el˝oa´ll. Azaz: Fn,m
χ2n /n ∼ 2 . χm /m
Nemcentr´ alis kh´ı-n´ egyzet eloszl´ as A kh´ı-n´egyzet eloszl´asnak a szabads´agfokon k´ıv¨ ul egy param´etere van, a nemcentralit´asi param´eter. E nemcentralit´asi param´eter ´ert´eke a meghat´aroz´as´ahoz felhaszn´alt 1 sz´or´as´ u norm´alisok v´arhat´o ´ert´ekeib˝ol k´epzett n´egyzet¨osszeggel egyenl˝o. Vagyis: χ2n,δ2
∼
k X
N 2 (µj , 1),
j=1
akkor, ha a δ 2 =
Pk
j=1
µ2j , vagyis a v´eletlen pont v´arhat´o ´ert´ek´enek az orig´ot´ol vett
t´avols´agn´egyzete.
19
Nemcentr´ alis t-eloszl´ as A nemcentr´alis t-eloszl´asnak k´et param´etere van, a szabads´agfok ´es a nemcentralit´asi param´eter. Ez ut´obbi param´eter azt mutatja, hogy mennyi a sz´aml´al´oj´aban szerepl˝o norm´alis eloszl´as v´arhat´o ´ert´eke. Ugyanis: N (µ, 1) tk,µ ∼ p 2 . χk /k Vagyis egy olyan eloszl´as, amelyiknek a nevez˝oj´eben egy centr´alis χ2 eloszl´as van. Nemcentr´ alis F-eloszl´ as A nemcentr´alis F-eloszl´asnak a k´et szabads´agfok param´eteren k´ıv¨ ul egy param´etere van, a nemcentralit´asi param´eter. Ez a nemcentralit´asi param´eter egyenl˝o annak a nemcentr´alis χ2 eloszl´asnak a param´eter´evel, amelyik a sz´aml´al´oj´aban szerepel. Ugyanis: Fn,m,δ2 ∼
χ2n,δ2 /n χ2m /m
.
Vagyis ennek az eloszl´asnak a nevez˝oj´eben is centr´alis χ2 eloszl´as van.
Mindh´arom eloszl´as, a nemcentr´alis esetet is figyelembe v´eve el´erhet˝o az R alaprendszer´ehez tartoz´o stats csomag megfelel˝o f¨ ugg´enyei segits´eg´evel: - a χ2 eloszl´ashoz tartoz´o f¨ uggv´enyek: dchisq(x,df,ncp), pchisq(q,df,ncp), qchisq(p,df,ncp), rchisq(n,df,ncp) - a t eloszl´ashoz tartoz´o f¨ uggv´enyek: dt(x,df,ncp), pt(q,df,ncp), qt(p,df,ncp), rt(n,df,ncp) - az F eloszl´ashoz tartoz´o f¨ uggv´enyek: df(x,df1,df2,ncp), pf(q,df1,df2,ncp), qf(p,df1,df2,ncp), rf(n,df1,df2,ncp). Itt d-vel kezd˝odnek a s˝ ur˝ us´egf¨ uggv´enyek, p-vel az eloszl´asf¨ uggv´enyek, q-val a kvantilisf¨ uggv´enyek ´es r-rel az adott eloszl´as szerint v´eletlen sz´amot gener´al´o elj´ar´asok. Az argumentumokban az x az eloszl´as ´ertelmez´esi tartom´any´anak egy pontja, p∈ [0, 1] egy val´osz´ın˝ us´eg, q egy kvantilis, n a gener´aland´o v´eletlen sz´amok sz´amoss´aga. A df jel¨oli a szabads´agfokokat, az ncp pedig a nemcentralit´asi param´eter ´ert´ek´et.
20
3.2.2. A regresszi´ os modell mintanagys´ ag´ anak elm´ eleti meghat´ aroz´ asa a korrel´ aci´ o f¨ uggv´ eny´ eben A keresztvalid´aci´o haszn´alhat´o a regresszi´os f¨ uggv´eny illeszked´es´enek tesztjek´ent is. Ebben az esetben a keresztvalid´aci´o sor´an vesz¨ unk egy m´asodik v´eletlen mint´at ´es kisz´amoljuk az u ´j megfigyelt f¨ ugg˝o v´altoz´o ´es az u ´j magyar´az´o v´altoz´ok azon line´aris kombin´aci´oj´anak korrel´aci´oj´at, amelynek egy¨ utthat´oit az eredeti minta alapj´an nyert¨ unk. Az eredm´eny¨ ul ˆ kapott korrel´aci´ot rc (β)-vel jel¨olj¨ uk. ˆ teh´at ´ert´ekel´ese a mint´ab´ol sz´armaztatott egyenlet ´erv´enyess´eg´enek, ´es egy Az rc (β) becsl´ese a βˆ param´eter mellett a ˆ = %c (β)
0 ˆ σxy β ˆ 1/2 (σyy βˆ0 Σ0xx β)
popul´aci´os param´eternek, amit r¨oviden %c -vel fogunk jel¨olni. Ha % jel¨oli a popul´aci´os ´ert´eket, akkor tekintettel annak maxim´alis volt´ara, bizonyos, hogy %c ≤ % . Ha %c mintabeli eloszl´as´at fel tudn´ank ´ırni, mint az n f¨ uggv´eny´et, akkor a P (% − %c ≤ ) = γ k´eplet alapj´an adott ´es γ mellett a keresett n mintanagys´ag, — a regresszi´os f¨ uggv´eny j´os´ag´anak kell˝o szint˝ u meghat´aroz´as´ahoz sz¨ uks´eges mintaelemsz´am — megadhat´o volna. Azonban %c s˝ ur˝ us´egf¨ uggv´eny´ere ir´anyul´o minden eddigi k´ıs´erlet hi´abaval´onak bizonyult. Viszont a %2c -´e meghat´arozhat´o. Bel´athat´o, hogy a fontosabb esetekben ez el´egs´eges is. ´Igy ur˝ us´egf¨ uggv´eny´enek meghat´aroz´as´aval fogunk foglalkozni. most %2c s˝ Ha %2c eloszl´as´at egy line´aris transzform´aci´oval egyszer˝ us´ıtj¨ uk, akkor %2c kifejezhet˝o korrel´alatlan v´altoz´ok n´egyzet¨osszegeinek f¨ uggv´enyek´ent: %2c
W12 kBk2 %2 = 2 Pp = P W1 + i=2 Wi2 1 + pi=2
Wi2 W12
Ez ´at´ırhat´o a k¨ovetkez˝o alakba: %2c
%2
= 1+
χ2p−1,δ χ21,δ
2 =0
1
ahol a χ2p−1 ´es χ21,δ1 v´altoz´oknak f¨ uggetlen kh´ı-n´egyzet illetve nemcentr´alis kh´ı-n´egyzet eloszl´asa van, ahol a nemcentralit´asi param´eter ´ert´eke: r n−p−2 δ1 = |EW1 | = |%| . 1 − %2 21
A szabads´agfokokkal val´o szorz´as ´es oszt´as ut´an v´eg¨ ul ezt kapjuk: %2c =
%2 1+
p−1 F1,p−1,δ1
ahol F1,p−1,δ1 egy nemcentr´alis F-eloszl´as δ1 nemcentralit´asi param´eterrel. Teh´at o¨sszefoglalva, a %2c keresett eloszl´asa: F%2c (λ) = P (%2c ≤ λ) = F1,p−1,δ1 λ(p − 1)/(%2 − λ)
ahol a F1,p−1,δ1 az 1 ´es p − 1 szabads´agfok´ u, δ1 nemcentr´alis F -eloszl´ast eloszl´asf¨ uggv´enye. ´Igy %2 eloszl´asa t´abl´azatba foglalhat´o a nemcentr´alis t-eloszl´as nyilv´anos t´abl´azatainak, c statisztikai programrendszerekben fellelhet˝o szubrutinjainak felhaszn´al´as´aval. A sz¨ uks´eges mintam´eret a random modell eset´en: nr =
(1 − %2 )δ12 + p + 2, %2
a fix modell eset´en pedig: nf =
(1 − %2 )δ12 . %2
Vagyis a sz¨ uks´eges mintam´eret a fix modell eset´en p + 2-vel kisebb mint a v´eletlen modell eset´en.
22
3.2.3. A regresszi´ os modell mintanagys´ ag´ anak gyakorlati meghat´ aroz´ asa t´ abl´ azattal Az al´abbi t´abl´azat azt mutatja, hogy az im´ent bemutatott k´epletet alkalmazva, p = 2 magyar´az´o v´altoz´o mellett, adott % = .05, .1, ..., .98 korrel´aci´o eset´en az = .01, ..., .20 pontoss´ag 99%, ..., 40% val´osz´ın˝ us´eggel, h´any elem˝ u minta alapj´an ´erhet˝o el. .99 .95 .90 .80 .60 .40 .05 .01 634 369 261 160
72
31
54
23
8
.10 .01 601 350 248 152
68
30
.03 213 124
88
.03 203 119
85
53
25
12
.05 123
52
33
16
7
.25 .01 501 292 207 127
57
25
73
.03 170 100
71
45
22
11
.05 104
62
45
29
15
8
.10
53
32
24
16
9
6
.20
29
18
14
10
5
4
.50 .01 336 196 139
86
39
18
.03 115
68
49
31
16
9
.05
70
42
31
20
11
7
.10
37
23
17
12
7
6
.20
20
13
11
8
6
5
.75 .01 170 100
72
45
22
11
.03
59
36
27
18
10
6
.05
37
23
18
12
8
5
.10
21
14
11
8
6
5
.20
12
9
7
6
5
4
.98 .01
17
12
9
7
5
5
.03
8
7
6
5
4
4
.05
7
6
5
5
4
4
.10
5
5
5
4
4
4
.20
5
4
4
4
4
4
23
P´ elda
A fenti t´abl´azat felhaszn´al´as´aval egy konkr´et alkalmaz´as sor´an p´eld´aul az al´abbi t´ıpus´ u k¨ovetkeztet´esekre juthatunk. Ha egy olyan regresszi´ot vett¨ unk, amelyn´el a magyar´az´o v´altoz´ok sz´ama 2, ´es amelyn´el a %ˆ2 ´ert´eke .5, akkor a korrel´aci´on´egyzet keresztvalid´aci´oval nyert becsl´ese a val´odi korrel´aci´o ´ert´ek n´egyzet´et egy 68 elem˝ u minta eset´en az al´abbi t´abl´azatba foglalt m´odon ´es m´ert´ekben k¨ozel´ıti:
v´eletlen
fix
max 1% elt´er´essel
≈ .72
≈ .74
max 3%
≈ .95
≈ .95
max 5%
≈ .99
≈ .99
modell eset´en
val´osz´ın˝ us´eggel
Azaz p´eld´aul v´eletlen modell eset´en P (%2 − %2c ≤ .1) ≈ .72 . Teh´at v´eletlen modellt alkalmazva, a 68 elem˝ u minta alapj´an vett becsl´es hib´aja 72% val´osz´ın˝ us´eggel kisebb mint 1%.
3.3. A line´ aris regresszi´ o modell el˝ orejelz´ esi hib´ aja Ebben a fejezetben az el˝orejelz´esi hiba eloszl´as´at adjuk meg a line´aris regresszi´o y = Xβ + e fix modellje eset´en. A keresztvalid´aci´oval elv´enek megfelel˝oen a modellt nem a megfigyel´esek teljes (n elemsz´am´ u) halmaz´ara illesztj¨ uk, hanem csak az els˝o n´eh´any (ne db) megfigyel´esre, majd pedig a modellparam´eterre kapott becsl´est felhaszn´alva a modell illeszked´es´et ellen˝orizz¨ uk (a t¨obbi nv = n − ne db) megfigyel´esen u ´gy, hogy kisz´am´ıtjuk k´et u ´j (azaz k´et egym´ast´ol ´es az eddigiekt˝ol is f¨ uggetlen) megfigyel´es hibabecsl´es´enek a kovarianci´aj´at. Jel¨olje az y ´es az X els˝o ne sor´at ye ´es Xe , utols´o nv sor´at yv ´es Xv . Az els˝o ne db megfigyel´esre illesztett modell param´eter´enek becsl´ese a legkisebb n´egyzetek m´odszer´evel: βˆe = Xe (XeT Xe )−1 ye ∼ N (β, σ 2 (XeT Xe )−1 ). N´ezz¨ uk meg azt, hogy az ´ıgy kapott modell mennyire j´ol (mekkora hib´aval) tudja el˝orejelezni az u ´jabb (egym´ast´ol ´es az eddigi megfigyel´esekt˝ol is f¨ uggetlen) megfigyel´eseket, amit a 24
hibabecsl´esek kovarianci´aj´ab´ol tudunk meghat´arozni. Ha (yj , xj ) ´es (yk , xk ) k´et u ´j, a fenti modellnek megfelel˝o, f¨ uggetlen megfigyel´es (a megfelel˝o m´er´esek sor´an keletkezett ej ´es ek 0 v´arhat´o ´ert´ek˝ u v´eletlen hib´aval), akkor yj = xj β + ej ´es yk = xk β + ek , hiba n´elk¨ uli ´ert´ek¨ uknek, a rendelkez´esre ´all´o βˆe becsl´es alapj´an vett becsl´ese pedig: yˆj = xj βˆe ´es yˆk = xk βˆe . Teh´at az ezek alapj´an nyerhet˝o eˆj = y − yˆj , eˆk = y − yˆk hibabecsl´esek kovarianci´aja: cove (eˆj , eˆk ) = E((yj − yˆj )(yk − yˆk )) = E((yj − xj βˆe )(yk − xk βˆe )) Vonjunk ki ´es adjunk hozz´a az els˝o tagban xj β-t, a m´asodik tagban xk β-t, hogy egy n´egytag´ u o¨sszegg´e alak´ıthassuk, azt´an pedig sok minden kiessen: cove (eˆj , eˆk ) = E((yj − xj β + xj β − xj βˆe )(yk − xk β + xk β − xk βˆe )) = E((yj − xj β)(yk − xk β)) + E((yj − xj β)(xk β − xk βˆe ))+ + E((xj β − xj βˆe )(yk − xk β)) + E((xj β − xj βˆe )(xk β − xk βˆe )) Az els˝o tagban csak az yj ´es az yk f¨ ugg a v´eletlent˝ol. j = k eset´en az ´ert´eke σ 2 (mivel a megfelel˝o egyenlet hibatagj´anak varianci´aj´ar´ol van sz´o), j 6= k eset´en pedig a v´arhat´o ´ert´eket t´enyez˝onk´ent lehet sz´amolni, mivel yj ´es yk f¨ uggetlenek, s mivel mindk´et t´enyez˝oje 0 v´arhat´o ´ert´ek˝ u, ez´ert a szorzat v´arhat´o ´ert´eke is 0. A m´asodik tagban csak az yj ´es az βˆe f¨ ugg a v´eletlent˝ol. A v´arhat´o ´ert´eket itt is t´enyez˝onk´ent lehet sz´amolni, mivel yj ´es az βˆe a felt´etelek szerint f¨ uggetlenek egym´ast´ol. Mivel az els˝o t´enyez˝o v´arhat´o ´ert´eke 0, ez´ert a szorzat v´arhat´o ´ert´eke is 0. Mivel m´asodik ´es a harmadik tag szimmetrikus helyzet˝ uek, ez´ert ez a megfontol´as vonatkozik a harmadik tagra is. A negyedik tagban csak a βˆe f¨ ugg a v´eletlent˝ol, ´es ennek v´arhat´o ´ert´eke β, eloszl´as´anak varianci´aj´at pedig m´ar kor´abban fel´ırtuk. Ezeket figyelembe v´eve a negyedik tag ´ert´eke az ´atalak´ıt´asok ut´an: E[(xj β − xj βˆe )(xk β − xk βˆe )] = E[xj (β − βˆe )xk (β − βˆe )] = E(xj (β − βˆe )(β − βˆe )T xTk ) = xj E((β − βˆe )(β − βˆe )T )xTk = xj σ 2 (XeT Xe )−1 xTk 25
Mivel az els˝o h´arom tag ´ert´eke 0, ez´ert a becs¨ ult hib´ak kovarianci´aj´anak sz´am´ıt´as´an´al csak a negyedik tagnak van szerepe. Teh´at ha a k´et u ´jabb megfigyel´es hib´aj´anak becsl´es´et az (Ye , Xe ) adatok alapj´an nyert βˆe becsl´es alapj´an sz´amoljuk, akkor a becs¨ ult hib´ak kovarianci´aja: cove (eˆj , eˆk ) = σ 2 (δjk + xj (XeT Xe )−1 xTk ) Ha pedig a az utols´o nv megfigyel´es hib´aj´anak becsl´es´et az els˝o ne megfigyel´es alapj´an vett βˆe becsl´es alapj´an sz´amoljuk, akkor a hiba eloszl´asa: Yv − Xv βˆe ∼ N (0, σ 2 (I + Xv (XeT Xe )−1 XvT )). Itt az Iσ 2 az egyes megfigyel´esek hib´ainak felel meg, a σ 2 Xv (XeT Xe )−1 XvT sz´armazik a modell illeszt´es´eb˝ol.
3.4. V´ altoz´ oszelekci´ o keresztvalid´ aci´ oval Tekints¨ uk most ism´et a y = Xβ + e line´aris regresszi´o modellt, az el˝obbi jel¨ol´esnek megfelel˝oen. A β n´eh´any komponense struktur´alisan 0 lehet (azaz nem csak az esetlegesen becs¨ ult ´ert´eke alapj´an statisztikailag, hanem a t´enyleges ´ert´eke szerint is), ´ıgy a figyelembe v´etele csak feleslegesen bonyolultabb´a teszi a modellt. Kompaktabb´a szeretn´enk tenni a modellt az´altal, hogy elhagyjuk a β felesleges 0 komponenseit. Azt viszont nem tudhatjuk a line´aris regresszi´o elv´egz´ese el˝ott, hogy van-e a β komponensei k¨oz¨ott 0, ´es ha igen, mennyi, ez´ert ink´abb azt csin´aljuk, hogy az ¨osszes lehets´eges m´odon elhagyjuk az X ´es a β n´eh´any egym´asnak megfelel˝o komponens´et (teh´at a β komponensei k¨oz¨ott lehet nulla ´es nemnulla egyar´ant), ´es megn´ezz¨ uk a komponensek elhagy´as´anak a hat´as´at az eredm´eny¨ ul kapott modell teljes´ıtm´eny´ere n´ezve. Legyen egyes egy¨ utthat´ok elhagy´as´aval sz˝ uk´ıtett, kompaktabb´a tett modell alakja: y = Xα βα + e, ahol az α ⊆ {1, ..., p} egy dα elem˝ u index r´eszhalmaz. Mivel {1, ..., p}-nek 2p −1 db nem¨ ures r´eszhalmaza van, ez´ert elvileg 2p − 1 db r´eszmodell ´ep´ıthet˝o. Jel¨olje az {1, ..., p} halmaz hatv´anyhalmaz´at, vagyis a {1, ..., p} nem¨ ures r´eszhalmazainak a halmaz´at A. Jel¨olje az α ∈ A koordin´ata r´eszhalmazhoz tartoz´o modellt Mα . Az α sz´amoss´ag´at jel¨ol˝o dα sz´amot 26
pedig nevezz¨ uk az Mα modell dimenzi´oj´anak. Az el˝obbi jel¨ol´esrendszer anal´ogi´aj´ara legyen Pα = Xα (XαT Xα )−1 XαT (projekci´os m´atrix, az Xα k´epter´ere val´o vet´ıt´es); wiα : a Pα projekci´os m´atrix i-edik a´tl´oeleme; βˆα : a βα legkisebb n´egyzetek m´odszer´evel vett becsl´ese mind az n megfigyel´es figyelembe v´etel´evel ————– A c´el annak az α∗ -gal jel¨olt indexhalmaznak ´es a hozz´a tartoz´o M∗ modellnek a megtal´al´asa, amelyikre α∗ a β struktur´alisan nemnulla egy¨ utthat´oinak indexeib˝ol a´ll. Az Mα modellek az M∗ optim´alis modell szerint 2 kateg´ori´aba sorolhat´oak: • 1. kateg´oria:
az α∗ -nak legal´abb egy eleme nem α-beli
• 2. kateg´oria:
az α∗ mindegyik eleme α-beli
Az optim´alis modell nyilv´an II. kateg´ori´aj´ u, hiszen az I. kateg´ori´aj´ u modellek mindegyike hi´anyos. Ugyanakkor a II. kateg´ori´aban l´ev˝o modellek az optim´alist kiv´eve mind t´ ul b˝ovek. Teh´at az optim´alis modell II. kateg´ori´aj´ u, ugyanakkor a legkisebb dimenzi´oj´ u a II. kateg´ori´aj´ u modellek k¨oz¨ ul. ————– Ezt az optim´alis modellt keresztvalid´aci´oval szeretn´enk meghat´arozni. Ez´ert a keresztvalid´aci´o kor´abbiakban ismertetett elv´enek megfelel˝oen a rendelkez´esre ´all´o n elemsz´am´ u (y, X) adathalmazt k´et diszjunkt r´eszre bontjuk, az nc elemsz´am´ u K konstrukci´os halmazra ´es az nv elemsz´am´ u V valid´aci´os halmazra. Az Mα modellt a K konstrukci´os adatr´esz alapj´an illesztj¨ uk, a generaliz´aci´os hib´at pedig a V adatr´eszen sz´amoljuk, mintha azok a j¨ov˝obeli, azaz a zi ´ert´ekek voln´anak. A keresztvalid´aci´o azt az Mα modellt v´alasztja ki, amelyre a generaliz´aci´os hiba V valid´aci´os halmazon sz´amolt tapasztalati becsl´ese minim´alis. Mivel azonban a jelen feladatban a generaliz´aci´os hiba ´es a generaliz´aci´os hiba becsl´ese is f¨ ugg α ∈ A-t´ol, ez´ert egy´altal´an nem egy´ertelm˝ u az, hogy pontosan mit ´ert¨ unk itt generaliz´aci´os hiba ´es generaliz´aci´os hiba becsl´ese alatt. Ezt defini´aljuk a k¨ovetkez˝okben. Legyen βˆ az (yi , xi ) adatok alapj´an illesztett line´aris regresszi´os fix modell param´eter´enek becsl´ese, ´es legyen zi egy u ´jabb megfigyel´es az xi magyar´az´o ´ert´ekek mellett. Ekkor a zi ˆ a zi megfigyel´es v´arhat´o ´ert´eke pedig xi β. megfigyel´es el˝orejelz´ese a βˆ alapj´an xi β, 3.4.1. Defin´ıci´ o. Az (yi , xi ) adatok alapj´an illesztett line´aris regresszi´os fix modell generaliz´aci´os hib´aj´anak ASPE-becsl´ese (ASPE: average squared prediction error, ´atlagos 27
n´egyzetes predikci´os hiba) az ¨osszes megfigyel´esnek az el˝orejelzett ´ert´ek¨ ukt˝ol vett n´egyzetes hib´aj´anak az ´atlaga. K´eplettel: X ˆ = 1 ˆ2 ˆ ASP E (β) G (zi − xi β) n i . 3.4.2. Defin´ıci´ o. Az (yi , xi ) adatok alapj´an illesztett line´aris regresszi´os fix modell generaliz´aci´os hib´aj´anak CESPE-becsl´ese (CESPE: conditional expected squared prediction error, felt´eteles v´arhat´o n´egyzetes predikci´os hiba) az ¨osszes megfigyel´es v´arhat´o ´ert´ek´enek az el˝orejelzett ´ert´ek¨ ukt˝ol vett n´egyzetes hib´aj´anak az ´atlaga, figyelembe v´eve a megfigyel´esek ei hib´ainak a σ 2 varianci´aj´at is. K´eplettel: X ˆ = σ2 + 1 ˆ2 ˆ CESP E (β) G (xi β − xi β) n i Legyen ∆α,n = n1 (β T X T )M (Xβ) a becs¨ ult hiba. 3.4.3. Defin´ıci´ o. Az (yi , xi ) adatok alapj´an illesztett line´aris regresszi´os fix modell Γα,n ´atlagos generaliz´aci´os hib´aj´anak (felt´etel n´elk¨ uli teljes v´arhat´o n´egyzetes predikci´os hib´aj´anak, overall unconditional expected squared prediction error) a Γα,n = σ 2 +
1 2 σ dα + ∆α,n n
´ert´eket nevezz¨ uk. Az ´atlagos generaliz´aci´os hiba teh´at h´arom komponensb˝ol tev˝odik o¨ssze: a megfigyel´es hib´aj´ab´ol (σ 2 ), a modellv´alaszt´asb´ol sz´armaz´o bizonytalans´agb´ol ( n1 σ 2 dα ) ´es a becsl´esi hib´ab´ol (∆α,n = n1 (β T X T )M (Xβ)). A becsl´esi hib´ara, valamint az ´atlagos generaliz´aci´os hib´ara vonatkoz´oan az al´abbi mega´llap´ıt´asokat tehetj¨ uk: • Minden II. kateg´ori´aj´ u Mα modellre ∆α,n = 0 (´es ´ıgy Γα,n = σ 2 + n1 σ 2 dα ); • Minden I. kateg´ori´aj´ u Mα modellre ∆α,n > 0 ´es r¨ogz´ıtett p mellett teljes¨ ul az is, hogy a lim inf n→∞ ∆α,n > 0; • Ha az α-ra az Mα egy I. kateg´ori´aj´ u modell ´es a γ-ra az Mγ egy II. kateg´ori´aj´ u modell, akkor a generaliz´aci´os hib´ara teljes¨ ul, hogy
Γα,n Γγ,n
> 1 minden n-re, de ez a
h´anyados tetsz˝olegesen k¨ozel ker¨ ulhet 1-hez; • Ha limn→∞
Γα,n Γγ,n
= 1, akkor az Mα ´es az Mγ modellek k¨oz¨ott nincs k¨ ul¨onbs´eg a
predikci´os k´epess´eg tekintet´eben; 28
• A Γα,n /Γγ,n > 1 egyenl˝otlens´eg akkor ´es csak akkor igaz, ha lim inf n→∞ ∆α,n > 0. ————– Teh´at az K konstrukci´os halmazra illesztett Mα modellt most az V valid´aci´os halmazon ˆ ASP E generaliz´aci´os hiba seg´ıts´eg´evel: ki´ert´ekelj¨ uk a G
ˆ ASP E (βˆα ) = 1 y V − yˆK 2 = 1 G α nv nv
V −1 V Vˆ (I − Q ) (y − X β )
α α α
ˆ ASP E ´ert´ekeknek a V Egy Mα modellre a Γα,n a´tlagos generaliz´aci´os hiba becsl´ese a G valid´aci´os halmaz nv m´eret˝ u ¨osszes (esetleg csak n´emelyik) r´eszhalmaz´an vett a´tlaga. A keresztvalid´aci´o ´altal kiv´alasztott modell pedig az az Mα modell lesz, amelyre ez a hibabecsl´es minim´alis az α ∈ A indexek k¨oz¨ ul. Ezt a m´odszert ‘leave-nv -out cross validation’-nek nevezz¨ uk ´es CV (nv )-vel r¨ovid´ıtj¨ uk. A k¨ovetkez˝okben e m´odszer h´arom v´altozat´at mutatjuk be, a v´eg´en pedig szimul´aci´oval tapasztalatilag is megvizsg´aljuk, hogy e m´odszerek v´altozatai milyen j´ol teljes´ıtenek az optim´alis modell megtal´al´asa tekintet´eben. ————–
3.4.1. A CV (1) m´ odszer A CV (nv ) v´altozatai k¨oz¨ ul a legegyszer˝ ubb az az eset, amikor a valid´aci´ora egyetlen megfigyel´est tartunk fenn (vagyis nv ≡ 1). Ezt CV (1)-gyel jel¨olj¨ uk (l´asd 1.2.1. fejezet). ˆ ASP E Teh´at egy Mα modellre a Γα,n a´tlagos generaliz´aci´os hiba CV (1)-becsl´ese a G ´ert´ekeknek a V valid´aci´os halmaz ¨osszes egyelem˝ u r´eszhalmaz´an vett ´atlaga. A defin´ıci´o alapj´an az o¨sszef¨ ugg´esek felhaszn´al´as´aval a sz´am´ıt´asok elv´egz´ese ut´an Γα,n -re ezt a k´epletet kapjuk: 1X ˆ CV Γ [(1 − wiα )−1 (yi − xTiα βˆα )]2 . α,n = n i Bel´athat´o, hogy a ∀α ∈ A limn→∞ maxi≥n wiα = 0 felt´etel mellett Γα,n + op (1) ha Mα I. kateg´ori´aj´ u; ˆ CV Γ = α,n 1 eT e + 2 σ 2 d − 1 eT P e + o ( 1 ) ha M II. kateg´ori´aj´ u. n
n
α
n
α
p n
α
Ebb˝ol k¨ozvetlen¨ ul l´athat´o, hogy ˆ CV konzisztens becsl´ese Γα,n -nak; • Mivel n1 eT e → σ 2 majdnem biztosan, a Γ α,n • Ha Mα II. kateg´ori´aj´ u, akkor Γα,n → σ 2 ; 29
• Ha n → ∞, akkor 0-hoz tart annak a val´osz´ın˝ us´ege, hogy a CV (1) m´odszer ´altal v´alasztott modell I. kateg´ori´aj´ u; • Ha n → ∞ ´es az M∗ optim´alis modell nem p m´eret˝ u, akkor nem tart az 1hez annak a val´osz´ın˝ us´ege, hogy a CV (1) m´odszer ´altal v´alasztott modell az M∗ optim´alis modell lesz (vagyis a CV (1) aszimptotikusan helytelen); • Ha az el˝obbi felt´etel fenn´all ´es e ∼ N (0, σ 2 In ), akkor annak a val´osz´ın˝ us´ege, hogy a CV (1) m´odszer M∗ helyett ink´abb az Mα modellt v´alasztja: P(2k < χ2 (k))+o(1), ahol k = dα − dα∗ . Nyilv´anval´oan P(2k < χ2 (k)) 6= 0 b´armely k ≥ 1-re. Az utols´o pontb´ol k¨ovetkezik a CV (1) m´odszernek az a tulajdons´aga, hogy ha az optim´alis modell nem p m´eret˝ u, akkor a CV (1) hajlamos ann´al b˝ovebb modellt v´alasztani. Ez´ert a CV (1) m´odszert konzervat´ıvnak nevezz¨ uk. Az aszimptotikus helytelens´eg azzal magyar´azhat´o, hogy a CV (1) m´odszer nem k´epes megk¨ ul¨onb¨oztetni a II. kateg´ori´aj´ u modelleket, ami pedig annak a k¨ovetkezm´enye, hogy m´ıg a II. kateg´ori´aj´ u modellekn´el a modelleket megk¨ ul¨onb¨oztet˝o kifejez´esben a hibatag a m´asik taggal azonos nagys´agrend˝ u, addig ugyanez az I. kateg´ori´aj´ u modellekn´el kisebb nagys´agrend˝ u.
3.4.2. A BICV (nv ) m´ odszer Az el˝oz˝o fejezetben l´attuk, hogy a CV (1) m´odszer aszimptotikusan helytelen ´es konzervat´ıv. A CV (1) m´odszernek ez a hi´anyoss´aga kijav´ıthat´o azzal, hogy nagy valid´aci´os halmazt haszn´alunk (vagyis nv m´erete nagy ´es nc m´erete viszonylag kicsi). Az eddigiekben a valid´aci´ot elv´egezt¨ uk a valid´aci´os halmaz mind az nnv db r´eszhalmaz´ara. Azonban ha n → ∞, akkor ennek az elv´egz´ese igencsak sz´am´ıt´asig´enyes. Ehelyett keres¨ unk egy olyan m´odszert, ami a gyakorlatban is alkalmazhat´o nagyon nagy m´eret˝ u valid´aci´os halmaz eset´en is. 3.4.4. Defin´ıci´ o. V´alasszunk ki az {1, ..., n} halmazb´ol b db olyan nv elem˝ u r´eszhalmazt, amelyre a k¨ovetkez˝o ”egyens´ ulyi” felt´etelek ´erv´enyesek: a) minden i ∈ {1, ..., n} ugyanannyi B-beli halmaznak az eleme; b) minden (i, j) ∈ {1, ..., n}2 p´ar ugyanannyi B-beli halmazban szerepel egyszerre. Az egyens´ ulyi felt´eteleknek eleget tev˝o halmazok halmaz´at jel¨olj¨ uk B-vel. V´alasszuk azt a modellt, amelyre a
1 X ˆ BICV
y V − yˆαK 2 Γ = α,n nv b V∈B
30
minim´alis. Az ´ıgy meghat´arozott B halmaz szerinti keresztvalid´aci´os becsl´est BICV (nv ) m´odszernek (Balanced Incomplete CV (nv ) Method) nevezz¨ uk ´es BICV (nv )-vel jel¨olj¨ uk.
BICV (nv ) eset´en teh´at a Γα,n becsl´ese teh´at a B minden nv elemsz´am´ u r´eszhalmaz´ara ˆ ASP E -´ert´ek a´tlaga. A gyakorlatban u kisz´amolt b darab G ´gy v´alasztjuk a B halmazt, hogy b az n line´aris f¨ uggv´enye, azaz b = O(n) legyen. ————– A k¨ovetkez˝o eredm´eny azt mutatja, hogy a BICV (nv ) m´odszer eredm´enye aszimptotikusan helyes, ha nc → ∞ ´es
nv n
→ 1.
3.4.5. T´ etel. Ha a ∆α,n aszimptotikusan sem nulla, ´es a tervm´atrixb´ol sz´amolt kovariancia ´es annak inverze v´eges ´es a saj´at´ert´ekei sem tartanak null´ahoz, tov´abb´a teljes¨ ul, hogy a konstrukci´os ´es a valid´aci´os magyar´az´o v´altoz´ok viselked´ese az al´abbi ´ertelemben hasonl´o,
1 X
X 1
lim max xi xTi − xi xTi = 0 . n→∞ V∈B nv
n c i∈V i∈K ´es ha az nv -t u ´gy v´alasztjuk meg, hogy a
nv n
→ 1 ´es a nc → ∞ teljes¨ ulj¨on,
akkor igaz, hogy: a) ha az Mα I. kateg´ori´aj´ u, akkor l´etezik olyan Rn ≥ 0, hogy ˆ BICV = 1 eT e + ∆α,n + op (1) + Rn Γ α,n n ; b) ha az Mα II. kateg´ori´aj´ u, akkor ˆ BICV = 1 eT e + n−1 dα σ 2 + op (n−1 ) Γ α,n v c n ; c) ha n → ∞, akkor 1-hez tart annak a val´osz´ın˝ us´ege, hogy a kiv´alasztott modell optim´alis. ————– Most magyar´azatot adunk arra, hogy a BICV (nv ) mi´ert jav´ıt a CV (1)-en ´es hogy az nc -t ´es az nv -t mi´ert a fenti felt´eteleknek megfelel˝oen kell v´alasztani. Az nc → ∞ felt´etelre a modellilleszt´es konzisztenci´aj´anak biztos´ıt´asa miatt van sz¨ uks´eg, ez viszont m´eg nem ad semmilyen inform´aci´ot az nc ´es az nv relat´ıv ar´anyra 31
vonatkoz´oan. Nagy nc -t m´egsem ´erdemes haszn´alni, amit a k¨ovetkez˝ok´eppen indoklunk meg: egyr´eszt, ha nc -t nagynak v´alasztjuk, akkor a II. kateg´ori´aj´ u modellek eset´en a Γα,nc = σ 2 +
1 2 σ dα nc
optimaliz´aland´o c´elf¨ uggv´eny lapos, ´es ez´ert neh´ez megtal´alni a Γα,nc minimum´at, m´asr´eszt pedig, min´el t¨obb adatot haszn´alunk ak´ar a modellilleszt´esn´el, ak´ar a valid´aci´on´al, ann´al pontosabb eredm´enyt kapunk. A modellilleszt´esn´el viszont nincs sz¨ uks´eg nagy pontoss´agra, hiszen az illeszt´es ut´an a kiv´alasztott modellt el˝orejelz´esi c´elb´ol u ´gyis u ´jraillesztj¨ uk a teljes adathalmazon, a valid´aci´on´al viszont ahhoz, hogy megb´ızhat´o eredm´enyt kapjunk, a generaliz´aci´os hib´at pontosan kell tudni ´ert´ekelni. Ez´ert ´erdemes nagy nv -t ´es viszonylag kicsi nc -t v´alasztani. De o¨nmag´aban az sem el´eg, ha nagy nv -t ´es viszonylag kis nc -t haszn´alunk, az is sz¨ uks´eges, hogy
nv n
→ 1 legyen. Ha
nv n
nem tart 1-hez, akkor ugyanaz a probl´ema fordul el˝o,
mint CV (1) eset´en: a m´odszer inkonzisztens lesz, vagyis nem k´epes megk¨ ul¨onb¨oztetni a II. kateg´ori´aj´ u modelleket, azaz a II. kateg´ori´aj´ u modellekn´el a modelleket megk¨ ul¨onb¨oztet˝o kifejez´esben a hibatag a t¨obbi taggal azonos nagys´agrend˝ u. Bizonyos algebrai sz´amol´asok elv´egz´ese ut´an azt kapjuk, hogy a II. kateg´ori´aj´ u Mα modellek eset´en 1 1 ˆ BICV Γ = eT e + dα σ 2 + εα,n , α,n n nc ahol a hibatag εα,n Ha
nv n
(1 + nc )dα σ 2 1 = − eT Pα e + op nc (n − 1) n 1 2 σ dα tag nc 1 2 σ dα tagn´al, nc
6→ 1, akkor a εα,n hibatag ´es a
csak akkor kisebb nagys´agrend˝ ua
1 nc
.
azonos nagys´agrend˝ u, Az εα,n hibatag ha
nc n
→ 0, vagyis ha
nv n
→ 1.
ˆ CV a Γα,n−1 -nek a becsl´ese, V´egezet¨ ul nem szabad megfeledkezn¨ unk arr´ol sem, hogy Γ α,n nem pedig Γα,n -nek, mivel CV (1) az ´atlagos generaliz´aci´os hib´at egy n − 1 m´eret˝ u minta ˆ BICV a Γα,nc -nek a becsl´ese, nem pedig Γα,n -nek, alapj´an becsli meg. Hasonl´ok´eppen Γ α,n
mivel BICV (nv ) az a´tlagos generaliz´aci´os hib´at nc m´eret˝ u mint´ak alapj´an becsli meg. Csakhogy am´ıg CV (1) eset´en a Γα,n−1 ´es Γα,n k¨ozti k¨ ul¨onbs´eg aszimptotikusan elhanyagolhat´o, addig BICV (nv ) eset´en a Γα,nc ´es Γα,n k¨ozti k¨ ul¨onbs´eg csak pontosan akkor nem elhanyagolhat´o, ha az
nc n
nem tart 1-hez.
3.4.3. M´ as CV (nv ) m´ odszerek L´athattuk, hogy a BICV (nv ) kijav´ıtja a CV (1) hi´anyoss´agait, jobb eredm´enyeket ad. Ez´ert sokszor c´elszer˝ u (volna) haszn´alni. Azonban ehhez sz¨ uks´eg van az egyens´ ulyi felt´ete32
leknek eleget tev˝o B halmazra. Ilyen B el˝o´all´ıt´asa alkalmank´ent neh´ezkes, t´ ul nagy elemsz´am´ u, vagy ´eppen a rendelkez´esre a´ll´o tulajdons´agai ok´an nem indokolhat´o a haszn´alata. Ez´ert k´et olyan alternat´ıv´at mutatunk, amelyn´el ilyen kiegyens´ ulyozott B halmazra nincs sz¨ uks´eg. Monte Carlo CV (nv ) m´ odszer 3.4.6. Defin´ıci´ o. V´alasszunk ki v´eletlenszer˝ uen (visszatev´essel vagy visszatev´es n´elk¨ ul) b db nv m´eret˝ u r´eszhalmazt az {1, ..., n} halmazb´ol ´es ezen halmazok halmaz´at jel¨olj¨ uk R-rel. V´alasszuk azt a modellt, amelyre a
1 X CCV ˆM
y V − yˆαK 2 = Γ α,n nv b V∈R minim´alis. Az ´ıgy meghat´arozott R halmaz szerinti CV-becsl´est Monte Carlo-m´odszernek nevezz¨ uk ´es M CCV (nv )-vel jel¨olj¨ uk. M´as szavakkal ez a konstrukci´o azt jelenti, hogy az adathalmazt b-szer v´eletlenszer˝ uen felosztjuk nv m´eret˝ u r´eszhalmazokra ´es a feloszt´asokra vessz¨ uk a generaliz´aci´os hiba becsl´eseinek ´atlag´at. A M CCV (nv ) m´odszer teh´at csak abban k¨ ul¨onb¨ozik a BICV (nv ) m´odszert˝ol, hogy m´ıg a BICV (nv ) m´odszern´el a valid´aci´os mintar´eszeket tartalmaz´o halmazt j´ol meghat´arozott egyens´ ulyi felt´etelek szerint v´alasztjuk ki, addig az M CCV (nv ) m´odszern´el v´eletlenszer˝ uen. Ezen m´odszert vizsg´alva a 3.4.6. t´etelhez nagyon hasonl´o eredm´enyeket kapunk: 1-hez tart annak a val´osz´ın˝ us´ege, hogy a kiv´alasztott modell optim´alis, azzal a felt´etellel, hogy ha n → ∞, akkor a
n2 bn2c
→ 0. De mint l´athat´o, e sz¨ uks´eges felt´etel megszor´ıt´asokat r´o a
b-re ´es az nc -re is: min´el kevesebb adatot haszn´alunk fel a modellilleszt´eshez (nc ), ann´al t¨obb feloszt´asra van sz¨ uks´eg (b). Approxim´ alt CV (nv ) m´ odszer 3.4.7. Defin´ıci´ o. V´alasszuk azt a modellt, amelyre a
2 1 n + nc X
AP CV ˆ ˆ wiα (yi − xi,α βˆα )2 Γα,n = y − Xα βα + n nc (n − 1) i mennyis´eg minim´alis. A Γα,n ez ut´obbi formula szerinti keresztvalid´aci´os becsl´es´et approxim´alt CV-m´odszernek nevezz¨ uk ´es AP CV (nv )-vel jel¨olj¨ uk.. CV ˆ AP ˆ BICV Bel´athat´o, hogy Γ = Γ abban a speci´alis esetben, ha a konstrukci´os ´es a vaα,n α,n
lid´aci´os adatr´esz kovarianciam´atrixa egyenl˝o minden V ∈ B-re, vagyis 1 X 1 X xi xTi = xi xTi . nv i∈V nc i∈K 33
ˆ BICV -t helyettes´ıtj¨ ˆ AP CV -vel, akkor a t´etel eredm´enyei is telHa a 3.4.6. t´etelben a Γ uk Γ α,n α,n jes¨ ulnek, felt´eve, hogy a t´etel felt´etelei fenn´allnak. Az AP CV (analitikusan approxim´alt CV) n´ev onnan sz´armazik, hogy a keresztvalid´aci´os hiba norm´alis esetben ´erv´enyes ekvivalens alakj´at a´ltal´anos´ıtottuk a nemnorm´alis eloszl´asok eset´ere is. Megjegyz´esek: • Az AP CV el˝onye, hogy konzisztens ´es kevesebb sz´am´ıt´ast ig´enyel, mint a BICV vagy az M CCV . • Az AP CV h´atr´anya, hogy a line´aris modellekr˝ol nem k¨onnyen a´ltal´anos´ıthat´o m´as modellekre. • Az AP CV teljes´ıtm´enye kev´esb´e j´o, mint az M CCV -´e, ami azt jelzi, hogy a j´o teljes´ıtm´enyhez az AP CV -nek nagyobb n-et ig´enyel, mint az M CCV . Ez a 3.4.4. fejezetben elv´egzett szimul´aci´ob´ol is kider¨ ul.
3.4.4. Szimul´ aci´ o Az eddigiek interpret´al´as´ara y = Xβ + e line´aris regresszi´os modellhez elv´egz¨ unk egy szimul´aci´ot p = 5, n = 40, nv = 25, nc = 15 param´eterekkel, vagyis tekintj¨ uk ezt: yi = β1 x1i + β2 x2i + β3 x3i + β4 x4i + β5 x5i , ahol i = 1, ..., 40, a hibatagra: ei ∼ N (0, 1), az xki magyar´az´o v´altoz´okra: x1i ≡ 1, a t¨obbit (k = 2, ..., 5, i = 1, ..., 40) pedig a k¨ovetkez˝o t´abl´azatb´ol vessz¨ uk:
34
x2
x3
x4
x5
.3600
.5300
1.0600
.5326
1.3200
2.5200
5.7400
3.6183
.0600
.0900
.2700
.2594
.1600
.4100
.8300
1.0346
.0100
.0200
.0700
.0381
.0200
.0700
.0700
.3440
.5600
.6200
2.1200
1.4559
.9800
1.0600
2.8900
4.0182
.3200
.2000
.7600
.4600
.0100
.0000
.0700
.1540
.1500
.2500
.5000
.6516
.2400
.2800
.5900
.0611
.1100
.3500
.4000
.1922
.0800
.1300
.2800
.0931
.6100
.8500
.4900
.0538
.0300
.0300
.2300
.0199
.0600
.1100
.5000
.0419
.0200
.0800
.2500
.1093
.0400
.2400
.0800
.0328
.0000
.0200
.0400
.0797
.0900
.1800
.5900
.1855
.0200
.1600
.2400
.1572
.0200
.1100
.2100
.0998
.0500
.2400
.4300
.2804
.1100
.3900
.2900
.2879
.1800
.1100
.4300
.6810
.0400
.0900
.2300
.3242
.8500
1.3300
2.7000
2.6013
.1700
.3200
.6600
.4469
.0800
.1200
.4900
.2436
.3800
.1800
.4900
.4400
.1100
.1300
.1800
.3351
.3900
.3800
.9900
1.3979
.4300
.4600
1.4700
2.0138
.5700
1.1600
1.8200
1.9356
.1300
.0300
.0800
.1050
35
.0400
.0500
.1400
.2207
.1300
.1800
.2800
.0180
.2000
.9500
.4100
.1017
.0700
.0600
.1800
.096
Mivel az eg´esz fejezetben azt vizsg´aljuk, hogy mely magyar´az´o v´altoz´ok hagyhat´ok el (ekkor a megfelel˝o βk ´ert´eke 0), ez´ert most az {x1 , ..., x5 } magyar´az´o v´altoz´ok k¨oz¨ ul n´eh´any lehets´eges m´odon kiv´alasztott r´eszhalmazra h´arom k¨ ul¨onb¨oz˝o keresztvalid´aci´os m´odszerrel elv´egezz¨ uk a modellilleszt´est, ezek k¨oz¨ ul a legjobb predikci´os k´epess´eg˝ u modellt v´alasztjuk ki, ´es megn´ezz¨ uk, hogy ez a modell optim´alis-e. A h´arom haszn´alt m´odszer: CV (1), M CCV (nv ) (ahol b = 2n a CV-ism´etl´esek sz´ama) ´es AP CV (nv ). 1000 szimul´aci´o alapj´an az al´abbi t´abl´azat megadja a k¨ ul¨onb¨oz˝o esetekben mindegyik modell kiv´alaszt´as´anak a tapasztalati val´osz´ın˝ us´egeit.
beta = (2, 0, 0, 4, 0)
=(2, 0, 0, 4, 8)
=(2, 9, 0, 4, 8)
CV
MCCV
APCV
Optimal .484
.934
.501
1, 2, 4
II .133
.025
.116
1, 3, 4
II .127
.026
.085
1, 4, 5
II .138
.012
.172
1, 2, 3, 4
II .049
.000
.038
1, 2, 4, 5
II .029
.001
.039
1, 3, 4, 5
II .030
.002
.037
1, 2, 3, 4, 5
II .009
.000
.012
Optimal .641
.947
.651
1, 2, 4, 5
II .158
.032
.161
1, 3, 4, 5
II .138
.020
.131
1, 2, 3, 4, 5
II .063
.001
.057
I .005
.016
.000
1, 2, 4, 5
Optimal .801
.965
.818
1, 3, 4, 5
I .005
.002
.000
II .189
.017
.182
1, 2, 3, 5
I .000
.002
.000
1, 2, 4, 5
I .000
.005
.000
1, 4
1, 4, 5
1, 4, 5
1, 2, 3, 4, 5 =(2, 9, 6, 4, 8)
36
1, 3, 4, 5
I .015
.045
.001
1, 2, 3, 4, 5 Optimal .985
.948
.999
3.4.5. A szimul´ aci´ o´ ertelmez´ ese 1. Az optim´alis modell kiv´alaszt´as´anak a val´osz´ın˝ us´ege az M CCV eset´en a legnagyobb (kiv´eve azt az esetet, amikor a legnagyobb modell az optim´alis) ´es az AP CV mindegyik esetben enyh´en jobban teljes´ıt a CV (1)-n´el. 2. I. kateg´ori´aj´ u (vagyis helytelen) modell kiv´alaszt´as´anak a val´osz´ın˝ us´ege mindegyik m´odszer mindegyik eset´eben elhanyagolhat´o. 3. A v´arakoz´asnak megfelel˝oen a CV (1) feleslegesen nagy modelleket hajlamos kiv´alasztani. Az optim´alis modell kiv´alaszt´as´anak a val´osz´ın˝ us´ege az CV (1) eset´en nagyon alacsony (kisebb 0.5-n´el). A β-nak min´el t¨obb nulla komponense van, ann´al rosszabb a CV (1) teljes´ıtm´enye. M´asfel˝ol, az M CCV teljes´ıtm´enye stabil ´es a CV (1)´en´el sokkal jobb minden olyan esetben, amikor az optim´alis modell nem a legnagyobb modell. 4. Az AP CV teljes´ıtm´enye csak enyh´en jobb a CV (1)-´en´el annak ellen´ere, hogy az AP CV konzisztens, a CV (1) pedig inkonzisztens. Ez azt jelzi, hogy a j´o teljes´ıtm´enyhez az AP CV nagyobb mintam´eretet ig´enyelhet, mint az M CCV .
37
Irodalomjegyz´ ek [1] J. Larsen C. Goutte, On Optimal Data Split for Generalization and Estimation and Model Selection, IEEE-SigProc 1999, pp. 225-234. [2] J. Shao, Linear Model Selection by Cross-Validation, Journal of the American Statistical Association, Vol. 88, No. 422 (Jun., 1993), pp. 486-494. [3] B. Efron and G. Gong A Leisurely Look at the Bootstrap, the Jackknife, and CrossValidation, TAS, Vol. 37, No. 1 (Feb., 1983), pp. 36-48. [4] R. R. Picard and K. N. Berk Data Splitting, TAS, Vol. 44, No. 2 (May, 1990), pp. 140-147. [5] B. Efron and R. Tibshirani Improvements on Cross-Validation: The .632+ Bootstrap Method, JASA, Vol. 92, No. 438 (Jun., 1997), pp. 548-560. [6] B. M. Stone Cross-Validatory Choice and Assessment of Statistical Predictions, J. of Roy. Stat. Soc. Ser. B (Methodological), Vol. 36, No. 2(1974), pp. 111-147. [7] Pr¨ohle Tam´as, Cross-valid´aci´o ´es szimul´aci´o ..., K´ezirat, 2014 [8] Colin N. Park and Arthur L. Dudycha A Cross-Validation Approach to Sample Size Determination for Regression Models Journal of the American Statistical Association, Vol. 69, No. 345 (Mar., 1974), pp. 214-218.
38