Statisztikai modellek értékelő

E¨ otv¨ os Lor´ and Tudom´ anyegyetem Term´ eszettudom´ anyi Kar

Statisztikai modellek ´ ert´ ekel˝ o elj´ ar´ asai Szakdolgozat

Kész´ıtette: Kovács Gergely Matematika BSc, Matematikai elemz˝o szakirány

Témavezet˝o: Pr˝ohle Tamás Matematikai Intézet Val´ osz´ın˝ uségelméleti és Statisztika Tanszék

Budapest 2015

K¨ osz¨ onetnyilv´ an´ıt´ as Soha ki nem fogyó hálás köszönettel tartozom édesanyámnak, aki félt˝o szeretetével és gondoskodásával mindenben támogatott, biztatott és ha kellett, noszogatott, valamint témavezet˝omnek, Pr˝ohle Tamásnak, akihez bármikor be tudtam menni, mindig volt hozzám egy jó szava és aki szakmailag és emberileg is mindent megtett azért, hogy ez a szakdolgozat siker¨ uljön.

ii

Tartalomjegyz´ ek C´ımlap

i

K¨ osz¨ onetnyilv´ an´ıt´ as

ii

Tartalomjegyz´ ek

ii

Bevezet´ es

1

1. Modellv´ alaszt´ as

3

1.1. A modellválasztás lehetséges módszerei . . . . . . . . . . . . . . . . . . . .

3

1.2. A keresztvalidációs módszerek fajtái . . . . . . . . . . . . . . . . . . . . . .

4

1.2.1. Leave-one-out Cross-Validation ’egyet hagyj ki’, LOO, CV(1) . . . . . . . . . . . . . . . . . . . . .

5

1.2.2. Hold Out Cross-Validation ’vedd ki’, HO, CV (nv ) . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.2.3. K-fold Cross-Validation ’K-szoros’, KCV, KCV (k) . . . . . . . . . . . . . . . . . . . . . . .

5

1.2.4. Monte Carlo Cross-Validation, MCCV, M CCV (nv ) . . . . . . . . .

6

1.2.5. Balanced Incomplete Cross-Validation ’kiegyens´ ulyozott nemteljes’, BICV, BICV (nv ) . . . . . . . . . . .

6

1.3. A keresztvalidációs módszer szerinti modell választás menete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Modellv´ alaszt´ as keresztvalid´ aci´ oval ´ altal´ anosan

7 8

2.1. Modellválasztás menete általánosan . . . . . . . . . . . . . . . . . . . . . .

8

2.2. Az optimális felosztási hányados meghatározása keresztvalidációval . . . .

9

2.2.1. A HO-módszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2. A KCV -módszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3. Az MCCV-módszer . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. Szimulációk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.1. 1. szimuláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 iii

2.3.2. 2. szimuláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4. A szimulációk értelmezése . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1. 1. szimuláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.2. 2. szimuláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3. Modellv´ alaszt´ as keresztvalid´ aci´ oval line´ aris regresszi´ o eset´ en

17

3.1. Modellválasztás menete a lineáris regresszió fix és véletlen modellje esetén . 17 3.2. Mintaméret meghatározása . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.1. Néhány eloszlás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.2. A regressziós modell mintanagyságának elméleti meghatározása a korreláció f¨ uggvényében . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.3. A regressziós modell mintanagyságának gyakorlati meghatározása táblázattal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3. A lineáris regresszió modell el˝orejelzési hibája . . . . . . . . . . . . . . . . 24 3.4. Változószelekció keresztvalidációval . . . . . . . . . . . . . . . . . . . . . . 26 3.4.1. A CV (1) módszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.4.2. A BICV (nv ) módszer . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4.3. Más CV (nv ) módszerek . . . . . . . . . . . . . . . . . . . . . . . . 32 3.4.4. Szimuláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4.5. A szimuláció értelmezése . . . . . . . . . . . . . . . . . . . . . . . . 37 Irodalomjegyz´ ek

38

iv

Bevezet˝ o A természet és a társadalom jelenségeinek vizsgálata során a kutató szeretné megérteni a jelenségek mögött megh´ uzódó okokat és o¨sszef¨ uggéseket, ezért ennek érdekében megfigyeléseket végez és azokról adatokat gy˝ ujt. A valóságot azonban nem tudjuk azt felfogni, megragadni u ´gy, ahogy van, ezért modellek seg´ıtségével igyeksz¨ unk azt értelmezni. Egy modell funkciója, hogy seg´ıtsen megmagyarázni egy rendszert, tanulmányozni a k¨ ulönböz˝o komponenseinek a hatásait és el˝orejelzéseket tenni a viselkedésére. A modellben megjelen˝o mennyiségeket változókra és paraméterekre oszthatjuk. A modell változói azok a mennyiségek, amelyek f¨ uggetlen¨ ul mérhet˝ok egy k´ısérletben. Egy modellt azért tervez¨ unk, hogy megmagyarázzuk a változók közti kapcsolatokat. A modell paraméterei olyan állandók, amelyek a természet valamilyen inherens tulajdonságait jelölik. A modellezés során az adatokat predikciós f¨ uggvények seg´ıtségével modellezz¨ uk, az ismeretlen modellparamétereket pedig az adatokból becs¨ ulj¨ uk. Az adatok változókból állnak. A változók t´ıpusai: magyarázó (f¨ uggetlen) és magyarázandó (f¨ ugg˝o) változók. A f¨ uggetlen változók az inputokat/okokat jelen´ıtik meg, vagy pedig az ker¨ ul megvizsgálásra, hogy a tényleges okok megegyeznek-e a feltételezett okokkal. A f¨ ugg˝o változó az outputot/hatást jelen´ıti meg, vagy pedig az ker¨ ul megvizsgálásra, hogy a tényleges hatás megegyezik-e a feltételezett hatással. A modellezés célja annak vizsgálata, hogy a f¨ uggetlen változók variálásával a f¨ ugg˝o változó is variálódik-e, és ha igen, hogyan és milyen mértékben. Egy modell helyességét a legjobban u ´gy lehet mérni, hogy mennyire jól tudja megmagyarázni a már ismert jelenségeket (milyen magyarázó ereje van), illetve hogy mennyire jól tudja megjósolni a még ismeretlen jelenségeket (milyen predikciós ereje van). Ha egy modell jó, akkor a predikciós érték ”közel” van a tényleges értékhez. A predikciós és a tényleges érték közti k¨ ulönbség a predikciós hiba. A predikciós hibát u ´gy értelmezhetj¨ uk, hogy ez a f¨ ugg˝o változónak a f¨ uggetlen változó a´ltal nem megmagyarázott változékonysága. Egy adott jelenséget a´ltalában nagyon sokféle modellen kereszt¨ ul lehet vizsgálni, amelyek eltérnek egymástól bonyolultságban és pontosságban, ezért a modellválasztás a tudományos vizsgálódás egyik alapvet˝o feladata.

1

A modellválasztás 2 fázisból a´ll: Az els˝o fázisban a kutató a számtalan szóba jöv˝o, lehetséges modell köz¨ ul kiválaszt néhányat, gyakran a háttérismeretére, el˝ozetes tudására, intu´ıciójára támaszkodva, esetleg figyelembe véve egyéb szempontokat is (pl. a t´ ulzott bonyolultság ker¨ uléséért polinomokat használ fel, bár tudja, hogy nem az a legpontosabb). Az els˝o fázis során a kutató a´ltal kiválasztott modelleket jelöltmodelleknek (candidate model) nevezz¨ uk. A második fázisban pedig a statisztikai elemzésre hárul az a feladat, hogy a jelöltmodelleket értékelje, egymással o¨sszehasonl´ıtsa, hatékonyságukat és az illeszkedés jóságát minél pontosabban mérje, annak érdekében, hogy a kutató ki tudja választani a jelöltmodellek köz¨ ul a szándéka és a tudományos vizsgálat szempontjai szerint ’legjobb’ modellt (vagyis azt, amelyik a legjobban le´ırja és megmagyarázza a kutató a´ltal vizsgált jelenséget).

2

1. fejezet Modellv´ alaszt´ as

1.1. A modellv´ alaszt´ as lehets´ eges m´ odszerei A modellválasztás problémája tehát azzal a kérdéskörrel foglalkozik, hogy egy jelenség megmagyarázásának céljából összegy˝ ujtött adatokra illeszthet˝o számtalan statisztikai modell köz¨ ul melyik a ’legjobb’, amelyet a kutatónak érdemes kiválasztania, hogy azzal modellezze az adott jelenséget. E problémának a fontosságát jól mutatja az a tény, hogy milyen sokféle módszert dolgoztak ki a ’legjobb’ modell fogalmának a pontos meghatározására és a modellválasztás megkönny´ıtésére. Ilyen módszerek például: Akaike információs kritérium (AIC), Bayes információs kritérium (BIC), Mallows Cp , kh´ı-négyzet teszt, az F teszt hierarchikus modellekre, minden modell értékelése (exhaustive search), lépésenkénti módszer (stepwise), a vissz- vagy el˝orelép˝o modell választó módszer, keresztvalidáció, Bayes-faktor, Bayes-féle modell a´tlagolás stb. Például az Akaike információs kritériumon alapuló modellválasztási módszer egy statisztikai modell min˝oségét az o¨sszes többi modellhez viszony´ıtva becsli meg. Viszont amikor a modellezés célja az el˝orejelzés, vagyis meg akarják becs¨ ulni azt, hogy egy predikt´ıv modell a gyakorlatban milyen pontosan fog m˝ uködni, akkor el˝onyösebb validációs halmazon alapuló modellválasztási módszert használni. Mivel a még le nem zajlott jelenségekr˝ol szóló megfigyelések nem állnak rendelkezésre, ezért jön az az o¨tlet, hogy a rendelkezésre a´lló megfigyelések egy részét tekints¨ uk u ´gy, mintha jöv˝obeli megfigyelések volnának és vizsgáljuk meg, hogy a többi megfigyelésre illesztett modell mennyire jól képes el˝orejelezni ezeket a jöv˝obelinek tekintett megfigyeléseket, vagyis értékelj¨ uk a modell teljes´ıtményét. A modellválasztás validációs halmazon alapuló megközel´ıtése (validation set approach, VSA) tehát nem a modelleket viszony´ıtja egymáshoz, hanem az adathalmazt (a megfi3

gyelések halmazát) valamilyen módszer szerint két részre osztja fel: a konstrukciós halmazra (construction set/training set) és a validációs halmazra (validation set). A konstrukciós halmazra illesztj¨ uk a modellt, majd pedig ezt az illesztett modellt a validációs halmazban lév˝o megfigyelések el˝orejelzésére (predikciójára) használjuk fel. A validációs halmazban lév˝o megfigyelések egy konkrét el˝orejelzése közben tett hibát validációs hibának, az el˝orejelzések várható hibáját pedig generalizációs hibának nevezz¨ uk. A generalizációs hiba alapján képet kaphatunk az adott modell generalizációs képességér˝ol, vagyis arról a képességr˝ol, hogy mennyire jól ”általános´ıt” u ´j megfigyelésekre. A validációs hiba a generalizációs hiba egy becslését adja meg. A validációs hiba értékét az a´tlagos négyzetes hibával (mean square error, MSE) értékelj¨ uk ki, s ez az MSE-mennyiség alkalmas a modell teljes´ıtményének mérésére. A modell teljes´ıtményének mérése viszont arra is lehet˝oséget ad, hogy o¨sszehasonl´ıtsuk alternat´ıv modellek teljes´ıtményét. Az a modell jobb, aminek kisebb a validációs hibája (vagyis generalizációs hibabecslése). Az alternat´ıv modellek teljes´ıtményének o¨sszehasonl´ıtása pedig megteremti annak a lehet˝oségét, hogy az alternat´ıv modellek köz¨ ul kiválasszuk a (számunkra) optimális modellt. A modellválasztás végs˝o célja a ”jó” generalizáció, de emellett k´ıvánatos tulajdonság még a konzisztens választás is. Egy modellválasztás akkor konzisztens, ha 1-hez tart annak a valósz´ın˝ usége, hogy a helyes és optimális modellt választjuk. Ez a két cél: a ”jó” generalizáció és a konzisztens modellválasztás azonban egyszerre nem valós´ıtható meg, vagyis egymással szemben a´lló döntési szabályokhoz vezet. Sokféle módszer és szempont szerint lehet felosztani a megfigyelések halmazát. Ezeket a k¨ ulönböz˝o módszerek és szempontok szerinti felosztásokat tárgyaljuk a következ˝o fejezetben.

1.2. A keresztvalid´ aci´ os m´ odszerek fajt´ ai A validációs halmazon alapuló megközel´ıtésnek (VSA-nak) két hátránya van: 1. Mivel véletlenszer˝ u az, hogy mely megfigyelések ker¨ ulnek a konstrukciós halmazba és melyek a validációs halmazba, ezért a validációs halmazon számolt becslés nagy mértékben f¨ ugg a megfigyelések felosztásától, ´ıgy nagyon változékony lehet; 2. A validációs hiba hajlamos t´ ulbecs¨ ulni a generalizációs hibát, ha a modellt a teljes adathalmazra illesztj¨ uk. ´ Ujramintav´ etelezési technikák használatával (keresztvalidáció, bootstrap) azonban ezek a korlátok lek¨ uzdhet˝ok (a szám´ıtások megnövekedésének az a´rán). Ezeknek a módszereknek 4

néhány változatát mutatjuk most be.

1.2.1. Leave-one-out Cross-Validation ’egyet hagyj ki’, LOO, CV(1) CV(1)-módszer esetén a validációra egyetlen megfigyelést használunk, a többi megfigyelés a konstrukciós halmazt alkotja. Ezt megismételj¨ uk n-szer és kiszám´ıtjuk az n becslés a´tlagát. El˝onyei a VSA-val szemben: 1. A torz´ıtás sokkal kisebb (mivel a konstrukciós halmaz n − 1 megfigyelést tartalmaz); 2. Az LOO ismétlése mindig ugyanazt az MSE-t eredményezi (mivel nincs véletlenszer˝ uség a konstrukciós/validációs felosztásban). Hátrányai: 1. A kiszám´ıtása drága lehet (mivel a modellt n-szer kell illeszteni); 2. Aszimptotikusan helytelen; 3. Konzervat´ıv (ami azt jelenti, hogy hajlamos az optimálisnál b˝ovebb modellt választani). Ennek a problémájával a 3.4.1. fejezetben foglalkozunk. CV (1) .

1.2.2. Hold Out Cross-Validation ’vedd ki’, HO, CV (nv ) A hold out-módszer esetén is a megfigyelések halmazát két részre bontjuk: a konstrukciós halmazra és a validációs halmazra. A modellt a konstrukciós adatrész alapján illesztj¨ uk, a predikciós hibát pedig a validációs adatrészen számoljuk, mintha azok a jöv˝obeli értékek volnának. Ezt gyakran jelölik CV (nv )-vel, ahol nv a validációs halmaz elemszámát jelöli. Látható, hogy a CV (1) módszer CV (nv ) speciális esete nv ≡ 1-gyel. Innen érthet˝o a jelölés is.

1.2.3. K-fold Cross-Validation ’K-szoros’, KCV, KCV (k) A KF-módszer esetén az A adathalmazt k db, közel egyenl˝o méret˝ u diszjunkt részhalmazra osztjuk fel, majd k lépésben k db k¨ ulönböz˝o modellt ép´ıt¨ unk u ´gy, hogy mindig egy 5

k¨ ulönböz˝o részhalmazt választunk validációs halmaznak, a többi pedig a konstrukciós halmazt alkotja, s a módszer generalizációs hibájának a k db k¨ ulönböz˝o modell generalizációs hibáinak az a´tlagát tekintj¨ uk. ´ Eszrevehet˝ o, hogy az LOO és a VSA egyfajta keveréke; pontosabban az LOO a KCV speciális esete k = n esetben. El˝onyei: 1. Szám´ıtási gyorsaság; 2. Az LOO-nál jobb becsléseket ad a tesztelési hibára; 3. Az LOO-nak nagyobb a hibavarianciája (mivel a hibák er˝osen korreláltak egymással, de kisebb a torz´ıtása); 4. A KCV k = 5 vagy k = 10 esetén olyan tesztelési hibákat ad, ami nem szenved a t´ ulzott torz´ıtástól vagy varianciától.

1.2.4. Monte Carlo Cross-Validation, MCCV, M CCV (nv ) Annyiban k¨ ulönbözik az el˝oz˝ot˝ol, hogy a konstrukciós és validációs halmazra való felosztást minden alkalommal, a többi alkalomtól f¨ uggetlen¨ ul, véletlenszer˝ uen tessz¨ uk, a módszer generalizációs hibája pedig a kapott generalizációs hibák a´tlaga.

1.2.5. Balanced Incomplete Cross-Validation ’kiegyens´ ulyozott nemteljes’, BICV, BICV (nv ) A BICV -módszert az CV (1) módszer aszimptotikus helytelenségének és konzervat´ıv voltának a kijav´ıtására fejlesztették ki. Lényege, hogy az illesztést és a validációt nem az o¨sszes k¨ ulönböz˝o felosztásra, hanem csak azok egy jól megválasztott részére végezz¨ uk el. Ezt a részt az u ń. ’egyens´ ulyi feltételekkel’ választjuk ki, és a 3.4.2. fejezetben tárgyaljuk. Az approximált CV (nv ) módszer (AP CV (nv )) a speciális esete bizonyos feltételek teljes¨ ulése esetén. Ezt a 3.4.3. fejezetben tárgyaljuk. Az AP CV el˝onyei: 1. konzisztens; 2. kevesebb szám´ıtást igényel, mint a BICV vagy az M CCV .

6

1.3. A keresztvalid´ aci´ os m´ odszer szerinti modell v´ alaszt´ as menete A keresztvalidációs megközel´ıtésben a modellválasztás két nagy fázisa a tervezés és az értékelés, a tervezés két nagy fázisa pedig az optimalizálás és a választás. A validációs megközel´ıtés lényege, hogy mindhárom fázist az adathalmaz k¨ ulön részein végezz¨ uk el. Ennek érdekében tehát az o¨sszes megfigyelésb˝ol a´lló A adathalmazt valamilyen módszer és szempont szerint 3 diszjunkt részre osztjuk: a K konstrukciós halmazra, a V validációs halmazra és az E teszthalmazra (a K konstrukciós halmazt és a V validációs halmazt egy¨ uttesen a T tan´ıtó halmaznak nevezz¨ uk). A K konstrukciós halmazban lév˝o megfigyelésekre több k¨ ulönböz˝o modellt illeszt¨ unk (ezáltal ”hangoljuk” a modellparamétereket), az illesztett modelleknek megbecs¨ ulj¨ uk a generalizációs hibáját a V validációs halmazban lév˝o megfigyelések alapján, a generalizációs hiba becsléseinek összehasonl´ıtása alapján kiválasztjuk az optimális modellt, vég¨ ul pedig ennek az optimális modellnek a teljes´ıtményét értékelj¨ uk az E teszthalmaz alapján. Az adathalmaz tan´ıtó- és teszthalmazra való felosztását azért végezz¨ uk, hogy egy olyan modellt nyerj¨ unk, aminek nagy a generalizációs képessége és a generalizációs hibát is megb´ızhatóan tudjuk értékelni, a tan´ıtó halmaz konstrukciós és validációs halmazra való felosztását pedig azért végezz¨ uk, hogy a létrejöv˝o modell generalizációs képessége a lehet˝o legnagyobb legyen. Ez tehát a keresztvalidáció m˝ uködési elve. A dolgozat további részében arra mutatunk példákat, hogy a keresztvalidáció milyen problémák megoldásában lehet hasznos.

7

2. fejezet Modellv´ alaszt´ as keresztvalid´ aci´ oval ´ altal´ anosan 2.1. Modellv´ alaszt´ as menete ´ altal´ anosan Tegy¨ uk fel, hogy egy p(x, y) egy¨ uttes valósz´ın˝ uségi eloszlásból vett K = {x(k), y(k)}N k=1 adathalmazra egy f (x; ω) f¨ uggvény által le´ırt modellt szeretnénk illeszteni (vagyis az y értékeket az x értékek alapján akarjuk közel´ıteni az f (x; ω) f¨ uggvény alapján, ahol az ω a modellparaméterekb˝ol álló, p dimenziós vektor). Az y érték x pontokon vett f (.; ω) a´ltali közel´ıtését (predikcióját, el˝orejelzését) yˆ(k) = f (x(k); ω)-val jelölj¨ uk. A tényleges és a predikciós érték közötti k¨ ulönbséget egy ` veszteségf¨ uggvénnyel mérj¨ uk és predikciós hibának nevezz¨ uk. Ilyen ` f¨ uggvény lehet például a log-likelihood f¨ uggvény vagy akár egyszer˝ uen a négyzetes eltérés: (`(y, yˆ) = ky − yˆk2 ). Ekkor a modellt egy C(K, ω) költségf¨ uggvény minimalizálásával szokták illeszteni: C(K, ω) = S(K, ω) + R(ω) =

X

`(y, f (x; ω)) + R(ω)

(x,y)∈K

Ez a költségf¨ uggvény két tag összege: az S(K, ω) tag az illesztett modell jóságát méri, az R(ω) tag pedig a választott modell bonyolultságát méri. Az R(ω) például a paraméterszám, vagy annak valamely monoton növekv˝o f¨ uggvénye. Az illesztett modell a paramétervektor becs¨ ult értékével foglalható o¨ssze: ω ˆ = arg minω C(K, ω). 2.1.1. Defin´ıci´ o. Egy f (.; ω) modell generalizációs hibájának egy (x, y) jöv˝obeli f¨ uggetlen megfigyelés várható veszteségét nevezz¨ uk, ami nem más, mint az `(y, f (x; ω)) veszteségf¨ uggvénynek az (x, y) adatokon vett, p(x, y) eloszlás szerinti várható értéke. Képlettel: Z G(ˆ ω ) = Ex,y (`(y, yˆ)) = `(y, yˆ)p(x, y)dxdy 8

2.1.2. Defin´ıci´ o. Egy f (.; ω) modell átlagos generalizációs hibája nem más, mint a G(ˆ ω) értékeknek az összes lehetséges K halmazon vett átlaga. Képlettel: Z Γ = EK (G(ˆ ω )) = G(ˆ ω )p(K)dK A Γ tehát egy elméleti érték, a gyakorlatban nem ismert, csak becs¨ ulni lehet. A modell optimalizálása azt jelenti, hogy a V validációs halmaz alapján minimalizáljuk a Γ generalizációs hiba tapasztalati becsléseit. Vég¨ ul pedig az E teszthalmaz az eredmény¨ ul kapott modell generalizációs hibájára egy torz´ıtatlan tapasztalati becslést ad. A modellválasztás szokványos menete, hogy el˝obb a T adatrész K részét felhasználva kiválasztunk egy ω ˆ K paramétert. Majd ezt az f (., ω ˆ K ) modellt értékelj¨ uk a modell generalizációs hibájának a T adatrész V részén mutatkozó hibái alapján becs¨ ulve. Addig keres¨ unk u ´jabb és u ´jabb f (., ω ˆ K ) modelleket, m´ıg ez utóbbi szempont szerint optimális ω ˆ paramétert nem találunk. Vég¨ ul a f (., ω ˆ ) modell generalizációs hibáját az E adatrész alapján becs¨ ulj¨ uk. Ugyanis mivel a V adatrészt felhasználtuk a modell illesztése során, csak ez utóbbi E adatrész alapján becs¨ ult generalizációs hiba lehet torz´ıtatlan becslése a tényleges generalizációs hibának.

2.2. Az optim´ alis feloszt´ asi h´ anyados meghat´ aroz´ asa keresztvalid´ aci´ oval A bevezet˝oben láthattuk, hogy a keresztvalidációs megközel´ıtésben a modellválasztás két nagy fázisa a tervezés és az értékelés: a modellparaméterek hangolásával kiválasztjuk az optimális modellt a T tan´ıtó halmazon a generalizációs hiba becsléseinek seg´ıtségével, majd pedig az optimális modellt értékelj¨ uk az E teszthalmazon az átlagos négyzetes hiba (mean squared error, M SE) seg´ıtségével. Azt a modellt szeretnénk kiválasztani (az a modell optimális), amelyre a generalizációs hiba becslése minimális (vagyis ω ∗ = arg minω G(ω)). De a kiválasztott modell és a generalizációs hiba becslése is f¨ ugg attól, hogy hány megfigyelésre illesztj¨ uk a modellt, illetve hány megfigyelést k¨ ulön´ıt¨ unk el tesztelésre. Jelölj¨ uk γ ∈ [0, 1]-val azt, hogy a megfigyelések hányad részét k¨ ulön´ıtj¨ uk el a E részbe (a modell értékelésére) és nevezz¨ uk ezt felosztási hányadosnak (tehát γ =

ne )! n

Gyakorlati

okok miatt γn csak egész szám lehet (vagyis γ = i/n, ahol i = 1, ..., n − 1). Azt a γ értéket, amelyre a generalizációs hibára adott becslés min˝oségének ellen˝orzésére használt MSE-mennyiség minimális, optimális felosztási hányadosnak nevezz¨ uk és γopt -tal jelölj¨ uk (vagyis γopt = arg minγ M SE(γ)). Ez az optimális γ érték f¨ ugg attól is, hogy melyik 9

keresztvalidációs módszert használjuk. Ebben a fejezetben a γopt meghatározásával foglalkozunk a k¨ ulönböz˝o keresztvalidációs módszerek esetén. Jelölje ω ˆ a T adatrész alapján illesztett modellparamétert, jelölje G(ˆ ω ) ennek a ω ˆ moˆ HO (ˆ dellparaméternek a tényleges generalizációs hibáját, G ω ) pedig a ω ˆ modellparaméter generalizációs hibájának az E adatrész alapján vett, HO-módszer szerinti becslését. Legyen ω ∗ az a paraméter, amelyre a modell G(ω ∗ ) generalizációs hibája minimális. Jelölje EA a megfelel˝o eltérésnégyzetek várható értékét a rendelkezésre álló A adatok szerint.

2.2.1. A HO-m´ odszer A HO-módszer esetén a generalizációs hiba HO-becslése a predikciós hibák E halmazon vett a´tlaga, az MSE pedig a HO szerint becs¨ ult generalizációs hiba és az optimális modell generalizációs hibája közti eltérésnégyzet várható értéke. Képlettel: 1 X ˆ HO (ˆ G ω) = `(y(k), yˆ(k)) ne k∈E és ˆ HO (ˆ M SEHO = EA (G ω ) − G(ω ∗ ))2 ˆ HO (ˆ Ez az M SEHO mennyiség felbontható két tagra: egy varianciatagra: (G ω ) − G(ˆ ω ))2 és egy torz´ıtástagra: (G(ˆ ω ) − G(ω ∗ ))2 . A varianciatag a HO-becslés megb´ızhatóságát méri, a torz´ıtástag pedig a modell fölös generalizációja. A varianciatag onnan származik, hogy a HO-módszerrel becs¨ ult modell generalizációs hibáját az E adatrész alapján csak becs¨ ulni tudjuk, a torz´ıtástag pedig onnan, hogy a HO-módszerrel becs¨ ult modell generalizációs hibája nem feltétlen minimális. A γ csökkenésének hatására a varianciatag n˝o, a torz´ıtástag pedig csökken. Ennek az a magyarázata, hogy az E méretének csökkenésére a ˆ HO (ˆ generalizációs hiba G ω ) becslése romlik, az E növekedése viszont a G(ˆ ω ) javulásával (a torz´ıtás csökkenésével) jár. Példaként vegy¨ uk az egyik lehet˝o legegyszer˝ ubb modellt! Vizsgáljuk azt az esetet, amikor a megfigyelések y ∼ N (µ, σ 2 ) eloszlás´ uak, ismert σ szórással és ismeretlen — az adatokból becs¨ ulend˝o — µ várható értékkel. Ekkor az optimális modell paraméterének a generalizációja σ 2 , egy tetsz˝oleges ω˙ paraméter generalizációs hibája pedig G(ˆ ω ) = σ 2 + (µ − ω) ˙ 2. Ebben az esetben hossz´ u, a´mde elemi számolássorral belátható, hogy az a γ érték, amelyre a HO-módszerrel nyert generalizációs hiba a legkisebb, a következ˝o:

10

2σ 4 M SEHO (γ) = nγ

2 1+ (1 − γ)n

+

3σ 4 (1 − γ)2 n2

ahol az p A = −324n2 − 144n + 8 + 12n 3(243n2 + 472n − 28) konstans mellett a

2 8 A1/3 1 + . + + A1/3 6n 3nA1/2 3n Ebb˝ol a képletb˝ol leolvasható, hogy az 1 − γopt = O(n1/3 ), ha n → ∞, vagyis az opγopt = 1 −

timális felosztási hányados — meglehet˝osen lassan — tart az 1-hez. Ami azt jelenti, hogy ahhoz, hogy egy pontos HO-becslést nyerj¨ unk a generalizációs hibára, az adatok zömét aszimptotikusan a validációra kell fenntartani. Ezt a következtetést az általunk elvégzett szimulációs k´ısérlet is meger˝os´ıti.

2.2.2. A KCV -m´ odszer Mint ahogy az 1.5.3. alfejezetben már utaltunk erre, a KCV -módszer az A adathalmazt k db közel egyenl˝o diszjunkt részhalmazra bontjuk (A = ∪kj=1 Ej ) és mindegyik részhalmazon értékelj¨ uk a többi (Tj = A \ Ej ) adatra illesztett modellt. Az Ej nélk¨ ul illesztett modellt yˆ−j -vel jelölj¨ uk. A KCV -becslés a generalizációs hiba k db becslésének az a´tlaga: k

XX ˆ KCV = 1 Γ `(y(k), yˆ−j (k)) n j=1 k∈E j

Az M SE pedig a HO-hoz hasonlóan a KCV szerint becs¨ ult generalizációs hiba és az optimális modell generalizációs hiba közti eltérésnégyzet várható értéke, ami hasonlóképpen egy variancia- és torz´ıtástagból áll. Képlettel: ˆ KCV − G(ω ∗ ))2 M SEKCV = EA (Γ A szám´ıtások elvégzése után az MSE értékére az alábbi képletet kapjuk: ( M SEKCV (γ) =

σ 4 (2γ 3 n−2γ 2 −6nγ 2 +7γ+6nγ−7−2n) n2 (γ−1)2 σ 4 (−4nγ 2 −9γ+8+2nγ+2γ 2 +2γ 3 n) n2 (γ−1)2 γ

Mivel az M SEKCV (γ) γ szerinti deriváltja pozit´ıv minden 0 ≤ γ ≤ 1 és n értékre, ezért M SEKCV a CV (1)-módszer (LOO) esetében lesz minimális (γopt = 1/n) f¨ uggetlen¨ ul az n méretét˝ol. Ezt a következtetést meger˝os´ıti az a´ltalunk elvégzett szimulációs k´ısérlet is. Megfigyelhet˝o az az érdekesség, hogy ezeknek a görbéknek a meredeksége γ = 1/2re nemfolytonos, ami annak köszönhet˝o, hogy ilyen γ érték kör¨ ul változnak át az az a´tfedésben lév˝o konstrukciós halmazok a´tfedésben lév˝o teszthalmazokká. 11

2.2.3. Az MCCV-m´ odszer Mint ahogy az 1.5.5. alfejezetben már utaltunk erre, a MCCV-módszer u ´jramintavételezi a teszthalmazokat u ´gy, hogy véletlenszer˝ uen kiválaszt ne = nγ mintát teszthalmaznak, a többit pedig konstrukciós halmaznak. Ez legfeljebb k ≤ nne -szor ismételhet˝o meg. Mindegyik permutáció esetén egy ωˆj paraméterekkel rendelkez˝o yˆj modellt illeszt¨ unk, aztán pedig kiszám´ıtjuk a generalizációnak a k db teszthalmazon kiszám´ıtott tapasztalati becslését. Így kapjuk: k X ˆ M CCV = 1 ˆ ωj ) , Γ G(ˆ k j=1 a M SE pedig ugyanaz, mint KCV esetén. A szám´ıtások elvégzése után azt kapjuk, hogy az M CCV a KCV -hez képest egyenletesen alacsonyabb (vagy egyenl˝o) MSE-becsléseket ad (ha k elég nagy). Mivel a KCV esetén a minimális M SE-t mindig LOO esetén érj¨ uk el, ezért ez a min˝oségi eredmény itt is változatlan marad.

12

2.3. Szimul´ aci´ ok 2.3.1. 1. szimul´ aci´ o Az összes görbét átlagoljuk az adat 40000 replikációján az n = 4, 8, 16, 32, 64 mintaméretekre (az ábrán fentr˝ol lefelé), és γ-t ábrázoljuk M SE f¨ uggvényében. Az eredmények köz¨ ul a bal oldali ábra a HO-módszerre, a jobb oldali a´bra pedig KCV -módszerre adja meg a kapott pontokat. A tömött karika a görbék minimumát jelzi, a hibahatárok pedig kétszeres standard szórás szerintiek.

2.3.2. 2. szimul´ aci´ o A modellválasztás feladatának megkönny´ıtésére is elvégz¨ unk egy szimulációs k´ısérletet. √ Most egyetlen n = 25 elemb˝ol a´lló mintát használunk. Az eredmények csak a θ = µ n/σ normalizált változó f¨ uggvénye lesznek, és θ-t a µ értékén kereszt¨ ul változtatjuk. Az n db megfigyelést az N (µ, 1) eloszlásból vessz¨ uk, és most is minden eredményt a´tlagolunk az n megfigyelés 40000 replikációján. A 2. ábra mutatja a HO esetén eredmény¨ ul kapott modell generalizációját a µ növekv˝o értékeire (alul µ = 0, fel¨ ul µ = 1 0,2-es növekményekkel, a karika jelzi a minimumot). A bal oldali ábra a γ f¨ uggvényében a HO-becslés fölös generalizációját, a jobb oldali a´bra a helyesen kiválasztott modellek százalékarányát mutatja.

13

3. a´bra: modellválasztás KCV esetén µ = 0-tól 1-ig 0,2-es növekményekkel. A bal oldali a´bra a γ f¨ uggvényében a KCV -becslés fölös generalizációs hibáját, a jobb oldali a´bra pedig a helyesen kiválasztott modellek százalékarányát mutatja.

14

2.4. A szimul´ aci´ ok ´ ertelmez´ ese 2.4.1. 1. szimul´ aci´ o Az ábrákról leolvasható, hogy HO esetén az optimális felosztási hányados (γopt ) az n növekedésével 1 felé tart (de lassan), m´ıg KCV esetén mindig γopt = n1 . Ez azt jelenti, hogy minél több megfigyelés¨ unk van, a HO esetén a megfigyeléseknek annál nagyobb hányadát kell a validációra fenntartani (és ´ıgy annál kisebb hányadát az illesztésre), m´ıg KCF esetén a megfigyelések számától f¨ uggetlen¨ ul elegend˝o egyetlen megfigyelést félretenni a validációra, a többire illeszthet¨ unk. Az a´brákon az is észrevehet˝o, hogy az n növekedésével az M SE-görbék kilaposodnak. Ez azt jelzi, hogy a közel optimális felosztási hányadosok egy széles intervallumban helyezkednek el.

2.4.2. 2. szimul´ aci´ o HO-m´ odszer A legnagyobb felosztási hányados (γ =

n−1 ) n

a µ kis értékeire optimális. A 2. ábra jobb ol-

dali fele jól illusztrálja azt, hogy ezekben az esetekben majdnem mindig a minimálmodellt választjuk ki, mert a minimálmodell a teljes modellnél jobb becslést ad. Viszont θ = 1-re, azaz µ = 0.2-re a γ = 1/n (vagyis az LOO) lesz optimális. Ekkor egy u ń. fázisátmenet történik. A 2. a´bra bal oldali felén a megfelel˝o görbe majdnem lapos, és annál a pontos értéknél, ahol a fázisátmenet történik, a γ nagy és kis értékei is az optimum hibahatárán bel¨ ul vannak. A µ növekedésével az optimális felosztási hányados most is nagyon lass´ u, aszimptotikus u ¨temben tart az 1-hez. A 2. ábra jobb oldali fele azt mutatja, hogy ez azért van, mert a leghelyesebb modellt adó felosztási hányados az 1-hez tart. A µ növekedésével a görbék egyre laposabbá válnak, ami a várakozásoknak megfelel˝oen azt jelzi, hogy a γ majdnem minden választásával a helyes modellt választjuk ki, s ´ıgy közel optimális generalizációt kapunk.

KCV -m´ odszer A felosztási hányados legnagyobb γ =

n−1 n

értéke most is a µ kis értékeire optimális, és

ebben az esetben is van egy a´tmenet a minimál modell és a leginkább konzisztens modell

15

√ között γopt = 1/2-re a µ = σ/ n = 0.2 kör¨ ul. A KCV viszont k¨ ulönbözik a HO-tól abban, hogy a µ kis értékeire a leginkább konzisztens becslést nem γ = 1/n (vagyis LOO), hanem γ = 1/2 adja! S˝ot a KCV -nél van még egy a´tmenet: γopt = 1/n-hez (vagyis LOO-hoz) egy enyhén nagyobb értékre. Ennek a konstrukciós és a validációs halmaz közötti átfedés az oka. Ez a második a´tmenet akkor történik, amikor az LOO a KCV (2)-nél helyesebb modelleket kezd adni. További k¨ ulönbségek a KCV - és a HO-módszer a´ltal adott becslések között: a KCV esetén a µ növekedésével az LOO optimális marad; a minimális fölös generalizációs hiba (minimum excess generalization error) alacsonyabb; a helyesen választott modellek aránya gyorsabb u ¨temben tart az 1-hez. Megjegyzend˝o még, hogy az aszimptotikusan optimális felosztási hányados 1/n, mivel a fázisátmeneti k¨ uszöbök ford´ıtottan arányosak n-nel minden µ 6= 0-ra. M CCV -m´ odszer Az M CCV eredményei most is hasonlók a KCV -éhez, s az eredményb˝ol levont kvalitat´ıv következtetés is azonos: A γ optimáélis értéke γopt = 1/n, vagyis az LOO eljárás az optimális. Az viszont eltér a KCV -t˝ol, hogy γ = 1/2-nél nincs nemfolytonosság. Ez annak köszönhet˝o, hogy a a´tlagolási stratégia jobb a közb¨ uls˝o felosztási hányadosokra. Tehát csak egy γ-átmenet van: az egyik széls˝oértékr˝ol a másikra.

16

3. fejezet Modellv´ alaszt´ as keresztvalid´ aci´ oval line´ aris regresszi´ o eset´ en 3.1. Modellv´ alaszt´ as menete a line´ aris regresszi´ o fix ´ es v´ eletlen modellje eset´ en Legyen y magyarázó változó és x1 , ..., xp magyarázandó változók. Legyen (y, x)0 = (y, x1 , ..., xp )0 . A lineáris regresszió egy olyan paraméteres regressziós modell, amely feltételezi az y magyarázó változó és az x1 , ..., xp magyarázandó változók közti (paramétereiben) lineáris kapcsolatot. A lineáris kapcsolat a következ˝oképpen fejezhet˝o ki: y = β0 + β1 x1 + β2 x2 + ... + βp xp + e, ugyanez zártabb formában fel´ırva: y = Xβ + e, ahol: • n a mintanagyság (mérések/megfigyelések száma) és p + 1 a magyarázó változók száma (konstanssal egy¨ utt); • y ∈ Rn×1 a magyarázandó változó értékére vonatkozó n megfigyelést tartalmazó n × 1 méret˝ u oszlopvektor; • X ∈ Rn×(p+1) a p magyarázó változó értékére vonatkozó n db xk ∈ Rn×1 megfigyelést tartalmazó mátrix, amit tervmátrixnak nevez¨ unk. Ha a tervmátrixban lév˝o értékek a k´ısérlet végz˝oje által rögz´ıtett (vagyis fix) értékek, akkor fix hatás modellr˝ol beszél¨ unk. Ha viszont a tervmátrix a véletlent˝ol f¨ ugg, méghozzá u ´gy, hogy (y, x)0 = (y, x1 , ..., xp )0 többdimenziós normális eloszlás´ u (µy , µx )0 = (µy , µx1 , ..., µxp )0 várható 17

értékkel és

σy,y σy,x

!

σx,y σx,x modellr˝ol beszél¨ unk;

part´ıcionált kovariancia mátrixszal, akkor véletlen hatás

• β ∈ R(p+1)×1 a modellparamétereket tartalmazó p dimenziós vektor (a paraméterek itt azokat a s´ ulyokat jelentik, amelyekkel az egyes magyarázó változók a magyarázandó változó értékét közel´ıt˝o lineáris f¨ uggvényben szerepelnek); • e ∈ Rn×1 pedig a regresszió hibáit tartalmazó n elem˝ u vektor (amely egy ε ∼ N (0, σ 2 I) véletlen mennyiség aktuális értéke). A β és az e ismeretlen, ezeket az adatokból kell becs¨ uln¨ unk. A lineáris regresszió becslése során a β paramétervektort becs¨ ulj¨ uk a rendelkezésre a´lló mintából u ´gy, hogy az össznégy2 zetes hibát minimalizálja: βˆ = arg minβ ky − Xβk . A legegyszer˝ ubb becslési módszer a legkisebb négyzetek módszere. A legkisebb négyzetek módszere alapján a paraméterre adott becslés az ismert képlet szerint: βˆ = (X T X)−1 X T y. A paraméterre adott becslés alapján az el˝orejelzési érték (predikciós érték) yˆ = X βˆ (s ´ıgy E(y) = Xβ), az el˝orejelzési hiba (predikciós hiba, reziduális) pedig eˆ = y − X βˆ (s ´ıgy E(e) = 0). Az yˆ és az eˆ becs¨ ult értékeket kifejezhetj¨ uk az X képterére vet´ıt˝o projekciós mátrix és a képtérre mer˝oleges komponenst el˝oa´ll´ıtó annihilátor seg´ıtségével (ami egyébként maga is egy projekció). Ha P = X(X T X)−1 X T az X oszlopai a´ltal kifesz´ıtett térre vet´ıt˝o projekciós mátrix és M = In − P az X-re mer˝oleges térre vet´ıt˝o annihilátor mátrix, akkor yˆ = P y, eˆ = M y = M e. A P projekciós mátrix i-edik átlóelemét wi -vel jelölj¨ uk.

3.2. Mintam´ eret meghat´ aroz´ asa 3.2.1. N´ eh´ any eloszl´ as Ezekre az eloszlásokra a mintanagyságot meghatározó képletek megértéséhez van sz¨ ukség. Az egyszer˝ uség kedvéért a meghatározásokban szerepl˝o eloszlás jelöléseket értelmezz¨ uk u ´gy, mintha azok véletlen mennyiségek volnának, az adott eloszlással!

18

Kh´ı-n´ egyzet eloszl´ as A kh´ı-négyzet eloszlás nem más, mint egy k dimenziós, standard normális eloszlás´ u pontnak az origótól vett távolságnégyzetének az eloszlása. Egyetlen paramétere, a szabadságfok azt mutatja meg, hogy hány f¨ uggetlen, standard normális eloszlás´ u mennyiség négyzetösszegének az eloszlásáról van szó. Vagyis: χ2k

∼

k X

N 2 (0, 1).

j=1

t-eloszl´ as A t-eloszlásnak egy paramétere van, a szabadságfok. E paraméter azt mutatja, hogy mennyi a nevez˝ojében szerepl˝o kh´ı-négyzet eloszlásnak a szabadságfoka. Ugyanis: N (0, 1) tk ∼ p 2 χk /k E képlet u ´gy értend˝o, hogy a t eloszlás´ u mennyiség eloszlása olyan, mint két olyan f¨ uggetlen véletlen mennyiség hányadosának az eloszlása, amelyek egyrészt standard normális, másrészt χ2 eloszlás´ u. F-eloszl´ as Az F-eloszlásnak két paramétere van, két szabadságfok. Annak a két, f¨ uggetlen χ2 eloszlásnak a szabadságfoka, amelyek a hányadosaként az F eloszlás el˝oa´ll. Azaz: Fn,m

χ2n /n ∼ 2 . χm /m

Nemcentr´ alis kh´ı-n´ egyzet eloszl´ as A kh´ı-négyzet eloszlásnak a szabadságfokon k´ıv¨ ul egy paramétere van, a nemcentralitási paraméter. E nemcentralitási paraméter értéke a meghatározásához felhasznált 1 szórás´ u normálisok várható értékeib˝ol képzett négyzetösszeggel egyenl˝o. Vagyis: χ2n,δ2

∼

k X

N 2 (µj , 1),

j=1

akkor, ha a δ 2 =

Pk

j=1

µ2j , vagyis a véletlen pont várható értékének az origótól vett

távolságnégyzete.

19

Nemcentr´ alis t-eloszl´ as A nemcentrális t-eloszlásnak két paramétere van, a szabadságfok és a nemcentralitási paraméter. Ez utóbbi paraméter azt mutatja, hogy mennyi a számlálójában szerepl˝o normális eloszlás várható értéke. Ugyanis: N (µ, 1) tk,µ ∼ p 2 . χk /k Vagyis egy olyan eloszlás, amelyiknek a nevez˝ojében egy centrális χ2 eloszlás van. Nemcentr´ alis F-eloszl´ as A nemcentrális F-eloszlásnak a két szabadságfok paraméteren k´ıv¨ ul egy paramétere van, a nemcentralitási paraméter. Ez a nemcentralitási paraméter egyenl˝o annak a nemcentrális χ2 eloszlásnak a paraméterével, amelyik a számlálójában szerepel. Ugyanis: Fn,m,δ2 ∼

χ2n,δ2 /n χ2m /m

.

Vagyis ennek az eloszlásnak a nevez˝ojében is centrális χ2 eloszlás van.

Mindhárom eloszlás, a nemcentrális esetet is figyelembe véve elérhet˝o az R alaprendszeréhez tartozó stats csomag megfelel˝o f¨ uggényei segitségével: - a χ2 eloszláshoz tartozó f¨ uggvények: dchisq(x,df,ncp), pchisq(q,df,ncp), qchisq(p,df,ncp), rchisq(n,df,ncp) - a t eloszláshoz tartozó f¨ uggvények: dt(x,df,ncp), pt(q,df,ncp), qt(p,df,ncp), rt(n,df,ncp) - az F eloszláshoz tartozó f¨ uggvények: df(x,df1,df2,ncp), pf(q,df1,df2,ncp), qf(p,df1,df2,ncp), rf(n,df1,df2,ncp). Itt d-vel kezd˝odnek a s˝ ur˝ uségf¨ uggvények, p-vel az eloszlásf¨ uggvények, q-val a kvantilisf¨ uggvények és r-rel az adott eloszlás szerint véletlen számot generáló eljárások. Az argumentumokban az x az eloszlás értelmezési tartományának egy pontja, p∈ [0, 1] egy valósz´ın˝ uség, q egy kvantilis, n a generálandó véletlen számok számossága. A df jelöli a szabadságfokokat, az ncp pedig a nemcentralitási paraméter értékét.

20

3.2.2. A regresszi´ os modell mintanagys´ ag´ anak elm´ eleti meghat´ aroz´ asa a korrel´ aci´ o f¨ uggv´ eny´ eben A keresztvalidáció használható a regressziós f¨ uggvény illeszkedésének tesztjeként is. Ebben az esetben a keresztvalidáció során vesz¨ unk egy második véletlen mintát és kiszámoljuk az u ´j megfigyelt f¨ ugg˝o változó és az u ´j magyarázó változók azon lineáris kombinációjának korrelációját, amelynek egy¨ utthatóit az eredeti minta alapján nyert¨ unk. Az eredmény¨ ul ˆ kapott korrelációt rc (β)-vel jelölj¨ uk. ˆ tehát értékelése a mintából származtatott egyenlet érvényességének, és egy Az rc (β) becslése a βˆ paraméter mellett a ˆ = %c (β)

0 ˆ σxy β ˆ 1/2 (σyy βˆ0 Σ0xx β)

populációs paraméternek, amit röviden %c -vel fogunk jelölni. Ha % jelöli a populációs értéket, akkor tekintettel annak maximális voltára, bizonyos, hogy %c ≤ % . Ha %c mintabeli eloszlását fel tudnánk ´ırni, mint az n f¨ uggvényét, akkor a P (% − %c ≤ ) = γ képlet alapján adott és γ mellett a keresett n mintanagyság, — a regressziós f¨ uggvény jóságának kell˝o szint˝ u meghatározásához sz¨ ukséges mintaelemszám — megadható volna. Azonban %c s˝ ur˝ uségf¨ uggvényére irányuló minden eddigi k´ısérlet hiábavalónak bizonyult. Viszont a %2c -é meghatározható. Belátható, hogy a fontosabb esetekben ez elégséges is. Így ur˝ uségf¨ uggvényének meghatározásával fogunk foglalkozni. most %2c s˝ Ha %2c eloszlását egy lineáris transzformációval egyszer˝ us´ıtj¨ uk, akkor %2c kifejezhet˝o korrelálatlan változók négyzetösszegeinek f¨ uggvényeként: %2c

W12 kBk2 %2 = 2 Pp = P W1 + i=2 Wi2 1 + pi=2

Wi2 W12

Ez át´ırható a következ˝o alakba: %2c

%2

= 1+

χ2p−1,δ χ21,δ

2 =0

1

ahol a χ2p−1 és χ21,δ1 változóknak f¨ uggetlen kh´ı-négyzet illetve nemcentrális kh´ı-négyzet eloszlása van, ahol a nemcentralitási paraméter értéke: r n−p−2 δ1 = |EW1 | = |%| . 1 − %2 21

A szabadságfokokkal való szorzás és osztás után vég¨ ul ezt kapjuk: %2c =

%2 1+

p−1 F1,p−1,δ1

ahol F1,p−1,δ1 egy nemcentrális F-eloszlás δ1 nemcentralitási paraméterrel. Tehát o¨sszefoglalva, a %2c keresett eloszlása: F%2c (λ) = P (%2c ≤ λ) = F1,p−1,δ1 λ(p − 1)/(%2 − λ)

ahol a F1,p−1,δ1 az 1 és p − 1 szabadságfok´ u, δ1 nemcentrális F -eloszlást eloszlásf¨ uggvénye. Így %2 eloszlása táblázatba foglalható a nemcentrális t-eloszlás nyilvános táblázatainak, c statisztikai programrendszerekben fellelhet˝o szubrutinjainak felhasználásával. A sz¨ ukséges mintaméret a random modell esetén: nr =

(1 − %2 )δ12 + p + 2, %2

a fix modell esetén pedig: nf =

(1 − %2 )δ12 . %2

Vagyis a sz¨ ukséges mintaméret a fix modell esetén p + 2-vel kisebb mint a véletlen modell esetén.

22

3.2.3. A regresszi´ os modell mintanagys´ ag´ anak gyakorlati meghat´ aroz´ asa t´ abl´ azattal Az alábbi táblázat azt mutatja, hogy az imént bemutatott képletet alkalmazva, p = 2 magyarázó változó mellett, adott % = .05, .1, ..., .98 korreláció esetén az = .01, ..., .20 pontosság 99%, ..., 40% valósz´ın˝ uséggel, hány elem˝ u minta alapján érhet˝o el. .99 .95 .90 .80 .60 .40 .05 .01 634 369 261 160

72

31

54

23

8

.10 .01 601 350 248 152

68

30

.03 213 124

88

.03 203 119

85

53

25

12

.05 123

52

33

16

7

.25 .01 501 292 207 127

57

25

73

.03 170 100

71

45

22

11

.05 104

62

45

29

15

8

.10

53

32

24

16

9

6

.20

29

18

14

10

5

4

.50 .01 336 196 139

86

39

18

.03 115

68

49

31

16

9

.05

70

42

31

20

11

7

.10

37

23

17

12

7

6

.20

20

13

11

8

6

5

.75 .01 170 100

72

45

22

11

.03

59

36

27

18

10

6

.05

37

23

18

12

8

5

.10

21

14

11

8

6

5

.20

12

9

7

6

5

4

.98 .01

17

12

9

7

5

5

.03

8

7

6

5

4

4

.05

7

6

5

5

4

4

.10

5

5

5

4

4

4

.20

5

4

4

4

4

4

23

P´ elda

A fenti táblázat felhasználásával egy konkrét alkalmazás során például az alábbi t´ıpus´ u következtetésekre juthatunk. Ha egy olyan regressziót vett¨ unk, amelynél a magyarázó változók száma 2, és amelynél a %ˆ2 értéke .5, akkor a korrelációnégyzet keresztvalidációval nyert becslése a valódi korreláció érték négyzetét egy 68 elem˝ u minta esetén az alábbi táblázatba foglalt módon és mértékben közel´ıti:

véletlen

fix

max 1% eltéréssel

≈ .72

≈ .74

max 3%

≈ .95

≈ .95

max 5%

≈ .99

≈ .99

modell esetén

valósz´ın˝ uséggel

Azaz például véletlen modell esetén P (%2 − %2c ≤ .1) ≈ .72 . Tehát véletlen modellt alkalmazva, a 68 elem˝ u minta alapján vett becslés hibája 72% valósz´ın˝ uséggel kisebb mint 1%.

3.3. A line´ aris regresszi´ o modell el˝ orejelz´ esi hib´ aja Ebben a fejezetben az el˝orejelzési hiba eloszlását adjuk meg a lineáris regresszió y = Xβ + e fix modellje esetén. A keresztvalidációval elvének megfelel˝oen a modellt nem a megfigyelések teljes (n elemszám´ u) halmazára illesztj¨ uk, hanem csak az els˝o néhány (ne db) megfigyelésre, majd pedig a modellparaméterre kapott becslést felhasználva a modell illeszkedését ellen˝orizz¨ uk (a többi nv = n − ne db) megfigyelésen u ´gy, hogy kiszám´ıtjuk két u ´j (azaz két egymástól és az eddigiekt˝ol is f¨ uggetlen) megfigyelés hibabecslésének a kovarianciáját. Jelölje az y és az X els˝o ne sorát ye és Xe , utolsó nv sorát yv és Xv . Az els˝o ne db megfigyelésre illesztett modell paraméterének becslése a legkisebb négyzetek módszerével: βê = Xe (XeT Xe )−1 ye ∼ N (β, σ 2 (XeT Xe )−1 ). Nézz¨ uk meg azt, hogy az ´ıgy kapott modell mennyire jól (mekkora hibával) tudja el˝orejelezni az u ´jabb (egymástól és az eddigi megfigyelésekt˝ol is f¨ uggetlen) megfigyeléseket, amit a 24

hibabecslések kovarianciájából tudunk meghatározni. Ha (yj , xj ) és (yk , xk ) két u ´j, a fenti modellnek megfelel˝o, f¨ uggetlen megfigyelés (a megfelel˝o mérések során keletkezett ej és ek 0 várható érték˝ u véletlen hibával), akkor yj = xj β + ej és yk = xk β + ek , hiba nélk¨ uli érték¨ uknek, a rendelkezésre álló βê becslés alapján vett becslése pedig: yˆj = xj βê és yˆk = xk βê . Tehát az ezek alapján nyerhet˝o eˆj = y − yˆj , eˆk = y − yˆk hibabecslések kovarianciája: cove (eˆj , eˆk ) = E((yj − yˆj )(yk − yˆk )) = E((yj − xj βê )(yk − xk βê )) Vonjunk ki és adjunk hozzá az els˝o tagban xj β-t, a második tagban xk β-t, hogy egy négytag´ u o¨sszeggé alak´ıthassuk, aztán pedig sok minden kiessen: cove (eˆj , eˆk ) = E((yj − xj β + xj β − xj βê )(yk − xk β + xk β − xk βê )) = E((yj − xj β)(yk − xk β)) + E((yj − xj β)(xk β − xk βê ))+ + E((xj β − xj βê )(yk − xk β)) + E((xj β − xj βê )(xk β − xk βê )) Az els˝o tagban csak az yj és az yk f¨ ugg a véletlent˝ol. j = k esetén az értéke σ 2 (mivel a megfelel˝o egyenlet hibatagjának varianciájáról van szó), j 6= k esetén pedig a várható értéket tényez˝onként lehet számolni, mivel yj és yk f¨ uggetlenek, s mivel mindkét tényez˝oje 0 várható érték˝ u, ezért a szorzat várható értéke is 0. A második tagban csak az yj és az βê f¨ ugg a véletlent˝ol. A várható értéket itt is tényez˝onként lehet számolni, mivel yj és az βê a feltételek szerint f¨ uggetlenek egymástól. Mivel az els˝o tényez˝o várható értéke 0, ezért a szorzat várható értéke is 0. Mivel második és a harmadik tag szimmetrikus helyzet˝ uek, ezért ez a megfontolás vonatkozik a harmadik tagra is. A negyedik tagban csak a βê f¨ ugg a véletlent˝ol, és ennek várható értéke β, eloszlásának varianciáját pedig már korábban fel´ırtuk. Ezeket figyelembe véve a negyedik tag értéke az átalak´ıtások után: E[(xj β − xj βê )(xk β − xk βê )] = E[xj (β − βê )xk (β − βê )] = E(xj (β − βê )(β − βê )T xTk ) = xj E((β − βê )(β − βê )T )xTk = xj σ 2 (XeT Xe )−1 xTk 25

Mivel az els˝o három tag értéke 0, ezért a becs¨ ult hibák kovarianciájának szám´ıtásánál csak a negyedik tagnak van szerepe. Tehát ha a két u ´jabb megfigyelés hibájának becslését az (Ye , Xe ) adatok alapján nyert βê becslés alapján számoljuk, akkor a becs¨ ult hibák kovarianciája: cove (eˆj , eˆk ) = σ 2 (δjk + xj (XeT Xe )−1 xTk ) Ha pedig a az utolsó nv megfigyelés hibájának becslését az els˝o ne megfigyelés alapján vett βê becslés alapján számoljuk, akkor a hiba eloszlása: Yv − Xv βê ∼ N (0, σ 2 (I + Xv (XeT Xe )−1 XvT )). Itt az Iσ 2 az egyes megfigyelések hibáinak felel meg, a σ 2 Xv (XeT Xe )−1 XvT származik a modell illesztéséb˝ol.

3.4. V´ altoz´ oszelekci´ o keresztvalid´ aci´ oval Tekints¨ uk most ismét a y = Xβ + e lineáris regresszió modellt, az el˝obbi jelölésnek megfelel˝oen. A β néhány komponense strukturálisan 0 lehet (azaz nem csak az esetlegesen becs¨ ult értéke alapján statisztikailag, hanem a tényleges értéke szerint is), ´ıgy a figyelembe vétele csak feleslegesen bonyolultabbá teszi a modellt. Kompaktabbá szeretnénk tenni a modellt azáltal, hogy elhagyjuk a β felesleges 0 komponenseit. Azt viszont nem tudhatjuk a lineáris regresszió elvégzése el˝ott, hogy van-e a β komponensei között 0, és ha igen, mennyi, ezért inkább azt csináljuk, hogy az összes lehetséges módon elhagyjuk az X és a β néhány egymásnak megfelel˝o komponensét (tehát a β komponensei között lehet nulla és nemnulla egyaránt), és megnézz¨ uk a komponensek elhagyásának a hatását az eredmény¨ ul kapott modell teljes´ıtményére nézve. Legyen egyes egy¨ utthatók elhagyásával sz˝ uk´ıtett, kompaktabbá tett modell alakja: y = Xα βα + e, ahol az α ⊆ {1, ..., p} egy dα elem˝ u index részhalmaz. Mivel {1, ..., p}-nek 2p −1 db nem¨ ures részhalmaza van, ezért elvileg 2p − 1 db részmodell ép´ıthet˝o. Jelölje az {1, ..., p} halmaz hatványhalmazát, vagyis a {1, ..., p} nem¨ ures részhalmazainak a halmazát A. Jelölje az α ∈ A koordináta részhalmazhoz tartozó modellt Mα . Az α számosságát jelöl˝o dα számot 26

pedig nevezz¨ uk az Mα modell dimenziójának. Az el˝obbi jelölésrendszer analógiájára legyen Pα = Xα (XαT Xα )−1 XαT (projekciós mátrix, az Xα képterére való vet´ıtés); wiα : a Pα projekciós mátrix i-edik a´tlóeleme; βˆα : a βα legkisebb négyzetek módszerével vett becslése mind az n megfigyelés figyelembe vételével ————– A cél annak az α∗ -gal jelölt indexhalmaznak és a hozzá tartozó M∗ modellnek a megtalálása, amelyikre α∗ a β strukturálisan nemnulla egy¨ utthatóinak indexeib˝ol a´ll. Az Mα modellek az M∗ optimális modell szerint 2 kategóriába sorolhatóak: • 1. kategória:

az α∗ -nak legalább egy eleme nem α-beli

• 2. kategória:

az α∗ mindegyik eleme α-beli

Az optimális modell nyilván II. kategóriáj´ u, hiszen az I. kategóriáj´ u modellek mindegyike hiányos. Ugyanakkor a II. kategóriában lév˝o modellek az optimálist kivéve mind t´ ul b˝ovek. Tehát az optimális modell II. kategóriáj´ u, ugyanakkor a legkisebb dimenziój´ u a II. kategóriáj´ u modellek köz¨ ul. ————– Ezt az optimális modellt keresztvalidációval szeretnénk meghatározni. Ezért a keresztvalidáció korábbiakban ismertetett elvének megfelel˝oen a rendelkezésre álló n elemszám´ u (y, X) adathalmazt két diszjunkt részre bontjuk, az nc elemszám´ u K konstrukciós halmazra és az nv elemszám´ u V validációs halmazra. Az Mα modellt a K konstrukciós adatrész alapján illesztj¨ uk, a generalizációs hibát pedig a V adatrészen számoljuk, mintha azok a jöv˝obeli, azaz a zi értékek volnának. A keresztvalidáció azt az Mα modellt választja ki, amelyre a generalizációs hiba V validációs halmazon számolt tapasztalati becslése minimális. Mivel azonban a jelen feladatban a generalizációs hiba és a generalizációs hiba becslése is f¨ ugg α ∈ A-tól, ezért egyáltalán nem egyértelm˝ u az, hogy pontosan mit ért¨ unk itt generalizációs hiba és generalizációs hiba becslése alatt. Ezt definiáljuk a következ˝okben. Legyen βˆ az (yi , xi ) adatok alapján illesztett lineáris regressziós fix modell paraméterének becslése, és legyen zi egy u ´jabb megfigyelés az xi magyarázó értékek mellett. Ekkor a zi ˆ a zi megfigyelés várható értéke pedig xi β. megfigyelés el˝orejelzése a βˆ alapján xi β, 3.4.1. Defin´ıci´ o. Az (yi , xi ) adatok alapján illesztett lineáris regressziós fix modell generalizációs hibájának ASPE-becslése (ASPE: average squared prediction error, átlagos 27

négyzetes predikciós hiba) az összes megfigyelésnek az el˝orejelzett érték¨ ukt˝ol vett négyzetes hibájának az átlaga. Képlettel: X ˆ = 1 ˆ2 ˆ ASP E (β) G (zi − xi β) n i . 3.4.2. Defin´ıci´ o. Az (yi , xi ) adatok alapján illesztett lineáris regressziós fix modell generalizációs hibájának CESPE-becslése (CESPE: conditional expected squared prediction error, feltételes várható négyzetes predikciós hiba) az összes megfigyelés várható értékének az el˝orejelzett érték¨ ukt˝ol vett négyzetes hibájának az átlaga, figyelembe véve a megfigyelések ei hibáinak a σ 2 varianciáját is. Képlettel: X ˆ = σ2 + 1 ˆ2 ˆ CESP E (β) G (xi β − xi β) n i Legyen ∆α,n = n1 (β T X T )M (Xβ) a becs¨ ult hiba. 3.4.3. Defin´ıci´ o. Az (yi , xi ) adatok alapján illesztett lineáris regressziós fix modell Γα,n átlagos generalizációs hibájának (feltétel nélk¨ uli teljes várható négyzetes predikciós hibájának, overall unconditional expected squared prediction error) a Γα,n = σ 2 +

1 2 σ dα + ∆α,n n

értéket nevezz¨ uk. Az átlagos generalizációs hiba tehát három komponensb˝ol tev˝odik o¨ssze: a megfigyelés hibájából (σ 2 ), a modellválasztásból származó bizonytalanságból ( n1 σ 2 dα ) és a becslési hibából (∆α,n = n1 (β T X T )M (Xβ)). A becslési hibára, valamint az átlagos generalizációs hibára vonatkozóan az alábbi mega´llap´ıtásokat tehetj¨ uk: • Minden II. kategóriáj´ u Mα modellre ∆α,n = 0 (és ´ıgy Γα,n = σ 2 + n1 σ 2 dα ); • Minden I. kategóriáj´ u Mα modellre ∆α,n > 0 és rögz´ıtett p mellett teljes¨ ul az is, hogy a lim inf n→∞ ∆α,n > 0; • Ha az α-ra az Mα egy I. kategóriáj´ u modell és a γ-ra az Mγ egy II. kategóriáj´ u modell, akkor a generalizációs hibára teljes¨ ul, hogy

Γα,n Γγ,n

> 1 minden n-re, de ez a

hányados tetsz˝olegesen közel ker¨ ulhet 1-hez; • Ha limn→∞

Γα,n Γγ,n

= 1, akkor az Mα és az Mγ modellek között nincs k¨ ulönbség a

predikciós képesség tekintetében; 28

• A Γα,n /Γγ,n > 1 egyenl˝otlenség akkor és csak akkor igaz, ha lim inf n→∞ ∆α,n > 0. ————– Tehát az K konstrukciós halmazra illesztett Mα modellt most az V validációs halmazon ˆ ASP E generalizációs hiba seg´ıtségével: kiértékelj¨ uk a G

ˆ ASP E (βˆα ) = 1 y V − yˆK 2 = 1 G α nv nv

V −1 V Vˆ (I − Q ) (y − X β )

α α α

ˆ ASP E értékeknek a V Egy Mα modellre a Γα,n a´tlagos generalizációs hiba becslése a G validációs halmaz nv méret˝ u összes (esetleg csak némelyik) részhalmazán vett a´tlaga. A keresztvalidáció által kiválasztott modell pedig az az Mα modell lesz, amelyre ez a hibabecslés minimális az α ∈ A indexek köz¨ ul. Ezt a módszert ‘leave-nv -out cross validation’-nek nevezz¨ uk és CV (nv )-vel rövid´ıtj¨ uk. A következ˝okben e módszer három változatát mutatjuk be, a végén pedig szimulációval tapasztalatilag is megvizsgáljuk, hogy e módszerek változatai milyen jól teljes´ıtenek az optimális modell megtalálása tekintetében. ————–

3.4.1. A CV (1) m´ odszer A CV (nv ) változatai köz¨ ul a legegyszer˝ ubb az az eset, amikor a validációra egyetlen megfigyelést tartunk fenn (vagyis nv ≡ 1). Ezt CV (1)-gyel jelölj¨ uk (lásd 1.2.1. fejezet). ˆ ASP E Tehát egy Mα modellre a Γα,n a´tlagos generalizációs hiba CV (1)-becslése a G értékeknek a V validációs halmaz összes egyelem˝ u részhalmazán vett átlaga. A defin´ıció alapján az o¨sszef¨ uggések felhasználásával a szám´ıtások elvégzése után Γα,n -re ezt a képletet kapjuk: 1X ˆ CV Γ [(1 − wiα )−1 (yi − xTiα βˆα )]2 . α,n = n i Belátható, hogy a ∀α ∈ A limn→∞ maxi≥n wiα = 0 feltétel mellett  Γα,n + op (1) ha Mα I. kategóriáj´ u; ˆ CV Γ = α,n  1 eT e + 2 σ 2 d − 1 eT P e + o ( 1 ) ha M II. kategóriáj´ u. n

n

α

n

α

p n

α

Ebb˝ol közvetlen¨ ul látható, hogy ˆ CV konzisztens becslése Γα,n -nak; • Mivel n1 eT e → σ 2 majdnem biztosan, a Γ α,n • Ha Mα II. kategóriáj´ u, akkor Γα,n → σ 2 ; 29

• Ha n → ∞, akkor 0-hoz tart annak a valósz´ın˝ usége, hogy a CV (1) módszer által választott modell I. kategóriáj´ u; • Ha n → ∞ és az M∗ optimális modell nem p méret˝ u, akkor nem tart az 1hez annak a valósz´ın˝ usége, hogy a CV (1) módszer által választott modell az M∗ optimális modell lesz (vagyis a CV (1) aszimptotikusan helytelen); • Ha az el˝obbi feltétel fennáll és e ∼ N (0, σ 2 In ), akkor annak a valósz´ın˝ usége, hogy a CV (1) módszer M∗ helyett inkább az Mα modellt választja: P(2k < χ2 (k))+o(1), ahol k = dα − dα∗ . Nyilvánvalóan P(2k < χ2 (k)) 6= 0 bármely k ≥ 1-re. Az utolsó pontból következik a CV (1) módszernek az a tulajdonsága, hogy ha az optimális modell nem p méret˝ u, akkor a CV (1) hajlamos annál b˝ovebb modellt választani. Ezért a CV (1) módszert konzervat´ıvnak nevezz¨ uk. Az aszimptotikus helytelenség azzal magyarázható, hogy a CV (1) módszer nem képes megk¨ ulönböztetni a II. kategóriáj´ u modelleket, ami pedig annak a következménye, hogy m´ıg a II. kategóriáj´ u modelleknél a modelleket megk¨ ulönböztet˝o kifejezésben a hibatag a másik taggal azonos nagyságrend˝ u, addig ugyanez az I. kategóriáj´ u modelleknél kisebb nagyságrend˝ u.

3.4.2. A BICV (nv ) m´ odszer Az el˝oz˝o fejezetben láttuk, hogy a CV (1) módszer aszimptotikusan helytelen és konzervat´ıv. A CV (1) módszernek ez a hiányossága kijav´ıtható azzal, hogy nagy validációs halmazt használunk (vagyis nv mérete nagy és nc mérete viszonylag kicsi). Az eddigiekben a validációt elvégezt¨ uk a validációs halmaz mind az nnv db részhalmazára. Azonban ha n → ∞, akkor ennek az elvégzése igencsak szám´ıtásigényes. Ehelyett keres¨ unk egy olyan módszert, ami a gyakorlatban is alkalmazható nagyon nagy méret˝ u validációs halmaz esetén is. 3.4.4. Defin´ıci´ o. Válasszunk ki az {1, ..., n} halmazból b db olyan nv elem˝ u részhalmazt, amelyre a következ˝o ”egyens´ ulyi” feltételek érvényesek: a) minden i ∈ {1, ..., n} ugyanannyi B-beli halmaznak az eleme; b) minden (i, j) ∈ {1, ..., n}2 pár ugyanannyi B-beli halmazban szerepel egyszerre. Az egyens´ ulyi feltételeknek eleget tev˝o halmazok halmazát jelölj¨ uk B-vel. Válasszuk azt a modellt, amelyre a

1 X ˆ BICV

y V − yˆαK 2 Γ = α,n nv b V∈B

30

minimális. Az ´ıgy meghatározott B halmaz szerinti keresztvalidációs becslést BICV (nv ) módszernek (Balanced Incomplete CV (nv ) Method) nevezz¨ uk és BICV (nv )-vel jelölj¨ uk.

BICV (nv ) esetén tehát a Γα,n becslése tehát a B minden nv elemszám´ u részhalmazára ˆ ASP E -érték a´tlaga. A gyakorlatban u kiszámolt b darab G ´gy választjuk a B halmazt, hogy b az n lineáris f¨ uggvénye, azaz b = O(n) legyen. ————– A következ˝o eredmény azt mutatja, hogy a BICV (nv ) módszer eredménye aszimptotikusan helyes, ha nc → ∞ és

nv n

→ 1.

3.4.5. T´ etel. Ha a ∆α,n aszimptotikusan sem nulla, és a tervmátrixból számolt kovariancia és annak inverze véges és a sajátértékei sem tartanak nullához, továbbá teljes¨ ul, hogy a konstrukciós és a validációs magyarázó változók viselkedése az alábbi értelemben hasonló,

1 X

X 1

lim max xi xTi − xi xTi = 0 . n→∞ V∈B nv

n c i∈V i∈K és ha az nv -t u ´gy választjuk meg, hogy a

nv n

→ 1 és a nc → ∞ teljes¨ uljön,

akkor igaz, hogy: a) ha az Mα I. kategóriáj´ u, akkor létezik olyan Rn ≥ 0, hogy ˆ BICV = 1 eT e + ∆α,n + op (1) + Rn Γ α,n n ; b) ha az Mα II. kategóriáj´ u, akkor ˆ BICV = 1 eT e + n−1 dα σ 2 + op (n−1 ) Γ α,n v c n ; c) ha n → ∞, akkor 1-hez tart annak a valósz´ın˝ usége, hogy a kiválasztott modell optimális. ————– Most magyarázatot adunk arra, hogy a BICV (nv ) miért jav´ıt a CV (1)-en és hogy az nc -t és az nv -t miért a fenti feltételeknek megfelel˝oen kell választani. Az nc → ∞ feltételre a modellillesztés konzisztenciájának biztos´ıtása miatt van sz¨ ukség, ez viszont még nem ad semmilyen információt az nc és az nv relat´ıv arányra 31

vonatkozóan. Nagy nc -t mégsem érdemes használni, amit a következ˝oképpen indoklunk meg: egyrészt, ha nc -t nagynak választjuk, akkor a II. kategóriáj´ u modellek esetén a Γα,nc = σ 2 +

1 2 σ dα nc

optimalizálandó célf¨ uggvény lapos, és ezért nehéz megtalálni a Γα,nc minimumát, másrészt pedig, minél több adatot használunk akár a modellillesztésnél, akár a validációnál, annál pontosabb eredményt kapunk. A modellillesztésnél viszont nincs sz¨ ukség nagy pontosságra, hiszen az illesztés után a kiválasztott modellt el˝orejelzési célból u ´gyis u ´jraillesztj¨ uk a teljes adathalmazon, a validációnál viszont ahhoz, hogy megb´ızható eredményt kapjunk, a generalizációs hibát pontosan kell tudni értékelni. Ezért érdemes nagy nv -t és viszonylag kicsi nc -t választani. De o¨nmagában az sem elég, ha nagy nv -t és viszonylag kis nc -t használunk, az is sz¨ ukséges, hogy

nv n

→ 1 legyen. Ha

nv n

nem tart 1-hez, akkor ugyanaz a probléma fordul el˝o,

mint CV (1) esetén: a módszer inkonzisztens lesz, vagyis nem képes megk¨ ulönböztetni a II. kategóriáj´ u modelleket, azaz a II. kategóriáj´ u modelleknél a modelleket megk¨ ulönböztet˝o kifejezésben a hibatag a többi taggal azonos nagyságrend˝ u. Bizonyos algebrai számolások elvégzése után azt kapjuk, hogy a II. kategóriáj´ u Mα modellek esetén 1 1 ˆ BICV Γ = eT e + dα σ 2 + εα,n , α,n n nc ahol a hibatag εα,n Ha

nv n

(1 + nc )dα σ 2 1 = − eT Pα e + op nc (n − 1) n 1 2 σ dα tag nc 1 2 σ dα tagnál, nc

6→ 1, akkor a εα,n hibatag és a

csak akkor kisebb nagyságrend˝ ua

1 nc

.

azonos nagyságrend˝ u, Az εα,n hibatag ha

nc n

→ 0, vagyis ha

nv n

→ 1.

ˆ CV a Γα,n−1 -nek a becslése, Végezet¨ ul nem szabad megfeledkezn¨ unk arról sem, hogy Γ α,n nem pedig Γα,n -nek, mivel CV (1) az átlagos generalizációs hibát egy n − 1 méret˝ u minta ˆ BICV a Γα,nc -nek a becslése, nem pedig Γα,n -nek, alapján becsli meg. Hasonlóképpen Γ α,n

mivel BICV (nv ) az a´tlagos generalizációs hibát nc méret˝ u minták alapján becsli meg. Csakhogy am´ıg CV (1) esetén a Γα,n−1 és Γα,n közti k¨ ulönbség aszimptotikusan elhanyagolható, addig BICV (nv ) esetén a Γα,nc és Γα,n közti k¨ ulönbség csak pontosan akkor nem elhanyagolható, ha az

nc n

nem tart 1-hez.

3.4.3. M´ as CV (nv ) m´ odszerek Láthattuk, hogy a BICV (nv ) kijav´ıtja a CV (1) hiányosságait, jobb eredményeket ad. Ezért sokszor célszer˝ u (volna) használni. Azonban ehhez sz¨ ukség van az egyens´ ulyi feltéte32

leknek eleget tev˝o B halmazra. Ilyen B el˝oáll´ıtása alkalmanként nehézkes, t´ ul nagy elemszám´ u, vagy éppen a rendelkezésre a´lló tulajdonságai okán nem indokolható a használata. Ezért két olyan alternat´ıvát mutatunk, amelynél ilyen kiegyens´ ulyozott B halmazra nincs sz¨ ukség. Monte Carlo CV (nv ) m´ odszer 3.4.6. Defin´ıci´ o. Válasszunk ki véletlenszer˝ uen (visszatevéssel vagy visszatevés nélk¨ ul) b db nv méret˝ u részhalmazt az {1, ..., n} halmazból és ezen halmazok halmazát jelölj¨ uk R-rel. Válasszuk azt a modellt, amelyre a

1 X CCV ˆM

y V − yˆαK 2 = Γ α,n nv b V∈R minimális. Az ´ıgy meghatározott R halmaz szerinti CV-becslést Monte Carlo-módszernek nevezz¨ uk és M CCV (nv )-vel jelölj¨ uk. Más szavakkal ez a konstrukció azt jelenti, hogy az adathalmazt b-szer véletlenszer˝ uen felosztjuk nv méret˝ u részhalmazokra és a felosztásokra vessz¨ uk a generalizációs hiba becsléseinek átlagát. A M CCV (nv ) módszer tehát csak abban k¨ ulönbözik a BICV (nv ) módszert˝ol, hogy m´ıg a BICV (nv ) módszernél a validációs mintarészeket tartalmazó halmazt jól meghatározott egyens´ ulyi feltételek szerint választjuk ki, addig az M CCV (nv ) módszernél véletlenszer˝ uen. Ezen módszert vizsgálva a 3.4.6. tételhez nagyon hasonló eredményeket kapunk: 1-hez tart annak a valósz´ın˝ usége, hogy a kiválasztott modell optimális, azzal a feltétellel, hogy ha n → ∞, akkor a

n2 bn2c

→ 0. De mint látható, e sz¨ ukséges feltétel megszor´ıtásokat ró a

b-re és az nc -re is: minél kevesebb adatot használunk fel a modellillesztéshez (nc ), annál több felosztásra van sz¨ ukség (b). Approxim´ alt CV (nv ) m´ odszer 3.4.7. Defin´ıci´ o. Válasszuk azt a modellt, amelyre a

2 1 n + nc X

AP CV ˆ ˆ wiα (yi − xi,α βˆα )2 Γα,n = y − Xα βα + n nc (n − 1) i mennyiség minimális. A Γα,n ez utóbbi formula szerinti keresztvalidációs becslését approximált CV-módszernek nevezz¨ uk és AP CV (nv )-vel jelölj¨ uk.. CV ˆ AP ˆ BICV Belátható, hogy Γ = Γ abban a speciális esetben, ha a konstrukciós és a vaα,n α,n

lidációs adatrész kovarianciamátrixa egyenl˝o minden V ∈ B-re, vagyis 1 X 1 X xi xTi = xi xTi . nv i∈V nc i∈K 33

ˆ BICV -t helyettes´ıtj¨ ˆ AP CV -vel, akkor a tétel eredményei is telHa a 3.4.6. tételben a Γ uk Γ α,n α,n jes¨ ulnek, feltéve, hogy a tétel feltételei fennállnak. Az AP CV (analitikusan approximált CV) név onnan származik, hogy a keresztvalidációs hiba normális esetben érvényes ekvivalens alakját a´ltalános´ıtottuk a nemnormális eloszlások esetére is. Megjegyzések: • Az AP CV el˝onye, hogy konzisztens és kevesebb szám´ıtást igényel, mint a BICV vagy az M CCV . • Az AP CV hátránya, hogy a lineáris modellekr˝ol nem könnyen a´ltalános´ıtható más modellekre. • Az AP CV teljes´ıtménye kevésbé jó, mint az M CCV -é, ami azt jelzi, hogy a jó teljes´ıtményhez az AP CV -nek nagyobb n-et igényel, mint az M CCV . Ez a 3.4.4. fejezetben elvégzett szimulációból is kider¨ ul.

3.4.4. Szimul´ aci´ o Az eddigiek interpretálására y = Xβ + e lineáris regressziós modellhez elvégz¨ unk egy szimulációt p = 5, n = 40, nv = 25, nc = 15 paraméterekkel, vagyis tekintj¨ uk ezt: yi = β1 x1i + β2 x2i + β3 x3i + β4 x4i + β5 x5i , ahol i = 1, ..., 40, a hibatagra: ei ∼ N (0, 1), az xki magyarázó változókra: x1i ≡ 1, a többit (k = 2, ..., 5, i = 1, ..., 40) pedig a következ˝o táblázatból vessz¨ uk:

34

x2

x3

x4

x5

.3600

.5300

1.0600

.5326

1.3200

2.5200

5.7400

3.6183

.0600

.0900

.2700

.2594

.1600

.4100

.8300

1.0346

.0100

.0200

.0700

.0381

.0200

.0700

.0700

.3440

.5600

.6200

2.1200

1.4559

.9800

1.0600

2.8900

4.0182

.3200

.2000

.7600

.4600

.0100

.0000

.0700

.1540

.1500

.2500

.5000

.6516

.2400

.2800

.5900

.0611

.1100

.3500

.4000

.1922

.0800

.1300

.2800

.0931

.6100

.8500

.4900

.0538

.0300

.0300

.2300

.0199

.0600

.1100

.5000

.0419

.0200

.0800

.2500

.1093

.0400

.2400

.0800

.0328

.0000

.0200

.0400

.0797

.0900

.1800

.5900

.1855

.0200

.1600

.2400

.1572

.0200

.1100

.2100

.0998

.0500

.2400

.4300

.2804

.1100

.3900

.2900

.2879

.1800

.1100

.4300

.6810

.0400

.0900

.2300

.3242

.8500

1.3300

2.7000

2.6013

.1700

.3200

.6600

.4469

.0800

.1200

.4900

.2436

.3800

.1800

.4900

.4400

.1100

.1300

.1800

.3351

.3900

.3800

.9900

1.3979

.4300

.4600

1.4700

2.0138

.5700

1.1600

1.8200

1.9356

.1300

.0300

.0800

.1050

35

.0400

.0500

.1400

.2207

.1300

.1800

.2800

.0180

.2000

.9500

.4100

.1017

.0700

.0600

.1800

.096

Mivel az egész fejezetben azt vizsgáljuk, hogy mely magyarázó változók hagyhatók el (ekkor a megfelel˝o βk értéke 0), ezért most az {x1 , ..., x5 } magyarázó változók köz¨ ul néhány lehetséges módon kiválasztott részhalmazra három k¨ ulönböz˝o keresztvalidációs módszerrel elvégezz¨ uk a modellillesztést, ezek köz¨ ul a legjobb predikciós képesség˝ u modellt választjuk ki, és megnézz¨ uk, hogy ez a modell optimális-e. A három használt módszer: CV (1), M CCV (nv ) (ahol b = 2n a CV-ismétlések száma) és AP CV (nv ). 1000 szimuláció alapján az alábbi táblázat megadja a k¨ ulönböz˝o esetekben mindegyik modell kiválasztásának a tapasztalati valósz´ın˝ uségeit.

beta = (2, 0, 0, 4, 0)

=(2, 0, 0, 4, 8)

=(2, 9, 0, 4, 8)

CV

MCCV

APCV

Optimal .484

.934

.501

1, 2, 4

II .133

.025

.116

1, 3, 4

II .127

.026

.085

1, 4, 5

II .138

.012

.172

1, 2, 3, 4

II .049

.000

.038

1, 2, 4, 5

II .029

.001

.039

1, 3, 4, 5

II .030

.002

.037

1, 2, 3, 4, 5

II .009

.000

.012

Optimal .641

.947

.651

1, 2, 4, 5

II .158

.032

.161

1, 3, 4, 5

II .138

.020

.131

1, 2, 3, 4, 5

II .063

.001

.057

I .005

.016

.000

1, 2, 4, 5

Optimal .801

.965

.818

1, 3, 4, 5

I .005

.002

.000

II .189

.017

.182

1, 2, 3, 5

I .000

.002

.000

1, 2, 4, 5

I .000

.005

.000

1, 4

1, 4, 5

1, 4, 5

1, 2, 3, 4, 5 =(2, 9, 6, 4, 8)

36

1, 3, 4, 5

I .015

.045

.001

1, 2, 3, 4, 5 Optimal .985

.948

.999

3.4.5. A szimul´ aci´ o´ ertelmez´ ese 1. Az optimális modell kiválasztásának a valósz´ın˝ usége az M CCV esetén a legnagyobb (kivéve azt az esetet, amikor a legnagyobb modell az optimális) és az AP CV mindegyik esetben enyhén jobban teljes´ıt a CV (1)-nél. 2. I. kategóriáj´ u (vagyis helytelen) modell kiválasztásának a valósz´ın˝ usége mindegyik módszer mindegyik esetében elhanyagolható. 3. A várakozásnak megfelel˝oen a CV (1) feleslegesen nagy modelleket hajlamos kiválasztani. Az optimális modell kiválasztásának a valósz´ın˝ usége az CV (1) esetén nagyon alacsony (kisebb 0.5-nél). A β-nak minél több nulla komponense van, annál rosszabb a CV (1) teljes´ıtménye. Másfel˝ol, az M CCV teljes´ıtménye stabil és a CV (1)énél sokkal jobb minden olyan esetben, amikor az optimális modell nem a legnagyobb modell. 4. Az AP CV teljes´ıtménye csak enyhén jobb a CV (1)-énél annak ellenére, hogy az AP CV konzisztens, a CV (1) pedig inkonzisztens. Ez azt jelzi, hogy a jó teljes´ıtményhez az AP CV nagyobb mintaméretet igényelhet, mint az M CCV .

37

Irodalomjegyz´ ek [1] J. Larsen C. Goutte, On Optimal Data Split for Generalization and Estimation and Model Selection, IEEE-SigProc 1999, pp. 225-234. [2] J. Shao, Linear Model Selection by Cross-Validation, Journal of the American Statistical Association, Vol. 88, No. 422 (Jun., 1993), pp. 486-494. [3] B. Efron and G. Gong A Leisurely Look at the Bootstrap, the Jackknife, and CrossValidation, TAS, Vol. 37, No. 1 (Feb., 1983), pp. 36-48. [4] R. R. Picard and K. N. Berk Data Splitting, TAS, Vol. 44, No. 2 (May, 1990), pp. 140-147. [5] B. Efron and R. Tibshirani Improvements on Cross-Validation: The .632+ Bootstrap Method, JASA, Vol. 92, No. 438 (Jun., 1997), pp. 548-560. [6] B. M. Stone Cross-Validatory Choice and Assessment of Statistical Predictions, J. of Roy. Stat. Soc. Ser. B (Methodological), Vol. 36, No. 2(1974), pp. 111-147. [7] Pröhle Tamás, Cross-validáció és szimuláció ..., Kézirat, 2014 [8] Colin N. Park and Arthur L. Dudycha A Cross-Validation Approach to Sample Size Determination for Regression Models Journal of the American Statistical Association, Vol. 69, No. 345 (Mar., 1974), pp. 214-218.

38

Statisztikai modellek értékelő

Recommend Documents