I Tendenciák a szóródásban .......................................................................................................... 5 1 A sokaság ...................................................................................................................................... 6 1.1 Az adatbázis ........................................................................................................................... 7 1.2 Műveletek sokaságokkal ........................................................................................................ 8 1.3 Centrális tendencia és variancia ............................................................................................. 9 1.4 A sokaság eloszlása .............................................................................................................. 11 1.4.1 Normális eloszlás .......................................................................................................... 12 1.4.2 Gamma-eloszlás ............................................................................................................ 13 1.4.3 Chi-négyzet eloszlás ...................................................................................................... 13 1.4.4 Exponenciális eloszlás................................................................................................... 14 1.4.5 Weibull eloszlás ............................................................................................................ 14 1.4.6 Béta-eloszlás.................................................................................................................. 14 1.4.7 Student-eloszlás ............................................................................................................. 14 1.4.8 F-eloszlás ....................................................................................................................... 15 1.4.9 Binomiális eloszlás ........................................................................................................ 15 1.4.10 Poisson-eloszlás .......................................................................................................... 16 1.4.11 Probability plot ............................................................................................................ 16 2 Sokaság és minta ......................................................................................................................... 17 2.1 Statisztikai becslések ............................................................................................................ 17 2.1.1 Becslési kritériumok és módszerek ............................................................................... 17 2.1.2 Intervallumbecslés ......................................................................................................... 19 2.2 Statisztikai hipotézisek tesztelése ......................................................................................... 20 3 A szóródás többváltozós jellemzése ............................................................................................ 23 3.1 A variancia többváltozós általánosításai .............................................................................. 23 3.1.1 A kovariancia fogalma és tulajdonságai ........................................................................ 23 3.1.1.1 A kovariancia lineáris dekompozíciója .................................................................. 24 3.1.1.2 A várható érték konfidencia tartománya ................................................................ 26 3.1.1.3 Lineáris korreláció.................................................................................................. 28 3.1.2 Az általánosított variancia ............................................................................................. 29 3.1.2.1 A spektrális felbontás ............................................................................................. 31 3.1.2.2 A szóródási mátrix ................................................................................................. 33 3.1.2.3 Többváltozós normalitás ........................................................................................ 34 3.2 A variancia tömörítése: főkomponens változók elemzése ................................................... 35 3.2.1 Adatredukció és veszteség ............................................................................................ 38 3.2.2 Az egyszerű struktúra igénye ........................................................................................ 38 3.2.3 Függelék: A kanonikus variancia .................................................................................. 42 3.2.4 Függelék: A szinguláris érték felbontás ........................................................................ 42 3.2.5 Gyakorló feladatok ........................................................................................................ 44 3.3 A kanonikus korreláció ........................................................................................................ 48 3.3.1 A kanonikus súly (loading) ........................................................................................... 50 3.3.2 A kanonikus korrelációk tesztelése ............................................................................... 50 3.3.3 Gyakorló feladatok ........................................................................................................ 54 4 Szóródás csoportosított sokaságban ............................................................................................ 56 4.1 A kovariancia csoportközi struktúrája.................................................................................. 56 4.2 Diszkriminancia változók ..................................................................................................... 58 4.2.1 A Mahalanobis távolság ................................................................................................ 60
4.2.2 Diszkrimináló dimenziók feltárása ................................................................................ 61 4.2.3 Gyakorló feladatok ........................................................................................................ 62 4.3 Klaszteranalízis .................................................................................................................... 63 4.3.1 A megfigyelési egységek klaszterezése ........................................................................ 63 4.3.1.1 Agglomeratív klaszterformálás: láncmódszer ........................................................ 64 4.3.1.2 Divizív jellegű módszerek ...................................................................................... 69 4.3.2 A változók klaszterezése ............................................................................................... 69 4.3.3 Blokk-klaszterezés ........................................................................................................ 71 4.3.4 Gyakorló feladatok ........................................................................................................ 75 5 Kategóriák korrespondencia analízise ......................................................................................... 78 5.1 Egyszerű korrespondencia analízis ...................................................................................... 78 5.1.1 Gyakorisági tábla a többváltozós térben ....................................................................... 79 5.1.2 Korrespondencia tengelyek és koordináták ................................................................... 81 5.1.3 Ábrázolás a redukált térben ........................................................................................... 84 5.1.4 A korrespondencia mátrix reprodukálása ...................................................................... 86 5.1.5 Előrejelzés: kiegészítő pontok ábrázolása ..................................................................... 87 5.1.6 Ábrázolás egyetlen dimenzióban .................................................................................. 88 5.2 Többszörös korrespondencia analízis................................................................................... 91 5.2.1 Korrespondenciák feltárása ........................................................................................... 93 5.2.2 Előrejelzés prediktív térképpel .................................................................................... 101 6 Minta-likelihood-sokaság .......................................................................................................... 104 6.1 Likelihoodelméleti fogalmak ............................................................................................. 104 6.1.1 A maximum likelihood becslés ................................................................................... 105 6.1.2 A „score” függvény tulajdonságai ............................................................................... 106 6.1.3 A Cramer-Rao egyenlőtlenség .................................................................................... 107 6.1.4 A maximum likelihood normálegyenletek .................................................................. 108 6.1.5 Maximált likelihood normalitás esetén ....................................................................... 109 6.2 Hipotézisek likelihood alapú tesztelése .............................................................................. 110 6.2.1 A likelihood-arány teszt .............................................................................................. 110 6.2.2 A Lagrange-multiplikátor elv ...................................................................................... 112 6.2.3 A Wald elv .................................................................................................................. 113 6.3 Gyakorló feladatok ............................................................................................................. 113 II AZ ÁLTALÁNOS LINEÁRIS MODELL ......................................................................................... 115 7 Nevezetes eloszlások regressziós modelljei .............................................................................. 116 7.1 Normális eloszlás, lineáris regresszió ................................................................................ 117 7.2 Binomiális eloszlás, logit regresszió .................................................................................. 117 7.3 Poisson eloszlás, Poisson regresszió .................................................................................. 118 8 Lineáris regressziószámítás ....................................................................................................... 120 8.1 Reziduális jellemzők véges sokaságban ............................................................................. 120 8.2 Speciális magyarázó változók kezelése.............................................................................. 121 8.3 Paraméterbecslés ................................................................................................................ 122 8.3.1 A variancia-minimum kritérium.................................................................................. 122 8.3.2 Legkisebb négyzetek kritérium ................................................................................... 123 8.3.3 A magyarázó változók körének bővítése .................................................................... 127 8.4 Standardizált regressziós paraméterek ............................................................................... 127 8.5 A modell magyarázó ereje .................................................................................................. 128 8.6 A háromváltozós modell kétváltozós blokkjai ................................................................... 130 2
8.6.1 A parciális kovariancia ................................................................................................ 130 8.6.2 Útelemzés .................................................................................................................... 130 8.6.3 A parciális determináció .............................................................................................. 131 8.6.4 Kanonikus korrelációk, reziduális kovariancia és Wilks-lambda ............................... 133 8.7 A “HAT” mátrix ................................................................................................................. 134 8.8 Valószínűségi következtetések ........................................................................................... 136 8.8.1 Pontbecslések .............................................................................................................. 136 8.8.2 Intervallumbecslés ....................................................................................................... 139 8.8.3 Egymásba ágyazott modellek szelektálása .................................................................. 139 8.8.4 Releváns magyarázó változó elhagyása ...................................................................... 140 8.9 Modelldiagnosztika ............................................................................................................ 142 8.9.1 Az “outlierek” vizsgálata ............................................................................................ 142 8.9.1.1 Reziduális statisztikák .......................................................................................... 142 8.9.1.2 Leverage mértékek ............................................................................................... 143 8.9.1.3 Influence mértékek ............................................................................................... 144 8.10 A multikollinearitás .......................................................................................................... 146 8.10.1 A változók körének kialakítása ................................................................................. 147 8.10.1.1 Stepwise algoritmusok ....................................................................................... 147 8.10.1.2 Részmodellek szelektálása ................................................................................. 147 8.10.2 Főkomponensek a regressziós modellben ................................................................. 149 8.11 Az általánosított legkisebb négyzetek módszere .............................................................. 152 8.12 Rangsorolás preferált párosok alapján ............................................................................. 156 8.12.1 Legkisebb négyzetek megoldás ................................................................................. 156 8.12.2 Maximum likelihood megközelítés ........................................................................... 157 8.13 Gyakorló feladatok ........................................................................................................... 160 9 Az általános lineáris modell jellemzése .................................................................................... 164 9.1 A paraméterek maximum likelihood becslése.................................................................... 164 9.2 Illeszkedés és deviancia ..................................................................................................... 166 9.3 Nemlineáris legkisebb négyzetek módszere ...................................................................... 168 III KLASSZIFIKÁCIÓS MÓDSZEREK ................................................................................ 171 10 Logisztikus regresszió ............................................................................................................. 172 10.1 Dichotom logisztikus regresszió ...................................................................................... 172 10.1.1 Paraméterbecslés ....................................................................................................... 173 10.1.2 Nominális magyarázó változók és interakciók .......................................................... 174 10.1.3 Konfidencia intervallumok ........................................................................................ 175 10.1.4 Hipotézisek tesztelése................................................................................................ 175 10.1.5 Reziduális jellemzők ................................................................................................. 177 10.2 Kontrollált párosítások logit modellezése ........................................................................ 181 10.3 Polichotom logisztikus regresszió .................................................................................... 183 10.3.1 Nominális kategóriák logitjai .................................................................................... 183 10.3.2 Ordinális kategóriák kumulatív logitjai..................................................................... 184 10.3.3 Ordinális kategóriák párosított logitjai ...................................................................... 185 10.4 Egzakt, kismintás dichotom logit regresszió .................................................................... 189 10.4.1 A feltételes likelihood ............................................................................................... 189 10.4.2 Egzakt, feltételes következtetés a paraméterekre ...................................................... 191 10.5 Gyakorló feladatok ........................................................................................................... 193 11 Bayes - klasszifikáció .............................................................................................................. 194 3
11.1 Normalitás alapú kvadratikus és lineáris klasszifikáció ................................................... 195 11.2 Mintavételi vonatkozások ................................................................................................ 200 11.2.1 Homogenitásvizsgálat ............................................................................................... 200 11.2.2 A diszkriminátor változók szelektálása ..................................................................... 201 11.2.3 A külső szóródás tesztelése ....................................................................................... 201 11.2.4 Diszkrimináló dimenziók .......................................................................................... 202 11.2.5 Jackknife klasszifikáció ............................................................................................. 203 12 K-középpontú klaszterezés ...................................................................................................... 209 IV Faktoranalízis ........................................................................................................................ 213 13 A faktormodell ........................................................................................................................ 214 13.1 A faktorstruktúra .............................................................................................................. 216 13.2 A faktorok meghatározatlansága ...................................................................................... 216 13.3 A faktormodell identifikálhatósága .................................................................................. 217 13.4 Image-analízis .................................................................................................................. 218 13.5 A becsült faktor-score ...................................................................................................... 219 13.6 Parciális korrelálatlanság.................................................................................................. 219 14 Exploratív faktoranalízis ......................................................................................................... 221 14.1 A kanonikus faktormodell ................................................................................................ 221 14.2 Ortogonális forgatás az egyszerű struktúráért .................................................................. 222 14.3 „Oblique” rotáció, korrelált faktorokért ........................................................................... 224 14.3.1 A direct quartimin eljárás .......................................................................................... 225 14.3.2 A promax módszer .................................................................................................... 225 14.3.3 Orthoblique rotáció ................................................................................................... 226 14.3.4 Skálaértékelés ............................................................................................................ 226 14.4 Faktormegoldások ............................................................................................................ 227 14.5 Főkomponensanalízis ....................................................................................................... 227 14.6 A főfaktorok módszere ..................................................................................................... 230 14.7 Maximum likelihood faktoranalízis ................................................................................. 232 14.8 Image-faktoranalízis: „Second generation Little Jiffy” ................................................... 235 14.8.1 Image- és anti-image korreláció ................................................................................ 235 14.8.2 Harris-faktorok .......................................................................................................... 236 14.9 Alfa-faktoranalízis ............................................................................................................ 240 14.10 Gyakorló feladatok ......................................................................................................... 240 14.11 Függelék ......................................................................................................................... 243 15 Konfirmatív faktoranalízis ...................................................................................................... 244 15.1 A paraméterek becslése .................................................................................................... 245 15.2 A faktormodell illeszkedése ............................................................................................. 247 15.2.1 Önálló indexek .......................................................................................................... 248 15.2.2 Növekmény jellegű indexek ...................................................................................... 250 15.2.3 A nemcentralitás szerepe az illeszkedésvizsgálatban ................................................ 251 15.2.4 Parszimónia-érzékeny illeszkedésvizsgálat ............................................................... 252 15.2.5 A reziduális mátrix .................................................................................................... 253 16 Dichotom (boolean) faktoranalízis .......................................................................................... 258
4
I Tendenciák a szóródásban
5
1 A SOKASÁG 1 A sokaság A statisztika feladata a valóság jelenségeinek tömör, számértékekkel való jellemzése. Ennek során minél kevesebb adathordozóba sűrítjük a rendelkezésre álló információ minél nagyobb hányadát, hogy a vizsgált jelenség áttekinthetővé, kezelhetőbbé váljon. Ha az információ tömörítése csekély veszteséggel jár, akkor a jelenségben rejlő tendenciákra megbízhatóan tudunk következtetni. A tömörség, az egyértelműség és az összehasonlíthatóság alapját a számértékek teremtik meg. A statisztikai elemzés első mozzanata tehát a valóság számokra való leképezése, amit operacionalizálásnak nevezünk. A számszerű jellemzés kiindulópontja az információ megszerzése. Ezt megfigyelés és mérés útján érjük el, melyek két kérdést vetnek fel. Egyrészt, hogy kikre vonatkozik a vizsgálat, másrészt, hogy mely tulajdonságaik érdekesek számunkra. Azon egyedeket akikre megfigyelésünk irányul, megfigyelési egységeknek, azokat a vizsgálati szempontokat pedig, amelyek tekintetében a megfigyelési egységek más-más sajátossággal, változattal bírnak, változóknak, másképpen ismérveknek nevezzük. A megfigyelési egységek összessége statisztikai sokaságot alkot. A megfigyelés eredményeképpen derül ki, hogy egy kérdéses egyed az adott szempont szerint milyen konkrét sajátosságot mutat. Ezt a megfigyelés kimenetelének nevezzük. Az ismérv tehát azon lehetséges kimenetelek együttese, amelyek valamelyike (és csak egyike) a kérdéses szempont tekintetében adott egyedhez egyértelműen hozzárendelhető. Az ismérv lehetséges változatainak rendezett felsorolását az ismérv skálájának nevezzük. Ha az ismérvváltozatok egymásutániságának tárgyi tartalma van (pl. időbeli, vagy ordinális), akkor az ennek megfelelő elrendezésük kézenfekvő. A skála lehet adottság, de magunk is definiálhatunk skálákat. Statisztikai értelemben a mérés nem jelent mást, mint egy megfigyelési egységhez hozzárendelni a kérdéses ismérv skálájának a megfelelő elemét. Jelölje a továbbiakban x az érdeklődésünk homlokterében álló változót. Ekkor x tekintetében az “i” egyedre vonatkozó mérés eredményét xi azonosítja. Mennyiségi jellegű ismérv skáláját ismérvértékek, nem mennyiségi jellegű változó skáláját pedig kategóriák alkotják. Mennyiségi változók között megkülönböztetünk folytonos, és diszkrét változókat. A folytonos változók a számegyenes egy meghatározott intervallumán bármely értéket fölvehetnek, míg a diszkrét változók lehetséges kimenetelei fölsorolhatók. Természetesen folytonos mennyiségi változók kimenetelei szegmentálhatók, és diszkrét mennyiségi ismérvek változatai is definiálhatnak kategóriákat. A statisztikai ismérvek egy speciális esetét az ún. alternatív, binomiális ismérvek képezik, amelyeknek két, és csak két kimenetele lehetséges. Ilyen pl. a nem szerinti hovatartozás, mely szerint valaki vagy férfi, vagy nő. Az alternatív ismérv fogalmához nevezetes, a csak 0 és 1 értékekből álló mérési skála kötődik: ha ugyanis az alternatív ismérv egyik kimenetelét 0 azonosítja, akkor a másik kimenetelt az 1 egyértelműen meghatározza. A (0,1) értékű bináris változókat dummy, másképpen indikátor változóknak nevezzük. Attól függően, hogy egy mérési skála a sokaság milyen mélységű elemzését teszi lehetővé, a mérési skálák az alábbiak szerint osztályozhatók, hierarchizálhatók. Nominális skála: nem mennyiségi kategóriákból álló skála, ahol a kategóriák egymáshoz való helyzetének a megváltoztatása nincs hatással a sokaság jellemzőire. A megyéket pl. bármilyen sorrendben felsorolhatjuk, ezért kézenfekvő a semleges, de a keresést meggyorsító betűrendi sorrend alkalmazása. Ordinális skála: olyan mérési skála, amelynek lehetséges változatai a skálán fölsorolt sokaságot nem csupán tagolják, hanem az egyes részekhez való tartozástól függően rangsorolják is. Az ordinális skála változatainak a sorrendisége kötött. Egy futballmérkőzés lehetséges kimenetelei – vereség, döntetlen, győzelem - ordinális skálát alkotnak. Intervallum skála: mennyiségi skála, amelynek a zéruspontja nem rögzített, és így csak az egyes ismérvértékek egymástól való távolsága informatív. Ilyenek pl. a hőmérséklet mérésére szolgáló skálák. Arány skála: a legmagasabb szintű mennyiségi skála, amelynek már a zéruspontja rögzített, tehát az egyes ismérvértékek egymáshoz való arányának is információtartalma van. Arányskálán mérjük pl. a gazdasági vállalkozások értékesítésből származó nettó árbevételét, tárgyi eszközeik értékét, adófizetési kötelezettségüket, vagy a kifizetett osztalék mértékét. Annál magasabb szintű egy mérési skála a hierarchiában, minél több elemzési lehetőséget rejt magában. A magasabb szintű skálák tartalmazzák az alacsonyabb szintűek által nyújtott elemzési lehetőségeket. Így az intervallum és arányskála eleve ordinalitást hordoz magában, s így a sokaságot nem csupán tagolja, hanem egyben rangsorolja is. A mérési skála a sokaságot egymást át nem fedő, diszjunkt részekre bontja. E részsokaságok valamely számszerű jellemzőinek a skála mentén történő fölsorolása statisztikai sort alkot. A statisztikai sorok típusai a skála jellegéhez kötődnek. Beszélhetünk területi, időbeli, mennyiségi és egyéb nominális sorokól. A nominális sorok valamilyen kategóriához való tartozást fejeznek ki.
6
1.1 AZ ADATBÁZIS 1.1 Az adatbázis a vizsgált jelenségről rendelkezésre álló információk, mérési eredmények összessége, adott formátumú felsorolása, azok elengedhetetlen azonosító, és megkülönböztető jegyeivel egyetemben. Az adatbázis alapvetően keresztmetszeti, vagy idősoros lehet. Valamely sokaság valamennyi megfigyelési egységét ugyanazon változók tekintetében jellemző, ugyanarra az időszakra (eszmei időpontra) vonatkozó mérési eredmények keresztmetszeti adatbázist alkotnak. Ezzel szemben az idősoros adatbázis egy kiragadott megfigyelési egység jellemzésére szolgáló változóknak, a vizsgált egyedet különböző időpontokban jellemző értékeinek az időrendi felsorolása. Az olyan adatállományt, mely mind keresztmetszeti, mind időrendi felsorolást tartalmaz, panel típusú, vagy longitudinális adatállománynak nevezzük. A többváltozós statisztikai módszerek tipikus adatállománya keresztmetszeti jellegű, melyre egy példát az alábbi tábla közöl. 1.1 tábla APEH vizsgálathoz kiválasztott 995 vállalkozás néhány, 2000. évi mérleg- és eredményadatai Cég
Tárgyi eszközök
Nettó árbevétel
Fizetett adó
Kiszabott bírság
3512894 198770 2983555 12540820 332100
Adózott eredmény Fizetett osztalék ezer forint -18276 0 -8022 0 32670 12000 146885 50000 3291 500
0 0 7171 32243 722
0 0 800 300 10
Alk. létszám fő 140 5 220 670 10
C1 C2 C3 C4 C5
200600 23500 44020 862944 13582
C991 C992 C993 C994 C995
776 14772 142500 22400 18400
564636 820240 376998 548600 712560
20100 -9613 15400 -32800 50312
4412 0 3380 0 11044
0 0 30 10 140
8 26 50 12 7
10000 0 0 0 20000
Nem mennyiségi jellegű változók is kifejezhetők számértékekkel, ún. dummy változók megfelelő rendszerének a segítségével, a következők szerint. A kategóriák egyikét ún. referencia csoportként rögzítjük, az összes többi kategóriát pedig olyan dummy változókként kezeljük, melyek megfigyelési egységenként attól függően veszik fel az 1 vagy 0 értéket, hogy az adott megfigyelési egység esetében az illető kategória bekövetkezett-e a mérés során, vagy nem. Például, ha gazdasági társaságok a működési formájuk szerint a betéti társaság (Bt), korlátolt felelősségű társaság (Kft) és részvénytársaság (Rt) formák valamelyikéhez tartoznak, miközben a „Bt” a referencia csoport, akkor két – nevezetesen a Kft és az Rt dummy változók 0 vagy 1 értékei egyértelműen meghatározzák a társasági formához való tartozást: 1.2 tábla Társasági formák kategóriái Társasági forma Kft Betéti társaság 0 Korlátolt felelősségű társaság 1 Részvénytársaság 0
Rt 0 0 1
Az egyes kategóriák együttes bekövetkezésének gyakoriságát közlő adatbázist jelent a dummy változók egy speciális rendszere, az indikátor mátrix. Az indikátor mátrix sorait az egyes megfigyelési egységek, oszlopait pedig valamennyi változó valamennyi lehetséges kimenetelei alkotják. A mátrixban 1 jelzi, hogy az adott sor megfigyelési egysége adott változó melyik (és csak egy) változatához tartozik, egyébként a mátrix 0 elemeket tartalmaz. A mátrix sorösszegei tehát egyenlők egymással és a változók számával, oszlopösszegei pedig az egyes kategóriák előfordulási gyakoriságaival. A társasági forma mellett bevezetve a nyereséges (1) vagy veszteséges (0) megkülönböztetést is, az indikátor mátrix struktúrája az alábbi: 1.3 tábla Gazdasági társaságok indikátor mátrixa Cég Bt Kft Rt Nyereséges Veszteséges C1 0 1 0 0 1 C2 0 1 0 0 1 C3 0 0 1 1 0
7
C4 C5
0 1
0 0
1 0
1 1
0 0
C991 C992 C993 C994 C995
0 1 0 0 0
1
0 0
1 0 1
0 1 0 1 0
1 0 1
1 0
1
Információ tömörítésre nyílik lehetőségünk, ha lemondunk a kategóriák cégekhez kötéséről, és csak a kategóriák együttes bekövetkezésének a gyakoriságát vizsgáljuk. Ezt az információt a gyakorisági, vagy másképpen kontingencia tábla tartalmazza. A gazdasági társaságok kontingencia táblája az következő: 1.4 tábla Gazdasági társaságok kontingencia táblája Eredméy Társasági forma Összesen Bt Kft Rt Nyereséges 350 50 70 470 Veszteséges 350 150 25 525 Összesen 700 200 95 995 Ha a kontingencia táblát valódi kategóriák alapján képezzük, akkor az információ tömörítése során föllépő veszteség forrása csupán a megfigyelési egységek anonimmá válása, hiszen ilyenkor az adott kategória minden vonatkozó egyede egyforma. Ha a kategóriák mennyiségi változók intervallumai, akkor azt az információt is elveszítjük, hogy intervallumon belül mennyire különböztek az egyedek. Nyilvánvaló, hogy az indikátor mátrix mindig tömöríthető kontingencia táblába, és a kontingencia tábla is indikátor mátrixszá formálható.
1.2 MŰVELETEK SOKASÁGOKKAL 1.2 A sokaságot mindenekelőtt mérete jellemzi. A sokaság mérete alatt érthetjük egyrészt elemeinek N számosságát, másrészt az egyedeire összessített valamely mennyiségi jellemzőt.1 A sokaság méretének az ismeretében - további tulajdonságai feltárásában az alábbi műveletek segítenek. A megfigyelési egységek rangsorolása Egyetlen változó esetében a rangsorolás nem ütközik nehézségbe. Városok poros voltát összehasonlítandó, a szálló por fajlagos tartalma és az ülepedő por fajlagos tartalma tekintetében külön-külön rangsorolva azonban már különböznek a rangsorok. Ha tehát a városokat általában a portartalom szerint kívánjuk rangsorolni, akkor ez a feladat már nem egyértelmű. A rangsorolás végeredménye mindig egy speciális statisztikai sor, a rangsor. A sokaság csoportosítása Ha az x változó tekintetében heterogén sokaságon belül homogén csoportok, részsokaságok vannak, illetve sejthetők, akkor érdemes a sokaságon belül e részeket egymástól elkülöníteni. A csoportosítással szemben az alábbi követelményeket támasztjuk. Átfedésmentesség: egy megfigyelési egység x tekintetében csak egyetlen csoporthoz tartozzon. Teljesség, egyértelműség: a sokaságnak minden egyes eleme egyértelműen besorolható legyen az előre definiált csoportok valamelyikébe. Homogenitás: a kialakult csoportok x tekintetében legyenek minél homogénebbek, a csoportok viszont minél markánsabban különbözzenek egymástól. A csoportosítás egyszerre szolgálja a sokaság struktúrájának a kirajzolódását, és adatredukciós igényünket. Minél homogénebbek ugyanis a csoportok, annál kisebb veszteséget szenvedünk el azáltal, hogy az egyedi adatok felsorolása helyett csupán az egyes csoportok jellegzetességeit, és a megfelelő csoporthoz tartozás tényét közöljük. Kategória változatok esetén adott kategória a saját szempontjából természetszerűleg homogén csoportokat definiál. Nem ez a helyzet akkor, ha a csoportosító ismérv folytonos mennyiségi, vagy nagyon sokféle kimenetellel bíró
1
Például a hazai benzinkutak teljes éves forgalma akár literben, akár forintban.
8
diszkrét mennyiségi változó. Ez esetben a csoportok definiálása ugyanis a skála megfelelő intervallumokra, osztályokra bontását jelenti, ami szubjektív. Rövid osztályok homogén, hosszú osztályok várhatóan heterogén csoportokat eredményeznek. A túl rövid intervallumok kialakítása a csoportok számát növeli, és így a sokaság áttekinthetővé tételét nem szolgálja. Osztályközök képzése esetén x kategóriáit az osztályközök jelentik. A csoportok mellett a számosságukat felsorolva gyakorisági sort hozunk létre. A sokaságot egyidejűleg kettő, vagy kettőnél több ismérv alapján csoportosítva, majd a különféle kategóriák együttes bekövetkezési gyakoriságait táblába foglalva jutunk el a gyakorisági (kontingencia) táblához, melyet a korábbiakban már tárgyaltunk. Sokaságok összehasonlítása. Sokaságok számszerű jellemzőinek az összehasonlítása abszolút és relatív módon történhet. Az A és B jellemzők abszolút jellegű összehasonlítása az A-B különbségük, relatív jellegű összevetésük pedig az A/B arányuk képzésén alapul, ha ezeknek van tárgyi értelme. 2 A V=A/B hányadost viszonyszámnak nevezzük, amelyben A a viszonyítandó, B pedig a viszonyítás alapjának a szerepét tölti be. A viszonyszámok között - az elemzési cél tekintetében - szokás megkülönböztetni a sokaság struktúráját leíró (a résznek az egészhez való viszonyát kifejező) megoszlási viszonyszámot, a sokaságok időbeli összehasonlítását szolgáló dinamikus viszonyszámot, és az intenzitási viszonyszámot. Ez utóbbi azt mutatja meg, hogy valamely sokaság egy egyedére egy másik sokaságból hány egyed jut. Mintavétel a sokaságból. Amennyiben a sokaság egészét nem tudjuk, vagy nem akarjuk megfigyelni, de az egészére szeretnénk valamilyen következtetést levonni, úgy kénytelenek vagyunk ezt a sokaságnak egy alkalmasan kiválasztott része, az ún. minta alapján megtenni. A mintavétel végrehajtása lehet véletlenszerű és nem véletlenszerű, visszatevéses, vagy visszatevés nélküli. A mintavételt akkor tekintjük véletlen jellegűnek, ha még a mintavételt megelőzően rögzítjük az egyes sokasági egyedek mintába kerülésének a valószínűségét. Visszatevéses mintavételkor valamely sokasági érték nem csak egyszer, hanem többször is kiválasztásra kerülhet, s így súlyozottan szerepelhet a mintában. A sokaság csonkolása, nyesése Ha a sokaság valamely egyedei a vizsgált változó(k) tekintetében extrém (kiugróan alacsony vagy magas) értékkel bírnak, úgy ezek az értékek a sokaság egészéről kialakított általános képet torzítják, így elhagyásuk az elemzésből kézenfekvő. Előrejelzés A sokaság egyedeinek az értékét - előrejelzési, vagy adatredukciós céllal - helyettesíthetjük is. Ha már ismert, realizálódott értéket cserélünk ki egy másikra, akkor “ex post” előrejelzésről, ha pedig még nem ismert értéket rendelünk egy egyedhez, akkor “ex ante” előrejelzésről, másképpen prognózisról beszélünk.
1.3 CENTRÁLIS TENDENCIA ÉS VARIANCIA 1.3 Reprezentálja a sokaság “i” sorszámú (i=1,2,...,N) egyedét az x változóban realizálódott megfigyelés xi értéke. A sokaság egyedei a kérdéses ismérvben különböznek egymástól, másszóval szóródnak. Feladatunk a szóródásban rejlő tendenciák, és az azokat kiváltó okok feltárása. Kérdés, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínűségi (gyakorisági) eloszlás mentén szóródnak. A szóródás tényét az egyedeknek egymástól, vagy egy kitüntetett egyedtől mért távolságában, illetve hasonlóságában ragadhatjuk meg. A szóródás centrumát a centrális tendencia alakítja, miszerint az egyedek túlnyomó többsége egy tipikus egyed körül tömörül. A szóródás e centrumát centroidnak nevezzük, melyet valamely középérték definiál. Kétféle középértéket különböztetünk meg: helyzeti középértéket, és átlagot. Míg az előbbiek a rangsorolt sokaságon belül elfoglalt helyük alapján közepesek, addig az átlagok számított értéke az ismérv skáláján alkot középpontot. A helyzeti középértékek a medián, és a módusz. A mediánt azon egyed kimenetele reprezentálja az x ordinális változó tekintetében, amely két, közel egyenlő részarányú alsó és felső szegmensre bontja a sokaságot. Folytonos mennyiségi változó esetében ezt az értéket az x(0.5) rendű kvantilis közelíti. A módusz ezzel szemben az ismérv skáláján a leggyakrabban előforduló kimenetel. A módusz tehát nominális skálán is értelmezett, de nem mindig létezik, nem mindig egyértelmű, és inkább kategóriaként mintsem pontszerű értékként van statisztikai tartalma. Az x változó számtani átlaga az N elemű sokaságban az az x szám, amellyel a sokaság valamennyi egyedének az 2
A különbségképzés elengedhetetlen feltétele, hogy A és B azonos mértékegységű legyen.
9
értékét helyettesítve, azok összege nem változik meg:
1 N xi . N i 1 A továbbiakban az átlagos megfigyelési egység reprezentálja a sokaság centroidját. A számtani átlagtól vett di xi x eltéréseket képezve, azok algebrai összege zérus. Az átlagtól mért eltéréseket tartalmazó, s ezáltal zérus átlagúvá transzformált di változót centrált változónak nevezzük. Ha a és b megfigyelésről megfigyelésre nem szóródó konstansok, akkor az yi=a+bxi transzformált változó átlaga: y a bx . Az egyedi értékek r. hatványának a számtani átlaga az r-ed rendű (vagy r-edik) momentumot eredményezi: 1 N r xi M r N i 1 ahol r=1,2,… Speciálisan, a másodrendű momentum jelölése:3 1 N 2 1 N qi qx . xi N N i 1 i 1 Az átlag körüli szóródás alapvető, egyváltozós mértéke a variancia, mely a centrált változó másodrendű momentuma:4 1 N Var ( x) 2x ( xi x )2 . N i 1 Kihasználva, hogy a számtani átlagtól vett eltérések algebrai összege zéró, a variancia a másodrendű momentumnak, és a számtani átlag négyzetének a különbsége:5 1 N 1 N Var ( x) ( xi x )( xi x ) ( xi x ) xi N i 1 N i 1 1 N 2 1 N (1.1) xi x x N i 1 N i 1 q x2 . A (1.1) azonosság a variancia momentum felbontását eredményezi. E tételre a továbbiakban mint a VMD szabályra hivatkozunk.6 A variancia sohasem negatív, és csak akkor zérus, ha a sokaság minden egyede ugyanakkora értéket vesz fel az x változóban. A variancia invariáns az egyedi értékek ugyanazon konstanssal való növelésére (csökkentésére), viszont érzékeny azok konstanssal való szorzására. Tetszőleges a tengelymetszet és b meredekség mellett az yi=a+bxi megfigyelések varianciája: Var ( y ) Var (a bx) b 2Var ( x) . A variancia pozitív négyzetgyöke a szórás (az angol nyelvű terminológiában „standard deviation”): x Var ( x) . A zérus átlagúvá, és egységnyi varianciájúvá transzformált xx x (1.2) x változót standardizált változónak nevezzük. x
Dummy változót illetően, ha az N elemű sokaságban K számú “1” és (N-K) számú “0” egyed van, akkor az “1” elemek részaránya P=K/N, és ez a dummy változó P1+(1-P)0=P átlaga, és a második momentum is egyben. A VMD szabály alapján tehát a dummy változó varianciája Var (0,1) P P 2 P(1 P) . Nemzéró értékösszeg mellett a variancia akkor maximális, ha a sokaság egyetlen tagja birtokolja a teljes 3
Megjegyezzük, hogy a másodrendű momentum pozitív gyöke az ún. négyzetes, vagy kvadratikus átlag.
4
A Var(x) és
5
Figyeljük meg, hogy
6
A Variancia Momentum Dekompozíciója.
10
x2 jelöléseket ekvivalens módon használjuk, megválasztásuk a formulák könnyebb áttekintését szolgálja. x i1 ( xi x ) 0 . N
értékösszeget, miközben minden más egyed értéke zérus. A VMD szabály alapján a variancia általában: 1 2x x12 x22 ... xN2 x 2 Nx 2 Z12 Z 22 ... Z N2 x 2 N N x 1 az i. egyed relatív részesedése a teljes értékösszegből, és i 1 Zi 1 . Mivel e relatív ahol x 0 , 0 Z i i Nx részesedések négyzetösszege legfeljebb 1 lehet, ezért a variancia feltételesen maximált értéke (1.3) 2max Nx 2 12 02 ... 02 x 2 hiszen ez konstans x átlag mellett csökkenne, ha az egységnyi értékösszegből való relatív részesedések között mind kisebb lenne, mint 1.7 Zéró átlagos érték mellett a variancia végtelen nagy lehet. Mértékegységtől független szóródási mutató a relatív szórás (coefficient of variation), mely a szórást a számtani átlag százalékában fejezi ki, ha az nem nulla. Ha a sokaságból n elemű mintát veszünk és a mintabeli szórás értékéből következtetni akarunk a sokaság egyébként ismeretlen szórására, akkor a torzítatlan következtetés érdekében ún. korrigált szórást számolunk, az alábbi módon: 1 n (1.4) ( xi x )2 n 1 i 1 ahol s a korrigált szórás konvencionális jelölése.8 A nevezőbeni (n-1) korrekció csak kicsiny mintaelemszám mellett okoz jelentős számszaki eltérést. s
1.4 A SOKASÁG ELOSZLÁSA 1.4 A végtelen sokaság egyedei értelemszerűen nem sorolhatók fel teljeskörűen, ezért valamely x jellemzőjének kimenetelei megfigyelésről megfigyelésre bővülnek, véletlenszerűen alakulnak. Végtelen sok megfigyelést végezhetünk adott típusú izzó teljes élettartamát, vagy biztonsági övek be-, illetve be nem kapcsolt voltát vizsgálva. Az ilyen esetekben x véletlen változó, és valószínűségeloszlását aszerint definiáljuk, hogy folytonos, vagy diszkrét jellegű.9 A folytonos véletlen változót az eloszlásfüggvényével definiáljuk, ami azon esemény valószínűségét mondja meg, hogy a változó realizálódott értéke kisebb lesz egy előre rögzített x0 értéknél: F(x0) = Pr(x<x0) ahol F(.) monoton, 0F(.)1, F(-∞)=0 és F(∞)=1. Az eloszlásfüggvényt általánosságban az 1.1 ábra szemlélteti. 1.1.ábra Az eloszlásfüggvény Az eloszlásfüggvény x szerinti deriváltja az ún. sűrűségfüggvényt nyújtja, melynek jelölése: f(x)=F’(x). Definíciójából adódóan: F ( x0 )
x0
f ( x )dx .
Geometriai inerpretációt illetően az eloszlásfüggvény értéke a sűrűségfüggvény alatti megfelelő területet jelenti. A sűrűségfüggvény alatti teljes terület egységnyi:
f ( x)dx 1 .
Legyen most az x változó diszkrét kimenetelű, vagyis x=k, ahol k=0,1,2,...integer. Ekkor x eloszlását a Pr(x=k) valószínűséggel definiáljuk. Követelményünk szerint
Pr( x k ) 1 . k 0
E megállapításnak a főkomponensek, és a faktorok forgatása, az egyszerű struktúra kialakítása során lesz jelentősége. A torzítatlanság fogalmát, és általában a mintából történő következtetés elméletét lásd Hunyadi(2001). 9 Jelen könyv a valószínűségelméleti fogalmakat csak olyan mélységben és terjedelemben tárgyalja, ami egyéb témakörök megértéséhez elengedhetetlen. 7 8
11
Végtelen sokaság esetén az átlagos érték megfelelője a várható érték, mely definíció szerint
E ( x)
x f ( x)dx
folytonos esetben, és
E ( x) k Pr( x k ) k 0
diszkrét x változó esetén. A variancia ennek megfelelően a várható értéktől vett eltérések négyzeteinek a várható értéke. Folytonos esetben például:
Var ( x)
x E ( x)
2
f ( x)dx .
A diszkrét eset ennek analógiája. Végtelen sokaság esetén a momentum is várható értékként, mégpedig a változó xr hatványának E(xr) várható értékeként értelmezendő. A gyakorisági (valószínűségi) eloszlás tendenciájának árnyalt jellemzését szolgálják az x változó kitüntetett értékei, a kvantilisek. Tekintsük a diszkrét x változó x1 x2 ... xr ... xK ordinális skáláját, melyen az xr referencia kategória a skálát két -egy alsó, és egy felső - szegmensre bontja úgy, hogy megállapodás szerint a referencia kategóriát is az alsó szegmenshez soroljuk. Ekkor a skála a sokaságot magát is egy alsó és egy felső szegmensre hasítja szét aszerint, hogy ki tartozik az alsó, és ki a felső szegmens kategóriáihoz: xa x f . Jelölje az alsó szegmens részarányát a sokaságon belül p (0
1.4.1 NORMÁLIS ELOSZLÁS 1.4.1 A normális eloszlás az ún. exponenciális eloszláscsalád tagja. Sűrűségfüggvénye:
f ( x)
1
e
1 x 2
2
(1.5) 2 ahol μ és σ2 az eloszlás paraméterei, és ahol (-∞<x<∞), (-∞<μ<∞) és σ>0. A sűrűségfüggvény alakját, vagyis az x sokaságot e két paraméter egyértelműen meghatározza. A későbbiekben, ha x normális eloszlású μ és σ2 paraméterekkel, akkor erre a tényre az x N , 2 formában hivatkozunk. Látható, hogy adott paraméterek mellett az x pontban a sűrűségfüggvény f(x) értéke kalkulálható, de f(x)≠[Pr(x)=0]. Folytonos véletlen változó konkrét értékének a bekövetkezése nem lehetetlen esemény, de a valószínűsége zéró. Mivel azonban az f(x) értékek érzékeltetik, hogy különböző x értékek különböző eséllyel (relatív gyakorisággal) fordulnak elő, a sűrűségfüggvény f(x) értékét jelen könyvben az x pont egyedi likelihoodjának (esélyességének) nevezzük.
12
Az x
N , 2 normális eloszlású változó várható, átlagos értéke E ( x) , varianciája pedig Var ( x) 2 . Ezért a
z x változó standardizált, zéró átlagú, és 1 varianciájú változó, tehát eloszlása z~N(0,1) standard normális, sűrűségfüggvénye pedig értelemszerűen:
1
f ( z)
z2 2
e . 2 A standard normális eloszlás eloszlásfüggvényének föntartott jelölése Φ(.), melynek értéke a z pontban: z
( z )
1
(1.6)
t2 2
e dt p . 2 Az a z(p) érték, melyre Φ(z(p))=p teljesül, a standard normális eloszlás p-rendű kvantilisét képezi. A standard normális eloszlású változó kvantiliseinek meghatározása p ismeretében már nem igényli semmilyen paraméter ismeretét, ezért tetszőleges részletességgel táblába foglalható (lásd a .táblát). A 1 ( p) z p értéket a p valószínűség probitjának nevezzük:
probit p 1 ( p) z p . Számítógépes programba való beilleszthetőség érdekében közöljük a (z) valószínűség Hastings-féle közelítését, mely az alábbi: i
5 1 ( z ) p 1 f ( z ) ai 1 0.2316419 z i 1 ahol a1=0.31938153, a2=-0.356563782, a3=1.78147937, a4=-1.821255978, a5=1.330274429. Ennek inverz függvénye közelítőleg: 2
z 1 ( p)
2ln p
b 2ln p
i/2
c 2ln p
i/2
i 0 3
i 0
i
i
ahol 0
0.5, akkor a helyén (1-p) szerepel, és az eredményül kapott z érték negatívját vesszük.
1.4.2 GAMMA-ELOSZLÁS 1.4.2 Az x0 nemnegatív véletlen változó gamma eloszlású ,θ>0 pozitív paraméterekkel, ha sűrűségfüggvénye: x 1 f ( x) x 1e ( ) ahol
(1.7)
a x a 1e x dx 0
a teljes gamma-függvény. Ha a egész, akkor (a) (a 1)! és az eloszlás neve ekkor Erlang eloszlás. A gamma eloszlás nevezetes momentumai az alábbiak: ( r ) E x r r , E x , E x 2 2 ( 1), Var ( x) E x 2 E 2 x 2 . ( )
1.4.3 CHI-NÉGYZET ELOSZLÁS 1.4.3 A gamma eloszlás speciális esete θ=2, és =ν/2 paraméterezéssel a chi-négyzet (χ2) eloszlás, melynek sűrűségfüggvénye
13
f ( x)
1
22 2
1
x2 e
x 2
(1.8)
ahol (1/ 2) ha ν páratlan. A ν paramétert (mely nem kötelezően integer) az eloszlás szabadsági fokának nevezzük. Lévén gamma eloszlás θ=2, és =ν/2 paraméterezéssel, nevezetes momentumai a szabadsági fok függvényében: E x , E x 2 4 1 ( 2), Var ( x) 2 . 2 2 A chi-négyzet eloszlás szorosan kötődik a normális eloszláshoz, mert definíció szerint egymástól független, z N 0,1 standard normális eloszlású változók négyzetösszege chi-négyzet eloszlást követ ν=n szabadsági fokkal, ahol n az összeadandók száma: z12 z22 ... zn21 zn2
n2 .
(1.9)
Innen egyenesen következik, hogy 2n1 2n z 2 .
(1.10)
1.4.4 EXPONENCIÁLIS ELOSZLÁS 1.4.4 A gamma eloszlás másik speciális eseteként =1 választással a (negatív) exponenciális eloszlás adódik, x 1 f ( x) e sűrűségfüggvénnyel, melynek várható értéke és varianciája E x , E x 2 22 , Var ( x) 2 .
(1.11)
1.4.5 WEIBULL ELOSZLÁS 1.4.5 Az x0 nemnegatív véletlen változó Weibull eloszlású ,θ>0 pozitív paraméterekkel, ha sűrűségfüggvénye: x
(1.12) f ( x) x 1e . Látható, hogy a negatív exponenciális eloszlás a Weibull eloszlásnak is speciális esete, =1 helyettesítéssel. Egy másik speciális esetként a Rayleigh eloszlát nyerjük, az =2, és 2 paraméterezéssel:
2
f ( x) xe
1 x 2
2
.
1.4.6 BÉTA-ELOSZLÁS 1.4.6 Az 0x1 véletlen változó béta eloszlást követ a,b>0 pozitív paraméterekkel, ha sűrűségfüggvénye 1 f ( x) x a 1 (1 x)b 1 B ( a, b) ahol B(a,b) a teljes béta-függvényt jelöli: a b B ( a, b) . a b
1.4.7 STUDENT-ELOSZLÁS 1.4.7 A Sudent féle t-eloszlást az alábbi sűrűségfüggvény definiálja:
14
(1.13)
1
x2 2 1 (1.14) f ( x) 1 1 B , 2 2 ahol a ν>0 paraméterre, mint szabadsági fokra hivatkozunk, és az x változó tetszőleges értéket felvehet. A t-eloszlás zéró várható értékű, és szimmetrikus a várható értékre. Egy standard normális, és egy korrigált (szabadsági fokkal osztott) chi-négyzet eloszlás hányadosa Sudent t-eloszlást követ, ha a változók egymástól függetlenek, az alábbi transzformáció szerint: z (1.15) tn . 2n n
1.4.8 F-ELOSZLÁS 1.4.8 Az F-eloszlás sűrűségfüggvénye kétparaméteres, és csak nemnegatív x értékekre van értelmezve: 1
f ( x)
1 2 2
1
x2
1
(1.16) B 1 , 2 1 1 2 2 2 ahol a ν1,ν2>0 paramétereket szabadsági fokoknak nevezzük. Az F-eloszlás eredete szintén a normális eloszlás, mert két független, korrigált chi-négyzet eloszlású változó hányadosa F-eloszlást követ az alábbi paraméterekkel: 2n n Fn ,m (1.17) 2m m ahol n a számláló, m pedig a nevező szabadsági foka. 1 2 2
A fenti eloszlások között a χ2, a t- és az F-eloszlás elsősorban a véletlen módon kiválasztott mintából történő következtetéseket szolgálja.
1.4.9 BINOMIÁLIS ELOSZLÁS 1.4.9 Legyen megfigyelésünk eredménye csak kétféle kimenetel („1” vagy „0” tulajdonság) valamelyike, rendre P és (1-P) valószínűséggel, ahol 0
n P 1 exp k ln n ln ln (1.19) k 1 P 1 P ahol k=0,1,2,...,n egész. Ha n=1 elemű mintát veszünk, akkor k={0,1}. A P/(1-P) arányt odds aránynak nevezzük, melynek logaritmusa az ún. logit: P logit P ln 1 P E kanonikus paraméterrel: odds elogit . P 1 odds 1 elogit
15
A várható érték E(x)=P, és a variancia Var(x)=P(1-P). A egyedek k száma a mintában binomiális eloszlású, p=k/n részaránya pedig egyben a mintaátlag is, mely nagy minták esetén – a centrális határeloszlás tétele értelmébenaszimptotikusan normális: 1 n k P(1 P) d N P, xi n p . n i 1 n
1.4.10 POISSON-ELOSZLÁS 1.4.10 Adott eseménynek egységnyi időszak alatti x gyakorisága (árvizek száma évente) Poisson eloszlású λ pozitív paraméterrel, és a valószínűségeloszlás (likelihood) függvénye: k e (1.20) Pr( x k ) exp k ln ln(k !) k! ahol k=0,1,2,...A Poisson eloszlásnak mind a várható értéke, mind a varianciája a paraméterrel egyezik meg.
1.4.11 PROBABILITY PLOT 1.4.11 Azon kérdés eldöntését segítendő, hogy a sokaság az x változó tekintetében kielégítően leírható-e valamely formalizált valószínűségi eloszlással az alábbiakban egy grafikus eljárást, a “probability plot” módszerét ismertetjük.Legyen a vizsgált x változó eloszlásfüggvénye feltevésünk szerint F(x), standardizált z változatának eloszlásfüggvénye pedig G(z), melyekre teljesül az F(x)=G(z) azonosság. Ekkor a standardizált z változó értéke egyrészt egy egyenes szerint alakul x függvényében, másrészt a G(.) függvény inverzének az értéke F(.) függvényében, az alábbiak szerint: x x z G 1 F ( x) Ha x nem egzaktan az F(.) eloszlásból származik, akkor közös koordináta rendszerben ábrázolva z e kétféle értéke nem esik egybe. Minél közelebb fekszenek a G-1(x) pontok a referencia egyeneshez, annál jobban leírható a sokaság x tekintetében az F(.) eloszlással. A normalitás vizsgálata „normal probability plot” szerkesztését igényli, ahol G-1 szerepét speciálisan a standard normális eloszlás eloszlásfüggvénye tölti be, amely inverzének egyféle empirikus közelítése a i 1/ 3 1 N 1/ 3 módon történik, ahol i=1,...,N a nemcsökkenő módon rendezett sokaság egyedeinek a sorszámát jelenti. Lényegében a referencia egyenes zi pontjai által reprezentált tényleges sokaságot a Gi-1 pontdiagram által reprezentált normális eloszlású sokasággal vetjük össze. Tekintsük () cigaretta márka átlagos (fajlagos, mg/szál) kátrány tartalmát. A kátrány tartalom eloszlásának jellemzésére szolgáló „normal probability plot” az 1.2 ábrán látható. 1.2 ábra A kátránytartalom eloszlásának „normál probability” ábrája Az ábráról leolvasható, hogy a vizsgált márkák tekintetében a kátránytartalom eloszlása közel áll a normális eloszláshoz.
16
2 SOKASÁG ÉS MINTA 2 Sokaság és minta Tekintsünk egy véges x1,...,xN, vagy egy végtelen, az f(x|θ1,...,θq)=f(x|θ) sűrűségfüggvénnyel definiált sokaságot, melyben az x változó valamely θ jellemzője (paramétere) ismeretlen, de döntésünk ennek vélt ismeretén alapszik. Ekkor a végtelen sokaság teljes megfigyelése lehetetlen, a véges sokaság teljeskörű megfigyelése pedig esetenként ésszerűtlen: például költséges, vagy egy termék megsemmisülésével jár. Ilyenkor a sokaságból mintát veszünk, és a minta alapján következtetünk a sokaság egészére. A mintából történő következtetés exploratív formája a becslés, konfirmatív formája pedig a hipotézisek tesztelése. A becslést akkor alkalmazzuk, mikor semmilyen ismeretünk nincs a sokaság jellemzőjéről, ezért a minta ismeretében közelítjük annak értékét. A hipotézisben viszont valamilyen előzetes elképzelésünk fogalmazódik meg a sokaság adott jellemzőjével kapcsolatban, és ilyenkor a mintát szembesítjük az elképzelésünkkel. A minta alapján csupán döntést hozunk, de meg nem bizonyosodhatunk. Mintának nevezzük a sokaság azon kitüntetett egységeit, melyekre a megfigyelésünk kiterjed. A minta mindig véges, elemszáma n, és elemei rendre: x1,x2,...,xn. A mintavétel részlegessége (nem teljes körű volta) miatt a következtetések mintevételi hibát hordoznak. Ha a hibázás valószínűségét kontrollálni akarjuk, akkor a mintát véletlen módon kell kiválasztanunk. Véletlen jellegű a mintavétel, ha a sokaság bármely egyede ismert valószínűséggel kerülhet be a mintába. Ekkor az xi mintaelem (i=1,2,...,n) mintavételi ingadozásnak van kitéve, vagyis mintavételi véletlen változó. Ha a mintaelemeket egymástól függetlenül választjuk ki, akkor a mintaelemek független véletlen változók, és valószínűségi eloszlásuk megegyezik a sokaság eloszlásával. Az ilyen típusú mintát független, azonos eloszlású (FAE) mintának nevezzük. Ha például a sokaság normális eloszlású μ várható értékkel, és σ2 varianciával, vagyis x~N(μ,σ2), és x1,x2,...,xn. FAE minta, akkor valamennyi mintaelem ugyanilyen normális eloszlású: xi~N(μ,σ2), ahol i=1,...,n. A θ paraméterre vonatkozó mintából történő következtetés eszköze mindenkor a mintaelemek valamely ˆ ( x1 , x2 ,.., xn ) ˆ n ˆ transzformációja, amely leképezést statisztikának nevezzük. Ilyen statisztikák például a mintabeli átlag, variancia, részarány, vagy egyéb más, komplikáltabb formulák. A mintavételi hiba nagyságának behatárolása érdekében a statisztikák mintavételi eloszlásának jellemzőit (típusát, várható értékét, és varianciáját) ismernünk kell. Mintavételi eloszlás alatt a kérdéses ˆ statisztikának minden létező mintán szóródó eloszlását értjük. A mintavételi várható érték jelölése E ˆ , a mintavételi varianciájé pedig Var ˆ . A mintavételi variancia pozitív gyökét, a
mintavételi szórást standard hibának (Standard Error) nevezzük, melynek jelölése SE ˆ .
2.1 STATISZTIKAI BECSLÉSEK 2.1 Valamely ismeretlen θ sokasági paraméter értékének közelítő meghatározását becslésnek nevezzük. Ennek eszköze a becslőfüggvény, mely egy alkalmasan megválasztott ˆ statisztika. A becslőfüggvény mintavételi változó, mely pontbecslést nyújt az ismeretlen paraméterre. A becslés megbízhatósága azon múlik, hogy mintavételről mintavételre haladva a becslőfüggvény milyen centrum körül, és milyen mértékben szóródik. Intuitíve is látható, hogy ez nagymértékben függ a minta elemszámától, továbbá attól is, hogy a sokaság maga milyen centrum körül, és mennyire szóródik.
2.1.1 BECSLÉSI KRITÉRIUMOK ÉS MÓDSZEREK 2.1.1 Alapvető követelmény, hogy a becslőfüggvény mintavételi varianciája a lehető legkisebb legyen. Nézzük, hogy milyen tényezők befolyásolják ezt a varianciát. Jelölje ˆ a pontbecslés eltérését a paraméter valódi értékétől (tehát a hibát), Q=ε2 pedig a hiba négyzetét. Ekkor a pontbecslés mintavételi varianciája megegyezik a hiba varianciájával, mely a variancia momentum felbontása alapján az alábbi formában is írható: 10
10
A variancia invariáns változójának konstanssal való eltolására.
17
Var (ˆ ) Var (ˆ ) Var () q 2 MSE(ˆ ) Bias 2 (ˆ ) ahol MSE (mean square error) az átlagos négyzetes hiba, Bias pedig az átlagos hiba, melynek előjeles értéke a becslés torzításának a mértékét és irányát mutatja. A fentiek fényében a becslőfüggvény (ceteris paribus): 1. Torzítatlan, ha a torzítás mértéke zéró: ekkor az átlagos hiba zéró, a becslőfüggvény várható értéke pedig megegyezik a paraméterrel, és a mintavételi variancia megegyezik az átlagos négyzetes hibával, 2. Aszimptotikusan torzítatlan, ha a mintaelemszám növelésével a torzítás mértéke zérushoz tart, 3. Konzisztens, ha a mintaelemszám növelésével a MSE zérushoz tart, 4. Leghatásosabb, ha torzítatlan becslőfüggvények körében legkisebb a varianciája. Torzított becslőfüggvények között nem mindig készíthető egyértelmű hatásossági rangsor a MSE alapján, mivel az átlagos négyzetes hiba függvénye lehet az ismeretlen, becsülendő paraméternek is. Adott θ paraméter pontbecslésére több, különféle tulajdonságú becslőfüggvény is szóba jöhet. A variancia pontbecslésére használhatjuk például a klasszikus (nem korrigált) mintabeli varianciát is. Közülük azt preferáljuk, amelyik leginkább eleget tesz a pontbecsléssel szemben támasztható ésszerű követelményeknek, becslési kritériumoknak. A becslőfüggvény formulája némely esetben intuitív módon kínálkozik. Ha a becsülendő paraméter tárgyi (statisztikai) tartalommal bír, akkor kézenfekvő a mintabeli analógiáját használni pontbecslésként. Az analógia módszerére példa a mintaátlag, vagy a mintabeli variancia. A becslőfüggvény formulájának a meghatározása azonban nem mindig kézenfekvő, ilyenkor valamilyen algoritmus szolgáltat becslőfüggvényt. Előre rögzítjük a becslőfüggvénnyel szembeni elvárásunkat, majd meghatározzuk azt a formulát mely eleget tesz ezen követelménynek. A becslőfüggvény meghatározására irányuló módszereket becslési módszereknek nevezzük. A sokaság θ1,θ2,...,θp paramétereinek a pontbecslésére szolgáló nevezetes becslési módszerek az alábbiak. Legkisebb négyzetek (LKN) módszere: a becslésből eredő, mintán belül tapasztalt hibák négyzetösszege minimális legyen:
x xˆ (ˆ , ˆ ,..., ˆ ) Error n
n
2
i
i 1
i
1
2
p
i 1
i
2
min .
Itt az xˆ függvény olyan előrejelzési szabály, mely nem föltétlenül igényli nevezetes eloszlás ismeretét. Momentumok módszere: Adott típusú eloszlás becsült paramétereivel kalkulálva, valamely momentum egyezzen meg a mintán belüli megfelelő rendű empirikus momentum értékével: 1 n r xi mr (ˆ 1 , ˆ 2 ,..., ˆ p ) (r 1, 2,..., p) n i 1 ahol E(xr)=mr(θ1,θ2,...,θp). Ez a módszer tehát ismert eloszlás paramétereinek a becslésére szolgál, és az mr függvény fejezi ki az r. rendű momentum, és a sokasági paraméterek kapcsolatát. A becslés praktikusan egy egyenletrendszer megoldását jelenti, melynek annyi egyenlete van, ahány becsülendő paraméter. Maximum likelihood (ML) módszer: Ha a minta együttes bekövetkezésének az esélyét (likelihoodját) a becslésünk értéke befolyásolja, akkor válasszuk azt a becslést, amely mellett a mintaelemek együttes realizációjának a likelihoodja maximális: L ˆ , ˆ ,..., ˆ max . (2.21) minta
1
2
p
Ha az xi mintaelemek egymástól független véletlen változók, akkor az együttes minta likelihoodja a mintaelemek egyedi likelihoodjainak a szorzataként áll elő:
n
Lminta ˆ 1 , ˆ 2 ,..., ˆ p L xi , ˆ 1 , ˆ 2 ,..., ˆ p max . i 1
(2.22)
A maximum likelihood módszer eloszlásfüggő eljárás, hiszen a likelihood értékének a kalkulálása konkrét valószínűségi eloszlást igényel. A következő alfejezetek a likelihooddal kapcsolatos kategóriákat tovább tárgyalják. 2.1 Példa Határozzuk meg az x változó sokasági átlagának becslőfüggvényét az LKN módszerrel úgy, hogy a becslés négyzetes távolsága a mintaelemektől összességében (SS: sum of squares) minimális legyen: n
SS xi ˆ i 1
Deriválással:
18
2
min .
n SS 2 xi ˆ 0 ˆ i 1
amiből a számtani átlag definíciója szerint becslésként a mintaátlag adódik: ˆ xn . 2.2 Példa Tekintsük az x~N(μ,rögzített) normális eloszlás μ paraméterének becslését a ML módszerrel, és n=1 elemű minta, vagyis az x1 mintaelem alapján. Ekkor a mintaelem egyedi likelihoodja: 1 x 1 2
1
L( x1 )
2
e max . 2 Ez nyilvánvalóan akkor maximális, ha az exponenciálisban szereplő kifejezés zéró, tehát ˆ x1 . Ha a mintavételt kiterjesztjük n eleműre, akkor a minta együttes likelihoodja (a maximálás szempontjából érdektelen konstans tag elhagyásával): n 1 2 2 xi i 1 L( x1 ) L( x2 )...L( xn ) e 2 max . Ez pedig akkor maximális, ha az exponenciálisban szereplő négyzetösszeg minimális. Vagyis ebben az esetben a ML módszer a LKN módszerre vezethető. A négyzetösszeg pedig akkor minimális, mikor a μ paraméter becslése a mintaátlag: ˆ xn .
2.1.2 INTERVALLUMBECSLÉS 2.1.2 A becslés megbízhatóságának a javítása érdekében érdemes a pontszerű becslést egy minél szűkebb, de magas megbízhatóságú ún konfidencia intervalummá bővíteni, mely adott 1- megbízhatósággal lefedi az ismeretlen θ paramétert: Pr ˆ ˆ 1
a
f
ahol ˆ a és ˆ f a konfidencia intervallum alsó és felső határa, (alacsony) értéke pedig az alulbecslés, illetve a fölülbecslés kockázatának az (előzetesen rögzített) összege. Ez utóbbi két kockázatot (ha egyéb szempont mást nem indokol) egyenlő arányban osztjuk meg. A kockázatok rögzített értékének birtokában ismernünk kell a becslőfüggvény eloszlását, hogy kalkulálhassuk a megfelelő kvantiliseit: Pr ˆ ˆ 1 .
( / 2)
(1 / 2)
A ˆ ( / 2) és ˆ (1 / 2) kvantilisek numerikus integrálással határozandók meg. Az esetek többségében nem közvetlen a becslőfüggvény, hanem valamely T (ˆ | ) Tˆ monoton transzformációjának az eloszlását ismerjük, melynek kvantilis értékei esetleg táblázatos formában is rendelkezésre állnak. Ezért a numerikus integrálást megkönnyítendő, a Pr Tˆ Tˆ Tˆ 1 .
( / 2)
(1 / 2)
konfidencia tartomány határait keressük meg. Legyen ugyanakkor általában T 1 (Tˆ | ˆ ) , és így az eredeti konfidencia tartomány alsó határát a T 1 (Tˆ | ˆ ) és T 1 (Tˆ | ˆ ) értékek közül a kisebbik, felső határát pedig a f
a
nagyobbik érték adja.
A konfidencia intervallum képzésének két nevezetes esete, mikor E ˆ torzítatlan, normális eloszlású
becslőfüggvényre képezzük úgy, hogy vagy ismert annak SE ˆ standard hibája, vagy kénytelenek vagyunk e
standard hibát is a mintából, se ˆ segítségével becsülni. Az ismert standard hibával standard normális eloszlásúvá transzformálva a becslőfüggvényt, az alábbi valószínűségi azonosságot tudjuk definiálni: ˆ Pr z / 2 z1 / 2 1 SE ˆ melyből a
19
ˆ z1 / 2 SE ˆ
(2.23)
szimmetrikus konfidencia tartomány adódik. Ha a standard hibát mintából kell becsülnünk, akkor a se(.) becsült standard hiba is mintavételi változó, melynek mintavételi eloszlása szükséges a konfidencia intervallum képzéséhez. Tegyük fel, hogy a becsült, és a valódi standard hiba között a k-szabadsági fokú CHI-négyzet eloszlás egyértelmű kapcsolatot teremt, a következők szerint:
k . Ez esetben a t-eloszlás (1.15) definíciója alapján ˆ / se ˆ k szabadsági fokú t -eloszlású, és az alábbi
se ˆ SE ˆ
2 k
k
valószínűségi azonosságát felírását teszi lehetővé: ˆ ˆ ˆ SE Pr tk / 2 tk 1 / 2 1 . 2 ˆ se k k Innen a konfidencia intervallum: ˆ t se ˆ .
1 / 2
(2.24)
2.2 STATISZTIKAI HIPOTÉZISEK TESZTELÉSE 2.2 A statisztikai következtetések konfirmatív jellegű alkalmazása hipotézisek vizsgálatán alapul. Hipotéziseket fogalmazunk meg, mikor a sokaság jellemzői ismeretlenek, további döntéseink viszont vélt ismeretükön alapulnak. A hipotézis szubjektív képünket vetíti a sokaságra, ezt a képet átmenetileg érvényesnek fogadjuk el, majd mintára támaszkodva döntésünk eredménye az állítás fönntartása, vagy elvetése. A hipotézisvizsgálat fogalmi rendszere, és a döntéshozás menete az alábbi. A hipotézisnek egy véletlen mintavétel eredményével való szembesítését a hipotézis tesztelésének nevezzük. Mivel a sokaság a tesztelés során ismeretlen marad, ezért hozhatunk helyes, de helytelen döntést is. Hibát követünk el egyrészt a hipotézis helytelen elvetésekor, illetve a hipotézis helytelen elfogadásakor. Alapvető szempont a hibás döntés(ek) valószínűségének a minimálása. A hipotézisben verbálisan foglalt állítás statisztikai vizsgálata annak formalizálását igényli. A hipotézisben foglalt állítások a gyakorlatban a sokaság eloszlásának a jellemzőire - paramétereire, vagy az eloszlás típusára – vonatkoznak. Tartalmi szempontból az igaznak vélt, vagy remélt állítást kutatási hipotézisként kezeljük. A mintavétel célja annak alátámasztása, hogy a kutatási hipotézis áll közelebb a valósághoz. A kutatási hipotézis elfogadását szigorítjuk úgy, hogy a tagadását jelentő állítást tekintjük kiindulásként érvényesnek, ettől az állítástól pedig csak akkor állunk el, ha ezt a konkrét mintánk markánsan indokolja. A kutatási hipotézis komplementerét teszt hipotézisnek nevezzük, mert ezt tekintjük átmenetileg érvényesnek s ennek fenntarthatóságát vagy elvetését teszteljük a próba során. Értékkészletüket tekintve a statisztikailag tesztelhető hipotézisek lehetnek egyszerűek és összetettek. Egyszerűnek nevezzük a hipotézist, ha egyetlen rögzített számszerű értékre, és összetettnek, ha számértékeknek valamely tartományára vonatkozik. A hipotézisvizsgálat végrehajtásakor a teszt hipotézisben foglalt állítások halmazából csak a kutatási hipotézisnek legkevésbé ellentmondót helyezzük szembe a kutatási hipotézissel, mert ha ezt sem tudjuk tovább fenntartani, akkor a méginkább ellentmondókat még kevésbé tarthatjuk fenn. Egyszerű teszt hipotézis triviálisan legkevésbé mond ellent a kutatási hipotézisnek. Összetett teszt hipotézis alkalmazásakor viszont úgy kell rögzíteni a kutatási hipotézist, hogy a teszt hipotézis állításai közül egyértelműen kiragadható legyen a kutatási hipotézisnek legkevésbé ellentmondó. A kutatási hipotézis érvénytelen voltát jelentő, annak legkevésbé ellentmondó egyszerű állítást null hipotézisnek, az alternatíváját képező kutatási hipotézist pedig alternatív hipotézisnek nevezzük. A nullhipotézist H0, az alternatív hipotézist pedig H1 jelöli.
20
Összetett teszt hipotézis vizsgálatát mindenkor visszavezethetjük egyszerű teszt hipotézis tesztelésére úgy, hogy az alternatív hipotézissel szemben a null hipotézis fenntartását, vagy elvetését teszteljük. Összetett teszt hipotézis vizsgálatakor a null hipotézis fenntartása egyben a teszt hipotézis fenntartását, elvetése pedig annak elvetését is magában foglalja. Mint már említettük, véletlen minta alapján téves döntést is hozhatunk. A kutatási hipotézis elfogadását szigorítandó, kicsiny esélyt adunk a helyes teszt hipotézis elutasításának. A tesztelés során mindig a null hipotézist teszteljük az alternatív hipotézis ellenében. Helyes null hipotézis elvetésekor az un. I. fajú hibát, helytelen nullhipotézis fenntartásakor pedig a II. fajú hibát követjük el, egyébként pedig helyes döntést hozunk. Az I. fajú hiba elkövetésének valószínűségét szignifikancia szintnek nevezzük, a II. fajú hiba elkövetésének a valószínűségét pedig jelöli. A null hipotézis helyes elvetésének a valószínűségét a teszt erejének, míg a null hipotézis helyes fenntartásának a valószínűségét a teszt megbízhatósági szintjének nevezzük. A szignifikancia szintet még a mintavétel előtt, alkalmasan megválasztott alacsony, pl. 5%-os szinten előre rögzítjük. A szignifikancia szint változtatása lényegében a kutatási hipotézis elfogadásának a szigorítását, illetve lazítását teszi lehetővé. A döntéshozás során állításunkat megerősítő, vagy annak ellentmondó információt a véletlen mintavétel nyújt. A lehetséges n elemű véletlen minták halmazán a null hipotézis helyessége esetén bizonyos összetételű minták bekövetkezése valószínűbb és e minták ugyanakkor nem mondanak ellent a null hipotézisnek, míg másoké kevésbé valószínű és ellent is mondanak a null hipotézisnek. A mintatér egy szegmense tehát kritikus a nullhipotézis realitása szempontjából. Adott hipotézis mellett egy x1,x2,...,xn véletlen minta realizálódásának az esélyét a minta együttes likelihoodja számszerűsíti. A H0, vagy H1 feltétel melletti likelihood értékek azt mutatják, hogy az adott minta bekövetkezése a H0, vagy a H1 szerinti valóság esetén, hihetőbb-e. Egyszerű hipotézisek feltételezése esetén a két feltételes likelihood: L(x1,x2,...,xn|H0) L(x1,x2,...,xn|H1). Azon minták halmazát, melyek ellentmondanak a null hipotézisnek, és bekövetkezésük null hipotézis érvénye melletti L0 esélye alacsony, a mintatér kritikus, Kn tartományának nevezzük. Hipotézisünk fönntartását, vagy elvetését egyszerűen arra alapozzuk, hogy a konkrét minta eleme-e ezen kritikus tartománynak, vagy nem. A döntéshozás érdekében érdemes az n elemű minták terét - és így a kritikus tartományt is - egydimenzióssá leképezni. A Tn=T(x1,x2,...,xn) leképezést úgy választjuk meg, hogy a mintán belüli tendenciája a vizsgált hipotézis érvénye esetén értelemszerű, likelihoodja pedig kalkulálható legyen. 11 A mintaelemeknek olyan Tn transzformációját, melynek mintavételi feltételes eloszlása a null hipotézis érvénye mellett egyértelműen meghatározható, teszt statisztikának, másképpen próbafüggvénynek nevezzük. A teszt statisztika H0 feltétel melletti eloszlását, melyet az L(Tn|H0) feltételes likelihood jellemez, null eloszlásnak nevezzük. Az alternatív hipotézis jellegének a szempontjából egyoldali tesztet hajtunk végre akkor, ha vagy csak az extrém alacsony T, vagy csak az extrém magas T értékek mondanak ellent a H0 hipotézisnek. Az előbbi esetben baloldali, az utóbbi esetben pedig jobboldali tesztről beszélünk. Kétoldali tesztet hajtunk végre ezzel szemben akkor, ha T nek mind az extrém alacsony, mind az extrém magas értékei ellentmondanak a H 0 hipotézisnek. A döntés alapvető kérdése tehát, hogy a teszt statisztika értékkészletén elhatároljuk a null hipotézisnek ellentmondó, annak fenntartása szempontjából kritikus tartományt. Kritikus tartománynak nevezzük a teszt statisztika értékeinek azon K tartományát, amely értékei a null hipotézis érvényessége esetén kicsiny valószínűséggel következnek be, leginkább ellentmondanak a null hipotézisnek, s ezért bekövetkezésük a null hipotézis elvetését támasztja alá. Baloldali teszt esetén a kritikus tartomány a null eloszlás baloldali alsó, jobboldali teszt esetén a felső szakaszán helyezkedik el, míg kétoldali teszteléskor megosztva mindkét extrém szakaszon szerepel. A szignifikancia szint a teszt statisztika kritikus tartományba esésének a valószínűsége. Kétoldali teszt esetén, mikor a kritikus tartomány megosztásra kerül, értelemszerűen a szignifikancia szint is megosztásra kerül: Pr(Tn K | H 0 ) a f ahol a az alsó, f pedig a felső kritikus tartományba kerülés kockázata. Ez a megosztás, ha egyéb szempont mást nem diktál, egyenlő arányban történik: a=f =/2. Baloldali teszteléskor f =0, jobboldali teszteléskor pedig a =0. A kritikus tartomány határát képező értéket kritikus értéknek nevezzük. A kritikus érték az adott null eloszlású véletlen változó azon kvantilis értéke, mely az előre rögzített szignifikancia szint mellett a kritikus tartományt határolja. Az alsó kritikus érték jele: Ka, melyre definíció szerint Pr(Tn
21
melyre definíció szerint Pr(Tn>Kf|H0)=f teljesül. Kétoldali teszt mind alsó, mind felső kritikus érték kijelölését igényli. A szignifikancia szint mértékének megválasztása a hipotézisvizsgálat szubjektív mozzanata, a döntéshozó feladata. Csökkentése (növelése) a kritikus tartomány terjedelmének szűkítését (tágítását), vagyis a teszt szigorítását (lazítását) teszi lehetővé. A fentiekből azonnal következik, hogy az szignifikancia szint csökkentésével együtt szűkül a kritikus tartomány, és nő a II. fajú hiba elkövetésének valószínűsége. E kétféle kockázat tehát csak egymás rovására változhat. Mivel a teszt hipotézis kritikus tartománya a kutatási hipotézis elfogadását indokolja, ezért a szignifikancia szint megválasztásakor ügyelni kell arra, hogy melyik típusú hibás döntés jár nagyobb kárral a döntéshozó szempontjából. Ennek az esélyét kell minél lejjebb szorítani. Ehhez szükségünk van a II. fajú hiba feltételes valószínűségére, mely csak valamely egyszerű alternatív hipotézis rögzítése mellett számítható. E valószínűség kalkulálása igényli ugyanis a teszt statisztika H1 érvénye melletti eloszlását. A másodfajú hiba elkövetésének feltételes valószínűsége: Pr(Tn K | H1 ) . Más szavakkal a másodfajú hiba annak a valószínűsége, hogy a tesztstatisztika mintából számított értéke az adott szignifikancia szint melletti kritikus tartományon kívül esik, miközben az alternatív hipotézis igaz. Ugyanakkor a Pr(Tn K | H1 ) 1 valószínűséget a teszt H1 feltétel melletti erejének nevezzük. A teszt statisztika ereje az igaz kutatási hipotézis elfogadásában rejlik. A szignifikancia szint és a másodfajú hiba elkövetésének, valamint a teszt erejének egymáshoz való viszonyát, továbbá a próba erejének grafikus meghatározását mutatja a 2.3 ábra ismert szórású normális eloszlás ismeretlen várható értékére vonatkozó jobboldali alternatív hipotézis esetén, rögzített egyszerű alternatív hipotézisek mellett. 2.3 ábra Szignifikancia szint, és a próba ereje Az ábráról leolvasható, általános érvényű megállapítások a következők: A szignifikancia szint csökkentése növeli a másodfajú hiba elkövetésének a valószínűségét. Az alternatív hipotézis helyessége esetén, rögzített szignifikancia szint mellett minél messzebb van a valóságos H1 a feltételezett H0 hipotézistől, annál nagyobb a próba ereje. Az I. és II. fajú hiba elkövetésének összesített valószínűsége akkor minimális, ha kritikus értékként T azon értékét választjuk, amely mellett a feltételes eloszlások L0(T) és L1(T) likelihood függvényei metszik egymást. Ha az egyszerű alternatív hipotézis egybeesik a nullhipotézissel, akkor a teszt ereje megegyezik az aktuális szignifikancia szinttel. Általánosságban, az altenatív hipotézist végigfuttatva az ismeretlen paraméter teljes feltételezett tartományán, a tesztnek az egyes altenatívák melletti erejét leíró függvényt erőfüggvénynek nevezzük. Hasonlóan a becslőfüggvényekhez, a teszt statisztikákat is aszerint prefereáljuk, hogy eleget tesznek-e ésszerű kritériumoknak. A próbákat az erőfüggvény alapján, az alábbi ktitériumok szerint értékeljük.
22
Torzítatlanság: Egy kétoldali próba akkor torzítatlan, ha az erőfüggvény minimuma a null hipotézis pontjában van. Erősség: Ha a T1 próba ereje a H1 pontban nagyobb, mint a T 2 próba ereje, akkor T1 ebben a pontban erősebb mint T2. Ha T1 az összes többi lehetséges próbafüggvénynél erősebb adott alternatíva mellett, akkor T1 az adott pontban a legerősebb (Most Powerful) teszt. Az erősség vizsgálatát kiterjesztve az összes lehetséges alternatívára, jutunk el az egyenletesen erősebb, illetve az egyenletesen legerősebb (Uniformly Most Powerful) próba fogalmához. Ha egy próba csak egy intervallumban (pl. a null hipotézis egy szűk környezetében) a legerősebb, akkor lokálisan legerősebb (Locally Most Powerful) tesztekről beszélünk. Konzisztencia: Egy próbát konzisztensnek nevezünk, ha ereje a mintanagyság tetszőleges növelése esetén bármely alternatíva mellett 1-hez konvergál.
3 A SZÓRÓDÁS TÖBBVÁLTOZÓS JELLEMZÉSE 3 A szóródás többváltozós jellemzése Reprezentálja a sokaság “i” sorszámú (i=1,...,N) egyedét az x1,x2,...,xp változókban realizálódott megfigyelések xi=[xi1,xi2,...,xip]T vektora. A sokaság egyedei a kérdéses ismérvekben különböznek egymástól, másszóval szóródnak. Alapvető kérdések, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínűségi (gyakorisági) eloszlás mentén szóródnak a p-dimenziós térben. A szóródás vizsgálata ad választ arra, hogy a megfigyelt egyedek hasonlók, vagy nagyon különbözők a vizsgált tulajdonságok tekintetében, ha különbözők, akkor vannak-e körükben homogén alcsoportok, illetve vannak e olyan tulajdonságaik, melyek tekintetében a többség hasonlóan, és más tulajdonságok, melyek tekintetében a többség fordítottan alakul. Bizonyos jellemzők tekintetében inkább, míg más jellemzők tekintetében kevésbé különböznek e megfigyelt egyedek. Megeshet továbbá, hogy az egyedek egy alcsoportja a vizsgált tulajdonságok közül csak néhány tekintetében alkot homogén csoportot, míg másik alcsoport más tulajdonságok tekintetében homogén. A szóródásban rejlő tendenciák, és az azokat kiváltó okok feltárásának eszközrendszere a variancia többdimenziós kiterjesztésének módozataihoz kötődik.
3.1 A VARIANCIA TÖBBVÁLTOZÓS ÁLTALÁNOSÍTÁSAI 3.1 A szóródást vizsgálhatjuk egyidejűleg több változó tekintetében is. Ha kettőnél több változó tekintetében mérjük a szóródását, úgy kézenfekvő a szóródást a változók minden lehetséges párosításában vizsgálni, valamennyi változó lineáris kombinációjának a szóródását jellemezni, a fenti két elvet kombinálva egyetlen, tömörített szóródási mértéket számítani.
3.1.1 A KOVARIANCIA FOGALMA ÉS TULAJDONSÁGAI 3.1.1 A sokaság egyedeit egyidejűleg egy x és egy y változó tekintetében ábrázolva a síkban, a pontdiagram szóródásában nem csupán a mérték az érdekes, hanem az a tendencia is, hogy a pontok a sík melyik tartományához tartoznak. Ennek jellemzésére a kovariancia mérőszám szolgál. Megfigyelésről megfigyelésre képezve két centrált változó értékeinek a szorzatait, az átlagos szorzat a két változó kovarianciáját eredményezi: 12 1 N (3.1) Cov( x, y) Cx , y ( xi x )( yi y ) N i 1 1 N 1 N (3.2) xi ( yi y ) ( xi x ) yi N i 1 N i 1 1 N (3.3) xi yi x y N i 1 ahol (3.3) a kovariancia momentum felbontását nyújtja. Adott változó önmagával vett kovarianciája az illető változó varianciáját nyújtja. A kovariancia előjeles mérőszám: pozitív az előjele, mikor az egyedek többsége mindkét tekintetben átlag feletti, illetve mindkét tekintetben átlag alatti értéket vesz fel. Negatív viszont az értéke, ha az egyedek többsége esetében átlag alatti x átlag feletti y értékkel párosul, vagy fordítva. Az együtt ingadozás ilyen értelmű tendenciáját a két változó közötti korrelációnak nevezzük. Pozitív kovariancia pozitív, negatív kovariancia pedig negatív korrelációt jelez. Ha zérus a kovariancia értéke, akkor a két változót korrelálatlannak mondjuk. Ekkor a két változó páronkénti szorzatainak az átlaga megegyezik a két változó átlagainak a szorzatával. Zérus a kovariancia értéke továbbá, ha legalább az egyik változó nem szóródik. Standardizált változók kovarianciáját rx,y jelöli, mely az eredeti változók kovarianciájának és szórásainak a felhasználásával:
12
A két, egymással ekvivalens jelölési mód közüli választás – csakúgy, mint a variancia esetében – most is a formula könnyebb áttekintését
szolgálja. Az átalakításnál kihasználjuk, hogy
x i 1 ( yi y ) y i 1 ( xi x ) 0 . N
N
23
Cov( x, y ) rx , y
Cov( x, y) . x y
(3.4)
3.1.1.1 A KOVARIANCIA LINEÁRIS DEKOMPOZÍCIÓJA 3.1.1.1 Ha az x változó az x1,x2,...,xp változók csoportjában az a1,a2,...,ap súlyokkal képzett p
x aj xj j 1
lineáris kombináció, az y változó pedig az y1,y2,...,yq változók csoportjában a b1,b2,...,bq súlyokkal képzett q
y bt yt t 1
lineáris kombináció, akkor az átlagos értékek is a megfelelő átlagok lineáris kombinációi a megfelelő súlyokkal, az alábbiak szerint: p
x aj xj j 1 q
y bt yt . t 1
Így a centrált dx és dy változók is a megfelelő centrált változók lineáris kombinációi: p
p
j 1
j 1
q
q
t 1
t 1
dx x x a j x j x j a j dxj d y y y bt yt yt bt d yt .
Ezek után az x és y lineáris kombinációk közötti kovariancia a csoportközi kovarianciák lineáris kombinációja, mert definíció szerint: p q 1 N 1 N p q (3.5) Cov( x, y) d xi d yi a j bt d xij d yit a j bt Cov( x j , yt ) . N i 1 N i 1 j 1 t 1 j 1 t 1 Mátrixalgebrai jelölésekkel: Cov(x,y) = aTCxyb (3.6) T T ahol a =[a1,a2,...,ap], és b=[b1,b2,...,bq] a súlyok vektorai, Cxy pedig a csoportközi kovarianciákat tartalmazó (p,q) rendű (nem szimmetrikus) mátrix. A (3.5) szabályt a későbbiekben CLD tételként hivatkozzuk13, amelynek (3.6) felírása a bi-kvadratikus formában kifejezett dekompozíciót jelenti. A kovariancia lineáris dekompozíciója a könyv egészében fölmerülő szabály, eszköz, és olyan gyakran használjuk a későbbiekben, hogy bizonyos esetekben már evidenciaként kezeljük. E szabályra különös hangsúlyt helyezünk, és megértését az alábbi részletes példa segíti. 3.1 Példa Egy vállalkozó telefonszámláját alkotó vezetékes, és mobil hívások időtartamát (perc) és költségét (Ft) havi összesítésben, egymást követő öt hónapban a 3.1 tábla közli. A beszélgetési időket különböző díjkörzetek szerint részletezzük. (A példa fiktív, az egységnyi legolcsóbb percdíjhoz igazodó relatív árakat alkalmaz.) Feladatunk a vezetékes, és a mobil havi költségek közötti kovariancia meghatározása, visszavezetve a beszégetési idők közötti kovarianciáknak, és a fajlagos egységáraknak a hatására. 3.1 tábla: Telefonszámlák jellemzői Hónap Vezetékes beszélgetési idő (x) az 1Ft 2Ft 5Ft percenkénti díjkörzeben (perc) 1 136 42 21 13
Mobil beszélgetési idő (y) az 5 8 percenkénti díjkörzeben (perc) 42 17
A Kovariancia (co-variance) Lineáris Dekompozíciója.
24
Vezetékes Mobil Hívások havi díja Ft Ft 525 946
2 3 4 5 Átlag
42 115 38 25 71.2
53 60 10 53 43.6
5 2 0 10 7.6
33 56 30 29 38.0
26 27 0 18 17.6
373 445 258 381 396.4
973 1096 750 889 930.8
A vezetékes beszélgetés havi egyszeri alapdíja 200, a mobil beszélgetésé pedig 600 Ft. Az egyszerűség kedvéért további díjféleségeket (pl. kapcsolási díj) nem veszünk figyelembe. A vezetékes beszélgetések havi díjának költségfüggvénye: x = 200 + 1x1 + 2x2 + 5x3 a mobil beszélgetéseké pedig: y = 600 + 5y1 + 8y2 ahol (1,2,5;5,8) rendre az egy perc költsége (Ft/perc) a megfelelő díjkörzetben. Határozzuk meg a vezetékes, és a mobil költségek közötti kovarianciát! Előbb definíció szerint: 1 Cov( x, y ) ((525 396.4)(946 930.8) ... (381 396.4)(889 930.8)) 6932.5. 5 Nézzük most, hogy ez az érték hogyan struktúrálódik a díjkörzetekben igénybevett beszégetési idők, és a percdíjak függvényében. Tekintsük az (x1,x2,x3,y1,y2) beszélgetési idők közötti kovarianciákat tartalmazó kovariancia mátrixot: Változó x1 x2 x3 y1 y2 C
x1
2041.40 204.28 168.08 375.00 138.68
x2
204.28
315.44
28.04
85.20
165.84
x3
168.08
28.04
56.24
1.00
10.44
y1
375.00
85.20
1.00
102.00
52.40
y2
138.68
165.84
10.44
52.40
93.84
ahol például 375 = Cov(x1,y1) = Cov(y1,x1) = 1 ((136 71.2)(42 38.0) ... (25 71.2)(29 38.0)) . 5 A kétféle költség közötti kovariancia lineáris fölbontásához a beszélgetési idők (x1,x2,x3),(y1,y2) csoportközi kovarianciáira van szükségünk. Ezzel a blokkal (a kovariancia invariáns a változók konstanssal való eltolására): Cov(x,y) = Cov( (x-200),(y-600) ) = 6932.5 375.0 138.68 5 = 1 2 5 85.2 165.84 . 8 1.0 10.44 Mivel a variancia egyben önkovariancia, ezért a kovariancia lineáris dekompozíciója (CLD) lehetővé teszi a variancia lineáris felbontását is, az alábbi módon: Var (a1 x1 a2 x2 ... a p x p ) Var ( x) Cov( x, x) p
(3.7)
p
a j at Cov( x j , xt ) j 1 t 1
mely mátrix jelölésekkel, kvadratikus formában: Var (a1 x1 a2 x2 ... a p x p ) aT Cxx a
(3.8)
ahol Cxx az xj változók valamennyi párosítását jellemző szimmetrikus, (p,p) rendű kovariancia mátrix. A (3.7) és (3.13) azonosságra a továbbiakban VLD szabályként hivatkozunk. Fölismerve, hogy a j=t indexű kovarianciák egyben varianciák, és Cov(xj,xt)=Cov(xt,xj), a lineáris kombináció varianciája más formában: p
Var ( x) a 2j Var ( x j ) 2 a j at Cov( x j , xt ) . j 1
(3.9)
j t
3.2 Példa Az előző példát folytatva, a vezetékes beszélgetés költségének a varianciája a vezetékes beszélgetési idők egymás
25
közti kovarianciái alapján:
2041.4 204.28 168.08 1 Var ( x) 1 2 5 204.28 315.44 28.04 2 7767.9 168.08 28.04 56.24 5 ahol például 204.28=Cov(x1,x2). A mobil beszélgetések költségének a varianciája a fentiek analógiájára: 102.0 52.4 5 Var ( y ) 5 8 12748 52.4 93.84 8 ahol például 52.4 = Cov(y1,y2).
3.1.1.2 A VÁRHATÓ ÉRTÉK KONFIDENCIA TARTOMÁNYA 3.1.1.2 A variancia lineáris felbontásának egy nevezetes alkalmazása mintabeli statisztikák mintavételi varianciájának a meghatározása. Legyenek változóink az n elemű FAE minta x1,x2,...,xn mintaelemei, melyek egymással páronként korrelálatlanok, és E xi , továbbá Var xi 2 minden mintaelemre. Így a mintaátlag mintavételi várható értéke
1 1 n 1 n E ( x ) E xi E ( xi ) n n n i 1 n i 1 és mintavételi varianciája - a mintaelemek korrelálatlanságát kihasználva, valamint a variancia VLD lineáris felbontását alkalmazva: 1 n 1 2 Var ( x ) 2 Var ( xi ) 2 n2 n n i 1 n ahol SE ( x ) n a mintaátlag standard hibája. Legyen most az n elemű FAE minta valamennyi eleme N(μ,σ2) normális eloszlású. Ekkor a mintaátlag eloszlása az egyedi mintaelemek normalitásából adódóan normális, az alábbi paraméterekkel: 2 x ~ N , . n A normális eloszlású mintaátlagot a várható értékével és a szórásával standardizálva standard normális eloszlású statisztikához jutunk: x z ~ N 0,1 . n Ha ismert, akkor a konfidencia intervallum a (3.23) elv alapján már szerkeszthető. Mivel a gyakorlatban a paraméter értéke többnyire nem ismert, ezért azt is a mintából kell becsülnünk az s korrigált szórás (1.4) szerinti alkalmazásával. Ilyenkor az intervallumbecslés az s2 variancia mintavételi eloszlása ismeretét is igényli. Mivel az eltérésnégyzetösszeg invariáns a konstanssal való eltolásra, majd a variancia momentum felbontását alkalmazva adódik: n
n
n
( x x ) ( x ) ( x ) x 2
2
i 1
i
i 1
i
i 1
i
2
n x
ezért a chi-négyzet eloszlás (1.10) definíciója alapján 2
(n 1) s xi x xi x ~ 2n 1 2 i 1 i 1 n 2
26
n
2
n
2
2
ahol 2n1 az (n-1) szabadsági fokú chi-négyzet eloszlást jelöli. Mivel E (2n 1 ) n 1 , és Var ( 2n 1 ) 2(n 1) , ezért a korrigált variancia mintavételi várható értéke – a mintaelemek normális eloszlása mellett: 2 E 2n 1 E s2 2 n 1 mintavételi varianciája pedig
4Var n2 1
24 . n 1 (n 1) Ha a mintaátlag standardizálásához a mintabeli korrigált varianciát használjuk, akkor az így nyert statisztika (1.15) alapján t-eloszlású, (n-1) szabadsági fokkal: x z ~ tn 1 . 2 s n 1 /(n 1) n Hangsúlyozzuk, hogy a fenti mintavételi jellemzők normális eloszlásból származó mintára érvényesek. A fent tárgyalt statisztikák közül a mintaátlag miden körülmények között (normalitástól függetlenül) torzitatlan, hiszen E( x ) , és konzisztens, mivel 2/n varianciája egyben MSE, és ez a mintaelemszám növelésével zéróhoz tart. Ezzel szemben, mivel a korrigált mintabeli variancia torzítatlan, a klasszikus nevezővel számított változata torzított pontbecslés a sokasági varianciára. E statisztika lefelé torzít, és a torzítás mértéke 2/n. Torzítottsága normalitástól függetlenül igaz, ezért mintából pontbecslési céllal mindig a korrigált varianciát számítjuk. A korrigált mintabeli variancia – ha a mintaelemek normális eloszlásúak14 – konzisztens is, hiszen ekkor mintavételi eloszlásának varianciája 24/(n-1), ami egyben MSE, és a mintaelemszám növelésével zéróhoz tart. Var s 2
2
A fentiek alapján a 95%-os megbízhatóságú (=0.05) konfidencia tartomány meghatározása ismeretlen 2 paraméter mellett az alábbi valószínűségi egyenlőtlenségből indul ki (lásd a konfidencia tartomány szerkesztésének általános lépéseit): x Pr tn1( 0.025) Tˆ tn1( 0.975) 0.95 s n ahol s T 1 (Tˆ | x ) x tn1 . n Így a konfidencia intervallum alsó határa: s ˆ a x tn1( 0.975) n felső határa pedig: s s ˆ f x tn1( 0.025) x tn1( 0.975) . n n Jelen esetben, mivel a t-eloszlás zéró várható értékű, és szimmetrikus, a konfidencia intervallum alsó és felső határa szimmetrikus a pontbecslésre. Ha ismert, akkor s helyén , tn-1 helyén pedig a megfelelő z0.025, és z0.975 kvantilisek szerepelnek. Természetesen másik megbízhatósági szintet használva a neki megfelelő kvantilis értékeket kell alkalmazni. 3.3 Példa. Tíz véletlenszerűen kiválasztott cigarettamárka-szabvány szerinti kátrány (K)-, nikotin (N)-, és szénmonoxid (CO)tartalma (mg/szál) alapján adunk 90 százalékos megbízhatóságú konfidencia intervallumot a naponta átlagosan 10 szálat fogyasztó dohányos tüdejébe egy év alatt gyárilag garantáltan bejutó méreganyagtartalomra (M=K+N+CO). Az egyes márkákat jellemző, közölt adatokat az alábbi tábla tartalmazza: Márka Kátrány(K) Nikotin(N) Szénmonoxid(CO)
14
A normalitást itt azért fontos hangsúlyozni, mert a mintavételi variancia meghatározásakor a χ2 eloszlás varianciáját használtuk fel.
27
1. 6.3 0.7 7.2 2. 7.1 0.7 8.1 3. 6.3 0.7 nem közölt 4. 8.7 0.7 nem közölt 5. 8.8 0.7 nem közölt 6. nem közölt 0.9 10.2 7. nem közölt 0.9 10.3 8. nem közölt 0.9 11.4 9. 13.1 0.9 10.3 10. 13.1 0.9 11.5 átlag 9.47 9.36 Mint látható, bizonyos alapadatok nem ismertek, ismertek viszont a következő (10-zel osztott) kovariánciák: Cov(K,CO)=3.333, Cov(K,K)=5.702, Cov(CO,CO)=2.428. A fajlagos méregtartalom (M=K+N+CO) normális eloszlását feltételezzük. A konfidencia intervallum szerkesztése az alábbi lépéseken keresztül történik: Cov(K,N)=0.5∙0.7∙(7.44-9.47) + 0.5∙0.9∙(11.5-9.47) = 0.203, Cov(CO,N)=0.5∙0.7∙(7.98-9.36) + 0.5∙0.9∙(10.74-9.36) = 0.138, Var(N) = 2∙0.5∙0.12 = 0.01. σ2M = 5.702+2.428+0.01 + 2(0.203+0.138+3.333) =15.4885, s 2M=154.885/9=17.2094, 3650*(19.63±1.83*1.3118) mg = [62.9; 80.4] gramm. Tehát a naponta átlagosan 10 szálat fogyasztó dohányos tüdejébe egy év alatt gyárilag garantáltan bejutó méreganyagtartalom 90 százalékos megbízhatósággal legalább 62.9 gramm, és legfeljebb 80.4 gramm.
3.1.1.3 LINEÁRIS KORRELÁCIÓ 3.1.1.3 Standardizált változók kovarianciáját lineáris korrelációs együtthatónak nevezzük. Ennek statisztikai tartalmát az alábbi gondolatment alapján világítjuk meg. 1. Speciálisan, két változó összegének, és különbségének a varianciája: (3.10) Var ( x y) Var ( x) Var ( y) 2Cov( x, y) 0 amely szerint, mivel a variancia sohasem negatív, két változó varianciájának az összege nem lehet kisebb, mint a két változó közötti kovariancia abszolút értékének a kétszerese: Var ( x) Var ( y) 2 | Cov( x, y) | 2. Ez az öszefüggés két standardizált változó esetében az | Cov( x, y) | 11 2 x y formát ölti, melyből végül
3.
|rx,y| 1. (3.11) A kovariancia abszolút értékének felső határa tehát a két szórás szorzata, két standardizált változó kovarianciája pedig következésképpen nem lehet nagyobb egynél. 15 Továbbmenve, ha x és y között egzakt yi=a+bxi lineáris kapcsolat van, akkor a kovariancia – a meredekség előjelétől függően – felveszi a szélső értékét. Ekkor ugyanis a kovariancia lineáris felbontása alapján: b b Cov( x, y ) Cov x, (a bx) bCov( x, x) bVar ( x) b x x x y . b b
Ebben az esetben |rx,y|=1, az egyenes meredeksége a fenti azonosságból Cov ( x, y ) b Var ( x ) tengelymetszete pedig a y bx . A normalizált rx,y kovariancia abszolút értéke a [0,1] zárt intervallumon azt jelenti tehát, hogy az aktuális 15
Ez a Cauchy-Bunyakovszkij-Schwarcz-féle egyenlőtlenség.
28
pontdiagram relatíve milyen közel (távol) húzódik az yi=a+bxi referencia egyeneshez képest. A fentiek alapján a lineáris korrelációs együttható jelölése: rx,y. 3.4 Példa A vezetékes és mobil havi telefonköltségek közötti lineáris korrelációs együttható értéke: Cov( x, y) 6932.5 rx , y 0.69665 x y 7767.9 12748
(3.12)
vagyis inkább közel, mint távol helyezkednek el a pontok ahhoz az egyeneshez képest, melynek a meredeksége 6932.5 b 0.892 7767.9 tengelymetszete pedig a = 930.8 – 0.892396.4 = 577.2.
3.1.2 AZ ÁLTALÁNOSÍTOTT VARIANCIA 3.1.2 A két dimenzióban értelmezett szóródást a kovariancia mellett az ún. általánosított varianciával is jellemezhetjük. Ennek geometriai interpretációját a (3.1) ábra illusztrálja. Tekintsük a két változót mint két – x és y pontot - a megfigyelések terében, és jelölje az origóból a két pontba mutató vektor hajlásszögét. Minél kisebb ez a hajlásszög, annál inkább kifejezi az egyik változó alakulása a másik szerinti szóródást is, miközben kicsi a két válltozó által kifeszített paralelogramma területe. Ezzel szemben minél nagyobb , annál inkább szükséges mindkét változó szóródásának az ismerete, s ekkor a paralelogramma területe relatíve nagy. Zérus a paralelogramma területe, ha a két változó közötti kovariancia maximális, vagyis a két változó maradéktalanul leírja a másik szóródásának az alakulását. Maximális a paralelogramma területe, mikor a két vektor merőleges egymásra, vagyis a kovarianciájuk zérus, tehát az egyik változó alakulásából semmilyen ismeretünk sincs a másik szerinti szóródásra vonatkozóan. Kézenfekvő tehát a változók szóródásában lévő redundancia mértékét a paralelogramma területével jellemezni. E terület négyzetét általánosított varianciának nevezzük: GV 2x 2y sin 2 2x 2y (1 cos2 ) 2x 2y 2x 2y rx2, y 2x 2y Cx2, y . 3.1 ábra Az általánosított variancia A havi telefonköltségek példájában a vezetékes és mobil költségek tekintetében az általánosított variancia: GV = 7767.912748-6932.52 = 50965632.95. A nagyságrendből is látható, hogy az általánosított varianciának nem önmagában, hanem összehasonlításban van tárgyi értelme. Ilyen elemzési terület lesz a későbbiekben például a csoportosított sokaság homogenitásának (heterogenitásának) a jellemzése. A sokaságot egyidejűleg több, az x1,x2,...,xp változók tekintetében vizsgálva, kézenfekvő a szóródást a változók minden párosításában számított kovarianciákkal jellemezni, melyek a (p,p) rendű kovariancia mátrixot alkotják: C1 p C11 C12 C C22 C2 p 21 C( p , p ) . C pp C p1 C p 2 A kovariancia mátrix szimmetrikus, és főátlóján a varianciákat tartalmazza: Cjt=Ctj és Cjj=Var(xj). Előállítása az alábbi módokon is történhet: 1 N 1 N C( p , p ) (xi x)(xi x)T Ci N i 1 N i 1 ahol xi az i egyedre vonatkozó megfigyelések sorozata, x a sokaság p-dimenziós centroidja (az átlagos értékek sorozata), a Ci diadikus szorzat pedig az i egyednek a kovarianciákhoz való hozzájárulását tartalmazó mátrix. A kovariancia mátrix determinánsát általánosított varianciaként értelmezzük:
29
Generalized Variance GV det C . Természetesen a kétváltozós esetben is ezt a definíciót használtuk, mivel ekkor 16 det(C(2,2)) = Var(x)(Var(y)-Cov2(x,y). A kovariancia mátrix pozitív szemidefinit, ugyanis - a variancia (3.5) szerinti VLD felbontása alapján - bármely v0 súlyvektorral a Var(v1x1 +...+ vpxp) = Var(vTx) = vTCv 0 skalár-reláció mindig teljesül, mivel variancia nem lehet negatív. A kovariancia lineáris felbontásának egy speciális alkalmazása, mikor ugyanazon x változócsoport változóit különféle súlyrendszerekkel kombinálva nyerünk új (t=1,2,...,q) számú ki = v1tx1+ v2tx2+...+ vptxp változókat, és a k lineáris kombinációk Ckk kovariancia mátrixát vezetjük vissza az x változók páronkénti kovarianciáira, és a megfelelő súlyokra: Ckk = VTCxxV (3.13) ahol a (p,q) rendű V mátrix t. oszlopa a kt kombinációra vonatkozó vjt súlyokat foglalja magában. 3.5 Példa Tekintsük az ötféle díjkörzetben folytatott beszélgetési idők háromféle - nappali, kedvezményes, illetve éjszakai tarifával kalkulált háromféle havi költségét (a vezetékes, és mobil költséget összesítve), és határozzuk meg e háromféle havi költség (3,3) rendű kovariancia mátrixát. Legyen az öt díjkörzetben egy perc fajlagos költsége (Ft/perc) napszaktól függően rendre az alábbi (most a mobil beszélgetés idejét is x4 és x5 jelöli): Napszak x1 x2 x3 x4 x5
VT
Nappali
1
2
Kedvezményes 0.4 1.2
5
5
8
4
2
5
Éjszakai 0.2 1 4 2 5 A 3.1 tábla perc adatait használva, a háromféle napszakot jellemző havi költségek (a 800 és 600 Ft egyszeri havi előfizetési díjat figyelmen kívül hagyva, mivel a kovariancia invariáns a konstanssal való eltolásra) forintban az alábbiak: Hónap x1 x2 x3 x4 x5 a N aK aÉ Ktg N Ktg K Ktg É 1
136 42 21 42 17
2
42
53
5
33 26
3
115 60
2
56 27
4
38
0
30
1
0.4 0.2
2
1.2
1
5
4
4
5
2
5 25 53 10 29 18 8 ahol például: 296.4 = 420.4 + 531.2 + 54 + 332 + 265. A napszak szerinti költségek kovariancia mátrixa ezek után: Ktg N
5
10
C Ktg
0
Ktg K
671
357.8 322.2
546
296.4 277.4
741
373.0 338.0
2
208
87.2
5
470
261.6 246.0
77.6
Ktg É
Ktg N
34381 18795
16994
Ktg K
18795 10473
9523.3
Ktg É
16994 9523.3 8684.1
2041.40 204.28 168.08 375.0 138.68 1 0.4 0.2 2 5 5 8 204.28 315.44 28.04 85.2 165.84 2 1.2 1 1 0.4 1.2 4 2 5 168.08 28.04 56.24 1.0 10.44 5 4 4 0.2 1 4 2 5 375.00 85.20 1.00 102.0 52.40 5 2 2 138.68 165.84 10.44 52.4 93.84 8 5 5 ahol például (felhasználva, hogy a nappali és az éjszakai költségek átlaga rendre 527.2, 275.2 és 252.24) definíció szerint:
16
Speciálisan, a (2,2) rendű mátrix determinánsa nem más, mint: (főátló elemeinek a szorzata – mellékátló elemeinek a szorzata) = c11c22 – c12c21.
30
1 [(671 572.2)(357.8 275.2) ... (470 572.2)(261.6 275.2)] 5 vagy (a közbülső összeadandók föltüntetése nélkül): Cov( Ktg N , Ktg K ) 18795 0.4 1 2041.4 ... 0.4 8 138.68 ... 5 1138.6 ... 5 8 93.84 . Cov Ktg N , Ktg K 18795
3.1.2.1 A SPEKTRÁLIS FELBONTÁS 3.1.2.1 A kanonikus variancia az információsűrítés azon eszköze, amellyel a többváltozós szóródás vizsgálatát az egyváltozós szóródás mérésére vezetjük vissza. Tekintsük a k=v1x1+v2x2+...+vpxp lineáris kombinációt azzal a megszorítással, hogy a súlyok négyzetösszege: vTv=1. Az e feltétel mellett maximált Var(k) varianciát kanonikus varianciának nevezzük: max Var (kv ) max vT Cxx v . v
v
Általánosságban t=1,2,...,p számú, páronként korrelálatlan kt komponenst véve, és varianciáikat az x változók összegzett varianciájának a százalékában kifejezve, a maximálási követelményt az első m (m=1,2,…,p) komponens összegzett varianciájára fogalmazzuk meg:17 m
VE (m)
t 1
t
p
Var ( x j )
max
j 1
a VE(m)=1 maradék nélküli reprodukció feltétele mellett. Adott komponenshez tartozó vt súlyvektor a V súlymátrix t. oszlopát alkotja, ahol V ortonormált, és VTV=I a (p,p) rendű egységmátrix. A (3.13) kovariancia mátrix analógiájára a főkomponensek (diagonális) kovariancia mátrixa Ckk = VTCxxV (3.14) ahol bármely két különböző komponens közötti kovariancia zéró. E feltételek mellett a kt lineáris kombinációkat főkomponenseknek nevezzük. A Ckk mátrix átlóján a főkomponensek 1,2,...,p varianciái, egyben a Cxx mátrix sajátértékei szerepelnek. E sajátértékek nem negatívak, hiszen a kovariancia mátrix pozitív szemidefinit. A V mátrix oszlopai a Cxx kovariancia mátrix normált sajátvektorai. A (3.14) egyenlet következménye, hogy az x változók varianciáinak összege megegyezik a főkomponensek varianciáinak összegével. A mátrixok nyomára (trace) vonatkozó szabály, és V ortonormált volta alapján a kanonikus varianciák összege az x változók összegzett varianciáját reprodukálja:18 tr(Ckk) = tr(Cxx VTV) = tr(Cxx) p
p
p
j 1
t 1
t 1
Var ( x j ) t Var (kt ) . Kihasználva, továbbá, hogy V ortonormáltsága miatt VT=V-1, a (3.14) egyenletből a kovariancia mátrix ún. spektrális felbontása adódik: Cxx = VCkkVT. (3.15) A spektrális felbontás alapján (a determinánsokra vonatkozó tételeket használva) az általánosított variancia a kanonikus varianciák a szorzataként is definiálható:19 GV = det(Cxx) = det(V)det(Ckk)det(VT) p
= det(VTVCkk) det(Ckk ) t . t 1
3.6 Példa Kétváltozós esetben a kovariancia mátrix két sajátértéke zárt formulára vezet, és elemezhető a két variancia, és a kovariancia függvényében. A sajátérték feladat definíció szerint a (C(2,2) - I(2,2)) v = 0 egyenlet megoldását igényli. Ennek csak akkor van v0 megoldása, ha a (C-I) együttható mátrix nem invertálható, A követelmény megnevezése: Variance Explained. Egy négyzetes mátrix nyoma a főátlóelemek összegét jelenti, és tr(AB)=tr(BA) 19 Szorzat determinánsa megegyezik a tényezők determinánsainak a szorzatával. 17 18
31
vagyis szinguláris. Ehhez az együttható mátrix determinánsának zérónak kell lennie. Mivel (2,2) rendű mátrix determinánsa a főátlóelemek szorzata és a mellékátló elemek szorzata különbsége, ezért kétváltozós esetben feladatunk a 2 C 2 2 2 det x x y C 0 2 C y tekintetében másodfokú polinom zérushelyeinek a meghatározása. (C most értelemszerűen a Cx,y kovarianciát jelenti.) A zárójeleket felbontva: 2 2x 2y 2x 2y C 2 0 melynek zérushelye:
2x 2y 2
2x 2y 2
2
2 C .
(3.16)
Könnyen ellenőrizhető, hogy
1 2 2x 2y 1 2 2x 2y C 2
.
A fentiek alapján az alábbi általános megállapításokat tehetjük: A két sajátérték összege megegyezik az eredeti varianciák összegével, míg szorzatuk a kovariancia mátrix determinánsát nyújtja. Ha a két változó korrelálatlan, vagyis C=0, akkor 1=Var(x) és 2=Var(y). Ha a két változó között függvényszerű lineáris kapcsolat van, akkor C=xy, és 1=Var(x)+Var(y) és 2=0. Ha a két változó varianciája megegyezik, és ez 2, akkor = 2 |C| Ha mindkét változó standardizált, akkor = 1 |r|. A sajátértékek ismeretében a sajátvektorokat úgy határozzuk meg, hogy az aktuális sajátvektor két elemének négyzetösszege 1 legyen: 2 v112 v21 1 . 2 2 v12 v22 1 Ezek után néhány konkrét kovariancia mátrix Cxx=VCkkVT alakú spektrális felbontása a következő: xy esetén:
6 2 2 3
2 5 1 5
1 2 5 7 0 5 2 0 2 1 5 5
1 5 2 5
T
ahol a
k1
2
k2
1
5
x
1
x
2
5
y
főkomponens varianciája 7, míg a
32
y 5 5 főkomponens varianciája 2. Az egységnyi hosszú súlyvektorok körében nem tudunk másik olyan súlyvektort mondani, amellyel a 6+3=9 egységnyi összes varianciából 7 egységnél többet tudnánk reprodukálni. A k1 és k2 főkomponensek varianciája részletesen kifejtve: 1 4 1 2 Var(k1) = 6 + 3+(2 )2=7 5 5 5 5 1 2 1 4 Var(k2) = 6 + 3 – (2 ) 2 = 2. 5 5 5 5 x=y esetén:
5 4 4 5
1 2 1 2
1 1 2 9 0 2 1 0 1 1 2 2
1 2 1 2
T
x=y=1esetén: T
1 1 1 1 0.8 2 1.8 0 1 2 2 2 . 0.8 1 0.2 1 1 1 1 0 2 2 2 2 Ez utóbbi esetben a két változó közötti lineáris korreláció értéke 0.8. Mivel most a varianciák egyenlők, és egységnyiek, ezért a két sajátérték: 1 = 1 + 0.8 = 1.8, és 2 = 1 – 0.8 = 0.2. Standardizált változók kovariancia mátrixa a változók korrelációs mátrixa, melyet R jelöl. Mivel ez esetben R diagonálisán speciálisan az egységnyi varianciák szerepelnek, ezért R nyoma a változók számával egyenlő: tr(R)=p. Ebből viszont az következik, hogy R sajátértékeinek az összege p: p
t 1
t |R
p.
Kétváltozós esetben a korrelációs mátrix spektrális felbontása mindig felírható az alábbi formában:
1 r r 1
1 2 1 2
1 2 1 2
1 | r | 0 0 1 | r |
1 2 1 2
T
1 2 . 1 2
3.1.2.2 A SZÓRÓDÁSI MÁTRIX 3.1.2.2 A kovariancia mátrix képzésének egyféle módja az X adatmátrixból képzett
1 T X X szóródási mátrixon alapul: N
x1T x1 x1T x 2 X 12 x1T x p X1 X 2 X 1 X p T T T 2 x2 x p 1 X1 X 2 1 T 1 x x x2 x2 X2 X2X p X X 2 1 (3.17) N N N T T xTp x p x p x1 x p x 2 X 1 X p X 2 X p X p2 ahol a sokaság minden egyedére vonatkozó szummázást jelenti, és az XTX mátrixszorzat az X mátrix minden lehetséges oszloppárosításának skaláris szorzatát tartalmazza. A szóródási mátrix főbb tulajdonságai az alábbiak: Pozitív szemidefinit, mivel bármely v≠0 vektorral a vTXTXv = (Xv)T(Xv)0 reláció teljesül, hiszen itt az Xv vektor önmagával vett skaláris szorzatáról van szó, mely elemeinek a négyzetösszegét képezi. Ez pedig sohasem lehet negatív. Centrált változók esetében a kovariancia mátrixszal esik egybe: 1 T Xd Xd C xx N ahol Xd oszlopai centrált változók. Standardizált változók esetén a korrelációs mátrixot állítja elő. 1 T X z X z R xx N ahol Xz oszlopai standardizáltak. 3.7 Példa A vezetékes, és mobil telefonköltségek kovariancia és korrelációs mátrixa a szóródási mátrix formájában számolva:
33
15.2 128.6 23.4 42.2 1 T 1 X d X d 48.6 165.2 N 5 138.4 180.8 15.4 41.8
T
15.2 128.6 23.4 42.2 7767.9 6932.5 48.6 165.2 CVM 6932.5 12748.0 138.4 180.8 15.4 41.8
majd
1.459 0.135 0.266 0.374 1 T 1 X z X z 0.551 1.463 N 5 1.570 1.601 0.175 0.370
T
1.459 0.135 0.266 0.374 1 0.69665 0.551 1.463 RVM . 0.69665 1 1.570 1.601 0.175 0.370
3.1.2.3 TÖBBVÁLTOZÓS NORMALITÁS 3.1.2.3 A végtelen, p-dimenziós sokaságot p-dimenziós normális eloszlásúnak mondjuk μ és Σ paraméterekkel, azaz x~N(μ,Σ), ha az x=[x1,x2,...,xp] vektorváltozó sűrűségfüggvénye: 1 ( x μ )T Σ 1 ( x μ ) 1 2 f ( x) e (3.18) (2) p / 2 det Σ ahol a μ paraméter az eloszlás p-dimenziós várható érték vektorát, a Σ paraméter pedig a (p,p) rendű pozitív definit kovariancia mátrixát reprezentálja. Ha x~N(μ,Σ), akkor az x1,x2,...,xp változók bármely lineáris kombinációja egyváltozós normális eloszlást követ. Továbbmenve, ekkor (x-μ)~N(0,Σ) eloszlású, vagyis (x-μ) kj főkomponensei (j=1,2,...,p) zéró várható értékű, λj varianciájú normális eloszlású, egymástól független véletlen változók: kj~N(0,λj), ahol λj a Σ mátrix megfelelő sajátértéke. Tekintsük most a szóródási paraméter Σ=VLVT spektrális felbontását, ahol V oszlopai Σ sajátvektorait, az L diagonális mátrix átlója pedig a sajátértékeket tartalmazza. E spektrális felbontással a sűrűségfüggvény exponenciálisa p szabadsági fokú khi-négyzet eloszlásra hozható, mivel: (x μ)T Σ 1 (x μ) (x μ)T VL1VT (x μ)
VT (x μ) L1 VT (x μ) T
1 1 1 T 1 2 k L k k2 k2 ... k p 1 p 2 2 p k p p kj j z 2j ~ 2p . j 1 j j 1 Var ( k j ) j 1
k1 k 2 k p
A fenti eredményt összefoglalva:
(x μ)T Σ1 (x μ) ~ 2p amellyel a sűrűségfüggvény tömörebb formában f ( x)
1
e
1 2 2
(2) det Σ Vegyük észre, hogy itt χ2 nem más, mint az x pontnak a μ centroidtól vett Mahalanobis távolsága.
34
p/2
(3.19)
A normalitásból származó másik nevezetes eloszlás az uTAu idempotens kvadratikus forma eloszlása, ha u standard normális független változókat tartalmazó vektorváltozó, A pedig idempotens mátrix: A2 = A. Idempotens mátrix sajátértéke ugyanis csak az 1, és a 0 értékek valamelyike lehet, különben a hatványaik megváltoznának, és nem teljesülne a VL2VT = VLVT követelmény . Látható, hogy L diagonálisán nem szerepelhet egytől, vagy zérótól különböző sajátérték. Tegyük fel, hogy az 1 sajátértékek száma K
VT u L VT u T
zT Lz z2
z2
1 1 ... z p
0
z1 z 2 z p
K
z 2j ~ 2K . j 1
3.2 A VARIANCIA TÖMÖRÍTÉSE: FŐKOMPONENS VÁLTOZÓK ELEMZÉSE 3.2 A főkomponensek az xj (j=1,...,p) változók helyettesítését szolgáló, magukból a változókból képzett olyan kt (t=1,2,...,p) lineáris kombinációk, melyek varianciája t , páronként korrelálatlan rendszert alkotnak, és a sokaságban a változókat maradék nélkül reprodukálják: kt v1t x1 v2t x2 ... v jt x j ... v pt x p (3.20) x j v j1k1 v j 2 k2 ... v jt kt ... v jp k p .
(3.21)
A súlyok dupla alsó indexében az első (j) index x változóra, a második (t) pedig k főkomponensre utal. A vjt súlyokat a V(p,p) mátrixba foglalva, annak t. oszlopa az x változók súlyozására szolgál a kt főkomponens kalkulálása érdekében, j. sora pedig a k főkomponensek súlyozására szolgál az xj változó kalkulálása érdekében. Centrált, zérus átlagú x változók esetén a főkomponensek is zérus átlagúak, és varianciáik összegével az x változók varianciáinak az összegét reprodukálják. Zérus átlagú főkomponens értelmezésbeni előnye, hogy pozitív értékei átlagosnál nagyobb, negatív értékei pedig átlagosnál kisebb értékkel bíró megfigyelési egységet tükröznek. A főkomponensek egymással való korrelálatlanságának köszönhetően a vjt súly kizárólag a kt főkomponens közvetlen hatását tükrözi az xj változó alakulásában. Ez az érzékenység-vizsgálatot egyszerűsíti. Ha ugyanis a főkomponensek egymással korrelálnának, akkor e multikollinearitás révén a többi főkomponens változása befolyásolná a kt komponens alakulását, és ez az indirekt hatás is jelentkezne a vjt súlyban. A v súlyoknak statisztikai értelmet ad, ha segítségükkel kifejezzük az x változónak a k főkomponenssel való kovarianciáját:
Cov kt , x j Cov kt , v j1k1 v j 2 k2 ... v jt kt ... v jp k p v jt Cov kt , kt v jtVar kt
hiszen a főkomponensek egymással páronként korrelálatlanok. Ebből következően, a zéró átlagú főkomponenst standardizált formában használva, vagyis a t szórásával osztva: ft
kt t
v jt kt v jt t f t a jt f t
és x j a j1 f1 a j 2 f 2 ... a jt f t ... a jp f p
ahol a jt v jt t .
Végül
35
Cov ft , x j a jtVar ft a jt hiszen ekkor Var(ft)=1). A standardizált főkomponenst súlyozó ajt együttható ún. „loading” jellegű súly, mivel nagyságrendje azt fejezi ki, hogy a vizsgált xj változó alakulását mely főkomponensek töltik fel tartalommal, tükrözik leginkább. Az ajt súlyokra a későbbiekben vagy a tömör „loading”, vagy az értelemszerű faktorsúly megnevezéssel hivatkozunk. Standardizált x változók mellett az ajt súly korrelációt jelent: rft , x j a jt . Erre támaszkodva adott főkomponens statisztikai tartalmát a vele legszorosabban (akár pozitív, akár negatív irányban) korreláló változók adják. A változóknak a főkomponensekkel történő előállítását tömören a szinguláris érték felbontás (SVD eljárás) fogalmazza meg, amely szerint bármely valós X(n,p) mátrix felírható az alábbi formában:20 1
X FΛ 2 VT
F VΛ
1
T
2
(3.22)
FΑT
(3.23)
ahol az X(n,p) mátrix a változókra végzett megfigyelések értékeit, az F(n,p) mátrix az egymással páronként korrelálatlan és standardizált f főkomponensek értékei, a Λ
1
2
1 , 2 ,..., p
diagonális mátrix diagonális elemei pedig a
főkomponensek szórásait (egyben az ún. szinguláris értékeket) tartalmazzák. A 1
(3.24) Α mátrixba foglalt súlyok a loading-mátrixot alkotják. A (3.22) feladat az 1 FT F C ff R ff I , és a VTV=I ortonormáltági feltételek mellett, az 1 XT X szóródási N N mátrix spektrális felbontása útján oldandó meg, mivel a szóródási mátrix SVD kifejtésével, és az átalakítások elvégzésével: 1 T X X VΛVT . N Ekkor a szóródási mátrix 1 , 2 ,..., p sajátértékei a főkomponens varianciákat (a szinguláris értékek négyzeteit)
VΛ
2
jelentik, miközben V oszlopai a a megfelelő sajátvektorok. Így a k főkomponensek kovariancia mátrixa, és a loading jellegű súlyok közötti összefüggés (3.24) felhasználásával:
AT A VΛ
1
VΛ Λ C T
2
1
2
kk
.
(3.25)
Mivel Λ diagonális, a loading mátrixban bármely két oszlop skaláris szorzata zéró, ha az oszlopot nem önmagával szorozzuk. Ha viszont önmagával szorozzuk, akkor az így rögzített főkomponenshez tartozó t. oszlop négyzetösszege az illető főkomponens varianciáját eredményezi: p
Var kt t a 2jt
(t 1, 2,..., p) .
(3.26)
j 1
A (3.22) SVD felbontás egyszerű átrendezésével a standardizált főkomponensek is előállíthatók a változókból, az alábbi súlyrendszer felhasználásával:
F X VΛ
ahol VΛ
1
2
1
2
(3.27)
az ún. főkomponens-"score" koefficiensek mátrixa.
Visszatérve a loading elemzéséhez, a (3.22) azonosságot előbb az 1
N
XT , majd az 1
N
FT mátrixszal balról
szorozva: 1 T 1 X X XT FAT , N N
Singular value decomposition. Az SVD eljárást a fejezet függeléke részletesen bemutatja. Változó alatt ebben az alfejezetben az x jellegű változókat fogjuk érteni. 20
36
1 T 1 F X FT FAT . N N Ha a változók centráltak, akkor a fenti egyenletek (lásd a szóródási mátrix (3.17) tulajdonságait) az alábbi formában is írhatók: (3.28) Cxx Cxf AT
C fx C ff AT
(3.29)
ahol C ff R kk I , mivel a főkomponensek páronként korrelálatlanok és standardizáltak. Ezután (3.29) transzponálásával, majd a (3.27) azonosságnak balról, az 1
N
XT mátrixszal való szorzása révén 1
(3.30) Cxf AR kk Cxx (VΛ 2 adódik, ahol C tartalmilag attól függően jelöl kovariancia, vagy korrelációs mátrixot, hogy a változók csak centráltak, vagy standardizáltak is. A változók és a főkomponensek közötti páronkénti kapcsolatok rendszerét leíró Cxf kovariancia (korrelációs) mátrixot struktúrának nevezzük. és így a (3.30) formulából C xf A (3.31) következik, vagyis korrelálatlan főkomponensek esetén a struktúra- és a loading-mátrix egybeesik. A loading további tulajdonsága (3.28) és (3.30) egybevetéséből: C xx AR kk AT (3.32) amiből egymással korrelálatlan főkomponensek mellett C xx AAT (3.33) 21 adódik. A fenti azonosság alapvető, hiszen azt mondja, hogy a loading mátrix bármely két sorának skaláris szorzata a két sorindexhez (j,h) tartozó változók közötti kovarianciát (korrelációt) maradék nélkül reprodukálja: p
Cov( x j , xh ) a jt aht
( j , h 1, 2,..., p) .
(3.34)
t 1
Ebből következően, standardizált változók esetén rjj=1, vagyis ilyenkor a loadingok bármely sorában a súlyok négyzetösszege: 1. Végül a standardizált főkomponensek megfigyelésenkénti kit értékeinek közvetlen előállítása érdekében, a változók súlyozására szolgáló score koefficiensek mátrixa a (3.30) formulából az alábbi:
VΛ
1
2
Cxx1Cxf
(3.35)
vagy a loading súlyok felhasználásával másképpen 1
1
VΛ 2 VΛ 2 Λ 1 AΛ 1 . A főkomponenseket értelmezendő, a változókat külön-külön hozzárendeljük ahhoz a főkomponenshez, amelyikkel a legszorosabban korrelál. Ez által a változók olyan csoportosulásai rajzolódnak ki, amely csoportokon belül a változók egymással szorosan, más csoportok változóival viszont (a főkomponensek egymással való korrelálatlansága következtében) gyengén korrelálnak. Ennek eredményeképpen a főkomponens statisztikai tartalmát a hozzá rendelt változók tartalma nyújtja. Mivel a loading a főkomponens és a változó közötti kovariancia (az esetek többségében lineáris korrelációs együttható), ezért a főkomponensek értelmét a loadingok A mátrixának a mintázata mutatja. Nyilvánvaló, hogy a leginkább szóródó főkomponensek tartalmát adó változók tekintetében szóródik a leginkább, és a legkevésbé szóródó főkomponensekkel szorosan korreláló változók tekintetében szóródik a legkevésbé a vizsgált sokaság. A fent mondottakat összefoglalva megállapíthatjuk, hogy mind a változók, mind a főkomponensek a másik változókör elemeinek lineáris kombinációi, ahol a súlyok megválasztásától függően (a sajátvektorok megfelelő vjt eleme, vagy az ajt loading, vagy a score koefficiens) nyerhetünk standardizált vagy nem standardizált adatból is akár standardizált, akár nem standardizált adatot. Az X változók (3.22) SVD felbontását bármely FT és AT ortogonális transzformáció kielégíti, ha a (p,p) rendű T(p,p) transzformációs mátrixra a TTT=Ip ortonormáltsági követelmény teljesül, ugyanis: X (FT)(AT)T F TTT AT FAT . Az ortogonális transzformáció után a főkomponensek továbbra is páronként korrelálatlanok
21
Mivel az x változó a főkomponensek lineáris kombinációja, ezért ez az azonosság a kovariancia lineáris dekompozícójából azonnal következik.
37
1 1 T FT FT TT FT F T I . N N
3.2.1 ADATREDUKCIÓ ÉS VESZTESÉG 3.2.1 Amennyiben az információ tömörítése végett csak az első m
Cx j , xh a jt aht Cx j , xh Cˆ x( mj , )xh t 1
reziduális kovariancia csak akkor zéró, ha m=p, vagyis valamennyi főkomponenst használjuk. Itt a m
Cˆ x( mj , )xh a jt aht t 1
mértéket reprodukált kovarianciának nevezzük. Innen, mivel az önkovariancia mindig varianciát jelent, standardizált változók esetén pedig a kovariancia korrelációnak felel meg, és a variancia egységnyi, ezért standardizált változókat használva a m
rˆx(jm, x) j a 2j VE j (m) t 1
kumulált négyzetes súly azt mondja meg, hogy az első m számú főkomponens az xj változó varianciájának mekkora százalékát reprodukálja. A VEj(m) mutatót az Xj változó első m főkomponensre vonatkozó kommunalitásának nevezzük. Minél magasabb valamely változó kommunalitása, és ezzel összhangban minél alacsonyabbak a reziduális korrelációk (kovarianciák), annál jobban magyarázzák a megőrzött főkomponensek a változók ingadozását. A reprodukált, és így a reziduális kovariancia (korrelációs) mátrix is invariáns az ortogonális transzformációra, hiszen ha Am a loading-mátrix első m oszlopát tartalmazza, és Tm TmT I m , akkor
Am Tm Am Tm
T
ˆ . A m ATm C xx m
(3.36)
3.2.2 AZ EGYSZERŰ STRUKTÚRA IGÉNYE 3.2.2 Ha a főkomponensek a változókat nehezen értelmezhető csoportokra bontják, akkor fölmerül a Tm transzformáció igénye, és megválasztásának a problémája. A főkomponensek értelmezése érdekében érdemes azt a transzformációt választani, amely mellett a loading-mátrix az ún. "legegyszerűbb" struktúrát mutatják. Egyszerű struktúra alatt azt értjük, mikor egy változó lehetőleg csak egy főkomponenshez tartozik nagy abszolút súllyal, és egy főkomponens viszonylag kevés számú változót tölt fel nagy súllyal. Perfekt, tökéletes egyszerű struktúráról akkor beszélünk, ha adott x változó csak egy főkomponenshez tartozik nem zéró súllyal. Standardizált változók esetén a loading egyben lineáris korreláció, tehát ilyenkor az 1-hez közeli abszolút értékű súly számít nagynak, és természetesen a zéróhoz közeli elhanyagolhatónak. Az egyszerű struktúra definíciója láthatóan nem egyértelmű, többféle ésszerű kritérium is megfogalmazható az egyszerű struktúrát mutató loading mátrixszal szemben. Egyféle kritérium lehet, hogy a négyzetes loading súly adott főkomponenst rögzítve a lehető legnagyobb mértékben szóródjon. Ez a variancia maximálás (3.3) alapján azt a tendenciát eredményezi, hogy a loading-mátrix adott oszlopában kevés 1-közeli, és sok zéróközeli abszolút érték található. Az egyszerű struktúra valamely kritériumának eleget tevő Tm transzformációval létrehozott loading mátrix elemeit rotált, elforgatott loadingoknak nevezzük. A négyzetes loading-értékek varianciáját főkomponensenként rendre maximáló kritériumot VARIMAX kritériumnak nevezzük. Az elforgatott főkomponensek tartalmukat tekintve már nem főkomponensek, hanem faktorok, elemzésüknek a későbbiekben önálló fejezetet szentelünk, és a rotálás részleteire is visszatérünk a Faktoranalízis c. fejezetben.
38
Az alábbiakban néhány példa számításokon keresztül illusztrálja a főkomponensek tulajdonságait. A példákban a főkomponens azonosítója FK, tekintet nélkül arra, hogy standardizált, vagy nem. 3.8. PÉLDA Az alábbi példában 22 biztosítót vizsgálunk díjbevételei, és kárkifizetései alapján. A díjbevételek között megkülönböztetjük az életbiztosításból befolyt díjakat, továbbá a nem életbiztosításból származó díjbevételek esetén különbséget teszünk a kötelező, és a nem kötelező jellegű díjbevételek között. Ilymódon a biztosítókat 4 változó tekintetében vizsgáljuk. A biztosítókra a sorszámukkal, a változókra pedig az alábbi rövid azonosítókkal hivatkozunk: eletdij, neletkot, nelnkot, karkif. Valamennyi változót milliárd forintban mérjük. A változók átlagait és (korrigált) szórásait a 3.2. táblázat, az alapadatokat tartalmazó X mátrixot pedig a 3.3. táblázat közli. Célunk most a főkomponensek képzésével, hogy a biztosítókat rangsoroljuk méretük, vagyis a fenti változók többsége tekintetében, de nem külön-külön, hanem szimultán módon. A „méret” főkomponens értékeinek a meghatározása az extrém, „outlier” biztosítók elhatárolását is segíti. Az eredmények képződésének menetét részletesen illusztráljuk. 3.2. táblázat Biztosítási változók leíró mutatói Változó eletdij neletkot nelnkot karkif
átlag 8.2468 2.9505 6.4205 7.2632
szórás 14.092 7.6645 13.154 15.294
3.3. táblázat Biztosítók jellemzői (X mátrix, milliárd forint) Biztosító 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
eletdij 13.44 22.70 36.00 55.16 21.24 4.65 8.05 3.30 0.04 7.84 3.37 0.32 2.13 0.60 1.91 0.00 0.00 0.66 0.00 0.00 0.00 0.00
neletkot 34.02 13.75 5.70 0.00 5.64 2.63 0.00 0.08 2.71 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.38 0.00 0.00
nelnkot 55.66 29.70 16.18 0.00 11.96 10.45 0.00 3.72 3.57 0.98 1.16 3.43 0.32 1.40 0.00 1.05 0.85 0.00 0.62 0.01 0.15 0.03
karkif 64.37 28.23 28.00 6.75 14.90 7.91 0.43 0.73 3.66 1.24 0.61 1.03 0.39 0.57 0.04 0.19 0.18 0.02 0.30 0.13 0.10 0.01
A változók korrelációs kapcsolatrendszerét jellemző mátrixokat rendre a 3.4., 3.5. és 3.6. táblázatok tartalmazzák. 3.4. táblázat Kovariancia mátrix (Cxx) Változó eletdij neletkot nelnkot karkif
eletdij 198.59580 27.22406 55.68699 92.45313
neletkot
nelnkot
karkif
58.74382 99.17413 113.38298
173.01598 196.79064
233.89216
3.5. táblázat Korrelációs mátrix (Rxx) Változó eletdij neletkot nelnkot karkif
eletdij 1.0000 0.2521 0.3004 0.4290
neletkot
nelnkot
karkif
1.0000 0.9837 0.9673
1.0000 0.9783
1.0000
3.6. táblázat A korrelációs mátrix inverze ( R xx1 ) Változó eletdij neletkot nelnkot
eletdij 2.662857 4.958198 3.063007
neletkot
nelnkot
40.766101 -21.762393
50.695437
karkif
39
karkif
-8.934743
-20.270531
-29.856520
53.647721
Bár példánkban a változók varianciái összegének van tárgyi értelme, hiszen valamennyi változót milliárd forintban mérjük, elemzésünket a korrelációs mátrix spektrális felbontására alapozzuk. A sajátértékek a Λ diagonális mátrix átlójába foglalva a következők: Λ = < 3.1057, 0.8665, 0.0158, 0.0120 > melyek kumulatív százalékos megoszlása rendre: 77.64%, 99.30%, 99.70%, 100%. Eszerint az első két főkomponens a szóródásban lévő összes 4 egységnyi információ 99.3%-át, tehát csaknem teljes mértékben reprodukálja. A sajátértékekhez tartozó, rotálatlan loading (A mátrix) az alábbi: 3.7. táblázat Rotálatlan A loading-mátrix Változó eletdij neletkot nelnkot karkif VE
FK1
FK2
FK3
0.459 0.971 0.981 0.995 3.106
0.888 -0.219 -0.169 -0.029 0.866
0.012 0.101 -0.056 -0.048 0.016
FK4 -0.012 -0.002 -0.074 0.080 0.012
A loading értelmezése (példaként az életbiztosításból származó díjbevételt, és az első főkomponenst kiragadva) az alábbi elemzési lehetőségeket rejti. Az életbiztosításból származó díj, és az első főkomponens közötti lineáris korreláció 0.459, ami pozitív közepes intenzitású kapcsolatra utal. Mivel ugyanitt 0.4592=0.211, és közben a négyzetes súlyok főkomponensenkénti összege minden sorban 1, ezért FK1 a díjbevétel varianciájának 21.1%-át reprodukálja. Ez utóbbi mutató a díjbevételnek az első főkomponensre vonatkozó kommunalitása. Mint látható, az első főkomponens varianciája a rá vonatkozó kommunalitások összege: 3.106 = 0.4592 + 0.9712 + 0.9812 + 0.9952. Az "eletdij" változónak az első két főkomponensre vonatkozó kommunalitása pedig értelemszerűen: 0.4592 + 0.8882 = 0.9992, tehát az első két főkomponens e változó varianciájának 99.92%-át reprodukálja. Természetesen valamennyi főkomponensre vonatkozóan összegezve a négyzetes loadingokat, az életdíj kommunalitása 1. Továbbmenve, például az " eletdij " és " neletkot " változók közötti lineáris korreláció - egyrészt a korrelációs mátrixból, másrészt a loadingokból - az alábbi: 0.252 = 0.459·0.971 + 0.888·(-0.219) + 0.012·0.101 + (-0.012)·(-0.002) . Csak az első két főkomponenst használva e korráláció kalkulálására, maradék, reziduális korreláció is adódik: 0.252 - (0.459·0.971 + 0.888·(-0.219)) = 0.000783. Adott főkomponensek mellett minél magasabbak a kommunalitások, annál alacsonyabbak a reziduális korrelációk, és annál jobban helyettesítik a vonatkozó főkomponensek a változókat. Példánkban ez történik. A standardizált főkomponensek biztosítónkénti értékeinek a meghatározásához szükséges súlyokat a "score" koefficiensek mátrixa tartalmazza. 3.8. táblázat Score koefficiensek (VΛ-½ = AΛ-1 mátrix) Változó eletdij neletkot nelnkot karkif
FK1 0.14776 0.31250 0.31595 0.32044
FK2
FK3 1.02519 -0.25281 -0.19493 -0.03400
FK4 0.79016 6.37063 -3.57419 -3.05298
-0.98268 -0.13982 -6.14677 6.65005
E mátrixban például: 0.14776 = 0.459 / 3.106. A "score" koefficiensek oszlopainak a felhasználásával, például az első standardizált főkomponens előállítása: st(FK1) = 0.14776·st(eletdij) + 0.31250·st(neletkot) + 0.31595·st(nelnkot) + 0.32044·st(karkif) ahol most st(.) az argumentumban szereplő változó standardizált voltára utal. Továbbmenve, a standardizált főkomponenseket a rájuk vonatkozó loadingokkal súlyozva, a változókat (esetünkben azok standardizált értékeit) tudjuk reprodukálni. Például az életbiztosítási díjbevétel reprodukálása a loadingmátrix első sora felhasználásával: st(eletdij) = 0.459·st(FK1) + 0.888·st(FK2) + 0.012·st(FK3) + (-0.012)·st(FK4) A standardizált főkomponenseket (F mátrix) az alábbi táblába foglaltuk. 3.9. táblázat Standardizált főkomponensek biztosítósoros értékei: F mátrixi Biztosító 1 2
40
FK1 3.701 1.590
FK2 -1.504 0.304
FK3 1.333 -0.724
FK4 0.888 -2.967
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
1.072 0.207 0.539 0.060 -0.420 -0.371 -0.240 -0.381 -0.437 -0.406 -0.475 -0.461 -0.492 -0.484 -0.489 -0.506 -0.492 -0.495 -0.507 -0.512
1.738 3.607 0.757 -0.312 0.193 -0.211 -0.539 0.162 -0.165 -0.421 -0.242 -0.370 -0.252 -0.407 -0.404 -0.343 -0.401 -0.404 -0.394 -0.392
-2.949 2.026 -0.066 -1.692 0.645 -0.625 0.834 0.206 0.032 -0.840 0.234 -0.181 0.379 -0.043 0.013 0.313 0.051 0.567 0.219 0.270
2.470 -0.441 -0.223 -1.345 0.097 -1.182 0.342 0.006 -0.041 -0.706 0.343 0.023 0.355 0.063 0.152 0.434 0.312 0.516 0.444 0.461
Az első két főkomponens megtartásával nyert kommunalitások rendkívül magasak: eletdij neletkot nelnkot karkif
0.9997 0.9899 0.9913 0.9913
a reziduális korrelációk pedig alacsonyak: 3.10. táblázat Reziduális korrelációk Változó eletdij neletkot nelnkot karkif
eletdij 0.000 0.001 0.000 -0.002
neletkot 0.010 -0.006 -0.005
nelnkot 0.009 -0.003
karkif
0.009
A loading mátrix első két oszlopának egyszerűsítése érdekében azok egyféle ortogonális transzformációja eredményeképpen a rotált loadingok mátrixa az alábbi (a rotálást részleteiben lásd később, az Exploratív faktoranalízis c. fejezetben): 3.11. táblázat Ortogonálisan transzformált loadingok: A (4,2) T(2,2) Változó eletdij neletkot nelnkot karkif VE
FK1 0.161 0.991 0.985 0.955 2.890
FK2 0.987 0.093 0.144 0.281 1.082
Az első főkomponens tartalmát a nem életbiztosításból származó bevétel, és a vele együtt alakuló kárkifizetés, a másodikét pedig az életbiztosításból származó díjbevétel egyedül adja. A komponensek értékeit rendezve tehát, tulajdonképpen e változók tekintetében rendezünk. A fenti táblában VE (variance explained) az illető főkomponensre vonatkozó egyedi kommunalitások összegét, vagyis az elforgatott főkomponens varianciáját jelenti. Mivel a kommunalitás invariáns az ortogonális rotációra, a kommunalitások nem változtak meg (az Olvasó könnyen ellenőrizheti), és így az első két főkomponens varianciájának százalékos részesedése a 4 egységnyi összvarianciából is változatlan: 3.106 + 0.866 = 2.890 + 1.082. Vegyük észre, hogy mivel a 3.106, és a 3.106 + 0.866 értékek maximáltak, ezért a rotálás eredményeképpen a főkomponensek varianciáinak valamilyen mértékben - szükségképpen - egyenlőbbé kell válnia. Bár a forgatás eredményeképpen ebben a példánkban a főkomponensek értelme lényegileg nem változott meg, tartalmuk viszont markánsabb lett: adott változó egyértelműbben tartozik az első két főkomponens valamelyikéhez. Az első két (standardizált) főkomponenst tekintve a rotált score előállításához szükséges koefficiensek meghatározása most - a forgatás miatt - (3.35) alapján:
41
3.12. táblázat Rotált score koefficiensek: R xx1 A(4,2) T(2,2) Változó eletdij neletkot nelnkot karkif
FK1 -0.17736 0.37548 0.36081 0.31519
FK2 1.02048 -0.14347 -0.08737 0.06702
A rotált főkomponensek biztosítónkénti standardizált score-értékeit a 3.13. táblázat közli. Látható, hogy a nem életbiztosításban és a kárkifizetésekben az 1. és a 2. nevű biztosítók a piacvezetők, míg az életbiztosításban a 4. és 3. nevű biztosítók a meghatározók. Az alapadatok 3.3. táblázatából kiolvasható, hogy akik elsősorban életbiztosítással foglalkoznak, és a kötelező kötésállományuk is alacsony, azoknál a kárkifizetés is alacsonyabb. (Elkerülik például az autólopáshoz, vagy autótöréshez kötődő kifizetéseket.) 3.13. táblázat Rotált, standardizált VARIMAX főkomponensek Biztosító 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
FK1 3.985 1.418 0.480 -0.922 0.278 0.153 -0.459 -0.287 -0.061 -0.413 -0.365 -0.255 -0.377 -0.324 -0.390 -0.334 -0.340 -0.374 -0.343 -0.345 -0.360 -0.366
FK2 -0.282 0.782 1.985 3.494 0.887 -0.278 0.054 -0.315 -0.587 0.036 -0.292 -0.526 -0.377 -0.494 -0.393 -0.537 -0.536 -0.483 -0.534 -0.538 -0.532 -0.531
3.2.3 FÜGGELÉK: A KANONIKUS VARIANCIA 3.2.3 A vT C xx v v kanonikus variancia feltételes maximálása a vTv-1=0 normáltsági feltétel figyelembe vételével a Lagrange-multiplikátor módszer alkalmazását jelenti, miszerint: vT C xx v ( vT v 1) 2Cxx v 2v 0 v ahol λ a multiplikátor. Ez az egyenlőség pedig v0 megoldást csak olyan λ mellett nyújt melyre a (Cxx I) együttható mátrix szinguláris, tehát determinánsa zéró: det Cxx I 0 . Látható, hogy λ a Cxx kovariancia mátrix sajátértéke, tehát maximálása a legnagyobb sajátérték meghatározását jelenti. A sajátérték birtokában: (3.37) Cxx max I v 0 amiből kalkulálható a hozzá tartozó vλ sajátvektor, mellyel (ha szükségünk van rá) számíthatjuk a kλ főkomponenst.
3.2.4 FÜGGELÉK: A SZINGULÁRIS ÉRTÉK FELBONTÁS 3.2.4 Az SVD (singular value decomposition) eljárás szerint bármely valós (N,p) rendű X mátrix felírható az alábbi formában: (3.38) X( N , p ) K ( N , p ) M p V(Tp, p ) ahol a K és a V mátrixok ortonormáltak, tehát KTK=VTV=Ip teljesül, az M=<μ1,μ2,…,μp> mátrix pedig diagonális. A K mátrix kt oszlopa az X adatmátrix oszlopainak a t-edik főtengelye, μt pedig a megfelelő szinguláris értéke. A V
42
mátrix vt oszlopa azon súlyokat tartalmazza, melyekkel a főtengelyeket kombinálva az adatmátrix megfelelő oszlopában lévő koordinátákat reprodukáljuk. A szinguláris felbontás összetevőinek meghatározása érdekében tekintsük az XTX mátrixot, a (3.38) felbontás érvénye mellett: XT X VMKT KMVT VM 2 VT ahol M2 főátlóján a szinguláris értékek négyzetei szerepelnek. Láthatóan a V mátrix oszlopai az XTX mátrix sajátvektorai, a szinguláris értékek pedig a megfelelő sajátértékek pozitív négyzetgyökei. A főtengelyeken felvett koordináták K mátrixa a (3.38) azonosságból kifejezve (figyelemmel arra, hogy VTV=I egységmátrix): (3.39) K XVM 1 . A vezetékes, és mobil havi telefonköltségek által alkotott, a 3.1 táblázatban lévő X(5,2) adatállomány reprodukálása az SVD eljárással az alábbiak szerint történik. Határozzuk meg az XTX mátrixot:
525 373 XT X 445 258 381
946 973 1096 750 889 Ennek sajátértékei a (3.16) formulát használva:
T
525 373 445 258 381
946 973 824504 1096 1879508 750 889
1879508 . 4395682
824504 4395682 824504 4395682 2 2 1879508 2280.9 2 2 2
1
824504 4395682 824504 4395682 2 2 1879508 132.77 2 2 a megfelelő sajátvektorok pedig rendre: v1 = [0.39449, 0.91890]T és v2 = [0.9189, -0.39449]T. A fentiek alapján tehát a vezetékes, és mobil havi telefon költségek szinguláris érték felbontása: 946 0.47191 0.82278 525 373 973 0.45650 0.30945 0 0.39449 0.91890 2280.9 445 1096 0.51850 0.17659 0.91890 0.39449 0 132.77 258 750 0.34677 0.44279 381 889 0.42404 0.00420 2
2
ahol a szinguláris értékek rendre: 2280.9, és 132.77. 1 Figyeljük meg, hogy az adatmátrixot az X módon normálva, centrált adatok SVD felbontása a kovariancia N mátrix, standardizált adatok SVD felbontása pedig a korrelációs mátrix spektrális felbontásán alapul. Végül az SVD felbontást négyzetes minimum tulajdonság is jellemzi, az alábbi felírásból kiindulva: 1 v1T T 2 v2 . X k 1 k 2 k p p vTp Ebből kitűnik, hogy az X adatmátrix diádok összegeként is előállítható: p
p
t 1
t 1
ˆ . X t k t vTt t X t
Ez példánkban (kerekítési pontatlanságoktól eltekintve) a következő formában történik:
43
525 373 445 258 381
946 973 1096 750 889
0.47191 0.82278 0.45650 0.30945 2280.9 0.51850 0.39449 0.91890 132.77 0.17659 0.91890 0.39449 0.34677 0.44279 0.42404 0.00420 0.1861 0.4336 0.7560 0.3246 0.1801 0.4195 0.2843 0.1221 2280.9 0.2045 0.4764 132.77 0.1623 0.0697 . 0.1368 0.3186 0.4069 0.1747 0.1673 0.3896 0.0038 0.0017 Ha az adatmátrix reprodukálására csak az első főtengelyt (főkomponenst), és szinguláris értéket használjuk, akkor maradékként a 0.7560 0.3246 0.2843 0.1221 132.77 0.1623 0.0697 0.4069 0.1747 0.0038 0.0017 reziduális mátrix adódik. Az SVD eljárás biztosítja, hogy a reziduális mátrix elemeinek négyzetösszeg minimális. Ez a minimum példánkban 132.772 ( 0.75602 + (-0.3246)2 + (-0.2843)2 + 0.12212 + (-0.1623)2 + 0.06972 + (-0.4069)2 + 0.17472 +(-0.0038)2 + 0.00172 ) = 17626.82.
3.2.5 GYAKORLÓ FELADATOK 3.2.5 3.1. Legyen N páros szám, és tekintsük a sokaság elemeinek két sorrendjét. Az egyik 1,2,…,N, míg a másik 1,3,5,…,N-1,2,4,…,N. Határozza meg a korreláció értékét a két sorrend között, továbbá vizsgálja meg, hogy hogyan viselkedik ez N változtatásával, és összegezze tapasztalatait! Használja a Var(1,2,…,K) = (K2-1)/12 összefüggést. 3.1. Tekintsük az xj (j=1,…,p) változókat, melyek páronként korrelálatlanok, valamennyien N-eleműek és standardizáltak. Jelölje k és z az x változók két különböző, k=j(ajxj) és z=j(bjxj) lineáris kombinációit, ahol aj és bj az xj változó megfelelő koefficiense. Határozza meg az r(k,xj), r(z,xj) és r(k,z) lineáris korrelációkat! 3.2. Tekintsük az x változók k=a1x1+...+apxp, és az y változók z=b1y1+...+bqyq lineáris kombinációit. Határozza meg a Cov(k,z) értéket az x és y változók varianciáinak és kovarianciáinak a felhasználásával! 3.1. Cigaretta márkák sokaságában a fajlagos kátrány, nikotin és szénmonoxid tartalmat (mg/szál) jellemző adatok az alábbiak: Változó Kátrány Nikotin Szénmonoxid
Kiragadott márkák SopianeL SopianeM 13.1 13.8 0.9 0.9 11.8 11.1
Átlag
Szórás
9.9 0.7 10.0
A faktorsúlyok meghatározása a korrelációs mátrix alapján történt.
44
2.3 0.1 1.8
Rotálatlan faktorsúlyok FK1 FK2 0.984 -0.023 0.919 -0.380 0.908 0.409
FK3 0.174 -0.102 -0.085
Feladat: Határozza meg az alábbi mutatók értékét: 1. Főkomponens varianciák (szórásnégyzetek) rendre: 2. Az első főkomponens varianciája által képviselt relatív VE(1) hányad: 3. Az első főkomponenst megtartva a kátrány és nikotin közötti reziduális korreláció értéke : 4. Az első két főkomponenst megtartva a szénmonoxid kommunalitása VEszm(2): 5. A “Kátrány” változót súlyozó score koefficiens értéke az első standardizált főkompones meghatározása céljából: 6. A Sopiane-Light és Sopiane Multifilter értéke és rangsora a károsanyag-főkomponens tengelyen: 7. A Sopiane-Light nikotintartalmából az utolsó két főkomponens elhagyásával meg nem magyarázott reziduális érték (mg/szál): 3.2. Tekintsük 1600 köbcentinél nem nagyobb hengerűrtalmamú gépkopcsitípusok 100km/h-ra való gyorsulását (másodperc), végsebességét (km/h), teljesítményét (LE), továbbá 90 és 120 km/h melletti, illetve városi fogyasztását (l/100km) leíró gyári paramétereket. A főkomponenseket jellemző néhány eredmény az alábbi. A korrelációs mátrixból meghatározva (VARIMAX kritérium szerint egyszerűsítve): Változó Lóerő Végsebesség Gyorsulás100 Fogyaszt90 Fogyaszt120 VárosiFogy
Faktorsúlyok:az A3 loading-mátrix FK1 FK2 FK3 0.900 0.351 0.150 0.941 0.248 0.024 -0.879 -0.361 -0.126 0.086 0.256 0.960 0.348 0.828 0.349 0.405 0.856 0.174
Feladatok: Az első három főkomponenst megtartva: 1. a főkomponensek az összes szóródás hány százalékát reprodukálják? 2. határozza meg az első három főkomponens által a városi fogyasztás varianciájából megmagyarázott hányadot! 3. számítsa ki az első három főkomponens által a gyorsulás és a végsebesség közötti reprodukált korreláció értékét! 4. közelítőleg határozza meg azon típus 90km/h sebesség melletti fogyasztásának standardizált értékét, mely az első három standardizált főkomponensben rendre a -0.5, 0.0 és 0.5, értékeket nyerte. 3.3. A megyeszékhelyek légszennyezettségét vizsgálva, az átlagos téli és nyári portartalmat, valamint az átlagos téli és nyári vegyi szennyezettséget jellemző adatok az alábbiak: Változó Téli Por Nyári Por Téli Vegyi Nyári Vegyi
Kecskemét Nyíregyháza (standardizált érték) -0.1 -0.1 1.0 1.2
1.8 1.8 -0.6 -0.5
Faktorsúlyok:az A2 loading-mátrix FK1 FK2 -0.078 -0.043 0.962 0.957
0.929 0.932 -0.031 -0.094
A faktorsúlyok meghatározása a korrelációs mátrix, egyszerűsítésük pedig a VARIMAX kritérium alapján történt. Feladatok: 1. Ha a téli és nyári portartalom közötti lineáris korreláció értéke 0.7379, akkor ebből mennyi a reziduális korreláció? 2. Mennyi az első két főkomponens által a téli vegyi szennyezettség varianciájából megmagyarázott hányad? 3. Mennyi a harmadik és negyedik főkomponens által az összvarianciából megmagyarázott hányad? 4. Mi Kecskemét és Nyíregyháza rangsora (<,=,>) a "por" főkomponensben: Kecs...................Nyír? 3.4. Egy adott évben hazánk 6 régiójában azon települések százalékos részarányát vizsgáljuk, ahol éltek menekültek (M%), bevándorlók (B%), hazatelepülő magyarok (H%) illetve vendégmunkások (V%). E változókra főkomponens analízissel az alábbi eredmények adódtak: Alapadatok (%), és standardizált (korrigált szórással osztott) főkomponens score értékek: ------|-------------------------|-----------------| Régió | M B H V | FK1 FK2 | ------|-------------------------|-----------------| 1 2 19 29 5 ……………? 0.876 2 6 23 15 5 0.019 -1.178 3 7 40 29 15 0.525 0.966
45
4 1 19 11 5 -0.567 -1.269 5 2 38 23 11 -0.151 0.544 6 14 39 27 15 1.564 0.061 --------------------------------------------------Centroid 5.3 29.6 22.3 9.3 0 0 Szórás 4.9 10.3 7.6 5.0 0.91 0.91 ----------------------------------------------------------|-------------------------|--------------------------------------------------------------Változó | Korrelációs mátrix | Reziduális korrelációk Rotált faktor súly Kommunalitás |-------------------------|------------------------------ ------------------------------| M B H | M B H V FK1 FK2 --------|-------------------------|--------------------------------------------------------------M 0.178 0.902 0.087 ……………? B 0.5842 -0.150 0.142 ……………? 0.524 0.8585 H 0.3813 0.5468 0.118 ……………? 0.078 0.202 0.939 0.9221 V 0.6869 0.9600 0.6169 -0.087 0.059 -0.057 0.055 0.805 0.545 0.9449 -------------------------------------------------------------------------------------------------Variancia 2.086 ……………? ---------------------------------
Feladat: Töltse ki a hiányzó .........? adatokat! 3.5. A táppénzek, és a táppénzesek időbeli alakulását vizsgáljuk főkomponens analízis alkalmazásával az alábbi változók 1950 és 1998 közötti idősorai tekintetében: Ev (1950,1955,1960,…,1995,1996,1997,1998), Táppénzesek napi átlagos létszáma (Tapefo: ezer fő), A táppénzesek létszámaránya a jogosultak százalékában (Larany: %), Táppénzes napok száma (Tapmnap: millió nap), Táppénzkiadás (Tapmft: millió forint). A főkomponensanalízisbe valamennyi változót bevontuk. Az alábbi számítási eredményeket közöljük: ---------------------------------------------------------------------------Változó Átlag Szórás Lineáris korrelációk Reziduális korrelációk az első 2 FK megtartásával -----------------------------------------------Ev Tapefo Larany Tapefo Larany Tapmnap ------------------------------------------------------------------------------Ev 78.154 16.955 Tapefo 171.69 70.129 0.2683 1.0000 0.006 Larany 4.6231 1.1577 -0.0142 0.9535 1.0000 0.002 0.011 Tapmnap 55.546 21.735 0.4088 0.9524 0.8583 -0.011 -0.013 0.031 --------------------------Változó Faktorsúly -------------------FK1 FK2 Ev ...?. 0.968 Tapefo 0.995 0.053 Larany 0.968 ...?. Tapmnap 0.955 0.237 Tapmft -0.157 ...?. --------------------------Főkomponens-score adott évhez: ----------------------Év FK1 FK2 ----------------------1950 -1.635 -1.275 1955 -0.756 -1.167 1960 -0.414 -0.993 1965 -0.079 -0.813 1970 0.599 -0.638 1975 1.231 -0.438 1980 1.033 -0.238 1985 1.014 -0.080 1990 1.546 0.647 1995 0.031 1.246 1996 -0.792 1.118 1997 -0.826 1.217 1998 -0.952 1.414 ---------------------
Feladat: Számítsa ki a ......? faktorsúlyokat! 3.6. A BEVA (befektetés védelmi alap) által öt tőzsdetag brókercéget illetően folytatott kártalanítási eljárásokat az alábbiak jellemezték egy adott időpontban: benyújtott igények száma db (BI), elfogadott igények száma db (EI), elfogadott kártalanítási összeg MFt (EK), kifizetett kártalanítási összeg MFt (KK). A főkomponens (faktor) analízis eredményei (egy faktor mellett) az alábbiak: -----------------------------------------------------Bróker BI EI EK KK FK1 ------------------------------------------------------
46
1 2 3 4 5
4202 598 475 215 319
3000 470 400 100 0
480 275 ………? 70 0
460 270 222 0 0
1.656 0.043 -0.127 -0.734 -0.837
------------------------------------------------------------------------------------------------------Változó Átlag Szórás Korrelációs mátrix Reziduális korrelációk Kommunalitás Faktorsúly (korr.) ----------------------------------------------------------------------------BI EI EK BI EI EK KK ------------------------------------------------------------------------------------------------------BI 1161.8 1705.8 0.093 0.9069 0.9523 EI 794.00 1248.9 0.9959 0.069 0.052 0.9478 ………………? EK 209.40 187.73 ……………? 0.8890 -0.075 -0.053 0.063 0.9373 KK 190.40 195.27 0.8209 0.8609 0.9888 -0.087 -0.068 0.065 0.090 ………………?
Feladat: Az egyfaktoros eredmények alapján töltse ki a hiányzó …? adatokat! 3.7. Síterepekre vonatkozóan az alábbi jellemzőket figyeljük meg: a terep legmagasabb pontja (Csucs:m), a felvonók és a pályák száma (Felv, Psz:db), a pályák összes hossza (Ph:km), továbbá a hatnapos felnőtt, illetve gyermek síbérlet árát egy adott évben (Feb, Gyb: FFr). Az alapadatok, továbbá a rotált első három főkomponens score értékei az alábbiak: Terep 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
Csucs 2460 2850 2950 3300 3250 2737 3300 2550 3330 3600 2800 2500 2220
Felv 228 47 51 31 113 12 50 47 87 66 76 80 45
Psz 290 61 73 50 107 20 63 84 117 75 113 125 93
Ph 650 120 120 120 210 52 125 162 220 196 250 300 130
Feb 885 850 830 770 960 568 960 669 864 860 550 860 710
Gyb 584 635 635 540 720 398 675 559 672 668 360 580 480
FK1 2.960 -0.698 -0.556 -0.523 0.232 -0.943 -0.574 -0.408 0.274 -0.028 0.564 0.230 -0.532
FK2 0.050 0.720 0.551 -0.427 1.208 -1.597 1.106 -0.338 0.483 0.330 -2.230 0.470 -0.327
FK3 -0.524 -0.579 -0.233 1.037 0.511 -0.045 0.442 -0.883 0.963 1.679 0.675 -1.214 -1.829
A változók átlagos értékei és szórásai rendre: Csucs(2911.3; 417.91), Felv(71.769; 53.65) , Psz(97.769; 64.95) Ph(204.23; 149.54), Feb(795.08; 133.94), Gyb(577.38; 109.69) Korrelációs mátrix, és a reziduális korrelációk mátrixa: Felv Psz Ph Feb Gyb
Csucs -0.1625 -0.3473 -0.2817 0.4253 0.5414
Felv 1.0000 0.9655 0.9584 0.4098 0.2477
Psz
Ph
Feb
1.0000 0.9805 0.2785 0.1008
1.0000 0.2674 0.0805
1.0000 0.9275
Csucs Felv Psz Ph Feb -0.001 0.016 0.001 -0.003 0.008 0.000 -0.012 -0.004 0.014 0.002 -0.005 -0.004 0.004 0.027 -0.002 0.003 0.004 -0.002 -0.027
Gyb
0.026
Rotálatlan és rotált faktorsúlyok, valamint (rotált) score koefficiensek: Csucs Felv Psz Ph Feb Gyb
FK1 -0.143 0.977 0.952 0.943 0.547 0.381
FK2 0.817 -0.113 -0.290 -0.277 0.783 0.883
FK3 0.558 0.126 0.044 0.142 -0.247 -0.222
FK1 -0.208 0.969 0.972 0.986 0.230 0.056
FK2 0.347 0.208 0.095 0.056 0.946 0.954
FK3 FK1 0.914 0.1757 -0.034 0.3670 -0.195 0.3347 -0.105 0.3857 0.157 -0.0775 0.245 -0.1229
FK2 -0.2857 -0.0571 -0.0410 -0.1361 0.5949 0.5864
FK3 1.2227 0.1804 -0.0115 0.1709 -0.2848 -0.2100
Feladat: a megismert szempontok szerint elemezze a főkomponensanalízis eredményeit. 3.8. Amerikai üzleti iskolákat (MBA) tekintve a következő jellemzők alakulását vizsgáljuk: a diákok szerinti és a cégek szerinti rangszám, az éves átlagos tandíj ($), a külföldi hallgatók aránya, MBA előtti és utáni éves átlagos fizetés ($) és az egy főre jutó állásajánlatok száma. Az egyes változók átlaga és relatív szórása rendre: cegrang diakrang tandij kulfar fizmbee fizmbau allaspfo
10.55 11.55 18094 23.50 41598 77685 2.740
0.56912 0.69689 0.24771 0.34252 0.13150 0.18161 0.14762
A változók közötti páronkénti korrelációkat tartalmazó mátrix: cegrang
diakrang tandij
kulfar
fizmbee
fizmbau
47
diakrang tandij kulfar fizmbee fizmbau allaspfo
0.2896 ... 0.0779 -0.3628 -0.4892 -0.4467
1.0000 -0.5625 0.2409 -0.4510 -0.4138 -0.4194
1.0000 0.2785 0.5470 0.6529 0.2996
1.0000 0.1294 0.1004 -0.0993
1.0000 0.8991 0.6349
1.0000 0.5539
A változók közötti páronkénti reziduális korrelációkat tartalmazó mátrix: Változó cegrang diakrang tandij kulfar fizmbee fizmbau allaspfo
cegrang 0.485 -0.012 -0.114 -0.048 0.209 0.086 0.168
diakrang tandij kulfar fizmbee fizmbau allaspfo 0.093 0.083 -0.085 -0.007 0.054 -0.066
0.135 -0.040 0.100 -0.098 -0.050 -0.024 -0.092 -0.012 0.090
0.186 0.068 -0.028
0.150 -0.112
0.264
Rotálatlan és rotált faktorsúlyok, valamint (rotált) score koefficiensek: Változó ceg_rang diakrang tandij kulfar fizmbee fizmbau allaspfo
Rotálatlan faktorsúly FACTOR1 FACTOR2 FACTOR3 -0.625 0.181 -0.302 -0.662 0.358 0.584 0.763 0.311 -0.432 0.054 0.946 0.039 0.879 0.133 0.154 0.901 0.147 0.129 0.727 -0.257 0.376
Rotált faktorsúly Score koefficiens FACTOR1 FACTOR2 FACTOR3 FACTOR1 FACTOR2 ... 0.126 0.103 -0.37887 -0.19820 -0.229 0.866 0.325 0.24423 0.70207 0.324 -0.794 0.359 -0.16954 -0.55974 -0.039 0.012 0.948 -0.04239 0.03975 0.781 -0.391 0.225 0.30076 0.00950 0.782 -0.424 0.240 0.28625 -0.01910 ... -0.127 -0.164 0.46291 0.25517
FACTOR3 0.10496 0.30530 0.23659 0.75142 0.13944 0.14972 -0.15689
Feladat: a megismert szempontok szerint elemezze a főkomponensanalízis eredményeit.
3.3 A KANONIKUS KORRELÁCIÓ 3.3. Többváltozós esetben a lineáris korreláció vizsgálata kiterjeszthető két változócsoport közötti korreláció vizsgálatára is, ha mindkét csoportot egy-egy lineáris kombinációval helyettesítjük. Ez történt akkor, mikor (3.12) alatt megállapítottuk, hogy a vezetékes, és mobil telefon költségek közötti lineáris korreláció értéke 0.69655. Mindkét költség ugyanis egy-egy lineáris kombinációként került definiálásra, ahol a súlyok természetesek, nevezetesen a fajlagos percdíjak, a változók pedig a beszélgetési idők voltak. Világos, hogy a korreláció foka egyrészt a percdíjak nagysága, másrészt a beszélgetési idők alkotta két változócsoport közötti korrelációs kapcsolat eredőjeként alakult ki. Fölmerül a kérdés, hogy ha elhagyjuk a költségek vizsgálatát (elhagyjuk a természetes súlyokat), és a kétféle beszélgetési időt reprezentáló másik két lineáris kombinációt tekintünk, akkor ez milyen mértékben, és milyen súlyrendszerrel maximálható. A feladat a kanonikus korreláció fogalmához vezet el. Tekintsük a standardizált változók x1,x2,...,xp, és a velük oksági kapcsolatban lévő, okozat jellegű, ugyancsak standardizált változók y1,y2,...,yq (q
párosait (t=1,...,q), ahol valamennyi változó standardizált, és qp. A v és w súlyokat úgy határozzuk meg, hogy az ut és zt kanonikus változók közötti lineáris korreláció maximát legyen, miközben a kanonikus változók bármilyen más párosításban korrelálatlanok. E követelményeket fogalmazza meg a kanonikus változók korrelációs mátrixa az alábbi partícionált formában:
48
u1
uq
z1
zq
u1
1
0
r1
0
C(u , z ),(u , z ) uq z1
0
1
0
r1
0
1
rq . 0
zq
0
rq
0
1
Az ilyen korrelálatlansági feltételek mellett maximált Cov(ut,zt)=rt lineáris korrelációt a t. kanonikus korrelációnak, az ut,zt változó párost pedig a t. kanonikus változópárnak nevezzük. A kanonikus korrelációk meghatározása érdekében partícionáljuk a mérési változók (q+p,q+p) rendű korrelációs mátrixát az alábbiak szerint: R yy R yx R ( y , x ),( y , x ) R xy R xx ahol az egyes mátrixok méretét az indexben szereplő változók számossága adja: például Ryx (q,p) rendű, vagyis nem négyzetes. Feladatunk az ru,z = r = vTRxyw max korreláció maximálása a v és w súlyvektorok tekintetében, a Var(u) = vTRxxv = 1 Var(z) = wTRyyw = 1 standardizáltsági megszorítások mellett. A Lagrange-multiplikátor módszert alkalmazva, a keresett kanonikus korrelációt és a megfelelő súlyokat az Rxyw = rRxxv (3.40) Ryxv = rRyyw egyenletrendszer megoldása szolgáltatja. Az első egyenletből kifejezve a v vektort, majd ezt a második egyenletbe helyettesítve, végül átrendezve a második egyenletet, az (3.41) Ryy1R yx R xx1R xy r 2I w 0 sajátérték, sajátvektor feladatra jutunk, ahol a (q,q) rendű Ryy-1RyyRxx-1Rxy mátrix sajátértékei a kanonikus korrelációk négyzeteit, a megfelelő sajátvektorok pedig az y (a szűkebb körű) mérési változókhoz tartozó súlyrendszereket nyújtják. A w súlyok ismeretében (3.40) bármely egyenletéből a v súlyok is következnek. A telefonbeszélgetések példájában a beszélgetési idők korrelációs mátrixa: y1 y2 x1 x2 x3 y1 1 .5356 .8218 .4750 .0132 R
y2
.5356
x1
.8218 .3169
x2
.4750 .9639 .2546
1
.3169 .9639 .1437 1
.2546 .4961 1
x3 .0132 .1437 .4961 .2105 A fenti mátrix megfelelő blokkjait használva, a (3.41) szerinti mátrixszorzat: R yy1 R yx R xx1R xy
.
.2105 1
1
.2546 .4961 .8218 .3169 1 .8218 .4750 .0132 1 .2105 .4750 .9639 .3169 .9639 .1437 .2546 .4961 .2105 1 .0132 .1437 0.958610 0.07968 0.050155 0.90349 melynek két sajátértéke rendre r12 1.0 és r22 0.86209 , az egységnyi hosszúvá normált sajátvektorok pedig: .5356 1 1 .5356
1
0.88736 0.65104 * w1* , w 2 0.78865 . 0.46109 A kanonikus korrelációk tehát r1=Cor(u1,z1)=1, és r2=Cor(u2,z2)=0.9285. Az első, mesterséges, maximált kanonikus
49
korreláció tehát ez esetben (ez nem általánosítható jelenség!) szinte függvényszerű kapcsolatot jelez u1 és z1 között, és a második értéke is egyhez közeli. A w* sajátvektorokkal viszont még a z1 és z2 kanonikus változók nem lesznek standardizáltak, hiszen varianciájuk kvadratikus formában: 0.5356 0.88736 1 Var ( z1 ) 0.88736 0.46109 1.4383 1 0.46109 0.5356
0.5356 0.65104 1 Var ( z2 ) 0.65104 0.78865 0.4958 . 1 0.78865 0.5356 A fenti varianciák ismeretében viszont normálhatjuk a sajátvektorokat úgy, hogy a kanonikus változók standardizáltak legyenek: 0.88736 0.740 0.65104 0.925 1 1 w1 0.46109 0.384 , w 2 . 1.4383 0.4958 0.78865 1.120 Továbblépve, a (3.40) összefüggést használva az u kanonikus változók előállításához szükséges súlyok: 1 v t R xx1R xy w t rt amelyből végül a két (már a standardizáltsági követelménynek eleget tevő) súlyok rendre: 0.803 0.847 v1 0.615 , v 2 0.820 . 0.463 0.408
3.3.1 A KANONIKUS SÚLY (LOADING) 3.3.1 A kanonikus változó értelmét a vele szorosan korreláló mérési változók adják. A kanonikus változók elemzésének eszköze tehát e korrelációk meghatározása. A kanonikus változónak a mérési változóval vett lineáris korrelációs értéke a kanonikus súly, vagy „loading”. Mivel standardizált változók kovarianciája egyben korreláció, az xj változónak az ut kanonikus változóval mért korrelációja: rx j ,ut Cx j ,ut Cx j ,(v1t x1 v2 t x2 ...v pt x p )
v1t rx j , x1 v2t rx j , x2 ... v pt rx j , x p ahol j=1,2,...,p és analóg módon
ryk , zt w1t ryk , y1 w2t ryk , y2 ... wqt ryk , yq ahol k=1,2,...,q. A kanonikus loadingból további mutatók, az ún. redundancia indexek számíthatók. Tekintsük az y eredmény változókat és a belőlük levezetett zt kanonikus változót. Ekkor zt az y változók varianciáját átlagosan 1 q ryt2 ry2k , zt q k 1 arányban magyarázza. Mivel ugyanekkor zt varianciájának ut az rt2 hányadát magyarázza meg, ezért ut az y változók szórásnégyzetének átlagosan az RI yt rt 2 ryt2 hányadát determinálja. Hasonlóan:
RI xt rt 2
1 p 2 rx ,u rt2 rxt2 . p j 1 j t
3.3.2 A KANONIKUS KORRELÁCIÓK TESZTELÉSE 3.3.2
50
A statisztikailag szignifikáns kanonikus korrelációk elhatárolása hipotézisvizsgálattal, szekvenciálisan történik. Előbb azt teszteljük, hogy egyáltalán nincs lineáris kapcsolat a két változókör között, vagyis már az első, legnagyobb kanonikus korreláció sem különbözik zérustól. Ha ezt a hipotézist elvethetjük, akkor az a kérdés, hogy hány kanonikus korreláció szignifikáns. Általában az utolsó, legkisebb (q-k) számú (k=0,1,2,…,q-1) sokasági kanonikus korrelációkra vonatkozó H0: k+1=k+2=...=q=0 hipotézist teszteljük. A k=0 esettel definiált globális null hipotézis elvetésével azt a következtetést fogadjuk el, hogy legalább az első, legnagyobb kanonikus korreláció nem zéró. Ezt követően szekvenciális módon azt a null hipotézist teszteljük, miszerint a csökkenő sorba rendezett első k nem zérus kanonikus korrelációt követő maradék (q-k) kanonikus korreláció már mind zérussal egyenlő. A végső döntés úgy történik, hogy k értékét zérótól indulva fokozatosan léptetjük, és mikor a null hipotézist elutasítjuk, akkor éppen az első k számú kanonikus változópár szignifikáns. E hipotézis-szekvencia tesztelésére a Bartlett-próba nyújt lehetőséget az y változók Wilks-lambdája alapján, ahol a Wilks-lambdát most a négyzetes kanonikus korrelációk felhasználásával fejezzük ki (az indoklást lásd a 8.6.4 alfejezetben):
3 pq 2 (k ) n ln k 2 2 statisztikával teszteljük, ahol a reziduális Wilks-lambda: k
q
1 r . 2
i k 1
i
(3.42)
A próbafüggvény H0 érvénye mellett nagymintás esetben aszimptótikusan χ2 eloszlású (p-k)(q-k) szabadsági fokkal. 3.1. Példa Az alábbiakban 73 autómárka gyári jellemzőit vizsgáljuk. Ezek rendre az alábbiak: hengerűrtartalom (cm3), lóerő (LE), tömeg (kg), végsebesség (km/h), gyorsulás ideje 100km/h-ra (mp), gyárilag ígért fogyasztás 100 kilométeren átlagosan 90 és 120 km/h sebességek mellett továbbá városban. Az értelemszerű rövidítések alkalmazásával a magyarázó és eredmény változók két köre a következő: A magyarázó jellegű változók köre: HengerUr, LE, Tomeg, az eredmény jellegű változók köre: VegSebes, Gyors100, 5 Fogy90, Fogy120, VarosiF. Fölhívjuk a figyelmet, hogy példánkban most a magyarázó jellegű változók köre alkotja a változók szűkebb körét. A páronkénti korrelációk mátrixa partícionált formában: 3.1. tábla Korrelációs mátrix Változó HengerUr LE Tomeg VegSebes Gyors100 Fogy90 Fogy120 VarosiF ----------------------------------------------------------------------------------y1 HengerUr 1.000 y2 LE 0.925 1.000 y3 Tomeg 0.846 0.819 1.000 ---------------------------------------x1 VegSebes 0.854 0.940 0.831 | 1.000 x2 Gyors100 -0.632 -0.802 -0.590 | -0.862 1.000 x3 Fogy90 0.763 0.765 0.750 | 0.699 -0.584 1.000 x4 Fogy120 0.857 0.858 0.841 | 0.795 -0.700 0.873 1.000 x5 VarosiF 0.923 0.894 0.889 | 0.849 -0.672 0.832 0.936 1.000 -----------------------------------------------------------------------------------
A kanonikus korrelációk értéke, és Bartlett-féle szekvenciális tesztjük eredménye: 3.2. tábla Szekvenciális Bartlett teszt Sajátérték Kanonikus Szekvenciális Bartlett-teszt korreláció. H0(k) χ2 DF TPV ------------------0 263.23 15 0.0000 0.95963 0.97961 1 46.58 8 0.0000 0.48421 0.69585 2 1.89 3 0.5948
51
0.02766
0.16631
Mint látható, az első maximált kanonikus korreláció 0.97961, a második 0.69585, míg az utolsó 0.16631. A Bartlettteszt null hipotézise az első lépésben: H0: 1=2=3=0. A Wilks-lambda most: 0 1 0.959631 0.484211 0.02766 0.0202465 amivel a teszt statisztika értéke
3 53 2 73 ln 0.0202465 263.23 2 2 melynek szabadsági foka DF=(5-0)∙(3-0)=15. E szabadsági fok mellett a χ2=263.23 érték messze szignifikáns, hiszen a TPV érték gyakorlatilag zéró. Elutasítjuk tehát azt a hipotézist (az alternatív hipotézist) miszerint egyetlen kanonikus változó sem szignifikáns. Ebből az következik praktikusan, hogy legalább az első, a legnagyobb szignifikáns. Kérdés, hogy van-e több statisztikailag szignifikáns kanonikus változópár is. Következő hipotézisünk tehát a sorban: H0: 2=3=0 amelyhez a reziduális Wilks-Λ értéke 1 1 0.484211 0.02766 0.501523 a vonatkotó teszt statisztika értéke pedig 3 53 2 73 ln 0.501523 46.58 2 2 melynek szabadsági foka DF=(5-1)∙(3-1)=8. E szabadsági fok mellett a χ2=46.58 értékhez gyakorlatilag zéró TPV érték tartozik, tehát elvetjük a null hipotézist, vagyis amellett döntünk, hogy a maradék két kanonikus korreláció közül legalább a nagyobbik szignifikáns. A kérdés végül, hogy az utolsó kanonikus korreláció is szignifikáns, vagy sem. A teszt menete analóg a fentiekkel: H0: 3=0 amelyhez a reziduális Wilks-Λ értéke 2 1 0.02766 0.97234 a vonatkotó teszt statisztika értéke pedig 3 53 2 73 ln 0.97234 1.893 2 2 melynek szabadsági foka DF=(5-2)∙(3-2)=3. E szabadsági fok mellett a χ2=1.893 értékhez tartozó Tail-Probability érték 0.5948, tehát fönntartjuk a null hipotézist, miszerint az utolsó kanonikus változópár közötti (maximált) korreláció már nem szignifikáns. Előbb a nem standardizált változókra vonatkozó kanonikus koefficiensek, majd a standardizált változókra vonatkozó ún. standardizált kanonikus koefficiensek az alábbiak: 3.3. tábla Kanonikus változók koefficiensei -----------------------------------------------------------------------------Változó Nem standardizált koefficiens Standardizált koefficiens -----------------------------------------------------------------------------z1 z2 z3 z1 z2 z3 HengerUr 0.000243 -0.003380 0.002958 0.155 -2.161 1.891 LE 0.009892 0.049940 -0.002488 0.519 2.620 -0.131 Tomeg 0.001610 -0.002228 -0.007724 0.375 -0.519 -1.797 u1 u2 u3 u1 u2 u3 VegSebes 0.026935 0.005499 -0.086704 0.718 0.147 -2.312 Gyors100 0.074646 -0.425993 -0.564169 0.219 -1.251 -1.657 Fogy90 0.010815 0.206949 -0.022218 0.012 0.228 -0.025 Fogy120 0.202534 -0.122703 -2.235981 0.227 -0.137 -2.505 VarosiF 0.110996 -0.477972 1.369532 0.275 -1.186 3.398
52
-----------------------------------------------------------------------------A standardizált koefficiensekkel és a mérési változók egymás közötti korrelációs együtthatókkal például a hengertérfogat kanonikus súlya (loading) a csoportja első kanonikus változójával: rHengerUr , z1 0.155 1 0.519 0.925 0.375 0.846 0.952 . A vizsgált mérési változóknak a kanonikus változókkal vett lineáris korrelációit az alábbi tábla közli. 3.4. tábla A kanonikus súlyok (loading) struktúrája: ------------------------------------Változó z1 z2 z3 ------------------------------------HengerUr 0.952 -0.176 0.249 LE 0.970 0.197 0.145 Tomeg 0.931 -0.200 -0.305 u1 u2 u3 VegSebes 0.952 0.269 -0.008 Gyors100 -0.750 -0.618 -0.179 Fogy90 0.813 -0.045 -0.034 Fogy120 0.912 -0.056 -0.023 VarosiF 0.960 -0.160 0.184 ------------------------------------Látható, hogy a harmadik kanonikus változókkal egyik mérési változó sem korrelál jelentősen, tehát úgy tűnik, hogy ez a kanonikus pár praktikusan is elvethető. Ezzel szemben az első kanonikus változókkal valamennyi megfelelő mérési változó szorosan pozitív előjellel, kivéve a gyorsulást, mely negatív előjellel korrelál. Alapvető tendencia tehát, hogy a gépkocsi méretével általában a motor teljesítménye is nő, amivel várható a rövidebb idő alatt elért 100km/h sebesség, és nagyobb motor mindenhol többet fogyaszt mint a kisebb. Tekintsük most a második kanonikus változókat, melyekkel nem csak a gyorsulás, hanem a hengerűrtartalom és a tömeg is negatívan korrelál. Másodlagos tendencia tehát, hogy magasabb lóerő kisebb tömeg, és kisebb hengerűrtartalom mellett is elérhető, továbbá a nagyobb végsebesség és a jobb gyorsulás elsősorban a lóerőnek, és nem föltétlenül a hengerűrtartalomnak köszönhető. Végül a harmadik kanonikus változók, bár statisztikailag nem szignifikánsak, érzékeltetik, hogy alacsonyabb tömegű autókat is gyártanak nagyobb hengerűrtartalommal, de a magasabb motortérfogat nagyobb városi fogyasztást eredményez. A kanonikus változók átlagos magyarázó erejét az alábbi redundancia indexek mutatják: 3.5. tábla Redundancia indexek -------------------------------------------------------Kanon.v r2xu RIx r2yz RIy r2 t -------------------------------------------------------1 0.77671 0.74536 0.90475 0.86823 0.95963 2 0.09698 0.04696 0.03655 0.01770 0.48421 3 0.01355 0.00037 0.05869 0.00162 0.02766 -------------------------------------------------------E szerint az első kanonikus u1 változó az x változók varianciáját átlagosan 77.67% arányban, párja z1 pedig az y változók varianciáját átlagosan 90. 47% hányadban okozza. Mivel z1 95.96 százalékban magyarázza u1 alakulását, ezért az y változók 0.95963∙0.77671=0.74536, tehát átlagosan 74.5 százalékban determinálják az x változók ingadozását. A számításokat megismételtük olyan bontásban külön-külön, hogy a motortérfogat kisebb, vagy nagyobb mint 1600 cm3. Az eredményeket az alábbi táblák közlik, értelmezésüket – a fentiekkel analóg szempontok szerint – már az Olvasóra bízzuk. 3.6. tábla Kanonikus korrelációk motortérfogat szerinti csoportokban ------------------------------------------------------------
53
Sajátérték
Kanonikus Szekvenciális Bartlett-teszt korreláció. H0(k) χ2 DF TAIL-P -----------------------------------------------------------A motor nem nem nagyobb mint 1600 cm3 0 132.12 15 0.0000 0.94592 0.97258 1 31.47 8 0.0001 0.55139 0.74256 2 3.82 3 0.2816 0.10480 0.32373 A motor nem kisebb mint 1600 cm3 0 105.88 15 0.0000 0.95529 0.97739 1 20.43 8 0.0088 0.48871 0.69908 2 1.98 3 0.5770 0.06940 0.26344 -----------------------------------------------------------3.7. tábla A kanonikus súlyok (loading) struktúrája a csoportokban: -------------------------------------------------------------Változó Térfogat < 1600 cm3 Térfogat > 1600 cm3 KV1 KV2 KV3 KV1 KV2 KV3 HengerUr 0.783 0.235 0.576 0.927 -0.242 0.287 LE 0.981 -0.193 0.008 0.992 0.119 0.048 Tomeg 0.810 0.564 0.159 0.729 -0.452 -0.514 -------------------------------------------------------------VegSebes 0.951 -0.081 0.156 0.939 0.288 -0.162 Gyors100 -0.897 0.377 -0.111 -0.728 -0.647 -0.099 Fogy90 0.343 0.153 -0.709 0.843 -0.186 0.013 Fogy120 0.737 0.168 -0.187 0.841 -0.299 0.135 VarosiF 0.757 0.378 0.190 0.908 -0.298 0.259 --------------------------------------------------------------
3.3.3 GYAKORLÓ FELADATOK 3.3.3 3.9. Határozza meg és értelmezze a kanonikus korrelációkat az alábbi korrelációs mátrixok alapján: 1 0 1 0 0 0 R xx , R yy , R xy . 0 1 0 1 0.7 0 3.10. Határozza meg és értelmezze a kanonikus korrelációkat az alábbi korrelációs mátrixok alapján: 1 0 1 0 0.4 0.6 R xx , R yy 0 1 , R xy 0.5 0.7 . 0 1 3.11. Az alábbiakban a TEÁOR négyszámjeggyel megkülönböztetett 469 szakágazatának (szakágazaton belül a vállalkozásokra összesített) mérleg és eredménykimutatás adatait vizsgáljuk, ahol a mutatók egyik (y) köre: nettó árbevétel (NarBev), üzleti eredmény (Ueredm), adózott eredmény (AdozEred), fizetett osztalék (Osztalek), személyi jellegű ráfordítás (SzeRafor), a másik (x) köre pedig rendre: befektetett eszközök (BefEszk), forgóeszközök (ForgEszk), hosszú lejáratú kötelezettségek (HlejKot), rövid lejáratú kötelezettségek (RlejKot), saját tőke (SajToke), alkalmazott létszám (Letszam), a vállalkozások száma (VallalSz). Elemezze a magyarázó és eredmény változók fenti két köre közötti kapcsolatot a kanonikus korrelációk segítségével, az alábbi eredmények alapján. 3.8. tábla Szakágazati mérlegsorok korrelációs mátrixa: Változó NarBev UEredm AdozEred Osztalek
54
NarBev 1.000 0.479 0.444 0.614
UEredm
AdozEred Osztalek SzeRafor BefEszk
1.000 0.228 0.175
1.000 0.513
1.000
ForgEszk HLejKot
RLejKot
SajToke
Letszam
VallalSz
SzeRafor BefEszk ForgEszk HLejKot RLejKot SajToke Letszam VallalSz
0.673 0.330 0.153 0.284 0.139 0.275 0.603 0.427
0.028 0.029 -0.657 -0.451 -0.680 0.080 0.095 0.152
0.380 0.707 0.408 0.339 0.351 0.779 0.218 0.039
0.673 0.561 0.425 0.586 0.417 0.447 0.407 0.231
1.000 0.465 0.515 0.633 0.511 0.347 0.878 0.393
1.000 0.430 0.568 0.393 0.962 0.303 0.187
1.000 0.878 0.997 0.347 0.265 0.078
1.000 0.883 0.402 0.347 0.218
1.000 0.295 0.262 0.079
1.000 0.234 0.130
1.000 0.517
1.000
3.9. tábla Szakágazati mérlegsorok kanonikus korrelációi Sajátérték Kanonikus Szekvenciális Bartlett-teszt korreláció. H0(k) χ2 DF TAIL-P 0 3223.75 35 0.0000 0.96843 0.98409 1 1629.00 24 0.0000 0.88075 0.93848 2 647.63 15 0.0000 0.63296 0.79558 3 185.08 8 0.0000 0.26888 0.51854 4 40.55 3 0.0000 0.08411 0.29002 3.10. tábla Szakágazati mérlegsorok kanonikus súlyai: ------------------------------------------------------Változó (y) Z1 Z2 Z3 Z4 Z5 NarBev 0.384 0.461 0.365 0.146 0.697 UEredm -0.449 0.364 0.735 0.243 0.259 AdozEred 0.561 -0.349 0.715 0.177 0.147 Osztalek 0.544 0.185 0.144 0.775 0.222 SzeRafor 0.780 0.586 0.165 0.142 0.031 Változó (x) U1 U2 U3 U4 U5 BefEszk 0.594 -0.171 0.482 0.541 -0.007 ForgEszk 0.901 -0.253 -0.313 0.049 0.046 HLejKot 0.818 0.015 -0.263 0.429 0.061 RLejKot 0.885 -0.223 -0.382 0.059 0.034 SajToke 0.524 -0.299 0.631 0.367 -0.022 Letszam 0.606 0.718 0.234 -0.177 0.040 VallalSz 0.193 0.417 0.064 -0.003 0.769 -------------------------------------------------------
55
4 SZÓRÓDÁS CSOPORTOSÍTOTT SOKASÁGBAN 4 Szóródás csoportosított sokaságban A szóródás jellegzetes vetülete a g=1,2,...,m számú csoportra bontott sokaság egyedeinek a szóródása, ahol a g csoport elemszáma Ng. Ekkor az egyedek szóródásában kétféle tendencia figyelhető meg: a csoportközi különbségeket jellemző külső, és a csoporton belüli eltérésekben jelentkező belső szóródás. A sokaság totális szóródása e két hatás eredője. Módszertani szempontból azt kell kimutatnunk, hogy a totális szóródás mekkora hányada köszönhető az egyik, és mekkora a másik faktornak. Ebben segít a kovariancia csoportközi felbontása.
4.1 A KOVARIANCIA CSOPORTKÖZI STRUKTÚRÁJA A kovariancia csoportközi felbontása során a külső CovK kovarianciát a csoportátlagokkal helyettesített sokaság kovarianciájaként, a belső CovB kovarianciát pedig az átlagos csoporton belüli kovarianciaként definiáljuk. Ebből kiindulva a totális kovariancia struktúrája az alábbiak szerint alakul. Bevezetve az xy=S jelölést, és a kovariancia (3.3) momentum felbontásából kiindulva: 22 1 N Cov( x, y ) xi yi x y S x y N i 1 m Ng Ng m S xy g Covg ( x, y) xg yg x y N g 1 N g 1
Ng m Cov ( x , y ) xg y g x y g N g 1 N g 1 (4.1) CovB ( x, y) CovK ( x, y) . A teljes kovariancia tehát a belső, és a külső kovariancia összege. A (4.1) felbontást a kovariancia csoportközi dekompozíciójának nevezzük. Egyváltozós esetben az x változó varianciáját bontjuk a külső, és a belső variancia összegére. Mivel x varianciája az önmagával vett kovarianciát jelenti, ezért (4.1) felhasználásával Ng m Ng m 2 Var ( x) Cov( x, x) Varg ( x) xg x 2 N g 1 N g 1 (4.2) VarB ( x) VarK ( x) . Mint látható, a külső variancia a csoportátlagokkal helyettesített sokaság varianciája, a belső variancia pedig az átlagos csoporton belüli variancia. Többdimenziós szóródás esetén a kovariancia mátrix felbontása a kovariancia csoportközi felbontásának az alkalmazása a változók minden párosítását tekintve. Így értelemszerűen: C = CK + CB (4.3) ahol CK a csoportátlagokkal helyettesített sokaság kovariancia mátrixa, CB pedig az átlagos csoporton belüli kovariancia mátrix.
Ng
m
4.1 Példa Tekintsük 8 telefonbeszélgetés időtartamait (perc) és azok költségeit (Ft), a 2Ft/perc, 4Ft/perc és az 1Ft/perc díjkörzetek szerinti csoportosításban. A legolcsóbb díjtétel használata esetén beszélgetésenként 2Ft árengedményt adunk. A telefonbeszélgetések e kétdimenziós jellemzőit a 4.1 tábla tartalmazza. A táblában az egyes csoportokat vízszintes vonal határolja el egymástól. A „csoportátlag” című két oszlopban P és D a percek, és a díjak csoportátlagaival helyettesített 8 beszélgetést reprezentálja. Ez utóbbi mesterséges sokaság tehát eltekint a csoporton belüli különbségektől, ezért csak a csoportközi külső szóródást tükrözi. 4.1 tábla: Telefonbeszélgetések szóródása Beszélgetés Csoportátlag Kihasználjuk továbbá, hogy a számtani átlag a csoportátlagok súlyozott számtani átlaga, súlyként a csoport elemszámát használva, továbbá, hogy a csoportátlagokkal helyettesített sokaság átlaga az eredeti sokaság átlagát megőrzi.. 22
56
Perc Díj:Ft P D 3 6 6 12 6 12 6 12 9 18 6 12 1 4 2 8 1 4 2 8 2 8 2 8 4 16 2 8 14 12 14 12 Összesen 5 10 A teljes sokaságban az eredeti perc, és díjtételekre vonatkozóan: Var(Perc) = (32 +...+ 142)/8 – 52 = 18, Var(Díj) =(62 +...+ 122)/8 - 102 = 25, Cov(Perc,Díj) = (36 +...+ 1412)/8 - 510 = 13.5, így a totális kovariancia mátrix: Perc Díj
C Perc Díj
18
13.5
13.5
25
A csoportátlagokkal leírt sokaságban: 3 4 1 Var ( P) 62 22 142 52 15 8 8 8 3 2 4 2 1 2 Var ( D) 12 8 12 102 4 8 8 8 3 4 1 Cov( P, D) 6 12 2 8 14 12 5 10 6 8 8 8
így a külső kovariancia mátrix:
P
D
CK P 15
6
D 6 4 A Cov = CovK+CovB összefüggésből a belső kovariancia mátrix kivonással adódik: Perc Díj CB C Perc 3 7.5 . Díj 7.5 21 A belső kovariancia mátrix az eredeti Perc és Díj tételek között, de csoporton belül, átlagosan jellemzi a változók varianciáit és a kovarianciát. Definíció szerint számolva tehát: 3 4 1 CB C1 C2 C3 8 8 8 7.5 3 6 12 4 1.5 6 1 0 0 3 24 8 0 0 7.5 21 8 12 24 8 6 ahol C1, C2, C3 rendre a csoporton belül meghatározott kovariancia mátrixok. A csoporton belüli homogenitás, illetve a csoportközi heterogenitás jellemzésére az ún. Wilks-lambdát használjuk, mely a belső általánosított varianciának a teljes általánosított varianciához való arányát fejezi ki: det(CB ) Wilks det(C1 ) det(C B ) . (4.4) det(C) Minél alacsonyabb ez a hányad, annál homogénebbek a csoportok, és annál inkább a csoportközi szóródás dominál a sokaság totális szóródásában. Példánkban 3 21 7.52 Wilks 0.02521 18 25 13.52 tehát az adott csoportosítás a teljes varianciának csupán 2.5 százalékát nem magyarázza meg, így a csoportközi szóródás a meghatározó.
57
4.2 Példa Tekintsük az xi=i (i=1,2,…,2N) és az yi=(i+N) rendezett, páros megfigyelésekből álló x és y változókat, ahol =1, ha i<(N+1), és =-1 egyébként. Határozzuk meg - a sokaság elemszámának a függvényében - az r(x,y) lineáris korrelációt, majd elemezzük az értéke szerinti csoportképzésnek a korreláció értékére gyakorolt hatását. Legyen zi=N (i=1,2,…,2N), ekkor yi=xi+zi és z 0 , továbbá Cx , y Cx ,( x z ) 2x Cx , z C rx , y 1 x2, z 2 2 x y x x x ahol Cx , z
1 2N
2N
xi yi i 1
1 N2 N N 2 2N 2
és 2x
4N 2 1 12
ahonnan N2 1
2 1. 1 2 2N 2 Vegyük észre, hogy mindkét csoportban egzakt függvényszerű pozitív lineáris kapcsolat van, de ezt túlszárnyalja a csoportközi negatív külső kovariancia hatása. A Wilks-Λ felírását az Olvasóra bízzuk. 1 rx , y
2
4.2 DISZKRIMINANCIA VÁLTOZÓK A variancia hányados jellegű Wilks-lambda egyváltozós esetben a belső és a teljes variancia hányadosává egyszerűsödik. A többdimenziós szóródás esetén ezért érdemes a külső és belső szóródás vizsgálatát visszavezetni egyváltozós esetre, a megfigyelt változók valamely alkalmas z b1 x1 b2 x2 ... bp x p lineáris kombinációját képezve, melyet diszkriminancia változónak nevezünk. Ennek belső és külső varianciája: Var ( z) VarB ( z) VarK ( z) vagy kvadratikus formában (fölhasználva a variancia lineáris felbontásának szabályát is): Var ( z ) bT Cb bT CB CK b bT C B b b T C K b . (4.5) A heterogenitás (homogenitás) jellemzésére most kétféle mérőszám képezhető. Az egyik a külső varianciát a belső varianciához viszonyító diszkriminancia kritérium: VarK ( z ) bT CK b max (4.6) VarB ( z ) bT CB b a másik pedig a diszkriminancia változó külső variancia hányadosa VarK ( z ) bT CK b (4.7) T max . Var ( z ) b Cb 1 Látható, hogy a két kritérium között összefüggés van, és mindkettő függ a b súlyok megválasztásától. A súlyokat a kritériumokat maximálandó választjuk meg. A diszkriminancia kritérium b szerinti maximálása a T T 2C K b b C B b b C K b 2C B b 0 2 b bT C B b
egyenlet megoldását igényli, mely a bT C B b skalárral való egyszerűsítés és keresztbeszorzás, majd φ (4.6) definíciójának behelyettesítése után megfelelő átrendezéssel a CB1CK I b 0 sajátérték-sajátvektor feladatra vezet. Ez a CK (C CK ) b (1 )CK C b 0
58
(4.8)
átalakítással a
1 I b C CK 1
C1CK I b 0 sajátérték-sajátvektor feladat formájában is megoldható. A súlyokat tartalmazó b sajátvektor mindkét feladatra közös, a C1C K mátrixnak pedig k=min{p,(m-1)} számú pozitív sajátértéke van. Fölhívjuk a figyelmet, hogy CB1C K nem szimmetrikus, tehát a b sajátvektorok nem ortogonálisak. A felhasználásukkal kalkulált z diszkriminancia változók viszont korrelálatlanok. 4.3 Példa A 8 telefonbeszélgetés példáját folytatva 1
7.5 15 6 40 14.222 3 CB1CK 7.5 21 6 4 14 4.8889 amelynek sajátértékei (a maximált diszkriminancia kritériumok) 1=35.01 és 2=0.10146, a hozzájuk tartozó sajátvektorok pedig b1=[0.9436, -0.3311]T, és b2=[-0.43176, 1.2113]T. A diszkriminancia változó külső varianciája a belső variancia közel 35-szörösét érheti el maximum. A külső variancia hányados maximálásakor továbbá 1
13.5 15 6 1.098 0.35854 18 C1CK 13.5 25 6 4 0.35294 0.033613 amelynek sajátértékei rendre 1=0.97219, és 2=0.0922, a megfelelő sajátvektorok pedig megegyeznek a diszkriminancia kritériumokhoz tartozó fenti sajátvektorokkal. Eszerint a három csoport valamelyikéhez való tartozás a totális szóródás 97.2 %-át idézi elő. A kétféle kritérium közötti összefüggés például az első sajátértékek vonatkozásában: 35.01 1 0.97219 1 . 1 1 1 35.01 Az j variancia hányadosok komplementerei egyben a z változó (egyváltozós) Wilks-lambdái (j=1,...,k). A Wilks-, és a diszkriminancia kritériumok között összefüggés van, az alábbiak szerint. Előbb a Wilks- a diszkriminancia változó Wilks-lambdáinak a függvényében (4.3) és (4.4) alapján: det(C1 ) det(CB ) det(C1CB )
det C1 (C CK ) det(I C1CK ) j 1 1 j k
(4.9)
mivel a determináns az (I-C-1CK) mátrix (1-) sajátértékeinek a szorzata.23 Innen (4.7) felhasználásával a Wilks lambda a diszkrimnancia kritériumok segítségével is kifejezhető: 1 . (4.10) k j 1 1 j Példánkban: 1 . (1 35.01)(1 0.10146) A Wilks-lambda értéke – egyéb feltételek változatlansága mellett – a csoportok számának növelésével csökken, mivel egyre homogénebb csoportok jönnek létre. Nem ilyen nyilvánvaló, hogy – változatlan csoportosítás mellett is – csökken (legalábbis nem nő), ha a z diszkriminancia változóban az x diszkriminátor változók körét bővítjük. Tekintsük ugyanis a z b1 x1 b2 x2 ... bp x p bp 1 x p 1 0.0252 (1 0.97219)(1 0.0922)
diszkriminancia változót. Az utolsó változó súlyára a bp+1=0 megszorítást téve egy szűkebb, e megszorítást feloldva pedig egy tágabb lineáris kombinációt definiálunk. A megszorítás mellett feltételesen optimált (maximált) kritérium nem lehet optimálisabb mint a meg nem kötött modellben feltétel nélkül optimált kritérium, hiszen akkor a feltételes modellhez való egyszerű visszatérés tovább optimálná a célfüggvényt, ami értelmetlen. Másfelől, a 23
Hiszen (I-C-1CK -I) = -(C-1CK – (1-)I) = -(C-1CK –I) ahonnan =1-.
59
tágabb modellben a maximálandó kritériumok száma is több, a Wilks-lambda pedig e kritériumok (1-) komplementereinek a szorzata. A Wilks-lambda tehát a diszkriminancia változók vetületében egy minimált belső variancia hányados kritérium.
4.2.1 A MAHALANOBIS TÁVOLSÁG Speciálisan két, rendre N1 és N2 elemszámú csoport esetén a külső kovariancia mátrix (lásd e fejezet Függelékét) a NN CK 1 2 2 ( x1 x2 )( x1 x2 )T N formát ölti, ahol x1 és x2 a két csoport megfelelő centroidja, és N1+N2=N. Így a diszkriminancia kritérium maximálása a (4.8) sajátvektor feladat szerint a 1 N1 N 2 T CB 2 ( x1 x2 )( x1 x2 ) I b 0 N egyenlet megoldását kéri, mely, figyelembe véve, hogy ( x1 x2 )T b skalár, átrendezhető az alábbi formában:
1 N1 N 2 T 1 1 N 2 ( x1 x2 ) b CB ( x1 x2 ) KCB ( x1 x2 ) b ahol K konstans. Nyilvánvaló, hogy a b vektorban foglalt súlyok abszolút értelemben nem, csak egymáshoz való arányaikban határozhatók meg. A K skálafaktort egységnyinek választva, az átskálázás után a CB1 ( x1 x2 ) d súlyvektor adódik. E súlyok felhasználásával a két csoport centroidjainak a diszkriminancia változó tengelyén vett távolsága: 2 z1 z2 dT ( x1 x2 ) (4.11) ( x1 x2 )T CB1 ( x1 x2 ) . (4.12) módon számítható. A (4.11) és (4.12) formulákkal definiált távolságot a két csoport közötti (értsd a két centroid közötti) Mahalanobis távolságnak nevezzük. Ha a két csoport kovariancia mátrixa megegyezik egymással, úgy az (átlagos) belső kovariancia mátrix egyben e közös kovariancia mátrix: C1=C2=CB. Ebben az esetben a d súlyvektorral definiált egyetlen (ugyanis min{p,(2-1)}=1) diszkriminancia változót Fisher-féle diszkriminancia függvénynek nevezzük.24 Mindemellett a Mahalanobis távolság a diszkriminancia változó belső varianciáját is jelenti, hiszen kvadratikus formában az alábbiak szerint is írható: 2 ( x1 x2 )T CB1CB CB1 ( x1 x2 ) dT C B d VarB ( z ) . A Mahalanobis távolságot a síkban – csak x és y változót tekintve – a következő formula alapján is számíthatjuk: 1
2 CB x1 x2 x x 2 1 2 xB 2 y1 y2 CB yB y1 y2 mely (az egyszerű jelölés kedvéért a B indexet elhagyva, az invertálást végrehajtva, és az r lineáris korrelációs együtthatót bevezetve) az alábbiak szerint alakul: T
x1 x2 2y C x1 x2 1 2 2 x y C 2 y1 y2 C 2x y1 y2 1 r T 2 1 x1 x2 x x1 x2 1 y1 y2 1 r 2 y1 y2 r 2y T
2
24
Emlékeztetünk rá, hogy a csoportok száma most m=2.
60
1 1 r2
x x 2 y y 2 1 2 1 x y
2 x x y y2 . 2r 1 2 1 x y
Látható, hogy ha a változók korrelálatlanok, vagyis CB diagonális (r=0), akkor – és ez kettőnél több dimenzióban, általában érvényes megállapítás – a Mahalanobis távolság a standardizált változók terében értelmezett euklideszi távolsággá egyszerűsödik. Továbbá, ha CB egységmátrix, akkor a Mahalanobis távolság az eredeti mértékegységben mért változók alapján számított euklideszi távolságot eredményezi. 4.4 Példa A Mahalanobis távolság a többváltozós térben a távolság meghatározásának alapvető, standardizált metrikája, ahol a kovariancia mátrix inverzével történő standardizálás általánosabb értelmű, mint a klasszikus egydimenziós standardizálás. Lényegét megvilágítandó, kétdimenzióban való meghatározását az alábbiakban bemutatjuk. A számpélda jól illusztrálja a Mahalanobis távolságban történő standardizálás tartalmát. A vizsgált két populációnk a Pepsi és a Coca koffein-, és energiatartalmuk tekintetében. A Pepsi szabvány szerinti fajlagos, átlagos koffein tartalma (gr/liter) és energia tartalma (kjoul/100cm3) rendre [7.1, 191], a Coca megfelelő centroidja pedig [7, 180]. A vizsgált két változó kovariancia mátrxa mindkét üdítő esetében ismert, és közös: 0.022 0.011 . CPepsi CCoca CB 2 0.011 2.75 A Pepsi és a Coca közötti Mahalanobis távolság tehát:
7.1 7 2P ,C 191.0 180
1 1 0.22
T
0.022 0.011 2 0.011 2.75
1
7.1 7 191.0 180
7.1 7 2 191 180 2 7.1 7 191 180 34.375 2 0.2 0.02 2.75 0.02 2.75
ahol r=0.2=0,011/0.02/2.75. A példa tanulsága kettős. Egyfelől fölhívja a figyelmet arra, hogy a koffein- és az energiatartalom között korrelációs kapcsolat van. Ebből következően a kétféle üdítő közötti, a koffein tengelyen vett távolság megítélésekor figyelembe kell vennünk azt, hogy milyen távol vannak egymástól az energiatartalom tengelyen. Másfelől, mivel rögzített populációkról van szó, ezért a külső variancia adottság, ezért a diszkriminancia kritérium maximálása érdekében a diszkriminancia változó belső varianciáját kell minimálnunk, ami most a 34.375 értékű Mahalanobis távolság.
4.2.2DISZKRIMINÁLÓ DIMENZIÓK FELTÁRÁSA A diszkriminancia változók értelmét azon x változók nyújtják, melyek relatíve nagy súllyal szerepelnek az előállításukban, vagyis amely x változókkal az illető diszkriminancia változó szorosan korrelál. A zt diszkriminancia változó előállításában az xj standardizált mérési változó standardizált súlyát a wjt = bjt·sj formában definiáljuk, ahol sj az xj változó mintabeli korrigált szórása. Így: x w bx s teljesül. A diszkriminancia változók értelmezésének másik eszköze a diszkriminátor, és a diszkriminancia változók közötti korrelációk Rxz struktúra mátrixa. Csakúgy mint a főkomponensek és a kanonikus változók esetében, a diszkriminancia változók tartalmát is a velük legszorosabban korreláló mérési változók nyújtják. A szignifikáns diszkriminancia változók számát a kanonikus korrelációszámítás segítségével tesztelhetjük. Képezzük az m számú csoporthoz való tartozást leíró y1,y2,...,ym-1 dummy változókat, melyek értékeit a 4.2. táblázat definiálja: 4.2. táblázat. Dummy változók Csoport Dummy változó y1 y2 y3 ... ym-1 1 1 0 0 0 2 0 1 0 0
61
3
0
0
1
0
m-1 m
0 0
0 0
0 0
1 0
Alkossák továbbá az y dummy változók a kanonikus korrelációszámítás eredmény változó halmazát, az x diszkriminátor változók pedig a magyarázó változók halmazát. Ekkor az r1,r2,...,rk kanonikus korrelációk és a φ1,φ2,...,φk diszkriminancia kritériumok közötti összefüggés: r2 i i 2 . 1 ri Világos, hogy a Wilks-lambda a kanonikus korrelációk négyzeteivel is kifejezhető a k
(1 ri 2 ) i 1
formula alapján. A szignifikáns diszkrimináló dimenziók számát tehát a szignifikáns kanonikus korrelációk tesztelésével behatárolhatjuk.
4.2.3 GYAKORLÓ FELADATOK 4.1. A külső kovariancia két csoport esetén: N N CK 1 ( x1 x )( x1 x )T 2 ( x2 x )( x2 x )T N N ahol N N x 1 x1 2 x2 . N N Támassza alá az eredmény helyes vagy helytelen voltát a megfelelő átalakításokkal. 4.2. Mutassa meg, hogy a nem szimmetrikus CB1CK sajátértékeit és sajátvektorait keresendő, a belső kovariancia mátrix CB=VVT spektrális felbontását használva, a -1
1 1 G = VΛ 2 CB1CK VΛ 2 szimmetrikus mátrix sajátértékei a kérdéses sajátértékeket, u sajátvektorainak V-1/2u transzformációi pedig a keresett sajátvektorokat eredményezik.
4.3. Feladat Nyolc (különféle fajta) harcikutya testméretét vizsgáljuk marmagasságuk (M: cm) és testsúlyuk (S: kg) alapján egyidejűleg. Három csoportot képezve az eredmények az alábbiak: Kutya Magasság Súly -------------------------------1. csoport: ----------angol bulldog 40 25 pit_bullterrier 48 25 kinai harcikutya 50 25 -------------------------------2. csoport: ----------mallorcai véreb 60 46 japán tosza 60 50 -------------------------------3. csoport: ----------broholmer 75 60 fila bresiliero 75 60 masztiff 75 75 -------------------------------átlag: 60.375 45.75 szórás: 12.835 17.93 kovariancia = 217.22
Feladat: határozza meg az alábbi jellemzőket: a) a külső kovariancia értéke természetes mértékegységben.
62
b) a külső kovariancia értéke standardizált változók esetén. c) a klaszterképzés által az általánosított (természetes mértékegységből számított) varianciából megmagyarázott hányad (%) d) a “méret” (első) főkomponens által a változók összesített (teljes) varianciájából képviselt hányad (%)
4.3 KLASZTERANALÍZIS A heterogén sokaságot alkotó objektumok homogén csoportokra bontása a statisztikai elemzés egyik alapvető mozzanata. A létrehozott csoportok további következtetésekre akkor alkalmasak, ha csoporton belüli viszonylatban az objektumok homogének, tehát globális heterogenitásuk oka a csoportközi viszonylatokban keresendő. A csoportokat a sokaságról rendelkezésre álló információ tömörítésére, továbbá az egyedeit jellemző tulajdonságok statisztikai kapcsolatának a vizsgálatára, előrejelzésre használjuk. Értelemszerű, hogy relatíve kevés (a sokaság elemszámához képest kevés) csoport kialakítására törekszünk. A fenti elvárásoknak eleget tevő alcsoportokat klasztereknek nevezzük A csoportképzés szempontjából csoportosítandó objektum lehet a megfigyelési egység a változók terében, de lehet a változó is a megfigyelési egységek terében. Sőt, bizonyos egységek, bizonyos változók tekintetében hasonló blokkjait is kereshetjük. E három cél háromféle módszertant határol el egymástól. Technikailag a csoportokat úgy alakítjuk ki, hogy az egymástól legkisebb távolságra levő megfigyelési egységek illetve az egymással legnagyobb hasonlóságot mutató változók definiáljanak egy önálló klasztert. A klaszterek száma és a klasztertagságok az eljárás végén válnak ismertté. A klaszter értelmét az elemeit kis veszteséggel helyettesítő tipikus objektuma nyújtja. Ez lehet az átlagos megfigyelési egysége, vagy változóinak a főkomponense. A klaszteranalízis adatbázisát az x1,x2,...,xp mennyiségi változóknak n megfigyelési egységre vonatkozó értékei alkotják. Ha a változók folytonosak, és különböző mértékegységűek, akkor célszerű standardizálni azokat, különben az eltérő mértékegységek miatt a nagyobb szórású változók nagyobb súlyt kapnak a távolság, illetve a hasonlóság mérése során. Ha egy változó kimenetelei kategóriák, akkor a kategóriákat vagy diszkrét számértékekkel, vagy dummy változók egy rendszerével helyettesítjük. A klaszterek kialakítására hierarchikus vagy iteratív jellegű technikák állanak rendelkezésre. A hierarchikus módszereken belül agglomeratív és divizív eljárásokat különböztetünk meg. Az iteratív eljárás a megfigyelési egységeket annyi induló csoportba sorolja, amennyit a felhasználó az eljárás elején meghatározott, majd a klaszterezendő egységeket szükség esetén más klaszterbe helyezve át jut el a végső csoportosításhoz. A hierarchikus technikák viszont a csoportok formálódásának a folyamatát mutatják be, a két extrém csoportosítás között. Az agglomeratív módszerek abból indulnak ki, hogy minden egyes objektum egy egyelemű klaszter, melyeket lépésről lépésre, egyre távolabbi objektumokkal bővítünk addig, míg valamennyi objektum egyetlen klaszterben, a sokaságban nem egyesül. A divizív módszerek ezzel szemben előbb a sokaságot, majd az egyre szűkülő klasztereket addig hasítják ketté, míg mindenki egy önálló klasztert nem alkot. A hierarchikus klaszterezés során az egyszer már közös klaszterbe került egyedek közös klaszterben is maradnak, illetve a már szétválasztottak külön is maradnak.
4.3.1 A MEGFIGYELÉSI EGYSÉGEK KLASZTEREZÉSE A csoportképző ismérvek (változók) lehetséges kimeneteleit, kategóriáit megadva az osztályozás egyértelmű abban az értelemben, hogy ki melyik kategóriához tartozik, melyik kritériumnak tesz eleget. Így a sokaság minden egyes elemét a vizsgált kritériumok együttesének egy sorozata jellemzi. Gazdálkodó egységek sokaságát tekintve például az 1 millió forintos adózott nyereséget termelő, 5 alkalmazottat foglalkoztató korlátolt felelősségű társaság, melynek alaptőkéje 5 millió forint, és könyvvizsgálással foglalkozik, a kritériumok egy konkrét együttesét mutatja, amely együttest általánosságban kovariánsnak nevezünk. Ha a sokaságban sok egyed tartozik egy kovariánshoz, akkor ez a csoport a szóban forgó kritériumok szempontjából homogén klasztert alkot. Ha valamennyi változó folytonos, akkor extrém értelemben mindegyik megfigyelési egység egy önálló kovariáns, mely egy egyelemű klasztert definiál. Minél kevesebb a csoportképző ismérv lehetséges kimeneteleinek a száma, annál szűkebb a lehetséges kovariánsok száma is, és ilyenkor több megfigyelés is azonos kovariánshoz tartozik, klasztert képezve. A klaszter tartalmát tehát a kovariánsa nyújtja. Ha a működési formát illetően a sokaságban csak betéti társaság, korlátolt felelősségű társaság és részvénytársaság van, akkor a betéti társaságot rögzítő kovariánsok működési forma tekintetében tökéletesen homogén klasztereket jelentenek, és ugyanez a helyzet a másik két társasági forma tekintetében is. Ha viszont a csoportképző ismérv számszerű, folytonos, mint például a nyereség (veszteség) mértéke, akkor annak terjedelmét sok szűk osztályra kell hasítanunk ahhoz, hogy valamely osztályának valamely kovariánsa – ha nagy gyakorisággal is fordul elő -, de homogén egyedek csoportját jelentse. A megfigyelési egységek klaszterezése során gyakorlatilag olyan egymástól jelentősen elütő kovariánsokat keresünk, melyek az egyedeket kevés számú, nagy gyakoriságú alcsoportban különítik el. Korántsem biztos, hogy a vizsgált
63
sokaságban vannak ilyen homogén csoportok. Technikailag a klasztereket úgy alakítjuk ki, hogy az egymástól legkisebb távolságra levő egyedek kerüljenek egy-egy önálló (az analízis előtt még ismeretlen) csoportba. A klaszterek száma és a klasztertagságok az eljárás végén alakulnak ki. Mivel a kovariáns a klaszter valamennyi egyedét jellemzi, ezért a klaszteranalízis egyféle adatredukciós technika, melynek veszteségét a belső variancia mértéke számszerűsíti. A folytonos jellegű mennyiségi változók terjedelmének szegmentálása és diszkrét jellegűvé konvertálása már az analízis előtt végrehajtható, de nem szükségszerű.
4.3.1.1 AGGLOMERATÍV KLASZTERFORMÁLÁS: LÁNCMÓDSZER A hierarchikus klaszterképzés során az egymástól legkisebb távolságra lévő, illetve az egymással legnagyobb hasonlóságot mutató klasztereket soroljuk közös csoportba. ezért definiálnunk kell az egyesítési szabályt, hogy mit értünk két klaszter távolsága, illetve hasonlósága alatt. E definició birtokában a távolság (hasonlóság) mérése már csak egy megfelelő d metrika kiválasztását igényli. Alapvetően az alábbi klaszteregyesítési eljárások közül választhatunk. Legközelebbi szomszéd elve, vagy egyszerű láncmódszer: két klaszter távolságát (hasonlóságát) a legközelebbi (maximális hasonlóságot mutató) elemeik távolságával (hasonlóságával) azonosítjuk. Legtávolabbi szomszéd elve, vagy teljes láncmódszer: két klaszter távolságát (hasonlóságát) a legtávolabbi (minimális hasonlóságot mutató) elemeik távolságával (hasonlóságával) azonosítjuk. Centroid módszer: két klaszter távolságát az átlagos klaszteren belüli elemek távolságával azonosítjuk. Átlagos láncmódszer: két klaszter távolságát (hasonlóságát) elemeik átlagos páronkénti távolságával (hasonlóságával) azonosítjuk. Ward-módszer: a Ward-féle elv két klaszter távolságán az egyesítésükkel kialakuló klaszteren belüli külső variancia mértékét érti. Megállapodás szerint egy objektum önmagától vett távolsága zérus, és önmagára hasonlít a leginkább. A választott metrikának olyannak kell lennie, hogy két objektum egymástól való távolsága invariáns legyen az objektumok sorrendjére, illetve a mérési skála mértékegységére. Az agglomeratív láncmódszer kiindulásaként mindegyik egyedet egy-egy önálló klaszternek tekintjük, és klaszteregyesítések sorozatán keresztül utolsó lépésben egyetlen klaszterhez, a sokasághoz jutunk. Eközben lépésenként mindig csak a két legközelebbi klasztert egyesítjük, az alábbi algoritmus szerint. A klaszteregyesítést megelőzően az éppen rendelkezésre álló m számú klaszter között valamennyi párosításban megmérjük a dgt(m) távolságot, ahol g és t két tetszőleges klasztert jelöl az „m” lépésben. Ezután az egymáshoz legközelebb eső g* és t* klasztereket egyesítjük. Az eljárás akkor ér véget, amikor már mindenki egyetlen közös klaszterhez tartozik. A klaszterek egyesítésének menetét a klaszterfa jeleníti meg. E dendrogram nem más, mint az n számú klaszterezendő objektum összes lehetséges csoportosításából egy csoportosítás sorozat, melynek első és utolsó eleme a két triviális csoportosítás: az izolált objektumok rendszere, illetve a nem csoportosított sokaság. A klaszterfát a 4.2. ábra szemlélteti. 4.2. ábra: Klaszterfa A fenti láncmódszer ugyanazon klaszterezendő sokaság esetében is eredményezhet más és más klaszterfákat attól függően, hogy melyik egyesítési eljárást, és milyen d metrikát alkalmazunk. Az alábbiakban a fontosabb klaszteregyesítési szabályokat, és metrikákat ismertetjük. A k-elemű legközelebbi szomszéd módszere E módszer szerint - az egyszerűség kedvéért előbb a síkban gondolkodva - két klaszter távolságán azt a minimális r körsugarat értjük, amelyre mindkét klaszterben létezik egy-egy elem, melyeket r sugarú körök középpontjaiként tekintve, a két kör metszete k számú, a középpontoktól különböző elemet lefed, vagy érint. Általánosságban tekintsük az A={a1,a2,,...,anA} és B={b1,b2,...,bnB} klasztereket. Ekkor a két klaszter távolsága az a legkisebb dk(A,B) érték, amely mellett létezik olyan i,j indexpár és x1,...,xq,...,xk pont, amelyre d(ai,xq)≤dk és d(bj,xq)≤dk teljesül, miközben aixq, bjxq. A centroid módszer
64
Ez az eljárás az átlagszámítás elvét használva, két klaszter távolságán a centroidjaik közötti távolságot érti. A g. klaszter centroidját az egyes változók klaszteren belüli átlagainak a sorozata alkotja:
cgj
1 ng
ng
x i 1
ij
( j 1,..., p)
ahol ng a g. klaszterben lévő megfigyelési egységek száma. Bármelyik klaszteregyesítési elvet választjuk is, két klaszter távolságát mindig két pont távolságára vezetjük vissza. A Ward-féle eljárás Ward alternatív módszere szintén hierarchikus, agglomeratív technika, mely a klaszterképzéssel együttjáró információveszteség minimalizálásán alapul. A veszteséget a klaszteren belüli, valamennyi változóra összesített eltérésnégyzetösszeggel mérve, a kezdeti állapotban természetesen zérus a veszteség. Két megfigyelési egységet közös klaszterbe sorolva azonban nő a veszteség, viszont attól függően, hogy mely két klasztert vonjuk össze, nem egyforma mértékben. Az eljárás során mindig azt a két klasztert vonjuk össze egy objektummá, amelyek egyesítése esetén a veszteség növekedése a legkisebb. Távolságmértékek Az előzőekben megismert általános Mahalanobis távolságmérték mellet az alábbi speciális metrikákat említjük meg. Folytonos változók esetén alkalmazható, paraméteres távolság a Minkowski távolság, melynek formulája az „i” és „c” pontok közötti távolságot mérve, az r1 paraméter függvényében: 1
r p r d Minkowski (i, c) xij xcj . j 1 Az r paraméter értékének a változtatásával dM többé, vagy kevésbé érzékeny az extrém koordinátákra. A Minkowski mérték r=2 esetén a dE euklideszi távolsággal ekvivalens, r=1 esetén pedig a dCb ún. city-blokk távolságot eredményezi. A Minkowski távolság (és így az euklideszi távolság is) érzékeny a változók mértékegységének a megválasztására. Ezt az alábbi példa szemlélteti.
4.5. Példa Tekintsük az A személyt súlya és magassága alapján a sík pontjaként, magasságát előbb centiméterben, majd méterben kifejezve. Feladatunk, hogy az illetőt az adott C1 és C2 centroidok közül ahhoz soroljuk tagként, amelyikhez közelebb esik. Az alábbi tábla a páronkénti dE euklideszi távolságokat közli: 4.3. tábla: Személyek közötti euklideszi távolságok Személy Súly Magasság dE(kg,cm) kg cm m A C1 C2 A A 70 170 1.70 0 20.22 15.81 0 C1 73 190 1.90 20.22 0 5.38 3.01 C2 75 185 1.85 15.81 5.38 0 5.00
dE(kg,m) C1 C2 3.01 5.00 0 2.00 2.00 0
ahol
d E ( A, C1 | kg , cm) (70 73) 2 (170 190) 2 20.22 d E ( A, C1 | kg , m) (70 73) 2 (1.7 1.9) 2 3.01
d E ( A, C2 | kg , cm) (70 75)2 (170 185)2 15.81
d E ( A, C2 | kg , m) (70 75) 2 (1.7 1.85) 2 5 . A magasságot centiméterben mérve az A személyt a C2 csoporthoz, míg méterben mérve a C1 középponthoz soroljuk. Ez természetes, hiszen A a súly tekintetében a C1 centroidhoz, míg magasságát tekintve a C2 centroidhoz áll közelebb, és ez utóbbi tengelyen a koordináták távolsága az euklideszi metrikában a mértékegyégtől függően föl is nagyítódhat, de jelentéktelenné is válhat. A változókat a szórásukkal standardizálva, a távolságok rangsora már érzéketlen az eredeti mértékegyég megválasztására. Folytonos változókra alkalmazható továbbá a Bray-Curtis koefficiens is:
65
p
d BC (i, c)
x j 1 p
ij
x j 1
ij
xcj .
xcj
Diszkrét kimenetelű mérési eredmények terében a távolság, vagy a hasonlóság mérése speciális metrikákat igényel. Ezek közül az alábbiakat említjük meg. Két megfigyelés hasonlóságának a jellemzésére használhatjuk a lineáris korrelációs együtthatót, annak abszolút értékét, vagy a két megfigyelés által bezárt szöget, vagyis a korreláció (abszolút) értékének az arcus cosinuszát. Ha a lineáris korrelációt alkalmazzuk, akkor értelmeznünk kell, hogy mit értünk hasonlóbb, és kevésbé hasonló alatt. Ezt világítja meg három megfigyelés, és az x1,x2,x3,x4 diszkrét változók esetén a 4.4. tábla: 4.4. tábla Hasonlósági probléma Megfigyelés x1 x2 x3 1. 1 3 2 2. 4 10 7 3. 1 2 2
x4 2 7 2
A lineáris korrelációk az első megfigyelés viszonylatában: r1,2=1, és r1,3=0.82. Kérdés tehát, hogy az a két megfigyelés a hasonlóbb, amelyek egymáshoz képest kevesebb új információt tartalmaznak, vagy az a kettő, amelyek koordinátáik alapján közelebb húzódnak egymáshoz a térben. Arra az esetre, ha a változók speciálisan dummy jellegű {0,1} kimenetelű változók, a távolság mérésére az A és B pontok között alábbi két metrikát említjük meg. A Jaccard-koefficiens: f11 d Jaccard ( A, B) f11 f10 f 01 és a metching-koefficiens: f11 f 00 d metching ( A, B) f11 f10 f 01 f 00 ahol fAB annak gyakorisága hogy az idexben szereplő értékpáros (a sorrendjükre is tekintettel) hány változó esetén fordul elő az A és B egyedek viszonylatában. 4.6. Példa A megfigyelési egységek (esetek) agglomeratív klaszterezésére 14 részvénytársaság csoportosítását mutatjuk be példaként, a részvénytársaságok 4 pénzügyi mutatója alapján, melyek a következők (a zárójelben a mértékegység mellett a változó rövidített azonosítója szerepel): x1: alaptőke (millió forint, Alaptoke) x2: az előző évi adózott eredmény (millió forint, EeAdEred) x3: az utolsó osztalék (%, UtOszt) x4: az egy részvényre jutó eredmény (forint, Er/Rv). Az adatokat a .5 tábla közli. 4.5. tábla Részvénytársaságok pénzügyi adatai Cég Alaptoke (MFt) EeAdEred (MFt) 1 447.57 33.50 2 1700.00 326.10 3 4538.60 485.00 4 293.00 55.60 5 201.85 35.40 6 100.00 50.00 7 1320.50 306.90 8 460.00 144.00 9 430.00 49.50
66
UtOszt (%) 8.10 40.00 7.00 0.00 20.00 33.00 20.00 13.50 12.00
Er/Rv (Ft) 74.85 1918.24 10.69 189.76 1753.78 500.00 232.41 125.22 1151.16
10 11 12 13 14 Átlag Szórás
467.50 3563.84 555.00 334.00 1071.00 1105.9 1339.6
206.00 579.00 201.00 58.00 95.10 187.51 176.54
20.00 16.00 18.00 20.00 9.00 16.90 10.349
440.64 1624.65 362.16 1736.53 88.80 729.21 733.06
A pénzügyi mutatók közötti páronkénti korrelációkat a 4.6. táblába, a változók standardizált adatait pedig a 4.7 táblába foglaltuk: 4.6. tábla A pénzügyi mutatók korrelációs mátrixa Változó Alaptoke Alaptoke 1.0000 EeAdEred 0.9046 UtOszt -0.1136 Er/Rv 0.0191
EeAdEred 1.0000 0.1010 0.1048
UtOszt
Er/Rv
1.0000 0.5421
1.0000
4.7. tábla A változók standardizált adatai Cég Alaptoke EeAdEred UtOszt 1 -0.49 -0.87 -0.85 2 0.44 0.79 2.23 3 2.56 1.69 -0.96 4 -0.61 -0.75 -1.63 5 -0.67 -0.86 0.30 6 -0.75 -0.78 1.56 7 0.16 0.68 0.30 8 -0.48 -0.25 -0.33 9 -0.50 -0.78 -0.47 10 -0.48 0.10 0.30 11 1.83 2.22 -0.09 12 -0.41 0.08 0.11 13 -0.58 -0.73 0.30 14 -0.03 -0.52 -0.76
Er/Rv -0.89 1.62 -0.98 -0.74 1.40 -0.31 -0.68 -0.82 0.58 -0.39 1.22 -0.50 1.37 -0.87
4.8. tábla A részvénytársaságok egymástól való euklideszi távolságai Cég 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 0.00 4.41 3.99 0.82 2.57 2.49 2.05 0.82 1.52 1.59 4.47 1.41 2.55 0.59
2 4.41 0.00 4.72 4.89 2.78 2.84 3.02 3.80 3.43 3.02 3.09 3.20 2.67 4.14
3 3.99 4.72 0.00 4.06 4.92 4.88 2.91 3.66 4.26 3.70 2.53 3.58 4.78 3.41
4 0.82 4.89 4.06 0.00 2.88 3.22 2.52 1.41 1.75 2.14 4.58 1.95 2.86 1.08
5 2.57 2.78 4.92 2.88 0.00 2.13 2.71 2.40 1.14 2.04 4.00 2.14 0.16 2.61
6 2.49 2.84 4.88 3.22 2.13 0.00 2.16 2.04 2.23 1.56 4.55 1.73 2.11 2.51
7 2.05 3.02 2.91 2.52 2.71 2.16 0.00 1.30 2.18 0.90 2.99 0.87 2.60 1.63
8 0.82 3.80 3.66 1.41 2.40 2.04 1.30 0.00 1.51 0.84 3.96 0.63 2.34 0.69
9 1.52 3.43 4.26 1.75 1.14 2.23 2.18 1.51 0.00 1.52 3.88 1.50 1.11 1.57
10 1.59 3.02 3.70 2.14 2.04 1.56 0.90 0.84 1.52 0.00 3.54 0.23 1.96 1.40
11 4.47 3.09 2.53 4.58 4.00 4.55 2.99 3.96 3.88 3.54 0.00 3.55 3.83 3.98
12 1.41 3.20 3.58 1.95 2.14 1.73 0.87 0.63 1.50 0.23 3.55 0.00 2.06 1.18
13 2.55 2.67 4.78 2.86 0.16 2.11 2.60 2.34 1.11 1.96 3.83 2.06 0.00 2.56
14 0.59 4.14 3.41 1.08 2.61 2.51 1.63 0.69 1.57 1.40 3.98 1.18 2.56 0.00
A fentiek birtokában, az euklideszi távolságmértéket és a legközelebbi szomszéd egyesítési elvét választva, a klaszterek formálódását az alábbi klaszterfán követhetjük nyomon: 4.3. ábra Klaszterfa az egyszerű láncmódszerrel Távolság d 0.163 0.232 0.588 0.635 0.690
1 I I
14 I I
10 I
12 I + I
+ I
+ +
8 I I I
4 I I I I I
A részvénytársaság sorszáma (neve) 7 9 I I I I I I I I I I
13
5 + I I I I
6 I I I I I
2 I I I I I
11 I I I I I
3 I I I I I
67
0.816 0.869 1.115 1.497 1.562 2.533 2.672 2.908
+
I
I I
+ I
I I
I I I I
+ + + I
I I I I I I
I I I I I
I I I I I + I
+ +
Az ábrán a sorszáma azonosítja a részvénytársaságokat. A 4.3. ábráról leolvasható, hogy az 5. és a 13. cég van egymáshoz a legközelebb, ezért ők kerültek az első lépésben összevonásra, d=0.163 távolsági szinten. Ez a távolság az induló távolságmátrix minimális eleme. Az összevonás eredményeként kialakult objektumot (klasztert) „+”, a már meglévő objektumokat pedig (akár egy, akár több elemű) „I” azonosítja. Az aláhúzás a klasztertagságokat jelzi. Ezt követően ismét kételemű klaszterek jönnek létre, nevezetesen (10,12|d=0.232) és (1,14|d=0.588). A 4. lépésben már egy háromelemű klaszter formálódik d=0.635 távolsági szinten úgy, hogy a 10., és 12. társaságokhoz csatoljuk a 8. céget is: (10,12,8). Az 5. lépésben már közös klasztert alkotnak az (1,14,10,12,8) társaságok. A gondolatmenetet folytatva az utolsó, 13. lépésben valamennyi részvénytársaság egyetlen klaszterhez, a sokasághoz tartozik. Mint látható, a klaszterfán nyomon követhetjük a klaszterek formálódását. Célunk azonban általában egy konkrét csoportosítás kiválasztása. Ebben irányíthat minket, ha előre rögzítjük a kívánt klaszterszámot. Ha például 4 klaszterre szeretnénk bontani a 14 céget, akkor az eredményről a 10. lépés tájékoztat (d=1.562), miszerint a 2., a 11., és a 3. társaság külön-külön egyelemű klasztert alkot, míg az összes többi a maradék egy klasztert definiálja. Ez a csoportosítás természetesen messze van az ideálistól, hiszen az egyelemű klaszterek nyilván extrém egyedeket jelentenek, a többi 11 cég viszont, bár közös klaszterben van, várhatóan heterogén csoportot képez. Általánosságban megfogalmazható elv tehát, hogy klaszteranalízis előtt standardizáljuk a változókat, majd az extrém, outlier egyedeket zárjuk ki a vizsgálatból. Így elkerüljük az egyelemű csoportokat, és a kialakult klaszterek várhatóan homogének lesznek. A klaszterek összevonására most a centroid elvet választva (de maradva továbbra is az euklideszi távolságnál), a klaszterek alakulását az alábbi klaszterfán követhetjük nyomon: 4.4. ábra Klaszterfa a centroid módszerrel Távolság d 0.163 0.232 0.588 0.697 0.878 1.050 1.127 1.475 1.973 1.908 2.533 3.307 3.486
1 I I
14 I I
8 I I I
+ + I
4 I I I I I
10 I + I I
+ I
A részvénytársaság sorszáma (neve) 12 7 9 I I I I I I I I I + I I I I
+ +
13
5 + I I I I I
+ I
6 I I I I I I I I I
+ I
2 I I I I I I I I I I I
+
11 I I I I I I I I I I
3 I I I I I I I I I I + I
+
A fenti klaszterfáról leolvasható, hogy bár az első lépésekben még megegyezik, de a 4. lépésben már különbözik az előző dendrogramtól (a 8. céget most az 1. és a 14. céggel kapcsoljuk össze), azonban 4, vagy 3 klasztert definiálva a klasztertagságok megegyeznek a legközelebbi szomszéd módszerével nyert tagságokkal. A klaszterek jellemzését szolgálja az alábbi riport a klaszterfáról, mely az aktuálisan kialakult klaszter centroidját is közli. Az utolsó lépésben a zéró centroidhoz (az origóhoz) jutunk, mivel az input adatok most standardizáltak. 4.9. tábla Riport a centroid módszer klaszterfájáról Egyesítés Euklideszi a b Elemszám Alaptoke sorszáma távolság határ* 1. 0.163 13 5 2 -0.626 2. 0.232 12 10 2 -0.444 3. 0.588 14 1 2 -0.259 4. 0.697 8 1 3 -0.333 5. 0.878 10 7 3 -0.243 6. 1.050 4 1 4 -0.402 7. 1.127 9 5 3 -0.585 8. 1.475 7 1 7 -0.333 9. 1.973 5 1 10 -0.409 10. 1.908 6 1 11 -0.440
68
EeAdEred UtOszt centroid** -0.798 0.300 0.091 0.203 -0.698 -0.807 -0.547 -0.647 0.286 0.235 -0.597 -0.894 -0.792 0.042 -0.219 -0.410 -0.391 -0.274 -0.426 -0.108
Er/Rv 1.386 -0.447 -0.883 -0.863 -0.524 -0.832 1.116 -0.700 -0.155 -0.169
11. 12. 13.
2.533 3.307 3.486
11 2 3
3 1 1
2 12 14
2.199 -0.366 0.000
1.951 -0.325 0.000
-0.522 0.087 0.000
0.121 -0.020 0.000
* Az A és B klaszterek egyesítésével aktuálisan kialakult klasztert a klaszterfán határoló A és B-beli egyedek. ** Az aktuálisan formálódott klaszter centroidja
4.3.1.2 DIVIZÍV JELLEGŰ MÓDSZEREK A divizív módszerek kezdetben a megfigyelési egységeket egyetlen közös klaszter elemeiként kezelik, s bontják szét első lépésben két klaszterré. Ezen a ponton rögtön egy komoly probléma jelentkezik, hiszen n megfigyelési egység esetén a sokaságot (2n-2)/2 különböző módon lehet két klaszterré bontani. Emiatt még gyors számítógépek használata esetén is érdemes e kezdeti szétbontást valamilyen racionális szempont figyelembe vételével végrehajtani. Ha már a kezdeti szétbontás rendelkezésünkre áll, akkor az objektumokat egyik klaszterből a másik klaszterbe átmozgatva finomítjuk a klasztertagságokat, majd a következő lépésben mindkét klasztert újból két klaszterré bontjuk szét. A divizív eljárások tehát a kezdeti szétbontás mikéntjében és az újabb alcsoportok meghatározásának a módjában különböznek. A nagyszámú divizív technikák közül az alábbiakban egyet ragadunk ki, majd egy másikat később, az iteratív módszer kapcsán tárgyalunk. Az átlagos távolság alapján szétbontó eljárás kezdetekor kiszámítjuk valamennyi megfigyelési egységnek az összes többitől vett átlagos távolságát és a legnagyobb átlagos távolságot eredményező megfigyelési egységet mint leválasztott klasztert, a maradék megfigyelési egységeket pedig mint fő klasztert kezeljük. Így két csoporthoz jutunk. Ezt követően meghatározzuk a fő klaszter mindegyik elemének az átlagos távolságát egyrészt a leválasztott klaszter elemeitől, másrészt a fő klaszter összes többi elemétől. Ha egy fő klaszterbeli megfigyelési egység távolsága a lehasított klasztertől kisebb, mint a fő klasztertől, akkor ezt az egységet átsoroljuk a lehasított klaszterbe. Ezt az eljárást addig ismételjük, míg a leválasztott, és a fő klaszter stabilizálódik. Az ilymódon kialakult két objektum mindegyikét a fenti gondolatmenet alapján újabb két-két objektummá bonthatjuk egészen addig, míg valamennyi megfigyelési egység egy egyelemű önálló klasztert nem alkot. Egy további divizív technika az alábbi. Minden egyes j változó és g klaszter figyelembe vétele mellett meghatározzuk a Varjg varianciát, s kiválasztjuk azt a (j*,g*) indexpárt, amelyre ez a variancia maximális. Ezután a g* klasztert a j* változó terjedelmének a középpontjánál két klaszterré hasítjuk szét. Ezt az eljárást addig folytatjuk, míg elérjük a kívánt klaszterszámot. Standardizált adatok esetében nem a maximális varianciájú, hanem a legrövidebb terjedelmű változó terjedelmének a középpontjánál bontjuk ketté a klasztereket.
4.3.2 A VÁLTOZÓK KLASZTEREZÉSE A változók klaszterezésére hierarchikus, agglomeratív technikát alkalmazunk, melynek eredménye egy klaszterfa. A láncmódszer algoritmusa megegyezik a megfigyelési egységek klaszterezésénél bemutatottéval, az alábbi értelemszerű eltérésektől eltekintve. Első lépésben minden változót egy szeparált klaszternek tekintünk, majd a két egymáshoz leginkább hasonlót közös klaszterbe vonjuk, miáltal az objektumok száma eggyel csökken. Ezután újra a két egymással legnagyobb hasonlóságot mutató objektumot soroljuk közös klaszterbe, s ezt az eljárást addig folytatjuk, míg minden változó egy klaszterbe nem kerül. Az algoritmus első lépéseként rögzítendő, hogy két változó hasonlóságának a mérésére milyen mérőszámot választunk, illetve, hogy két klaszter hasonlóságát hogyan definiáljuk. A legelterjedtebb hasonlósági mértékek a következők. Lineáris korrelációs együttható: két változó hasonlóságát a közöttük számított r lineáris korrelációs együtthatóval mérjük. A lineáris korrelációs együttható abszolút értéke: két változó hasonlóságát a közöttük számított lineáris korrelációs együttható abszolút értékével mérjük. A változók hajlásszöge: két változó hasonlóságát a radiánban számított hajlásszögükkel mérjük. Mivel cos=r, ezért =arcos(r). A lineáris korrelációs együttható abszolút értékének arcus cosinusa: a két változó hasonlósága , ha a két változó között pozitív, és (π-) ha negatív a korrelációs kapcsolat. E két utóbbi mérték csökkenő értékkel jelzi a nagyobb hasonlóságot.
69
Klaszteregyesítési eljárásként az egyszerű láncmódszert, a teljes láncmódszert és az átlagos láncmódszert használhatjuk. Az egyszerű láncmódszernél a klaszterközi viszonylatban legnagyobb hasonlóságot mutató, a teljes láncmódszernél pedig a legkisebb hasonlóságot mutató változók hasonlósági mértékével definiáljuk két klaszter hasonlóságát. Az átlagos láncmódszer esetén az átlagolás változók valamennyi klaszterközi párosítást tekintve történik. Ekkor az sjt hasonlósági mértékek számtani átlaga ΣjΣt sjt / JT, ahol j az egyik, t a másik klaszterbeli változó, J és T pedig a változók száma a megfelelő klaszterekben. 4.7. PÉLDA A változók klaszterezését bemutatandó, a 14 részvénytársaság pénzügyi mutatóinak körét kibővítettük azok részvényeit jellemző mutatóikkal. Így összesen 11 változó áll rendelkezésünkre. Ezek az alábbiak: 1. Alaptőke (MFt, Alaptoke) 2. Az előz évi adózott eredmény (MFt, EeAdEred) 3. Az utolsó osztalék (%, UtOszt) 4. Az egy részvényre jutó eredmény (Ft, Er/Rv) 5. A kibocsátási ár (Ft, KibAr) 6. Átlagár (Ft, Atl_Ar) 7. Az egy részvényre jutó forgalom (Ft, ForgDb) 8. Az árfolyamértéken számolt forgalom (Ft, ForgFt) 9. A „P/E” hányados: Price Earning Ratio= részvényárfolyam / adózás előtti eredmény 10. A_Ar/kib 11. Az árfolyamértéken számolt forgalom (ezer Ft, ForgEFt) A klaszterek formálódásáról a 4.10. tábla tájékoztat. Az alkalmazott hasonlósági mérték a lineáris korreláció abszolút értékének a 100-szorosa, a klaszteregyesítési eljárás pedig az átlagos láncmódszer. Vegyük észre, hogy a forintban, és az ezer forintban mért forgalom csak egy konstans (1000) szorzóban tér el egymástól, tehát a lineáris korreláció közöttük 1, hasonlóságuk pedig maximális. Az első lépésben így e két változó kerül összevonásra. A táblában a klaszterhatárok jelzik, hogy adott változó mely klaszterhez csatolódott, az elemszám az aktuálisan formálódott klaszterben lévő klaszterek számát jelenti, míg a hasonlóság mértéke arról tájékoztat, hogy a szóban forgó klaszterösszevonás milyen hasonlósági szinten történt. 4.10. tábla Változók klaszterezése Klaszterhatárok Elemszám (változók) (változók száma) ForgFt ForgEFt 2 Er/Rv AtlAr 2 Alaptoke EeAdEred 2 ForgDb ForgEFt 3 Er/Rv KibAr 3 Alaptoke ForgEFt 5 UtOszt KibAr 4 UtOszt A_Ar/kib 5 Alaptoke A_Ar/kib 10 Alaptoke P/E 11
Hasonlóság (abs(korr.)) 100.0 92.05 90.46 89.32 75.05 63.60 56.66 23.98 18.59 14.00
4.5. ábra Változók vertikális klaszterfája Változó
2 7 8 11 3 4 6 5 10 9 -------------------------------/ Alaptoke( 1) 90/71 72 72/11 1 0 7 16/32/ / / / / / / / / EeAdEred( 2)/47 58 58/10 10 6 16 17/ 8/ / / / -------/ / / ForgDb ( 7) 89 89/28 32 28 22 5/28/ / / / ----/ / / ForgFt ( 8)100/28 28 32 25 8/ 7/ / / / / / / ForgEFt (11)/28 28 32 25 8/ 7/
70
/ / -------------/ / UtOszt ( 3) 54 60 55/38/23/ / / / -------/ / / Er/Rv ( 4) 92/65/31/22/ / / / / / / / / AtlAr ( 6)/84/17/ 0/ / / / / / / KibAr ( 5)/ 8/ 7/ / / / / A_Ar/kib(10)/ 2/ / / P/E ( 9)/
A klasztrek alakulását most egy vertikális klaszterfán követjük nyomon. (A megfigyelési egységek klaszterezésekor horizontális klaszterfát alkalmaztunk.) A változók a klasztertagságokhoz igazodva kerülnek sorbarendezésre, majd e sorrendnek megfelelően képezzük a változók közötti induló hasonlósági mátrixot (jelen esetben ennek elemei 100*abs(r) értékek), és a klaszterfát végül e hasonlósági mátrix köré rajzoljuk meg, a 4.5. ábrán látható módon. Az ábrán minden változótól indul egy vízszintes, vagy ferde szakasz, melyek metszéspontja jelzi, hogy mely mutatók kerültek közös csoportba. Minden változó sorában annyi hasonlósági (kerekített) érték szerepel, és olyan sorrendben, ahogy az illető sor alatt a klaszterfán a többi mutató következik. Összevetve a 4.10. táblát és a 4.5. ábrát leolvashatjuk, hogy például 3 klasztert képezve az 1. klasztert az {1,2,7,8,11} sorszámú, a cégek működését jellemző mutatók, a 2. klasztert a {3,4,6,5,10} sorszámú, a részvényeket (részvényeseket) jellemző mutatók alkotják, míg a 3. klaszter egyelemű, és a P/E hányadossal egyezik meg. Végeredményt tekintve a változók klaszterezése a változók alcsoportjaihoz, tehát faktorokhoz vezet el. E tekintetben tehát analógiája a főkomponensek elemzésnek. Előnye vele szemben, hogy a végleges alcsoportok kialakítása nem igényel további (ott forgatási) megfontolásokat, és az azokra vonatkozó (például derékszögű) megszorításokat. Hátránya, hogy értelmes faktorok (alcsoportok) kirajzolódása esetén e mesterséges változók itt nem nyernek konkrét, megfigyelésenként kalkulált értéket. Főkomponens elemzés előtt célszerű tehát a változókat klaszterezni, és a főkomponenseket már klaszteren belül meghatározni. A klasztertagságok természetesen a faktorsúlyok ferdeszögű forgatás eredményeként kapott egyszerű struktúrájával vethetők össze.
4.3.3 BLOKK-KLASZTEREZÉS A blokk-klaszterezés az esetek (megfigyelési egységek) és a változók klaszterezésének a kombinációja. E klaszterezési technika révén a megfigyelési egységek olyan alcsoportjait alakítjuk ki, melyben az egyedek (esetek) diszkrét (0,1,2,...) kimenetelű változók valamely alcsoportja tekintetében (és nem az összes változó tekintetében) hasonlók. Valamely blokk olyan esetekből áll össze, melyek adott változóban azonos, konstans értéket vesznek fel. Ezt a konstans értéket az illető változó adott blokkra vonatkozó modális értékének nevezzük. A blokkokat szimbólummal (például A, B, C,...) jelöljük, és a változók modális értéksorozatával azonosítjuk. Ha például 4 változónk van, és a leginkább tipikus A blokkot az A={2,3,1,5} értéksorozat definiálja, akkor mindazok a megfigyelések az A blokkhoz is tartoznak, akik adott változóban az A blokkra vonatkozó modális értékkel bírnak (tekintet nélkül arra, hogy ez hány változó esetén mondható el róluk). Bizonyos megfigyelési egységek (esetek) tehát több blokkhoz is tartozhatnak egyidejűleg, az eljárás várhatóan átfedéses blokkokat eredményez. A blokkhoz tartozás megjelenítése érdekében a változók értékeit azon blokk szimbólumával helyettesítjük, amelyik blokkban ez egyben modális értéket is képez. Azok az értékek, melyek egyetlen blokkhoz sem társíthatók, egyedi, reziduális blokkot alkotnak, és megőrzik eredeti értéküket az adatállományból. Ha két blokkunk van, és a másodikat B={0,0,4,4} azonosítja, akkor az adatállomány i=[0,3,4,6]T sora az i=[B,A,B,6] szimbólum sorozattal helyettesítendő. Ennek az a tartalma, hogy az i megfigyelés az első változó tekintetében a B, a második tekintetében az A, a harmadik tekintetében újra a B blokkhoz tartozik, és végül a negyedik változó tekintetében egyikhez sem, itt reziduális blokkot képez. Az ily módon helyettesített adatmátrixot ezután átrendezzük úgy, hogy az ábrán valamennyi blokk a lehető leginkább folytatólagosan (érintkezően) helyezkedjen el. Adott blokk mérete alatt a szimbóluma előfordulási számának a benne szereplő változók számával csökkentett értékét értjük. A blokk-klaszterezés induló adatállománya természetesen folytonos változót is tartalmazhat, ha annak terjedelmét kategóriákra bontjuk, majd a kategóriákhoz
71
diszkrét értéket rendelünk. Az eljárás kezdetekor rögzíthetjük a blokk sorainak és oszlopainak minimálisan megkövetelt számát (például 2.), továbbá a kialakítandó blokkok maximális számát. A blokkok formálódása az alábbi gondolatmenet szerint történik. Az első (legnagyobb) blokkot úgy képezzük, hogy valamennyi változó esetében külön-külön megkeressük a legkisebb modális (legtöbbször előfordult) értéket, majd ezt az értéket helyettesítjük az első szimbólummal. Így megtudjuk, hogy az egyes változók mely értékei fordulnak elő a leggyakrabban. E modális értékek sorozata most még várhatóan annyi elemű, ahány változót vizsgálunk. Az adatállományban egyedi értékként most már szimbólum is szerepel. A további blokkok kijelölése érdekében meghatározzuk valamennyi esetre, majd valamennyi változóra a nyesett gyakoriságok összegét, az ún. score-értéket. Az egyedi érték nyesett gyakorisága alatt zérót értünk, ha ez az érték egy szimbólum, és az összes előfordulási gyakoriságát (bármely változóban), ha nem szimbólum. E nyesett gyakoriságok alapján kiemeljük a legmagasabb score-értékkel bíró esetet, és a pozitív score-értékkel rendelkező változókat. Az eredeti adatállományból így kiemelt értékek (itt nem vagyunk tekintettel arra, hogy esetleg már blokk szimbólum szerepel) definiálják a következő blokk induló modális értékeit. Most valamennyi esetet megvizsgálva aszerint csatolunk, vagy törlünk esetet a blokkból, hogy ezzel növeljük-e a totális (összesített) blokk-méretet. Ezt követően változókkal bővítünk, vagy változókat törlünk az előző kritériumnak megfelelően. Az eljárást addig folytatjuk, míg növelni tudjuk a totális blokk-méretet. Az adatállományban a második blokk modális értékeit helyettesítjük a második szimbólummal. Ha az adatállományban egy adat több blokkhoz is tartozik egyidejűleg, akkor őt a legkésőbb létrejött blokknál tüntetjük fel. A fenti utat addig járjuk, míg elértük a maximális blokkszámot. Ekkor töröljük azon blokkokat, melyek nem teljesítik az oszlopok és sorok minimális számára vonatkozó követelményt, majd újraértékeljük, hogy a maradék blokkokban sorok, vagy oszlopok törlésével, illetve hozzáadásával növelhető-e a totális blokk-méret. 4.8. PÉLDA Az alábbiakban 27 magyar várost klaszterezünk blokkokba 4 légszennyezettségi mutató alapján. E mutatók rendre: a levegő fajlagos, átlagos kéndioxid tartalma (SO2), nitrogéndioxid tartalma (NO2), korom tartalma (Korom) és portartalma (Por). Valamennyi várost valamennyi mutató tekintetében a 0,1,...,5 skálán jellemzünk, ahol 0 a legkevésbé, 5 pedig a leginkább szennyezett levegőt jelzi. A városok egyedi adatai a 4.11. táblában, az egyes kódok előfordulási gyakorisága pedig változónként a 4.12. táblában látható. 4.11. tábla Városok légszennyezettsége Város SO2 NO2 Korom Por 1 5 3 3 2 2 5 4 4 2 3 2 5 1 0 4 2 4 2 0 5 2 3 4 0 6 2 2 2 0 7 1 2 5 0 8 1 2 3 1 9 1 3 3 1 10 1 3 4 0 11 1 2 3 1 12 1 4 2 0 13 1 2 2 1 14 1 4 1 0 15 1 3 0 0 16 0 2 0 3 17 0 1 0 4 18 0 1 1 5 19 0 1 2 0 20 0 2 5 0 21 0 3 0 0 22 0 3 2 4 23 0 1 3 2 24 0 0 0 0 25 0 2 1 0
72
26 27
0 0
2 1
2 0
1 1
4.12. tábla Légszennyezettségi fokozatok gyakoriságai Szennyezés A szennyezés foka Összesen fajtája 0 1 2 3 4 5 12 9 4 0 0 2 27 SO2 1 5 9 7 4 1 27 NO2 6 4 7 5 3 2 27 Korom 14 6 3 1 2 1 27 Por 33 24 23 13 9 6 108 Összesen Mint látható, az SO2 változóban a 0, az NO2 változóban a 2, a Korom változóban a 2, és a Por változóban újra a 0 érték fordul elő a legnagyobb (rendre 12,9,7,14) gyakorisággal. Így az első, legnagyobb A blokk modális azonosítója: A={0,2,2,0}. Az A blokk modális értékeit helyettesítve az A szimbólummal, a 0,1,2,3,4,5 értékek nyesett gyakoriságai a 4.13. táblában olvashatók. Az A blokk modális értékeit most az adatállományban helyettesítve az A szimbólummal, a 4.14. táblát nyerjük. E tábla már a nyesett gyakoriságok alapján számított score-értékeket (mind az esetekre, mind a változókra vonatkozóan) tartalmazza. A helyettesítések alapján az A blokk mérete pillanatnyilag 12+14+9+7-4=38. 4.13. tábla Nyesett gyakoriságok Szennyezés fajtája A szennyezés foka 0 1 2 3 A 9 4 0 SO2 1 5 A 7 NO2 6 4 A 5 Korom A 6 3 1 Por 7 24 7 13 Nyesett gyakoriság
4 0 4 3 2 9
5 2 1 2 1 6
4.14. tábla Az A blokk után kialakult score-értékek Város SO2 NO2 Korom Por SCOREe 1 5 3 3 2 39 2 5 4 4 2 31 3 2 5 1 A 37 4 2 4 A A 16 5 2 3 4 A 29 6 2 A A A 7 7 1 A 5 A 30 8 1 A 3 1 61 9 1 3 3 1 74 10 1 3 4 A 46 11 1 A 3 1 61 12 1 4 A A 33 13 1 A A 1 48 14 1 4 1 A 57 15 1 3 0 A 44 16 A A 0 3 20 17 A 1 0 4 40 18 A 1 1 5 54 19 A 1 A A 24 20 A A 5 A 6 21 A 3 0 A 20 22 A 3 A 4 22 23 A 1 3 2 44 24 A 0 0 A 14 25 A A 1 A 24
73
26 27 SCORE
A A 256
A 1 260
A 0 242
1 1 202
24 55 960
A score értéke például a 9. város esetén: 24+13+13+24=74. Látható, hogy a legmagasabb nyesett gyakorisággal (ez 74) a 9. város bír, vagyis e város lesz a kiemelt eset, akihez a második, B blokkot igazítjuk. A változókat illetően még valamennyi változóban pozitív a nyesett gyakoriságok összege, a score, tehát első lépésben valamennyi változót kiemeltként kezeljük. Így például a 8., és a 11. város három, mégpedig az SO2, Korom és Por változók tekintetében a B blokkhoz tartozónak tűnik, míg például az 1. város a Korom mutatóban, a 13. város pedig az SO2 és a Por mutatóban illik a B blokkhoz. Természetesen más városok is illenének még a B blokkhoz (például a 12. és a 14. városok az SO2 mutatóban felvett 1 értékük tekintetében), mivel azonban a B blokk modális értéke későbbi blokk modális eleme is lehet ugyanezen változóban, ezért e modális értéket más blokkszimbólum is jelölheti. Mint azt a későbbiekben látni fogjuk, a D blokk modális értéke az SO2 változóban szintén 1, ezért a 12. és a 14. városok végül e mutatót illetően a D blokkhoz kerülnek besorolásra. Az algoritmust végigvezetve négy blokk formálódott, melyek azonosítóit és modális értékeit a 4.15. tábla közli. A sorok és oszlopok minimálisan megkövetelt száma egy blokkban egyaránt 2. A városok egyedi értékeit a megfelelő blokk szimbólummal helyettesetítve, a blokkokat a 4.16. tábla mutatja. Ebben a táblában a változók és a városok úgy lettek elrendezve, hogy adott blokkelemek minél inkább érintkezőleg helyezkedjenek el. A változóknak ehhez a sorrendjéhez igazodik a 4.15. tábla is. 4.15. tábla Blokk-azonosítók Blokk Méret A változó modális értéke NO2 Korom Por SO2 A 37 2 2 0 0 B 9 * 3 1 1 C 7 3 0 * * D 4 4 * * 1 E 2 * * 2 5 A tipikus város tehát {NO2=2, Korom=2, Por=0, SO2=0}, míg az ettől való legjellemzőbb eltérés {Korom=3, Por=1, SO2=1}, továbbá alacsonyabb gyakorisággal előforduló, de kitapintható arculatot jeleznek az {NO2=4, SO2=1}, végül a {Por=2, SO2=5} blokkok. 4.16. tábla Blokk klaszterek Város NO2 Korom Por 9 3 B B 1 3 B E 8 A B B 11 A B B 13 A 2 B 5 C 4 A 10 C 4 A 15 C C A 17 1 C 4 21 C C A 24 0 C A 27 1 C 1 3 5 1 A 6 A A A 7 A 5 A 16 A 0 3 18 1 1 5 19 1 A A 20 A 5 A 22 3 A 4 23 1 3 2
74
SO2 B E B B B 2 1 1 A A A A 2 2 1 A A A A A A
25 26 4 12 14 2
A A D D D D
1 A A A 1 4
A 1 A A A E
A A 2 D D E
Az egyedi, vagyis egyelemű blokkok száma 36. A blokkhoz való tartozás szerint rendezett eredeti adatokat végül a 4.17. tábla tartalmazza. 4.17. tábla Blokkok szerint rendezett adatok Város NO2 Korom Por SO2 9 3 3 1 1 1 3 3 2 5 8 2 3 1 1 11 2 3 1 1 13 2 2 1 1 5 3 4 0 2 10 3 4 0 1 15 3 0 0 1 17 1 0 4 0 21 3 0 0 0 24 0 0 0 0 27 1 0 1 0 3 5 1 0 2 6 2 2 0 2 7 2 5 0 1 16 2 0 3 0 18 1 1 5 0 19 1 2 0 0 20 2 5 0 0 22 3 2 4 0 23 1 3 2 0 25 2 1 0 0 26 2 2 1 0 4 4 2 0 2 12 4 2 0 1 14 4 1 0 1 2 4 4 2 5
4.3.4 GYAKORLÓ FELADATOK 4.1. Tekintsük újra a 3.8 példa 22 biztosítója díjbevételeinek és kárkifizetéseinek (mrd Ft) az alakulását vizsgáljuk. A megfigyelt változókat felidézve: életbiztosításból befolyt díj (eletdij), kötelező nem életbiztosítási díj (neletkot), nem kötelező nem életbiztosítási díj (nelnkot), és a kárkifizetések értéke (karkif). A hierarchikus, agglomeratív klaszterezéshez két változót használunk fel, nevezetesen: összes díjbevétel (osszdij = eletdij + neletkot + nelnkot) és a kárkifizetések értéke (karkif). A távolság mérése az euklideszi metrikával történt. A centroid, és a legközelebbi szomszéd módszerével nyert eredmények az alábbiak (A centroid módszer riportjának az értelmezése: "A": a lépés sorszáma, "B": az egyesítési távolság, "C,D": az aktuálisan összevont C és D klaszterek eredményeként kialakult klasztert a klaszterfán határoló C-beni, és D-beni egyedek sorszámai, "E": az aktuális klaszter elemszáma): Centroid módszer: Riport A 1 2 3 4 5 6 7
B 0.007 0.007 0.012 0.014 0.015 0.020 0.022
C 17 22 21 19 18 14 20
D 16 21 20 16 16 13 16
Klaszterfa 1 1 6 1 osszdij * * * -0.463 I I I -0.471 I I I -0.470 I I I -0.460 I I I -0.464 I I I -0.444 I I I -0.466 I I I
Centroid E karkif 2 -0.591 2 -0.622 3 -0.618 3 -0.595 4 -0.597 2 -0.546 7 -0.606
1 2 * I I I I I I I
1 1 1 1 2 2 2 6 7 9 8 1 2 0 * * * * * * * -+- I I I I I I I I -+- I I I I -+--+-- I I -+--I I I ---+----
1 5 * I I I I I I I
1 1 4 3 * * I I I I I I I I I I -+I
9 * I I I I I I I
1 0 * I I I I I I I
Legközelebbi szomszéd: Klaszterfa 1 1 1 7 4 5 3 2 B 1 4 5 7 8 0 3 4 * * * * * * * * * * * * * I I I I I 0.007 I I I I I I I I I I I I I 0.007 I I I I I I I I I I I I I 0.009 I I I I I I I I I I I I I 0.011 I I I I I I I I I I I I I 0.012 I I I I I I I I I I I I I 0.012 I I I I I I I I I I I I I 0.020 I I I I I I -+-
8 * I I I I I I I
1 5 * I I I I I I I
1 2 2 2 1 1 1 8 1 2 0 9 7 6 * * * * * * * I I I I I -+I -+- I I I I -+-- I I I I --+---+I ---+---I
1 2 * I I I I I I I
1 1 * I I I I I I I
9 * I I I I I I I
6 * I I I I I I I
3 * I I I I I I I
2 * I I I I I I I
75
8 9 10 11 12 13 14 15 16 17 18 19 20 21
0.031 0.039 0.039 0.058 0.062 0.118 0.196 0.229 0.293 0.707 0.787 1.250 2.163 5.040
15 12 8 16 10 13 9 11 3 7 5 4 6 2
13 11 7 13 7 11 7 7 2 6 4 2 2 1
3 2 2 10 3 12 4 16 2 17 2 4 21 22
-0.550 -0.478 -0.356 -0.589 -0.342 -0.571 -0.356 -0.517 1.575 -0.486 1.043 1.309 -0.144 0.000
-0.453 -0.421 -0.437 -0.462 -0.423 -0.455 -0.376 -0.436 1.363 -0.407 0.233 0.798 -0.178 0.000
I I I I I --+- I I I I I I I I I I -+I I I I I I I I I I I I I I I I I -+- I I I I I I I ---+------I I I I I I I I I I I I --+- I I I I I I ----------+-I I I I I I I I I ---+I I I I I I ----+-----------I I I I I I I I I -+I ----------------+I I I I I -+- I I I --+-I ----+-------------------------------------+-
0.030 0.032 0.039 0.039 0.060 0.062 0.092 0.181 0.293 0.491 0.787 0.877 1.091 2.703
I I I I I I -+-I I I I I I I I I I I I I -------+--I I I I I I I I I I I I I -+- I I I I I I I -+- I I I I I I I I I I -+-I I I I I I I I I I --+---------- I I I I I I I ------------+--I I I I I I I -+--------------- I I I I I I I I -+I I I -+---------------- I I -+I I I -----------------+-I I --+---------------------------------------+-
Feladat: Igazak (I) vagy hamisak (H) az alábbi állítások? Öt klasztert képezve mindkét klaszteregyesítési eljárás azonos klaszterekre vezet. Három klasztert képezve mindkét klaszteregyesítési eljárás azonos klaszterekre vezet. Az "1" nevű biztosítót átlag feletti díjbevétel, és átlag alatti kárkifizetés jellemzi. 4.2. Nyolc különböző fajta harcikutya marmagassága (marmag: cm) és testsúlya (tests: kg) tekintetében a kutyák közötti euklideszi távolságmátrix az alábbi: ------------------------------------------------Távolságmátrix: 1 2 3 4 5 6 7 8 1 0.00 0.58 0.74 1.81 1.94 3.12 3.12 3.62 2 0.58 0.00 0.18 1.39 1.55 2.66 2.66 3.23 3 0.74 0.18 0.00 1.39 1.57 2.63 2.63 3.23 4 1.81 1.39 1.39 0.00 0.21 1.31 1.31 1.85 5 1.94 1.55 1.57 0.21 0.00 1.21 1.21 1.69 6 3.12 2.66 2.63 1.31 1.21 0.00 0.00 0.77 7 3.12 2.66 2.63 1.31 1.21 0.00 0.00 0.77 8 3.62 3.23 3.23 1.85 1.69 0.77 0.77 0.00 -------------------------------------------------
Az euklideszi távolság alapján, a centroid módszerrel nyert eredmények az alábbiak: ----------------------------------Standardizált input adatok ----------------------------------marma tests 1 angol bulldog -1.484 -1.052 2 pit bullterrier -0.901 -1.052 3 kinai harcikutya -0.756 -1.154 4 mallorcai véreb -0.027 0.025 5 japán tosza -0.027 0.230 6 broholmer 1.065 0.744 7 fila bresiliero 1.065 0.744 8 masztiff 1.065 1.513 ----------------------------------variancia= 7/8 7/8
-------------------------------Riport a klaszteregyesítésekről -------------------------------Távol Kutya N Centroid ság marmag tests ………….? 7 6 2 ……………? ……………? 0.178 3 2 2 -0.829 -1.103 0.205 5 4 2 -0.027 0.128 0.658 2 1 3 -1.048 -1.086 ……………? 8 6 3 1.066 1.001 1.399 6 4 5 0.629 0.652 2.415 4 1 8 0.000 0.000 --------------------------------
Klaszterfa: 1 3 2 6 7 8 5 4 * * * * * * * * I I I -+- I I I I -+- I I I I I I I I -+--+I I I I -+-- I I --+-------+---
Feladat: 1. Szerkessze meg a fenti klaszterfákat a (kaszteregyesítési távolságokat is feltüntetve) a legközelebbi szomszéd módszerével, majd a legtávolabbi szomszéd módszerével. 2. A centroid módszer eredményei alapján határozza meg az alábbi jellemzőket: a) az első klaszteregyesítési távolságot, és a létrejött klaszter centroidját. b) a három klaszterre bontást eredményező egyesítési távolságot. c) a legnagyobb, és a legkisebb testű két kutya közötti euklideszi távolságot. 4.3. A 3.7 gyakorló feladat adataiból most csak a felvonók számát (Felv, db), és a pályák összes hosszát (Ph:km) tekintve, a változók átlagos értékei és szórásai rendre: Felv(71.769; 53.65) , Ph(204.23; 149.54), és néhány, láncmódszerrel nyert eredmény az alábbi: Klaszterfák euklideszi távolsággal a legközelebbi szomszéd, majd a centroid módszerrel, továbbá riport a centroid módszerrel nyert klaszterfáról: “C,D”: az aktuálisan kialakult klasztert a klaszterfán balról és jobbról határoló két megfigyelési egység sorszáma; “E”: az aktuálisan kialakult klaszter elemszáma ; “CENTROID”: az aktuálisan kialakult klaszter kétdimenziós centroidja.
0.038 0.065 0.077
76
1 * I I I
6 * I I I
5 * I I I
9 * I I I
1 1 * I I I
1 2 * I I I
1 0 * I I I
4 * I I I
8 * I I I
1 3 3 7 2 * * * * I -+- I I -+----+-
0.038 0.067 0.098
1 * I I I
5 * I I I
1 2 * I I I
1 0 * I I I
1 1 * I I I
9 * I I I
6 * I I I
4 * I I I
8 * I I I
1 3 3 7 2 * * * * I -+- I I -+----+-
C
D
7 3 13
3 2 2
E
CENTROID felv ph 2 -0.396 -0.547 3 -0.418 -0.552 4 -0.438 -0.538
0.217 0.269 0.287 0.343 0.406 0.421 0.489 0.576 3.618
I I I I I I I I ----+I I I I I I I -----+I I I -+- I I I I I I -+-- I I I I I -+--I I I I ------+---I I ----------+I -----------+------------+-
0.257 0.287 0.326 0.389 0.526 0.699 0.807 1.132 4.514
I I I I I I I I ----+I I I I -+- I I I I I I I I I -----+I I I --+- I I I I ---+I I I ----+I I I I ------+I -------+----------------+-
8 11 4 10 12 9 6 5
2 9 2 9 9 5 2 2
5 2 6 3 4 5 7 12
-0.443 0.181 -0.496 0.085 0.102 0.235 -0.584 -0.243
-0.487 0.206 -0.500 0.119 0.249 0.207 -0.574 -0.248
Az induló (euklideszi, standardizált) távolságmátrix 1 2 3 4 5 6 7 8 9 10 11 12 13
1 0.00 4.89 4.84 5.10 3.64 5.67 4.83 4.69 3.90 4.28 3.90 3.62 4.87
2 4.89 0.00 0.07 0.30 1.37 0.80 0.07 0.28 1.00 0.62 1.02 1.35 0.08
3 4.84 0.07 0.00 0.37 1.30 0.86 0.04 0.29 0.95 0.58 0.99 1.32 0.13
4 5.10 0.30 0.37 0.00 1.64 0.58 0.36 0.41 1.24 0.83 1.21 1.51 0.27
5 3.64 1.37 1.30 1.64 0.00 2.16 1.30 1.27 0.49 0.88 0.74 0.86 1.38
6 5.67 0.80 0.86 0.58 2.16 0.00 0.86 0.98 1.79 1.39 1.78 2.09 0.81
7 4.83 0.07 0.04 0.36 1.30 0.86 0.00 0.25 0.94 0.56 0.97 1.30 0.10
8 4.69 0.28 0.29 0.41 1.27 0.98 0.25 0.00 0.84 0.42 0.80 1.11 0.22
9 3.90 1.00 0.95 1.24 0.49 1.79 0.94 0.84 0.00 0.42 0.29 0.55 0.99
10 4.28 0.62 0.58 0.83 0.88 1.39 0.56 0.42 0.42 0.00 0.41 0.74 0.59
11 3.90 1.02 0.99 1.21 0.74 1.78 0.97 0.80 0.29 0.41 0.00 0.34 0.99
12 3.62 1.35 1.32 1.51 0.86 2.09 1.30 1.11 0.55 0.74 0.34 0.00 1.31
13 4.87 0.08 0.13 0.27 1.38 0.81 0.10 0.22 0.99 0.59 0.99 1.31 0.00
Feladat: A három klaszterre bontást jellemzően igazak (I) vagy hamisak (H) az alábbi állítások: 1. A legközelebbi szomszéd klaszterfáján kialakult 3 klaszter megegyezik a centroid módszer klaszterfáján kialakult 3 klaszterrel. 2. A legközelebbi szomszéd módszere szerinti két legkisebb elemszámú klaszter közelebb van egymáshoz, mint a centroid módszer szerinti két legnagyobb elemszámú.
77
5 KATEGÓRIÁK KORRESPONDENCIA ANALÍZISE 5 Kategóriák korrespondencia analízise A korrespondencia analízis egy olyan exploratív többváltozós technika, mely az asszociációs kapcsolat vizuális elemzése érdekében egy gyakorisági tábla adatait grafikus ábrává konvertálja. Mivel a kapcsolatrendszer struktúrája szempontjából az egyes kategóriák előfordulásának a relatív gyakorisága érdekes, ezért a korrespondencia analízis induló adatállományát a kontingencia tábla normált változata (valamennyi gyakoriságát osztva az összes megfigyelés n számával), az ún. korrespondencia mátrix alkotja: 55.1. táblázat. Korrespondencia tábla Kategória
Oszlop j. p1j
…
Sorösszesen
Sor 1.
1. p11
…
J. p1J
s1
Sor i.
pi1
pij=fij/n
piJ
si
Sor I. Oszlopösszesen
pI1 o1
pIj oj
pIJ oJ
sI 1
ahol pij=fij/n és fij az i sorkategória, és a j oszlopkategória együttes bekövetkezésének az abszolút, míg pij a relatív gyakoriságát méri. A sorok si és az oszlopok oj összesen adatai relatív perem gyakoriságként értelmezendők. Az eredményül kapott grafikus ábrán a kontingencia tábla sorai mint többdimenziós pontok az oszlopok (mint tengelyek) tekintetében, és oszlopai mint többdimenziós pontok a sorok (mint tengelyek) tekintetében kerülnek ábrázolásra. A tábla sorainak, illetve oszlopainak belső szerkezeteit vizsgálva hozzuk egymással kapcsolatba azon (i,j) kategória párosításokat, melyek a sorok és az oszlopok szóródásához, illetve a közöttük lévő asszociációhoz a leginkább hozzájárulnak. Az egymást vonzó, illetve taszító (i,j) kategória párosítást a - peremszerkezet alapján vártnál kiugróan magasabb, vagy éppen kiugróan alacsonyabb pij gyakoriság jelzi.25 Matematikailag a korrespondencia analízis az asszociáció Pearson-féle χ2 mértékét bontja komponensekre hasonló módon, mint azt a főkomponens analízis a totális varianciával teszi. Az eljárás a sorokat (oszlopokat) a megoszlásaikból képzett, redukált dimenziójú, mesterséges térben jellemzi. Itt a tengelyeket úgy definiáljuk, hogy rendre csökkenő százalékos mértékben (sorrendben) járuljanak hozzá a χ2 statisztikához. Mikor az első, vagy az első kettő mesterséges tengely a teljes asszociáció igen nagy (80-90% körüli vagy több) hányadát magyarázza, a gyakorisági tábla síkbeli ábrává konvertálható. Az oszlop- és sorprofilok grafikus megjelenítése természetesen nem csak két, hanem kettőnél több szempont (változó) szerint kategórizáló táblák esetén is lehetséges. Az i sorkategóriák és a j oszlopkategóriák közötti kapcsolat vizsgálatát egyszerű korrespondencia analízisnek nevezzük. Ebből a szempontból érdektelen, hogy a sor-, illetve oszlopkategóriákat esetleg több változó kategóriáinak kombinációjaként definiáljuk-e. Többszörös korrespondencia analízist végzünk viszont akkor, ha a vizsgált változók számát kettőnél többre bővítjük, és az asszociáció vizsgálatát az előforduló kategóriák valamennyi párosítására kiterjesztjük.
5.1 EGYSZERŰ KORRESPONDENCIA ANALÍZIS Az egyszerű korrespondencia analízis a gyakorisági tábla sorait egy ''pontfelhő'' pontjaiként értelmezi az oszlopok tengelyeinek a tekintetében, oszlopait pedig egy másik ''pontfelhő'' pontjaiként a sorok tengelyeinek a tekintetében. Az eljárás eredményeként e pontfelhőket grafikusan ábrázoljuk egy redukált, alacsony dimenziójú térben. A pontfelhők grafikus ábrán való elhelyezkedéséből következtetni tudunk arra, hogy a vizsgált változók mely kategóriái vonzzák és melyek taszítják egymást. Az 5.2. táblázat egy tervező iroda által készített, és elfogadott építési terveket kategórizálja két változó - az építkezés és a felhasznált terv jellege - szerint. A táblázat összesen sorában illetve oszlopában a feltétel nélküli perem megoszlások találhatók. 5.2. táblázat. Építési tervek korrespondencia táblája (%) 25
Az .1. táblázat "Összesen" sorában és oszlopában foglalt perem relatív gyakoriságok szerkezete alapján várható gyakoriság: p*ij = si·oj .
78
Az építkezés jellege Telepi többszintes Egyedi többszintes Csoportos korszerű Családi házas Egyéb építkezés Összesen
Típus terv 8.2 0.1 0.2 0.0 0.0 8.5
Ajánlott
Egyedi
Ismételt
Összesen
0.4 0.1 0.3 27.7 0.1 28.5
14.4 4.6 2.9 33.3 4.6 59.8
2.4 0.2 0.4 0.2 0.0 3.2
25.4 5.0 3.6 61.2 4.8 100.0
5.3. táblázat. Építési tervek megoszlása a terv jellege szerint (%) Az építkezés jellege Típus Ajánlott Egyedi Ismételt Összesen terv Telepi többszintes 32.1 1.4 56.9 9.5 100 Egyedi többszintes 1.9 1.5 92.7 4.0 100 Csoportos korszerű 4.5 7.8 78.1 9.6 100 Családi házas 0.0 45.2 54.4 0.4 100 Egyéb építkezés 0.4 2.9 96.6 0.1 100 Összesen 8.5 28.5 59.8 3.2 100 5.4. táblázat. Építési tervek megoszlása az építkezés jellege szerint (%) Az építkezés jellege Típus Ajánlott Egyedi Ismételt Összesen terv Telepi többszintes 96.7 1.2 24.1 75.5 25.4 Egyedi többszintes 1.1 0.3 7.7 6.2 5.0 Csoportos korszerű 2.0 1.0 4.8 11.0 3.6 Családi házas 0.1 97.0 55.6 7.2 61.2 Egyéb építkezés 0.2 0.5 7.7 0.2 4.8 Összesen 100.0 100.0 100.0 100.0 100.0 Az egyszerű korrespondencia analízist az építési tervek példája kapcsán mutatjuk be, az építkezés jellege és a műszaki terv fajtája közötti asszociációs kapcsolatot vizsgálva. Ehhez kapcsolódóan az 5.3. táblázat a műszaki terv szerinti megoszlásokat közli adott építkezési jelleget feltételezve, továbbá feltétel nélkül az összesen sorban. Az 5.4. táblázat pedig az építkezés jellege szerinti megoszlásokat tartalmazza adott terv-típust feltételezve, illetve feltétel nélkül az összesen oszlopban. Az építkezés jellegének ismeretéből akkor tudunk a műszaki terv fajtájára következtetni, ha a feltételes soron belüli megoszlások (a sorok profiljai, szerkezetei) jelentősen eltérnek az összesen sorban lévő feltétel nélküli megoszlástól (a peremmegoszlás szerkezetétől), ahogy az esetünkben történik is. Ekkor ugyanis létezik az asszociáció a sorok és az oszlopok között. Látható, hogy a telepi többszintes lakások a típus tervet, az egyedi többszintes lakások az egyedi tervet vonzzák, míg a családi házak leginkább ajánlott és egyedi terv alapján készülnek. Tekintsük az 5.3. táblázat sorait mint a négydimenziós tér, az 5.4. táblázat oszlopait pedig mint az ötdimenziós tér pontjait. Ekkor az "Összesen sor" a feltételes sormegoszlások pontfelhőjének a súlyozott centroidja, az "Összesen oszlop" pedig a feltételes oszlopmegoszlások pontfelhőjének a súlyozott centroidja. Ebben a vonatkozásban az asszociációt többdimenziós pontoknak a pontfelhő centroidja körüli szóródásaként értelmezzük. Nagyméretű tábla (sok pontnak sok dimenzióban való kezelése) esetén a pontok centoridtól való távolságainak az áttekintése nehézkes, ezért érdemes a dimenziók számát kevésre, mondjuk kettőre redukálni, és a sorokat illetve az oszlopokat a síkban ábrázolni. A dimenzióredukálás akkor eredményes, ha az asszociáció mértékére, vagyis a pontfelhő szóródására vonatkozó információ túlnyomó hányada megmarad.
5.1.1 GYAKORISÁGI TÁBLA A TÖBBVÁLTOZÓS TÉRBEN A korrespondencia tábla kategóriái közötti asszociáció mértékét jellemző, egységnyi megfigyelésre jutó Pearson-féle χ2 érték definíció szerint:26
26
E fejezetben a továbbiakban χ2 alatt mindig az egységnyi megfigyelésre normált χ2 értéket fogjuk érteni.
79
I
J
2
( pij si o j ) 2 si o j
i 1 j 1
I
J
gij2
(5.1)
i 1 j 1
ahol sioj az (i,j) cellának a peremmegoszlások alapján az asszociáció teljes hiánya esetén várt relatív gyakorisága. Ebből következően, a pij si o j (5.2) gij si o j standardizált korrespondencia gyakoriság zéró értéke az asszociáció hiányát, pozitív értéke pozitív, negatív értéke pedig negatív asszociációt jelez az i sor és a j oszlop között. Pozitív asszociáció esetén az i és j kategóriák gyakran következnek be együtt, vagyis vonzzák egymást, negatív asszociáció esetén pedig ritkán járnak együtt, tehát taszítják egymást. A fentiek alapján g2ij az (i,j) cellának, Σjg2ij az i sornak, Σig2ij pedig a j oszlopnak a hozzájárulását fejezi ki a χ2 mértékhez. Az asszociáció tendenciáinak feltárása érdekében tekintsük a sorok és az oszlopok saját belső megoszlásait – a továbbiakban profiljait -, melyeket általános jelölésekkel az 5.5. és 5.6. táblázatokba foglaltunk, ahol sij az i soron belül a j oszlop részesedését jelenti a sor si összesenéből, míg oij a j oszlopon belül az i sor részesedése az oszlop oj összesenéből: 5.5. táblázat. Sorprofilok az oszloptengelyek vetületében Sorprofil
Tengely j. s1j
…
Összesen
1.
1. s11
…
J. s1J
1
i.
si1
sij=pij/si
siJ
1
I. Centroid
sI1 o1
sIj oj
sIJ oJ
1 1
1.
1 o11
Oszlopprofil j o1j
J o1J
s1
i.
oi1
oij=pij/oj
oiJ
si
I. Összesen
oI1 1
oIj 1
oIJ 1
sI 1
5.6. táblázat. Oszlopprofilok a sortengelyek vetületében Tengely
Centroid
A korrespondencia mátrix, valamint a sor- és oszlopprofil elemek közötti pij si sij o j oij
(5.3)
összefüggés nyilvánvaló, mint ahogyan az 5.6. és az 5.7. táblázatokban az si és oj peremek centroid (átlagos) jellege is az, hiszen súlyozott átlag formában fölírhatók az alábbiak szerint: I
o j si sij i 1 J
si o j oij j 1
Az (5.3) azonosság felhasználásával a χ2 mérőszám a következő formában is megfogalmazható: I J J I 1 1 INR si ( sij o j )2 o j (oij si ) 2 . o s i 1 j 1 j j 1 i 1 i
(5.4)
Ebben a formában a χ2 mutatót inercia mértéknek nevezzük, mely láthatóan egy súlyozott, többdimenziós szóródási mérőszám, mely egyidejűleg mind a sorok, mind az oszlopok szerkezeteinek a szóródását jellemzi saját centroidjaik, azaz peremprofiljaik körül. A variancia fogalmának kiterjesztéseként egy pontfelhő inerciája a pontok centroidjuktól mért távolságainak a súlyozott átlaga, ahol a tengelyeket is súlyozottan vesszük figyelembe. A négyzetes euklideszi távolságban a tengelyeket saját relatív gyakoriságaik reciprokával, a pontokat pedig saját relatív gyakoriságaikkal súlyozzuk.
80
Ebben a vonatkozásban az inercia a pontfelhő súlyozott varianciájaként értelmezendő. A sorok és az oszlopok tehát azonos mértékben szóródnak. Az inercia értéke az épített lakások gyakorisági táblája esetében INR = 0.461.
5.1.2 KORRESPONDENCIA TENGELYEK ÉS KOOrDINÁTÁK A korrespondencia analízis során a sorokat és az oszlopokat mint egy- vagy kétdimenziós pontfelhőket jelenítjük meg, ezért elengedhetetlen a dimenziók (tengelyek) számának a redukálása. Mivel a pontfelhők szóródásának mértéke szempontjából érdektelen a pontfelhő centroidjának a helye, ezért a pontok koordinátáit az origóhoz centráljuk az sij o j és az oij si differenciák képzésével. A sorok ábrázolásakor az oszlopok helyett definiálunk k=1,2,...,K számú mesterséges főtengelyt, és meghatározzuk a az új tengelyekre vonatkozó centrált xik főkoordinátát. Az oszlopok ábrázolásakor a sorok helyett definiálunk K számú főtengelyt és számítjuk a centrált yjk főkoordinátát. A centrált főkoordinátákat a sorok esetében az X(I,K), az oszlopok esetében pedig az Y(J,K) mátrixba foglaljuk. (Lásd az 5.7. és az 5.8. táblázatokat. Vegyük észre, hogy az 5.8. táblában az oszlopprofilok transzponálva szerepelnek.) 5.7. táblázat. A centrált sorprofilokat helyettesítő korrespondencia koordináták Sorprofil 1.
s11-o1
i.
si1-o1
I. Centroid
sI1-o1 0
Centrált profil s1j-oj …
...
Sor CA koordináta: X ... x1k ...
s1J-oJ
x11
x1K
sij-oj
siJ-oJ
xi1
xik
xiK
sIj-oj 0
sIJ-oJ 0
xI1 0
xIk 0
xIK 0
5.8. táblázat. A centrált oszlopprofilokat helyettesítő korrespondencia koordináták Oszlopprofil 1.
o11-s1
j.
oj1-s1
J. Centroid
oJ1-s1 0
Centrált profil o1i-si …
...
Oszlop CA koordináta: Y ... y1k ...
o1I-sI
y11
y1K
oji-si
ojI-sI
yj1
yjk
yjK
oJi-si 0
oJI-sI 0
yJ1 0
yJk 0
yJK 0
Láthatóan mind a sorokat, mind az oszlopokat a K dimenziós térben is ábrázolhatjuk információvesztés nélkül. Mivel egy sorprofil vagy egy oszlopprofil összege 1, ezért a mesterséges koordináta tengelyek lehetséges maximális száma: K=min{I-1,J-1}. A centrált főkoordinátákat úgy számítjuk, hogy egy pontnak a saját centroidjától vett távolsága ne változzon meg: K
J
INR( si ) si x si k 1
2 ik
s
ij
oj oj
j 1
2 K
,
I
INR (o j ) o j y o j k 1
2 jk
i 1
o
ij
si
2
si
(5.5)
ahol K
s x k 1
i ik
0,
K
o y k 1
j
jk
0.
A főkoordináták centroidját a K dimenziós térben az origó reprezentálja. A sorok és oszlopok szóródásának mértéke változatlanul a teljes inercia, mely összevetve az (5.4) és (5.5) azonosságokat, az alábbi módokon dezaggregálható: I
J
i 1
j 1
INR INR ( si ) INR (o j ) .
A sorok és oszlopok szóródása nemcsak globálisan, hanem tengelyek mentén parciálisan is értelmezhető. Mivel az inercia egyetlen tengely esetén adott pont varianciájává redukálódik, ezért a soroknak és az oszlopoknak a k tengely mentén mért varianciája rendre: I
J
i 1
j 1
Var ( x | k ) si xik2 Var ( y | k ) o j y 2jk Var (k ) k2
ahol Var(k) a k. főinercia. Ebből következően μk a k. főtengely szórását méri. Látható, hogy a totális inercia a főinerciák összege:
81
K
INR 2k . k 1
A főkoordináták értékének a meghatározásához tartalmazzák az S(I,J) mátrix sorai a sorprofilokat, az O(I,J) mátrix oszlopai az oszlopprofilokat, a Ds=<s1,...,sI> diagonális mátrix átlója és az s vektor a korrespondencia mátrix sorösszeseneit, a Do=
diagonális mátrix átlója és az o vektor az oszlopösszeseneit, Dμ=<μ1,...,μK> pedig a főtengelyek szórásait. Foglaljuk továbbá a standardizált gij korrespondencia gyakoriságokat a G(I,J) mátrixba melyet a centrált sorok és oszlopok felhasználásával fejezünk ki, végül tekintsük a G mátrix G=UDμVT „SVD” felbontását:
G Ds 2 S 1oT Do
1
1
2
1
Ds
2
O s1 D T
1
2
o
UD VT
(5.6)
ahol μ1,μ2,...,μK rendre a G mátrix szinguláris értékei, az U(I,K) mátrix oszlopai a baloldali szinguláris vektorai, a V(K,K) mátrix oszlopai pedig a jobboldali szinguláris vektorai, eleget téve az UTU=VTV=IK követelményeknek. Ekkor a teljes inercia:
INR = tr(GGT ) = tr(GT G) = k 1 2k . K
Az (5.6) felbontás alapján az X koordinátákat a centrált sorprofilok Sc mátixa, az Y koordinátákat pedig a centrált, transzponált oszlopprofilok OcT mátrixa súlyozott SVD felbontásán keresztül definiáljuk, az alábbiak szerint:
D V X D V D VD D U Y D U . 1
Sc Ds 2 UD OcT
1 2 o
1
T
1
2
o
1
T
2
(5.7)
o
T
1
2
s
T
2
(5.8)
s
Az (5.7) és (5.8) azonosságokból a megfelelő koordináták: 1
1
X Ds 2 UD Sc Do 2 V 1
(5.9))
1
(5.10) Y Do 2 VD OcT Ds 2 U . A sorok és oszlopok pontfelhőit közös koordináta rendszerben ábrázolva, felhőközi viszonylatban a pontok helyzetének az értelmezését az a tény szolgálja, hogy az egyik pontfelhő koordinátáinak alkalmas átskálázásával a másik pontfelhő pontjainak a koordinátáihoz jutunk el. Ugyanis az (5.9) és az (5.10) azonosságokból előbb (5.11) X Sc YD1 S 1oT YD1 SYD1 majd ennek analógiájára
Y OcT XD1 OT 1sT XD1 OT XD1
(5.12)
adódik, és mivel a főkoordináták az origóhoz centráltak, ezért o Y=0 és s X=0 . A fenti átviteli képleteket használva az i. sornak a k. főtengelyre vonatkozó xik koordinátája, valamint a j. oszlopnak ugyancsak a k. tengelyre vonatkozó yjk koordinátája részletesen, rendre: J s y I o x ij jk ij ik . (5.13) xik , y jk j 1 k i 1 k Mivel a főtengely szórása μk, ezért az yjk/μk és az xik/μk koordináták varianciája a k. tengely mentén egyaránt 1, tehát standardizáltak. Korrespondencia CA koordináta a későbbiekben utalhat főkoordinátára, vagy annak standardizált változatára is. Láthatóan a sorkoordináta a standardizált oszlopkoordináták súlyozott átlaga, míg az oszlopkoordináta a standardizált sorkoordináták súlyozott átlaga, súlyként a megfelelő sor-, illetve a megfelelő oszlopprofilt alkalmazva. Az oszlopok és a sorok koordinátáinak egymásba való átvitele lényegében a koordináták duális skálázását jelenti. A duális skálázás miatt egy oszlopprofil a pontok terében ahhoz a sorhoz húzódik közelebb, amelyiknek a súlya domináns az illető oszlopprofilban. Ha például adott az építkezés jellegének a pontfelhője, akkor valamely tervkategória a korrespondencia tengelyek mentén azon építkezési forma irányába húzódik, amelyik előfordulási aránya meghatározó a tervkategórián belül. Közös koordináta rendszerben ábrázolva a sorok és az oszlopok pontfelhőjét tehát, azon sorok és oszlopok kerülnek várhatóan közel egymáshoz, amelyek között szoros az asszociáció mértéke. Ez a megállapítás lényegi, mert pontok közötti távolságot csak pontfelhőn belül értelmezünk, pontfelhők között azonban nem. A pontoknak pontfelhők közötti korrespondenciáját a duális skálázás elve alapján ítéljük meg. Kihasználva végül, hogy mind a sorok, mind az oszlopok esetében a korrespondencia koordináták centroidja az origó, a sorok főinerciáit az XTDsX diagonális "kovariancia" mátrix, az oszlopok fő inerciáit pedig az YTDoY diagonális "kovariancia" mátrix tartalmazza. A koordináták (5.9) és (5.10) definíciója alapján: T
82
T
T
T
Cov xx XT Ds X = Cov yy YT Do Y = D2 12 , 22 ,..., 2K . Az épített lakások gyakorisági táblája esetében a főtengelyek szórásai rendre μ 1=0.626, μ2=0.253, μ3=0.071, a korrespondencia koordináták (valamint a P mátrix "PEREM" peremprofiljai) az 5.9. táblában találhatók. 5.9. táblázat. A lakás- és tervtípusok korrespondencia koordinátái Kategória (pont) PEREM Főkoordináták 1. tengely 2. tengely 3. tengely Telepi többszint 0.254 1.016 -0.132 0.012 Egyedi többszint 0.050 0.159 0.681 -0.015 Társas 0.036 0.261 0.435 -0.308 Családi 0.612 -0.453 -0.084 0.001 Egyéb 0.048 0.032 0.730 0.168 Centroid
-
0
0
0
Típus Ajánlott Egyedi Ismételt
0.085 0.285 0.598 0.032
1.581 -0.676 0.033 1.236
-0.433 -0.290 0.202 -0.057
0.087 -0.012 0.013 -0.358
A telepi többszintes lakások első főtengelyen számított koordinátája pl. az 5.3. és az 5.9. táblázat adataival: 1.016 = (0.321•1.581 + 0.014•-0.676 + 0.569•0.033 + 0.095•1.236 ) / 0.626. Az 5.9. táblát tekintve könnyen ellenőrizhető, hogy mind a sor-, mind az oszlopprofilokat helyettesítő koordináták súlyozott centroidja zérusvektor. Például a mesterséges sorprofilok centroidjának az 1. főtengelyen számított értéke: 0.254•1.016 + 0.05•0.159 + 0.036•0.261 + 0.612•-0.453 + 0.048•0.032 = 0 a mesterséges oszlopprofilok centroidjának az 1. főtengelyen számított értéke pedig 0.085•1.581 + 0.285•-0.676 + 0.598•0.033 + 0.032•1.236 = 0. Az épített lakásokra vonatkozó példánkban a három főinercia rendre: 0.392; 0.064; 0.005. Például az első főtengely főinerciája: 0.392 = 0.254•1.0162 +...+ 0.048•0.0322 = 0.085•1.5812 +...+ 0.032•1.2362 Az épített lakások gyakorisági táblájának első két főtengelye a teljes inercia 98.9%-át magyarázza, mivel (0.392 + 0.064) / 0.461 = 0.989. E két főtengely tehát a sorok és oszlopok pontfelhőjének a szóródására vonatkozó információt szinte teljes mértékben megőrzi. A sorok és oszlopok helyzetét az első két főtengely vetületében az 5.1. ábra mutatja. 5.1. ábra Az épitett lakások korrespondencia ábrája az első két főtengely tekintetében .7
.6
.5
.4
.3
A X I
.2
......+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.... |egyeb | + + + | egytobsz | | | | + + + | | | | | + + + | | | | tarsas | + + + | | | | | + + + | | | | | + +egyedi + | | -
83
S 2 .1
0.
-.1
-.2
-.3
-.4
| | | + + + | | | | | +-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+---+ | | | ismegyed | csaladi | + + + | | teleptsz | | | + + + | | | | ajanlott | + + + | | | | | + + + | | tipus ......+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.... -.40 0.0 .40 .80 1.2 1.6
AXIS 1
5.1.3 ÁBRÁZOLÁS A REDUKÁLT TÉRBEN Vannak inkább, és vannak kevésbé szóródó korrespondencia tengelyek, ugyanakkor mind a sorok, mind az oszlopok között vannak a centroidhoz közelebb, vagy attól távolabb eső kategóriák. A korrespondencia tengelyek értelmezését, és a redukált térbeni ábrázolás illeszkedésének a jellemzését a teljes inercia sorok, oszlopok és főtengelyek közötti megoszlása szolgálja, melyet az 5.10. táblázat sémája szemléltet. 5.10. táblázat. Az inercia struktúrája Pont 1. ... k. ... főtengely 1. sor s1x211 s1x21k
K.
Összesen
s1x21K
INR(s1)
i. sor
six2i1
six2ik
six2iK
INR(si)
I. sor
sIx2I1
s1x2Ik
sIx2IK
INR(sI)
Összesen
Var(1)
Var(k)
Var(K)
INR
1. oszlop
o1y211
o1y21k
o1y21K
INR(o1)
j. oszlop
ojy2j1
ojy2jk
ojy2jK
INR(oj)
J. oszlop
oJy
2
J1
oJy
2
Jk
oJy
2
JK
INR(oJ)
Általában az első m számú leginkább szóródó tengely a teljes inercia
IE (m)
m k 1 K k 1
2k 2k
hányadát reprodukálja. Ha az első, illetve az első kettő tengely a teljes inercia nagy hányadát magyarázza, akkor mind a sorokat, mind az oszlopokat ábrázolhatjuk az első, vagy az első kettő tengely dimenziójában. Az ábrázolást végezhetjük külön-külön egy-egy ábrán, azonban a két pontfelhőt közös ábrán is megjeleníthetjük. Míg a pontfelhők külön ábrája a pontfelhőn belüli szóródást mutatja, addig az összevont ábra a pontfelhők közötti korrespondenciát is láttatja. A redukált térben való megjelenítése esetén vizsgálnunk kell azt is, hogy az ábrázolt pontfelhő mely pontjai illeszkednek jól és melyek kevésbé jól a valódi pontfelhőhöz. Ezt a célt szolgálja a QLT (quality) mérőszám
84
meghatározása. Az első m dimenzió általában az i. sor, és a j. oszlop inerciájának rendre QLTi
m
2 k 1 ik K 2 k 1 ik
x
x
, QLT j
m k 1 K k 1
y 2jk y 2jk
hányadát reprodukálja.27 Alacsony QLT érték m=2 esetén például azt jelenti, hogy a pont kívül fekszik a síkon. Amennyiben a teljes inercia nagy hányada tartozik az első kettőt követő többi korrespondencia tengelyhez is, ez azt jelenti, hogy vannak pontok, amelyek rosszul reprezentáltak a két főtengely síkjában. Mivel aktuális ábránk a valódi pontok vetületét ábrázolja az adott síkra, ezért nem mutatja azt, hogy mely pontok vannak közelebb és melyek távolabb az illető síktól. Ahhoz, hogy egy ilyen korrespondencia ábrát korrekten értelmezzünk, további információra van szükségünk. Az i. sornak és a j. oszlopnak a k. tengely főinerciájához való hozzájárulása (contribution) rendre x2 CTRik si ik2 k CTR jk o j
y 2jk
. 2k A pontok tengelyen való elhelyezkedése és a tengelyen mért szóródáshoz való hozzájárulásuk révén tudjuk magukat a tengelyeket interpretálni. Ha már értelmeztünk egy dimenziót, akkor tudnunk kell, hogy a pontok milyen közel, vagy messze vannak ettől az egydimenziós altértől. Tekintsük például az i. valódi sorprofil és a k. főtengely közötti αik szöget. Ennek felhasználásával (a 5.10. táblázat alapján) a k. tengely relatív hozzájárulása az i. sor, valamint a j. oszlop inerciájához (négyzetes korreláció) s x2 COR 2ik i ik cos 2 ik . INR( si ) Analóg módon, a k. tengely relatív hozzájárulása a j. oszlop inerciájához o j y 2jk COR 2 jk cos 2 jk . INR(o j ) Alacsony COR2 érték azt jelenti, hogy a vizsgált pont az illető dimenzióban nincs jól reprezentálva. Az első két tengelyt véve az i. sor és a j. oszlop tekintetében nyilvánvalóak az alábbi azonosságok is: QLT (2)i COR2i1 COR2i 2 QLT (2) j COR 2 j1 COR 2 j 2 Végül az i. sor és a j. oszlop (nem relatív) hozzájárulása a teljes inerciához rendre K
K
k 1
k 1
INR(si ) si xik2 , INR(o j ) o j y 2jk . Láthatóan QLT és COR2 nem függ a peremmegoszlástól, míg INR és CTR igen. Ezért például egy sor lehet jól reprezentált egy partikuláris tengelyen, amelyhez kevés inerciával járul hozzá. Általában egy pont nagyarányú hozzájárulása a tengely inerciájához maga után vonja a tengely magas relatív hozzájárulását a pont inerciájához, de ez megfordítva nem szükségszerű. Az inercia struktúráját az építési tervek esetében az 5.11. táblázat, az illeszkedését jellemző mutatók értékeit pedig az 5.12. táblázat közli. 5.11. táblázat. Az épített lakások inercia felbontása Kategória Inercia 1. tengely 2. tengely 3. tengely Telepi többszintes 0.2622 0.0044 0.00004 Egyedi többszintes 0.0013 0.0232 0.00001 Társas 0.0025 0.0068 0.00341 Családi 0.1256 0.0043 0.00000 Egyéb 0.0000 0.0256 0.00135
Összesen 0.2666 0.0245 0.0127 0.1299 0.0269
Összesen
0.3920
0.0640
0.0050
0.4610
Típus
0.2124
0.0159
0.00064
0.2289
27
A fenti kifejezések inercia tartalma a törtek si, illetve az oj relatív gyakoriságokkal való bővítése után nyilvánvaló.
85
Ajánlott Egyedi Ismételt
0.1302 0.0006 0.0489
0.0240 0.0244 0.0001
0.00004 0.00010 0.00410
0.1542 0.0251 0.0531
5.12. táblázat. Az épített lakások korrespondencia jellemzői Pont PEREM QLT INR FAKTOR COR2 1. tengely teleptsz 0.254 1.000 0.267 1.016 0.983 egytobsz 0.050 1.000 0.024 0.159 0.051 tarsas 0.037 0.731 0.013 0.261 0.194 csaladi 0.612 1.000 0.130 -0.453 0.967 egyeb 0.048 0.950 0.027 0.032 0.002 tipus 0.084 0.997 0.227 1.581 0.928 ajanlott 0.285 1.000 0.155 -0.676 0.845 egyedi 0.598 0.996 0.025 0.033 0.026 ismegyed 0.032 0.923 0.053 1.236 0.921
CTR 0.670 0.003 0.006 0.320 0.000 0.539 0.334 0.002 0.125
FAKTOR 2. tengely -0.132 0.681 0.435 -0.084 0.730 -0.433 -0.290 0.202 -0.057
COR2
CTR
0.016 0.948 0.537 0.033 0.948 0.069 0.155 0.970 0.002
0.068 0.360 0.108 0.067 0.397 0.246 0.372 0.380 0.002
A fenti mutatók alapján az alábbi főbb megállapításokat tehetjük: A nagyon magas QLT értékek szerint mind a sorok, mind az oszlopok esetében valamennyi kategória közel van a két első főtengely által kifeszített síkhoz, jól reprezentált, vagyis benne fekszik e síkban. Az INR mérőszám alapján a sorok szóródása elsősorban a telepi többszintes, illetve a családi házas lakások különbözőségével, a sorok szóródása pedig a típus terv és az ajánlott terv különbözőségével magyarázható. Az 1. főtengely szóródását a CTR mérték alapján a telepi többszintes lakások és a családi házas lakások megkülönböztetése idézi elő, méghozzá ellenkező előjelű koordinátákkal. Ez az elhatárolás adja az 1. főtengely értelmét a sorok szemszögéből. Hasonló meggondolások alapján az 1. főtengely értelmét az oszlopok szempontjából a típus-, az ajánlott és az ismételten felhasznált egyedi tervek adják, miközben az ajánlott terv koordinátája ellentétes a másik kettőével. Az 1. főtengely értelmét nyújtó valamennyi sor és oszlop a magas COR2 értékek alapján szorosan korrelál e tengellyel. Analóg módon a 2. főtengely az egyedi többszintes, a társas és az egyéb lakások között, valamint a típus, az ajánlott és az egyedi tervek között tesz különbséget. A 2. főtengelyhez igazán közel az egyedi többszintes és az egyéb lakások, továbbá az egyedi terv helyezkedik el.
5.1.4 A KORRESPONDENCIA MÁTRIX REPRODUKÁLÁSA A főkoordináták (5.9) és (5.10) formuláiból kifejezve a szinguláris vektorok U, valamint a V mátrixait, majd a G=UDμVT standardizált korrespondencia mátrixba helyettesítve őket, X és Y felhasználásával: G = (Do½ X) Dμ-1 (Ds½ Y)T amelynek általános eleme (egyrészt definíció szerint, másrészt a fenti mátrix egyenletből): K x y pij si o j ik jk gij si o j si o j k 1 k amelyből K
pij si o j si o j
xik y jk
. k A telepi többszintes lakások és a típus terv párosítás esetében például (az 5.9. táblát tekintve): p11 = 0.082 = 0.085·0.254
(5.14)
k 1
+ 0.085·0.254 { 1.016·1.581/0.626 - 0.132·-0.433/0.253 + 0.012·0.087/0.0,071 } Amennyiben csak az első m főtengelyt használjuk, úgy a korrespondencia gyakoriságot csak maradékkal tudjuk közelíteni: m x y ik jk pij si o j si o j . (5.15) k 1 k E közelítő formula segítségével egyrészt hiányzó adatot (missing value) tudunk imputálni. Másrészt rámutat arra, hogy hiába van egy sor és egy oszlop közel egymáshoz a síkon, ez csak akkor jelez szoros asszociációt közöttük, ha ugyanakkor az origótól távol esnek. Ugyanis a standardizált korrespondencia mátrix magas pozitív gij eleme jelentős pozitív, nagy abszolút értékű negatív eleme erős negatív asszociációt, zérus körüli értéke pedig az asszociáció hiányát jelzi az i és a j kategóriák között. Ebből következően, ha xikyjk zérushoz közeli a meghatározó tengelyeken, akkor zéróközeli gij gyakorisággal állunk szemben, ami az asszociáció elhanyagolható fokára utal az adott sor és
86
oszlop között. Itt hívjuk fel a figyelmet arra, hogy egy sor és egy oszlop közötti asszociációt nem csupán a két pont egymástól való, hanem az origótól, és egymástól mért távolságuk egyidejű mérlegelése alapján kell megítélni!
5.1.5 ELŐREJELZÉS: KIEGÉSZÍTŐ PONTOK ÁBRÁZOLÁSA A korrespondencia analízis egyik feladata újabb, a számításokban nem szerepeltetett profilokat a már meglévő grafikus ábrán azonosítani előrejelzési céllal. Az építési tervekre vonatkozó adatok esetében ilyen kiegészítő sorok lehetnek például a panel lakásoknak, vagy például a téglából épült lakásoknak a műszaki terv szerinti megoszlása, illetve az oszlopok esetében pl. a hitel finanszírozású, vagy a magán forrásból fedezett lakásépítéseknek az építkezés jellege szerinti megoszlása, ahogy azt az 5.13. és az 5.14. táblázatok mutatják. 5.13. táblázat. Kiegészítő pontok: falszerkezet típusok Falszerkezet Típus Ajánlott Egyedi Ismételt terv alapján épített lakások (db) Panel 4185 93 4667 989 Tégla 0 112 158 0 5.14. táblázat. Kiegészítő pontok: a pénzügyi finanszírozás formái Az építkezés jellege Hitel Magán finanszírozású lakások (db) Telepi többszintes 8369 453 Egyedi többszintes 627 1342 Csoportos korszerű 168 1296 Családi házas 6 30701 Egyéb 6 1564
A kiegészítő pontok főkoordinátáit (FAKTOR) az átviteli formulák segítségével számítjuk, és az 5.15. táblába foglaljuk. Például a „Panel falszerkezet” sorprofilja: 0.4213, 0.0094, 0.4698, 0.0995, ezért az 1. főtengelyen vett főkoordinátája az alábbi módon áll elő. Előbb átlagoljuk a tervtípusok főkoordinátáit az első tengelyen: 0.4213·1.581 0.0094·(0.676) 0.4698·0.033 0.0995·1.236 0.799 , majd ezt normáljuk az első főtengely szórásával: 0.799 / 0.626= 1.277. Ha a „Panel falszerkezet” standardizált koordinátáját szeretnénk látni, akkor az 1.277 főkoordinátát tovább kellene osztani a főtengely 0.626 szórásával. A többi kiegészítő pont koordinátáinak számítása analóg módon történik. 5.15. táblázat. A kiegészítő pontok jellemzői Kategória QLT 1. főtengely 2. főtengely (pont) FAKTOR COR2 FAKTOR Panel 0.995 1.277 0.915 -0.377 Tégla 0.993 -0.417 0.993 -0.007 Hitel 0.981 1.507 0.953 -0.257 Magán 0.992 -0.580 0.992 -0.003
COR2 0.080 0.000 0.028 0.000
Az 5.15. táblát tekintve látható, hogy valamennyi kiegészítő profil inerciáját szinte teljes egészében az 1. főtengely magyarázza, továbbá a kiegészítő sorokat és oszlopokat reprezentáló pontok QLT alapján kivétel nélkül benne fekszenek az első két főtengely által meghatározott síkban, miközben COR2 szerint az első főtengelyhez húzódnak közel. A sorok és oszlopok, valamint a kiegészítő sorok és kiegészítő oszlopok közös koordináta rendszerben való megjelenítés az 5.2. ábrán látható. Eszerint inkább a családi házak épülnek téglából, és a telepi többszintes lakások panel technológiával készülnek. Továbbmenve, a magán finanszírozású lakások esetében egyedi és ajánlott tervre, a hitel finanszírozású lakások esetében viszont típus tervre, valamint ismételten felhasznált egyedi tervre asszociálhatunk. Végül a műszaki terv és a falszerkezet egyidejű figyelembe vétele alapján a téglából készült lakás esetében inkább magánlakásra, míg panel lakások esetében inkább hitel finanszírozású lakásra következtetünk, és megfordítva.28 5.2. ábra Az épitett lakások kiegészítő pontjai az első két főtengely síkjában 1.0
28
......+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.... + MAGAN + | | -
A ''Tégla'' és ''Magán'' kategóriák csaknem átfedik egymást, ez a koordinátáikból leolvasható.
87
.90
.80
.70
.60
.50
.40 A X I S
.30
2 .20
.10
0.0
-.10
-.20
-.30
-.40
| | + + + | | | | + + + | | |egyeb | + + + | egytobsz | | | + + + | | | | + + + | | | tarsas | + + + | | | | + + + | | | | + +egyedi + | | | | + + + | | | | +-----+----BLOKK--+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+---+ | | | ismegyed csaladi | + + + | | teleptsz | | + + + | | | OTP ajanlott | + + + | | | | PANEL + + + | | tipus ......+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.... -.40 0.0 .40 .80 1.2 1.6
AXIS 1
5.1.6 ÁBRÁZOLÁS EGYETLEN DIMENZIÓBAN Abban az esetben, mikor az első főtengely egymagában a teljes inercia nagyon magas hányadát magyarázza, a sorok és oszlopok pontfelhőjének a szóródását elegendő csupán az első főtengely mentén megjeleníteni. Ez a helyzet adódóik az alábbi, közlekedési balesetek kimeneteleit leíró korrespondencia tábla (5.16. táblázat) elemzése során. 5.16. táblázat. Közúti balesetek korrespondencia táblája (%) Övhasználat A sérülés kimenetele Összesen Halálos Súlyos Könnyű Övet használt járművezető 1.4 10.6 24.7 36.7 utas elől 0.9 7.4 17.1 25.4 utas hátul 0.0 0.1 0.2 0.3 Nem használt övet
88
járművezető utas elől utas hátul Összesen
0.7 0.4 1.0 4.4
2.2 1.3 7.6 29.2
3.1 2.2 19.1 66.4
6.1 3.8 27.3 100.0
Bár ez a táblázat három változó szerint kategórizál, e többváltozós esetet elemezhetjük az eddigi eszközökkel, ha a gépkocsiban való helyfoglalást (Sofőr, Másik első (ún. Anyós) ülés, Hátsó ülés) és az övhasználatot (Igen, Nem) kombináljuk, majd a kombinációkat mint sorokat kezeljük. Ilymódón eljárva természetesen lemondunk az elhelyezkedés és az övhasználat közötti kapcsolat vizsgálatáról, hiszen a három oszlopkategóriához hat sorkategóriát definiálunk. A baleset kimenetele és a gépkocsiban való elhelyezkedés közötti asszociációs kapcsolatok megítélését szolgálja az 5.17. táblázat. 5.17. táblázat. A személyi sérülések kimenetele és körülményei Biztonsági öv Ülés A sérülés kimenetele Összesen halálos súlyos könnyű Standardizált korrespondencia mátrix Igen Sofőr -0.1 0.0 0.0 -0.1 Anyós -0.2 0.0 0.0 -0.2 Hátul -0.5 -0.2 0.1 -0.5 Nem Sofőr 1.7 0.3 -0.2 1.7 Anyós 1.4 0.1 -0.2 1.4 Hátul -0.2 -0.1 0.0 -0.2 Összesen 2.1 0.2 -0.2 2.0 Sorprofilok Igen Sofőr 3.8 29.0 67.2 100 Anyós 3.4 29.2 67.4 100 Hátul 2.2 24.6 73.2 100 Nem Sofőr 11.7 36.6 51.7 100 Anyós 10.6 33.2 56.2 100 Hátul 3.6 27.3 69.0 100 Összesen 4.4 29.2 66.4 100 Oszlopprofilok Igen Sofőr 31.8 36.4 37.1 36.7 Anyós 19.7 25.4 25.8 25.4 Hátul 0.2 0.3 0.4 0.3 Nem Sofőr 16.2 7.6 4.7 6.1 Anyós 9.2 4.4 3.2 3.8 Hátul 22.8 25.9 28.7 27.6 Összesen 100 100 100 100
A ''kiszűrhető'' főtengelyek maximális száma 2, a teljes χ2 inercia értéke 0.0167, a két főinercia pedig rendre 0.016 és 0.0007. Tehát az első főtengely a teljes inercia 98.3%-át reprodukálja. A sorok és oszlopok szóródását az 5.18. táblázat alapján ítélhetjük meg, mely mindkét főtengely jellemzőit közli. 5.18. táblázat. A személyi sérüléssel járó balesetek korrespondencia jellemzői Pont PEREM QLT(1) INR FAKTOR COR2 CTR FAKTOR 1. tengely 2. tengely Sofőr_I 0.367 0,959 0.000 -0.029 0.959 0.019 -0.006 Anyós_I 0.254 0,871 0.001 -0.045 0.871 0.032 -0.018 Hátul_I 0.003 0,896 0.000 -0.149 0.896 0.004 0.051 Sofőr_N 0.061 0,999 0.011 0.417 0.999 0.644 -0.013 Anyós_N 0.038 0,990 0.004 0.327 0.990 0.250 0.032 Hátul_N 0.276 0.001 -0.055 0.865 0.051 0.022 Halálos 0.044 0,995 0.012 0.522 0.995 0.728 0.038 Súlyos 0.292 0,899 0.002 0.073 0.899 0.094 -0.024 Könnyű 0.664 0,985 0.003 -0.066 0.985 0.178 0.008 "FAKTOR" a megfelelő főkoordinátákat jelenti.
COR2
CTR
0.041 0.129 0.104 0.001 0.010 0.135 0.005 0.101 0.015
0.048 0.278 0.031 0.034 0.144 0.466 0.228 0.615 0.158
Az 5.18. táblát tekintve a sorok szóródását az INR mérőszám alapján elsősorban az övet nem használó sofőrök és a jobboldali első (anyós) ülésen helyet foglalók kimenetelének az összes többi változatétól való lényeges eltérése alakítja ki. Ugyanakkor az 1. főinerciához is e két kategória járul hozzá meghatározó mértékben a CTR mutató szerint. A magas COR2 értékek alapján valamennyi sor közel fekszik az 1. főtengelyhez, miközben a fent említett két kategória koordinátája pozitív, az összes többié pedig negatív. A gépkocsiban való elhelyezkedést az első főtengely a beleset kimenetele alapján a két szélső pont - a hátul ülő és övet használó, valamint az övet nem használó sofőr -
89
között skálázza. Az oszlopok szóródását az INR mutató szerint a halálos balesetnek a nem halálostól való lényegi különbsége idézi elő, továbbá a CTR mérőszám alapján az első főinerciát 72.8% arányban a halálos kimenetelű baleset magyarázza. A kategóriák – mint pontok – egymáshoz viszonyított helyzetét a síkban (tehát mindkét főtengelyt figyelembe véve) az 5.3. ábra szemlélteti. Fölhívjuk a figyelmet, hogy mivel a dimenziók lehetséges száma esetünkben kettő, ezért most a síkban ábrázolt pontok nem közelítőleg, hanem egzaktan mutatják az egyes kategóriák egymáshoz való helyzetét. Mindazonáltal az első főtengely a teljes inercia igen nagy arányát képviseli, ezért a standardizált korrespondencia mátrix (5.14) alapján jól közelíthető az első tengelyen mért koordináták és az első főinercia segítségével: (pij - si oj) / si oj ≈ xi1 yj1 / μ1. Például a halálos kimenetelű balesetet szenvedett, övet nem használó sofőrök cellájának közelítése: 1.7 ≈ 0.417·0.522 / 0.016½. Figyeljük meg, hogy e jelentős korrespondencia gyakoriság csaknem maradék nélküli reprodukálása úgy következett be, hogy a halálos kimenetelű baleset és az övet nem használó sofőr kategóriája az első tengelyen közel van egymáshoz, de ugyanakkor távol az origótól. Hasonló a helyzet az anyós ülésen utazóval kapcsolatban is, aki nem használja az övet. Ezzel szemben a könnyű sérülés és az övet bekapcsoló sofőr is is közel van egymáshoz a síkban, miközben standardizált korrespondencia koordinátájuk lényegileg (egy tizedesre kerekítve) zéró, vagyis közöttük elhanyagolható az asszociációs kapcsolat. Ez az ábrán úgy ismerszik fel, hogy mindketten közel fekszenek az origóhoz. 5.3. ábra A sérülések kimeneteleinek és körülményeinek korrespondencia ábrája
.04
A X I S
.02
2 0.0
-.02
.+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+..... | | IH | | | | + + + | Halalos | | NA | | NH | + + + | | | Konnyu | | | ++-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+----+ | IS | | | NS | IA | + + + | | Sulyos | .+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+..... -.20 -.10 0.0 .10 .20 .30 .40 .50 .60
AXIS 1
Természetesen a baleset kimenetelére más tényezők is hatással vannak, és e tényezőket a baleset kimenetele szerinti megoszlásukkal jellemezve, mint kiegészítő sorokat ábrázolhatjuk az eredeti sorok pontfelhőjében. Az 5.19. táblában kiegészítő sorként a lakott területen, a lakott területen kívül és a sztrádán bekövetkezett baleseteknek a kimenetel szerinti megoszlását tüntettük fel, míg a kiegészítő sorok jellemzőit az 5.20. táblázat közli. A kategóriák egymáshoz való elhelyezkedését a síkban az 5.4. ábra illusztrálja. (MARG a marginális profilt, tehát az origót jelenti.) Az ábra sugallja, hogy a halálos kimenetel elsősorban a lakott területen kívül valószínűsíthető, autópályán bekövetkezett baleset esetén pedig még a „halálosnál is súlyosabb” kimenetelre számíthatunk (az első főtengely skáláját tekintve). 5.19. táblázat. Kiegészítő pont: az út jellege A baleset helye A sérülések száma: db (%) halálos súlyos Lakott terület 1163 (5.93) 7972 (40.63) Lakott területen kívül 1022 (12.49) 3766 (46.05) Autópálya 41 (16.21) 115 (45.45)
90
könnyű 10487 (53.44) 3391 (41.46) 97 (38.34)
5.20. táblázat. Az út jellegének korrespondencia jellemzői A baleset helye QLT 1. főtengely FAKTOR COR2 Lakott terület 0.500 0.194 0.500 Lakott területen kívül 0.903 0.555 0.903 Autópálya 0.979 0.718 0.979 5.4. ábra A sérülések kimeneteleinek és körülményeinek korrespondencia ábrája a kiegészítő pontokkal együtt ábrázolva .05
0.0
A X I S
-.05
2 -.10
-.15
....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+... | + IH + + | Halalos | NA NH | | Konnyu | +---+----+----+----+MARG+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--+ IS | IA | NS | Sulyos | | + + + | | | | | + + SZTRADA + | | | | | + + + | | | | NEMLAK | LAKOTT ....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+....+... -.10 0.0 .10 .20 .30 .40 .50 .60 .70 .80
AXIS 1
5.2 TÖBBSZÖRÖS KORRESPONDENCIA ANALÍZIS Mikor kettőnél több változó szerepel vizsgálatunkban, a változók sorrá, vagy oszloppá kombinálása helyett célszerű a korrespondencia analízis többszörös változatát alkalmazni. A többszörös analízis ekvivalens az ún. indikátor mátrix egyszerű analízisével. A Z(n,J) indikátor mátrix sorait az i=1,2,...,n megfigyelési egységek alkotják, míg oszlopait Q számú Zq (q=1,2,...,Q) diszkrét változó lehetséges kategóriái képezik, ahol a Zq változónak Jq számú lehetséges kategóriája van. Így a mátrix oszlopainak száma J=J1+J2+...+JQ, és az oszlopok a Q számú csoport valamelyikének a tagjai. Az indikátor mátrix mindegyik sora Q számú „1” elemet tartalmaz attól függően, hogy az illető megfigyelési egység adott változó melyik kategóriájához tartozik. Egyébként a mátrix elemei zérók. Ezt illusztrálja az alábbi általános tábla. (Konkrét példát az indikátor mátrixra a következő alfejezet 5.23. táblázata nyújt.) 5.21. táblázat. Indikátor mátrix Megfigyelési egység 1 2
Z1 kategóriái: Z1 1 2 … J1 1 1
i
1
n Összesen (fj)
A Z indikátor mátrix oszlopai (j=1,2,…,J) … Zq kategóriái: Zq … ZQ kategóriái: ZQ … 1 2 … Jq … 1 2 … JQ 1 1 1 1 1
1
1 1 1
f
f
1 2
1 …
f
1 J1
…
q 1
f
f
q 2
…
f
q Jq
Q 1
f
f
Q 2
Q Q Q
1 …
Összesen
…
f
Q JQ
Q nQ
A Z mátrix tehát nQ egyest tartalmaz, n darabot minden egyes Zq almátrixban, egyébként Z elemei zérók. A Zq almátrix bármely sorának összege 1, és Z bármely sorának összege Q. A többszörös korrespondencia analízis eredményeinek az értelmezése az indikátor mátrix alábbi tulajdonságain alapul:
91
1.
2.
3.
4.
A Zq mátrix oj=fj/(nQ) peremprofiljainak az összege bármely q=1,2,…,Q esetén: 1/Q. Így bármely változó egyforma relatív súlyt kap, melyet szétoszt az 1,2,…,Jq kategóriái között, az fq gyakoriságoknak megfelelően. Az oij=(1/fj)=1/(nQoj) oszlopprofilok centroidja bármely Zq blokkon belül egybeesik az oszlopprofilok globális centroidjával. Ezért bármely változó kategóriáinak a pontfelhője az origó körül kiegyensúlyozott. Továbbá bármely sor relatív gyakorisága si=Q/(nQ)=1/n és bármely sorprofil-elem értéke sij=1/Q. Az i. sor és a j. oszlop által definiált cellához tartozó inercia: INR(i,j) = sijoij – 2pij + sioj ezért adott oszlop inerciája: Σi INR(i,j) = INR(j) = fjsijoij – 2fjpij + nsioj = 1/Q-oj. Vagyis adott kategória inerciájának a felső korlátja 1/Q és az inercia a kategória relatív gyakoriságának a csökkenése eredményeként nő. A Zq változó valamennyi oszlopához tartozó teljes inercia: Jq Jq 1 INR(q) INR( jq ) . Q Q jq 1
Tehát egy változó inerciája lineárisan nő kategóriái számának a növekedésével. Az oszlopprofilok totális inerciája (és így egyben a sorprofilok totális inerciája is): Q J INR INR(q) 1 . Q q 1 6. A pozitív inerciával bíró, nem triviális dimenziók száma legfeljebb J-Q. 7. Valamely egyedi sorprofil mindazon oszlopok egyenlően-súlyozott középpontjában fekszik, amely oszlopokhoz az illető sor megfigyelési egysége tartozik (figyelembe véve a főtengelyek szórásait is). 8. Az n számú sorprofil mindegyike J1J2…JQ számú egymástól különböző pont valamelyikével esik egybe. 9. Általában csak azok a főtengelyek érdekesek, melyek főinerciái meghaladják az 1/Q értéket, miközben a totális inerciából reprodukált arány jelen esetben nem informatív. Különösen akkor, mikor egy folytonos változó terjedelmének a szegmentálásával nyerjük a diszkrét kategóriákat, miközben a szegmentáció egyre finomabb, az inerciához való százalékos hozzájárulások még a meghatározó dimenziókban is zéróhoz tartanak. A főinerciák szelektálását indoklandó tekintsük azt az indikátor mátrixot melynek éppen J1J2…JQ sora van, egy-egy lehetséges változatot képviselve a kategóriákhoz való tartozásnak. Ekkor ugyanis az utolsó J-Q főinercia egyaránt 1/Q. A föntiekből látható, hogy a többszörös korrespondencia analízis alkalmazásakor a kategóriák szelektálása során az illeszkedésvizsgálati mértékeknek nem az abszolút nagyságrendje, hanem egymáshoz viszonyított pozícióik a mérvadók. 10. A B=ZTZ(J,J) pozitív szemidefinit Burt-mátrix analízisének standardizált korrespondencia koordinátái azonosak a Z indikátor mátrix analízisében az oszlopok standardizált korrespondencia koordinátáival. (A Burt-mátrixra példaként lásd a következő alfejezet 5.24 táblázatát.) E tulajdonság egyenesen következik az átviteli formulából, mely Z analízisekor az alábbiak szerint írható: OT XD1 OT SYD2 5.
ahol az Y oszlopkoordináták kielégítik az alábbi sajátérték-sajátvektor feladatot is: Y OT SYD2 . Most az S sorprofil mátrix egyszerűen (1/Q)Z, míg az oszlopprofilok mátrixa OT=(nQDo)-1ZT. Mivel a Do diagonálisát alkotó, az oszlopok struktúráját leíró peremprofilok a B és a Z mátrixok esetében azonosak, ezért 1 1 Y 2 DoBurt ZT Z YD2 S Burt YD2 . nQ Mivel a Burt-mátrix sorprofil mátrixa éppen [nQ2Do(Burt)]-1ZTZ, és B sor- és oszlopkoordinátái azonosak, ezért Y fenti formulája éppen a Burt-mátrix analízisének az átviteli formulája. Így YZ=YB. A Burt-mátrix analízisének μ2(B) főinerciái az indikátor mátrix főinerciáinak a négyzeteivel megegyeznek: μ2(B) = (μ2(Z))2 . Vessük össze most az indikátor, és a Burt-mátrix korrespondencia analízisét. Fölhasználva az indikátor mátrix Zq almátrixokra történő partícionálását, a Burt-mátrix az alábbi blokk-struktúrában is írható:
92
ZT Z ( J , J )
Z1T Z1 T Z Z B 2 1 T Z Q Z1
Z1T Z 2 ZT2 Z 2 ZTQ Z 2
Z1T Z Q ZT2 Z Q . ZTQ Z Q
Mindegyik ZTq Zq* (q≠q*) almátrix, mely B diagonálisán kívül esik, egyben egy kétszempontú kontingencia tábla, mely a q és q* változók közötti asszociációt sűríti az n számú megfigyelés alapján. Ugyanakkor a B diagonálisán mindegyik ZTq Zq almátrix diagonális, és diagonálisán Zq oszlopösszesenei szerepelnek. (Lásd az 5.21 táblázatot.) Mivel a Burt-mátrix pozitív szemidefinit, ezért világos, hogy mind oszlopainak, mind sorainak korrespondencia analízise azonos korrespondencia koordinátákat eredményez. Tehát az egyetlen különbség B és Z oszlopainak korrespondencia analízise között a főinerciák értéke, mely érinti a főkoordináták skáláját. E tény illusztrálja, hogy az indikátor mátrix oszlopainak az analízise inkább tekinthető együttes-kétváltozós, mint színtiszta többváltozós elemzésnek. A Burt-mátrix partícionált formában ugyanis Q számú változó kovariancia mátrixának az analógiája, ahol minden egyes ZTq Zq* almátrix analóg egy kovarianciával. Láthatóan a többszörös korrespondencia analízis páronkénti kapcsolatokat, de együttesen vizsgál, vagyis figyelme csak a másodrendű interakciókig terjed.
5.2.1 KORRESPONDENCIÁK FELTÁRÁSA Példaként tekintsünk ötven, személyi sérüléssel járó, személyautóban elszenvedett balesetet, melyeket illetően az alábbiakat figyeljük: anyagi kár, a sérülés kimenetele, becsült sebesség a baleset pillanatában, a légzsák működésbe lépett-e, és a biztonsági öv be volt-e kapcsolva. A fenti változók egyes kimenetelei, illetve az adatállományban hozzájuk rendelt értékek, és rövid azonosítóik (zárójelben) az alábbiak: Kár(1): kis kár, Kár(2): nagy kár, Kár(3): totál kár Sérülés(1): könnyű, Sérülés(2): súlyos, Sérülés(3): halálos Sebesség(1): alacsony, Sebesség(2): gyors, Sebesség(3): száguldó Légzsák(0): nem lépett működésbe, Légzsák(1): működésbe lépett Biztonsági öv(0): nem volt bekapcsolva, Biztonsági öv(1): be volt kapcsolva. A változók száma tehát Q=5, a vizsgált kategóriák teljes száma pedig J=13. A megfigyelések eredményeit az 5.22. táblázat, az ebből képzett indikátor, majd Burt-mátrixot pedig az 5.23. és az 5.24. táblázatok közlik. Ezek szerint például a kis kár, és a becsatolt biztonsági öv összesen hétszer fordult elő. A totális inercia 13/5-1=1.6, az első három vezető tengely főinerciái pedig rendre: 0.465, 0.349 és 0.253, melyek együtt a totális inercia 66.7 %-át magyarázzák. Ezek után az indikátor mátrix oszlopainak az első három főtengelyre vonatkozó jellemzőit az 5.25. táblázat, sorainak a főkoordinátáit pedig az 5.26. táblázat tartalmazza. Az 5.25. táblázatot tekintve a főtengelyeket az alábbiak jellemzik. A QLT mértéket tekintve, a súlyos sérülést és a légzsák állapotát ábrázolva, a három dimenziós pontok rosszul reprezentálják a valódi pontokat, azoktól térben távol esnek. A COR2 mutató alapján az első főtengely élesen szeparálja a lassú sebességgel együttjáró kis kárt és könnyű sérülést a száguldással együttjáró totálkártól, és halálos sérüléstől. (Lassan járj, tovább érsz (élsz)!) A második főtengely érdemi kölönbséget tesz a gyors haladás és a száguldás között, a nagy kár, és a totális kár hozzájuk rendelésével. (A száguldás következménye maradandó!) A harmadik főtengely szerint a sérülések a biztonsági öv tekintetében is széthúzódnak, miközben bekapcsolt öv könnyű sérülést valószínűsít, míg be nem kapcsolt öv alacsony sebesség mellett figyelhető meg, ami viszont általában csak kis kárt eredményez. Az INR részesedések a totális inerciából jelen esetben nem informatívak, hiszen értékük minden kategória esetén INRj=1/Q-PEREMj, ami például a kis kár kategória esetében: 1/5-0.044=0.156. Mivel a változók Q száma adott, ezért most az INR mutatót alapvetően a ketegória relatív gyakorisága alakítja, méghozzá fordított arányban. Az egyes kategóriák közötti korrespondenciák megjelenítése a megfelelő síkokon az 5.5.- 5.13. ábrákon láthatók. Ezeken az ábrákon a három főtengely háromféle párosításában láthatjuk előbb a változók kategóriáit (az indikátor mátrix oszlopait), majd az egyedi baleseteket (az indikátor mátrix sorai, melyek között most 27 számú egymástól különböző van). Az 5.5.-5.7. ábrák például az első két főtengely síkjában ábrázolnak: az 5.6. ábrán az egyedi profilok helyzetét az előfordulási gyakoriságaikat jelentő számok jelölik, míg az 5.7. ábrán ugyanezen pontokat az őket jellemző sérülés kimenetelének kezdőbetűi (K, S, H) azonosítják. Kiragadva az első két főtengely síkját (5.5. ábra), a kategóriák alábbi csoportjai rajzolódnak ki:
93
Kis kár, Könnyű sérülés, Lassú sebesség, Légzsák működik, A biztonsági öv be van kapcsolva, Totális kár, Száguldó sebeség, Súlyos sérülés, Légzsák nem működik, Biztonsági öv nincs bekapcsolva, Gyors sebesség, Nagy kár. A többi ábra értelmezése ezzel analóg, az Olvasóra bízzuk. 5.22. táblázat. Közlekedési balesetek kimenetelei, és körülményei Baleset 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Kár Kis Kis Kis Kis Kis Kis Kis Kis Kis Kis Kis Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál
Sérülés Könnyű Könnyű Könnyű Könnyű Súlyos Súlyos Súlyos Súlyos Könnyű Könnyű Súlyos Könnyű Könnyű Súlyos Könnyű Könnyű Könnyű Könnyű Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Halálos Halálos Halálos Halálos Súlyos Halálos Könnyű Súlyos Könnyű Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Halálos Halálos Halálos Halálos Halálos Halálos Halálos Halálos
Sebesség Lassú Lassú Lassú Lassú Lassú Lassú Lassú Lassú Gyors Gyors Gyors Lassú Lassú Lassú Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Száguld Száguld Gyors Gyors Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld
Légzsák Nem Nem Igen Igen Nem Nem Igen Igen Nem Igen Nem Nem Igen Nem Nem Nem Igen Igen Nem Nem Nem Nem Nem Nem Igen Igen Igen Nem Nem Nem Nem Nem Nem Igen Igen Igen Nem Nem Igen Igen Igen Igen Nem Nem Nem Nem Nem Nem Igen Igen
Bizt.öv Igen Igen Igen Igen Nem Nem Nem Nem Igen Igen Igen Nem Igen Nem Igen Igen Igen Igen Nem Nem Nem Nem Igen Igen Nem Nem Nem Nem Nem Nem Nem Igen Nem Igen Nem Igen Igen Igen Nem Nem Igen Igen Nem Nem Nem Nem Igen Igen Nem Nem
5.23. táblázat. Közlekedési balesetek indikátor mátrixa Baleset
94
Kár
Sérülés
Sebesség
Légzsák
Bizt.öv
Összesen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Összesen PEREM%
Kis 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 4.4
Nagy 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 8.8
Totál 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 17 6.8
Könnyű 1 1 1 1 0 0 0 0 1 1 0 1 1 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14 5.6
Súlyos 0 0 0 0 1 1 1 1 0 0 1 0 0 1 0 0 0 0 1 1 1 1 1 1 1 1 1 0 0 0 0 1 0 0 1 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 23 9.2
Halálos 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 13 5.2
Lassú 1 1 1 1 1 1 1 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 4.4
Gyors 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 8.8
Száguld 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 17 6.8
5.24. táblázat. Közlekedési balesetek (szimmetrikus) Burt-mátrixa (kiegészítve összesen és perem jellemzőkkel) Kategória KarK KarN KarT SerK SerS SerH SebL SebG SebS LegN KarKis 11 KarNagy 0 22 KarTota 0 0 17 SerKonn 6 6 2 14 SerSuly 5 11 7 0 23 SerHala 0 5 8 0 0 13 SebLass 8 3 0 6 5 0 11 SebGyor 3 17 2 7 11 4 0 22 SebSzag 0 2 15 1 7 9 0 0 17 LegNem 6 16 8 6 13 11 6 14 10 30 LegIgen 5 6 9 8 10 2 5 8 7 0 BizNem 4 14 9 1 15 11 6 12 9 17 BizIgen 7 8 8 13 8 2 5 10 8 13 Összesen 5∙11 5∙22 5∙17 5∙14 5∙23 5∙13 5∙11 5∙22 5∙17 5∙30 PEREM% 4.4 8.8 6.8 5.6 9.2 5.2 4.4 8.8 6.8 12.0
Igen 0 0 1 1 0 0 1 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 1 1 0 0 1 1 1 1 0 0 0 0 0 0 1 1 30 12.0
Nem 1 1 0 0 1 1 0 0 1 0 1 1 0 1 1 1 0 0 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 0 0 0 1 1 0 0 0 0 1 1 1 1 1 1 0 0 20 8.0
Igen 1 1 1 1 0 0 0 0 1 1 1 0 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 1 0 1 1 1 0 0 1 1 0 0 0 0 1 1 0 0 27 10.8
LegI
BizN
BizI
20 10 10 5∙20 8.0
27 0 5∙27 10.8
23 5∙23 9.2
Nem 0 0 0 0 1 1 1 1 0 0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 0 1 0 0 0 1 1 0 0 1 1 1 1 0 0 1 1 23 9.2
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 250 100
Összesen 5∙11 5∙22 5∙17 5∙14 5∙23 5∙13 5∙11 5∙22 5∙17 5∙30 5∙20 5∙27 5∙23 5∙250 100
5.25. táblázat. Az indikátor mátrix oszlopainak korrespondencia jellemzői Kategória
PEREM
QLT
INR
KarKis KarNagy KarTota SerKonn SerSuly SerHala SebLass SebGyor SebSzag LegNem LegIgen BizNem
0.044 0.088 0.068 0.056 0.092 0.052 0.044 0.088 0.068 0.120 0.080 0.108
0.762 0.804 0.885 0.779 0.198 0.498 0.825 0.780 0.889 0.223 0.223 0.778
0.156 0.112 0.132 0.144 0.108 0.148 0.156 0.112 0.132 0.080 0.120 0.092
FAKTOR COR2 1. tengely -1.288 0.468 -0.101 0.008 0.964 0.479 -1.110 0.479 0.005 0.000 1.187 0.495 -1.196 0.404 -0.214 0.036 1.051 0.569 0.147 0.033 -0.221 0.033 0.396 0.184
CTR 0.157 0.002 0.136 0.148 0.000 0.158 0.136 0.009 0.162 0.006 0.008 0.036
FAKTOR COR2 2. tengely 0.567 0.091 -0.959 0.723 0.875 0.394 0.459 0.082 -0.266 0.060 -0.025 0.000 0.435 0.053 -0.824 0.533 0.785 0.318 -0.345 0.179 0.518 0.179 -0.399 0.186
CTR 0.041 0.232 0.149 0.034 0.019 0.000 0.024 0.171 0.120 0.041 0.062 0.049
FAKTOR COR2 3. tengely 0.850 0.204 -0.304 0.073 -0.156 0.013 -0.748 0.218 0.403 0.138 0.094 0.003 1.143 0.368 -0.518 0.211 -0.069 0.002 0.087 0.011 -0.130 0.011 0.589 0.407
CTR 0.125 0.032 0.007 0.124 0.059 0.002 0.227 0.093 0.001 0.004 0.005 0.148
95
BizIgen
0.092
0.778
0.108
-0.465
0.184
0.043
0.468
0.186
0.058
-0.692
0.407
0.174
"PEREM" az indikátor mátrix oszlopainak peremprofilját közli, ami egyben a Burt mátrix oszlopainak és sorainak a profiljai is. "FAKTOR" a megfelelő főkoordinátákat jelenti. 5.26. táblázat. Az indikátor mátrix sorainak (az egyedi sérüléseknek) a főkoordinátái Baleset Kár Sérülés Sebesség Légzsák Bizt.öv FAKTOR1 FAKTOR2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Kis Kis Kis Kis Kis Kis Kis Kis Kis Kis Kis Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Nagy Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál Totál
Könnyű Könnyű Könnyű Könnyű Súlyos Súlyos Súlyos Súlyos Könnyű Könnyű Súlyos Könnyű Könnyű Súlyos Könnyű Könnyű Könnyű Könnyű Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Halálos Halálos Halálos Halálos Súlyos Halálos Könnyű Súlyos Könnyű Súlyos Súlyos Súlyos Súlyos Súlyos Súlyos Halálos Halálos Halálos Halálos Halálos Halálos Halálos Halálos
Lassú Lassú Lassú Lassú Lassú Lassú Lassú Lassú Gyors Gyors Gyors Lassú Lassú Lassú Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Gyors Száguld Száguld Gyors Gyors Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld Száguld
Nem Nem Igen Igen Nem Nem Igen Igen Nem Igen Nem Nem Igen Nem Nem Nem Igen Igen Nem Nem Nem Nem Nem Nem Igen Igen Igen Nem Nem Nem Nem Nem Nem Igen Igen Igen Nem Nem Igen Igen Igen Igen Nem Nem Nem Nem Nem Nem Igen Igen
Igen Igen Igen Igen Nem Nem Nem Nem Igen Igen Igen Nem Igen Nem Igen Igen Igen Igen Nem Nem Nem Nem Igen Igen Nem Nem Nem Nem Nem Nem Nem Igen Nem Igen Nem Igen Igen Igen Nem Nem Igen Igen Nem Nem Nem Nem Igen Igen Nem Nem
-1.15 -1.15 -1.26 -1.26 -0.57 -0.57 -0.68 -0.68 -0.86 -0.97 -0.53 -0.55 -0.91 -0.22 -0.51 -0.51 -0.62 -0.62 0.07 0.07 0.07 0.07 -0.18 -0.18 -0.04 -0.04 -0.04 0.42 0.42 0.42 0.42 0.19 0.79 -0.31 0.27 0.06 0.50 0.50 0.64 0.64 0.39 0.39 1.10 1.10 1.10 1.10 0.85 0.85 0.99 0.99
FAKTOR3
0.54 0.54 0.83 0.83 -.002675 -.002675 0.29 0.29 0.11 0.40 -0.14 -0.27 0.31 -0.52 -0.41 -0.41 -0.11 -0.11 -0.95 -0.95 -0.95 -0.95 -0.65 -0.65 -0.65 -0.65 -0.65 -0.86 -0.86 -0.86 -0.86 -0.11 -0.32 0.51 -0.03 1.05 0.51 0.51 0.51 0.51 0.81 0.81 0.30 0.30 0.30 0.30 0.60 0.60 0.59 0.59
0.25 0.25 0.17 0.17 1.22 1.22 1.13 1.13 -0.41 -0.49 0.05 0.30 -0.29 0.76 -0.86 -0.86 -0.95 -0.95 0.10 0.10 0.10 0.10 -0.41 -0.41 0.02 0.02 0.02 -0.02 -0.02 -0.02 -0.02 -0.23 0.16 -0.89 0.07 -0.71 -0.17 -0.17 0.25 0.25 -0.26 -0.26 0.22 0.22 0.22 0.22 -0.29 -0.29 0.13 0.13
5.5. ábra Az indikátor mátrix oszlopainak ábrája az első két főtengely síkjában .90
.60
.30
A X I S
0.0
2 -.30
96
....+....+....+....+....+....+....+....+....+....+....+....+....+....+... | + + + | Kar_Tota | Seb_Szag | | | + + + - Kar_Kis | Leg_Igen Ser_Konn Biz_Igen | Seb_Lass | | + + + | | | | | +---+----+----+----+----+----+----+----+----+----+----+----+----Ser_Hala+ | | | | Ser_Suly + + + | Leg_Nem | Biz_Nem | | | -
-.60
-.90
+ + + | | | Seb_Gyor | + + + Kar_Nagy | | ....+....+....+....+....+....+....+....+....+....+....+....+....+....+... -1.2 -.80 -.40 0.0 .40 .80 1.2
AXIS 1
5.6. ábra Az indikátor mátrix sorainak helyzete és gyakorisága az első két főtengely síkjában
.90
.60
.30 A X I S 0.0 2
-.30
-.60
-.90
......+.......+.......+.......+.......+.......+.......+.......+.......+.. | 1 | | + + + 2 | | 2 | | | + + 2 2 + 2 | 1 | 2 2 | 1 | | + 1 2 + 4 + | | | 1 | | +-----+-------+-------+2------+-------+-------+-------+-------+-------+-+ | 1 2 | 1 1 | | 1 | + + 1 + | 2 | | 1 | | + + + 2 3| | | | | 4 + + + | 4 ......+.......+.......+.......+.......+.......+.......+.......+.......+.. AXIS 1 -1.2 -.60 0.0 .60 1.2
5.7. ábra Az indikátor mátrix sorainak helyzete és a sérülési kimenetele az első két főtengely síkjában
.90
.60
.30 A X I S 0.0 2
-.30
......+.......+.......+.......+.......+.......+.......+.......+.......+.. | K | | + + + K | | S | | | + + H H + K | K | S S | K | | + K S + H + | | | K | | +-----+-------+-------+S------+-------+-------+-------+-------+-------+-+ | S K | S S | | K | + + H + | K | | S | | -
97
-.60
-.90
+ + + S S| | | | | H + + + | S ......+.......+.......+.......+.......+.......+.......+.......+.......+.. -.90 -.30 .30 .90 -1.2 -.60 0.0 .60 1.2
5.8. ábra Az indikátor mátrix oszlopainak ábrája az első és a harmadik főtengely síkjában 1.2
.90
.60
A X I S
.30
3 0.0
-.30
-.60
....+....+....+....+....+....+....+....+....+....+....+....+....+....+... + + + Seb_Lass | | | | | + + + - Kar_Kis | | | | | + + Biz_Nem + | | | Ser_Suly | + + + | | | | Leg_Nem Ser_Hala| +---+----+----+----+----+----+----+----+----+----+----+----+----+----+--+ | Seb_Szag | Leg_Igen Kar_Tota | | + Kar_Nagy + | | | Seb_Gyor | + + + | Biz_Igen | Ser_Konn | | ....+....+....+....+....+....+....+....+....+....+....+....+....+....+... AXIS 1 -1.2 -.80 -.40 0.0 .40 .80 1.2
5.9. ábra Az indikátor mátrix sorainak helyzete és gyakorisága az első és a harmadik főtengely síkjában
.90
.60
.30 A X I S 0.0 3
-.30
-.60
98
......+.......+.....H.+H......+.......+.......+.......+.......+.......+.. | | | + + + | | 1 | | | + + + | | | | | + 1 + + 2 | 2 | 4 2 | 1 2 | 4 1 | 1 +-----+-------+-------+-------+------3+-------+--4----+-------+-------+-+ | | | 2 | | 1 2 + 1 + 2 + | 1 2 | | 1 | | + + +
-.90
| | 1 | | 2 | + 1 + + | ......+.......+......L+.......+.......+.......+.......+.......+.......+.. AXIS 1 -1.2 -.60 0.0 .60 1.2
5.10. ábra Az indikátor mátrix sorainak helyzete és sérülési kimenetele az első és a harmadik főtengely síkjában
.90
.60
.30 A X I S 0.0 3
-.30
-.60
-.90
......+.......+.....H.+H......+.......+.......+.......+.......+.......+.. | | | + + + | | S | | | + + + | | | | | + K + + K | S | H K | H H | S S | S +-----+-------+-------+-------+------S+-------+--H----+-------+-------+-+ | | | S | | S S + K + H + | K S | | K | | + + + | | K | | K | + K + + | ......+.......+......L+.......+.......+.......+.......+.......+.......+.. -1.2 -.60 0.0 .60 1.2
AXIS 1
5.11. ábra Az indikátor mátrix oszlopainak ábrája a második és a harmadik főtengely síkjában 1.2
.90
.60
A X I S
.30
3 0.0
-.30
....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.. + + + | Seb_Lass | | | | + + + | Kar_Kis | | | | + Biz_Nem + + | | | Ser_Suly| | + + + | | | Leg_Nem Ser_Hala | +---+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-+ | Seb_Szag | | Leg_Igen Kar_Tota | | + Kar_Nagy + + | | | Seb_Gyor | | -
99
-.60
+ + + | | Biz_Igen | Ser_Konn | ....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.. AXIS 2 -.80 -.40 0.0 .40 .80 1.2
5.12. ábra Az indikátor mátrix sorainak helyzete és gyakorisága a második és a harmadik főtengely síkjában
.90
.60
.30 A X I S 0.0 3
-.30
-.60
-.90
......+.......+.......+.......+.......H.......H.......+.......+.......+.. | | | + + + | | 1 | | | + + + | | | | | + 1 + + | 4 | 4 1 | 2 2 4 | 1 1| +-----+-------+4-----3+-------+-------+-------+-------+-------+-------+-+ | | | 2 | 1 | 2 + + 1 2 + | 2 | 1 | | 1 | + + + | | 1 | | 2 | + + 1 + | ......+.......+.......+.......+....L..+.......+.......+.......+.......+.. Axis 2 -1.2 -.60 0.0 .60 1.2
5.13. ábra Az indikátor mátrix sorainak helyzete és és sérülési kimenetele a második és a harmadik főtengely síkjában
.90
.60
.30 A X I S 0.0 3
-.30
-.60
100
......+.......+.......+.......+.......H.......H.......+.......+.......+.. | | | + + + | | S | | | + + + | | | | | + K + + | * | H H | H K S | S S| +-----+-------+H-----S+-------+-------+-------+-------+-------+-------+-+ | | | S | S | S + + K H + | S | K | | K | + + + | | K | | -
-.90
K | + + K + | ......+.......+.......+.......+....L..+.......+.......+.......+.......+.. AXIS 2 -1.2 -.60 0.0 .60 1.2
5.2.2 ELŐREJELZÉS PREDIKTÍV TÉRKÉPPEL Legyen előrejelzendő a sérülés fokának (könnyű, súlyos, halálos) valamelyik kimenetele. Ekkor e három kategóriát kivesszük az indikátor mátrix oszlopai közül, és a többi, ún. prediktor (magyarázó) jellegű kategóriát ábrázoljuk közös síkban. Ezt az ábrát prediktív térképnek nevezzük. Ezt követően az indikátor mátrix sorait az előrejelzendő kategóriák szerint (most három) csoportban összevonjuk és megállapítjuk sorprofiljaikat. Végül e sorprofilokat kiegészítő pontokként kezelve (az átviteli képletekkel) meghatározzuk koordinátáikat a megfelelő főtengelyekre, és mint pontokat a prediktív térképre vetítjük. A pontok egymáshoz viszonyított helyzetéből látszik, hogy mely prediktor kategóriák mellett asszociálhatunk valamely eredmény jellegű kimenetelre, azaz sérülési fokra. Példánkban 4 prediktor változó 10 kategóriája alkotja az indikátor mátrix oszlopait, a prediktív térkép pontjait. A teljes inercia 10/4-1=1.5, és a három vezető főtengely főinerciái rendre: 0.464, 0.410, 0.253, melyek a teljes inercia 75.1%-át képviselik. A prediktív térkép tengelyeit alkotó főtengelyek jellemzőit az 5.27. táblázat, a kiegészítő pontok jellemzőit pedig az 5.28. táblázat közli. Az első két főtengelyt tekintve a prediktív térképet az 5.14. ábra mutatja. Ezen az ábrán a kiegészítő pont koordinátája a prediktor kategóriák főkoordinátáinak a súlyozott átlaga, súlyként a kiegészítő pont sorprofilját használva. Jól láthatóan kirajzolódik egy könnyű, súlyos, halálos irány, melyen a végleteket a lassú sebesség jellemzi egyfelől és a nagy sebesség másfelől, továbbá a bekapcsolt biztonsági öv, és a működő légzsák a sérülés kimenetelét halálosból súlyossá, de méginkább könnyűvé szelidíti. 5.27. táblázat. Az indikátor mátrix sorainak (az egyedi sérüléseknek) a főkoordinátái -------------------------------------------------------------------------------------------------Kategória PEREM QLT INR | FAKTOR COR2 CTR | FAKTOR COR2 CTR | FAKTOR COR2 CTR | AXIS 1 | AXIS 2 | AXIS 3 -------------------------------------------------------------------------------------------------Kar_Kis 0.055 0.830 0.195 | -0.953 0.256 0.108 | -1.424 0.572 0.272 | -0.090 0.002 0.002 Kar_Nagy 0.110 0.806 0.140 | -0.546 0.234 0.071 | 0.850 0.567 0.194 | 0.079 0.005 0.003 Kar_Tota 0.085 0.920 0.165 | 1.323 0.902 0.321 | -0.178 0.016 0.007 | -0.044 0.001 0.001 Seb_Lass 0.055 0.861 0.195 | -0.960 0.260 0.109 | -1.316 0.488 0.232 | -0.631 0.112 0.087 Seb_Gyor 0.110 0.826 0.140 | -0.521 0.213 0.064 | 0.746 0.437 0.149 | 0.473 0.176 0.097 Seb_Szag 0.085 0.892 0.165 | 1.295 0.864 0.307 | -0.114 0.007 0.003 | -0.203 0.021 0.014 Leg_Nem 0.150 0.324 0.100 | -0.155 0.036 0.008 | 0.290 0.126 0.031 | -0.328 0.161 0.064 Leg_Igen 0.100 0.324 0.150 | 0.233 0.036 0.012 | -0.436 0.126 0.046 | 0.491 0.161 0.095 Biz_Nem 0.135 0.754 0.115 | -0.009 0.000 0.000 | 0.302 0.107 0.030 | -0.742 0.646 0.294 Biz_Igen 0.115 0.754 0.135 | 0.011 0.000 0.000 | -0.355 0.107 0.035 | 0.871 0.646 0.345 ---------------------------------------------------------------------------------------------------
5.28. táblázat. Az indikátor mátrix sorainak (az egyedi sérüléseknek) a főkoordinátái -----------------------------------------------------------------------------------------Kategória QLT | FACTOR COR2 | FACTOR COR2 | FACTOR COR2 | AXIS 1 | AXIS 2 | AXIS 3 -----------------------------------------------------------------------------------------Konnyu 0.969 | -0.351 0.284 | -0.353 0.286 | 0.416 0.398 Sulyos 0.454 | -0.043 0.107 | 0.050 0.141 | -0.060 0.206 Halalos 0.959 | 0.455 0.486 | 0.292 0.200 | -0.342 0.274 ------------------------------------------------------------------------------------------
5..14. ábra Az indikátor mátrix oszlopainak prediktív térképe az első két főtengely síkjában .80
.40
0.0 A X I S 2
-.40
....+.......+.......+.......+.......+.......+.......+.......+.......+.... Kar_Nagy | + + + Seb_Gyor | | | | | | + + + Biz_Nem Leg_Nem Halalos | | | Sulyos +---+-------+-------+-------+-------+-------+-------+-------+-------+---+ | | Seb_Szag | Kar_Tota | | Konnyu Biz_Igen + + + | Leg_Igen | -
101
-.80
-1.2
| | | | + + + | | | | | | + + + | - Seb_Lass | | - Kar_Kis | ....+.......+.......+.......+.......+.......+.......+.......+.......+.... AXIS 1 -.60 0.0 .60 1.2
5.15. ábra Az indikátor mátrix oszlopainak prediktív térképe az első két főtengely síkjában .9
.6
.3 A X I S 3
0.
-.3
-.6
....+.......+.......+.......+.......+.......+.......+.......+.......+.... | + + + Biz_Igen | | | | | + + + | | Seb_Gyor | Leg_Igen Konnyu | | | + + + | | | | Kar_Nagy | | +---+-------+-------+-------+-------+-------+-------+-------+-------+---+ Sulyos Kar_Tota - Kar_Kis | | | | Seb_Szag | + + + Leg_Nem Halalos | | | | | + + + - Seb_Lass | | Biz_Nem | ....+.......+.......+.......+.......+.......+.......+.......+.......+.... AXIS 1 -.60 0.0 .60 1.2
5.16. ábra Az indikátor mátrix oszlopainak prediktív térképe az első két főtengely síkjában .9
.6
.3 A X I S 3
102
0.
........+.......+.......+.......+.......+.......+.......+.......+........ | + + + Biz_Igen | | | | | | + + + | | Leg_Igen | Seb_Gyor Konnyu | | | + + + | | | | | Kar_Nagy | +-------+-------+-------+-------+-------+-------+-------+-------+-------+ Kar_TotSulyos - Kar_Kis | | | -
-.3
-.6
Seb_Szag | + + + | Leg_Nem | Halalos | | | | + + + Seb_Lass | | | Biz_Nem | ........+.......+.......+.......+.......+.......+.......+.......+........ -1.2 -.60 0.0 .60
AXIS 2
103
6 MINTA-LIKELIHOOD-SOKASÁG 6 Minta-likelihood-sokaság Tekintsük az L(x|θ1,θ2,...,θq)=L(x|θ) likelohood függvénnyel definiált sokaságot, melyben az x változó valamely θ jellemzője (paramétere) ismeretlen, de döntésünk ennek közelítő ismeretét feltételezi. Ilyenkor becslési vagy hipotézisvizsgálati célból mintát veszünk a sokaságból, és a minta alapján következtetünk a sokaság egészére. 29 A többváltozós statisztika egy speciális területe az n elemű, x1 , x2 ,..., xn véletlen minta tulajdonságainak a vizsgálata, ugyanis a mintavétel tetszőlegesen sokszor megismételhető, ezért valamennyi mintaelem mintavételről mintavételre szóródó, ún. mintavételi véletlen változó. A statisztikai következtetés alapvető eszköze a mintaelemek, illetve a teljes minta likelihood függvénye, melyre a becsléselmélet és a hipotézisvizsgálat egyaránt támaszkodik. 30 A likelihood becslési és hipotézisvizsgálati vonatkozásai többváltozós megközelítést igényelnek tehát, miként az az alábbiakban tárgyalásra kerül.
6.1 LIKELIHOODELMÉLETI FOGALMAK Az x változó eloszlását leíró L(x) likelihood függvény azon esély mértékét számszerűsíti, miszerint a változó konkrét x értéke realizálódik. Az esélyt diszkrét kimenetelnél az L(x)=Pr(x=k) valószínűség (k=0,1,2,...), folytonos esetben pedig az L(x)=f(x) sűrűségfüggvény számszerűsíti. Vegyünk az x eloszlásból egy n elemű x1,x2,...,xn véletlen mintát, ahol a minta elemei egymástól független és azonos eloszlású (FAE) valószínűségi változók, közös eloszlásuk egyben a sokasági L(x|θ) eloszlás, ami a θ paraméter függvénye. Érdeklődésünk most a mintaelemek együttes realizálódásának az esélye felé fordul, melyet az alábbiak szerint definiálunk: Lminta L( x1 , x2 ,..., xn | θ) . A likelihood értéke ilymódon a mintában rejlő információ egyféle sűrítménye. Látható, hogy konkrét, már kiválasztott minta esetén is változik az együttes likelihood, ha változik a θ paraméter. Kihasználva, hogy a mintavétel FAE tulajdonságú, azaz a mintaelemek függetlenek és azonos eloszlásúak, a minta együttes likelihoodját a mintaelemek egyedi likelihoodjainak a szorzata adja meg: Lminta L( x1 | θ) L( x2 | θ) ... L( xn | θ) vagy tömörebben n
L L xi | θ . i 1
6.1. Példa Illusztratív céllal tekintsük a dummy jellegű x változót, melynek kimenetele csak 0, vagy 1 lehet. A két eseményhez tartozó sokasági valószínűségek (egyedi likelihoodok) rendre Pr(x=1)=P, és Pr(x=0)=1-P. E sokaságból véve n=2 elemű mintát, a különféle minták likelihoodjait tartalmazza az alábbi tábla: 6.1. Táblázat Kételemű, dichotom minta likelihoodja Minta Együttes likelihood 0,0 (1-P)(1-P) 0,1 (1-P)P 1,0 P(1-P) 1,1 PP Összesen 1 E példa alapján a likelihood függvény kétirányú felhasználását illusztráljuk: Ha a fenti példában a P=P0=0.2 hipotézissel élünk, akkor az egyes minták bekövetkezési valószínűségei rendre: 0.64, 0.16, 0.16, 0.04. Így pl. ha az (1,1) minta bekövetkezik, akkor tekintve annak kicsi valószínűségét (likelihood értékét), hipotézisünket kétellyel fogadjuk. Az (1,1) összetételű minta kritikus a P=0.2 hipotézis fenntartását illetően. 29 30
A becslés és hipotézisvizsgálat bevezető fogalmait lásd a () fejezetben. A pontbecslés módszerei között a likelihood maximálásának a lehetőségét a () alfejezetben már bevezettük.
104
Ha célunk a P paraméter becslése, akkor értelemszerűen azt az értéket fogadjuk el, amely mellett a realizálódott minta bekövetkezésének likelihoodja a legnagyobb, tehát a véletlen kiválasztásal nyert konkrét minta realizálódása a leginkább hihető. A példából látható, hogy amennyiben a (0,0) mintát kapjuk a mintavétel eredményeképp, akkor a megfelelő likelihood (1-P)2, ami akkor lesz maximális, ha P=0. Ha a (0,1), vagy az (1,0) mintát választottuk ki, akkor ennek likelihood függvénye 2P(1-P), amely P=0.5 esetén veszi fel maximumát. Végül, ha olyan mintát kapunk, amelyben mindkét elem 1, akkor a megfelelő likelihood függvény P=1 mellett veszi fel maximumát, azaz P=1 esetén a leginkább valószínű, hogy éppen ilyen minta adódjék.
6.1.1 A MAXIMUM LIKELIHOOD BECSLÉS Adott minta esetén a likelihood függvény csak az ismeretlen paraméter függvénye. Azt a paraméterértéket, amely mellet az adott minta likelihoodja a posteriori maximális, a paraméter maximum likelihood becslésének nevezzük: n
L L xi | θˆ ML max . i 1
Ha a likelihood függvényt nem specifikáljuk egyetlen mintára, hanem a mintatér bármely elemére értelmezzük, akkor ez a maximum a priori a minta függvénye is, ekkor maximum likelihood becslőfüggvényről beszélünk. A maximum likelihood (ML) becslés e becslőfüggvénynek egy konkrét mintára történő alkalmazása. A ML becslőfüggvény a likelihood szélső értékét és annak helyét keresi, és ez a hely nem változik, ha a likelihoodot szigorú monoton transzformációnak vetjük alá. A számítások egyszerűsítése érdekében érdemes tehát nem magának a likelihood függvénynek, hanem logaritmusának, a loglikelihoodnak a szélsőérték helyét keresni a paraméter tekintetében. Ezáltal – mint látni fogjuk – nem csak a szélsőértékszámítás egyszerűsödik, hanem a log-likelihood tulajdonságai további feladatok megoldását is lehetővé teszik. A loglikelihood függvénynek a j paraméter szerinti parciális deriváltja a „score függvény”, mely a minta együttes likelihoodjára alkalmazva: u j u j
log L . j
A ML módszer gyakorlati alkalmazása úgy történik, hogy először elkészítjük a likelihood függvényt, ennek vesszük a logaritmusát, majd a score zérushelyét meghatározva a loglikelihood szélsőértékhelyét keressük meg. Ez általában a minta függvényében adja meg az ismeretlen paramétert. Amennyiben meggyőződünk arról, hogy ez valóban maximumhely, a kapott függvényt a paraméter ML becslőfüggvényének tekintjük, adott minta esetén pedig számszerű értékét, a ML becslést is meghatározhatjuk. 6.2 Példa Tekintsük az x dummy változót, melyet a Pr(x=k)=Pk(1-P)1-k valószínűségi eloszlás jellemez, ahol k értéke 0 vagy 1. Becsüljük az x1,x2,...,xn FAE minta alapján a ML elv alkalmazásával e (Bernoulli) folyamat P paraméterét, ha tudjuk, hogy a mintában k számú „1” realizálódott. E konkrét minta együttes (P tekintetében maximálandó) likelihoodja: L P k (1 P)nk max . Logaritmálással a likelihood összeggé transzformálható: ln L k ln P (n k )ln(1 P) max amelyből a score-függvény ln L k n k k nP u . P P 1 P P(1 P) A loglikelihood (és így a likelihood) maximum helye azon P-érték lehet, amely mellett score=0 teljesül. Mint látjuk, ez a k PˆML n érték, azaz az 1 kimenetelek mintabeli relatív gyakorisága. Mivel ez egyben maximum hely (ez könnyen ellenőrizhető), ezért a mintán belüli relatív gyakoriság a P paraméter ML becslőfüggvénye. Ha történetesen egy 100 elemű mintában 23 esetben figyelünk meg „1” tulajdonságú kimenetelt, akkor a ML becslés 0.23. 6.3 Példa Egyparaméteres, folytonos eloszlású, nemnegatív x változó paraméterének a becslésére tekintsük példaként az exponenciális eloszlást, melyet egy pozitív θ paraméter függvényében az alábbi sűrűség (egyedi likelihood) függvény jellemez:
105
x
1 L( x ) e . Készítsünk ML becslőfüggvényt az n elemű x1,x2,...,xn FAE minta alapján a θ paraméterre. A minta FAE tulajdonságát kihasználva a minta együttes likelihood függvénye: n
L L( xi ) n e
nx
.
i 1
A log-likelihood függvény ekkor:
ln L n ln
nx
majd ennek deriváltja θ szerint:
ln L n nx n( x ) 2 (6.1) 2 amit 0-ra megoldva azt kapjuk, hogy θ ML becslőfüggvénye a mintaátlag, és mivel a második derivált ebben a pontban negatív, ez egyben maximumhely. A ML normálegyenleteknek nem mindig létezik explicit megoldása, és esetenként torzított becslőfüggvényt eredményez, továbbá a minta likelihoodja nem mindig definiálható. Ha viszont egy sokasági paraméternek létezik torzítatlan és hatásos (minimális varianciájú) becslő függvénye, akkor a ML ezt eredményezi. A ML kedvező tulajdonságai nagy minták esetén érvényesülnek. Amennyiben a mintanagyságot tetszés szerint növeljük, akkor a ML becslőfüggvényről belátható, hogy konzisztens, aszimptotikusan hatásos, és mintavételi határeloszlása normális. u
6.1.2 A „SCORE” FÜGGVÉNY TULAJDONSÁGAI Mint azt korábban már bevezettük, a loglikelihood θj paraméter szerinti (parciális) deriváltját „score” függvénynek nevezzük.31 A score értelmezhető az egyedi mintaelem, és a minta egészének a szintjén is. Az egyedi mintaelem score-függvénye (az egyszerűbb jelölés kedvéért elhagyva j alsó indexet) log L( xi ) . u ( xi ) u( xi ) E függvényérték mintavételi változó, és mintavételi várható értéke zéró. Emellett az n elemű minta együttes scorefüggvénye („a score”) log Lminta . u u A score FAE mintavétel esetén az alábbi mintavételi tulajdonságokkal bír. Mintavételi várható értéke zéró: E(u)=0. (6.2) Mintavételi varianciája az ún. Fisher-féle Iθ információ: Iθ=Var(lθ). (6.3) A becsült paraméterrel való mintavételi kovarianciája egységnyi: (6.4) Cov(u, ˆ ) 1 . A Fisher-információ alternatív definíció szerint a loglikelihood paraméter szerinti másodrendű deriváltjának várható értéke, negatív előjellel: 2 log L I E (6.5) . 2 Mikor a mintaelemek függetlenek, és azonos eloszlásúak, akkor a likelihood függvény szorzatként, a loglikelihood pedig, és ebből következően a score függvény is összegként írható fel: n
u u ( xi ) i 1
ahol az összegben szereplő n számú egyedi score várható értéke rendre 0, varianciájuk közös k2 állandó, és a Fisherinformáció e varianciák összege. A központi határeloszlás tételéből következően tehát a score függvény 31
A score függvény tulajdonságairól, azok bizonyításáról részletesen lásd Garthwaite-Jolliffe-Jones(1995).
106
határeloszlása olyan normális eloszlás, melynek várható értéke 0, varianciája pedig nk2, ami éppen a Fisher-féle információ.
6.1.3 A CRAMER-RAO EGYENLŐTLENSÉG A Cramer-Rao egyenlőtlenség valamely sokasági θ paraméter becslésére szolgáló becslőfüggvények mintavételi varianciáinak az alsó határát hivatott meghatározni a becsülendő paraméter függvényében. Ezt az alsó határt, ha létezik, információs határnak nevezzük. A Cramer-Rao egyenlőtlenség egyszerűbb vagy kiterjesztett formáinak az alkalmazása annak a függvénye, hogy a becslőfüggvény torzítatlan, vagy torzított a θ paraméterre, illetve, hogy egy vagy több paramétert foglal-e magában a θ paramétervektor. Ha ˆ torzítatlan becslőfüggvény, akkor az információs határ a Fisher-információ reciproka: 1 Var (ˆ ) . (6.6) I Ez a score és a becsült paraméter közötti lineáris korrelációs együttható tulajdonságaiból azonnal adódik, melynek most a számlálója (lásd a score fenti tulajdonságait) speciálisan 1: Cov 2 (u, ˆ ) 1 ru2,ˆ 1. Var (u ) Var (ˆ ) I Var (ˆ ) A (6.6) egyenlőtlenség a sokaság eloszlásától, és a becslőfüggvény alakjától függetlenül ad alsó korlátot a mintavételi varianciára. Ez egyben azt is jelenti, hogy amennyiben egy torzítatlan becslőfüggvény varianciája eléri az információs határt, azaz a Cramer-Rao egyenlőtlenség egyenlőség formájában teljesül, a nevezett becslőfüggvénynél nem található kisebb varianciájú, tehát az ilyen becslőfüggvény abszolút hatásos. A Cramer-Rao alsó határt fölvevő torzítatlan becslőfüggvény akkor és csak akkor létezik, ha u I (ˆ ) . Ha θ=[θ1,θ2,...,θq]T többdimenziós, akkor θj információs határának a meghatározása nem a Fisher-információt, hanem annak kiterjesztését, a Fisher-féle E információs mátrixot igényli, mely a parciális (paraméterenkénti) uj scorefüggvények (q,q) rendű kovariancia mátrixa: E(q,q) = Cuu melynek általános eleme [E]jt = E(ujut) = Cov(uj,ut).32 Alternatív formában az információs mátrix általános (j,t) indexpárú eleme [E]jt = -E( [H]jt ) = -E(ujt) ahol j=1,...,q, t=1,...,q és H a loglikelihood második deriváltjaiból készített Hesse matrix, melynek általános eleme 2 ln L . H jt j t Ezek birtokában legyen Ijt = [E-1]jt amellyel Var (ˆ j ) I jj .
6.4 Példa Tekintsük az exponenciális eloszlású változó θ paraméterének információs határát, és ennek segítségével értékeljük az előző példában kapott becslőfüggvényt a hatásosság szempontjából! Az információs határt kétféle módon is meghatározzuk. Képezve a log-likelihood második deriváltját a (6.1) formulából, majd ezt a (6.5) szabály szerint alkalmazva, és kihasználva, hogy exponenciális eloszlás esetén E ( x ) , adódik a Fisher-információ:
2 log L nx n nE ( x ) n 1 n . I E E 2 2 3 2 2 3 2 2 Var ( x ) E szerint pedig θ egyetlen torzítatlan becslőfüggvényének varianciája sem lehet kisebb mint θ 2/n. Látható, hogy a (6.6) azonossághoz jutottunk el. Mint azt a fentiekben megmutattuk, az exponenciális eloszlású sokaság θ paraméterének becslésére a ML módszer a mintabeli átlagot nyújtja, mint becslőfüggvényt. Ennek varianciája - a mintaátlag, valamint az exponenciális eloszlású alapsokaság tulajdonságai miatt - éppen a Fisher-információ reciproka, vagyis a Cramer-Rao egyenlőtlenség most egyenlőség formájában teljesül. A mintaátlag tehát abszolút hatásos becslőfüggvény. Másik megközelítésben, a Var(u)=Iθ definíció alapján a Fisher információ példánkban 32
Itt E(.) továbra is várható értéket jelöl. Mivel a score várható értéke zéró, ezért szorzatuk várható értéke egyben kovarianciájukat jelenti.
107
1 n( x ) n n I Var . 2 Var ( x ) 2 Var ( x ) 2 Var ( x ) 2
2
6.1.4 A MAXIMUM LIKELIHOOD NORMÁLEGYENLETEK Amennyiben a vizsgált eloszlás nem egy, hanem több paraméterrel jellemzett, úgy a θ=[θ1,θ2,...,θq]T paramétervektor ML becslését kell előállítanunk. Az egydimenziós eset analógiájára a likelihood függvény logaritmusát parciálisan deriváljuk a paraméterek szerint, majd a zéróra rendezett log L u j 0 ( j 1, 2,..., q) j vagy tömörebben uθ = 0 maximum likelihood normál egyenletrendszert megoldjuk. 6.5 Példa Tekintsük az x~N(μ,σ2) normális eloszlás két paraméterének ML becslését egy n elemű FAE minta alapján. A minta együttes likelihoodja: n
1
L (22 ) 2 e
1 2 2
( xi )2
n
n
(2) 2 (2 ) 2 e
1 2 2
in1 ( xi )
2
i 1
a loglikelihood
n n 1 ln L ln(2) ln 2 2 in1 ( xi ) 2 2 2 2 majd a ML normál egyenletek ln L 1 u 2 in1 ( xi ) 0 ln L n 1 u2 2 4 in1 ( xi ) 2 0 . 2 2 2 1 n n Képezve a i 1 xi x mintaátlagot, majd az i 1 ( xi x ) 2 2x mintabeli varianciát, és e két értéket n 2 szerepeltetve μ és helyén, a normál egyenletek láthatóan teljesülnek: in1 ( xi x ) 0
1 in1 ( xi x ) 2 0. n 2x A normális eloszlás μ paraméterének ML becslése a torzítatlan mintaátlag, a σ 2 paraméter ML becslése pedig a torzított mintabeli variancia, ha valóban maximumhelyet jelentenek. Tekintsük tehát a log-likelihood második deriváltjait is: 2 ln L n 2 2 1
2 ln L n 1 in1 ( xi )2 (2 )2 24 6 2 ln L 1 4 in1 ( xi ) . 2
Mivel várható értékben
n n E 2 2 1 n n2 n n E 4 6 in1 ( xi ) 2 4 6 4 2 2 2
108
1 E 4 in1 ( xi ) 0 ezért az információs mátrix, mely a második deriváltak mintavételi várható értékeinek negatívjait tartalmazza: n 0 2 E( ,2 ) n 0 24 az inverze pedig 2 0 n 1 . E ( , 2 ) 4 2 0 n Az uθ = 0 normál egyenletrendszer megoldása bizonyos esetekben (mint most) zárt formulákra vezet, más esetekben viszont iteratív algoritmus révén áll elő a likelihood maximált, vagy negatívjának a minimált értéke. A normálegyenletrendszert (többek között) a Newton-Raphson eljárással, vagy a Fisher-scoring algoritmussal oldjuk meg. A Newton-Raphson eljárás általában az fk(θ1,θ2,...,θq)=0 (k=1,2,...,q) zéróra rendezett nemlineáris egyenletrendszer megoldására szolgál. A feladat tömören az f(θ)=0 formában is írható, ahol f=[f1,f2,...,fq] és θ=[θ1,θ2,...,θq]. Az f(θ) függvény Taylor-sorba fejtésen alapuló lokális, lineáris közelítésével egy θ0 pont körül, a megoldandó egyenletrendszer: f(θ) f0 + J0(θ - θ0) = 0 (6.7) ahol J(q,q) a Jacobi-mátrix, melynek k. sora a [fk/θ1, fk/θ2,..., fk/θq]0 gradiens vektor a θ0 pontban, és f0=[f1,f2,...,fq]0 szintén a θ0 pontban. A ML normálegyenletek megoldásakor kihasználjuk, hogy a többváltozós függvény most az fk=uk=lnL/θk scorefüggvény (mely maga is a maximálandó lnL gradiense), ezért az egyenletrendszerhez tartozó Jacobi-mátrix egyben az lnL loglikelihood második deriváltjaiból képzett Hesse-mátrix: J=[lk/θt]=[2lnL/θkθt]=H, ahol k,t=1,2,...,q. Legyen θ0 egy induló becslés a paramétervektorra, és jelölje u0, illetve H0 a score vektor, valamint a Hesse mátrix értékét a θ0 pontban. Ekkor (6.7) átrendezésével a következő θ1 becslés:
θ1 θ0 H 0 u 0 . 1
Ennek az eljárásnak hátránya, hogy ha az induló megoldás messze van a ML becsléstől, akkor az eljárás nem konvergál. A Fisher-féle scoring algoritmus a Newton-Raphson módszertől annyiban különbözik, hogy a Hesse mátrixot az iteráció során az információs mátrixszal helyettesíti. Így az iteráció s+1. lépésében:
θ s 1 θ s Es u s . 1
(6.8)
Ennek két előnye is van. Egyfelől az információs mátrix meghatározható pusztán a parciális score változókból, másrészt, az információs mátrix (lévén kovariancia mátrix) mindig pozitív definit. (Ezért nem lép fel konvergencia probléma, ami viszont megtörténhet a Newton-Raphson módszer esetében.) Megjegyezzük, hogy ha a vizsgált eloszlás az exponenciális eloszláscsaládból való, akkor a fenti két algoritmus ekvivalens egymással.
6.1.5 MAXIMÁLT LIKELIHOOD NORMALITÁS ESETÉN Kiterjesztve a változók számát p dimenzióra, az x változó p-dimenziós normális eloszlású μ és Σ paraméterekkel, azaz x~N(μ,Σ), ha sűrűségfüggvénye: p
1
1
xμ T Σ1 xμ
(6.9) f (x) 2 2 Σ 2 e 2 T ahol μ=[μ1,μ2...,μp] a várható értékek vektora (a sokaság p-dimenziós centroidja), Σ(p,p) pedig a változók közti kapcsolatokat kifejező (p,p) rendű kovariancia mátrix, melynek általános eleme: [Σ]jt=Cov(xj,xt). Vegyük észre, hogy 2x (x μ)T Σ 1 (x μ) az x pontnak a centroidtól vett Mahalanobis távolsága. Tekintsünk egy n elemű FAE mintát, ahol az xi=[xi1,...,xip]T megfigyelés alkotja az i. mintaelemet (i=1,2,...,n), xij pedig a j változó realizációja az i megfigyelés esetén. Ezután a minta likelihoodja:
109
n
L 2
p 2
Σ
1 2
e
i2
2
2
np 2
Σ
n 2
e
1 2
i 1 i2 n
.
i 1
T
A paraméterek becslése érdekében bevezetjük a mintabeli x x1 , x2 ,..., x p centroidot, és az ebből számított mintabeli (nem korrigált) C kovariancia mátrixot. Bontsuk továbbá a sokasági centroidtól vett Mahalanobis távolságok mintabeli összegét az alábbi két mennyiség összegére (a részletes átalakításokat lásd e fejezet gyakorló példájaként): n
n
x i 1
2 i
i 1
μ Σ1 xi μ tr nΣ1C n x μ Σ1 x μ . T
i
T
A minta likelihoodja μ tekintetében (parciálisan) akkor maximális, ha n x μ Σ1 x μ 0 , vagyis a mintabeli centroidnak a μ paramétertől vett távolsága zéró. A μ paraméter ML becslése tehát a mintabeli centroid, és az így μ tekintetében maximált likelihood értéke: T
L( x, Σ) 2
np 2
Σ
n 2
e
n tr Σ1C 2
.
(6.10)
A likelihood Σ szerinti további maximálása érdekében írjuk fel az L( x, Σ) likelihoodot az alábbi formában:: L ( x , Σ) 2 2
np 2
np 2
ΣC1C n
Σ 1C 2 C
2
np 2
C
n 2
n
n 2
n 2
e
e
n tr Σ 1C 2
i 2 e n
n tr Σ 1C 2
n i 2
i 1
1
ahol λi a Σ C mátrix sajátértéke. Itt csak a produktum függ az eloszlás paramétereitől, és ez a kifejezés akkor maximális, ha λi=1 minden i-re, vagyis Σ1C I . Ebből Σ ML becslése a mintabeli C kovariancia mátrix. Végül a normális eloszlás maximált loglikelihoodjának értéke: np n n n np ln Lmax ln L x, C ln 2 ln | C | tr C1C c ln | C | (6.11) 2 2 2 2 2 ahol c a paraméterektől független normáló konstans tagot jelöli, és tr C1C tr (I p ) p . 33
Természetesen a loglikelihood negatívjának minimálása ugyanarra az eredményre vezet, mint lnL maximálása, ahogy az a gyakorlatban többnyire történik. Ekkor34 2 ln Lmax c ln | C | p . (6.12) n
6.2 HIPOTÉZISEK LIKELIHOOD ALAPÚ TESZTELÉSE Teszt statisztikák definiálása többféle elv, módszer alapján történhet. A próbakészítés konfidencia intervallum elvére a hipotésvizsgálat alapfogalmainak a tárgyalása során már kitértünk. Egymásba ágyazott (nested) modelleket definiáló H0 és H1 hipotézisek közötti döntést azonban (nagymintás esetben) a minta maximált likelihoodja szolgálja. Az alternatív hipotézisbe ágyazottnak nevezzük a null hipotézist akkor, ha egy vagy több paraméterének a rögzítése az alternatív modell szűkített változatát eredményezi. Az L(x1,x2,...,xn|H0) és L(x1,x2,...,xn|H1) feltételes likelihood értékek azt mutatják, hogy az adott minta bekövetkezése a H 0, vagy a H1 szerinti valóság esetén, hihetőbb-e. Beágyazott hipotézisek ellenőrzésére az alábbi három konzisztens, nagy minták esetén használható módszer valamelyike szolgál.
6.2.1 A LIKELIHOOD-ARÁNY TESZT Tekintsük az x változó eloszlását jellemző L(x,γ1,γ2,...|θ1,θ2,...) likelihood függvényt, ahol L(x) értékét kötött γ, és szabad θ paraméterek egyaránt meghatározzák. A kötött paraméterek értéke adottság, nem változtatható. Rögzített x érték likelihoodját így a szabad paraméterek értékei alakítják. A H 1 hipotézis az eloszlás likelihoodját (mint 33 34
Emlékeztetünk rá, hogy a mátrix determinánsa sajátértékeinek a szorzata, nyoma pedig a sajátértékeinek az összege. E formula egy későbbi fejezetben, a faktormodell ML becslése során alapvető fontosságú lesz.
110
referencia modellt) a θ1,θ2,...θp szabad paraméterekkel definiálja, míg a null hipotézis H0:θ#=θ#0 megszorítást, korlátozást tesz kiemelt θ# paraméterekre. Ha a hipotetikus θ #0 érték zéró, akkor ez egyben a paraméterek körének a szűkítését is jelenti. Kérdés, hogy a korlátozott és a teljes modell között van-e lényegi különbség. Ennek eldöntését szolgálja az alábbi módszer, melynek alapelve, hogy a minta likelihoodját mind a H0 modell által definiált, mind a H1 modell által definiált eloszlás mellett maximálja, és e két maximált L0 és L1 likelihoodot összehasonlítja. Mivel korlátozott maximum nem haladhatja meg a korlátozás nélkülit, ezért L0≤L1, és így a likelihood-arány (Likelihood Ratio): L 0 LR 0 1 (6.13) L1 ahol a nevezetes likelihood-arány. Látható, hogy ha értéke egyhez közeli, akkor a korlátozásnak nincs releváns hatása, ez pedig a null hipotézis fenntartását sugallja. Ezzel szemben, ha zéróközeli érték, akkor ez a korlátozás jelentős voltát mutatja, azt, hogy az alternatív hipotézis szerinti modell becslése jelentősen növeli a minta likelihoodját. A likelihood-arány elv arra a tételre épül, miszerint a likelihood aránynak egy egyszerű transzformáltja a sokasági eloszlás típusától függetlenül nagy minták esetén közelítőleg chi-négyzet eloszlást követ q szabadságfokkal, ahol q a szabad paraméterekre tett korlátozások számát jelenti. (6.14) 2ln 2 ln L0 ln L1 ~ 2q 6.6 Példa Tekintsük a Pr(x=k)=Pk(1-P)1-k Bernoulli folyamat P paraméterére vonatkozó H0:P=P0 hipotézis LR tesztelését az x1,x2,...,xn FAE minta alapján, ahol k={1,0}, és a mintaelemek között f számú „1” található. Mint ismeretes, a P paraméter ML becslése a Pˆ f / n mintabeli relatív gyakoriság. Mivel a minta likelihoodja Pf(1-P)n-f, ezért a LR teszt statisztika: P f (1 P0 ) n f 2 ln 2 ln 0 . n f Pˆ f 1 Pˆ
6.7 Példa Legyen most a sokasági eloszlás x~N(μ, ) ismert varianciával, és legyen FAE mintánk továbbra is x1,x2,...,xn. A nullhipotézis szerint H0:μ=μ0, az alternatív hipotézis pedig H1:μμ0. Készítsük el a teszt függvényt a likelihood-arány elv alapján! Most 2 kötött, μ pedig szabad paraméter, melynek ML becslése a mintaátlag. Ezért a korlátozás nélküli maximált loglikelihood: n n 1 ln L1 ln(2) ln 2 2 in1 ( xi x ) 2 2 2 2 a hipotézis által korlátozott loglikelihood érték pedig n n 1 ln L0 ln(2) ln 2 2 in1 ( xi 0 ) 2 . 2 2 2 A likelihood arány tesztfüggvény végül 35 1 2(ln L0 ln L1 ) 2 in1 ( xi 0 ) 2 in1 ( xi x ) 2 2
2
1 x 0 2 2 2 2 n n 2 i 1 ( xi x ) n( x 0 ) i 1 ( xi x ) ~ 1 . n Mint látható, a fenti példában a LR teszt egzaktan χ2 eloszlást követ. Bár a LR teszt nagymintás esetben mindig aszimptótikusan χ2 eloszlású, mivel egzaktan nem χ2 eloszlású, ezért kismintás esetben alkalmazása félrevezető lehet. Erre hívja fel a figyelmet az alábbi példa.
6.8 Példa Legyen a sokasági eloszlás ismét x~N(μ,2), de most mindkét paraméter szabad paraméter. Ezzel a minta likelihoodja tovább növelhető. A nullhipotézis szerint továbbra is H 0:μ=μ0, az alternatív hipotézis pedig kétoldali: H1:μμ0. Készítsük el a tesztfüggvényt a LR elv alapján a módosított körülmények között! Mivel a variancia most becsülendő, és a μ paraméternek is függvénye, ezért a korlátozás nélkül maximált likelihoodban μ ML becslése, a korlátozott modellben pedig a hipotetikus értéke épül be a σ paraméter ML becslésébe. Mint ismert a likelihood elméletből, σ2 ML becslése a mintabeli klasszikus (nem korrigált) variancia. Legyen: 35
Az átalakításoknál az
xi 0
változó varianciájának momentum felbontását, továbbá a lineárisan transzformált változó varianciájára és
átlagára vonatkozó tételt használtuk.
111
1 n 2 i 1 ( xi x ) n
ˆ 2
és 2
1 n 2 i 1 ( xi 0 ) . n
Ekkor a korlátozás nélküli maximált log-likelihood:
n n n ln L1 ln(2) ln ˆ 2 2 2 2 a hipotézis által korlátozott log-likelihood érték pedig n n n ln L0 ln(2) ln 2 . 2 2 2 A fenti formulákból (egyszerű átrendezéssel) a likelihood arány tesztfüggvény végül 2 2 2 L n ( x 0 ) in1 ( xi x ) n( x 0 ) 2ln 0 n ln i n1 i n ln 2 2 L1 i 1 ( xi x ) in1 ( xi x ) t2 n ln 1 . n 1 ahol x 0 s n a jólismert kétoldali t-teszt. Az LR teszt chi-négyzet közelítése most csak nagymintás esetben használható megbízhatóan. t
6.2.2 A LAGRANGE-MULTIPLIKÁTOR ELV A Lagrange-multiplikátor (vagy score) elv alapja, hogy a korlátozás nélküli modellben valamely paraméter ML becsült értékéhez tartozó loglikelihood parciális deriváltja (a maximálás miatt) zéró, míg a korlátozott modell esetén ettől eltér. Az eltérést a score (u) varianciájával, a Fisher-féle információval normáljuk. Ha ez az eltérés jelentős, akkor a korlátozás lényeges mértékben változtatja meg a likelihood értéket. A LM tesztfüggvény magja a score null hipotézis melletti értéke. A próbafüggvény egyetlen korlátozás esetében
u LM
( 0 )
I ( ˆ )
I ( 0 )
u 2
( 0 )
0
I ( 0 )
u 2
2
( 0 )
I ( 0 )
(6.15)
alakú, amelyről kimutatható, hogy H0 alatt aszimptotikusan 1 szabadságfokú chi-négyzet eloszlást követ. 6.9 Példa Tekintsük az ismert varianciájú N(μ,2) normális eloszlás μ várható értékére vonatkozó kétoldali hipotézis tesztelését, az LM tesztfüggvény alkalmazásával. A score függvény értéke a nullhipotézis pontjában: n( x 0 ) 1 . u(0 ) 2 in1 ( xi 0 ) 2 A Fisher-információ a nullhipotézis pontjában (jelen esetben független a μ paramétertől, és így a nullhipotézistől is): n I ( 0 ) 2 . A fentieket egybevéve a LM teszt statisztika: ( x 0 ) 2 . LM 2 n Az ismert varianciájú normális eloszlás várható értékének a tesztelésére a LR és a LM teszt elv ugyanazt a próbafüggvényt javasolja. Nem mondható el viszont ugyanez a binomiális eloszlás P paraméterére vonatkozó H0:P=P0 hipotézis tesztelésekor. A score függvény a P0 pontban:
112
u( P0 )
nPˆ nP0 , nP0 (1 P0 )
I ( P0 )
n , P0 (1 P0 )
a Fisher-információ a nullhipotézis pontjában
végül a LM teszt statisztika: ( nPˆ nP0 ) 2 . nP0 (1 P0 ) Ha a θ=(θ1,θ2,...,θp)T paramétervektor nem egy, hanem p elemű, és k≤p számú korlátozást rögzít a nullhipotézis, akkor a LM próbafüggvényt az u score-vektort, és az E információs mátrixot tartalmazó kvadratikus forma adja: LM uT ( 0 ) E1( 0 ) u ( 0 ) . LM
Ez H0 érvénye mellett aszimptotikusan chi-négyzet eloszlást követ k szabadsági fokkal.
6.2.3 A WALD ELV A harmadik aszimptótikus próbakészítési elv a Wald elv, mely a H0 : R θ r lineáris korlátozásokat tartalmazó nullhipotézist teszteli a H1 : R θ r alternatív hipotézissel szemben, ahol R együttható mátrix, r pedig a korlátozásokat tartalmazó vektor. Konstrukciójánál fogva ML tesztnek is nevezik, mivel teszt statisztikája nem más, mint a maximum likelihood becslésnek a hipotézistől vett Mahalanobis távolsága (az információs E mátrix a ML becslések kovariancia mátrixának az inverze): (6.16) W (θˆ θ0 )T E(ˆ ) (θˆ θ0 ) . A Wald-statisztika alternatív, de aszimptotikusan ekvivalens formája: W (θˆ θ0 )T E( 0 ) (θˆ θ0 ) .
(6.17)
Ha az R együttható mátrixban definiált független korlátozások száma k, vagyis R rangja k, akkor W aszimptotikusan χ2 eloszlású k szabadsági fokkal. 6.10 Példa A binomiális eloszlás P paraméterére vonatkozó H0:P=P0 hipotézis tesztelése Wald próbával az alábbiak szerint történik. A Fisher-információ a ML becslési pontban: n I ( Pˆ ) Pˆ (1 Pˆ ) és a Wald-statisztika:
W Pˆ P0
2
n
nPˆ nP
2
0
. Pˆ (1 Pˆ ) nPˆ (1 Pˆ ) A fenti három, általánosan alkalmazható próbakészítési elvvel kapcsolatban néhány összefoglaló megjegyzést kell tennünk. Mindhárom elv egymásba ágyazott hipotézisek esetére javasol aszimptotikus, nagy mintás érvényű teszt statisztikát. Az így kapott próbák aszimptotikusan ekvivalensek, konzisztensek, mindhárom chi-négyzet eloszlású, és jobboldali kritikus tartománnyal rendelkezik. A fenti elvek közül a LR két, a LM egy likelihood függvény értékelését követeli meg, míg a W elv esetén a likelihood függvényt csak a becslés előállításához használjuk fel. Mivel mindhárom aszimptotikus érvényű és a határon ekvivalensek, a köztük való választást mindig az adott feladat, a célszerűség és az egyszerűség határozza meg.
6.3 GYAKORLÓ FELADATOK 0.1. Egy brókercég megfigyelte, hogy bizonyos értékpapírok árfolyamának napi ingadozása jól modellezhető a geometriai eloszlással. Annak valószínűsége ugyanis, hogy az árfolyam k napon keresztül egy irányba mozog (nő vagy csökken) geometriai eloszlással írható le, melynek valószínűségeloszlása: Pr(X=k) = k(1-), ahol 0 < < 1 és k=0,1,2,…
113
Egy 100 elemű megfigyelés-sorozatból megállapították, hogy az irányváltozások átlagosan 3.2 naponként következnek be. Feladat: Készítsen maximum likelihood becslőfüggvényt az eloszlás λ paraméterére, és számítsa ki a becslés értékét! 0.2. Határozza meg a többváltozós normális eloszlásból származó, n elemű FAE mintában értelmezett n
n
x 2 i
i 1
i 1
μ Σ1 xi μ T
i
összegzett Mahalanobis távolság értékét a mintabeli x centroid, és a mintabeli C kovariancia mátrix függvényében. Megoldás: Mivel a Mahalanobis távolság egy kvadratikus forma, mely skaláris szorzatként is fölírható, és a skaláris szorzat megegyezik a tényezők diadikus szorzatának a nyomával, ezért: n
n
x 2 i
i 1
i 1
μ Σ1 xi μ T
i
Σ1 xi μ xi μ tr Σ1 xi μ xi μ n
T
i 1
n
T
i 1
T tr Σ1 xi x x μ xi x x μ i 1 n
n n n 1 T T tr Σ1n xi x xi x x μ Σ 1 x μ 2Σ 1 x μ (xi x ) i 1 n i 1 i 1
tr Σ1nC n x μ Σ1 x μ 2 0 . T
114
II AZ ÁLTALÁNOS LINEÁRIS MODELL
115
7 NEVEZETES ELOSZLÁSOK REGRESSZIÓS MODELLJEI 7 Nevezetes eloszlások regressziós modelljei A regressziós modell egy sztochasztikus y jelenség alakulását az x1,x2,...,xp tényezőkkel magyarázza elemzési, illetve előrejelzési céllal. A modellt általánosságban az y E y | x1 , x2 ,..., x p x formula definiálja, ahol x az eredményváltozó x1 , x2 ,..., x p feltétel mellett, a modell szerint várható értéke. A modell szerinti x feltételes várható értéket regressziónak nevezzük, mely az x feltétel, és rögzített 1 , 2 ... regressziós paraméterek által a g(.) és f(.) függvényeken keresztül determinált: g x f x, β . A maradék jellegű, reziduális ε változó a modell által nem specifikált, egyéb alakító tényezők együttes hatását tükrözi. A reziduális tag nyújtja a modell sztochasztikus jellegét, rajta keresztül ítélhető meg a modell, és a valóság viszonya. A magyarázó változók értékeinek egy rögzített x x1 , x2 ,..., x p variánsát kovariánsnak nevezzük. A regressziós modell szűkítése az f(.) függvényt illetően kétirányú: beszélünk lineáris modellről, és nemlineáris regresszióról. A nemlinearitás értelmezhető az x változók, és értelmezhető a β paraméterek tekintetében egyaránt. Mi a későbbiekben a paramétereiben lineáris és nemlineáris megkülönböztetéssel foglalkozunk. Ha f(.) lineáris függvény, akkor g x az általános lineáris modellt (GLM) jelenti.36 A GLM általánosítása is kettős. Egyfelől kérdés, hogy a feltételes várható értéknek mely g x transzformációja magyarázható lineárisan a regressziós paramétereken (és az x feltételen) keresztül, másrészt a probléma rögzített g(.) függvény mellett is elágazhat atekintetben, hogy milyen típusú valószínűségi eloszlás várható értékét modellezzük. Az általános lineáris modellben az y eredmény változó xi xi1 , xi 2 ,..., xip feltétel melletti μi várható értékének valamely g (i ) függvénye lineáris modell szerint alakul (i=1,2,...,n):
g (i ) 1 xi1 2 xi 2 ... p xip xTi β .
(7.18)
A g(.) függvényt link függvénynek nevezzük, mely összekapcsolja a feltételes várható értéket az x β ún. lineáris prediktorral.37 Az első, 1 regressziós paraméter tartalmilag tengelymetszet akkor, ha az x1 magyarázó változó értéke mindig 1. A GLM alkalmazása az eredmény változó feltételes valószínűségi eloszlás-típusának a megszorítását is igényli. Ez a linearizálható exponenciális eloszláscsalád bármely tagja lehet, melynek egyedi likelihoodja az yi megfigyelés esetén θi kanonikus paraméterrel a y b(i ) (7.19) L( yi , i , ) exp i i c( yi , ) a ( ) i T i
formában felírható, ahol ai(.), b(.) és c(.) valamely függvények, és valamennyi feltételre közös szóródási paraméter. Az ai () függvény többnyire az ai formát ölti, ahol ai ismert súly. Az Olvasó könnyen ellenőrizheti (lásd például az (1.11), (1.19) és (1.20) formulákat), hogy számos eloszlás hozható erre az alakra. A θ i paraméter kapcsolja össze a magyarázó változókat az Li likelihooddal a lineáris prediktoron keresztül. Ha a link-függvény megegyezik a θi paraméterrel, vagyis i g i , akkor kanonikus link függvényt definiálunk. A kanonikus link-függvény meghatározása érdekében tekintsük a feltételes yi megfigyelés E(y) várható értékét és Var(y) varianciáját, a θ kanonikus paraméter függvényében az alábbi lépések szerint (elhagyva a kovariánst azonosító i indexet).38 A loglikelihood formája most y b() ln L( y, , ) c( y, ) a() ezért a score-függvény (ezt ebben az alfejezetben u jelöli)
36
Generalized Linear Model. Prediction: előrejelzés. 38 Bővebben lásd McCullagh és Nelder (1983). 37
116
ln L y b '() . a() Mivel az u score várható értéke (lásd (7.2) azonosság) nulla, vagyis E(u)=0, ezért a kanonikus paraméter függvényében az eloszlás (modellezendő) várható értéke: (7.20) E( y) b() . A Var(yi) feltételes variancia jellemzése érdekében továbbmenve, és kihasználva, hogy a b() várható érték már nincs kitéve mintavételi ingadozásnak, ezért a score varianciája 1 Var (u ) 2 Var ( y ) a u
amiből, mivel a likelihood elméletből () alapján Var (u) E u b ''() Var ( y ) E a a () 1
2
majd átrendezéssel
Var ( y) a() b() . Visszatérve az (i=1,2,...,n) feltételek megkülönböztetéséhez, a feltételes variancia: Var ( yi ) ai () b(i ) .
(7.21) (7.22)
Az eredményváltozó varianciája tehát feltételről feltételre változhat, de konstans is lehet. Ha Var ( yi ) konstans, akkor a regressziós modell homoszkedasztikus, egyébként heteroszkedasztikus. Az alábbiakban három nevezetes eloszlás – a normális, a binomiális és a Poisson eloszlás – várható értékének kanonikus link-függvényét vizsgáljuk. Az eloszlások sűrűségfüggvényét, várható értékét és varianciáját lásd az 1. fejezetben.
7.1 NORMÁLIS ELOSZLÁS, LINEÁRIS REGRESSZIÓ Most az yi megfigyelés egyedi likelihoodja: yi2 i2 yi i 2 2 2 L( yi , i , 2 ) exp ln 2 2 2 tehát ez esetben , ai 1 és i i , majd
b i tehát a kanonikus link
(7.23)
yi2 i2 i i 2 2
g i i
vagyis magát a várható értéket modellezzük lineárisan i xTi β . Végül a regressziós modell: yi xTi β i . Könnyen ellenőrizhető, hogy ebben az esetben Var ( y) 12b i 2
(7.24)
azaz konstans.
7.2 BINOMIÁLIS ELOSZLÁS, LOGIT REGRESSZIÓ
117
Legyen az xi feltétel mellett végzett véletlen megfigyelésünk eredménye kétféle kimenetel („1” vagy „0” tulajdonság) valamelyike, rendre Pi és (1-Pi) valószínűséggel. Tekintsük az ni elemű FAE véletlen mintában az „1” kimenetelek yi számát mint binomiális eloszlású eredmény változót, melynek valószínűségi eloszlása (az yi pont egyedi likelihoodja Pi és ni paraméterekkel) n n y (7.25) Pr( yi |Pi ,ni ) L( yi |Pi ,ni ) i Pi yi 1 Pi i i y i
n P 1 exp yi ln i ni ln ln i y 1 P 1 P i i i ahol az ni számú megfigyelés közül yi számú „1” tulajdonságú, a többi (ni-yi) számú pedig „0” tulajdonságú: yi=0,1,2,...,ni egész. Ha az i feltétel mellett ni=1 elemű mintát veszünk, akkor yi={0,1} bináris. A Pi/(1-Pi) valószínűségi arányt odds aránynak nevezzük, melynek logaritmusa az ún. logit, amely most éppen a kanonikus paraméter. Ezért a kanonikus link-függvény ez esetben a logit-link: P i ln i logit Pi xTi β . (7.26) 1 Pi A (7.26) formulát logit regressziónak nevezzük. Továbbmenve, a b(.) függvény: P 1 b(i ) ni ln ni ln 1 i ni ln 1 ei 1 Pi 1 Pi az ai(.) függvény pedig: 1. Mivel ei Pi 1 ei ezért ei (7.27) E ( yi ) i b(i ) ni ni Pi 1 ei ei 1 Var ( yi ) 1 b(i ) ni ni Pi (1 Pi ) . (7.28) i 1 e 1 ei Vegyük észre, hogy most Var(yi) feltételről feltételre változik. A kanonikus linket választva tehát a regressziós modell:
T
yi ni
exi β
i . T 1 exi β A binomiális eloszlás várható értékének alternatív link függvényei a probit, és a log-log link függvények. A probit link szerint: g ( Pi ) 1 ( Pi ) probit Pi xTi β amiből Pi xTi β származik, ahol (.) a standard normális eloszlás kumulatív eloszlásfüggvénye. A log-log link függvény mellett pedig g ( Pi ) ln ln 1 Pi xTi β . A log-log link fontos tulajdonsága, hogy nem szimmetrikus a P i=0.5 értékre.
7.3 POISSON ELOSZLÁS, POISSON REGRESSZIÓ Legyen yi Poisson eloszlású λi pozitív paraméterrel, ahol a valószínűségeloszlás függvénye (egyben likelihood):
Pr( yi | ) L( yi | i )
i
yi
ei
yi !
(7.29)
exp yi ln i i ln( yi !) ahol yi=0,1,2,... A kanonikus paraméter tehát: i ln i xTi β .
118
(7.30)
Mivel b(θi)=λi=exp{θi}, ezért a várható érték E ( yi ) b(i ) ei i e xi β T
(7.31)
és a regressziós modell T
yi e xi β i ahol Var(yi)=λi=μi. Az ilyen típusú regressziót Poisson regressziónak nevezzük. Látható, hogy a Poisson regresszió (csakúgy mint a logit regresszió) definíció szerint heteroszkedasztikus a feltételes varianciát illetően. Az alábbiakban részletesen előbb a normális eloszlású eredmény változó esetével, vagyis a lineáris regresszió kérdéseivel foglalkozunk. Ezt követően visszatérünk a GLM paraméterbecslési és illeszkedésvizsgálati eljárásaira általánosságban, majd speciális lineáris modelleket, végül pedig a nemlineáris regressziót tárgyaljuk..
119
8 LINEÁRIS REGRESSZIÓSZÁMÍTÁS 8 Lineáris regressziószámítás A lineáris regresszió a feltételes várható értéket a magyarázó változók lineáris kombinációjaként specifikálja: x 0 1 x1 2 x2 ... p x p ahol a j paraméterek a modell szerint rögzített, de ismeretlen értékek. A 0 tengelymetszet egyben az eredmény változó várható értéke a magyarázó változók egyidejű zérus szintje mellett. A 1,2,...,p parciális meredekségek a vonatkozó magyarázó változóban történt egységnyi abszolút változásnak az eredmény változóra gyakorolt abszolút hatását tükrözik. A parciális meredekséget ceteris paribus értelmezzük, a többi x tényező szinten tartása mellett. A modellre gyakorta az y.x1,x2,...,xp, vagy az y.1.2...p formában is hivatkozunk, és ebben az értelemben a modell (az eredmény változót beleértve, de a maradék változót nem), terminológiánk szerint p+1 változós. A regresszió ismeretében valamely y érték a reziduális eltéréssel kiegyenlítve: y x . Az maradék változó feltételes várható értéke (lévén várható értéktől vett eltérés) definíció szerint zérus: E{ε|x}=0. Ebből következően a véletlen változó várható értéke mindenféle értelemben, tehát feltételre való tekintet nélkül is zérus. Az ε változó varianciáját teljeskörűen, feltételre való tekintet nélkül értelmezve, annak értékét az alábbi tényezők alakítják: (8.1) 2 2y 2y 2Cy , 2 p
p
p
2y 2 j C y , x j j k Cx j , xk . j 1
(8.2)
j 1 k 1
Természetesen a regresszió annál jobban tükrözi a valóságot, minél kisebb maradékkal közelíti azt, minél kisebb a maradékok varianciája, illetve négyzetösszege. Feltételes értelemben viszont, adott x feltétel mellett x a modell szerint rögzített, nem szóródó várható érték, ezért feltételesen 2| x 2y| x . Mikor az 2y| x variancia bármely x mellett σ2 konstans, akkor homoszkedasztikus, egyébként pedig heteroszkedasztikus modellről beszélünk. Ha az eredmény változó alakulását csak egyetlen, az x változóval magyarázzuk, akkor kétváltozós y.x modellt definiálunk. Ekkor az E{y|x} feltételes várható érték egyszerűen (8.3) E{ y | x} x . Bár a valóság jelenségei ritkán magyarázhatók pusztán egyetlen tényezővel, a kétváltozós modell segít a többváltozós megközelítés eredményeinek az értelmezésében.
8.1 REZIDUÁLIS JELLEMZŐK VÉGES SOKASÁGBAN Tekintsük az eredmény változó i=1,2,...,N számú, yi=y|xi kimeneteleit a p-dimenziós xi=(xi1,xi2,...,xip) feltételek mellett. Az y={yi} sokaságban az eredmény változóból a regresszió által nem magyarázott maradék a reziduum: p
i yi 0 j xij .
(8.4)
j 1
melynek átlaga p
y 0 j x j
(8.5)
j 1
varianciája pedig (a variancia momentum felbontása alapján): 1 N 1 N 2 (8.6) 2 i i2 2 . N i 1 N i 1 Látható, hogy ha a j0 parciális meredekségek adottak, akkor a reziduum átlagos értéke a 0 tengelymetszet függvényeként bármi, akár zéró is lehet. Ha tehát kiindulásként 0=0, vagyis tengelymetszet nélküli modellt specifikálunk, akkor semmi sem garantálja, hogy az átlagos maradék zéró legyen. A maradék varianciája ezzel szemben (mint a variancia általában) érzéketlen a tengelymetszet értékének a megválasztására: 2 2 . 0 Mindazonáltal, zéró átlagos reziduum mellett a reziduumok varianciája egyben négyzetösszegüket is eredményezi. E tulajdonságoknak a paraméterbecslési eljárás kiválasztásakor lesz jelentősége.
120
8.2 SPECIÁLIS MAGYARÁZÓ VÁLTOZÓK KEZELÉSE Az y.x1,...,xp modellt újabb mérési változó bevonása nélkül is bővíthetjük, ha az xj és xt változók együttesének önálló magyarázó hatást tulajdonítunk. Ezt a kölcsönhatást interakciónak nevezzük, és az xj*xt mesterséges magyarázó változóval jelöljük a modellben: 0 1 x1 j x j t xt p x p jt ( x j * xt ) . Az xj*xt interakció definíció szerint a két változó értékeinek xjxt szorzatait tartalmazza megfigyelésről megfigyelésre. E specifikáció mondanivalója, hogy xj egységnyi abszolút növekedése – ceteris paribus - az eredmény változóban várhatóan j+jtxt változást eredményez, tehát függvénye xt aktuális szintjének. Többváltozós modellt specifikálunk továbbá akkor is, ha az egyedüli magyarázó változó kimenetelei kategóriák, a kategóriák száma több mint kettő, és az egyes kategóriákhoz való tartozást D={0,1} értékű “dummy” változókkal fejezzük ki. Tekintsük az xj(c) nominális változót. Ha a lehetséges kategóriák száma K, akkor K-1 dummy változó szerepeltetése elégséges az egyes kategóriákhoz való tartozás egyértelmű megadásához. A dummy változók kódolása történhet parciális és marginális módon. Három - rendre A,B,C - kategóriát tekintve pl. a kódolás mikéntjét az alábbi tábla közli. 8.1. táblázat Dummy változók kódolása Kategória
A B C Ekkor a kategóriák hatása a modellben:
Dummy változó Parciális DB DC 0 0 1 0 0 1
Marginális DB -1 1 0
DC -1 0 1
j ( c ) x j ( c ) jB D jB jC D jC .
A parciális módszert akkor alkalmazzuk, ha valamelyik kategóriára (esetünkben az A kategóriára) mint referencia csoportra akarunk hivatkozni. Ekkor ugyanis az eredményváltozó várható értéke – ceteris paribus - a B kategória esetében jB egységnyivel, a C csoport esetében pedig jC egységnyivel különbözik az A kategória várható értékétől. Ezzel szemben a marginális módszer a nominális változó fő (nem interakciós) hatását úgy számszerűsíti, hogy az adott kategóriát az átlagos kategóriához viszonyítja. Ebben az esetben az egyes kategóriák várható értékei az átlagos (0,0) kategória viszonylatában rendre: -(jB+jC), jB, jC. Amennyiben csak kategória kimenetelű nominális magyarázó változók szerepelnek a modellben, akkor tulajdonképpen kategóriánként külön-külön, konstanssal eltolt (párhuzamos) regressziós függvényeket specifikálunk. A regressziós modellben mind folytonos változónak dummy változóval, mind dummy változónak dummy változóval vett interakcióját használhatjuk. Például egy folytonos x, és egy kétkategóriás dummy változóval: 0 x x D D xD ( x * D) . A D=0 és D=1 elhatárolástól függően a modell két különböző tengelymetszetű, és különböző meredekségű modellt tartalmaz: D0 0 x x
D1 0 D x xD x . Ha a modellből elhagyjuk az önálló dummy változót, akkor az interakció révén két azonos tengelymetszetű, de különböző meredekségű modellt egyesítünk: 0 x x xD ( x * D) 0 x xD x . Két dummy változó egymással vett D1*D2 interakciója is lehet magyarázó változó, ha legalább az egyikük kategóriáinak száma nagyobb mint kettő. Ha a kategóriák száma rendre c=1,2,...,c1és c*=1,2,...,c2, akkor az interakció c1c2 számú kombinált kategóriájához való tartozás kifejezése (c1-1)(c2-1) számú, a D1c*D2c* módon definiált további dummy változó szerepeltetését igényli. A dummy változókat ilyenkor a marginális módszerrel kell definiálni, mert a parciális módszerrel különböző kategória-kombinációkra azonos kódokat nyerünk. 8.1. Példa Biztosításközvetítő brókercégek éves jutalékbevételeinek (mFt) az alakulását vizsgáljuk az alkalmazottak számának a függvényében: X az alkalmazottak száma (fő) és D=1, ha a brókercég 10 főnél több alkalmazottat, valamint D=0, ha legfeljebb 10 főt foglalkoztat. A jutalékbevétel regressziós modellje az alábbi: y = 0.684 + 3.45 x + 151.23 D – 6.3 x D + reziduum.
121
Ekkor a létszám jutalékbevételre gyakorolt hatásának elemzése az alábbi: 1. Ha a létszám több mint tíz fő, vagyis x≥11, akkor D=1, és µ=(0.684+151.23)+(3.45-6.3)x = 151.914-2.85x, tehát egy fő felvétele várhatóan 2.85 millió forinttal csökkenti az éves jutalékbevételt. 2. Ha a létszám kevesebb mint tíz fő, vagyis x≤9, akkor D=0, és µ=0.684+3.45x, tehát egy fő felvétele várhatóan 3.45 millió forinttal növeli az éves jutalékbevételt. 3. Ha a létszám 10 főről 11 főre nő, akkor az éves jutalékbevétel várható változása: µ x=11–µx =10 = 85.38 millió Ft.
8.3 PARAMÉTERBECSLÉS A regressziós paraméterek a valóságban ismeretlenek, ezért értéküket véletlen y|xi megfigyelések i=1,2,...,n elemű sorozata alapján becsüljük, ahol az xi=(xi1,xi2,...,xip) kovariáns rögzített, p-dimenziós feltétel. Alapvető szempont, hogy a négyzetes hiba átlagosan kicsiny legyen, és a maradék ne tartalmazzon tovább modellezhető részt. Ha ismerjük még az eredmény változó feltételes y|xi eloszlásának típusát is, akkor alkalmazható a maximum likelihood módszer. Az y|xi eloszlástól független követelményként az alábbi kritériumok merülnek fel: a maradék változó bármely magyarázó változóval korrelálatlan, az átlagos reziduum zéró, a reziduumok varianciája minimált, a reziduumok négyzetösszege minimált. Jelölje bj a paraméterek valamely módon becsült értékét. Ezzel a mintán belüli regressziós dekompozíció: (8.7) yi yˆi ei ahol yˆi b0 b1 xi1 b2 xi 2 ... bp xip . (8.8) Így az eredmény változónak egy tetszőleges z változóval vett kovarianciája is két rész eredője a (8.7) modell érvénye mellett: egy a magyarázó változókhoz kötődő, és egy nem kötődő részé: (8.9) Cz , y Cz , yˆ e Cz , yˆ Cz ,e p
b j Cz , x j Cz , e .
(8.10)
j 1
Az eredményváltozó adott kovarianciáját a regressziós paraméterek - a reziduális kovarianciától eltekintve - additív módon, a magyarázó változóknak megfelelő komponensekre bontják. Ahány ilyen felbontosát tudunk definiálni, annyi egyenlet áll rendelkezésre a regressziós paraméterek meghatározására. Az így modellezhető kovarianciák köre a mintában rendre: Cx1 , y , Cx2 , y ,..., Cx p , y .
8.3.1 A VARIANCIA-MINIMUM KRITÉRIUM Becsüljük a regressziós paramétereket úgy, hogy teljesüljön a magyarázó változókkal korrelálatlan, Cx j ,e 0 tulajdondágú reziduumok követelménye. E feltétel mellett, a (8.10) azonosságban rendre a z=x1, z=x2,..., z=xp helyettesítésekkel élve, a magyarázó változók eredmény változóval vett kovarianciái kielégítik a p
Cxk , y b j Cxk , x j | k 1, 2,..., p j 1
egyenleteket, ami mátrix formában írva: Cx1 , y Cx1 , x1 Cx1 , x2 Cx2 , y Cx2 , x1 Cx2 , x2 C x p , y C x , x C x , x p 1 p 2 vagy mégtömörebben C xy C xx b x
122
Cx1 , x p b 1 Cx2 , x p b2 Cx p , x p bp (8.11)
ahol bx a regresziós meredekségeket tartalmazó vektor, Cxx pedig a magyarázó változók egymás közti (p,p) rendű kovariancia mátrixa. Innen a regressziós meredekségek becslése (8.12) b x Cxx1Cxy . Ha most azt is megköveteljük, hogy az átlagos reziduum zéró legyen, akkor az e 0 feltétel a b0 y b1 x1 b2 x2 ... bp x p
(8.13)
becslést eredményezi a tengelymetszet értékére. Példának okáért egyetlen magyarázó változót használva, ha a méz víztartalma (V,%) és fajsúlya (F,kg) közötti regressziós függvény: F= 0-0.007V, akkor annak ismeretében, hogy 16%-os átlagos víztartalom mellett a méz átlagos fajsúlya 1.443, a víztartalomtól teljesen mentes méz regresszió szerinti fajsúlya: b0 = 1.443+16∙0.007=1.555. A (8.12) és (8.13) becslések mintán belül értelmezett tulajdonságai az alábbiak: 1. Az eredményváltozó két egymással korrelálatlan tényező összege, mivel Ce, yˆ 0 . 2. 3.
(8.14)
A korrelálatlansági kritérium teljesülése független a tengelymetszet értékétől. Mivel a regresszió szerint yˆi b0 bTx xi , ezért a reziduális variancia az alábbi formula szerint is számolható:
e2 2y yˆ 2y 2Cy , yˆ 2yˆ
(8.15)
2Cxy b x b Cxx b x . Ez az érték (8.12) mellett minimált, mivel a reziduumok varianciájának meredekségek szerinti deriváltja 1 e2 C xy C xx b x 2 b x 2 y
T x
és ez a (8.12) becsléssel összhangban ugyancsak a b x Cxx1Cxy meredekségek mellett 0. Mindazonáltal, mivel a reziduális négyzetösszeg (8.6) átrendezésével n
e i 1
2 i
n e2 e 2
ezért e 0 esetén a „korrelálatlan” reziduumok varianciája és négyzetösszege ugyanazon bj meredekségek mellett minimált. Ezt a tengelymetszet szerepeltetése, és értékének alkalmas megválasztása biztosítja, mivel a reziduális négyzetösszeg mindkét paraméter függvénye. Ha a feltételes várható értéket tengelymetszet nélkül (0=0 tengelymetszettel) definiáljuk, akkor a „korrelálatlan” reziduumok varianciájának minimálása továbbra is a bj meredekségek mellett teljesül (a variancia független a tengelymetszettől), a reziduumok négyzetösszege viszont függ attól, tehát másik bj meredekségek mellett lesz minimált, ami következtében viszont a reziduumok korrelálatlansága nem teljesül.
8.3.2 LEGKISEBB NÉGYZETEK KRITÉRIUM A legkisebb négyzetek módszere az SSE reziduális négyzetösszeget minimáló paramétereket keresi: 39 n
SSE ei2 min . i 1
A minimálás érdekében képezzük a négyzetösszeg paraméterek szerinti parciális deriváltjait (j=1,2,...,p), majd az egyenletrendszert zéróra megoldjuk: n
ei2 i 1
b j
yi j 0 b j xij n n e 2 ei i 2 ei 2 ei xij 0 . b j b j i 1 i 1 i 1 n
p
Tekintsük az y|x=(y|x1,y|x2,...,y|xn) mintát, ahol az yi (i=1,2,...,n) megfigyelések rendre az xi=(xi1,xi2,...,xip) kovariánsok mellett következtek be. A kovariánsok között azonosakat is megengedünk. A bx=(b1,b2,...,bp) becsült regressziós paraméterek melletti reziduumok vektora: e=(e1,...,ei,...,en). Alkossák a kovariánsok az X(n,p) mátrix sorait. Így X(n,p) oszlopai a becsülendő paraméterekhez tartozó magyarázó változók értékeit tartalmazzák sorról sorra, megfigyelések szerint haladva. E jelölésekkel mátrix formában a becsült modell: 39
Sum of Squares of Error.
123
y Xb x e
(8.16)
ahol (8.17) XT e 0 . A (8.16) azonosság mindkét oldalát balról szorozva az XT mátrixszal, majd a (8.17) kritériumot behelyettesítve: XT y ( XT X)b x ami részletesen kiírva (a szummázás i=1,2,..n történik, és x helyén xi, y helyén pedig yi értendő) x1 y x1 x1 x1 x2 x1 x p b1 x2 x p b2 . x2 y x2 x1 x2 x2 x p y x p x1 x p x2 x p x p bp Innen a b x ( XT X) 1 XT y (8.18) LN (legkisebb négyzetek)becslőfüggvény adódik. Mint az látható, általában (XT X)1 (XT y) Cxx1Cxy . A két becslőfüggvény zéró átlagú magyarázó változók esetén azonos. Figyeljük meg, hogy mindkét típusú becslésnél a (3.17) szóródási mátrix egyféle formáját használjuk. Természetesen a legkisebb négyzetek módszerének (8.18) becslőfüggvénye alkalmazható akkor is, mikor a modell tartalmaz tengelymetszetet. Ilyenkor a tengelymetszet szerepeltetése érdekében az X mátrixnak a b0 paraméterre vonatkozó (első) oszlopa egy összegző vektor, tehát xi0=1 minden i-re: xi=(1,xi1,xi2,...,xip). Ilyenkor az első normálegyenlet biztosítja, hogy a reziduumok összege, és így az átlaga is zéró. Ezért a (8.18) becslés tengelymetszetre vonatkozó pozícióján p
b0 y b j x j j 1
adódik. Helyettesítsük a magyarázó változókat az átlagtól mért eltéréseikkel. Ezáltal a meredekségek nem változnak, viszont a centrált magyarázó változók átlaga már zéró. Így a (8.18) becslésben a meredekségekre vonatkozó becslések azonosak a (8.12) becslésekkel. Látható, hogy a legkisebb négyzetek kritérium kizárólag akkor vezet a korrelálatlansági követelményből adódó becslésre, ha a modell tartalmaz tengelymetszetet. Ekkor ugyanis e 0 . Kétváltozós esetben, mikor yi a bxi ei a két becsült paraméter: Cx , y (8.19) b Cx,1x Cx , y 2 x (8.20) a y bx . Bármilyen módon is becsültük a paramétereket, segítségükkel az eredmény változó parciális, feltételes rugalmassága – másik terminológiával elaszticitása - is elemezhető. Az elaszticitás az eredmény változó relatív érzékenysége adott magyarázó változó parciális, relatív növekményének a hatására a magyarázó változók adott x1,x2,…,xp kovariánsából kiindulva: dyˆ dx j yˆ x j xj El ( yˆ.x j | xk j ) lim : bj . dx j 0 y yˆ ˆ x j x j yˆ Kétváltozós esetben a magyarázó változó átlagos szintjéről történő 1 százalékos emelkedés az eredményváltozóban ceteris paribus várhatóan x El ( yˆ .x ) b y százaléknyi növekedést eredményez. 8.2. Példa Egy labdarúgó bajnokságban résztvevő 16 csapat valamennyi mérkőzését lejátszotta. E bajnokságban győzelemért 2, döntetlenért 1, vereségért pedig 0 pont járt. A bajnokság összesített végeredményeit az ún. ‘Tabella’ mutatja, mely a csapatokat az elért pontszámuk (P) szerint csökkenőleg sorolja fel, és közli csapatonként a bajnokság során általuk
124
rúgott (R) és kapott (K) gólok számát. Ha az egyes csapatok által rúgott gólok számát lineáris regresszió alapján az általuk kapott gólokkal magyarázzuk, akkor a becsült egyenes tengelymetszete 41.1, a csapatok által rúgott gólok átlagos száma pedig 22.3. A rúgott gólok számának szórása 7.27, a kapott góloké 6.85, az elért összpontszámok és a gólkülönbségek (G=rúgott gól – kapott gól) közötti kovariancia értéke pedig 61.27 volt. A fenti adatok birtokában határozzuk meg a csapatok által a tabellán elért pontszámokat a gólkülönbséggel magyarázó lineáris regressziós függvény paramétereit. A megoldás gondolatmenete az alábbi: A tengelymetszet: a P bG P 15 , mivel a gólkülönbség átlaga 0, és egy fordulóban egy csapatra átlagosan 1 pont, tehát 15 fordulóban (16 csapatnak 15 fordulót kell játszani) egy csapatra átlagosan 15 pont jut. C C 61.27 61.27 61.27 Meredekség: b 2 2 , ahol R 41.1 R2, K K vagyis 22.3 41.1 R , K2 22.3 2 2 K G ( R K ) 7.27 6.85 2CR , K 6.85 ahonnan CR,K=-40.0718, majd b=0.3405. 8.3. Példa Az alpesi sí világkupa férfi műlesiklásának egyik futamában 29 versenyző teljesítette a pályát. A táv felénél mért részidőkre (F), és a végső teljes időeredményekre (T) vonatkozóan az alábbi adatok ismertek. A részidő szórása σF=0.56 mp, a teljes időeredményé pedig σT=1.151 mp. A futam átlagos részideje F 26.53 mp, az átlagos teljes időeredmény pedig T 52.84 mp volt. A részidő és a végső időeredmény közötti lineáris korrelációs együttható értéke a futam alapján rF ,T 0.69 . Jellemezzük a két részidő (F és T-F) közötti, majd a részidő (F) és a teljes idő (T) közötti korrelációs és regressziós kapcsolatot. Előbb a két részidő közötti lineáris korreláció: CF ,(T F ) CF ,T 2F rF ,T F T 2F 0.69 0.56 1.151 0.562 0.1311464
(2T F ) T2 2F 2rT , F T F 1.1512 0.562 2 0.69 0.56 1.151 0.7489082 rF ,(T F )
0.1311464
0.271 . 0.56 0.7489082 Mindkét regresszióban a részidő (F) a magyarázó változó, és a b meredekségek, valamint az a tengelymetszetek: CF ,(T F ) CF ,T 2F 0.69 0.56 1.151 b(T F ) bT 1 1 1.4182 1 0.4182 2F 2F 0.562
a(T F ) 52.84 26.53 0.4182 26.53 15.215 aT 52.84 1.4182 26.53 15.215 a(T F ) .
Az előrejelzés a féltáv ismert F ideje mellett mindkét regresszióval ugyanarra az eredményre vezet: Tˆ aT bT F F a(T F ) bT 1 F . 8.4. Példa Egy lapkiadó Rt. részvényei (millió Ft névértéken) öt tulajdonos között oszlanak meg. A tulajdonosok között egy tulajdonos szavazati aránya (S_%) zéró, és ez a szavazati arány kétváltozós lineáris regresszió szerint egyébként 112.8 millió forint névértékű részvénytulajdont indokol. A kétváltozós lineáris regresszió alapján a szavazati arány egyszázalékos emelkedése esetén a részvénytulajdon (R_mFt) 0.812 százalékos emelkedése várható. Mindemellett a százalékos szavazati arány relatív szórása (VS) 20 százalékkal magasabb a tulajdoni részvényhányad (H_%) relatív szórásánál (VR). Határozzuk meg az alábbiakat: a) A szavazati arányt (S_%) a részvénytulajdon nagyságával (R_mFt.) magyarázó (kétváltozós) lineáris regresszió paramétereit. b) A szavazati arányt (S_%) a részvénytulajdon százalékos megoszlásával (H_%) magyarázó (kétváltozós) lineáris regresszió paramétereit. A megoldásban az alábbiak szerint haladunk: 112.8 600 112.8 El 0.812 R 600, b1 24.36 a) R 112.8 b1 S 1 R 20 r V El rS , R R 0.812 S , R rS , R 0.9744, rS2, R 0.9494 . VS 1.2
125
a a1 0.9494 R Sˆ a0 a1 H a0 a1 100 a0 1 R, b1 rR2, S 0.9494 a1 30 1.1693 5 600 30 30 24.36 a0 20 1.1693 20 3.3856 .
b)
8.5. Példa Határozzuk meg az ŷ = a+bx előrejelzési szabályban az "a" tengelymetszet értékét úgy, hogy az yi-ŷi=ei hibákra a Cov(x,e)=1, feltétel teljesüljön, miközben a hibák számtani átlaga megegyezik az y változó számtani átlagával! A megoldás: y a bx e a bx 0 , Cov( x, y) 1 x Cov( x, y) Cov x, (a bx e) b2x Cov( x, e) b a xbLN 2 . 2x x 8.6 Példa A paraméterbecslés számszaki részleteit illusztrálandó, és megjelenítendő, tekintsünk egy háromváltozós modellt. Két (x1 és x2) magyarázó változó öt kovariánsa mellett (első megközelítésben, a számítások könnyű reprodukálhatósága végett) az y eredmény változóra rendre csak egy-egy megfigyelést végzünk. Az adatok az alábbiak: y = 1 | (x1=1, x2=8) y = 2 | (x1=1, x2=7) y = 3 | (x1=4, x2=7) y = 4 | (x1=4, x2=4) y = 5 | (x1=9, x2=1). Specifikáljuk a háromváltozós modellt előbb tengelymetszettel, és becsüljük a paramétereit. A becsülendő modell y Xb e ahol a tengelymetszet becslése érdekében X első oszlopa egy összegző vektor, mely mesterséges, nemszóródó dummy változó 1 1 1 8 2 1 1 7 b0 y 3 , X 1 4 7 , b b1 . b 2 4 1 4 4 5 1 9 1 A legkisebb négyzetek módszerét alkalmazva
3.9705 b0 b ( X X) X y 0.1903 b1 0.3137 b2 T
1
T
ahol
5 19 27 15 T X X 19 115 68 , X y 76 . 27 68 179 64 T
A variancia-minimum (korrelálatlan reziduumok) kritériumot használva 0.1903 b1 b x Cxx1Cxy 0.3137 b2 ahol 8.56 6.92 3.8 Cxx Cxy 6.92 6.64 3.4 és b0 y b1 x1 b2 x2 3.9705 ahol
126
y 3, x1 3.8, x2 5.4 . Specifikáljuk most az y Xb e modellt tengelymetszet nélkül, vagyis: 1 1 8 2 1 7 b y 3 X 4 7 b 1 . b2 4 4 4 5 9 1 A fenti eredmények csak a legkisebb négyzetek módszerét alkalmazva váltznak meg, az alábbiak szerint: 0.57966 b1 b ( XT X) 1 XT y 0.13733 b2 ahol 68 T 115 76 XT X X y . 68 179 64 Ha nem 5, hanem csak 3 megfigyelést használtunk volna, akkor zéró reziduumokat eredményező pramétereket kapnánk, de ponhármasról ponthármasra haladva nagyon különböző paraméterek adódnának, melyek sosem az eredményváltozóban rejlő tendenciát jellemeznék, hanem csak a három pont helyzetét írnák le. Az Olvasóra bízzuk annak megítélését, miként változna a paraméterbecslés eredménye, ha mindegyik kovariáns a hozzá tartozó yi megfigyeléssel egyaránt 100 gyakorisággal szerepelne a mintában.
8.3.3 A MAGYARÁZÓ VÁLTOZÓK KÖRÉNEK BŐVÍTÉSE Az alábbiakban rámutatunk, hogy újabb magyarázó változóval bővítve a regressziós modellt, a minimált reziduális négyzetösszeg sohasem növekedhet. Tekintsük a legkisebb négyzetek módszerével becsült y b0 b1 x1 ... bp x p e( p ) modellt, melyet úgy is becsülünk, hogy az utolsó p-q számú változó paramétereit zérus értéken megkötjük: y a0 a1 x1 ... aq xq 0 xq 1 ... 0 x p e( q ) . Ezzel két egymásba ágyazott, egy tágabb és egy szűkebb modellt definiálunk. Amennyiben a bp paramétervektor nem esik egybe az ap paramétervektorral, úgy, lévén sum(e2) mindenkor minimált, értéke biztosan nem nő az aj=0 paraméterek fölszabadításával, hiszen különben
n 2 i 1 ( q )
nem lett volna minimált:
n
e(2q )i .
e
e i 1
2 ( p )i
n
i 1
8.4 STANDARDIZÁLT REGRESSZIÓS PARAMÉTEREK Valamennyi változót egyidejűleg centrálva a d y ( y y ) és d x ( x x ) módon, a tengelymetszet zérussá válik, viszont a parciális meredekségek és a reziduumok nem változnak: d y b1d1 ... bp d p e . Ha viszont a változókat az y d y / y és x j d x j / x j módon standardizáljuk, akkor a regressziós meredekségek megváltoznak, miközben a transzformálódott reziduum négyzetöszege továbbra is minimált: e y b1* x1 ... b*p x p y
(8.21)
ahol
b*j b j
x j y
(8.22)
az ún. standardizált regressziós meredekség. E paraméterek jelentősége, hogy a magyarázó változók fontossági rangsorát mértékegységtől függetlenül tükrözik. A parciális regressziós meredekségek standardizált változatának
127
mátrix formában való meghatározása értelemszerűen - (8.12) analógiájára - a kovarianciák helyett a lineáris korrelációkat igényli: (8.23) b* R xx1rxy ahol R xx a magyarázó változók közötti korrelációs mátrix, és rxy a magyarázó változóknak az eredmény változóval vett korrelációit tartalmazó vektor.
8.5 A MODELL MAGYARÁZÓ EREJE Az eredményváltozó mintán belüli varianciájának regressziós dekompozíciója az alábbi: 2y 2yˆ e 2yˆ 2Cyˆ ,e e2 2yˆ e2 Cyˆ ,( y e ) e2
(8.24)
ahol (8.14) alapján (8.25) Cyˆ ,( y e) Cyˆ , y 2yˆ 0 . Mivel variancia nem lehet negatív, ezért (8.25) alapján az eredményváltozó a saját regressziójával nem korrelálhat negatív irányban. A variancia regressziós dekompozícióját az n mintaelemszámmal szorozva az (8.26) n2y n2yˆ ne2 40 átlagtól vett eltérésnégyzetösszeg dekompozíciót kapjuk, ahol rendre SST SSR SSE . A fenti dekompozíció alapján a modell és a minta illeszkedését a többszörös determinációs együttható jellemzi, mely az eredmény változó mintabeli varianciájából a regresszió varianciája által képviselt hányad: 2yˆ C yˆ , y 2 SSR (8.27) 0 R 2 2 2 1 2e 1. y y y SST A modell illeszkedését a magyarázó változók bj* relatív súlyai, és az eredményváltozóval való korrelációik együttesen határozzák meg. Definíció szerint ugyanis: C yˆ , y C(b b x ... b x ), y (8.28) R2 2 0 1 1 2 p p y y p
Cx j , y
j 1
2y
bj p
b*j rx j , y . j 1
Mint azt az előző alfejezetben láttuk, a reziduális négyzetösszeg (reziduális variancia) újabb magyarázó változóval való bővítés hatására sohasem növekedhet. Ebből következően a többszörös determinációs együttható sohasem csökkenhet. Megjegyezzük, hogy számítási módját tekintve a többszörös determinációs együtthatót számíthatjuk a vizsgált változók (beleértve az eredményváltozót is) R(p+1,p+1)=R korrelációs mátrixa inverzének az ismeretében: 1 R 2 1 1 R yy
ahol R az inverz mátrixnak az eredményváltozó pozíciójában lévő diagonális eleme. yy Kétváltozós esetben a többszörös determinációs együttható az eredmény változó és a magyarázó változó közötti rx,y lineáris korreláció négyzete, hiszen ekkor b*=rx,y: (8.29) R2 rx, y rx , y . 1
A változók szerepének megcserélésével ez a determinációs együttható fölbontható az y.x és x.y modellek bx és by meredekségeinek a szorzatára: Cx , y Cx , y rx2, y 2 bx by . x 2y 40
Angol terminológia alapján: Total Sum of Squares, Sum of Squares of Regression, Sum of Squares of Error.
128
Mindemellett a determinációs együttható pozitív gyöke - a szóráshányados - tartalmilag az eredmény változó és a regresszió közötti lineáris korreláció, mivel: C yˆ , y 2yˆ (8.30) ryˆ , y R. y yˆ y yˆ Végül a véletlen változó feltétel nélküli varianciája a determinációs együttható függvényében kifejezve: e2 2y 1 R 2 .
(8.31)
8.7 Példa. Egy antikváriumban árverésre került könyvek licitálási adatai alapján vizsgáljuk a könyvek kikiáltási és ún. leütési ára közötti kapcsolatot. Az antikvárium által realizált, a licitálásnak köszönhető átlagos haszon 6000 Ft volt, míg a leütési átlagár a kikiáltási átlagár kétszeresének bizonyult. Az aukció során továbbá a kikiáltási ár relatív szórása 80%-kal volt magasabb a leütési árénál, a kétféle ár közötti kovariancia pedig megegyezett a kikiáltási ár varianciájával. Becsüljük a lineáris regressziós függvény paramétereit, majd jellemezzük a kikiáltási és a leütési ár közti kapcsolat szorosságát, továbbá a lineáris regressziós modell magyarázó erejét! Előbb a meredekség és a tengelymetszet, majd a lineáris korreláció és négyzete: /x x b1 1, b0 y 1x 6000, 0.5, r 1 x 0.5 x 0.5 1.8 0.9, R 2 0.81 . y y y / y A kikiáltási ár 81 százalékban magyarázza a leütési ár varianciáját. 8.8 Példa Az 1999-ben legtöbbet utazó magyar állami vezetők külföldi útjainak költségeit (Ktg: mFt) az eltöltött napok számával (Nap: nap), az utak számával (Út: db) és a beosztással (B=1|miniszer, B=0|államtitkár) magyarázva, a négyváltozós lineáris regressziós modell becslése során az alábbi eredmények adódtak: 8.2 táblázat Változó
Átlag
b
Lineáris korrelációk
Nap Nap 73.33 0.0753 1 Út 22.67 0.042 0.3664 Ktg (y) 8.48 0.4643 B 1/3 2.3126 0.1709 * Nem korrigáltan kerültek meghatározásra.
A változók kovarianciái *
Út
Ktg
1 0.3581 0.3660
1 0.4051
Nap 321.33 63.444 30.187 1.444
Út
Ktg
93.33 12.55 1.667
13.15 0.692
A négyváltozós modellre vonatkozóan a modell magyarázó ereje: 0.0753·30.187 0.042·12.55 2.3126·0.692 R2 0.335 . 13.15 A standardizált paramétereket használva: * bNap 0.0753
bÚt* 0.042
321.33 0.3722 13.15 93.33 0.1119 13.15
12 b 2.3126 3 3 0.3006 13.15 * B
melyekkel
R 2 0.3722·0.4643 0.1119·0.3581 0.3006·0.4051 0.335 . Fölhívjuk a figyelmet, hogy a B (Beosztás) változó varianciája nincs közvetlenül megadva a kovariancia mátrixban, ezért azt (lévén dummy változó) az átlagából számítjuk az (1/3)(1-1/3) módon. A beosztást és az utak számát elhagyva a magyarázó változók közül, a modell magyarázó ereje: R2 = 0.46432 = 0.2156 tehát szerepeltetésük a modellben a magyarázott részt relatíve 0.335 0.2156 0.1522 1 0.2156 azaz 15.22 százalékkal növeli.
129
8.6 A HÁROMVÁLTOZÓS MODELL KÉTVÁLTOZÓS BLOKKJAI Érdeklődésünket most három, rendre x,y,z változóra kiterjesztve, a páronkénti korrelációs kapcsolat háromféle párosításban vizsgálható.41 E kétváltozós modellek kapcsán az alábbi összefüggéseket emeljük ki.
8.6.1 A PARCIÁLIS KOVARIANCIA Tekintsük előbb az x és az y változót külön-külön az x.z és y.z kétváltozós modellekben rendre mint eredmény változót, egyaránt a z változóval magyarázva: xˆ ax bx.z z x ex yˆ a y by. z z y ey ahol definíció szerint Cov( z, ex ) Cov( z, ey ) 0
és ebből következően Cov( yˆ , ex ) Cov( xˆ, ey ) 0
is teljesül. Az x és y változók közötti kovariancia totális értéke értelemszerűen kétféle korrelációs kapcsolat eredője. Egyrészt a z változó lineáris hatását reprezentáló regressziók közötti, másrészt a lineáris hatástól tisztított ex és ey reziduális változók közötti kapcsolatnak tulajdonítható: (8.32) Cx, y Cxˆ , yˆ Cxˆ ,ey Cyˆ ,ex Cex ,ey
Cxˆ , yˆ Cex ,ey . A kovariancia (8.32) felbontását a kovariancia regressziós dekompozíciójának nevezzük.42 Ebből az ex és ey véletlen változók közötti kovariancia tartalmilag az ún. parciális kovariancia, melynek értékét számíthatjuk az eredeti változók közötti, nem tisztított páronkénti kovarianciák felhasználásával, az alábbiak szerint: (8.33) Cex ,ey Cx, y Cxˆ , yˆ
Cx , y bx. z by. z Cz , z Cx , y
Cx , y
Cx , z C y , z 2z 2z
2z
Cx , z C y , z
. 2z Ha valamennyi változó standardizált, akkor a parciális kovariancia a lineáris korrelációk felhasználásával is kalkulálható: Cex ,ey rx, y rx, z ry , z . Standardizált változókat tekintve továbbra is, a parciális kovariancia értékét osztva a két reziduális változó (8.31) formában kifejezett szórásainak a szorzatával, definíció szerint az x és y változók közötti parciális korrelációt kapjuk, melynek szokásos jelölése rx,y.z, értéke pedig: Ce ,e Cx , y Cxˆ , yˆ (8.34) rx , y. z rex ,ey x y ex ey ex ey
rx , y rx , z ry , z 1 ry2, z 1 rx2, z
.
8.6.2 ÚTELEMZÉS A bj paraméter értelmét tekintve azt az abszolút változást számszerűsíti, mely az eredményváltozó feltételes várható értékében - ceteris paribus - az xj változó egységnyi abszolút változásának a hatására következik be. A bj paraméterek parciális értelmét megvilágítandó, a modellt az y.x,z és az y.x formában háromváltozósra, majd kétváltozósra redukáljuk, és kapcsolatot teremtünk a megfelelő regressziós paraméterek között. A későbbiekben, ha pontosan három változót szerepeltetünk, akkor a könnyebb hivatkozás kedvéért mindhármukat külön, rendre x,y,z betűvel illetjük. 42 Vegyük észre, hogy ez a variancia (25) felbontásának kiterjesztése. 41
130
Fejezzük ki az y.x modell by.x meredekségét az y.x,z bővített modell bx és bz parciális meredekségeivel. A zéró kovarianciák elhagyásával Cx , y Cx ,(b0 bx x bz z e ) C C (8.35) by. x 2 bx x2, x bz x2, z bx bz bz . x x 2x x x ahol bz.x a z.x modell meredeksége. Tehát x egységnyi változásának az eredményváltozó várható értékére gyakorolt totális hatása egyrészt x parciális közvetlen bx hatására, másrészt a z változón keresztül gyakorolt közvetett hatására vezethető vissza. A közvetett hatást bzbz.x számszerűsíti, hiszen x egységnyi változásának totális hatása a z változóra bz.x, míg z egységnyi változásának parciális közvetlen hatása az eredmény változóra bz. Az ilyen jellegű elemzést útelemzésnek nevezzük. A fentiek analógiájára az útelemzés kiterjeszthető az y.x1,...,xp általános modellre is. Például xj és y kapcsolatát tekintve: Cx , y Cx ,(b b x ...b x e ) Cx , x Cx , x (8.36) by. x j 2j j 0 1 12 p p b1 12 j ... bp p2 j b1bx1.x j ... bp bx p .x j x j x j x j x j ahol bx j . x j 1 .
8.6.3 A PARCIÁLIS DETERMINÁCIÓ Az y.x,z háromváltozós modellben közvetlen kapcsolat teremthető a többszörös determinációs együttható, valamint a kétváltozós totális és a parciális determinációs együtthatók között. Alkalmazzuk a (8.35) háromváltozós útelemzést a standardizált változókra az alábbi módokon (kihasználva, hogy standardizált változók esetén a kétváltozós modell meredeksége a lineáris korrelációval egyezik meg): (8.37) rx, y bx* bz*rx, z
rz , y bx*rx, z bz*
(8.38)
amely mátrix formában felírva:
rx , y 1 r r z , y x, z
rx , z bx* 1 bz*
vagy tömören
r Rb* ahol az r vektor a magyarázó változóknak az eredményváltozóval vett korrelációit, az R mátrix a magyarázó változók egymás közötti páronkénti korrelációit, a b* vektor pedig a magyarázó változók standardizált meredekségeit tartalmazza. A fenti egyenletrendszert a standardizált meredekségekre átrendezve (lásd a (2,2) rendű mátrix invertálására vonatkozó nevezetes szabályt): b* R 1r = b* 1 x* bz rx , z melyből a standardizált meredekségekre a
rx , z 1
1
rx , y 1 r 2 z , y 1 rx , z
bx*
bz*
1 r x, z
rx , z rx , y 1 rz , y
rx , y rz , y rx , z
(8.39)
1 rx2, z
rz , y rx , y rx , z
(8.40)
1 rx2, z
megoldás adódik. E paraméterekkel a többszörös determinációs együttható (a (8.23) és (8.28) azonosságokat használva), különböző formákban: Ry2.x,z b*T r bx*rx , y bz*rz , y
2 x, y
r
r T R 1r rz2, y 2rx , y rz , y rx , z
1 rx2,z
131
rx2, y rx2, y
(rz , y rx , z rx , y )2 1 rx2,z
1 rx2, y (rz , y rx , z rx , y ) 2 1 rx2, y
1 rx2, z
rx2, y (1 rx2, y )rz2, y. x
(8.41)
ahol rz2, y . x a (8.34) formulának megfelelően a z és y változók közötti parciális determináció. Analóg módon az
Ry2.x , z rz2, y (1 rz2, y )rx2, y.z felbontás is teljesül. A (8.41) és (8.42) formulákból a parciális determinációs együttható más alakokban Ry2. x , z rx2, y rz2, y. x 1 rx2, y rx2, y. z
Ry2. x , z rz2, y 1 rz2, y
(8.42)
(8.43)
.
(8.44)
Látható, hogy a parciális determinációs együttható jelentése az, hogy a z magyarázó változónak az x magyarázó változó után való bevonása a modellbe (a kétváltozós modell háromváltozóssá bővítése) milyen arányban csökkenti az eredményváltozó varianciájából az x változó által meg nem magyarázott hányadot. Mivel a parciális determinációs együttható (lévén négyzetszám) nem lehet negatív, ezért a modell további magyarázó változóval való bővítésekor – mint azt már tárgyaltuk - a többszörös determinációs együttható sohasem csökkenhet. A korábbi szinten pedig csak akkor marad, ha az újonnan bevonandó magyarázó változónak az eredményváltozóval való parciális korrelációja zérus. A parciális determinációs együttható értéke alapján a parciális korreláció irányára, előjelére vonatkozóan még nincs információnk. A háromváltozós modellben definiált (8.34) parciális korreláció azonban lehetővé teszi bármilyen többváltozós modell esetén is a parciális korreláció meghatározását, ha kijelöljük a kérdéses y eredmény, és x magyarázó változót, miközben z az összes többi változó együttesét jelöli. A változók standardizált formáját használva, tekintsük az xˆ b1*x z1 ... bqx* zq x ex * yˆ b1*y z1 ... bqy zq y e y modelleket, melyekre (lásd a parciális meredekségek (8.23) alatti meghatározását):
Cxˆ , yˆ b*xT R zz b*y R zz1rxz R zz R zz1ryz rxzT R zz1ryz T
ahol az ryz vektor az y változónak valamennyi z változóval, az rxz vektor az x változónak valamennyi z változóval, az Rzz mátrix pedig a z változók egymással vett páronkénti korrelációit tartalmazza. Ekkor, a parciális korreláció (8.34) definíciója szerint: (8.45) ry , x.z1 ,..., zq ry , x.z rey ,ex
ry , x Cxˆ , yˆ 1 Ry2. z 1 Rx2. z
ry , x rxzT R zz1ryz 1 Ry2. z 1 Rx2. z
ahol Ry2.z és Rx2. z az y.z1,...,zq és x.z1,...,zq modellek többszörös determinációs együtthatói. Amennyiben csak egyetlen z változót definiálunk, úgy a fenti formula a (8.34) képletre egyszerűsödik. Az ry , x.z1 ,..., zq parciális korreláció az R R( y , x. z1 ,..., zq ),( y , x. z1 ,..., zq ) korrelációs mátrix inverzének az elemeivel is számítható (lásd például Hunyadi-Vita(2002)): ry , x. z1 ,..., zq
R 1
yx
R R 1 yy xx 1
.
(8.46)g
A parciális korreláció a változók számától függetlenül, mindig számolható a klasszikus, háromváltozós (8.34)
132
formulával, egy lépéssorozat eredményeképpen. Például négy változó, rendre x,y,u,z esetén az rx,y.u,z parciális korreláció meghatározása az alábbiak szerint is végrehajtható. Szűrjük ki előbb u lineáris hatását az összes többiből, majd az eredményül kapott három parciális korreláció körében tisztítsuk meg az x és y változót z lineáris hatásától: rx , y.u rx , z .u ry , z .u . (8.47) rx , y. z ,u 1 ry2, z .u 1 rx2, z .u Kihasználva, hogy (8.41) és (8.42) értelmében a parciális determinációs együttható a többszörös determinációs együttható relatív növekményét jellemzi a vonatkozó változóval történő bővítés hatására, ezért a parciális korreláció (8.47) formulájának az alkalmazásával bármilyen modell többszörös determinációs együtthatója fölépíthető a kétváltozós modelléből kiindulva. 8.9 Példa Véletlenszerűen kiválasztott síterepeket tekintve a sífelvonók számát (Felvonó) a pályák legmagasabb tengerszint feletti magasságával (Magasság) és a pályák számával (Pályasz) magyarázzuk, lineáris regressziós modell felhasználásával. A változókat az alábbi adatok jellemzik: 8.3 táblázat Változó
Felvonó Magasság Pályasz
Átlag
Szórás (korrigált)
Lineáris korrelációk Felvonó
86,75
61,0
1
1800,80 115.00
316,4 90,3
0,789 0,985
Magasság 1 0,712
* tengelymetszet
A fenti adatok birtokában határozzuk meg a háromváltozós modell paramétereit, magyarázó erejét, és a felvonók számának a csúcsmagassággal való parciális korrelációját. Előbb a parciális regressziós paraméterek a standardizált paraméterek (8.39) formulája felhasználásával, és a szórásokkal való átskálázás után: 61 0.789 0.985·0.712 bM · 0.0345 316.4 1 0.7122 61 0.985 0.789·0.712 bP · 0.58 90.3 1 0.7122 b0 86.75 0.0345·1800.8 0.58·115 42.08 . A modell magyarázó ereje a lineáris korrelációk felhasználásával: 0.7892 0.9852 2·0.789·0.985·0.712 R2 0.9858 1 0.7122 tehát a magasság és a pályák száma a felvonók számát 98.58%-ban determinálja. A felvonók száma és a csúcsmagasság közötti parciális korrelációs együttható: 0.789 0.712·0.985 rF ,M .P 0.724 (1 0.7122 )(1 0.9852 ) amiből a parciális determináció 0.9858 0.9852 rF2,M .P 0.7242 0.5231 . 1 0.9852 A felvonók száma és a csúcsmagasság közötti eredeti 0.789 korrelációs együttható alig változott, hiszen értéke 0.724.
8.6.4 KANONIKUS KORRELÁCIÓK, REZIDUÁLIS KOVARIANCIA ÉS WILKS-LAMBDA A kanonikus korreláció fogalmához visszatérve, tekintsük a magyarázó változók x1,x2,…,xp, és az eredmény változók y1,y2,…,yq ( q p ) két körérét. Képezzük az y j b1 j x1 b2 j x2 ... bpj x p e j yˆ j e j j=1,2,…,q regressziókat, továbbá az ut v1t x1 v2t x2 ... v pt x p
zt w1t y1 w2t y2 ... wpt yq
133
kanonikus változók (t=1,2,...,q) párosait, ahol valamennyi változó standardizált. Mutassuk meg a kanonikus korrelációk teszteléséhez használt (3.42) szerinti statisztika Wilks-lambda jellegét, és a kanonikus korrelációkkal való alábbi összefüggését: q C ee 1 ru2i , zi . C yy i 1
Mivel valamennyi változó standardizált és így körükben a kovarianciák egyben korrelációk, a regressziós tengelymetszetek pedig zérók, ezért a parciális regressziós meredekségek vektora b j R xx1rx , y j , amivel a regressziós becslés vektor formában
yˆ j Xb j X R xx1rx , y j
és e regressziók kovariancia mátrixa (lineáris kombinációk közötti kovarianciát kalkulálva)
Cov yˆ j , yˆ t bTj C xx b t R xx1rx , y j
T
R xx R xx1rx , yt rx , y j
T
R xx1 rx , yt
amely kovarianciát valamennyi j=1,2,…,q, t=1,2,…,q esetre kiterjesztve és mátrixba foglalva végül C yyˆˆ R yx R xx1R xy . Most a kovariancia regressziós dekompozíciója alapján C yy C yyˆˆ Cee ahonnan a j=1,2,…,q számú reziduális ej vektorok közötti kovarianciák mátrixa (a változók standardizált volta miatt egyben korrelációs mátrixa): Cee R yy R yx R xx1R xy . Így
Cee C yy
R yy R yx R xx1R xy R yy
R yy1 R yy R yx R xx1R xy I R yy1 R yx R xx1R xy q
1 ru2i , zi i 1
mivel a mátrix determinánsa sajátértékeinek a szorzata, és most az I R yy1R yx R xx1R xy mátrix sajátértéke 1 ru2i , zi , hiszen a kanonikus korreláció négyzete az R yy1 R yx R xx1R xy mátrix sajátértéke: ru2i , zi . Jelölje végül y* az első k számú kanonikus változó lineáris hatásától tisztított y változókat. Ekkor q C** k e e 1 ri 2 . C y* y* i k 1
8.7 A “HAT” MÁTRIX Rögzítsünk i=1,2,...,n számú kovariánst (feltételt) a magyarázó változók együttes kimeneteleire vonatkozóan, melyek közül az i indexű xi=(xi0,xi1,xi2,...,xip), és yi az eredmény változó y|xi feltétel mellett bekövetkezett értéke. A b b0 , b1 , b2 ,..., bp regressziós paraméterekkel a modell mátrix formában: y ( n ,1) X( n , p )b ( p ,1) e( n,1)
ahol p’=p+1 a paraméterek teljes száma. A tengelymetszet szerepeltetése érdekében az X mátrix első oszlopa egy összegző vektor, tehát xi0=1 minden i-re. Minden esetben, mikor XT e 0 teljesül, a paraméterek vektora b ( XT X) 1 XT y . E paraméterekkel az eredmény változó modellezett értéke az yˆ Xb X( XT X)1 XT y Hy (8.48) formában is megfogalmazható, ahol a (8.49) H( n, n) X(XT X)1 XT (n,n) rendű szimmetrikus mátrix a nevezetes “HAT “ mátrix. A HAT mátrix nevét onnan nyerte, hogy (8.48) szerint sorelemeivel súlyozva az eredmény változó megfelelő értékeit, az így nyert lineáris kombináció az i feltételhez
134
tartozó yˆi regressziós értéket állítja elő. A HAT mátrix segítségével a feltételes maradék változók vektora is kifejezhető: (8.50) e (I H)y ahol I az (n,n) rendű egységmátrix. A H mátrix a magyarázó változók rögzített volta miatt maga is rögzített 43, és az alábbi nevezetes tulajdonságokkal bír. Szimmetrikus, mivel H=HT, továbbá idempotens, hiszen H=HH. Mindemellett: HX=X (8.51) H(I-H)=(I-H)H=(I-H)X=0. (8.52) A HAT mátrix invariáns az X mátrix bármely nemszinguláris T(p’,p’) lineáris transzformációjára, ugyanis (szorzat transzponálásakor is, és invertálásakor is a tényezők sorrendje felcserélődik):
XT ( XT)T ( XT) ( XT)T H . 1
A HAT mátrix általános eleme (a szimmetria tulajdonság figyelembe vételével) hij xTi (XT X)1 x j xTj (XT X)1 xi hji diagonális eleme pedig hii xTi ( XT X) 1 xi . (8.53) Mivel (az invertálhatóság esetében) XTX és (XTX)-1 is pozitív definit, így hii>0 biztosan teljesül, ha xi0. Ugyanakkor, a HH=H azonosságból következően a hii pozitív diagonális elem megegyezik mind az i-edik sor, mind az i-edik oszlop elemeinek a négyzetösszegével: n
n
j 1
i 1
hii hij2 hij2 .
Ez pedig csak akkor lehet, ha hii1. A fentiek egybevetésével 0
1 n p hii . n i 1 n Tengelymetszetet is tartalmazó modellben, mivel ekkor az x mátrix első oszlopa egy összegző vektor, a HX=X összefüggésből adódóan bármely sora - és mivel szimmetrikus, így bármely oszlopa - elemeinek az összege 1: hii
n
n
j 1
i 1
hij hij 1
(8.55)
és (a variancia momentum felbontását alkalmazva) n 1 hii hij2 n 2hi n n j 1
2
ahol 2hi a HAT mátrix i-edik sorában az elemek varianciája, 1/n pedig az átlaguk. Ekkor viszont a HAT-diagonális alsó határa 1/n, amit a 2hi 0 esetben ér el:
1 hii 1 . (8.56) n Ha hii értéke 1-hez közeli, akkor az ŷi regressziós várható érték kialakulásában az yi értéknek túlnyomó szerepe van, lévén ŷi az eredmény változó értékeinek a HAT matrix i. sora elemeivel súlyozott számtani átlaga (mert a súlyok összege (8.55) miatt 1). Ekkor az ŷi várható értéket az yi érték a relatíve magas hii súly miatt magához közel húzza, tehát ilyenkor az ei véletlen változó kicsiny értéke várható. Ezért hii értéke az i. feltétel “leverage” hatását jellemzi. Ez a hatás annál nagyobb, minél messzebb van a magyarázó változók terében az i. feltétel a saját centroidjától, vagyis minél inkább extrém, kiugró, outlier esetnek számít. Amennyiben az i. feltétel egybeesik a magyarázó változók centroidjával, úgy hii=1/n. 8.10 Példa 43
Ezalatt azt értjük, hogy a HAT mátrix nincs kitéve mintavételi ingadozásnak.
135
Térjünk vissza a (8.6) példa adataihoz azt illusztrálandó, hogy miként állnak elő a regressziós becslések, és a reziduumok a HAT mátrix felhasználásával. Emlékeztetőül a háromváltozós adatok: 1 1 1 8 2 1 1 7 y 3 X 1 4 7 , 4 1 4 4 5 1 9 1 ahol 5 19 27 14.264 1.3986 1.6202 1 T T X X 19 115 68 , X X 1.3986 0.14835 0.1546 27 68 179 1.6202 0.1546 0.19124 és a HAT matrix:
0.30024 0.10728 0.15293 0.40491 0.34059 0.34059 0.46751 0.03664 0.34412 0.11537 1 X XT X XT 0.30024 0.03664 0.79436 0.21628 0.15808 . 0.10728 0.34412 0.21628 0.49424 0.27076 0.15293 0.11537 0.15808 0.27076 0.83919 Az előrejelzések és a reziduumok a HAT mátrix felhasználásával: 0.30024 0.10728 0.15293 1 1.6513 0.40491 0.34059 0.34059 0.46751 0.03664 0.34412 0.11537 2 1.9653 yˆ Hy 0.30024 0.03664 0.79436 0.21628 0.15808 3 2.5353 0.10728 0.34412 0.21628 0.49424 0.27076 4 3.4774 0.15293 0.11537 0.15808 0.27076 0.83919 5 5.3696 0.30024 0.10728 0.15293 1 0.6513 0.40491 0.34059 0.34059 0.46751 0.03664 0.34412 0.11537 2 0.0347 e I H y 0.30024 0.03664 0.79436 0.21628 0.15808 3 0.4647 . 0.10728 0.34412 0.21628 0.49424 0.27076 4 0.5226 0.15293 0.11537 0.15808 0.27076 0.83919 5 0.3696
8.8 VALÓSZÍNŰSÉGI KÖVETKEZTETÉSEK A regressziós modell becsült paraméterei az yi (i=1,2,...,n) mintaelemek függvényei, amely mintaelemek mintavételről mintavételre változnak. Ebből következően a becsült paraméterek is változnak a minta függvényében. Ezért a rájuk vonatkozó hipotézisek vizsgálata, illetve intervallumbecslésük mintavételi eloszlásuk ismeretét igényli. A becslést továbbra is az y1,...,yn minta alapján hajtjuk végre, de most a mintavétel módjára megszorítást teszünk. A mintavételt úgy hajtjuk végre, hogy a mintaelemek egymástól független, azonos mintavételi eloszlással bíró véletlen változók legyenek.
8.8.1 PONTBECSLÉSEK Induljunk ki az eredményváltozó feltételes eloszlására vonatkozó megszorításokból. Feltevésünk szerint az eredményváltozó y|xi eloszlása normális, melynek várható értékét a magyarázó változók rögzített p-dimenziós xi szintjei mellett a regressziós függvény határozza meg, varianciája pedig bármely feltétel mellett σ2 konstans: y | xi
N 0 j 1 j x j , 2 . p
Valószínűségi megállapításaink az alábbiakban homoszkedasztikus modellre érvényesek! A fentiekből következően a feltételes várható értéktől vett ε|xi eltérések eloszlása az alábbi jellemzőkkel írhatók le:
136
| xi
N 0, 2 .
További megszorításunk a feltételes ε|x1,ε|x2,...,ε|xn maradék változókra, hogy legyenek egymással páronként korrelálatlanok: Cov | xi , | xí 0 bármely i≠í feltételek esetén. A feltételes maradék változók kovariancia mátrixa tehát követelményünk szerint: C 2 Ι n (8.57) várható érték vektora pedig zéró: E(ε) = 0. (8.58) A mintabeli megfigyeléseket az y = Xβ + ε elméleti modellel leírva, tekintsük a következő pontbecsléseket: b ( XT X)1 XT y ( XT X)1 XT ( Xβ + ε) β ( XT X) 1 XT ε
e (I - H)(Xβ + ε) (I - H)Xβ (I - H)ε (I - H)ε y H(Xβ ε) Xβ Hε . Mivel az yi mintaelemek független, normális eloszlású véletlen változók, és a becsült paraméterek ezek lineáris kombinációi, ezért a b becslés is normális eloszlású. Mintavételi várható értéke – kihasználva, hogy rögzített, tehát mintavételről mintavételre változatlan: E (b) β ( XT X)1 XT ·E (ε) β . A legkisebb négyzetek módszere tehát a parciális regressziós paraméterek torzítatlan becsléseit eredményezi, tekintet nélkül az eredményváltozó feltételes eloszlásának a típusára. A becsült paraméterek mintavételi kovariancia mátrixa (a várható értéktől vett eltérések kovarianciái): Cbb ( XT X) 1 XT C yy (XT X) 1 XT
T
amely a (8.57) homoszkedaszticitási feltétel miatt: Cbb 2 ( XT X) 1 . Innen a bj becslés mintavételi varianciája (standard error négyzete): Var (bj ) SE 2 (b j ) 2 diag j (XT X)1 ahol diag j (XT X)1 az ( XT X) 1 mátrix j-edik (j=0,1,2,...,p) diagonális eleme. E variancia más formában (bizonyítás nélkül):
Var (b j ) SE 2 (b j )
2 n2x j 1 R 2j
(8.59)
ahol R2j az xj és a többi magyarázó változó közötti többszörös determinációs együttható, és így az 1 R 2j mutató a modellnek az xj változóval szembeni toleranciáját méri. Mivel újabb magyarázó változó bevonásával a már modellben lévő xj tolerancia értéke csökken (nem nő), ezért a modellbővítés hatására a korábban bevont változók standard hibája nő. Az eredmény változó feltételes várható értékére vonatkozó yˆ Hy Xb vektorba foglalt ex post becslések ugyancsak mintavételi ingadozásnak vannak kitéve, és mintavételi kovariancia mátrixuk: C yy HC yy HT H 2I HT 2 H XCbb XT . Tetszőleges i,í megfigyelések esetén 1 Cov( yˆ i , yˆ í ) 2 hií 2 xTi XT X xí
1 Var ( yˆ i ) SE 2 ( yˆ i ) 2 hii 2 xTi XT X xi . (8.60) Ebből egyrészt ŷi mintavételi varianciája 2 viszonylatában megegyezik a megfelelő HAT diagonálissal, és ennek alsó és felső határai ismertek: 1 Var ( yˆi ) hii 1 . (8.61) n 2 Másrészt (8.54) alapján az ilymódon normált standard hibák négyzetösszege megegyezik a becsült paraméterek számával:
137
Var ( yˆi ) n hii p . 2 i 1 i 1 A (8.61) összefüggésből kiolvasható, hogy az ŷi ex post becslés mintavételi varianciája nem lehet kisebb, mint a mintaátlag 2/n mintavételi varianciája, és nem lehet nagyobb, mint az eredmény változó feltételes, konstans 2 varianciája. Továbbmenve, az e (I H)y vektorba foglalt reziduumok mintavételi kovariancia mátrixa: n
Cee 2 (I H) ahonnan az i. megfigyelés reziduumának mintavételi varianciája Var (ei ) SE 2 (ei ) 2 1 hii
két tetszőleges megfigyelés reziduumainak mintavételi kovarianciája pedig Cov(ei , eí ) 2 hií . Tekintsük végül a reziduális négyzetösszeg várható értékét. Mivel a HAT mátrix felhasználásával a reziduális négyzetösszeg: n
e i 1
2 i
eT e tr (eeT ) tr (I H)εεT (I H)T
és E(eeT)=Cee=Cyy=2In a korrelálatlansági és homoszkedaszticitási feltételek miatt, ezért n E ei2 E eT e 2tr (I n H) 2 (n p) . i 1 Így az eredmény változó feltételes 2 varianciájának torzítatlan becslése: n
s 2
e i 1
2 i
n p
hiszen E ( s ) . 2
2
8.11 Példa Kétváltozós esetben a paraméterek kovariancia mátrixa
n Cov(b0 , b1 ) Var (b0 ) 2 Cov(b , b ) Var (b1 ) 0 1 x
2 n x 2 x
2 n2x
2
x x
1
2
x 2 x n x
nQ 2 2 2 n x nx nx
nx n
2 2 x Vary x x x 2x x 1 1 1 Vx2 Vx1 x 1 Vary x 2 Vx1 x 1
Q x
2 ahol Vx a magyarázó változó relatív szórása, Vary a mintaátlag
mintavételi varianciája (négyzetes standard n hibája), Q pedig a másodrendű mintabali momentum. A fenti azonosság felhasználásával az x0 pontban becsült feltételes várható érték varianciája a Var (b0 b1 x0 ) Var (b0 ) x02Var (b1 ) 2 x0Cov(b0 , b1 ) formula szerint számítható.
138
8.8.2 INTERVALLUMBECSLÉS A parciális regressziós paraméterek konfidencia tartományának a meghatározása a becsült paraméterek normális eloszlásán, és torzítatlan voltán alapul. Ekkor ugyanis a bj j
se b j
’
véletlen változó n-p szabadságfokú Student-féle t-eloszlást követ, ahol
se(b j ) s diag j ( XT X) 1
n 2 i 1 i
e
diag j ( XT X) 1 n p a bj paraméter becsült standard hibája. A konfidencia intervallum alsó és felső határának becslése ezután (1-) megbízhatósági szinten: (8.62) b j tn p '(1 / 2) se(b j ) . A konfidencia intervallum lehetővé teszi a parciális regressziós paraméterek szeparált tesztelését is, mikor hipotézisünk szerint a paraméter értéke éppen (h): H 0 j ( h ) H 0 j ( h ) .
A null hipotézis érvénye mellett ugyanis a
b j ( h ) se b j
változó t-eloszlást követ (n-p’) szabadsági fokkal. Erre támaszkodva a H0 hipotézist t extrém alacsony, vagy extrém magas értékei mellett vetjük el. Az előre rögzített α szignifikancia szinten pedig akkor, mikor t tn p(1 / 2 ) teljesül. Összevetve a (8.62) konfidencia intervallummal, ezt a döntést akkor hozzuk meg, mikor a konfidencia intervallum nem fedi le a hipotetikus (h) (tipikus esetben a zéró) értéket. A regressziós paraméter konfidencia intervalluma képzésének analógiájára, az x0 pontban becsült ŷ0 várható érték konfidencia tartománya: yˆ0 tn p '(1 / 2) se( yˆ0 ) ahol (8.60) figyelembe vételével
se( yˆ 0 ) s xT0 XT X x0 . 1
8.8.3 EGYMÁSBA ÁGYAZOTT MODELLEK SZELEKTÁLÁSA A magyarázó változók körének szűkítése, illetve bővítése felől a reziduális négyzetösszeg változásának jelentős vagy elhanyagolható mértéke alapján döntünk. A döntést hipotézisvizsgálat eredményeire alapozzuk. Tekintsük az y Xβ X2β2 ε partícionált modellt, ahol β2 az xq+1,xq+2,...,xp változókra vonatkozó βq+1, βq+2,..., βp regressziós meredekségeket tartalmazza. A H0: β2=0 hipotézis és a H1: β2≠0 alternatíva két egymásba ágyazott modellt definiál. A null hipotézis tesztelésére az SSE0 SSE1 DF0 DF1 F SSE1 DF1 teszt statisztika szolgál, ahol DFi=(n-p’i) a Hi hipotézis szerinti modell szabadságfoka, melyben p’i a vonatkozó modellhez becsült, független paraméterek száma. Magas F-érték H1, alacsony F-érték pedig H0 elfogadását támasztja alá. Az F-teszt számlálójának szabadságfoka (p’1-p’0), a nevezőé pedig (n-p’1). A többszörös determinációs együtthatóval kifejezve: R12 R02 p1 p0 F . 1 R12 n p1
139
Speciális esetként a H0: j=0 H1: j0 hipotézisek vizsgálata a parciális regressziós paraméterek szeparált tesztelését eredményezi.
8.8.4 RELEVÁNS MAGYARÁZÓ VÁLTOZÓ ELHAGYÁSA Legyen az eredményváltozó alakulását leíró elméleti modell továbbra is y = X11 + X22 + ε alakú, azonban az eredményváltozó modellezésére csak az X1 oszlopaiban foglalt változókat használjuk. Ekkor a (β1 paramétervektor legkisebb négyzetek becslése b1 = (X1TX1)-1X1Ty amelynek várható értéke E(b1) = (X1TX1)-1X1TE(y) = (X1TX1)-1X1T [ X1β1 + X2β2 ] = = β1 + (X1TX1)-1X1TX2β2 = β1 + Aβ2 ahol b1 torzított becslése a β1 paraméter(ek)nek. Az A=(X1TX1)-1X1TX2 ún. alias mátrix oszlopai a második blokk magyarázó változóit rendre az első blokk valamennyi magyarázó változójával közelítő regressziós modellek legkisebb négyzetek módszerével becsült paramétereit tartalmazzák. A torzított meredekségeknek köszönhetően az x01T szűkített feltétel mellett (a szűkebb modellel) nyert ŷ|x01T= x01T b1 becslések is torzítottá válnak. Mivel E(ŷ|x01)=x01TE(b1) T T T és az x0 =[x01 ,x02 ] teljes pontban a valódi modell szerinti várható érték (x01T 1+x02Tβ2), ezért a torzítás mértéke: Bias yˆ | x01 E yˆ | x01 E y | x0 xT01A xT02 β2 a torzítás négyzete pedig kvadratikus formában:
Bias 2 yˆ | x01 βT2 xT01A xT02
T
x
T 01
A xT02 β 2 .
Amennyiben továbbá a valódi modell helyett a szűkebbet becsültük, úgy a korrigált reziduális négyzetösszeg fölfelé torzító becslése a σ2 varianciának, mert ekkor: n 1 E s 2p ' 2 Bias 2 yˆi (8.63) n p ' i 1 ahol p’ a szűkebb modell paramétereinek a száma. Egymásba ágyazott regressziós modellek paraméterbecslésének és előrebecslésének a hatásossága tehát a torzítás mértékét is figyelembe vevő átlagos négyzetes hibák összevetésével ítélhető meg. A becslés varianciáját illetően, a szűkebb modell paraméterbecslésének a varianciája mindig kisebb, mint a tágabb modell ugyanazon változójához tartozó paraméteré, hiszen a (8.59) formulában az R2j determinációs együttható a magyarázó változók számának növekedésével nő. Ebből következően kismértékű torzítás és alacsony variancia mellett a szűkebb modell becsült paraméterei hatásosabbak lehetnek, mint a valódi, tágabb modell megfelelő paraméterei. A torzított paraméterbecslés következtében az előrejelzések is torzítottá válnak, így a reziduális négyzetösszeg felhasználásával az eredményváltozó feltételes varianciája sem becsülhető torzítatlanul. 8.12. Példa Legyen regressziós modellünk y=xx+zz+ε alakú, és becsüljük az x változó x parciális paraméterét az y=x+ε* modellben szereplő totális paraméter legkisebb négyzetek módszerével nyert by.x becslőfüggvényével. Határozzuk meg az x magyarázó változó x parciális paramétere e becslésének a torzítását: C X ,x X z Z CX ,Z C E (bY . X ) E X2,Y E x z 2 0 x z bZ . X . 2 X X X A torzítás abszolút értéke tehát: |βzbZ.X|. 8.13. Példa Tizenhárom biztosítási cég adatai alapján vizsgáljuk a jutalék rendszerben működő ügynökök számának (fő) a nettó díjbevétel (millió Ft) alakulására gyakorolt hatását. A becsült regressziós függvény: ŷ=4624.7+0.0769x, a reziduális szórás s=8693.3, az ügynökök számának relatív szórása pedig 221.7%. Ezek figyelembe vételével becsüljük 90%-os mgbízhatósággal az olyan cégek várható nettó díjbevételét, amelyek nem foglalkoztatnak jutalék rendszerben működő ügynököket. Értelmét tekintve ez a tengelymetszet, melynek becsült standard hibája:
140
1 1 1 1 1 8693.3 1 2645 n Vx2 13 2.217 2 a konfidencia intervallum pedig a t11(.95)=1.8 kvantilis mellett: 4624.7±1.8∙2645. se(b0 ) s
8.14. Példa Sharp, Psion és Casio típusú menedzser kalkulátorok (számszerint 29) áralakulását (ezer Ft) modellezendő, a kalkulátorok árát (eFt) lineáris regressziós modell felhasználásával a kijelző oszlopainak a számával (Oszlop), a kijelző sorainak a számával (Sor), a kijelzőn megjeleníthető karakterek számával (Kijelző=Sor*Oszlop), a kalkulátor memória kapacitásával, (Memória = 32KByte, 64KByte,128KByte, stb...) és a kalkulátorok típusával magyarázzuk. (Sharp=1, ha Sharp, egyébként Sharp=0, Psion=1, ha Psion, egyébként Psion=0, Casio kalkulátort pedig Sharp=0 és Psion=0 azonosít.) A hétváltozós (hat magyarázó változót tartalmazó) modell az árak varianciáját az SSR=12250 és SSE=410 megoszlásban magyarázza, regressziós paramétereinek becsléseit pedig az alábbiak jellemzik: 8.4 táblázat Változó
Átlag
Regressziós paraméter (eFt) Pontbecslés (b) Standard hiba :se(b) Oszlop 29.9 0.881 0.14 Sor 7.45 3.900 0.52 Kijelző 299.45 -0.055 0.01 Memória 114.35 0.053 0.02 Sharp 0.44833 -4.839 1.89 Psion 0.1379 2.753 3.47 Megjegyzés: a tengelymetszet becsült értéke -11.4.
1-R2j 0.108 0.078 0.042 0.234 0.727 0.448
t-érték 6.293 7.500 -5.500 2.650 2.560 0.793
95%-os konfidencia intervallum Alsó határ Felső határ 0.5912 1.1708 2.8236 4.9764 -0.0757 -0.0343 0.0116 0.0944 -8.7513 -0.9267 -4.4299 9.9359
Ismert továbbá, hogy a Casio típusú kalkulátorok átlagos ára a mintában 29508 Ft, és a Psion kalkulátorok átlagos ára 158%-kal magasabb a Sharp kalkulátorok átlagos áránál. A táblában az aláhúzott adatok meg nem adottakként kezelendők, értékük tehát, ha szükség van rá, számítandó. Jellemezzük a teljes modell paramétereit, viszonyát az ún. null modellhez, mely nem tartalmaz magyarázó változót, csak tengelymetszetet, és viszonyát a csak a kalkulátortípust tartalmazó modellhez. Ez utóbbi modellt becsüljük is. A hétváltozós modell jellemzése: Az illeszkedési mutatók: R2=12250/(12250+410)=0.9676, s2=410/(29-7)=18.636, s=4.317. A kijelző paraméterének a becslése: bkijelző=t·se(b)=-5.5∙0.01=-0.055. 4.3172 1.892 , ahol 0.448 A bSharp paraméter becsült négyzetes standard hibája: se2 (bSharp ) 29·0.448·0.552·0.727 a Sharp változó átlaga, és így a Sharp típus részaránya a mintában, ezért a Sharp változó varianciája a mintában (nem korrigálva) 0.448∙0.552, eltérésnégyzetösszege pedig: 29∙0.448∙0.552=7.171584. Az Oszlop változó t-statisztikája toszlop=0.881/0.14=6.293. A kritikus t-érték a H0:βj=0 hipotézis teszteléséhez 5%-os szignifikancia szinten t(29-7),(.975)=2.07, tehát csak a Psion változó nem szignifikáns. A 95%-os megbízhatóságú konfidencia tartomány a Kijelző változóra: -0.055±2.07∙0.01. Vegyük észre, hogy ahol a paraméter nem szignifikáns, ott a konfidencia intervalluma tartalmazza a zérót. A Kijelző változó egyben az Oszlop és Sor változók interakciója, mivel ezek szorzata révén áll elő, és tstatisztikája -5.5, vagyis az interakció szignifikáns. Az interakciónak ez esetben tárgyi tartalma van. Hatása jelentős, és ceteris paribus árcsökkentő. A null modellel való összevetésben a varianciaanalízis tesztje: 0.9676 / 6 F 109.502 , (1 0.9676) / 22 ahol a DF=(6;22) szabadsági fokokhoz tartozó kritikus F-érték 5%-os szignifikancia szinten F(6,22),(.95)=2.55, tehát a modell egésze létező kapcsolatot képvisel. A hétváltozós függvényt az átlagokra felírva (b0=-11.4), adódik az y 31.944 átlagár. Az ŷ=b0+bSSharp+bPPsion modell jellemzése: A b0 tengelymetszet a Casio kalkulátorok átlagárát jelenti, ami 29.508 eFt. A Sharp kalkulátorok átlagára: 29.508+bS, a Psionoké pedig 2.58∙(29.508+bS)=29.508+bP, vagyis bP=46.62264+2.58∙bS míg a teljes átlagár a magyarázó változók átlagaiból a keresett regresszió szerint 31.944 = 29.508 + bS∙0.448 + (46.62264+2.58∙bS)0.138
141
ahonnan az ŷ=29.508-4.972∙Sharp+33.795∙Psion regressziós függvény következik. E modell determinációs együtthatója most a három típushoz való tartozás által képviselt külső variancia aránya az árak mintán belüli varianciájából. Az egyes típusok átlagárai már ismertek, rendre: 29.508, 24.546, és 63.292, a megfelelő létszámarányok a mintában pedig 0.4138, 0.4483, és 0.1379, ezért a külső variancia: σ2Külső(Ár)=0.4138(29.508-31.944)2+0.4483(24.546-31.944)2+0.1379(63.292-31.944)2 =162.505 így a többszörös determinációs együttható értéke: 162.505 R2 0.3722 . 12660 / 29 Végül a két modell viszonylatában a determinációs együttható javulásának F-tesztje: H0: βOszlop=βSor=βKijelző=βMemória=0, a számított F-érték (0.9676 0.3722) / 4 F 101.07 (1 0.9676) / 22 mely a DF=(4,22) szabadsági fokok mellett az 5%-os szignifikancia szinthez tartozó 2.82 kritikus értéknél jóval magasabb.
8.9 MODELLDIAGNOSZTIKA A mintavételi következtetések során felhasználjuk a modell kiinduló feltevéseinek igaz voltát, melyek lehetnek helytelenek is. Mivel az előfeltevések a feltételes véletlen változó eloszlásának jellemzőire vonatkoznak, ezért a becsült modell megítélését alapvetően a reziduumok elemzése szolgálja.
8.9.1 AZ “OUTLIEREK” VIZSGÁLATA Számos magyarázó változót szerepeltetve a modellben megnő a veszélye, hogy többváltozós outlierek (extrém, kiugró esetek) kerülnek megfigyeléseink közé, melyek rontják az eredmények megbízhatóságát. A szokatlan értékkel bíró outlierek azonosítására a regressziószámítás diagnosztikai mutatói szolgálnak. A diagnosztikai célra alkalmazott regressziós statisztikák alapvetően három csoportba sorolhatók: A reziduális statisztikák az y eredményváltozó terében keresik az outliereket, A leverage statisztikák a magyarázó változók X terében azonosítják az outliereket, Az influence statisztikák a reziduális és leverage hatásokat kombinálva szűrik ki az outliereket.
8.9.1.1 REZIDUÁLIS STATISZTIKÁK Mint láttuk, a magas hii értékkel bíró megfigyelések esetében mind ei, mind annak mintavételi varianciája kicsiny, márpedig ez a magyarázó változók centroidjától távol fekvő megfigyelések esetében következik be várhatóan. A reziduumok nagyságrendjének vizsgálata érdekében érdemes a standard hibájukkal standardizálni őket. Az ilymódon standardizált reziduum ei 1 hii
melynek torzítatlan becslése a mintából ri
ei s 1 hii
.
Ha a szóbanforgó i megfigyelés outlier, akkor a modell standard hibájára gyakorolt hatását úgy szűrjük ki, hogy a paraméterek becslésénél ezt az egyedet kizárjuk a számításokból. Az így nyert paraméterbecslés
b (i ) XT(i ) X(i ) XT( i ) y ( i ) 1
ahol az (i) alsó index azt jelöli, hogy a regressziós paraméterek becslésekor az i egyedet a számításokból kihagyjuk, vagyis
142
XT(i ) X(i ) XT X xi xTi és
XT(i ) y (i ) XT y yi xi . Ez esetben a Sherman-Morrison-Woodbury-tétel44 alapján - az i egyed tényleges törlése nélkül:
X
T (i )
X( i ) X X 1
T
1
X X T
1
xi xTi XT X
1
. 1 hii Az i. megfigyelés törlése melletti jackknifed (vagy másképpen PRESS, vagy „deleted”) reziduum a fentiek birtokában, algebrai átalakítások után: e e( i ) yi xT(i ) b (i ) i . 1 hii A törölt megfigyeléshez tartozó jackknifed reziduum standardizált értéke az ún. studentizált reziduum: e(i ) . Var (e(i ) ) Mivel
Var e(i )
Var (ei )
1 hii
2
2 1 hii
1 hii
2
2 1 hii
ezért a sokaság szintjén a standardizált, és a studentizált reziduum egybeesik: e(i ) ei . Var (e(i ) ) 1 hii Azonban, ha az i megfigyelés outlier, de az outlierek csoportjára vonatkozó dummy változó nem szerepel a modellben, akkor az alulspecifikált modell miatt az s2 reziduális variancia fölfelé torzított becslése a 2 varianciának, tehát 2 becslése alternatív becslőfüggvényt igényel, mégpedig az i egyed figyelmen kívül hagyásával: e2 2 (n p) s 2 i T 1 hii yk x k b ( i ) s(2i ) k i n p 1 n p 1 amellyel a studentizált reziduum mintabeli értéke: ei ti . s( i ) 1 hii
8.9.1.2 LEVERAGE MÉRTÉKEK A HAT mátrix hii diagonális eleme az egyedi megfigyelésnek a magyarázó változók terében az átlagos egyedtől vett távolságát méri. Magas értéke tehát a magyarázó változók terében a centroidtól távoli, alacsony értéke pedig közeli esetet jelöl. Ebben, és csak ebben az értelemben alkalmas az outlierek kiszűrésére. Ha ez a távoli egyed egyébként az eredmény változó trendjéhez illeszkedő, akkor elhagyása a modellből nem okoz lényegi változást a paraméterek becsült értékében. Mindenképpen vizsgálatra szorulnak azok a megfigyelési egységek, melyek távolsága meghaladja az átlagos p’/n távolság kétszeresét, pontosan, mikor p' hii 2.5 ha 3 p ' 6 n vagy p' hii 2 ha 3 p ' 7 . n A HAT diagonális
44
(A - zzT)-1 = A-1 + (A-1 zzT A-1) / (1 - zT A-1z), ahol A rendje (p,p) és z egy p-elemű oszlopvektor.
143
hii 1 hii transzformációja méginkább kiemeli a magyarázó változók centroidjától távoli eseteket. A HAT diagonális, és a studentizált reziduum együttesen fedik fel a becslésekre potenciálisan jelentős befolyással bíró megfigyelési egységeket. hii*
8.9.1.3 INFLUENCE MÉRTÉKEK Egyedi megfigyelés hatását a regressziós várható érték becslésére az alábbi diagnosztikai mérték szolgálja: yˆi yˆ (i ) e(i ) ei . ( DFFITS )i s(i ) hii s(i ) hii A számlálóban a „vele” és „nélküle” illesztett előrejelzéseknek a különbségét az előrejelzett érték becsült standard hibájával normáljuk a nevezőben, hiszen Var(ŷi)=2hii. A ti statisztika felhasználásával a számolás a hii ( DFFITS )i ti ti hii* 1 hii formula alapján történik. Ez a diagnosztikai mérték a studentizált reziduumot a leverage hatás mértékének megfelelően nagyítja, vagy zsugorítja. A Cook-féle távolság az i egyednek a regressziós paraméterek becslésére gyakorolt hatását a „vele” és „nélküle” készített b és b(i) becslések egymástól való Mahalanobis távolságában ragadja meg: 1 1 Cooki (b b (i ) )T Cbb (b b (i ) ) p' ahol a távolságot a becsült paraméterek számával normáltuk. Mivel Cbb=2(XTX)-1, ezért a becsült Cook-távolság: (b b(i ) )T XT X (b b(i ) ) Cooki p ' s2 ahol s2 a 2 feltételes variancia becslése a mintából. Természetesen s helyén az s(i) megfelelőt is használhatnánk. Fölismerve, hogy ŷ=Xb és ŷ(i)=Xb(i), a Cook-távolság a (yˆ yˆ (i ) )T (yˆ yˆ (i ) ) Cooki p ' s2 formában is írható. Ebben a megközelítésben rokon a DFFITSi mértékkel, de az i egyed hatását a teljes mintára kiterjeszti. Számítását tekintve, a ei2 hii r 2 hii Cooki i 2 2 1 hii p ' s p 1 hii formulából egyszerűen kalkulálható. 8.15. Példa Egy autós túrán 50, különböző márkához tartozó gépkocsi vett részt, melyek 46 százaléka dízel üzemű. A gépkocsik fajlagos fogyasztásának (liter/100 km) az alakulását vizsgáljuk a motor üzemmódja (dízel vagy benzines) és a tömege (kg) függvényében, lineáris regressziós modell felhasználásával. A „Dízel” változó értéke dízel üzemű gépkocsik esetén 1, egyébként 0. A változókra vonatkozóan az alábbi adatok ismertek: 8.5 táblázat Változó
Átlag
Dízel Fogyasztás Tömeg
6.5592 1027.82
Kovariancia mátrix (korrigált) Dízel Fogyasztás Tömeg -0.3194 0.9281 17.5539 68.403 31465.375
Korrelációs mátrix Dízel Fogyasztás 1 -0.6586 1 0.1966 0.4
A Dízel változó átlaga 0.46, varianciája 0.46∙0.54=0.2484, korrigált varianciája (50/49)∙0.2484=0.2535. Becsüljük a háromváltozós modellt, és jellemezzük komplex módon, a megismert szempontok alapján (a korábban már tárgyalt mutatók értelmezését most az Olvasóra bízzuk): A standardizált meredekségek pontbecslése:
144
0.6586 0.4 0.1966 0.4 (0.6586) 0.1966 0.7669, bT* 0.5508, 1 0.19662 1 0.19662 amiből a parciális meredekségek természetes mértékegységükben értelmezhetően: bD*
bD 0.7669
0.9281 1.4674, 0.2535
bT 0.5508
0.9281 0.003, 31465.375
és a tengelymetszet:
b0 6.5592 1.4674 0.46 0.003 1027.82 4.150744 . A többszörös determinációs együttható (a háromváltozós modell magyarázó ereje): R2 = -0.7669∙(-0.6586) + 0.5508∙0.4 = 0.7254. (72.54%). A reziduális négyzetösszeg, és a mintabeli korrigált reziduális szórás: 50 12.488 SSE ei2 49 0.92811 0.7254 12.488, s 2 0.2657, s 0.5155. 50 3 i 1 A becsült parciális paraméterek standard hibái: 0.5155 0.5155 se(bD ) 0.15, se(bT ) 0.000423 2 49 0.2484(1 0.1966 ) 49 31465.4(1 0.19662 ) és konfidencia intervallumaik (t47(.975)∙= 2.01): -1.4674± 2.01∙0.15, és 0.003±2.01∙0.000423. A benzin üzemű, átlagos tömegű gépkocsik fogyasztásának a tömeg szerinti parciális rugalmassága: 1027.82 El 0.003 0.4262%. 4.150744 1.4674 0 0.003 1027.82 A háromváltozós modell variancia analízise (ANOVA): SSR=33.0, SSE=12.488, F=62.15, DF=(2,47), és a 95%-os kritikus érték F(2,47).95=3.2. A modell releváns volta tehát messze elfogadható, hiszen 62.15 jóval nagyobb, mint 3.2. Az egyes gépkocsi típusok közötti kiugróak, outlierek azonosításában a 8.6 táblázat diagnosztikai mutatói segítenek. Ezek között is: a reziduális mértékek: STRESID (standardizált reziduum), DELRESID („deleted” reziduum), DSTRESID („deleted” standardizált reziduum). Extrém értékeik a függő y változó terében jeleznek outliereket, leverage mértékek: HATDIAG (a HAT mátrix diagonális elemei) és MAHAL (a Mahalanobis távolság a centroidtól), a magyarázó változók tekintetében jeleznek kiugró esetet. influence mértékek: COOK (Cook-távolság) és DFFITS: extrém értékei az adatállomány azon pontjaira utalnak, melyek szokatlanul nagy befolyással vannak a regressziós paraméterek becsült értékeire. E befolyás mind a leverage, mind a reziduális mérték következménye. Az egyre inkább kiugró eseteket *,**,*** emeli ki. 8.6 táblázat. Személygépkocsik regressziós dignosztikai mértékei Regresszió 6.0736 6.2831 6.6123 6.7021 6.4926 6.6871 6.4926 6.5225 6.9864 7.3006 7.1360 7.0013 7.1510 7.2108 7.3455 7.0612 7.2108 7.0313 7.7944 7.6777 8.0637 8.0487 7.6148 7.6298 7.6298 7.5101 7.4802 4.8456 5.3394 5.3244
Reziduum 0.4564 -0.2231 -0.5523* -0.4121 -0.6826* 0.1529 -0.0826 0.1875 0.2036 0.0994 0.1540 -0.3413 -0.2110 -0.3708 -0.5955* -0.2212 -0.4108 -0.0913 0.3956 1.1623** -0.2537 0.9513* 0.1952 0.9102* -0.4398 -0.3701 0.3898 -0.1956 0.2106 1.6156***
Fogy 6.53 6.06 6.06 6.29 5.81 6.84 6.41 6.71 7.19 7.40 7.29 6.66 6.94 6.84 6.75 6.84 6.80 6.94 8.19 8.84 7.81 9.00 7.81 8.54 7.19 7.14 7.87 4.65 5.55 6.94
Diz 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
Tomeg 640 710 820 850 780 845 780 790 945 1050 995 950 1000 1020 1065 970 1020 960 1215 1176 1305 1300 1155 1160 1160 1120 1110 720 885 880
STRESID 0.9455 -0.4545 -1.1044 -0.8212 -1.3726 0.3048 -0.1661 0.3764 0.4031 0.1968 0.3046 -0.6756 -0.4172 -0.7335 -1.1797 -0.4376 -0.8127 -0.1806 0.7959 2.3254 -0.5194 1.9454 0.3895 1.8174 -0.8781 -0.7359 0.7746 -0.4056 0.4228 3.2455
DELRESID 0.5201 -0.2458 -0.5863 -0.4344 -0.7328 0.1613 -0.0887 0.2006 0.2118 0.1034 0.1599 -0.3550 -0.2191 -0.3852 -0.6205 -0.2298 -0.4268 -0.0949 0.4251 1.2351 -0.2824 1.0563 0.2063 0.9634 -0.4655 -0.3885 0.4086 -0.2233 0.2254 1.7309
DSTRESID 0.9444 -0.4506 -1.1070 -0.8183 -1.3860 0.3018 -0.1644 0.3729 0.3995 0.1948 0.3016 -0.6716 -0.4136 -0.7299 -1.1847 -0.4338 -0.8097 -0.1787 0.7928 2.4455 -0.5154 2.0071 0.3859 1.8647 -0.8759 -0.7323 0.7712 -0.4020 0.4191 3.6451
HATDIAG 0.1225 0.0922 0.0579 0.0514 0.0685 0.0524 0.0685 0.0657 0.0388 0.0390 0.0370 0.0385 0.0370 0.0374 0.0403 0.0375 0.0374 0.0379 0.0694 0.0589 0.1015 0.0994 0.0541 0.0552 0.0552 0.0474 0.0458 0.1239 0.0654 0.0666
MAHAL 5.0236 3.5381 1.8584 1.5391 2.3767 1.5882 2.3767 2.2372 0.9207 0.9313 0.8348 0.9047 0.8354 0.8539 0.9924 0.8571 0.8539 0.8776 2.4209 1.9063 3.9920 3.8907 1.6709 1.7243 1.7243 1.3434 1.2647 5.0901 2.2241 2.2845
COOK 0.0416 0.0070 0.0250 0.0122 0.0462 0.0017 0.0007 0.0033 0.0022 0.0005 0.0012 0.0061 0.0022 0.0070 0.0195 0.0025 0.0086 0.0004 0.0157 0.1128 0.0102 0.1392 0.0029 0.0643 0.0150 0.0090 0.0096 0.0078 0.0042 0.2506
DFFITS 0.3529 -0.1436 -0.2745 -0.1905 -0.3759 0.0710 -0.0446 0.0989 0.0802 0.0392 0.0591 -0.1343 -0.0811 -0.1439 -0.2426 -0.0856 -0.1597 -0.0355 0.2165 0.6118 -0.1732 0.6668 0.0923 0.4507 -0.2117 -0.1634 0.1690 -0.1511 0.1109 0.9738*
145
5.2047 5.1000 5.8481 5.4441 5.8481 5.9080 5.9229 5.4591 5.7733 5.7434 6.4915 6.7459 6.1923 6.0875 6.0277 6.4466 6.8207 6.3718 6.2222 6.0426
0.1653 0.1900 0.0619 -0.2641 0.1319 0.3720 0.0971 0.0909 0.3567 0.1666 -1.3415** 0.3441 -0.4123 -0.3075 -0.3177 0.4434 -0.2007 -0.3518 -0.7922* -0.0626
5.37 5.29 5.91 5.18 5.98 6.28 6.02 5.55 6.13 5.91 5.15 7.09 5.78 5.78 5.71 6.89 6.62 6.02 5.43 5.98
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
840 805 1055 920 1055 1075 1080 925 1030 1020 1270 1355 1170 1135 1115 1255 1380 1230 1180 1120
0.3340 0.3864 0.1228 -0.5281 0.2617 0.7383 0.1926 0.1817 0.7081 0.3309 -2.7024 0.7040 -0.8213 -0.6113 -0.6309 0.8912 -0.4130 -0.7049 -1.5794 -0.1244
0.1792 0.2086 0.0647 -0.2803 0.1379 0.3890 0.1015 0.0964 0.3732 0.1744 -1.4452 0.3824 -0.4344 -0.3226 -0.3327 0.4756 -0.2256 -0.3750 -0.8360 -0.0656
0.3308 0.3829 0.1215 -0.5240 0.2591 0.7347 0.1906 0.1798 0.7043 0.3277 -2.9090 0.7002 -0.8184 -0.6072 -0.6269 0.8892 -0.4093 -0.7011 -1.6057 -0.1231
0.0777 0.0892 0.0435 0.0577 0.0435 0.0435 0.0436 0.0567 0.0443 0.0449 0.0718 0.1001 0.0509 0.0468 0.0452 0.0678 0.1103 0.0618 0.0524 0.0455
2.8272 3.3889 1.1539 1.8476 1.1539 1.1536 1.1577 1.8004 1.1914 1.2180 2.5368 3.9265 1.5134 1.3114 1.2324 2.3411 4.4261 2.0481 1.5860 1.2496
0.0031 0.0049 0.0002 0.0057 0.0010 0.0083 0.0006 0.0007 0.0078 0.0017 0.1882 0.0184 0.0121 0.0061 0.0063 0.0192 0.0070 0.0109 0.0459 0.0002
0.0960 0.1198 0.0259 -0.1297 0.0553 0.1568 0.0407 0.0441 0.1517 0.0710 -0.8089 0.2336 -0.1895 -0.1345 -0.1363 0.2398 -0.1441 -0.1799 -0.3775 -0.0269
Mint látható, egy 1000 kg tömegű, benzin üzemű gépkocsi várható fogyasztásának pontbecslése: 4.150744 1.4674 0 0.003 1000 7.151 ahol a HAT diagonális 0.037, tehát a feltételes várható fogyasztás 95%-os megbízhatóságú konfidencia intervalluma: 7.151 2.01·0.5155· 0.037 .
8.10A MULTIKOLLINEARITÁS A multikollinearitás a magyarázó változók közötti lineáris kapcsolatok rendszerét jelenti. Ennek a jelenségnek alapvetően két formáját különböztetjük meg. Lehet extrém, mikor valamely xj magyarázó változó lineáris kombinációja a többi magyarázó változónak. Egyébként a multikollinearitás sztochasztikus. Az előbbi eset fölismerhető arról, hogy ekkor a magyarázó változók 100%-ban determinálják a kérdéses magyarázó változót. Ez esetben az XTX mátrix nem invertálható. Ha a multikollinearitás nem extrém, akkor hatása a paraméterbecslés standard hibájának a növekedésében jelentkezik. Ez a 2 Var (b j ) n i 1 d x2ij 1 R 2j formulából látszik, ahol
VIFj
1 1 R 2j
az ún. variancia inflátor faktor, ami az 1 R 2j tolerancia mutató reciproka. Minél több magyarázó változót vonunk be a modellbe, annál magasabb arányban determinált xj a többi magyarázó változó által, és annál inkább meghaladja a VIF mutató értéke az 1-et. Egy másik jellegű multikollinearitás mutató a kondíciószám, mely a magyarázó változók Rxx korrelációs mátrixának legnagyobb és legkisebb sajátértékét viszonyítja egymáshoz: max . min E mutató gondolatmenete azon a tényen alapul, miszerint páronként ortogonális magyarázó változók esetén a korrelációs mátrix valamennyi sajátértéke egyenlő egymással. Így γ=1 a multikollinearitás hiányát jelzi. A multikollinearitás jelentős volta elsősorban a parciális regressziós paraméterek értelmezésében, és a mintavételi következtetések megbízhatóságában okoz problémát. A parciális regressziós paraméterek ugyanis adott magyarázó változó megváltozásának az eredmény változó megváltozására gyakorolt (várható) hatását számszerűsíti, de a többi magyarázó változó szinten maradása mellett. A magyarázó változók sztochasztikus kapcsolata esetén azonban xj megváltozása mellett nemcsak az eredmény változó, hanem más magyarázó változók elmozdulása is várható. Ezáltal a regressziós paraméterek, és ezen keresztül a rugalmassági becslések is értelmezhetetlenné válnak. Ugyanakkor magas determinációs együtthatóval jellemzett modell előrejelzésre alkalmas. Másfelől a jelentős multikollinearitás következtében növekszik a becsült paraméterek standard hibája, minek következtében kitágul az illető paraméter 1- megbízhatóságú konfidencia intervalluma, mely így méginkább tartalmazhatja a nullát, ami a kérdéses (esetleg szakmailag indokolható, releváns) magyarázó változó modellből való kizárásához vezet a modell mechanikus tesztelése során.
146
8.10.1A VÁLTOZÓK KÖRÉNEK KIALAKÍTÁSA A modellben szereplő magyarázó változók számának növelése egyfelől növeli a modell magyarázó erejét, másfelől bonyolultabbá teszi a modellt. Növeli a multikollinearitás veszélyét, nehezíti az eredmények értelmezését, rontja azok megbízhatóságát. Ugyanakkor releváns magyarázó változó elhagyása a modellből a parciális regressziós paraméterek torzított becslését eredményezi, viszont a szűkebb modell becslése hatásosabb lehet a tágabb, korrekt modellénél. A modellalkotás során tehát szelektálni kell a magyarázó változókat. Egyféle eljárás a lépésenkénti (ún. stepwise) szelekció, egy másik pedig a valamennyi lehetséges modell becslésének az összehasonlításán alapul. Bármelyik elvet is alkalmazzuk, paramétereikben egymásba ágyazott modellek közül választunk.
8.10.1.1 STEPWISE ALGORITMUSOK A magyarázó változók szelektálását lépésről-lépésre egyenként hajtjuk végre, egy lépésben mindig csak egy változót vonva be, vagy dobva ki a modellből. Az eljárás során minden egyes lépésben két olyan egymásba ágyazott modell közül választunk amelyek csak egy magyarázó változóval bővebbek (szűkebbek) a másiknál. A stepwise algoritmusok bővítő, vagy szűkítő szándékuk alapján forward, illetve backward jellegűek. A forward módszer kezdetekor egyetlen magyarázó változó sem szerepel a regresszió függvényben, majd lépésről lépésre vonjuk be azt a változót, mely a többszörös determinációs együtthatót a legnagyobb mértékben és még szignifikánsan növeli. A backward módszer ezzel szemben a valamennyi magyarázó változót tartalmazó regresszió függvénnyel indul, majd lépésenként egyesével hagyjuk el azt a változót, amely nem szignifikánsan és legkevésbé csökkenti a determinációs együtthatót. A fenti eljárásokat kiegészíthetjük annak vizsgálatával is, hogy egy változó bevonásának (kidobásának) a hatására - a multikollinearitás következtében - valamely korábban bevont változó nem vált-e feleslegessé, vagy egy korábban kidobott nem bizonyul-e relevánsnak.
8.10.1.2 RÉSZMODELLEK SZELEKTÁLÁSA Lehetőségünk van arra is, hogy kiválasszuk a legjobb kétváltozós, majd a legjobb háromváltozós, stb. modellt, és az így szelektált modellek közül valamilyen kritérium alapján kiválasszuk az optimálisat. Ez a kritérium nem lehet a többszörös determinációs együttható klasszikus változata, hiszen ennek értéke a magyarázó változók számának növelésével nő, tehát ez a legbővebb modellt javasolná. Olyan kritériumra van szükségünk, mely a túl kevés, és a túl sok magyarázó változó szerepeltetését is bünteti. Ilyen kritériumok az alábbiak. A Mallows-féle Cp kritérium elvét tekintve a becsült modell által nyert ex post előrejelzések átlagos négyzetes (relatív) mintavételi hibájának a mintán belüli összege: n n MSE ( yˆi ) Var ( yˆi ) Bias 2 ( yˆi ) Cp 2 2 i 1 i 1 ahol n Var ( yˆi ) p 2 i 1 a HAT diagonálisok összege, valamint az alulspecifikált modell torzított reziduális varianciájának (8.63) várható értékét a szűkebb modell mintabeli s2p’ reziduális varianciájára felírva: n Bias 2 y s 2p ' ˆi n p ' 2 1 . 2 i 1 Az ismeretlen σ2 variancia becslésére a full (minden szóba jöhető magyarázó változót tartalmazó) modell s2 átlagos négyzetes reziduumát használva, a Cp mutató mintából becsült értéke: s 2p ' C p p ' (n p ') 2 1 (8.64) s ahol sp’ a p számú kiválasztott magyarázó változót tartalmazó modell korrigált reziduális szórása, míg s a valamennyi lehetséges magyarázó változót tartalmazó modell korrigált reziduális szórása. Bár e mutató nem tükrözi a kérdéses
147
modell extrapolációs, vagy interpolációs képességét, alul-, illetve túlparaméterezett voltának a megítélésére alkalmas. Alulspecifikált modell ugyanis torzítást, túlspecifikált pedig a becslés varianciájának a növekedését eredményezi. A Cp kritérium alapján tehát azt a modellt érdemes választani, amely mellett a torzítás és a variancia egyensúlyban van egymással. A változók fokozatos beléptetésével p’ értéke nő, viszont Cp második tagja csökken, zérushoz tart, ezért p’ növekedésével Cp először csökken, majd nő. Javasolt szelekciós kritérium a magyarázó változók azon köre mellett dönteni, amely minimálja a Cp értéket, vagy amely mellett Cp=p’=SumiVar(ŷi)/2, mivel ez az eset azt sugallja, hogy a becsült modell nem tartalmaz torzítást. Egy másik gyakran használt minimálandó kritérium az Akaike-féle információs kritérium: SSE p ' AIC 2 p ' 2 s ahol SSEp’ a p számú kiválasztott magyarázó változót tartalmazó modell reziduális négyzetösszege. Végül a Bayes-típusú, szintén minimálandó kritérium: SSE p ' BIC p 'log n 2 . s Szemben a fentiekkel, a korrigállt determinációs együttható maximálandó, hiszen formulája n 1 2 Radj 1 1 R p2 ' n p' ahol R2p’ a szelektált magyarázó változókat tartalmazó modell többszörös determinációs együtthatója. Látható, hogy p’ növekedésével 1-R2p csökken, viszont (n-p’) nő, tehát kezdeti növekedés után a korrigált determinációs együttható csökkenése várható. 8.16. Példa A budapesti ügető egy versenyévada befejeztével a 29 legeredményesebb idomár (zsoké) pénzdíjainak (P,eFt) alakulását a teljesített futamok számával (F), továbbá az elnyert arany (A), ezüst (E) és bronz (B) helyezéseik számával magyarázzuk. A változókra vonatkozóan az alábbi információk adottak. 8.7 táblázat Változó
Átlag
Szórás (korrigált)
A paraméterbecslés eredményei öt-, és háromváltozós modellekre Ötváltozós modell Paraméter
Néhány háromváltozós modell paraméterei
St.hiba
1/VIF
P
3641.0
2855.1
-
-
-
I. -72.198
II. -61.048
III. -47.715
F
420.3
312.6
-4.0154
2.0433
0.0286
1.472
*
*
A
37.6
29.0
73.3741
9.1350
0.1665
82.25
71.899
78.909
E
37.7
28.9
29.1640
19.038
0.0385
*
26.434
*
B
94.3
76.4
14.9190
7.8536
0.0324
*
*
7.633
Megjegyzés: a “*”-gal jelzett változó nem szerepel a modellben, a pénzdíj paramétere pedig a tengelymetszetet jelenti.
8.8 táblázat Változó
Korrelációs mátrix P
F
A
P
1
F A
0.874 0.973
1 0.854
1
E B
0.929 0.877
0.966 0.982
0.906 0.840
A korrelációs mátrix inverze E
P
F
A
E
B
29.08
1 0.960
12.78 -21.66
40.56 -9.45
22.14
-8.59 -11.61
-14.23 -29.44
-1.32 10.96
28.54 -4.78
35.48
Az ötváltozós modell többszörös determinációs együtthatója: R =1-1/29.08=0.9656, Cp mutatója pedig 5. A modellek közötti szelektálás érdekében kövessük az alábbi táblába foglalt kritériumok alakulását: 2
8.9 táblázat Magyarázó változók F,A F,E F,B
148
R2 0.9537 0.8728 0.7750
Korrigált R2 0.9501 0.8630 0.7577
Cp 9.302 65.744 133.977
A,E 0.9595 0.9563 5.256 A,B 0.9589 0.9557 5.674 B,E 0.8674 0.8572 69.512 F,A,E 0.9604 0.9557 6.628 F,A,B 0.9623 0.9577 5.302 F,E,B 0.8732 0.8580 67.465 A,E,B 0.9601 0.9553 6.837 Például az F,A magyarázó változók mellett 3 paramétert becsülünk, ezért Cp mutatója: (1 0.9537) / 26 Cp( F , A) 3 (29 3) 1 9.302 . (1 0.9656) / 24 A két magyarázó változót tartalmazó modellek esetén p’=3, a három magyarázó változót tartalmazók esetében pedig p’=4 paramétert becsülünk, tehát saját p’ viszonyítási alapjához a P.F,A,B modell Cp=5.302 értéke áll a legközelebb, vagyis ez a modell tartalmazza a legkisebb torzítást, miközben magyarázó ereje elegendően magas.
8.10.2FŐKOMPONENSEK A REGRESSZIÓS MODELLBEN Az yˆ b0 b1 x1 ... b j x j ... bp x p becsült modell egyik felhasználási lehetősége a parciális regressziós paraméterek értelmezése: egyéb feltételek változatlansága mellett, ha abszolút értelemben xj egységnyivel nő, akkor y várhatóan bj egységnyivel nagyobb. Ha azonban a magyarázó változók között jelentős a sztochasztikus kapcsolat mértéke, vagyis szignifikáns a multikollinearitás, akkor az útelemzés alapján xj egységnyi növekedése várhatóan a többi magyarázó változóban is változást indukál, tehát y megváltozásában a többi regressziós paraméter közvetett hatása is jelentkezik. Így az “egyéb feltételek” nem maradnak változatlanok, ezért a regressziós paraméterek értelmezhetetlenekké válnak. Kézenfekvő a gondolat, hogy a multikollineáris magyarázó változók rendszerét helyettesítsük a belőlük létrehozott korrelálatlan főkomponensekkel: p
yˆ a0 a1k1 ... at kt ... a p k p a0 at kt t 1
A főkomponenseket meghatározhatjuk akár a standardizált, akár a centrált x változók kovariancia mátrixából kiindulva. Centrált változók esetén a kovariancia mátrix λ1 λ2 ... λp sajátértékei és a megfelelő v1,v2,...,vp sajátvektorai felhasználásával a főkomponensekre vonatkozó parciális regressziós paraméterek definiálása az Cy,k p 1 p 1 at 2 t Cov y, v jt x j v jt Cov y, x j t kt j 1 t j 1 módon történik, ahol t=1,2,...,p, λt a megfelelő főkomponens varianciája, és a0 y , mivel valamennyi főkomponens átlaga zérus. (A paraméterek kétváltozós formuláját az indokolja, hogy a főkomponensek páronként korrelálatlanok, a formula átalakításakor pedig a kovariancia lineáris felbontására vonatkozó CLD tételt használtuk.) Standardizált magyarázó változók esetében, mikor Var(xj)=1, a főkomponensek parciális regressziós paramétereinek a formulája (t=1,2,...,p) az alábbiak szerint írható: 1 p at * v jt y ry , x j t j 1 ahol most λt* a magyarázó változók korrelációs mátrixának a sajátértékét jelöli. Kihasználva ezen a ponton, hogy a főkomponensek a magyarázó változók lineáris kombinációi, az eredményváltozó becsült értéke az eredeti magyarázó változók szerepeltetésével: p
p
t 1
t 1
yˆ a0 at kt a0 at p
a0 j 1
p j 1
v jt x j
p
a v x j a0 b j x j . t 1 t jt p
j 1
Innen az eredeti magyarázó változókra vonatkozó regressziós paraméterek számítási módja:
bj t 1 at v jt . p
Amennyiben a főkomponens regressziót standardizált magyarázó változókból kiindulva hajtjuk végre, a bj koefficiensnek nincs tárgyi értelme. Ilyenkor visszaállítjuk xj eredeti varianciáját a szórásával való átskálázás
149
(fölszorzás) útján, majd a paraméterét osztjuk ugyanezen szórással. Az eredeti mértékegységben értelmezhető paraméter tehát (mikor a standardizált magyarázó változók főkomponenseit használjuk): 1 p b*j t 1 at v jt . xj Nyilvánvaló, hogy ha valamennyi főkomponenst használjuk a regressziós modellben, akkor ugyanazt a paramétervektort nyerjük akár a standardizált, akár a centrált magyarázó változókból indulunk ki, és ez egybeesik a klasszikus legkisebb négyzetek módszerével becsült paraméterekkel. A főkomponens regresszió lényege tehát, hogy csak az első m legfontosabb főkomponenst őrizzük meg a magyarázó változók reprodukálásakor. Ekkor a becsült paraméterek számítási módja:
bj ( m) t 1 at v jt m
b*j ( m )
1 xj
m t 1
at v jt .
8.17. Példa A magyar vállalkozásokat négyjegyű TEÁOR (tevékenységek egységes osztályozási rendszere) számjegyük alapján - alaptevékenységük szerint homogén osztályokba soroljuk, és az így létrejött 468 szakágazatot (tevékenységi csoportot) mérlegmutatóik, nevezetesen az egy vállalkozásra jutó átlagos mérlegadatok tekintetében jellemezzük. Eredményváltozónk az értékesítés nettó árbevétele (NARB, millió forint), a magyarázó változók pedig: a készletek értéke (KLT, millió forint), a vevőkkel szembeni követelések állománya (VEVOK, millió forint), a hosszú és rövid lejáratú kötelezettségek állománya (HLK, RLK millió forint) és a foglalkoztatott létszám (fő). A megfigyelések tehát szakágazaton belül egy vállalkozásra értendők, és szakágazatonkénti átlagos értékeik és relatív szórásaik az alábbiak: ------------------------------Változó Átlag Relatív szórás ------------------------------NARB 946.4 5.04 --------------------KLT 107.8 6.09 VEVOK 94.9 4.91 HLK 142.1 8.95 RLK 321.5 5.28 FO 58.4 5.16 ---------------------
Mivel a változók mértékegysége nem egyforma (millió Ft és fő is szerepel), ezért a főkomponenseket a magyarázó változók korrelációs mátrixából határozzuk meg. Valamennyi változó korrelációs mátrixa az alábbi: A korrelációs mátrix: -----------------------------------------------------------Változó NARB | KLT VEVOK HLK RLK |---------------------------------------KLT 0.9290 | 1 VEVOK 0.9494 | 0.9304 1 HLK 0.9195 | 0.8916 0.8972 1 RLK 0.6148 | 0.6088 0.6595 0.6823 1 FO 0.4110 | 0.2463 0.4274 0.3938 0.3053
A klasszikus legkisebb négyzetek módszerével becsült modell többszörös determinációs együtthatója R2=0.935, továbbá a becsült paraméterek és jellemzőik az alábbiak: 8.10 táblázat Paraméterbecslés ------------------------------------------------------------------------Változó bj se(bj) t-érték TP-érték Tolerancia Stand.reg.coeff ------------------------------------------------------------------------b0 146.9538 KLT 1.9979 0.2919 6.84 0.00 0.0871 0.28 VEVOK 4.5988 0.4193 10.97 0.00 0.0839 0.45 HLK 1.1068 0.1155 9.58 0.00 0.1479 0.30 RLK -0.1892 0.0465 -4.07 0.00 0.5139 -0.07 FO 0.8782 0.2396 3.67 0.00 0.6135 0.06 ---------------------------------------------------------------
150
8.11 táblázat A variancia analízis (ANOVA) eredményei ------------------------------------------------------------------------SUM OF SQUARES DF MEAN SQUARE F-érték TP-érték REGRESSZIÓ 9926222850 5 1985244540.00 1329.281 0.0000 REZIDUALIS 689984256 462 1493472.38 -----------------------------------------------------------------------
A szignifikánsan magas F-érték arra utal, hogy a regresszióból származó négyzetösszeg jelentősen magasabb a véletlen hatásokból származó reziduális négyzetösszegnél. Ezzel szemben a főkomponens regresszióval nyert paraméterek és jellemzőik az alábbiak: A magyarázó változók korrelációs mátrixának sajátértékei: 3.53916, 0.83568, 0.46705, 0.11068, 0.04743, melyek kumulatív megoszlásai: 0.70783, 0.87497, 0.96838, 0.99051, 1, és a megfelelő sajátvektorok: 8.12 táblázat Sajátvektorok -------------------------------------------------------------------v1 v2 v3 v4 v5 ry,x -------------------------------------------------------------------KLT 0.4903 -0.2823 -0.3290 0.2839 0.7008 0.9290 VEVOK 0.5109 -0.0633 -0.2435 0.4579 -0.6827 0.9494 HLK 0.5055 -0.0942 -0.1465 -0.8363 -0.1216 0.9195 RLK 0.4176 -0.0734 0.8986 0.0943 0.0620 0.6148 FO 0.2621 0.9498 -0.0591 0.0392 0.1555 0.4110
Az értékesítés nettó árbevételének (NARB) a főkomponensekkel vett korrelációi rendre: 0.9407, -0.0696, -0.2098, 0.0108,-0.0316. A főkomponensekkel magyarázott NARB becsült lineáris regressziója: ŷ = 946.39368 + 2385.22024∙k1 -363.40347∙k2 -1463.68909∙k3 + 155.36810∙k4 -693.38458∙k5 ahol 946.39 a nettó árbevétel átlaga, és például 946.394 5.04 2385.22 .4903 .929 .5109 .9494 .5055 .9195 .4176 .6148 .2621 .411 3.53916 ahol 5.04 a nettó árbevétel relatív szórása, σy=946.394∙5.04 pedig a szórása. A 3.539 sajátérték végül az első főkomponens varianciája. Továbbmenve. b1 = 1311.195 = 2385.22024∙0.4903 -363.40347∙-0.2823 -1463.68909∙-0.3290 + 155.36810∙0.2839 -693.38458∙0.7008
melyből b1* = 1311.195 / (107.8∙6.09) = 1.997. A millió forintban mért készlet (KLT) változó e paramétere mind az öt főkomponenst használja, és így rekonstruálja a klasszikus legkisebb négyzetek módszerével kapott paramétert. Az alábbi tábla arról tájékoztat, hogy a főkomponenseket egyesével, az eredmény változóval való korrelációjuk sorrendjében vonva be a magyarázó változók közé, miként változik a modell magyarázó ereje, valamint a eredeti mértékegységre átszámolt parciális, reziduális regressziós paraméterek értéke. 8.13 táblázat Regressziós koefficiensek a főkomponensek felhasználásával -----------------------------------------------------------------------------------------Főkomponens R2 Tengelymetszet Mgyarázó változók paraméterei KLT VEVOK HLK RLK FO -----------------------------------------------------------------------------------------1 0.8850 62.1216 1.7811 2.6151 0.9472 0.5863 2.0738 3 0.9290 118.7219 2.5148 3.3804 1.1158 -0.1882 2.3609 2 0.9339 155.1536 2.6711 3.4298 1.1427 -0.1725 1.2157 5 0.9349 158.1313 1.9307 4.4461 1.2089 -0.1978 0.8580 4 0.9350 146.9513 1.9970 4.5989 1.1068 -0.1892 0.8782
Mint látható, elég az első főkomponenst használni ahhoz, hogy a nettó árbevétel varianciájának 88.5 százalékát megőrizzük, miközben a paraméterek elhanyagolható mértékben tartalmazzák a többi változó közvetett, tovább gyűrűző hatását. Így például, ha egy szakágazatban az átlagos vállalkozás készletnagysága 1 millió forinttal
151
emelkedik, akkor ennak hatására nettó árbevétele várhatóan 2.51 millió forinttal emelkedik, az első két főkomponenst használva az előrejelzésre. Azért az első kettőt, mert a többszörös determinációs együttható itt még jelentősen, utána viszont elhanyagolhatóan emelkedik.
8.11 AZ ÁLTALÁNOSÍTOTT LEGKISEBB NÉGYZETEK MÓDSZERE Oldjuk fel a feltételes hibaváltozó (egyben a feltételes eredmény változó) kovariancia mátrixára tett homoszkedaszticitási és korrelálatlansági követelményeket, és tegyük fel, hogy ezen (n,n) rendű kovariancia mátrix általában C C yy (2I) alakú, amely inverzének spektrális alapú felbontása Cyy1 QQT . Ekkor a klasszikus legkisebb négyzetek módszere az y Xβ ε modell paramétereit bár továbbra is torzítatlanul becsli, viszont e becslések már nem minimális varianciájúak, ezért a paramétereket az általánosított legkisebb négyzetek (OLS) módszerével becsüljük, mellyel az alábbi súlyozott (standardizált) reziduális négyzetösszeget minimáljuk: (8.65) SSE(b) (y Xb)T Cyy1 (y Xb) (y Xb)T QQT (y Xb)
QT (y Xb) QT (y Xb) T
QT y Q T X b
Q y Q X b T
T
T
y* X*b y* X*b . Látható, hogy (8.65) egyben az eredmény változó megfigyelt és előrejelzett értékeinek az egymástól való Mahalanobis távolsága. Feladatunk ezután az y* X*b e* modell paramétereinek a becslése a klasszikus (OLS) legkisebb négyzetek módszerével, ahonnan T
b XT* X* X*T y * 1
XT QQT X XT QQT y 1
XT Cyy1 X XT Cyy1y . 1
A becsült paraméterek kovariancia mátrixa:
Cbb XT Cyy1 X XT Cyy1 C yy XT Cyy1 X XT Cyy1 1
1
T
XT Cyy1 X . 1
Mikor az eredmény változó heteroszkedasztikus, de a reziduális változók korrelálatlanok páronként és kovariancia mátrixuk struktúráját a 1 2 w 1 1 1 2 2 w2 C 1 2n wn diagonális mátrix írja le, úgy lényegében a n
w y i 1
i
i
yˆi
2
súlyozott legkisebb négyzetek kritériumot minimáljuk, ahol wi 1
i2
az i feltételhez tartozó súly.
Ha i2 2 minden i mellett, vagyis az eredmény változó homoszkedasztikus, de az i feltételhez tartozó empirikus értéke ni számú megfigyelés yi átlaga, akkor:
152
n 2 wi i2 . ni A feltételes variancia becslése homoszkedasztikus modell esetén s2, de ez a paraméterek becslőfüggvényből kiesik, értéke a paraméterek pontbecslése szempontjából érdektelen. Nem ez a helyzet azonban a heteroszkedasztikus esetben. Ekkor a σ2j feltételes variancia becslése az adott feltételhez tartozó megfigyelések (vagy azok reziduumainak) korrigált mintabeli varianciája a vonatkozó rétegben: Var yi
y nj
s
2 j
i 1
ij
yj
y
2
nj
i 1
ij
yˆ j
2
n j 1 n j 1 ahol ŷj a klasszikus, súlyozatlan legkisebb négyzetek módszerével előrejelzett érték, mely a j feltétel mellett minden megfigyelésre azonos. A paraméterek kovariancia mátrixának robusztus becslését a maximum likelihood becslés teszi lehetővé. Független megfigyelések mellett: n Cbb ( robusztus ) V ui uTi V i 1 ahol 1
2 ln L V 2 és ui az i megfigyelés hozzájárulása a ln L / score értékéhez. Ha az i=1,2,…,n megfigyelések nem függetlenek, de g=1,2,…,m csoportba sorolhatók, akkor a paraméterek kovariancia mátrixának robusztus becslése a m Cbb ( robusztus ) V u g uTg V g 1 formát ölti, ahol ug a g csoport hozzájárulása a ln L / score értékéhez. Ez csupán a score egy másik struktúrában való fölbontása. Ha a log likelihood additív a megfigyelésekre, vagyis n
ln L ln Li i 1
akkor ui ln Li / és
u g ui . ig
Vizsgáljuk tovább az ui score értékét a regressziós reziduumokkal való kapcsolatukat illetően. Mikor a likelihood a βxi lineáris kifejezés Li(βxi) függvénye, akkor ln Li (βxi ) ln Li (βxi ) (βxi ) ui ui xi . (βxi ) Ezt a robusztus kovariancia mátrixba helyettesítve, lineáris regressiós modell esetén: n Cbb ( robusztus ,lineáris ) V ui2 xi xTi V . i 1 Fölhívjuk a figyelmet, hogy ui likelihood elméleti tulajdonságait tekintve rokon az ei reziduummal, mert: n 1 n ui 0, Cov(u, x j ) ui xij x j 0 ( j 1, 2,..., p) . n i 1 i 1 Valójában normális eloszlású eredmény változó lineáris regressziója esetén ui nem más, mint egy normalizált reziduum, az alábbi formában: y βx 1 2 ui yi βxi i 2 i . (βxi ) 22 8.18 Példa. A Formula-1 versenysorozat egyik helyszíne a mogyoródi (magyar) Hungaroring, melynek pályavezetése 14 kanyart tartalmaz, lassítva az átlagsebességet. A pálya 23 rögzített pontján a pálya vonalvezetése miatt a versenyzők azonos sebességváltó fokozatban, de egyénileg különböző sebességgel utaznak. Sok verseny tapasztalata
153
alapján az átlagos sebességeket e helyeken (km/h), és az adott ponton használt sebességváltó-fokozatokat az alábbi tábla közli: 8.14 táblázat Mérési hely sorszáma
Sebesség (km/h)
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.
275 120 216 100 200 270 180 220 130 225 90 190
Fokozat
Mérési hely sorszáma
6 3 4 2 4 6 4 4 3 4 2 3
Sebesség (km/h)
13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Fokozat
120 160 130 240 180 230 130 240 90 190 120
3 3 3 5 5 5 3 5 2 3 3
A sebességváltó fokozatai szerint képzett csoportokban a sebességek átlagai és varianciái az alábbiak szerint alakultak: 8.15 táblázat Jellemző
Átlag Korrigált variancia (s2j) Elemszám (nj)
Sebességváltó-fokozat 2
3
4
5
6
93.33 33.33
143.33 850
208.20 336.2
222.50 825
272.5 12.5
3
9
5
4
2
Elemezzük, hogy az alkalmazott sebességfokozat milyen tendencia szerint magyarázza a sebességek szóródását. A súlyozatlan legkisebb négyzetekkel nyert becslések az alábbiak: 8.16 táblázat -------------------------------------------------------------------Sorszám sebesseg valto s2j 1/s2j OLS(ŷi) OLS(ei) -------------------------------------------------------------------1. 90 2 33.33 .030003 101.1324 -11.13239 2. 90 2 33.33 .030003 101.1324 -11.13239 3. 100 2 33.33 .030003 101.1324 -1.132393 4. 120 3 850 .0011765 145.2338 -25.23381 5. 190 3 850 .0011765 145.2338 44.76619 6. 130 3 850 .0011765 145.2338 -15.23381 7. 130 3 850 .0011765 145.2338 -15.23381 8. 160 3 850 .0011765 145.2338 14.76619 9. 120 3 850 .0011765 145.2338 -25.23381 10. 190 3 850 .0011765 145.2338 44.76619 11. 130 3 850 .0011765 145.2338 -15.23381 12. 120 3 850 .0011765 145.2338 -25.23381 13. 225 4 336.2 .0029744 189.3352 35.66479 14. 220 4 336.2 .0029744 189.3352 30.66479 15. 180 4 336.2 .0029744 189.3352 -9.335205 16. 200 4 336.2 .0029744 189.3352 10.66479 17. 216 4 336.2 .0029744 189.3352 26.66479 18. 240 5 825 .0012121 233.4366 6.563385 19. 230 5 825 .0012121 233.4366 -3.436615 20. 180 5 825 .0012121 233.4366 -53.43661 21. 240 5 825 .0012121 233.4366 6.563385 22. 270 6 12.5 .08 277.538 -7.538025 23. 275 6 12.5 .08 277.538 -2.538025
A sebességnek a sebváltó fokozatával magyarázott, OLS becsléssel nyert eredményei az alábbiak: 8.17 táblázat -----------------------------------------------------------------------------Forrás | SS DF MS n = 23 ---------------------------------------F(1,21) = 95.35 Modell| 60039.274 1 60039.274 TP=0.0000 Reziduum | 13222.5521 21 629.645339 R2 = 0.8195 Total | 73261.8261 22 3330.083 s= 25.093
154
-----------------------------------------------------------------------------| Coef. Std. Err. t TP [95% Conf. Interval] -----------------------------------------------------------------------------valto | 44.10141 4.5163 9.765 0.000 34.70925 53.49357 b0 | 12.92958 17.49155 0.739 0.468 -23.4461 49.30525 ------------------------------------------------------------------------------
Ha a sebváltó kategórián belüli átlagsebességet magával a sebváltó kategóriával magyarázzuk, és súlyként a kategória gyakoriságát használjuk, akkor az előző analízistől annyiban térünk el, hogy a 23 megfigyelés között a közös váltóhoz tartozó sebességeket a csoportátlagaikkal helyettesítjük, vagyis az eredményváltozó mintán belüli varianciáját a belső varianciával csökkentjük. Ez a változás a paraméterbecslést nem érinti, de mivel az eredmény változó mintán belüli varianciája csökkent, ezért a többszörös determinációs együttható az R2=0.8195 értékről az R2=0.9597 értékre emelkedik, aminek következményeként a paraméterek standard hibája csökken (s2 változatlan körülmények között csökken): 8.18 táblázat -----------------------------------------------------------------------------Forrás | SS DF MS n = 23 ---------------------------------------F(1,21) = 499.59 Modell| 60042.6081 1 60042.6081 TP = 0.0000 Reziduum | 2523.85475 21 120.183559 R2 = 0.9597 Total | 62566.4629 22 2843.93013 s = 10.963 -----------------------------------------------------------------------------| Coef. Std. Err. t TP [95% Conf. Interval] ---------+-------------------------------------------------------------------kategória| 44.10263 1.973137 22.352 0.000 39.99927 48.206 b0 | 12.92331 7.641927 1.691 0.106 -2.968945 28.81557 ------------------------------------------------------------------------------
Figyeljük meg, hogy az előfordulási gyakorisággal való súlyozás a megfigyelések összes számát természetesen változatlanul hagyja. A sebességnek a sebváltó fokozatával magyarázott súlyozott regressziója, ahol a súly mind a 23 megfigyelésnél rendre a saját csoporton belüli korrigált variancia reciproka (1/s2j): 8.19 táblázat -----------------------------------------------------------------------------Forrás | SS DF MS n = 23 ---------------------------------------F(1,21) = 1451.29 Modell| 154566.852 1 154566.852 TP = 0.0000 Reziduum | 2236.57169 21 106.503414 R2 = 0.9857 Total | 156803.424 22 7127.42837 s = 10.32 -----------------------------------------------------------------------------| Coef. Std. Err. t TP [95% Conf. Interval] ---------+-------------------------------------------------------------------valtó | 44.50278 1.168182 38.096 0.000 42.07341 46.93215 b0 | 6.491943 5.657396 1.148 0.264 -5.273256 18.25714 ------------------------------------------------------------------------------
Egyidejűleg nőtt a többszörös determinációs együttható (R2=0.9857) és csökkentek a paraméterek standard hibái. Most a sebváltó kategórián belüli átlagsebességet a sebváltó kategóriával magyarázva (ez 5, de súlyozott megfigyelés) és súlyként a kategória átlagsebességének inverz varianciáját (nj/s2j) használva, a becslés eredményei az alábbiak: 8.20 táblázat -----------------------------------------------------------------------------Forrás | SS DF MS n = 5 ---------+-----------------------------F(1,3) = 610.36 Modell| 33602.7529 1 33602.7529 TP = 0.0001 Reziduum | 165.162438 3 55.0541461 R2 = 0.9951 Total | 33767.9154 4 8441.97884 s = 7.4198 -----------------------------------------------------------------------------atlseb | Coef. Std. Err. t TP [95% Conf. Interval] ---------+-------------------------------------------------------------------kateg | 44.50361 1.80137 24.705 0.000 38.77085 50.23638
155
b0 | 6.487001 8.723861 0.744 0.511 -21.27622 34.25022 ------------------------------------------------------------------------------
Bár a 23 elemű súlyozott regresszió R2=0.9857 determinációjához képest az R2 értéke nőtt: R2=0.9951, de a paraméterek standard hibái másik oldalról romlottak. Továbbra is a sebváltó kategórián belüli átlagsebességet a sebváltó kategóriával magyarázva de robusztus paraméter standard hibákat számítva a becslés jellemzői az alábbiak: 8.21 táblázat -----------------------------------------------------------------------------Regresszió robusztus standard hibával n = 5 R2 = 0.9951 -----------------------------------------------------------------------------| Robust atlseb | Coef. Std. Err. t TP [95% Conf. Interval] ---------+-------------------------------------------------------------------kateg | 44.50361 0.7736639 57.523 0.000 42.04147 46.96576 b0 | 6.487001 4.743465 1.368 0.265 -8.608822 21.58283 ------------------------------------------------------------------------------
A többszörös determináció nem változott, viszont a paraméterek standard hibái radikálisan csökkentek.
8.12 RANGSOROLÁS PREFERÁLT PÁROSOK ALAPJÁN Célunk az alábbiakban az i=1,2,...,n megfigyelési egységek értékelése (rangsorolása) a j=1,2,...,p változókban megfigyelt xij kimenetelek lineáris kombinációja (másképpen a „score”) alapján. A lineáris score (ebben a fejezetben) az alábbi regresszió szerint alakul: si = 1xi1 + 2xi2 +...+ pxip. (8.66) A regressziós koefficiensek meghatározása szakértői ítéletekből kiindulva történik, aminek során a szakértő – a megfigyelési egységek adott párosításait tekintve - mindegyik párosítás esetén megjelöli a kettő közül az általa preferáltat. Természetesen a figyelembe vett párosítások ésszerű q=1,2,...,m száma jóval kisebb, mint a lehetséges párosítások száma. Mindazonáltal a koefficiensek birtokában valamennyi i egyedre számítható si score, és a modell szerint az xi megfigyelést akkor, és csak akkor preferáljuk az xI megfigyeléssel szemben, ha az előbbi score nem kisebb az utóbbinál: xi xI iff si sI . Kézenfekvő tehát a koefficienseket úgy meghatározni, hogy minél kevesebb legyen a diszkrepancia a modell és a szakértő között, vagyis minél konzisztensebb legyen a modell a szakértővel. Az eljárás input igénye láthatóan nem csak az adatmátrixot, hanem azon túlmenően a preferenciák mátrixát is igényli. A preferencia mátrix soraiban megadjuk a két összehasonlított egyed sorszámát, majd utána a preferencia irányát, és mértékét. Például a [4, 3, 1] sor azt mondja, hogy a 4. egyedet preferáljuk a 3. egyeddel szemben, egységnyi mértékben. Ugyanezt a tényt közli a preferencia mátrixban a [3, 4, -1] sor is. A kétféle változatot tetszőlegesen használhatjuk. A sor harmadik pozícióján ha zérót szerepeltetünk, ezzel a preferencia hiányát jelezzük. Például [4, 9, 0] azt mondja, hogy a 4. és a 9. egyedek közti viszonylatban egyikőjüket sem preferáljuk a másikkal szemben. Viszont a preferenciát súlyozhatjuk is, ha a mértékét egységnyitől különbözőnek választjuk. A [4, 8, 3] sor azt fejezi ki, hogy a 4. egyedet valamivel inkább preferáljuk a 8. egyeddel szemben, mint a 3. egyeddel szemben. De ezt a helyzetet jelenti a [8, 4, -3] megfogalmazás is. Egy preferencia mátrix tehát (például) az alábbi formát ölti: 4 3 1 4 9 0 8 4 -3
8.12.1 LEGKISEBB NÉGYZETEK MEGOLDÁS Jelölje Dq a q. párosítás preferencia értékét az i és I egyedek viszonylatában, melyet (tengelymetszet nélküli) lineáris regresszióval közelítünk: p
p
j 1
j 1
Dq j ( xij xIj )q q j zqj q .
(8.67)
Feladatunk a (8.67) regressziós modell meredekségeinek a becslése. A legkisebb négyzetek módszere a klasszikus
156
b = (ZTZ)-1 ZTd (8.68) becslőfüggvényt adja, ahol a Z(m,p) mátrix adott sora a megfelelő két egyed adatai közötti különbséget tartalmazza valamennyi változóra, a d(m,1) vektor pedig a szakértő konkrét preferenciáit foglalja magában. A modell természetesen nem tartalmaz tengelymetszetet, hiszen az eredmény változó jellegű d érték súlyozatlan preferenciák mellett mindig 1. Rajtunk múlik ugyanis, hogy a preferencia érték 1, vagy –1, hiszen ezt a zqj értékek megfelelő előjele követi. Ez az előjelcsere pedig b értékét nem befolyásolja. Ebben az esetben, ha lenne tengelymetszet a modellben, akkor értéke mindig 1, és valamennyi meredekség értéke 0 lenne. Vegyük észre, hogy a 0 preferencia érték szerepeltetése a preferencia mátrixban befolyásolja a paraméterek értékét, tehát, ha azt akarjuk, hogy két egyed azonos megítélése megjelenjen a végső rangsorban, akkor az ő párosításuk nem maradhat ki az adatállományból. A modellben figyelembe nem vett párosítás tehát nem azonos megítélést, hanem azt jelzi, hogy nem tudtuk preferálni egyiket a másikkal szemben. A rangsorolandó megfigyelési egységekre számított si score-értékeknek nem az abszolút nagysága, hanem két egyed közötti különbsége az informatív.
8.12.2 MAXIMUM LIKELIHOOD MEGKÖZELÍTÉS Egyszerűsítsük a preferencia meghatározását úgy, hogy a q. (q=1,2,...,m) párosítás esetén csak azt jegyezzük föl, hogy i preferált I ellenében, és ennek megfelelően zj=xij-xIj minden xj változóra. Jelölje P(,z) annak a valószínűségét, hogy az xi megfigyelést preferáljuk xI ellenében, és definiáljuk e feltételes valószínűséget a paramétereknek, és az egyedek közötti különbségeknek a függvényeként. Tegyük fel továbbá, hogy az egyes preferenciák egymástól függetlenül kerültek meghatározásra. Ekkor a preferenciák adott sorozatának együttes likelihood függvénye: m
m
q 1
q 1
L P(1 zq1 2 zq 2 ... p zqp ) P (uq ) max
(8.69)
ahol 0
(8.70)
q 1
Bevezetve most az yq=0, és fq lnPq transzformációkat, a log-likelihood maximálását visszavezetjük a G yq f q min m
2
(8.71)
q 1
négyzetösszeg minimálására, vagyis egy nemlineáris legkisebb négyzetek feladatra. E minimálási eljárást a fejezet végén ismertetjük. Ezen a ponton rögzítenünk kell a P valószínűség formuláját. Alkalmazhatjuk például a logisztikus valószínűségi eloszlást: eu . (8.72) P(u) 1 eu Ennek mondanivalója, hogy azon párosítások, ahol markáns egyetértés van a szakértő, és modell között (magas pozitív az u-érték) nincsenek jelentős befolyással a paraméterek alakulására, míg az ellentétesen megítélt párosítások meghatározó szerepet játszanak. Alkalmazhatjuk továbbá az alábbi függvényt is: 2 eu , u 0 P(u ) . (8.73) 1 egyébként Ezzel azt érjük el, hogy a m
v q 1
2 q
min
(8.74)
négyzetösszeg legyen minimális, ahol vq=uq, ha uq nemnegatív, és vq=0 egyébként. Ezek szerint azon esetekre minimáljuk a négyzetösszeget, amelyeknél a szakértői, és a modell szerinti preferencia eltérő. Amennyiben egy paraméter vektor már adott, úgy annak egy alkalmasan megválasztott konstanssal való szorzása következtében a - fenti valószínűségek alkalmazása mellett - a likelihood nő. Vagyis a ML paraméterbecslés során a paraméterek abszolút nagyságainak meghatározása nem lehetséges, csupán az egymáshoz való relatív viszonyukra
157
tudunk következtetni. Az egyedek rangsorolása viszont ennél nem is kíván többet. Célszerű tehát valamelyik paraméter értékét előzetesen egységnyinek választani (mondjuk 1=1) és a többi paraméter értékét hozzá igazítani. 8.19 Példa: Szakmai képzésben résztvevő hallgatók rangsorolása: a képzésben résztvevő 17 hallgatót a mindenki számára kötelező 13 tárgyban elért eredményeivel (pontszámaival), és 14. ismérvként a diploma munka színvonalát jellemző pontszámmal értékeljük. Az adatokat a 8.22. tábla közli. A táblában a T1-T13 című oszlopok vonatkoznak a kötelező tárgyakra. A hallgatók rangsorolása szükséges, mert a rangsor (valamely) felső szegmense előnyben részesül az elhelyezkedés során. Mindazonáltal a képzés vezetése a rangsorban az egzakt pontszámokon túlmenően az oktatók szubjektív benyomásait is érvényesíteni akarja (a félévközi munkához való hozzáállás, a nem kötelező tárgyakban nyújtott előmenetel, stb.). A szubjektív értékítélet megfogalmazása érdekében két zsűri kerül kijelölésre az oktatókból. Mindkét zsűri feladata az, hogy adjon olyan preferencia párosokat a hallgatók között, melyekkel a zsűri minden tagja egyetért. A második zsűrit speciálisan arra is kérik, hogy a preferenciáit súlyozza. Feladatunk hogy valamelyik zsűri preferenciáira, továbbá a pontszámokra alapozva rangsoroljuk a hallgatókat. 8.22. táblázat Hallgatók vizsgaeredményei Hallgató T1 T2 T3 T4 T5 T6 1 26 22 15 16 8 15 2 30 24 19 18 12 14 3 24 23 17 17 12 10 4 29 17 15 16 10 8 5 25 22 15 17 11 12 6 30 24 18 18 13 15 7 29 22 16 17 13 14 8 25 22 16 18 10 11 9 23 15 12 0 10 0 10 31 23 17 18 15 14 11 28 24 18 18 11 15 12 30 23 18 16 13 15 13 30 22 19 18 13 15 14 0 0 0 0 0 0 15 26 21 16 17 10 10 16 31 24 17 18 14 15 17 30 24 19 18 14 15
T7 24 25 24 23 23 26 26 21 0 27 27 28 27 0 24 25 26
A két zsűri preferenciát a 8.23. tábla mutatja. 8.23. tábla Preferencia mátrix Hallgatói Preferencia-érték párosítás 1. zsűri 2. zsűri 10 9 1 2 1 17 -1 -3 5 2 -1 -2 16 8 1 4 3 15 1 2 8 3 -1 -2 6 1 1 2 9 7 -1 -6 13 11 -1 -1 12 15 1 4 3 11 -1 -1 12 17 1 1 17 6 1 1 17 7 -1 -1 11 6 1 1 1 8 -1 0
158
T8 7 10 10 0 8 10 9 9 0 10 9 9 9 8 9 10 10
T9 6 8 7 8 7 8 10 7 5 8 8 8 9 0 5 10 8
T10 20 18 16 20 14 20 20 16 20 14 16 14 16 18 16 20 16
T11 9 8 8 0 7 8 10 5 8 8 8 5 9 7 8 10 9
T12 14 18 16 20 12 12 16 12 10 18 17 18 17 20 14 18 16
T13 6 8 9 8 8 7 8 6 6 8 8 8 8 6 7 8 9
Diploma 69 87 86 82 84 81 101 73 57 59 88 100 83 70 69 101 91
Mivel súlyozott preferenciákra is tekintettel kell lennünk, ezért a paraméterbecsléshez a lineáris regressziós módszert alkalmazzuk. A változókat stepwise eljárással szelektáljuk, ahol a választott kritikus t-érték 1.5. Ez azt jelenti, hogy csak azt a változót vonjuk be a lineáris regresszióba, amelynek a t-értéke a tesztelés során legalább 1.5. Az eljárás során a 8.24. táblában foglalt koefficienseket kaptuk. 8.24. tábla Becsült regressziós koefficiensek Változó Koefficiens t-érték Koefficiens 1. zsűri 2. zsűri T1 0 0 0.07969 T2 0 0 0.21694 T3 0 0 0 T4 0 0 -0.05025 T5 0 0 0 T6 0 0 0 T7 0 0 0 T8 0 0 0 T9 0 0 0 T10 0 0 0.03973 T11 -0.11596 1.659 0 T12 0.11385 2.198 0.07607 T13 0 0 0 Diploma 0.02807 2.509 0.10035 R2 0.712 0.993
t-érték 2.673 3.098 0 1.925 0 0 0 0 0 1.671 0 2.852 0 18.627
A 8.24. tábla alapján az 1. zsűri leginkább a diplomára, és a T12 tantárgy vizsgájára, és még a T11 vizsgára volt tekintettel a preferenciák megfogalmazásakor. E zsűri preferenciái tehát e három változó felhasználásával magyarázhatók, méghozzá (az R2 többszörös determinációs együttható szerint) 71.2 százalékban. Ezzel szemben a második zsűri értékítélete a diplomamunka mellett elsősorban a T2, T12, T1, T4 és T10 viszgákkal magyarázandó, 99.3 százalékban. Fölhívjuk a figyelmet arra, hogy mivel az alkalmazott lineáris regressziós modell most tengelymetszet nélkül került specifikálásra, ezért az R2 mutató értéke lehet nagyobb mint 1, sőt negatív is lehet. Ez azért van, mert a (0) becslőfüggvény mellett az eredményváltozónak nem a varianciáját, hanem a négyzetösszegét bontjuk regresszióból származó, és reziduális részekre. Mindazonáltal a második zsűri preferenciáihoz jobban illeszkedő modellt találtunk. Ennek az is a magyarázata, hogy a 2. zsűri preferenciái jobban szóródnak, lévén súlyozottak. A két modell által előrejelzett, és reziduális preferencia értékeket a 8.25. tábla közli. 8.25. tábla A szakértői (zsűri) preferenciák becsült értékei Hallgatói páros Szakértői Becsült Reziduális Szakértői Becsült Preferencia (1. zsűri) Preferencia (2. zsűri) 10 9 1 0.96690 0.03310 2 2.03946 1 17 -1 -0.84524 -0.15476 -3 -2.85316 5 2 -1 -0.65132 -0.34868 -2 -1.69851 16 8 1 0.88924 0.11076 4 4.33731 3 15 1 0.70488 0.29512 2 2.13267 8 3 -1 -0.47241 -0.52759 -2 -1.79639 6 1 1 0.22511 0.77489 2 1.70427 9 7 -1 -1.68624 0.68624 -6 -6.01453 13 11 -1 -0.25631 -0.74369 -1 -0.77628 12 15 1 1.67344 -0.67344 4 4.13870 3 11 -1 -0.16999 -0.83001 -1 -0.76224 12 17 1 0.94416 0.05584 1 0.85942 17 6 1 0.62012 0.37988 1 1.14889 17 7 -1 -0.16474 -0.83526 -1 -0.69915 11 6 1 0.76572 0.23428 1 0.76451 1 8 -1 -0.34843 -0.65157 0 0.08984
Reziduális -0.03946 -0.14684 -0.30149 -0.33731 -0.13267 -0.20361 0.29573 0.01453 -0.22372 -0.13870 -0.23776 0.14058 -0.14889 -0.30085 0.23549 -0.08984
159
Végül a becsült modellek praktikus felhasználása végett az egyes modellekkel hallgatónként külön-külön meghatározzuk az őt jellemző si score-értéket, melyek a 8.26. táblában olvashatók. A 8.26. és a 8.27. tábla között csak annyi a különbség, hogy az egyikben az 1., míg a másikban a 2. zsűri score értékei alapján rendeztük rangsorba a hallgatókat. 8.26. tábla Az első zsűri rangsora Hallgató 1. Zsűri 2. Zsűri 4 4.57866 15.74021 12 4.27644 18.53740 16 3.72471 19.07229 2 3.56365 17.50817 7 3.49702 18.37713 11 3.47787 17.29361 14 3.43010 9.26139 17 3.33228 17.67798 3 3.30788 16.53137 13 3.22156 16.51733 5 2.91232 15.80967 8 2.83547 14.73498 10 2.77768 14.40206 6 2.71215 16.52909 15 2.60300 14.39870 1 2.48704 14.82483 9 1.81078 12.36261 8.27. tábla A második zsűri rangsora Hallgató 1. Zsűri 2. Zsűri 16 3.72471 19.07229 12 4.27644 18.53740 7 3.49702 18.37713 17 3.33228 17.67798 2 3.56365 17.50817 11 3.47787 17.29361 3 3.30788 16.53137 6 2.71215 16.52909 13 3.22156 16.51733 5 2.91232 15.80967 4 4.57866 15.74021 1 2.48704 14.82483 8 2.83547 14.73498 10 2.77768 14.40206 15 2.60300 14.39870 9 1.81078 12.36261 14 3.43010 9.26139 Látható, hogy a 16., a 12., 7., és 11. sorszámú (nevű) hallgatók mindkét zsűri sorrendjében elől helyezkednek el. Mint láttuk, a maximum likelihood becslés most nemlineáris legkisebb négyzetek módszerének az alkalmazását igényli, mivel a problémát a változók transzformációjával sem tudtuk lineáris regresszióra visszavezetni. A módszer részleteivel a következő fejezet foglalkozik.
8.13 GYAKORLÓ FELADATOK 8.1 A France-98 labdarúgóvilágbajnokság első 13 legeredményesebb labdarúgójának pontszámai – az ún “kanadai” táblázaton – a rógott gólok, és a gólpasszok száma alapján alakultak ki. E labdarúgók bármelyike legalább három gólt ért el, az egyértelmű gólkirály pedig Davor Suker (horvát) volt hat góllal és gólpassz nélkül, mely számára 18 pontot eredményezett a tabellán. Az ötgólosok összesen 30 pontot jegyeztek, míg a négygólosok küzül csak kettő nem adott gólpasszt, s így összesen 39 pontot értek el. A háromgólosok összen 12 gólpasszt adtak, ami összesen 75
160
ponthoz juttatta őket, miközben közülük ketten értek 9, és ugyancsak ketten 11 pontot, két legeredményesebb játékosuk pedig együtt éppen 1 ponttal gyűjtött több pontot, mint a két gólpassz nélküli négygólos együttvéve. Feladat: Jellemezze, hogy milyen mértékben magyarázza a rúgott gólok és gólpasszok száma az elért pontok alakulását. Megoldás: (Gól,GPassz,Pont): (6,0,18), (5,0,15), (5,0,15), (4,3,15), (4,0,12), (4,0,12), (3,4,13), (3,3,12), (3,2,11), (3,2,11), (3,1,10), (3,0,9), (3,0,9). 8.2 A táppénzes napok száma (TápNap: millió nap) időbeli alakulását vizsgáljuk a táppénzesek napi átlagos létszáma (TápFő: ezer fő), és a és a rendszerváltás (Átkos) változók időbeli alakulásának a függvényében. A megfigyelt évek rendre: 1950,1955,…,1995,1996,1997,1998. A becsült regressziós modellt az alábbiak jellemzik: 8.28 táblázat Változó
Átlag
Szórás (s)
Lineáris korrelációk TápNap
Év
A becsült regressziós paraméterek
Átkos
TápNap 55.55 21.73 1 Év 78.15 16.95 0.409 1 Átkos … … -0.228 … 1 ÉvÁtkos … … -0.231 … … TápFő 171.69 70.13 0.952 0.268 -0.390 Év=Évszám-1900, Átkos=0Év90 és Átkos=1Év>90, ÉvÁtkos=ÉvÁtkos.
ÉvÁtkos
értéke
toleranciája
1 -0.393
-15.474 0.386 236.17 -2.513 0.2493
0.0418 0.0001 0.0001 0.0788
Feladat: a) Határozza meg a modell magyarázó erejét. (átlag, szórás: Átkos=0.308, 0.461, Év∙Átkos=29.7, 44.54.R2=0.937) b) Készítsen 95%-os megbízhatóságú konfidencia intervellumot a TápFő változó paraméterére. s=5.454, se(bTápFő)=0.001, 0.2493±2.31∙0.001. c) Számítsa ki a TápNap változónak a TápFő szerinti parciális rugalmasságát az átlagos pontban. (0.77) d) Jellemezze a multikollinearitást a VIF mutató felhasználásával. 8.3 Ötvenhárom véletlenszerűen kiválasztott napilap olvasóinak a számát egy adott időszakban a lapok előfizetett és eladott példányszámával magyarázzuk. A többváltozós lineáris regresszió- és korrelációszámítás eredményei a következők: 8.29 táblázat Változó
átlag
Olvsz Eladpldsz Előfpldsz
Feladat: a) b) c) d) e) f)
Paraméter
204.1 63.0 49.2
… 5.13 -2.58
Standard hiba … 0.29 0.35
Kovarianciák Eladpldsz 4251.0 3380.4
Olvsz 40965.8 13050.0 10120.0
Előfpldsz 2798.4
Értelmezze a regressziós paramétereket. Határozza meg és értelmezze a modell magyarázó erejét. Tesztelje 5%-os szignifikancia szinten a regressziós modell érvényességét. Tesztelje a regressziós paramétereket a TP értékek felhasználásával. Jellemezze a multikollinearitást a VIF mutató sedítségével. Számszerűsítse és értelmezze sz olvasók számának az eladott példányszám szerinti parciális rugalmasságát az átlagos szinten.
8.4 Egy megye vendéglátóipari üzletei éves forgalmának (MFt), karbantartási költségének (MFt), árrésének (%), alkalmazott létszámának (fő) és alapterületének (m2) az alakulását vizsgáljuk 59 véletlenszerűen kiválasztott üzlet adatai alapján, egy adott évben. Az üzletek között kombinátok, éttermek,vendéglők, presszók és büfék kerültek kiválasztásra. Az ilymódon rétegzett, továbbá az egyesített mintára vonatkozóan az alábbi adatok ismertek. Rétegen belüli mintajellemzők: 8.30 táblázat Réteg Kombinát Étterem Vendéglő Presszó Büfé Összesen
Mintaelemszám nj 16 11 8 12 12 59
Forgalom 10.62 4.99 3.31 4.04 0.94 5.27
Mintaátlagok Terület Árrés 843.7 45.98 402.9 40.12 273.7 41.70 175.0 42.94 40.7 16.42 384.9 37.68
KtKtg 0.763 0.133 0.244 0.070 0.015 0.280
Forgalom 6.54 3.39 2.10 3.00 0.64 5.29
Mintabeli szórások Terület Árrés 671.9 13.01 256.87 10.97 116.05 8.96 60.54 5.06 23.01 8.18 473.30 1.13
KtKtg 0.645 0.096 0.334 0.050 0.022 1.405
161
Az egyesített minta jellemzői: 8.31 táblázat Változó Árrés KtKtg. Forg. Létszám Terület
Árrés 1.000 0.355 0.361 0.429 0.338
Korrelációs mátrix KtKtg Forg 1.000 0.484 0.634 0.572
1.000 0.932 0.803
Létszám
1.000 0.891
Árrés 1.270 -0.119 0.340 -1.069 0.318
A korrelációs mátrix inverze KtKtg Forg Létszám
Terület
1.974 1.608 -2.802 0.116
5.086
... -11.0 1.267
18.768 -5.923
A forgalom alakulását magyarázó ötváltozós lineáris regressziószámítás paraméterbecslésének eredményei az egyesített minta alapján: 8.32 táblázat Változó tengelymetszet árrés Karbt.Ktg Létszám Terület * Kerekítve
paraméter 1.2888 -0.0132 -1.9621 … -0.0015
St.hiba (se) 0.0181 0.6610 0.0293 0.0011
t-érték … -2.97 10.98 -1.37
TPV érték* 0.470 0.000 0.000 …
Feladat: a) Tesztelje az ötváltozósregressziós modell paramétereit, és értelmezze az ''árrés'' változó paraméterét! b) Számítsa ki és értelmezze a forgalomnak a karbantartási költség szerinti, átlagos üzlet mellett értelmezett parciális rugalmasságát! c) Becsülje 95-%-os megbízhatósággal a Terület változó paraméterét. d) Határozza meg az ötváltozós modellben a Forgalom változónak a Létszámmal vett parciális korrelációját. e) Határozza meg annak a kétváltozós modellnek a paramétereit és a determinációs együtthatóját, melyben a Forgalmat csak az Üzlettípus (rétegtagság) változó magyarázza. 8.5 Budapesti irodaházak adatai alapján az átlagos havi bérleti díj (Díj) nagyságát az irodaház helyével (Zóna=1, ha külvárosi, 0 egyébként), a garázshelyek számával (Garázs) és a telefonvonalak számával magyarázzuk, lineáris regressziós modell felhasználásával. A változókat az alábbi adatok jellemzik. 8.33 táblázat Változó
Átlag
Szórás
Lineáris korrelációk
Zóna
0.115
…
Díj -0,5835
Garázs Telefon
126.9 164.7
114.8 133.1
0,3072 0,4505
Zóna
Garázs
-0,2136 -0,1958
0,8268
Feladat: a) Határozza meg és értelmezze a Díj és a Zóna közötti parciális korreláció értékét (a négyváltozós modellben). b) Számszerűsítse és értelmezze a négyváltozós modell magyarázó erejét. c) Jellemezze a multikollinearitást. d) Végezzen a modell egészére vonatkozó variancia-analízist, 104 elemű mintát feltételezve. 8.6 Numizmatikai forgalomban kapható tizenhét különféle aranyérme forgalmi árát (Ár: ezer forint) a kibocsátási darabszámmal (KbDB: ezer darab), a címletértékével (Címlet: ezer forint), és a finomságával magyarázzuk. (Finomság=0, ha az érme 986 ezrelék finomságú, és Finomság=1 egyébként (ekkor 900 ezrelék finomságú.) A paraméterbecslés eredményei az alábbiak: 8.34 táblázat Változó
Átlag
Szórás(s)
Lineáris korrelációk Ár
Ár KbDb Címlet Finomság
40.91 7.59 2.33 0.59
39.809 7.293 3.837 0.507
1 -0.3822 -0.2900 -0.4986
KbDb 1 0.0472 -0.4372
A becsült regressziós paraméterek Címlet
1 0.4166
Feladat: a) Határozza meg, és értelmezze a modell magyarázó erejét.
162
értéke -4.2291 1.1984 -69.4881
st. hibája 0.9538 1.7935 15.0673
toleranciája 0.7452 0.7614 0.6172
b) Tesztelje 5%-os szignifikancia szinten, és értelmezze a regressziós paramétereket. c) Készítsen 90%os megbízhatóságú konfidencia intervallumot a kibocsátási darabszám (KbDb) változó paraméterére. d) Számítsa ki és értelmezze a forgalmi árnak (Ár) a címlettel (Címlet) való parciális korrelációját. e) Jellemezze a multikollinearitást a VIF mutató felhasználásával. f) Becsülje egy 2500 darab példányszámú, 900-as finomságú, 5000 forint címletű érme várható árát 8.7 A négyévente megrendezésre kerülő újkori olimpiai játékok - 1896-tól 1994-ig tartó - története során mind a résztvevő országok, mind a versenyszámok száma (db) növekedett, s ennek megfelelően a résztvevő személyek száma (fő) is emelkedett. A résztvevő személyek számának alakulását többváltozós lineáris regressziós modellekkel magyarázva az alábbi eredmények adódtak: 8.35 táblázat Változó Y: Résztvevők sz. X1: Évszak X2: Év X3: Országok sz. X4: Versenysz. sz. Tengelymetszet
Átlag 2650,8 0,5526 1951,95 54,18 97,30 -
I. modell b
st.hiba
4122,2 57,58 -
348,64 6,16 -
-112020.7
Paraméterbecslés II. modell b st.hiba 30,07 18,31 -760.2
3,63 1,95 -
b
III. modell st.hiba
Szórás (s)
-795,52 -7,74 30,21 23,47 14269.0
656,0 7,2 6,1 5,3 -
2405,2 0,504 28,51 38,62 72,02 -
Évszak = 1, ha nyári és Évszak = 0, ha téli olimpiáról van szó, Év = 1896, 1900,....,1994. Ismert továbbá, hogy 1916ban, 1940-ben és 1944-ben elmaradt az olimpia. Az első téli olimpia 1924-ben került megrendezésre, de volt 1994ben is, mert 1992-től kétévente váltakozva követik egymást a téli és a nyári olimpiák. A változók korrelációs mátrixa: Változó Év Orsz. sz. Vers. sz. Résztv. sz.
Évszak -0,321 0,410 0,829 0,644
Év 1 0,626 0,198 0,405
Orsz. sz.
Vers. sz.
1 0,800 0,921
1 0,934
Ismert továbbá, hogy s(III)=515.41. Feladat: a) Számszerűsítse és értelmezze, majd hasonlítsa össze az I, II, és III modellek magyarázó erejét. b) Tesztelje 5 %-os szignifikancia-szint mellett a regressziós paramétereket! Értékelje a modelleket! c) Értelmezze és elemezze az „évszak” és az „év” változók becsült paramétereit d) Becsülje a II. modell felhasználásával az 1996. évi, atlantai nyári játékok résztvevőinek a számát! e) Jellemezze a multikollinearitást a II. modellre vonatkozóan.
163
9 AZ ÁLTALÁNOS LINEÁRIS MODELL JELLEMZÉSE 9 Az általános lineáris modell jellemzése Visszatérve az általános lineáris modell vizsgálatához, nyitva maradt paramétereinek a becslési módszere, és a becsült modell illeszkedésének a jellemzése. A becslési kérdés azért érdekes, mert az általános lineáris modell esetében ismert az eredményváltozó valószínűségi eloszlása, ezért a j (j=0,1,2,...) regressziós paraméterek becslésére a maximum likelihood módszer alkalmazása kézenfekvő. A likelihood arány statisztikán alapuló illeszkedésvizsgálat pedig általánosan alkalmazható egymásba ágyazott modellek közötti választáskor.
9.1 A PARAMÉTEREK MAXIMUM LIKELIHOOD BECSLÉSE Az exponenciális eloszláscsalád esetére a 7. fejezetben bevezetett jelölésrendszert és eredményeket alkalmazva, tekintsük az yi (i=1,2,...,n) véletlen, FAE mintát, amelynek együttes likelihoodja a ML elv alapján: n n y b(i ) L L( yi , i , ) exp i i c( yi , ) max i 1 i 1 ai () ahol az yi mintaelem feltételes i várható értéke a g(.) link-függvényen keresztül az i g (i ) xTi β lineáris prediktor szerint alakul. A maximálási feladat az alábbi maximum likelihood normálegyenletrendszer megoldását igényli: n ln L( yi , i ) (9.1) uj 0 j i 1 ahol j=1,2,...,p és ln Li
yi i b(i ) c( yi , ) ai ()
ln Li ln Li i i 1 j i i / i i j
(9.2)
A fenti deriváltak a modell jellemzőivel kifejezve rendre: ln Li yi b(i ) yi i i ai () ai () i 1 i g (i )
i xij . j A deriváltakat a (9.2) majd a (9.1) egyenletekbe helyettesítve, a megoldandó egyenletrendszer (j=1,2,...,p): n n yi i yi i 1 uj xij xij 0 i 1 ai () b(i ) g ( i ) i 1 Var ( yi ) g ( i ) vagy
(9.3)
n
u j yi i g (i )wi xij 0 i 1
ahol wi
1 Var ( yi ) g (i )
2
.
Ha kanonikus linket használunk, akkor g i i , g i i / i 1/ b i és g i b i 1 . Másik esete az egyszerűsödésnek, mikor ai()=ai, mert ilyenkor kiesik az egyenletrendszerből. A nemlineáris egyenletrendszert (általános esetben) megoldhatjuk akár a Newton-Raphson, akár a Fisher-scoring módszerrel (lásd ()).
164
Az utóbbit használva, az E információs mátrix általános eleme definíció szerint: [E]jk=Cov(uj,uk). E mintavételi kovariancia, mivel a mintaelemek független véletlen változók, és lineáris kombinációik közötti kovarianciát keressük (Garthwaite-Jolliffe (1995)): n n 1 Cov(u j , uk ) x x Var ( yi i ) xij wi xik 2 ij ik 2 i 1 Var ( yi ) g ( i ) i 1 ahol Var ( yi ) Var ( yi i ) . Így az információs mátrix az
E XT WX (9.4) formában is írható, ahol X(n,p) a magyarázó változók értékeit tartalmazó mátrix, és W diagonális súlymátrix Wii(b)=wi diagonális elemekkel. A Wii(b) súly maga is függvénye a becsült b regressziós paramétereknek. Az információs mátrix behelyettesítése után () alapján a paramétervektor b ellépésére a b XT WX u 1
XT WX
X W y μ g X WX X W z 1
T
i
T
1
T
iterációs képletet kapjuk. Ez a formula viszont a súlyozott legkisebb négyzetek módszerének becslőfüggvénye azzal a különbséggel, hogy itt mind a W súlyok, mind a z eredmény változó függvénye az aktuális, #. lépésben becsült b# paramétereknek. Ezt az eljárást ezért az újrasúlyozott legkisebb négyzetek módszerének nevezzük. (Iteratively Reweighted Least Squares.) E módszer a logisztikus regresszió paramétereinek maximum likelihood becslésekor központi jelentőségű. A regressziós paraméterek b becslése konzisztens, mintavételi eloszlása aszimptótikusan normális, és aszimptótikusan hatásos. Az aszimptótikusan normális eloszlás várható értéke β , kovariancia mátrixa pedig az információs mátrix inverze: b N β, E1 . Az információs mátrix elemeinek a becslése igényli a Var(yi) variancia becslését. Ennek a szabadsági fokkal korrigált becslése: 1 n 2 var yi yi ˆ i . n p i 1 9.1 Példa Legyen az xi feltétel mellett végzett véletlen megfigyelésünk kimenetele binomiális eloszlású. A kanonikus logit link függvény alkalmazása mellett határozzuk meg a regressziós paraméterek becslése során, az újrasúlyozott legkisebb négyzetek módszere által igényelt Wii súlyokat, és a zi eredményváltozót. Mivel ez esetben ni 1 1 g (i ) i ni i ni Pi 1 Pi Var ( yi ) ezért a logit regresszió regressziós paramétereinek az iteratív, súlyozott legkisebb négyzetek módszerével nyert becsléséhez szükséges súlyok: 1 Wii Var ( yi ) ni Pi 1 Pi 2 Var ( yi ) g (i ) és a korrigált eredmény változó y n P zi ( yi i ) g (i ) i i i . ni Pi 1 Pi Mivel a #. iterációs lépésben becsült Pi# paraméter iterációról iterációra változik, ezért a Wii# és zi# értékek is változnak az eljárás során. 9.2 Példa Határozzuk meg a Poisson-regresszió esetén az az iteratív módon újrasúlyozott legkisebb négyzetek módszere által igényelt Wii súlyokat, és a zi eredményváltozót. A kanonikus linket használva rendre az alábbi kifejezéseket kapjuk: T
i e xi β
g (i ) ln(i )
165
Wii
1 Var ( yi ) g (i )
2
1 1 i i
2
zi yi i g (i ) yi i
i
1 . i
9.2 ILLESZKEDÉS ÉS DEVIANCIA A GLM illeszkedésének a jellemzése az ún. deviancia fogalmára, mérésére épül. Az aktuálisan becsült modell (modell) eltérése a csak tengelymetszettel paraméterezett null modelltől a likelihood arány (LR) kritérium alapján: L LR _ 2modell 2 ln null 2 ln Lnull ln Lmodell . (9.5) Lmodell A (9.5) statisztikát a modell chi-négyzet értékének mondjuk, melynek szabadsági foka q, ahol a két modell q számú szabad (szabadon becsülendő) paraméterben különbözik egymástól. A vizsgált modell likelihoodja adott szignifikancia szinten jelentős eltérést mutat a null modelltől, ha a chi-négyzet értéke DF=q szabadsági fok mellett szignifikáns. Az aktuális modell mintához való közelségét, illeszkedését a Goodness-of-fit chi-négyzet statisztikával jellemezzük. Ez azt jelzi, hogy a vizsgált modell relatíve milyen közel van a maradék nélkül magyarázó tökéletes, ún. szaturált modellhez, amit maga a minta testesít meg: L GF _ 2modell 2 ln modell 2 ln Lmodell ln Lminta Dmodell (9.6) Lminta ahol Lminta a szaturált modell likelihoodját jelöli. A szaturált modelltől való Dmodell eltérést a modell devianciájának nevezzük. Az olyan esetekben, mikor a minta likelihoodja Lminta=1, akkor lnLminta=0, és ekkor a goodness-of-fit statisztika értéke az aktuális modell loglikelihoodjának mínusz kétszerese. Mivel a minta n elemű, ezért a szaturált regressziós modell n paramétert tartalmaz.45 Szignifikáns, magas D érték azt sugallja, hogy a szaturált modell jelentősen növeli a loglikelihood értékét az aktuális modelléhez képest, tehát e két modell jelentősen távol van egymástól. A LR _ 2modell statisztika azt mutatja tehát, hogy a szaturált modelltől való távolság mennyivel csökken, ha a null modellről az aktuális modellre áttérünk: LR _ 2modell Dnull Dmodell . (9.7) Figyelembe véve, hogy a szaturált modell likelihoodja nem föltétlenül 1 (tehát a loglikelihood nem zéró), ezért a null modellhez képesti loglikelihood-javulás lehetséges maximuma (lnLminta-lnLnull) ezért a pszeudo R2 mutatót az alábbiak szerint definiáljuk. A pszeudo R2 azt méri, hogy a vizsgált modell hány százalékkal javítja a null modell illeszkedését a mintához. Többféle formában kifejezve: 2 D Dmodell D GF _ modell R 2 null 1 modell 1 . (9.8) 2 Dnull Dnull GF _ null A pszeudó determinációs együtthatóra igaz az, hogy szélső esetekben értéke megfelelően zéró, vagy 1. 9.3 Példa Tizenkét évre vonatkozóan vizsgáljuk a bejelentett influenzás megbetegedések száma (ezer megbetegedés), és az influenziában meghaltak száma (fő) közötti kapcsolat időbeli alakulását, Poisson regresszió felhasználásával, maximum likelihood módszerrel becsülve a paramétereket. A változók azonosítói az alábbiakban rendre: „Influsz, Infhalal, Ev”, ahol a halálesetek száma az eredmény változó, és a megbetegedések száma, valamint az évszám a két magyarázó változó. 9.1. táblázat Influenza adatok Ev 1980 1983 1986 1988 45
Influsz 744 1176 1391 656
Infhalal 181 407 171 84
Más típusú modellek (például faktoranalízis jellegűek) esetén a szaturált modell paramétereinek száma nem föltétlenül a mintaelemszám!
166
1991 1992 1993 1994 1995 1996 1997 1999
328 561 973 439 240 240 284 327
10 112 48 53 57 50 63 37
A becsült modell magyarázó változóinak a bővítése során most négyféle lehetőségünk van: a csak tengelymetszetet tartalmazó, legszűkebb, a null modell, csak az egyik, vagy csak a másik magyarázó változót tartalmazó modell, mindkét magyarázó változót tartalmazó modell. Ezen az úton haladva, az alábbi becsléseket, és modelljellemzőket kaptuk. A csak a tengelymetszet tartalmazó null modell esetén: Goodness-of-fit chi2(11) = 937.574, LogLikelihood = -505.511. A mindkét magyarázó változót tartalmazó modell esetében: Goodness-of-fit chi2(9) = 252.925 LogLikelihood = -163.187 Modell-LR_chi2(2) = 684.649 A ML paraméterek az alábbiak: -----------------------Infhalal | b koefficiens ---------+-------------Influsz | .0008556 Ev | -.0834621 t.metszet| 170.0512 ------------------------
A mindkét magyarázó változót tartalmazó modell kapcsán az alábbi észrevételeket tesszük. A modell eltérése a null modelltől: LR _ 2modell 2 ln Lnull ln Lmodell
2(505.511 163.187) 684.649 . Ennek szabadsági foka 2, mert a két modell két szabad (szabadon becsülendő) paraméterben különbözik egymástól. A két modell likelihoodjai jelentős eltérést mutatnak egymástól, mert a 684.649 chi-négyzet érték DF=2 szabadsági fok mellett szignifikáns: Pr(chi2>684.649)=0. A háromváltozós modell illeszkedését a mintához a Goodness-of-fit statisztikával jellemezve: Dmodell 2 ln Lmodell ln Lminta 2 163.187 ln Lminta 252.925 . E deviancia értékből kiszámolható, hogy a szaturált modell (a minta) loglikelihood értéke: lnLminta = -36.7245. Mivel 12 elemű a minta, ezért a szaturált modell 12 paramétert tartalmaz, szemben a vizsgált modellel, mely csak hármat, ezért a goodness-of-fit chi-négyzet teszt szabadságfoka 9. A szignifikáns, magas chi-négyzet érték szerint a szaturált modell jelentősen csökkenti a loglikelihood értékét a háromváltozós modellhez képest, tehát az nem illeszkedik kellően az adott mintához. A pszeudo R2 alapján a modell 73 százalékkal javította az illeszkedést a null modellhez képest, mert GF _ 2modell 252.925 R2 1 1 0.73 . 2 GF _ null 937.547 Eszerint az illeszkedés némileg javul. A modellel nyert előrejelzéseket a 9.2. táblázat közli. 9.2. táblázat A háromváltozós modellel becsült halálozási gyakoriságok ---------------------------------------------Év Influsz Infhalal ln(Count) Count ---------------------------------------------1999 327 37 3.490210 32.79284 1997 284 63 3.620342 37.35034 1996 240 50 3.666156 39.10131 1995 240 57 3.749618 42.50486 1994 439 53 4.003353 54.78151
167
1991 328 10 4.158763 63.99231 1992 561 112 4.274665 71.85606 1993 973 48 4.543726 94.04054 1988 656 84 4.689799 108.8313 1980 744 181 5.432793 228.7873 1986 1391 171 5.485618 241.1980 1983 1176 407 5.552042 257.7635 * „count” a becsült gyakoriságot jelenti.
A becsült paramétereket használva, például 327 ezer megbetegedés esetén, 1999-ben (vagyis az [Influsz=327, Ev=1999] kovariáns mellett) a halálaesetek várható, előrejelzett száma: yˆ e170.0512 0.0008556 327 0.0834621 1999 32.7928 . A parciális regressziós paraméterek értelmét az e.0008556=1.000856 és e-.0834621=0.92 értékek nyújtják. Eszerint, ha a megbetegedések száma egyezerrel nő, akkor ceteris paribus a halálesetek száma várhatóan 8.56 tízezrelékkel emelkedik. Ezzel szemben, az idő múlásával ceteris paribus évente átlagosan 8 százalékkal csökkent a vizsgált időszakban a halálesetek száma.
9.3 NEMLINEÁRIS LEGKISEBB NÉGYZETEK MÓDSZERE Nemlineáris regressziós modellt definiálunk akkor, ha az eredmény változót és a magyarázó változókat valamilyen nemlineáris függvény kapcsolja össze, miközben a normális eloszlású véletlen változó additív módon kapcsolódik a regressziós függvényhez: y = f(x1,x2,...,xp,θ1,θ2,...,θq) + ε ahol f(.) tetszőleges skalár-értékű függvény, xj=1,2,...,p magyarázó változót, θk=1,2,...,q pedig regressziós paramétert jelöl. A nemlineáris modell egy tipikus alkalmazási esete, mikor az eredmény változó lehetséges értékei csak egy rögzített, például a (0,1) intervallumból kerülhetnek ki, miközben a magyarázó változó(k) értéke tetszőleges lehet. Az ilyenkor alkalmazandó aszimptótikus modellek egy lehetséges formája: (9.9) y 1 2 1 e3 x .
A három paraméter az eredmény változó minimális, maximális értékét és növekedési ütemét reprezentálja. Amennyiben x=0, az eredmény változó várható értéke θ1, majd θ3<0 mellett, ha x a pozitív végtelenbe tart, akkor y várható értéke θ1+θ2. Végül θ3 reprezentálja a növekedés ütemét. A (9.3.9) formula jól demonstrálja a nemlineáris modellek alkalmazásának fő problémáit: A fenti modell a θ3 paraméterében nemlineáris, továbbá nem szükséges, hogy közvetlen kapcsolat legyen valamely paraméter, és a magyarázó változó(k) között. A nemlineáris modell megkülönböztetendő az olyan regressziótól, amelynél az eredmény változó várható értékének, vagy a magyarázó változóknak valamely transzformációjával lineáris regresszióra visszavezethető. A (9.9) modell paraméterezése láthatóan nem egyértelmű, hiszen ezzel az
y 1 2 3 x
modell is ekvivalens az 1=θ1+θ2, 2=-θ2, és 3=exp(θ3) helyettesítésekkel. A nem egyértelmű paraméterezés befolyásolja a modell értelmezését és (majd) a becslését. Az ε hibatényező additív módon kapcsolódik az eredmény változó várható értékéhez. Egynél több magyarázó változót is szerepeltethetünk a fenti modellben, például az y 1 2 1 e3 x1 4 x2
(9.10)
módon, különböző növekedési ütemeket feltételezve. Ha az x1 és x2 változók ugyanazon ismérv tekintetében két csoportot definiálnak úgy, hogy zérus az értékük, ha a megfigyelés nem az ő csoportjukhoz tartozik, akkor két görbéről beszélünk, melyek közös θ1 tengelymetszetből indulnak, és közös θ1+θ2 aszimptótához tartanak. Továbbmenve, a (9.10) modellt módosíthatjuk az 4 3 x1 x2 4 y 1 2 1 e
1 2 1 e
168
x1 x2
formában is, ahol az x1 változó relatív hatását fejezi ki a növekedési ütemre, miközben =1 az azonos, vagyis az növekedési ütem hipotézisét fogalmazza meg. Az alábbiakban fölsorolásszerűen (az elemzést az Olvasóra hagyva) megemlítünk néhány általános nemlineáris függvénytípust, melyek megfelelő paraméterezése gyakran alkalmazott függvényeket eredményez.
Az exponenciálisok összege, ha q páros, vagy páratlan:
f 1e 2 x 3e 4 x ... q 1e
q x
illetve
f 1e 2 x 3e 4 x ... q .
A növekedési függvény: 8
4
f 1 x 2 e3 x 5 x 6 e7 x ...
ahol q/4 egész szám.
Az aszimptótikus függvény:
f 1 2 e
3 x1 4 x2 ...q xq2
.
A logisztikus függvény:
1
f
1
.
1 e 3x1 4 x2 ...q 1xq 3 q 2 A paraméterek becslése során azon értékeket keressük, melyek az alábbi, súlyozott reziduális négyzetösszeget minimálják: n
SSE wi yi fi
2
i 1
ahol i=1,2,...,n a mintába került megfigyeléseket azonosítja, melyek súlya rendre wi és fi= f(xi1,xi2,...,xip,θ1,θ2,...,θq). A problémát alapvetően kétféle módon oldhatjuk meg. Egyfelől képezhetjük a célfüggvény minimálásának elsőrendű feltételeit leíró n f SSE 2 wi yi f i i k k i 1 nemlineáris normál-egyenletrendszert (k=1,2,...,q), majd ezt megoldjuk valamilyen iteratív, pl. a Newton-Raphson technikával (lásd a () alfejezetben). Másfelől megoldhatjuk a minimálási feladatot a Gauss-Newton nemlineáris legkisebb négyzetek módszerével, mely a problémát visszavezeti a lineáris legkisebb négyzetek alkalmazására az alábbiak szerint. A paramétereket a θ=[θ1,θ2,...,θq] vektorba foglalva, az f függvény értékének egy kezdeti θ# paraméter körüli lineáris közelítése Taylorsorbafejtés alapján az i megfigyelés esetén: f f f f i () f i ( ) 1 i ... k k# i ... q q# i 1 k q #
#
#
# 1
#
#
f f f f i (# ) d1# i ... d k# i ... d q# i 1 k q ahol # a θ# pontban számított értéket jelöli, és i=1,2,...,n. A fenti modell (tengelymetszet nélküli) lineáris regresszió formájában megfogalmazva: yi fi (# ) d1# J i#1 ... dk# J ik# ... dq# J iq# #
#
ahol a d k# k k# parciális regressziós paraméter a klasszikus (súlyozott) legkisebb négyzetek módszere segítségével kerül meghatározásra (GLS), miközben a magyarázó változók a J#(n,q). Jacobi mátrix oszlopai. Ennek ismeretében, ha # az iterációs lépés sorszámát jelöli, akkor θ# 1 θ# d # .
169
Az iteráció akkor ér véget, ha a paraméterek ellépései abszolút értékben már nem haladnak meg egy előre rögzített kicsiny értéket, vagy ha az eljárás megengedett lépésszámon belül nem teljesíti a leállási feltételt. A paraméterbecslés fontos jellemzője, hogy a paraméterek lineáris kombinációjára megszorításokat tehetünk. 9.4 Példa Az alábbi példa a nevezetes Bard-féle tesztfeladat, mely a nemlineáris módszerek gyakori tesztfeladata. Valamely y jelenség (eredmény változó) alakulását modellezi i=1,2,...,15 megfigyelés alapján, három magyarázó változó függvényében, melyek rendre: x1, x2, x3. Az adatokat a 9.3.1. táblázat tartalmazza. Figyeljük meg, hogy x1 és x2 között függvényszerű, negatív irányú lineáris kapcsolat van: 9.1. táblázat A Bard-féle tesztfeladat y x1 x2 x3 0.14 1 15 1 0.18 2 14 2 0.22 3 13 3 0.25 4 12 4 0.29 5 11 5 0.32 6 10 6 0.35 7 9 7 0.39 8 8 8 0.37 9 7 7 0.58 10 6 6 0.73 11 5 5 0.96 12 4 4 1.34 13 3 3 2.10 14 2 2 4.39 15 1 1 Az alkalmazott regressziós függvény formája: X1 . 2 X 2 3 X 3 Mindhárom paraméter kezdőértéke egyaránt 1, tehát: θinduló=[1,1,1]. A paraméterek becsült értékére a P1, P2, P3 megnevezéssel hivatkozunk. f 1
Az iteráció során a négyzetes hibák összege (Sum of Squares of Error) és a paraméterek az alábbiak szerint alakultak -----------------------------------------------------------------------Iteráció SSE P1 P2 P3 -----------------------------------------------------------------------0 41.68169740 1.000000 1.000000 1.000000 1 1.26469955 0.082648 1.183493 1.666145 2 0.03750713 0.082492 1.165360 2.198362 3 0.00824386 0.082433 1.135166 2.337922 4 0.00821488 0.082412 1.133080 2.343650 5 0.00821488 0.082411 1.133037 2.343694
170
III KLASSZIFIKÁCIÓS MÓDSZEREK
171
10 LOGISZTIKUS REGRESSZIÓ 10 Logisztikus regresszió Az alábbiakban olyan módszereket ismertetünk, melyekkel előre definiált, egymást kölcsönösen kizáró csoportok valamelyikébe sorolunk be kérdéses egyedeket, mielőtt még tényleges tagságuk kiderülne. Az ilyen diszkrét, kategória-kimenetű eredményváltozó előrejelzését klasszifikációnak nevezzük. A klasszifikálás során a kérdéses egyed olyan jegyeire támaszkodunk, melyek korábbi empirikus megfigyelések alapján relevánsak a csoportok szóródását, diszkriminálását illetően. Az ilyen szeparáló szerepű változókat magyarázó változóknak nevezzük. A magyarázó változók mérési szintjei lehetnek mennyiségi jellegű folytonos, vagy diszkrét számértékek, de lehetnek nominális kategóriák is. A nominális kategóriák dummy változók rendszerével vonhatók be a döntési modellbe. A magyarázó változók szintjeinek egy rögzített kombinációja ún. kovariánst alkot. Az előrejelzés mindig adott kovariáns ismeretében történik. A klasszifikálás eredményeként adódik pl., hogy pénzügyi helyzete tükrében csődbe jutóként kezelünk egy gazdálkodó egységet vagy nem, életmódja mellett infarktust kap-e a páciens adott időszakban vagy elkerüli azt, nyereséges lesz-e egy költségigényes vállalkozás vagy veszteséges, visszafizeti az idős, nyugdíjas adós a neki nyújtott hitelt vagy sem, a hazai pályán játszó futball csapat nyer, döntetlent játszik vagy kikap, az autópályán elszenvedett sérülés kimenetele halálos, súlyos, vagy könnyű, stb. A vállalkozás csődbe jutásának a kockázatát várhatóan növeli, ha fizetési kötelezettségeihez nincs kellő likvid forrása, az infarktus kockázatát az elhízás fokozza, a tabella végén kullogó futball csapat ellen nagyobb a győzelmi esély, mint a listavezető ellen, és közúti baleset esetén a könnyű sérülés esélye a halálossal szemben nagyobb, ha a sérülés mérsékelt sebesség mellett lakott területen, mint ha száguldó gépjárműben autópályán történt volna. A klasszifikációs eljárások közül aszerint választunk, hogy milyen körülmények között alkalmazhatók. A dichotom (binomiális, vagy bináris) modell csak két kategória (csoport) közötti választást teszi lehetővé, míg a polichotom (multinomiális) modell nem korlátozza az eredményváltozó kategóriáinak a számát. A dichotom modell – tekintet nélkül a magyarázó változók eloszlására – mindig lehetővé teszi a feltételes, vagyis adott kovariáns ismeretében számított valószínűségek alapján történő döntést. A polichotom modell mindig visszavezethető dichotom modellek rendszerének az alkalmazására. Ha viszont ismert a magyarázó változók csoporton belüli valószínűségi eloszlása (például normális), akkor az adott kovariáns csoporton belüli bekövetkezésének likelihoodja is kalkulálható, és ennek ismerete finomíthatja a feltételes valószínűségek meghatározását. Azoknál a modelleknél, ahol a döntés feltételes valószínűségen alapul, a döntésbe a döntéshozó szubjektív ítélete is beépül. Végül, ha a változók valószínűségi eloszlására vonatkozó ismeretekre nem akarunk, vagy nem tudunk támaszkodni, de a magyarázó változók mérési szintje támogatja a távolságmérést a többdimenziós térben, akkor kézenfekvő a kérdéses egyedet a hozzá legközelebb álló csoportba besorolni.
10.1 DICHOTOM LOGISZTIKUS REGRESSZIÓ A logisztikus regresszió két, egymást kölcsönösen kizáró kategória bekövetkezési esélyeinek az egymáshoz való arányát, vagyis az odds mértékét modellezi magyarázó változók értékeinek az ismeretében. Adott kovariáns mellett kalkulálva az odds mértékét, azt a kategóriák bekövetkezési valószínűségévé konvertáljuk, majd e feltételes valószínűségek mérlegelésével a vizsgált egyedet a kategóriák valamelyikéhez hozzárendeljük. Az eredményváltozó valamely kategóriájának az előrejelzése e modellben a feltételes valószínűség mértékén alapul, tehát szubjektív elemet tartalmaz, a döntéshozó felelőssége. Ezért az előrejelzés egy, a feltételes valószínűség kritikus nagyságának a megítélését szolgáló döntési szabály rögzítését is igényli. Ha az eredményváltozónak két lehetséges kimenetele van, akkor dichotom, ha viszont kettőnél több kimenetele van, akkor polichotom logisztikus regresszióról beszélünk. Az alábbiakban a dichotom esetet tárgyaljuk A logisztikus regresszió során a „siker: 1” és a „kudarc: 0” bekövetkezési esélyeinek egymáshoz való aránya, az ún. "odds" vizsgálatából indulunk ki.46 Tegyük fel, hogy a siker bekövetkezésének feltételes valószínűsége a magyarázó változók x1,x2,...,xp rögzített kovariánsa mellett Px. Ekkor a sikernek a kudarchoz viszonyított esélye P oddsx x . 1 Px
46
A siker és kudarc terminológia a logit regresszió irodalmában megszokott.
172
A logisztikus regresszió feltételezése szerint az odds logaritmusa - másképpen a siker valószínűségének a logitja - a magyarázó változók lineáris függvénye. Az általános lineáris modell terminológiáját használva, a lineáris átviteli link függvény a logit: ln(oddsx ) logit( Px ) 0 1 x1 ... p x p ahonnan x ... x
oddsx e 0 1 1 p p eβx . A siker és a kudarc valószínűsége ezután a kétféle odds megoszlása: P / 1 Px Px oddsx Px x 1 Px Px 1 Px / 1 Px 1 oddsx 1 . 1 oddsx Így a ''siker'' valószínűsége az x kovariáns és a regressziós paraméterek függvényében 1 Px
x ... x
T
e 0 11 p p eβ x . (10.1) Px T x ... x 1 e 0 1 1 p p 1 eβ x Vegyük észre, ahogy Px tart zérustól 1-hez, az odds úgy tart végtelenhez. Mikor Px=0.5, az odds értéke 1. Ha 0
10.1.1 PARAMÉTERBECSLÉS Tekintsük a magyarázó változók xi1,xi2,...,xip kovariánsa mellett az y={1,0} dummy jellegű eredmény változó yi=y|xi értékét. Végezzünk i=1,2,...,n független, feltételes megfigyelést az eredmény változó értékének az alakulására. A kovariánsok között azonosak is lehetnek. Az egymástól különböző kovariánsok számát Nx, egy adott kovariáns előfordulási gyakoriságát pedig nx jelöli. A logisztikus regresszió az xi kovariáns melletti y kimenet valószínűségét a
173
T
Pr( y yi )
e yiβ xi
(10.2) T 1 e β xi modell paraméterein keresztül definiálja, ahol a regressziós paraméterek becsülendők. Mivel az eredmény változó kimenetelei binárisak, ezért kézenfekvő a regressziós paramétereket a maximum likelihood módszerrel becsülni. A magyarázó változók adott köre mellett a paraméterek azon b becsült értékeit keressük, melyekre a minta n n n e yibxi L Pr( y yi | b) Pibyi (1 Pib )1 yi max bxi i 1 i 1 i 1 1 e likelihoodja maximális, ahol Pib a a siker valószínűségének az i mintaelem xi kovariánsa mellett, a b paraméterek felhasználásával becsült értéke. Tekintettel arra, hogy adott kovariáns rögzít egy hozzá tartozó feltételes valószínűséget, és a kovariánsok között azonosak is lehetnek, a likelihood súlyozottan is felírható: L Pxb fx (1 Pxb )nx fx minden x kovariánsra
ahol fx az x kovariáns mellett bekövetkezett „1” kimenetelek megfigyelt (observed) száma. Az lnL loglikelihood maximálását a nemlineáris legkisebb négyzetek módszerének alkalmazására vezetjük vissza a következő módon. Mivel a modell alapján a „sikeres” kimenetelek várható száma az x kovariáns esetében E(fx) = nxPx a ''sikeres'' kimenetelek számának varianciája pedig Var(fx) = nxPx (1-Px) ezért a paraméterek becsléseit az iteratív módon újrasúlyozott Gauss-Newton nem lineáris legkisebb négyzetek módszerével is elvégezhetjük, miközben a ( f x nx Pxb )2 minden x kovariánsra nx Pxb (1 Pxb ) súlyozott négyzetösszeget minimáljuk. Mivel a súlyokban is (a nevezőben) szerepelnek a modellből becsült értékek, ezért a súlyok újraszámításra kerülnek minden egyes iterációs lépésben. A paraméterekre természetesen induló megoldást kell adnunk, amit lépésről lépésre javítunk a végső becslésig. Ha a rögzített x kovariáns mellett csak egy megfigyelést végzünk, akkor nx=1 és a mintavételi logitok száma megegyezik a megfigyelések számával, miközben fx={1,0}. Természetesen, ha az x kovariáns mellett több megfigyelést is végzünk, akkor a súlyozott logisztikus regresszió paramétereit becsüljük, és a mintavételi logitok száma megegyezik a kovariánsok Nx számával.
10.1.2 NOMINÁLIS MAGYARÁZÓ VÁLTOZÓK ÉS INTERAKCIÓK Tekintsük az xj nominális változót, melynek lehetséges kimeneteleit kategóriák alkotják. Ha a kategóriák száma K, akkor K-1 dummy változó szerepeltetése szükséges az egyes kategóriákhoz való tartozás egyértelmű megadásához. A dummy változók kódolása történhet parciális és marginális módon, valamint az ortogonális polinomok módszerével. Három lehetséges kategóriát tekintve pl.: 10.1. táblázat. Vállalkozások működési formájának kódolása Dummy változók Működési forma Parciális Marginális D1 D2 D1 D2 Részvénytársaság 0 0 -1 -1 Korlátolt felelősségű társaság 1 0 1 0 Betéti társaság 0 1 0 1 Ekkor a kategória hatása a logisztikus modellben: bj1Dj1 + bj2Dj2. A parciális módszer akkor alkalmazandó, ha valamelyik kategóriára mint referencia csoportra akarunk hivatkozni, és odds arányokat kívánunk becsülni. Ezzel szemben a marginális módszer a nominális változó ''fő'' hatásának (main effect) a számszerűsítésére úgy szolgál, hogy az adott kategóriát az átlagos kategóriához viszonyítja. A logisztikus modellben nemcsak a mérési változók, hanem azok interakciói is szerepeltethetők tekintet nélkül azok folytonos, vagy kategóriás voltára. Ha kategóriás kimenetelű változók xj*xk*... interakciója hatását vizsgáljuk, akkor gondot kell fordítani a dummy változók kódolásának a módjára. Tekintsük például a működési forma és a működés
174
jövedelmezősége (D=1: nyereséges, D=-1: veszteséges vállalkozás) interakcióját, marginális dummy változók alkalmazásával. Az interakciót definiáló két dummy változó kódolását az alábbi tábla illusztrálja: 10.2. táblázat. Nominális változók interakciója Működési forma Nyereséges D1 D2 Rt. Rt. Kft. Kft. Bt. Bt.
Igen Nem Igen Nem Igen Nem
1 -1 -1 1 0 0
1 -1 0 0 -1 1
Láthatóan az interakció 6 lehetséges kimeneteléhez való tartozás kifejezhető két (-1,0,1) értékű dummy változóval, míg (0,1) értékű dummy változóból ötre lenne szükség. Ugyanakkor két kategóriás kimenetelű változó interakciójának kifejezésére a parciális dummy változók nem alkalmasak, mivel ha a veszteségességet D=0 értékkel kódoljuk, akkor mind a veszteséges, mind a nyereséges részvénytársaságok (0,0) értékkel kerülnek kódolásra, s így nem különböztethetők meg. Bár a változók szelektálása során lépésenként mindig csak egy változó bevonásáról illetve kihagyásáról döntünk, ha ez a változó kategória kimenetelű, akkor annyi paramétert kell tesztelnünk, amennyi dummy változót a lehetséges kategóriák száma igényel. Ilyen esetben a kategóriák definiálásához szükséges dummy változókat külön-külön is, de egyidejűleg, kötegelve is beléptethetjük a logisztikus függvénybe. Az interakciókat végül szelektálhatjuk tetszőlegesen, de hierarchikus módon is bevonhatjuk őket a modellbe. Ez utóbbi szerint egy magasabb rendű interakció csak akkor kerülhet bevonásra, ha az összes alacsonyabb rendű interakció, és a változók fő hatásai is már a modellben szerepelnek, kidobása pedig csak akkor jöhet szóba, ha a modell már semmilyen magasabb rendű interakcióját sem tartalmazza. Például az I, J, K változók esetén az I*J*K legmagasabb rendű interakció csak akkor léptethető be hierarchikusan, ha mind az I, J, K változók (fő hatások), mind az I*J, I*K, J*K alacsonyabb rendű interakciók már szerepelnek a függvényben, az I változót pedig csak akkor lehet kidobni, amikor sem I*J, sem I*K, sem I*J*K nincs a modellben.
10.1.3 KONFIDENCIA INTERVALLUMOK Az xj magyarázó változó egységnyi megváltozásának a logit változására való várható, parciális additív hatása (1-α) megbízhatósági szinten b j z(1 / 2) seb j amiből következően az ''odds'' arányra gyakorolt multiplikatív hatása b z se b e j (1 / 2) j . A sokasági valószínűségre nyújtott Pxb pontbecslés konfidencia intervallumának a meghatározása a logit varianciájának és konfidencia határainak a számszerűsítésén (becslésén) alapul. Mivel a variancia lineáris dekompozíciójának kvadratikus formája alapján Var(logitx) = xTCbbx ezért a logit konfidencia határai
logit z(1 / 2) xT Cbb x ahol Cbb a becsült paraméterek mintavételi kovariancia mátrixa, x pedig a szóbanforgó kovariánst reprezentáló vektor. A logit alsó határát használva az odds meghatározásakor, a siker valószínűségének alsó határát, a logit fölső határát használva pedig a siker valószínűségének felső határát nyerjük.
10.1.4 HIPOTÉZISEK TESZTELÉSE A magyarázó változó jelentős hatást gyakorol az eredmény változóra, ha regressziós paramétere különbözik zérótól. A mintavétel tapasztalatai alapján, döntésünk szerint a paraméter akkor különbözik a zérótól, ha intervallum becslése nem tartalmazza a zéró értéket. A paraméterek szignifikanciájának tesztelése érdekében tekintsük a H0:j=0 hipotézist. Nagy minták esetén, ha a nullhipotézis fennáll, a bj / se(bj)
175
teszt statisztika aszimptotikusan standard normális eloszlást követ, ahol se(.) a becsült, aszimptotikus standard hiba. E statisztika mind egyoldali, mind kétoldali próba végrehajtását lehetővé teszi. A fentivel ekvivalens módon, de csak kétoldali H1:βj≠0 alternatív hipotézissel szembeni tesztelésre alkalmas a (bj / se(bj))2 Wald-statisztika, mely nagy minták esetén közelítőleg DF=1 szabadsági fokú CHI2 eloszlást követ. A fenti statisztikák alacsony értékei H0 fenntartását, magas értékei pedig annak elvetését indokolják. Egymásba ágyazott modellek közötti választás (a paraméterek egy csoportjára vonatkozó hipotézis tesztelése) háromféle visznylatban merül fel: Eldöntendő, hogy egy meglévő Mb bázismodell helyett egy Mt tárgymodellt preferáljunk-e az eredmény változó modellezésekor. Kérdés továbbá, hogy egy aktuálisan definiált Mt modell jobban (jelentősen jobban) magyarázza-e az eredményváltozó alakulását, mint a null modell. Az Mn null modell alatt e tárgykörben a csak tengelymetszetet tartalmazó modellt értjük. Végül a modell által nyert előrejelzések megbízhatóságát a maradék nélkül magyarázó, ún. szaturált modell előrejelzésétől, vagyis magától a mintától való eltérése, távolsága jellemzi. E deviancia alacsony volta az illeszkedés jóságát jelzi. Az Msz szaturált modell annyi paramétert tartalmaz, amennyi a minta maradék nélkül reprodukálásához szükséges, tehát praktikusan magát a mintát jelenti. A fenti kérdések mindegyike a paraméterek tekintetében egy szűkebb M0 és egy bővebb M1 modell közötti választásra vezet. A H0 és H1 hipotézisek alapján egymásba ágyazott modellek közül a bővebb modell maximált likelihoodja sohasem lehet kisebb, mint a szűkebb modell maximált likelihoodja, hiszen a bővebb modell esetén több paraméter mozgatásával legfeljebb nem javítjuk a maximálandó célfüggvényt, de semmiképpen nem rontjuk azt. Általában a bővebb modell a tárgymodell, de ez nem szükségszerű, nézőpont kérdése. Különösen akkor, mikor célunk a modell szűkítése. Két modell optimált célfüggvénye közötti eltérés lényeges, vagy elhanyagolható volta a likelihood arány tesztelésével ítélhető meg, melynek CHI2 statisztikája: Lb LR _ CHI 2 2 ln 0 =2 lnLbázis -lnLtárgy Lb 1 ahol b0 a paramétervektor H0 szerint megszorított szűkebb, b1 pedig a megszorítás nélküli bővebb ML becslését jelenti, Lbázis és Ltárgy pedig megfelelően a bázis- és tárgymodellek likelihoodja. A teszt DF szabadsági foka azon paramétereknek a száma, melyek értéke a H1 modellben szabadon becsülendő, viszont H0 szerint hipotetikusan rögzített. Ha a –2lnL mennyiség csökkenése, vagyis a loglikelihood javulása jelentős, akkor a H 0 modellel szemben a H1 modellt preferáljuk, adott α szignifikancia szint mellett. A változók szelektálása során azt teszteljük, hogy a modell illeszkedését a magyarázó változók egy csoportjának a modellből való egyidejű elhagyása, vagy a modellbe való egyidejű beléptetése csak elhanyagolható, vagy jelentős mértékben rontja, illetve javítja. Az utolsó (p-k) magyarázó változót tesztelve a null hipotézis: H0: k+1 = k+2 =...= p = 0. Ennek speciális esete, hogy a modell illeszkedését egy kiragadott xk magyarázó változó elhagyása, vagy bevonása jelentős mértékben rontja-e, vagy javítja: H0:k=0. A releváns magyarázó változók körének behatárolását lépésenkénti, ún. stepwise algoritmus segíti. Adott lépésben mindig csak egy változót vonunk be, vagy dobunk ki a modellből. Valamely már korábbi lépésben bevont változó kidobása akkor válik indokolttá, ha az újonnan bevont változók összességükben szoros sztochasztikus kapcsolatban vannak e változóval, ezért információ tartalmát illetően redundássá válik. Ezt figyelembe véve minden egyes lépésben döntenünk kell arról, hogy a következő lépésben a magyarázó változók körét bővítjük, vagy szűkítjük. Újabb változót csak abban az esetben vonunk be a modellbe, ha hatására szignifikánsan nő a loglikelihood függvény értéke, és csak akkor dobunk ki változót, ha elhagyásának hatására a loglikelihood csökkenése nem szignifikáns. A becsült modell mintához való illeszkedését az aktuális célmodellnek a szaturált modellel való összehasonlítása révén jellemezzük, a likelihood arány tesztelésével. A goodness of fit CHI2 statisztika most:
P f x 1 Pxb x x Lb 2ln xbf nx f x x Lsz x p x 1 p x n f
GF _ CHI 2 2ln
p 1 px 2 f x ln x nx f x ln Pxb 1 Pxb x
176
f n fx 2 f x ln x nx f x ln x (10.3) nx Pxb nx 1 Pxb x ahol a mintabeli px= fx/nx relatív gyakoriság a Px valószínűség ML becslése a szaturált modell esetén. Ha a becsült gyakoriságok nagysága legalább 5, akkor a GF statisztika nagymintás CHI2 eloszlást követ DF szabadsági fokkal, ahol DF a mintavételi logitok nl számának és a becsült paraméterek nb számának a különbsége: DF=nl-nb. Ha az eredmény jellegű kategóriák száma kettő, akkor kovariánsonként csak egy odds-arányt (illetve logitot) kell közelítenünk a modellel, tehát ez esetben nl=Nx, vagyis a mintavételi logitok száma megegyezik a kovariánsok számával. Ha azonban az eredményváltozó skáláját kettőnél több kategória alkotja, akkor nl=(K-1)Nx, ahol K a lehetséges kategóriák száma. (Ennek később, a polichotom modell esetén lesz jelentősége.) Megjegyezzük, hogy a maximum likelihood elv felhasználásával e klasszikus illeszkedésvizsgálat a Lagrangemultiplikátor, és a Wald-féle teszt elvek alapján is végrehajtható. A Lagrange-multiplikátor (score) elv a jólismert Person-féle f n P 2 n f n 1 P 2 x x x xb x xb 2 Pearson x n P n 1 P x x xb x xb
x
f x nx Pxb nx Pxb 1 Pxb 2
statisztikát, a Wald-elv használata pedig a
2 Wald
f n P 2 n f n 1 P 2 x x x xb x xb x fx nx f x x
x
f x nx Pxb px nx f x
2
próbafüggvényt eredményezi. E tesztek szabadsági foka megegyezik a GF_CHI2 teszt szabadsági fokával. Ha azonban minden egyes megfigyelés egy önálló mintvételi logit (nx=1), akkor a fenti illeszkedés vizsgálati eszközök nem informatívak, illetve nem is számíthatók. Ekkor a Hosmer-Lemeshow tesztet alkalmazzuk, mely a mintavételi logitokat a becsült Pbx valószínűségeik alapján nemcsökkenő sorba rendezi (tekintet nélkül a magyarázó változók számára), majd a rangsor valamely rendű kvantilisei (legfeljebb decilisei) által definiált csoportokra hajtja végre a Pearson féle χ2 tesztet g-2 szabadságfokkal, ahol g a kvantilisek által létrehozott csoportok száma.
10.1.5 REZIDUÁLIS JELLEMZŐK Az előzőekben tárgyalt mutatók az illeszkedés javulását a null és a tökéletes modell viszonylatában a szélső esetekhez viszonyítva átfogóan jellemzik. Nem tájékoztatnak azonban az illeszkedés belső természetéről, vagyis arról, hogy mely mintabeli megfigyelések nem reprezentálhatók kellően a modellel. Ezt a standardizált reziduumok jelzik. A Pearson-féle px Pxb exP Pxb 1 Pxb nx reziduum nagy nx esetén közelítőleg standard normális eloszlású, és így négyzetösszegük közelítőleg χ 2 eloszlású, melynek szabadsági foka megegyezik a mintavételi logitok számával. E mérőszámnak is alkalmazási feltétele nxPbx elegendően magas értéke. Az illeszkedés megítélését nagymértékben befolyásolhatják a magyarázó változókban extrém, kiugró értéket fölvevő megfigyelési egységek. Érdemes ezért az egyes megfigyelési egységek kihagyásával is becsülni a logisztikus modell paramétereit, és megfigyelni a paraméterek, illetve az illeszkedési mutatók értékében bekövetkezett változásokat. Az ''outlierek'' megjelölésében segítségünkre lehet a Person-féle reziduum korrigált exP exP* 1 hx változata, mely a korrigáláshoz a ''HAT'' mátrix hx diagonális elemeit használja fel, és felnagyítja a vizsgált megfigyelési egység reziduumokra gyakorolt hatását.
177
A reziduum egy másik standardizálási módozata a megfigyelt és becsült valószínűség különbségét a reziduum becsült standard hibájához viszonyítja: ex e*x . se(ex ) Nagyságrendileg, ha bármelyik típusú standardizált reziduum abszolút értéke nagyobb, mint 2, akkor az illető kovariáns mellett becsült gyakoriság rosszul illeszkedik a megfigyelthez. 10.1. Példa Személygépkocsiban elszenvedett balesetek sérültjeit tekintve, a személyi sérülések kimeneteleinek súlyosságát (halálos, nem halálos) kívánjuk magyarázni annak függvényében, hogy milyen sebesség mellett történt a baleset, és a megsérült személy biztonsági öve be volt-e kapcsolva, vagy sem. Összesen 6109 sérülést vizsgálva, ebből 289 volt halálos, a többi túlélte az eseményt. A halálos sérüléseket 0, a túlélőket pedig 1 azonosítja. A vizsgált 9 sebességtartományt folytonos változó kimeneteiként, az övhasználatot pedig kategóriaként kezeljük. Az öv használatát (vagy nem használatát) a regressziós függvényben parciális dummy változóval szerepeltetjük, melynek értéke 1, ha be volt kapcsolva az öv, és 0 ha nem. A sebességtartományok jellemzői rendre: 0, 30, 45, 55, 65, 75, 85, 95 és 120 km/h. E 18 kovariáns melletti megfigyelések és becslések eredményeit a 10.3. táblázat közli. A táblában a kovariánsok a túlélés becsült valószínűségei szerint vannak növekvőleg rendezve. 10.3. táblázat. Sérülések gyakorisága és becsült valószínűsége Kovariáns Túlélő Halálos sérülés Túlélési arány A túlélés becsült Sebesség Öv gyakorisága logitja valószínűsége 120 0 11 10 0.5238 0.2412 0.5600 95 0 19 11 0.6333 1.0571 0.7421 120 1 38 6 0.8636 1.1761 0.7642 85 0 28 9 0.7568 1.3834 0.7995 75 0 117 18 0.8667 1.7098 0.8468 95 1 110 18 0.8594 1.9920 0.8800 65 0 103 13 0.8879 2.0361 0.8845 85 1 106 11 0.9060 2.3183 0.9104 55 0 111 7 0.9407 2.3625 0.9139 75 1 723 59 0.9246 2.6447 0.9337 45 0 145 9 0.9416 2.6888 0.9364 65 1 608 27 0.9575 2.9710 0.9512 30 0 201 10 0.9526 3.1784 0.9600 55 1 922 27 0.9715 3.2974 0.9643 45 1 782 22 0.9726 3.6237 0.9740 30 1 1682 32 0.9813 4.1133 0.9839 0 0 9 0 1 4.1574 0.9846 0 1 105 0 1 5.0923 0.9939 10.4. táblázat. A paraméterbecslés jellemzői Változó b se(b) b/se(b) Sebesség -0.3263 0.0276 -11.8 Öv 0.9349 0.138 6.77 tengelymetszet 4.157 0.22 18.9
exp(b) 0.722 2.547 63.88
A paraméterbecslés eredményeit a 10.4 táblázatba foglaltuk. A magas b/se(b) érték alapján mindkét magyarázó változó szignifikáns hatással van az odds-arány alakulására. A (túlélés:halálos) odds-arányt modellező logisztikus regresszió: ln(odds) = 4.157 - 0.3263 S + 0.9349 B ahol S a 10km/h egységben mért sebesség, B pedig a biztonsági öv használatának dummy változója. A modellt jellemző maximált loglikelihood értéke: lnL= -1065.541. A magyarázó változók oddsra gyakorolt parciális hatása rendre: e-0.3263=0.72159
178
e0.9349=2.547. Eszerint a sebesség 10km/h-val való növelése - ceteris paribus - várhatóan 27.8 százalékkal csökkenti a túlélésnek a halálos kimenetelhez viszonyított esélyét, míg a bekapcsolt öv - egyéb feltételek változatlansága mellett - várhatóan 154.7 százalékkal emeli a túlélés odds-arányát. Ugyanakkor a becsült tengelymetszet szerint álló gépkocsiban (zéró sebesség mellett) kikapcsolt övvel (B=0) a túlélés és a halálos kimenetel esélyeinek egymáshoz való aránya: e4.157=63.88. A túlélés feltételes valószínűségének a meghatározását illetően, például 120 km/h sebesség mellett, bekapcsolt övvel a becsült logit: ln(odds) = 4.157 - 0.3263 12 + 0.9349 1 = 1.1763 és így a becsült feltételes valószínűség: e1.1763 P120,1 0.76428 . 1 e1.1763 A többi kovariánsra vonatkozóan a megfelelő eredmények a 10.3. táblázat olvashatók. Valamennyi kovariánsban mindkét sérülés-kimenetelre meghatározva a becsült feltételes valószínűségeket, a modellhez tartozó maximált loglikelihood értékének meghatározása definíció szerint (mind a 6109 sérültre a rá vonatkozó becsült valószínűséget alkalmazva): lnL = -1065.541 = ln(0.5611·0.4410 ·...· 0.9939105·0.00610. A becsült modell előrejelző erejét plasztikusan jellemzi az - ex-post (utólagos) jellegű - korrekt, és inkorrekt klasszifikációk gyakorisága a már megismert kimenetelek esetében. Az előrejelzés úgy történik, hogy rögzítünk egy kritikus értéket (cut off value) a túlélés valószínűségére vonatkozóan, majd meghatározzuk a kérdéses kovariáns melletti feltételes valószínűségét, és ha ez az érték meghaladja a kritikus értéket, akkor az illető sérülést túlélőként, ellenkező esetben pedig halálosként klasszifikáljuk. Ennek során természetesen kétféle téves (inkorrekt) döntést is hozhatunk, melyek következménye korántsem egyforma súlyú. Ha például a kritikus cut off value 0.57, akkor a fenti tábla alapján összeszámolható, hogy 11 túlélőt halálosként, és 279 halálost túlélőként klasszifikálunk. Ekkor a téves döntés aránya 290/6109=0.0475. Természetesen azt a kritikus értéket választjuk tapasztalati úton döntési szabályként, amely mellett a téves besorolás aránya (vagy valamilyen költsége) minimális. A sebességnek az odds-arányra gyakorolt parciális hatását jellemző 95%-os konfidencia intervallum alsó határa e-0.3263-1.96·0.0276 = 0.6836 felső határa pedig e-0.3263+1.96·0.0276 = 0.7617. Tekintsük most az x=[1,12,1] kovariáns mellett a túlélés valószínűségére vonatkozó 95%-os konfidencia tartomány határait. A kérdéses logit pontbecslése: logit = 4.157 -0.3263·12 + 0.9349·1 = 1.1763. Kihasználva, hogy a becsült paraméterek kovariancia mátrixa (ennek meghatározására részleteiben nem térünk ki): 0.0484000 0.00513690 0.01554400 Cbb 0.00513690 0.00076176 0.00027423 , 0.0155440 0.00027423 0.01904400 a logit mintavételi varianciája [1, 12, 1]Cbb[1, 12, 1]T = 0.029345, konfidencia tartománya pedig 1.1763±1.96·0.029345 = [1.1188÷1.2338]. Ebből a vizsgált valószínűség konfidencia tartománya végül e1.1188 Palsó 0.75377 1 e1.1188 e1.2338 Pfelső 0.77448 . 1 e1.2338 A modell lépésről lépésre történő javulását a 10.5. táblázat adatai jellemzik. 10.5. táblázat. A logit modell illeszkedésének javulása lépésről lépésre Változó DF Loglikelihood LR-CHI2 csökkenése Tengelymetszet -1163.819 Sebesség 1 -1085.961 155.716 Öv 1 -1065.541 40.840
Pv 0.000 0.000
Megjegyezzük, hogy ha az övhasználat változóját léptettük volna be a modellbe az 1. lépésben, akkor a hozzá tartozó LR_CHI2 statisztika értéke 55.98 lett volna. A TPV-értékek (tail probability value) alapján mind a sebesség, mind a
179
biztonsági öv szignifikánsan befolyásolja a sérülés kimenetelét. A teljes modellnek a null modelltől való eltérését kifejező CHI2 statisztika értéke: LR_CHI2 = -2·( -1163.819 -(-1065.541) )= 196.556 = 155.716 + 40.84 melynek szabadságfoka: 2. Ugyanakkor az övhasználatnak a sebesség után való beléptetése a modellbe a log(likelihood) értékét -1085.961-ről -1065.541-re növelte, amelyhez a LR_CHI2 = -2·( -1085.961 -(-1065.541) ) = 40.84 statisztika tartozik, 1 szabadsági fokkal. Példánkban, ha mind a sebesség, mind az övhasználat szerepel magyarázó változóként, a modell mintához való illeszkedését (a szaturált modelltől való eltérését) jellemző likelihood arány típusú teszt értéke - a (10.3) formula alapján: GF_CHI2 = 12.876 = Hiba! Mivel zéró sebesség mellett nem volt halálos baleset, ezért e két cella esetén a logaritmus függvény nincs értelmezve, így e két cellát kihagyjuk az összegzésből. A statisztika szabadságfoka 18-3=15 (a kovariánsok száma 18, és 3 paramétert becsültünk), a hozzá tartozó P-érték pedig 0.612. Az illeszkedés jóságát tesztelve látható, hogy a modell rendkívül jól illeszkedik a mintához globálisan, mivel 0.612 minden szokásos szignifikancia szintnél magasabb. Mint láttuk fent, a GF statisztika a deviancia mutató átalakított formája. Definíció szerinti meghatározása az alábbi módon történik: GF_CHI2célmodell = -2(lnLcélmodell - lnLszaturált) = -2(-1065.541 - (-1059.103)) = 12.876 ahol a háromváltozós modell maximált lnLcélmodell=-1065.541 loglikelihoodját már korábban meghatároztuk. A szaturált, tökéletesen illeszkedő modellnek, vagyis magának a mintának a maximált loglikelihoodja pedig (a közbülső kovariánsok föltüntetését elhagyva): lnLszaturált = -1059.103 = ln(0.523811·0.476210·...·1105·0). A null modell távolsága (devianciája) a szaturált modelltől: GF_CHI2null = -2(lnLnull - lnLszaturált) = -2(-1163.819 - (-1059.103)) = 209.432 A pszeudó R értéke: 2
R2 = 1 – lnLcélmodell / lnLnull = 1 – 1065.541 / 1163.819 = 0.0844. a korrigált pszeudó R pedig R2* = 1 – GF_CHI2célmodell / GF_CHI2null = 1 – 12.876 / 209.432 = 0.9385. Fölhívjuk a figyelmet, hogy ez esetben elengedhetetlen az R2 korrekciója, mivel -1059.103 a loglikelihood javulásának a határa. Eszerint a két magyarázó változó együttes jelenléte 93.85 százalékkal javítja a modell illeszkedését a null modellhez képest. A nem korrigált pszeudó R2 most értelmezhetetlen, mivel ez a mutató a loglikelihood javulását egészen zéróig feltételezi. A balesetek példáját illetően a reziduális jellemzőket a 10.6. táblázat közli. Mint látható, az illeszkedés valamennyi kovariáns mellett kielégítő. A Deviance, HAT-diagonális és Influence mértékek értelmezését lásd a 8. fejezetben. Ezek alapján a kovariánsok között nincs lényeges outlier. 2
10.6. táblázat. A logit modell diagnosztikája Sebesség 120 95 85 95 120 75 65 85 75 55 45 30 65 55 45 30 0 0
180
Öv 0 0 0 1 1 0 0 1 1 0 0 0 1 1 1 1 0 1
e* -0.3690 -1.4454 -0.6834 -0.7866 1.7717 0.7386 0.1249 -0.1740 -1.2270 1.1163 0.2883 -0.6129 0.7936 1.3322 -0.2676 -1.0778 0.3765 0.8126
ePearson -0.3342 -1.3622 -0.6501 -0.7163 1.5532 0.6406 0.1143 -0.1667 -1.0261 1.0362 0.2640 -0.5490 0.7292 1.1977 -0.2449 -0.8484 0.3753 0.8032
Deviance -0.3334 -1.3115 -0.6344 -0.6999 1.6499 0.6526 0.1148 -0.1655 -1.0054 1.0928 0.2675 -0.5339 0.7448 1.2403 -0.2428 -0.8275 0.5287 1.1341
HAT-diagonális 0.1794 0.1118 0.0952 0.1707 0.2315 0.2477 0.1631 0.0826 0.3007 0.1384 0.1612 0.1977 0.1556 0.1918 0.1626 0.3803 0.0066 0.0231
Influence 0.030 0.263 0.049 0.127 0.946 0.180 0.003 0.003 0.647 0.200 0.016 0.093 0.116 0.421 0.014 0.713 0.001 0.016
Bevonva a logisztikus modellbe a sebességnek az övhasználattal való interakcióját, a paraméterbecslés eredményeit a 10.7. táblázat közli. 10.7. táblázat. Interakcióval bővített logit modell Változó Sebesség Öv S*Ö tengelymetszet
b -0.3641 0.5771 0.05363 4.414
se(b) 0.0513 0.432 0.0609 0.371
b/se(b) -7.1 1.34 0.88 11.9
exp(b) 0.695 1.78 1.06 82.6
Az eredményekből kitűnik, hogy - az alacsony b/se(b)=0.88 érték miatt - az interakció nincs szignifikáns hatással az odds-arányra.
10.2 KONTROLLÁLT PÁROSÍTÁSOK LOGIT MODELLEZÉSE Kontrollált megfigyelések alkalmazása kézenfekvő akkor, ha valamely z tényezők egyébként hatással vannak az y=1, vagy az y=0 kimenetre, de minket csak az x1,x2,…,xp magyarázó változók befolyásoló szerepe érdekel, változatlan feltételek mellett. Ilyenkor egy y=1 esetet párba állítunk egy olyan y=0 kontroll megfigyeléssel, melyek z tekintetében egyformák, de a magyarázó változók értékeiben különböznek. Jelölje k az így képzett k. párosítást, ahol k=1,2,…,m. E párosítás tulajdonképpen egy kételemű csoportot alkot, melyet a z változók azonos szintje köt egybe, és definiál. A párosítást több z tényező egyidejű kombinálásával tovább homogenizálhatjuk. Ekkor feltevésünk szerint más és más z csoportok mellett azonos x kovariáns esetén is eltérők az y=1 kimenet odds értékei. Ezt a páronként különböző αk paraméter bevezetésével az alábbi odds-modell fejezi ki: x x ... x oddsk e k 1 1 2 2 p p ek βx . A modell szerint ugyanakkor x megváltozásának az oddsra gyakorolt exp(β) hatása független a konkrét k. párosítástól. Mindenesetre a modell a számos αk paraméter miatt túl sok becsülendő paramétert tartalmaz, melyek nagy száma jelentősen rontja a becslések megbízhatóságát. A fenti modell tehát olyan kérdés elemzésére alkalmas, mely nem igényli a párspecifikus tengelymetszetek becslését. Ilyen kérdés – ugyanazon β meredekségek mellett - , hogy ceteris paribus (vagyis adott párosítás, adott csoport mellett) az x0 kovariánsról áttérve az x1 kovariánsra mennyi az odds szorzója az y=1 kimenetre való áttérésnek. Ugyanis odds1k x x x x ... p x1 p x0 p β x x e 1 11 01 2 12 02 e 1 0 . odds0 k ahol a 0 idex az y=0, az 1 idex pedig az y=1 tagját jelöli a k. párosításnak. Képezve az alapadatok párosokon belüli y1k y0k 1 0 1 és x j1k x j0 k differenciáit valamennyi xj (j=1,2,…,p) változóra, majd e differenciákra klasszikus ML becslést végezve tengelymetszet szerepeltetése nélkül, nyerjük a β meredekségek feltételes (conditional) maximum likelihood becslését (CML). 10.2. Példa Példaként tekintsünk 78 csődbejutott ipari vállalkozást, melyek mindegyikéhez hozzárendelünk egy működő, iparágban azonos tevékenységű, és nagyságrendileg hasonló létszámot foglalkoztató kontroll vállalkozást. Ezt követően mind a 156 cégre az alábbi magyarázó változók értékeit mérjük: x1: Likviditás: 100*(Pénzeszközök + Követelések) / Rövid lejáratú kötelezettségek, x2: Jövedelmezőség: 1000*(Adózott eredmény + Amortizáció) / Értékesítés nettó árbevétele, x3: Adósság: 100*Összes kötelezettség/Tárgyi eszközök nettó állománya, x4: Forgóeszközarány: = 100*(Készletek+Rövid lejáratú értékpapírok+Pénzeszközök)/ Tárgyi eszközök nettó állománya, x5: Követelés/Kötelezettség = 100*Követelések / Rövid lejáratú kötelezettségek. A Sors nevű változó értéke 1, ha a cég csődbment, és zéró, ha kontroll vállalkozásról van szó. A kódolást illetően: Sors=Csőd=1, és Sors=Kontroll=0. A megfigyelt cégek tehát m=78 párosítást alkotnak. Adott párosítás cégei azonos tevékenységi körhöz tartoznak (z1 a szakágazatot mutató négyjegyű TEÁOR szám: SzÁg), és közel hasonló
181
létszámot foglalkoztatnak (z2: Foglalk). Az első 3, és az utolsó 3 páros adatait a 10.8 tábla, a mennyiségi változók átlagos értékeit és szórásait pedig a 10.9 tábla közli. 10.8. tábla Ipari vállalkozások csőd-kontroll szerint párosított adatai Cég 1 2 3 4 5 6
SzÁg 1111 1111 1311 1311 1311 1311
Foglalk 5164 7015 321 328 463 484
Sors Csőd Kontroll Csőd Kontroll Csőd Kontroll
Likviditás 43.14 23.25 100.83 219.89 37.07 56.14
Jövedelm 23.87 -96.41 -29.52 12.02 -59.50 140.60
Adósság 37.98 37.63 40.73 10.00 85.33 15.91
F.eszk.ar 38.47 21.38 68.25 50.24 56.61 32.86
Köv/Köt 38.73 15.62 93.09 171.38 35.79 51.91
151 152 153 154 155 156
1914 1914 1915 1915 1922 1922
1250 2151 1214 1314 929 481
Csőd Kontroll Csőd Kontroll Csőd Kontroll
18.71 44.30 41.55 45.06 24.96 51.18
-194.07 -85.73 -40.52 70.28 -136.77 -283.37
95.74 86.59 70.47 37.10 53.43 61.19
69.23 79.89 65.81 61.04 62.89 52.99
18.23 43.44 38.28 37.33 23.18 48.72
10.9. tábla Pénzügyi mutatók átlagai és szórásai Változó Átlag Szórás Likviditás 72.134 60.846 Csőd 47.016 23.402 Kontroll 97.252 75.010 Jövedelm -84.046 166.46 Csőd -158.84 151.93 Kontroll -9.2529 146.14 Adósság 55.199 27.993 Csőd 64.164 26.453 Kontroll 46.233 26.736 F.eszk.ar 60.849 16.627 Csőd 58.291 16.454 Kontroll 63.407 16.508 Köv/Köt 62.434 51.359 Csőd 43.171 22.392 Kontroll 81.697 63.692 Specifikáljuk, majd becsüljük és jellemezzük a logit regressziós modellt, mely az egyes kontrollált párosítások által alkotott csoportokra nyújt csődvalószínűséget. A változók szelektálásának a lépéseit a változók regresszióba való bevonásának a sorrendjében a 10.10 tábla tartalmazza. Itt olvashatjuk a loglikelihood javulásának, és az illeszkedés javulásának a folyamatát. 10.10. tábla A csődközeliséget magyarázó változók „stepwise” szelekciója Bevont változó DF Loglikelihood LR-CHI2 TP GF-CHI2 TP 0 -54.065 108.131 0.014 Likviditás 1 -29.897 48.336 0.000 59.795 0.927 Köv/Köt 1 -27.040 5.715 0.017 54.080 0.973 Jövedelm 1 -25.859 2.362 0.124 51.718 0.982 F.eszk.ar 1 -25.636 0.446 0.504 51.272 0.980 Adósság 1 -25.581 0.110 0.740 51.161 0.976 A korrigált pszeudo-R2=1-51.161/108.131=52.69%, vagyis a modell közel egyenlő távolságra van a null- és a szaturált modelltől. Mindemellett a TP=0.976 „tail-probability” azt modja, hogy az 5 magyarázó változós teljes (full) modell kielégítően mintaközeli információt reprodukál. Vegyük észre azonban, hogy az illeszkedés már a Likviditás mutató egyedüli alkalmazásával is kiváló, de ezt még a Köv/Köt arány bevonása 5 százalékos szinten szignifikánsan, a Jövedelmezőség bevonása pedig bár nem szignifikánsan, de még érezhetően javítja. Lásd a LR-CHI2 csökkenését.
182
Viszont az Adósság változó bevonásának hatására olyan csekély mértékben csökken a GF-CHI2 érték, hogy ennek hatását a szabadsági fok csökkenése túlszárnyalja, és a TP érték 0.98-ról 0.976-ra csökken, romló illeszkedést jelezve. A fentiekre tekintettel a modellben csak a Likviditás, Jövedelmezőség és Követelés/Kötelezettség mutatókat szerepeltetjük magyarázó változóként. A paraméterbecslés eredményeit a 10.11 tábla közli. A becsült paramétert a Koefficiens megnevezés azonosítja, se(.) becsült standard hibát jelöl, 95%KI pedig a 95 százalékos konfidencia intervallum alsó és felső határait jelenti. 10.11. tábla Párosított logitok becsült modellje Változó b se(b) b/se(b) exp(b) Likviditás -0.1235 0.0518 -2.38 0.884 Jövedelm -0.003079 0.00219 -1.41 0.997 Köv/Köt 0.09605 0.0511 1.88 1.10
95%KI_A 0.797 0.993 0.994
95%KI_F 0.980 1.00 1.22
Ezek szerint a likviditás és a jövedelmezőség növekedése csökkenti, a követeléseknek a kötelezettségek százalékában vett növekedése pedig növeli a csőd esélyét. Például a likviditás 1 százalékpontos emelkedése 100(10.884)=11.6 százalékkal csökkenti a csődesélyt. A becsült regressziós paraméterekkel a feltételes valószínűséget például az első párosítás esetén az alábbiak szerint számítjuk. A log(odds) értéke: 0.6051 0.1235 43.14 23.25 0.003079 23.87 96.41 0.09605 38.73 15.62 . Ezek birtokában pedig a feltételes valószínűség e párosításra: e0.6051 0.3532 . 1 e0.6051 Az első párosítás alkotta csoportban a csődvalószínűség tehát 0.3532.
10.3 POLICHOTOM LOGISZTIKUS REGRESSZIÓ A polichotom, vagy multinomiális (multicategorical) logisztikus modellel egyidejűleg kettőnél több kategória bekövetkezési valószínűségét is előrejelezhetjük a magyarázó változók adott kovariánsa mellett. Tekintsük a Gg (g=1,...,m) kategóriákat. Az egyes kategóriákhoz való tartozást kifejező indexet y eredmény változóként kezelve, feladatunk a Pr( y=g | x1, x2,...,xp ) = Pgx feltételes valószínűség becslése valamennyi (g=1,...,m) kategóriára nézve, ahol
m
g 1
Pgx 1 .
A probléma megközelítése alapvetően kétirányú. Kezelhetjük az egyes kategóriákat úgy, hogy azok egymáshoz viszonyított sorrendjében semmiféle ordinalitást nem tételezünk fel, vagyis a kategóriák sorrendisége nem informatív. Egy másik meggondolás szerint viszont, ha a kategóriák valamilyen ordinális sorrendje adott, akkor ezt a tényt elemzésünkbe beépíthetjük. E két elv kétféle módszertant határol el egymástól.
10.3.1 NOMINÁLIS KATEGÓRIÁK LOGITJAI Amennyiben a kategóriák sorrendisége nem érdekes számunkra, úgy valamennyi kategória-páros odds-aránya elemzendő. Ez viszont m számú kategóriát tekintve úgy is megvalósítható, hogy egy tetszőleges kategóriát (például az utolsó m indexűt) bázisul választjuk, és a többi m-1 számú esélyét e bázis kategória bekövetkezési esélyéhez viszonyítjuk. A Gm kategória önmagához való oddsa értelemszerűen 1. Ennek birtokában már bármely kategóriapáros odds-aránya is meghatározható. A nominális modell szerint valamennyi kategória párosítás logitját egy-egy önálló lineáris regresszió magyarázza, az alábbiak szerint: β x oddsg:m|x e g g . Ezek után az egyes kategóriák feltételes bekövetkezési valószínűségét a fenti odds-arányok megoszlásaként definiáljuk:
183
Pgx
oddsg:m|x
m
k 1
oddsk:m|x
ahol (g=1,...,m) és oddsm:m = 1. A paramétereket szimultán módon, a maximum likelihood módszer szerint becsüljük. Tekintsük a magyarázó változók xi1,xi2,...,xip kovariánsa mellett az y={1,2,...,m} dummy jellegű eredmény változó yi=y|xi értékét, és legyen i=1,2,...,n független megfigyelésünk az eredmény változó értékének az alakulására. A fenti körülmények között a minta maximálandó likelihoodja n
L Prb y yi max i 1
ahol a b alsó index a becsült paramétereknek megfelelő becslést jelenti. A többször is előforduló kovariánsok gyakoriságait felhasználva a likelihood súlyozott formában:
L Pgxb
f gx
x,g
ahol Pgxb az x kovariáns g csoportba kerülésének becsült valószínűsége, miközben az g csoport előfordulási gyakorisága a kovariánsban fgx. Mivel a paramétereket szimultán módon becsüljük, a Pgxb valószínűség invariáns arra, hogy melyik kategóriát használjuk bázisként. Ha pedig szükségünk van két kiragadott - például a g és a j kategória egymáshoz való odds-arányára, akkor ezt az odds g:m odds g: j odds j:m módon határozzuk meg. Az illeszkedés jóságát most is jellemezhetjük a GF_CHI2 ''goodness of fit'' statisztikával globálisan, vagy részletezhetjük a standardizált reziduumokkal. A reziduumok standardizálásának módja a polichotom modell alkalmazása esetén a CHI-statisztika: pgx Pgxb . CHI gx Pgxb
nx Ennek négyzetösszege adott kovariánsra az illető kovariáns illeszkedését jellemző Pearson-féle CHI2 statisztikát, valamennyi kovariánsra való összegzése pedig a modell egészét jellemző CHI2 statisztikát eredményezi: CHI x2 g 1 CHI gx2 m
CHI
2 x
.
x
10.3.2 ORDINÁLIS KATEGÓRIÁK KUMULATÍV LOGITJAI Ha az előrejelzendő kategóriáknak adott egy G1, G2,...,Gm rögzített sorrendisége, akkor ez az ordinalitás a logitokban is közvetlenül megjelenhet. Ezáltal kevesebb paraméter becslését igénylő - így könnyebben értelmezhető - esetleg jobban illeszkedő modellt nyerhetünk. Az ordinalitás kihasználásának egyik módja a kumulatív logitok alkalmazása. A Pg valószínűségek meghatározását ez a módszer is dichotom logisztikus regresszióra vezeti vissza, az alábbiak szerint. A g kategória az ordinális rangsort két csoportra bontja: az y>g indexű kategóriák által alkotott felső szegmensre, illetve a maradék y≤g indexűek alsó szegmensére (ebbe a szegmensbe magát a g csoportot is beleértve). Ekkor a felső szegmensbe kerülés valószínűsége a dichotom modell odds-arányát használva (f: felső, a: alsó) odds f :a Py g 1 odds f :a ahol g=1,...,m-1, továbbá Py≥1 = 1 és Py>m = 0. E kumulatív valószínűségek birtokában az eredeti kategóriák feltételes valószínűségei egyszerű kivonással Pg = Py>(g-1) - Py>g ahol g=2,...,m és P1 = 1-Py>1. Ha ezen a ponton azzal a feltevéssel élünk, hogy a magyarázó változó egységnyi abszolút változásának az oddsarányra gyakorolt hatása nem függ attól hogy mely g kategóriánál szeparáltuk el az alsó és a fölső szegmenst egymástól, nyerjük az ún. proporcionális modellt, ahol
184
odds f :a e
g βx
.
Mint látható, ez a modell a Pgb valószínűségek becsléséhez g osztópontonként külön tengelymetszet, viszont minden osztópontra közös meredekség becslését igényli.
10.3.3 ORDINÁLIS KATEGÓRIÁK PÁROSÍTOTT LOGITJAI Hasonlóan a nominális modellhez, az ordinális eredményváltozó skáláján is informatív lehet bizonyos kategóriapárosítások logitjainak lineáris regresszióval való modellezése. Az egyik kézenfekvő eset a szomszédos kategóriák egymáshoz való viszonyának a vizsgálata: β x oddsg:( g 1) e g g . Ez a modell nyilvánvalóan ekvivalens a nominális kategóriák modelljével. Egyszerűsített, ún. ''equal odds modell'' változatában azt feltételezzük, hogy a magyarázó változó logitra való hatása bármely két szomszédos kategóriára nézve azonos: βx oddsg:( g 1) e g . Ekkor viszont két tetszőleges, nem föltétlenül szomszédos g és m kategóriát tekintve, az odds-arány a két kategória egymástól való távolságának a függvénye. A láncolást végrehajtva ugyanis oddsg:m = oddsg:(g+1)·odds(g+1):(g+2)·...·odds(m-1):m .... ( m g ) βx . e g m1 Ha pedig az utolsó, az m indexű a bázis kategória, akkor az egyes kategóriák feltételes valószínűsége most is az odds-arányok megoszlása (g=1,...,m): oddsg:m . Pgx m k 1 oddsk:m Ordinális kategóriákat kezelve, szekvenciális módon is képezhetünk logitokat, az alábbi két elgondolás szerint. Egyrészt kombinálhatjuk a (g+1,...,m) kategóriákat egyetlen (y>g) kategóriába, majd dichotom logisztikus regresszióval elemezzük az oddsg:(y>g) (g=1,...,m-1) odds-arányokkal definiált logitokat, másrészt kombinálhatjuk az (1,...,g-1) kategóriákat egyetlen (yg) kategóriák nem alkotnak teljes esemény rendszert, ezért a Pgx feltételes valószínűségek meghatározása problematikus, és összegük nem föltétlenül 1. 10.3. Példa A nominális modellt alkalmazzuk a közúti balesetek kimenetelei valószínűségének a becslésére úgy, hogy a nem halálos kimenetelű baleseteket tovább bontjuk súlyos, és könnyű sérülésekre. A gyakoriságokat a 10.12. táblázat közli. 10.12. táblázat: A sérülések háromféle kimenete Kovariáns Sebesség Öv 0 1 30 1 45 1 55 1 65 1 75 1 85 1 95 1 120 1 0 0 30 0 45 0 55 0 65 0 75 0 85 0 95 0
Megfigyelt gyakoriság Halálos Súlyos Könnyű 0 5 100 32 387 1295 22 207 575 27 333 589 27 202 406 59 278 445 11 42 64 18 46 64 6 17 21 0 3 6 10 101 100 9 75 70 7 56 55 13 57 46 18 63 54 9 15 13 11 11 8
Becsült valószínűség Halálos Súlyos Könnyű 0.0052 0.1641 0.8307 0.0152 0.2330 0.7518 0.0255 0.2726 0.7020 0.0356 0.2998 0.6646 0.0494 0.3270 0.6236 0.0678 0.3529 0.5793 0.0919 0.3764 0.5317 0.1229 0.3959 0.4812 0.2357 0.4165 0.3478 0.0160 0.3267 0.6573 0.0424 0.4196 0.5380 0.0667 0.4612 0.4720 0.0891 0.4843 0.4266 0.1175 0.5020 0.3805 0.1526 0.5129 0.3345 0.1950 0.5156 0.2894 0.2449 0.5092 0.2459
CHI2 érték 11.0972 1.7931 0.9866 12.3666 1.0079 0.8387 0.1522 0.8536 4.0579 0.1468 3.4883 0.4812 1.6314 0.1335 2.6205 1.8034 3.0659
185
120
0
10
10
1
0.3970
0.4528
0.1502
1.8293
A becsült nominális modell jellemzőit - referencia csoportként a könnyű sérülést alkalmazva - a 10.13. táblázat tartalmazza. A táblában a szignifikánsnak bizonyult változók a modellbe való belépésük sorrendjében kerültek felsorolásra. 10.13. táblázat. A nominális modell eredményei Változó Tengelymetszet Sebesség Öv
b Halálos -3.713 0.3904 -1.361
Súlyos -0.6990 0.1502 -0.9229
b / se(b) Halálos Súlyos -16.5 -6.64 13.7 10.7 -9.43 -11.5
exp{b} Halálos Súlyos 0.024 0.50 1.5 1.2 0.26 0.40
loglikelihood lnL -4845.7 -4703.4 -4617.6
GF_CHI2 508.9 224.2 52.6
Az illeszkedés javulásának menete a pszeudó R2 alapján: 1 – 224.2 / 508.9 = 0.559 1 – 52.60 / 508.9 = 0.897 tehát az illeszkedés 89.7 százalékkal javult a null modellhez képest. A becsült koefficiensek felhasználásával például 120km/h sebesség és bekapcsolt biztonsági öv mellett az egyes sérülések odds-aránya a könnyű sérülés bázisában rendre oddshalálos:könnyű = e-3.713+0.3904·12-1.361·1 = 0.6776 oddssúlyos:könnyű = e-0.699+0.1502·12-0.9229·1 = 1.1978 oddskönnyű:könnyű = 1 és ebből a valószínűségek rendre 0.6776 Phalálos 0.23565 1 0.6776 1.1978 1.1978 Psúlyos 0.41657 1 0.6776 1.1978 Pkönnyű = 1-0.23565-0.41657 = 0.34778. Továbbmenve, a fenti kovariánst jellemző három standardizált reziduum: 6 / 44 0.23565 halálos 1.3567 0.23565 / 44 17 / 44 0.41657 súlyos 0.31044 0.41657 / 44 21/ 44 0.34778 könnyű 1.4565 0.34778 / 44 négyzetösszegük pedig χ2120,1 = χ2halálos + χ2súlyos + χ2könnyű = 4.0579. Látható, hogy a halálos és a súlyos sérülés kockázatát fölül, a künnyű sérülését pedig alul becsültük. A feltételes értékekre támaszkodva kiszűrhetők, és az elemzésből elhagyhatók az extrém kovariánsok. A loglikelihood változása a teljes modell és a null (csak tengelymetszetet tartalmazó) modell viszonylatában, a CHI2 teszt tükrében LR_CHI2 = 2(4845.7 - 4617.6) = 456.2 csak a sebesség és a null modell viszonylatában pedig LR_CHI2 = 2(4845.7 - 4703.4) = 284.6. Mivel változónként 2 paraméterrel bővül a modell, ezért az előbbi esetben a modellválsztás CHI2 tesztjének szabadsági foka 4, az utóbbi esetben pedig 2. A szokásos szignifikancia szinteken tehát mindkét változó releváns a kimenetelek előrejelzését illetően. Végül a teljes modell illeszkedésének jóságát a GF_CHI2=52.6 teszt érték alapján ítéljük meg, melynek szabadsági foka (2·18-6)=30, mivel kovariánsonként két logitot modellezünk, a becsült paraméterek száma pedig 6. Vegyük észre, hogy az ''övhasználat'' változó modellbe való bevonásának hatására a GF_CHI2 statisztika értéke látványosan ''zuhant'', bár a hozzá tartozó TPV érték csak 0.007. A korrigált determinációs együttható értéke R2=1-52.6/508.9=0.8966, tehát 89.7 százalékkal javult az illeszkedés a null modellhez képest. 10.4. Példa A balesetek súlyosságának az előrejelzésére ordinális modell is alkalmazható, hiszen a kimenetelek súlyosság szerinti ordinalitása nyilvánvaló: a g=1,2,3 indexek reprezentálják a halálos, a súlyos és a könnyű sérülést. A kumulatív logitok modelljét használva, a becslés jellemzőit a 10.14. táblázat közli.
186
10.14. táblázat: A proporcionális modell eredményei Változó Tengelymetszet Sebesség Öv
b Halálos Súlyos 3.309 0.7627 -0.199 0.9945
b / se(b) Halálos Súlyos 29.3 7.71 -15.0 13.5
exp(b) Halálos Súlyos 27.0 2.1 0.82 2.7
stepwise eredmény lnL GF_CHI2 -4845.7 508.9 -4719.2 255.8 -4630.2 77.8
Az illeszkedés javulásának menete a pszeudó R2 alapján: 1 – 255.8 / 508.9 = 0.497 1 –77.80 / 508.9 = 0.847 tehát az illeszkedés 84.7 százalékkal javult a null modellhez képest. Most a koefficiensek felhasználásával a 120km/h sebesség és bekapcsolt öv mellett -0.199·12+0.9945·1 = -1.3935 tehát a feltételes kumulált valószínűségek rendre: e3.3091.3935 Py halálos 0.87164 1 e3.3091.3935 e0.76271.3935 Py súlyos 0.34733 . 1 e0.76271.3935 Innen pedig a feltételes valószínűségek: Phalálos = 1- Py>halálos = 1-0.87164 = 0.12836 Psúlyos = Py>halálos - Py>súlyos = 0.87164-0.34733 = 0.52431 Pkönnyű = Py>súlyos = 0.34733. Látható továbbá, hogy a nominális modell magasabb likelihoodja, és alacsonyabb GF_CHI2 mutatója jobb illeszkedést jelez, mint az ordinális: lnLnominális = -4617.6 > lnLproporcionális = -4630.2 GF_CHI2nominális = 52.6 < Gproporcionális = 77.8. Vegyük észre viszont, hogy most - az egymásba ágyazott modellek közötti választást illetően - a loglikelihood változásának szabadságfoka csak DF=1, ha egy változóval, és DF=2, ha egyidejűleg két változóval bővítjük a modellt, mivel most minden kategóriára közös az adott változó meredeksége. A proporcionális modell illeszkedését jellemzendő, a GF_CHI2 statisztika szabadságfoka most DF=(2·18-4), hiszen 36 logitot kell modelleznünk, két tengelymetszet, és két meredekség becslésével. 10.5. Példa: Az ordinális kategóriák párosított logitjait modellezve, az eredményeket a 10.15. táblázat tartalmazza. 10.15. táblázat: Az "equal odds" modell eredményei Változó Tengelymetszet Sebesség Öv
b Halálos Súlyos -3.277 -0.9349 0.172 -0.7808
b / se(b) Halálos Súlyos -19.1 -11.2 15.4 -1.3
exp(b) Halálos Súlyos 0.038 0.39 1.2 0.46
stepwise eredmény lnL GF_CHI2 4845.7 508.9 4706.8 231.1 -4624.2 65.7
Az illeszkedés javulásának menete a pszeudó R2 alapján: 1 – 231.1 / 508.9 = 0.546 1 – 65.70 / 508.9 = 0.871 tehát az illeszkedés 87.1 százalékkal javult a null modellhez képest. A koefficiensek felhasználásával 120km/h sebesség és bekapcsolt öv mellett a feltételes valószínűségek e3.2772·0.172·122·0.7808 Phalálos 0.16896 3.277 2·0.172·122·0.7808 1 e e0.93490.172·120.7808 e0.93490.172·120.7808 Psúlyos 0.48716 3.277 2·0.172·122·0.7808 1 e e0.93490.172·120.7808 Pkönnyű 1 0.16896 0.48716 0.34388 . A háromféle modell illeszkedését összevetve: GF_CHI2nominális = 52.6 < GF_CHI2equal odds = 65.7 < GF_CHI2proporcionális = 77.8. 10.6. Példa A közúti balesetek példáját folytatva, a sebesség (0, 30, 45, 55, 65, 75, 85, 95, 120) értékeit most mint kategóriákat tekintjük, és referencia csoportként a 0 sebességet használva, parciális módszerrel 8 dummy változót
187
definiálunk. Ezáltal megnő a becsülendő paraméterek száma, az illeszkedés várhatóan javul, és elválaszthatóvá válik az, hogy éppen mely sebességtartományokhoz köthető a sebesség klasszifikációs ereje. Az ''equal odds'' ordinális modell alkalmazásával nyert eredményeket a 10.16. táblázat közli. 10.16. táblázat: Equal-odds modell, dummy-változós sebesség kategóriákkal Változó Tengelymetszet Sebesség dummy D_30 D_45 D_55 D_65 D_75 D_85 D_95 D_120 Öv
b Halálos -5.249
Súlyos -1.92
1.550 1.732 2.002 2.030 2.280 2.423 2.691 2.968 -0.7872
b / se(b) Halálos Súlyos -7.19 -5.25
exp(b) Halálos Súlyos 0.0053 0.15
4.26 4.73 5.49 5.54 6.25 6.34 7.07 7.34 -13.1
4.7 5.7 7.4 7.6 9.8 11.0 15.0 19.0 0.46
stepwise eredmény lnL GF_CHI2 -4845.7 508.9 -4700.1 217.5
-4616.6
50.5
Mint látható, a sebesség dummy változóit kötegelve, egyidejűleg léptettük a modellbe, és az illeszkedés minden eddigi modellhez képest némileg javult: GF_CHI2=50.5. Megjegyezzük, hogy a b/se(b) statisztika alapján valamennyi sebesség-dummy bármely szokásos szignifikancia szinten szignifikáns, ezért akkor is helyük lenne a modellben, ha egyenként tesztelnénk a modellbe való bevonásukat. Most a 120km/h sebesség, és bekapcsolt öv mellett (D_120=1 és Bizt.Öv=1) a súlyos baleset valószínűsége: e1.92 2.968·10.7872·1 Psúlyos 0.479 . 1.92 2.968·1 0.7872·1 1 e e5.249 2·2.968·1 2·0.7872·1 10.7. Példa Előző példánk modelljét bővítjük a sebesség és az övhasználat interakciójával, miközben a sebességet tobábbra is kategória változóként kezeljük, de most a marginális módszer dummy változóival írjuk le. (A zéró sebesség kategóriája most mind a 8 dummy változó esetén -1 értéket kap, csakúgy, mint a ''nem használt övet'' kategória!) A változókat nem szelektálva, a teljes (''equal odds'') modell becslését a 10.17. táblázatban olvasható eredmények jellemzik. A 120km/h sebesség és bekapcsolt öv mellett a halálos baleset könnyű sérüléshez való logitja logithalálos:könnyű 2.012 2·1.11 2·0.5078 2·0.3111 1.4298 a súlyos sérülésé pedig logitsúlyos:könnyű 0.2984 1.11 0.5078 0.3111 0.0073
a megfelelő valószínűségek pedig e1.4298 0.10654 1 e e0.0073 e0.0073 Psúlyos 0.44836 1.4298 1 e e0.0073 Pkönnyű 1 0.10654 0.44836 0.4451 . Phalálos
1.4298
A modell egészét illetően a loglikelihood értéke lnL=-4608.1, az illeszkedést jellemző mutatóé pedig GF_CHI2=33.5, DF=(2·18-19)=17 szabadsági fokkal. (Kovariánsonként két mintavételi logitot kellett közelíteni, és a becsült paraméterek száma 19.) Az illeszkedés tehát valamennyi előző modell viszonylatában nagymértékben javult. Ugyanakkor az illeszkedést jellemző TPV érték alacsony: 0.01. Bár az illeszkedés nagyon jónak mondható, hipotézis vizsgálati szempontból a becsült paraméterek számának jelentős emelkedése szigorítja a megfelelő illeszkedésre vonatkozó hipotézis elfogadását. Ugyanakkor a teljes modellnek a null modellhez (a csak tengelymetszetet tartalmazó modellhez) való viszonylatát a likelihood növekedése alapján ítélhetjük meg: a további 18 paraméter bevonásának hatására a loglikelihood változásának CHI-négyzet transzformációja CHI2=2(4845.7-4608.1)=475.2 melyet a 18 szabadságfokú χ2 eloszlás alapján tesztelve a modell bármely szokásos szignifikancia szinten releváns a balesetek kimenetelének a modellezésére. 10.17. táblázat. Equal odds modell, katégória-változók interakciójával Változó Tengelymetszet Sebesség dummy
188
b Halálos -2.12
Súlyos -0.2984
(b) / se(b) Halálos Súlyos -17.1 -4.86
exp(b) Halálos Súlyos 0.13 0.74
stepwise eredmény lnL GF_CHI2 -4845.7 508.9 -4700.1 217.5
D_30 D_45 D_55 D_65 D_75 D_85 D_95 D_120 Öv dummy Sebesség * Öv 1 2 3 4 5 6 7 8
-0.4017 -0.2647 -0.1141 0.0188 0.1863 0.4049 0.7282 1.11 -0.5078
-5.18 -3.12 -1.29 0.212 2.23 3.01 5.15 5.81 -8.89
0.67 0.77 0.89 1.0 1.2 1.5 2.1 3.0 0.6
0.0176 0.0809 0.2571 0.1098 0.2386 0.1254 0.0279 -0.3111
0.228 0.957 2.91 1.24 2.85 0.931 0.198 -1.64
1.0 1.1 1.3 1.1 1.3 1.1 1.0 0.73
-4616.6 -4608.1
50.5 33.5
Az illeszkedés javulásának menete a pszeudó R2 alapján: 1 – 217.5 / 508.9 = 0.573 1 – 50.50 / 508.9 = 0.901 1 – 33.50 / 508.9 = 0.934. Végül az illeszkedés 93.4 százalékkal javult a null modellhez képest.
10.4 EGZAKT, KISMINTÁS DICHOTOM LOGIT REGRESSZIÓ Tekintsük a független, dichotom Yi={1,0} eredményváltozók y1|x1,...,yi|xi,...,yn|xn konkrét mintabeli szekvenciáját az xi kovariánsok mellett (i=1,2,...,n). A paraméterekre tett következtetések az eddigiekben azok nagymintás, aszimptótikus, ML becslésén alapultak. A pontbecslést, és a mintavételi következtetéseket alapozhatjuk azonban a feltételes maximum likelihood módszerre is, vagy a maximum likelihood módszer helyett más eljárást is alkalmazhatunk. Ilyen alternatíva az y=(y1,y2,...,yn) mintabeli szekvencia minden lehetséges permutációján alapuló egzakt módszer. A minta feltétel nélküli likelihoodja (a mintabeli y szekvenciára nem teszünk semmiféle megszorítást) definíció szerint n y logit n oddsiyi e i i i Pr(Y1 y1 ,..., Yn yn ) max (10.4) n i 1 1 oddsi i1 1 elogiti
ahol logit i 1 xi1 2 xi 2 ... p xip .
(10.5)
Alapvető probléma, hogy kismintás esetben (10.4) torzított, vagy nem definiálható. Ha (10.4) definiálható, akkor a torzításra megoldás lehet a feltételes maximum likelihood módszer alkalmazása. Ha (10.4) nem definiálható, akkor az egzakt, permutációkra építő eljárást tudjuk használni.
10.4.1A FELTÉTELES LIKELIHOOD Ha célunk a parciális regressziós paraméterekre való következtetés, akkor feltételes likelihood definiálásával eliminálhatjuk a likelihoodból a γ tengelymetszetet, mint zavaró paramétert. Jelölje R mindazon lehetséges mintabeli y szekvenciát (és csak azokat), melyekben az „1” tulajdonságú egyedek száma éppen f:
R y | i 1 yi f . n
E feltétel mellett a minta likelihoodját az alábbi módon definiáljuk:
odds f) odds n
Pr(Y1 y1 ,..., Yn yn
yi i
i 1
n
R
i 1
yi i
e i 1 i i n y logit e i 1 i i n
y logit
R
189
i 1 yi j 1 j xij n
e
p
i 1 yi j 1 j xij n
e R
p
j 1 j i 1 yi xij p
e
R
e
n
p
i 1 yi j 1 j xij n
e R
j 1 jt j
p
p
j 1 j i 1 yi xij p
i 1 yi j 1 j xij n
e
n
e
j 1 ju j p
R
e
T
et β
T
eu β R
(10.6)
ahol
t j i1 yi xij n
(10.7)
a regressziós paraméterek elégséges statisztikája a konkrét mintában. (Nem tévesztendő össze a student-t próba statisztikájával!) Mivel y értéke csak 1, vagy 0 lehet, ezért a t statisztika mintabeli értéke nem más, mint a magyarázó változó „y=1” esetekben felvett értékeinek az összege. Ezt az összeget a mintatér egy másik yR szekvenciájánál uj jelöli, mely más is lehet mint tj, de meg is egyezhet azzal. Mint látható, a feltételes likelihood most nem függ a γ paramétertől. A γ tengelymetszet elégséges statisztikája xi0=1 alkalmazásával: t0=f. 47
10.8. Példa Legyen a mintabeli szekvencia: y1|x1,y2|x2,...,yn|xn melyben összesen f számú „y=1” található és az x magyarázó változók kimenetei diszkrét értékek. A magyarázó változók xk=(xk1,xk2,...,xkp) kovariánsa súlyozottan, nk gyakorisággal is előfordulhat, melyből fk számú „y=1” tulajdonságú. Egy 46 elemű véletlen minta esetét illusztrálja a 10.18. táblázat, ahol 3, rendre x={1,0} kimenetű magyarázó változó 8 kovariánsa magyarázza összesen 29 darab „y=1” eset előfordulását a 46 elemű szekvenciában. A kovariánsok gyakoriságaikkal, súlyozottan szerepelnek a táblában. 10.18. táblázat. Mintabeli szekvencia Elemszám Kovariáns (x) nk fk x1 x2 x3 3 3 0 0 0 2 2 0 0 1 4 4 0 1 0 1 1 0 1 1 5 5 1 0 0 5 3 1 0 1 9 5 1 1 0 17 6 1 1 1 n=46 f=29 Összesen Elégséges statisztika és a hozzá tartozó paraméter t1=19 t2=16 t3=12 t j f k xkj k
Paraméter
1
2
3
Vegyük észre, hogy az x1 változó tökéletes prediktora az y változónak, hiszen x1=0 mellett nem fordul elő „y=0” esemény. Más szavakkal, az y és x1 viszonylatában képzett (2,2) kontingencia táblában van egy zéró gyakoriság, tehát a minta likelihoodja nem definiálható. A táblában a j (j=1,2,...,p) paraméterek elégséges statisztikái (10.7) felhasználásával rendre: t1=19, t2=16, t3=12, a tengelymetszeté pedig t0=26. Ezekkel a feltételes likelihood a példában e191 162 123 . R eu11u22 u33 A paraméterekre következtethetünk egyfelől aszimptótikus megközelítésben úgy, hogy a (10.6) feltételes likelihoodot maximáljuk iteratív módon, másfelől egzakt módon, a lehetséges yR szekvenciák (permutációk) vizsgálatából. Az alábbiakban az egzakt megközelítést tárgyaljuk.
47
Az elégséges statisztika fogalmát lásd Lásd Hunyadi (2001).
190
10.4.2 EGZAKT, FELTÉTELES KÖVETKEZTETÉS A PARAMÉTEREKRE A regressziós paraméterekre való egzakt következtetés alapja a T statisztika permutációs eloszlása, melyet a
Pr T1 t1 , T2 t2 ,..., Tp t p
T
c (t )e t β
T
c(u)eu β u
(10.8)
valószínűség definiál. A (10.8) formula súlyozott felírását az indokolja, hogy a mintabeli t vektorral megegyező statisztika sorozat számos különböző szekvencia esetén is elképzelhető: c(t) azon különböző szekvenciák száma, amelyekre (10.7) teljesül. Más szavakkal a t vektor gyakorisága (count(t)). Ugyanakkor u az elégséges statisztikák vektorának valamennyi lehetséges, egymástól különböző kimenetét, c(u) pedig annak gyakoriságát jelenti a szekvenciák teljes R halmazán. Az egyedi j paraméterre való következtetés a T statisztika feltételes eloszlásán alapul, mely csak a j paraméter függvénye, az alábbiak szerint. Tekintsük a 1 paraméter esetét: c(t1 , t2 ,..., t p )eβ1t1 (10.9) Pr T1 t1 | Tq 1 tq f t1 β1 u c(u, t2 ,..., t p )eβ1u ahol a nevezőbeli összegzés mindazon u értékekre történik, melyekre c(u,t2,...,tp)1. Mivel a (10.9) valószínűség nem tartalmaz más paramétert, mint 1, ezért alkalmas a 1 paraméterre való következtetésre. Példánkban a t1 statisztika egzakt, feltételes eloszlását a 10.19. táblázat közli. Most nem található olyan szekvencia, mely kisebb t1 értéket produkálna, mint 19, vagy nagyobbat, mint 26. Látható, hogy a konkrét minta t1 terjedelmének a minimális értékéhez tartozik, és ez a t struktúra 29445360 különböző szekvencia esetén következik be. A t vektortól csak a t1=26 értékben különbözőt produkáló szekvenciák száma 19448. 10.19. táblázat. A t1 statisztika egzakt, feltételes eloszlása t1 c(29,t1,16,12) 19 29,445,360 20 147,312,480 21 271,271,448 22 231,819,344 23 95,325,644 24 17,473,144 25 1,204,008 26 19,448 Összesen 793,870,896 A tábla gyakoriságait használva például a t1=19 esemény feltételes valószínűsége rögzített 1 paraméter mellett: c(29,19,16,12)e19β1 f t1 19 | β1 26 t 19 c(29, t1 ,16,12)et1β1 1
Hipotézisvizsgálat A feltételes eloszlást hipotézisvizsgálatra az alábbi módon használjuk. Tekintsük a H0: 1=0, H1: 10 hipotéziseket. Az egzakt p-értéket úgy nyerjük, hogy a (9) valószínűség H0 melletti értékeit összegezzük a specifikált kritikus tartományon. Kritikus tartományt képeznek mindazon v értékek, melyekre f(v|0)f(t1|0). Így az egzakt Pvérték: Pv f v | β1 0 . f ( v 0) f ( t1 0)
Mivel a null hipotézis érvénye mellett e =1, ezért a Pv-érték kalkulálása a 10.19. táblázat c(.) gyakoriságainak a megoszlásain alapszik. Így példánkban: Pv = f(19|0) + f(24|0) + f(25|0) + f(26|0) = = (29445360+17473144+1204008+19448) / 793870896 = 0.061. Eszerint minden 6.1 százaléknál alacsonyabb szignifikancia szinten elutasítjuk a null hipotézist. t0
191
Becslések Célunk 1- megbízhatóságú (-,+) konfidencia intervallumot szerkeszteni a paraméterre: Pr(- < < +) = 1- ahol - a konfidencia intervallum alsó, + pedig a felső határát jelöli. Az alul-, és a felülbecslés kockázatát egyenlően megosztva a (10.9) feltételes eloszlás kumulatív valószínűségeit képezve, a felső és az alsó határ definíció szerint rendre eleget tesz az alábbi azonosságoknak: f v | β / 2 vt1
f v | β / 2 .
vt1
Vegyük észre, hogy ha t1=tmax, akkor (lévén teljes eseményrendszer) a kumulatív valószínűség 1, ezért invariáns értékére, így ilyenkor megállapodás szerint + = ∞. Hasonlóan, ha t1= tmin, akkor - = -∞. A 1 paraméter pontbecslésére kétféle lehetőség nyílik. Maximálhatjuk egyfelől 1 tekintetében a (10.9) szerinti f(t1|1) valószínűséget. Ez feltételes, maximum likelihood becslést eredményez: cml. Másfelől alkalmazhatjuk a torzítatlan medián módszert, amely szerint: um = (+(.5) + -(.5)) / 2 ahol +(.5) az =0.5 megbízhatóságú konfidencia intervallum alsó, -(.5) pedig a felső határa. Ha valamelyik határra végtelen adódna, akkor a pontbecslést automatikusan a másik határ jelenti. Példánkban 95 százalékos megbízhatósággal a 1 paraméter konfidencia tartományának felső határa az c(29,19,16,12)e19β f 19 β1 26 0.025 t 19 c(29, t1 ,16,12)et1β 1
azonosság megoldásával 1+=0.16. Előrejelzés Becsüljük az x0 kovariáns mellett az „y=1” esemény P0 valószínűségének egzakt konfidencia intervallumát. Az előrejelzése érdekében paraméterezzük át a logit modellt az alábbi módon: logiti xT0 β xTi xT0 β . (10.10) A (10.10) modell * xT0 β tengelymetszetére számított egzakt konfidencia intervallum egyben konfidencia intervallum az ln(P0/1-P0) logitra. A modell új magyarázó változói az eredeti értékek előrejelzési ponttal csökkentett értékei, valamennyi mintaelemre. A logitra nyert konfidencia határokat végül az exp(.)/(1+exp(.)) módon transzformáljuk a keresett, a valószínűségre vonatkozó határokká. Illusztratív példánkban a paraméterbecslés eredményeit az alábbi tábla tartalmazza: 10.20. táblázat. Egzakt következtetése a paraméterekre Paraméter Pontbecslés Egzakt 95% KI Egzakt TPV-érték γ 3.535 1.477 – (-∞) 0.0001 γ* -0.737 -1.910 – 0.310 0.164 -1.886 -∞ - 0.160 0.061 1 -1.548 -4.025 – 0.363 0.117 2 -1.156 -2.997 – 0.512 0.154 3 A Pv-értékek alapján látszik, hogy míg az x1 változó szignifikáns, addig x2 és x3 nem. Mivel γ a (0,0,0) kovariáns melletti lineáris előrejelzés, ezért e kovariáns mellett az „y=1” esemény bekövetkezésének esélye legalább e1.48 0.814 1 e1.48 Ugyanakkor a γ* tengelymetszet úgy lett meghatározva, hogy a magyarázó változók valamennyi értékéből egyöntetűen 1-et levontunk. Ezért γ* az (1,1,1) kovariáns mellett becsült logit, így e kovariáns mellett az „y=1” esemény bekövetkezésének esélye legalább
192
e 1.91 0.129 1 e 1.91
és legfeljebb e0.31 0.577 . 1 e0.31
10.5 GYAKORLÓ FELADATOK 10.1. Feldat A Titanic katasztrófáját a 2201 utas közül 711 élte túl: Y=1, ha az illető túlélő, 0 egyébként. Az utasokat jellemző egyéb tulajdonságok:Kor=1, ha az utas felnőtt, 0 egyébként, Nem=1, ha az utas férfi, 0 egyébként, továbbá O1=O2=O3=0, ha az illető a fedélközben utazott, egyébként O1=1, ha az utas az első osztályon, O2=1, ha a másod osztályon, és O3=1, ha a harmad osztályon utazott. A túlélés valószínűségét modellezendő, a logisztikus regresszió paramétereinek ML becslése: Változó Osztály Kor Nem CONSTANT
Koefficiens (1) 0.8577 (2) -0.1604 (3) -0.9201 -1.062 -2.420 2.248
Határozza meg egy fedélközben utazó gyermek nő (lány) túlélési valószínűségét és egy első osztályon utazó felnőtt férfi túlélési valószínűségét. 10.2. Feldat A magán nyugdíjpénztári tagság vállalását (Y=1, ha tag, 0 egyébként) vizsgáljuk a kor (év) függvényében, logisztikus regressziószámítás felhasználásával. A becsült modell: Változó kor CONSTANT
Koefficiens -0.08005 2.195
Határozza meg egy 40 éves ember esetén a
taggá válás valószínűségét.
10.3. Feladat Az alábbiakban a kárkifizetés nagyságrendjét (nagykár=1, ha 1mrdFt-nál nagyobb a kár, 0 egyébként) magyarázzuk az "eletdij" és a "neletdij=neletkot+nelnkot" (mrdFt) függvényében, logisztikus regressziószámítás segítségével (n1=9, n0 = 13). A regressziós koefficiensek az alábbiak: eletdij neletdij CONSTANT
-0.437 -1.208 4.886
Határozza meg a nagynak minősülő kárkifizetés valószínűségét egy olyan B(1,1) biztosító esetében, mely mindkét típusú díjból 1 mrdFt bevételhez jut. Határozza meg a nagykár kifizetésének odds-arányát a B(2,2)/B(1,1) biztosítók viszonylatában.
193
11 BAYES - KLASSZIFIKÁCIÓ 11 Bayes - klasszifikáció A feladat az i megfigyelési egységnek a g=1,2,...,m számú, egymást át nem fedő csoportok valamelyikébe való besorolása, az x1,x2,...,xp magyarázó változókban mért értékei alapján. A csoport-indexet y eredmény jellegű változóként kezelve, feladatunk y értékének az előrejelzése. A bayesi klasszifikációt –tekintet nélkül a csoportok számára - akkor alkalmazzuk, mikor még az x megfigyelés végrehajtása előtt apriori megfogalmazunk szubjektív, feltétel nélküli Pg valószínűséget a g. csoportokba kerülést illetően, és ismert a magyarázó változók valószínűségi eloszlása is. Ekkor a prior valószínűségeket az x megfigyelés likelihoodjának a birtokában finomítjuk a csoportba kerülés posterior Pg|x feltételes valószínűségeivé, és a vizsgált egyedet a maximális posteriort nyújtó csoportba soroljuk: yˆ x g | max Pg|x . g
Mind a prior, mind a posterior valószínűségek összege 1. A posterior valószínűségek kalkulálása érdekében ismernünk kell az x megfigyelés feltételes Lx|g likelihoodját valamennyi g csoportban. Ekkor a posterior valószínűségi struktúra (annak feltételes valószínűsége, hogy az x megfigyelés birtokában az egyed éppen a G csoportból származik) nem más, mint a prior valószínűségekkel súlyozott likelihoodok megoszlása: PG Lx|G . PG|x m g 1 Pg Lx|g Nyilvánvaló, hogy magasabb prior, és magasabb likelihood mellett a posterior is magasabb. A prior és posterior valószínűségek jelentésbeni különbsége, hogy még mielőtt megvizsgálnánk megfigyelésünk eredményét, PG valószínűséggel várnánk őt a G csoporthoz tartozónak, míg a megfigyelésünk révén nyert x többlet információ és annak bekövetkezési esélye birtokában megbízhatóbb valószínűséggel tudjuk a kérdéses egyedet klasszfikálni. Mivel a posteriorok nevezője az átlagos likelihood, ezért a klasszifikálás technikailag a posteriorok számlálói alapján is végrehajtható. A prior valószínűséggel súlyozott likelihood logaritmusát klasszifikációs függvénynek nevezzük: cg|x ln Pg ln Lx|g . A g=1,2,…,m számú klasszifikációs függvény birtokában a megfelelő posterior valószínűség: c
PG|x
e G| x
m
c
.
e g|x g 1
A klasszifikációt szemléltetendő, kezdetben az egyszerűség kedvéért csupán két csoportot definiálunk, és feltevésünk szerint az A, illetve B csoport jelentős különbséget mutat egy z magyarázó változó tekintetében. Tegyük fel továbbá, hogy z tekintetében - az átlagos értékük kivételével - a két populáció azonos szórású, szimmetrikus eloszlású, és a prior valószínűség mindkét csoportra azonos: PA=PB=0.5. A két eloszlás A és B feltétel melletti LA és LB sűrűség (egyedi likelihood) függvényeit a (11.1.) ábra szemlélteti. 11.1. ábra Feltételes likelihoodok két azonos szórású, szimmetrikus eloszlású csoport esetén Mivel a priorok egyenlők, a két posterior valószínűség rendre Lz| A PA|z Lz| A Lz|B PB|z
Lz|B Lz| A Lz|B
A 11.1. ábráról látszik, hogy z alacsony értéke mellett az illető megfigyelési egységet inkább az A, míg z magas értéke mellett inkább az B csoportból származónak ítéljük. Egészen pontosan z K z A zB / 2 esetén a magasabb likelihoodot eredményező A csoportba, z>K esetén pedig a magasabb likelihoodot eredményező B csoportba soroljuk. Természetesen K bármely értéke mellett elkövetünk besorolási (döntési) hibát. Ha például egy megfigyelési egység az A csoportból származik, de a z változóban felvett értéke történetesen magasabb a kritikus K értékénél, akkor a B csoportba fogjuk sorolni, a B|A hibát követve el ezzel, míg ha B-beli egyedet az A csoportba sorolunk, akkor az A|B hibát követjük el. A besorolási hiba kétféle elkövetési lehetőségét, és azok valószínűségeit illusztrálja a 11.1. ábra.
194
Az ábrán a kétféle téves besorolás összesített valószínűségét a háromféle módon kiemelt terület együttesen jeleníti meg. Látható, hogy K értékének változtatásával ez a valószínűség is változik, minimális értékét pedig a két eloszlás átfedése (a függőleges és vízszintes vonallal jelölt közös rész) reprezentálja: K értékét a fenti kritikus értékhez képest akár növeljük, akár csökkentjük, a tévedés összesített valószínűsége az átfedéshez képest a besatírozott fekete területtel növekszik. Továbbmenve, a két eloszlás átfedése annál kisebb, minél messzebb van egymástól a két csoport z,ˉA és z,ˉB átlaga, illetve minél kisebb a két sokaság szórása. Ezzel egyben egyenlő esélyt adunk a kétféle hiba elkövetésének. Bizonyos esetekben azonban indokolt lehet valamelyik hiba valószínűségét - természetesen a másik rovására - mesterségesen csökkenteni. Ha például egy pénzintézet személyi kölcsön nyújtásáról dönt az kölcsönt igénylő z jövedelmének az ismeretében, akkor rossz döntés, ha ad kölcsönt de azt nem kapja vissza, vagy rossz döntés, ha nem ad, pedig kamatostul visszakapná. Nyilvánvaló, hogy a kétféle hiba nem egyforma súlyú a kölcsönt folyósító szempontjából. A 11.1. ábra a döntés szempontjából egy ideális helyzetet ábrázol, hiszen a csoporton belüli alacsony szórások egyenlők, és a két eloszlás átfedése is csekély. Ezek alapján bízunk meg abban, hogy alacsony z érték az A, magas z érték pedig a B csoporthoz való tartozást jelzi, miközben alacsony a téves besorolás valószínűsége. A csoportok számát háromra növelve, és föloldva a szórások egyezőségére tett megszorítást is, a feltételes likelihoodok nagyságrendjeit a 11.2. ábra illusztrálja. 11.2. ábra Feltételes likelihoodok három, szimmetrikus eloszlású csoport esetén A csoportok közötti különbözőséget természetesen nem csak egy, hanem egyidejűleg több, x1,x2,...,xp tulajdonság is magyarázhatja. A klasszifikálás során ilyenkor kézenfekvő ezek lineáris kombinációjaként a Fisher-féle z változót képezni, és a döntési szabályt már erre megfogalmazni: z d1 x1 d2 x2 ... d p x p dT x . A d súlyokat a lineáris kombinációban úgy választjuk meg, hogy a z diszkriminancia változó tengelyén a külső variancia a belső varianciához viszonyítva maximált legyen.
11.1 NORMALITÁS ALAPÚ KVADRATIKUS ÉS LINEÁRIS KLASSZIFIKÁCIÓ Specifikáljuk a klasszifikációs feladatot az alábbi megszorítások szerint. Tegyük fel, hogy valamennyi csoport normális eloszlású egy x változó tekintetében. Ekkor a feltételes likelihood a g. (g=1,2,…,m) csoportban: 2 xg 1 2 Lx|g g1 e g , 2 illetve annak csak a paraméterektől függő arányos része (a normálási tényező elhagyásával) 1
e 1
Lx|g
1 2 g2
2g
1
g2
2
g x
1 2 g2
x2
.
g
A rögzített G csoportba kerülés posterior valószínűsége ennek felhasználásával az alábbi formát ölti: PG|x
PG G1 e m
P g 1
e
g
1 g
1 2 G2
e
G2
1 2 g2
1
G2
2g
G x 1
g2
1 2 G2
g x
x2
1 2 g2
x2
1 1 1 ln PG ln G 2 G2 2 G x 2 x 2 2 G 2 G G
m
e
1 2 ln Pg ln g 2 g2 g
1 1 2 g x x g2 2 g2
g 1
ahol 2 1 g cg|xquad ln Pg ln g 2 g2
g 1 2 x 2 x2 g 2 g
195
a g. csoport klasszifikációs függvénye. Látható, hogy a klasszifikációs függvény - a klasszifikálandó egyed x értéke tekintetében - egy kvadratikus, egy lineáris, és egy konstans tag összege. A konstans tag a csoport prior valószínűségének, a csoport szórásának és a csoport relatív szórásának a függvénye. Ugyanakkor az is látszik, hogy ha a csoportok szórásai megegyeznek, vagyis σ1=σ2=…=σm=σ, akkor a szórás, és maga a kvadratikus tag is közös minden csoportra, tehát egyikük sem befolyásolja a posterior valószínűség értékét, ezért ez esetben szerepeltetésük fölösleges. Elhagyásukkal nyerjük a lineáris klasszifikációs függvényt: 2 1 g g cg |xlin ln Pg x. 22 2 11.1. Példa Tekintsünk gazdasági vállalkozásokat egy adott időszakban, melyek 97.6 százaléka fizetési kötelezettségeinek rendben eleget tett (OK sokaság), 2.2 százaléka ellen felszámolási eljárást kezdeményeztek a hitelezők, de nem kerültek felszámolásra (EJ sokaság), és végül a maradék 0.2 százalékát csődeljárás során felszámolták (CS sokaság). A fenti relatív gyakoriságokat e három kimenetel prior valószínűségeiként értelmezzük. Mindhárom csoportban feltesszük a forgóeszközarány (forgó eszközök részaránya az összes tárgyi eszközön belül), és újabb vállalkozásokat a forgóeszközarány mértéke alapján klasszifikáljuk a fent definiált sokaságok valamelyikéhez. 11.1. táblázat Gazdasági vállalkozások megoszlása és forgóeszköz-adatai, 1999. Csoport
Prior alószínűség
Forgóeszközarány Átlag
O.K. Eljárás Csőd
0.976 0.022 0.002
Szórás
0.64 0.71 0.55
0.31 0.31 0.27
A kvadratikus klasszifikációs függvények csoportok szerint rendre: 1 1 1 cOK |x ln 0.976 ln 0.31 0.642 0.64 x x2 2 2 2 0.31 0.31 2 0.312 1 1 1 cEJ |x ln 0.022 ln 0.31 0.712 0.71x x2 2 0.312 0.312 2 0.312 1 1 1 cCS |x ln 0.002 ln 0.27 0.552 0.55 x x2 . 2 2 2 0.27 0.27 2 0.272 E függvények birtokában egy kérdéses x forgóeszköz arányt abba a sokaságba sorolunk, amely függvényével a legnagyobb értéket kapjuk. Legyen a forgóeszközarány 50%, tehát x=0.5. Ekkor cOK|0.5=1.045, cEJ|0.5=-2.875, cCS=4.922, tehát a vállalkozást Ok cégnek minősítjük. A normalitást is feltéve, a klasszifikációs értékeket posterior valószínűséggé konvertálhatjuk az alábbi módon: e1.045 POK |0.5 1.045 0.978 e e 2.875 e 4.922 e 2.875 PEJ |0.5 1.045 0.019 e e 2.875 e 4.922 e4.922 PCS |0.5 1.045 0.003 . e e 2.875 e 4.922 Figyeljük meg, hogy az 50%-os forgóeszközarány megítélését a szélsőséges (de egyébként valóságos) prior súlyok milyen szélsőséges módon befolyásolták. Többváltozós megközelítés Többváltozós (p-dimenziós) normálitás esetén a magyarázó változók csoporton belüli centroidját jelölje xg (1g , 2 g ,..., pg ) , kovariancia mátrixát pedig Cg. Ekkor a likelihood (a konstans szorzótól eltekintve):
1
1 2xg
Lx|g | Cg | 2 e 2 ahol a klasszifikálandó x pontnak a g. csoport centroidjától vett Mahalanobis távolsága: 2xg = x xg Cg1 x x g = T
196
xTg Cg1xg 2 xTg Cg1 x xT Cg1x .
(11.1)
Ekkor a klasszifikációs függvények struktúrája az alábbi:
1 1 cg|x ln Pg ln | Cg | 2xg . 2 2 Figyelembe véve itt a Mahalanobis távolság (11.1) szerinti fölbontását látható, hogy a klasszifikációs függvény értéke - a klasszifikálandó egyed x értéke tekintetében – most is egy kvadratikus, egy lineáris, és egy konstans tag összege, ahol a kvadratikus és lineáris tag teljes egészében, a konstans pedig részben a Mahalanobis távolságból származik, az alábbiak szerint: 1 cg|x ln Pg ln | Cg | g LTg x xT Q g x 2 ahol a kvadratikus súlymátrix 1 Q g Cg1 (11.2) 2 a lineáris súlyvektor (11.3) L g xTg Cg1 a Mahalanobis távolságból származó konstans rész pedig 1 xTg Cg1 x g . 2
(11.4)
11.2. Példa Életbiztosítási megfontolásból tekintsük a harminc évnél idősebb férfiaknak X betegség megjelenése tekintetében vett két - A és B - kockázati osztályát, a testsúlyuk (kg), és az életkoruk (év) függvényében. Ismert, hogy a centroidok és a kovariancia mátrixok rendre (kg, év): 1600 500 900 300 70 90 , CB x A , xB , C A . 500 625 300 400 40 50 Klasszifikáljunk egy x=[80kg, 40év] személyt az A vagy B csoportok valamelyikébe. Az illető Mahalanobis távolsága az A osztálytól: 1
80 90 1600 500 80 90 2xA 0.16333 40 50 500 625 40 50 T
T
1
1
T
T
1
90 1600 500 90 90 1600 500 80 80 1600 500 80 50 2 50 500 625 40 40 500 625 40 , 50 500 625 = 6.0833 - 10.4 + 4.48. a B csoporttól pedig analóg módon 1
80 70 900 300 80 70 2xB 0.14815 . 40 40 300 400 40 40 Tegyük fel, hogy korábbi megfigyelések relatív gyakoriságai alapján az A csoportba kerülés prior valószínűsége 0.8, és így a B csoportba kerülésé 0.2. Ekkor a Bayes-féle kvadratikus klasszifikációs függvények értékei: 1600 500 1 1 cA ln(0.8) ln det 0.1633 7.069 2 500 625 2 T
900 300 1 1 cB ln(0.2) ln det 0.14815= 7.937. 2 300 400 2 Ebből a posterior valószínűségek rendre e7.069 PA|x 7.069 = 0.70433 e e7.937 e7.937 PB|x 7.069 = 0.29567 . e e7.937 Az illető személyt tehát markánsan az A kockázati osztályba soroljuk. A számítások mögött lévő klasszifikációs függvény az A csoportra az alábbi formát ölti: a konstans tag:
197
1
T
1600 500 1 90 1600 500 90 1 ln(0.8) ln det 50 = 10.029 2 500 625 2 50 500 625 a lineáris súlyvektor: 1
T
90 1600 500 0.041667 LA 0.046667 50 500 625
a kvadratikus súlymátrix: 1
0.0003333 0.00041667 1 1600 500 QA . 2 500 625 0.0003333 0.0010667 Ekkor az A csoport klasszifikációs függvényébe helyettesítve a vizsgált egyedet, nyerjük a már ismert 0.0003333 80 0.041667 80 80 0.00041667 cA|x 10.029 7.069 0.046667 40 40 0.0003333 0.0010667 40 értéket. Természetesen analóg módon a B csoport klasszifikációs függvénye is fölírható, mely a föntiekben már meghatározott cB|x 7.937 értékhez vezet, az alábbi módon: T
T
a konstans tag: T
-1
900 300 1 70 900 300 70 1 ln(0.2) ln det 11.048 2 300 400 2 40 300 400 40
a lineáris súlyvektor: 1
T
70 900 300 0.059259 LB 0.055556 40 300 400
a kvadratikus súlymátrix: 1
0.00074074 0.00055556 1 900 300 QB = . 2 300 400 0.00055556 0.0016667 A B csoport klasszifikációs függvényébe írva végül a klasszifikálandó egyedet: 0.059259 80 80 0.00074074 0.00055556 80 cB|x 11.048 + = 7.937 . 0.055556 40 40 0.00055556 0.0016667 40 Továbbmenve, ha a csoportok kovariancia mátrixai azonosak, vagyis C1=C2=...=Cm=C teljesül, akkor - mint azt már fent említettük - a Mahalanobis távolság kvadratikus tagja, valamint a |Cg| általánosított variancia valamennyi csoportra azonos, és ekkor a klasszifikációs függvényből való elhagyásuk a klasszifikálás eredményét nem befolyásolja. Ebben az esetben a lineáris klasszifikációs függvény: cg|x ln Pg ag b1g x1 ... bpg x p T
T
ln Pg ag bTgx ahol - a (11.3) és (11.4) formulák egybevetéséből egyrészt a lineáris súlyok vektora bTg xTg C1 másrészt a tengelymetszet 1 ag bTg x g 2 és végül a priorral korrigált konstans tag ln Pg ag . 11.3. Példa Előző példánkat úgy módosítva, hogy mindkét csoport kovariancia mátrixa azonos, és éppen 1600 500 C A CB C , 500 625 akkor az A csoport esetén a lineáris súlyvektor T
1
90 1600 500 0.041667 bA = 50 500 625 0.046667
198
a konstans tag T
ln(0.8)
1 0.041667 90 3.2648 2 0.046667 50
míg a B csoport lineáris súlyvektora 1
T
70 1600 500 0.031667 bB = 40 500 625 0.038667 konstans tagja pedig T
1 0.031667 70 3.4911 . 2 0.038667 40 A klasszifikálandó személyt a klasszifikációs függvényekbe helyettesítve ln(0.2)
T
0.041667 80 cA|x 3.2648 1.93520 0.046667 40 T
0.031667 80 cB|x 3.4910 0.58904 0.038667 40 adódik. A posterior valószínűségek ilymódon: e1.93520 PA|x 1.9352 0.7935 e e0.58904 e0.58904 PB|x 1.9352 =0.2065 . e e0.58904 Mint azt korábban már említettük, két csoport esetén a besorolás egyetlen, mindkét csoportra közös z diszkriminancia változóra, és így a kritikus érték módszerre is visszavezethető. Ekkor ugyanis a döntési szabály: yˆ A | cA cB . Mivel a cA-cB különbség a cA cB (b A b B )T x aA aB ln PA ln PB
formában írható, a d (b A bB ) helyettesítéssel a döntési szabály szerint a megfigyelés az A csoportba sorolandó, ha P dT x aB aA ln B PA teljesül, ahol (ennek belátását az Olvasóra bízzuk): z zB aB a A A . 2 11.4. Példa A diszkriminancia változó együtthatói példánkban: 0.041667 0.031667 0.010 d bA bB 0.046667 0.038667 0.008 a tengelymetszetek különbsége T
T
1 0.031667 70 1 0.041667 90 aB a A + =1.16 2 0.038667 40 2 0.046667 50 a priorokat is figyelembe vevő kritikus érték pedig 0.2 K 1.16 ln 0.22629 . 0.8 A klasszifikálandó személyt a diszkriminancia függvénybe helyettesítve T
0.010 80 zx 0.01·80 0.008·40 1.12 0.008 40
199
és mivel 1.12 > -0.22629, ezért (a posterior valószínűségekkel összhangban) az illetőt az A kockázati osztályhoz ítéljük. 11.5. Példa Mikor két populáció esetén a kovariancia mátrixok azonosak, vagyis CA=CB=C teljesül, az xA és xB centroidokat a z tengelyre vetítve, a köztük mért euklideszi távolság az eredeti centroidok közti Mahalanobis távolsággal egyezik meg: dT xA dT xB dT (x A xB ) z A zB
x A xB C1 x A xB 2AB . T
E Mahalanobis távolság, mint kvadratikus forma egyben a z változó varianciáját is jelenti:
2AB C1 x A xB C C1 x A xB 2z T
ahol a
d C1 x A xB súlyokkal képzett z változót Fisher-féle diszkriminancia változónak nevezzük. 11.6. Példa A magyarázó változók normalitástól való eltérésére példaként tegyük fel, hogy diszkrét, dichotom magyarázó változókra vonatkozóan csupán azt jegyezzük fel, hogy az illető megfigyelési egység esetében a vizsgált tulajdonság jelenléte, vagy hiánya figyelhető-e meg. Általában az xj tulajdonság jelenlétét valamely egyed esetében xj=1, míg hiányát xj=0 jelzi. Legyen a g=1,2,...,m csoportok esetében Pr( x j 1| g ) p j|g és Pr( x j 0 | g ) 1 p j|g (j=1,...,p). Ekkor az xj változó kimenetelének a valószínűségét előállító feltételes likelihood függvény a g csoportban x 1 x Lx j |g p j|jg (1 p j|g ) j mellyel a magyarázó változók függetlensége mellett az x egyed együttes, g csoportbeni likelihoodja: p
Lxg Lx j |g j 1
melyből az x egyed G csoportba kerülésének posterior valószínűsége már következik.
11.2 MINTAVÉTELI VONATKOZÁSOK Az eddigiekben a sokaságok eloszlását normálisnak, paramétereit - centroidját és kovariancia mátrixát – pedig ismertnek tételeztük fel. Ha ezek a körülmények nem ismeretek, akkor az eloszlás típusára vonatkozóan csak feltevéssel (hipotézissel) élhetünk, a paramétereket pedig független mintákból kell becsülnünk. A klasszifikációs függvények becslése, és a hipotézisek tesztelése az
n g 1 ng m
elemű minta alapján történik, ahol ng a g. csoportból vett minta elemszáma. A továbbiakban a mintabeli jellemzőkre utalnak az alábbi jelölések: x,‾g: a g minta centroidja (átlagvektora), Cg: a g minta korrigált kovariancia mátrixa (a kovariancia nevezőjében ng-1 szerepel), és m ng 1 Cg C pooled C nm g 1 a teljes minta átlagos, pooled kovariancia mátrixa. Az együttes normalitást illetően, annak nem mond ellent, ha a magyarázó változók főkomponensei egyváltozós normalitást követnek. Ezt például probability plot szerkesztésével vizsgálhatjuk.
11.2.1 HOMOGENITÁSVIZSGÁLAT Az ismeretlen Σg kovariancia mátrixok egyezőségére vonatkozó H0 : Σ1 Σ2 ... Σm
200
(11.5)
hipotézist a Bartlett-Box-féle 1 ( ng 1) 2
m
BB 2 ln
Cˆ g 1
g
1
ˆ 2 C
( nm )
likelihood arány típusú statisztika felhasználásával teszteljük, mely H 0 érvénye mellett CHI2 eloszlású p(p+1)(m-1)/2 szabadsági fokkal, és ρ a Box(1949) által bevezetett skála faktor. Magas, 1 közeli likelihoodarány, vagyis zéró közeli BB statisztika, következésképpen magas TP valószínűség utal H0 elfogadására.
11.2.2 A DISZKRIMINÁTOR VÁLTOZÓK SZELEKTÁLÁSA A lineáris klasszifikációs függvény releváns változóinak a szelektálását változónként, lépésről lépésre kontrollálhatjuk az alábbiak szerint. Releváns lehet az a változó, amelyik bevonása után a Wilks-lambda a legnagyobb mértékben csökken, és irreleváns lehet az, amelyik kihagyásával a Wilks-lambda a legkisebb mértékben nő. Azt, hogy a változás szignifikáns (jelentős-e), F-próbával teszteljük. Amennyiben az F-próba a Wilks-lambda csökkenését nem ítéli szignifikánsnak, az illető változót nem vonjuk be, ha pedig a növekedését nem találjuk szignifikánsnak, akkor kihagyjuk a klasszifikációs függvényből. Jelölje xk az x1,x2,...,xp diszkriminátor változók köréhez csatolandó változót. Legyen null hipotézisünk továbbá, hogy az xk változó nem magyarázza a csoportok szóródását, vagyis a Wilks-lambda csökkenése zéró: H 0 : 1,2,..., p 1,2,..., p ,k 0 . E null hipotézist a Wilks-lambda csökkenésén alapuló 1,2,..., p 1,2,..., p ,k n m p F 1,2,..., p m 1
(11.6)
statisztikával teszteljük, ahol a számláló szabadságfoka m-1, a nevezőé pedig n-m-p. Valamely változó bevonásáról való döntés úgy történik, hogy ha a TP érték kisebb, mint az előre választott szignifikancia szint, akkor az illető változót relevánsnak, egyébként elhanyagolhatónak tekintjük.
11.2.3 A KÜLSŐ SZÓRÓDÁS TESZTELÉSE A magyarázó változók körének kialakulása után a csoportok összehasonlítását érdemes páronként is elvégezni, a H0:μg=μt hipotézis tesztelésével, ahol μ a csoport ismeretlen centroidját, várható érték vektorát jelöli. Ezzel arra kapunk választ, hogy a csoportközi szóródás leginkább mely csoportokhoz köthető. Két csoport különbözőségének a tesztelését a mintabeli centroidjaik közötti Mahalanobis távolság jelentős, vagy elhanyagolható voltának a tesztelésére vezetjük vissza. A g és t csoportok mintabeli centroidjainak egymástól való becsült Mahalanobis távolsága
Dgt2 xg xt Ce1 xg xt . T
Ha lineáris klasszifikálást végzünk, akkor valamennyi kovariancia mátrix homogenitását feltételezzük, ezért ilyenkor a közösnek tételezett kovariancia mátrixok e száma megegyezik a csoportok számával, és Ce1 valamennyi csoport pooled kovariancia mátrixa. Kvadratikus klasszifikálás esetén ezzel szemben a globális homogenitás nem tartható, viszont a g és t csoportok viszonylatában még feltehető. Ekkor Ce1 csak a g és t csoportok pooled kovariancia mátrixa. A becsült Mahalanobis távolság F-transzformációja n me p 1 ng nt Fgt e Dgt2 p (n me ) ng nt ahol ne a közös kovariancia mátrix becsléséhez használt részminták összes elemszáma (lineáris klasszifikálás esetén ne=n, kvadratikus klasszifikálás esetén pedig ne=ng+nt, és me a közös kovariancia mátrix becsléséhez használt részminták száma: 2, vagy m. A számláló szabadsági foka p, a nevezőé pedig ne-me-p+1. Amennyiben a TP-érték kisebb, mint az előre rögzített szignifikancia szint, a két csoportot egymástól szignifikánsan különbözőnek ítéljük meg.
201
Többváltozós normális eloszlású, azonos kovariancia mátrixszal jellemzett csoportok esetén, valamennyi csoportból független, véletlen mintákat véve, a csoportok különbözőségének a tesztelésére globális variancia analízist is végezhetünk. A tesztelendő hipotézis ekkor (11.7) H0 : μ1 μ2 ... μm 0 . A teszt végrehajtásához többféle statisztika is rendelkezésre áll. Mivel a (11.7) hipotézis azt fogalmazza meg, hogy a külső kovariancia mátrix zéró mátrix, ezért az alábbi tesztek mindegyike a Wilks-lambda, illetve a φ diszkriminancia kritérium értékének alacsony, vagy magas voltát vizsgálja. A Wilks-lambda magas értéke a null hipotézis elfogadását, a φ diszkriminancia kritérium magas értéke pedig az alternatív hipotézis elfogadását támasztja alá. Ha az ismeretlen kovariancia mátrixok azonosak, akkor alkalmazható a Wilks-lambda Bartlett-féle, vagy a Rao-féle transzformációja. A Bartlett V teszt (a fentiekkel összhangban): pm V n 1 ln 2 melynek H0 melletti eloszlása p(m-1) szabadságfokú khi-négyzet. Másfelől a Rao-F teszt: 1
1 s f s 1 p(m 1) / 2 F 1 p(m 1) s mely a null hipotézis érvénye esetén F eloszlást követ p(m-1) és (fs+1-p(m-1)/2) szabadsági fokokkal, ahol pm2 f nm 2
s
p 2 (m 1) 2 4 p 2 (m 1) 2 5
ha a nevező nem nulla, egyébként s=1. A variancia analízis alkalmazási előfeltétele a normalitásra, és a kovariancia mátrixok egyezőségére vonatkozó hipotézisek tesztelése, és elfogadása. Megemlítjük, hogy a (11.7) hipotézis tesztelésére az CB1C K mátrix φ sajátértékein (a diszkriminancia kritériumokon) alapuló statisztikák is rendelkezésre állnak, melyek az alábbiak: K
Hotelling trace i i 1
i 1 i i 1 K
Pillai trace Roy kritérium
max . 1 max
11.2.4 DISZKRIMINÁLÓ DIMENZIÓK Jelentős számú releváns magyarázó változó birtokában fölmerül az igény a változók számának a csökkentésére. Ez azonban nemcsak a változók szelektálásával, hanem a csoportok szóródását előidéző néhány dimenzió feltárásával is történhet. Célunk kevés számú olyan dimenzió meghatározása, amelyek csekély információ veszteség mellett helyettesítik a diszkriminátor változók néhány homogén csoportját. Ezek felismerését, elhatárolását a (4.6) diszkriminancia kritériumok teszik lehetővé. A szignifikáns diszkriminancia változók számának meghatározásához hipotézis vizsgálati eszköz is rendelkezésre áll. Kihasználva a tényt, miszerint a Wilks-Λ kifejezhető a φi>0 sajátértékek felhasználásával az k 1 (1 i ) i1 összefüggés szerint, ezért a H0: μ1=μ2=...=μm hipotézis tesztelésére szolgáló Bartlett-féle pm pm k k V n 1 ln n 1 i 1 ln(1 i ) i 1Vi 2 2 * * tesztfüggvény az elméleti i sajátértékekre vonatkozó H 0 : 1 *2 ... *k 0 hipotézis tesztelésére is alkalmas a p(m-1) szabadsági fokkal bíró khi-négyzet eloszlás felhasználásával. A Bartlett-próba
202
V i 1Vi k
alakú felírása azonban nemcsak globális teszt végrehajtását teszi lehetővé. Ha ugyanis elutasítjuk a null hipotézist, akkor következtetésünk az, hogy legalább az első, a legnagyobb sajátérték különbözik zérustól. E meggondolásból, ha úgy találjuk, hogy az első q sajátérték különbözik zérustól, akkor a H 0 : *q 1 *q 2 ... *k 0 | 1* 0, *2 0,..., *q 0 hipotézis tesztelésére a
V i 1Vi i q 1Vi q
k
reziduális statisztika szolgál, mely H0 érvénye alatt közelítőleg χ2 eloszlást követ (p-q)(m-q-1) szabadsági fokkal. Amennyiben a null hipotézist nem utasítjuk el, úgy mintánk azt támasztja alá, hogy az első q számú diszkriminancia változó szignifikáns, és továbblépésre nincs szükség.
11.2.5 JACKKNIFE KLASSZIFIKÁCIÓ A klasszifikálás jóságának megítélése a téves besorolások elkövetéséből származó hiba (veszteség) minimálásán alapul. Különböző módszerek állnak rendelkezésre e hibák figyelembe vételére. Az empirikus módszer lényege, hogy a klasszifikációs függvényt ugyanarra a mintára alkalmazzuk, amelyik alapján az számszerűsítésre került, majd kiszámítjuk az inkorrekt, téves klasszifikációk arányát. Ez az eljárás a klasszifikációs függvény megerősítésének egy formája (validation), amely azonban torzított becslést nyújt a téves besorolás valószínűségére: ha pl. az i egyed a g csoportban szerepelt, akkor a g csoport becsült centroidját magához közelebb húzza, csökkentve így a saját centroidtól mért, becsült Mahalanobis távolságot, és növelve a klasszifikációs függvény értékét, majd ezáltal megnövelve a saját csoportban maradás posterior valószínűségét, és alulbecsülve a téves klasszifikáció valószínűségét. Az ideális eset azonban természetesen az, ha a függvényt egy adott minta alapján határozzuk meg, és egy másik mintára alkalmazva becsüljük a téves klasszifikáció valószínűségét (cross validation). Ez az eljárás torzítatlan becslést nyújt a téves klasszifikáció elkövetésének a valószínűségére, végrehajtása azonban nagy mintát feltételez. Kicsiny mintaelemszám mellett azonban természetesen nem szívesen mondunk le a minta információtartalmának egy jelentős részéről. Ebben az esetben alkalmazzuk az ún. jackknife eljárást. Ennek során az éppen klasszifikálandó egyedet kizárjuk saját csoportja függvényének a számszerűsítésekor, majd az így nyert klasszifikációs függvényre támaszkodva nézzük meg, hogy tévesen klasszifikáltuk-e az illető egyedet. Ezt minden egyes, a mintában szereplő egyedre végrehajtva válik teljessé a jackknife klasszifikáció. A téves klasszifikáció ilymódon becsült valószínűsége bár torzított, azonban a torzítás mértéke elhanyagolható. 11.7. Példa Bajnokság keretein belül játszott futball mérkőzéseket klasszifikálunk a hazai pályán játszó csapat eredményének szempontjából. Győzelemért 3, döntetlenért 1, vereségért pedig 0 pont illeti a csapatot, és a csapatokat az elért összpontszám alapján rangsorolják minden forduló után. Az eredményeket arra támaszkodva próbáljuk előrejelezni, hogy az illető két csapat - rangszámaik tekintetében - milyen távolságra van egymástól a rangsorban (a tabellán), illetve, hogy mennyi az eddig elért - egy meccsre jutó, átlagos pontszámaik közötti különbség. A két magyarázó változó tehát: RangK=(OR-IR),és PontK= (OP-IP)/Fordulószám,ahol "O" az otthon játszó, "I" pedig az idegenben játszó csapat R rangszámát, és P (össz)pontszámát jelöli. Húsz mérkőzés eredményei az alábbiak (az otthon játszó csapat szempontjából): 11.2. táblázat. Mérkőzések eredményei és a csapatok helyzete Meccs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Eredmény 3 0 1 0 3 3 3 3 3 1 1 3 1 3 3
RangK -3 5 2 10 6 -3 -6 -3 -5 3 -3 -8 2 -8 9
PontK 0.25 -0.40 -0.40 -0.80 -0.60 0.35 0.35 0.20 0.52 -0.19 0.19 0.55 -0.23 0.73 -0.59
203
16 17 18 19 20
0 0 0 1 0
3 4 8 -1 15
-0.36 -0.26 -0.71 0.24 -1.25
A vereségek aránya 30%, a döntetleneké 25%, a győzelmeké pedig 45%. A csoportok azonosítására az alábbiakban az eredményért járó 0,1,3 pontszámot is használni fogjuk. Az egyes kimenetelek megfelelő centroidjai: 11.3. táblázat Csoportcentroidok Változó Centroid 0 1 RangK 7.5 0.6 PontK -0.63047 -0.07745
Összesen 3 -2.3333 0.19507
1.35 -0.12072
kovariancia mátrixai pedig (az alsó index a csoportot azonosítja) rendre 35.5 2.7653 6.3 0.6013 20.3 1.636 24.1588 1.924 C0 , C1 0.6013 , C3 2.7653 0.2269 , CPooled 1.924 0.1651 1.636 0.1359 0.078 Bayes-klasszifikációt végezve, prior valószínűségként a kimenetelek mintabeli megoszlását használva és a normalitást feltételezve, a kvadratikus klasszifikációs függvények csoportonként rendre az alábbiak. A vereség klasszifikációs függvényében a konstans tag 1
7.5 20.3 1.636 7.5 20.3 1.636 1 1 0 ln(0.3) ln det 2 0.63047 1.636 0.1359 0.63047 1.4242 1.636 0.1359 2 a lineáris súlyvektor T
1
7.5 20.3 1.636 0.14827 L0 1.636 0.1359 = 6.4242 0.63047 T
a kvadratikus súlymátrix 1
0.08259 9.9424 1 20.3 1.636 Q0 = . 1.636 0.1359 2 9.9424 123.37 A döntetlen klasszifikációs függvényében a konstans tag 1
6.3 0.6013 1 0.6 6.3 0.6013 0.6 1 1 ln(0.25) ln det 0.40402 0.078 2 0.07745 0.6013 0.078 0.07745 2 0.6013 a lineáris súlyvektor T
1
0.6 6.3 0.6013 0.0017662 L1 = 0.078 0.07745 0.6013 0.97933 T
a kvadratikus súlymátrix 1
6.3 0.6013 0.30037 2.3156 1 Q1 = . 0.078 2 0.6013 2.3156 24.261 A győzelem klasszifikációs függvényében a konstans tag: 1
35.5 2.7653 1 2.33333 35.5 2.7653 2.33333 1 3 ln(0.45) ln det 0.43474 2 2.7653 0.2269 2 0.19507 2.7653 0.2269 0.19507 a lineáris súlyvektor T
1
35.5 2.7653 2.33333 0.024492 L3 = 0.19507 2.7653 0.2269 1.1582 T
a kvadratikus súlymátrix 1
35.5 2.7653 0.27802 3.3883 1 Q3 = . 2 2.7653 0.2269 3.3883 43.498 A klasszifikációs függvények alapján például az 1. mérkőzés (RK=-3, PK=0.25) három klasszifikációs értéke rendre:
204
0.14827 3 3 0.08259 9.9424 3 c0 1.4242 2.8156 6.4242 0.25 0.25 9.9424 123.37 0.25 T
T
0.0017662 3 3 0.30037 2.3156 3 c1 0.40402 1.4004 0.97933 0.25 0.25 2.3156 24.261 0.25 T
T
0.024492 3 3 0.27802 3.3883 3 c3 0.43474 0.35702 . 1.1582 0.25 0.25 3.3883 43.498 0.25 E három klasszifikációs "score" birtokában a három posterior valószínűség: e 2.8156 P0|x 2.8156 0.0595 e e 1.4004 e 0.35702 e1.4004 P1|x 2.8156 0.2450 e e1.4004 e0.35702 e0.35702 P3|x 2.8156 0.6955 . e e1.4004 e0.35702 A valószínűségek otthoni győzelmet jósólnak, mint ahogy az történt is. Mind a húsz mérkőzést klasszifikálva a fenti módon, a korrekt, és inkorrekt besorolások klasszifikációs mátrixa: T
T
11.4. táblázat. Klasszifikációs mátrix (kvadratikus eset) Csoportból Csoportba sorolások száma vereség (0) döntetlen (1) győzelem (3) Vereség (0) 4 1 1 Döntetlen (1) 0 3 2 Győzelem (3) 1 0 8 Összesen 5 4 11
Korrekt besorolás (%) 66.7 60.0 88.9 75.0
Mint látható, mind a döntetlenek, mind a vereségek esetében kétszer, míg a győzelmek esetében csak egyszer tévedtünk. A korrekt besorolások részaránya a győzelmeknél a legmagasabb, és a döntetleneknél a legalacsonyabb. A csoportátlagok páronkénti különbözőségének tesztelését szolgáló F-mátrix: 11.5. táblázat. Páronkénti F-értékek (kvadratikus eset) Csoport "0" "1" "1" 2.39 "3" 6.89 0.71 ahol a számláló szabadságfoka DFsz=2, a nevezőé pedig - a párosítástól függően: 11.6. táblázat. A nevező szabadságfoka (kvadratikus eset) Csoport "0" "1" "1" 8 "3" 12 11 Ennek megfelelően a TP-értékek mátrixa 11.7. táblázat. Páronkénti TP-értékek(kvadratikus eset) Csoport "0" "1" "1" 0.153 "3" 0.010 0.512 Markáns (már 1%-os szignifikancia szinten is jelentős) különbség van a vereségek, és a győzelmek között. Például a vereség és győzelem centroidjai közti Mahalanobis-távolság (a "pooled" kovariancia mátrix felhasználásával): 1
2.333 7.5 24.1588 1.924 2.333 7.5 D2 4.1501 0.195 0.63047 1.924 0.1651 0.195 0.63047 T
205
majd
15 2 1 6·9 4.1501 6.8956 . 2(15 2) 6 9 A kovariancia mátrixok egyezőségének tesztelésére szolgáló Bartlett-Box-statisztika értéke: -2ρlnλ=5.3553, DF=6 szabadsági fokkal, mely 0.502 TPV-értéket eredményez. Eszerint a kovariancia mátrixok jelentősen különböznek egymástól. A többváltozós variancia analízist illetően a teljes, és a belső kovariancia mátrixok rendre 38.127 3.1074 20.535 1.6354 , CBelső CTeljes 3.1074 0.26363 1.6354 0.14034 amelyből a Wilks-lambda értéke 20.535·0.14034 ( 1.6354) 2 0.524 . 38.127·0.26363 (3.1074) 2 Ennek Rao-féle F transzformációja speciálisan két változó esetére (lásd a () azonosságot): F2,12
1 0.524 20 3 1 3.0516 3 1 0.524 ahol a szabadsági fokok rendre DFsz=2(3-1)=4 és DFn=2(20-3-1)=32, és TP=0.03. Például ötszázalékos szignifikancia szinten, mivel 0.03<0.05, az alternatív hipotézist fogadjuk el, vagyis a centroidokat egymástól jelentősen különbözőnek tekintjük. Ugyanezen hipotézis vizsgálatára a Pillay's trace értéke 0.4818, melynek Ftranszformációja eredményeként Pr(F4,34>2.697)=0.047, és a Hotelling-Lawley-trace értéke 0.898, és ezt a módszert használva Pr(F4.29,16>3.591)=0.027. Mint látható, a három módszer eredményei összhangban vannak egymással. F4,32
Bár a csoportok kovariancia mátrixainak azonosságát nem fogadjuk el, a lineáris klasszifikációs függvények működését az alábbiakban illusztráljuk. A vereség klasszifikációs függvényében a lineáris súlyok - a közös kovariancia mátrix becsléseként a "pooled" mátrixot használva: 1
7.5 24.1588 1.924 0.087943 b0 0.1651 0.63047 1.924 2.7939 majd a tengelymetszet (-½bTx) felhasználásával T
T
1 0.087943 7.5 1.2105 2 2.7939 0.63047 végül a konstans tag a prior valószínűség figyelembe vételével ln(0.3) 1.2105 2.4145 . Analóg módon a döntetlen klasszifikációs függvényében a lineáris súlyok: 1
0.6 24.1588 1.924 0.17415 b1 = 0.1651 0.07745 1.924 2.4986 a konstans tag a prior valószínűség figyelembe vételével T
1 0.17415 0.6 1.4308 . 2 2.4986 0.07745 Végül a győzelem klasszifikációs függvényének lineáris súlyvektora: T
ln(0.25)
1
2.33333 24.1588 1.924 0.034577 b3 1.924 = 0.77858 0.19507 0.1651 a konstans tag pedig a prior valószínűséggel T
1 0.034577 2.33333 0.9148 . 2 0.77858 0.19507 Mindezek felhasználásával az 1. mérkőzés kimenetelének három klasszifikációs értéke: T
ln(0.45)
0.087943 3 c0 2.4145 3.3768 2.7939 0.25 T
206
0.17415 3 c1 1.4308 1.533 2.4986 0.25 T
0.034577 3 c3 0.9148 0.61641 . 0.77858 0.25 Ebből a három posterior valószínűség rendre: e3.3768 P0|x 3.3768 = 0.043 e e1.533 e0.61641 e3.3768 P1|x 3.3768 = 0.273 e e1.533 e0.61641 e0.61641 P3|x 3.3768 = 0.684 . e e1.533 e 0.61641 A korrekt, és inkorrekt besorolások klasszifikációs mátrixa most: T
11.8. táblázat. Klasszifikációs mátrix (lineáris eset) Csoportból Csoportba sorolások száma vereség (0) döntetlen (1) győzelem (3) Vereség (0) 4 1 1 Döntetlen (1) 0 1 4 Győzelem (3) 2 0 7 Összesen 6 2 12
Korrekt besorolás (%) 66.7 20.0 77.8 60.0
mely a "jackknifed" klasszifikáció során az alábbiak szerint módosul: 11.9. táblázat. Jackknife klasszifikációs mátrix (lineáris eset) Csoportból Csoportba sorolások száma vereség (0) döntetlen (1) győzelem (3) Vereség (0) 4 1 1 Döntetlen (1) 1 0 4 Győzelem (3) 2 0 7 Összesen 7 1 12
Korrekt besorolás (%) 66.7 0.0 77.8 55.0
Látható, hogy a lineáris klasszifikációs függvényt alkalmazva romlott a korrekt besorolások aránya. Ez várható volt, hiszen nem teljesül a lineáris függvények alkalmazása mögött lévő feltevés. A csoportátlagok páronkénti különbözőségét tesztelő F-értékek is módosulnak: 11.10. táblázat. Páronkénti F-értékek (lineáris eset) Csoport "0" "1" "1" 2.53 "3" 7.04 0.73 ahol a számláló szabadságfoka DFsz=2, a nevezőé pedig DFn=16. A vereség és a győzelem centroidjainak összehasonlítását tekintve: 20 3 2 1 6·9 F2,16 4.1501 7.04 . 2(20 3) 6 9 Végül a két változónak a modellbe történt beléptetése az alábbiak szerint alakult: első lépésben a PontK változó csökkentette leginkább a Wilks-lambda értékét, melynek eredményeképpen Λ=0.5323, végül a második lépésben a RangK beléptetésének hatására a Λ=0.5239 értéket kaptuk. A csökkenés szignifikáns voltának megítélését szolgáló F-statisztika értéke a PontK változó bevonására: 1 0.5323 20 3 0 F2,17 7.4684 0.5323 3 1 majd a RangK változóval való bővítésére:
207
F2,16
0.5323 0.5239 20 3 1 0.12827 . 0.5239 3 1
A futball mérkőzéseket tekintve a külső (nem korrigált, hanem a teljes elemszámmal osztott) kovariancia mátrix: 38.127 3.1074 20.535 1.6354 17.592 1.472 CK CT CB = 3.1074 0.26363 1.6354 0.14034 1.472 0.12329 ahonnan 1
20.535 1.6354 17.592 1.472 0.29685 0.023883 CB1CK = = 0.6002 1.6354 0.14034 1.472 0.12329 7.0295 melynek két pozitív sajátértéke: 0.88544 és 0.011614. Látható, hogy a két magyarázó változó - szinte maradék nélkül - egyetlen diszkrimináló dimenzióba sűríthető.
208
12 K-KÖZÉPPONTÚ KLASZTEREZÉS 12 K-középpontú klaszterezés A K-közép algoritmus kezdeti lépésként K számú induló klaszter definiálását igényli, és ezen induló klaszterek lépésről lépésre történő módosulásával alakul ki a végső K számú klaszter. Induló klaszterek definiálására az alábbi módok valamelyikét javasoljuk. Ha valamilyen hipotézisünk van a klaszterhez való tartozásra vonatkozóan, akkor a megfelelő megfigyelési egységeket közös induló csoportokba soroljuk. Az induló klaszterek centroidjait definiáljuk. Konkrét megfigyelési egységeket megjelölhetünk, mint az induló klaszterek centroidjait. Hierarchikus klaszterezéssel bontjuk a sokaságot induló klaszterekre. A K-közép módszer az alábbi lépésekből áll. 1. Standardizáljuk a változókat. 2. Rögzítjük a kívánt klaszterszámot, és definiáljuk az induló klasztereket. 3. Ha szükséges, újra standardizáljuk a változókat a klaszteren belüli átlagos, pooled kovariancia mátrixszal. 4. Meghatározzuk a klaszterek centroidjait. 5. Megvizsgáljuk valamennyi klaszter mindegyik elemét, hogy a saját klaszterének a centroidjához áll-e a legközelebb. Ha igen, akkor a rendelkezésre álló klaszterek a végeredményt jelentik. Ha nem, akkor átsoroljuk az egységeket azokba a klaszterekbe, melyeknek a centroidjához a legközelebb esnek. 6. Ha voltak egységek, amelyeket el kellett mozdítani, akkor megváltoztak a klaszterek, és újraszámoljuk a centroidokat. 7. Ha nem voltak ilyen elemek, és a standardizálást csoporton belüli varianciával, vagy kovarianciával végeztük, akkor - mivel az utolsó standardizálás óta módosultak a klaszterek, s így az átlagos klaszteren belüli kovariancia mátrix is - újra standardizáljuk a változókat. A fenti algoritmus tehát akkor áll le, ha standardizálás után rögtön minden megfigyelési egység a saját centroidjához áll a legközelebb. A klaszterek formálása során mindig valamely megfigyelési egységnek valamely centroidtól való távolságát mérjük. E távolság mérésére a Mahalonobis-távolságnak a változók számával normált változatát alkalmazzuk: 1 D 2 (i, g ) (xig c g )T M 1 (xig c g ) p ahol xig a g klaszterbeli i megfigyelési egység, cg pedig a g klaszter centroidja. Vizsgáljuk meg a D2 távolságképletet. Ha M egységmátrix, akkor vélelmezésünk szerint a változók ortogonális rendszert alkotnak, és így a p-dimenziós térben számított euklideszi távolság négyzetét használjuk. Ha M diagonális mátrix, és diagonális elemei a változók varianciái, akkor is ortogonálisnak vélelmezzük a változók rendszerét, de az euklideszi távolság számításakor egységnyi szórású változókat szerepeltetünk. Ezzel egyenlő súlyt adunk mindegyik változónak, akár milyen volt is az eredeti mértékegységük. Ha M diagonális mátrix, és diagonális elemei a változók belső varianciái, akkor egységnyi belső varianciájú változókat használunk. Ha M a kovariancia mátrix, akkor a távolságmérték kiszámításakor az egységnyi varianciájú változók terében azok korrelációs kapcsolatait is figyelembe vesszük. Végül, ha M az átlagos klaszteren belüli pooled kovariancia mátrix, akkor egységnyi belső varianciájú változók korrelációs struktúrájára támaszkodunk a távolság számszerűsítésekor. A standardizálás megválasztásával láthatóan a távolságképletet is rögzítjük. Itt hívjuk fel a figyelmet továbbá, hogy a Mahalanobis távolság invariáns a lineáris skálatranszformációkra. A K-közép algoritmus használatakor tanácsos a standardizáláshoz a Mahalanobis-távolság képletében az átlagos csoporton belüli kovariancia mátrixot választani, és az induló klaszterek definiálásához a divizív technikának és magának a K-közép algoritmusnak egyfajta keverékét alkalmazni. A divizív technikával ugyanis első lépésben nem K, hanem csak 2 induló klaszterré hasítjuk a sokaságot, majd K-közép módszerrel kialakítjuk a végső 2 klasztert. Ezután újra a divizív elvet követve 3 induló klasztert hozunk létre, majd újra a K-közép módszerrel meghatározzuk a végső 3 klasztert. Ezt követően megint a divizív módszerrel 4 induló klasztert határozunk meg, s alakítjuk ki Kközép módszerrel a végső 4 klasztert. Ezt az eljárást addig folytatjuk, míg a divizív módszer már az eredeti célnak megfelelő K számú induló klasztert nyújtja, amit most már a K-közép algoritmus valóban a végső klaszterekké formál. A klaszterek egymáshoz való viszonyát a centroidjaik közötti távolságmátrix jellemzi, a klaszterek homogén voltának megítéléséhez a klaszteren belüli szórások nyújtanak támpontot, míg a változók csoportosításban betöltött relatív fontosságát a változónkénti külső és a belső eltérésnégyzetösszeg egymáshoz való aránya fejezi ki. A klaszterek homogenitását globálisan a Wilks lambda számításával jellemezhetjük.
209
A klaszteranalízis végeredménye annál inkább értelmezhetőbb, minél kevesebb változót használunk csoportosító változóként. Ezért a klaszterezésre használt változókat tanácsos jelentős főkomponenseikkel helyettesíteni. A megfigyelési egységek klaszterezésével egy adott, rangsorba rendezett változót is csoportokra bonthatunk. Ha ugyanis a kérdéses változó (például főkomponens) értékei között egymáshoz nagyon közelállók is vannak, akkor közöttük nincs értelme rangsorbeli különbséget tenni, és reálisabb a megfigyelési egységek rangsorát klaszterek rangsorára redukálni. 12.1. Példa Tekintsük a 12.6 példában bevezetett 14 részvénytársaságnak a K-közép algoritmus felhasznlásával történő három klaszterre bontását, a Mahalanobis távolságban a klaszteren belüli pooled, átlagos kovariancia mátrixot szerepeltetve. A klasztertagságok, a saját centroidtól mért távolságok, valamint az átlagos klaszteren belüli távolságok a 12.11. táblában olvashatók. 12.11. tábla Klasztertagságok, és klaszteren belüli távolságok 1. klaszter 2. klaszter 3. klaszter Cég Távolság* Cég Távolság Cég Távolság 3. 2.1413 2. 2.3904 4. 1.7175 11. 2.1413 5. 0.9747 6. 2.8593 9. 1.7431 7. 1.7477 13. 0.7522 8. 1.0663 10. 1.2854 12. 1.0673 14. 2.2445 1. 1.1897 Átlag 2.1413 Átlag 1.4651 Átlag 1.6472 * A saját centroidtól vett távolság A külső szóródást jellemzendő, a klasztercentroidok közötti Mahalanobis távolságok: dM(1,2)=7.337, dM(1,3)=10.464, és dM(2,3)=6.249. Mint látható, a fenti csoportosítás mellett a részvénytársaságok szóródásában a klaszterközi külső szóródás a domináns. A cégek számát redukálandó, az egyedi részvénytársaságok helyett a klaszterek centroidjaira, és a klaszterhez való tartozásra hivatkozhatunk. A négydimenziós centroidokat, és a változónkénti (egyváltozós) klaszteren belüli (korrigált) szórásokat a 12.12. tábla tartalmazza. 12.12. tábla Négydimenziós centroidok, és változónkénti szórások klaszteren belül Klaszter Centroid Klaszteren belüli szórás Alaptoke EeAdEred UtOszt Er/Rv Alaptoke EeAdEred UtOszt 11.5 817.670 689.259 66.468 6.364 1.(2 elemű) 4051.220 532.000 117.250 23.0 1639.927 695.344 139.544 11.944 2.(4 elemű) 666.462 136.512 15.2 251.730 404.742 95.941 9.953 3.(8 elemű) 589.321 1105.918 187.507 16.9 729.206 Összesen
Er/Rv 1141.242 335.979 163.694 -
Az egyváltozós variancia hányadosok VarK/(VarK+VarB) értéke rendre: 86.8%, 68.6%, 16.5% és 73.8%. Az utolsó osztalék tekintetében tehát meglehetősen heterogének a csoportok. A klaszterek változónkénti profiljait az adott változó klaszterbeli átlagának a főátlaghoz viszonyított relatív helyzete jellemzi. A Mahalanobis távolságban szerepeltetett, a standardizálás módját meghatározó csoporton belüli átlagos pooled kovariancia mátrix példánkban a következő: Változó Alaptoke EeAdEred UtOszt Er/Rv
Alaptoke 279300 37972 1367 -59046
EeAdEred 11570 649 16051
UtOszt
Er/Rv
106 2337
166241
A homogén klaszterek kialakítását könnyíti, ha a klaszterezést relatíve kevés változó alapján végezzük el, mivel ekkor kevesebb tulajdonság tekintetében kell az egyedeknek klaszteren belül hasonlítani egymásra. Kézenfekvő
210
tehát, hogy klaszterezés előtt a mérési változókat sűrítsük kevesebb számú főkomponensbe, és a klaszterezést a főkomponensek alapján hajtsuk végre. Példánkban az első két főkomponens megtartásával csupán 13.36 százaléka vész el az összes varianciának, miközban a síkban is ábrázolhatjuk a részvénytársaságokat. Az első két főkomponens értelmezését szolgáló faktorsúlyok a 12.13. táblában találhatók. 12.13. tábla Faktorsúlyok Változó FK1 FK2 Alaptoke 0.980 -0.090 EeAdEred 0.971 0.092 UtOszt -0.046 0.885 Er/Rv 0.047 0.870 Az első főkomponens az alaptőke és az előző évi adózott eredmény alakulását, míg a második az utolsó osztalék, és az egy részvényre jutó eredmény alakulását tükrözi. A főkomponensek vállalkozásonkénti értékeit (FK1, FK2) a 12.14. tábla közli. 12.14. tábla Részvénytársaságok főkomponensei Cég FACTOR1 FACTOR2 1 -0.697 -1.005 2 0.612 2.195 3 2.174 -1.141 4 -0.670 -1.348 5 -0.759 0.940 6 -0.828 0.707 7 0.403 -0.178 8 -0.385 -0.634 9 -0.632 0.036 10 -0.208 -0.016 11 2.103 0.657 12 -0.187 -0.191 13 -0.643 0.928 14 -0.282 -0.951 A főkomponens-score arról tájékoztat, hogy a 2.,3.,11. részvénytársaságok extrém értékkel bíró outlierek. A részvénytársaságok 3 klaszterre bontását (K-közép algoritmussal) két főkomponens alapján a 12.15 tábla tartalmazza. A táblában a klasztertagságokat, és a saját centroidtól mért távolságokat olvashatjuk. 12.15. tábla Klasztertagságok 2 főkomponens alapján Teljes minta 1. klaszter 2. klaszter 3. klaszter Cég Távolság* Cég Távolság Cég Távolság 3. 1.7089 2. 2.2313 4. 1.2178 11. 1.7089 5. 0.7770 7. 1.6721 6. 0.9528 8. 0.1515 13. 0.5327 9. 1.6494 10. 0.8099 12. 0.5173 14. 0.8478 1. 0.8488 Átlag 1.7089 1.1234 0.9643 * Távolság a saját centroidtól.
Az információtömörítést a megfigyelések számát illetően a klaszteren belüli centroidok, a dimenziószámot illetően pedig a főkomponensek szolgálják. A klaszterek homogenitást pedig a külső, és a belső variancia egymáshoz való viszonya alapján ítéljük meg. Ezeket az információkat a 12.16. tábla közli.
211
12.16. tábla Klasztercentroidok, és klaszteren belüli szórások Klaszter Centroid Szórás FK1 FK2 FK1 FK2 1.(2 elemű) 2.1385 -0.2420 0.0502 1.2714 2.(4 elemű) -0.4045 1.1925 0.6820 0.6769 3.(8 elemű) -0.3323 -0.5359 0.3624 0.5218 A két egyváltozós variancia hányados VarK/(VarK+VarB) értéke rendre: 82.2%, és 62.3%. Az első főkomponens tekintetében tehát homogénebbek a csoportok, mint a második tekintetében. Fölhívjuk a figyelmet, hogy az elemzést célszerű lenne megismételni a 2.,3. és 11. outlierek elhagyásával, újra számolva a főkomponenseket is.
212
IV Faktoranalízis
213
13 A FAKTORMODELL 13 A faktormodell A faktoranalízis a változók korrelációs kapcsolatait modellezi kevésszámú faktor, tényező függvényében. A faktor valamely posztulált, de közvetlenül nem mérhető, látens tulajdonság (intelligencia, minőség) változója, melynek hatása azonban mérhető változókban (indikátorokban) jelentkezik. Olyan szempont, dimenzió, mely természetes mértékegységű skálával nem rendelkezik, de a megfigyelési egységeket rendezi, osztályozza, rangsorolja, vagyis megkülönbözteti. E modellben a mérési változókat indikátor változóknak tekintjük, mivel értékeikkel a látens tulajdonságokban történő elmozdulásokat tükrözik. A faktor létezését azon indikátor változók jelzik, melyek egymás közti korrelációs kapcsolatai a faktor alapján kis hibával reprodukálhatók. A faktor értelmét tehát a mérési változók egy tartalmilag összefüggő csoportja adja. Az ok-okozati kapcsolatban a látens faktor játsza az ok szerepét, melynek tükröződése az indikátor mért értéke. Sörmárkákat tekintve például a szárazanyag- és kalóriatartalom nem indikátorai a sör „testes” voltának, hiszen e jellemzők nem belső immanens tulajdonságok, hanem a gyár elhatározásán múló paraméterek. Az emberi gondolati gyorsaság viszont olyan belső tulajdonság, faktor, amit különféle reakcióidők mérése, mint indikátor, többé, vagy kevésbé, de okozatként követ. A faktoranalízis során azon faktorokat kutatjuk, melyek meghatározók az indikátorok közötti korrelációk struktúráját illetően. A faktormodell kovariancia, korreláció orientált modell. Tekintsük az xj (j=1,2,...,p) indikátor változókat, melyek mindegyikére i=1,2,...,n számú megfigyeléssel rendelkezünk. A modell szerint az indikátor változók alakulását a faktorok, azaz a közvetlenül nem mérhető tényezők magyarázzák. Ezek közül az első m
48
Fölhívjuk a figyelmet, hogy – a főkomponensekkel ellentétben - jelen fejezetben λ nem sajátértéket, hanem faktorsúlyt jelöl.
214
ahol (p,m) a faktorsúly (loading) mátrix. A faktorok alkothatnak páronként korrelálatlan rendszert, de korrelálhatnak is: például a gazdasági-társadalmi jelenségek kapcsolatban vannak egymással, és így a mögöttük ''meghúzódó'' faktorok is korrelálnak. Ha például megyék tekintetében a szegénység, a bűnözés és a munkanélküliség faktorokat vizsgáljuk (melyekre vonatkozóan számos indikátor mérhető), akkor irreális azt föltételezni, hogy e három faktor korrelálatlan. A fenti meggondolások miatt – első megközelítésben - csak az egyedi faktorok korrelációs rendszerére vonatkozóan élünk megszorításokkal. Eszerint: Az egyedi faktorok egymással páronként korrelálatlanok, tehát kovariancia mátrixuk diagonális: 49 2 0 0 11 0 0 Var (u1 ) 0 2 Var ( u ) 0 0 0 2 22 Cuu Ψ2 (13.5) 0 Var (u p ) 0 0 2pp 0 Az egyedi faktorok a közös faktorokkal korrelálatlanok: Cov( f k , u j ) 0 (13.6) ahol (k=1,2,...,m és j=1,2,...,p). A fenti korrelálatlansági feltevésekből következően két indikátor változó közötti kovariancia (a kovariancia lineáris dekompozíciója alapján és az egyedi faktorok zéró kovarianciáitól eltekintve) az alábbi tényezőkre vezethető vissza:
Cov( x j , xl ) jk lt Cov( f k , ft ) Cov u j , ul m
m
(13.7)
k 1 t 1
ahol Cov u j , ul 0 , ha jl és Cov u j , ul Var u j ha j=l. Az egyedi faktorok hatása azért nem jelentkezik a Cjl kovarianciában, mert az egyedi faktorok minden más faktorral – így a többi egyedi faktorral is – korrelálatlanok. Ugyanakkor valamely indikátor változó Cjj varianciáját az egyedi faktor varianciája is befolyásolja, az alábbi általános módon (az önkovarianciákat varianciaként írva, és a szimmetrikus párosítások kovarianciáit duplán véve):
Var( x j )
m
2jkVar( f k ) 2 jk jt Cov( f k , ft ) 2jj . k 1
(13.8)
t k
A fenti megállapításokat összefoglalva, az indikátor változók kovariancia mátrixa az alábbi formát ölti: 1 Cxx XT X ΛΦΛT Ψ 2 C* Ψ 2 . (13.9) n A (13.9) egyenletet a faktoranalízis alapegyenletének nevezzük. Az egyenlethez úgy is eljutunk, ha X helyére annak a (13.3) modell szerinti megfelelőjét írjuk, és elvégezzük a kijelölt műveleteket. Az alapegyenlet mondanivalója, hogy a modell megszorításai mellett az indikátor változók közötti kovarianciák csak a közös faktorok függvényei, míg az indikátor változók varianciái az egyedi faktorok varianciáinak az ismeretét is igényli. A C* mátrix elemei a modell által redukált kovariancia mátrixot alkotják. Lévén az indikátorok standardizáltak, ezért Cxx=Rxx egyben a korrelációs mátrixukat jelenti. Ha az indikátorok mellett a faktorokat is standardizáljuk, a faktoranalízis egyenletetében =Rff a faktorok korrelációs mátrixát, C*=R* pedig a redukált korrelációs mátrixot jelenti: R xx ΛΦΛT Ψ 2 R* Ψ 2 . (13.10) A (13.10) azonosságot részletesen kiírva: m
m
rx j , xl rjl jk lt rfk , ft 2jl
(13.11)
k 1 t 1
ahol 2jl 0 , ha j l , és rjl 1 , ha j l . Mint látható, az indikátorok közötti korreláció a faktorsúlyok, és a faktorok közötti korrelációk ismeretében maradék nélkül, míg az egységnyi varianciák csak maradékkal reprodukálhatók. Ezért, ha az indikátorok közötti korrelációkat csak a faktorsúlyokra, és a faktorok közötti korrelációkra hagyatkozva modellezzük, akkor egy redukált korrelációs mátrixhoz jutunk, melynek átlóján az rjj* 1 2jj redukált korrelációk szerepelnek. Az egyedi faktor által meg nem magyarázott 2jj hányadot egyediségnek, a közös faktorok által magyarázott rjj* hányadot pedig kommunalitásnak nevezzük. A kommunalitás értéke tehát általában:
49
E kovariancia mátrix jelölésére a továbbiakban fönntartjuk a 2 formulát.
215
m
m
rjj* 1 2jj h2j jk jt rfk , ft .
(13.12)
k 1 t 1
Adott indikátor kommunalitása azt számszerűsíti, hogy az m számú közös faktor az illető indikátor varianciájának mekkora százalékát magyarázza meg. Ebben az értelemben tehát többszörös determinációs együttható. Mint látható, a közös faktorok egymással való páronkénti korrelálatlanságát feltételezve, a faktormodell radikálisan egyszerűsödik. Ekkor a faktoranalízis alapegyenlete az alábbi formát ölti: R xx ΛΛT Ψ 2 . (13.13) E (szűkített) alapegyenlet szerint az indikátorok páronkénti korrelációs rendszere- a korrelációs mátrix átlón kívüli elemei - teljes mértékben reprodukálhatók a faktorsúlyok segítségével. Ebben az esetben adott indikátor kommunalitása a faktorsúlymátrix megfelelő sorában lévő faktorsúlyok négyzetösszegeként áll elő. A faktorsúly elnevezése másik terminológiával - mivel az indikátorok faktorokkal való feltöltésének a mértékét jellemzi: „faktor loading”.
13.1 A FAKTORSTRUKTÚRA Faktorstruktúra alatt a mérési változók és a faktorok közötti kovarianciák rendszerét értjük. A megfigyelt változók és a faktorok között mért kovarianciák a struktúra mátrixot alkotják. Tekintsük először az xj indikátor és az fk közös faktor közötti kovarianciát. A kovariancia lineáris felbontása, a (13.1) modell és a (13.6) korrelálatlansági követelmény alapján:
Cov( x j , f k ) Cov j1 f1 j 2 f 2 ... jm f m u j , f k jt Cov( ft , f k )
(13.14)
jkVar ( f k ) jt Cov( f t , f k ) .
(13.15)
m
t 1
t k
Az indikátor és a faktor közötti kovariancia függvénye a vizsgált faktor faktorsúlyának, és varianciájának, továbbá függ a faktornak az összes többi faktorral vett, faktorsúlyokkal súlyozott kovarianciáitól. Ezért, ha mind az indikátor, mind a faktor standardizált, akkor (13.16) rx j , f k jk jt r f t , f k .
t k
Ha pedig végül a közös faktorok korrelálatlanok egymással, akkor az indikátor, és a faktor közötti lineáris korrelációt a faktorsúly jelenti: rx j , f k jk . (13.17) A fenti megállapítások mátrix jelölésekkel tömören bemutathatók. Tekintsük az indikátorok és a közös faktorok közötti kovarianciák mátrixát. A (13.3) modell és a (13.6) korrelálatlansági követelmény alapján: T 1 1 1 (13.18) C xf XT F FΛT U F Λ FT F ΛC ff ΛΦ . n n n A (13.18) formula módosulása az egyszerűsítő megszorítások bevezetésével kézenfekvő. Így például standardizált változók esetén a kovariancia mátrix a korrelációs mátrixot jelenti, egymásal korrelálatlan látens faktorok esetén pedig Cff diagonális. Ha pedig az egymással korrelálatlan közös faktorok standardizáltak is, akkor Cff egységmátrix.
13.2 A FAKTOROK MEGHATÁROZATLANSÁGA A faktorok és a rájuk vonatkozó faktorsúlyok kétféle értelemben is meghatározatlanok. Egyrészt nem ismerjük a kommunalitás és az egyediség egymáshoz való arányát, másrészt a faktorok - mint tengelyek a térben – elforgathatók, miközben a terükben ábrázolt indikátorok a helyükön maradnak, csupán a faktorsúlyok, mint báziskoordináták változnak. Vagyis, ha már rendelkezésünkre áll a faktormodell egy megoldása, akkor a faktorok bármilyen T m ,m Tm1,m I m nemszinguláris transzformációja kielégíti a (13.4) egyenletet:
x ΛT1 Tf u .
(13.19)
Legyen a transzformációs mátrix T M és végezzük el az f * Mf és Λ* ΛM 1 transzformációt, ahol M nemszinguláris. Ennek következtében a transzformált faktorok kovariancia mátrixa (a kovariancia lineáris felbontása alapján): C f * f * MΦMT . Látható, hogy az alapegyenlet továbbra is teljesül, mivel érintetlenül hagyja a redukált korrelációs mátrixot.:
216
ΛM MΦM ΛM 1
1 T
T
ΛΦΛT .
Mivel M elemeinek a száma m2, ezért Φ és Λ egyedileg való meghatározottságához szükséges, de nem elégséges feltétel, hogy legalább m2 megszorítást tegyünk a Φ és Λ paraméterek körében. Speciális esetben MM T M T M I , és ekkor ortogonális forgatást hajtunk végre az ortonormált M(m,m) transzformációs mátrixszal: ΛΛT ΛMMT ΛT ( ΛM)( ΛM)T . (13.20) Másképpen fogalmazva, a faktorsúlyoknak és a faktorközi korrelációknak a transzformációs mátrixszal olyan új, elforgatott változatait hoztuk létre, melyek az indikátor változók korrelációit változatlanul hagyják (a varianciájukat azonban nem). Ilyen transzformációs mátrix viszont végtelen számú van, és mindegyikük más és más faktorbecslésre vezet. A faktoranalízis alkalmazásának kulcskérdése, hogy végülis melyik faktorstruktúrát választjuk. Ha létezik egy egyedi Ψ 2 mátrixa az egyediségeknek, akkor C xx Ψ 2 szimmetrikus, a rangja pedig m, hiszen a közös faktorok lineáris kombinációjaként előálló változók kovariancia mátrixa. Ezért a faktorsúlyok kapcsolata a többi paraméterrel az alábbiak szerint alakul. A (13.9) alapegyenletet átrendezve, majd mind balról, mind jobbról szorozva a Ψ 1 mátrixszal: (13.21) Ψ 1 Cxx Ψ2 Ψ 1 Ψ 1Cxx Ψ 1 I C' I
Ψ 1 ΛΦΛT Ψ 1 Ψ 1Λ Φ Ψ 1Λ . T
(13.22)
Mivel a C' I mátrix szintén szimmetrikus, és a rangja m, ezért spektrálisan felbontható a C' I V( p,m) D( m,m) V(Tp,m)
(13.23)
módon, ahol feltevésünk szerint a D d1 , d2 ,..., dm diagonális mátrix diagonális elemei a C I mátrix nem zéró sajátértékei csökkenő sorrendben (feltevésünk szerint pozitívok), a megfelelő sajátvektorok pedig V oszlopait alkotják, és VT V I p . Ezen eredmények birtokában, ha a közös faktorok egymással korrelálatlanok, vagyis a '
(13.22) azonosságban =I, akkor (13.22) és (13.23) alapján
Ψ Λ Ψ Λ 1
1
T
1
1
VD 2 D 2 VT VD
1
2
VD 1
T
2
(13.24)
innen pedig a faktorsúlyok mátrixára 1
Λ ΨVD 2 adódik. A fenti definícióval korrelálatlan faktorok esetén ΛΛT C xx Ψ 2 a redukált kovariancia mátrixot produkálja, és
Ψ Λ Ψ Λ Λ Ψ 1
T
1
T
(13.25) (13.26) 2
ΛD
(13.27)
diagonális. A faktorsúlyok fenti normálását Kaiser-féle normalizációnak nevezzük. A (13.23) dekompozíció birtokában fölhívjuk a figyelmet a C' Ψ 1C xx Ψ 1 mátrix spektrális felbontására is, miszerint: (13.28) C' Ψ1Cxx Ψ1 V( p , p ) D I V(Tp , p ) vagyis C' Ψ 1C xx Ψ 1 sajátértékei rendre 1-gyel nagyobbak, mint C' I sajátértékei, tehát az első m számú legnagyobb d1+1, d2+1,...,dm+1 sajátérték egynél nagyobb, míg a maradék p-m számú éppen 1. Korrelálatlan faktorok esetén (13.27) alapján a normalizált faktorsúly mátrix k. oszlopában a súlyok VEk négyzetösszege azt számszerűsíti, hogy az fk faktor összességében milyen mértékben járul hozzá az indikátor változók varianciájának a magyarázatához.
13.3 A FAKTORMODELL IDENTIFIKÁLHATÓSÁGA A faktormodellben a faktorsúlyok, valamint a közös faktorok varianciái és egymás közötti kovarianciái, továbbá az egyedi faktorok varianciái képezik a modell θ paramétereit. Ezek teljes száma: m(m 1) n pm p 2
217
ahol pm a faktorsúlyok száma, m(m 1) / 2 a közös faktorok varianciáinak és egymással vett kovarianciáinak a száma, p pedig az egyedi faktorok varianciáinak a száma. Ha a közös faktorok standardizáltak, és páronként korrelálatlanok, akkor a paraméterek száma az alábbi módon szűkül: n pm p . Ugyanakkor az indikátor változókat jellemző kovarianciák és varianciák összes száma p( p 1) / 2 , így ennyiféle kovarianciát tudunk kifejezni a paraméterek felhasználásával a faktoranalízis alapegyenletében. Fölmerül tehát a paraméterek számának a problémája. Az általános identifikálhatósági követelménynek megfelelően a szabad (meghatározandó, mintából becsülendő) paraméterek száma nem lehet nagyobb a rendelkezésre álló egyenletek számánál. Ha ez nem teljesül, akkor bizonyos paraméterekre megszorításokat kell tennünk. Jelölje a becsülendő paraméterek számát nb, a kötött paraméterek számát pedig nk. Ekkor nb n nk , és szükséges, de nem elégséges követelmény, hogy az p( p 1) nb 2 reláció teljesüljön. Ha a modell megengedi a közös faktorok egymással való korreláltságát, akkor ebből (mivel a T transzformációs mátrix elemeinek a száma m2), az nk m 2 követelmény származik. Korrelálatlan közös faktorok esetén ezzel szemben (13.27) diagonális voltának biztosítása érdekében m(m 1) / 2 feltételt is figyelembe kell vennünk, tehát ez esetben a kötött paraméterek nk m(m 1) / 2 száma adottság. Például az egyfaktoros modell két indikátor változóval alulidentifikált, tehát a paraméterei a fenti módon nem becsülhetők. Ugyanakkor három indikátor változóval pontosan identifikált, négy vagy több indikátor változóval pedig túlidentifikált. Látható tehát, hogy a faktorok hipotetikus számának relatíve kicsinynek kell lenni az indikátorok számához képest.
13.4 IMAGE-ANALÍZIS Tekintsük a standardizált indikátor változók x1,x2,...,xp körét, továbbá az xj változónak az összes többi (p-1) változóval való regresszióját: xj cj uj
b j 0 b jt xt e j xˆ j e j
(13.29)
t j
b j0
b jt ct ut e j t j
ahol j=1,2,...,p és a b koefficiensek a regressziós paraméterek. Ekkor image változó alatt az xˆ j változót értjük, mely az xj indikátorból az összes többi indikátor által előrejelzett részt képviseli. Ebben a modellben az ej reziduum az anti-image változót reprezentálja. A fenti azonosság lényeges mozzanata, hogy mivel az uj egyediség valamennyi cj=1,2,...,p kommunalitással, továbbá minden más indexű utj egyediséggel korrelálatlan, ebből következően az xˆ j image-változóval is korrelálatlan, azaz Cu j , ct 1, 2 ,..., p Cu j , xˆ j 0
(13.30)
teljesül. Ekkor xj varianciáját kétféleképpen is felbonthatjuk. Egyfelől az image változó által magyarázott, másfelől a kommunalitás által magyarázott hányadra való tekintettel: 2x j h 2j 2j 2xˆ j e2 j amely, mivel xj standardizált
1 h2j 2j R 2j e2 j amelyből
h 2j R 2j e2 j 2j .
(13.31)
Ugyanakkor (13.31) jobb oldala nem más mint a kétféle hiba (u-e) különbségének a varianciája, és mivel variancia nem lehet negatív, ezért h 2j R 2j e2 j 2j 2u j e j 0
218
tehát a kommunalitás nem lehet kisebb, mint a megfelelő R2j SMC j (Squared Multiple Correlation) determinációs együttható értéke:
h 2j R 2j . A fenti gondolatmenetben kihasználtuk, hogy 2u j e j u2 j e2 j 2Cu j , e j 2j e2 j 2Cu j , e j ahol a (13.1) faktormodell, a (13.29) image-modell és a (13.30) korrelálatlansági tulajdonságok alapján: Cu j , x j Cu j ,c j Cu j ,u j u2 j 2j
Cu j ,xˆ j Cu j ,e j Cu j ,e j .
13.5 A BECSÜLT FAKTOR-SCORE A faktorok föltárása után fölmerül a kérdés, hogy a megfigyelési egységek az egyes faktorok tekintetében miként viszonyulnak egymáshoz. Ennek megítélése azon alapul, hogy a megfigyelési egységek a kérdéses faktor dimenziójában mekkora, ún. faktor ''score'' értéket vesznek fel. Mivel a látens faktorok kiszűrése (szemben a főkomponensek meghatározásával) nem egyértelmű, ezért a közös faktorban felvett score értékeket is csak becsülni tudjuk. E becsléshez a lineáris regresszió nyújt – egyféle - segítséget: fˆ b x b x ... b x ik
1 i1
2 i2
p ip
ahol a b együtthatók a regressziós paraméterek, továbbá mind az x indikátor változók, mind az f közös faktorok standardizáltak. Mátrix formában: Fˆ ( n, m) X( n, p ) B ( p, m) . Balról szorozva az Hiba!mátrixszal:
1 Tˆ 1 T X F X XB n n ami figyelembe véve a változók standardizált voltát, másik alakban: R xf R xx B . Innen B R xx1R xf . Korrelálatlan faktorok esetében, mivel ekkor az Rxf struktúra mátrix és a loading mátrix egybeesik, természetesen B R xx1Λ .
13.6 PARCIÁLIS KORRELÁLATLANSÁG Tegyük fel a kérdést, hogy vajon létezik-e egy olyan f faktor, amelynek hatását valamennyi indikátorból kiszűrve bármely két különböző (jl) indikátor változó közötti parciális korreláció értéke zérus. Ha ez teljesül, akkor a faktorokat jellemző paraméterek felhasználásával az Rxx korrelációs mátrix diagonálison kívüli elemei teljes mértékben reprodukálhatók. Ha azonban ez nem teljesül, akkor két közös faktor létét kell feltételeznünk, s most a kérdés úgy merül fel, hogy valamennyi indikátorból kiszűrve egyidejűleg mind f1, mind f2 hatását, az indikátorok közötti parciális korrelációk értéke zérus-e. Ha igen, akkor elfogadhatjuk a hipotézist, miszerint két faktor rejlik a megfigyelt változók hátterében. A faktorsúly mátrix és a faktorok közötti korreláció alapján az Rxx korrelációs mátrix diagonálison kívüli elemei teljes mértékben reprodukálhatók. A gondolatmenet mindaddig folytatandó, míg valamely m érték mellett a parciális korreláció már bármely indikátor párosításban zérus. Mivel az indikátorok közötti parciális korrelációk alapvetően az Rxx korrelációs mátrix inverze elemeinek függvényei, ezért az R mátrix akkor alkalmas igazán a faktorizációra, ha az R-1 közel diagonális. Hogy mennyire diagonális-közeli, annak megítélésre a Kaiser-Meyer-Olkin mértéket használjuk:
219
2gt KMO 1
g t
rgt2 g t
ahol θgt a g. és t. indikátor tekintetében definiált parciális korreláció negatívja. Ily módon számítási módja (a θgt értékeket a mátrixba foglalva): diagR 1
1
2
R 1 diagR 1
1
2
.
A KMO mutató (tapasztalati) kritikus határa 0.8, vagyis ezen érték alatt megkérdőjelezendő a faktormodell becslése. A faktormodell felhasználása alapvetően exploratív vagy konfirmatív jellegű. Az exploratív faktoranalízisben nincs előzetes információnk a faktorok számáról, a faktorstruktúráról, a faktorok korrelált, vagy korrelálatlan voltáról. Ebben az esetben az adatállományt arra használjuk, hogy feltárjuk mindazon faktorjellemzőket, melyek az indikátor változók korrelációs kapcsolatrendszerét a legjobban magyarázzák. Ezzel szemben a konfirmatív faktoranalízis során a priori hipotézissel élünk a faktorstruktúrára vonatkozóan, és azt vizsgáljuk, hogy megfigyeléseink ellentmondanake ennek a hipotézisnek, vagy sem.
220
14 EXPLORATÍV FAKTORANALÍZIS 14 Exploratív faktoranalízis Az exploratív faktoranalízis három alapvető modellre ágazik el: komponens analízis, közösfaktor analízis, image analízis. Mindhárom modell felfűzhető a Rao(1955)-féle kanonikus faktorok elvére, melynek lényege az alábbi.
14.1 A KANONIKUS FAKTORMODELL Alkossák az X(n,p) indikátorok a változók első, a korrelálatlan F(n,m) faktorok pedig a második körét. Ekkor a két változókört összefűzve, a korrelációs mátrix blokkokra bontva: R xx R xf R Λ . R T I fx R ff Λ A kanonikus korreláció (3.41) modellje alapján R xx1R xf R ff1R fx 2I w 0
R ΛΛ Iw 0 ΛΛ R w 0 . 1 xx T
T
2
2
xx
Ez a faktoranalízis alapegyenlete szerint korrelálatlan faktorok esetén az alábbi formát ölti: 1 R Ψ 2 2 R w R Ψ 2 w R dΨ 2 w 0 2 1 2 és ha az egyediségek mátrixa invertálható, akkor Ψ 1RΨ 1 dI Ψw
(14.1)
Ψ 1RΨ 1 Ψ 1Ψ 2 Ψ 1 I dI v
Ψ R Ψ Ψ d 1I v 0 . A kanonikus faktorsúlyok számítása ezek ismeretében az alábbi dekompozíció alapján történik: Ψ 1 R Ψ 2 Ψ 1 VDd 1VT ahonnan 1
majd ahol D
d 1
2
1
R Ψ 2 ΛΛT ΨV D
d 1
Λ ΨV D
d 1
D
d 1
(14.2)
ΨV T
(14.3)
d1 1, d 2 1,..., d m 1 diagonális elemei az első m számú - nem negatív (d-1) sajátérték gyökei,
V(p,m) oszlopai pedig a megfelelő sajátvektorok. Ugyanakkor az is látszik, hogy ΛT Λ Dd 1VT ΨΨVD d 1 miatt 12 2 1 1 22 T 2 2 Λ Ψ Λ Dd 1 1 2 . 2m 1 2m Mint már említettük, a faktorsúlyok e normalizációját Kaiser-féle normalizálásnak nevezzük.
221
Az exploratív faktormegoldások közös jellemzője, hogy az egyediségekre adott induló becsléseken alapulnak. A faktorok által magyarázott kommunalitások kiszámítása ugyanis a faktorok (faktorsúlyok, és faktorközi korrelációk) ismeretét igényli, viszont ezek meghatározásának kiindulási pontja a becsült redukált korrelációs mátrix. További jellegzetessége az exploratív technikáknak, hogy első lépésben egymással korrelálatlan primer faktorokat produkálnak, melyek nem, vagy nehezen értelmezhetők. Második lépésben a faktorok ortogonális vagy ferdeszögű rotálásával vizsgáljuk, hogy az elforgatott faktorok értelmezhetőbbé (egyszerűbbé) teszik-e a faktorsúlyok struktúráját. Végül, ha szükséges és lehet, akkor becsüljük a faktoroknak a megfigyelési egységekhez tartozó faktorscore értékeit.
14.2 ORTOGONÁLIS FORGATÁS AZ EGYSZERŰ STRUKTÚRÁÉRT Az egyszerű struktúra analítikus kritériumát a négyzetes loadingokra vonatkozóan fogalmazzuk meg. Az ortogonális rotáció analítikus célfüggvénye maximálási, vagy minimálási feladatként is megfogalmazható. Jelölje ajt az elforgatás előtti, primer faktorsúlyt. Tekintsük az elemenként rendre négyzetre emelt loadingokból képzett [Q] jt q jt a 2jt mátrixot, melynek általános oszlopa: qt. (t=1,2,...,m≤p), általános sora pedig q*j (j=1,2,...,p). Ekkor az oszlopok egyszerű összeadásával a mérési változók kommunalitásait tartalmazó h2 [h12 , h22 ,..., hp2 ]T vektort kapjuk meg. Mivel a kommunalitások nem változnak meg az ortogonális forgatás során, ezért a varianciájuk is változatlan. A kommunalitások varianciája viszont fölírható az alábbi formában: (14.4) Var h2 Var q1 q 2 ... q m Var q1 Var q 2 ... Var q m Cov qt , q g const .
A Var h
2
tg
konstanson belül a
varimax Var q1 Var q2 ... Var qm max célfüggvényt "varimax" kritériumnak, a covarimin Cov qt , q g min
(14.5) (14.6)
tg
célfüggvényt pedig "covarimin" kritériumnak nevezzük. Látható, hogy a két kritérium egymás komplementereként csak egymás rovására változhat, tehát e két célfüggvény ugyanarra az eredményre vezet, miközben a covarimin célfüggvény konvergált értéke negatív előjelű. Egy harmadik nevezetes kritérium a quartimax kritérium, mely a négyzetes loadingok varianciáját a loading-mátix soraiban maximálja quartimax Var q1* Var q*2 ... Var q*m max . A quartimax eljárás célja, hogy valamennyi mérési változó viszonylag nagy súllyal szerepeljen egy közös, általános faktorban, és magas súllyal egy további specifikus faktorban, a maradék faktorokban pedig zéróhoz közeli súlya legyen. A módszer alkalmazása akkor indokolt, mikor egy általános faktor is vélelmezhető a mérési változók alakulása mögött. A varimax eljárás a loading mátrix oszlopainak a struktúráját igyekszik egyszerűsíteni úgy, hogy valamely mérési változó egy, és csak egy faktorban szerepeljen egyhez közeli abszolút értékű súllyal, miközben a többi faktorban a súly zéróközeli. Ez a faktorok értelmezhetőségét szolgálja. A módszer hatása, hogy a súlymátrix egy oszlopán belül tovább növeli a már egyébként is nagy értékeket, és csökkenti a kicsinyeket. A varimax rotálás nem támogatja az általános faktor kirajzolódását, akkor sem, ha az létezik. Mivel a négyzetes súlyok Q mátrixának q1* , q*2 ..., q*p sorai a pm számú négyzetes loadingot a mérési változók szerinti j=1,2,...,p számú alcsoportba sorolják, ezért a négyzetes loadingok teljes Var(Q) varianciája - a csoportközi külsőbelső dekompozíció szabálya alapján Var (Q) VarB (Qs ) VarK (Qs ) ahol Qs alsó indexe a soronkénti csoportképzésre utal, továbbá p
VarB (Q s )
j 1
p
m 1 1 Var(q*j ) Var(q*j ) quartimax pm p j 1 p
és (mivel a j. részátlag h 2j / m ), ezért a külső, vagyis a részátlagok varianciája
222
1 1 VarK (Q s ) Var h 2 2 Var(h 2 ) m m ami invariáns az ortogánális forgatásra. Ebből következően a quartimax kritérium a Var (Q) max kritériummal is megfogalmazható. Vegyük észre, hogy a négyzetes súlyok Q mátrixának q1,q2,...,qm oszlopai a négyzetes loadingokat a faktorok szerint bontják t=1,2,...,m számú alcsoportra, ezért a négyzetes loadingok teljes varianciája a VE VE VE varimax Var (Q) VarB (Qo ) VarK (Qo ) Var 1 , 2 ,..., m m p p p formában is fölbontható, ahol Qo alsó indexe most az oszloponkénti csoportképzésre utal és p
VEt q jt j 1
ami viszont megváltozik az ortogonális rotáció során. Ez a fölbontás belső varianciaként a varimax kritériumot tartalmazza. Mivel azonban a t. oszlop átlaga VPt/p, a külső variancia módosul a forgatás során, vagyis a varimax kritérium nem ekvivalens a Var(Q)max kritériummal. Ez természetes, hiszen akkor a varimax és a quartimax módszer ugyanarra az eredményre vezetne. A fenti kritériumok megfelelő paraméterezéssel beágyazhatók az általánosított G(γ) egyszerűségi kritérium keretei közé, mely γ paraméterével a (14.6) kritériumban szereplő kovarianciát módosítja az alábbi módon: G ( ) G q t , q g | min (14.7) tg
ahol G qt , q g |
1 p q jt q jg 2 p j 1 p
p
p
q q j 1
jt
j 1
jg
vagy tömörebben
G qt , q g |
1 T qt q g qt qg . p A (14.7) kritérium értelemszerűen minimálandó. A G(1) covarimin kritérium a négyzetes loadingokból képzett mátrix valamennyi lehetséges oszloppárjának a kovarianciáját összegzi és minimálja, ezért az elnevezése. Ha ez az érték minimális, akkor az oszloppárok összességükben szorosan, de negatív előjellel korrelálnak egymással, és éppen ez a varimax struktúra lényege. A G(1) kritérium egyben a varimax, és a covarimin esetet is jelenti. A csak pozitív értéket fölvevő G(0) egy másik kritériumhoz vezet, mely a négyzetes loadingok oszlopainak valamennyi párositását tekintve, az oszlopok skaláris szorzatainak az összegét minimálja: 1 G(0) qTt q g min . p tg
A G(0) kritérium az ún. parszimonia mutatót nyújtja. Geometriai megközelítésben, az xj változót, mint pontot tekintve két rögzített faktor (mint tengelyek) által kifeszített síkban, az egyszerű struktúra szempontjából ideális esetben az egyik faktor érinti az xj pontot, s ekkor a két faktorra vonatkozó koordinátáinak szorzata zérushoz nagyon közeli értéket vesz fel. E gondolatmenetet folytatva a faktorok valamennyi párosítására és valamennyi xj változóra, minél egyszerűbb struktúrát sikerül kialakítanunk, G(0) értéke annál alacsonyabb pozitív szám lesz. Mint látni fogjuk, e minimálás a quartimax maximálási feladattal ekvivalens. Kihasználva ugyanis, hogy a kommunalitások nem változnak az ortogonális forgatás során, nyilván a négyzetösszegük is változatlan marad:
h2j h 2 h 2 (Q1)T (Q1) 1T QT Q1 QT Qtg const p
m
T
j 1
m
t 1 g 1
ahol
Q Q T
tg
Ebből következően p
m
j 1
t 1
p
p
qTt q g q jt q jg . j 1
m
h2j QT Q tt QT Q tg q 2jt pG(0) pm Var(Q) q 2 pG(0) const . tg
j 1 t 1
223
Látható, hogy G(0) minimálása egyben a Var(Q) quartimax kritérium maximálását is jelenti. A loading-mátrix ortogonális forgatása során a γ paraméter értékkészlete: 0≤γ≤1, és a forgatás a loading lineáris korrelációs tartalmát nem befolyásolja. Ez esetben a struktúramátrix megegyezik a loading-mátrixszal. A G(γ) általános kritériumot az alábbi formában felírva látszik, hogy két speciális esetének a súlyozott átlaga: G G(0) G(0) G(1) (1 )G(0) G(1) . A γ paraméter értékének a növelésével az oszlopok, csökkentésével pedig a sorok egyszerű struktúráját nyomatékosítjuk. A súlyok egyenlősége esetén a G(1/2) biquartimax, míg G(m/2) mellett az equamax célfüggvényt minimáljuk. Gamma az értelmezési tartományán tetszőleges értéket vehet fel. Grafikus interpretációban a minimalizálás elemi rotációk sorozatán át történik. Egy elemi rotáció során két tetszőleges faktort forgatunk el úgy, hogy továbbra is ortogonálisak maradjanak egymásra. Ez tulajdonképpen a két faktor által kifeszített síkban a koordináta tengelyek elforgatását jelenti egy közös, az eredeti tengelyekhez viszonyított szöggel. Az szög alkalmas megválasztásával az alkalmazott G(.) kritériumot minimáljuk. Megállapítjuk az új faktorokra (tengelyekre) vonatkozó súlyokat, és ezekkel helyettesítjük a loadingok mátrixának vonatkozó két oszlopát. Egy teljes rotáció során az elemi rotálást a faktorok minden létező párosításban végrehajtjuk olymódon, hogy a már elforgatott főkomponenst mindig továbbforgatjuk. Általában, a kt és kg faktorok elemi rotálásakor jelölje Atg(p,2) a forgatás előtti súlymátrixból az illető két faktorra vonatkozó oszlopokból képzett (p,2) rendű mátrixot, A’tg pedig tartalmazza az ennek elforgatásával nyert két oszlopot. Ekkor (az óramutató járásával ellentétes irányban forgatva a koordinátarendszert): cos tg sin tg ' A tg A tg sin cos tg tg ahonnan
cos tg sin tg ' A tg A tg . sin tg cos tg Egy teljes rotáció az összes lehetséges elemi rotáció sorozatának az eredménye, s valamennyi rotáció után megvizsgáljuk, hogy az utolsó rotáció súlymátrixából számított G célfüggvényérték csökkenése kisebb-e egy előre rögzített kicsiny pozitív számnál. Ha nem, akkor tovább folytatjuk a súlymátrix forgatását, de ha igen, akkor a végső rotált loading mátrixhoz jutottunk el. Az elemi rotációk végrehajtása az elforgatási szögek ismeretén múlik. Mindazonáltal egy teljes rotáció végrehajtásához szükséges transzformációs mátrix egylépésben, szimultán módon is meghatározható. Ennek előnye, hogy a kerekítési pontatlanságok forgatásról forgatásra nem kumulálódnak. A fentieket összefoglalva, az ortogonális forgatás három legismertebb módszere a G(0) quartimax, a G(1) varimax, és a G(1/2) equamax forgatások. Az equamax módszer az egyszerű struktúrát egyidejűleg mind a súlymátrix soraira, mind az oszlopaira vonatkozóan próbálja meg létrehozni. Ha valamely mérési változók megegyező, vagy különböző előjellel, de szorosan korrelálnak adott faktorral, akkor várhatóan egymással is megegyező, illetve különböző előjellel, szorosan korrelálnak. A faktorok tartalmát tehát a velük legszorosabban korreláló mérési változók adják. Rendeljük hozzá minden egyes mérési változóhoz azt a faktort, amellyel a legszorosabban korrelál. A faktorok páronkénti korrelálatlanságára építve számíthatunk arra, hogy a faktorok a mérési változókat olyan alcsoportokra bontják ilymódon, melyeken belül a változók szorosan, más csoportok változóival viszont gyengén korrelálnak. Jól értelmezhető, és magas magyarázó erővel bíró faktorok birtokában a megfigyelési egységeket a redukált térben rangsorolhatjuk és csoportosíthatjuk, vizsgálhatjuk az eloszlásuk jellemzőit, kiszűrhetjük az extrém nagy vagy kicsiny, ún. ''outlier'' egyedeket.
14.3 „OBLIQUE” ROTÁCIÓ, KORRELÁLT FAKTOROKÉRT Nyilvánvaló, hogy a faktorok egymással való korrelálatlanságát fenntartva nem érhetünk el annyira egyszerű struktúrát, amilyet e megszorítás nélkül nyerhetünk. Tekintettel erre, két eset adódik. Egyrészt korántsem biztos, hogy a mérési változók egymással korrelálatlan, és egyidejűleg értelmes faktorokkal magyarázhatók. Ilyenkor az ortogonális rotáció semmilyen kritérium mellet nem vezet értelmezhető loading mátrixra. Ha ilyenkor megengedjük a faktorok egymással való korreláltságát, akkor valamely diag(TTT)=I feltételnek eleget tevő T ferdeszögű transzformálás (oblique rotation) hatására, még kirajzolódhat a faktorok valamilyen szakmailag értelmezhető mintázata. Másfelől, a ferdeszögű forgatás hatására egyébként értelmes, ortogonális módszerrel nyert mintázat is tovább finomodhat. Ilyenkor a struktúra mátrix meghatározása mind a loadingok, mind a faktorok közötti korrelációk mátrixának az ismeretét igényli. A ferdeszögű rotálás is az általános G(γ) kritériumot minimálja, de jellemzően a γ≤0 tartományon. Ilyenkor γ növekvő értékeivel egyre inkább korreláló főkomponenseket engedünk
224
meg. Ferdeszögű forgatást alkalmazva a G(0) esetet – szemben a derékszögűvel - direct quartimin kritériumnak nevezzük.
14.3.1 A DIRECT QUARTIMIN ELJÁRÁS Jelen módszer a G(0) kritériumot minimálja, a diag (Tm TmT ) I m megszorítás mellett, ahol TmTmT C ff a faktorok korrelációs mátrixa. A forgatás most is elemi rotációk sorozatán át valósul meg. Egy közbülső lépésben tekintsünk két tetszőleges, modjuk az f1 és az f2 faktorokat. Egy elemi rotáció során elforgatjuk az f1 faktort az f1 és f2 faktorok síkjában úgy, hogy az eredményül kapott loading mátrix minimálja a G(0) kritériumot, miközben az elforgatott f1’ faktor varianciája egységnyi. A rotált faktor: f1 t1 f1 t2 f 2 ahol t1 és t2 értékét úgy választjuk meg, hogy a Var ( f1) t12 2t1t2C12 t22 1 standardizáltsági követelmény teljesüljön. Jelölje a1 és a2 az elforgatás előtti, a1, és a2, pedig az elforgatás utáni loadingokat. Ekkor, mivel definíció szerint a1 f1 a2 f 2 a1(t1 f1 t2 f 2 ) a2 f 2 ezért átrendezés, és a megfelelő együtthatók egyenlővé tétele révén a1 a1 / t1 a2 t2 a1 / t1 a2 Most a G(0) kritérium minimálása eredményeképpen 1/t1, és t2/t1 értékét állapítjuk meg, amiből az elforgatott loadingok már következnek. Az új faktorközi kovarianciákat (korrelációkat) a kovariancia lineáris dekompozíciója alapján határozzuk meg. Például: Cov( f1, f 2 ) Cov (t1 f1 t2 f 2 ), f 2 t1C12 t2C22 Az elemi rotációkat a faktorok minden párosításában végrehajtjuk. A direkt quartimin módszer fontos jellemzője, hogy a perfekt egyszerű struktúrát kimutatja, ha az a valós helyzet.
14.3.2 A PROMAX MÓDSZER Ez az eljárás a varimax loadingokat transzformálja korrelált faktorokra vonatkozó loadingokká, a megfelelő faktörközi korrelációkkal összhangban. Tekintsük a loadingok
y jt a rjt1 a jt ahol r>1 integer. Így előjelüket megőrizve, az abszolút értékük szerepel az r. hatványon. A transzformált loadingokat az Y mátrixba foglaljuk, melynek általános oszlopa yt. Az eredeti loadingokkal magyarázva a transzformált loadingokat keressük az y t Ab t et regresszió legkisebb négyzetek módszerével becsült bt paramétervektorát (t=1,2,...,m), melyeket a (14.18) becslőfüggvény használatával a
B( m,m ) b1 , b 2 ,..., b m AT A AT Y 1
mátrixba foglalunk. Ekkor a rotált loadingok mátrixa: AB. A nem föltétlenül ortogonális B transzformáció az abszolút értelemben relatíve nagy súlyokat tovább növeli, a kicsiket pedig tovább csökkenti. A gyakorlatban érdemes B oszlopait úgy átskálázni, hogy az elforgatott főkomponensek standardizáltak legyenek. Ezt úgy valósítjuk meg, hogy B helyén az M BD 1 2 transzformációs mátrixot szerepeltetjük, ahol D diag BT B . Ekkor az elforgatott loading mátrix: A AM amelyből A AM 1 és így 1 AAT AM 1MT AT A(MT M ) 1 AT AΦAT
225
ahol
Φ MT M D1 BT B D1 . 1
1
Látható, hogy Φ az F F M 1 módon elforgatott faktorok kovariancia mátrixa, melynek valamennyi diagonális T
eleme: 1.50 Így az elforgatott faktorok valóban standardizáltak, és nem föltétlenül korrelálatlanok. Az r hatványkitevő megválasztása próbálgatás kérdése. Túl magas kitevő –bár egyszerűsíti a faktormintázatot -, túlságosan korrelált faktorokat eredményez. A gyakorlat r=4 választásnál magasabb értéket nem javasol.
14.3.3 ORTHOBLIQUE ROTÁCIÓ Jelölje R*( p , p ) a mindenkori faktorizálandó mátrixot, mely szimmetrikus, és rangja m (m
R*( p , p ) VL VL VL2 VT T
ahol az L2( m,m) diagonális mátrix diagonális elemei a nemzéró sajátértékek, V oszlopai pedig a megfelelő sajátvektorok. Az orthoblique rotálás lényege, hogy kiindulva a VL faktorsúlyokból, vagy azok valamely tetszőleges ortogonális forgatásával nyert faktorsúlyokból, kizárólag ortonormált T transzformációkon át végül korrelált faktorokra vonatkozó faktorsúlyokhoz jusson. Általában R* VL2 VT
VLD 2TD1 D11TT D21L1L2L1D21TD11 D1TT D2LV T AR ff A
T
ahol A, Rff és A a megfelelő zárójelben lévő kifejezéseket jelöli, továbbá a T mátrix ortonormált (TTT=TTT=I) és valamennyi D mátrix pozitív definit diagonális. Mivel egyszerűbb alakban a faktorközi korrelációk mátrixa: R ff D11TT D22 TD11 (14.8) T
ezért, ha T1 és D2 rögzített, akkor D1 is meghatározott. A D1 mátrix egyedüli szerepe, hogy az inverzével való normalizálás az Rff korrelációs mátrix átlóján egységnyi diagonális elemeket biztosít. A (14.8) rotálás ortogonális, és nem ortogonális faktormegoldásokat is magában foglal. Az ortogonális megoldások körét a D2=D1=I megszorítás eredményezi. Ha D2I, akkor oblique megoldáshoz, korrelált faktorokhoz jutunk. A rotálás végrehajtása T1 és D2 rögzítését igényli. Ez többféle meggondolás alapján történhet. Egyféle megoldáshoz a független klaszterek esete vezet el. Ennek lényege a következő (Harris-Kaiser(1964)). Az indikátorok független klasztert alkotnak, ha a faktorsúlyok mátrixában minden sorban csak egyetlen zérótól különböző érték van. Más szavakkal perfekt egyszerű struktúrát mutat. Ekkor viszont ATA biztosan diagonális. Ennek biztosítása tehát racionális követelmény. Ez pedig teljesül akkor, ha LD2=D3=I. (Vegyük észre, hogy ortogonális esetben D3=L.) Ugyanis AT A D1TT D2LV T VLD 2TD1 D1TT D2L2 D2TD1 D12 . E választással AR ff AT
VTD1 D11TT L2 TD11 VTD1 T . A fenti rotált faktorsúlyok és faktorközi korrelációk birtokában a faktorstruktúra: R xf AR ff VL2TD11 .
Végső mozzanat a T mátrix megválasztásának a kérdése. Vegyük észre, hogy a T mátrix most nem VL, hanem csak V rotálására szolgál. Ennek megfelelően azt a T transzformációs mátrixot választjuk, mely valamely orthomax kritérium (quartimax, varimax, equamax) szerint V optimális forgatását eredményezi.
14.3.4 SKÁLAÉRTÉKELÉS A ferdeszögű forgatás alkalmazása elengedhetetlen olyankor, mikor egy új, Likert-típusú, az egyes változók értékeinek összegeként definiált skálát kívánunk létrehozni. (Például különféle kérdésekre adható, egytől ötig terjedő
50
A kovariancia tulajdonságai alapján
226
C f , f M 1 C ff M 1 MT M . T
1
kódok összege, ha a kód minimális és maximális értékét mindegyik kérdésnél konzisztensen ítéljük meg. Ekkor jellemezni kell az új skála megbízhatóságát, és dimenzionalitását. Az előbbit az ún Cronbach-alfa megbízhatósági mutató, az utóbbit pedig a másodrendű faktor meghatározása szolgálja. A Cronbach-alfa: p tr(C) C alfa 1 p 1 1T C1 ahol 1 az összegző vektor, a C kovariancia mátrix pedig standardizált mérési változók esetén a korrelációs mátrixszal egyezik meg. A C-alfa értéke a változók számának növekedésével, illetve a közöttük mért átlagos korreláció növekedésével növekszik. Egy skála általában akkor megbízható, ha a C-alfa értéke legalább 0.8. A C-alfa felhasználásával ki lehet szűrni, hogy mely indikátorokat vegyük figyelembe az új skálában. Meghatározzuk ugyanis a C-alfa értéket valamennyi indikátor felhasználásával, majd a kérdéses indikátor elhagyása mellett is. Ha ez utóbbi érték magasabb, mint az előbbi, akkor az illető indikátor gyengén korrelál a skála többi elemével, tehát elhagyandó. A skálák értelmezését természetesen a mögöttük lévő faktorok teszik lehetővé. Mivel az értelmezésen van a hangsúly, ezért mindig célszerű ferdeszögű forgatást végrehajtani. A faktornak, mint skálának a megbízhatóságát is jellemezhetjük a C-alfával, ha ennek értékét csupán az adott faktorban nagy, de más faktorokban egyidejűleg csekély súllyal szereplő indikátorok alapján határozzuk meg. A skála értelmezését nagyban könnyíti továbbá, ha a skála csak egydimenziós. Érdemes tehát a faktorokon végrehajtott másodrendű faktoranalízist is elvégezni, hogy vélelmezhetőe a közös faktorok mögött egy általános faktor létezése. Ha igen, akkor a közös faktorok átfedésére az általános faktorra vonatkozó magas kommunalitásaik utalnak.
14.4 FAKTORMEGOLDÁSOK Az alábbiakban a leginkább elterjedt faktormodelleket ismertetjük, melyek a kanonikus faktormodell speciális esetei. Ezek rendre főkomponensanalízis, főfaktoranalízis, maximum likelihood faktoranalízis image faktoranalízis (Kaiser’s second generation Little Jiffy) alfa-faktoranalízis. A faktormegoldások sorában először a főkomponensanalízist ismertetjük, és az eredmények értelmezhetősége érdekében rögtön a különböző rotációs eljárásokat is részletesen tárgyaljuk.
14.5 FŐKOMPONENSANALÍZIS A faktormodell megoldásához kezdeti lépésként főkomponenseket is meghatározhatunk. Ilyenkor az első m
227
egy-két főkomponenshez tartozik nagy súllyal. Érdemes tehát a faktorsúlyok primer mátrixát alkalmas transzformációval értelmezhetőbbé, azaz egyszerűbb mintázatúvá alakítani. 14.1. Példa Az alábbiakban a Little Jiffy elvre mutatunk egy példát. Ez az elv azt diktálja, hogy tartsuk meg az egynél nagyobb (az átlagosnál nagyobb) sajátértékű főkomponenseket, majd derékszögű VARIMAX forgatással próbáljuk meg tartalommal felruházni őket. A példa adatállománya egy kereskedelmi bank 24 ügyfelére (vállalkozásra) vonatkozik, pénzügyi mutatóik alapján hasonlítva össze őket. A bank célja az ügyfélkör minősítése, rangsorolása azok likviditása, eladósodottsága, és jövedelmezősége tekintetében. E három szempont (látens tulajdonság) köré az alábbi hat – mérlegből és eredménykimutatásból számított – indikátort (változót) mérjük: Gyors likviditási ráta: „GyorsLR” = (forgóeszköz-készlet) / rövid lejáratú kötelezettség Likviditási ráta: „LikvidR” = forgóeszköz / rövid lejáratú kötelezettség Eladósodottság: „Eladósod” = 100*hosszú lejáratú kötelezettség/(hosszú lejáratú kötelezettség + saját tőke) Bonitás: „Bonitás” = 100* hosszú lejáratú kötelezettség / saját tőke Eszközarányos jövedelmezőség: „EszkJöv” = (adózott eredmeny + értékcsökkenés)/Összes tárgyi eszköz Árbevétel arányos jövedelmezőség: „ÁrbJöv” = (adózott eredmeny + értékcsökkenés)/Nettó árbevétel.
1. 2. 3. 4. 5. 6.
Az 1-2. mutatók a rövidtávú fizetési képességet, a 3-4. mutatók a hosszú távú kötelezettségek mértékét, az 5-6. mutatók végül a gazdálkodás jövedelmezőségének színvonalát hivatottak tükrözni. Mindhárom szempontcsoporthoz a döntéshozó további indikátorokat is fűzhetne. A minősítést végző koncepciója, hogy a 6 indikátort 3 főkomponensbe sűrítve, azok az információ túlnyomó hányadát megőrzik, a vizsgálati szempontoknak megfelelő tartalommal lesznek felruházva, és így szolgálni fogják a vállalkozások rangsorolását, vagy szegmentálását. Az ügyfelekre vonatkozó indikátorokat az alábbi táblázat tartalmazza. 14.1. tábla Ügyfelek pénzügyi mutatói Ügyfél 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Pénzügyi mutatók GyorsLR LikvR 0.50 1.27 1.14 1.71 0.40 0.82 0.72 2.46 0.79 1.03 0.68 1.46 0.57 0.87 0.35 1.07 0.74 0.90 0.11 0.15 0.80 2.33 0.52 1.70 0.50 0.77 0.45 2.11 0.76 3.38 1.95 4.20 0.09 0.11 0.75 0.96 3.57 5.05 0.15 0.19 0.62 0.95 0.19 0.92 0.46 0.83 1.97 3.70
Eladósod 16.57 3.41 2.07 0.33 16.24 1.77 0.22 6.44 33.61 86.49 23.19 1.27 3.39 7.24 1.72 24.25 0.00 1.34 0.35 16.00 5.20 0.00 10.41 5.95
Bonitás 19.86 3.53 2.11 0.33 19.39 1.80 0.22 6.88 50.62 640.03 30.19 1.29 3.52 7.80 1.75 32.01 0.00 1.36 0.35 19.05 5.49 0.00 11.61 6.33
EszkJöv 0.09 0.07 -0.21 -0.09 0.05 0.02 0.09 0.10 0.44 -0.12 0.18 0.04 0.00 0.00 0.04 0.38 -0.28 0.02 0.02 -0.01 -0.03 0.11 -0.21 0.06
ÁrbJöv 0.02 0.05 -0.16 -0.08 0.14 0.01 0.06 0.16 0.49 -0.13 0.22 0.02 20.00 60.01 0.06 0.10 -0.21 0.04 0.08 -0.03 -0.03 0.03 -0.08 0.04
Standardizált pénzügyi mutatók GyorsLR LikvidR Eladósod -0.37 -0.27 0.29 0.48 0.07 -0.42 -0.50 -0.61 -0.49 -0.08 0.64 -0.59 .008681 -0.46 0.28 -0.14 -0.12 -0.51 -0.27 -0.58 -0.59 -0.56 -0.43 -0.25 -0.06 -0.55 1.22 -0.89 -1.13 4.08 0.02 0.54 0.65 -0.35 0.06 -0.53 2-0.37 -0.66 -0.42 -0.44 0.37 -0.21 -0.02 1.35 -0.51 1.54 1.98 0.71 -0.92 -1.16 -0.60 -0.04 -0.51 -0.53 3.67 2.63 -0.58 -0.84 -1.10 0.26 -0.21 -0.51 -0.32 -0.79 -0.54 -0.60 -0.43 -0.61 -0.04 1.57 1.59 -0.28
Bonitás -0.13 -0.25 -0.26 -0.28 -0.13 -0.27 -0.28 -0.23 0.11 4.67 -0.05 -0.27 -0.25 -0.22 -0.27 -0.03 -0.28 -0.27 -0.28 -0.13 -0.24 -0.28 -0.19 -0.23
EszkJöv 0.38 0.23 -1.51 -0.73 0.10 -0.07 0.35 0.41 2.54 -0.96 0.94 0.05 -0.19 -0.17 0.07 2.18 -1.96 -0.05 -0.07 -0.30 -0.40 0.48 -1.50 0.20
NarbJöv -0.08 0.13 -1.37 -0.86 0.80 -0.16 0.19 0.91 3.30 -1.22 1.35 -0.13 -0.24 -0.18 0.19 0.48 -1.74 .009320 0.33 -0.47 -0.48 -.005111 -0.82 0.07
A standardizált értékek között a pozitív érték átlag feletti céget, zéró érték átlagos céget, negatív érték pedig átlag alatti ügyfelet jelez. Mivel az indikátorok mértékegységei különbözők, és így varianciáik összegének nincs tárgyi értelme, ezért a főkomponenseket a korrelációs mátrix spektrális felbontása alapján határozzuk meg. A változók leíró statisztikáit, és korrelációs együtthatóikat a következő tábla tartalmazza. 14.2. tábla Pénzügyi mutatók leíró statisztikái Indikátor
Átlag
Szórás
Rel.szórás.
GyorsLR LikvidR Eladósod Bonitás EszkJöv ArbJöv
0.78242 1.6235 11.143 36.063 0.03254 0.03471
0.75840 1.3024 18.476 129.28 0.16072 0.13858
0.9693 0.8022 1.6580 3.5849 4.9390 3.9928
228
Korrelációs mátrix: Rxx GyorsLR LikvR Eladósod 1 0.8649 1 -0.1501 -0.2019 1 -0.1845 -0.2382 0.9131 0.3099 0.3575 0.1450 0.2576 0.2300 0.1014
Bonitás
EszkJöv
1 -0.1363 -0.1888
1 0.8749
A korrelációs mátrix alátámasztja az elemző elképzelését, miszerint az indikátorok három szempontot szeparáltan jellemeznek, hiszen a korrelációk között csak 3 jelentősen magas abszolút értékűt találunk, és éppen a szinoním indikátorok között. A korrelációs mátrix sajátértékei rendre: λ=2.606, 1.882, 1.223, 0.165, 0.084, 0.040. Így az első 3 főkomponens a 6 egységnyi összes variancia 95.2 százalékát reprodukálja. Az információvesztés tehát elhanyagolható. A derékszögű VARIMAX módszerrel elforgatott három faktor faktorsúlyait (loading-mátrix), a standardizált indikátorok súlyozására szolgáló faktorscore-koefficienseket, és a három faktor által meg nem magyarázott, reziduális korrelációkat az alábbi tábla közli. 14.3. tábla A becsült faktormodell jellemzői Indikátor GyorsLR LikvidR Eladósod Bonitás EszkJöv ÁrbJöv
VARIMAX faktorsúlyok FK1 FK2 FK3 0.144 -0.072 0.952 0.155 -0.130 0.945 0.151 0.972 -0.107 -0.157 0.973 -0.094 0.945 0.031 0.210 0.966 -0.034 0.097
Kommunalitás 0.932 0.935 0.981 0.981 0.938 0.944
Faktorscore koefficiens FK1 FK2 -0.08817 0.07049 -0.07913 0.03821 0.08268 0.51361 -0.09675 0.52301 0.50473 0.01860 0.53851 -0.03054
FK3 0.54948 0.53684 0.02269 0.08653 -0.03895 -0.11959
Reziduális korrelációk GyLR LikvR Elad 0.069 -0.066 0.065 0.000 0.002 0.020 -0.002 0.001 -0.020 -0.024 0.016 -0.005 0.024 -0.016 -0.001
Bonit
EJöv
ÁJöv
0.020 0.002 0.005
0.061 -0.058
0.057
A kommunalitások nagyon magasak, tehát a csekély információvesztés nem csak globálisan, hanem az indikátorok szintjén külön-külön is elmondható. A rotált faktorsúlyok ideális, egyszerű struktúrát mutatnak: a magas faktorsúlyok alapján kirajzolódott, hogy az első faktor a jövedelmezőséget, a második az eladósodottságot, a harmadik pedig a likviditást tükrözi. Az ügyfelek faktorscore (FKS) szerinti rendezése tehát az egyes szempontok szerinti rendezést is magukban foglalják. Mivel konstrukciójából adódóan a faktor is zéró átlagú, ezért pozitív értéke most is átlag felettiséget, negatív értéke pedig átlag alattiságot jelent. A faktorscore-koefficiensek segítségével előállított score-értékeket mindhárom faktorra és valamennyi ügyfélre az alábbi táblába foglaltuk, majd rangsorba szedtük. Eszerint a „9” nevű cég a jövedelmezőségi faktorban FKS1=3.2 értéket vesz fel, ami extrém, kiugróan átlag feletti jövedelmezőségre utal. A legkevésbé eladósodott ügyfél FKS2=-0.55 alapján a „17” nevű cég, míg likviditás tekintetében a „14” ügyfél FKS3=-0.04 értékkel átlagosnak mondható. A szabadságfokkal osztott Chi2/3 érték a három faktor terében a centroidtól (most az origótól) vett normált (szabadságfokkal osztott) Mahalanobis-távolságot méri, tehát a kiugró, extrém, ún. „outlier” egyedek azonosítását szolgálja. Ez alapján, és ez a rangsorokban is kitűnik, a 9.,10.,19. ügyfelek „kilógnak” a tipikus tendenciából. Ha az ügyfeleket a faktorok alapján tovább klaszterezzük, akkor őket tanácsos kihagyni a csoportképzésből, mert úgyis egyelemű klaszterben várhatók megjelenni. 14.4. tábla Ügyfelek a pénzügyi faktorok tükrében Cégnév 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
FKS1
FKS2
FKS3
Chi2/3
0.237 0.131 -1.421 -0.896 0.551 -0.115 0.324 0.784 3.195 -1.088 1.214 -0.041 -0.149 -0.166 0.014 1.128 -1.780 0.005 -0.414 -0.205 -0.403 0.326 -1.099 -0.131
0.059 -0.310 -0.435 -0.414 0.035 -0.410 -0.489 -0.325 0.604 4.451 0.309 -0.432 -0.395 -0.237 -0.355 0.558 -0.548 -0.437 -0.096 -0.026 -0.316 -0.523 -0.176 -0.092
-0.354 0.244 -0.417 0.394 -0.345 -0.157 -0.533 -0.689 -0.787 -0.415 0.114 -0.181 -0.552 -0.038 0.652 1.778 -0.880 -0.332 3.358 -0.990 -0.346 -0.777 -0.424 1.676
0.062 0.058 0.794 0.376 0.141 0.069 0.209 0.398 3.731 7.057 0.528 0.074 0.161 0.028 0.184 1.581 1.415 0.100 3.820 0.341 0.127 0.328 0.473 0.945
FK1 rangsor cégnév FKS1 9 3.20 11 1.21 16 1.13 8 0.78 5 0.55 22 0.33 7 0.32 1 0.24 2 0.13 15 0.01 18 .004 12 -0.04 6 -0.11 24 -0.13 13 -0.15 14 -0.17 20 -0.21 21 -0.40 19 -0.41 4 -0.90 10 -1.09 23 -1.10 3 -1.42 17 -1.78
FK2 rangsor cég FKS2 10 4.45 9 0.60 16 0.56 11 0.31 1 0.06 5 0.03 20 -0.03 24 -0.09 19 -0.10 23 -0.18 14 -0.24 2 -0.31 21 -0.32 8 -0.33 15 -0.36 13 -0.39 6 -0.41 4 -0.41 12 -0.43 3 -0.43 18 -0.44 7 -0.49 22 -0.52 17 -0.55
FK3 rangsor cégnév FKS3 19 3.36 16 1.78 24 1.68 15 0.65 4 0.39 2 0.24 11 0.11 14 -0.04 6 -0.16 12 -0.18 18 -0.33 5 -0.35 21 -0.35 1 -0.35 10 -0.42 3 -0.42 23 -0.42 7 -0.53 13 -0.55 8 -0.69 22 -0.78 9 -0.79 17 -0.88 20 -0.99
229
Megjegyezzük, hogy például az 1. ügyfél esetében a score az első faktorban az alábbiak szerint alakul: 0.237 0.08817 (0.37) (0.07913) (0.27) ... 0.53851 (0.08) ahol varimax . faktorscore mátrix R xx1A(3) Az outlier, kiugró esetek azonosításakor a centroidtól vett Mahalanobis távolság tesztelésére is lehetőség nyílik. A most „Chi2” megnevezésű Mahalanobis távolság ugyanis, feltéve, hogy a vizsgált változók többdimenziós normális eloszlást követnek, chi-négyzet eloszlású annyi szabadsági fokkal, amennyi a tér változóinak a száma. Példánkban a 3 faktor esetén a szabadsági fok 3, a 95%-os percentilis 7.815, tehát, ha a többváltozós normalitás tartható, akkor 5%-os szignifikancia szinten a 7.815/3 érték számít kritikusnak a Chi2/3 statisztika nagyságrendje szempontjából. A többváltozós normalitás semmiképpen nem tartható, ha már a főkomponensek sem követnek egyváltozós normilás eloszlást.51 A főkomponensek normalitásvizsgálatát illetően, a három faktor normál-probability-plot ábráját az alábbi ábrák illusztrálják (az ábrák értelmezését lásd az 1 fejezetben). Az ábrák nem mondanak ellent a normalitásnak. 14.3. ábra Normal-probability-plot: jövedelmezőségi faktor 14.4. ábra Normal-probability-plot: eladósodottsági faktor 14.5. ábra Normal-probability-plot: likviditási faktor
14.6 A FŐFAKTOROK MÓDSZERE Jelen eljárás is főkomponensek meghatározására vezeti vissza a faktorsúlyok becslését. A faktorok m számára vonatkozóan hipotézissel, a kommunalitásokra vonatkozóan pedig induló becsléssel élünk. Ha hipotézisünk téves, akkor a redukált korrelációs mátrix még abban az esetben is csak maradékkal reprodukálható, ha egyébként ismerjük az egzakt kommunalitásokat. A főfaktoranalízis célja olyan főfaktorok meghatározása, melyek közül az első maximált arányban magyarázza a mérési változók összes varianciáját, majd a második a maradék varianciát magyarázza maximált arányban, miközben korrelálatlan az első faktorral, és így tovább, egészen az fq faktorig. A varianciából megmagyarázott hányad maximálásakor egyidejűleg az is teljesül, hogy a reziduális korrelációs mátrix elemeinek a négyzetösszege minimális. A módszer megoldása a következő lépésekből áll. Induló becslést adunk az ismeretlen kommunalitásokra, és az így nyert értékekkel helyettesítve az Rxx mátrix átlóját, a redukált korrelációs mátrix egy induló becslését kapjuk. Ezt követően - q számú faktort föltételezve - a becsült redukált korrelációs mátrixból kiindulva iteratív főkomponensanalízist hajtunk végre. Az első iterációs lépés során meghatározzuk az első q főkomponenshez tartozó faktorsúlyok mátrixát. Ennek soronkénti négyzetösszegeit képezve a megfelelő indikátorok kommunalitásaira nyerünk újabb becsléseket. Most ezen becsléseket helyettesítve az eredeti korrelációs mátrix átlójára, kapjuk a redukált korrelációs mátrix újabb becslését. A második iterációs lépésben már ez utóbbi redukált korrelációs mátrix első q főkomponenséhez tartozó faktorsúlymátrixot határozzuk meg, majd a súlyok segítségével újra becsüljük a kommunalitásokat. Ezeket az értékeket Rxx diagonálisán szerepeltetve, a redukált korrelációs mátrix következő becslésével rendelkezünk. Általánosságban, adott iterációs lépésben a megelőző lépésből származó becsült redukált korrelációs mátrix első q főkomponensének súlyait keressük, majd ezek felhasználásával nyerjük a redukált korrelációs mátrix újabb becslését. Lévén valamennyi iterációs lépés egy-egy önálló főkomponensanalízis, ezért a sajátértékek, a sajátvektorok, és így a faktorsúlyok és a kommunalitások is iterációról iterációra változnak. Minden egyes iteráció után megvizsgáljuk, hogy indikátoronként külön-külön jelentősen változnak-e a kommunalitások: ha nem, akkor az m=q hipotézis melletti végső megoldáshoz jutottunk. Az m=q hipotézis természetesen korántsem biztos, hogy helytálló. Célszerű ezért a faktorokat szekvenciálisan, egyenként léptetni be hipotézisünkbe, s mindig megvizsgálni a reziduális korrelációs mátrix elemeit. Ha a q-adik
Többváltozós normális eloszlás bármely metszete (a változók bármely lineáris kombinációja) így a főkomponensek is, egyváltozós normális eloszlást követnek. 51
230
lépésben ennek elemei már elhanyagolhatók, akkor nincs értelme a (q+1). faktort is meghatározni, s önkényesen elfogadjuk az m=q számú közös faktor létezésének a hipotézisét. Ha mégis ki akarjuk szűrni a (q+1). faktort, akkor valamely indikátor kommunalitása nagyobb lehet mint 1, ami értelmetlen. Ez annak tudható be, hogy a becsült redukált korrelációs mátrix nem pozitív szemidefinit, és így negatív sajátértékei is lehetnek. Mivel azonban a becsült redukált korrelációs mátrix sajátértékeinek az összege nem más, mint a kommunalitások összege (ez pedig az első m sajátérték összege is egyben), ezért a pozitív sajátértékek összege meghaladja a totális kommunalitás értékét. Ilyenkor maximum annyi faktort érdemes meghatározni, amelyek pozitív sajátértékeinek az összege fölülről közelíti a totális kommunalitást. Az xj változó kommunalitására induló becslésnek tekinthetjük azt a hányadot, amelyet e változó varianciájából az összes többi indikátor – mint regressziós magyarázó változók- megmagyaráznak. Ez az arány a kérdéses indikátornak az összes többivel vett R2j.1,..., j 1, j 1,..., p többszörös determinációs együtthatója. 14.2. PÉLDA Az alábbiakban új alkalmazottak felvételét eldöntő 6 alkalmassági teszten a jelöltek által elért pontszámok közötti korrelációk struktúráját modellezzük látens faktorokkal úgy. A változók a jelöltek kvantitatív, illetve verbális képességeit jellemzik. Az egyes tesztek azonosítója rendre: M,F,K (kvantitatív képességek), illetve A,T,N (verbális képességek). A korrelációs mátrix 200 jelölt eredményei alapján az alábbi: Változó M F K A T N
M F R xx K
1 .620 1 .
.540
.510 1
A
.320
.380
.360 1
T
.284
.351
.336
.686 1
N .370 .430 .405 .730 .735 1 Az egyes indikátorokból a többi indikátor által magyarázott hányadok (többszörös determinációs együtthatók rendre): M: 0.4556, F: 0.45817, K: 0.37194, A: 0.58649, T: 0.58891, N: 0.65718. A fenti determinációs együtthatókat használva induló kommunalitásként, az induló sajátértékek: 2.90577, 0.6994, -0.0938257, -0.0988403, -0.119656, -0.174606. Az iteratív főkomponensanalízis révén nyert kommunalitások rendre M-teszt: 0.6765; F-teszt: 0.5818; K-teszt: 0.4506; A-teszt: 0.6796; T-teszt: 0.6955; N-teszt: 0.7854. A ''PFA'' eljárás eredményeképpen kialakult faktorvarianciák értékei (VE): 3.0284, 0.8409, 0.0014, 0.0001, -0.0001, -0.0017. Végül a rotálatlan és rotált faktorsúlyokat a 14.5. tábla tartalmazza. 14.5. tábla Intelligencia felmérés PFA faktorjellemzői Indikátor Rotálatlan Varimax* Direkt quartimin** faktorsúlyok faktorsúlyok faktorstruktúra Rxf f1 f2 f1 f2 f1 f2 f1 f2 M .636 .522 .152 .808 -.098 .872 .375 .818 F .658 .386 .257 .718 .051 .734 .450 .762 K .598 .305 .263 .618 .092 .617 .427 .667 A .762 -.314 .786 .248 .814 .018 .824 .460 T .749 -.367 .810 .199 .858 -.046 .833 .420 N .832 -.304 .834 .301 .851 .062 .885 .524 VE 3.028 0.841 2.127 1.742 2.144 1.685 * Derékszögű rotálás eredménye, ** Ferdeszögű rotálás eredménye
Látható, hogy a rotálatlan esetben - a faktorvarianciák maximálása következtében - tendencia, hogy az első faktor korrelál a legszorosabban valamennyi indikátor változóval. Látható, hogy a becsült redukált korrelációs mátrix nem pozitiv definit, mivel az utolsó két sajátérték (variancia) negatív, ami értelmetlen, ezért az információtömörítést a pozitív sajátértékek összegének a viszonylatában jellemezzük. Eszerint az első két faktor az összvariancia 3.0284 0.8409 100 99.961% 3.0284 0.8409 0.0014 0.0001
231
százalékát magyarázza meg. Külön az M-teszt eredményét tekintve, annak varianciáját az első két faktor 0.6362+0.5222=0.67698 hányadban reprodukálja, hiszen ez egyben az M-pontszám első két faktorra vonatkozó kommunalitása. Természetesen a sajátértékek összege megegyezik a kommunalitások összegével - hiszen ez a redukált korrelációs mátrix nyoma - ez viszont egyenlő az első két faktorvariancia (első két sajátérték) összegével: 0.6765+0.5818+0.4506+0.6796+0.6955+0.7854 =3.0284+0.8409+0.0014+0.0001-0.0001-0.0017 =3.0284+0.8409=3.8693. A reziduális korreláció az indikátor változók valamennyi párosításában (három tizedesjegyre kerekítve) zérus. A ferdeszögű rotálás eredményeképpen a két faktor közötti korreláció 0.543. A faktorsúlyokat tekintve látható, hogy (a jelentős faktorközi korrelációnak köszönhetően) a ferdeszögű forgatás a markáns faktorsúlyokat tovább növelte, a csekélyeket pedig tovább csökkentette. A rotált faktorstruktúra a rotált faktorsúlyokból és a faktorközi korrelációból: 0.543 1 R xf ΛΦ Λ 1 0.543 ahol a 14.5. tábla számait használva például 0.375 = -0.0981 + 0.8720.543. Ebből a rotált, standardizált faktorértékek előállításához szükséges, a standardizált indikátor változók súlyozására szolgáló faktor score koefficiensek mátrixa: .00261 .46712 .03495 .30831 .03195 .19839 1 dquart R xx R xf ( PFA) . .27443 .04179 .30297 .00964 .43272 .10074 A skálaértékelés jellemzői az alábbiak. A valamennyi változóra egyidejűleg vonatkozó Cronbach-alfa-értéke: 0.842, az egyes indikátorok elhagyása mellett számítottak pedig rendre: 14.6. tabla Determinációs együtthatók és Cronbach-alfák Változó R2 C-alfa M 0.45556 0.8290 F 0.45817 0.8199 K 0.37194 0.8280 A 0.58649 0.8087 T 0.58891 0.8139 N 0.65718 0.7962 Mivel valamennyi parciális C-alfa érték csökkent a globálishoz képest, ezért valamennyi tesztre szükség van a felmérés eredményeinek összegzésekor. A három verbális képesség alapján számÍtott C-alfa 0.8837, míg a három kvantitatív alapján számított C-alfa 0.7902. Ugyanakkor mindkét faktornak a másodrendű faktorra vonatkozó súlya egyaránt 0.878, vagyis a kommunalitás rendre 0.8782=0.77088, tehát a másodrendű faktor varianciája 20.77088 = 1.5418. Ez a magas érték a két faktor jelentős átfedésére, az általános intelligencia faktorának a létezésére utal.
14.7 MAXIMUM LIKELIHOOD FAKTORANALÍZIS A faktormodell maximum likelihood megoldása feltételezi, hogy mind a faktorok, mind az indikátorok együttes eloszlása többdimenziós normális, zérus átlagvektorral. Jelölje továbbá Σ a normális eloszlású indikátorok kovariancia mátrixát, S pedig az n elemű, független mintából számított korrigált kovariancia mátrixot: 1 S XT X . n 1 Ekkor a maximum likelihood elvnek megfelelően a (14.10) likelihood függvény logaritmusát maximáljuk a Σ paraméter tekintetében: n ln L ln det Σ tr (SΣ1 ) const. max (14.9) 2
232
ahol a faktoranalízis alapegyenlete szerint Σ = T + 2 és a faktorok korrelálatlansága miatt (egységnyi egyediségek mellett) az Λ T Ψ 2 Λ Δ m, m
(14.10) (14.11)
mátrix diagonális. Későbbi hipotézisvizsgálati megfontolás alapján maximálás helyett az (14.12) Fm (Λ, Ψ 2 ) ln det Σ tr(SΣ1 ) ln det S p min célfüggvényt minimáljuk, mely a likelihood negatív, affin transzformációja. Felismerve, hogy a loglikelihood negatívján a mintában elérhető minimum a (14.12) szerinti érték, (14.12) az e minimumtól való eltérést számszerűsíti és minimálja. A minimumot két fokozat beiktatásával keressük. Az első fokozatban rögzített 2 egyediségek mellett keressük a feltételes minimumot a faktorsúlyok tekintetében. A második fokozatban keressük azon egyediségeket, melyek feltétel nélkül minimálják a célfüggvényt. Az F függvény faktorsúlyok ( paraméter) és egyediségek (2 paraméter) szerinti parciális deriváltjai, és segítségükkel a ML normálegyenletek az alábbiak:52 F 2Σ1 ( Σ S)Σ1Λ 0 (14.13) Λ F diag Σ1 ( Σ S) Σ1 0 Ψ 2 ahol diag(Z) a Z mátrix diagonális elemeiből képzett diagonális mátrixot jelöli. Az első normál egyenlet az S* Ψ1SΨ1 mátrix spektrális felbontására vezet (lásd a fejezet függelékét) az alábbiak szerint:
Ψ
SΨ1
1
Ψ ΛΔ 1
( p, p )
1
Ψ1ΛΔ
2
( p ,m )
1
2
( p ,m )
I Δ ( m , m ) .
(14.14)
1
Mivel Δ diagonális, ezért Ψ 1 ΛΔ 2 oszlopai az S* mátrix első m normált sajátvektora, I Δ diagonális elemei pedig a megfelelő, méghozzá az első m legnagyobb sajátértékek. Rögzített Ψ 02 egyediségek mellett a sajátvektorok és sajátértékek számíthatók, és így a Λ 0 faktorsúlyok meghatározhatók. A Λ 0 faktorsúly mátrix birtokában a célfüggvény feltételesen minimált értéke 1 f m (Ψ 2 ) ln det Λ 0 ΛT0 Ψ 2 tr S Λ 0 ΛT0 Ψ 2 ln det S p mely a sajátértékek függvényében kifejezve
p
f m (Ψ 2 )
k ln k 1 .
(14.15)
k m 1
Második fokozatban az f függvény minimumát keressük a 2 paraméter szerint. A maximum likelihood faktoranalízist iterációs eljárással oldjuk meg, melynek során rögzítünk egy kiindulási egyediség-mátrixot, amiből faktorsúly mátrixot származtatunk, ebből újabb egyediség-mátrixhoz jutva újabb faktorsúly mátrixot számítunk. Az eljárást addig folytatjuk, míg az f célfüggvény csökkenése már nem nagyobb egy előre rögzített kicsiny pozitív értéknél. A maximum likelihood faktoranalízis skálainvariáns, vagyis mindegy, hogy számításainkban S helyén az R korrelációs mátrixot szerepeltetjük. Az egyediségekre (a 2 paraméterre) adott induló megoldás lehet például az I egységmátrix, de lehet az S mátrix diagonális elemeiből képzett diagonális mátrix is, vagy valami egyéb megfontolás. Ez csak az iterációk számát befolyásolja. A maximum likelihood becslés hátránya, hogy kismintás esetben egynél több helyi maximuma is van a paramétertérben. A ML faktoranalízis előnye, hogy a likelihood arány kritérium felhasználása lehetővé teszi azon Hm hipotézis tesztelését, miszerint éppen m számú faktor magyarázza az indikátorok alakulását. Jelölje L1 a likelihood feltétel nélküli maximumát (tehát a kovariancia mátrix maximum likelihood becslése mellett), L0 pedig a hipotézis által megszorított részhalmazon. Mivel 52
A deriváltakat, és a későbbi átalakítások részleteit lásd Lawley-Maxwell (1971).
233
ˆ tr(SΣ ˆ 1 ) ln L0 12 n ln det Σ
és
1 ln L1 nln det S p 2 ezért a maximum likelihood arány teszt ˆ tr(SΣ ˆ 1 ) ln det S p . 2 ln 2ln L0 ln L1 n ln det Σ Ez viszont nem más, mint az Fk célfüggvény minimumhelyen vett értékének az n-szerese: ˆ . 2 ln nf Ψ
(14.16)
(14.17) m Ez magyarázza a minimálandó célfüggvény megválasztását. A hipotézis helyessége, és nagy mintaelemszám esetén a likelihood arány próbafüggvény közelítőleg χ2 eloszlású p( p 1) m(m 1) 1 2 pm p ( p m) p m 2 2 2 szabadságfokkal: mivel a faktorok korrelálatlansága miatt m(m-1)/2 megszorítást teszünk, ezért a „szabad” paraméterek száma pm p m(m 1) / 2 , a rendelkezésre álló egyenletek száma pedig a mintabeli kovariancia mátrix alapján p(p+1)/2. Box (1949) a χ2 közelítés javítása érdekében az nfm statisztikában n helyén az n (2 p 5) / 6 2m / 3 szorzót javasolta, melyet Bartlett (1951) úgy finomított, hogy a Box-szorzóban n helyett (nm), p helyett pedig (p-m) szerepeljen. Adott szignifikancia szinten a kritikusnál alacsonyabb χ 2 érték Hm elfogadását, magasabb viszont az elutasítását indokolja. Természetesen alapvető célunk nem egy partikuláris hipotézis vizsgálata, hanem a faktorok valódi, m számának a meghatározása. Célszerű ezért a hipotézisek egy sorozatát tesztelni. Vizsgáljuk sorba a H1, H2, H3,... hipotézisek sorozatát mindaddig, míg valamely m érték mellett már a χ2 érték szignifikáns, vagy már nem tudunk több faktort kiszűrni. Mindazonáltal a faktorok számának a meghatározásakor a faktorok értelmezése is központi kérdés. Statisztikailag ugyanis olyan faktorok is szignifikánsnak bizonyulhatnak, melyek nem járulnak hozzá jelentősen az indikátorok magyarázatához, és nem bírnak szakmai tartalommal.
14.3 Példa Az új alkalmazottak képességeinek a felmérésével foglalkozó példát folytatva az induló sajátértékek: 3.36709, 1.19418, 0.507006, 0.371847, 0.313156, 0.246726. Az iterativ módon minimált kritérium (hat tizedesjegyre kerekítve) zérus, a kommunalitások pedig rendre: M: 0.68; F: 0.58; K: 0.45; A: 0.6796; T: 0.6954; N: 0.7855. A ''MLFA'' eredményeképpen kialakult végső, első két sajátérték 2.9993,és 0.8711. Végül a rotálatlan és rotált faktorsúlyok mátrixa: 14.7. tábla MLFA faktorjellemzők Indikátor Rotálatlan varimax faktorsúly f1 f2 f1 f2 M .572 .594 .151 .811 F .609 .458 .257 .717 K .559 .371 .263 .617 A .793 .-.224 .786 .248 T .786 -.278 .810 .199 N .862 -.206 .834 .301 Variancia 2.999 .871 2.128 1.743
Rotált direkt quartimin faktorstruktúra f1 f2 f1 f2 -.100 .874 .375 .820 .053 .732 .450 .760 .093 .616 .427 .666 .814 .018 .824 .460 .858 -.046 .833 .420 .851 .062 .885 .524 2.145 1.686 -
A reziduális korreláció az indikátor változók valamennyi párosításában (három tizedesjegyre kerekítve) zérus. A korrelált faktorok közötti korreláció 0.543. Ha a derékszögű módon elforgatott standardizált faktorokat akarjuk meghatározni, akkor ehhez a faktor-score koefficiensek mátrixa ez esetben:
234
.53856 .15824 .06204 .33586 .02941 .21359 R xx1 R varimax . xf ( ML ) .29949 .04477 .34246 .09126 .46081 .02944
14.8 IMAGE-FAKTORANALÍZIS: „SECOND GENERATION LITTLE JIFFY” Az alábbiakban ismertetésre kerülő faktoranalítikus módszer alapja az „image” analízis, vagy komplementer megközelítésben az „anti-image” analízis. Az anti-image korreláció fogalma rokon a parciális korreláció fogalmával, és az anti-image korrelációs mátrix faktorizációja az anti-image faktoranalízis alkalmazását jelenti. Párhuzamosan image-faktoranalízis is definiálható. A fogalmak, és a faktorizálandó korrelációs mátrix összeállításának a menete az alábbi.
14.8.1 IMAGE- ÉS ANTI-IMAGE KORRELÁCIÓ Tekintsük az indikátor változók x1,x2,...,xp körét, továbbá az xj változónak az összes többi (p-1) változóval való regresszióját: x j b j 0 b jt X t e j xˆ j e j
t j
ahol j=1,2,...,p és a b regressziós paraméterekkel nyerjük az xˆ j image változót, mely az xj változóból az ej reziduális anti-image részt hagyja magyarázatlanul. Értelemszerűen Cov( xˆ j , xˆk ) az image-közi kovarianciát, Cov(ej,ek) pedig a megfelelő anti-image kovarianciát jelenti. A fenti kovarianciák tulajdonságainak a megvilágítását segíti, ha a modellt három, nevezetesen (X,Y,Z) indikátorra szűkítjük: (14.18) Y bY 0 bX X bYZ Z eY Yˆ eY (14.19) X b b Y b Z e Xˆ e . X0
Y
XZ
X
X
A regressziós modell standard feltétele, hogy a maradék változó korrelálatlan mindazon magyarázó változóval, amelyek maradékaként adódik. Következésképpen e magyarázó változóval akkor is korrelálatlan, ha az történetesen egy másik modellben is szerepel, mint magyarázó változó. A (14.18) és (14.19) modellekben ilyen közös magyarázó változó a Z változó. Így az alábbi megszorítások adottak: (14.20) Cov( X , eY ) Cov(Z , eY ) Cov(Y , eX ) Cov(Z , eX ) 0 . E zéró kovarianciák figyelembe vételével a Cov(X,Y) kovariancia „image”-dekompozíciója az alábbi: C X ,Y C X ,(Yˆ e ) C X ,Yˆ C( Xˆ e ),Yˆ C Xˆ ,Yˆ Ce ,Yˆ C Xˆ ,Yˆ CeX ,(Y eY ), Y
X
X
CXˆ ,Yˆ CeX ,eY
(14.21)
ahonnan
Ce X , eY Ce
X
,Yˆ
Ce X , (bY 0 bX X bYZ Z ) bX Ce X , X bX e2X
majd
C e X , eY e X eY
re X , eY bX
e X eY
következik. Valamennyi változót standardizálva, az anti-image korreláció negatívja az X és Y indikátorok viszonylatában: reX ,eY bX
X 1 RX2 .Y ,Z Y 1 RY2. X ,Z
bX*
1 RX2 .Y ,Z 1 RY2. X ,Z
ahol bX* a standardizált X változó (standardizált) parciális regressziós koefficiense a (14.18) modellben, R2X.Y,Z pedig az X változónak az összes többire vonatkozó többszörös determinációs együtthatója. Figyelembe véve a parciális
235
korreláció (14.34) szerinti, és a standardizált regressziós paraméter (14.39) formuláit, az anti-image korreláció további felírása:
re X , eY rX ,Y .Z
1 rY2, Z
1 RX2 .Y , Z
1 rX2 , Z
1 RY2. X , Z
rX ,Y .Z .
(14.22)
Mint látjuk, az anti-image korreláció a parciális korreláció negatívja. Emlékeztetőül, a parciális korreláció definiálásakor az xj és xk változókból (egyaránt) az összes maradék (p-2) változó lineáris hatását szűrjük ki. A háromváltozós modellben például, az rX,Y.Z parciális korreláció definiálásakor mind az X, mind az Y változót csak a Z változó lineáris hatásától tisztítjuk. A parciális kovarianciával való összehasonlításban vegyük észre továbbá, hogy míg a megfigyelt CX,Y kovariancia a (14.32) modellben a regressziók kovarianciájának és a parciális kovarianciának az összege, addig a (14.21) modellben az image és az anti-image kovarianciák különbsége. Az X és Y változókat minden jt párosításban szerepeltetve, nyerjük a CIM image kovariancia mátrix, és a CAI antiimage kovariancia mátrix átlón kívüli elemeit. Az átlón lévő önkovarianciák esetében azonban a (14.21) azonosság a C X , X C Xˆ , Xˆ Ce X , e X 2X 2Xˆ e2X eredményre vezet, ami viszont valójában (a klasszikus regressziós dekompozíció szerint): 2X 2Xˆ e2X . Ezért az önkovariancia korrekt értéke az image-felbontás jelöléseivel: C X , X C Xˆ , Xˆ Ce X , e X 2e2X . Innen az image kovariancia általában (az image kovariancia mátrix általános, (j,k) indexpárú eleme): CIM jk Cov( xˆ j , xˆk ) Cov( x j , xk ) Cov(e j , ek ) 22jk ahol j=1,2,...,p, k=1,2,...,p és
2jk
e2 j
(14.23)
, ha j=k, és zéró egyébként.
A fentiek birtokában állítsuk össze az anti-image kovarianciák mátrixát. Ehhez idézzük fel az indikátorok Rxx korrelációs mátrixa inverzének tartalmát. Jelölje Pjk az R-1 mátrix általános elemét: Pjk=[R-1]jk. Ekkor, (14.46) felhasználásával a parciális korreláció negatívja: Pjk (14.24) r jk .t j , k Pjj Pkk és a többszörös determinációs együttható (SMC: squared multiple corrilation) komplementere: 1 1 R 2j.t j . Pjj
(14.25)
E két utóbbi, és a (14.22) azonosságot összevetve, továbbá tekintettel a reziduális szórás és a többszörös determinációs együttható komplementere közötti (14.31) kapcsolatra, az anti-image kovariancia formulája végül: Pjk Ce j , ek re j , ek e j ek r j , k .t j , k e j ek r j , k .t j , k 1 R 2j.t j 1 Rk2.t k . Pjj Pkk Legyen most diag (R xx1 ) U 2 ahol a diagonális U2 mátrix diagonális elemei az R xx1 főátlóján lévő értékek reciprokai:
u 2jj 1/ Pjj . Ebből következően az anti-image kovariancia mátrix C AI U 2 R 1U 2 amiből tekintettel a (14.23) azonosságra az image kovariancia mátrix standardizált indikátorok esetén (ekkor ugyanis 1 R 2j.t j e2 j ): CIM R U 2 R 1U 2 2U 2 .
(14.26)
14.8.2 HARRIS-FAKTOROK Az image-analízis az image mátrix, az anti-image analízis pedig az anti-image kovariancia mátrix faktorizációját jelenti. Ennek érdekében képezzük – a kanonikus faktorok (14.1) elvének megfelelően - az U1RU1 mátrix spektrális felbontását: U 1RU 1 VDVT (14.27)
236
ahol a diagonális D= mátrix diagonális elemei a Harris-féle sajátértékek, V oszlopai pedig a megfelelő sajátvektorok. A fenti azonosságból a korrelációs mátrix kifejezhető:
R UV D UV . Az image és anti-image kovariancia mátrix faktorizációja visszavezethető a Harris-sajátértékekre, és a V sajátvektorokra, hiszen a (14.26) definícióból T
CIM UV D UV U 2 UVDVT U U 2 2U 2 1
T
UV D UV UV D1 UV 2UVI UV T
T
T
UV D D1 2I UV UV D* UV T
T
(14.28)
ahol D általános diagonális eleme: *
1 d 2 1 2d d 1 2 . d d d 2
d* d
Ezt kihasználva
d1 12 d1 2 d 2 1 d2 C IM UV Hasonlóan az anti-image kovariancia mátrix faktorizációja
UV T . 2 d p 1 d p
C AI U2 R 1U2 U2 U1VD1VT U 1U 2 UVD1 UV
T
tehát
1 d 1 1 T d C AI UV 2 UV . 1 d p Lényegi meglátás ezen a ponton, hogy mind az eredeti korrelációs mátrix, mind az image-, mind az anti-image kovariancia mátrixok faktorizációja kizárólag a D* diagonális mátrix diagonális elemeiben tér el egymástól. Másképpen fogalmazva, az image analízisben a faktor-score modellfüggetlen, a faktorsúly viszont függ a faktorizálandó mátrixtól. A faktorsúlyok mátrixa (modelltől függően): L* UV D*
1
2
(14.29)
A djj sajátértékekhez kötődő faktorokat Harris-faktoroknak nevezzük. E faktorokkal az X standardizált indikátorok egyértelműen reprodukálhatók, hiszen a Harris-faktorok az XU-1 módon átskálázott indikátorok SVD felbontásából származó főkomponensek: 1
(14.30) XU1 FD 2 VT ahol F(n,p) oszlopai a standardizált Harris-faktorokat tartalmazzák: (1/n) FTF=Ip. A fenti azonosságot balról szorozva a saját transzponáltjával ugyanis:
U 1 XT X U 1 VD
1
2
F F D T
1
2
VT
amely azonosság láthatóan megegyezik a (14.27) egyenlettel. A Harris-féle faktor-score végül (14.30) átrendezésével az alábbi formula alapján történik:
237
1
(14.31) F XU1VD 2 . Továbblépve, az e1,e2,...,ep anti-image vektorokat az E mátrix oszlopaiba foglalva, a Harris-faktorok F score-mátrixa segítségével az anti-image értékek is reprodukálhatók (a bizonyítást lásd Harris,C.(1962)): (14.32) E FD 2 UV A (14.30) és (14.32) azonosságokból viszont egyenesen következik, hogy az image-score értékek is a Harris-faktorok függvényei: 1
XEF D
1
2
D
T
1
2
UV . T
A faktorok számára vonatkozó Guttman-féle „legjobb alsó határ” kritérium szerint ez az alsó határ nem más, mint az egységnyinél nem kisebb (di1) Harris-sajátértékek száma. Az első m számú Harris faktort megtartva, és meghatározva a kommunalitásokat, lehetőség nyílik az SMC értékeknek a becsült kommunalitásokkal való helyettesítésére, és a faktorizáció iteratív újraszámolására mindaddig, míg a becsült kommunalitások stabilizálódnak. További probléma a faktorok rotálása. Olyan rotációs eljárásra van ugyanis szükség, amelyet bármelyik faktorizációval nyert faktor-loading mátrixra is alkalmazunk, azonos faktor-score mátrixot eredményez. Ilyen eljárás az „orthoblique” módszer, mely ortogonális forgatások sorozatán át végül ferdeszögű, oblique faktormegoldást eredményez. 14.4. Példa Visszatérve a képességek, és ismeretek felmérésének a példájához, emlékeztetőül a korrelációs mátrix és a belőle számított, az image-analízis eszköztárához tartozó további mátrixok rendre az alábbiak: R mátrix M 1.000 F 0.620 K 0.540 A 0.320 T 0.284 N 0.370
1.000 0.510 0.380 0.351 0.430
1.000 0.360 0.336 0.405
1.000 0.686 0.730
A korrelációs mátrix inverze (R-1=P): M 1.836761 F -0.821597 1.845580 K -0.528025 -0.347189 1.592194 A -0.028877 -0.108071 -0.093992 T 0.067716 -0.054691 -0.061936 N -0.141155 -0.229907 -0.186041
1.000 0.735
2.418327 -0.769271 -1.104743
1.000
2.432574 -1.202828
2.916975
Az egyes indikátorok minden többi indikátorral vett SMC értékei, és a Cronbach-alfák (az adott indikátor kihagyásával) rendre: Kommunalitások Indikátor SMC M 0.45556 F 0.45817 K 0.37194 A 0.58649 T 0.58891 F 0.65718 A kommunalitások között - a korrelációs mátrix inverzének a felhasználásával - például 0.45556=1 - 1/1.836761. A parciális korrelációk (negatív anti-image korrelációk) mátrixa (-RAI): M 1.000 F 0.446 1.000
238
K A T F
0.309 0.014 -0.032 0.061
0.203 0.051 0.026 0.099
1.000 0.048 0.031 0.086
1.000 0.317 0.416
1.000 0.452
1.000
Itt a korrelációs mátrix inverzének a felhasználásával például 0.446=-(-0.821597) / (1.8367611.845580)1/2. A fentiek felhasználásával nyerjük a Harris-féle d sajátértékeket, és a d* image-sajátértékeket: Harris
Image sajátérték
7.686 2.398 0.843 0.760 0.683 0.673
5.816 0.815 0.029 0.076 0.148 0.159
A kétféle sajátérték kapcsolatát például az 5.816=(7.686-1)2 / 7.686 összefüggés illusztrálja. A két faktor megtartásából származó kommunalitások változónként rendre viszonylag alacsonyak: M 0.4097 F 0.4227 K 0.3538 A 0.5610 T 0.5589 N 0.6235 A reziduális korrelációk mátrixa: M 0.590 F 0.206 K 0.163 A 0.008 T -0.009 N 0.024
0.577 0.123 0.024 0.012 0.040
0.646 0.025 0.016 0.038
0.439 0.127 0.139
0.441 0.147
0.377
Az orthoblique módszerrel rotált faktorsúlyok: ----------------------Változó FACTOR1 FACTOR2 ----------------------M -0.062 0.682 F 0.039 0.622 K 0.063 0.549 A 0.753 -0.006 T 0.786 -0.057 N 0.759 0.043 -----------------------VE 1.770 1.158 mely a két faktor között 0.705 faktorközi korrelációt eredményezett. Megállapíthatjuk, hogy igen markánsan kirajzolódik a kvantitatív (M,F,K) és a verbális (A,T,N) képességek egyszerű struktúrája. Mindez alacsony reziduális korrelációk, viszont relatíve magas egyediségek (lásd a reziduális korrelációs mátrix diagonális elemeit) mellett történik. 14.5. Példa
239
Standardizáljuk és skálázzuk az indikátor változókat úgy, hogy az így transzformált megfigyeléseket a Z(n,p) mátrixba foglalva ZTZ=R teljesüljön. Az image értékeket az M, az anti-image értékeket az A mátrixba foglalva ekkor: M Z I R 1U 2
A ZR 1U 2 ahol diag R 1 U2 . A diagonális U2 mátrix diagonális elemei tehát R-1 főátlóján lévő értékek reciprokai. Ebből következően az image, és anti-image kovariancia mátrixok (összhangban a fentiekkel):
CM MT M I R 1U 2
T
Z Z I R T
U 2 R U 2 R 1U 2 2U 2
1
és C A AT A U 2 R 1U 2 .
14.9 ALFA-FAKTORANALÍZIS Tekintsük a kommunalitásokat a közös faktorok függvényében: h 2 Λf 2 ahol h a kommunalitásokat, f pedig a közös faktorokat tartalmazó vektor. Ekkor
f ΛT Λ ΛT h 2 Wh 2 . 1
Az alfa-faktoranalízis (Kaiser-Caffrey(1965)) azokat a faktorokat határozza meg, melyek maximálják a Cronbachalfa értékét a w súlyok tekintetében: p wT H 2 w 1 C max p 1 wT R Ψ 2 w w ahol H 2 I Ψ 2 h12 , h22 ,..., hp2 a kommunalitásokból képzett diagonális mátrix. Ez a maximálás ekvivalens a
wT R Ψ 2 w max w wT H 2w maximálási feladattal, melyhez a w szerinti derivált: 2
2 R Ψ 2 w 2H 2w 2w wT H 2w
melyet zéróval egyenlővé téve, és átrendezve
R Ψ H w 0 2
amely a
H R Ψ H
2
2
2I Hw R cc 2I v 0 ahol Rcc a kommunalitások korrelációs mátrixa. A faktorsúlyok mátrixa (14.25) és (14.3) analógiájára most: Λ HVD 1
2
1
ahol D 1 , 2 ,..., m .
14.10 GYAKORLÓ FELADATOK 14.1. Az alábbiakban személygépkocsi típusok gyári (katalógusban közölt) jellemzőit hasonlítjuk össze, főkomponensek felhasználásával. E mérési változók rendre a következők (a változó definiálása mellett a mértékegysége, és az 'azonosítója' szerepel): hengerűrtartalom (cm3): 'HengerUr' lóerő: 'LE' végsebesség (km/h): 'VegSebes' gyorsulás 100k/h-ra (mp): 'Gyors100' fogyasztás (liter/100km) 90km/h sebesség mellett: 'Fogy90' fogyasztás (liter/100km) 120km/h sebesség mellett: 'Fogy120'
240
fogyasztás (liter/100km) városban: 'VarosiF' tömeg (kg): Tomeg A mérési változók átlagos értékeit, (korrigált) szórásait és lineáris korrelációit a .8 és .9 táblák tartalmazzák. 14.8. tábla Gépkocsi típusok leíró statisztikái Változó Átlag Szórás HengerUr 1791.8 639.16 LE 110.75 52.462 VegSebes 187.32 26.660 Gyors100 11.533 2.9366 Fogy90 6.0548 1.1037 Fogy120 7.6918 1.1205 VarosiF 9.9959 2.4815 Tomeg 1089.5 232.69 14.9. tábla Gépkocsi jellemzők (Rxx) korrelációs mátrixa Változó HengerUr LE VegSebes Gyors100 HengerUr 1 LE 0.9249 1 VegSebes 0.8544 0.9405 1 Gyors100 -0.6316 -0.8017 -0.8617 1 Fogy90 0.7626 0.7653 0.6992 -0.5838 Fogy120 0.8570 0.8583 0.7946 -0.6999 VarosiF 0.9227 0.8942 0.8486 -0.6716 Tomeg 0.8461 0.8194 0.8313 -0.5897
Fogy90
Fogy120
VarosiF
Tomeg
1 0.8726 0.8315 0.7498
1 0.9360 0.8413
1 0.8887
1
Mivel a mérési változók különböző mértékegységűek, ezért esetünkben csakis a standardizált mérési változók SVD felbontásának van értelme, a korrelációs mátrix spektrális dekompozíciója alapján. Három főkomponens megtartása mellett a kommunalitások változónként rendre: HengerUr LE VegSebes Gyors100 Fogy90 Fogy120 VarosiF Tomeg
: : : : : : : :
0.9321 0.9486 0.9666 0.9848 0.9621 0.9394 0.9519 0.8989
a sajátértékek, és kumulált megoszlásuk pedig: Sajátérték 6.6673 0.5914 0.3258 0.1785 0.1263 0.0466 0.0384 0.0257
Relatív, kumulált sajátérték 0.8334 0.9073 0.9481 0.9704 0.9862 0.9920 0.9968 1.0000
14.10. tábla Rotálatlan loading-mátrix Változó FK1 FK2 FK3 HengerUr 0.936 0.116 -0.208 LE 0.961 -0.132 -0.087 VegSebes 0.936 -0.275 -0.126
241
Gyors100 Fogy90 Fogy120 VarosiF Tomeg VE
-0.795 0.858 0.941 0.961 0.903 6.667
0.562 0.286 0.160 0.162 0.190 0.591
-0.193 0.379 0.167 -0.043 -0.220 0.326
14.11. tábla Rotált, varimax loading-mátrix Változó FK1 FK2 FK3 HengerUr 0.798 -0.353 0.414 LE 0.666 -0.595 0.389 VegSebes 0.638 -0.693 0.279 Gyors100 -0.248 0.919 -0.282 Fogy90 0.378 -0.281 0.860 Fogy120 0.549 -0.390 0.697 VarosiF 0.711 -0.359 0.564 Tomeg 0.803 -0.272 0.425 VE 3.143 2.236 2.205 14.12. tábla Rotált, direkt quartimin loading-mátrix Változó FK1 FK2 FK3 HengerUr 0.946 0.036 0.014 LE 0.691 0.060 -0.330 VegSebes 0.693 -0.090 -0.471 Gyors100 -0.006 -0.144 0.913 Fogy90 0.006 0.954 -0.046 Fogy120 0.359 0.597 -0.111 VarosiF 0.710 0.306 -0.016 Tomeg 0.967 0.056 0.111 VE 3.422 1.397 1.192 A változónkénti Cronbach-alfák értéke rendre: HengerUr LE VegSebes Gyors100 Fogy90 Fogy120 VarosiF Tomeg
: : : : : : : :
0.8225 0.8263 0.8345 0.9744 0.8347 0.8246 0.8191 0.8267
míg a valamennyi változóra vonatkozó együttes C-alfa = 0.8723. A ferdeszögű főkomponensek közötti lineáris korrelációk (Rkk) mátrixa: 14.13. tábla Főkomponens korrelációk Változó FK1 FK2 FK3 FK1 1 FK2 0.772 1 FK3 -0.603 -0.463 1.000 Az első faktorra a Tomeg és HengerUr változók alapján számított C-alfa értéke 0.9166, míg a 2. és 3. faktorokat leginkább a Fogy90, és a Gyors100 változók mérik megbízhatóan. A faktorközi korrelációkból másodrendű faktor (MRF) határozható meg, amely faktorsúlyai az alábbiak: Faktor MRF1
242
FK1 FK2 FK3
0.928 0.874 -0.781 VE 2.235 A három faktor 3 egységnyi varianciája tükrében a másodrendű faktor által képviselt 2.235 hányad olyan magas, hogy egy közös faktor létezését is feltételezhetjük. Feladat: 1. Elemezze a számítási eredményeket. ˆ A R AT azonosságok felhasználásával határozza meg a struktúra mátrix, és 2. Az R xk A (3) R kk és R xx (3) kk (3) a reprodukált korrelációs mátrix elemeét az első főkomponens, és a Lóerő változó vonatkozásában mind derékszőgű, mind ferdeszögű forgatás esetén.
14.11 FÜGGELÉK A ML faktoranalízis első (14.13) normálegyenletének átalakítása az alábbi. Előbb a faktorsúlyok szerinti parciális deriváltat zéróval egyenlővé téve nyerjük a (14.33) (Σ S)Σ1Λ 0 53 egyenletet. Fölismerve, hogy (14.34) Σ1 Ψ 2 Ψ 2 Λ(I Δ) 1 ΛT Ψ 2 majd innen (14.35) Σ1Λ Ψ 2 Λ I (I Δ) 1 Δ Ψ 2 Λ (I Δ)(I Δ) 1 (I Δ) 1 Δ Ψ 2 Λ(I Δ) 1
adott egyediségek mellett a (14.33) azonosság (algebrai átalakítások után) az alábbi formában is felírható: (14.36) Σ SΨ2 Λ(I Δ)1 0 ami további átrendezések, és a (14.10) faktormodell felhasználásával (14.37) Ψ1SΨ1 Ψ1Λ Ψ1Λ I Δ (m,m) 2
( p, p)
( p ,m )
( p ,m )
ahol
S* Ψ1SΨ1 . Mivel Δ diagonális, ezért Ψ Λ oszlopai az S mátrix sajátvektorai, I Δ diagonális elemei pedig a megfelelő, méghozzá az első m legnagyobb sajátérték. Tegyük fel, hogy az első legnagyobb m számú sajátérték nagyobb mint 1 és egymástól különböző: θ1>...>θm>1. Ahogy a mintaelemszám tart a végtelenhez, ennek valószínűsége 1-hez tart. Képezzük az első m legnagyobb sajátértékkel az átlóján a Θ(m,m) diagonális mátrixot, a megfelelő (standardizált) v1,v2,...,vm sajátvektorokkal (mint oszlopokkal) pedig a V(p,m) mátrixot, melyre VTV=Im. Ekkor (14.37) más formában (14.38) S*V VΘ ahol 1
*
1
Ψ 1Λ V(Θ I) 2 . Jelölje 0 azt a faktorsúly mátrixot, mely kielégíti a (14.33) azonosságot. Ekkor 1
Λ 0 ΨV (Θ I) 2 .
53
Ugyanis
Ψ
2
(14.39)
Ψ2 Λ(I Δ)1 ΛT Ψ 2 ΛΛT Ψ 2 Ψ 2 ΛΛT I Ψ 2 Λ(I Δ)1 ΛT ΔΛT I .
243
15 KONFIRMATÍV FAKTORANALÍZIS 15 Konfirmatív faktoranalízis A konfirmatív faktoranalízis (CFA) modelljében a faktorok korreláltak, és nem föltétlenül standardizáltak. Az egyedi faktorok a faktorokkal korrelálatlanok, de ha szakmai tartalma van, és a modellidentifikáció megengedi, akkor egymással korrelálhatnak. A két indikátor változó közötti kovariancia (a kovariancia tulajdonságai alapján) az alábbi strukturális egyenlettel fejezhető ki, a CFA hipotézise szerint: m
m
Cov( x j , xl ) jk lt Cov( f k , ft ) Cov(u j , ul ) k 1 t 1
ahol j=1,2,…,p, l=1,2,…,p és λjk a j. indikátort a k. faktorral összekapcsoló faktorsúly. Itt Cov x j , xl mérhető, és a modell szerint háromféle paraméter határozza meg: λ típusú, Cov f k , ft típusú és Cov u j , ul típusú. A paraméterek száma adott modellspecifikáció mellett összeszámolható. Jelölje (m,m) a faktorok közötti kovariancia mátrixot (általános eleme kt), továbbá 2(p,p) az egyedi faktorok kovariancia mátrixát. A 2 mátrix többnyire diagonális, de ez nem szükségszerű. Ennek megfelelően az indikátor változók elméleti Σ kovariancia mátrixa a modell paramétereivel kifejezve: T Σ ΛΦΛ Ψ2 Σ θ ahol a θ paramétervektor a modell paramétereinek az összességét jelöli. A paraméterek ismeretlenek, és az indikátorok közötti p(p+1)/2 párosításban definiált kovarianciákat eredményezik. Ennyi egyenlet áll tehát (legfeljebb) rendelkezésre a paraméterek számszerűsítéséhez. Korrelálatlan egyedi faktorokat feltételezve a paraméterek teljes száma pm+m(m+1)/2+p, és ez meghaladhatja a rendelkezésre álló egyenletek számát, ezért bizonyos paraméterek értékére vonatkozóan hipotézissel, megkötéssel kell élnünk. A paraméterek között tehát vannak hipotézis szerint rögzített fix paraméterek, és becsülendő paraméterek. Az általános identifikálási követelmény szerint a becsülendő paraméterek nb száma kisebb kell legyen az egyenletek számánál, tehát az p( p 1) nb 2 egyenlőtlenségnek teljesülnie kell. A konfirmatív faktoranalízis jellegzetességei az alábbiak: Zéró faktorsúlyok rögzítésével az indikátor változók egyféle csoportosulására vonatkozó elképzelésünket fejezzük ki. A nem zéró faktorközi kovariancia megengedésével a faktorok hipotetikusan korrelálnak egymással. Szakmailag indokolható viszonylatokban (párosításban) az egyedi faktorok egymással való korreláltsága is megengedett. A faktormodell valamennyi (becsülendő) paraméterét a θb vektorba foglaljuk és úgy becsüljük, hogy minél közelebb ˆ Σ θˆ legyen egymáshoz a mérési változók mintabeli S, és a becsült paraméterek felhasználásával számított Σ
kovariancia mátrix. A modell tehát lehet alulidentifikált, pontosan identifikált, illetve túlidentifikált attól függően, hogy a becsülendő paraméterek száma nagyobb, egyenlő, vagy kisebb mint a rendelkezésre álló egyenletek száma. Az alulidentifikált modell paraméterei nem becsülhetők, de a pontosan identifikált modell becslésének sincs tárgyi értelme, hiszen ekkor mindig pontosan reprodukálni tudjuk a mintebeli kovariancia mátrixot, és így a minta mindig tökéletesen egyetért a hipotézisünkkel, miközben a tendenciák rejtve maradnak. Az identifikálhatósági követelménynek való megfelelést sok mérési változó szerepeltetésével, másrészt a paraméterekre vonatkozó megszorítások számának a növelésével érhetjük el. A paraméterek meghatározottsága érdekében a fix paraméterek minimálisan szükséges számára megadható feltétel, az alábbiak szerint. Végezzük el az f * Mf és Λ* ΛM 1 transzformációt, ahol M nemszinguláris. Ennek következtében a transzformált faktorok kovariancia mátrixa (a kovariancia lineáris felbontása alapján): C f * f * MΦMT . Mivel M elemeinek a száma m2, ezért Φ és Λ egyedileg való meghatározottságához szükséges, de nem elégséges feltétel, hogy legalább m2 megszorítást tegyünk a Φ és Λ paraméterek körében. Ezt tipikusan elérhetjük úgy, hogy standardizált faktorokat vizsgálunk (ez m megszorítás) és ( minden oszlopában legalább (m-1)
244
faktorsúlyt zérónak választunk (ez további m(m-1) megszorítást jelent). Ez utóbbi feltétel elengedhetetlen ahhoz, hogy a rögzített zérók szerkezete egy nemszinguláris transzformációt követően is változatlan maradjon. Példaként tekintsük az alábbi kétfaktoros konfirmatív faktormodellt, mely négy indikátor alakulását magyarázza, korrelált faktorokkal: x1 11 f1 0 f 2 u1
x2 21 f1 0 f 2 u2 x3 0 f1 32 f 2 u3 x4 0 f1 42 f 2 u4 . E modell szerint az első faktornak kizárólag az x1 és x2 változók az indikátorai, a másodiknak pedig kizárólag az x3 és x4 változók, a két faktor közötti kovariancia pedig Cov( f1 , f 2 ) . Legyen most további megkötésünk, hogy a faktorok standardizáltak, a hibafaktorok pedig korrelálatlanok. E megszorítások után az indikátorok között tízféle σjl kovariancia fejezhető ki a paraméterekkel, az alábbi egyenletrendszerbe foglalva: 2 2 2 2 11 11 12 , 22 21 22 , 33 32 32 , 44 42 42 , 12 1121 , 13 1132 , 14 1142 , 23 2132 , 24 2142 , 34 3242 . Láthatóan kilenc paramétert kell becsülnünk, tíz egyenlet felhasználásával, a modell tehát túlidentifikált, 1 szabadsági fokkal. A faktorokat jellemző paraméterek megkötésekor tekintettel kell lennünk arra is, hogy a faktor nem bír természetes mértékegységgel, tehát számára skálát kell biztosítani a paraméterbecslés során. Ha egy adott faktor esetében mind a faktorsúlyait, mind a varianciáját szabadon hagyjuk becsülni, akkor skálája meghatározatlan. Ezért vagy a faktor varianciájára, vagy egyik indikátorának a faktorsúlyára vonatkozóan megszorítást kell tenni.
15.1 A PARAMÉTEREK BECSLÉSE A paramétereket alapvetően kétféle szemlélet szerint becsülhetjük egy n elemű véletlen mintából: i) a maximum likelihood (ML), ii) és a súlyozott legkisebb négyzetek (WLS) módszere alapján. A normalitáson alapuló maximum likelihood módszer célfüggvénye a likelihood negatív transzformáltjának a minimálása: FML θ ln det Σ tr SΣ1 ln det S p tr SΣ1 I p ln det Σ1S min . A súlyozott legkisebb négyzetek módszere az
FWLS θ s σ θ W(p1*, p*) s σ θ min T
kvadratikus diszkrepancia függvényt minimálja, ahol az s=vecs(S) és a σ(θ)=vecs(Σ(θ)) vektorok rendre p*=p(p+1)/2 elemű vektorok, melyek megfelelően a mintabeli torzítatlan S kovariancia mátrix, illetve a Σ(θ) reprodukált kovariancia mátrix nem duplikatív elemeit (tehát a főátlón lévőket igen) tartalmazzák, míg W-1 pozitív definit súlymátrix. Mindkét típusú F θ célfüggvény a mintabeli S kovariancia mátrix, és a becsült paraméterekkel reprodukált
ˆ Σ θˆ kovariancia mátrix közötti diszkrepanciát méri. Mivel a WLS becslés speciális esetként tartalmazza a ML Σ becslést, ezért a WLS módszert részleteiben is áttekintjük. A W súlymátrix megválasztásánál kézenfekvő, hogy a mintabeli torzítatlan kovarianciák mintavételi kovariancia mátrixa legyen: W=Covss. A mintabeli sjk és slt kovarianciák mintavételi kovarianciája (lásd Browne,1984): n 1 (n 1)cov s jk , slt (n 1) jk ,lt jl kt jt kl jklt n ahol jklt jklt jk lt jl kt jt kl az ún. negyedrendű kumuláns, melyben jklt E x j j xk k xl l xt t a negyedrendű többváltozós momentuma az xj,xk,xl,xt változóknak a μj,μk,μl,μt átlaguk körül, és j,k,l,t=1,2,…,p, valamint jk,lt=1,2,…,p*.
245
Nagy mintaelemszám mellett, mikor (n-1)/n értéke közel 1, aszimptótikusan eloszlásfüggetlen (Asymptotically Distribution Free: ADF) becslést kapunk akkor, ha a súlymátrixot úgy választjuk meg, hogy W általános eleme az alábbi legyen: w jk ,lt jklt jk lt ahol a σ kovarianciák konzisztens becslése: 1 n s jklt x j x j xk xk xl xl xt xt n i 1 1 n s jk x j x j xk xk . n 1 i 1 Az ADF becslés aszimptótikusan hatásos, és nem igényel semmiféle feltevést a változók eloszlását illetően. Ha a 0 feltevéssel élünk, akkor w jk ,lt jl kt jt kl . Ha feltételezzük, hogy a többváltozós eloszlás peremeleoszlásai szimmetrikusak, és relatív γ kurtózis paraméterük azonos (ez a homogén kurtózis elmélete), akkor a negyedrendű többváltozós momentum az alábbi módon alakul: jklt 1 jk lt jl kt jt kl ahol jjjj / 32jj 1 a közös, relatív kurtózis paraméter, melynek becslése: n
ˆ 1
xi x
T
S 1 xi x
. np p 2 A fenti célfüggvények az előfeltevéseik teljesülése mellett kifejezhetők a reziduális kovarianciák függvényében is, az alábbiak szerint. A zéró negyedrendű kumuláns feltevése mellett a súlymátrix felírható a W 2 V V Kronecker szorzatként (ahol V(p,p) valószínűségben konvergál a Σ kovariancia mátrixhoz, és pozitív definit), és ekkor az FWLS kvadratikus célfüggvény az T 1 F(WLS ) s σ θ V 1 V 1 s σ θ 2 2 1 tr S Σ(θ) V 1 2 formát ölti, ahol az s σ θ vecs S Σ(θ) reziduális vektor most az S Σ(θ) mátrixnak mind a p2 elemét i 1
tartalmazza.54 A kevésbé megszorító, homogén kurtózis elméletnek megfelelő diszkrepancia függvény (Bentler, 1983) a következő: 2 2 1 F( E ) tr S Σ(θ) V 1 tr S Σ(θ) V 1 . 2 2 1 4 1 2 p 1 Vegyük észre, hogy a V=I választás a súlyozatlan (unweighted) legkisebb négyzetek módszerére vezet, melynek értéke a minimum pontban: 2 1 ˆ FULS tr S Σ 2 ˆ míg a V Σ választással a minimum pontban a maximum likelihood módszer konvergált célfüggvényértéke adódik: 2 2 1 ˆ Σ ˆ 1 1 tr SΣ ˆ 1 I . F tr S Σ 2 2 Végül a V S mintabeli kovariancia mátrix választással kapjuk a normalitásra építő GLS (generalized) becslést: 2 2 1 ˆ S 1 1 tr I ΣS ˆ 1 . FGLS tr S Σ 2 2 A GLS és ML módszer skálainvariáns abban az értelemben, hogy bármely pozitív skála faktorokat tartalmazó diagonális D mátrixra: FGLS,ML(S,Σ) = FGLS,ML(DSD,DΣD). Az ULS módszer esetén ez nem teljesül.
54
Általában:
246
xT V W y tr XVYT WT ahol, x=vecs(X) és y=vecs(Y).
Brown (1974) megmutatta, hogy a GLS és az ML módszerek ekvivalenssé válnak, ahogy a reziduumok közelítik a zérót, és V valószínűségben konvergál a Σ mátrixhoz. Ez a helyzet például, ha V=S. A normalitás-elméleti θGLS és θML becsléseket az alábbi nagymintás, aszimptotikus tulajdonságok jellemzik: konzisztensek, a minimális Cramer-Rao mintavételi varianciával bírnak, aszimptótikusan azonosak, többváltozós normális eloszlásúak θ átlagvektorral, és a Fisher-információs mátrix inverzével definiált kovariancia mátrixszal. Az F(θ) függvény minimálását numerikusan oldjuk meg, az alábbiak szerint (Lee-Jennrich(1979). Egy önkényes θ(1) kezdőpontból kiindulva határozzuk meg az újabb θ(2), θ(3),..., paraméter pontokat úgy, hogy F(θ(s+1))
paraméterek javítása következtében minden lépésben újraszámításra kerül. A becsült paraméterek kovariancia mátrixa végül a konvergált információs mátrix inverze, illetve a konvergált Hesse mátrix inverzének (2/n)-szerese: 2 Cˆ ,ˆ E1 H 1 . n
15.2 A FAKTORMODELL ILLESZKEDÉSE Mint láttuk, a sokasági kovarianciák a vizsgálat tárgyát képező, ún. tárgymodell paramétereiből egzaktan levezethetők. A tárgymodell releváns, ha a becsült formájából számított kovariancia mátrix jelentősen eltér a látens faktorok hatását teljesen kizáró, csupa zéró faktorsúlyt feltételező, ún. null modellből következő kovariancia mátrixtól. Egyidejűleg a tárgymodell akkor megbízható, ha jól illeszkedik a mintabeli S kovariancia mátrixhoz, ami a maradék nélkül magyarázó szaturált modell következménye. További kérdés, hogy a paraméterek tekintetében egymásba ágyazott két –a null és a szaturált modellek közé eső - közbülső modell közül a szűkebbik M0, vagy a bővebb M1 modellt preferáljuk-e a másikhoz képest. Valamely modell illeszkedése a szaturált modellhez klasszikus illeszkedésvizsgálati feladat, míg egy meglévő bázismodellről egy másik, alternatív tárgymodellre való áttérés eldöntése modellszelekciót jelent. A null modell viszonya a szaturálthoz speciális illeszkedésvizsgálati kérdés, míg a null modell viszonya a tárgymodellhez speciális modellszelekciós probléma. Többnyire a paramétereiben szűkebb H 0 modell játsza a bázismodell, és H1 a tárgymodell szerepét, de a szerepek fölcserélhetők. Az illeszkedés tesztelése A tárgymodellnek a szaturált modellhez való illeszkedését hipotézisvizsgálati feladatként kezelve - nagymintás esetben, a modell érvénye mellett -, ha a W súlymátrix valószínűségben konvergál a mintabeli s kovarianciák Covss kovariancia mátrixához (aszimptótikusan optimális „AO” eset), a t2 2 ln Ltárgy ln Lszaturált (n 1) FWLS (θˆ ) (1515.1) goodness of fit CHI2 statisztika (GF_χ2) aszimptotikusan CHI2 eloszlású p(p+1)/2-nb szabadságfokkal, ahol lnL az adott modell loglikelihoodja, n a mintaelemszám, F (θˆ ) a célfüggvény értéke a minimumot nyújtó θˆ paraméter Emlékeztetünk rá, hogy () szerint az információs mátrix a loglikelihood másodrendű keresztderiváltjainak várható értékét tartalmazza, negatív előjellel. 55
247
pontban, nb pedig a becsült paraméterek száma. Jól illeszkedő modell esetén a χ2 érték alacsony, és a reziduális kovarianciák S Σ(θˆ ) mátrixában is alacsony értékeket találunk. Az illeszkedés jellemzése alapvetően e két jelenségre épül. A tesztelés úgy történik, hogy ha az empirikus χ2 érték meghalad egy kritikus értéket, akkor a modell „messze van” a mintabeli adatoktól, vagyis a mintában lényeges információ maradt a modell által magyarázatlanul. Ha a χ2 statisztika magas (a szabadságfok tükrében, esetleg a mintanagyság okán magas) értéke azt sugallja, hogy a modell messze van a mintától, a null modell viszonylatában azonban még tartalmazhat releváns információt. A CFA esetében az Mn null modellt a látens faktorok kiiktatásával definiáljuk, mikoris az indikátorokat kizárólag az egyedi faktorok magyarázzák, amelyek varianciája így az indikátorok varianciáival egyezik meg. Ez esetben az indikátorok varianciáit teljes mértékben, kovariancia-struktúrájukat viszont semmilyen mértékben nem tudjuk magyarázni. Természetesen 2n érték a null modellre is számítható, és összevethető az aktuális Mt tárgymodellével. Ilyenkor a 2n t2 differencia nagyságrendje tesztelendő a DF szabadsági fok függvényében, ahol DF azon független paraméterek száma, amennyivel többet kell becsülni a tágabb modellben. Ha a paraméterbecslés az ADF módszerrel törénik, melyek nem igényelnek semmilyen eloszlásfüggő feltevést, akkor – mivel ez negyedrendű momentumok számítását igényli – az eredmények nem robusztusak kicsi és közepes mintaelemszám esetén, tehát az illeszkedést érintő döntés a tesztelés alapján szintén nem robusztus. Az ADF alapú tesztelés alternatívájaként Satorra és Bentler (1994) a χ2 teszt egy átskálázott változatát javasolja. Az átskálázás elméleti alapjai az alábbiak. Ha az AO feltétel nem adott, akkor az (n-1)F teszt statisztika eloszlása tulajdonképpen 1 szabadsági fokú chi2 eloszások kombinációja: (n 1) FW (θˆ ) L
DF
j 1
j
2 j(1)
ahol n és az αj koefficiensek az
U W WΔ ΔT WΔ ΔT W 1
mátrix nem zéró sajátértékei, és Δ σ(θ) / θT . Ha az AO feltétel érvényes, akkor az α koefficiensek értéke 1, és az aszimptótikus chi2 eloszlás egzaktan teljesül. Ennek birtokában a χ2 statisztika Satorra-Bentler korrekciója: 2 . SB 1 tr UW DF A χ2 statisztika, vagy annak bármely korrekciója a mintaelemszámnak függvénye, szabadsági foka viszont nem függ attól, tehát a teszt hátránya, hogy elegendően nagy minta mellett a szaturált modellel való összevetésben bármely modell visszautasítható. E probléma miatt az illeszkedés vizsgálatára más eljárások is rendelkezésre állnak. Ezek egy része ugyancsak hipotézisvizsgálaton, másik része pedig az illeszkedés szubjektív megítélésére alkalmas, leíró jellegű indexek számításán alapul. Az illeszkedést jellemző mutatók aszerint is megkülönböztethetők, hogy csak a tárgymodellt tekintik (a minta tükrében), vagy a modellt egy alternatív, például a null modell viszonylatában jellemzik. Az előbbi mutatók az önálló mutatók, az utóbbiak pedig a növekmény jellegű mutatók körét alkotják.
15.2.1 ÖNÁLLÓ INDEXEK Az F „fitting function” index nem más, mint a GLS, vagy a ML módszerek mellett minimált célfüggvény értéke a minimum pontban: 2 F . n 1 Bár nem tipikus illeszkedésvizsgálati mutató, de tökéletes illeszkedés esetén értéke zéró, míg felső korlátja nincs. Egyéb indexek alapját képezi. Így például a szabadságfokkal (várható értékkel) korrigált 2 DF chi-négyzet arány, és az
248
2 DF DF F n 1 n 1 standardizált nem centrális paraméter (torzítatlan becslése) is alkalmas az illeszkedés jellemzésére. Ez utóbbinak McDonald-féle transzformációja SNCP
1 SNCP
MDN e 2 . Az F mutató alábbi transzformációjával kapjuk a skálázott likelihood arány mutatót:
LHR e
1 F 2
.
A fentiekkel ellentétben az általánosított „Goodness of Fit Index” többszörös determinációs együttható jellegű ˆ reziduális (hiba) mátrix elemeinek a súlyozott (SSE) négyzetösszegét viszonyítja a mutató, mely az S Σ mintaelemek súlyozott (SST) négyzetösszegéhez az alábbi módon:56 2 1 1 ˆ V 2 tr V 2 S Σ SSE GF 1 1 2 SST 1 1 tr V 2 SV 2
ˆ tr V 1 S Σ 1
tr V 1S
2
2
1
ˆ tr V 1S V 1Σ
tr V 1S
2
2
.
ˆ , akkor a ML célfüggvény melletti ˆ S , viszont értéke negatív is lehet. Ha V Σ Látható, hogy GF=1, ha Σ Jöreskog-Sorbom-féle (1981) „goodness of fit indexet” kapjuk, ha V=I, akkor a súlyozatlan legkisebb négyzetek goodness-of-fit mutatóját, majd ha V=S, akkor az általános legkisebb négyzetek módszerének illeszkedését jellemezzük. Tekintsük előbb a ˆ 1S I 2 tr Σ GFI 1 2 1 ˆ S tr Σ mutatót. Ennek mintavételi várható értéke (expected GFI): 1 EGFI 2 DF 1 pm amely felhasználásával a relatív GFI mutató: GFI RGFI . EGFI A GFI index véges minták esetén nem fejezhető ki a χ2 érték felhasználásával, de aszimptótikus kapcsolat van közöttük, az alábiak szerint. Mivel aszimptótikusan 2 1 2 ˆ 1S I tr Σ 2 n és ˆ 1S p tr Σ ezért aszimptótikusan p GFI p 2F
tehát 0
Kihasználjuk, hogy ha A
A T , akkor
i
j
aij2 tr AAT tr AA tr A2 .
249
1
tr V S
ˆ tr V 1 S Σ 1
2
2
1
ˆ tr I S 1Σ trI 2
2
1
ˆ tr I S 1Σ p
2
.
Az illeszkedést a reziduális kovarianciákra támaszkodva az „átlagos reziduális kovarianciával” jellemezzük: RMSR
s i j
ij
ˆ ij
2
. p ( p 1) / 2 A Hoelter (1983) által bevezetett kritikus mintanagyság alapján is megítélhetjük az illeszkedés milyenségét: 2 CN DF , 1 F ahol 2 az α szignifikancia szinthez tartozó kritikus érték, DF szabadsági fok mellett. Ha a tényleges mintaelemszám meghaladja a kritikusat, akkor lehet, hogy a mintanagyság miatt ítéli a teszt mintától távolinak a hipotetikus modellt, és ilyenkor mindenképpen más, heurisztikus mutatókat is érdemes számítani. Ilyenek az alábbiak.
15.2.2 NÖVEKMÉNY JELLEGŰ INDEXEK Bentler és Bonett (1980) irányította a figyelmet az egymásba ágyazott modellek tesztelésének a hasznosságára a konfirmatív faktormodell (CFA) illeszkedését illetően. Az illeszkedés megítélése egy bázisul választott, paramétereiben szűkebb modell, és a vele szemben hipotetikusan megfogalmazott, tágabb, bázismodell összehasonlításán alapszik. A bázismodellel való összevetésben egyébként bármely két másik modell egymáshoz való viszonya is jellemezhető. A bázis modell megválasztásának kézenfekvő esete az Mn null modell. A bővebb modellként a tárgy, majd a szaturált modellt használva, a tárgymodellnek a szaturálthoz való helyzetét, vagyis a mintához való illeszkedését jellemezzük. A növekmény-típusú indexek általánosságban azt mérik, hogy valamely önálló „fit index” értéke egyazon minta tekintetében miként változik, ha a szűkebb modellről a bővebbre áttérünk. A növekmény-indexek két – T1 és T2 típusát különböztetjük meg: | It Ib | T1 : max I t , I b | It Ib | | Ie Ib | ahol It az önálló index értéke a tárgymodell, Ib az önálló index értéke a bázisul választott szűkebb modell esetén, Ie pedig a felhasznált önálló index várható értéke, a tárgymodell érvényét feltételezve. A null modell illeszkedését a szaturált mintához az In illeszkedési érték közli, mely azt modja meg, hogy maximum milyen mértékben javítható az illeszkedés. A fenti elvek alapján az alábbi indexek formálódtak az irodalomban. A Bentler-Bonett normált (normed fit index) index T1 típusú, és a célfüggvény F-értékét, vagy alternatív formában a χ2 mértéket foglalja magában. Mivel a szűkebb bázismodell χ2 mutatója magasabb, mint a bővebb tárgymodellé, ezért az index formulája: T2 :
Fb Ft b2 t2 1. Fb b2 A mutató értéke normált abban az értelemben, hogy nem eshet a (0,1) intervallumon kívülre: NFI=0, ha Fb=Ft, és NFI=1, ha Ft=0. A NFI mutató növekvő értékkel az illeszkedés javulását jelzi. Amennyiben a modellek egymásba ágyazottsági szekvenciájában a bázis és a cél modellek közé beékelődik egy Mk harmadik modell is, melyre FbFkFt teljesül, akkor az Mb és Mt modellek egymáshoz való viszonya additív módon fölbontva is jellemzhető, az Mk modell illeszkedésén keresztül, az alábbiak szerint: NFI (bt ) / b NFI (bk ) / b NFI ( k t ) / b . 0 NFI(b t ) / b
E tulajdonságra támaszkodva elemezhetjük, hogy az illeszkedés jóságának, vagy éppen hiányának mi a forrása. Hátránya viszont a normált indexnek, hogy abban az esetben, mikor az Mt modell a korrekt modell, nem föltétlenül 1 az értéke, hiszen Ft>0 minden további nélkül előállhat, hiszen várható értékben E 2DF DFt . E hátrányt kezeli a nem normált (NNFI) index (Bentler-Bonett(1980)), mely T2 típusú. A DF várható értéke alapján a mutató az alábbi formákat ölti:
250
DFb 2 b2 2 Fb F t t t DFt DFb DFt DFb DFt NNFI Fb 1 b2 b2 DFb 1 DF n 1 DFb b 2 ahol kihasználtuk, hogy F= χ /(n-1), és az (n-1) tényezővel egyszerűsítettünk. A NNFI mutató értéke közvetlenül függ a mintanagyságtól, továbbá értéke nagyobb mint egy, ha t2 DFt , és értéke negatív is lehet, mikor a számláló b2
negatív, de a nevező pozitív. Ezzel szemben, mikor t2 a várható értékéhez (tehát a DFt szabadsági fokhoz) közeli értéket vesz fel, akkor az index értéke 1-hez közeli, vagyis ebben a környezetben jól viselkedik. Az NNFI index a nem centrális 2 DF NCP n 1 paraméterrel is kifejezhető: DF b2 DFb b t2 DFb DFt 1 DFb NCPt 1 p NCPt NNFI b/t 2 b DFb DFt NCPb NCPb ahol pb / t DFb / Dft az ún. parsimónia arány (Mulaik et al. (1989)), míg
NCPt t2 DFt NCPb b2 DFb a badness-of-fit arány. Ha a bázis modell a null modell, akkor a klasszikus Tucker-Lewis (1973) féle TLI indexet nyerjük. A TLI index maximuma és minimuma nyilvánvalóan nincs az 1-hez, és a zéróhoz normálva. Továbbmenve, ha a NNFI mutató nevezőjéből elhagyjuk a DFb szabadsági fokot (ez a mintaelemszám százalékában, annak növelésével zéróhoz tart), a Bollen (1986) indexhez jutunk: DFb t2 2 NNFI B 1 1 pb / t t2 . 2 Dft b b Bár ez a mutató már nem függ közvetlenül a mintaelemszámtól, mintavételi varianciája ennek is jelentős. Egyben a Bentler-Bonett normált NFI indexnek olyan változata, mely a különböző modellek különböző DF szabadsági fokait is figyelembe veszi. E mutató normált maximuma 1, viszont minimuma nincs a zéróhoz normálva. Bollen (1990) bevezette emellett az 2 t2 . IFI 2b b DFt indexet, mely T2 típusú növekmény index, ahol I indexként a χ2 lack-of fit (LFI) mutató szerepel. E mutató értéke nagyobb lehet mint 1, és negatív értéket is fölvehet.
15.2.3 A NEMCENTRALITÁS SZEREPE AZ ILLESZKEDÉSVIZSGÁLATBAN A χ2 eloszláshoz kötődő nemcentralitás a téves modellspecifikáció sokasági szintű mérésének az eszköze. Kiindulási pontja, hogy az Mk modellel nyert (n-1)Fk diszkrepancia érték nemcentrális chi-négyzet eloszlású DFk szabadsági fokkal, és γk nemcentrális paraméterrel. Ugyanakkor, ez a nemcentrális paraméter aszimptótikusan a diszkrepanciaértéknek a függvénye a k (n 1) Fk0 módon, ahol Fk0 a diszkrepancia függvénynek az Mk modell mellett minimált értéke, miközben a sokasági Σ kovariancia mátrixot a modellel becsült kovariancia mátrixszal közelítjük. Ez a hiba zéró akkor, ha az Mk modell az érvényes sokasági modell, és a sokasági paramétereket használtuk a kovarianciák modellezésére. Értéke egyébként valami pozitív szám, és a modell bővítésével csökken. Az egymásba ágyazott modellek szekvenciáját tekintve: b k t s 0 és a standardizált nemcentrális paraméterekre Fb0 Fk0 Ft 0 Fs0 0 . A fenti sokasági jellemzők birtokában a sokasági „komparatív fit-index”:
251
(b t ) / b
b t 1 t b b
ahol valamely közbülső Mk modellre additív fölbontással (b t ) / b (b k ) / b ( k t ) / b . A „komparatív fit-index” a standardizált nemcentrális paraméterekkel kifejezve: F0 ( b t ) / b 1 t 0 . Fb A bázis (null) modell rögzített specifikációs hibája mellett, minél kisebb a téves specifikáció mértéke, annál magasabb a index értéke. A ( ) komparatív indexet arra az esetre definiáljuk, mikor a versenyző modellek mindegyikének más-más mintanagyság mellett vizsgáljuk az illeszkedését, míg ( F 0 ) különböző mintanagyságok mellett is használható. Mivel sokasági jellemző, ezért mértéke a mintából becsülendő. Legyen a nem standardizált γ t paraméter becslése ˆ t t2 DFt NCPt a standardizált Ft 0 paraméter becslése pedig
2 DFt Fˆt 0 t SNCPt . nt 1 A fentiek alapján becsült komparatív fit index:
FI 1
Fˆt 0 t2 DFt nbázis 1 . 1 b2 DFb ntárgy 1 Fˆb0
Láthatóan FI nincs a (0,1) intervallumra normálva, ezért ezt utólag kell megtennünk. Az így nyert normált komparatív fit index: max Fˆt 0 ,0 CFI 1 . max Fˆb0 , Fˆt 0 ,0
15.2.4 PARSZIMÓNIA-ÉRZÉKENY ILLESZKEDÉSVIZSGÁLAT A normált fit-indexek hátránya, hogy értékük pusztán fix paraméterek fölszabadításával (a becsülendő paraméterek körének bővítésével) növelhető, 1-hez közelíthető. Ez nyilvánvaló, mivel a paraméterbecslés során a célfüggvény tulajdonképpen az illeszkedés javítása (az F függvény, például a χ2 érték csökkentése), ami egy kevésbé korlátozott modell esetén definíció szerint eredményesebb, mint a korlátozottabb modell esetén. Egy éppen identifikált modell, mely pontosan annyi paramétert tartalmaz, mint ahány mintabeli varianciát és kovarianciát modellezünk, zéró lackof-fit (LFI) értéket vesz fel, mely a normált fit-index 1 értékével párosul, miközben a modell szabadságfoka zéró. James et al. (1982) az újabb (további) paraméterek becslésének szigorítása érdekében valamely normált fit-indexnek a parszimónia aránnyal való szorzatát javasolja. Az így definiált mutatók a parszimónia indexek csoportját alkotják: DFt PI NFI t DFn Ennek speciális esete, mikor NFIt a GFI indexet jelöli. Ezt a specifikációt akkor érdemes alkalmazni, mikor a mérési változók kovariancia mátrixában rejlő valamennyi információ érdekes számunkra. Ekkor a T 1 típusú parszimónia index: 2 DFt PI1GFI GFI t . p( p 1) Ha viszont a mérési változók tekintetében csak azok korrelációs kapcsolatrendszerét vizsgáljuk (tehát a varianciáik nem érdekesek), akkor a null modell olyan diagonális mátrixszal írandó le, melyben a varianciák becsülendő, szabad paraméterek, és a diagonálison kívüli elemek a fix paraméterek. Ezért e modell szabadságfoka p(p-1)/2, és a T2 típusú parszimónia index: 2 DFt LFI n LFI t PI 2 LFI . p( p 1) LFI n DFt Az Akaike (1987) és a Schwartz (1978) kritériumok rendre:
252
AK F 2nb SK F nb ln(n) ahol nb a becsült paraméterek száma. Az illeszkedés megítélésére az Akaike és Schwartz indexeket Cudeck és Brown (1983) az alábbi módosításokkal javasolta: CAK F 2nb / n CSK F nb ln(n) / n . Mindkét mutató bünteti a paraméterek számának a növelését, és különösen arra alkalmasak, hogy ugyanazon minta leírására használt, de paramétereik számában különböző modellek illeszkedését vessük össze. Az újabb paraméterek modellbe való bevonását „bünteti” a GFI mutatónak Jöreskog és Sorbom által korrigált változata, az „Adjusted Goddness of Fit Index” is: p( p 1) AGFI 1 (1 GFI ) . 2 DF AGFI értéke függ a mintaelemszámtól és az indikátor változók számától, fölső határa nem föltétlenül 1, és értéke negatív is lehet. Végül a relatív nemcentrális index formulája: NCPn NCPt RNI NCPt
15.2.5 A REZIDUÁLIS MÁTRIX A reziduális mátrix elemeit osztva azok közelítő standard hibáival nyerjük a standardizált reziduális kovarianciák mátrixát. Ennek elemei közelítőleg standard normális eloszlásúak, így pl. 5%-os szignifikancia szinten az 1.96-nál nagyobb abszolút értékűek outlierként kezelendők, s a vonatkozó indikátor változók kovarianciáját a modell nem magyarázza kellőképpen. A paraméterek szignifikáns voltát tesztelhetjük t-statisztikáik felhasználásával, másrészt meghatározhatjuk az egyes indikátoroknak a látens változókkal való többszörös determinációs együtthatóját (kommunalitását) is. A totális általánosított varianciából a modell által magyarázott hányadot Wilks-lambda típusú variancia hányados segítségével jellemezzük: 1
Ψ2
.
S
A modellspecifikáció módosítását a khi-négyzet teszt teszi lehetővé. Ennek során azt vizsgájuk, hogy valamely fix paraméter felszabadítása hogyan befolyásolja a modell illeszkedését. Az indikátor változók megbízhatósági koefficiense a rögzített q látens faktor tekintetében:
pq jq j 1
2
2
pq pq 2 jq j j 1 j 1
15.1. Példa Az alábbiakban új alkalmazottak felvételét eldöntő 6 alkalmassági teszt összpontjai közötti kovarianciák struktúráját modellezzük látens faktorokkal úgy, hogy a modell bizonyos paramétereire a priori megszorításokat teszünk. A számítások az MPlusz programmal történtek. A változók a jelöltek kvantitatív, illetve verbális képességeit jellemzik. Az egyes tesztek azonosítója rendre: M,F,K (kvantitatív képesség), illetve A,T,N (verbális képesség) és kovariancia mátrixuk ML becslése 200 jelölt eredményei alapján az alábbi: Alkalmassági tesztek kovariancia mátrixa Változó M F K M 3.980 F 2.468 3.980 K 2.149 2.030 3.980
A
T
N
253
A T N
1.274 1.130 1.473
1.512 1.397 1.711
1.433 1.337 1.612
3.980 2.730 2.905
3.980 2.925
3.980
Az indikátorok kovarianciáit két, rendre FQ (kvantitatív képességek) és FV (verbális képességek) faktorokkal modellezzük. Így a CF modell paramétereinek teljes száma: 6∙2=12 faktorsúly + 2 faktorvariancia + 1 faktorközi kovariancia + 6 egyedi variancia = 21 paraméter. Jelen példában tehát valamennyi paramétert fölszabadítva a modell pontosan identifikálttá válna, hiszen a mintabeli kovariancia mátrix nem duplikatív elemeinek a száma is 6∙7/2=21. A minimálisan szükséges megkötések száma a faktorsúlyok és a faktorkovarianciák körében m2=22=4. Hipotézisünk szerint az FQ faktor nem zéró súlyú indikátorai kizárólag M,F,K, és az FV faktor nem zéró súlyú indikátorai kizárólag A,T,N, miközben a két faktort első megközelítésben korrelálatlannak tételezzük fel. A (6,2) rendű faktorsúly mátrix 6 eleme, továbbá a faktorközi kovariancia most 0 hipotetikus értéken van rögzítve. Szabad paraméterként kezeljük a két faktor varianciáit, és az egyedi faktorok (reziduális) varianciáit. Mivel a faktor nem rendelkezik természetes mértékegységgel - miközben a varianciája szabadon becsülhető - ezért skálával kell ellátni. Ennek érdekében legalább egy indikátorban a faktorsúlyát rögzíteni kell. Az FQ faktorban az M tesztre, az FV faktorban pedig az A tesztre vonatkozó súly 1 értéken kerül rögzítésre. Ezáltal az FQ faktor skáláját az M skálája, az FV faktor skáláját pedig az A skálája kölcsönzi. (Megjegyezzük, hogy ha a standardizált faktorok megkötést használnánk, akkor a súlyokra vonatkozó megkötésre nem lenne szükség!) A fix paraméterek teljes száma így: (8 faktorsúly + 1 faktorközi kovariancia)=9. Mivel a mintabeli kovariancia mátrix 21 releváns elemet tartalmaz, ezért ennél több paraméter a minta leírására semmiképpen nem szükséges. A szabad paraméterek száma tehát: 21-9=12. A becsülendő 4 faktorsúly + 2 faktorvariancia + 6 reziduális variancia éppen kimeríti ezt a keretet. A null modellt úgy definiáljuk, hogy a (nem zéró varianciájú) látens faktorra vonatkozó valamennyi faktorsúly zéró, és a korrelálatlan egyedi faktorok varianciái magyarázzák teljes mértékben az indikátorok varianciáit, miközben az indikátorok közötti kovarianciákat a null modell zéró hányadban (egyáltalán nem) magyarázza. A null modellben a szabad paraméterek száma tehát a 6 reziduális variancia. A null modell illeszkedését χ2null=567.506 jellemzi, DF=216=15 szabadsági fokkal, melyhez gyakorlatilag zéró p-érték tartozik. Az 567.506 érték tehát szignifikánsan nagy távolságot mér a null modell és a minta között. Kézenfekvő, hogy bővítsük a modellt. Kétfaktoros modell, korrelálatlan látens faktorokkal A becsült modell (szaturált modellhez való) illeszkedését jelllemző χ2cél =57.319, DF=21-12=9 szabadsági fok mellett, mely gyakorlatilag zéró p-értéket eredményez. A megfelelő loglikelihood értékek rendre: lnL|H0= -2276.402, lnL|H1= -2247.742, ahol H0 a jelen modellt, H1 pedig a szaturált modellt fogalmazza meg. A pszeudó R2 típusú mutató tehát: 1-57.319/567.506=0.899. Bár magas, 89.9 százalékos a determináltsági arány, a χ2 teszt szerint bármilyen szokásos szignifikancia szinten távol van a modellezett kovariancia mátrix a mintabeli kovariancia mátrixtól, a relatíve magas χ2 érték miatt. Ezért szükséges az egyéb goodness-of-fit mutatók számítása, melyek értékeit majd a modell végső változata mellett számszerűsítjük. A modell Maximum Likelihood paraméterbecslésének eredményei az alábbiak: 15.1. táblázat. Becsült paraméterek korrelálatlan faktorokkal Paraméter Koefficiens SE(Ko) Ko/SE FQ faktorsúlyai M 1.000 0.000 0.000 F 0.944 0.111 8.495 K 0.823 0.101 8.124 FV faktorsúlyai A 1.000 0.000 0.000 T 1.007 0.077 13.071 N 1.071 0.079 13.606 Reziduális variancia M 1.367 0.290 4.720
254
StdKo
cStdKo
1.616 1.527 1.330
0.810 0.765 0.666
1.647 1.658 1.764
0.825 0.831 0.884
1.367
0.344
F K A T N Variancia FQ FV
1.650 2.212 1.268 1.231 0.867
0.281 0.281 0.182 0.181 0.173
5.865 7.881 6.965 6.807 5.004
1.650 2.212 1.268 1.231 0.867
0.414 0.556 0.319 0.309 0.218
2.613 2.712
0.453 0.399
5.772 6.792
1.000 1.000
1.000 1.000
A fix paraméterek SE standard hibája értelemszerűen zéró, a többi koefficiens pedig a standard hibája viszonylatában (a Ko/SE értéket tekintve) szignifikánsan különbözik zérótól. A standardizált koefficiens a standardizált faktor, és a nem standardizált indikátor kapcsolatát fejezi ki. Például az FQ faktor M faktorsúlya esetében: StdKo(FQ,M)=1.527=0.9442.6131/2. Ha az indikátort is standardizáltan használjuk, akkor a teljesen (completely standardized) koefficiens: cStdKo(FQ,M)=0.765=1.527/3.981/2. A modell által magyarázott, kivonással nyert a reziduális kovarianciák mátrix: Változó M F K A T N M 0.000 F 0.000 0.000 K 0.000 0.000 0.000 A 1.274 1.512 1.433 0.000 T 1.130 1.397 1.337 0.000 0.000 N 1.473 1.711 1.612 0.000 0.000 0.000 A két faktor közötti zéró korreláció követelményét a fentiek fényében kétféle szempontból is felülvizsgálhatjuk. Egyfelől tartalmilag nem indokolt, hogy a kvantitatív képességek nem korrelálnak a verbális képességekkel. Másfelől felszabadíthatjuk becslésre a faktorközi korrelációt, melynek eredményeképpen kiderül, hogy az újabb paraméter hatására milyen mértékben javul az illeszkedés jósága. Az ilyen típusú vizsgálatot szolgáló mutatót „model modification” indexnek (MI) nevezzük. Esetünkben MI=44.29, vagyis a χ2 ennyivel csökkenne korrelált faktorok megengedése mellett. A faktorközi kovariancia várhatóan 1.48 lenne, ami 0.556 korrelációt eredményezne. Érdemes tehát a modellt újraszámolni. Kétfaktoros modell, korrelált látens faktorokkal A becslési eredmények módosulásának tárgyalása előtt a modell illeszkedését jellemezzük. A loglikelihoodok: lnL|H0 =-2250.781, és lnL|H1 =-2247.742. Innen 2 cél 2 2250.781 (2247.742) 6.078 ahol DF=21-13=8, a p tail-probability érték=0.6384. A chi-négyzet teszt szabadsági foka 8, mert a megszorítások közül egyet, a faktorközi zéró kovarianciát fölszabadítottuk, és így a becsült paraméterek száma már 13. Bármilyen 6.384 százaléknál kisebb szignifikancia szintnél elfogadható a hipozézis, miszerint a modell a mintával adekvát információt közöl. Az illeszkedést jellemző főbb heurisztikus mutatók értékei az alábbiak. Figyeljük meg, hogy a becslés eredményeként a χ2-DF = 6.078-8=-1.922 különbség negatív az alábbi formulákban! Bázis modellként a null modellt használjuk, melyre: 2 DFb 567.506 15 552.506 SNCPb b 2.7764 . nb 1 199 199 F = χ2 / (n-1)= 6.078 / 199 = 0.0305 χ2 / DF = 6.078 / 8 = 0.75975 2 DFt 6.078 8 1.922 SNCPt t 0.00966 nt 1 199 199
MDN e
1 SNCP 2
LHR e
1 F 2
e e
1 ( 0.009658) 2 1 0.0305 2
0.0159
0.0185
255
GFI 1
0.99 ˆ S tr Σ
ˆ 1S I tr Σ
2
2
1
1 1 0.4286 2 DF 28 1 1 pm 62 GFI 0.99 RGFI 2.31 EGFI 0.4286 p( p 1) 21 AGFI 1 (1 GFI ) 1 (1 0.99) 0.974 . 2 DF 8 p 6 GFI 0.9899 p 2 F 6 2 0.0305 EGFI
CN
82( 0.05)
NFI (bt ) / b
Ft
1
40.1 1 1315.754 0.0305
b2 t2 567.506 6.078 0.9893 . b2 567.506
DFb 2 t 567.506 15 6.078 DFt 8 NNFI 1.0065 b2 DFb 567.506 15 b2
1
DFb NCPt 15 6.078 8 1 1 1.875 (0.00348) TLI DFt NCPb 8 567.506 15
NNFI B 1
DFb t2 15 6.078 1 1 1.875 0.01071 0.9799 2 DFt b 8 567.506
IFI
b2 t2 567.506 6.078 1.003435 b2 DFt 567.506 8
CFI 1
max SNCPt ,0
max SNCPb , SNCPt ,0
1
0 1 2.7764
AK = F + 2 nb = 0.0305 + 213 = 26.0305 CAK = F + 2 nb /n = 0.0305 + 213 / 200 = 0.1605 NCPn NCPt (567.506 15) (6.078 8) 1.922 RNI 1 1.00348 . NCPt 567.506 15 552.506 A pszeudó R2 értékének megfelelő mutató az NFI=0.9893, érték, mely 98.93 százalékos magyarázó erőt mutat. Jelentős tehát a javulás a korrelálatlan faktorokkal definiált modellhez képest. A becsült SNCP paraméter negatív előjelét a CFI index úgy eliminálja, hogy várható értékével, tehát zéróval helyettesíti. Egyébiránt valamennyi index nagyon szoros illeszkedést jelez. A modell ML módszerrel becsült paraméterei a következők. 15.2. táblázat. Becsült paraméterek Paraméter Coeff FQ faktorsúlyai M 1.000 F 1.012 K 0.882 FV faktorsúlyai A 1.000 T 0.999
256
SE(Coeff). Coeff/SE. StdC
cStdC
0.000 0.108 0.102
0.000 9.343 8.630
1.547 1.565 1.364
0.776 0.785 0.684
0.000 0.077
0.000 13.026
1.641 1.640
0.823 0.822
N 1.087 Kovariancia/Korreláció FQ,FV 1.442 Reziduális variancia M 1.586 F 1.530 K 2.120 A 1.287 T 1.291 N 0.798 Variancia FQ 2.394 FV 2.693
0.078
13.975
1.784
0.894
0.260
5.535
0.568
0.568
0.255 0.254 0.269 0.178 0.178 0.163
6.228 6.016 7.884 7.222 7.234 4.899
1.586 1.530 2.120 1.287 1.291 0.798
0.398 0.384 0.533 0.323 0.324 0.200
0.416 0.396
5.757 6.795
1.000 1.000
1.000 1.000
A faktorközi korreláció ML becslése: 0.568, vagyis jelentős intenzitású. Az indikátor változók megbízhatósági koefficiensei előbb az FQ, majd az FV látens faktor tekintetében magasnak mondhatók:
p1 j 1
p1 j 1
j1
p2 j 1
2
j1
p
j 1
2
j 11 2j
p2
j2
2
j2
(0.776 0.785 0.684)2 0.7931 (0.776 0.785 0.684)2 0.398 0.384 0.533
2
j 21 2j p
(0.823 0.822 0.894) 2 0.8839 . (0.823 0.822 0.894) 2 0.323 0.324 0.2
A mért indikátorok tehát megbízhatóan használhatók a két látens tulajdonság leírására. Végül a paraméterek konfidencia inervallumait az alábbi táblázat tartalmazza. A modellel nyert reziduális kovariancia mátrix: Változó M M 0.000 F 0.046 K 0.039 A -0.168 T -0.310 N -0.094
F 0.000 -0.105 0.054 -0.060 0.126
K
A
0.000 0.162 0.067 0.231
0.000 0.039 -0.022
T
N
0.000 0.000
0.000
az átlagos reziduális hiba pedig alacsony, mégpedig RMSR
s i j
ij
ˆ ij
p( p 1) / 2
2
0.111 .
257
16DICHOTOM (BOOLEAN) FAKTORANALÍZIS 16 Dichotom (boolean) faktoranalízis A dichotom faktoranalízis során célunk bináris (0,1) kimenetelű xj (j=1,2,…p)változókat m számú ugyancsak bináris fk (k=1,2,…m) faktorral kifejezni, ahol a faktorok m száma jelentősen alacsonyabb, mint a mérési változók p számossága. Mivel e feltételek mellett a mérési változók csak hibával közelíthetők, a modell formálisan az X = F AT + E (16.1) formában írható fel, ahol az i=1,...,n megfigyelésekre vonatkozóan az X(n,p) mátrix xij eleme vagy 0, vagy 1, az F(n,m) faktor-score mátrix fik eleme is vagy 0, vagy 1, az A(p,m) faktorsúly mátrix ajk eleme vagy 0, vagy 1, és így végül az E(n,p) hibamátrix (diszkrepancia mátrix) eij elemének értéke is csak 0, vagy 1 lehet. A faktor-score mátrix i. sorát és a faktorsúly mátrix j. sorát rögzítve, az FiAj szorzás most boole-algebrai szorzást jelent, melynek eredménye 1, ha van legalább egy olyan k pozíció, melyre Fik=Ajk=1, egyébként a szorzás eredménye zéró. A modell illusztrálása céljából (egyelőre a változók konkrét tartalmának a megnevezése, és az eredmények értelmezése nélkül) bemutatjuk a fejezet példájának a végeredményét, mely az alábbi mátrixegyenlőség: 16.1. táblázat. Mátrixegyenlőség boole-szorzással -------------------------------------------------X = F AT + E i ----------------------------j=123456789 k=12345 123456789 123456789 ----------------------------1 011111000 00110 000000000 2 111111101 11110 101100001|f1 000000000 3 000010100 01001 000000100|f2 000000000 4 001110001 = 10001 010110000|f3 -00000000 5 010110001 00100 001001000|f4 00000000+ 6 111011001 10110 000010000|f5 000-00000 7 101100101 11000 000000000 A példában i=1,2,...,7 megfigyelésre vonatkozóan mértük j=1,2,...,9 tulajdonság (x) értékét, amely x értékeket k=1,2,...,5 faktorral modellezzük. Ennek eredményeképpen például a tényleges x11=0 érték előrejelzése az F score mátrix első sorának és a transzponált A faktorsúly mátrix első oszlopának szorzataként ugyancsak 0, mivel nincs olyan közös pozíció, melyen mindkét vektorban egyaránt 1 szerepelne. Így nem követtünk el hibát, tehát az E diszkrepancia (reziduum) értéke 0. Pozitív előjelű diszkrepanciát követünk el, ha 1 helyett 0, és negatív diszkrepanciát, ha 0 helyett 1 az előrejelzés. Mivel a (nem zéró) hiba abszolút értéke mindig 1, ezért a diszkrepancia mátrixban elegendő a hibás előrejelzést az előjelével kiemelni. A fenti példában a 79=63 előrejelzésből kettő esetben (x41 és x64) negatív, egy esetben pedig (x59) pozitív diszkrepanciát követtünk el. Pozitív előrejelzésről akkor beszélünk, mikor az előrejelzett érték 1. A boole-faktorok kialakítása során az a céunk, hogy a korrekt (helyes) pozitív előrejelzések száma és az inkorrekt (helytelen) pozitív előrejelzések száma közötti különbség minél nagyobb legyen. A klasszikus faktoranalízisben a faktor-score valamennyi mérési változó lineáris kombinációja, így a nagy faktorsúllyal bíró változók mind dominánsak a score értékében. Ezzel szemben a bool-féle faktoranalízisben a faktorokat törekszünk úgy meghatározni, hogy adott megfigyelési egység faktor-score értéke 1 legyen akkor, ha a megfigyelés az illető faktorban 1 faktorsúllyal szereplő x változókban 1 értéket vesz fel. Továbbmenve, míg a klasszikus faktoranalízisben elvárás, hogy egy mérési x változó csak egy faktorral legyen szoros kapcsolatban, addig a bool-féle faktoranalízisben egyidejűleg több faktorban is szerepelhet 1 súllyal. A boole-faktoranalízisben a megfigyelések modellezésének sikeres, vagy kevésbé sikeres voltát (a megfigyelt és a becsült adatok egymáshoz való illeszkedését) a totális diszkrepancia jellemzi, melyet az alábbi formula definiál: n
p
d xij xˆij i 1 j 1
ahol xˆij Fi ATj , továbbá Fi a faktor-score mátrix i. megfigyelésre vonatkozó n elemű sora, Aj pedig a faktorsúly mátrix xj változóra vonatkozó sora. A faktorok meghatározása két fázisban történik. Elsőként megadunk r (r<m) számú induló faktort, majd a következő fázisban a maradék (m-r) számú faktor kiszűrése történik, az alábbi, lépésenkénti módon. Becsüljük az r+1 sorszámú
258
faktort, majd a meglévők birtokában az r+2 sorszámút, ezután az r sorszámút töröljük, az r+1 sorszámút pedig újraszámoljuk. A faktorok számának ilymódon való növelése (tehát, hogy kétszer egymás után eggyel növelünk, majd egyet törlünk) addig tart, míg a kívánt faktorszámot másodszor is elérjük. Például, ha r=2, és m=5, akkor 2,3,4,3,4,5,4,5 faktort számítunk. Mind az induló faktorokat, mind a csatolás, vagy törlés után kialakult faktorokat egy iteratív algoritmussal finomítjuk, az alábbiak szerint. A faktorok finomítása boole-regresszióval A rendelkezésre álló faktor-score mátrix, és az adatmátrix alapján egyenként külön meghatározzuk a faktorsúly mátrix oszlopait. Ezután a kapott súlymátrix, és az adatmátrix alapján meghatározzuk egyenként külön a score mátrix sorait. Ez így egy ciklusát alkotja az iterációnak. A ciklus legfeljebb háromszor ismétlődik, vagy addig tart, míg már nem tudjuk javítani a faktormegoldást. A faktorok finomítását (mint arra korábban már utaltunk) a korrekt pozitív előrejelzések száma és az inkorrekt pozitív előrejelzések száma közötti különbséggel mérjük, az alábbi formulának megfelelően: M M ij xij fik a jk c(1 xij ) f ik a jk ij ij k k ahol c az inkorrekt pozitív előrejelzés költsége (koefficiense). A faktorsúlymátrix valamely oszlopának, vagy a score-mátrix valamely sorának a becslése az alábbi booleregressziók egyikének a megoldását igényli. Az x1 j 1 x 2 j S 2 e m xnj egyenletet oldjuk meg az regressziós paraméterekre, és a regresziós paraméterek az L faktorsúlymátrix új oszlopát eredményezik, vagy az [ xi1 , xi 2 ,..., xip ] [1 , 2 ,..., m ] L e mátrixegyenletet a regressziós koefficiensekre, és e koefficiensek az S score mátrix új sorát nyújtják. Valamennyi regresszió során az általános M kritérium megfelelő i M ij vagy j M ij részét optimáljuk, a boole-regresszió alábbi eljárásának megfelelően. Boole-regresszió Tekintsük az
z1t 1 e1 y1 z11 z12 y z z2t 2 e2 2 21 z22 zut t eu yu zu1 zu 2 regressziós modellt, melyben a γ paraméterek a regressziós koefficiensek. A γ paraméterek meghatározása az alábbi lépésekben történik. 1. Valamennyi γ paraméter induló értéke zéró. 2. A Z mátrix valamennyi j oszlopára meghatározzuk az M j yi zij c (1 yi ) zij kritérium értékét. i
i
Kiválasztjuk azt a k oszlopindexet, melyre Mk maximális. Ha Mk pozitív, akkor γk értékét 1-nek választjuk, és mindazon h sorokban, ahol zhk=1, valamennyi y és z értéket lenullázzuk. A 2.,3., és 4. lépéseket addig ismételjük, míg a legmagasabb Mj érték is zéró, vagy negatív. 3. 4.
Újabb faktor hozzáadása A diszkrepancia mátrix negatív elemeit zéróval helyettesítjük, és az így képzett mátrix egy alkalmasan megválasztott oszlopát adjuk a score-mátrixhoz. A faktorsúly mátrix megfelelő elemeit zérónak választjuk, kivéve azon
259
oszloppozícióhoz tartozót, amely oszlopból a score mátrixhoz csatoltunk. Ez a faktorsúly: 1. A diszkrepancia mátrix leginkább pozitív értéket mutató oszlopát választjuk csatolandó faktorként. A faktor csatolása után mind a scoremátrix, mind a súlymátrix finomításra kerül a fent leírtak szerint. 16.1. Példa Példánkban hét nagy egyház képviselői (megfigyelési egységek) értékelik vallásuk, és a nők viszonyát. A feltett kilenc kérdésre adott válaszok jellege IGEN, vagy NEM, melyet az adatállományban 1, és 0 azonosít. A kérdések (változók) azonosítója, és maguk a kérdések a következők: x1: Tisztseg: Betölthet-e nő bármiféle tisztséget az egyházban? x2: Szertart: Együtt ülnek-e a nők a férfiakkal a szertartás alatt? x3: EjogHaz: Egyenlő jogokat élveznek a nők a férfiakkal a házasságban? x4: EjogVal: Egyenlő jogokat élveznek a férfiak és a nők válás esetén? x5: HazTor: Ugyanúgy ítélik meg a házasságtörést a férfiaknál, mint a nőknél? x6: Menstr: Ugyanazok a szabályok vonatkoznak a nőkre mikor menstruálnak, mint egyébként? x7: Foggatl: Elfogadják a fogamzásgátló szerek használatát? x8: Abortusz: Elfogadják az abortuszt? x9: Mmegterm: Elfogadják a mesterséges megtermékenyítést? A kérdésekre adott válaszokat a 16.2. tábla tartalmazza. Ez az adatállomány megegyezik a 16.1. táblázat X mátrixszával. 16.2. tábla Női jogok a vallásban Válaszadó egyháza Katolicizmus Protestantizmus Iszlám Zsidó vallás Ortodox vallás Buddhizmus Hinduizmus
Tisztseg 0 1 0 0 0 1 1
Szertart 1 1 0 0 1 1 0
EJogHaz 1 1 0 1 0 1 1
EJogVal 1 1 0 1 1 0 1
HazTor 1 1 1 1 1 1 0
Menstr 1 1 0 0 0 1 0
Foggatl 0 1 1 0 0 0 1
Abortusz 0 0 0 0 0 0 0
MMegterm 0 1 0 1 1 1 1
A 7 válaszadó a 9 kérdésben 34 alkalommal adott IGEN=1 választ, és 29 alkalommal NEM=0 választ. Maximum 5 faktor meghatározásával igyekszünk olyan kérdéscsoportokat (faktorokat) elkülöníteni, amely faktorban 1 érték azt jelzi, hogy a faktorhoz 1 súllyal rendelt x változókban a válaszadó válasza (túlnyomó többségében) 1=IGEN. Analízisünkben az induló faktorok száma 2. Ezért a 0. lépésben (induló megoldásként) az f1, és f2 faktorok faktorsúlyainak az alábbi értékeket választottuk: 16.3. tábla Induló faktorsúlyok Változó f1 f2 Tisztseg 1 0 Szertart 0 1 EJogHaz 1 1 EJogVal 1 1 HazTor 1 1 Menstr 0 0 Foggatl 0 0 Abortusz 0 0 MMegterm 1 1 Az induló faktorsúlyok tulajdonképpen a változók csoportosulására vonatkozó egyféle hipotézisünket fejezik ki azáltal, hogy a változót melyik faktorhoz rendeljük hozzá. Ha egy változó egyik faktorhoz sem tartozik, akkor ezzel azt engedjük meg, hogy az eljárás során később kialakult valamely faktorhoz sorolódjon. A boole-regresszió segítségével az induló faktorokat is finomítjuk, majd a stepwise algoritmussal 5 végső faktort határozunk meg. A végeredmények a 16.4. és a 16.5. táblában olvashatók. A 16.3. táblában a megfigyelési egységekre (az egyes vallásokra) vonatkozó információk, így a faktor-score értékek is itt találhatók (mind a két-, mind az ötfaktoros esetben). A 16.5. táblában pedig a változókra vonatkozó információk olvashatók, így a faktorsúlyok is itt
260
szerepelnek. Mindkét tábla közli a 0 és 1 válaszok megoszlását, továbbá a nagatív és pozitív diszkrepanciák számát. A faktormodell illeszkedését jellemzendő, míg két faktor esetén az összes hibák száma 10, addig öt faktor mellett csupán 3. A faktorok értelmezését végül a faktorsúlyok szolgálják. Ezek alapján az (az ötfaktoros modellben): Az első faktor a „tisztség”, az „egyenlő jogok a házasságban”, az „egyenlő jogok a válásban” és a „mesterséges megtermékenyítés” változókat foglalja közös csoportba, vagyis amelyik vallásnál az első f1 faktor 1 értéket vesz fel, ott ezen változók is (túlnyomó többségben) szintén 1 értéket vesznek fel. Ennek a faktornak a tartalmát tehát a nők társadalmi tevékenységekhez kötődő emancipáltsága, a házastársi jogok gyakorlásának a lehetősége, és a családalapításhoz való jog képezi. A második faktor csak egy változót, a fogamzásgátló szerek használatának tolerálását tartalmazza. Amelyik vallásnál 1 score szerepel, az a vallás tolerálja az „emberi” családtervezést, ahol viszont zéró score van, az a vallás nem tűri, hogy az ember döntsön „Isten” helyett. Vegyük észre, hogy ez a faktor egzaktan megegyezik a Foggatl változó eredeti adataival az adatállományban. A harmadik faktor a szertartásokon való mutatkozás lehetőségét, és a család sorsát aláásó válás, és házasságtörés egyöntetű megítélését tartalmazza. Ezért a vallás nőkkel szembeni toleranciáját fejezi ki. A negyedik faktor a házasságban egyenlő jogokat élvező nőknek a jogait akkor is megadja, ha éppen menstruációs periódusukat élik. Végül az ötödik faktor a házasságtörés egyedi faktora, amely csak az iszlám, és a zsidó vallásnál vesz fel 1 értéket, mivel a többi vallásnál az f3 faktor már megmagyarázta a házasságtörés azonos megítélésére adott választ. 16.4. tábla A megfigyelési egységek (vallások) jellemzői Válaszadó Elemszám 2 faktoros jellemzők 5 faktoros jellemzők vallása 0 1 negatív pozitív f1 f2 nagatív pozitív f1 f2 f3 f4 kimenetel diszkrepanciák száma faktor score diszkrepanciák száma faktor-score Katólikus 4 5 0 1 0 1 0 0 0 0 1 1 Protestáns 1 8 0 1 1 1 0 0 1 1 1 1 Iszlám 7 2 0 2 0 0 0 0 0 1 0 0 Zsidó 5 4 1 1 1 0 1 0 1 0 0 0 Ortodox 5 4 1 1 0 1 0 1 0 0 1 0 Buddhizmus 3 6 1 0 1 1 1 0 1 0 1 1 Hinduizmus 4 5 0 1 1 0 0 0 1 1 0 0 16.5. tábla A mérési változók (kérdések) jellemzői Kérdés Elemszám 2 faktoros jellemzők (változó) 0 1 negatív pozitív a1 a2 kimenetel diszkrepanciák száma faktorsúly Tisztseg 4 3 1 0 1 0 Szertart 3 4 0 0 0 1 EJogHaz 2 5 0 1 1 0 EJogVal 2 5 1 0 1 1 HazTor 1 6 0 2 0 1 Menstr 4 3 1 0 0 1 Foggattl 4 3 0 3 0 0 Abortusz 7 0 0 0 0 0 MMegterm 2 5 0 1 1 0
5 faktoros jellemzők negatív pozitív a1 a2 a3 a4 diszkrepanciák száma faktorsúly 1 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0
f5 0 0 1 1 0 0 0
a5 0 0 0 0 1 0 0 0 0
261
262