Grafikus modellek társadalomtudományi alkalmazása mobilitási adatokon Németh Renáta
PhD értekezés
Témavezetı: Rudas Tamás, DSc Statisztika Tanszék
Szociológia Doktori Program Eötvös Loránd Tudományegyetem Társadalomtudományi Kar
Budapest, 2009
Köszönetnyilvánítás A disszertáció elkészítésében nyújtott segítségért témavezetımön, Rudas Tamáson kívül köszönet illeti Wicher Bergsmát; az elmúlt években velük végzett közös munka képezi az alapját az itt bemutatott új eredményeknek. Róbert Péter a mobilitás-kutatási alkalmazások megvalósulását kísérte tanácsaival szintén éveken át. Szeretnék továbbá köszönetet mondani egy-egy probléma megoldásában való részvételéért Thomas Richardsonnak, aki a láncgráf modellek kurrens megközelítéseinek összevetésében segített, David Firthnek, aki a mobilitás-kutatás egyik alternatív eszközével, a unidiff modellel való összehasonlításban mőködött közre, végül Jonathan Kelleynek, aki rendelkezésemre bocsátotta Magyarországon beszerezhetetlen publikációját és annak recenzióit.
TARTALOMJEGYZÉK 1
2
3
4
5 6
Bevezetés ............................................................................................................... 8 1.1 Motiváció....................................................................................................... 8 1.2 A kutatás fókusza és az értekezés felépítése ............................................... 10 Marginális loglineáris modellek........................................................................ 15 2.1 Hagyományos loglineáris modellek ............................................................ 15 2.2 Marginális modellek, marginális loglineáris modellek ............................... 23 2.3 A paraméterezés jó tulajdonságai ................................................................ 29 2.3.1 Variációs függetlenség........................................................................ 29 2.3.2 A modellek létezése ............................................................................ 33 2.3.3 Simaság............................................................................................... 35 2.3.4 A becslések standard aszimptotikus tulajdonságai ............................. 39 Grafikus modellek.............................................................................................. 42 3.1 Háttér ........................................................................................................... 42 3.2 Gráfelméleti definíciók és jelölések ............................................................ 43 3.3 Feltételes függetlenség ................................................................................ 50 3.4 Irányítatlan gráfok ....................................................................................... 52 3.5 Irányított körmentes gráfok ......................................................................... 55 3.6 Láncgráfok................................................................................................... 57 3.6.1 Bevezetı ............................................................................................. 57 3.6.2 Páronkénti Markov-tulajdonságok...................................................... 59 3.6.3 Lokális Markov-tulajdonságok ........................................................... 63 3.6.4 Blokk-rekurzív Markov-tulajdonságok............................................... 66 3.6.5 Globális Markov-tulajdonságok ......................................................... 69 3.7 A gráfok és a feltételes függetlenségek megfeleltetésének problémái: ekvivalens gráfok, ekvivalens Markov-tulajdonságok ............................................. 72 3.8 Szociológiai példák grafikus modellekre .................................................... 76 Grafikus modell marginális modellként kategoriális adatokon..................... 84 4.1 Egy elızmény: Goodman módosított útmodellje ........................................ 84 4.2 Az általános megoldás: grafikus modellek marginális loglineáris modellekként ............................................................................................................ 91 4.3 A feltételes függetlenségek és a paraméterek megfeleltetésének problémái92 4.4 Irányítatlan gráfok ....................................................................................... 94 4.5 Irányított körmentes gráfok ......................................................................... 95 4.6 Láncgráfok................................................................................................... 99 4.7 Útmodellek ................................................................................................ 103 4.8 MLH becslés, illeszkedésvizsgálat ............................................................ 104 Nyitva maradt módszertani kérdések ............................................................ 107 Alkalmazás........................................................................................................ 109 6.1 A grafikus modellek általános alkalmazási problémái .............................. 109 6.1.1 A gráf felállítása ............................................................................... 109 6.1.2 Konfigurációk, melyek klasszikus asszociációs problémákat fednek 110 6.1.3 Direkt és indirekt hatás ..................................................................... 112
5
6.1.4 A grafikus modell és a strukturális egyenletek modell (SEM) összevetése ......................................................................................................... 114 6.2 Mobilitás-kutatási alkalmazás: használati feltételek, alternatívák............. 115 6.2.1 Történeti áttekintés ........................................................................... 115 6.2.2 A történeti áttekintés tanulságai........................................................ 121 7 Saját alkalmazások........................................................................................... 126 7.1 Klasszikus modell, friss adatok: Treiman hipotézise a magyar rendszerváltásban ................................................................................................... 126 7.1.1 Kutatási motivációk, kutatási kérdések ............................................ 126 7.1.2 Elméleti háttér, korábbi vizsgálatok ................................................. 128 7.1.3 Módszertan ....................................................................................... 131 7.1.4 Eredmények ...................................................................................... 133 7.1.5 Összegzés.......................................................................................... 136 7.2 A Treiman-modellnek és a Boguszak és társai (1990) által javasolt módosításának összevetése nemzetközi adatokon.................................................. 138 7.3 Klasszikus adatok, új modell: Sewell és Shah (1968) vizsgálata a felsıfokú továbbtanulásról ..................................................................................................... 143 7.4 Szerhasználat amerikai fiatalok körében ................................................... 147 7.5 A demokráciával ill. az életszínvonallal való elégedettség kapcsolata, az MHP három hulláma alapján.................................................................................. 151 8 Függelék: számítástechnikai megvalósítás..................................................... 159 8.1 Modellbecslés............................................................................................ 159 8.2 Illeszkedésteszt .......................................................................................... 166 8.3 Paraméterbecslés ....................................................................................... 166 9 Irodalom............................................................................................................ 168 10 Felhasznált adatbázisok .............................................................................. 177 11 Ábrák jegyzéke............................................................................................. 178 12 Táblázatok jegyzéke .................................................................................... 179 13 A szerzı publikációi..................................................................................... 180 13.1 Folyóirat cikkek és könyvfejezetek ........................................................... 180 13.2 Konferencia kötetek................................................................................... 181 13.3 Konferencia kivonatok .............................................................................. 181 13.4 Munkaanyagok, kutatási jelentések........................................................... 183
6
Mottó: „Forradalom ment végbe a társadalmi mobilitás kutatásában: az egykoron uralkodó Blau-Duncan paradigmát a loglineáris modellezés döntötte le a trónról. [...] A loglineáris forradalom figyelemre méltó kísérlet volt, és kezdetben úgy tőnt, fényes új jövıt kínál Blau-n és Duncan-en túllépve. [...] Végül, én úgy gondolom, Goldthorpe kísérlete elbukott. Azóta több mint egy évtized telt el. Számtalan modellt illesztettek, design-mátrixok seregeit vették számba, khi-négyzetek ezreit sorakoztatták fel. Mégis, kevés lényegi újdonság derült ki. Teljes részletességgel írhatók már le a szők kereszttáblába szorított apai és fiúi foglalkozás cellagyakoriságai, ám az ehhez kapcsolódó értelmezés ad hoc, az elmélet szegényes. [...] Mindez visszalépést jelent a statisztikailag egyszerőbb, de koncepcionálisan összetettebb BlauDuncan paradigmához képest.”1
(Idézet Jonathan Kelley 1990-es The failure of a paradigm címő, több kritikát provokált tanulmányából)
1
A szerzı fordítása.
7
1 BEVEZETÉS 1.1 Motiváció A mottóbeli idézet jól rávilágít a dolgozat tárgyát képezı új statisztikai módszerek megjelenése elıtti helyzetre, amikor Goldthorpe illetve Blau és Duncan megközelítése még nem volt egyszerre megvalósítható. Ezeknek az új módszereknek a birtokában azonban már nem zárja ki egymást a két megközelítés. Ugyanis a grafikus modellek kategoriális változókon értelmezettek, mint Goldthorpe loglineáris paradigmája, ugyanakkor a Kelley által preferált Blau-Duncan-paradigmához hasonlóan oksági láncok kezelésére, direkt és indirekt hatások megkülönböztetésére is alkalmasak. A grafikus modellek könnyen vizualizálható és jól interpretálható módon jelenítenek meg komplex rendszereket, és modulárisak, vagyis e komplex rendszereket egyszerőbb részek összekapcsolásával építik fel. Lehetıséget adnak például az alábbihoz hasonló bonyolult asszociációs struktúrák leírására (itt két pont között az él / nyíl hiánya mindig feltételes függetlenségi állításoknak feleltethetı meg)2:
Az elméleti modell változtatása egyszerően követhetı a gráf módosításával. Például az alábbi klasszikus modellben3
megfontolandó az iskolázottság és a jelenlegi foglalkozás közötti egyirányú nyíl irányítatlan élre cserélése, hiszen ma a mőszaki-technikai haladás révén már egy adott szakmában is állandósulhat a változás, amellyel az érintetteknek lépést kell tartaniuk, 2 3
A gráf forrása: Cox és Wermuth (2001). Blau-Duncan modell (Blau, Duncan, 1967).
1. FEJEZET: BEVEZETÉS
amit viszont csak az ismeretek folyamatos gyarapításával lehetséges. Vagy más példával: ha a modellt a rendszerváltás elıtti kelet-európai országokra alkalmazzuk, akkor az apa iskolázottsága és a jelenlegi foglalkozás közé nyíl húzható, mivel a magas iskolázottságú apáktól származó, negatívan diszkriminált utódok munkába állásukat követıen kulturális tıkéjük és érvényesülési törekvéseik révén gyakran mégis kedvezı pozíciókat szereztek a munkaerıpiacon.4 A grafikus modellek statisztikai leírása még nem tekinthetı minden elemében lezártnak, ez a terület jelenleg is igen aktív (Lauritzen, Wermuth, 1989, Whittaker, 1990, Frydenberg, 1990a, Andersson, Madigan, Perlman, 2001, Lauritzen, Richardson, 2002, Cox, Wermuth, 1996, Wermuth, Cox, 2004, Wermuth, 2005, Drton, 2008). Wicher Bergsma5 és Rudas Tamás a kategoriális változókon értelmezett grafikus modellekkel kapcsolatban az utóbbi években publikált fontos eredményeket (2002, 2004). Én 2003-ban kapcsolódtam be a munkájukba, Rudas Tamást választva témavezetımül. Eleinte önálló mobilitás-kutatási alkalmazásokat készítettem (Németh 2004, 2006a, 2006b, Németh, Rudas, Bergsma 2006), munkámat ebben az idıben több éven át Róbert Péter is tanácsaival kísérte. Késıbb a módszertani alapkutatásba is bekapcsolódtam (Rudas, Bergsma, Németh, 2006). Mint az értekezésbıl látható lesz, a grafikus modellekkel kapcsolatos fontos kérdések egy része már megoldódott ezeknek az utóbbi években született eredményeknek a révén. A legfontosabb kérdések egyike a modellek paraméterezésének megválasztása. Kihasználva, hogy jól használható általános feltételek születtek a modell marginális loglineáris paraméterekkel történı megfelelı paraméterezésére (Bergsma, Rudas, 2002), a grafikus modellek paraméterezése kézenfekvı módon interpretálható és fontos reguláris tulajdonságokkal bíró paraméterekkel oldható meg. Szerzıtársaimmal jelenleg befejezéséhez közeledı kutatásunk (Rudas, Bergsma, Németh, 2009) pedig reményeink szerint választ ad majd az értekezés végén továbbra is nyitva maradt kérdések közé sorolt problémák jelentıs részére. Kutatási témám megválasztásának motivációja tehát elsısorban az volt, hogy általa egy jelentıs nemzetközi kutatási áramlatba kapcsolódhattam be. Vonzott a kutatási terület matematikai szépsége is: a valószínőségszámításon és statisztikán kívül olyan egymástól távol esı területek eredményei kerülnek itt együttes felhasználásra, mint a gráfelmélet, logika, algebra, geometria vagy topológia. Saját hozzájárulásként magam a módszer szociológiai, elsısorban mobilitás-kutatási alkalmazhatóságát szerettem volna megmutatni. A mobilitás-kutatáson belül, a státuszelérési folyamat különféle modelljeivel kapcsolatban valóban felmerülhet a grafikus modellek felhasználása. Ezek a megközelítések ugyanis tipikusan oksági folyamatmodellekkel követik a társadalmi dinamikát, kategoriális változókat használva – mint a származási osztálypozícióból az elért osztálypozícióba vezetı út társadalmi mobilitási modelljei, vagy a származási 4
Ez utóbbi Boguszak et al. (1990) a Blau-Duncan modell módosítására vonatkozó javaslata, az értekezésben részletesen is foglalkozom majd vele. 5 Wicher Bergsma, holland szerzıtársam jelenleg a London School of Economics and Political Science oktatója.
9
1. FEJEZET: BEVEZETÉS
osztálypozícióból a megszerzett iskolai végzettséghez vezetı út egyenlıtlenségkutatási modelljei. A mobilitás-kutatás választásával, azt hiszem, nem szőkítem le túlságosan tárgyamat, hiszen a mobilitás-kutatás módszereinek bıvülése általában szorosan követi az általános statisztikai módszerek fejlıdését, sıt néha generálja is azt. Ez a kérdés ugyanakkor nem redukálható a statisztikai elınyök vizsgálatára, a grafikus modelleknek, más statisztikai módszerekhez hasonlóan, a koncepcionális elıfeltételei is fontosak. E koncepcionális elıfeltételeket a kutatás elméleti paradigmái képviselik a mottó megválasztásával, Kelly idézésével is célom volt, hogy a módszernek a mobilitás-kutatás paradigmái között való elhelyezkedését felvillantsam. Goldthorpe elméleti megközelítése a társadalmi osztályokat kategoriális változóval operacionalizálja, a strukturális változásoktól független mobilitási esélyeket helyezve a középpontba, ezért volt szüksége a loglineáris módszerre. Blau és Duncan mobilitási csatornákat kívánt követni, ezért használt útmodelleket. A grafikus modellekkel mindkét cél megvalósítható. Az alábbi értekezésben a módszert koncepcionálisan pontosabban is pozícionálom majd, a bemutatott (többségében már publikált) alkalmazások pedig reményeim szerint azt bizonyítják, hogy a módszer beilleszthetı a létezı keretek közé, eredményei összevethetık más kutatásokéval.
1.2 A kutatás fókusza és az értekezés felépítése A grafikus Markov-modellek (röviden: grafikus modellek) elınye, hogy segítségükkel gráffal reprezentálható (1) többlépcsıs, összetett folyamatokat írhatunk le, (2) ahol egy él hiánya közvetlenül megfeleltethetı egy feltételes függetlenségnek. A feltételes függetlenség tulajdonságaival a 3.3. fejezet foglalkozik. E fejezet véleményem szerint különösen érdekes, hiszen a feltételes függetlenség, mint logikai rendszer – fontos következményekkel járó - karakterizációját, illetve különféle, az információelméleti alkalmazások kiindulópontját megmutató általánosításait is tartalmazza. A grafikus modellek közé az irányítatlan gráfokkal (3.4. fejezet), az irányított körmentes gráfokkal (3.5. fejezet), illetve a legáltalánosabb láncgráfokkal (3.6. fejezet) leírható modellek sorolhatók. Az elsı típus a változók között csak szimmetrikus, a második csak aszimmetrikus relációkat enged meg, a harmadik típus szimmetrikus és aszimmetrikus relációk megjelenítését is lehetıvé teszi. Az irányítatlan gráfokra épülı grafikus modelleknek (másnéven a Markov-féle véletlen mezıknek) például térstatisztikai és képfeldolgozási felhasználásai ismertek. Az irányított körmentes gráfokat napjainkban elsısorban a mesterséges intelligenciakutatás szakértıi rendszerekkel (expert systems) foglalkozó ága alkalmazza (pl. Lauritzen, Spiegelharter, 1988, Pearl, 1988), illetve ok-okozati viszonyok feltárásával kapcsolatos kutatásokban kerülnek elı gyakran (pl. Spirtes et al., 1993). Az elsı, illetve részben a második modell alapvetı statisztikai tulajdonságai is tisztázódtak az utóbbi években, ezeket az eredményeket a disszertációban ismertetem (4.4. és 4.5. fejezet). A láncgráfok az elsı két típus matematikai általánosításai, de létrehozásukat nem csak elméleti, hanem
10
1. FEJEZET: BEVEZETÉS
gyakorlati igények is motiválták. Gyakori ugyanis az olyan alkalmazási kontextus, amikor bizonyos változócsoportok között aszimmetrikus kapcsolat van (longitudinális vizsgálat idıpont szerint rendezett változói, vagy keresztmetszeti vizsgálat ok-okozati sorba rendezhetı magyarázó / közbülsı / kimeneti változóhalmazai), míg a változócsoportokon belül szimmetrikusak a relációk. A láncgráfok leírása még nem kanonizálódott, több kutató foglalkozik velük párhuzamosan, gyakran más-más megközelítésekben (Lauritzen, Wermuth, 1989, Whittaker, 1990, Frydenberg, 1990a, Andersson, Madigan, Perlman, 2001, Lauritzen, Richardson, 2002, Cox, Wermuth, 1996, Wermuth, Cox, 2004, Wermuth, 2005, Drton, 2008). A disszertációban az ı munkájukat is megkísérlem rendszerezve bemutatni (4.6. fejezet), kiemelve azt a szerzık által gyakran figyelembe nem vett tényt, hogy az eltérı megközelítések következményeként sem a leírható modellek köre, sem a leírt modellek statisztikai tulajdonságai nem kompatibilisek. A kategoriális változókon értelmezett gráfmodellek bizonyos szempontból gazdagabb struktúrát adnak, mint a többváltozós normális eloszláson értelmezettek. Ennek a különbségnek az oka, hogy a páronkénti A ⊥ B és A ⊥ C feltételes függetlenségek csak az utóbbi esetben ekvivalensek az együttes függetlenséggel, A ⊥ BC -vel. Ezért van jelentısége kategoriális esetben több különbözı szabály definiálásának a feltételes függetlenségek gráfból történı kiolvasására. Ha pl. a gráfban A nincs összekötve sem B-vel, sem C-vel akkor az egyik szabály (un. páronkénti Markov-tulajdonság) szerint csak A ⊥ B és A ⊥ C teljesül, de egy másik szabály (a lokális Markov-tulajdonság szerint) A ⊥ BC is igaz. Ez a két szabály normális eloszlás mellett nem különbözik egymástól. A disszertáció módszertani alapkérdése a kontingenciatábla olyan paraméterekkel történı felparaméterezése, amelyekkel könnyő a grafikus modellek megadása. A felparaméterezés a táblát egy-egyértelmően meghatározó mutatók megadását jelenti. Pl. 2X2-es tábla esetén lehetséges paraméterezés a négy cellagyakoriság megadása, egy másik paraméterezés a mintanagyság, az elsı sormarginális, az elsı oszlopmarginális és az elsı cella a megadása; egy harmadik lehetıség az esélyhányados és három cella megadása. Mindhárom esetben leírható az a modell, amely a táblát definiáló két változó függetlenségét állítja, de a specifikálás az utolsó esetben a legkönnyebb, az esélyhányados 1-re történı állításával. Megkerülhetetlen kérdés tehát, hogy a rendelkezésre álló paraméterezések közül melyiket válasszuk a kontingenciatábla gyakoriságainak leírására. Ugyanis, (1) a grafikus modell ezeknek a paramétereknek bizonyos megszorításaival (általában néhány paraméter nullára állításával) adható meg. Továbbá (2) azokban a gyakori esetekben, amikor a cél egy jól illeszkedı gráf (azaz az ezáltal prezentált modell) élei (a modellben szereplı hatások) elhagyhatóságának a tesztelése, akkor ezt a paramétermegszorítások fokozatos feloldásával (stepwise lépegetve) érhetjük el. Ugyanennek a az esetnek a megfelelıje, amikor rosszul illeszkedı gráf javítása a cél, és bizonyos élek behúzásának hatását teszteljük a paramétermegszorítások fokozatos feloldásával. Végül (3) a modellhez tartozó eloszlás értelmezése a becsült paraméterek interpretációjával történik. Mindhárom esetben azon múlik az eredményünk, hogy a tábla paraméterezése milyen paramétereket tartalmaz.
11
1. FEJEZET: BEVEZETÉS
Nem megfelelı paraméterezés esetén elıfordulhat, hogy (1) nem világos, a modellt hogyan, a paraméterek milyen megszorításával definiálhatjuk, (2) a lépegetıs módszer egyes lépéseinél az él elhagyását/behúzását nem tudjuk, hogyan feleltethetjük meg a paraméterek megszorításának/feloldásának, (3) a modellhez tartozó eloszlás paraméterei nem a modellezett jelenség minket érdeklı jegyeihez tartoznak. A tábla felparaméterezésének egyik lehetısége a marginális loglineáris paraméterek használata (a paraméterezést a 2. fejezetben részletezem). Ezek a hagyományos loglineáris paraméterektıl abban térnek el, hogy nem csak az összes változó együttes eloszlása, hanem bármely marginális eloszlás mellett definiálhatunk paramétereket, így finomabban tudunk hatásokat modellezni velük.. Ezzel az általánosítással ugyanakkor a hagyományos loglineáris paraméterezésnél sokkal összetettebb keretet kapunk. Például az irodalomban többször elıkerül az a probléma (mint Bergsma és Rudas (2002) felsorolja: Liang et al. (1992), Glonek és McCullagh (1995) és Kaumermann (1997)), hogy bizonyos paraméterek értékének elıírása a többi paraméterre is hatással van, korlátozza lehetséges értékeik körét. Emiatt elıfordulhat, hogy egy modell megadásánál olyan értékeket adunk paramétereinknek, amelyek nem egyeztethetık össze, így tudtunkon kívül üres, nem létezı modellt definiálunk. A disszertációban ajánlott marginális loglineáris paraméterezések bizonyos kritériumok teljesülése esetén ebbıl a szempontból is elınyös tulajdonságokkal bírnak: nem fordulhat elı, hogy a paraméterértékek inkompatiblitása miatt a modell nem létezik, továbbá a paraméterek értékei egymástól függetlenül interpretálhatók. Ezen kívül a modellek illeszkedése valószínőség-hányados próbával tesztelhetı, a modelleknek megfelelı maximum likelihood-becslés egyértelmően létezik és elıállítható, és konfidencia-intervallum konstruálható hozzá. Ez utóbbi tulajdonságok is csak a disszertációban tárgyalt feltételek esetén teljesülnek, de általánosságban nem; pl. már olyan egyszerő modell esetén sem, amely két változó marginális és feltételes függetlenségét egyszerre állítja („az egyetemi felvételi sikeressége független a felvételizı nemétıl, összességében és szakonként is”). Mint láttuk, a grafikus modellek paraméterezése általános esetben több problémát vet fel. E modellek marginális loglineáris paraméterekkel történı megadása egészen új megközelítés. Megfelelı paraméterezés esetén nem csak az elıbbiekben felsorolt elınyös tulajdonságok biztosíthatók, hanem a grafikus modellek által támasztott fenti elvárások is teljesülnek, azaz az élek elhagyása egyszerően megfeleltethetı bizonyos paraméterek nullára állításának, és a modell paraméterei kézenfekvı módon interpretálhatók. A dolgozat fı módszertani eredményei a paraméterek megfelelı megválasztásával és interpretálásával kapcsolatosak. Az irányított körmentes gráfok (4.5. fejezet), a belılük levezetett útmodellek (4.7. fejezet), illetve a láncgráfok (4.6. fejezet) itt bemutatott paraméterezése jórészt szerzıtársaimmal elért eredményekre támaszkodik. Hogy ne csak a letisztult végeredményeket mutassam be, hanem mélyebb megértésük érdekében a hozzájuk vezetı utat is, két önálló fejezetet szenteltem az elmúlt években szerzıtársaimmal végzett kutatásom jellegzetes, részben választ nyert, részben zsákutcában maradt
12
1. FEJEZET: BEVEZETÉS
problémáinak (3.7. és 4.3. fejezet). Ezt a két fejezetet különösen fontosnak tartom a még nyitva maradt, az 5. fejezetben felsorolt módszertani kérdések nehézségének és lehetséges megoldási útjainak a megismertetése szempontjából. A strukturális egyenletek modell, amely az eredeti Blau-Duncan-féle útelemzés általánosítása, a grafikus modellhez sok szempontból hasonlít: mindketten gráffal szemléltetik az asszociációs struktúrát, a változók közötti oksági kapcsolatok útvonalai ugyanúgy követhetık, és a direkt és indirekt hatások is ugyanúgy megfoghatók mindkét esetben. Így bizonyos értelemben vetélytársaknak tekinthetık, ezért szántam önálló fejezetet összevetésüknek (6.1.4. fejezet). Hasonlóan, külön fejezetben foglalkozom (4.1. fejezet) a grafikus modellek elızményének tekinthetı, ám sok kérdést nyitva hagyó Goodman-féle módosított útmodelleknek. Az általános alkalmazást bemutató 6.1. fejezetben a hétköznapi gyakorlati praxis olyan konkrét problémáit veszem sorra, mint a gráf kialakítása, a gráf módosításának következményei, a paraméterek interpretációja. A modellillesztés és paraméterbecslés módját a 4.8. fejezetben, ezek (Mathematica és SPSS programjaimmal történı) számítástechnikai megvalósítását a 8. fejezetben mutatom be. A grafikus modellek kvantitatív empirikus szociológiai alkalmazhatóságát az 6.2. fejezetben, a mobilitás-kutatáson belül vizsgálom. A módszer kontextusba helyezését a mobilitás-kutatási módszerek és fogalmak több évtizedes történetének szempontomból releváns pontjainak kiemelésével, majd a grafikus modellek alkalmazási feltételeinek és alternatíváinak ezek tükrében végzett vizsgálatával valósítom meg. A két legismertebb mobilitási gráfmodellt a 3.8. fejezetben elemzem, külön kitérve a gráf különbözı szerzık által javasolt módosításainak következményeire is. A 7. fejezetben néhány saját alkalmazást részletesebben is bemutatok, ezek egy része már publikált mobilitás-kutatási alkalmazás. E példákon keresztül szeretném megmutatni, hogy mobilitás-vizsgálatok kategoriális adataira azért lehet érdemes használni ezt a módszertant, mert ezen a területen gyakran alkalmaznak oksági modelleket (státuszelérési modellek), és a szakterület tipikus megközelítései statisztikailag megfogalmazhatóvá válnak marginális loglineáris paraméterek használatával. Már publikált kutatásaim összefoglalásánál arra a célra koncentráltam, hogy megmutassam, a grafikus modellek módszere beilleszthetı az adott kutatási hagyomány keretei közé, eredményei összevethetık más kutatásokéval. A nem publikált, módszertanilag bonyolultabb alkalmazásokban inkább a statisztikai munka hangsúlyos. Itt mutatok majd példát klasszikus szociológiai gráfmodellek friss adatokon történı illesztésére, a modellek módosításának tesztelésére, látunk majd példát klasszikus adatok új modellel történı magyarázatára, illetve paneladatokon történı alkalmazásra is. Az eredményeket a társadalomtudományi alkalmazhatóságra koncentrálva ismertetem, a matematikai apparátust ezért megpróbálom a lehetı legszőkebbre vonni, a megfogalmazást csak a szükséges mértékig formalizálni. A mélyebb matematikai háttértudást igénylı magyarázatokat csak lábjegyzetben közlöm, a tételek bizonyítását
13
1. FEJEZET: BEVEZETÉS
pedig kihagyom, vagy csak alapötletüket vázolom. Ha egy szakkifejezés magyar fordítása nem kanonizálódott még, illetve ha egy jelölés rövidítését az angol elnevezés ismerete segít értelmezni, akkor az angol eredetit is megadom.
14
2 MARGINÁLIS LOGLINEÁRIS MODELLEK 2.1 Hagyományos loglineáris modellek A disszertáció tárgyát képezı, kategoriális változókra alkalmazott grafikus modellek6 (Rudas, Bergsma, 2004; Rudas, Bergsma, Németh, 2006ab) az utóbbi évtizedekben megjelent két statisztikai terület, a marginális modellek, illetve a grafikus modellek metszéspontján helyezkednek el. E két területet tárgyalom részletesebben a következıkben. Az alábbi fejezet tételei, definíciói és jelölései, hacsak nem jelzem másként, Lauritzen (1996), Rudas (1998), Bergsma és Rudas (2002) ill. Rudas, Bergsma, Németh (2009) munkájára támaszkodnak.
{
Legyen V = V1 ,...,V p
}
kategoriális változók egy halmaza, Vj értékeit az
I j , 1 ≤ j ≤ p nemüres véges halmazon veszi fel. A T = × pj=1 I j Descartes-szorzatot
nevezzük p-dimenziós kontingencia-táblának, melynek egy cellája az i = i1 ,..., i p , i j ∈ I j . A nem-negatív valós µ(i) értéket nevezzük az i cellához tartozó
(
)
cellagyakoriságnak. 1. példa A formalizmus könnyebb megértéséhez vegyünk egy példát, a késıbbiekben (pl. a 7.1. fejezetben) szereplı társadalmi státusz-változókkal. Legyen a V változóhalmazunk háromelemő: V1 iskolázottság, V2 foglalkozási státusz, V3 jövedelem. Értékkészlet-halmazuk: I1 ={diplomás, diploma nélküli}, I2 ={alsó-, közép-, felsı osztály}, I3={átlag alatt keresı, átlag felett keresı}. A kontingencia-tábla ennek a három halmaznak a kereszt-kategóriáiból, vagyis Descartes-szorzatából áll, cellái közé tartozik pl. az i=(diplomás, középosztálybeli, átlag alatt keresı) hármas. Az ehhez a cellához tartozó µ(i) az ezzel a három tulajdonsággal rendelkezı egyének számát adja meg. Legyen F a T-n értelmezett pozitív7 µ gyakorisági eloszlások osztálya. Az F osztály és a k hosszú valós vektorok közötti θ : F → R k (k ≥ 1) leképezést nevezzük F egy paraméterének, egy konkrét eloszlás mellett felvett értékét paraméterértéknek. Ilyen paraméter például a cellagyakoriságok összege, ilyenkor k=1, hiszen a valós számokra képez a leképezés. Néha kényelmesebb lesz vektorértékő paraméter helyett 6
A „grafikus modell” az irányítatlan gráfokkal reprezentálható hierarchikus loglineáris modellek egy osztályára is használatos elnevezés, a disszertációban (és sok más helyen, pl. Lauritzen, 1996-ban) használt másik értelmében a kifejezés általános, nem csak irányítatlan gráffal megadható modellekre vonatkozik, a pontos definíciót lásd késıbb. 7 Értsd: a gyakoriság T minden cellájában nagyobb 0-nál, ezt szigorúan pozitív eloszlásnak is nevezik. E pozitivitási feltevés fontossága a késıbbiekben fog kiderülni.
2. FEJEZET: MARGINÁLIS MODELLEK
paraméterek halmazáról beszélni, ilyenkor az eredetileg vektorba rendezett paramétereket külön vesszük, és a paraméterérték helyett is paraméterértékekrıl beszélünk. Paraméterezésnek nevezzük mindazon θi paraméterek megadását, amik a tábla egy-egyértelmő megadását teszik lehetıvé: θ=(θ1, ..., θt). A θ leképezés ilyenkor invertálható. Pl. 2X2-es tábla esetén lehetséges paraméterezés a négy cellagyakoriság megadása, egy másik paraméterezés az összes megfigyelés számának, az elsı sormarginálisnak, az elsı oszlopmarginálisnak és az elsı cellának a megadása; egy harmadik lehetıség az esélyhányados és három cellagyakoriság megadása. Ha M ⊆ V a változók egy részhalmaza, akkor iM jelöli az i-bıl azon indexek vektorát, amelyek M-hez tartoznak, tehát (.)M projekciót definiál. A marginális táblát TM jelöli. Azt mondjuk, hogy ilyenkor marginalizáljuk a táblát az M-hez nem tartozó változók szerint. A TM celláihoz tartozó µ M ( i M ) marginális gyakoriságok a µ(i) cellagyakoriságok megfelelı összegzésével áll elı:
∑
µM (iM ) =
µ ( j).
j∈T : jM = i M
Az 1. példa visszatérve: ha a háromdimenziós kereszttáblát marginalizáljuk a jövedelem, V3 szerint, akkor a (.)V V projekciót alkalmazzuk. A marginális TV V tábla 1
1 2
2
kétdimenziós, egy cellagyakorisága így áll elı:
µV1V2 ( diplomás, középosztálybeli ) =
∑
µ ( j) =
j∈T : jV1 ,V2 = (diplomás, középosztálybeli)
= µ (diplomás, középosztálybeli, átlag alatt keresı) + + µ (diplomás, középosztálybeli, átlag felett keresı). Most már definiálhatjuk a loglineáris paramétereket. A V változók alkotta kontingencia-tábla celláihoz tartozó loglineáris paraméterek8,9 rekurzív módon állíthatók elı:
λ∅V ( i ∅ ) = 8
1 T
∑ log µ ( j),
(1)
j∈T
Ez az un. λ-típusú paraméterezés alapelve szerint mindig az egyenletes eloszlásnak megfeleltetett „nincs hatás” szituációhoz viszonyítja egy-egy hatás erısségét. Több más paraméterezés létezik, a szintén gyakran használt µ-típusú paraméterezés mellett pl. a „nincs hatás” szituáció az, amikor csak a referenciacella gyakorisága nem nulla; a paraméterek azt mérik, hogy a többi cella gyakorisága mennyire tér el a referenciacelláétól. 9 Az egyszerőség kedvéért itt és a disszertáció egészében a gyakorisági- és nem a valószínőségeloszlás paraméterezését tárgyalom. A valószínőség-eloszlás paraméterezése egyébként könnyen megkapható ebbıl az « hatáshoz tartozó un. fıhatás elhagyásával.
16
2. FEJEZET: MARGINÁLIS MODELLEK
λLV ( i L ) =
1 TV \ L
∑
log µ ( j) −
j∈T : jL = i L
∑ λ ( i ). V L'
(2)
L'
L '⊂ L
Az alsó indexben szereplı L ⊆ V halmazt nevezzük a paraméterhez tartozó hatásnak. Látható, hogy az üres halmazhoz tartozó hatás esetén a cellagyakoriságok logaritmusának átlaga adja a paramétert. A többi esetben a kifejtés elsı tagja szintén átlagot ad: az adott i cellával L-indexükben megegyezı cellák loggyakoriságának átlagát. Példánkra visszatérve, a λVV11VV32V3 ( diplomás,átlag felett keresı ) paraméter értéke:
λVV11VV32V3 ( diplomás, magas jövedelem ) = 1 log µ ( diplomás, k , magas jövedelem ) − 3 k∈{alsó ,közép , felsı }
∑
−λVV11V2V3 ( diplomás ) − λVV31V2V3 ( magas jövedelem ) − λ∅V1V2V3 ( i∅ ) . A T tábla hagyományos loglineáris paraméterekkel történı felparaméterezésének nevezzük a λP megadását, ahol P = {( L,V ), L ⊆ V } rendezett párok halmaza. Formálisan λP:
{
}
λP = λLV : L ⊆ V . Példánk esetén ( ∅,V1V2V3 ) , (V1 ,V1V2V3 ) , (V2 ,V1V2V3 ) , (V3 ,V1V2V3 ) , (V1V2 ,V1V2V3 ) , P= , (V1V3 ,V1V2V3 ) , (V2V3 ,V1V2V3 ) , (V1V2V3 ,V1V2V3 )
{
}
λP = λ∅V1V2V3 , λVV11V2V3 , λVV21V2V3 , λVV31V2V3 , λVV11VV22V3 , λVV11VV32V3 , λVV21VV32V3 , λVV11VV22VV33 . A paraméterezés definíciójából közvetlenül következik, hogy adott i cellához tartozó paraméterértékek összege éppen a log-cellagyakoriságot adja:
log µ ( i ) =
∑ λ ( i ), V L'
L'
(3)
L '⊆V
és hogy 0-t kapunk, ha egy adott paramétert úgy összegezünk, hogy tetszıleges értéken rögzítjük a hozzá tartozó L hatás valamely M ⊆ L részhalmazának koordinátáit:
∑
jL ∈TL :( jL ) M = ( i L ) M
17
λLV ( jL ) = 0.
(4)
2. FEJEZET: MARGINÁLIS MODELLEK
Az utóbbi tulajdonság egyszerő esetben egy adott sorhoz/oszlophoz tartozó paraméterértékek összegének 0 voltát jelenti, pl.:
∑
k∈{alsó , közép , felsı }
λVV11VV22V3 ( diplomás, k ) = 0.
Vagyis elég az alsó- és a középosztályhoz tartozó paraméter megadása, a felsıosztályé redundáns, mert ezekbıl megkapható. Általánosan is, a T = × pj=1 I j tábla felparaméterezéséhez a paraméterértékek közül elég néhánynak a megadása, a többiek redundánsak. Konkrétan: a λP paraméterezés redundanciája kiküszöbölhetı, ha minden változó értékkészletébıl elhagyunk egy értéket, és az így kapott kisebb kontingencia-táblához tartozó cellák λLV paramétereit vesszük csak figyelembe: Legyen vi ∈ I i , Iɶi = I i \ {vi } , Tɶ = × pj=1 Iɶ j . Ekkor az i ∈ Tɶ cellákon
1. definíció
értelmezett, de az eredeti T táblából számolt paraméterek összessége λɶLV , a paraméterezést λɶP jelöli: λɶP = λɶLV : L ⊆ V .
{
}
A λɶLV paraméternek már nincs redundáns értéke. A λɶV
L=
∏ (I k j =1
j
)
k
∪ i=1Vi
paraméterhez éppen
− 1 nem-redundáns paraméterérték tartozik. Könnyen kiszámolható, hogy a
λɶP paraméterezés összesen
∏
p j =1
I j paraméterértékbıl áll, ami éppen a T tábla
celláinak számával egyezik meg. Az SPSS loglineáris modellezési parancsai (a Hierarchical Loglinear Model és a General Loglinear Model) éppen így járnak el a paraméterbecslések takarékos megadásánál: csak a nem redundánsakat tüntetik fel közülük, mindig a változók utolsó értékét elhagyva. Példánk esetén a T (diplomás, osztály)×(magas jövedelem, alacsony változónként egy-egy érték elhagyásával a jövedelem) 2 cellás táblázatot tekintjük. A
diploma nélküli)×(alsó, közép-, felsı jövedelem) 12 cellás táblázat helyett Tɶ (diplomás)×(alsó, középosztály)×(magas
18
2. FEJEZET: MARGINÁLIS MODELLEK
λɶ∅V1V2V3 ( mindegyik cella ) , λɶVV1V2V3 ( diplomás ) , λɶVV1V2V3 ( alsó osztály ) , 1 2 V1V2V3 V1V2V3 ɶ ɶ λV λ középosztály , magas jöv. , ( ) ( ) V3 2 λɶVV1VV2V3 ( diplomás,alsó osztály ) , λɶVV1VV2V3 ( diplomás,középosztály ) , 1 2 12 V V V V V λɶP ( µ ) = λɶV11V32 3 ( diplomás,magas jöv.) , λɶV21V32V3 ( alsó osztály, magas jöv.) , V1V2V3 λɶV2V3 ( középosztály, magas jöv.) , VV V λɶV11V22V33 ( diplomás,alsó osztály, magas jöv.) , VV V λɶV11V22V33 ( diplomás, középosztály, magas jöv.) paraméterezéshez 12 paraméterérték tartozik, melyekkel az eredeti táblázat 12 cellája felparaméterezhetı. A λɶP paraméterezés esetén a paraméterek nem csupán nem redundánsak, de értéktartományukon belül egymástól függetlenül bármilyen értéket felvehetnek. Ezt a tulajdonságot nevezik variációs függetlenségnek, mely formálisan az alábbi módon definiálható: 2. definíció Legyen θ=( θ1, ..., θt) t paraméterbıl álló paraméterezés. Azt mondjuk, hogy a θi-k variációsan függetlenek, ha R (θ ) = R (θ1 ) × ... × R (θ t ) , ahol R(.) az értékkészletet jelöli.
λ-paraméterek esetén az értékkészlet a (-∞,+∞) intervallum. Példánkon illusztrálva: mivel tudjuk, hogy a λɶP paraméterezés variációsan független, a paraméterek bármilyen negatív vagy pozitív értéket felvehetnek. Pl. a λɶV1V2V3 (magas jövedelem) = 0,3, V3
ɶV1V2V3 (diplomás, V1V2
λ
középosztály) = −8,
ɶV1V2V3 (diplomás, V1V2
λ
felsı osztály) = 6
paraméterekhez is létezik nekik megfelelı gyakorisági eloszlás. A variációs függetlenség fontosságáról a marginális loglineáris paraméterezés kapcsán írok bıvebben, a 2.3.1 fejezetben. Ott láthatunk majd példát variációsan nem független paraméterekre is. Fontos tulajdonsága továbbá a loglineáris paraméterezésnek, hogy a paraméterértékek jól értelmezhetık: a paraméterek a hatáshoz tartozó változók közötti feltételes kapcsolat átlagos erısségének mértékeként interpretálhatók, az összes többi változóra, mint feltételre nézve. Például ha a hatáshoz tartozó változók binárisak, a paraméter könnyen megfeleltethetı a vonatkozó feltételes esélyhányadosok bizonyos
19
2. FEJEZET: MARGINÁLIS MODELLEK
átlagának.
Szemléltetésül:
az
λVV11VV32V3 ( diplomás,átlag felett keresı )
elıbbi
paraméterérték az alábbi formára hozható:
λVV11VV32V3 ( diplomás, magas jöv.) = 1 = 3
∑ k
µ ( diplomás, k , magas jöv.) µ ( nem diplomás, k , alacsony jöv.) 1/ 4 log = µ ( diplomás, k , alacsony jöv.) µ ( nem diplomás, k , magas jöv.) =
1 3
∑ log ( EH (V = {1,2} ,V = {1, 2} | V 1
3
k
2
= k)
1/ 4
),
ami a foglalkozási státusz egyes kategóriáinak rögzítése mellett számolt feltételes esélyhányadosok negyedik gyökének átlaga. Az esélyhányados ismert asszociációs mérıszám, így valóban azt mondhatjuk, hogy a paraméter az iskolázottság és jövedelem foglalkozásra feltételes kapcsolatának átlagos erısségét mutatja. Ha a λVV11VV32V3 értéke 0, akkor az „átlagos hatás” 0, tehát V1 és V3 között V2 bizonyos értékei melletti pozitív feltételes kapcsolat van, bizonyos értékei mellett negatív feltételes kapcsolat van, amelyek átlagoláskor kioltják egymást. Szokásos szóhasználattal ezt úgy is mondhatjuk, hogy a V2-re történı korrigálás után, vagy a V2 hatását kiszőrve a két változó között nincs asszociáció. Értelemszerően, ha a λVV11VV32V3 paraméter értéke pozitív (negatív), akkor a feltételes kapcsolatok inkább pozitívak (negatívak). Fontos itt kitérnem arra a mobilitás-kutatási alkalmazásoknál, az 6.2.2. és 7.1. fejezetekben még többször elıkerülı tényre, hogy az esélyhányados és a marginálisok variációsan függetlenek (Rudas, 1998). Ez nem csak kétdimenziós táblára igaz, hanem általánosan, magasabbrendő esélyhányadossal és nála alacsonyabbrendő marginálisokkal megfogalmazva is. Ez a tulajdonság asszociációs mérıszámok esetén elsıdleges fontosságú, hiszen az asszociáció tisztán az együttes eloszlásban meglevı információhoz kapcsolódik, a marginálisokban meglevı információhoz nem. Tehát a loglineáris paramétereknek az esélyhányadosokra történı visszavezethetısége azért is elınyös tulajdonság, mert így öröklik azoknak az alacsonyabbrendő marginálisoktól való függetlenségét is. Változók feltételes függetlensége a késıbbiekben központi jelentıségő fogalom lesz, ezért ennek a fogalomnak a paraméterekkel való kapcsolatát külön is érdemes megvizsgálni. 3. definíció X, Y és Z diszkrét valószínőségi változók esetén X és Y feltételesen függetlenek Z-re nézve, ha:
P ( X = x, Y = y | Z = z ) = P ( X = x | Z = z ) P ( Y = y | Z = z ) ,
20
2. FEJEZET: MARGINÁLIS MODELLEK
Z minden z értéke mellett, amire P ( Z = z ) > 0. Jelöléssel: X ⊥ Y | Z . Vegyük észre, hogy a definíció változtatás nélkül értelmezhetı változóhalmazok függetlenségére is. A feltételes függetlenségnek a paraméterekkel való kapcsolatának vizsgálatához vegyünk elıször azt a speciális esetet, amikor X, Y és Z bináris változók. Láttuk, hogy a XYZ λXY paraméter a Z-re, mint feltételre vett, szigorúan monoton függvénnyel (negyedik gyökök logaritmusa) transzformált feltételes esélyhányadosok átlagát adja. Belátható, XYZ hogy a λ XYZ paraméter ugyanakkor a feltételes esélyhányadosok transzformáltjának különbségével egyenlı: 1+ ijk
XYZ λXYZ ( i, j, k ) = ( −1)
(log ( EH ( X ,Y | Z = 1) ) − log ( EH ( X ,Y | Z = 2) )). 1/ 4
1/ 4
XYZ paraméter értéke 0, akkor a két feltételes esélyhányados megegyezik, Ha a λ XYZ vagyis Z-nek nincs hatása az XY kapcsolatra. Itt a három változó szerepe szimmetrikus, vagyis ugyanez igaz az X feltétel melletti YZ kapcsolatra is stb.
Ha X ⊥ Y | Z , akkor nyilván a feltételes esélyhányadosok értéke 0, ezért az ezek XYZ XYZ függvényeként definiálható λ XYZ és λ XY paraméterek értéke is 0 minden cellára. Ugyanez fordítva is igaz: a két paraméter 0 volta, mint láttuk, a feltételes esélyhányadosok azonosságát és átlagos 0 értékét jelenti, ez a két feltétel viszont 0 voltukat implikálja, ami éppen feltételes függetlenséget jelent.
Általában is igaz, hogy loglineáris paraméterezés mellett változók feltételes függetlensége könnyen megfeleltethetı bizonyos paraméterek 0 voltának: 1. tétel Legyen X és Y a V két diszjunkt részhalmaza, legyen Z = V \ ( X ∪ Y ) . Ekkor X ⊥ Y | Z akkor és csak akkor, ha
λLV = 0, ∀L ∈ P ( X ∪ Y ∪ Z ) \ ( P ( X ∪ Z ) ∪ P (Y ∪ Z ) ) , ahol P(.) az összes részhalmaz halmazát, azaz a hatványhalmazt jelöli. Itt a λLV = 0 kifejezés úgy értelmezendı, hogy a λLV leképezés null-leképezés, azaz a hozzá tartozó marginális táblázat minden cellájára 0 az értéke. Az eddigiekben a kontingencia-tábla felparaméterezését tárgyaltam, de nem említettem még a modell fogalmát. Modellnek a T-n értelmezett F gyakorisági eloszlások G részhalmazait nevezzük. Fenti példánknál maradva pl. a V1 ⊥ V3 | V2 modell (a jövedelem és az iskolázottság foglalkozásra vett függetlensége) csak azokat a pozitív gyakorisági eloszlásokat tartalmazza, ahol a cellagyakoriságok megfelelnek a 3.
21
2. FEJEZET: MARGINÁLIS MODELLEK
definíció feltételének. Egy G1 modell tartalmaz egy G2 modellt, ha a megfelelı gyakorisági eloszlás-halmazok tartalmazzák egymást. Ilyenkor azt mondjuk hogy a G2 szőkebb modell, mint a G1, vagy azt, hogy G2 a G1 almodellje (submodel), vagy hogy G1 a G2 tartalmazó modellje (supermodel). Az almodellt és a tartalmazó modellt egymásbaágyazottnak (nested) is nevezik. Ilyen konstelláció áll elı pl., amikor G1-et definiáló feltételes függetlenségi állítások között a G2-t definiáló feltételes függetlenségi állítások is szerepelnek. Pl. a V={V1, V2, V3, V4} változók esetén, ahol V4 az apa foglalkozása a V2-vel megegyezı kategóriákkal, ha G1-et a V1 ⊥ V3 | V2 definiálja, G2-t a ( V1 ⊥ V3 | V2 és V4 ⊥ V2 | V1 ), akkor G2 szőkebb, mint G1. A disszertációban szereplı modellek szempontjából fontos loglineáris és log-affin modellekhez tartozó eloszlások azonosíthatók a loglineáris paraméterekre elıírt bizonyos összefüggésekkel, ezeket definiálom az alábbiakban. Azt mondjuk, hogy G ⊆ F loglineáris modell, ha elemei olyan eloszlások, amiknek a λɶP paraméterezéssel kapott paraméterértékeinek bizonyos lineáris kombinációi nullával egyenlık. Formálisan:
4. definíció
µ ∈G ⇔
∑
L ⊆V ,i L ∈T L , j =1... J
α Li L j λɶLV ( i L ) = 0,
ahol J számú lineáris kombinációt írtunk fel, a G által meghatározott α Li L j konstansokkal (itt az alsóindex az L hatáshalmaztól, az iL cellától és a j. egyenlettıl való függést jelöli). Láttuk, hogy azok a X ⊥ Y | Z feltételes függetlenségi modellek, ahol a Z feltételben az X-en és Y-on kívül minden, a V-hez tartozó változó szerepel, könnyen megadhatók bizonyos loglineáris paraméterek 0-ként való elıírásával. Ezek tehát loglineáris modellek: az α-k ilyenkor egy kivétellel mind 0-k. Ha nem 0-ban, hanem valamely más értékben rögzítjük a paraméterek lineáris kombinációját (pl. adott erısségő feltételes kapcsolatot írunk elı egy változópárra), ennél általánosabb modellosztályt definiálhatunk: Azt mondjuk, hogy G ⊆ F log-affin modell, ha olyan eloszlásokat tartalmaz, amiknek a λɶ paraméterezéssel kapott paraméterértékeink bizonyos lineáris
5. definíció
P
kombinációi egy-egy elıírt βj konstanssal egyenlık. Formálisan:
µ ∈G ⇔
∑
α Lij λɶLV ( i L ) = β j ,
L ⊆V ,i∈T , j =1... J
ahol α Lij és βj a G által meghatározott konstansok. Az elnevezés onnan jön, hogy a modelleket definiáló paramétermegkötések az elsı esetben lineáris kombinációk, a második esetben affin kombinációk. Geometriailag a
22
2. FEJEZET: MARGINÁLIS MODELLEK
loglineáris modellek a log-cellagyakoriságok T dimenziós terének lineáris altereivel, a log-affin modellek ennek affin altereivel (a lineáris alterek eltoltjaival) azonosíthatók.
2.2 Marginális modellek, marginális loglineáris modellek Az alábbi tételek, definíciók és jelölések, hacsak nem jelzem másként, Bergsma és Rudas (2002) ill. Rudas és Bergsma (2004) munkájára támaszkodnak. A marginális modellek a kontingencia-tábla marginálisaira tett megszorításokkal definiálhatók. Marginális modellt definiál például az a feltevés, hogy egy populációban adott vélemény megoszlása nem változik valamely beavatkozás ellenére sem10. Ilyen kísérleti elrendezésre példa a deliberative poll (kb.: gondolkodtató közvéleménykutatás, nincs bevett magyar elnevezése), amit Magyarországon elsıként Örkény Antal és társai próbáltak ki 2005 ıszén. A mintába vont személyek cigánykérdéssel kapcsolatos véleményét mérték a kérdések közös megvitatása elıtt és után. Két változóval kódolva a vélemény beavatkozás elıtti (A) és beavatkozás utáni (B) megoszlását, egy lehetséges marginális modell a két változó által meghatározott kontingencia-tábla megfelelı sor- és oszlop-marginálisainak páronkénti egyenlıségét, formálisan a TA ill. TB marginális táblák cellagyakoriságainak azonosságát tételezi fel. Marginális modell megadásához tehát a marginális eloszlások felparaméterezésére van szükségünk, ami pl. marginális loglineáris paraméterekkel oldható meg. Ezek a hagyományos loglineáris paraméterektıl abban térnek el, hogy nem csak az összes változó együttes eloszlása, hanem bármely marginális eloszlás mellett definiálhatunk paramétereket. Ezzel az általánosítással ugyanakkor a hagyományos loglineáris paraméterezésnél sokkal összetettebb keretet kapunk. Látni fogjuk, hogy a hagyományos esetre jellemzı elınyös tulajdonságok itt nem mindig teljesülnek. Tekintsük a korábban már definiált, egy M ⊆ V marginálishoz tartozó (.)M projekciót, a TM marginális táblát és a µ M ( i M ) marginális gyakoriságokat. A marginális loglineáris paraméterek a hagyományos loglineáris paraméterekhez (lásd (1) és (2) formulákat) hasonlóan, rekurzív módon definiálhatók, azzal a különbséggel, hogy a változók V halmaza helyett csupán annak M marginálisát tekintjük, s az szerepel az indexekben is:
λ∅M ( i ∅ ) =
λLM ( i L ) =
1 TM \ L
1 TM
∑ log µ ( j), M
j∈TM
∑
j∈TM :jL = i L
10
(5) log µ ( j) −
∑ λ ( i ). M L'
L'
(6)
L '⊂ L
Az ennek megfelelı elrendezés a biostatisztikában gyakoribb, ahol a tipikus klinikai kísérleteknél kezelés elıtti és utáni állapotokat különböztetnek meg, és a betegek állapotának változása a megfigyelt esemény.
23
2. FEJEZET: MARGINÁLIS MODELLEK
A loglineáris paraméterekhez hasonlóan értelmezhetık a marginális paraméterek is: az (alsó indexben szereplı L) hatáshoz tartozó változók közötti feltételes kapcsolat átlagos erısségének mértékeként interpretálhatók, a (felsı indexben szereplı M) marginálishoz tartozó összes többi változóra, mint feltételre nézve. A paraméter értelmezése és értéke nyilván függ attól, hogy melyik marginálison belül definiáltuk. Itt elég csak a Simpson paradoxonra utalni. A paradoxon arra a tényre hívja fel a figyelmet, hogy egy hatás erıssége, sıt elıjele is függ attól, hogy marginális vagy feltételes hatásként vettük azt figyelembe11. Korábbi, a társadalmi státusz három indikátorával (V1 bináris iskolázottság, V2 három értékő foglalkozási státusz, V3 bináris jövedelem) kapcsolatos példánkhoz visszatérve, azt az apa foglalkozásával (V4) bıvítve pl. az alábbi három, ugyanazon hatás mellett definiált paraméter mást és mást jelent, más és más értéket vehet fel:
λVV11VV33 (1,1) = log EH (V1 = {1, 2} ,V3 = {1, 2} ) , 1/4
λVV11VV32V3 (1,1) = λVV11VV32V3V4 (1,1) =
1 9
1/ 4 1 log EH (V1 = {1, 2} ,V3 = {1, 2} | V2 = j ) , 3 j =1..3
∑
∑ log EH (V = {1, 2} ,V = {1, 2} | V 1
3
4
1/ 4
= j ,V2 = l ) .
j =1..3, l =1..3
Elıfordulhat pl., hogy az elsı paraméter nagy pozitív értéket vesz fel, tehát a kereset és az iskolázottság között erıs pozitív kapcsolatot mutat, míg a második paraméter értéke kisebb pozitív szám, jelezve, hogy a diplomások magasabb keresete részben, de nem egészében az általuk elért jobb állásokkal magyarázható. Ha a harmadik paraméter értéke 0, akkor azt mondjuk, hogy az iskolázottság és a kereset között a többi változóra történt korrigálás után nincs (feltételes) kapcsolat12. Ilyen szituáció az, amikor a diplomások általában jobb állásokhoz jutnak, továbbá a magasabb foglalkozási státuszú apák utódai olyan kulturális elınyöket örökölnek (beszédstílus, megjelenés), amik jobb keresethez juttatják ıket, köreikben magasabb a diplomások aránya is, de a jövedelmet az iskolázottság közvetlenül, ezeken a csatornákon kívül már nem befolyásolja.
11
A biostatisztikai és szociológiai módszertani irodalomban standard példának számító paradoxon lényege, hogy (elsı látásra intuíciónknak ellentmondó módon) két változó kapcsolatának elıjele egy harmadik változó figyelembe vételét követıen megváltozhat. Pl. az A vállalat nagyobb arányban alkalmaz roma dolgozókat, mint a B vállalat, de a dolgozók iskolai végzettsége szerint külön vizsgálva mindegyik feltételes táblában a B vállalat roma dolgozói aránya a nagyobb. A példa megmagyarázhatóvá válik, ha feltesszük, hogy a B vállalat magasabb végzettséghez kötıdı munkaköröket kínál, és hogy a romák átlagosan alacsonyabb iskolázottságúak. A paradoxon nevét Edward H. Simpsonról, egyik elsı leírójáról kapta. 12 Mint a 2.1 fejezetben láttuk, ilyenkor a feltételes függetlenség még nem feltétlenül áll: a 0 átlagos értékként adódik, akár negatív és pozitív értékek átlagaként.
24
2. FEJEZET: MARGINÁLIS MODELLEK
A hagyományos loglineáris modellekre érvényes (3) és (4) összefüggések itt is állnak, tetszıleges M marginális rögzítésével log µ M ( i M ) =
∑ λ ( i ), M L'
(7)
L'
L '⊆ M
azaz az M-hez tartozó összes paraméter összege a megfelelı marginális cellagyakoriságokat adja. Fennáll továbbá, hogy
∑
jL ∈TL :( jL ) M ' =( i L ) M '
λLM ( jL ) = 0, (8)
vagyis 0-t kapunk, ha egy M-lel és L-lel definiált paraméter értékeit a TL tábla azon celláin összegezzük, amiknek az L halmaz valamely M ' ⊆ L részhalmazához tartozó koordinátái a rögzített i cella megfelelı koordinátáival egyenlık. Ugyanannak a kontingencia-táblának a felparaméterezése marginális loglineáris paraméterekkel többféleképpen történhet. Pl. belátható, hogy az alábbi két paraméterezés egyaránt egy-egyértelmő megadása a TV1V2 V3 táblához tartozó eloszlásnak:
λ∅V1 , λVV11 , λVV21V2 , λVV11VV22 , λVV31V2V3 , λVV11VV32V3 , λVV21VV32V3 , λVV11VV22VV33 , λ∅∅ , λVV11 , λVV33 , λVV11VV33 , λVV22 , λVV22VV33 , λVV11VV22 , λVV11VV22VV33 .
(9) (10)
A (10)-es paraméterezés, amikor minden hatás a vele megyegyezı marginálison belül adott, éppen Glonek és McCullagh többváltozós logisztikus transzformációjához tartozó paraméterekbıl áll (Glonek, McCullagh, 1995). Marginális loglineáris paraméterek egy halmaza a paraméterekhez tartozó M marginálisból és L hatásból álló rendezett párok P halmazával definiálható:
{
}
λP = λLM : ( L, M ) ∈ P . λP -re eddig még semmilyen megkötést nem tettünk, akárhány paramétert tartalmazhatott, a kontingenciatábla egyértelmő felparaméterezéséhez képest akár túl keveset vagy feleslegesen sokat is. A következıkben ennek megoldására elıször bizonyos szempontból „elegendı” számú paramétert biztosítunk, majd ezek közül elhagyjuk a feleslegeseket.
25
2. FEJEZET: MARGINÁLIS MODELLEK
6. definíció Az (L,M) rendezett párok P halmazát teljesnek (complete) nevezzük, ha minden L ⊆ V hatáshoz van olyan (és csak egy olyan) M ⊆ V marginális, amire (L,M) a P-nek eleme. A hagyományos loglineáris paraméterezéshez tartozó P pl. teljes, hiszen minden hatáshoz pontosan egy marginális, a V tartozik, és minden M ⊆ V szerepel a hatások között. A V = {V1 ,V2 ,V3 } változókra teljes a (9) és (10) paraméterezések P halmaza is is. A teljes P halmazokhoz tartozó λP paraméterezések a (8)-as egyenletbıl következıen feleslegesen sok paramétert tartalmaznak. A redundáns paraméterek eltávolítása a hagyományos loglineáris paramétereknél látott módon itt is elvégezhetı.
7. definíció
Legyen vi ∈ I i , Iɶi = I i \ {vi } , Tɶ = × pj=1 Iɶ j . Ekkor az i ∈ Tɶ cellákon
értelmezett, de az eredeti T táblából számolt
λɶLM (i L ) : F → ℝ
{
Tɶ
}
paraméterek összességét λɶP jelöli: λɶP = λɶLM : L ⊆ M ⊆ V . A konstrukcióból következıen λɶP már nem tartalmaz redundáns paramétert. Pl. ha a λP a (9)-es paraméterezéssel egyezik meg, λɶP a következıképpen áll elı: λɶ∅V1 (mindegyik cella), λɶVV1 ( diplomás ) , λɶVV1V2 ( alsó osztály ) , 1 2 λɶVV1V2 ( középosztály ) , λɶVV1VV2 ( diplomás,alsó osztály ) , 1 2 2 λɶVV1VV2 ( diplomás,középosztály ) , λɶVV1V2V3 ( magas jöv.) , 3 12 λɶP ( µ ) = λɶVV11VV32V3 ( diplomás,magas jöv.) , λɶVV21VV32V3 ( alsó osztály, magas jöv.) , V1V2V3 λɶV2V3 ( középosztály, magas jöv.) , VV V λɶV11V22V33 ( diplomás, alsó osztály, magas jöv.) , VV V λɶV11V22V33 ( diplomás, középosztály, magas jöv.) A loglineáris ill. log-affin marginális modellek meghatározása is a hagyományos esetben látott definíciót követi. Legyen adott egy P halmaz. Azt mondjuk, hogy G ⊆ F marginális loglineáris modell, ha elemei olyan eloszlások, amiknek a λɶP paraméterezéssel kapott paraméterértékeinek bizonyos lineáris kombinációi nullával egyenlık. Formálisan:
8. definíció
26
2. FEJEZET: MARGINÁLIS MODELLEK
µ ∈G ⇔
∑
λɶLM ∈λ P ,i L ∈T L , j =1... J
α λɶ M i j λɶLM ( i L ) = 0, L
L
ahol J számú lineáris kombinációt írtunk fel, a G által meghatározott α λɶ M i L
L
j
konstansokkal. Az α három alsóindexe azt mutatja, hogy minden λɶLM paraméterhez és minden iL cellához más konstansszorzó tartozhat az 1...J egyenletek mindegyikében. Legyen adott egy P halmaz. Azt mondjuk, hogy G ⊆ F marginális log-affin modell, ha elemei olyan eloszlások, amiknek a λɶP paraméterezéssel kapott paraméterértékeinek bizonyos lineáris kombinációi adott konstansokkal egyenlık. Formálisan:
9. definíció
µ ∈G ⇔
∑
λɶLM ∈λ P ,i L ∈T L , j =1... J
α λɶ M i j λɶLM ( i L ) = β j , L
L
ahol J számú lineáris kombinációt írtunk fel, a G által meghatározott α λɶ M i L
L
j
és βj
konstansokkal. Megfelelı módon felparaméterezett kontingenciatábla esetén a modell a paraméterekre tett egyszerő megkötésekkel határozható meg. A társadalmi státusszal kapcsolatos 1. példa véve ismét: az 1. tétel szerint az a modell, ami az Iskolázottság (V1) és Jövedelem (V3) Foglalkozásra (V2), mint feltételre vett függetlenségét állítja, a λVV11VV32V3 és λVV11VV22VV33 paraméterek 0-ra állításával definiálható13. Ez a (9)-es paraméterezés mellett közvetlenül megadható, hiszen a paraméterek szerepelnek a paraméterezésben. Viszont a (10)-es paraméterezés esetén a modell ennél nehézkesebb módon (paraméterek összetett, nem feltétlenül lineáris függvényével) definiálható. Ugyanakkor a V1 és V3 marginális függetlensége éppen a (10)-es paraméterezéssel megy könnyen, hiszen ott szerepel a (0-ra állítandó) λVV11VV33 paraméter. Ha az apa foglalkozásáról (V4) és iskolázottságáról (V5) is van információnk, akkor az iskolázottság-foglalkozás kapcsolat intergenerációs változatlanságát feltételezı modell az alábbi marginális asszociációk azonosságával definiálható:
λVV44VV55 = λVV11VV22 . Ez marginális loglineáris modell, hiszen a két paraméter különbségének 0 voltával azonosítható, egyetlen lineáris kombinációval állítható elı, ahol α1 =1 és α2 =-1. 13
Az egyértelmőség kedvéért: az 1. tétel a sok lehetséges közül az egyek paraméterezését adja meg a feltételes függetlenségnek. Így a tétel használatakor szintén csak az egyik szóba jöhetı (de a legegyszerőbb, legkézenfekvıbb) paraméterezést határozunk meg.
27
2. FEJEZET: MARGINÁLIS MODELLEK
2. példa A mobilitáskutatásban gyakran használt log-multiplicative layer effect vagy másnéven unidiff modellt (Xie, 1992, Erikson, Goldthorpe, 1992) is érdemes itt megemlíteni (a módszerrıl részletesebben lásd a 6.2.1. fejezetet). A modell nevét onnét, kapta, hogy (a) idıbeli összehasonlításoknál két idıpont között egyenletesen (uniform) változó mobilitási esélyeket tételez fel, vagy - technikailag azonos módon (b) országok összevetésénél az országonként változó intenzitású mobilitási esélyek azonos mintázatát teszi fel. Ez a feltevés az apa foglalkozása (F’) – utód foglalkozása (F) feltételes asszociációnak egy φk konstanssal való szorzástól eltekintve állandó voltával azonosítható, ahol a feltétel a T (idıpont az elsı esetben vagy ország a másik esetben), a k pedig a feltételváltozó egy értékéhez tartozik. Paraméterekkel: FT λFF''FFT ( i, j ) + λFF''FT ( i, j, k ) = ψ ijϕ k .
Itt a ψij mutatja az apa-utód kereszttábla (i,j) cellájában a kapcsolat minden idıpontra (országra) közös értékét, φk pedig ennek a kapcsolatnak az intenzitásának idıbeli (országok közötti) változását. Rögzített φk–k mellett ezek az egyenletek marginális logaffin modellt definiálnak, az alábbi lineáris egyenletrendszerekkel: 1
ψ ij
λFF''FFT ( i, j ) +
1
ψ ij
FT λFF''FT ( i, j , k ) = ϕ k .
Csökkenı (növekvı) φk–kkal az asszociáció gyengülése (erısödése), vagyis társadalmi nyitódás (záródás) tesztelhetı. A tényleges unidiff modell ennél még kevésbé meghatározott: a φk–kat is ismeretlennek tételezi fel, és ezek becslése a cél, feltéve, hogy a modell illeszkedik.
3. példa A deliberative poll-lal kapcsolatos példára térve: legyen A a beszélgetés elıtti, B a közös beszélgetés utáni vélemény (az egyszerőség kedvéért bináris változóval kódolva). A vélemény megoszlásának változatlanságát tételezı modell az AB kereszttábla A és B marginálisának egyenlıségével azonosítható. Az A marginálisa a λɶLA , L ⊆ A paraméterekkel (7)-bıl következıen könnyen megadható: log µ A (1) = λɶ∅A (i ∅ ) + λɶAA (1) , hasonlóan log µ B (1) = λɶ∅B (i ∅ ) + λɶBB (1) , ebbıl log µ A (1) = log µ B (1) ⇔ λɶAA (1) = λɶBB (1), vagyis
µ ∈ G ⇔ λɶAA (1) − λɶBB (1) = 0. Tehát a modell marginális loglineáris modell, és könnyen megadható, ha az (A,A) és (B,B) szerepel a P-ben.
4. példa Ugyanebben a keretben maradva tegyük fel, hogy az a feltevésünk, hogy a romákkal szembeni elutasító/elfogadó attitőd a romákról meglévı ismeretekkel
28
2. FEJEZET: MARGINÁLIS MODELLEK
szorosan összefügg, és a közös beszélgetés nem változtat ennek az összefüggésnek az erısségén. Ekkor, ha C jelöli a romákkal kapcsolatos információk mennyiségét a beszélgetés elıtt, D pedig a beszélgetés után, akkor a AC BD λ AC = λBD
egyenlıséggel fejezhetı ki a marginális asszociációk állandósága. Ez tehát szintén marginális loglineáris modell. Ha azt gondoljuk továbbá, hogy elsısorban ez az informáltsági szint számít az attitőd kialakulásánál, és az elfogadó attitőd pozitív kapcsolata az iskolázottsággal csak azért tőnik erısnek, mert az iskolázottság befolyásolja az informáltsági szintet is, akkor az attitőd és az iskolázottság (I) ismeretszintre vett feltételes függetlenségét tesszük fel, ami szintén marginális loglineáris modell, és az 1. tétel segítségével így fejezhetı ki: ACI BDI λ AIACI = λ ACI = λBIBDI = λBDI = 0,
tehát könnyen megadható, ha ezek a paraméterek szerepelnek a paraméterezésben.
2.3 A paraméterezés jó tulajdonságai Lényeges kérdés tehát az, hogy olyan paraméterezést válasszunk, amellyel a vizsgált modell egyszerően megadható. A paraméterekre tett megkötések értelmezésénél felmerülı másik fontos kérdés a paraméterek interpretálhatósága: láttuk, hogy marginális loglineáris paraméterek esetén a paraméterek kézenfekvı módon, feltételes asszociációkra történı visszavezetéssel értelmezhetık. Az alábbiakban a marginális loglineáris paraméterezés további, alapvetı fontosságú tulajdonságait tárgyalom. Hacsak nem jelzem másként, a tételeket Bergsma, Rudas (2002)-bıl és Rudas, Bergsma (2004)-bıl emelem ki, a definíciók, jelölések és magyarázatok esetében e forrásokon kívül Lauritzen (1996)-ra is támaszkodom majd. 2.3.1
Variációs függetlenség
Mint láttuk, a hagyományos loglineáris paraméterek variációsan függetlenek, vagyis az egyes paraméterek a többiektıl függetlenül bármilyen értéket felvehetnek (a tulajdonság pontos meghatározását a 2. definíciónál láttuk). A marginális loglineáris paraméterezésekre ez nem áll általánosan. Pedig alapvetı fontosságú lenne a tulajdonság teljesülése, hiszen ha a paraméterek nem függetlenek variációsan, az nemlétezı modellek megadásához vezethet, problémát okoz interpretációjukban, és gyakran okoz számítási problémákat is.
5. példa Rudas és Bergsma (2004) példájára támaszkodva, annak egy társadalomtudományi megfelelıjén illusztrálom a variációsan nem független paraméterek interpretációs problémáit. Vegyük a már látott deliberative poll példáját. Tekintsük a közös vitában részt vett, és az abban részt nem vett (ezekbe a csoportokba a vitát megelızıen véletlen módon besorolt) személyek csoportjait, külön a diplomásokat és a legalacsonyabb iskolai végzettséggel rendelkezıket, és nézzük meg,
29
2. FEJEZET: MARGINÁLIS MODELLEK
milyen a romákkal szembeni attitődjük (két értékben: elfogadó vagy elutasító) a közös vitát követıen. A háromdimenziós táblát az alacsonyabb dimenziós marginálisokkal és egy, a vita hatását iskolai végzettségenként külön mérı mérıszámmal paraméterezzük fel. Az utóbbi mérıszámot az elfogadó attitőddel rendelkezık arányának a vitán részt vett és a vitán részt nem vett csoportokban mért különbségeként definiáljuk. Az alacsony iskolai végzettségen belül az alábbi táblában a zárójelek elıtt feltüntetett 10 5 − = 0,1 ez az érték, a diplomásokra gyakoriságokkal számolva 10 + 40 5 + 45 30 20 − = 0, 2 . A mérıszám nem független variációsan a marginálisoktól, 30 + 20 20 + 30 azok meghatározzák maximum értékét. A táblában zárójelben tüntettük fel azokat a gyakoriságokat, amelyek esetén a marginálisok változatlanok lennének, és a mérıszámok maximálisak. A mérıszám maximuma eszerint a legfeljebb általános iskolát végzetteknél 0,3, a diplomásoknál 1. Ennek következtében a két végzettségre kapott mérıszám nem vethetı össze érvényes módon, pl. a most kapott 0,1-es és 0,2-es értékek esetén nem mondhatjuk, hogy az alacsony iskolázottságúakon belül fele olyan hatásos a közös vita, mint a diplomásokon belül, hiszen a 0,2 a lehetséges 1-es maximumtól jóval távolabb van, mint a 0,1 a saját 0,3-as maximumától. 1. táblázat. Hipotetikus példa egy deliberative poll végeredményérıl. Zárójelben a vita maximális hatása esetén fennálló gyakoriságok.
Elfogadó Elutasító Elfogadó Elutasító
Közös vitába bevont Közös vitába be nem vont Legfeljebb 8 általános 10 (15) 5 (0) 40 (35) 45 (50) Diplomás 30 (50) 20 (0) 20 (0) 30 (50)
A példák után a λɶP típusú marginális loglineáris paraméterekre visszatérve: belátható, hogy ha V legalább három változót tartalmaz, akkor a Glonek és McCollughféle marginális loglineáris paraméterekbıl (mint amilyenek a (10)-ben látott paraméterek) elıállított λɶP paraméterei sem függetlenek variációsan. Kérdés, milyen kritérium alapján állapítható meg egy λɶ paraméterezésrıl, hogy variációsan P
független-e. Bergsma és Rudas (2002) fontos tétele szerint a paraméterezés bizonyos kombinatorikus tulajdonságainak teljesülésekor fennáll a paraméterezés komponenseinek variációs függetlensége. Ehhez elıbb definiálnunk kell a P rendezett pár-halmaz két tulajdonságát, a hierarchikusságot (hierarchy) és a rendezett módon való dekomponálhatóságot (ordered decomposability). Legyen P az (L, M), L Œ M Œ V rendezett párok halmaza. Legyen
30
2. FEJEZET: MARGINÁLIS MODELLEK
M = {M | ∃L ⊆ V : ( L, M ) ∈ P} a paraméterezéshez tartozó marginálisok halmaza. A marginálisok egy adott M1, ..., Ms, Mi œ M rendezéséhez legyen
Li = {L | ( L, M i ) ∈ P} az i. marginálishoz tartozó hatások halmaza, és legyen
K1 = P ( M 1 ) ,
(
K i = P ( M i ) \ P ( M1 )
∪...∪ P ( M ) ) , i −1
ahol P(.) szokott módon a hatványhalmazt jelöli. 10. definíció A P halmazt hierarchikusnak nevezzük, ha az M elemeinek van olyan M1, ..., Ms rendezése, ahol M i ⊆ M j , ha i>j
(11)
Li ⊆ K i .
(12)
és
Azaz a sorrend nem lehet növekvı (11), és minden hatást a lehetı legkorábbi marginális mellett kell szerepeltetni (12). Ilyenkor az M rendezését is hierarchikus rendezésnek, és magát a paraméterezést is hierarchikus marginális loglineáris paraméterezésnek nevezzük. A (9) és (10) paraméterezések hierarchikusak. Ezzel szemben az alábbi teljes paraméterezés nem hierarchikus:
{
}
AB λP = λ∅A , λAAB , λBAB , λ AB ,
mert a (11) eléréséhez M ({A}, {AB}) sorrendő lehet csak, ekkor L1={«}, L2={{A}, {B}, {AB}}, K1={«,{A}}, K2={{B}, {AB}}. Viszont így L 2 ⊆ K 2 . A problémát az okozza, hogy az A hatás nem a lehetı legkorábbi marginális (A) mellett szerepel.
A P halmaz dekomponálhatóság:
másik
fontos
tulajdonsága
a
rendezett
módon
való
11. definíció Marginálisok M halmazának egy M1, ..., Ms hierarchikus rendezését rendezett módon dekomponálhatónak nevezzük, ha M-nek legfeljebb két eleme van, vagy ha minden k=3, ..., s-re az { M1, ..., Mk } r számú maximális elemére14 vagy r≤2,
14
Egy halmaz maximális elemeinek nevezzük azokat az elemeket, amikhez nincsen ıket tartalmazó halmazbeli elem.
31
2. FEJEZET: MARGINÁLIS MODELLEK
vagy az eredeti rendezést tartó M1, ..., Mr olyan, hogy minden l=3, ..., r-re van olyan jl
(∪
l −1 i =1
Mi
)∩ M = M l
jl
∩M , l
vagyis a rendezés olyan, hogy minden tagjának az összes korábbival való metszete benne van valamelyik korábbi tagban. A P halmazt akkor nevezzük rendezett módon dekomponálhatónak, ha a hozzá tartozó M elemeinek van olyan rendezése, ami hierarchikus és rendezett módon dekomponálható. Ilyenkor magát a paraméterezést is rendezett módon dekomponálhatónak nevezzük. Fontos, hogy a tulajdonság az M egy rendezéséhez köthetı: elıfordul, hogy van olyan rendezés, ami megfelel a definíciónak, és van olyan is, ami nem, de a tulajdonság meglétéhez elegendı egyetlen megfelelı rendezést találni. Triviális, hogy P rendezett módon dekomponálható, ha az M egyelemő. Ilyen a hagyományos loglineáris rendezés, ahol M={ V }. A (9)-es paraméterezéshez tartozó P is rendezett módon dekomponálható. Marginálisai V1, V1V2, V1V2V3, a keresett rendezésnek ezt a sorrendet kell tartania ahhoz, hogy (11) teljesüljön. A rendezés, mint láttuk, hierarchikus. Az elsı 3 tagjának maximális elemei közé egyetlen halmaz, V1V2V3 tartozik, így a rendezett dekomponálhatóság triviális módon teljesül. Ezzel szemben a (10)-es paraméterezés nem rendelkezik a tulajdonsággal. Akárhogyan rendezzük is az M = { «, V1, V3, V1V3, V2, V2V3, V1V2, V1V2V3 } halmaz elemeit, sosem teljesülnek a feltételek. Pl. a «, V1, V3, V1V3, V2, V2V3, V1V2, V1V2V3 rendezés mellett az elsı hét tag maximális elemeit, V1V3, V2V3, V1V2-t véve, V1V3 » V2V3 és V1V2 metszete, V1V2 nem részhalmaza sem V1V3-nak sem V2V3-nek. Általában is igaz, hogy a Glonek-McCollugh-féle paraméterezés, amilyen a (10)-es is, nem dekomponálható rendezett módon. Még általánosabban: könnyen belátható, hogy ha M=P(V) és legalább három eleme van, akkor P nem dekomponálható rendezett módon. Most már megadható a paraméterezésre olyan szükséges és elégséges feltétel, ami komponenseinek variációs függetlenségét biztosítja: 2. tétel Egy hierarchikus és teljes P halmazhoz tartozó λɶP paraméterezés komponensei akkor és csak akkor függetlenek variációsan, ha a P rendezett módon dekomponálható. A tétel segítségével tehát könnyen eldönthetı bizonyos paraméterezésekrıl, hogy komponensei variációsan függetlenek-e. Ha igen, akkor a paraméterek értékei bárhogyan elıírhatók, interpretációjuk is egyszerő. Felhasználható továbbá a tétel megfelelı paraméterezés elıállítására is. Tekintsük pl. ismét a társadalmi státusz három indikátorával (V1 iskolázottság, V2 foglalkozási státusz, V3 jövedelem) kapcsolatos példánkat. Tegyük fel, hogy csak a jövedelmet meghatározó marginális kapcsolatok, azaz a V1V3 ill. V2V3 marginálisok érdekelnek minket, ezekkel a paraméterekkel:
32
2. FEJEZET: MARGINÁLIS MODELLEK
λVV11V3 , λVV31V3 , λVV11VV33 , λVV22V3 , λVV22VV33 . Ez egy hierarchikus paraméterhalmaz, de nem teljes. Teljessé tehetı a V1V2V3 marginális megjelentetésével, és az összes eddig még nem szerepelt hatáshalmaznak a lehetı legkorábbi helyen történı bevonásával:
λ∅V1V3 , λVV11V3 , λVV31V3 , λVV11VV33 , λVV22V3 , λVV22VV33 , λVV11VV22V3 , λVV11VV22VV33 . Mivel az így elıállított P rendezett módon dekomponálható is, a tétel biztosítja, hogy a megfelelı λɶP paraméterezés komponensei variációsan függetlenek. Ez a konstrukció teljessé tétellel általában is mőködik: bármely hierarchikus, de nem teljes paraméterezés teljessé tehetı a V halmaznak az M marginálisok közé vonásával, és a hiányzó hatásoknak a sorban lehetı legkorábbi szerepeltetésével. Használható továbbá a tétel variációsan nem független paraméterezés „kijavítására” is. A (10)-es paraméterezés, mint láttuk, rendezett módon nem dekomponálható. Azonban ha a problémát okozó λVV11VV22 paramétert a λVV11VV22V3 -re cseréljük, a kapott
λ∅∅ , λVV11 , λVV33 , λVV11VV33 , λVV22 , λVV22VV33 , λVV11VV22V3 , λVV11VV22VV33 paraméterezés teljes, hierarchikus, és rendezett módon dekomponálható, tehát a hozzá tartozó λɶP variációsan független. A problémát okozó paraméterek kicserélgetése bármikor elvégezhetı. Ez persze nem jelenti azt, hogy ha ezek a kutató számára koncepcionálisan fontos paraméterek, akkor nem hagyhatók változatlanul, de a tétel ilyen esetben is segítségünkre van azzal, hogy a variációs függıség bizonyításával figyelmeztet minket a paraméterek interpretációs korlátaira. 2.3.2
A modellek létezése
Mint már említettem, a variációs függetlenséggel kapcsolatba hozható másik lényeges kérdés a modellnek megfelelı eloszlás létezése. Általános esetben ugyanis a paraméterek elıírt értékei ellentmondhatnak egymásnak. Fontos probléma tehát, hogy milyen általános feltételek mellett létezik a paraméterekre tett megszorításoknak megfelelı tábla. 6. példa Az eloszlás létezésének és a variációs függetlenségnek a kapcsolatára Rudas és Bergsma (2004) mutat egy egyszerő példát: tekintsük az A, B és C bináris változókat, és az alábbi paraméterértékeket:
33
2. FEJEZET: MARGINÁLIS MODELLEK
1 4
1 9
AB λ∅A = log8, λ AA (1) = 0, λBB (1) = 0, λCC (1) = 0, λAB (1,1) = log ,
1 4
1 9
1 4
AC BC λAC (1,1) = log , λBC (1,1) = log 9.
Mind a hét érték a marginális loglineáris paraméterek értékkészletébe esik, hiszen értékkészletük a (-∞,+∞) intervallum. Tehát a paraméterekhez külön-külön létezik megfelelı eloszlás. Ha a hét paraméter variációsan független lenne, létezne ezeknek a paraméterértékeknek együttesen megfelelı eloszlás is. Belátható ugyanakkor, hogy ilyen eloszlás nincs. A második, harmadik és negyedik paraméterérték szerint ugyanis a változók marginális eloszlása egyenletes. Az elsı paraméterérték szerint az A két kategóriájának log-gyakoriságának átlaga log8, és mivel az A eloszlása egyenletes, ez azt jelenti, hogy 16 megfigyelésünk van. Vagyis az A, B és C marginális eloszlása egyaránt (8, 8). Az utolsó három paraméter alapján az AB és AC marginális táblákban 1/9 az esélyhányados értéke, míg a BC táblában 9. Mivel a kétváltozós marginális kereszttáblák marginálisai és esélyhányadosai is ismertek, a táblák egyértelmően meghatározottak. Azonban nem kompatibilisek: egyszerő számolással adódik, hogy a három kétdimenziós táblából nem rakható össze háromdimenziós tábla. Tehát a megadott paraméterek nemlétezı eloszlást (vagy más szóval üres modellt) definiálnak. Elmondhatjuk, hogy a paraméterek nem függetlenek variációsan: a megadott értékek együttese nem esik a paraméterezés értékkészletébe, tehát az nem áll elı egyszerően az egyes paraméterek értékkészletének Descartes-szorzataként. A példában látott összefüggés a paraméterek variációs függetlensége és az általuk definiált marginális loglineáris modellnek megfelelı eloszlás létezése között általánosan is teljesül:
3. tétel A variációsan független paraméterekkel definiált marginális log-affin modellek nem üresek. Láttuk, hogy a variációs függetlenség hierarchikus és teljes P esetén a rendezett módon való dekomponálhatósággal érhetı el, sıt a teljesség nem is feltétlenül kell, hiszen hierarchikus és rendezett módon dekomponálható, nem teljes paraméterezés a korábban már említett módon könnyen teljessé tehetı. Tehát a tételt kimondhatnánk rendezett módon dekomponálható hierarchikus P-hez tartozó λɶ -re is. P
A marginális loglineáris modellekre nézve egyszerőbb feltétel is elıírható a modellnek megfelelı eloszlás létezésére:
4. tétel Ha az üres halmaz legfeljebb egy marginális mellett szerepel hatásként a P-ben, akkor a P-nek megfelelı paraméterekkel definiált marginális loglineáris modell nemüres.
34
2. FEJEZET: MARGINÁLIS MODELLEK
A tétel bizonyításakor az használandó ki, hogy egyenletes eloszlás esetén minden, az üres halmaznál nagyobb hatást tartalmazó paraméter értéke 0, tehát ezeknek a paramétereknek bármely lineáris kombinációja 0. A disszertációban marginális loglineáris modellekkel azonosítható grafikus modellekkel foglalkozom, a fenti tétel tehát ezeknek a modelleknek általánosságban is biztosítja a nemürességét.
2.3.3
Simaság
A paraméterek simasága (smoothness) esetén a cellagyakoriságok és a paraméterértékek közötti leképezés „szép leképezés”. Az elnevezés onnan ered, hogy bizonyos értelemben a függvény képe ilyenkor valóban sima, egyenletes, kiszögellések és mélyedések nélküli. A paraméterek interpretációja szempontjából a simaság lényeges tulajdonság, a modell simasága pedig az aszimptotikus eloszlások teljesüléséhez szükséges (pl. hogy a maximum likelihood becslés elég nagy minta esetén normális eloszlással, a valószínőségi hányados tesztstatisztika khi-négyzet eloszlással közelíthetı). Nem sima modellre ezek nem mindig teljesülnek (Drton, 2008). A disszertáció tárgyát képezı feltételes függetlenségi modellek nem feltétlenül simák (erre a következıkben mutatok példát), ezért lényeges kérdés a simaságot garantáló feltételek létezése. Precízen a simaság definíciója a következı:
12. definíció Legyen B ⊆ ℝ k nyílt halmaz. Ekkor a θ: F→B paramétert F tdimenziós (1 ≤ t ≤ k ) sima paraméterezésének nevezzük, ha az alábbi három tulajdonsággal rendelkezik: R1: θ B-re képezı homeomorfizmus15 R2: θ kétszeresen folytonosan differenciálható R3: θ elsırendő parciális deriváltjaihoz tartozó mátrix teljes rangú, rangja t. A θ paramétert sima paraméternek nevezzük, ha R2 és R3 teljesül. A G ⊆ F modellt
sima modellnek nevezzük, ha van a G és egy B ⊆ ℝ k között értelmezett sima paraméterezése. Az R3 a paramétertér lokális dimenziójának konstans voltát állítja, ez a konstans az R3-ban szereplı t, amit a modell dimenziójának is szokás nevezni. A t értéke a modell illeszkedéstesztje szempontjából fontos kérdés, ugyanis a modell dimenziójának ismerete szükséges a valószínőséghányados-próba szabadságfokának megállapításához.
15
Homeomorfizmus: olyan kölcsönösen egyértelmő leképezés, ami folytonos, és az inverze is folytonos.
35
2. FEJEZET: MARGINÁLIS MODELLEK
Marginális loglineáris paraméterek esetén a paraméterezés simaságára létezik elégséges feltétel:
5. tétel Hierarchikus és teljes P halmazhoz tartozó λɶP paraméterezés sima paraméterezése F-nek. A tétellel kapható λɶP sima paraméterezés komponenseinek affin kombinációja sima paraméterezése a megfelelı marginális log-affin modellnek, vagyis a modell ilyenkor sima, és dimenziója is közvetlenül adódik:
6. tétel A hierarchikus és teljes P halmazhoz tartozó λɶP paraméterezésre épülı nemüres marginális log-affin modell sima modell, dimenziója az ıt definiáló lineárisan független megkötések száma. Az 3. tételbıl tudjuk, hogy variációsan független paraméterekkel nemüres modellt kapunk, hierarchikus és teljes P mellett pedig a variációsan függetlenség eléréséhez a 2. tétel szerint rendezett módon való dekomponálhatóság kell. Vagyis ha a tétel hierarchikus és teljes P-je rendezett módon dekomponálható is, akkor a marginális logaffin modell létezése is és simasága is garantált. A teljesség a fenti két tételben megint elhagyható, ahogyan a 2. tételnél is láttuk, vagyis bármely hierarchikus P-hez létezik a P kibıvítésével kapott sima paraméterezés. A hierarchikusság viszont nem hagyható el, ennek illusztrálására használjuk fel Dawid (1980) ismert példáját.
7. példa
Definiáljuk a G modellt a következı két állítással:
A ⊥ B, A ⊥ B | C . Ez a modell az 1. tétel szerint pl. a következı paramétermegkötésekkel adható meg: AB ABC λAB (1,1) = λABABC (1,1) = λABC (1,1,1) = 0.
(13)
Ezek a paraméterek nem hierarchikus paraméterezést adnak, hiszen az AB hatás két különbözı marginális mellett is szerepel. Azt viszont nem tudjuk, hogy sima-e a paraméterezés, mert tételünkben a hierarchikusság elégséges, de nem szükséges feltétele a simaságnak. Dawid lehet segítségünkre, aki bebizonyította, hogy a modell a következıkkel ekvivalens:
A ⊥ BC vagy B ⊥ AC vagy mindkettı.
(14)
Eszerint a modell két különbözı, egymást metszı modell uniójaként áll elı. Vannak pozitív eloszlások, amelyek az elsı modellhez hozzátartoznak, de a másodikhoz nem, és fordítva. Ezért a modell nem lehet nyílt halmaznak sima leképezésnél vett ıse (a precízebb indoklásra alább, az algebrai statisztikai megközelítés tárgyalásánál
36
2. FEJEZET: MARGINÁLIS MODELLEK
visszatérek). Vagyis a modellnek nem létezik sima paraméterezése. Tehát a nem hierarchikus, (13)-beli paraméterek nem szerepelhetnek sima paraméterezésben. Zárójelben: a példa annak illusztrálására is kiváló, hogy ugyanannak a modellnek a marginális loglineáris paraméterekkel történı felparaméterezésének egyszerősége/bonyolultsága erısen függ a marginálisok megválasztásától. Itt ha az AB, ABC marginálisok helyett csak az ABC marginálist használnák, a modell (14) alapján, az 1. tétel szerint a következı paraméter-megszorításokkal lenne megadható: ABC ABC λABC (1,1) = λ ABABC (1,1) = 0 és λ AC (1,1) * λBCABC (1,1,1) = 0,
ami nem lineáris megkötés. A példa általánosítható is:
7. tétel Ha ugyanaz a hatás két különbözı marginális mellett is szerepel a paraméterezésben, akkor λɶP nem sima. A tétel segítségével példát mutathatunk arra (a definíciókból sejthetı) állításra, hogy sima modellnek létezhet sima és nem sima paraméterezése is. Az A ⊥ B, A ⊥ BC
modell ugyanis az 1. tétel szerint az alábbi megkötésekkel definiálható: AB ABC ABC λAB = λ AB = λ ABC = 0.
A 7. tétel szerint ez nem sima paraméterezés. Ugyanakkor mivel a második feltételes függetlenségbıl következik az elsı, a paramétermegkötések közül az elsı redundáns, éppen az, ami a nem-simaságot okozta. Ezt elhagyva a maradék két paraméter egyszerően egészíthetı ki hierarchikus és teljes, tehát sima paraméterezéssé. Máskor nem ilyen könnyő a sima paraméterezésre való áttérés. Vegyük a következı két feltételes függetlenséget:
EF ⊥ AC | B, FG ⊥ AB | C.
(15)
Az FA hatásnak az 1. tétel szerinti paraméterezésben két különbözı marginális mellett kellene szerepelnie, azaz az így adódó paraméterezés nem lenne sima. Ugyanakkor a két feltételes függetlenség az 3. fejezet Feltételes függetlenség c. alfejezetében található (21)-es feltételes függetlenségi ekvivalencia segítségével „kisebb”, problémamentes állításokra bontható. Az elsı állítás felbontása:
EF ⊥ AC | B ↔ ( F ⊥ AC | B ) és ( E ⊥ AC | BF ) , míg a másodiké:
37
2. FEJEZET: MARGINÁLIS MODELLEK
FG ⊥ AB | C ↔ ( G ⊥ AB | CF ) és ( F ⊥ AB | C ) . A problematikus FA hatás most már ugyanazon marginális mellett szerepel a két esetben, és valóban, a négy kisebb feltételes függetlenséghez az 1. tétellel generált paraméterek könnyen egészíthetık ki hierarchikus és teljes paraméterezéssé, hiszen a szükséges marginálisok (ABCF, ABCFE, ABCFG, ABCFGE) sorrendje hierarchikus. A (C1)-(C4) levezetési szabályok segítségével az is belátható, hogy a modellbıl levezethetı az
F ⊥ A | CB, F ⊥ A | C modell, ami a 36. oldalon szereplı Dawid-féle 7. példa egy alesete, tehát nem sima modell. Mint láttuk ugyanakkor, e modell által tartalmazott szőkebb (15)-ös modellnek van sima paraméterezése, vagyis a szőkebb modell sima. Tehát egy modell lehet sima akkor is, ha nem sima modell almodellje. És megfordítva is: nem sima modell tartalmazó modellje is lehet sima, erre triviális példa az, hogy a Dawid-féle nem sima modellt eredetileg definiáló, (15)-ben található két feltételes függetlenség által különkülön meghatározott modellek simák. Tehát nincsen a tartalmazásra visszavezethetı olyan reláció, ami segítene eldönteni a simaságot. A 7. tétel tehát segítségünkre lehet paraméterezések nem-simaságának bizonyítására. Az 5. tétel elégséges feltételt adva alkalmas egy elég általános osztályhoz tartozó paraméterezés simaságának bizonyítására, de szükséges és elégséges feltétel a paraméterezés simaságára nem ismert. Ezért a simaság cáfolata a 7. tétel alesetein kívül jelenlegi ismereteink szerint csak konkrét esetekben (adott modell mellett, a változók kategóriaszámának rögzítésével) végezhetı el, pl. a Dawid példájában látott módon, expliciten megadva az unióként elıállítható modell komponenseit. Ennek kivitelezése algebrai statisztikai eszközökkel történik. Az algebrai statisztika új és érdekes megközelítés (pl. Drton, Sullivant, 2007), a statisztikai modelleket algebrai szemszögbıl vizsgálja, a modell statisztikai tulajdonságait algebrai, topológia, geometriai tulajdonságokra visszavezetve. Jelen problémánk esetében az algebrai megközelítés azért merül fel, mert kategoriális változók feltételes függetlensége az együttes eloszláshoz tartozó valószínőségekre tett polinomiális megkötésekhez vezet, ezeknek a 0-val való egyenlıségét elıírva (Pachter, Sturmfels, 2005, Stillman, 2005). Pl. belátható, hogy X ⊥ Y | Z esetén a cellavalószínőségekre a 3. definícióban felírt összefüggés ekvivalens az alábbi egyenlıséggel:
P ( X = x, Y = y, Z = z ) = P ( X = x, Z = z ) P (Y = y, Z = z ) / P ( Z = z ), vagyis az alábbi polinom 0-val való egyenlıségével:
P ( X = x, Y = y, Z = z ) P ( Z = z ) − P ( X = x, Z = z ) P (Y = y, Z = z ) = 0.
38
2. FEJEZET: MARGINÁLIS MODELLEK
Egy feltételes függetlenségi modell ennek megfelelıen polinomok egy ideáljával16 azonosítható. A polinomideálok véges sok primér ideál17 (primary ideal) metszeteként állíthatók elı, egy ilyen primér felbontás (primary decomposition) létezése esetén a függetlenségi modell bizonyos polinomiális megkötések uniójaként áll elı. A 36. oldalon szereplı Dawid-féle 7. példa modelljérıl is belátható ezen a módon, hogy a megfelelı ideál két primér ideálra bontható, azaz két polinomhalmaz 0-val való egyenlıségének vagylagosan való teljesülésével definiálható, tehát elıállítható két modell uniójaként. Az algebrai megközelítést geometriaira váltva elmondhatjuk, hogy a modellbe tartozó eloszlások halmaza tehát két komponens uniójaként áll elı, és a két komponens metszetében levı pontok nem reguláris tulajdonságai miatt az unió nem lehet sima. A primér felbontás megtalálására egyszerőbb modellek esetén léteznek szabadon letölthetı algebrai szoftverek, pl. a SINGULAR18 szoftver Markov.lib nevő könyvtára19 használható erre a célra.
2.3.4
A becslések standard aszimptotikus tulajdonságai
A paraméterezés itt utolsóként felsorolt elınyös tulajdonsága a standard nagymintás elmélet alkalmazhatósága. A valószínőségek maximum likelihood becslésének és a valószínőség-hányados tesztstatisztikának aszimptotikus (elég nagy minta esetén várható) viselkedése tartozik ide. Ahogy a többi tulajdonságok, úgy ez a tulajdonság sem teljesül általános esetben a marginális loglineáris modellekre. A 36. oldalon szereplı, sokat idézett 7. példa modellje, mint láttuk, nem volt sima, két modell uniójaként állt elı. A két modell metszetében levı elméleti eloszlások esetén akármilyen nagy mintát veszünk is, a likelihoodnak pozitív valószínőséggel a modell mindkét komponensében lokális maximuma van. A valószínőséghányados statisztika pedig aszimptotikusan nem khinégyzet eloszlású, hanem két khi-négyzet eloszlás minimumaként áll elı. Figyelmeztetı, hogy ezek szerint olyan egyszerő modellek sem kezelhetık feltétlenül jól, mint amilyen ez is ( A ⊥ B, A ⊥ B | C - pl. „az egyetemi felvételi sikeressége független a felvételizı nemétıl, összességében és szakonként is”). Megfelelıen megválasztott marginális loglineáris paraméterekre ugyanakkor teljesülnek a standard aszimptotikus tulajdonságok. 16
Az ideál algebrai fogalom. A feltételes függetlenségi modellbe tartozó, az F egy alterét alkotó eloszlásokon 0 értéket felvevı polinomok ideált alkotnak, ami annyit tesz, hogy (1) bármely két, az ideálhoz tartozó polinom különbsége is az ideálban van, illetve (2) az ideálba tartozó polinomok tetszıleges polinommal való szorzata is az ideálban van. 17 Egy polinomideál primér ideál, ha minden a, b polinomra, amikor az ab szorzat az ideálban van, akkor vagy a, vagy b-nek önmagával véges számszor vett szorzata (véges hatványa) is az ideálban van. 18 http://www.singular.uni-kl.de/ 19 Luis Garcia írta: http://www.shsu.edu/˜ldg005/software.html
39
2. FEJEZET: MARGINÁLIS MODELLEK
8. tétel Tegyük fel, hogy egy nemüres log-affin marginális modell sima paraméterezéssel van megadva. Ekkor akár Poisson, akár multinomiális eloszlás20 esetén a) A mintanagyság végtelenhez tartásával21 1-hez tart annak a valószínősége is, hogy a π cellavalószínőség-vektor maximum likelihood becslése, πˆ létezik, és hogy elıáll a likelihood egyenlet stacionárius pontjaként22. b) Ha N a mintanagyság, akkor a N 1/ 2 (πˆ − π ) aszimptotikusan normális eloszlású, 0 várható értékkel. c) A valószínőség-hányados statisztika aszimptotikusan khi-négyzet eloszlású, szabadságfoka pedig a modell dimenziójával, tehát a modellt definiáló lineárisan független megkötések számával egyezik meg. Annak, hogy a maximum likelihood becslés a likelihood egyenlet stacionárius pontja, a becslés gyakorlati megvalósításában van szerepe. Ilyenkor megfelelı algoritmusok léteznek a maximum megkeresésére. A modell illeszkedése tehát (a harmadik állítás szerint) valószínőség-hányados próbával tesztelhetı, a modellnek megfelelı maximum likelihood-becslés (az elsı állítás szerint) egyértelmően létezik és elıállítható, továbbá a becslés (a második állítás alapján) torzítatlan és konfidenciaintervallum konstruálása is lehetséges hozzá. A 2. tétel, 3. tétel, 4. tétel és 6. tétel felhasználásával az a)-c) tulajdonságok teljesüléséhez elegendı, ha a modellt definiáló marginális loglineáris paraméterek
20
Poisson eloszlás feltételezése esetén egy adott cella gyakorisága független a többi cellák gyakoriságától, a cellagyakoriságok és azok összege is Poisson eloszlást követ. Ebbıl következıen ilyenkor az összgyakoriság nem rögzített. Multinomiális eloszlás esetén az összgyakoriság rögzített, így a cellagyakoriságok nem függetlenek. Az elıbbi fıleg biostatisztikai és biztosítási matematikai alkalmazásokban fordul elı (pl. adott idıintervallumban megjelenı új betegek vizsgálata egy populációban, ahol a rizikófaktorok adják a változókat, vagy adott idıintervallum baleseti statisztikája, ahol a változók a baleset típusai és a megelızı intézkedések fajtái lehetnek). Multinomiális eloszlást tételezhetünk fel a rögzített mintanagyságot célzó társadalomtudományi felmérések többsége esetében. 21 A mintanagyság növelése úgy értendı, hogy a kontingenciatábla egy adott (Poisson vagy multinomiális) eloszlásból származik, ennek egy megvalósulását (tehát magát a táblát) tekintjük egy mintaelemnek, és ebbıl az eloszlásból veszünk többet, N-et (ekkor N darab táblánk van), majd ezt az N-t növeljük. 22 Ez a következı feltételes szélsıérték-keresési probléma megoldásában játszik szerepet. A likelihood-egyenlet, pontosabban a Lagrange-féle likelihood-egyenlet valósértékő többváltozós függvény, a cellavalószínőségek vektorán és az un. Lagrange multiplikátoron, mint rendezett páron van értelmezve. A Lagrange-multiplikátor szereplésének oka, hogy segítségével az egyenlet maximumhelye a modellt definiáló megszorítások mellett kereshetı meg. Az egyenlet stacionárius pontjai pedig azok az értelmezési tartománybeli pontok, ahol a gradiens (a parciális deriváltak vektora) 0-t vesz fel, vagyis ezek az egyenlet potenciális lokális szélsıérték-helyei.
40
2. FEJEZET: MARGINÁLIS MODELLEK
hierarchikus és teljes P-hez tartozik. Egyéb esetekben a tulajdonságok teljesülése nem garantált.
41
3 GRAFIKUS MODELLEK 3.1 Háttér A grafikus modellek használata ma az alkalmazott statisztika számtalan területén – statisztikus fizika, genetika, mesterséges intelligencia – elterjedt. Az elmélet történetileg is több szaktudományhoz kapcsolható: három, egymástól független szerzı munkáira vezethetı vissza. S. Wright a genetika, W. Gibbs a fizika, míg A. A. Markov a valószínőség-számítás területén vezette be a grafikus modell fogalmát (Wermuth 2005). Wright a mai szociológiában elerjedt szóhasználattal útelemzésnek nevezte azt a módszert, amikor irányított gráfot használt bizonyos genetikai jellemzık kialakulásának megjelenítésére. Gibbs fizikai rendszerek energiájának meghatározásakor a rendszert alkotó részek (pl. gázatomok) szomszédsági relációit használta fel. A grafikus modellek alapfogalmát, a feltételes függetlenséget Markov komplex struktúrák egyszerőbb függıségi láncokkal történı leírására használta. Az 1970-es években indult meg a grafikus modellek elméletének kidolgozása, irányítatlan (csak szimmetrikus relációkat megengedı) gráfok, illetve irányított (csak aszimmetrikus relációkat megengedı) körmentes gráfok vizsgálatával. Napjainkban az irányítatlan gráfoknak például térstatisztikai és képfeldolgozási felhasználásai ismertek. Az irányított körmentes gráfok, melyek Bayes-féle hálózatokként (Bayesian networks) is ismertek, elsısorban ok-okozati viszonyok feltárásával kapcsolatos kutatásokban kerülnek elı gyakran (pl. Spirtes et al., 1993), és a mesterséges intelligenciakutatás szakértıi rendszerekkel (expert systems) foglalkozó ága alkalmazza ıket (pl. Lauritzen, Spiegelharter, 1988, Pearl, 1988). A tipikus kérdésfeltevések közé tartozik, hogy hogyan konstruálható hatékony algoritmus (un. tanuló algoritmus) egy adott eloszláshoz illeszkedı gráf konstruálására (pl. Spirtes et al., 1993). Az utóbbi évtizedben az elméletet a mindkét relációfajtát megengedı láncgráf modellekre is általánosították. A láncgráfok létrehozásának gyakorlati motivációja az volt, hogy gyakori az olyan alkalmazási kontextus, amikor bizonyos változócsoportok között aszimmetrikus kapcsolat van, míg a változócsoportokon belül szimmetrikusak a relációk. A változócsoportokat pl. longitudinális vizsgálat idıpont szerint rendezett változóhalmazai, vagy keresztmetszeti vizsgálat ok-okozati sorba rendezhetı magyarázó, közbejövı és kimeneti változóhalmazai alkothatják. A láncgráfok leírása még nem véglegesedett, több kutató foglalkozik velük párhuzamosan, gyakran másmás megközelítésekben (Whittaker, 1990, Frydenberg, 1990a, Andersson, Madigan, Perlman, 2001, Richardson, 2003, Cox, Wermuth, 1996, Wermuth, Cox, 2004, Wermuth, 2005, Drton, 2008). A grafikus modellek matematikai leírására térve: a modellek a változókat gráfpontokként jelenítik meg, a köztük levı irány nélküli/iránnyal rendelkezı kapcsolatot élekkel/nyilakkal reprezentálva. (Az iránnyal rendelkezı kapcsolat nem
3. FEJEZET: GRAFIKUS MODELLEK
feltétlenül jelent ok-okozati viszonyt, lásd a 6.1.1. fejezetet.) Két pont között az él/nyíl hiánya feltételes függetlenségi állításoknak feleltethetı meg. A grafikus modellek elınye, hogy könnyen vizualizálható és jól interpretálható módon jelenítenek meg komplex rendszereket, illetve, hogy modulárisak, vagyis e komplex rendszereket egyszerőbb részek összekapcsolásával építik fel. Példaként tekintsük az alkalmazások között, a 7.1. fejezetben is szereplı irányított körmentes gráfot, ami a státuszelérés egy klasszikus modelljét ábrázolja.
1. ábra. Egy gráf-modell (I: iskolázottság, F: foglalkozás, I’: apa iskolázottsága, F’: apa foglalkozása)
A szereplı változók a korábbi fejezetekben már sokszor szerepelt státusz-indikátorok. A modell az Apa iskolázottságával, mint háttérváltozóval „indul”, a Foglalkozással, mint függı változóval „végzıdik”, és két közbejövı változót tartalmaz, amelyek potenciálisan a korábbiaktól függenek, ık maguk pedig a késıbbiek lehetséges magyarázó változói. A rendszer modularitása jól látható: az Apa foglalkozásával, a Foglalkozással és az Iskolázottsággal, mint függı változóval meghatározott modulokat három külön regressziós modellként foghatjuk fel. Másik társadalomtudományi alkalmazásként említhetjük a 1.1., Motiváció c. fejezetben látott gráfot, melyet Cox és Wermuth (2001) állított fel az állami intervenciókkal kapcsolatos attitőd kialakulását modellezve. A modell az attitőd meghatározódását jeleníti meg az objektív társadalmi-demográfiai tényezık csoportjától kiindulva az azoktól függı szubjektív és objektív társadalmi státuszindikátorok csoportján át. A láncgráf lehetıvé teszi, hogy az említett csoportok között iránnyal rendelkezı, a csoportokon belül irány nélküli kapcsolatokat tételezzünk fel. Ez a megközelítés mélyebb betekintést enged ebbe a folyamatba annál, mint ha csak a szokott módon többszörös regressziót alkalmaznánk az attitőddel, mint függı változóval, és az összes többi változót azonos szintő magyarázó változóként kezelve.
3.2 Gráfelméleti definíciók és jelölések Mivel a következıkben gráfokkal reprezentálható modelleket fogok vizsgálni, szükséges lesz néhány gráfelméleti fogalom és jelölés bevezetése. Gráfnak nevezzük a G = (V , E ) rendezett párt, ahol V a gráf csúcsainak véges halmaza, az E élek pedig a V × V különbözı elemekbıl álló rendezett párok
43
3. FEJEZET: GRAFIKUS MODELLEK
részhalmazát adják. Ebbıl következıen az itt tárgyalt gráfok egyszerőek, tehát nincs többszörös élük és nincsenek adott csúcsból adott csúcsba visszakanyarodó hurkaik. Ha egy (α , β ) ∈ E esetén ( β ,α ) is eleme E-nek, akkor az élt irányítatlan él-nek vagy vonal-nak (line) nevezzük, ellenkezı esetben irányított élrıl vagy nyílról beszélünk. A gráfok megjelenítésekor a csúcsokat pontokkal, az irányítatlan éleket vonalakkal, míg az (α , β ) irányított éleket α–ból β–ba mutató nyilakkal jelöljük majd.
G’ a G részgráfja, ha G-bıl élek és pontok elhagyásával kapjuk, az egyetlen feltétel, hogy ha elhagyunk egy pontot, akkor természetesen elhagyjuk az összes belıle induló élt is. Teljes részgráfnak nevezzük a G’-t, ha bármely két csúcsa között fut él. α–ból β–ba mutató nyíl esetén α–t a β szülıjének, β-t az α gyerekének nevezzük. β szüleinek halmazát pa ( β ) jelöli (parents), α gyerekeinek (children) halmazát ch (α ) . Ha α és β között vonal van, akkor ık szomszédok (neighbours). α szomszédjainak halmazát ne(α ) –vel jelöljük. Ha sem vonal sem nyíl nincs közöttük, akkor nemszomszédok (non-adjacent). Ha nem csúcsról, hanem csúcsok egy A ⊂ V részhalmazáról beszélünk, akkor az A szülı-, gyerek- és szomszéd-halmazaiba maga A sosincs beleértve:
pa ( A ) =
∪α
∈A
pa (α )
A,
ch ( A ) =
∪α
∈A
ch (α )
A,
ne ( A ) =
∪α
∈A
ne (α )
A.
Csúcsok egy A részhalmazának határa (boundary) az a bd ( A ) halmaz, amihez A szülei vagy szomszédjai tartoznak:
bd ( A ) = pa ( A ) ∪ ne ( A ) . Az A csúcshalmaz lezártja (closure) a cl ( A ) = bd ( A ) ∪ A halmaz. Egy α-ból β-ba vezetı n hosszú út az α = α 0 ,...,α n = β , páronként különbözı
csúcsok sorozata, ahol (α i −1 ,α i ) ∈ E , minden i = 0,..., n -re. Ha az út csúcsai között csak nyilak/csak vonalak vannak, akkor irányított/irányítatlan útról beszélünk.
Egy C ⊂ V részhalmazt (α , β ) -elválasztónak (separator) nevezünk, ha az α-ból βba vezetı utak mindegyike átmegy C valamely csúcsán. A C elválasztja az A halmazt a B-tıl, ha minden olyan (α , β ) párra elválasztó, ahol α ∈ A, β ∈ B. Azok a csúcsok, amelyekbıl út vezet β-ba, de amelyekbe nem vezet út β-ból, alkotják β ıseinek
44
3. FEJEZET: GRAFIKUS MODELLEK
(ancestors) an( β ) halmazát. Fordítva: azok a csúcsok, amelyekbe út vezet α-ból, de amelyekbıl nem vezet út α-ba, alkotják α leszármazottainak (descendants) de( β ) halmazát. α nem-leszármazottai (non-descendants) pedig a többi csúcs közül természetesen azok, amelyek nem leszármazottai: nd (α ) = V ( de (α ) ∪ {α }) . Nagybetővel jelöljük a leszármazottak halmazát, ha az az α-t is tartalmazza: Nd (α ) = nd (α ) ∪ {α }. A leszármazottak és a nem-leszármazottak halmazát értelemszerően A csúcshalmazokra is definiálhatjuk: de( A), nd ( A), Nd ( A) . Ha bd (α ) ⊆ A, ∀α ∈ A, azt mondjuk, hogy A ıshalmaz (ancestral set). Irányított gráfban A akkor és csak akkor ıshalmaz, ha an(α ) ⊆ A, ∀α ∈ A. İshalmazok metszete is ıshalmaz, ezért bármely A csúcshalmazra meghatározható az ıt tartalmazó legkisebb ıshalmaz, ezt An( A) -val jelöljük. A kör az út definíciójának azzal a módosításával kapható, hogy a kezdı és végzı csúcs ugyanaz kell, hogy legyen. Irányított/irányítatlan/félig irányított körnek nevezzük a csak nyilat/csak vonalakat/legalább egy nyilat tartalmazó köröket.
Irányítatlan gráfnak (IG, angol rövidítéssel UG az undirected graph-ból) nevezzük a csak vonalakat tartalmazó gráfot, míg irányított körmentes gráfnak (röv. IKG, angol rövidítéssel DAG a directed acyclic graph-ból) a csak nyilakat tartalmazó, irányított körrel nem rendelkezı gráfot. A disszertációban bemutatott harmadik speciális gráftípus a láncgráf (LG, angol rövidítéssel CG a chain graph-ból). Egészen friss munkák foglalkoznak ezzel a gráftípussal (Whittaker, 1990, Frydenberg, 1990a, Lauritzen, 1996, Cox, Wermuth, 1996, Wermuth, Cox, 2004, Wermuth, 2005, Andersson et al., 2001, Lauritzen, Richardson, 2002, Drton, 2008). Az egyes szerzık, bár ritkán reflektálnak erre a tényre, nem használnak egységes definíciót. A definíciók különbözıségének komoly következményei vannak a gráfra épülı statisztikai modellek szempontjából, ezt az 3.6., Láncgráfok c. fejezetben részletesen is kifejtem. Alapvetıen kétfajta definíció rajzolódik ki a fent idézett munkákból. Lauritzen, Frydenberg, Drton ill. Andersson és társai szerint a láncgráf olyan gráf, ami vonalakat és nyilakat is tartalmazhat, azzal a megkötéssel, hogy nincsen benne félig-irányított kör. A továbbiakban 1-es típusú láncgráfnak nevezem ezt a típust. Vegyük észre, hogy az IG-k és IKG-k a láncgráfok speciális (vagy csak vonalakat vagy csak nyilakat tartalmazó) típusai. A láncgráf komponenseinek vagy blokkoknak (component, block) nevezzük az egymásból irányítatlan úton elérhetı csúcsok halmazát. Precízen: Jelöljük α ~G β-val azt az esetet, amikor a G gráfban α és β elérhetı egymásból irányítatlan úton. Legyen T a ~G ekvivalencia-reláció által V-ben indukált ekvivalenciaosztályok halmaza. Minden αœV csúcshoz egyértelmően tartozik egy t(α)œT komponens.
45
3. FEJEZET: GRAFIKUS MODELLEK
Az alábbi ábra egy 1-es típusú láncgráfot és a neki megfelelı t1, t2, t3, komponenseket ábrázolja. felhívnám rá a figyelmet, hogy a komponensek indexelése ennél a típusnál esetleges.
2. ábra. 1-es típusú láncgráf, és a gráf komponensei
Whittaker (1990) illetve Cox és Wermuth (pl. 1996) meghatározása szerint a láncgráf (2-es típusú láncgráf) csúcsai n számú komponens valamelyikéhez vannak hozzárendelve, a komponenseken pedig teljes rendezés van bevezetve: t1< ...
3. ábra. 2-es típusú láncgráfok, t1
Ez a példa közvetlenül rámutat az 1-es és 2-es típusú láncgráfok közötti fontos különbségekre. Míg az 1-es típus esetén a gráfot pusztán a csúcsok és élek definiálják (a komponensek ebbıl adódnak), addig a 2-es típus esetén a csúcsok komponensekhez
46
3. FEJEZET: GRAFIKUS MODELLEK
tartozása ill. a komponensek rendezése ehhez adódó pluszinformáció, nem olvasható ki a csúcsok-élek megadásából. Így fordulhat elı az, hogy a 3. ábra három gráfja ugyanazokon a csúcsokon és éleken van értelmezve, de más a komponensek megadása (1. vs. 3. gráf), illetve más a komponensek rendezése (1. vs. 2. gráf). A 2-es típusú láncgráfokkal szemben az 1-es típusúaknál nincsen a komponenseken teljes rendezés bevezetve. Ha két komponens nincs nyíllal nincs összekötve, akkor azok nem hasonlíthatók össze. A 2. ábra mutatott gráf t2 és t3 komponense például nem hasonlítható össze. Ebbıl a gráfból úgy készíthetnénk 2-es típusú láncgráfot, ha expliciten megadnánk a t2 és t3 közötti rendezést. Az 1-es típusú láncgráfoknál a gráfból közvetlenül adódik a csúcsok komponensekhez rendelése, a 2-es típusúaknál nem. Emiatt a különbség miatt fordulhat elı, hogy van olyan gráf (pl. a 3. ábra 3. gráfja), ami a 2-es definíció szerint láncgráf, de az 1-es szerint nem az, hiszen van olyan csúcsa, amelyik egyik saját komponensbelijével sincsen összekötve. Azok a gráfok tartoznak a két típus mindegyikébe, ahol a komponensek csúcsai irányítatlan úton elérhetık egymásból, és a komponensek közötti nyilak teljes rendezést indukálnak a komponenseken. Míg, ahogyan említettük, az 1-es típusú láncgráfnak az IG és IKG speciális esete, addig egyik gráf sem tartozik a 2-es típusú láncgráfok közé, mivel az IG-bıl vagy IKG-bıl nem lehet egyértelmően kiolvasni sem a komponensek rendezését, sem a komponenshez tartozást. Az alábbi ábrán olyan 2-es típusú láncgráfok találhatók, melyek ugyanahhoz az IG-hez tartoznak. A komponensekhez rendelés variálásával jött létre ez a négy különbözı változat. A komponensek rendezésének megváltoztatásával további variánsokat lehetne elıállítani.
4. ábra. Ugyanahhoz az IG-hez rendelhetı 2-es típusú LG-k, t1
Az alábbi ábrán pedig ugyanahhoz az IKG-hez rendelhetı összes lehetséges 2-es típusú láncgráfot mutatom be:
47
3. FEJEZET: GRAFIKUS MODELLEK
5. ábra. Ugyanahhoz az IKG-hez rendelhetı 2-es típusú LG-k, t1
Mint láttuk, a két definíció alapvetı különbsége, hogy a 2-es típus esetén (1) a csúcsok komponensekhez tartozása ill. (2) a komponensek rendezése a gráfból ki nem olvasható pluszinformáció. Láttuk, hogy ez a két eltérés a két definíciónak megfelelı gráfhalmaz különbözıségét implikálja. Az igazi kérdés ugyanakkor az, hogy a megfelelı statisztikai modellek is különböznek-e. Erre a kérdésre a 3.6. fejezetben, a gráfok és a modellek megfeleltetésének tárgyalása után térek vissza. A szakirodalom gyakran eltekint a két típusú lángráf közötti különbségtıl; az idézett szerzık közül egyedül Whittaker (1990) említi az (1)-es, Lauritzen és Richardson (2003) pedig a (2)-es különbséget, utóbbiak kritikáját is adják a komponensek 2-es típusú láncgráfoknál kötelezı elı-rendezésének, mint modellezési technikának. Az (1)-es különbséggel kapcsolatban felhívnám arra a figyelmet, hogy 1es típusú láncgráfoknál össze nem kötött csúcsok ugyanazon komponensbe való besorolása nem lehetséges. Ha a komponenseket idıbeli egymásutánjuk definiálja, akkor eszerint ennél a gráftípusnál egyidıben, de egymástól függetlenül megvalósult események modellezése nem lehetséges. Itt kell még megemlítenünk, hogy Wermuth és Cox (pl. 2004) a 2-es típusú láncgráfok további specifikálásaként megengednek nem csak teli, hanem szaggatott vonalakat és nyilakat is, azzal a megkötéssel, hogy egy adott komponensen belül csak egyfajta (vagy csak teli, vagy csak szaggatott) vonalak szerepelhetnek, ill. az egy adott komponensbe belépı nyilak is csak azonos fajták lehetnek. A szaggatott és teli vonalak/nyilak megkülönböztetésének oka, hogy ezek segítségével egyetlen szabállyal (késıbb bevezetendı szóhasználattal: egyetlen Markov-tulajdonsággal) több különbözı feltételes függetlenség-kiolvasási szabályt definiálhatnak. Mi ugyanezt a célt több különbözı szabály bevezetésével fogjuk elérni (lásd az 3.6 fejezetet). Szükséges lesz még néhány, a láncgráfokhoz kapcsolódó jelölés bevezetésére. A G láncgráf K1, ..., Kn komponensei, mint csúcsok alkotta irányított körmentes gráfon (jel.: GIKG) kézenfekvı módon definiálhatók adott Ki komponens ısei, szülei, leszármazottai vagy nem-leszármazottai:
•
ısök:
Kan(i):= {Kj | je {1...n}, a GIKG gráfban Kj–bıl irányított út vezet Ki-be},
48
3. FEJEZET: GRAFIKUS MODELLEK
•
ısök, Ki-t is beleértve:
KAn(i):= {Kj | je {1...n}, a GIKG gráfban Kj–bıl irányított út vezet Ki-be vagy j=i},
•
szülık:
Kpa(i):= {Kj | je {1...n}, }, a GIKG gráfban Kj–bıl nyíl mutat Ki-be},
•
leszármazottak:
Kde(i):= {Kj | je {1...n}, a GIKG gráfban Ki–bıl irányított út vezet Kj-be },
•
nem-leszármazottak:
Knd(i):= {Kj | je {1...n}, Kj nem eleme Kde(i)-nek és j∫i},
•
és nem-leszármazottak, Ki-t is beleértve:
KNd(i):= {Kj | je {1...n}, Kj nem eleme Kde(i)-nek}. Adott láncgráfból kapható irányítatlan gráf két megadási módjára lesz még szükségünk az elválasztás fogalmának láncgráfokra való majdani kiterjesztéséhez.
Erkölcstelenségnek (immorality) nevezzük a (α, β; γ) ponthármast, ha a közös γ gyerekkel rendelkezı α és β csúcspár nincsen vonallal összekötve (úgymond nincs összeházasodva – innét az elnevezés). Egy G LG-hez vagy IKG-hoz tartozó erkölcsös gráfnak (moral graph) nevezzük és Gm-mel jelöljük azt az IG-t, ami a közös gyerekkel rendelkezı szülıknek vonallal való összekötésével (összeházasításával) és az összes nyíl vonalra cserélésével áll elı. Legyen α, β, és γ egy láncgráf három különbözı csúcsa. Zászlónak (flag) nevezzük az [α, β; γ] hármast, ha α → β — γ teljesül. 2-kettıszászlónak (2-biflag) nevezzük az [α, β; γ, δ] négyest, ha α → γ — δ ← β teljesül; ahol α és β között bármi lehet (vonal is, bármilyen irányú nyíl is, vagy lehetnek összekötetlenek is), de más vonal vagy nyíl nincs a csúcsok között. Hármasnak (triplex) nevezzük az {(α, β), γ} rendezett párt, ha a következı három feltétel valamelyike teljesül: (α, β; γ) erkölcstelenség, vagy [α, β; γ] zászló, vagy [β, α; γ] zászló. Egy hármas vagy egy 2-kettıszászló kibıvítésekor (augmentation) az alakzatot alkotó csúcsok között húzódó nyilakat vonalakra cseréljük, és minden hiányzó él helyére vonalat teszünk. Egy G LG-hez vagy IKG-hoz tartozó kibıvített gráfnak (augmented graph) nevezzük és Ga-val jelöljük azt az IG-t, ami a hármasok és a 2-kettıszászlók kibıvítésével és az összes nyíl vonalra cserélésével áll elı.
49
3. FEJEZET: GRAFIKUS MODELLEK
3.3 Feltételes függetlenség A grafikus modellek valószínőségi változóknak a gráfból kiolvasható feltételes függetlenségeivel definiálhatók, ezért a feltételes függetlenség a következıkben központi fogalom lesz.
X, Y és Z diszkrét valószínőségi változók feltételes függetlensége a 3. definícióban látott módon határozható meg, jelöléssel: X ⊥ Y | Z . A feltételes függetlenségi reláció rendelkezik az alábbi négy tulajdonsággal (X-et, Y-t és Z-t akár változóknak, akár változóhalmazoknak tekinthetjük): (C1) szimmetria: ha X ⊥ Y | Z , akkor Y ⊥ X | Z ,
(16)
(C 2) felbontás: ha X ⊥ Y | Z és U = h ( X ) , akkor U ⊥ Y | Z ,
(17)
(C 3) gyenge unió: ha X ⊥ Y | Z és U = h ( X ) , akkor X ⊥ Y | ( Z ,U ) ,
(18)
(C 4) összevonás: ha X ⊥ Y | Z és X ⊥ W | (Y , Z ) , akkor X ⊥ (W , Y ) | Z .
(19)
(C2) és (C3) alkalmazásakor speciális esetként az U lehet X részhalmaza is. Pozitív eloszlás23 esetén, vagyis ha
P ( X = x, Y = y, Z = z ) > 0 ∀x, y, z , az alábbi, gyakran használt tulajdonság is teljesül: (C 5) metszet: ha X ⊥ Y | Z és X ⊥ Z | Y , akkor X ⊥ ( Y , Z ) .
(20)
A pozitív eloszlás kitételét a korábbiakban is feltettük (a 2. fejezetben végig a pozitív eloszlások F halmazát tekintettük), és legtöbbször a továbbiakban is fel fogjuk tenni. A (C1)-(C4) tulajdonságokból további tulajdonságok vezethetık le. Például az alábbi, a feltételes függetlenségi állítás szétdarabolhatóságát megmutató, gyakran hasznosnak bizonyuló ekvivalencia
23
Ez a tulajdonság a változók kereszttáblájára nézve azt jelenti, hogy az az elméleti gyakoriság mellett nem tartalmaz üres cellát, vagy másik szóhasználattal: nincsen benne strukturális nulla. Ez egy eléggé természetes kitétel, és általános esetben valóban teljesül is. Tipikusan olyan esetekben nem igaz, amikor a változók között valamilyen szükségszerő, logikai kapcsolat van. Pl. ilyen kapcsolatban van a gazdasági aktivitás és a legutóbbi foglalkozás típusa, ha a tanulók mindkét változónál önálló kategóriát alkotnak, tehát sorukban/oszlopukban egy kivétellel minden cellagyakoriság strukturálisan nulla, vagy a nem és az abortuszok száma (férfiaknál értelmezhetetlen) stb. A strukturális nullák egy része a változók átdefiniálásával kiküszöbölhetı (pl. keresztkategóriáikkal egy harmadik változót képzünk).
50
3. FEJEZET: GRAFIKUS MODELLEK
C ⊥ BD | A ↔ ( C ⊥ B | A ) és ( C ⊥ D | AB )
(21)
könnyen elıáll a segítségükkel. A jobboldalból (C4)-et felhasználva következik a baloldal. A baloldali feltételes függetlenségi állításból a (C2)-t felhasználva következik C ⊥ B | A . A baloldali állításból (C3) segítségével jön C ⊥ BD | AB , ebbıl pedig (C2)vel C ⊥ D | AB . A tulajdonság felhasználhatóságára láttunk példát a 2.3 fejezet Simaság c. alfejezetében, ahol egy látszólag nem sima modell simaságát láttuk be a segítségével, úgy, hogy a modellt definiáló nemhierarchikus paraméterezést adó feltételes függetlenségi állításokat kisebb, hierarchikus paraméterezést lehetıvé tevı állításokká bontottuk a segítségével. Belátható, hogy a (21)-beli tulajdonság nem csak szintaktikailag vezethetı le a négy szabály segítségével, hanem valóban igaz is24. Kérdés, hogy (1) ez minden, a (C1)-(C4) segítségével levezetett állításra igaz-e? Kérdés a fordított irány is (2): levezethetı-e a négy szabály segítségével minden (igaz) feltételes függetlenségi tulajdonság? Dawid (1979) bizonyította be, hogy az elsı kérdésre „igen” a válasz, vagyis ha (C1)-(C4)-et a feltételes függetlenség, mint logikai rendszer levezetési szabályainak tekintjük, akkor az így definiált rendszer helyes: minden, a négy szabály használatával levezethetı állítás igaz. Bár sokan a második kérdésre is „igen” választ vártak (pl. Pearl, 1988), végül mégis a „nem” nyert bizonyítást. A rendszer nem teljes (Studený, 1992), vagyis van olyan igaz állítás, ami szintaktikailag nem vezethetı le belılük. Sıt az is belátható, hogy a feltételes függetlenségnek nem létezik véges axiomatizációja, vagyis sem a (C1)-(C4) kibıvítésével, sem más levezetési szabályok segítségével nem lehet az összes, egyébként igaz feltételes függetlenségi tulajdonságot elıállítani. Ez utóbbi állításnak fontos következményei lesznek a disszertáció késıbbi fejezeteiben. Rendkívül érdekes, és a grafikus modellek széleskörő alkalmazhatóságát mutatja, hogy a (C1)-(C4) tulajdonságok milyen sok, látszólag független fogalom karakterizációjára alkalmasak. Tekintsük ehhez a (C1)-(C4) kifejezéseket formális kifejezésekként, a valószínőséghez nem kötıdı jelentéssel. Ha az irrelevancia axiómáiként tekintjük ıket, akkor tudásmennyiségek megszerzése (pl. nyelvkönyvek elolvasása) közötti kapcsolat leírására alkalmazhatók – valóban, ismertek a grafikus modellek információelméleti alkalmazásai is. Ebben az esetben a X ⊥ Y | Z kifejezés így interpretálható: Z ismeretének birtokában Y elolvasása (értsd: ismerete) irreleváns X elolvasása (értsd: megértése) szempontjából. Ekkor pl. a C2 így olvasandó ki: ha Z ismeretének birtokában Y elolvasása irreleváns X elolvasása szempontjából, akkor X bármely U fejezetének elolvasása szempontjából is az. Másik fontos példa az euklidészi vektorterekben definiált geometriai merılegességé. Ekkor X, Y és Z lineáris alterek, és X ⊥ Y | Z így olvasandó ki: X és Z 24
Ebben a megközelítésben egy formula igaz, ha minden valószínőségi mérték mellett kiértékelve igaz.
51
3. FEJEZET: GRAFIKUS MODELLEK
metszetének ortogonális kiegészítı altere merıleges Y és Z metszetének ortogonális kiegészítı alterére. Végül a véges irányítatlan gráfokon definiált elválasztás fogalma említhetı (definícióját lásd a következı fejezetben). Ekkor X, Y és Z a gráf csúcsainak részhalmazai, és X ⊥ Y | Z így olvasandó ki: Z elválasztja X-et Y-tól. Késıbb látni fogjuk, hogy a globális Markov-tulajdonságokkal definiált grafikus modellek valóban a függetlenség és az elválasztás megfeleltetésére épülnek. A (C5) analogonja a feltételes függetlenséghez hasonlóan az utóbbi három modell (irrelevancia, merılegesség, elválasztás) esetében sem áll általánosan, csak bizonyos feltételek mellett. Van azonban olyan tulajdonság, ami nem viselkedik azonosan a különbözı modellekben. Az elválasztásra teljesül, a feltételes függetlenségre vagy az irrelevanciára viszont nem: (C 6) ( A ⊥ B | C ) és ( A ⊥ D | C ) → A ⊥ BD | C
(22)
Errıl a grafikus modellekkel kapcsolatos irodalomban és a disszertációban is gyakran elıkerülı tulajdonságról könnyen belátható, hogy pozitív sőrőségfüggvény esetén sem feltétlenül teljesül. Többváltozós normális eloszlás esetén viszont mindig igaz. Ez egy alapvetı differenciát jelent a többváltozós kategoriális és a többváltozós normális eloszlás között. Ez az eltérés az alapja annak, hogy kategoriális esetre érdemes a páronkénti Markov-tulajdonság (ami a fenti implikáció bal oldalán található páronkénti feltételes függetlenségeket enged meg) mellett egyéb Markov tulajdonságokat is bevezetni, normális eloszlás esetére viszont nem. A (C5) egy variánsát is meg kell itt említenem, mert a továbbiakban szintén szerepelni fog: (C5*) ha A ⊥ B | (C ∪ D ) és A ⊥ C | ( B ∪ D ), akkor A ⊥ ( B ∪ C ) | D ) ,
(23)
A (C5*), akárcsak a (C5), például akkor teljesül, ha az eloszlás pozitív. A továbbiakban a feltételes függetlenségi állításokkal definiálható gráfmodellek három típusát (irányítatlan gráf, irányított körmentes gráf, láncgráf) veszem sorra. Az elsı két típus bemutatása, a kapcsolódó tételekkel, hacsak nem jelzem másként, Lauritzen 1996-os összefoglaló munkájára épül.
3.4 Irányítatlan gráfok A grafikus modellek legegyszerőbb típusa irányítatlan gráfokkal reprezentálható. A gráf minden éle irányítatlan, ennek megfelelıen minden változót egyenrangúnak tekintünk. A gráf csúcsainak és a hozzájuk rendelt változóknak a formális megfeleltetése a következı módon adható meg. Tekintsük a G = (V , E ) gráfot. A gráfhoz a csúcsokkal
52
3. FEJEZET: GRAFIKUS MODELLEK
indexelt ( X α )α ∈V diszkrét valószínőségi változók tartoznak, ( χα )α ∈V véges értékkészletekkel. Ha A ⊂ V a csúcsok egy halmaza, akkor a hozzá tartozó X A := ( X α )α ∈A változó értékkészlete az χ A := ×α ∈V χα Descartes szorzat, ennek egy adott értékét x A := ( xα )α ∈A . –val jelöljük röviden. A V-hez tartozó változó értékkészletét χ := χV jelöli. A továbbiakban az egyszerőség kedvéért az
A⊥ B|C jelölést alkalmazzuk az
X A ⊥ X B | XC esetre. Most már formálisan is definiálhatjuk a grafikus Markov-modelleket: ezek egy G = (V , E ) gráfot felhasználva, annak V csúcshalmaza segítségével valamely szabály (un. Markov-tulajdonság) szerint feltételes függetlenségi állításokat definiálnak a csúcsoknak megfeleltetett X α ,α ∈V változók között. Irányítatlan gráf esetén háromfajta Markov-tulajdonságot szokás megkülönböztetni. Ezek a gráf hasonló értelmezését adják: valamilyen módon az „egymással közvetlenül nem érintkezı” csúcsok feltételes függetlenségét mondják ki a „velük közvetlenül érintkezı” csúcsokat feltéve. Amiben különböznek, az a két feltételesen független halmaz számossága: az elsı tulajdonság két csúcsról, a második egy csúcsról és egy (tartalmazásra nézve lehetı legnagyobb) csúcshalmazról, a harmadik két csúcshalmazról beszél. A második tulajdonság esetén adott változó független attól a változóhalmaztól, ami a vele az elsı tulajdonság alapján független változókat tartalmazza. Mint a 3.3. fejezetben már említettük, a második, lokális Markov-tulajdonság bevezetésének éppen a kategoriális esetben van jelentısége, normális eloszlásnál ez felesleges: utóbbinál a (C5) teljesülése folytán a páronkénti A ⊥ B és A ⊥ C feltételes függetlenségek ekvivalensek az együttes függetlenséggel, A ⊥ BC -vel. Azt mondjuk, hogy a G gráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik a ...
13. definíció (P) páronkénti (pairwise) Markov-tulajdonsággal, ha bármely α , β nem-szomszédos pár feltételesen független az összes többi csúcsot feltéve:
α ⊥ β | V \ {α , β } , 14. definíció (L) lokális (local) Markov-tulajdonsággal, ha bármely α ∈V feltételesen független a vele össze nem kötött csúcsoktól a vele összekötött csúcsokat feltéve:
α ⊥ V \ cl (α ) | bd (α ) ,
53
3. FEJEZET: GRAFIKUS MODELLEK
15. definíció (G) globális (global) Markov-tulajdonsággal, ha a csúcsok bármely ( A, B, S ) diszjunkt halmazhármasára, ahol S elválasztja A-t B-tıl: A⊥ B|S . E harmadik, globális tulajdonságnak kitüntetett szerepe van, mert ha teljesül, akkor segítségével bármely A, B, S diszjunkt csúcshalmazról eldönthetı, hogy igaz-e A és B S-re vett feltételes függetlensége. Ez a kritérium nem szigorítható, abban az értelemben, hogy ha A és B nincs elválasztva S által, akkor található olyan eloszlás, ami mellett A ⊥ B | S nem teljesül. A Markov-tulajdonságok között az alábbi kapcsolat áll fenn (Lauritzen, 1996):
9. tétel mellett
Bármely irányítatlan G gráf és bármely, χ -en adott valószínőség-eloszlás (G ) ⇒ ( L) ⇒ ( P ).
A tétel szerint a globális Markov-tulajdonság a legerısebb abban az értelemben, hogy a neki megfelelı feltételes függetlenségi állítások implikálják a másik két Markov-tulajdonságnak megfelelı állításokat is. Érdemes megjegyezni, hogy mivel e tétel bizonyításakor elég a (C1)-(C4) levezetési szabályokat felhasználni, az állítás igaz a tulajdonságok más modellje (pl. irrelevancia, merılegesség) mellett is. Nem túl szigorú feltétel mellett a három tulajdonság ekvivalenciája is teljesül. Ez a feltétel az 3.3 fejezetben definiált (C5*). Igaz tehát a tétel (Lauritzen, 1996):
10. tétel
Ha bármely páronként diszjunkt A, B, C, D halmazra fennáll (C5*), akkor: (G ) ⇔ ( L ) ⇔ ( P ).
A (C5*) például akkor teljesül, ha az eloszlás pozitív. Mint korábban említettem, a pozitivitást, ezt az eléggé természetes feltételt a korábbiakban is feltettük és legtöbbször a késıbbiekben is feltesszük. A három tulajdonság ekvivalenciájának jelentıségét az adja, hogy eszerint elég a globális tulajdonság használata, ezzel a tulajdonsággal pedig bármely A ⊥ B | S függetlenségi állításról eldönthetı, hogy teljesül-e egy adott gráf mellett. Ugyanis elég azt megvizsgálni, hogy az A és B csúcshalmazokat az S csúcshalmaz elválasztja-e.
8. példa Az IG-re épülı Markov-modell példájaként tekintsük az alábbi ábra gráfját, ami néhány, a politikai közvélemény-kutatásokban gyakran használt változó egy lehetséges kapcsolatrendszerét mutatja be. A változók a következık: az Ország gazdasági helyzetével (O), a Saját gazdasági helyzettel (S), a Demokráciával való elégedettség (D) és a kormányon levı Párt megítélése (P).
54
3. FEJEZET: GRAFIKUS MODELLEK
Ha a gráfot a páronkénti Markov-tulajdonság mellett értelmezzük, akkor a modell szerint az össze nem kötött csúcsok feltételesen függetlenek, vagyis a két hiányzó élhez tartozó két alábbi állítás teljesül: P ⊥ S | OD, D ⊥ S | OP. Ezek szerint a politikai attitőddel kapcsolatos változók (P ill. D) nincsenek közvetlen kapcsolatban a saját gazdasági helyzet megítélésével (S). A saját helyzet megítélése csak az ország helyzetének megítélésén keresztül gyakorol hatást a politikai attitődökre. A PS ill. DS kétdimenziós marginális kereszttáblában esetleg megfigyelhetı marginális kapcsolatuk annak következménye, hogy az O-val mind P, mind S, mind D össze van kötve, tehát kapcsolatban van. Pl. akik jobb helyzetben érzik magukat, azok hajlamosabbak az ország helyzetét is pozitívabban értékelni, az ország helyzetével elégedettek pedig hajlamosak a demokrácia állapotát és a kormányt is pozitívabban megítélni. De a feltételes kereszttáblában már nem figyelhetı meg kapcsolat: pl. az OD-t egy értékén rögzítve (csak azokat nézve, akik elégedettek az ország helyzetével és a demokráciával is) a saját helyzet megítélése független a pártpreferenciától. Ha a globális Markov-tulajdonság mellett értelmezzük a gráfot, akkor, mivel például az S-bıl a DP halmazba csak az O-n keresztül vezet út, a modell szerint az alábbi állítás is igaz: DP ⊥ S | O. Eszerint a politikai attitődváltozók együttes eloszlása sincs közvetlen kapcsolatban a saját gazdasági helyzet megítélésével, S-sel. Itt természetes feltevés a változók pozitív eloszlása (nincs okunk üresnek feltételezni a kontingenciatábla egyik celláját sem), ezért a 10. tétel szerint az utolsó feltételes függetlenség nem jelent újabb megszorítást, következik a korábbiakból.
3.5 Irányított körmentes gráfok Az irányítatlan gráfok esetében a változók között egyenrangú kapcsolatot tételeztünk fel. Elıfordulnak ugyanakkor olyan esetek is, amikor a változók szereposztása nem szimmetrikus, ami annak felel meg, hogy X hathat Y-ra, de Y nem
55
3. FEJEZET: GRAFIKUS MODELLEK
hathat X-re25. Ilyen szituációban az irányítatlan gráfok használata természetellenes lenne, ez motiválta az irányított körmentes gráfok (IKG) bevezetését, ahol a változók közti nyilak az aszimmetrikus függı-független szereposztást jelölik. A 11. ábra modellje jól példázza, mi motiválja az aszimetrikus szerepek bevezetését. Itt egyetlen hatásirány tételezhetı csak fel logikailag ill. a kialakulás idırendjét alapul véve pl. a társadalmi háttér és a felsıfokú továbbtanulási elhatározás között, vagy a nem és a szülıi bíztatás között. IKG esetén is az irányítatlan esetben már látott, ott ekvivalensnek bizonyult háromfajta Markov-tulajdonságot szokás megkülönböztetni. Azt mondjuk, hogy a G gráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik ...
16. definíció (IP) ... az irányított páronkénti Markov-tulajdonsággal, ha bármely α , β nem-szomszédos párra, ahol β ∈ nd (α ) :
α ⊥ β | nd (α ) \ {β } , vagyis α feltételesen független nem-leszármazottaitól (kivéve a szüleit) a többi nemleszármazottat feltéve. Itt érdemes megjegyezni, hogy a feltételhalmazban mindig benne van az összes szülı;
17. definíció (IL) ... az irányított lokális Markov-tulajdonsággal, ha bármely α ∈ V feltételesen független nem-leszármazottaitól a szüleire, mint feltételre nézve:
α ⊥ ( nd (α ) \ pa (α ) ) | pa (α ) . IG-k esetében a globális Markov-tulajdonság az elválasztás fogalmára épült. Irányított esetben ennek megfelelıjeként az IKG-hoz tartozó irányítatlan erkölcsös gráfra vezetjük vissza a tulajdonságot:
18. definíció (IG) A valószínőségi mérték rendelkezik az irányított globális Markovtulajdonsággal, ha a csúcsok bármely ( A, B, S ) halmazhármasára, amelyek olyanok,
(
)
m
hogy S elválasztja A-t B-tıl a G An( A∪ B ∪ S ) -ben (vagyis az A ∪ B ∪ S -t tartalmazó legkisebb ıshalmazhoz tartozó erkölcsös gráfban), fennáll:
A⊥ B|S .
9. példa Mint már az IG-kel kapcsolatban említettük, a globális tulajdonság jelentıségét az adja, hogy segítségével dönteni tudunk tetszıleges csúcshalmazoknak egy harmadik csúcshalmazra vett feltételes függetlenségérıl. Döntsük el a például a IG tulajdonságból kiindulva, hogy az alábbi, baloldali IKG szerint A és B független-e a C-t 25
Itt a hatás fogalmát nagyon általános értelemben használom, az ok-okozatiság problematikáját elkerülve (errıl bıvebben lásd majd az 6.1.1. fejezetet
56
3. FEJEZET: GRAFIKUS MODELLEK
feltéve? Az A ∪ B ∪ C halmaz legkisebb ıshalmazához a D is hozzátartozik, mert C és B szülıje. Az így kapott legkisebb ıshalmazhoz tartozó erkölcsös gráfhoz (alábbi jobb oldali gráf) az AD élet is hozzá kellett venni, mert közös gyerekük van. Az erkölcsös gráfban viszont ezért C nem választja el A-t és B-t, hiszen a D-n keresztül is vezet út köztük, tehát az eredeti IKG modellben a IG tulajdonság mellett A nem független B-tıl C-re, mint feltételre nézve.
A Markov-tulajdonságok között itt is tartalmazási reláció áll fent, mégpedig az irányítatlan esetnél több is elmondható (Lauritzen, 1996):
11. tétel
Bármely IKG gráf és bármely, χ -en adott valószínőség-eloszlás mellett ( DG ) ⇔ ( DL) ⇒ ( DP ).
Az IG esetéhez hasonlóan a (C5*) itt is ekvivalenciát implikál (Lauritzen, 1996):
12. tétel Bármely IKG gráf és bármely, χ -en adott valószínőség-eloszlás mellett, ha (C5*) teljesül, akkor (G ) ⇔ ( L ) ⇔ ( P ). Társadalomtudományi gráfmodelleket véve példának: ha az irányított lokális Markov-tulajdonság szerint értelmezzük a 82. oldalon található 11. ábra modelljét, akkor a modell szerint a felsıfokú továbbtanulási elhatározás feltételesen független nem-leszármazottjától, vagyis a nemtıl, szüleire, azaz az összes többi változóra, mint feltételre nézve. A nem független továbbá az intelligenciától és a társadalmi háttértıl, méghozzá feltétel nélkül, hiszen a nemnek nincs szülıje. Belátható, hogy az irányított globális Markov-tulajdonság itt nem hoz új feltételes függetlenségeket.
3.6 Láncgráfok 3.6.1
Bevezetı
Az irányított körmentes gráfok minden éle aszimmetrikus kapcsolatot reprezentál. Kézenfekvınek látszik ugyanakkor olyan modellek bevezetése is, ahol ezekkel együtt megengedünk szimmetrikus, irány nélküli kapcsolatokat is. Ezek pl. olyan esetek lehetnek, ahol
57
3. FEJEZET: GRAFIKUS MODELLEK
•
nem ismert, hogy x okozza y-t vagy fordítva (nyíl lenne a megfelelı, de nem tudjuk, hogyan irányítsuk),
•
vagy ahol y visszahat x-re (feedback, lásd az iskolázottság és a foglalkozás közötti nyíl vonalra cserélését a 7.1. fejezetben, abból a megfontolásból, hogy a szocialista rendszerben a politikailag megbízható, de aluliskolázott munkaerı kékgalléros vezetı pozíciókba való juttatásának utólagos legitimizációjaként felnıttkori beiskolázásokat hajtottak végre; vagy mai példával: a mőszaki-technikai haladás révén egy adott szakmában is állandósulhat a változás, amellyel az érintetteknek lépést kell tartaniuk, ami viszont csak az ismeretek folyamatos gyarapításával lehetséges),
•
vagy ahol az x és y közötti kapcsolatot egy harmadik, nem mért változó okozza (lásd a gólyák számának és a születésszámnak ismert esetét a 6.1.2. fejezetben).
Az irányított és irányítatlan éleket is tartalmazó gráfokat láncgráfoknak nevezzük. Mint definiálásuknál, a Gráfelméleti definíciók és jelölések c. fejezetben láttuk, két különbözı és nem kompatibilis meghatározás is található velük kapcsolatban a szakirodalomban (1-es és 2-es típus). Ugyanakkor nem csak a gráfelméleti definíció, hanem a hozzájuk kapcsolódó feltételes függetlenségek kiolvasására szolgáló Markovtulajdonságok meghatározása sem egységes. Az alábbiakban ezért mindig jelölni fogom, hogy mely szerzık megközelítése alapján dolgozom. Az IG-k és IKG-k esetén korábban látott három (páronkénti, lokális és globális) Markov-tulajdonság mellett a láncgráfok esetében blokk-rekurzív (block-recursive) Markov-tulajdonságot is megkülönböztetünk. Míg a páronkénti tulajdonság két csúcs, a lokális egy csúcs és egy csúcshalmaz közötti feltételes függetlenségrıl szól, addig a blokk-rekurzív és a globális tulajdonság két csúcshalmaz függetlenségérıl. A blokk-rekurzív tulajdonság a komponensek (blokkok) rekurzitivitására épül. A globális tulajdonság itt is az elválasztás fogalmát használja, mint az IG-k és IKG-k esetén. Ezeket a tulajdonságokat veszem sorra a továbbiakban. A fejezetben a tételek mindegyike az 1-es típusú láncgráfokra lesz kimondva, mert a kapcsolódó szerzık ebben a definíciós körben gondolkodtak. Nem ismert, hogy ezek a tételek igazak-e a 2-es típusú láncgráfokra is. Valójában az is kérdés, hogy az 1-es és 2-es láncgráf típusok a gráfelméleti különbségen túl a statisztikai modellt tekintve is különböznek-e. A szakirodalom ugyanis, ahogyan általában eltekint az 1-es és 2-es típusú láncgráf explicit megkülönböztetésétıl, ugyanúgy nem vizsgálja azt a kérdést sem, hogy egy adott Markov-tulajdonság a két típusú gráfon definiálva azonos modellosztályt eredményez-e. A kérdés precízen így szól: adott Markov-tulajdonság mellett van-e olyan, 2-es típusú láncgráffal kapott feltételes függetlenségi állításhalmaz, ami nem ekvivalens az 1-es típusú láncgráfokkal kapott állításhalmazok egyikével sem, és fordítva. Sıt az is kérdéses, hogy az „általános” láncgráfoknak mi a viszonya a két altípussal, ahol az általános láncgráfokat a két típus egyesítéseként úgy határozhatjuk meg, hogy komponenseik definiálása az 1-es típushoz hasonlóan, „elıre”
58
3. FEJEZET: GRAFIKUS MODELLEK
történik, de a komponensek a 2-es típushoz hasonlóan nem rendezettek. Vagyis kérdés, hogy van-e modell az alábbi halmazábra 1-essel, 3-assal és 4-essel jelölt részhalmazaiban.
6. ábra. Az általános, illetve az 1-es ill. 2-es típusú láncgráfokon, valamely Markov-tulajdonsággal definiált modellosztályok tartalmazási viszonya (sötét háttér: nemüres, fehér háttér: nem ismert, hogy üres-e)
Saját, a késıbbiekben bemutatott eredményem szerint (lásd a 11. példa) a 3-as részhalmaz nemüres, tehát van olyan, 2-es típusú láncgráf-modell, ami nem állítható elı 1-es típusú láncgráffal. Ebbıl következıen az 1-es típusú láncgráfokra kimondott, az alábbiakban bemutatott tételek nem feltétlenül teljesülnek a 2-es típusra. Ezt a tényt az általam ismert szakirodalom teljesen figyelmen kívül hagyja.
3.6.2
Páronkénti Markov-tulajdonságok
Néhány feltételes függetlenségi tulajdonság definiálásával kell kezdenünk. Ha α és β ugyanazon Ki komponensbe tartozik, és az ıket összekötı vonal hiányzik, akkor a két csúcs feltételesen független komponensükre és az összes olyan komponenst feltéve, amely a Ki-nek nem leszármazottja:
α ⊥ β | {K Nd ( i ) \ β }.
(24)
Ha α és β ugyanazon Ki komponensbe tartozik, és az ıket összekötı vonal hiányzik, akkor a két csúcs feltételesen független az összes olyan komponenst feltéve, amely a Ki-nek nem leszármazottja:
α ⊥ β | { K nd ( i ) \ β }.
(25)
Ha β a Knd(i) eleme (azaz az α Ki komponensének nem-leszármazottjai közé tartozó komponensbe tartozik), és a β-ból az α-ba menı nyíl hiányzik, akkor a két csúcs feltételesen független α komponensére és az összes, nem-leszármazott komponenst feltéve:
59
3. FEJEZET: GRAFIKUS MODELLEK
α ⊥ β | { K Nd ( i ) \ β } ,
(26)
Ha β a Knd(i) eleme (azaz az α Ki komponensének nem-leszármazottjai közé tartozó komponensbe tartozik), és a β-ból az α-ba menı nyíl hiányzik, akkor a két csúcs feltételesen független az összes, nem-leszármazott komponenst feltéve:
α ⊥ β | { K nd ( i ) \ β }.
(27)
Vegyük észre, hogy az elsı és harmadik tulajdonság csak abban különbözik a másodiktól és a negyediktıl, hogy az utóbbiaknál az α-t tartalmazó komponens nem tartozik bele a feltételhalmazba. Továbbá: ha 2-es típusú láncgráfról van szó, ahol a komponensek teljesen rendezettek, akkor a feltételben levı K nd ( i ) és K nd ( i ) halmazok a K an ( i ) és K An ( i ) halmazokká egyszerősödnek. Mint korábban, a láncgráfok definiálásakor az 3.2. fejezetben említettem, Wermuth és Cox (pl. 2004) a 2-es típusú láncgráfok további specifikálásaként megengednek nem csak teli, hanem szaggatott vonalakat és nyilakat is. A fenti négy tulajdonság felsorolásuk sorrendjében az ı megfogalmazásukban a hiányzó teli vonal, hiányzó szaggatott vonal, hiányzó teli nyíl ill. hiányzó szaggatott nyíl esetéhez tartoznak. E tulajdonságok kombinálásával négy fajta páronkénti Markov-tulajdonság definiálható.
19. definíció (LP1) Azt mondjuk, hogy a G gráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik a láncgráfokra definiált 1-es típusú páronkénti Markov-tulajdonsággal, ha (24) és (26) teljesül. Az ezzel a Markov-tulajdonsággal definiált modelleket elsıként Lauritzen és Wermuth (1989) illetve Frydenberg (1990a) tanulmányozta, ezért a szakirodalom gyakran (pl. Andersson et al., 2001, Drton, 2008) páronkénti LWF Markovtulajdonságként utal rá. A modellt Wermuth és Cox (2004) teli vonalakkal és teli nyilakkal ábrázolja, és blokk-regressziós (block-regression model) vagy blokkoltkoncentrációs (blocked-concentration) modellnek nevezi26.
20. definíció (LP2) A valószínőségi mérték rendelkezik a láncgráfokra definiált 2-es típusú páronkénti Markov-tulajdonsággal, ha (24) és (27) teljesül. A szakirodalom (Andersson et al., 2001, Drton, 2008) páronkénti alternatív Markov-tulajdonságként, röviden AMP Markov-tulajdonságként utal erre a tulajdonságra. A tulajdonsággal definiált modellt Wermuth és Cox (2004) teli vonallal és szaggatott nyíllal ábrázolja, és koncentráció-regressziós (concentration-regression) modellnek nevezi.
26
Megjegyezném, hogy ık ezt és a következı tulajdonságokat is 2-es típusú gráfon definiálják.
60
3. FEJEZET: GRAFIKUS MODELLEK
21. definíció (LP3) A valószínőségi mérték rendelkezik a láncgráfokra definiált 3-es típusú páronkénti Markov-tulajdonsággal, ha (25) és (26) teljesül. A (Wermuth és Cox jelölését követve) szaggatott vonallal és teli nyíllal ábrázolható modelleket Wermuth és Cox (2004) röviden említi, Rudas, Bergsma és Németh (2009) pedig részletesebben is tárgyalja.
22. definíció (LP4) A valószínőségi mérték rendelkezik a láncgráfokra definiált 4-es típusú páronkénti Markov-tulajdonsággal, ha (25) és (27) teljesül. Ezeket, a szaggatott vonallal és szaggatott nyíllal ábrázolható modelleket Wermuth és Cox (2004) többváltozós regressziós modelleknek nevezi. Richardson (pl. 2003) említendı itt még meg, aki az IKG-knak egy sajátos általánosításával, az irányított körmentes keverék gráfokkal (acyclic directed mixed graphs) foglalkozik. Ezek a gráfok a szokásos egyirányú nyilakon kívül kétirányú (bi-directed) nyilakat (¨) is tartalmaznak. Richardson ezeken a gráfokon speciális Markov-tulajdonságokat vezet be, pl. az m-szeparáció kritériumát. Belátható, hogy a 4-es típusú páronkénti Markovtulajdonsággal adott modellek Richardsonnak az m-szeparációval az irányított körmentes keverék gráfon definiált modelljeivel tartalmazási kapcsolatban vannak. Precízen: az m-szeparáció implikálja a 4-es típusú páronkénti Markov-tulajdonságot, de a fordított implikáció nem áll általánosságban, csak a folytonos esetben, normális eloszlást feltételezve.27
10. példa A négy Markov-tulajdonság használatára példaként tekintsük az alábbi láncgráfot. (Az egyszerőség kedvéért olyan gráfot választottam, ami az 1-es és 2-es típusú láncgráf definíciójának is megfelel.)
7. ábra. Egy láncgráf
LP1 mellet a gráfmodell az alábbi feltételes függetlenségek teljesülésével ekvivalens: 27
Richardson említését azért tartottam fontosnak, mert megközelítését több helyen (pl. Wermuth, Cox, 2004) Wermuth és Cox szaggatott nyílt és szaggatott vonalat tartalmazó modelljével azonosítják, pedig, mint azt a tétel mutatja, nem áll fenn azonosság. A tartalmazási tétel bizonyítását Richardson egy nekem írt levelében vázolta, erre itt nem térnék ki.
61
3. FEJEZET: GRAFIKUS MODELLEK
B ⊥ D | CA, C ⊥ A | BD, D ⊥ A | BC . LP2 mellett hiányzó nyíl esetén a saját komponensbeliek nem szerepelnek a feltételben, ezért az utolsó kettı állítás feltételhalmaza szőkül:
B ⊥ D | CA, C ⊥ A, D ⊥ A. LP3 az LP1-hez képest a hiányzó vonal esetén jelent szőkebb feltételhalmazt: B ⊥ D | A, C ⊥ A | BD, D ⊥ A | BC . LP4 pedig mind a hiányzó vonal, mind a hiányzó nyíl esetére szőkebb feltételhalmazt jelent: B ⊥ D | A, C ⊥ A, D ⊥ A. Tehát az LP1 implikálja a „leginkább feltételes” függetlenséget, LP4 a „leginkább marginális” függetlenséget, LP2 és LP3 pedig a kettı között van.
11. példa Ebben a példában mutatom meg, hogy a 6. ábra 3-as részhalmaza nem üres. Definiáljuk a G 2-es típusú gráfot a következıképpen: legyen A, B és C a G gráf három csúcsa, tartozzanak mindhárman ugyanahhoz a komponenshez, közülük szaggatott vonalak hiányozzanak (azaz értelmezzük a gráfot az LP3 vagy LP4 mellett). Ekkor három marginális függetlenség áll elı: A ⊥ B, A ⊥ C , B ⊥ C .
Könnyen belátható, hogy ez a három állítás nem állítható elı 1-es típusú láncgráf mellett. Ugyanis a csúcsok között nem húzódhat él (hogy teljesüljenek az állítások), ezért csak külön komponensbe vehetjük fel ıket, tehát hiányzó nyilakat kell definiálnunk. Ez a konstelláció mind a négy páronkénti Markov-tulajdonság mellett három feltételes (és nem marginális!) függetlenséget jelent: A ⊥ B | C , A ⊥ C | B, B ⊥ C | A. A marginális ill. a feltételes függetlenségekkel definiált modellek ténylegesen különböznek egymástól, hiszen az 1. tétel szerint az elıbbi három hatáshoz tartozó
62
3. FEJEZET: GRAFIKUS MODELLEK
paraméter
AB AC BC ( λ AB , λ AC , λBC ),
az
utóbbi
négy
hatáshoz
tartozó
paraméter
ABC ABC ABC ABC ) 0-ra állításával definiálható. ( λ AB , λ AC , λBC , λ ABC
Vegyük észre, hogy az IG-ken (az IKG-ken), mint speciális 1-es típusú láncgráfokon az irányítatlan páronkénti (irányított páronkénti) Markov-tulajdonságok ugyanazokat a feltételes függetlenségeket implikálják, mint az LP1-LP4 bármelyike. Tehát ezek a modellek a korábbiak általánosításai. Mint azt a 3.2. fejezetben már megjegyeztem, a többi szerzıvel ellentétben Wermuth és Cox (pl. 1992) a legáltalánosabb esetben ugyanazon a gráfon belül megenged nem csak egyféle vonalat és egyféle befelé mutató nyilat tartalmazó komponenst, hanem ezek keverékét is. Ilyen pl. az alábbi gráf, ahol a második komponensen belül szaggatott vonalak vannak, és teli nyilak mutatnak bele, míg a negyedik komponensen belül teli vonalak vannak, és szaggatott nyilak mutatnak bele. Ezek a modellek nem tartoznak a fenti négy típus egyikébe sem, és esetükben valóban szükséges a teli/szaggatott megkülönböztetés a megfelelı Markov-tulajdonság megadásához. Ezeket a gráfmodelleket Rudas, Bergsma, Németh (2009) tárgyalja részletesebben.
3.6.3
Lokális Markov-tulajdonságok
Frydenberg (1990a) vezeti be az LP1, Andersson et al. (2001) az LP2 lokális megfelelıit.
23. definíció (LL1) Azt mondjuk, hogy a G gráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik a láncgráfokra definiált 1-es típusú lokális Markov-tulajdonsággal, ha
α ⊥ ( K Nd ( i ) \ cl (α ) ) | bd (α ) , minden α csúcsra, ami az i-vel indexelt komponenshez tartozik.
63
(28)
3. FEJEZET: GRAFIKUS MODELLEK
Azaz α feltételesen független minden vele össze nem kötött csúcstól, ami a saját komponensében vagy egy azt nem követı komponensben van, a vele összekötött csúcsokra, mint feltételre nézve. Ezt a tulajdonságot LFW lokális Markov-tulajdonságnak nevezik, és valóban az LWF páronkénti tulajdonság megfelelıje, hiszen adott csúcs az LP1 által tıle páronként függetlennek nyilvánított csúcsok uniójától független, és a feltételben saját komponensbeliek is szerepelnek.
24. definíció (LL2) Azt mondjuk, hogy a G gráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik a láncgráfokra definiált 2-es típusú lokális Markov-tulajdonsággal, ha
(
)
α ⊥ ( K i ( i ) \ cl (α ) ) | K nd ( i ) ∪ ne (α ) ,
(29)
α ⊥ ( K nd ( i ) \ pa (α ) ) | pa (α ) ,
(30)
illetve ha
minden α csúcsra, ami az i-vel indexelt komponenshez tartozik. Azaz az elsı feltétel szerint (hiányzó vonal esete) α feltételesen független minden vele össze nem kötött, saját komponensében levı csúcstól, a komponensének nem-leszármazottjaihoz tartozó ill. a vele összekötött saját komponensbeli csúcsokra, mint feltételre nézve. A második feltétel szerint pedig (hiányzó nyíl esete) α feltételesen független a saját komponensének nem-leszármazottjaihoz tartozó, de vele össze nem kötött csúcsoktól, a szüleire, mint feltételre nézve. Ezt a tulajdonságot AMP lokális Markov-tulajdonságnak nevezik, és valóban az AMP páronkénti tulajdonság megjelelıje, hiszen adott csúcs az LP2 által tıle páronként függetlennek nyilvánított csúcsok uniójától független, és hiányzó vonal esetén a feltételben saját komponensbeliek is szerepelnek, hiányzó nyíl esetén nem. Definiálható lenne az LP3 és LP4 lokális megfelelıje is, ezeket a szakirodalom azonban nem említi. A páronkénti esethez hasonlóan itt is könnyen belátható, hogy az IG-ken (az IKGken), mint speciális 1-es típusú láncgráfokon az irányítatlan lokális (irányított lokális) Markov-tulajdonságok ugyanazokat a feltételes függetlenségeket implikálják, mint az LL1-LL2 bármelyike. Tehát ezek a modellek is a korábbiak általánosításai. Itt is felmerül az a még megválaszolatlan kérdés, hogy vajon az 1-es illetve 2-es típusú láncgráfokon lokális tulajdonságokkal definiált modellek halmaza megegyezike. A páronkénti esetben vizsgált példára (7. ábra) visszatérve, a gráf az LL1 mellett az alábbi feltételes függetlenségekkel ekvivalens:
64
3. FEJEZET: GRAFIKUS MODELLEK
B ⊥ D | AC , C ⊥ A | BD, D ⊥ AB | C , míg az LL2 mellett az alábbiakkal: B ⊥ D | AC , C ⊥ A, D ⊥ A. Ha megnézzük, milyen modelleket kaptunk ugyanezen a gráfon LP1 és LP2 mellett, akkor azt látjuk, hogy az LP2 és az LL1 modellje megegyeztek, az LP1 az LL1-tıl pedig csak abban különbözött, hogy az elıbbi D ⊥ A | BC -t implikálta, az utóbbi D ⊥ AB | C -t. A két feltételes függetlenség közül a második implikálja az elsıt (a 3.3 fejezetben felsorolt feltételes függetlenségi tulajdonságok közül a C3 és C2 egymás utáni alkalmazásával), tehát az LL1 melletti modell implikálja az LP1 mellettit, más szóval: az LL1 melletti szőkebb a másiknál, almodellje annak. Viszont ha (C5*) áll, akkor teljesül, hogy ha ( D ⊥ B | AC és D ⊥ A | BC ) , akkor D ⊥ BA | C. Vagyis (C5*) esetén az LP1 és LL1 melletti modellek ekvivalensek. Ez általában is igaz (AMP, 2001):
13. tétel Bármely 1-es típusú láncgráf és bármely, χ -en adott valószínőségeloszlás mellett ( LL1) ⇒ ( LP1), és ( LL 2) ⇒ ( LP 2). Az IG és IKG esetéhez hasonlóan a (C5*), vagyis speciális esetként a pozitív eloszlás itt is ekvivalenciát implikál:
14. tétel Bármely 1-es típusú láncgráf és bármely, χ -en adott valószínőségeloszlás mellett, ha (C5*) teljesül, akkor (AMP, 2001) ( LL1) ⇔ ( LP1), és ( LL 2) ⇔ ( LP 2). Mivel ezek a tételek az 1-es láncgráfok kontextusában nyertek bizonyítást, nem ismert, hogy a 2-es típusú láncgráfokra is teljesülnek-e.
65
3. FEJEZET: GRAFIKUS MODELLEK
3.6.4
Blokk-rekurzív Markov-tulajdonságok
A blokk-rekurzív Markov-tulajdonságnak nincsen megfelelıje az IG-k és IKG-k esetére, hiszen ez a tulajdonság éppen a láncgráfok komponenseinek (másnéven blokkjainak) a rekurzív struktúrájára épülnek. Az alábbiakban Drton (2008) munkájára támaszkodom, ahol a szerzı négyféle blokk-rekurzív Markov-tulajdonságot különböztet meg, a négyféle páronkénti tulajdonság analógiájára. Az elsı és a második tulajdonság megegyezik azzal, ahogyan Andersson et al. (2003), aki csak ezt a két tulajdonságot tárgyalja, bevezeti azokat. Öt feltételes függetlenségi tulajdonság definiálásával kell kezdenünk. A komponensek, mint csúcsok által definiált IKG-ra alkalmazzuk az irányított lokális Markov-tulajdonságot, eszerint minden Ki komponensre:
(
)
K i ⊥ K nd ( i ) \ K pa ( i ) | K pa ( i ) .
(31)
Adott komponensen, mint irányítatlan gráfon alkalmazzuk az irányítatlan lokális Markov-tulajdonságot azon a feltételes eloszláson, amit a komponenst közvetlenül megelızı komponensekre (azaz a komponens szüleire), mint feltételre veszünk. Eszerint minden Ki komponensre és annak minden σ részhalmazára:
(
)
σ ⊥ ( K i \ σ \ ne (σ ) ) | K pa ( i ) ∪ ne (σ ) .
(32)
Ha az elıbbi irányítatlan lokális Markov-tulajdonság helyett annak azt a variánsát vesszük, amikor a feltételben nem szerepelnek a szomszédok, akkor minden Ki komponensre és annak minden σ részhalmazára:
σ ⊥ ( K i \ σ \ ne (σ ) ) | K pa ( i ) .
(33)
Az elızı két tulajdonság vonallal össze nem kötött csúcsok függetlenségét állította. Nyíllal össze nem kötött csúcsokra ismét kétfajta tulajdonságot definiálunk, ezek között megint az lesz csak a különbség, hogy a saját komponensbeli szomszédok szerepelnek-e a feltételben. Tehát minden Ki komponensre és annak minden σ részhalmazára:
(
)
σ ⊥ ( K pa ( i ) \ pa (σ ) ) | pa (σ ) ∪ ne (σ ) ,
(34)
vagy
σ ⊥ ( K pa ( i ) \ pa (σ ) ) | pa (σ ) . Most már definiálhatjuk a blokk-rekurzív Markov-tulajdonság négy típusát.
66
(35)
3. FEJEZET: GRAFIKUS MODELLEK
25. definíció (LB1) Azt mondjuk, hogy a G láncgráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik a láncgráfokra definiált 1-es típusú blokk-rekurzív Markov-tulajdonsággal, ha (31), (32) és (34) teljesül. Ez a tulajdonság az LWF páronkénti tulajdonság megfelelıje, hiszen a feltételhalmaz mind hiányzó nyilak, mind hiányzó vonalak esetén tartalmazza a saját komponensbeli szomszédokat. A tulajdonságot ezért LWF blokk-rekurzív tulajdonságnak nevezik.
26. definíció (LB2) A 2-es es típusú blokk-rekurzív Markov-tulajdonság (31), (32) és (35) teljesülésével határozható meg. Ez a tulajdonság az AMP páronkénti tulajdonság megfelelıje, hiszen a feltételhalmaz hiányzó nyilak esetén nem tartalmazza a saját komponensbeli szomszédokat. A tulajdonságot ezért AMP blokk-rekurzív tulajdonságnak nevezik.
27. definíció (LB3) A 3-es es típusú blokk-rekurzív Markov-tulajdonság (31), (33) és (34) teljesülésével határozható meg. Ez a tulajdonság az LP3 páronkénti tulajdonság megfelelıje, hiszen a feltételhalmaz hiányzó vonalak esetén nem tartalmazza a saját komponensbeli szomszédokat.
28. definíció (LB4) A 4-es es típusú blokk-rekurzív Markov-tulajdonság (31), (33) és (35) teljesülésével határozható meg. Ez a tulajdonság az LP4 páronkénti tulajdonság megfelelıje, hiszen a feltételhalmaz sem hiányzó vonalak, sem hiányzó nyilak esetén nem tartalmazza a saját komponensbeli szomszédokat. Az elsı két tulajdonságot Andersson et al. (2001) definiálta, a második kettıt Drton (2008) vezette be. A négy tulajdonság mellett kapott modelleket Rudas, Bergsma és Németh (2009) is vizsgálja. Akárcsak a páronkénti esetben, itt is megjegyezhetı, hogy az elsı tulajdonság implikál „leginkább feltételes”, a negyedik „leginkább marginális” feltételes függetlenségeket. A 7. ábra visszatérve, nézzük meg most, hogy milyen modelleket definiál blokkrekurzív tulajdonságok mellett. A (31)-es állítás egyik tulajdonság mellett sem ad semmit. A többi állítás az LB1 esetén az alábbi feltételes függetlenségeket adja:
B ⊥ D | AC , CD ⊥ A | B, C ⊥ A | BD, D ⊥ A | C. Az LB2 pedig a következıket:
67
3. FEJEZET: GRAFIKUS MODELLEK
B ⊥ D | AC , CD ⊥ A, C ⊥ A, D ⊥ A, Az LB3 a következıket: B ⊥ D | A, CD ⊥ A | B, C ⊥ A | BD, D ⊥ A | C. Az LB4 pedig az alábbiakat: B ⊥ D | A, CD ⊥ A, C ⊥ A, D ⊥ A. Megjegyzés: az implikált feltételes függetlenségek jó része redundáns, mert a többiekbıl következnek. Pl. CD ⊥ A → C ⊥ A. Ha megnézzük, milyen modellt definiált ugyanezen a gráfon LP1-LP4 és LL1-LL2, akkor a (C1)-(C4) feltételes függetlenségi tulajdonságok kihasználásával belátható, hogy a blokk-rekurzív tulajdonság mind a négy esetben implikálja a páronkéntit. Továbbá az LB1 implikálja az LL1-et és az LB2 az LL2-t. A fordított irányú tartalmazás pl. az LB4 és LP4 között azért nem áll fenn, mert az elıbbihez CD ⊥ A tartozik, az utóbbihoz C ⊥ A és D ⊥ A , és az utóbbiak általános esetben nem implikálják az elıbbit. Ez az implikáció az 3.3. fejezetben definiált (C6) tulajdonság alesete, amirıl ott már megemlítettük, hogy általános esetben nem teljesül. Diszkrét változók esetén még pozitivitás esetén sem áll, teljesül viszont a folytonos esetben együttes normalitás esetén. A példák az általános eset lényegére mutatnak rá. Ugyanis a páronkénti, lokális és blokk-rekurzív tulajdonságok tartalmazási relációiról az alábbiak ismertek általános esetben:
15. tétel Az LWF Markov-tulajdonságok esetén (AMP et al., 2001) 1-es típusú láncgráfon ( LB1) ⇒ ( LL1), és (C5*) teljesülésekor, tehát pl. pozitív eloszlásra az ekvivalencia is áll:
68
3. FEJEZET: GRAFIKUS MODELLEK
( LB1) ⇔ ( LL1).
16. tétel Az AMP Markov-tulajdonságok esetén (AMP et al., 2001) 1-es típusú láncgráfon ( LB 2) ⇒ ( LL 2), és (C5*) és (C6) együttes teljesülésekor, tehát nagyon speciális esetben áll csak az ekvivalencia: ( LB 2) ⇔ ( LL 2).
17. tétel A 3-es és 4-es Markov-tulajdonságok esetén (Drton, 2008) 1-es típusú láncgráfon ( LB ) ⇒ ( LP ), és (C5*) és (C6) együttes teljesülésekor teljesül csak az ekvivalencia. Tehát pozitív diszkrét eloszláson az LWF blokk-rekurzív, lokális és páronkénti modellek ekvivalensek, de az AMP modell ill. a 3-es, 4-es blokk-rekurzív modellek valódi részhalmazai a megfelelı páronkénti modelleknek. A páronkénti modellek kevesebb megkötéssel adhatók meg, tehát több szabad paraméterrel rendelkeznek, így a modell dimenziója (ahogyan azt a 12. definícióban, a 35. oldalon megadtuk) a páronkénti esetben nagyobb, mint a blokk-rekurzív esetben. Megjegyzés: folytonos esetben együttes normalitás esetén (C5*) és (C6) teljesül, tehát ilyen eloszlásokon elég a legegyszerőbb páronkénti modelleket tanulmányozni.
3.6.5
Globális Markov-tulajdonságok
A lokális tulajdonsághoz hasonlóan a globális tulajdonság is csak az LWF és AMP esetben van definiálva (Frydenberg, 1990a, Andersson et al., 2001), bár elképzelhetı lenne hasonló általánosítás a másik kettı esetben is. IG-k esetében a globális Markovtulajdonság az elválasztás fogalmára épült. Irányított esetben ennek megfelelıjeként, továbbra is az elválasztást használva az IKG-hoz tartozó irányítatlan erkölcsös gráfra vezettük vissza a tulajdonságot. Most a láncgráfhoz tartozó irányítatlan erkölcsös vagy kibıvített gráfra fogunk hivatkozni.
29. definíció (LG1) Azt mondjuk, hogy a G láncgráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik az 1-es típusú (vagy LWF) globális Markov-tulajdonsággal, ha a csúcsok bármely ( A, B, S ) halmazhármasára, amelyek
(
)
m
olyanok, hogy S elválasztja A-t B-tıl a G An( A∪ B ∪ S ) -ben (vagyis az A ∪ B ∪ S -t tartalmazó legkisebb ıshalmazhoz tartozó erkölcsös gráfban), fennáll:
69
3. FEJEZET: GRAFIKUS MODELLEK
A⊥ B|S .
30. definíció (LG2) Azt mondjuk, hogy a G láncgráf mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik az 2-es típusú (vagy AMP) globális Markov-tulajdonsággal, ha a csúcsok bármely ( A, B, S ) halmazhármasára, amelyek
(
)
a
olyanok, hogy S elválasztja A-t B-tıl a G An( A∪ B ∪ S ) -ben (vagyis az A ∪ B ∪ S -t tartalmazó legkisebb ıshalmazhoz tartozó kibıvített gráfban), fennáll:
A⊥ B|S . A páronkénti és a lokális esethez hasonlóan itt is könnyen belátható, hogy az IGken (az IKG-ken), mint speciális 1-es típusú láncgráfokon az irányítatlan globális (irányított globális) Markov-tulajdonságok ugyanazokat a feltételes függetlenségeket implikálják, mint az LG1-LG2 bármelyike. Tehát ezek a modellek is a korábbiak általánosításai. A két globális tulajdonság 1-es típusú láncgráfon ekvivalens a megfelelı blokkrekurzív tulajdonsággal, még általános esetben is:
18. tétel Az LWF ill. AMP Markov-tulajdonságok esetén (AMP et al., 2001) 1-es típusú láncgráfon ( LG1) ⇔ ( LB1), ( LG 2) ⇔ ( LB 2). Összefoglalva az eddigi ekvivalenciatételeket elmondható, hogy pozitív diszkrét eloszlás esetén a tizenhat elvileg különbözı modellbıl tizenkettıt ismertet az irodalom, s ezek között az ekvivalenciák miatt valójában csak hét különbözı van, ahogyan az alábbi táblázat mutatja:
2. táblázat. A láncgráf-modellek típusai, kategoriális változók és pozitív eloszlás esetén (=: ekvivalencia, fi: implikáció) Típus 1-es (LWF, leginkább feltételes) 2-es (AMP) 3-as 4-es (leginkább marginális)
Globális = Globális =
Markov-tulajdonság Blokk-rekurzív = Lokális = Blokk-rekurzív fl Lokális = Blokk-rekurzív fl Blokk-rekurzív fl
Páronkénti Páronkénti Páronkénti Páronkénti
A láncgráf-modellek definiálásának lezárásaként nézzünk most egy mobilitáskutatási példát, a 7.1. fejezetben késıbb szereplı modellt, ami úgy készült, hogy a klasszikus Treiman-modell gráfján végrehajtottam a Boguszak és társai (1990) által Csehszlovákia esetére javasolt két módosítás egyikét. A gráf eredeti alkalmazási
70
3. FEJEZET: GRAFIKUS MODELLEK
kontextusában nem grafikus modellként volt értelmezve, hiszen folytonos változókkal és útmodellel közelítették meg. Itt azt mutatom meg, milyen jelentésbeli módosulást eredményezne, ha gráfmodellként értelmeznénk. A gráf indoklását, a módosítás lényegét részletesen majd a 7.1. fejezetben írom le, a modell evolúcióját és egyéb variánsait pedig a 3.8.-ben. Itt csak a gráfhoz tartozó feltételes függetlenségi állításokat vizsgálom meg.
8. ábra. Ötváltozós státuszelérési modell, láncgráf modellel (I: iskolázottság, F: foglalkozás, I’: apa iskolázottsága, F’: apa foglalkozása, J: jövedelem)
Vizsgáljuk meg, hogy a fenti hét modell közül hány ténylegesen különbözı modell definiálható itt. Elıször nézzük meg, van-e olyan csúcs, aminek a komponensében van más csúcs is, és hiányzik egy belé mutató nyíl vagy egy belefutó vonal. Az F ilyen (I’F nyíl hiányzik), de hasonló szerepő hiányzó vonal nincsen. Tehát nem mindegy, hogy az LWF vagy az AMP tulajdonságot használjuk (ezek különbözı feltételes függetlenséget adnak többcsúcsú komponensbe futó hiányzó nyíl esetére), de a 3-as és 4-es tulajdonság ezekkel megegyezı feltételes függetlenségeket adna (mert ezek többcsúcsú komponensbıl hiányzó vonalra adnának az LWF ill. AMP típushoz képest más feltételes függetlenséget, de ilyen nincs). Tudjuk, hogy LWF esetben a páronkénti, lokális, blokk-rekurzív és globális modellek megegyeznek, ezért vegyük most a legegyszerőbb páronkénti tulajdonságot. Ezzel az alábbi feltételes függetlenségek olvashatók ki a gráfból:
J ⊥ I ' | F ' FI , J ⊥ F ' | I ' FI ,
(36)
F ⊥ I ' | F 'I. Az AMP tulajdonságokról tudjuk, hogy közöttük valójában csak két különbözı van, a páronkénti és a blokk-rekurzív. Az elıbbi a következı függetlenségeket adja:
J ⊥ I ' | F ' FI , J ⊥ F ' | I ' FI , F ⊥ I ' | F '.
71
(37)
3. FEJEZET: GRAFIKUS MODELLEK
Vegyük végül az AMP blokk-rekurzív tulajdonsággal megkapható feltételes függetlenségeket:
J ⊥ F ' I ' | FI , F ⊥ I ' | F '. Az utóbbi állításokról belátható, hogy megegyeznek a gráfból az AMP lokális tulajdonsággal kapott állításokkal. Az AMP lokális modellek viszont ekvivalensek az AMP páronkénti modellekkel, amibıl az következik, hogy a gráfhoz tartozó AMP modellek is mind megegyeznek. Vagyis a gráfhoz csak két különbözı modell tartozik: a (36) és a (37). Ezek pedig csak abban különböznek, hogy a foglalkozás és az apa iskolázottságának függetlenségéhez elég-e az apa foglalkozását feltenni (AMP), vagy az iskolázottságot is be kell-e vonni a feltételbe (LWF). Ha grafikus modellel közelítjük meg tehát Boguszak et al. gráfját, akkor e közül a két modell közül választhatunk.
3.7 A gráfok és a feltételes függetlenségek megfeleltetésének problémái: ekvivalens gráfok, ekvivalens Markov-tulajdonságok A gráfok és a feltételes függetlenségi állítások megfeleltetésének kérdései közé tartozik az az egyszerőnek látszó probléma, hogy egy adott F függetlenség igaz-e az adott gráf és az adott Markov-tulajdonság mellett. Itt a nehézséget az adja, hogy F nem feltétlenül adódik közvetlenül a gráfból a Markov-tulajdonsággal kiolvasható függetlenségek L listájának tagjaként – lehet, hogy nincs köztük felsorolva, de azokkal ekvivalens, vagy azok következménye. Ennek belátásához fenti példáinknál, a páronkénti, lokális, blokk-rekurzív és globális tulajdonságok felhasználásával adódó modellek összehasonlításánál nem-triviális esetben a (C1)-(C4) levezetési szabályok használata is szükséges volt. Mivel azonban a feltételes függetlenség, mint logikai rendszer nem teljes (lásd a 3.3. fejezetet), elıfordulhat olyan eset, amikor az L→F belátásához a (C1)-(C4) közé nem tartozó, de egyébként igaz szabályt kellene felhasználni. Az L→F összefüggés tehát bizonyos esetekben bizonyítható a négy levezetési szabállyal, de ha segítségükkel nem sikerül igazolnunk az összefüggést, az még nem feltétlenül nyer cáfolatot. A nem-teljesség meghatározásából adódóan ez a probléma sem a négy szabály kibıvítésével, sem azok kicserélésével nem oldható meg. Ezzel a nem-teljességbıl fakadó problémával kapcsolatban az utóbbi két évtizedben fontos eredmények születettek. IG-kre az LWF globális tulajdonság mellett (Frydenberg, 1990b), IKG-kre szintén az LWF globális tulajdonság mellett (Geiger, Pearl, 1988), LG-kre az LWF (Studeny and Bouckaert, 1998) és az AMP (Andersson et al., 2001b) globális tulajdonság mellett belátták a teljességet, vagyis ezekben az esetekben a gráfból minden igaz feltételes függetlenség kiolvasható bizonyos szabályokkal. Ám ezek az eredmények nem feltétlenül igazak diszkrét eloszlásokra megszorítva. A bizonyításokban ugyanis legtöbbször azt mutatják meg (pl. Andersson et al., 2001b, Geiger, Pearl, 1988), hogy minden gráfhoz van legalább egy olyan
72
3. FEJEZET: GRAFIKUS MODELLEK
eloszlás, ahol a felsorolt állítások és csak azok igazak. Ezt konstruktív módon, az eloszlás elıállításával bizonyítják, a konstruált eloszlás viszont normális. Diszkrét eloszlású változókra Meek (1990) bizonyította be, hogy a Pearl által bevezetett dszeparációval (d-separation, a feltételes függetlenségek kiolvasására szolgáló szabály) az LWF globális Markov-tulajdonság IKG-kon teljes. Másképpen fogalmazva: a dszeparáció segítségével az IKG-ból a globális Markov-tulajdonsággal kiolvasott állításokból logikailag következı valamennyi feltételes függetlenség felsorolható. Az általam ismert irodalom nem nyújt választ diszkrét változókon értelmezett más gráfok és más Markov-tulajdonságok teljességének a kérdésére. A következıkben ennek a problémának további általános megfogalmazásait tárgyalom. Elsısorban a problémák bemutatása a célom, a kapcsolódó eredményeket, tételeket inkább csak illusztrációként közlöm. A következı négy problémát vázolom: 1. Két Markov-tulajdonság ekvivalenciája adott gráfon 2. Két Markov-tulajdonság ekvivalenciája adott gráfosztályon 3. Két gráf Markov-ekvivalenciája 4. Két gráfosztály Markov-elvivalenciája
Két Markov-tulajdonság ekvivalenciája adott gráfon. Mint azt korábban, a különbözı Markov-tulajdonságok felhasználásával adódó modellek összehasonlításánál láttuk, ugyanahhoz a gráfhoz tartozó két különbözı Markovtulajdonsággal definiált modell ekvivalenciájának eldöntése nem mindig egyszerő feladat. A modellek ekvivalenciájának eldöntését a gráfból a Markov-tulajdonságokkal kiolvasható két feltételes függetlenség-lista ekvivalenciájának eldöntésével végeztük el, és ehhez nem-triviális esetben a (C1)-(C4) levezetési szabályok használata kellett. Itt is igaz az, amit fent írtam: a feltételes függetlenség rendszerének nem-teljessége miatt ez a módszer nem alkalmazható általánosan. A modellek ekvivalenciája tehát néha ugyan bizonyítható, de nem cáfolható a négy levezetési szabállyal. Két Markov-tulajdonság ekvivalenciája adott gráfosztályon. A fenti kérdésnek a gráfosztályokra általánosított változata az, amikor adott gráfosztályon két különbözı Markov-tulajdonság ekvivalenciája a probléma: van-e minden G gráfhoz egy másik, ugyanebbe a gráfosztályba tartozó G’ gráf, hogy G az elsı Markov-tulajdonság mellett ugyanazt a modellt adja, mint G’ a második Markov-tulajdonság mellett? Andersson et al. (2001) szerint a láncgráfokon az LWF- és AMP-tulajdonságok nem ekvivalensek. Ugyanık a gráfból kiolvasható (a gráf csúcsainak és éleinek bizonyos konfigurációival megadható) feltételekkel megadják az 1-es típusú láncgráfoknak azt a részhalmazát, amin az AMP - ill. LWF-Markov tulajdonságok már ekvivalensek. Két gráf Markov-ekvivalenciája. Az elsı esetben ugyanahhoz a gráfhoz tartozó két különbözı Markov-tulajdonság ekvivalenciájának eldöntésérıl írtam. Egy fordított probléma két különbözı gráf ugyanazon tulajdonság melletti ekvivalenciájának a kérdése.
73
3. FEJEZET: GRAFIKUS MODELLEK
31. definíció Két gráfot adott Markov-tulajdonság mellett Markov-ekvivalensnek nevezünk, ha ugyanazt a modellt indukálják. Míg az IG-k Markov-ekvivalenciájának szükséges és elégséges feltétele, hogy a csúcs- és élhalmazaik azonosak legyenek, addig az IKG-kre és LG-kre ez nem teljesül: akkor is egybeeshetnek a hozzájuk tartozó modellek, ha az élek halmaza különbözik (Andersson et al., 1997). Frydenberg (1990a) adott a gráfokból kiolvasható szükséges és elégséges feltételt két láncgráf LWF globális Markov tulajdonság melletti ekvivalenciájára. Hasonló eredményt közöl Verma és Pearl (1990) IKG-kre. Gráfok Markov-ekvivalenciájának a körébe tartozik az 1-es és 2-es típusú láncgráfok problémája is. Láttuk, hogy a két gráfosztály gráfelméletileg valóban különbözik: van olyan él- és csúcs-halmaz, ami az egyiknek eleme, a másiknak nem. Azonban ettıl független probléma az, hogy ugyanazon az él- és csúcshalmazon ugyanazzal a Markov-tulajdonsággal definiált két különbözı típusú láncgráf által indukált modell különbözik-e. Tekintsük pl. az alábbi, 2-es típusú láncgráfot.
A gráfból az LP1-LP4 tulajdonság bármelyike mellett ezeket a feltételes függetlenségeket kapjuk: B ⊥ A, C ⊥ B | A. Ha viszont 1-es típusú láncgráfként kezeljük az adott csúcsokat és éleket, akkor a három csúcs három külön komponenst alkot. Ez az utóbbi modell bármelyik páronkénti tulajdonság mellett a következı függetlenségekkel azonos: A ⊥ B, B ⊥ A | C , C ⊥ B | A. Ez több megkötés, a modell ezért látszólag szőkebb, de a (21)-es levezetési szabály alkalmazásával kijön, hogy a plusz-megkötés a másik kettı implikáltja. Tehát a két típusú gráf ebben az esetben Markov-ekvivalens. Egy másik ide tartozó, a gráfelméleti bevezetıben már említett probléma, hogy a 2es típusú láncgráfok nem egyértelmően feleltethetık meg IKG-knak. Az alábbi két gráf ugyanannak az IKG-nak különbözı 2-es típusú láncgráfjai.
74
3. FEJEZET: GRAFIKUS MODELLEK
Az LWF páronkénti Markov-tulajdonság mellett az elsı gráf az alábbiakat adja:
C ⊥ A | BD, D ⊥ A | B, D ⊥ B | A, míg a második ezeket:
C ⊥ A | BD, D ⊥ A, D ⊥ B | A. A két modell látszólag különbözik, de a (21)-es levezetési szabály alkalmazásával a második listából ( D ⊥ A, B ⊥ D | A) → D ⊥ AB áll elı, amibıl (C3) és (C2) egymás utáni alkalmazásával
D ⊥ A| B következik. Tehát a két modell ekvivalens, így a két gráf is Markov-ekvivalens az LWF páronkénti tulajdonság mellett.
Két gráfosztály Markov-elvivalenciája. Két gráf Markov-ekvivalenciája mellett beszélhetünk két gráfosztály Markov-ekvivalenciájáról is. A 3.6.1. fejezetben kitértünk az 1-es és 2-es típusú láncgráfok osztályának Markov-ekvivalenciájának kérdésére. Ebben az esetben nem két adott, csúcs- és élhalmazuk alapján összetartozó láncgráf modelljének páronkénti ekvivalenciája kérdéses, hanem a két típusba tartozó láncgráfok által indukált modellek halmazának azonossága. Elképzelhetı, hogy az elsı kérdésre „Nem” a válasz, míg a másodikra „Igen”. Ugyanis lehet, hogy van olyan 1-es típusú gráf (G1), amihez olyan 2-es típusú G2 láncgráf tartozik, hogy G2 modellje nem ekvivalens G1 modelljével, de található egy hozzá egy másik 2-es típusú láncgráf (G3), olyan, hogy G3 modellje már ekvivalens G1-ével. 75
3. FEJEZET: GRAFIKUS MODELLEK
Két gráfosztály ekvivalenciájának kérdéséhez tartoznak Andersson et al. (1997, 2001) eredményei: a gráfból kiolvasható szükséges és elégséges feltételeket adnak arra, hogy az IKG-k által adott modellosztály egybeessen az IG-k által adott modellosztállyal – általános esetben ugyanis egyik sem tartalmazza a másikat, van modell, ami csak IG-vel, és van, amelyik csak IKG-vel fejezhetı ki. A láncgráfok modellosztálya viszont (LWF vagy AMP-Markov tulajdonság mellett) tartalmazza az IKG-két és IG-két is. Andersson et al. megmutatja azokat a feltételeket, amiknek eleget tevı láncgráfok modellosztálya egybeesik az IKG-k ill. IG-k modellosztályával. Ez utóbbi bizonyos esetekben fontos kérdés lehet, hiszen ha kiderül, hogy egy láncgráfhoz van vele ekvivalens IKG, akkor a láncgráf-modell statisztikai elemzése jelentısen egyszerősödhet. Ugyanakkor ezek a hétköznapi gyakorlatban is fontos problémák, hiszen az adatainkhoz illeszkedı gráf kiválasztásánál megkerülhetetlen kérdés, hogy vajon két különbözı gráf tényleg különbözı modellt definiál-e adatainkon, és ha igen, akkor melyik feltevésében különbözik valójában a kéznél levı két modell. Ugyancsak fontos kérdés, hogy különbözik-e a választott gráf mellett két különbözı Markovtulajdonsággal definiált modell. Az alábbi szociológiai példáknál is látni fogjuk, hogyan merülnek fel ezek a problémák az alkalmazásokban.
3.8 Szociológiai példák grafikus modellekre Az alábbiakban a két talán legismertebb szociológiai gráfmodellt, a Blau-Duncan és a Wisconsin modellt, illetve variánsaikat vizsgálom majd részletesebben. A modellek eredeti alkalmazási kontextusukban nem minden esetben voltak grafikus Markov-modellként értelmezve, ehelyett legtöbbször folytonos változókkal és útmodellel közelítették meg ıket. Az útmodellek lineáris regressziós egyenletek rendszereként definiálhatók, ahol a függı változók azok, ahova él mutat a gráfban, a független változók pedig azok, ahonnét az élek kiindulnak. A függı és a független változók közötti kapcsolatot magyarázzuk meg direkt és indirekt hatásokra történı felbontással, úgy, hogy a függı és a független változók közötti korrelációt bontjuk fel a köztük húzódó gráfbeli utaknak megfeleltethetı tagokra. Ez a megközelítés azonban, mint ahogyan azt majd a 6.1.4. fejezetben részletesebben is kifejtem, nem követi a grafikus modellek alapgondolatát. Grafikus modellekben az él törlése ugyanis feltételes függetlenséget implikál, de ez általános esetben nem áll az útmodellekre: össze nem kötött változópár feltételes függetlensége útmodellek esetében nem kell, hogy teljesüljön egyetlen feltételhalmaz mellett sem Az alábbiakban azt mutatom meg, milyen jelentésbeli módosulásokat eredményezne, ha grafikus modellként értelmeznénk az említett klasszikus gráfokat. Ennek haszna abban áll, hogy minden statisztikai modell esetében, akár illeszkedik az adatokhoz, akár nem, érdemes kissé eltérı modellek illeszkedését is megvizsgálni. Ugyanennek az elvnek a követésével bemutatom azt is, milyen következményekkel járnak átalakításaik (új élek bevonása, élek törlése, nyíl vonalra vagy vonal nyílra cserélése). Látunk olyan példát, amikor az átalakítással szőkebb vagy tágabb modellt
76
3. FEJEZET: GRAFIKUS MODELLEK
kapunk, és látunk olyan példát is, amikor a gráf átrajzolása ellenére a modell változatlan marad. Megvizsgálom azt is, hogy különbözı Markov-tulajdonságok alkalmazása esetén különbözik-e a kapcsolódó modell is. A két modell vizsgálata saját alkalmazásaim között a disszertáció végén is szerepel. A következıkben a talán legismertebb szociológiai gráfmodellnek, a klasszikus Blau-Duncan modellnek az irodalomban elıforduló különbözı variánsait mutatom be. Az eredeti modell (Blau, Duncan, 1967) az alábbi 9. ábra baloldali gráfjával ábrázolható. Blau és Duncan célja a státuszelérési folyamat, ezen belül az iskolázottság közvetítı szerepének leírása volt. A modell változói a következık: I’: apa iskolázottsága, F’: apa foglalkozása, I: iskolázottság, F1: elsı foglalkozás, F2: jelenlegi foglalkozás. Az F’ és az I’ között nem nyíl, hanem kettısnyíl szerepelt az eredetiben. Ennek indoklása az volt, hogy a két változó nem csak azért korrelál, mert az egyik hat a másikra, hanem azért is, mert közös okok húzódnak meg mögöttük: az apa elsı foglalkozása és az apa apjának foglalkozása ill. iskolai végzettsége. Itt ennek megfelelıen vonalat húztam közéjük, de könnyen belátható, hogy a modellt definiáló feltételes függetlenségekre nincs hatása annak, hogy itt nyíl vagy vonal szerepel28, ezért nyíl feltételezésével gráf tulajdonképpen IKG-ként is kezelhetı. Tegyük most ezt, fogjuk fel a gráfot IKG-ként, és értelmezzük a globális Markov-tulajdonság mellett! Az alábbi feltételes függetlenséget kapjuk:
F1 F2 ⊥ I ' | F ' I
(38)
Vagyis a modell alapvetı mondanivalója, hogy az apa iskolázottsága közvetlenül nem befolyásolja az utód foglalkozását, csak közvetve, az iskolázottságon keresztül. Blau és Duncan funkcionalista magyarázata erre az volt, hogy a modern iparosodás a hatékonyságon alapul, ami egyfajta univerzalismust kíván meg: a legképzettebb embereket ülteti a legfontosabb pozíciókba. A társadalmi pozíció elérésénél a megszerzett (achieved) tulajdonságok tehát fontosabbak az örökölteknél (ascribed).
28
Ismét hangsúlyoznám, hogy ez a gráf grafikus modellként történı értelmezése mellett igaz. Nem érinti tehát azt a kérdést, hogy a gráfot útmodellként értelmezı Blau-nak és Duncan-nek az F’I’ él irányítatlanságára vonatkozó döntése is semmitmondó volt-e. Zárójelben megjegyzem azért: az útmodell együttható-egyenleteinek felírásából könnyen belátható, hogy az volt.
77
3. FEJEZET: GRAFIKUS MODELLEK
9. ábra. Az eredeti Blau-Duncan modell (1967), és annak Boguszak et al. (1990) általi módosítása két lépésben
Boguszak et al. (1990) Csehszlovákia esetére vonatkozóan két ponton javasolta módosítani a fenti modellt, a lépésenkénti változtatásról lásd a fenti 9. ábra középsı és jobb oldali gráfját. Az elsı változtatás a jelenlegi foglalkozás és az iskolázottság közötti egyirányú kapcsolat kétirányúsítása, ennek indoka az, hogy a pozitívan diszkriminált, vezetı pozíciókba juttatott politikailag megbízható, de iskolázatlan munkaerıt késıbb gyakran mégis beiskolázták. (Boguszak et al. érveirıl bıvebben az alkalmazások között, az 7.1. fejezetben.) Grafikus modellként értelmezve a gráfot, az így láncgráffá alakul, mert az I és F2 egy komponensbe kell, hogy tartozzon. Viszont az F1-et is be kell vonnunk ebbe a komponensbe, hogy ne alakuljon ki félig-irányított kör. Mivel a komponensek teljesen rendezettek és egyenként összefüggı részgráfot alkotnak, a gráf 2-es típusú láncgráfként is egyértelmően áll elı, vagyis nem számít, hogy a gráfot 1-es vagy 2-es típusú láncgráfként kezeljük. Az ábra középsı gráfjából az ekvivalencia-tételek használatával a különbözı Markov-tulajdonságok mellett adódó modellek köre háromra szőkül. Ha a gráfot LWF modellként értelmezem, akkor a blokk-rekurzív Markov-tulajdonság mellett az a
F1 F2 ⊥ I ' | F ' I
(39)
állítást adja, a páronkénti Markov-tulajdonság mellett pedig az ezzel a 2. táblázatba foglalt ekvivalencia-tételek szerint ekvivalens
F1 ⊥ I ' | F ' IF2 F2 ⊥ I ' | F ' IF1
(40)
állításokkal adható meg. Ez a modell az eredeti Blau-Duncan modelltıl abban különbözik, hogy itt az elsı foglalkozás és az apa iskolázottságának függetlenségéhez a jelenlegi foglalkozást is be kell vonni a feltételbe, ami nem biztos, hogy szerencsés feltevés. Ha AMP blokk-rekurzív modellként értelmezem a gráfot, akkor az
F1 F2 ⊥ I ' | F '
78
(41)
3. FEJEZET: GRAFIKUS MODELLEK
állítást kapom. A (39)-es és a (41)-es modell közötti különbség lényegi: a második azt mondja, hogy az apa iskolázottságának nincs direkt hatása az elsı és jelenlegi foglalkozásra, ha az apa foglalkozásán keresztül gyakorolt közvetett hatást kiszőrjük (értsd: ha az apa foglalkozását egy konkrét értéken rögzítjük). Az elsı modell szerint ugyanez akkor igaz, ha az utód iskolázottságán és az apai foglalkozáson keresztül gyakorolt közvetett hatásokat szőrjük ki (azaz ha a két utóbbi változót egyszerre rögzítjük egy-egy konkrét értéken). Az utóbbi modell nem szigorúbb az elsınél, hanem mást mond, tehát egyik modell sem almodellje a másiknak. Végül az AMP páronkénti Markov-tulajdonság szerint az alábbi függetlenségek olvashatók ki a gráfból:
F1 ⊥ I ' | F ', F2 ⊥ I ' | F '.
(42)
Ennek a modellnek az elızı almodellje, mert erısebb megszorításokat tartalmazott. Ha (38)-at összevetjük (39)-cel, (41)-gyel ill. (42)-vel, láthatjuk, hogy az eredeti Blau-Duncan modell ekvivalens az elsı, LWF láncgráf-modellel (az LWF Markovtulajdonság mellett nincs hatása a modellre a gráf változtatásának), viszont a másik két modellel nem összehasonlítható – sem nem szőkebb, sem nem bıvebb azoknál. Ez azért elınyös, mert illeszkedı modell keresésekor rosszul illeszkedı modell esetén érdemes vele össze nem hasonlíthatóra térni, ahelyett, hogy automatikusan bıvítenénk a modellt. Buguszak et al. második változtatási javaslata szerint az apa iskolázottságának direkt hatása is van a jelenlegi foglalkozásra, mivel a magas iskolázottságú apáktól származó, egyébként negatívan diszkriminált utódok munkába állásukat követıen mégis sikerrel érvényesültek a munkaerıpiacon (a kulturális tıke és az érvényesülési törekvés átörökítése folytán). A gráfból (9. ábra jobb oldali gráfja) egyetlen nyíl hiányzik, az I’ és F1 közötti. A különbözı Markov-tulajdonságok mellett adódó modellek köre itt kettıre szőkül; ha LWF modellként értelmezem, akkor az
F1 ⊥ I ' | F ' IF2
(43)
állítással adható meg, ha AMP modellként, akkor az
F1 ⊥ I ' | F '
(44)
állítással. A nyíl behúzásának a (39)-re, (42)-re ill. (44)-re gyakorolt következménye egyaránt az volt, hogy bıvebb modellt kaptunk: az eredeti Blau-Duncan modell a módosított modellnek almodelljét képezi. A Blau-Duncan modell egy variánsa a 10. ábra bal oldali modellje is. Eredeti forrása Duncan et al. (1968), de Donald Treiman (1970) tette ismertté, akinek modernizációs hipotézise szintén ezen a modellen belül fogalmazódott meg (errıl 79
3. FEJEZET: GRAFIKUS MODELLEK
bıvebben lásd a 7.1. fejezetet). A változók köre nem tartalmazza az elsı foglalkozást, viszont a jövedelmet (J) igen. A jobb oldali gráf a Boguszak et al.-féle módosítások bevezetésébıl adódik. Most nem mutatom be lépésenként a két módosítást, mert azt már megtettem korábban: az IF nyíl vonalra cserélésébıl adódó gráfot a 3.6.5.-ben vizsgáltam. Az 7.1. alkalmazás e két modell illeszkedését veti össze 1992-es nemzetközi adatokon.
10. ábra. Az eredeti Blau-Duncan modell egy variánsa (Duncan et al., 1968, Treiman, 1970), és a modellre alkalmazva Boguszak et al. (1990) módosításait
A bal oldali gráf ismét tekinthetı IKG-nek, a lokális Markov-tulajdonság alapján a következı feltételes függetlenségi állításokkal:
J ⊥ I ' F ' | FI , F ⊥ I ' | F 'I.
(45)
A a 3.6.5. fejezetben láttuk, hogy az IF nyíl vonalra cserélésébıl adódó gráf LWF modellként (36) megegyezik ezzel, AMP modellként (37) azonban különbözik tıle. A nyíl-vonal csere után az I’F nyíl behúzását is elvégezve kapjuk a jobb oldali gráfot, ami bármely Markov-tulajdonság mellett ezt adja:
J ⊥ F ' I ' | FI , tehát ennek az eredeti Treiman-modell almodellje. A Blau-Duncan modell a státuszelérési folyamatot és benne az iskolázottságnak a családi háttér átörökítésében játszott közvetítı szerepét írja le, a folyamat leglényegesebb faktorainak kiemelésével. Nem jeleníti meg viszont a modell azokat a mechanizmusokat, melyek révén a státuszelérési folyamatban a családi háttér hatása ténylegesen mőködik. Ezeknek a mechanizmusoknak a feltárása volt Sewell és Shah (1968) célja, amikor az örökölt erıforrások genetikai és szociálpszichológiai tényezıit is bevonták modelljükbe. A gyermekek szemében fontos személyek hatásának (az alábbi modellben a szülıi biztatásnak) a megjelenítésével modelljük az iskolai teljesítmény mögött álló motivációk fontosságát hangsúlyozza. Az alábbi példa Wisconsin középiskolásainak körében 1957-ben folytatott klasszikus vizsgálatából származik, azóta sokan mások újraelemezték (Fienberg, 1980,
80
3. FEJEZET: GRAFIKUS MODELLEK
Whittaker, 1990, Spirtes et al., 1993, Heckerman et al., 1999). Sewell és Shah vizsgálata késıbb longitudinális, több évtizedes kutatássá bıvült, az itt bemutatott modellnek az elért foglalkozással is kibıvített változata Wisconsin modellként vált ismertté. A Wisconsin modell a Blau-Duncan modellhez hasonlóan közismert a szociológiában, eredetileg ugyancsak folytonos változókkal, útelemzéssel közelítették meg, és szintén sok variánsa született. A most bemutatott elsı modellváltozatban a felsıfokú továbbtanulás (F) meghatározó tényezıi a nem (N), intelligencia hányados (I), szülıi bíztatás (S) és társadalmi háttér (T). Az adatok megtalálhatók az alkalmazások között, a 7.3. fejezetben. Sewell és Shah az alábbi ok-okozati sémát rendelte az adatokhoz29:
Fienberg (1980) újraelemezte az adatokat, mégpedig két logit-modellként tekintve azokra, ahol az S ill. az F adják a függı változókat, magyarázó változóik pedig a fenti sémában ıket megelızı változók. Az általa preferált modell nem grafikus modell. Grafikus modellként is elemezték már az adatokat. A legjobban illeszkedı IKG gráfot keresı algoritmusok alkalmazási példái között gyakran szerepel ugyanis ez a példa, az alább bemutatott gráfot (11. ábra) Spirtes et al. (1993) is egy ilyen algoritmussal kapta. Az általuk keresı algoritmussal végignézett gráfoknak meg kellett felelniük annak a kikötésnek, hogy olyan sorrendjét adják a változóknak, mely nem mond ellent a kézenfekvı ({T, I, N}, S, F) sorrendnek (itt az elsı három változó között nincs rendezés). Az így kapott „legjobb” modell a felsıfokú továbbtanulással kapcsolatos elhatározás kialakulását reprezentálja, objektív tényezıktıl kiindulva az azoktól függı pszichológiai faktorokon át, mélyebb betekintést engedve ebbe a folyamatba annál, mint ha csak a szokott módon (pl. logisztikus regresszió alkalmazásával) az elhatározást, mint függı változót, az összes többi változót, mint azonos szintő magyarázó változót tekintenénk. Ezt a mélyebb betekintést segíti például, hogy a szülık biztatásának meghatározó faktorairól is képet kapunk, vagy az intelligenciának a továbbtanulási tervekre gyakorolt direkt (minden más faktortól független) és indirekt (a szülıi biztatáson keresztül érvényesülı) hatását is el tudjuk különíteni.
29
Ez eredeti értelmezésében persze nem grafikus modell, nem alkalmazható rá Markovtulajdonság, inkább csak egy logikai séma.
81
3. FEJEZET: GRAFIKUS MODELLEK
11. ábra. Felsıfokú továbbtanulási tervek kialakulása, IKG (Spirtes et al., 2003)
A modell IKG modellként értelmezhetı lokális (ez a 11. tétel szerint a globálissal ekvivalens) vagy páronkénti Markov-tulajdonságok mellett is, de mivel pozitív eloszlást feltételezhetünk, a két tulajdonság a 12. tétel szerint ekvivalens. A következı feltételes függetlenségek állnak elı a lokális esetben (csak a nem-redundánsakat felsorolva):
N ⊥ IT , F ⊥ N | TIS .
(46)
A második állítás adja a modell lényegi mondanivalóját: a felsıfokú továbbtanulási szándék független a nemtıl, ha a többi tényezı hatását kiszőrjük. A lányok és a fiúk azonos mértékő ambíciókkal bírnak, de esetleg a lányokat kevésbé bíztatják, mint az azonos képességő és azonos társadalmi háttérrel bíró fiúkat, ezért tőnhet úgy az FN marginális kapcsolatból, hogy a lányok kevésbé ambiciózusak. A modell illeszkedésének vizsgálata megtalálható az alkalmazások között, a 7.3. fejezetben. A gráf átalakításainak következményeit bemutatandó: ha törölnénk a TI nyílt, feltételezve, hogy a társadalmi háttér nem befolyásolja a gyerekek képességeit, akkor egy szőkebb modellt kapnánk a (46)-nak a T ⊥ I megszorítással történı kiegészítésével. Ha viszont a jelenlegi modellhez még hozzáadnánk az N→F nyilat, feltételezve, hogy a nemnek a szülıi bíztatástól függetlenül is van hatása a továbbtanulásra, akkor bıvebb modellt kapnánk, a (46)-ból a második állítást törölve. A jelenlegi modellben az S→F nyilat vonalra is cserélhetnénk, egyfajta visszacsatolást feltételezve, miszerint a felsıfokú tervek megjelenése fokozza a szülıi bíztatást. Ekkor láncgráfmodellt kapunk, négy komponenssel, ahol az S és az F ugyanabba a komponensbe tartozik. Válasszuk ennek a modellnek a megadásához a láncgráfoknak az 1-es típusát30, hogy alkalmazhassuk a 18. tétel szerinti ekvivalenciákat! Mivel a gráfban nincsen hiányzó vonal, ezért a Markov-tulajdonságok négy fajtájából csak kettı különbözik ténylegesen, az LWF és az AMP. Az eloszlás pozitivitásának feltevése mellett az LWF tulajdonságról tudjuk, hogy páronkénti, lokális, blokkrekurzív és globális típusa ekvivalens. Válasszuk pl. a lokális típust. (28) szerint éppen a (46)-ban felsorolt feltételes függetlenségek olvashatók ki a gráfból. Tehát hiába cseréltük a nyilat vonalra, a kapott modell az LWF tulajdonság mellett valójában 30
A 2-es típus mellett három különbözı gráfot kaphatnánk, attól függıen, hogy az N-t, mint komponenst a T elé, a T és I közé, vagy az I és S közé tesszük.
82
3. FEJEZET: GRAFIKUS MODELLEK
ugyanaz. Nézzük most az AMP tulajdonságot! Ennek két nem-ekvivalens típusa van, de könnyen belátható, hogy ezen a láncgráfon e két típus is ugyanazt a modellt indukálja. Nézzük tehát pl. a blokk-rekurzív típust! Az alábbi nem-redundáns függetlenségeket kapjuk a 26. definíció alapján:
N ⊥ IT , F ⊥ N | TI .
(47)
Az IKG-hoz tartozó (46) és a láncgráfhoz tartozó (47) a második állítás feltételhalmazában különbözik egymástól. Tehát az AMP tulajdonság mellett a nyíl vonalra cserélésének a modellt tekintve ez a következménye. Említettem, hogy Spirtes et al. a ({T, I, N}, S, F) sorrendet elıfeltevésként használta. Vele szemben Heckerman et al. (1999, szintén grafikus modellmegközelítésben) ezt a rendezést elıfeltételezte: ({T, N}, {I, S}, F). Bayes-féle megközelítést használva, a paraméterek egy konkrét a priori eloszlását feltételezve kerestek az IKG-k közül legjobb modellt. A második legjobban illeszkedı modelljük megegyezik Spirtes és társaiéval, de a legjobban illeszkedı modelljük olyan, amit Spirtes et al. nem enged meg: az IS nyíl irányítása náluk megfordul: a szülıi bíztatás határozza meg az intelligenciát. Szerintük ez az ok-okozati viszony is elképzelhetı, én azonban a láncgráf-modell eszközének birtokában azt gondolom, hogy itt nyíl helyett éppen a kétféle irány egyforma plauziblitása miatt inkább vonal lenne a megfelelı megoldás. Így az alábbi modellt kapnánk LWF Markov-tulajdonság mellett:
N ⊥ T , I ⊥ N | TS , F ⊥ N | TIS , és az alábbit AMP Markov-tulajdonság mellett (ezen a gráfon az LP2, LL2, LB2 és LG2 tulajdonságok ekvivalensek):
N ⊥ T , I ⊥ N | T , F ⊥ N | TIS . Az alkalmazások között, a 7.3. fejezetben Spirtes et al. eredeti modelljének és annak egy láncgráf-variánsának illeszkedését hasonlítom majd össze.
83
4 GRAFIKUS
MODELL MARGINÁLIS KATEGORIÁLIS ADATOKON
MODELLKÉNT
Az elızı fejezetben tárgyalt grafikus modellek paraméterezése képezi ennek az új eredményeket közlı, ezért talán a legfontosabb fejezetnek a tárgyát. Mint a 2.3. fejezetben láttuk, a paraméterek jó megválasztása lényegi kérdés, ezen múlik például a modellek interpretálhatósága, sıt létezése is. Vannak a speciálisan a grafikus modellekre érvényes paraméterezési szempontok is: (1) egy grafikus modell ezeknek a paramétereknek bizonyos egyszerő megszorításaival (általában néhány paraméter nullára állításával) adható meg. Továbbá (2) azokban a gyakori esetekben, amikor a cél egy jól illeszkedı gráf (azaz az ezáltal prezentált modell) élei (a modellben szereplı hatások) elhagyhatóságának a tesztelése, akkor ezt a paraméter-megszorítások fokozatos feloldásával (stepwise - lépegetve) érhetjük el. Ugyanennek a az esetnek a megfelelıje, amikor rosszul illeszkedı gráf javítása a cél, és bizonyos élek behúzásának hatását teszteljük a paraméter-megszorítások fokozatos feloldásával. Végül (3) a modellhez tartozó eloszlás értelmezése a becsült paraméterek interpretációjával történik. Mindhárom esetben azon múlik az eredményünk, hogy a tábla paraméterezése milyen paramétereket tartalmaz. Nem megfelelı paraméterezés esetén elıfordulhat, hogy (1) nem világos, a modellt hogyan, a paraméterek milyen megszorításával definiálhatjuk, (2) a lépegetıs módszer egyes lépéseinél az él elhagyását/behúzását nem tudjuk, hogyan feleltethetjük meg a paraméterek megszorításának/feloldásának, (3) a modellhez tartozó eloszlás paraméterei nem a modellezett jelenség minket érdeklı jegyeihez tartoznak. A grafikus modellek feltételes függetlenségi állításokkal adhatók meg. Ezek a feltételes függetlenségek a változóknak csak bizonyos részhalmazait érintik, ezért a modellek nem a teljes együttes eloszlásra, hanem csak a megfelelı marginális eloszlásokra vonatkozó megkötésekkel adhatók meg. Ha loglineáris paraméterezésben gondolkodunk, ezek a megszorítások egyszerre többfajta marginálishoz tartozó paraméter megszorítását igénylik, a hagyományos loglineáris keretben tehát nem fejezhetık ki. Természetesen adódik hát, hogy marginális loglineáris paraméterekkel paraméterezzük ıket. Az alábbi fejezet tehát azon a kiindulóponton nyugszik, hogy a kategoriális változókon értelmezett grafikus modellek marginális loglineáris modellek. Az elızı két, marginális ill. grafikus modellekkel foglalkozó fejezet eredményeit ezért közvetlenül fel fogjuk használni.
4.1 Egy elızmény: Goodman módosított útmodellje A probléma megoldásának elızményeként szokás hivatkozni a Goodman (1973) által bevezetett módosított útmodellt (modified path model), ami ugyan nem grafikus modell, de valóban, sok szempontból rokonítható a grafikus modellekkel. Az alábbiakban Vermuntra (1996) támaszkodom a Goodman-modell interpretálásában, mert az ı megközelítése kicsit általánosabb, mint az eredeti.
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
Vermunt is megemlíti, hogy a Goodman-féle módosított útmodell segítségével a láncgráf-modellek is paraméterezhetık. (Vermunt, az általa hivatkozott források alapján itt vélhetıen csak az LWF Markov-tulajdonság mellett értelmezett láncgráfokra gondol.) Goodman a feltételes függetlenségeknél általánosabb megszorítások paraméterezhetıségét célozta modelljével, ezt az alábbi, Vermunt-tól vett példán mutatom be. Tekintsük az alábbi gráfot.
12. ábra. Módosított útmodell
Az ábra értelmezése a következı. A nyíllal összekötött változók között közvetlen kapcsolat van, a nyíl hiánya (páronkénti) feltételes függetlenséget jelent. A nyilak által meghatározott sorrend kauzális sort jelöl. A BD és CD nyilak ponttal összekötése azt jelzi, hogy a B és a C D-re gyakorolt hatása interakcióban van. Az AE BE és DE nyilak ugyanakkor pl. nincsenek ponttal összekötve, ami az interakció hiányát jelzi: az A, B és D mindegyikének van hatása E-re, de ezek a hatások egyenként függetlenek attól, hogy a másik két változó melyik kategóriájában vagyunk. Tehát a D az A-tól, a B-tıl, a C-tıl és a BC interakciótól függ, az E az A-tól, a B-tıl és a D-tıl, az F pedig a B-tıl, a C-tıl, a D-tıl és az E-tıl. Vegyük észre, hogy grafikus Markov-modellekkel a ponttal összekötött és össze nem kötött nyilak közti különbségtétel nem volt kifejezhetı. Az A, B és C közötti kettıs nyíl azt jelzi, hogy sem kauzális sorrendjük, sem együttes eloszlásuk nincs specifikálva. Ha πabcdef jelöli annak valószínőségét, hogy A=a, B=b, C=c, D=d, E=e, F=f, akkor a változók kauzális sorrendje felhasználható arra, hogy ezt az együttes valószínőséget marginális és feltételes valószínőségek szorzatára bontsuk (Goodman, 1973):
π abcdef = π abcπ d |abcπ e|abcd π f |abcde .
(48)
Ezen a módon közvetlenül is kifejezhetı, hogy egy változó értéke csak az ıt megelızı változók értékeitıl függ. Ám ez még csak az elsı lépés a változók kapcsolatának specifikálásában. A következı lépésben az is meg kellene jelenítenünk, hogy az adott változó melyik korábbi változóval van tényleges kapcsolatban, és
85
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
melyikkel nem. Ehhez fel kell használnunk azt a tételt31, hogy változók feltételes függetlensége ekvivalensen definiálható a sőrőségfüggvény alábbi felbonthatóságával (pl. Lauritzen, 1990):
X ⊥ Y | Z ⇔ f ( x | y , z ) = f ( x | z ). Ezt a gráfból kiolvasható
E ⊥ C | ABD, F ⊥ A | BCDE
(49)
páronkénti feltételes függetlenségek felhasználásával (48)–ra alkalmazva az alábbi kifejtést kapjuk:
π abcdef = π abcπ d |abcπ e|abd π f |bcde .
(50)
Ha csak feltételes függetlenségi állításaink lennének, a modell így már megadható lenne. Azonban további specifikálás szükséges amiatt, hogy magasabbrendő interakciókat a modell nem enged meg. Így a kifejtés egyes tagjai tovább egyszerősíthetık. Ez a feltételes valószínőségek logisztikus modellként történı paraméterezésével oldható meg:
exp λLABC ( i L ) L⊆ ABC , L ≠ ∅, i ABC = ( a, b, c ), ABC exp λL ( i L ) abc ⊆ L ABC
∑
π abc =
π d |abc =
∑
(51)
∑
(
ABCD ABCD ABCD ABCD exp λDABCD (d ) + λ AD (a, d ) + λBD (b, d ) + λCD (c, d ) + λBCD ( b, c , d )
∑
(
exp λ d
ABCD (d ) D
+λ
ABCD ( a, d ) AD
+λ
ABCD (b, d ) BD
+λ
ABCD (c , d ) CD
+λ
)
ABCD BCD (b, c, d )
)
,
(52)
π e|abd =
(
ABDE ABDE ABDE exp λEABDE (e) + λ AE (a, e) + λBE (b, e) + λDE ( d , e)
∑ exp ( λ
ABDE (e ) + E
e
π f |bcde =
(
)
ABDE ABDE ABDE (a, e) + λBE (b, e) + λDE ( d , e) λAE
)
,
(53)
BCDEF BCDEF BCDEF BCDEF exp λFBCDEF ( f ) + λBF (b, f ) + λCF (c, f ) + λDF ( d , f ) + λEF (e, f )
∑
(
)
BCDEF BCDEF BCDEF BCDEF exp λFBCDEF ( f ) + λBF (b, f ) + λCF (c, f ) + λDF (d , f ) + λEF (e, f ) f
(54)
31
Ez a tétel az összevonhatósági elmélet (collapsibility theorem) következménye (Bishop et al., 1975). Az elmélet szerint ha A és B feltételesen független C-re nézve, akkor az AC hatás egyaránt becsülhetı az AC és az ABC táblából is, vagyis az ABC tábla marginalizálható (összevonható) a B-re nézve.
86
)
.
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
Xpa ( X ) Látható, hogy azok a λ XY ( xy ), X ∈ {D, E , F } , Y ⊆ pa ( X ) loglineáris paraméterek vannak a kifejtésekbıl elhagyva, amiknek az értéke nulla a magasabbrendő interakcióknak a modellbıl történt eltávolítása miatt. A gráfra visszapillantva látható, hogy egyedül B-nek és C-nek a D-re gyakorolt együttes ABCD (b, c, d ) hatásánál enged meg a modell másodfokúnál magasabb fokú hatást, ez a λBCD (52)–ben történı szerepeltetésével egyenértékő. Az E-re és F-re gyakorolt hatások között nincs interakció, ezért az (53) és az (54) csak másodfokú hatásokat tartalmaz.
Ezek a logisztikus modellek könnyen átírhatók hagyományos loglineáris modellekké. Tehát Goodman-nél a modell specifikálása több különbözı marginális táblához tartozó marginális loglineáris modell együttes specifikálásával oldható meg. Ebben az esetben ezek a táblák az ABC, ABCD, ABDE és BCDEF marginálisokhoz tartoznak. Goodman megoldásában tehát több „kicsi” almodellbıl épül fel a „nagy”. A loglineáris paraméterek és a várt cellagyakoriságok maximum likelihood-becslésekor ezután Goodman bizonyítása szerint elegendı az almodellekre külön becsléseket végezni. Ez abból adódik, hogy a likelihood almodell-specifikus tényezıkre bontható, melyek külön-külön maximalizálhatók. Goodman tehát az irányított körmentes gráfmodelleknél általánosabb modellosztályt tárgyal, de megközelítése valóban jó kiindulópont lehet a grafikus modellek paraméterezéséhez. Megoldását érdemes lenne a disszertáció korábbi fejezeteinek keretei közé helyezni, ezt kísérlem meg a továbbiakban. A sőrőségfüggvény (50)–ként való elıállíthatósága, azaz a P (V ) =
P (α | pa (α )), ahol V az összes változó halmaza ∏ α
(55)
∈V
kifejtés, másnéven faktorizáció létezése irányított körmentes gráfokon maga is Markov-tulajdonságként definiálható (pl. Lauritzen, 1990). Ez a faktorizációs tulajdonság IKG-k és kategoriális változók esetén a globális és lokális Markovtulajdonságokkal ekvivalens. Tehát ha modellünket az adott gráf mellett ezen Markovtulajdonságok valamelyikével értelmezzük, akkor valóban elıállítható a sőrőségfüggvény az (55)–ben jelölt szorzat alakban. Tudjuk, hogy a páronkénti Markov-tulajdonság a lokálisnál bıvebb modellosztályt határoz meg, de (C5*) mellett egybeesik a két modellosztály. Tehát a sőrőségfüggvény csak akkor faktorizálható, ha a (C5*), vagyis pl. a pozitivitás teljesül az eloszlásra. A faktorizáció megfelelıje IG-k és LG-k esetén is létezik, mindkét esetben32 implikálja a globális Markov-
32
Láncgráfokra a faktorizációs tulajdonság csak LWF Markov-tulajdonság mellett volt vizsgálva (Lauritzen, 1996), és az ekvivalencia érvényessége is csak az LWF globális tulajdonság mellett ismert.
87
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
tulajdonságot, és (C5*) mellett egybeesik vele. Tehát a faktorizáció alapján a fenti példát talán általánosítani lehetne IG-kre és LG-kre is. Ám a fenti heurisztika megvalósításakor több problémába ütközünk. Még IKG-k esetén és a (C5*) mellett sem olyan egyszerő a paraméterezés, mint azt a példa láttatja. A változók rendezése ugyanis nem teljes. Ezért kérdéses, hogy két össze nem hasonlítható csúcs közül melyiket válasszuk a (48) egyenlet felírásakor. Pl. az alábbi irányított körmentes gráf esetén
13. ábra. IKG (Rudas, Bergsma, 2004)
páronkénti Markov-tulajdonság mellett többek között ez a két állítás teljesül a modellre: C ⊥ E | ABD, E ⊥ C | ABDF .
(56)
Hogy az elsı állítást beleépíthessük egy, az (50)-esnek megfelelı faktorizációba, az alábbi két valószínőség valamelyikének szerepelnie kellene egy, a (48)-asnak megfelelı faktorizációban:
π c|abde , π e|abcd . Hasonlóan, a második állítás beépíthetıségéhez az alábbi két tag valamelyikének kellene szerepelnie a faktorizációban:
π e|abcdf , π c|abdef . Nyilvánvaló, hogy egyszerre nem tudjuk a két kívánalmat teljesíteni. Pl. π c|abde és
π e|abcdf nem szerepelhet egyidejőleg a (48)-asnak megfelelı faktorizációban, mert az elsı tag szerint az E a C elıtt van a csúcsok rendezésében, a második szerint éppen fordított a helyzetük. A problémát az okozza, hogy C és E nem összehasonlítható csúcsok a gráfból adódó részbenrendezés szerint. Megjegyezném, hogy ugyanez a probléma áll fenn 1-es típusú LG-k esetén is, ahol a faktorizáció a komponenseken,
88
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
mint csúcsokon definiált IKG alapján mőködhetne, de a komponensek rendezése nem teljes. További komoly problémák is elıállnak. Ha a módosított útmodell példájában, a (49)-ben szerepelt feltételes függetlenségek paraméterezését közvetlenül az (50)-es faktorizációra építjük, akkor az alábbi marginális loglineáris paraméterek paraméterezik a modellhez tartozó eloszlást, vagyis ezek a szabad paraméterek: ABCD λXABC , λDX , X ⊆ ABC , ABDE ,V ⊆ ABD, λEV
(57)
BCDEF ,W ⊆ BCDE. λFW
Ám kérdés, hogy melyek a rögzített paraméterek. Adódna, hogy további paraméterekkel kiegészítve teljessé tehetnénk a paraméterezést, és e kiegészítı paramétereket kellene megkötni, mégpedig minél egyszerőbb módon, pl. 0-ban rögzíteni. Csakhogy a teljessé tétel nem csak egy módon képzelhetı el. Nem feltétlenül igaz, hogy bármelyik teljessé tételbıl adódó kiegészítı paramétereken valóban a 0-ban rögzítés adja a kellı modellt. Továbbá az is kérdés, hogy a többfajta elképzelhetı mód közül van-e akár egy is, amely a 2.3. fejezetben felsorolt jó tulajdonságokkal (pl. rendezett dekomponálhatóság) rendelkezik. Illusztráljuk ezeket az alapvetı problémákat egy egyszerő IKG modellel:
A (48) megfelelıje ez lenne:
π abc = π aπ b|aπ c|ab , amibe a modellt definiáló C ⊥ A | B állítást beépítve a (50)-es megfelelıjét kapjuk:
π abc = π aπ b|aπ c|b . A faktorizáció által közvetlenül adott szabad paraméterek ezek: AB CB λ∅A , λ AA , λBAB , λAB , λCCB , λCB .
Ha a teljessé tételhez az AC és ABC marginálisokat vonjuk be, akkor az alábbiak a kötött paraméterek: AC ABC λAC , λ ABC ,
89
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
míg ha csak az ABC marginálist használom a teljessé tételnél, akkor a következık: ABC ABC λAC , λ ABC .
A második megoldásnál valóban azok a paraméterek állnak elı kötött paraméterként, amiknek 0-ként való elıírását a C ⊥ A | B teljesüléséhez az 1. tétel is megkívánja. Ráadásul az így kapott teljes paraméterezés hierarchikus és rendezett módon dekomponálható is, ami, mint láttuk, Bergsma és Rudas (2002) szerint a paraméterezés jó tulajdonságait implikálja. Az elsı megoldás viszont, ha a kötött paramétereket 0-ban rögzítettnek tekintjük, ABC AC nem adja a C ⊥ A | B -t, mert a λ AC paraméter nincs 0-ra állítva. Viszont az λ AC igen, tehát A és C marginális függetlensége (szükségtelenül!) része a modellspecifikációnak. Továbbá a paraméterezés nem rendezett módon AC ABC dekomponálható. Tehát ha a λ AC , λ ABC paraméterekkel definiáljuk a modellt, akkor nem 0-ra állítást, hanem valamely más, bonyolultabb megszorítást kell alkalmaznunk, ráadásul a paraméterek (mivel dekomponálhatók rendezett módon) nem lesznek variációsan függetlenek. Vagyis a fenti heurisztika nem elég – nem csak a szabad paraméterek megadására, hanem arra is kell szabály, hogy mik a kötött paraméterek, és hogy azokra milyen megkötések érvényesek. Végül még egy lényeges, már érintett problémát említenék. Kézenfekvı lenne, és a modell interpretálhatóságát szolgálná, ha a kötött paraméterek és a modell által implikált feltételes függetlenségek közvetlenül megfeleltethetık lennének egymásnak. Ez azonban ezzel a módszerrel, mint a legutolsó példánál láttuk, nem mindig teljesül. A fentiekben a Goodman-féle, faktorizációra épülı paraméterezéssel kapcsolatos megkerülhetetlen, lényegi problémákra mutattam példákat. Összefoglalóan, ezek a problémák a következık: 1. a (48)-as faktorizáció megfelelı elıállítása az IKG csúcsainak részbenrendezettsége miatt nem mindig kivitelezhetı közvetlenül, 2. a kötött paraméterek elıállítása nem egyértelmő, és nem mindegyik elıállítás olyan, hogy a kötött paraméterek 0-ban való rögzítése adná a modellt, illetve 3. nem mindegyik elıállítás mellett feleltethetık meg a modellt definiáló feltételes függetlenségek és a kötött paraméterek közvetlenül egymásnak, végül 4. a paraméterezés elınyös tulajdonságainak dekomponálhatóság) teljesülése nincsen garantálva.
90
(pl.
rendezett
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
Az utóbbi probléma fontosságát külön kiemelném. Korábban láttuk, hogy adott paraméterezés kapcsán alapvetı kérdés, hogy létezik-e egyáltalán a paraméterekkel definiált modell / sima-e a paraméterezés / variációsan függetlenek-e a paraméterek / érvényesek-e a standard aszimptotikus tételek? A 2.3. fejezetben láttuk, hogy a marginális loglineáris paraméterezés, amilyen a Goodman által ajánlott is, általános esetben nem rendelkezik ezekkel a tulajdonságokkal. Egy megfelelı paraméterezés konstruálásakor tehát explicit választ kellene adni ezekre a kérdésekre.
4.2 Az általános megoldás: grafikus modellek marginális loglineáris modellekként Bergsma és Rudas (2002, lásd a 2.3. fejezetet) jól használható általános feltételeket adott a legutóbb felsorolt kérdések (simaság, létezés stb.) megválaszolására. A továbbiakban vázolt megközelítés Goodman megoldásának olyan átalakítása, ami ezeknek az általános feltételeknek megfelelı paraméterezést állít elı. Rudas és Bergsma (2004) említi ezt a lehetıséget a marginális modellek néhány gyakorlati alkalmazását bemutató cikkében, irányított körmentes gráfokra és a belılük kapott útmodellre Rudas, Bergsma és Németh (2006) ill. Németh, Rudas és Bergsma (2006) alkalmazza, láncgráfokra Rudas, Bergsma és Németh (2009) általánosítja. Az alább bemutatott paraméterezések a Goodman-féle faktorizációból kapott paraméterek többi problémájától is mentesek lesznek, tételesen 1. mint látni fogjuk, létezik megoldás az irányított körmentes gráfok paraméterezésének az elızı fejezetben bemutatott, a csúcsok részbenrendezettségébıl fakadó problémájára, 2. a grafikus modell mindig a kötött paraméterek 0-ban való rögzítésével áll majd elı, 3. a modellt definiáló feltételes függetlenségek és a kötött paraméterek közvetlenül megfeleltethetık lesznek egymásnak, sıt, a paraméterezés a faktorizációs módszerrel szemben nem az eloszlás paraméterezésébıl, hanem éppen ellenkezıleg, a függetlenségek paraméterezésébıl indul majd ki. Bergsma és Rudas (2002) írásának a következık szempontjából releváns tételeit összefoglalva: a paraméterezés simaságához, az aszimptotikus tételek teljesüléséhez és a modell dimenziójának (a valószínőséghányados próba szabadságfokának) az ismeretéhez hierarchikus és teljes paraméterezés kell. A modell létezéshez pedig elég, ha az üres halmaz csak egy marginális mellett szerepel hatásként. Tehát minimálisan ezeknek az elıírásoknak megfelelı paraméterezést próbálunk a továbbiakban konstruálni. Ha találunk ilyent, akkor a paraméterek akkor és csak akkor függetlenek variációsan (vagyis nagyságuk akkor értelmezhetı jól egymáshoz képest), ha rendezett módon dekomponálhatók.
91
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
Általános eljárást egy rendezett módon dekomponálható, hierarchikus és teljes paraméterezés megkonstruálására csak az IG-k és IKG-k esetén tudok majd mutatni. A láncgráfoknál néhány problémát mutatok majd, mely a kézenfekvı módon adódó hierarchikus paraméterezés útjában áll, és jelzem majd, mely almodellek esetén nem lehetséges elvileg sem hierarchikus paraméterezés létrehozása. Egyedi esetekben persze a láncgráfokra is található jó paraméterezés, erre is látunk majd példát. Láttuk, hogy Goodman módosított útmodellje a magasabbrendő hatások elhagyását is lehetıvé tette, tehát az IKG-nál általánosabb modell volt. E fejezet Útmodellek c. alfejezetében a grafikus modelleknek erre a módosítására (IKG útmodellek), és a kapott modellosztály paraméterezésére is látunk majd megoldást. A fejezetben tárgyalt, valamely teljes P halmazhoz tartozó paraméterezésrıl mindig feltesszük, hogy az a marginális loglineáris modellek tárgyalásánál λɶP -vel jelölt paraméterezés, vagyis az ott látott módon a redundáns paraméterek elhagyásával jött létre.
4.3 A feltételes függetlenségek és a paraméterek megfeleltetésének problémái Az elızı fejezetekben láttuk, hogy a modellbıl adódó feltételes függetlenségek és a kötött paraméterek közvetlen megfeleltethetısége kívánatos lenne. E cél érdekében a grafikus modellek marginális loglineáris paraméterekkel történı felparaméterezésekor kiindulópontunk az 1. tétel lehet, amely az X ⊥ Y | Z feltételes függetlenségnek az X ∪ Y ∪ Z marginálison belüli paraméterezését adja meg. Kézenfekvı lenne a tétel alkalmazásával a grafikus modellt úgy paraméterezni, hogy az általa implikált F1, F2, ..., Fn feltételes függetlenségeket a nekik megfelelı M1, M2, ..., Mn marginálison belül paraméterezzük. Azonban ha - Bergsma és Rudas tételeit alkalmazva – hierarchikus és rendezett módon dekomponálható paraméterezést szeretnénk elérni, az ezen a módon nem mindig lehetséges. Egy példával szemléltetném ezt a problémát. Az alábbi, korábban már látott IKG lokális Markov-tulajdonság mellett a következı feltételes függetlenségeket implikálja: C ⊥ BDE | A, D ⊥ C | AB, E ⊥ ABCF | D, F ⊥ ABE | CD, B ⊥ C | A.
92
(58)
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
14. ábra. IKG (Rudas, Bergsma, 2004)
Az elsı függetlenség eléréséhez a CE hatást az ABCDE marginálison belül, a harmadik függetlenség eléréséhez pedig az ABCDEF marginálison belül kellene 0-vá tenni. Vagyis az így adódó paraméterezés nem hierarchikus, hiszen ugyanannak a hatásnak két különbözı marginális mellett is szerepelnie kellene. Ugyanakkor az is igaz, hogy a (21)-es levezetési szabály használatával belátható, hogy az elsı és a harmadik feltételes függetlenség átalakítható úgy ekvivalens módon, hogy a CE hatás már ugyanazon marginális mellett szerepeljen mindkét esetben: C ⊥ BDE | A ⇔ ( C ⊥ E | ABD és C ⊥ BD | A ) , F ⊥ ABE | CD ⇔ ( C ⊥ E | ABD és E ⊥ AB | D és F ⊥ E | D ) . tehát a CE szerepetetése megoldható. Arra azonban nincs garancia, hogy ez minden esetben alkalmazható megoldás. Nem feltétlenül igaz, hogy ha két feltételes függetlenség ilyen módon ütközik, akkor levezetési szabályokkal megfelelı módon átalakíthatók lennének (erre látunk majd példát a nem sima láncgráf-modellekkel kapcsolatban). Sıt meg kell említeni a feltételes függetlenségi rendszer nem-teljességét is: a (C1)-(C4) levezetési szabályok nem minden esetben elegendıek két, egyébként ekvivalens állítás ekvivalenciájának bebizonyítására. Ugyanez a gráf alkalmas egy másik problémának az illusztrálására is. Az AE hatás szerepel az elsı feltételes függetlenséghez tartozó ABCDE marginálisban és a harmadik feltételes függetlenséghez tartozó ABCDEF marginálisban is. Ha hierarchikus paraméterezést szeretnénk elıállítani, akkor a marginálisok olyan rendezésére lenne szükség, ahol az ABCDE korábban szerepel, mint az ABCDEF. Ekkor azonban, megint a hierarchikusság érdekében, az AE hatást a korábbi marginális ABCDE ), szabad paraméterként, tehát az AE nem mellett kell szerepeltetnünk ( λ AE ABCDEF szerepelhetne a késıbbi marginális mellett hatásként λ AE formában, pedig a ABCDEF λAE paraméterre szükségünk van, hiszen 0-ra kellene állítanunk az 1. tétel miatt.
Egy, a fentihez hasonló ad hoc megoldás ezt a problémát is megoldja. A harmadik függetlenség a (21)-es levezetési szabállyal felbontható:
93
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
E ⊥ ABCF | D ⇔ ( E ⊥ AB | D és E ⊥ CF | ABD ) , az EA itt már az elsı függetlenség marginálisánál kisebb marginális mellett szerepel, vagyis az elé helyezendı a hierarchikus rendezésben. Ennek a megoldásnak az általánosításával kapcsolatban természetesen a fent leírt problémák szintén fennállnak. E problémákra is megoldást fogunk mutatni a következıkben IKG esetére. Mint majd látni fogjuk, a megoldás azon alapszik, hogy a feltételes függetlenségek nem csak egyenként, az 1. tétellel paraméterezhetık, hanem van mód a gráf struktúráját kihasználó közvetlen paraméterezésre is. Van azonban olyan probléma is, amire jelenleg még nincs megoldás. Ide tartoznak a láncgráfoknak az elıbb mutatottakhoz hasonló, a hierarchikus paraméterezést akadályozó problémái. Problémás a láncgráfok rendezett módon dekomponálható paraméterezésének a megtalálása is, sıt azoknak a modelleknek a megadása is, amelyek paraméterezhetık így. A fenti módon, a feltételes függetlenségek egyenként történı paraméterezésével pl. a 2-es típusú láncgráfból, ahol egyetlen komponens van három össze nem kötött csúccsal, és a modellt a 3-as típusú páronkénti Markovtulajdonság mellett definiáljuk, a következı három marginális függetlenség kapható: A ⊥ B, B ⊥ C , A ⊥ C .
Ezek az AB, BC és AC marginálisokon belül paraméterezıdnének, amiknek nincsen rendezett módon dekomponálható rendezése. Nyitott kérdés, hogy van-e a modellhez más, problémamentes paraméterezés, illetve, hogy fellép-e ugyanez a probléma 1-es típusú láncgráfnál is.
4.4 Irányítatlan gráfok Az elıbb említett problémák egyike sem lép fel az irányítatlan gráfra épülı, pozitív eloszlást feltételezı modellek esetén. Ilyenkor ugyanis az a fent vázolt ötlet, miszerint az 1. tétel segítségével egyenként paraméterezzük a modell által implikált F1, F2, ..., Fn feltételes függetlenségeket, közvetlenül alkalmazható, hiszen a nekik megfelelı marginálisok megegyeznek. Ezt mutatjuk meg részletesebben is a következıkben. A 10. tétel alapján pozitív eloszlás mellett (vagy általánosabb esetben a (C5*) teljesülésekor) a lokális, páronkénti és globális Markov-tulajdonságok ekvivalensek. Tehát használhatjuk pl. a páronkénti Markov-tulajdonságot, ami szerint (lásd a 13. definíciót) bármely α , β össze nem kötött csúcspár feltételesen független az összes többi csúcsot feltéve, azaz:
α ⊥ β | V \ {α , β }. Ez a függetlenség a V marginálison belül defniált loglineáris paraméterezésben az 1. tétel szerint akkor és csak akkor teljesül, ha
94
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
λLV = 0, ∀L ∈ P (V ) \ ( P (V \ α ) ∪ P (V \ β ) ) . Most
P (V ) \ ( P (V \ α ) ∪ P (V \ β ) ) = {α ∪ β ∪ γ | γ ∈ V \ α \ β } , tehát minden olyan hatás értéke 0, amely a V α-t és β-t tartalmazó részhalmazaihoz tartozik. Bármely más páronkénti feltételes függetlenség hasonló módon, ugyancsak a V marginálison belül paraméterezhetı. Így a függetlenségek uniója egyszerően a külön-külön kapott 0-paraméterek uniójával adható meg, ezek között a közös marginális miatt nem léphet fel az elızı fejezetben mutatott inkompatibilitás. Mivel a paraméterezésben egyetlen marginálist használunk, a V-t, tulajdonképpen hagyományos loglineáris modellt kapunk. Ebbıl már közvetlenül adódik a jól ismert tétel (pl. Lauritzen, 1996):
19. tétel Pozitív eloszlás feltételezése mellett bármely, irányítatlan gráffal definiált modell megadható az alábbi loglineáris paraméterekre tett megszorításokkal:
λLV = 0, minden L csúcshalmazra, ami nem teljes részgráfhoz tartozik. A nem-nulla paraméterek, amelyek természetes módon a nullparaméterek teljessé tételével adódnak, paraméterezik a modellhez tartozó eloszlást. A redundáns paraméterek elhagyásával kapott
{
λɶP = λɶLV : L ⊆ V
}
hagyományos loglineáris paraméterezésen belül tehát egyszerően megadhatók az IG modellek. Ez a paraméterezés, mint a 2.1. fejezetben már láttuk, variációsan független, sima, a modell létezése és a standard aszimptotikus tételek alkalmazhatósága mindig garantált.
4.5 Irányított körmentes gráfok Az alábbiak, hacsak nem jelzem másként, Rudas, Bergsma és Németh (2006) munkájára épülnek. A 4.3. fejezetben felvillantott paraméterezési problémák jó része IKG modellekre vonatkozott, ami azt mutatja, hogy az IG-kre jól mőködı megoldás, miszerint az 1. tétel segítségével egyenként paraméterezzük a modell által implikált F1, F2, ..., Fn feltételes függetlenségeket, itt közvetlenül nem alkalmazható. A probléma forrása az, hogy az IKG-kra érvényes Markov-tulajdonságok különbözı marginálisok mellett adódnak. A megoldást Lauritzen et al. (1990) egy tétele nyújtja, amely az irányított lokális Markov-tulajdonságnak egy ekvivalens, és a paraméterezésben jól használható alternatíváját adja.
95
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
Ehhez definiáljuk az IKG csúcsainak egy rendezését:
32. definíció A G irányított körmentes gráf csúcsainak egy jólrendezésnek (well-numbering) nevezzük, ha bármely α, β csúcsra:
rendezését
α < β ⇒ α ∈ nd ( β ), azaz a nyilak mindig a sorban korábban levı csúcsokból mutatnak a késıbb levı csúcsokba. Könnyen belátható, hogy bármely IKG-hoz adható ilyen jólrendezés. Vegyük észre, hogy egy α csúcsot megelızı csúcsok között nem minden nem-leszármazott szerepel, de α szüleinek mindegyike szerepel köztük. Jelöljük Vi-vel a V csúcshalmaz jólrendezésében az i. csúcsot, Vi<-vel az ıt megelızı csúcsokat, Vi≤-vel a sorban nála nem késıbbi csúcsokat. A jólrendezéssel a lokális Markov-tulajdonság egy variánsa definiálható:
33. definíció (IJL) Azt mondjuk, hogy a G IKG mellett, az χ halmazon értelmezett P valószínőségi mérték rendelkezik az irányított jólrendezési lokális Markovtulajdonsággal, ha bármely Vi csúcs feltételesen független a jólrendezésben ıt megelızı csúcsoktól a szüleit feltéve: Vi ⊥ V
20. tétel IKG gráfon az irányított lokális és az irányított jólrendezési lokális Markov-tulajdonság ekvivelens: ( IL ) ⇔ ( IJL). Az 12. tétel kimondta, hogy pozitív eloszlás mellett IKG-ken a páronkénti, lokális és globális Markov-tulajdonságok ekvivalensek, tehát a mostani tételünk felhasználásával adódik, hogy pozitív eloszlás esetén mindezek helyett a jólrendezési lokális tulajdonság is használható. Most már megadhatjuk az IKG-modell P paraméterezését. A marginálisok M halmazát a jólrendezés szeletei adják, n számú csúcs mellett:
M = {Vi ≤ , i = 1...n}.
96
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
A marginálisok rendezése ebbıl közvetlenül adódik: V1≤, V2≤, ..., Vn≤. Minden hatást pontosan egyszer, a lehetı legkorábban szerepeltetünk. Ebben a paraméterezésben a Vi≤ marginális mellett szereplı hatásokat az alábbi formában is felírhatjuk:
ε = {Vi } ∪ F ∪ G , F ⊆ V
használjuk
(59)
a paraméterezés megadásához, feltételes függetlenség
marginálison {Vi } ∪ {V
belül
akkor
a a
értelmezett
hatások 0-ra állításával ekvivalens. Ezek a hatások az (59) alapján a most definiált P paraméterezésben is szerepelnek, vagyis a modellhez tartozó valamennyi feltételes függetlenség megadható P-ben. A többi hatás paraméterezi az IKG modellbe tartozó eloszlásokat. Ezeknél F = ∅ , tehát csak a Vi változó és annak szülei tartoznak a hatáshoz. Belátható, hogy ezek a paraméterek éppen a (55)-beli faktorizációval kapott faktorokat paraméterezik. Ugyanis a sőrőségfüggvény (49)–ben látott, a feltételes függetlenséggel ekvivalens átírása szerint a Vi ⊥ V
P (V ) =
∏ P(V | pa(V )) = ∏ P(V | pa(V ) ∪ F ), F ⊆ V i
Vi ∈V
Tehát
a
Vi ∪ pa (Vi ) Vi G
λ
i
i
i
\ pa (Vi ) .
Vi ∈V
modellbe tartozó eloszlás faktorizációjának tagjait paraméterezı , G ⊆ pa (Vi ) paraméterek azonos értéket vesznek fel, mint az azonos
hatásnál de nagyobb marginálison belül adott társaik:
λVViiG∪ pa (Vi ) = λVViiG∪ pa (Vi )∪ F , G ⊆ pa (Vi ), F ⊆ V
λVViiG∪ pa (Vi ) = λVViiG∪V
(60)
egyenlıséget adja, ami éppen a bebizonyítandó állítás: a P paraméterezés szabad paraméterei (az egyenlıség jobb oldali tagja) megegyeznek a modellhez tartozó, faktorizációval definiált eloszlás paramétereivel (az egyenlıség bal oldali tagja). Ez fontos állítás, és - ahogyan az alábbi, 12. példa példa mutatja majd - a paraméterbecslések interpretálásánál érdemes kihasználni, hiszen a becslések kézenfekvıbb értelmezését teszi lehetıvé. Segítségével egy adott nyílhoz tartozó hatás mérése csak a nyíl végpontjába befutó többi nyilat veszi figyelembe, mintha többszörös
97
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
regressziót definiálnánk a végponton, mint függı változón, és a szülıkön, mint független változókon. E paraméterezésben a korábban, a 4.1. és 4.3. fejezetben felsorolt problémák már nem fordulnak elı. A jólrendezés megoldotta az IKG csúcsainak részbenrendezettsége miatt ott elıálló technikai problémákat: a kötött paraméterek elıállítása egyértelmő, a feltételes függetlenségek közvetlenül megfeleltethetık nekik, és nincs inkompatibilitás az egyes feltételes függetlenségeknek megfelelı nullparaméterek között (nem fordul elı ugyanaz a null-hatás két különbözı marginális mellett, és korábban nem-nulla hatás sem lehet késıbbi marginális mellett nulla). Végül: a paraméterezés elınyös tulajdonságainak teljesülése is garantálva van, ugyanis a paraméterezés hierarchikus, teljes és rendezett módon dekomponálható. Ezért a 2.3. fejezetben említett tételekbıl adódóan az IKG modellek mindig léteznek, paramétereik értékei egymástól függetlenül interpretálhatók, továbbá a modellek illeszkedése valószínőség-hányados próbával tesztelhetı, a modelleknek megfelelı maximum likelihood-becslés egyértelmően létezik és elıállítható, és konfidencia-intervallum is konstruálható hozzá.
12. példa Paraméterezzük fel a 3.8. fejezetben a klasszikus szociológiai modellek között már bemutatott, alábbi Blau-Duncan modellt!
15. ábra. Az eredeti Blau-Duncan modell (1967)
A csúcsok jólrendezése: I’, F’, I, F1, F2. A marginálisok M halmaza: I’, I’F’, I’F’I, I’F’IF1, I’F’IF1F2. A lokális Markov-tulajdonság implikálta F2 ⊥ I ' | F ' IF1 állítás miatt az alábbi paraméterek értéke 0:
λII''FF2 '∗IF1F2 , ahol a * bármilyen, akár üres részhalmazt is jelölheti a marginális szóba jöhetı változóinak, IF1F2-nek. A F1 ⊥ I ' | F ' I feltételes függetlenség a
λII''FF1 *' IF1 paraméterek 0-ra állítását kívánja meg. A szabad paraméterek a következık:
98
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
λ*I ' , λFI ''*F ' , λII*' F ' I , λFI1' F ' IF1 , λFI ''FF1' IF1 , λIFI '1F ' IF1 , λFI ''FIF'1IF1 , λFI2' F ' IF1F2 , λFI ''FF2' IF1F2 , λIFI '2F ' IF1F2 , λFI1'FF2 ' IF1F2 , λFI ''FF1'FIF2 1F2 , λIFI '1FF2' IF1F2 , λFI ''FIF'2IF1F2 , λFI ''FIF'1IFF21F2 . Megfigyelhetı, hogy a szabad paraméterek éppen azok, amiket szerettünk volna: bármely változó és a szülei közötti hatások jellemezhetık segítségükkel. Ennek belátásához az (60)-et kell felhasználnunk, ez alapján pl. a paraméterezésben szereplı 1F2 λFI1'FF2 ' IF1F2 megegyezik λFF1F' IF -vel, tehát az elıbbi paraméter értelmezhetı úgy, mint az 2
F1-nek az F2-re gyakorolt, a többi szülıre feltételes hatása.
4.6 Láncgráfok A láncgráf33 az irányított körmentes gráf általánosítása. Mint ilyen, annál lényegesen komplikáltabb, s mint látni fogjuk, néha irreguláris modelleket definiál. A pozitív eloszlás mellett elıálló hétféle34 modellosztály (lásd az alábbi, 3. táblázatot) paraméterezése, mint a 4.1. és a 4.3. fejezetben láttuk, számos problémát vet fel. Ezekre a problémákra jelenleg még nincs ismert megoldás. Vannak eredmények, melyek a hét modell közül kettınek a simaságát bizonyítják (Lauritzen, 1996, Drton, 2008), illetve a maradék öt közül háromról megmutatják, hogy nem minden esetben simák (Drton, 2008). Ezeket az eredményeket 3. táblázatban foglaltam össze. A modell simasága, mint azt a 2.3.3. fejezetben láttuk, azért lényeges, mert az aszimptotikus eloszlások teljesüléséhez szükséges, másrészt sima modellhez létezik sima paraméterezés, ami szükséges feltétele a hierarchikus paraméterezés létezésének, a paraméterek interpretálhatóságának. A 2.3.3. fejezetben azt is láttuk, hogy a sima paraméterezés létezésére elégséges feltétel ismert, de szükséges feltétel nem. Egy modellosztály simaságának cáfolata ezért csak konkrét esetekre támaszkodva (adott modell mellett, a változók kategóriaszámának rögzítésével) végezhetı el. Drton ennek megfelelıen egy modellosztály nem-simaságának bizonyítását úgy végzi el, hogy albegrai statisztikai módszerrel, a Singular szoftver használatával egy, az osztályhoz tartozó konkrét modellrıl látja be, hogy nem sima. Magam szerzıtársaimmal (Rudas, Bergsma, Németh, 2009) jelenleg fejezzük be azt a munkát, mely elızetes várakozásaink szerint megmutatja, hogy a hét közül melyek a simák, ezekre hierarchikus paraméterezést fog adni, a többirıl pedig belátja, hogy nincs hierarchikus paraméterezése, vagyis az alábbi táblázat minden cellája kiszínezhetı lesz már. Eredményeink közvetlenül következnek Bergsma és Rudas (2002) marginális loglineáris paraméterezésekkel kapcsolatos tételeibıl, elsısorban a disszertáció 5. tételébıl, amely alkalmas a paraméterezés, így a
33
Ebben a fejezetben végig 1-es típusú láncgráfot értek láncgráf alatt, mivel a létezı tételek szinte kizárólag velük kapcsolatosak. 34 Láttuk: az elvi tizenhatból csak tizenkettıt ismertet az irodalom, ezek közül öt ekvivalens a maradék hét valamelyikével.
99
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
modell simaságának bizonyítására is (a tétel szerint egy hierarchikus és teljes P halmazhoz tartozó λɶP paraméterezés sima). 3. táblázat. A láncgráf-modellek típusai, kategoriális változók és pozitív eloszlás esetén. Sötét háttér = mindegyik sima modell, világos = van köztük nem sima, fehér = kérdéses. Típus 1-es (LWF 2-es (AMP) 3-as 4-es
Globális Globális
= =
Markov-tulajdonság Blokk-rekurzív = Lokális Blokk-rekurzív fl Lokális Blokk-rekurzív fl Blokk-rekurzív fl
= =
Páronkénti Páronkénti Páronkénti Páronkénti
Az alábbiakban a fenti, a láncgráf-modellek simaságát bemutató táblázat egyes celláit veszem sorra. Az LWF-modellekbıl, ahogyan a táblázat is mutatja, tulajdonképpen csak egy van, hiszen pozitív eloszlás mellett valamennyien ekvivalensek. A modell Lauritzen (1996, 4.6.1 fejezet) által adott faktorizációja Drton szerint közvetlenül implikálja a modell simaságát. A modell paraméterezésére az irodalom nem ismertet módszert. A Lauritzen által mutatott faktorizáció alkalmas kiindulópont lenne, de a a 4.1. és a 4.3. fejezetben ismertetett paraméterezési problémák megoldása nem ismeretes. AMP modellekbıl az ekvivalenciák miatt csak kettı van. Az AMP páronkénti modellnek sem a tulajdonságait sem a paraméterezését nem ismeri az általam feldolgozott irodalom. Az AMP blokk-rekurzív modellekrıl Drton (2008) megmutatja, hogy van köztük nem sima. Példája az alábbi gráf:
16. ábra. Láncgráf-modell (Drton, 2008)
A gráfból az AMP blokk-rekurzív Markov-tulajdonság mellett az alábbi feltételes függetlenségek olvashatók ki:
B ⊥ D | AC és A ⊥ BD.
(61)
Drton a Singular segítségével látja be errıl a modellrıl, hogy ha A, B, C és D binárisak, akkor a modell nem sima. Ilyenkor persze sima paraméterezése sincs a modellnek,
100
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
vagyis (az 5. tétel alapján) hierarchikus paraméterezése sem létezik. A 4.3. fejezetben láttunk példákat arra, hogy a feltételes függetlenségek közvetlen paraméterezése hogyan okozhat inkompatibilitási problémákat, azáltal, hogy két különbözı marginális mellett kellene ugyanazt a hatást 0-ra állítani, illetve azáltal, hogy a rendezésben korábbi marginális melletti nem-nulla hatás kellene késıbbi marginális mellett nullára állítani. A probléma bemutatásakor mutattam egy ad hoc, egyedi esetekben mőködı megoldást is az inkompatibilitás kiküszöbölésére (a függetlenségek (C1)-(C4)-re épülı ekvivalens átalakításaival), de hangsúlyoztam, hogy a megoldás általánosíthatóságára nincsen garancia. A jelenlegi példa éppen ezt az általánosíthatóságot cáfolja: az ABD hatást az ABD és ABCD marginálison belül is 0-ban kellene rögzíteni, illetve a kisebb ABD marginálison belüli nem-nulla BD paramétert a nagyobb ABCD marginálison belül 0-ra kellene állítani. Mivel a modellnek nincs hierarchikus paraméterezése, tudható, hogy e problémák nem oldhatók meg a függetlenségek átalakításaival sem. A 3. táblázat következı sora a 3-as típusú modelleké. Az elıbbi gráf a 3-as típusú blokk-rekurzív Markov-tulajdonság mellett az alábbiakat implikálja:
B ⊥ D | A és A ⊥ BD | C .
(62)
Errıl a modellrıl is Drton látta be algebrai úton, hogy bináris változók mellett nem sima. Itt is megtalálhatók a hierarchikus paraméterezés létrehozását akadályozó konfigurációk: az ABD hatást az ABD és ABCD marginálison belül is 0-ban kellene rögzíteni, illetve az AB, AD hatások a kisebb marginálison belül nem-nullák, a nagyobb mellett viszont azok. A 3-as típusú páronkénti Markov-tulajdonság szerepel a táblázat következı cellájában. Itt is Drton példája lesz alkalmazható a nem-simaság bizonyítására. Az elıbbi gráf mellett a Markov-tulajdonság által implikált állítások a következık:
B ⊥ D | A, A ⊥ D | BC és A ⊥ B | DC.
(63)
Pozitív eloszlás mellett azonban a modell ekvivalens a blokk-rekurzív párjával, mert ilyenkor alkalmazható a (C5*) levezetési szabály, amivel belátható, hogy az (63) két utolsó állítása ekvivalens az (62) utolsó állításával. Vagyis a páronkénti modellek között is van nem-sima. A táblázat utolsó sora a 4-es típusú modelleké. A páronkénti modellekrıl itt sem tudunk semmit. A blokk-rekurzív modellekrıl viszont Drton belátja, hogy simák. Bizonyításában a feltételes valószínőségi koordinátákra olyan lineáris transzformációt alkalmaz, ami leegyszerősíti a modellt definiáló feltételes függetlenségi állításokat. Három modellosztályról láttuk be, hogy tartozik hozzájuk nem sima modell is. Ha viszont a modellosztályon belül van nem sima modell, akkor nem adható minden modellre sima paraméterezés, tehát az 5. tétel alapján elmondható, hogy általános esetben nincs hierarchikus paraméterezése az ehhez a három modellosztályhoz tartozó modelleknek.
101
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
A rendezett módon dekomponálható paraméterezés létezése továbbra is kérdéses mindegyik modellosztály esetén.
13. példa Bár nincsen általános válasz az AMP páronkénti modellek paraméterezhetıségérıl, egyedi esetekben adható jó paraméterezés. Ilyen eset a 9. ábra középsı gráfjához tartozó modell, amely a Blau-Duncan modell egyetlen helyen (a jelenlegi foglalkozás és az iskolázottság közötti nyíl vonalra cserélésével) módosított változata. Láttuk, hogy a modell az
F1 ⊥ I ' | F ', F2 ⊥ I ' | F '
(64)
állításokkal adható meg. Azt az eljárást használjuk, hogy az 1. tétellel egyenként paraméterezzük a feltételes függetlenségeket. Az elsı állítás így az I’F’F1, a második az I’F’F2 marginálison belül paraméterezhetı, mégpedig az alábbi paraméterek nullára állításával:
λII''FF1 ∗' F1 , λII''FF2 '∗F2 . A paraméterezés hierarchikus és rendezett módon dekomponálható. A szabad paraméterek megválasztásánál arra törekszünk, hogy a hozzájuk tartozó marginálisok a gráf komponens-struktúráját és a komponensek rendezését is kövessék. Vagyis pl. ha K1 az elsı, K2 a második komponense egy kétkomponenső láncgráfnak, akkor a K1 lesz az elsı marginális (hogy a K1-en belül hiányzó vonalaknak megfelelı függetlenségek paraméterezhetık legyenek35), K1»K2 az utolsó, és minden, kœ K2-bıl hiányzó nyíl miatt még a K1»k is marginális kell, hogy szerepeljen36. Példánkra visszatérve: ha az elsı komponens miatt az I’F’-et, a második miatt az I’F’IF1F2-t is hozzávesszük az eddigi marginálisokhoz, akkor a paraméterezés teljessé tehetı az alábbi szabad paraméterekkel:
λ∅I ' F ' , λFI ''F ' , λII'' F ' , λII''FF'' , λFI1' F ' F1 , λFI ''FF1' F1 , λFI2' F ' F2 , λFI ''FF2' F2 , λII''FF''IFIF11F2 , λII ' F ' IF1F2 , λII''IF ' IF1F2 , λFI ''FI ' IF1F2 , λII''FF''IIF1F2 , λII''IFF1' IF1F2 , λFI ''FIF'1IF1F2 , λIFI '2F ' IF1F2 , λFI1'FF2 ' IF1F2 , λIFI '1FF2' IF1F2 , λFI ''FF1'FIF21F2 , λFI ''FIF'2IF1F2 , λFI ''FIF'1IFF21F2 . Az így elıálló paraméterezés hierarchikus, a négy marginális I’F’, I’F’F1, I’F’F2, I’F’IF1F2 rendezése pedig rendezett módon dekomponálható. 35
Ez az itt használt AMP-tulajdonság mellett érvényes. Ha helyette 3-as típusú Markovtulajdonságot használnák, akkor a K1 minden hiányzó vonalához tartozó csúcspár külön marginális kellene, hogy legyen. 36 Ez az itt használt AMP-tulajdonság mellett érvényes. Ha helyette LWF Markov-tulajdonságot használnák, akkor elég lenne a K1»K2 szerepeltetése a marginálisok között.
102
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
A szabad paraméterekhez tartozó becslések interpretálásánál érdemes kihasználni, hogy a (60) megfelelıje itt is alkalmazható, így a szülı-leszármazott feltételes asszociációk feltételhalmazából a nem-szülık elhagyhatók. Pl. a λFI ''FF2' F2 paraméter a
λFF''FF22 -vel egyezik meg, ami sokkal kézenfekvıbb értelmezést tesz lehetıvé. Vegyük azt is észre, hogy ez nem az egyetlen lehetséges megválasztása a szabad paramétereknek. Egyedül az I’F’IF1F2 új marginálisként történı bevonásával is megoldható a teljessé tétel, az alábbi, szintén hierarchikus és rendezett módon dekomponálható paraméterekkel, de ezek nem követik a gráf komponens-struktúráját, így nem azokat a hatásokat mérik, amiket szeretnénk (pl. az apát jellemzı I’F’ hatást az utód elsı foglalkozására feltételesen veszi):
λ∅I ' F ' F1 , λFI ''F ' F1 , λII'' F ' F1 , λII''FF'' F1 , λFI1' F ' F1 , λFI ''FF1' F1 , λFI2' F ' F2 , λFI ''FF2' F2 , λII''FF''IFIF11F2 , λII ' F ' IF1F2 , λII''IF ' IF1F2 , λFI ''FI ' IF1F2 , λII''FF''IIF1F2 , λII''IFF1' IF1F2 , λFI ''FIF'1IF1F2 , λIFI '2F ' IF1F2 , λFI1'FF2 ' IF1F2 , λIFI '1FF2' IF1F2 , λFI ''FF1'FIF21F2 , λFI ''FIF'2IF1F2 , λFI ''FIF'1IFF21F2 . Az alkalmazások között további példákat találhatunk láncgráfoknak ezen az úton történı paraméterezésére. Fontos hangsúlyoznom ugyanakkor, hogy ez az eljárás, amikor az 1. tétellel paraméterezzük egyenként a feltételes függetlenségeket, csak egyedi megoldásként használható. Általánosítása több problémába, köztük a 4.3. fejezetben korábban már felsoroltakba ütközik.
4.7 Útmodellek Láttuk, hogy Goodman módosított útmodellje a feltételes függetlenségi megszorításokon kívül további magasabbrendő hatások elhagyását is lehetıvé tette, tehát a grafikus modellnél általánosabb modell volt. Ebben az alfejezetben Rudas, Bergsma, Németh (2006) munkáját37 felhasználva de azt általánosítva az IKG modelleknek erre a módosítására és a kapott modellosztály paraméterezésére mutatok megoldást. A kapott modellosztályt irányított körmentes útmodelleknek (IKG útmodelleknek) nevezem majd. Az IKG útmodellek tehát Goodmant követve úgy kaphatók az IKG modellekbıl, hogy adott α csúcs és szülei (β1 .... βn) közötti kapcsolatok interakciója szabadon szőkíthetı, tehát pl. a β1 .és β2 α-ra gyakorolt hatásával kapcsolatban feltehetjük, hogy α ∪ pa (α ) paraméter azok nincsenek interakcióban. Ez loglineáris paraméterezésben a λαβ 1β 2 0-ra állításával érhetı el. További tetszıleges megszorítások tehetık a
λααL∪ pa (α ) , L ⊆ pa (α ), L ≥ 2 37
(65)
A hivatkozott munka csak olyan útmodelleket tárgyal, ahol minden, másodfokúnál nagyobb hatás törlıdik a modellbıl. Ezzel szemben itt a magasabbrendő hatások csak részben is törölhetık.
103
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
paraméterek bármelyikének 0-ra állításával. Mivel tudjuk, hogy az IKG modell paraméterei hierarchikusak és variációsan függetlenek, ezért ezek a megkötések szabadon megtehetık, mindig létezı modellt fognak definiálni, és a megkötések nem befolyásolják a megmaradó szabad paraméterek interpretációját. Ezzel sikeresen parametrizáltuk Goodman modelljét. Két potenciálisan jól használható és az IKG útmodellbıl levezetett modellt szeretnék még ebben a fejezetben bemutatni. Az elsı azzal a megkötéssel adódik, hogy ha az IKG-modellre alkalmazott interakciós szőkítéseknél egy L hatáshoz tartozó paramétert 0-ra állítunk, akkor minden, nála nagyobb hatáshoz tartozó paramétert is 0-ra kell állítanunk. A hagyományos loglineáris esetben az ennek a megkötésnek megfelelı modellt nevezik hierarchikus modellnek, ezért ezekre a modellekre hierarchikus útmodellként fogok hivatkozni. A megkötést az motiválhatja, hogy így a modell a 12. ábra látott módon, a nyilak ponttal való összekötésével reprezentálható, és a paramétermegkötések is jobban értelmezhetık. Pl. nem fordulhat elı az a nehezen interpretálható eset, hogy a D-re gyakorolt hatások vizsgálatában az A és B interakcióját eltávolítjuk, de meghagyjuk az A, B és C interakcióját. Az utolsóként bemutatott modell szintén az IKG útmodellek almodellje, és Rudas, Bergsma, Németh (2006) ezt vezeti be útmodellként (path model) tanulmányában. A modell az IKG modellbıl minden, a (65)-ben felsorolt lehetséges interakciós hatást eltöröl, tehát csak a következı szabad paramétereket engedi meg: α ∪ pa (α ) λαβ , β ∈ { pa (α ), ∅}. Ezek azok a paraméterek, amelyek (a β = ∅ esetben) vagy a leszármazottnak a szülıkre feltételes eloszlását, vagy (a β ∈ pa (α ) esetben) a többi szülıre feltételes szülı-leszármazott kapcsolatokat paraméterezik. Az utóbbi paraméterek becslései könnyen bemutathatók az IKG nyilaira írt paraméterekkel. Egy ilyen példát mutatunk is a már említett 2006-os cikkünkben. E két utóbbi modell megint közvetlenül volt megadható az IKG modell paraméterezésén, jól példázva a marginális loglineáris modellek flexibilitását. A láncgráf-modellek paraméterezésének tisztázása után vélhetıen a láncgráfokon definiált útmodellek általános paraméterezése is tisztázódik majd. Ilyen láncgráfon definiált útmodellekre látunk majd példát az alkalmazások között, a 7.4. fejezetben.
4.8 MLH becslés, illeszkedésvizsgálat A 2.3. fejezetben láttuk, hogy ha a modellünk paraméterezése hierarchikus és teljes (az IG-knál és IKG-knál mindig van ilyen, a láncgráfoknál nem mindig), akkor a szabad paraméterek maximum likelihood-becslése egyértelmően létezik és elıállítható. A becslés elıállíthatósága abból következik, hogy a fenti feltételek esetén a maximum likelihood-becslés a likelihood egyenlet stacionárius pontja. Ilyenkor az un. gradiens módszer alkalmazható a maximum megtalálására. Több szerzı is közölt ilyen algoritmust, én Wicher Bergsma (1997) algoritmusát használom az alkalmazásokban.
104
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
A hierarchikus és teljes paraméterezés további, már említett elınye, hogy a modellek illeszkedése valószínőség-hányados próbával tesztelhetı, és a hozzá tartozó szabadságfok a kötött paraméterek számával egyezik meg. A valószínőség-hányados próba alkalmazhatóságának az is elınye, hogy ily módon két egymásbaágyazott modell összehasonlítása is lehetséges38. A szőkebb modell ilyenkor a másik továbbspecifikálásával jön létre. Ez a továbbspecifikálás definíció szerint a szabadságfok növekedésével jár, és általában a tesztstatisztika növekedését is eredményezi, azonban nem biztos, hogy olyan mértékben, ami ne lenne elfogadható a modell takarékosságáért cserébe. Erre a kérdésre ad objektív választ a valószínőséghányados próba, kihasználva, hogy a két modell tesztstatisztika-értékének különbsége aszimptotikusan maga is khi-négyzet eloszlást követ, szabadságfoka a továbbspecifikációval bevont új kötött paraméterek száma. Grafikus modellek vizsgálatánál gyakran adódnak egymásbaágyazott modellek, mert, mint korábban többször láttuk, a gráfból egy-egy él törlése szőkebb modellhez vezet. Ilyen esetre látunk majd alkalmazási példát a 7.1. fejezetben. Nézzünk most egy példát a modell szabadságfokának kiszámítására. Tekintsük az eredeti Blau-Duncan modellt. A modell által adott feltételes függetlenségeket az 3.8. fejezetben olvastuk ki a gráfból, a modell felparaméterezése pedig a 4.5. fejezetben történt meg. A modell az I’, F’, I, F1, F2 változók ötdimenziós kontingencia-tábláján van definiálva. A szokott módon tegyük fel, hogy az I és az I’ bináris változók, míg a többi háromértékő. Ez 2*3*2*3*3=108 cellát jelent, ami éppen ennyi független paraméterrel paraméterezhetı fel. A 4.5. fejezetben adtuk meg az alábbi szabad és kötött paramétereket. Kötött: λII''FF2 '∗IF1F2 , λII''FF1 *' IF1 , szabad: λ*I ' , λFI ''*F ' , λII*' F ' I , λFI1' F ' IF1 , λFI ''FF1' IF1 , λIFI '1F ' IF1 , λFI ''FIF'1IF1 , λFI2' F ' IF1F2 , λFI ''FF2' IF1F2 , λIFI '2F ' IF1F2 ,
λFI1'FF2 ' IF1F2 , λFI ''FF1'FIF2 1F2 , λIFI '1FF2' IF1F2 , λFI ''FIF'2IF1F2 , λFI ''FIF'1IFF21F2 , ahol a * a marginális bármely, akár üres részhalmazát jelöli. Számoljuk ki a modell szabadságfokát, amire a modell illeszkedésének vizsgálatánál lenne szükségünk! A szabadságfok a kötött paraméterek számával egyezik meg. Itt a λII''FF2 '∗IF1F2 több paramétert jelöl, a * helyén az I, F1 és F’ bármely részhalmaza állhat (összesen 2*2*2 ilyen részhalmaz van). Ez lehet pl. az üres halmaz, ekkor a paraméterhez az I’F2 hatás tartozik, amihez 2*3 paraméterérték tartozik (hiszen az I’ kétértékő, az F2 háromértékő). A nem-redundáns paraméterek, mint a λɶP -t meghatározó 7. definícióban 38
Természetesen az, hogy az egyik modell a másiknál jobban illeszkedik, nem jelenti azt, hogy ténylegesen jól illeszkedik az adatokhoz; a bıvebb modell jó illeszkedése feltétele a jobban illeszkedı szőkebb modell elfogadásának.
105
4. FEJEZET: GRAFIKUS MODELL MARGINÁLIS MODELLKÉNT KATEGORIÁLIS ADATOKON
láttuk, változónként egy érték elhagyásával állnak elı. Így a 2*3 paraméterérték közül (2-1)*(3-1)=2 nem-redundáns van. A λII''FF2 '∗IF1F2 és λII''FF1 *' IF1 paraméterekhez tartozó valamennyi hatásra hasonlóan számolható ki a nem-redundáns paraméterek száma:
marginális
hatás
nem-redundáns paraméterek száma
I’F2
2
I’F’F2
4
I’IF2
2
I’ F1F2
4
I’F’IF2
4
I’F’F1F2
8
I’IF1F2
4
I’F’IF1F2
8
I’F1
2
I’F’F1
4
I’IF1
2
I’F’IF1
4
I’F’IF1F2
I’F’IF1
Ez 48 paraméter, ha tehát a Blau-Duncan modell adatainkhoz való illeszkedését vizsgálnák, a valószínőséghányados-próbát 48-as szabadságfok mellett kellene értékelni. A szabad paraméterek száma pedig 108-48=60. A 7. fejezetben bemutatott alkalmazások konkrét példáit adják majd a grafikus modellek illesztésének és a paraméterek becslésének. Az egyik alkalmazás teljes számítástechnikai megvalósítása pedig a 8. fejezetben található meg.
106
5 NYITVA MARADT MÓDSZERTANI KÉRDÉSEK Néhány helyen már említettem, mely pontok kérdésesek jelenleg is a grafikus modellek kutatásában. Ezeket foglalnám röviden össze az alábbiakban. A láncgráfokon pozitív eloszlás mellett hét modell volt definiálható, lásd az alábbi, korábban már szerepelt összefoglaló táblázatot. (A hét modell úgy áll elı, hogy az ekvivalens modelleket egyetlen modellnek vettem. A táblázat üres celláinak megfelelı modelleket nem definiálja az irodalom.) Ezek közül kettırıl belátható, hogy van hozzá sima paraméterezés. Kérdéses, hogy ez a sima paraméterezés általánosan hogyan adható meg. Az is kérdés, adható-e hozzájuk a modell létezését és a becslések standard aszimptotikus tulajdonságait garantáló hierarchikus (ezenkívül esetleg még a variációs függetlenséget garantáló rendezett módon való dekomponálhatósággal is rendelkezı) paraméterezés. Két további modellrıl még az sem tudható jelenleg, hogy létezik-e hozzá sima paraméterezés. Szerzıtársaimmal, Rudas Tamással és Wicher Bergsmával jelenleg befejezéséhez közeledı (?) kutatásunk reményeink szerint választ ad ezekre a kérdésekre. Drton (2008) is megemlíti cikkének végén, hogy a láncgráfok simaságának végleges tisztázását szolgálná, ha a nem sima modelleket biztosan tartalmazó 2-es és 3as típusok sima modelljeit sikerülne karakterizálni. Kérdés az is, van-e olyan sima modell a 2-es és 3-as típuson belül, ami a típus valódi tagja, vagyis amihez nincs vele Markov-ekvivalens 1-es vagy 4-es típusú modell.
4. táblázat. A láncgráf-modellek típusai, kategoriális változók és pozitív eloszlás esetén. Sötét háttér = mindegyik sima modell, világos = van köztük nem sima, fehér = kérdéses. Típus 1-es (LWF, leginkább feltételes) 2-es (AMP) 3-as 4-es (leginkább marginális)
Globális = Globális =
Markov-tulajdonság Blokk-rekurzív = Lokális = Blokk-rekurzív fl Lokális = Blokk-rekurzív fl Blokk-rekurzív fl
Páronkénti Páronkénti Páronkénti Páronkénti
A láncgráfok tárgyalásának egységesítését szolgálná, ha a táblázat jelenleg üres négy cellája is ki lenne töltve, tehát ha a 3-as és 4-es páronkénti és blokk-rekurzív Markov-tulajdonságoknak is lenne lokális és globális megfelelıje. A párhuzamosan futó kutatások eredményeinek egyesítését és a láncgráfok megközelítésének egységesítését szolgálná, ha tisztázódna az 1-es ill 2-es típusú láncgráfokhoz tartozó modellosztályok viszonya (lásd az alábbi, a disszertációban már szintén szerepelt ábrát). Sikerült belátnom, hogy a két típus nem Markov-ekvivalens: van olyan 2-es típusú gráfhoz tartozó modell, ami nem adható meg 1-es típusúval. Kérdés maradt viszont, hogy teljesülnek-e a 2-es típusú láncgráfokra az 1-es típusra
5. FEJEZET: NYITVA MARADT MÓDSZERTANI KÉRDÉSEK
már belátott tételek (elsısorban a fenti táblázatban feltüntetett ekvivalenciák). Szintén kérdés maradt, hogy az ábrán 1-essel és 4-essel jelölt halmazok üresek-e.
17. ábra. Az általános, illetve az 1-es ill. 2-es típusú láncgráfokon definiált modellosztályok tartalmazási viszonya (sötét háttér: nemüres, fehér háttér: nem ismert, hogy üres-e)
Láttuk, hogy milyen kézenfekvı módon volt bevezethetı útmodell az irányított körmentes gráfokon. Az elıbbi kérdések megválaszolása után vélhetıen a láncgráfokon definiált útmodellek paraméterezése is megoldható majd. Végül az elemzési módszer társadalomtudományi ismertségét és alkalmazhatóságát támogatná, ha felhasználóbarát statisztikai program íródna hozzá. Remélem, a jövıben lehetıségem nyílik ezeket a kérdéseket legalább részben tisztázni.
108
6 ALKALMAZÁS 6.1 A grafikus modellek általános alkalmazási problémái 6.1.1
A gráf felállítása
Egy, a vizsgálatunk tárgyát képezı gráf alapvetıen két módon állhat elı. Az elsı, Bayes-félének is nevezhetı megközelítésben (pl. a 3.1.-ben említett szakértıi rendszerek esetében) tipikusan nagyszámú változónk van, és az adott eloszlást legjobban reprezentáló (értsd: ahhoz statisztikai értelemben legjobban illeszkedı modellt adó) gráfot keressük a lehetséges összes gráf közül, a „lehetséges összes gráf”ra esetleg olyan a priori megkötéseket téve, mint a csúcsok idıben adott rendezése. Ilyenkor hatékony keresı algoritmus konstruálása a feladat (pl. Spirtes et al., 1993). A másik megközelítésben, és a disszertációban ilyen esetekre látunk majd alkalmazási példákat, a gráf felállítása ismereteinken vagy hipotéziseinken alapszik, és a hipotézis elfogadását vagy elutasítását az adott eloszlás dönti el. Ezek a fentinél könnyebben kezelhetı esetek, csak néhány (négy-tíz) változóval. Természetesen ebben az esetben is lehetséges több szóba jöhetı modell összehasonlítása, pl. modellépítésnél újabb megszorítások bevonásával (egy ilyen alkalmazás a 7.5. fejezetben szerepel), vagy ha két hipotézist szeretnénk összevetni (pl. 7.1. fejezet). Kérdés lehet, hogy a gráf egy adott csúcspárja között nyilat vagy vonalat használjunk-e. Lauritzen és Richardson (2003) azokat az eseteket tárgyalja, ahol IKG-k helyett LG-k használata a megfelelı, vagyis ahol egy nyilat vonalra érdemesebb cserélni. Az alábbiakban a fordított esetrıl írok röviden, vagyis arról, amikor vonal helyett nyíl használata lehet indokolt. Az irányított élekkel reprezentált asszociációk oksági viszonyként való interpretálhatósága fontos kérdés. Éppen e kauzális megközelítés képezi a grafikus modellekkel foglalkozó mai statisztika egyik fı problémáját (pl. Pearl 1995, Freedman 1997, 2001, Cox, Wermuth, 2001, 2004). Itt Cox és Wermuth írásai (2001, 2004) alapján e problémára, illetve általában a kauzalitás három elterjedt definíciójának statisztikai szempontú összevetésére térnék ki röviden. A gráf két pontja közötti irányított él használata, vagyis az általuk reprezentált változó-pár magyarázó ill. függı változó szereposztása nem feltételezi feltétlenül a kauzalitás meglétét. A nyíl használata általában két lehetséges alapon indokolható. Az egyik érvelés szerint a korábbi idıponttal összefüggésbe hozható változó (iskolázottság) magyarázó, a késıbbi idıponthoz kapcsolható (foglalkozás) függı változó lehet. Egy másik érvelés a változók tényleges tartalmával kapcsolatos (elméleti kiindulású vagy empirikus adatokkal alátámasztott) munkahipotézisre épül. Például a politikai attitőd függı és a jövedelmi helyzet magyarázó változóként történı kezelése egy komplexebb mechanizmus részeként ugyan, de plauzibilisnek tőnik.
6. FEJEZET: ALKALMAZÁS
Az irányított él irányának ily módon történı eldöntése után az egyszerő asszociáció helyett a tényleges kauzalitás feltételezése a közkelető statisztikai megközelítés szerint (kauzalitás 1. definíciója) akkor engedhetı meg, ha a magyarázó (M) és függı (F) változó között kimutatható statisztikai összefüggés és annak elıjele megmarad bármely más magyarázó változóra (M’) történı korrigálás után is. A kauzalitás egy másik, hipotetikus „intervencióval” történı meghatározása (2. definíció) ennél erısebb interpretációját adja a fogalomnak. Eszerint az M (az egyszerőség kedvéért igen / nem értékőként, az intervenció végrehajtása / elmaradása) oka az F-nek, ha az M „igen” értéke esetén az F értéke a populációban szisztematikusan magasabb (vagy alacsonyabb), mint az M „nem” értéke esetén, az Ffel potenciális kapcsolatban álló minden M’ változatlan volta mellett. Végül – a tudományos fogalomhasználatot leginkább lefedı – 3. definíció az M-tıl F-ig vezetı folyamat tényleges megértését feltételezi. E megértés tipikusan elméleti alapokon áll, vagy a szóban forgó adatoknál alacsonyabb szintre vonatkozó ismereteinkre vezethetı vissza. Erre a visszavezetésre példa a szociológia makroszintő jelenségekre vonatkozó magyarázatainak az egyéni cselekvések szintjén mőködı racionális döntéselméletre történı hivatkozása.
6.1.2
Konfigurációk, melyek klasszikus asszociációs problémákat fednek
Az alábbi, háromcsúcsú gráfra érvényes példák alkalmasak arra, hogy nagyobb gráfokban is hasonló összefüggéseket segítsenek felismerni. Irányított körmentes gráfokban vagy láncgráfokban fordulhatnak elı, a szakirodalomban hamis függıség (spurious dependency), hamis asszociáció (spurious association), illetve kiválasztási torzítás (selection bias) néven ismertek (Wermuth, 2003).
18. ábra. Klasszikus problémákat fedı konfigurációk három csúcson
Mindhárom eset három változón értelmezett, és egy háromcsúcsú IKG olyan konfigurációit reprezentálják, ahol az egyik csúcspár között nincsen nyíl. Az elsı gráf szerint
S ⊥ N | K, S ⊥ N ,
110
6. FEJEZET: ALKALMAZÁS
vagyis a sikeres elhelyezkedés feltételesen független a nemtıl, de a képzés típusának figyelembe nem vételekor (a szerinte történı marginalizálás esetén) nem függetlenek, ilyenkor hamis függıség jön létre köztük. Hasonlóan, a második gráfból a
S ⊥ G | H, S ⊥ G állítások olvashatók ki, tehát gólyák száma feltételesen független a születésszámtól, de a háztetık száma szerinti marginalizálás hamis asszociációt eredményezne. A harmadik gráf szerint
E ⊥ N, E ⊥ N | J , vagyis a nem és az elvégzett osztályok száma (marginálisan) független egymástól, de a jövedelmet feltéve összefüggést mutathatnak. Pl. a férfiak magasabb keresete és a keresetnek az iskolai osztályokkal fennálló pozitív kapcsolata esetén adott jövedelmi kategórián belül a nık magasabb iskolai végzettséget mutatnának. Kiválasztási torzítás akkor lépne fel, ha pl. csak magas jövedelmő személyeket válogatnánk abba a mintába, amin a nem és az iskolázottság kapcsolatát vizsgálnánk. Vegyük észre, hogy mindhárom példa a feltételes, ill. marginális kapcsolat közti különbségtételre vezethetı vissza. Nagyobb gráfra alkalmazva a fentieket, vegyük példának a 11. ábra látott IKG modellt, amit, mint említettem, az adott adatbázishoz egy keresı algoritmus választott ki legjobban illeszkedı gráfként. A gráf értelmezésekor érdemes megkeresni a fenti konfigurációkat, mégpedig úgy, hogy a három csúcs helyén csúcshalmazok is állhatnak. Az elsı és a harmadik konfiguráció fedezhetı fel. Az elsı konfiguráció megvalósulása: nem→(szülıi bíztatás, intelligencia, társadalmi helyzet)→felsıfokú továbbtanulási tervek. A nem a többi tényezıre nézve feltételesen független a felsıfokú továbbtanulási tervektıl, ám ha ıket nem vennénk figyelembe, hamis függıség alakulna ki köztük. Valószínősíthetı pl., hogy rögzített társadalmi helyzet és rögzített intelligenciaszint mellett a fiús szülık hajlamosabbak gyerekeiket továbbtanulásra bíztatni, és mivel a jobban bíztatott gyerekek nagyobb arányban terveznek továbbtanulást, kialakulhat az a marginális összefüggés, hogy a fiúk ambiciózusabbak a továbbtanulást illetıen. A harmadik konfigurációnak két megvalósulása is van, a nem→szülıi bíztatás←intelligencia, illetve a nem→szülıi bíztatás←társadalmi helyzet kapcsolatok. Itt is kiválasztási torzítás léphet fel, mert, akárcsak a háromcsúcsú gráfban, az össze nem kötött csúcsok (NI ill. NT) itt is marginálisan függetlenek. Eszerint ha a szülık hajlamosak a fiúkat a lányokkal összevetve már egy alacsonyabb intelligenciaszint esetén is továbbtanulásra bíztatni, akkor, bár a nem és az intelligencia függetlenek, a szülıi bíztatást feltéve összefüggés mutatkozik köztük (a lányok intelligensebbek). Hasonlóan, ha a fiúkat már egy alacsonyabb társadalmi helyzet esetén is továbbtanulásra bíztatják szüleik, a nem és a társadalmi helyzet a szülıi bíztatást feltéve összefügg (a lányoknak kedvezıbb a társadalmi háttere).
111
6. FEJEZET: ALKALMAZÁS
6.1.3
Direkt és indirekt hatás
A klasszikus Wright-féle útelemzéshez hasonlóan a grafikus modellek esetén is megkülönböztethetünk direkt és indirekt hatásokat, ha két változó között egy ill. több lépés hosszú utat is tudunk találni. Jó példa erre Rudas, Bergsma, Németh (1996) egy alkalmazása, ahol egy, a kategoriális adatelemzés irodalmában sokszor elemzett (pl. Fienberg, 1970, Bishop et al., 1975) biológiai adatbázist vizsgáltak újra grafikus modellezéssel. Az adatok két gyíkfaj, a grahami és az opalinus napközben megfigyelt viselkedését írják le, és a gyíkok tartózkodási helyével kapcsolatban (perching site) a megfigyelt gyík faját (L), a megfigyelés idıpontját (T), a tartózkodási hely magasságát (H), átmérıjét (D), és benapozottságát (S) rögzítik. A változók kategóriái a következık: faj (L): grahami/opalinus, idıpont (T): délelıtt/dél/délután, magasság (H): 5 láb alatt/felett, átmérı (D): 2 ujjnál nagyobb/kisebb, benapozottság (S): napos/árnyékos. Ha célunk egy adott helyszínen talált gyík faját meghatározó tényezıknek és a köztük levı kapcsolatoknak az azonosítása, akkor pl. a 19. ábra IKG modellje, ami a lokális Markov-tulajdonság mellett értelmezendı, elfogadható lehet. A lokális Markovtulajdonság az alábbi feltételes függetlenségeket implikálja:
HD ⊥ T , D ⊥ S | TH , amelyek szerint (1) a tartózkodási hely fizikai jellemzıi (magassága és átmérıje) függetlenek a megfigyelés idejétıl, és (2) a tartózkodási hely átmérıje nincs közvetlen hatással arra, hogy a hely napos-e, vagyis a két változó a tartózkodási hely többi adottságát feltéve független.
19. ábra. Paraméterbecslések, DAG útmodell
Az ábrán jelölt paraméterbecslések ennél az IKG-nél szőkebb modellhez tartoznak. Ez a szőkebb modell minden, a gráf nyilainak közvetlenül meg nem feleltethetı hatás
112
6. FEJEZET: ALKALMAZÁS
elhagyásával (lásd a 4.7. fejezet végén az IKG útmodellek utolsó variánsát) és minden további, nyílhoz kapcsolódó, de nem szignifikáns hatás elhagyásával adódott. A modell illeszkedése a valószínőséghányados-próba szerint elfogadható (p=0,81), és a kiinduló, egyébként jól illeszkedı (p=0,35) IKG modellhez képest sem szignifikáns az illeszkedésromlás (p=0,93). Az ábrán bemutatott paraméterek marginális loglineáris paraméterek, a modell egy hierarchikus és rendezett módon dekomponálható paraméterezéséhez tartoznak (az IKG-khez tartozó hierarchikus paraméterezés megadási módját lásd a 4.5. fejezetben), tehát rendelkeznek a 2.3. fejezetben felsorolt valamennyi elınyös tulajdonsággal. A paraméterezés marginálisai: H, HD, HDT, HDTS, HDTSL. A nullparaméterek a következık: HDT HDT HDT HDTS HDTS HDTS HDTS HDTS HDTS HDTSL HDTSL HDTSL HDTSL HDTSL λHT , λDT , λHDT , λHS , λDS , λHDS , λHTS , λDTS , λHDTS , λHDL , λHTL , λHSL , λDTL , λTSL , HDTSL HDTSL HDTSL HDTSL HDTSL λHDTL , λHDSL , λHTSL , λDTSL , λHDTSL ,
míg a szabad paraméterek az alábbiak: HD HDTS HDTSL HDTSL HDTSL HDTSL λ∅H , λHH , λDHD , λHD , λTHDT , λSHDTS , λTS , λLHDTSL , λHL , λDL , λTL , λSL .
A szabad paraméterek közül a másodfokú hatáshoz tartozó, a nyilakhoz kapcsolható paramétereket tüntettük csak fel. Közülük is csak a nem-redundánsakat mutatjuk, szokott módon a változók utolsó értékéhez tartozó redundáns paramétereket hagyva el. Látható, hogy a T és az L között két út van, tehát az idıpontnak a gyíkfajra gyakorolt direkt hatása és a benapozottságon keresztül gyakorolt indirekt hatása elkülöníthetı. A direkt hatás paraméterei alapján elmondható, hogy az egyes idıpontokban a gyíkok nem számarányuknak megfelelıen figyelhetık meg. A délben megfigyelt gyíkok HDTSL inkább grahamik, mint opalinusok ( λTL (délben, grahami) = 0,19), de délelıtt is inkább grahamik láthatók, még ha kisebb különbséggel is HDTSL ( λTL (délelıtt, grahami) = 0,08). A harmadik, redundáns paraméter ezekbıl kiszámolható, és az opalinusok délutáni fölényét mutatja HDTSL λTL (délután, grahami) = 0 − 0,19 − 0, 08 = −0, 27. Az indirekt hatás útvonalát követve,
λ
annak
elsı
lépésében
λTSHDTS (délelıtt, napos) = 0,25,
míg
napos) = -0,53, amibıl λ napos) = 0,28, vagyis délben inkább árnyékos helyen találhatók a gyíkok, délelıtt és este pedig napos helyeken. Az HDTSL (napos, grahami) = 0,16 indirekt út második lépésében, az S-L nyílon pedig λSL szerepel, ami azt jelzi, hogy napos helyeken inkább grahami figyelhetı meg. Tehát a direkt és az indirekt hatás ellenkezı elıjelő: délben, minden egyéb tényezıre, így a benapozásra is korrigálva inkább grahamik láthatók, ugyanakkor a déli órákban megfigyelt tartózkodási helyek inkább árnyékosak, és árnyékos helyeken inkább opalinusok találhatók. HDTS (délben, TS
HDTS (délután, TS
113
6. FEJEZET: ALKALMAZÁS
6.1.4
A grafikus modell és a strukturális egyenletek modell (SEM) összevetése
A strukturális egyenletek modell (structural equation model, SEM, a szociológiában gyakran inkább útmodell) az eredeti Wright-féle útelemzésnek egyfajta általánosítása, akárcsak az itt tárgyalt grafikus Markov-modell, így bizonyos értelemben vetélytársaknak tekinthetık. Ezért tartottam fontosnak külön fejezetet szánni összevetésüknek. A következı, speciálisan a mobilitás-kutatási alkalmazásokról szóló fejezetben a szociológiában útmodellnek nevezett SEM-mel kapcsolatban még vissza fogok térni erre a témára. A SEM a grafikus modellektıl eltérı matematikai alapokon, de szintén gráfokkal jelenít meg asszociációs struktúrákat, a nyilakhoz számokat rendelve, ahol a számok szintén a vonatkozó hatás erısségét jellemzik. A kategoriális adatokra alkalmazott SEM-nek a ’80-as években még nem volt más alternatívája, mint a hagyományos loglineáris modell, utóbbival szembeni elınyeként elsısorban azt jelölték meg (pl. Xie, 1989, Heckman, 1978), hogy alkalmasabb oksági viszonyok elemzésére, és nem csak szimmetrikus kapcsolatok reprezentálását teszi lehetıvé. Az utóbbi évtizedekben kidolgozott grafikus modellre (mely általánosan nem csak kategoriális, hanem folytonos változókra is értelmezhetı) ezek a kritikai észrevételek már nem teljesülnek. Láttuk, hogy a grafikus modellekben szimmetrikus és asszimmetrikus kapcsolatok egyaránt megjeleníthetık. A változók közötti oksági kapcsolatok útvonalai (path) is ugyanúgy követhetık, mint a SEM esetében, így a direkt és indirekt hatások is ugyanúgy megfoghatók, ahogyan azt az 6.1.3. fejezetben láttuk. Kategoriális változók esetén a teljes hatás direkt és indirekt hatásokra való számszerő felbontása ugyanakkor nem megoldott, de ez a kategoriális SEM esetén is problematikus, és csak az utóbbi években születtek rá javaslatok (Kuha, Goldthorpe, 2007). Ugyanakkor a grafikus modelleknek bizonyos elınyei is vannak a SEM-mel szemben. A fentiekben láttuk, hogy grafikus modellekben az élek feltételes kapcsolatoknak feleltethetık meg, az él törlése pedig feltételes függetlenséget implikál. Ez általános esetben nem teljesül a SEM-ekre. Egy meglévı él közvetlenül kapcsolható a SEM-et definiáló egyenletek valamelyikének egy paraméteréhez, de a megfelelı változópár feltételes vagy marginális kapcsolatához csak nagyon nehézkesen köthetı. Ugyanígy, össze nem kötött változópár feltételes függetlensége sem kell, hogy teljesüljön egyetlen feltételhalmaz mellett sem (Cox, Wermuth, 2001, Wermuth, 2003). Hasonló kritikát fejt ki Whittaker (1990), megemlítve, hogy a SEM-ben nem szereplı interakciók feltételhalmaza nem mindig egyértelmő. Többváltozós normális esetre a probléma részletes kifejtését lásd pl. Cox és Wermuth 1993-as munkájában. Egy, a kritikákra született válasz Pearl 1993-as tanulmánya. A két megközelítés egy újabb összevetése Lauritzen és Richardson (2003) írásában található.
114
6. FEJEZET: ALKALMAZÁS
6.2 Mobilitás-kutatási alkalmazás: használati feltételek, alternatívák 6.2.1
Történeti áttekintés
A grafikus modellek kvantitatív empirikus szociológiai alkalmazhatóságát a mobilitás-kutatás példáján szeretném megmutatni. Ezzel, azt hiszem, nem szőkítem le túlságosan tárgyamat, hiszen, ahogyan majd az alábbi történeti összefoglalóból is kitőnik, a mobilitás-kutatás módszereinek bıvülése általában szorosan követi az általános statisztikai módszerek fejlıdését, sıt néha generálja is azt. Az alábbiakban tehát az intergenerációs mobilitás kutatásának kontextusában szeretném a kategoriális változókra definiált grafikus modelleket elhelyezni. Ehhez Ganzeboom et al. (1991), Kuha, Goldthorpe (2007), Treiman, Ganzeboom (2000) és Kelley (1990) összefoglalói alapján röviden vázolni szeretném a kutatási módszerek és fogalmak változásának szempontunkból releváns pontjait, majd a grafikus modellek alkalmazási lehetıségeit és alternatíváit ezek tükrében megvizsgálni. Elsıként azt a legegyszerőbb megközelítést említeném, amikor az apát és annak fiát azonos foglalkozási kategóriák szerint kereszttáblázzák, és ebben a táblázatban végeznek számításokat a mobilitás mértékére és irányára vonatkozóan. Történetileg ez a módszer a Featherman (1981) ill. Treiman és Ganzeboom (2000) által a mobilitáskutatások elsı nemzedékének39 nevezett kutatásokhoz, az un. ISA paradigmához kapcsolható. Ez a paradigma a Nemzetközi Szociológiai Társaság (International Sociological Association, ISA) 1951-ben megfogalmazott kezdeményezésével jött létre. Egységes elméleti alapon és egységes módszerekkel végeztek országos mobilitásvizsgálatokat, azzal a céllal, hogy az eredményeket nemzetközileg összehasonlíthassák. Módszereiket tekintve elsısorban a belépési (pl. munkások között a szellemi származásúk aránya) és kilépési (munkás származásúak között a szellemiek aránya) arányszámokat vizsgálták. Ezeknek az arányszámoknak az összehasonlítására épült a közismert Lipset-Zetterberg tétel (Lipset, Zetterberg, 1959), ami szerint a mobilitás az iparosodottság fokával párhuzamosan nı, és mintázata a nyugati iparosodott országokban állandónak tekinthetı. Ez a tétel az Egyesült Államok, mint „új nemzet” nagyobb mobilitásával kapcsolatos, akkoriban közkelető vélekedést cáfolta. Mások (Duncan, 1966, Rogoff-Romsoy, 1966) azonban felismerték, hogy ezek a mobilitási arányszámok a tábla marginálisainak is függvényei, ezért nem használhatók közvetlenül komparatív célokra. Ez a probléma alapvetı kérdésnek bizonyult. A mobilitás-kutatás utóbbi évtizedeiben több javaslat is született a megfigyelt, „abszolút” mobilitásnak a „relatív” vagy „nettó” mobilitási esélyektıl való megkülönböztetésére. A különféleképpen operacionalizált nettó mobilitási esélyek egyenlısége vagy egyenlıtlensége alapján jellemeztek ezután egyes társadalmakat "nyitottnak" vagy 39
Featherman használta elıször a „mobilitás-kutatás generációi” kifejezést, Treiman és Ganzeboom 2000-es tanulmánya pedig az elsı, ahol a mobilitás-kutatások negyedik, a korábbi szerzık által még nem tárgyalt nemzedéke is megjelent.
115
6. FEJEZET: ALKALMAZÁS
"zártnak", és e fogalmak mentén vizsgálták felül újra és újra a klasszikus LipsetZetterberg tételt. A legkorábbi ilyen céllal született módszer a strukturális (a foglalkozási struktúra változása, vagyis a tábla marginálisainak különbsége által kikényszerített) és a cirkuláris („tiszta”) mobilitási arány szétválasztása volt. Ezeket használta késıbb a szintén a Lipset-Zetterberg tétel módosításának tekinthetı FJH-tétel is (Featherman, Jones, Hauser, 1975). A tétel szerint a mobilitás tényleges nagysága ugyan különbözı a piacgazdasággal és nukleáris családtípussal jellemezhetı iparosodott országokban, mivel azokban a strukturális változások üteme eltérı nagyságú mobilitást kényszerít ki, ám a strukturális változásoktól független cirkuláris mobilitás minden iparosodott társadalomban egyforma. A két foglalkozási változóhoz késıbb másokat is hozzávettek (pl. a fiú vagy az apa iskolázottságát), és a háromdimenziós tábla elemzését a kétváltozós feltételes táblákkal próbálták megoldani, de nehézséget okozott a marginálisok változása által okozott hatásoknak és a három változó tényleges harmadfokú kapcsolatának az elkülönítése (Kuha, Goldthorpe, 2007). Az egyszerő kereszttábla-elemzések után a történetileg is ıket követı útmodelleket kell megemlítenem, mint a grafikus modellek alternatíváját/elızményét. Ezeknek a modelleknek a kereszttábla-elemzés elıbb említett nehézségeit sikerült megoldaniuk. Az „útmodell” elnevezés az elızı fejezetben említett strukturális egyenletek modellezéshez tartozó módszert jelöl, és eredeti formájában folytonos változókból álló lineáris regressziós egyenletek rendszerére épült. A szociológiában az 1960-as évek elején született és az 1970-es évek végéig40 a mobilitás-kutatásban egyeduralkodó mondható Blau-Duncan paradigma honosította meg41. Ez a módszer ebben a tudományágban addig gyakorlatilag ismeretlennek számított. Sikerét annak köszönhette, hogy a mobilitási, sıt általában a kvantitatív empirikus szociológiai problémáknál nagyon jól alkalmazhatónak bizonyult. Sikerült felnyitni a mobilitásnak azt a „fekete dobozát” (idézet Kelley-tıl), amit az elsı nemzedék addig az apa foglalkozása – fiú foglalkozása kereszttábla egyszerő elemzéseivel próbáltak megközelíteni. A módszer alkalmas volt kettınél több változó kezelésére, így lehetıség volt az apa és a fiú iskolázottságát, ill. az utód elsı foglalkozását is figyelembe venni. Ennek köszönhetıen megmutatták, hogy az apa iskolázottságának önálló, a foglalkozásától független hatása van. Feltárták a mobilitásnak az oktatáson keresztül érvényesülı csatornáját is, és bebizonyították, hogy ez a kulcsa a szülıi háttér és a foglalkozási státusz közötti kapcsolatnak. A paradigmát késıbb más problémákra is kiterjesztették, vizsgálták a jövedelemmel kibıvített modellt (pl. Treiman, 1970), mások a családi erıforrások genetikai és pszichológiai tényezıit is megjelenítették, mint pl. az utód intelligencia-szintjét vagy a szülıi biztatást (lásd 3.8. fejezet, Wisconsin modell), megint mások az intragenerációs mobilitást elemezték a karrier több állomásának bevonásával. A módszer különösen gyümölcsözınek bizonyult 40
Treiman és Ganzeboom ezt a korszakot nevezi a mobilitás-kutatás második nemzedékének. A szóhasználat nem csak hétköznapi értelmében helytálló: ezt az iskolát kuhn-i értelemben vett paradigmaként aposztrofálja Colclough és Horan (1983) és Kelley (1990) is.
41
116
6. FEJEZET: ALKALMAZÁS
országok közötti összevetésre ill. ugyanazon ország idıbeli változásának vizsgálatára. A Lipset-Zetterberg tételhez visszatérve újra felmerült a kérdés, hogy a státuszelérési folyamat mely aspektusai állandóak, melyek változnak a gazdasági vagy politikai rendszer változásával, és melyek azok, amik ezekkel a változásokkal nem magyarázható, országspecifikus vonások.42 Az útmodellekhez a foglalkozási státusz és az iskolázottság megfelelı operacionalizálására volt szükség. Blau és Duncan, ill. Treiman a foglalkozási státusz folytonos változóját a foglalkozások presztízshierarchiája alapján határozták meg. Ez a megközelítés elméleti megközelítésükbıl is fakadt, hiszen a társadalmi helyzetet az amerikai iskola tradicionálisan a társadalmi presztízsbıl kiindulva határozza meg, szemben az európai osztályhelyzet-alapú megközelítéssel. Az iskolázottságot az elvégzett iskolai osztályok számával mérték. A ’70-es években felmerülı kritikák a paradigma több elıfeltevését is kifogásolták. A legfıbb módszertani kritika az volt, hogy a modell nem enged meg sem nem-lineáris kapcsolatokat, sem a magyarázó változók közötti interakciókat. A státuszelérési folyamat egyéni szintő megközelítését is kifogásolták, ami így nem mond semmit a kollektív, makroszintő mobilitási arányokról, ami a mobilitási témakör eredeti motivációja volt. A szociológiaelméleti kritikák a változók folytonos voltát kifogásolták – a foglalkozásét azért, mert koncepcionális alapon a társadalmi státusz helyett inkább a társadalmi osztályt használták volna; az iskolázottságét pedig azért, mert az elvégzett osztályok számával szemben a megszerzett képesítés szintjét és típusát megfelelıbbnek tartották. Vagyis a kritikusok ismét kategoriális változók elemzésére alkalmas módszert kerestek. E harmadik nemzedék legnagyobb része az ISA-paradigma kétváltozós kereszttáblájához tért vissza, de a kifinomultabb loglineáris modelleket használva (a korábban említett Goodman is ehhez a nemzedékhez tartozott). A második nemzedék útmodelljeivel szemben támasztott kritikáik a loglineáris paradigma (Kelly kifejezése, 1990) módszereire már nem voltak érvényesek, ráadásul az elsı nemzedék problémája, a nettó mobilitás és a marginális hatás elkülönítése is megoldódott. Az utóbbi problémának a megoldása az esélyhányadossal történt. Emlékeztetnék arra az 2.1. fejezetben már említett problémára, hogy két változó (itt: apa és fia foglalkozása) közötti kapcsolat erısségének (itt: az átöröklıdés, immobilitás erısségének) méréséhez olyan asszociációs mérıszámot érdemes rendelni, ami variációsan független a marginálisoktól, és csak az együttes eloszlástól függ. Hiszen bármilyen is az egy generációval ezelıtti és az aktuális foglalkozási struktúra, a társadalom elvileg tetszılegesen zárt vagy tetszılegesen nyitott is lehet. A 2.1. fejezetben említettem, hogy az esélyhányados, amely a loglineáris paraméterek függvényeként elıálló mutató, a marginálisoktól variációsan független. Így az F’ (apa 42
A Szociológiai Szemlében megjelent tanulmányomban, melynek kivonatát a 7.1. fejezetben közlöm, részletesen is foglalkoztam ezzel a kérdéskörrel a magyar rendszerváltásnak a státuszelérési folyamatra gyakorolt hatásával kapcsolatban.
117
6. FEJEZET: ALKALMAZÁS
foglalkozása) - F (utód foglalkozása) mobilitási táblának a marginálisai és a λFF''FF paraméterek is variációsan függetlenek. Ebbıl adódóan az apa generációjának 1...I foglalkozási kategóriáinak arányához és az utód generációjának 1...J kategóriáinak arányához képest az (i,j) cellához tartozó λFF''FF (i, j ) paraméter értéke bármilyen pozitív vagy negatív szám lehet. Pozitivitás esetén a függetlenséghez, vagyis a teljes nyitottsághoz képest többen vannak a cellában (az i. foglalkozást őzı apák fiai másokhoz képest nagyobb arányban kerülnek a j. kategóriába), negativitás esetén kevesebben. A loglineáris modellek lehetıséget adtak továbbá az F’F kétváltozós összefüggés komplikáltabb leírására is, pl. azáltal, hogy az osztály-átöröklıdést kifejezı, átlóban levı cellák a többitıl külön kezelhetık, a λFF''FF ( i, i ) paraméterek bármilyen megkötésével. A harmadik nemzedék a CASMIN (Comparative Analysis of Social Mobility in Industrial Nations) projektben intézményesült a ’70-es évek végén és a ’80-as években. A projekt egyik eredménye a nemzetközi összehasonlításokban elfogadottá vált osztálykategóriák létrehozása volt (EGP kategóriák, Erikson, Goldthorpe és Portocarero után), az alkalmazások között, a 7. fejezetben magam is ezt a kategorizációt használom majd. A harmadik nemzedék igazi központi kérdése azonban ismét a Lipset-Zetterberg tételhez kapcsolódott. A loglineáris keretben újra megvizsgálták, hogy a társadalmi mobilitás valóban növekszik-e az iparosodottság fokával. A mobilitási mintázatot (itt: social fluidity) a λFF''FF ( i, j ) loglineáris paraméterekkel definiálva azonban nem ezt a tételt, hanem Sorokin (1964) trendnélküli fluktuáció elméletét látták alátámaszthatónak, ez a konklúziója a nemzedék egyik nagy összefoglaló munkájának, a The Constant Flux-nak (Erikson, Goldthorpe, 1992). Erikson és Goldthorpe országközi és idıbeli összevetéseket is végzett, utóbbiakat nem valódi idıeltéréssel felvett adatokon, hanem a keresztmetszeti adatok kohorszokra osztásával. Közös fluiditás (common fluidity) modelljük az országonként vett λFF''FF ( i, j ) paraméterek, állandó fluiditás (constant fluidity) modelljük pedig a kohorszonként vett λFF''FF ( i, j ) paraméterek országtól/kohorsztól való függetlenségét tesztelte. Eredményeik szerint (1) az ipari társadalmak közös mobilitási mintázattal rendelkeznek; ennek apró különbségei inkább történelmi és politikai körülményekre, mint az iparosodottság fokára vezethetık vissza, és (2) nem bizonyítható, hogy a mobilitás nıne a történelem folyamán. A harmadik nemzedék tehát megoldotta az elsı nemzedék egyik legfıbb problémáját, ugyanakkor a második nemzedék többváltozós módszerével ellentétben az iskolai végzettség modellbe vonása továbbra sem valósult meg. Történt ugyan kísérlet a kétváltozós elemzés kiszélesítésére, és a Blau-Duncan paradigmának megfelelıen történı általánosítására (lásd a 4.1. fejezetben már elemzett Goodman-féle 118
6. FEJEZET: ALKALMAZÁS
módosított útmodellt, a grafikus modellek közvetlen elızményét), ez azonban nem terjedt el. A harmadik nemzedék megközelítésével szemben felhozott további kritikák között szerepelt az is, hogy a relatív mobilitást a tábla sok (Erikson és Goldthorpe szám szerint nyolc) paraméterével jellemzik, és nem képesek egyetlen mutatóba sőríteni a zártság/nyitottság mértékét. A kifogás statisztikai hátterében az áll, hogy így a diszkrimináló erı csökken, hiszen két tábla közötti különbség több szabadságfok között oszlik meg. A harmadik nemzedéket a ’90-es évek óta követı kutatások, bár Treiman és Ganzeboom (2000) negyedik nemzedékként hivatkozik rájuk, nem rendelkeznek közös kutatási programmal. Sem módszereikben, sem kutatási kérdéseikben nem egységesek. Néhány olyan példát említek itt csak közülük, ami a grafikus modellek alkalmazhatósági kérdéséhez kapcsolódik. Az egyik ilyen módszertani fejlesztés az útmodellek általánosításának, a folytonos és kategoriális változókat egyaránt kezelni képes strukturális egyenletek modelleknek a megjelenése volt (Muthén, 1983, 1984, Winship, Mare, 1983, Xie, 1989). Speciális esetként ide tartozik a kategoriális kimeneti változós regressziós modellek (logisztikus és probit regresszió, ordinális vagy multinomiális logisztikus regresszió) elterjedése a szociológiában (pl. az iskolából a munkába történı átmenet modellezése, Shavit, Müller, 1997). Ez utóbbiakba beépíthetı a magyarázó változók nemlineáris hatása vagy a köztük levı interakció is, amit a Blau-Duncan paradigmából kritikusai hiányoltak. Egy másik újdonság az idıbeli folyamatok elıtérbe kerülése. Az egyik jellemzı megközelítés ismételt keresztmetszeti vizsgálatokat használ, és az idıt, mint önálló változót vonja be az elemzésbe, a társadalmi rétegzıdés évenkénti változásait makro jellegő változásokra, pl. társadalompolitikai beavatkozásokra vezetve vissza (pl. DiPrete, Grusky, 1990). Egy másik ide tartozó megközelítés eseménytörténeti (ugyanazokról a személyekrıl több különbözı idıpontból rendelkezésre álló) adatokkal dolgozik. A harmadik nemzedék által használt loglineáris modellekkel szemben felhozott egyik, már említett kifogás az volt, hogy nem tudják egyetlen mutatóval jellemezni az adott társadalom nyitottságát. Erre a kihívásra született válaszként a unidiff modell (Erikson, Goldthorpe, 1992, másnéven log-multiplikatív layer effect model, Xie, 1992). Ez a modell elfogadottnak mondható a kortárs mobilitás-kutatásban, egy friss nemzetközi munkában is egyezményes módszerként használják (Breen, 2004). A modell nevét onnét, kapta, hogy idıbeli összehasonlításoknál két idıpont között egyenletesen változó mobilitási esélyeket (uniform difference- unidiff) tételez fel. Vagyis a modell szerint a különbözı idıpontokban mért apa-fiú mobilitási táblák idıpontra nézve feltételes log-esélyhányadosai csak egy, az adott idıpontra jellemzı konstans-szorzóval térnek el a feltétel nélküli log-esélyhányadosoktól. Ez a megszorítás az apa foglalkozása (F’) – utód foglalkozása (F) feltételes asszociációnak egy φk konstanssal való szorzástól eltekintve állandó voltával azonosítható, ahol a feltétel a T (idıpont), a k pedig a T egy értékéhez tartozik. A tábla
119
6. FEJEZET: ALKALMAZÁS
felparaméterezésével az apák i., az utódok j. foglalkozásához és a k. idıponthoz tartozó cella log-gyakorisága a modell szerint tehát így áll elı: FF 'T log µ ( i, j , k ) = λ∅FF 'T + λFFF 'T ( i ) + λFFF' 'T ( j ) + λTFF 'T ( k ) + λFT ( i, k ) + λFFF'T'T ( j, k ) + FF 'T +φk λFF ' (i, j ),
ami az alábbi hagyományos loglineáris paraméterezést FF 'T log µ ( i, j , k ) = λ∅FF 'T + λFFF 'T ( i ) + λFFF' 'T ( j ) + λTFF 'T ( k ) + λFT ( i, k ) + λFFF'T'T ( j, k ) + FT + λFF''FFT ( i, j ) + λFF''FT ( i, j , k )
annyiban szorítja meg, hogy annak utolsó két tagját egyetlen, a k-tól és az (i,j)-tıl csak külön-külön (interakciójuk nélkül) függı taggal teszi egyenlıvé: FT λFF''FFT ( i, j ) + λFF''FT ( i, j, k ) = ϕ kψ ij .
Itt a ψij mutatja az apa-utód kereszttábla (i,j) cellájában a kapcsolat minden idıpontra közös értékét, φk pedig ennek a kapcsolatnak az intenzitásának idıbeli változását. Ez, az adott idıpontra jellemzı φk érték a unidiff együttható. Csökkenı (növekvı) φk–k az asszociáció gyengülését (erısödését), vagyis társadalmi nyitódást (záródást) jeleznek. Ahogyan máskor, az idıre feltételes táblák helyett itt is nézhetünk országokra feltételes táblákat, a unidiff együttható ilyenkor az országok nyitottságának összevetésére alkalmazható, országonként változó intenzitású, de azonos mintázató mobilitási esélyek feltételezésével. Ez a módszer tehát egyetlen mutatóba sőríti a zártság/nyitottság mértékét; erre a második és harmadik nemzedék módszerei, ahogyan már említettem, nem voltak alkalmasak. Így a mobilitás-kutatást eredetileg motiváló, az elsı nemzedék által vizsgált kérdés az általános mobilitás nagyságával kapcsolatban ismét elıtérbe került. A unidiff modell alkalmazható komplikáltabb felállásban is, egy friss cikk pl. (Beller, Hout, 2006) a unidiff mutató értékének országközi különbségeit a jóléti rendszer és az oktatáspolitika típusára (a felsıoktatás hozzáférhetısége) vezeti vissza. Technikailag pl. a jóléti rendszerre való visszavezetés a φk értékének a jóléti rendszer típusától való függésének megengedésével valósítható meg. Itt említenék meg egy, a unidiff modellel kapcsolatos módszertani problémát, ami ismét a klasszikus kérdéshez, a mobilitási mutató strukturális változásoktól való függetlenségéhez tartozik. Firth (2005) ill. Breen és Luijkx (2004, a már említett nemzetközi összehasonlító munka zárótanulmánya) alapján ugyanis a unidiff modell paraméterei nem rendelkeznek a marginális változásoktól való függetlenség tulajdonságával. Breen és Luijkx szerint könnyen konstruálható pl. olyan tábla, ahol csupán az egyik, nagyon egyenlıtlen kilépési arányszámokkal rendelkezı származási osztály arányának csökkentése csökkenti a unidiff paraméter értékét is. Vagyis a társadalom látszólag nyitottabbá válhat, pedig a mobilitási mintázat (az esélyhányadosokkal jellemzett együttes eloszlás) valójában változatlan. Firth (2005) szerint ugyanakkor ez a probléma csak rosszul illeszkedı unidiff modell esetén állhat
120
6. FEJEZET: ALKALMAZÁS
elı, vagyis ha nem teljesül az az elıfeltevés, hogy a vizsgált mobilitási táblák logesélyhányadosai csak egy országspecifikus szorzótényezıben térnek el egymástól.43 6.2.2
A történeti áttekintés tanulságai
A fenti történeti összefoglaló alapján, azt gondolom, jól látszik, hogy az egymást követı kutatási paradigmák módszereit legtöbbször nem lehet sem szociológiaelméletileg „megfelelı”, sem matematikailag „helyes” voltuk alapján rangsorolni. Bár úgy tőnhet, mintha egy adott paradigmát a felmerülı problémák miatt leváltó és a problémákat megoldó új módszer „jobb” lenne a korábbinál, észrevehetı, hogy a legtöbbször nem matematikai vagy technikai jellegő problémák lépnek fel, hanem inkább az új elméleti koncepciók inkompatibilisek a régi módszerekkel. Mivel a paradigmák középpontjában álló kutatási kérdések lényeges pontokban különböznek egymástól, a használt módszerek sem csak statisztikailag térnek el egymástól, hanem koncepcionális hátterüket tekintve is. Az elızı fejezetben felsorolt módszertani alternatívák ennek megfelelıen tehát véleményem szerint nem jobbak vagy rosszabbak egymásnál, hanem más-más kérdések megválaszolására alkalmasak. Ugyanez igaz a grafikus modellekkel való összevetésükre is, ezt részletezném a továbbiakban. Talán legalapvetıbb különbség a fenti módszerek között, hogy folytonos vagy kategoriális változók elemzésére (esetleg mindkettıre) alkalmasak-e. Az elıbbiek közé a lineáris regressziós módszerek és általánosításaik (pl. útelemzés) tartoznak, az utóbbiak közé a mobilitási arányszámokat vizsgáló, a loglineáris modellekkel ill. azok variánsaival (pl. unidiff modellel) dolgozó megközelítések. A strukturális egyenletek modellezés mind folytonos, mind kategoriális változó kezelésére képes. A disszertációban kategoriális változókra alkalmazható grafikus modelleket ismertettem,
43
A már említett 2004-es nemzetközi tanulmánykötet (Breen, 2004) néhány eredménye Breen és Luijkx szerint a unidiff modell ezen hátrányos tulajdonságával magyarázható. Ugyanis az apa „önálló” foglalkozási kategóriája éppen ilyen származási kategória: a többitıl nagyon különbözı, az általános esélyegyenlıtlenséget inkább növelı mobilitási jegyekkel bír. Magyarországon ez a származási kategória az 1973-1983 közötti intervallumon erısen csökkenı arányt mutatott, ami Breenék szerint önmagában oka lehetett a unidiff modell paraméterében ezen az intervallumon tapasztalt csökkenésnek, tehát az erısen növekvınek ítélt mobilitásnak. Róbert és Bukodi (2004) jegyezte a Breen-kötet Magyarországról szóló fejezetét. Vizsgálatukban a Unidiff modell a disszimilaritási index szerint jól magyarázta az adatokat, de a valószínőség-hányados statisztikát tekintve rosszul illeszkedett, tehát elvileg valóban felmerülhetett ez a probléma. Kíváncsi lévén arra, hogy Breen és Luijkx feltevése helytálló-e, néhány éve megvizsgáltam a Magyarországra vonatkozó eredmények érzékenységét a marginálisok változtatására, s tapasztalataim szerint azok stabilitást mutattak (Németh, 2006b). Vagyis Róbert és Bukodi eredményeit vélhetıen nem befolyásolta az önálló apák számaránycsökkenése. David Firth tanácsa alapján az érzékenységtesztet a következıképpen végeztem: a három évhez tartozó három tábla marginálisait a lokális esélyhányadosok rögzítése mellett homogenizáltam az un. iteratív arányos illesztés algoritmusának segítségével, majd megismételtem a unidiff modell illesztését.
121
6. FEJEZET: ALKALMAZÁS
de a grafikus modellezés folytonos változókon is értelmezhetı (pl. Cox, Wermuth, 1996). A folytonos vagy kategoriális típus közötti választás elméleti megalapozottságú: a foglalkozás vagy az iskolázottság operacionalizálása elsısorban koncepcionális, s nem technikai kérdés. Ezzel kapcsolatban említettem a foglalkozási státuszt osztály-alapon ill. presztízs-alapon megközelítı európai ill. amerikai iskola példáját. Hibás az a (pl. Kelley 1990-es írásában olvasható) érvelés, hogy a folytonos változó, mivel sok különbözı értéket vehet fel, pontosabb mérıeszköz, mint a kategoriális változó. A kevesebb kategóriás társadalmi osztályok használata mellett is állnak mind szociológia-elméleti, mind statisztikai érvek. A két típus közötti elméleti különbség elsısorban az, hogy az osztályok strukturális alakulatok, a presztízs-hierarchia viszont az egyéni szereplıhöz kapcsolódik. Xie és Goyette (2003) szerint a foglalkozás kategoriális megközelítése a mobilitás kontextusában azért megfelelıbb, mert így konkrét foglalkozási osztályokról is tudunk kijelentéseket tenni. Valóban, folytonos esetben foglalkozások közötti távolságot mérünk, és a vertikális mobilitás van a figyelem középpontjában: „a magasabb iskolai végzettség magasabb presztízső foglalkozással jár”. Kategoriális esetben pozíciók között teszünk különbséget: „az Egyesült Államokban bizonyos foglalkozások »toborzási« kritériumaikban univerzalisztikusabbak másoknál, ezért az ázsiai amerikaiak kulturális tıke híján inkább ezeket választják” (Xie és Goyette példája, 2003). Az iskolázottság kategoriális használata mellett is vannak elméleti érvek, pl. ha középiskola-típusok vagy egyetemi szakok mobilitásban való szerepe a kérdés, és nem az iskolai osztályok száma – társadalmi státusz lineáris kapcsolat. Általában elmondható, hogy a kategoriális megközelítés a mobilitási mintázat, a tipikus mobilitási csatornák és sorompók (channels, barriers, Blau és Duncan szóhasználata, 1967) megtalálását teszi könnyebbé (Yamaguchi, 1983). Yamaguchi példáival élve: azzal, hogy különbséget teszünk pozíciók között, felfedezhetjük pl. az önállók és vállalkozók közötti, a fizikai javak átörökítése és annak konverziója révén mőködtetett csatornát, vagy az önálló gazdálkodók és a mezıgazdasági munkások közötti, technológiai, információs és földrajzi izoláltságuk miatt létrejött csatornát. Ugyanezen osztályok és a többi osztály között ugyanakkor sorompót találhatunk; az utóbbiakat éppen izoláltságuk választja el másoktól, az elıbbieket kulturális és anyagi tıkéjük: nem feltétlenül elég a közéjük való belépéshez a megfelelı iskolai végzettség megszerzése. E csatornák és sorompók nem definiálhatók folytonos változók mellett. A kategoriális változók ill. a folytonos változók használata közötti különbséget kitőnıen példázza Xie (1989) vizsgálata, aki a Blau-Duncan modellt az eredeti 1962-es adatokkal elemezte újra, azzal a céllal, hogy a különbözı foglalkozási kategóriák eltérı „toborzási” mintázatát felfedje. Strukturális egyenletek modellt használt, az iskolázottságot kategóriákkal definiálta, a foglalkozást pedig bináris módon határozta meg (két különbözı változóval: tudományos vagy mérnöki foglalkozás vs. egyéb, ill. hivatalnok/vezetı/önálló vs. egyéb). Eredményei szerint az eredeti, folytonos változókkal mőködı Blau-Duncan modell eredményei összemossák a foglalkozásonként eltérı toborzási mintákat, pedig a foglalkozási struktúra nemlineáris
122
6. FEJEZET: ALKALMAZÁS
és különbözı dimenziókban megfogható kapcsolatokban termelıdik újra. A tudományos vagy mérnöki foglalkozásba való belépést például csaknem teljes egészében az iskolai végzettség határozza meg, a szülıi hatás csak ezen keresztül érvényesül, az iskola elérését megkönnyítve. Ezzel szemben a hivatalnokok/vezetık/önállók csoportjába való belépés sokkal inkább múlik az apa társadalmi státuszán, két azonos iskolai végzettségő utód közül a kedvezıbb háttérrel rendelkezınek van a belépésre nagyobb esélye. A folytonos ill. kategoriális változók alkalmazhatóságával kapcsolatban az elméleti szempontok után a technikai szempontok közül is megemlítenék néhányat. A hozzájuk rendelt módszerek abban is különböznek, hogy a regresszióra épülı módszerek alapvetıen lineáris kapcsolatot képzelnek el két változó között, míg a kereszttáblaalapú módszerek, mint a grafikus modellek is, bármilyen nemlineáris kapcsolatot is képesek leírni. A kereszttábla-típusú elemzési módszerek hátránya viszont, hogy általában nem tudnak megbirkózni a túl sok üres vagy majdnem üres cella problémájával. Ezért nem vezethetünk be túl sok kategóriát egy adott változóhoz – kettı-öt kategória általában az átlagos. Hasonló problémát okoz, ha túl sok változót vonunk az elemzésbe, vagy ha a bevont változók között nagyon erıs az összefüggés. A mobilitás mikro- ill. makroszintő megközelítése alapján is különbséget tehetünk a mobilitás-kutatás módszerei között. Ahogyan az összefoglalóból kitőnik, alapvetıen ez a kétfajta megközelítés is egymást váltogatta az elmúlt évtizedekben. A mikroszintő megközelítés az egyéni státuszelérési folyamatot próbálja követni (útmodellek, Goodman módosított útmodellje, élettörténeti modellek). A makroszintő megközelítés tárgya a társadalom mint egész, aggregált táblákkal foglalkozik, és lehetıleg egyetlen mérıszámmal próbálja jellemezni egy társadalom nyitottságát (elsı nemzedék táblaelemzései, unidiff modellezés). Egy ilyen összevont mutató nagyban megkönnyíti a nemzetközi/idıbeli összevetéseket, statisztikai szempontból is, hiszen egyetlen paramétert használ, így nagyobb statisztikai erıvel észleli a nem túl erıs trendeket is. A harmadik nemzedék loglineáris modelljei egyik kategóriába sem sorolhatók be: aggregált szinten jellemzik ugyan a mobilitást, de sok paraméterrel írják le azt. A grafikus modellek inkább az elsı megközelítéshez tartoznak. Az egyéni szintő státuszelérési folyamat egyes állomásainak egyenlıtlenségei jellemezhetık vele, és nem ad makroszintő egyenlıtlenségi mutatót. Az egyetlen mérıszámmal jellemzett társadalmi mobilitás ugyan könnyő összevethetıséget kínál, de a különbségek magyarázatára nem ad lehetıséget. Magyarázatokat inkább a státuszelérési folyamatot követı mikroszintő megközelítés kínálhat. Véleményem szerint éppen ezért lenne jól kombinálható egymással a két megközelítés: az aggregált mérıszámmal jelzett különbségek mögötti mechanizmusok a folyamatmodellekkel lennének megtámogathatók. Jó példa erre a megtámogatási igényre Beller és Hout (2006) már említett tanulmánya, melyben a mobilitási esélyek (a unidiff paraméter) országközi különbségeit makroszintő mutatók, mint pl. a felsıoktatás hozzáférhetısége alapján kísérelik megmagyarázni. Az eredmények diszkussziójában, ahol több hipotézist állítanak fel az oktatáspolitikának a mobilitási
123
6. FEJEZET: ALKALMAZÁS
esélyek meghatározódásánál betöltött szerepével kapcsolatban, a Blau-Duncan modellt hivatkozzák, ahol az apai foglalkozás és a foglalkozás közötti, az iskolai végzettséget is érintı utak jól követhetık. Egyik hipotézisük szerint pl. az iskolai végzettségnek az apa iskolai végzettségével és/vagy az apa foglalkozásával való kapcsolatának országközi különbségei magyarázhatják a unidiff paraméter különbségeit. Hipotéziseik támogatást kapnának, ha grafikus modellként illesztenék a Blau-Duncan modellt, és konkrét paraméterbecslésekre hivatkoznának. Mint láttuk, a mobilitási módszertan klasszikus problémája a mobilitási esélyek olyan mérıszámának létrehozása, ami független a társadalmi struktúra változásaitól. A probléma felismerése óta gyakorlatilag mindegyik újonnan bevezetett módszer képes volt megoldani ezt a problémát, és a grafikus modellek módszere is alkalmas erre. A státuszelérési folyamatot marginális loglineáris paraméterekkel írja le, és ezek a paraméterek, mint a 2.3.1-ben láttuk, megfelelı paraméterezés esetén variációsan függetlenek egymástól, így az egyváltozós hatásoktól is. A mobilitás-kutatások negyedik nemzedékének egyik általam említett problémája az idı kezelése, az egyik ide tartozó megközelítés eseménytörténeti modellekkel dolgozik. Léteznek loglineáris modellek is az eseménytörténetek feldolgozására (Vermunt, 1997). A marginális modelleknek is létezik az idıvel is számoló, ismételt mérések vagy paneladatok esetén használható alkalmazása (Rudas, Bergsma, 2004). Bár disszertációmnak ez közvetlenül nem képezi tárgyát, de a 7.5. fejezetben mutatok néhány példát paneladatok elemzésére. A strukturális egyenletek modell, ami az eredeti Blau-Duncan-féle útelemzés általánosítása, a grafikus modellhez sok szempontból hasonlít: mindketten gráffal szemléltetik az asszociációs struktúrát, a változók közötti oksági kapcsolatok útvonalai ugyanúgy követhetık, és a direkt és indirekt hatások is ugyanúgy megfoghatók mindkét esetben. Így bizonyos értelemben vetélytársaknak tekinthetık, ezért szenteltem korábban egy önálló fejezetet összevetésüknek (6.1.4. fejezet). Összefoglalva az ott írtakat: a grafikus modellek hátránya a SEM-el szemben, hogy a teljes hatás direkt és indirekt hatásokra való számszerő felbontása itt nem lehetséges, vagy legalábbis még nem született rá javaslat, de ez a kategoriális SEM esetén is problematikus, és csak az utóbbi években látszik megoldódni (Kuha, Goldthorpe, 2007). Ugyanakkor a grafikus modelleknek is vannak elınyei a SEM-mel szemben. Grafikus modellekben az élek feltételes kapcsolatoknak feleltethetık meg, az él törlése pedig feltételes függetlenséget implikál. Így a modell paraméterei kézenfekvı módon, a feltételes kapcsolatok erısségeként interpretálhatók. Ez általános esetben nem teljesül a SEM-re. A grafikus modell tehát akkor megfelelı választás, ha feltételes függetlenségekkel szeretnénk leírni a változók struktúráját. A társadalmi mobilitás kutatása ilyen terület lehet, ha az a kutatási kérdés, hogy a státuszelérési folyamat egyes állomásain mely korábban megszerzett erıforrások hagyhatók már figyelmen kívül más erıforrások birtokában.
124
6. FEJEZET: ALKALMAZÁS
Összefoglalóan: a módszer megválasztása nem redukálható statisztikai kérdéssé. Az elméleti háttérkoncepció és a kutatási kérdés alapján lehet eldönteni, hogy a grafikus modellek mely esetekben nyújthatnak a többi alternatívához képest jobb megoldást, vagy mikor egészíthetik ki egy másik szempont bevonásával azokat.
125
7 SAJÁT ALKALMAZÁSOK 7.1 Klasszikus modell, friss adatok: Treiman hipotézise a magyar rendszerváltásban A további fejezetekben néhány saját alkalmazást részletesebben is bemutatok, ezek nagy része a mobilitás-kutatási alkalmazás, egy részüket korábban már publikáltam. Az elsı, legnagyobb terjedelmő alfejezet a Szociológiai Szemlében (Németh 2006b, angolul Németh 2007) megjelent tanulmányom kivonata. Az ide történı beemelésével elsıdleges célom az volt, hogy megmutassam, a grafikus modellek módszere beilleszthetı az adott keretek közé, eredményei összevethetık más kutatásokéval. A kutatás alábbi összefoglalásánál erre a célra koncentráltam. A további, módszertanilag bonyolultabb alkalmazásokban inkább a statisztikai munka lesz majd hangsúlyos. 7.1.1
Kutatási motivációk, kutatási kérdések
Treiman gyakran hivatkozott modernizációs hipotézise szerint a gazdaságitechnológiai fejlıdés a mobilitás szempontjából nyitottabb társadalom kialakulásához vezet, mivel a munka fokozott bürokratizálódása megnehezíti a pozíciók közvetlen átörökítését, ugyanakkor a fejlett gazdaság munkaerıpiaca a formális oktatással megszerezhetı képességeket jutalmazza. A hipotézis szerint az oktatás elterjedtsége, az átfogóbb tömegkommunikáció, a nagyobb urbanizáció és fokozott földrajzi mobilitás egyaránt a merev osztályszerkezet lebontásának irányába hat (Treiman, 1970). Andorka és társai 1973-as, 1983-as és 1992-es mobilitási táblázatok összevetésekor Magyarországon az esélyegyenlıtlenségek bizonytalan és lassú csökkenését detektálják, amit a tétel gyenge alátámasztásaként értékelnek (Andorka és társai, 1994). Luijkx-nak és társainak (1995) magyarországi, 1973 és 1993 között felvett, férfiakra vonatkozó adatokon az iskolai végzettség hatásának növekvı, ill. a származás hatásának csökkenı trendjét sikerült kimutatniuk, ugyanakkor egyik tendencia sem volt stabil, bizonyos visszafordulást tapasztaltak a 80-as évek közepétıl. Interpretációjuk szerint ezek az eredmények nem cáfolják, inkább támogatják Treiman állítását, hiszen a nyolcvanas évek második felétıl megindult gazdasági teljesítmény-romlás az iparosodás, a modernizációs folyamatok visszaeséseként értékelhetı. Felmerül a kérdés, hogy ezeknek az éveknek az összevetése valóban alkalmas-e az iparosodás tézisének tesztelésére. A rendszerváltás sokdimenziós folyamat, elválaszthatatlanul összefonódó politikai, gazdasági, társadalmi és kulturális összetevıkkel. A változásoknak az iparosodásra történı egyoldalú visszavezetése a különbözı okok összemosását jelentené. Ugyancsak megfontolandó az elemzés idıkeretének kiszélesítése. Ahogyan Luijkx és társai is említik, 1992-1993 több szempontból mélypontja volt a rendszerváltást követı gazdasági átalakulás negatív kísérıjelenségeinek. Mivel ma már frissebb adatok
7. FEJEZET: SAJÁT ALKALMAZÁSOK
is rendelkezésre állnak, referenciapontként késıbbi, a gazdasági-társadalmi átalakulás stabilizálódását követı idıpont is kijelölhetı. További kérdéses pont a makrotársadalmi folyamatok reakcióidejének kérdése. Ha a rendszerváltás hozta politikai változásokat tételezzük fel hatótényezıként, vajon mikorra várható hatásuknak megjelenése a mobilitási mintákban? Ez a probléma ritkán kerül expliciten említésre, bár hasonló kérdések felmerülnek; pl. Breen és Luijkx (2004) a kövezetı problémát említi: „A »szociáldemokrácia« példáját véve, az aktuálisan szociáldemokrata kormányzatú országokban várnánk nagyobb fluiditást, vagy plauzibilisebb lenne csupán a szociáldemokrata kormányzás hosszabb (még specifikálandó) idejő fennállását relevánsnak venni?”44 A klasszikus nemzetközi vizsgálatok általában egy-két évtizedes idıhosszakat fognak közre, impliciten feltételezve, hogy a társadalmi folyamatok ilyen távon reagálják le a gazdasági/politikai változásokat. Ahogyan fenti példáim mutatják, a hazai munkák az iparosodási hipotézist tesztelve hasonló feltételezéssel élnek. Végül, ettıl nem független probléma az, hogy a rendszerváltás vizsgálatakor tulajdonképpen jórészt a rendszerváltást megelızıen beindult folyamatokról beszélhetünk – mind a gazdasági dimenziókat (a kvázipiaci formák, ill. a makroszintő válságtünetek, a foglalkoztatás csökkenésének megjelenése), mind a politikai, oktatáspolitikai dimenziókat tekintve. Pl. Gazsó, Laki (2004) szerint a származáson alapuló szelekciós mechanizmusok erısödése, az állam kihátrálása esélykiegyenlítı szerepébıl nem a rendszerváltás idıszakában kezdıdött, csak az államszocializmus utolsó évtizedének mechanizmusai folytatódtak tovább. Az alábbiakban 1983-as, 1992-es és 2000-es felvételek státusmegszerzésre vonatkozó adatait vetem össze. Kutatási kérdésem a klasszikus modernizációs hipotézisbıl indul ki: vajon milyen irányban változott a vizsgált idıszakban az apa státusza (iskolázottsága, foglalkozása) és a kérdezett státusza közötti kapcsolat? A fent említett problémáknak megfelelıen a detektált változásokat nem tisztán a gazdasági fejlıdés, hanem (már a ’80-as években megindult) soktényezıs rendszerváltozási folyamat következményeként értékelem majd. Kerülném azt a megfogalmazást, hogy a rendszerváltás társadalmi hatásainak végigkísérése lenne a cél – a gazdasági hanyatlás hatása talán már felfedezhetı ezekben az adatokban, a növekvésé valószínőleg még nem. Az elemzés során a Központi Statisztikai Hivatal 1983-as és 1992-es Társadalmi mobilitás kutatásának ill. 2000-es Életmód és idımérleg-vizsgálatának adatait használom. Ez az idıszak nem kontinuus fejlıdésnek, inkább U-görbét leíró, két ellentétes irányú periódusból álló folyamatnak tekinthetı. Munkaerıpiaci szempontból Kézdi (2002) veti fel az 1986-1999 közötti idıszak két fázisú voltát, 1995-ös osztóponttal. Elemzése szerint az elsı fázisra a munkahelyek nagyarányú megszőnése és az ágazatok közötti tömeges reallokáció, míg a második fázisra a foglalkoztatás csökkenésének megállása, a magasabb képzettségőek aránynövekedése és az 44
Saját fordításom.
127
7. FEJEZET: SAJÁT ALKALMAZÁSOK
iskolázottság bérekben mért hozamának gyorsabb növekedése jellemzı. Szociológiai megközelítésben Kolosi és Róbert (2004) tárgyalják a fenti idıszak ellentétes irányt mutató átalakulási fázisait. 7.1.2
Elméleti háttér, korábbi vizsgálatok
A rendszerváltozás longitudinális vizsgálatakor általában alkalmazott elméletek a korábbi nemzetközi, elsısorban keresztmetszeti összehasonlító vizsgálatok szokásosan alkalmazott magyarázó elméleteire támaszkodnak. Így az 6.2.1. fejezetben már említett, Lipsettıl és Zetterbergtıl származó, Blau és Duncan ill. Treiman által pontosított, az ipari társadalmak feltételezetten egyetemes szerkezetére épülı, alapvetıen funkcionalista gazdasági magyarázatok merülnek fel - ezek a gazdasági növekedést követı társadalmi nyitódást jósolnának45. Megemlítendık továbbá a politikai szervezetek rétegzıdésre gyakorolt hatását vizsgáló politikai magyarázatok. A politikai megközelítésre koncentráló vizsgálatok a szocialista blokkon belül is lényeges különbségeket találtak, illetve - elsısorban nemzetspecifikus történelmi jellegzetességekre visszavezethetıen - nem látták megalapozottnak a szocialista mobilitási minta, mint speciális típus meglétét (Simkus, 1981, Kurz-Müller, 1987). Más vizsgálatok szerint mivel néhány nem-baloldali kormányzatú országban a baloldaliakéhoz hasonló a mobilitás szintje, a politikai intervenció, bár feltételezhetı, de nem az egyedüli társadalmi meghatározó tényezı (pl. Breen-Luijkx, 2004). Ezért a gazdasági megközelítéssel szemben a politikai elmélet esetében nem beszélhetünk a rendszerváltozással kapcsolatos egyértelmő „elırejelzésekrıl”. E két, a mobilitási mintázatok változását szisztematikus (és megmagyarázható) folyamatnak látó megközelítéssel szemben áll az 6.2.1. már említett harmadik tézis, mely Sorokin (1964: 142.o) nevéhez főzıdı változatában szélesebb történelmi perspektívából trendmentes ingadozásnak tekinti a mobilitás abszolút rátáinak változásait. Az elmélet újabb, a mobilitás-kutatások harmadik nemzedékének CASMIN-projektjéhez kapcsolható változatában a relatív mobilitási esélyeknek (social fluidity) a társadalmi rétegzıdés konkrét megoszlásától független mintázatának és szintjének állandóságát tételezi fel az iparosodott országokban. Sorokinhoz hasonlóan, igaz, más elméleti alapon, de Boudon (1974) is cáfolja az egyenlıség növekedésének tendenciáját. Véleménye szerint még ha gyengül is a származás és az iskolai végzettség kapcsolata, a hátrányos származás akkor is megjelenik a munkába álláskor, vagyis az elért státuszban – így az egyenlıtlenségek egy szinttel feljebb tolódnak. Mare (1981) klasszikus elemzésében szintén az oktatás demokratizálódásához főzött optimista várakozásokat cáfolja. Kimutatja, hogy az 45
Hasonló az implikációja az újabb meritokratikus elméleteknek is, így például Jonssonénak (1992), aki bevezette az Erısödı Meritokratikus Kiválasztódás hipotézisét, mely szerint a posztindusztriális társadalmakban azok hatékonyságvezérelt volta következtében az egyéni érdemek válnak az oktatáshoz való hozzáférésnek, majd a munkaerıpiaci pozíció megszerzésének kulcstényezıivé.
128
7. FEJEZET: SAJÁT ALKALMAZÁSOK
Egyesült Államokban a származási esélykülönbségek az expanzió ellenére növekedtek a magasabb iskolai szinteken. Az elméletekhez kapcsolódó korábbi vizsgálatoknak a jelen kutatási kérdést érintı eredményeire térve: Treiman és Yip (1989) nemzetközi összehasonlító vizsgálatát a modernizációs tézis empirikus igazolásaként szokás citálni. Elemzésükben huszonegy, az iparosodottság különbözı fokán álló ország keresztmetszeti kutatásból származó adatain az apa foglalkozásának és a kérdezett iskolázottságának a kérdezett foglalkozására gyakorolt hatását vizsgálják. Fontos megjegyezni, hogy Treiman hipotézisében a mobilitás-kutatások második nemzedékének elméleti és módszertani irányvonalát követve direkt és teljes hatásokat különböztet meg, ennek megfelelıen ebben a vizsgálatban is többszörös regressziós modellek együtthatóival, mint a direkt hatások megfelelıjével dolgozik. Eredménye szerint az iparosodottabb országokban az iskolázottságnak a foglalkozásra gyakorolt hatása erısebb és az apa foglalkozásának hatása gyengébb, azaz sikerül bizonyítania az iparosodottság – társadalmi nyitottság kapcsolatot. Egy másik gyakran hivatkozott, újabb munkában Goldthorpe (1996) arra a következtetésre jut, hogy bár a ’60-as, ’70-es években végzett vizsgálatok a foglalkozás, az iskolázottság és az apa foglalkozása közötti direkt hatásokat tekintve többé-kevésbé valóban alátámasztják az Erısödı Meritokratikus Kiválasztódás elvét (lásd a 45. lábjegyzetet), a ’90-es évekbıl származó munkák Anglia, Wales, Svédország adatain éppen ellentétes következtetésekre jutnak. Goldthorpe interpretációja szerint a vizsgálatok eltérı metodikáján kívül valódi változások is okozhatják ezeket az eredményeket: a modern társadalmak az elterjedt vélekedéssel szemben talán sokkal kevésbé mőködnek „hatékonyan”. A Magyarországon végzett vizsgálatok közül Luijkx és társai 1995-ös eredményeit a bevezetıben már említettem; fontos még megjegyezni a munkáról, hogy az alkalmazott többszörös logisztikus regresszió folytán a fentiekhez hasonlóan szintén iskolázottság – foglalkozás ill. apa foglalkozása – foglalkozás direkt hatásokat számszerősít. E tanulmány továbbfejlesztett változata (Luijkx és társai, 2002) szerint tényleges elmozdulás figyelhetı meg a származástól a teljesítmény irányába, idıintervalluma (1989 a végpont) azonban nem illeszkedik jelen kérdésünkhöz. Mégis érdemes megemlíteni, mert nem csak gazdasági, hanem politikai magyarázatokat is figyelembe vesz. Az intergenerációs foglalkozási mobilitással kapcsolatos újabb hazai publikációk közé tartozik Bukodi (2001) munkája. Eredményei alapján a nemzedékek közötti mobilitás 1983 és 1992 között alig változott, 2000-re viszont lecsökkent. A szerzı a mobilitás mértékét a teljes mobilitási arányszámmal definiálja. Késıbbi munkájában (2003) ugyanezen adatok alapján a teljes mobilitási arányszámot felbontja vertikális és horizontális mobilitási arányszámokra46, amibıl kiderül, hogy az eltelt idıszakban a 46
Az arányszámok pontos definíciójához: mindhárom arányszám adott foglalkozási osztályozás mellett értelmezhetı. A teljes mobilitási arányszámot az apjuktól eltérı osztályba tartozó
129
7. FEJEZET: SAJÁT ALKALMAZÁSOK
vertikális (tehát ténylegesen presztízs-változtató) mobilitás nem változott, mert a csökkenı teljes mobilitással párhuzamosan a horizontális mobilitás aránya is csökkent. Ugyancsak az apa foglalkozása –foglalkozás kétdimenziós kapcsolatot elemzi egy újabb tanulmányban Róbert és Bukodi (2004), egy nemzetközi vizsgálat részeként, ahol Erikson és Goldthorpe által a Constant Flux c. munkában kialakított modelleket használják. Az 1973-as, 1983-as, 1992-es és 2000-es évek összevetésével úgy találják, hogy a korábbi mobilitás-növekedés a 90-es években a nık esetén rendkívül lelassult, a férfiak esetén pedig visszafordult. A származásnak az iskolai végzettségre gyakorolt hatására vonatkozóan a hazai szociológia eredményei közül elsısorban módszertani szempontból érdemes megemlíteni Andorka és Simkus (1983) Boudon és Mare eredményeire reagáló kutatását. A szerzık explicit szándéka volt, hogy a mobilitás megváltozását az oktatási expanzió hatásától függetlenül mérhessék, ezért loglineáris elemzést végeztek. A téma oktatáspolitikai fontosságánál fogva több új hazai vizsgálat is készült e kérdéskörben. Székelyi és társai (1998) a származás hatásának idıbeli változását vizsgálják egy 1997-ben, felsıoktatási hallgatók körében végzett kutatásban, ahol elsısök és végzısök családi hátterét vetik össze. Eredményük szerint az elsısök között nagyobb az alacsonyabb státuszú családból származók aránya. Gazsó és Laki (2004) szerint ez az összevetés nem releváns, hiszen tárgya az elsısök és a végzısök közötti különbség, de nem az esélyek változása. Valóban, a módszerrel szemben felhozható, hogy a végzısök között már nincsenek ott az idıközben lemorzsolódottak, akik esetleg inkább alacsonyabb státuszú szülık gyerekei. Gazsó és Laki 1973-as, 1997-es és 2000es adatok alapján veti össze az egyetemi/fıiskolai hallgatók származási hátterét és alapvetıen változatlanságot tapasztal; interpretációjuk szerint a felsıoktatás expanziója nem kapcsolódott össze esélykiegyenlítıdéssel47. Bukodi (1995) 1992-es adatokon, többszörös regressziós modellel vizsgálja az iskolázottság és az apa foglalkozása ill. iskolázottsága közötti direkt kapcsolatot. Az idıbeli változásokat a minta életkori csoportokra bontásával, mintegy keresztmetszeti kohorszelemzést végezve számszerősíti. Azonban a tényleges változások ezzel a módszerrel sem detektálhatók teljes megbízhatósággal. E kohorszelemzés problémája, hogy az idısebb kohorszok a természetes elhalás miatt nem teljesek, ami azért okozhat gondot, mert hazánkban igen erıs a várható élettartam társadalmi meghatározottsága (pl. Kovács, Hablicsek, 2006).
válaszadók arányaként határozhatjuk meg. A teljes mobilitási arányszámot ésszerő tovább bontani vertikális és horizontális mobilitási arányszámokra, ahol a vertikális mobilitás eltérı presztízső foglalkozási osztályok között, a horizontális mobilitás azonos presztízső foglalkozási osztályok között valósul meg. Ugyanis a foglalkozási osztályozások mögött nem áll feltétlenül presztízsrangsor, pl. az eredeti EGP skálán külön kezelt önálló kereskedık, iparosok és szolgáltatók, vagy közvetlen termelésirányítók és szakmunkások a presztízsrangsorokban leggyakrabban azonos szinten helyezkednek el. 47 Ez a kijelentés elsı hallásra talán paradoxonnak tőnhet, ám matematikailag nem az: mint Mare (1974) korábban említett eredménye is mutatja, az adott végzettséget megszerzık arányának változása független a társadalmi esélykülönbségek változásától.
130
7. FEJEZET: SAJÁT ALKALMAZÁSOK
További vizsgálati eredmények ’90-es évek végi adatokra támaszkodva erıs származási hatást mutatnak az iskolai teljesítmény tekintetében, így Andor és Liskó (2000), vagy Róbert (2004). Ezek a vizsgálatok azonban nem végeznek összevetést korábbi évek adataival. 7.1.3
Módszertan
Kutatási kérdéseim az alábbi ábrán látható gráfhoz tartozó modell hatásaira vonatkoznak. A gráf Donald Treimannak a 21. ábra látható modelljére épül, ami tulajdonképpen az eredeti Blau-Duncan modell egy variánsa, eredeti forrása Duncan et al. (1968), de igazán ismertté valóban Treiman (1970) tette. Az eredeti Treiman-modell tehát az adatbázisaimban nem szereplı jövedelmet is tartalmazza, de ez a különbség nem érinti az itt vizsgált kapcsolatokat, azok azonosak. A gráf alapján látható, hogy a modellbıl az I’F hatás került eltávolításra.
20. ábra. A vizsgált modell (I: iskolázottság, F: foglalkozás, I’: apa iskolázottsága, F’: apa foglalkozása)
A modell irányított körmentes gráf-modell, a lokális Markov-tulajdonság48 az alábbi feltételes függetlenségi állítást implikálja: F ⊥ I ' | F 'I.
(66)
Treiman a modernizációs hipotézisben konkrét alhipotéziseket fogalmaz meg, eszerint a modernizációval gyengül 1. az apa foglalkozása - foglalkozás teljes hatás, 2. az apa foglalkozása - foglalkozás direkt hatás, 3. az apa foglalkozása - iskolázottság direkt hatás, ugyanakkor erısödik az 48
A 3.5. fejezetben láttuk, hogy IKG-n és pozitív eloszlás mellett minden Markov-tulajdonság ekvivalens, ezért nem jelent megszorítást a lokális tulajdonság választása.
131
7. FEJEZET: SAJÁT ALKALMAZÁSOK
4. iskolázottság – foglalkozás direkt hatás. A modernizációs hipotézis egyes pontjait követve az alábbi elemzés célja a marginális loglineáris paraméterek értékeibıl kiindulva a kapcsolatok idıbeli változásának vizsgálata lesz. Az elemzést nemenként külön végezem, hiszen a tárgyalt kérdésekben több korábbi vizsgálat is nemi különbségeket mutatott ki (hazai friss példa Róbert, Bukodi, 2004). Fontos ismét hangsúlyozni azt a 2.1. fejezetben már tárgyalt tényt, hogy a loglineáris paraméterek függetlenek a táblák marginálisaitól, ezért pl. az apa-kérdezett összevetésekben elınyös módon a foglalkozási struktúra változásaitól független változást jelenítik csak meg, vagy - másik példával élve - kiküszöbölik az egyetemi képzés expanziójának hatását. Természetesen ugyanezzel az elınyös tulajdonsággal bír a klasszikus loglineáris elemzés is, ahogyan azt pl. Andorka és Simkus (1983) a módszertan megválasztásának indoklásakor hangsúlyozza. Az 4.5. fejezetben részletezett eljárást követve a modellnek megfelelı eloszlás az alábbi marginális loglineáris paraméterekkel adható meg:
λ∅I ' , λII'' , λFI ''F ' , λII''FF'' , λII ' F ' I , λII''IF ' I , λFI ''FI ' I , λII''FF''II , λFI ' F ' IF , λFI ''FF ' IF , λIFI ' F ' IF , λFI ''FIF' IF .
(67)
Ugyanakkor a (66)-nak megfelelı paraméterek értéke nulla:
λII''FF ' IF , λII''FF''FIF , λII''IFF ' IF , λII''FF''IFIF .
(68)
A modernizációs hipotézis 2.-4. pontjához a λFI ''FF ' IF , λFI ''FI ' I , λIFI ' F ' IF paraméterek kapcsolódnak, míg 1. pontjához a paraméterezésben nem szereplı λFF''FF paraméter tartozik. Ezek idıbeli változását vizsgálom a továbbiakban. Ugyanezen adatok felhasználásával több vizsgálat is készült már (pl. Bukodi 2001, Bukodi 2003, Róbert, Bukodi 2004). Az eredmények közvetlen összevethetısége érdekében Róbert és Bukodi (2004) döntését követve a vizsgálati populációt a 20-69 éves aktuálisan dolgozókban ill. a valaha dolgozó munkanélküliekben határoztam meg. A nemenként külön bontott együttes eloszlás celláit a szokásosan alkalmazott 0,5-ös elemszámmal töltöttem fel, az üres cellák elkerülése érdekében. A minta elemszámai a következıképpen alakultak: 1983:
férfiak - 9076 mintaelem (2 üres cella),
nık – 7834 (3 üres)
1992:
férfiak - 7045 (2 üres),
nık – 6364 (2 üres)
2000: üres)
férfiak - 2463 (nincs üres),
nık – 2009 (5
Az elemzés során az adatbázisokhoz eredetileg hozzárendelt súlyokat használtam.
132
7. FEJEZET: SAJÁT ALKALMAZÁSOK
A modell viszonylagos összetettségét ellensúlyozandó49 a változók képzésénél a kategóriák alacsony számára törekedtem. Az iskolázottságot bináris változóként használtam, mégpedig az apa (érettségizett/érettségi nélkül) ill. a kérdezett (diplomás/diploma nélkül) esetére más kategóriákkal, ennek oka a megközelítıleg azonos eloszlású változók képzésére való törekvés volt. Az apa foglalkozását a kérdezett 14 éves korában meglevı foglalkozással definiálták a kérdıívek. A foglalkozás meghatározásakor szerencsés lett volna a kérdezett elsı foglalkozásának használata, de ez az információ nem állt rendelkezésre mindegyik adatbázisban. Ezt a problémát megoldandó Andorka (1995) azzal próbálkozik, hogy külön vizsgálja a fiatalokat, ahol a "jelenlegi" foglalkozás jó proxy a pályakezdı foglalkozásra. Jelen vizsgálatban ezzel a céllal külön elvégzem majd a 2029 éves korosztály vizsgálatát. A foglalkozási kategóriák kialakításánál Erikson és Goldthorpe (1992) ajánlását követve az EGP skálához illeszkedı hármas beosztást használtam: 1. felsı osztály (szolgáltató osztály: vezetı, szellemi szabadfoglalkozású, diplomás alkalmazott) 2. középosztály gazdálkodó)
(egyéb
szellemi,
szakmunkás,
iparos/kereskedı/szolgáltató,
3. alsó osztály (alacsonyabb szintő kereskedelmi és szolgáltató dolgozók, betanított munkás/segédmunkás/mezıgazdasági fizikai). 4. Ennek a megoldásnak a kategóriák alacsony számán kívül az is elınye, hogy az ordinalitás következtében vertikális mobilitást határoz meg a kategória-ugrás. 7.1.4
Eredmények
A valószínőség-hányados tesztstatisztika szerint a modell illeszkedése mindhárom évben, mindkét nemre rossz (p<0,01), kivéve a 2000-es évben a nık esetét, ahol a modell jól illeszkedik (p=0,115). Vagyis a modellt definiáló, (66)-ban meghatározott, az apa iskolázottságára és a kérdezett foglalkozására vonatkozó feltételes függetlenségi állítás nem fogadható el. Ezért a modellt elvetettem, és a továbbiakban a 2. ábra modelljének módosított, az I’-F nyilat is tartalmazó változatát alkalmaztam. Ez, mivel egyetlen hiányzó nyilat sem tartalmaz, telített modell. A paraméterezést tekintve ez a (68)-ban felsorolt paraméterek szabad, nem nullában rögzített paraméterként történı használatát jelenti. A következıkben e paramétereket fogom megbecsülni. A kutatási kérdéseim szempontjából releváns négy paraméter értékének becslése az alábbi táblázatokban található. A cellákban a felsı érték a férfiakra, az alsó a nıkre kapott becslés. 49
Visszautalnék az 6.2.2. fejezetre: sok kategória használatával esetleg túl sok üres vagy majdnem üres cella állhatna elı.
133
7. FEJEZET: SAJÁT ALKALMAZÁSOK
5. táblázat. Paraméterbecslések a modernizációs hipotézis 2. pontjához
év 1983 1992 2000
apa foglalkozása- foglalkozás direkt hatás λFI ''FF ' IF apa: felsı osztály apa: középosztály apa: alsó osztály felsı közép alsó felsı közép alsó felsı közép alsó 0,06 -0,14 0,08 0,04 0,12 -0,16 -0,10 0,02 0,08 0,36 -0,25 -0,11 -0,09 0,28 -0,19 -0,27 -0,03 0,3 0,33 -0,13 -0,20 -0,02 0,17 -0,15 -0,31 -0,04 0,35 0,33 -0,2 -0,13 -0,07 0,08 -0,01 -0,26 0,12 0,14 0,30 -0,20 -0,10 -0,11 0,31 -0,20 -0,19 -0,11 0,30 0,15 -0,10 -0,05 -0,10 0,06 0,04 -0,05 0,04 0,01
6. táblázat. Paraméterbecslések a modernizációs hipotézis 3. pontjához
év
1983 1992 2000
apa foglalkozása – iskolázottság direkt hatás λFI ''FI ' I apa: felsı osztály apa: középosztály apa: alsó osztály diploma diploma diploma diplomás diplomás diplomás nélküli nélküli nélküli 0,32 -0,05 -0,27 -0,32 0,05 0,27 -0,13 -0,17 -0,30 0,13 0,17 0,30 0,34 -0,06 -0,28 -0,34 0,06 0,28 -0,09 -0,25 -0,34 0,09 0,25 0,34 0,42 -0,13 -0,29 -0,42 0,13 0,29 -0,07 -0,21 -0,28 0,07 0,21 0,28
7. táblázat. Paraméterbecslések a modernizációs hipotézis 4. pontjához
év 1983 1992 2000
I ' F ' IF iskolázottság - foglalkozás direkt hatás λIF diplomás diploma nélküli felsı közép alsó felsı közép alsó 1,19 -1,19 -0,28 0,28 -0,91 0,91 1,28 -1,28 -0,43 0,43 -0,85 0,85 1,35 -1,35 -0,4 0,4 -0,95 0,95 1,15 -1,15 -0,4 0,4 -0,75 0,75 0,92 -0,92 -0,31 0,31 -0,61 0,61 -1,01 -0,19 0,19 -0,82 0,82 1,01
134
7. FEJEZET: SAJÁT ALKALMAZÁSOK
8. táblázat. Paraméterbecslések a modernizációs hipotézis 1. pontjához
év 1983 1992 2000
apa foglalkozása – foglalkozás teljes hatás λFF''FF apa: felsı osztály apa: középosztály apa: alsó osztály felsı közép alsó felsı közép alsó felsı közép alsó 0,72 -0,20 -0,52 -0,23 0,09 0,14 -0,49 0,11 0,38 0,73 0,02 -0,75 -0,25 -0,05 0,30 -0,48 0,03 0,45 0,79 -0,23 -0,56 -0,15 0,08 0,07 -0,64 0,15 0,49 0,71 -0,06 -0,65 -0,17 0,02 0,15 -0,54 0,04 0,50 0,95 -0,41 -0,54 -0,32 0,27 0,05 -0,63 0,14 0,49 0,66 -0,03 -0,63 -0,23 0,05 0,18 -0,43 -0,02 0,45
A fenti táblázatokban szereplı minden paraméter értéke szignifikáns50. A hatások idıbeli változásának szignifikanciájára vonatkozó próba szerint pedig az •
apa foglalkozása - foglalkozás direkt hatás nem változott szignifikáns módon egyik nem esetén sem,
•
az apa foglalkozása- iskolázottság direkt hatás a férfiak esetében 1983 és 1992 között nem változott szignifikánsan, de 1992-2000 között (és a teljes 19832000 közötti intervallumot tekintve is) szignifikánsan erısödött, míg a nık esetében sehol nem változott szignifikánsan,
•
az iskolázottság – foglalkozás direkt hatás nem változott szignifikáns módon sem a nık, sem a férfiak esetében, míg
•
az apa foglalkozása – foglalkozás teljes hatás a férfiak esetében mind 19831992 között, mind 1992-2000 között (és a teljes 1983-2000 intervallumon is) szignifikánsan változott. Az egyes paraméterértékek változására külön elvégzett szignifikancia-teszt alapján elmondható, hogy ezt a változást a záródás irányába mutató (abszolút értékükben növekedı) paraméterek szignifikáns változása hozta. A nık esetében a változás csak az 1983-1992 intervallumon szignifikáns. Itt a részletes teszt alapján elmondható, hogy a középosztálybeli apák utódainak esélyei változtak szignifikánsan, mégpedig a nagyobb nyitottság irányába. 1992-2000, sıt 1983-2000 sem találunk viszont szignifikáns változást.
Már említett okok miatt a 20-29 éves korosztályt külön is vizsgáltam, bár az esetszámok így erısen lecsökkentek (2000-ben csak 703 férfi és 530 nı tartozott a mintába), tehát óvatosan értelmezendık az eredmények. A tapasztalatok jórészt a fentiekhez hasonló tendenciát– a nık esetén változatlan esélyegyenlıtlenségeket, a férfiaknál bizonyos mutatók esetén már növekvı egyenlıtlenségeket - mutatnak. Az utóbbi megfigyelést részletezve: az apa foglalkozásának és a fiú iskolázottságának 50
Ha másként nem jelzem, 0,05 szintő szignifikanciát számolok.
135
7. FEJEZET: SAJÁT ALKALMAZÁSOK
1983-1992 között felerısödı összefüggését, illetve az iskolázottság – foglalkozás hatás 1983 és 2000 közötti szignifikáns csökkenését találtuk. 7.1.5
Összegzés
Eredményeim szerint (1) az iskolázottságnak lényegi szerepe van a társadalmi státusz elérésében, ám ez a hatás nem erısödött, sıt, a fiatal férfiaknál inkább csökkent. Ugyanakkor (2) bár az apa foglalkozásának a kérdezett foglalkozására vonatkozó teljes hatása mindhárom évben mindkét nemre igen erıs, (3) a direkt hatás jóval gyengébb, de azért szignifikáns. Figyelembe véve, hogy (4) az apa foglalkozása erıs hatást gyakorol az iskolázottságra, elmondható, hogy a társadalmi újratermelıdés egy része az iskolai végzettségen keresztül valósul meg, vagyis az iskolának a társadalmi reprodukcióban is lényeges szerepe van, az újratermelıdés fontos csatornájának tekinthetı. Az (1)-(4) eredmények mind egybevágnak az ipari társadalmakra vonatkozó klasszikus megfigyelésekkel, pl. a múlt század közepének Amerikáját vizsgáló, a mobilitás-kutatások második nemzedékéhez tartozó, így a szokásos útelemzést használó Blau és Duncan eredményeivel (Ganzeboom, Treiman, Ultee, 1991). Ugyanakkor Treiman és Yip (1989) 21 országnak a ’70-es évek elejérıl származó adatait összevetve az iskolázottságot lényegében a származástól függetlennek találják (szemben a (4) eredménnyel), ezzel arra a következtetésre jutva, hogy a foglalkozási státusz sokkal inkább a végzettség, mint a származás függvénye. Ezzel szemben egy friss nemzetközi vizsgálat angol, francia, ír, svéd és holland adatokból kiindulva a származásnak a státusmegszerzésre vonatkozó hatását az iskolázottságra korrigálva is erısnek találta (Breen-Luijkx, 2004). Ezekben az országokban, Magyarországhoz hasonlóan, a társadalmi újratermelıdésnek az iskolázottságon kívül más jelentıs csatornái is feltételezhetık. Az apa foglalkozásának az iskolázottságra vonatkozó hatása eredményeim szerint mindhárom évben szignifikáns, ez megfelel az iskolai teljesítmény tekintetében erıs származási hatást kimutató hazai vizsgálatoknak (Andor, Liskó 2000, Róbert 2004). A hatás férfiak esetén tapasztalt erısödése, nık esetén talált változatlansága az Elméleti háttér, korábbi vizsgálatok c. részben említett – igaz, nem teljesen azonos kérdésfeltevéssel, nem azonos intervallumon és nem azonos módszertannal készült – hazai vizsgálatok legtöbbjével egybevág. Székelyi és társai (1998) írása ugyan ellentmondani látszik, ık a mobilitás növekedését detektálják, ám az eredmények összevethetıségével kapcsolatban korábban már jeleztük a lehetséges problémákat. Eredményeim lehetséges magyarázata elsısorban az oktatás demokratizálódásához főzött optimista várakozásokat cáfoló vizsgálatokhoz (Mare, Boudon) köthetı. Míg ezek a vizsgálatok a pusztán a felsıoktatási férıhelyek számának növelését célzó társadalompolitikai beavatkozások szükségszerő sikertelenségét hangsúlyozzák, addig hazai szerzık a felsıoktatás expanziójának végrehajtási módját is kritizálják, pl. Gazsó
136
7. FEJEZET: SAJÁT ALKALMAZÁSOK
(1997) szerint a szelektív felsıoktatást a spontán makrotársadalmi folyamatokat felerısítve a közoktatás-politika is támogatja. Az Elméleti háttér, korábbi vizsgálatok c. részben említett hazai tanulmányok közül az apa foglalkozásának az utód foglalkozására vonatkozó direkt, iskolázottságra kontrollált hatását az adott periódusra egyedül Luijkx és társai (1995) vizsgálták férfiakra vonatkozóan, 1973-as, 1983-as és 1992-1993-as adatokat összevetésével. Megközelítésük – az elemzési módszer eltérésén kívül - abban különbözik a jelen tanulmányétól, hogy nem korrigáltak az apa iskolázottságára, illetve külön vizsgálták a le- ill. felfelé mutató mobilitás esélyeit. A származás felfelé mutató mobilitásra vonatkozó hatásával kapcsolatban U-alakú görbét detektáltak, míg a lefelé mutató mobilitással kapcsolatban változatlan hatást. Bár eredményük a módszertani eltéréseket figyelembe véve csak óvatosan vethetı össze közvetlenül az enyémmel, de nem is feltétlenül mond ellent az általam a le- ill. felfelé mutató mobilitásra összességében talált 1983-1992 közötti változatlanságnak. Hasonlóan, az iskolázottságnak a foglalkozására vonatkozó direkt, származásra kontrollált hatásával az említett hazai források közül Luijkx és társai foglalkoztak. İk 1973-as, 1983-as és 1992-1993-as adatok alapján fordított U-alakú görbét detektáltak a végzettség lefelé mutató mobilitásra gyakorolt hatására vonatkozóan, a felfelé mutató mobilitásra vonatkozó hatás változatlanságát tapasztalták, ami újfent nem mond ellent az én (eltérı módszerrel kapott) eredményemnek, azaz az 1983-1992 közötti, bármilyen irányba mutató mobilitás változatlanságának. Több tanulmány foglalkozik ugyanakkor a korábban már idézettek közül az apa foglalkozása – foglalkozás teljes hatással. Bukodi (2001) és (2003) mobilitási arányszámot használ a kérdés megválaszolására, így a két eredmény nem vethetı össze közvetlenül51. Róbert és Bukodi (2004) eredményei, bár más módszerrel, unidiff modellekkel készültek (ezekrıl már írtam az 6.2.1. fejezetben), jórészt alátámasztják tapasztalataimat. A unidiff modell alapján az 1983-as, 1992-es és 2000-es évek összevetésében a nıknél a mobilitás-növekedés lassulására, míg a férfiaknál már záródásra utaló jeleket találtak. A munkaerıpiac mőködésére, Treiman hipotézisének kiindulási pontjára vonatkozó eredményeim magyarázatakor Goldthorpe meritokratikus elméletekkel szembeni szisztematikus kritikája (1996) citálható. Szerinte nem feltétlenül a hatékonyság mőködteti a munkaerı allokálást: az iskolázottság egyfajta életstílust, kulturális hátteret is jelent, gyakran ezért és nem a tényleges tudásért keresnek a munkaadók diplomás alkalmazottat. A posztindusztriális, tudás-alapú gazdaságban ugyanakkor nem is feltétlenül a kognitív képességek kerülnek elıtérbe: olyan, tipikusan expanzióban levı poszt-indusztriális területeken, mint a kereskedelem, PR vagy a promóció inkább a megjelenés, a beszédstílus kap nagy szerepet. Ezek viszont a családból öröklıdnek, s 51
A mobilitási arányszám ugyanis, mint azt a 6.2.1. fejezetben kiemeltem, az itt használt marginális loglineáris paraméterekkel szemben változással reagálhat csupán a táblázat marginálisainak, tehát a struktúra megváltozásának a hatására is.
137
7. FEJEZET: SAJÁT ALKALMAZÁSOK
nem az iskolán keresztül szerezhetık meg. A modern társadalmakban ugyancsak erısödı kis- és középvállalkozói szektorban hasonló a helyzet: a szülık nem csak a tárgyi javakat örökíthetik át utódaikra, hanem a szintén szükséges vállalkozói kultúrát, individualisztikus munkaerkölcsöt is. A fentieket összefoglalva: a vizsgált idıszakban Magyarországon Treiman hipotézisével ellentétes (férfiaknál bizonyos egyenlıtlenségek növekedése), vagy azt legalábbis nem alátámasztó (változatlan esélyegyenlıtlenségek) tendenciák figyelhetık meg. A szülıi háttér hatása a fiúk iskolázottságára folyamatosan erısödik, sıt a származás az iskolarendszert megkerülve, más csatornákon keresztül is befolyásolja az elért státuszt. Eközben a diploma munkaerıpiaci értéke, vagyis a foglalkozási státusz elérésében betöltött szerepe a hipotézisben várttal szemben nem növekedik, sıt, a fiataloknál inkább csökken. Az eredmények ér vényességérıl még két megjegyzést szeretnék tenni. Az egyik, hogy esetleg elıfordulhat, hogy a használt változók egyre kevésbé képesek megragadni a foglalkozási státuszt, tehát az itt használt kategóriák esetleg átdefiniálásra szorulhatnak. Továbbá a bevezetıben említett reakcióidı-problémára hivatkozva az is elképzelhetı, hogy a rendszerváltás és a vizsgálat idıpontja között eltelt idı túl rövid a gazdasági/politikai változások tényleges társadalmi leképezıdéséhez, bár a jelenlegi folyamatok kevéssé valószínősítik az itt kimutatottal ellentétes irányú tendencia megjelenését. Pl. az általános iskolai teljesítményben megmutatkozó társadalmi egyenlıtlenségek növekedését kimutató vizsgálatok (Kertesi, Kézdi, 2004) alapján inkább ennek a felsıoktatásra való továbbgyőrőzését jelezhetnénk.
7.2 A Treiman-modellnek és a Boguszak és társai (1990) által javasolt módosításának összevetése nemzetközi adatokon Az alábbiakban egy korábban már szintén közölt (Németh, 2006a, és Németh, Rudas, Bergsma, 2006) vizsgálat kivonatát mutatom be. A Treiman-modell Boguszak és társai (1990) által javasolt módosításának érvényességét vizsgálom majd. Az elızı fejezethez képest módszertani szempontból az jelent újdonságot, hogy irányított körmentes gráf mellett láncgráfot is vizsgálok majd. Az elsı modellhez tartozó gyakoriságok és paraméterek Mathematica-ban ill. SPSS-ben elvégzett becslése, ill. illeszkedésvizsgálata a Függelékben, a 8. fejezetben található meg teljes részletességgel. A Treiman-modell a 21. ábra látható. Mint már említettem, ez az eredeti BlauDuncan modell egy variánsa, eredeti forrása Duncan et al. (1968), de igazán ismertté Treiman (1970) tette. Az elızı alfejezetben ismertetett modernizációs hipotézis eredetileg ezen a modellen volt értelmezve. Az I’F’ hatás irányítatlan, ezért a modellt láncgráf modellként kezelem majd, bár ahogy az 3.8. fejezetben említettem már, a láncgráf-modell Markov-ekvivalens az IKG párjával (amelyben ez a hatás irányítottra van cserélve). A láncgráfhoz négy komponens tartozik: {I’F’}, {I}, {F}, {J}.
138
7. FEJEZET: SAJÁT ALKALMAZÁSOK
Az 3.8. fejezetben láttuk, hogy ezen a gráfon a láncgráfokra definiált valamennyi Markov-tulajdonság ekvivalens. Nem teszek hát igazi megszorítást, ha a lokális tulajdonságot veszem, amibıl a következı feltételes függetlenségi állításokat kapjuk: J ⊥ I ' F ' | FI , F ⊥ I ' | F 'I.
(69)
21. ábra. Treiman-modell (Treiman, 1970, eredetileg Duncen et al., 1968). I’: apa iskolázottsága, F’: apa foglalkozási státusza, F: foglalkozási státusz, I: iskolázottság, J: jövedelem
Bár, mint láttuk, még nincsen kidolgozott általános eljárás a láncgráfok paraméterezhetıségére, egyedi esetekben azonban jó paraméterezés adható azzal a kézenfekvı eljárással, hogy az 1. tétellel paraméterezzük egyenként a feltételes függetlenségeket. A marginálisok M halmazát a komponensek rendezése definiálja: I’F’, I’F’I, I’F’IF, I’F’IFJ. A feltételes függetlenségek miatt az alábbi paraméterek értéke 0:
λII''FF∗' IF , λII''JF∗' IFJ , λFI ''FJ ∗' IFJ . A modellhez tartozó eloszlás szabad paraméterei:
λ∗I ' F ' , λII∗' F ' I , λFI ∗' F ' IF , ha I ' ∉∗, λJI ∗' F ' IFJ , ha I ', F ' ∉∗. Mivel a paraméterezés rendezett módon dekomponálható, hierarchikus és teljes, ezért minden, a 2.3. fejezetben említett elınyös tulajdonsággal rendelkezik. Boguszak és társai (1990) Csehszlovákiát vizsgálva a modell két hatásra kiterjedı módosítását javasolták52, mindkettıt a „korábbi diszkrimináció kompenzálására” vonatkozó elméletük alapján. (1) Modelljükben az iskolázottságra is hatása van a foglalkozásnak. Eszerint a politikailag megbízható, de aluliskolázott munkaerı 52
İk az eredeti Blau-Duncan modell módosításában gondolkodtak, de értelemszerően a Treiman-modellen is bevezethetık javaslataik.
139
7. FEJEZET: SAJÁT ALKALMAZÁSOK
kékgalléros vezetı pozíciókba való juttatását (e pozitív diszkriminációt) gyakran legitimizálták utólag felnıttkori beiskolázásokkal. (2) A foglalkozásra direkt hatása van az apa iskolázottságának. Ez a „szocialista anomáliának” nevezett jelenség a negatív iskolai diszkrimináció hozadéka: a magas státuszú családokból származó utódok elıl bár az iskola, mint érvényesülési csatorna el volt zárva, a kulturális tıke és az érvényesülési törekvés átörökítése folytán más csatornákon ugyan, de mégis nagy számban sikerült érvényesülniük. A 22. ábra mutatja a két módosítás bevezetésével kapott láncgráf-modellt. Az 3.8. fejezetben kiderült, hogy a gráf bármely Markov-tulajdonság mellett ezt adja: J ⊥ F ' I ' | FI , tehát az eredeti Treiman-modellnél tágabb modell. A paraméterezéséhez szükséges, a gráf komponenseihez illeszkedı marginálisok a következık: I’F’, I’F’IF, I’F’IFJ. Az alábbi paraméterek értéke 0:
λII''JF∗' IFJ , λFI ''FJ ∗' IFJ . míg a szabad paraméterek a következık:
λ∗I ' F ' , λII∗' F ' IF , λFI '∗F ' IF , λJI ∗' F ' IFJ , ha I ', F ' ∉∗. Ismét elmondható, hogy sikerült rendezett módon dekomponálható, hierarchikus és teljes paraméterezést adnunk, ezért az minden, a 2.3. fejezetben említett elınyös tulajdonsággal rendelkezik.
22. ábra. A Treiman-modell módosítása Boguszak et al. (1990) alapján
Látható, hogy az elsı modell valóban tartalmazza a második modellt, hiszen az utóbbi kötött paraméterei az elıbbiben is 0-ra állítva szerepelnek, tehát egymásbaágyazott a két modell. Mint a 4.8. fejezetben láttuk, a valószínőség-hányados statisztika (L2) alkalmas eszköz egymásbaágyazott modellek összevetésére. Bár ismert, hogy az aszimptotikus p érték kevésbé megbízható akkor, ha a táblában kis elemszámú
140
7. FEJEZET: SAJÁT ALKALMAZÁSOK
cellák találhatók (mint ahogy a jelen esetben is), az L2 a modellek összevetésére azonban ilyenkor is alkalmas eszköz (Agresti, 2002, pp. 361.). A modellek összevetésére az ISSP 1992-es adatait használom, ebben az évben az eredeti modell mind az öt változójáról rendelkezésre állnak az adatok. Boguszak és társai eredeti vizsgálati tárgya, Csehszlovákia mellé kontrollként egy másik keleteurópai ex-szocialista államot (Magyarország), illetve kontrollként egy klasszikus liberális államot, az Egyesült Államokat vontam be az elemzésbe. A vizsgálati populációt a munkaerıpiacon jelen levı, havi jövedelemmel rendelkezı legalább 25 évesek alkotják. Az együttes eloszlásnak a statisztikai elemzésben problémát okozó üres cellái miatt a szokásosan alkalmazott 0,5-ös elemszámmal történı feltöltést végeztem (ezt az értéket adtam hozzá minden cellához, nem csak az üresekhez). Az elemzés során az adatbázisokhoz eredetileg hozzárendelt súlyokat használtam. A változók képzését az elızı alfejezethez hasonlóan végeztem. Az iskolázottság kategóriái: 1 „diplomás”, 2 „diploma nélküli”. A jövedelem kategóriánál az egyéni havi jövedelmet vettem számításba, mégpedig az eloszlás változásának és az inflációnak a hatását kiküszöbölendı a mediánt, mint küszöbértéket alkalmaztam; a két kategória: 1 ”medián felett”, 2 „medián alatt”. A kérdezett és az apa foglalkozásának definiálása az elızı fejezetben látott módon, az EGP foglalkozási presztízs skálához illeszkedı hármas foglalkozás-kategorizációval történt. A 9. táblázat tartalmazza az illeszkedéstesztek eredményét. Mindkét modell jól illeszkedik mindhárom ország adataihoz. Az 1. modell 2. modellel való összevetésében az illeszkedésromlás nem szignifikáns, még a két kelet-európai országban sem. Vagyis érdemes több megkötést alkalmazni, tehát az eredeti Treiman modell jobbnak tőnik a Boguszak és társai által ajánlottnál. 9. táblázat. Az ötváltozós modellek illeszkedéstesztjeinek eredményei
1. modell
2. modell
1. modell az 2.-hoz
42
30
42-30=12
L2
25,6
14,7
25,6-14,7=10,9
p
0,978
0,991
0,538
L2
38,1
23,3
38,1-23,3=14,8
p
0,643
0,802
0,253
L
38,8
25,5
38,8-25,5=13,3
p
0,614
0,700
0,348
Szabadságfok USA
Magyarország
Csehszlovákia
2
141
7. FEJEZET: SAJÁT ALKALMAZÁSOK
Érdemes lenne a jobbnak bizonyult modell paramétereinek becslését is megvizsgálni, ezzel az elızı fejezet kontextusába visszahelyezkedve Treiman modernizációs elmélete alapján egymáshoz képest értékelni a három ország mobilitási jegyeit. Az alábbi ábra az 1. modellhez tartozó, az élekhez rendelhetı (tehát kételemő hatáshoz tartozó) becsült paraméterértékeket mutatja be.
23. ábra. Az 1. modell paraméterbecslései, a dobozokban soronként felülrıl lefelé: USA, Magyarország, Csehszlovákia
A becslések jobb értelmezését teszi lehetıvé, ha kihasználjuk, hogy a (60) megfelelıje itt is alkalmazható, így a szülı-leszármazott feltételes asszociációk feltételhalmazából a nem-szülık elhagyhatók. Pl. az IF nyílon levı érték az IF hatáshoz tartozó paraméter, vagyis λIFI ' F ' IF becsült értékét mutatja, ami az apa jellemzıire (I’F’) korrigált feltételes IF kapcsolat becsült nagysága. Ám mivel értéke megegyezik λIFF ' IF -vel, az F2-vel ténylegesen kapcsolatban álló, csupán az F’-re korrigált hatásként is értelmezhetı. A paraméterek tendenciaszerő mintázatait interpretálva elmondható, hogy 1. a családi háttér az ex-szocialista országokban erısebben befolyásolja az iskolai végzettséget, mint Amerikában (I’I és F’I hatás elıbbiekben nagyobb), ugyanakkor 2. az iskolázottság ezekben az országokban foglalkozásnak (IF hatás), mint Amerikában,
fontosabb
meghatározója
a
3. a jövedelemet Amerikában a foglalkozás erısebben meghatározza (FJ hatás), mint a kelet-európai országokban,
142
7. FEJEZET: SAJÁT ALKALMAZÁSOK
4. végül: utóbbi államokban Amerikához képest kissé erısebb az iskolázottság közvetlen jövedelem-meghatározó szerepe (IJ hatás). Az 1., 3. és 4. szempont alapján Amerika a treimani értelemben modernizáltabb, mint a két kelet-európai ország, és csak a 2. szempont billenti utóbbiak felé a mérleget.
7.3 Klasszikus adatok, új modell: Sewell és Shah (1968) vizsgálata a felsıfokú továbbtanulásról Az alábbi fejezetben egy irányított körmentes gráf-modellt, egy 2-es típusú láncgráfhoz tartozó modellt, és az elıbbihez tartozó útmodellt vizsgálunk majd. Az adatok a mobilitáskutatás egyik alapmodelljéhez kapcsolódnak, és gyakran szerepelnek IKG-k példájaként, az itt bemutatott láncgráf-illesztés azonban újdonságot jelent. Az alábbi adatok Sewell és Shah (1968) klasszikus vizsgálatából származnak, azóta is gyakran használt példák kategoriális adatok elemzésében (Fienberg, 1980, Whittaker, 1990, Spirtes et al., 1993, Heckerman et al., 1999).53 A Wisconsin végzıs középiskolásainak egy mintáján felvett adatok a felsıfokú továbbtanulással kapcsolatos elhatározást és annak befolyásoló tényezıit írják le. A 3.8. fejezetben már említettem ezt a vizsgálatot, a hozzá kapcsolódó kutatási paradigmát, és a belıle késıbb kifejlıdı, a Blau-Duncan modellhez hasonlóan közismert Wisconsin-modellt. Említettem már a vizsgálat motivációját is: az elızı alkalmazásokban tárgyalt Blau-Duncan modell és variánsai, így a Treiman-modell is a státuszelérési folyamatot és benne az iskolázottságnak a családi háttér átörökítésében játszott közvetítı szerepét írják le, de nem jelenítenek meg olyan mechanizmusokat, melyek révén ebben a folyamatban a családi háttér hatása ténylegesen mőködik. Ezeknek a mechanizmusoknak a feltárása volt Sewell és Shah célja, amikor a családi erıforrások genetikai és szociálpszichológiai tényezıit is bevontak modelljükbe. A gyermekek számára fontos személyek hatásának (az alábbi modellben a szülıi biztatásnak) a megjelenítésével modelljük az iskolai teljesítmény mögött álló motivációk fontosságát hangsúlyozza.
10. táblázat. Sewell és Shah adatai (n=10.318). A: alacsony, AK: alsó-közép, FK: felsı-közép, F: felsı
Társadalmi háttér Nem
IQ
Szülıi biztatás
Férfi
A
Kisfokú
Felsıfokú tervek
A
igen nem Nagyfokú igen nem
AK 4 349 13 64
53
FK 2 232 27 84
F 8 166 47 91
4 48 39 57
Az itt tárgyalt elsı modell ill. a modell variánsai már szerepeltek a 3.8. fejezetben. Ugyanott kitértem a korábbi szerzık megközelítésmódjára is.
143
7. FEJEZET: SAJÁT ALKALMAZÁSOK
AK
Kisfokú
igen nem Nagyfokú igen nem
9 207 33 72
7 201 64 95
6 120 74 110
5 47 123 90
FK
Kisfokú
igen nem Nagyfokú igen nem Kisfokú igen nem Nagyfokú igen nem
12 126 38 54 10 67 49 43
12 115 93 92 17 79 119 59
17 92 148 100 6 42 198 73
9 41 224 65 8 17 414 54
Kisfokú
igen nem Nagyfokú igen nem Kisfokú igen nem Nagyfokú igen nem
5 454 9 44 5 312 14 47
11 285 29 61 19 236 47 88
7 163 36 72 13 193 75 90
6 50 36 58 5 70 110 76
Kisfokú
8 216 20 35 13 96 28 24
12 164 62 85 15 113 72 50
12 174 91 100 20 81 142 77
12 48 230 81 13 49 360 98
F
Nı
A
AK
FK
F
igen nem Nagyfokú igen nem Kisfokú igen nem Nagyfokú igen nem
Az elsı most vizsgált modellt (a 24. ábra bal oldali gráfját) keresı algoritmussal kapta Spirtes et al. (1990), az algoritmussal az összes szóba jöhetı IKG-t végignézve, a legjobban illeszkedı modellt keresve. Egyetlen megszorításuk az volt, hogy a változók idıbeli sorrendje a következı legyen: ({N, I, T}, S, F). A gráfot páronkénti Markovtulajdonság mellett értelmezve az alábbi modellt kapjuk: 1.modell: N ⊥ T , N ⊥ I | T , F ⊥ N | TIS .
(70)
A Spirtesék által használt algoritmus nem tudott dönteni a TI él irányáról, mert az él bármely irányítás mellett ugyanazokat a feltételes függetlenségeket (=ugyanazt a modellt) definiálja. Ezért a kézenfekvıbb T-I irányítás mellett döntöttek. Elképzelhetı az is ugyanakkor (ezt ık is megemlítik), hogy a köztük levı kapcsolatot egy közös, itt nem mért ok hozza létre. Én a láncgráf-modellek eszközének birtokában ezért azt 144
7. FEJEZET: SAJÁT ALKALMAZÁSOK
javaslom, hogy az élt irányítatlannak vegyük, és láncgráfra térjünk át. Az ábra jobb oldali gráfja így jön létre. Ez 2-es típusú láncgráf, hiszen az N nincs összekötve egyik komponensbelijével sem. A modell megfelel Fienberg (1980) koncepciójának is, aki a problémát két regressziós modellként fogta fel, az elsıben S a függı és NIT a magyarázó változók halmaza, a másodikban F a függı és a maradék négy a magyarázó változók halmaza.
24. ábra. Két modell a Sewell és Shah-féle adatokhoz
A gráfot 3-as típusú páronkénti Markov-tulajdonság mellett értelmezem majd, mert az elsı komponensben a feltételes függetlenségeket nem kívánom a komponens többi tagját feltéve értelmezni. Mivel a láncgráf-modellek ekvivalencia-tételei 1-es típusú gráfon voltak értelmezve, ezért nem tudható, hogy ez a páronkénti tulajdonság általános esetben ekvivalens-e a blokk-rekurzív tulajdonsággal. Egyedi esetben azonban a kérdés megválaszolható. Itt pl. a 3-as típusú blokk-rekurzív tulajdonság mellett a modell nem ekvivalens a páronkénti megfelelıjével, viszont ekvivalens az LWF-tulajdonság mellett értelmezett megfelelıjével, ezért nem érdemes külön vizsgálni. A 3-as típusú páronkénti tulajdonság mellett az alábbi modellt adja a gráf: 2. modell: N ⊥ T , N ⊥ I , F ⊥ N | TIS . Mint látható, a két modell feltételhalmazában különbözik. Mivel
(N ⊥ T
csak
a
középsı
feltételes
(71) függetlenség
és N ⊥ I | T ) ⇔ N ⊥ TI ⇒ N ⊥ I ,
az elsı modellhez tartozó állítások implikálják a másodikhoz tartozókat. Tehát a láncgráf-modellnek az IKG-modell almodellje. Az 1. modell paraméterezéséhez a 4.5. fejezet alapján pl. a következı marginálisok használhatók: N, NT, NTI, NTIS, NTISF. A 0-paraméterek az alábbiak: NT NTI NTISF λNT , λNI ∗ , λNF ∗ ,
míg a modellhez tartozó eloszlást paraméterezı szabad paraméterek:
145
7. FEJEZET: SAJÁT ALKALMAZÁSOK
λ*N , λTNT , λINTI , λTINTI , λSNTIS * , , N ∉∗. λFNTISF ∗ A 2. modell láncgráf modell, amiknek a paraméterezése általánosan még nem megoldott, de egyedi esetekben, mint ez a mostani is, adható jó paraméterezés. Az alábbi paraméterezés rendezett módon dekomponálható, hierarchikus és teljes paraméterezés, tehát minden, a 2.3. fejezetben említett elınyös tulajdonsággal bír. A felhasznált marginálisok: NT, NI, NTI, NTIS, NTISF. A null-paraméterek: NT NI NTISF λNT , λNI , λNF ∗ ,
míg a modellhez tartozó eloszlást paraméterezı szabad paraméterek: NTI λ∅NT , λTNT , λNNT , λINI , λTINTI , λNTI , λSNTIS ∗ ,
λFNTISF , N ∉∗. ∗ Vizsgáljuk meg végül azt is, valóban szükséges-e interakciókat feltételezni az elsı modell hatásai között, azaz vezessünk be útmodellt az 1. modellen! Ez egyszerően a háromnál nagyobb számosságú hatáshalmazt tartalmazó szabad paraméterek nullára állítását jelenti. Legyen ez a 3. modell. A modell értelmezhetı úgy (mint azt Goodman módosított útmodelljénél láttuk), hogy a nyilak hegyénél levı változók (szülıi biztatás ill. felsıfokú tervek), mint függı változók alkotta regressziós modellben a független (a nyilak kiindulásánál levı) változók között nincsen interakció. A modellek illeszkedését valószínőség-hányados próbával teszteljük. A 2. és az 1., ill. az 1. és a 3. modell közvetlenül összehasonlítható, mivel egymásbaágyazott modellek. Az eredményeket az alábbi táblázat mutatja: 11. táblázat. Az illeszkedéstesztek eredményei Modell
szabadságfok
L2
p
1. (irányított körmentes)
47
85,8
0.000
2. (láncgráf)
38
74,3
0.000
1. modell | 2. modell
9
11,5
0.243
3. (útmodell)
95
165,6
0.000
3. modell | 1. modell
48
79,8
0.003
Mivel az 1. modell a 2.-hoz képest nem rontja szignifikánsan az illeszkedést, a T és I közötti nyíl a vonalnál jobb megoldásnak mutatkozik. Az útmodell az 1. modellhez képest szignifikánsan rosszabbul illeszkedik, ezért szintén nem fogadható el. Az 1. modell tőnik a leginkább elfogadhatónak a három közül, de, mint láthatjuk, az ı illeszkedése is rossz. Tudjuk, hogy ezt a modellt Spirtes et al. (bizonyos kézenfekvı
146
7. FEJEZET: SAJÁT ALKALMAZÁSOK
elıfeltételek mellett) a legjobb IKG modellként választotta ki, tehát az is elmondható, hogy IKG modellel ezek az adatok nem írhatók le jól.
7.4 Szerhasználat amerikai fiatalok körében Ennek a fejezetnek a módszertani fontosságát az adja, hogy a nemegymásbaágyazott modellek összevetésére alkalmas BIC mutató használatára mutatok majd példát. Az alábbi táblázat (Agresti, 2002, pp. 361) egy 1992-ben, az Ohio állambeli Dayton városának Wright Egyetemén végzett felmérés eredményét mutatja be. Az adatok a nem (G) és rassz (R) szerint kategorizált végzıs hallgatók egy mintájának szerhasználati szokásaira vonatkoznak. A szerek között az alkohol (A), cigaretta (C) és marihuána (M) szerepel. Agresti (2002, pp. 362) irányítatlan gráffal modellezi az adatokat, azonban, mivel egyirányú kapcsolatok is feltehetık, a következıkben én irányított éleket is használok. Az alábbiakban az adatstruktúrát potenciálisan jól leíró modelleket veszem sorra, majd az adatokhoz való illeszkedésük alapján összehasonlítom ıket. Végül a legjobban illeszkedı modell mellett kapott paraméterbecsléseket is megadom.
12. táblázat. A daytoni adatok, n=2276
Alkohol igen nem
Cigaretta igen nem igen nem
Rassz=Fehér Nı igen 405 13 1 1
nem 268 218 17 117
Marihána használat Rassz=Egyéb Férfi Nı igen nem igen 453 228 23 28 201 2 1 17 0 1 133 0
nem 23 19 1 12
Férfi igen 30 1 1 0
nem 19 18 8 17
Egy lehetséges irányított körmentes gráfmodellt mutat be a 25. ábra (1. modell). Az egyes szerek fogyasztását azok “súlyossági foka” szerint rendezi, mintegy feltételezve, hogy a fogyasztó a könnyebbektıl halad a súlyosabbak felé. A demográfiai változók (nem és kor) az alkoholfogyasztást közvetlenül nem befolyásolják, csak a cigarettafogyasztáson keresztül. Hasonlóan, nincs közvetlen összefüggés a rassz és a marihuána-fogyasztás között.
147
7. FEJEZET: SAJÁT ALKALMAZÁSOK
25. ábra. Szerhasználat, 1. modell
Könnyő látni, hogy a gráfhoz a különbözı Markov-tulajdonságok ugyanazt a modellt definiálják. Válasszuk ezért pl. a lokális tulajdonságot, ami szerint G ⊥ R, A ⊥ RG | C, M ⊥ R | CAG. A paraméterezés az alábbi marginálisok mellett hierarchikus és rendezett módon dekomponálható lesz: R, RG, RGC, RGCA, RGCAM, tehát minden, a 2.3. fejezetben említett elınyös tulajdonsággal bírni fog. A két feltételes függetlenségnek megfelelı null-paraméterek: RG RGCA RGCA RGCAM λRG , λRA , ∗ , λGA∗ , λRM ∗
míg a szabad paraméterek: RGCA λ∗R , λGRG , λCRGC , λ ARGCA , ∗ , λ AC
, R ∉∗. λMRGCAM ∗ Egy másik szóba jöhetı modellként (2. modell) definiáljunk útmodellt az 1. modellhez, elhagyva a modell szabad paraméterei közül minden legalább harmadfokú hatást. Ezzel az alábbi paraméterek értékét írjuk elı 0-ként: RGC RGCAM RGCAM RGCAM RGCAM λRGC , λCAM , λGAM , λGCM , λGCAM .
A modell értelmezhetı úgy (lásd Goodman módosított útmodelljét), hogy a nyilak hegyénél levı változók (pl. a marihuána), mint függı változók alkotta regressziós modellben a független (a nyilak kiindulásánál levı) változók között nincsen interakció. A 3. modell (26. ábra) láncgráf-modell, az 1. modellhez képest azzal a változtatással, hogy irányítatlan kapcsolatot tételez fel az M és az A között, arra alapozva, hogy a marihuána fogyasztása is befolyásolhatja az alkoholfogyasztást. Itt az LWF és AMP Markov-tulajdonságok már más modellt definiálnak. Válasszuk az AMP tulajdonságot. Az adott gráf esetén az egyébként nem ekvivalens blokk-rekurzív és lokális Markov-tulajdonságok ugyanazt adják: G ⊥ R, A ⊥ RG | C, M ⊥ R | CG.
148
7. FEJEZET: SAJÁT ALKALMAZÁSOK
Látható, hogy a modell az 1. modelltıl csak az utolsó állítás feltételhalmazában különbözik.
26. ábra. Szerhasználat, 3. modell
A megfelelı marginálisokat a 4.6. fejezet végén leírt módon határozzuk meg: RG, RGC, RGCM, RGCA, RGCAM. A kötött paraméterek a következık: RG RGCA RGCA RGCM λRG , λRA ∗ , λGA∗ , λRM ∗ ,
míg a szabad paraméterek ezek: RGCA λ∅RG , λRRG , λGRG , λCRGC , λARGCA , ∗ , λ AC
, R ∉∗, λMRGCM ∗ RGCAM . λMA ∗
Könnyen belátható, hogy az utóbbi láncgráf-modell útmodell párja megegyezik a 2. modellel (ugyanazokat a kötött paramétereket tartalmazzák), így ezt külön nem kell definiálnunk: a 2. modellt a 3. modell útmodelljeként is tekinthetjük. A kötött paraméterekbıl is látható, hogy az így definiált modellek páronként egymásbaágyazottak, az alábbi tartalmazási relációkkal: 1. modell ⊇ 2. modell .
és 3. modell ⊇ 2. modell .
Mint a 4.8. fejezetben láttuk, a valószínőség-hányados statisztika (L2) alkalmas eszköz az egymásbaágyazott modellek összevetésére. Azonban pl. az 1. és a 3. modell, mivel nem egymásbaágyazottak, nem hasonlíthatók össze ezen a módon. Nemegymásbaágyazott modellek összevetésére a Bayes-féle Információs Kritériumot (Bayesian Information Criterion, BIC) használják gyakran. A BIC képlete a következı:
149
7. FEJEZET: SAJÁT ALKALMAZÁSOK
BIC = L2 − szabadságfok × ln ( n ) , ahol az n a mintanagyság. Két modell közül mindig az alacsonyabb BIC értékkel rendelkezı preferálandó. Látható, hogy a nagy L2 értékkel rendelkezı modellekhez a kötött paraméterek számával arányosan csökkentett BIC-érték tartozik, vagyis a kritérium a sok kötött paraméterrel rendelkezı, takarékos modelleket jutalmazza.
13. táblázat. Az illeszkedéstesztek eredményei Modell
szabadságfok
L2
p
BIC
1. (irányított gráf)
15
28,0
0,021
-87,9
2. (irányított útmodell)
20
31,3
0,051
-123,3
2. modell | 1. modell
5
3,3
0,654
-35,4
3. (láncgráf)
11
26,4
0,006
-58,6
2. modell | 3. modell
9
4,9
0,843
-64,7
Ha a 2. modellt az L2 segítségével összevetjük az 1. modellel, látható, hogy az illeszkedésromlás nem szignifikáns. Ugyanez igaz a 4. és a 2. modell összehasonlítására is. Vagyis a gráfok útmodellé alakítása ésszerőnek tőnik. A BIC alapján a 2. modell adja a legjobb modellt, és a valószínőséghányados próba szerint is egyedül ennek a modellnek az illeszkedése elfogadható. Tehát az adatokhoz egy útmodell illeszkedik a legjobban. Tovább is mehetünk, az útmodell egyes nyilaihoz tartozó hatásokról egyenként eldöntve, hogy azok elhagyhatók-e. Un. visszalépegetı elhagyást (backward elimination) használtam. Az elsı lépésben a 2. modellhez képest a λGCRGC paraméter elhagyása okozta a legkisebb illeszkedésromlást (DL2=0,03). Ennek elhagyása után a λRCRGC paraméter hagyható el (DL2=2,8). A további elhagyások már szignifikáns illeszkedésromlással járnak. A
modellhez tartozó szabad paraméterek: GCAM λ =λ λ ,λ , λ AM . Itt az elsı paraméter, mint látható, az RGCA helyett értelmezhetı a CA marginális mellett is, a 4.5. fejezetbeli (60) tétel alapján (ott már említettük, hogy a tétel elınye éppen ez: a szülı-gyerek hatások feltételhalmazából elhagyhatjuk azokat a csúcsokat, amelyek a gyereknek nem szülei). Tehát a szabad paraméterek a többszörös regressziós paraméterekhez hasonlóak: a többi szülıre korrigált szülı-gyerek hatások nagyságát adják. Az alábbi ábra mutatja be a szabad paraméterek becsléseit. Az ábrán csak a nem-redundáns paramétereket tüntettem fel. Mint látható, a nemnek csak gyenge hatása van a marihuána fogyasztására. A paraméter értéke negatív, ami azt jelzi, hogy inkább a férfiak hajlamosak a marihuána RGCA CA
végsı
CA CA ,
GCAM GM
GCAM CM
150
7. FEJEZET: SAJÁT ALKALMAZÁSOK
fogyasztásra. A cigarettázásnak a marihuána-fogyasztásra gyakorolt direkt és indirekt (alkohol-fogyasztáson keresztül érvényesülı) hatása is erısnek tőnik, és ugyancsak erıs az alkohol-marihuána kapcsolat is.
27. ábra. Szerhasználat, a legegyszerőbb modell, paraméterbecslések.
7.5 A demokráciával ill. az életszínvonallal való elégedettség kapcsolata, az MHP három hulláma alapján Az alábbi fejezet fontosságát az adja, hogy a marginális loglineáris modellek paneladatok elemzésére való alkalmasságát szemlélteti. Olyan modellek paraméterezésére is látunk példát, amelyek nem grafikus modellek, de feltételes függetlenségi állításokkal definiálhatók, így a disszertációban bemutatok keretek között elemezhetık. A panelvizsgálat több idıpontban (hullámban) ugyanazon a mintán, ugyanazzal a tematikával megismételt felmérések sorozata. A szokásos keresztmetszeti vizsgálatokkal szembeni elınye, hogy a változási folyamatok ténylegesen követhetık, nem csak valószínősíthetık. Pl. politikai preferenciavizsgálatok esetén az X párt szavazótáborának két különbözı hónapban mért csökkenése keresztmetszeti vizsgálat esetén létrejöhet egyszerően a véletlen folytán is - ha a mintába kevesebb X-párti került beválogatásra. Ezzel szemben panelvizsgálatnál, mivel ugyanazokat a személyeket kérdezzük minden hónapban, a szavazótábor csökkenése tényleges népszerőségvesztést jelent (a mintán belül biztosan, a populáción belül persze csak valószínősíthetıen). Ha viszont a keresztmetszeti vizsgálatban retrospektív (a múltra visszaemlékezı) adatokat próbálunk győjteni, a kérdezettek a múltbeli pártpreferenciáikra nem emlékszenek jól, különösen, ha az nem is létezett. Ugyanakkor a panelvizsgálatok rendkívül költségesek, munkaigényesek és a minta folyamatos lemorzsolódásával is számolni kell. Az (egyébként az utóbbi okok miatt nagyon ritka) magyarországi szociológiai panelvizsgálatok közül elsısorban a TÁRKI Magyar Háztartás Panelje érdemel említést tematikája és mintaelemszáma folytán. Rudas és Bergsma (2004) említi a marginális loglineáris modellek alkalmazási lehetıségei között a panelvizsgálatok példáját. Az alábbiakban grafikus modellel megfogható panelvizsgálati hipotézisekre is mutatok példát, ennek megfelelıen a disszertáció korábbi fejezeteiben részletezett módszertan közvetlenül alkalmazható 151
7. FEJEZET: SAJÁT ALKALMAZÁSOK
lesz. A grafikus modellekre történı visszavezetés lényege, hogy a különbözı (ti) idıpontokban mért ugyanazon V változót idıpontonként külön változóként (Vi-k) kezelem. Ez azért lehetséges, mert panelvizsgálat lévén ismert a Vi-k együttes eloszlása. Több idıpontban ismételt keresztmetszeti vizsgálat nem adna erre lehetıséget, ott az együttes eloszlás ismeretlen, csak a Vi marginális eloszlások adottak. Az alábbiakban olyan modellek is szerepelnek majd, amelyek bár gráf-modellek továbbspecifikálásával adódnak, nem fejezhetık ki közvetlenül gráf-modellel. Ugyanakkor feltételes függetlenségi állításokkal adhatók meg, ezért paraméterezésük kézenfekvı módon, az IKG modelleknél látott módszerbıl kiindulva elvégezhetı. Ilyen, nem-gráf modellt definiál az a gyakori panelvizsgálati hipotézis is, hogy a folyamat memóriája véges és csak a megelızı k hullámra emlékszik. Ilyenkor azt mondjuk, hogy k-rendő Markov-láncot tételezünk fel, miszerint a ti idıpontban mért változó(k) feltételes eloszlása csak a megelızı k idıpontban mért értékektıl függ. Ilyen hipotézisre is mutatok példát az alábbiakban. A modelleknek megfelelı eloszlás paraméterezésekor utalni fogok a „jó” paraméterezéssel szemben támasztott követelményekre (hierarchikusság, rendezett módon való dekomponálhatóság), látunk példát arra is, amikor ezek a követelmények nem teljesülnek. A Magyar Háztartási Panel 1993-as, 1995-ös és 1997-es hullámát használom fel, a minta azon részét kizárva, akiknél valamelyik vizsgált kérdésre valamelyik hullámban hiányzó válasz volt. A vizsgált változók a következık: d: a demokráciával, konkrétan a politikai beleszólás lehetıségével való elégedettség, bináris változóként (0: elégedett, 1: nem elégedett) s: a saját életszínvonallal való elégedettség, bináris változóként (0: elégedett, 1: nem elégedett) c: kohorsz-hovatartozás, három kategóriában, az elsı hullámban mért tercilisekkel (1: idısek, 2: középkorúak, 3: fiatalok). Vagyis nem életkorcsoportot használok, így ennek a változónak az értéke nem változik hullámonként. A változók kiválasztásának oka, hogy a politológusok a kelet-európai országokkal kapcsolatban a saját élethelyzettel való elégedettség és a demokráciapárti attitőd között általában szoros kapcsolatot tételeznek fel. Mivel a demokráciába/piacgazdaságba történı átmenet az egyes korosztályokat gazdaságilag másként érintette, vélhetıen az átmenet megítélése is generációnként képet mutat. Összesen hét változót definiáltam: d1, d2, d3, s1, s2, s3, c, az alsóindexben jelölve az 1-es, 2-es, 3-as hullámokat. Az együttes eloszlás kontingencia-táblája 192 cellás, 18 üres cellával. Az üres cellák megszőntetése céljával egy kis konstanst (0,5) adtam minden cellagyakorisághoz. Az alábbiakban a 28. ábra irányított körmentes gráfjából indulunk ki, vagyis az életszínvonallal való elégedettséget a demokrácia megítélése elé helyezzük kialakulási sorrendjét tekintve, és az ábra nyilaihoz rendelhetı hatásokra teszünk megkötéseket.
152
7. FEJEZET: SAJÁT ALKALMAZÁSOK
28. ábra. Panelvizsgálat, telített modell
1. modell: látszólagos függıség
Az elsı vizsgált modell az 18. ábra látott elsı gráffal (nem - képzés típusa elhelyezkedés sikeressége) bemutatott látszólagos függıség egy esete. A modell ezt a látszólagos függıséget teszteli a demokráciával való elégedettség és a kohorszhovatartozás kapcsolatában, egyformán mindhárom hullámban. A feltevés szerint a demokráciával való elégedettség generációs különbségei csak amiatt állnak elı, hogy az idısebbek elégedetlenebbek saját életszínvonalukkal, és az életszínvonallal való elégedetlenség beárnyékolja a demokrácia megélését is. A hipotézis a 28. ábra c-d nyilának elhagyásával kapható, és az alábbi irányított körmentes gráffal szemléltethetı:
A modell az irányított páronkénti Markov-tulajdonságot54 használva hullámonként így formalizálható: d1 ⊥ c | s1, d 2 ⊥ c | s 2, d 3 ⊥ c | s 3. A modellnek megfelelı eloszlás felparaméterezésekor használandó marginálisok az IKG-k paraméterezésénél látottak alapján: c, cs1 , cs1d1 , cs2 , cs2 d 2 , cs3 , cs3 d3 , cs1 s2 s3 d1d 2 d3
(72)
Ezekkel a marginálisokkal könnyen adható hierarchikus, rendezett módon dekomponálható és teljes paraméterezés. Az 1. tétel alapján a következı paraméterek értéke 0:
λcdcs11d1 , λcscs11dd11 , λcdcs22 d2 , λcscs22dd22 , λcdcs33d3 , λcscs33dd33 . A modell szabadságfoka 12, mert 6 paraméterre teszünk megkötést, és a hozzájuk tartozó hatás mindegyik esetben egyetlen háromértékő változót tartalmaz a binárisokon kívül, így mindegyikhez két nem-redundáns paraméterérték tartozik. A valószínőséghányados tesztstatisztika szerint a modell illeszkedése rossz (L2=27,07, p=0,008). 54
Ez pozitív eloszlás mellett ekvivalens a többi irányított Markov-tulajdonsággal, tehát nem tettem valódi megszorítást a páronkénti tulajdonság választásával.
153
7. FEJEZET: SAJÁT ALKALMAZÁSOK
Vagyis a demokráciához való viszony generációs különbségei valószínősíthetıen nem látszólagosak, nem magyarázhatóak az életszínvonal közbejövı hatásával.
2. modell: idıben állandó c-s hatás
A második modell szerint az életszínvonallal való elégedettség generációs különbségei nem változtak ’93 és ’97 között, vagyis konstans a (28. ábra c-s nyilához rendelhetı) marginális asszociáció. A (72) paraméterezést használhatjuk itt is, a modell formálisan az alábbi egyenlıséggel fejezhetı ki:
λcscs11 = λcscs22 = λcscs33 . Ezek a megszorítások nem definiálnak grafikus modellt, de, mivel az alábbi két lineáris megszorítással azonosíthatók:
λcscs11 − λcscs22 = 0, λcscs22 − λcscs33 = 0, a grafikus modellekhez hasonlóan 0-paraméterekkel definiálhatók, így a modell a 4.8. fejezetben bemutatott eljárással becsülhetı. A modell szabadságfoka 4, mert a két megkötéshez itt is két független paraméterérték tartozik. A valószínőség-hányados tesztstatisztika szerint a modell illeszkedése jó (L2= 2,34, p=0,674). Ezek szerint elfogadható, hogy a három hullám során állandó erısségő az életszínvonal megítélése és a kohorsz-hovatartozás közötti kapcsolat. Specifikáljuk tovább a modellt!
3. modell: idıben állandó s-d hatás
Vizsgáljuk meg a 28. ábra s-d nyilához rendelhetı hatás idıbeli állandóságát is! Most a 2-es modell továbbspecifikálásával, az életszínvonal ill. a demokrácia megítélése közötti, életkorra korrigált kapcsolat változatlanságának hipotézisével állítjuk fel modellünket. A paraméterezés itt is a (72) paraméterezéssel oldható meg, a modell a 2. modellhez tartozó megszorításokat az alábbiakkal kiegészítve adható meg:
λsd11dcs1 1 = λsd22dcs2 2 = λsd33dcs3 3 , azaz:
λsd11dcs1 1 − λsd22dcs2 2 = 0, λsd22dcs2 2 − λsd33dcs3 3 = 0. A modell szabadságfoka 6, hiszen a 2. modellhez 4 szabadságfok tartozott, amihez még 2 szabadságfok jött a két új (csak bináris változókat tartalmazó hatásokkal definiált paraméterekre vonatkozó) megszorításból. A valószínőség-hányados
154
7. FEJEZET: SAJÁT ALKALMAZÁSOK
tesztstatisztika szerint a modell illeszkedése jó (L2=2,40, p=0,880), sıt a 2. modellhez képest csak egészen kismértékő illeszkedésromlást okozott az újabb megkötés: L2(3. model3| 2. modell)= 0,07, p(3. modell|2. modell)=0,968. A 2. és 3. modellek egymásbaágyazott volta adott lehetıséget összehasonlításukkor a valószínőség-hányados próba használatára. Tehát a c-s és az s-d nyilakhoz tartozó asszociációk konstans voltának feltételezése elfogadható. Az eddigiek szerint az alábbi ábra szaggatott nyilaihoz tartozó hatások idıben állandó erısségőek:
Vizsgáljuk most meg a harmadik nyílhoz tartozó hatás idıben állandó voltát!
4. modell: idıben állandó c-d hatás
A 3. modell továbbspecifikálása a c és d közötti feltételes hatás konstans voltával. A paraméterezés ugyanaz mint (72)-ben, a modell a 3. modellhez képest az alábbi paraméter-megkötéseket is tartalmazza:
λcd11dcs1 1 = λcd22dcs2 2 = λcd33dcs3 3 , azaz:
λcd11dcs1 1 − λcd22dcs2 2 = 0, λcd22dcs2 2 − λcd33dcs3 3 = 0. A modell szabadságfoka 10 (a 3. modellé 6 volt, ehhez jön még a két megszorítás, amelyek háromértékő és bináris változót tartalmazó hatásokra vonatkoznak). A valószínőség-hányados tesztstatisztika szerint a modell illeszkedése jó (L2=8,93, p=0,539) és a 3. modellhez képest nem szignifikáns mértékő az illeszkedésromlás: L2(4. modell | 3. modell)=6,52, p(4. modell | 3. modell)=0,163. Vagyis a harmadik hatás konstans volta is elfogadhatónak tőnik. Ezek szerint a 28. ábra összes nyilához tartozó hatás idıben állandónak tételezhetı fel. Becsüljük meg a modellhez tartozó, kétváltozós hatásokhoz kapcsolódó szabad paramétereket!
λcscsii (1,0 ) =-0,009,
155
7. FEJEZET: SAJÁT ALKALMAZÁSOK
λcscsii ( 2,0 ) =-0,166. Ezekbıl következik, hogy a ci=3-hoz kapcsolódó paraméterérték 0,175, hiszen a ci=1, ci=2 és ci=3-hoz tartozó paraméterérték összege 0 kell, hogy legyen (si bármely rögzített értéke esetén). Mindhárom hullámban a fiatalok hajlamosabbak leginkább életszínvonaluk pozitív megítélésére, míg a középkorúak a legelégedetlenebbek. A második hatás becslése:
λsdi di csi i ( 0,0 ) =0,210, vagyis a két attitődváltozó között (az elızınél kissé erısebb) pozitív kapcsolat van: akik elégedettek az életszínvonalukkal, azok nagyobb eséllyel elégedettek a demokráciával is. Végül a harmadik hatás becslése:
λcdi di csi i (1,0 ) =-0,019, λcdi di csi i ( 2,0 ) =-0,041. A ci=3-hoz tartozó paraméterérték ismét könnyen adódik, értéke 0,060. Eszerint a fiatalok a legelégedettebbek a demokráciával, a középkorúak a legkevésbé, de ezek a generációs különbségek kisebbek, mint az életszínvonallal való elégedettség esetében. Építsük tovább a modellt, most egy Markov-tulajdonság bevonásával!
5. modell: 1-rendő Markov-lánc
A modell a 4. modell megszorítása, annak feltételezésével, hogy az életszínvonallal való elégedettség 1-rendő Markov-lánc, memóriája csak a megelızı állapotra terjed ki: s3 ⊥ s1 | s2 ,
(73)
vagyis (az 1. tétel szerint) 0 = λss33ss12 s1 = λss33ss22ss11 . Hogy ez a paraméter a paraméterezésnek része legyen, a modellnek megfelelı eloszlás felparaméterezésekor használandó marginálisokat az s1s2s3 marginálissal kell bıvíteni. Viszont könnyen belátható, hogy a (72)-ban látott marginális-sorba bárhova szúrjuk is be ezt a marginálist, az eredmény nem lesz rendezett módon dekomponálható. Például az alábbi módon: c, cs1, cs1d1, cs2, cs2d2, cs3, cs3d3, s1s2s3, cs1s2s3d1d2d3. az s1s2s3 metszete a korábbi maximális elemekkel s1s2s3, ez a halmaz viszont egyik korábbi halmaznak sem részhalmaza. Nehéz kérdés, hogy a (72) marginálisaival vagy
156
7. FEJEZET: SAJÁT ALKALMAZÁSOK
azok kibıvítése által hogyan definiálható a (73)-as feltételes függetlenség. Nem jelentene ilyen problémát pl. a legbıvebb feltétellel adott függetlenség megadása: s3 ⊥ s1 | s2 cd1d 2 d3 , mert ehhez nem kellene az eredeti marginálisokat bıvíteni Ezért most önmagában a (73)-mal adott Markov-lánc tesztelését végezzük el. Jegyezzük itt meg, hogy a modell klasszikus loglineáris modell, hiszen egyetlen marginális (s1s2s3) mellett definiálható. A modell szabadságfoka 2 (két nullparaméterünk van, bináris változókat tartalmazó hatásokkal). A valószínőség-hányados tesztstatisztika szerint a modell illeszkedése rossz (L2=71,94, p=0,000). Eszerint az életszínvonallal való elégedettséget nem csak a legutóbbi elégedettségi szint, hanem az az elıtti is befolyásolja, vagyis a folyamatnak legalább két lépés hosszú memóriája van. Vizsgáljunk meg most egy hasonló kérdést a demokráciával való elégedettséggel kapcsolatban is!
6. modell: d-nek nincs kapcsolata a korábbi s-ekkel
Láttuk, hogy a demokráciával való elégedettség pozitív kapcsolatban van az életszínvonal azonos hullámban mért értékelésével. Nézzük meg, van-e szignifikáns befolyása rá a életszínvonal korábbi hullámokban mért értékelésének! A 6. modell55 ennek megfelelıen az alábbi feltételes függetlenségi állításokkal állítható elı: d 3 ⊥ s 1 s 2 | s 3, d 2 ⊥ s 1 | s 2. A paraméterezés hierarchikus és rendezett módon dekomponálható lesz az alábbi marginálisokkal: s 1 s 2 d 2, s 1 s 2 s 3 d 3, s 1 s 2 s 3 d 2 d 3 . A paraméterek közül az alábbiak értékét állítjuk 0-ra: 0 = λdd33ss11s2 s3 = λdd33ss21s2 s3 = λdd33ss11ss22 s3 = λdd33ss11ss22ss33 = λdd33ss11ss32 s3 = λdd33ss21ss32 s3 = λdd22ss11ss22 = λdd22ss11s2 . A modell szabadságfoka 8. A valószínőség-hányados tesztstatisztika szerint a modell illeszkedése jó (L2=8,00, p=0,434). Vagyis elfogadhatónak tőnik, hogy a demokráciával való elégedettség csak az egyidejő életszínvonal-értékeléstıl függ.
55
Az 5. modellhez hasonlóan a 6. modellnek sem paraméterezhetı kézenfekvı módon a korábbi, 4. modellel vett metszete (a marginálisok uniója nem rendezhetı dekomponálható módon).
157
7. FEJEZET: SAJÁT ALKALMAZÁSOK
Szorítsuk meg most tovább a modellt az életszínvonal megítélésének kialakulására vonatkozóan!
7. modell: s-nek csak saját múltján keresztül van kapcsolata a korábbi d-ekkel
Eddig feltettük, hogy az életszínvonallal való elégedettség kialakulása megelızi a demokrácia megítélését. Ugyanakkor ez a sorrend nem nyilvánvaló, hiszen a demokráciában való csalódás is okozhat olyan pesszimista beállítódást, ami akár a saját helyzet megítélését is ronthatja. Az elıbbi hipotézis tesztelése az alábbi modellel történhet56: s 3 ⊥ d 1 d 2 | s 1 s 2, s 2 ⊥ d 1 | s 1, vagyis 0 = λdd11sd32 s1s2 s3 = λdd11dd22ss31s2 s3 = λdd21sd32 s1s2 s3 = λdd11sd32s1s1s2 s3 = λdd11dd22ss31ss12 s3 = λdd21sd32ss11s2 s3 = λdd11sd32ss21s2 s3 = = λdd11dd22ss31ss22 s3 = λdd21sd32ss21s2 s3 = λdd11sd32s1ss1s22 s3 = λdd11dd22ss31ss12ss23 = λdd21sd32ss11ss22 s3 = λdd11ss21s2 = λdd11ss11ss22 . A modell szabadságfoka 22 (14 új null-paraméter jött a 6. modellben adott 8-hoz). A valószínőség-hányados tesztstatisztika szerint a modell illeszkedése rossz (LR=58,04, p=0.000), tehát a korábbi demokrácia-megítéléstıl nem független a jelenlegi életszínvonal-megítélés, még a korábbi életszínvonal-megítéléseket figyelembe véve sem. Adjunk becslést ennek a kapcsolatnak az erısségére, a 6. modellnek megfelelı eloszlás alapján!
λdd11ss21s2 (0,0) = 0,116, λdd11sd32 s1s2 s3 (0,0) = 0,06, λdd21sd32 s1s2 s3 (0,0) = 0,09, eszerint az életszínvonal megítélésére pozitív hatása van a demokráciával való korábbi elégedettségnek, de ez az emlék felejtıdik: a korábban mért elégedettségnek (d1) kisebb hatása van, mint a késıbbinek (d2). 56
Az 5. és 6. modellhez hasonlóan a 7. modellnek sem paraméterezhetı kézenfekvı módon a korábbi, 4. modellel vett metszete (a marginálisok uniója nem rendezhetı dekomponálható módon).
158
8 FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS Az alábbiakban a 7.3 fejezetben bemutatott, Sewell és Shah továbbtanulási adataira definiált 1. modell programnyelvi megvalósítása következik. A modell változói a felsıfokú továbbtanulás (C, mint college plans) és annak meghatározó tényezıi, mint a nem (G, gender), intelligencia hányados (I), szülıi bíztatás (P, parental encouragement), és társadalmi háttér (S, social background).
8.1 Modellbecslés A modelleknek megfelelı eloszlás maximum-likelihood becslése Mathematica-ban íródott, Wicher Bergsma MLE függvényének57 felhasználásával. A program az alábbi egyenlet kifejezéseit használja: X = ct [ 0].Log ( at [ 0].Mt.n ) , ahol . a mátrixszorzás, X a fix paraméterek rögzített értékét tartalmazó, szabadságfok hosszú vektor (ez grafikus modellek esetén, mivel 0-ban rögzítünk paramétereket, mindig nullvektor). Az n a megfigyelt gyakoriságok vektora, ebbıl az Mt mátrixszal való szorzással kapjuk a megfigyelt marginálisokat. Az at[0] grafikus modellek esetén mindig identitásmátrix (Bergsma függvénye a grafikus modelleknél általánosabb marginális modellekre íródott, ahol ez a mátrix más is lehet). A ct[0] kontrasztmátrixszal történı szorzás adja meg a kívánt paraméterértékeket a marginálisok logaritmusának lineáris kombinációjaként. A program inputként ezt az öt kifejezést várja. A program outputja est, a becsült gyakoriságok vektora. A 7.3 fejezet 1. modelljét definiáló feltételes függetlenségek az alábbi nullparaméterek rögzítését kívánják meg: GS GSI GSIPC λGS , λGI * , λGC * .
S és I négyértékő, a többi bináris változó, ennek megfelelıen három-három ill. egy-egy független paraméter tartozik hozzájuk.
*A MEGFIGYELT GYAKORISÁGOK MEGADÁSA m={{4}, {349}, {13}, {64}, {9}, {207}, {33}, {72}, {12}, {126}, {38}, {54}, {10}, {67}, {49}, {43}, {2}, {232}, {27}, {84}, {7}, {201}, {64}, {95}, {12}, {115}, {93}, 57
A program elérhetı az interneten: http://www.uvt.nl/faculteiten/fsw/organisatie/departementen/mto/software2.html.print
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
{92}, {17}, {79}, {119}, {59}, {8}, {166}, {47}, {91}, {6}, {120}, {74}, {110}, {17}, {92}, {148}, {100}, {6}, {42}, {198}, {73}, {4}, {48}, {39}, {57}, {5}, {47}, {123}, {90}, {9}, {41}, {224}, {65}, {8}, {17}, {414}, {54}, {5}, {454}, {9}, {44}, {5}, {312}, {14}, {47}, {8}, {216}, {20}, {35}, {13}, {96}, {28}, {24}, {11}, {285}, {29}, {61}, {19}, {236}, {47}, {88}, {12}, {164}, {62}, {85}, {15}, {113}, {72}, {50}, {7}, {163}, {36}, {72}, {13}, {193}, {75}, {90}, {12}, {174}, {91}, {100}, {20}, {81}, {142}, {77}, {6}, {50}, {36}, {58}, {5}, {70}, {110}, {76}, {12}, {48}, {230}, {81}, {13}, {49}, {360}, {98}}; n=Flatten[m]; *Wicher Bergsma MLE függvénye Clear[MLE] MLE[n_, start_, g_, zeta_, Zt_, Mt_, X_] := Module [{MaxStepSize=1, MinStepSize=0.1, MaxError=1/10.^10, MaxIterations=100, dg, G, z, Ut, v, m, step, error, iterate}, Ut=NullSpace[Transpose[X]]; v[m_, step_]:= v[m, step]=Module[{mu, hm, Htm, Hm, lambda}, mu=Mt.m; hm=Ut.g[zeta[mu]]; Htm=(m*#1&) /@ (Ut.g’][zeta[mu]]*Zt[mu].Mt)); Hm=Transpose[Htm]; lambda=-Inverse[Htm.(Hm/m)].(Htm.(n/m-1)+hm); Log[m]+(step*(n-m+Hm.lambda))/m]; error[m_] := (v[m, 1]-Log[m]).(m*(v[m, 1]-Log[m])); iterate[m_, step_:MaxStepSize] := Module[{newm}, newm=Exp[v[m, step]]; Print[N[step], " ", error[newm]]; Which[ step < MinStepSize, Exp[v[m, MaxStepSize]], error[newm] > error[m], iterate[m, step/2], True, newm]]; Print["stepsize, error :"]; FixedPoint[iterate, start, MaxIterations, SameTest -> (error[#1] < MaxError & )]] t[pi_, {a_, c_, 0}] := pi; t[pi_, {a_, c_, i_}] := Exp[c[i-1].Log[a[i-1].t[pi, {a, c, i-1}]]]; T[pi_, {a_, c_, 0}] := IdentityMatrix[Length[pi]];
160
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
T[pi_, {a_, c_, i_}] := t[pi, {a, c, i}]* c[i-1].(a[i-1].T[pi, {a, c, i-1}]/ a[i-1].t[pi, {a, c, i-1}]) Null Clear[ct, at, zeta1, Zt1] << LinearAlgebra`MatrixManipulation`;
*AZ Mt MÁTRIX DEFINIÁLÁSA *1. marginális: GSIPC (128 cella) M1=IdentityMatrix[128]; *2. marginális: GSIP (64 cella) M2=ZeroMatrix[64, 128]; For[i=0, i < 64, i=i+1; M2[[i,2*i-1]]=1]; For[i=0, i < 64, i=i+1; M2[[i,2*i]]=1]; *3. marginális: GSP (16 cella) M3=ZeroMatrix[16, 128]; Do[M3[[i,12*Floor[(i-1)/2]+(i-1)*2+Mod[Ceiling[Mod[j, 4, 1]/2]+ Floor[(j-1)/4]*4, 16, 1]]]=1, {i, 1, 16}, {j, 1, 128}]; *4. marginális: GSI (32 cella) M4=ZeroMatrix[32, 128]; Do[M4[[i,j]]=1, {i, 1, 32}, {j, (i-1)*4+1, i*4}]; *5. marginális: GI (8 cella) M5=ZeroMatrix[8, 128]; Do[M5[[i,48*Floor[(i-1)/4]+(i-1)*4+Mod[Ceiling[Mod[j, 16, 1]/4]+ Floor[(j-1)/16]*16, 64, 1]]]=1, {i, 1, 8}, {j, 1, 128}]; *6. marginális: GS (8 cella) M6=ZeroMatrix[8, 128]; Do[M6[[i,j]]=1, {i, 1, 8}, {j, (i-1)*16+1, i*16}]; Mt=BlockMatrix[{{M1}, {M2}, {M3}, {M4}, {M5}, {M6}}];
161
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
*AZ at[0] MÁTRIX DEFINIÁLÁSA at[0]=IdentityMatrix[256]; *A paraméterek megadása, külön minden marginálisra és külön minden, a paramétert definiáló hatás-halmaz számosságra. Itt példaként csak a GSI marginálishoz tartozó paraméterezést ismertetem. *(v4*-gal jelöljük a paramétereket, a 4-es a 4. marginálishoz tartozást rövidíti. A * a paraméterhez tartozó változók GSIPC sorban kapott sorszámát ill. a változók értékeit jelöli, pl. v41131 az 1. (G) változó 1. értékéhez és a 3. (I) változó 1. értékéhez tartozik, GSI (1,1) -hez. azaz λGI data4=ZeroMatrix[3, 32]; Do[data4[[1,i]]=Ceiling[i/16], {i, 1, 32}]; Do[data4[[2,i]]=Ceiling[Mod[i, 16, 1]/4], {i, 1, 32}]; Do[data4[[3,i]]=Ceiling[Mod[i, 4, 1]], {i, 1, 32}]; empty4=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; empty4[[1,i]]=1]; empty4=empty4/VectorNorm[N[empty4[[1]]], 1]; p411=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[1,i]]==1, p411[[1,i]]=1]]; p411=p411/VectorNorm[N[p411[[1]]], 1]; p421=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[2,i]]==1, p421[[1,i]]=1]]; p421=p421/VectorNorm[N[p421[[1]]], 1]; p422=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[2,i]]==2, p422[[1,i]]=1]]; p422=p422/VectorNorm[N[p422[[1]]], 1]; p423=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[2,i]]==3, p423[[1,i]]=1]]; p423=p423/VectorNorm[N[p423[[1]]], 1]; p431=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[3,i]]==1, p431[[1,i]]=1]]; p431=p431/VectorNorm[N[p431[[1]]], 1]; p432=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[3,i]]==2, p432[[1,i]]=1]]; p432=p432/VectorNorm[N[p432[[1]]], 1]; p433=ZeroMatrix[1, 32];
162
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
For[i=0, i < 32, i=i+1; If[data4[[3,i]]==3, p433[[1,i]]=1]]; p433=p433/VectorNorm[N[p433[[1]]], 1]; ketelemu[x_, y_, v_, w_] := Module[{s}, s=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[x,i]]==y && data4[[v,i]]==w, s[[1,i]]=1]]; s=s/VectorNorm[N[s[[1]]], 1]; Evaluate[ToExpression[StringJoin["p4", ToString[x], ToString[y], ToString[v], ToString[w]]]]=s] Do[ketelemu[1, 1, k, j], {k, 2, 3}, {j, 1, 3}]; Do[ketelemu[2, m, k, j], {m, 1, 3}, {k, 3, 3}, {j, 1, 3}]; haromelemu[x_, y_, v_, w_, z_, q_] := Module[{s}, s=ZeroMatrix[1, 32]; For[i=0, i < 32, i=i+1; If[data4[[x,i]]==y && data4[[v,i]]==w && data4[[z,i]]==q, s[[1,i]]=1]]; s=s/VectorNorm[N[s[[1]]], 1]; Evaluate[ToExpression[StringJoin["p4", ToString[x], ToString[y], ToString[v], ToString[w], ToString[z], ToString[q]]]]=s] Do[haromelemu[1, 1, 2, j, 3, m], {j, 1, 3}, {m, 1, 3}] *egyelemő halmazokhoz tartozó paraméterek Do[s=StringJoin["p4", ToString[k], ToString[l], "-empty4"]; Evaluate[ToExpression[StringJoin["v4", ToString[k], ToString[l]]]]=Evaluate[ToExpression[s]], {k, 1}, {l, 1}]; Do[s=StringJoin["p4", ToString[k], ToString[l], "-empty4"]; Evaluate[ToExpression[StringJoin["v4", ToString[k], ToString[l]]]]=Evaluate[ToExpression[s]], {k, 2, 3}, {l, 1, 3}]; *kételemő halmazokhoz tartozó paraméterek Do[s=StringJoin["p4", ToString[k], ToString[l], ToString[m], ToString[n], "-", "v4", ToString[k], ToString[l], "-", "v4", ToString[m], ToString[n], "-empty4"]; Evaluate[ToExpression[StringJoin["v4", ToString[k],ToString[l], ToString[m], ToString[n]]]]= Evaluate[ToExpression[s]],{k, 1},{l, 1},{m, 2, 3},{n, 1, 3}]; Do[s=StringJoin["p4", ToString[k], ToString[l], ToString[m], ToString[n],"-", "v4", ToString[k], ToString[l], "-", "v4",
163
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
ToString[m],ToString[n], "-empty4"]; Evaluate[ToExpression[StringJoin["v4", ToString[k],ToString[l],ToString[m], ToString[n]]]]= Evaluate[ToExpression[s]],{k,2,2},{l,1,3},{m,3,3},{n, 1, 3}]; *háromelemő halmazhoz tartozó paraméterek Do[s=StringJoin["p4", ToString[k], ToString[l], ToString[m], ToString[n],ToString[r], ToString[t], "-", "v4", ToString[k], ToString[l], ToString[m], ToString[n], "-", "v4", ToString[k], ToString[l], ToString[r], ToString[t], "-", "v4", ToString[m], ToString[n], ToString[r], ToString[t], "-", "v4", ToString[k], ToString[l], "-","v4", ToString[m], ToString[n], "-", "v4", ToString[r], ToString[t], "-empty4"]; Evaluate[ToExpression[StringJoin["v4", ToString[k], ToString[l], ToString[m], ToString[n], ToString[r], ToString[t]]]]= Evaluate[ToExpression[s]],{k,1},{l,1},{m,2,2},{n,1,3},{r,3,3}, {t,1,3}]; *AZ X VEKTOR MEGADÁSA X=ZeroMatrix[47, 1]; *A ct[0] MÁTRIX MEGADÁSA *A GSIPC marginálishoz tartozó fix paraméterek megadása ct[1]=AppendColumns[v11151, v1114151, v1112151, v1112251, v1112351, v1113151, v1113251, v1113351, v111213151, v111213251, v111213351, v111223151, v111223251, v111223351, v111233151, v111233251, v111233351, v111214151, v111224151, v111234151, v111314151, v111324151, v111334151, v11121314151, v11122314151, v11123314151, v11121324151, v11122324151, v11123324151, v11121334151, v11122334151, v11123334151]; null1=ZeroMatrix[32, 128]; ct[1]=AppendRows[ct[1], null1]; *A GSI marginálishoz tartozó fix paraméterek megadása ct[2]=AppendColumns[v41131, v41132, v41133, v4112131, v4112132, v4112133, v4112231, v4112232, v4112233, v4112331, v4112332, v4112333]; null21=ZeroMatrix[12, 208];
164
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
null22=ZeroMatrix[12, 16]; ct[2]=AppendRows[null21, ct[2], null22]; *A GS marginálishoz tartozó fix paraméterek megadása ct[3]=AppendColumns[v61121, v61122, v61123]; null3=ZeroMatrix[3, 248]; ct[3]=AppendRows[null3, ct[3]]; ct[0]=AppendColumns[ct[1], ct[2], ct[3]];
*A BECSLÉST VÉGZİ MLE FÜGGVÉNY MEGHÍVÁSA zeta1[mu_] := t[mu, {at, ct, 1}]; Zt1[mu_] := T[mu, {at, ct, 1}]; est=MLE[n, n, Log, zeta1, Zt1, Mt, X]; stepsize, error : 1. 1.77868 1. 0.00564231 1. 3.595894875865832^-7 1. 4.2265604340836644^-10 1. 1.7263617907216004^-12 1. 7.629174052500964^-15 kk=Transpose[{n, est}]; Export["model1.csv", kk]; *ellenırzés. kell: az X vektor jó közelítéssel nullvektor. ct[1].Log[at[0].Mt.est] {1.9082·10-17, -8.67362·10-18, 5.72459·10-17, 1.26635·10-16, -7.45931·10-17, 6.41848·10-17, 5.0307·10-17, 3.64292·10-17, -2.94903·10-17, -4.33681·10-17 -5.72459·10-17, 9.54098·10-17, -1.96024·10-16, 9.54098·10-17, 2.13371·10-16, 6.07153·10-17,-3.64292·10-17, -1.92554·10-16, 7.11237·10-17, -1.9082·10-17, 9.19403·10-17, 7.80626·10-17, -7.45931·10-17, 2.2031·10-16, 3.98986·10-17, 4.68375·10-17, 9.54098·10-17, -2.94903·10-17, 5.20417·10-18, -2.23779·10-16, 6.76542·10-17, 4.68375 10-17}
165
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
8.2 Illeszkedésteszt A modell valószínőséghányados próbával történı illeszkedéstesztje szintén Mathematica-ban készült, az elızı program folytatásaként. Output: a tesztstatisztika értéke és a p érték. *n és est mint fent: a megfigyelt és becsült gyakoriságok. << Statistics`ContinuousDistributions`; lr=2*n*Log[n/est]; one=Table[i/i,{i,128}]; test=lr.one 85.8192 *a modell szabadságfoka 47 1-CDF[ChiSquareDistribution[47],test] 0.000468856 *ez a p érték.
8.3 Paraméterbecslés A modellnek megfelelı eloszláshoz tartozó szabad paraméterek kiszámítása SPSS 15.0-ban készült el, mert ez feladat ebben a programcsomagban nagyon könnyen megvalósítható. A modell paraméterezése (lásd a 7.3. fejezetet) a G, GS, GSI, GSIP, GSIPC marginálisok mellett történik, az alábbi példában a GSI marginálishoz tartozó szabad paraméterek értékét számítjuk ki, azaz az alábbiakat:
λIGSI , λSIGSI . Az SPSS Hierarchical Loglinear Model parancsa λ, General Loglinear Model parancsa µ paraméterezésnek megfelelıen ad paraméterbecslést. Bár ezek a procedúrák marginális loglineáris paraméterezésre nem használhatók, marginálisonként különkülön telített modellt definiálva kiszámíthatjuk segítségükkel az egyes paramétereket. A Mathematica-ból való áttérés után cellánként aggregált adatbázis használata a kézenfekvı, ezért az est változóval, azaz a becsült gyakoriságokkal való súlyozás szükséges. A GSI marginálisra a Hierarchical Loglinear Model procedúra az alábbi módon hívandó meg (a cellák δ–val, alapbeállításként 0,5-tel történı simítása felülírandó):
166
8. FEJEZET, FÜGGELÉK: SZÁMÍTÁSTECHNIKAI MEGVALÓSÍTÁS
WEIGHT BY est . HILOGLINEAR g(1 2) s(1 4) i(1 4) /CRITERIA DELTA(0) /PRINT=ESTIM . A program csak a nem redundáns paramétereket jeleníti meg, mindig a változók utolsó értékét elhagyva. A többi marginálishoz tartozó szabad paraméter kiszámítása hasonlóan, marginálisonként külön történik.
167
9 IRODALOM Agresti, A. (2002): Categorical data analysis. Wiley. Andersson, S. A., Madigan, D., Perlman, M. D. (2001): Alternative Markov properties for chain graphs. Scandinavian Journal of Statistics, 28, 33-85. Andersson, S. A., Madigan, D., Perlman, M. D. (1997): On the Markov equivalence of chain graphs, undirected graphs, and acyclic digraphs. Scandinavian Journal of Statistics, 24, 81-102. Andor, M., Liskó, I. (2000): Iskolaválasztás és mobilitás. Budapest: Iskolakultúra Kiadó. Andorka, R., Bukodi, E. and Harcsa, I. (1994): Társadalmi mobilitás, 1992. In Andorka, R., Kolosi, T., Vukovich, Gy. (szerk.): Társadalmi Riport. Budapest: Tárki, 293-310. Andorka, R. (1995): A társadalmi mobilitás félévszázados trendjei Magyarországon. In: Andorka, R., Hradil, Peschar: Társadalmi rétegzıdés. Budapest: Aula, 393-427. Andorka, R., Simkus, A. (1983): Az iskolai végzettség és a szülıi család társadalmi helyzete. Statisztikai szemle, 6: 592-611. Beller, E., Michael Hout, M. (2006): Welfare states and social mobility: How educational and social policy may affect cross-national differences in the association between occupational origins and destinations. Research in Social Stratification and Mobility, 24: 353–365. Bergsma, W. (1997): Marginal models for categorical data. Tilburg: Tilburg University Press. Bergsma, W., Rudas, T. (2002): Marginal models for categorical data. The Annals of Statistics, (30/1), 140-159. Bishop, Y. V. V., Fienberg, S. E., Holland, P. W. (1975): Discrete Multivariate Analysis. MIT Press, Cambridge, MA. Blau, P. M, Duncan, O. D. (1967): The American Occupational Structure. New York: Wiley and Sons. Boudon, R. (1974): Education, Opportunity and Social Inequality: Changing Prospects in Western Society. New York: Wiley Breen, R., Luijkx, R. (2004): Conclusions. In: Breen, R. (szerk.): Social Mobility in Europe. Oxford: Oxford University Press, 383-446.
9. FEJEZET: IRODALOM
Boguszak, M., Gabal, I., Matějů, P. (1990): Ke koncepcím vývoje sociální struktury v ČSSR. Sociologický časopis (26/3), 168- 186. Bukodi E. (1995): Az iskolázottsági esélyek alakulása. Budapest: Központi Statisztikai Hivatal. Bukodi E. (2001): A nemzedékek közötti mobilitás alakulása 1983 és 2000 között. Budapest: Központi Statisztikai Hivatal. Bukodi, E. (2003): Társadalmi rétegzıdés, mobilitás. In: uı (szerk.): Társadalmi helyzetkép 2002. Budapest: Központi Statisztikai Hivatal. Colclough, G., Horan, P. M. (1983): The Status Attainment Paradigm: An Application of a Kuhnian Perspective. In: The Sociological Quarterly, Vol. 24, 25-42. Cox, D. R., Wermuth, N. (2001): Some statistical aspects of causality. European Sociological Review, 17(1): 65–74. Cox, D.R., Wermuth, N. (1993). Linear dependencies represented by chain graphs (with discussion). Statistical Science, 8, 204-218; 247-277. Cox, D.R., Wermuth, N. (1996). Multivariate Dependencies – Models, Analysis and Interpretation. London: Chapman & Hall. Cox, D. R., Wermuth, N. (2004): Causality: a statistical view. International Statistical Review, (72/3), 285-305. Dawid, A. P. (1979): Conditional independence in statistical theory. Journal of the Royal Statistical Society 41B 1-31. Dawid, A. P. (1980): Conditional independence for statistical operations. Annals of Statistics, 8: 598–617. Dessens, J., Jansen, W., Ringdal, K. (1995): Log-linear models in Comparative Research: A Paradigm Lost? European Sociological Review 11:261-271. DiPrete, Th. A., Grusky, D. B. (1990): Structure and Trend in the Process of Stratification for American Men and Women. American Journal of Sociology, 96:10743. Drton, M. (2008). Discrete chain graph models. Bernoulli, közlésre elfogava. Drton, M., Sullivant, S. (2007): Algebraic statistical models. Statistica Sinica, 17: 1273–1297. Duncan, O. D., Featherman, D. L., Duncan, B. (1968): Socioeconomic Background and Occupational Achievement: Extensions of a Basic Model. Washington, D. C. U. S. Department of Health, Education, and Welfare, Office of Education, Bureau of Research.
169
9. FEJEZET: IRODALOM
Duncan, O. D. (1966). Methodological Issues in the Analysis of Social Mobility. In: Smelser, N. J., Lipset, S. M. (szerk): Social Structure and Mobility in Economic Development. Chicago: Aldine, 51-97. Erikson, R.; Goldthorpe, J.H. (1992): The Constant Flux. Oxford: Calderon. Featherman, D. L., Jones, F. L., Hauser, R. M. (1975): Assumptions of social mobility research in the U.S.: The case of occupational status. Social Science Research, 4:329-360. Featherman, D. L. (1981): Social Stratification and Mobility. Two Decades of Cumulative Social Science. The American Behavioral Scientist 24, 3, 364-385 Fienberg, S. E. (1970): The analysis of multidimensional contingency tables. Ecology, 51, 419-433. Fienberg, S. E. (1980): The Analysis of Cross-classified Categorical Data. 2nd Edition. Cambridge, MA.: M.I.T. Press. Firth, D. (2005): Some Topics in Social Statistics. In: Davison, A. C., Dodge, Y., Wermuth, N. (szerk.): Celebrating Statistics: Papers in Honour of Sir David Cox on his 80th Birthday Oxford: Oxford University Press. Freedman, D. (2001): On Specifying Graphical Models for Causation, and the Identification Problem. University of California, Berkeley, Statistical Technical Reports, 601. Freedman, D. (1997): From association to causation via regression. Advances in Applied Mathematics (18/1), 59-110. Frydenberg, M. (1990a): The chain graph Markov property. Scandinavian Journal of Statistics. 17, 333-353. Frydenberg, M. (1990b) Marginalization and collapsibility in graphical interaction models. Annals of Statistics, 18, 790-805. Ganzeboom, H. B. G.; Treiman, D. J.; Ultee, W. C. (1991): Comparative Intergenerational Stratification Research: Three Generations and Beyond. Annual Review of Sociology, 17: 277-302. Gazsó, F. (1997): A társadalmi folyamatok és a felsıoktatás. Eszmélet 35. szám Gazsó, F., Laki, L. (2004): Fiatalok az újkapitalizmusban. Budapest: Napvilág Kiadó. Geiger, D. and Pearl, J. (1988). Logical and algorithmic properties of conditional independence. Technical Report R-97, Cognitive Systems Laboratory, University of California, Los Angeles.
170
9. FEJEZET: IRODALOM
Glonek, G. J. N., McCullagh, P. (1995): Multivariate logistic models. Journal of the Royal Statistical Society, Ser. B, 57, 533-546. Goldthorpe, J. H. (1996): Problems of “Meritocracy”. In: Erikson, R. és Jonsson, J.O. (szerk.): Can Education Be Equalized? The Swedish Case in Comparative Perspective. Colorado: WestviewPress, 255-88. Goodman, L.A. (1973): The analysis of multidimensional contingency tables when some variables are posterior to others: a modified path analysis approach. Biometrika, 60, 179-192. Heckerman, D., Meek, C., Cooper, G. (1999): A Bayesian Approach to Causal Discovery. In Glymour, C., Cooper, G. (szerk.): Computation, Causation, and Discovery. p. 141-165. Cambridge, MA: MIT Press. Heckman, J. J. (1978): Dummy Endogenous Variables in a Simultaneous Equation System. Econometrica, 46/4, 931-959. Jonsson, J. O. (1992): Towards the Merit-Selective Society? Stockholm: Swedish Institute for Social Research. Kelley, J. (1990): The failure of a paradigm: Log linear models of social mobility. In , Modgil, C. (szerk.): John Goldthorpe: Consensus and Controversy London, England: Falmer Press, 319-46. Kertesi, G., Kézdi, G. (2004): Általános iskolai szegregáció – okok és következmények. Budapesti Munkagazdaságtani Füzetek, BWP. 2004/7. Kézdi, G. (2002): Two Phases of Labor Market Transition in Hungary: InterSectoral Reallocation and Skill-Based Technological Change. Budapest Working Papers on the Labour Market 3. szám. Budapest: MTA KTK és BKÁE Kolosi, T., Róbert, P. (2004): A magyar társadalom szerkezeti átalakulásának és mobilitásának fıbb folyamatai a rendszerváltás óta. In: Kolosi T., Tóth I. Gy. és Vukovich Gy. (szerk.): Társadalmi Riport 2004. Budapest: TÁRKI, 48-74. Kovács K., Hablicsek L. (2006): Iskolázottság és halandóság. Budapest: Egészségügyi Stratégiai Kutatóintézet. Kuha, J. and Goldthorpe, J. H. (2007). Path analysis for discrete variables: Education as mediator of social mobility in Britain. Research Report 144, Department of Statistics, London School of Economics. Kurz, K., Müller, W. (1987): Class mobility in the industrial world. Annual Review of Sociology, 13, 417-442.
171
9. FEJEZET: IRODALOM
Lauritzen, S. L., Spiegelharter, D. J. (1988): Local computations with probabilities on graphical structures and their application to expert systems (with discussion). Journal of the Royal Statistical Society, Series B, 50, 157-224. Lauritzen, S. L., Dawid, A. P., Larsen, B. N., Leimer, H.-G. (1990): Independence properties of directed Markov fields. Networks, 20, 491-505. Lauritzen, S. L. (1996): Graphical Models. Oxford: Clarendon Press. Lauritzen, S. L., Richardson, T. S. (2002): Chain graph models and their causal interpretation (with discussion). Journal of the Royal Statistical Society, Series B, 64 , 321 - 361. Lauritzen, S. L., Wermuth, N. (1989): Graphical models for association between variables, some of which are qualitative and some quantitative. Annals of Statistics, 17, 31-57. Levitz, M., Madigan, D., Perlman, M. D. (2001): Separation and Completeness Properties for Amp Chain Graph Markov Models. Annals of Statistics, 29/6, 17511784. Lipset, S. M., Zetterberg, H. L. (1959). Social mobility in industrial societies. In: Lipset, S. M., Bendix, R. (szerk.): Social Mobility in Industrial Society (pp. 11-75). Berkeley: University of California Press. Luijkx, R., Róbert, P., de Graaf, P. M., Ganzeboom H. B. G. (1995): A származástól a teljesítményig: A státuszmegszerzés folyamata Magyarországon. Szociológiai Szemle, 4: 3-27. Luijkx, R., Róbert, P., de Graaf, P. M., Ganzeboom, H. B. G. (2002): Changes in Status Attainment in Hungary between 1910-1989. European Societies, 4 (1): 107-140. Mare, R. D. (1981): Change and Stability in Educational Stratification. American Sociological Review, 46: 72-87 Meek, C. (1995): Strong Completeness and Faithfulness in Bayesian Networks. In: Besnard, P., Hanks, S. (szerk.): Uncertainty in Artificial Intelligence, 11., Morgan Kaufmann Publishers, Inc., San Mateo, 411-418. Muthén, B. O. (1983): Latent variable structural equation modeling with categorical data. Journal of Econometrics, 22: 43-65. Muthén, B. O. (1984): A general structural equation model with dichotomous, ordered categorical and continuous latent variable indicators. Psychometrika, 49: 115132. Németh, R. (2004): An application of marginal log-linear models to examine changes in social mobility in Hungary during the transition period. In Recent
172
9. FEJEZET: IRODALOM
Developments and Applications In Social Research Methodology. Proceedings of the RC33 Sixth International Conference on Social Science Methodology, (RC33), Amsterdam. Németh, R. (2006a): Grafikus modellek kategoriális adatokon társadalomtudományi alkalmazással. In: Némedi, D., Somlai, P., Szabari, V., Szikra, D. (szerk.) Kötı-jelek. Az Eötvös Loránd Tudományegyetem Szociológia Doktori Iskolájának Évkönyve. Németh, R., Rudas, T., Bergsma, W. (2006): Analyzing categorical data with graphical models - a social science application. SMABS-EAM (Society for Multivariate Analysis in the Behavioural Sciences, European Association of Methodology) konferencia, Budapest. Németh, R. (2006b): A társadalmi mobilitás változásai Magyarországon a rendszerváltás folyamán. Szociológiai Szemle, 2006/4, 19-35. Németh, R. (2007): Changes in social mobility in Hungary during the transition period. Review of Sociology, Vol 13, No. 1, 49-66. Az elızı cikk angol nyelvő változata. Pachter, L., Sturmfels, B. (2005): Algebraic statistics for computational biology. Cambridge University Press, New York. Pearl, J. (1988): Probabilistic reasoning in expert systems. Morgan Kaufman, San Mateo. Pearl, J. (1993) On the Statistical Interpretation of Structural Equations UCLA Cognitive Systems Laboratory, Technical Report (R-200). Pearl, J. (1995): Causal diagrams for empirical research. Biometrika, (82/4), 669710. Richardson, T. (2003): Markov Properties for Acyclic Directed Mixed Graphs. Scandinavian Journal of Statistics 30, Vol 30: 145-157. Róbert, P. (2004): Iskolai teljesítmény és társadalmi háttér nemzetközi összehasonlításban. In.: Kolosi, T., Vukovich, Gy., Tóth, I. Gy. (szerk.): Társadalmi Riport 2004. Budapest: Tárki, 193-205. Róbert, P., Bukodi, E. (2004): Changes in Intergenerational Class Mobility in Hungary, 1973–2000. In: Breen, R. (szerk.): Social Mobility in Europe. Oxford: Oxford University Press, 287-315. Rogoff-Romsoy, N. (1966): Changes in rates and form of mobility. In: Smelser, N. J., Lipset, S. M. (szerk.): Social Structure and Mobility in Economic Development. Chicago: Aldine, 213-234.
173
9. FEJEZET: IRODALOM
Rudas, T., Bergsma, W., Németh, R. (2006): Parameterization and estimation of path models for categorical data. In: Rizzi, A., Vich, M. (szerk.) COMPSTAT 2006 Proceedings in Computational Statistics, Physica-Verlag, 383-394. Rudas, T., Bergsma, W., Németh, R. (2009): Markov marginal models for categorical data. (kézirat) Rudas, T., Bergsma, W. (2004): On application of marginal models for categorical data. Metron, (62/1), 1-23. Rudas, T: (1998): Odds Ratios in the Analysis of Contingency Tables. Thousand Oaks: Sage. Sewell, W., Shah, V. (1968): Social Class, Parental Encouragement and Educational Aspirations. American Journal of Sociology, 73: 559−572. Shavit, Y., Müller, W. (szerk.) (1997): From School to Work: A Comparative Study of Educational Qualifications and Occupational Destinations. Oxford: Oxford University Press. Simkus, A. (1981): Comparative stratification and mobility. International Journal of Comparative Sociology 22 (3): 213-236. Sorokin, P.A. (1964): Social and Cultural Mobility. Chicago: Free Press. Stillman, M. (2005): Tools for computing primary decompositions and applications to ideals associated to Bayesian networks. In: Solving Polynomial Equations. Foundations, Algorithms and Applications, Volume 14 of Algorithms and Computation in Mathematics, Springer-Verlag, 203-239. Spirtes, P., Glymour, C., Scheines, R. (1993): Causation, Prediction, and Search. Springer-Verlag, New York, 149-150. Studený, M. (1992): Conditional independence relations have no finite complete characterization. In: Transactions of the 11th Prague conference on information theory, statistical decision functions and random process. Academia: Prague, 377-96. Studeny, M. and Bouckaert, R. R. (1998). On chain graph models for description of conditional independence structure. Annals of Statistics, 26, 1434-1495. Székelyi, M., Csepeli, Gy., Örkény, A., Szabados, T. (1998): Válaszúton. Budapest: Új Mandátum. Treiman, D. J. (1970): Industrialization and social stratification. In Laumann, E. O. (szerk.): Social Stratification, Research and Theory for the 1970s. Indianapolis: BobbsMerill, 207-34. Magyarul in Róbert, P. (szerk.): Társadalmi mobilitás: hagyományos és új megközelítések. Budapest: Új Mandátum Könyvkiadó, 1998, 86-111.
174
9. FEJEZET: IRODALOM
Treiman, D.J., Yip, K-B. (1989): Educational and Occupational Attainment in 21 Countries. In: Kohn, M.L. (szerk.): Cross-national research in sociology. Newbury Park: Sage, 373-394. Treiman, D. J., Ganzeboom, H. B. G. (2000): The Fourth Generation of Comparative Stratification Research. In: Quah, S. és Sales, A. (szerk.): The International Handbook of Sociology. Thousand Oaks, CA: Sage, 123-150. Verma, Th., Pearl, J. (1990): Equivalence and synthesis of causal models. In Uncertainty in Artificial Intelligence, Proceedings of the Sixth Conference, pp. 220227. San Francisco: Morgan Kaufman. Vermunt, J.K. (1997). Log-linear models for event histories. Thousand Oakes: Sage Publications. Wermuth, N., Lauritzen, S. L. (1990). On Substantive Research Hypotheses, Conditional Independence Graphs and Graphical Chain Models. Journal of the Royal Statistical Society. Series B, Vol. 52, No. 1, pp. 21-50. Wermuth, N. (2003). Analysing social science data with graphical Markov models. In: Green, P., Hjort, N. és Richardson, S. (szerk.): Highly Structured Stochastic Systems. Oxford: University Press, 47-52. Wermuth, N. & Cox, D.R. (1992). Graphical models for dependencies and associations. In: Dodge, Y. & Whittaker, J. (szerk.): Computational Statistics. (Vol. 1), Heidelberg: Physica, 235-247. Wermuth, N. & Cox, D.R. (2004). Joint response graphs and separation induced by triangular systems. Journal of the Royal Statistical Society B, 66, 687-717. Wermuth, N. (2005). Graphical chain models. In: Everitt, B. és Howell, D. C. (szerk.): Encyclopedia of Behavioral Statistics, II. Chichester: Wiley, 755-757. Whittaker, J. (1990): Graphical Models in Applied Multivariate Statistics. John Wiley & Sons. Winship, C., Mare, R. D. (1983): Structural equations and path analysis for discrete data. American Journal of Sociology, 89: 54-110. Xie, Y. (1989). Structural Equation Models for Ordinal Variables. An Analysis of Occupational Destination. Sociological Methods & Research, Vol. 17, No. 4, 325-352. Xie, Y. (1992): The log-multiplicative layer effect model for comparing mobility tables. American Sociological Review, 57: 380-95. Xie, Y., Goyette, K. (2003). Social Mobility and Educational Choices of Asian Americans. Social Science Research 32:467-498.
175
9. FEJEZET: IRODALOM
Yamaguchi, K. (1983). The Structure of Intergenerational Occupational Mobility: Generality and Specificity in Resources, Channels, and Barriers. American Journal of Sociology Vol. 88, No. 4: 718-745.
176
10 FELHASZNÁLT ADATBÁZISOK Életmód és idımérleg-vizsgálat Magyarországon 1999-2000. Budapest: TÁRKI Adatbank. International Social Survey Programme, Social Inequality II, 1992. Köln: GESISZA. TÁRKI Magyar Háztartás Panel II. hullám, 1993. Budapest: TÁRKI Adatbank. TÁRKI Magyar Háztartás Panel IV. hullám, 1995. Budapest: TÁRKI Adatbank. TÁRKI Magyar Háztartás Panel VI. hullám, 1997. Budapest: TÁRKI Adatbank. Társadalmi mobilitás Magyarországon 1983. Budapest: TÁRKI Adatbank. Társadalmi mobilitás Magyarországon 1992. Budapest: TÁRKI Adatbank.
11 ÁBRÁK JEGYZÉKE 1. ábra. Egy gráf-modell (I: iskolázottság, F: foglalkozás, I’: apa iskolázottsága, F’: apa foglalkozása) ........................................................................................................ 43 2. ábra. 1-es típusú láncgráf, és a gráf komponensei .................................................... 46 3. ábra. 2-es típusú láncgráfok, t1át2át3át4............................................................ 46 4. ábra. Ugyanahhoz az IG-hez rendelhetı 2-es típusú LG-k, t1át2át3 ................... 47 5. ábra. Ugyanahhoz az IKG-hez rendelhetı 2-es típusú LG-k, t1át2át3................. 48 6. ábra. Az általános, illetve az 1-es ill. 2-es típusú láncgráfokon, valamely Markovtulajdonsággal definiált modellosztályok tartalmazási viszonya (sötét háttér: nemüres, fehér háttér: nem ismert, hogy üres-e) .................................................. 59 7. ábra. Egy láncgráf ..................................................................................................... 61 8. ábra. Ötváltozós státuszelérési modell, láncgráf modellel (I: iskolázottság, F: foglalkozás, I’: apa iskolázottsága, F’: apa foglalkozása, J: jövedelem).............. 71 9. ábra. Az eredeti Blau-Duncan modell (1967), és annak Boguszak et al. (1990) általi módosítása két lépésben....................................................................................... 78 10. ábra. Az eredeti Blau-Duncan modell egy variánsa (Duncan et al., 1968, Treiman, 1970), és a modellre alkalmazva Boguszak et al. (1990) módosításait................ 80 11. ábra. Felsıfokú továbbtanulási tervek kialakulása, IKG (Spirtes et al., 2003) ....... 82 12. ábra. Módosított útmodell....................................................................................... 85 13. ábra. IKG (Rudas, Bergsma, 2004)......................................................................... 88 14. ábra. IKG (Rudas, Bergsma, 2004)......................................................................... 93 15. ábra. Az eredeti Blau-Duncan modell (1967) ......................................................... 98 16. ábra. Láncgráf-modell (Drton, 2008).................................................................... 100 17. ábra. Az általános, illetve az 1-es ill. 2-es típusú láncgráfokon definiált modellosztályok tartalmazási viszonya (sötét háttér: nemüres, fehér háttér: nem ismert, hogy üres-e)............................................................................................ 108 18. ábra. Klasszikus problémákat fedı konfigurációk három csúcson ....................... 110 19. ábra. Paraméterbecslések, DAG útmodell ............................................................ 112 20. ábra. A vizsgált modell (I: iskolázottság, F: foglalkozás, I’: apa iskolázottsága, F’: apa foglalkozása)................................................................................................ 131 21. ábra. Treiman-modell (Treiman, 1970, eredetileg Duncen et al., 1968). I’: apa iskolázottsága, F’: apa foglalkozási státusza, F: foglalkozási státusz, I: iskolázottság, J: jövedelem................................................................................. 139 22. ábra. A Treiman-modell módosítása Boguszak et al. (1990) alapján ................... 140 23. ábra. Az 1. modell paraméterbecslései, a dobozokban soronként felülrıl lefelé: USA, Magyarország, Csehszlovákia .................................................................. 142 24. ábra. Két modell a Sewell és Shah-féle adatokhoz ............................................... 145 25. ábra. Szerhasználat, 1. modell............................................................................... 148 26. ábra. Szerhasználat, 3. modell............................................................................... 149 27. ábra. Szerhasználat, a legegyszerőbb modell, paraméterbecslések....................... 151 28. ábra. Panelvizsgálat, telített modell ...................................................................... 153
12 TÁBLÁZATOK JEGYZÉKE 1. táblázat. Hipotetikus példa egy deliberative poll végeredményérıl. Zárójelben a vita maximális hatása esetén fennálló gyakoriságok................................................... 30 2. táblázat. A láncgráf-modellek típusai, kategoriális változók és pozitív eloszlás esetén (=: ekvivalencia, fl: implikáció) .......................................................................... 70 3. táblázat. A láncgráf-modellek típusai, kategoriális változók és pozitív eloszlás esetén. Sötét háttér = mindegyik sima modell, világos = van köztük nem sima, fehér = kérdéses.................................................................................................. 100 4. táblázat. A láncgráf-modellek típusai, kategoriális változók és pozitív eloszlás esetén. Sötét háttér = mindegyik sima modell, világos = van köztük nem sima, fehér = kérdéses.................................................................................................. 107 5. táblázat. Paraméterbecslések a modernizációs hipotézis 2. pontjához ................... 134 6. táblázat. Paraméterbecslések a modernizációs hipotézis 3. pontjához ................... 134 7. táblázat. Paraméterbecslések a modernizációs hipotézis 4. pontjához ................... 134 8. táblázat. Paraméterbecslések a modernizációs hipotézis 1. pontjához ................... 135 9. táblázat. Az ötváltozós modellek illeszkedéstesztjeinek eredményei ..................... 141 10. táblázat. Sewell és Shah adatai (n=10.318). A: alacsony, AK: alsó-közép, FK: felsı-közép, F: felsı ........................................................................................... 143 11. táblázat. Az illeszkedéstesztek eredményei .......................................................... 146 12. táblázat. A daytoni adatok, n=2276 ...................................................................... 147 13. táblázat. Az illeszkedéstesztek eredményei .......................................................... 150
13. FEJEZET: A SZERZİ PUBLKÁCIÓI
13 A SZERZİ PUBLIKÁCIÓI 13.1 Folyóirat cikkek és könyvfejezetek Rudas, T., Bergsma, W., Németh, R. (2009): Markov marginal models for categorical data. Kézirat. Kósa, Zs. et al (köztük Németh, R.): Does socioeconomic status fully mediate the effect of ethnicity on the health of Roma people in Hungary? Journal of Epidemiology and Community Health, közlésre elfogadva Vokó, Z. et al (köztük Németh, R.): Az agyérbetegségek epidemiológiája Magyarországon az ezredfordulót követıen. Lege Artis Medicinae. 2008, 18. évf., 1. sz. , 31-38. Zajkás, G. et al (köztük Németh, R.): Táplálkozási vizsgálat Magyarországon, 20032004. Mikrotápanyagok, vitaminok. Orvosi Hetilap, 2007, 148. évfolyam, 34. szám, 1593-1600. Bíró, L. et al (köztük Németh, R.): Táplálkozási vizsgálat Magyarországon, 2003-2004. Orvosi Hetilap, 2007, 148. évfolyam, 15. szám, 703-8. Németh, R.: Changes in social mobility in Hungary during the transition period. Review of Sociology, 2007, Vol 13, No. 1, 49-66. Boros, J., Görög, K., Kaposvári, Cs., Németh, R.: Általános epidemiológia. In: Ember, I. (szerk.): Népegészségügyi Orvostan tankönyv, 2007, Dialog Campus, Pécs. Kósa, Zs. et al (köztük Németh, R.): A Comparative Health Survey of the Inhabitants of Roma Settlements in Hungary. American Journal of Public Health, 2007, Vol 97, No. 5, 853-859. Németh, R.: A társadalmi mobilitás változásai Magyarországon a rendszerváltás folyamán. Szociológiai Szemle, 2006/4, 19-35. Németh, R.: Grafikus modellek kategoriális adatokon - társadalomtudományi alkalmazással. In: Némedi, D., Somlai, P., Szabari, V., Szikra, D. (szerk.) Kötı-jelek. Az Eötvös Loránd Tudományegyetem Szociológia Doktori Iskolájának Évkönyve, 2006. Rodler Imre et al. (köztük Németh Renáta): Táplálkozási vizsgálat Magyarországon Orvosi Hetilap, 2005, 146/34. Németh, R.: Representativeness problems inherent in address-based sampling and a modification of the Leslie Kish grid. Bulletin of Sociological Methodology, 2004, N. 83, 43-60. Szende Á., Németh R.: A magyar lakosság egészségi állapothoz kapcsolódó életminısége. Orvosi Hetilap, 2003. 144. évfolyam, 34. szám, 1667-1674.
180
13. FEJEZET: A SZERZİ PUBLKÁCIÓI Borsos, K., Vitrai, J., Boros, J., Németh, R., Országh, S.: A felnıtt lakosság egészségügyi kiadásai a 2000. Évi országos felmérés adatai alapján. Egészségügyi Gazdasági Szemle, 2003, 41. évfolyam, 4. szám 25-33. Németh, R., Rudas, T.: Mintavétel a Leslie Kish kulcs alkalmazásával. Statisztikai Szemle, 2002, 4.
13.2 Konferencia kötetek Rudas, T., Bergsma, W., Németh, R. (2006): Parameterization and estimation of path models for categorical data. In: Rizzi, A., Vich, M. (eds.) COMPSTAT 2006 Proceedings in Computational Statistics, Physica-Verlag, 383-394. Vokó Z. et al (köztük Németh R.) (2005): Health of the inhabitants of Roma settlements in Hungary – a comparative health survey. In: European Journal of Public Health 15 (6): 65, 2005 EUPHA (European Public Health Association) Annual Conference, Graz, Ausztria. Csizmadia, P., Németh, R. (2004): Work stress factors and their associations with health in the contemporary Hungarian working population. In: European Journal of Public Health 14 (4): 25-26, Dec 2004. EUPHA (European Public Health Association) Annual Conference, Oslo, Norvégia. Németh, R.(2004): An application of marginal log-linear models to examine changes in social mobility in Hungary during the transition period.In: Proceedings of the RC33 Sixth International Conference on Social Science Methodology, Amsterdam. Zakariás, I., Németh, R. (2004): Comparing sampling frames. In: Proceedings of the RC33 Sixth International Conference on Social Science Methodology, Amsterdam. Németh, R. (2001): Respondent selection within the household – A modification of the Kish grid. In: Proceedings of the Sixth Austrian, Hungarian, Italian and Slovenian Meeting of Young Statisticians, Ossiach, Austria.
13.3 Konferencia kivonatok Vokó, Z. et al. (köztük Németh, R.): The complex effect of ethnicity on the health of Roma people in Hungary. XVIII World Congress of Epidemiology, Porto Alegre, Brazília, 2008. Németh, R., Rudas, T., Bergsma, W.: Analyzing categorical data with graphical models - a social science application. SMABS-EAM (Society for Multivariate Analysis in the Behavioural Sciences, European Association of Methodology) konferencia, Budapest, 2006. Németh, R.: Grafikus modellek kategoriális adatokon. Az ELTE Társadalomtudományi Kar Szociológia Doktori Iskolájának konferenciája. Budapest, 2006.
181
13. FEJEZET: A SZERZİ PUBLKÁCIÓI Lobmayer, P., Németh, R.: Income inequality and health in Hungarian counties. International Symposium, az Eighth International Congress of Behavioural Medicine szatellitje. Budapest, 2004. Németh, R. Idıbeli trendek vizsgálata: az OLEF2000 és OLEF2003 összehasonlításának módszertana. A Népegészségügyi Tudományos Társaság XIII. Nagygyőlése, Szekszárd, 2004. Németh R.: Sampling Design of Health Surveys: Household as a sampling unit. Biannual Seminar, ROeS, International Biostatistics Society, St. Gallen, Svájc, 2003. Lobmayer, P., Németh, R.: Társadalmi egyenlıtlenség és egészség összefüggése Magyarországon az OLEF2000 adatai alapján. Magyar Higiénikusok Társasága XXXIV. Vándorgyőlés, Siófok, 2003. Németh, R., Szende, Á.: A magyar lakosság egészségi állapothoz kapcsolódó életminısége: a demográfiai, társadalmi, és gazdasági tényezık hatása. Méltányosság az egészségügyben konferencia, Budapest, 2002. Németh, R.: Miért célszemély? Vitaindító. II. Országos Egészségstatisztikai Fórum, Budapest, 2002. Mintavétel szekció, kerekasztal beszélgetés. Vizi, J. et al. (köztük Németh, R.): Egészségre fordított kiadások az OLEF2000-ben. Népegészségügyi Tudományos Társaság XI. Nagygyőlése, Nyíregyháza, 2002. Németh R.: OLEF2000 - mintavétel, elemzés. Országos Egészségstatisztikai Fórum, Budapest, 2001. Népegészségügyi Tudományos Társaság X. Nagygyőlése, Gyula, 2001: Az OLEF2000 tervezésekor alkalmazott egészségmodell. Vokó Z., Boros J., Grajczjar I., Németh R., Országh S., Széles Gy., Vitrai J., Vizi J. Az OLEF2000 tervezésének és megvalósulásának tapasztalatai. Vitrai J., Boros J., Grajczjar I., Németh R., Országh S., Széles Gy., Vizi J., Vokó Z. Az OLEF2000 mintavételi és elemzési módszere. Németh R., Boros J., Grajczjar I., Országh S., Széles Gy., Vitrai J., Vizi J., Vokó Z. Az OLEF2000 adatkezelési kérdései. Országh S., Boros J., Grajczjar I., Németh R., Széles Gy., Vitrai J., Vizi J., Vokó Z. Társadalmi-gazdasági meghatározottság felmérése az OLEF2000-ben. Grajczjar I., Boros J., Németh R., Országh S., Széles Gy., Vitrai J., Vizi J., Vokó Z. Az egészségmagatartás vizsgálata az OLEF2000-ben. Boros J., Grajczjar I., Németh R., Országh S., Széles Gy., Vitrai J., Vizi J., Vokó Z. Krónikus betegségek, korlátozottság, mentális egészségi állapot az OLEF2000-ben. Széles Gy., Boros J., Grajczjar I., Németh R., Országh S., , Vitrai J., Vizi J., Vokó Z.
182
13. FEJEZET: A SZERZİ PUBLKÁCIÓI Az igénybevett egészségügyi szolgáltatások felmérése az OLEF2000-ben. Vizi J., Boros J., Grajczjar I., Németh R., Országh S., Széles Gy., Vitrai J., Vokó Z.
13.4 Munkaanyagok, kutatási jelentések Deckovic-Dukres, V., Hrkal, J., Németh, R., Vitrai, J., Zach, H. (2007): Inequalities in health system responsiveness. Joint World Health Survey Report Based on Data from Selected Central European Countries, Jelentés a WHO megbízásából. Remák, E., Gál, R. I., Németh, R. (2006): Health and morbidity in the accession countries. Country report – Hungary. ENEPRI Research Reports 28, Brussels: ENEPRI. Albert, F., Dávid, B., Németh, R. (2005): Társas támogatás, társadalmi kohézió. In.: Országos Lakossági Egészségfelmérés OLEF2003, Kutatási Jelentés. Németh, R., Csizmadia, P. (2005): Anyagi helyzet, ill. A munka világa c. fejezetek. In.: Országos Lakossági Egészségfelmérés OLEF2003, Kutatási Jelentés. Boros J., Németh R., Vitrai J. (szerk.) (2002): Országos Lakossági Egészségfelmérés OLEF2000, Kutatási Jelentés. Országos Epidemiológiai Központ. Németh R. (2002): Elemzés és Mintavétel fejezetek. In.: Országos Lakossági Egészségfelmérés OLEF2000, Kutatási Jelentés. Szerk.: Boros J., Németh R., Vitrai J. Az Országos Epidemiológiai Központ kiadványa. Németh R. (2003): Sampling Design of Health Surveys: Household as a sampling unit. LIS Working Papers No. 358. Doorslaer, E. van, Masseria, C. és az OECD Health Equity Research Group (köztük Németh, R.) (2004): Income-related inequality in the use of medical care in 21 OECD countries. In: Towards High-Performing, Health Systems: Policy Studies, OECD. Németh, R. (szerk.) (1998): Kategoriális adatok elemzése. Egységes jegyzet az ELTE Szociológiai Intézet survey statisztikus szakirány számára.
183