08Nemeth(3).qxd
2006.05.18.
14:52
Page 147
Németh Renáta
Grafikus modellek kategoriális adatokon – társadalomtudományi alkalmazással A kategoriális adatokra alkalmazott grafikus modellek marginális loglineáris modellekként történõ kezelése egészen új megközelítés (Rudas–Bergsma 2004; Rudas–Bergsma–Németh 2006a, b). A módszer lényege, hogy segítségével többlépcsõs, összetett folyamatokat írhatunk le kézenfekvõ módon interpretálható paraméterekkel. Az alábbi tanulmány marginális loglineáris modellekkel foglalkozó, készülõ PhD-disszertációm empirikus társadalomtudományi alkalmazásokat bemutató fejezetére épül. Célom itt inkább a módszer kontextusba helyezése, ill. az alkalmazási elõnyök bemutatása volt, ezért a matematikai részletek közlésétõl eltekintettem.
Tudománytörténeti háttér Karl Pearson és G. Udny Yule 1900 körül e témában megjelent fontos írásainak ellenére a kategoriális adatok statisztikai elemzése csak az utóbbi negyedszázadban kapott a folytonos adatokéhoz hasonló figyelmet. Mivel a társadalomtudományi adatok többsége kategoriális, a matematikai statisztika e területe mindig szoros kapcsolatban állt a szociológiával. Tipikus példaként a mobilitási táblák – vagyis az apa-fiú foglalkozási kategóriáiból képzett kétdimenziós kereszttáblák – elemzését említhetjük. A problematika matematikai megközelítésének finomodásával párhuzamosan új társadalomtudományi megállapítások születtek, és gyakran maguk a szociológusok értek el statisztikailag újszerû eredményeket (Raftery 2000). A jelen tanulmány tárgyát képezõ, kategoriális változókra alkalmazott grafikus modellek (Rudas–Bergsma 2004; Rudas–Bergsma–Németh 2006a, b) az utóbbi évtizedekben megjelent két statisztikai terület, a marginális modellek, illetve a grafikus modellek metszéspontján helyezkednek el.
147
08Nemeth(3).qxd
2006.05.18.
14:52
Page 148
Marginális modellek
A marginális modellek a kontingenciatábla marginálisaira tett megszorításokkal definiálhatók. Marginális modellt definiál például az a feltevés, hogy egy populációban adott vélemény megoszlása nem változik valamely beavatkozás ellenére sem.1 Két változóval kódolva a vélemény beavatkozás elõtti és beavatkozás utáni megoszlását, a modell a két változó által meghatározott kontingenciatábla megfelelõ sor- és oszlopmarginálisainak páronkénti egyenlõségét mondja ki. Megfelelõ módon felparaméterezett2 kontingenciatábla esetén a marginális modellt megadó megszorítások a paraméterekre tett megkötésekkel határozhatók meg. (A vélemény megoszlásának változatlanságát tételezõ modell eszerint könnyen megadható például, ha a sor- és oszlopmarginálisok a paraméterek között vannak.) A marginális modell fontos tulajdonságai (interpretálhatósága, létezése) ezért a modell felparaméterezésétõl függenek. Bergsma és Rudas (2002) a marginális modell felparaméterezésére marginális loglineáris paramétereket használ. E paraméterek a hagyományos loglineáris paraméterekkel (pl. Rudas 1998) szemben nem a teljes táblából, hanem annak marginálisaiból számolhatók. A hagyományos loglineáris paraméterek interpretálhatók az adott változók közötti feltételes kapcsolat átlagos erõsségének mértékeként, az összes többi változóra, mint feltételre nézve, ahol az átlagolás a feltételben levõ változók kategóriái szerint történik. Hasonlóképpen értelmezhetõk a marginális paraméterek is, az „összes többi változó” alatt a marginális többi változóját értve. Példaként vegyük az alkalmazások között a késõbbiekben szereplõ ötváltozós státuszelérési modell öt változóját: Iskolázottság (I), Foglalkozás (F), Jövedelem (J), Apa iskolázottsága (Ia), Apa foglalkozása (A). (A változók definícióját lásd az alkalmazások „A minta, a változók defini-
1 Ilyen kísérleti elrendezésre példa a deliberative poll, amit Örkény Antal és társai 2005 õszén Magyarországon is kipróbáltak. A mintába vont személyek cigánykérdéssel kapcsolatos véleményét mérték a kérdések közös megvitatása elõtt és után. 2 Felparaméterezés alatt a kontingenciatáblát egy-egyértelmûen meghatározó jellemzõk megadását értjük. Pl. 2*2-es tábla esetén lehetséges paraméterezés a négy cellagyakoriság megadása, egy másik paraméterezés az összes megfigyelés számának, az elsõ sormarginálisnak, az elsõ oszlopmarginálisnak és az elsõ cellának a megadása; egy harmadik lehetõség az esélyhányados és három cellagyakoriság megadása.
148
08Nemeth(3).qxd
2006.05.18.
14:52
Page 149
álása” c. alfejezetében). A változók alkotta ötdimenziós tábla esetén az Ia=1, J=1 cellához tartozó, az IaJ (két bináris változó közötti) asszociációt leíró loglineáris paraméter formálisan: 1 log EH (Ia=1,2, J=1,2 | A=j, I=k, F=l)1/4, 18j=1 .. 3,
lIaAIFJ (1,1) = IaJ
S
(1)
k=1 .. 2, l=1 .. 3
ahol a paraméter után zárójelben adtuk meg, hogy melyik cellára határoztuk meg a paraméter értékét, az EH pedig a hozzá tartozó, zárójelben definiált 2*2-es (feltételes) táblában számolt kapcsolaterõsségi mutató, a (feltételes) esélyhányados értékét adja meg. A marginális loglineáris paraméterek szokásos terminológiája szerint a paraméter IaAIFJ indexe a paraméterhez tartozó marginálist adja meg, az IaJ index a paraméterhez tartozó hatás. Ez a paraméter az Apa foglalkozására, az Iskolázottságra és a Foglalkozásra, mint feltételre nézve méri az Apa iskolázottsága és a Jövedelem közötti feltételes kapcsolat erõsségét; a feltételes kapcsolat pedig úgy értendõ, hogy az AIF minden lehetséges értéke mellett kapott 2*2-es (feltételes) táblából külön kiszámított esélyhányados transzformáltját (logaritmusának negyedik gyökét) átlagoljuk. Ha ez az érték 0, akkor az Apa iskolázottsága és a Jövedelem között nincs feltételes kapcsolat.3 Szokásos szóhasználattal ezt úgy is mondhatjuk, hogy a többi változó szerinti korrigálás után a két változó között nincs asszociáció. Minél inkább eltér az adott paraméter abszolút értéke nullától, annál erõsebb a vonatkozó hatás. Ha a paraméter pozitív, akkor a tábla Ia = 1, J = 1 indexû celláiba átlagosan több megfigyelés esik, mint amennyi Ia és J feltételes kapcsolatának hiánya esetén esne, vagyis a diplomás apák utódai között inkább magas jövedelmûeket találunk, tehát pozitív a kapcsolat. Hasonlóan, negatív paraméter esetén negatív irányú a kapcsolat. Az elõbbi paraméter az IaAIFJ marginálishoz tartozott. Hasonlóan, bármely marginális mellett definiálhatunk paramétert, ha a marginálisba be nem vont változókat nem vesszük figyelembe a tábla bontásánál, vagyis „marginalizálunk” rájuk nézve. Pl. az IaAIF marginálishoz tartozó
3 A feltételes függetlenség viszont nem áll: a 0 átlagos értékként adódik, akár negatív és pozitív értékek átlagaként.
149
08Nemeth(3).qxd
2006.05.18.
14:52
Page 150
IaF hatás kiszámításakor a J változóra nézve marginalizálunk (F három értékû, az Ia bináris): IaAIF lIaF (1,1) =
1 ⎛log EH (Ia=1,2, F=1,2 | A=j, I=k, J=+)1/6 +⎞ , ⎝ 6 j=1 .. 3, + log EH (Ia=1,2, F=1,3 | A=j, I=k, J=+)1/6⎠
S
(2)
k=1 .. 2,
ahol + a marginalizálást jelzi. Az F háromértékûsége miatt az IaF hatás két 2*2-es táblából számolt esélyhányadosból adódik. A fenti interpretációhoz hasonlóan, a paraméter 0 volta az Apa iskolázottsága és a Foglalkozás közötti feltételes kapcsolat hiányát jelzi, az Iskolázottságra és a Foglalkozásra, mint feltételre nézve. Ugyanannak a kontingenciatáblának a felparaméterezése marginális loglineáris paraméterekkel többféleképpen történhet. Pl. belátható, hogy az alábbi két paraméterezés egyaránt egy-egyértelmû megadása az IFJ táblának: IF , lIFJ , lIFJ , lIFJ , lIFJ , (1) lII, lIFF , lIF J IJ FJ IFJ
(2) lIJI, lIJJ , lIJIJ , lIFJ , lIFJ , lIFJ , lIFJ . F FJ IF IFJ A felparaméterezést követõen a loglineáris modell definiálható néhány paraméterre tett megszorításként, e megszorítás általában azok értékének nullára történõ elõírását jelenti. Például belátható, hogy az a modell, ami az Iskolázottság és Jövedelem Foglalkozásra, mint feltételre vett IFJ függetlenségét állítja, a lIFJ IJ és lIFJ paraméterek 0-ra állításával definiálható. Ez az (1)-es paraméterezés mellett könnyen megadható, viszont a (2)-es paraméterezés esetén ennél némileg nehézkesebb módon (paraméterek összetett függvényével) definiálható. Más példával: az alkalmazások között késõbb szereplõ, az IaAIFJ táblán definiált módosított Blau–Duncan-modell a (7) és (8) formulákban található felparaméterezést követõen a fent definiált lIaFIaAIF és lAJIaAIFJ paraméterek (és néhány más paraméter) 0-ra állításával adható meg. A modell egyszerre több marginálishoz tartozó paraméter megszorítását igényli, a klasszikus loglineáris keretben nem fejezhetõ ki. Lényeges kérdés tehát az, hogy olyan paraméterezést válasszunk, amellyel a vizsgált modell egyszerûen megadható. A paraméterekre tett megkötések értelmezésénél felmerülõ másik fontos kérdés a paraméterek 150
08Nemeth(3).qxd
2006.05.18.
14:52
Page 151
interpretálhatósága: láttuk, hogy marginális loglineáris paraméterek esetén a paraméterek kézenfekvõ módon, feltételes asszociációkra történõ visszavezetéssel értelmezhetõk. Egy harmadik lényeges kérdés az, hogy milyen általános feltételek mellett létezik a paraméterekre tett megszorításoknak megfelelõ tábla. Általános esetben ugyanis a paraméterek elõírt értékei ellentmondhatnak egymásnak. Ezek a kérdések és a marginális loglineáris paraméterezéshez kapcsolódó néhány más probléma is tisztázódott az utóbbi években (Bergsma–Rudas 2002). Eszerint a paraméterezés bizonyos kombinatorikus tulajdonságainak teljesülésekor fennáll a paraméterezés hierarchikussága, simasága és komponenseinek variációs függetlensége (ezek matematikai definíciójára itt nem térek ki). Ezeknek a tulajdonságoknak a fontossága a modellek interpretálhatóságában, létezésében, és a becslések standard aszimptotikus tulajdonságaiban áll. Grafikus modellek
A grafikus modellek a változókat gráfpontokként jelenítik meg, a köztük levõ irány nélküli/iránnyal rendelkezõ kapcsolatot élekkel/nyilakkal reprezentálva. (Az iránnyal rendelkezõ kapcsolat nem feltétlenül jelent okokozati viszonyt.) Két pont között az él/nyíl hiánya feltételes függetlenségi állításoknak feleltethetõ meg. A grafikus modellek elõnye, hogy könnyen vizualizálható és jól interpretálható módon jelenítenek meg komplex rendszereket, illetve hogy modulárisak, vagyis e komplex rendszereket egyszerûbb részek összekapcsolásával építik fel. Példaként tekintsük a 4. ábra gráfját, ami a státuszelérés egy klasszikus modelljét ábrázolja. A modell az Apa iskolázottságával mint háttérváltozóval „indul”, a Jövedelemmel mint függõ változóval „végzõdik”, és három közbejövõ változót tartalmaz, amelyek potenciálisan a korábbiaktól függenek, õk maguk pedig a késõbbiek lehetséges magyarázó változói. A rendszer modularitása jól látható (a Foglalkozással, Iskolázottsággal és Jövedelemmel mint függõ változóval meghatározott modulokat három külön regressziós modellként foghatjuk fel). A gráfban szereplõ változók közötti kapcsolat definíció szerint a gráf tulajdonságaiból olvasható ki (Lauritzen 1996): Csak (irány nélküli) éleket tartalmazó irányítatlan gráf (másképp: Markov-féle véletlen mezõ, Markov random field) esetén A és B pont151
08Nemeth(3).qxd
2006.05.18.
14:52
Page 152
halmazok feltételesen függetlenek C halmazra, mint feltételre nézve, ha A és B között vezetõ minden út C valamely pontján keresztülhalad. (3) Csak nyilakat felhasználó és irányított kört nem tartalmazó irányított körmentes gráf (avagy directed acyclic graph, DAG) esetén adott V változó feltételesen független nem-leszármazottaitól (nondescendants) szüleire, mint feltételre nézve, ahol a nem-leszármazottak azok a pontok, amelyek nem érhetõk el V-bõl irányított úton, míg szülõnek azokat a pontokat nevezzük, ahonnét nyíl mutat V-be. (4) Eszerint például a 2. ábra modelljében a Jövedelem feltételesen független az Apa foglalkozásától a Foglalkozásra és az Iskolázottságra, mint feltételre nézve; vagyis az Apa foglalkozása utóbbiakon keresztül gyakorol csak hatást a Jövedelemre, de direkt hatása nincs. Az irányított körmentes gráffal szemléltethetõ feltételes függetlenségekkel kapcsolatban Wermuth (2003: 47–52) említi a szakirodalomban hamis függõség (spurious dependency), hamis asszociáció (spurious association), illetve kiválasztási torzítás (selection bias) néven ismert példákat (lásd 1. ábra). Az elsõ gráf szerint a Sikeres elhelyezkedés feltételesen független a Nemtõl, de a Képzés típusának figyelembe nem vételekor (arra történõ marginalizálás esetén) hamis függõség jönne létre köztük. Hasonlóan, a Gólyák száma feltételesen független a Születésszámtól, de a Háztetõk számára történõ marginalizálás hamis asszociációt eredményezne. A harmadik gráf szerint a Nem és az Elvégzett osztályok száma független egymástól, de rögzített Jövedelmi kategória mellett összefüggést mutatnak. Pl. a férfiak magasabb keresete és a keresetnek az iskolai osztályokkal fennálló pozitív kapcsolata esetén adott jövedelmi kategórián belül a nõk magasabb iskolai végzettséget mutatnának. Vegyük észre, 1. ábra. Klasszikus statisztikai példák gráfreprezentációja Nem
Háztetõk száma
Nem
Elvégzett osztályok száma
Képzés típusa
Sikeres elhelyezkedés
152
Születésszám
Gólyák száma
Jövedelem
08Nemeth(3).qxd
2006.05.18.
14:52
Page 153
hogy mindhárom példa a feltételes, ill. marginális kapcsolat közti különbségtételre vezethetõ vissza. Irányított és irányítatlan éleket is tartalmazó lánc-gráf modellekre (chain graph model) is kiterjeszthetõk az eredmények. A lánc-gráf modellek esetében a változókat csoportokra osztjuk, és a csoportok között rendezést vezetünk be úgy, hogy az egyes csoportok változóira csak a korábbi csoportok változói legyenek hatással. A csoportok között nyilak, a csoportokon belül élek húzódnak (lásd pl. az 5. ábra modelljét). A feltételes függetlenségi viszonyok a következõképpen olvashatók ki a gráfból (Rudas–Bergsma–Németh 2006b).4 a) adott csoport két pontja között hiányzó él esetén a két pont feltételesen független a csoport többi tagjára és minden korábbi csoportra, mint feltételre nézve; b) egy, a rendezés szerint korábbi (magyarázó változó) és egy késõbbi pont (függõ változó) között hiányzó nyíl esetén e két pont feltételesen független a függõ változó csoportjára és minden azt megelõzõ csoportra nézve. (5) Eszerint az 5. ábra gráfjából kiolvasható állítás: a Jövedelem feltételesen független az Apa iskolázottságától és az Apa foglalkozásától az Iskolázottságra és a Foglalkozásra mint feltételre nézve. Lánc-gráf modell alkalmazásával kapcsolatban említi Cox és Wermuth (2001) az állami intervenciókkal kapcsolatos attitûd kialakulását modellezõ példát. A modell az attitûd meghatározódását jeleníti meg az objektív társadalmi-demográfiai tényezõktõl kiindulva az azoktól függõ vélemény típusú indikátorokon át. Ez a megközelítés mélyebb betekintést enged ebbe a folyamatba annál, mint ha csak a szokott módon többszörös regressziót alkalmaznánk az attitûddel mint függõ változóval, az összes többi változót azonos szintû magyarázó változóként kezelve. A grafikus modellek használata ma az alkalmazott statisztika számtalan területén – statisztikus fizika, genetika, mesterséges intelligencia – elterjedt. Az elmélet történetileg is több szaktudományhoz kapcsolható: három, egymástól független szerzõ munkáira vezethetõ vissza. S. Wright a
4 A hivatkozott munkában a lánc-gráf modellek esetén kétfajta (szaggatott és teli) élt, ill. nyilat különböztetnek meg – itt és a tanulmány további részében is csak a teli élre/nyílra vonatkozó eredményekre szorítkozom.
153
08Nemeth(3).qxd
2006.05.18.
14:52
Page 154
genetika, W. Gibbs a fizika, míg A. A. Markov a valószínûség-számítás területén vezette be a grafikus modell fogalmát (Wermuth 2005: 755–757). Wright a mai szociológiában elerjedt szóhasználattal útelemzésnek nevezte azt a módszert, amikor irányított gráfot használt bizonyos genetikai jellemzõk kialakulásának megjelenítésére. Gibbs fizikai rendszerek energiájának meghatározásakor a rendszert alkotó részek (pl. gázatomok) szomszédsági relációit használta fel. A grafikus modellek alapfogalmát, a feltételes függetlenséget Markov használta komplex struktúrák egyszerûbb függõségi láncokkal történõ leírásakor. Az 1970-es években indult meg a grafikus modellek elméletének kidolgozása, irányítatlan gráfok, illetve irányított körmentes gráfok vizsgálatával. Az utóbbi évtizedben az eredményeket lánc-gráf modellekre is általánosították. A modellek tanulmányozása ma is aktív területe a statisztikának.
Grafikus modellek kategoriális adatokon Kategoriális változók esetén a grafikus modellek marginális modellekként kezelhetõk. Ugyanis a grafikus modelleket megadó feltételes függetlenségi állítások megfeleltethetõk bizonyos marginális loglineáris paraméterek 0-vá tételének. Rudas és Bergsma (2004) említi ezt a lehetõséget a marginális modellek néhány gyakorlati alkalmazását bemutató cikkében. Irányított körmentes gráfokra és lánc-gráf modellekre történõ alkalmazásának bemutatása friss eredmény (Rudas–Bergsma–Németh 2006a, 2006b). Eszerint irányított körmentes gráf felparaméterezésekor a marginálisok M halmazát a modell változóinak megfelelõ rendezésével kapjuk, ahol a rendezés úgy történik, hogy a szülõ mindig megelõzi a gyerekét. Az M n. tagja e rendezés elsõ n tagjának uniójaként adódik (nevezzük ekkor a sor n. tagját a marginális utolsó elemének). Adott marginálishoz tartozó L (hatás) halmazok megadását úgy végezzük, hogy hierarchikus paraméterezést kapjunk (fent láttuk, hogy ez a paraméterezés kívánatos tulajdonsága). A kontingenciatábla felparaméterezését követõen azon hatásokhoz tartozó paramétert állítjuk 0-ra, amely hatásban a marginálisnak a rendezésben legkésõbb elõforduló tagja nem-leszármazottjával együtt szerepel. A kontingenciatábla felparaméterezését követõen azokat a lMe paramétereket állítjuk 0-ra, amelyek M marginálisának utolsó eleme valamely nem-leszármazottjával együtt részhalmaza az e hatásnak. Belátható, hogy éppen a (4)-beli feltételes függetlenségi állítások teljesülnek ezen paramé154
08Nemeth(3).qxd
2006.05.18.
14:52
Page 155
terek 0-vá tételével. Irányított körmentes gráfok felparaméterezésére két példát találhatunk a dolgozat utolsó fejezeteiben. Lánc-gráf felparaméterezésekor a marginálisok M halmazát úgy kapjuk, hogy a gráfot meghatározó G változócsoportok mindegyike megad egy M(G)∈M marginálist. Ha a G változócsoportra nem mutat nyíl, akkor G önmaga definiál marginálist: M(G)=G. Ha nyíl mutat a csoport valamely változójára, akkor a csoport az összes õt megelõzõ csoporttal uniózva definiál marginálist. Az M(G) marginálishoz ismét a hierarchikusság teljesülését szem elõtt tartva határozzuk meg a hozzá tartozó hatások L(M(G)) halmazát. Akkor állítunk 0-ra egy lLM(G), L∈L(M(G)) paramétert, ha a) az L hatásnak van két olyan eleme, amelyek a gráfban össze nem kötött pontokhoz tartoznak, és b) ezek közül az egyik pont a G eleme. Ismét belátható, hogy ezen paraméterek 0 volta éppen a (5)-beli feltételes függetlenségi állításokkal ekvivalens. A dolgozat utolsó fejezetében találhatunk példát lánc-gráf modell felparaméterezésére. Az így definiált paraméterezések simák és egymástól variációsan függetlenek; így a paraméterek értéke egymástól függetlenül beállítható (tehát bármely értékadás létezõ eloszlást határoz meg), a paraméterek egymástól függetlenül interpretálhatók, továbbá a modellek a standard aszimptotikus módon viselkednek. Láttuk, hogy a gráfok minden éle egy adott feltételes kapcsolatnak feleltethetõ meg, míg az él törlése a paraméterezésben megjeleníthetõ feltételes függetlenséget implikál. A társadalomtudományokban széles körben használt LISREL (vagy strukturális egyenletek modell, structural equation model, SEM) esetén a paraméterek értelmezése jóval nehézkesebb (Cox–Wermuth 2001), és – mivel több lokális regressziós egyenletre épít – nem garantált az egyes egyenletek konzisztenciája (Rudas–Bergsma 2004).
Elsõ alkalmazás: Treiman hipotézise a magyar rendszerváltásban A kutatási kérdés
Treiman gyakran hivatkozott modernizációs hipotézise szerint a gazdasági-technológiai fejlõdés a mobilitás szempontjából nyitottabb társadalom kialakulásához vezet, mivel a fejlett gazdaság elõfeltételezi, hogy a különbözõ társadalmi pozíciók betöltõi képességeik alapján válogatódjanak ki 155
08Nemeth(3).qxd
2006.05.18.
14:52
Page 156
(Treiman 1970). Az alábbi fejezetben5 az International Survey Programme 1987-es, 1992-es és 1999-es magyarországi felvételeinek adatait vetem össze. Kutatási kérdésem a klasszikus modernizációs hipotézisbõl indul ki: vajon milyen irányban változtak a vizsgált idõszakban az apa foglalkozási státusza, a kérdezett iskolázottsága, foglalkozási státusza és jövedelme közötti kapcsolatok? A modell
A vizsgált négy változó között feltételezett kapcsolatokat a 2. ábra mutatja be. A nyilak irányítása jelenthet egyszerû idõbeli egymásutániságot, de háttérismereteink alapján ok-okozati viszonyt is. A gráf Treiman státuszelérési modelljére (Treiman 1970, eredetileg Blau–Duncan-modell) épül; az eredeti modell az apa iskolázottságát is tartal2. ábra. Négyváltozós státuszelérési modell, mazza, de ez az információ nem állt renirányított körmentes gráffal delkezésre mindhárom évbõl. Treiman a (A: apa foglalkozási státusza, modernizációs hipotézisben hét hatásra F: foglalkozási státusz, vonatkozó alhipotézist fogalmaz meg. I: iskolázottság, J: jövedelem) Hipotézise szerint a modernizációval F gyengül az • apa foglalkozása – foglalkozás teljes hatás (cirkuláris mobilitás); és a • direkt (iskolázottság szerint korrigált) hatás; az A J • apa foglalkozása – iskolázottság hatás; az • iskolázottság – jövedelem teljes; és a • direkt (foglalkozás szerint korrigált) I hatás, ugyanakkor erõsödik az • iskolázottság – foglalkozás direkt (apa foglalkozása szerint korrigált) hatás; és a • foglalkozás-jövedelem direkt (iskolázottság szerint korrigált) hatás.
5 Az itt rövidítve közölt alkalmazás korábbi munkáimban szerepelt (Németh 2004, 2005).
156
08Nemeth(3).qxd
2006.05.18.
14:52
Page 157
Érdemes megemlíteni, hogy a témában született legtöbb szociológiai elemzés ezen hatásoknak csak egy részével foglalkozik, sõt a jövedelemre vonatkozó hatásokat legtöbbjük nem is érinti. Itt tehát egy lényegesen teljesebb modell szerepel. Az elemzés célja a modell illeszkedésének vizsgálatán túl a marginális loglineáris paraméterek értékeibõl kiindulva a kapcsolatok erõsségének és irányának, ill. ezek idõbeli változásának vizsgálata. Fontos hangsúlyozni, hogy ezek az asszociációs mérõszámok függetlenek a táblák marginálisaitól, ezért pl. az apa-kérdezett összevetésekben a strukturális változásoktól független változást jelenítik csak meg, vagy – másik példával élve – kiküszöbölik az egyetemi képzés expanziójának hatását. A marginális loglineáris modell további elõnye, hogy az útmodellhez hasonlóan képes komplex többváltozós összefüggések kezelésére. Ezt azért érdemes megemlíteni, mert a mobilitáskutatások harmadik nemzedéke által széles körben használt loglineáris elemzés hátrányaként éppen azt szokták felhozni, hogy azt csak kétdimenziós apa-fiú táblák elemzésére használták, s a második nemzedék által könnyen kezelt többváltozós kérdések lekerültek a napirendrõl (Ganzeboom–Treiman–Ultee 1991). A mobilitáskutatások második nemzedéke óta bevett megközelítést követve megkülönböztetünk direkt (vagy feltételes) és teljes hatásokat. A direkt hatásokhoz tartozó paraméterek az adott változónak a többi magyarázó változó szerint korrigált hatását mérik, ahogyan azt a „Marginális modellek” c. részben láthattuk. A direkt hatások definíció szerint a gráf nyilaihoz rendelhetõk, de a teljes hatások nem kapcsolhatók az ábrához. Ugyanakkor a teljes hatások megadása is fontos lehet. Pl. a származás és a státusz közötti direkt (iskolázottság szerint korrigált) kapcsolat gyengülése nem hozza feltétlenül magával a köztük levõ teljes kapcsolat gyengülését, ahogyan azt Goldthorpe (1996: 255–288) vizsgálatai is alátámasztották: õ a direkt kapcsolat gyengülése mellett a teljes kapcsolat idõben konstans voltát mutatta ki. A minta, a változók definiálása
A vizsgálati populációt a munkaerõpiacon jelen levõ, havi jövedelemmel rendelkezõ legalább 25 évesek alkotják. Az együttes eloszlásnak a statisztikai elemzésben problémát okozó üres celláit a szokásosan alkalmazott 0,5-ös elemszámmal töltöttem fel. Az elemzés során az adatbázisokhoz eredetileg hozzárendelt súlyokat használtam. 157
08Nemeth(3).qxd
2006.05.18.
14:52
Page 158
A modell viszonylagos összetettségét ellensúlyozandó a mintaelemszám korlátja miatt a változók képzésénél az alacsony kategóriaszámra törekedtem. Az iskolázottság kategóriái: 1 „diplomás”, 2 „diploma nélküli”. A jövedelem kategóriánál az egyéni havi jövedelmet vettem számításba, mégpedig az eloszlás változásának és az inflációnak a hatását kiküszöbölendõ a mediánt, mint küszöbértéket alkalmaztam; a két kategória: az 1 „medián felett”, a 2 „medián alatt”. A kérdezett és az apa foglalkozásának definiálásakor Erikson és Goldthorpe (1992: 28–64) ajánlását követve az EGP foglalkozási presztízsskálájához illeszkedõ hármas foglalkozáskategorizációt használtam: 1. felsõ osztály (vezetõ, szellemi szabadfoglalkozású, diplomás alkalmazott), 2. középosztály [egyéb szellemi, közvetlen termelésirányító, szakmunkás, iparos/kereskedõ/szolgáltató, gazdálkodó (ha kérdezett)], 3. alsó osztály [betanított munkás/segédmunkás/mezõgazdasági fizikai, gazdálkodó (ha apa)]. A statisztikai modell, paraméterbecslés
Az irányított gráfokra vonatkozó, (4)-ben megadott szabály szerint a modell ekvivalens módon definiálható a következõ feltételes függetlenségi állítás teljesülésével: a Jövedelem feltételesen független az Apa foglalkozásától, az Iskolázottságra és a Foglalkozásra, mint feltételre nézve. Jelöléssel: J ⊥ A | FI.
(6)
Minden változó szerepel az állításban, amibõl következik, hogy ez egy hagyományos loglineáris modell. Ugyanakkor a szabad paramétereket marginális paraméterekkel adjuk meg, ezek szignifikanciájának tesztelésekor értelemszerûen marginális megkötéseket teszünk a modellre, amik viszont nem kezelhetõk a hagyományos loglineáris kereten belül. A modellek paraméterezése a „Grafikus modellek kategoriális adatokon” c. részben leírtaknak megfelelõen történik, jelen esetben az M (marginális) halmaz a hierarchikus paraméterezést megadó sorrendben: A, AI, AIF, AIFJ. Az M-beli halmazok a hozzájuk tartozó L (hatás) halmazokkal együtt adják azokat a rendezett párokat, amelyek a paramétereket definiálják: 158
08Nemeth(3).qxd
2006.05.18.
14:52
M
L
A AI AIF AIFJ
ø, A I, AI F, IF, AF, AIF J, FJ, IJ, IFJ
Page 159
A modell felparaméterezéséhez szükséges többi paraméter értéke 0: lAJ*AIFJ,
(7)
ahol a * az adott marginális tetszõleges részhalmazát jelöli. A modellnek megfelelõ maximum likelihood-becslést itt és a következõ fejezet alkalmazásában is Wicher Bergsma Mathematica-ban írt programjának felhasználásával, azt kiegészítve kaptam meg.6 A (8)-as egyenletnek megfelelõ jelölésekkel a program inputja a megfigyelt gyakoriság (n), a rögzített paraméterek értékét megadó vektor (X), és a gyakoriságokból paramétereket adó mátrixok (M és C). Clog (M×n) = X
(8)
A modellek illeszkedésének tesztelésére valószínûség-hányados statisztikát használtam. Az egyes paraméterek szignifikanciáját az adott paraméterhez tartozó valamennyi paraméterérték 0-vá tétele után kapott modell illeszkedésromlásával teszteltem. Eredmények
A becsült és a tényleges eloszlás illeszkedésére vonatkozó valószínûséghányados tesztstatisztikához tartozó p-érték a három évben: 0,01, 0,37, ill. 0,31. Vagyis a modellt definiáló, (6)-ben meghatározott, a jövedelemre és az apa foglalkozására vonatkozó feltételes függetlenségi állítás az 1987-es évben nem fogadható el.
6 A programok elérhetõk az interneten: http://www.uvt.nl/faculteiten/fsw/organisatie/ departementen/mto/software2.html.print
159
08Nemeth(3).qxd
2006.05.18.
14:52
Page 160
A modellhez tartozó becsült paraméterértékeket a 3. ábra mutatja. Csak a nem redundáns értékeket tüntettem fel (ugyanis ebben a kódolásban az adott paraméterhez tartozó értékek összege 0, így valamennyi megadása felesleges). A félkövér szedés a 0,05 szinten szignifikáns paramétereket jelöli. Minden nyílon három becsléssor található, ezek felülrõl lefelé olvasva az 1987-es, az 1992-es, ill. az 1999-es évhez tartoznak. A nyilakhoz rendelt értékek a nyílnak megfelelõ direkt, ill. teljes hatáshoz tartoznak, a teljes hatás szerepel zárójelben: Nyíl A→I A→F
I→F F→J I→J
Paraméter (teljes: direkt: (teljes (cirkuláris mobilitás): direkt: direkt: direkt: (teljes:
lAIAI(1,1), lAIAI(2,1)) lAFAIF(1,1), lAFAIF(1,2), lAFAIF(2,1), lAFAIF(2,2) lAFAF(1,1), lAFAF(1,2), lAFAF(2,1), lAFAF(2,2)) lIFAIF(1,1), lIFAIF(1,2) lFJAIFJ(1,1), lFJAIFJ(2,1) lIJAIFJ(1,1) lIJIJ(1,1))
3. ábra. Négyváltozós státuszelérési modell, becsült paraméterek (A direkt hatás után zárójelben a teljes hatás) F
0,42; 0,15; –0,09; 0,09 (0,92; –0,02; –0,18; 0,13) 0,41; –0,31; 0,04; 0,23 (0,96; –0,29; –0,11; 0,30) 0,10; 0,13; 0,10; 0,10 (0,57; 0,11; 0,03; 0,12)
0,42; –0,06 0,43; 0,23 0,69; –0,11
1,32; –0,59 1,33; –0,73 1,41; –0,53
A
0,73; –0,10 0,83; –0,10 0,50; 0,05
0,22 (0,40) 0,28 (0,51) 0,13 (0,47)
I
160
J
08Nemeth(3).qxd
2006.05.18.
14:52
Page 161
A hatások idõbeli változására vonatkozó szignifikanciatesztek eredménye szerint 1987 és 1999 között egyetlen vizsgált hatás sem változott szignifikánsan. Rövidebb intervallumokat tekintve 1987 és 1992 között egyetlen paraméter sem változott jelentõsen. 1992–1999 között a lAIAI paraméter változása 0,05 szinten, a lAFAF változása 0,07 szinten szignifikáns. Az eredmények értelmezése
Az 1987-es évben a modell nem illeszkedik az adatokhoz. Ez igen meglepõ eredmény, tekintve, hogy a modell a mobilitáskutatások hagyományosan használt kiindulópontja. A modell rossz illeszkedése alapján 1987-ben a származásnak a jövedelemre gyakorolt hatása a foglalkozáson és az iskolázottságon keresztül gyakorolt hatásától függetlenül is fennáll. Eredményeink szerint az iskolai végzettség foglalkozásra gyakorolt hatásának jó része független a származástól, és a teljesítmény a származásnál jóval erõsebben befolyásolja a megszerzett státuszt. Tehát az iskolázottságnak elsõdleges szerepe van a társadalmi mobilitás biztosításában. Ugyanakkor, bár az apa foglalkozásának a kérdezett foglalkozására vonatkozó teljes hatása mindhárom évben szignifikáns, az iskolázottság szerint korrigált direkt hatás gyengén vagy egyáltalán nem szignifikáns. Figyelembe véve, hogy az apa foglalkozásának az iskolázottságra gyakorolt hatása mindhárom évben szignifikáns, elmondható, hogy a társadalmi újratermelõdés nagy része az iskolai végzettségen keresztül valósul meg, vagyis az iskolának a társadalmi reprodukcióban is lényeges szerepe van, az újratermelõdés legfontosabb csatornájának tekinthetõ. A kapcsolatok idõbeli változását tekintve a teljes intervallumon szignifikáns változás nem látható, bár a változási tendenciák az iskolázottság, mint reprodukciós csatorna szerepének csökkenõ jelentõségét [(AI, AI) hatás 1992–1999 közötti gyengülése], a társadalmi újratermelõdés más csatornáinak ezzel párhuzamos gyengülését [(AF, AIF) szignifikanciacsökkenése], illetve a társadalmi reprodukció összességében vett gyengülését [(AF, AF) hatás 1992–1999 közötti nem szignifikáns csökkenése] jelzik. Az apa foglalkozásának az iskolázottságra vonatkozó hatása 1987–1992 között nem változott jelentõsen, míg 1992–1999 között a felsõosztályhoz tartozó apák utódainak diplomaszerzésben jelentkezõ elõnye csökkenésével a nagyobb mobilitás irányába változott. Viszont 1987–1999 között egészében tekintve nem jelentõs a változás, a mobilitást tekintve egy for161
08Nemeth(3).qxd
2006.05.18.
14:52
Page 162
dított U görbe rajzolódik ki, melynek bal oldali szára kevésbé meredek, nem szignifikáns változást tükröz. Az apa foglalkozásának az utód foglalkozására vonatkozó direkt, iskolázottságra kontrollált hatása eredményeink szerint a vizsgált periódusban végig változatlan. A részletes eredményeket megnézve azt látjuk, hogy az 1992 és 1999 közötti gyengén szignifikáns változást a service classhoz tartozó apák utódai osztályban maradási esélyelõnyének a második periódusban bekövetkezett szignifikáns csökkenése okozza. Azaz a változás az osztály újratermelõdésének gyengülésébõl adódik, a mobilitás növekedésének irányába mutat. A jövedelem meghatározó tényezõivel kapott eredményekkel kapcsolatban elmondható, hogy a foglalkozás az iskolázottságnál lényegesen erõsebb meghatározója a jövedelemnek, és az iskolázottságnak a jövedelemre gyakorolt hatása egyre nagyobb mértékben a foglalkozási státuszon keresztül realizálódik.
Következtetések Az eredeti kutatási kérdéssel kapcsolatban összefoglalóan elmondható, hogy legfontosabb eredményünk szerint, bár felfedezhetõk a társadalmi nyitódás irányába mutató gyenge változások, a vizsgált évtizedben alapvetõen mégis változatlannak ítélhetõ a státuszmegszerzés folyamata. Mobilitáselméleti kapcsolódást keresve ez az eredmény akár a trendmentes ingadozás7 igazolódásának is tekinthetõ. Ugyanakkor az az interpretáció is megfontolandó, ami a változatlanságot az egymást kioltó folyamatok eredõjeként tekinti (hiszen pl. míg az 1990-es évek második felében bekövetkezett gazdasági változások a modernizációs hipotézis alapján mobilitásnövekedést indukálnának, addig a társadalompolitikai változások társadalmi záródást okozhatnak, pl. több szerzõ a felsõoktatás expanzióját az egyenlõtlenségek növekedésével kapcsolja össze). Végül az is elképzelhetõ, hogy a rendszerváltás és a vizsgálat idõpontja között eltelt idõ
7 Ez az elmélet Sorokin (1964: 142) nevéhez fûzõdik, újabb, a mobilitáskutatások harmadik nemzedékének CASMIN-projektjéhez kapcsolható változatában a relatív mobilitási esélyeknek (social fluidity) a társadalmi rétegzõdés konkrét megoszlásától független mintázata és szintje állandóságát tételezi fel az iparosodott országokban.
162
08Nemeth(3).qxd
2006.05.18.
14:52
Page 163
túl rövid a gazdasági/politikai változások tényleges társadalmi leképezõdéséhez.
Második alkalmazás: a Blau–Duncan-modell variánsa, nemzetközi összevetés A Blau–Duncan-modell grafikus modellként történõ elemzésének egy másik illusztrációjaként Boguszak és társai (1990) által Csehszlovákia esetére javasolt modellmódosítást vizsgálom az alábbiakban. Az ISSP 1992-es adatait használom, ebben az évben az eredeti modell mind az öt változójáról rendelkezésre állnak az adatok. Csehszlovákia és Magyarország, illetve kontrollként az Egyesült Államok adatbázisát használom. Az adatbázisokat az elsõ alkalmazásban leírtakkal megegyezõ módon készítettem fel az elemzésre. A státuszelérés alapmodelljére (lásd 4. ábra) az irányított körmentes gráfokra érvényes szabály alapján a következõ feltételes függetlenségi állítások állnak: F ⊥ Ia | AI, J ⊥ IaA | FI.
(9)
4. ábra. Ötváltozós státuszelérési modell, irányított körmentes gráffal (Ia: apa iskolázottsága, A: apa foglalkozási státusza, F: foglalkozási státusz, I: iskolázottság, J: jövedelem) A
F
J
Ia
I
A modell felparaméterezését a „Grafikus modellek kategoriális adatokon” c. fejezetben leírtaknak megfelelõen végezzük. A marginálisok M halmazát a csúcsok megfelelõ sorrendezése definiálja: Ia, A, I, F, J. Az M halmaz: Ia, IaA, IaAI, IaAIF, IaAIFJ. Az alábbi paraméterek értéke 0:
163
08Nemeth(3).qxd
2006.05.18.
14:52
Page 164
lIaF*IaAIF = 0, lIaJ*IaAIFJ = 0, lAJ*IaAIFJ = 0. A modellhez tartozó eloszlás szabad paraméterei: lIaIa, lAIaA, lIaAIaA, lIIaAI, lIaIIaAI, lAIIaAI, lIaAIIaAI, lFIaAIF, lIFIaAIF, lAFIaAIF, lAIFIaAIF, lJIaAIFJ, lIJIaAIFJ, lAJIaAIFJ, lAIJIaAIFJ. Az eredeti Blau–Duncan-modell az Apa Iskolázottsága–Apa Foglalkozása hatást irányítatlan kapcsolatként határozta meg. Boguszak és társai (1990) a csehszlovák esetre a 2. ábra modelljének további két hatásra kiterjedõ módosítását javasolták. Modelljükben az Iskolázottságra is hatása van a Foglalkozásnak, illetve a Foglalkozásra direkt hatása van az Apa Iskolázottságának. Érvelésük, a „korábbi diszkrimináció kompenzálására” vonatkozó elmélet szerint az elõbbi a politikailag megbízható, de aluliskolázott munkaerõ kékgalléros vezetõ pozíciókba való juttatásának utólagos legitimizációjaként végrehajtott felnõttkori beiskolázások, tehát pozitív politikai diszkrimináció következménye. Az utóbbi „szocialista anomáliának” nevezett jelenség a negatív iskolázottsági diszkrimináció hozadéka: a magas foglalkozási státuszú családokból származó utódok elõl bár az iskola, mint érvényesülési csatorna el volt zárva, a kulturális tõke és az érvényesülési törekvés átörökítése folytán, más csatornákon ugyan (pl. munkába állást követõ esti iskola), de mégis sikerült nagy számban érvényesülniük. Az 5. ábra mutatja az így kapott lánc-gráf modellt. 5. ábra. Ötváltozós státuszelérési modell, lánc-gráf modellel A
F
J
Ia
I
A paraméterezést itt is a „Grafikus modellek kategoriális adatokon” c. részben leírtaknak megfelelõen végezve, a paraméterezéséhez szükséges marginálisok a következõk: 164
08Nemeth(3).qxd
2006.05.18.
14:52
Page 165
IaA, IaAIF, IaAIFJ. A lánc-gráfra vonatkozó, (5)-ben megadott szabályt követve az alábbi feltételes függetlenségi állítás8 olvasható ki a gráfból: J ⊥ IaA | IF. Eszerint az alábbi paraméterek értéke 0: lIaJ*IaAIFJ = 0, lAJ*IaAIFJ = 0, míg a szabad paraméterek a következõk: lIaIaA, lAIaA, lIaAIaA, lIIaAIF, lIaIIaAIF, lAIIaAIF, lIaAIIaAIF, lFIaAIF, lIFIaAIF, lAFIaAIF, lIaFIaAIF, lIaIFIaAIF, lIaAFIaAIF, lIAFIaAIF, lIaAIFIaAIF, lJIaAIFJ, lIJIaAIFJ, lFJIaAIFJ, lIFJIaAIFJ. Könnyen belátható, hogy az elsõ modell tartalmazza a második modellt, hiszen az utóbbi kötött paraméterei az elõbbiben is 0-ra állítva szerepelnek. A modellek illeszkedését valószínûség-hányados statisztikával (L2) jellemezzük. Bár köztudott, hogy az aszimptotikus p érték kevéssé megbízható akkor, ha a táblában kis elemszámú cellák találhatók (mint ahogy a jelen esetben is), az L2 a modellek összevetésére azonban alkalmas eszköz. 1. táblázat. Az ötváltozós modellek illeszkedéstesztjeinek eredményei
USA Magyarország Csehszlovákia
1. modell
2. modell
Szabadságfok
42,000
30,000
L2 p L2 p L2 p
24,700 0,984 33,400 0,827 36,700 0,704
14,300 0,993 21,900 0,858 24,800 0,737
8 A modellt definiáló feltételes függetlenségi állításból itt sem következnek valódi marginális megszorítások, ezért a modell a hagyományos loglineáris keretben is elemezhetõ.
165
08Nemeth(3).qxd
2006.05.18.
14:52
Page 166
Az 1. táblázat tartalmazza az illeszkedéstesztek eredményét. A két modell összevetésében az illeszkedésjavulás nem szignifikáns, még a két kelet-európai országban sem. Vagyis a Boguszak és társai által ajánlott modell nem tûnik jobbnak az eredetinél.
Irodalom
BERGSMA, WICHER–RUDAS, TAMÁS (2002): Marginal models for categorical data. The Annals of Statistics, 30(1): 140–159. BOGUSZAK, MAREK–GABAL, IVAN–MATĚJŮ, PETR (1990): Ke koncepcím vývoje sociální struktury v ČSSR. Sociologický časopis, 26(3): 168–186. COX, DAVID R.–WERMUTH, NANNY (2001): Some statistical aspects of causality. European Sociological Review, 17(1): 65–74. COX, DAVID R.–WERMUTH, NANNY (2004): Causality: a statistical view. International Statistical Review, 72(3): 285–305. ERIKSON, ROBERT–GOLDTHORPE, JOHN HENRY (1992): The Constant Flux. Oxford: Claderon. FREEDMAN, DAVID (1997): From association to causation via regression. Advances in Applied Mathematics, 18(1): 59–110. FREEDMAN, DAVID (2001): On Specifying Graphical Models for Causation, and the Identification Problem. University of California, Berkeley: Statistical Techical Reports, 601. GANZEBOOM, HARRY B. G.–TREIMAN, DONALD J.–ULTEE, WOUTER CORNELIS (1991): Comparative intergenerational stratification research: Three generations and beyond. Annual Review of Sociology, (17): 277–302. GOLDTHORPE, JOHN HENRY (1996): Problems of “Meritocracy”. In Can Education Be Equalized? The Swedish Case in Comparative Perspective. Erikson, R. és Jonsson, J. O. (szerk.). 255–288. Colorado: WestviewPress. LAURITZEN, STEFFEN L. (1996): Graphical Models. Oxford: Clarendon Press. NÉMETH, RENÁTA (2004): An application of marginal log-linear models to examine changes in social mobility in Hungary during the 166
08Nemeth(3).qxd
2006.05.18.
14:52
Page 167
transition period. In Recent developments and applications in social research methodology. Proceedings of the RC33 Sixth International Conference on Social Science Methodology, (RC33), Amsterdam. NÉMETH RENÁTA (2005): A társadalmi mobilitás változásai Magyarországon a rendszerváltás folyamán. (közlésre benyújtva) PEARL, JUDEA (1995): Causal diagrams for empirical research. Biometrika, 82(4): 669–710. RAFTERY, ADRIAN E. (2000): Statistics in sociology, 1950–2000: A vignette. Journal of the American Statistical Association, 95(452): 654–661. RUDAS, TAMÁS (1998): Odds Ratios in the Analysis of Contingency Tables. Thousand Oaks: Sage. RUDAS, TAMÁS–BERGSMA, WICHER (2004): On application of marginal models for categorical data. Metron, 62(1): 1–23. RUDAS, TAMÁS–BERGSMA, WICHER–NÉMETH, RENÁTA (2006a): Parameterization and estimation of path models for categorical data. Benyújtva az IASC (International Association for Statistical Computing) 17th Compstat Symposium, 2006, Rome konferenciakiadványába. RUDAS, TAMÁS–BERGSMA, WICHER–NÉMETH, RENÁTA (2006b): Graphical and path models for categorical variables. (kézirat) SOROKIN, PITIRIM ALEXANDROVITCH (1964): Social and Cultural Mobility. Chicago: Free Press. TREIMAN, DONALD J. (1970): Industrialization and social stratification. In Social Stratification, Research and Theory for the 1970s. Laumann, E. O. (szerk.). 207–234. Indianapolis: Bobbs-Merill. WERMUTH, NANNY (2003): Analysing social science data with graphical Markov models. In Highly Structured Stochastic Systems. P. Green, N. Hjort és S. Richardson (szerk.). 47–52. Oxford: University Press. WERMUTH, NANNY (2005): Graphical chain models. In Encyclopedia of Behavioral Statistics, II. B. Everitt és David C. Howell (szerk.). 755–757. Chichester: Wiley.
167