Rada evropských sociálnČvČdních datových archivĤ (CESSDA)
Vybrané metody analýzy panelových dat* Petr Pakosta, Petr Fučík**
http://www.cessda.org
Institut pro výzkum reprodukce a integrace společnosti, Fakulta sociálních studií MU, Brno Selected methods for the analysis of panel data Abstract: Advances in the statistical analysis of longitudinal data has been so rapid, that it has been difficult for empirically oriented social scientists to remain informed of all new developments in this important area of social methodology. This article offers some guidance on the use of various types of panel data analysis techniques, paying particular attention to the analysis of longitudinal panel data. The aim of this article is to describe in a succinct manner the logic underpinning a number of panel analysis techniques; outlining the types of inferences that can be drawn from employing specific techniques, and providing the reader with references to the literature associated with particular forms of panel data analysis. Five types of panel data analysis are discussed: Event history analysis, Sequential analysis, Hierarchical linear (or multi-level) modeling (with application to longitudinal data analysis), Structural equation modeling with longitudinal data, and use of Log-linear and Markov chain models for longitudinal data with categorical variables. Data a výzkum - SDA Info 2009, Vol. 3, No. 1: 77-96. (c) Sociologický ústav AV ČR, v.v.i., Praha 2009.
CESSDA (Council of European Social Science Data Archives) Rada evropských sociálnČvČdních datových archivĤ je organizace zastĜešující evropské organizace zabývající se distribucí sociálnČvČdních dat pro úþely akademického výzkumu. V souþasnosti sdružuje 20 archivĤ. Od roku 1970 její þlenové spoleþnČ pracují na zdokonalení pĜístupu k datĤm pro výzkumníky a studenty. Výzkumné a rozvojové projekty a expertní semináĜe organizované v rámci CESSDA podporují výmČnu dat a technologií mezi datovými organizacemi.
Úvod Za všechno může čas, praví populární píseň. Uvědomuje si to i současná sociologie. Po období, kdy byla sociální vědě vytýkána určitá slepota k prostorovým i časovým souvislostem, je vidět pozvolný návrat těchto kategorií do empirického výzkumu. V českém kontextu se navíc potýkáme s problémem diskontinuity sociologického bádání, které muselo být v období komunismu na dlouhou dobu přerušeno nebo výrazně omezeno. Skutečně dlouhodobé projekty tedy chybí. Nicméně již dvacet let se rozvíjí výzkum v nových podmínkách a přichází doba, kdy šetření založená v transformačním období dostávají smysluplný longitudinální rozměr, kdy lze pracovat s časovými řadami pravidelně realizovaných výzkumů a kdy jsou zakládána nová * Tento článek byl podpořen výzkumným záměrem MSM0021622408 - Reprodukce a integrace společnosti. Autoři děkují oběma anonymním recenzentům/recenzentkám za cenné připomínky k obsahu článku. ** Veškerou korespondenci posílejte na adresu: Mgr. Petr Pakosta, Mgr. Petr Fučík, Institut pro výzkum reprodukce a integrace společnosti, Fakulta sociálních studií MU, Joštova 10, 602 00 Brno, e-mail:
[email protected] a
[email protected].
- 76 -
- 77 -
dlouhodobá šetření. Dluh longitudinálních dat je tedy v české sociologii pomalu vyrovnáván, což však vede ke zvýznamnění nedostatku česky psané literatury věnující se analýze těchto dat. Stať, kterou předkládáme, si neklade za cíl tento nedostatek zmírňovat, chceme však na malém prostoru poskytnout rozcestník pro zájemce o pokročilé analytické metody vhodné zejména pro longitudinální data a zvláště pro data z panelových šetření. Text má charakter přehledové stati, v níž chceme nastínit základní logiku nejčastěji užívaných analytických metod a poskytnout čtenáři dostatek komentovaných odkazů pro práci s relevantní literaturou. Budeme se snažit čtenáře vybavit základní představou, k čemu se která technika hodí, jaká je povaha vstupních dat a jaké substantivní otázky může řešit. Předpokládáme, že čtenáři usnadníme a zefektivníme práci s literaturou, jejíž využití je pro skutečnou aplikaci představených technik nezbytné. Naši stať jsme rozdělili do pěti částí, v nichž představíme čtyři skupiny technik zmiňovaných v souvislosti s analýzou longitudinálních a panelových dat nejčastěji. Pro spojité proměnné a otázky týkající se délky trvání událostí je vhodná analýza historie událostí. Pro analýzu trajektorií životních drah je možné použít z genetiky adaptovanou sekvenční analýzu. Vztahy, u nichž je kromě časového rozměru třeba respektovat hierarchickou povahu dat, je možné analyzovat víceúrovňovým modelováním. V další kapitole nastíníme aplikaci strukturních modelů pro úlohy, v nichž je vhodné v časových datech pracovat s latentními proměnnými. Nakonec představíme řešení pro kategorizovaná data, jež jsou nejčastěji zpracovávána prostřednictvím speciálních typů log-lineárních a Markovových modelů Analýza historie událostí Metody z okruhu analýzy historie událostí (event history) se pod tímto souhrnným názvem vyskytují v mnoha různých oblastech bádání. V sociálních vědách se označují nejčastěji oním souhrnným názvem, v ekonomii jsou nazývány jako analýza času trvání (duration analysis), v přírodních vědách jako analýza přežití nebo přežívání (survival analysis) a v technických vědách analýza selhání (reliability analysis). Všechny metody mají jedno společné: snaží se modelovat funkci přežití (survival function), tj. pravděpodobnost, že k dané události dojde po daném čase, nebo obráceně, že v námi sledovaném intervalu k události nedojde. S funkcí přežití je (jako její záporný logaritmus) spojena míra rizika (hazard rate), tedy pravděpodobnost, že k události dojde v určeném časovém intervalu. Všem metodám je také společný problém s cenzorováním. Cenzorování může být levostranné, u něhož dochází k situaci, kdy nemáme kompletní informace o období, kdy je jedinec vystaven riziku události (risk period), tzn. že jedinec je vystaven riziku, že událost nastane, ale my jsme měření ještě nezapočali. Cenzorování zprava pak analogicky znamená, že měření skončí, aniž k události došlo (nevíme, jestli k události nakonec dojde). Cenzorování samozřejmě vnáší do výsledných modelů určitou míru nejistoty a ovlivňuje výsledky analýzy. Každá metoda analýzy historie událostí se proto musí s cenzorováním nějak vyrovnat [blíže k cenzorování např. Hendl 2004; Kleinbaum 1995]. Není v možnostech této statě obsáhnout všechny metody analýzy historie událostí, budeme se proto podrobněji věnovat dvěma: základnímu Coxovu modelu relativního rizika (proporcionální model rizika, Cox proportional hazards model) a jeho rozšířené verzi s časově proměnnými kovariáty.
- 78 -
Coxův model relativního rizika V analýze historie událostí modelujeme míru rizika a samozřejmě ze všeho nejvíce nás zajímá, jaký vliv mají vysvětlující proměnné (kovariáty) na vysvětlovanou proměnnou, tedy to, jakým způsobem ovlivňují průběh křivek míry rizika [Hendl 2004]. Cox navrhl tento model již v roce 1972 na základě analýzy úmrtnostních tabulek [Cox 1972] a na rozdíl od jednodušších Kaplan-Meierových křivek jeho model poměřuje vliv jednotlivých vysvětlujících proměnných na tzv. referenční křivku míry rizika (baseline hazard rate) platnou pro všechny zkoumané jednotky. Výsledkem jsou regresní koeficienty, které nám po exponování říkají, kolikrát se změní ona referenční míra rizika se změnou hodnoty vysvětlující proměnné, a to za předpokladu, že se hodnoty ostatních proměnných nemění (podobně jako je tomu u lineární regrese). Takto koncipovaný model je vystavěn na předpokladu, že vliv vysvětlujících proměnných je konstantní v čase (v intervalu měření zůstává fixní). Pokud máme data, která tento předpoklad splňují, je vše v pořádku, jestliže tomu tak není, mohla by interpretace získaných výsledků vést k zavádějícím závěrům. Možným řešením je navrhnout model s časově proměnnými kovariáty (time-dependent nebo timevarying covariates) [Martinussen, Scheike 2006]. Dalším předpokladem Coxova modelu relativního rizika je čas ve spojité podobě (continuous time), pokud tomu tak není a máme čas v diskrétní podobě (dicrete-time)1, potom musíme použít modely, které pracují s časem v jeho nespojité podobě. Nejčastěji to jsou discret-time logit modely a dicrete-time proportional hazards modely [Yamaguchi 1991]. Coxovy modely relativního rizika odhadované nejběžnějším postupem – partial likelihood estimation – nemohou být odhadovány pro události, které se odehrají ve stejný čas.2 Tyto události jsou v datovém souboru nazývány ties nebo tied cases (events), problémy ovšem činí při odhadu jakéhokoliv modelu se spojitým časem. Řešením jsou některé metody aproximace odhadu parametrů (například Breslowova metoda, Efronova metoda, metoda averaged likelihood a další) nebo jejich odhad pomocí maximum likelihood estimation [Singer, Willett 2003; Box-Steffensmeier, Jones 2004]. Coxovy modely relativního rizika patří i pro svoji flexibilitu mezi nejoblíbenější metodu z balíku analýzy historie událostí a základní algoritmy pro jeho výpočet je možné najít i v běžných statistických programech. Coxův model relativního rizika s časově závislými kovariáty Výhodou Coxových modelů je jejich zmiňovaná flexibilita. Při popisu sociální reality tak můžeme do modelu zahrnout kovariáty, které se mění v čase .3 Je možné je rozdělit několika způsoby, zde se omezme na rozdělení základních tří typů: 1) defined time-dependent, u nichž dopředu víme, jak se po celou dobu měření bude jejich hodnota měnit (například věk); 2) ancillary time-dependent, jejichž hodnota je závislá na externích vlivech, nikoliv na jednotce pozorování (označují se také jako external time-dependent), a 3) nejproblémovější internal time-dependent covariates (rate-dependent), které působí na zkoumanou proměnnou a zároveň jsou jejím 1
Naměřenou hodnotu uvádíme v určitý čas, např. každých 24 hodin. Měnící se stav mezi udanými hodnotami potom nebereme v potaz. Také interval mezi měřeními nemusí být stejný. Udává se, že pokud je podíl těchto událostí menší než 5 %, nedochází ještě k výraznějšímu zkreslení výsledných koeficientů [Yamaguchi, 1991]. 3 V čase neproměnné kovariáty jsou označovány jako fixed covariates. 2
- 79 -
dat velmi zajímavou, proto jí menší prostor vČnujme. Sekvenþní analýza nezapĜe pĤvod v genetice, kde slouží k vyhledávání podobností mezi efektem (vytváří dynamický systém s interdependencí). Příkladem těchto kovariátů může být například vztah trajektorií pracovní kariéry a rodinného života nebo psychický stav jedince a riziko smrti. Z obou příkladů je pak zřejmé, jakým způsobem zkoumané proměnné na sebe působí [Blossfeld, Rohwer 2002; Yamaguchi 1991]. Pro potřeby analýzy je nutné mít data, která obsahují tři údaje: 1) od jakého časového bodu je pozorovaný objekt vystaven riziku události, 2) kdy nastala změna kovariátu a 3) zda a kdy došlo ke sl edované události. Data potom nemají klasickou podobu, ale pro každý objekt v matici musíme použít tolik řádků, kolikrát došlo ke změně v kovariátu u daného objektu. To znamená, že pokud u jedince došlo k události za 40 týdnů, musíme toto období rozdělit na několik kratších úseků, v nichž hodnota kovariátu zůstává konstantní a mění se mezi jednotlivými úseky. Proměnná, která udává, zda k události došlo (s hodnotou nula/jedna), pak indikuje výskyt události pouze u období, kdy k ní skutečně došlo [Box-Steffensmeier, Jones 2004]. Výsledkem analýzy jsou koeficienty pro kovariáty, které můžeme interpretovat jako změnu v míře rizika pro jednotku pozorování, u které došlo ke změně hodnoty kovariátu oproti kovariátu všech ostatních pozorovaných jednotek ve stejném čase. Jinými slovy, jak moc je výskyt události ovlivněn změnou v kovariátu [Box-Steffensmeier, Jones 2004]. Odhady těchto modelů se musí vypořádat s dalšími dílčími problémy. Jde například o výskyt události ve stejném čase, kdy dochází ke změně v hodnotě kovariátu, nebo problém výběrového zkreslení (selection bias) plynoucího z různého času vstupu do analýzy, a tím pádem odlišné hodnoty kovariátu (který je závislý na čase). V sociálních vědách samozřejmě také často čelíme nepozorované heterogenitě (unobserved heterogeneity), tedy situaci, kdy nějaká neměřená proměnná ovlivňuje míru rizika i po kontrole ostatních kovariátů [Box Steffensmeier, Jones 2004; Yamaguchi 1991]. Doporučená literatura Výkladovou knihou, která čtenáře provede základy analýzy historie událostí, je text Davida Kleinbauma: Survival Analysis: A Self-Learning Text. Tato učebnice postupuje od skutečných základů: popisuje princip těchto analýz, zápis dat, výstupy z dostupných softwarů na mnoha různých příkladech [Kleinbaum 1995]. V češtině čtenáře základy provede dostupný Hendl [2004] či Dana Hamplová ve stati Výzkum životní dráhy a event-history analýza [2004]. Podrobnosti o analýze historie událostí nabízí přehledové texty Yamaguchiho [1991] nebo Box-Steffensmeiera [2004]. Sekvenční analýza Analýzy životního cyklu se velmi často opírají právě o techniky analýzy historie událostí. Holistický pohled na životní cyklus však výpočty velmi rychle komplikuje, běh životních událostí je multidimenzionální, události nejsou jednoznačně časově ohraničeny, kumulují a opakují se [např. Aassve, Billari, Piccarreta 2007]. Jistou odpovědí na tyto analytické problémy je sekvenční analýza – sequence analysis – kterou na základě inspirace z biologie a genetiky do sociálních věd přinesl a dále rozvíjí Andrew Abbott s kolegy [Abbott, Hrycak 1990, Abbott, Tsay 2000]. Jde o metodu méně známou, avšak pro analýzu longitudinálních dat velmi zajímavou, - 80 -
ĜetČzci DNA [Ruspini 2002]. Životní dráhu mĤžeme analogicky považovat také za ĜetČzec, proto jí menší prostor věnujme. Sekvenční analýza nezapře původ v genetice, kde slouží k vyhledávání podobv našem pĜípadČ za ĜetČzec událostí, a vyjádĜit ji sekvencí alfanumerických znakĤ. Zápis ností mezi řetězci DNA [Ruspini 2002]. Životní dráhu můžeme analogicky povatakové sekvence ozĜejmíme pĜíkladem pĜejatým z þlánku vČnovaného analýze životních drah žovat také za řetězec, v našem případě za řetězec událostí, a vyjádřit ji sekvencí 4 britských žen, zjišĢovaných v rámci panelového šetĜení [Aassve, Billari, Piccarreta 2007]. alfanumerických znaků. Zápis takové sekvence ozřejmíme příkladem přejatým z článku věnovaného analýze životních drah britských žen, zjišťovaných v rámci pa4 Kódujeme tĜi životní událostiBillari, najednou: pracovní2007]. status, poþet dČtí a rodinný stav. Pracovní [Aassve, Piccarreta nelového šetření Kódujeme třistav životní události najednou: pracovní status, počet dětí a rodinný status a rodinný jsou dichotomizovány, tj. máme kategorie: stav. Pracovní status a rodinný stav jsou dichotomizovány, tj. máme kategorie: zazamČstnaná (Z)/nezamČstnaná (N), (N), bez partnerem (S). (S). Poþet dČtí má městnaná (Z)/nezaměstnaná bez partnera partnera(B)/s (B)/s partnerem Počet dětípotom má potom hodnoty 0 (bezdětná), 1 (jedno dítě), 3 (tři Sekvenci děti a více). Sek- pro hodnoty 0 (bezdČtná), 1 (jedno dítČ), 2 (dvČ dČti)2 a(dvě 3 (tĜiděti) dČti aa více). zapisujeme venci zapisujeme pro zvolenou časovou jednotku (měsíc, rok atd.) a má následující zvolenou þasovou jednotku (mČsíc, rok atd.) a má následující podobu: podobu: MČsíc
1
2
3
4
5
6
7
8
9
10
11
12
13
Žena 1: NB0-NB0-NB0-NB0-NS0-NS1-NS1-NS1-NS1-NS1-NS1-NS1- NS1 Žena 2 ZS0-ZS0-ZS0-ZS0-ZS0-ZS0-ZS0-ZS0-ZS0-ZS0-NS0-NS0- NS1 Žena z prvního řádku čtyři měsíce nepracovala, neměla partnera a byla bezdětná, pátém měsíci pozorování si našla partnera v šestém porodila jedno dítě Žena zv prvního Ĝádku þtyĜi mČsíce nepracovala, nemČlaapartnera a byla bezdČtná, v pátém (v tomto případě by nejspíše šlo o dítě jiného muže, než je její nový partner). Od mČsíci pozorování si našla měsíce partnerauaní v šestém dítČ Žena (v tomto pĜípadČ řádby sedmého až do třináctého k žádnéporodila změně jedno nedošlo. z druhého ku do desátého měsíce a měla partnera, jedenáctém opustilamČsíce nejspíše šlo o dítČ jiného pracovala muže, než je její nový partner).v Od sedmého ažměsíci do tĜináctého zaměstnání, aby se ve třináctém měsíci stala matkou jednoho dítěte. Z příkladu u ní k žádné zmČnČ nedošlo. Žena z druhého Ĝádku do desátého mČsíce pracovala a mČla je zřejmé, že tento zápis umožňuje zaznamenat široké pole možných událostí v partnera, v jedenáctém mČsíci opustila zamČstnání, abyjak se zvepanelových tĜináctém mČsíci stalaz matkou neomezeném počtu kombinací. Vycházet můžeme dat, tak dat retrospektivních nebo veřejně dostupných statistik. Je-li sekvence příliš dlouhá, jednoho dítČte. Z pĜíkladu je zĜejmé, že tento zápis umožĖuje zaznamenat široké pole můžeme její zápis zkrátit: možných událostí v neomezeném poþtu kombinací. Vycházet mĤžeme jak z panelových dat, (NB0, 4)–(NS0, 1)–(NS1, takŽena z dat1:retrospektivních nebo veĜejnČ 8) dostupných statistik. Je-li sekvence pĜíliš dlouhá, Žena 2: (ZS0, 10)–(NS0, 2)–(NS1, 1) mĤžeme její zápis zkrátit: Pro každou sekvenci pomocí algoritmu optimal matching spočítáme vzdálenost, která ji dělí od všech ostatních, a tato vzdálenost následně umožňuje rozdělit 4 jednotlivé případy do Survey shluků(BHPS). (skupin navzájem co nejodlišnějších a zahrnujících co British Household Panel nejpodobnější sekvence). Vzdálenost se počítá pomocí tzv. costs (definované jako jakési náklady, které nás příslušná transformace „stojí“) a počtu operací (nahraze6 ní, vymazání, vložení), které jsou potřeba k transformaci jedné sekvence na druhou [Abbott, Tsay 2000]. Největší výhrady vůči sekvenční analýze směřují právě k tomuto postupu: costs jsou pro analytické účely konceptualizovány jako symetrické a reverzibilní. V sociální realitě to tak ovšem není – porod a úmrtí dítěte nemají stejnou váhu a návrat do výchozího stavu není ani možný. Costs však můžeme předem definovat, ale je to možné pouze arbitrárně a velmi obtížně lze tyto definice opřít o nějakou teorii. Sekvenční analýza také s časem zachází jako s lineární proměnnou, což však v soci4
British Household Panel Survey (BHPS).
- 81 -
vyþerpat všechny možné kombinace. se tedy použít jenom álních vědách není pravidlem. Například zkušenost nezaměstnaného, který je bez a je zbyteþné snažit seJednoduché víceúrovňové modelování vychází z Snažíme lineární regrese (sofistikovapráce jeden měsíc nebo 18 měsíců, není 18× menší [Wu 2000]. Sekvenční analýza nější modely i z ostatních regresních metod a jejich kombinací): teoreticky bychom [Hox 2002]. také pracuje s životní dráhou holisticky – to však může být výhoda [Abbott, Tsay které jsou vČcnČ a teoreticky mohli počítatpodloženy pro každou kategorii proměnné vyšší úrovně samostatný model line2000] – nebo naopak velká nevýhoda, neboť do samotné analýzy nemůžeme zařaární regrese, ale situace by se s přibývajícími proměnnými velice rychle zkomplidit jiné vysvětlující proměnné (např. vzdělání) [Wu 2000]. Obecně jde o metodu kovala a výsledné řešení by nebylo ze statistického ani věcného hlediska úsporné. VíceúrovĖové modely mají samozĜejmČ také svoji aplikaci na longitudinální data. Základn spíše popisnou (analyzujeme strukturu v sekvencích událostí), dále tato analýza Do modelů je totiž potřeba zahrnout i interakce proměnných z vyšších úrovní s neumožňuje rozlišit vliv času (efekt doby, kohorty). Nejsnadněji dostupný program proměnnými na nižších úrovních (cross-level), neboť regresní koeficienty na druhé principem této aplikace je, že mČĜení (þas, vČk) a promČnné, které v þase sledujeme, pro sekvenční analýzu je OM od Abbotta (dostupný na jeho webových stránkách5 ). úrovni se mohou mezi sebou lišit při zahrnutí třetí úrovně. Je však na místě podotknout, že interakce mezi proměnnými vyšších řádů výsledný model komplikují a Další alternativou je nově přidaný modul pro software STATA. považujeme za promČnné první úrovnČ a pozorovaný objekt je na druhé úrovni (stejnČ jak je zbytečné snažit se vyčerpat všechny možné kombinace. Snažíme se tedy použít jenom ty, které jsou věcně a teoreticky podloženy [Hox 2002]. Doporučená literatura a v þase se nemČní). Data také majísvoji potom podobu, kterou vidíme Víceúrovňové modely mají samozřejmě aplikaci na longitudinální Nejlepším úvodem do sekvenční analýzy v sociálních vědách jsou všechny články promČnné, které jej popisují data. Základním principem této aplikace je, že měření (čas, věk) a proměnné, které od Abbotta a jeho kolegů. Článek z roku 1990 je empiricky založenou statí [Abbott, tedypovažujeme nested (þeština pro první tentoúrovně pojem nemá ustálený v čase jsou sledujeme, za proměnné a pozorovaný objekt je pĜeklad, na Hrycak 1990], články z roku 1995 a 2000 jsou přehledovými statěmi o sekvenční v tabulce 1. Pozorování druhé úrovni (stejně jako proměnné, které jej popisují a v čase se nemění). Data analýze. Za přečtení stojí zejména stať z roku 2000, která shrnuje všechny aspekty použít výraz „vnoĜená tabulka“) promČnnou identifikující mají potom podobu, kterou vidíme v tabulce 1. Pozorování jsou tedy nested (češtimetody a uvádí i konkrétní příklady použití s empirickými výsledky [Abbott, Tsay v tomto pĜípadČ je možné na pro tento pojem nemá ustálený překlad, v tomto případě je možné použít výraz 2000]. Dobrý přehled o sekvenční analýze poskytne i její (potřebná) kritika z pera Lawrence Wu [Wu 2000]. Další možností jsou statě, jež sekvenční analýzu použí- pozorovaný objekt. „vnořená tabulka“) proměnnou identifikující pozorovaný objekt. vají: analýza průběhu pracovní kariéry [Stovel, Savage, Bearman 1996], analýza pracovní kariéry, rodinného života a bydlení [Pollock 2007] nebo tranzice ze škol- Tabulka 1: PĜíklad zápisu Tabulkadat 1: Příklad zápisu dat dat longitudinálních dat pro víceúrovňové longitudinálních pro víceúrovĖové modelování ních lavic na trh práce [McVicar, Anyadike-Danes 2002]. modelování Víceúrovňové modelování (hierarchické lineární modely), longitudinální aplikace Data, která popisují sociální realitu, mají velice často hierarchickou povahu [Goldstein 1995; MacCallum et al. 1997]. To znamená, že naše jednotky pozorování je možné seskupit do celků a skupin, přičemž lze postupovat hierarchicky: jednu úroveň je možné sloučit s dalšími o úroveň výše a tuto vyšší úroveň můžeme považovat za obecnější jednotku pozorování, která zahrnuje jednotky nižších úrovní. Typickým příkladem podobných datových struktur jsou soubory vznikající při analýze vzdělávacích systémů (žák – třída – škola – okres), kde lze jednoduše použít technik vícestupňového náhodného výběru. Teoretická motivace pro tento přístup pochází již z díla Lazarsfelda a Menzela [Lazarsfeld, Menzel 1965 in: Soukup 2006].6 Lazarsfeld konstatuje, že „některé proměnné nemá smysl měřit na individuální úrovni (mikroúrovni), ale na úrovni větších celků (makroúroveň), a to zejména proto, že působení faktorů na úrovni jednotlivců a vyšších celků může být různé“ [in Soukup 2006].7 Technicky vzato z povahy věci plyne, že data na vyšších úrovních jsou agregovaná, a chceme-li sestoupit o úroveň níže, musíme je rozložit do více pozorování (řádků v datové matici) – disaggregation. 5 Konkrétně na: http://home.uchicago.edu/~aabbott/om.html. 6 Soukupův článek je cenným úvodem pro zájemce o tuto problematiku. 7
Jedním z prvních příkladů nutnosti počítat s různou úrovní měření může být studie žáků základních škol ze 70. let minulého století [Bennet 1976 in: Ruspini 2002], která konstatovala závěr založený na lineární regresi: děti, jejichž učitel používá formálních, klasických metod výuky čtení, vykazovaly lepší výsledky než ostatní. Aitkin [1981] aplikoval na stejná data víceúrovňové modelování a všechny statisticky významné rozdíly při reanalýze s ohledem na třídu (učitele) zmizely. Základní jednotkou analýzy v tomto případě měl být učitel a nikoliv žák [Aitkin 1981 in: Ruspini 2002].
- 82 -
objekt
þas
Závisle promČnná
PromČnná 1
PromČnná 2
1 1 1 2 2 2 3 3 3
17 18 19 17 18 19 17 18 19
0 1 2 1 1 1 0 1 1
1 1 1 2 2 2 1 1 1
3 3 3 2 2 2 4 4 4
Takto pĜipravená data nám potom umožĖují modelovat kĜivky vývoje závisle promČnné
(growth curves) pro jednotlivce v závislosti na þase nebo vČku, tzv. within-subject model n také individual growth model. Podobné kĜivky mĤžeme také modelovat pro jednotlivé
skupiny definované tĜetí nebo vyšší úrovní promČnných (between-subject model). Výsledk tohoto modelování jsou pĜíslušné regresní pĜímky- 83 s pĜíslušnou konstantou a smČrnicí pro
Takto připravená data nám potom umožňují modelovat křivky vývoje závisle proměnné (growth curves) pro jednotlivce v závislosti na čase nebo věku, tzv. within-subject model nebo také individual growth model. Podobné křivky můžeme také modelovat pro jednotlivé skupiny definované třetí nebo vyšší úrovní proměnných (between-subject model). Výsledkem tohoto modelování jsou příslušné regresní přímky s příslušnou konstantou a směrnicí pro jednotlivce, skupiny nebo skupiny na ještě vyšší úrovni [Singer, Willett 2003; Hox 2000]. Velmi podobně můžeme analyzovat podíly jednotlivých úrovní a nezávislých proměnných (měnících se v čase nebo neměnných) na rozptylu, který je výsledný model schopen vysvětlit. Výhodou těchto metod je, že do analýz můžeme zahrnout nezávisle proměnné, jež zůstávají v čase neměnné nebo naopak v čase se měnící, a to na všech úrovních měření. Oproti jiným metodám (MANOVA, regresní analýza), s nimiž též můžeme testovat nulovou hypotézu, že mezi jednotlivými pozorování neexistují rozdíly, má víceúrovňové modelování longitudinálních dat tu výhodu, že dokáže ošetřit chybějící hodnoty: víceúrovňové modely nepředpokládají stejný počet měření pro všechny zkoumané jednotky [Hox 2000]. S chybějícími daty se panelová šetření navíc velice často potýkají vinou přirozené úmrtnosti panelu a metody, které vyžadují plný počet platných odpovědí, čelí problému rychle rostoucího podílu chybějících dat. Obecnou výhodou víceúrovňových modelů je jejich flexibilita umožňující vystavět model na několika kombinacích nezávisle proměnných, zařazení fixních i náhodných efektů do modelu, v případě aplikace víceúrovňových modelů na longitudinální data je zde možnost zahrnout do modelu různý počet měření pro pozorované objekty, a to i v různých časových rozestupech. Rozšíření víceúrovňových modelů nabízí vysokou flexibilitu i v možnosti odhadu jednoho modelu pro více závisle proměnných současně (v datové matici navíc zkombinujeme počet měření a počet závisle proměnných) [Goldstein 1995]. Limitem longitudinálních víceúrovňových modelů je, že vliv času nebo věku musíme považovat za lineární nebo častěji za polynomickou funkci (kvadratický nebo kubický efekt času). Znamená to však, že bychom měli mít větší počet měření (alespoň čtyři). Dále jsme omezeni tím, že do jednodušších víceúrovňových modelů nemohou vstupovat kategorické znaky, chceme-li je použít v pozici nezávisle proměnné, musíme je zavést jako tzv. dummy proměnné (výskyt v jednotlivých kategoriích dichotomizujeme na 0 a 1) nebo konstruovat modely na základě logistické regrese (pro kategorizované závisle proměnné). Dílčí komplikací (byť řešitelnou) jsou také některé výpočetní předpoklady víceúrovňového modelování 8 a zejména metoda odhadu modelů – nejčastěji metoda maximální věrohodnosti – která je citlivá na nízký počet případů v souboru a následně zkresluje některé parametry modelu [Bijleveld et al. 1998]. A obecnou nevýhodou plynoucí z povahy použité metody je požadavek na velký počet respondentů v souboru.
8
Klasické hierarchické lineární modely počítají s tím, že na jednotlivých úrovních je nějaký rozptyl; tím, že na první úrovni máme jednotlivá měření pro jednu pozorovanou jednotku, je na první úrovni rozptyl velmi malý [Hox 2000 in: Little, Schnabel, Baumert 2000].
- 84 -
Doporučená literatura Čtenář, který se chce vyhnout matematickým základům víceúrovňového modelování, může sáhnout po Applied Multilevel Analysis: A Practical Guide for Medical Researchers (Practical Guides to Biostatistics and Epidemiology) od Jose W. R. Twiska [2006]. Kniha přehledně čtenáře provádí základy, možnými použitími a interpretací jednoduchých víceúrovňových modelů. Shrnuje i možnosti běžných statistických softwarů (SPSS, SAS, STATA). Neměli bychom vynechat klasickou učebnici víceúrovňového modelování Multilevel Analysis od Joopa Hoxe [1995, 2002]. Vydání z roku 1995 je dostupné přímo na stránkách autora.9 Rozsáhlým a podrobným pramenem již přímo k longitudinálním aplikacím je kniha Applied Longitudinal Data Analysis: Modelling Change and Event Occurrence od Judith D. Singer a Johna B. Willeta [2003]. Je to kniha velmi podrobná a výkladová, čtenáře zasvětí do detailů analýzy longitudinálních dat víceúrovňovými modely a rozšířenými metodami analýzy historie událostí. Cenný je i online výkladový kurz doplněný videonahrávkami a používající konkrétní příklady pro běžně dostupné statistické programy. Přehlednou knihou, která se zabývá longitudinálními daty s důrazem na víceúrovňové modely, je i sborník textů (editoři Little, Schnabel a Baumert) Modelling Longitudinal and Multilevel Data [2000]. Kniha ukazuje názorné příklady doplněné praktickými problémy, které při analýze dat vznikají (například jak naložit s chybějícími hodnotami). Strukturní modely v analýze longitudinálních dat Mnoho konceptů v sociálních vědách není přímo zkoumatelných a vyžaduje přístup nepřímého měření prostřednictvím (sady) indikátorů. Statistickou technikou, která tento metodologický princip integruje přímo v logice samotného výpočtu, je strukturní modelování.10 Pojem latentní proměnné zavedl v 50. letech 20. století do metodologie Lazarsfeld [1950, 1968] a od té doby se jeho myšlenky staly inspirativní pro mnoho metodologických inovací.11 Latentní proměnná je nepozorovaný koncept, k němuž odkazují manifestní proměnné (v konvenčním jazyce metodologie tedy indikátory). Klasickým příkladem nepozorované latentní proměnné je inteligence, k níž mohou pouze nedokonale odkazovat manifestní proměnné měřitelné například v IQ testech, testech kognitivních schopností, jazykových dovedností. Strukturní modely dovolují jednak testovat hypotézy, v nichž jsou zahrnuty poměrně komplexní teoreticky definované koncepty, jednak dovolují testovat hypotézy o složitých vztazích celé skupiny těchto konceptů navzájem a dále také umožňují určovat podíl variance, jež je dána působením vlivů mimo naše měřitelné indikátory. Známým prostředkem pro hledání latentních konceptů na pozadí souboru měřených proměnných je exploratorní faktorová analýza. Ta může být počátečním krokem pro definici první části strukturního modelu – takzvaného modelu měření. Jestliže máme empiricky zjištěný nebo teoreticky definovaný model měření, je třeba ověřit jeho platnost na datech, jež máme k dispozici. První etapou samotného budování strukturního modelu je tedy validace modelu měření, prováděná prostřednictvím konfirmatorní faktorové analýzy. Zde již máme jasné předpoklady 9 Konkrétně na: http://www.geocities.com/joophox/publist/pubenjh.htm. 10 V češtině je užívána zkratka SM, anglický termín je Structural equation modelling (SEM). 11
Nejen tyto – kromě strukturních modelů např. latentní shluková analýza nebo celá odnož víceúrovňového modelování.
- 85 -
o struktuře faktorů a jejich návaznosti na manifestní proměnné a tyto předpoklady porovnáme s realitou prostřednictvím modelových a empirických kovariančních matic. Druhým krokem je budování samotné strukturní části modelu (nebo jednoduše strukturního modelu), tedy stanovení vazeb mezi koncepty a odhad parametrů modelu. Statistickou technikou pro tuto fázi výpočtu je path analýza (path analysis).12 Zde se jedná o „techniku vícerozměrné analýzy, v níž jsou kauzální vztahy mezi souborem proměnných reprezentovány grafy (path diagrams), jež ukazují ,cesty‘, po nichž vede kauzální vliv mezi jednotlivými koncepty“ [Ruspini, 2002: 111]. Na rozdíl od regresní analýzy je zde umožněn jednorázový test hypotézy o celé struktuře vztahů mezi proměnnými, tedy na základě měření množiny proměnných lze predikovat chování jiné množiny proměnných. Pro využití strukturních modelů v longitudinálním výzkumu jsou zmiňovány dva přístupy. Jednak je možné opakováním strukturního modelu v čase porovnávat, jak se mění kovarianční matice, a tyto změny připisovat efektu času. Tyto modely se nazývají autoregresivní a vycházejí z předpokladu, že tatáž proměnná by měla být v jednotlivých bodech času sama se sebou silně korelovaná (tím více, čím méně dochází ke změně v čase). Možnost strukturního modelu stanovit kromě vysvětleného rozptylu také rozptyl daný chybou měření je v tomto případě využita pro specifikaci časového efektu. Tato chyba může být (na rozdíl od vícerozměrné regrese) taktéž korelovaná, můžeme jejím prostřednictvím odhadovat časový trend. Jiný přístup nazývaný modelování růstových křivek (growth curve modelling) nabízí možnost definovat průměrný vzorec změny v čase, již v datech očekáváme, a následně tento předpoklad ověřovat. Podobně jako v regresní analýze je pro změnu v čase definována průměrná směrnice i posunutí křivky, kolem níž variují jednotlivci. [Bijleveld et al. 1998: 234]. Doporučená literatura a software Obrázek o strukturním modelování si lze v českém kontextu vytvořit prostřednictvím metodologicky i empiricky orientovaných studií Petra Matějů [Matějů, 1989, Matějů, Straková, 2006]. Pro pochopení metodologických a statistických základů, nicméně s aplikací na psychologii, poslouží Urbánek [2000]. Podrobné informace poskytnou publikace speciálně zaměřené na longitudinální aplikace strukturních modelů – např. [Duncan, Strycker, Li, 1999 nebo Bollen, Curran, 2005]. Původním softwarem pro strukturní modelování je LISREL (Linear Structural Relationships) [Jöreskog, Sörbom, 2001]. Novější a uživatelsky přístupnější je program AMOS, jenž umožňuje budovat modely v grafickém uživatelském prostředí. Oba programy však vycházejí ze stejných konvencí (např. při zadávání modelu). Zpracování kategorizovaných longitudinálních dat Kategorizovaná povaha dat v sociálněvědním výzkumu nemusí být dána jen specifickým přístupem k měření, jeho obtížností či nedokonalostmi, ale vyplývá také často ze samotné povahy měřených jevů. Některé koncepty používané v sociologii, jako je sociální třída, mají bytostně diskrétní a kategorizovanou povahu, proto velkou pozornost získávají statistické techniky, jež dokážou z těchto dat vytěžit 12
České termíny nejsou příliš známé. Užívá se někdy úseková analýza.
- 86 -
maximum. V analýze longitudinálních dat se pro tyto případy nejčastěji využívá log-lineárních a Markovových modelů. Nástin problematiky log-lineárního modelování v českém kontextu poskytl Katrňák [2008] 13 a smysl jeho textu byl velice podobný jako zde – vysvětlit principy budování log-lineárních modelů a odkázat čtenáře na relevantní zahraniční literaturu. Zde se proto budeme věnovat pouze vysvětlení základní logiky tohoto přístupu a zaměříme se zvláště na využití log lineárních modelů pro analýzu longitudinálních dat a popis logiky Markovových modelů, jež Katrňák nezmiňuje. Log-lineární modelování je statistickou technikou, která se začala rozvíjet v poslední třetině 20. století, v sociologii především na půdě sociálně-stratifikačních výzkumů. Matematicky jde o techniku příbuznou logistické regresi, nicméně svoje užití nachází tam, kde nejsme schopni konceptuálně určit směr předpokládané kauzality. Z tohoto hlediska jsou tedy log-lineární modely symetrické a nabízí možnost postihnout míru a charakter asociace mezi zkoumanými proměnnými. Oproti běžným asociačním koeficientům však můžeme hlouběji proniknout do struktury asociace. Další charakteristikou, která plyne z povahy techniky, je použití kategorizovaných dat. Log lineární modelování je prakticky jednou z mála možností zpracování velmi komplexních kontingenčních tabulek, u nichž by použití běžných měr asociace odpovídalo spíše intuitivnímu porovnávání jejich hodnot [Knoke, Burke, 1980]. Tak jako u každého přístupu využívajícího statistické modely i zde nás zajímají dva aspekty výsledků. Jednak je to přesnost modelu – tedy schopnost teoreticky budovaného matematického modelu reprodukovat uspokojivě empiricky zjištěná data. V tomto případě nás tedy zajímají míry dobré shody, jako jsou testy Chí-kvadrátu či maximální věrohodnosti či kritérium BIC. Na druhé straně – a to nás obvykle zajímá nejvíce – jsou to samotné parametry modelu, které nám dávají informaci o vzájemné souvislosti zkoumaných fenoménů a také poskytují vhled do struktury tohoto vzájemného vztahu. 14 Základní snahou výzkumníka či výzkumnice je pak hledání modelu, který bude přijatelným kompromisem mezi přesností a interpretačními možnostmi. Povaha reality je taková, že přesnost modelu je obvykle dosažitelná zvyšováním počtu parametrů, jež však lze obtížně interpretovat. Model tak postupně ztrácí svoji návaznost na teorii, která má zjednodušeně vystihnout základní rysy reality a stává se její doslovnou parametrizací. 15 Oproti regresi nepracujeme v log-lineárním modelu s vysvětlovanou proměnnou v pravém slova smyslu. Výsledkem rovnice je zde frekvence (její přirozený logaritmus) v příslušném poli kontingenční tabulky. Všechny věcné proměnné, které do analýzy zahrnujeme, jsou tedy v pozici vysvětlujících proměnných.16 S pomocí sady 13 Jde o apendix věnovaný technice log-lineárního modelování. 14
Viz například detailní popis struktury asociace vzdělání partnerů na sňatkovém trhu [Katrňák, Kreidl, Fónadová, 2004]. 15 Na konci tohoto procesu je takzvaný saturovaný model, jehož odchylka od empirických dat je nulová, nicméně počet parametrů odpovídá stupňům volnosti. Jako zobecnění tedy ztrácí smysl. 16 Proto vhodnost log-lineárního modelování pro vztahy, v nichž neurčujeme směr kauzality. Oproti regresnímu modelování je zde i rozdíl v principu odhadu parametrů. Zatímco regrese pracuje primárně s odhadem nejmenších čtverců (Ordinary Least Squares – OLS), parametry log-lineárního modelu jsou identifikovány prostřednictvím maximální věrohodnosti (Maximum Likelihood Estimation – MLE), jejíž přednost spočívá v testování modelu jako celku, nikoliv jednotlivých parametrů. Nevýhodou je naopak nejednoznačnost odhadu v případech, kdy věrohodnostní funkce dosahuje lokálních maxim.
- 87 -
rozdílný þasový okamžik a její další vrstvy (jimiž mohou být pĜi analýze mobility další tĜídící
zmínČných modelech s uniformní diferencí považována za konstantní.
promČnné, napĜíklad stát) pĜidávají efekty þasovČ konstantních promČnných. Aþkoliv se v tomto parametrů, pĜípadČ nejedná o analýzu longitudinálních dat interakce v pravém působení smyslu, jde o první jež jsou interpretovány jako různé vysvětlujících proměnných, odhadujeme šanci ocitnout se v dané kategorii kontingenční tabulky. možnost, jak modelovat pĜechody z jedné kategorie do jiné v urþitém þasovém období. Tento Tedy například šanci vysokoškoláka uzavřít vzdělanostně homogamní sňatek, šanci pĜístup je univerzálnČ použitelný chceme vedodvou vlnách příslušníka nižší třídy na vždy, posunkdyž jeho potomků střední třídypanelového a podobně.šetĜení
Schéma 2: Log-multiplikativní Schéma 2: Log-multiplikativní model: t=1
porovnat pĜíslušnost do daných kategorií jedné promČnné (viz schéma 1). Čas a log-lineární modely
ij0
y x
Schéma 1: Log-lineární model pro dva body v þase:
Schéma 1: Log-lineární model pro dva body v čase:
model:
t=2
t=3
ij1
y
t=x ijx
y
x
x
t=2 A
B
C
D
A t=1
B C D
Na takto definovanou kontingenþní tabulku pak „pĜikládáme“ rĤzné teoreticky definované Čas může být v log-lineárním modelování přítomen ve dvou rovinách. Implicitně modely pro postižení zmČny v þase. PĜedpokládáme-li naprostou nezávislost obou stavĤ, byl přítomen již v modelech, které stály na začátku rozvoje této techniky. Mezigenepoužijeme model nulové asociace, pĜedpokládáme-li silnou asociaci a zajímají náspozice pouzeotce rační mobilita měřená v kontingenční tabulce o dvou dimenzích – třídní vůči třídní pozici syna – představuje nejjednodušší (ačkoliv nepřímý) způsob konzmČny, použijeme model s blokovanými parametry pro diagonálu. Dále je možné testovat ceptualizace časového efektu v log lineárním modelování [Bishop, 1975]. Obě divelké množství vzorcĤ asociace, mezi reprezentují nejþastČjší patĜí symetrický nesymetrický modelvrstvy – menze kontingenční tabulky rozdílný časovýaokamžik a její další (jimiž mohou být při analýze mobility další třídící proměnné, například stát) přidátedy pĜedpoklad, zda se pravdČpodobnost zmČny stavu liší u jednotlivých kategorií zkoumané vají efekty časově konstantních proměnných. Ačkoliv se v tomto případě nejedná o promČnné. analýzu longitudinálních dat v pravém smyslu, jde o první možnost, jak modelovat přechody z jedné kategorie do jiné v určitém časovém období. Tento přístup je uniJiným zpĤsobem þasové analýzy mĤže být ve využití novČjších typĤ modelĤ je verzálně použitelný vždy, když chceme dvou vlnách panelového šetřeníjako porovnat příslušnostmodel do daných kategorií jedné mezi proměnné (viz schéma 1). Erikson, 1992] log-multiplikativní s uniformní diferencí tabulkami [Xie, 1992, Na takto definovanou kontingenční tabulku pak „přikládáme“ různé teoreticky anebo model s regresní mezitabulkovou diferencí [Goodman, Hout 1998, 2001]. definované modely pro postižení změny v čase. Předpokládáme-li naprostou nezáZjednodušenČ zde pĜedstavují jednotlivé dvojrozmČrné (pĜípadnČ i vícerozmČrné) vislostĜeþeno, obou stavů, použijeme model nulové asociace, předpokládáme-li silnou asociaci a zajímají nás pouze změny, použijeme model s blokovanýmikontingenþní parametry pro tabulky diskrétní þasové body a þasová rovina tvoĜí další vrstvu vícerozmČrné diagonálu. Dále je možné testovat velké množství vzorců asociace, mezi nejčastější tabulky patří (þas jesymetrický zde chápána nesymetrický jako další kategorizovaná promČnná). KromČ samotné model – tedy předpoklad, zda struktury se pravděpodobnost změny stavu liší u jednotlivých kategorií zkoumané proměnné. Jiným způsobem časové analýzy může být využití novějších typů modelů jako
je log multiplikativní model s uniformní mezi tabulkami [Xie, 1992, daty ErikLog-lineární modely lze doporuþit všude tam,diferencí kde pracujeme s kategorizovanými son, 1992] anebo model s regresní mezitabulkovou diferencí [Goodman, Hout 1998, a konceptuálnČ není urþena řečeno, závisle promČnná. Jejich jednotlivé technickoudvojrozměrné nevýhodou je (případně náchylnost i 2001]. Zjednodušeně zde představují vícerozměrné) tabulky diskrétní časové body a časová rovina tvoří další vík nestabilitČ odhadĤ pĜi nulovém obsazení jakýchkoliv bunČk kontingenþní vrstvu tabulky cerozměrné kontingenční tabulky (čas je zde chápán jako další kategorizovaná proa nevýhodou vČcnou je velmi obtížná interpretace složitČjších modelĤ, kdy jsme nuceni měnná). Kromě struktury samotné asociace v hlavní tabulce (mohla by to být navybírat interpretaci jen u nejdĤležitČjších příklad vzdělanostní homogamie)interakcí. je zde modelována odlišnost tabulek navzájem. Časový efekt je tedy v prvním případě parametrizován jako multiplikátor (obvykle označovaný jako φ-parametr), jenž udává změnu síly asociace relativně vzhledem k prvnímu bodu v čase. Model s regresní mezitabulkovou asociací doplňuje možnost Markovovy modely modelovat změny ve struktuře asociace, která je ve výše zmíněných modelech s uniformní diferencí považována za konstantní. Další možností zpracování kategorizovaných dat z longitudinálních výzkumĤ je využití Log-lineární modely lze doporučit všude tam, kde pracujeme s kategorizovaMarkovových Oproti log-lineárním nabízí skuteþnou dynamiky nými datymodelĤ. a konceptuálně není určenamodelĤm závisle proměnná. Jejichanalýzu technickou nevýhodou je náchylnost k nestabilitě odhadů při nulovém obsazení jakýchkoliv buněk dČjĤ, proto je nacházíme v mnoha pĜípadech zkoumání rozliþných oblastí lidského života, kontingenční tabulky a nevýhodou věcnou je velmi obtížná interpretace složitějších také vmodelů, kontrolekdy jakosti þi nuceni dokoncevybírat rozpoznávání Ĝeþi. jen u nejdůležitějších interakcí. jsme interpretaci Markovovy modelymodely pĜedstavují široké spektrum pĜístupĤ od pomČrnČ jednoduchých až po Markovovy Další možností zpracování kategorizovaných dat z longitudinálních výzkumů dané je vyvelmi komplexní. Jejich základní charakteristikou je zkoumání tranzicí mezi kategoriemi užití Markovových modelů. Oproti log-lineárním modelům nabízí skutečnou anapromČnné z jednoho bodu v þase do bodu následujícího. Jelikož zde pracujeme s takzvanými lýzu dynamiky dějů, proto je nacházíme v mnoha případech zkoumání rozličných Markovovými ĜetČzci, života, jež reprezentují sled po jakosti sobČ následujících dané promČnné, oblastí lidského také v kontrole či dokonce stavĤ rozpoznávání řeči. lze Markovovy modely představují široké spektrum přístupů od poměrně jednodutyto modely alespoĖ pro základní pĜehled rozdČlit na ty, které pracují s jedním ĜetČzcem, a na chých až po velmi komplexní. Jejich základní charakteristikou je zkoumání tranzicí ty, které ĜetČzcĤdané více.proměnné Jednoduchýz pĜístup pĜedpokládá, že celá zkoumaná populace mezimodelují kategoriemi jednoho bodu v čase do bodu následujícího. Jelikož zde pracujeme s takzvanými Markovovými řetězci, jež reprezentují po je homogenní, pokud jde o pravdČpodobnost zmČny v þase, a proto postuluje pouzesled jeden sobě následujících stavů dané proměnné, lze tyto modely alespoň pro základní přehled rozdělit na ty, které pracují s jedním řetězcem, a na ty, které modelují řetězců 16
15
- 88 -
- 89 -
definovány zvlášĢ pro rĤzné analyticky vymezené skupiny (mixed Markov models). Dalším kritériem, podle nČjž lze Markovovy modely klasifikovat, je užití latentních více. Jednoduchý přístup předpokládá, že celá zkoumaná populace je homogenní, promČnných. rozdíl od log-lineárních mĤžeme využít podobný principMarjako pĜi pokud jde oNa pravděpodobnost změnymodelĤ v čase,zde a proto postuluje pouze jeden kovův řetězec (simple Markov Model). Více interpretačních možností samozřejmě strukturním modelování – princip indikace latentní promČnné nČkolika manifestními nabízí porovnávání různých subpopulací, proto užíváme vícenásobné Markovovy promČnnými. Pro definovány sociologickézvlášť koncepty je tento pĜístup vymezené velmi vhodný. MĤžeme řetězce, jež jsou pro různé analyticky skupiny (mixedtedy Markov models). používat Markovovy modely s latentními i manifestními promČnnými. Tuto aplikaci pak lze Dalším kritériem, podle nějž lze Markovovy modely klasifikovat, je užití latentkombinovat v jednoduchých (latent Markov models) i ve vícenásobných (latent ních proměnných. Na rozdílĜetČzcích od log-lineárních modelů zde můžeme využít podobný princip jako při strukturním modelování – princip indikace latentní proměnné němixed Markov models). kolika manifestními proměnnými. Pro sociologické koncepty je tento přístup velmi vhodný. Můžeme tedy používat Markovovy modely s latentními i manifestními Analýza prostĜednictvím Markovových modelĤ je velmi podobná klasickému log-lineárnímu proměnnými. Tuto aplikaci pak lze kombinovat v jednoduchých řetězcích (latent modelování. I zde jsou data ve formČ kontingenþních tabulek a i zde nás zajímají parametry Markov models) i ve vícenásobných (latent mixed Markov models). Analýzafrekvenci prostřednictvím modelů je velmi podobná klasickému vysvČtlující výskytĤ vMarkovových daném poli kontingenþní tabulky. V tomto pĜípadČ však log-lineárnímu modelování. I zde jsou data ve formě kontingenčních tabulek a i jednotlivá pole tabulky zpracováváme jako pravdČpodobnost tranzice z jednoho stavu do zde nás zajímají parametry vysvětlující frekvenci výskytů v daném poli kontingenčdruhého. TakéV logika dat jednotlivá je podobná.pole Základním je dvojrozmČrná tabulka, ní tabulky. tomtouspoĜádání případě však tabulkyprvkem zpracováváme jako pravděpodobnost tranzice z jednoho stavu do druhého. Také logika uspořádání dat je v níž obČ promČnné znamenají stav v þase t a t + 1. Jednoduchý MarkovĤv ĜetČzec pak sestává podobná. Základním prvkem je dvojrozměrná tabulka, v níž obě proměnné znameznají libovolného množství tabulek (diskrétních v þase), tudíž mĤžeme pokraþovat stav v čase t a t +tČchto 1. Jednoduchý MarkovůvbodĤ řetězec pak sestává z libovolného množství těchto tabulek bodů3vpro čase), napĜ. tabulkou 2, kde je t + (diskrétních 1 a t + 2, tabulkou t + 2tudíž a t + můžeme 3 atd. (vizpokračovat schéma). např. tabulkou 2, kde je t + 1 a t + 2, tabulkou 3 pro t + 2 a t + 3 atd. (viz schéma). Schéma 3: Jednoduchý MarkovĤv ĜetČzec:
Schéma 3: Jednoduchý Markovův řetězec:
t=2 A t=1
A B
t=3 B
A t=2
t=4 B
A t=3
A B
B
A B
Předpokladem těchto modelů je také závislost přechodu pouze na stavu v předcházejícím časovém bodě. Teprve Markovovy modely vyšších řádů předpokládají PĜedpokladem tČchto modelĤ přechodu je také závislost pouze vnapředchozích stavu v pĜedcházejícím závislost pravděpodobnosti na delšípĜechodu historii stavů bodech měření a umožňují ji modelovat. Zde je však struktura dat odlišná, základní tabulka þasovém bodČ. Teprve Markovovy modely vyšších ĜádĤ pĜedpokládají závislost musí zahrnovat data za více časových bodů. pravdČpodobnosti pĜechodujsou na delší historii stavĤ vanalýzy pĜedchozích bodech mČĜení umožĖují ji Markovovy modely prvním stupněm dynamických jevůapopisovaných kategorizovanými proměnnými v diskrétních časových Umožňují modelovat. Zde je však struktura dat odlišná, základní tabulka musíbodech. zahrnovat data za více nám popsat pravděpodobnosti přechodu z jednoho stavu do druhého, ale nejsou již þasových schopnybodĤ. zahrnout do analýzy příčiny či faktory, které tranzice ovlivňují. Jisté rozšíření explanační síly nabízí vícenásobné řetězce, kde modelujeme pravděpodobnosti přechodů pro různé podskupiny souborů, nicméně ani v tomto případě nelze použít širší množinu vysvětlujících proměnných, jak jsme zvyklí např. z logistické regrese. 17 - 90 -
Literatura a software Zájemce o aplikaci log-lineárních modelů odkazujeme na přehlednou a poměrně stručnou učebnici Knoke, Burke [1980], v níž je věnována kapitola využití log-lineárních modelů pro časová data. Základní vhled pro českého čtenáře může nabídnout Katrňák [2008], jenž však popisuje obecné modely, nikoliv jejich longitudinální aplikaci. Základy Markovových modelů lze najít již u Bishop et al. [1975], nověji např. Bijleveld et al. [1998]. Softwarovým prostředkem pro aplikaci jednodušších modelů může být balík SPSS. Budovat složitější log lineární i Markovovy modely však umožňuje specifický software LEM, jenž je volně ke stažení 17, a texty z pera jeho tvůrce (J. Vermunt) ozřejmí detaily techničtěji orientovaným zájemcům a zájemkyním o využití těchto přístupů [Vermunt 1996, 1997]. Závěr Popsané techniky tvoří pouhou část z široké množiny přístupů k analýze longitudinálních dat, nicméně snažili jsme se popsat ty nejpoužívanější a vhodné pro panelová šetření. Na závěr doplňujeme přehled usnadňující výběr analytické techniky. Tabulka je převzata a adaptována z přehledové publikace Bijleveld et al. [1998] 18 , přičemž techniky jsou zde tříděny na základě několika hlavních kritérií. Pro volbu analýzy je podstatné, zda chceme pracovat s latentními proměnnými, tedy jestli hodláme více indikátorů použít jako odkazy k obecněji definovanému konceptu. Roli samozřejmě hraje úroveň měření použitých proměnných a také je třeba při analýze respektovat distribuční předpoklady (tak jak je známe například z regresní analýzy). Dále je techniky možné třídit podle toho, zda předpokládáme určitý směr kauzality, máme určitou předpokládanou strukturu vlivů nebo chápeme vztahy mezi proměnnými jako symetrické. Nakonec uvádíme dvě technická kritéria, jimiž je velikost analyzovaného souboru z hlediska počtu případů a také počet měření v čase. Přejeme kolegyním a kolegům hodně zdaru při výpočtech a hlavně, aby se aplikace pokročilých statistických metod nestala „kladivem na sociologickou imaginaci“. Literatura AASVE, A.; BILLARI, F. C.; PICCARRETA, R. 2006. Strings of adulthood: A sequence analysis of young British women‘s work-family trajectories. In Workshop on Becoming an Adult – An International Perspective on the Transitions to Adulthood. Montreal, Canada, s. 369–388. ABBOTT, A. 1995. Sequence-Analysis – New Methods For Old Ideas. Annual Review of Sociology. 1995, n. 21, s. 93–113. ABBOTT, A.; HRYCAK, A. 1990. Measuring Resemblance In Sequence Data – An Optimal Matching Analysis Of Musicians Careers. American Journal of Sociology. 1990, n. 96, s. 144–185. ABBOTT, A.; TESY, A. 2000. Sequence analysis and optimal matching methods in sociology – Review and prospect. Sociological Methods & Research. 2000, n. 29, s. 3–33. 17 Stránky Jeroena Vermunta – oddíl software: http://spitswww.uvt.nl/~vermunt/#Software 18
V tabulce uvádíme i přístupy, jichž jsme se ve stati nedotkli, nicméně pro nastínění kontextu považujeme tyto zmínky za užitečné.
- 91 -
AITKIN, M.; ANDERSON, D.; HINDE, J. 1981. Statistical Modelling of Data on Teaching Styles. Journal of The Royal Statistical Society 144. In RUSPINI, E. An Introduction to Longitudinal Research (Social Research Today). London : Routledge, 2002, s. 148–61.
Approach. Sociological Methodology. 1998, vol. 28, n. 1, s. 175–230.
ALWIN, D. F.; HAUSER, R. M. 1975. The decomposition of effects in path analysis. American Sociological Review. 1975, n. 40, s. 37–47.
GOODMAN, L. A.; HOUT, M. 2001. Statistical Methods and Graphical Displays for Analyzing How the Association Between Two Qualitative Variables Differs Among Countries, Among Groups or Over Time. Part II: Some Explanatory Techniques, Simple Models, and Simple Examples. Sociological Methodology. 2001, vol. 31, n. 1, s. 189–221.
ARBUCKLE J. L.; WOTHKE, W. Amos 4.0 User’s Guide. Chicago : Small Waters Corpo n,.
HAMPLOVÁ, D. 2004. Výzkum životní dráhy a event-history analýza. SDA Info. 2004, č. 1, s. 8–10.
BENNET, N. 1976. Teaching Styles and Pupil Progress. London : Sage. In RUSPINI, E. An Introduction to Longitudinal Research (Social Research Today). London : Routledge, 1976, s. 148–61.
HENDL, J. 2004. Přehled statistických metod zpracování dat. Praha : Portál, 2004.
BENTLER, P. M. 1980. Multivariate analysis with latent variables: causal modeling. American Review of Psychology. 1980, n. 31, s. 419–456. BIELBY, W. T.; HAUSER, R. M. 1977. Structural equation models. Annual Review of Sociology. 1977, n. 3, s. 137–161. BIJLEVELD, C. J. H.; CATRIEN, K,; LEO, J. Th.; MOOIJAART, A; KLOOT, A. W.; LEEDEN, R.; BURG, E. 1998. Longitudinal data analysis: Design, Models and Methods. London : Sage, 1998. BISHOPY, Y. M.; FIENBERG, S. E.; HOLLAND, P. W. 1975. Discrete multivariate analysis : theory and practice. Cambridge Mass : MIT Press, 1975. BLALOCK, H. M. (ed.) 1977. Causal models in the social sciences. Chicago : Aldine, 1977, s. 299–319. BLOSSFELD, H. P.; ROHWER, G. 2002. Techniques of Event History Modeling: New Approaches to Causal Analysis. Mahwah : Lawrence Erlbaum Associates, 2002. BOLLEN, K. A.; CURRAN, P. J. 2005. Latent curve models: a structural equation perspective. New York : Wiley-Interscience, 2005. BOX-STEFFENSMEIER, M.; JANET, J.; BRADFORD, S. 2004. Event History Modelling: A Guide for Social Scientists. Cambridge : Cambridge University Press, 2004.
HOX, J. 1995. Applied Multilevel Analysis. Amsterdam : TT-Publikaties, 1995. HOX, J. 2000. Multilevel Analysis of Grouped and Longitudinal Data. In LITTLE, D.; TODD, S.; KAI, U.; BAUMERT, J. 2000. Modelling Longitudinal and Multilevel Data: Practical Issues, Applied Aproaches and Specific Examples. Mahwah : Lawrence Erlbaum Associates, 2000. HOX, J. 2002. Multilevel Analysis: Techniques and Applications. Mahwah : Lawrence Erlbaum Associates, 2002. HOYLE, R. H. (ed.). 1995. Structural equation modeling: concepts, issues, and applications. Thousand Oaks : Sage, 1995. JÖRESKOG, K.; SÖRBOM, D. 2001. LISREL 8. User’s Reference Guide. Lincolnwood : Scientific Software International, 2001. KATRŇÁK, T. 2008. Spříznění volbou? Homogamie a heterogamie manželských párů v České republice. Praha : Slon, 2008. KATRNŇÁK, T.; KREIDL, M.; FÓNADOVÁ, L. 2004. Has the Post-communist Transformation Led to an Increase in Educational Homogamy in The Czech Republic after 1989?. Czech Sociological Review. 2003, n. 3, s. 297–318. KLEINBAUM, G. D. 1995. Survival Analysis: A Self-Learning Text. New York : Springer, 1995. KNOKE, D.; BURKE, P. J. 1980. Log-Linear Models. Newbury Park : Sage, 1980.
BYRNE, B. 2001. Structural equation modeling with AMOS: basic concepts, applications, and programming. Philadelphia : Lawrence Erlbaum Associates, 2001.
LAZARSFELD, P. F.; MENZEL, H. 1965. On the Relation between Individual and CollectiveProperties. In ETZIONI, A. (ed.). Complex Organizations. New York : Holt, Rinehart & Winston, s. 422–440. In SOUKUP, P. Proč užívat hierarchické lineární modely? Sociologický časopis. 2006, roč. 42 č. 5, s. 987–1012.
DUNCAN, T. E.; DUNCAN, S. C.; STRYCKER, L. A.; LI, F. 1999. An introduction to latent variable growth curve modeling: concepts, issues, and applications. Lawrence Erlbaum Associates, 1999.
LAZARSFELD, P. F. 1950 The Logical and Mathematical Foundations of Latent Structure Analysis. Chapter 10 In STOUFFER, S. A. 1950.
ERIKSON, R.; GOLDTHORPE, J. H. 1992. The Constant Flux. A Study of Class Mobility in Industrial Societies. Oxford : Clarendon Press, 1992.
LAZARSFELD, P. F. 1959. Latent Structure Analysis. In KOCH, S. (ed.) Psychology: A Study of a Science. New York : McGraw-Hill, 1959, vol. 3.
GOLDSTEIN, H. 1995. Multilevel statistical models. New York : Halsted, 1995.
LAZARSFELD, P. F. and NEIL, W. H. 1968. Latent Structure Analysis. Boston : Houghton Mifflin, 1968.
GOODMAN, L. A.; HOUT, M. 1998. Statistical Methods and Graphical Displays for Analyzing How the Association Between Two Qualitative Variables Differs Among Countries, Among Groups or Over Time: A Modified Regression-Type
LITTLE, D. T.; SCHNABEL, U. K.; BAUMERT, J. 2000. Modelling Longitudinal and Multilevel Data: Practical Issues, Applied Aproaches and Specific Examples. Mahwah : Lawrence Erlbaum Associates, 2000.
- 92 -
- 93 -
LOEHLIN, J. C. 2004. Latent variable models: an introduction to factor, path, and structural equation analysis. Mahwah : Lawrence Erlbaum Associates, 2004. MACCALLUM, R. C.; KIM, Ch.; MALARKEY, W. B.; KIECOLT-GLASER, J. K. 1997. Studying Multivariate Change Using Multilevel Models and Latent Curve Models. Multivariate Behavioral Research. 1997, vol. 32, n. 3, s. 215–53. MARTINUSSEN, T.; SCHEIKE, T. H. 2006. Dynamic regression models for survival data. New York : Springer, 2006. MATĚJŮ, P. 1989. Metoda strukturního modelování. Přehled základních problémů. Sociologický časopis. 1989, roč. 25, č. 4, s. 399–418.
Tilburg University Press, 1996. VERMUNT, J. K. 1997. Log-linear models for event histories. Advanced Quantitative Techniques in the Social Sciences Series, vol 8, 348 pages. Thousand Oakes : Sage, 1997. WU L. L. 2000. Some comments on „sequence analysis and optimal matching methods in sociology: Review and prospect“. Sociological Methods & Research. 2000, n. 29, s. 41–64. XIE, Y. 1992. The Log-Multiplicative Layer Effect Model for Comparing Mobility Tables. American Sociological Review. 1993, vol. 57, n. 3, s. 380–395. YAMAGUCHI, K. 1991. Event History Analysis. London : Sage, 1991.
MATĚJŮ, P.; STRAKOVÁ, J. et al. 2006. Nerovné šance na vzdělání. Praha : Academia, 2006. MCVICAR, D. and ANYADIKE-DANES, M. 2002. Predicting successful and unsuccessful transitions from school to work by using sequence methods. Journal of the Royal Statistical Society Series a-Statistics in Society. 2002, vol. 165, s. 317–334. POLLOCK, G. 2007. Holistic trajectories: a study of combined employment, housing and family careers by using multiple-sequence analysis. Journal of the Royal Statistical Society Series a-Statistics in Society. 2007, vol. 170, s. 167–183. PREACHER, K. J. et al. 2008. Latent Growth Curve Modeling. Thousand Oaks : Sage, 2008. RUSPINI, E. 2002. An Introduction to Longitudinal Research (Social Research Today). London : Routledge, 2002. SINGER, B. J.; WILLETT, B. J. 2003. Applied longitudinal data analysis: modeling change and event occurrence. New York : Oxford University Press, 2003. SOUKUP, P. 2006. Proč užívat hierarchické lineární modely? Sociologický časopis. 2006, roč. 42, č. 5, s. 987–1012. STOUFFER, S. A. et al. 1950. Measurement and Prediction, Volume IV of The American Soldier: Studies in Social Psychology in World War II.. Princeton University Press. Reprinted 1973 by Peter Smith, Gloucester MA. STOVEL, K.; SAVAGE, M. and BEARMAN, P. 1996. Ascription into achievement: Models of career systems at Lloyds Bank, 1890–1970. American Journal of Sociology. 1996, n. 102, s. 358–399. ŠTĚPÁNEK, P. 1970. Path analýza a možnosti jejího uplatnění v sociolgii. Sociologický časopis. 1970, č. 6, s. 58–70. TWISK, W. R. J. 2006. Applied Multilevel Analysis: A Practical Guide for Medical Researchers (Practical Guides to Biostatistics and Epidemiology). Cambridge : Cambridge University Press, 2006. URBÁNEK, T. 2000. Strukturální modelování v psychologii. Psychologický ústav AVČR. Brno : Nakladatelství Křepelka, 2000. VERMUNT, J. K. 1996. Log-linear event history analysis: a general approach with missing data, unobserved heterogenei¬ty, and latent variables. Tilburg :
- 94 -
- 95 -
- 96 - 97 -
ne ne ano
VíceúrovĖové modelování Log-lineární analýza Markovovy modely pĜevzato a doplnČno z Bijleveld et al, 1998
ano
normalita
normalita
normalita
žádné
žádné
žádné
žádné
žádné
žádné
Distribuþní pĜedpoklady
kategorizované multinomické
kategorizované multinomické
spojité
spojité
spojité
ne
Strukturní modelování
kategorizované
kategorizované
ano
ano
Nelineární zobecnČná kanonická analýza
kategorizované
kategorizované
ano
VícerozmČrná korespondenþní analýza
spojité, kategorizované spojité, kategorizované
ÚroveĖ mČĜení
ano
ano
Sekvenþní analýza
Lineární analýza dynamických systémĤ s optimálním škálováním pro N = 1 Lineární analýza dynamických systémĤ s optimálním škálováním pro N > 1 Opakovaná mČĜení (vícerozmČrná) analýza rozptylu
ne
Analýza historie událostí
Latentní promČnné
Apendix: Charakteristiky technik analýzy longitudinálních dat
ano
ne
ano
ano
ano
ano
ano
ano
ne
ne
ano
SmČr kauzality
velmi velký
malý
malý – velký
malý – stĜední
stĜední – velký velký
malý
stĜední – velký malý – stĜední
velký
jakýkoliv
jakýkoliv
jakýkoliv
jakýkoliv
Poþet mČĜení v þase
velký
malý – velký
jakýkoliv
1
jakýkoliv
jakýkoliv
stĜední – velký stĜední – velký
Poþet pĜípadĤ
23