THE OHIO STATE UNIVERSITY QUANTITATIVE RESEARCH EVALUATION AND MEASUREMENT PROGRAM
ANTAL JUDIT
´ TESZTEK A RASCH MODELLBEN MONTE CARLO ILLESZKEDESI Ford´ıt´ as az eredetir˝ ol: MONTE CARLO GOODNESS OF FIT TESTS FOR THE RASCH MODEL
T´emavezet˝o: Ayres D’Costa, Ph.D.
2003
1
1.
Bevezet´ es
A tesztelm´eleti modelleket els˝ osorban az itemek ´es az azokat megold´o egy´enek k¨oz¨otti bonyolult k¨ olcs¨ onhat´ as meg´ert´es´ere haszn´ aljuk. Matematikai modellek fel´all´ıt´as´anak els˝osorban az a c´elja, hogy a vil´ agot leegyszer˝ us´ıts¨ uk mindamellett, hogy egyens´ ulyban tartsuk a modell komplexit´as´ at ´es a modell - val´ os´ ag k¨ oz¨ otti megegyez´est. Min´el bonyolultabb egy j´ol fel´all´ıtott modell, ann´ al jobban ´ abr´ azolja a val´ os´ agot. Ugyanakkor, a bonyolults´ag nehez´ıti a meg´ert´est. Sokkal nehezebb meg´erteni egy elm´elet l´enyeg´et akkor ha az t´ ul sok komplex r´eszb˝ol tev˝odik ¨ossze. Azt, hogy egy modell milyen m´ert´ekben k´epes le´ırni a fent eml´ıtett k¨olcs¨onhat´ast - amely er˝ osen befoly´ asolja a modell ir´ anti bizalmunkat - az illeszked´esi tesztekkel tudjuk lem´erni. Ez´ert teh´ at nagyon fontos, hogy rendk´ıv˝ ul megb´ızhat´o illeszked´esi teszteket dolgozzunk ki. Egy sz´ep elm´eletet˝ ol neh´ez felcser´eni n´ al´ an´ al bonyolultabbra, kiv´eve ha az egyszer˝ u modellhez k´epest a m´ert adatok jelent˝ osen elt´ernek. A szerz˝o v´elem´enye szerint, sajnos sok esetben f´elre tesz¨ unk j´ ol haszn´ alhat´ o modelleket a nem megfelel˝o illeszked´esi indexek haszn´alata miatt. Egy leegyszer˝ us´ıtett diagramm mutatja be az illeszked´es probl´em´aj´at az 1-es ´abr´an. 1. ´ abra. Modell Illeszked´es: az illeszked´est a m´ert ´es a v´art adatok ¨osszehasonl´ıt´asa adja meg. Az ut´ obbit az analitikus modell hat´ arozza meg.
Observed
Measurement
Phenomenon
Process
Observed Data
Fit Analysis
Mathematical Model
Deterministic
Expected Data
Process
A modellv´ alaszt´ as mellett vannak m´as probl´em´ak is ahol a modell illeszked´es fontoss´aga sz´oba ker¨ ulhet. Sz´ amos tanulm´ any foglalkozik mindenf´ele tesztel´esi probl´em´aval, ilyen p´eld´aul a differenci´ alt item f¨ uggv´eny probl´em´ aja, differential item functioning (DIF) (Zwick, 2002; Roussis, 1999; Parshall & Miller, 1995; Dorans & Smith, 1993; Holland & Wainer, 1993; Cohen et al, 1991; Swaminathan & Rogers, 1990) ´es a lok´alis item f¨ ugg´es probl´em´aja local item dependence (LID) (Ferrara & Huynh, 1999; Reese, 1999; Ferrara, 1997; Wilson, 1988; Yen, 1983). A DIF ´es a LID olyan indexek seg´ıts´eg´evel tesztelhet˝ok, amelyek az elv´art ´ert´ekekt˝ol val´o jelent˝os elt´er´est k´epesek kimutatni. A szignifik´ ans elt´er´esek kimutat´as´ara szolg´al´o indexek nagy r´esze azonban mindig j´ o modell illeszked´est felt´etelez. Ponoczny tanulm´anya (2001) sz´amos olyan p´eld´at mutat be, amelyekre megold´ ast ny´ ujthat a jelen tanulm´anyban bevezetett u ´j technika. 2
2. ´ abra. Monte Carlo modell illeszked´es a Rasch modellben: az elv´art adatok gener´altak, nem analitikus m´ odszerekkel el˝ o´ all´ıtottak.
Observed
Measurement
Phenomenon
Process
Observed Response Matrix
Rasch Fit Analysis
Rasch Probability Matrix
Monte Carlo Simulation
Expected Response Matrix
A gyakran haszn´ alt Item V´ alasz Elm´elet (IRT) illeszked´esi indexek (´atlagos-n´egyzet infit ´es outfit) mindegyike ugyanazzal a probl´em´aval k¨ uzd: a pontos null-eloszl´asuk nem ismert. A gyakorlatban, sz´elesk¨ orben alkalmaznak praktikusnak t˝ un˝o felt´etelez´eseket ezekr˝ol a null-eloszl´asokr´ ol, amelyeket ugyanolyan sz´eles k¨ orben kritiz´alnak is. Mivel nagyon val´ osz´ın˝ utlen, hogy az illeszked´esi probl´ema prec´ız anal´ızissel valaha is megoldhat´ o lesz, ez´ert csak a szimul´ aci´ os m´odszerek maradtak eszk¨oz¨ ul, hogy megold´ast tal´alhatunk a probl´em´ ara. A szimul´ aci´ os m´ odszer el˝onye, hogy viszonylag k¨onnyen kivitelezhet˝o ´es emellett bizonyos fokig megb´ızhat´ o is. M´ asfel˝ ol azonban id˝oig´enyes, illetve sz´am´ıt´astechnikai szempontb´ol pedig er˝ oforr´ as-ig´enyes. Tov´ abb´ a, a kisz´ am´ıtott illeszked´esi index nem pontosan reproduk´alhat´o. A tanulm´ any bemutatja, hogy mindezek ellen´ere az u ´j m´odszer j´oval megb´ızhat´obb, mint a kor´abban haszn´ alt tesztek. Az 2 ´ abr´ an l´ athat´o a Rasch modellben haszn´alhat´o Monte Carlo teszt f˝o egyes r´eszelemei, amelyet a jelen dolgozat mutat be. A tanulm´ any szerkezete a k¨ ovetkez˝o. Els˝ok´ent az ide tartoz´o fontosabb szakkifejez´eseket defini´ aljuk, amelyet az illeszked´esi probl´ema r´eszletes de ´altal´anos t´argyal´asa k¨ovet. A bevezet˝ o k¨ ozponti r´esz´et a jelenlegi illeszked´esi elj´ar´asok kifejt´ese ´es az alapok lerak´asa k¨ovet. Ez k´esz´ıti el˝ o az illeszked´esi probl´em´ ara adott Monte Carlo megold´ast. Majd az ezt k¨ovet˝o r´esz t´argyalja az u ´j illeszked´esi index alap¨ otlet´et teljes r´eszletess´eggel, ´es a legl´enyegesebb r´esz itt k¨ovetkezik, ahol bemutat´ asra ker¨ ul az u ´j illeszked´esi index csal´ad. Ez a r´esz szint´en mag´aba foglalja az altal´ ´ anos, maradv´ any-alap´ u, ´es az u ´j illeszked´esi anal´ızisek ¨osszehasonl´ıt´as´at, ´es a szimul´aci´ os m´ odszer r´eszletes le´ır´ as´ at. Az utols´o k´et r´eszben az u ´j tesztek viselked´es´et kutatjuk majd val´ os adatok felhaszn´ al´ as´ aval. 3
2. 2.1.
Item v´ alasz elm´ elet V´ alasz m´ atrix
A tanulm´ any c´elj´ ab´ ol csak dichot´ om modelleket haszn´alunk, ez´ert m´as t´ıpus´ u IRT modellek t´ argyal´ asa itt nem szerepel. A vizsgaadatok megjelen´ıt´ese ´ altal´aban 2-dimenzi´os m´atrix form´aban a legide´alisabb, ahol az X m´ atrix egy eleme (0 vagy 1) egy vizsg´az´o egy itemre adott v´alasza. A m´atrix sora egy egy´en osszes itemre adott v´ ¨ alasz´ at tartalmazza, egy oszlop pedig egy adott itemre adott ¨osszes vizsg´az´ o v´ alasz´ at foglalja mag´ aba. Az X m´ atrix elemei xji k´et ´ert´eket vehetnek fel 1-et vagy 0-´at. xji = 1 ha a j-edik egy´en helyesen v´ alaszolt az i-edik itemre ´es 0 minden m´as esetben. Az egy´enek sz´am´ at N -nel, az itemek sz´ am´ at L-lel jel¨ olj¨ uk. A sor-¨ osszegek (rj , j = 1, . . . , N ) a vizsg´az´ok ¨osszpontsz´amait jelentik (a helyes v´alaszok sz´ ama), az oszlop-¨ osszegek (si , i = 1, . . . , L) pedig azon vizsg´az´ok sz´am´at jel¨olik akik helyesen oldott´ ak meg az adott itemet: L N X X rj = xji , si = xji . (1) i=1
j=1
Pragmatikus ´ertelemben v´eve tesztelm´eletek az´ert ker¨ ulnek kifejleszt´esre, hogy az X v´alasz m´ atrixot megmagyar´ azzuk, ´es a m¨ og¨ott¨ uk megh´ uz´od´o folyamatot, amely egy X m´atrix form´aj´ara egyszer˝ os¨ od¨ ott, meg´ert´es¨ uk. Az egyetlen h´atr´any ezen a ter¨ uleten a lehets´eges kombin´aci´ok ´ori´ asi sz´ ama. Egy egyszer˝ u 8 itemes teszten, amit 8 egy´en old meg, 264 sz´am´ u v´alasz m´atrix lehets´eges, amely egy felfoghatatlanul nagy sz´ am. K´es˝ obb l´ atni fogjuk, hogy hogyan k´epes egy ilyen egyszer˝ u eset uralni ´es korl´atozni alapvet˝ o k´erd´eseket az Item Response elm´eletben.
2.2.
A Rasch modell
A Rasch modell (Rasch, 1960; Wright & Stone, 1979; Wright & Masters, 1982; Wright & Mok, 2000; Smith, 2001; Stone, 2001; Baker, 2001; Linacre & Wright, 2002; ) k´et param´etert haszn´al: az item neh´ezs´eg´et ´es az egy´en k´epess´eg´et. Az i-edik item neh´ezs´eg´et δi -vel, a j-edik egy´en k´epess´eg´et pedig ϑj -vel jel¨ olj¨ uk. A Rasch modell szerint annak a felt´eteles val´osz´ın˝ us´ege, hogy a j-edik egy´en helyesen (Pji ) vagy helytelen¨ ul Qji ) v´ alaszol az i-edik itemre, felt´eve hogy az egy´en k´epess´ege (ϑj ) ´es az item neh´ezs´ege (δi ), a k¨ ovetkez˝ o m´ odon ´ırhat´o le: Pji Qji
1 eϑj −δi = , 1 + eϑj −δi 1 + eδi −ϑj 1 := P rob(xji = 0 | ϑj , δi ) = 1 − Pji = . 1 + eϑj −δi
:= P rob(xji = 1 | ϑj , δi ) =
(2) (3)
A Pji f¨ uggv´enyt (2 egyenlet) Rasch Item Karakterisztikus F¨ uggv´enynek/g¨ orb´enek, IKF nevezz¨ uk; 3. ´ abra reprezent´ alja a Rasch item karakterisztikus f¨ uggv´enyt. A Rasch vagy v´ alasz val´ oszn˝ os´egi m´ atrix P az a m´atrix, amely tartalmazza a Pji elemeket (2. egyenlet). Egy xji m´ atrix elem felt´eteles val´osz´ın˝ us´ege a k¨ovetkez˝ok´eppen ´ırhat´o le: Pji if xji = 1, P (xji ) := Prob(xji | δi , ϑj ) := (4) Qji = 1 − Pji if xji = 0. Tov´ abb´ a Q(xji ) := 1 − P (xji ). 4
(5)
3. ´ abra. A Rasch Item Karakterisztikus F¨ uggv´eny
1 0.9 0.8 0.7 P(x=1)
0.6 0.5 0.4 0.3 0.2 0.1 0 -4
-2
0 Ability - Difficulty
2
4
´ Erdemes megjegyezni, hogy a neh´ezs´egi ´es a k´epess´eg param´eterek m´er´esi egys´eg n´elk¨ uli, val´ os sz´ amok. Akkor tudjuk ˝ oket igaz´ an ´ertelmezni, ha bevezetj¨ uk a v´alasz m´atrix egyes elemeinek felt´eteles val´ osz´ın˝ us´eg´et az 4. egyenletben l´athat´o m´odon. ´Igy a k´epess´eg intervallum ´es az item neh´ezs´eg´enek intervalluma egy logaritmikus sk´al´at kap, amelynek egys´egeit logit-nak nevez¨ unk. ´Igy l´ athat´ o, hogy mind´et param´eter ugyanazon a sk´al´an van. A Rasch modell haszn´ alat´ anak k´et fontos felt´etele van, mindkett˝o m´ar felhaszn´al´asra ker¨ ult. Az egyik az, hogy az IKF egy monoton n¨ovekv˝o f¨ uggv´eny legyen, amely t¨ ukr¨ozze azt az elv´ar´asunkat, hogy a k´epess´eg n¨ oveked´es´evel egy¨ utt a helyes v´alasz val´osz´ın˝ us´ege is n¨ovekszik. A m´ asodik felt´etelt m´ ar kor´ abbr´ol is ismerj¨ uk, amely szerint csup´an egyetlen k´epess´eg befoly´ asolhatja az egy´en v´ alasz´ at. Pontosabban ez annyit jelent, hogy l´etezik a val´osz´ın˝ us´egi v´altoz´ ok egy csal´ adja Θ = (ϑj ), j = 1, . . . , N a k´epess´eg ahol a j-edik egy´en k´epess´ege ϑj . A Θ eloszl´as´ar´ ol nem sz¨ uks´eges felt´etel kik¨ ot´ese. Az egy k´epess´eg-v´altoz´o jelenl´ete a modellben azonban felt´etelezi, hogy a Rasch modell egydimenzi´ os. Az elm´elethez elengedhetetlen¨ ul fontos a teljes v´alasz m´atrix L(X ) felt´eteles val´osz´ın˝ us´eg´enek az ismerete. Ehhez viszont nem elegend˝o ismerni a Pji felt´eteles val´osz´ın˝ us´eg´et, hanem m´eg egy felt´etel is sz¨ uks´eges. A legk´ezenfekv˝ obb v´ alaszt´ as az, hogy a m´atrix elemek felt´eteles val´osz´ın˝ us´egeinek szorzata adja meg a v´ alasz m´ atrix felt´eteles val´ osz´ın˝ us´eg´et. Ez a defin´ıci´o megfelel a m´atrix elemek statisztikai ´ertelemben vett f¨ uggetlens´eg´enek, amely a k¨ovetkez˝ok´eppen ´ırhat´o le: 5
L(X ) := L(X , ∆, Θ) := Prob(X | (ϑj , δi )1≤i≤L,1≤j≤N ) =
Y
P (xji ).
(6)
(xji )=X
A param´eterek megbecsl´es´ehez a teljes f¨ uggetlens´eg elegend˝o, viszont az illeszked´esi anal´ızis elv´egz´es´ehez be kell vezetn¨ unk a a helyi f¨ uggetlens´eg fogalm´at, amely megk¨oveteli a P elemeinek f¨ uggetlens´eg´et. Most m´ ar k´eszek vagyunk arra, hogy fel´all´ıtsuk a Rasch modellt. Eml´ekezz¨ unk vissza, hogy a Rasch modell c´elja az X m´ atrix ´ertelmez´ese. 1. Definition. Az X m´ atrixhoz rendelhet˝ o Rasch Modell a k¨ ovetkez˝ ok´eppen ´ırhat´ o le: • a val´ osz´ın˝ us´egi v´ altoz´ ok k´et csal´ adja ∆ and Θ (item neh´ezs´eg ´es k´epess´eg); • a helyileg f¨ uggetlen m´ atrix elemek xji , felt´eteles val´ osz´ın˝ us´egei P (xji ), a (4) egyenletnek megfelel˝ oen; • L(X ) , amely X felt´eteles val´ osz´ın˝ us´ege, a (6) egyenletnek megfelel˝ oen.
2.3.
Maximum likelihood becsl´ es
Becsl´esi elj´ ar´ asok seg´ıts´eg´evel, iterat´ıv m´odon kapjhatjuk meg a megbecs¨ ult param´etereket. A maximum likelihood becsl´es (MLE) (Baker, 1992; de Leeuw & Verhelst, 1986; Fisher, 1981; Wright & Stone, 1979) az item neh´ezs´eget ´es a k´epess´eget hasonl´oan kezeli. Defin´ıci´o szerint, MLE a megbecs¨ ult param´etereket u ´gy kapja, hogy maximaliz´alja az X v´alasz m´atrixhoz tartoz´o val´osz´ın˝ us´egi f¨ uggv´enyt L(X ; ∆, Θ). A gyakorlatban sokkal egyszer˝ ubb a val´osz´ın˝ us´egi f¨ uggv´eny logaritmikus alakj´ at haszn´ alni X X L := log(L(X )) = log P(xji ) = − log 1 + e(2xji −1)(δi −ϑj ) . (7) (xji )=X
(xji )=X
L maximuma ´ altal´ aban a deriv´ alt DL null helyeinek megtal´al´as´aval hat´arozhat´oak meg, ami indokolt ha L egy´ertelm˝ u maximummal rendelkezik. Ez a probl´ema z´ art form´ aban nem oldhat´o meg, ´ıgy numerikus m´odszerekhez szok´as folyamodni. Erre a c´elra gyakran haszn´ alj´ ak a Newton-Raphson m´odszert. R¨ oviden v´ azoljuk ezen megold´ as l´ep´eseit (Kress, 1998, 102 oldal). V´alasszunk egy tetsz˝oleges kezdeti ´ert´eket 0 x0 = (δ10 , δ20 , . . . , δL , ϑ01 , ϑ02 , . . . , ϑ0N ) (8) az iter´ aci´ onak. Az iter´ aci´ os s´ema ´ıgy ´ırhat´o le: −1 xn+1 = xn − D2 L(xn ) · DL(xn ),
(9)
ahol n xn = (δ1n , δ2n , . . . , δL , ϑn1 , ϑn2 , . . . , ϑnN ) (10) −1 jel¨ oli az nedik approxim´ aci´ ot ´es D2 L(xn ) a L m´asodik deriv´alt m´atrix´anak inverze xn -ben ki´ert´ekelve. Az iter´ aci´ o akkor ´er v´eget amikor a k´et egym´ast k¨ovet˝o vektor Euklideszi norm´aja kxn+1 − xn k kisebb, mint az iter´ aci´ os k¨ usz¨ ob. Ennek a procedur´ anak egy j´ ol kondicion´alt v´alasz m´atrixra egy´ertelm˝ u megold´asa van (Fisher, 1981). M´ as sz´ oval, az iter´ aci´ os folyamat egy egy´ertelm˝ u, v´eges megold´ashoz konverg´al a kezdeti ´ert´ekt˝ ol f¨ uggetlen¨ ul. Megjegyezz¨ uk, hogy az egy´ertelm˝ us´eghez sz¨ uks´eges m´eg egy mell´ekfelt´etel. Ez lehet a neh´ezs´eg vektor ´ atlag´ anak null´aban val´o r¨ogz´ıt´ese.
6
3.
Modell illeszked´ es
3.1.
´ Atlagos-n´ egyzet maradv´ any tesztek
Az MNSQ outfit ´es az infit a leggyakrabban haszn´alt illeszked´esi statisztika a Rasch modellben. (Wright & Stone, 1979; Meijer & Sijtsma, 2001). Az MNSQ outfit a k¨ ovetkezpk´eppen ´ırhat´o le: L
MNSQout =
N
1 X X (xji − Pji )2 , N L i=1 j=1 Pji Qji
(11)
Az MNSQ infit defin´ıci´ oja pedig a k¨ovetkez˝o: L P N P
(xji − Pji )2
i=1 j=1
MNSQin =
L P N P
.
(12)
Pji Qji
i=1 j=1
Az MNSQ outfit standardiz´ alt z pontja a k¨ovetkez˝ok´eppen ´ırhat´o le: r 2 9N L p 3 MNSQzstd := M N SQ − 1 + . 2 9N L Az infit standardiz´ alt ´ert´eke a k¨ ovetkez˝o m´odon defini´alhat´o: p 3 3 MNSQin − 1 q − , MNSQin,zstd := q 3
(13)
(14)
ahol q az infit sz´ or´ asa: L P N P
q=
Pji Qji (Pji − Qji )2
i=1 j=1 L P N P
(15) Pji Qji
i=1 j=1
(see Wright & Masters, 1982, p. 100). A felt´eteleknek megfelel˝ oen (Wright & Stone, 1979; Wright & Masters; 1982) mindk´et MNSQzstd statisztika a N (0, 1) standard norm´al eloszl´ast k¨oveti. K¨ozelebbr˝ol megvizsg´alva l´athatjuk, hogy az MNSQ illeszked´esi statisztik´ ak nem m´asok, mint a P Rasch val´osz´ın˝ us´egi m´atrix ´es a X v´alasz m´ atrix k¨ oz¨ otti s´ ulyozott n´egyzetes k¨ ul¨onbs´eg. n ´ Altal´ anoss´ agban a w = (wi )i=1 ∈ Rn vektort s´ ulynak nevezz¨ uk ha minden eleme pozit´ıv, vagyis wi > 0 minden i-re. K´et x, y ∈ R vektor t´avols´aga a w s´ ulyt vagy (w-t´avols´agot) tekintetbe v´eve az al´ abbi m´ odon defini´ alhat´ o: v u n uX Dw (x, y) = t (xi − yi )2 wi . (16) i=1
Az elnevez´es indokolt, hiszen Dw megfelel a t´avols´ag defin´ıci´oj´anak (l´asd e.g. Lang, 1986). Azaz minden x, y, z ∈ Rn -re Dw (x, x) = 0 ⇒ x = 0, 7
Dw (x, y) = Dw (y, x), Dw (x, z) ≤ Dw (x, y) + Dw (y, z). A 11 egyenletb˝ ol kider¨ ul, hogy az MNSQout az egy n´egyzetes t´avols´ag 2 MNSQout = Dw (P, X ) o
(17)
az al´ abbi s´ ullyal: 1 . N L · Pji Qji
wo,ji =
(18)
Hasonl´ ok´eppen, az MNSQ infit (Egyenlet12) 2 MNSQin = Dw (P, X ), i
(19)
ahol a s´ uly a k¨ ovetkez˝ ok´eppen alakul: wi,ji =
1 . L P N P Pji Qji
(20)
i=1 j=1
wi,ji egy ´ alland´ o s´ ulyvektor.
3.2.
A modell illeszked´ es ´ altal´ anos elm´ elete
Ez a fejezet az Item V´ alasz Elm´elet, (IRT) modellekhez kapcsol´od´o illeszked´esi elm´eletet t´argyalja. A t´ema ´ altal´ anos jellege megengedi, hogy az olvas´o k¨ovesse, hogy hol, milyen alkalmakkor jelennek meg az egyes indexek, ´es hogy hogyan jav´ıthat´oak, fejleszthet˝oek. A dichot´om IRT keretein bel¨ ul az N × L m´eret˝ u v´ alasz m´ atrixok sz´ama 2N L . Ezen ´ori´asi halmazon bel¨ ul minden egyes elem val´ osz´ın˝ us´eg´et ki kell sz´ amolni (azon felt´etel mellett, hogy a modell j´ol illeszkedik). Hamarosan bemutatjuk, hogy ez gyakorlatilag lehetetlen, ami a modell illeszked´es´enek egyik probl´em´aj´at adja. Vegy¨ unk egy konkr´etabb p´eld´ at ahol az X v´alasz m´atrix m´erete N × L. Mostant´ol feltessz¨ uk, hogy a becsl´esi elj´ ar´ ast v´eghez vitt¨ uk ´es m´ar megbecs¨ ult¨ uk a modell param´etereket. Ezek a megbecs¨ ult ´ert´ekek seg´ıtenek benn¨ unket eljutni a P val´osz´ın˝ us´egi m´atrixhoz az 2 egyenlet seg´ıts´eg´evel. Majd gondolatban ¨ osszeszedj¨ uk az ¨ osszes Mresp (N, L) v´alasz m´atrixot, amelynek m´erete N ×L. Az Mresp (N, L) halmazt kinevezz¨ uk az N * L m´atrixok gy˝ ujtem´eny´enek, amelyeknek minden eleme 0 vagy 1. Legyen Y = (yji )j,i az Mresp (N, L)-nek egy eleme. A modell illeszked´es hipot´ezis´enek tesztel´es´ehez sz¨ uks´eges val´ osz´ın˝ us´eg a Y felt´eteles val´osz´ın˝ us´ege P -ben Y Prob(Y | P) := (yji Pji + (1 − yji )Qji ). (21) ji
(Fontos k¨ ul¨ onbs´eget tenni az L(X ) ´es a Prob(Y | P) k¨oz¨ott.) Ez a val´ osz´ın˝ us´eg p(P) a Mresp (N, L)-et tekintve p := p(P) : Mresp (N, L) → [0, 1] : Y 7→ Prob(Y | P)
(22)
a hipot´ezis tesztel´es null-eloszl´ asa. Az Mresp (N, L) halmaz olyan ´ ori´asi, m´eg alacsony N ´es L eset´eben is, hogy teljesen lehetetlen ezt a null-eloszl´ ast kezelni. A hipot´ezis tesztel´es k¨ ovetkez˝ o l´ep´ese a ”farok-ter¨ ulet” val´osz´ın˝ us´eg´enek (p-´ert´ek), vagyis az X -hez tartoz´ o po megtal´ al´ asa. A farok-ter¨ ulet val´osz´ın˝ us´eg´et meghat´arozhatjuk u ´gy, mint az ¨osszes 8
felt´eteles val´ osz´ın˝ us´eg ¨ osszege Prob(Y | P) u ´gy, hogy Prob(Y | P) < Prob(X | P) = L(X ) minden Y ∈ Mresp (N, L), azaz X po := Prob(Y | P). (23) Y:
Prob(Y
| P)
Az al´ abbi bevezet´es´evel BL := {Y : Prob(Y | P) < Prob(X | P)} u ´jra ´ırhatjuk po -t mint az azonosan 1 f¨ uggv´eny integr´alja BL felett a p m´ert´ek szerint: Z po := p(BL ) := 1 dp
(24)
(25)
BL
Ez a forma lehet˝ ov´e teszi az ´ altal´ anos illeszked´esi probl´ema megfogalmaz´as´at. P´eld´aul, az MNSQ null-eloszl´ asa defini´ alhat´ o az al´ abbiak szerint. Haszn´aljuk BMNSQ := {Y : D2 (Y, P) ≤ MNSQ(X ) ≤ 1} ∪ {Y : D2 (Y, P) ≥ MNSQ(X ) ≥ 1}
(26)
BL helyett ´es defini´ aljuk a p-´ert´eket Z MNSQ
po
:= p(BMNSQ ) :=
1 dp.
(27)
BMNSQ
M´ as sz´ oval, egy illeszked´esi index null val´osz´ın˝ us´ege mindig valamilyen halmaz feletti m´ert´ek, amelyet az ´eppen adott illeszked´esi index hat´aroz meg. A neh´ezs´eg az indexek kezel´es´eben mindig ugyanaz: a p val´ osz´ın˝ us´egi m´ert´eket a gyakorlatban lehetetlen egzakt m´odszerekkel kezelni. Megjegyezz¨ uk, hogy a po val´ osz´ın˝ us´eg az 25 egyenletben az L-pr´oba p-´ert´eke, ami a likelihood f¨ uggv´enyt illeszked´esi f¨ uggv´enyk´ent haszn´al´o teszt illeszked´esi tesztje. A maximum likelihood fel˝ ol n´ezve ez t˝ unik a legterm´eszetesebb v´alaszt´asnak. Az MNSQ tesztn´el haszn´ alt normalit´as feltv´es j´o p´eld´aj´at adja annak, hogy a praxisban hogyan jutnak el az illeszked´esi probl´ema els˝o k¨ozel´ıt´es´eben haszn´alatos feltev´esek alkalmaz´as´ahoz. Egy V illeszked´esi indexhez tartoz´o pVo null-eloszl´as ”legy´art´asa” ut´an az utols´o feladat az, hogy eld¨ onts¨ uk, hogy ez az eloszl´ as kisebb vagy nagyobb-e, mint az el˝ore kijel¨olt val´osz´ın˝ us´egi k¨ usz¨ ob´ert´ek az α (az α hagyom´ anyosan felvett ´ert´ekei [0.01, 0.1]). Ha po < α akkor a null hipot´ezist elvetj¨ uk ´es azt ´ all´ıtjuk, hogy nincs el´eg bizony´ıt´ek arra, hogy az adatok j´ol illeszkednek a modellre (teh´ at, hogy a modell k´epes megmagyar´azni a m´er´esi adatokat).
4. 4.1.
A nemparametrikus illeszked´ esi indexek csal´ adja A probl´ ema
Sajnos az MNSQ outfit ´es infit statisztik´ak az eloszl´asukra vonatkoz´oan er˝os felt´eteleket szabnak. Abban az esetben ha ezek a felt´etelek nem teljes¨ ulnek az MNSQ teszt haszn´alat´anak ´ertelme megk´erd˝ ojelezend˝ o. Sz´ amos tanulm´any foglalkozik ezzel a probl´em´aval (Li & Olejnik, 1997; Noonan, Boss & Gessaroli, 1992; Wright & Linacre, 1985; Smith, 1985). Mindegyik¨ uk bizony´ıt´ekot hoz fel olyan esetekre, amikor az MNSQ statisztika eloszl´asa elt´er a norm´alist´ol. Li ´es Olejnik (1997) egy szimul´aci´os tanulm´anyt k´esz´ıtett az MNSQout,zstd -r˝ol-r´ol ahol a k´epess´eg-illeszked´est vizsg´ alta t¨ obbfajta teszt ´es illeszked´esi szitu´aci´o seg´ıts´eg´evel. Minden egyes 9
szitu´ aci´ ohoz 50 replik´ aci´ ot gener´ alt, amit az illeszked´esi teszt eloszl´as´anak elk´esz´ıt´es´ehez haszn´ alt fel. Az ´ıgy kapott eloszl´ asokat vizsg´alva azt tal´alt´ak, hogy szignifik´ansan elt´ernek a norm´alis eloszl´ ast´ ol. Egy hasonl´ o tanulm´ anyt k´esz´ıtett Noonan, Boss ´es Gessaroli (1992), amelyben kimutatt´ ak, hogy az MNSQout,zstd a k´epess´eg-illeszked´es alkalm´aval nagy elt´er´est mutat a normalit´ast´ol, nagy ferdes´eget (skewness) ´es kurt´ ozist jelezv´en. Ezekre a tanulm´ anyokra Smith (1985), illeteve Wright ´es Linacre (1985) m´ar munk´aikban reag´ altak. Az ut´ obbiak a norm´ alist´ol val´o elt´er´es kompenz´al´as´ara a hat´arpont (cut-off value) megn¨ ovel´es´et javasolt´ ak 3.0-ra (az eddigi 2.0-r˝ol).
4.2.
A Rasch v´ alasz m´ atrixok szimul´ al´ asa
Ebben a fejezetben a szimul´ aci´ os algoritmus ker¨ ul kifejt´esre, amely A Rasch v´alasz m´atrixok gener´ al´ as´ ara szolg´ al, s amelyet a Monte Carlo illeszked´esi tesztekkel egy¨ utt fogunk haszn´alni. A kiindul´ o adatokat a P Rasch val´osz´ın˝ us´egi m´atrix adta, amelyet egy becsl´esi elj´ar´assal, item neh´ezs´eg ´es k´epess´eg vektorokb´ ol sz´armaztattunk. A Y v´alasz m´atrix szimul´al´asa az elemek gener´ al´ as´ aval t¨ ort´ent. Egy j egy´en egy i itemre adott egyszeri v´alasz´at u ´gy szimul´aljuk, hogy a sz´ am´ıt´ og´ep gener´ al egy r random sz´amot, amely egyenletesen oszlik el a [0, 1] intervallumban. A yji v´ alasz a k¨ ovetkezuHok´eppen defini´alhat´o 1 ha r ≤ Pji , yji = (28) 0 m´asutt. ahol Pji a Rasch val´ osz´ın˝ us´eg, ahogy azt az 2 egyenletben l´attuk. Ezek alapj´ an l´ athatjuk, hogy a Y v´arhat´o ´ert´eke az al´abbi: E(Y) = P
vagy
E(yji ) = Pji ∀(i, j).
(29)
A Monte Carlo m´ odszer l´enyege, ennek a szimul´aci´os m´odszernek az egyszer˝ u k¨ovetkezm´enye: Megfigyel´ es: Egy Y ∈ Mresp (N, L) v´ alasz m´ atrix relat´ıv gyakoris´ aga a fent le´ırt szimul´ aci´ os mechanizmusban nem m´ as, mint a p(Y) = Prob(Y | P) val´ osz´ın˝ us´ege. Ez a megfigyel´es a szimul´ alt m´ atrix elemek f¨ uggetlens´eg´enek tudhat´o be, amelyre az r random sz´ amok f¨ uggetlens´ege is utal. A k¨ ovetkez˝ o elm´elet felfedi a szimul´aci´oban megjelen˝o sz´amos v´arhat´o ´ert´ek k¨oz¨otti kapcsolatot. A bizony´ıt´ek egy egyszer˝ u sz´ amol´ as, amelyet az olvas´ora b´ızunk. ´ ıt´ 1. All´ as. Tegy¨ uk fel, hogy l´etezik egy m´ atrix-´ert´ek˝ u val´ osz´ın˝ us´egi v´ altoz´ o Y = (yji ) (1 ≤ i ≤ L, 1 ≤ j ≤ N ) amelyre igaz, hogy a ji-edik elem´enek v´ arhat´ o ´ert´eke egyenl˝ o a Rasch felt´eteles val´ osz´ın˝ us´eggel: E(yji ) = Pji . (30) Tov´ abb´ a, tegy¨ uk fel, hogy Y 0 egy is val´ osz´ın˝ us´egi v´ altoz´ o, amelyre ugyanaz igaz, mint Y-ra, ´es hogy szint´en igaz, hogy Y ´es Y 0 f¨ uggetlenek. Majd teh´ at infit-re ´es outfit-re is fel´ırhatjuk a k¨ ovetkez˝ o egyenl˝ otlens´eget: E D2 (X , Y) − MNSQ(X ) E D2 (P, Y)
=
1,
(31)
=
1,
(32)
E D2 (Y, Y 0 )
=
2.
(33)
10
Ezt a fejezetet Ponoczny-nak a Monte Carlo m´odszerr˝ol ´ırt cikk´ere (2001) reag´alva z´arjuk. Az eml´ıtett cikkben a nemparametrikus tesztek kifejleszt´ese c´elj´ab´ol a v´alasz m´atrixok gener´al´as´ara egy hasonl´ o, b´ ar t¨ obb tekintetben m´as megk¨ozel´ıt´est v´alasztott a szerz˝o. Ponoczny u ´gy gener´alta az Y m´ atrixokat, hogy a sor¨ osszeg¨ uk megegyezzen az X sor¨osszeg´evel. Ez n´eh´any probl´em´at vet fel: • Sz´ amos kor´ abbi tanulm´ any foglalkozott m´ar az adott sor¨osszegre vonatkoz´o m´atrix mintav´eteli probl´em´ aval (Snijders, 1991; Rao et. al., 1996; Roberts, 2000; Ponoczny, 2001). A tanulm´ anyok szerz˝ oi hangs´ ulyozz´ak, hogy gyakorlati szempontb´ol, a halmaz ´ori´asi m´eret´en´el fogva, egy igen nehezen megoldhat´o probl´ema. • A sor¨ osszegek ler¨ ogz´ıt´es´evel az elj´ar´as csak a Rasch modellben haszn´alhat´o, hiszen k¨oztudott, hogy m´ asik logisztikus modellekben a megbecs¨ ult param´eterek ´erz´ekenyek a v´alasz m´atrix sorainak strukt´ ur´ aj´ ara. Annak ellen´ere, hogy m´as IRT modellekre is dolgoztak m´ar ki olyan becsl´esi elj´ ar´ asokat amelyek felhaszn´alj´ak a sor¨osszegeket (Chen & Thissen, 1999), ezek mind k¨ ozel´ıt˝ o m´ odszerek voltak ´es amelyek parametrikus felt´eteleket alkalmaznak - pontosan az, amit a Monte Carlo m´ odszer szeretne elker¨ ulni. • A val´ osz´ın˝ us´egi ´ert´ekek szemsz¨og´eb˝ol n´ezve (22. egyenlet ) a sor¨osszegek ler¨ogz´ıt´ese esetleg m´eg egyfajta ”bias”-t is eredm´enyezhet az illeszt´esi folyamatban. A szeml´eltet´es kedv´e´ert jel¨ olj¨ uk C-vel a v´ alasz m´ atrixok egy halmaz´at, amelyeknek a sor¨osszegei megegyeznek az X sor¨ osszegeivel. Ahhoz, hogy Ponoczny m´odszere megfelel˝oen m˝ uk¨odj¨on, az al´abbinak kellene teljes¨ ulnie: p(B ∩ C) = p(B), (34) p(C) ahol B b´ armely olyan halmaz lehet, amely az illeszked´esi teszttel egy¨ utt ker¨ ult bevezet´esre ahogy azt a 24 ´es 26 egyenletekn´el l´attuk. Nem igaz´an hihet˝o, hogy az er˝os f¨ uggetlens´egi felt´etelnek (egyenlet 34) ´ altal´ aban eleget tesz (vagy esetleg egyedi esetekben). Az ¨ osszes eml´ıtett probl´ema azonban megsz˝ unik abban az esetben ha a k¨ovetkez˝okben le´ırt m´ odszert haszn´ aljuk.
4.3.
Az u ´ j teszteket defini´ al´ o algoritmus
Ez a fejezet a Monte Carlo (MC) t´ıpus´ u illeszked´esi tesztek csal´adj´at t´argyalja. Az elj´ar´as az X ∈ Mresp (N, L) v´ alasz m´ atrixot ´es a K term´eszetes sz´amot haszn´alja fel, az ut´obbi a szimul´ alt m´ atrixok sz´ am´ at jel¨ oli. El˝ osz¨or elj´ar´asok list´aj´at adjuk meg, majd megmutatjuk, hogy k¨ ul¨ onb¨ oz˝ ok´eppen val´ o kombin´ al´ asukkal, hogyan kaphatjuk meg az illeszked´esi csal´ad egyes tagjait. A kor´ abban t´ argyalt s´ ulyozott t´ avols´ag jel¨ol´es´ere a D2 -et vezetj¨ uk be. (a) Futtassuk a joint maximum likelihood becsl´est (Wright and Stone (1979) p.62; Baker (1992) p. 144) (vagy m´ as becsl´esi m´ odszert) az X v´alasz m´atrixon,´es becs¨ ulj¨ uk meg az item neh´ezs´egi ´es a k´epess´eg-param´etereket; (b) Gener´ aljunk K p´ ar Y1k , Y2k (1 ≤ k ≤ K) v´alasz m´atrixot a Rasch modell seg´ıts´eg´evel (ennek r´eszletes le´ır´ asa a kor´ abbi szimul´aci´os m´odszer r´eszben olvashat´o). Az Ylk m´atrix elemeit a k k¨ ovetkez˝ ok´eppen jel¨ olj¨ uk: yl,ji (l = 1, 2); (c) Sz´ amoljuk ki az ¨ osszes K darab D2 -et a X ´es a Y1k k¨oz¨ott a k¨ovetkez˝o egyenletnek megfelel˝ oen: 2 L N k 1 X X xji − y1,ji 2 2 k Dk,out−X := Dout (X , Y1 ) := , (35) N L i=1 j=1 Pji Qji 11
L P N P 2 Dk,in−X
2 := Din (X , Y1k ) :=
i=1 j=1
k xji − y1,ji
L P N P
2 .
(36)
Pji Qji
i=1 j=1 2 ´Igy megkapjuk a D2 es a Dk,in−X eloszl´asokat. k,out−X ´ (d) Sz´ amoljuk ki az ¨ osszes K darab D2 -et a P ´es a Y2k k¨oz¨ott a k¨ovetkez˝o egyenletnek megfelel˝ oen: 2 Dk,out−P 2 Dk,in−P
2 := Dout (P, Y2k ), 2 Din (P, Y2k ).
:=
(37) (38)
2 ´Igy megkapjuk D2 es a Dk,in−P eloszl´asokat. k,out−P ´ 2 (e) Sz´ amoljuk ki az ¨ osszes K darab D2 -et a (Y2k )K ul s ´ıgy megkapjuk Dk,out−Y k=1 halmazon bel¨ 2 et ´es Dk,in−Y -et, amelyeket az al´ abbi m´odon defini´alhatunk: 2 Dk,out−Y 2 Dk,in−Y
0
00
2 := Dout (Y2k , Y2k ),
:=
0 00 2 Din (Y2k , Y2k ),
(39) (40)
ahol (k 0 , k 00 ) v´eletlenszer˝ uen v´ alasztott p´arok. Tegy¨ uk fel a k¨ ovetkez˝ o hipot´ezis teszteket (az outfit-re ´es az infit-re egyar´ant; az egyszer˝ us´eg kedv´e´ert az out ´es in jel¨ ol´eseket nem haszn´aljuk): (f ) 2 2 ak ugyanabb´ol a popul´aci´ob´ol vannak, Ho : A (Dk−X − 1)K es a (Dk−P )K k=1 ´ k=1 mint´ 2 2 H1 : A (Dk−X − 1)K es a (Dk−P )K ak NEM ugyanabb´ol a popul´aci´ob´ol vannak, k=1 ´ k=1 mint´
(g) 2 2 ak ugyanabb´ol a popul´aci´ob´ol vannak, )K es a (Dk−Y )K Ho : A (Dk−X k=1 mint´ k=1 ´ 2 2 H1 : A (Dk−X )K es a (Dk−Y )K ak NEM ugyanabb´ol a popul´aci´ob´ol vannak, k=1 ´ k=1 mint´
(h) 2 Ho : A (Dk−P )K es az MNSQ ugyanabb´ol a popul´aci´ob´ol vannak, k=1 minta ´ 2 H1 : A (Dk−P )K es az MNSQ m´as popul´aci´okkb´ol vannak. k=1 minta ´
(i) 2 Ho : A (Dk−Y − 1)K es az MNSQ ugyanabb´ol a popul´aci´ob´ol vannak, k=1 minta ´ 2 H1 : A (Dk−Y − 1)K es az MNSQ m´as popul´aci´okkb´ol vannak. k=1 minta ´
Megjegyz´es: Az algoritmus a k´et (f ) ´es (g) tesztekhez tartoz´o szimul´alt halmazokat haszn´alja fel ahol fontos arr´ ol gondoskodni, hogy a k´et szimul´alt halmaz f¨ uggetlen. Ahhoz, hogy a tesztek f¨ uggetlenek legyenek egym´ ast´ ol, a szimul´alt m´atrixok t¨obb halmaz´at is haszn´alnunk kell. Ennek t´ argyal´ as´ at itt nem k¨ oz¨ olj¨ uk. 12
4. ´ abra. p-´ert´ekek k´et eloszl´as eset´en. Dist 2
Dist 1 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 p’ 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111
11111111111111 00000000000000 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 p 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111
mean 1
mean 2
5. ´ abra. p-´ert´ek egy eloszl´as ´es az MNSQ eset´en Distribution
11111111111111 00000000000000 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 p 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 MNSQ
Az al´ abbi n´egy illeszked´esi tesztet fogjuk r´eszletezni az el˝obbiekben le´ırt elj´ar´asok seg´ıts´eg´evel: M CPX
:
(a) → (b) → (c) → (d) → (f ),
(41)
M CYX
:
(a) → (b) → (c) → (e) → (g),
(42)
M CPM
:
(a) → (b) → (d) → (h),
(43)
M CYM
:
(a) → (b) → (e) → (i).
(44)
A teszt elv´egz´es´ehez v´ alaszthatjuk az egy-farokhoz tartoz´o val´osz´ın˝ us´eg kisz´amol´as´at, amelyet oly m´ odon val´ os´ıthatunk meg, hogy lesz´amoljuk az eloszl´asban azokat az elemeket, amelyek nagys´aga meghaladja (vagy ´eppen alatta marad, esett˝ol f¨ ugg˝oen) a m´asik eloszl´as ´atlag´at. Ez k´et eloszl´ as eset´en, (mint p´eld´ aul (f) ´es (g)), k´et p ´ert´eket fog adni (p ´es p0 ); ´es egyet az egy eloszl´as eset´eben (mint p´eld´ aul (h) ´es (i)). (l´ asd: 4 ´es 5 ´abr´ak).
4.4.
A tesztek r´ eszletezett le´ır´ asa
Az, hogy mi´ert fejlesztett¨ unk ki n´egy tesztet az a k¨ovetkez˝oekkel magyar´azhat´o. A szimul´aci´o sor´ an az Y m´ atrixok lehets´eges halmaz´ at k´epezz¨ uk. A s´ ulyozott t´avols´ag egyenlet´enek alkalmaz´as´aval h´ arom k¨ ul¨ onb¨ oz˝ o t´ avols´ ag-eloszl´ ast tudunk l´etrehozni: (A) P ´es Y k¨ oz¨ otti t´ avols´ agok. Ez az eloszl´as a modellhez kapcsol´odik amit P k´epvisel. Ennek az eloszl´ asnak a v´ arhat´o ´ert´eke 1. 13
6. ´abra. M CPX geometri´aja
Y1 Y2 2 DX 2 DP
P MNSQ
X
(B) X ´es Y k¨ oz¨ otti t´ avols´ agok. Ez az adatokhoz kapcsol´odik, amelyet X k´epvisel. A v´arhat´ o ´ ıt´as). ´ert´ek MNSQ+1 (l´ asd: 1. All´ (C) A Y-ok k¨ oz¨ otti t´ avols´ agok. Ez az eloszl´as szint´en a modellhez kapcsol´odik P-n kereszt¨ ul. Ennek az eloszl´ asnak a v´ arhat´o ´ert´eke 2. Az illeszked´esi tesztek c´elja, hogy ¨osszehasonl´ıts´ak a modellt a m´ert adatokkal (P-t ´es X -et), amelyet n´egyf´elek´eppen tudunk megval´od´ıtani. • M CPX : (A) ´es (B) ¨ osszehasonl´ıt´asa, • M CYX : (B) ´es (C) ¨ osszehasonl´ıt´asa, • M CPM : (A) ´es MNSQ ¨ osszehasonl´ıt´asa, • M CYM : (C) ´es MNSQ ¨ osszehasonl´ıt´asa. Term´eszetesen egy´eb ¨ osszehasonl´ıt´ asok is lehets´egese de ezeket most itt r´eszleteiben nem t´argyaljuk. Ilyen p´eld´ aul az MNSQ ¨ osszehasonl´ıt´asa a (B)-vel, ami viszont nem az illeszked´est teszteln´e hanem ink´ abb csak a szimul´ aci´ os elj´ ar´ ast. Ugyanez mondhat´o el az (A) ´es a (C) ¨osszehasonl´ıt´as´ar´ ol, amelyb˝ ol hi´ anyzik az X , s ez´ert ez is ink´abb csak a szimul´aci´os m´odszer pontoss´ag´ar´ol tudna k´epet adni. Az Y minta helyess´eg´en´ek meg´allap´ıt´as´ara szolg´al´o tesztet a k´es˝obbielben m´eg t´argyalunk.
4.5.
MCPX illeszked´ esi teszt
Az MCPX teszt m¨ og¨ ott megh´ uz´ od´ o ind´ıt´ek az, hogy az MNSQ anal´ızis alapvet˝o c´elja, hogy megbecs¨ ulje a P ´es az X t´ avols´ ag´ at. A j´o illeszked´es akkor lehets´eges ha ez az ´ert´ek k¨ozel esik 1-hez. Az ¨ osszehasonl´ıt´ as elv´egz´ese ´erdek´eben az MCPX teszt ”felf´ ujja” a P-t ´es k´et v´alasz m´atrixszal Y1 14
7. ´abra. M CYX geometri´aja
Y1 Y2 2 DX 2 DY
P MNSQ
X
-gyel ´es Y2 -vel helyettes´ıti (6. ´ abra). Ha P k¨ozel van X -hez akkor a P ´es az Y2 ´atlagos t´avols´aga hasonl´ o nagys´ ag´ u, mint az X ´es az Y1 k¨oz¨otti ´atlagos t´avols´ag. A hagyom´anyos MNSQ tesztekt˝ ol elt´er˝ oen, most nem csup´ an az ´ atlagos ´ert´ekeket kapjuk meg, hanem mindek´et eloszl´ast is, ami egy realisztikusabb ¨ osszehasonl´ıt´ ast tesz lehet˝ov´e. Egy kiss´e u ¨gyetlen jellegzetess´ege ennek a tesztnek, hogy 1-et ki kell vonni valamelyik eloszl´ asb´ ol. Ez az 1 a P ´es az X k¨ oz¨ otti t´avols´ag v´arhat´o ´ert´eke (outfit ´es infit eset´eben is), amelyet egy k¨ orrel jel¨ olt¨ unk az ´ abr´ akon (Figure 6 to 9). Ezt az el˝oz˝oekben m´ar r´eszletesen t´argyaltuk (1. ´ ıt´ All´ as).
4.6.
MCYX illeszked´ esi teszt
Ha a modell j´ ol illeszkedik az adatokra, akkor az X megk¨ ul¨onb¨oztethetetlen a modell ´altal gener´ alt Y v´ alasz m´ atrixokt´ ol. Teh´ at ez azt jelenti, hogy az X ´es az Y-ok halmaza k¨oz¨otti ´atlagos t´avols´ ag ´ert´eke megegyezik az Y m´ atrixok ´ atlagos t´avols´ag´aval (7. ´abra). A kor´abbihoz hasonl´oan, most is k´et eloszl´ asunk van, amelyek k´et p-´ert´eket eredm´enyeznek (p ´es p0 ).
4.7.
MCPM illeszked´ esi teszt
Az MCPM teszt kiindul´ opontja (8. ´abra) az, hogy b´armely szimul´alt Y m´atrix elfogadhat´o lenne egy v´ alasz m´ atrixk´ent. Teh´ at az X ´es P t´avols´ag´anak n´egyzete (MNSQ) nem t´erhet el az Y ´es a P n´egyzetes t´ avols´ ag´ anak ´ atlag´ at´ ol. Elt´er´es eset´en torz illeszked´esr˝ol kell besz´el¨ unk. A fent le´ırt elj´ ar´ asok term´esztesnek t˝ unhetnek, ´es u ´gy gondoljuk, hogy eddig az´ert nem v´altak n´epszer˝ uv´e, mert robusztus sz´ am´ıt´ og´epek csak az ut´obbi id˝okben terjedtek el, ´es azok n´elk˝ ul ezek a tesztek napokig futn´ anak. 15
8. ´abra. M CPM geometri´aja
Y2 2 DP
P MNSQ
X
4.8.
MCYM illeszked´ esi teszt
Az alap¨ otlet m´egegy verzi´ oja a M CYM teszt, amely m¨og¨otti geometriai k´ep (Figure 9) a k¨ovetkez˝ o m´ odon ´ırhat´ o le. Az X ´es P k¨ oz¨ otti t´avols´ag megbecs¨ ul´es´ehez, el˝osz¨or ”felf´ ujjuk” P-t egy v´alasz m´ atrix halmazz´ a, majd helyettes´ıtj¨ uk az X -et egy m´asik v´alasz m´atrix halmazzal. A k´et halmaz k¨ oz¨ otti ´ atlagos t´ avols´ agot az MNSQ-hoz hasonl´ıtjuk ´es ´ert´ekelj¨ uk. Ha j´o a modell illeszked´es akkor mondhatjuk, hogy X egyenl˝ o a gener´alt Y-ok halmaz´aval, s ´ıgy MNSQ megegyezik az ´atlaggal. Ebben az esetben is 1-et ki kell vonni az eloszl´asb´ol az ¨osszehasonl´ıt´as el˝ott. Mivel itt 1 eloszl´asunk van ´es 1 fix sz´ amunk (MNSQ) ez a teszt csup´an egy p-´ert´ekkel rendelkezik (Figure 5).
4.9.
Az illeszked´ esi tesztek ´ altal´ anos´ıt´ asa
Ebben a fejezetben kifejtj¨ uk, hogy milyen lehet˝os´egeket l´atunk a fent le´ırt m´odszerek m´as IRT modellekre val´ o´ altal´ anos´ıt´ as´ ara, illeteve m´as m´odszerekkel val´o haszn´alat´ara. A k¨ ovetkez˝ okben tegy¨ uk fel, hogy egy IRT modellt egy´ertelm˝ uen defini´al a hozz´a tartoz´o P val´ osz´ın˝ us´egi m´ atrix hiszen az IRT modell saj´atoss´agai bele van ”k´odolva” a P szerkezet´ebe. Ahogy eddig is ´ırtuk, a P elemei a val´ os teljes´ıtm´enyhez tartoz´o val´osz´ın˝ us´egi ´ert´ekek, amelyek a modell f¨ uggv´eny´eben vannak meghat´ arozva. Minden IRT modell meghat´aroz meg egy v´alasz m´atrix halmazt, amely halmazban az N L m´eret˝ u (N ´es L kor´abbi jelet´es´evel) m´atrixok vannak a modellnek megfelel˝ o elemekkel. A parci´ alis-kredit modelln´el p´eld´aul a rangsk´ala k¨ ul¨onb¨oz˝o szintjei adj´ak a m´ atrix elemeit. A szimul´ aci´ os m´ odszert a modellnek megfelel˝oen kell v´altoztatni. A m´odszer v´altozik elm´eletr˝ ol elm´eletre de a c´el mindig ugyanaz marad: a v´alasz m´atrix halmazb´ol u ´gy kell v´alasztani a mint´akat, hogy a m´ atrix relat´ıv gyakoris´ aga egyenl˝o legyen a P-b˝ol sz´am´ıtott val´osz´ın˝ us´eggel. A l´enyeges k¨ ul¨ onbs´eg az egyes modellek k¨ oz¨ ott a param´eterek megbecsl´es´eben van, aminek az itt felv´azolt Monte Carlo m´ odszer szempontj´ ab´ ol nincsen k¨ ul¨on¨osebb jelent˝os´ege. 16
9. ´abra. M CYM geometri´aja
Y2 2 DY
P MNSQ
X
Drasgow, Levine, & McLaughlin (1987), Klauer (1995) ´es Snijders (2001) tanulm´anyaiban megjel¨ olt illeszked´esi statisztik´ ak szinte mindegyike kifejezhet˝o egy ´altal´anos form´aban: N L X X (xji − Pji )wji V =
(45)
i=1 j=1
vagy V∗ =
L X N X
(xji − Pji )2 vji ,
(46)
i=1 j=1
ahol wji ´es vji a megfelel˝ o s´ uly f¨ uggv´enyt jel¨olik. J´ol l´athat´o, hogy az el˝oz˝o r´eszben le´ırt elj´ar´ as k¨ onnyed´en ´ altal´ anos´ıthat´ o b´ armely illeszked´esi statisztik´ara a fent le´ırt egyenletek (45 ´es 46) seg´ıts´eg´evel. Itt r¨ oviden felv´ azoljuk, hogy hogyan hajthatjuk ezt v´egre egy ´altal´anos illeszked´esi index V and V ∗ eset´eben (45 ´es 46 egyenletek). Az egyszer˝ us´eg kedv´e´ert most csak egy, az MCVPM indexet haszn´ aljuk. Kezdj¨ uk el˝ osz¨ or is azzal, hogy m´ar megbecs¨ ult¨ uk a modellhez tartoz´o param´etereket. Majd, a szimul´ alt m´ atrixok halmaz´ ab´ ol, Y k , k = 1, . . . , K, l´etrehozzuk az eloszl´asokat Vk := V (P, Y)
L X N X
:=
k (yji − Pji )wji ,
(47)
k (yji − Pji )2 vji .
(48)
i=1 j=1
Vk∗ := V ∗ (P, Y)
L X N X
:=
i=1 j=1
Majd, elv´egezz¨ uk a hipot´ezis tesztel´est, hogy l´assuk, hogy V = V (P, X ) ´es 17
V ∗ = V ∗ (P, X )
(49)
1. t´ abl´ azat. pPM n´egy k¨ ul¨onb¨oz˝o tesztre kapott ´ert´ekei. K=1000 pχ 2 pPM pPM pPM pPM pPM Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3100 0.3240 0.2880 0.3270 0.3340 0.3166 0.0182 0.0460 0.2880 0.3340
40×48 0.0145 0.1810 0.1740 0.1800 0.1620 0.1770 0.1748 0.0077 0.0190 0.1620 0.1810
40×24 0.0914 0.3260 0.2900 0.3090 0.3100 0.2900 0.3050 0.0153 0.0360 0.2900 0.3260
82×24 0.0447 0.2260 0.2260 0.2080 0.2410 0.2390 0.2280 0.0132 0.0330 0.2080 0.2410
K=5000 pχ 2 pPM pPM pPM pPM pPM Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3200 0.3188 0.3218 0.3204 0.3298 0.3222 0.0044 0.0110 0.3188 0.3298
40×48 0.0145 0.1818 0.1840 0.1804 0.1742 0.1756 0.1792 0.0042 0.0098 0.1742 0.1840
40×24 0.0914 0.2988 0.3082 0.2976 0.2960 0.3024 0.3006 0.0049 0.0122 0.2960 0.3082
82×24 0.0447 0.2338 0.2240 0.2320 0.2342 0.2252 0.2298 0.0049 0.0102 0.2240 0.2342
¨ replik´ Megjegyz´es: Ot aci´ ot k´esz´ıtett¨ unk az MC indexek stabilit´as´anak megvizsg´al´as´ara.
ugyanabba a popul´ aci´ oba tartozik-e, mint a hozz´ajuk tartoz´o (Vk ) ´es (Vk∗ ). Most m´ ar egy´ertelm˝ uen l´ atszik, hogy hogyan ´altal´anos´ıthat´o a Monte Carlo elj´ar´as. B´ armely olyan indexre, amely X -b˝ ol ´es P -b˝ol sz´armaztathat´o, tudunk gener´alni v´alasz m´atrixokat ´es ki tudjuk sz´ amolni az indexet az Y-ra, amely az X szerep´et t¨olti be. A kor´abban kifejtett Megfigyel´es tartalmazza azt az Y relat´ıv gyakoris´aga ´es az Y-hoz tartoz´o p(Y) val´osz´ın˝os´ege k¨oz¨otti osszef¨ ¨ ugg´est, amely lehet˝ ov´e teszi az aktu´alis indexhez tartoz´o p-´ert´ek megtal´al´as´at.
5. 5.1.
¨ Osszehasonl´ ıt´ o´ es stabilit´ ast vizsg´ al´ o tanulm´ anyok A tanulm´ anyok le´ır´ asa
K´et tanulm´ anyt v´egezt¨ unk el annak ´erdek´eben, hogy az u ´j m´odszer jellemz˝oit k¨ozelebbr˝ol is megismerj¨ uk. El˝ osz¨ or is a Monte Carlo illeszked´esi teszteket a hagyom´anyosan haszn´alt MNSQ outfit teszthez hasonl´ıtottuk k¨ ul¨ onb¨ oz˝ o nagys´ag´ u v´alasz m´atrixok seg´ıts´eg´evel. Majd a teszt stabilit´as´ at vizsg´ altuk k¨ ul¨ onb¨ oz˝ o sz´ am´ u szimul´ aci´okon kereszt¨ ul. A tanulm´ anyban haszn´ alt v´ alasz m´atrixok az Ohio State University Matematika Tansz´ek´er˝ ol sz´ armaznak. Az ott megh´ırdetett Matematika 116-os kurzushoz (”Kir´andul´asok a Matematika ter¨ ulet´en”) haszn´ alt 48 k´erd´eses, felelet-v´alaszt´os t´emaz´ar´o vizsg´at ´es a 24 k´erd´eses r¨ovid vizsg´ at haszn´ altuk fel. Mindk´et tesztet 82 di´ak oldotta meg. R´eszcsoportokat hoztunk l´etre az´altal, hogy megfelezt¨ uk a k´et vizsgacsoportot, s ´ıgy n´egy k¨ ul¨onboz˝o v´alasz m´atrixot hoztunk l´etre k¨ovetkez˝ o m´eretekben: 82 × 48, 40 × 48, 40 × 24, 82 × 24. A k¨ ovetkez˝ o t´ abl´ azatok (1-6. ´ abr´ak), a pχ2 sorai az MNSQ outfit ´ert´ekeit mutatj´ak, (a WilsonHilferty transzform´ aci´ o ´es a numerikus integr´al´ast k¨ovet˝oen). Majd a k¨ovetkez˝o ¨ot sor tartalmazza az adott Monte Carlo teszt ¨ ot f¨ uggetlen replik´al´as´ab´ol kapott p ´ert´ekeit. A t´abl´azatok p´arokban vannak. Az els˝ o t´ abl´ azatban a szimul´alt m´atrixok sz´ama K = 1000, a m´asodikban pedig K = 5000. A t´ abl´ azatok szint´en tartalmazz´ak a Monte Carlo teszt ¨ot replik´aci´oja felett kapott p-´ert´ekek atlag´ ´ at, sz´ or´ as´ at, terjedelm´et, minimum´at ´es maximum´at.
5.2.
A t´ abl´ azatok ¨ osszefoglal´ asa
A k´et t´ abl´ azat 1 mutatja a pPM ´ert´ekeket. L´athat´o, hogy am´ıg pχ2 k´et esetben is torz illeszked´est mutat az α = 0.05 szinten (vastagon szedett sz´amok), pPM minden esetben moder´alt illeszked´est mutat. Ez a megfigyel´es egy u ´jabb bizony´ıt´eka a gyakran t´argyalt probl´em´anak, amely szerint az 18
2. t´ abl´ azat. pYM n´egy k¨ ul¨onb¨oz˝o tesztre kapott ´ert´ekei. K=1000 pχ 2 pYM pYM pYM pYM pYM Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3710 0.3820 0.3650 0.3760 0.3810 0.3750 0.0071 0.0170 0.3650 0.3820
40×48 0.0145 0.2640 0.2620 0.2700 0.2590 0.2650 0.2640 0.0041 0.0110 0.2590 0.2700
40×24 0.0914 0.3900 0.3600 0.3820 0.3530 0.3650 0.3700 0.0155 0.0370 0.3530 0.3900
82×24 0.0447 0.3220 0.3220 0.3240 0.3230 0.3360 0.3254 0.0060 0.0140 0.3220 0.3360
K=5000 pχ 2 pYM pYM pYM pYM pYM Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3856 0.3804 0.3786 0.3774 0.4038 0.3852 0.0109 0.0264 0.3774 0.4038
40×48 0.0145 0.2660 0.2772 0.2732 0.2660 0.2842 0.2733 0.0078 0.0182 0.2660 0.2842
40×24 0.0914 0.3652 0.3688 0.3710 0.3648 0.3730 0.3686 0.0036 0.0082 0.3648 0.3730
82×24 0.0447 0.3366 0.3142 0.3244 0.3252 0.3184 0.3238 0.0085 0.0224 0.3142 0.3366
¨ replik´ Megjegyz´es: Ot aci´ ot k´esz´ıtett¨ unk az MC indexek stabilit´as´anak megvizsg´al´as´ara.
3. t´ abl´ azat. pPX n´egy k¨ ul¨onb¨oz˝o tesztre kapott ´ert´ekei. K=1000 pχ 2 pPX pPX pPX pPX pPX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3040 0.3280 0.2950 0.3040 0.3090 0.3080 0.0123 0.0330 0.2950 0.3280
40×48 0.0145 0.2270 0.2040 0.2360 0.2250 0.2360 0.2256 0.0131 0.0320 0.2040 0.2360
40×24 0.0914 0.3010 0.3020 0.3020 0.2940 0.3030 0.3004 0.0036 0.0090 0.2940 0.3030
82×24 0.0447 0.2340 0.2320 0.2470 0.2440 0.2740 0.2462 0.0168 0.0420 0.2320 0.2740
K=5000 pχ 2 pPX pPX pPX pPX pPX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.2970 0.2976 0.3120 0.3054 0.3072 0.3038 0.0064 0.0150 0.2970 0.3120
40×48 0.0145 0.2194 0.2312 0.2232 0.2244 0.2300 0.2256 0.0049 0.0118 0.2194 0.2312
40×24 0.0914 0.2874 0.2924 0.2940 0.2954 0.2898 0.2918 0.0032 0.0080 0.2874 0.2954
82×24 0.0447 0.2536 0.2366 0.2584 0.2512 0.2540 0.2508 0.0083 0.0218 0.2366 0.2584
¨ replik´ Megjegyz´es: Ot aci´ ot k´esz´ıtett¨ unk az MC indexek stabilit´as´anak megvizsg´al´as´ara.
MNSQzstd eloszl´ asa elt´er a norm´ alist´ol. M´eg abban az esetben is amikor pχ2 j´o illeszked´est mutat, a pPM ´ert´ekei jelent˝ osen magasabbak, mint a pχ2 ´ert´ekei. A pPM stabilit´ as-anal´ızis nagyon kedvez˝o k´epet fest. Annak ellen´ere, hogy a pPM el´eri a 0.0460 (K = 1000; 82 × 48), a minta m´eret´enek n¨ovel´es´evel (K = 5000) ezuhan 0.012-re. Az ´atlagok egy nagyon er˝ os stabilit´ asr´ ol ´ arulkodnak. A legnagyobb ugr´as 0.3222 − 0.3166 = 0.006, vagyis csak 0.6% (a legnagyobb 82 × 48 v´ alasz m´atrix eset´eben ahol K -t felemelt¨ uk 1000-r˝ol 5000-re). Meg´ allap´ıthatjuk, hogy a tanulm´anyunkban szerepl˝o m´atrixm´eretekre vonatkoz´oan a pPM Monte Carlo teszt ¨ otezres elem sz´ ammal megb´ızhat´o ´es stabil p-´ert´ekeket k´epes el˝o´all´ıtani. ´ Altal´ anoss´ agban elmondhatjuk, hogy a hagyom´anyos MNSQ ´es az u ´j Monte Carlo tesztek osszehasonl´ıt´ ¨ asa egyszer˝ uen kivitelezhet˝o, hiszen az eredm´eny minden alkalommal konzisztensen ugyanaz: a Monte Carlo tesztek nem mutatnak szignifik´ans illeszked´esi torzul´ast (m´eg a szigor´ u α = 0.1 szinten sem) m´ıg, az MNSQ outfit szignifik´ans torzul´ast mutat (α = 0.05 szinten), n´egyb˝ ol k´et esetben. A stabilit´ asi vizsg´ alat igaz´ an j´ o eredm´enyt mutat. A pYX ´es a p0YX kiv´etel´evel(amelyek igaz´ab´ ol ugyanazok az esetek) a p-´ert´ekek az 5000-es minta eset´en szinte sohasem nagyobbak, mint 0.02. Az ´ atlagok szint´en mindig er˝ os stabilit´ast mutatnak. Fontosnak tartjuk m´egegyszer kihags´ ulyozni, hogy az 5000-es minta egy hihetetlen¨ ul kicsi minta. A 82 × 48-es m´eret˝ u v´ alasz m´ atrixok sz´ama 23936 ≈ 7 · 101185 . Szinte hihetetlen, hogy ebb˝ ol a halmazb´ ol h´ uzott 5000-es minta (sok esetben csak az 1000-es minta) megb´ızhat´o eredm´enyt produk´ al. Ez az eredm´eny els˝ osorban a minta-v´alaszt´asnak k¨osz¨onhet˝o. Azok a m´atrixok fognak kiv´ alaszt´ odni, amelyeknek nagy a val´osz´ın˝ us´ege a p ´ert´ek´et tekintve. A legt¨obb m´atrix jelent´ektelen val´ osz´ın˝ us´eggel rendelkezik, m´eg akkor is ha az Mresp halmaz´anak m´eret´ehez hasonl´ıtjuk ˝oket. Nem neh´ez meg´erteni, hogy mi´ert pYX ´es p0YX adja a legkev´esb´e stabil eredm´enyt (5 and 6. 19
4. t´ abl´ azat. p0PX n´egy k¨ ul¨onb¨oz˝o tesztre kapott ´ert´ekei. K=1000 pχ 2 p0PX p0PX p0PX p0PX p0PX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3230 0.3300 0.2650 0.3280 0.3380 0.3168 0.0295 0.0730 0.2650 0.3380
40×48 0.0145 0.1810 0.1740 0.1810 0.1620 0.1810 0.1758 0.0083 0.0190 0.1620 0.1810
40×24 0.0914 0.3420 0.2870 0.3080 0.3240 0.2990 0.3120 0.0215 0.0550 0.2870 0.3420
82×24 0.0447 0.2110 0.2140 0.2130 0.2240 0.2540 0.2232 0.0179 0.0430 0.2110 0.2540
K=5000 pχ 2 p0PX p0PX p0PX p0PX p0PX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3174 0.3168 0.3268 0.3178 0.3162 0.3190 0.0044 0.0106 0.3162 0.3268
40×48 0.0145 0.1796 0.1838 0.1810 0.1792 0.1754 0.1798 0.0030 0.0084 0.1754 0.1838
40×24 0.0914 0.3000 0.3098 0.2976 0.2982 0.2938 0.2999 0.0060 0.0160 0.2938 0.3098
82×24 0.0447 0.2358 0.2116 0.2374 0.2348 0.2314 0.2302 0.0106 0.0258 0.2116 0.2374
¨ replik´ Megjegyz´es: Ot aci´ ot k´esz´ıtett¨ unk az MC indexek stabilit´as´anak megvizsg´al´as´ara.
5. t´ abl´ azat. pYX n´egy k¨ ul¨onb¨oz˝o tesztre kapott ´ert´ekei. K=1000 pχ 2 pYX pYX pYX pYX pYX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.2960 0.3220 0.2990 0.2980 0.3000 0.3030 0.0107 0.0260 0.2960 0.3220
40×48 0.0145 0.2250 0.2080 0.2360 0.2250 0.2300 0.2248 0.0104 0.0280 0.2080 0.2360
40×24 0.0914 0.2910 0.2900 0.3160 0.2800 0.3030 0.2960 0.0138 0.0360 0.2800 0.3160
82×24 0.0447 0.2410 0.2320 0.2520 0.2560 0.2690 0.2500 0.0142 0.0370 0.2320 0.2690
K=5000 pχ 2 pYX pYX pYX pYX pYX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.2986 0.2996 0.3106 0.3060 0.3196 0.3069 0.0086 0.0210 0.2986 0.3196
40×48 0.0145 0.2192 0.2306 0.2226 0.2178 0.2388 0.2258 0.0088 0.0210 0.2178 0.2388
40×24 0.0914 0.2802 0.2836 0.2920 0.2922 0.2894 0.2875 0.0053 0.0120 0.2802 0.2922
82×24 0.0447 0.2536 0.2402 0.2612 0.2494 0.2452 0.2499 0.0080 0.0210 0.2402 0.2612
¨ replik´ Megjegyz´es: Ot aci´ ot k´esz´ıtett¨ unk az MC indexek stabilit´as´anak megvizsg´al´as´ara.
abr´ ´ ak). A kiv´ alasztott v´ alasz m´ atrixok itt vannak a legintenz´ıvebben haszn´alva. Ezek a p-´ert´ekek k´et eloszl´ asb´ ol vannak kisz´ amolva, az egyik¨ uk a szimul´alt m´atrixok k¨oz¨otti t´avols´agok halmaza, amely er˝ osen f¨ ugg a szimul´ alt halmaz jelleg´et˝ol. A m´asik eloszl´as szint´en ett˝ol a halmazt´ol f¨ ugg, hiszen az nem m´ as, mint X ´es a szimul´alt halmaz k¨oz¨otti t´avols´agok halmaza. M´eg ebben az esetben is a legnagyobb terjedelem csak 0.0314 ( K = 5000, 82 × 24-as tesztn´el). Mivel a p-´ert´ekei mindig nagyobbak mint 0.27, ez´ert ez az elt´er´es ar´anylag kicsi ´es semmik´eppen nincs hat´assal a hipot´ezis teszt eredm´eny´ere. Egyetlen esetben lehet csak hat´ asa a Monte Carlo teszteknek a v´egs˝o d¨ont´esen, m´egpedig akkor ha a p ´ert´eke az α ´ert´ek´ehez k¨ ozel esik. Egy kiterjedt szimul´aci´os tanulm´any (Antal & Antal, 2003a) kimutatta, hogy ez szinte sosem fordul el˝o. Vagyis el´eg val´oszin˝ utlen, hogy a v´alasz m´atrix p-´ert´eke torz illeszked´est mutasson. A fent eml´ıtett tanulm´any egyetlen olyan v´alasz m´atrixot sem tudott felmutatni, amely az α = 0.01 szinten torz illeszked´est mutatott volna. Csup´an n´eh´any esetben fordult ez el˝ o az α = 0.05 szinten (100,000 v´alasz m´atrix k¨oz¨ ul).
6.
¨ Osszefoglal´ as
Az itt bevezetett Monte Carlo tesztek nemparametrikus csal´adja igaz´an megfelel˝o jel¨olt arra, hogy felv´ altsa a hib´ as MNSQ illeszked´esi teszteket. A csal´ad sz´amos tagot foglal mag´aba, de egyenl˝ ore egyik¨ uk sem prefer´ altabb a m´ asikn´al. Tov´abbi tanulm´anyok feladta lesz, hogy az u ´j p-´ert´ekek k¨ oz¨ otti k¨ ul¨ onbs´eget kimutassa. Egyik teszt sem mutatott szignifik´ans torzul´ast a felhaszn´alt v´alasz m´atrixokban, amely a hagyom´ anyos MNSQ outfit teszt eredm´enyeinek ellentmondott. Ugyanakkor, ez azt is mutatja, 20
6. t´ abl´ azat. p0YX n´egy k¨ ul¨onb¨oz˝o tesztre kapott ´ert´ekei. K=1000 pχ 2 p0YX p0YX p0YX p0YX p0YX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3750 0.3840 0.3530 0.3770 0.3850 0.3748 0.0129 0.0320 0.3530 0.3850
40×48 0.0145 0.2660 0.2610 0.2700 0.2590 0.2730 0.2658 0.0059 0.0140 0.2590 0.2730
40×24 0.0914 0.3960 0.3590 0.3820 0.3590 0.3730 0.3738 0.0158 0.0370 0.3590 0.3960
82×24 0.0447 0.3120 0.3190 0.3260 0.3100 0.3480 0.3230 0.0153 0.0380 0.3100 0.3480
K=5000 pχ 2 p0YX p0YX p0YX p0YX p0YX Mean Std.Dev. Range Minimum Maximum
82×48 0.1021 0.3842 0.3792 0.3816 0.3752 0.3956 0.3832 0.0077 0.0204 0.3752 0.3956
40×48 0.0145 0.2644 0.2760 0.2748 0.2698 0.2834 0.2737 0.0071 0.0190 0.2644 0.2834
40×24 0.0914 0.3654 0.3696 0.3708 0.3658 0.3694 0.3682 0.0024 0.0054 0.3654 0.3708
82×24 0.0447 0.3386 0.3072 0.3292 0.3256 0.3218 0.3245 0.0115 0.0314 0.3072 0.3386
¨ replik´ Megjegyz´es: Ot aci´ ot k´esz´ıtett¨ unk az MC indexek stabilit´as´anak megvizsg´al´as´ara.
hogy az MNSQ χ2 (vagy normalit´ as feltev´es) egy r´egi, nem helyt´all´o paradigma, amely a jelen kutat´ as kiindul´ opontj´ at adta. Annak ellen´ere, hogy a Monte Carlo p-´ert´ekek csup´an approxim´al´asok, nagyon er˝os stabilit´ ast mutatnak a szimul´ alt m´ atrixok sz´am´at illet˝oen. Megmutattuk, hogy k¨ozepes m´eret˝ u v´alasz m´ atrixok eset´eben az 5000-es m´eret˝ u minta kiel´eg´ıt˝o eredm´eny ad. Ennek ellen´ere, mindig javasolt a stabilit´ as tanulm´ anyoz´ asa. Nagyon val´osz´ın˝ utlen, hogy egy eredm´eny a v´alasz m´atrixok sz´am´anak kiv´ alaszt´ as´ ara u ´gy alkalmazhat´ o, hogy az minden esetben megb´ızhat´o erem´enyt adjon. A Monte Carlo p-´ert´ekek kisz´ amol´ as´ anak replik´aci´oi azonban k¨onnyen elvezethet benn¨ unket j´ol ´atgondolt d¨ ont´esek meghoz´ as´ ara. Ebben a tanulm´anyban ¨ot replik´aci´ot k´esz´ıtett¨ unk k´et k¨ ul¨onb¨oz˝o nagys´ag´ u mint´ ara (K = 1000 ´es K = 5000). Had ejts¨ unk n´eh´ any sz´ ot a fut´ asi id˝or˝ol. Mivel a Monte Carlo tesztek szimul´aci´oval helyettes´ıtik az analitikus megold´ ast, ez´ert nagy sz´am´ıt´og´ep er˝oforr´ast ig´enyel. A program k´od meg´ır´as´an´ al figyelt¨ unk arra, hogy min´el kevesebb mem´or´at haszn´aljon a g´ep. A legnagyobb teszt (82 × 48, K = 5000) fut´ asi ideje 10 perc volt egy olyan g´epen amely 2.4 GHz Xenon processzorral rendelkezett. Tudva azt, hogy az IRT modelleket haszn´al´ok egy nagy csoportja az´ert vetette el a Rasch modellt, mert a modell gyakran (f´elrevezet˝ o m´odon) szignifik´ans torzul´ast mutatott, a megn¨ovekedett fut´ asi id˝ o meg´eri, hogy letiszt´ azzuk az egyes modellek illeszked´es´enek elm´elet´et. Ahogy a sz´am´ıt´og´epek egyre er˝ osebb´e v´ alnak, m´ ar semmi sem szab g´atat egy komoly illeszked´esi anal´ızis kivitelez´es´enek.
21
Hivatkoz´ asok [1] Antal, J. (2003). A person fit test based on Monte-Carlo method. Paper presentation at the annual meeting of the National Council on Measurement in Education, Chicago, IL [2] Antal, T. & Antal, J. (2003a). Global Rasch fit analysis. (unpublished manuscript) [3] Antal, T. & Antal, J. (2003b). Kardin´ al 0.018: Comprehensive Rasch Analysis. Computer Software. [4] Baker, F. (1992). Item Response Theory: Parameter estimation methods. New York, NY: Marcel Dekker, Inc. [5] Baker, F. (2001). The basics of Item Response Theory. ERIC Clearinghouse on Assessment and Evaluation, College Park, MD. [6] Chen, W.H., & Thissen, D. (1999). Estimation of item parameters for the three-parameter logistic model using the marginal likelihood of summed scores. British Journal of Mathematical and Statistical Psychology, 52, 19-37. [7] Cohen, A. S. (1991). Influence of prior distributions on detection of DIF. Journal of Educational Measurement, 28, 1, 49-59. [8] Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, 11, 59-79. [9] Ferrara, S. (1997). Contextual characteristics of locally dependent open-ended item clusters in a large-scale performance assessment. Applied Measurement in Education, 10, 2, 123-44. [10] Ferrara, S.; Huynh, H. & Michaels, H. (1999). Contextual explanations of local dependence in item clusters in a large scale hands-on science performance assessment. Journal of Educational Measurement, 36, 2, 119-40. [11] Fisher, G. H. (1981). On the existence and uniqueness of maximum likelihood estimates in the Rasch model. Psychometrika, 46, 59-77. [12] Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp.97-110). New York, NY: Springer. [13] Lang, S. (1986). Introduction to Linear Algebra. New York, NY: Springer Verlag. [14] Li, Mao-neng F. & Olejnik, S.(1997). The power of Rasch person-fit statistics in detecting unusual response patterns. Applied Psychological Measurement, 21, 3, 215-231. [15] Linacre, J. M. & Wright, B.D. (2002). Understanding Rasch measurement: construction of measures from many-facet data. Journal of Applied Measurement 3, 4, p486-512. [16] Meijer, R. R. & Sijtsma, K. (2001). Methodology review: Evaluating person fit. Applied Psychological Measurement. 25, 2, 107-135. [17] Noonan, B. W., Boss. M. W. & Gessaroli, M. E. (1992). The effect of test length and IRT model on the distribution and stability of three appropriateness indexes. Applied Psychological Measurement, 16, 4, 345-352. 22
[18] Parshall, C. G. & Miller, T. R.(1995). Exact versus asymptotic Mantel-Haenszel DIF Statistics: a comparison of performance under small-sample conditions. Journal of Educational Measurement, 32, 3, 302-316. [19] Ponoczny, I. (2001). Nonparametric Goodness-of-fit tests for the Rasch model. Psychometrika, 66, 3, 437-460. [20] Rao, A. R.; Jana, R. and Bandyopadhyay, S. (1996). A Markov chain Monte Carlo method for generating random (0, 1) matrices with given marginals. Sankhya ser. A 58, 225-242. [21] Reese. L. M. (1999). Impact of local item dependence on item response theory scoring in CAT. Law School Admission Council Computerized Testing Report. LSAC Research Report Series. [22] Roberts, J. M. Jr. (2000). Simple methods for simulating sociomatrices with given marginal totals. Social Networks 22, 273-283. [23] Roussos, L. A., Schnipke, D. L. & Pashley, P.J. (1999). A generalized formula for the MantelHaenszel differential item functioning parameter. Journal of Educational and Behavioral Statistics, 24,3 293-322. [24] Smith, E. V. Jr. (2001). Understanding Rasch measurement: Evidence for the reliability of measures and validity of measure interpretation: a Rasch measurement perspective. Journal of Applied Measurement, 2, 3, 281-311. [25] Smith, R. M.(1985). A comparison of Rasch person analysis and robust estimators. Educational and Psychological Measurement, 45, 433-444. [26] Snijders, T. A. B. (1991). Enumeration and simulation methods for 0-1 matrices with given marginals. Psychometrika, 56, 397-417 [27] Snijders, T. A. B. (2001). Asymptotic null distribution of person fit statistics with estimated response parameter. Psychometrika, 66, 3, 331-342. Stone, G. (2001). Understanding Rasch measurement: Objective standard setting (or truth in advertising). Journal of Applied Measurement, 2,2, 187-201. [28] Swaminathan, H. & Rogers, H. J.(1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, 27,4, 361-70. [29] Wilson, M. (1988). Detecting and interpreting local item dependence using a family of Rasch models. Applied Psychological Measurement, 12, 4, 353-364. [30] Wright, B. D. & Linacre, M. (1985). Microscale manual (ver. 2.0) Westport CT: Mediax Interactive Technologies. [31] Wright, B. D. & Masters, G. N. (1982). Rating scale analysis, Rasch Measurement, Chicago: MESA Press. [32] Wright, B. D. & Mok, M. (2000). Understanding Rasch Measurement: Rasch Models Overview. Journal of Applied Measurement, 1, 1, 83-103. [33] Wright, B. D. and Stone, M. H (1979). Best test design. Chicago: MESA Press. [34] Yen, W. M. (1993). Scaling performance assessment: Strategies for managing local item dependence. Journal of Educational Measurement, 30,3, 187-213. 23
[35] Zwick R., Thayer D. T. (2002). Application of an empirical Bayes enhancement of MantelHaenszel differential item functioning analysis to a computerized adaptive test. Applied Psychological Measurement, 26, 1, 57-76.
24