TESZTELMÉLET
T. Parázsó Lenke
A tesztek értékelése Módszerek:
Gépi Emberi Kevert
Ellenőrzés, értékelés célja – a visszajelzés (oktatási folyamat, hallgató, szülő, társadalom).
2
Tesztelmélet
2012.02.24.
Tesztek az oktatásban Értékelés formái: Kvalitatív vagy minőségi: Eredmények szóbeli, irásbelielemzése, értékelése. Szubjektív Kvantitativ:
3
a teljesítményhez valamilyen számszerű értéket rendelünk. (átmenet: elfogadható/elfogadhatatlan) Az értékelhető teljesítményt skála alapján minősítjük Becslés: - gondolatban helyezzük és értékeljük a megfigyelt teljesítményt. (négyesség, ötösség, nem rögzített).
Tesztelmélet
2012.02.24.
Tudás tesztelése A tesztek az oktatás különböző szakaszaiban jelennek meg.
Teszt: egy sajátos dolgozat, amely célszerűen válogatott feladatokat tartalmaz. A feladatokat gyorsan, egyszerűen, megbízhatóan lehet értékelni. Jellemzői:
4
Nagy létszám Térben és időben távol eső teljesítmény mérése Oktatási eljárások hatékonyság vizsgálata
Tesztelmélet
2012.02.24.
Tudásszintmérés Tudásszintmérés esetében pontosan körülhatárolható az a tudás, ami 100%-nak tekinthető. Csoportosítása:
5
Standartizált Tanár által készített Tulajdonság (adottság) tesztek-jövőbe tekintenek: prediktív Teljesíténytesztek: a múltban elsajátított tudást méri (feladatlap, mérőlap)
Tesztelmélet
2012.02.24.
Pedagógiai mérés folyamata Mérőeszköz elkészítése Skála létrehozása a mérőeszközön Mérőeszköz hozzáillesztése a megvizsgált tulajdonsághoz, teljesítményhez A pedagógia mérések eszköze: Teszt Teszt jelentése – próba Tesztek: pedagógia (tudás), pszichológiai teszt (személyiségvonás, stb)
6
Tesztelmélet
2012.02.24.
Tesztek közreadásának szempontjai • Mit mér a teszt? • Miért van rá szükség? • Honnan vannak a tételek? • A teszt készítésébe bevont minták jellemzoi • Leíró statisztikák (tételekre, skálákra) • Megbízhatósági (reliabilitási) mutatók • Érvényességi (validitási) mutatók • Gazdaságossági (utilitási) mutatók • Maga a teszt (skálák és azok tételei)
7
Tesztelmélet
2012.02.24.
A tesztfejlesztés menete (ajánlott lépései) A teszt írása (előzetes tétel-együttes összeállítása)
pontos leírás a mérendőről tételek összegyűjtése
tételek ellenőrzése válaszadó számára arról szóljon, amit mérni akarunk (nem mindig fontos) egyértelmű fogalmazás, ne "kavarja fel" a kitöltőt használat előtt kisebb mintán ki kell próbálni A teszt szükség szerinti módosítása a pszichometriai feldolgozás eredményei alapján
egyes skálák vagy tételek elhagyása új skálák vagy tételek hozzáadása
Teszt-felvétel Pszichometriai feldolgozás (az egyes lépések további szükség szerinti ismétlése amíg egy megbízható és érvényes tesztet kapunk)
8
Tesztelmélet
2012.02.24.
Tudásszintmérés problémái 1960-as évek végén megválaszolatlan kérdések merültek fel: Nem feltétlenül normális eloszlású a tudásszintmérő teszt által kapott eredmény Ha mindenki 100%-t ír, akkor nincs szórása, a klasszikus tesztelmélet képletei használhatatlanokká válnak. A probabilisztikus_valószínűségelméleti tesztelmélet ezt feloldja.
9
Tesztelmélet
2012.02.24.
Tesztelméleti alapok Lehetőség: • képesség- és intelligencia-tesztek, személyiségvizsgáló
eljárások, • az autóvezetési tudást vagy a nyelvtudást mérő skálák, az egyes tantárgyakban elért eredményeket tükröző pontszámok, • skálázott orvosi leletek, • a hitelképesség skálázott mutatói, • a munkahelyi teljesítményt mérő pontszámok, stb.
10
Tesztelmélet
2012.02.24.
Tesztelméleti alapok
Azonban mi is gyakran mérjük vagy minosítjük ilyen módon a külvilágunk egyes szereplőit (más embereket), élményeinket, objektumokat (tárgyakat, termékeket, szolgáltatásokat, társadalmi jelenségeket stb.) Véleményünket vagy meggyőződésünket gyakran fejezzük ki különböző mások által készített (konstruált) és számunkra felkínált skálákon (pszichológiai és szociológiai felmérések, piackutatások vagy a legkülönbözőbb célú közvélemény kutatások alkalmával). A pszichológus gyakran maga konstruál skálákat
11
Tesztelmélet
2012.02.24.
Tesztelméleti alapok A tesztek fogalma és típusai A teszt szisztematikus eljárás két vagy több személy viselkedésének az összehasonlítására. „A test is a systematic procedure for comparing the behavior of two or more persons” Cronbach (1949, 1960) A tesztek típusai:
intelligencia-tesztek teljesítmény-tesztek képesség-tesztek érdeklődési tesztek neuropszichológiai tesztek személyiség-tesztek viselkedési tesztek, stb.
A tesztek használata szerzői jogok által védett! Sok teszt felvétele kiképzéshez
12
Tesztelmélet
2012.02.24.
Klasszikus tesztelmélet A tesztelmélet alapjai 1910-es, a kifejlesztett kérdései az 50es években láttak napvilágot. A teszt pedagógia/pszichológia mérőeszköz. Egységei: a szubteszt (rész-teszt). A szubteszt tekinthető önálló tesztnek is. A tesztek feladatokból épülnek fel A feladatok legkisebb, önállóan is értelmezhető része az item.
13
Tesztelmélet
2012.02.24.
A klasszikus tesztelmélet alapjai
A tesztek túlnyomó része világszerte még a klasszikus tesztelmélet alapján készül. Minden egyes itemre (item: feladat, kérdés, tétel,...) adott válasz egyformán fontos a tesztérték (összpontszám) meghatározásában.
Bizonyos esetekben nem az összpontszámmal, hanem átlagpontszámmal dolgozunk (pl. ugyanazon célra kifejlesztett különböző hosszúságú tesztek eredményeinek összevetése)
14
Tesztelmélet
2012.02.24.
A klasszikus tesztelmélet alapjai A tesztelmélet célja: a felmerülő kérdéseket (Mennyire jól mér) matematikai úton fogalmazzuk meg.
A klasszikus tesztelmélet alapegyenlete:
X=t+ε
Azaz a megfigyelt (vagy tapasztalati úton mért) érték (X) egyenlő a valódi érték (t = true score) és a hiba (ε = error) összegével. A mérés célja a t valódi érték minél jobb közelítése az ε hiba csökkentésével. Alapvető elvárás a környezeti tényezők figyelembe vétele és a mérés azonos körülmények közötti elvégzése. A körülmények lényeges változása a hiba nagyságának „szisztematikus” változását eredményezheti. 15
Tesztelmélet
2012.02.24.
A klasszikus tesztelmélet alapjai Az eredményhez hozzátartozik a hiba nagyságának a becslése, ami – a fizikai mérések mintájára – ismételt mérésekkel történik (a mért érték ingadozásának
nagyságából becsülhető a hiba). Az ismétlések számának növelésével a véletlenszerű hiba hatása csökkenthető. Amikor – pl. tanulási hatás, elfáradás stb. miatt – a teszt felvétele nem ismételhető, akkor az ún. párhuzamos tesztváltozatokat kell alkalmazni. Két teszt akkor párhuzamos, ha bármely személy esetében az egyik teszttel kapott valódi érték megegyezik a másik teszthez tartozó valódi értékkel és emellett a két teszt hibaszórása is egyenlő, azaz ugyanolyan „jól” mérnek (ha a szórások nem
azonosak, akkor a tesztek „ő-ekvivalensek”).
16
Tesztelmélet
2012.02.24.
Axiómák 1.
Feltételezzük, a hiba átlaga, a várható értéke : M(ε )= 0 (a valódi értéktől olyan mértékben térnek el a vizsgált személyek ± irányban, azok statisztikusan kiegyenlítik egymást.
2.
Statisztikailag: a valódi érték és a hiba közötti korreláció 0. A hiba és a valódi érték között semmilyen kapcsolat nincs korr(t, ε) = 0
3.
Annál jobban méri a tesztünk a mérni kívánt jellemzőt, minél inkább összefügg a valódi érték a mért értékkel.
Statisztikailag: M és V erősen korrelál. Ez a tesztek megbízhatósága, reliabilitása
Reliabilitási koefficiens
17
rt
Tesztelmélet
2012.02.24.
3. A klasszikus tesztelmélet alapfeltevései (axiómái)
Két párhuzamos teszt hibái közti korrelációs együttható zero, korr (ε1, ε 2 ) = 0
Ha az egyik teszt hibája a másik – vele párhuzamos – teszt hibájával korrelál, az azt jelenti, hogy az esetleges hibák együtt változnak.
Ha a korreláció pozitív, akkor ha az egyik tesztben egy adott személynél a mérési hiba nagy, akkor várhatóan a másik teszt esetében is nagy lesz a hiba értéke.
18
Ez arra utal, hogy a tesztek között olyan kapcsolat áll fenn, aminek nincs köze a valódi értékhez, tehát a teszt értelmezését zavarja (szisztematikus hiba).
Tesztelmélet
2012.02.24.
A tesztek jóságmutatói
Objektivitás: a teszt tárgyilagos, nem szubjektív. Független attól ki végzi a teszttel a mérést.
Validitás: érvényesség, a teszttel valóban azt mérjük, amire készítettük
Reliabilitás: megbízhatóság. Mérése a reliabilitás mutatókkal.
19
Tesztelmélet
2012.02.24.
Objektivitás
Az objektív tárgyszerűt, tárgyilagost jelent, nem szubjektív jellemző.
A tesztek objektivitása alatt értendő, hogy hogy az eredmény kizárólag a vizsgált személy tulajdonságai alapján jöttek létre, a kutató személyétől függetlenül.
Adatfelvételi objektivitás: tesztelési helyzet pontos meghatározása
Kiértékelési objektivitás: javítókulcs megadása értékelési utasítás, stb.
Értelmezési objektivitás: útmutatóval, referenciafeladatok biztosítása, érdemjegyre váltás szabályainak megadása
A megbízhatóság _ reliabilitás A megbízhatóság azt fejezi ki, hogy a teszt mennyire pontosan mér. Számszerűen jellemezve 0 és 1 közötti érték jellemzi. (akkor lenne a legjobb azaz 1, ha a teszttel többször egymás után mérve a tanulók eredményei egymáshoz viszonyítva ugyanazt az eredményt adnák).
Ezt sok esetben egyszerűen úgy vizsgálhatjuk meg, hogy a tesztet több alkalommal felvesszük: minél kisebb az eltérés a mérési eredmények közt, annál megbízhatóbb a tesztünk.
Ha azonban egy olyan mérőeszközzel dolgozunk, melynek felvétele nem ismételhető, akkor a párhuzamos tesztváltozatát kell alkalmaznunk: ilyenkor elvárható, hogy hasonló – de a mérési hiba miatt nem feltétlen azonos – eredményt kapjunk.
A teszt megbízhatóságának mértéke a reliabilitás-együttható, és ezt pl. lehet becsülni a teszt és annak egy párhuzamos tesztjével számított korrelációjával.
21
Tesztelmélet
2012.02.24.
A megbízhatóság Klasszikus tesztelméletben: A teszt megbízhatóságának mértéke a teszt és annak egy párhuzamos tesztjével számított korrelációjával egyenlő a valóságos és a mért érték közötti korreláció négyzetével. A fenti lehetőségek tényleges érték kiszámítására nincs közvetlen lehetőség, becsülni lehet különböző módszerek alkalmazásával. A pedagógiai gyakorlatban a leggyakrabban alkalmazott a Crombach- α meghatározása.
22
Tesztelmélet
2012.02.24.
Validitás _ érvényesség A teszt azon tulajdonsága, hogy valóban azt méri-e amit célul tűztünk ki. Validitás 0 és 1 közötti értékkel jellemezhető Validitás képlete egy specialis reliabilitás képlet (Horváth, 1993) Formái
Előrejelző, prediktív Tartalmi, összhang a tudományos eredményekkel
Ha a teszt érvényes (valid), akkor megbízható (reliabilis), de fordítva nem igaz.
A megbízhatóság
A megbízhatóság a megfigyelt, a valódi és a hiba értékek varianciájának figyelembevételével adható meg. A valódi érték és a hiba közötti korrelálatlanságnak és a variancia tulajdonságainak következtében kapjuk, hogy:
var( X ) var(t ) var( )
24
Látható, hogy a hiba varianciájának csökkenése, azaz a pontosabb mérés, a megfigyelt érték és a valódi érték közötti „azonosságot” növeli, azaz a valódi értéket így egyre jobban meg tudjuk közelíteni.
Tesztelmélet
2012.02.24.
A megbízhatóság_Reliability A megbízhatóságot – Reliability (rel-el jelöljük) úgy értelmezzük (a párhuzamos tesztek korrelációjának bevezetése nélkül), hogy az megegyezik a valódi érték és a megfigyelt érték varianciáinak hányadosával, azaz:
1.
var t relX var(t) var( )
Bizonyítható, hogy a megfigyelt megbízhatóság megegyezik a teszt megfigyelt értékének és a valódi értékének négyzetes korrelációjával:
2.
rel ( X ) korr ( X , t ) 2
Probléma, hogy a valódi értéket, ill. annak varianciája nem ismert , így a megbízhatóságot csak becsülni lehet (pl. párhuzamos tesztek korrelációjával)
25
Tesztelmélet
2012.02.24.
Az érvényesség_Validity
Az érvényesség annak a mértéke, hogy a teszt tartalmilag, szerkezetileg és még más egyéb kritériumoknak és mérési célkitűzéseknek mennyire felel meg.
Meghatározásához egy viszonyítási alapra, – „etalonra” vagy „standardra” – van szükség (fizikai mérések esetében ez kevésbé jelent problémát, mentális mérések esetében bonyolultabb).
Mivel egy teszt „jóságának” több kritériuma is lehet, több szempontból is megítélhető az érvényesség.
26
Tesztelmélet
2012.02.24.
Az érvényesség
Igazolható, hogy párhuzamos tesztek validitása a reliabilitással azonos. A megbízhatóság az érvényesség egy speciális esete az ún. „konkurens–validitás”
(annak vizsgálata, hogy a tesztünk mennyire korrelál egy másik teszttel ill. kritériummal) különösen fontos, mivel megvilágítja a megbízhatósági vizsgálatok jelentőségét. Belátható, hogy a teszt mért-értéknek egy kritérium változóval (Krit) való korrelációja mindig kisebb vagy egyenlő a teszt mért-értéknek a valódi értékkel vett korrelációjánál, azaz:
korr( X , Krit ) korr( X , t ) 27
Tesztelmélet
2012.02.24.
Az érvényesség Mivel:
rel ( X ) korr ( X , t ) 2
így egy tesztnek a konkurens–validitása legfeljebb olyan nagy lehet, mint a megbízhatóságának négyzetgyöke. Ebből következik, hogy egy teszt validitása lehet ugyan nagyobb, mint a megbízhatósága (mivel 1-nél kisebb pozitív szám négyzetgyöke nagyobb az illető számnál), azonban ha a megbízhatóság értéke kicsi, akkor a négyzetgyöke, azaz a validitása sem lesz lényegesen nagyobb. Alacsony megbízhatóságú tesztet ezek alapján nem lehet érvényes tesztnek sem tekinteni, ami előrevetíti a tesztek megbízhatóságbecslésének fontosságát.
28
Tesztelmélet
2012.02.24.
A klasszikus tesztelmélet korlátai Feltételezi, hogy: A létrehozott skála értékei intervallum szintű skálát alkotnak (tehát pl. értelmes a mért értékek átlagáról, szórásáról beszélni, ez azonban empirikusan gyakran nem igazolható)
A teszt- és itemmutatók populáció függőek, értékük függ, hogy milyen jellegű mintából nyerjük az adatokat (egy adott teszt megbízhatósága más lesz, ha mondjuk egyetemisták, vagy ha nyugdíjasok köréből vesszük a mintát, annak ellenére, hogy pl. mindkét esetben az intelligenciát próbáltuk mérni).
vannak olyan mérési hibák, amelyeket nem kiküszöbölhetőek és nem korrigálhatóak. Következmény: a teszt a szélső tartományokban nem mér elég pontosan.
29
Tesztelmélet
2012.02.24.
II. Valószínűségi tesztelmélet ún. „modern tesztelmélet”
A teszt-itemek tulajdonságait a valószínűség eszközeivel jellemzi.
Az eset, hogy a tanuló megold egy teszt-itemet, nem determinisztikus, hanem valószínűség alapú.
A megoldás valószínűsége függ a tanuló tudásától.
Az itemek jól kifejezik az itemhez rendelt valószínűségeloszlást.
30
Tesztelmélet
2012.02.24.
Az ún. „modern tesztelmélet” (MT) lassan terjed
nem a skálán, hanem az itemeken van a hangsúly az itemeket véletlen változóknak tekintjük a „p” valószínűségek egyaránt függnek az item nehézségétől és a személytől mindkettőt közös dimenzióra hozzuk egy megfelelő kétváltozós függvényben
31
Tesztelmélet
2012.02.24.
Tudásszintmérő tesztek validitása (Csapó Benő alapján)
32
Tesztelmélet
2012.02.24.
Item item differenciáló ereje vagy megkülönböztető képessége azt mutatja meg, hogy az item mennyire érzékeny a tanulók tudására, mennyire élesen tesz különbséget a különböző tudásszintű tanulók között
33
Tesztelmélet
2012.02.24.
Itemek jellemzői Az item nehézsége, nehézségi index: rámutat az itemet milyen valószínűséggel oldja meg a tanuló.
Item nehézségi index: jó _ megoldás _ száma feladatot _ megoldó _ tan ulók _ száma Értéke 0 és 1 között van, (minél nagyobb, annál könnyebb az item)
34
Tesztelmélet
2012.02.24.
Item karakterisztikus görbe (Paraméterek és jellemzők) Az „S” alakú göbék esetében a maximumot csak megközelíteni lehet. Az itemek nagy differenciáló erővel rendelkeznek, érzékenyen különbséget tesznek a tanulók között.
1 – Ta alatt nem tudták megoldani, az item két csoportra osztja a tanulókat
2 – Átlagosan a Ta tudásszinttel rendelkező tanulók oldják meg. A tanulók tudásszintjének növekedésével nő annak a valószínűsége, hogy aaz itemet megoldják, de Ta felett sem hibátlan a munkájuk.
3 – az itemet csaknem ugyanolyan valószínűséggel oldják meg a gyenge tanulók, mint a magas tudásszinttel rendelkezők. Lapos, nem differenciál a tanulók között. Ki kell hagyni a tesztből!.
4 és 5 – két párhuzamosan futó görbe, olyan, mintha a tanulók tudásszintjéta tengelyen pozitív irányba toltuk volna el. A két item nehézségében van csak különbség. 35
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
Cronbach-féle alfa _ α korrelációs együttható, ezért általában 0 és 1 közötti értékeket vesz fel. Abban az esetben, ha a tételek többsége egymással negatívan korrelál negatív is lehet, ez azonban a gyakorlatban ritkán fordul elő, mert általában már az első skála verzió is valamilyen minimális - esetleg tesztként való használatra még nem elfogadható -mértékben konzisztens. A kérdés az, hogy elég szoros pozitív kapcsolat van-e a tételek között egy skálán belül, és nem az, hogy egyáltalán pozitív-e a kapcsolat.
36
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
Adott: egy adatbázis, amelyben az egyes változók egy több összetartozó tételből álló skála tételeinek felelnek meg. Cél: a vizsgált skála belső konzisztenciáját, valamint az egyes tételek ehhez történő hozzájárulását jellemző mutatók számítása. Az eljárás eredménye a skála egészét és az egyes tételek szerepét megalapozottan jellemző mutatók, amelyek segítségével a skála megbízhatósága megítélhető, ha szükséges - egyes tételek kihagyásával vagy hozzáadásával - javítható.
37
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
Egy tétel megbízhatósága akkor jó, ha ugyanazt méri, mint a teljes skála összpontszáma.
Mérése: rx(i),x = ri,t "item-total" korreláció torzít, helyette: rx(i),x- x(i) = ri,ct „item-összes többi összege" korreláció, vagy "item-összes többi" többszörös korreláció
Egy tétel szeparációs képessége akkor jó, ha szóródási mutatói
(terjedelem, szórás, stb.) magasak
38
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis) Skálák megbízhatóságának intuitív megragadása: 1. Egy skála megbízhatósága akkor jó, ha megismételve ugyanazt adja. Ennek mérése: teszt-reteszt korreláció: rx,x' 2. Egy megbízható skála tételei mind ugyanazt a dolgot mérik, ezért a skála egy része is hasonló dolgot mér, mint a skála egésze. Ennek mérése: a skála két fele közötti korreláció. Felezési technikák: első fél - második fél ("split-half"), páratlan és páros tételek, kisorsoljuk a feleket, elvi meggondolással osztjuk el.
39
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A mátrixból tehát az egyes tételek és a skála egészének a kapcsolatát jellemző Item-total summary statistics gyűjtőnévvel jelölt statisztikák is kiszámíthatók. A Scale Mean if Item Deleted azt adja meg, hogy mennyi lenne a skálaátlag, ha az adott tételre kapott pontszámokat az összesítésből kihagynánk. Erre akkor van szükség, ha a skála várható konkrét számszerű értékei érdekelnek bennünket: pl. standardok készítése esetén. A Scale Variance if Item Deleted az előzőnek megfelelő adat a varianciára, amely szintén fontos adat standardok készítéséhez.
40
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
Corrected Item-Total Correlation az adott tétel pontszámai és az összes többi tételre kapott pontszámok összegeként számított "javított" teljes skála-pontszámok közötti korrelációs együtthatókat tartalmazza.
Ez a tétel megbízhatóságának mértéke és alkalmas a skála egészéhez nem illeszkedő tételek kiszűrésére.
Ha ugyanis ez az érték valamelyik tételre kiugróan kicsi, akkor ez azt jelenti, hogy az a tétel valami mást mér, mint az összes többi és ezért megfontolandó az átfogalmazása vagy kihagyása.
41
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A Squared Multiple Correlation az adott tétel pontszáma (mint függő változó) és az összes többi tételek pontszámai (mint független változók) közötti kapcsolatra felírt többszörös regressziós egyenletből számított ún. többszörös korrelációs együttható négyzete (R2).
Ez szintén a tétel megbízhatóságának mértéke: azt adja meg, hogy milyen mértékben jósolható be egy adott személy pontszáma az adott tételben a személy összes többi tételre vonatkozó pontszámainak ismeretében.
Az is bizonyítható, hogy R2 a regressziós kapcsolattal "megmagyarázott" variabilitás mértéke.
42
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A Cronbach-féle alfa (az ún. megbízhatósági koefficiens):
k c ov/ var 1 (k 1) c ov/ var
ahol k a tételek száma a skálában, a tételek közötti átlagos kovariancia, pedig a tételek átlagos varianciája. Ha a tételeket egységnyi standard deviációjúakra standardizáljuk az előbbi formula a következő alakot ölti:
k r 1 (k 1) r
Ahol
43
r
a tételek közötti átlagos korrelációs együttható.
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A Cronbach-féle alfának a következő két szemléletes interpretációja van.
felfogható úgy, mint az adott konkrét skála és az azzal azonos számú hasonló tételeket tartalmazó összes lehetséges skála között páronként várható korrelációs együtthatók átlaga.
Elvben a vizsgált skálánk mellé megkonstruálható a mérni kívánt tulajdonsághoz kapcsolódó tételek hipotetikus világából az összes lehetséges azonos számú tételből álló többi skála is, és az ezekkel való korrelációs együttható várható értéke.
44
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A Cronbach-féle alfa képlete alapján látható, hogy értéke egyaránt függ a tételek számától és a tételek közötti átlagos korrelációs együtthatótól.
Következtetés, hogy még alacsony tételek közötti korrelációk esetén is kaphatunk viszonylag nagy megbízhatósági koefficienst, ha a tételek száma elég nagy.
Így például ha a tételek közötti átlagos korrelációs együttható 0.2 és a tételek száma 10, az α =0.71.
Ha új - és a korábbiakkal egyező minőségű tételekkel kiegészítve a skálát és a tételek számát 25-re növelve, akkor α =0.86 lesz.
45
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A két teszt felvétele között eltelt rövidebb idő nagyobb megbízhatóságot eredményez ("test-retest reliability").
Rendszertelenségek csökkentik a skála megbízhatóságát. Ha a teszt felvételének körülményei nem világosan rögzítettek, vagy az egyébként világos és helyes előírásokat nem tartják be, vagy a fizikai feltételek alkalmilag kedvezőtlenek, vagy a személyek motivációja jelentősen eltérő, akkor alacsonyabb lesz a skála megbízhatósága.
46
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A split-half módszer hátránya, hogy az eredmény függ attól, hogy milyen módon történik a skála kettéosztása.
Ezt a módszert kombinálni szokták a Cronbach-féle alfa számításának módszerével: egyéb mutatók mellett rendszerint az értékét is kiszámolják a két fél skálára és azokat bevonják az értékelésbe.
A főkomponens-analízis is alkalmazható (az ún. Theta megbízhatósági együttható számítása útján) a skála megbízhatóságának meghatározására. Előnye, hogy a tételeket nem azonos súllyal, hanem fontosságuknak megfelelően kezeli.
47
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
A megbízhatóságot a tételek száma (a skála hossza) mellett a következő tényezők is befolyásolják.
A vizsgált minta heterogenitása növeli a megbízhatóságot: ha olyan személyekkel veszünk fel egy skálát, akik között a mért tulajdonságban jelentős különbségek vannak, nagyobb lesz a skála megbízhatósága.
48
Tesztelmélet
2012.02.24.
Skálák megbízhatósági analízise (Reliability Analysis)
Másik gyakran alkalmazott megbízhatósági modell az ún. "kettévágott skála" (Split-half model) módszere.
Míg a Cronbach-féle alfát egyetlen skála tételei konzisztenciájának vizsgálatára használjuk, addig a split-half módszer esetén a vizsgálandó skálát kettévágjuk két azonos páratlan tételszám esetén közel azonos hosszúságú skálára és ezen két skála közötti korrelációt vizsgáljuk.
Hasonló módszer, amikor két alternatív tesztet, vagy ugyanazon a tesztet kerül felvételre kétszer. Az utóbbi esetben szokásos bizonyos rögzített időt hagyni a két felvétel között ("test-retest reliability").
49
Tesztelmélet
2012.02.24.
Skálák érvényességi elemzése A megbízhatóság csak az egyik szükséges de nem elégséges összetevője a skála "jóságának". Másik tulajdonság az érvényesség (validitás), amely azt jelenti, hogy az adott skála valóban azt méri, amit mérni akarunk. Ha a skála (teszt) legalább minimális mértékben nem érvényes, használhatatlan. Az érvényesség fajtái tartalmi érvényesség (content validity): jól megválasztott tételek biztosíthatják az arculat érvényessége (face validity): azt fejezi ki,hogy a kitöltő számára mennyire világos, hogy mit mér (nem mindig fontos)
50
Tesztelmélet
2012.02.24.
Skálák érvényességi elemzése Skálák érvényességi elemzése prediktív érvényesség (predictive validity): kritérium érvényesség (criterion validity): az elorejelzo értékre utal (ellenorzés: pl. korreláció,bizonyos populációkra elvárjuk, hogy más értékeket ANOVA)adjon (ellenorzés: pl. ANOVA) konstrukciós érvényesség (construction validity): konkurens érvényesség (concurrent validity) a készítés elméleti kerete határozza meg (ellenőrzés).
51
Tesztelmélet
2012.02.24.
Jóságmutatók elemzése számítógéppel
Excel
Spss
Quest (rasch modellel dolgozik)item modell illeszkedését az infinit paraméterrel jellemzi
OPLM program itemek modell-illeszkedésének mélyebb elemzéséhez alkalmazzák.
ConQuest programcsomak a teljesítmények eloszlásvizsgálatára akalmazzák.
Itemanalízis Analyze Scale Reliability analysis Statistics Item √ Scale √ Scale if item deleted √
53
Tesztelmélet
2012.02.24.
Itemanalizis SPSS-el
54
Tesztelmélet
2012.02.24.
Output file
Összesített táblázat
55
Tesztelmélet
2012.02.24.
Output _ Cronbach
Cronbach”s alpha teszt belső konzisztenciáját méri -1 től +1-ig Minél magasabb az alpha értéke annál megbízhatóbb a teszt.
56
Tesztelmélet
2012.02.24.
Output
57
Tesztelmélet
2012.02.24.
Output Mean az adott itemre kivetített átlageredmény. Ez az Item hasznossági értéke, mely 100 szorozva megadja, hogy a minta hány %-a oldotta meg helyesen az adott Itemet. Corrected Item-Total correlation: diszkriminációs érték, arról ad információt, hogy a vizsgázók milyen teljesítményt nyújtottak ennél az Itemnél összevetve az egész feladatsorra kivetítve. A diszkrimináció értéke -1 és +1 között mozoghat. Értéke minél nagyobb annál valószínűbb, hogy akinek az adott Item jól sikerült, az egész feladatban jó eredményt ért el. A negatív érték jelzi, hogy azok tudták ezt az Itemet megoldani, akinek összességében gyengébben sikerült a feladat egésze.
58
Tesztelmélet
2012.02.24.
Output
Alpha if Item Deleted, arra mutat hogyan változna a feladat összalphája, ha az Itemet kivennénk a feladatsorból. Minél magasabb az alpha értéke, annál megbízhatóbb a teszt. 0,8 kívánatos eredmény: 0,9 ideálisnak tekinthető.
Az Alpha if Item Deleted a tétel, a Standardized Item Alpha pedig a skála egésze megbízhatóságának jellemzésének a mutatója. Standart Deviation az adott Itemre kivetített szórás. Arra mutat mennyire távolodott el a vizsgált egyén teljesítménye az átlagtól. Cases a vizsgált esetek száma. Scale Mean if Item Deleted azt mutatja meg az Itemre kivetítve, hogyan változna meg az átlag, ha a feladatsorból az adott Itemet kivennénk. (akkor lehet erre szükségünk, ha könnyíteni szeretnénk a feladatsort) Variance of Item- szórásnégyzet, az átlagtól való eltérés négyzete. Arra mutat, hogy ha kivennénk az adott Itemet a feladatsorból, hogyan változna a variancia.
59
Tesztelmélet
2012.02.24.
Egységes vizsgáztatási rendszerek
CRT - Criterion Referenced Test képességvizsgáló – előre meghatározott tudásanyagot kérdez vissza
DRT Domain Referenced Test – adottságokat is figyelembe vesz (a várható eredményt előre becsülni kell, mely alátámasztható, cáfolható)
NRT Norm Referenced Test – az egyéneket a népesség többi tagjához hasonlítja. Feladata felmérni a tanuló képességeit: fejlődés vizsgálata, felvételi
60
Tesztelmélet
2012.02.24.
PICK – minden helyes válasz pontot ér, nincs büntetés, minden itemre érdemes válaszolni
ACK-n – helyes válasz + pont, helytelen – pont (acknowledgment). Csak arra érdemes válaszolni, amit biztosan tud.
OPC – (objective percent correct)- a kérdéseket súlyozással veszi figyelembe
SCA – a válasz mellett fel kell tüntetni, milyen mértékben biztos a válaszban: félreinformált, bizonytalan
MCW-APM a helytelent, de a helyeseket is választhatja (a hiányos tudást értékeli, a helytelent keményen bünteti)
GIS – a kérdésekre egy helyes válasz van, de még értékelni is kell azokat. (elutasítás, minden, hiány, abszurd)
Irodalomjegyzék
Verhelst, N.D.: Az Item-Válasz-Elmélet, KER szintillesztés. Módszertani segédlet. G fejezet, 2006 http://www.nyak.hu/nyat/doc/modszertani_segedle t.pdf Horváth György: A modern tesztmodellek alkalmazása. Budapest, Akadémia Kiadó. 1997 Molnár Gyöngyvér: Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel Magyar Pedagógia 103. évf. 4 szám423-446 (2003)
Disztraktor analízis
Folytatás….
63
Tesztelmélet
2012.02.24.