Az emelt szintű idegen nyelvi érettségi és az államilag elismert nyelvvizsgák a vizsgázói teljesítmények tükrében Összegző tanulmány, bővített változat
2008 Írta: Dávid Gergely Benyújtva 2006. május 12.-én, az azonos nevű pályázat lezárásaképp 2. bővített változat 2008. november A pályázat kiírója: a Nyelvvizsgáztatási Akkreditációs Központ
Tartalom 1.
A KUTATÁS HÁTTERE, KONTEXTUSA ................................................................... 4
1.1. Bevezetés .................................................................................................................................4 1.1.1. A kutatás kérdései ............................................................................................................6 2.
A KUTATÁSI TERV .................................................................................................... 7
2.1.
Személyi feltételek ..................................................................................................................7
2.2. A kutatás terv szakaszainak áttekintése ..............................................................................8 2.2.1. A tréning eredményeinek elemzése .................................................................................8 2.2.2. A vizsgaanyagok minősége – NYAT-os kritériumok alapján .........................................8 2.2.3. A vizsgaanyagok minősége – empirikus elemzések segítségével ...................................9 2.2.4. A vizsgázói vélemények összegyűjtése ...........................................................................9 2.2.5. Az itemek, feladatok szintbesorolása ............................................................................10 2.2.6. A vizsgák minimumkövetelményeinek empirikus vizsgálata .......................................10 2.3. A projekt eszközrendszere ..................................................................................................11 2.3.1. Milyen fajtái vannak az illeszkedési mutatóknak és miről árulkodnak? .......................13 3.
AZ ELSŐ EREDMÉNYEK......................................................................................... 14
3.1. A tréning eredményeinek elemzése ....................................................................................14 3.1.1. A tréning kérdőívei elemzésének eredményei ...............................................................14 3.2. A vizsgaanyagok minősége – NYAT-os kritériumok alapján ..........................................15 3.2.1. A szoftveres elemzés .....................................................................................................15 3.2.2. Elemzések szakmai-módszertani szempontból..............................................................17 4.
A PROJEKTTERV MÓDOSÍTÁSA ........................................................................... 20 4.1.1. Helyben járás .................................................................................................................20 4.1.2. Az adatok elérhetősége ..................................................................................................21
4.2. A minta megtervezése és felállítása ....................................................................................22 4.2.1. A minták felállításának eljárása .....................................................................................22 4.3.
A mintavétel tapasztalatai ...................................................................................................22
4.4.
Összegzés és újragondolás ...................................................................................................25
5.
TOVÁBBI EREDMÉNYEK ........................................................................................ 27
5.1. A válaszadatok empirikus elemzése ...................................................................................27 5.1.1. Empirikus összevetés készségenként .............................................................................27 5.1.2. Az eljárás .......................................................................................................................27 5.1.3. A beszédértés (hallott szöveg értése) vizsgarészek .......................................................28 5.1.4. Az írott szöveg értése vizsgarészek ...............................................................................31 5.1.5. Az íráskészség vizsgarészek ..........................................................................................34 2
6.
A VIZSGÁZÓI VÉLEMÉNYEK .................................................................................. 42
7. AZ ITEMEK, FELADATOK SZINTBESOROLÁSA, AZ ÁTLAGSZINTEK VIZSGÁLATA................................................................................................................... 43 7.1.
Eredmények..........................................................................................................................44
8.
ÖSSZEFOGLALÁS HELYETT ................................................................................. 46
9.
HIVATKOZÁSOK ...................................................................................................... 47
10.
APPENDIX ............................................................................................................ 48
10.1.
Appendix 1: Útmutató ítészeknek ..................................................................................49
10.2.
Appendix 2: Minta a magyar nyelvű skálákból ............................................................52
10.3.
Appendix 3: Vizsgázói kérdőív minta (ECL) ................................................................53
3
1. A kutatás háttere, kontextusa Magyarország csatlakozása az Európai Unióhoz még erőteljesebben veti fel a lakosság nyelvtudásának kérdését, mivel a megfelelő szintű nyelvismeret hiánya komoly korlátozó tényezővé válhat a csatlakozás adta lehetőségek kihasználásában. A nyelvvizsgák akkreditációja és a kétszintű nyelvi érettségi bevezetése is a nyelvoktatás eredményességét volt hivatva fokozni. Jogosan vetődik fel az igény, hogy értékelni kell a már évek óta folyamatban lévő nyelvvizsgareform és a 2005-ben induló új idegen nyelvi érettségi kapcsolatát. A nyelvvizsgák és az emelt szintű érettségi összevetését különösen fontossá teszi az, hogy mindkét részről megfogalmazódtak állítások a mért nyelvtudás szintjéről. Ez a deklaráció szintjén a Közös Európai Referenciakeret (KER) B2-es szintje, azonban hogy tényleg ezt a szintet mérik-e, mérés nélkül nem tudható. A nyelvvizsgákat és az érettségit összekötik a jogszabályok és a szakmai háttér is. Jelenleg az emelt szintű érettségi adott eredmény mellett nyelvvizsga-bizonyítványt ér, de ismert a paradox helyzet, hogy az emelt szintű érettségit sem nyelvvizsga-akkreditációs eljárásra, sem ahhoz hasonló külső, független szakmai kontrollra nem terjesztették elő. Jelen vizsgálat célja az érettségi és néhány államilag elismert nyelvvizsga összevetése volt a "vizsgázói teljesítmények tükrében", amely meghatározás a pályázati kiírásban arra utalt, hogy adatokra épülő elemzés, nem pedig spekulatív jellegű értékelés volt a pályázat célja. Ez egyben ki is jelölte, mire terjed ki a vizsgálat és mire már nem. A vizsgálat kiterjedt a 2005. május-júniusban felhasznált vizsgaanyagokra és arra, hogy milyen mértékben váltak be ezek a vizsgaanyagok a gyakorlatban. Nem terjedt ki a vizsgálat a vizsgaközpontok működésének szakmai és szervezési aspektusaira, ezért ez a vizsgálat az új érettségi tekintetében nem tekinthető amolyan „akkreditációpótléknak”, még akkor sem, ha a vizsgálat nem kevés információt szolgáltatott a vizsgákat előkészítő, megírató és értékelő vizsgaközpontok munkájáról. A pályázati kiírás másik elvárása volt, hogy "hasznosítható eredményeket tartalmazzon a nyelvoktató-nyelvvizsgáztató szakma számára". A kutatás kérdései a nyelvtanár feltételezett kérdései segítségével, azokból levezetve jól meghatározhatók voltak, így biztosítható volt, hogy a kutatók nem szakadtak el a valóságtól, vagyis a tanár gyakorlatorientált kérdései és a kutató szükségképp absztrakt módon megfogalmazott kérdései között nincs szükségképpen ellentét. A sikert az garantálhatja, ha a kutatók a maguk nyelvére lefordított tanári kérdéseket a szélesebb oktatói közösség nyelvére fordítják vissza. A hasznosíthatóság érdekében néhány tanulságot ezért az egyes fejezetek végén bekeretezve külön is kiemeltünk.
1.1.
Bevezetés
A kutatás célja a minőség fogalmával írható le legrövidebben. Az, hogy mi minősít egy nyelvvizsgát természetesen igen összetett. Hasonló rövidséggel e kutatás célja úgy is leírható, hogy meg kellett állapítani, melyik vizsgá(k)nak megalapozottabb az érvényessége, validitása. A validitás szintén igen összetett fogalom, mert egy vizsgán szinte minden tényező vagy gyengíti, vagy megerősíti annak validitását. E komplex validitás-fogalom kidolgozása és elterjesztése elsősorban Messick munkásságának tudható be (Messick 1981a, 1981b, 1988, 1995, 1996). Messick egyrészt közös keretbe foglalta a korábbi különféle validitás-fajtákat (felszíni, tartalmi, egyetértő, stb.) másrészt azonosította a vizsgákra leselkedő két legfontosabb veszélyt. 4
1. A mérendő (konstruktum) alulreprezentáltsága a vizsgában: Gyakori probléma, hogy míg a mérni kívánt készség, tudás, stb. maga is igen összetett valami, a vizsgaanyagban azt csak egy limitált feladat képviseli. Példa lehet az a vizsgarész, amely szándékai szerint az írásbeli kompozíciós készséget vizsgálja, de a feladatsorba mindig egyetlen levél kerül csak be. Egy ilyen feladat természetesen mérheti az íráskészség egyes fontos aspektusait, de nem mérheti a kompozíciós készséget más szövegtípusok (esszé, narratív, argumentatív szövegek) esetében, amelyek adott szinten szóba jöhetnek. Így korlátozott lesz a vizsgaeredmény általánosíthatósága. A mérendő alulreprezentáltsága valósul meg akkor is, ha a kérdést más, nem idegen nyelvi ismeret (kultúra, történelem), vagy mentális folyamat (pl. logikai következtetés) útján is meg lehet sikeresen oldani. 2. A veszély másik forrása Messick szerint a mérendőhöz nem köthető variancia (szórásnégyzet). Tudva levő, hogy a vizsgázás folyamán igen sok hatás éri mind a vizsgázót, mind a vizsgáztatót, de még magát a vizsgaanyagot is. A nyelvtudás belső, látens jellege nem teszi lehetővé azt, hogy azt közvetlenül mérjük meg: nincs súlya, tömege, se hossza, stb. Ezért kizárólag arra van lehetőség, hogy valamilyen eszközzel a vizsgázót megnyilatkoztatva a látens nyelvtudást megjelenítsük. Ennek eszközei a mérési eszközök, a feladattípusok, melyekről tudjuk, hogy nem semlegesek (pl. Dávid 2002, 2007). A messicki koncepció szerint a vizsgára ható különféle tényezők vagy nehezítők vagy könnyítők, de mindenképp összeadódnak és a pluszok (nehezítő tényezők) és mínuszok (könnyítő tényezők) eredője adja ki a feladat (item) végleges nehézségét. Hasonlóan tényezők hatnak az értékelőre is, melyek megerősítik szigorát vagy elnézőbbé teszik. Mindezek alapján beszélhetünk a mérendőhöz nem köthető nehézségről és könnyűségről. A messicki gondolatkör más, inkább nyelvészeti eredetű megfogalmazásának tekinthető a kompetencia-performancia kettőssége is. A kompetencia a mérendő, amire kíváncsiak vagyunk, de a nyelvhasználat során a kompetencia sohasem jelentkezik tisztán, hanem mindig a nyelvhasználat kontextusára jellemző (járulékos és zavaró) tényezők között, azok által néha elfedve. A vizsgakörülmények között jelentkező performancia, amikor a vizsgázó a nyelvvizsgán megnyilatkozik, éppen olyan többtényezős performanciának tekinthető, mint valós életbeli változata, de természetesen annál mindig mesterkéltebb. A vizsgát befolyásoló tényezők egy része valamilyen rend szerint, szisztematikusan jelentkezik. Szisztematikus lehet pl. a feladattípus (nevezhetjük formátumnak is) hiszen tudjuk, melyik feladatnak milyen volt a formátuma, minthogy azt is tud(hat)juk, melyik vizsgázó választotta a hivatalos levelet és melyik a magánlevelet. Hasonlóan szisztematikus tényező – ha van rá adat – hogy melyik levelet melyik vizsgáztató értékelte, mert eltérő szigorúságukat (feltehetőleg) következetesen érvényre juttatják az értékelés során. Mindezeket a tényezőket együtt a mérési módszernek szoktuk nevezni és mint tudjuk, a módszer sohasem semleges. Bizonyos vizsgázóknak kedvez, másoknak nem. Vannak nem szisztematikus tényezők is. Sok ilyen tényező hordozója pl. maga a vizsgázó, annak érzelmi állapota, szorongásának fajtája és ereje, a vizsgán alkalmazott válaszadási stratégiái. Ezek is hatnak a vizsgaeredményre, de általában nem tudjuk, hogyan és mi módon, továbbá nem tudjuk, melyik vizsgázónak volt pl. szerelmi csalódása (aminek következtében gyengén teljesít), melyik stresszel és melyik esetében facilitáló típusú a stressz. Általában az fogalmazható meg, hogy a nem szisztematikus tényezők eredménye lehet a vizsga megbízhatatlansága és hogy rendszerint olyan tényezőkről van szó, amelyeket nem ismerhetünk (érzelmi állapot, stressztípus), vagy amelyeket ismerhetnénk, ha a vizsgaközpont az oda vonatkozó adatokat gyűjtené. Az, hogy a vizsgaközpont
5
milyen és milyen részletességű adatokat gyűjt fontos minőségi tényező, mert megadja a megismerés korlátjait. A fenti sok tényező hatására szóródnak a vizsgán születő ponteredmények, eredményeződik a variancia. Szemléletes lehet a varianciát mint tortát elképzelni, mert mennyiségről, egy kvantifikálható aspektusról van szó, amelyben az egyes szeletek a különféle azonosítható (tehát szisztematikus) tényezőknek betudható tortaszeletek. Az a jó vizsga, amelyben a nyelvtudáshoz köthető variancia a relatíve legnagyobb cikkely és hozzá képest keskeny szeleteket jelent a feladattípusokhoz, az értékelőkhöz, az értékeléshez használt skálákhoz köthető szelet. Az utolsó, vékony szelet pedig nem más, mint a nem szisztematikus tényezőkhöz kapcsolható variancia, azaz a megbízhatóságot gyengítő, nem megmagyarázható variancia. Ennek a tortaszeletnek a nagyságát az összes variancia és a szisztematikus tényezők által meghatározott variancia szeletek különbsége adja ki. Ebben a tanulmányban a nyelvtudás mérésének egyes tényezőit dimenzióknak fogjuk nevezni. Mindezek alapján megfogalmazható hogy az lehet a potenciálisan minőségi, validálható vizsga, amelyről sok adatot rögzítenek. Ha ez megvan, ugyan még nem beszélhetünk a vizsga validitásáról, de arról igen, hogy a vizsga validitása meghatározható, tehát a validitás potenciálisan „benne van”. A jó vizsga tehát vagy ismert (validált) vagy legalábbis működése megismerhető (validálható). Csak pozitív bizonyíték fogadható el. A validálás tudománya nehéz és szigorú terep, ahol olyan megengedő ítéleteknek nincs helye, mint hogy „lehet, hogy jó vizsga, csak nem tudjuk róla”. Itt lényegében a vizsgák átláthatóságáról és elszámoltathatóságáról van szó. Átlátható a vizsga, ha minden aspektusa szakember számára megvilágítható és elszámoltatható, ha a validáláshoz szükséges adatok teljes mértékben begyűjthetők. A projekt távolról sem vállalkozhatott a validitás minden tényezőjének vizsgálatára, de vállalkozhatott néhány fontos mutató értékelésére, így pl. a vizsgák szerkezetének értékelésére, az itemek, feladatok és egyéb technikai aspektusok minőségének és beválásának vizsgálatára és végül, de nem utolsóként a vizsgaanyagok szintbesorolására a KER szintjei szerint.
1.1.1.
A kutatás kérdései
A kutatás kérdéseit táblázatos formában, a lehetséges tanári kérdésekkel párhuzamba állítva mutatjuk be. A tanár kérdései
A kérdések megfogalmazása a szakember szerint
Melyik vizsga értékeli hitelesebben, tisztábban diákom nyelvtudását? Melyikhez kell a legkevesebb „vizsgáznitudás”?
Melyik vizsga veszi a vizsgázó tudásából és az idegen nyelvből a legtekintélyesebb mintát? Melyikben a legkisebb a mérési módszereffektus? Melyik vizsga validitása a legmegalapozottabb?
Melyik szolgál a vizsgázó számára legkevesebb meglepetéssel a feladatok megoldása során?
Melyik konzisztens (belül, önmagához képest)? Melyik megbízható? Melyikben van a legkevesebb zavaró, megtévesztő item?
A vizsgafeladatok méltányossága (fairség)?
Mely feladatformátumok (típusok) a legkönnyebbek? Melyik vizsga értékelése a legszakszerűbb?
Eltérnek-e a vizsgák szintjei egymástól? Ha igen, hogyan, milyen mértékben térnek el? Melyik könnyebb, a legnehezebb stb?
Hogyan viszonyíthatók a vizsgák az KER szintekhez?
6
2. A kutatási terv Érettségi és nyelvvizsga – e két fogalmat most csak a megszokás és az egyértelmű fogalmazás követelménye miatt használjuk. Valójában a kutatás koncepciója nem tett különbséget, amikor hat nyelvi vizsga értékelését tűzte célul, függetlenül attól, milyen feladatot látnak el a magyar oktatási rendszeren belül. A projekt két, hármas összevetést tartalmaz, egyet angol, egyet pedig német nyelvből, mindkettőt csak B2 szinten a 2005. május-júniusi időszakból: • Angol: Euro B2 - ECL Angol C szint - Emelt szintű angol érettségi • Német: BME Középfok - ECL Német C szint - Emelt szintű német érettségi E tanulmányban tehát mindegyik mérési eszközt a vizsga szóval jelöljük.
2.1.
Személyi feltételek
A kutatásban részt vevő szakembereket kollektíve „ítészeknek” neveztük, mert feladatuk szakmailag megalapozott ítéletek megfogalmazása volt. Őket a következő szempontok szerint válogattuk. Szükség volt egyrészt olyan szakértőkre, akik tájékozottak a mérés általános kérdéseiben, ismerik a KER-t és képesek arra, hogy vizsgaanyagokat a vizsgázók válaszainak ismerete nélkül is, önmagukban megítéljenek. Az egyszerűség kedvéért őket „mérési szakértőknek” neveztük (ami természetesen nem jelenti azt, hogy a többiek ne lehetnének a mérés szakértői). Másrészt eredetileg azt terveztük, hogy szükség lesz olyan szakértőkre is, akik egyes kiválasztott dolgozatokat értékelnek. Ezeket „vizsgáztatóknak” neveztük, mert nekik nem a vizsgaanyagot, hanem a vizsgafeladatokra adott vizsgázói válaszokat kellett minősíteniük. Míg a „mérési szakértőknek” olyan kollégákat igyekeztünk megnyerni, akik valamelyik, a kutatásban tárgyát képező vizsga tervezésében vettek részt, de legalábbis jól ismerik azt a vizsgát, „vizsgáztatók” a vizsga működtetésében (szóbeliztetés, írásbelik értékelése) vesznek részt, tehát jól ismerik azt a vizsgázói kört, amely a vizsgán megjelenik. A fentiek szerint minden vizsga 2 vizsgáztatót és 1 mérési szakértőt, összesen 12 vizsgáztatót és 6 mérési szakértőt „delegált” az ítészi testületbe. Létszámukat alapvetően a projekt költségvetése határozta meg, de figyelembe vettük a kettős értékelés szakmai követelményét is. Minden vizsgaanyagot két mérési szakértő ítélt meg. Fontos hangsúlyozni, hogy a kutatási terv azt is biztosította, hogy a szakértőnek ne keljen a „saját” vizsgát értékelnie, hanem a vizsgálatban szereplő másik kettőt, így biztosítható volt az értékelés függetlensége. Hasonlóan, a kutatási tervben szerepelt, hogy minden vizsgázói teljesítményt két aktív vizsgáztató értékel. A személyi feltételek biztosításának részét képezte az ítészek tréningje is. Azt feltételeztük, hogy a kiválogatott (ajánlott) szakértőknek a KER nem lesz teljesen ismeretlen, de egy feladatra orientált, „összerázó” képzésnek mindenképp helye van. Ez egy napot vett igénybe és mind a 18 ítésznek kötelező volt. A mérési szakértők számára további kétszer fél napos képzést tartottunk a szintezéssel kapcsolatos ítészi munka módszertanából. (Appendix p.49) A tréning ezen része korábbi ITK-s magyar mint idegen nyelv feladatokkal való „próba-ítészkedésre” épült. A megadott feladatokat az ítészek megoldották, majd megvitatták és egyeztették álláspontjukat. A tréning azonban nem lehetett teljes anélkül, hogy fel ne mértük volna, annak eredményességét, azt, hogy az ítészek mennyire ismerik a KER-t. Ennek érdekében a tréning résztvevői egy hosszú 7
kérdőívet töltöttek ki, melynek elemzése egyben a vizsgálat első lépése is volt. Ez azért volt fontos, mert értékelni kell azok felkészültségét, akik minősítik a vizsgaanyagokat. Mindez alá kellett támassza a kutatási projekt hitelességét, ha tetszik annak validitását is.
2.2.
A kutatás terv szakaszainak áttekintése
A kutatási terv mind kvantitatív, mind kvalitatív elemeket tartalmazott. A kvantitatív eszközök leginkább a vizsgázás, a vizsgák működésének keresztmetszetét adhatja, "kihegyezett" kérdésekre válaszolnak, a kvalitatív eszközök pedig leginkább a "betekintést" (intuíció) teszik lehetővé és heurisztikus jellegűek. Céljuk, hogy kiegészítsék, értelmezzék a kvantitatív megközelítéssel szerzett tapasztalatokat, eredményeket. A kvantitatív és kvalitatív munka természetesen egymásból is következik, a kvantitatív munka eredményéből gyakran adódik jó kérdés, amelyre kvalitatív munka során lehet választ kapni, és fordítva. A kutatást a következő szakaszokra osztottuk:
2.2.1.
A tréning eredményeinek elemzése
A tréning eredményeinek elemzése azért volt fontos, hogy megállapítsuk a projekt kiindulási pontját. Az ítészek által kitöltött kérdőívek a KER angol, német és magyar változatának skáláiból készültek, azok gondos kiválogatásával. (Lásd a mintát a magyar nyelvű skálákból, p. 52). A válaszadók feladata az volt, hogy az összekevert deskriptorok szintjét azonosítsák. Meg kell magyarázni a magyar nyelvű skálák szerepét, hiszen magyar mint idegen nyelv vizsgával a projekt nem foglalkozott. A magyarázat kettős. Egyrészt néhány, a projektben szereplő vizsgaközpontban (ECL, BME) a több vizsgáztatott nyelv miatt inkább a magyar nyelvű skálákkal dolgoznak és saját bevallásuk szerint a kollégák azokat ismerik jobban. Ezzel szemben pl. az Euro vizsgaközpontban, mivel csak angolul folyik a vizsgáztatás, a kollégák jobbára angolul ismerik a KER-t. Másrészt, mivel már a tervezés során számítani lehetett arra, hogy szükség lesz a szoftveres elemzésre, szükség volt olyan deskriptorokra is, amelyeket mind az angolosok, mind a németesek a kérdőívben „megoldanak”. A statisztikai elemzés ugyanis megköveteli, hogy átfedés legyen a németesek és az angolosok által adott válaszok között. Nem szabad ugyanakkor arról sem hallgatni, hogy a magyar nyelvű skálák tényleg csak a „híd” szerepét tölthették be, mert nem tekinthetők validált skáláknak. A KER magyar nyelvű fordítása (PTMIK 2002) „csak” fordítás az eredeti angolból, anélkül, hogy azt Magyarországon (eddig) validálták volna. A megfelelő megbízhatóság elérése érdekében mind az angol, mind a német kérdőív hosszabb volt, mint a magyar, mert a két nyelvből csak kevesebb válaszadóra (9-9) lehetett számítani. A magyar rész lehetett fele olyan hosszú, mert kétszer annyi válaszadó volt (18). A kérdőív így is hosszú volt, összesen 688 deskriptorból állt. A pontozás módszere az eltalált válaszok (szintek) összeszámolása volt, amelyet a kódolás után már a szoftver végzett el.
2.2.2.
A vizsgaanyagok minősége – NYAT-os kritériumok alapján
A mérési szakértők feladata volt az általuk értékelt két vizsga pontozásos értékelése. Az értékelési szempontokat – kis változtatással – a NYAT kérdőíve (a modellfeladatok elbírálására szolgáló
8
szempontrendszer) szolgáltatta. A szakértők a pontozást kvalitatív megjegyzésekkel egészítették ki. E kérdőív hitelét alátámasztotta, hogy a fejlesztés során, a NYAT munkája keretében 2001-2002ben egyrészt mérési szakértők bírálták, másrészt sor került a szempontok empirikus vizsgálatára is. Az ebben a projektben dolgozó ítészek válaszait is empirikus vizsgálatnak vetettük alá. Az elvégzendő feladathoz a szakértők számára útmutató is készült (amit később a szintezéshez is használtunk, lásd ismét Appendix 1, p. 49). Az útmutató hangsúlyos pontja volt, hogy a feladatokat (a produktívat is) a vizsgázók számára előírt feltételek mellett (megoldási idő, a feladatok sorrendje, a meghallgatások száma, fogalmazásnál előírt szószám, a feladatmegoldás megadásának módja, stb.) mellett kellett megoldaniuk, hogy minél jobban beleélhessék magukat a vizsgázó helyzetébe. Mielőtt dolgozni kezdtek, meg kellett bizonyosodjanak afelől, hogy az értékelendő vizsgáról a fenti feltételeket tudják-e. E szakasz része volt a vizsgák szerkezetének és egyéb módszertani jellemzőinek értékelése is.
2.2.3.
A vizsgaanyagok minősége – empirikus elemzések segítségével
A kvantitatív vizsgálat legfőbb eleme a vizsgázói válaszokra és az értékelőknek a vizsgázói teljesítményekre adott pontjaira, röviden a válaszadatokra épült. Az előző szakasz szakértői megközelítésével szemben ez a szakasz a vizsga működésének valóságát veszi célba, melyben olyan (a pályázati kiírásban sugallt) adatközpontú és itemszintű megközelítés valósul meg, amely feltételezi a válaszadatok megfelelő gyűjtését is. Az adatközpontú megközelítés létjogosultságát az adja, hogy a szakértő mondhat sok okos dolgot, a valóságot azonban semmilyen szakértői tapasztalat nem helyettesítheti: a szakértő nem tudja kitalálni, beválnak-e az általa minősített itemek, feladatok. Továbbá olyan sok adat keletkezik egy vizsga működése során, hogy azt másképp, mint kvantitatív módon nem lehet summázni. A projekt anyagi keretei nem tették lehetővé, hogy olyan vizsgázói csoportot állítsunk fel, amelyben mindenki megoldaná mindhárom vizsga feladatait és akik így személyükben képeznék az összevetés alapját. Olyan megoldást kellett keresni, amely az "éles" vizsgák adataira támaszkodik. Az elemzéseket ezért reprezentatív mintán végeztük el. A munka annak meghatározásával kezdődött, hogy melyik vizsgázó dolgozata kerüljön be a nyelvenkénti és vizsgánkénti 300 vizsgázó kiválasztásával meghatározott mintába. A minták nagyságát az empirikus kutatás követelményei határozták meg. A nyelvenkénti és vizsgánkénti 300-as szám megfelelőnek látszott a szoftver optimális működése szempontjából, továbbá elég nagy számnak tűnt ahhoz, hogy legyen benne „tartalék” arra az esetre, ha a begyűjtött adatok hiányosak lennének. A reprezentatív mintától azt lehetett várni, hogy a mintán tett megállapítások érvényesek lesznek a vizsgát letevő összes vizsgázóra, azaz a vizsgapopulációra (nem csak a sikeres vizsgázókra).
2.2.4.
A vizsgázói vélemények összegyűjtése
A vizsgálat kvalitatív része a vizsgázói vélemények (ahogyan a vizsgázók megélik a vizsgát) gyűjtése volt. Lényege a vizsgázók megnyilatkoztatása volt arról, „mi van a fejekben?” A vizsgázói reakciók feltérképezése a retrospektív (és introspektív) eszközök kategóriájába tartozó kérdőívekkel történt, melyeket a vizsgázók töltöttek ki a vizsga után, a szóbeli vizsgák napján a vizsgahelyeken (lásd, Appendix 3: p. 53.). A kérdőíveken egy alap kérdéssor szerepelt, amelyet minden vizsgára aktualizáltunk. A kérdések alapja a messicki validitás-felfogás volt (lásd fentebb), azonban megfogalmazásuk a laikusok fogalmi világát igyekezett tükrözni. A kérdőív rákérdezett pl. a nyelvi teljesítmény lehetséges dimenzióira, elsősorban azokra, amelyek nem kapcsolódnak a mérendőhöz. Továbbá rákérdezett a dimenzió lehetséges irányára is, hogy eredményrontó volt-e vagy eredményjavító. 9
2.2.5.
Az itemek, feladatok szintbesorolása
A NYAT-os szempontrendszer használata mellett a mérési szakértők legnagyobb feladata az volt, hogy minden egyes feladat, kérdés (item) KER szintjét megbecsüljék. Az említett útmutató második része a szintezéssel foglalkozott, amely felhívta a figyelmet arra, hogy a B2 szint vizsgálata nem jelenti azt, hogy csak ilyen szintű itemekkel találkozhatnak majd a vizsgákban. Ennek oka, nyilvánvalóan, hogy nincs az a feladatszerkesztő (team), aki(k) egy feladatsor, vizsga minden itemét a megcélzott szintre tudja „belőni”. Fontos volt, hogy a vizsgált feladat un. dichotom (csak 0 vagy 1 pont lehetséges) vagy skála típusú (0, 1, 2, 3, stb. pont lehetséges). A dichotom feladatokat jellemzően a beszédértés, írott (olvasott) szöveg értése, valamint a nyelvismeret feladatoknál használjuk. Az ítész kérdését a következőképp fogalmaztuk meg: •
Melyik az a legalacsonyabb KER szint, amelyen egy vizsgázó helyes megoldást adhat az …. itemre, kérdésre? Vagy: • A vizsgázó által adott helyes válasz legalább milyen KER szintű tudást feltételez? A mi megközelítésünkben az item szintje tehát azonos volt azzal a legalacsonyabb szinttel, amivel a feladat már megoldható. (A valószínűségi szoftverek úgy definiálják az item szintjét, hogy hol van az a pont, ahol a vizsgázóknak 50% esélyük van a helyes megoldásra.) Skála típusú itemek segítségével értékeljük a produktív készségeket (beszédkészség, íráskészség feladatokat). Az ítész kérdése itt a következőképp fogalmazható meg: • • •
Melyik az a legalacsonyabb KER szintű tudás, mellyel a vizsgázó 1 pontot kaphat? Melyik az a legalacsonyabb KER szintű tudás, mellyel a vizsgázó 2 pontot kaphat? Melyik az a legalacsonyabb KER szintű tudás, mellyel a vizsgázó 3 pontot kaphat?
Ilyen feladatok esetében az ítész a skála minden pontjára becslést ad, analitikus skála esetében szempontonként. A tréningen tisztáztuk, e feladatok olyanok, mintha több dichotom feladatot tennénk egymás tetejére, szendvics módjára. Arra is igyekeztünk felkészülni, hogy a B2-es szint a különböző vizsgákhoz tartozó skálákon nem ugyanazon skálaponton (0, 1, 2, stb. pontok) jelentkezik majd. Az ítészi munka két szakasza (a feladatok minőségének vizsgálata és a szintezés) egymásra épült, sorrendjük fontos: először a minőséget néztük, a szempontsor segítségével érzékennyé téve magunkat a mérendő szempontjából releváns és irreleváns tényezők iránt. Végiggondoltuk, milyen tényezők lehetnek könnyítők és nehezítők és melyek ezek közül a nyelvtudáshoz kapcsolódó és nem kapcsolódó tényezők. Ezután kellett a szintre koncentrálni és mindazt, amit megállapítottunk a minőség kapcsán alkalmaztuk a feladat szintjének megítélésében is. A kérdés, amibe biztos beleakadtunk, így szólt: A feladat esetleges technikai tökéletlensége okozhat-e egy KER szintnyi változást? A szintezést mind a 6 vizsga írásbeli anyagára elvégeztük. A szóbeli minden vizsga esetében kimaradt, mert az érettségi tételeket titkosították.
2.2.6.
A vizsgák minimumkövetelményeinek empirikus vizsgálata
Úgy terveztük, hogy a vizsgálatnak ez a része „koronázza” majd meg a projekt munkáját. A mérés technikai követelményei (jó itemek, feladatok, megbízhatóság, rendezett skálahasználat) mind 10
előfeltétele a validitásnak. E technikai feltételek nélkül a validitás vizsgálatának nincs értelme. A projektnek ebben a részében a validitás egy további elemét vettük volna górcső alá, nevezetesen a vizsgák KER szerinti szintjét. A validitás – közkeletű definíció szerint – annak megválaszolása, hogy a vizsga azt méri-e, amit mérni szándékozik. E kérdést ki lehet terjeszteni. Mivel a projektben részt vevő minden vizsga állítása szerint B2 szintet mér, adódott az előbbi kérdés kiterjesztése, a vizsga valóban azt a szintet méri-e, amit mérni szándékozik. A „vizsgáztatónak” nevezett ítészeket már a projekt elején arra készítettük fel, hogy KER-es ismereteiket felelevenítve helyezzék el az általuk jól ismert (saját) vizsgára jelentkező és az empirikus adatelemezés alapján kiválasztott adott számú vizsgázót (írásbeli és szóbeli teljesítményük alapján) a hatfokozatú skálán. A módszer, melyet az Európa Tanács számára készített esettanulmány során dolgoztunk ki az Euro Nyelvvizsgaközpontban azzal kecsegtetett, hogy ennek segítségével össze lehet vetni, hogy azok a vizsgázói teljesítmények, melyek az ítészek szerint a legalacsonyabb, de még éppen elfogadható B2-es szinten vannak, a vizsgarendszer saját eredményszámítási módszerei szerint is éppen csak hogy elfogadhatóak-e a B2 szinten, vagy más szintet jeleznek. Egy vizsga akkor tekinthető tényleg B2 szintűnek, ha a vizsgán „éppen csak hogy megfelelt” vizsgázók szintje egybe esik a B2 minimális követelményével. Értékelni kellett tehát az összesített vizsgaeredményeket is. A minta-független és a mérendő szempontjából nem releváns tényezőktől megtisztított eredmények összevetése a vizsga saját pontszámítási rendszere szerint kapott eredményekkel egyben a pontszámítási rendszer tesztjét is ígérte!
2.3.
A projekt eszközrendszere
A projekt eszközeinek egy része, mint pl. a kérdőívezés, sokak előtt ismert, így részletes ismertetésüktől eltekinthetünk. Kevésbé ismert az ítészi munka, melynek módszertanának kialakulása az 1950-es és 1970-es évek közötti időszakra tehető, tehát még nem egy nagyon régi diszciplínáról van szó. Az ítész, akinek az adott vizsgát, vizsgázókat jól ismerő szakembernek kell lennie, becsléseket fogalmaz meg egyes itemekkel, vizsgázókkal, stb. kapcsolatban, hogy mi az esélye a helyes válasznak, vagy mi az item szintje, stb. Általában több ítészt alkalmaznak, hogy az ítéletek megbízhatósága erősödjön, majd összesítik a becsléseket. Mielőtt az olvasó fanyalogni kezd a becslés szó használatán („Nem is rendes számítás, csak becslés!”), le kell szögezzük, a legtöbb (teszt) statisztikai szoftver is „csak” becslést végez, akármilyen szofisztikált módon is teszi azt. Minden olyan statisztika, amely nem csak leíró jellegű, hanem ahol az adatokból kell valamit kikövetkeztetni, tehát az un. matematikai statisztika, becslések sorából áll. A projektben alkalmazott szoftveres eszköz alapja a valószínűség-számítás. Sokkal kevésbé ismert, mint pl. a kérdőívezés, így ismertetésének itt helye van. (Részletesebb, magyar nyelvű irodalom pl. Csapó 1993 és/vagy Horváth 1993.) A valószínűség-számítás segítségével meghaladható a klasszikus statisztika megismerési szintje, mert a megfigyelt (tényleges) pontértékek mellett a valószínűség alapján az elvárt értékeket is figyeli. Úgy is megfogalmazhatjuk, hogy a modern tesztelmélet azért megalapozottabb, mint a klasszikus, mert két lábon áll, egyszerre követi nyomon, hogy a vizsgázó ténylegesen mit válaszolt (az értékelő milyen pontértéket adott) és milyen válasz vagy milyen pontérték lett volna a legvalószínűbb. A kettőt folyamatosan összeveti, meghatározza az eltéréseket és a meg nem magyarázott varianciát folyamatosan csökkentve eljut a szisztematikus tényezők minta-független becsléséig. Úgy is fogalmazhatunk, hogy a mérendőt azért tudja pontosabban megmérni, mert lépésről lépésre lehántja a nyelvtudásra a vizsga kontextusában rakódott performancia elemeket, megszabadítja a nyelvtudást azoktól a tényezőktől, melyek ugyan szisztematikusak, de a nyelvtudáshoz nem kötődnek. A minta-független mérés megnöveli a mérés 11
eredményeinek általánosíthatóságát és a különböző vizsgázók által megoldott feladatsorok összevethetőségét, mert ugyanarra skálára vetíti őket. Pl. ha számításaink alapján tudom, hogy adott vizsga feladatainak nyelvi tartalma nehézsége +2, de a feladat típusának (formátumának) nehézsége +2.5, megállapíthatom, hogy a formátum nehezebb a tartalomnál. A valószínűségi mérés azért is korszerűbb, mert képes a variancia-torta szeleteinek elkülönítésére, ami adott esetben ok-okozati összefüggések megállapítására is feljogosítja a kutatót. Ha a klasszikus módszerek szerint egy feladat, item gyengének mutatkozik, még nem lehet biztosan tudni, hogy az item maga rossz, vagy csak a nem modellszerű válaszokat adó vizsgázók teszik azzá. Ha viszont a valószínűségi elmélet szerinti vizsgálat során kikapcsoljuk a nem illeszkedő vizsgázókat és más tényezőket, az itemek minősége biztosabban meghatározható. A variancia torta egy-egy szelete a performancia megfelelő, nyers pontszámokban kifejezhetetlen dimenziójához kapcsolható. A nyelvtudás mérése terén a leggyakoribb, „közmegegyezéses” ilyen dimenzió a vizsgázók nyelvtudása, a feladatok (itemek) és az értékelők, de feltételezhető más dimenzió is, ilyen pl. az értékelési skálák hatása a teljesítményekre. A valószínűségi modell koncepcionálisan nem nehéz: minél jobb tudású a vizsgázó, annál nagyobb valószínűséggel old meg helyesen adott nehézségű feladatot vagy annál nagyobb pontszámot ér el rajta. A modell úgy is leírható, hogy feltételezve egy közepes nehézségű feladatot, azt várhatjuk el, hogy annak a vizsgázónak, akinek e feladat épp megfelelő szintű, 50% az esélye a helyes megoldásra. Egy másik, ennél jobb tudású esélye 50% feletti, míg egy gyengébb tudású vizsgázóé 50% alatti lesz. Vagy ugyannak a vizsgázónak 50% alatti esélye van arra, hogy egy tudásánál nehezebb itemet helyesen megválaszoljon, míg 50% feletti az esély, ha az item tudásához képest könnyű. Ezen elvek alapján a mérési modell elvárásokat fogalmaz meg arról, mely vizsgázónak milyen pontértékeket kellene kapnia. A projektben a valószínűségi modellre épülő Facets szoftvert használtuk (Linacre 1999), mely ezeket a rendszerszerűségeket (vagy azok hiányát) figyeli. A megfigyelt és elvárt (valószínűsített) értékek egybevetéséből megállapítja, a vizsgált performacia-tényező (vizsgázó, feladat vagy értékelő) mennyiben illeszkedik a modellhez. (Szimpatikus vonása a mérési modellnek, hogy nem vár el tökéletes illeszkedést, minthogy az emberi viselkedés valósága sohasem tökéletesen törvényszerű.) A szoftver egymást követő körökben, egyre finomított számítások sorozatát végzi, azaz iteratív módon dolgozik. A munkát akkor hagyja abba, amikor a megfigyelt és elvárt értékek közötti különbség, bármely feladat, vizsgáztató és vizsgázó tekintetében kevesebb mit fél nyerspont. Ez a konvergencia pont. Ha szét nem osztható variancia maradt, az a megbízhatóság hiányára, problémákra utal. A szoftver az illeszkedés mértéke alapján dolgozza ki az illeszkedési mutatókat, melyek alapján az egyes tényezők minősége megítélhető. Megfogalmazható tehát a minőség (és validitás) következő, a konkrét mérési helyzetre alkalmazott kritériuma is: a jó illeszkedési mutatók. Mit is jelent ez néhány példán? Tegyük fel a kérdést, hogy milyen is az a könnyű feladat (item), amelyet azok a jobb tudású vizsgázók rontanak el, akiknek azt nagy valószínűséggel helyesen meg kellett volna oldani? Milyen is az a nehéz feladat, amelyet inkább a gyenge tudású vizsgázók oldanak meg sikeresen, mint azok, akiknek tudása a feladat nehézségéhez mérhető? Milyen az alacsony pontszámot elérő vizsgázó, aki sikerrel megoldja a nehéz feladatok egy részét, míg a neki testhezálló nehézségű könnyebb feladatokat sem oldja meg egyértelmű sikerrel? Vagy milyen az az értékelő, aki a többi értékelő által magas pontszámmal honorált vizsgázók egy részének alacsony pontszámokat ad, a másik részének meg magasat? Vagy – tovább megyek – milyen az az értékelő, aki az egyébként magas pontszámot elérő vizsgázóknak következetesen alacsony, míg az alacsony pontszámot elérőknek következetesen magas pontértékeket ad? Ezekben az esetekben kivétel nélkül problematikus
12
feladatokról, vizsgázókról és értékelőkről van szó, akiknek tevékenysége nem illeszkedik a mérési modellhez. Vegyünk egy példát magából a projektből, a vizsgaanyagok minősítése szakaszból arra, hogy miképpen állhat elő nem-illeszkedés. A NYAT-os szempontrendszer összességében bevált, de a hanganyag minőségére vonatkozó szempont erős nem-illeszkedésre, mélyen beágyazott problémákra utalt. Ebből alapesetben az következne, hogy rossz a szempont megfogalmazása, vagy az ítészek nem értik szempont deskriptorait. A részletek ismerete azonban megmagyarázta, hogy az egyik angolos ítész miért adott 3, míg a másik 0 pontot az ECL angol hanganyagára. Az egyik ítész szerint a 0 pontot az indokolta, hogy a CD ellenére gyatra volt a hangzás és hogy a két feladat hanganyaga a feladatlapon szereplőhöz képest fordított sorrendben volt lejátszható. A másik értékelő olyan CD-t kapott, amelyen a hanganyagok már a megfelelő sorrendben voltak. Mindez jó mutatja, hogy nem csoda, hogy a szempont nem illeszkedett, hiszen mindkét ítész az általa ismertekhez képest helyesen ítélt, de értékelésük nem ugyanarra vonatkozott. A „buta” szoftver mindezt nem tudta és összeegyeztethetetlennek találta, hogy két nagyjából azonos szigorúságú ítész ugyanarról a vizsgáról, ugyannak a szempontnak a fényében szögesen eltérő értékelést adjon.
2.3.1.
Milyen fajtái vannak az illeszkedési mutatóknak és miről árulkodnak?
Az illeszkedési mutatóknak két fajtája van. Az egyik az un. súlyozatlan (outfit mnsq) mutató, melybe minden válasz beleszámít, az is amelyek a vizsgázó képességétől (az item nehézségétől) messze esnek, így nem tekinthetők igazán jellemzőnek, tipikusnak hanem sokkal inkább marginálisnak, un. outliereknek. A másik illeszkedési mutató a súlyozott (infit mnsq), amely csak azokra a válaszokra vonatkozik, melyek a vizsgázó képességéhez (feladat nehézségéhez) közel vannak, és ezért jellemzőnek, tipikusnak mondhatók. Hogy ne legyen az olvasó dolga túl egyszerű, mindkét mutatónak van egy standardizált változata is. A nem standardizált (mnsq) mutató az illeszkedés vagy nem illeszkedés mértékéről árulkodik, amit nevezzünk egyszerűen a hasnos információ mellett jelentkező „zaj” mennyiségének. A standardizált változat inkább a „hihetőség” mértékéről ad számot. A súlyozott mutató elárulhatja a szintet el nem találó nehéz itemeket, a különféle vizsgázó csoportoknak eltérően kedvező itemeket (bias) valamint a másik itemből következő, redundáns itemeket. Árulkodhat „egyéni”, különcködő (idioszinkratikus) vizsgázói magatartásokról és valószínűsíteni lehet vele a széleskörű puskázást, csalást is. A vizsgáztatók esetében azt lehet minősíteni, hogyan alkalmazzák az értékelési skálákat, az értékelési skálák esetében azt, hogy minden deskriptor hasznosul-e, vagy jobbára a szélsők, esetleg csak a középsők. A súlyozatlan mutató leginkább a nem rendszerszerű, váratlan jelenségekre érzékeny, a vizsgázói figyelmetlenségre, kapkodásra, fáradtságra, az esetenkénti puskázásra (melynek következtében olyan feladatra ad helyes vagy helytelen választ, amely a többi válaszából nem következik), a válaszok alkalmi „megtippelésére”, stb. Fel lehet sorolni továbbá a vizsga lebonyolításnak gyengeségeit is (stresszes körülmények a hangminőség miatt, a felügyelők hanyagsága, mely lehetővé teszi a puskázási, csalási lehetőségeket, stb.), melyek mind okozhatják a nem a mérési modellnek megfelelő válaszadást. A mérési modellnek „túlilleszkedéssel” is lehet nem megfelelni. Az itemek estében ez jelentheti a redundáns itemek jelenlétét, a vizsgáztatóknál pedig jelezheti a restséget (másolja a másik vizsgáztató ítéletét). De ez a kisebbik baj.
13
3. Az első eredmények 3.1.
A tréning eredményeinek elemzése
Az alkalmazott eljárás a tesztelemzési eljáráshoz volt hasonló – az ítészek ismereteit mintegy teszteltük. A valószínűségi tesztelmélet szerinti elemzést a projekt folyamán itt alkalmaztuk először. A három változó a következő volt: (1) az ítészek ismeretének, tájékozottságának mértéke, amelyről feltételeztük, hogy függ (2) a deskriptorok nyelvétől (angol, német, ill. magyar) és (3) minden egyes deskriptor (item) nehézségétől. Mivel a Facets szoftver a valószínűségi mérés többváltozós modelljét alkalmazza, lehetőség volt arra, hogy az ítészek ismereteit, tájékozottságát a deskriptorok nyelve és nehézsége függvényében állapítsuk meg. Feltételezhető volt ugyanis, hogy több vagy minden ítész az egyik nyelv tekintetében otthonosabban mozog, mint a másikban. Másképpen a nyelv és az itemek olyan változók, melyek a válaszok szórásának, varianciájának egy részét – emlékezzünk -- a variancia torta egy szeletét képezik. A tréning során azonban kiderült, hogy egy harmadik változóra is szükség lesz. Több ítészen kifogott a hosszú kérdőív. Engedélyt kaptak arra, hogy a kérdőív kitöltését otthon, nyugodt körülmények között fejezzék be. Itt feltételezhető volt, hogy akik hazavihették a kérdőívet, majd postán küldték vissza, magasabb pontszámot érnek majd el, mert nyugodtabb körülmények között dolgoznak. Létjogosultsága volt tehát annak, hogy a workshop/otthon bináris változóját pótlólag az adattáblába bevittük.
3.1.1.
A tréning kérdőívei elemzésének eredményei
A tréning eredményes volt, ugyanakkor kiderült az is, hogy nem lehet minden ítész esetében ugyanazt az ismeretszintet feltételezni. Az ítészek között szignifikáns különbség mutatkozott. Érdekes, hogy a legjobb és a leggyengébb eredményt az érettségihez tartozó két kolléga érte el. Az illeszkedési mutatók az egyik angolos ECL vizsgáztató esetében gyengének mutatkoztak. Újabb elemzésre kellett sort keríteni, mert nem lehetett tudni, hogy az ítész maga miatt vagy pedig az elemzésben szereplő más változók (a variancia forrásai) miatt mutatkozik gyengének. Meglehetősen nagy számú nem illeszkedő deskriptor kikapcsolására került sor, aminek meglett az eredménye. A vizsgáztató így már (éppen csak) illeszkedett a mérési modellhez. Megállapítható tehát, hogy valószínűleg a közben kikapcsolt deskriptorok zavarták meg a vizsgáztatót. Érdekes még, hogy a kérdőívet otthon befejező ítészek valóban jobban teljesítettek, még akkor is miután a „tréning és otthon” dimenzióhoz kapcsolódó varianciát a szoftver kivonta az ítészek ismeretszintjéhez kapcsolódó varianciából. Érdekes még az is, hogy sem az otthoni munka, sem a deskriptorok nyelve nem kapcsolódott olyan nagy mennyiségű varianciához, amint azt feltételezhetnénk: vékonyak voltak a tortaszeletecskék. A javasolt értelmezés a következő: Az otthoni munka nyugodt körülményei valóban előnyhöz juttattak egyes ítészeket, de ezek – érdekes mód – valószínűleg a felkészültebb, de ugyanakkor a lassabban dolgozó és ezért az időből kicsúszó kollégák is voltak. Mi hasznosítható? A projekt megtette az első lépéseket annak érdekében, hogy a magyar nyelvű skálák validitásáról is később megállapításokat tehessünk. Jó lenne a munkát tovább folytatni!
14
3.2.
A vizsgaanyagok minősége – NYAT-os kritériumok alapján
A vizsgaanyagok minősítése itt még nem a KER szintjei szempontjából történt, hanem a vizsgaanyagok minőségének, szakszerű elkészítésének szempontjából. A NYAT értékelési rendszeréből átvett elem eredetileg a mintafeladatok értékelésére szolgáló szempontrendszer volt. A szempontrendszer minden skálapontja definiált, tehát szintleírás van arra, hogy milyen teljesítményért kell 3, 2, 1, ill. 0 pontot adni. A mérési szakértők kis kiigazítással ezt a 20 szempontból álló mérési eszközt használták arra, hogy szempontonként maximum 3 ponttal osztályozzák azt a két vizsgát, amelynek fejlesztésében és működtetésében nem vettek részt. Őket egyben arra kértük meg, hogy ahol fontos, fűzzenek megjegyzéseket a pontértékekhez, ami alapján további értelmezéseket lehet majd kapcsolni az eredményekhez. Mivel az érettségi szóbeli (beszédkészség) vizsgaanyagaihoz nem férhettünk hozzá, a vizsgaanyagok értékeléséből a szóbeliket kivettük. A pontozásos értékelés lehetőséget adott arra, hogy itt is valószínűségi elemzést végezzünk, tekintettel arra, hogy a 20 szempont lényegében ugyanannyi feladatnak (itemnek) tekinthető, az ítész szerepe pedig a vizsgáztatóéra, pl. egy íráskészség feladat értékelőjére hasonlít. A mérendő ebben az esetben nem a vizsgázók tudása, képességei volt, hanem a hat vizsga minősége. Az ítészek pontjai tehát e három rejtett változót tartalmazták és a szoftver feladata az volt, hogy a variancia-torta egyes szeleteinek meghatározásával a minőség mintafüggetlen (az itemek torzításaitól és az ítészek, értékelők szubjektivitásától mentes) mértékét állapítsa meg. A hat ítész együttesen összesen 240 értékelése szerepelt az elemzésben.
3.2.1.
A szoftveres elemzés
Az elemzést több körben kellett elvégezni, mert az értelmezést nehezítő problémák léptek fel. Először is kiderült, hogy a korábban bemért NYAT szempontrendszert az ítészek (nem mind) következetlenül alkalmazták. Problematikus volt, ahogyan a NYAT-os skálát (0,1,2,3 pont) alkalmazták. A tökéletlen illeszkedésre utalt továbbá néhány szempont, az egyik ítész (DA) és az egyik vizsga (német érettségi) viszonylag magas mutatói is, azonban a vizsgálat ezen pontján nem volt szabad még olyat állítani, hogy a mutatók azért nem kielégítők, mert az egyik értékelő következetlenül ítélte meg az érettségit. A vizsgák minőségéről csak akkor lehetett érdemben nyilatkozni, midőn e zavaró tényezők forrását tisztáztuk, azaz adott vizsga gyenge vagy jó szereplése nem tulajdonítható sem a szempontrendszernek, sem az ítészek munkája minőségének. Először is a skálahasználattal kapcsolatos problémát kellett tisztázni. Az elemzés második körében (ugyanazokkal az adatokkal), a szoftvert átállítva megengedtük, hogy minden ítész a saját értelmezése szerint használja a szempontrendszert (un. partial credit analysis). Hozzátesszük, hogy az ilyen elemzés nem az alapállás és nem is kívánatos, hiszen vizsgák esetében is azt várjuk, hogy a képzés alapján az értékelők azonos módon, azonos gondolkodásmóddal közelítsenek a szempontrendszerhez. Ha viszont a skálák egységes alkalmazása megbicsaklik, fontos, hogy képet alkossunk a szempontrendszer egyéni alkalmazásáról és azonosítsuk, melyik értékelő használja azt nem megfelelően.
15
Probability Curves -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 ++----------+----------+----------+----------+----------+----------++ 1 | | |00000000000 3333333333| | 00000 33333 | | 000 3333 | | 000 33 | P | 00 33 | r | 0 33 | o | 00 3 | b | 0 33 | a | 0 3 | b | 0 3 | i | 0 3 | l | 0 3 | i | 0 3 | t | 3*0 | y | 3 0 | | 11*22222*2222222 | | 111111***211111100 22222 | | 1111111 222*3 11**1 2222222 | | 1111111111111 22222**333 0****111 22222222222| 0 |****************33333 000******************| ++----------+----------+----------+----------+----------+----------++ -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 Expected Score Ogive -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 ++----------+----------+----------+----------+----------+----------++ 3 | 3333333333| | 333333333 | | 3333 | | 223 | | 22 | | 2 | 2 | 22 | | 2 | | 2 | | 2 | | 1 | | 11 | 1 | 1 | | 11 | | 11 | | 01 | | 0000 | | 00000000 | 0 |00000000000 | ++----------+----------+----------+----------+----------+----------++ -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0
1. ábra: A NYAT-os skála alkalmazása (DA)
Az új elemzésből kiderült, hogy míg az ítészek többsége minden skálapontot (0-1-2-3) kielégítő mértékben és magasabb szintű teljesítmény „honorálására” használt, az egyik (DA) hajlamos volt a szélsőséges értékek használatára, így a problémák forrása ő volt (1. ábra). Jól látható, hogy balról jobbra haladva a teljesítmény növekedésével csökken a 0 pont adásának valószínűsége, nő a 3 pont valószínűsége, de nincs a képesség skálának olyan pontja, amelyen akár az 1 pont, akár a 2 pont a legvalószínűbb lenne – a 0-ák és 3-asok mindig magasabban vannak. A megoldás a 0 és 1 skálapontok összevonása volt. Így mind a skálaalkalmazás, mind pedig az egyes dimenziók (szempontok, ítészek) illeszkedése már megfelelőnek volt ítélhető. Ezen a ponton elmondható, hogy a vizsgák minőségéhez kapcsolható varianciából már kivontuk (semlegesítettük) az ítészekhez és a szempontokhoz tartozó varianciát is. Az előbbi jelentős mértékű volt, míg az utóbbi nem. Így megalapozottabban állítható fel a sorrend, miszerint az első helyen az Euro „végzett”, majd a BME nyelvvizsga, de a köztük lévő különbség statisztikailag nem szignifikáns.
16
Őket követi az angol majd a német érettségi, szignifikáns különbséggel, végül a két ECL vizsga, melyek között megint nincs statisztikailag szignifikáns különbség.
3.2.2.
Elemzések szakmai-módszertani szempontból
Az ítészek megjegyzései és a projekt során felhalmozott információ jórészt megerősíti a szoftveres elemzés eredményét. Alább néhány olyan elemet emelünk ki, melyek jellemzőek az egyes vizsgákra, mert egy vagy több ítész kiemelte, ill. amelyek alkalmasak a vizsgák szerkezeti értékelésére, alkalmasak arra, hogy a mérendő reprezentáltságának mértékét megvilágítsuk. A mérendő reprezentáltságának messicki elvét fentebb már leírtuk. Ezt a dichotom feladattípusok esetében az itemek száma és jellemzően pl. a beszédértés, az írott szöveg értése feladatok esetében a feladatsor alapját képező szövegek száma a döntő. A mérendő reprezentáltsága tekintetében az Euro a legmeggyőzőbb. Jelentős mintát vesz ki az idegen nyelvből (6 vizsgarész) és a vizsgázó tudásából is: sokrétű. A négy készség mérése mellett méri a nyelvismeretet és a közvetítést is. A közvetítést méri a BME vizsga is, de csak az egyik irányban, amely kevesebb mérési egységet és gyengébb megalapozottságot jelent. A nyelvismeretet az ECL vizsgákon kívül a projektben szereplő minden más vizsga méri. Az ECL tervezői nem akartak sem nyelvismereti, sem közvetítési feladatsort, mert mint állítják a készségeket „tisztán akarják mérni” – ami önmagában egy védhető álláspont – azonban ennek ára van: a négy alapkészséget vizsgáló vizsgarész sokkal kisebb mintát vesz ki mind az idegen nyelvből, mind a vizsgázó tudásából (erről alább). A többi vizsga az idegen nyelvből vett minta tekintetében az Euro és az ECL vizsgák közé esik. A mérendő messicki reprezentáltságának erősítésére egyes vizsgák ugyanazt a készséget több feladattal mérik. Az ECL pl. mindkét írásfeladatát kötelezően megoldatja, mert azok két külön szövegtípust jelenítenek meg (magánlevél és hivatalos levél). A két érettségi vizsga hasonló módon jár el. Mások azzal kísérleteznek, hogy a választható feladatok szintjén biztosítsák a reprezentativitást, ez azonban azt követelné meg, hogy a vizsgaközpont biztosítsa a feladatopciók azonos nehézségét. Ilyen pl a BME, amely opcionálisan kínálja a magánlevelet és a hivatalos (olvasói) levelet. Erről a megközelítésről tudni lehet, és amint azt az alábbi vizsgálatok (Lásd A válaszadatok empirikus elemzése, p. 27) bizonyították, szinte kizárt, hogy sikerül azonos nehézségűre „faragni” két olyan opciót, melyek eltérő szövegtípusok (szövegformátumok) is egyben. Szerencsésebb e tekintetben a német érettségi, ahol a szövegtípus adott, de két megadott téma közül lehet választani. Itt már könnyebb biztosítani a témák ekvivalenciáját. Az Euro íráskészség feladatai a reprezentativitás tekintetében robosztusak. A kötelező feladat egyben két szövegtípust is lefed, s e kettőn felül a vizsga további 3 opciót kínál, amelyek a kötelezőekkel együtt már ötféle szövegtípust fednek le! (Az viszont egyenesen érthetetlen, hogy kötelező feladat két részét együttesen pontozzák, mert így nem tekinthetők önálló mérési egységnek.) A reprezentativitás szempontjából szerkezeti elem az értékelő is. Az érettségiket kivéve a projektben szereplő vizsgáknál általánosnak tekinthető az íráskészség kettős értékelése – ami jó – de a szakmailag legjobb megoldás, az értékelők teljesen önálló pontozása sehol sem valósul meg. Az értékelők általában közösen adnak pontokat (azaz a folyamat egy pontján megegyeznek). Minőségbiztosítási – azaz átláthatósági szempontból – a teljesen önálló pontozás lenne a legjobb, mert értékelni lehetne minden vizsgáztató munkáját, tehát a vizsga megfelelő módon validálható lenne. (A közösen adott pontok esetében azt az eljárást kellett itt alkalmazni, hogy ha adott volt az információ, hogy ki volt a két értékelő, a közösen generált varianciát szoftveresen általában ketté bontottuk, de a mérés megbízhatósága sohasem lesz olyan jó, mint az önálló pontozás esetén.) Az 17
érettségiknél sajnos egyetlen értékelő dolgozik. E vizsgákat az teszi mégis elemezhetővé, hogy az értékelő egymás után két feladatot értékel. Kicsit más, de mégis hasonló, ahogy a BME megüti a validálhatóság minimumát. Az egyetlen (az opciók matt tulajdonképp kettő) feladatot két értékelő értékeli. Mindezek alapján a legelégedettebb az Euro lehet, bár az sem maradéktalanul, majd következnek az ECL vizsgák, végül különböző okokból az érettségik és a BME. Az idegen nyelvből vett minta nem független a vizsgázó tudásából vett minta mértékétől: ha sokrétű a vizsga, jellemzően azt jelenti, sok itemmel méri a tudást, sok pontszerzési lehetőséget nyújt a vizsgázónak. A nyelvvizsga-akkreditáció beindulása óta a beszédértés mérése látszik a leggyengébb láncszemnek. A BME nem több mint 15 itemmel „méri” a készséget, igaz, öt itemnél a fél pontok adása (skála típusú értékelés) nagyobb megbízhatóságot eredményez. A legtöbb vizsgánál (ECL német és angol, német érettségi) csak két szöveg általában összesen 20 itemmel, így a vizsgázó tudásából vett minta az elfogadhatóság határán van! Ennél jobb az Euro a három szöveghez kapcsolódó 25 itemmel, de a legjobb az angol érettségi a három szöveghez kapcsolódó 30 itemmel, pedig mint látni fogjuk lejjebb, a beszédértés készsége igen összetett, megalapozottabb mérése igen kívánatos lenne. Mi lehet ennek az oka annak, hogy mégis „mostohagyerek”, amint az látható abból, hogy mind az írott szöveg értése, mind a nyelvismereti feladatsorok több szövegre és több itemre épülnek? Alább, a teljesség igénye nélkül felsorolunk néhány további észrevételt, melyek között azokat vettük előre, amelyeket a legfontosabbnak gondoltunk. 3.2.2.1. •
• •
Alapfokú vizsgaszerkesztési hiba: a 4. olvasott szöveg értése feladat megoldható a szöveg elolvasása nélkül is! Alapvető feladatírói szabály, hogy a feladatokat csak a készség, jelen esetben az írott szöveg elolvasása, feldolgozásán keresztül lehessen megoldani. Mindkét ítésznek feltűnt a probléma. Munkatársak és diákok oldották meg a feladatot 100%-ra anélkül, hogy akárcsak egyszer is elolvasták volna a szöveget. Olyan itemek, melyek megjósolhatóak az ítészek szerint más, a projektben részt vevő vizsgákban is akadnak, de olyan vizsga nem akadt, ahol egy teljes feladatsor 8-10 item megoldható lett volna a mérendő készség alkalmazása nélkül. Előtte, a 3. feladatban igaz-hamis itemek szerepelnek. A harmadik lehetőség a gyakorlat szerint az, hogy „nem szerepel a szövegben”, de az instrukciónak más és zavaró lett a megfogalmazása. A hallott szöveg értése 2. feladatsora kimondottan stresszelő, mert a felmérés részleteinek összekapcsolása a feladat megfogalmazásaival jelentős kognitív terheléssel jár: az egyik ítész szerint a 13, 14, és 15. itemeinél „felesleges trükközéssel kialakított a nehezítés”. Nagyon jó hangminőség.
3.2.2.2. • •
•
Angol érettségi
Német érettségi
Az angol érettséginél láthatólag vékonyabb mintát vesz a vizsgázó tudásából. Vajon miért? A sorrendezési feladat nem szerencsés megoldás, mert megbízhatósága problematikus lehet. Igaz, a kulcsban megjelölték, hogy a válasz csak akkor fogadható el, ha az a szintén megadott előző válasz után következik (pl. H akkor fogadható el, ha a B-t választja az előző itemnek), ez viszont egy másik, a diszkrétpontos feladatokra vonatkozó alapkövetelménnyel menetel szembe: az itemeknek nem szabad egymástól függniük, azaz az egyik megoldásából nem következhet a másik megoldása. A feladattípus kerülendő. A szövegek tartalmilag változatosak, terjedelmük optimálisnak mondható, a tesztelési módszerek variációja általában megfelelő, csak a fogalmazási feladatok egysíkúak
18
• • •
A fogalmazási feladat megoldásához előfeltétel az olvasásértési készség. Időnként a szintet meghaladó (gyakoriságukat tekintve ritkán előforduló szavak szerepelnek a szövegekben -nincs szótárhasználat!). A 3. sz. fogalmazási feladathoz háttérismeretek szükségesek. Nehézkessé teszi az értékelés áttekinthetőségét a dolgozatpontok vizsgaponttá történő átszámítása. Hallott szövegértés 2 feladat: a szöveghez kapcsolódó itemek többsége megválaszolható a szöveg megértése nélkül.
3.2.2.3. • •
Írott szöveg értése: 1. feladat nehéz. A hallott szöveg értése bizonyos itemei eléggé megjósolhatónak tűntek (1/6, 2/9). Az ECL skálák tartalmát igen nehéz volt a KER skáláihoz kapcsolni, mert az egyes szempontok (a táblázat egyes oszlopainak) tartalma egymással keveredett. (Az ítészek véleménye szerint ez mind a két nyelvre igaz.) Kérdéses volt továbbá, hogy ha az 1-es skálaponton már szinte nemleges a teljesítmény, milyen teljesítményre kellene 0 pontot adni?
3.2.2.4. • • •
Euro
Változatos feladattípusok. A mediációs feladat áttekintése a szakember számára is bonyolult. Számos item könnyű.
3.2.2.5. •
ECL angol
BME
Nehezen áttekinthető az értékelési rendszer, nehéz rájönni annak logikájára és értelmére, miért van szükség az elért pontszámok egyes helyeken felszorzására, másutt osztására.
Ezek a szakmódszertani meglátások vonatkoztatási pontok is voltak, amikor a vizsgák válaszadatainak elemzésére (a vizsgázók, itemek, feladatsorok) került sor. Némelyikre még visszatérünk azokban a fejezetekben. Összegzésül azt lehet még leírni, hogy a nyelvi-tudásbeli minta reprezentativitása tekintetében minden vizsgának akad még tennivalója. A vizsgafeladatfejlesztés terén elsősorban az érettségit készítőknek kell javítani, itt voltak ugyanis a legkirívóbb hibák. Mi hasznosítható? • Nyelvvizsgafejlesztők figyelem! A választott feladatok, szövegtípusok, részkészségek a vizsgázatók számával, az értékelési tervvel, a kettős értékelés megvalósításával együtt adhatja a nyelvből és a vizsgázó tudásából vett minta reprezentativitását. A vizsgaszerkezet nem statikus valami és nem azonosítható kizárólag a feladatokkal! • Itemírók, ítészek, moderátorok, figyelem! Jó ellenőrzési technika az, ha a bírált receptív (írott szöveg értése, beszédértés) feladatsort úgy vesszük górcső alá, hogy először megkíséreljük megoldani a feladatot a szöveg elolvasása, meghallgatása nélkül, melyiket tudjuk sikeresen megtippelni. Brutális technika, de működik!
19
4. A projektterv módosítása A projekt számára ez a szakasz jelentette a legnagyobb logiszikai-szervezési, anyagi és „diplomáciai” kihívást az emelt szintű érettségi működésmódja miatt. Az Országos Közoktatási Értékelési és Vizsgaközpont (OKÉV) második számú vezetője már a pályázati koncepció formálódása idején kijelentette, nem szándékoznak semmiféle pályázatban részt venni (Dávid 2005). A projektre vállalkozó konzorcium képviselői – tudván, hogy az empirikus elemzések miatt megkerülhetetlen az OKÉV – az együttműködés szellemében kértek találkozót a nevezett vezetőtől. Az alábbiakban látszólag kis kitérőt teszünk az adatgyűjtés előkészítését és a mintavételezés problémáit, tanulságait taglalva, amellyel kapcsolatban az olvasó felvetheti, hogy mindez nem releváns a kutatás szempontjából. A kitérő azonban szükséges, hogy megvilágítsuk a problémákat és a vizsgákat ezen keresztül is jellemezzük, aszerint ahogy lehetővé válik (vagy nem válik lehetővé) validálásuk. Az így megrajzolható un. procedural validity (az alkalmazott eljárások hitelesítő ereje) is a minőségről szól. Az adatgyűjtés és mintavétel részleteivel azért is traktáljuk az olvasót, mert ez az információ alátámaszthatja, hitelesítheti e kutatás eredményeit és mert nem mindegyik hasonló tárgyú cikkben térnek ki rá (Major és Einhorn 2005).
4.1.1.
Helyben járás
Az együttműködés az OKÉV-vel eleve szerencse nélkül indult. Az első találkozó az említett vezetővel épp a 2005. májusi „érettségi botrány” napjára esett volna. A találkozó érthető okokból elmaradt, viszont ezzel kezdetét vette a projekt jelentős időbeli csúszása, melynek következtében a projekt befejezésére megszabott 2005. decemberi határidőt jelentősen ki kellett tolni. A nyár végi, következő találkozón a projekt képviselői azt szerették volna elérni, hogy a reprezentatív minták felállításához az OKÉV adjon adatokat – ezen a ponton válaszadatokat még nem kértünk -- hiszen a mintavételhez először azt a vizsgázói sokaságot (populációt) kellett megismerni, amiből és ami szerint a minta összeállítható. A vizsgázói sokaság jellemzőit természetesen mindegyik vizsga esetében fel kellett térképezni. Több jellemzőről csak sejtéseink voltak. Tisztázni kellett először is, az érintett vizsgákon hány vizsgázó jelent meg 2005. májusában-júniusában, mert nem mindegy, a 300-as mintát mekkora sokaságból kell kivenni. Gyanítható volt – és az Euro statisztikusának erről volt is tapasztalata – hogy a Budapest/vidék különbségtétel a nyelvtudás milyensége szempontjából igen fontos. A vizsgázó korát is fontos jellemzőnek gondoltuk, az Eurós tapasztalatok okán és korábbi ITK-s statisztikák alapján is. Ezek szerint a vizsgázói „korfa” egy a tizenéves korosztályban hirtelen felszökő, majd az idősebb korosztályok esetében hosszan elnyúló, hosszú „farokkal” jellemezhető görbével írható le. Nem tudtuk, pl. az emelt szintű érettségi korfája ehhez hasonló-e. Az érettségi funkciójából és a középiskolai tanulmányokkal való szoros kapcsolatából kiindulva azt feltételeztük, hogy az emelt szintű érettségi „korfája” sokkal rövidebb, csak néhány évjárat. (Nem így volt, de erről alább.) Érdekes szempontnak ígérkezett a vizsgázók nemek szerinti megoszlása is, amelyről szintén csak sejtések voltak. A mintavételi terv a központi régió-vidéki régiók tekintetében kiegyenlített, ezen belül rétegzett, véletlen mintát irányzott elő. Szempontjai a következők voltak: Úgy az érettségi, mint a nyelvvizsgák EU-s régiók szerint működnek, így célszerű volt a regionális felosztás beépítése a 20
mintavételi tervbe. Mind a főváros, mind a vidék egyaránt fontos volt, s bár nagyon eltérő karakterűek e vizsgázók, elhatároztuk, a mintában legyenek egyenlő súllyal (150-150 vizsgázó) képviselve. A minta vidéki részének belső megoszlása kövesse a lakosság megoszlását a 6 vidéki régióban. Ez régiónkénti mintavételt jelentett. Célszerűnek mutatkozott az is, hogy a legtöbb vizsgázó 1987-88-ban születettek közül kerüljön ki, mert ekkor még azt feltételeztük, hogy ez az a közös korosztály, ahol a 2005-ös érettségi és a nyelvvizsgák „derékhada” van, így az összevetés nagyon hatékony lesz. Hogy a minta kellően véletlen legyen, még két alapelvre kellett nagyon odafigyelni, az érettséginél különösen. Egyrészt egyenlő esélyeket kellett a vizsgázóknak biztosítani arra, hogy bekerülhessenek a mintába, másrészt gondosan kellett a rétegezést elkészíteni, hogy a populáció egyes csoportjai homogénebbek legyenek, mint maga a populáció (Babbie 2003). Míg az Euro és az ECL esetében a szükséges adatok azonnal előálltak (a BME esetében kissé nehézkesebben), annál nehezebb volt megfelelő érettségi adatokhoz hozzájutni. A minták meghatározásához szükséges adatokat 2005. szeptemberében e-mailben újra kértük, mire hosszú csend következett, míg novemberben – kerülő úton – megkaptuk az első tájékoztató adatokat. Mint e fájlból kiderült, a leválogatás az OKÉV-ben még szeptemberben elkészült, de november volt mire a projekt képviselőihez eljutott, másfél hónappal a befejezés eredeti határideje előtt. Hol jártak ezek az adatok időközben?
4.1.2.
Az adatok elérhetősége
Ez alatt azonban fontos elemek tisztázódtak az OKÉV működésében. Korán kiderült, hogy válaszszintű adatfelvétel az OKÉV-ben nincs, csak a vizsgadolgozatokon szereplő összpontszámokat rögzítik. Ennél részletesebb olyan adatokért, amelyek a vizsga minőségét, validitását támaszthatják alá, oda kellett mennünk, ahol a diák az érettségire jelentkezett, azaz a regionális OKÉV-ekhez, vagy az iskolákba. A novemberi adatok csak a létszámokat tartalmazták, így egy részletesebb válogatást kellett kérjünk, amely már tartalmazta az összes vizsgázót. Ekkor vált bizonyossá a projekt résztvevői előtt, hogy az OKÉV a nyelvvizsgaközpontok gyakorló vizsgaszervezői számára érthetetlenül nagy számú vizsgahelyen szervezte meg az emelt szintű érettségit. A fájl angol nyelvből 587 (!) vizsgahelyet tartalmazott. Világossá vált, e rengeteg vizsgahely közül néhány, elsősorban a regionális OKÉV-ek nagy számú dolgozatot őriznek, de sok dolgozat volt a középiskolákban is, ezek azonban egyenként igen kevés diákot érettségiztettek. Az 587-ből csak 56-ban volt legalább 10 vizsgázó, a többiben ez alatt, 187-ben pedig csak 1! Jogosan merült fel a kérdés, hogy miféle oktatáspolitikai elvek kifejeződése volt a szervezés ilyen mértékű szétforgácsolása? A szétforgácsoltság mértéke nem csak szervezési-logisztikai és finanszírozási kérdéseket vet fel, hanem kőkemény mérési problémákat is. • Az ilyen nagy számú vizsgahely azt is megköveteli, hogy a szóbeli vizsgát az egy időben, sok helyen, nagy számú vizsgáztató alkalmazása mellett (ellenére) standardizálják. Ennél kevesebb vizsgahely és vizsgáztató standardizált működése is komoly kihívást jelent, amint azt a vizsgáztatásban részt vevők jól tudják. • Ha az OKÉV vezetés a jövőben kíváncsi lenne saját vizsgáinak beválására, a minőségbiztosítás érdekében nekik is apránként kellene összeszedni a válaszadatokat. Hogyan fogják ezt végrehajtani, akár csak a saját érdekükben? Látva a szétaprózottságot és hogy lehetetlen feladat lenne a 300 eredménysort esetleg országosan 100-200 helyről beszedni, az a döntés született, hogy nem foglalkozhatunk azokkal a
21
vizsgahelyekkel, melyek angolból 10, németből pedig 8 vizsgázónál kevesebbet fogadtak. A következő körben még részletesebb adatokat kértünk, hogy a minták meghatározhatók legyenek.
4.2.
A minta megtervezése és felállítása
A részletes érettségi populációs adatokat már 2006. januárjában kaptuk meg. Ezek összetétele már használható volt a minták felállításához és ez alapján kértük a pályázat kiírójától a projekt határidejének módosítását, remélve, hogy a projekt az eredeti terveknek megfelelően valósulhat meg.
4.2.1.
A minták felállításának eljárása
A reprezentatív minták hitelességét alátámasztja az alkalmazott mintavételi eljárások ismertetése: 1. A populáció szűrése. Ki kellett szűrni a vizsgán vagy nulla vagy a maximális pontszámot elérőket és a kor tekintetében marginálisnak tekinthető (pl. adott évjáratban egyetlenként szereplő, vagy korban a tizen- és huszonévesektől nagyon messze eső) vizsgázókat, továbbá – az érettségi esetében – azokat, akik még a hagyományos érettségit írták 2005-ben. 2. A megszűrt populáció főbb változóinak elemzése (a nem, a kor, a vizsgahely regionális besorolása és az összpontszám kereszttáblája és e változók egymás közti kapcsolatának értékelése) az SPSS statisztikai szoftverrel. A cél az volt, hogy ha a populációban nincs kapcsolat e változók között, a szűrt mintavételi keretben és végül mintában se legyen. 3. A megfelelő döntések meghozatala a mintavételi terv módosításáról. 4. A minta rétegezése: A vizsgázókat először gondosan homogén rétegekbe tömörítettük. Ennek érdekében a vizsgázókat először régiónként, majd ezen belül intézményenként, ill. a vizsgázó neme szerint csoportosítottuk. Az érettségik esetében a változók bővültek a “nappali” (azaz most végzi a középiskolát) és a “már végzett” (korábban, pl. más tárgyakból már leérettségizett) kategóriák szerint. A hét regionális OKÉV szinte kizárólag a tanulói viszonyban már nem lévők adatait tárolja, míg az iskolákban többnyire a még tanulói viszonyban vizsgázók adatait tárolják. Az OKÉV-eknél volt kevés még tanulói viszonyú vizsgázó is, feltehetőleg olyanok, akiknek iskolája valamely okból nem szervezett érettségit. Ezek a vizsgázók hitelesebbé tehették a mintát, így közülük is válogattunk. Viszont több mint meglepő volt a helyzet fordítottja néhol: iskolában olyan is érettségizett, akinek már nem volt tanulói viszonya és akiknek a szabályok szerint az OKÉV-ekben kellett volna vizsgázni. A magyarázat azonban nem ismert, ezért az ilyen vizsgázókból nem mintavételeztünk. 5. A reprezentativitás megvalósulásának ellenőrzése: Hogy valóban reprezentatív-e a minta, azt kellett vizsgálni, hogy a kivett mintában a vizsgázók összpontszámának átlaga mennyiben tér el a populáció átlagától. Az eltérés mértékét statisztikailag az egymintás T-próbával vizsgáltuk.
4.3.
A mintavétel tapasztalatai
A reprezentatív minták felállítása sikerrel járt és elsősorban az érettségi tekintetében érdekes, részben meglepő tanulságokkal szolgált. A nyelvi érettségi – feltételezéseinkkel ellentétben –- nem csak érettségiként, hanem egyben nyelvvizsgaként is működik. Többről van itt szó, mint arról, hogy bizonyos érettségi eredményszint felett az érettségi középfokú nyelvvizsgát ér. Arról, hogy a populáció elemzése során kiderült, hogy az érettségi populációja nagyon hasonlít a nyelvvizsgákra jellemző populációra. Fentebb érintettük
22
a tipikus nyelvvizsga korfát, amelynek hosszan elnyúló „farka” van. Kiderült, hogy az érettségi korfája is nagyon hasonló, annak ellenére, hogy feltételezett funkciója más, mint egy nyelvvizsgáé. Fentebb már leírtuk, az érettségire jellemző változók közé tartozott, hogy a vizsgázó még tanulói jogviszonyban van vagy már nem. A meglepetést az okozta, hogy az angolból emelt szinten érettségizők (1568) kicsivel több, mint 35%-a (558) volt csak tanulói viszonyban. A többség korábban érettségizett, a legöregebb érettségiző 47 éves volt! Német nyelvből hasonló tendenciák voltak láthatók. Az 558 érettségizőnek 40%-a volt „nappalis”, a többi az „utcáról jött be”, 18 és 58 év között, mint bármely nyelvvizsgán. A legfőbb tanulság tehát az volt, hogy kisebbségben voltak azok a középiskolások, akiknek az érettségit tervezték! E kutatási eredmény kérdéseket vet fel az érettségi megcélzott szerepével kapcsolatban. Ha az új érettségivel emelni akarták a középiskolai végzettség tekintélyét, megerősíteni a közoktatást, megszüntetni az érettséginek nyelvvizsga-bizonyítvánnyal történő kiváltását, elég lett volna az új érettségit kötelezővé tenni legkésőbb a középiskolai évek végén. De mi lehet az oktatáspolitika célja a tanulói viszonyban már régen nem lévők tömegeinek érettségiztetésével? A vizsgadíj? Belépés a nyelvvizsgapiacra? A korábban azonosított anomália, miszerint az állam, miután 1998ban rákényszerítette az akkreditációt a nyelvvizsgákra (köztük gyakran állami egyetemekre is), még sarkítottabb lett: az állam a maga által tervezett vizsgát nem akkreditáltatta. Most az látszik, hogy nem egy érettségit, hanem egy újabb nyelvvizsgát hozott létre, azzal „tör be a piacra”, nem piaci eszközökkel és anélkül, hogy a maga alkotta akkreditációs szabályokat a nyelvi érettségi tekintetében betartaná. A mintába bevont korcsoportokat bővíteni kellett, azért is, mert kiderült, a nők fiatalabb korban vizsgáznak, mint a férfiak. Ha tehát ragaszkodtunk volna az eredeti módszerhez, „elnőiesedett” mintákat kaptunk volna. Így minden amellett szólt, hogy a mintavételi tervet meg kell változtatni, néhány kiemelt évjárat helyett már minden nem marginális évjárat mintavételezését tűztük ki. 4.3.1.1.
Az ECL szerepe
Az ECL angol vizsgájának populációja 779 vizsgázót tartalmazott. Első ránézésre ebből lehet 300as mintát venni. Azonban kiderült, hogy az eredeti mintavételi módszer nem alkalmazható az ECLre, mert a vizsgák régiónkénti száma és földrajzi eloszlása nagyon más, egyenetlenebb, mint az Euroé és az érettségié. Az ECL nagyon kevés vizsgát tartott az észak-magyarországi és északalföldi régióban, így az ottani vizsgázóknak igen nagy esélyük volt arra, hogy bekerülnek a mintába, míg ahol sokkal több vizsga volt (minden dunántúli régióban), ugyanez az esély jóval alacsonyabb, tehát a minta nem lehetett véletlen. Továbbá az ECL nem Budapest-centrikus, fő súlypontja Dunántúlon van, ahol a vidék tekintetében egyébként a népességgel arányos mintavételi célszámok alacsonyak (20-20-20) voltak, viszont a Dunán innen „gyenge”, ahol e célszámok magasabbak (30-30-30). A Budapesten „erős” Euronak pedig épp a Dél-Alföldön volt igen kevés vizsgázója: ez az eloszlás épp a fordítottja az érettséginél, ill. az ECL-nél tapasztaltaknak, egymást kiegészítik, mintha a vizsgaszámok azt jeleznék, hogy a vizsgák már felosztották maguk közt a piacot. Az ECL tehát az a vizsga, amelyik a legkevésbé felelt meg egy olyan statisztikai elméletnek, mely célul tűzi, hogy a főváros és a vidék egyforma hangsúly kapjon a majdani elemzésekben. Feltehető, hogy ezen okok miatt az első minta nem volt reprezentatív. A problémát az angol vizsga esetében még lehetett korrigálni régiók összevonásával, de a német vizsga esetében más semmiképp sem. Az ECL németnek a vizsgázók számát tekintve a Közép Dunántúlon “erős”, míg más régiókban (Észak-Mo, Észak Alföld) kifejezetten alacsony a vizsgázók száma. Ez nem csak az angol vizsgáktól különbözteti meg, melyek erősen Budapest centrikusak, hanem a másik két német vizsgától is. (A legtöbb BME vizsgát pl. a budapesti 23
vizsgaközpont bonyolítja le.) A német érettségiknek ugyan csak 1/3-a köthető a központi régióhoz, de a tényleges szám még mindig elég magas (184). Az ECL-nek azonban csak kb. 50 vizsgája volt a központi régióban. Mindezért fel kellett adni az eredeti mintavételi konstrukciót, hogy a mintában egyenlő súlyt kap majd a központi, fővárosi régió és a többi vidéki régió, mind pedig a 300-as mintát, németből az elemszámot 250-re mérsékelve. 4.3.1.2.
Az érettségi mintavételezésének nehézségei
Az angol mintavételi keret vizsgázói 49 vizsgahely között oszlottak meg, mely szám még mindig igen magas volt, ha ennyi helyről kell adatot gyűjteni—másolgatva minden egyes dolgozatlapot. Ezért a mintát (mindkét nyelvben) két lépésben kellett megalkotni. Először a vizsgahelyeket, majd a vizsgázókat kellett mintavételezni. A mintában egyrészt mind a 7 OKÉV-nek helyet kellett adni. Hogy a tervezett mintaelemszámot elérjük, a maradék 42 iskola közül angolból 10-et, németből 14et kellett véletlen alapon kiválasztani. Az így kiválasztott 17 és 21 mintavételezési hely (intézmény) már elérhetőnek tűnt. A német minta elemszáma az ECL vizsga kötöttségei miatt csak 250 lehetett, továbbá ugyanezért a régiónkénti mintavételtől is el kellett tekinteni. Helyette a mintavételezendő vizsgákat igen gondosan rétegeztük, először a régió, majd azon belül intézmény, majd a nappalis/végzett különbségtétel, végül a vizsgázó neme szerint. A minta véletlenségét biztosította, hogy az esélyek szorzata nagyjából egyenlő volt az OKÉV-eknél és az iskolákban. Mivel mind a 7 OKÉV-et be kellett venni a mintába, azok esélye a mintába való bekerülésre a lehető legmagasabb, 1, volt, de mivel sok vizsgázó volt náluk, a személyre lebontott esély már jóval alacsonyabb volt. Az iskolákra e helyzet fordítottja volt igaz: nagy számú iskola (csökkenti a bekerülés esélyét), egyenként kevesebb vizsgázóval (növeli a bekerülés esélyét). Pl. németből az OKÉV-ek 100%-os esélyét arra, hogy a mintába bekerüljenek ellensúlyozta, hogy az OKÉV-nél vizsgázók esélye már csak kb. 45-47% volt arra, hogy a minta részévé váljanak. Az iskolák eleve kisebb eséllyel indultak (14 a 24-ből), viszont az iskolák diákjainak elég nagy volt az esélyük a bekerülésre, ha egyszer iskolájuk bekerült már a mintába. Az esélyek így kiegyenlítődtek, amint látható a kétkörös mintavétel esélyeinek szorzatából (1. táblázat, jobb oldali oszlop). Vizsgahely esélye Vizsgázó esélye Szorzat Budapest Kőbányai Önkormányzat Szent László Gimnázium
0.58
0.72
0.42
0.58
0.72
0.42
ELTE Apáczai Csere János Gyakorlógimnázium Karinthy Frigyes Gimnázium Károlyi Mihály Fővárosi Gyakorló Kéttannyelvű Közgazdasági Szakközépiskola Közgazdasági Szakközépiskola OKÉV Közép-magyarországi Regionális Igazgatóság OKÉV Dél-alföldi Regionális Igazgatóság Tömörkény István Gimnázium, Művészeti Szakközépiskola és Kollégium
0.58
0.72
0.42
1
0.47
0.47
1
0.47
0.47
0.58
0.72
0.42
1. táblázat: A német érettségi mintába való bekerülés esélye (táblázat részlet)
A homogén alcsoportok elvét elősegítette, hogy a keretből kivettünk néhány olyan iskolát, amelynek a szűrés után alig maradt diákja. Ez azért volt fontos, mert jelezte, hogy bár eredetileg megvolt a vizsgázók minimális száma, gyaníthatóan inhomogén csoportot alkottak, minek következtében a csoport nagy része kiesett. (Németből több volt ilyen, lásd az észrevételt alább a heterogenitásról.)
24
4.3.1.3.
A német minták problémáinak megoldása
Az angol vizsgáknál még úgy-ahogy sikerült a mintavételezést az eredeti elképzeléseknek megfelelően végrehajtani, az Euronál pl.. két régió összevonásával, azonban a német vizsgáknál ez már nem sikerült. A minták vizsgaeredmény-átlagai szignifikáns eltérést mutattak a populáció átlagához képest. Ezért az eljárást az ECL és az érettségi esetében meg kellett ismételni. A másodszori mintavétel, más kezdőpontokkal már sikeres volt, ami arra utalt, hogy németből a populáció heterogénebb, mint angolból! A német minták így un. egyszerű, rétegezett, szisztematikus mintavétellel készültek. A mintavételi keretet először régió, majd intézmény, majd pedig a vizsgázó neme szerinti sorrendbe tettük. A reprezentativitást a t-próbák: a minták átlaga a százalékos pontszám tekintetében nem tért el szignifikánsan a populáció átlagától. Kár, hogy a sok munka, amit a reprezentatív minták felállításába öltünk részben veszendőbe ment.
4.4.
Összegzés és újragondolás
Összegzésül el lehet elmondani, hogy a rétegzett véletlen minta kivétele mind a két nyelvnél sikerült, de a német populációk kisebb mérete és a vizsgák igen egyenlőtlen, egymást kiegészítő területi eloszlása miatt németből csak egy egyszerűbb (regionálisan nem népességszám-arányos) 250 fős minták kiállítása sikerült. Így 2006. február elején már tudtuk, mely dolgozatok (vizsgázók) érdekelnek bennünket, de az érettségire vonatkozó reprezentatív mintában szereplő dolgozatokhoz hozzájutni nem sikerült. Előbb még megfogalmaztunk egy kísérőlevelet, amelyet a projekt képviselői magukkal vittek volna a regionális OKÉV-ekhez és a mintában szereplő iskolákba, hogy jelezzük, „legitim” kutatási projekten dolgozunk. Az OKÉV helyettes vezetője azonban nem írta alá a levelet, így az adatgyűjtést e nélkül kellett megkezdenünk. Az előnytelen indulás igen megnehezítette a helyzetet, amit jelzett az a néhány más elutasító levél is, melyet iskolaigazgatóktól kaptunk. Újabb hideg zuhany volt, hogy az elutasítás után röviddel az OKÉV helyettes igazgatója azzal a kéréssel fordult a projekthez, hogy tekintettel a közelgő márciusi vizsgaidőszakra, ne zavarjuk kéréseinkkel az OKÉV-eket és iskolákat. A nyelvvizsgák reprezentatív mintáihoz való dolgozatok rendelkezésre álltak vagy úgy, hogy az adatokat rendszerszerűen amúgy is számítógépre viszik (Euro, ECL), vagy pedig úgy, hogy a kérdéses dolgozatokat kikeresik és a projekt keretében gépre viszik (BME). Nem így az érettségiben. A projekt két tagja az adatgyűjtést előkészítendő próbaképpen látogatást tettek az egyik iskolában, hogy kipróbálják az adatgyűjtés mikéntjét. Korábbi munkakapcsolatok miatt (évek óta fennálló – eredményes szakmai és kiváló személyes kapcsolat okán) itt arra lehetett számítani, hogy az adatgyűjtés főpróbája simán megy majd. Itt a következőket tudtuk meg: 1. A megírt írásbeli feladatlapok/egyéni szóbeli osztályozó ívek, ill. a törzslapok a részvizsgák összesített pontszámával külön-külön kerülnek archiválásra. 2. A szóbeli összesítő értékelő lap, mely a szóbeli vizsgán elért részeredményeket is tartalmazza (feladatonként és értékelési szempontonként) az OKÉV-ben található, a teljes magyarországi, emeltszintű nyelvi érettségit tett tanulói körre. Ezeken kódszám már nincs feltüntetve, csak a név! 3. Teljes eredményadat (vizsgarészenként), elektronikusan csak véletlenszerűen van az iskolákban nyilvántartva. 4. Nehéz a minta szerinti iskolákban a kívánt adatokhoz hozzájutni, mivel az OKÉV-től a projektnek átadott lista se azonosító számokat, se neveket nem tartalmazott, csak az egyes vizsgázók korát, összeredményét pontszám és százalék szerint. Következésképpen, ha van is
25
elektronikus adatbázis szinte lehetetlen kiválasztani az egészből a minta szerinti egyedeket. Bár ez ebben a konkrét helyzetben nem okozott akkora gondot, egyrészt mert az iskola gépére lementették a legutolsó állapotot (2005 szeptember), mielőtt az OKÉV megszüntette a hozzáférést a központi adatbázishoz, másrészt az adott iskolában összesen 14 fő tett emeltszintű érettségit és ebből kellett a mintában szereplő 11-et kiválasztani. A helyzet lehangoló volt, mindez egy olyan iskolában tett látogatás alapján, ahol a feltételek ideálisak voltak. A baj nem ott volt, hogy nem lehetett tudni, hogy a mintába már bekerült vizsgázó dolgozatát kapjuk-e meg, mivel a mintába elvileg bekerülhettek más vizsgázók is feltéve, ha azonos a pontszáma, neme, a „nappali vagy végzett” státusa, stb. A probléma inkább ott volt, hogy az iskolában megtalált dolgozathoz tartozó szóbeli osztályozó ívet, ahonnan a szóbeli pontozását megtudni reméltük, a fentiek alapján nem tudtuk volna azonosítani az OKÉV-ben, így ugyanannak a vizsgázónak az írásbeli és szóbeli eredményeinek az összekapcsolása már nem lett volna lehetséges. Sokszoros csúszás miatt a projekt ki is késett az időből, mert 2005. novemberébendecemberében az iskoláknak már kellett részletes adatot szolgáltatni és a dolgozatok mehettek a raktárba. Érthető lett volna, ha a kollegák nem nagyon lelkesek, hogy még egyszer elő kelljen szedni a különböző helyekről a kívánt dolgozatokat. Az új érettségit láthatólag nem arra tervezték, hogy az validálható (átlátható, elszámoltatható) legyen. Az adatokat nem gyűjtik, az eredmények nem összekapcsolhatók. A dolgozatokon ott van egy tízjegyű kódszám helye, amit ha megtartanának, későbbi vizsgálatok során a dolgozat kellőképp anonim is lehetne, ehelyett azonban – legalábbis azokon a dolgozatokon, amelyeket végül sikerült összegyűjteni – a kódot vagy nem töltötték ki, vagy szükségesnél több karakterrel vannak kitöltve, benne nem numerikus karakterekkel is, melyek csak arra jók, hogy egyes szoftvereket megzavarjanak. Mindezek alapján az a döntés született, hogy az eredeti projekt terv utolsó szakaszát, amely vizsgateljesítményeken keresztül vizsgálta volna a KER B2-es szintjének teljesülését (a minimumkövetelmények teljesülését), az érettségi gyengeségei miatt nem tudjuk megvalósítani. A KER B2-es szintjének vizsgálata természetesen nem került ki a projektből, mert szakértői szinten, az itemek, feladatok szintbesorolásán keresztül vizsgálható maradt. Mivel a projekt befejezésének második határideje is vészesen közelgett, félre kellett tenni az érettségi reprezentatív mintáját is abban az értelemben, hogy nem volt biztos, hogy mindazok a dolgozatok, melyek a mintába bekerültek, tényleg be is szerezhetők a kijelölt intézményektől. Mindenesetre erre törekedtünk. Az érettségikből kb. 120 dolgozatot sikerült összegyűjteni. A validitást nem csak a pontértékek, vizsgázói introspekciók, kérdőívek, ítészkedések stb. alapozhatják meg, hanem mindaz a vizsgaközpontok működésére vonatkozó procedurális információ is, amire a validitásvizsgálat során fény derül. Ezek alapján az érettségi egyértelműen megbukott. Mi hasznosítható? • Döntéshozók, figyelem! Az érettségi nyelvvizsgaszerepét át kell gondolni. Hogy lehet az, hogy az emelt szintű érettségi inkább nyelvvizsgaként működik? • A validitást pusztán kinyilatkoztatásokra és jogszabályokra nem lehet alapozni. Ehhez előfeltételként meg kell teremteni az adatok elérhetőségét, összegyűjthetőségét. Itt kezdődik a vizsgák minőségbiztosítása.
26
5. További eredmények 5.1.
A válaszadatok empirikus elemzése
A projektterv módosítása nem tette lehetetlenné olyan empirikus válaszadatok elemzését, melyek megtalálhatók voltak az írásbeli dolgozatokban, de élére állította a kérdést, vajon mi értelme van az adatelemzésnek miután a reprezentatív minta nem teljesült minden vizsga tekintetében. Az érettségi csődjének milyen következménye van a projektben elképzelhető lehetséges következtetésekre? Vajon megválaszolhatók-e a kérdések? Ismert a mondás, hogy minden lánc csak olyan erős, mint annak leggyengébb láncszeme… Azon kívül, hogy a vizsga végeredménye nem vizsgálható a tekintetben, mennyiben teljesülnek a KER-szintek, az adatok ilyen vegyes bázisa is szolgálhat hasznos információval elsősorban a vizsgaanyag beválásával és egyéb technikai jellemzőivel kapcsolatban a jóságmutatók alapján (mivel az írásbeli vizsgaanyag teljessége szerepelhet a mérésekben), de a vizsgázói populációra vonatkozó következtetéseket már csak az akkreditált nyelvvizsgák esetében vonhattunk le. A nem reprezentatív érettségi adatok a tekintetben hasznosak, hogy lesz köztük jó és gyengébb tudású vizsgázó, lesz, aki a mérési modell szerint fog válaszolni és lesz, aki nem, stb. Minden vizsgaanyagot érintő kérdésre lehet majd felelet. Nem lehet viszont majd megnyugtatóan válaszolni arra, hogy melyik vizsgának vannak jobb tudású vizsgázói, melyik vizsga készteti a vizsgázókat (tökéletlenségei folytán) erősebb nem modellszerű viselkedésre és más, hasonló, elsősorban a vizsgázókra vonatkozó kérdésekre.
5.1.1.
Empirikus összevetés készségenként
Az összevetés készségenként (vizsgarészenként) történt meg, mert a készségeknek mint a nyelvtudás elemeinek együttes, vizsgánkénti elemzése egyben azok összezavarása lett volna és a mérési konzisztencia rovására ment volna. Így pl. „A” vizsga beszédértés része „B” és „C” vizsga beszédértés vizsgarészével került összevetésre. A vizsgarészenkénti összevetés arra a koncepcióra épült, hogy a három azonos vizsgarész szerepeltetése ugyanabban az elemzésben a körülményekhez képest a lehető legszélesebb, leghitelesebb mintáját adja a mérendőnek és nem valószínű a mérendő alulreprezentáltsága a messicki értelemben. Az ettől való eltérések vizsgálata megjelenítheti, melyik vizsga mely itemei térnek el, maradnak el a konstruktum „ideális” mérésétől.
5.1.2.
Az eljárás
Az összevetés először a lehető legkevesebb dimenzió alapján történt, majd ezt bővítve újabb dimenziókat aktiválva folyt. Erre példa lehet a feladatok dimenziója, melyet először mint osztatlan egészet elemeztünk és csak ezután következett a feladatok típusa formátumának aktiválása. (Pl. a feladat formátuma lehet az, hogy a feleletválasztós kérdésnek három vagy négy disztraktora van. Jelentősége, hogy bizonyított tény, hogy -- különösen pl. beszédértés vizsgánál, ahol a kérdés gyors áttekinthetősége fontos -- könnyítő tényező, ha a feladatban csak három válaszlehetőség van.)
27
1. A gyengén vagy nem illeszkedő vizsgázók kiszűrése. Ennek az értelme az, hogy a mérés egyéb dimenzióit, pl. a feladatokat akkor lehet biztosabban megítélni, ha a vizsgázók között már csak a mérési modellhez illeszkedők vannak, azaz pl. a „különc” vizsgázó már nem zavarhatja meg a feladat modellszerű „viselkedését”. Ekkor már nem lehet azt állítani, hogy a feladatok a nem a mérési modell szerint válaszolók miatt tűnnek rossz színben fel. Általában több körben volt lehetséges ennek elérése, miközben lehetőség nyílt az összes többi dimenzió illeszkedésének nyomon követésére is. Ez a több körös eljárás egy elemzés sorozatot jelent, melynek során újabb és újabb nem illeszkedő vizsgázókat (ha kell, itemeket is) azonosítani lehet és meg lehet mondani a számítógépnek, hogy ezeket hagyja figyelmen kívül. Az eljárás során lényegében „megkontstruáljuk” a mérendőt, fokozatosan kialakítunk egy vizsgázói csoportot (és feladatsorokat), amely modellszerűen válaszol modellszerűen mérő feladatokra. Az eljárás hatása is igen érdekes! Több éves tapasztalat azt mutatja, hogy a nem illeszkedő elemek kikapcsolásával nő a vizsgázók mért átlagteljesítménye és a jobbak jobban elválaszthatók a gyengébbektől (javul a szórás), ezzel együtt nő a vizsga megbízhatósága, elkülönítőképessége (Dávid 2001). Ennek az a magyarázata, hogy a tökéletlen itemeken a gyengék „totózással” gyakran meg nem érdemelt pontot szereznek, a jók pedig pontot vesztenek. Ennek ismeretében vizsgáltuk azt is, hogyan változnak meg a feladatsor egyes mutatói az eljárás végére. 2. Először a feladatok illeszkedésére és egyéb minőségi mutatóira koncentráltunk, majd ezt követte más jellemzők vizsgálata: a vizsgák egyes dimenzióinak mérése (feladatok, feladattípusok nehézsége). Ebben a szakaszban bontottuk szét a feladatokhoz köthető varianciát annak legalább két forrására. Egyrészt a feladatoknak nyelvi tartalma van, ami nem más, mint a mérendő -- erről szól a vizsgáztatás! Másrészt a feladatoknak típusa, azaz formátuma van, amely csak a mérés eszköze és a mérésben nem erre vagyunk kíváncsiak. A validitás megítélése szempontjából az alapelv az volt, hogy a feladat formátuma ne legyen nehezebb, mint a feladatok tartalma. A nehezebb formátum a vizsga validitását gyöngíti, az azonos nehézségű vagy könnyebb azt megerősíti. Az íráskészség vizsgáknál az eljárást módosítani kellett, mert szinte ugyanannyi formátumot találtunk, mint feladatot, mindez párhuzamosította volna az elemzést, amennyiben a két változót nem lehetett volna elválasztani egymástól.
5.1.3.
A beszédértés (hallott szöveg értése) vizsgarészek
A beszédértés esetében a nem illeszkedőknek elég nagy volt a száma, összesen kb. 20-22%, ami önmagában is magas érték. Fontos, hogy a rosszul illeszkedők nem egyformán oszlottak meg a 6 vizsga között. Míg az Euroé (18%) nagyjából megfelelt a nem illeszkedők arányának az összes vizsgázó között, már az elemzések során „látványos volt”, ahogy a szoftver körről-körre kevesebb nem illeszkedő vizsgázót talált a BME vizsgánál (csak 4%), míg kifejezetten sokat mindkét ECL vizsgáknál (német és angol, 29-31%). Az érettségi a nem reprezentatív minta miatt nem igazán megítélhető, viszont figyelemfelkeltő, hogy míg angolból a tűrhető 9% körüli volt a nem illeszkedők száma, addig németből 33%! A nem illeszkedő vizsgázók nem jelzik közvetlenül a vizsga minőségét, mert lehet jó feladatsorra nem modellszerű válaszokat adni, azonban a kérdést mégis fel kell tenni, mi lehet a nagymértékű nem illeszkedés magyarázata? A vizsgálat kvalitatív részéből figyelmet érdemel, hogy az egyik ítész jelezte az angol ECL hanganyagban fordított sorrendben követik egymást a feladatok, mint a feladatlapon. A másik ítész kérdésre ellenőrizte a magáét, de ott mindent rendben talált. A vizsgázói kérdőívek megerősítik, hogy a vizsgahelyek egy részén a hanganyag sorrendje nem volt megfelelő: 28
[Az ECL tekintetében] Az egyetlen, ami elgondolkoztató, és domináns, a két magnós rész felcserélése volt, kb. 35-40%ban azoknál, akik zavaró tényezőt írtak; angol 196, német 129 vizsgázóból csak 14, illetve 44 írta, hogy nem volt zavaró tényező. Elgondolkodtató, hogy vajon a csere befolyásolta aztán őket, az a stresszhelyzet, ami ezután kialakulhatott; hogy a szöveg minőségét, annak „értelmezését”, vagy a feladatot, vagy mindkettőt egyformán befolyásolta, nem tudható pontosan, de összesen 57 vizsgázó tehát 30% minderre panaszkodott, németből ez csak 14 fő, csak 11% (Zákány 2006).
Mindez magyarázat lehet az angol ECL-nél azonosított nagy számú illeszkedési problémára, de nem ad magyarázatot a probléma hasonló mértékére németből. A vizsgázói kérdőívekből készített összefoglaló arról tanúskodik, hogy még a sok elégedett megjegyzést „begyűjtő” Euronál is panasz volt a beszédértésre. Voltak zavaró tényezők, „gyors, rossz, érthetetlen szöveg”, „kevés idő”, stb. voltak a jellemző kifogások. Összességében mindez arra utal, hogy a beszédkészség mérése nagyon nehéz, a készség általában nehéz a vizsgázóknak, függetlenül attól, hogy milyen a vizsgaanyag, hanganyag színvonala és attól, melyik vizsgáról van szó, mert még a BME vizsgán is, mely pedig büszke lehet arra, milyen kevés vizsgázó volt nem illeszkedő, panaszolták, rövid idő volt a feladatokra, nehéz volt a szöveg, kihangosítás rossz stb. Mindezt magyarázza az a kettős feldolgozási feladat, amellyel a vizsgázó szembesül. Követnie kell egyrészt a hanganyagot – nem a saját tempója szerint dolgozik – másrészt követnie kell a nyomtatott feladatokat. Nem utolsó sorban meg kell említeni, a beszédértés készségét sok helyütt nem is tanítják jól. A kétségtelenül lehetséges problémákat a szoftver is csak mintegy „sűrű ködön keresztül” érzékeli, ez magyarázhatja a sok nem-illeszkedést. Mint Zákány (2006) írja pl. az ECL-ről: … általában eredményrontó vagy eredményjavító tényezőkre, melyek valamennyire is domináltak volna, nem találtam, általában 80-85 % úgy nyilatkozott, hogy [ilyen] nem volt, a 15 % megjegyzés vagy annyira egyéninek tűnik, s annyira különböző meglátásokat takar, hogy abból sem lehet semerre elindulni.
5.1.3.1.
A beszédértés vizsgaanyag és itemek
A fentiek fényében különösen érdekes, hogy a legtöbb nem illeszkedő vizsgázót hordozó ECL angol a legjobb az itemek tekintetében, mert nincs egy problematikus illeszkedési értéke sem (2. táblázat). Az Eurot lehet a második helyre tenni, mert a négy illeszkedési probléma valójában csak egy rossz item, amely minden mutató szerint rossz. A harmadik helyre az érettségi tehető, mert 5 problematikus iteme volt! Angol Infit mnsq Standardizált infit Oufit mnsq Standardizált outfit Érintett itemek:
Angol érettségi 5 1 5
Euro 1 1 1 1 1
ECL
0
2. táblázat: Nem illeszkedő angol beszédértés itemek
A német vizsgákban összességében kevesebb problematikus item volt (3. táblázat). Ismét az ECL a legjobb, majd a BME melynek egy problematikus iteme van, de az több szempontból is az. Tűrhető pszichometriai „zaj” mellett, az illeszkedés hihetősége nagyon rossz. Végül a harmadik helyre ismét az érettségi kerül, mert a problémák két itemre terjednek ki.
29
Német Infit mnsq Standardizált infit Oufit mnsq Standardizált outfit Érintett itemek:
Német érettségi 2
BME
ECL
1 1 2
1 1
0
3. táblázat: Nem illeszkedő német beszédértés itemek
A minőségtől lépjünk a szintezés felé. Angol nyelvből az Euros vizsgázók beszédértés képessége jelentős mértékben maga mögött hagyja az ECL vizsgázókét, 0.97 logit szemben a 0.38 logittal. A rózsadombi gyerekek? Az érettségizők átlageredménye 0.51, de éppen mert a minta nem reprezentatív, ezzel semmit sem tudunk kezdeni. Ehhez képest magukat a teszteket (az itemek átlag nehézségét) a következőkép minősíthetjük. Euro: -0.19, ECL 0.1 érettségi 0.09 logit, ami nem jelentős különbség. A különbséget akkor érzékeljük jobban, ha a feladatok formátumához köthető varianciát kikülönítjük a feladatokból és így külön értékelhetővé válik a nyelvi tartalomtól. A feladatformátum dimenziója egyes elemeinek nehézségi sorrendje teljesen hihető: a mérés azt a sorrendet „hozta”, amely a tanári tapasztalatok alapján is felállítanánk, pl. az érettségi cloze listening típusa közismerten is igen nehéz. (Lásd a 4. táblázat satírozott részét, ahol az „Er” az érettségit, az „Eur” pedig az Eurot jelöli. A „multmatch” a még nem magyarított multiple matching feladattípus jelölése.). Jelentős különbség van a formátumok nehézsége között! Az egyes vizsgákra kiszámolt átlagokat tekintve az ECL vizsga feladatainak formátuma a legnehezebb. Sőt, összevetve tartalommal, jóval nehezebb, mint maga a feladatok nyelvi tartalma -elsősorban a mondatkiegészítés miatt. Az érettségi feladatainak formátuma könnyebb, mint az ECL-é és a feladatok tartalmával azonos nehézségűnek vehető, a különbség a statisztikai hibahatáron belül van. A legkönnyebb formátuma az Euro feladatainak van, jóval könnyebb, mint a feladatok tartalma. A korábban leírt validitás-koncepció az Eurót teszi az első helyre, majd az érettségit, végül az ECL-t. -------------------------------------------------------------------------------------------------------| | Obsvd Obsvd Obsvd Fair-M| Model | Infit Outfit | | | N Item type | Score Count Average Avrage|Measure S.E. |MnSq ZStd MnSq ZStd | PtBis | -------------------------------------------------------------------------------------------------------| 8 Er Cloze listening | 578 1225 0.5 0.54| .49 .08 | 1.0 0 0.9 -1 | .41 | | 5 ECL Mondatkiegészítés | 1139 2563 0.4 0.55| .48 .05 | 0.9 -2 0.9 -2 | .34 | | 2 Eur Mondatkiegészítés | 1101 2205 0.5 0.56| .43 .05 | 1.0 0 1.0 0 | .35 | | 6 Er Mondatkiegészítés | 423 787 0.5 0.59| .29 .10 | 1.0 0 0.9 0 | .43 | | 4 ECL 3 disztaktoros feleletválasztós | 1435 2306 0.6 0.66| .00 .05 | 1.1 2 1.0 0 | .34 | | 7 Er 3 disztaktoros feleletválasztós | 443 607 0.7 0.79| -.65 .13 | 1.1 1 0.9 0 | .37 | | 3 Eur 4 disztaktoros feleletválasztós | 1827 2450 0.7 0.79| -.67 .05 | 1.1 2 1.0 0 | .26 | | 1 Eur Multmatch | 1028 1225 0.8 0.88| -1.37 .09 | 0.9 -1 0.7 -2 | .25 | -------------------------------------------------------------------------------------------------------| Mean (Count: 8) | 996.8 1671.0 0.6 0.67| -.13 .07 | 1.0 0.2 0.9 -1.0| .34 | | S.D. | 464.2 741.7 0.1 0.12| .65 .03 | 0.1 1.9 0.1 1.0| .06 | -------------------------------------------------------------------------------------------------------RMSE (Model) .08 Adj S.D. .64 Separation 8.13 Reliability .99 Fixed (all same) chi-square: 627.2 d.f.: 7 significance: .00 Random (normal) chi-square: 7.0 d.f.: 6 significance: .32 --------------------------------------------------------------------------------------------------------
4. táblázat: Az angol beszédértés feladatok formátumainak nehézsége
A német beszédértés feladatok formátumainak nehézségét az 5. táblázat szemlélteti, amely sorrend egyszerre tűnik formátum-specifikusnak ( A nyílt kérdés és mondatkiegészítés relatív nehézsége) és vizsgaspecifikusnak (ECL és BME formátumok nehézsége). A formátum és tartalom összevetése
30
alapján az érettségit lehet legelőbbre helyezni, majd ezt követi az ECL, ahol a formátum és tartalom különbsége hibahatáron belül van, majd legvégül a BME, ahol a formátum nehezebb, mint a tartalom. ------------------------------------------------------------------------------------------------------| | Obsvd Obsvd Obsvd Fair-M| Model | Infit Outfit | | | Nu Item type | Score Count Average Avrage|Measure S.E. |MnSq ZStd MnSq ZStd | PtBis | ------------------------------------------------------------------------------------------------------| 28 ECLN Nyilt kerdes | 586 1584 0.4 0.41| .65 .06 | 1.0 0 1.0 0 | .27 | | 29 BME Mondatkiegeszites | 896 1185 0.8 0.88| .48 .04 | 0.8 -6 0.7 -6 | .34 | | 30 BME R/F | 1218 2370 0.5 0.53| .15 .05 | 1.1 5 1.1 4 | .16 | | 32 ErN Nyilt kerdes | 404 671 0.6 0.55| .07 .11 | 1.0 0 0.9 0 | .41 | | 27 ECLN R/F/NE | 990 1760 0.6 0.57| -.02 .06 | 1.0 0 1.0 0 | .29 | | 31 ErN Mondatkiegeszites | 226 244 0.9 0.95| -2.56 .30 | 1.1 0 0.4 0 | .40 | ------------------------------------------------------------------------------------------------------| Mean (Count: 6) | 720.0 1302.3 0.6 0.65| -.21 .10 | 1.0 -0.0 0.9 -0.6| .31 | | S.D. | 344.9 702.5 0.2 0.19| 1.08 .09 | 0.1 3.6 0.2 3.3| .08 | ------------------------------------------------------------------------------------------------------RMSE (Model) .14 Adj S.D. 1.07 Separation 7.78 Reliability .98 Fixed (all same) chi-square: 186.8 d.f.: 5 significance: .00 Random (normal) chi-square: 4.8 d.f.: 4 significance: .31 -------------------------------------------------------------------------------------------------------
5. táblázat: A német beszédértés feladatok formátumainak néhézsége
Mi hasznosítható? • Tanárok, figyelem! Azt a feladatformátumot, amely egy cloze teszt és a megoldásokat a hallott szövegverzió alapján kell beírni (cloze listening), ne használjuk, mert valószínűleg a feldolgozási folyamatok nehézzé teszik. • A nehezebb formátumokat inkább használjuk felsőfokon. Sehol sincs leírva a módszertani irodalomban, hogy a különböző szinteken azonos feladatformátumokat kell használni!
5.1.4.
Az írott szöveg értése vizsgarészek
A nem illeszkedő vizsgázók aránya angolból 24%, magas, ami meglepő, tekintettel arra, hogy ez a készség nem annyira összetett a feldolgozás szempontjából, mint a beszédértés. Németből még ennél is magasabb, 32%! Az összes vizsgázóra vonatkozó adatokon belül az Euro kifejezetten jónak tűnik, „csak” 16%, míg az ECL angol és német megfelel az összadatokban megjelenő aránynak (24, ill. 23 %). Az angol érettségi válaszadóinak 43%-a nem illeszkedett, míg a német egyenesen jó a maga 5%-ával. (Ismét hozzátesszük, az érettségi adatok a vizsgázói minta nem reprezentatív volta miatt csak tájékoztatóak.) A BME igazi meglepetést tartogatott, mert vizsgázóik 54%-a nem illeszkedett! Már az elemzések során feltűnt, hogy a súlyozott illeszkedési mutató nagyon rossz. Mindez nem esetleges, ritka és kirívó válaszokat, hanem nagyon is ismétlődő, jellemző, rögzült nem modellszerű válaszadási szokásokat jelent. A nem illeszkedő vizsgázók kikapcsolásától várható áltag-növekedés sem következett itt be. Mi lehetett az oka? Feltűnő, hogy a korábban ismertetett beszédértés esetében milyen alacsony volt, az írott szöveg esetében pedig milyen magas a nem-illeszkedés. A BME egyes itemeire az értékelő 0-0.5-1 pontokat adhat. Ez jó megoldásnak tűnik, mert növelheti a megbízhatóságot. Azonban itt mást látunk. Az 2. ábra 0-1 és 2 pontokkal szerepeltettük ugyanazokat a feladatokat, mert a szoftver csak egész számokat fogad. Látható, hogy a középső kategória nem népszerű, nincs a képességskálának (a vízszintes tengely, balra az alacsony tudásszint, jobbra a magas) egy olyan pontja sem, ahol a középső pontérték a legvalószínűbb lenne (függőleges tengely, lent a 0 valószínűség, a tetején a maximum valószínűség). Az, hogy nem használják ki a skálatípusú pontozásban rejlő lehetőségeket, azt jelenti, hogy elvész a megbízhatóság emelésének a lehetősége. 31
Valószínűségi görbe -2.0 -1.0 0.0 1.0 2.0 ++----------------+----------------+----------------+----------------++ 1 | | |000000 222222| | 000000 222222 | | 00000 22222 | | 000 222 | P | 000 222 | r | 00 22 | o | 00 22 | b | 00 22 | a | 00 22 | b | 00 22 | i | 0*2 | l | 22 00 | i | 22 00 | t | 22 00 | y | 222 000 | | 222 000 | | 222 000 | | 22***1111111111111111111111111111111***00 | |1111**********11 11**********1111| 0 |2222 0000| ++----------------+----------------+----------------+----------------++ -2.0 -1.0 0.0 1.0 2.0
2. ábra: A BME skála típusú itemeinek jellegörbéje
5.1.4.1.
Az írott szöveg értése vizsgaanyag és az itemek
Angol nyelvből az Euro látszik a leginkább problémamentes, mert nem volt rosszul illeszkedő jellemző, míg az érettségiben és az ECL-nél 3-3 gyenge érték volt – az ECL-nél csupán egyetlen item miatt (6. táblázat). Németből az érettségi a legjobb, mert egyáltalán nem látszott problematikus item, míg az ECL-nél egy rossz, a BME-nél egy nagyon rossz item volt (7. táblázat). Angol Infit mnsq Standardizált infit Oufit mnsq Standardizált outfit Érintett item:
Angol érettségi 2
Euro
ECL 1 1
1 3
0
1 3
6. táblázat: Nem illeszkedő angol írott szöveg értése itemek
Német Infit mnsq Standardizált infit Oufit mnsq Standardizált outfit Érintett item:
Német érettségi
0
BME 1 1 1 1 4
ECL 1 1 2
7. táblázat: Nem illeszkedő német írott szöveg értése itemek
A feladatsorok nehézségének egyszerű összevetése nem vezet messzire, ha nem tudjuk valamelyikről biztosan, hogy megüti a B2-es szintet, mert önmagában az, hogy mi a nehezebb, mi könnyebb lehet jó és rossz egyaránt. Hanem amikor a szoftver segítségével szétbontottuk a feladatsorhoz tartozó varianciát, a következőt találtuk: Először is, mindenképp pozitívum, hogy nincs nem illeszkedő formátum, egyik sem dolgozik tehát a diák ellen. Továbbá, ismét, az angol ECL feladatformátumai (4 disztraktoros feleletválasztós és nyílt végű kérdés) voltak átlagosan a
32
legnehezebbek, majd az Euroé következtek, végül a legkönnyebbek az érettségiben voltak megtalálhatók. A feladatsorok formátuma mind az Euro és az ECL estében nehezebb volt, mint azok tartalma, az érettségi esetében viszont könnyebb volt. (Lásd a 8. táblázatot) A formátum és tartalom kapcsolata alapján legelőre az érettségit lehet sorolni, majd az Eurot, majd pedig az ECL-t. -----------------------------------------------------------------------------------------------------------------------| | Obsvd Obsvd Obsvd Fair-M| Model | Infit Outfit | | | Nu Item type | Score Count Average Avrage|Measure S.E. |MnSq ZStd MnSq ZStd | PtBis | -----------------------------------------------------------------------------------------------------------------------| 10 Eur Multmatch(headings to paragraphs) | 572 1482 0.4 0.41| 1.51 .06 | 1.0 0 1.0 0 | .16 | | 13 ECL 4 disztaktoros feleletválasztós | 1378 2554 0.5 0.55| .91 .05 | 1.0 0 1.0 0 | .34 | | 14 ECL Nyilt kérdés | 1796 2838 0.6 0.64| .56 .05 | 1.0 0 0.9 -1 | .35 | | 12 Eu 4 disztraktoros feleletválasztós | 8 12 0.7 0.65| .50 .73 | 1.2 0 1.0 0 | .24 | | 15 Er Mondatkiegészítés | 194 285 0.7 0.68| .35 .16 | 1.0 0 0.8 0 | .35 | | 9 Eu Multmatch(comments to texts) | 1797 2458 0.7 0.75| .01 .05 | 1.0 1 1.0 0 | .27 | | 17 Er T/F/NS | 247 333 0.7 0.77| -.11 .15 | 1.1 1 1.0 0 | .41 | | 11 Eu Multmatch(gist statements to texts) | 1651 1976 0.8 0.87| -.73 .06 | 1.0 0 0.9 -1 | .16 | | 16 Er Multmatch | 215 237 0.9 0.91| -1.20 .24 | 1.1 0 0.7 0 | .16 | | 18 Er Multmatch | 353 380 0.9 0.94| -1.55 .21 | 0.9 0 0.5 -1 | .21 | -----------------------------------------------------------------------------------------------------------------------| Mean (Count: 10) | 821.1 1255.4 0.7 0.72| .02 .18 | 1.0 0.2 0.9 -0.6| .27 | | S.D. | 702.4 1065.2 0.2 0.16| .90 .20 | 0.1 0.7 0.2 0.7| .09 | -----------------------------------------------------------------------------------------------------------------------RMSE (Model) .26 Adj S.D. .86 Separation 3.28 Reliability .91 Fixed (all same) chi-square: 958.2 d.f.: 9 significance: .00 Random (normal) chi-square: 9.3 d.f.: 8 significance: .31 ------------------------------------------------------------------------------------------------------------------------
8. táblázat: Az írott szöveg értése feladatsorok formátumainak nehézsége
Ezek alapján az érettségi feladatsor tűnhet a legkielégítőbbnek, ha nem épp annak a 4. feladatnak a formátuma lenne az összes formátum között messze a legkönnyebb, amelyiket a szöveg elolvadása nélkül is meglehetett tökéletesen oldani. Ezek mind a könnyű itemek közé sorolhatók. Az is látszik, az írott szöveg értése feladatsor nem volt igazi kihívás az érettségizők számára, mert a minta 14%-a megszerezte a megszerezhető pontmaximumot. A feladatsor tehát nem mérte meg tudásukat, mert a maximum felett lehetett az akármilyen magas is. Csak olyan feladattípus javasolható tehát, minden receptív készség méréséhez, amelynél a megoldást csakis a szöveg elolvasása, meghallgatása adhatja meg. Mindezt figyelembe véve a szakember leginkább az Euro feladatsorára voksolhat. Az ítészi szakaszban feltárt sorrendezési feladat (német érettségi, 7-15. item) lehetséges gyenge megbízhatóságát az elemzések nem igazolták, azonban azt igen, hogy ezeknek az itemeknek egyfajta „túlilleszkedése” valóban arra utal, hogy nem teljesül az itemek egymástól való „függetlensége”. Magyarázat ez arra is, hogy ezek az itemek a mérésekben könnyűnek bizonyultak, sőt amikor a formátumot elválasztottuk az itemek tartalmától, kiderült, hogy ez a sorrendezési feladattípus mind (7) közül a legkönnyebb (9. táblázat). A feladatsorok, valamint a tartalom és formátum összevetése az angolra nagyon hasonlító eredményeket hozott. A német érettségi feltűnően könnyű –0.27, míg az ECL és a BME azonos mértékben (0.20, ill. 0.21), szignifikánsan nehezebb feladatsor. A formátumok az érettséginél a legkönnyebbek, könnyebb, mint a tartalom, az ECL-nél és a BME-nél pedig nehezebb, mint a tartalom. Az érettségi sorrendezési feladatának problémái miatt az ECL feladatsora tekinthető a legmegfelelőbbnek.
33
---------------------------------------------------------------------------------------------------------------------| | Obsvd Obsvd Obsvd Fair-M| Model | Infit Outfit | | | Nu Item type | Score Count Average Avrage|Measure S.E. |MnSq ZStd MnSq ZStd | PtBis | ---------------------------------------------------------------------------------------------------------------------| 36 BME Nyilt kerdes | 933 1130 0.8 0.97| .95 .05 | 0.9 -2 0.6 -1 | .47 | | 35 BME Multiple match (heading to text) | 354 560 0.6 0.67| .21 .11 | 1.2 3 1.3 1 | .27 | | 34 ECLN Multiple matching/cloze | 1504 2375 0.6 0.68| .19 .05 | 0.9 -7 0.8 -6 | .33 | | 33 ECLN R/F/NE | 1285 1900 0.7 0.72| -.03 .06 | 1.2 6 1.3 6 | .21 | | 37 ErN Multiple match (heading to text) | 324 444 0.7 0.77| -.30 .13 | 1.1 1 1.2 1 | .34 | | 39 ErN Cloze | 582 738 0.8 0.80| -.47 .11 | 1.1 0 0.8 0 | .35 | | 40 ErN Sorrendezés | 536 666 0.8 0.83| -.64 .12 | 0.9 -1 0.6 -1 | .38 | ---------------------------------------------------------------------------------------------------------------------| Mean (Count: 7) | 788.3 1116.1 0.7 0.78| -.01 .09 | 1.0 0.1 0.9 -0.3| .34 | | S.D. | 429.3 687.2 0.1 0.10| .49 .03 | 0.1 4.2 0.3 3.7| .08 | ---------------------------------------------------------------------------------------------------------------------RMSE (Model) .10 Adj S.D. .49 Separation 5.06 Reliability .96 Fixed (all same) chi-square: 329.4 d.f.: 6 significance: .00 Random (normal) chi-square: 6.0 d.f.: 5 significance: .30 ----------------------------------------------------------------------------------------------------------------------
9. táblázat: A német írott szöveg értése feladatsorok formátumainak nehézsége
Mi hasznosítható? • Tanárok, elsősorban az angolosok, figyelem! Merjünk bátran skála típusú itemeket használni tesztjeinkben. Semmi sem tiltja, hogy a diszkrétpontos (pl. feleletválasztós) feladatokat egy skála szerint pontozzuk (0-1-2), csak tisztázzuk gondosan, milyen pontértéket milyen teljesítményre adunk. • A mondatkiegészítés nehézsége valószínűleg a kiegészítés hosszától, a kapcsolódó produkciós feladatoktól, a létrehozás nehézségeitől függ. A nyílt kérdés, a teljes mondat beírása a legnehezebb. • Az un. multiple matching feladattípus (formátum) nehézsége széles sávban mozog, ami valószínűleg függ az opciók számától. Többek között ez előnye is lehet, így bátran alkalmazható egy vizsgarendszer több szintjén is.
5.1.5.
Az íráskészség vizsgarészek
Az íráskészség értékelése azért különösen fontos, mert a módosított projektterv szerint ez volt az egyetlen produktív vizsgarész, melyet elemzünk. A produktivitásból az következik, hogy nem múlik szinte minden a feladatok minőségén, mint a beszédértés és írott szöveg értése feladatoknál. A vizsgázó nincs mintegy „sarokba szorítva” a tekintetben, hogy csak elfogadja a felkínált válaszvariációkat vagy nem – mert egyebet nem tehet. Abból, hogy a produktív feladatok kevesebb korláttal engedik megmutatkozni a vizsgázó tudását, elméletileg a nem illeszkedő vizsgázók alacsonyabb száma is következne. Ennek megfelelően, angolból a vizsgázóknak összesen kb. 10%-át kellett kikapcsolni -- ez még elmegy -- viszont németből a vizsgázók majd 19%-át, ami – figyelemmel a fentiekre – igen magas szám. Angolból az Euronál jelentkezett a legtöbb nem illeszkedő (16%), míg az ECL átlagosnak tekinthető (8%), az érettségi pedig egyenesen jó (3%, ennek valószínű okáról lejjebb.). Németből a BME és az ECL nagyjából egyenlő arányban jelzett nem-illeszkedést (20-21%). Itt is feltűnő, hogy az érettségizők közül alig néhány volt nem illeszkedő. A reprezentatív minta miatt angolból érdemes lenne megvizsgálni, szignifikáns-e az ECL-es és Eurós nem illeszkedők száma közötti különbség, de ez túlmutat a projekt keretein. Németből a szám közel azonos, így az ok nem lehet vizsgaspecifikus. Itt az a kérdés merül fel, van-e valami magyarázata annak, hogy a dichotom vizsgarészekhez képest, a szoftver miért érte el nehezen és
34
lassan a konvergenciát, azaz a megfigyelt valóság és a modellszerűség között miért volt nehéz az összhangot biztosítani. 5.1.5.1.
Az értékelési skálák alkalmazása
Az elemzések során feltűnt, hogy általában problematikus, ahogyan a vizsgáztatók az értékelési skálákat alkalmazzák, ami egyrészt magyarázatot ad arra, miért volt olyan kevés nem illeszkedő érettségiző, másrészt miért lehetett oly sok nem illeszkedő más vizsgákon. A vizsgázatók a skálákat akkor használják megfelelően, ha minden skálapontot használnak, nagyjából azonos gyakorisággal. Ezt valószínűsíti az, hogy sokféle tudású vizsgázó jelenik meg a vizsgákon. Elsősorban az érettségis vizsgáztatók, de részben az ECL is, inkább a szélsőséges skálapontokat (kategóriákat) használták (0, 1, 2, 3 pontos skálán a szinte csak a 0 és 3 használata). Nem kívánatos jelenségről van szó, mert vagy azt jelzi, hogy a középső skálapontok (deskriptorai) megfogalmazása alkalmatlan, vagy hogy jók, de nincs szükség rájuk (mert nem jellemző a vizsgázókra) vagy az értékelők valamiért nem akarják őket használni. A tendencia az érettségi, de különösen a német érettségi esetében egészen markánsan, mindegyik skálánál jelentkezett, amelynek véleményünk szerint a szembeszökően kevés nem illeszkedő lehet az eredménye az érettségizők között. Bizonyos fokú „túlilleszkedésről” van szó, melyet a mérési modell, kiindulva az emberi természetből, nem tart természetesnek. Az érettségiben a hatfokozatú szövegalkotás középső kategóriáit jelentő számok összezavarodottságát (a hullámok hiányát) jól mutatja a 3. ábra felső görbéje. A középső kategóriák a képességskála egy pontján sem a legvalószínűbbek. Az alsó görbét pedig segít megérteni, hogy ha elképzeljük, felfelé (a mínusz értékektől a plusz értékek felé) mozgunk a képességskálán. Előbb a 0 pontérték a jellemző, majd hirtelen váltással a legmagasabb kategóriára vált. Olyan ez a skálahasználat, mint egy túldiszkrimináló dichotom item jelleggörbéje. A legfőbb baj, hogy ellene mond a skálák eredeti céljának, amiért azokat elkezdték használni: a nyelvi teljesítményt sokféle szinten lehet létrehozni, és a minőségi árnyalatokat csak skálákkal lehet tükrözni. -15.0 -10.0 -5.0 0.0 5.0 10.0 15.0 ++----------+----------+----------+----------+----------+----------++ 1 |000000000000000000000000000000 55555555555555555555555| | 0 55 | | 55 | | | | 5 | P | 0 5 | r | | o | 5 | b | | a | | b | 5 | i | 44 | l | 03 4 | i | 34 5 | t | 3 4 | y | 4 | | 4 53 | | 3 4 | | * 3 44 | | 345 33 44 | 0 |*******************************************************************| ++----------+----------+----------+----------+----------+----------++ -15.0 -10.0 -5.0 0.0 5.0 10.0 15.0
35
Expected Score Ogive -15.0 -10.0 -5.0 0.0 5.0 10.0 15.0 ++----------+----------+----------+----------+----------+----------++ 5 | 555555555555555555555555555| | 55 | | 45 | | 4 | 4 | | | 4 | | | | 3 | 3 | | | | | | | | 2 | 2 | | | | | | | 1 | | | 1 | | | | 0 | 0 |000000000000000000000000000000 | ++----------+----------+----------+----------+----------+----------++ -15.0 -10.0 -5.0 0.0 5.0 10.0 15.0
3. ábra: Az érettségi íráskészség szövegalkotás skálájának szélsőségekbe hajló használata
A problematikus skálahasználat enyhébb fajtája az Euronál látható (4. ábra). A „Task achievement” skála alsóbb szintjeit alig használják, ahol már kis képességváltozáshoz rögtön pontszámváltozás is tartozik, míg a skála felsőbb régióiban enyhébb a görbe emelkedése. Feltehetőleg arról van szó, hogy a 11 „lépcső” túl sok és nem lehetett az alsó szinteket megtölteni megfelelő skálatartalommal, vagy csak nagyon kevés vizsgázóra jellemző az alsó néhány deskriptor. Vizsgaszerkezeti kérdés, hogy van-e szükség 11 fokú skálára, mikor egy 6 fokozatú éppúgy megfelelhet, azzal hogy az arra adott pontértéket kétszeresen súlyozzák. Valószínűségi görbe -12.0 -8.0 -4.0 0.0 4.0 8.0 12.0 ++----------+----------+----------+----------+----------+----------++ 1 |00000000000000000 | | 0 | | 0 0| | 00 | | 0 | P | 7 0 | r | 7 77 888 0 | o | 666 7 7 8 8 | b | 0 6 6 7 8 8 99 0 | a | 555 6 7 9 9 | b | 5 67 8 89 90 | i | * 76 7 8 9 | l | 5 8 7 9 0 | i | 035 6 7 6 9 8 9 | t | 3 3 5 8 7 0 9 | y | 6 7 6 8 9 80 9 | | 3 *4*6 57 6 8 7 9 | | 0 4 5 * * 08 9 | | 32*2 634 77 5 8 6 9 7 0 8 99| | *2* 6* 34*7 55 88 666 99 77*0 88 | 0 |*******************************************************************| ++----------+----------+----------+----------+----------+----------++ -12.0 -8.0 -4.0 0.0 4.0 8.0 12.0
36
Expected Score Ogive -12.0 -8.0 -4.0 0.0 4.0 8.0 12.0 ++----------+----------+----------+----------+----------+----------++ 0 | 0000| | 9900 | 9 | 9999 | | 889 | 8 | 88888 | | 7788 | 7 | 77777 | | 6677 | 6 | 6666 | | 556 | 5 | 55 | | 4 | 4 | 4 | | | 3 | 3 | | | 2 | 2 | | | 1 | 1 | | 0 | 0 |0000000000000000000 | ++----------+----------+----------+----------+----------+----------++ -12.0 -8.0 -4.0 0.0 4.0 8.0 12.0
4. ábra: Az Euro 11 fokozatú skálájának jelleggörbéi Probability Curves -15.0 -10.0 -5.0 0.0 5.0 10.0 15.0 ++----------+----------+----------+----------+----------+----------++ 1 | | |000 4 555| | 0 11111 22 44 44 5 | | 0 1 1 2 2 3 4 4 5 | | 0 1 1 2 2 33 3 4 4 5 | P | 1 2 2 3 3 4 | r | 0 1 2 3 4 5 | o | 1 2 3 4 | b | 0 1 3 4 5 | a | 23 4 | b | * 2 * | i | 1 2 3 | l | 1 2 3 4 5 4 | i | 0 1 2 3 | t | 1 2 3 4 5 4 | y | 0 1 3 2 3 | | 1 0 2 1 4 3 5 4 | | 1 0 2 3 2 4 5 4 | | 1 0 2 11 3 24 33 5 4 | |111 **2 33*1 44222 3*5 444| 0 |*******************************************************************| ++----------+----------+----------+----------+----------+----------++ -15.0 -10.0 -5.0 0.0 5.0 10.0 15.0
5. ábra: A BME-s értékelők skálahasználata
A skálahasználat tekintetében a BME a legjobb (és az egyetlen igazán jó: 5. ábra). A kategóriák hullámgörbéi szépen követik egymást, tehát itt rend van, a vizsgáztatók tudják használni a skáláikat, még akkor is, ha a BME – furcsa mód – számszerűsíteni igyekszik skáláiban a nyelvi megfigyelés tárgyát. 5.1.5.2.
Az értékelők
A skálahasználat vizsgálata elvezetett vizsgaszerkezeti és módszertani kérdésekhez is. Az értékelési terv az eszköz, amely biztosíthatja a vizsgázók tudásának összevethetőségét azzal a céllal, hogy optimalizálva az értékelők és vizsgázók számát megbízhatóvá és elszámoltathatóvá tegye az értékelést.
37
Feltűnő az érettségis vizsgáztatók nagy száma a minta méretéhez képest. Angolból átlagban egy értékelő 2.7 dolgozatot értékelt, ami igen alacsony szám. E mellett igen egyenlőtlen az elosztásuk, mert a mintában az 1-től 39-ig terjed az egy értékelő által pontozott vizsgázók száma és nem látszik, volt-e vizsgaközpontnak értékelési terve. A benyomás az, hogy a dolgozatot az értékelte, aki épp ott volt és annyit értékelt, amennyit tudott. Megerősíti e képet, hogy németből az átlag hasonló (3.44). Természetesen a reprezentativitás hiánya itt is óvatosságra int a következtetések terén, de azért az nem valószínű, hogy e „mintát” külön a projekt kedvéért válogatták volna, hogy legyen minél „vegyesebb”. Nem lenne szabad arányaiban ilyen nagy számú értékelőt alkalmazni és mindenképpen kiemelten fontos lenne képzésük, a képzés eredményeinek értékelése és az értékelési tervek alkalmazása. Az arányok tekintetben az ECL a legjobb, ahol mind két nyelvben a 300 dolgozatot ugyanaz a két értékelő értékelte. E mögött valószínűleg az a törekvés áll, hogy megoldják a sok értékelő bevonásával dolgozó vizsgaközpontok mindenkori problémáját: a megbízható értékelés biztosítását. Hátránya ennek a megközelítésnek, hogy ha az ECL eredményeket a központ önmagukban, más vizsgák adatai nélkül szoftverrel elemzi, esélye sincs annak, hogy bármit megtud a két vizsgáztató munkájának minőségétől, a vonatkozó variancia ugyanis nem különíthető el. Ebben a projektben legalább azt megtudtuk, mivel három írásvizsgát vetettünk össze, hogy más központok vizsgáztatóihoz képest a két értékelő együtt mennyire vált be, arra azonban semmi lehetőség nem volt, hogy vizsgáljuk, a két értékelő személy szerint mennyire jól dolgozik. Az Eurónál az egy értékelő által értékelt dolgozatok száma 16 és adattáblájukon látszik a törekvés a szisztematikus és átgondolt értékelési terv alkalmazására. Az íráskészség vizsga két feladatát általában négy értékelő látja, de legalább kettő. Nagyon jó dolog, hogy az értékelők kilétét a vizsgaközpont mindig rögzíti, miáltal az értékelők munkája külön erőfeszítés nélkül is vizsgálható – a statisztikus meg is kapja. Itt is probléma azonban, hogy az értékelők közösen adnak végleges pontokat és az értékelők munkájának színvonala egyénenként nehezen vizsgálható. A BME értékelői átlag 8.6 vizsgázót értékeltek, ami láthatólag jó eredményeket hozott, annak ellenére, hogy a vizsgahelyek bevonásával a dolgozatok értékelését a központ decentralizálta. Az értékelési terv nem látszik az adattáblán, továbbá itt is nehéz az értékelők munkájának minősítése személy szerint. 5.1.5.3.
Az illeszkedés
Az íráskészség vizsgarészek beválásának minősítése sokkal összetettebb, mint a másik két vizsgarészé, mert további dimenzióként jelentkeznek az értékelő és az általa használt skálák. Illeszkedésüket az itemek illeszkedésével azonos alapelvek alapján lehet megítélni. Angol Infit mnsq Standardizált infit Oufit mnsq Standardizált outfit Hány értékelő?
Angol érettségi 1
Euro
ECL
0
0
Német érettségi 2
BME 4
ECL
1 1 2
4
0
2 2
10. táblázat: A nem illeszkedő angolos értékelők
Német Infit mnsq Standardizált infit Oufit mnsq Standardizált outfit Hány értékelő?
11. táblázat: A nem illeszkedő németes értékelők
38
Az angolos értékelők szigorúsága között igen jelentős különbségek nem voltak, ami jó, viszont a németesek között sokkal jelentősebb különbségek voltak, elsősorban az érettségi és a BME között. E tekintetben a legjobb, amint az egyetlen értékelő páros miatt az várható is volt az ECL és a kidolgozott értékelési tervet alkalmazó Euro. Az érettséginél két-két gyengén illeszkedő értékelőt azonosítottunk, de csak egy van olyan, akinek illeszkedése csapnivaló. A BME értékelői között 4 olyan akadt, aki ugyan véletlenszerű hibákat nem vét, viszont jellemzően és következetesen nem illeszkedő pontokat ad, míg a többi értékelő a skálaalkalmazás tanúsága szerint jól dolgozik. A skálák illeszkedése általában megfelelő. Kivétel az ECL angol „formal Accuracy” szempontja, melynek súlyozott mutatója nem illeszkedik. Az okok keresése túlmutat a projekten, itt csak azt az észrevételt tesszük, hogy meg kell vizsgálni értik-e az értékelők ennek a szempontnak és egy másik ECL szempontnak, a „Written Accuracy” a különbségeit. Kiemelendő még az angol érettségi „íráskép” szempontja, amely mérhetetlennek bizonyult. Ez egy furcsa skála, melynek csak két skálapontja van: 0 és 1, azaz az íráskép vagy megfelelő, vagy nem. Az adattáblából kiderült, hogy a vizsgázók túlnyomó többsége megkapta rá az 1 pontot. Voltak ugyan olyanok, akik nem kapták meg, de ezek kivétel nélkül olyanok, akik minden más szempontra is 0-át kaptak, így ezeket a szoftver automatikusan kivette a mérésből. Látható, hogy ez a szempont B2 szinten nem hasznos, annak ellenére, hogy mint értékelők tudjuk, ha a dolgozat írásképe jó, az értékelő a dolgozat egyéb erényeit is jobban látja. Itt azonban az értékelők láthatólag nem tartották fontosnak e hangsúlytalanra vett szempontot. A német szempontoknál nem volt probléma. 5.1.5.4.
A feladatok és formátumok nehézsége
Nincs nem illeszkedő feladat. A feladatok nehézsége között mindkét nyelvben szignifikáns különbségek voltak (12. táblázat és 13. táblázat). Nem lehet csodálkozni, hogy mindkét nyelvben a hivatalos levél feladatok nehezebbnek bizonyultak a magánleveleknél. Sajátossága a német vizsgáknak, hogy harmadik kategóriaként jelentkezik az olvasói levél, két vizsgánál is és mindegyik (mert az érettséginél egyszerre két feladat is olvasói levél) nehezebb, mint a magán vagy hivatalos levelek. Az angol vizsgákban olvasói levél nem fordult elő, viszont az Euro révén olyan specializált szövegtípusok jelennek meg, mint a cikk (!), a narratíva és az esszé, inkább a nehezebb feladatok között. Csak az angolnál megjelenik még az e-mail is, igaz az Euronál csak egy másik feladattal kombináltan. Látszik a törekvés az írásvizsga modernizálására, hogy a vizsgázó szemében is valid, valósághű feladatokat adjanak. A mérésből származó nehézségi értékek teljes mértékben (és mindkét nyelvnél) visszaigazolják a nyelvtanári intuíciót, miszerint a specializált szövegtípusok, továbbá az olvasói levelek inkább a nehéz feladatok közé, míg a magánlevelek, emailek a könnyű feladatok közé tartoznak. -----------------------------------------------------------------------------------------------------| | Obsvd Obsvd Obsvd Fair-M| Model | Infit Outfit | | | Num Task or item | Score Count Average Avrage|Measure S.E. |MnSq ZStd MnSq ZStd | PtBis | -----------------------------------------------------------------------------------------------------| 152 EurArticle | 115 43 2.7 3.71| 2.36 .26 | 0.4 -2 0.8 0 | .47 | | 156 ECL Formal letter | 4825 1638 2.9 3.08| .88 .06 | 1.0 0 1.0 0 | .42 | | 153 EurStory | 3706 940 3.9 4.02| .25 .07 | 1.0 0 1.0 0 | .52 | | 155 ECL informal letter | 5060 1638 3.1 3.22| .15 .06 | 1.0 0 1.0 0 | .42 | | 154 EurEssay | 813 204 4.0 4.06| .05 .17 | 1.0 0 0.9 0 | .52 | | 151 EurLevél és email | 4729 1187 4.0 4.07| -.05 .07 | 1.0 0 1.0 0 | .52 | | 158 Er informal letter | 1901 720 2.6 2.81| -.75 .07 | 1.0 0 1.0 0 | .45 | | 157 ErEmail | 1795 826 2.2 2.35| -.95 .08 | 1.0 0 0.9 0 | .44 | -----------------------------------------------------------------------------------------------------| Mean (Count: 8) | 2867.9 899.4 3.2 3.42| .24 .10 | 0.9 -0.4 0.9 -0.3| .47 | | S.D. | 1826.5 551.0 0.7 0.61| .96 .07 | 0.2 0.8 0.1 0.5| .04 | -----------------------------------------------------------------------------------------------------RMSE (Model) .12 Adj S.D. .96 Separation 7.70 Reliability .98 Fixed (all same) chi-square: 612.9 d.f.: 7 significance: .00 Random (normal) chi-square: 6.8 d.f.: 6 significance: .34 ----------------------------------------------------------------------------------------------------
12. táblázat: Az angol íráskészség feladatok nehézsége
39
-----------------------------------------------------------------------------------------------------| | Obsvd Obsvd Obsvd Fair-M| Model | Infit Outfit | | | Num Task or item | Score Count Average Avrage|Measure S.E. |MnSq ZStd MnSq ZStd | PtBis | -----------------------------------------------------------------------------------------------------| 281 Er 1. olvasoi level | 274 74 3.7 1.46| 1.80 .12 | 0.8 0 0.7 -1 | .43 | | 277 BME olvasoi level | 130 61 2.1 2.42| 1.44 .42 | 0.6 -1 0.3 0 | .59 | | 282 Er 2. olvasoi level | 945 234 4.0 2.88| 1.10 .08 | 0.8 -1 1.0 0 | .50 | | 280 Er hivatalos level | 1251 378 3.3 2.83| .68 .07 | 1.1 1 1.1 1 | .46 | | 279 ECL hivatalos level | 2644 819 3.2 3.21| -1.42 .10 | 0.9 -1 0.7 -1 | .49 | | 276 BME maganlevel | 3094 1179 2.6 2.93| -1.62 .09 | 1.0 0 0.7 0 | .58 | | 278 ECL maganlevel | 2734 819 3.3 3.24| -2.41 .11 | 1.1 1 0.8 0 | .48 | -----------------------------------------------------------------------------------------------------| Mean (Count: 7) | 1581.8 509.0 3.2 2.71| -.06 .14 | 0.9 -0.5 0.8 -0.6| .51 | | S.D. | 1138.7 400.7 0.6 0.57| 1.58 .11 | 0.2 1.3 0.2 0.9| .05 | -----------------------------------------------------------------------------------------------------RMSE (Model) .18 Adj S.D. 1.57 Separation 8.63 Reliability .99 Fixed (all same) chi-square: 1550.5 d.f.: 6 significance: .00 Random (normal) chi-square: 6.0 d.f.: 5 significance: .31 ------------------------------------------------------------------------------------------------------
13. táblázat: A német íráskészség feladatok nehézsége
Fontos, hogy az elemzések alapján megállapítható, hogy nincs nem illeszkedő formátum sem. Fontos az is, hogy mindkét nyelvben az érettségi feladatformátuma a legkönnyebb és az ECL-é közepes nehézségű. A legnehezebb formátuma BME-nak és az Euronak volt. A formátum és a tartalom összevetése a következőket hozta: Az Euro és az ECL angol formátumok könnyebbnek bizonyultak feladataik tartalmánál, míg a legkönnyebb formátumú érettségi formátuma is nehezebbnek bizonyult a tartalomnál. Ennek alapján az ECL és az Euro validitása megalapozottabb az érettséginél. A német vizsgáknál másképp volt. A BME és az ECL formátumok nehezebbek voltak, mint a bennük foglalt tartalom, az érettségi feladatinak formátuma pedig jóval könnyebb volt, mint a tartalmuk. Ennek alapján a német érettségi validitását kell megerősítenünk. A formátum külön értékelése egyik nyelvnél sem változtatott azon a nehézségi sorrenden, amely a feladatoknak mint egésznek az elemzése során kialakult. Mi ennek a jelentősége? Egyrészt az, hogy a produktív feladatoknál használatos feladattípusok formátuma semlegesebb, mint a receptív készségeknél használatosaké, mivel kommunikatívabbak és kevésbé műviek, kevésbé is érzékenyek a vizsgafejlesztés során bekövetkező hibákra és a vizsgázói „trükközéseknek” is kevesebb tere nyílik. Másrészt valószínű, hogy a formátum a produktív feladatok estében igen összetett, maga is többdimenziós és ezért nem lehet csak a kimeneti szöveg típusa alapján meghatározni. Érdekes megfigyelés lehet az pl., hogy a legkönnyebb formátumú feladatok (érettségi) egyben azok is, amelyekben egy un. prompt szerepel, melyet a vizsgázó elolvas, majd ebből merít a szöveg megírásához (plagizál). Ez a fajta feladat sokban hasonlít az integrált feladatokra, hiszen a vizsgázó először olvas, majd ír és mint ilyen ez alkalmas arra, hogy a prompt szövegét (annak részeit) a vizsgázó a sajátjaként beleírja a saját szövegébe. (Ha az értékelési szempontrendszer ezt nem bünteti, az értékelőnek magas pontszámmal kell a teljesítmény honorálnia. A problémát két ítész is jelezte.) A nehezebb formátumú írásfeladatok mind olyanok, melyek csak irányítási szempontokat nyújtanak, de plagizálható szöveget nem (nagyon). Meglehet a plagizálhatóság az egyik olyan dimenzió, melynek mentén az írásfeladatok formátuma jobban megfogható. Mi hasznosítható? • Vizsgaközpontok, figyelem! Nem tudunk széles e hazában egyetlen olyan vizsgaközpontról sem, amely minősítené saját értékelőinek skálahasználatát. Várjuk a cáfolatot! • Használjuk a skálák minden pontját. Ha kiderül, hogy nem így van, valószínűleg át kell tervezni a skálát. • Figyelem tanárok! Használjunk több produktív feladatot vizsgáinkon, mert nehezebb elrontani őket! Általában jobban illeszkednek, mert a produktív feladatok gyengeségeit az értékelők általában sikeresen korrigálják. 40
• •
A opcionális feladatokat kínáló vizsgák problémája, hogy ha a vizsgázó választ, egyben a könnyebb és nehezebb feladatok közt is választ. Fair? Megfontolandó, érdemes-e plagizálható szövegeket beépíteni az írásfeladatokba, vagy másfajta integrált feladatokkal kell kísérletezni. Ne feledjük, minél magasabb a vizsgázók képességszintje, annál ügyesebben plagizálnak!
41
6. A vizsgázói vélemények A vizsgázói véleményekből is 150-es reprezentatív mintát terveztünk gyűjteni régiónként. A regionális lebontás el is készült (melyik régióból hány vélemény kell), azonban a szóbeli érettségik időpontjáig nem tudtuk meg, hol szerveznek vizsgát, így az érettségiről értékelhetetlenül kevés vélemény jött össze. A vélemények önálló igényű elemzésére így nem lehet gondolni, helyette megfelelőbb, ha a vizsgálat más eredményeit egészítjük ki velük és itt csak a két leglényegesebb elemet tárgyaljuk. Egyrészt a vizsgázók rendkívül sok irrelevánsnak tűnő megjegyzést írtak a kérdőívekre, ami alapján a szakember hajlamos őket félretenni. Azonban így is lehetett értékelhető megjegyzésekre találni, ezekre általában a többi fejezetben hivatkozunk is és a külön tárgyalástól már eltekintünk. Másrészt azonban érdemes végiggondolni a nagy mennyiségű, nem sok betekintési lehetőséget nyújtó megjegyzésnek önmagában csak a tényét. Véleményünk szerint ez arra utal, hogy a vizsgázók fejében mennyi minden a nyelvtudáshoz nem, vagy alig kapcsolható tudattartalom van, melyek között a naiv butaságtól a rosszindulatú kötözködésig minden megtalálható. Felvethető, hogy a mérésben a vizsgázóknál következetesen jelentkező „zaj”, amely mindig nagyobb, mint az, ami az itemeknél, vizsgáztatóknál jelentkezik, valójában ennek a masszív, a mérendődhöz alig kapcsolódó tudattartalmaknak a pszichometriai vetülete. A tanárok és vizsgafejlesztők számára az a kérdőívek legfontosabb tanulsága, hogy azért kell nagyon jó vizsgákat készíteni – és validálni, validálni és validálni -- mert még ha mindent tökéletesen csinálunk, a vizsgázó esendőségével mindig számolni kell. Mi hasznosítható! • Fokozottan oda kell figyelni a beszédértés vizsgákra, melyek a mérési módszer miatt lehetnek igen nehezek, természetesen a készség oktatásának további fejlesztése mellett. • A vizsgázói vélemények fontosak, feldolgozásukra olyan módszereket kell alkalmazni, melyek képesek a hasznos információt kiszűrni a sok "zaj" mellől.
42
7. Az itemek, feladatok szintbesorolása, az átlagszintek vizsgálata Miután nem tették lehetővé, hogy vizsgázókon értékeljük, hogyan teljesülnek a CEF szintkövetelmények, a vizsgálat előző szakaszának, az itemek és feladatsorok vizsgálatának kiterjesztésével sikerült részben pótolni a hiányt. Alapozva az 1990-es évek során az Európa tanács keretein belül végzett munkára (melynek során előbb az Európai Nyelvi Portfoliot, majd magát a KER-t fejlesztették ki) a mérési szakértők összegyűjtött ítéleteit felhasználva meghatároztuk az egyes vizsgák feladatsorainak KER átlagszintjét. A vizsgálat ebben a szakaszban éppúgy empirikus volt, mint korábban terveztük, az eltérés abban mutatkozott, hogy konkrét vizsgázói teljesítmények helyett a vizsgaanyagokat értékeltük. A projektterv kényszerű módosítása után a tréning adatai szolgáltatták az ötletet és a lehetőséget arra, hogy valami képet kapjuk arról, milyen szintet képviselnek a projektben részt vevő vizsgák. A tréning során elsősorban azt ellenőriztük, mennyiben ismerik az ítészek a KER-t. Az ítészeknek több száz szintleírásról kellett eldönteniük, melyik KER szintről van benne szó. Válaszaik értékelését ekkor talált/ nem talált alapon végeztük, mint egy dichotom tesztfeladat esetében. Az új elemzés ugyannak az adattáblának egy más nézetét jelentette, mert az ítészek szintbesorolásai értelmezhetők úgy is, mint osztályzás (un. rating), ami leginkább pl. egy írás- vagy beszédkészség vizsga értékeléséhez hasonlít. Az ítész elolvasta a szintleírást, képzeletébe idézte az ott leírt nyelvi viselkedést, és mintha azt egy diáknál látná, besorolta a KER hat szintjének egyikére. A tréning adatok újraelemzése során, itt is több körben azonosítottuk és kikapcsoltuk azokat a deskriptorokat, melyek zavaróak lehettek az ítészeknek és ezért nem illeszkedtek. Vizsgáltuk az ítészeket is, egyetlen egyet kellett kikapcsolni, ez azonban semmiképp nem okozott problémát, mert olyasvalaki volt (ugyanaz, mint korábban), aki a vizsgaanyagok minősítésében nem vett részt. A tréning adatok más módon való elemzése lehetőséget nyújtott arra, hogy az Európai Nyelvi Portfolio és a KER kifejlesztése érdekében végzett mérések eredményeire támaszkodjunk. Ez jelenthette a kapcsot egy olyan kutatássorozattal, amelynek eredményei elismertek. 1994-1995-ben, Svájcban North és részben Schneider munkája a KER-ben később publikált deskriptorok bemérése volt angol, német és francia nyelven. A mi ítészeink ugyanazokkal a deskriptorokkal dolgoztak, mint ők. Méréseik rendelkezésre állnak. Szerencsére még a tréning során kitöltött kérdőívek összeállítása során gondoltunk arra az eshetőségre, hogy az itteni méréseket North és Schneider méréseihez lehessen kapcsolni, így a tréning adatok „megtisztogatása” után meg lehetett keresni azokat a deskriptorokat, melyek North és Schneider méréseiben jól szerepeltek (illeszkedtek) és az oktatási rendszer különböző szektoraiban is hasonló értékeket, statisztikai mutatókat (nehézségi és illeszkedési értékeket) produkáltak. 24 olyan alkalmas deskriptort találtunk, melyek a helyi mérésekben is megállták a helyüket és nehézségi értékük, ill. illeszkedésük is a hasonló volt a külföldihez. Ezek alapján azt lehetett várni, hogy az „itthoni” mérés eredményei értelmezhetőek lesznek a külföldi mérések tükrében, azaz mintha ők készítették volna. Az volt a terv, hogy az eredeti deskriptorok alkalmazása útján a helyi ítészek rákerülnek a nemzetközi mérési skálákra, az ő paramétereiket fel lehet használni a vizsgaanyagok szintezésénél, hiszen mint értékelők szintezték a deskriptorokat, majd pedig ítészként szintezték a vizsgaanyagokat. Mind a két esetben ugyanarról a hatfokozatú KER skáláról van szó.
43
Az első elemzésnél azonban kiderült nem jártható ez az út, mert egyes ítészeknek más volt a „szigorúságuk” mikor a kérdőíven a deskriptorokat osztályozták, mint mikor a vizsgaanyagokat! Volt olyan pl. aki a kérdőív kitöltése során „elnéző” volt, t.i. a deskriptorban foglalt jellemzőket inkább a KER-skálán feljebb tette, mint kellett volna, míg a vizsgaanyagok bírálata során a feladatok nehézségét inkább lejjebb és minkét alkalommal szélső értékeket jelzett. A kiutat az jelentette, hogy mivel mindkét esetben (tréning és ítészkedés) ugyanazt a KER skálát alkalmazták, a skála egyes fokozatainak szintjét, az angol szaknyelv szerint lépcsőinek „nehézségét” (mennyi tudás kell ahhoz, hogy a B1-ről a B2-re jussunk) rögzíteni lehetett a feladatok szintezésében. A KER-rel való kapcsolat tehát eredeztetett, derivatív: a svájci projekt deskriptoraitól a tréning KERskála értelmezésén keresztül vezetett az út a feladatok szintezéséig.
7.1.
Eredmények
Az elemzés meglepő végeredménnyel szolgált. Mindegyik projektben szereplő vizsgaanyag átlagos nehézsége többé- kevésbé elmaradt a B2 szint minimumától (14. táblázat). Szintjük a B1 szint felső tartománya, a B1+. A minimum úgy értendő, hogy ha a North és Schneider féle fent hivatkozott mérések során meghatározott B2 küszöbértéket (0.72) korrigáljuk, továbbá ebben az elemzésben rögzítettük a tréning elemzésénél kapott „lépcsők” nehézségét, egyik vizsga sem esik a korrekció után elvárt érték fölé. Tudni kell, hogy North és Schneider mérései 0-4-ig terjedő skálán születtek, a tréning során pedig a KER hatfokozatú skálájával dolgoztunk (tulajdonképp hétfokozatú a KER skála, mert logikailag ott van a 0 is, az A1 szint alatt). Ezt korrigálni kellett, minek következtében az elvárt küszöbérték 1.2 lett. Az elemzés eredménye azért meglepő, mert egy ilyen projektben a kutatónak arra számítania kell, hogy némely vizsgák nem érik el a kívánt minimumot, de hogy egyik sem… Az ilyen helyzetben a kutató először is tüzetesen megvizsgálja az elemzéseket, nem követett-e el valami végzetes hibát. Most is így történt, de nem történt technikai hiba. Ezek után az a kérdés, miért is tűnik meglepőnek és hogyan lehet ezeket az eredményeket megmagyarázni. A meglepetést az okozta, hogy szubjektív meglátások más sorrendet valószínűsítettek. Jó példa erre az Euro és az ECL. Az Euro sok feladattal mér és a kérdőívek sem tanúskodnak arról, hogy könnyű lenne – ellenkezőleg a kérdőívek szerint a vizsgázók elfáradnak e vizsgán. Az ECL sokkal kevesebb feladattal mér, amit a szemlélő hajlamos könnyebbnek ítélni az egész vizsga tekintetében. Vizsga ECL angol ECL német BME német Német érettségi Angol érettségi Euro
Átlagos szintérték 1.17 1.01 0.80 0.51 0.10 0.00
Átl. statisztikai hiba 1.28 1.27 1.16 1.31 1.30 1.32
Szintérték+hiba/2 1.92 1.64 1.38 1.26 0.85 0.61
14. táblázat: A vizsgák átlagos szintértéke becslések alapján
Mi támasztja alá az ítészi munkára épülő szoftveres elemzés eredményét. Miért hihetünk neki? 1. Az ítészek 843 becslést végeztek együtt és – ez is kicsit meglepő volt – szigorúságuk nem tért el nagyon egymástól. Kicsi volt köztük a különbség és ennek folyományaképp az ítészeknek
44
betudható variancia (tortaszelet) is kicsi volt. Ez egyben a megbízhatóságukat is alátámasztja, mert arról árulkodik, nagyjából ugyanazokat a szinteket jelölték meg az egyes „itemeknél”. 2. Visszatekintve a vizsgarészenként lefolytatott empirikus elemzéseket, azt látjuk, hogy az ECL meglehetősen sokszor bizonyult nehéznek (relatíve más feladatokhoz) és sokszor csupán az ECL formátumok bizonyultak nehéznek. Az Euroval gyakran épp fordított volt a helyzet. Úgy tűnik, a projektben lefolytatott elemzéseknek van egyfajta „összhangzata”, ami alapján összeáll a kép a kaleidoszkópban: Az ECL kevés, de nehéz itemmel mér, a vizsga „rövid”, de nehéz, míg a másik szélső, az Euro sok itemet vet be, a vizsga hosszú, fárasztó, de az itemek önmagukban nem nagyon nehezek. 3. Többször felvetődött már Magyarországon, hogy amit itt B2-nek elfogadunk, az esetleg nem igazán B2, hanem annál lejjebb helyezhető el a KER skálán. Ezen a ponton nem lehet nem emlékezni azokra a hangokra sem, melyek azt prognosztizálták a nyelvvizsgaakkreditáció elindulásakor, hogy a verseny egy lefelé tartó spirálhoz vezet majd. Lehet, hogy ennek vagyunk most tanúi? A becslések eredményét azonban tanácsos mégis óvatosan kezelni. Erre int, hogy az „itemek” átlagos mérési hibája meglehetősen nagy. Nem véletlen, mert ha az ítészek általában egyetértettek (annak ellenére, hogy nem kommunikáltak munka közben), a szoftver nem tudta sem az itemek nehézségét, sem az ítészek szigorának mértékét elég pontosan meghatározni. A statisztikai logika szerint a 14. táblázat hibaértékei alapján az első 4 vizsgánál nem lehet teljesen kizárni, hogy mégis B2. Az Euro és az angol érettségi esetében viszont azt lehet állítani, hogy átlagos nehézségük elmarad a B2-től, mivel még a mérési hibát beszámítva, a mérési hiba felével növelten (amennyivel a mért érték magasabb is lehet végtelen számú újramérés esetén) sem érik el a B2 küszöbértéket (1.2). Mi hasznosítható? Az ítészek képzésében, tréningjében nagy hangsúlyt kell kapjon az, hogy oda kell figyelni a nyelvi tartalomra és az azt hordozó formátumra, feladattípusokra, mert a kettő kapcsolata összetett. A formátum nehézsége az ítész előtt elfedheti a tartalom könnyű voltát és fordítva. Adott estben a vizsga volumene is elfedhet más jellemzőket. • Be kell mérni a vizsgákat. Mivel a KER szintek rendkívül szélesek a kérdés inkább így hangzik: adott vizsga feladatainak átlagos nehézsége megüti-e legalább a megkövetelt szint küszöbét? •
45
8. Összefoglalás helyett Rendkívül nehéz összefoglalni egy ilyen szerteágazó projekt eredményét. A projektben részt vevő vizsgákat igen sok szempontból vizsgáltuk és ezek eredményét a megfelelő fejezetben le is írtuk. Ezeket itt egyszerűen megismételni nem lenne értelmes. Az összkép a döntő, ami az olvasóban kialakul. Tovább summázni, a summázat summázatát adni csak néhány ponton lehetséges és érdemes. Példa lehet erre a két „objektív vizsgarész, a beszédértés és írott szöveg értése feladat, ahol összegezni lehet a nem illeszkedő itemek számát. Ez alapján az Euro lehetne a legjobb (1), míg a sort az angol érettségi zárja (8). A sorrend lehet tanulságos is, de pl. statisztikailag nem szignifikánsak e különbségek az igen alacsony elemszám miatt. Az illeszkedő vagy nem illeszkedő értékelőket így nehéz összevetni, mert az értékelők száma függ az értékelési tervtől, ami maga is minőségi kritérium. Összességében leginkább az állapítható meg, hogy a feladatanyag bemérése meglehetősen kiegyenlített képet nyújtott. Hogy e vizsgák mennyiben mérik a B2-es szintet, erre csak közelítőleg tudtunk válaszolni, mert sajnálatos módon az érettségi miatt épp erre a legdöntőbb kérdésre nem kaphattunk kimerítő választ. A vizsgáztató ítészek bevonásával tervezett munkafázis konkrét vizsgázói válaszok és eredmények segítségével arra adhatott volna feleletet, hogy az adott szinten (szinteken) belül a megfelelési ponthatár egyezik-e a mért szint minimumával, tehát a vizsgán épp csak megfelelt vizsgázó tudása a szinten épp csak elégséges nyelvtudást jelzi-e. Ez egyben a megfelelési ponthatár validitásának vizsgálata lett volna. Jelentőségét az adja meg, hogy nagyon elképzelhető egy olyan vizsga, amely technikailag nagyon jó (jól mérnek az itemek, jó a megbízhatóság, megbízhatók az értékelők, értik a skálákat, stb.), de a megfeleléshez szükséges pontszám nem megfelelő. A megfelelési ponthatár validálása azt is jelentette volna, hogy a vizsga pontszámítási, pontkonverziós rendszerét is validálhattuk volna. Ez lett volna a kutatásra rendelkezésünkre adott pénz leggyümölcsözőbb felhasználása, esély minden, a projektben részt vevő vizsgának arra, hogy értékét bizonyítsa. Ezzel szemben ami megvalósulhatott – túl a sok hasznos résztanulságon – csupán annyi, hogy a feladatanyag átlagnehézségéről kaptunk képet. Ez is mond már valamit, de nem eleget, csak valószínűsíti a szint megfelelőségét vagy annak hiányát, mert az a vizsga, ahol a vizsgaanyag átlagos szintje nehézsége a legalacsonyabb, még mindig helyezheti a megfeleléshez szükséges ponthatárt olyan magasra, hogy tényleg csak a szintnek megfelelő vizsgázók mennek át. Hasonlóképp, az a vizsga, ahol a feladatanyag átlagos nehézsége magasabb volt, alacsonyabban rögzített megfelelési ponthatárral érheti el ugyanazt. Végül fontos hozadéka a projektnek, hogy kísérletet tett arra, hogy a minőség, validitás és a KER szintek értelmezése terén ne csak egy nyelv kereti között dolgozzon. Hosszú ideje megoldatlan probléma – erre az akkreditációs rendszer sem tudott jó megoldást találni – hogy a nyelvek összevetését, különösen egyazon vizsgarendszer esetében megoldja. Meglátásunk szerint ez a projekt ebben is tett néhány fontos lépést előre.
46
9. Hivatkozások Babbie, E. (2003) A társadalomtudományi kutatás gyakorlata. 6. kiad. Budapest: Balassi Kiadó. Csapó, B. (1993). Tudásszintmérő tesztek. In Falus Iván: (szerk.) Bevezetés a pedagógiai kutatás módszereibe. (pp. 277-317) Budapest: Keraban kiadó. Dávid ,G. (2001) A nyelvvizsgáztatás minőségbiztosítása erőforrás-hiányos viszonyok között. Modern nyelvoktatás. 7/2-3. pp. 41-59. Dávid, G. (2002) A mérési eszköz hatása a vizsgaeredményekre. II. Neveléstudományi konferencia. Budapest, 2002 október 24-26. Dávid, G. (2005) Személyes közlés. Dávid, G. (2007) Investigating the Performance of Alternative Types of Grammar Items. Language Testing (megjelenés előtt). Horváth, Gy. (1993) Bevezetés a tesztelméletbe. Budapest: Keraban Kiadó. Linacre, J. M. (1999) Facets: Rasch Measurement Computer Program. Version 3.22 [Computer software] Chicago: Mesa Press. Major, É. és Einhorn, Á. (2005) A 2004-es próbaérettségi tapasztalatai – idegen nyelvek. Új Pedagógiai Szemle, [On-line]. Available: http://www.oki.hu//oldal.php?tipus=cikk&kod=2005-03-ta-Tobbek-2004 Messick, S. (1981a) Constructs and their vicissitudes in educational measurement. Psychological Bulletin. 89: 575-588. Messick, S. (1981b) Evidence and Ethics in the Evaluation of Tests. Research Report. Princeton, NJ: Educational Testing Service. Messick, S. (1988) Validity. In R. L. Linn (Ed.), Educational Measurement. New York:American Council on Education/Macmillan. Messick, S. (1995) Validity of psychological assessment. American Psychologist. 50/9. 741-749. Messick, S. (1996) Validity and washback in language testing. Language Testing. 13/3. 241-256. North, B. (2000) The Development of a Common Framework Scale of Language Proficiency. In Belasco, S. (General Editor) Theoretical Studies in Second Language Acquisition Vol. 8, New York: Peter Lang Publishing. PTMIK (2002) Közös Európai Referenciakeret. Nyelvtanulás, nyelvtanítás, értékelés. (2002) Pedagógus-továbbképzési Módszertani és Információs Központ Kht. Zákány, J. (2006) Személyes közlés.
47
10. Appendix
10.1. Appendix 1: Útmutató ítészeknek 1. A feladatokat a vizsgázók számára előírt feltétek mellett meg kell oldani, hogy minél jobban beleélhessük magunkat a vizsgázó helyzetébe. A vizsgázó számára előírt feltételek: megoldási idő, a feladatok sorrendje, a meghallgatások száma, fogalmazásnál előírt szószám, a feladatmegoldás megadásának módja, stb). Ebből az is következik, hogy mielőtt dolgozni kezdünk, meg kell bizonyosodjunk afelől, hogy az értékelendő vizsgáról mindezt tudjuk e. 2. Minden feladatot, a produktívat is, megoldunk, hogy érezzük milyenségét. Az ítész vizsgálja a feladatok 1. minőségét 2. szintjét. A feladatok minőségének értékelése önmagában is fontos, de egyben elvezet a feladatok szintjének megállapításához is. 10.1.1.1.
A feladatok minősége
Az ítészek „Szempn25” táblázat segítségével értékelik a vizsgafeladatokat. E táblázatok eredetileg a NYAT számára készültek (bemérték, szakértők véleményezték). A feladatok minősége értékeléséhez Messick és Bachman kerete nyújt segítséget, amelynek lényege: Bár a „variancia-torta” legnagyobb szelete feltételezhetőleg a nyelvtudás, a többi olyan járulékos tényező eredménye, mely nem releváns a nyelvtudás (a mérendő célképzet = konstruktum) szempontjából. Az ítész feladata, hogy azonosítsa mely feladatok feltételezhetőleg milyen konstruktum-irreleváns tényezőt „hordoznak”. Ilyen tényezők forrásai lehetnek: • A mérési módszer maga • A vizsgáztató (értékelő) • A vizsgázó (vizsgázási stratégiák, prekoncepciók, szeszély, „fóbiák”, fixa ideák, bizalmatlanság, stb.) Messick és Bachman elméleti keretének további eleme, hogy a konstruktum-irreleváns variancia általában vagy nehezítő vagy könnyítő irányú, ezért beszélhetünk • konstruktum-irrelváns nehezítésről • konstruktum-irreleváns könnyítésről. Ilyen tényezők konkréten lehetnek: • feladattípus/ itemtípus adott gondolatmeneteket preferál vagy korlátoz • az instrukció megfogalmazásának nyelve, nyelvezete közérthetősége, • a megoldásra adott idő hossza vagy rövidsége, • feladatok száma és sorrendje, a sorrend követhetősége, logikussága • vizsgázó általános világismerete, • a csupán logikai következtetések útján adható válasz, • a vizsgaanyag esetlegesen diszkriminatív jellege, • a vizsgázóban rossz érzést kelthető téma
És természetesen számtalan más tényező! Mindennapi nyelvre lefordítva mindez annyit tesz, hogy ha egy item nehéz (de jó item) az még nem okvetlenül baj, viszont ha nem a rajta keresztül mért nyelvtudás miatt nehéz, az már baj. Ugyanez vonatkozik a könnyű itemekre is: ha könnyű, még nem biztos, hogy problematikus, de ha valami más, mint nyelvtudás miatt könnyű, az már gond. További és meglehetősen „laikus” megfogalmazás, ha azt mondjuk: elvárjuk, hogy a vizsgázó a megfelelő (értsd, nyelvtudással kapcsolatos) okból kifolyólag szerezzen (vagy veszítsen) pontot. Pontszerzésének ne legyen más magyarázata, mint a nyelvtudás. Hozzá kell tegyem, hogy természetesen az is gond ha vizsgafeladat nem találja el a kívánt szintet, de ez nem a feladatok minősége kérdése, hanem az ítészi munka következő szakaszában térünk ki rá (lásd alább). 10.1.1.2.
A feladatok szintjének (B2) vizsgálata
Az ítészek másik feladata az egyes feladatok, itemek szintjének becslése. Azt várom, hogy az ítészek sokat fogják forgatni a KER-t, annak táblázatait (azon a nyelven, amelyiken óhajtják). Mi most egyetlen szintet (B2) vizsgálunk, de ez természetesen nem jelenti azt, hogy csak ilyen szintű itemekkel találkozunk majd a vizsgákban. Ez nem véletlen, mert nincs az a feladatszerkesztő (team), aki egy feladat, vizsga minden itemét a megcélzott szintre tudja „belőni”. Helyesebb tehát azt várni, hogy az itemek átlagosan a kívánt szintet találják el. Készüljünk fel rá és ne csodálkozzunk, ha B1 vagy C1 itemeket is találunk jócskán. Praktikusan kétfajta kérdésre kell választ adniuk, a szerint, hogy a vizsgált item un. dichotom item vagy skála típusú (polytomous). 10.1.1.3.
Dichotom itemek
Jellemzően a beszédértés, írott (olvasott szöveg értése, valamint a nyelvismeret feladatoknál használjuk. Az ítész kérdése a következőképp fogalmazható meg: • •
Melyik az a legalacsonyabb KER szint, amelyen egy vizsgázó helyes megoldást adhat az …. itemre, kérdésre? Vagy: A vizsgázó által adott helyes válasz legalább milyen KER szintű tudást feltételez?
Érdemes megfigyelni néhány részletet. „Legalacsonyabb KER szint”: Nyilvánvaló, hogy egy B2 szintű itemet egy C2 szintű vizsgázó is meg fog oldani, de ez most nem érdekes. A mi megközelítésünkben az item szintje azonos azzal a legalacsonyabb szinttel, amivel a feladat már megoldható. (A Facets statisztikai szoftver is úgy definiálja az item szintjét, hogy hol vagy az a pont, ahol a vizsgázóknak 50% esélyük van a helyes megoldásra.) „adhat”: A szoftever definiciója más sugallja ezt is, hiszen az, hogy végül ad-e a vizsgázó helyes választ vagy nem, még további dolgoktól függ, de bennünket most ez sem érdekel. Megjegyzés: A novemberi értekezleten volt szó a százalékos becslésről, azonban most nem alkalamazható, mert nehezen kivihető a nem dichotom típusú feladatok esetében (lásd alább).
50
10.1.1.4.
A skála-típusú itemek
Általában skálák segítségével értékeljük a produktív beszédkészség és íráskészség feladatokat. Az ítész kérdése itt a következőképp fogalmazható meg: Melyik az a legalacsonyabb KER szintű tudás, mellyel a vizsgázó 1 pontot kaphat? Melyik az a legalacsonyabb KER szintű tudás, mellyel a vizsgázó 2 pontot kaphat? Melyik az a legalacsonyabb KER szintű tudás, mellyel a vizsgázó 3 pontot kaphat? És így tovább, a skála minden pontján. Ezek a feladatok olyanok, mintha több dichotom feladatot tennénk egymás tetejére, szendvics módjára. Ez azt is jelenti, hogy egy feladattal kapcsolatban több ítéletet kell hozzunk, jellemzően a kritériumtábla minden pontjára, azaz ha 5 szempont mindegyikét 6 szinten értékelik, összesen 30 becslést jelent. (Lásd mellékelt Excel fájlt.) Várható, hogy az egyes skálapontokon, 0-1-2-3 stb., nem lesz mindig más szint. Az alábbi elég valószínűtlen: 0 = A1 1 = A2 2 = B1 3 = B2 stb. Helyette valószínűbb, például: 0 = B1 1 = B1 2 = B2 3 = B2 stb. Az már látszik, hogy ehhez segítségül kell hívni a vizsgaközpont kritérium leírásait. Ők mire adnak hány pontot? És ezért a munka megkezdése előtt ezeket be kell szerezzük. Rögzítsétek a válaszokat a kidolgozott Excel űrlapon. 10.1.1.5.
Ahol az ítészi munka két ága összefut
Az ítészi munka két ága (a feladatok minőségének vizsgálata és a szintezés) egymásra épül. Javaslom a következő sorrendet. 1. Először nézzük a minőséget a szempontsor segítségével és tegyük magunkat érzékennyé a konstruktum-releváns és –írreleváns tényezők iránt. Gondoljuk végig milyen tényezők lehetnek könnyítőek és nehezítőek és melyek ezek közül a legitim és illegitim tényezők. Ha ez megvan képben vagyunk a feladat minőségéről – a szint meg olyan, amilyen. 2. Koncentráljunk a szintre és mindazt, amit megállapítottunk a minőség kapcsán alkalmazzuk az item, feladat szintjének megítélésében is. A fontos kérdés, amibe biztos beleakadunk, szerintem így szól: Az esetleges tökéletlenség, amire felfigyeltünk, okoz-e egy KER szintnyi változást?
51
10.2. Appendix 2: Minta a magyar nyelvű skálákból Felmérés: A KER magyar nyelvű skáláinak ismerete Név: _____________________________ Döntse el, az alábbi deskriptorok a KER hatfokozatú skálákjának melyik szintjét jellemzik, majd írja a megfelelő jelölést (A1, A2, etc.) a jobb oldalon található jelölőnégyzetekbe. FOLYAMATOS MONOLÓG: Élménybeszámoló 300. Világos és részletes leírást tud adni az érdeklõdési köréhez kapcsolódó témák széles skálájában. 301. El tudja mondani váratlan események (pl. balesetek) részleteit. 302. El tudja mondani egy könyv vagy film cselekményét, és le tudja írni reakcióit. 303. El tud mondani egy történetet. 304. Élményeirõl részletesen be tud számolni, érzései és reakciói bemutatásával. 305. Összetett témákról világos, részletes leírást tud adni. Alapos részletességű, összetett leírást és elbeszélést tud létrehozni; összekapcsolja az egyes altémákat, kifejti az egyes pontokat, és megfelelõ befejezéssel zár. 306. Az érdeklõdési köréhez kapcsolódó különbözõ témák lényegét le tudja írni. 307. El tud mondani egy történetet vagy le tud írni valamit egyszerű felsorolással. Ismertetni tudja környezete mindennapi aspektusait, pl. embereket, helyeket, egy állással vagy tanulmányokkal kapcsolatos élményt. 308. Világos, gördülékeny, alapos részletességû, összetett és gyakran emlékezetes leírást tud adni. 309. Egyszerû leíró nyelv használatával rövid állításokat és összehasonlításokat tud alkotni tárgyakkal és tulajdontárgyakkal kapcsolatban. 310. Leírást tud adni saját magáról, foglalkozásáról, lakóhelyérõl. 311. El tudja magyarázni, hogy miért szeret vagy nem szeret valamit. 312. Ismertetni tudja családját, életkörülményeit, oktatási hátterét, jelenlegi vagy legutóbbi állását. 313. Meglehetõsen folyékonyan el tudja mondani egy elbeszélés vagy leírás lényegét úgy, hogy gondolatait lineárisan kapcsolja össze. 314. Leírást tud adni álmokról, reményekrõl és ambíciókról. 315. Leírást tud adni valóságos vagy elképzelt eseményekrõl. 316. Rövid, alapvetõ leírást tud adni eseményekrõl és tevékenységekrõl. 317. Tud beszélni tervekrõl és találkozókról, szokásokról és napirendrõl, múltbeli tevékenységekrõl és személyes tapasztalatokról. 318. Egyszerû szavakkal leírást tud adni emberekrõl, helyekrõl, tulajdontárgyakról.
52
10.3. Appendix 3: Vizsgázói kérdőív minta (ECL) Kedves Vizsgázó! Az alábbi felmérést egy olyan kutatócsoport készítette, amely a nyelvvizsgák (BME, ECL és Euro) és az emelt szintű érettségi egymáshoz való kapcsolatát vizsgálja. E felmérés központi gondolata, hogy a nyelvtudás mérése során óhatatlanul adódnak olyan, a nyelvtudáshoz egyébként nem tartozó tényezők, amelyek feljavítják a vizsgázó pontszámát, ill. lerontják azt. Néhány példa: 1. A vizsgázó eredményét javíthatja: • a választ eláruló kérdés (feladat), • egy másik kérdés alapján kitalálható válasz, • a „totózás”, 2. de ronthatja: • a becsapós, • félrevezető • vagy zavarba ejtő kérdés 3. lehetnek egyéni, vagy a körülményekben rejlő okok: • fejfájás, nagy meleg, idegesség, stb. 4. E tényezők forrása egyaránt lehet: • maga a vizsgaanyag: feladat(lap)ok, kérdések, tételek, stb. • a vizsga lebonyolítása, • a (szóbeliztető) vizsgáztatók • valamint a vizsga megszervezésének körülményei is. Kérjük, hogy az Ön által a ____________________________ vizsgahelyen (vizsgaközpontban, iskolában) __________ nyelvből letett emelt szintű vizsgán szerzett tapasztalatai szerint, az egyes vizsgarészek szerint külön válaszoljon kérdéseinkre. • Először jelölje, volt-e eredményjavító vagy eredményrontó tényező. • Ha igen választ adna, kérjük, jelezze az adott tényező irányát is (eredményjavító vagy eredményrontó), majd a lehető legpontosabban írja le, mit tapasztalt. 1.
Olvasás (olvasott szöveg értése) vizsgarész igen: nem: eredményjavító: eredményrontó Mit tapasztalt? Melyik feladatnál, kérdésnél, szövegnél? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
2.
Írásbeli fogalmazási (kompozíciós) vizsgarész igen: nem: eredményjavító: eredményrontó Mit tapasztalt? Melyik feladatnál? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
3.
Nyelvismeret (nyelvhelyesség, nyelvtan stb.) Csak ott töltsék ki, ahol ez releváns! igen: nem: eredményjavító: eredményrontó Mit tapasztalt? Melyik feladatnál, kérdésnél, szövegnél? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
4.
Beszédértés (hallott szöveg értése) igen: nem: eredményjavító: eredményrontó Mit tapasztalt? Melyik feladatnál? Hanganyag minősége? Hangosítás, ültetés, stb? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
53
5.
Beszédkészség (szóbeli) igen: nem: eredményjavító: eredményrontó Mit tapasztalt? Melyik feladatnál? Vizsgáztatók szerepe? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
6.
Közvetítés (fordítás, mediáció) Csak ott töltsék ki, ahol ez releváns! igen: nem: eredményjavító: eredményrontó Mit tapasztalt? Melyik feladatnál? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
10.3.1.1.
Néhány, a vizsga égészére vonatkozó kérdés:
1.
Volt-e bármilyen egyéb tényező, amelyet eddig nem írt le, de amelynek eredményjavító vagy eredményrontó szerepe volt, esetleg olyan, amely több vizsgarészre együttesen érvényes? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
2.
Összességében az Ön által letett vizsga jól tükrözheti-e az Ön nyelvtudását? Igen: Nem: Miért igen vagy miért nem? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
3.
E kérdőív kitöltése idején ismeri-e már az eredményt? Igen:
4.
A vizsga megszervezésének minősége, lebonyolításának módja is lehet eredményjavító, de leginkább eredményrontó tényező. Az Ön által letett vizsgának – megítélése szerint – volt-e ilyen jellemzője? Igen: Nem: Ha igen, kérjük, röviden írja le, mi történt. ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
5.
Vizsgabiztonság: van-e tudomása arról, ismerték-e vizsgázó társai a vizsgaanyagot előre? Igen: Nem: Mit tapasztalt? ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________ ____________________________________________________________________________________________
54
Nem:
Részben: