Analýza výsledků testu - slovníček aktuálních pojmů.
Úlohy zařazované do testů jsou různého typu. V uzavřených úlohách a uzavřených podúlohách svazku žák vybírá odpověď z několika nabízených alternativ. Právě jedna z nich (v našich podmínkách) je správná, ostatní jsou nesprávné a nazývají se distraktory. V otevřených úlohách odpověď vytváří žák (číslo, text, nákres apod.). Hodnotitel (komise apod.) za uvedené řešení přidělí body v souladu s pokyny k hodnocení, a to případně i za částečné řešení. Svazek sestavený z několika úloh (v takovém postavení je nazýváme podúlohy) se hodnotí jako celek. Jsou stanovena pravidla pro přidělování počtu bodů za určitý počet správně vyřešených podúloh svazku. Svazkem lze přesněji ohodnotit určitou vědomost či dovednost, navíc jím lze snížit chybu měření způsobenou hádáním. Uspořádací úlohy jsou atraktivní součástí testu a mívají dobré psychometrické vlastnosti. Z formálního hlediska (z hlediska zpracování výsledků) nepředstavují v našich podmínkách zvláštní typ. Můžeme se na ně dívat jako na svazky, kde body jsou přiděleny výhradně za všechny správné odpovědi, tedy za zcela správné řešení. Výsledek řešení úlohy je vždy vyjádřen určitým počtem bodů, které jsou žákovi za vyřešenou úlohu přiděleny. Pravidla pro bodování úlohy jsou obsažena v klíči správných řešení a v otevřených úlohách podrobně popsána v pokynech k hodnocení. Výsledek řešení testu Obvykle, zejména při plošném testování, se přirozeně zajímáme také o celkový výsledek testu. Počítá se a interpretuje: bodový skór, který získáme, sečteme-li u daného žáka získané body za celý test; procentní skór, který získáme, pokud bodový skór vydělíme maximálně dosažitelným počtem bodů a vyjádříme v procentech. Pokud nemůže dojít k nedorozumění, připouštíme, že místo přesnějšího pojmu procentní skór se běžně používá pojem úspěšnost. Cut-off score (hranice úspěšnosti) je limit stanovený pro daný test. Pokud jej žák nedosáhne nebo nepřekročí, v testu neuspěl. Podíl žáků, kteří v testu neuspěli, k celkovému počtu žáků vyjadřujeme v procentech a jde o neúspěšnost (podrobněji viz níže). Rozdělení četností poskytuje kompletní informaci o výsledcích všech žáků v testu. Říká, kterých výsledků bylo dosaženo a kolikrát. Rozdělení četností zobrazí graficky histogram (viz graf vpravo), kde na vodorovné ose jsou možné hodnoty (nebo vhodně zvolené intervaly), svislá osa je vyhrazena právě četnostem či relativním četnostem udávajícím procento celkového počtu žáků, kteří dosáhli konkrétního výsledku. Výsledkem testu může být bodový skór nebo procentní skór.
Centrum pro zjišťování výsledků vzdělávání — CERMAT Jankovcova 933/63, 170 00 Praha 7, tel.: +420 224 507 507 www.cermat.cz, www.novamaturita.cz
Graf kumulativní četnosti obsahuje ve sloupci procento všech žáků, kteří nedosáhli lepšího výsledku. Průměrná úspěšnost (průměrný procentní skór) je základní charakteristikou při analýze výsledků testu. Vyjadřuje průměrnou úroveň vědomostí, dovedností atd. pro danou množinu žáků (s určitou chybou i pro populaci, z níž by byla tato množina žáků reprezentativním výběrem). V některých analytických výstupech (položková analýza – viz níže) se výše definovaná úspěšnost označuje jako čistá (na rozdíl od tzv. hrubé úspěšnosti). Hrubá úspěšnost je pojem, který má specifický význam tehdy, jestliže test obsahuje otevřené úlohy a u nich se hodnotí i částečné řešení. O hrubé úspěšnosti úloh mluvíme tehdy, jestliže ohodnotíme jen úplné a bezchybné řešení. Uvádí tedy procento žáků, kteří úlohu vyřešili bezchybně. Hrubá úspěšnost testu je definována odlišným způsobem, ale pro nás nemá praktický význam. Korigovaná úspěšnost se počítá běžným výše popsaným způsobem, ale pouze z úloh, o kterých se domníváme, že je žák přečetl a začal řešit. Pokud žák může úlohy řešit v libovolném pořadí, má sotva smysl tento ukazatel interpretovat. Medián úspěšnosti (také střední úspěšnost) je výsledek (úspěšnost) prostředního žáka; platí tedy, že počet žáků, kteří mají horší nebo lepší výsledek než medián, je stejný.
Variabilita výsledků je jev, o který se vedle úrovně výsledků zajímáme, hledáme-li odpověď na otázku, jak se žáci ve svých výsledcích liší. Zkoumáme-li úroveň znalostí a dovedností v nějaké množině žáků, nemělo by nám být lhostejné, zda daný průměrný skór byl dosažen tím, že jsou všichni průměrní, nebo zda jde o zprůměrovaný skór žáků velmi dobrých a velmi slabých. Pro získání odpovídající informace potřebujeme vhodné míry variability.
Směrodatná odchylka je míra variability, která se užívá nejčastěji. Vzorec a způsob výpočtu zde neuvádíme, ale v podstatě si můžeme představit, že vyjadřuje, jak se průměrně liší výsledek jednotlivého žáka od průměru celé množiny žáků (větší směrodatná odchylka ukazuje na větší variabilitu výsledků hodnocené skupiny).
Kvantil
Centrum pro zjišťování výsledků vzdělávání — CERMAT Jankovcova 933/63, 170 00 Praha 7, tel.: +420 224 507 507 www.cermat.cz, www.novamaturita.cz
je hodnota zkoumané veličiny (v našem případě například počtu bodů získaných žákem v testu), která odpovídá určitému umístění v souboru uspořádaném podle výsledků (od nejhoršího k nejlepšímu). Mezi nejdůležitější kvantily pak patří především hodnota uprostřed souboru, tedy medián (viz výše), který můžeme označit za 50. percentil (ten lze interpretovat tak, že 50 % žáků nemá lepší výsledek). Při zkoumání výsledků testu nás mohou zajímat také kvartily, tedy výsledky žáků, kteří se umístí na rozhraní první a druhé čtvrtiny nebo na hranici druhé a třetí třetiny či na hranici třetí a čtvrté čtvrtiny, Decily dělí soubor na deset stejně početných částí atd. Běžně se zjišťují a interpretují percentily, které dělí soubor na sto stejně početných částí. Kvantilové rozpětí se používá jako jednoduchá míra variability. Bylo by přirozené usuzovat o variabilitě jednoduše podle rozpětí mezi minimální a maximální hodnotou, ale to je příliš ovlivněno extrémy. Extrémy je vhodné nějakým způsobem z úvah vyloučit, což právě řeší použití kvantilových charakteristik variability. Decilové rozpětí tak vylučuje 10 % nejnižších a 10 % nejvyšších výsledků, a jde tedy o rozdíl mezi 90. A 10. percentilem. Podobně je definováno kvartilové rozpětí jako rozdíl mezi 75. a 25. percentilem. Percentilové umístění (také percentilové pořadí) je kumulativní relativní četnost (viz výše); při analýze výsledků testů udává pro každého žáka, kolik procent žáků dosáhlo horšího nebo stejného výsledku. Práce s percentilovým umístěním umožňuje za určitých předpokladů srovnávat žáky, kteří řešili různé varianty testu. Vlastnosti úlohy posuzujeme především a priori při sestavování testu, ověřujeme try-outy a pilotážemi, ale také hodnotíme ex–post, na základě výsledků testování. Jde zejména o obtížnost úlohy a schopnost diskriminace (citlivost). Diskriminační schopnost (citlivost) úlohy vypovídá o schopnosti úlohy rozlišovat mezi žáky s většími znalostmi a dovednostmi a žáky s menšími znalostmi a dovednostmi. K rozlišení žáků na „lepší“ a „slabší“ se většinou používá jejich celkový výsledek v testu. Vysokou citlivost má taková úloha, kterou řeší lepší žáci podstatně úspěšněji než žáci slabší. V případě, že jsou v řešení úlohy úspěšnější slabší žáci, obsahuje úloha pravděpodobně nějakou konstrukční chybu. Míra diskriminace ULI (upper-lower index) je často využívána pro svou jednoduchost. Jde o rozdíl v průměrném procentním skóru mezi nejlepšími a nejslabšími žáky, v našich podmínkách jde konkrétně o čtvrtinu nejlepších a nejslabších. Diskriminační schopnost souvisí s ostatními charakteristikami testové úlohy, například s obtížností. Při interpretaci je proto nutné vzít v úvahu i další psychometrické charakteristiky úlohy. Jednoduše platí, že zařazování úloh s velmi nízkou, nebo dokonce zápornou diskriminací je nevhodné.
Korelace RIR (korelační koeficient item-rest) je další psychometrickou charakteristikou, kterou využíváme při analýze výsledků testu. Vypočítá se jako korelační koeficient mezi skórem dosaženým v dané testové úloze a celkovým skórem testu při vyloučení dané úlohy. Nabývá hodnot od -1 do 1. Čím blíže je hodnota krajním pólům intervalu <-1;1>, tím silnější je vzájemný vztah mezi úspěšností v dané úloze a úspěšností ve zbytku testu. Záporné hodnoty znamenají, že žáci, kteří správně řešili danou testovou úlohu, dosáhli spíše nízkého celkového skóre ve zbytku testu, a naopak. Kladné hodnoty svědčí o tom, že žáci úspěšní v řešení dané úlohy byli rovněž úspěšní při řešení ostatních úloh, tj. celého testu. Zjistíme tak, zda úloha tematicky, svým zaměřením a obsahem patří do testu. Často však víme předem, že test se zaměřuje na odlišná témata, odlišné kompetence atd., a je tedy namístě určitá zdrženlivost při interpretaci. Centrum pro zjišťování výsledků vzdělávání — CERMAT Jankovcova 933/63, 170 00 Praha 7, tel.: +420 224 507 507 www.cermat.cz, www.novamaturita.cz
Graf průběhu úspěšnosti (diskriminační křivka) znázorňuje úspěšnost žáků v testové úloze v závislosti na jejich celkovém výsledku. Při vytváření grafu se postupuje následujícím způsobem: žáci se uspořádají podle skóru v testu do pořadí od nejlepších po nejslabší, rozdělí se na několik (například deset) stejně početných skupin, pro každou skupinu se vypočítá průměrná úspěšnost žáků v řešení dané testové úlohy a průměrné úspěšnosti se nanesou do grafu. Propojením bodů vyjadřujících průměrné úspěšnosti žáků jednotlivých skupin v řešení úlohy vznikne diskriminační křivka. Položková analýza je komplexní metoda vyhodnocení realizovaného testu, obsahuje detailní výsledky pro každou úlohu (také svazek a jeho podúlohy) a souhrnné výsledky za celý test. Jde o hodnoty vhodných statistických a testologických charakteristik, zmíněných výše, doplněné přehlednými grafy. V našich podmínkách vytváří položkovou analýzu program Restan a výsledky shrnuje navazující program Gepard. Souhrnné výsledky plošného testování mají poskytnout komplexní pohled na vědomosti a dovednosti testovaných žáků. Pro plošné testování (mj. maturitní zkouška) je charakteristický předem stanovený cut-off score. Testování předchází proces přihlašování. Existuje množina žáků, kteří byli ke zkoušce přihlášeni, ale test nekonali, což je také pro hodnocení významné. Proto se v souhrnných výsledcích, kromě výše popsaných statistických charakteristik, uvádějí ukazatele neúspěšnosti. Počítáme: podíl žáků s výsledkem nedosahujícím cut-off score k počtu žáků konajících test, což je čistá neúspěšnost; podíl neúspěšných žáků (kteří zkoušku nekonali nebo ji konali neúspěšně) k počtu všech přihlášených žáků, což je hrubá neúspěšnost. Komplexní zkouška je složena z několika dílčích zkoušek (v našich podmínkách zkouška z českého jazyka a literatury a zkouška z cizího jazyka je složena z didaktického testu, písemné zkoušky a ústní zkoušky). Požadujeme-li celkové hodnocení za komplexní zkoušku, musíme stanovit: pravidlo pro rozhodnutí o neúspěšnosti v komplexní zkoušce (pro maturitu aktuálně platí, že neúspěšný je ten žák, který nevykonal úspěšně všechny dílčí zkoušky, nemusí však opakovat celou zkoušku, ale jen tu dílčí zkoušku, ve které neuspěl; počítání opravných pokusů se však vždy vztahuje k celé zkoušce, nikoli samostatně k dílčím zkouškám); pravidlo pro zapracování procentních skórů dosažených v dílčích zkouškách do celkového procentního skóru zkoušky; je nutné rozhodnout o vahách dílčích zkoušek (např. u MZ z cizích jazyků pro DT:PP:UZ jsou stanoveny váhy 2:1:1 (DT zahrnuje dva subtesty), u MZ z českého jazyka a literatury jsou váhy 1:1:1). Podezřelé úlohy Abychom poskytli objektivní základ pro rozhodování ex-post o kvalitě a přípustnosti úloh v testu, označujeme zcela formálně s využitím položkové analýzy jako podezřelé ty úlohy, které se nějakým způsobem vymykají obvyklým nebo požadovaným vlastnostem úloh. Považujeme za podezřelé, nikoliv však nutně za vadné:
příliš snadné úlohy (vyřešilo více než 95 % žáků); příliš obtížné úlohy (vyřešilo méně než 20 % žáků); špatně rozlišující úlohy (míra diskriminace ULI menší než 20 %);
Centrum pro zjišťování výsledků vzdělávání — CERMAT Jankovcova 933/63, 170 00 Praha 7, tel.: +420 224 507 507 www.cermat.cz, www.novamaturita.cz
úlohy vymykající se zaměření testu (korelační koeficient RIR menší než 0,2); uzavřené úlohy, v nichž žáci dali přednost některému distraktoru před správným řešením; uzavřené úlohy, v nichž nejlepší žáci (čtvrtina s nejlepším výsledkem daného testu jako celku) dali přednost některému distraktoru před správným řešením.
Formální charakteristiky úloh ovlivňuje jak kvalita úloh, tak i kvalita testovaného souboru. Např. při podzimních maturitách převažují velmi slabí žáci, kteří jsou v jarních maturitách naopak zastoupeni v menší míře. Proto se na podzim značně snižuje očekávaná úspěšnost úloh, výrazně se snižuje i jejich diskriminační schopnost, některé běžně opomíjené distraktory se stávají velmi přitažlivými, RIR může významně klesat apod.
Centrum pro zjišťování výsledků vzdělávání — CERMAT Jankovcova 933/63, 170 00 Praha 7, tel.: +420 224 507 507 www.cermat.cz, www.novamaturita.cz