Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické a pojistné inženýrství
Diplomant: Václav Otřísal Vedoucí diplomové práce: doc. Ing. Iva Pecáková, CSc.
STATISTIKA VE VÝVOJI ZKUŠEBNÍHO TESTU
školní rok 2009/2010
Prohlášení Prohlašuji, že jsem diplomovou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal.
V Praze dne 6. ledna 2010 ………………………………. podpis
PODĚKOVÁNÍ Na tomto místě bych rád poděkoval všem, kteří mi při psaní diplomové práce pomáhali a podporovali mě. Především děkuji své rodině za podporu v průběhu celého studia. Dále vedoucí mé diplomové práce doc. Ing. Ivě Pecákové, CSc., bez jejíhož přispění by práce v této podobě nevznikla. Rád bych také poděkoval společnosti Scio, od které pocházejí data pro analýzy v této práci.
ABSTRAKT Práce se zabývá využitím statistiky v průběhu vývoje hodnotícího testu a nastiňuje také možnosti jejího využití po sestavení konečné verze testu. V první části poskytuje práce teoretické základy týkající se obecného postupu vývoje hodnotícího testu. Ve druhé části se pak zabývá tím, jak přispívá statistika ke zvýšení kvality sestavovaného testu. Konkrétné jde o hodnocení položkové analýzy, jako nástroje k posouzení kvality testových položek. Mezi dalšími práce obsahuje poznatky o reliabilitě a validitě testu a o možnostech srovnání více testových variant. V analytické části práce jsou provedeny analýzy kvality testu OSP z pohledu stability výsledků v něm. Následuje analýza predikční validity testu OSP, řešena je také kvalita dat z pilotování. Klíčová slova: Teorie vývoje testu, reliabilita, validita, položková analýza, test
ABSTRACT The paper deals with a justifiability of the application of statistics in the process of test development. It also aims to show possibilities of its application on the final test version. The first part of the thesis brings up the fundamentals of test development theory. The second part aims to describe general impact of statistics application on the test qualities. It further focuses on item analysis as one of the tool to evaluate test items qualities. Among others it includes information about reliability and validity analysis so as about the test equating methods. The analytical part contains analysis conducted on the OSP test. The analytical part also deals with predicted test validity and with the quality level of data gained from pretesting. Keywords: Test development, reliability, validity, item analysis, test
OBSAH PRÁCE 1 - ÚVOD ..................................................................................................... 1 2 – VYUŽITELNOST STATISTIKY PŘI VÝVOJI HODNOTÍCÍHO TESTU 3 2.1 - DEFINICE TESTU A JEHO TYPY, VYUŽITÍ STATISTIKY .......................3 2.2 – SESTAVENÍ HODNOTÍCÍHO TESTU ......................................................5 2.2.1 – SPECIFIKAČNÍ TABULKA, TYPY POLOŽEK, ZADÁNÍ AUTORŮM ........................... 6 2.2.2 – PILOTNÍ VERZE TESTU, POLOŽKOVÁ ANALÝZA ............................................... 13 2.2.3 – SESTAVENÍ REDUNDANTNÍ VERZE................................................................... 20 RELIABILITA ................................................................................................ 20 SROVNÁNÍ VÍCE TESTOVÝCH VARIANT ............................................................ 23 OPONENTURA, PRETESTACE, KOREKTURY, FINÁLNÍ VERZE ............................. 27
3 – SROVNÁVACÍ ANALÝZY KVALITY TESTOVÝCH VARIANT.......... 28 3.1 - TESTY O SHODĚ STŘEDNÍCH HODNOT.............................................30 3.1.1 - ANALÝZA ROZPTYLU (ANOVA)..................................................................... 30 SHAPIRŮV-WILKŮV TEST.............................................................................. 30 BARTLETTŮV TEST ....................................................................................... 31 3.1.2 - KRUSKALLŮV-WALLISŮV TEST ....................................................................... 32 3.1.3 - WILCOXONŮV TEST PRO 2 ZÁVISLÉ VÝBĚRY ................................................... 33 3.2.3 – VALIDITA TESTU ............................................................................................ 36
4 – ANALYTICKÁ ČÁST .......................................................................... 40 4.1 – ZNALOSTNÍ TESTY...............................................................................40 4.2 – TEST DOVEDNOSTÍ .............................................................................45 4.2.1 – ANALÝZA VLIVU REFERENČNÍCH ÚLOH .......................................................... 45 4.2.2 – ANALÝZA ZLEPŠENÍ VÝSLEDKU ..................................................................... 52 4.2.3 – ANALÝZA PREDIKČNÍ VALIDITY ..................................................................... 54 4.3.1 – VLIV ZNÁMKY NA ÚSPĚŠNOST V TESTU .......................................................... 64
5 – ZÁVĚR ................................................................................................ 69 6 – POUŽITÁ LITERATURA..................................................................... 72 7 - PŘÍLOHY ............................................................................................. 75
1 - ÚVOD Historie testování se datuje k počátkům minulého století a je spojována se jménem Alfreda Binota. Ten se ve své práci věnoval převážně testování inteligence – první svou stupnici sestavil již v roce 1905. Jím používaný test byl založen na principu adaptivity. V takovém typu testu jsou otázky řazeny postupně podle stoupající obtížnosti, a testuje se do doby, než testovaný několikrát odpoví špatně. Po převážnou většinu 20. století nebyl tento princip využíván a začíná se opět prosazovat až v poslední době. Testování přešlo do podvědomí široké veřejnosti jako samozřejmá součást života. Nejde ve všech případech samozřejmě jen o testování na úrovni vzdělávacích institucí. Stále více je využíváno testů z personalistických důvodů. Ne vždy je možné, aby testy vyvíjela sama škola, nebo firma. Vznikají tak celé firmy, které se na vývoj testů specializují. Mezi země s nejdelší tradicí profesionálního vývoje testu patří USA, Velká Británie a severské země, především Finsko. V Čechách v současné době existují dvě velké společnosti. Jsou jimi na jedné straně státní CERMAT a Scio, které reprezentuje soukromý sektor. Testy jsou samozřejmě dále vyvíjeny jednotlivci pro vlastní potřeby. Je ale zřejmé, že ti nemají vždy k dispozici potřebné informace, peníze a čas k vývoji kvalitního testu. Z tohoto pohledu tak mezi jednotlivci a specializovanými firmami existují značné rozdíly. V každém testu jde především o obsahovou stránku. Dokáže specializovaná společnost vyvinout lepší test než jednotlivec – specialista v oboru? Odpověď není jistě jednoznačná. Ale časové a finanční možnosti zvýhodňují firmy před jednotlivcem. Ten nemá čas kontrolovat kvalitu testových položek, testu jako celku. Mnohdy to ani není v jeho zájmu. Není možné, ani nutné, chtít po učiteli chemie, aby každý z jeho testů použitých v průběhu roku prošel celým procesem vývoje. Důvodem existence celých specializovaných firem na vývoj testu je jednoduchý – kvalita přijatého uchazeče. Pod tímto pojmem je možné rozumět nejen uchazeče o studium – budoucího studenta, ale také např. budoucího zaměstnance. Test vyvinutý jednotlivcem může dobře sloužit vyučujícímu k průběžné kontrole znalostí nebo schopností. Není tak kladen důraz na jeho kvalitu z pohledu náročnosti jeho vývoje. V zásadních případech, jako je přijímání nových studentů nebo zaměstnanců, půjde vždy
1
o jejich kvalitu. Test, kterým tedy případně projdou, musí být schopen objektivně rozdělit uchazeče na vyhovující a nevyhovující. V ideálním případě by měl výsledek testu korelovat se schopností uchazeče být uspět v samotném studiu nebo zaměstnání. Má práce by měla ukázat, že statistika je v procesu vývoje testu nejen využitelná, ale i potřebná. Podpořit toto tvrzení by měly informace z teoretické části, kde bude popsána náročnost celého procesu vývoje a nastíněny možnosti práce s daty. Dále samozřejmě popis metod, které dále použiji v analytické části a analytická část samotná. V té bych se chtěl zaměřit na kvalitu výsledků testu obecných studijních předpokladů (dále OSP). Ten je v současné době využíván na 60 fakultách vysokých škol v České republice jako hlavní kritérium pro přijetí ke studiu. Nejde ale jen o vysoké školy. Test je v jiné verzi používán také pro přijímací zkoušky na střední školy a při přijímání uchazečů do zaměstnání. Kvalitou výsledků je zde myšlena jejich stabilita a predikční schopnost. Test je teoreticky postaven tak, aby při jeho opakovaném využití nedocházelo k systematickým a postupným zlepšováním výsledků. Zároveň by měl být schopen dobře předpovídat budoucí úspěch ve studiu. To ověřím pomocí analýzy predikční validity na datech od několika vysokých škol. Pokusím se za pomoci dostupných informací a dat zhodnotit také dopady nevyužití statistiky. Ty mohou být v různé fázi procesu vývoje různé.
2
2 – VYUŽITELNOST STATISTIKY PŘI VÝVOJI HODNOTÍCÍHO TESTU
2.1 - DEFINICE TESTU A JEHO TYPY, VYUŽITÍ STATISTIKY Pod pojmem hodnotící test se pro účely této práce rozumí souhrn testových položek sjednocených do jednoho celku za účelem zjištění předem stanoveného znaku u jedince nebo skupiny jedinců. Účely testu mohou být dále různé – obecně rozeznáváme dva základní typy testů – test absolutního výkonu a test relativního výkonu [32]. Test absolutního výkonu, někdy bývá též označován jako ověřovací test, se používá v případech, kdy je třeba hodnotit znalosti jedince v dané oblasti. Používá se v průběhu učebního procesu, kdy funguje hlavně jako zpětná vazba po probrání konkrétní oblasti, kapitoly učiva. Test má určit především kvalitu a hloubku získaných informací. V následném hodnocení jednotlivých testových položek je možné nalézt i takové, které zodpověděli správně všichni testovaní žáci – jejich úspěšnost je tak 100 %. Úkolem takového testu tedy není primárně vybrat mezi žáky ty nejlepší pro nějaký účel, nebo je porovnávat. Vzhledem k úzké vazbě těchto testů na výuku, bývají tyto typy testů nejčastěji vyvíjeny samotnými učiteli. Aplikace postupu vývoje testu v podobě, v jaké bude představena později, nemá v tomto případě smysl už jen proto, že výsledky slouží k jednorázovému zhodnocení znalostí testovaných. Není zde potřeba, aby výsledky testu byly nějakým způsobem dále využity při předpovídání jiných znaků, jako je úspěšnost v dalším studiu a podobně. Jeho výsledek je zde hlavně v podobě výstupu typu zvládl – nezvládl [32]. Testy relativního výkonu jsou opakem výše uvedeného. Narozdíl od testů absolutního výkonu se používají převážně v závěrečných fázích procesu – jako je konec školního roku, konec studia, přijímací zkoušky. Jejich záběr je mnohem větší než u testů absolutního výkonu. Jak již bylo uvedeno, výsledky takových testů bývají ve formě finálního, souhrnného hodnocení, které vyplývá z porovnání s nějakou předem danou skupinou - třída, ročník. Testy bývají jinak stavěny z toho důvodu, že je potřeba otestovat znalosti žáků v široké oblasti vědomostí. Je tak potřeba vybrat reprezentativní testové položky, které v první řadě odpovídají probíranému učivu a tomu, co má být účelem 3
testování. Zároveň by ale měly mít požadované empirické vlastnosti typu úspěšnost, diskriminace [32]. Úspěšnost znamená v pojetí testové teorie procento správně vyřešených testových položek (později bude definována čistá a hrubá úspěšnost). Obecná teorie doporučuje celkovou úspěšnost v testu okolo 50 %. Test s takovým parametrem má první předpoklad pro to, aby bylo možné dobře rozlišit mezi „dobrými“ a „špatnými“ uchazeči. To by v případě příliš těžkého nebo příliš lehkého testu nebylo objektivně možné. Uchazeče je možné rozdělovat do skupin na základě výkonnosti v testu a porovnávat nejlepší a nejhorší pětinu uchazečů. To je základem analýzy síly diskriminace testové položky. Diskriminační schopnost je vlastnost položky nebo testu rozlišovat mezi „dobrými“ a špatnými uchazeči. Statistické metody, jak bude ukázáno, je možně použít v průběhu vývoje testu, ale i k hodnocení jeho kvalit po provedení testování (analýza predikční validity).
4
2.2 – SESTAVENÍ HODNOTÍCÍHO TESTU Existují obecná pravidla pro postup při sestavování nového testu. Nejdůležitější počáteční úvahou ale samozřejmě je, k jakému účelu je test sestavován a k čemu má dále sloužit. Pro účely této práce vymezím ještě další dva termíny týkající se typu testu – jde o testy předmětové a dovednostní testy relativního výkonu. U předmětových testů, jak již z názvu vyplývá, je základem test z konkrétního předmětu. V této práci půjde konkrétně o test z matematiky. Hlavním úkolem předmětového typu testu je především zmapování znalostí získaných v předchozím průběhu studia. V případě takového testu je na místě položková analýza a jistě i otázka srovnatelnosti více variant takového testu – v případě, že by tyto varianty sloužily pro účel jednoho rozhodnutí. Druhou skupinu testů pak tvoří dovednostní testy relativního výkonu – pro účely této práce jde o zmiňovaný test OSP, který netestuje žádné rámcové předmětové znalosti, ale měl by sloužit k zhodnocení předpokladů uchazeče k budoucímu studiu. Je tak nutné, aby takový test dobře koreloval s výsledky dosaženými v dalším studiu. To není vždy jednoduché zjistit, navíc je nutné si uvědomit, že ani to nám s jistotou neřekne, jak test předpovídá úspěšnost ve studiu. Existuje mnoho faktorů, které úspěšnost ovlivňují, aniž by souvisely s intelektem studenta. Po testu typu OSP oprávněně požadujeme také určitou stabilitu výsledků. Jestliže má totiž student možnost test absolvovat několikrát (v případě Národních srovnávacích zkoušek sloužících jako přijímací zkoušky na VŠ tuto možnost má), neměl by znevýhodňovat uchazeče absolvující méně pokusů. Stabilitou je tedy míněna nemožnost se v testu systematicky zlepšovat při opakovaných pokusech. Při opakovaných pokusech vzniká ještě jedna komplikace a to nutnost srovnatelnosti výsledků z několika variant testu. Bez toho by nebylo možné správně vybírat uchazeče (podrobněji v kapitole 2.2.3).
5
2.2.1 – SPECIFIKAČNÍ TABULKA, TYPY POLOŽEK, ZADÁNÍ AUTORŮM Po definování účelu by u předmětového testu měla následovat tvorba specifikační tabulky, která popisuje zastoupení jednotlivých kapitol učiva ve vlastním testu. Jistě se zde nejedná o úkol statistika, ale profesionála z oboru. Tabulka by měla obsahovat témata dobře reprezentující znalosti, které chceme testovat. Kromě vlastního znalostního základu je nutné stanovit také časovou náročnost vyplývající z počtu úloh v budoucím testu. Příklad zobecněné verze specifikační tabulky pro případ testu tvořeného pro přijímací zkoušky z matematiky na víceletá gymnázia uvádím v tabulce 1. Tabulka 1 - specifikační tabulka pro přijímací zkoušky z matematiky z páté třídy na osmiletá gymnázia: specifikační tabulka - matematika téma ARITMETIKA Přirozená čísla a číslo nula Desetinná čísla Zlomky GEOMETRIE Trojúhelník Mnohoúhelníky Tělesa FUNKCE, ROVNICE, NEROVNICE Soustava souřadnic Diagramy
Bloomova taxonomie
počet úloh znalost porozumění 15 3 8 8 1 4 4 1 2 3 1 2 10 2 5 3 1 1 4 1 2 3 0 2 5 0 2 2 0 1 3 0 1
aplikace 4 3 1 0 3 1 1 1 3 1 2
Kromě obsahové části, která tvoří naprostý základ při tvorbě testu je důležitá i druhá tzv. kognitivní část zaměřená na testované schopnosti žáků. Většinou se zde vychází z tzv. Bloomovy taxonomie [2], podle něhož se kognitivní část dá rozdělit na 6 tříd položek – schopností. Jsou jimi znalost, porozumění, aplikace, analýza, syntéza a hodnotící posouzení. Ne vždy jsou zastoupeny všechny uvedené třídy. Vždy záleží na tom, jaké informace má test o uchazeči poskytnout. Význam jednotlivých tříd je poměrně zřejmý z jejich pojmenování. První třídou je znalost, která má posoudit, jak si uchazeč osvojil základy z testované oblasti. Tato třída nevyžaduje od testovaného žádné další úsilí. Další třídy v pořadí, v jakém jsou uváděny, kladou na uchazeče stoupající nároky. V případě porozumění již nejde jen o prosté zvládnutí látky, ale o schopnost porozumět předkládanému textu a dokázat ho vlastními
6
slovy vyložit. S dalšími třídami roste nutnost využívat získané informace k aplikaci na jiných případech. Analýza, syntéza a hodnotící posouzení se v testech, které budu využívat při dalších analýzách, nevyskytuje. Je ale zřejmé, že analýza má za úkol zjišťovat schopnost popsat systém a schopnost definovat jednotlivé jeho součásti a jejich vzájemné vazby. Syntéza naopak schopnost z dílčích bodů složit celek. Poslední kategorií je hodnotící posouzení. U těchto položek by testovaný měl prokázat schopnost získat potřebné informace pro zhodnocení existujících faktů a teorií a co nejobjektivněji posoudit jejich kvalitu.
7
Příklad 2.1 - úloha na znalost Která z následujících jednotek patří mezi jednotky obsahu? A) hektolitr B) kilogram C) centimetr čtvereční D) kilometr
Počet diváků
Příklad 2.2 - úlohy na porozumění: 35 000 30 000 25 000 20 000 15 000 10 000 5 000 0 1
2
3 4 Týden
5
6
Uvedený graf ukazuje návštěvnost hokejového stadionu po dobu šesti týdnů. O kolik více diváků přišlo ve třetím týdnu než ve 4. a 5. týdnu dohromady? A) o 5 tisíc B) o 7 tisíc C) o 12 tisíc D) o 13 tisíc
8
Příklad 2.3 - úlohy na aplikaci:
Který z následujících geometrických útvarů má určitě alespoň jeden průsečík s kružnicí k na uvedeném obrázku? A) úsečka AC B) přímka BC C) kružnice se středem A a poloměrem r = |AB| D) kruh se středem A a průměrem d = |AB|
Kromě obsahových a kognitivních cílů je také nutné zvážit, jaké testové položky budeme v testu používat. Nejjednoduššími testovými položkami jsou beze sporu úlohy typu ANO-NE prezentující testovanému tvrzení, o jehož pravdivosti, či nepravdivosti má následně rozhodnout. Nevýhodou takových položek je nutně velmi přesná formulace, ve většině případů tak jde o základní znalost testovaného problému. Druhou nevýhodou je možnost hádání odpovědi – testovaný má 50% šanci, že ji zodpoví správně a to v případě hodnocení typu: správná odpověď = 1 bod, špatná odpověď = 0 bodů může hrát poměrně velký význam v konečném hodnocení. Míra vlivu je zde dána zastoupením otázek tohoto typu v testu. Možnost eliminace se nabízí – odečítání části bodu za nesprávnou odpověď. To by mělo alespoň částečně eliminovat tipování. Dále se při vývoji testu můžeme rozhodnout pro přiřazovací položky. Například – v levém sloupci známí vynálezci, v pravém sloupci vynálezy. Základním typem položky používané ve většině testů je položka s výběrem odpovědi. Úkolem testovaného je vybrat z několika variant nabízených odpovědí. Problémů s takovými úlohami je ale hned několik, z větší části by je ale mělo odstranit pilotní testování a datové výstupy z něj. Výstupní data jsou dále zpracována s pomocí nástrojů položkové analýzy. Základním problémem tesové položky je problém vhodného definování distraktorů (pod pojmem distraktor se v pojetí teorie testu rozumí nesprávná 9
možnost – v případě pěti alternativ odpovědí na otázku a jediné správné odpovědí má otázka 4 distraktory). Je nutné vycházet ze samotného zadání otázky a snahy najít nejpravděpodobnější možné chybné úvahy o správném řešení, které by poté měly být zařazeny jako distraktory. U zařazování distraktorů je nutné také kromě pravděpodobnosti jejich zvolení dbát na jejich vizuální stránku v porovnání se správným řešením. Je-li správné řešení jednoslovná varianta a všechny distraktory jsou celé věty, zvyšujeme pravděpodobnost, že uchazeč zvolí správné řešení i bez znalosti problematiky. Dále je nutné ověřit, jací žáci konkrétní distraktory volí a zda nedochází k tomu, že ho volí např. pouze nejlepší žáci – takový distraktor je matoucí a nenaplňuje svoji podstatu – více bude uvedeno v části týkající se pilotního testování a položkové analýzy.
Příklad 2.4 - položky s volbou odpovědi: 235** Kterou z následujících dvojic číslic je nutné v uvedeném pořadí doplnit místo hvězdiček, aby doplněné číslo bylo dělitelné šesti? A) 3 a 5
B) 5 a 2
C) 3 a 6
D) 0 a 2
Druhou velkou skupinou položek jsou položky vhodné k měření komplexních schopností žáků. Základním typem je položka k hodnocení schopnosti interpretace. Výchozím bodem těchto otázek bývá text uvedený před následnými otázkami ověřujícími schopnost testovaného porozumět a interpretovat získané informace. Položky mohou být typu souhlasím-nesouhlasím (ano-ne) i klasického typu položky s volbou odpovědi. A to v závislosti na cíli, který je sledován.
10
Příklad 2.5 - položky na interpretaci: V období romantické revoluce na počátku devatenáctého století byla postava Lukrécie velmi v módě a inspirovali se jí mnozí básníci a spisovatelé. Divadelní hra, kterou v roce 1833 sepsal Victor Hugo, ji proslavila snad nejvíce. O několik měsíců později se Lukrécie Borgia objevila na plakátech milánské La Scaly, která uváděla stejnojmennou operu Gaetana Donizzetiho. Victor Hugo popisuje Lukrécii jako požíračku mužů. Její milenci na jednu noc často končívali skokem do Tibery, nebo byli zavražděni. Zda se Hugův obraz shodoval se skutečností, je otázkou. Jisté je, že byla jednou z nejzajímavějších žen renesance. Proč Victor Hugo nazývá Lukrécii „požíračkou mužů”? A) Protože spousty mužů, kteří se s ní sblížili, zemřely. B) Protože ji tak nazývali ostatní básníci. C) Protože měla spousty mužů na jednu noc. D) Protože byla jednou z nejzajímavějších žen a muži ji obdivovali. E) Není jisté, zda ji tak Victor Hugo nazýval.
Neméně důležitým typem položek jsou položky s otevřenou odpovědí. V testové praxi se vede debata o tom, zda je vhodnější používat tento typ položky, nebo položku s výběrem odpovědi. K jasnému závěru zřejmě není možné dojít a oba typy položek mají jistě svá pro i proti. V případě otevřené odpovědi je hlavním problémem způsob a obtížnost vyhodnocování. Je nutné stanovit odpověď, kterou považujeme za zcela správnou a její jednotlivé modifikace. Je nutné přesně stanovit co a jak bude bodováno. Otázkou v tomto způsobu testování bude ale vždy míra objektivity, s jakou je otázka vyhodnocována. I v případě, že je jasně definován způsob hodnocení, zůstává otázka, jak vyhodnocovat takové otázky po technické stránce. V případě několika málo účastníků testování je jistě tento problém zanedbatelný – vyhodnocení proběhne ručně za účasti odborníků na danou problematiku. V případě tisíců testovaných je vyhodnocování komplikovanější a může ztratit objektivitu. Není totiž z časových i finančních důvodů možné najmout tým odborníků, který by posuzoval každého uchazeče. Hodnocení je pak provedeno strojově a jemné rozdíly v odpovědích uchazečů jsou potlačeny, což sníží objektivitu hodnocení.
11
V poslední době je hlavně na poli testů dovedností poukazováno na výhody spojené s využitím položek s rozšířenou odpovědí. Důvodem je potřeba takového testu, který bude kvalitně předpovídat budoucí úspěšnost ve studiu. V České republice se v této době ničeho podobného nevyužívá. Jinak je tomu v zahraničí, především v USA. Na konkrétních příkladech je vidět užitečnost zařazení těchto. Jako jeden z příkladů uvádím projekt Rainbow, dále používaný pod názvem Project Kaleidoscope na Tufts University poblíž Bostonu [22]. V České republice je zařazování takových úloh do testů poměrně složitou záležitostí, nejen z důvodu poměrně krátké tradice používání testů dovedností. Ačkoli tak mnohé fakulty již přistoupily na možnost přijímání podle výsledků testu OSP, byl by nutný další rozsáhlý výzkum týkající se použití úloh typů eseje v testech. V USA je používání testů dovedností již záležitost desítek let a stovek výzkumů. Kromě typů položek je nutné vyřešit také otázku množství testových položek. Je zřejmé, že není příliš vhodné vytvářet stejný počet položek, jaký je do testu potřeba. Vždy najdeme takové typy úloh, které budou z nějakého důvodu nevyhovující a jejich zařazením bychom kvalitu testu snížili. Obecným pravidlem je vytvoření dvojnásobného počtu testových položek, než je do testu v jeho konečné podobě potřeba.
12
2.2.2 – PILOTNÍ VERZE TESTU, POLOŽKOVÁ ANALÝZA Zadání obsahové a kognitivní stránky budoucího testu autorům je základ. Kvalitu úloh od autorů by měl posuzovat odborník. Ani on ale nedokáže zabránit výskytu chyb. Ty mohou být způsobeny přehlednutím, ale i špatnou formulací, kterou testovaní mohou chápat jinak. K odhalení takových chyb slouží pilotní testování a následná položková analýza, které by měly dát odpovědi na základní otázky ke kvalitě položek. Je nutné tedy otestovat položky v praxi. Ačkoli komplikací týkajících se pilotování je velké množství, získané informace mají velký význam pro další vývoj testu. Mezi komplikace při pilotování patří především výběr vhodného vzorku. S důsledností je nutné vybrat takovou skupinu testovaných, u níž je nejlépe nulová pravděpodobnost, že by se s testem v budoucnu setkala Lepší pozici je možné získat už jenom tím, že vytvořené testové položky rozdělíme náhodně do několika testů pilotovaných na různých místech. Pokud by tedy existovaly takoví žáci, kteří se zúčastnily pilotního testování a zároveň se budou účastnit i „ostrého“ testování, redukuje se tím počet položek, které by mohly znát. Výběr testovaných osob by měl samozřejmě také co nejlépe respektovat strukturu budoucích skutečně testovaných uchazečů. V opačném případě by z pochopitelných důvodů kvalita dat o položkách neměla velkou vypovídací hodnotu. Data, která z pilotního testování získáme, by měla sloužit hlavně k výběru vhodných položek pro sestavení redundantní verze testu, která je základem pro sestavení testu do podoby, ve které bude použit při závěrečném testování. Základem hodnocení těchto dat je položková analýza. Existuje několik základních pojmů používaných nejen ve spojitosti s analýzou jednotlivých položek, ale i při posuzování testu jako celku (ať jde o pilotní verzi nebo ostrý test). Jde o čistou úspěšnost, hrubou úspěšnost a korigovanou úspěšnost. Je potřeba se podívat i na statistiky ohledně toho, jak moc byla položka studenty vynechávána nebo vůbec nečtena. Čistá úspěšnost je poměr počtu získaných bodů všemi uchazeči k maximálnímu počtu bodů, kterého může být v testu těmito uchazeči dosaženo. Tj. hodnota čisté úspěšnosti se 13
bude pohybovat mezi 0 a 1. V případě testu, ve kterém je za špatnou odpověď část bodu odečtena, může nabývat i záporných hodnot. Korigovaná úspěšnost je čistá úspěšnost počítaná pouze pro ty, kteří se k úloze při řešení testu dostali. To znamená., že hodnota korigované úspěšnosti bude vyšší, než hodnota čisté úspěšnosti [30]. Čitatel zlomku zůstane stejný, jmenovatel se sníží o body z úloh, ke kterým se uchazeči nedostali. Vysoké procento takových úloh signalizuje především velkou časovou náročnost testu. Vynechaná úloha je taková úloha, na kterou účastník neodpověděl, nicméně odpověděl na některou z následujících úloh. Můžeme tedy předpokládat, že existoval důvod proč ji vynechal – byla obtížná, nenašel správné řešení, nebo byla nesrozumitelně formulovaná. Posledním zmíněným termínem je hrubá úspěšnost, což je poměr počtu správně zodpovězených úloh všemi účastníky a celkovým počtem úloh. Hodnota se tedy opět pohybuje v intervalu mezi 0 a 1. V případě, kdy se nebude odečítat část bodu za špatně zodpovězenou otázku, bude hodnota čisté a hrubé úspěšnosti stejná. V opačném případě bude hodnota čisté úspěšnosti nižší. Vysoké hodnoty jednotlivých typů úspěšnosti ukazují na nízkou obtížnost testu. Velké rozdíly mezi čistou a korigovanou úspěšností (v případě odečítání části bodu za špatnou odpověď) indikují vyšší časovou náročnost testu. V položkové analýze je možné využívat mnoha dalších statistických nástrojů kromě výše uvedených. První z nich je obtížnost úlohy, která počítá procento žáků, kteří úlohu zodpověděli špatně nebo ji vynechali [14] Q = 100
nn n
(2.1)
Zde nn je počet žáků kteří odpověděli nesprávně, nebo úlohu vynechali, n je pak celkový počet žáků. Doplňkovou charakteristikou je koeficient obtížnosti P, který naopak měří procento žáků odpovídajících na danou úlohu správně. Hodnoty P i Q se pohybují v intervalu 0 až 100. Vysoká hodnota P, resp. nízká hodnota Q, signalizují, že úloha má malou obtížnost. Vysoká hodnota Q, resp. nízká hodnota P, ukazují na úlohu s vysokou obtížností. Součet Q a P je roven 100. Důležité při hodnocení kvality položky je tzv. analýza diskriminační schopnosti úlohy. Vychází z rozdělení souboru testovaných žáků na několik skupin. Kritériem zařazení do
14
skupiny je úspěšnost uchazeče v testu. Pro účely analýzy diskriminace jsou vytvářeny skupiny „nejlepších“ a „nejhorších“ uchazečů. Velikost skupin může být různá, literatura uvádí několik možností od 20 do 33 % - hodnoty diskriminace pro kteroukoli hodnotu v tomto intervalu by měly být velmi podobné [20]. Jedním ze způsobů výpočtu diskriminační schopnosti úlohy je koeficient ULI používaný už A. P. Johnson [19]. Ten řeší v podstatě rozdíl koeficientů obtížnosti P (viz výše) pro skupinu nejlepších a nejhorších žáků. Udávané hodnoty jsou v procentech. ULI tak může nabývat hodnot od 100 % do −100 %. Maximální hodnoty dosahuje v případě, že na danou otázku odpověděli správně všichni žáci ze skupiny lepších a žádný žák ze skupiny horších. S rostoucí diskriminací položek v testu roste i hodnota reliability, která zjednodušeně hodnotí vliv náhody na výsledky v testu (hodnota reliability rovná 1 znamená, že neexistuje vliv náhody na výsledek v testu). Důvod je zřejmý. Neexistují-li žáci ze skupiny nejhorších, kteří by zodpovídali otázky správně, neexistuje ani šance, že by se dostali ve výsledném hodnocení před někoho ze skupiny nejlepších. Pak je vliv náhody nulový. Diskriminace celé otázky je hodnotou diskriminace pro správné řešení (viz tabulka 2). Správné řešení úlohy je v tomto případě odpověď D) označená hvězdičkou. Je vidět, že na úlohu správně odpovědělo 43,3 % z nejlepších žáků a žádný ze skupiny nejhorších žáků – tj. velikost ULI = 43,3 %. Taková hodnota diskriminace je už v praxi vývoje testu poměrně dobrá, ačkoli v lepším případě by mohla být i větší. V praxi vývoje testu se takových hodnot zpravidla nedosahuje a úlohy s diskriminační schopností vyšší než 40 % jsou považovány už za poměrně kvalitní. Vždy samozřejmě záleží na tom, jaké úlohy máme k dispozici. Vždy se do konečné verze testu snažíme vybrat položky s maximálními hodnotami diskriminace. Kromě hodnocení diskriminace položky se počítá hodnota diskriminace také pro jednotlivé distraktory [14]. Pro účely pilotování jsou úlohy tvořeny tak, že je vždy vytvořeno o jeden distraktor více, než je potřeba pro budoucí testování. Analýzou diskriminace distraktoru můžeme lépe rozhodnout, který z distraktorů vypustit. Špatnou odpověď by nemělo volit více žáků ze skupiny nejlepších, než žáků ze skupiny nejhorších. Koeficient ULI by tak měl nabývat záporných hodnot. V případě nulové hodnoty volil správnou odpověď stejný počet uchazečů z lepší i horší skupiny. Taková
15
varianta odpovědi je vyřazena vždy, pokud jde o správné řešení a ve většině případů, jedná-li se o distraktor.
Tabulka 2 Statistiky úlohy odp. A B C *D E
HrÚsp Nedos:
Celkem (%) 32,0 28,8 50,0 45,0 6,0 5,4 20,0 18,0 0,0 0,0
8,1% 0,9%
-1,8% 0,0%
ČistÚsp Vynech
Nejl 27 % (%) 6,0 20,0 11,0 36,7 0,0 0,0 13,0 43,3 0,0 0,0
Diskr 43,3% Neplat 2,7%
Nejh 27 % (%) 14,0 46,7 13,0 43,3 3,0 10,0 0,0 0,0 0,0 0,0
Diskr -26,7 -6,7 -10,0 43,3 0,0
Velikost skupiny jsem stanovil na 27 %. K výpočtům v tabulce 2 a dále také pro výpočty v tabulce 4 a tabulce 5 je využito koeficientu ULI. Analýza citlivosti používá i další metody k hodnocení diskriminační schopnosti. Jedním z příkladů je tetrachordický koeficient citlivosti. Ten je založen na sestavení následující čtyřpolní tabulky [14]: Tabulka 3 a c
b d
Zde a je počet žáků z lepší skupiny, kteří na otázku odpověděli správně, b – počet lepších odpovídajících špatně, analogicky c a d pro skupinu horších žáků. Tetrachordický koeficient se pak vypočítá podle vzorce: t tet = cos(180
bc bc + ad
)
Tetrachordický koeficient může nabývat hodnot z intervalu
(2.2)
− 1;1 . Podle uvedené
literatury by hodnota tohoto koeficientu v případě, kdy žáky rozdělím na poloviny horší a lepší, měla být větší než 0,15. V případě menších skupin horších a lepších žáků je třeba uplatňovat přísnější kritéria [14]. Předpokládal bych, že hodnoty tetrachordického 16
koeficientu porostou s tím, jak se bude zvyšovat poměr správně odpovídajících uchazečů ve skupině lepších. A že dojde ke snižování jeho hodnoty, jestliže bude stoupat počet správně odpovídajících ve skupině horších. Tabulka v příloze 1 zobrazuje všechny možné situace pro 20 žáků rozdělených na 2 skupiny po deseti žácích. Jak uvádí literatura, pro malé skupiny by mělo být nastaveno přísnější kritérium, jak přísné ale neuvádí. Je ale otázka, jestli je možné stanovit takovou hodnotu koeficientu, která by zabránila nelogickým situacím. Jak je možné se přesvědčit pohledem do tabulky, dokonce i při stanovení minimální hodnoty koeficientu na 0,5 se vyskytuje např. situace: a – 1, b – 9, c – 3, d – 7 – na otázku z lepších žáků odpověděl pouze 1 správně a devět špatně, z horších žáků 3 správně a 7 špatně. Hodnota koeficientu pro tuto variantu je dokonce 0,994. Tato úloha evidentně nedokáže dobře rozhodovat mezi dobrými a špatnými žáky, ačkoli hodnota koeficientu by tvrdila přesný opak. Je pravdou, že horší žáci odpovídají v 70 % na tuto otázku špatně, nicméně dobří v 90 %. To znamená, že horší žáci odpovídají pořád lépe než lepší žáci. Je tedy nutné brát tento koeficient s rezervou, případně se zamyslet, zda ho vůbec použít. Není vždy v možnostech posuzovatele zhodnotit, zda hodnota koeficientu opravdu odpovídá tomu, co měří, nebo se jedná o výjimku.
Poslední nástrojem, který uvádím, je bodově biseriální koeficient (point-biserial correlation coefficient) citlivosti ve tvaru:
r
b bis
=
xs − xn sx
pq ,
(2.3)
kde x s je průměrný počet bodů v testu u žáků, kteří danou úlohu řešili správně, x n pak průměrný počet bodů u žáků, kteří danou úlohu řešili špatně, s x je směrodatná odchylka vypočítaná ze všech testových výsledků, p = 0,01P, kde P je hodnota dříve uvedeného indexu obtížnosti úlohy, q = 1 – p [14]. U vyhovující úlohy by velikost tohoto koeficientu měla přesáhnout hodnotu 0,20. Koeficient nabývá hodnot b rbis ∈ − 1;1 [14]. Záporné hodnoty nejsou podle mého názoru možné. Pokud se na vzorec podíváme, odmocnina nemůže být záporná, směrodatná 17
odchylka také ne. Čitatel vyjít záporně reálně také nemůže, protože by to interpretačně znamenalo, že horší žáci získali v testu více bodů než lepší žáci. Pak by pojmenování těchto skupin ale nebylo správné. Hodnota p může být mezi 0 a 1, stejně jako její doplněk do jedné q. Maximální hodnoty nabývá odmocnina, je-li p = q = 0,5. To by znamenalo, že na otázku odpovědělo stejné procento žáků ze skupiny lepších jako ze skupiny horších. Z výše uvedeného tak vyplývá, že by diskriminace byla nulová, bodově biseriální koeficient ovšem směrem k větší vyrovnanosti roste. Jako u tetrachordického koeficientu je třeba se zamyslet nad jeho použitelností. V příkladech 2.6 a 2.7 jsou uvedeny ukázky vyřazování distraktoru. Existuje několik důvodů pro vyřazení konkrétní možnosti z otázky, např. je distraktor je, to znamená, že nikdo nebo minimum testovaných odpovědělo na otázku tímto způsobem. Dalším možným důvodem je, že je distraktor matoucí (viz dále).
Příklad 2.6 - úlohy na možné chybně označené správné řešení, nebo špatně formulované zadání úlohy: Ve čtvercovém parku jsou vysazeny buky tak, že v každém rohu parku stojí právě jeden buk. Na každé straně po obvodu parku stojí 6 buků. Kolik buků je celkem vysázeno po obvodu parku? A) 18
B) 20
C) 22
D) 24
E) 28
Tabulka 4 Statistiky úlohy odp. A *B C D E
HrÚsp Nedos:
Celkem (%) 14 12,6 9 8,1 4 3,6 31 27,9 41 36,9
8,1% ČistÚsp -12,2% Diskr 13,3% 0,9% Vynech 9,0% Neplat 0,9% Nejl 27 % (%) 0 0,0 6 20,0 1 3,0 11 36,7 12 40,0
18
Nejh 27 % (%) 7 23,3 1 3,3 0 0,0 9 30,0 8 26,7
Diskr -23,3 16,7 3,3 6,7 13,3
Z tabulky je vidět, že správné řešení mělo hrubou úspěšnost pouze 8,1 %. Za správnou odpověď ji považovalo pouze 8,1 % uchazečů. Z pohledu sestavovatele testu je to upozornění, že může být špatně označeno správné řešení. Z výpočtů vyplývá, že možnost B) je správným řešení. V takovém případě je třeba zamyslet se, zda není zadání matoucí a nad tím, proč uchazeči tak často volí varianty D) a E). Komplikace je zřejmě v tom, že pro jeden typ uchazečů je úloha chytákem a jednoduše vynásobí 4 · 6. Pro druhou skupinu není jednoznačně definované, že 6 stromů stojících na každé straně by mělo zahrnovat i stromy v rozích. Příklad 2.7 - úlohy, kdy jeden z distraktorů je v úloze zbytečný Pět sourozenců mělo dohromady v pokladničkách 70 Kč. Kolik korun měl průměrně v pokladničce každý z nich? A) 5 Kč
B) 12 Kč
C) 14 Kč
D) 20 Kč
E) 70 Kč
Tabulka 5 Statistiky úlohy odp. A *B C D E
HrÚsp 75,9% ČistÚsp 70,5% Diskr 42,0% Nedos: 0,0% Vynech 2,7% Neplat 0,0%
Celkem (%) 0 0,0 12 10,7 85 75,9 7 6,3 4 3,6
Nejl 27 % (%) 0 0,0 2 6,7 27 90,0 1 3,3 0 0,0
Nejh 27 % (%) 0 0,0 6 20,0 14 46,7 3 10,0 4 13,3
Diskr 0,0 -13,3 43,3 -6,7 -13,3
Z tabulky 5 je vidět, že distraktor A) nevolil nikdo z uchazečů. Je tedy v úloze zbytečně a je tedy na místě ho vyřadit (pokud jde o pilotní verzi testu).
19
2.2.3 – SESTAVENÍ REDUNDANTNÍ VERZE Po výběru položek pro test následuje sestavení tzv. redundantní verze testu. Oproti finální verzi má obvykle o 20 % otázek navíc. To z důvodu, aby bylo možné v dalším průběhu ověřování kvality položek vybrat opravdu ty nejvhodnější pro daný test. Postup je mírně odlišný v případě tvorby jedné, nebo více verzí testu. V případě jedné varianty testu se snažíme dostát specifikovaným požadavkům na čistou úspěšnost testu. Položky by měly být zařazovány v souladu se specifikační tabulkou. Kromě hodnocení pomocí jednotlivých typů úspěšnosti, je možné využít také hodnotu reliability. RELIABILITA Reliabilita je vlastností testu, která v podstatě hodnotí náhodnost výsledků v testování – jde tak v podstatě o jeho spolehlivost. Jde teoreticky o hodnotu korelačního koeficientu mezi opakovaným provedením stejného nebo podobného testu za stejných podmínek. Ačkoli korelační koeficient nabývá hodnot od −1 do 1, reliabilita je číslo, které v praxi bývá mezi 0 a 1. Proč je tomu tak? Představme si pro ilustraci případ, kdy můžeme stejným uchazečům dát dvakrát stejný test, aniž by si při druhém testování něco z předchozího testování pamatovali. Pak reliabilita bude jedna, pokud výsledné pořadí uchazečů zůstane zachováno – všichni napíší test stejně jako v prvním případě. Reliabilita −1 by znamenala, že ti nejlepší napíšou testy nejhůře a naopak. Takový test nemá z pochopitelných důvodů smysl používat. Rostoucí hodnota reliability může být tedy interpretována jako klesající vliv náhody na výsledky testu. Test s reliabilitou vyšší než 0,95 je pokládán za vynikající. Reliabilita 0,85 – 0,90 je považována za dostačující pro to, aby bylo možné na základě výsledků testu činit rozhodnutí vyplývající z jeho podstaty. S reliabilitou nad 0,65 je test možné použít jako jeden z podkladů pro rozhodnutí, pod 0,65 je už vliv náhody na výsledky test tak velký, že by neměl být test použit v rozhodovacím procesu [29]. Možností výpočtu reliability existuje několik, jako první uvedu metodu test-retest. V tomto postupu se zjišťuje, jak moc by se lišily výsledky uchazečů v případě opakovaného testování. Problémů takového přístupu je samozřejmě více, jeden však převažuje. Testujeme-li stejné subjekty, není možné spoléhat na fakt, že při opakovaném testování půjde dvě nezávislé hodnoty skóre. Jedním z důvodů proč tomu tak nebude je už samotná 20
zkušenost uchazeče s testem. Takový postup je tak možné uplatňovat pouze u testu dovedností, které zůstávají méně ovlivněné zkušeností s testem. Druhou možností je metoda vzájemně zaměnitelných testů (equivalent forms). V tomto případě jde jeden test rozdělený na 2 samostatně administrované části, který je testovaný na stejných uchazečích. Reliabilitou se v tomto případě rozumí korelační koeficient mezi výsledky uchazečů v těchto dvou částech. Nevýhodou tohoto postupu je hlavně nutnost zachování stejných podmínek při testování v obou případech. Necháme-li uchazeče odejít domů a přijít jiný den, může být jejich rozpoložení jiné v porovnání s prvním termínem. V případě, kdy obě části pouze oddělíme pauzou, může být testovaná osoba při řešení druhé části unavenější. V praxi testování se většinou vychází z metody rozdělení testu na dvě části (metoda splithalf). Uváděn je přístup rozdělení podle pořadí otázek - sudé, liché. V tomto případě ale musí jít o test „vnitřně homogenní“, to znamená, že sudé otázky nejsou úmyslně zaměřené na jedno téma liché na druhé. Tento přístup je možné používat v testech, které jsou rozsahem delší než 40 položek [20]. Výpočet reliability je možné provést na základě vzorce KR-20 (Kruder-Richardson formula 20) [6]: K ⎡ ⎤ pi qi ⎥ K ⎢ ∑ ⎢1 − i =1 2 ⎥ α= K −1 ⎢ σx ⎥ ⎢⎣ ⎥⎦
(2.4)
nebo pomocí v současnosti zřejmě nejpoužívanějšího Cronbach´s alpha [7]: N ⎡ σ Y2i ⎢ N ⎢ α= 1 − i =1 2 N −1 ⎢ σx ⎢ ⎣⎢
∑
⎤ ⎥ ⎥ ⎥ ⎥ ⎦⎥
(2.5)
N je počet úloh v testu, σ x2 je rozptyl výsledků testu a σ Y2i je rozptyl i-té testové položky. KR-20 je koeficient používaný v případě, kdy odpověď na otázku je dichotomickou proměnnou, tj. otázka typu správně – špatně. Cronbachovo alfa je tak v podstatě pouze rozšířením KR-20. 21
Určitou komplikací ve výpočtu je vliv délky testu na hodnotu reliability, ta s rostoucím počtem testových položek stoupá. Pro korekci uvedeného problému je možné použít Spearman-Brownův vzorec pro její korekci (Spearman-Brown prediction formula), který upravuje hodnotu reliability o rozsah testu [3], [21]:
* ρ xx ´ =
B ρ xx´ ; 1 + ( B − 1) ρ xx´
(2.6)
ρ xx´ je reliabilita testu a B vyjadřuje poměr mezi počtem otázek v „novém“ testu a
počtem položek v původním testu. Reliabilita má poměrně významný vliv na strukturu přijímaných uchazečů. Je-li vliv náhody velký, nemusí být mezi přijatými pouze ti opravdu nejlepší. Počet chybně přijatých studentů závisí tedy na hodnotě reliability, ale také na podílu přijímaných např. ke studiu (graf. 1) [25]. Graf 1:
Podíl mezi přijatými
Přijatí, místo nichž měl být přijat někdo jiný 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
podíl přijímaných: 5% 10% 60% 70%
0,95
0,85
20% 80%
0,75
30%
0,65
Reliabilita testu
22
40%
50%
0,55
0,45
SROVNÁNÍ VÍCE TESTOVÝCH VARIANT V případě více vytvářených variant testu je postup vývoje o něco komplikovanější. Otázkou je potřebná srovnatelnost jednotlivých variant, v ideálním případě by mělo jít o paralelní testy, tedy testy naprosto srovnatelné. Takové testy by měly být ve výsledku věrnou náhradou jednoho za druhý. Podle klasické teorie testu, na které uvedení autoři staví, by testové varianty měly splňovat následující kritéria:
μ X = μ X´
(2.7)
σ E2 = σ E2´
(2.8)
σ T2 = σ T2´
(2.9)
σ X2 = σ X2 ´
(2.10)
Kde X, X´ je pozorovaná hodnota dosaženého skóre v prvním, resp. druhém testu, E je chyba odhadu skutečného skóre a T je skutečné skóre. V skutečnosti je tato situace nedosažitelná. Nikdy nemůže nastat naprostá shoda na všech zmíněných úrovních. Snahou tedy je se tomuto stavu alespoň přiblížit. Sestavené testy by se vzájemně měly co nejvíce blížit alespoň průměrnou úspěšností uchazečů v nich. Na stejné pozici v testu by měly být položky po obsahové i kognitivní stránce srovnatelné. O srovnatelnosti variant je těžké rozhodnout už jen kvůli tomu, že jediná data, která jsou při sestavování testu, jsou data z pilotního testování. Jejich spolehlivost je diskutabilní a bude ověřena analýzou v závěrečné části této práce. Pokud testy srovnatelné nejsou, je teoreticky možné využít nejméně dvou postupů k nápravě. V prvním případě jde o prohození položek na stejných místech v testu a tak docílení větší shody. Pokud je po provedení testování mezi variantami stále významný rozdíl, je nutné přistoupit k druhé variantě, tou je přepočítání skóre. V případě pouze dvou variant tedy dojde k přepočítání skóre jedné z variant na teoretické skóre druhé varianty. Proces srovnávání testových variant je postup, jehož jednotlivé fáze jsou podrobně popsány v literatuře. Existuje celá řada metod. O použití rozhodujeme na základě charakteru dat.
23
Na tomto místě uvádím postup, který byl použit při srovnávání dvou testových variant testů při přijímacím řízení na střední školy v roce 2009, při využití testů společnosti Scio. U přijímacích zkoušek šlo konkrétně o použití ekvipercentilové metody u ekvivalentních skupin. Šlo o skupinu stejných uchazečů absolvující první a druhý termín prvního kola přijímacích zkoušek. Na základě těchto výsledků je přepočet rozšířen na všechny uchazeče termínu. Metoda vychází ze srovnávání stejných hodnot percentilů v obou termínech. Percentil zjednodušeně udává procento uchazečů v rámci absolvovaného termínu, které konkrétní uchazeč v testu předběhl. Tuto hodnotu můžeme přiřadit všem účastníkům prvního i druhého kola. Stejné percentily ale neznamenají současně stejnou hodnotu skóre (varianty nemají stejnou úroveň úspěšnosti). Ekvipercentilová metoda je založená na principu nalezení dvou hodnot skóre, které odpovídají stejné hodnotě percentilu v prvním a v druhém testu [16]. Při uplatnění ekvipercentilové metody může zmíněný postup znamenat tři možné typy výstupu, i když jeden z nich pouze velmi teoreticky. V první variantě je přepočítávaný test lehčí než referenční test. V tomto případě jsou uchazeči body ubrány – v těžším testu by nedosáhl takového skóre jako v lehčím. V případě, kdy přepočítávaný test je těžší než referenční, je situace opačná. Teoreticky existuje i varianta stejné úrovně obou testů a pak není potřeba skóre přepočítávat vůbec. Uvedený postup přepočítávání skóre budu dále označovat jako harmonizaci skóre.
Tabulka 6
–
způsob
harmonizace
skóre
2. termín = přepočítávaný)
24
účastníků
(1. termín = referenční,
Tabulka zobrazuje všechny uvedené možnosti. V možnosti A by stačilo k 50. percentilu (zjednodušeně být lepší než 50 % uchazečů) získat 27 bodů na rozdíl od prvního termínu, kde bylo třeba získat 30 bodů. V tomto případě je test ve druhém termínu evidentně těžší. Získání stejného počtu bodů jako v lehčí variantě je obtíženější – bylo by tak nutné přidat rozdílové tři body. Naopak ve variantě C by šlo o odebrání 3 bodů z výsledného skóre. Ve skutečnosti může nastat více variant najednou, záleží na tvaru distribučních funkcí počtu bodů získaných uchazeči v konkrétním testu. Takže ačkoli jeden test může být v průměru těžší než druhý, pro konkrétní skupiny uchazečů (děleno na základě počtu získaných bodů) tomu může být i obráceně (viz graf 2). Graf 2 - Harmonizace skóre uchazečů druhého termínu (ilustrativní příklad)
Z uvedeného příkladu je vidět, že pro uchazeče do 15,5 percentilu je druhý termín těžší než první, ačkoli průměrně - byla u testu druhého termínu vyšší úspěšnost jeho řešení (68 % oproti 60 % v 1. termínu). Pak může nastat situace, že uchazeči s počtem získaných bodů 21,4 budou body přidány, uchazeči s 21,6 b naopak budou body ubrány. Vzhledem k vlastnostem distribučních funkcí však bude vzájemné pořadí těchto dvou uchazečů vždy zachováno. Ekvipercentilová funkce eA srovnává skóre z druhého termínu se skórem z prvního termínu – každé hodnotě skóre yi z druhého termínu můžeme přiřadit odpovídající skóre z prvního termínu. Formálně je možné uvedené zapsat následujícím způsobem [16]: e A ( y ) = FA−1GB ( y ) ,
25
(2.11)
kde FA−1 je inverzní funkce k distribuční funkci FA FA ( xi ) =
1 NA
∑ f (x ) , j ≤i
j
(2.12)
kde NA je počet účastníků, kteří řešili test v prvním termínu prvního kola přijímacích zkoušek; FA je poměrný počet účastníků, kteří dosáhli v prvním termínu skóre menšího nebo rovného xi. f(xi) je počet uchazečů, kteří dosáhli v prvním termínu skóre xi. Obdobně je možné získat pro všechna možná skóre yi ve druhém termínu g(yi) – počet uchazečů, kteří dosáhli v druhém termínu skóre yi. Na jejím základě pak analogicky jako FA definujeme GB. Distribuční funkci FA je možné spojitě lineárně dodefinovat pro každé dvě sousední skóre xi, xi+1 v prvním termínu [16]: FA ( x ) = FA ( xi ) +
FA ( xi +1 ) − FA ( xi ) ( x − xi ); x ∈ ( xi , xi +1 ) xi +1 − xi
26
(2.13)
OPONENTURA, PRETESTACE, KOREKTURY, FINÁLNÍ VERZE Po sestavení redundantní verze následují převážně administrativní úkony spojené s vytvořením konečné verze testu. Tyto úkony v sobě zahrnují oponentury, kdy jsou redundantní verze předloženy k posouzení oponentům z řad odborné. Po oponenturách je vyřazeno nadbytečných 20 % testových položek, jsou spočítány nové parametry testu – úspěšnost, obsahová shoda položek v testech. Je možné proházet testové položky v jednotlivých testech, abychom docílili jejich větší srovnatelnosti. Takto upravený test je předán k tzv. pretestacím – tj. finální kontrola testů z pohledu studentů. Po zahrnutí připomínek od pretestovaných studentů je test předán ke korekturám gramatické a formální správnosti. Takto ověřený test se již blíží finální verzi, v poslední fázi ještě zbývá test znovu vyřešit a ověřit tak správná řešení u jednotlivých testových položek. Poté, co test projde všemi uvedenými kontrolami, je k dispozici jeho finální verze, která je již pouze graficky zpracována a podklady předány tiskárně. Délka trvání celého procesu vývoje testu je závislá do značné míry na účelu daného testu a nutnosti vyvíjet opakovaně nové varianty pro stejné účely použití. V případě testů pro přijímací zkoušky na střední školy trval vývoj testů téměř 9 měsíců.
27
3 – SROVNÁVACÍ ANALÝZY KVALITY TESTOVÝCH VARIANT V této části práce nastíním metody, které budou ve čtvrté části použity k analýzám. Kvalitu testu zhodnotím na několika případech. Jak jsem uvedl v teoretické části, půjde o analýzy na testu OSP (test obecných studijních předpokladů) a matematiky. Test OSP je stavěn tak, že by se v něm uchazeč neměl systematicky zlepšovat, absolvuje-li ho několikrát (pouze v obměněných verzích). Je tedy potřeba porovnat, jestli se hodnoty získaného skóre s rostoucím počtem pokusů významně mění. Vždy jde o porovnávání shody dat ve dvou a více skupinách. To je náplní první analýzy, která je ve čtvrté kapitole provedena. V té se snažím zjistit, jestli se liší výsledky získané z pilotáže (statistiky jednotlivých úloh) od dat, která získám ze samotného testování. Testovaná hypotézou je shoda středních hodnot skóre. Alternativní hypotéza je dvoustranná, tedy, že střední hodnoty se liší. Z důvodů snazšího výpočtu jsem místo testování shody dvou průměrů použil analýzu ANOVA (analýza rozptylu). V případě, kdy alternativní hypotéza je formulovaná jako dvoustranná, dává ANOVA stejné výsledky. Podobné je to v případě použití neparametrického Kruskallova-Wallisova testu (používá se v případě nesplnění podmínek pro ANOVA), který používám v první analýze také ke zjištění shody středních hodnot. Místo něj by bylo vhodnější použít test pro dvě populace, tj. Mannův-Whitneyův-Wilcoxonův test, ale kvůli menší výpočetní náročnosti jsem použil jako alternativu zmíněný Kruskallův-Wallisův test. Výsledky budou totožné. V případě Mannova-Whitneyova-Wilcoxonova testu je testové kritérium odmocninou testového kritéria, které používá Kruskallův-Wallisův test, p-hodnota se tak nezmění. Druhá analýza řeší, zda výsledek žáka bude ovlivněn tím, že některé úlohy zná z dřívějšího testování. To do značné míry souvisí s otázkou v prvním odstavci této kapitoly. Test by měl být postavený tak, aby se uchazeč při opakování nezlepšoval. Tím je myšleno opakování variant tohoto testu. Pro druhou analýzu mám k dispozici data, která umožní analyzovat situaci, ve které stejná skupina studentů řeší dva testy, v nichž se vyskytuje 20 % stejných otázek. To, že by se student neměl zlepšovat při opakování variant stejného testu je teoreticky známý fakt. Touto analýzou se pokusím odpovědět na otázku, zda studentovi pomůže ke zlepšení výsledku znalost části úloh či nikoli. Tím by 28
byla v podstatě prokázána kvalita testu dovedností z hlediska stability jeho výsledků. V tomto případě půjde o dvě závislé skupiny dat, k výpočtu použiji Wilcoxonův test pro dva závislé výběry. V poslední analýze, která zjišťuje vliv známek z různých předmětů na úspěšnost v testech a vliv pohlaví na úspěšnost v testech, používám vícerozměrnou analýzu rozptylu (MANOVA). Zbývající testy uvedené v této kapitole jsou pomocné. Pomáhají k ověření předpokladů pro jednotlivé testy.
29
3.1 - TESTY O SHODĚ STŘEDNÍCH HODNOT Jak již bylo uvedeno, v některých případech je zajímavé ověřit shodu dvou průměrů.
3.1.1 - ANALÝZA ROZPTYLU (ANOVA) Jsou-li splněny předpoklady normality a homoskedasticity veličiny X v K populacích, je možné k testu shody středních hodnot využít jednorozměrnou analýzu rozptylu (ANOVA). K ověření normality je možné použít Shapirův-Wilkův test, k ověření homoskedasticity Bartlettův test. SHAPIRŮV-WILKŮV TEST K ověření normality je možné použít např. Shapirův-Wilkův test, jehož základem je grafické porovnávání hodnot x(i) s kvantily normovaného normálního rozdělení pro pravděpodobnosti i/n výběrové distribuční funkce Fn(x). Pokud má veličina X opravdu normální měli by body určené hodnotami x(i) a kvantily q(i) = F-1(i/n)
(3.1)
ležet přibližně na přímce procházející počátkem, která s oběma osami svírá úhel 45 º. Shapiro a Francia formulovali testové kritérium ve tvaru: SW1 = (q´x)2/(n-1)´qs2(x),
(3.2)
kde x je vektor hodnot x(i), q vektor kvantilů q(i) a s2(x) výběrový rozptyl. Rozdělení tohoto kritéria je empirické a je tabelováno. Hypotéza H0 o normálním rozdělení X je zamítnuta, pokud je hodnota testového kritéria menší než hodnota příslušného kvantilu pro zvolenou hladinu významnosti [8].
30
BARTLETTŮV TEST K ověření homoskedasticity je možné využít Bartlettův test. Testovanou hypotézou je shoda rozptylů veličiny X v K populacích. Testové kritérium odvozené Bartlettem je [8]: K
B=
∏ ⎡⎣ S k =1 K
∑S k =1
2 k
2 k
kde f k =
( x) ⎤⎦
fk
,
(3.3)
( x) f k nk − 1 n−K
(3.4)
jsou váhy výběrových rozptylů v relativním vyjádření a S k2 ( x) =
Qk ( x) nk − 1
(3.5)
jsou výběrové rozptyly. Kritické hodnoty testového kritéria (−lnB) jsou přibližně Cnásobkem 100(1−α)% kvantilu rozdělení chí-kvadrát s K − 1 stupni volnosti. 1+ C=
⎛ K 1 1 1 ⎞ − ⎜∑ ⎟ 3( K − 1) ⎝ k =1 nk − 1 n − K ⎠
(3.6)
n−K
Kritickým oborem velikosti α je obor: Wα = {− ln b / C ; − ln b / C ≥ v1−α ( K − 1)}
(3.7)
Pokud není hypotéza o normalita ani homoskedasticita zamítnuta, je možné využít ANOVA. Testovanou hypotézou je pak shoda středních hodnot ve 2 populacích. H 0 : μ1 = μ2
(3.8)
Testové kritérium v případě známých hodnot rozptylů σ k2 pro k = 1, 2, …, K je: ⎛ K ⎜ X k nk n V = ∑⎜ − k σx σk k =1 ⎜ ⎜ ⎝ 31
X k nk ⎞ ⎟ ∑ 2 k =1 σ k ⎟ K nk ⎟ ∑ ⎟ 2 k =1 σ k ⎠ K
2
(3.9)
V případě, že rozptyly neznáme, ale je možné předpokládat jejich shodu, je testovým kritériem: QM ( x) F = K −1 , QU ( x) n−K
(3.10)
kde QM je meziskupinová a QU vnitroskupinová variabilita. K
(
)
2
QM ( x) = ∑ x k − x nk k =1
K
nk
(
QU ( x) = ∑∑ xik − x k k =1 i =1
(3.11)
)
2
(3.12)
Při platnosti testované hypotézy má veličina F F-rozdělení s K − 1 a n − K stupni volnosti. Kritický obor je: Wα = { f ; f ≥ f1−α ( K − 1, n − K )}
(3.13)
Ve skutečnosti může samozřejmě nastat i případ, kdy není některý z předpokladů splněn. Není-li splněn předpoklad normality, je nutné použít některý z neparametrických testů. V analytické
části
této
práce
používám
Kruskallův-Wallisův
test,
který
je
neparametrickou obdobou analýzy rozptylu (ANOVA). Pro účely analýzy v této práci dále také Wilcoxonův test pro dva závislé výběry.
3.1.2 - KRUSKALLŮV-WALLISŮV TEST Jde o test analogický k ANOVA, kdy není rozdělení veličiny X v K populacích normální. Je výhodné formulovat testovanou hypotézu jako předpoklad o stejných mediánech [8]: H 0 : X% 1 = X% 2 = ... = X% k
(3.14)
Postup je takový, že hodnoty z K populací se uspořádají vzestupně podle velikosti a jsou jim přiřazena pořadová čísla od 1 do n, stejným hodnotám pak průměr. Součet pořadových čísel j-tého výběru je označen jako Rj. Testové kritérium je: 32
2
K R 12 j V= − 3(n + 1) ∑ n(n + 1) j =1 n j
(3.15)
tato statistika má při platnosti H0 přibližně rozdělení chí-kvadrát s K − 1 stupni volnosti při četnostech v jednotlivých skupinách větší než 5. Kritickým oborem je: Wα = {V ;V > v1−α ( K − 1)} ,
(3.16)
kde v1-α(K − 1) je kvantil chí-kvadrát rozdělení s K − 1 stupni volnosti. K výpočtu je možné využít také statistický software (pro účely této práce SPSS).
3.1.3 - WILCOXONŮV TEST PRO 2 ZÁVISLÉ VÝBĚRY Není-li ani možné předpokládat, že výběry z dvou populací jsou nezávislé, je možné použít neparametrický Wilcoxonův test pro závislé výběry. V tomto případě místo hodnot v jednotlivých populacích vyjdeme z hodnot rozdílů v populacích [8]: di = xi − yi
(3.17)
Jejich absolutní hodnoty seřadíme podle velikosti a přiřadíme jim pořadová čísla. Ta následně rozdělíme na dvě skupiny, podle výsledného znaménka rozdílu. Spočteme součty v obou skupinách, menší z nich je testovým kritériem SDW, tu porovnáváme s kvantilem rozdělení SDW. Kritický obor je [8]: Wα = {sDW ; sDW ≤ sa / 2 ( K − 1)}
(3.18)
sa / 2 ( K − 1) je kvantil rozdělení SDW. V případě dvoustranné alternativní hypotézy je kritický obor [8]: Wα = {sDW ; sDW ≤ sa / 2 } při jednostranně formulované alternativní hypotéze.
33
(3.19)
3.1.4 – VÍCEROZMĚRNÁ ANALÝZY ROZPTYLU (MANOVA) V případě více závislých proměnných se používá k porovnání shody vektorů středních hodnot vícerozměrná analýza rozptylu (MANOVA) [8]: H0: μ1 = μ2 = ... = μK
(3.20)
Testovým kritériem je Wilksovo lambda.
Λ=
U C
,
(3.21)
kde │U│ je determinant matice vnitroskupinové variability a │C│ je determinant matice vyjadřující celkovou variabilitu. C = M + U,
(3.22)
kde M je matice meziskupinové variability. Rozdělení Wilksova lambda pro různý počet veličin a skupin může přecházet na známá pravděpodobnostní rozdělení. Tabulka 7 [8] Počet veličin
Počet
(proměnných)
skupin
p=1
K ≥2
p=2
K ≥3
p ≥1
K =2
p≥2
K =3
Kritérium
Rozdělení F při platnosti H0
n − K 1− Λ K −1 Λ
F ( K − 1, n − K )
n − K − 11 − Λ K −1 Λ
F [ 2( K − 1), 2( n − K − 1)]
n − p − 11 − Λ p Λ
F ( p , n − p − 1)
n − p − 2 1− Λ p Λ
F = [ 2 p, 2( n − p − 2)]
F=
F=
F=
F=
34
Kritický obor: Wα = {F ; F > f1−α ( A, B)} ,
(3.23)
kde A, B jsou příslušné stupně volnosti odpovídající příslušnému kritériu a jeho rozdělení v tabulce 7. Podmínky použití MANOVA jsou analogické ANOVA – všech K populací má stejnou kovarianční matici a všechny populační náhodné vektory mají vícerozměrné normální rozdělení. K této podmínce je možné být benevolentní v případě větších výběrů umožňujících aplikaci centrální limitní věty [13]. K analýze shody kovariančních matic je možné využít tzv. Boxův test. Testovanou hypotézou je [8]: H 0 : Σ1 = Σ 2 = ... = Σ k .
(3.24)
Testové kritérium V, V=
K 1 (n − K ) ln S − ∑ (nk − 1) ln Sk , Cp k =1
(3.25)
2 p2 + 3 p −1 ⎛ K ⎞ (nk − 1) ln Sk ⎟ ∑ ⎜ 6( K − 1)( p + 1) ⎝ k =1 ⎠
(3.26)
kde Cp = 1+
a S je společný odhad kovarianční matice získaný ze všech K skupin. K
S= má
při
platnosti
testované
∑S k =1
k
(nk − 1) (3.27)
n−K
hypotézy
při
větších
nk
přibližně
chí-kvadrát
rozdělení s ( K − 1) p ( p + 1) / 2 stupni volnosti [8]. Kritickým oborem je [8]:
Wα = {v; v > v1−α [ ( K − 1) p( p + 1) / 2]}
35
(3.28)
3.2.3 – VALIDITA TESTU Validita je další z vlastností testu jako celku. Pokud se tedy zabýváme validitou testu, jde o zkoumání toho, jak test ověřuje, k čemu byl určen. Na validitu testu je možné dívat se z několika dílčích pohledů. Prvním typem validity je validita obsahová. Ta řeší, do jaké míry zastoupení testových položek v testu odpovídá tomu, co chceme testovat. Jde tedy o rozložení otázek do oddílů, zařazení témat. V případě testu např. z matematiky pro pátý ročník, který má ověřit znalosti žáků na konci páté třídy, by mělo zastoupení jednotlivých témat reprezentovat látku do té doby probranou. Obsahovou validitu může ověřit odborník, který se v dané oblasti pohybuje, zná všechny podklady – v tomto případě hlavně osnovy dané Rámcovými vzdělávacími programy (RVP) předepsané Ministerstvem školství, mládeže a tělovýchovy [33]. Dalším typem je kriteriální validita – ta dává do souvislosti to, co test měří s výsledky jiného všeobecně uznávaného nástroje, který testuje totéž. Uváděna je např. klasifikace, ve smyslu známkování z daného předmětu ve škole. Je-li žák výborný ve svých školních výsledcích – výsledné známky na vysvědčení, měl by dosáhnout podobných výsledků v testu, který testuje totéž, za co je udělována známka. V praxi jde v převážném množství případů o výpočet hodnoty korelačního koeficientu [33]. Face-validita je dalším z typů validity. Je do určité míry rozšířením obsahové validity o laickou veřejnost - testované osoby. Jde o to, jaký je jejich subjektivní názor na kvalitu testu z hlediska, že testuje, to co by testovat měl [33]. Konstruktová validita je na místě v případě, kdy test má mimo jiné testovat ještě nějakou schopnost, vlastnost testovaného. Konstruktová validita má vyjádřit do jaké míry se to testu daří 33[]. Posledním uváděným typem validity je predikční validita, která porovnává výsledek účastníka v testu s jeho úspěšností v oblasti, kam byl na jeho základě vybrán. Příkladem může být přijímací test do zaměstnání. Predikční validita je pak výsledkem korelace mezi výsledky v testu a úspěšnosti na pracovním poli. Je ale samozřejmě nutné definovat také pracovní úspěšnost. Většina společností má své vlastní metody k jejímu měření. Může jít 36
o chybovost člověka, finanční úspěšnost (z pohledu firmy) nebo o jakoukoli další definovanou charakteristiku. V případě studenta a přijímacího testu je to korelace výsledků v testu s výsledky ve studiu ve formě získaných známek. Otázkou zůstává jaká by měla být hodnota takového korelačního koeficientu, aby se dalo říci, že test funguje v předpovídání budoucích úspěchů dobře. Je samozřejmé, že čím větší hodnota ve směru k jedné je dosažena, tím lépe je test schopen předpovídat. Je ale nutné si uvědomit, že čísla 1 nebo jemu blízkému je velmi těžké dosáhnout. Zásluhu na tom má mnoho faktorů vyskytujících se na straně testu i v pracovním (studijním) procesu. Vše je možné uvést na příkladě testu OSP, který velké množství fakult vysokých škol v České republice používá místo svých přijímacích zkoušek. Test je zaměřen tak, aby nebyl ovlivněn teoretickými znalostmi, ale spíše byl schopen odhalit studentův potenciál – ve smyslu schopnosti učit se, chápat, analyzovat a interpretovat nová fakta. Test je rozdělen do tří oddílů – verbálního, analytického a kvantitativního. Verbální oddíl se zabývá prací se slovní zásobou, analytický oddíl schopností získání znalostí z neznámého textu a schopností tyto znalosti interpretovat za účelem správného zodpovězení otázky. Kvantitativní oddíl zkoumá schopnost práce s tabulkami, grafy, základní matematickou logiku. Test vychází z ověřených základů amerického GRE, u kterého již bylo provedeno několik studií predikční validity. Při hodnocení predikční validity je nutné si uvědomit, že test sice pokrývá základní schopnosti uchazeče, ale nejde o kompletní informace o něm. Je jasné, že kvantitativní část, která se soustředí na matematické operace bude lépe korelovat s výsledky v přírodních vědách, než u výsledků z jazyků, kde by měla být korelace naopak téměř minimální, v případě větších hodnot by se jednalo pouze o zdánlivou korelaci. Dochází k ní tehdy, je-li souvislost náhodných veličin dána jejich závislostí na nějaké třetí veličině. Příkladem může být souvislost mezi kvantitativním oddílem a známkou z českého jazyka. Ačkoli kvantitativní oddíl nemá s českým jazykem téměř nic společného, můžeme dojít k podobným hodnotám korelačního koeficientu jako mezi matematikou a kvantitativním oddílem. Stačí k tomu, abychom dali známku do souvislosti s inteligencí (zjednodušeně řečeno). S vyšší inteligencí se zlepšuje známka z českého jazyka i z matematiky. Čím podobnější jsou známky, tím podobnější je hodnota korelačního koeficientu. 37
Jak tedy bylo řečeno, je důležitý výběr veličin. Dalším teoretickým problémem je subjektivita. A to v podobě subjektivity známkování ze strany vyučujícího, který na vysoké škole jistě nemá tolik podkladů pro hodnocení činnosti studenta, jako má např. učitel na základní škole. Takový způsobuje problémy i samotnému studentovi. Ve chvíli, kdy je na zkoušku jeden termín, je otázkou do jaké míry se jedná skutečně o posouzení znalostí studenta. „Špatný den“ tak může ovlivnit celý výsledek. V případě většího vzorku budou tyto rozdíly jistě nižší, výkyvy mohou nastat samozřejmě i opačným směrem. Existují taktéž faktory, které mohou ovlivnit celý vysokoškolský život studenta – ať už se v nadsázce jedná o rodinné problémy nebo pracovní vytížení mimo školu, které ovlivní studentův časový fond pro aktivity týkající se školy. Je zřejmé, že tyto faktory je velmi obtížné a ve většině případů téměř nemožné do analýzy zahrnout. Hodnocení predikční validity je velkou měrou závislé na datech, která jsou k dispozici, takže např. organizace typu ETS, která vyvíjí test GRE, má k dispozici údaje o studentech v řádu tisíců a v poměrně vysokém členění. V českém prostředí je velmi těžké a mnohdy až nemožné získat dobrá data. To je samozřejmě ovlivněno tím, že školy predikční validitu znát k ničemu nepotřebují. Dalším důvodem je administrativní složitost uchovávání dat o studentech, případně převedení takových dat do formy, ve které je možné je dále zpracovávat. Velikost vzorků studentů také nebývá příliš vysoká, což také ovlivňuje výsledek. Máme-li k dispozici hodnotu korelačního koeficientu mezi studijními výsledky a výsledky testu u přijatých studentů (tj. těch nejlepších), je možné tuto hodnotu použít i k odhadu míry korelace pro všechny uchazeč: Thorndike´s Case II Formula [12]
R XY =
U X rXY 1 + (U X2 − 1) rX2Y
,
(3.29)
kde Ux = Kx/sx, kde Kx je směrodatná odchylka výsledku testu všech uchazečů, sx směrodatná odchylka přijatých, rxy korelační koeficient mezi výsledkem testu a veličinou Y. 38
Problémem analýzy predikční validity v českém prostředí je tedy hlavně nedostatek dat, nemožnost si je z objektivně známých důvodů vynutit. Korelace se tedy počítá u všech možných případů za účelem získání alespoň nějakých výsledků. Taková analýza by jistě byla lépe proveditelná v případě státem organizovaných zkoušek typu Státní maturity.
39
4 – ANALYTICKÁ ČÁST V analytické části provedu několik analýz stručně popsaných již na začátku minulé kapitoly. Každá z analýz vychází z různých datových souborů. V případě první analýzy jde v každém z případů o 60 testových položek. Data k jejich úspěšnostem byla pro účely pilotáže počítána ze vzorku 120 – 150 studentů. V případě následně použitého testu vychází statistiky z počtů uchazečů v intervalu 1 500 – 7 500. Jedná se o uchazeče prvního a druhého termínu prvního kola přijímacích zkoušek na střední školy v dubnu 2009. V analýze změny výsledku vycházím z dat Národních srovnávacích zkoušek ve školním roce 2007/2008, kterých se zúčastnilo 1 351 studentů v listopadovém termínu, 9 556 studentů
v únorovém
termínu
a
13 194
studentů
v březnovém
termínu.
V květnovém termínu, který je ještě v analýze uveden není počet rozhodující a šlo pouze o uchazeče, kteří absolvovali v květnu druhý, třetí, nebo čtvrtý termín. U analýzy predikční validity je struktura dat popsána v průběhu vlastní analýzy.
4.1 – ZNALOSTNÍ TESTY Pod pojmem znalostní test pro účely kapitoly 4.1 jsou myšleny testy z matematiky použité při přijímacích zkouškách na střední školy a víceletá gymnázia v dubnu 2009. Jde o testy pro 5., 7. a 9. třídu. Důvodem této analýzy je získání informace o rozdílech v datech o stejných položkách z pilotního a závěrečného testování. Význam je zřejmý. Při vývoji testu se sestavovatel řídí pouze daty z pilotního testování. V analýze mě bude zajímat především informace o hrubé úspěšnosti u konkrétní položky. Dále pak srovnání rozdílu mezi daty z pilotování a finálního testu. Je zřejmé, že mezi daty z pilotování a z finálního testu by rozdíl měl existovat. Důvodem je skupina testovaných. Hlavní důvody jsou dva. I při testování stejných cílových skupin by motivace pilotovaných a uchazečů u přijímacích zkoušek byla jistě odlišná. Ne vždy je také možné testovat stejnou cílovou skupinu. Dochází tak k tomu, že místo všeobecně nejchytřejších uchazečů, kteří se hlásí na gymnázium, jsou testování žáci základních škol. 40
Rozdíly v datech mohou být různé i na úrovni různých typů otázek, např. aritmetika, nebo funkce. Předpokládám, že rozdíly v datech pilotáže v porovnání s daty z ostrého testování budou větší u pátých a sedmých tříd, o něco menší u tříd devátých. Důvod je ten, že v devátých třídách dochází k systematické přípravě na přijímací zkoušky na střední školy u většiny žáků. To se v páté ani v sedmé třídě předpokládat nedá. Připravuje se pouze ta část žáků, která se bude hlásit na víceletá gymnázia. Předpokládám také, že rozdíly budou vycházet tak, že v pilotním testování budou úlohy rámcově vycházet těžší než skutečně budou. Důvody byly uvedeny – nižší motivace, nižší kvalita testovaných. Vzhledem k poměrně malému počtu položek v konečné verzi testu (30 položek) spojím pro účely této analýzy oba termíny prvního kola dohromady. Následující tabulky ukazují výsledku testů normality pro matematiku – 5., 7. a 9. třídu v tomto pořadí. Tabulka 8 5. TŘÍDA
test normality Kolmogorov - Smirnov
Shapiro - Wilk
skupina
statistic
df
sig
statistic
df
sig
pilotaz
0,163
60
0,000
0,92
60
0,001
ostra
0,145
60
0,003
0,947
60
0,012
Zdroj: výstupy SPSS
Tabulka 9 7. TŘÍDA
test normality Kolmogorov - Smirnov
Shapiro - Wilk
skupina
statistic
df
sig
statistic
df
sig
pilotaz
0,132
60
0,011
0,899
60
0,000
ostra
0,056
60
0,200
0,991
60
0,939
Zdroj: výstupy SPSS
Tabulka 10
9. TŘÍDA
test normality Kolmogorov - Smirnov
Shapiro - Wilk
skupina
statistic
df
sig
statistic
df
sig
pilotaz
0,195
60
0,000
0,815
60
0,000
ostra
0,064
60
0,200
0,917
41
60 0,316 Zdroj: výstupy SPSS
Je vidět, že na hladině významnosti α = 0,05 je vidět, že hypotéza o normalitě rozdělení byla zamítnuta u všech skupin s výjimkou konečné verze testu pro 7. a 9. třídu. Vzhledem k tomu není možné použít ANOVA. S využitím SPSS tak provedu Kruskallův-Wallisův test, který byl popsán ve třetí kapitole této práce. Výstupy z SPSS jsou vidět z následujících tabulek: Tabulka 11 5. třída
uspesnost
Chi-Square
48,113
df
1
Asymp. Sig.
0,000
Tabulka 12 termin
N
Mean Rank
1
60
38,48
2
60
82,52
Total
120
uspesnost
Tabulka 13 7. třída
uspesnost
Chi-Square
40,036
df
1
Asymp. Sig.
0,000
Tabulka 14 termin
N
Mean Rank
60
40,41
2
60
80,59
Total
120
uspesnost
1
Tabulka 15 9. třída
uspesnost
Chi-Square
45,631
df
1
Asymp. Sig.
0,000
Tabulka 16 termin uspesnost
N
Mean Rank
1
60
39,05
2
60
81,95
Total
120
Zdroj: Výstupy SPSS
42
Nulová hypotéza, která mluví o shodě mediánů ve výběrech, byla ve všech případech zamítnuta. V tomto případě by bylo také vhodné zjistit, jaké jsou rozdíly v průměrných úspěšnostech u položek z pilotního testování oproti jejich použití v konečné verzi testu. Počítat budu s absolutními odchylkami vzhledem k tomu, že relativní dosahují v mnohém poměrně extrémních hodnot – hlavně v případech, kdy úloha v pilotáži dopadla výrazně špatně oproti tomu, jak dopadla později v ostrém testu. Výsledky jsou uvedeny v následující tabulce: Tabulka 17 5. třída průměr 33,51 celkem aritmetika 33,35 geometrie 31,04 38,95 funkce
medián 32,15 30,80 28,90 37,30
min. 3,10 3,10 5,00 7,70
max. 86,10 75,70 73,90 86,10
sm. odch. 18,48 17,30 18,68 20,29
Tabulka 18 7. třída celkem aritmetika geometrie funkce
průměr 21,74 25,48 18,07 17,86
medián 20,95 24,85 18,55 18,85
min -38,90 -38,90 -8,00 1,70
max. 52,80 52,80 36,40 31,20
sm. odch. 15,50 18,27 11,45 9,68
Tabulka 19 9. třída celkem aritmetika algebra geometrie funkce
průměr 26,77 30,79 21,59 25,45 25,62
medián 26,55 26,70 22,40 33,40 21,40
min. -12,10 -12,10 -2,20 0,00 1,20
max. 68,80 68,80 44,90 48,70 59,60
sm. odch. 19,44 20,22 17,21 19,53 18,19
Vzhledem k tomu, že se jedná ve všech případech o rozdíly v datech mezi pilotováním a konečným testováním, jsou hodnoty v tabulkách vyjádřeny v procentních bodech. V řádku „celkem“ jsou uváděny výpočty pro všechny položky. Dále jsou vypočítány hodnoty pro jednotlivá témata, která se v testu pro danou třídu vyskytují. Z výsledků jsou vidět poměrně velké rozdíly mezi hodnotami hrubé úspěšnosti u dat z pilotování a konečného testování. Rozdíly jsem v úvodu této analýzy předpokládal –
43
zde je tedy uvedena i jejich velikost. Předpokládal jsem také, že nejmenší rozdíly budou u deváté třídy, to se nepotvrdilo. Nejmenší rozdíly jsou u sedmé třídy. Závěrem této analýzy je tedy nutné říci. Že ačkoli se při vývoji testu vychází z dat získaných z pilotování, jsou tato data dost nepřesná v porovnání s daty z konečné verze testu. Bylo by potřeba udělat daleko hlubší analýzu zkoumající tyto rozdíly ve více letech. Z jednoho roku není rozhodně možné dělat závěry. V případě delší časové řady by byl ale vždy problém s charakterem položky. Vždy můžeme testovou otázku přiřadit tématu, ale už to samo o sobě je široký pojem. Podrobnější členění nepřipadá v úvahu naopak z důvodu malého zastoupení dále vytvářených skupin. K datům z pilotování by mělo být přistupováno tak, že budou využita k eliminaci chyb v položkách, případně vyřazení těch zcela chybných. Rozhodovat na základě těchto dat o srovnatelnosti více testových variant není objektivně zcela správný postup.
44
4.2 – TEST DOVEDNOSTÍ Pro účely této práce opět uvádím, co je myšleno pod pojmem test dovedností – jde o test OSP. Data pochází částečně z Národních srovnávacích zkoušek, částečně od několika, dále uvedených vysokých škol – tato data slouží pro účely provedení analýzy predikční validity.
4.2.1 – ANALÝZA VLIVU REFERENČNÍCH ÚLOH V úvodu považuji za nutné objasnit pojem referenční úloha. Referenční úloha je pojem důležitý při srovnávání více testových variant. V druhé kapitole uváděná varianta ekvipercentilové metody na ekvivalentních skupinách je pouze jednou z možností jak srovnávat testy. Další varianta ekvipercentilové metody je založená právě na referenčních úlohách – tj. úlohách, které jsou společné více termínům [16]. Ze zřejmých důvodů nelze využívat referenční úlohy v případě přijímacích zkoušek na střední školy, které se konají v časovém sledu několika dní po sobě. Je možné předpokládat, že by si uchazeč tyto úlohy pamatoval a řešil je lépe. V případě Národních srovnávacích zkoušek (NSZ) jde o termíny časově mnohem vzdálenější, tato metoda je tedy použitelná. Zjednodušeně řečeno vychází ze stejného základu jako dříve uvedená ekvipercentilová metoda na ekvivalentních skupinách – opět jde o srovnávání percentilů a jim příslušných hodnot skóre. V tomto případě srovnáme skóre na úrovni stejných percentilů pro referenční úlohy. V této analýze se nebudeme zabývat přepočtem skóre jednotlivých variant, ale tím, že termíny s referenčními úlohami navštívilo několik stejných studentů, u nich se budu zabývat vlivem znalosti úloh na jejich výsledek, pokud tedy vliv byl a případně jaký. K dispozici jsou výsledky studentů z květnového termínu NSZ testu OSP ve variantě A a výsledky z listopadového termínu NSZ – OSP „A”. V těchto variantách se vyskytuje 24 stejných úloh a 48 studentů, kteří řešili oba uvedené testy. Z charakteru testu OSP vyplývá, že by se v něm uchazeč neměl zlepšovat, pokud absolvuje víc termínů. V takovém případě se ale jedná o úlohy, které jsou podobné. V této analýze se ale jedná o úlohy naprosto stejné. Otázkou tedy je, zda se student v testu zlepší, jestliže některé z úloh zná.
45
Tato varianta není v literatuře řešena. Test dovedností je vždy chápán jako test, ve kterém nedochází k systematickému zlepšování studenta. Je tento test ale stavěný tak dobře, že ani znalost některých otázek nebude mít vliv na výsledek studenta v testu? Odpověď by, alespoň částečně, měla poskytnout tato analýza. Bohužel se nejedná o příliš velký vzorek a bylo by potřeba závěry ověřit na větším. Taková data bohužel v současné době nemám k dispozici. Pro zjednodušení průběhu analýzy byly odpovědi kódovány následujícím způsobem (v rámci OSP NSZ hodnocení probíhá způsobem: správná odpověď = 1 bod, špatná odpověď – odečítají se body v závislosti na počtu možných odpovědí na danou otázku – v případě 5 možných odpovědí se strhává 1/4 bodu, v případě pouze 4 odpovědí je strhnuta 1/3 bodu, pokud student na otázku neodpoví, nezískává, ani neztrácí žádné body. Pro lepší práci s daty jsem tyto možné výsledky násobil 12, aby vycházela celá čísla, z toho tedy plyne, že za správnou odpověď získá student 12 bodů, za různé typy špatných pak −3, resp. −4 body, v pořadí 5 nebo 4 možné odpovědi na danou otázku – podle zadání. Z důvodu zjednodušení výsledků jsou dále i hodnoty −1/3, kódované jako −4, převedeny na −3. Důležité pro tuto část je to, jestli student odpověděl dobře, či špatně. Tabulky 20 – 22 jsou tabulky přechodů. Ukazují změny odpovědí studenta z původní hodnoty v květnovém termínu (první sloupec) na některou z hodnot v listopadovém termínu (první řádek) Tabulka 20- rozdíly z -> na 12 0 -3
12
0
-3
0
12
15
-12
0
3
-15
-3
0
V tabulce 20 jsou pouze pro účely samotného výpočtu určeny „rozdíly“, které slouží ke zjednodušení výpočtu v tabulekách 21 a 22. Jde vždy o rozdíl květnové a listopadové hodnoty (např. 12 − 12 = 0), tato tabulka není pro interpretaci závěru nijak významově důležitá, je doplněna pouze pro orientaci v datech.
46
Tabulka 21- počty z -> na 12 0 -3
12
0
-3
507
79
115
94
74
64
125
28
66
726
181
245
701 232 219 1152
V tabulce 21 jsou uváděny absolutní počty otázek, u kterých došlo ke konkrétním přechodům, např. průsečík (0, −3), příslušná hodnota v buňce (tj. 64) udává, u kolika otázek z celkového počtu (z 48 studentů absolvoval každý 24 referenčních úloh, tj. celkem 1152 položek) došlo k tomu, že v květnu nebyla daná otázka zodpovězena vůbec, v listopadu pak dokonce špatně. Analogicky lze postupovat u dalších buněk tabulky 21. Tabulka 22 – relativní četnosti z -> na 12 0 -3
12
0
-3
44,01%
6,86%
9,98%
8,16%
6,42%
5,56%
10,85%
2,43%
5,73%
63,02%
15,71%
21,27%
60,85% 20,14% 19,01% 100,00%
Pro lepší orientaci je tab. 21 převedena na procentní vyjádření, což ukazuje tabulka 22. Zajímá nás, jestli setkání se s 24 referenčními úlohami v květnu 2007 ovlivní výsledek v listopadu 2007. Jde tedy o to, u kolika procent otázek došlo v listopadu oproti květnu ke zlepšení. Jedná se o varianty (0, 12), (−3, 12) a (−3, 0), tj. otázka nezodpovězená v květnu vůbec, v listopadu pak správně; v květnu zodpovězená špatně v listopadu dobře, resp. v květnu zodpovězená špatně v listopadu vůbec, což v konečném výsledku také ovlivní skóre kladným směrem. Proti otázkám v nichž došlo ke zlepšení stojí otázky se zhoršenou odpovědí typu (12, 0), (12, −3) a (0, −3). Je vidět, že ke zlepšení odpovědi došlo u 21,44 % otázek, naopak ke zhoršení u 22,40 % otázek, z čehož je už vidět, že ačkoli by se dalo předpokládat, že díky dřívějšímu řešení totožných úloh se zlepší i odpovědi na otázky, není tomu tak. Z hlediska zlepšení / zhoršení, dojde k těmto změnám u podobného procenta otázek.
47
Tabulka 23 - celkem zlepšili se
zhoršili se
27
21
zlepšili se
zhoršili se
27
21
Tabulka 24 – referenční úlohy
Tabulky 23 a 24 ukazují u kolika studentů absolvujících květnový i listopadový termín došlo ke zlepšení celkového skóre, z pohledu tabulky 23 v rámci celého testu OSP, v tabulce 24 ve skóre pouze za referenční úlohy. Tabulky 25 a 26 ukazují průměrný počet otázek na studenta, u kterých došlo k příslušné změně odpovědi (viz záhlaví tabulky 25), nebo nedošlo ke změně odpovědi a to opět podle příslušného typu, viz záhlaví tabulky 26. Tabulka 25 průměrný počet otázek podle typu změny (na studenta) zhoršení odpovědi na otázku zlepšení odpovědi na otázku 12->-3
12->0
0->-3
z -3->0
0->12
z -3->12
2,39583333
1,645833333
1,333333333
0,583333333
1,95833333
2,6041667
celkem
5,375
celkem
5,14583
celkem
10,5208
Tabulka 25 ukazuje, že např. v poli příslušné změně z 12 na −3 je průměrný počet otázek, u kterých student změnil odpověď na otázku z dobré v květnu na špatnou v listopadu 2,4, počítáno pouze pro referenční úlohy, tedy průměrné 2,4 otázky z 24 student zodpoví špatně, ačkoli je již dříve v květnovém NSZ OSP „A“ zodpověděl správně. V levé části tabulky jsou tedy opět varianty, které znamenali zhoršení odpovědi na danou položku, celkem za tuto část se odpovědi zhoršily průměrně u 5,4 otázek z 24. V pravé části je uveden opak, tedy, že došlo ke zlepšení odpovědi – stalo se tak u jednoho studenta průměrně u 5,2 otázek z 24. Poměr zhoršení : zlepšení je tedy téměř 1:1.
48
Tabulka 26 ukazuje analogicky k tabulce 25 odvoditelné závěry, tentokrát se jedná o otázky u nichž nedošlo ke změně odpovědi. Obecně u 13,5 otázek z 24 nedošlo ke změně odpovědi, hlavní podíl na tom měly otázky beze změny typu 12 – 12, tj. dobře zodpovězeno při obou termínech NSZ. Tabulka 26 průměrný počet otázek beze změny 12->12
0->0
-3->-3
10,5625
1,541666667
1,375
celkem
13,479167
Graf 3 Podíl změny odpovědi na všech odpovědích v daném oddílu (tj. včetně nezměněných) 70,0% 60,0% 8,6%
50,0% 17,7%
40,0% 13,7%
30,0% 20,0% 10,0%
4,4%
10,6% 2,3% 1,9% 3,9%
14,4%
0,7%
4,8% 2,4%
13,0%
z -3->0 9,6%
10,1%
analytický
49
z -3->12 0->12
7,4%
0,0% verbální
1,8%
4,9%
kvantitativní
0->-3 12->0 12->-3
Graf 4 Struktura změn u odpovědi na otázky 100,0% 14,7%
90,0% 80,0% 70,0% 60,0% 50,0%
31,5%
34,1% 30,4%
6,8% 5,5% 11,6%
2,1%
11,9% 5,9% 4,4%
7,6%
18,5%
22,3%
40,0% 30,0% 20,0%
z -3->12 0->12 z -3->0
42,5% 25,2%
10,0%
16,5% 8,5%
0,0% verbální
analytický
0->-3 12->0 12->-3
kvantitativní
Z uvedených grafů je vidět, že největší procento změn odpovědi na stejnou otázku v porovnání květen – listopad, bylo u kvantitativního oddílu, téměř 60 %; nejvíce se v jeho rámci měnily odpovědi na otázku z žádné na správnou – 17 %; u analytického to byla se 13,7 % změna odpovědi ze špatné odpovědi na správnou, u verbálního pak naopak ze správné na špatnou.
Vzhledem k tomu, že se nejedná se o výběr, alespoň v případě listopadového termínu, z normálního rozdělení. Alternativou použití by v tomto případě mohlo být použití Wilcoxonova testu pro dva závislé výběry. Jde o neparametrický test, předpokládá se tedy, že rozdělení ve výběrech neznám, což je jistě blíže skutečnosti v tomto případě. Dále bere v úvahu také závislost výběrů, kterou mohu předpokládat i u svých dvou skupin dat. Základem Wilcoxonova testu je určení odchylek hodnot na stejné úrovni dat, tedy u stejných studentů. Dále je nutné seřadit jejich absolutní hodnoty podle velikosti od nejmenší k největší a přidělit těmto hodnotám pořadové číslo. Hodnotu testového kritéria stanovíme jako menší ze součtů S+ a S−, kde S+ vyjadřuje sumu pořadí pro kladné
50
odchylky a S− sumu pořadí pro záporné odchylky. Takto stanovenou hodnotu porovnám s kritickou hodnotou wα(n), je-li hodnota testového kritéria menší než kritická hodnota, zamítáme na zvolené hladině významnosti (α = 0,05) testovanou hypotézu o shodě průměrů. Tabulka 30 S+
S-
S = min(S+;S-)
523
653
523
Tabulka 31 Wilcoxonův test hl. významnosti α = 0,05 α = 0,01
wα(n) 396 339
< <
S
závěr
523
nezamítáme nezamítáme Zdroj (krit. hodnoty) [26]
Jak ukazuje tabulka 31, hypotézu nebyla zamítnuta ani na hladině významnosti 0,01. Dojdeme tedy ke stejnému závěru jako v případě „chybně“ použité ANOVA, kde se nepodařilo prokázat statistickou významnost rozdílů výsledků studentů v testech NSZ v květnovém a listopadovém termínu. To, že studenti stejné úlohy již dříve řešili, nemělo vliv na výsledek při jejich opakovaném testování. Otázkou zůstává, jaký vliv na analýzu měla velikost použitého vzorku a zda by analýza vyšla podobně pro větší vzorek uchazečů. Pro takovou analýzu by byla potřeba data, která momentálně k dispozici nejsou. Pokud by se uvedený závěr podařilo prokázat i na velkém vzorku populace znamenalo by to další důležitý poznatek o kvalitě testu OSP v podobě, jak ho vyvíjí společnost Scio.
51
4.2.2 – ANALÝZA ZLEPŠENÍ VÝSLEDKU Jak již bylo několikrát uvedeno, u testu OSP by nemělo docházet k systematickému zlepšování, tzn. že při opakovaných pokusech by měl výsledek zůstat poměrně stabilní. Analýzu tohoto tvrzení provedu v této části analýzy. Předpokládám to, že výsledek nemusí být stabilní na všech úrovních získaného percentilu, proto bude soubor rozdělen na několik částí (viz dále) Celý proces analýzy bude oproti předchozímu případu poměrně zjednodušen i z důvodu, že postup je analogický. Z dostupných dat nebyla prokázána normalita ve výběrech. ANOVA tedy nepřichází v úvahu. Použiji, i z důvodu, že se jedná o studenty, kteří absolvovali více termínů NSZ, opět Wilcoxonův test. Ze základních dat jsou vyfiltrováni uchazeči, kteří se účastnili více termínů. Testovanou hypotézou je shoda průměrných percentilů při opakovaném absolvování testu OSP (nejde o shodné testy). Pro účely této analýzy jsem datový soubor rozdělil na tři části podle získaného harmonizovaného percentilu, vznikly tedy soubory. V první skupině jsou uchazeči, kteří dosáhli percentilu menšího než 33,3. Ve druhé skupině jsou uchazeči s hodnotou percentilu větší než 33,3 a menší než 66,7. Ve třetí skupině pak uchazeči s percentilem vyšším než 66,7. Jak jsem již uvedl, dá se předpokládat, že zlepšování v oblastech vyššího percentilu nemusí být stejně lehké jako v případech nižšího percentilu.
3 -- 4
2 -- 3
1 -- 2
Tabulka 32 skupina komplet 1 2 3 komplet 1 2 3 komplet 1 2 3
52
p-value 0 0 0 0,684 0 0 0 0,841 0 0 0 0,539
O testované hypotéze rozhoduji opět na základě porovnání hladiny významnosti (opět 0,05) a p-value. Z tabulky je vidět, že průměry v získaném harmonizovaném percentilu jsou stejné mezi konanými pokusy 1-2, 2-3, 3-4 vždy u skupiny, která v „prvním“ z daných dvou termínů dosáhla na percentil vyšší než 66,67, tedy z hlediska NSZ patří k třetině těch nejchytřejších. To vypovídá také o tom, že u vyšších hodnot percentilu je už těžké s výsledkem něco dělat, na druhou stranu v oblasti nižších hodnot je možné výsledky zřejmě ještě dále zlepšovat. Částečně je zde tedy potvrzen předpoklad o stabilitě výsledku. U skupiny nejlepších tomu tak skutečně je. U nižších hodnot hraje zřejmě roli to, že si uchazeč některé otázky vyzkouší a postupně si zlepšuje svůj výsledek, než se ustálí na nějaké stabilní hodnotě. Pro přijetí na vysoké školy, které využívají testu OSP, je nicméně třeba poměrně vysokých hodnot percentilu. Změny v oblasti s percentilem do 33 tedy vlastně nehrají žádnou roli.
53
4.2.3 – ANALÝZA PREDIKČNÍ VALIDITY * Predikční validita řeší otázku, do jaké míry je jedna proměnná schopna předpovědět nějaké významné kritérium v budoucnosti. V případě OSP predikční validita testu představuje stupeň jeho schopnosti předpovědět budoucí úspěch ve vysokoškolském studiu. Je to tedy důležité měřítko užitečnosti testu jako jednoho z faktorů při rozhodování v přijímacím řízení. Dalším cílem této analýzy bude zjistit, do jaké míry se predikční validita testu OSP shoduje s validitou GRE.
Test OSP je odvozen z testu GRE® (General Record
Examinations®), dlouhodobě užívaného univerzitami v USA, pro nějž existuje velké množství studií a analýz, zabývajících se jeho predikční validitou. Tato analýza obsahuje výpočty predikční validity testu OSP. Je založena na údajích obdržených ze tří fakult: Fakulty sociálních studií MU Brno (FSS - 891 studentů a absolventů), Fakulty zdravotně sociální Ostravské univerzity (ZSF - 391 studentů) a Vysoké školy chemicko-technologické v Praze (VŠCHT - 410 studentů). Velikosti vzorků jsou v některých případech poměrně malé, což snižuje spolehlivost výpočtů a údaje z jednotlivých fakult jsou navíc nesourodé, takže nebylo většinou možné je kombinovat a tím velikost vzorků zvýšit. Údaje o platech absolventů pocházejí z dotazníkového průzkumu Scio (514 absolventů). Predikční validita je definována jako korelační koeficient r mezi proměnnou prediktoru a proměnnou kritéria. Ještě názorněji se dá tento vztah vyjádřit jako míra přímé/nepřímé lineární závislosti mezi vysvětlující (prediktor) a vysvětlovanou proměnou (kritérium). Koeficient determinace, čili druhá mocnina koeficientu korelace, upravená pro velikost vzorku, R2adj, vyjadřuje, kolik variability kritéria prediktor vysvětluje. Skutečnost, že fakulty, které používají test OSP v přijímacím řízení si ze všech účastníků vybírají především ty s nejlepšími výsledky testu, zkresluje výpočet korelace zúžením rozsahu výsledků. Pro korekci výpočtu je proto nutné vzít v úvahu výsledky všech účastníků přijímacího řízení. V případech, kdy tyto údaje nebyly k dispozici, je v tabulkách uveden korelační koeficient runcor, nekorigovaný pro omezení rozsahu. *
Kapitola 4.2.3 celá vychází z analýzy predikční validity pro tři vysoké školy. Ta byla na základě dodaných dat vytvořena v průběhu roku 2008 mnou a Janem Synkem ze společnosti Scio [23].
54
Interpretace koeficientu korelace závisí na kontextu a cílech studie. Obyčejně korelace s koeficientem r mezi 0,1 a 0,3 je považována za nízkou, mezi 0,3 a 0,5 za střední a mezi 0,5 a 1,0 za vysokou. Pro ilustraci, podle několika studií, obvyklá korelace výšky a váhy dospělého člověka bývá mezi 0,47 a 0,59 (jinými slovy, výška člověka vysvětluje 22 % až 35 % variability jeho váhy).
V případě predikční validity testu, za dobrou lze
považovat korelaci vyšší než 0,3, čili vysvětlení variability větší než 9 %. V tabulce 33 jsou uvedeny korelace testu OSP (pokud byly k dispozici, i jeho jednotlivých oddílů: verbálního, analytického a kvantitativního) s různými kritérii studijního prospěchu studentů i absolventů. Díky FSS, která poskytla výsledky testu Základy společenských věd (ZSV), je pro zajímavost uvedena i korelace (nekorigované pro
omezení
rozsahu)
s tímto
testem
55
a
kombinovanou
korelaci
OSP+ZSV.
Tabulka 33 OSP-V 2
OSP-A
OSP-Q
Kritérium Prospěch k březnu 2008 - celkem Prospěch k březnu 2008 - studenti Konečný prospěch Státní závěrečná zkouška (SZZ)
n 891 566 325 325
r R adj 0,0265 -0,0004 -0,2032 0,0396 0,0230 -0,0026 0,0055 -0,0031 OSP-celkem
p 0,2147 0,0000 0,3400 0,4610
n 891 566 325 325
r -0,1032 0,0923 0,0171 -0,0762
R adj 0,0095 0,0068 -0,0028 0,0027 ZSV
p 0,0010 0,0140 0,3796 0,0853
n 891 566 325 325
r R2adj -0,0875 0,0065 -0,0538 0,0011 0,1260 0,0128 -0,1188 0,0111 OSP+ZSV
p 0,0045 0,1007 0,0116 0,0161
Kritérium Prospěch k březnu 2008 - celkem Prospěch k březnu 2008 - studenti Konečný prospěch Státní závěrečná zkouška (SZZ)
n 891 566 325 325
r -0,2586 -0,0805 0,0180 -0,2880
R2adj 0,0658 0,0047 -0,0028 0,0801
p 0,0000 0,0278 0,3733 0,0000
n 891 566 325 325
runcor -0,2015 -0,1404 -0,1413 -0,1471
R2adj 0,0395 0,0180 0,0169 0,0186
p 0,0000 0,0004 0,0054 0,0040
n 891 566 325 325
runcor -0,2166 -0,1565 -0,1453 -0,1770
R2adj 0,0458 0,0228 0,0181 0,0283
p 0,0000 0,0001 0,0044 0,0007
56
2
Údaje o prospěchu v prvním ročníku byly získány ze dvou fakult, o prospěchu ve druhém ročníku z jedné fakulty a údaje o absolventech a prospěchu ve vyšších ročnících též pouze z jedné. Výpočty ukazují, že test OSP koreluje poměrně dobře s prospěchem v prvním ročníku (r = −0,4053), čili vysvětluje 16,3 % jeho variability. Důvod záporné korelace je jednoduchý. Výsledek testu se zlepšuje s rostoucím počtem bodů, vyšší známka naopak znamená horší výsledek. Jde tedy o nepřímou lineární závislost. Jednotlivé oddíly OSP vysvětlují mezi 9,7 % (verbální) a 14,1 % (analytický) variability prospěchu. Mnohem slabší je korelace s prospěchem ve druhém ročníku (kde OSP vysvětluje 3,1 % variability), vyšších ročnících (4 %) a státní závěrečnou zkouškou (8 %). Celkový výsledek OSP koreluje nejlépe, verbální a analytické oddíly nekorelují vůbec. Nenašli jsme v podstatě buď žádnou korelaci mezi OSP a závěrečným prospěchem nebo dokonce korelaci pozitivní, což by znamenalo, že absolventi s nejlepšími výsledky OSP skončili s nejhorším prospěchem. Neexistuje žádná signifikantní korelace mezi testem OSP a platem absolventů.Je zajímavé, že výsledky testu Základy společenských věd (ZSV) a kombinace obou testů (OSP+ZSV) korelují sice slabě, ale lépe než samotný OSP s úspěšností absolventů i s prospěchem studentů ve vyšších ročnících. Další tabulka uvádí korelace testu OSP s prospěchem v 1. ročníku, kde kritériem je studijní zaměření. Tabulka 34 – Prospěch v 1. ročníku podle studijního zaměření
Výpočty ukazují, že OSP je lepším prediktorem úspěšnosti studentů přírodních věd. V prvním ročníku VŠCHT OSP vysvětluje 14,3 % variability prospěchu, zatímco na ZSF pouze 8,7 %. Výsledky jsou statisticky signifikantní.
57
Pro 357 studentů 1. ročníku VŠCHT máme informace o jejich prospěchu na střední škole. Tabulka 35 ukazuje, jak jejich prospěch koreluje s celkovým skórem OSP, se známkami na střední škole a s kombinací obou prediktorů. Tabulka 35 - Korelace prospěchu v 1. ročníku studia s OSP a známkami na střední škole
Známky těchto studentů na SŠ korelují velmi slabě (r = 0,075) s jejich prospěchem v prvním ročníku VŠCHT, s nízkou statistickou významností. Kombinovaná korelace s OSP+SŠ je jen o málo vyšší, než s OSP samotným, 0,3891 proti 0,3814 (neboli 14,9 % vysvětlení variability v. 14,3 %).
Slabou korelaci se známkami na střední škole je
pravděpodobně možné vysvětlit rozdíly ve způsobech hodnocení žáků na jednotlivých školách. Nakonec je pro porovnání uvedena korelace testu GRE s prospěchem v 1. ročníku studia. Údaje pocházejí z meta-analýzy predikční validity testu GRE Nathana Kuncela, publikované v r. 2001. Tabulka 36 – Korelace testu GRE
Prospěch v prvním ročníku a závěrečný prospěch jsou jediná kritéria v analýze Nathana Kuncela (tabulka 36.), která můžeme porovnat s našimi výsledky. V ostatních kritériích se naše studie neshodují. Organizace ETS, administrátor GRE, v návodu ke správnému použití výsledků testu doporučuje fakultám, aby považovaly výsledky jednotlivých oddílů testu jako tři oddělená a nezávislá měřítka a varuje před používáním kompozitních měřítek. Kuncelova analýza proto uvádí pouze korelace jednotlivých oddílů testu GRE. 58
Lze říci, že korelace testů GRE a OSP s prospěchem v prvním ročníku jsou přibližně stejné: vysvětlení variability prospěchu je 11,5 % oproti 9,7 % pro verbální oddíl, 12,9 % oproti 14,1 % pro analytický a 10,2 % v porovnání s 10,7 % pro kvantitativní. Podle disciplin se nejvíce přibližujeme v přírodních vědách: 11,5 % oproti 9,3 % za verbální, 11,5 % oproti 9,6 % za analytický a 12,2 % v porovnání s 10,5 % za kvantitativní oddíl. V ostatních kritériích jsou naše korelace OSP mnohem slabší, než korelace GRE. Je však nutno mít na vědomí, že výpočty Nathana Kuncela vycházejí z mnohem větších vzorků než naše. Dvě zúčastněné fakulty nám poskytly několik dodatečných informací ke zpracování. Od VŠCHT jsme dostali informace o prospěchu studentů v různých předmětech, ZSF seřadila data podle studijních oborů studentů a označila studenty zapojené do profesních aktivit mimo studium (stáž či praxe na fakultě nebo mimo, publikace článků, apod.).
59
Tabulka 37 – VŠCHT
OSP-V
OSP-A
2
Kritérium Prospěch 1. ročník
n r R adj p n r 410 -0,3089 0,0932 0,0000 410 -0,3138
Obecná a anorganická chemie I Toxikologie a ekologie Biologie člověka Základy toxikologie a ekologie Biologie I Úvod do potravinářské ekologie Matematika I Podniková ekonomika Aplikace výpočetní techniky
375 226 88 198 170 153 287 153 284
-0,1910 -0,2244 -0,3040 -0,2922 -0,3249 -0,3112 -0,2625 -0,1753 -0,2376
0,0339 0,0461 0,0819 0,0807 0,1002 0,0909 0,0656 0,0243 0,0531
0,0001 0,0003 0,0020 0,0000 0,0000 0,0000 0,0000 0,0151 0,0000
375 226 88 198 170 153 287 153 284
2
OSP-Q
R adj p n r 0,0963 0,0000 410 -0,3280
OSP-celkem
2
R adj p n r R2adj p 0,1054 0,0000 410 -0,3814 0,1434 0,0000
-0,0685 0,0020 0,0928 375 -0,1295 0,0141 0,0060 -0,1767 0,0269 0,0039 226 -0,1942 0,0334 0,0017 -0,1694 0,0174 0,0573 88 -0,1160 0,0020 0,1409 -0,0586 -0,0017 0,2061 198 -0,1587 0,0202 0,0128 -0,1312 0,0114 0,0441 170 -0,1869 0,0292 0,0073 -0,3227 0,0982 0,0000 153 -0,2951 0,0811 0,0001 -0,2385 0,0536 0,0000 287 -0,2681 0,0686 0,0000 -0,0425 -0,0048 0,3008 153 -0,0457 -0,0045 0,2875 -0,2514 0,0599 0,0000 284 -0,2303 0,0497 0,0000
375 226 88 198 170 153 287 153 284
-0,1527 -0,2378 -0,2362 -0,2135 -0,2822 -0,4022 -0,3099 -0,1062 -0,2959
0,0207 0,0523 0,0448 0,0407 0,0742 0,1562 0,0929 0,0047 0,0843
VŠCHT - existuje dobrá korelace OSP se známkami v Matematice (OSP vysvětluje 9,3 % variability), Aplikaci výpočetní techniky (8,4 %) a Biologii (7,4 %). Překvapivě vysoká je korelace se známkami v Úvodu do potravinářské ekologie (15,6 % variability). V ostatních předmětech je korelace nižší.
60
0,0015 0,0002 0,0134 0,0013 0,0001 0,0000 0,0000 0,0956 0,0000
Tabulka 38 – Zdravotně sociální fakulta OSP-V Kritérium Prospěch 1. ročník (216+175 studentů) Prospěch 2. ročník (175 studentů) Aktivita celkem (216+175 studentů) Aktivita 2. ročník (175 studentů) Obory 1. ročník Porodní asistentka Všeobecná sestra Všeobecná sestra Fyzioterapie4 Fyzioterapie6 Radiologický asistent Radiologický asistent - aktivita celkem Zdravotní laborant Zdravotnický záchranář Zdravotnický záchranář - aktivita celkem Sociální práce se zdravotnickým profilem Obory 2. ročník Porodní asistentka Všeobecná sestra Fyzioterapie4 Fyzioterapie6 Radiologický asistent Radiologický asistent - aktivita Zdravotní laborant Zdravotnický záchranář
2
OSP-A 2
OSP-Q 0,0311 -0,0056 -0,0019 0,0015
n 391 175 391 175
r -0,2990 -0,1920 0,0388 -0,0253
R2adj 0,0871 0,0313 -0,0011 -0,0051
p 0,0000 0,0055 0,2220 0,3698
0,3137 -0,0752 -0,1902 -0,4141 -0,2881 -0,1215 0,2885 -0,1601 -0,0011 0,1031 -0,6043
0,0609 -0,0080 0,0230 0,1567 0,0660 -0,0217 0,0493 0,0049 -0,0167 -0,0059 0,3465
0,0593 0,2608 0,0511 0,0006 0,0157 0,2650 0,0645 0,1360 0,4965 0,2126 0,0000
26 75 75 58 56 29 29 49 62 62 36
0,0850 -0,1369 -0,1804 -0,4059 -0,5071 -0,4220 0,3358 -0,3774 -0,0566 0,0977 -0,7161
-0,0341 0,0053 0,0193 0,1499 0,2434 0,1476 0,0799 0,1242 -0,0134 -0,0070 0,4984
0,3399 0,1208 0,0607 0,0008 0,0000 0,0113 0,0375 0,0038 0,3311 0,2250 0,0000
0,3730 0,0766 -0,3259 -0,0895 -0,1846 -0,1443 -0,2309 0,0822
0,0777 -0,0273 0,0731 -0,0317 -0,0402 -0,0545 0,0122 -0,0275
0,0773 0,3384 0,0422 0,3285 0,2551 0,3040 0,1334 0,3300
16 32 29 27 15 15 25 31
-0,3174 0,1539 -0,7353 -0,3939 -0,4153 0,1920 -0,4067 0,1122
0,0365 -0,0089 0,5237 0,1214 0,1089 -0,0372 0,1292 -0,0215
0,1155 0,2002 0,0000 0,0210 0,0618 0,2465 0,0218 0,2739
r -0,2223 -0,1508 0,0155 -0,0118
R adj 0,0470 0,0171 -0,0023 -0,0056
p 0,0000 0,0232 0,3802 0,4386
n 391 175 391 175
r -0,2570 -0,1642 0,0331 0,0386
R adj 0,0637 0,0213 -0,0015 -0,0043
p 0,0000 0,0149 0,2567 0,3060
n 391 175 391 175
r -0,1834 -0,0131 0,0266 -0,0852
26 75 75 58 56 29 29 49 62 62 36
-0,0906 -0,0961 -0,2215 -0,1789 -0,4235 -0,3356 0,2141 -0,2806 -0,0978 0,0333 -0,4679
-0,0331 -0,0043 0,0360 0,0147 0,1642 0,0797 0,0105 0,0591 -0,0069 -0,0155 0,1960
0,3299 0,2062 0,0281 0,0895 0,0006 0,0376 0,1323 0,0254 0,2247 0,3985 0,0020
26 75 75 58 56 29 29 49 62 62 36
0,0640 -0,1086 -0,0651 -0,1998 -0,4196 -0,6237 0,4104 -0,4375 0,0229 0,0480 -0,3199
-0,0374 -0,0017 -0,0094 0,0228 0,1608 0,3664 0,1376 0,1742 -0,0161 -0,0143 0,0759
0,3781 0,1767 0,2895 0,0664 0,0006 0,0002 0,0135 0,0008 0,4298 0,3556 0,0286
26 75 75 58 56 29 29 49 62 62 36
16 32 29 27 15 15 25 31
-0,3956 0,1087 -0,7010 -0,2197 -0,2290 0,0452 -0,4652 0,2147
0,0963 -0,0211 0,4726 0,0102 -0,0205 -0,0747 0,1824 0,0132
0,0647 0,2769 0,0000 0,1354 0,2059 0,4365 0,0096 0,1230
16 32 29 27 15 15 25 31
-0,1857 0,1340 -0,1393 -0,5480 -0,7118 0,6321 0,0763 -0,0103
-0,0345 -0,0148 -0,0169 0,2723 0,4687 0,3534 -0,0374 -0,0344
0,2455 0,2323 0,2356 0,0015 0,0015 0,0057 0,3586 0,4782
16 32 29 27 15 15 25 31
61
OSP-celkem p 0,0001 0,4315 0,2999 0,1312
n 391 175 391 175
R2adj
U ZSF jsme našli vysokou korelaci mezi testem OSP a prospěchem v oborech Fyzioterapie 4 (vysvětluje 52,4 % variability ve 2. ročníku a 15 % celkově), Fyzioterapie 6 (12,1 % ve 2. ročníku a 24,3 % celkově), Radiologický asistent (14,8 % celkově), Zdravotní laborant (12,9 % ve 2. ročníku a 12,4 % celkově) a Sociální práce se zdravotnickým profilem (50 % celkově). Z velmi malého počtu studentů zabývajících se profesní aktivitou, pouze aktivita v oboru Radiologický asistent koreluje s OSP poměrně dobře (r = 0,3358). Jedná se na úrovni jednotlivých oborů ale o velmi malé vzorky. Výsledky naší analýzy potvrzují, že test obecných studijních předpokladů (OSP) je dobrým prediktorem prospěchu v prvním ročníku vysokoškolského studia. U vzorků dat, které jsme měli k dispozici, jsme však nenaměřili žádnou podstatnou korelaci s prospěchem ve vyšších ročnících, závěrečným prospěchem a státní závěrečnou zkouškou (SZZ). Jednou z hlavních příčin je malá velikost vzorků. Ke zlepšení kvality analýzy by přispěla spolupráce s co největším počtem fakult, které test OSP používají jako alternativu za své vlastní přijímací zkoušky. Klíčovými jsou údaje prospěch studentů na konci 1. ročníku a závěrečný prospěch absolventů. Zajímavé by bylo samozřejmě analyzovat, jaký vliv na zkoumané má prospěch studentů na střední škole. Tento údaj byl v letošní analýze k dispozici pouze pro omezený vzorek studentů. V budoucnu by se informace o prospěchu na střední škole (a výsledcích maturity) měly shromažďovat během administrace testu OSP (např. otázky v dotazníku). Pokud dojde k pravidelnému předávání dat o prospěchu z mnoha zúčastněných fakult, porostou velikosti vzorků a tím i přesnost a spolehlivost výpočtů predikční validity OSP.
62
Tabulka 39 - vysvětlivky n r R2adj p OSP - V OSP - A OSP - Q ZSV SŠ
velikost vzorku koeficient korelace mezi prediktorem a kritériem % vysvětlené variability kritéria prediktorem upravený o velikost vzorku p-value verbální oddíl testu OSP analytický oddíl testu OSP kvantitativní oddíl testu OSP Základy společenských věd známky na střední škole
63
4.3.1 – VLIV ZNÁMKY NA ÚSPĚŠNOST V TESTU Data pochází z části z dotazníku (viz příloha 2), který vyplňovali žáci účastnící se přijímacích zkoušek na střední školy v roce 2009. Celkem se jednalo v matematice o 6 152 uchazečů v českém jazyce o 6 056 uchazečů. Jejich odpovědi byly dále spojeny s výsledky jakých dosáhli v testu z matematiky, českého jazyka a obecných studijních předpokladů. K dispozici jsou data: známka z českého jazyka, známka z matematiky, pohlaví. Závislé proměnné jsou hrubé úspěšnosti v testech z matematiky, českého jazyka a obecných studijních předpokladů. Není jistě na místě zkoumat vlivy např. známky z českého jazyka na výsledek testu z matematiky. V analýze se omezím na vliv známky z českého jazyka na výsledek testu z Čj a výsledek testu OSP, vliv známky z matematiky na výsledek testu z matematiky a výsledek testu OSP a vliv pohlaví na výsledek v testech z matematiky, českého jazyka a OSP. Za předpokladu, že známkování by bylo u všech uchazečů objektivní, měly by známky z předmětů mít vliv na výsledek v testu z příslušného předmětu. U pohlaví jde pak čistě o populaci účastnící se přijímacích zkoušek – výstupem bude zodpovězení otázky, zda a v kterých testech byly dívky lepší než chlapci, či naopak. Otázkou této analýzy je, zda je možné o kvalitě testu rozhodnout i na základě jiných analýz než predikční validity. Za předpokladu, že test prošel vývojem v podobě, v jaké byl v úvodní kapitole této práce popsán. K tomu bude sloužit nejen analýza, ale také diskuse v jejím závěru. Měl by výsledek testu odpovídat známkám na základní škole. Co se stane v případě, že tomu tak není. Obecně je přijímán fakt, že známky, nejen na základních školách, nejsou zcela objektivní. Měl by kvalitní test být schopný to posoudit? Vzhledem k tomu, že se jedná o velké výběry, můžeme uvažovat vícerozměrnou normalitu výběrů. Shoda kovariančních matic na 5% hladině významnosti také není zamítnuta, hodnota p-value je 0,283. Vliv rozdílné úrovně jednotlivých faktorů na hrubé úspěšnosti v testech otestujeme pomocí Wilksovy statistiky.
64
Tabulka 40 Effect znamka_CJ znamka_M pohlavi
Value 0,995 0,989 0,989
F 1,412 3,086 6,022
Hypothesis df 6 6 3
Error df 3,19E+03 3,19E+03 1,60E+03
Sig. 0,206 0,005 0,000 Zdroj: výstup SPSS
Je vidět, že hypotézu o shodě vektorů středních hodnot nezamítneme pouze v případě známky z ČJ. Podíváme-li se na párové porovnávání pro varianty uvedené výše, pro známku z českého jazyka získáváme: Tabulka 41 Depende (I) nt
95% Confidence Interval for
(J)
znamka znamka
Differencea
Mean Difference
_CJ
CJ9
2
.024
.017
.161
-.010
.058
3
.045
.033
.174
-.020
.110
1
-.024
.017
.161
-.058
.010
3
.021
.029
.479
-.037
.078
1
-.045
.033
.174
-.110
.020
2
-.021
.029
.479
-.078
.037
2
.012
.015
.426
-.017
.041
3
.036
.028
.205
-.020
.091
1
-.012
.015
.426
-.041
.017
3
.024
.025
.337
-.025
.073
1
-.036
.028
.205
-.091
.020
2
-.024
.025
.337
-.073
.025
1
2
3
OSP9
1
2
3
(I-J)
Std. Error
Sig.a
Variable _CJ
Lower Bound
Upper Bound
Zdroj: výstup SPSS
Je vidět, že žádný z rozdílů hrubých úspěšností v závislosti na získané známce není statisticky významný. Pro přijímací test z českého jazyka na střední školy nemají rozdílné známky získané na základní škole žádný statisticky významný vliv. Je tedy v podstatě jedno, jakou známku z českého jazyka uchazeč na základní škole měl, protože výsledek testu to významně neovlivnilo. Nestalo se tak v případě českého jazyka ani OSP. 65
Tabulka 42 Depende (I) nt
95% Confidence Interval for
(J)
znamka znamka
Differencea
Mean Difference Sig.a
Variable _M
_M
M9
2
.073
.039
.057
-.002
.149
3
*
.137
.044
.002
.050
.224
1
-.073
.039
.057
-.149
.002
3
*
.030
.035
.004
.122
*
.044
.002
-.224
-.050
2
*
-.063
.030
.035
-.122
-.004
2
-.027
.024
.255
-.073
.019
3
.005
.027
.851
-.048
.058
1
.027
.024
.255
-.019
.073
3
.032
.018
.082
-.004
.068
1
-.005
.027
.851
-.058
.048
2
-.032
.018
.082
-.068
.004
1
2
3
OSP9
1
2
3
(I-J)
1
Std. Error
.063 -.137
Lower Bound
Upper Bound
Zdroj: výstup SPSS
V případě známky z matematiky jsou na 5% hladině významnosti statisticky významné rozdíly v hrubé úspěšnosti v testu z matematiky mezi jedničkáři a trojkaři, mezi dvojkaři a trojkaři. Mezi jedničkáři a dvojkaři je výsledek na hraně. Mezi hrubou úspěšností jedničkáře a trojkaře je v testu průměrný rozdíl v hrubé úspěšnosti 13,7%, mezi dvojkařem a trojkařem 6,3%, mezi jedničkářem a dvojkařem je rozdíl 7,3% vždy ve prospěch skupiny s lepší známkou.
66
Tabulka 43 – výsledky pro pohlaví 95% Confidence Interval for
Depende nt
(I)
(J)
Differencea
Mean Difference Sig.a
Variable pohlavi
pohlavi
CJ9
1
2
-.043
.022
.055
-.087
.001
2
1
.043
.022
.055
.000
.087
1
2
.026
.031
.406
-.035
.087
2
1
-.026
.031
.406
-.087
.035
1
2
.040*
.019
.037
.002
.077
2
1
-.040*
.019
.037
-.077
-.002
M9
OSP9
(I-J)
Std. Error
Lower Bound
Upper Bound
Zdroj: výstup SPSS
Statisticky významné rozdíly mezi pohlavími v jednotlivých testech na 5% hladině významnosti jsou u testu OSP, kdy (chlapec = 1, dívka = 2) chlapci jsou průměrně o 4 procentní body úspěšnější než dívky. Na hraně jsou výsledky v testu z českého jazyka, kdy jsou naopak úspěšnější dívky v průměru o 4,3%. Hypotézy o vlivu známky z příslušného předmětu na výsledek testu se podařilo prokázat pouze u vztahu známka z matematiky – test z matematiky. Známka z českého jazyka ani z matematiky neměla vliv na výsledek v testu OSP – to odpovídá i tomu, jakým způsobem je test OSP stavěn, jde o test schopností nikoli znalostí. Otázkou je, zda je možné na základě výsledků testu rozhodovat o tom, zda známky na základních školách jsou objektivní či ne. Těžko je možné říci, že na základě těchto výsledků bychom měli udělat závěr o kvalitě testu. To by bylo možné v případě, kdy by známkování bylo objektivní, nebo stejné na všech školách. To v nesourodé skupině uchazečů u přijímacího řízení na střední školy není možné předpokládat. Musel by existovat systém, který by striktně stanovil systém známkování. Muselo by zřejmě dojít k centralizaci testů pro žáky, aby se dalo mluvit o známkování, které by bylo srovnatelné napříč všemi uchazeči. Pokud by tomu tak bylo, pak by na základě této analýzy bylo možné rozhodnout o kvalitě testu, i když s určitými chybami. Výsledky testu by v převážné většině případů musely odpovídat známce studentů. Především v případech zkoumání vlivu známky z českého 67
jazyka na výsledek testu z českého jazyka a známky z matematiky na výsledek testu z matematiky. U testu OSP by ani srovnatelné známkování mezi všemi uchazeči nemuselo vést nutně k určení kvality testu OSP. Je složen z několika různých částí. A bylo by zřejmě chybou řešit např. vliv známky z českého jazyka na kvantitativní část tohoto testu. Na druhé straně stojí otázka, kdy je možné na základě testu rozhodnout právě např. o srovnatelném známkování mezi uchazeči. Podle mého názoru se dostaneme v takovém případě do zvláštní situace, kdy by tomu musela předcházet analýza predikční validity, kterou je ale možné provést až v budoucnosti. Až poté by následovala tato analýza, pro niž data již naopak máme. Pokud by test dobře předpovídal úspěch v daném předmětu na střední škole, bylo by možné jeho závěry o vlivu známky na základní škole brát za hodnověrnější.
68
5 – ZÁVĚR V úvodu této práce jsem si vytyčil několik cílů. Především jsem chtěl ukázat na využitelnost statistiky v praxi vývoje hodnotícího testu a zaměřit se na její přínosy. Jak vyplývá z celé teoretické části této práce, vývoj testu je náročný proces a pokud by byl dodržen v této obecné podobě, není podle mého názoru možné statistiku nevyužít. Znamenalo by to víc problémů, než by sestavovatel potřeboval, ačkoli ne vždy dává statistika odpověď na všechny otázky. Důležitým článkem vývoje testu je bezesporu položková analýza. S pomocí literatury jsem se zaměřil na několik používaných nástrojů. Ačkoli jde o tak důležitou část vývoje, najdou se v literatuře takové nástroje, u kterých je využití velmi diskutabilní. U analýzy diskriminace je nejproblematičtější použití biseriálního koeficientu citlivosti a tetrachordického koeficientu. Je tedy nutné v některých případech podrobněji promyslet, jestli koeficient opravdu měří to, co by měl. Co do výpočtu hodnot diskriminace testové položky bych osobně zvolil koeficient ULI, který není podle mého zatížen chybami jako předchozí dva zmíněné koeficienty. V případě hrubých, případně čistých úspěšností u testových položek je problém jinde. Jak ukázala první z analýz, není možné brát výsledky z pilotování za zcela směrodatné. Dalo se předpokládat, že mezi pilotním testováním a testování finální verzí testu bude rozdíl. Není bohužel možné na základě dostupných dat hledat v rozdílech jakékoli zákonitosti a tato část by si jistě zasloužila hlubší analýzu. Ta by vyžadovala především delší časový úsek a ani ten by nemusel mnohdy stačit. Ne vždy by zřejmě položky byly v různých letech zcela srovnatelné. To by vyžadovalo jejich podrobnější členění, což by na druhou stranu ale znemožnilo potřebné zastoupení jednotlivých skupin. Bylo by tak potřeba se smířit s určitou chybou. Z výsledků, které jsem díky analýze získal, je možné říci s jistotou pouze to, že mezi statistikami z pilotování a „ostrého“ testování je rozdíl. Čím přesně je způsoben a zda by byl stejný i při dalším testování není možné říci. Závěrem této analýzy je to, že výsledky položkové analýzy po pilotování je možné brát jako informaci o položce ve smyslu její správnosti. Pokud se objeví některá z chyb typu - špatně označené správné řešení, špatně formulované zadání, zbytečný distraktor – je možné na základě položkové analýzy
69
rozhodnout. Při sestavování více testových variant, které mají být srovnatelné, není možné na základě těchto dat postupovat. Pomocí několika analýz na datech z testu OSP se mi nepodařilo vyvrátit definici tohoto testu. Ve smyslu, že opakování testu nepřispívá ke zlepšování výsledků v něm. Ke změnám jistě dochází, ale k těm statisticky významným pouze na úrovni třetiny nejhorších uchazečů. Nepodařilo se vyvrátit ani hypotézu o tom, že znalost referenčních úloh nemá vliv na výsledek v testu. Tedy ani fakt, že se někteří uchazeči setkali se čtvrtinou úloh v testu, nepomohlo ke zlepšení jejich výsledku. Velmi důležitá je také reliabilita testu. Jak bylo ukázáno na grafu, mají klesající hodnoty reliability zásadní vliv na strukturu přijímaných uchazečů. S jejím poklesem roste pravděpodobnost, že mezi přijímanými uchazeči budou i ti, kteří dobrého výsledku dosáhli náhodou. Konkrétně vždy záleží na poměru přijímaných uchazečů. V případě více variant testu je problém chybného přijetí uchazeče podobný. Je zřejmé, že sestavení srovnatelných variant testu je spíše teoretická záležitost. Pokud tedy nepřistoupíme ke srovnávání variant s pomocí statistických postupů je výsledek tím horší, čím větší jsou rozdíly v testech a čím větší je poměr přijímaných uchazečů. Při tvorbě více variant je vždy potřeba se zamyslet nad způsobem srovnání, protože nesrovnání výsledků uchazečů je chyba téměř vždy. U každého testu je potřeba se také zamyslet nad jeho validitou. V podmínkách České republiky na poli vzdělávání to není zcela jednoduché. Hlavním důvodem je nedostatek kvalitních dat. To se podepíše na celé analýze, která může být dělána na základě postupů aplikovaných v zahraničí. Ne vždy je ale možné s tak malými vzorky konstatovat jasný závěr. S blížící se státní maturitou by, věřím, mělo toto téma být aktuálnější. Stát by měl mít větší možnosti získání dat od vysokých škol, než jaké má soukromá společnost. Jak je zmíněno v samotné analýze, prospěch ve škole není vždy ovlivněn jen faktory souvisejícími se schopnostmi studenta. Socioekonomické předpoklady jedince na základě těchto dat není možné posoudit bohužel vůbec. U každého testu, který je významný pro další život člověka – ať už studijní nebo pracovní – by měl sestavený test být kvalitní. Kvalitní ze všech dostupných hledisek. Tzn. správné 70
testové položky, srovnatelné varianty – případně přepočítané výsledky. Výsledky testu by neměly být náhodné (reliabilita) a test by v první řadě měl měřit to, k čemu je sestaven.
71
6 – POUŽITÁ LITERATURA [1]
Bahbouh, R., Rozehnalová, E. Položková analýza [online]. 2009. [cit. 2009-06-11]
Dostupné na stránkách:
. [2]
Bloom, B. S. Taxonomy of Educational Objectives, the classification of
educational goals – Handbook I: Cognitive Domain New York: McKay, 1956 [3]
Brown, W. Some experimental results in the correlation of mental abilities.
British Journal of Psychology 1910, 3, 296-322 [4]
Burjan, V. Tvorba a využívanie školských testov v pedagogickej praxi.
Bratislava:Metodicko-Pedagogické centrum v Bratislavě, 2005. 54 s. ISBN 80-8052-2286. [5]
Byčkovský, Petr. Základy měření výsledků výuky. Tvorba didaktického testu.
Praha:ČVUT, 1982. [6]
Cortina, J.M. What Is Coefficient Alpha? An Examination of Theory and
Applications. Journal of Applied Psychology, 1993, 78(1), 98-104 [7]
Cronbach, L. J. Coefficient alpha and the internal structure of tests.
Psychometrika, 1951, 16(3), 297-334 [8]
Hebák, P., Bílková, D., Svobodová, A. Praktikum k výuce matematické statistiky
II - Testování hypotéz. Praha, 2004. ISBN 80-245-0721-8 [9]
Hebák, P., Kahounová, J. Počet pravděpodobnosti v příkladech. Praha, 2005.
ISBN 80-733-040-7 [10]
Hindls, R., Hronová, S., Seger, J. Statistika pro ekonomy. Praha: Professional
Publishing, 2004. ISBN 80-86419-59-2 [11]
Hniličková, J., Josífko, M., Tuček, A. Didaktické testy a jejich zpracování. Praha:
Státní pedagogické nakladatelství, 1972. [12]
Hunter, John E., Schmidt, Frank L., Le, H. Implications of direct and indirect
range restriction for meta-analysis methods and findings [online]. 2006. [cit. 2008-0917]. Dostupné na stránkách: 72
. [13]
Johnson, Richard A., Wichern, Dean W. Appllied mutivariate statistical analysis.
New Jersey: Prentice-Hall, 2002. ISBN 0-13-092553-5 [14]
Junková, J. Didaktické testování [online]. 2005. [cit. 2009-06-15] Dostupné na
stránkách: . [15]
Kahounová, J. Praktikum k výuce matematické statistiky I - Odhady. Praha, 2000.
ISBN 80-245-0070-1 [16]
Kolen, M. J., Brennan, R. L. Test Equating, Scaling, and Linking: Methods and
Practices (2nd ed.), New York: Springer Verlag, 2004. ISBN 97-803-874-008-60 [17]
Komenda, S., Zapletalová, J. Edukometrie: didaktický test a jeho modelování
[online]. 1999. [cit. 2009-06-11]. Dostupné na stránkách: . [18]
Livingston, S. A. Equating Test Scores (without IRT). Princeton, NJ: Educational
Testing Service, 2004 [19]
Maněna, V., Chrzová, M. Metodologie vytváření testu [online]. [cit. 2009-06-11]
Dostupné na stránkách: [20]
Miller, I. Edukometrie [online]. 2009. [cit. 2009-06-15]. Dostupné na stránkách:
. [21]
Spearman, Charles, C. Correlation calculated from faulty data. British Journal of
Psychology, 1910, 3, 271-295 [22]
Sternberg, R. J., & The Rainbow Project Collaborators. The Rainbow Project:
Enhancing the SAT through assessments of analytical, practical and creative skills. Intelligence, 2006, 34 (4), 321-350. [23]
Synek, J., Otřísal, V. Predikční analýza testu OSP - výsledky analýzy [online].
2008. [cit. 2009-07-08]. Dostupné na stránkách: . [24]
Urbina, S. Essentials of Psychological Testing. New Jersey: John Wiley a Sons,
Inc.,2004. 336 s. ISBN 0-471-41978-8. 73
[25]
Chyby a nedostatky v testech [online]. 2009. [cit. 2009-06-05]. Dostupné na
stránkách: . [26]
Kritické hodnoty Wilcoxonova testu [online]. 2009. [cit. 2009-06-05]. Dostupné
na stránkách: . [27]
Ověřování a optimalizace didaktického testu [online]. 2009. [cit. 2009-06-
15].Dostupné na stránkách: . [28]
Postup vývoje testu [online]. 2009. [cit. 2009-06-05].Dostupné na stránkách:
. [29]
Reliabilita testu [online]. 2009. [cit. 2009-06-05].Dostupné na stránkách:
. [30]
Slovníček pojmů [online]. 2009. [cit. 2009-06-05].Dostupné na stránkách:
. [31]
Testování v zahraničí [online]. 2009. [cit. 2009-06-05].Dostupné na stránkách:
. [32]
Typy testů [online]. 2009. [cit. 2009-06-05].Dostupné na stránkách:
. [33]
Validita testu [online]. 2009. [cit. 2009-07-15]. Dostupné na stránkách:
. [34]
Vyhodnocení přijímacích zkoušek [online]. 2009. [cit. 2009-07-15]. Dostupné na
stránkách: .
74
7 - PŘÍLOHY PŘÍLOHA 1 TK
A
B
C
D
TK
A
B
C
D
TK
A
B
C
D
-0,996
5
5
9
1
-0,506
7
3
5
5
0,808
6
4
7
3
-0,996
1
9
5
5
-0,506
5
5
3
7
0,808
3
7
4
6
-0,995
3
7
9
1
-0,488
4
6
7
3
0,814
5
5
8
2
-0,995
1
9
7
3
-0,488
3
7
6
4
0,814
2
8
5
5
-0,993
4
6
9
1
-0,448
9
1
9
1
0,836
9
1
2
8
-0,993
1
9
6
4
-0,448
8
2
8
2
0,836
8
2
1
9
-0,967
9
1
8
2
-0,448
7
3
7
3
0,871
2
8
8
2
-0,967
6
4
4
6
-0,448
6
4
6
4
0,918
8
2
3
7
-0,967
2
8
1
9
-0,448
5
5
5
5
0,918
7
3
2
8
-0,952
8
2
5
5
-0,448
4
6
4
6
0,944
3
7
7
3
-0,952
5
5
2
8
-0,448
3
7
3
7
0,991
7
3
4
6
-0,940
2
8
9
1
-0,448
2
8
2
8
0,991
6
4
3
7
-0,940
1
9
8
2
-0,448
1
9
1
9
0,994
7
3
9
1
-0,867
3
7
8
2
-0,389
5
5
7
3
0,994
1
9
3
7
-0,867
2
8
7
3
-0,389
3
7
5
5
1,000
10
0
0
10
-0,829
7
3
3
7
-0,339
8
2
4
6
1,000
10
0
1
9
-0,829
8
2
7
3
-0,339
6
4
2
8
1,000
10
0
2
8
-0,829
3
7
2
8
-0,339
9
1
6
4
1,000
10
0
3
7
-0,598
9
1
10
0
-0,339
4
6
1
9
1,000
10
0
4
6
-0,598
8
2
10
0
-0,128
8
2
2
8
1,000
10
0
5
5
-0,598
7
3
10
0
-0,012
7
3
6
4
1,000
10
0
6
4
-0,598
6
4
10
0
-0,012
4
6
3
7
1,000
10
0
7
3
-0,598
5
5
10
0
0,047
7
3
8
2
1,000
10
0
8
2
-0,598
4
6
10
0
0,047
2
8
3
7
1,000
10
0
9
1
-0,598
3
7
10
0
0,110
6
4
8
2
1,000
9
1
0
10
-0,598
2
8
10
0
0,110
2
8
4
6
1,000
8
2
0
10
-0,598
1
9
10
0
0,131
5
5
6
4
1,000
7
3
0
10
-0,598
0
10
1
9
0,131
4
6
5
5
1,000
6
4
0
10
-0,598
0
10
2
8
0,206
1
9
9
1
1,000
5
5
0
10
-0,598
0
10
3
7
0,376
4
6
6
4
1,000
4
6
0
10
-0,598
0
10
4
6
0,376
8
2
9
1
1,000
3
7
0
10
-0,598
0
10
5
5
0,376
1
9
2
8
1,000
2
8
0
10
-0,598
0
10
6
4
0,525
9
1
5
5
1,000
1
9
0
10
-0,598
0
10
7
3
0,525
5
5
1
9
-0,598
0
10
8
2
0,660
9
1
1
9
-0,598
0
10
9
1
0,677
9
1
3
7
-0,598
0
10
10
0
0,677
7
3
1
9
-0,551
4
6
8
2
0,690
9
1
4
6
-0,551
2
8
6
4
0,690
6
4
1
9
-0,551
6
4
9
1
0,716
6
4
5
5
-0,551
1
9
4
6
0,716
5
5
4
6
-0,507
9
1
7
3
0,730
8
2
6
4
-0,507
3
7
1
9
0,730
4
6
2
8
75
PŘÍLOHA 2
76