Využívání testových výsledků žáků k hodnocení a odměňování škol - převažují rizika nebo přínosy? Konference „Testováním ke kvalitě vzdělávání“ SCIO & VŠE, Praha, 31.5.2012
David Greger
Ústav výzkumu a rozvoje vzdělávání, PedF UK
[email protected]
Úvod/Kontext Testováním ke kvalitě vzdělávání???? – provokativní název : Může testování zlepšit kvalitu vzdělávání? Zpráva McKinsey & Company 2010 Klesající výsledky českého základního a středního školství: fakta a řešení. PZN. str. 47: (Naši poradci….) “například explicitně nesouhlasili s našimi názory na problematiku plošného hodnocení studentů“ Kroky MŠMT: maturita a NIQES – otázka pojetí cílů – např. Návrhy exministra Dobeše na odměňování/či penalizace škol za výsledky žáků v testech. Žebříčky škol. Zhoršující se výsledky žáků = nutnost řešení, pro politiky často = nutnost testování (nejen v ČR) OECD (2012) – Evaluation and Assessment Review, ve srovnání se zprávou z roku OECD 1995.
???
Neoliberální, ekonomický, tlak na vykazování výsledků? Testy se závažnými dopady pro žáka/učitele/školu??? High-stakes tests & test-based accountability, součást hnutí New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz)
Anglie – testování a pobídky/tresty
Tradičně decentralizovaný systém, bez národního kurikula a státních testů i dalších zásahů do vzdělávání. Her Majesty Inspectorate (HMI) měl málo inspektorů, kontrola inspekce jen v malém vzorku škol. 1969-1976 tzv. Black Papers, série esejů z pera konzervativců upozorňuje na zhoršování anglických žáků v základních gramotnostech a poprvé navrhuje státní testování ve věku 7, 11 a 14 let. Autor tohoto eseje z r. 1975, Rhodes Boysen, se později stal ministrem školství ve vládě Margaret Thatcher.
Anglie – pokračování
1975-1976 William Tyndale affair. Velmi netradiční primární škola ve „vnitřním Londýnu“. Škola neměla sepsané kurikulum, byla proti soutěživosti dětí, děti mohly ve škole do všech místností, včetně učitelských atp. Velmi liberální pojetí rodiče vnímali jako NEpoŘÁDek a chtěli děti odhlásit ze školy. Nařízeno vyšetřování (7 měsíců) a soud následně konstatoval pochybení jak učitelů, tak především zřizovatele, který neměl stanoven standard vzdělání a metody, kterými se jich dosahuje. Mediální publicita, změna pohledu na roli rodičů a odpovědnost za vzdělání není jen na škole.
Anglie – pokračování
80. léta 20. stol. Margaret Thatcherová premiérkou, rychlý postup směrem k akontabilitě. Školský zákon z roku 1980 – školy musely rodiče seznámit s výsledky školy v národních testech a seznámit je podrobně s kurikulem. 1988 Education Reform Act – národní kurikulum, Key Stage 1 (5-7y.), Key Stage 2 (7-11y.), Key Stage 3 (11-14y.) a Key Stage 4 (2 roky k GCSE). Na konci každého KS povinné testy. Také otevření volby školy (school-choice) pro rodiče. 1981 zveřejnění výsledků SIMS (starší TIMSS).
Anglie – pokračování
1992 zřízení OFSTEDu (Office for Standards in Education), 1992 první žebříčky škol dle GCSE, 1996 žebříčky i v primární škole 1997 nástup Tony Blaira, přesto však pokračování v akontabilitě na základě testů, žebříčky dále zveřejňovány, argumentace pro zvýšení standardů vzdělávání, Blaiming and shaming of schools, Hyper-akontabilita.. Navýšení rozpočtu školství = nutnost kontroly, ale také podpora školám pro dosahování standardů.
USA – testování a pobídky/tresty
1840 - Počátky testování na velkých vzorcích, od 2. pol. 19. stol. New York States Regents Examination program Od 1926 SAT Reasoning Test (Scholastic Aptitude Test), 1956 ACT – American College Testing – oba pro středoškoláky, používány jako jedno z kritérií k přijetí na americké univerzity. 50. léta 20. stol – testy používány jako low-stake, diagnostická funkce – identifikace potíží žáků v učení. Normativní testy (NRTs) Pouze SAT již high-stake test pro studenty – přijímání na VŠ
USA – testování pokračování
1965 Elementary and Secondary Education Act (Předchůdce NCLB), první zásah federální vlády do vzdělávání v jednotlivých státech (federální financování i legislativa) - součástí ESEA i Title I program, cíl zlepšení výsledků sociokulturně znevýhodněných žáků. - 1974 Title I Evaluation and Reporting System (TIERS) – evaluace T1 programu
60. léta 20. stol. National Assessment of Educational Progress (NAEP)
USA – testování pokračování
70. léta 20. stol. Minimum competency testing movement – již kriteriální testy (CRTs),rozšíření testování na většinu států, plošné testování. Změna logiky dosud testování diagnostická funkce, snaha zlepšit vyučování a učení poskytnutím zpětné vazby. Nyní nově zlepšení díky tomu, že žáci skládají účty (akontabilita). Z počátku high-stakes pouze pro studenty. 80. léta 20. století , nástup test-based accountability
- 1983 A Nation at Risk:The Imperative For Educational Reform , Reaganova konzervativní administrativa zavádí větší důraz na testování
USA – testování pokračování - 1983 A Nation at Risk:The Imperative For Educational Reform , Reaganova konzervativní administrativa zavádí větší důraz na testování. - pokles výsledků am. žáků v SATu v 60. a 70. letech , nutnost hledat řešení - odklon od měření minimálního standardu k náročnějším testům - Dopady nejen na žáky, nyní již i na školy (byť zatím experimentování v některých státech)
USA – testování pokračování - Experimentování s finančními odměnami „dobrým“ školám, výměna vedení či rušení špatných škol, apod. Praxe, která se šířila a posilovala v 90. letech a vedla až k NCLB;
PURPOSE Close the achievement gap with accountability, flexibility, parental choices, and research-based reforms
NCLB (2001) NCLB
si klade za cíl zvýšit standardy (kvalitu) vzdělávání a odpovědnost škol za výsledky žáků (akontabilitu) Definovaní evaluačních standardů Každoroční testování žáků ve 3. až 8. ročníku ve čtení, matematice (přírodních vědách)
NCLB – indikátor zlepšování = AYP
Adequate Yearly Progress (AYP) Definice (míra) úspěšnosti programu Určité stanovené % žáků pro daný rok musí dosáhnout úrovně „proficient“ Procento žáků, kteří dosáhli úrovně „proficient“ se musí rok od roku zvyšovat Zlepšování až k dosažení úrovně „proficient“ v celé populaci žáků (do roku 2014) Vše platí i pro definované subpopulace (podvýběry)
NCLB 2001
Subgroups
Whites Blacks Latinos Asian / Pacific Islander American Indian / Alaskan Native Students on free lunch English Language Learners Students with disabilities Must reach 100% proficiency by 2013-2014
ACCOUNTABILITY Adequate Yearly Progress - Example 100% 95% 90% 85% 80% 75% 70% 65% 60% 55% 50% 45% 40%
100% Target 2013-2014
40% Baseline Target 2001-2002
20
200220032004200520062007200820092010201120122013 0 200320042005200620072008200920102011201220132014 1
NCLB – pobídky a tresty
Při nedosažení standardu (ročně od 29 – 35 % škol)
2 roky po sobě: sepsání plánu na zlepšení, DVPP, možnost pro žáky změnit školu (dle vlastní volby) 3 roky po sobě: viz výše + žáci dostávají „vouchery“ na doučování u privátních poskytovatelů 4 roky po sobě: “Corrective action”
Opatření k napravení „nevýkonných škol“
NCLB možnosti pro „turnaround“ (corrective actions) – Výměna učitelského sboru a vedení školy – Předání školy státu (pokud není veřejná) – Smlouva s privátním poskytovatelem – Převedení na “charter school” – „jakékoliv další zásadní změna“
A co výsledky??? Test-based accountability obecně a NCLB
USA – A Nation at Risk Rétorika
zprávy byla „nadnesená“, pokles nebyl tak dramatický, za jaký byl prohlašován k obhájení reforem. Pokles v SATu dosáhl 0,25 – 0,4 směr. odchylky (tj. středně velká změna), ve verbálním testu až 0,5 Ovšem nebral se v potaz compositional effect, tedy změna v charakteristikách testované populace (SAT byl dobrovolný pro přijetí na VŠ, ne plošný)
USA– Co se stalo od „A Nation at Risk“ V novinách se dočteme, že navzdory 20 letům změn a reforem v návaznosti na A Nation at Risk výsledky žáků se přinejmenším nezlepšily, pokud se dokonce nezhoršily. Ironie – v reakci na problém se rozšířilo testování, je mnohem více dat… přesto díky posilování dopadů výsledků testů na žáky/učitele/školy je méně dat, kterým můžeme věřit. High-stakes testy motivují k hledání zkratek ke zlepšování.(inflace – inflatio –nafukování, nefouknuté testové skóry)
USA– Co se stalo od „A Nation at Risk“ Z dat, která nejsou ovlivněna inflací testových skórů především NAEP. NAEP od 80. let, téměř žádné zlepšení, naopak matematika velká zlepšení. - 9-letí od 1982 do 2007 zlepšení o 0,84 SD (tj. stejně jako rozdíl v TIMSSu mezi USA a Japonskem, nebo rozdíl mezi whites&African Amnericans) - 13-letí od 1974 do 2006 zlepšení o 0,5 SD. - 17-letí od 1976 do 2006 o 0,2 SD.
Percent Proficient in Wisconsin: Grade 4 Reading
Sources: Wisconsin Department of Public Instruction; National Center for Education Statistics
Percent Proficient in Wisconsin: Grade 4 Math
Sources: Wisconsin Department of Public Instruction; National Center for Education Statistics
Contrasts of Percent Proficient or above on NAEP and State Assessments (Grade 8 Mathematics) NAEP (low-stake), výběrové
Státní (high-stake),plošné
Missouri 21% Tennessee 26%
Missouri 16% Tennessee 87%
Kentucky
KIRIS
NAEP
Raw Gain
23.7
4
Standardized gain
0.52
0.13
Trendy ve výsledcích (matematika), Kentucky
Směrodatná odchylka
0,7
KIRIS
0,6 0,5 0,4 0,3 0,2 0,1 0 -0,1
ACT 1992
1993
1994 Year
1995
Iluze zlepšování – test score inflation
A)
Nafouknuté testové skóry (srovnej RIV body v ČR) Strategie: jednání, která zvyšují výsledky v testu, která však nesouvisí se zlepšováním výsledků učení Ovlivnění toho, kdo se účastní testování - Vyloučení (ze školy, z testování, je-li to možné) - Změna zařazení studenta (např. specifické potřeby apod.) - Opakování ročníku
Iluze zlepšování – test score inflation B) Ovlivnění výsledků žáků v testu: Příprava na test (teaching to the test), časová alokace hodin před testem, aj. Inflace testového skórů – např, podvádění, atp. (příklad Slovensko – monitor)
Proč se zabývat inflací test.skórů?
Výzkum ukazuje na velký vliv těchto behaviorálních reakcí na validitu usuzování o testovém skóru a jeho vývoj: bias of .50-.75 SD Velikost tohoto zkreslení je škola od školy jiná Nevíme jaké je rozdělení této chyby (bias) Nemůžeme hodnotit celkové zlepšení výsledků žáků
Děti zaostávají i přes iluze markatního zlepšování
Nemůžeme hodnotit relativní zlepšení
K identifikování škol hodných odměny či trestu
Evaluace efektů NCLB? Grade 4 Math Achievement Source: Dee and Jacob, 2009.
Before NCLB
After NCLB
Studie National Research Council NRC, USA, květen 2011 „Incentives and Test-Based Accountability in Education“ Evaluace NCLB a jeho předchůdců Odhad efektu TBE na základě meta-analýzy je 0.08 SD!!!
Studie National Research Council
Conclusion 1: Test-based incentive programs, as designed and implemented in the programs that have been carefully studied, have not increased student achievement enough to bring the United States close to the levels of the highest achieving countries. When evaluated using relevant low-stakes tests, which are less likely to be inflated by the incentives themselves, the overall effects on achievement tend to be small and are effectively zero for a number of programs.
Studie National Research Council
Conclusion 1 cont.: Even when evaluated using the tests attached to the incentives, a number of programs show only small effects. Programs in foreign countries that show larger effects are not clearly applicable in the U.S. context. Schoollevel incentives like those of NCLB produce some of the larger estimates of achievement effects, with effect sizes around 0.08 standard deviations, but the measured effects to date tend to be concentrated in elementary grade mathematics and the effects are small compared to the improvements the nation hopes to achieve.
Studie National Research Council Conclusion 2: The evidence we have reviewed suggests that high school exit exam programs, as currently implemented in the United States, decrease the rate of high school graduation without increasing chievement. The best available estimate suggests a decrease of 2 percentage points when averaged over the population. In contrast, several experiments with providing incentives for graduation in the form of rewards, while keeping graduation standards constant, suggest that such incentives might be used to increase high school completion.
Závěry Testy ano, jako zpětná vazba, omezit možnost jiného využití pro hodnocení škol/učitelů Používání testů k odměňování či trestání škol NE! Dosavadní výzkum ukazuje, že pozitivní efekt je zanedbatelný, téměř roven nule. Přitom přináší řadu vedlejších efektů, které zhoršují učení, postoje učitelů aj.
Děkuji Vám za pozornost!!!