2.5
SPOLEHLIVOST A EKVIVALENCE MOTORICKÝCH TESTŮ
V teorii testování se (na rozdíl od teorie fyzikálních měření) do chyby testování zahrnuje i nestálost podmínek prostředí, nejen vnějšího, ale i vnitřního (aktuální stav TO). Příčiny a druhy chyb testování. Chyby testování A, mohou mít různou povahu 64
Konstrukce a teorie motorických testů
a příčiny. Standardní chyba testu sj5 tedy i mezní chyba JmuA [vzorec (2.4-6')] vyjadřují jen určitý druh chyb, a to tzv. chyby nahodilé. Každá nahodilá chyba testování je souhrnem chyb elementárních, které jsou způsobovány mnoha dílčími vlivy a nepřesnostmi. Můžeme je rozdělit na chyby v důsledku: a) nestálosti podmínek prostředí — např. změny tlaku vzduchu, teploty, osvětlení a dalších vnějších vlivů na výkonnost v testu; b) nestálosti vlastností testovaných osob — např. mezi nejdůležitější činitele patří motivace pro podání výkonu, která u dětí může být zajištěna soutěživým uspořádáním testu, u dospělých je nejvyšší, má-li pro ně určitý existenční význam, např. přijímací test pro studium tělesné výchovy, výběr do sportovní reprezentace; mezi tyto vlivy patří i citlivost testované osoby na nezvyklé podmínky testování, její psychická labilita, tzv. zapracování (viz obr. 8); c) nestálosti zařízení a pomůcek používaných při testování — např. nepřesnosti vlastního měření délky skoku pomocí pásma, odchylky od předepsané hmotnosti plného míče, odbornost toho, kdo provedení testu řídí atd. Hrubé chyby vznikají vážným porušením testových pokynů, např. část testovaných běží bosá, část v tretrách apod. Omyly mohou být způsobeny nepozorností při zjišťování testového výsledku (např. čtení číslice převráceně, třeba 6 místo 9 aj.) nebo jeho nesprávným zápisem do testové matice X (např. ke jménu jiné osoby apod.). Některé z uvedených vlivů mohou vést i k systematickým chybám u celého souboru testovaných. Ty mohou být buď proměnlivé, např. únava družstva hráčů po zápasu z minulého dne, anebo konstantní', například víme, že jistý rozhodčí vždy nadhodnocuje apod. Zvláštním případem proměnlivých systematických chyb jsou chyby periodické, např. v důsledku týdenního tréninkového cyklu, menstruačního cyklu apod.
Konstrukce a teorie motorických testů
65
Systematické chyby nemají vliv na koeficient spolehlivosti motorického testu. Musíme je proto posoudit podle rozdílné úrovně výkonnosti testovaného souboru — viztab. 15. Zjišťování spolehlivosti. V testovací praxi odhadujeme koeficient spolehlivosti r|7 daného motorického testu {X, T} pomocí jeho paralelní formy {A", T} za použití věty V 10 jako rxx. — pro výpočet přitom používáme vzorec (2.4-12), tj. korelaci dvou paralelních forem testu. Pro vytvoření paralelní formy X' používáme čtyři postupy: 1. opakování daného testu — kdy určujeme „stabilitu",8) 2. dělení daného testu — stanovíme tzv. „konzistenci",9) 3. testování jiným paralelním testem — ověřujeme jako tzv. „ekvivalenci", 4. analýzu rozptylu (při více než jedné paralelní formě). Metodou stability zjišťujeme rxx. jako vzájemnou validitu mezi pozorovanými výsledky X daného testu a jeho opakovaným pozorováním X', které by mělo být paralelní (viz V JO). V tomto případě používáme také označení: r
stab
jako zvláštní případ rxx., čímž zdůrazňujeme, že daný rxx, byl odhadnut metodou stability. Přitom je třeba dodržet při obou testováních konstantní podmínky (stejné prostředí, stejnou motivaci atd.). Opakování se provádí u téhož souboru osob velkého rozsahu (doporučuje se n > 200— viz G. A. Lienert 1967, P. Blahuš 1971). Časový odstup obou měření by neměl být příliš veliký, aby nebyla porušena jejich paralelnost. Některé testy se mohou opakovat ihned (např. skok daleký), jiné týž nebo druhý den (např. shyby), aniž by došlo k únavě či zapracování. Obvyklý interval se v praxi pohybuje od téhož dne až po několik týdnů. Je výhodné znát různé odhady koeficientu spolehlivosti téhož testu za použití různých časových intervalů. Odhad metodou stability s příliš velkým časovým intervalem obvykle podhodnocuje správnou hodnotu koeficientu spolehlivosti a test se pak jeví jako málo spolehlivý. Následující příklad v tab. 15 odhadu spolehlivosti vrhu koulí vysokoškoláky, kdy n = 10 (vybráni z původního n = 100 v tabulce 14) má pro malé n jen ilustrační význam — srovnej n = 693 v tabulce 47 ap. Pro posouzení, zda je spolehlivost dostatečně vysoká, musíme však použít i další charakteristiky — chybu testu, kritický rozdíl výkonů atd. Tyto charakteristiky spolehlivosti posuzujeme podle účelů, jakým má test sloužit. Pro jeden účel může být spolehlivost 0,95 nízká, pro jiný účel může být i 0,70 dostatečná. Například z tabulky 16 vidíme, že kritický rozdíl výkonů je 1,80 m, i když koeficient spolehlivosti můžeme podle tradičních hledisek hodnotit jako ..vysoký". 8
) Též tzv. metoda „test — retest".
9
) V případě dělení na 2 části se tato metoda nazývá „půlení" či „split-half.
66
Konstrukce a teorie motorických testů
Metodou konzistence odhadujeme (podle V JO) spolehlivost rxx, jako vzájemnou validitu jeho dvou částí X a X' (někdy i více částí), které by měly být paralelní. Příklad je uveden v tabulce 17. Metoda konzistence obvykle dává nadhodnocený údaj o koeficientu spolehlivosti. Při metodě ekvivalence se vychází z ověřených znalostí, že skupina určitých motorických testů patří do některé ze známých tříd ekvivalentních testů (viz dále). Jde-li speciálně o třídu paralelních testů (viz D 5 v kapitole 2.4), pak metodou „ekvivalence" určíme spolehlivost testu {X, T} jako jeho validitu k jinému (!) testu {X1, T}, který je s ním paralelní. Ekvivalenční třídy homogenních testů. Vedle klasicky paralelních testů (viz D 5 a dále) rozlišujeme u homogenních testů ještě několik jejich dalších tříd podle stupně ekvivalenčního vztahu. Homogenita motorických testů znamená, že všechny testují tutéž pohybovou schopnost či dovednost — to je ovšem otázka věcného posouzení podobnosti pohybového obsahu těchto testů10) na základě zkušeností odborníků. Po věcném rozboru pak nastupuje experimentální ověření, výpočet charakteristik testů a formální rozbor podobnosti testů. Zařazením skupiny homogenních motorických testů {X t , T}, {X 2 , T}, {X 3 , T}, ... do určité třídy ekvivalence se udávají stupeň a forma podobnosti jejich testových výsledků xl5 x2, x3, když jimi testujeme tutéž úroveň T jejich společné pohybové schopnosti či dovednosti. Znaky a vlastnosti jednotlivých tříd testů jsou uvedeny v tabulce 18. 10
) Tzv. testy „nominálně ekvivalentní", tj. věcně ekvivalentní podle svého názvu a obsahu (lat. „nomen" — jméno, název). To souvisí i s tzv. obsahovou validitou testů - viz kapitola 2.6. Konstrukce a teorie motorických testů
67
Nejpřísnější formou ekvivalence homogenních testů jsou vázány klasicky paralelní testy — musí splňovat všech 9 znaků v tabulce. Nejvolnější formou ekvivalence homogenních testů jsou kongenerické testy — stačí, aby splňovaly jen požadavek č. 9. To jsou dva krajní způsoby, jak může skupina homogenních testů testovat tutéž pohybovou schopnost či dovednost. Umělá a přirozená ekvivalence testů. Jestliže pomocí různých homogenních testů testujeme tutéž pohybovou schopnost či dovednost, vyjadřujeme ji obvykle jako generický skutečný výsledek T. Chceme-li v takovém případě zjistit, do jakého stupně jsou tyto homogenní testy ekvivalentní, můžeme splnění prvních čtyř znaků dosáhnout uměle — normováním na z-body. Umělé splnění znaků l až 4 je možné proto, že k vyjádření úrovně pohybové schopnosti neexistuje stupnice s pevným počátkem ani jednotkou měření (vysvětlení je v kapitole 3.1). Příklad je v tabulce 19, Příklad přirozeně paralelních testů je v tabulce 19. Tam jsou splněny znaky 1. až 3. přímo v porovnatelných jednotkách (počet pokusů), chybějí však podklady o spolehlivosti testů. Velikost koeficientů vzájemné validity není pro stupeň ekvivalence testů rozhodující, protože nízká vzájemná validita může být způsobena 70
Konstrukce a teorie motorických testů
nízkou spolehlivostí testů. V praxi se vyskytují i případy s vysokou vzájemnou validitou, která ukazuje na vysokou spolehlivost těchto testů — viz tabulka 20. Pro rozhodnutí, zda daná skupina testů testuje jednu a tutéž pohybovou schopnost, je proto důležité vypočítat podle vzorce (2.4-16) opravenou skutečnou vzájemnou validitu rT.Tk, která by měla být rovna l (viz V 14 v kapitole 2.4). Je-li rTjTk s l, znamená to, že daná skupina testů je homogenní, nejméně na úrovni třídy kongenerických testů — tj. všechny testy měří tutéž schopnost či dovednost, ale možná na stupnicích s různými počátky, jednotkami měření, s různými chybami atd. Pak teprve zjišťujeme další znaky pro některou z vyšších tříd ekvivalence motorických testů. V dané baterii homogenních testů nalézáme většinou několik podskupin testů 0 různé třídě ekvivalence. Praktické využití ekvivalentních testů. Rozdělení motorických testů podle tříd ekvivalence umožňuje přesnější stanoveni struktury a úrovně pohybových schopností. U homogenních testů, které testují tutéž pohybovou schopnost či dovednost, se tak dovídáme formu, v níž testy zachycují a číselně vyjadřují její nepřímo pozorovatelnou úroveň. Na rozdíl od pouhého obecného tvrzení, jako např. „všechny uvedené testy měří obratnost", nám zařazení testů do určité třídy ekvivalence přesné říká, v jakém smyslu jsou výsledky různých testů navzájem zaměnitelné (ekvivalentní) pro testování úrovně téže pohybové schopnosti či dovednosti. Znalost druhu ekvivalence dovoluje správně stanovit spolehlivost testu. Například pro stanovení spolehlivosti metodou stability je nutné, aby obě (či několik) opakování testu byla navzájem paralelní. Pro odhad metodou konzistence však stačí, aby části testu byly jen kvazi-tau-ekvivalentní. (Viz správné použití koeficientu konzistence v kapitole 2.8.) O druh ekvivalence se opíráme i při výměně testů v baterii, například při předpovídání výkonnosti, výběru talentů aj. Zvláště důležité jsou zde paralelní testy, které jsou navzájem dokonale zastupitelné i pro předpověcf budoucího výkonu, a to 1 v různých sportovních disciplínách. (Jejich záměnou nedochází ke změně rovnice pro predikci výkonu.) Proto by bylo třeba věnovat vyhledávání paralelních testů větší úsilí. Použitím vhodné formy ekvivalentního testu můžeme také vyloučit zkreslení výsledků zapracováním, speciálním tréninkem apod. Také použití vzorce (2.8-4) o vlivu prodloužení testu na jeho spolehlivost a vzorce (2.8-7) o vlivu prodloužení testu na jeho validitu je podmíněno tím, že části testu splňují patřičné ekvivalenční požadavky.
2.6
ZÁKLADNÍ DRUHY VALIDITY
Validita neboli platnost je v praxi nejdůležitější vlastnost motorických testů. Rozklad rozptylu validovaného testu. V teorii testování vychází pojetí validity z rozčlenění pozorovaného rozptylu testu na jednotlivé složky, podobně jak tomu bylo u spolehlivosti [viz vzorec (2.4-3), obr. 7]. Protože test bývá validní k několika Konstrukce a teorie motorických testů
71
kritériím y^ Y2 ... najednou, rozkládá se skutečný rozptyl na složku k danému kritériu Y1 relevantní — Sy,, a na složku irelevantní — s?, která je složena z částí relevantních k jiným kritériím Y2, Y3, ..., o která se nezajímáme, protože nemají vztah k našemu cíli testování. Klasický koeficient validity vyjadřuje poměrnou velikost relevantního rozptylu testu, tj. rozptylu validního právě k danému kritériu. Základní pojmy Validita motorického testu, pomocí kterého odhadujeme dané kritérium, je míra shody mezi odhady kritéria a jeho výsledky. (Kritérium je proměnná, kterou odhadujeme pomocí testu, např. sportovní výkonnost apod.; podrobněji v kapitole 2.3.) Rovnice pro odhad kritéria11) je nejčastější forma, jak na základě výsledků testu číselně zkonstruujeme odhad výsledků kritéria. Existují však i jiné způsoby odhadu, například tabulky očekávaných hodnot. Koeficient validity rxr v klasické teorii testování má podobu absolutní hodnoty korelace mezi testem X a kritériem Y (viz tabulka 12). Se základy korelačního počtu je nutné se seznámit (viz příloha 5.1). Pro přehlednost uvádíme, že koeficient validity lze názorně definovat jako průměr součinů z-bodů odpovídajících dvou testových vektorů zx, ZY z normované testové matice Z: (2.6-1) Uvedeme zjednodušený příklad pro normovanou testovou matici Z rozměrů 4x2, tj. n = 4, v = 2, kde test X (počet úspěšných hodů z 15) má sloužit pro odhad testu y (počet úspěšných hodů z 25), který je kritériem: n
) Vyjde-li se z principu odhadu metodou nejmenších čtverců nebo metodou maximálně věrohodného odhadu, jde o tzv. regresní rovnici. Testy pak mají úlohu tzv. nezávisle proměnných, kritérium je závisle proměnné. 72
Konstrukce a teorie motorických testů
Ze způsobu výpočtu koeficientu validity rXY jako součtu součinů z-bodů děleného číslem n je zřejmé, že tzv. vzájemnou validitu dvou testů X a Y lze výhodně vyjádřit jako skalární součin jejich normovaných testových vektorů i x a Z Y , tj.
Maximální validita rxr — l je možná jen tehdy, když jsou oba normované (!) testové vektory shodné. Například v našem příkladu kdyby test X měl normované výsledky shodné s kritériem, tj. kdyby zj = [—1,4; —0,2; 0,2; 1,4], pak dosazením do vzorce (2.6-1) dostáváme r XY = 1. Ale pozor: ani při r XY = l nemusí být původní testové vektory x, y shodné.
Odhad výkonu v kritériu a jeho chyba. Rovnice pro odhad kritéria Y pomocí jediného testu X má tvar:
jsou tzv. koeficienty pro odhad výkonu v kritériu (jsou-li stanoveny statistickými metodami tak jako zde, jsou to tzv. regresní koeficienty — viz poznámka 11 na str. 72). V našem příkladu pro výpočet rXy, budeme-li mít hráče h, jehož výkon v testu X je vyjádřen výsledkem XH = 10 (úspěšných hodů z 15), můžeme koeficienty odhadu vyčíslit B = 0,8 . 5. j = 0,8, A = \ l - 0,8 . 6 = 6,2. Rovnici odhadu dáme konkrétní tvar:
a stanovíme i odhad výsledku, kterého by hráč h dosáhl v kritériu Y (v delším testu s 25 body) jako:
Můžeme stanovit i střední chybu odhadu kritéria: (2.6-5) Konstrukce a teorie motorických testů
73
a přibližnou mezní chybu odhadu kritéria, tj. největší možný rozdíl d = ý — y mezi odhadnutým výsledkem ý v kritériu a ve skutečnosti nepozorovaným výsledkem y \ kritériu: (2.6-6)
V našem příkladu, kde odhadujeme výsledek hráče h v kritériu Y jako ýh = 14,2, je sr\x = 5 .0,6 = 3 a dmax — ±6 hodů. To znamená, že kdybychom hráče podrobili druhému testu — kritériu, nebude se jeho pozorovaný výsledek yh lišit od odhadnutého 14,2 o více než +6 hodů. Přesnost odhadu kritéria je tedy dosti malá, tj. validita testu je dost nízká, přestože 0,8 je hodnota „poměrně blízká" 1. Druhy validity „bez kritéria". Bez pojmu kritérium nemá pojem validita smysl. Test vždy validujeme vzhledem „k něčemu". Někdy však může být kritérium vyjádřeno tak volně a široce, že jej nelze číselně vyjádřit. V praxi se využívají dva takové druhy validity „bez kritéria1": validita obsahová (a logická) a validita „zjevná" (tzv. „přesvědčivost" testu). Obsahová validita. Stručně ji lze charakterizovat jako stupeň, do jakého je daný motorický test svým pohybovým obsahem věcně relevantní k danému účelu testování. Zjišťovat obsahovou validitu testu znamená hodnotit adekvátnost jeho pohybového obsahu a posuzovat vhodnost výběru položek (nebo subtestů) s ohledem na účel testování. Z definice obsahové validity vyplývá, že obsah testů by měl být reprezentativním výběrem například obsahu učiva, herní činnosti hráče, pohybové činnosti dítěte, pohybového chování člověka, vyjádřeno obecně. Nestane se například, že test určený k měření gymnastických dovedností bude obsahovat jen položky z akrobatiky, budou zastoupena i cvičení na hlavních nářadích — ne sice rovnoměrně, ale s ohledem na jejich závažnost. Není pochyb o tom, že při testování reakční doby se měří reakční časy sportovce, že test, sestávající z dvaceti trestných hodů v košíkové, měří skutečně dovednost házet trestné hody. V těchto případech obsahové validity můžeme mluvit o tzv. validitě logické (v nejvýraznějších případech pak i o validitě triviální). „Zjevná" validita — „přesvědčivost" testu. Tento druh validity souvisí úzce s validitou obsahovou, jde však o to, jak je účel testu zřejmý testovaným osobám. Pedagogickým pracovníkům a sportovcům se test může jevit jako přesvědčivý, tj. uživatelé ani TO o jeho vhodnosti nepochybují. Některé motorické testy se mohou některým souborům testovaných osob, např. sportovcům-reprezentantům, zdát nepřesvědčivé, což může zhoršit jejich spolupráci a ovlivnit výkon. Druhy validity ke kritériu. Uvedeme jen nejdůležitější druhy, podrobnosti lze nalézt v literatuře (např. P. Blahuš 1976). Jednoduchá a složená validita. Rozlišujeme ji podle toho, zda odhadujeme kritérium z jednoho motorického testu, nebo z baterie o více testech. Zvláštním případem jednoduché validity, který jsme už poznali, je tzv. vzájemná validita dvojice motorických testů,, z nichž každý může být střídavě považován 74
Konstrukce a teorie motorických testů
za kritérium. Je-li testů l, 2, ..., j, k, ... v baterii větší počet, sestavujeme jejich koeficienty vzájemné,validity rjk do tzv. matice vzájemné validity R. Je to čtvercová tabulka rozměru v x v (každý test s každým), například tabulka 20. Kromě vzájemné validity všech dvojic testů nás zajímá i jejich jednoduchá validita ke kritériu mimo baterii, například ke sportovnímu výkonu apod. Například, rozhodujeme-li o vhodnosti zaměření cvičence ke skoku dalekému — kritériu Y na základě dvou testů, tj. l — skok daleký z místa (T 16.0) a 2 — výskok (T 15.0), je např.:
Ze způsobu výpočtu matice vzájemné validity R je zřejmé, že ji lze přehledně vyjádřit součinem matic jako:
kde Z je normovaná testová matice vyjádřená v z-bodech. Rovnice složeného odhadu kritéria má tvar:
(2.6-7) kde koeficienty odhadu určíme: (2.6-8)
(2.6-9) Mírou validity je koeficient složené validity: (2.6-10) Podle těchto vzorců v našem příkladu dostáváme: = 2,75
takže rovnice složeného odhadu výkonu v kritériu má konkrétní tvar (po zaokrouhlení):
Konstrukce a teorie motorických testů
75
Tak například žák, který v testu l dosáhl výsledku x l = 220 cm a v testu 2 výsledku 52 cm, má v kritériu skok daleký odhad výkonu:
Platnost podobných odhadů pomocí dvou uvedených testů je vyjádřena koeficientem složené validity (vzorec 2.6-10):
Střední a maximální chybu odhadu pomocí složené rovnice určíme opět podle vzorců (2.6-5) a (2,6,6)
Z uvedeného příkladu vidíme, že složená validita obou testů je vyšší než nejvyšší jednoduchá validita jednotlivých testů. To platí obecně, v nejnepříznivějších případech je složená validita rovna nejvyšší jednoduché validitě. Dílčí (neboli čistá) a inkrementální validita testu. V rámci celé baterie umožňuje posoudit důležitost testu v dané baterii pro odhad kritéria. Dílčí neboli čistá validita udává, jaký „díl" složené validity připadá na daný test — jinými slovy je to jednoduchá validita testu „očištěná" od překrývání s jednoduchou validitou ostatních testů v baterii. V našem příkladu je jednoduchá validita jednotlivých testů poměrně vysoká: rYl = 0,6, rY2 = 0,8. Protože však oba testy mají i poměrně vysokou vzájemnou validitu, je jednoduchá validita jednoho testu zčásti zprostředkována přes validitu druhého testu, tzn., že se oba testy „překrývaji". Čistou validitu rYj k testu j vzhledem ke kritériu Y (po očištění od překrývání s testem k) určíme podle: (2.6-11) Pak čistá validita skoku dalekého z místa je:
což ve srovnání s jeho jednoduchou validitou rY1 = 0,60 ukazuje na značné překrývání s výskokem (test 2). Inkrementální validita je přírůstek složené validity po přidání nového testu do baterie. Jestliže v původní baterii byl jen jediný test 2 — výskok s validitou rY2 = 0,8, inkrementální validita testu l je pouze 0,01. Je-li jednoduchá validita testů ke kritériu dána, pak jejich složená validita ke kritériu bude největší, když jejich vzájemná validita bude nulová. Proto je výhodné, když testy v baterii mají vzájemnou validitu nízkou. Vnitřní a vnější validita. Rozlišujeme ji podle toho, zda jsou kritériem test, část testu či skupina testů „uvnitř" dané baterie, anebo zda jde o kritérium mimo baterii, které se nazývá „vnějši kritérium" (např. sportovní výkon apod.). Nej76
Konstrukce a teorie motorických testů
častějším případem vnitřní validity je jednoduchá validita dilčích testů vzhledem k nějakému celkovému výsledku baterie jako celku, například k součtu T-bodů každé osoby ve všech subtestech baterie apod. Udává totiž, jak platným členem testové baterie je každý jednotlivý test. To je zvláště důležité u baterie složené z binárních testů (tzv. „položek"). Protože tyto testy mají elementární povahu, existuje jich velké množství, lze je snadno obměňovat, a proto je důležité, abychom vybrali jen ty nejplatnější12). V tomto případě se pro vnitřní validitu používá zvláštní název. diskriminační síla testu (též tzv. selektivní hodnota testu), což je vnitřní validita binárního testu absolutního typu k celkovému výsledku baterie (které je test součástí), např. u T 61.0. Diskriminační síla se vyjadřuje zvláštnim koeficientem vnitřní validity, tzv. bodově biseriálním koeficientem rbb nebo biseriálním koeficientem r b . Použití vhodných koeficientů validity pro binární testy je uvedeno v tabulce 21. Vzorec pro tetrachorický koeficient r, je složitý, a proto je výhodnější použít tabulku S.3 v příloze 5.2. Teoretická13) a empirická validita. Jde o rozlišení, které těsně souvisí s rozdělením vlastností na teoretické a empirické (A. I. Rakitov 1973). Empirická validita je validita testu k přímo pozorovatelnému (manifestnímu) kritériu, např. jinému testu, sportovnímu výkonu apod. Empirickou validitu často jen empiricky konstatujeme, aniž bychom ji mohli nějak teoreticky důkladně a přesně vysvětlit. Teoretická validita je validita testu vzhledem ke kritériu, které je jen nepřímo pozorovatelné (laíentní), a proto mohou být jeho výsledky obvykle vyjádřeny číselně jen pomocí nějakého matematického modelu, zdůvodněného teoreticky v rámci určité vědecké teorie. Jednoduchým případem teoretické validity (o kterém jsme již hovořili v kapitole 2.4) je koeficient rXT validity (vlastně „index spolehlivosti") pozorovaných výsledků X vzhledem ke skutečným výsledkům, které jsou matematicky konstruovány v rámci klasického modelu testů. Klasický model je jedním z nejjednodušších modelů v teorii schopností a dovedností vhodných pro vyjádření teoretické validity v rámci baterie homogenních testů (viz kapitola 2.6). Vychází se z generického pojetí skutečných výsledků T klasického modelu, tzn., že jedna pohybová schopnost či dovednost se považuje za společnou pro danou homogenní baterii testů a její nepozorovatelná (teoretická) úroveň se vyjadřuje pomocí odhadů, f, vzhledem k nimž se testy validují. V případě nehomogenních, komplexních baterií testů se úroveň několika pohybových schopností či dovedností vyjadřuje jejich tzv. faktorovým modelem. Každá přímo nepozorovatelná pohybová schopnost či dovednost „p" je ve faktorovém 12
) Tím se zabývá speciální teorie a soubor statistických metod, tzv. položková analýza. Určení diskriminační síly pro výběr položek je jen jedním z mnoha jejích problémů. 13 ) Někdy se též užívá pojem konstruktová validita, neboť teoretické objekty či vlastnosti se označují někdy jako teoretické „konstrukty" (hypotetické konstrukce) v rámci dané teorie. Konstrukce a teorie motorických testů
77
modelu zastoupená teoretickou proměnnou veličinou — tzv. faktorem Fp, jehož teoretické číselné hodnoty fp se podílejí na výsledcích několika testů společně. Faktorů je ve faktorovém modelu (na rozdíl od klasického) několik. Protože víme, že nehomogenní — komplexní test testuje současně úroveň několika schopností či dovedností, zajímá nás jeho validita, tj. teoretická validita testu k jednotlivým pohybovým schopnostem^ a dovednostem. Teoretická validita se za použití faktorového modelu číselně vyjadřuje jako koeficient validity rXjF^ mezi testem j na straně jedné a faktorem p na straně druhé a nazývá se faktorová validita. Otázkami faktorového modelu se budeme podrobněji zabývat v kapitole 3.1.2.
2.7
PREDIKČNÍ VALIDITA A VÝBĚR SPORTOVNÍCH TALENTŮ
Predikční validita je v tělovýchovné praxi nejvýznamnější druh validity testů k pozorovatelnému kritériu, nejčastěji ke sportovnímu výkonu. Predikční validita je nesoučasná. Z hlediska chronologických vztahů mezi testem a kritériem rozlišujeme validitu a) synchronní (tzv. souběžnou): test i kritérium jsou zjišťovány v tutéž dobu; b) diachronní (tzv. nesoučasnou): test i kritérium jsou zjišťovány v různou dobu.
Nejužívanějším případem nesouběžné validity je predikční validita, udávající platnost předpovědí výkonu v kritériu, které provádíme na základě testu. Případem současné validity je validita nějakého motorického testu vůči kritériu, kdy výsledky obou jsou zjišťovány téměř současně (např. týž den) — viz tabulka 12. Chronologický vztah mezi testem a kritériem je zásadně důležitý, současná a nesoučasná validita se nesmějí zaměňovat, neboť u téhož testu bývají různé. Názorný příklad podává obr. 10. Základní pojmy predikce výkonu pomocí testů. Musíme rozlišovat mezi souběžným (synchronním) odhadem výkonu a predikcí výkonu, mezi rovnici pro souběžný Konstrukce a teorie motorických testů
79
odhad a predikční rovnicí pro předpověď výkonu. Tomu napomáhá zvláštní terminologie užívaná v teorii predikce: Prediktor je motorický test, jehož výsledky známe v dřívějšim čase a na jejichž základě předpovídáme výsledky kritéria. Prediktant je název pro nesoučasné kritérium, zjišťované později než test, které je na základě testu předpovídáno. Predikční validita, má-li být dostatečná, musí být obvykle vyjádřena jako validita složená, kdy z celé baterie prediktorů X l9 X 2 , ..., X v se budoucí kritérium předpovídá pomocí predikční rovnice: (2.7-1) která formálně je rozšířením rovnice (2.6-7) o další prediktory ,Y3 . ..., Xv. Rozhodující pro odlišení však je, že změření prediktorů AI , X2. ... vždy chronologicky předchází před změřením kritéria o výrazný časový úsek, např. několik měsíců nebo i několik let. V případě, že jednotlivé testy i kritérium jsou normovány na z-body, má rovnice (2.7-1) tvar: (2.7-2) Lze ji výhodné vyjádřit pomocí vektoru b obsahujícího koeficienty bt až bl a normované testové matice Z: (2.7-3) kde if je vektor odhadů ZY výsledků všech n osob v kritériu.
Tak např. /. Havlíček 1974 stanovil rovnici pro tříletou predikci atletické výkonnosti zy, na konci atletické přípravy v experimentální atletické třídě pomocí sedmi testů — prediktorů měřených na začátku sportovní přípravy:
Predikční validita sedmi testů — prediktorů k prediktantu y je:
Výpočet tzv. predikčních koeficientů Bj příslušných jednotlivým prediktorům Xj je u dvou prediktorů (v = 2) ještě snadný — viz vzorec (2.6-8). Pro větší počet v prediktorů je třeba použít maticový počet (viz poznámka 4 v příloze 5.1). Predikční koeficienty Bj mohou být záporné i kladné a mají následující význam: Předpokládejme, že v testovaném souboru jsou dva žáci — A. B. a C. D., 80
Konstrukce a teorie motorických testů
kteří mají shodné výsledky ve všech testech — prediktorech — až na jediný prediktor X 3 , v němž se žák A. B. liší od žáka C. D. právě o l jednotku, např. o l cm. Pak koeficient Bj příslušný k zmíněnému prediktoru udává, o kolik jednotek (např. cm) se bude žák A. B. lišit od žáka C. D. v prediktantu — předpovídaném kritériu výkonnosti. Predikční koeficient Bj vyjadřuje rozdíly mezi různými osobami a nelze z něj usuzovat na přírůstky výkonu v kritériu Y na základě přírůstku výkonu v testu Xj u téhož sportovce (např. zaměřením tréninku na tento test). Predikční rovnice (2.7-1) je rovnice pro předpověď výkonu, nikoli návod pro dosažení výkonu. Zhodnocení dostatečnosti predikční validity. Zda je platnost předpovědi dostatečná, rozhodujeme nejen podle validity, ale také podle koeficientu determinace, zvláště podle chyby predikce. Koeficient determinace kritéria je definován jako druhá mocnina koeficientu složené predikční validity násobená 100 %. Tak např. v předchozím (Havlíčkově) příkladu je predikční validita:
a determinace kritéria pomocí předpovědi je jen:
zbytek rozptylu výkonů, tj. 72 %, nelze pomoci predikční rovnice předpovědět. Z příkladu vidíme, že determinace kritéria na tři roky do budoucna je dosti nízká. Pro rozhodnutí o dostatečnosti je důležitá mezní chyha predikce výkonu, tj. + dmax podle (2.6-5) a (2.6-6). (Např. u 121etých chlapců můžeme složené Havlíčkovo kritérium atletické výkonnosti předpovídat na 3 roky dopředu s mezní chybou 2 . 1 . ^1 - 0,532 = 0,8-5, tj- + 0,85 z-bodů.) Počet prediktoru. I když se zvyšováním počtu prediktoru zvyšuje predikční validita baterie, je třeba dodržet pravidlo 3v
81
Predikční cyklus je použitelný tam, kde se předpověď výkonů využívá pro jednorázovou selekci (tj. vybírání uchazečů), která se cyklicky opakuje, nejčastěji každým rokem. Příkladem je výběr uchazečů — sportovních talentů — do tréninkových středisek mládeže (TSM), ke studiu na vysokých tělovýchovných školách atd. Předpokládá se, že populace, z níž každoročně uchazeči přicházejí k přijímacím testům, se v průběhu let mění jen velmi pomalu. Predikční cyklus znamená pravidelné opakování 6 fází: 1. vytvoření baterie prediktorů — motorických testů; 2. testování uchazečů; 3. predikce výkonnosti na základě přijímacích testů (ve 2. a dalším cyklu pomocí predikční rovnice) a selekce uchazečů na základě předpovědi jejich výkonnosti; 4. čekání na uplynutí potřebného časového odstupu; 5. zjištění výsledků v prediktantu — tj. výkonů v kritériu; 6. zjištění (ve 2. a dalším cyklu ověření) validity a sestavení (ve 2. a dalším cyklu ověření a úprava) predikční rovnice. O první fázi — vytvoření a konstrukci vhodné baterie přijímacích testů — se zmíníme v kapitole 2.8. Druhá fáze je dána pravidly konkrétních testů. Třetí fáze v prvním cyklu, tj. při prvním vybírání, probíhá ještě bez predikční rovnice, např. tak, že se výsledky ve všech přijímacích testech normují na T-body, sečtou se a vybírají se uchazeči s největším celkovým počtem T-bodů apod. Teprve po uplynutí čtvrté fáze a po změření kritéria v páté fázi můžeme v šesté fázi sestavit (ovšem dodatečně) první odhad predikční rovnice (kterou později použijeme pokusně ve 2. cyklu v jeho třetí fázi) místo pouhého součtu T-bodů. Validita na konci 1. cyklu bývá značně nadhodnocena v důsledku tzv. „zdůraznění náhody", tj. nahodilými okolnostmi specifickými jen pro první cyklus. To se odstraňuje tzv. souběžnou krosvalidizací predikční rovnice a validity. Krosvalidizace spočívá v rozdělení souboru přijatých uchazečů náhodně do několika podsouborů. V každém podsouborů se určí validita zvlášť a průměrná validita od všech podsouborů se považuje za lepší (i když nižší) odhad validity než validita celého souboru. Cykly se opakují (např. každoročně) a jestliže se predikční koeficienty v rovnici příliš nemění a také validita rovnice zůstává přibližně stejná, znamená to, že predikční rovnice se stabilizovala v čase. Predikční rovnici, která je v čase stabilní, pak můžeme použít pro predikci výkonů do budoucna. Jestliže se však rovnice mění nepravidelně, cyklus od cyklu, pro předpověď se použít nemůže. Zkreslení validity počátečním přijímáním lepších uchazečů. Vede obvykle k jejímu zdánlivému snížení. Přijímací test rozliší uchazeče na nevyhovující — ty odmítneme, a na vyhovující — ty přijmeme. Odmítnuté uchazeče však už dále nesledujeme, a proto nebudeme znát jejich výsledky v kritériu (např. ve sportovní disciplíně po několika letech tréninku apod.). Validitu tedy zjišťujeme jen u uchazečů vybraných testem. Pro praxi však potřebujeme znát validitu testu nejen u vybrabraných lepších uchazečů, ale u všech uchazečů, protože test má právě vhodné K2
Konstrukce a teorie motorických testů
a nevhodné uchazeče od sebe odlišit. Zdánlivě nízká validita u přijatých uchazečů může vést k mylnému odmítnutí dobrého přijímacího testu. Tomu zabraňuje použití následujícího vzorce: (2.7-6)
kde rXY je validita opravená vzhledem ke zkreslení, tj. validita testu pro všechny — přijaté i odmítnuté — uchazeče, X je přijímací test a Y je kritérium, sf je rozptyl výsledků v přijímacím testu u všech uchazečů (včetně odmítnutých), s£ je rozptyl výsledků přijímacího testu jen u přijatých uchazečů, r\ x J e validita testu ke kritériu zjištěná jen u uchazečů přijatých. Tak např. 42 uchazečů o přijetí do lehkoatletické experimentální třídy bylo otestováno baterií šesti motorických testů a u každého uchazeče byl zjištěn součet T-bodů v celé baterii. Součet baterie považujeme za jediný test X. Rozptyl součtu T-bodů všech 42 uchazečů byl s\ = 384. Na základě součtu T-bodů bylo ze 42 uchazečů přijato 18 nejlepších, jejich rozptyl byl s2x = 152. Přijatí uchazeči se po 8 měsících tréninku zúčastnili žákovského lehkoatletického trojboje, jehož celkový výsledek byl vyjádřen součtem T-bodů tří sportovních disciplín. Tento součet považujeme za jeden prediktant — kritérium Y. Pak byla vypočítána validita testu ke kritériu rYpXp — 0,45, pochopitelně u 18 vybraných. Dosazením do vzorce (2.7-6) zjistíme, že validita přijímacího testu všech 42 uchazečů je rYX = 0,62, tj. podstatně vyšší než u 18 přijatých (příklad podle E. Blahušové 1976). Selekce — vybírání uchazečů Výběr provádíme podle předpověděných výkonů uchazečů, a to obvykle dvěma způsoby: a) selekcí uchazečů se zvoleným rizikem dosažení výkonnostního limitu (např. pro účely nominace na budoucí soutěž apod.), b) selekcí uchazečů pro naplnění vymezené kapacity (např. přijímání sportovních talentů do tréninkového střediska s předepsaným počtem volných míst, přijimání na tělovýchovnou fakultu pro naplnění tzv. směrných čísel apod.). První typ selekce (a). Dobře jej vysvětlíme na příkladu, kdy ze žáků v atletickém oddílu chceme nominovat menší vybranou skupinu („užší výběr") pro soustředění před atletickými přebory. Účast na přeboru je celostátně podmíněna předepsaným výkonnostním limitem yL (např. ve skoku vysokém yL = 165 cm apod.). Chceme vybrat jen ty žáky, u nichž je dostatečně malé riziko selekce RS (např. RS < 0,10, tj. menší než 10%). Jde o riziko, že žák po soustředění limit yL nesplní, což by ho vyřadilo z účasti na přeboru. I když máme ověřenou a stabilizovanou predikční rovnici pro predikci výkonnostního kritéria Y, nemůžeme do soustředění nominovat všechny žáky s předpovědí y lepší než limit y, protože předpověď je vždy Konstrukce a teorie motorických testů
83
zatížena určitou mezní chybou dmax a u některých žáků se předpověď nesplní. Musíme proto pro předpovědi y stanovit přijímací mez y p , která bude přísnější než předepsaný limit: (2.7-7) kde dmax — viz vzorec (2.6-6) a koeficienty k jsou v následující tabulce 22. Je například předepsán limit yL= 165 cm, mezní chyba predikce je dmux = 6 cm. Zvolíme-li riziko RS = 0,10, je podle tabulky 22 a vzorce (2.7-7) přijímací mez ýp = 165 + 0,64. 6 = 169cm. Vybereme-li pro soustředění žáky s předpovědí výkonu lepšího než 169, pak jen 0,1 (tj. 10%) z nich by měla po soustředění podat výkon horší než předepsaný limit y, = 165 cm. Má-li např. 20 žáků předpověď nad přijímací mezí yp = 169 cm, znamená to, že zhruba 2 z nich po soustředění nesplní limit y L = 165 cm. Riziko RS z tabulky 22 můžeme dodatečně ověřit jako podíl nesprávně vybraných uchazečů ke všem vybraným uchazečům — viz vzorec (2.7-8).
Druhý typ selekce (b). Uchazeče vybíráme pro naplnění celé volné kapacity např. tréninkového střediska, tj. obsazení všech volných míst uchazeči, kteří jsou z hlediska pořadí svých předpovědi nejlepší. V tomto případě riziko RS, že vybereme nevhodné uchazeče, závisí na poměru počtu volných míst k počtu uchazečů, který se nazývá selekční poměr1*) SP (viz obr. 11): 14
) Terminologie podle H. C. Taylora a J. 7. Russela 1939, původních autorů tabulky 23. V. M. Zaciorskij 1975 používá vlastní názvy „koeficient výběru" pro SP a „koeficient efektivity" pro ES. 84
Konstrukce a teorie motorických testů
Je-li SP < l, znamená to, že uchazečů bylo nadbytek, a my jsme z nich vybrali určitou část lepších. Je-li SP = l, znamená to, že jsme přijali všechny uchazeče bez ohledu na jejich kvalitu a tedy ani použití testu s dokonalou validitou r = l nemůže kvalitu vybraných uchazečů zlepšit. Z toho je zřejmé, že riziko selekce RS:
(2.7-8)
u tohoto typu selekce (b) nezáleží jen na validitě testu, ale také na selekčním poměru SP. To se projevuje zvláště při SP blízkém l, tj. když počet uchazečů jen málo převyšuje počet volných míst. Číslo
se nazývá efektivita selekce a udává praktickou užitečnost testu pro vybírání. Závislost efektivity selekce na validitě testu a selekčním poměru je ukázána v tabulce 23. Jestliže například v minulých predikčních cyklech byla efektivita selekce ES = 0,50 s testovou baterií o validitě r — 0,60, pak v přítomném cyklu, kdy je selekční poměr SP = 0,70, bude podle tabulky 23 efektivita selekce ESpHl = 0,62, tj. 62% přijatých na základě testu bude v budoucnu úspěšných. Riziko selekce:
Dejme tomu, že hodnota SP = 0,70 je dána dm, že se do tréninkového střediska s 35 volnými místy hlásí 50 uchazečů. Kdyby se v této situaci podařilo rozšířit Konstrukce a teorie motorických testů
85
okruh uchazečů (např. i ze sousedního okresu apod.) a jejich počet zvýšit z 50 na 100, pak by selekční poměr byl SP = 35/100 = 0,35. Potom při použití téhož testu se stejnou validitou (viz tabulka 23) by efektivita selekce byla ES = 0,77 (mezi 97 a 75), tj. podstatně vyšší než 0,62. Úroveň konečné platnosti kritéria. Z hlediska konečné platnosti, tzv. definitivnosti kritéria, ke kterému test vztahujeme, se obvykle u validity rozlišují tři úrovně: a) konečná, b) intermediární, c) bezprostřední. Například konečným kritériem přijímací baterie testů na tělovýchovnou fakultu může být, zda přijatí uchazeči budou dobře vyučovat školní tělesnou výchovu, tj. zda budou „dobrými pedagogy". Takové kritérium se ovšem jen stěží vyjádří číselně. Za intermediární kritérium můžeme považovat, zda získají,či nezískají aprobaci pro vyučování tělesné výchově, tj. zda vůbec absolvují fakultu. Bezprostředním kritériem může být kritérium vyjadřující jejich prospěch během 1. roku studia.