2.2 NORMOVÁNÍ TESTOVÝCH VÝSLEDKŮ. VÝKONNOSTNÍ NORMY Výsledky získané v jednotlivých testech, vyjádřené v rozdílných fyzikálních jednotkách, počtem opakování, počtem chyb atd., mají malou informativní hodnotu, nelze je navzájem srovnávat ani sčítat. Původní výsledky (výkony) proto převádíme
Konstrukce a teorie motorických testů
41
na odvozené a normujeme je. Nejčastěji používané způsoby transformace jsou tři, jejich přehled a použití ukazuje tabulka 8. Normované testové výsledky. Rozlišujeme několik typů tzv. „standardních bodů"1). Všechny nás informují o tom, o kolik směrodatných odchylek je testový výsledek lepší či horší než aritmetický průměr normové populace. z-body — základní způsob. Normování spočívá v tom, že odchylku testového výsledku x od průměru normové populace x dělíme směrodatnou odchylkou s: (2.2.1] Průměrný výkon obdrží O z-bodů, nadprůměrné výkony mají znaménko +, podprůměrné —. Přibližný rozsah z-stupnice je od —3 do +3. V případě několikatestové baterie má vzorec (2.2-1) tvar: (2.2-2 Normování testové matice. Pro normování výsledku osoby i v testu j použijemi odpovídající Xj a Sj, které jsou stejné pro každý jednotlivý testový vektor x j (ví: tabulka 6). Z testového vektoru x j tak získáme normovaný testový vektor Zj Normujeme-li všechny testové vektory, obdržíme z testové matice X v tabulce i normovanou testovou matici Z, tvořenou hodnotami xy. Normovaná testoví matice Z je jednou z možných forem normování původní testové matice a m následující vlastnosti: ') Užívá se též pojem „standardní skóre", „normované skóre" apod., někdy i tzv. „čisté skóre", což m odliiit normované výsledky od naměřených výsledků, označovaných pak jako tzv. skóre „hrubé1 42 Konstrukce a teorie motorických testů
1. Je centrovaná v testech, tj. součet, a proto i průměr každého testového vektoru je roven nule (ž = 0). To znamená, že počátky všech testů byly posunuty — centrovány — do průměru a normované testové výsledky jsou porovnatelné z hlediska počátků svých stupnic. 2. Je rovnoměrně normovaná podle testů a součet druhých mocnin všech normovaných výsledků (tj. všech z?) je roven číslu vn. Rovnoměrnost normování znamená, že každý testový vektor se na součtu druhých mocnin podílí rovnoměrně stejným dílem. To zaručuje, že jednotka měření testu byla normováním změněna tak, že normované výsledky testů mají porovnatelnou jednotku; směrodatná odchylka normovaného testového vektoru je rovna jedné (sz = 1). 3. Důsledkem obou předchozích vlastností je, že kterékoli dva normované výsledky ztj v matici Z jsou navzájem přímo porovnatelné, takže lze rozhodnout, který z nich znamená lepší výkon. To nebylo možné u testové matice X v tabulce 6, kde nebylo možné rozhodnout, zda např. výsledek Aidy ve shybech x íí = l je lepší či horší než výsledek Beka ve skoku x22 = 110 cm apod. 4. Normováním se neztrácí žádná informace o úrovni pohybových schopností a dovedností, kterou jsme získali testováním. Je tomu tak proto, že pro úroveň pohybových schopností a dovedností testovaných nelze jednoznačně určit ani počátek ani jednotku měření (v kap. 3.1 bude vysvětleno podrobněji). T-body. Odvodí se ze základních z-bodů vztahem: T= 50 + lOz
(2.2-3)
Stobodová stupnice má rozsah x ± 5s, takže většinou nedochází k vybočení normovaných výsledků z intervalu O až 100 T-bodů. Oproti z-bodům mají T-body pro tělovýchovnou praxi výhodu v zaokrouhlenějších číslech a odpadá práce s čísly zápornými. Tak např. místo hodnoty —1,5 z-bodů obdržíme podle (2.2-3) hodnotu 35 T-bodů. O jejím významu mají cvičenci názornější představu, vědí-li, že jsou bodováni od O do 100 bodů, že 50 bodů odpovídá průměrnému výkonu a směrodatná odchylka je rovna 10 bodům. C-body. Pro testy s menší rozlišovací schopností je T-stupnice příliš jemná. Pro nejsou vhodnější C-body: C = 5 + 2z
.
(2.2-4)
Aritmetickému průměru odpovídá 5 bodů, rozpětí je obvykle jen od l do 9 C-bodů, a proto se také nazývá devítková stupnice2). Hodnotě —1,5 z-bodů (tj. 35 T-bodů) odpovídá hodnota 2 C-body. Pro všechny normované výsledky platí důležité pravidlo: znaménko výsledků normovaných na z-body, T-body, C-body měníme na opačné u těch testů, jejichž škála má k smyslu vzrůstání výkonů smysl opačný. Tak např., je-li výsledkem testu 2
) V angl. lit. „sianine-scale" ze slov „standard" a „nine"; výkony větší, resp. menší než x + 1,75 s jsou bodovány 9, resp. l bodem. Konstrukce a teorie motorických testů
43
počet chyb, pak čím většího počtu chyb se osoba dopustí, tím méně T-bodů by měla dostat apod. Idealizované školní známky jako normované výsledky. Školní známky jsou výsledky získané odborným posuzováním učitele a mají povahu pořadové škály. Teoreticky by však bylo ideální, kdyby se odvozovaly ze z-bodů vztahem (který uvádí G. A. Lienert 1967); ZN = 3 - z
(2.2-5)
Hodnota 3 odpovídá průměru a modusu, rozpěti je zhruba od l do 5. (V praxi však není známka 3 nejčastější známkou a l se vyskytuje mnohem častěji než 5.) Motorický kvocient. Jako analogii inteligenčního kvocientu IQ zavádějí němečtí autoři (338) pojem motorického kvocientu MQ. Podobně jako u IQ nejde již dnes u MQ o poměr čísel, ale o normovaný výsledek odvozený ze vztahu: MQ = 100 + 15z
(2.2-6)
Aritmetický průměr motorického kvocientu v populaci je tedy roven 100, směrodatná odchylka 15 (obr. 4).
4. Vztahy mezi různými typy normovaných testových výsledků. Pramen: Měkota (1973)
Příklad použití normovaných výsledků: porovnání různých výkonů u různých osob. Výsledek 71eté dívky ve skoku z místa je xd — 130 cm, přičemž populace těchto dívek má x d = 115 cm a s d = 10 cm. Výkon ISletého chlapce v hodu míčkem je xlh = 41 m, přičemž populace těchto chlapců má xíh = 32 m, síh = 4 m. Máme určit, který ze dvou výkonů xá = 130 cm a xch = 41 cm je lepší. Provedeme převod na normované body podle vzorců (2.2-2) až (2.2-5): 44
Konstrukce a teorie motorických testů
zd = (130 - 115): 10 = 1,50 z-bodů Td = 1,50. 10 + 50 = 65 T-bodů C„ = 5 + 2 . 1,50 = 8 C-bodů ZN d =3 - 1,50 = 1,5 K l MQd = 100 + 15. 1,5 = 122,5 = 122
zch = (41 - 32): 4 == 2,22 z-bodů T, k = 50 + 10.2,22 = 72 T-bodů Cffc = 5 + 2,22 = 9,44 a 9 C-bodů ZN L .„ = 3 - 2,22 = 0,78 x l MQíh = 100 + 15 . 2,22 = 133,2 = = 133
Výkon chlapce v hodu 41 m je lepší než výkon dívky ve skoku 130 cm, neboť pravděpodobnost jeho výskytu v populaci je menší. Diference na T-stupnici je 7'P-bodů. Pozor: Rozdíly mezi normovanými výsledky jsou pochopitelně různé na různých stupnicích — např. 7 na T-, 0,7 na z-, l na C-stupnici. Podobně jsou však různé i poměry výkonů na různých stupnicích, nelze tedy obecně říci, že jeden výkon je např. „dvakrát lepší" než druhý, musíme současně udat stupnici, ve které to platí.3) Kvantily. Jinou možností, jak vyjádřit pozici TO v normové populaci, je stanovit její relativní pořadí a statisticky je vyjádřit odpovídajícím kvantilem4). Používají se decily anebo (nejčastěji) procentily. Procentů udává, kolik procent výkonů v testovaném souboru je nižších než daný výkon. Tak např. zápis 132 cm = P3S znamená, že výsledek 132 cm je 38. procentilem, tj. 38% výsledků v dané populaci je horších a 62% lepších než tento výkon; výkon 132 cm je tedy nízký, je pod úrovní střední výkonnosti testovaného souboru jako celku. Procentil tak ukazuje, jak obtížné je dosáhnout daného výkonu; měřítkem této obtížnosti je pravděpodobnost jeho výskytu v dané populaci. Příklad využití procentilů. Dvacet gymnastek (n = 20) se zúčastnilo soustředění před mistrovstvím republiky. V polovině soustředění byla shledána nedostatečná úroveň v závěrech povinných sestav, a proto byly provedeny kontrolní testy, zahrnující závěrečné části sestav. Výkony posuzoval trenér podle gymnastické desetibodové stupnice. Máme za úkol porovnat výkon gymnastky v kontrolním testu „závěr sestavy cvičeni na bradlech" vyjádřený známkou 8,7 s jejím výkonem v testu „závěr sestavy cvičení na kladině" vyjádřený známkou 8,8. Protože oba testy máji pořadový (ordinální) typ škály, nemůžeme pro normování použít z-body ani T-body apod. (viz tab. 8). Prostá pořadí jsou k porovnání výkonů nepoužitelná, protože v každém z testů je různý počet výsledků m (9 a 6 — viz tabulka 9). Proto podle tabulky 8 použijeme procentily. Výsledek 8,7 = P45 v testu „závěr sestavy cvičení na bradlech" je tedy z hlediska celkové úrovně výkonnosti testovaného souboru gymnastek lepši (!) než výsledek 8,8 = P15 v testu „závěr sestavy cvičení na kladině". Důvodem je, že každý z výkonů vyjadřujeme vzhledem k ostatním výkonům a přitom úroveň výkonnosti souboru je v každém testu 3
) Testové výsledky nejsou na škále poměrového typu, tj. nemají absolutní nulu. *) Kvantily jsou čísla, která rozděluji řadu výsledků testu, uspořádanou podle velikosti, na určitý počet skupin o stejně velkém počtu prvků. Jedním z kvantilů je např. medián (L. Cyhelský, I. Novák 1967). Viztéžpříl. 5.1.
Konstrukce a teorie motorických testů
45
jiná (srovnej mediány Mé). Čtyřicet pět procent gymnastek podalo na bradlech výkon horší, než je ten, který hodnotíme, zatímco na kladině bylo jen 15% dívek horších než gymnastka posuzovaná. Z tohoto hlediska 8,7 na bradlech je lepší známka než 8,8 na kladině (obr. 5). V případě, že rozdělení četnosti testových výsledků má normální tvar Gaussovy křivky (obr. 4), můžeme procentily přibližně určit přímo ze znalosti z-bodů pomocí tabulky S.2 v příloze 5.2. Vztahy mezi jednotlivými typy normovaných výsledků jsou vyjádřeny na obr. 4. Převedení výsledků na relativní četnost. Používá se podle tab. 8 u testů, jejichž výsledky se získávají nominálním hodnocením, kdy nelze stanovit ani pořadí alternativ splnění, tj. většinou u testů relativního typu. Relativní četnost jednotlivého pohybového řešení se pak porovnává s četností ostatních alternativ splnění pohybového úkolu, ale především s četností modusu, který je charakteristikou zaměřenosti testování souboru na určitý typ pohybového řešení. Jednotlivé alternativy můžeme také uspořádat podle četnosti do pořadí a vyjadřovat odlišnost jednotlivců od celkové zaměřenosti souboru (tj. od modusu) jako rozdíl četností. Tak např. máme test košíkové, kterým zjišťujeme, jakým pohybovým řešením určité herní situace dávají prvoligoví hráči přednost. V daném příkladu jsme
Konstrukce a teorie motorických testů 46
5. Normování pomocí procentilů — grafické odvození. Vzdálenosti mezi sousedními pořadími na vodorovné ose nelze vyjádřit a nejsou stejné (ekvidistantní), neboť jde o stupnici pořadovou. Srov. tab. 9.
vybrali hráče z alternativ označených číslicemi l, 2, 3 s těmito relativními četnostmi: 1 — driblovat 2 - střílet 3 — přihrávat
fi -0,25 -0,70 -0,05
(Kumulativní četnosti a procentily nelze určit, protože neexistuje ani pořadové uspořádání alternativ.) Z charakteristiky zaměřenosti Mo = 2 vidíme, že hráči v testovaném souboru jsou převážně zaměřeni na řešení dané situace alternativou „střílet". Z četností vidíme, že hráč, který dal přednost alternativě l (driblovat), se od celkového zaměření souboru liší méně než hráč, který dal přednost alternativě 3 (přihrát), v tom smyslu, že alternativa l je v tomto souboru méně obvyklá než alternativa 2. Alternativu 3 (přihrát) můžeme u daného souboru hráčů dokonce považovat za netypickou. Konstrukce a teorie motorických testů
47
Konstrukce a teorie motorických testů
*) Provést výmyk je asi tejně obtížné jako skočit do dálky z místa 230 cm nebo uběhnout l 500 m za 340 sekund (= 52 T-bodů) - viz značka x v tabulce.
Konstrukce a teorie motorických testů
49
Normy
Normování testových výsledků umožňuje konstruování výkonnostních norem použitelných u mládeže, sportovců, dospělých či starších osob. Norma je obvykle kvantitativní hodnota, empiricky určená, představující normální, typický, obvyklý výkon, zaznamenaný u odpovídající (normové) populace. V teorii testování máme na mysli statistické pojetí normy, nikoli pojetí ve smyslu žádoucího, ideálního stavu, kterého by všichni měli dosáhnout. Zpravidla se jedná o řadu tabelárně uspořádaných hodnot určených ke srovnávání. Normy se odvozují z výsledků rozsáhlejších a v daném ohledu reprezentativních šetření. Normy jsou nutným předpokladem pro efektivní využívání testů ve školní a sportovní praxi. Ve srovnání s normou můžeme stanovit pozici testované osoby v rámci své populace a zhodnotit dosažený výkon; normy umožňují srovnávat výsledky v různých testech a tím odhalovat motorické přednosti a nedostatky TO, popř. dávají možnost sledovat růst pohybové výkonnosti. Rozeznáváme několik typů výkonnostních norem. Normy založené na bodovacích stupnicích. U testů typu extremální-absolutní s intervalovým typem škály jsou to běžně užívané normy výkonnosti. Spočívají ve vytvoření tabulek pro převod testových výsledků na T-body (z-body aj.). Vlastní normou je obvykle průměrná úroveň výkonnosti, tj. 50 T-bodů (O r-bodů, 5 C-bodů). Příklad uvádíme v tabulce 10, kde hodnota testových výsledků vyjádřená v T-bodech a v C-bodech je ve dvou krajních sloupcích vlevo. Normy založené na procentilech. Tyto normy jsou nejrozšířenější, mají podobu tabulek dovolujících převod původních testových výsledků na procentily; vlastní normu představuje padesátý procentil, tedy medián. Příkladem může být opět tabulka 10 — procentily odpovídající jednotlivým testovým výsledkům přečteme v krajním sloupci vpravo. Další tabulky procentilových norem v charakterističtějším uspořádání uvádíme v příloze (tabulky N.l až N.14). Normy založené na procentilech či standardních bodech se také vyjadřují graficky jako grafické normy vynesené na pravděpodobnostní síti 6 ). Z grafů se často numerické normy odvozují (obr. 5). Normy založené na určování motorického věku. Norma má charakter věkového ekvivalentu; jiným ekvivalentem může být školní ročník. Například osmiletí chlapci u nás mají průměrnou úroveň výkonnosti ve skoku z místa 142 cm, devítiletí 148 cm. Dosáhne-li žák (jakéhokoli kalendářního věku) výsledku 144 cm, pak jeho věkový ekvivalent je 8 let a 4 měsíce (viz tab. 11). Můžeme tak určovat motorický věk, vývojovou motorickou zaostalost nebo akceleraci jednotlivce. Věkové ekvivalenty snadno určujeme graficky pomocí vývojových křivek. Příklad takové vývojové grafické normy pro dva silové testy uvádíme ve třetí kapitole (obr. 42) a pro vytrvalostní běh v obr. 43. 6
) V pravděpodobnostní síti je abscisa dělena lineárně (po mm), ordináta podle Gaussova integrálu v tabulce S.2 přílohy. 50
Konstrukce a teorie motorických testů
Tabulky očekávaných výsledků. Podobně jako tabulky procentilů nebo T-bodť mají tyto tabulky umožnit zhodnocení individuálního testového výsledku. Princi{ je však odlišný. Tabulky se konstruují na základě statistiky úspěšných a neúspěš ných osob v testu a v kritériu v minulosti; v tělesné výchově jsou prozatím mák používané. (Podrobněji literatura 248 a 343.)
6. Nomogram norem výkonnosti v hodu koulí o hmotnosti 3 kg dozadu podle výšky a hmotnosti těla pro 141eté chlapce a dívky ze Slovenska. Pramen: Havlíček, L, Grunt, J. (138 str. 26 a 29).
Normy souhrnné až specializované. Popis standardizovaného testu často obsahuje normu založenou na velkém výběru z populace celého státu, národa apod. (viz např. tabulky N.l až N.4 v příloze). Tuto široce použitelnou normu označujeme jako souhrnnou. Pro určité menší a zvláštní části populace, např. pro studující vysokých škol, máji význam normy skupinové. Dále používáme normy specializované, např. pro výběr talentované mládeže, pro vrcholové sportovce v různých sportovních disciplínách atd. Normy lokální (místní) jsou založeny na výsledcích jedné školy, jednoho sportovního oddílu apod. Porovnáním výkonu jednotlivce s několika normami současně můžeme podrobněji zhodnotit jeho výkon. Normy s kategoriemi podle veku, tělesné výšky a hmotnosti. U dospělých osob můžeme normu použít v poměrně širokém, asi 10 až l Sletem věkovém intervalu. U školní mládeže, která je ve vývoji, volíme intervaly krátké, jednoročni. Žáka srovnáváme s vrstevníky stejného kalendářního věku1), popi. stejného tělesného vývoje. Proto někteří autoři uvádějí normy pro mládež v závislosti na výšce těla a tělesné hmotnosti. Rozsáhlou soustavu normových tabulek pro žáky a žákyně různého věku, výšky a hmotnosti v Polsku sestavil R. Trzešniowski (1963). U nás F. Pávek (1966) dal při normování přednost poměru tělesné hmotnosti a výšky, indexu proporcionality tělesného rozvoje. Na principu nomogramu založili normování /. Havlíček a J. Grunt (1971) — obr. 6.
2.3 VLASTNOSTI MOTORICKÝCH TESTU A JEJICH CHARAKTERISTIKY Sestavování testů s vhodnými vlastnostmi je hlavním cílem teorie testování. Pro vyjádřeni těchto vlastnosti používáme vhodně zvolené číselné charakteristiky. Dvě základní vlastnosti testu: validita a spolehlivost Obě vlastnosti jsou natolik složité, že je nezbytné rozčlenit je na řadu dílčích stránek a pojednat o nich samostatně (podrobněji v kapitolách 2.4, 2.5, 2.6'a 2.8). V úvodním přehledu se spokojíme pouze s jejich základní charakteristikou. Validita. Pro výklad validity je důležitý pojem kritérium, k němuž test vztahujeme. Test totiž může být vhodný k jednomu účelu, ale nemusí být vhodný k účelu druhému. Kritérium vyjadřuje přesně vymezený účel testování a přijaté měřítko toho, co se má měřit (testovat). Má podobu číselné proměnné veličiny. Máme-li např. přijímací test X pro výběr uchazečů ke studiu na fakultě tělesné výchovy, můžeme jeho výsledky vztahovat ke kritériu Y, kterým bude úspěšnost ve studiu. Jejím měřítkem může být např. závěrečný prospěch vyjádřený ve školních známkách. Tabulka 12 ukazuje několik dalších, v tělesné výchově častěji využívaných možností 7
) Výpočet kalendářního věku z data narození a data testování a jeho dekadické vyjádření usnadňuje tabulka P.2 v příloze. 52
Konstrukce a teorie motorických testů
pro volbu kritéria. Lze použít např. určitý biologický parametr některé ze schopností, sportovní výkon, posudek expertů, dříve validový test aj. Validitu můžeme stručně charakterizovat jako stupeň platnosti, udávající „jak dobře test měří to, co chceme měřit". Nulová validita znamená, že test nepostihuje to, co chceme testovat, a je pro daný účel nevalidní. Nejpoužívanější mírou validity je tzv. koeficient validity rXY, kterým je nejčastěji absolutní hodnota korelace mezi testem X na jedné a kritériem Y na druhé straně, někdy používáme i označení rtk (test, kritérium). rXY udává těsnost jejich lineárního vztahu a vyjadřuje přesnost odhadu výsledku testované osoby v kritériu na základě znalosti jejího výsledku v testu. Čím větší hodnoty mezi O a l koeficient dosahuje, tím jsou validita vyšší a odhad přesnější. Blíže o korelaci viz příloha 5.1. Tabulka 12. Příklady určováni validity motorických testů Kritérium Y
Test A"
Běh na 12 minut (T 25.0) [m]
Vybraný fyziologický parametr obecné vytrvalosti
Maximálni spotřeba kyslíku V O2/kg max. [ml/min . kg]
Vertikální skok (T 15.4) [cm]
Sportovní výkon, skok na lyžích
Délka skoku na umělé hmotě [m]
Košíkářský driblink po vymezené dráze [s]
Pohybový projev ve hře (košíková)
Posudek dvou odborníků vyjádřený ve škálových bodech [body]
Shyby oporem (T 6.4) [počet]
Dříve validovaný test
Shyby na hrazdě [počet]
Uvedené koeficienty zjistili různí autoři při výzkumu u mužů; ideální hodnota koeficientu validity by byla rXY = 1,0. Spolehlivost. V nejobecnějším smyslu vypovídá o „přesnosti" testu, vyjadřuje velikost chyb testování (měření). Vysoká spolehlivost se projevuje např. tím, že při opakovaném testování u těchže osob za stejných podmínek obdržíme velmi podobné výsledky. V jiném smyslu je spolehlivost „validitou testu k sobě samému". Tabulka 13. Příklady velikosti koeficientů spolehlivosti Test Tělesná výška [cm] Kožní řasa pod lopatkou — měření kaliperem [mm] Opakované kliky na bradlech (T 7.0) [počet cyklů] Opakované zvedáni 30kg činky — tlak nadhmatem v lehu (T 10.1) [počet cyklů]
>'XX'
0,998 0,970 0,876 0,795
Koeficienty rxx. byly vypočteny z výsledků dvakrát opakovaného testování těchže osob (muži, n = 693). Prameny: Stojanovié, M. et al. (354, str. 165); Momirovič, K. et al. (265, str. 190).
Koeficient spolehlivosti můžeme opět vyjádřit koeficientem korelace; použijeme označení rxx.. Koeficient rxx, = 1,0 by znamenal naprosto bezchybné testové výsledky, které se ovšem nevyskytují. Rozdílnou míru spolehlivosti výsledků antropometrie a „motometrie" dokládají údaje tabulky 13. Objektivita testu. Je určena stupněm shody testových výsledků, které získají současně různí examinátoři, např. různí časoměřiči, rozhodčí apod. K vyjádření objektivity se obvykle používá koeficient objektivity rabj. Můžeme jej stanovit např. jako korelační koeficient dvou řad výsledků, které u téhož souboru TO obdrželi dva různí testující, při jednom provedení testu. Koeficient rubj = 1,0 není výjimkou, některé motorické testy jsou plně objektivní, výsledky jsou na osobě examinátora nezávislé, např. u testů T 6.0, T 7.0 aj. Naproti tomu u testů obratnosti je ruhj nižší; srovnej např. T 54.0, T 70.0 apod. Obtížnosti motorického testu nazýváme číslo q = F(x < N),
(2.3-1)
kde N je předem stanovená výkonnostní norma (výkonnostní „limit"). Obtížnost motorického testu q udává podíl F testovaných osob, které svým výsledkem x v daném souboru nesplnili výkonnostní normu N. Kdyby byla v tabulce 9 stanovena norma N = 9,5 pro oba testy, znamenalo by to, že test „závěr sestavy na kladině" je obtížnější: na kladině 90% gymnastek nedosáhlo normy (q = F 3 = 0,90), zatímco na bradlech jen 75% bylo pod normou (q = = F4 = 0,75). U motorických testů se spojitou povahou výsledků závisí ovšem obtížnost testu q na tom, jak přísně zvolíme výkonnostní normu. Obtížnost q je dána tím, kolikátým procentilem P je norma N. Normu vždy volíme na základě věcného zdůvodnění ve vztahu k účelu testování. Výkonnostní normou N rozdělujeme rozsah stupnice vícehodnotového motorického testu na dvě části a tak tento test uměle převádíme na nespojitý binární: „splnil normu" x = l, „nesplnil normu" x = 0. Pak q je podíl testovaných s výsledky x = O, tj. „nesplnivších" v daném souboru n osob. Podíl testovaných s výsledky x = l, tj. „splnivších", se označuje p. U přirozeně nespojitých binárních testů (např. vhodil — nevhodil míč do koše, kde nemůžeme dodatečně měnit normu) pro obtížnost testu platí: q = F(x = 1)
definice obtížnosti testu
(2.3-2)
q = l — p podíl nesplnivších (q) je doplňkem podílu splnivších (p) (2.3-3) Další příklady: T 36.0 až T 38.0 v tab. 37. Tak např. máme družstvo n = 8 hráčů košíkové, které podrobíme lowaovu — Braceovu testu T 36.0 („skokem přechod z kleku do podřepu") a získáme testový vektor: xL = [l 1 0 0 0 0 0 0 ] , kde p = 2/8 = 0,25 a obtížnost je q = 6/8 = 0,75. Přitom podle vzorce (2.3-3) opravdu 0,25 + 0,75 = 1. Předložíme-li tentýž test rovnováhy n = 30 gymnastkám, 54
Konstrukce a teorie motorických testů
z nichž 27 jej splní, pak qsym = 0,1. Obtižnost tohoto testu je tedy mnohem větší pro hráče (qkoí = 0,75) než pro gymnastky (qgym - 0,1). Obtížnost testuje relativní vzhledem k danému souboru testovaných osob. Obtížnost testu (q) a úroveň výkonnosti souboru (x) jsou „spojité nádoby" — viz vzorec (2.3-a). Skutečnost, že test je obtížnější pro košíkáře než pro gymnastky, můžeme vysvětlit tak, že gymnastky mají v testu vyšší úroveň výkonnosti než košíkáři. Obtížnost různých testů můžeme porovnávat proto jednoznačně jen u téhož souboru testovaných. Obtížnost testu regulujeme jak změnou normy N, tak i úpravou obsahu (srov. 3 kladinky v T 68.0). U binárních testů je obtížnost natolik významnou vlastností testu, že z ní lze odvodit i řadu dalších charakteristik. Například charakteristiky úrovně výkonnosti (x) a vyrovnanosti výkonů (s2 ) jsou jednoduchou funkcí obtížnosti testu:
V testu rovnováhy u košíkářů součet výsledků v testovém vektoru x t „ f činí 2, 1 J- Xt„; = 2/8 = 0.25. což ilustruje vztah p = x. Výpočet rozptylu u těchto testů je podstatně snadnější podle vzorce s2 = pq (např. s^ui- = 0,75.0,25 = 0,19 než podle tradičního vzorce (5.1-2) v příloze. Preferenční hodnota. U testů relativního typu, např. při výběru řešení herní situace apod. nemá pojem obtížnost smysl. Hovoříme o tzv. preferenční hodnotě, která udává, jak testovaný soubor hráčů dává přednost jednomu pohybovému řešení před ostatními řešeními. Nejvyšší preferenční hodnota udává typickou zaměřenost souboru testovaných na určitý druh pohybového řešení (modus). Rozptyl preferencí, tj. s 2 , vyjadřuje sourodost pohybových řešení u daného souboru testovaných osob. Převedení výsledků u testů relativního typu na preferenční hodnoty umožňuje seřadit je podle preference, a tedy je normovat (viz kap. 2.2, tab. 8). Délka motorického testu. Je charakteristikou velikosti jeho pohybového obsahu, náročnosti pohybového úkolu. Volíme označení d. Délka testu může být vyjádřena v různých jednotkách, i časem, např. T 64.0, T 59.0, T 25.0 aj., pak d — i. Délka testu střelby v košíkové je dána počtem předepsaných hodů — test se 45 hody je l,5krát delší než test se 30 hody. Říkáme, že délka druhého testu vzhledem k prvému testu je d = 1,5. Délka testu je tedy číslo relativní. Prodlužování testu zvyšuje jeho spolehlivost — viz vzorce (2.8-4), (2.8-5) o vlivu délky testu na jeho spolehlivost. Prodloužení testu zvyšuje obvykle i jeho validitu — viz vzorec (2.8-7), ale je-li nadměrné, může validitu snižovat. Tak např. z testu síly můžeme nadměrným prodloužením vytvořit spíše test vytrvalosti, srovnej např. T 48.0 při í = 10 sekund anebo při í = 60 sekund. Jestliže po prodloužení testu vyhodnocujeme nejen jeho celkový výsledek, ale Konstrukce a teorie motorických testů
55
i výsledky jeho původních kratších forem, jde o tzv. dělení testu na části. Když např. test sed —leh l minutu hodnotíme průběžně každých 10 sekund, rozdělili jsme jej na 6 částí. To se užívá např. pro určení spolehlivosti. Když části testu mají charakter samostatných testů, pak d = v, délka celého testu je dána počtem dílčích testů. Doba trvání (testový čas) t. U některých testů je libovolná, u jiných je součástí zadání pohybového úkolu a pak je přesně určena — např. počet odbití míče za 30 s apod. V druhém případě hovoříme o testech časově omezených. Doba trvání testu může být shodná s délkou testu, např. 12minutový běh T 25.0 je test l,33krát delší než 9minutový běh T25.1. Doba trvání může být shodná s testovým výsledkem, např. u běhů na čas aj. Rychlost testu je podíl d/t. Zrychlováním testu (zkracováním t) se zvyšuje obtížnost testu. Smysl stupnice testových výsledků ve vztahu k stupnici výkonu. U řady motorických testů má stupnice jejich výsledků opačný smysl než stupnice výkonů v daném pohybovém úkolu. Například u běhů: čím větší výkon — tím menší výsledek v sekundách, u testů hodnocených počtem chyb: čím větší výkon — tím menší výsledek v počtu chyb atd. To je důležité pro normování výsledků a pro odhady výsledků jednoho testu z výsledků jiného testu. Na validitu jednotlivého testu tato okolnost nemá vliv, protože koeficient validity je absolutní hodnota. Může to však ovlivnit tzv. složenou validitu několika testů. Příklady testů s opačným smyslem stupnice: T 42.0; T 43.0; T 45.0 až 47.0. Homogenita (konzistence) a komplexnost motorických testů. Motorický test nebo testová baterie, která postihuje právě jen jednu pohybovou schopnost či dovednost, se nazývá homogenní, též kongenerická čili konzistentní. Postihuje-li dvě a více schopností či dovedností, nazývá se komplexní, též nehomogenní. Například T 6.0 shyby je homogenní test dynamické síly, výdrž ve stoji na jedné noze je homogenní test statické rovnováhy. Denišiukův T 45.0, překážková dráha složená z řady činností, je nehomogenním, tj. komplexním testem několika pohybových schopností z oblasti obratnosti apod. Ekvivalence testů. Podle druhu chyb rozdělujeme homogenní testy na několik druhů, a to podle toho, do jaké míry jsou motorické testy navzájem zastupitelné („ekvivalentní") pro měření dané pohybové schopnosti či dovednosti — tzv. druhy ekvivalence v kap. 2.5. Dimenzionalita baterie motorických testů. Udává počet dimenzí — rozměrů, které jsou obsaženy v testových výsledcích baterie. Dimenzionalita se tedy vztahuje na testovou matici X (tabulka 6) a udává, kolik testových vektorů x j, x_ 2 , • • - , x.j, ... je natolik důležitých, že je nelze z testové matice vypustit, aniž by došlo k podstatné ztrátě informace. Některé motorické testy v dané baterii poskytují totiž testové vektory, které lze přibližně vyjádřit jako vážený součet zbývajících testových vektorů. Dimenzionalita baterie se zjišťuje obvykle faktorovou analýzou (viz kap. 3.1.2). I homogenní baterie testů, která měří jedinou pohybovou dovednost, může mít několik dimenzí, např. v důsledku rozdílné obtížnosti jednotlivých testů 56
Konstrukce a teorie motorických testů
apod. Počet dimenzí je vždy větší nebo nejméně roven počtu pohybových schopností či dovedností, které baterie postihuje. Specifičnost motorického testu. Udává, do jaké míry test měří „něco jiného" než ostatní testy. Vedle pohybových schopností společných několika testům může test měřit i jednu, výlučně pro něj specifickou dovednost, kterou ostatní testy neindikují. Specifičnost testu se posuzuje podle rozdílu mezi jeho spolehlivostí a validitou, kterou k němu mají ostatní, s ním homogenní testy (například specifičnost disciplíny běh 100 m v tretrách s bloky vzhledem k baterii běžeckých testů rychlosti apod.). Zobecnitelnost motorických testů udává, do jaké míry lze výsledky testu zobecnit (generalizovat) i na ostatní motorické testy téhož druhu, které jsme v daném případě právě nepoužili. Počet motorických testů,'které měří či indikují nějakou pohybovou schopnost, může být značný až nekonečný. Testujeme-li např. vytrvalost, použijeme vždy jen určitý omezený počet motorických testů vytrvalosti, a řadu dalších testů vytrvalosti, které s vybranými tvoří celé univerzum testů, nepoužijeme. U motorických testů lze rozlišovat ještě řadu dalších vlastností a charakteristik, např. ekonomičnost testu (časovou náročnost přípravy testů atd.).
2.4
KLASICKÝ MODEL TEORIE TESTOVANÍ
Klasický model teorie testování je nejrozšířenější z používaných modelů, které při testování pohybových schopností a dovedností jako nepřímo pozorovatelných vlastností slouží k číselnému vyjádření jejich úrovně. Lze jej použít pro testy absolutního typu s intervalovým typem škály. Přitom se předpokládá, že mezi výsledkem testu a úrovní testované schopnosti či dovednosti je monotónní, tj. stále rostoucí anebo stále klesající funkční závislost. Základní pojmy modelu. Jsou tři: pozorovaný (X) a skutečný /'(T,/'čti „tau") výsledek testu a chyba testování (A čti „delta"). Hlavní myšlenka modelu spočívá v tom, že pozorované výsledky získané testováním jsou zatíženy aditivními chybami, což vyjadřuje základní rovnice klasického modelu: \:'
X='JTJ+A
(2.4-1)
Kdybychom chyby znali, mohli bychom jejich odečtením od pozorovaných výsledků zjistit výsledky skutečné, přesné. Tedy hodnoty T (tau) a A (delta) nelze přímo pozorovat a odlišujeme je proto řeckými písmeny od pozorovatelných hodnot X. Základní rovnice (2.4-1) může být pro dva testy j, k vyjádřena: Xj = Tj + Aj;
Xk = Tk + Ak
(2.4-1)
Základní pojetí skutečných výsledků. Rozlišujeme dvě pojetí: 1. Specifický skutečný výsledek je výsledek testované osoby v jednom testu, získaný teoreticky velkým počtem opakování testu u této osoby. Vyjadřuje skutečnou úroveň výkonnosti osoby v daném testu, očištěnou od chyb a náhodných výkyvů u jednotlivých výkonů této osoby. Konstrukce a teorie motorických testů
57
pozorovaný 1.
Složky pozorovaného rozptylu testu [X, T}.
2. Generický skutečný výsledek je „výsledek" testovaného v pohybové schopnosti či dovednosti, získaný na základě většího počtu různých homogenních testů. Vyjadřuje skrytou, skutečnou úroveň pohybové schopnosti u testované osoby. Kterékoli z obou pojetí skutečných výsledků vyjadřuje, že test jako standardizovaný postup pro číselné hodnocení pohybových výkonů je vždy „testem něčeho". D 1. Definice testu v klasickém modelu. Motorický test není tedy jakákoli pozorovaná veličina X, která jednotlivým testovaným osobám přiřazuje jakékoli pozorované výsledky x;, ale musí je přiřazovat tak, aby x; mohly sloužit jako dobré odhady skutečných úrovní ií jejich výkonnosti anebo pohybových schopností T. Z hlediska klasického modelu je motorický test dvojice: v níž pozorované výsledky X jsou vhodnými odhady skutečné úrovně T. Tedy X je vhodnou mírou T. Vhodnost odhadu T na základě X je vymezena tím, že test musí splňovat následující čtyři předpoklady: a) úroveň ii u i-tého testovaného je střední hodnotou z velkého teoretického počtu různých testů anebo opakování jednoho testu; b) motorické testy mají intervalový typ škály; c) výkonnost souboru osob v žádném motorickém testu není árii absolutně vyrovnaná, ani nekonečně nevyrovnaná (rozptyl výkonů není ani nula, ani nekonečno); d) platí tzv. předpoklad lokální nezávislosti jednoho výkonu v jednom testu na výkonech v ostatních testech. Předpoklad lokální nezávislosti a postuláty modelu. Jde vlastně o předpoklad nezávislosti výkonnosti v daném motorickém testu na výkonnosti v ostatních motorických testech za podmínky, že úroveň pohybové schopnosti (či kombinace pohybových schopností), která se v daném testu projevuje, byla už stanovena („lokalizována"). Tedy dosažení výkonu v testu nezávisí na výkonech v ostatních testech, ale jen na úrovni pohybové schopnosti T (u nehomogenních testů na kombinaci pohybových schopností). Je-li u dané osoby udržována („lokalizována'') stálá úroveň jejích pohybových schopností důležitých pro výkon, pak by její výkon podle předpokladu lokální nezávislosti měl kolísat už jen nahodile, v rámci chyb A. Předpoklad lokální nezávislosti nám umožňuje odvodit tři důležité postuláty klasického modelu: 58
Konstrukce a teorie motorických testů
Pl
Skutečná úroveň pohybové schopnosti není soustavně zkreslena chybami testování, tzn. průměr chyb je nula:
P 2 Skutečná úroveň není ovlivňována velikosti chyb ani svých testů, ani testů jiných pohybových schopností a dovedností, tj. chyby nekorelují se skutečnými výsledky:
P3
Chyby různých testů se navzájem neovlivňují, tj. chyby jsou navzájem nekorelované:
Z postulátů P l — P 3 lze odvodit řadu tvrzeni důležitých pro testovací praxi. Nejdůležitější z nich stručně uvedeme ve znění vět označených VI — V17 a definic D l — D 5. ieiichž souhrn představme téměř celou teorii klasického modelu testů. Základní definice a věty klasické teorie testů V 1. Průměr skutečných výsledků Tje roven průměru pozorovaných výsledků X: (rovnost přímo vyplývá z P. 1). Věta napovídá, že odhad skutečné celkové úrovně souboru testovaných pomocí průměrné pozorované výkonnosti souboru je nevychýlený. V2. Rozptyl s| vyjadřující vyrovnanost pozorovaných výkonů je součtem rozptylu skutečných hodnot a rozptylu chyb: [vyplývá ze vzorce (2.4-1) a P 2]. Odhad skutečné úrovně pomoci testu je tedy takový, že kdyby nebylo chyb testování, pak by byl skutečný rozptyl sj roven rozptylu pozorovanému sj (viz obr. 7). D 2. Spolehlivost. Podíl skutečného rozptylu k pozorovanému rozptylu:
se nazývá koeficient spolehlivosti testu {X, T}, někdy stručně jen „spolehlivost". Koeficient spolehlivosti vyjadřuje, do jaké míry chyby A zvětšují skutečný rozptyl ve smyslu V 2 a obr. 7. Když se jeho hodnota blíži k O, spolehlivost je nízká, když se blíží k ], je vysoká — viz příklad v tabulce 14. Test by měl absolutní spolehlivost, tj. l, kdyby s£ = sf, což by podle vzorce (2.4-3) znamenalo s^ = O, tj. že chyby jsou jen systematické a konstantní (popř. žádné). Koeficient spolehlivosti vyjadřuje stupeň vyrovnanosti skutečné výkonnosti anebo skutečné úrovně pohybových Konstrukce a teorie motorických testů
59
schopností a dovedností vzhledem k vyrovnanosti pozorovaných výkonů v testovaném souboru. V 3. Koeficient spolehlivosti lze jinak vyjádřit také vztahem:
(což vyplývá ze vzorců (2.4-4) a (2.4-3)). Tedy spolehlivost testu by byla O, kdyby v obr. 7 celý rozptyl pozorovaných výsledků byl tvořen rozptylem chyb (s^ = sx), tzn., že by test vůbec nepostihoval skutečnou úroveň a jeho pozorované výsledky by byly tvořeny jen nahodilými chybami. Protože skutečný rozptyl s£ ani rozptyl chyb Sj neznáme, nelze podle vzorců (2.4-4) a (2.4-5) spolehlivost přimo vyčíslit. K tomuto účelu používáme tzv. paralelní testy, viz D 5, V10. V 4. Čtverec korelace rXT pozorovaných testových výsledků X ke skutečné úrovni Tje roven koeficientu spolehlivosti testu: (2.4-6)
(odvození je složitější, nedokazujeme). Proto spolehlivost testu {X, T} označujeme rXT, ale také rxx, (viz V 10). D 3. Index spolehlivosti testu {X, T}. Index spolehlivosti je definován jako odmocnina koeficientu spolehlivosti, tj.: V5. Validita. Index spolehlivosti testu {X, T} je vlastně koeficientem validity rXT pozorovaných výsledků testu k jeho skutečným výsledkům či ke skutečné úrovni testovaných pohybových schopností a dovedností (vyplývá z V 4). To ukazuje, kdy je nějaký motorický test testem určité pohybové schopnosti či dovednosti T: má-li test {X, T} nenulový koeficient spolehlivosti, tj. má i nenulový index spolehlivosti, pak jeho pozorované výsledky X mají nenulovou validitu k úrovni testované pohybové schopnosti T. D 4. Chyba testu. Veličina sd ze vzorců (2.4-3), (2.4-5) se nazývá standardní nebo též střední chyba testu. Její dvojnásobek udává přibližnou mezní chybu testování: Amax = 2s„
(2.4-6')
Chyba testu s á je vlastně směrodatná odchylka jednotlivých chyb u všech testovaných. V6. Jestliže dva různé motorické testy {Xj, 7}}, {Xk, Tk} jsou homogenní, pak každý z nich je testem skutečné úrovně téže pohybové schopnosti či dovednosti T, tj.: (vyplývá z definice homogenních testů jako testů téže schopnosti či dovednosti — kap. 2.5). Například shyby i kliky jsou homogenní motorické testy, testují jednu a tutéž pohybovou schopnost T, dynamickou sílu paží. 60
Konstrukce a teorie motorických testů
(neodvozujeme). Pozor: vzorec (2.4-14) neobsahuje druhou mocninu r, tj. není shodný se vzorcem (2.6-5). Například má-li test shyby spolehlivost rxx, = 0,81 a směrodatnou odchylku výkonů s x = 5 shybů, je standardní chyba testu s = = 5.^/1 — 0,81 = 1,5 shybu. Mezní chyba testování u jednotlivých osob, tj. maximální chyba pozorovaného testového výsledku x, oproti skutečnému výsledku Tf, je podle vzorce (2.4-6') přibližně
V lOb. Koeficient spolehlivosti paralelních testů je roven koeficientu jejich vzájemné validity: (2.4-12) a proto se rxx. také používá pro označení spolehlivosti testu. [Odvození: ve vzorci (2.4-6) nahradíme čitatele dle vzorce (2.4-10) a jmenovatele nahradíme výrazem sx.sx,, což je možné vzhledem k V8, tak dostaneme výraz (z kapitoly 5.1) pro korelaci rxx,.~] Tato věta lOb se v praxi nejvíce používá při odhadu koeficientu spolehlivosti motorických testů. Máme-li k dispozici dvě paralelní formy motorického testu, můžeme podle (2.4-12) vypočítat spolehlivost testu jako jejich vzájemnou validitu rxx,. Nejčastěji slouží za dvě paralelní formy testu jeho dvě různá opakování u stejných osob a za stejných podmínek — viz tabulka 14 (tzv. stabilita testu — viz rstab v kap. 2.5). Pozor na možný omyl ve vzorci (2.4-12): čtverec nepozorovatelné validity na levé straně je roven pozorované validitě na straně pravé.
i
V11. Všechny koeficienty vzájemné validity mezi paralelními testy jsou si rovny: (2.4-13) Podrobněji r XiXí = r XiX} = ... = r XlXí = ..., kde *,, X 2 , X 3 ,... jsou paralelní testy. (Nedokazujeme.) Prakticky se rovnost validity využívá jako jeden z hlavních znaků toho, že motorické testy v nějaké baterii jsou paralelní. Například /. Hav• líček v r. 1972 testoval 68 dvanáctiletých chlapců mj. také třemi testy pohybové obratnosti: l — běhcikcak, 2 — překážková dráha, 3 — zkrácená překážková dráha. Vzájemná validita těchto testů obratnosti byla r12 = 0,68, rl3 = 0,72, r23 = 0,72. Z hlediska vzorce (2.4-13), nehledě zatím na další znaEy, by tyto tři motorické testy mohly být považovány za paralelní testy obecné pohybové obratnosti (odchylky od přesné rovnosti lze považovat za nepatrné). V 12. Střední chybu testu u paralelních testů lze určit pomocí (2.4-14) 62
Konstrukce a teorie motorických testů
spolehlivosti obou testu: (2.4-16)
(nedokazujeme). Pomocí tohoto vzorce můžeme v praxi vypočítat teoretickou vzájemnou validitu rTiT2, která je vždy přinejmenším vyšší než pozorovaná validita r xtx2- Validita rTiT2 udává, jaká by byla vzájemná validita testů, kdyby jejich pozorované výsledky nebyly zatíženy chybami. Hlavní praktický význam má následující důsledek věty V14: V15. Validita rTiTl je maximální možná pozorovaná validita testů, kterou lze dosáhnout zvýšením spolehlivosti obou testů. Například ve sportovní škole máme pro přijímání uchazečů přijímací test l, který má ke kritériu — závěrečnému testu 2 validitu rXlX2 = 0,48. Spolehlivost přijímacího testu je rXtX,t = 0,64, spolehlivost závěrečného kritéria rXiX'2 = 0,81. Dosazením do vzorce (2.4-16) vypočteme, že rTiT2 = 0,66. Kdybychom zlepšili podmínky, zpřesnili pravidla testů atd., zvyšovali bychom tím spolehlivost obou testů. Z porovnání r TiT2 = 0,66 s původní rXíX2 = 0,48 vyplývá, že takové úsilí o zvýšení spolehlivosti testů by bylo do jisté míry užitečné, neboť bychom tak mohli validitu zvýšit až o 1/3 původní velikosti. V16. Spolehlivost jako podmínka validity. Validita motorického testu k libovolnému kritériu je nejvýše rovna jeho indexu spolehlivosti: (2.4-17)
kde Y je kritérium a rxx, je koeficient spolehlivosti testu (vyplývá z V 14). Při dané spolehlivosti je tedy maximální možná validita k jakémukoli kritériu testu omezena nerovností (2.4-17). Přitom se předpokládá, že kritérium samo je absolutně spolehlivé, tj. že rry. = 1. Jiná formulace vzorce (2.4-17) zní, že spolehlivost testu je nutnou podmínkou jeho validity, nikoli však podmínkou dostačující. V17. Paralelní testy mají shodnou validitu k danému vnějšímu kritériu Y: (2.4-18)
To znamená, že paralelní testy jsou navzájem plné nahraditelné či zastupitelné, chceme-li z nich odhadovat kterékoli kritérium, např. předpovídat budoucí výkonnost apod.