Jak řešit otázky klientů. Průvodce pro studenty, výzkumníky a praktické diagnostiky. I Historie, principy.
Jan J. F. ter Laak, Ph.D.
© 2015 Masarykova univerzita
OBSAH ČÁST 1 Co je diagnostika? Testování, skórování testů, teorie testů a historický a společenský kontext jejich vzniku a vývoje. .............................................................................................................................. 4 1. CO JE PSYCHOLOGICKÁ DIAGNOSTIKA? .......................................................................................... 4 1.1 Diagnostika: Proč, co, kdo, jak a kdy? ....................................................................................... 4 1.2 Systematický popis diagnostiky ................................................................................................. 7 Vybrané přístupy k definici diagnostiky ...................................................................................... 7 Systematický popis diagnostiky ................................................................................................... 8 1.3 Tvorba teorie a diagnostika ....................................................................................................... 9 1.4 Operacionalizace a měření klientova chování ......................................................................... 14 1.5 Nástroje: postupy, testy a dotazníky ....................................................................................... 19 1.6 Diagnostický proces ................................................................................................................. 21 1.7 V čem spočívá diagnostika a analýza otázek klienta? ............................................................. 21 1.8 Komentáře a zhodnocení ........................................................................................................ 22 Koncepty a termíny v kapitole 1: CO JE PSYCHOLOGICKÁ DIAGNOSTIKA? ............................... 25 2. DIAGNOSTIKA A TEORIE TESTŮ ..................................................................................................... 27 2.1 Proč se v diagnostice zatěžovat s teorií testů a psychometrikou? .......................................... 27 2.2 Klasická teorie testů – CTT (Classical Test Theory) .................................................................. 28 2.3 Moderní teorie testů: teorie odpovědi na položku (Item Response Theory, IRT) ................... 33 2.4 Vztah mezi klasickou a moderní teorií testů ........................................................................... 39 2.5 Komentáře a zhodnocení ........................................................................................................ 41 Koncepty a termíny v kapitole 2: DIAGNOSTIKA A TEORIE TESTŮ ............................................ 42 3. HISTORIE DIAGNOSTIKY ................................................................................................................. 43 3.1 Studium historie diagnostiky ................................................................................................... 43 3.2 Účel a užitečnost studia historie diagnostiky .......................................................................... 45 3.3 Historie diagnostiky: utváření teorie, měření a nástrojů ........................................................ 45 Historie vytváření teorie ............................................................................................................ 45 Historie měření a skórování položek a testů ............................................................................. 47 Historie nástrojů ........................................................................................................................ 48 3.4 Vědecký a sociokulturní kontext rozvoje testování................................................................. 50 3.5 Vybrané příspěvky k rozvoji testování: Galton, McKeen Cattell, Binet a Goddard ................. 51 3.6 Komentáře a zhodnocení ........................................................................................................ 57 Koncepty a termíny v kapitole 3: HISTORIE DIAGNOSTIKY........................................................ 58 ČÁST 2 Kontroverze, postupy, reliabilita a validita, kvalita diagnostiky ................................................ 58 4. KLINICKÁ VERSUS STATISTICKÁ PREDIKCE: KONTROVERZE MINULOSTI ....................................... 58 4.1 Původ klinicko – statistické predikční kontroverze ................................................................. 58 4.2 Klinická versus statistická predikce ......................................................................................... 60 4.3 Obsah kontroverze .................................................................................................................. 62 4.4 Empirický výzkum k urovnání kontroverze.............................................................................. 64 4.5 Kritická analýza klinické predikce a klinického usuzování ....................................................... 67 4.6 Reakce na kritickou analýzu klinické predikce a usuzování..................................................... 69 4.7 Kombinují diagnostici informace nelineárně? ......................................................................... 73 4.8 Komentáře a zhodnocení ........................................................................................................ 75 Koncepty a termíny v kapitole 4: KLINICKÁ VERSUS STATISTICKÁ PREDIKCE: KONTROVERZE MINULOSTI ................................................................................................................................ 78 1
5 DIAGNOSTICKÝ PROCES .................................................................................................................. 80 5.1 Od testování k diagnostice ...................................................................................................... 80 5.2 Implicitní diagnostika .............................................................................................................. 82 5.3 Explicitní diagnostika: výsledky a postupy .............................................................................. 84 5.4 Explicitní diagnostika: pravidla, modely a postupy kontroly diagnostického procesu............ 86 Preskriptivní verze čočkového modelu ..................................................................................... 87 Další preskriptivní opory rozhodování ...................................................................................... 88 Krokové postupy kontroly diagnostického procesu .................................................................. 92 Eklektická schémata a inventáře ............................................................................................... 96 Formulace případu .................................................................................................................... 98 5.5 Alternativní přístupy k diagnostickému procesu ................................................................... 100 Diagnostika jako setkání .......................................................................................................... 100 Diagnostika jako struktura a obsah příběhu............................................................................ 101 5.6 Diagnostici: Individuální rozdíly, vývoj a sociální kontext ......................................................... 102 5.7 Komentáře a hodnocení ........................................................................................................ 105 Koncepty a termíny v kapitole 5: DIAGNOSTICKÝ PROCES ...................................................... 107 6 RELIABILITA A VALIDITA V DIAGNOSTICE ..................................................................................... 107 6.1 Reliabilita (spolehlivost): implicitní koncepty........................................................................ 107 6.2 Reliabilita: explicitní koncepty ............................................................................................... 108 6.3 Reliabilita a posuzování (assessment) ................................................................................... 111 6.4 Jaké hodnoty koeficientů reliability jsou žádoucí? ................................................................ 112 6.5 Validita: Implicitní koncepty .................................................................................................. 113 6.6 Validita: Explicitní koncepty .................................................................................................. 118 Validita testů: prediktivní, obsahová a konstruktová. Messickův jednotící koncept validity . 118 Validita: problém kritéria ........................................................................................................ 122 Validita a (kvazi)experiment .................................................................................................... 124 Zobecnění validity a inkrementální validita ............................................................................ 129 6.7 Požadovaná úroveň prediktivní validity ................................................................................ 131 6.8 Komentáře a hodnocení ........................................................................................................ 133 Koncepty a termíny v kapitole 6: RELIABILITA A VALIDITA V DIAGNOSTICE ........................... 136 7 KVALITA DIAGNOSTIKY ................................................................................................................. 136 7.1 Co je kvalita?.......................................................................................................................... 137 7.2 Implicitní kritéria pro kvalitu teorií, operacionalizaci, měření a administraci nástrojů ........ 138 7.3 Explicitní kritéria pro kvalitu teorií, operacionalizaci, měření a nástroje .............................. 141 7.4 Kvalita vytváření teorií: individuální rozdíly .......................................................................... 146 7.5 Kvalita teorií: vývoj ................................................................................................................ 149 7.6 Kvalita teorií: Sociální kontext klienta ................................................................................... 151 7.7 Kvalita operacionalizace a měření ......................................................................................... 152 7.8 Kvalita nástrojů ...................................................................................................................... 157 7.9 Kvalita diagnostického procesu ............................................................................................. 160 7.10 Kvalita posuzování: Etika, soukromí, spravedlivé testování a podvádění při testech ......... 165 Termíny a koncepty v kapitole 7: KVALITA DIAGNOSTIKY ....................................................... 170 ČÁST 3 Psychologická diagnostika ve výuce a v praxi ......................................................................... 170 8 DIAGNOSTIKA A POSUZOVÁNÍ – VÝUKA, PROFESNÍ ODVĚTVÍ, PRAXE ......................................... 170 8.1 Diferenciace psychologie ....................................................................................................... 171 2
8.2 Diferenciace psychologického vzdělávání ............................................................................. 172 8.3 Diferenciace oblastí profesní praxe ....................................................................................... 174 8.4 Klinická psychologie a psychologie zdraví ............................................................................. 175 8.5 Personalistika, psychologie práce a organizace .................................................................... 176 8.6 Vývojová a pedagogická psychologie .................................................................................... 178 8.7 Neuropsychologie .................................................................................................................. 180 8.8 Komentáře a hodnocení ........................................................................................................ 181 Koncepty a termíny v kapitole 8: DIAGNOSTIKA A POSUZOVÁNÍ – VÝUKA, PROFESNÍ ODVĚTVÍ, PRAXE ...................................................................................................................................... 183
3
ČÁST 1 Co je diagnostika? Testování, skórování testů, teorie testů a historický a společenský kontext jejich vzniku a vývoje. 1. CO JE PSYCHOLOGICKÁ DIAGNOSTIKA? Proč, jak a kdy diagnostikují lidé ostatní a sebe? Kdo tito lidé jsou a co je vlastně zajímá? Diagnostika nepředstavuje žádnou specifickou psychologickou subdisciplínu. Bylo by prospěšné vytvořit systémovou definici, která by zahrnovala utváření teorie, měření a nástroje1. Psychologie není majetkem profesionálů. Smysluplná může být i reflexe laické diagnostiky. Existuje přemíra teorií a téměř každá myšlenka nebo hypotéza je za teorii označována. Navrhuji zde rozlišovat tři zdroje utváření teorie: implicitní, explicitní a alternativní a rovněž tři nearbitrární teoretické orientace: individuální rozdíly, vývoj a sociální kontext. Diagnostika je činnost prováděná diagnostikem a klientem: je k ní zapotřebí obou dvou. Dalším návrhem je pracovní popis tohoto procesu. Každá kapitola je zakončena komentáři a zhodnocením a otázkou, co analýza nabízí diagnostikům v praxi. Odráží autorovy myšlenky a ty mohou být nahrazeny jinými, lepšími analýzami. Kdykoliv a kdekoliv se píše „on“ nebo „jeho“, „ona“ a „její“, týká se jich to rovněž. 1.1 Diagnostika: Proč, co, kdo, jak a kdy? Proč diagnostikujeme, posuzujeme a neúnavně vyhodnocujeme chování, myšlenky a pocity jiných – a při hloubavé náladě i své vlastní? Jaké jsou funkce, praktické a vědecké cíle těchto aktivit? Setkáme-li se s neznámým člověkem, událostí, fenoménem nebo situací, nejprve okamžitě, bez přemýšlení posoudíme, zda je pro nás a naše zájmy přínosem nebo zdrojem ohrožení. Hlavní dimenzí, kterou charakterizujeme sociální situace, je podle zjištění Van Hecka (1989) „konflikt“. Tato spontánní aktivita by mohla nést jméno posuzovací reflex. Sledujeme individuální rozdíly mezi lidmi, které jsou důležité pro naše přežití, anebo nám mohou zničit reputaci. Dále platí, že pokud je značná nabídka a omezená poptávka, téměř vzápětí si pomyslíme, že je výhodné selektovat. Jsme přesvědčeni, že arbitrární volba zaměstnanců nebo dokonce životního partnera je horší, než proces výběru. Za třetí, lidé jsou sociální bytosti, žijící v skupinách a my je dělíme do kategorií. Tento jev se nazývá např. reflex „my-vy“. Může zahrnovat již dělení na chlapecké a dívčí skupiny, dále skupiny s různým sociálněekonomickým statutem, rozmanitá náboženská vyznání, a nakonec až národní státy. Cikara et al. (2011) tvrdí, že starat se jeden o druhého je samotným základem lidské společnosti, ale když je v hledáčku člen jiné skupiny, tak mohou mít lidé přece jenom silnou motivaci nestarat se, či nepomoct tomuto „jinému“, a dokonce existují důkazy toho, že cizí bolest v kontextu meziskupinové soutěže může i těšit. K tomuto významu se odvolává německé slůvko „Schadenfreude2“. Tato trojice důvodů odráží naše biologické dědictví, protože musíme žít a přežít mezi jinými. Přidává se však i čtvrtý: nestranný a nezaujatý přístup k pochopení klientova chování, který by měl být cílem vědce. Diagnostika je pojímána primárně jako něco užitečného pro dosahování praktických cílů, např. pro pomoc ostatním, zlepšování lidských osudů, podporu úspěšného života, předcházení agresi a násilí, pro výchovu k altruismu, řešení problémů klientů atd. Obecně slouží k dosahování sociálně žádoucích cílů a vyhnutí se nežádoucím projevům.
1
Autor užívá termín „instrumentace“, který obvykle překládáme jako „nástroje“. Upozorňujeme, že může obsahovat i konotaci k procesu či způsobu práce s nástroji, metodami, ale i teoriemi – pozn.překl. 2 něm. škodolibost – pozn.překl. 4
Vědecké cíle jsou formulovány neutrálně. V rámci diagnostiky sestávají z deskripce, predikce a kontroly klientova chování a ze snahy pomoci mu rozhodnout se mezi různými možnostmi. Deskripce se týká např. kategorizace a škálování chování, např. inteligence s pomocí jedné nebo více dimenzí. Predikce znamená předpověď chování na základě jeho posouzení tady a teď. Kontrola chování se zkoumá experimentálně, protože nezávislá proměnná, např. typ školení, je manipulována tak, aby vyvolala změnu závislé proměnné, např. školního prospěchu. Rozhodnutí znamená výběr takové možnosti, která maximalizuje žádoucí výsledek s využitím znalosti rysů klienta a jeho prostředí. Vědecký přístup předpokládá objektivitu a empirický důkaz tvrzení o chování klienta. Důkladná kategorizace chování (jakou představuje např. DSM-IV), vývojových stadií, osobnostních typů, stylů zpracování informací apod. je založena na ukazatelích shody, na schopnosti striktně oddělit kategorie včetně falešných pozitiv a negativ. Predikce je většinou spjata s korelačními postupy, využívá se rozptyl ve výběru s ohledem na chování, aby mohlo dojít k predikci rozptylu v budoucím chování, jaké může představovat např. delikvence mládeže, školní prospěch apod. Experimentální design umožňuje odvozovat, že změna závislé proměnné je zapříčiněna změnou v proměnné nezávislé. Rozhodnutí lze činit na základě normativních modelů, které stanovují optimální volbu z dvou a více možností při dané konstelaci proměnných. Tyto tři cíle je možné nacházet v designech a analytických postupech vlastních hlavnímu proudu psychologické diagnostiky: experimenty dokazují skutečné příčiny testováním nulové hypotézy t-testem a F-testem, korelační studie nabízejí identifikaci spolehlivých vztahů testováním oproti nulové hypotéze o absenci vztahu a výzkumy rozhodování testují model, který ukazuje nejvíce preferovanou možnost za daného počtu vážených relevantních atributů. Téměř veškeré bádání se řídí perspektivou testování nulových hypotéz. Menší pozornost se věnuje ucelenému popisu (ne)žádoucího chování klienta a pokusům modelovat je s využitím případových studií nebo postupů matematického a statistického modelování. Rodgers (2010) navrhuje, aby se testování nulových hypotéz nahradilo právě tímto modelováním, ale nezmiňuje už formulaci případové studie, tj. modelování na úrovni jednotlivého klienta. I odborná periodika jsou navíc stále nakloněna statistické indukci, která spoléhá na testování statistické významnosti a p-hodnotu, a bude tomu tak pravděpodobně i nadále, kvůli strategiím časopisů, byť se stále častěji setkáváme s měřením velikosti účinku – ES (effect size; ES = podíl rozdílu průměrů a společné směrodatné odchylky3). Příliš často se nevyužívá tzv. Bayesův faktor: tento index vyjadřuje pravděpodobnost, že data podporují jednu hypotézou oproti jiné. Apriorní šance se porovnávají s aposteriorními (rovnice viz Wetzels et al., 2011). Tato hodnota nevzniká porovnáním s nulovým případem (H0 versus H1), ale je diferencovanější. Wetzels et al. porovnávali t-test, F-test a Bayesův faktor. Bayesův faktor je podle očekávání přesnější a velikosti účinku poskytují oproti p-hodnotám další informaci. Pro diagnostiky je velikost účinku důležitým ukazatelem, zejména pokud se počítá v metastudiích. Získáváme základní dojem o účincích obdobných intervencí a o jejich síle působit změny závislých proměnných. Bayesův faktor však bývá zmiňován jen zřídka. Co posuzujeme? Lidé se zpravidla zajímají o takové chování a o takové sociální situace, které (1) pro ně mají hodnotu, např. akademický, profesní a sociální úspěch, dobré školy, harmonické rodiny, nebo kterých (2) se obávají, např. agrese, terorismus, psychopatologie, nebo (3) se kterými mají soucit, např. utrpení znevýhodněných, týrané děti, lidé s handicapem. V učebnicích se diagnostika objevuje v mnoha podobách, od „motivace k činům“ po „pracovní výkon“ (Fernández-Ballesteros et al., 2003). Diagnostika se dotýká téměř „všeho“.
3
Toto platí v případě porovnání průměrů t-testem (pozn. překl.) 5
Z toho ale plyne, že nemá žádný konkrétní materiální objekt, jinými slovy žádný specifický obsah. A to ji vzdaluje např. výzkumu chemických částic (viz blok 1.1). Blok 1.1: „Elementy“ diagnostiky? Při popisu diagnostiky rozlišujeme tři elementy: teorii, měření a nástroje. Pokud bychom za výchozí bod považovali chování, pak by se elementy mohly stát jakékoli projevy. Toto rozlišení nabízejí ve své encyklopedii Fernández-Ballesteros et al. (2003), a zmiňují se o něm i Kubinger a Jäger (2003). Ani jeden z těchto případů však není tak uspokojivý, jako chemické částice, které známe ze středoškolských laboratoří. Staří Řekové rozlišovali čtyři elementy: vodu, zemi, vzduch a oheň. To ale rovněž není tak úplně pravda. Měli jich už tehdy deset: zlato, stříbro, železo, měď, cín, olovo, rtuť, uhlík a síru. Za Mendělejevových časů bylo známo 66 prvků a dnes je jich 118, přičemž počet stále narůstá. Seznamy Fernándeze-Ballesterose a Kubingera s Jägerem jsou ještě delší, ačkoli ne tak přesvědčivé, jako seznamy chemických prvků. Mayer se pokoušel shrnout teorie osobnosti a shromáždil přibližně 400 konstruktů. Jak dlouho potrvá, než se podaří chování rozklíčovat obdobně jako soustavu chemických prvků? Jsou neurologové behaviorálními chemiky, kteří vyřeší naše problémy? Nebo to budou jazykovědci, kteří pojmenují veškeré naše chování striktními termíny a kategoriemi? Neučinili psychiatři obrovský krok vpřed s DSM? Tento systém bude dimenzionální, ale ukazuje hodnoty na dimenzích tak, jako může být vyjádřena hmotnost atomů? Anebo je chování, tj. pozorovatelné chování, city a myšlenky, jiného druhu? Jsme od „vědy“ jako diagnostici na hony vzdálení, nebo se setkáváme s něčím úplně jiným (chováním) a budeme muset rámec vědy, jakou představuje např. chemie, opustit? Ve výsledku je pro diagnostiku důležitá celá základna psychologických poznatků. Diagnostik z ní pak musí vybrat ty vědomosti, které přesně odpovídají dané otázce klienta. Posuzování nemá ani vlastní formální objekt, tj. specifický aspekt výzkumu chování, jako je tomu např. ve vývojové psychologii. V ní se každé chování studuje z perspektivy změny a vývoje v čase. Důsledkem toho není diagnostika separátním podoborem psychologie a diagnostik musí brát v potaz vše, aby našel informace, potřebné k zodpovězení klientovy otázky. Koho posuzujeme? Jednotkou posuzování je klient. Může jím být jednotlivá osoba, ale rovněž tým, třída, firma a dokonce společnost. Obvykle se posuzuje osoba, méně často instituce a sociální systémy. Jak posuzujeme? Tato otázka se týká metod laické percepce a teoretických a empirických postupů, které vedou k formulaci tvrzení o klientovi. Tento „výsledný produkt“, tj. výrok o chování klienta, se může realizovat mnoha způsoby a lze k němu dospět s využitím rozličných nástrojů a rozmanitými postupy. Toto „jak“ se často popisuje jako do kroků rozdělený proces, který má formu souboru pravidel či směrnic, např. testování hypotéz jako v experimentech, racionální dialog jako v argumentační konverzaci, soubor dat ke zpracování podle určitých pravidel atd. Způsob také zahrnuje interakci posuzovatele a klienta a jakákoli interakce znamená vzájemné ovlivňování. Kdy posuzujeme? Sociálním fenoménům většinou nevěnujeme pozornost a neposuzujeme je do té doby, než se odchýlí od normální formy, např. žákův výkon je pomalý nebo se náhle zhoršil či je jeho chování obtížné zvládnout. Z toho plyne, že diagnostika se primárně uplatňuje tehdy, pokud nastane problém, byť neutrální otázky jsou také důležité, např. pokud se osoba zeptá diagnostika, zda je kompetentní pro novou práci. Shrnutí 1.1
6
Jakožto sociální tvorové posuzují lidé ostatní lidi, aby odhadli, jestli ohrožují nebo podporují jejich zájmy, aby vybrali další, kteří vyhovují jejich očekávání a aby rozdělili lidi do náležitých skupin: „my – oni“. Vědec se bude obhajovat, že se nestranně a nezaujatě zajímá o příčiny a důvody chování svých lidských kolegů. Ve vědecké psychologii je preferovaný koncept příčin vypůjčen z přírodních věd (mechanická příčina). Protože ne vždy se specifickému chování dají připsat vnější mechanické příčiny, je tendence dovolávat se těch vnitřních, psychogenních. Loughlin (2011) varuje před zjednodušenou úvahou, že pokud neznáme fyzickou příčinu chování nebo poruchy, musí být tato příčina nutně psychologické povahy. Zároveň požaduje pečlivou a otevřenou analýzu různorodých možných příčin, abychom se uchránili „přepsychologizování“. Praktickými cíli posuzování jsou podpora úspěchu a vyhnutí se poškození. Vědecké cíle souvisí s validním popisem, predikcí a kontrolou chování a výhodnými rozhodnutími pro klienty. Neexistuje téměř žádné omezení v tom, jaké chování můžeme posuzovat a jak toho dosáhnout. Subjektem diagnostiky je klient, obvykle osoba, ale může to být tým, firma a dokonce společnost. Situace, která vyvolá potřebu diagnostiky, je sociální problém nebo specifická otázka klienta. 1.2 Systematický popis diagnostiky Vybrané přístupy k definici diagnostiky Termín „diagnostika“ pochází z řeckého slova „δίαγνοσίς“ (diagnosis, diagnóza) a znamená rozlišení, schopnost rozeznat a rozhodnout. Diagnostik nebo posuzovatel je tedy někým, kdo umí rozlišovat a rozhodovat. Může to vést k definování klinické nebo individuální diagnostiky jako rozhodovacího procesu, v němž splývají různé teoretické a empirické linie výzkumu, čímž se vyznačuje silové pole klinického posuzování. Důraz se klade na povahu a výsledek rozhodovacího procesu, který klientovi pomáhá vybrat si mezi dvěma nebo více možnostmi. Diagnostiku lze rovněž definovat jako vědecký úkol posuzování individuálních rozdílů v chování a jako aplikaci těchto poznatků na jednotlivou osobu v jejím zájmu a v zájmu společnosti. Tato definice se zaměřuje na měření individuálních rozdílů, aby se tak „správný člověk dostal na správné místo“. Z toho vyplývá, že stěžejní náplní psychologického posuzování je výběr a umisťování. I třetí definice zdůrazňuje rozhodnutí, ale přidává nutnost vědecky spolehlivých informací a jejich řádnou integraci. V této definici je zdrojem informací osoba a její prostředí. Walsh a Betz (2001) definují posuzování pomáhající proces a rozlišují čtyři kroky: 1. sběr diagnostických informací, 2. pochopení těchto informací, 3. jejich integrace, z které vyplyne posudek nebo rada, a 4. intervence s cílem vyřešit problém nebo ulevit od bolesti. Johnson a Sheeber (1999) zdůrazňují jiný prvek. Týká se posuzování dětí v rámci různých úrovní fungování v několika vývojových doménách, jako třeba kognici, lokomoci, řeči a socio-emocionálních schopnostech. Diagnostik se zaměřuje na slabé a silné stránky klienta. Abstraktní a široká definice zní: diagnostika je vědecká disciplína, která vyvíjí a využívá metody k posouzení důležitých vlastností lidí, skupin, situací, institucí a dokonce objektů a událostí. Definice tvoří jen seznam, který zdůrazňuje důležité funkce posuzování a zahrnuje specialisty z různých psychologických subdisciplín. Diagnostika nemá žádný nezávislý materiál ani formální objekt, z čehož vyplývá, že relevantní jsou základní vědomosti sociálních věd, zejména psychologie s jejími ucelenými teoriemi, metodami a nástroji.
7
Systematický popis diagnostiky Výše popsaný stav věcí je na jedné straně zdrojem problémů, protože je obtížné jasně kategoriálně vymezit diagnostiku jako specifickou část psychologie, tj. jako separátní subdisciplínu. Na druhé straně otvírá cestu k systematické definici. Abychom ji mohli vytvořit, analyzujeme každou diagnostickou aktivitu jako množinu tří prvků: teorií (síť behaviorálních konstruktů), modelování a reprezentace (znaky) chování prostřednictvím operacionalizace a měření a nástrojů a postupů (testů, dotazníků, pozorování nebo dalších způsobů posuzování chování). Pokud bychom použili metaforu, pak teorie obsahují „sémantiku“ chování, tj. obsah myšlenek o individuálních rozdílech, vývoji a environmentálních vlivech na normální, deviantní nebo narušené chování, kognici, inteligenci, emoce, motivaci a sociálně-emoční chování. Reprezentace, modelování, měření, to vše zahrnuje „gramatiku“, strukturu, formu chování. Nástroje lze srovnávat s fonologií, neboli se základním materiálem „fonémů“, ze kterých jsou složena slova. Podobají se „položkám“, tj. konkrétnímu pozorovanému chování, nebo tomu, na které se usuzuje z behaviorálních znaků. Tabulka 1 ukazuje prvky a odborníky, kteří jsou odpovědni za jejich vypracování. Tabulka 1: Prvky systému psychologického posuzování Utváření teorie: Operacionalizace a psychologové osobnosti, měření: sociální, vývojoví, obecní psychometrici, statistici, psychologové tvůrci modelů
Nástroje: testy, dotazníky, postupy pozorování. Test a nástroj; návrháři jakéhokoliv postupu
V jazyce jsou k vytváření srozumitelného projevu potřebné všechny prvky, a je tomu tak i v diagnostice, kde potřebujeme teorie, měření a nástroje, abychom mohli „produkovat“ pochopitelné a spolehlivé posudky (obr. 1.1). Ozer (1999, str. 672) to vyjadřuje tak, že každý konstrukt je pouze „...plně racionální uvnitř psychologické teorie...“, a vnitřní struktura měření konstruktu, „...by měla spojovat relevantní psychologickou teorii s modelem měření“. Obě z nich nakonec určují konstrukci nástrojů. Psychologické teorie a konstrukty Modelování
Nástroje měření
Obrázek 1.1: Vztahy mezi prvky diagnostiky
8
V obrázku 1.1 se můžeme vybrat kteroukoliv zpáteční cestou přes vrcholy, ale tři cesty nám budou povědomé: 1. Teorie – modelování – měřící nástroj 2. Měřící nástroj – modelování – teorie 3. Modelování – měřící nástroj – teorie Sestupná cesta („shora dolů“) (1) znamená deduktivní způsob posuzování. Koresponduje s hypoteticko-deduktivním výzkumem v empiricko-analytické tradici. Uvedená sekvence bývá nazývána „empirický cyklus“. Prostřední centrifugální cesta (2) se týká situace, kdy je potřebný instrument, který posuzuje například senzitivitu ke stresu u úředníků státní správy. Konstrukce nástroje je první, co je zapotřebí udělat. Pak se přidá teorie nebo konstrukt „stresu“ a nakonec se odvodí jedna nebo více škál použitím explorační multivariační techniky. Vzestupná cesta („zdola nahoru“) (3) má za výchozí bod model měření, např. jednodimenzionální škála podle modelu z moderní teorie testů nebo jednofaktorový model. Výsledkem je škála (měřící nástroj), kterou je možné interpretovat tak, že se vztahuje ke konstruktu, řekněme obecné inteligenci. Shrnutí 1.2 V definicích diagnostiky dominuje jedna charakteristika, dejme tomu rozhodování, řešení problémů, pomoc, dosazení osoby na správné místo a popis vývojových úrovní fungování. Je rovněž široce definovaná jako nezávislá subdisciplína psychologie, která se zabývá posuzováním vlastnosti lidí, situací a objektů. Diagnostika nemá žádný specifický materiál ani formální objekt, z čehož vyplývá, že spočívá na poznatkové bázi sociálních věd a psychologie, jako souboru teorií, metod a nástrojů. Tento stav věcí umožňuje nabídnout ucelenou definici, jejímiž prvky jsou teorie, měření a nástroje. Při definování diagnostiky se často setkáváme se třemi z šesti možných cest. K tvorbě posuzování je potřeba všech prvků, tak, jako je zapotřebí elementů sémantiky, gramatiky a fonologie k produkci srozumitelné řeči. 1.3 Tvorba teorie a diagnostika Utváření teorie je nevyhnutelně přítomné v každodenním životě, diagnostice, psychologii i v „tvrdé“ vědě. Lidé jdou bez námahy, přirozeně a nutně za hranice toho, co vidí a prožívají. Označují, predikují a vysvětlují fyzické a behaviorální fenomény. Není to bez rizika. Laické teorie mohou být klamné. Paul Meehl (1978) tvrdí, že utváření teorie v psychologickém posuzování je slabé, vědecky nevýrazné a technologicky bezcenné. Byť takové varování nemůžeme přehlížet, nelze se jednoduše vzdát teoretizování, tj. úsilí o reprezentaci chování klientů s pomocí konstruktů, které jdou za hranice okamžité zkušenosti. Uvedený Meehlův postoj vyjadřuje kritický pohled na tvorbu psychologických teorií. A navíc, v duchu postmodernizmu velké teorie selhaly. To zapříčinilo, že se utváření teorie začalo obcházet (Gigerenzer, 2010) a jako východisko se jeví publikovat tolik, kolik je jen možné. Ke všemu se ještě přidaly „publikace na hraně publikovatelnosti“ (str. 741) a studenti, kteří zjevně místo toho, aby pomáhali utvářet teorii, přešli k jejímu kritizování (Looren de Jong, 2010). V psychologii se utváření teorie obvykle popisuje jako stavba koherentní konstrukce ze spojených výroků. Hypotézy by měly logicky vyplývat z teorie a musí umožňovat testování. Není činěn rozdíl mezi predikcí a vysvětlením. Jde o klasický deduktivně-nomologický pohled, o kterém se píše v učebnicích. Ve výzkumu a v praxi existují jiné způsoby vysvětlení. Kupříkladu funkčně adaptivní vysvětlení se zaměřují např. na mechanismy a funkčnost, ne na zákony. Popisování kauzální struktury toho, co je třeba vysvětlit, např. deprese pana X, je jiný způsob teorie, například popisem případu. Klasický pohled příliš striktně rozlišuje mezi teorií a daty. Teoretická psychologie je otevřená snaha: konstruuje a dekonstruuje teorie použitím 9
různých stupňů reflexe, interpretace, integrace a kritiky existujícího empirického výzkumu. Teoretická psychologie potřebuje výzkum a výzkum potřebuje teoretickou reflexi a interpretaci. Rozlišujeme tři zdroje utváření teorie a metod. Metody jsme přidali proto, že obsah teorií a konstruktů je určující rovněž pro povahu metod analýzy a testování teorií (tabulka 2). Tabulka 2: Zdroje utváření teorie a metod Implicitní utváření laické Explicitní utváření teorie: teorie o příčinách a povaze Paradigma ve smyslu Kuhna individuálních rozdílů, (1962); perspektivy v vývoji a sociálním kontextu; příručkách; explicitní implicitní metodologie, např. metodologie: v příručkách o klinická predikce, psychometrice, statistice, a Brunswikův čočkový model výzkumných plánech (diskutovaný níže)
Alternativní utváření teorie: návrhy autorů, kteří vnímají bílá místa v explicitním utváření teorie a v metodologii
Implicitní teorie a metody se používají v laickém popisování a vysvětlování chování a shromažďování informací. Heider (1958) nazval tyto explanace implicitní, lidové nebo domorodé teorie. Na této úrovni patří psychologie nám všem, třeba panu Clintonovi, Obamovi, Putinovi a Madonně. Implicitní teorie a metody ukazují, že psychologie není majetkem psychologů. Každý kategorizuje, předpovídá a vysvětluje chování. Klíčový rys implicitní teorie je, že její obsah a způsoby získávání poznatků jsou určovány laiky. Implicitní (abnormální) osobnostní, vývojové a kontextuální teorie jsou analyzovány empiricky (Furnham, 1990). Výsledky jsou pro profesionálního diagnostika důležité, protože klient vstupuje do dveří jeho pracovny vybaven vlastními implicitními teoriemi (viz blok 1.2). Eigenberger et al. (2007) shrnují implicitní metody pro sběr a popis behaviorálních informací a vysvětlení korelací a efektů experimentů. V posuzování můžeme využít dvou upřednostňovaných obecných stylů. Intelektuální zpracování – IP (Intellectual processing) spoléhá na inferenční postupy a řídí se deduktivními a induktivními pravidly. Většina lidí ale i tak dává přednost reaktivním přístupům, které omezují inferenční procesy a směřují k výhodnému úsudku (výchozí zpracování – DP – default processing), tj. preferování konkrétních témat, která se přímo týkají problému, řešení praktických problémů, a vyhýbání se výzkumné metodologii, filosofii, či lekcím dějepisu. Blok 1.2: Implicitní posuzování Psychologické posuzování není exkluzivní doménou psychologů. Každý člověk dělá závěry o inteligenci, pocitech, chování jiných lidí i sebe sama. Záměr možná spočívá v pobavení se popisem, který by se hodil na stránky pánských a dámských časopisů. Jindy zas lidé mají v úmyslu udělat dobrodružnou předpověď budoucího chování. Jako lidoví teoretici máme zájem o rozdíly mezi lidmi. S kým se budeme večer dobře bavit? Kdo nám nejlíp poradí, jestli máme vzít novou práci? Který budoucí manžel se skutečně účastní domácích prací? Kdo je dobrý zaměstnanec? Někteří se sami sebe s vážností ptají, jestli se mají řídit radou drahého psychologa, který ostatně není lepší než běžný člověk. Proč by nemohli být obyčejní lidé schopni posoudit individuální rozdíly v inteligenci a osobnosti? Neučí náhodou profesionálové orla létat? Abychom si udělali obrázek, co si nováčkové v diagnostice (čerství absolventi psychologie) představují pod pojmem diagnostik, zeptali jsme se jich na to, jak by ho charakterizovali. Zjistili jsme následující: dobrý odhad na lidi, skutečný psycholog, někdo, kdo má dar proniknout do hlubin něčí duše, spravedlivý soudce, ten, kdo škatulkuje lidi, tazatel, 10
manipulátor, někdo, komu se nepodařilo vystudovat medicínu, ten, kdo si řeší svoje problémy studiem psychologie, detektiv, pomahač, tazatel, rozhodčí, vědec, sběratel informací a jejich zpracovatel, voyer, intuitivní vědec a statistik, účetní, řešitel problémů. Při pohledu na tuto plejádu definic vyvstává obava, že nebude lehké přesvědčit obyčejné lidi, že psychologové jsou profesionálními diagnostiky. Explicitní teorie a metody patří k paradigmatu normální vědy (Kuhn, 1962). Existuje přesah explicitních teorií. I když jsou velké teorie a systémy záležitostí minulosti (Mroczek & Little, 2006), nepřestávají plnit naše skripta. Nové teorie obvykle nezlikvidují staré kvůli jejich nedostatkům; spíše zušlechtí a přidají nové významy, interpretace, vysvětlení ke zkoumanému chování. Z toho vyplývá, že nalezení „pravdy“ je v psychologii mnohem více záležitost posunu horizontu a rozšíření a prohloubení poznatků o chování a jeho interpretaci, nežli hledání jedné jediné validní teorie. Usilování o „monoteorismus“ se podobně jako o „monoteizmus“ či „mono-ideologismus“ jeví zbytečné. Vyvolává represi, jak tomu bylo v některých ortodoxních psychologických školách. Podobně nemáme ani jednu jedinou metodologii, např. pravé experimentální designy. Alternativní teorie a metody provázejí explicitní utváření teorie a kriticky na ně reagují. Autoři k existujícím konstruktům přidávají nové, protože jim v nich chybí důležitý obsah. Někdy se vymezují vůči existující teorii. Příkladem alternativních teorií jsou Gardnerova (1993) teorie inteligence a současný důraz kladený na úspěšnou inteligenci; Czikszentmihalyiho a Rathundovy (1988) koncepce osobnostního růstu („flow“), a „pozitivní psychologie“ Seligmana et al. (2000). Kromě alternativních teorií jsou tu také alternativy k rozšířené metodologii. Obvyklá kritika směřuje k nedostatku zájmu o kvalitativní metody, ale také o specifické přístupy k analýze osob, výkonu a prostředí, např. sociální konstrukcionismus propaguje nahrazování testů dialogem mezi posuzovatelem a klientem. Vztah zdrojů teorií je považován za nehierarchický. To protiřečí přirozené tendenci stavět jeden přístup nad ostatní. Samotné uvědomování si jejich simultánní přítomnosti a působení je příčinou dynamiky v utváření teorie. V důsledku toho lze všechny tři považovat za smysluplné a jejich vztah musí být takový, že se vzájemně „hlídají“ a vedou „kritický dialog“, který nemá končit dohodou ani vítězstvím jednoho z nich. Pro uspořádání obrovského množství teorií diagnostiky navrhuji systém trojí orientace. Jde o individuální rozdíly, vývoj a sociální kontext. Navrhuji požadovat, aby se pro kteroukoliv otázku k posuzování využívaly všechny tři. Rozdělení není „náhodné“, protože se zakládají na třech charakteristikách lidského poznání a pozorovatelného chování (viz blok 1.2). Tyto orientace je možné najít ve všech zdrojích, ale zde jsou zpracované s ohledem na explicitní utváření teorie (tabulka 3). Tabulka 3: Tři nelibovolné teoretické orientace psychologie Individuální rozdíly: Vývoj: vysvětlení chování porovnávání lidí vytvářením tady a teď a budoucího behaviorálních kategorií, škál chování tázáním se „jak to“, a množství vektorů, např. např. stadia kognitivního typy osobnosti, inteligenční rozvoje, vývoj osobnosti, škály, vícedimenzionální vývoj kontextů, jakými jsou teorie osobnosti a inteligence. rodina, organizace, obec.
Sociální a fyzický kontext: vysvětlení chování jako důsledku sociálních a fyzických kontextů, např. teorie posilování, nebo učení nápodobou: sociální behaviorismus.
Individuální rozdíly: pokud máme záměr kategorizovat, předpovídat, vysvětlovat naše chování nebo chování druhých, porovnáváme se s ostatními na základě určitých fyzických 11
rysů a projevů. Učíme se o sobě porovnáváním se s ostatními. Už před téměř šedesáti lety Festinger (1954) poukázal na fakt, že lidé se srovnávají, aby si lépe porozuměli, protože nesprávná percepce může být „trestající, či v některých situacích přímo fatální“ (str. 117). Nevyhnutelným rysem lidské existence je „být s druhými lidmi“ a porovnávat se s ostatními. Vývoj: Když se snažíme kategorizovat, předpovědět, pochopit a vysvětlit naše chování a chování druhých, ptáme se: „jak to“? Lidé ovládají a konstruují minulost a současnost, a navrhují budoucnost. Vedle toho, že jsou nutně sociálními bytostmi, jsou lidé i bytostmi časovými. Zaměření na původ druhů bylo na Západě výrazně prosazováno Darwinem v 19. století. I když evoluci považoval za slepou, interpretovalo se to jako pokrok ve vývoji společností a vědy. V psychologii je evoluce přítomna v kognitivním vývoji a ve vývoji osobnosti v pojetí Piageta a Freuda (Fischer, 2006; Sroufe et al., 2005) i ve výcvikových programech k upevnění žádoucího a potlačení nežádoucího chování. Lidské chování je spojité v čase a lidé v průběhu života kontinuálně pokračují ve svém chování. Sociální a fyzický kontext: Abychom popsali, kategorizovali, předpovídali, kontrolovali nebo vysvětlili chování, odkazujeme se na prostředí. Lidská existence je nevyhnutně charakterizovaná slůvkem „tady“, tj. přítomností komplexu fyzických a sociálních podmínek. Teoretici učení se zaměřují na vysvětlení chování poukazem na účinky (rozdílného) kontextu (Staats, 1993; Rotter, 1982; Bandura, 1999). Kontext tak, jak je definován behaviorismem, se vztahuje na specifické fyzické podněty. Rozšířil se na sociální podněty, včetně ostatních osob jako modelů a sociálních situací, např. rodinu, školu, sousedy a kulturní prostředí. Kontext se rovněž týká manipulovaného prostředí v experimentálních studiích, od podnětů v modifikaci chování ke všem druhům výcvikových, kompenzačních či rozvojových programů. Blok 1.3: Je nezbytné všechno dělit třemi? Podívejme se na to, co v roce 1835 řekl ve své knize „Demokracie v Americe“ francouzský cestovatel Alexis de Tocqueville poté, co tam dlouhou dobu žil: „Mysl může, zdá se mi, rozdělit vědu na tři části. První se skládá z nejvíce teoretických principů. A těch ještě abstraktnějších názorů, jejichž aplikace je buďto neznámá, nebo velmi vzdálená. Druhý zahrnuje ty obecné pravdy, které pořád sice patří do čisté teorie, ale přitom vedou krátkou cestou přímo k praktickým výsledkům. Třetí pak obsahuje metody aplikace a prostředky k realizaci. Každou z uvedených rozdílných částí vědy lze samostatně kultivovat, byť rozum a zkušenost napovídají, že žádná nebude mít dlouhého trvání, pokud se úplně odstřihne od dvou zbývajících.“ S uvedenou tripartitou se v této knize setkáme opakovaně. Veškeré projevy chování, např. inteligenci, lze zkoumat jako individuální rozdíl (např. v psychometrických teoriích inteligence), jako vývojový fenomén (např. Piagetova stadia kognitivního vývoje) a jako funkci sociálního prostředí a cviku (teorie zpracování informací, sociálně-ekonomický status, tréninkové programy, vzdělávání). Z logického hlediska nemohou tyto tři aspekty poskytovat rozporná fakta o stejném chování. Snaha Ennise a Overtona (2006) kombinovat vývoj a kontext (jejich slovy: „organický“ či organismický a „mechanistický“ pohled na svět) vlastně není ani redukcí ani hierarchizací, protože oba pohledy jsou součástí „inkluzivní vztahové metateorie“. Tvrzení o nezávislosti znamená, že kombinace různých orientací lze považovat za „hybridy“. Hybridem se rozumí zvíře, které vznikne spářením dvou odlišných druhů, např. z koně a osla bude mezek. Ten je silnější než osel, není ale schopen „sám sebe“ reprodukovat. Individuální rozdíly a vývoj tvoří hybrid ve zkoumání stability (a ne vývoje) osobnostních rysů a psychometrické inteligence. Výzkum individuálních rozdílů za pomoci testů a 12
dotazníků vyvolal potřebu studia stability průměrů, pořadových škál, faktorové struktury a procesů, tj. výzkum homotypické kontinuity. Ve výzkumech heterotypické kontinuity se propojují rozličná chování, např. připoutání v osmi měsících s romantickými vztahy v dospělosti (Caspi & Shiner, 2006). V podstatě nám vývojová teorie občas přichází na pomoc s vysvětlením neočekávaných výsledků (Roberts & Pomerantz, 2004). S individuálními rozdíly a kontextovou orientací se setkáváme např. v diskuzích na téma osoba-situace. Rozdíly v situacích mají vysvětlit rozdíly v osobnostních rysech a inteligenci (např. sociální situace a socioekonomický status). Ve své monografii z roku 1968 poukázal Mischel na důležitost situace pro vysvětlení rozdílů v rysech osobnosti. Tato debata víceméně splnila svůj účel, protože obojí hraje důležitou roli (Roberts, 2009). Vývojové a kontextové orientace byly rozvíjeny ve výzkumech o akceleraci vývoje kognitivních stadií podle Piageta. Tyto studie předpokládaly, že vývojové a individuální rozdíly jsou ovlivňovány podněty, a to od podmíněných podnětů k sociálním situacím a výcvikovým programům. Z toho plyne, že kontextová orientace postačuje ke kategorizaci, predikci a vysvětlení chování. Kontext a vývoj se nerozlišují, pokud se vývoj interpretuje jako behaviorální změna. Individuální rozdíly jsou „chybami“ (v rámci rozptylu) v experimentech. V běžné praktické diagnostice dominují individuální rozdíly. Rotterovy (1982) a Bandurovy (1999) konstrukty sociálního učení se dokonce staly nástroji k měření individuálních rozdílů v interní a externí kontrole, resp. self-efficacy. Zdůrazňuje se autonomie a rovnost orientací, protože jejich syntéza – pokud by nějaká kdy nastala – by nevedla k lepší kategorizaci, predikci ani vysvětlení chování. Například Lewis (1998) napadl vývojovou tezi ve zprávě Sroufeho et al. ve vztahu k longitudinální studii Minnesota Child Development (viz souhrn jejich dlouholeté práce v knize z roku 2005). Jeho argumenty odrážejí spíše odlišný pohled na nedokonalé korelace připoutání a deprese v čase, spíše než na podstatu experimentu, ve kterém se prokázala platnost kontextové orientace, nikoli však orientace vývojové. Filosof Rawls (1971) to vnímá tak, že teoretické zdroje a orientace jsou si „rovny“, tj. můžou se k sobě chovat „jakoby“ byly „rovnocenné v moci, bohatství a schopnosti“. Uvedená trojice orientací nachází částečně analogii v metodologii: je jí experimentální a korelační výzkum (viz blok 1.4). Korelační výzkum pracuje s již prokázanými rozdíly v chování a koreluje hodnoty dvou proměnných u jednoho výběru, např. inteligenci a školní prospěch. V experimentálním výzkumu může být nezávislá proměnná teprve zavedena a manipulována výzkumníkem. V roce 1977 se Cronbach a Snow pokoušeli spojit oba přístupy ve výzkumu Interakce schopností a péče – ATI (Aptitude Treatment Interaction). Tento přístup dosud neměl příliš velký úspěch, jinými slovy není „plodný“ ani jako hybrid. Blok 1.4: Experimentální versus korelační metody Milujeme jednoduché dichotomie: „jin“ a „jang“, světlo a tmu, dobré a špatné, boha a ďábla, muže a ženu, vrcholové manažery a dělníky z přízemí atd. S každou dichotomií vyvstává otázka: jaký je jejich vztah? Odpovědí je integrace nebo neoportunistický eklekticismus. Za svého předsednictví Americké psychologické asociaci Cronbach (1957) nazval experimentální a korelační metody dvěma vědeckými disciplínami a později se spolu se svými kolegy pokoušel integrovat obě do výzkumu ATI. Hlavní myšlenka byla ta, že účinek léčby/péče (experimentálně manipulované) bude záviset na úrovni osoby v proměnné individuálních rozdílů. Například, účinek vzdělávacího programu závisí na stupni inteligence, motivace, či extraverze žáků. Se stejnou myšlenkou se setkáváme v terapiích. Vyplývá z toho, že terapie se musí přizpůsobit člověku. Očekává se, že tato adaptace povede k lepším výsledkům. Je to samozřejmě pochopitelná myšlenka, ale není pro ni mnoho empirických 13
důkazů (Cronbach & Snow, 1977). Ani v klinické psychologii nenajdeme příliš mnoho empirické podpory pro tuto myšlenku. Jinou odpovědí na první otázku je hierarchický vztah mezi prvky dichotomie. Cronbach oba typy výzkumu považoval za „dvě vědecké disciplíny“. Každá disciplína má své zastánce. Rádi bychom řekli, že někdo musí velet; nemáme rádi na lodi dva kapitány. Odpověď zní, že experimentální metoda je jedinou řádnou cestou k poznání. Dovoluje nám nalézat příčiny pro zachování a změnu chování a jeho odchylek. Když vložíte do názvu práce slůvko „experimentální“, dáváte najevo svou snahu být seriózním vědcem. Předpokládáme, že se dozvíme víc, když budeme schopni manipulovat proměnnými, než jen pozorovat existující rozdíly. Je to otázkou epistemologie. Astronom nemůže hýbat s dráhou hvězd, ale dělá to z něj horšího vědce v porovnání s experimentálním fyzikem, který proměnnými manipuluje? Shrnutí 1.3 Existuje množství definic diagnostiky, jimž obvykle dominuje jeden z jejích cílů. Náš návrh je popsat diagnostiku jako systém utváření teorie, reprezentací, operacionalizace a měření konstruktů a nástrojů. Zdroje pro utváření teorie jsou implicitní (laické), explicitní (obecně přijímané teorie z „příruček“) a alternativní. Význam jednotlivých zdrojů a jejich vztah je hodnocen rozdílně, avšak teorie, měření a nástroje jsou vnitřně propojené, i když jsou rozptýlené mezi odborníky různých specializací. Analýza a poznatky lidových teorií a konstruktů dobře poslouží při snaze o pochopení popisných a explanatorních konceptů laiků, kteří k diagnostikům přicházejí. Kromě tří zdrojů rozlišujeme tři non-arbitrární teoretické orientace: individuální rozdíly, vývoj a (sociální) kontext. Jejich kombinacemi vznikají „hybridy“. Tyto tři orientace se považují za autonomní, protože ani jedna není lepší než druhá a nemohou být redukovány na kteroukoli z dalších dvou. Při posuzování klienta jsou všechny důležité. Mimo orientací existují rovněž alternativní teorie a metody. Je tomu tak proto, že podle stoupenců této kontrakultury některé zajímavé obsahy nelze tradičními postupy reflektovat nebo že konkrétním projevům lépe vyhovuje odlišná metodologie, např. kvalitativní metody namísto kvantitativních, nebo dialog místo objektivního testování. Tyto nové, alternativní konstrukty se mohou stát součástí normální vědy. Příkladem může být kognitivní psychologie: původně „slabá“ alternativa, dnes součást „běžné“ psychologické vědy. 1.4 Operacionalizace a měření klientova chování Druhá složka diagnostiky zahrnuje konstrukty jako reprezentace důležitých vlastností skutečného chování nebo jako nástrojů k predikci a vysvětlení chování. Reprezentace můžeme vnímat různě: buď jako indicie skutečného obsahu chování, nebo jako prázdnou strukturu, např. v psychometrických modelech. První interpretace je dominantní: charakteristiky skutečného chování jsou vyjádřeny ve slovech s významem. Druhá sestává z logických symbolů a matematických vzorců, např. pro energii, přitažlivost, barvu. Skutečné chování nemůže být vyčerpávajícím způsobem reprezentováno, vždy dochází k selekci. Navíc není nikdy zřejmé, zda je zvolená selekce tou nejvhodnější. To je přetrvávajícím problémem operacionalizace. Strukturální reprezentace reality nemůže nakonec překonat jednoduchou otázku: a copak to vlastně měříš? Strukturu musíme nevyhnutně interpretovat jako pochopitelné chování, např. extraverzi, inteligenci. Spojení mezi utvářením teorie a realitou mimo ní zůstává nepoddajnou záležitostí. Otázkou je, jaký máme přístup k realitě chování? V posuzování rozlišujeme čtyři přístupy: za prvé, laici a ojediněle i odborníci upřednostňují striktní intuicionismus, uplatňující okamžité poznání klientova chování, prosté analýz a teoretických úvah. Tomu, kdo se odvolává na svou neochvějnou intuici, nelze protiřečit. V diagnostice není tento přístup přijatelný, protože opomíjí či odmítá racionalistické a empirické argumenty, připouští logicky chybné výroky 14
(tak jako některá spirituální hnutí, například buddhismus), odmítá úsudky s poukazem na důsledky myšlenek nebo teorií a nepočítá s faktem, že ve skutečném světě nelze zároveň provádět dvě nekompatibilní akce (Bunge, 1996; Bermudéz, 2005). Praktická diagnostika počítá s umírněnou intuicí a ospravedlňuje ji, protože obvykle scházejí empiricky odvozené predikční vzorce. Někteří obhajují intuitivní posuzování, protože jsou přesvědčení, že jejich kvalifikovaný odhad nejlépe vysvětluje chování klienta. Je to napadnutelný názor, který vyžaduje upřesnění a testování. Co považujeme za validní a pravdivé se může ukázat jako neplatné a falešné. Za druhé, naivní empirismus prohlašuje, že veškeré poznání je založeno na zkušenosti. Přestože lidé nemají při konfrontaci se stejným chováním shodné prožitky, „zkušenosti všech lidí“ se někdy považují za pravou zkušenost. To vede k „regresi do absurdna“, protože pravdivostní kritérium je zkušenost všech. Poznání není pravdivé proto, že ho všichni chápou a souhlasí s ním, a pravdivé poznání se nedosahuje prostřednictvím lidového plebiscitu. Mnohé koncepty však čerpají svůj obsah z okamžité zkušenosti, např. koncepty objektu, osoby a chování. Představují však jen jeden dílčí krok, který může posloužit jako inspirace pro vědecké koncepty. Logický pozitivismus je sofistikovanou formou empirismu. Je to tacitní filosofie mnohých učitelů behaviorální diagnostiky (Bunge, 1996). Ztělesňuje respekt k empirickým datům, využívání logických, vnitřně konzistentních a matematických formulací a potlačuje vágní teoretické konstrukce a interpretace. Říká se, že věda je přímý přístup k realitě (vědecký realismus); zde se navíc ověřuje logická forma výroků. Je možné kontrolovat, jestli výrok zastupuje zamýšlenou behaviorální realitu, protože se má za to, že konstrukty mohou popsat behaviorální svět takový, jaký „skutečně je“, odděleně od našich vjemů a očekávání. V této formě musí být metody podobné pro všechny vědce. Tato interpretace vztahu mezi teorií a behaviorální realitou je orientovaná na obsah, zdůrazňuje experimentální přístup a striktní metodologii. Preferuje formulaci apriorních konfliktních hypotéz, takže data „nutí“ podpořit jednu hypotézu na úkor jiné. Predikce je povinná a postdikce nepřípustná. Za třetí, v diagnostice je patrný pragmatismus. James (1907) propagoval pragmatismus jako flexibilní metodu; ne jako ucelenou teorii. Vystříhá se otázek bez odpovědí, jako např.: „je jenom jeden svět, nebo je jich víc?“, „jsou lidé svobodní, nebo ne?“. Neopragmatismus odmítá „fundacionalismus“, tj. jeden společný základ pro poznání a jednu epistemologii, která je oprávněna vysvětlovat, proč jsou výroky pravdivé nebo nepravdivé. Otázkou spíš zůstává, zda je v rámci sociální praxe rozdíl v tom, zda je pravdou to či ono. V diagnostice se tomu říká schopnosti predikovat a kontrolovat chování. Psychologie se tak oprošťuje od otázky „co je“ lidské chování, kognice a emoce a zdůrazňuje směřování – „kam to vede“. Tento vědecký instrumentalismus se snaží vyvinout intelektuální struktury, které by umožňovaly predikci chování. Soupeření neprobíhá mezi teoriemi, ale v rámci otevřeného přístupu k řešení problémů. Teorie se jako reprezentace chování a jejich vtahů považují za limitované a upřednostňují se srozumitelné, integrativní vzorce (Cacioppo et al., 2004). Za čtvrté je zde racionalismus, který do západní vědy zavedl filosof Descartes (16. století). Opírá se o názor, že v humanitních oborech a vědách není poznání možné bez vhledu, tj. bez teorie, systematické analýzy, koherentního zdůvodňování a konstruktů mysli. Akumulace empirických faktů nestačí; potřebuje racio, odůvodnění, snahu mysli organizovat, vysvětlit a pochopit. Jak již bylo zmíněno, lidé snadno a spontánně zacházejí za hranice svých okamžitých zkušeností a vytvářejí teorie. Existuje riziko, že racionální struktura je vůči realitě uplatňována tak, že realita jí „musí vyhovovat“, nebo že vytvořená teorie bude natolik široká, že jakýkoliv soubor faktů lze interpretovat v jejím rámci. Vyplývá z toho i možný zápas s iracionalitou, jednoduchým zdůvodňováním a používáním chabých a nahodilých důkazů. Právě tento přístup ovšem v našich učebnicích zdůrazňujeme.
15
Není zřejmě žádný důvod navrhovat hierarchický vztah mezi jednotlivými přístupy. Diagnostika není na žádném specifickém přístupu závislá. V diagnostické praxi jsou přítomny zpravidla prvky všech: racionalismus a empirismus jsou nevyhnutné při utváření teorie a výzkumech empirického posuzování; pragmatismus napomáhá držet se reálných otázek a hledání výsledků; umírněný intuicionismus přispívá k utváření teorií, konstruktů měření a navrhování položek a úkolů. Na této úrovni je každý diagnostik nevyhnutelně eklektikem a žádnou doktrínu ani přístup nemůže předem vyloučit. Druhý element systému zahrnuje operacionalizaci a měření. Síť behaviorálních konstruktů musí být vyjádřena v konkrétním, pozorovatelném chování (znaky), a pokud není, konstrukt je prázdný a nevyhovuje empirické analýze a testování. To je dáno již základní definicí operacionalizace. Někteří autoři se snaží tento realistický přístup „přelstít“ formálním strukturálním přístupem, např. někteří psychometrici zjišťují, jestli soubor položek, úkolů, nebo otázek dobře zapadá do struktury, ale váhají odpovědět na otázku, zda se týká inteligence nebo narcisismu: to ať si zodpoví každý sám. Zde ale rozpracováváme „realistický“ přístup. Obsah teorií a konstruktů může mít mnoho podob, sémantickou, formální, metaforickou, jen aby poskytl nepozorovatelným konstruktům (dispozicím, mentálním procesům, sociálním trendům) výsadu „skutečné“ existence. Aby se konstrukty empiricky realizovaly, musí být operacionalizované: je třeba identifikovat indikátory. Podobně lze chápat například fakt, že žádný systém přesvědčení, nebo dokonce náboženství nebude dávat žádný smysl, pokud nebude spojen s lidskými činy, zájmy a zapojením. Operacionalismus byl kritizován za to, že spíše utváří chování, namísto aby tvořil indikátory chování reálně existujícího, nebo proto, že specifický dílčí indikátor staví na roveň ve skutečnosti nepozorovatelnému konstruktu: „inteligence je to, co se měří tímhle testem inteligence“. Diagnostici jsou na tento druh kritiky citliví, ale zvládají ji pragmaticky. Uvědomili si, že konstrukt připouští mnoho odlišných indikátorů, které musí konvergovat, aby se přiblížily konstruktu, jakým může být např. inteligence, paměť, extraverze (Bunge, 1996; Bermúdez, 2005; Grace, 2001). Operacionalizace zahrnuje hypotézu o behaviorálním fenoménu, který je možné empiricky testovat. Empiricky zaměřený diagnostik uznává, že konvergentní operacionalismus je přijatelný prostředek pro tvorbu potenciálně validních závěrů o nepozorovatelném behaviorálním fenoménu z empirických dat. Výraz „znázornit a exemplifikovat“ vhodněji odráží, co má diagnostik na mysli. Nehledá jednu jedinou „základnu“ například pro inteligenci (což by činila struktura vytvořená striktním psychometrikem), ale chování, které „znázorní a exemplifikuje“ inteligentní chování. Z toho plyne, že selektuje chování, které vzhledem ke konstruktu vnímá jako „relevantní“ a „zajímavé“. Vyžaduje si to posouzení toho, co kdo skutečně vnímá jako důležité a co jako nepodstatné. Úspěch není zaručen. Galton (1869, 1893) například učinil nešťastnou volbu při operacionalizaci inteligence, ale dobrou volbu ohledně popisu distribuce chování v populaci. Binet a Simon (1905) měli více štěstí. Pokud je už jednou konstrukt operacionalizován prostřednictvím konkrétních behaviorálních znaků, je měřen, tj. popsán jako kategorie (DSM-III-R, MKN 10, vývojová stadia, typy osobnosti, pozorovatelné kategorie, kategorie systematických diagnostických pohovorů), jako škály (např. škály postojů, inteligenční a osobnostní škály, škály technicky definované teorií IRT, faktorová analýza atd.), nebo jako počet vektorů (např. mnohonásobná inteligence, teorie osobnostních faktorů). Existuje řada technik k odvozování těchto výsledků z položek: analýza kategoriálních dat, zahrnující klastrovou analýzu, analýzu latentních tříd; škálování a klasickou a moderní teorii testů, faktorovou analýzu; multivariační analýzu včetně analýzy rozptylu a mnohoúrovňové analýzy. Tyto způsoby analýzy nejsou zcela různorodé. Mnohé spočívají na inkluzívním obecném lineárním modelu (Mellenbergh, 1994). Zvyk převádět
16
nelineární funkce na lineární nevznikl proto, že by realita obsahovala hlavně lineární vztahy, ale z výpočetních důvodů. Vztah teorie a měření způsobil přetrvávající kontroverzi.
L. Guttman, psycholog, který se pokouší brát v potaz jak obsah, např. sémantický konstrukt, tak model měření, např. prostřednictvím své teorie faset.
Guttman (1971) se dokonce vyhýbá diskuzím o měření a teorii měření coby kritériím vědecké kvality, protože to brání komunikaci a představuje bariéru pokroku. Podle něj by úkolem teorie měření měla být formulace strukturních hypotéz, vyjádřených prostřednictvím zobrazujících výroků. Tenhle přístup je podrobně zpracován v rámci návrhu faset pro výstavbu testů. Dejme tomu, že někdo vytváří dotazník budoucí perspektivy definováním: za prvé rozsahu, jako „krátko- nebo dlouhodobého“, za druhé relevantních „objektů“, např. škola a profese, osobní rozvoj, sociální vztahy, volný čas. Položky odrážejí dvě fasety: čas a objekty. Navíc se v rámci komplexního výroku „mapují“ rovněž populace (např. mladí a staří), přístup (pozitivní, negativní) a afektivní, kognitivní a behaviorální reakce na objekty (Stouthard & Peetsma, 1999). Tuto strukturu je možné testovat konfirmační faktorovou analýzou nebo technikami strukturního modelování. Guttmanovým návrhem se jen zřídka někdo řídí a nedávno definoval Trendler (2009) měření tak přísně, že je v rámci posuzování neuskutečnitelné: měření vyžaduje kvantifikaci za kauzálně komplexních okolností. Z toho vyplývá, že s fenoménem lze manipulovat s využitím experimentálních technik jako ve fyzice. Protože však psychologické fenomény, jako je inteligence či extraverze, nejsou snadno manipulovatelné a ani kontrolovatelné v požadovaném rozsahu, nejsou podle Trendlera měřitelné. Vztah mezi kategorizací a škálováním je v současnosti poměrně úzký. DSM-IV je kategorizační systém, ale Watson (2005, str. 522) uvádí, že víme dost na to, abychom nahradili tento „racionální systém“ (sémantické, logické kategorie) nějakou „empiricky založenou strukturou, která odráží aktuální podobnosti mezi nemocemi“ a ve výsledku získali škály. De Boeck et al. (2005) vypracovali koncepci matematických (ne)podobností mezi oběma systémy. Odlišení mezi rozdíly stupňů a druhů (škálami a kategoriemi) není tak přesvědčivé. Dawson et al. (2006) analyzovali kvantitativní (škály) a kvalitativní (stadia) aspekty odpovídající kognitivnímu vývoji. Boom a ter Laak (2007) použili myšlenku přesahujících vln (na základové škále) ke studiu stadií (tj. kategorií, které sestávaly z rozličných pravidel, které děti používali k řešení balančního úkolu). Monografie APA od Schmidta et al. (2004) rovněž zdůrazňuje vzájemnou zaměnitelnost kategorií a škál. Zpráva je jasná: striktní oddělování mezi škálami a kategoriemi se poslední dobou vytrácí. Je to pozůstatek orientace psychologie na medicínu (viz blok 1.5). Blok 1.5: Je psychopatie jenom kategorií („taxonem“) nebo představuje chování složené z extrémů, anebo rozhodují cut-off skóry na množství dimenzí či faktorů?
17
Příklad toho, jak se někdo pokouší určit, jestli je chování kategorií („taxonem“) nebo dimenzí, najdeme ve studii Guaye et al. (2007). Ani pomocí sofistikovaných analýz Škály psychopatie – PCL (Psychopath Checklist) na 5408 vězních, ani prostřednictvím mnoha rozhovorů, které vedli, se jim nepodařilo nalézt podporu pro taxon „psychopat“ nebo pro dva subtypy této deviace. Data nevykazovala žádné vrcholy nebo shluky. Autoři navrhli, že psychopatie by mohla být popsána jako extrémy na čtyřech behaviorálních dimenzích, ale vyzývají k opatrnosti při interpretacích, protože celý postup by mohl být zkreslený právě vzhledem k dimenzionální interpretaci. Otázky ohledně počtu vektorů a tříd, kategorií, škál, faktorů, latentních rysů, jsou konceptuální, teoretické otázky. Odpovědí není výsledek explorační či dokonce konfirmační faktorové analýzy (Meehl, 1992; Fabrigar et al., 1999). Je naopak spojena s teorií, empirickými nálezy a dokonce s přesvědčeními. Příkladem prvního je Spearmanův dvoufaktorový model inteligence (obecný a specifický faktor) a Thurstoneova (1938) teorie sedmi základních mentálních schopností – PMA (Primary Mental Abilities). Druhou možnost ilustrují svou argumentací autoři Hofstee (2002), Muzek (2007) a Bäckström et al. (2009), když tvrdí, že položky osobnostního dotazníku Big Five představují zároveň jeden a víc osobnostních faktorů. Kontext se týká také manipulovatelných proměnných, na kterých se testuje kauzální vztah mezi nezávislou a závislou proměnnou. Operacionalizace nezávislé proměnné se vztahuje k manipulaci elementů (proměnných) v kontextu. Úspěch této manipulace se musí změřit a monitorovat. Operacionalizace závislé proměnné se někdy děje ad hoc, tj. často nebývají určeny psychometrické kvality závislých proměnných. Výsledky měření jsou nerovnoměrně rozdělené napříč teoretickými směry. Směr kladoucí důraz na individuální rozdíly obvykle vede k identifikaci dimenzí kvantitativního popisu osob, nebo typů či kategorií, do nichž jsou osoby zařazovány jako do tříd. Vývojově orientovaný směr upřednostňuje perspektivu reprezentativního chování v průběhu času. Často se zmiňují například stadia vývoje kognice nebo osobnosti. Kontextuální směr je charakterizován kategorizací a definováním dimenzí existujících fyzických a sociálních kontextů. O smyslu pro praktičnost diagnostiků vypovídá jejich schopnost pragmaticky uchopit problém měření. Jednoduše potřebují kategorie k popisu klientů, např. DSM-IV nebo osobnostní typy. Klíčovým rysem dobré kategorizace je možnost začlenit chování do jedné kategorie takovým způsobem, že je oddělené od jakékoliv jiné kategorie. Kategorie není jen prázdné slovo, je nezbytné doložit pro ni empirické důkazy. Diagnostici potřebují k popisu klientů rovněž ordinální a intervalové škály. Faktorová analýza a klasická i moderní teorie testů (CTT a IRT) pomáhají při analýze struktury (např. jednodimenzionality) a obsahu (např. rychlost percepce) chování. Myšlenka množství vektorů se váže k Thorndikeovu konceptu „vektorů mysli“. Využívá se také v multifázových osobnostních dotaznících (např. MMPI a Big Five). Můžeme přidat teorii zobecnitelnosti Cronbacha et al. (1970). Jejich analýza testových skórů obsahuje „vektory“ času, místa, položek a okolností testování. Ve výzkumu se tato teorie objevuje jen sporadicky, možná proto, že vyžaduje příliš mnoho empirické práce. Diagnostik se pragmaticky staví rovněž ke kontroverzi popsané Guttmanem (1971) a Trendlem (2009). Otázka měření není pouze záležitost možností a elegance matematických struktur a experimentů, ale také schopnost reprezentovat reálné, konkrétní chování a sémanticky interpretovat odhadovanou strukturu. Musí nakonec poskytnout popis a predikci chování klienta. Shrnutí 1.4 18
Teorie jsou sítě konstruktů, které mají reprezentovat skutečné chování, nebo jsou nástroji k predikci chování. Pro zobrazení vztahu mezi konstruktem a reálným světem chování jsou popsány čtyři přístupy. Diagnostici s nimi oprávněně nakládají eklekticky. Jsou tedy jednak skromnými intuitivci v posuzování svého jedinečného klienta, částečně z přesvědčení, částečně proto, že nejsou dostupná žádná empirická data; jednak respektují empirická data více než pouhé spekulace: „co vidíš, to dostaneš“. Součástí jejich práce s klientem je rovněž pragmatická epistemologie, která preferuje nástroje s prediktivní hodnotou. Dále také akceptují racionalistické požadavky na analýzu a koherenci svého posuzování. Konstrukty se setkávají s realitou chování prostřednictvím operacionalizace. Operacionismus bývá kritizován za to, že chování utváří místo toho, aby ho pokrýval nebo objevoval. Diagnostik vnímá tyto komentáře citlivě, ale připouští vícenásobné konvergující operacionalizace jako smysluplné indikátory chování, které se dají empiricky testovat a jsou přínosné pro řešení klientových otázek. Měření je postup kontroverzní, protože v psychologické diagnostice se požadavky na plnou manipulativnost a kontrolovatelnost nedají splnit tak, jako je tomu např. ve fyzice. Nikdo nemůže záměrně pozměňovat hodnoty konstruktu. V diagnostice to však není nezbytné. Dobře definované kategorie (DSM, vývojová stadia, kategorie odvozené ze systematických rozhovorů), ordinální a intervalové škály (inteligenční a osobnostní škály) a množství vektorů (vícenásobné inteligenční a osobnostní testy, dotazníky) jsou přínosné pro popis, pochopení a predikci klientova chování. Tři výsledné produkty měření jsou přítomné bez ohledu na konkrétní orientaci. 1.5 Nástroje: postupy, testy a dotazníky Z teoretických konstruktů a jejich měření se postupně stávají procesy k posuzování zamýšleného chování. Ačkoli jsou všechny možné postupy k reprezentování chování v podstatě vhodné k popisu, predikci a vysvětlení klientova chování, dominujícím prvkem posuzování jsou testy a dotazníky. Psychologický test nebo dotazník je: …systematický proces používaný ke klasifikaci nebo měření chování, díky kterému je možné vyslovit tvrzení o teoreticky ukotveném atributu subjektů nebo o specifickém netestovém chování (např. kriteriální chování) za pomoci objektivně posouzených reakcí subjektů na konkrétní množství pečlivě vybraných položek. Tyto reakce jsou interpretovány porovnáváním skóru subjektů s výsledky reprezentativního výběrového souboru, nebo v rámci pozorování jednoho subjektu v průběhu času a událostí. Testy a dotazníky mohou být klasifikovány několika způsoby; rozlišují se čtyři typy, u kterých dominují odlišné charakteristiky: Typický versus maximální výkon. Testy „tužka – papír“ versus materiály, objekty. Komplexní schémata. Typ úkolu, vícenásobná volba nebo otevřené otázky. Princip typického vs. maximálního výkonu se využívá dodnes. Druhý jmenovaný typ metod se vztahuje k úkolům, u nichž existuje odpověď, kterou je možné ohodnotit jako správnou nebo chybnou. Subjekt nevyjadřuje svůj názor. Inteligenční a výkonové testy jsou příkladem maximálního výkonu. Naproti tomu v sebeposuzovacích dotaznících subjekty uvádějí, co si myslí, vyjadřují svůj názor, takže v nich žádné chybné odpovědi nejsou. Druhá dichotomie se vztahuje k použitým materiálům. Mnohé testy a dotazníky vyžadují, aby klient odpovídal na archy, např. osobnostní dotazník, nebo inteligenční či výkonový test. 19
K jiným testům je zapotřebí testových materiálů, jako třeba ve Wechslerových testech inteligence (např. stavění vzoru z kostek). Za třetí, ke kategorizaci testů a dotazníků existují komplexní schémata. Tři nadřazené kategorie jsou, např. (a) testy osoba-situace, (b) osobnostní testy a (c) situační testy. Kategorie (a) je dál rozdělena na situace, schopnosti a domény, jakými jsou kognice, pozornost, percepce, emoce, potřeby, hodnoty a motivace. Kategorie (b) se pak dělí na schopnosti, postoje a domény. Kategorie (c) obsahuje několik situací, např. rodinnou, pracovní. Za čtvrté, za výchozí bod si můžeme zvolit tu nejmenší jednotku testů a dotazníků – položku. Jsou tu vícenásobné odpovědi a otevřené otázky; odpověď může být nespojitá (ano, ne), anebo kontinuální, např. odpovídací čas. Při konstrukci testů rozlišujeme racionální a empirické procesy. V racionální strategii se začíná konceptuální analýzou např. inteligence nebo extraverze. Tato analýza napomáhá při formulaci položek. Konkrétním příkladem této strategie je Guttmanova analýza faset (1978). Koncept se rozvíjí, např. v subkonceptech a situacích a pro každý (subkontext či situaci) jsou formulovány položky. Příkladem je dotazník budoucí perspektivy od autorů Stoutharda a Peetsmy (1999). Autoři formulovali 48 položek pro dvě fasety: čas: nyní a v budoucnu, a obsah: pracovní a sociální vztahy. Strukturu faset zkoumali s pomocí konfirmační faktorové analýzy výběrového souboru 517 studentů prvního ročníku univerzity. Empirická strategie se týká postupu při výběru položek. Součástí nástroje se stanou pouze ty položky, které mohou rozlišit mezi skupinami, pro které byl nástroj vyvinut. To znamená, že pokud např. v položce „rád rybařím“ skórují jinak psychologové a inženýři, pak má položka význam v testu na rozlišení těchto dvou skupin. V praxi se používají kombinace obou strategií. Způsob vyplňování testu je předepsán v manuálu testu nebo dotazníku. Metoda musí být „standardizovaná“, aby bylo možné porovnávat subjekty. Existuje několik výjimek: v adaptivním testování se diagnostik snaží testovat limity subjektu používáním předepsaných sérií náznaků, určených pro pomoc subjektu. Poslední dva postupy se příliš často nevyužívají. Skórování reakcí na úkoly, otázky nebo položky musí být přesně vymezené. Interpretace výsledků subjektů se provádí s pomocí normových tabulek, určených v reprezentativních vzorcích. Těmto testům se říká „normativně zakotvené“. Je rovněž možné interpretovat testový skór subjektu ve světle předepsaného kritéria, např. 80% položek musí být zodpovězeno správně. Tyto testy se nazývají „kriteriálně zakotvené“ a jsou spolu s dalšími využívány ve školství. Současný vývoj v oblasti tvorby testů je ovlivněn teorií odpovědi na položku (IRT). Pokud je odhad hodnoty latentního rysu subjektu nezávislý na skupině a na položkách, pak jsou normativně určené testy nadbytečné. Důraz na testy a dotazníky je zčásti důsledkem úsilí o objektivitu, tj. o objektivní skórování odpovědí klienta. I když se jedná o značně omezené pojetí objektivity, v diagnostice má svůj smysl. Shrnutí 1.5 Třetím prvkem systému jsou testy, dotazníky a další diagnostické postupy, nebo obecně měřicí nástroje. Testem se rozumí systematický postup měření, týkající se klientova chování, který pracuje s objektivně skórovanými odpověďmi na pečlivě vybrané úkoly a otázky (položky). Nástroje, testy a dotazníky mohou mít různou podobu: zaměřují se na maximální nebo typický výkon, mohou mít formu „tužka-papír“ nebo manipulace s materiály, zahrnují komplexní schémata nebo se soustřeďují na jednotlivé domény, které se budou testovat: osoba, situace, osoba x situace, výsledky mohou být nespojité (dichotomické: správná nebo nesprávná odpověď) nebo spojité (např. reakční čas). Při konstrukci testů a dotazníků rozlišujeme racionální, empirickou a smíšenou strategii. V první má přednost analýza teoretických konstruktů, např. použití fasetové analýzy. V druhé postačí signifikantní rozdíl skórů položek 20
u dvou nebo více cílových skupin. Jádro diagnostiky představují právě testy a dotazníky. Postupy při skórování testů jsou rozpracovány v rámci teorie testů. 1.6 Diagnostický proces Prvky systému nacházejí využití při analýze diagnostického procesu. Diagnostik s nimi může zacházet jako „skladatel“ nebo jako „dirigent“. Vybírá si, když analyzuje otázku, aplikuje teoretické a empirické poznatky o žádoucím či nežádoucím chování klienta, když shromažďuje informace o proměnných individuálních rozdílů, vývoji a sociálním kontextu klienta. Je to postup zaměřený na cíl, který nemá předem danou jasnou cestu. Existují však striktní pravidla, jak tento proces vést s minimálními chybami a omyly. Patří k nim i model testování hypotéz – HTM (Hypothesis Testing Model), převzatý z experimentálního výzkumu. Testování hypotéz zahrnuje vyjádření o populačním parametru (Kirk, 1968), například, že μ1 = μ2. Při posuzování konkrétního klienta se však žádné parametry neodhadují. Diagnostika je něčím více než jen prováděním experimentů a testováním statistických hypotéz. Je zároveň interakcí, jakýmsi sociálním systémem s kritérii „spravedlnosti“, podobnými těm, které analogicky popsal Rawls (1971) pro instituce. Nelze opomíjet navýsost dynamickou povahu interakce mezi diagnostikem a klientem. Diagnostik není pouze mechanicky postupujícím úředníkem a klient není jen experimentálním subjektem. Oba jsou lidmi s vlastními schopnostmi a typickým chováním. Definice problému a analýza otázky jsou kreativním procesem a je nemožné, jak uvedl Tallent (1992), popsat protokol, který by mohl sloužit kterémukoli diagnostikovi (a klientovi) a ve výsledku by vedl ke stejné léčbě a radě pro konkrétního klienta. Diagnostický proces zahrnuje i momentální nápady, vznikající zčásti jako důsledek přirozené interakce. Shrnutí 1.6 Diagnostický proces lze popsat na základě prvků systému. Není to však popis vyčerpávající, neboť tento proces zahrnuje také aktivitu diagnostika, který formuluje jádro problému klienta vědeckou terminologií a plánuje vyšetření podle pravidel. Proces je rovněž sociální systém. Posuzovatel a klient v něm spolu interagují a komunikují. Modelování postupu, podobně jako testování hypotéz, nic neubírá na faktu, že jsou ve hře požadavky na spravedlnost. Často využívané plánování procesu se řídí pravidly testování hypotéz podobně jako v experimentech, při diagnostice konkrétního klienta se však striktně vzato žádné hypotézy netestují. 1.7 V čem spočívá diagnostika a analýza otázek klienta? Popis diagnostiky může znít takto: je to systémová, otevřená, nedeterministická, předem neurčená aktivita ukotvená v poznatkové základně sociálních věd, zejména psychologie, tj. jejích disciplín, metod a nástrojů. Zmíněná otevřenost neznamená libovůli či neorganizovanost. Jde spíše o to, že umožňuje diagnostikovi vyšetřovat a ověřovat idiografické hypotézy o (ne)žádoucím chování klienta na základě tří zdrojů psychologického utváření teorie (implicitního, explicitního a alternativního) a trojice teoretických orientací (individuálních rozdílů, vývoje a kontextu). Abychom se dotkli skutečného chování klienta, je třeba, aby operacionalizace a měření vyústily do kategorií, škál nebo množství vektorů, které popisují a/nebo vysvětlují klientovo chování a připravovanou intervenci. Otevřený charakter psychologie pro diagnostika znamená, že eklekticky využívá konstrukty, měření a nástroje, potřebné pro svého klienta s ohledem na úroveň jeho individuálních rozdílů, nástrojů, úroveň vývoje a jeho místo v sociálním kontextu. Diagnostik má k dispozici spolehlivé a platné nástroje, které mu pomáhají určit klientovo chování. Interakce mezi diagnostikem a klientem je součástí posuzování a odehrává se v jeho průběhu. Tento proces 21
tak není ani kompletně založený na předpisech, tj. uzavřený, ani zcela otevřený. Jde o postupný proces s pevně danými součástmi, které diagnostik vykonává flexibilně, vědom si předpisů, které mu pomáhají tento proces strukturovat, a jejich použitelnosti při diagnostikování konkrétního klienta. Shrnutí 1.7 Diagnostika je otevřená, ne však libovolná či neorganizovaná aktivita. Ačkoli nemá žádný formální a materiální objekt, usměrňují ji zdroje a směry psychologického utváření teorie i operacionalizace a měření přítomnosti, absence nebo rozsahu určitého chování. Nástroje představují vhodnou pomůcku k tomu, abychom zjistili, jak analyzovat klientův problém za pomoci určitých předepsaných kroků. 1.8 Komentáře a zhodnocení Položíme-li si otázku, „čeho všeho“ se diagnostika týká, musíme odpovědět, že „čehokoli“, tj. chování, kognice, cítění, situace a dokonce i fyzických fenoménů a objektů. Základní taxonomie chování je užitečná v tom, že se s její pomocí můžeme vyhnout svévolným vstupům a dominanci módních postupů. Posuzovatel vítá začátek, obsahující neutrálně definované rozdělení chování na žádoucí, obávané a takové, jakým se vyznačují osoby, které potřebují pomoc. Diagnostika se zcela zřejmě vztahuje k chování klienta, ale co je chování? První a v současnosti nejrozšířenější definice podle přehledu 26 psychologických slovníků podle Bergnera (2011) zní: „jakýkoliv pozorovatelný zřetelný pohyb organismu, který obecně zahrnuje verbální chování stejně jako fyzický pohyb“ (str. 147). Diagnostik se však s uvedenou definicí nespokojí, podle něj chování není jenom pozorovatelná fyzická aktivita. Jak odlišíme pohyb ruky, která zdraví, od té, která volí či někomu vyhrožuje? Diagnostik raději popíše klientovo chování jako snahu o přivedení věcí z nějakého stavu do jiného, např. pozdrav nebo volbu (Ossorio, 2006). Snadněji si lze představit úspěch ve škole, změnu nepříznivých podmínek nebo redukci úzkosti. Takový popis se opírá o logiku diagnostiky, klientovo chování pak považujeme za empirický fenomén zastřešený koncepty, jako je tomu u inteligence, osobnostních rysů atd. Bergner nesouhlasí s žádnou z obou definic a navrhuje třetí, která zahrnuje osm parametrů. Tento způsob zvolil proto, že je s úspěchem využíván ve fyzice. Například barva je definována třemi parametry: odstínem, sytostí a jasem. Pro chování je prvním parametrem identita. Ta v tomto textu znamená klientovo „vlastní“ chování. Druhým je chtění, stav věcí, jakého by klient rád dosáhl, např. chce se stát lékařem. Třetím je kognitivní parametr. Kdo to je lékař, jak se liší od sestry, psychologa atd. Čtvrtým je know-how, tj. dovednost nebo kompetenční parametr; každé chování zde a nyní reflektuje širší kompetenci nebo dovednost od studia textu po použití lékárničky či poskytnutí první pomoci. Pátým je výkon, který se váže k procesu a procedurálním aspektům zahrnutým v chování, které je možné popsat od molekulárního k molárnímu. Pro posuzování a analýzu klientovy otázky je třeba zvolit vhodnou úroveň a domény. V našem textu klademe důraz na klientovu osobnost, inteligenci a sociální kontext, a ne už tolik na DNA, genetické vybavení, EEG, evokované potenciály apod. Upřednostňujeme molární jednotky, které jsou diagnostikům známé. Šestým parametrem je úspěch. Je to výsledek, produkt, např. klient složí zkoušku. Sedmým je profil osobních charakteristik klienta. V diagnostice se věnuje velká pozornost individuálním rozdílům v charakteristikách osobnosti, v inteligenci, motivaci a postojích, aby bylo možné popisovat, predikovat, kontrolovat a rozhodovat. Osmým parametrem je významnost chování vzhledem k cíli a sociálnímu kontextu klienta. Těmito parametry se zabývá druhý díl této knihy4.
4
V originále je kniha koncipována jako jeden souvislý celek, české vydání je rozděleno do dvou dílů. 22
Bergnerova definice je komplexnější než první zmíněná: pozorovatelná fyzická aktivita, umožňuje vyjádření známých všedních skutečností, popisuje chování, myšlenky, motivy a postoje. Zahrnuje rovněž mentální akty, k nimž patří plánování, řešení problémů a kalkulace. Konečně, chování je smysluplné a účelné, tj. může být interpretováno a setkat se s pochopením ze strany klienta i jeho sociálního okolí. Bergnerova definice je oproti prvním dvěma popisnější a kompletnější. Zahrnuje několik interpretačních rovin a významů chování, které se obvykle tříští mezi psychologickými disciplínami. S jeho tvrzením, že první definice (fyzická aktivita) se týká příliš malé části lidského chování, se patrně ztotožní většina diagnostiků. Argument, že druhá definice, která pracuje s významem konceptů tak, jako to diagnostici činí s inteligencí a osobností, není vhodná k popisu chování, je přijatelný jen částečně. Konceptuální definice chování není tak jasná jako u šachu, ale pomáhá definovat zajímavé a smysluplné fasety chování. Konceptům se říká „Funktionierende Begriffe“5, tj. jejich význam není plně determinován, ale roste v analýze a empirickém výzkumu. Některé jeho „parametry“ vykazují „afinitu“ s koncepty individuálních rozdílů. Parametrická definice fyzického fenoménu zůstává nadále přitažlivá pro akademické psychology, ale chování nelze jednou provždy zachytit parametry, jakými jsou fyzikální fenomény, např. barva. Tím, „o koho“ se jedná v první řadě, je klient, a proto je diagnostika zejména studií n = 1. Kategorizace, predikce a vysvětlení musí být validní na individuální úrovni. Rozumné je přijímat od klienta zpětnou vazbu a diagnostiku tak validizovat. Mnohem častěji ale validizace probíhá pomocí analýzy statisticky významných vztahů na úrovni výběru. Ty ukazují, že predikce a kontrola dosáhly svých limitů (5 % až 25 % vysvětleného rozptylu). Uvádíme čtyři příklady: Meyer et al. (2001) provedli rozsáhlou metastudii zahrnující 125 jiných metastudií. Ukazuje se, že korelace behaviorálních a biologických prediktorů chování je M = 0,31 (SD = 0,19). Druhým z nich je studie Poropata (2009), která ukazuje, že nástroje Big Five a inteligence predikují akademický úspěch slabě (Cohen, 1988). Hodnoty „r“ se liší od -0,01 do 0,23 od primární po terciární úroveň vzdělání. Za třetí, predikce úspěchu a pracovního výkonu vykazují korelace mezi 0,12 a 0,62 (Schmidt & Hunter, 1998). Za čtvrté, Yang et al. (2010) provedli metaanalytické srovnání osmi nástrojů predikujících násilné projevy. Nástroje předpovídaly násilí na srovnatelně nízké úrovni prediktivní účinnosti. Tyto údaje se pravděpodobně v blízké budoucnosti nezmění a zavádění biologických, neurologických a fyziologických proměnných prediktivní validitu nezvýší (Uttal, 2002). Otázka „jak“ diagnostiku provozovat se týká postupů, kterými získáváme diagnostické informace o klientově chování. Možných způsobů je více, k nejčastějším však patří testy a dotazníky, protože jsou efektivní a „objektivní“, tj. disponují objektivním systémem skórování. Objektivita může být interpretována široce jako spravedlnost vůči objektu, tj. klientovi. To umožňuje pozorování, dotazování a formulaci závěrů z pozorování. Otázka „kdy“ diagnostikovat bývá často vyvolávána momentálními, znepokojenými ad hoc úvahami jednotlivců, společností a správních rad. To však zvyšuje riziko, že výsledkem budou spíše „dobré zprávy“ namísto vyváženého úsudku. Mezi důvody „proč“ diagnostikovat bývá uváděn rozdíl mezi „my“ a „oni“, hodnotící soudy a výběr. Jsou mocné, ale vyžadují kritickou reflexi. Někdo se může ptát, zda diagnostika není jen důsledkem pragmatického a neoliberálního směřování k vytvoření „co nejlepšího světa pro tolik lidí, pro kolik jen bude možné.“ Rozdělení na „my-oni“ je patrné ve snahách o posuzování patologie v inteligenci a osobnosti u specifických skupin, obvykle s nízkým socioekonomickým statusem, u menšin, ale v budoucnu zřejmě dokonce i v bankovním sektoru a u výkonných ředitelů firem. Výběr se považuje za racionální a objektivní. Předpokládá se, že přináší vyšší šance na úspěch, to je však potřeba stále dokola empiricky 5
„funkční pojmy“ – pozn. překl. 23
ověřovat. Není jednoduché ani přínosné rozlišit jednou provždy racionální od iracionálního, jak uvádí Dawes (1994, 2000), nebo vědecké od nevědeckého a explicitní teorii od teorie implicitní a alternativní (Gigerenzer, 2008). Systematická definice respektuje fakt, že diagnostice vlastně chybí materiální a formální objekt. V důsledku toho je otevřená pro psychologii a ostatní sociální vědy jako nositele vědomostí, zahrnující implicitní, explicitní a alternativní teorie, metody a nástroje k posuzování individuálních rozdílů, vývoje a sociálního kontextu. Jakýkoli systém nese riziko reifikace, tedy přisuzování materiální existence, tj. předstírání, že systém je reálný, a že mimo něj nic není. Na druhé straně nabízí systém diagnostikům schéma k analyzování klientovy otázky. Připomíná, že každý problém nebo otázku je možné analyzovat ze tří nearbitrárních perspektiv: individuálních rozdílů, vývoje a sociálního (fyzického) kontextu. Koncepty jsou však ve vědě potřebné. Vědec začíná s koncepty, které jsou intuitivně přijatelné a neohrožují naši lingvistickou intuici, že chování je koherentní a smysluplné. Tyto koncepty musí být navíc použitelné pro predikci, kontrolu a rozhodování. Teoretické konstrukty jsou formulace stavu věcí, vztahů a příčin, které je možné testovat, pokud reprezentují realitu. Konstrukty potřebují mít kontakt s realitou a musí popisovat smysluplné vztahy se zajímavým a relevantním kriteriálním chováním. Tento kontakt se odehrává prostřednictvím vícenásobných operacionalizací a měření. Empirická realita potřebuje teoretické konstrukty k reflexi, interpretaci a integraci empirických dat. Tři produkty měření jsou kategorie, škály a množství vektorů, které vedou k instrumentům, zejména testům a dotazníkům. Psychologické měření není měření ve fyzice a není ani potřeba, aby na něj byly kladeny požadavky fyziky nebo aby imitovalo tvrdou vědu. Výsledky psychologického měření poskytují smysluplné interpretace. Proces posuzování je částečně sociálním systémem posuzovatele a klienta. Nelze opomíjet specifika práce při n = 1, ani dynamickou povahu interakce mezi odborníkem a klientem. Preskriptivní modely, převzaté z logiky a statistiky, minimalizují logické a statistické chyby. Ani ony však nemohou odstranit individuální rozdíly mezi diagnostiky. Ti se totiž také vyvíjejí, a to jak v rámci diagnostického procesu (mikrogeneze, aktuální geneze), tak v rámci své kariéry (profesní geneze, ontogeneze). Bylo by naivní předpokládat, že výcvik eliminuje individuální rozdíly mezi posuzovateli nebo že během krátkého kurzu zásadně urychlí vývoj. A stejně naivní by bylo myslet si, že diagnostik bude následovat striktní a komplexní protokoly, např. HTM (Groenier et al., 2008). Persons (2005) nazývá „špinavou tajnůstkou“ kognitivně behaviorálních terapeutů to, že zřídkakdy používají protokoly, které mají svůj původ právě v jejich směru. Raději využívají smíšené metody s empirickým ověřením, zda jsou jejich domněnky o příčinách a důvodech klientova nežádoucího chování platné a zda jejich péče pomáhá toto chování měnit. Ke všemu chybí empirický výzkum, který by dokázal, že protokoly přinášejí pozitiva a méně negativ a falešných výsledků, než „spontánně“ volené postupy péče. Diagnostický proces n = 1 umožňuje bayesovský přístup, který umožňuje testovat komplexní hypotézy o konkrétním chování klienta (Hoijtink et al., 2008; Van der Schoot, 2010). Takový přístup může počítat s dynamickou a adaptivní podstatou tohoto procesu. Psychologická poznatková základna se často definuje jako soubor efektivních příčin, prokázaných experimenty a kvazi-experimenty jako významné vztahy mezi proměnnými a jako volba, která maximalizuje požadované výsledky. Je to, jak popisuje Rodgers (2010), mechanistická perspektiva výzkumu. Jeho názor může být oprávněný, ale výzkumným časopisům stále dominuje testování významnosti nulových hypotéz. V diagnostice je formulace případové studie snahou o modelování klientova (ne)žádoucího chování. Nevyužívá se příliš často, protože takováto formulace bývá subjektivní a má jen omezenou zobecnitelnost.
24
Doporučuje se, aby byl diagnostik zdravě a rozvážně eklektický, s otevřenou myslí, profesionál, který však potřebuje mít štěstí při operacionalizaci, definování problémů, výběru způsobu shromažďování informací i při testování hypotéz. Diagnostika je „něco mezi“ disciplínami sociálních věd, postupy měření a modelování a způsobem instrumentace. Diagnostici nejsou soběstační, a proto potřebují vhledy teoretiků, psychometriků, statistiků a tvůrců testů. Zdroje utváření teorie jsou v diagnostice hodnoceny nerovnoměrně. Prominentní jsou oblasti explicitních zdrojů a zvláště individuálních rozdílů, kde dochází k bujení velkého množství konstruktů. Množství popsaných rysů osobnosti a aspektů inteligence narůstá, i když empirický výzkum prokazuje značnou část společného rozptylu v různých nástrojích. Někomu se může zdát, že psychometrici rádi zastavují tento „sémantický festival“ zaměřením se na formální strukturu. Problémem však zůstává, že i tato struktura musí reprezentovat psychologickou, behaviorální realitu. Diskusím o kvalitě diagnostiky mohou začít snadno dominovat témata měření a modelování, příslušní specialisté, tedy psychometrici a statistici, se ale zdají být novoplatonisty naší doby. Naráží na nejednoznačnou každodenní behaviorální realitu, stíny v Platonově známé jeskynní alegorii. Mohou se odvolávat na slabé korelace a účinky, které jsou pouze stínem dokonalých korelací 1.00 a perfektních vysvětlení 100 % rozptylu. Oblasti nástrojů vévodí testy a dotazníky. Jedná se o efektivní postupy, ale celá oblast se jednostranně orientuje na self-reporty a jednoduché úkoly. Vazire a Carlson (2011) ukázali, že rysy jako hovornost (dobře pozorovatelná, málo hodnotící) a inteligence (špatně pozorovatelná, vysoce hodnotící) jsou mnohem přesněji vnímány významnými blízkými osobami (kamarády), než subjektem samotným. Diagnostika může být disciplinovaná do té míry, do jaké je psychologie souborem solidních teorií a metod. Diagnostici věnovali mnoho úsilí obraně vědecké úrovně svých aktivit. V tomto ohledu se odchylují od výzkumníků, byť jsou rovněž konfrontováni s nacházením problému a jeho definováním. Možná, že se sociální struktury v obou oblastech odlišují více, než jejich věcné otázky. Koncepty a termíny v kapitole 1: CO JE PSYCHOLOGICKÁ DIAGNOSTIKA? Posuzovací reflex, selekční reflex, reflex „my a oni“ Popis, predikce, kontrola, rozhodování Materiální a formální objekt diagnostiky Zdroje utváření teorie: implicitní, explicitní, alternativní Vztah zdrojů utváření teorie Směry utváření teorie: individuální rozdíly, vývoj, sociální kontext Vztah směrů utváření teorie „Hybridy“ dvou směrů Homotypická a heterotypická kontinuita Experimentální a korelační disciplíny empirické psychologie Epistemologické přístupy k diagnostice: intuicionismus, empirismus, pragmatismus, racionalismus Vztah mezi intuicionismem, empirismem, pragmatismem a racionalismem Operacionalizace a měření Výsledné produkty měření: kategorie, škály, vektory Vztah produktů měření Definice testu a dotazníku Způsoby konstrukce testů a dotazníků Pravidla testování Diagnostický proces jako sociální interakce 25
Kroky diagnostického procesu Model testování hypotéz – HTM (Hypothesis Testing Model) v diagnostice
26
2. DIAGNOSTIKA A TEORIE TESTŮ Teorie testů a psychometrika se zaměřuje na otázky skórování testů a na teoretické konstrukty, definované jako latentní rysy. Klasická teorie testů se snaží o zajištění kvality celkových skórů vypočtených z určitého počtu položek odhadováním chyb měření. Moderní teorie testů, resp. teorie odpovědi na položku – IRT (Item Response Theory) je zaměřena na kvalitu položek a na vztah položky k úrovní latentního rysu, např. verbální schopnosti nebo extraverze. Lze ji využít i k reprezentaci vývoje chování a k zobrazení účinku manipulace sociálního kontextu. Potřebuje diagnostik teorii testů? Je jeho role omezena jen na poskytování informací o psychometrické kvalitě nástrojů? Jsou tyto vlastnosti známy pro všechny postupy a ne jen pro testy a dotazníky? 2.1 Proč se v diagnostice zatěžovat s teorií testů a psychometrikou? Testy a dotazníky jsou často využívanými nástroji, za což vděčí své efektivitě a objektivitě skórování. Následkem je však nižší míra využití jiných diagnostických postupů, jako je rozhovor, pozorování, analýza dokumentů a konzultace s třetími osobami. Testy sestávají z úkolů a otázek (položek), které by měly reliabilně a validně reprezentovat behaviorální charakteristiky nebo teoretické atributy. Za reprezentaci atributu lze považovat počet správných odpovědí na určité množství položek. Tento názor však není obecně přijímán, protože uvedené číslo obsahuje také chyby měření. V klasické teorii testů (CTT) a moderní teorii testů (IRT) se předpokládá, že chyby měření jsou nevyhnutelné a je třeba je odhadovat. Další komplikaci představuje fakt, že nelze bezprostředně určit, zda se skór skutečně vztahuje k psychologické charakteristice nebo atributu, který chceme měřit. Pokud se předpokládá, že výsledek skórování je zatížen chybou, je potřeba podniknout opatření k odstranění nebo kontrole chyb. CTT zahrnuje postupy k odhadování chyb a k hledání důkazů o tom, že je měřen právě zamýšlený atribut. Ze stejného důvodu IRT navrhuje model pro atribut a pokud konkrétní položka tomuto modelu vyhovuje, je přijat závěr, že reflektuje jednodimenzionální rys nebo atribut. Protože lidé jsou nevyzpytatelní, adaptují se a žijí v dynamických kontextech, je úplná eliminace chyb měření prakticky nemožná. Proto je nutné chyby měření odhadovat, tzn. je třeba stanovit reliabilitu testu. CTT je založena na myšlence, že je možné z pozorovaného skóru odhadnout „pravý“ nebo „očekávaný“ skór. IRT pracuje s položkami a odhaduje intervaly spolehlivosti položek. Určuje šanci nebo pravděpodobnost správné odpovědi na položku u osob s danou úrovní latentního rysu, jakým může být verbální schopnost, numerická schopnost, neuroticismus apod. Někteří psychometrici odkládají, nebo dokonce odmítají sémantickou interpretaci latentního rysu a zaměřují se pouze na strukturu, tj. na důkaz, že se jedná o jednodimenzionální škálu. IRT je populárním přístupem k měření v oblasti vzdělání, ale může být rovněž využita k popisu vývoje na pořadových vývojových škálách (Bond & Fox, 2001). V diagnostice se teorii testů nevyhneme. Diagnostik nicméně není psychometrikem, byť psychometrické postupy potřebuje k odhadování reliability testů a položek a doložení, že měří zamýšlené behaviorální charakteristiky. Shrnutí 2.1 Diagnostici často používají testy a dotazníky. Testové skóry nejsou bezchybné. Klasická teorie testů (CTT) zahrnuje soubor předpokladů o celkovém skóru položek a postupy, které umožňují odhadovat pravé nebo očekávané skóry a určovat reliabilitu testu. Moderní teorie testů, resp. teorie odpovědi na položku (IRT) pracuje se souborem funkcí, které reprezentují šanci správné odpovědi na položku. Osoba je charakterizována úrovní latentního rysu nebo teoretického atributu. Věcně se položka vztahuje k úkolu nebo otázce, kterou může subjekt 27
vyřešit nebo zodpovědět a kterou lze skórovat jako úspěch–neúspěch, ano–ne, nebo počtem bodů na škále. Pro diagnostiky je teorie testů zdrojem informací o psychometrických kvalitách testů a dotazníků. 2.2 Klasická teorie testů – CTT (Classical Test Theory) V klasické teorii testů představuje testový skór součet skórů jednotlivých položek. Máme zájem o informaci, do jaké míry tento součet umožňuje bezchybný odhad určitého cílového chování. Je pozorovaný skór spolehlivý a je výrazem behaviorálních charakteristik, jako např. inteligence, numerických schopností nebo svědomitosti? Každé měření zahrnuje chybu, a proto je nutné pevně uchopit rozsah chyby vytvářením odhadu chybové komponenty měření. Tyto chyby mohou být systematické nebo náhodné. Systematické chyby mohou být korigované nebo neutralizované. Náhodným chybám nelze předcházet, proto má smysl tyto chyby odhadovat. Umožní nám to definovat rozsah, v jehož rámci se s pravděpodobností dejme tomu 95 % nachází pravý skór dané osoby. V modelu CTT je myšlenka odhadování chyb postavena následovně: pozorovaný skór osoby je složen ze součtu stabilní, pravé části a měnící se, flexibilní, nahodilé části, tj. chyby měření. 1.1.1 Xj = Tj + Ej Pozorovaný skór (X) osoby j (Jakub) je součtem skutečné části (T) Jakubova skóru a měnící se části (E), chyby Jakubova skóru. Jak si představit Tj, co je to? Je to stabilní, neznámá, nedeterminovaná hodnota osoby j, kterou není možné přímo pozorovat či měřit. V zamýšleném experimentu si můžeme představit, že měříme j (Jakuba) mnohokrát (teoreticky dokonce nekonečně mnohokrát) a takovým způsobem, že předešlá měření nezanechávají vůbec žádnou stopu. Očekávaná hodnota všech těchto měření osoby j je Tj, tedy pravý skór Jakuba. Jednotlivé diskrétní skóry následných měření nejsou identické; jinými slovy jsou patrné fluktuace. Můžeme to vysvětlovat tak, že Jakub není vždy pohotový, nečte položku přesně, neposlouchá vždy stejně pozorně. Žádná z položek navíc není perfektní či ideální pro měření zamýšlených behaviorálních charakteristik. To tvoří Ej Jakuba. Očekávaná hodnota chyb měření je 0, protože jsou to odchylky od pravého skóru. 1.1.2 Eexp (Ej) = 0; ∑ (E) = 0 Očekávaná hodnota E všech odchylek Tj je nulová; jsou to odchylky skórů od průměru (pravého skóru). Standardní chyba měření (Se) je ukazatelem toho, jak dobře jsme se přiblížili pravému skóru v následných měřeních. Hodnota Se² je rozptyl chyb a v důsledku také ukazatel toho, jak přesně jsme měřili. Tato chyba neovlivňuje chybu na žádné další položce. Z toho vyplývá, že korelace mezi chybami měření je nulová (0). 1.1.3 ρEE = 0 Chyby měření (E) jsou náhodné, např. první, druhá, atd. chyba neovlivňuje počet chyb při žádném jiném měření, tj. chyby spolu nekorelují (0). Neexistuje žádný vztah mezi různými chybami v testu. Dále předpokládáme, že rozsah chyb měření nemá vztah k hodnotě pravého skóru T. Pokud by např. Jakub dosáhl vysokého skóru v testu, pak to by neznamenalo, že chyba je velká, průměrná nebo nízká. Je diskutabilní, nakolik je tento předpoklad racionální. Je chyba měření stejná na konci škály a v jejím středu? V CTT se každopádně předpokládá: 28
1.1.4 ρTE = 0 Korelace (ρ) mezi úrovní pravého skóru (T) a velkostí chybových skórů (E) je nulová (0). Předpokládá se, že neexistuje žádná korelace mezi pravým skórem a chybovými skóry. Malá standardní chyba znamená, že měření mají blízko k pravému či očekávanému skóru a velká standardní chyba poukazuje na rozsáhlé fluktuace v pozorovaných skórech kolem pravého skóru. Dosud jsme se zabývali odhady Jakubových chybových skórů. Dále uvidíme, že Se² se měří na výběrovém souboru, za předpokladu, že pravé skóry jednotlivých testovaných subjektů, tj. mnoha individuálně odlišných osob, se neliší, ale chybové skóry ano. Takže Se² se počítá pro celý vzorek a odhaduje pro populaci. Mohli bychom si položit otázku: vykazují všichni respondenti stejnou Se²? Tato otázka se jeví jako legitimní. Klasická teorie testů se jí vyhýbá, ale je možné, že svědomité a/nebo neurotické osoby jsou při řešení položek pečlivější, což má za následek nižší hodnotu Se². Je také možné, že interní rozptyl je u těchto osob nižší než u jiných, takže účinek nezávislé proměnné snáze dosahuje hladinu významnosti např. 5 %. Tato otázka se v rámci CTT řeší jen zřídka. Je jen jedna očekávaná chyba rozptylu, která platí pro celý rozsah pozorovaných hodnot skóru. Když jsme mluvili o měření chyb u Jakuba, udělali jsme myšlenkový experiment. Ve skutečnosti nemůžeme po nikom chtít, aby nám vyplňoval tentýž test nebo dotazník stále dokola. K odhadu by mohly sloužit například výsledky od jednovaječných dvojčat (to se ve skutečnosti nikdy nestalo), nebo v budoucnu hodnoty výsledků klonů, pokud však vůbec budou existovat. Realističtějším zdrojem dat je vzorek lidí, kteří vyplní náš test. Cílem je odhadnout pravé skóry v populaci. V populaci se pravé skóry mezi osobami skutečně liší. Také pozorované a chybové skóry se liší mezi lidmi i v rámci pozorování týchž jednotlivců. Očekávaná hodnota chybových skórů u jednotlivých případů je nulová (Eexp = 0, viz vzorec 2). Protože platí, že chyby v rámci jednoho případu nekorelují a chyby jednoho člověka jsou nezávislé na chybách jiného, je korelace mezi chybami (EE) nulová (ρEE = 0, viz vzorec 3). To jsou dobře známé předpoklady klasické teorie testů. Z tohoto modelu můžeme odvodit ještě další zajímavý vztah. Ten říká, že pozorovaný rozptyl skórů ve výběru nebo populaci (σX²) se rovná součtu rozptylu pravého skóru výběru (σT²) a rozptylu chybového skóru (σE²). (1) σX² = σT² = σE² Celkový pozorovaný rozptyl v testu nebo dotazníku je součtem pravých rozptylů a chybových rozptylů. Protože jsou korelace mezi E nulové, není třeba předpokládat korelaci mezi T a E (ρEE = 0; ρTE = 0). Poselství klasické teorie testů je jasné: nejsme spokojeni s pozorovaným skórem. Ten totiž nevyhnutně obsahuje chybu. Odhadujeme ji a bereme v úvahu, když používáme testové skóry, např. k popisu a predikci chování nebo při rozhodování. Odhad objemu chyb v našem měření nám umožňuje definovat interval spolehlivosti pozorovaného skóru, ve kterém se s pravděpodobností 95 % nachází pravý skór osoby. CTT vede k definování reliability. Hovoříme o teoretické bázi. V kapitole 6 analyzujeme obsah a uvedeme vzorce k odhadu reliability. Reliabilita je definovaná pro vzorek nebo populaci a je měřítkem přesnosti, s jakou odhadujeme rozdíly pravých skórů subjektů na základě jejich pozorovaných skórů. Pozorujeme skóry Xj skupiny, ale ve skutečnosti nás zajímají Tj skupiny. Pozorovaný skór je X = T + E. Předpokládáme, že X a T mají lineární vztah. Koeficient reliability je důsledkem korelace mezi T a X. Tato korelace je poměr pravého a pozorovaného rozptylu skóru. (2) ρ²XT = σ²T/σ²X Korelace pravých a pozorovaných skórů výběrového souboru nebo populace (ρXT) může být vyjádřena jako podíl rozptylu (nebo směrodatné odchylky) pravých skórů (σ²T nebo σT) a rozptylu (směrodatné odchylky) pozorovaných skórů (σ²X, σX). 29
Reliabilita je ze své podstaty podílem rozptylu pravých skórů výběru a rozptylu skórů pozorovaných (= pravý rozptyl + chybový rozptyl) populace nebo výběru subjektů. Pokud dojdeme k hodnotě 0,85, znamená to, že 85 % rozptylu je spojeno s rozptylem v pravých skórech. Jak vytvoříme praktický index mezi 0,00 and 1,00? Psychometrici používají teoretickou myšlenku paralelních testů k vytvoření indikátorů reliability. Teoreticky by paralelní test a původní test měly vykazovat identické pravé skóry, rozptyl a vztahy s ostatními testy. (3) Tj =T’j Pravé skóry testu (Tj) a paralelního testu (T’j) jsou identické (stejně jako rozptyl a vztahy s jinými testy) ve stejné skupině nebo dvou náhodných vzorcích z jedné a téže populace. Korelace mezi dvěma nebo více paralelními testy navíc vyjadřuje i jejich reliabilitu. (4) ρ²XX’ = ρ²XT = σ²T/σ²X Korelace mezi testem a paralelním testem vyjadřuje reliabilitu testu; je to poměr mezi pravým a celkovým rozptylem. Pokud chceme mít k dispozici index reliability, musíme vytvořit paralelní test. Je to druh opakování. Jak můžeme ve skutečnosti věci opakovat a vypočítat hodnotu? Můžeme vyšetřovat stejný vzorek osob dvěma paralelními testy (kupříkladu dvěma polovinami testu) a vypočítat korelaci. Výpočtem Pearsonova korelačního koeficientu získáme index reliability. Tento ukazatel je vyjádřením shody uspořádání subjektů ve dvou (stejných, paralelních) testech. Nazývá se koeficientem ekvivalence. (5) ρ (ekvivalence) = r (X část 1, X část2) Reliabilitu testu můžeme odhadnout tak, že test rozdělíme na dvě stejné poloviny (např. sudé a liché položky). Předpokládáme, očekáváme, že tyto dvě poloviny budou stejné, paralelní. Dalším způsobem, jak uskutečnit myšlenku paralelních testů je, že požádáme vzorek subjektů, aby stejný test vyplnili dvakrát. Musíme zvolit rozumný časový interval. Opět vypočteme Pearsonův korelační koeficient mezi skóry subjektů v prvním a druhém případě. Tímto způsobem získáme koeficient stability. (6) ρXX (stabilita) = r(X 1. testování, X 2. testování) Reliabilitu testu můžeme odhadnout tak, že test předložíme stejným respondentům dvakrát, tj. po určitém čase vyplní celý test podruhé. Test je třeba administrovat dvakrát. To vyžaduje více času, takže rozdělit test na dvě části je časově úspornější. Pokud k výpočtu koeficientu reliability využijeme poloviny testu (metoda split-half), je třeba koeficient korigovat vzhledem k délce testu. Chybový skór je totiž sice stejný, ale celkový rozptyl celého testu je větší, než rozptyl každé z jeho polovin. Ve větším rozptylu celého testu tvoří část pravého rozptylu větší podíl, protože chybový rozptyl je shodný. Tato úprava je známa jako Spearmanův-Brownův prorocký vzorec. Tito dva psychometrici vyvinuli uvedený vzorec nezávisle na sobě počátkem 20. století. Vzorec uvádí, že reliabilita celého testu je rovna podílu dvojnásobku korelace polovin testu a součtu 1 + hodnota korelace polovin testu. Jedná se o teoretickou hodnotu. Předpokládáme, že obě části testu jsou skutečně paralelní, tj. že každá položka je zaměnitelná za kteroukoli další. Kdybychom skutečně použili dvě poloviny testu nebo dotazníku a vypočítali korelaci, zjistili bychom o něco menší hodnotu „r“. Vzorec je: 30
2ρYY’ (11) ρXX’ = --------------1 + rYY’ Vzorec 11 říká, že reliabilita celého testu X rozděleného na dvě poloviny Y a Y’ se rovná podílu dvojnásobku korelace mezi polovinami testu a součtu 1 + korelace obou částí testu. Záměna 2 za k v čitateli a k-1 ve jmenovateli činí vzorec použitelným pro každé rozšíření a zkrácení. Důsledkem této logiky ovšem je, že reliabilitu testu lze zvýšit jeho prodloužením o „stejné“ položky. Uvedené rozdělení na poloviny, nebo na sudé a liché položky při tvorbě paralelního testu je speciálním případem obecného principu. Cronbach navrhl již v roce 1951, že test je možné rozdělit na všechny možné poloviny. Výsledkem byl koeficient Cronbachova alfa, který se dnes objevuje téměř v každém manuálu diagnostických testů. n ∑σ²Yi (12) ρXX’ ≤ --------- 1- ----------- = Cronbachova α n-1 σ²X Hodnota α (alfa) je dolním odhadem reliability. Faktor o něco vyšší než 1 (n = počet položek) je vynásoben 1 mínus zlomek. Pokud je zlomek velmi malý, pak je výsledná hodnota kolem 1 krát 1. Je to vysoká hodnota, která vyjadřuje vysokou „vnitřní konzistenci“. Ve jmenovateli můžeme najít součet všech jednotlivých rozptylů položek. Toto je rozptyl zbylý poté, co odečteme kovariance položek se všemi ostatními položkami. Čitatel obsahuje celkový rozptyl (rozptyly + kovariance).
L. J. Cronbach, psychometrik a psycholog vzdělávání, který integroval CTT do teorie zobecnitelnosti a pokoušel se kombinovat dovednosti a výuku ve svém interakčním modelu (aptitude treatment interaction model). Cronbachova alfa (1951) je nejpoužívanějším koeficientem reliability. Pokud mohou průměrné kovariance vysvětlovat téměř celý rozptyl, pak položky testu jsou vzájemně úzce propojené. Cronbachův koeficient bere v úvahu průměr všech možných reliabilit polovin testů jako ukazatel reliability a je tedy průměrem všech split-half reliabilit přizpůsobených délce testu. Opírá se však o data z jediného testu, takže údaje z odděleného paralelního testu chybí. Z toho vyplývá, že podle Spearmanova-Brownova vzorce jde o podhodnocení reliability. Vhodnější se proto jeví používat starou alternativu: Lambda 2 (v SPSS, odvozeno Guttmanem, 1945). Cronbachovu alfu rovněž není vhodné považovat za ukazatel jednodimenzionality testu, protože test s více než jedním faktorem může u specifického výběrového souboru nebo populace vykazovat vysoké hodnoty α. Jakkoliv může být uvedený komentář pravdivý,
31
recenzenti budou nadále požadovat tento „ukazatel vnitřní konsistence“, takže se s ním budeme setkávat ještě dlouho. Existuje množství indexů reliability. My se omezíme na tyto tři. Obvykle se jejich příklady dají najít v testových manuálech. Níže navrhujeme orientační pravidlo pro požadovanou úroveň koeficientu reliability. Poslání tohoto textu zní, že diagnostik by měl věnovat pozornost CTT, protože pozorovaný skór je vždy součtem stabilní pravé a variabilní chybové části. Pravý skór je definován jako očekávaná hodnota paralelních forem (stejného) testu. Cílem je omezit velikost chybového skóru. Koeficienty reliability jsou ukazatelem, který nám napoví, nakolik jsme v této snaze úspěšní. Důležitým postupem je tvorba paralelního testu. Pro tento účel je možné rozdělit test na dvě poloviny, zopakovat test u stejného výběru v rámci dvou měření, nebo vypočítat průměrnou korelaci všech možných polovin testů. Velikost korelace se v tomto případě pohybuje mezi 0,00 a 1,00. Nunnally a Bernstein (1994) jednoduchým pravidlem vyjádřili, že koeficient reliability musí být 0,90 a více v případě výběru, umísťování, alespoň 0,80 pro méně radikální rozhodnutí o klientovi, 0,70 je postačující hodnota pro výzkumné účely V CTT je rovněž definován vztah mezi reliabilitou a validitou. Maximální validita prediktivního testu je druhá odmocnina koeficientu reliability. Pokud máme nízkou reliabilitu r = 0,50, maximální hodnota koeficientu validity je asi 0,70. Každopádně se jedná o teoretickou hodnotu, se kterou se v empirickém výzkumu setkáme jen zřídka. Zásadou psychometriků a diagnostiků, kteří se řídí CTT, je nepřijímat výsledky okamžitě nebo dokonce nevěřit tomu, co pozorují. Pomocí principu paralelního testu vytvořili postupy k odhadování chyb měření a pozorování. Tyto koeficienty umožňují definovat interval, ve kterém se s určitou pravděpodobností – obvykle 95 % – nachází pravý skór. Zdroje nevyhnutelných nesystematických chyb jsou: osoba, položka a podmínky instrumentace. Klasická teorie testů je teorií statistických chyb. Může se použít na jakékoliv měření, např. pro chybu v plnění lahví tekutinou s „pravým“ objemem 100 ml a Se ± 2 ml. CTT je dobře propracovaná ze statistického hlediska, a to znamená, že ji již nelze zásadně doplňovat. Je shrnuta Gulliksenem (1950) a „kanonizovaná“ v klasické knize Lorda a Novicka (1968). Její model reprezentace testového skóru jako součtu pravého a chybového skóru je pro diagnostiky stále důležitý. Většina testových manuálů se opírá o CTT, i když už existuje nový přístup: IRT. Shrnutí 2.2 V rámci CTT určujeme, jak přesně odhadujeme pravý skór osoby na základě jejího celkového skóru v testu nebo dotazníku. Pozorovaný skór se skládá z pravé a chybové části. Vycházímeli z předpokladů klasické teorie testů, že pozorovaný celkový skór je součtem pravých a chybových skórů, chyby navzájem nesouvisejí a pravé a chybové skóry nekorelují, můžeme reliabilitu testu definovat jako pravý rozptyl výběrového souboru vydělený součtem pravého a chybového rozptylu tohoto výběru. Osobu nemůžeme opakovaně vyšetřovat stejným testem, proto pracujeme s výběrem. Pravé skóry osob jsou považovány za stabilní a chyby za variabilní. Myšlenka paralelních testů reaguje na potřebu odhadu chyb měření. Její konkrétní realizace může spočívat ve vytvoření dvou stejných polovin testů (split-half, např. sudé a liché položky), v metodě test-retest a v použití průměru reliabilit všech možných polovin testu. Výsledkem těchto postupů jsou koeficienty ekvivalence, respektive stability a vnitřní konzistence. Použití Cronbachovy alfy jako ukazatele vnitřní konzistence není úplně vhodné, 32
protože to reliabilitu podhodnocuje, neboť ve skutečnosti nepracuje s paralelním testem. Klasická teorie testů je teorií chyb měření. Lze ji aplikovat na jakýkoliv typ měření bez ohledu na obsah. Náhodné chyby měření mohou být dány povahou položek, subjektu, testové situace i experimentátorů nebo diagnostiků. CTT je pro diagnostiky užitečná tehdy, používají-li testy a dotazníky. Informuje je totiž o jejich reliabilitě. Není však tak široce rozpracována pro další diagnostické postupy, jakými jsou rozhovory či pozorování klientova chování. 2.3 Moderní teorie testů: teorie odpovědi na položku (Item Response Theory, IRT) Moderní teorie testů neslouží primárně jako model k odhadování chyb měření. Představuje spíše soubor funkcí, zpřesňujících model odpovědi na položku (IRT) nebo charakteristickou křivku položky (item characteristic curve – ICC) tak, aby znázorňovaly vztah mezi pravděpodobností správné odpovědi osoby a úrovní nepozorovaného, latentního, základního rysu nebo atributu. Odpovědi mohou být dichotomické povahy (správně-nesprávně, ano-ne, 0/1) nebo mohou představovat skór na x-bodové škále. IRT je mikroteorií (funkce odpovídání na položku; charakteristická křivka), která se vztahuje k mikroprojevům (odpověď na položku: ano-ne; pravda-nepravda; hodnota na škále). Funkce lze pojímat jako lineární nebo nelineární. Soubor nelineárních funkcí je rozsáhlejší. Zde se budeme věnovat jednomu lineárnímu a dvěma nelineárním modelům s latentní proměnnou. Latentní lineární model znázorňuje vztah mezi hodnotou latentního rysu u dané osoby a pravděpodobností správné odpovědi jako lineární funkci. Předpokládá se, že jednodimenzionální rys je základem pro odpověď na položku. Obecná rovnice má podobu: (13) (θ) = bi + aiθ Latentní lineární model: Pi (θ) vyjadřuje pravděpodobnost p správné odpovědi na položku nebo úkol i arbitrárním subjektem s určitou fixní úrovní latentního rysu θ. Rovnice 13 pracuje se dvěma parametry bi a ai. Každá charakteristická křivka položky v této skupině funkcí se liší v bi (konstanta) a ai (sklon). Na obrázku 2.1 je uveden příklad.
Obrázek 2.1: Lineární funkce s dvěma charakteristickými položkami (rovné přímky). Položka 1 diskriminuje lépe než položka 2 mezi dobrými a méně dobrými studenty (v případě výkonových testů), protože sklon je strmější, než u položky 2. U položky 2 je pravděpodobnost správné odpovědi téměř shodná pro každou hodnotu na škále latentního rysu θ. Parametr bi se vztahuje k obtížnosti položky. Pokud je položka obtížnější, osoba potřebuje mít vyšší úroveň latentního rysu, aby pravděpodobnost správné odpovědi dosáhla 50 %.
33
Parametr ai na obrázku 2.1 poukazuje na diskriminační hodnotu položky. Položka 1 rozlišuje mezi subjekty s rozdílnými hodnotami latentního rysu. Položka, která je zodpovězena téměř stejně správně za předpokladu nízké i vysoké hodnoty latentního rysu, nemůže rozlišovat osoby s vysokou a nízkou výkonností. S nelineárními modely se setkáváme častěji než s lineárními. Již intuitivnímu porozumění odpovídá, že například mezi duševní schopností a výkonem existuje nelineární vztah. Dobře známé křivky učení a zapomínání znázorňují nelineární vztah mezi množstvím času stráveným učením a úrovní učení. Zřejmě ale neexistuje žádný lineární vztah mezi množstvím času, které žák stráví nad domácím úkolem, a kvalitou pochopení učiva. Zpočátku se naučí více, ale postupně je čím dále složitější porozumět učební látce v její komplexnosti. Tyto modely předpokládají, že základem odpovědi je jednodimenzionální rys. Ve skutečnosti však při odpovídání na otázky či položky sehrává roli mnoho rysů či schopností. Například při řešení početních úloh může být důležitá více než jedna schopnost a osobnostní charakteristika, například rychlost čtení, znalost numerických problémů, cvik, sebedůvěra, obeznámenost s testovou situací a podobně. Preference jednodimenzionálního latentního rysu je však přece jen na místě. Pokud měříme, musíme měřit jednu dimenzi, jinak nelze výsledek interpretovat správně. Třebaže je takový postup matematicky čistý (specifická struktura položek), psychologicky je poněkud obtížné uvažovat o jakémkoliv jednodimenzionálním chování. Jako psychologové můžeme formulovat jednodimenzionální latentní rys jako jedinou dominující dimenzi, odpovědnou za převážnou část rozdílů v odpovědi na položku nebo soubor položek. Charles Spearman (1904, 1927) „vynalezl“ g faktor jako jeden dominující faktor. Kromě něj se na výsledku podílí dále S (specifický) faktor závislý na specifické, arbitrární formě položek a úkolů, například verbálních, numerických, prostorových atd. To, zda jsou položky jednodimenzionální povahy, lze podrobit zkoušce. Můžeme testovat, zda jsou položky lokálně statisticky nezávislé. Pokud lokálně statisticky nezávislé nejsou, subjekty se stejnou fixní hodnotou na latentní škále nebo dimenzi mohou dosahovat v testu různých skórů. Pokud taková situace nastane, je zřejmé, že musí jít o působení dalšího latentního rysu. Položky jsou lokálně statisticky nezávislé, pokud pravděpodobnost specifického vzorce odpovědí subjektů s fixním skórem na latentním rysu je rovna součinu pravděpodobností (Π) samostatných odpovědí těchto subjektů. Příklad: test sestává ze tří položek. Osoba má fixní úroveň na rysu a (θa). S touto hodnotou má pravděpodobnost 0,80 (p = 0,80, q = 1-p = 0,20) zodpovědět položku 1 správně, pro položku 2 p = 0,50 a pro položku 3 p = 0,40. Tenhle test o třech položkách má 2³ možných vzorců odpovědí. Za předpokladu lokální statistické nezávislosti můžeme vypočítat osm vzorců (Tabulka 2.1). Tabulka 2.1: Pravděpodobnost vzorců za předpokladu lokální statistické nezávislosti tří položek: položka 1: p = 0,80; položka 2: p = 0,50, a položka 3: p = 0,40. Korespondující hodnoty q (1-p) jsou po řadě 0,20, 0,50, a 0,60. vzorec 000 vzorec 100 vzorec 010 vzorec 001 vzorec 110 vzorec 101 vzorec 011 vzorec 111
q1q2q3 = 0,2 x 0,5 x 0,6 = 0,06 p1q2q3 = 0,8 x 0,5 x 0,6 = 0,24 q1p2q3 = 0,2 x 0,5 x 0,6 = 0,06 q1q2p3 = 0,2 x 0,5 x 0,4 = 0,04 p1p2q3 = 0,8 x 0,5 x 0,6 = 0,24 p1q2p3 = 0,8 x 0,5 x 0,4 = 0,16 q1p2p3 = 0,2 x 0,5 x 0,4 = 0,04 p1p2p3 = 0,8 x 0,5 x 0,4 = 0,16
34
Pokud se pozorované hodnoty do značné míry liší od výše uvedených, neexistuje podpora pro předpoklad jednodimenzionality a je třeba zahrnout další dimenzi (schopnost, rys). Tabulka 2.1 ilustruje rozdíl mezi IRT a CTT: v rámci CTT není podstatný způsob, jakým je dosaženo skóru 2. V příkladu v tabulce 2.1 na tom záleží. V CTT každá položka přispívá stejně, v IRT jsou položky váženy na základě svého diskriminačního parametru. Lokální statistická nezávislost neznamená, že položky nejsou u výběru subjektů, ve kterém jsou rozdíly v úrovních latentního rysu, korelovány. Položky nejsou korelovány tehdy, pokud všechny subjekty mají stejnou úroveň latentního rysu. Jak číst tyto modely? Interpretace zní: subjekt j má (při své dané fixní hodnotě latentního rysu θ) pravděpodobnost Pi, že odpoví na položku i správně. Ve skutečnosti osoba buď odpoví správně (1,00) anebo nesprávně (0,00). Formulace je tedy následující: pravděpodobnost správného zodpovězení položky i při daném θ je pravděpodobnost, že arbitrární subjekt s úrovní rysu θ odpoví položku i správně. Existuje více než padesát IRT modelů s korespondujícími ICC a IRF6. Pojednáváme pouze o dvou známých modelech: logistický model s jedním parametrem (One Parameter Logistic Model – OPLM) a dvouparametrový model (Two Parameter Model). Přehled IRT modelů uvádějí např. Hambleton a Swaminathan (1985). Pokud existuje takové množství modelů, je důvod vybrat si jeden konkrétní? Často ne, ale někdy ano. Představme si komplexní test s vícenásobnou volbou a velikou pravděpodobností tipování. V tomto případě má smysl zvolit takový model, který s tipováním počítá. Obvykle se využije postupně několik modelů, jenom aby se zjistilo, který nejlépe odpovídá potřebám. V rámci IRT se nesetkáme s koncepčním argumentem pro použití specifického modelu. Pro běžné uživatele jsou tyto modely málo srozumitelné. Parametry se odhadují odlišnými, často iterativními postupy výpočtu. Výsledky těchto výpočtů lze jen stěží předvídat nebo jim plně porozumět. Posuzovatel bývá odkázán na to, aby těmto modelům a souvisejícím technikám důvěřoval. Model OPLM vyvinul dánský matematik Georg Rasch (1960) a původně se uplatňoval na dichotomické položky. Předpokládá se, že pravděpodobnost správného zodpovězení položky (popř. kladné odpovědi na otázku) je ovlivněna fixní úrovní jednodimenzionálního latentního rysu.
, dánský matematik, který rozpracoval teorii testů. IRT modely bývají také nazývány „Raschovy modely“. Vztah mezi úrovní latentní dimenze a odpovědí se řídí regresní funkcí. Model určuje pravděpodobnost úspěchu subjektu a (Alfred) na položce i jako výsledek působení latentní schopnosti/rysu tohoto subjektu (θa) a obtížnosti položky i (1/bi); bi je obtížnost položky. Pravděpodobnost úspěchu subjektu a na položce i je θa/bi, obě složky jsou definovány v oboru 0 až ∞. Jinými slovy: vysokou pravděpodobnost úspěchu mají chytré subjekty (a pojí 6
IRF = Item Response Function, funkce odpovědi na položku (pozn. překl.) 35
se s lehkými položkami), nízkou subjekty s nízkou úrovní potřebné schopnosti (a pojí se také s obtížnými položkami). Zvolená funkce je funkcí logistickou; připomíná kumulativní normální rozdělení. Funkce je (14) f(y) = exp (y)/(1 + exp (Y)). Exp (y) znamená číslo e umocněné na y, kde e představuje logaritmus 2,71828…. Pokud y má velmi vysokou hodnotu, f(y) se blíží hodnotě 1, a pokud má y hodnotu velmi nízkou, blíží se f(y) nule. Pravděpodobnost, že subjekt zodpoví položku i správně, je vždy vyjádřena jako poměr pravděpodobnosti Pi, že subjekt a při dané úrovni schopnosti θa zodpoví položku i správně, a pravděpodobnosti, že položku při dané úrovni schopnosti zodpoví nesprávně: 1-Pi(θa). (15) θa/bi = Pi(θa) / (1-Pi(θa)) Tento vztah vyjadřuje pravděpodobnost, že subjekt zodpoví položku i správně (nebo kladně odpoví na položku dotazníku). Vztah lze vyjádřit také následovně: pravděpodobnost správného zodpovězení položky při dané úrovni schopnosti [Pi(θa)] je rovna součtu této úrovně a parametru obtížnost položky [θa] + bi. Hodnota θ je úroveň, místo, nebo pozice subjektu na škále latentní proměnné nebo teoretického atributu. Pokud srovnáme úroveň obtížnosti s úrovní schopnosti, což je potřeba k získání 50% šance zodpovědět položku i správně, pak je rovnice následující:
(16) fi(bi)
(exp(0) 1 ----------- = ------------ = 0.5 1 + exp (0)
1+1
Pokud specifická položka vyžaduje víc schopnosti k dosažení 50% pravděpodobnosti, že bude zodpovězena správně, pak je tato položka mnohem obtížnější (viz obr. 2.2). Dvouparametrový model pochopitelně přidává další parametr. Hlavní myšlenkou je stále vysvětlení pravděpodobnosti správného zodpovězení položky náhodným subjektem, ale položka je teď charakterizovaná dvěma parametry: bi a ai. Parametr bi je obtížnost položky. Parametr ai je diskriminační parametr, vyjádřený sklonem křivky. Plochá horizontální křivka znamená, že subjekty s různou úrovní schopností mají pravděpodobnost 50 %, že zodpoví položku správně. S tím jsme se už setkali v lineárním modelu, nyní ale nepracujeme s rovnými přímkami, ale s křivkami.
36
Rozdělení subjektů zodpovídajících položku správně
Obrázek 2.2: Dvě funkce odpovídání na položku v Raschově modelu (položky se nepřekrývají) s logistickou funkcí. Aby byla položka 1 zodpovězena správně s p =0.50, je nezbytná úroveň θ nižší, než u položky 2; položka 2 je tedy obtížnější než položka 1. Položky nemají shodný sklon a proto jsou hodnoty ai odlišné. Vzorec zůstává stejný, pouze byl přidán parametr. exp (ai (θ – bi) (16) Pi (θ) = ------------------------1 + exp (ai (θ –bi) Slovy: pravděpodobnost, že náhodně vybraný subjekt s úrovní schopností θ zodpoví položku i správně, je funkcí jeho úrovně schopností, obtížnosti položky a diskriminační hodnoty položky i. Často jsme pracovali s transformovanými a normalizovanými skóry. Hodnoty b se obvykle nacházejí v intervalu +2 a -2, hodnoty ai obvykle mezi 0 až 2 (ačkoli teoreticky může jít o jakékoli hodnoty v intervalu od + ∞ do - ∞). Vysoké hodnoty ai se projeví strmou funkcí. To je víceméně obdobné diskriminační hodnotě položky v CTT. Je to ukazatel, který říká, jak položka diskriminuje např. 20 % nejvýše skórujících subjektů od 20 % nejníže skórujících subjektů. Teorie odpovědi na položku je známá už od 60. let 20. století a je pochopitelné, že se příliš neodvolává na předchůdce. Pokud vezmeme v potaz Thurstoneův případ V měření postojů, její počátky můžeme dohledat v 30. letech 20. stol. (Edwards, 1957). V současnosti je její využití velmi rozšířené. Zpočátku byla aplikována u výkonových testů, postupně také u testů inteligence, s jistým zpožděním nachází využití také u osobnostních dotazníků. V rámci IRT předpokládáme, že odpověď na položku je determinována latentním rysem nebo teoretickým atributem, jakým může být např. emoční stabilita, deprese, numerické schopnosti, prostorová představivost apod. Charakterizujeme ji zde jako mikroteorii, týkající se mikroprojevů. Někdy je považována za součást analýzy položek (Crocker & Algina, 1986). Zcela zásadními prvky moderní teorie testů jsou konstrukty jako „latentní rys“, „latentní schopnost“, „teoretický atribut“. Představují základní „entity“, které sice nemůžeme pozorovat přímo, avšak mají jasnou strukturu (definovanou např. v rámci jedno- nebo 37
dvouparametrového modelu). To se může jevit jako kontraintuitivní, ale smysl tohoto postupu je zřejmý. Zvyklosti předpokládat působení něčeho „v pozadí“ pozorovaných jevů se podrobněji věnujeme v textu v bloku 2.1 probereme tento zvyk, a sice předpokládat něco v pozadí toho, co pozorujeme. Blok 2.1: Psychologové a zvláště psychometrici se vždy snaží dívat za to, co vidí běžný pozorovatel. Proč? Zdá se, že nás jako stoupence klasické i moderní teorie testů více zajímá to, co je v pozadí našich pozorování, než to, co vidíme okamžitě. Zní to téměř platonsky (ideje) nebo „hlubinně“. Psychologové se vždy snaží najít něco „za“ a někteří dokonce „nad“. Jinými slovy, naše chování není takové, jaké vypadá, ale vždy vyjadřuje něco skrytého. Freud byl mistrem toho, co je skryté: za naším slušným chováním vždy spatřoval nějaké temné sexuální puzení. Ke snům nebo k chybným výkonům přistupoval jako ke skutečným projevům našich nejhlubších pohnutek a potřeb. Dnes ale i ti nejvíce kovaní psychometrici hovoří o nepozorovaném pravdivém skóru a latentním rysu. Různí autoři dokonce formulují rozdílné názory na to, co si pod těmito latentními jevy představují. V našem textu jsme jako argument pro existenci jediné základní dimenze využili test lokální statistické nezávislosti. Druhým argumentem je pravý neboli očekávaný skór z klasické teorie testů. Bollen (2002, s. 612) definuje latentní proměnnou následovně: latentní náhodná (nebo nenáhodná) proměnná je taková náhodná nebo nenáhodná proměnná, pro kterou není alespoň u některých pozorování v rámci výběru patrná žádná realizace. Borsboom et al. (2004) považují latentní proměnnou za reálně někde existující rys, který způsobuje rozdíly v určitém chování. Je to podobné stanovisko, jaké zastává Trendl (viz kap. 1), tj. že měření záměrně způsobuje změnu hodnot úrovně rysu. Tuto zvyklost – nevěřit tomu, co vidíte – někdy zpochybňují samotní psychologové včetně respektovaných vědců. Mendel se snažil vysvětlit růžovou barvu květů svého hrachoru tím, že předpokládal existenci dvou věcí, které neviděl: dominantních a recesivních genů. A jeho postup byl velkým úspěchem Máme definici těžiště, které nikdo nevidí, ale přesto dobře vysvětluje pohyb a klidový stav těles. Z vědeckého úhlu pohledu je legitimní přemýšlet o věcech, které nevidíme. Klasická a moderní teorie testů nabízejí příklady tohoto oprávněného tápání v temnotách. Vyjadřují vztah mezi tím, co není viditelné (latentní rys) a tím, co je pozorované (odpověď) velice přesně pomocí funkcí. S tím se ve Freudově díle nesetkáme. Tohle rovněž napomáhá lépe pochopit naše odpovědi na položky – naše, jak říkáme, mikroprojevy – s využitím mikroteorie ve specifické podobě funkce. Pokud tato funkce pro vysvětlení nevyhovuje, pokračujeme; i na výzkum lze vztáhnout princip „show must go on“. Shrnutí 2.3 Moderní teorie testů (IRT) zahrnuje více než padesát modelů a korespondujících charakteristických křivek položky (ICC) k popisu a vysvětlení odpovědí subjektů na povětšinou dichotomické položky. Každá funkce nebo křivka určuje vztah mezi probandovou úrovní latentního rysu a pravděpodobností správné (popř. kladné) odpovědi na položku. Skupina IRT modelů sestává většinou z nelineárních logistických funkcí. Vyžaduje se identifikace jednodimenzionálního latentního rysu. Tu lze kontrolovat pomocí výpočtu lokální statistické nezávislosti položek. Popsali jsme příklad lineárního modelu s jednou latentní proměnnou. Dvěma příklady nelineárních funkcí jsou OPLM (logistický model s jedním parametrem) a dvouparametrový model. V OPLM stačí znát úroveň subjektu na kontinuu latentního rysu, abychom mohli 38
odhadnout šanci, že na položku odpoví správně, resp. odpoví kladně na položku osobnostního dotazníku. Ve dvouparametrovém modelu mohou mít položky rozdílnou diskriminační úroveň, může se např. odlišovat sklon jejich funkce. 2.4 Vztah mezi klasickou a moderní teorií testů Klasickou a moderní teorii testů nelze srovnávat, protože každá z nich se týká odlišné problematiky. Ke srovnání však přesto vybízejí, protože obě poskytují příspěvky k důležitým charakteristikám testů a dotazníků. K řešené problematice se však vztahují odlišně. Embretson a Reise (1999) volí harmonickou cestu a zdůrazňují podobnosti mezi oběma přístupy. Uvádějí, že statistiky CTT korespondují s parametry položky z IRF: p-hodnoty (stupně obtížnosti, procenta správně odpovídajících subjektů) jsou srovnatelné s parametry obtížnosti položky. Diskriminační parametry položky z IRF se podobají korelacím položek s celkovým skórem v CTT. Řada dalších autorů však zdůrazňuje spíše rozdíly mezi CTT a IRT, například psychometrici IRT kritizují CTT. První námitka proti CTT se týká užívání celkových skórů testových nebo dotazníkových položek. Celkový skór je výsledek vyjadřující souhrn správných nebo souhlasných položek. Subjekt může dosáhnout celkový skór např. 20 ze 40 položek různými způsoby, neexistuje žádný specifický vzor. Takový celkový skór může být oprávněný pouze tehdy, pokud každá položka (úkol, položka) může být zaměnitelný za libovolnou jinou položku. Položky tak získávají stejnou váhu, i když mají rozdílný diskriminační parametr. IRT bere diskriminační parametr v úvahu. Výsledkem IRT je tedy celkový vážené skór. Druhá námitka vůči CTT zdůrazňuje, že odhad reliability je citlivý na změnu výběrového souboru: čím vyšší je homogenita výběru, tím nižší je koeficient reliability. To vyplývá z definice reliability jako poměru skutečné a celkové variability. Důsledkem je, že nelze stanovit koeficient reliability pro výzkumný nástroj, ale je třeba přihlížet k variabilitě v testované skupině. Uživatel testu se musí ptát, zda jsou koeficienty uvedené v testovém manuálu vhodné pro skupinu, kterou zkoumá. Takový koeficient je „kontextualizovaný“. Jakmile je celková variabilita v důsledku složení skupiny omezená, koeficient reliability se relativně snižuje. Crocker a Algina (1986) nabízejí metodu korekce pro homogenitu výběru. Koeficienty vnitřní konzistence v CTT jsou citlivé na obtížnost nebo preferenci. Obtížné nebo jednoduché položky mají nízkou variabilitu, nízkou kovarianci a snižují tak reliabilitu ve smyslu „vnitřní konzistence“. Třetí námitka proti CTT se opírá o možnost regrese k průměru. Je to ve skutečnosti jiný způsob, jak vyjádřit, že i nedokonale reliabilní test má důsledky pro posuzování extrémních skórů. Pokud skór u jednotlivých subjektů kolísá (což se skutečně děje, neboť r < 1.00), pak skupina velmi vysoce nebo nízce skórujících subjektů bude vykazovat i nižší nebo vyšší skóry jinde. Tuto změnu můžeme interpretovat jako artefakt, tedy např. tak, že ve skutečnosti nenastala v důsledku intervence (např. školení) žádná změna, ale nemůžeme si být výsledkem jisti. Jinými slovy, k tomu, abychom, abychom zjistili, jestli ve skórech nastala skutečná změna, potřebujeme kontrolní skupinu. Můžeme připojit ještě čtvrtou námitku: v rámci CTT jsme povinni pro test počítat normované skóry za použití výběru, který je reprezentativní vůči cílové populaci. Normované skóry pomáhají interpretaci skórů jednotlivých subjektů. Například skór 20 bodů je považován za vysoký, pokud jen 10 % osob dosáhne skór vyšší nebo rovný 20. To znamená, že sám o sobě nemá skutečnou hodnotu. Vytváření norem je náročné a drahé. Je to ale každopádně empirický postup, protože se musíme vždy „poradit“ s populační normou, abychom se dozvěděli, co skór znamená. IRT přináší řešení, protože tvrdí, že parametry položky jsou nezávislé na výběru (viz např. Hambleton, 1989, str. 151-152). Rozdíly mezi CTT a IRT hovoří většinou v neprospěch CTT. Tyto rozdíly jsou důsledkem absence testování modelu měření v rámci CTT. Ta především předpokládá intervalovou úroveň měření. Tento předpoklad se však neopírá o žádný výzkum. Je to „zjevené měření“, 39
jak o něm hovořil již Torgersen (v Thurstoneově tradici) v roce 1958. Pokud celkový skór položek nevytváří intervalovou škálu, pak jsou dobře známé lineární techniky, jako ANOVA, regresní či faktorová analýza nevhodné. Při praktickém využití však příliš nezáleží na tom, jestli je škála ordinální nebo intervalová. Za druhé, tento rozdíl je přítomen už u třetí námitky: odpovědi subjektů na položky se nesmí porovnávat nezávisle na specifickém testu nebo dotazníku. Pokud dva testy měří stejnou psychologickou kvalitu, ale liší se v obtížnosti, výsledky srovnávat nelze. Je třeba rozvinout značné množství procedur k zajištění ekvivalence testů. Některé modely IRT odhadují úroveň latentního rysu nezávisle na obtížnosti položky (např. OPLM). Za třetí, standardní chyba měření je v CTT hodnota, která je stejná pro celý rozsah škály pravých skórů. Je však zřejmé, že na koncích škály pravých skórů nejme tak přesní, jako v jejím středu. Je například velice obtížné jemně rozlišovat v rámci velmi vysokých či nízkých úrovní inteligence. IRT umožňuje vypočítat podmíněnou hodnotu, například, informační funkce testu a standardní chyba se dají vypočítat pro každou úroveň škály skutečného skóru. V IRT není předem stanoveno, že standardní chyba měření je stejná v celém rozsahu škály pravých nebo latentních skórů. Položky měřící na obou pólech škály mají svůj vlastní index reliability. V praxi je nicméně těžké vytvářet položky pro tyto extrémy, jako třeba u měření vysoce a nízce nadaných. Rovněž je poněkud nevhodné rutinní využívání Cronbachova koeficientu α, protože položky s vysokou a nízkou obtížností (vyšší než 0,85 a nižší než 0,15) mají ve výsledku nízkou hladinu α jednoduše proto, že jejich kovariance jsou velmi nízké: p x q je na maximu s hodnotou p = q = 0,50; maximální rozptyl je 0.25. Uvedené námitky ani tři (zčásti související) rozdíly nemají velký dopad na prediktivní validitu testových skórů CTT nebo IRT. Pokud se podíváme na výsledky testů IRT a CTT, které například předpovídají školní úspěch, pak testy založené na IRT nepředpovídají kritéria lépe. Obvykle totiž odlišně vážené položky v IRT korelují velmi těsně se stejně váženými položkami v CTT (většinou výše než 0,95). IRT kontroluje jednodimenzionalitu položek. Nabízí rovněž nové možnosti interpretace skórů nezávisle na souboru položek a na definici skupin subjektů, např. mužů a žen, rozdílných etnických skupin (viz kapitolu 8 o diferenční funkci položky – differential item functioning, DIF). To je v rámci teorie testů pokrokem. Teorie testů byly vyvinuty pro účely analýzy položek a testů. Obě se uplatňují při konstrukci a vyhodnocování inteligenčních a didaktických testů. V oblasti hodnocení školního výkonu převažuje IRT, oblast osobnostních dotazníků a posuzování poruch osobnosti byla donedávna doménou CTT. Dnes se IRT využívá napříč různými skupinami testů i dotazníků. Reise a Waller (2009) si povšimli, že metody IRT se rozšířily do oblasti klinického měření, ale měly by být více doceňovány v souvislosti s měřením kognitivních a klinických konstruktů. Posuzování kognitivních schopností ztotožňují s široce rozšířeným testováním. Klinické testování se vyznačuje malými výběrovými soubory, smíšenými skupinami pacientů, šikmou distribucí skórů, špatnou artikulací obsahových domén, úzkým pásmem konstruktů a těsnými korelacemi mezi rysy (např. v důsledku „všudypřítomné“ dimenze negativní afektivity). I když autoři oceňují možnosti IRT, stále zdůrazňují, co je předmětem měření – totiž patologické rysy a psychologické procesy, které vedou klienta k souhlasu s položkou. Shrnutí 2.4 Někteří autoři zdůrazňují, že IRT a CTT jsou srovnatelné postupy. Další vznášejí námitky k CTT: není založena na modelu měření, a proto neumožňuje srovnávat výkony ve dvou testech měřících stejný atribut. CTT navíc pracuje se sporným předpokladem, že standardní chyba měření (Se) je pro celý rozsah skórů stejná. Modely IRT mají oproti CTT některé výhody, nicméně prediktivní validita obou mikroteorií je za srovnatelných podmínek obdobná. K přednostem IRT patří lepší zajištění konstruktové validity prostřednictvím kontroly
40
jednodimenzionality metod. Většina psychologických testů a dotazníků je vytvořena na základě CTT, ačkoli IRT poskytuje shodné možnosti jako CTT a přidává některé nové vhledy. 2.5 Komentáře a zhodnocení Teorie testů se týká skórování v testech a dotaznících. Ty představují relevantní, ale limitovanou součást posuzování klienta. Ke shromažďování informací o klientovi slouží i další metody, například diagnostický rozhovor, využívání informací z dokumentace a od blízkých osob, dialog posuzovatele s klientem, pozorování klientova chování v důležitých situacích (škola, domov, práce). Všechny tyto metody mohou působit jako zneuznané, protože jsou méně „efektivní“, „objektivní“ a obtížně „psychometricky“ uchopitelné. Proč se těmto postupům psychometrici nevěnují? Testy a teorie testů se orientují na měření individuálních rozdílů v (latentních) rysech nebo teoretických atributech. Testově teoretické modelování vývojového a sociálního kontextu a rovněž závislých proměnných v experimentálním výzkumu je méně propracované, ačkoliv formální modely jsou pro tyto účely vhodné. Proč se psychometrici nevěnují vytváření teorie a experimentálním závislým proměnným? Experimenty jsou považovány za znak tvrdé vědy, ale závisle proměnné (žádoucí či nežádoucí chování, tj. obsah psychologie), jak se zdá, nikoli. Modely teorie testů se zpracovávají odděleně od dalších modelů, které vyjadřují vztahy mezi položkou a úrovní rysu, např. faktorová analýza a dlouhodobě dobře propracované techniky škálování postojů (viz např. Edwards, 1957). Thurstonův zákon srovnávacího úsudku (případ V) připomíná Raschův model OPLM. Posuzování (assessment) probíhá většinou jako studie n = 1. Interval spolehlivosti musí vyjadřovat pravděpodobnost skóru u individuálního klienta. V CTT se tento interval počítá na základě výběru a používá na celý rozsah skórů. Musíme znát specifickou osobní chybovou odchylku, abychom mohli určit interval (Baird et al., 2006). Klienti se liší nejen skutečnými nebo očekávanými skóry, ale patrně také intervaly kolem svých skutečných skórů. V rámci CTT je krok od individuálního klienta k části výběru podstupován příliš snadno (Lord a Novick, 1968). Psychometrici – zastánci IRT kritizují CTT. Jejich námitky se jeví jako oprávněné, ale z pragmatického hlediska nejsou tak působivé, protože vážení položky v IRT a stejné váhy pro všechny položky v rámci CTT korelují velmi těsně. Autoři jako Guttman (1971), Levy (1974), Goldstein a Wood (1989) a Blinkhorn (1997) vytýkají oběma teoriím následující: - příliš mnoho pozornosti se věnuje měření a příliš málo obsahu, jako např. v Guttmanově analýze faset; - příliš mnoho analýz položek a příliš málo vysvětlování významu v důsledku nedostatečného důrazu na obsah položek; - ve skutečnosti se nejedná o teorii, pouze o soubor funkcí; - teorie testů se nezabývá otázkou, proč osoba odpoví správně (souhlasně); - testy mají význam především pro účely školského testování velkých výběrových souborů, ale ne pro klientskou práci; při použití testu pro klinické účely se projeví absence lokální nezávislosti. Hlavním argumentem kritiků je, že CTT a IRT jsou matematické či statistické modely, nikoli psychologické modely chování. S výjimkou Guttmana nenabízejí tito autoři žádnou alternativu, která by do nového modelu měření zahrnovala behaviorální teorii, ani jeho návrh se však nedočkal dalšího rozpracování. Jádrem velké části kritiky je problém vztahu mezi teorií testů a obsahem psychologických teorií. Tento problém se bude objevovat nadále, pokud chování osoby bude považováno za
41
soubor latentních rysů, jaké představuje např. „psychometrická“ inteligence nebo rozmanité rysy osobnosti. Borsboom et al. (2004) navrhují interpretovat latentní rys z pozic realistické ontologie, např. latentní rys je příčinou individuálních rozdílů např. v oblasti inteligence. Taková příčina může mít mnoho pojmenování, jako třeba rychlost nervového vedení, rychlost zpracovávání informací apod. Distance od sémantického obsahu, například u výrazů jako je inteligence, chytrý, introvertní atd. zabraňuje tomu, aby byl vztah mezi latentním rysem a chováním různým způsobem interpretován. Existuje jedna specifická vyhovující struktura, jakou představuje např. OPLM, i tento přístup je ale spojen s problémem: neřeší otázku, jaké povahy taková příčina je. Možná, že je tím dlážděna cesta k redukcionismu na neurologické, biologické nebo fyziologické příčiny, což by znamenalo, že diagnostika se stává součástí biologických a chemických věd. V tuto chvíli je však přemostění mezi naším psychologickým a biologickým poznáním příliš vzdálené. Již se ale lze setkat s náznaky tohoto trendu: někteří psychologové práce a organizace doporučují při výběru manažerů využívat zobrazení mozku. IRT vede k nalezení několika položek, které osobu charakterizují. Existuje tedy měřítko pro určení shody osoby a položky. Je to zajímavý vývoj, který lze aplikovat na další vědecké aktivity. Příkladem může být výzkum vhodnosti určitého způsobu medicínské nebo farmakologické péče pro danou osobu. Obvykle bývá tento výzkum experimentální: nový lék zlepšuje stav populace pacientů s určitou nemocí. Nejvíce úsilí se vkládá do prevence nežádoucích účinků. Začíná výzkum ATI (Aptitude Treatment Interaction; interakce způsobilosti a léčby), jak tento přístup pojmenovali Cronbach et al. (1977). Odkazuje k faktu, že volba léčby (léku) bere v potaz individuální rozdíly mezi pacienty. Výzkum přiměřenosti vztahu mezi osobou (nikoli nemocí!) a léčbou (lékem) se jeví jako opravdová výzva pro lékaře. Ti by se mohli právě od psychometriků dozvědět, jak takový výzkum provádět. Může být teorie testů užitečná pro diagnostika – praktika? CTT a IRT poskytují smysluplné ukazatele reliability testů a dotazníků a některé informace o povaze latentních rysů nebo teoretických atributů. Je to sice omezený, avšak užitečný příspěvek k diagnostické praxi. IRT je model pro odhadování chyb a teorií „mikroprojevů“: odpovědí subjektu na položku nebo soubor položek. Teorie testů napomáhá při výběru psychometricky lepších testů. Koncepty a termíny v kapitole 2: DIAGNOSTIKA A TEORIE TESTŮ Teorie testů Objektivní skórování Klasická teorie testů (CTT) Moderní teorie testů (IRT) Pravý skór, chybový skór Vzorek/populace Chyby měření: systematické, náhodné Očekávaná hodnota, pravá hodnota Paralelní test Reliabilita: paralelních forem, ekvivalence, stabilita, vnitřní konsistence, test-retest Interval reliability Cronbachova α Spearmanův-Brownův prorocký vzorec pro délku testu Rozptyl testu, rozptyl položky Vážení položek Lineární a nelineární IRT, IRF Latentní rys (θ) Jednodimenzionální škála Lokální statistická nezávislost 42
ICC Jedna dominantní dimenze OPLM (Logistický model s jedním parametrem od Georga Rasche) Dvouparametrový model (IRT) Diskriminační parametr Úroveň obtížnosti Logistická funkce Porovnání CTT a IRT Regrese k průměru Testové normy Faktorová analýza
3. HISTORIE DIAGNOSTIKY Historie diagnostiky je historií utváření teorií, měření a nástrojů. Nejvíce úsilí vkládají historici této oblasti do analýzy vývoje testů. Co se pokládá za historicky důležité a co je vnímáno jako účel a přínos znalostí z historie diagnostiky? Jaké vhledy může diagnostikovi poskytnout historie teorií ,zvláště teorie testů (měření) a nástrojů? Testové hnutí v Evropě a v USA má v oblasti diagnostiky významné místo již od 19. století. Jaký je jeho historický kontext a jaké disciplíny k němu přispěly? Historie vývoje testů je tradičně spojována s významnými osobami. Kdo jsou tito „hrdinové“ diagnostiky? 3.1 Studium historie diagnostiky Historie je specifickou vědní disciplínou a diagnostici v ní nejsou zběhlí. Přesto si ale položme dvě otázky: co je historicky významné a co je účelem studia historie diagnostiky? Odpověď na první otázku spočívá zčásti v teoriích a metodách používaných v minulosti. Druhá otázka poukazuje na skutečnost, že někdo se může, ale nemusí poučit o předmětu svého zájmu tím, že studuje jeho historii. Historický význam jakékoliv epochy, míst, událostí a osob může být odůvodněný i popíraný. Ovlivnily chod dějin, anebo je jejich vliv přeceňován? Abychom mohli odpovědět, potřebujeme kritéria. Nemáme však kritéria stanovená jednou provždy. Je možné, že historik zpochybní dlouho akceptovanou důležitou epochu nebo událost, a ta se ukáže jako podružná. Některé konkrétní osobnosti mají trvalý vliv na běh událostí v zemi, např. na vyhlášení války, sjednání míru. Historickým osobnostem se někdy dostane té cti mít vlastní biografii. Angličtí a američtí politici si ji rádi píší sami společně se svými „ghost writery“. Je nepravděpodobné, že by historik takovou biografii bral vážně. Existují zřejmá expertní kritéria pro to, jak mají vypadat historicky spolehlivé studie a biografie. Rozeznáváme tři teoretické směry studia historie: Za prvé, historik může pracovat empiricky a spoléhat na řádné zdroje. Mohl by například nahlédnout do Psychological Abstracts, jejichž vydávání bylo zahájeno v roce 1927. Již od roku 1894 máme k dispozici Psychological Index, jehož vydávání skončilo v roce 1935. K podání přehledu historie psychologie může náš historik využít množství a pořadí článků v různých kategoriích. V roce 1927 existovalo 16 kategorií pro 2730 abstraktů. V roce 1929 již bylo zařazeno více než 5000 abstraktů. V roce 1937 toto číslo vzrostlo na 6000 a roku 1947 opět pokleslo na 5000. Hned nás napadne souvislost s druhou světovou válkou jako příčinou tohoto dočasného poklesu. V roce 1967 bylo evidováno 160 kategorií pro řazení 17.000 abstraktů. V roce 1987 rejstřík zabíral 2500 stránek a obsahoval 6000 autorů. O více než dvacet let později je to už více než 100 000 abstraktů a více než 25 000 autorů. To sice poskytuje autorovi pocit bezpečí a toho, že není sám, ale zrovna tak jej omezuje skutečnost, že jeho kniha nebo článek je pouze malou částečkou ve velkém vesmíru. Máme k dispozici 43
všechny tyto údaje, skutečná otázka však zní: co vyjadřují? Reflektují pokrok v psychologii nebo jsou jen reakcí na poptávku společnosti po psychologických poznatcích či ukazují sílu psychologických asociací? Za druhé, historik zná mnohá fakta o předmětu svého zájmu a pokouší se je integrovat do příběhu, který by poukázal na jejich vzájemné vztahy. Význam fakt je vymezen místem, které zaujímají v příběhu se začátkem, průběhem a koncem. Někdo by mohl napsat takový příběh nizozemského „zlatého věku“ v 17. století, kdy Nizozemsko vládlo mořím a obchodu. Kulturně vzato to byl hospodářský rozmach. Vytvořeno bylo více než 5 milionů maleb, z toho 1 milion krajinek, které se rozšířily po celém světě. Integrace může taktéž zahrnovat kritickou reflexi, např. po válce se vždy hlásí k odporu vůči okupantům více lidí, než lze doložit fakty, a méně lidí připustí, že kolaborovali s nepřítelem. Napřed zde byla válka, pak teprve příběh o válce – a, jak tvrdí někteří historikové, každý příběh je lež. Za třetí, některé interpretace historických faktů jsou považovány za výraz určitých struktur, které charakterizují dějiny lidstva. Německý filozof Hegel (18. – 19. století) považoval historii za zjevení Ducha, Rozumu dialektickými procesy teze, antiteze a synteze a popisuje útok na Bastilu, známé pařížské vězení, nikoli jako osvobození vězňů lidmi, ale jako výraz revolučního myšlení s cílem budování nové společnosti s klíčovými hodnotami Svobody, Rovnosti a Bratrství (Honderich, 2005). Marx, otec komunismu, vidí historii jako nevyhnutelnou cestu do společnosti, ve které se dělníci stanou mocnými. Jeho optimismus a patrně také zájem o moc vedl Lenina k vytvoření SSSR. Jako empirická předpověď je tato ideologie chybná, jak se ukázalo po pádu Sovětského svazu. Méně optimistickou perspektivou je, že struktura historie lidstva nevyhnutelně vede k vykořisťování člověka člověkem a doposud se tento názor potvrzuje. Historikové psychologie poukazují na slabá místa popisů historie této disciplíny (Danziger, 1994; Pocock, 2005). Vytýkají dalším historikům zahleděnost do sebe sama, nahlížení vývoje v psychologii tak, jako by všechny myšlenky měly v psychologii i svůj původ a vyvíjely se zákonitě, to, že věnují omezenou pozornost sociokulturnímu kontextu a sociopolitickým zdrojům a silám. Rovněž uvádějí, že dominuje „prezentismus“. Ten se váže k přesvědčení, že máme jít snadnou cestou a netrápit se už minulostí. Může to také znamenat, že oblast diagnostiky byla smetena ze stolu jako nezajímavá, tj. psychologii je možné chápat jako „oddaného následovníka módy“. Psychologie je to, co považujeme za důležité tady a teď. Skrývá v sobě riziko opakování stejných otázek. O historii psychologie se někdy říká, že je „účelová“, protože předpokládá pokrok na základě toho, že někdo „vidí“, že během let se diagnostika stále zdokonalovala. Účelová historie je takový způsob historického psaní, který sleduje cestu k určitému předem danému cíli, jakoby minulost byla zapotřebí pouze k tomu, aby vytvořila naši triumfální současnost. Shrnutí 3.1 To, co je historicky důležité, závisí zčásti na teorii, kterou se historik řídí. Existuje empirický přístup zdůrazňující význam zdrojů a fakt, ale tato fakta je třeba interpretovat. Fakta lze vybírat tak, aby vytvářela příběh, kterým se snažíme říci: „Historie není příběh vyprávěný bláznem“. Mnohdy je to vítězný příběh, o cestě k lepší vědecké a společenské budoucnosti. Klasická filosofická perspektiva nahlíží historii jako zjevení Ducha, jako realizaci určitých struktur, jak to prohlašovaly i některé ideologie a náboženství. Co je důležité, nemůže být zodpovězeno „jednou provždy“. Historikové psychologie jsou kritičtí ohledně popisu její historie. Viní psychologii z prezentismu, z „účelovosti“ a ze zahledění do sebe, spojeného s opomíjením bezprostředního sociokulturního kontextu.
44
3.2 Účel a užitečnost studia historie diagnostiky Proč diagnostik studuje historii diagnostiky? Jednoduchý a legitimní důvod je, že potřebuje vědět, odkud pochází, jak se vyvíjí a kam v současnosti dospěla. Jaké jsou její možnosti a limity? To vyjadřuje nezaujatý vědecký přístup, ale je možné také doplnit, že slouží k vytváření profesní identity podobně jako historie země, státu, náboženství, politické strany nebo jakékoli instituce. Protože tvrdá věda působí jako mocnější a získává přístup k velkým finančním zdrojům, zdá se nezbytné zdůrazňovat profesní identitu. Ta zahrnuje i „mýtus o původu“. Pro psychologii a diagnostiku je to Wilhelm Wundt, který v 19. století otevřel první psychologickou laboratoř. Tato událost vyjadřuje spojení psychologie s tvrdou vědou: Boringova (1950) historie psychologie obsahuje mj. názor, že psychologie je experimentální disciplína, která si skutečně bere za vzor přírodovědu. Pokud je historie psychologie pouze příběhem, může být čas od času převyprávěna. Z toho vyplývá, že minulost a současnost si mohou odporovat, ale „…ukazuje to na dynamickou povahu psychologie, která překoná každou krizi“, řekl by optimista. Studium historie je považováno za užitečné. Pomáhá odhalovat, zda „nové“ otázky nejsou už náhodou zodpovězeny, nebo zda se považují za nezodpověditelné. Ukazuje nám, že položky testů, které dnes pokládáme za zvláštní, byly v minulosti normální a běžné. Pomáhá nám ukázat změnu v čase. A ta může znamenat buď pokrok, nebo stagnaci. Historie poskytuje perspektivy, upozorňuje na chyby, osvětluje roli minulého v současném a má moc fascinovat studenty (Gregory, 2005). Ideálem je, když studium historie přispěje k formování nezávislého a kritického studenta. Ačkoli psychologie může jen omezeně přispívat k řešení sociálních problémů a vědecký pokrok je pomalý a omezený, studium historie psychologie uspokojuje značnou zvědavost. Ukazuje, jak mnoho ze základních poznatků je součástí našeho vědomí, ukazuje naše místo v lidských záležitostech a pomáhá k tomu, abychom se stávali kritickými, sebereflektujícími bytosti. Shrnutí 3.2 Studium historie diagnostiky může být založeno na nezaujatém vědeckém přístupu, ale často jako nezávislá vědecká aktivita slouží k vytváření identity. Je užitečné vidět, jak se v minulosti volily a zodpovídaly otázky. To může přispět k nezávislému a kritickému přístupu studentů diagnostiky. 3.3 Historie diagnostiky: utváření teorie, měření a nástrojů Protože diagnostika není nezávislou psychologickou disciplínou, odkazuje se na znalostní bázi sociálních věd. V rámci této báze lze rozlišit teorii (zdroje: implicitní, explicitní, alternativní; směry: individuální rozdíly, vývoj a sociální kontext), operacionalizaci, měření a nástroje. Historie vytváření teorie Na západě vznikala vědecká a profesionální psychologie v Německu v 19. století. Je spojována s filosofickými názory o vztahu těla a mysli. Fakt, že stejná událost, objekt nebo dokonce osoba není odborníky, např. astronomy, pozorovaná stejně, vedl k přesvědčení o fyziologických rozdílech mezi těmito odborníky v reakčním čase jako výsledku rychlosti nervového vedení. To vedlo Fechnera (1801-1887) k myšlence vztahovat pozorování k objektivní intenzitě podnětu, např. pocit, že je objekt těžší, je konstantní podíl váhy původního objektu. To on první ukázal, že psychologické fenomény se dají studovat experimentálně a kvantitativně. Navrhl „psychofyziku“ jako nový vědecký program. Jemu vděčíme za metodu „nejmenšího rozlišitelného rozdílu“, správných a špatných případů nebo konstant a metodu průměrné chyby (Robinson, 2010). Helmholtz (1821-1894) se rovněž
45
zajímal o to, čím objekt je a co pozorovatel vidí. Vnímání nových objektů se mísí s předešlými zkušenostmi. Kromě otázky těla a mysli poskytovala tehdejší fyziologie poznatky o nervovém vedení. Fyziologové sestrojili aparát na měření nervového vedení a reakčního času. Byla to experimentální psychologie, protože se manipulovalo s nezávislou proměnnou: např. váhou objektů, jasem světla a měřila se závislá proměnná (reakční čas). Wundt (1832 – 1920) měl znalosti tehdejší fyziologie a filosofie. Studoval bdělost a vědomí, s využitím výsledků introspekce trénovaných subjektů. Používal tělesné fenomény jako dýchání a pulz k měření psychologických fenoménů, jako např. intenzity citů. Je známý jako první psycholog a vnímán jako experimentální vědec. Zájem o fenomény vědomí a paměti pokračoval i u Wundtových následovníků. Hlavními tématy psychologie bylo ve Wundtově době: vědomí, percepce a vztah těla a mysli. Posledně jmenovaný vztah je stále přítomen v (laické) psychologii a praxi. Například jóga je populární aktivitou. Někteří se snaží obnovit vztah těla a mysli spojováním jógy s moderní psychologií (Bhogal, nedatováno). Zájem o percepci dále rozvíjeli Gestalt psychologové (19. – 20. století). Kreativitu lidské percepce může dobře ilustrovat např. zákonitost, že celek je něčím více než sumou částí. Gestaltisté studovali percepční iluze, např. Müllerovu-Lyerovu iluzi. Dvě přímky shodné délky se zdají být různě dlouhé, protože mají jiná zakončení.
Obrázek 3.1: Müllerova-Lyerova iluze Koncem 19. století se začal projevovat zájem o užitečné znalosti, který se odchyluje od rané orientace psychologie. Tato nová orientace je spojena s obchodní morálkou USA, společenskými změnami, průmyslovou expanzí a optimistickou vírou ve společenský pokrok. William James (1842-1910) byl zastáncem pragmatismu: znalosti jsou relevantní, pokud pomáhají aktivitám běžného života. Funkcionalismus dominoval psychologii v USA koncem 19. a začátkem 20. století. Jeho stoupenci se zajímali o každodenní život, byli přesvědčeni, že to, co funguje, také přežije, a vyznačovali se materialistickým pohledem na mentální procesy. Vynořila se navíc poptávka po praktických aplikacích ve vzdělávání, výchově dětí, zdravotnictví, výběru pracovníků, reklamě a managementu. I když několik amerických psychologů získalo vzdělání v Německu, redefinovali a adaptovali psychologii pro potřeby americké společnosti, např. měření individuálních rozdílů pro účely výběru. McKeen Cattell studoval práci Galtona (UK) o individuálních rozdílech v inteligenci a osobnosti a její myšlenky importoval na půdu USA. Watson (1878-1958) definoval jako objektivní, experimentální přírodní vědu striktní behaviorismus. Jeho cílem je predikce a kontrola chování. Ty se staly cílem vědecké psychologie. Podle Watsona nemá introspekce žádný smysl, nespatřoval také žádný zásadní rozdíl mezi lidmi a zvířaty. Tématem je pozorovatelné chování. Svůj optimistický postoj ke kontrole společnosti vyjádřil Watson slovy: „Dejte mi na výchovu tucet zdravých dětí a můj vymezený svět, abych je v něm vychoval, a já zaručuji, že z každého náhodně vybraného vychovám specialistu v libovolném oboru – lékaře, právníka, umělce, obchodníka, ale i žebráka, zloděje bez ohledu na jeho talent, sklony, záliby, dispozice i rasový původ a vlastnosti jeho předků“. 46
V 19. století kladla americká psychologie důraz na využitelné poznatky v oblasti změny a kontroly chování, prokazovala materialistickou orientaci, akceptovala neurofyziologickou lokalizaci psychických vlastností, a přijímala Darwinovu teorii přirozeného výběru. To vedlo ke koncepci funkcionalistické a behaviorální psychologie, jak ji známe např. z díla B. F. Skinnera (Greenwood, 2009). Historie měření a skórování položek a testů Při diagnostice používáme některé postupy k měření nebo kvantifikaci psychologického atributu nebo psychologických podnětů a situací. Teorie testů je však dominantní. Zahrnuje přidělování hodnot osobám nebo jejich reakcím pomocí položek, např. testů a dotazníků, stejně jako přidělování skórů podnětům a situacím, kterému se říká škálování, a v kterém kvantifikujeme podněty nebo psychologické reakce na ně. Psychometrici se při popisu a analýze psychologických dat, včetně přiřazování čísel osobám a podnětům, odkazují na rozvoj kvantitativních a kvalitativních modelů. Pokud by neexistoval vztah mezi modely a chováním nebo jeho znaky, psychometrika by byla jen aplikovanou statistikou. V kontextu diagnostiky popisujeme měření jako řazení objektů nebo chování podle nějakého aspektu. Toto chování lze libovolně členit do zvolených jednotek. Číslo, které vyjadřuje kvantitu objektu, je hodnota této kvantity a postup, který určuje tuto hodnotu, se nazývá měření. Vybrali jsme několik nejvýznamnějších událostí z historie měření. Pythagorovi (580-500 př. Kr.) jsme vděčni za teorém: a2 = b2 + c2. Pravděpodobně ale nebyl skutečným autorem tohoto vzorce. Stigler (1999) tvrdí, že všechny vědecké objevy nesou jméno posledního, kdo necitoval svého předchůdce. Pythagoras považoval čísla za tajemství, která jsou stavebními kameny světa. Byly to „Higgsovy bosony“ své doby. Číslo 10 bylo perfektní a bylo východiskem pro náš desetinný systém. Pythagoras objevil vztah mezi vnímaným tónem a délkou struny a definoval vztah mezi tóny ve stupnici. V západní filosofii rozlišil Descartes (1596-1650) hmotu a duši. Tento dualismus západní filosofii a náboženství znepříjemňuje život dodnes. Hmota byla „res extensa“, charakterizovaná např. délkou, šířkou a výškou. Duše, „res cogitans“ nebyla měřitelná, protože neměla žádný prostor a tělo. Byl to počátek rozvoje matematiky. Herbart (1825) se pokusil využít matematiku k popisu fenoménů vědomí a k určení jejich vztahů. Později byly charakterizovány asociačními zákony pro obsahy vědomí. První psychologové (nebo matematici, filosofové), jako Helmholtz, Fechner a Wundt, se snažili vystihnout matematický vztah mezi objektivními charakteristikami podnětů a lidskou percepcí. Teorie testů je podle mínění některých autorů posedlá teorií chyb pozorování. Krátce po roce 1800 položili matematici jako Laplace, Gauss a Legendre základ pro teorii chyb. Pearson (1902) ji využil k měření chyb jako výsledku lidských úsudků. Žádal např. subjekty, aby mu opakovaně rozdělili přímku na dvě poloviny. Mohl srovnávat průměrný a individuální řez s objektivním středem přímky. Dobrý pozorovatel vykazuje malý rozdíl mezi jeho průměrným rozdělením a „pravou objektivní“ hodnotou. Dále vypočítal stálost úsudků jednoho subjektu napříč měřeními a korelaci mezi úsudky dvou a více pozorovatelů (Pearsonova součinová korelace7). Fisher (1918) byl zemědělský výzkumník, který zavedl analýzu rozptylu, která umožnila vypočítat komponenty rozptylu ve skórech subjektů včetně rozptylu chyb měření. Tak se dospělo ke dvěma přístupům analýzy testových skórů: k Pearsonovým korelacím a Fisherově analýze rozptylu. Druhý z nich rozpracoval Cronbach et al. (1970) ve své teorii zobecnitelnosti. V diagnostice dodnes převažuje korelační přístup. Spearman (1910) zavedl 7
Orig. „product moment correlation“, dosl. korelace součinu momentů – pozn.překl. 47
koeficient reliability jako korelaci mezi polovinami různých měření stejného chování nebo objektu. Gulliksen (1950) ve své monografii shrnul klasickou teorii testů. Pravý skór osoby je definován jako limitující hodnota na jeho/jejím skóru v nekonečném počtu paralelních testů. Lord a Novick (1968) redefinovali pravý skór jako očekávanou hodnotu pro nekonečný počet opakování u subjektu a pro nekonečný počet subjektů. Jejich monografie je považována za nejlepší učebnici klasické teorie testů a za počátek moderní teorie testů. Teorie odpovědi na položku (IRT) má některé opomíjené předchůdce. Už Binet a Simon (1916) kreslili grafy, ve kterých byly poměry správných odpovědí uspořádány jako funkce věku. Thurstone (1925) škáloval položky ve věkové matici na základě průměrného věku do 50% úspěšnosti. Kreslil normální ogivy (kumulativní normální rozložení), aby ukázal změnu s věkem. Ve Velké Británii Ferguson (1941) uvažoval nad tím, že pravděpodobnost pij, že osoba j odpoví správně, je dobře popsaná funkcí normální ogivy, pokud má tato osoba stálou úroveň latentního rysu. Jako blesk z čistého nebe se objevil dánský matematik Rasch (1960) se souborem IRT modelů. Nejjednodušším z nich je logistický model s jedním parametrem (OPLM, viz kap. 2). Tento model neobsahuje žádné náhodné odpovědi nebo oddělené parametry obtížnosti položky, protože Rasch byl přesvědčen, že nejsou potřeba, pokud někdo formuluje položky tak, že náhodné odpovědi budou současně odpověďmi nesprávnými, a že obtížnost závisí zcela na schopnostech osoby v rámci daného rysu. Tyto i později vypracované Raschovy modely se v současnosti často používají v oblasti vzdělávání (Goldstein & Wood, 1989). Odhad úrovně latentního rysu osoby (šance, že 50 % subjektů zodpoví položku správně) dovoluje předkládat položky v pásmu této latentní úrovně, takže již není potřeba zadávat celý test (tj. všechny položky). Někdo se snaží najít položky, které by vyhovovaly individuální úrovni latentního rysu osoby nebo teoretickému atributu. Lze si představit, že není snadné formulovat položky splňující tento požadavek, ale v didaktických testech se to zdá být relativně jednoduché. Klasická a moderní teorie testů hrají rozhodující roli při stanovení Standardů pro didaktické a psychologické testy s ohledem na reliabilitu a validitu. Editují je americké psychologické a edukativní asociace. Existuje pět edic z let 1954 až 1999, brzy bude vydána šestá. Moderní software umožňuje aplikovat výpočty klasické a moderní teorie testů tak, aby určil kvalitu položek a testů. Historie nástrojů Nástroje a procesy k výběru a hodnocení lidí jsou staré jako lidstvo samo. Čínští panovníci vybírali „mandaríny“ (vyšší úředníky) od roku 2200 př. Kr. Používali komplexní víceúrovňový systém zkoušek. Za dynastie Han (200 př. Kr. – 200 po Kr.) skládali adepti písemné zkoušky. Ti, kteří se chtěli stát mandaríny, museli prokázat znalost občanského práva, vojenství, zemědělství, daní z příjmu a zeměpisu. V období let 600 – 1400 byl využíván víceúrovňový systém zkoušek, který vyhovoval rozdělování společnosti do čtyř tříd: učenci, rolníci, umělci a vojáci. Důraz byl kladen na pochopení konfuciánské moudrosti a schopnosti používat ji v každodenním životě. Kandidát byl konfrontován s administrativními problémy, které musel řešit pomocí citátů z klasických textů. Nejdříve proběhl předběžný výběr, při němž adepti setrvali 24 hodin samotní v malé místnosti. V průběhu tohoto času museli psát eseje na specifická témata a básně. Po tomto dni a noci postoupilo 1 až 5 % z nich dál ke krajským zkouškám, které trvaly 3 dny a noci. Z tohoto malého procenta jich opět „přežilo“ pouze 5 %. Posledním kolem byla návštěva u císaře, který jim kladl záludné otázky (Chaffe, 1985).
48
Byly to „krysí závody“ s mnoha „oběťmi“. Jen několika málo šťastným bylo dovoleno sloužit zemi. Někteří „poražení“ se přidali ke třídě „literátů“, která byla rovněž líhní učitelů (Elman, 2000). Systém zkoušek byl zrušen až v roce 1906. Křesťanská bible rovněž obsahuje příklady selekce o vícero kolech. Ve Starém zákoně si Gedeon vybíral své vojenské jednotky na boj proti nepříteli z více než 22 000 mužů. Nejdříve museli odejít všichni, kdo měli strach. Zbylých 10 000 muselo pít vodu ze studně, když byli velmi žízniví. Muži, kteří usrkávali vodu z jedné ruky ve stoje, byli přijati, protože byli v průběhu pití v pohotovosti. S pouze 300 zbylými muži Gideon zaútočil na nepřítele a vyhrál, samozřejmě s boží pomocí. V Řecku leží kolébka západní a zčásti i arabské filosofie. Z její tradice vzešlo mnoho myslitelů, kteří se zajímali o podstatu člověka. Pokoušeli se pochopit, proč jsou lidé tak různí, když přeci žijí všichni pod stejným řeckým sluncem. Vytvořili kategorie lidí. Lékař Hippokrates (4. století př. Kr.) rozlišoval typy temperamentu podle tělních tekutin. Osoby s množstvím krve jsou vysoce temperamentní. Mnoho žluči znamenalo vznětlivost. Množství hlenu vedlo k nesnadné vzrušivosti. Přemíra černé žluči pak byla spojována s melancholií a sklíčeností. Aristoteles (4. století př. Kr.) ve své knize o Etice napsal, že posledně jmenovaní jsou dobře vybaveni pro vědu. Platón (4. století př. Kr.) zavedl jakousi tripartitu člověka, která na individuální úrovni přetrvala do 20. století (Freud). Základem jeho systému bylo určení místa v těle, kde se usadilo „srdce“. Srdce filosofů, básníků, ale i vůdčích osobností „sídlilo“ v hlavě, srdce vojáků v hrudi a srdce obyčejných lidí v břiše. Humornou typologii vytvořil Aristotelův žák Theofrastos (371-287 př. Kr.). Moderní parafráze popisu dvou typů je uvedena v bloku 3.1. Blok 3.1: Dva z třiceti charakterů podle Theofrasta (vztaženo na diagnostiky) Když Theofrastos psal knihu Povahopisy, byl již starý a moudrý muž. Typy osobnosti popisoval v běžných situacích: na tržišti, na shromáždění, u soudu, v divadle, u jídla, v roli hostitele, při náhodném setkání na ulici. K typů, které popsal, patří lichotník, pověrčivý člověk, zbabělec, vladař, básník, bručoun, mluvka apod. Dánský psycholog Jan Barendregt byl požádán, aby napsal knihu o tom, jakou roli zastávají v psychologii vědecké metody a analýza dat. Rozhodl se aktualizovat Theofrastovy charaktery. Dva z nich s lehkou ironií popisují profesionálního diagnostika: Čistič testů a nástrojů: neustálé čištění nástrojů, dělá z cílů prostředky. Mění aparát ještě než jej použije. Navrhuje nástroj tak, aby mohl být využit k mnoha účelům zároveň, i když k tomu nikdy nedojde. Sebevýznamnější objev jej nechává chladným, dokud ho nebude možné registrovat elektronicky. Pověrčivá osoba: pověrčivost je uctívání Boha Metodologie. Pověrčivá osoba považuje bezvýsledný výzkum za perfektní. Celý den odříká modlitbu „Bázeň před Bohem Metodologie je počátkem moudrosti“. Pokud dostane erekci, podívá se, zda je aparát dostatečný, a když ne, omezí se na adoraci děvčete (nebo chlapce). Z tohoto vyprávění je zřejmé, že „krysí závody“ jsou historicky stará záležitost. Moderní příklady jsou srovnávací zkoušky pro zaměstnance. Do firem mohou vstoupit pouze „lidé s vysokým potenciálem“. Jednatelé bank a společností, mandaríni i manageři jsou „headhuntováni“. Prekurzory moderního systému výběru zaměstnanců pro firmy a vzdělávací instituce jsou „Britské zkoušky pro státní správu“. Ústní zkoušky probíhaly od 13. století na Boloňské univerzitě (Itálie), od 17. století na univerzitě Oxfordské. Od roku 1860 se jako součást přijímacího řízení na univerzitách v Evropě a USA zavedly písemné zkoušky. 49
Shrnutí 3.3 Historie tvorby teorie je ovlivněna otázkou vztahu těla a mysli. Začátek je experimentální: jak podnět ovlivní percepci? Počátkem byl výzkum individuálních rozdílů v nervovém vedení vzruchů. V Německu byli tématy studií pozornost a vědomí. V USA musela psychologie nabízet řešení společenských problémů. Pro zlepšení predikce a kontroly prostřednictvím kontroly faktorů prostředí a výběru zaměstnanců a rozdělování do vzdělávacích stupňů se začalo využívat měření individuálních rozdílů v oblasti inteligence a charakteristik osobnosti. Jsou mnohé postupy, kterými přiřazujeme čísla k chování, podnětům a psychologickým objektům. Hlavní slovo v diagnostice má však teorie testů. Pythagoras (500 př. Kr.) považoval čísla za stavební jednotky světa a definoval vztah mezi délkou struny a tónem. Descartes (17. století) definoval hmotu délkou, šířkou a výškou. Duši, resp. vědomí nepovažoval za něco měřitelného. Mnozí fyziologové s filosofickým a matematickým vzděláním se v 19. století pokoušeli uvést do souvislostí smyslové vnímání a objektivní charakteristiky pozorovaných předmětů. Vyvinuli prostředky k měření reakčního času. Badatelé v oblasti teorie testů se zdají být „posedlí“ odhadováním chyby měření. V 19. století definovali matematici (např. Laplace, Legendre, Gauss) skutečné nebo očekávané hodnoty jako odhad vlastnosti objektu. Teoreticky byla tato hodnota definovaná jako číslo odhadované prostřednictvím nekonečně mnoha opakování. Pearson na počátku 20. století vztáhl tyto principy na lidské úsudky a počítal korelace mezi nimi. Fisher používal komponenty rozptylu, aby odhadl rozptyl chyb měření; vnitřní rozptyl se považuje za „chybový“ rozptyl. To vše rozpracoval v 50. letech 20. století Gulliksen ve stěžejním díle klasické teorie testů. Moderním teoriím testů předcházely příspěvky matematiků, psychologové využívali jejich funkcí k tomu, aby odhadovali pravděpodobnost správné odpovědi subjektu s danou úrovní latentního rysu. IRT se objevila v 30. letech, ale rozmach zaznamenala až v 60. letech a často se používá v didaktickém testování. Postupy, kterými se vybírali a posuzovali lidé, jsou staré. Čínští císaři používali vícestupňové systémy pro výběr „mandarínů“. Křesťanská bible obsahuje příklady výběru vojáků. Staří řečtí filosofové popisovali typologie, navazující na jejich filosofickou antropologii. Tyto staré postupy výběru se podobají dnešním „krysím závodům“. Od 13. století se vyvíjely ústní a později písemné zkoušky k výběru talentovaných studentů a rovněž k zamezení přijetí těch, kteří by později selhali. 3.4 Vědecký a sociokulturní kontext rozvoje testování Vývoj testů ovlivňovala a ohraničovala stanoviska příbuzných vědních disciplín a rovněž historický a sociokulturní kontext, v jehož rámci byl výběr lidí považován za přiměřený a užitečný. Začátkem 19. století se jako vlivná disciplína přidala psychiatrie. Duševní poruchy se kategorizovaly podobně, jak tomu bylo v medicínském modelu symptomů v kombinaci se syndromy. Mentální retardace („idiocie“) byla odlišena od psychiatrických syndromů (zvaných „demence“). Lékař Esquirol kolem roku 1850 pozoroval, že mentální retardace je trvalá, ale projevy psychiatrické duševní poruchy se mohou znenadání vytratit. Rozlišil stupně mentální retardace podle schopnosti mluvit: stupeň 1: používání krátkých vět, stupeň 2: používání slabik, a stupeň 3: jekot. Postupem času byli mentálně retardovaní trénováni. Sequin, rovněž lékař, používal postupy, které bychom mohli přirovnat k moderním technikám nápravy chování. Tyto názory a postupy pomohly osvobodit mentálně retardované z jejich okovů (Gregory, 2005). Uvedení psychiatři vyvinuli metody na posouzení mentální úrovně a rozlišovali mezi typy psychiatrických nemocí. Osobnost byla zkoumána metodou volných asociací. Projevy „pacientů“ byly interpretovány jako odraz nějaké nemoci. Rorschachův test byl zprvu používán k diagnostice schizofrenie. 50
Kraepelin propojil symptomy s psychiatrickými syndromy a jeho práce inspirovala vývoj MMPI (Minnesotský vícefázový osobnostní inventář). Lékaři a psychiatři používali medicínský model. To znamená, že každou chorobu můžeme odlišit od jakékoliv jiné (kategoriální přístup) a že každá nemoc má specifický průběh, který je možno pozorovat, např. symptomy a poruchy orgánů, buněk a genů. Kupříkladu Alzheimerova nemoc se vyznačuje dezorientací v čase a prostoru, zapomnětlivostí, poruchami pozornosti, poklesem inteligence. Onemocnění je chronické a progresivní, vedoucí do sedmi let k smrti. V šedé kůře mozkové můžeme pozorovat srážení nervových vláken. Je to zřejmě zapříčiněno geneticky způsobeným nedostatkem enzymů. Takový model ale není snadné aplikovat na psychologické poruchy, např. vyhoření, depresi, antisociální chování, ADHD apod. O přínosu experimentálních psychologů a fyziologů již byla řeč. Snažili se stanovit vztahy mezi objektivními kvalitami podnětů a subjektivní percepcí. Přispěli teoretickými koncepty (mentální rychlost), metodami (experiment) a procesy měření (reakční a inspekční čas). V historickém a sociokulturním kontextu vzestupu diagnostiky v 19. století stojí náhlý růst populace, který byl důsledkem rozvoje zemědělství a lepší hygieny. Mnozí se stěhovali z venkova do měst. V roce 1850 žila víc než polovina lidí ve Velké Británii ve městech. Dvě průmyslové revoluce (využívání parních strojů, chemického průmyslu, elektřiny a světla) vyvolaly nutnost nové dělby práce. Vznikla nová vrstva lidí, kterou už nekontrolovala venkovská komunita obce. V 19. století lze proto sledovat pokusy o kontrolu těchto „hord“ prostřednictvím represe a charity. Britští filantropové materiálně podporovali chudé a snažili se zároveň zlepšit „jejich defektní morálku“. Přistupovali k nim jak se soucitem, tak se strachem, měli snahu jim pomáhat, ale zároveň udržet status quo. Vlády zvolna zaváděly zákony na zlepšení bydlení a veřejného zdraví. Těmto změnám napomáhal rozvoj lékařských věd (hygiena), biologie (eugenika), zemědělství (potraviny) i zákonů (kriminologie). Mnohá z těchto témat jsou živá i dnes: jak se chovat s respektem k chudobě v našich vlastních zemích nebo v zemích třetího světa; jaký dopad má rozvoj, a jaké intervenční programy jsou zapotřebí pro děti z chudých venkovských oblastí? Devatenácté století bylo plné vědeckých a sociokulturních změn v Evropě. Proběhly průmyslové revoluce a mnohé země si v zahraničí vytvořily kolonie. Amerika se stala nejbohatší zemí světa a lákala chudé a dobrodruhy. Ve Francii zavedli povinnou školní docházku na základním stupni. Nový způsob dělby práce vedl k tomu, že děti již nepřebíraly automaticky práci svých rodičů. Vznikla poptávka po postupech umisťování pracovníků do armády a továren. Reakcí na ni byl vývoj technik pro posuzování stabilních individuálních rozdílů v kognici, inteligenci a osobnosti. Shrnutí 3.4 Počátky moderní diagnostiky v 19. století ovlivnil rozvoj psychiatrie jako vědní disciplíny. Mentální retardace byla odlišena od psychických nemocí a psychiatrický medicínský model se stal vzorem pro psychologickou diagnostiku. Není jej však možné jednoduše aplikovat na poruchy chování. K rozvoji psychologické diagnostiky přispěla rovněž experimentální psychologie 19. století. Tehdejší fyziologové a psychologové navrhli nástroje a vyvinuli postupy měření k tomu, aby uvedli do souvislosti percepci s objektivními charakteristikami podnětů. 3.5 Vybrané příspěvky k rozvoji testování: Galton, McKeen Cattell, Binet a Goddard Sir Francis Galton (1822-1911) je považován za otce vývoje testů a měření individuálních rozdílů. Zajímal se o dědičnost geniality. Na rozdíl od svého strýce Charlese Darwina se orientoval na rozdíly mezi jednotlivci v rámci jednoho druhu. Samozřejmou proměnnou pro individuální rozdíly byla mentální schopnost. Byl posedlý měřením (viz blok 3.2) a pracoval s 51
psychologickými poznatky své doby. Měřil tělesné charakteristiky jako délku, šířku a výšku částí těla (hlavy, paže, předloktí, prostředníčku), sílu úchopu, kapacitu plic, ostrost vidění, nejvyšší tón, který osoba uslyší a reakční čas na vizuální a sluchové podněty.
Sir Francis Galton: ‘Měřte, kdykoliv můžete“ Shromažďoval uvedené druhy dat od otců a synů a určoval jejich „ko-relace“. Galton s velkým úspěchem testoval více než 9000 osob ve věku mezi pěti a osmdesáti lety. Otestovat se nechali rovněž mnozí vysoce postavení lidé. Činili tak velmi rádi, protože očekávali, že budou géniové, nebo přinejmenším vysoce nadaní. Blok 3.2: Sir Francis Galton: Měřit znamená vědět Poté, co se vytvoří test, přichází na řadu jeho prodej. Galton nařídil svému studentovi Jastrowovi, aby představil testy na světové výstavě v roce 1896. Galtonovou filosofickou bází byl empirismus. Smysly považoval za vstupní bránu k poznání. Měřením byl posedlý: „Kdykoliv můžete, počítejte“. Kromě měření reakčního času na několik podnětů rozvinul i techniky k měření nudy na přednáškách, krásy a osobnosti. Navrhl dokonce techniku na měření účinnosti modlitby. Četl si v časopisech a novinách o všech příhodách královské rodiny. Počítal návštěvy kostela společně se zdary a nezdary, jako např. nemoci a sváry členů královské rodiny. Existovala nějaká “ko-relace“ mezi počtem návštěv kostela a následně počtem modliteb, a četností nemocí a sporů? Může to znít divně, ale dodnes se empiricky zkoumá vztah modlitby a tělesného a duševního zdraví, a slabě navzájem korelují. Galtonův přístup k měření všeho, co se jen dá, pomáhá vidět události v novém světle. Možná by stálo za úvahu udělat experiment, ve kterém se pokusíme změřit kvalitu náboženství (římsko-katolického, muslimského, hindu a anglikánského) a ideologií (liberalismu, komunismu, demokracie). Jak se dá operacionalizovat takováto kvalita? Mohli bychom navrhnout zhodnocení vnitřní konzistence teologií a ideologií; ověřit praktickou proveditelnost předpisů v denním životě (“osvoboďte vězně; nakrmte hladové; udělejte lidi sobě rovnými; vládněte doma svým manželkám“); množství, typ a konzistenci povinností v systému (monogamie, polygamie, přísná poslušnost k rodičům, učitelům, kněžím, diktátorům); sankcí za porušení pravidel (vězení, finanční trest, vyloučení ze společnosti); rozdíly v chování tolerovaném uvnitř a vně církve, strany, skupiny; tolerance vůči outsiderům (sňatky pouze s členy stejného náboženství, ideologie, rasy, etnické skupiny, striktní imigrační politika); míra fundamentalismu, vnitřních čistek, vnitřní kontroly (inkvizice, lov na komunisty nebo ne-komunisty); počet obětí systému (měřeno dle jeho vůdce – Pol Pot, Stalin; Hitler, papežové); počet členů, kteří se stali v rámci daného náboženského a společenského systému (ne)šťastnými; úroveň integrity služebníků (sexuální zneužívání, sbírky na chudé nebo výběr peněz od chudých); sociální síla veřejných činitelů atd. Takový přístup dává smysl. „Měřit znamená vědět“ – zajisté, alespoň trochu.
52
James McKeen Cattell (1860-1944) byl první, kdo použil termín test (mental test). Studoval v Německu (u Wundta) a v Anglii (u Galtona). Zdůrazňoval význam měření individuálních rozdílů pro účely výběru lidí. Wundta tato myšlenka nenadchla, ale Galton jej pozval do Cambridge. McKeen Cattell byl přesvědčen, že tělesnou a duševní energii nelze oddělovat. Položky jeho testů proto sledují i senzorické a fyziologické kvality. Patří k nim například: síla úchopu; rychlost pohybu ruky na vzdálenost 50 cm, rozlišování mezi různě těžkými předměty (zdvíhání stejně velkých krabic, rozlišování hmotnosti od 1 do 110 gramů); posuzování uběhlého času (10 sekund); velikost tlaku, vyvolaného gumovou tyčí na hlavu, aniž se pocítí bolest (Galton měl pochybnou myšlenku, že mentálně retardovaní méně cítí bolest než lidé z běžné populace). Stal se rektorem Columbijské univerzity, toho času největší univerzity v USA. Jeho kariéru ukončilo propuštění v roce 1917, protože se říkalo, že jeho aktivity ve funkci rektora podkopávaly akademickou svobodu jeho kolegů a že se více věnoval podpoře zájmů členů vedení než svým vlastním vědeckým povinnostem (Sokal, 2009). K jeho žáků patřil i experimentátora Woodworth a psycholog učení Thorndike. Boring (1950) uvádí, že jeho pedagogický vliv byl větší než ten, o který se zasloužil svými publikacemi. McKeen Cattell spojil britskou tradici měření s americkou poptávkou po nástrojích výběru. Jedním z jeho studentů byl i Wissler. Zkoumal, zda testy predikují školní úspěšnost studentů sousední střední školy a studentů Columbie. Některé výsledky: školní úspěšnost studentů SŠ (n = 90 až 252) a paměť pro sérii čísel korelovala 0,16, síla úchopu 0,08 a pojmenovávání barev 0,02. Skóry neměly téměř žádnou prediktivní hodnotu (r =0,05 až 0.21), a položky v rámci jednoho testu vykazovaly nízké korelace, pravděpodobně konstrukt nebyl jednodimenzionální (Wissler, 1901). Wissler byl zklamán a přešel ke studiu kulturní antropologie. Korelace by byly vyšší, kdyby pracoval s více heterogenním výběrem než se studenty prestižní univerzity. Pokoušel se zodpovědět jednoduché a smysluplné otázky, dodnes se zkoumá vztah inteligence a výkonu. Starší myšlenka rychlosti nervového vedení, reakčního a inspekčního času a inteligence je stále živá a výsledky ukazují korelace mezi 0,25 a 0,50 (Jensen, 1998). Alfred Binet (1857-1911) měl se svým testem inteligence větší úspěch než Galton. Byl editorem „L’Anneé Psychologique“, francouzského časopisu, do kterého napsal o měření vyšších mentálních procesů, k nimž patří například úsudek. Úsudek vyžaduje usměrnění (koncentrace na úkol a na požadavky k vyřešení problému), adaptaci (vybrat správnou myšlenku z mnoha) a schopnost vynechat nedůležité nápady. Blok 3.3 seznamuje s některými okolnostmi Binetova života.
A. Binet, osamělý vědec a otec prvního úspěšného inteligenčního testu. Blok 3.3: Alfred Binet: osamělý vědec Alfred Binet vytvořil užitečný test k zodpovídání praktických otázek, byl ale rovněž teoretikem. Napsal množství knih a článků o konceptu rozvoje, o paměti a o kvalitě dětských výpovědí. Napsal několik scénářů. Byl to skromný muž a špatný obchodník. Neměl žádnou 53
vlastní skupinu spolupracovníků a od svých studentů cítil obrovský odstup. Velice zřídka se účastnil společenských setkání a nikdy nenavštívil kongres, který by se konal jinde než ve Francii. Zrovna tak mu chyběli přátelé, kteří by za něj lobbovali. Dopustil se odborných chyb v případech hysterických pacientů. Se svými spolupracovníky viděli to, co vidět chtěli, a ne to, co se skutečně odehrávalo. Své chyby však otevřeně přiznal a v pozdějších bádáních byl už velmi opatrný. Byl jediným dítětem lékaře a umělkyně. Rodiče se rozvedli a on žil se svou matkou v Nice. V patnácti letech odešel do Paříže studovat práva, ale nikdy jako právník nepracoval. V Paříži navštěvoval knihovny a studoval filosofii, percepci a argumentaci. Jako dobrovolník přišel k Charcotovi, vedoucímu psychiatrovi známé nemocnice Salpetrière. Navázal styky s lékařskou psychologickou laboratoří na Sorbonně (známé pařížské univerzitě). Stal se ředitelem, avšak nehonorovaným. Jeho spolupráce s lékařem Simonem vedla k vytvoření prvního inteligenčního testu, který byl jednoduchý a nenáročný na administraci. Francouzské ministerstvo školství zavedlo povinnou školní docházku a požádalo lékaře Simona, aby navrhl postup, který by pomohl zamezit tomu, aby děti začaly navštěvovat běžnou školy, aniž by měly šanci na úspěch. Binet byl pro tento úkol ideálním partnerem. Binet měl dvě dcery a díky nim si byl vědom, jak náročné je zkoumání dětí. Vůbec nevěřil posudkům učitelů, protože nikdy nebyly v souladu s realitou. Intuitivně uspořádal úkoly (položky testu) podle jejich obtížnosti a dobře odhadl, co by děti v určitém věku měly ovládat. Inteligenci pokládal za uskupení rozmanitých kompetencí. Některé první subtesty jsou dobře známé, např. zapamatování sérií náhodných čísel, slovník, sestavení obrazce z několika dílků, skládání papíru do určitého tvaru. Blok 3.4 obsahuje některé z prvních třiceti položek Binetova-Simonova dětského inteligenčního testu. Blok 3.4: Položky Binetovy-Simonovy škály z r. 1905 (viz Gregory, 2000, s. 12) Sleduje pohybující se objekt očima; Uchopí malý objekt, kterého se dotkne; Rozezná rozdíl mezi čtverečkem čokolády a čtyřhranem se dřeva; Ukáže na známé pojmenované objekty; Porovná dvě přímky výrazně nerovné délky; Porovná dvě hmotnosti; Určí podobná slovíčka podle jejich funkce; Vybaví si z paměti dva motivy ukázané na 10 sekund; Srovná pět dílků do řady podle hmotnosti; Vymýšlí rýmy, např. co se rýmuje se slovem škola; Odpoví na 25 abstraktních otázek (porozumění), např. Když tě někdo urazil a přijde se omluvit, co bys měl udělat?; Po skládání a vystřihování z papíru nakreslí tvar vzniklých děr… Binet a Simon nebyli první, kdo navrhovali tento typ položek. Přejali je od Blina (1902), který se pokoušel o posuzování mentální retardace prostřednictvím jednoduchých otázek a úkolů, jako je čtení, počítání a psaní. Jejich položky se objevují v mnoha jiných testech a byly přeloženy a adaptovány do mnoha jazyků. Po prvním vydání jejich testu následovaly revize z let 1908 a 1911. V roce 1908 byl zaveden koncept „mentální úrovně“. V rámci empirické studie bylo testováno 300 dětí různého věku. Poskytlo to obrázek o tom, kolik dětí z různých věkových skupin odpovědělo na položku správně. Po Binetově smrti v roce 1911 test dobyl Ameriku a Evropu. Terman jej adaptoval na „Stanford-Binetův“ test inteligence a používal ho následujících 60 let ke sledování výsledků vysoce nadaných dětí, tzv. „Termanitů“. Předpokládal, že skór je prediktorem dobrých vyhlídek do budoucna, ale očekávané postavení ve společnosti měla méně než polovina skupiny. Test tedy s jistotou sloužil k predikci úspěchu, ale ne perfektně. Všichni zmínění autoři následovali ducha doby: Galtonova měření byla konsistentní s myšlenkou, že mentální rysy mohou být dědičné stejně jako rysy fyzické, vyvíjející se podle 54
biologických mechanismů. Jako britský empirik uzavřel tuto otázku tak, že „…jediná informace, týkající se vnějších událostí, která se k nám dostane, prochází, zdá se, skrze ulici našich smyslů“ (Galton 1907, str. 19). McKeen Cattell převzal psychofyzický přístup, kterému se naučil od Webera a Fechnera, ale, jak ukázal Wissler, psychofyzický přístup ztroskotal na predikci relevantních kritérií. Také Binet byl dlouhou dobu psychofyzicky orientován (měřil velkost hlavy; senzorické kvality), ale pak přesedlal na vzdělávání (Beins, 2010). Henry Herbert Goddard (1866-1957) přesvědčil téměř každou důležitou instituci v USA, aby vybírala lidi podle jejich inteligenčních skórů. Podílel se na posuzování imigrantů. Nejdříve tuto práci odmítal, později však poslal několik spolupracovníků, aby s nimi udělali testy. Ukázalo se, že unavení imigranti, kteří ani nemluví anglicky, mají velmi slabé výsledky. Závěr Goddardova týmu byl, že mezi lidmi, kteří podali žádost, je mnoho moronů – mentálně retardovaných (viz blok 3.5).
H. H. Goddard, kvakerský učitel, který studoval psychologii a zpopularizoval testy pro úředníky, učitele a zástupce průmyslu. Jeho spolupracovníci vybírali imigranty na Ellis Islandu. Pro popis těchto imigrantů používal termín „moron“. Blok 3.5: H. H. Goddard: Testy jsou užitečné pro každého Goddard intenzivně propagoval rozvoj testování v USA. Svou kariéru považoval za náhodu. Velmi známé a sporné jsou jeho myšlenky o genetické podmíněnosti inteligence. Začínal jako kvakerský učitel, studoval psychologii, ale ne s cílem být vědcem. Podařilo se mu stát se čelnou postavou vývoje testů. Od roku 1908 s úspěchem představil testy ve všech možných institucích a přesvědčil lékaře, veřejné školy, imigrační úředníky na Ellis Islandu, soud a armádu, aby měřili inteligenci. Účastnil se také debaty „nature vs. nurture“. Jako učitel (1906) ve škole pro „slaboduché“ to považoval za vzdělávací problém a výzvu. Po roce 1914 změnil názor a za příčinu mentální retardace začal považovat genetickou výbavu a sociální podmínky. Nejvyšší stupeň mentální retardace nazýval „moronství“, podle řeckého slova „moronia“, které znamená šílený nebo zvláštní. Po vyšetření 400 dětí z ústavů a 1547 normálních dětí zjistil, že 3 % populace jsou 4 roky za normálním výběrovým souborem. Doporučoval ponechávat tuto skupinu lidí mimo společnost. Používal termíny jako „idioti, imbecilové, slaboduší, moroni, degenerovaní, opoždění, mongoloidní, mrzáci, defektní“. Svůj postoj vyjádřil v knize o “Rodině Kalikaků“. Pan Kalikak si vzal za ženu kvakerské děvče, potomstvo měli dobré, samí inteligentní občané, ale pak přišla aférka se „slaboduchou“ barmankou. Se svým potomstvem žil pan Kalikak v špatných podmínkách a chovali se jako kriminální živly. Tuto knihu považoval za skutečný vědecký úspěch. Později se mnoho psychologů podivovalo nad úspěchem tohoto metodologicky špatného výzkumu a mělo za to, že ho způsobily panující politické poměry. Ve své době (a možná až dosud) kniha vzbuzovala debaty plné rétoriky, bílých míst a nedostatku kvalitní logické argumentace (Zenderland, 1999). Od roku 1913 se po počátečním váhání pustil do výběru imigrantů. Jeho spolupracovníci šli na Ellis Island do New Yorku a prováděli inteligenční testy za pomoci tlumočníka. 55
Dělníci a rolníci z několika zemí (Maďarsko, Rusko, Itálie, Dánsko, Židé z celého světa) byli s testem konfrontováni po dlouhé cestě, unavení a nejistí si svou budoucností. Na základě velmi malých výběrů, čítajících od 22 do 50 subjektů vyslovil Goddard závěry o procentuálním zastoupení mentálně retardovaných, tj. o procentu probandů, kteří dosáhli horšího výsledku než průměrný dvanáctiletý subjekt. Test použili nesprávně, 83 % Židů, 80 % Maďarů, 79 % Italů, a 87 % ruských imigrantů bylo označeno za „asi moronský stupeň“ (Goddard, 1912, 1917). Instrukce k neverbálním testům experimentátoři vysvětlovali tak, že hráli jakousi divadelní hru. Mnoho subjektů však během těchto nevalně ztvárněných her usnulo. Goddard měl za svého života mnoho přátel, ale také mnoho nepřátel. Vyhnul se kritice s poukazem na dobu, ve které psal o genetické podmíněnosti inteligence. Dařilo se mu přizpůsobovat přáním vlády a lidu. Byl „psychologem lidí“. V roce 1957 byla vydána jeho poslední kniha o výchově dětí v atomovém věku. Goddardovi následovníci pokračovali v používání testů tak, aby to vyhovovalo agendě tehdejší vládní administrativy. Knox vyvinul „test imbecility“ pro děti a společně s veřejností se shodl na tom, že imigranti a Afroameričané mají slabou úroveň inteligence, nebyl však slepý k jejich „ignoraci“. Položky a úkoly využíval bez odvolání se na zdroj; některé z nich se používají stále. Knox je podle Richardsona (2003) tím, kdo spojuje Goddarda a Binetem. Administrace Stanfordského Binetova testu trvala relativně dlouho. Pyle (1913) navrhl skupinový test se subtesty zaměřenými na logickou paměť, krátkodobou paměť; paměť pro konkrétní a abstraktní slova, vytvoření co nejvíce možných slov z určitých písmen ve velmi krátkém čase; rychlostní test, ve kterém bylo třeba umístit co nejvíce čísel pod odpovídající symboly a na volné asociace (napsat co nejvíce slov poté, co bylo subjektu prezentováno podnětové slovo). V krátké době bylo skupinových testů navrženo více. Yerkes zkoumal všechny mladé muže, kteří museli nastoupit do armády a shromáždil data od více než milionu odvedenců. První světová válka (1914-1918) způsobila obrovské ztráty a vláda chtěla investovat peníze do snížení ztrát tím, že bude vybírat vojáky pro bojové úkoly. V roce 1921 byl vyvinut test Army Alpha a později test Army Beta. Druhý byl neverbální, protože vojáci (imigranti) přicházeli z různých zemí a ne vždy mluvili anglicky. Yerkesova práce zahájila éru testování velkých skupin. Gregory (2005) si všímá toho, že Yerkese si cenili nikoli pro jeho vědeckou práci, ale proto, že dával dobré rady vysokým armádním úředníkům. Zastánci vývoje testů a jejich vydavatelé měli velkou skupinu zákazníků mezi žáky a studenty. V roce 1925 začalo testování školní způsobilosti (Scholastic Aptitude Testing – SAT). Komise pro přijímací řízení (A College Entrance Examination Board) zodpovídala za nástroje a organizaci testování v USA. Vedle výkonových testů se začaly vyvíjet osobnostní dotazníky. Woodworth (1917) vytvořil osobnostní dotazník, který měl pomoci identifikovat vojáky náchylné k nervovému zhroucení při ostřelování nepřátelskou armádou v boji. Velice záhy se tento nástroj ale začal používat i ke screeningu žadatelů, kteří by mohli vyvolávat nepohodu na pracovišti. Bernreuter (1931) měřil neurotickou tendenci, soběstačnost (selfsufficiency), introverzi – extraverzi, dominanci – submisi. Gibby a Zickar (2008) tvrdí, že oba autoři byli posedlí přizpůsobováním zaměstnance a stabilitou osobnosti. V Evropě se k popisu osobnostních rozdílů používal Rorschachův test, který se brzy stal populárním i v USA. Dokonce behaviorista Skinner, který zcela jistě neměl s výzkumem osobnosti nic společného, a už vůbec ne s Rorschachovým projektivním testováním, použil krátký postup k vytvoření slovních asociací pro svou teorii o učení se jazyku (Rutherford, 2003). Shrnutí 3.5 Studenti historie se často odvolávají na vliv sociokulturních událostí (průmyslové revoluce, války) a historických postav. Obojí je v historii diagnostiky relevantní. Společnost se vyvíjela 56
jako průmyslová komunita, čehož důsledkem bylo, že mnoho lidí odcházelo z venkova do měst. Synové už nemohli dále přebírat práci svých otců. Galton vyvinul první postup k měření rozdílů v mentálních schopnostech, aby poukázal zvláště na dědičný základ inteligence a kognice. Test obsahoval psychofyzické položky. McKeen Cattell testovací postup vylepšil a Wissler jej aplikoval k predikci školního úspěchu žáků a univerzitních studentů. Korelace byly velmi slabé. Ve Francii Binet a Simon vyvinuli jednoduchý nástroj pro testování dětí. Jejich test inteligence byl reakcí na zavedení povinné školní docházky. Tento nástroj se stal modelem pro testy inteligence v mnohých zemích. V USA se testy používaly pro imigranty, kteří neuměli anglicky, a mnozí z nich byli označeni za „retardované“. První světová válka a povinné základní vzdělání vynesly na světlo světa skupinové testy: Army Alpha a Beta a Testy školních schopností (Scholastic Aptitude Tests). Používaly se také osobnostní dotazníky, a to k výběru správných lidí (vojáků, zaměstnanců) na správné místo. 3.6 Komentáře a zhodnocení Historie diagnostiky je rovněž historií základních poznatků psychologie. Představuje ovšem příliš různorodou a širokou problematiku. Minulost skýtá velké množství článků a knih, a vzpomínky mají své limity. Neopakujeme náhodou to, co už před námi dělali jiní? Podněty historického přístupu také podporují reflektivní přístup k posuzování. Na období vývoje testů se většinou pohlíží jako na součást historie diagnostiky, která se omezuje na posuzování individuálních rozdílů. Teorie testů se stala strážcem kvality nástrojů. Vyznívá to logicky, protože teorie testů se týká testových skórů a diagnostika je zejména záležitostí testů. Diagnostika je nicméně více než jen testování a existuje množství metod ke sběru a analýze diagnostických dat. Historie ukazuje, že diagnostika se potýkala s potížemi ohledně filosofických otázek vztahu mysli a těla a fyziologického teoretizování o nervovém systému. Dělo se tak na akademické půdě s omezením na několik málo vědců. Ke konci 19. století se situace začala měnit. Testy byly zapotřebí k zařazování lidí pro úkoly a pracovní pozice. Americké společnosti a vláda kladly skutečné otázky ohledně přijímání lidí do zaměstnání. Armáda potřebovala vybírat lidi na náročné činnosti, např. vojáky pro nasazení v boji. Poptávka byla po jednoduchých a spolehlivých testech, které by se daly použít pro mnoho subjektů zároveň. Byla to doslova líheň pro vývoj nástrojů. Atmosféra optimismu společně s vynalézavostí odborníků vedly k vytváření individuálních a skupinových nástrojů, které nasytily společenskou poptávku po inteligentních a stabilních vojácích a zaměstnancích. Devatenácté století bylo také dobou vynálezů strojů, které by ulehčily práci dělníkům. Testy jsou – metaforicky řečeno – stroje, které práci ulehčují diagnostikům. Dnes sice žijeme ve věku počítačů, ale diagnostika a psaní nálezů se změnilo pouze nepatrně. Nástroje, teorie testů a kontrola kvality diagnostiků (povinné výcviky) a testů (reliabilita a validita) přispěly k identitě psychodiagnostika. To v prvé řadě napomáhá jeho odlišení od nevzdělaných či v asociacích nezapsaných psychologů a v druhé řadě od odborníků z ostatních disciplín, jako jsou lékaři a psychiatři. Měření má dlouhou historii. Po filosofickém začátku se stalo předmětem matematických úvah o měření chyb. Ty byly použity na lidské úsudky a chování. Klasická teorie testů a teorie odpovědi na položku jsou relativně mladé, ale zanedlouho se dostaly do odborného povědomí, a posloužily k návrhům vzdělávacích testů. USA měly opět vůdčí pozici ve výzkumu žáků a studentů v širokém měřítku. Teorie testů je užitečná, ale její zaujetí latentními rysy a individuálními rozdíly si zasluhuje kritickou diskusi. Z historického úhlu pohledu se může zdát, že posuzování chování spočívá ve skórování v testu a skórování v testu spočívá v měření rysů a odhadu chyb měření. I když toto pojetí má své limity, dobře zachycuje hlavní kritéria kvality. Tento skromný pohled na historii diagnostiky ukazuje, že jej ovlivnily mnohé zdroje, od čisté vědy až po nejširší veřejnost. 57
Historie se vztahuje k testům a individuálním rozdílům v rysech a přispívá k identitě diagnostika. Diagnostik by si měl být vědom, že původ testů je pragmatický: jejich cílem je predikce a kontrola. Při testování nejde v první řadě o adekvátní popis a testování behaviorálních teorií o chování klienta. To, co vládne zde a nyní, je výsledkem historického procesu a může se měnit. Koncepty a termíny v kapitole 3: HISTORIE DIAGNOSTIKY Slabá místa, Funkce, Užitečnost studia historie posuzování Vztah mysli a těla (Helmholtz, Fechner, Wundt) Poptávka po užitečných aplikacích posuzování (USA) Funkční a behaviorální perspektiva v USA Objektivní přiřazování testových skórů Teorie chyb pozorování Korelační přístup k reliabilitě ANOVA-přístup k reliabilitě Model skutečného skóru Model očekávané hodnoty Standardy pro didaktické a psychologické testy (APA) Historické a moderní „krysí závody“ Přínos psychiatrie 19. století k diagnostice Přínos experimentální psychologie a fyziologie 19. století k diagnostice MMPI Diagnostika a sociální kontext 19. století Sir Francis Galton James McKeen Cattell Alfred Binet Test Army Alpha Test Army Beta Test školních schopností (Scholastic Aptitude test – SAT)
ČÁST 2 Kontroverze, postupy, reliabilita a validita, kvalita diagnostiky 4. KLINICKÁ VERSUS STATISTICKÁ PREDIKCE: KONTROVERZE MINULOSTI Status diagnostiky jako seriózní vědecké aktivity bylo třeba vytrvale bránit. Dobrou ilustraci poskytují vleklé diskuze o tom, zda používat pouze empiricky ověřené nástroje nebo stavět na zkušenostech a schopnostech kliniků. Počátky této kontroverze sahají do dvacátých letech 20. století a trvá dodnes. Co ji zapříčinilo? Je možné propast mezi statistickým a klinickým přístupem přemostit? Jaké má důsledky pro predikci? Jak klinici integrují diagnostické informace? Jakou roli hrají modely a směrnice při zlepšování úrovně diagnostiky? Jsou normativní ekonomické modely a statistická pravidla realistická a dostatečně uživatelsky přívětivá? 4.1 Původ klinicko – statistické predikční kontroverze V 19. století se v psychologii i diagnostice začal řešit problém vztahu mysli a těla. Základní otázkou bylo, jaký vztah mají charakteristiky objektů a podnětů k percepci a co je příčinou rozdílů v percepci. Na začátku 20. století nastalo oživení Kantovy filosofie (1724 – 1804; viz Honderich, 2005). Jeho epistemologie byla kombinací britského empirismu, německé 58
filosofie a francouzského racionalismu. Lidé nemohou poznat objekt “sám o sobě“, pouze jeho konkrétní vlastnosti poté, co je pozorovali. Existují pouze tři vlastnosti získávání poznatků, tj. takové, které jsou přítomny před jakýmkoliv pozorováním: příčina, prostor a čas. Dle tohoto filosofa existuje tady „správná teorie“ kauzality, kterou, jak poznamenává Goodman et al. (2011), se lze naučit velice rychle, protože tato „správná teorie“ a „dar abstrakce“ jsou možné pouze díky přítomnosti apriorního úsudku. Podle Kanta ani tento minimální „nativismus“ neplatí bez výjimky. Na konci 19. století byla na výsluní tvrdá věda, hlavně fyzika, chemie a biologie. Následovníci Kanta se zamýšleli nad tím, jestli vědy historické a psychologické mohou být s vědou vůbec srovnávány. Windelband byl s Kantovou prací obeznámen. Ve svém děkanském proslovu (1894) vůbec poprvé rozlišil mezi nomotetickým a idiografickým (Hurlburt & Knapp, 2006). Idiografická studia, např. historie, zkoumají jedinečné a nezaměnitelné. Zahrnují popis komplexních objektů, událostí a fenoménů. Musí být konkrétní a vyčerpávající. Nomotetické se vztahuje k výzkumu univerzálních zákonů pomocí analytického myšlení a experimentů. Ty lze aplikovat na všechny objekty, události, fenomény a jednotlivé osoby. Windelband tvrdil, že každý objekt či osobu lze zkoumat oběma přístupy. Studenti psychologie si kladou otázku, který přístup by měl dominovat jejich disciplíně. Hugo Münsterberg (1863-1916), psycholog organizace, považoval historii za disciplínu idiografickou, ale psychologii za nomotetickou. Na začátku 20. století ale v každém případě mnoho psychologů pracovalo s vyčerpávajícími popisy konkrétních osob. To se jeví jako postup idiografický, zazněly však i názory, že i jediný případ by mohl napomoci odhalit univerzální zákony. Freud např. tvrdil, že hledá všeobecné zákonitosti hysterie analýzou jediné osoby. Důsledkem toho bylo, že k nalezení příčiny hysterie nebylo potřeba reprezentativního výběrového souboru. Skinner by taktéž charakterizoval své n = 1 modifikační studie chování jako nomotetické. Jinými slovy: oba přístupy nelze ostře odlišit. Idiograficko-nomotetická debata vstoupila do americké psychologie s Gordonem Allportem. V učebnicích osobnosti se jeho pohled interpretuje jako obrana idiografické orientace při vysvětlování chování. Často se cituje jeho výrok, že můžeme predikovat (nomoteticky) se 100% jistotou: „Pokud sedm z deseti Američanů bude každý týden chodit do kina, neznamená to, že mám šanci 7 z 10, že tam půjdu taky. Pouze znalost mých postojů, zájmů a okolní situace vám prozradí něco o mé šanci a pozvedne vaši predikci z výroku se 70% určitostí na 100% spolehlivou individuální predikci“ (1942, str. 16-17). Allportův přístup lze lépe označit za smíšený, protože rovněž napsal: „...kompletní studie obsáhne oba přístupy“ (s. 32).
Názor G. W. Allporta na osobnost a na to, jak studovat osobnost, měl vliv v USA i v Evropě. Během historie této duality se objevilo několik autorů, kteří prosazovali spíše spojení obou přístupů než jejich kontroverzi. Filosofové, počínaje Piercem (1935), považují nomotetickoidiografickou diskrepanci za neobhajitelnou, protože jakýkoliv zákon je „kontextualizován“ časem, prostorem a sociálními okolnostmi. Dokonce i gravitační zákon je omezen specifickými podmínkami. Pierce rozlišil tři elementární způsoby logického myšlení: abdukci, 59
která spočívá v testování řady fakt a umožnění toho, aby tato fakta poskytla podnět vzniku teorie; dedukci, tj. nezbytný úsudek, který však lze využít pouze při ideálním stavu věcí, nebo při takovém stavu, kdy se věci v maximální možné míře blíží ideálu; a indukci, neboli experimentální výzkum. Toto rozlišení se jeví jako kontraindikace vůči snaze o upevnění kontroverze mezi klinickou (idiografickou) a statistickou (nomotetickou) predikcí, v diagnostice se však právě taková kontroverze objevila a přežívá dodnes. Podle Cautina (2011) se vztahuje k současné propasti mezi vědci a praktiky, která rozděluje psychology na ty, kteří věří klinickému úsudku, a ty s vírou v empirické studie. Diagnostik je seznámen s idiografickou informací. Vlastně veškeré poznatky o chování osoby začínají informací idiografické povahy. Tímto způsobem zkoumání jednoduše rozpoznává dynamickou a systémovou povahu lidského chování a tím jeho jedinečnost. To nevylučuje induktivní zobecňování. Jak uvádí Salvatore & Valsiner (2010), oba přístupy nejsou konkurenční. Shrnutí 4.1 Říká se, že klinicko-statistická kontroverze má původ v rozlišení idiografického (jedinečného, nezaměnitelného klienta) a nomotetického (univerzální zákony pro všechny klienty), jak je formuloval filosof Windelband. Jde o rozlišení, nikoli o kontroverzi, protože mnoho autorů obhajuje smíšený přístup. Rozdělení se nepřekrývá se specifickou metodou, např. s používáním objektivních testů vůči rozhovoru nebo výběru vůči jednomu subjektu. Nomotetické studie s jedním klientem považovali za možné autoři jako Freud a Skinner. Allport, ačkoli bývá považován za zastánce jedné ze strany kontroverze, neboť obhajoval idiografické postupy v psychologii osobnosti, namítal, že je pro smíšený přístup, díky kterému je možné zlepšit predikci chování konkrétního klienta. Toto rozlišení se však používá pro vysvětlení základní příčiny klinicko-statistické kontroverze. 4.2 Klinická versus statistická predikce Propast mezi klinickou a statistickou predikcí naznačuje, že se zdůrazňují rozdíly (viz blok 4.1). Blok 4.1: Přetrvávající debata mezi kliniky a statistiky V každodenním životě se nezabýváme záležitostmi, jako je rozlišování mezi klinickým a statistickým nebo vědeckým a pseudovědeckým přístupem. Existuje přinejmenším tolik „alternativních lékařů“, „léčitelů“, jako je všeobecných lékařů. Ti dříve jmenovaní slibují pomoc, když žádný všeobecný lékař nemůže ulevit od bolesti. Přijímáme to do doby, než se objeví skutečný problém. Kdyby známá filmová hvězda hledala pomoc v alternativní medicíně a zemřela, byl by chvíli rozruch, na ten by se ale brzy zapomnělo a lidi by začali opět navštěvovat léčitele. Tito profesionálové a neprofesionálové zjevně vzájemně neohrožují své společné zájmy. To však nelze říci o klinicích a statisticích. Oba tábory vytýkají druhé straně nevědeckost nebo neetické chování. Ingredience pro skutečnou kontroverzi jsou zde: za prvé jsou tu dvě strany, které lze jasně rozlišit; za druhé, kontroverzi vytvářejí respektovaní odborníci; a za třetí, jeden se sám prohlašuje vítězem: statistická predikce je nadřazená. Za čtvrté, je tu i další protivník: psychiatři vyjádřili názor, že toto srovnání není správné, neboť diagnóza není (nebo jen z 5 %) záležitostí predikce, ale pomoci. Nebylo to férové i proto, že pravidla hry zvýhodňovala statistiky a zúčastnění klinikové neměli potřebné zkušenosti. Za páté, oponenti reagují: ve všech případech jde o reálný problém, protože klinici a statistici formulují rozdílné predikce. Jak to uchopit např. u soudu? Zvítězila statistická predikce. Obraz empatického, pomáhajícího a moudrého klinika je poškozen, jak to triumfálně uzavřel Robin Dawes v Science (1989). Když existuje kontroverze, nováčci se přiřadí do jednoho ze dvou táborů, žádný „mezitábor“ jednoduše není. Členové se pokoušejí vysvětlit 60
přitažlivost tábora v termínech psychologických vlastností: statistici se bojí lidí a klinici čísel a vzorců. Pokusy o mediaci, zdůrazňující slabiny a silné stránky obou, jsou obvykle marné! Podle klinického přístupu je objekt subjektem, tj. osobou s jedinečnými vlastnostmi, která žije ve svém konkrétním sociálním kontextu. Otázku, zda bude klient úspěšný ve škole, lze zodpovědět na základě kombinace jeho unikátních charakteristik, zkušeností a sociálního kontextu. Pro tohoto klienta se navrhne teorie, aby vysvětlila jeho chování. Ta přináší popis a radu, někdy (v pěti procentech, jak uvádí Holt) ve formě predikce, např. jeho reakce na léčbu, pravděpodobnosti recidivy nebo pracovního úspěchu. Hermeneuticky se obrázek o klientovi tvoří za pomoci informací z jeho života, práce a rodiny. Klinický diagnostik využívá svou zkušenost s jinými podobnými případy a implicitní i explicitní koncepty o (abnormálním) chování. Shodně se statistickým přístupem je klient klasifikován v rámci skupiny podobných případů. Ke slovu přichází empirická znalost o tom, jak se tato skupina chovala v minulosti. Predikce se zakládá na parametrech vypočtených u reprezentativních skupin. Jak klinik pokračuje? Vstupuje do interaktivního dialogu s klientem. Nejsou tu žádné standardizované otázky. Jde o rozhovor se svou vlastní dynamikou. Neexistuje žádný vzorec, kterým se přiřadí váha několika zdrojům a druhům informací, včetně testových a dotazníkových skórů. Klinik se pokouší pochopit klienta a usiluje o „stoprocentní predikci“, jak by řekl Allport, anebo, řečeno slovy skromného diagnostika, „o maximální redukování neurčitosti klienta“. Jak pokračuje statistik? Dává přednost objektivním testům, dotazníkům a dalším kontrolovatelným informacím. Testová data lze interpretovat pomocí norem skupiny, do které klient patří. Skóry se používají k vytvoření profilu, který se srovnává se skupinovým profilem. Nevytváří žádnou teorii pro konkrétního klienta. Závěr má podobu vyjádření pravděpodobnosti, protože korelace mezi počtem prediktorů a kritériem není nikdy 1,00. Jak je klinik charakterizován? Einhorn (1986) označil kliniky za deterministy. Považují chování, kognici a emoce za vyjádření základních kauzálních procesů. Rekonstruují minulost takovým způsobem, že nutně na mysl přichází současné chování a může být dokonale předpověděno. Podobá se lékařům, kteří se snaží najít specifickou a nezbytnou příčinu nějaké konkrétní nemoci. Klinici sami sebe charakterizují jako dynamické, globální, smysluplné, flexibilní a holistické, ale jejich odpůrci je popisují jako primitivní, předvědecké, ufňukané a nekontrolované. Jak je charakterizován statistik? Akceptuje chyby, protože ty obsahuje každý prediktor a kritérium měření. Je přesvědčený, že všechno poznání je fragmentované. Každý model je jenom částečným přiblížením se realitě chování. Přijetí chyby vede dokonce k méně chybám, argumentuje Einhorn. Odvolává se na studie pravděpodobnosti. Představte si, že v krabici je 60 % červených a 40 % bílých míčků. Náhodně je vyberete z krabice. Požádáte subjekty, aby brali míčky z krabice jeden po druhém a předpovídali, jakou bude mít barvu příští míček. Pokud se někdo snaží pochopit systém důkladnou prohlídkou souboru červených a bílých míčků, tak nikdy neřekne pokaždé „červená“. Pokud by to udělal, jeho skór by byl 60 %. Ale pro někoho, kdo objeví pravidlo, bude skór 52 % (0,60 x 0,60 + 0,40 x 0,40). Statistici sami sebe nazývají přísnými, vědeckými, přesnými a pečlivými. Klinik by řekl: pedant, fragmentující, triviální a nepřirozený. Kdy, za jakých podmínek, využívají oba své vědomosti? Klinici pomáhají klientům s otázkami a problémy. Statistici propagují vědu, a to je podle nich jediná náležitá pomoc, jakou je možno klientům nabídnout. Nadto, propast mezi nimi představuje realitu, zosobněnou i v dílčích kontroverzích, jako „jeden klient versus skupinové rozdíly“, „dialog versus skóry“ a v kontrastujících postojích účastníků. Byť by autoři jako Allport neměli za cíl tuto propast rozšiřovat, v literatuře je to 61
tak interpretováno, i když Sarbin (1944) zdůrazňoval podobnost obou přístupů. Tvrdil, že oba vykazují hledisko četností: statistická četnost chování ve skupině a četnost klinické zkušenosti s podobnými případy. Toto tvrzení však kontroverzi nezabránilo. Svou roli jistě sehrálo i označení kliniků za „poražené“. Argument zněl, že statistická predikce s regresní rovnicí minimalizuje součet (řešení nejmenších čtverců) a bude mít před klinickou predikcí vždy navrch, pokud bude mezi prediktorem a kritériem lineární vztah. Shrnutí 4.2 Přestože klinická a statistická predikce byly původně považovány za komplementární nebo obdobné, od 40. let 20. století se mezi nimi otevírá propast, která zdůrazňuje rozdíly v objektu (jedinečný subjekt nebo příslušník skupiny), v tom, „jak“ diagnostika probíhá (hermeneutický dialog nebo objektivní standardizované metody), v tom, „kdo“ je v roli diagnostika (klinik je intuitivní romantik oproti statistickému vědci) a v tom, „kdy“ je diagnostika na místě (při pomoci potřebným, či názor „nakonec nejlépe pomůže výzkum“). Pokud někdo prohlásí sebe za vítěze a toho druhého za poraženého, můžeme dozajista hovořit o propasti. 4.3 Obsah kontroverze Diskuze se ubírala specifickým směrem díky výzkumu Paula Meehla (1920-2003), uveřejněnému v jeho „malé znepokojivé knížečce“ z roku 1954: „Klinická versus statistická predikce: teoretická analýza a přehled důkazů“.
P. Meehl: filosof, psycholog, metodolog a terapeut. Meehl konstatoval, že Allport implicitně přijal myšlenku statistické predikce, protože by rovněž akceptoval 99 % nebo 80 % kvůli tomu, že 100% predikce je velmi výjimečná. Rozhodně bychom se nedrželi pravděpodobnostních tabulek pojistné matematiky8 ve speciálních a abnormálních podmínkách, např. pokud by náš profesor byl nemocný, nebo dostal Nobelovu cenu. Meehl jasně určil zásadní kvalitativní rozdíl: oba přístupy kombinují množství dat, ale jeden s pomocí empiricky validního vzorce a druhý intuitivně, ve své hlavě. A častokrát tyto dva přístupy nevedou k stejnému výsledku. Meehl dává příklad pojistné tabulky, podle které se předpovídá, že odsouzený má 80% pravděpodobnost, že do tří let spáchá trestný čin. Empatický sociální pracovník řekne, že jakákoli recidiva je téměř nemožná. Soudce u soudu nemůže pracovat s takto rozpornými informacemi. Jedna kapitola Meehlovy knihy popisuje dvacet studií, ve kterých se porovnávaly výsledky klinicky a statisticky podložených rozsudků. Výsledkem bylo, že „...až na jeden, ve kterém predikovali na základě pravděpodobnostních pojistných tabulek, byly buď přibližně stejné, nebo kvalitnější než ty, jejichž autory byli klinici“ (1954, str. 119). Za touto „metastudií“ následovaly další: v roce 1996 došli Grove a Meehl ke stejnému závěru při porovnání 136 studií o diferenciální přesnosti dvou procedur, zvaných neformální, subjektivní, romantické a impresionistické, oproti formálním, mechanickým, algoritmickým 8
orig. „actuarial tables“, tabulky, vytvářené v rámci oborů pojistné matematiky a demografie k určení pravděpodobnosti např. výskytu určitých událostí nebo onemocnění na základě vzorců s dosazením známých skutečností –pozn. překl. 62
predikcím. Reagovali na nejzávažnější námitky klinických diagnostiků a vyvrátili je. Následuje shrnutí tehdejších i dnešních aktuálních bodů kontroverze: klinici budou namítat, že dělají obojí a o žádnou kontroverzi se tedy nejedná; objektivní nástroje nejsou kvalitnější, než naše postupy; v praxi neexistuje žádný regresní vzorec, který bychom mohli použít; vzorce se na mé klienty nedají použít; predikční studie jsou příliš drahé; predikce není naším cílem, pomáháme změnit nebo přijmout chování klienta; průměr není pro mého klienta zajímavý; pracujeme idiograficky, nikoli nomoteticky; klinická data jsou kvalitativní, regresní rovnici nelze vypočítat; s klientem si povídáme; komparativní studie používají jako subjekty naivní a nezkušené kliniky; naším cílem je pochopit, ne predikovat; metody pojistné demografie jsou pravděpodobnostní, my potřebujeme jistotu; vzorce rychle zastarají. Meehlova definice kontroverze a srovnání obou přístupů přiživuje debaty dodnes. Jeho vysvětlení je, že lidé jednoduše nemohou přiřadit optimální váhy proměnným, a jsou dokonce nekonzistentní v aplikování svých vlastních vah. Z „klinické“ a „psychometrické“ diskuze se stala soutěž, „zápas“. Dle uvedené analogie je potíž opravdu v tom, že se do play-off postavil na začátku průmyslové revoluce člověk proti stroji – a prohrál. Už v roce 1961 De Groot navrhl vylepšený design, který je kombinací obou přístupů. Ten lze využít například, pokud řešíme problém s predikcí na základě různých kritérií, např. predikujeme školní úspěch z daného souboru prediktorů, např. z Testů školních schopností – SAT (Scholastic Aptitude Tests), z IQ a výkonové motivace. K dispozici jsou skóry pro každého jednotlivce ve výběru a vzorec, založený na předešlých validizačních studiích. Dáme klinikům všechny tyto informace, použijí je a rovněž mohou využít veškerá další data, která chtějí, např. výsledky projektivních testů, odpovědi na otázky z rozhovoru, data od dalších významných osob a objektivní údaje o rodině. Klinici mají více informací, než je zahrnuto v predikčním vzorci. Predikce ze vzorce lze porovnávat s těmi od kliniků. Někdo může namítnout, že „to není fér“, ale „férovost“ není metodologický koncept. „Pokud by férovost byla hodnotou, pak bychom nikdy do play-off před sebe nepostavili hypotézu oproti tak ignorantní záležitosti, jakou je nulová hypotéza“, uvedl De Groot. Zlepšovací návrh funguje, pokud klinici s využitím vzorců identifikují méně falešných pozitiv a negativ, než jen samotné vzorce. Autor zpřístupnil klinikům vzorec a množství dalších informací využitelných k predikci školního úspěchu. Zlepšení nebylo významné a někdy byl výsledek dokonce negativní. Příliš mnoho informací může patrně kazit práci klinika. Padesát let poté analyzovali Westen a Weinberger (2004) kontroverzi znovu, a pokoušeli se, podobně jako De Groot, najít místo pro aktivity a kvality kliniků. Rozlišili dva významy „klinické aktivity“: první je Meehlova pozice, neformální, subjektivní integrace informací. V důsledku kontroverze se klinická zkušenost a snahy o vyškolení kliniků považují za neúspěšné. Druhý význam se váže k mentálním procesům a produktům kliniků a k jejich praktickým zkušenostem. Tyto procesy nejsou chybné. Za podmínek, které maximalizují jejich zkušenosti (např. používání objektivních testů, vytváření úsudků na příslušné hladině obecnosti, využívání dovedností, v nichž jsou dobře vyškolení, predikce pouze v oblasti jejich odbornosti, zpětná vazby) jsou jejich posudky spolehlivé a platné.
63
Shrnutí 4.3 Kontroverzi definoval a prohloubil Meehl. Týká se způsobu integrace informací o klientech (intuitivně versus na základě vzorce), otázkou bylo, který přístup předpovídá kritéria lépe. Porovnání prokázalo nadřazenost statistické predikce. To vytvořilo skutečný rozkol. Jiní autoři nepovažují přístupy za kategoricky odlišné, protože existují obecné zákony, kontextualizované zákony a osobní významy. Oba přístupy se dají skloubit do „vylepšeného designu“: klinici obdrží všechny informace včetně vzorců a mohou shromažďovat jakákoli další data, na jejichž základě by mohli predikovat kritéria, např. školní úspěch. Očekává se, že budou předpovídat lépe než samotný vzorec. V nedávné době se začal zdůrazňovat přínos kliniků. Pokud jsou dobře vyškolení a kvantifikují svá pozorování, přispějí k inkrementální validitě vzorce, ale kontroverze není koncepčně ustálená. 4.4 Empirický výzkum k urovnání kontroverze Podle Meehla a jeho studentů je „vše hotovo“. Máme vítěze a poražený se s tím musí smířit. To ale neznamená, že by nadále nepokračovaly studie, které porovnávají klinickou a statistickou predikci podle Meehlových pravidel: obě skupiny vycházejí ze stejného materiálu, výzkumu se účastnili jak naivní, tak zkušení klinici, a je jasně stanovené, jaké kritérium se bude predikovat. Sawyer (1965) byl jedním z prvních autorů mimo Meehlovu výzkumnou skupinu, který udělal 75 takových srovnání ve 45 studiích. Rozlišoval mezi způsoby shromažďování informací: pozorování, dojmy, rozhovory s klientem versus objektivní testy a dotazníky. Závěr byl, že objektivní testy v kombinaci se vzorci vedou k lepším výsledkům. Tento přístup porazil klinické predikce v 75 % případů. Klinici se vůči tomuto výsledku ohradili. Psychiatr Holt (1970) Sawyerovi vyčítal absenci křížové validizace (která může pomoci rozpoznat, zda se predikce nemění u dvou nebo více podobných výběrů, aby se zjistilo, zda je výsledek stabilní), že jenom ve 12 ze 45 studií bylo predikováno realistické kritérium, ve 23 ze 45 studií se účastnili nezkušení klinici, že výběry byly malé a vzorec srovnávali s výsledky průměrných, nikoli zkušených kliniků. Jak jsme uvedli výše, Grove a Meehl (1989) všechny námitky vyvrátili. Argument, že výsledek soutěže není podobný pro rozdílné klinické oblasti, je napaden Dawesem et al. (1993): statistická predikce je lepší v mnoha oblastech: školní úspěch, defraudace ve firmách, předpokládaná délka života, úspěch armádního výcviku, infarkt myokardu, neuropsychologická onemocnění, podmíněné propuštění, ukončení policejní akademie, znásilnění a psychiatrické diagnózy, zejména rozdíl mezi neurózou a psychózou. Příklad je uveden v bloku 4.1. Blok 4.1: Populární téma: Predikce násilí a delikvence Meehl uvádí, že lineární model se třemi proměnnými (typ zločinu, počet rozsudků a porušení vězeňského řádu) predikoval recidivu (r = 0,22) lépe, než posudek znalců (r = 0,06). Úroveň závažnosti trestných činů korelovala 0,27 se znaleckým posudkem, ale 0,47 s jednoduchou dichotomickou proměnnou užívání heroinu. Konkrétní příklad je predikce rizika násilí mezi forenzními pacienty. Harris et al. (2002) použili postup statistické predikce, nazvaný Příručka pro odhadnutí rizika násilí – VRAG (the Violent Risk Appraisal Guide), v pětileté navazující studii 467 mentálně narušených mužských pachatelů. Statistická predikce formou VRAG byla úspěšnější než klinické posudky od forenzních psychiatrů. Zahrnovala tři typy proměnných: 1. spolehlivé údaje o zázemí (dětství, přizpůsobení v dospělosti, IQ a osobnostní proměnné, charakteristika přestupku, klinické nástroje). 2. klinické potřeby pachatelů. 3. potřeby supervize, odhadnuté experty. 64
Násilná recidiva byla definována jako jakákoliv obžaloba za násilný čin proti osobám (např. napadení, napadení způsobující tělesnou újmu, zranění, únos, ozbrojená loupež, všechny kontaktní sexuální přečiny). Pacienti, kteří měli příležitost k recidivě, a skutečně se u nich prokázalo násilné chování, měli vyšší VRAG skóry než pacienti, kteří nespáchali žádné násilné činy. Ženy měly nižší skóry, z čeho vyplývá malý rozptyl, a malý rozptyl snižuje šanci kovariance a tudíž i korelace. Níže zmiňujeme dvě extenzivní metastudie, které měly za cíl ukotvit kontroverzi empiricky. Po Sawyerovi se jejich autoři pokoušeli přinést s ohledem ke kontroverzi definitivní závěry. Metastudie je náročný postup, který vyvozuje spolehlivý závěr z množství podobných empirických výzkumů. Každá studie se považuje za prvek ve výběru. První je od Grovea et al. (2000), Meehlova žáka a spolupracovníka. Jejich závěr se neliší od Meehlovy „metastudie“: „...ve všech (n = 20) až na jeden, ve kterém byly predikce formulovány pomocí metod pojistné matematiky, byly výsledky buď přibližně stejné, nebo kvalitnější, než ty, k nimž došli klinici“. Studie je blíže popsána v bloku 4.2. Blok 4.2: Extenzivní metastudie: je lepší klinická nebo statistická (mechanická) predikce? Grove et al. (2000) provedli metastudii o klinické versus mechanické predikci. „Mechanická“ zde znamená založená výhradně na statistických kombinacích. Sesbírali studie ze souborů „Psylitu“ (v současnosti PsychInfo) a MedLine z let 1966 až 1998. Sawyer již dříve prozkoumal studie do roku 1966. Přiložili studie z relevantních časopisů. Znalec, klinik, diagnostik i vzorec by měl pracovat se stejnými prediktory i kritérii. Vybrali 163 studií, ze kterých 136 splňovalo kritéria pro zařazení do výzkumu. Jedna studie mohla obsahovat i více než jedno srovnání, celkový počet srovnání byl 617. Studie se kódovaly pomocí roku vydání, typu (kapitola v knize, článek v časopise, doktorská práce) a typu prediktoru (objektivní, subjektivní, osobnostní dotazníky, znalecké posudky). Zaznamenány byly rovněž charakteristiky kliniků (vzdělání, zkušenosti, výcvik) – to kvůli Holtovým námitkám k Sawyerově studii. Kódován byl také typ prediktoru (kategorický, tj. patřící do DSM poruch A, nebo B, C, nebo škálování, např. skóry testu SAT pro školní úspěšnost), a úroveň přesnosti (tj. rozdíl mezi dvěma prediktory). Měřítkem „úspěchu“ byl počet správných predikcí a úroveň korelačních koeficientů. Studie byly spolehlivě skórované nezávislými znalci a bylo stanoveno kritérium k určení toho, jestli byly predikce lepší nebo stejné. Sledovány byly různé typy chování, poruch a nemocí: recidiva, školní úspěch, vůdcovství, podvody (např. simulace nemoci), delikvence mladistvých, vazba, psychiatrická diagnóza, násilí, podmínečné propuštění, spokojenost v manželství, produktivita, manažerský úspěch, „diagnóza“ homosexuality, bankrot společností, profesní spokojenost, adaptace, úspěch začínajícího podnikatele, úspěch terapie. Výsledky zpřesňují a potvrzují studie předešlé. 47 % predikcí bylo ve prospěch statistických, mechanických nebo pojistně demografických postupů, a 47 % vyšlo „nerozhodně“. V osmi studiích (6 %) dosahovala lepších výsledků klinická predikce. Aegisdottir et al. (2006) provedla metastudii výsledků 56 let akumulovaného výzkumu odborníků na duševní zdraví. V rámci 67 studií bylo provedeno 92 srovnání. Ty dále doplnili výpočtem velikosti účinku – ESs (effect sizes). Cohen (1988) doporučil velikost účinku k porovnání korelací a rozdílů průměrů. Navrhl číselné vyjádření pro váhu rozdílů, kromě statistické významnosti p < 5 % nebo < 1 %. Vážený průměr velikosti účinku (d) se používá k znázornění rozdílů mezi přístupy, tj. rozdíl průměrů mezi dvěma výběry studií vyjádřen jednotkami standardní odchylky, upravený pro velikost výběru. Velký vzorek přispívá k dhodnotě více než malý vzorek. Uvedená d-hodnota je rozdíl mezi průměrnou přesností odhadu 65
jednoho přístupu a průměrem přesnosti odhadu druhého přístupu, dělený společnou směrodatnou odchylkou a upravený vzhledem k velikost výběru. S touto studií blíže seznamuje blok 4.4. Blok 4.4: Statistická versus klinická predikce v práci s mentálním zdravím Studie Aegisdottir et al. z roku 2006 je navržena podobně jako studie Grovea et al. Používá stejné standardy pro selekci a reliabilitu. Zkoumá 11 oblastí: poškození mozku, osobnost, délku léčby nebo pobytu v nemocnici, diagnózu, přizpůsobení nebo prognózu, násilnou povahu trestného činu, IQ, akademickou činnost, zdali byl profil MMPI skutečný nebo fiktivní, pokusy o sebevraždu a homosexualitu. V konzervativní části výběru (n = 36), která zcela splňovala všechna výběrová kritéria, se velikosti účinku lišily od 0,57 ve prospěch klinických metod do -0,73 ve prospěch metod statistických. Výpočet d-hodnoty se uskutečnil odečtením klinických průměrů od statistických; to vysvětluje záporné znaménko. Celkový výsledek vypovídá o mírně větší přesnosti statistických metod. Na „konzervativním“ výběru byl identifikován 13% nárůst přesnosti v souvislosti s využitím statistických metod. Tato metastudie opět podporuje statistickou predikci. Studie Aegisdottir et al. potvrdila závěr Meehla z roku 1954. Obě meta-studie obsahují doplňkové informace, protože je možné zkoumat faktory, které ovlivňují velikost účinku. Grove et al. nenašli žádný vztah k roku a kvalitě publikace (knihy a kapitoly se obvykle hodnotí níže než články v časopisech a to, co je novější, se často rovná lepšímu). Statistická predikce byla o něco lepší v medicínském než klinickém psychologickém settingu. Bez ohledu na druh predikce nedosahovali lékaři lepších výsledků než psychologové. Zkušenost a výcvik kliniků nijak neovlivnil kvalitu jejich predikcí. Aegisdottir et al. objevili, že typ predikce měl slabý efekt. Polovina z nich (přizpůsobení nebo prognóza, násilná trestná činnost a školní úspěch) byla predikována lépe (d = - 0,14 až -0,17). Pozoruhodným zjištěním bylo, že klinici, kteří nepocházeli z prostředí, kde se sbírala data, predikovali o něco lépe, než „domácí“ klinici. Jevili se jako přesnější, pokud pracovali s méně známými nebo neobvyklými daty. Vzorce na predikci typu (regresně nebo logicky konstruovaná pravidla, vypůjčená ze slovních protokolů zkušených kliniků) vyzněly ve prospěch regresních vzorců; logická pravidla byla shodně úspěšná s klinickými metodami. Množství informací pomáhá klinikům jen do určité míry, příliš mnoho informací snižuje přesnost jejich práce. S tímto fenoménem jsme se již setkali ve studii De Groota (1961): klinici, kteří měli přístup k predikčním vzorcům, nevykázali žádné zlepšení v přesnosti predikce. Začátečníci jsou stabilně překonáváni vzorci a kliničtí experti dosahují úrovně vzorců. O zhruba stejných výsledcích podávají zprávu už dříve Garb (1998) v extenzivní monografii a ve svém přehledu i Wood et al. (2002). Nevyhnutelný závěr tedy zní, že upřednostnit je třeba statistickou predikci. A jak tomu už často bývá, vítěz má tendenci „vzít si vše“. Dawes et al. (1994, 2000) jsou příkladem „vítězů“, ale jejich vítězství není tak slavné, za jaké ho sami považují; přibližně polovina případů dopadla nerozhodně. Neoprávněně argumentují, že klinická predikce „vytváří dobrý příběh“, „vyjadřuje nadšení pro iracionalitu“, a „demonstruje důvěru v něčí vlastní pocity a domněnky“. Shrnutí 4.4 Meehlova monografie naznačuje těžiště kontroverze: typ shromažďovaných dat a především způsob integrace informací. Provádějí se studie, které mají přinést empirické doklady o tom, který postup je lepší. Ukazují, že statistická predikce má navrch, a námitka, že srovnání není
66
fér, je vyvrácená. Nadřazenost statistické predikce je zřejmá v mnoha oblastech. Konkrétním příkladem je predikce pravděpodobnosti recidivy vězňů. Po Meehlově monografii potvrdilo jeho závěry několik metastudií. Klinická predikce, pokud se provádí s explicitními, transferabilními pravidly, je v přibližně 45 % srovnatelně úspěšná jako predikce statistická. Vzorec je lepší asi v 50 % případů a zhruba v 5 % případů je lepší výsledek predikce klinické. Vůči těmto studiím má námitky psychiatr Holt, který poukazuje na zajímavé skutečnosti: kvalita predikce nemá vztah k vnímané kvalitě zdroje literatury; medicínská kritéria jsou predikována lépe než psychologická, ale lékaři nepredikují lépe než psychologové; množství klinických zkušeností nemá vztah ke kvalitě predikce; regresní vzorec predikuje lépe než logická pravidla; příliš mnoho informací zhoršuje kvalitu predikce a nováčkové jsou „překonáni“ vzorci. Někteří autoři dospěli k závěru, že klinická predikce je iracionální a vypovídá o bezdůvodném přesvědčení o kvalitě vlastních schopností. Tito autoři ovšem přehlížejí fakt, že v přibližně polovině případů vychází srovnání klinické a statistické predikce „nerozhodně“. 4.5 Kritická analýza klinické predikce a klinického usuzování Predikce je přední pragmatický cíl diagnostiky. Jedním z důsledků kontroverze mezi klinickým a statistickým přístupem je i pozornost, věnovaná procesu dosahování tohoto cíle, zvláště shromažďování klinických informací. Řada studií se věnuje výzkumu klinického usuzování. Většina vyznívá kriticky. Lilienfield et al. (2003) varují, např. před vírou kliniků ve vlastní schopnosti, např. přehnanou sebejistotou, sklonem k potvrzování předpokladů, iluzorními korelacemi a jejich nedůvěrou v empirický výzkum. Moore a Healy (2008) shrnuli výsledky studií o přehnané sebejistotě. Přišli na to, že klinici přeceňují svůj aktuální výkon ve složitých úkolech, ale jsou mylně přesvědčeni, že jejich výkon je horší než výkon ostatních. Ve snadných úkolech svůj výkon naopak podceňují a chybně věří, že jsou lepší, než ostatní. Klinická predikce je obtížný úkol s rizikem přeceňování svého skutečného výkonu. Zvláštní místo v diskusi o kvalitě klinických posudků zabírá tradice výzkumu heuristik a zkreslení (heuristic and biases tradition – HB) Amose Tverskyho a Daniela Kahnemana.
D. Kahneman získal Nobelovu cenu za ekonomii, ale má psychologické vzdělání. Je známý svou kritickou analýzou lidského úsudku, zejména v předpovídání akciového trhu. Kahneman četl Meehlovu knihu v roce 1955, kdy měl vybírat kandidáty na školení důstojníků v Izraeli. Narazil na subjektivní přesvědčení důstojníků a jejich nedbalost, která vedla k přehlížení statistických informací z vojenské akademie (Tversky & Kahneman, 1971; Kahneman, 2003; Kahneman & Klein, 2009). Už v roce 1971 přišli s Tverskym na to, že experti (metodologové a statistici) podávali nesprávné informace o požadované velikosti výběru vzhledem k možnosti vyvodit závěry o určité události. Závěr je stabilnější, pokud se koncipuje po prozkoumání velkého, a co je ještě důležitější, reprezentativního výběru. Jejich přesvědčení byla neopodstatněná a vyvolávala skeptický postoj k odborné způsobilosti a posudkům znalců. Tak začal výzkum heuristik a zkreslení.
67
Experti, profesionální diagnostici, klinici a laici používají heuristiku dostupnosti. Ta se týká faktu, že události odhadujeme jako pravděpodobnější tehdy, když si je snadněji vybavíme z paměti. Pokud má posuzovatel mnoho klientů mimo normu, pak lehce přičte abnormitu i novému klientovi. Jak se dále ukázalo, experti navíc mají tendenci chybně zpracovávat informace. Postupují selektivně, i když k přehlížení informace není důvod. Dále neberou v úvahu, že frekvence fenoménu odpovídá pravděpodobnosti jeho dalšího výskytu. Vysoce frekventovaný fenomén má větší šanci, že nastane: můžou například podceňovat šanci, že se zraní pádem ze schodů (častý jev) ve srovnání s tím, že je zasáhne blesk (zřídkavá událost). Kromě toho věří bezprostředním výrazným informacím více než statistikám, shromážděným za několik let: ojedinělý nápadný případ zneužití dítěte bude mít při predikci podobné události větší váhu než mnohaleté statistiky zneužívání. Nejlepší dostupná data v Nizozemí tvrdí, že se se zneužitím setkala 3 % dětí. Další zkreslení, spočívá v tom, že věříme v existenci souvislostí, které ve skutečnosti neexistují: iluzorní korelace. Příkladem může být posuzování homosexuality na základě kreseb. Lidé předpokládají neexistující vztah mezi podobou kresby a homosexualitou, např. kreslení svalnatých mužů. Kromě toho jsme citliví k efektu pořadí: pokud jsou data prezentovaná v „logickém“ pořadí, nebudou nás příliš napadat kritické otázky. Citliví jsme i k rámování: to, že banka měla tento rok zisk čtvrt miliardy, hodnotíme lépe, než profit 250 milionů dolarů. Výsledky navíc nepovažujeme za výsledky samy o sobě, ale hodnotíme je vzhledem k předem danému kritériu, což znamená, že skutečné výsledky můžeme podcenit nebo přecenit. Tyto heuristiky a zkreslení lze interpretovat jako omezení kapacit pro zpracování informací u expertů a laiků. Nové, irelevantní informace získají rozhodující váhu, např. pohledné osoby dostanou práci snadněji. Podceňujeme nebo přeceňujeme růst. Rychlý růst (např. exponenciální) je podceňován. Události se posuzují na základě podobnosti a obeznámenosti dokonce, i když je to neoprávněné. Reprezentativní události jsou hodnoceny jako stejně pravděpodobné jako nápadné nereprezentativní události. Naše predikce se zakládají na extrémních událostech a hodnotách, aniž bychom brali v úvahu fenomén regrese k průměru. Týká se to i faktu, že pokud identifikujeme extrémní skór na nedokonale reliabilní škále (např. testový skór), při další příležitosti pravděpodobně naměříme výsledek nižší nebo vyšší – méně extrémní. Není těžké si představit, že se každý někdy cítí špatně, ale většinou je mu dobře – existuje přirozená fluktuace obou stavů. Pokud se člověk cítí nemocný, může navštívit lékaře. Běžně se známky nemoci vytratí právě kvůli přirozené fluktuaci pocitu nemoci a zdraví. Když nám ale lékař předepíše léky a po několika dnech se náš stav upraví, připisujeme příčinu změny právě lékaři a lékům. Ve skutečnosti šlo pouze o normální výkyvy stavů nemoci a zdraví. Proč používáme heuristiky a zkreslení a proč jsme spokojeni s chybným způsobem zpracování informací? Máme rádi jednoduchá řešení, neradi si klademe složité otázky a neakceptujeme neurčitost a pouhou pravděpodobnost. V každodenním životě jsme deterministé: pokud se něco stane, nevyhnutně se to muselo stát právě takto. Pěstujeme si iluzi kontroly, vzpomeňme např. na pětiletky v sovětském hospodářství za vlády komunistů. Odborníci i laici jsou citlivější k informacím, které potvrzují jejich předpoklady, než ke srovnatelně poučným informacím, které jejich předpoklady vyvracejí. V časové tísni začnou být naše rozhodnutí ledabylá, přizpůsobujeme se názorům ostatních, i když pro reálnou situaci není obvyklý názor adekvátní. Informaci, která je v souladu s naším přesvědčením, věříme, i když je chybná a nepřináší žádný nový poznatek. Chyby v usuzování i diagnostice vyjdou najevo při konfrontaci úsudků o událostech, jevech a o chování s normativními logickými a statistickými pravidly. Pravidla minimalizují určité typy chyb, např. neoprávněné závěry z premis a chybné výroky o vztazích a účincích. Jednoduše se svými výsledky nemůžeme vyrovnat výsledkům těchto pravidel, jak již známe z debaty o 68
„prvenství“ v otázkách predikce. Aplikace těchto logických a statistických normativních pravidel přináší jiné výsledky než klinický úsudek. Rozdíl bývá interpretován jako selhávání úsudku, např. při kategorizaci osob v důsledku zaměření na jednu nápadnou vlastnost, dále jako důsledek necitlivosti k základní míře výskytu, toho, že se nebere v úvahu velikost výběru a přeceňování kapacity k detekci korelací (nedokážeme číst hodnoty r < 0,75 ze scatterplotu). Extenzivní přehledy srovnání úsudků na základě heuristického zkreslení a na základě statistických pravidel od Hogartha (1987) a Gilovitsche et al. (2002) vzbuzují u studentů skepsi a pro praktické diagnostiky jsou zdrojem znejistění. Shrnutí 4.5 Meehlova kniha (1954) inspirovala analýzu diagnostiky a klinického usuzování. Jeho kritické poznámky o způsobu, jakým posuzovatelé a klinici integrují informace, podnítily vznik pozdější tradice výzkumu heuristik a zkreslení – HB (heuristics and biases) v práci Kahnemana a spolupracovníků. Studie zdůrazňují, a na příkladech chybného zpracování informací diagnostiky dokládají, že zpracování informací má své limity a že existuje citlivost vůči způsobu, jakým jsou nám informace podávány. K predikci chování využívali diagnostici chybné heuristiky. Strategie lineární kombinace několika prediktorů vede k lepším výsledkům než práce diagnostiků na základě vlastního úsudku. Klinici, a dokonce ani statistici, se také nedrží základních statistických pravidel a může jim unikat např. fakt, že výsledek zjištěný u reprezentativního výběru je robustnější, než výsledek malého výběrového souboru. Svým vlastním dojmům věří více než dlouholetým statistikám. Nejsou schopni odhadovat lineární vztahy v datech. Tato zjištění zapříčiňují skeptický postoj k diagnostické profesi. 4.6 Reakce na kritickou analýzu klinické predikce a usuzování Mnohé výtky směrem k usuzování laiků a odborníků vyvolávají reakce. Navrhují se jiné přístupy, které studují procesy usuzování laiků a kliniků jsoucí v jejich vlastní moci, a ne jako odchylku ze všech druhů předepsaných pravidel. Příkladem jsou práce Brunswika (1952, 1958 – čočkový model), Hogartha (2001 – výzkum intuice), a výzkum přirozeného usuzování – NDM (Natural Decision Making; Klein, 1998). Brunswikův čočkový model byl vyvinut ke zkoumání percepce objektů v reálném světě, ale brzy se začal používat v klinické predikci (obrázek 4.1). Jak víme, že se k nám auto přibližuje? Jak poznáme, že budova je bezpečná? Jak víme, že Jan je dobrý obchodní partner a Marie spolehlivá osoba?
E. Brunswik, otec čočkového modelu percepce a propagátor reprezentativních výzkumných designů. Netvořil modely k předcházení chybám v rozhodování, rozvíjel německou tradici popisu úsudků. Jeho ekologickou perspektivu v oblasti percepce a usuzování prosazuje Gigerenzer. Čočkový model předpokládá, že se v reálném prostředí nacházejí nápovědi (cues). Ty reprezentují objektivní kvality environmentálních podnětů. Při predikci události nebo chování je třeba nápovědi integrovat.
69
Obrázek 4.1: Jednoduché schéma Brunswikova čočkového modelu. Lze je aplikovat i na diagnostiku klienta. T představuje cíl (target), např. úspěch ve škole; C značí nápovědi (cues), z nichž některé k predikci cíle nepřispívají; J je úsudek (judgement), např. šance, že Jan úspěšně vystuduje práva na Karlově univerzitě je 70 %.
Obrázek 4.2: Diagram čočkového modelu z článku Determinanty lineárního usuzování od N. Karelaia a R. M Hogartha (2008). Psych. Bul. 134, 3, 404-426; (str. 405). Příklad rozpracování jednoduchého modelu s využitím latentních proměnných. Různé druhy událostí a úsudků se vzájemně podstatně odlišují. Není možné dlouhodobě předvídat vývoj finančních a politických událostí, Janův studijní úspěch lze ale odhadnout poměrně snadno. Nápovědi, které subjekt využívá, jsou jako prediktory v regresní rovnici a jsou váženy subjektem, protože k události nebo chování, které je třeba předpovídat, nepřispívají stejnou měrou. Někdy dokonce stačí jediná nápověď. Kvalita nápovědi je funkcí vlastností subjektu, protože ten si je vybírá a váží vzhledem ke svým zkušenostem a k podmínkám prostředí: poskytují skutečně adekvátní informace o chování nebo událostech, které je třeba předvídat? Nápovědi jsou vzájemně odlišitelné – distinktní, mohou se ale objevovat souběžně nebo v těsné časové návaznosti.
70
Brunswikův výzkum je součástí tradice, zahájené Fechnerem a Weberem, totiž tradice nacházení zákonitého vztahu mezi objektivními kvalitami objektů, událostí a chování a naší percepcí těchto objektů atd. Čočkový model předpokládá možnost „pravdivé percepce“ objektů a lidí. Je to lineární, kompenzační model. Hlavní myšlenkou je, že percepce (úsudek, klinická predikce) je adaptivní, množství chyb a omylů, kterých se znalci a klinikové dopouštějí, se nijak nezdůrazňuje. Karelaia a Hogarth (2008) provedli metaanalýzu 86 článků s výzkumy využívajícími čočkový model. Potvrzují zjištění, že lineární pravidla „...mohou poskytnout dobré reprezentace vyšší úrovně jak s ohledem na lidské úsudky, tak na úkoly prostředí“ (str. 420). V časové tísni mohou experti spoléhat více na intuici anebo se držet jen jedné důležité nápovědi. Modelu se říká reprezentace reálného objektivního prostředí, ale výzkum ukazuje jen to, že lineární pravidla predikují kriteriální hodnoty, které experti přisuzují rysům sociálního a fyzického prostředí. Autoři se nemohli vyhnout srovnání studií čočkového modelu s HB a s tradicí normativních statistických pravidel. Nezdůrazňují však selhání expertů a jejich sklony k omylům. Vysvětlují podmínky, za kterých k selháním dochází: velké množství nápovědí; velká distance diagnostiků od objektivních kritérií; redundance nápovědí a obtížnost jejich identifikace a kvantifikace. Kvalitu predikce rovněž snižuje, pokud je „objektivní“ prostředí (ekologická struktura) zdrojem nelinearity (vodítka nelze jednoduše přidávat). Odborníci i laici mají ohledně prostředí zjednodušená očekávání a dávají přednost malému počtu jasných nápovědí se stejnou váhou. Redundance nápovědí je zdrojem nejistoty, odlišné váhy vytvářejí nerovnováhu mezi strukturou prostředí a strategiemi posuzovatelů. Tato nerovnováha vede ke zhoršení výkonu. Intuice je výzkumníky HB i obhájci statistické predikce odmítána. Hogarth (2001) si však klade otázku, co to intuice je, jak funguje a zda vede především k nesprávným úsudkům a závěrům. Byl si vědom toho, že toto téma není příliš populární ve vědě, která prosazuje racionalitu a přísnou metodologii. Důsledkem toho máme v literatuře víc odkazů na „iluze“ a „vhledy“, než na „intuici“. Intuice není jako aktivita přesně definovaná, ale obvykle bývá spojena s představou okamžité mimovolní předtuchy nebo obdobně nenadálého porozumění určitému chování, události nebo fenoménu. Plyne z ní jistota, zahrnuje dovednost získání poznatků bez racionálního uvažování nebo odvozování. Intuitivní úsudky vznikají bez zapojení vědomých, krok za krokem algoritmizovaných nebo obranných procesů. Intuitivní proces je rychlý, neúmyslný a nemůže být vždy nebo okamžitě po události specifikován. Lidé své intuici většinou věří. Princip se podobá Brunswikovu pojetí percepce. Organismus „dospěje k vjemu“ (např. toto je Honza, ona je nemocná, on je hladový atd.) tím, že si všímá a bere v úvahu různé nápovědi, které indikují povahu toho, co vidíme (vysoký muž s plnovousem; vypadá bledý a pohybuje se pomalu; mluví nahlas a rychle a mrká očima). Vjem je skrytý a není vědomě zdůvodněný. Nastupuje automaticky, ale má svůj účel, kterým je rychlé zapojení neformálního vážení nápovědí. Intuice podle Hogartha nepřichází zčistajasna. Často předpokládá bohatou zásobu vědomostí, byť to subjekt neumí vysvětlit, např. zkušený fotbalový hráč nedokáže vysvětlit, co a proč při hře dělá tak, jak to dělá. Intuice se dokonce zapojuje i v matematice, protože nikdo neumí zhodnotit všechny důležité informace a v jakékoliv vědě je třeba rozhodovat, kterou hypotézu (ze všech myslitelných) bude zkoumat. Intuice má své místo, protože člověk je sice jeden organismus, ale má k dispozici množství komplexních adaptivních systémů zpracování informací, nikoli pouze systém racionální. Diverzita těchto systémů je výsledkem evoluce. Jsou vysoce trénované a osvojené, mnohé jsou ale i automatické a funkčně autonomní. Někdo se učí lépe ze zkušenosti, asociací a nahodilostí, jiným lépe vyhovuje prostředí s dobrou učební strukturou. Pro budování cenné
71
intuice je nevyhnutelná zpětná vazba z prostředí. Takové prostředí je třeba vyhledávat a samotné subjekty i jejich učitelé je musejí také aktivně vytvářet. Hogarth namítá, že výsledky naučené a evoluční intuice jsou doménově specifické. Patří k nim pozorovací schopnosti, svobodné a vytrvalé rozvažování, testování a zobecňování. Hogarthovy argumenty znějí věrohodně a je těžké je popřít. Myšlenky čekají na výzkum, který ukáže povahu a kvalitu intuice. Tento výzkum má silnou konkurenci v rozšířeném studiu heuristik, zkreslení a používání normativních statistických pravidel. Kromě HB a tradice normativních statistických pravidel se na činnost expertů zaměřuje i výzkum přirozeného rozhodování – NDM (naturalistic decision making). Jeho počátky leží v pracích De Groota (1946/1978) a Chasea a Simona (1973) o šachových velmistrech. Experti, jako jsou hasiči, vedoucí montáží ropných plošin a velitelé bojových jednotek, se často musí rozhodovat velmi rychle a v časové tísni, přičemž využívají impozantní množství vědomostí a vysoce vytrénovaných schopností. Předpokládalo se, že tito experti budou porovnávat řadu různých variant. V rozhovorech s nimi se však ukázalo, že používali spíše tacitní znalosti, např. jak se asi šíří ohně, znaky kolapsu budov atd. Nezačínali s množstvím možností, ale pouze s jednou. Tato rozhodovací strategie se označuje jako rekognicí připravené rozhodnutí (RPD – recognition-primed-decision). Pokud se ukáže, že zvolený postup je chybný, experti jej okamžitě mění (Klein, 1998). I další skupiny expertů musí dosáhnout vágně stanovených cílů pod časovým tlakem, za omezení daných organizací, proměnlivými podmínkami i smyčkami zpětné vazby. Někdy se jim to daří a výzkumníci se snaží odhalit jejich strategie. S úspěchem využívají dostupnostní heuristiky, ale určitě ne vždy. Bankéři, piloti a letoví dispečeři a dokonce prezidenti se mohou ve svých rozhodnutích dopouštět vážných pochybení, když obchodují s finančními produkty, navigují přistávání letadel nebo vyhlašují a ukončují války. V tradici NMD se pracuje i s protokoly expertů a ty zachycují působivé výsledky jejich odbornosti. Gigerenzer z berlínského Institutu Maxe Plancka (Německo) je zastánce Brunswikova ekologického přístupu. Pokouší se ukázat, že to, co tradice HB nazývá „prohřešky“ proti racionálnímu usuzování, je za určitých podmínek to nejlepší, co lze dokázat. Ukazuje, že ve specifických podmínkách rychlé a úsporné heuristiky expertů a nováčků porážejí lineární modely nebo statistickou predikci. První příklad je rekognice: pokud se zeptáte amerických studentů, které z měst má víc obyvatel, jestli San Diego, nebo San Antonio, dvě třetiny odpoví správně (San Diego). Němečtí studenti odpoví správně téměř ve100 %. Odpovídající pravidlo zní přibližně takto: „pokud je jeden ze dvou objektů rozpoznán lépe nebo snadněji než jiný, lze odvodit, že tento objekt má vzhledem ke kritériu vyšší hodnotu “ (Goldstein & Gigerenzer, 2002, str. 76). Samozřejmě lze i touto cestou dojít k nesprávnému výsledku, ale jedná se o efektivní postup z hlediska své ekologické racionality: schopnosti využít informací z přirozených prostředí. Druhým příkladem je heuristika „ber to nejlepší“ – TTB (Take-TheBest), při níž je sekvenčně identifikováno několik nápovědí, z nichž se vybere první diskriminující a všechny ostatní se ignorují. Pokud má např. někdo odvodit, které město ze dvou má více obyvatel, zaměří se na nejvalidnější nápověď, jako třeba, ve kterém městě je univerzita nebo nejvyšší fotbalová liga. Lidé tyto heuristiky používají stále, takže musí být adaptivní a ne pouze špatné, iracionální a „hříšné“ (Katsikopoulos et al., 2008; Katsikopoulos, 2009). Přístupy ekologického a přirozeného rozhodování zdůrazňují strukturu úkolů, nikoli nahodilé sklony expertů nebo kliniků. Hogarth (2001) poukazuje na „zlomyslné prostředí 9“, a Kahneman s Kleinem (2009) se zmiňují o „predikovatelném prostředí“ (medicína, hasiči), nebo naopak o „prostředí s nízkou validitou“ (jednotlivé cenné papíry, dlouhodobé předpovědi politických událostí). Ve zmíněném článku z roku 2009 klade Kahneman menší 9
orig. „wicked environment“, ve smyslu svévolné, chovající se nepředvídatelně – pozn.překl. 72
důraz na sklony expertů k chybám a je ochoten brát v potaz prostředí a sociální kontext usuzování. Tradice HB a normativních statistických pravidel, kterými se měla práce kliniků ukáznit, podnítila nejprve výzkum výsledků diagnostiky. Ve srovnání s těmito přístupy je klinik náchylný k omylům. Ekologický přístup a studium intuitivního poznání zdůrazňuje adaptivní procesy, charakteristické pro lidské bytosti nadané vědomím. I tyto přístupy připouštějí možnost selhání, ale jejich cílem není tato selhání prostřednictvím srovnání úsudků s logickými a statistickými pravidly jednostranně zdůrazňovat. Shrnutí 4.6 Egon Brunswik se stavěl proti dychtivosti, s jakou jsou zdůrazňována selhání a chyby posuzovatelů, a studoval úsudky a percepci za reálných, ekologicky validních podmínek, aby zjistil, které nápovědi jsou využívány a jak jsou integrovány, aby úsudek nebo predikci umožnily. Navrhl čočkový model percepce událostí a lidí v reálném světě. Ten se využívá v lineárních modelech k predikci kritérií, ve srovnání s normativními modely je tu však důležitý konceptuální rozdíl: prostředí se považuje za skutečné a objektivní. Je tu vnímající osoba (posuzovatel), který při vnímání environmentální události nebo chování využívá nápovědi. Percepční výkon závisí na těchto nápovědích (jejich počtu, vztazích, odlišnostech a nejednoznačnosti), vnímající osobě (např. konzistenci v integrování nápovědí, úrovni odborné kvalifikace) a na ekologické struktuře prostředí (např. vysoce validní prostředí hasičů a nízce validní prostředí akciových trhů). Lineární modely popisují integraci vodítek relativně dobře. Hogarth navázal na tradici HB, když analyzoval „intuici“, fenomén a aktivitu, která byla zastánci statistické predikce a výzkumníky HB odmítána. Tvrdil, že intuici je možné cvičit a je spojena s odbornou kompetencí ve specifických oblastech. Náš systém zpracování informací podle něj zahrnuje mnohem více, než jen racionální kalkulace. Racionální modely a pravidla jsou vrcholem ledovce. Práce neměla takový vliv, jaký očekával: výzkum intuice podnítila jen slabě. Nezávisle na HB i Brunswikově přístupu studovala skupina vědců expertní úsudky a činy v „náročných podmínkách“, kterým jsou vystaveni např. hasiči nebo šachoví mistři. Kladli důraz na jednoduché, ale účinné strategie, kterými se experti řídili (např. na rekognicí připravené rozhodování). Gigerenzer dokázal, že i laici bez expertního vybavení používají velice jednoduchá nelineární, ale přesto účinná, užitečná a adaptivní pravidla: rychlé a úsporné heuristiky, např. „ber to nejlepší“ (nejdůležitější nápověď, nejvalidnější první nápověď) a rekogniční heuristiky. 4.7 Kombinují diagnostici informace nelineárně? Lineární modely jednoduše přidávají zdroje diagnostických informací. Jedná se o modely kompenzační. Někteří klinici měli proti nim námitky. Jednotlivé prediktory nemají při predikci kriteriálního výkonu shodnou váhu, a co je ještě důležitější, vzájemně se ovlivňují. Meehl již dříve v minulosti tvrdil, že klinici, a sám byl jedním z nich, spojují informace nelineárně. Regresní vzorec je kompenzační, tj. hodnoty kteréhokoli prediktoru mohou být vyrovnány jakýmkoliv jiným, např. velmi nízké IQ může být vyrovnáno velmi vysokou motivací. Myšlenka takové kombinace je pro diagnostiky atraktivní, protože jsou přesvědčeni, že sledují kombinace informací o vzájemně se ovlivňujících rysech klientů a vlastnostech sociálního kontextu jejich života. Ne každá dílčí informace je přínosná. Váha jednoho fragmentu, např. chudý, nezajímavý sociální kontext, však může ovlivnit hodnotu jiné dílčí informace, např. o vysokém IQ dané osoby. Verbální protokoly expertů jsou zdrojem informací pro výzkum toho, zda vážili prediktory nelineárně. Jednotliví posuzovatelé někdy uvádějí, že pro určité klienty využívají konjunkční pravidla, např. pouze při určité úrovni intelektu je možné sledovat efekt motivace v konkrétní 73
oblasti, např. ve sportu, v matematice, ve čtení. Je také možné, že nepoužívají stejná pravidla pro všechny klienty, někdy jsou jejich postupy lineární, jindy nelineární. Na proces zaměřený přístup, založený na naslouchání diagnostikům a následné pečlivé kvalitativní analýze jejich způsobu zpracování informací, však výzkumu integrace diagnostických informací v minulosti nedominoval. Typickým předmětem výzkumu byla spíše otázka, zda různé modely kombinací mohou predikovat produkt posuzování, např. příslušnost do určité kategorie nebo predikci hodnoty kritéria. Příkladem je raná studie Hoffmana a Wigginse (1968). Meehlova data využili k predikci úrovně pacientů na 11bodové škále s extrémy 1 (silně neurotický) a 11 (silně psychotický). Dvacet devět posuzovatelů (13 zkušených expertů a 16 začátečníků) mělo za úkol umístit 861 pacientů na škálu s nuceným normálním rozlišením. Průměrný skór měl proto hodnotu 5,5 a směrodatná odchylka přibližně 2,5. Informací, podle které se přiřadil skór, byl protokol každého pacienta s hodnotami jedenácti škál MMPI. Použili lineární a kvadratické kombinační pravidlo a systém znaků (vysvětlen níže). Lineární pravidlo má pouze hlavní efekt v pojmech analýzy rozptylu. Y bylo třeba predikovat na základě prediktorů X₁…Xn a b1… bn odpovídaly jejich váhám. Regresní rovnice pro tento postup má tento tvar: Ŷ = b₁X₁ + b₂X₂ +…bnXn Tento model lze upravit jako moderovanou regresi, např. pokud je vztah lineární, ale odlišný pro dvě skupiny. Pokud například vztah mezi příjmem a vzděláním není stejný u mužů a u žen, protože regresní váha je větší pro muže, znamená to, že pohlaví je moderující proměnná. Myšlenka interakce mezi prediktory se jeví přesvědčivě. Představme si, že je potřeba určit vážnost poruchy u dvou pacientů na základě dvou skórů. Oba vykazují stejný průměr, zatímco jeden má dva víceméně stejné skóry a druhý má jeden skór nízký a jeden vysoký. Podle lineárního pravidla jsou oba postiženi stejnou měrou, ale podle nelineárního pravidla může jeden trpět určitou poruchou a druhý ne. Pravidlo „interakce“ zní: Kvadratické pravidlo zní:
Ŷ = b₁X₁ + b₂X₂ + b3rX₁X₂ Ŷ = b₁X²₁ + b₂X²₂ +…bnX²n
Nakonec bylo využito pravidlo znaků, zahrnující 70 klinických znaků, které klinici hodnotili při odlišování neurotiků od psychotiků s použitím škál MMPI. Příkladem znaku je rozdíl mezi skóry Pt (psychastenie) a Sc (schizofrenie). Z Meehlova původního výběru o rozsahu 861 byly vybrány dílčí výběry za účelem stanovení těchto tří hodnot. Ty pak byly využity i v novém výběru. Pro 23 z 29 posuzovatelů bylo lepší lineární pravidlo než kvadratické. Pro 17 z 29 posuzovatelů bylo rovněž lepší než pravidlo znaků.. Ačkoliv se pravidlo interaktivní kombinace jeví jako plausibilní a dokonce i kvadratické pravidlo (které zvětšuje rozdíly mezi prediktory) se může zdát přitažlivé, neexistuje mnoho důkazů, že posuzovatelé tato pravidla skutečně využívají. Meehlova data znovu použil Ganzach (1995). S využitím komplexního modelu nalezl určitou podporu pro nelineární model, ale rozdíly oproti lineárnímu modelu byly malé. Garb (1995) s pomocí počítačové simulace ukázal, že nelineární pravidlo je o něco lepší, pokud jsou prediktory negativně korelovány. Jakkoliv je přijatelné, že v klinické predikci se používají odlišné váhy, výsledek (predikce) průměrného posuzovatele může být popsán pravidlem lineárních kombinací, zejména pokud prediktory nejsou pozitivně korelovány. Výše uvedená pravidla představují formální statistická pravidla. Je rovněž možné tvořit pravidla na základě práce uznávaných expertů. Jak postupují, aby identifikovali např. určitou poruchu nebo potřebu léčby? Pravidlo by pak mohlo například znít: pokud je hodnota čtyř nebo více klinických škál vyšší než 70, klient potřebuje pomoc. To se nazývá sledování 74
procesu (process tracing). Neexistuje mnoho výzkumů těchto pravidel a provádí je zpravidla studenti formálních pravidel. Einhorn et al. (1979) identifikovali korelaci 0,46 mezi pravidlem, formulovaným klinickými experty a používáním jejich vlastního pravidla za podobných okolností. Z toho vyplývá, že svá vlastní pravidla sledování procesu využívají klinici nekonzistentně. Pokud by se takové pravidlo použilo k predikci přítomnosti nebo absence poruchy, pak by vzorec lineární regrese koreloval 0,79 s kritériem a 0,46 s pravidlem sledování procesu. Je zřejmé, že neexistuje žádný pádný důvod, aby se diagnostik odchyloval od jednoduchého postupu přidávání hodnot k prediktorům. Pokud tak učiní, predikce obyčejně nebývá lepší, než při využití přímočarého vzorce lineární regrese. Shrnutí 4.7 Meehl uvažoval nad tím, že klinici a diagnostici kombinují informace nelineárně. Pro diagnostiky je lákavé přidělovat prediktorům různou váhu a nechat je mezi sebou interagovat, protože, jak tvrdí, ne každá položka a prediktor přispívají k chování klientů stejnou měrou. Pro každý výsledek diagnostické činnosti vytvořili autoři lineární a nelineární modely (pravidla). Pro kvadratický nebo interaktivní model nenalezli příliš velkou podporu. Lineární pravidla vysvětlila výsledky úsudků jednotlivých diagnostiků relativně nejlépe. Někteří autoři zjistili, že nelineární model byl adekvátní pro takové prediktory, které byly negativně korelovány, ale lineární pravidlo bylo vhodnější pro nekorelované a pozitivně korelované prediktory. 4.8 Komentáře a zhodnocení Za původ klinicko-statistické kontroverze je označováno Windelbandovo rozlišení. Tvrdil, že každou událost nebo objekt lze zkoumat idiograficky a nomoteticky. Pro psychology byl přístup ke klientovi kombinací obou přístupů. Meehl však oba přístupy postavil do ostrého kontrastu, což mělo dalekosáhlé následky, které vyústily do „zápasu“ mezi statistiky a kliniky, mezi „vzorci“ a „hlavami“. Roli startovního výstřelu sehrálo srovnání dvaceti studií, publikované roku 1954. Vzorce zvítězily, tj. přispívaly k predikci postupným přidáváním východisek za použití empiricky odvozených vztahů. A jak bývá zvykem, vítěz bere vše, a to i navzdory námitkám, že vzorec nikdy nemůže být definitivní, struktura problémů a otázek je nejasná a náklady na vývoj vzorců jsou příliš vysoké, zejména proto, že se musí pravidelně upravovat ve světle nových empirických dat. Holt (1986, s. 386) konstatoval, že „...mezi neklinickými psychology se rozšířil povýšenecký postoj ke klinické diagnostice“. Dawes (2005) uvádí, že používání klinické predikce, pokud jsou k dispozici statistická pravidla, je neetické. Cítil, že jeho stanovisku hrozilo nebezpečí označení za „naturalistický klam10“, ale i tak dodal „…měli bychom používat relevantní statistickou predikci, pokud je dostupná“ (s. 1253, kurzíva je původní). Argument, že se nemůžeme logicky posunout od vět o tom, jaký svět je, k větám, jaký by měl být, pochází od Davida Humea. Za naturalistický klam jej označil filosof Moore. Cesta od je k mělo by je ve filosofii jasná, ale je pochybné, zda může být zobecňována i pro psychologii. Brinkmann (2009) například tvrdí, že (1) ve světě faktů mají hodnoty své místo, (2) sociální a mentální život závisí na dodržování normativních pravidel, (3) hodnotové úsudky o lidském fungování mohou být faktické, a (4) spojení faktů a hodnot je nepostradatelné k pochopení lidského chování a aktivit. Tyto argumenty vyzdvihují fakt, že lidé snadno chápou „mělo by“ v institucionálních kontextech, ve vykonávání funkcí a při užívání konceptů k pochopení 10
Naturalistický klam (naturalistic fallacy) je pojem, kterým britský filosof G. E. Moore (1903) označil odvozování normativních závěrů z čistě deskriptivních premis, tedy postoj, kdy se již na základě toho, že něco v přírodě nebo společnosti existuje, vyvozuje, že je takovýto jev správný či morální (pozn. překl.). 75
tomu, co oni sami a ostatní dělají. Snadno směšujeme popisné a hodnotící charakteristiky, např. ve vyjádření „má IQ 112“ nebo „patří mezi 20 % nejvýraznějších extravertů“. Takové směšování je empirickým faktem, přesto se však bráníme mít tento rozdíl na zřeteli, když posuzujeme klienty a hovoříme o nich. Posuzovatel nehodnotí klientovo sociálně žádoucí nebo nežádoucí chování z morálního hlediska, ale ví, že potřebuje morální náhled k tomu, aby pochopil (ne)žádoucnost chování klienta a/nebo jeho sociálního okolí. Výzkum HB Tverskyho a Kahnemana úspěšně pokračoval v útoku na lidský úsudek: v jejich pojetí je skutečným prohřeškem použít chybné heuristiky, jako je dostupnost, reprezentativnost atd. Dokonce i experti se navíc ukázali jako špatní statistici. Jejich studie nevypovídá ani tak o tom, jak se lidé chovají, jako spíše o tom, jak hloupě se chovají při usuzování o událostech a chování a při jejich predikování. Kahneman získal Nobelovu cenu za ekonomii a při pohledu na chování akciových trhů mu jistě můžeme dát za pravdu. Přístup Meehla a Kahnemana dosud dominuje, není však jediný. Brunswik vzbudil zájem výzkumníků o percepční nápovědi a o ekologickou strukturu vnímaného prostředí. Lidé nejsou „hříšníky“, ale adaptivními vnímateli, kteří používají různé odlišné systémy (nejen, ačkoli rovněž, racionální kalkulaci), které jim pomáhají dobře se rozhodovat v každodenním životě. Pouze se při řešení nejasně strukturovaných úkolů v laboratoři nebo v reálném světě snadno nechávají vést falešnými heuristikami, vykazují zkreslení, trvají na neúspěšných strategiích, neuvědomují si dopady svých činů a postrádají důležitou zpětnou vazbu (Osman, 2010). V situacích s jasnými cíli používají k rozhodování jednoduché účinné strategie, jako je rekogniční heuristika nebo vyhledávání nápovědi s nejvyšší validitou. Pokud řekneme, že validita nápovědí klesá exponenciálně (1/2, 1/4, 1/8…), pak první nápověď obsahuje více informací k rozhodování než celý zbytek dohromady. To je, mimochodem, nelineární kombinace. Gigerenzer (2000, 2008) se obrátil přímo na Kahnemanovu skupinu ve snaze nalézt příklady situací, kdy by heuristiky a zkreslení vedly k lepším výsledkům než statistické modely minimalizující chyby. Takové příklady skutečně našel, i když někteří vědci by řekli, že je to argument přitažený za vlasy. Výzkum HB nazývá selháním teorie: nabízí jen „jednoslovné“ vysvětlení komplexního lidského chování. Ti, kdo zkoumají „přirozené rozhodování“ za složitých okolností, nebo ve „špatném prostředí“, mu dají za pravdu. Gigerenzerovo pojetí je navíc snadno pochopitelné: člověk používá jasné, jednoduché a úspěšné strategie. Ty jsou rovněž popsány v teorii detekce signálů (SDT, signal detection theory). Tuto „teorii“ je zjevně snadné spojit s drobnými fenomény v psychologii, podobně jako např. IRT. Subjektivní rozhodovací kritérium v SDT koresponduje přímo s výběrem výchozích struktur v rychlých a úsporných heuristikách, a protože se v SDT nevyhledává příliš mnoho nápovědí a informací, hledání je efektivní a dobře adaptované na strukturu úkolu. SDT smysluplně popisuje činnost diagnostiků (Luan et al., 2011). Tvrzení diagnostiků, že prediktivní informace komplexně propojují, se rovněž setkalo s odmítnutím. Jednoduchý lineární model se jeví jako postačující: k tomu, abychom se vyhnuli nezdaru, stačí přidat zhruba tři prediktory, nic víc. Normativní modely mohou rovněž ukázat, jak jsme hloupí, ale podle Webera a Johnsona (2009) vedla modifikace těchto normativních modelů k utváření psychologických a behaviorálních modelů činnosti diagnostiků. Tito autoři provádějí to, co se v psychologii stává často: vezmou model z respektovanější vědy a adaptují ho na lidské chování. Proč? Jsou normativní ekonomické modely přitažlivé kvůli tomu, že zastupují liberální myšlenku Jeremyho Benthama: vytváření nejlepšího světa pro tolik lidí, pro kolik je možné? Toto pravidlo umožňuje některým lidem chovat se přísně a krutě (Honderich, 2005). Pokud bereme Gigerenzerova zjištění a postoj vážně, pak víme, že používáme sice jednoduché, ale za specifických podmínek adekvátní strategie. Ekologický přístup přispěl k chápání percepce a úsudku tím, že umožnil vytváření modelů s psychologickým obsahem. 76
Uvědomujeme si, že laici ani diagnostici nepoužívají složité vzorce. Nejsou ani statistici, ani ryze racionální počtáři. Úlohou psychologie je také zkoumání lidského chování, nejen předepisování pravidel. Afekty, zájmy, tacitní i explicitní znalosti, to vše sehrává svou roli. Ekologický přístup posílil citlivost k adaptivní povaze predikování a úsudků. Diagnostici pravděpodobně používají široký repertoár strategií, počínaje kompenzatorními pravidly a konče heuristickými zkratkami. Mohou tlumit automatické (intuitivní) procesy a mohou rovněž počítat. Něco se však můžeme naučit i z vlastních chyb: diagnostik může odolat působivé strategii tím, že se bude opírat o empirické poznatky o vztazích nápovědí a prediktorů. Ekologický přístup bere v úvahu strukturu vnějšího světa. Ten může být strukturován jasně, pokud je třeba uhasit oheň, ale již ne tak jednoznačně, pokud musí diagnostik rozhodnout o doporučení ústavní léčby pro malé dítě. Realistické psychologické modely pro posuzování jsou diferencované a komplexní, protože zahrnují mnoho aspektů: zvyklosti diagnostiků, podstatu, počet, vztahy a kvalitu nápovědí (prediktorů) a různorodost diagnostických úkolů. Z výzkumu HB se posuzovatelé mohou poučit o svých zlozvycích. Empirické metastudie je zase mohou informovat o validitě nápovědí (prediktorů) a jejich kombinací. Nikdo nemůže vědět všechno, i proto má svůj smysl specializace. Posuzovatel potřebuje věrohodné a realistické modely, aby mohl informovat klienta. Když mu sdělíme, že má sám problém s mnoha aspekty posuzování svého vlastního chování, moc mu tím nepomůžeme. Gigerenzer (2008) poskytuje příklad informování pacientů o zdravotních rizicích. V souladu se statistickým přístupem obdrží pacient informace o podmíněné pravděpodobnosti, ale lidé nejsou dobrými intuitivními statistiky. Zpráva s přirozenými četnostmi je pro pacienty mnohem lépe pochopitelná a sdělitelná. Porovnáme teď podmíněné pravděpodobnosti s přirozenými četnostmi, jak o nich píše Gigerenzer (s. 130), na příkladu pravděpodobnosti vzniku rakoviny prsu: Podmíněné pravděpodobnosti: P (rakovina prsu) = 0,8 %; P (pozitivní výsledek mamogramu, když má pacientka rakovinu) = 90 %. P (žena bez rakoviny, s pozitivním výsledkem mamogramu) = 7 %. Uvažujme o ženě, která má pozitivní výsledek: jaká je šance, že má skutečně rakovinu? Přirozené četnosti: osm z 1000 žen má rakovinu prsu; z těchto osmi s rakovinou bude mít sedm pozitivní výsledky mamografie. Ze zbývajících 992 žen (bez rakoviny) bude nicméně 70 vykazovat pozitivní mamogram. Když uvážíme počet žen, které mají pozitivní mamogram, kolik jich ve skutečnosti bude mít rakovinu prsu? Druhému způsobu podání informací lékaři i pacienti lépe rozumí; strach může zeslábnout, pokud klienti přijmou fakt, že přístroje i lékaři se mohou mýlit. Není jen vědecký problém, že aparát detekuje desetkrát více četnost nemoci, než odpovídá skutečnosti. Pro profesionály je, zdá se, problém přiznat, že jejich přístroje i oni sami jsou omylní. Psychologové si pravděpodobně více uvědomují chybovost svých nástrojů a diagnostiky. Kontroverzi mohou využít ostatní příbuzné disciplíny, např. lékařská terapie, konkrétně psychiatři k tomu, aby zpochybnili kvalitu praxe klinické psychologie. Toho lze zneužít k popření preskriptivní autority psychologů. Podpora této autority je i oficiálním cílem APA, jehož se podle některých náznaků daří dosahovat (např. v armádě, ve zdravotnických službách), je však stále omezená a křehká (McGrath, 2010). Zdá se, že vynakládání času a výzkumného úsilí na řešení kontroverze mezi klinickým a statistickým přístupem je již záležitostí minulosti. Zmínek o rozdílech mezi statistickou a klinickou predikcí v psychologické literatuře ubývá. Řadu jich můžeme stále nacházet v lékařských časopisech (kardiologie, urologie). Zápas se pomalu dohrává, protože diagnostika a klinické usuzování jsou zkoumány jako komplexní procesy, které se už nedají 77
normativními modely a statistickými pravidly brzdit, ale naopak využívají jejich výhod. Odrážejí dobré i špatné zvyky diagnostiků a vyžadují znalost empirických vztahů mezi prediktory (nápovědi) a očekáváním prostřednictvím analýzy struktury behaviorálních kritérií. Je zřejmé, že diagnostickým výsledkem je pravděpodobnostní tvrzení o chování klienta. Tento fakt je bez váhání a s porozuměním přijímán, stále však zůstává výzvou, jak jej správně sdělovat klientům. Máme rádi jednoduché dichotomie, jako např. muž-žena, jin-jang, vysoký-nízký apod. a snadno tvoříme hierarchii mezi jakýmikoli dvěma prvky. Intuice a racionalita jsou také tímto druhem dichotomie a Dawes má ve svých preferencích jasno: podle něj je dokonce neetické rozhodovat intuitivně. Intuici se však poslední dobou znovu začíná dostávat pozornosti. Gigerenzer ukázal, že za specifických podmínek byly ryze intuitivní úsudky dokonce lepší, než úsudky lidí, kteří měli o tématu více informací. Kruglanski a Gigerenzer (2011) zamítají teorii duálního procesu o záměrných (na pravidlech založených, vědomých, cílených, analytických, racionálních) versus intuitivních (asociativních, nevědomých, bezděčných, suboptimálních) úsudcích. Tvrdí, že se jedná o dvoufázový proces, ve kterém úkol a paměť jednotlivce limitují soubor použitelných pravidel. Potenciál osoby ke zpracování (proměnná individuálních rozdílů) a vnímaná ekologická racionalita pravidla (reálný úkol x dostupná pravidla) výběr pravidel dále usměrňují. Podle autorů nejsou záměrné úsudky obecně přesnější než úsudky intuitivní, protože úspěch obou typů závisí na shodě mezi pravidlem a strukturou prostředí. Striktní rozdělení na záměrné a intuitivní není obhájitelné. Autoři doporučují vzít v úvahu usuzování a rozhodování v realistických kontextech. Inbar, Cone a Gilovitch (2010) rovněž upustili od někdejšího odmítání intuice jako možného zdroje pravdivého poznání objektů, událostí a osob. Gilovitch zjevně změnil názor, protože se v roce 2002 podílel na editování monografie o zjednodušujících a falešných heuristikách, které používali experti. Nové pojetí říká, že lidé hledají rovnováhu mezi rozumem a intuicí. To znamená, že pokud volba odpovídá rysům běžně spojovaným s racionálním zpracováním, lidé se budou rozhodovat „rozumně“, a když je budou spojovat s „intuicí“, výsledkem bude intuitivní úsudek. Promyšlené úsudky již nejsou stavěny nad intuitivní. Objevuje se samozřejmě otázka, jak se lidé mezi oběma způsoby rozhodují. V současné literatuře je nicméně patrné přehodnocování intuice. Pro diagnostiky to přinejmenším znamená, že skončilo obviňování z užívání falešných a jednoduchých heuristik. Poslední vývoj je také zavazuje k posilování ekologické validity úsudků. To mimo jiné znamená, že diagnostik by měl věnovat větší pozornost informacím o sociálním kontextu života klienta a tomu, jak klient svůj problém a svůj životní kontext vnímá. Tak se může také aktivita při formulaci případu přesouvat více na stranu klienta (viz také Gigerenzer & Gassmaier, 2011). Koncepty a termíny v kapitole 4: KLINICKÁ VERSUS STATISTICKÁ PREDIKCE: KONTROVERZE MINULOSTI Wilhelm Windelband Idiografický přístup Nomotetický přístup Pochopení versus vysvětlení Biografická metoda Psychografická metoda Gordon Allport Statistické a demografické tabulky Kontextualizované behaviorální zákony Hermeneutika Interaktivní dialog 78
Objektivní testy, dotazníky Normativní skóry Pravděpodobnostní výrok Determinista Klinická predikce a statistická predikce Metoda nejmenších čtverců Intuitivní kombinace dat Statistické kombinace dat Regresní vzorec Zlepšený design pro klinickou vs. statistickou predikci Falešná pozitivita a negativita Inkrementální validita Kategoriální odlišnost Křížová validizace Lineární model kombinace dat Metastudie (Reprezentativní) vzorek Velikost účinku Logicky konstruovaná pravidla k predikci kritéria Behaviorální kritérium Přílišné sebevědomí Konfirmační zkreslení Klamná korelace Začátečníci Heuristiky a zkreslení Intuice Kompenzační (lineární) modely Egon Brunswik Daniel Kahneman; Amos Tversky Paul Meehl Dostupnostní heuristika Regrese k průměru Iluze kontroly Normativní pravidla Základní úroveň výskytu, prevalence Intuitivní statistici Kompenzační a konjunktivní pravidlo kombinace dat Znakové pravidlo s klinickými znaky Sledování procesu Environmentální validita Přirozené rozhodování – Naturalistic decision making (NDM) Rychlé a úsporné heuristiky Rekogniční heuristiky „Ber to nejlepší“ heuristika Opakovaný výběr Ekologická struktura prostředí Naturalistický klam
79
5 DIAGNOSTICKÝ PROCES Diagnostika není jen testování. Diagnostik vstupuje do interakce s klienty i s dalšími odborníky a při řešení problémů nebo hledání odpovědí na otázky se opírá o poznatkovou základnu psychologie a využívá intervize a supervize. Rozsah aktivit se odráží i v šíři škály diagnostických produktů a postupů. Proto si klademe jednak otázku, jaký je rozdíl mezi testováním a posuzováním, jednak jak posuzovatelský proces popisují laici. Třetí okruh otázek se zaměřuje na to, které explicitní postupy jsou doporučovány ke stanovení toho, jak se má diagnostikovat? Jakou roli hrají výzkumné otázky a jakou požadavky a otázky klienta? Diagnostickým procesem rozumíme kroky na cestě k cíli, s důrazem na směr a podobu těchto kroků. Jsou deskriptivní modely a postupy navrženy tak, aby umožnily žádoucí kroky uskutečnit? Proč byly vyvinuty některé preskriptivní modely k prevenci chyb a omylů při kategorizaci, zpracovávání informací, predikci, nalézání příčin, reflexi a rozhodování? Opravdu modely a formalizované postupy pomocí logických a argumentačních pravidel a statistických modelů snižují nebo eliminují riziko chyby? Poskytuje diagnostika prostor ke kazuistické formulaci případů? Jaká je role diagnostika v tomto procesu? 5.1 Od testování k diagnostice Testování je adekvátní označení pro „skupinové testování“, jak probíhalo před první světovou válkou a v jejím průběhu (1914-1918) v USA. „Testovaly“ se tisíce armádních branců a imigrantů. Krátce před druhou světovou válkou a v jejím průběhu (1939-1945) důstojníci amerických tajných služeb používali různé postupy výběru personálu pro špionáž a sběr tajných informací. Vysoce specializovaní pracovníci používali i jiné metody, jako klinické evaluace a vyhodnocování životního stylu a vzdělání uchazečů, integrovali informace z různých zdrojů. Sledovali také chování adeptů chování v situacích podobných těm, jimž by byli úspěšní adepti vystaveni. Testy byly pouze jednou z pomůcek a celý proces posuzování měl do testových skórů vnášet života a smysl. Zahrnoval tedy i získávání poznatků o dané osobě, o její historii a o sociálním kontextu jejího života. Maloney a Ward (1976) označili diagnostiku za proces řešení problémů. Závisí na jednotlivých cílech a okolnostech a bere v potaz proměnné specifické pro danou situaci. Proces není realizován pouze pomocí testů a zahrnuje hodnocení slabých a silných stránek osoby, klinickou evaluaci jeho sociálních dovedností a zralosti úsudku. Testování se orientuje na měření, shromažďování dat a na charakteristiky skupin. Je standardizované a vyžaduje schopnosti potřebné pro administraci. Diagnostika (ve smyslu posuzování – assessment; pozn. překl.) zahrnuje interakci diagnostika a klienta tváří v tvář. Je to postup shromažďování a integrace dat s cílem provést psychologické hodnocení za pomoci nástrojů, jakými jsou testy, dotazníky, rozhovory, případové studie, pozorování chování a přístrojová měření. K rozvoji diagnostiky jako postupu odlišného od testování přispěly kromě armádních zájmů také podněty od výzkumníků, kteří se věnovali osobám s rozličnými poruchami. Vyvstala otázka, zda jsou testy vhodné pro tuto skupinu, a byly navrženy různé specifické modifikace. Důraz byl kladen spíše na adekvátní postup měření pro konkrétní skupiny, než na mechanickou stránku výpočtů. Jde tedy o evaluativní, diagnostický postup či proces (Cohen & Swerdlik, 2009). Tallent (1992) uvádí, že psychologická diagnostika je variabilní proces, který zahrnuje bezpočet faktorů. Nemůže se úzkostlivě držet protokolu nebo vědeckého modelu. Testy se však mohou odklánět od cíle, jímž je porozumění klientovi; Tallent to považuje za projev „testocentrismu“. Formulace případu je „…konečné sdělení, které vyprodukoval posuzovací postup“ (str. 10). Stručně řečeno, diagnostika zahrnuje více různorodých postupů než testování, např. pozorování, odhad jedinečné situace a předběžné pracovní úsudky. Dále je přizpůsobena povaze specifických skupin od zaměstnanců ozbrojených sil až po invalidy. Jedná se rovněž o 80
postup, který zahrnuje kontakt posuzovatele a klienta tváří v tvář. Predikci a rozhodování lze provádět pouze na základě testů, ale posuzování je druhem řešení problémů specialisty a zahrnuje nakonec i proces formulace případu, při němž se klientův problém objasní v kontextu kauzálních vztahů. V současnosti se testování považuje za součást diagnostiky a počítá s příspěvkem samotného diagnostika. To je spojeno s kontroverzí, neboť diagnostici se domáhají uznání validity svých specifických poznatků o klientovi a jeho sociálním kontextu (Allportův přístup, viz kap. 3) a vhledů, zakotvených ve zkušenosti (srov. selhání, zkreslení a omezený úspěch samostatných predikcí diagnostiků – viz kap. 3). Proces znamená sekvenci aktivit, které vedou k výsledku. V psychologické diagnostice lze proces utvářet řadou způsobů v závislosti na využití rozmanitých pravidel, metod, modelů a procedur (či postupů), jako je popis, vysvětlení, experimentování, testování hypotézy, rozhodování, předpovídání, pozorování, usuzování; dále s ohledem na rozmanitost obsahů, jako je řešení problému, zpracování informací, zdůvodňování, rozhodování, cílů, např. prevence újmy, indikování péče, dosažení žádoucího chování, i metafor, např. vyprávění příběhů, vedení rozhovorů; dokonce i matematické modely lze považovat za metaforu k podrobnému znázornění klíčových prvků diagnostického procesu. Popis procesu nezahrnuje preferenci konkrétní metody, teoretického obsahu nebo metafory. Jakýkoliv popis je nutné přizpůsobit druhu otázky, např. „co dělám špatně v roli zaměstnance?“; „podaří se mi vystudovat matematiku?“, a druhu potíží, např. „proč se cítím tak apatický?“; „proč je můj syn tak agresivní?“. Klient přichází s otázkou nebo problémem. Diagnostik je profesionálem, který na základě psychologických poznatků odpovídá na otázku, řeší problém nebo pomáhá klientovi. První, přirozený krok tohoto procesu určuje sám klient, který vlastními slovy popisuje problém nebo formuluje otázku. Protože má k dispozici informace dostupné např. na internetu, může být ovlivněn tím, co se tam o potížích nebo otázce píše. Vyjádření klienta mohou mít formu otázky nebo stanoviska, např. „budu mít úspěch jako právník?“; nebo popisu obtíží: „jsem nešťastná v manželství“; „nevím si rady se svým nejstarším synem“. Tyto výroky v sobě zahrnují myšlenky, pocity a označení projevů chování se vztahem k dosahování určitého cíle nebo vyjádření o nevítaných, znepokojivých zkušenostech klienta a o jeho sociálním okolí. Diagnostik si ověřuje spolehlivost těchto výroků. Výsledkem je seznam cílů a/nebo potíží. Druhý krok procesu je v režii diagnostika, který analyzuje cíle a podmínky, které musí být splněny pro jejich dosažení, a rovněž formuluje seznam obtíží. Dochází také k reformulaci obtíží a otázek ve světle teoretických konstruktů a empirických poznatků o podmínkách a příčinách obtíží. Diagnostik se pokouší podmínky a příčiny ukotvit do kontextu známých teorií a konstruktů, které umožňují popsat a vysvětlit chování. Třetím krokem je nejlepší možné vyjádření o podmínkách k dosažení cíle, formulované na základě poznatků o vztahu mezi obtížemi a otázkami, jejich příčinami, podmínkami a cíli. Obtíže a jejich předpoklady mohou být „lokalizované“ v osobě, v jejím sociálním kontextu a ještě pravděpodobněji v interakci mezi osobou a sociálním prostředím. Seznam obtíží má sloužit i k prozkoumání jejich příčin a napomoci dosažení cílů intervence. Jakmile je stanovena diagnóza, lze predikovat chování, které je projevem diagnostikovaného stavu. Diagnostik může v tomto bodě svou práci ukončit, ale většinou připojuje doporučení pro terapii. Čtvrtý krok představuje odpověď, která říká, co dělat nebo nedělat, aby bylo dosaženo cíle nebo aby byla poskytnuta péče, vedoucí ke zmírnění obtíží. Shrnutí 5.1
81
Testování se často ztotožňuje s výběrem v rámci náboru personálu nebo odvodu branců. V takových případech nedochází k přímému kontaktu diagnostika a klienta a otázky jsou relativně jednoduché. Označení „diagnostika“ se naproti tomu využívá pro práci se specifickými skupinami, jako jsou vojenští specialisté nebo osoby s určitým postižením a pro komplexní postupy, které zahrnují pozorování, práci s informacemi ze sociálního kontextu a integraci těchto informací. Diagnostický proces představuje sled kroků vedoucích k výsledku. Diagnostika nemá vlastní formální a věcný objekt, ale ke strukturování procesu mohou posloužit některé teoretické konstrukty, metody a metafory jako rozhodování, predikce, testování hypotéz, experiment, proces shromažďování dat, rozhovor nebo příběh. Neutrální popis procesu zahrnuje následující kroky: klientův popis obtíží a/nebo cílů; analýzu podmínek k dosažení cílů nebo zmírnění obtíží, prováděnou za pomoci psychologických pojmů a konstruktů; popis podmínek a/nebo příčin s využitím teoretických a empirických prvků poznatkové základny a formulace doporučení nebo návrhů péče. 5.2 Implicitní diagnostika Diagnostika a posuzování není výsadou nebo „majetkem“ odborníků. Laici denně posuzují fyzikální fenomény a lidské chování. Hledají vztahy a vysvětlení. Fyzikální fenomény často posuzují tehdy, když vnímají odchylku od obvyklého formátu, např. nečekaná dopravní zácpa, změna počasí atd. Fenomén kategorizují, např. jako obrovskou večerní dopravní zácpu. Přidávají i predikci: bude to trvat asi hodinu, a podají vysvětlení: déšť, náhoda, začíná víkend. I chování lidí se často stává předmětem diskuzí, pokud se jedná od odchylku od normálního formátu, např. výkon žáka postupně nebo náhle klesá nebo se jeho chování zničehonic nedá zvládnout. Vnímanou odchylku kategorizujeme a ptáme se, zda je skutečná, tj. jestli je dostatečně vzdálená od standardu. Pokud ano (a totéž si myslí i ostatní), pak se dále ptáme, „jak to?“, „co je příčinou“? Jakmile se podaří formulovat „hypotézu“, hledáme pro ni podporu: často se to děje ve stejném typu prostředí, mezi stejnými lidmi. Tu nám mohou poskytnout lidé, které vnímáme jako zkušenější, a fakta. Pokud dojde ke shodě, pátrání po vysvětlení se zastaví. Pokud ne, nastává problém se „správným“ vysvětlením. Není-li potřebná žádná okamžitá akce, problém obvykle vymizí. Když je ale třeba něco učinit, je nutno provést také volbu: co s tím, když dítě s normálními výsledky začne nosit ze školy špatné známky? Učitel se domnívá, že je to důsledek rozvodu rodičů a předpokládá, že to bude dočasné. Matka souhlasí a problém je „vyřešen“. Když se špatné známky objeví znovu, matka učiteli věřit přestane a zajde za psychologem. Ten porovná dítě s ostatními dětmi v podobných situacích, bude se zabývat jeho nadáním a pokusí se o něm a jeho rodině získat informace. Odborník může formulovat stejnou hypotézu jako učitel, to znamená, že matka by měla být trpělivá, nebo odlišnou, např. že absence otce umožňuje, aby dítě polevilo v úsilí. Může pro dítě i matku navrhnout nějakou péči. Matka si o tom promluví také s rodinou a známými a často si vyslechne odlišné příběhy. Jednomu bude věřit víc, než ostatním, např. dobrá přítelkyně, která si sama prošla rozvodem, jí řekne, že neúspěch ji udělal „silnější“. 5.1 ukazuje skutečný případ laického diagnostiky. Blok 5.1: Příklad laické, implicitní diagnostiky užívání drog Televizního producenta požádali, aby natočil dokument o užívání drog mezi mládeží. Původně byl učitelem biologie. Vydal se tedy svým týmem do rehabilitačního centra. Spontánně se dozvěděl, že to nebylo průměrné centrum, ale že se v něm řídí antroposofickou filosofií Rudolfa Steinera. Průměrní uživatelé drog této věkové kategorie mu byli dobře známí, protože s nimi přicházel do kontaktu v rámci reportáží z velkoměstských zdravotnických zařízení. Byla to omezená skupina a producent došel k 82
závěru, že problém s alkoholem je závažnější. Problémy s alkoholem mělo kolem 3 % (toto číslo procento bývá u vážných problémů různého druhu uváděno častěji). Někteří uživatelé také kombinují dvě drogy. Společenské důsledky alkoholismu jsou mnohem rozsáhlejší, než dopady užívání tvrdých drog. Provedl rovněž srovnání se závislými na hracích automatech. Tato skupina pro svou závislost potřebovala víc peněz, než uživatelé drog, kteří museli denně krást, aby měli na dávku. Pokračoval ve své „diagnostice“ a řekl, že asi 20 % adolescentů zkusilo jednou drogu na párty (marihuanu a extázi). Mnohým to stačilo a drogy užívali jen zřídka, protože z toho neměli žádný zvláštní zážitek nebo se jim dokonce udělalo špatně. Ve skupině, která pokračovala v užívání pravidelně, bylo něco špatně: tyto děti působily zvláštně, nezapojovaly se běžně do života vrstevnické skupiny, jejich rodiče byli často rozvedení a na děti neměli skoro žádný čas, doma chyběl řád. Řekl, že jeho zjištění může působit jako staromódní příběh a možná je to tím, že on sám je už nemoderní (bylo mu asi 50 let). Snažil se nalézt závislé děti, které by jinak odpovídaly představě o průměrném člověku svého věku, jenže takové nenašel. Řekl si, že ve hře možná budou genetické faktory, ale jako důležitý se mu jevil kontext prostředí. Velikost města nerozhoduje, najdete to všude, ale musí tam být „scéna“, atmosféra, subkultura, která adolescenty drží ve skupině uživatelů. Tato laická diagnostika názorně demonstruje uplatnění 1) kategorie, která ze skupiny závislých činí odlišnou skupinu od ostatních adolescentů; 2) pozorování, že skupina není reprezentativní, poznatky o ní nelze generalizovat na všechny adolescenty; 3) průběžného závěru, že jde o dílčí problém v rámci skupiny problémů; 4) vysvětlení: geny a prostředí (rodiče a vrstevnická skupina) a 5) úsilí najít kontrastní příklad, který by mohl jeho postoj vyvrátit. Tento příklad „diagnostiky“ ukazuje, že náš implicitní diagnostik se nepohybuje na tenkém ledě domněnek. Posuzování sociálních fenoménů a chování lidí je pro laiky často zábavná záležitost. Mnoho magazínů se například věnuje rozdílům mezi muži a ženami („Muži jsou z Marsu, ženy z Venuše“), aby nás pobavily úsměvným chováním opačného pohlaví. Stručně řečeno, implicitní diagnostika směřuje k rozmanitým výsledkům a pokouší se dosáhnout několika cílů: identifikovat kategorii (je bohatý, patří do rodiny X), odhalit příčiny chování (rodina, rozvod, absence otce), formulovat predikci (úspěch ve škole, štěstí), obnovit či posílit kontrolu (změna školy, opora), nalézt příhodný příběh (věrohodně popisující běh událostí) nebo dojít k rozhodnutí (Co by měl udělat? Jana nebo Marie?). Diagnostika jakožto proces předpokládá množství sousledných kroků. Při implicitním posuzování nemusí být nezbytně vědomé. Existují modely, které tyto kroky popisují. Navrhují je autoři, kteří berou všední diagnostiku vážně, jako nástroj adaptace v nejistém světě. Zastávají názor, že naše „vlastní“ diagnostika behaviorálních fenoménů využívá rychlé a úsporné heuristiky, které jsou dostatečné a validní. K příznivcům myšlenky psychologické plausibility modelů všední laické diagnostiky patří i Gigerenzer et al. (2008). Tyto modely (heuristiky, jednoduchá pomocná pravidla) musí být přístupné, flexibilní, přizpůsobitelné reálnému světu, v němž žijeme, a robustní, tj. nesmí se měnit kvůli přidání nové proměnné nebo zahrnovat příliš mnoho proměnných. Postupy nesmí být časově náročné a nesmí vyžadovat složité kalkulace. Implicitní procesy jsou úsporné až strohé a vyhledávají jenom takové nápovědi, které nesou potřebné informace; po jejich nalezení sběr informací ukončí. Shodné postupy jsou zahrnuty i v explicitních modelech, ale v laickém posuzování jsou redukovány na dostupné, úsporné, robustní a rychlé procesy. White (1984) podává popis laických kauzálních atribucí a úsudků. Jsou pragmatické a primárně zaměřené na praktický život, k jehož aspektům patří např. řízení chodu domácnosti, akumulace majetku, uspokojivé mezilidské vztahy, manipulace ostatních, udržování sebedůvěry, dodržování morálních pravidel nebo zábava. Kvůli těmto zájmům se naše 83
pozornost soustřeďuje na konkrétní, podrobné a každodenní informace a procesy, které mají přímou souvislost s něčím praktickým. Co funguje, musí být posouzeno správně a okamžitě. Pragmatik také usiluje o úspěšný kompromis mezi konfliktními praktickými zájmy. Toho se nedosahuje aplikováním protokolů a vědeckých modelů. Swann (1984) rovněž navrhuje pragmatický přístup k procesu percepce osob. Cílem není validita, ale služba vlastním zájmům. Jiné lidi posuzujeme tak, abychom byli schopni pracovat s identitou všech zúčastněných. Celkově vzato bývají postupy implicitního posuzování často zjednodušené a odlišné od logických a statistických modelů a formálních protokolů. Fungují v souladu s pragmatismem každodenního života a jsou adaptivní. Někteří autoři si těchto rychlých a úsporných procesů cení právě pro jejich adaptivnost, smysluplnost a úspěšnost. Shrnutí 5.2 Diagnostika nepatří jen profesionálům, i laici se pokoušejí popsat a vysvětlit fyzikální a sociální fenomény, zejména pokud dojde k odchylce od normálního stavu. Shromažďují potřebné informace o daném fenoménu a konzultují s „laickými experty“. Někdy to myslí vážně, jindy pro zábavu. Tu nabízejí hlavně časopisy, které upřednostňují jednoduché a jasné odpovědi a posuzují kategorie lidí jako: muž-žena, chudý-bohatý, známý-neznámý. Implicitní procesy obvykle nedosahují kvalit postupů explicitních, konzistentních, ukotvených v teorii. Autoři, kteří zdůrazňují adaptivní a pragmatické kvality laického posuzování, poukazují na jeho jednoduchost a efektivitu a studují implicitní posuzování jako samostatný fenomén. Implicitní postupy posuzování bývají charakterizovány jako pragmatické a validní pro všední praktické problémy. 5.3 Explicitní diagnostika: výsledky a postupy Diagnostika by jako vědecká aktivita měla vést k adekvátním deskripcím, predikcím, kontrole a rozhodování. Dílčí procesy představují kroky na cestě k těmto výsledkům. Výsledky laické a rovněž odborné diagnostiky nejsou podle teoretiků a výzkumníků optimální nebo jsou dokonce špatné z hlediska logických, statistických a metodologických standardů. Důsledkem je, že se tato logická pravidla i statistické a výzkumné modely do diagnostiky implementují, aby se zajistila realizace takových kroků, které by zvýšily pravděpodobnost validních závěrů, např.: „Rozvod je příčinou Honzových špatných známek“. V této kapitole je nejprve popsáno několik druhů diagnostických výsledků a postupů. Dále jsou zdůrazněna vodítka ke zlepšování výsledků pomocí logiky, správného zdůvodňování a statistických modelů a nakonec postupy formulace případu. Dobře známým výsledkem diagnostiky je kategorizace. Jde o fundamentální rozdělení určité tématiky. Kategorické úsudky potvrzují nebo vyvracejí predikát „každý nebo nějaký“, vztažený k objektu či subjektu. Ve filosofii se „kategoriální chybou“ míní výrok, který připisuje věci nebo člověku takové vlastnosti, které nemůže mít, např. většina zvířat jsou ateisté. Gilbert Ryle (1949) použil tento termín k důkazu toho, že se Descartes mýlil, když považoval mysl za nehmotnou entitu. V medicínském modelu představuje nemoc kategorii, která je odlišena od ostatních nemocí prostřednictvím symptomů, syndromů a specifické etiologie, tj. příčiny. V tomto duchu je koncipován např. DSM-IV. Jak bylo zmíněno již v kapitole o historii, duševní nemoci do tohoto modelu dobře nezapadají. I tak je ale kategorii DSM možné definovat pomocí charakteristik chování, jak je tomu např. v případě ADHD. Určit vývojový stupeň osoby je rovněž kategorizační aktivita. Vývojový stupeň předpokládá, že určitý specifický projev chování lze zařadit pouze do jediného (a žádného jiného) shluku
84
To, že nějaké chování odpovídá určitému vývojovému stupni, není – jak je tomu v případě DSM-IV – výsledkem ujednání mezi odborníky. Je to podepřeno jedním ze tří předpokladů: zřejmá struktura jako podklad různých projevů chování; obecný význam společný různým projevům chování; o odhalení takového společného významu usiluje hermeneutika; empiricky prokázané korelace chování, např. veškeré chování (položky) mají vysoké náboje na jednom faktoru; nebo projevy chování tvoří pořadovou Guttmanovu škálu, seřazení projevů chování na sekvenční, akumulativní škále. Kategorizace je deskriptivní úsilí. Dalšími výsledky posuzování jsou predikce a kontrola. Kritérium pro predikci představuje žádoucí nebo nežádoucí chování. To lze predikovat na základě behaviorálních charakteristik lidí a proměnných jejich sociálního a fyzického kontextu. Výsledek kontroly se vztahuje k faktu, že s proměnnými prostředí lze manipulovat a že jsou příčinou změny chování. „Příčina“ je obtížný koncept, ale je preferovanou interpretací behaviorálních událostí v psychologii. Týká se skutečných mechanických a pozorovatelných zdrojů změn a musí těmto změnám předcházet. Otázky a problémy je možné rovněž formulovat jako rozhodnutí. Pro tento diagnostický výsledek musí existovat množství rozdílných možností, z nichž je jednu možné vybrat. Výběr není arbitrární, tj. musí mít důsledky, většinou zvyšující úspěch a štěstí nebo snižující riziko poškození. I když možností může být bezpočet, z praktických důvodů by jich mělo být jen rozumné množství. Predikce zřídka přichází zničehonic. Poznatky o již existujících behaviorálních charakteristikách nám pomáhají předpovídat dané chování v současnosti a v budoucnu. S tím souvisí hledání prediktorů, tj. proměnných, faktorů, rysů, které mají vztah k tomuto specifickému budoucímu chování – tedy ke kritériu. Kreativní součástí tohoto procesu je hledání a identifikace důležitých proměnných. Dalším krokem je určení jejich povahy (např. nominální, pořadová nebo intervalová škála), počtu a druhu vztahu (lineární, nelineární). Dále jsou prediktorům přiřazeny váhy. Nejjednodušší by bylo přiřazení stejné váhy všem proměnným, ale často je třeba provádět zpřesňující výpočty. K uplatňování kontroly je třeba experimentujícího myšlení, které se zabývá vztahy mezi měnitelnými prvky prostředí a žádoucím či nežádoucím chováním klienta. Musí se zjistit, s čím lze v sociálním a fyzickém kontextu člověka manipulovat a jak by se dal určit efekt. Každé sociální a fyzické prostředí je kompozitum, složenina či směs prvků. Jak může někdo izolovat proměnnou a zaručit, že právě ona je příčinou změny chování? Kognitivnímu postupu identifikace těch proměnných nebo kombinací, které vedou k určitému výsledku, se teprve postupně učíme. V psychologické realitě není zcela zřejmé, které chování vyžaduje změnu, zastavení, analýzu, prozkoumání, pozorování a měření. Vhled do principů manipulace a kombinování proměnných k vyvolání určitého výsledku je významným rysem piagetovského stadia formálních operací. Proces rozhodování je způsob volby z řady rozličných možností. Ty mohou být organizovány jako třídy nebo kategorie, např. stanu se psychologem nebo biologem, a jako úrovně, např. vzdělání. V rozhodovacím procesu hledáme optimální volbu z možností, které se jeví jako realistické při daných relevantních charakteristikách klienta a jeho sociálního kontextu. Optimální rozhodnutí pro skupinu je nejlepší možný poměr mezi falešnými pozitivy (fp) a falešnými negativy (fn), např. připustit přijetí studentů, kteří propadnou (fp), a odmítnout přijetí těch, kteří by mohli být úspěšní (fn). Popis základních diagnostických výsledků a postupů ukazuje, že explicitní diagnostiku můžeme považovat za variantu řešení problému. Výsledky jsou jasné: postupy kategorizace, predikce, kontroly a rozhodování diagnostiků se příliš nezkoumají. Neexistují žádné extenzivní slovní protokoly odborníků, kteří by psali o svých postupech při predikci, úvahách při určování příčin a při rozhodování. Výjimku tvoří koncepce přirozeného rozhodování, 85
v jejímž rámci jsou analyzovány i výzkumné protokoly expertů. Tyto studie pojednávají o událostech, při nichž bylo třeba rozhodovat rychle, např. hašení požárů, lékařské intervence k záchraně životů, policejní akce speciálních jednotek. V explicitním posuzování se klade důraz především na výsledky: jak přesná je kategorizace, jak dobře byly stanoveny předpovědi, jak účinná je kontrola a nakolik je rozhodnutí optimální. Shrnutí 5.3 Kategorie je prvním výsledkem diagnostického procesu. V lékařských modelech se používá k určení nemoci člověka. Pro poruchy chování nejsou tyto modely příliš vhodné. Také vývojová stadia představují systém kategorií, do kterého zařazují různé projevy chování. Druhý výsledek představuje predikce, např. při výběru uchazečů nebo umísťování žáků. Její úspěch závisí na tom, zda se podaří nalézt smysluplné prediktory, které se týkají žádoucího či nežádoucího kriteriálního chování klienta. Třetím výsledkem je kontrola, která spočívá v hledání takových proměnných v (sociálním) kontextu, kterými by bylo možné manipulovat, aby se tím dosáhlo změny chování. Čtvrtým typem výsledků je rozhodování, k němuž dochází, pokud existuje několik možností a jejich relevantních atributů. Konečné rozhodnutí musí být optimální vzhledem k daným možnostem, okolnostem a hodnotám klientů. Procesy kategorizace, predikce, kontroly a rozhodování jsou a mohou být studovány jako vývojově podložené dovednosti. Lze je realizovat po dosažení stadia formálních operací (12 – 18 let). Kategorizace předpokládá kreativitu v definování podstatných rysů. K predikci kritéria potřebujeme kognitivní aktivitu selektující prediktory a určující jejich důležitost a korelaci s hodnoceným kriteriálním chováním. Kontrola zahrnuje vyhledání takových proměnných v klientově chování a v jeho sociálním a fyzickém kontextu, jejichž manipulace může vést ke změnám v klientově chování. Rozhodování vyžaduje tvorbu alternativních možností a identifikaci proměnných, které jsou pro tyto možnosti relevantní. Pomůckou při rozhodování je postup vážení rysů ve světle možností. Diagnostické procesy vyžadují zapojení schopností řešení problémů, jimž nebývá – s výjimkou přirozeného rozhodování – věnována pozornost při výzkumné reflexi činnosti expertů. Také ta fáze diagnostického procesu, ve které se problém hledá a definuje, není příliš analyzovaná, více úsilí je věnováno popisu a stanovení logických a statistických postupů, sloužícím k eliminaci chyb. 5.4 Explicitní diagnostika: pravidla, modely a postupy kontroly diagnostického procesu Při evaluaci diagnostických postupů (jak laických, tak odborných) bývá identifikována celá řada chyb: zpracování informací je nedokonalé, posuzovatelé nedokáží správně pracovat s neurčitostí, dílčí informace nebývají dobře propojovány, chybné a nápadné položky získávají přílišnou váhu a vyhledává se spíše potvrzení předpokladů namísto falzifikace. Tyto slabiny daly impuls k stanovování logických a statistických postupů, které by měly pomoci snížit objem chyb a zlepšit kontrolu odborného diagnostického procesu. Laici, ale často ani profesionálové, nedodržují logická pravidla pro vyvozování závěrů z faktů a výroků. Příliš snadno zobecňují, používají irelevantní informace a extrémní příklady, banality a ohrané fráze typu: „pravda je někde uprostřed“, ale to neplatí pro 2+2=4, 2+2=5 a 2+2=6, ani pro výroky typu „praxe je úplně jiná, než teorie“, nebo „ideálu nikdy nedosáhneme, to je jen teorie“. Existují klišé, která nenesou žádnou informaci. Častým jevem je přehnané zobecňování, jako například: „Lidé z IT branže nikdy nepochopí, že jim ostatní nerozumí, a nikdy se nenaučí vysvětlit vám jakoukoli maličkost“. Výroky mohou také být příliš jednoduché: „veškeré kontroverze v psychologii by skončily, kdyby se podařilo kompletně prozkoumat biologické a neurologické základy chování“. Často se místo faktů dostávají ke slovu spekulace: „co jsme vyzkoumali u potkanů, se nikdy nemůže vztáhnout na člověka“. Mnoho termínů je neostrých a diagnóze nikterak nepomáhají: „její podvědomé přání je být obyčejnou ženou v domácnosti namísto kariéristky“; nebo „nemá sice vysoké IQ, ale je 86
emočně inteligentní“, „je nezralý“; nebo „nic necítí, je to psychopat“. Často je to, na co se má přijít a co se má potvrdit, již předem předpokládáno, a to, co prohlašujeme, si ověřujeme až zpětně. Když potřebujeme argument nebo situaci vyhrotit, můžeme použít extrémní příklady, jako kupříkladu děkan, který nabízí, že zůstane v čele fakulty i tři roky po možném odchodu do důchodu, je srovnávám s „doživotními prezidenty“, jako byl Papa Doc z Haiti nebo venezuelský Hugo Chávez. Používá se to i obráceně, například nepokoje v Teheránu jsou oproti zemětřesení na Haiti doslova legrace. Rozdělovací taktiky se často používají k tomu, aby umožnily vyhnout se důležitým a relevantním zprávám typu „Honza je emočně vyspělý, dobrý ve sportu, máme ho rádi, ale z této školy ho vyloučíme kvůli nedostatečným známkám. Tyto příklady jsou ukázkami porušování aristotelské logiky, s jakými se setkáváme mezi laiky i v médiích. Návyky laiků i odborníků vnášejí do argumentace zmatek. Není proto divu, že jsou formulována pravidla korektní argumentace. Korektní argumentace Prvním návrhem ke zlepšení argumentace, který lze využít v diagnostice, je Toulminův (1958/2003; viz též Vancil, 1998) postup korektní argumentace krok za krokem. Umožňuje rozhodnout, zda je či není přítomna určitá situace nebo stav, například problémové chování nebo nemoc. Postup je orientován na realitu a empiricky podpořen, poskytuje „pevnou půdu pod nohama“, základ v podobě faktické báze, o kterou se lze ve sporu opírat. Pokud tedy prohlásím, že zítřejší zkoušku udělám, může se najít někdo, kdo má právo se mě zeptat, proč to předpokládám. Musím odpovědět předložením svých základních argumentů, dejme tomu, „zatím jsem nikdy nepropadl a jsem dobře připraven“. Základem jsou skutečné empirické události nebo chování. Prvním krokem je přítomnost tvrzení, třeba „profesor Novák nemá pravdu“, nebo „je to případ nekompetentního učitele“, nebo „Novák je nekompetentní učitel“. Dále jsou zapotřebí data, která umožňují tvrzení kotvit v realitě. Tvrdíme to oprávněně, protože Novák má vlastnosti A, B, C, D, E a F (hodnocení písemek mu zabírá příliš mnoho času; nesleduje vývoj a novinky ve svém oboru, studenti ho nehodnotí dobře, nikdy není ve své pracovně, neodpovídá na žádné otázky a píše suchopárně). Za třetí, uvedené vlastnosti musí oprávněně postačovat k tomu, abychom vůbec mohli hovořit o „nekompetentním učiteli“. Pokud tomu tak není, je argument zamítnut. Pokud vlastnosti výrok potvrzují, je potřeba získat novou, nezávislou informaci. Tato akce opět musí dokázat, že rysy A až F se u Nováka nacházejí. To se nazývá „opora“. Pokud opět uspějeme, tvrzení lze přijmout (má kompetence pro výuku studentů vyšších ročníků a výzkumnou činnost, ale ne pro výuku začátečníků) nebo zamítnout („vyvrácení“). Je možné, že po opětovném posouzení nebudou rysy A až F postačovat k vyvození závěru, že je Novák nekompetentní, a to i v případě, že všichni studenti protestují proti jeho skriptům a děkan se ho chce zbavit. Tento postup zabraňuje některým chybám, o kterých jsme psali výše, a klade překážky určitým chybným návykům v úsudcích, což se týká zejména tendence činit unáhlené závěry na základě několika málo nápovědí nevalné validity. Studenti sociálních věd se s tímto postupem dosud setkávají zřídka, výjimku snad tvoří výuka stanovování diagnóz zkušenými sestrami. Nedávno se ale každopádně Toulminův argumentační vzorec začal používat k podpoře vědeckého uvažování studentů s ohledem na vědecká vysvětlení (Brown et al., 2010). Uvedení autoři propojili Toulminovy principy argumentace s aktuálními trendy uvažování a rozhodování založeného na důkazech. Selhání lidského logického usuzování si vynucují vznik dalších směrnic (prescriptions). Následuje nyní již dobře známý příklad: Preskriptivní verze čočkového modelu Druhým návrhem ke kontrole procesu byl popis percepčního procesu. Používá se i k predikci. Obrázek ukazuje preskriptivní statistickou verzi Brunswikova čočkového modelu, ve kterém 87
se každé nápovědi přiděluje váha podle její validity. Deskriptivní verze je původně modelem vnímání události nebo člověka, například k posouzení toho, jestli jsou na ulici výtržnosti nebo jestli se jedná o člověka, se kterým můžeme být přáteli na celý život. Výslednicí lineární kombinace nápovědí je vjem (viz obrázek 4.1 a 4.2). Model lze použít k vysvětlení činnosti diagnostika: vybírá podněty, např. informace z testů a dotazníků, rozhovorů, testů školních dovedností, znaleckých posudků a informací od rodičů klienta. Musí se rozhodnout, kolik a jakých znalostí je potřeba, a sledovat i kvalitu informací a vztahy mezi jednotlivými podněty. Model naznačuje konvergenci, tj. nápovědi vedou k výsledku (konkrétní tvrzení o klientově chování) diagnostiky, např. XY má ADHD, je nejistě připoután, je mentálně retardovaný, nebo zítra bude pršet. Přesné posuzování může nastat jedině v případě, že subjekt projeví takové chování, které je pro posuzovanou vlastnost relevantní. Dhami a Harris (2001) uvádí realistický příklad toho, jak lékaři hledali a vybírali relevantní podněty a vážili je. Dávali přednost rychlým postupům s pravidlem pro ukončení. Náhodně i cíleně hledali nejvýznamnější nápověď o onemocnění a pak vyhledávání zastavili. Podobá se to rychlým a úsporným heuristikám (kapitola 4). Krátce po svém vydání se čočkový model začal využívat k ilustraci toho, jak posuzovatelé integrují informace (nápovědi) a nakolik jsou schopni správně predikovat kritérium (cíl). Hoffman (1968) model nevnímal jako něco, co se odehrává v hlavě diagnostika, a k předpovědím výsledků odborné diagnostiky používal vzorce. Kromě Brunswikova lineárně kompenzačního modelu používal interaktivní model pro nápovědi. To znamená, že význam jedné nápovědi se proměňuje spolu s rozdíly hodnoty jiných nápovědí. K regresnímu vzorci se přidá podmínka interakce (korelace dvou nápovědí): ŷ = aX₁ + bX₂ + rX₁X₂…. Cílové ŷ je predikováno dvěma nápověďmi (X₁ a X₂) s jejich rozličnými váhami (a a b), a interakcí mezi dvěma nápověďmi (X₁ a X₂). V rámci analýzy rozptylu se navíc k hlavnímu efektu přidá ještě efekt interakce, což znamená, že přínos jedné proměnné se mění s úrovní jiné proměnné. Kompenzační lineární modely předpovídají výsledky posuzovatelových snah dobře. Další preskriptivní opory rozhodování Třetí návrh spočívá v souboru takzvaných rozhodovacích opor. Tyto modely jsou normativní, tj. preskriptivní a mají za cíl potlačovat tendence k selhání a předcházet chybám. První kvantitativní rozhodovací pomůcka, ve které několik proměnných dostane váhu podle své důležitosti, se nazývá Multi-atribuční teorie užitku – MAUT (Multi Attribute Utility Theory). Uvažujme, že jste staří a ze tří možností si můžete vybrat k bydlení: váš starý dům, nový byt, dům s pečovatelskou službou. V této chvíli si musíte definovat atributy a každému z nich dát váhu. Představte si, že určíte sedm důležitých atributů: náklady, stěhování, dostupnost místa, denní údržbu, možnost nezávisle cestovat, osobní svobodu a pohodlí. Nyní máte každému atributu přiřadit hodnoty (např. od 1 do 10). Ty budou vyjadřovat, jak je pro vás daný atribut důležitý. Pokud jste dejme tomu bohatí, náklady pro vás nebudou žádný problém. Váha musí představovat důležitost jednoho atributu ve srovnání se šesti zbylými. To 88
se vyřeší tak, že rozdělíte váhy způsobem, při kterém jejich součet bude mít konstantní hodnotu, např. 1,0. Pak tyto váhy (se součtem 1,0) přiřadíte ke každé možnosti a vynásobíte známkou (1-10) a sečtete. Možnost s nejvyšší hodnotou bude samozřejmě preferovaná, resp. nejracionálnější rozhodnutí v rámci daných atributů. Pokud se hodnoty příliš neliší, budete se snažit marně. Pokud nejvíce upřednostňujete osobní svobodu a nemáte problém s úhradou za pečovatelku, pak je dobrou volbou zůstat ve vašem starém domě (tabulka 5.1). V našem příkladu si osoba zvolila domov pro seniory, protože dala vysokou váhu denní péči a komfortu. Tabulka 5.1: Multi-atribuční teorie užitku (MAUT), aplikovaná v rozhodovacím problému se třemi možnostmi a sedmi atributy. Atributy Možnosti Zůstat doma Pečovatelka Domov pro seniory Váhy (∑ = 1,00)
Náklady
Stěhování
Přístupnost
Denní péče
Nezávislé Cestování
Osobní svoboda
Komfort
Celkový součet vah
8
9
5
3
4
10
2
5,65
4 6
6 3
7 6
6 8
6 5
8 5
6 8
6,00 6,30
0,20
0,10
0,10
0,15
0,05
0,15
0,25
Dalším příkladem pro použití MAUT je výběr „nejlepší“ školy pro vaši dceru nebo syna. Rozhodování probíhá v sedmi krocích a ve srovnání s příkladem o důchodci se k němu přidala i analýza citlivosti. Abyste si připravili svoji volbu, musíte zodpovědět následující otázky: Kdo rozhoduje o možnostech a jaké jsou možnosti? Které atributy jsou zvoleny? Jaká je váha atributů? Jakou váhu má každá možnost na každém atributu? Souhrnné zhodnocení, evaluace Náklady (protože u každé z možností se liší) Analýza citlivosti znamená, že zkoumáme, jestli se změní pořadí možností, když se změní kroky, tj. jednotlivým možnostem se připíší různé váhy. K možným atributům patří procento dětí, které byly v minulých letech přijaty na školy, počet žáků ve třídě, vzdálenost školy od domu, pedagogické klima a kázeňský styl, a tak dále. Blok 5.3 obsahuje reálný příklad s nečekaným výsledkem. Blok 5.3: Racionální rozhodování s pomocí MAUT; ti, kdo se rozhodují, žasnou! Co se stane, když vám vaše rozhodovací pomůcka vesele nabídne „optimální řešení“, ale vás to moc netěší? Racionální rozhodce vám předloží šalamounské řešení! Tento příběh se skutečně stal jednomu známému spisovateli. Občanským zaměstnáním byl programátor ve velké společnosti. V rámci zpestření obědové přestávky navrhl svým kolegům, aby si zvolili nějakou dívku od nich z kanceláře, o které si myslí, že by s ní dokázali být dlouhodobě šťastni. Navrhl nějaké atributy a z kolegyní v kanceláři se staly možnosti. Na obědě byli toho dne pouze muži, dámy měly zrovna jinou důležitou práci. 89
Můžete jen hádat, jaké byly atributy, ale pořád se jedná o slušné mladíky. Každý z nich si ještě předtím, než začalo s vážením atributů, vybral „ženu svého života“. Poté, co provedli výpočty dle MAUT, byla jim přiřazena jiná žena, než ta, pro kterou se rozhodli spontánně a bez jakýchkoliv výpočtů. Model je spároval s někým jiným, než koho si předtím sami vybrali. Je první volba iracionální? Je chybou vybírat si přátele pomocí atributů? Jsou počítačové programy na výběr partnera čirým nesmyslem? Ve skutečnosti si tento spisovatel (Gerrit Krol) vzal dívku, o které mu maminka řekla, ať se od ní drží daleko, a dnes jsou spolu šťastni už více než 40 let. Druhá kvantitativní pomůcka pro rozhodování je založená na Bayesově pravidle. Thomas Bayes žil v 18. století a byl duchovním anglikánské církve, mimo svůj zájem o duchovní blaho byl ale rovněž příznivcem statistiky. Ta měla v jeho podání tu zvláštnost, že k testování hypotéz nepoužíval výběry a četnosti, jak je vypracoval Sir Ronald Fisher a jak je dosud používáme my při testování nulové hypotézy.
Bayes byl kněz a statistik v 18. století, který nepracoval s četnostmi, ale počítal apriorní a aposteriorní pravděpodobnosti událostí a chování. Jeho představa byla taková, že apriorní pravděpodobnost události nebo chování se může změnit v aposteriorní pravděpodobnost poté, co se informačně nasytí. Zní to jednoduše a přijatelně. Příklad: chceme vědět, jaká je šance, že Honzíka doma týrají. Ve škole si učitel všimnul lehkých poranění a je znepokojený. Než použijeme pravidlo, měli bychom vědět pár faktů: a. Tři procenta populace malých dětí je doma zneužíváno. Tři procenta je nejlepší odhad z výzkumů v západních rozvinutých společnostech. Apriorní pravděpodobnost, že je Honzík týraným dítětem, je: P(H) = 0,03; to je šance, že je hypotéza pravdivá: základní úroveň výskytu (base rate). Na druhé straně je tu šance, že libovolné dítě není týrané P(H¡) je 1–P(H) = 0,97. To je pravděpodobnost, že potkáme „normální“ dítě. Můžeme si všimnout, že pokud má případ nízkou základní hodnotu, pak potřebujeme přesvědčivé argumenty, že takový případ skutečně nastal. b. Kontrola jizev a zranění u školního lékaře odhalila 95 % zbitých dětí. Šance, že se ukážou zranění důsledkem týrání je P(D|H) = 0,95. c. Vyšetření lékaře není nikdy perfektní. Nikdy neodhalí vše a přiřadí 10 % dětí z běžné populace do skupiny bitých, protože jizvy a zranění se mohou objevit v důsledku nehody v této drsné a nepořádné škole, nebo v agresivním sousedství domova dítěte. Z toho vyplývá, že šance na odhalení zranění, které nejsou důsledkem týrání, je [P(D za podmínky nonH] P(D|H¡) = 0,10.
90
Honzíkovi našli jizvy a poranění na každoroční lékařské prohlídce. Stěžejní otázkou zůstává, zda je týraným dítětem, anebo ne. Bayesovo pravidlo může pomoci změnit apriorní šanci, že je Honzík týrán, v aposteriorní šanci po přidání informací o zraněních. P(H|D) je pravděpodobnost, že dítě bude mít zranění v důsledku týrání. Bayesovo pravidlo říká: pravděpodobnost výskytu fenoménu (prevalence, základní hodnota výskytu) a šance, že je fenomén správně diagnostikován, se musí upravit pro případ, že se nejedná o tento fenomén a že jej neposuzujeme správně. Pravidlo kontroluje chyby stejně jako to činí MAUT nebo teorie testů. Pokud nejsou žádné chyby přítomny, pak se ani nenásobí (P(D/H¡) x (P(H¡) a pravděpodobnost, že zranění jsou důsledkem týrání, je P(H|D) = 1,00. Pravidlo pro uvedený případ je: P(D|H) x P(H) P(H|D) = ------------------------------------- = P(D|H) x P(H) + P(D|H¡) x P(H¡) = (0,95 x 0,03) / [(0,95 x 0,03) + (0,10 x 0,97)] = 0,227 Tento vzorec vede ke stanovení aposteriorní pravděpodobnosti, že za podmínky daného pozorovaného zranění Honza zneužit byl. Zpráva je jasná: apriorní šance je 3 ze 100. Teď víme, že dítěti našli jizvy a poranění a aposteriorní šance je zhruba 23 ze 100. To je mnohem víc než tři ze sta, ale pořád si nejsme jisti. Pokud je pravidlo správným obrazem reality, pak se jeví jako kontraintuitivní a učitelé nebo neinformovaní lidé mu nebudou příliš věřit. V pravidle je zabudováno, že některé „nápovědi“ zvyšují šanci, že se případ vyskytne, pouze je tomu méně často, než bychom si spontánně mysleli, nebo než by učitel školy v problematické oblasti očekával. Snadno si zapomínáme všímat základní hodnoty výskytu pro případ [P(H¡)]. Pokud je velmi nízká, hledáme jehlu v kupce sena, a ke všemu se může Honza zranit i jinde než doma. Mohou existovat i další příčiny [P(D|H¡] a pokud bychom dovedli zlepšit diagnózu lékaře z 0,10 (0,90) na 0,05 (0,95), pak by hodnota 0,227 vzrostla na 0,370. To je už přesnější, ale stále nemáme jistotu. Musíme být opatrní a nepřisoudit zranění v důsledku týrání [P(D|H¡)] dítěti, kterého se taková situace netýká. Pravidlo vypadá věrohodně a existuje empirická podpora toho, že odráží skutečný výskyt některých případů. Většina statistiků se při testování hypotéz neřídí Bayesovým pravidlem, ale zaměřují se na analýzu četností. Tento přístup převládá i v našich současných učebnicích (srov. Van der Schoot, 2010). Učíme se testovat hypotézy pomocí výběrů (Fisher) a výpočtů F-hodnot v analýzách rozptylu.
Sir R. A. Fisher začal jako zemědělský výzkumný pracovník, vyvinul experimentální design a odpovídající analýzy rozptylu. Známý F-test po něm pojmenoval G. W. Snedecor. Bayesovský přístup se však diagnostikům nejeví neznámý, protože vyžaduje, abychom měli dostupné empirické poznatky o výskytu případů a o kvalitě pozorování a nástrojů i
91
posuzovatelů, a předpokládá, že problém bude strukturován tak, aby bylo možné uplatnit příslušné pravidlo. Kritika zmíněných dvou kvantitativních rozhodovacích opor namítá, že je obtížné definovat důležité možnosti. Není jednoduché posoudit výsledky každé možnosti a zároveň musíme umět odhadnout pravděpodobnosti a znát hodnoty každé možnosti a prozkoumat její veškeré možné důsledky (viz Elster, 1989 pro analýzu problémů v rozhodovacím přístupu v rámci MAUT a v menším rozsahu i s ohledem k bayesovským pravidlům). Je zřejmé, že předcházet chybám lze i pomocí rozdělení procesu rozhodování na jednotlivé kroky. Krokové postupy kontroly diagnostického procesu Kromě logických požadavků a statistických modelů se pro zlepšování úrovně výsledků navrhují postupy ke kontrole diagnostického procesu. Jejich přínos je založen na rozdělení celého procesu do realistických kroků a na přesném sledování postupu. Tak lze zabránit tomu, aby byly určité kroky opomenuty nebo vynechány, protože sílu řetězu nakonec určuje jeho nejslabší článek. Uvádíme dva příklady takových postupů, přičemž druhý z nich bývá často doporučován a používán. Prvním příkladem je práce Weinsteina a Fineberga (1980). Navrhují seřadit kroky při rozhodování na základě identifikace dílčích složek rozhodnutí a podpory odhadu pravděpodobnosti pro každou dílčí akci při dosahování cíle. Jedná se o čtyři snadno pochopitelné kroky: 1. Problém musí být jasně formulovaný a vymezený. Nelze formulovat „jedním tahem“ vše. Tento krok je především záležitostí kategorizace. Je dítě dyslektické? Je dítě vysoce nadané? Má adolescent konflikt se svým otcem či učitelem? Je dítě emočně zneužívané? 2. S využitím poznatků z prvního kroku a na základě studia literatury, rozhovorů s dalšími významnými osobami apod. se diagnostik rozhoduje, jak bude své aktivity strukturovat v čase, co a v jakém pořadí bude dělat: jaké jsou potřebné a nezbytné aktivity k vypořádání se s otázkou nebo problémem? U některých fenoménů je třeba jednat okamžitě, jiné vyžadují čas, aby se ukázalo, zda vůbec představují problém. 3. Diagnostik vytváří rozhodovací schémata; pro každý krok odhaduje přínos akce pro řešení problému. Použije testy, dotazníky, bude se radit s dalšími zdroji a informuje ostatní o možných rozhodnutích. Přiřadí každé akci hodnotu. 4. Diagnostik učiní rozhodnutí, a to buď předběžné, nebo relativně definitivní; např. tohoto klienta je třeba hospitalizovat, tento žák by měl jít na určitý typ školy, tento pár by se měl rozvést apod. Tyto kroky strukturují problém a pomáhají dobře uvážit každou dílčí akci, protože se táží na její přednosti a nedostatky. Diagnostik kontroluje proces tím, že se ptá, jestli každá z akcí přispívá k dosažení cíle. Celý postup je protikladem rychlých a úsporných heuristik, např. tendencí lékařů rychle se rozhodovat a stavět jen na jedné důležité nápovědi. Je to proces komplexní a tudíž málo využívaný. Druhým příkladem je model testování hypotéz – HTM (Hypothesis Testing Model). Do diagnostického procesu vnáší řád, strukturu a možnost kontroly. Je vytvořen podle metodologického vzoru zodpovídání výzkumných otázek. Analogie s výzkumem je příhodná, protože i v diagnostickém procesu figuruje otázka nebo problém, vyžadující shromažďování informací. Již známé informace jsou systematizovány a nové se získávají. Integrujeme a 92
testujeme informace teoretické a empirické povahy, pokud možno z psychologické poznatkové základny a založené na důkazech. Tento postup nás vede k probabilistické odpovědi na výchozí otázku. Model je založen na empirickém výzkumném cyklu a umožňuje využít i poznatkovou bázi sociálních věd, daný cyklus je v kontextu vědeckého výzkumu v sociálních vědách známý. Je kombinací práce německého filosofa a kognitivního psychologa Otto Selze (počátek 20. stol.) a rakouského filosofa Sira Karla Poppera (1928 – 2006), který řešení problémů uvedl do filosofické agendy. Výsledkem toho byl mimo jiné jeho falsifikační model. Selz žil v exilu v Nizozemí, kde se potkal s nizozemským matematikem a psychologem Adriaanem de Grootem, který přizpůsobil Selzovu analýzu myšlení psychologickým otázkám. De Groota podporoval Simon, příznivec jeho analýzy přirozeného rozhodování – NDM (Natural Decision Making) u šachových velmistrů. Cyklus se v diagnostice využívá především ke kontrole, ale také zvyšuje její vědecký status, protože experiment se často považuje za královskou cestu k poznání. Sestává z následujících fází: 1. Pozorování, shromažďování a organizace empirického materiálu, formulace hypotéz. 2. Indukce, cesta od fakt k tvoření hypotéz. 3. Dedukce, vyvozování speciálních důsledků z hypotéz ve formě ověřitelných predikcí. 4. Testování hypotéz na nově shromážděném empirickém materiálu. 5. Zhodnocení výsledků testování vzhledem k hypotézám a teorii tak, aby bylo možné navrhnout pokračování výzkumu („show must go on“). Uvedený cyklus nese nádech nomologicko-deduktivního přístupu, jaký se využívá ve výzkumu ve fyzice. V nomenklatuře procesů se „hypotéza“ nachází na nejvyšším místě. Statistický význam testování hypotéz odhaduje populační parametr, například nulová hypotéza zní, že neexistuje rozdíl mezi průměry dvou populačních parametrů a alternativní hypotéza tvrdí, že průměry se liší (Kirk, 1968). H₀ : μ₁- μ₂ = 0 a H₁: μ₁- μ₂ ≠ 0 K odhadu populačních parametrů se používá výběrových souborů. Není jasné, jak testovat hypotézu na jednom klientovi. Není tu žádný vzorek skórů odhadujících průměrnou hodnotu klienta na behaviorálním atributu. V HTM se slovo „testování“ používá v jiném významu. Týká se porovnávání hodnoty skóru nebo faktu s kriteriálním skórem nebo výskytem případu. Blok 5.4 obsahuje cvičení k aplikaci nomologicko-deduktivního přístupu ke klientovi. Blok 5.4: Nomologicko-deduktivní analýza specifického klienta Jak aplikovat psychologické zákonitosti na jednu osobu? Zákon je v psychologii i jinde vždy pravděpodobnostním tvrzením, např. „zasněžené vrcholky Himalájí do dvaceti let roztají“ je tvrzení chybné, neboť správné pravděpodobnostní tvrzení obsahuje řadu podmínek, zde např. „pokud emise CO₂ zůstanou na stejné úrovni“. Každý výrok o chování klienta je pravděpodobnostní povahy. Představme psychologickou zákonitost: úzkostně připoutané dítě bude mít šanci x %, že se rozvede do svých čtyřiceti let. Tu nelze uplatnit na všechny třídy lidí a zřejmě nebude ve stejné míře platná ve všech kulturách, což 93
se může projevit například při testování cizinců a imigrantů. Predikční vzorce formulované na základě výsledků místních populačních skupin nebude možné použít pro ostatní kultury a často se objeví poptávka po predikci pro specifické a jedinečné skupiny. Je povoleno uplatnit zákon? Hovoříme-li o zákonech, znamená to, že věříme v relativní stabilitu okolností. V nových podmínkách se staré zákony pravděpodobně vůbec použít nedají. Příklad: nejlepší pracovník už není ten nejsilnější, ale ten nejchytřejší a v budoucnu to bude zřejmě on, kdo bude ředitelům a jednatelům nejvíce vyhovovat. Diagnostici jsou navíc často nuceni predikovat v takové doméně, kde nejsou známa žádná pravidla, protože chybí výzkum. Nemohou než provést „kvalifikovaný odhad“ nebo si vyslechnout příběhy zkušených kolegů o jejich úspěších a omylech. Tento postup může být úspěšný, protože teorie praktiků jsou utvářeny s ohledem na některé behaviorální problémy, např. na poruchy učení. Konkrétní příklad: je tu fenomén, který je potřeba vysvětlit, dejme tomu Karel už dva roky nezvládá učivo čtvrtého ročníku. Musí tu existovat nějaký „zákon“, který odkazuje nejméně k jedné příčině tohoto zhoršeného výkonu. Tento zákon platí za nějakých předpokládaných podmínek, např. Karlovi chybí schopnost učit se a plynule postupovat do vyšších ročníků. Je zde zákonitý vztah dvou prvků: každý žák čtvrtého ročníku s IQ nižším než 75 a tempem práce, které je evidentně nižší než tempo jeho spolužáků, nemá dostatečné schopnosti pro postup do vyššího ročníku. Karlovy podmínky jsou: ve čtvrtém ročníku je už potřetí, jeho IQ skór je nižší než 75 a tempo jeho práce je příliš pomalé ve srovnání se spolužáky. HTM je třeba adaptovat, protože výzkumný cyklus je odlišný od kroků diagnostického procesu. Teoreticky odvozené a empiricky podložené hypotézy se zde aplikují na klienta jako jednotlivce. Diagnostik musí zjistit, do které kategorie problém patří, a využít všechny dostupné poznatky o této kategorii. Ty jsou pravděpodobnostní povahy, a proto klientovi nemůže nikdo poskytnout záruku. Rozdíl je také v tom, že cyklus činnosti praktiků, na rozdíl od cyklu empirického výzkumu, zahrnuje i praktická doporučení k nápravě. Ta vyžadují aktivitu ze strany klienta a její efektivitu vzhledem k dosahování cíle je rovněž třeba odhadovat. Jak velká je šance, že když Petr odejde ze školy, už ho nebudou šikanovat, a jaké to bude mít důsledky pro jeho rodinu? Jaká je šance, že se klient bude opravdu držet doporučení? Cyklus praktika zahrnuje více než výzkumný cyklus. Přijatelný popis kroků je: 1. Formulace problému; diagnostická otázka; zaměření na problém, otázku. 2. Diagnóza / posouzení: relativně nestrukturovaný sběr informací, identifikace problému, otázky. 3. Hledání příčin vztahů dílčích proměnných k otázce nebo problému, např. (ne)žádoucí chování, generování nezávislých příčin; důležité je nečinit předčasné závěry, tj. nevěnovat se pouze jedné obligátní příčině (např. chování rodičů). 4. Specificky strukturovaný sběr informací, které pomohou „otestovat“ hypotézu, tj. porovnání výsledků testů a dalších informací s normou nebo standardem. 5. Plánování akce 6. Léčba / intervence 7. Vyhodnocení / pokračování Postup propojuje části výzkumného cyklu s kroky praktika, které činí při stanovení diagnózy a při terapii. Konkrétní příklad posuzování dle HTM je uveden v bloku 5.5. Blok 5.5: Posuzování pomocí HTM (model testování hypotéz) 94
Karel je chlapec, kterému je skoro 11 let. Je v 6. ročníku běžné základní školy. Má sestru v 5. třídě. Matka je doma a stará se o domácnost. Otec podniká. Rodiče přicházejí pro pomoc do poradny a psycholožka s nimi vede vstupní pohovor. Zaznamenala následující důvod návštěvy rodičů v zařízení a formulovala otázku: „Karlovi rodiče by chtěli pochopit jeho problémy s koncentrací. Zajímalo by je, jestli to on sám považuje za problém a jak by mu škola (učitelé) mohli nejlépe pomoci.“ Učitel popisuje Karlovo problémové chování a ptá se po jeho příčině. Navrhl rodičům navštívit psychologické pracoviště. Po rozhovoru s učitelem psycholožka formulovala otázku: „Do jaké míry jsou přítomny problémy s chováním a poruchy pozornosti?“ Rozhodne se provést diagnostické vyšetření. To se odehrává v pracovně školního psychologa. Rozhovor s rodiči (anamnéza) se zaměřoval na výskyt obtíží: nezažili žádný problém s učením se chůzi a řeči. Matka uvádí, že Karel jako malý hodně plakal a chtěl vždy víc, než mohl zvládnout. Ve školce se choval normálně, ale neměl rád stříhání a lepení, proto nebyly jeho výtvory úhledné. Opakoval 3. třídu, protože velmi pomalu četl, nemohl se dobře soustředit a nerozuměl si s učitelem. Ve čtvrté a páté třídě nebyly žádné velké problémy, i když jeho písmo zůstalo lajdácké a neměl optimální koncentraci. Na začátku 6. třídy Karel požádal, aby mohl zůstat doma, a řekl, že školu nenávidí. Posadili ho do první lavice, ale to mu v plnění úkolů nepomohlo. Učitel ho pak přesadil do zadní lavice, kde se naučil víc odpočívat. Byl tam jaksi klidnější. Rodiče se domnívali, že Karel ke svým úkolům potřebuje dobře navrženou strukturu, že rád dělal věci dobře a že měl radost z dobrých známek. Měl mnoho zájmů, ale žádné stálé kamarády. Každou sobotu chodil s tatínkem do skauta. Vedoucí dávali jeho chování za příklad ostatním dětem. Rodiče nespatřují u svého syna žádný vážný problém a nerozumí tomu, proč jim učitel doporučil vyhledat psychology. Karel se dle slov učitele chová chaoticky a chybí mu motivace. Zkoušel na něj i tresty, ale ty příliš neúčinkovaly. Úroveň čtení má ve srovnání se spolužáky příliš nízkou, i když ve své třídě patří k průměru. Píše velmi nedbale a spoustu úkolů musí přepracovávat. V matematice je slabý, protože lajdačí. Dobře mu jde zeměpis. Často se pokouší přidat a udělat úkoly rychleji a vyhledává kontakt s ostatními žáky. Kromě toho se ale také izoluje. Dostává se do konfliktů při skupinové práci a když si hraje. Učitel sdělil, že si Karel nerad přiznává chybu a doporučil konzultaci se psychologem. Psycholožka shrnula, co říkali rodiče a učitel, a definovala problém následovně: „Problém s koncentrací; vyžaduje pozornost; chaotický; problémy se psaním a s počty; konflikty se spolužáky, nedbalost, chybějící motivace, hledá hranice, nedostatečné sociální kontakty“. Vzniká první nástin příčin: nedostatečná vizuální organizace, nedostatek plánování; napjatý vztah s učitelem; možné problémy s jemnou motorikou; možná snížená sebedůvěra, vyhýbá se kontaktům se spolužáky. (Prosím, připomeňme si argument NASLOUCHÁNÍ při formulaci hypotézy, protože se zdá, že hypotézy byly formulovány po provedení vyšetření pomocí WISC 11, ve kterém je IQ rozděleno na tři faktory s označením např. „percepční usuzování“). Byly formulovány hypotézy a postupy k jejich testování: 1. Nedostatečná percepční organizace; chybějící koncentrace. Nástroje a pozorování jsou popsány zároveň s testovými kritérii (výsledek pozitivní, nedostatečná percepční organizace). 2. Screening ADHD: pozorování, anamnestická analýza, ADHD dotazník (výsledek negativní, nejde o ADHD). 11
WISC = Wechslerova inteligenční škála pro děti, testová metoda, která se využívá k diagnostice nadání standardně i v ČR; dané dělení je však součástí verze WISC IV, která není v ČR standardizována.. 95
Negativní sebepojetí: pozorování; rozhovor, dva dotazníky (výsledek negativní, negativní sebepojetí není prokázáno). 4. Chybí motivace k učení: dotazník (výsledek negativní, motivace nechybí). 5. Špatný vztah s učitelem: rozhovor s Karlem a učitelem; pozorování ve třídě (výsledek pozitivní; rozhodně jde o špatný vztah). 3.
Hypotézy se testují oproti předem formulovaným kritériím; odpovědi; 1. ano; 2. ne; 3. ne, 4. ne, 5. ano. Výsledky jsou integrovány: Karel je průměrně inteligentní dítě, v porovnání s dalšími subtesty má slabou percepční organizaci; snížená úroveň pozornosti; špatný vztah s učitelem; Karel se snaží škole vyhýbat. Jeho sebepojetí i motivace jsou v pásmu průměru. Po zprávě jsou formulován doporučení a návrhy péče: po prázdninách je vhodné Karla přeřadit do jiné třídy, kde bude mít jiného učitele; Karel a učitel budou každý den dělat plán aktivit, úkoly se rozdělí na menší smysluplné části; vysvětlení budou krátká, ale výstižná; na každou úlohu se stanoví realistický čas; ve třídě proběhnou konzultační schůzky. Učitel je s výsledky obeznámen, informace obdržel i učitel ze 7. ročníku. Souhlasí se schůzkami. Po třech měsících nastává vyhodnocení. Vztah k učiteli je normální, pořád ještě trochu přetrvává lajdačení, ale když učitel Karla upozorní, pracuje svědomitě. Práce mu už netrvá tak dlouho jako dříve; zapojuje se do skupinových aktivit a má kamaráda. Prospěch ve škole se zlepšil a do školy chodí s víceméně neutrálními pocity. Stručně shrnuto, pravidla, modely a formalizované postupy slouží ke kontrole kroků diagnostického procesu. Jednou z jejich vedlejších funkcí je, že umožňují komunikaci mezi diagnostiky,diagnostici se mohou střídat a navazovat na výsledky kolegů. Protokoly a postupy rovněž diagnostikům ulehčují práci, neboť nejsou nuceni vše „vynalézat“ sami. Eklektická schémata a inventáře Aby se posuzovatelům lépe organizovala jejich práce, navrhují se eklektické postupy, které se skládají z několika pomůcek pro rozhodování. Uvádíme dva příklady. Prvním z nich je příručka, kterou sestavili Fernández-Ballesteros et al. (2001) – viz blok 5.6. Blok 5.6: Průvodce diagnostickým procesem – GAP (Guidelines for the Assessment Process), Fernández-Ballesteros et al., 2001, s.195-198). ZAHÁJENÍ 0. Poté, co proces začne: „klient žádá radu“, je nutné dodržet 8 obecných principů, např. diagnostik (D) nese odpovědnost za diagnostický proces; D optimalizuje logiku, užitečnost a kvalitu procesu a kontroluje podmínky, které by jej mohly narušit. 1. Analýza případu: deskriptivní posouzení: „vyšetření a hodnocení klientových otázek“: 5 instrukcí, např. D ověřuje kompletnost a přesnost základních informací; formuluje syntézu klientových požadavků a identifikuje aspekty obecného problému: 2 instrukce, např. D uvažuje nad interakcemi osoby a kontextu. Formální shoda: 2 instrukce, např. D informuje klienta o typu otázek, které bude v průběhu vyšetřování pokládat. 1.2 Formulace testovatelných hypotéz k posouzení případu: 8 instrukcí, např. D rozlišuje diskriminační, klasifikační a prediktivní hypotézy; D shromažďuje dostatek relevantních, diskriminativních informací k ověřování hypotéz. 1.3 Shromažďování diagnosticky relevantních informací: 8 instrukcí, např. D aranžuje diagnostickou situaci a připravuje subjekty a ostatní důležité osoby podle profesních a technických standardů; D ověřuje, zda nejsou přítomny překážky správného průběhu 96
diagnostického procesu. 1.4 Zpracování informací, uvedení shromážděných dat do souvislosti s výchozími diagnostickými otázkami: 7 instrukcí, např. D zhodnotí kvalitu dat vzhledem k posuzované otázce; D specifikuje, nakolik si je jist svými závěry. 2 Systematizace výsledků a formulace zprávy 2.1 Integrace výsledků; zodpovězení klientových otázek co možno vyčerpávajícím způsobem: 4 instrukce, např. D vezme v potaz rozporuplné informace; D formuluje závěry ohledně klientových otázek. 2.2 Zpráva (písemná a ústní): 19 instrukcí, např. zpráva obsahuje shrnutí s hlavními závěry; ve výsledkové části zprávy je každé psychologické tvrzení explicitně podloženo daty a váženo v podmínkách, které jsou relevantní pro otázku klienta; závěry jsou prezentovány jasně a jakékoli pracovní hypotézy jsou ve zprávě zaznamenány. 2.3 Diskuze a rozhodnutí: 5 instrukcí, např. D s klientem hovoří o všech částech zprávy; pokud je to vhodné, zasílá D zprávu ostatním spolupracujícím odborníkům. 3 Plánování intervence: D stanoví cíle a kritéria úspěšné intervence. 3.1 Výběr hypotéz specifických pro intervenci: 6 instrukcí, např. D operativně identifikuje ty proměnné, která se týkají intervenčních hypotéz; tam, kde je to možné, identifikuje D ukazatele, které by umožnily intervenci monitorovat. 4. Realizace intervence: D, pokud je požádán, sleduje intervenci, aby nedošlo k odchylkám, pokud se přesto objeví, jsou pečlivě zaznamenány 4.1 Vyhodnocení a pokračování: 8 instrukcí, např. D informuje zájmové strany o významu evaluace a intervence; D ověřuje, zda intervence proběhla podle plánu; D shromažďuje informace s využitím různých indikátorů a z různých zdrojů. 4.2 Analýza výsledků intervence: 6 instrukcí, např. D uvažuje o alternativních výkladech výsledků; D hovoří o výsledcích evaluace s klientem a ostatními důležitými osobami. 4.3 Pokračování: 7 instrukcí, např. D plánuje sledování případu, volí pro ně relevantní a realistická kritéria. UKONČENÍ Opravdovým důkazem efektivity opor rozhodování je zlepšení výsledků. A to i za situace, kdy není proveden empirický výzkum, který by např. porovnával postupy HTM s jinými oporami a s nekontrolovanými způsoby posuzování. Pravidla, modely a formalizované postupy nebývají vzájemně srovnávány. Postup HTM je odvozený z experimentálních postupů a uzpůsobený pro práci s jediným klientem. Je samozřejmé, že tyto postupy jsou komplexní a časově náročné. V praxi to přináší riziko, že pravidla nebudou dodržována jako celek a bez výjimek. Příkladem kontrolního inventáře je eklektický extenzívní soupis, vyvinutý v Německu (Westhoff et al., 2007; Westhoff & Kluck, 1998) na základě několika dílčích opor rozhodování, logických směrnic, ale i selského rozumu. Tvoří jej několik zdrojů: analýza rozhodování, princip a výsledky preskriptivních statistických modelů a model testování hypotéz. Snaží se o vyčerpávající pokrytí diagnostického procesu, proto nepřekvapí, že je členěn do 36 kroků a předpokládá zodpovězení 275 otázek. Jedním krokem je například téma „Otázka nebo problém“; patří k němu 8 otázek typu: je otázka formulovaná jednoznačně (anone); je relevantním expertem diagnostik (ano-ne), stačí k zodpovězení otázky poznatky z psychologie (ano-ne); je otázka/potíž plně uvedena ve zprávě (ano-ne) apod. Pokud je odpověď záporná, diagnostik nepokračuje dále. Tento postup je samozřejmě časově náročný a není vhodný pro všechny typy rozhodování. Diagnostika se týká konkrétního klienta. Je možné formulovat jeho jedinečnou otázku takovým způsobem, že se z ní stane vědecká úloha? Tuto speciální vlastnost posuzování se snaží splnit kazuistická formulace případu. 97
Formulace případu Relativně nezávislou oporou rozhodování je organizace diagnostického procesu pro jednoho konkrétního klienta pomocí funkčně behaviorální analýzy. V tomto postupu se otázka nebo problém individuálního klienta vyjadřuje ve formulaci případu. O’Brien et al. (2003, str. 164) ji definují následovně: „Termín formulace případu lze definovat jako proces operacionalizace cílových projevů chování (určení formy) a evaluace vztahů mezi těmito cílovými projevy a potenciálními kontrolními faktory (určení funkce) pro individuálního klienta.“ Cílové formy chování jsou často různorodé. Klient nemívá pouze jeden problematický projev nebo myšlenku. Rozmanité bývají i kontrolní faktory (určující funkci), protože každé chování může být ovlivněno několika interagujícími kauzálními proměnnými. Obojí je potřeba ve funkčně analytickém kauzálním případovém modelu pro danou osobu zachytit. Například, po rozsáhlých rozhovorech s panem X a dalšími významnými osobami bylo vytvořeno následující posouzení případu (Haynes & Williams, 2003; viz obr. 5.2): Pracovní neschopnost v důsledku pracovního úrazu vede u pana X k finančním těžkostem a k hádkám o financích (negativní atribuce jeho manželky) a dále pocitům vlastní bezcennosti, ke starostem, které se objevují při usínání, k nespavosti, k poklesu fyzické aktivity atd. Haynes et al. (1997, str. 334) doporučují výběr proměnných a vztahů za účelem sestavení „vektorové grafické reprezentace“.
Obrázek 5.1: Formulace případu pro problémy pana X. Kauzální struktura se zakládá na individuálních a párových rozhovorech, dotaznících, sebepozorování a na kazuistickém 98
semináři. Pořadí proměnných: 1 hádky o financích, 2 finanční těžkosti, 3 požadavky, manželky, 4 ostarosti před usnutím, 5 manželčiny negativní atribuce, 6 pocity vlastní bezcennosti, 7 počáteční pracovní neschopnost12. I přesto, že se tento přístup jeví pro diagnostiku vhodný, nevyužívá se (Westmayer, 2003), možná proto, že je časově náročný a vždy s sebou nese riziko, že bude podroben kritice kvůli subjektivním volbám a interpretacím. Shrnutí 5.4 Ke kontrole a zlepšování diagnostických výsledků jsou navrhovány opory ve formě logických pravidel, statistických modelů, postupů a kontrolních seznamů. K chybám v logice patří příliš snadné zobecňování, používání prázdných frází, předpokládání toho, co je třeba teprve dokázat, spekulace bez faktické opory, uplatňování dvojích standardů, využívání zpětně získaných informací a extrémních případů. Toulmin navrhl pravidla pro správné zdůvodňování a argumentaci. Tvrzení má formu výroku. Platný výrok se vyznačuje jasnými a „ukotvenými“ vlastnostmi, tj. takovými, pro které existuje empirická podpora. Pokud tvrzení (např. pan X má poruchu osobnosti) takovou podporu má, shromažďují se nové informace, aby bylo zřejmé, že dané tvrzení lze doložit i opakovaně, a až pak se považuje za platné. Tato pravidla zabraňují unáhleným závěrům a poskytují důkaz o souvislosti s reálným behaviorálním fenoménem. Brunswikův čočkový model byl původně vytvořen k popisu procesu percepce. Zanedlouho se však ukázalo, že je i modelem činnosti diagnostika, toho, jak vybírá a integruje nápovědi (v modelu čočka integruje rozmanité nápovědi do jednoho vjemu). K predikci výsledků diagnostické činnosti postačoval lineární model. Lineární kompenzační model lze využít i jako preskriptivní, protože – pokud jsou nápovědi opravdu kompenzační a víceméně nezávislé – lineární model sám o sobě predikuje lépe než diagnostik. Jeho nejlepším možným výsledkem je pouhý „náčrt“. Poselství čočkového modelu je zřejmé: diagnostik musí využívat validní nápovědi a uchopit je jednoduše, tj. jen je přidávat. Chybné postupy diagnostiků vyvolaly potřebu několika dalších opor pro rozhodování. Jednou z nich je multiatribuční teorie užitečnosti (MAUT): staví na jasně definovaných možnostech a atributech, důležitých pro výběr jedné z nich. Atributům se přisuzuje váha podle preferencí. Tyto váhy se násobí hodnotou relevance pro každou z možností. Výsledné hodnoty atributů pro každou možnost se sečtou, možnost s největší hodnotou je favoritem volby. Lze provést i analýzu citlivosti, tj. změnit váhy pro atributy a vypočítat, jestli možnosti skutečně získají odlišnou váhu. Druhou oporou rozhodování je bayesovské pravidlo, které pomáhá revidovat prvotní diagnózu nebo hypotézu ve světle nových informací. Pravidlo počítá s četností fenoménu, např. zneužívání dětí (v populaci asi 3 %), jistotou ohledně příčin znaků zneužívání (např. 90 %) a kvalitou nástrojů k pozorování znaků. Výsledkem je nový odhad pravděpodobnosti jevu (případu) a revize apriorní hypotézy. Kromě inspirací pro rozhodování z oblasti logiky a modelování se využívají i přímé postupy zkvalitňování diagnostického procesu: 1. doporučují se rozhodovací (stromové) diagramy, které obsahují všechny kroky procesu, přičemž každé příslušné rozhodnutí musí být podpořeno informacemi. Problém nebo otázku je třeba vyřešit prostřednictvím sledu realistických kroků. 2. Model testování hypotéz – HTM je princip přejatý z nomologickodeduktivní struktury vedení výzkumu. Jednotlivé kroky zahrnují pozorování, dedukci, indukci, testování hypotéz a evaluaci výsledku. Tento cyklus se příliš nehodí pro diagnostiku, protože se zákony aplikují na jedinou osobu, ale přitom často nebývají formulovány s ohledem na 12
Podle S.N. Haynes & A.E Williams: Case formulation and the design of behavioral treatment programs. European Journal of Psychological Assessment, 2003 (3), 164-175; použito s povolením vydavatele: Hogrefe, Göttingen, Germany – pozn. aut. 99
povahu specifických skupin. Uvedený postup je popsán v Průvodci diagnostickým procesem – GAP (Guidelines for the Assessment Process). 3. Pro organizaci postupných kroků od problému/otázky až po formulaci doporučení klientovi byly vyvinuty kontrolní seznamy s návodnými otázkami. Obvykle se jedná o eklektický nástroj, který kombinuje prvky MAUT, kroky analýzy rozhodování a HTM. 4. Ve funkční behaviorální analýze se sestavují formulace případu pro jednotlivého klienta, pro nějž je za pomoci dat z rozhovorů, pozorování a dotazníků navrženo grafické vektorové schéma se znázorněním kauzálních vztahů mezi proměnnými, Každý diagnostik disponuje jen omezenou kapacitou ke zpracování a integraci informací, proto panuje shoda v tom, že modely a opory rozhodování mohou představovat užitečné pomůcky, díky nimž se může vyhnout nástrahám. Těchto pomůcek existuje celá řada, neexistuje však jednoznačné pravidlo pro to, které vybrat. Bývají komplexní a jejich využití časově náročné. To jejich praktickou využitelnost limituje, navíc neexistuje žádný empirický výzkum, který by model atd. vzájemně srovnával, a dokonce ani není empiricky prokázáno, že by výrazně nebo podstatně snižovaly výskyt falešných pozitiv a negativ ve výsledcích. I kdyby tedy byly doporučovány se sebelepšími pohnutkami, otázka jejich skutečné užitečnosti není vyřešena. 5.5 Alternativní přístupy k diagnostickému procesu Původ alternativních teorií je spjat s nespokojeností s určitými teoriemi nebo se samotným procesem diagnostiky: s pravidly, modely a postupy. Vytýkají jim především nedostatečný důraz na specifický charakter diagnostického procesu jako na setkání dvou nebo více lidí, setkání, které se řídí neformálními interakčními pravidly. Představíme tři alternativní teorie, zaměřené na kompenzaci tohoto nedostatku. Dále bývá poukazováno na to, že integraci informací o klientovi lze navzdory pravidlům logiky s jejími modely a postupy popsat pomocí metafory příběhu, který dává otázkám a problémům klienta význam. Uvedeme si dva příklady, první z nich používá kauzální model příběhu, druhý interpretuje příběh jako konstrukci propojující jinak nespojité, chaotické událostí. Výzkumník i diagnostik něco předpokládají a „experimentálním subjektům“, respektive „klientům“ kladou otázky z těchto předpokladů pramenící, jejich protějšky jim ale „odmlouvají“. I experimentální subjekt má totiž své vlastní hypotézy a klient očekává, že bude brán vážně a předpokládá u psychologa porozumění. Diagnostika je také setkáním dvou lidí připisujících význam sociální situaci. Diagnostika jako setkání Kouwer (1921-1968) kladl důraz na klientovu schopnost sebereflexe. Lidé podle něj nemají žádné jádro, skrytou podstatu, esenci; jsou spíše jako cibule, ze které můžeme odstraňovat vrstvu po vrstvě, až nezůstane nic. Neexistují tedy sami o sobě, „existují v diskusi, konverzaci s ostatními“. Kouwer byl předchůdcem moderní myšlenky, že behaviorální problém existuje a získává svůj status v dialogu. Kirmayer ( 1994) dokonce tvrdí, že klientův problém, zvláště pokud se jedná o vágní psychosomatické stížnosti, je výsledkem vyjednávání diagnostika a klienta. Metoda sebekonfrontování (Self-Confrontation-Method; Hermans, 1992) není diagnostikou v klasickém smyslu slova. Klient je zde „spoluvýzkumníkem“ a diagnostik tím, kdo klientovi při výzkumu pomáhá, a je proto nazýván „pomocníkem“. Klient je požádán, aby popsal několik hodnotových oblastí, tj. událostí a charakteristik, které jsou teď a tady pro něj v jeho každodenním životě důležité, např. trávit více času s rodinou. V průměru klient jmenuje asi 20 hodnotových oblastí, ke kterým přiřadí pocity, např. náročné na čas, odpočinkové, otravné. Pomocník asistuje při definování pocitů (35 standardních afektů), ale 100
klient s popisem pocitu začíná. Spoluvýzkumník po jednom nebo dvou sezeních sdělí, jak se jeho pocity vztahují k hodnotovým oblastem. Počítačový program vypočítá vztahy mezi pocity a hodnotovými oblastmi v matici a klient obdrží souhrnný výsledek. Ten bývá obvykle chápán jako dominance jedné z oblastí nad jinými na pocitové škále. Lze ho považovat za pravdivou reprezentaci struktury hodnot a příslušných emocí u klienta, ale z pozic symbolického interakcionismu se k němu přistupuje jako ke konstrukci hodnot, kterou pomocník a spoluvýzkumník vytvářejí společně. Korelace mohou fungovat jako magická čísla: „0,7 ukazuje, jak je pro mě rodina důležitá“ – díky interpretaci, že 0,7 představuje na škále od 0 do 1 vysokou hodnotu. Výsledek celého procesu je předán spoluvýzkumníkovi spolu s výzvou, aby jej komentoval. Pokud změní hodnotové oblasti nebo jim přiřadí jiné emoce, metoda se opakuje a vypočítá se další matice. Předpokladem je, že hodnotové oblasti a emoce spolu dynamicky interagují. Diagnóza je výsledkem společného úsilí spoluvýzkumníka a pomocníka. Proces je dialogem a s výpočtem výsledku pomůže počítačový program, který zobrazí vztahy mezi hodnotovými oblastmi a pocity či obavami z významných zážitků každodenního života. Třetí alternativu představuje přístup filozofa jazyka Grice (1975), který zkoumal spontánní pravidla, „maxima“ každodenní konverzace. Definoval zásady „relevance“ a „neredundance“. Jazyk má svou gramatiku a sémantiku, ale také pragmatiku. K debatě přispíváme poznámkami, které souvisí s tématem (relevance) a něco k němu dodávají (neredundance). Pokud diagnostik toto pravidlo poruší, obdrží od klienta chybnou informaci. Klient chová očekávání a přesvědčení, že diagnostik se bude ptát na věci závažné a relevantní. To může být důvodem, proč klient odmítne mluvit o Rorschachových tabulích, protože podle něj to jsou jen bezvýznamné skvrny. Diagnostik nemůže vytýkat klientům, že nespolupracují nebo se brání. Griceho konverzační pravidla vysvětlují, proč lidé spojují dva objekty nebo charakteristiky člověka, které jsou uváděny společně. Podle pravidel logiky mají být o dvou izolovaných událostech nebo projevech chování vysloveny dva nezávislé soudy. V běžném životě tomu tak vždy není. Často bývá uváděn následující příklad: Linda je bankéřka a velmi aktivní ve feministickém hnutí. Pokud je subjekt s časovým odstupem požádán, aby sdělil, co si zapamatoval, odpoví, že Linda je feministická bankéřka. Tversky a Kahneman (1983) formulovali výrok takto: Linda je bankéřka, pokladní, „ať je či není aktivní ve feministickém hnutí“ – i potom ale zůstala vzájemná vazba obou charakteristik v odpovědích zachována. Lidé podle všeho kvůli blízkosti obou výroků předpokládali, že práce s penězi předurčila Lindu k feminismu. Diagnostika jako struktura a obsah příběhu Wittemanová (2002) navrhuje použít k popisu práce zkušených diagnostiků termín gramatika příběhu. Příběh vnímá jako speciální případ mentálního kauzálního modelu (srov. s kazuistickou formulací případu). Problém je považován za výsledek kauzality a za soubor interních a externích událostí propojený v čase. Hastie a Pennington (2000) používají tento termín v rámci právní vědy, kde se týká koherentního, pravděpodobného pořadí událostí. Takto pojatá metafora příběhu je omezena na kauzálně a časově koherentní prvky a měla by odrážet skutečný průběh událostí. Metafora příběhu se využívá rovněž k integraci diagnostických informací (jako alternativa k preskriptivním modelům). Tradiční důraz na racionalitu obvykle tomuto typu metaforického uvažování brání. V těchto přístupech, a dokonce i v návrhu Wittemanové, se vnitřní konzistence a kauzální propojení předpokládají. Pokud akceptujeme, že vnější svět a chování lidí je často ovlivněno autonomním sociálním kontextem, musíme přijmout i to, že inkoherence je v měnícím se světě reálný fenomén (Indurkhya, 2007). Jak zacházet s nepředvídatelností lidského chování v průběhu času? Calvin (1996) tvrdí, že lidé při líčení problémů a při popisu svého života jednoduše a přirozeně používají strukturu příběhu. Ta 101
tvoří pojítko mezi jinak nespojitými a možná nepochopitelnými událostmi. Představuje také alternativní postup pro integrování informací od klienta. Literární vědec Frye (1957) zdůrazňuje obsah příběhu. V románech z celého světa identifikoval čtyři základní příběhy, které propojuje s ročním obdobím a čtyřmi fázemi života: Komedie vyzdvihuje narození a jaro, romance je letní období vášně a dobrodružství mládí a rané dospělosti, tragédie odkazuje k úpadku a rozkladu, který začíná na podzim a skončí smrtí, ironie je zima a smrt. Když lidé spontánně vyprávějí o své životní pouti, zhruba v 75 % příběhů se jedná o romanci. Tato forma pojednává o boji proti zlu a o vítězství dobra. Romantický hrdina hledá ztracené štěstí. Na své pouti překonává mnoho překážek. Je to dobrodružství, ale on věří, že vše dobře nakonec dopadne. Cesta je plná protivenství, ale on se vrátí a bude štědře odměněn. Hrdina často není sám. Společnost mu nezřídka dělá člověk stojící oběma nohama pevně na zemi, který hrdinu udržuje v kontaktu s realitou. Na okraj podotkněme, že i pro diagnostika může být svůdné strukturovat zprávu pro klienta jako romantický příběh: otázky budou uspokojivě zodpovězeny, problémy se vyřeší a klient bude odměněn za svou snahu postavit se životním problémům. Fryeova práce představuje jeden z nejstarších návrhů na organizaci životních příběhů v čase. McAdams (2001, p. 644) zmiňuje dalších pět typů příběhů, v současné době vzniká v rámci vědecké psychologie prostor pro „narativitu“ jako odpovídající strukturu pro přístup k biografickému materiálu. Lze shrnout, že alternativní pohledy na diagnostický proces zdůrazňují dynamiku interakce. Některé alternativy jsou propracovány jako postupy použitelné i pro diagnostické účely. Ve skutečnosti však s alternativními postupy operují jen někteří autoři nebo je reprezentují pouze články v odborné literatuře. Praktičtí diagnostici zahrnují alternativní procedury nebo jejich části do své běžné praxe jen zřídka. Shrnutí 5.5 Alternativní názory na diagnostické postupy i výsledky se zaměřují na specifický vztah diagnostika a klienta. Kouwer tvrdí, že klient není jen bytost s charakteristikami, protože „existuje v dialogu mezi lidmi“ a není jen člověkem, o kterém se hovoří, ale má také svůj hlas. Hermans vyvinul metodu, jejímž principem je spolupráce diagnostika s klientem na popisu hodnotových oblastí a příslušných afektů. Výsledek korelační analýzy (matice hodnot a afektů) je předložen klientovi. Na základě těchto údajů pokračuje dialog. Cílem je objasnění aktuálního významu různorodých hodnot v životě klienta. Grice pátral po implicitních pravidlech v pragmatickém používání jazyka, např. „neměň téma“ a „vyvaruj se nadbytečnosti“. Witteman použil strukturu jazyka jako soubor kauzálně propojených vyjádření k popisu diagnostického procesu a dokonce ji používá jako pomůcku pro rozhodování. Metafora příběhu je využívána k dosažení přirozeného způsobu přikládání významu událostem a projevům, se kterým se lidé v životě setkávají. Diagnostika může být chápána také jako vyprávění příběhu klientovi. Frye mluví o čtyřech prapůvodních formách příběhů, užívaných k popisu životních událostí: o komedii, romanci, tragédii a ironii. Příběh sám může být posuzován z hlediska obsahu, příčinné struktury, koherence, pochopení a jasnosti pro člověka z vnějšku. Alternativy hrají v diagnostice zanedbatelnou roli. Setkáme se s nimi pouze u některých autorů a spíše ve výzkumně zaměřených studiích.
5.6 Diagnostici: Individuální rozdíly, vývoj a sociální kontext V preskriptivních modelech a pravidlech hraje individualita diagnostika zanedbatelnou roli. Je zaměnitelný jako úředník, který používá správné formule a dodržuje správný postup, a tak se vyvaruje chyb. Nalezení problému je ale také součástí diagnostiky. Rozdíly mezi posuzovateli, jejich vývoj a vliv sociálního kontextu patří k tématům, o jejichž významu se 102
jen zřídka diskutuje. Osobností posuzovatelů se zabývají tři níže popsané teoretické přístupy. Pokud však přijmeme názor, že diagnostika není jen mechanická procedura, začneme si všímat také individuálních rozdílů mezi diagnostiky, např. v tom, jak formulují otázky a identifikují problémy problémů nebo v jejich výběru teorií, metod a nástrojů. Je pravděpodobné, že diagnostik behaviorista se bude v řadě ohledů odlišovat od neopsychoanalytika. Výzkum přesnosti v oblasti vnímání můžeme aplikovat také na individuální rozdíly mezi diagnostiky. Můžeme se rovněž ptát, jestli sami diagnostici procházejí v průběhu času vlastním vývojem a zda jsou citliví vůči sociálnímu kontextu. Studium individuálních rozdílů v přesnosti úsudku bylo po určitou dobu nepopulární. Úsudek byl považován za produkt posuzovatelů, nikoli posuzovaných subjektů (Cronbach et al., 1955; Funder a West, 1994), protože podstatná část variability hodnocení byla spjata právě s rozdíly v charakteristikách a zájmech posuzovatelů. Je však dobré vědět, zda je jeden posuzovatel lepší, přesnější než jiný. Uveďme si k této otázce pětici příkladů: John a Robbins (1994) dokázali, že domýšliví lidé (narcisté) posuzují sebe i ostatní nesprávně. Brunell et al. (2011) zkoumali vztah mezi narcismem a akademickou nepoctivostí u vysokoškoláků. 199 subjektů popsalo nepoctivé chování své vlastní nebo druhých a vyplnilo Dotazník narcismu. Dimenze Exhibice tohoto dotazníku (Raskin & Terry, 1988) predikovala sklon k podvádění. Autoři interpretují podvádění ve škole jako důsledek narcistické touhy pro akademickém úspěchu, doprovázené absencí pocitu viny za podvádění. Úsudky o ostatních a jejich asertivitě na videozáznamu byly přesnější než sebehodnocení. Vnitřní potřeba poznání (PP) odkazuje k radosti, kterou osoba zažívá při přemýšlení a analyzování behaviorálních fenoménů. Bylo zjištěno, že lidé s vysokým skórem PP „…občas poskytují normativnější odpovědi než jejich protějšky s nízkou PP (zvláště v intrasubjektivním kontextu)“, ale také „…zvýšená přemýšlivost, zaznamenána PP skórem, nezbavuje respondenty rozporů a předpojatosti“. Letzring (2008) spojuje osobnostní charakteristiky pozorovatelů a posuzovatelů s jejich přesností. Kromě známých dotazníků využíval také videozáznamy interakcí. Bylo zjištěno, že „dobří posuzovatelé“ vykazovali osobnostní rysy se vztahem k sociálním dovednostem a přívětivosti a chovali se způsobem, který jejich sociálním schopnostem odpovídal. Zajímali se o své partnery v interakci, a ti pak byli vůči „dobrým posuzovatelům“ otevřenější. Existuje několik studií o osobnosti dobrých posuzovatelů, méně o dobrých diagnosticích. Posledním příkladem je studie Millera et al. (2011). Tito autoři zkoumali osobnostní charakteristiky diagnostiků vzhledem ke skórům, které přidělovali vězňům na základě dotazníků psychopatie. Výzkumu se zúčastnilo 22 studentů a klinických psychologů ze tří univerzit. Projevily se zřetelné individuální rozdíly: tendence hodnotitelů skórovat určitým způsobem souvisela s jejich vlastními osobnostními rysy, např. vyšší přívětivost hodnotitele s nižšími skóry vězňů na škále metody Interpersonal facet dotazníků psychopatologie. Procházejí diagnostici během diagnostického procesu a během své profesní kariéry vývojem? Vývoj během procesu posuzování je příkladem aktuální geneze. To znamená, že subjekty jsou pozorovány a dotazovány v průběhu řešení problémů. Aktuálně genetický či „mikrogenetický“ přístup se jednu dobu jevil jako zastaralý vzhledem k dominanci výzkumu zpracování informací. Siegler znovu uvedl metodu při výzkumu dětí řešících balanční úkol (vyvážení ramen vah). Měly za úkol zjistit, jak dosáhnout rovnováhy s rozdílnými hmotnostmi a vzdálenostmi od osy vah (Siegler & Crowley, 1991; Siegler & Swetlina, 2002). Mikrogenetický výzkum diagnostiků sleduje, jak se mění jejich hypotézy, jak se rozhodují, který nástroj použít, a jak se mění jejich interakce s klientem. To vyžaduje pozorování diagnostika během jeho práce a shromažďování dat verbální povahy. Ve
103
zprávách bývá často uvedeno, že klient se v průběhu kontaktu s posuzovatelem mění: interakce se v průběhu času zlepšuje, je bezproblémovější. Longitudinální ontogenetický výzkum posuzovatelů ukazuje změny ve využívání teorií, metod a nástrojů. Barnes a Moon (2006) popisují takový vývoj v psychoterapeutické supervizi a pravděpodobně může totéž platit i u diagnostiků. V průběhu času se mění terapeutova self-efficacy, zodpovědný přístup k supervizi, pocity ze získání role supervizora a vědomí důležitosti supervize. Jejich profesní identita může ustrnout nebo se vyvíjet. Autoři rozlišují čtyři stadia ve vývoji identity terapeuta. Nejsou dostupné žádné studie o vývoji diagnostika, ale stadia budou pravděpodobně srovnatelná: Šok z nové role (potýkání se s definováním profesní identity). Znovunabytí role a přerod (rozvoj realistického vnímání své identity supervizora) Konsolidace role (cítí se jako supervizor kompetentní). Mistrovství (přesvědčení, že je jako supervizor konzistentně efektivní, kompetentní a profesionálně zodpovědný). Má na diagnostika vliv jeho sociální kontext? Samozřejmě má: posuzovatelé pracují v týmech a intervize i supervize považují za smysluplné. O konkrétních postupech a jejich vlivu na proces i výsledky diagnostiky se však píše jen zřídka. Supervize může ovlivnit identitu posuzovatele, lepší výsledky ale nezaručuje. Organizovaný způsob, jak profitovat ze znalostí kolegů, představuje expertní model. V medicíně existují expertní modely pro specifické nemoci, např. pro nemoci žaludku. V oblasti diagnostiky existuje snaha o vytvoření modelů pro specifické fenomény, např. pro dyslexii. Takovýto model shrnuje poznatky expertů na danou oblast. Blonk (1995) k modelu tohoto typu dospěl na základě dotazování profesorů specializovaných na poruchy čtení. To přineslo seznam kritérií, mezi jinými i testové skóry. Výsledek modelu byl porovnán s prací zkušených diagnostiků. Nebyl nalezen žádný rozdíl, kromě toho, že model byl samozřejmě dokonale reliabilní (test-retest přinesl samozřejmě stejné výsledky), výsledky od praktických diagnostiků ale nikoli. Lze tedy shrnout, že i když má smysl předpokládat, že jednotliví diagnostici se vzájemně odlišují, vyvíjejí a jsou ovlivňováni sociálním prostředím, ve výzkumu se tato témata téměř neobjevují pravděpodobně proto, že se předpokládá, že standardizace postupů a protokoly modelů, pravidel a postupů eliminují nebo minimalizují vliv individuálních rozdílů, vývoje a sociálního kontextu. To je ale spíše naivní představa, protože např. individuální rozdíly v narcismu korelují s přesností, posuzovatelé se vyvíjejí, stávají se sebevědomějšími a jejich sociální kontext ve formě intervize a supervize ovlivňuje jejich diagnostickou práci. Shrnutí 5.6 Individuálním rozdílům mezi diagnostiky s ohledem na diagnostický proces a jeho výsledky se věnuje ve výzkumu omezená pozornost. Přesnost posuzovatele ovlivňuje úroveň narcismu posuzovatele a také jeho obecný zájem o poznání lidského chování. Mikrogeneze kroků, které diagnostik podstupuje, je téměř neprobádané téma, totéž platí i pro ontogenetické změny během profesní dráhy diagnostiků. Bývají patrně ovlivňováni svými kolegy, např. v rámci supervizních a intervizních programů, neexistují ale důkazy o vlivu těchto interakcí na diagnostický proces a jeho výsledky. Expertní modely představují výběr nejdůležitějších poznatků o daném tématu, např. o dyslexii. Počet modelů je ale omezený, protože navrhovat expertní modely pro behaviorální fenomény je obtížné. Předpokládá se, že procedurální předpisy eliminují nebo minimalizují účinky individuálních rozdílů, vývoje a sociálního kontextu posuzovatelů, tato představa je však zřejmě naivní.
104
5.7 Komentáře a hodnocení Porovnávali jsme testování a diagnostiku (assessment), popsali jsme specifické skupiny klientů, např. handicapovaných, víme, že klienti se nacházejí v rozmanitých životních situacích. Pokud existují pravidla, vždy je na ně brán zřetel. Je zřejmé, že důležité je studovat procesy, výzkumníci a psychologové chtějí rozumět příčinám a mechanismům změny nebo stability chování. Na základě zkušeností a empirických studií víme, že procesy jsou kolísavé, např. pozornost může cokoli odvést, dávat pozor můžeme přestat i bez zjevného důvodu. Naše paměť je selektivní a kreativní a někdy ani nezaznamenáme rozdíl mezi tím, co se skutečně stalo, a tím, co jsme si vymysleli. Lidská schopnost zpracování informací je omezená. Lidé nejsou schopni a možná ani nechtějí zpracovávat informace podle ideálních modelů, pravidel a standardů. To vědí výzkumníci i laici. Kvůli tomu byly vytvořeny koncepty, modely, pravidla a stanovené postupy, které odrážejí alespoň některé důležité prvky reálného světa a reálného chování. Výsledkem této konstruktivní aktivity vědců a dalších odborníků jsou předpisy, umožňující validní posouzení. Běžná diagnostická praxe, např. využívání rychlých a jednoduchých odhadů, je často nedbalá. Laici i odborníci jsou náchylní k chybám, jednoduchým, pragmatickým úsudkům „nohama na zemi“, orientovaných na zvládnutí každodenních situací. Je ale otázka, zda se vědci sami řídí pravidly, metodami a postupy, které tak jednoduše navrhují diagnostikům a dalším odborníkům. Může působit až hrubě, přesto si ji klademe. Další otázkou je, zda jsou opravdu laici a praktici jednoduší, anebo: je dimenze „jednoduché vs. komplexní“ skutečně adekvátní pro popis vztahu mezi odborníky a vědci? Na první otázku si můžeme odpovědět: rozhodně ne vždy. Kerr (1995) poukazuje na fenomén, kdy se vědec při psaní článku řídí výsledky studie a volí takové hypotézy, pro které jeho výsledky poskytují oporu (angl. HARKING – hypotheses after results are known). To není právě doporučený nomologicko-deduktivní způsob výzkumu, např. Bem (1987) však tuto strategii mladým výzkumníkům dokonce doporučuje. I na druhou otázku si můžeme odpovědět: jistě ne vždy. Formulace případu a popis subjektivních teorií vykazuje komplexní strukturu. Klienti a pacienti pro sebe dokáží vytvořit velice komplexní „modely“, pravidla a předpisy. Terapie může být dokonce zaměřena právě na vytvoření zvládnutelnějších konstrukcí, než jaké tyto jejich modely představují. Pro vědce jsou pravidla důležitým ideálem nebo pomůckou při strukturování výzkumných otázek, ale odchýlení od pravidel je možné a není nezbytně „nevědecké“. Pravidla a předpisy se vztahují k výzkumu, nikoli k výzkumníkovi, který ke své činnosti potřebuje kreativitu a svobodu. Zvyk strukturovat výzkum od teorie k testování hypotéz je vyžadován editory časopisů, ale ve skutečnosti je teorie často vágní, ne „nomologicky“ formulovaná a „deduktivně“ testovaná. Současně však potřebujeme určitou strukturu, aby se nestávalo, že „ve vědě je možné cokoli“. Je obtížné určit, kdy odchylka od předpisu opravdu otevírá nové zajímavé pohledy. Laické i praktické postupy jsou možná příliš zjednodušeně a předčasně srovnávány s preskriptivními modely, pravidly a inventáři. To vyústilo v bezútěšný obraz laických a praktických diagnostiků. Reakcí na toto obvinění byl částečně i ekologický výzkum analyzující tyto procesy. Výsledkem byla obrana jednoduchých postupů jako adaptivních, ale jednoduchost není jedinou cestou k adaptaci. Evoluce poskytuje obraz adaptace, přežití a výběru jako komplexních jevů. Výstupy diagnostiky primárně definují vědci a výzkumníci. V běžném životním kontextu ale lidé s událostmi a chováním zacházejí zcela bez zábran, což samozřejmě souvisí s poptávkou po jiných typech výsledků, než je validní kategorizování, predikce, kontrola a rozhodování. Lidé často diskutují o práci a vztazích, aby nevázla řeč, aby byla zábava, když se hádají nebo aby udělali dojem na ostatní. Nepředstírají, že se drží zásad logiky a správného dokazování ve snaze dosáhnout optimálního rozhodnutí. Má smysl srovnávat jejich chování s předpisy? 105
Co bychom tím zjistili? Má smysl zkoumat usuzování běžného člověka samo o sobě, a zlepší nějak tato zjištění úsudek diagnostiků? V poslední době vznikl prostor pro analýzu vnímání a usuzování v jeho reálné podobě. To ilustruje práce Gigerenzera (kapitola 4), ale také výzkumy amerických psychologů, kteří správnost laických úsudků vnímají jako předmět „sui generis“. Na laiky i praktiky podle nich působí dvě neústupné primární síly: vzájemně se ovlivňující pravda a předsudky s odlišnou silou a hodnotou (West a Kenny, 2011). Síla pravdy je míra, jakou jsou úsudky přitahovány k hodnotě pravdy. Hodnota pravdy je hodnota kritéria pravdivosti, ke kterému je úsudek přitahován. Jak nám preskriptivní výzkum opakovaně sděluje, samozřejmě zde existují překážky. Autoři je nikoli překvapivě nazývají předsudky (biases). Předsudek je jakákoli hodnota, ke které jsou úsudky přitahovány, vyjma pravdy. Popis sil propracovali detailněji, ale v zásadě jde o aristotelovskou ideu pravdy, která říká, že pravdivé je říci o něčem, co je, že to je, a o něčem, co není, že to není. Diagnostici, kteří pracují s otázkami a problémy klientů, potřebují znalostní základnu sociálních věd. Výzkumníci jim většinou říkají, že jejich práce je srovnatelná s laickými úsudky a že musí zohlednit standardy logiky, aby mohli logicky argumentovat, vybírat a integrovat diagnostické informace podle statistických modelů, rozhodovat se s pomocí statistických modelů a vyšetřovat klienta za pomocí hypotéz, které budou testovat jako při experimentu. Tyto standardy jsou pojmenovány v instrukcích s mnoha příkazy a zákazy, jejichž počet kolísá od 80 do 276. To je dost, a je otázka, zda průměrný diagnostik bude naslouchat takové kanonádě doporučení a požadavků. Monitorování diagnostiků, kteří využívají model testování hypotéz (HTM) ukázalo, že se řídili jen omezeným počtem doporučených kroků (Groenier et al., 2008). Co z toho plyne? Vždy bude existovat napětí mezi vědeckým výzkumem s jeho normativními ideály a tím, co se ve výzkumu a v diagnostice skutečně děje. Tento jev je univerzální: politici, kněží a další se neřídí zákony, které sami stanovili, hudebníci hrají falešně, svatební sliby jsou porušovány a empirický výzkum a diagnostika neprobíhá podle pravidel a návodů. To neznamená, že na jakákoli pravidla se má rozignovat; realita, jaká je, není sama o sobě normou („je“ nemůže být zaměňováno za „mělo by“, šlo by o chybnou kategorizaci). Pravidla mají ve výzkumu a diagnostice svůj význam, protože zamezují alespoň některým omylům a chybám. Vztah mezi vytvářením laické, explicitní a alternativní teorie je popsán v kapitole 1, kde jsme uvedli, že každá z nich „hlídá“ ty ostatní. Totéž platí i pro vztah mezi laiky, profesionálními diagnostiky a výzkumníky. Vztah bude problematický, dokud budou všichni ostatním vyčítat nedbalost a/nebo tvorbu hypotéz až ze známých výsledků (HARKING). Navrhujeme zahájit kritický dialog, který je oproti „hlídání“ pokrokem.. Kritický dialog je metaforicky řečeno veřejným prostorem, platformou pro rozhovory, vyjednávání, prostorem, ze kterého nikdo není vyloučen. Smyslem je podložená argumentace, kdy všichni interpretují ostatní benevolentně, s pochopením a dokonce empatií. Vztah je záležitostí vzájemné důvěry, respektu, sdílení zkušeností, spolupráce, ale není nutně zaměřen na nalezení konsensu. Rozdíly jsou důležité a mají svůj význam, bez nich by nebylo zapotřebí dialogu. Triáda diagnostik, klient a vědec se takového kritického dialogu účastní. Tento vztah se liší od kritické diskuse zaměřené na vyřešení rozdílu v názoru. V takové diskusi jeden vyhrává a druhý prohrává. Také se nejedná o debatu, ve které jsou dovoleny všechny rétorické prostředky (včetně propagandy a obviňování druhé strany), kde je druhý vnímám jako možný podvodník a jedná se o násilný boj, ve kterém má být druhý poražen, a to i osobně. Cílem profesionálních diagnostiků a vědců je objektivita, ta ale není stejná jako objektivita předmětu exaktních věd. Odkazuje k respektu a transparentnosti postupů při popisu subjektu nebo klienta. 106
Metaforicky vyjádřeno: diagnostika operuje mezi logem (záznamy, teorií, diskursivním myšlením, rozumem) HTM, dotazníků, MAUT, Bayesova faktoru, správné argumentace, logických pravidel, a mýtem (konverzace, příběhů, subjektu, konstruktivního myšlení), jež jsou spolu v kritickém dialogu, který utváří dynamiku diagnostického procesu. Koncepty a termíny v kapitole 5: DIAGNOSTICKÝ PROCES Rozdíly mezi testováním a posuzováním (assessment) Kroky diagnostického procesu Vlastnosti laického modelu Výsledky diagnostiky: kategorie (porucha; vývojové stadium), predikce (výběr a umístění), kontrola (manipulovatelné faktory) a rozhodnutí (možnosti, optimální rozhodnutí) Psychologické procesy relevantní pro kategorizování, predikci, kontrolu, rozhodnutí Pravidla diagnostického procesu: logická pravidla, správná argumentace (Toulmin), Brunswikův čočkový model predikce: konvergence, interakční nápovědi, lineární model integrace nápovědí Opory rozhodování – kvantitativní: MAUT (vlastnosti a možnosti), Bayesovo pravidlo (apriorní, aposteriorní hypotéza, základní úrovně výskytu) Pomůcky pro rozhodování: kvalitativní/kvantitativní procedury: řazení rozhodnutí do kroků, kontrolní seznamy; „model testování hypotéz“, cyklus empirického výzkumu, cyklus praktické diagnostiky ; návody, inventáře; organizace diagnostiky klienta – rámec funkční behaviorální analýzy Alternativní uspořádání diagnostického procesu: konverzační maxima (Grice), sebekonfrontační metoda (Hermans), kauzální mentální model (Witteman), metafora příběhu k smysluplnému propojení projevů klienta (Frye) Diagnostici: individuální rozdíly (přesnost; „dobrý posuzovatel“); vývoj (aktuálně genetický – „mikrogenetický“, ontogenetický), sociální kontext (expertní systém) Kritický dialog Kritická diskuse Debata
6 RELIABILITA A VALIDITA V DIAGNOSTICE Koncepty reliability a validity se obvykle vztahují především na testy a dotazníky. Jsou také propracovány pro diagnostiku s důrazem na predikci a (kvazi)experimentování. Jaké implicitní teorie reliability používají laici? K čemu se jejich koncepty reliability vztahují? Explicitní teorie reliability je rozpracována ve statistické teorii testových skórů. Jaké procedury slouží ke konstruování odhadů reliability; jaké jsou koeficienty reliability? Jaké informace diagnostikům poskytují? Je reliabilita omezena jen na objektivní testy? Jak je to s reliabilitou dalších diagnostických metod? Proč většina profesionálů přijímá jako nevyhnutelné chyby měření, které je třeba odhadovat? Jaké explicitní koncepty validity používají laici? Proč je pro laiky validita (platnost) tak důležitou charakteristikou? Jaká kritéria validity nebo pravdivosti laici používají? Jaké explicitní koncepty a definice existují? Jaké druhy validity rozlišujeme? Jaká je historie konceptů validity v psychologii? Existuje jednotný koncept a je pro pokrok nezbytný? Existuje mnoho pravidel pro používání testů; jsou pro diagnostika užitečné? Jaké typy výzkumů validity známe? Existují alternativní možnosti testování a výzkumu validity? 6.1 Reliabilita (spolehlivost): implicitní koncepty V běžném životě představuje spolehlivost kvalitu osobnosti nebo situace. O člověku říkáme, že je spolehlivý, pokud je důvěryhodný, čestný, stálý a důsledný. Za spolehlivé označujeme i situace a objekty, například informace, dotazníky, prezervativy, počasí nebo led na bruslení. 107
Lidé vnímají spolehlivost jako cennou charakteristiku osobnosti. Slavný francouzský humanista Montaigne (1533-1592) napsal ve svém zámku na jihu Francie během čekání na smrt několik esejů o nestálosti lidského pokolení. Stálost vnímá jako nejvýznamnější ctnost a ihned dodává, že on sám ve snaze být důsledný neuspěl. Když jsou mladí rodiče požádáni, aby vyjmenovali rysy, které u svých dětí považují za důležité, mezi nejčastěji zmiňované patří: poctivost, spravedlivost, ohled na zájmy druhých, nezávislost, otevřenost a zodpovědnost. A neplatí to jen pro rodiče. V Michiganské studii zaměstnatelnosti (Michigan Employability Survey) z roku 1986 vybíralo 3000 zaměstnavatelů ze seznamu 86 charakteristik ty nejdůležitější, které by měli jejich zaměstnanci mít: čestnost, spolehlivost, svědomitost. Obecná inteligence (IQ) skončila na pátém místě. Spolehlivost byla již v roce 1928 označena za rys individuální odlišnosti. Hartshorne a May zkoumali spolehlivost a poctivost a došli k závěru, že neexistuje nic takového jako stabilní rys, protože tato charakteristika je citlivá vůči situacím doma, ve škole, v práci. Rushton et al. (1983) namítají, že data musí být shromažďována v různých situacích, a tak bude možno ověřit existenci stabilního rysu „poctivosti“. Faktorová analýza charakteristik osobnosti ze slovníků z celého světa přináší obvykle pět faktorů (Big Five). Třetí faktor „Svědomitost“ zahrnuje na jedné straně pozitivní adjektiva jako organizovaný, metodický, výkonný, zodpovědný, spolehlivý, na straně druhé charakteristiky s negativním nábojem jako nedbalý, nezodpovědný, chaotický, nepředvídatelný, lehkovážný, zapomnětlivý (Hendriks, 1997). Faktor svědomitosti je jediným z Big Five, který koreloval mírně, ale statisticky významně s úspěchy u 784 nizozemských studentů prvního ročníku psychologie (r = 0,19, p < 0,01). Spolehlivost v každodenním životě odkazuje také k vyhnutí se chybám v posuzování lidí a objektů. Působí jako validita (platnost), protože splňuje i její kritéria. Vztah mezi spolehlivostí a chybováním je jiný než v explicitním konceptu chyb. Chybování je něco, čemu se snažíme vyhnout a co můžeme napravit: „Tuto chybu už nikdy neudělám.“ Chyby měření jsou chybami náhodnými, tedy již z definice nevyhnutelnými. Jsou přisuzovány samotnému procesu pozorování, pozorovateli, nástroji nebo dynamice subjekt-objekt. Takovéto chyby nejsou systematické, jako např. při používání špatné kalibrace teploměru. Náhodné chyby se objevují za prvé v důsledku nekontrolovatelných podmínek, např. při posuzování osobnosti. Samozřejmě existují výkyvy v pozornosti, fyzické kondici, výkonnosti, koncentraci, impulzivitě, nedbalosti atd. Za druhé může být příčinou prostředí, protože to se u každého liší a subjekty s prostředím interagují různě. Za třetí se mohou chyby objevit v nástrojích nebo na straně pozorovatelů. Jediný způsob, jak získat o těchto chybách představu, je odhadnout je, protože odstraněny být nemohou. Shrnutí 6.1 O lidech se říká, že jsou „spolehliví“, stejně tak mohou být jako „spolehlivé“ popisovány i situace. Spolehlivost je rys ceněný u dětí i zaměstnanců. Může být vnímána jako individuálně rozdílná proměnná, ale např. rozdíly v poctivosti můžeme připsat také situaci. „Svědomitost“ je stabilním faktorem Big Five. Spolehlivost je v implicitním teoretizování téměř totožná s validitou. Běžná představa chyby se liší od konceptu chyby v testové teorii, chyby jsou v každodenním životě vnímány jako odstranitelné a napravitelné. Důvodem chyby měření jsou nekontrolované podmínky u zkoumaného jedince, v rámci situace nebo v samotném diagnostickém nástroji. 6.2 Reliabilita: explicitní koncepty Reliabilita značí stabilitu, shodu výsledků při opakovaném měření. Používáme zde termín „koncept reliability“ protože teorie je pro odhad pouhých chyb měření příliš široký pojem. Měření se může opakovat u subjektu, ve výběru, v rámci testu, nebo lze opakovat samotný 108
test při různých příležitostech. V klasické testové teorii je reliabilita definována teoreticky jako opakované měření jedné osoby stejným nástrojem, ale ve skutečnosti je odhadována ve výběru. Základní myšlenkou je, že při měření biologických, fyzických nebo psychologických fenoménů jsou chyby měření nevyhnutelné. Nikdy není možné získat při opakovaném měření přesně stejný výsledek. Reliabilita je index udávající pravděpodobnost, s jakou při opakovaném měření získáme stejný výsledek. Pro konstrukci indexů reliability jsou používány dva způsoby: opakované měření téhož u jedné osoby nebo výběru (test-retest) a opakování při testování samotném, testy nebo položkami odkazujícími ke stejnému rysu (paralelní testy, např. rozdělení položek na liché a sudé nebo nejrůznější možné poloviny). Při výpočtu koeficientů reliability opakovaným měřením test-retest jsou odpovědi považovány za stabilní v průběhu času. Nízký koeficient může být zapříčiněn vlivem behaviorální změny u zkoumaného subjektu. V takovém případě testu nechybí reliabilita, ale metoda test-retest jednoduše není pro odhad reliability vhodná. K rozhodnutí, zda opravdu u výběru došlo k diferenciální změně, potřebujeme další informace o změně v chování. To je teoretická psychologická otázka, nikoli téma v „teorii“ reliability. Při výpočtu koeficientu vnitřní konzistence musejí položky měřit jeden a tentýž rys. Nízký koeficient vnitřní konzistence může být výsledkem měření dvou a více rysů, které v testovaném výběrovém souboru nekorelují dokonale. Test nepostrádá reliabilitu, ale měří současně dvě různé charakteristiky, které ve výběru dokonale nekorelují. Při konstruování nástrojů jsou preferovány homogenní, jednodimenzionální testy, v nichž mohou být položky jednoduše zodpovězeny. Každá položka je považována za lineární funkci stejné jednotlivé vlastnosti. Rozhodování, zda test měří současně v určitém výběru dva rysy, je také otázkou psychologické teorie, nikoli „teorie“ reliability. Někteří autoři přesto vypracovali teorii sloužící k odhadu reliability heterogenních testů, protože “…složitost psychosociálního chování vyžaduje testy, které jsou heterogenní, měří více než jednu vlastnost“ (Lucke, 2005, s. 65). Ve skutečnosti je tato „nová“ reliabilita odhadem kombinace reliabilit jednotlivých subtestů pro různé vlastnosti plus součet reliabilit zahrnující korelaci mezi subtesty. Byla vytvořena celá řada indexů a konkrétních koeficientů reliability. Existuje totiž mnoho postupů a způsobů výpočtu vztahu mezi odpověďmi na jednotlivé položky. V principu je možno použít všechny multivariační techniky. První procedurou je test a retest osoby nebo výběru. Odpovědi jednotlivce (výběru) na stejné položky se mohou lišit, protože existuje kolísání v odpovědích na stejné nebo paralelní položky. Paralelní jsou položky se stejným významem, směrodatnou odchylkou a korelací s dalšími položkami. Lze si dokonce představit, že existuje „variabilita v konzistenci“ mezi jednotlivými lidmi a dokonce i u jediné osoby. Můžeme například očekávat, že oportunista bude jednat v každé situaci účelově. Čestný člověk naopak bude pravděpodobně vykazovat větší konzistenci v různých situacích. Pod tlakem lidé jednají jinak než za klidných podmínek. To znamená, že je možné definovat index reliability i pro jednotlivého člověka. Tento argument je přijatelný, ale zřídka se konstruují „personalizované“ indexy reliability. Bauer (2011) zdůrazňuje existenci individuálních rozdílů v psychologických procesech a požaduje změny v metodologii ve prospěch idiografického přístupu. I když se zdá být zjevné, že klienti se liší v přesnosti, zájmu a pravdomluvnosti při vyplňování dotazníků, testů a při vyprávění příběhů psychologovi, této otázce se v kontextu diagnostiky příliš nevěnuje pozornost. Pokud bychom teoreticky měřili stejnou osobu stejnými nástroji opakovaně, můžeme vypočítat průměr a směrodatnou odchylku položek, tj. kvadratický průměr odchylek od individuálního průměrného skóru. Pokud je tato hodnota nízká, osoba skórovala v položkách 109
podobně a je stabilní, konzistentní, stejně jako pak bude stabilní i měřený rys v celém výběru. Popsaným ukazatelem je standardní chyba měření, první index reliability, který je ale pouze teoretický, protože nemůžeme opakovaně testovat jednu a tutéž osobnost. Tradičně se rozlišují tři typy reliability. (1) Opakování paralelních nebo alternativních forem testů: paralelní testy, např. rozdělení položek na liché a sudé: reliabilita paralelních forem; (2) opakování celého testu ve stejném výběru osob: test-retest; koeficient stability; (3) opakování s použitím položek testu nebo několika subtestů, výsledkem je koeficient vnitřní konzistence. Společně s koeficientem zobecnitelnosti a teorie odpovědi na položku (IRT) jsou tyto indexy nejčastěji udávanými druhy reliability. Pro každý z nich bylo vytvořeno mnoho koeficientů, nejpopulárnějšími jsou koeficient test-retest a Cronbachova alfa. Existuje i další typ. Původ má v teorii zobecnitelnosti Cronbacha et al. (1970). V jejím rámci jsou všechny typy reliability popsané výše považovány za různé případy jediné teorie reliability, která je zobecněním klasické testové teorie. Měření pravého skóru obecného latentního rysu vždy vykazuje chybu (non-reliabilitu), která se skládá z různých chyb: stabilita skórů odkazuje ke zobecnitelnosti napříč situacemi, vnitřní konzistence vypovídá o zobecnitelnosti položek a shoda je vyjádřením zobecnitelnosti u posuzovatelů, hodnotitelů. Pro každou výzkumnou otázku si musíme zvolit tu rovinu zobecnitelnosti, která je pro daný výzkum podstatná. I když je tato teorie adorována, využívána bývá zřídka. Důvodem bude zřejmě časová náročnost shromažďování potřebných dat k vypočítání koeficientů zobecnitelnosti. Jsou vypočítávány odhadem komponentů variance (za použití ANOVY), prvně jmenovaný výpočtem korelačních koeficientů. Moderní testová teorie (Teorie odpovědi na položku, IRT) přináší nový index. Zejména nelineární funkce odpovědi na položky vykreslují pravděpodobnost dobré odpovědi nebo souhlasu s položkou, např. vyšší stupeň matematických schopností implikuje vyšší šanci zodpovědět položku správně. V teorii odpovědi na položku může být určen interval spolehlivosti pro každou úroveň latentního rysu. To se nazývá podmíněná přesnost měření. Každá položka má informační funkci a informační funkce testu je součtem informačních funkcí jednotlivých položek. Čím strmější je funkce na úrovni latentního rysu, tím je měření přesnější. V klasické testové teorii je standardní chyba měření stejná pro všechny úrovně skórů, v IRT se rozlišuje pro úrovně latentního rysu. Reliabilita vysokých a nízkých skórů je nižší než reliabilita středních hodnot, protože se mohou snáze měnit. Výzkumník má tedy k dispozici několik typů indexů, které vyjadřují reliabiltu testových a dotazníkových skórů: standardní chyba měření, test-retest, reliabilita paralelních testů, vnitřní konzistence, koeficienty stability a komponenty rozptylu pro osobu, položku, příležitost, a konečně i informační funkci položky a testu. Při výběru metody je na diagnostikovi, aby zvážil, který z koeficientů je pro jeho záměr nejvhodnější. Pokud je požadována predikce budoucího chování, bude vhodné zvolit koeficienty stability, pokud chceme znát vnitřní vztahy položek a testu, potom je lepší zvolit koeficienty vnitřní konzistence. V případě mezních (cut-off) skórů budou užitečné informační funkce položek testu ležících v okolí zjištěné hodnoty. Koeficienty informace umožňují vypočítat intervaly spolehlivosti, ve kterých s určitou pravděpodobností, obvykle 95 %, nalezneme hodnotu latentního rys osoby. Při výběru testu je možné vycházet z hodnoty koeficientu reliability, ale významnějším vodítkem pro rozhodováním je spíše míra validity. Shrnutí 6.2 Reliabilita je založena na myšlence konzistence a opakovatelnosti testových a dotazníkových výsledků. Teoretickým indexem reliability je standardní chyba odhadu, kterou lze vypočítat na základě opakovaného měření stejné osoby stejnými položkami, s tím, že směrodatná odchylka nebo rozptyl je ukazatelem reliability. Konkrétní odhady koeficientů jsou založeny 110
na testování paralelními testy a na půlení testu (split-half), opakovaném testování test-retest nebo vnitřní konzistenci. Koeficienty předpokládají, že chování je stabilní a položky spolu silně korelují. To bývá často interpretováno jako výlučný vztah k jednodimenzionálním konstruktům, což ale neplatí nezbytně . Teorie zobecnitelnosti je rozšířením klasické testové teorie a zahrnuje všechny aspekty reliability: zobecnitelnost položek, událostí, situací i zobecnitelnost u posuzovatelů. Koeficienty umožňují výpočet intervalu reliability, v jehož rozsahu, např. s 95% jistotou, se nachází skutečný skór osoby podle klasické testové teorie. Teorie odpovědi na položku (IRT) nabízí nový index, informační funkci testu, která může být odhadnuta pro každou úroveň latentní charakteristiky. Je na posuzovateli, aby zvolil koeficient nebo index, který bude pro jeho záměry nejvhodnější. 6.3 Reliabilita a posuzování (assessment) Diagnostiku nelze omezit pouze na testování. Zatímco „teorie“ reliability se zabývá testovými skóry na pořadové a intervalové úrovni měření, při posuzování (assessment) se pracuje i na úrovni nominálních kategorií, kdy lze vyčíslit shodu posuzovatelů či pozorovatelů v zařazení osoby do kategorií (inter-judge, inter-observer reliability). Neexistuje však žádná teorie reliability, která by se zabývala „pravou kategorizací“, podobně jako se hovoří o „pravých skórech“ testů. Proto je termín „shoda“ na místě. Ke stanovení odhadu povahy a závažnosti potíží využívají totiž diagnostici navíc takové postupy, jako je kazuistická formulace případu nebo model testování hypotéz. Reliabilita (nebo opakovatelnost) pak bývá ověřována pouze zřídka, většinou se předpokládá, že je zajištěna již garancí předepsaného postupu. Pro nominální škály (kategorie), např. rozdělení pacientů v rámci kategorií DSM-IV na základě daných kritérií (včetně výsledků testů a dotazníků), může být jako indikátor „reliability“ využita shoda dvou nezávislých posuzovatelů. Shodu by bylo možno vyčíslit jednoduše v počtu shodně posouzených případů. To je ale nedostačující, protože existuje určitá pravděpodobnost, že ke shodě dojde náhodou. Představme si dva posuzovatele, kteří rozdělují 100 pacientů do tří kategorií. Posuzovatel A zařadí 50 % do kategorie 1 a posuzovatel B 40 %, potom náhodná shoda bude (0,5 x 0,4) = 0,2. U jednoho případu z pěti je šance náhodné shody. Je tedy třeba upravit koeficient s ohledem na toto riziko. Tento typ vzorců obvykle porovnává počet (podíl) shodně posouzených položek (pozorované p) mínus počet položek, u kterých se předpokládá náhodná shoda (p očekávané) děleno 1 (poměr) nebo N (frekvence nebo počet jednotek) mínus náhodná shoda (p očekávané). Tato hodnota se nazývá Cohenova kappa (k) (Cohen, 1960): k(appa) = [P (pozorované) – P (očekávané)] / [1 – P (očekávané)]. Předpokládá se, avšak zřídka ověřuje, že posuzovatelé jsou srovnatelně kompetentní. Je pravděpodobné, že pokud mnoho pacientů patří do jedné kategorie, šance, že se posuzovatelé shodnou, je vysoká. Stupeň shody pozorovatelů, posuzovatelů nebo tazatelů je obvykle součástí vědeckých zpráv, kdy bylo pro získání diagnostické informace využito těchto postupů. Cohenova základní myšlenka byla dále rozpracovávána (např. Bakeman & Gottman, 1997, kapitola 4; Goodwin, 2001). Mumma a Smith (2001) rozvinuli Cohenův příspěvek způsobem, které lze považovat za rozšíření principů reliability na kazuistickou formulaci případu. Jejich cílem bylo vylepšení a standardizace tohoto postupu. Dvojice klinických psychologů obdržely videonahrávky polostrukturovaného rozhovoru se čtyřmi subjekty s poruchou nálady nebo s kombinací poruchy nálady a úzkostné poruchy. Formulovali nezávisle dva až tři případy „kognitivněbehaviorálních-interpersonálních scénářů“ (cognitive-behavioral-interpersonal scenarios, CBIS). Deset diplomovaných psychologů ohodnotilo každý CBIS v 15 dimenzích, z nichž 111
každá byla popsána na 9-bodové škále, např. kognice, afekt, symptomy a interpersonální fungování. „Reliabilita“ shody (zde korelace posuzovacích škál) byla pro všechny dimenze >0,83. Scénáře pacientů se vztahovaly k dimenzím deprese, úzkosti a interpersonálního fungování. CBIS poskytly dostatečně jasné informace, které je umožnily charakterizovat spolehlivě v dimenzích významných pro kognitivní, afektivní, symptomatickou a interpersonální dimenzi. Tato studie poskytuje nepřímé argumenty pro shodu ve formulaci případu nezávislými odborníky. Přímé srovnání formulace případu stejného pacienta nezávislými posuzovateli, například index podobnosti vektorové grafické reprezentace (Haynes et al., 2003) není k dispozici. Tento příklad je výjimkou, obvykle je formulace případu považována za „reliabilní“ již kvůli dodržení předepsanému postupu, protokolu. Studie shody posuzovatelů pro model testování hypotéz nejsou dostupné. I když je to složitý postup, bylo by možné srovnat dva nebo více posuzovatelů s ohledem na obsah kroků, počet a obsah hypotéz a postup „testování hypotéz“ (srovnání s kritérii), který navrhují. Inventáře a směrnice zahrnují odpovědi posuzovatelů, které mohou být srovnány a umožňují vypočítat míru jejich shody. Pokud je nám známo, tato shoda nebyla dosud pro diagnostické postupy a rozhodování o stejném klientovi dvěma a více posuzovateli zkoumána. Bylo by jistě časově náročné, ale užitečné zkoumat individuální zvláštnosti diagnostiků a proveditelnost těchto komplexních postupů a protokolů. Studie shody může být také užitečná při monitorování postupu samotného, podobně jako je tomu s monitoringem léčebné péče při výzkumu intervencí. Shrnutí 6.3 Diagnostika není totéž co testování, protože kromě testů zahrnuje i další komplexní postupy. Teorie testů byla Cohenem rozšířena i pro nominální škály, modifikace jeho návrhů je nejvíce využívána pro odhad shody při začleňování do kategorií, např. kategorií DSM-IV, kategorií pozorování, témat rozhovoru atd. Rovnice (Cohenova kappa (k) bere v úvahu náhodnou shodu: k = [P (pozorované) – P(očekávané)] / [1 – P(očekávané)]. Výzkumný příklad ukázal, že je možné vyčíslit shodu diagnostiků při formulaci případu, i když shoda je zde určována nepřímo. Data o shodě posuzovatelů při využití jiných metod, například modelu testování hypotéz a při využití inventářů a směrnic nejsou k dispozici. Obecně se za dostatečnou záruku reliability nejspíše považuje dodržování doporučených postupů. Možná je tomu tak proto, že pokyny obsahují zřejmé, ne-empirické logické kroky. Zdá se ale opodstatněné vyžadovat empirické důkazy o tom, jak s takovými „logickými“ a striktními protokoly zacházejí posuzovatelé. 6.4 Jaké hodnoty koeficientů reliability jsou žádoucí? Praktickou otázkou pro diagnostika je, jak vysoký musí koeficient reliability nebo index shody být. Testové manuály jsou objektivními dokumenty, jsou ale také psány s ohledem na to, aby se testy a dotazníky prodávaly. Jen stěží v nich bude přiznáno, že koeficient reliability je příliš nízký a test nepoužitelný. Diagnostik se může rozhodnout, jakou míru rizika je ochoten podstoupit. Je také možné, že požadovaný stupeň reliability nebude pro každý cíl stejný. Ve výzkumu nebo při orientačním testování mohou být požadavky méně náročné. Učitel může vytvořit test jen pro přibližnou představu o úrovni žáků. Důstojník zodpovědný za výběr bojových pilotů bude naopak požadovat nejvyšší možnou reliabilitu, aby se ujistil, že riziko ztrát je minimální. Nunnally a Bernstein (1994) formulovali následující orientační pravidlo: 1. r < 0, 80 je nedostatečné, r > 0,80 < 0,90 je dostatečné a r > 0, 90 je dobré pro testy, které mají být použity k podpoře důležitých rozhodnutí na individuální úrovni, např. výběr personálu, přijetí na školy, hospitalizace nebo 112
propuštění z nemocnice. Důležitá rozhodnutí jsou taková, která jsou nevratná nebo jsou učiněna bez souhlasu posuzované osoby (pokud to zákon umožňuje). 2. r < 0,70 je nedostatečné, r > 0,70 r < 0,80 < je dostatečné a r > 0, 80 dobré pro méně důležitá rozhodnutí, např. sledování pokroku, výběr povolání, nebo pro indikaci terapie. 3. r < 0,60 je nedostatečné, 0,60 < r < 0,70 je dostatečné a r > 0,70 je dobré pro výzkum skupin a pro testy, které jsou využívány experimentálně, tj. ověřovány. Stejná doporučení by mohla být definována pro koeficienty zobecnitelnosti. Není jednoduché popsat podmínky pro informační funkci testu, ale napomoci může inspekce jejího průběhu, protože strmost funkce je informativní: čím je strmější, tím přesnější je měření. Alternativy ke klasické a moderní teorii testů nacházíme zřídka. Mnoho koeficientů je jen variací na známé téma „opakování“. U řady dalších postupů nebývá reliabilita zkoumána. Alternativy jsou jen teoretickými záležitostmi psychometriků. Příkladem je předpoklad Lumsdena (1978), že položky testu jsou dokonale reliabilní: jsou jen položkami, jsou to, co jsou, jsou jako objekty „pohroužené samy do sebe“. Jediným zdrojem oscilací a tedy i nespolehlivosti je osoba. Lidé se mohou lišit a kolísat. Každá položka má bodové umístění na kontinuu vlastnosti, např. verbálních schopností. Pro každou osobu pak existuje distribuce lokalizací této vlastnosti, která je výsledkem fluktuací v čase. Předpokládá se, že distribuce těchto fluktuací je normální. Směrodatná odchylka rozložení charakteristiky se může lišit od člověka k člověku. Například osoba A má relativně nízkou hodnotu směrodatné odchylky, což naznačuje, že v rámci svého kontinua odpoví správně právě na danou otázku; B naopak vykazuje relativně velkou směrodatnou odchylku. Zodpoví více (sousedících) položek správně. Tento koncept říká, že Spearmanův-Brownův vzorec postrádá význam, protože prodloužení testu nemůže posílit jeho reliabilitu. Tato alternativa není v oblasti testování a diagnostiky rozpracována. Shrnutí 6.4 Orientační pravidlo pro požadovanou výši koeficientu reliability je přejato z psychometrické literatury. Za „dobré“ jsou považovány následující hodnoty: pro důležitá rozhodnutí individuálních klientů (výběr a umístění) r > 0,90, pro rozhodování o míře pokroku a další kontrolní nástroje pro terapii a výběr povolání r = > 0,80, a pro výzkumné cíle > 0,70. Pro reliabilitu neexistují téměř žádné alternativy. Koeficienty jsou variacemi na stejné téma a liší se jen málo. Navrhované alternativy jsou interními záležitostmi psychometriky, např. předpoklad, že jedině lidé mohou oscilovat, nikoli položky, které jsou dokonale reliabilní. Stejně tak neexistují alternativní způsoby definice a výpočtu shody posuzovatelů pro postupy při posuzování. 6.5 Validita: Implicitní koncepty Validita (platnost) je v životě velmi důležitá, a proto není překvapivé, že i laici přemýšlejí o validitě výroků a o jejich pravdivosti. Výzkumy se zabývají tím, jak lidé validitu vnímají. Je spojena s objektivitou, v tomto smyslu znamená spravedlnost vůči „objektům“, tj. objektivitu vůči událostem ve fyzickém a sociálním světě. V tomto pojetí znamená objektivita více než jen nezaujatost pozorovatele a objektivní skórování položek. V běžné mluvě odkazuje validita (platnost) ke spolehlivosti, nezvratnosti, rozumnosti, solidnosti, odůvodněnosti, obhajitelnosti, udržitelnosti prohlášení a tvrzení o fyzickém a sociálním světě. I zde preferujeme před teorií termín „koncept“, stejně jako u reliability, 113
protože „teorie“ je příliš široký a honosný termín pro typy validity. Validita je spjata s pravdou. Odkazuje k tomu, co a jaké objekty a osoby doopravdy jsou. Koncepty jsou používány k zjišťování, zda je dokazování logicky správné, ujištění, že není pochyb, a že mezi prohlášeními a objektivními událostmi existuje shoda, soulad. V každodenním životě nejsou platnost a pravda jen technickými otázkami, ale také lidským zájmem. Existuje téměř reflexivní odpor vůči vše pronikající podezíravosti a nemáme rádi, pokud si z nás někdo dělá blázny. Nejedená se jen o abstraktní problém, signalizuje to ohrožení v naší intelektuální aktivitě, protože pravdivost a odmítání pravdy nemohou existovat současně. To vytváří opravdové napětí, protože je možno říci, že všechno je subjektivní a jedinou základnou pro pravdu a platnost je sociální kontrola. Následkem by bylo, že ti, kdo mají moc ve vědě nebo ve společnosti, mají právo nebo monopol na pravdu. Jak uvádí filozof Bernard Williams (2002), to vede k předpokladu, že sociologie vědění je v lepší pozici k určování pravdy o vědě než samotná věda jako aktivita ve službě objevování světa a lidství. Sociologie vědění také ukazuje, že existují určité nedotknutelné, posvátné interpretace. I když si zaslouží kritiku, mohou také vést k netečnému cynismu, takže po kritice vzniká jen další posvátná interpretace. Williams se domnívá, že toto je „...jedním z důvodů, proč je v současné době studium humanitních věd vystaveno nebezpečí, že sklouzne z profesionální opravdovosti přes profesionalizaci nakonec k rozčarovanému kariérismu.“
B. Williams: filozof morálky. Jeho kniha z roku 2002 pojednává o pravdě a hodnotě. Williams tvrdí, že existuje hodnota pravdy. I když uznává, že spojení hodnota pravdy je kategoriální chyba, protože pravda je vlastností propozic a výroků, nikoli něčím, co má hodnotu. Říká, že aktivity spojené s pravdou a platností jsou doprovázeny lidskými charakteristikami, které mohou být nazvány ctnostmi pravdy: přesností a upřímností. Přesnost je důležitá, protože potřebujeme platné vědění o fyzickém a sociálním světě. To znamená odolnost vůči toužebným přáním, sebeklamu a fantaziím, a to vyžaduje validní metody. Upřímnost je individuálně odlišná hodnota, která je mezi lidmi distribuována rozdílně, protože vždy budou existovat „paraziti“ a ti, kdo využívají druhé ke svému prospěchu, a participanti, tj. ti, kteří umějí dávat i brát. Každodenní pravdy jsou pro lidi důležité, a pokud to budou popírat, budou žít v odcizeném světě. Laici uznávají pravdu a snaží se zaujímat pravdivé názory, tedy takové, které jsou přesné a upřímné. Předpokládají a očekávají, že učitelé, úředníci, lidé ve vedoucích pozicích atd., jsou pravdomluvní, starostliví a nelžou účelově. Williams dodává, že by měli odolat pohodlné vyhýbavosti a zacházet s každodenními pravdami s respektem, ale nezůstat jen u toho. Měli by být otevřeni opětovnému zkoumání fakt a umožnit jejich nový výklad. „Důvěra přijde jen tehdy, když se podezření odkryjí“, ne když před nimi budeme zavírat oči. Celkově lze říci, že validita a pravda, stejně jako přesnost a otevřenost hrají důležitou roli v implicitním uvažování o fyzickém a sociálním světě. Někteří lidé přesto budou zastávat postoj obecného skepticismu a nedůvěry a někteří budou trvat na svém pravém a jediném nepopiratelném výkladu lidství a světa, např. ve striktní ideologii, zejména pokud bojují o uchvácení a udržení moci.
114
Neutuchající zájem je také věnován zkoumání, jak děti poznávají svět a lidi, zvláště jejich genetické epistemologii, jak tento aspekt vývoje pojal Piaget. Děti se o lidech, objektech a subjektech, které nikdy neviděli, dozvídají od jiných lidí. Musí se spolehnout na jejich svědectví a důvěřovat jim. Uvedeme si čtyři příklady: Harris (2007) uvádí, že čtyřleté děti při kladení otázek preferují takové informátory, kteří jsou přesní. Používají vodítka k ujištění, že je informátor důvěryhodný a pravdomluvný: odhadují, jak je sebejistý a v úvahu berou i to, jak informátor sám říká, že si je jistý. Pokud otázky ohledně lhaní, mluvení pravdy a o odhadu, zda je člověk nebo situace pravdivá nebo nikoli, klademe osmiletým až dvanáctiletým dětem, jejich odpovědi odpovídají tomu, co čteme i v metodologických knihách: něco je pravdivé, protože se to opravdu stalo a je to vidět. To se podobá myšlence shody tvrzení s událostí ve vnějším světě. Říkají například: „Protože víš, že to je pravda“; „Je to tak, jak vidíš.“ Říkají také, že něco je pravda, protože „to ten člověk říkal už předtím“, a „je to pořád stejný příběh“, což zhruba odpovídá kritériu pravdivosti jako koherence prohlášení. Říkají „zní to logicky“, „ten příběh je správný“. Pravda je také spojena se shodou pozorovatelů. Děti uvádějí: „ostatní to říkají taky“, „viděl to svědek, někdo byl u toho“. Pravda může být definována i pragmaticky: „Protože ti pomůže, když to víš.“ Dokonce se objevilo i několik malých skeptiků: „Nikdy nevíš“, i několik intuitivů: „Prostě to tak cítím.“ Vedle více či méně racionálních a logických odpovědí využívali pro rozhodnutí, zda je zpráva pravdivá, i vodítka vztahující se k tomu, kdo informaci podává: „Vypadá nepozorně., „Říká to bez uzardění., „Není rudý ve tváři“. „Je velmi vážný“, „Dá se mu věřit“, „Říkal to klidně, bez koktání.“ Tyto odpovědi se vyskytovaly častěji u mladší skupiny (Van Houdt, 1994). Tenney et al. (2011) zkoumali experimentálně vodítka, která dospělí a děti využívají pro rozhodování, zda je někdo spolehlivým a validním zdrojem informací. Vodítky byla jeho přesnost, jistota a kalibrování, tj. to, jak sebedůvěra informátora predikuje pravděpodobnost, že bude jeho informace správná. Rozdíl mezi dětmi (ve věku 5 a 6 let) a dospělými spočíval v informaci o kalibrování informátora, která byla nalezena jen u dospělých. Opět můžeme říci, že i malé děti posuzují důvěryhodnost informátora, aby získaly spolehlivé a platné informace o objektech, událostech a lidech. Posledním příkladem je rozsáhlá studie pedagogického psychologa Williama Perryho Jr. (1913 – 1999, blok 6.1) ohledně epistemologického a morálního vývoje u studentů Harvardovy univerzity. Inspirovala výzkum Kitchenera a Kinga (1994, 2002) o ontogenezi reflexivního myšlení, věnovanou vývoji toho, co je to poznání a jak je odůvodněné. Blok 6.1: Přínos Williama Perryho k poznání epistemologického vývoje studentů Harvardovy univerzity William Perry při práci se studenty na Bureau of Study Council zkoumal fáze epistemologického a morálního vývoje u studentů. Tyto dvě oblasti odkazují k rozdělení Immanuela Kanta (osvícenský filozof konce 18. století) popsanému ve dvou knihách: „Kritika čistého rozumu“ a „Kritika praktického rozumu“. Perry se vyhýbá označení „vývojová stadia“, nazývá je „pozicemi“, protože změny nejsou jen „v hlavě“, ale také, a ve větší míře, v nárocích životních situací, které přispívají ke konfliktům i k volbě jejich řešení. Všímal si, jak se studenti během pobytu na univerzitě mění. Sledoval vzorek 140 studentů, se kterými při různých příležitostech vedl rozhovory. V té době, krátce po skončení 2. světové války, byl výzkum zaměřen na individuální rozdíly v autoritářství, ale on se zajímal o „intelektuální pouť“ studentů: „Intelektuální poutníkovu cestu“, kterou přirovnával k pádu prvního člověka. Existuje Dobro a Zlo: znalost hodnot a tím i potenciálního soudu … ve světě postrádajícím Eden (křesťanský ráj). Objevil vývoj od 115
světa absolutna a pravd ke světu kontextu a závazků (Moore, 2003). V materiálech svých studentů rozlišil devět pozic, které spojil do čtyř kategorií. První kategorii je nejčastěji možno pozorovat u studentů prvního ročníku, poslední u postgraduálních studentů: 1. Dualismus (pozice 1-2): První pozici nacházíme zřídka; je rajskou zahradou: naprosto nepochybující pohled na pravdu jako absolutní pravdu nebo lež. Autoritami jsou rodiče a jiný názor není tolerován. Ve druhé pozici existují jiné perspektivy, ale stále je přítomný dualismus pravda versus lež. 2. Multiplicita (pozice 3-4): Pozice 3: Uznává nejistotu; tato pozice zahrnuje následující stanoviska: pravda – lež – zatím není známo. Jde o loučení s absolutnem. Pozice 4: Možné je cokoli; nic se nedá rozhodnout, „prostě si dělej svoje“. 3. Kontextuální relativismus (pozice 5) – Události a chování jsou vnímány jako zcela relativní a závislé na kontextu, nejedná se o pseudorelativismus, student je aktivním relativistou. 4. Závazek v rámci relativismu (pozice 6-9): Výběr z platných alternativ, opravdové pochybnosti, ale také aktivní a zodpovědná volba. Student vybojoval vlastní identitu v kontextuálním, relativistickém světě a používá logická a metodologická pravidla vědecké komunity. Perryho práce inspirovala koncepci epistemologických stadií Kingové a Kitchenerové a nástroje na identifikaci stadií a podporu intelektuálního růstu (West, 2004; Dawson, 2004; Marra a Palmer, 2004). Kitchenerová a Kingová (1994) se ptaly žáků a studentů ve věku 15 až 46 let, jak poznají, že je výrok pravdivý nebo nepravdivý: „Můžeš si být jistý, že tvoje stanovisko k této otázce je správné?“ Dále nabídly účastníkům dva pohledy na osobu nebo událost a požádaly je, aby tyto rozdílné pohledy integrovali. Z dat vyvodily sedm stadií reflexivního myšlení (blok 6.2). Blok 6.2: Stadia reflexivního myšlení odvozená z dotazování studentů (15-46 let), jejichž úkolem bylo uvádět, zda jejich znalosti o lidech a událostech byly jisté, pravdivé, a jak mohou své odpovědi odůvodnit (King & Kitchener, 1994, 2002) Prereflexivní myšlení (1., 2. a 3. stadium) 1. stadium: Znalost je považována za absolutní a konkrétní: není vnímána jako abstrakce. Vychází z přímého pozorování. Přesvědčení nevyžadují žádné zdůvodnění, protože to, v co člověk věří, koresponduje s tím, co je pravda. „Vím, co jsem viděl.“ 2. stadium: Znalost je považována za absolutně jistou nebo jistou, ale nikoli za aktuálně dostupnou. Vychází z přímého pozorování nebo sdělení autority. Přesvědčení nejsou kriticky zkoumána, od autority jsou přejímána. Představují definitivní odpověď, není místo pro spor ani pro debatu. „Pokud je to ve zprávách, musí to být pravda.“ 3. stadium: Znalost je stále absolutně jistá a nezpochybnitelná, pouze občas a přechodně nejistá: názory se mohou měnit jen tehdy, dokud opět nezavládne jistota. Přesvědčení jsou podpořena autoritami nebo osobními názory, pokud neexistuje přímé spojení mezi důkazem a přesvědčením. „K poznání vedou důkazy, které lidé podávají, jinak jsou to jen domněnky.“ Kvazi-reflexivní myšlení (stadia 4 a 5) 4. stadium: Znalost je nejistá vzhledem k individuálním názorům a situačním proměnným (nesprávné referování o události, data ztracená během času, různý přístup k informacím); je vždy mnohoznačná. Přesvědčení se opírají o argumenty a důkazy, ale argumenty jsou subjektivní, takové, aby se hodily do předem vytvořeného přesvědčení. „Věřil bych 116
v evoluci, kdybych měl důkazy, myslím, že to nikdy nebudeme vědět.“ 5. stadium: Znalost je kontextuální a subjektivní; záleží na filtrování na základě osobních kritérií. Známe jen interpretace důkazů, událostí a problémů. Přesvědčení jsou vázána na specifický kontext. Specifická přesvědčení jsou vázána na určitý kontext nebo jsou vyvažována jinými interpretacemi, které oddalují závěry. „Lidé uvažují rozdílně a rozdílně řeší problémy.“ „Všechny teorie jsou platné, každou z nich podporují její vlastní důkazy.“ Reflexivní myšlení (stadia 6 a 7) 6. stadium: Znalosti jsou transformovány do individuálních závěrů, protože mnoho problémů je špatně strukturovaných a často spočívají v rozporných zdrojích informací. Interpretace se mohou zakládat na důkazech napříč kontexty, používána jsou kritéria jako váha důkazů, funkčnost řešení, nebo pragmatická potřeba akce. Přesvědčení jsou zdůvodňována porovnáním názorů a důkazů. „Je těžké být si jistý, existují různé stupně jistoty a můžeš dojít do bodu, kdy jsou důkazy dostatečné“. 7. stadium: Znalost je výsledkem procesu uvážlivého zjišťování, při kterém jde o tvorbu řešení špatně strukturovaných problémů. Za adekvátní se považuje to, co se jeví jako nejrozumnější ve světle současných důkazů; s novými důkazy lze dojít i novému hodnocení. Přesvědčení jsou formulována pravděpodobnostně na základě různých interpretativních úvah; váha důkazů, výkladová hodnota interpretací, riziko chybných závěrů, důsledky alternativních interpretací. Závěry jsou obhajovány jako nejvíce pravděpodobné. Tvrzení jsou zkoumána ze všech stran: postoje, způsoby argumentace, důkazy, konzistence, srovnání s podobnými tématy. Argumenty pro pravdivost a platnost se mění s věkem. Profesionální diagnostik bude preferovat sedmé stadium, ale pracuje i s argumenty, které odpovídají jiným stadiím: pokud je si jistý na základě svých zkušeností a intuice, argumentuje z pozice třetího stadia. Kreativita a fantazie při řešení diagnostických otázek odkazuje na typickou argumentaci čtvrtého stadia. Postupy pátého až sedmého stadia jsou explicitně vyučovány v kurzech metodologie. Hofer et al. (2002) rovněž studovali epistemologický vývoj vysokoškoláků. Kladli otázky jako: „Představte si dva lidi diskutující o výkladu básně. Jak se rozhodnete, kdo z nich má pravdu? A jak si můžete být jistí, že váš pohled je správný? U mladých dospělých popsali tři stadia: (1) realistická, dualistická pozice: na každou otázku existuje správná odpověď (naivní realismus); (2) subjektivistický relativismus nebo multiplicitní orientace: existuje mnoho stejně platných odpovědí na každou otázku, co je pravdivé pro mě, nemusí být pravdivé pro tebe, ale obojí je platné a (3) koordinace subjektivních teorií, myšlenek a objektivních fakt. Shrnutí 6.5 V běžném jazyce odkazuje validita (platnost) ke spolehlivosti, solidnosti a rozumnosti argumentů. Platnost je úzce spjata s pravdou. Platnost a pravdivost nejsou jen technickými kvalitami tvrzení, ale důležitým lidským zájmem. Pravda má hodnotu a lidé očekávají a věří, že prohlášení o fyzickém a sociálním světě budou přesná, a že ti, kdo zprávu přinášejí, jsou čestní. Implicitní představy o validitě a pravdě byly studovány v kontextu psychického vývoje: děti od čtyř let posuzují kognitivní profil těch, kdo informaci sdělují, odhadují jejich důvěryhodnost, a do úvahy berou specifika jako nepřesnost, neznalost a nejistotu dospělých. Děti od osmi do dvanácti let vykazují základní nároky na zdůvodňování validity a pravdivosti: souvislost, souhlas, soulad mezi prohlášením a realitou, účelnost. Často za znak platnosti a pravdivosti tvrzení považoval i výraz tváře informátora. Stadia reflexivního myšlení u adolescentů a dospělých vykazují rozdíly v jistotě a metodách objevování
117
„pravdy“, tj. pravděpodobnostního tvrzení založeného na nejlepších dostupných poznatcích o události, tématu nebo chování. 6.6 Validita: Explicitní koncepty Koncepty validity by měly být aplikovány na teorie, metodologii a nástroje. Na příkladu „teorie validity“ se často demonstruje, jak se v průběhu času proměňovaly cíle validizačních studií testů. V důsledku toho jsou některé metody prokazující validitu úzce spojené s typy validity, např. lineární regresní model ke stanovením vztahu mezi prediktorem a kritériem, nebo faktorová analýza pro validaci konstruktu. Validita posuzovacích postupů není prozkoumána téměř vůbec. Nové postupy bývají zaváděny s nadějí, že dojde ke zlepšení, ale experimentální výzkumy srovnávající rozdílné procedury se provádějí jen vzácně. Významným tématem je validita kvazi-experimentu, protože validita zde není něčím samozřejmým jako v experimentu pravém. Kvaziexperiment neumožňuje náhodný výběr pozorovaných jednotek (subjektů). Nejprve popíšeme koncept validity, jak je obvykle používán pro testy a dotazníky a zdůrazníme význam Messickova jednotícího pojetí. Hlavním cílem diagnostiky je prediktivní validita, budeme také diskutovat o validitě kriteriální. Dále se zaměříme na otázky kontroly jako cíle diagnostiky klienta. Popíšeme si validitu v (kvazi) experimentálním výzkumu. Představíme si také koncept zobecnitelnosti validity, vytvořený dvěma psychology práce na základě mnoha výzkumů s podobnými kritérii. Nakonec se budeme zabývat tím, jak vysoké by měly koeficienty (prediktivní) validity být. Validita testů: prediktivní, obsahová a konstruktová. Messickův jednotící koncept validity Validita je nejdůležitější, stěžejní otázkou diagnostiky (Lissitz, 2009). Courtisova zpráva z roku 1921 o závěrech standardizační komise konstatuje, že test je validní, pokud měří to, co měřit má, za předpokladu, že měří něco, co může být měřeno. Pokud si nejsme jistí oním něčím (vlastností, obsahem, dimenzí, latentním rysem, atd.), ani možností měření (protože pochybujeme jak o ordinální, tak intervalové struktuře), vzniká teoretický problém. Nepřekvapí, že oba předpoklady jsou stále předmětem diskuse. V průběhu času se požadavky na testovou validitu proměnily. Nejprve byly měřeny základní předpoklady (paměť, reakční čas) pro výběr zaměstnanců, např. řidičů tramvají nebo telefonních operátorů. Validita se v tomto smyslu týká specifického obsahu. Thorndike (1918) považoval test za validní pro jakékoli kritérium, pro které dokáže stanovit přiměřený odhad. Zde se jedná o pragmatický cíl. Při práci v aplikovaných oblastech nejde jen o hledání pravdy a hodnoty modelu, důležitá je otázka vhodnosti pro daný účel (Sireci, 2009). Prvním způsobem posuzování validity byla prediktivní nebo kriteriální validita. Pokud je kritérium měřeno různými testy ve stejné době, mluvíme o souběžné validitě. Kritériem je (ne)žádoucí chování. Gulliksen ve svém klasickém textu z roku 1950 definoval v tomto smyslu validitu jako vlastnost testu, který dokáže efektivně předpovídat budoucí chování. Jednou z prvních aplikací psychologie bylo testování ve školách. Didaktické testy jsou spojeny s obsahem osnov ve čtení, matematice atd. Do centra pozornosti se tak dostává obsahová validita, která se týká možnosti, aby každá položka z definovaného souboru byla rovnocennou součástí testu. To lze snadno zajistit u testů, u nichž je soubor jasně daný, například všechny příklady na sčítání do 20. Pro vzdělávací účely nelze ale soubor definovat formálně, položky odpovídající určité úrovni, např. anglické gramatice na konci střední školy, pak definují experti – obvykle učitelé a odborníci na vzdělávání. Za důležitou změnu považují Jonson a Plake (1998) počátky posuzování konstruktové validity. Poprvé se jí zabývali MacCorquodale a Meehl (1948). Prosazovali pojetí hypotetických konstruktů, tj. hypotéz o existenci určitých entit, procesů nebo událostí, které nejsou přímo pozorovatelné. Teorie popisují entity, které jsou základem jevů 118
pozorovatelných v rámci experimentů a terénních výzkumů, nejsou však s těmito jevy totožné. Klasický článek Cronbacha a Meehla (1955) je poctou výzkumu, který umožnil získat vhled do testovaného chování, na něž nebylo možné uplatnit principy kriteriální ani obsahové validity. Popsali metody a pravidla usuzování, s jejichž pomocí je možno formulovat důkazy o validitě měření hypotetických konstruktů. Zdůrazňují deduktivní proces při validizaci konstruktu. Podle Loevingerové (1957) je validizací konstruktu celý proces testování teorie a konstruktová validizace zahrnuje i obsahovou a prediktivní validitu. Tuto myšlenku dále rozvinul Messick (viz níže), a Campbell and Fiske (1959) ke konstruktové validitě dodali mnoho-rysový mnoho-metodový přístup, jež umožňuje různé rysy oddělit od sebe vzájemně i od metod tyto rysy sledujících. Od posuzování zjevné validity se brzy upustilo, je totiž ošidné spoléhat na to, že o čem se lidé domnívají, že je validní, také automaticky validní je. Někteří autoři však tento koncept uznávali, a – lidově řečeno – u soudu může být zjevná validita opravdu platná. Guion v roce 1980 označil kriteriální, obsahovou a konstruktovou validitu za jakousi „svatou trojici“. Některé koncepce validity nebyly odmítnuty, ale postupně se vytratily: například faktorová validita, neboť se jedná o technický postup, nikoli o skutečnou koncepci validity.
Samuel Messick působil v Educational Testing Service a sepsal významný příspěvek o konstruktové validitě, (1989), která je od roku 1999 součástí Standardů pedagogických a psychologických testů Americké psychologické asociace. Idea konstruktové validity dala vzniknout interpretování testových skórů. V roce 1985 se udála „dramatická změna“, jež vyústila v jednotný koncept: validita znamená správnost, smysluplnost a užitečnost specifických závěrů učiněných na podkladě testování. Samuel Messick (1931-1998) předložil „moderní jednotící koncept validity“. Celou svou kariéru strávil v Educational Testing Service v americkém Princetonu a napsal zásadní článek objasňující tento koncept (1989). Tento obsáhlý článek byl prý tím nejobtížnějším textem, který kdy napsal (osobní sdělení, září 1993). Koncept byl ve standardech pedagogických a psychologických testů (Standards for Educational and Psychological Tests) ukotven v roce 1999. Validita už není vlastností testu, ale záležitostí interpretace testových skórů. Messick uvádí (1989, s. 13): „Validita je integrovaným hodnotícím soudem o tom, do jaké míry empirické důkazy a teoretická zdůvodnění podporují přiměřenost a správnost závěrů a jednání založených na výsledcích testů nebo jiných diagnostických metod.“ Konstruktová validita je podle Messicka jednotící silou. Je konstruovaná hermeneuticky, tj. nikoli pouze jako výsledek empirické studie nebo formální analýzy. Představuje otevřený koncept, protože neexistují žádná omezení závěrů. Messick ke svému konceptu připojil ideu konsekvencionality: pokud užití testu diskriminuje podskupiny, není „validní“. Tabulka 6.2: Messickovo pojetí validity: jednotící síla konstruktové validity (důkazů pro závěry) a konsekvencionální báze (hledisko společenské hodnoty). 119
Báze dat
Interpretace testů Konstruktová validita
Konsekvencionální báze
Hodnotové hledisko
Užití testů Relevance konstruktů, užitečnost atd. Společenské důsledky
Existuje mnoho možných závěrů a mnoho strategií získávání důkazů, např. empirický výzkum a logická a konceptuální analýza. Messick (1988, 1994) poukazuje na to, že při hledání důkazů validity bychom si měli klást následující otázky: Je obsah vyvážený a je to obsah zamýšlený? (obsahová validita) Nebylo nic důležitého opomenuto? (obsahová validita) Nepřináší způsob zkoumání a specifická metoda irelevantní zdroje variability, které by ovlivnily skóry? (konstruktová validita: mnoho-rysová mnoho-metodová matice Campbella a Fiskeho) Reflektuje způsob skórování dominatní procesy v dané oblasti? Je struktura skórů shodná se strukturou domény, o které vyvozujeme závěry a předpovědi? (konstruktová, prediktivní validita) Jaké máme důkazy o tom, že skóry znamenají to, co říkají, že znamenají? Je například informace o osobnostních charakteristikách relevantní pro výběr zaměstnanců, dosahování vzdělávacích cílů, pro terapii? (konstruktová, prediktivní validita) Existují alternativní, jiné možné interpretace významu výsledků nebo alternativy pro doporučený postup (léčbu apod.)? (konstruktová validita; protiklad tendence připsat vztah jedné jediné příčině: Katzko (2002) nazval tento nesprávný zvyk „předpokladem jedinečnosti“.) Jsou výsledky reliabilní a mohou být zobecněny napříč obsahy, kontexty a skupinami? (Teorie zobecnitelnosti Cronbacha et al., původně rozšíření klasické teorie reliability testů, avšak velmi blízké koncepcím obsahové a konstruktové validity). Je zohledněn hodnotový aspekt výsledků a je k dispozici empirická informace o respektování platných norem a hodnot? (konsekvencionální validita) Je interpretace výsledků testu relevantní pro volbu školy a povolání, pro výběr, léčbu...? (prediktivní, rozhodovací, konsekvencionální validita) Jsou skóry „spravedlivé“? (konsekvencionální: žádná specifická skupina nesmí být diskriminována, např. podle pohlaví, socioekonomického statutu) Jsou konsekvence testů v souladu s krátkodobými a dlouhodobými cíli? Nemají nežádoucí vedlejší účinky? (prediktivní validita a narážka na „problém kritéria“) V průběhu času se cíle testování posouvaly – od zaměření na kritéria přes modely založené na obsahu ke konstruktovým až po jednotící model (Kane, 2001). Tento vývoj odráží změnu ve filozofické perspektivě: od pragmaticko-empirické přes technicko-psychometrickou až po psychologicko-teoretickou orientaci: klasická idea kritického experimentu, který může vyvrátit teorii („justifikacionismus“: Lakatos, 1968) už dnes není přijímána. Teorie nemůže být přímo vyvozena z faktů. Přijímán je ne-justifikacionistický názor, který předpokládá, že žádná teorie nemůže být zcela prokázána. Je možný jen pokračující proces vývoje a vyhodnocování teorie. To znamená, že psychologie, diagnostika i věda jsou obecně charakterizovány nejistotou (Strauss & Smith, 2009). Již v 60. letech 20. století představil Guttman svůj strukturní přístup a fasetový design. Přestože oba přístupy začleňují psychologickou teorii do měření chování, do standardů APA a výzkumu validity testů nepronikly. Jednotící přístup se zdá být přesně tím, co naplní naši potřebu: milujeme jednotu. Ale stejně jako „monoteorie“ bude i 120
„mono-validita“ vyvolávat kritické ohlasy. Messick formuloval mnoho otázek, které je třeba zodpovědět. To připomíná situaci s manuály diagnostických metod: zůstává otázkou, zda bude diagnostik ochoten a schopen dostát všem doporučením. Sheppardová (1993) konstatuje, že je na něm, aby nalezl vhodný postup k získání požadovaných dat. Podotýká, že diagnostici ve skutečnosti jen zřídka shromažďují lepší než jednoduché a nedostatečné informace o validitě a na Messickova doporučení nebudou brát zřetel. Testování alternativních hypotéz považuje Sheppardová za přebujelé, navrhuje přistupovat k požadavkům na validitu diferencovaně podle jejich důležitosti. Kromě praktických námitek také zjistila, že stále přežívají i staré typy validity. Konstruktová validita se stává vágním konceptem a znesnadňuje odlišení důležitého od nepodstatného. Sheppardová nesouhlasí s nikdy nekončícím procesem: přílišné množství hypotéz, kontextů, populací, zastarávajících principů atd. Moderní jednotící koncept validity se pokouší zahrnout komplexní psychologickou realitu v celé šíři, není však jednoduché jej aplikovat v praxi a věda vždy předpokládá zjednodušení. Je možné, že vědecký osud tohoto konceptu se bude podobat osudu teorie zobecnitelnosti Cronbacha et al.: dobrá, elegantní myšlenka, ale příliš složitá k používání; v důsledku toho bude nakonec opuštěna. Sireci (2007) dodává, že kromě dalších nedostatků je jednotná konceptualizace validity „...také extrémně obtížně vysvětlitelná laickému publiku“ (s. 478) včetně praktiků. Kromě argumentu nerealizovatelnosti jednotícího konceptu konstruktové validity Borsboom et al. (2004) nesouhlasí s Messickem z teoretických důvodů. Navrhují jednoduchou koncepci testové validity: test je validní pro měření atributu (latentního rysu), pokud tento atribut existuje a změna tohoto atributu způsobuje změnu ve výsledcích měření. Tato myšlenka přímo navazuje na Courtisovy (1921) názory. Můžeme přemýšlet o tom, jak takový atribut vypadá: pokud se jedná o škálu, je třeba pomocí faktorové analýzy identifikovat jeden faktor; u dichotomických proměnných musí data odpovídat Raschovu modelu. Atribut není něco, co lze donekonečna interpretovat (Messick), ale existuje a je popsán a definován jako formální struktura. Pokud neexistuje, nemůžeme jej měřit. Tato myšlenka připomíná Descartovu definici věci jako „res extensa“ (věc je rozlehlá, dělitelná a rozprostraněná), která stála na počátku měření vlastností objektů. Pokud existuje, ale není zdrojem variability měření, potom neměříme nic. Již se nerozlišuje mnoho různých typů validity a příslušných závěrů, pouze existuje mnoho validizačních procedur a test lze používat pro mnoho účelů. Není potřeba nic sjednocovat, protože entita (jednota) je jednotou latentního rysu nebo atributu. To je realistická interpretace konstruktu, který (v Courtisových stopách) navrhoval již Kelley v roce 1927: „Test je validní, pokud měří to, co se domníváme, že měří“. Komplexita testové validity ve smyslu Messickova pojetí se zřejmě vytrácí. Spojit (protichůdné?) pohledy Messicka a Borsbooma et al. se pokouší Hood (2009). Argumentuje, že obsahují základní ingredience pro realistické poznání. Messickův příspěvek vykládá jako metodologický, který ukazuje, jak konstruovat a nacházet důkazy, a práci Borsbooma et al. jako orientovanou na strukturu behaviorálních rysů a teoretických atributů vycházejících z materiálního substrátu. Messicka nelze považovat za konstruktivistu, protože předkládá pravidla pro to, co je možno odvodit z testových skórů. Koncept Borsbooma et al. je realistický, protože latentní rys existuje jako substrát a je zdrojem variability. Test musí být v prvé řadě životaschopným nástrojem (měření rysu a atributu, Borsboom et al.), příslušné informace je pak možné využít jako výchozí údaje pro ověření závěrů (Messick). Tato diskuse má smysl na filozofické úrovni a na úrovni měření. V rovině užití testu diagnostikem nemá žádný efekt: diskuse o závěrech versus měření vlastností se praktických diagnostiků dotýká jen okrajově a dokonce ani standardy APA propagující Messickův koncept vaidity nemají významnější vliv na jejich diagnostické aktivity (Jonson & Plake, 1998). Pragmatický cíl predikce a potřeba obsahově validních didaktických testů jejich práci 121
stále dominuje. Koncept validity Borsbooma et al. je jediný relevantní pro tvůrce testů, neboť vede k lepšímu měření (latentních) rysů. Ve vztahu ke konceptu konstruktové validity musí diagnostik najít kompromis, střední cestu mezi všemi možnými interpretacemi testových skórů a omezeným počtem relevantních interpretací. A tu musí nalézt sám v návaznosti na analýzu klientovy otázky. Shrnutí 6.6 Validita testu: prediktivní, obsahová a konstruktová; Messickův jednotící koncept. Historicky prvním typem posuzování validity byla identifikace validity výběrové a kriteriální. Obsahová validita byla významná zejména pro didaktické testy. Koncepce zjevné validity byla brzy opuštěna. Cronbach a Meehl (1955) poukazují na množství výzkumů testů, které nespadají do kategorií prediktivní a obsahové validity: konstruktová validita. „Svatá trojice“ (Guion) tedy sestává z kriteriální, obsahové a konstruktové validity. Přístup změnilo doplnění a propracování koncepce konstruktové validity, protože všechny druhy důkazů, které mohou pomoci interpretovat testové skóry, byly vítány. Proces validizace se stal souborem strategií, které dávají smysl výsledkům testu. Messick definoval validitu jako „integrovaný hodnotící soud o tom, do jaké míry empirické důkazy a teoretická zdůvodnění podporují přiměřenost a správnost závěrů a jednání založených na výsledcích testů nebo jiných diagnostických metod“. K posuzovaným kritériím připojil také důsledky užití testů, protože při testování je třeba předcházet porušování sociálních norem a hodnot (spravedlivé zacházení s každou skupinou). Pravidla pro sběr dat a interpretaci výsledků jsou velmi složitá. Je otázka, zda diagnostik může dodržet všechna doporučení a zda by nebylo vhodné přistupovat k požadavkům na validitu diferencovaně podle důležitosti. Osud Messickova komplexního systému může být podobný jako osud teorie zobecnitelnosti: elegantní a integrativní teorie, která není prakticky využívána. Zásadní kritika závěrů vyvozovaných z výsledků testů přichází od autorů, kteří se vracejí zpět k základům. Říkají, že test měří vlastnost či latentní rys zapříčiňující individuální rozdíly v chování. Není zde tedy co sjednocovat, protože entitou pro validizaci testu je rys. Na filozofické rovině lze obhájit, že oba koncepty jsou komplementární. Diskuse o validitě mnoha možných závěrů a o jednotě latentních rysů se praxe dotýká jen vzdáleně. Většina diagnostiků staví na klasické definici prediktivní, obsahové a konstruktové validity Validita: problém kritéria Tradičně se s prediktivní validitou pojí tři problémy: 1) povaha kritéria, 2) reliabilita měření kritéria a 3) citlivost vztahu mezi prediktorem a kritériem pro charakteristiky výběrů. Thorndike rozlišil v roce 1949 specifická a globální kritéria. Specifickým kritériem je například pracovní úkol. Uchazeči prokáží své schopnosti při řešení úkolu, který lze snadno vyhodnotit, a získají práci. Je také možné stanovit globální kritéria, jako např. „vyrovnaná osobnost“, „smysl pro přátelskou atmosféru na pracovišti“, „flexibita“ atd. Ani zaměstnavateli, ani zaměstnanci nemusí být zřejmé, jaké konkrétní chování jim vyhovuje. Který z těchto typů kritérií bude lépe predikovat úspěch? Rozlišují se rovněž kritéria bezprostřední, střednědobá a dlouhodobá. Bezprostřední kritérium je možno předpovědět relativně dobře, např. jakou známku získá žák u příští zkoušky vzhledem k jeho IQ, výsledkům v SAT a výsledku minulé zkoušky: „nejlepším prediktorem aktuálního výkonu je výkon předchozí“. Střednědobá kritéria jsou relativně méně predikovatelná, např. získá X magisterský titul ve standardní době? Důležitá, ale nejobtížněji predikovatelná jsou dlouhodobá kritéria – například, stane se daný student dobrým psychologem nebo praktickým lékařem? Kritéria sama o sobě představují komplexní chování a coby teoretické konstrukty často nebývají podříditelná požadavkům psychometrických konceptů reliability a validity. To odráží propast mezi psychometrikou,
122
testovou teorií a experimentováním. Také nemůžeme intuitivně na první pohled rozhodnout, zda je kritérium validní (blok 6.2 o zjevné validitě). Blok 6.2: Zjevná validita: láska na první pohled Zjevná validita je intuitivní pocit, že test měří přesně to, co myslíte. Obvykle tato představa vychází z alespoň nějaké podobnosti práce nebo úkolu, který má být splněn, s obsahem testu. Existují nástroje, u kterých předpokládáme, že něco predikují, ale empirický výzkum později žádný podobný efekt neprokáže. V padesátých letech 20. století probíhal výběr řidičů. Dobří řidiči jsou důležití, protože náklad, který vozí, je cenný. V místnosti s dalším vybavením bylo tedy zkonstruováno pracoviště řidiče. Zde pozorované chování ale nemělo žádnou souvislost s výkony řidičů: počtem nehod, jízdou podle jízdního řádu. Jiný příklad se týká přijímacích zkoušek na střední školy. Otázky formulovali učitelé. Rozptyl výsledků těchto písemných testů však nevykazoval žádnou korelaci s výsledky na střední škole po roce ani po dvou letech. Pamatujeme si zklamání Wisslera z nízkých korelací mezi výsledky prvních testů a úspěchem na střední škole a na univerzitě. K posouzení technického vhledu u jednoduchých úkolů měl proband za úkol ohýbat železný drát podle předlohy nakreslené na papíře. Tvůrci těchto testů a postupů věřili, že jejich metody mají prediktivní hodnotu. Žádné důkazy ji však nedoložily. Vypadá to, že láska je slepá. Zjevná validita může být také na škodu, pokud test má prediktivní hodnotu, ale není brán v potaz, např. protože se mocní domnívají, že tyto položky nemají nic společného s požadovaným pracovním výkonem. Soudci mohou, pokud se rodiče obrátí na soud, odmítnout test inteligence coby argument pro umístění jejich dítěte do speciální vzdělávací instituce. Soudci mohou odmítnout testy, protože nevidí vztah mezi položkami a tím, co mají predikovat. Zjevná validita je kontroverzní a obvykle není brána vážně. Očekávali bychom, že zmizí z odborných psychometrických časopisů a knih, ale není tomu tak. Sartori a Pasini (2007) uznávají, že zjevná validita je sice kontroverzní a podle některých názorů dokonce nebezpečná, ale tvrdí, že je užitečná, protože pomáhá při výběru testu a činí nástroje přijatelnými pro ty, kdo se rozhodují, pro studenty a učitele. Někdy je zapotřebí rychlé rozhodnutí a není čas na dokumentaci. Autoři jsou obeznámeni s námitkami (jde o neověřenou validitu, pseudovaliditu), snaží se ale zjevnou validitu uchránit před propadem do kategorie obsahové validity tím, že argumentují, že by měření mělo dávat smysl logicky a klinicky. A validitu lze stanovit na základě téměř čehokoli – není-liž pravda? Představte si přijímací pohovor. Není příliš pravděpodobné, že by několik posuzovatelů hodnotilo náš výkon a kolegialitu shodně. Vezměte různé posudky na svou bakalářskou, magisterskou a doktorskou práci: budou vysoce korelovat? Je známo, že korelace mezi posuzovateli návrhů výzkumu variuje mezi r = 0,15 a 0,30. To je podle Cohena slabá až mírná korelace. Dobré nástroje pro měření kritérií se konstruují obtížně, pro výzkumné účely se někdy používá korekce oslabení. To znamená, že vztahy mezi prediktorem a kritériem jsou počítány jako kdyby nástroje byly dokonale reliabilní. Pokud je X prediktor a Z kritérium, rxx’ a rzz’ jsou jejich reliability, potom je maximální korelace X a Z: rxz = [druhá odmocnina z rxx’ krát rzz’]. Například maximální korelace XZ (rxz) = (je-li rxx’ 0,81 a rzz’ = 0,16) druhá odmocnina z 0,81 x 0,16 = 0,36. Má smysl se ptát, jestli tato korekce skutečně pomůže k lepší predikci. Lepší by zřejmě bylo konstruovat reliabilnější nástroje k měření kritérií. 123
Korelace mezi testem a kritériem je citlivá na velikost rozptylu ve výběrovém souboru. V homogenním výběru bude korelace s kritériem vzhledem k malému rozptylu hodnot prediktoru malá. Představme si extrémní situaci, kdy všichni studenti nebo žadatelé o práci podají stejný výkon. Jaká bude potom korelace s kritériem? Pokud není žádná variance, neexistuje ani kovariance, jinými slovy bude zde nulová korelace, nebo lépe řečeno, je „neurčitá“. Realističtějším příkladem je fenomén omezení rozsahu. Představme si velmi drahý kurz, do kterého jsou uchazeči vybíráni podle svých výsledků (nejvyšších skórů). Pak korelujme tyto skóry s jejich výkony při pilotování letadla. Korelace bude nízká. Nebo si představme, že podmínkou úspěchu v kurzu je dobrá úroveň matematických znalostí. Studenti absolvují matematický test dobrovolně. Korelace mezi jejich výsledky a výsledky v kurzu je nízká, ale velmi pravděpodobně v důsledku samovýběru. V reprezentativním výběrovém souboru by korelace byla mnohem vyšší. Fakt, že testujeme nenáhodnou skupinu na prediktor, který korelujeme s kritériem, způsobuje omezení rozsahu (diagram 6.1).
criterion
fail
pass
Obrázek 6.1: Omezení rozsahu – rozptyl (pozice) výsledků v podskupině se odchyluje od regresní linie více než rozptyl výsledků celé skupiny. Obrázek 6.1 ukazuje, že korelační diagram pro celou skupinu se neodchyluje od regresní linie tak výrazně, jako korelační diagram pro podskupinu. Korelace v podskupině je nižší než v celé skupině. Fenomén omezení je také přítomen tehdy, když kritérium vykazuje malý rozsah. Pokud budou žáci nebo zaměstnanci v testech podávat téměř shodné výkony, potom korelace s prediktorem, např. IQ, bude také nízká. Shrnutí 6.6 Validita: problém kritéria Existují specifická a globální kritéria, a druhá jmenovaná lze obtížněji predikovat. Rozlišujeme také bezprostřední, střednědobá a dlouhodobá kritéria. Nejsnáze je možno predikovat kritéria bezprostřední, nejobtížněji dlouhodobá. Měřítky kritérií jsou často lidské soudy o úspěších a pracovních výkonech, které nejsou příliš spolehlivé. To může oslabit možnou korelaci mezi prediktorem a kritériem (rxy). Při korekci oslabení korelace se rxy počítá, jako by obě měření byla dokonale reliabilní, což zvyšuje rxy. Z vědeckého pohledu to může být zajímavé, ale v praxi nerealistické. Výběr respondentů na základě jejich testových výsledků nebo dosažení kritéria ústí v nižší rxy než je korelace mezi prediktorem a kritériem pro celou skupinu. Interpretace rxy vyžaduje prozkoumání jak variance ve skórech prediktoru, tak kritéria. Validita a (kvazi)experiment Validita tvrzení v experimentálním výzkumu je považována za dostatečně zajištěnou prostřednictvím hladiny významnosti, za předpokladu, že jsou dostatečně splněny požadavky 124
na náhodný výběr. Ve výzkumných zprávách bývá zvláště často uváděna chyba prvního druhu – typu I, alfa (α) (p < 0,05; < 0,01). Alfa vyjadřuje míru pravděpodobnosti, že nulová hypotéza je vyhodnocena jako nepravdivá, i když není – jinými slovy míru rizika nesprávného zamítnutí pravdivé nulové hypotézy. Pokud je při zachování všech pravidel experimentu rozdíl mezi experimentální a kontrolní skupinou signifikantní, potom je příčinou rozdílu nezávislá proměnná. Důraz je kladen na chybu typu I. Proč je přehlížena chyba druhého druhu – typu II, ß, která spočívá v nesprávném přijetí nepravdivé nulové hypotézy? Důvodem je pravděpodobně to, že je vytvořena pro statistiku kontroly kvality komerčních produktů. Velmi nízká míra chyba typu I je důležitá, aby se zabránilo možnému riziku (Fisher, 1955). Byznysmeni si nemohou dovolit chybu, proto je nulová hypotéza p = 0. Není dokonce ani pravděpodobnostně formulována. Pro výzkum to může být jinak, protože výzkumník by při dodržení tohoto doporučení mohl přijít o informace. Chyba typu II, beta (ß), je nepravdivé tvrzení, že neexistuje žádný rozdíl. To pro výzkumníka znamená promarněnou příležitost. Pravděpodobnost takové chyby je větší, pokud je vzorek malý, hladina významnosti alfa je nastavena nízká (p <0,05, 0,01, 0,001) a test je nesprávně jednostranně definován. Princip nulové hypotézy je kritizován již téměř 60 let. Cohen (1994) ji nazývá rituálem. Neříká nám to, co chceme vědět, protože to, co chceme vědět, je: „jaká je pravděpodobnost, vzhledem k těmto datům, že je nulová hypotéza pravdivá“. Místo toho nám říká: „jaká je pravděpodobnost, že (ze předpokladu platnosti nulové hypotézy) nalezneme tato, nebo ještě extrémnější data“? Hypotéza by mohla být formulována jako konkrétní odhad parametru populace, např. rozdíl mezi experimentální a kontrolní skupinou jsou 4 jednotky, nebo korelace populace je 0,30, nebo procento mužů v oddělení IT je 75 %. Nulová hypotéza ale vždy znamená nulu. Tyto poznámky k testování nulové hypotézy naznačují, že tvrzení, že existuje signifikantní rozdíl, korelace mezi A a B, nebo že fixní procento populace má charakteristiku X, nám toho ve skutečnosti mnoho nesdělují. Říkají nám něco, co nechceme vědět. Ve výzkumu psychoterapie panuje dlouhotrvající nespokojenost s měřítky signifikantních rozdílů mezi skupinami léčenými různými postupy a psychometrici by měli navrhnout metodu odhadu klinické významnosti (viz např. Jacobson & Truax, 1991). Cohen doporučuje používat index velikosti účinku pro rozdíly mezi průměry [d] a pro korelační koeficienty [r]. Rovnice je dostupná na internetu: d = (průměr 1) – (průměr 2) / druhá odmocnina ze společného rozptylu obou skupin souborů dat: d (rozdíl velikosti účinku) = (M₁- M₂) / σ společná Cohen (1998) opatrně navrhuje považovat za malý rozdíl d = 0,2, za střední d = 0,5 a za velký rozdíl 0,8. Korelaci velikostí účinku můžeme vypočítat z Cohenova d. r velikosti účinku = d/√(d² + 4). r o hodnotě 0,371 a vyšší je velké, střední r= 0,243 a malé r = 0,200. Jak se dá předpokládat, toto bylo opakovaně a důkladně propracováno (viz Kraemer, 2005) Hladina významnosti rozdílů a korelací (p < 0,05; < 0,01) u pravých experimentů tedy ne vždy zajistí dosažení validního a platného tvrzení. Cohen doporučuje netestovat nulovou hypotézu, ale raději vypočítat velikost účinku (viz kapitola 1, kde je pro definování účinku korelace nebo rozdílu doplněn i Bayesův faktor)… Průkopníky v popisu kvaziexperimentálního designu jsou Campbell a Stanley (1966).
125
Donald W. Campbell, praktický metodolog, který se společně s J. Stanleyem začal zabývat kvaziexperimentálním designem a riziky, která ohrožují interní i externí validitu, validitu statistických závěrů a konstruktovou validitu sociálních experimentů. Přinesl do psychologie téma komplexnosti příčinných vztahů. Zabývali se praktickým výzkumem hodnocení účinku několika druhů intervencí v institucích, firmách a ve vládním sektoru. V roce 1963 sepsali Campbell a Stanley klasický text o experimentálním a kvaziexperimentálním výzkumném designu. V roce 2002 Shadish, Cook a Campbell (2002) pro oba tyto designy popsali čtyři typy validity v experimentu. Propagují terénní výzkum a povzbuzují sociální vědce k sociálnímu experimentování s cílem zlepšit životní podmínky. Sociální experiment často neumožňuje náhodný výběr subjektů, který by umožnil kontrolovat a zajistit experimentální podmínky. Někdy výzkum začíná jako pravý experiment, ale v průběhu času se stává kvaziexperimentem např. proto, že soubor respondentů se vlivem opotřebování výběru mění. Pokud je účast ve výzkumu dobrovolná, je vysoce pravděpodobný samovýběr. Někteří respondenti ukončí spolupráci během experimentu („opotřebení“). Není jednoduché stanovit účinky sociálního experimentu: jak zjistit, zda zavření hospod během určité denní doby (například kolem oběda) snižuje počet dopravních nehod? Jak si můžeme být jisti, že nový školský systém sníží počet žáků, kteří školu nedokončí? Autoři rozlišují čtyři typy validity významné pro experimentální výzkum a nalezení jedinečných a konkrétních nekontaminovaných příčin změn chování: „vnitřní validitu“ a statistická doporučení pro testování účinku nezávislé proměnné – „validitu statistických závěrů“. Teoretickou interpretaci příčin umožňuje „konstruktová validita“ a zobecnitelnost výsledků „vnější (externí) validita“. V jejich raných textech je důraz kladen na příčinu, např. příčina A způsobuje efekt B v čase, existuje kovariance mezi A a B, a pro B není jiná interpretace než A. Preferují robustní vztahy, které jsou zobecnitelné v čase, mezi skupinami a příležitostmi. Protože výzkumný design není „pravým experimentem“, popisují pro každý typ validity příslušná rizika. Interní validita se týká otázky, zda pozorovaná změna chování může být připsána jiné než zamýšlené příčině, intervenci. Zlepšení žáků může být výsledkem nového programu, ale ve stejnou dobu začala televize vysílat dětský vzdělávací pořad Sezame Street, který sledovala většina dětí. Toto je riziko historie. Je také možné, že děti právě v tu dobu vyzrály, takže změnu mohl způsobit vývoj a nikoli program. To je riziko zrání. Pokud chceme hodnotit pokrok, musíme měřit nejméně dvakrát, před a po intervenci, ale to přináší riziko vlivu testování, protože stejný test zadáváme dvakrát. Může se stát, že před zahájením intervence budeme u skupiny pozorovat špatné výsledky. Změříme výkon určitým nástrojem, ale v průběhu intervence se naučíme měřit lépe, tj. jinak. To je riziko instrumentace. Realistickým příkladem jsou policejní záznamy o kriminalitě. Pokud místní úřady usoudí, že v oblasti panuje příliš vysoká kriminalita, policie začne více zasahovat při porušování zákona a může se tedy dokonce stát, že se v důsledku této intervence identifikovaná míra kriminality ještě zvýší. Pokud do intervenčního programu vybereme děti s nejhoršími školními výsledky, je vysoké riziko regrese k průměru. Základní myšlenkou je, že žádné měření není bezchybné, to znamená, že každé druhé měření bude odlišné. Ale protože 126
skupina pro intervenci byla vybrána s ohledem na špatné výsledky testů, při druhém testování budou mít lepší výsledky, bez ohledu na to, zda zde byla intervence vůbec provedena. Před zahájením intervence je třeba získat souhlas rodičů, což může vést k samovýběru. Je dokonce možné, že děti, které by intervenci potřebovaly nejvíce, rodičovský souhlas nedostanou. Toto je riziko výběru. Vzorek, se kterým začínáme, se může měnit, a to je často nenáhodný proces. To se nazývá rizikem mortality. Aby byly věci ještě složitější, svou roli může hrát i interakce rizik, např. interakce výběru a zrání. S touto interakcí se setkáváme u kompenzačních a rozvojových programů, jako je např. americký program pro děti ze znevýhodněných rodin Head Start. Účastníci jsou do programu vybíráni (na počátku mají vyšší úroveň) a rychleji vyspívají. Relativně úspěšnější děti z programu profitují nejvíce. Efekt intervence se v reálných podmínkách může relativně „snížit“ v důsledku imitace a kompenzace dané intervence. Pravděpodobně je to rivalita, která způsobí, že děti, které se intervence neúčastní, dělají maximum pro to, aby dokázaly, že si vedou dobře. Ze způsobu, jakým autoři rozpracovali typologii možných rizik, je zřejmé, že se brání označit intervenci za účinnou (chyba I. typu), pokud není (a změny způsobuje něco jiného, než sama intervence). Existuje řada různých druhů rizik a Campbell (1986) uvádí, že intervence jsou globální a molární, protože nejsou laboratorním experimentem. Účinky jsou lokální, tj. projevují se v určitém kontextu. Vnitřní validitu přejmenoval na „lokálně molární kauzální validitu“, ale starší výraz je rozšířenější a v literatuře se udržel dodnes. Validita statistických závěrů se zabývá závěry srovnání variance uvnitř výběrového souboru (mezi subjekty) s variancí mezi výběry (variance způsobená intervencí, nezávislou proměnnou). Očekávaná hodnota tohoto srovnání, která vyjadřuje předpoklad, že intervence nemá žádný efekt, je 1,0 (rituál nulové hypotézy). Hodnoty F závisejí na stupni volnosti, ale je možno si intuitivně (s ohledem na hodnoty normálního rozložení) představit, že hodnoty od 2,50 výše (podíl variance mezi výběry a uvnitř výběru) jdou na vrub účinku nezávislé proměnné. Riziky jsou takové podmínky, které zapříčiňují vychýlený odhad variance uvnitř skupiny, tj. malý počet experimentálních subjektů, nekvalitní realizace intervence a nedostatečná kontrola intervenční a kontrolní skupiny. Reliability nástrojů pro závislé a nezávislé proměnné (intervence) a heterogenita subjektů (vysoká vnitřní variance skupiny) mohou vyústit ve statistický závěr, že intervence nemá žádný efekt, i když možná měla. Autoři upozorňují, že v terénním experimentu není vzhledem k šumu v datech snadné nulovou hypotézu vyvrátit. Upozorňují dále na některá dobře známá statistická témata: několikanásobné srovnávání, používání t-testů, možnost náhodného zjištění rozdílu. Je nutno je kontrolovat, např. dělením pravděpodobnosti chyby typu I (p = 0,05, p = < 01) počtem korelací (Bonferroniho korekce). Externí validita se váže k cíli každého výzkumu: zobecnit výsledky na jinou příležitost, skupinu, situaci. Riziky jsou specifika výsledků jen pro jednu skupinu, příležitost nebo situaci. Autoři poukazují na interakci intervencí A a B, kdy není možno rozhodnout, jaký měl každý z postupů efekt; na interakci testů a intervencí, kdy určitý efekt nacházíme jen s využitím určitého testu; nebo na interakce situace a intervence, kdy intervence má efekt jen v určité situaci; a nakonec na interakci historie a léčby. Zobecnění výsledků je induktivní empirická procedura a doporučuje se s předstihem určit, na které skupiny, situace a příležitosti chceme zobecňovat. Campbell (1986) poněkud zúžil starší obsáhlý pojem zobecnitelnosti a užívá termínu proximální validita. Konstruktová validita v kvaziexperimentu je teoretickým zdůvodněním konstruktů intervence a závislé proměnné. Riziko představují v tomto kontextu operacionalizace, které 127
konstrukt pokrývají nedostatečně – jeho pod- nebo nad-reprezentování a nejistota ohledně konstruktových vztahů: konvergentní nebo divergentní, např. léčba má vliv na výsledek A, ale ne na B, nebo na oba. Výsledky nemusejí záviset na specifické metodě ani být citlivé na daný typ dat, např. pozorování, test nebo rozhovor. Na tato rizika pamatuje mnoho-rysová mnoho-metodová matice Campbella a Fiskeho (1959). Intervece musí být také „konstruktově“ validní. To vyžaduje, aby experimentátor provedl intervenci tak, jak bylo zamýšleno, a aby vztahy mezi intervencí a závislou proměnnou vycházely z podložených teoretických argumentů. Riziky, které mohou ovlivnit výsledek, ale i očekávání experimentátora, jsou odhadování hypotéz a obavy z hodnocení subjekty. Cook a Campbell spojují koncepty z oblasti validity tesů, experimentální a výzkumné validity. Vztah mezi jejich čtyřmi typy validity může být ve výzkumné praxi v terénních podmínkách napjatý. Vysoká vnitřní validita vyžaduje v terénním výzkumu spoustu organizační práce, intervence je třeba standardizovat, ale výzkumníci nejsou ani identická dvojčata, ani kloni. Prioritu mezi čtyřmi „druhy validity“ určí cíl výzkumu. Jejich klíčové příspěvky vznikaly v 60. až 90. letech, shrnuje je text z roku 2002 (Shadish, Cook & Campbell). Sociální experiment pro ně představuje nástroj ke zlepšení osudu zaostalých a možnost měnit společnost. Jak uvádí Rubin (2010), „...zaměřují se na problémy opravdového života z perspektivy zdravého rozumu, jež vede k jasným vodítkům pro odvození kauzality.“ Tento autor se nicméně omezuje na „jasné myšlení o kauzálních závěrech v kontextu randomizovaného experimentálního designu“. Nezabývá se korelačním designem, regresní analýzou, úsekovou analýzou (path analysis) atd., protože neexistuje jasné oddělení objektů, o kterých vyvozujeme závěry (věda) a toho, co výzkumník dělá, aby se o vědě dozvěděl. Tato diskuse připomíná to, co o potížích s měřením chování uvádí Trendler (2009, kapitola 1). Pokud nemáme jasný koncept toho, co se pokoušíme posuzovat (např. inteligence, výsledek léčby) potom nemá smysl přemýšlet o statistických metodách a o způsobech odhadu. To je dilema barona Prášila v kontextu měření v psychologii. Formálně, logicky a racionálně může být pravdivé, ale pokud ho přijmeme striktně, vůbec nezískáme mnoho poznatků o efektech léčby v podmínkách normálního života a o korelacích mezi prediktory a kritérii. Kromě výhrad vůči kvaziexperimentu z formální a psychometrické perspektivy jsou kvaziexperimenty kritizovány za nedokonalé provedení. Sociální experimentování trpí stejnými nedostatky jako Messickův koncept konstruktové validity: existuje mnoho různých interpretací výsledku. Aussems et al. (2011) provedli obsahovou analýzu kvaziexperimentů popsaných v osmnácti společenskovědních odborných časopisech. Uvádějí, že kvaziexperimenty nejsou využívány příliš často a pokud ano, nebývají dobře navrženy a analyzovány. Udávají zejména častou přítomnost zkreslení výběru (selection bias). Nenalezli žádný rozdíl mezi vědeckými časopisy s nízkým a vysokým impaktfaktorem. Shrnutí 6.6 Validita a (kvazi)experiment Samotné nastavení hladiny alfa (chyba typu I: nesprávné zamítnutí pravdivé nulové hypotézy) nezajistí validitu experimentu dokonale. Výzkumník tak může promarnit příležitost k identifikaci reálního rozdílu nebo vztahu. Nulová hypotéza není realistická, protože nesrovnáváme předdefinovanou míru parametru s pozorovaným chováním, ale nulový případ. Cohen navrhuje místo uvádění hladiny alfa počítat velikost účinku (effect size) pro rozdíly a pro korelace. Opatrně doporučuje vodítko pro interpretování velikosti účinku takto: malá 0,20; střední 0,50 a velká 0,80. Campbell, Stanley a Cook začali v 60. letech 20. století s analýzou validity kvaziexperimentů, tj. terénních výzkumů, ve kterých nemohou být respondenti vybíráni 128
náhodně a není možno kontrolovat a zajistit experimentální podmínky. V souladu s duchem doby prosazovali terénní výzkum a sociální experimentování jako nástroj ke zlepšení životních podmínek. Rozlišují čtyři typy validity: interní validita udává, zda pozorovaná změna může být připsána jiné příčině než intervenci nebo léčbě. Rizika jsou: historie, zrání, riziko testování, instrumentace, regrese k průměru a riziko výběru. Rizika spolu mohou také interagovat, je možná interakce např. mezi výběrem a zráním, a intervence a péče mohou vést k imitování a kompenzaci i u kontrolní skupiny, která není zařazena do intervenčního programu. Validita statistických závěrů se týká nepřesvědčivých závěrů na základě neadekvátního srovnání vnitřní variance skupiny (heterogenita subjektů) a variance mezi skupinami (srovnání kontrolní a experimentální skupiny). K rizikům patří: malý výběr (nedostatečný odhad rozptylu uvnitř skupin), nesprávné provedení intervence, nízká reliabilita intervence a výsledků, měření závislé proměnné. Hladina alfa musí být přizpůsobena v případě mnohonásobného srovnání (Bonferroniho korekce). Vnější validita se týká zobecnění výsledků pro různé příležitosti, skupiny a situace. Doporučuje se rozhodnout dopředu, na jaké skupiny, situace a příležitosti chceme možný efekt intervence zobecňovat. Konstruktová validita se vztahuje k teoretickému zdůvodnění konstruktů intervence a jejích výsledků. Konstrukty nesmí být ani podreprezentované ani nadreprezentované a také necitlivé pro specifický postup měření (rozhovor, test, pozorování). Musí být také ošetřena tendence subjektů uhádnout hypotézu experimentátora a snažit se naplnit očekávání. V kvaziexperimentu se kombinují koncepty testování a (pravého) experimentu. Kvaziexperimenty jsou kritizovány pro formální nedostatky při posouzení výsledků intervencí a pro nedostatečnou pozornost věnovanou rizikům, ohrožujícím možnost činit kauzální závěry. Zobecnění validity a inkrementální validita Validita je jednoznačně konstrukt mnoha aspektů. Van Berkel (1984) uspořádal koncepty a rozlišil šest typů validity: kriteriální, obsahová, latentních rysů, (kvazi)experimentální, zdánlivá a ostatní kategorie. Zaznamenal celkem 77 označení popisujících specifické koncepty týkající se validity. Neexistují skoro žádné alternativní koncepty, vzácným příkladem je práce Wheelrightova (1968), popisující kritéria kvazivalidity, jako jsou „poetická pravdivost, pravdivost expresivního prohlášení“ a „metaforické napětí“. Někdy jsou díky své úspěšné rétorice využívány i v praxi. Fender (2001) vytýká občasné využívání těchto kritérií klasické psychoanalýze. Nepřekvapuje ho, že Freudovi a psychoanalýze se dostává více pozornosti na filozofických fakultách než na poli sociálních věd. V této části si představíme dva specifické koncepty: zobecnitelnost validity a inkrementální validitu. Není jisté, zda tyto koncepty přežijí. Zobecnitelnost validity propracovali psychologové práce a metodologové Schmidt a Hunter. Ptali se: „Jaká je reálná, ,skutečná‘ korelace mezi inteligencí a osobnostními charakteristikami, jako je integrita, poctivost nebo neúplatnost, a pracovním výkonem?“ Zatím se nahromadilo mnoho výsledků empirických studií na toto téma. Jejich předpokladem bylo, že studie vztahu mezi prediktorem a kritériem je třeba považovat za samostatné jednotky pozorování, podobně jako subjekty v experimentu. Autoři se domnívají, že lze koeficienty validity zobecnit na více či méně podobné situace. Očekávají, že koeficienty se nebudou významně lišit. Nicméně ve vztahu prediktor-kritérium byly patrné rozdíly. Ve srovnatelných studiích vztahu mezi prediktorem a kritériem nalezli korelace mezi r = ,10 a r = ,65. Autoři připisují kolísání chybám a nedbalosti a provedli studie zobecnitelnosti validity k vysvětlení variance ve vztahu prediktor-kritérium. Odhadli podíl situace (různé společnosti) a chyb měření. Rozdíl ve vztahu prediktor-kritérium může být 129
vázán k situaci: kognitivní test predikuje lépe v jedné společnosti než v jiné. To je hypotéza situační specifičnosti. Rozdíly ve vztahu prediktor-kritérium je také vysvětlován chybami v transformaci dat, nekompletností údajů, chybami při skórování a statistickými chybami, jako je příliš malý výběr, použití nevhodného postupu výpočtu korelace (ne-pearsonovská korelace, tj. mezi nespojitými proměnnými), opomenutí korekce pro omezení rozsahu a pro homogenitu výběru a chybějící korekce pro nereliabilitu měření kritérií. Schmidt et al. (1993) zjistili, že variance vztahu prediktor-kritérium (rozsah: 0,10 až 0,65) může být připsána zejména procedurálním chybám a chybám měření a nikoli situačním rozdílům. Po korekci pro procedurální chyby odhadli „skutečné“ korelace. Tyto hodnoty byly všechny významné, bez ohledu na typ společnosti. V meta-studii (Schmidt a Hunter, 1998) byla skutečná korelace mezi „obecnými psychickými schopnostmi, testovými úkoly, strukturovanými rozhovory a hodnocením kolegů a pracovním výkonem“ asi r = 0,50. Tento výsledek naznačuje, že střídání zaměstnání a „hledání nových výzev“ zaměstnanci neovlivňuje profit společnosti. Inkrementální validita je používána k popisu situace, kdy je k tomu, co je již známo, přidána diagnostická práce, zejména testování a další způsoby posuzování, a zvýší korelaci mezi prediktorem a kritériem. Dlouho nebyla více propracována. Speciální vydání odborného časopisu „Assessment“ tento koncept rehabilitovalo (Hunsley, 2003). Garb (2003) srovnává rozdílné zdroje diagnostických nástrojů pro diagnostikování psychopatologie u dospělých. Na základě relevantních studií demonstruje, že projektivní techniky přispívají velmi mírně a že strukturovaný rozhovor, MMPI a osobnostní dotazníky a sebeposuzovací nástroje (indexy úzkosti) vykazují inkrementální validitu, definovanou jako míru, do níž nástroj vysvětluje fenomén vzhledem k dalším nástrojům. Johnston a Murray (2003) navrhují zkoumat, jaké nové metody a testy pro diagnostiku dětí nabízejí to, co je již známé, a současně hledí na klinickou významnost (nikoli statistickou významnost). Očekávají, že využívání rozmanitých zdrojů bude úspěšné, ale nenabízejí empirická řešení. Hunsley a Meyer (2003) předpokládají inkrementální validitu (zvýšení korelací prediktor-kritérium) zvýšením reliability nástrojů, sběrem dat při různých příležitostech, na základě různých podnětů, s použitím různých metod měření a zdrojů informací. To se týká primárně zvýšení reliability prediktivních testů a postupů a měření komplexních kritérií. Inkrementální validita je také využívána k tomu, aby bylo možno k predikci důležitého kritéria začít využívat nový nástroj, ale při pohledu na vzrůstající množství téměř stejných testů a postupů lze říci, že to příliš nepomáhá. Může být také součástí procesu konstrukce testu, tj. vývoje testu s inkrementální validitou pro specifické kritérium (Haynes & Lench, 2003). Souhrnně lze říci, že inkrementální validita se zdá být akceptovatelná, ale je spojena s dobře známými tématy a existující praxí. Za prvé, diagnostici využívají rozmanité druhy diagnostických údajů: demografické, historické, sebepopisné, symptomy, rozhovor, údaje z testů a dotazníků. Ty je třeba integrovat. Sjednocující modely jsou dostupné a lineární modely fungují dobře. Také na základě zkušenosti se ukazuje, že jen zřídka přispívají k vysvětlení rozptylu v kritériu chování více než tři nebo čtyři proměnné a typy nástrojů. Je samozřejmě užitečné znát rozdílný přínos jednotlivých nástrojů, ale k vysvětlení rozptylu v kritériu potřebujeme teoretický konceptuální rámec. Za druhé, navýšit vysvětlený rozptyl u kritéria pomáhají reliabilní nástroje. Tím se již zabývají studie reliability. Za třetí, tento typ validity je spojen s predikcí chápanou jako klinicky významnou. To je obvykle více než statistická významnost, poukazuje na vysoká očekávání vzhledem k operacionalizaci kritéria a jako taková je spojena s problémem kritéria. Shrnutí 6.6: Zobecnění validity a inkrementální validita Psychologové práce Schmidt a Hunter si povšimli rostoucího počtu výzkumů hodnotících souvislost mezi prediktorem a kritériem s téměř shodnými kritérii, zejména pracovní 130
výkonností. Provedli metastudii (zobecnění validity), ve které se korelace mezi prediktorem a obdobným kritériem pohybovala v rozsahu od r = 0,10 do r = 0,65. Tuto varianci vysvětlují chybami administrace (měření), statistickými artefakty a situačními rozdíly, např. výzkum v rozdílných společnostech. Větší část variance v korelacích prediktoru a obdobného kritéria vysvětluje nedbalost při administraci testů a při skórování a statistické artefakty. Autoři doporučují provést další podobné studie shrnující různé výzkumy a povzbuzují ostatní výzkumníky, aby také publikovali studie s nepředvídanými výsledky, aby se tak předešlo riziku zkreslení výsledků požadovaným směrem. Inkrementální validita zlepšuje korelaci mezi prediktorem a kritériem dodáním nových nástrojů nebo použitím nástrojů vedle prostého pozorování. Dlouho byla opomíjena, ale dnes si opět získává pozornost. Tento koncept je spojen se známými tématy prediktivní validity, jako jsou integrování zdrojů dat a určování, co nejvíce přispívá k predikci kritéria, predikci klinicky relevantního kritéria, tedy otázkami problému kritéria. 6.7 Požadovaná úroveň prediktivní validity Prediktivní validita je v rámci problematiky validity testů prioritní otázkou. Existuje pro to dobrý důvod: diagnostik může předpovědět, jak vysoká je ve skupině pravděpodobnost dosažení žádoucího behaviorálního kritéria (nebo zabránění nežádoucímu). Jaká je její požadovaná míra? Samozřejmě, maximum je r = 1, to však není realistické, nejen vzhledem k nereliabilitě našich prediktorů a kritérií, ale také vzhledem k dynamické povaze lidského chování v konkrétním kontextu a variabilitě všech živých organismů. Diplomatická odpověď zní, že záleží na otázce: jedná se o výběr školy, povolání, zaměstnání, nebo o výzkum? Existuje pravidlo, opatrně stanovené Cohenem (1977): r ≤ 0,10 je nízké; r 0,30 je střední a r 0,50 je vysoké. To se mírně liší od hodnot, jež korespondují s r odvozeným z hodnot d (viz výše uvedený vzorec). Psychologové práce budou obhajovat zvyšování prediktivní validity a ukazovat, jaké to bude mít výhody. Pokud je koeficient validity vyšší než 0,20, kolika falešně pozitivních a falešně negativních výsledků se můžeme vyvarovat vzhledem k procentu vhodných kandidátů (nikoli 0 nebo 100 %, ale optimum = 50 %)? Přestavte si, že zvolená kombinace testů a pohovorů vede ke zvýšení korelace mezi prediktorem a kritériem z 0,30 na 0,50. Pokud byste zaměstnance vybírali náhodně, 50 % z nich by si vedlo dobře. Díky testům zvýšíte základní poměr o 10 % a dosáhnete podílu 60 % vhodných kandidátů namísto 50 % (viz Rubin & Rosenthal, 1992; Rosenthal, 2000). Totéž platí pro průměry. Představte si, že chcete zvýšit čtenářské kompetence ve své třídě zavedením nového programu. Pokud by vykazoval střední velikost účinku (d > 0,50) potom by se počáteční skór řekněme 100 (se směrodatnou odchylkou 15) měl zvýšit na > 107,5 po ukončení programu. To by mělo být ověřeno v pravém experimentu, jinak nelze dosáhnout interní validity. Určitý záchytný bod poskytuje diagnostikům Cohenovo doporučení, k dispozici jsou však také dvě obsáhlé metastudie, které poskytují realistický obraz korelace mezi prediktorem a kritériem (obrázek 6.2).
131
20
15
10
Frequency e
5
0 0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Correlation between test and criterion
Obrázek 6.2: graf 144 korelací mezi testy a kritérii (psychologickými a medicínskými) z výzkumu Meyera et al. (2001), publikovaného v American Psychologist: modus je 0,30; průměr 0,32 (směrodatná odchylka = 0,19). Prvním příkladem je studie Meyera et al. (2001) zahrnující data ze 125 metastudií validity psychologických a medicínských měřicích nástrojů. Kritérii byly ukazatele psychologického, duševního a fyzického zdraví. Behaviorální a medicínská kritéria byla predikována prostřednictvím řady různých postupů. Posuzováno bylo 144 korelací ze 125 studií (obrázek 6.2). Modus je 0,30, což je hodnota, kterou Cohen označuje jako střední velikost účinku. Hodnoty 0,50 a vyšší se objevily ve 20 % výzkumů, průměrná korelace je u nich 0,32 a směrodatná odchylka 0,19. Rozložení se neodchyluje od normálního (KolmogorovůvSmirnovův test Z = 0,71). Empirické hodnoty ukazují, že Cohenův opatrný odhad je realistický. Takový výčet korelací obsahuje zajímavé informace, například: souvislost mezi užíváním kyseliny acetylsalicylové (aspirinem) a infarktem dosahuje hodnoty -0,02 (jiné studie r = 0,034). To je zanedbatelná hodnota, ale lék se běžně předepisuje k prevenci infarktu. Souvislost mezi násilím v televizi a agresivním chováním je 0,14. Je to dostatečný důvod bránit mládeži sledovat násilí v televizi? Mezi psychoterapií a pocitem spokojenosti je střední korelace: průměr: 0,32. Užívání Viagry a sexuální fungování 0,25: na individuální úrovni nespolehlivá a drahá intervence. Přehled Meyera et al. předkládá výsledky mnoha výzkumů v psychologii, biologii a medicíně. Prediktivní hodnota medicínských a psychologických testů se neliší. To je samozřejmě předmětem kritiky: po stránce metodologické, např. argumentem, že ne všechny laboratorní testy na drogy byly do studie zahrnuty, což zkresluje velikost účinku; další závěry by falešně naznačovaly, že vědecký status diagnostiky je pevně zavedený. Kritéria by měla být popsána jednoduše. Autoři namítají, že jejich obecné závěry stále platí (Meyer et al., 2002). Druhým příkladem je metastudie Schmidta a Huntera (1998) o prediktorech obecné pracovní výkonnosti. Data korigovali vzhledem k chybám při administraci testů a ve statistických procedurách a jejich závěry se podobají výsledkům Meyera et al.: obecné mentální schopnosti korelují s pracovní výkonností a úspěšností v práci r = 0,50. Nejlepším prediktorem je osobnostní charakteristika svědomitost (r = 0,31), zájmy nekorelují významně (r = 0,10) a věk vůbec (r = 0,01). To znamená, že ptát se na zájmy a preferovat mladé zaměstnance nemá význam. Musíme ale dodat, že vztah nízkého věku a pracovní výkonnosti může být příkladem „opotřebení“ výběru. Mnoho starších zaměstnanců, kteří vnímali, že mají stále méně energie, již odešlo do důchodu. 132
Shrnutí 6.7 Nejvíce ceněna je prediktivní validita. Cohen formuloval orientační pravidlo pro velikost korelace mezi prediktorem a kritériem. Mezi 0 a 0,10 je korelace zanedbatelná, mezi 0,10 a 0,30 nízká, mezi 0,30 a 0,50 mírná (střední) a > 0,50 významná. Toto pravidlo podporují i empirická zjištění o prediktivní validitě medicínských a psychologických testů a o predikci pracovní výkonnosti. Výsledky rozsáhlých metastudií potvrzují, že Cohenovo pravidlo je realistické. Ukazuje, že pro predikování platí pravidlo mírné (střední) korelace. Korelace, které jsou rovny nebo téměř rovny jedné, jsou romantickou vědeckou iluzí. 6.8 Komentáře a hodnocení Koncepty reliability a validity byly vytvořeny pro potřeby průmyslu. Výsledky měření v této oblasti musí být stejné, např. při plnění lahví mléka. Stroj se nemůže příliš odchýlit, protože mlékem se nesmí plýtvat. A produkt musí fungovat tak, jak byl navržen, např. aby bylo možno zaručit, že auto bude jezdit čtyři roky bez mechanického selhání – i tak lze chápat pojem validity. Součástí tohoto pojetí je koncept nulové hypotézy, protože možnost, že se stane chyba I. druhu, musí být co nejmenší, tj. důležité je nikdy neuvést na trh nový produkt, který pravděpodobně propadne (p < 0,05, < 0,01, < 0,001). Tyto koncepty předznamenaly vývoj „produktů“ v psychologii, zvláště testů a dotazníků, zůstává však otázka, jestli stejně dobře odpovídají realitě dynamického lidského chování. Monopol na „teorii“ reliability drží psychometrika, tj. klasická a moderní teorie testů. Zabývá se měřením latentních rysů či teoretických vlastností a identifikací chyb měření. Teorie popisují vztahy mezi položkami, což umožňuje využití všech multivariačních technik analýzy dat, např. faktorové analýzy. Faktor může být definován jako odkazující k nepozorovatelným latentním konstruktům, jež jsou základem („příčinou“) individuálních rozdílů v chování. Analýza umožní zjistit, zda jeden rys současně sytí více faktorů. Psychometrická teorie testů zdůrazňuje potřebu měřit vždy jen jednu dimenzi: „současně měřte jen jeden rys, nebo neměříte nic“. Můžeme ale předpokládat, že chování nebo odpověď na položku je „způsobeno“ více rysy, protože odpověď na aritmetický úkol vyžaduje např. schopnosti jako čtení, pozornost, a schopnost počítat. Pokud jsou první dvě u všech respondentů na stejné úrovni, nebo zcela zautomatizované, potom jsou pozorované rozdíly „způsobeny“ právě tou schopností, o kterou se zajímáme. Testy jsou často zadávány v populacích s hierarchickou strukturou, což znamená, že výběrové soubory nejsou homogenní. V poslední době se se strukturovanými výběry vypořádala víceúrovňová analýza (viz např. Hox, 2002). „Teorie“ reliability se zaměřuje na skórování testů a jeho přesná pravidla. V diagnostice jsou ale kromě testů odborníky prováděny další komplexní procedury, např. kazuistická formulace případu, diagnostika podle modelu testování hypotéz a využívány jsou i komplexní postupy. Jejich výhody vzhledem k diagnostice jednotlivých kvalit nebývají obvykle empiricky prokázány. Pro kategorie nebo nominální proměnné se obvykle používá index shody. Je možné, že tvůrci těchto postupů je vnímali jako logické kroky, které nemusejí být analyzovány empiricky. Posuzovatelé se ale budou lišit, jeví se jako vhodné zkoumat jejich shodu, „reliabilitu“ těchto postupů. Výzkum Schmidta a Huntera o zobecnitelnosti validity ukázal, že existují obrovské rozdíly v korelacích prediktoru a kritéria a srovnatelného prediktoru a kritéria (r = 0,10 až 0,65) a tento rozdíl autoři připisují statistickým artefaktům a administraci, tj. „selhání lidského faktoru“. Tyto chyby však nevymizí, i když na ně budou diagnostici a administrátoři upozorněni. V „teorii“ reliability je objektivita definována spíše negativně jako vyloučení nebo vyrovnání subjektivity. Objektivita může zahrnovat víc, např. spravedlivost vůči „objektu“ 133
studie, tj. klientovi. V komplexních postupech, i když mají striktně daný protokol, do diagnostického procesu vstupují téměř nevyhnutelně individuální rozdíly v postojích, osobnosti a zkušenostech diagnostika. Bylo by realističtější s nimi počítat a zkoumat je namísto předstírání, „jako by“ byly eliminovány tím, že metoda má striktně daný postup administrace a vyhodnocování. Vztahy mezi prediktorem a kritériem akcentují korelační analýzu. Korelace mezi prediktorem a kritériem je aplikována na každého klienta a někdy intervenující proměnná (pohlaví, stupeň vzdělání) dále diferencuje obecnou korelaci prediktoru a kritéria. Bornstein (2011) zdůrazňuje skutečnost, že klienti se ve svých psychologických procesech odlišují, což vede k rozdílným výsledkům v testech. Navrhuje na proces zaměřený model (process-focused model), který konceptualizuje validitu jako stupeň, nakolik může být klient zařazen do předvídatelných souborů psychologických procesů během testování (vyvolaných testovými nástroji a interakcí s diagnostikem). I když se jedná o zajímavý návrh, bude obtížné odhalit a popsat všechny příslušné procesy. Lze předpokládat, že takový přístup bude více oceňován než využíván jednoduše proto, že vyžaduje precizní popis neznámých procesů a úspěch je nejistý, s ohledem na to, že jeho výsledkem může být jen „deskripce“, nikoli signifikantní efekt. Metoda test-retest a koeficienty vnitřní konzistence jsou přiměřené pro stabilní chování. Nejsou navrženy k měření změny a vývoje. Testová teorie byla primárně vytvořena pro pedagogický výzkum. Zdravotníci namítají, že psychometricky navržené hodnotící škály nedostatečně rozlišují mezi různými skupinami pacientů trpících stejnou poruchou, tj. postrádají citlivost (Fava et al., 2004). Tyto koeficienty také nebyly vytvořeny pro spolehlivé posuzování vývoje. Feinstein (1987) navrhuje alternativní „klinimetriku“ pro klinické fenomény jako typy onemocnění, závažnost, posloupnost, průběh, závažnost komorbidity, problémy funkční kapacity a dysfunkční aspekty každodenního života. Zřejmě ale není spravedlivé vytýkat tyto nedostatky psychometrikům, neboť vývoj přiměřených nástrojů a postupů pro danou oblast by měl být úkolem pro zdravotnické odborníky. Koeficienty reliability nabízejí diagnostikům možnost zjistit, zda jsou výsledky a kategorie opakovaně měřitelné. Diagnostici se však potřebují rozhodnout, který z nich je vhodný pro jejich konkrétní zadání. Reliabilita postupů je spíše opomíjena, podporu si zaslouží využití systematické a formalizované intervize a supervize. „Teorii“ validity dominuje pragmatika predikce. V jazyce a ve filozofickém kontextu není validita (platnost) jen účelová, ale představuje sama o sobě hodnotu. Práce pedagogického psychologa Perryho propojuje gnozeologický a etický vývoj u studentů. Filozof Williams dokonce podstoupil riziko kategoriální chyby a tvrdí, že validita a pravda znamenají správnost uvažování o sociálním a hmotném světě a zahrnují i upřímnost toho, kdo o objektech a osobách mluví. Již žáci na prvním stupni odhadují správnost a upřímnost toho, kdo zprávu podává, a někteří z nich jsou již v mladém věku rozčarovaní a stávají se skeptiky. Za pozornost stojí dodatek psychometrika americké Educational Testing Service Samuela Messicka, jehož jednotící koncept validity se stal v roce 1999 součástí oficiálních standardů APA. Ke konstruktové validitě jako integrativní prvek připojuje konsekvencionální validitu. Ta zahrnuje hodnoty jako spravedlnost v zacházení s různými sociálními skupinami, ve vztahu k lidem obojího pohlaví, s rozdílným socioekonomickým statutem atd. Jeho jednotící koncept validity má i další zajímavý aspekt, protože jednota je ustanovena hermeneuticky, přestože toto by sám Messick přiznával pravděpodobně jen velmi váhavě. Jeho definice konstruktové validity umožňuje množství interpretací, jejichž jednotícím prvkem je rozšířené pojetí konstruktové validity. Interpretace již není „validní pro všechna kritéria, které dokáže signifikantně předpovědět“, jak tvrdil Thorndike před devadesáti lety. Přístup Borsbooma et al. se vrací zpět ke kořenům a jeho výhodou je, že se opět zaměřuje na to, co má být měřeno. 134
Pokud jsou jejich požadavky splněny, je formálně vytvořena jednodimenzionální škála „dokonalé“ kategorie, tj. data zapadají do předem stanoveného modelu. To je samozřejmě elegantní, ale tyto výsledky musejí být také spojeny s dalšími konstrukty, a zvláště s konkrétním (žádoucím a nechtěným) chováním. Výsledná škála, stejně jako její vztah ke kritériu, musí být interpretována za použití sémantických (nikoli formálních) výrazů. Zajímavá je otázka, co je tím, co způsobuje individuální rozdíly v pozorovaném chování (lidská vlastnost, rys, latentní rys)? Je to hmotná substance, je psychologie nakonec jen biologií, fyziologií či neurologií? Nebo je to něco jiného, protože lidé jsou odlišní díky tomu, že vytvářejí význam? Je jejich chování něčím více než souborem reflexů a je jejich činnost ne tak zcela předurčena jejich chemickou a neuronovou výbavou? Nebo jsou vlastnosti, latentní rysy a jiné atributy lépe popsatelné jako hypotetické konstrukty? Ale hypotetické konstrukty, jak je užíváme teď, „nezpůsobují“ individuální rozdíly v pozorovaném chování, i když mohou být díky nim „pochopitelnější“ nebo „opodstatněnější“. Potřebujeme jiné ideje k propojení pozorovaného chování se základními entitami? Co třeba „záměr“ a „rozum“ jako vysvětlení individuálně odlišných činů (viz např. Greve, 2001)? Diskuse o základních jednotkách, které stojí za pozorovaným chováním, není (a v dohledné době nebude) ukončená. Norský psycholog Jan Smedslund (1999) poukázal na další možnou vadu výzkumů vztahů mezi prediktorem a kritériem, a to na případ, kdy je kritérium sémanticky obsaženo v prediktoru. Westmayer dává příklad ze studie kritérií štěstí. Studie v subjektivním pocitu well-being obsahovala směsici empirických a sémantických formulací, protože do konceptu „štěstí“ byly zahrnuty charakteristiky jako pozitivní temperamentové ladění, schopnost nahlížet na věci z té lepší stránky, neuvažovat nad špatnými událostmi, dobrá ekonomická situace, možnost mít svého důvěrníka a dostupnost přiměřených zdrojů k dosahování důležitých cílů. To jsou analytické, nikoli empirické formulace. Koncepty validity jsou propracovány v mnoha studiích, které přinesly velké množství dat a korelací mezi prediktorem a kritériem. Ty poukazují na pravděpodobně limity predikce, které může psychologie dosáhnout. Průměrná korelace mezi prediktorem a kritériem v metastudiích je r = 0,32 (směrodatná odchylka 0,19). Pracovní výkon může být predikován na základě obecných mentálních schopností a osobnostních charakteristik až po r = 0,50 – 0,60 po korekci statistických artefaktů a chyb při administraci. To je podle Cohenova orientačního pravidla velký účinek, ale není to deterministický vztah 1,0. Navíc jsou tyto koeficienty validity počítány pro výběry (někdy korigované pro homogenitu) a ne pro individuální klienty. Pro diagnostika v praxi je „jednotkou“ klient, nikoli výběr. Validita (kvazi)experimentů dosahuje stejné úrovně, jak je zřejmé z hodnot Cohenova d. Možnosti kontroly jsou také „na půl cesty“. Výsledky platí pro výběr a je úkolem diagnostika rozhodnout, jaký význam budou mít tyto výsledky pro jeho klienta. Hodnoty r a d redukují míru nejistoty o chování klienta, ale nikdy neposkytnou dokonalou predikci a kontrolu. Jsme pravděpodobně o něco spokojenější s hodnotami Cohenova r > 0,30 a d > 0,50, protože jsme naučeni testovat nulovou hypotézu a používat statistickou významnost jako svého druhu „prášek na spaní“. Diagnostik potřebuje víc, ale musí pracovat s nedokonalými, i když účelnými skóry testů a dalších testových nástrojů. Odchylka od dokonalé předpověditelnosti a kontroly nemá vést k odmítnutí empirických výsledků a hledání své vlastní cesty. Je prokázáno, že nástroje mají „inkrementální“ validitu, přispívají ke zvýšení validity diagnostiky vůči prostému úsudku, i pokud se jedná o expertní posouzení. Fakt, že experimenty s nenáhodným výběrem se označují jako kvaziexperimenty, ukazuje primát experimentálních designů. Vyjadřuje také primát kauzality. Aktivním činitelem je účinná příčina, externí silou je úder kladiva a účinkem je důsledek pro „experimentální jednotku“ (osobu, klienta), který jej pasivně zakouší, jako kaštan, který se rozpadne na kusy. To je pevný a jednoduchý koncept a někteří lidé mají jednoduché 135
koncepty rádi. Tento typ příčiny jako by byl jediným, který může vysvětlit chování klienta. V běžném jazyce a v mnoha psychologických interpretacích lidského jednání přijímáme více determinant, např. pravděpodobnostní prohlášení, multikauzalitu, teleologii (cíl vysvětlující chování), strukturalismus a funkcionalismus. Piagetovská stadia jsou strukturní interpretací a nikoli účinnou příčinou toho, že je člověk schopen řešit správně, například testy pochopení uchování množství a objemu (Tacq, 2011). Vztah mezi měřicími nástroji a teorií chování není příliš těsný. Guttmanovo doporučení nejdříve vytvořit strukturální teorii nebo provést fasetovou analýzu jako základ pro navržení nástrojů a potom testovat chování je zřídka dodržováno. Reliabilita a validita jsou nejvíce využívány v oblasti posuzování individuálních rozdílů, nikoli pro vývojový a sociální kontext. Teorie a studie reliability a validity odhalují praktickým diagnostikům některá slepá místa, ale současně nabízejí vědecké způsoby kontroly kvality formulací o chování klienta. Koncepty a termíny v kapitole 6: RELIABILITA A VALIDITA V DIAGNOSTICE Standardní chyba měření Typy koeficientů reliability Zobecnitelnost Reliabilita postupů Shoda posuzovatelů Cohenova kappa Podmíněná přesnost měření Orientační pravidlo Nunnaly a Bernsteina: požadovaná hodnota koeficientů reliability Implicitní validita: správnost a upřímnost (Bernard Williams) Jednotící koncept validity (Samuel Messick) Obsahová, prediktivní (kriteriální), konstruktová validita Konsekvencionální báze diagnostiky (Samuel Messick) Problém kritéria: globální a specifická kritéria; bezprostřední, střednědobá a dlouhodobá kritéria Korekce oslabení korelace Zjevná validita Sociální experiment (Thomas Cook a Donald Campbell) Pravý experiment Kvaziexperiment Interní validita, validita statistických závěrů, vnější (proximální) a konstruktová validita v kvaziexperimentu Rizika čtyř typů validit Metastudie Meyera et al.: Průměrná hodnota korelace mezi prediktorem a kritériem Zobecnění validity (Schmidt a Hunter) Logika experimentu: účinná příčina Omezení rozsahu Inkrementální validita Velikost účinku (effect size) pro průměry a pro korelace: Cohenovo orientační pravidlo pro hodnoty d a r
7 KVALITA DIAGNOSTIKY V prvním oddílu si popíšeme vodítka pro analýzu kvality. Kvalita je široký a nejasný koncept. Jak ji můžeme užitečně definovat pro diagnostiku? Jaké jsou implicitní koncepty kvality diagnostiky? Odpověď na tuto otázku může nabídnout popularita teorií, měření a nástrojů u 136
široké veřejnosti a odborníků. Reflektují diagnostici kvalitu své práce? Jak kvalitní jsou s ohledem na diagnostiku tři významné teorie? Jaká je kvalita operacionalizace a měření? V podstatě každý statistický model je relevantní pro popis a testování korelací a efektů nezávislých proměnných, ale v psychologické diagnostice je nejvýznamnější psychometrika, která má tendenci „žít vlastním životem“ nezávisle na teoriích. Viditelnými produkty diagnostiky jsou nástroje a protokoly. Jaká je jejich kvalita a čím je určena? Diagnostický proces je popsán v modelech, jaké důsledky to má pro jeho kvalitu? V některých zemích existují systémy k posuzování kvality testů a dotazníků a méně často i k posuzování dalších diagnostických postupů. Dobře známým příkladem takového systému jsou standardy Americké psychologické asociace pro pedagogické a psychologické testy. Jsou dostatečné? Oponenti namítají, že proces předpokládá jednoduchého člověka bez kontextu a historie, který může být objektivně popsán. Kvalita se vztahuje také k etice, k respektování soukromí a „férovosti“ diagnostiky pro všechny zúčastněné. Respondenti sami mohou být také „nefér“ k diagnostikům, tj. podvádět při odpovídání, zejména při diagnostice typického chování. 7.1 Co je kvalita? Kvalita je široký koncept. Pokud budeme diagnostiku vnímat jako součást procesu pomáhání, můžeme využít literaturu o kvalitě lékařské péče. V diagnostice se koncept kvality dotýká institucí a organizací. Ty jsou charakterizovány vlastnostmi jako prostředí, personál, vedení, komunikace a spolupráce uvnitř i vně organizace. Musí se zabývat záležitostmi, jako je adekvátní kvalifikace a další vzdělávání personálu, vedení, komunikace a funkční vztahy s dalšími organizacemi např. školami, zaměstnavateli, psychiatrickými léčebnami a podobně. Můžeme se také zabývat motivací klientů, motivací personálu, vybavením pro personál: pracovním prostředím, časem pro intervizi a supervizi, dostupným materiálem a prostředky. V soukromých institucích představuje kvalita služeb a spokojenost zákazníků základní faktory využívané k získávání konkurenčních výhod a k získání a udržení zákazníků. Mnoho společností zadává dotazníky spokojenosti k vyhodnocení klíčových atributů potenciálního zlepšení (Yang et al., 2011). Tento koncept kvality nehrál doposud v psychologických a zdravotnických službách významnou roli, v budoucnu však možná bude. Kvalita je také spojena se sociálními podmínkami a atmosférou, což zahrnuje respektující způsob testování a vyšetřování klientů, správný kontakt s jejich sociálním okolím a organizační strukturu respektující vlastní zaměstnance. Kvalita je často spojována s produkty, například výroky o klientovi a jeho sociálním kontextu, zprávami s prognózami, návrhy kontrolních měření a s rozhodnutími. Součástí „navrhování produktů“ je proces tvorby testů, dotazníků, diagnostických metod a intervencí. Jejich „výroba“ je stejně investičně náročná stejně jako výroba aut, počítačů nebo stavba domů. Můžeme formulovat kritéria pro kvalitu výsledků: dobré nástroje, akceptovatelné prognózy, intervence, rozhodnutí atd. Různá kritéria kvality diagnostických produktů obsahují a vyjadřují testová teorie, koncepty reliability a validity, výzkumné designy, velikost účinku, falešná pozitivita a negativita, chyby alfa a beta, hladiny významnosti, na důkazech založené intervence. Diagnostika je také služba klientovi, která vychází z procesu interakce mezi těmi, kdo reprezentují organizaci a klientem jako zákazníkem. Rozdíl mezi produktem a službou není striktní, služby však na rozdíl od produktů nejsou hmatatelné jako třeba auta. Služby nelze skladovat, vyžadují interakci mezi tím, kdo službu poskytuje, a klientem, jsou pracovně náročné a vnímané riziko je u služeb pravděpodobně vyšší než u produktů. Kvalitní služba zahrnuje například dostatek vybavení pro diagnostiku, vytváření vztahu mezi diagnostikem a klientem, spokojenost klienta a možnosti nápravy v případě, že služba nenaplnila klientova očekávání. V diagnostice je důležité setkání s
137
klientem, protože tento moment formuje klientovu zkušenost s diagnostikou. Služby jsou spoluprací, která očekává zapojení klienta. Diagnostika je zřídka vyhodnocována jako produkt nebo služba organizace a toto může být doplňkem k výše zmíněným kritériím, která jsou více či méně libovolně uváděna v diagnostické literatuře. Níže se budeme zabývat zejména exaktními kritérii kvality, která doplníme o některá etická pravidla spravedlivého používání diagnostických metod a respektujícího kontaktu s klientem. To proto, že tyto aspekty kvality diagnostiky jsou psychologům dobře známy. Shrnutí 7.1 Pokud je diagnostika součástí poskytování pomoci, můžeme na ni aplikovat požadavky na kvalitu zdravotní péče. Kvalita je záležitostí organizací a institucí, které poskytují produkty a služby. My se omezíme zejména na vědecká kritéria pro diagnostiku s ohledem na teorie, měření, nástroje a popíšeme si i etická pravidla a spravedlivé využití nástrojů v práci s klienty. 7.2 Implicitní kritéria pro kvalitu teorií, operacionalizaci, měření a administraci nástrojů Psychologická diagnostika je chápana jako vědecká činnost produkující validní výroky o chování klienta. Zahrnuje kritéria jako reliabilita, validita, velikost účinku, falešná pozitivita a negativita, vysvětlený rozptyl kriteriálního chování, signifikantní rozdíly mezi experimentálními a kontrolními podmínkami a racionálně ukotvená rozhodnutí. Vzhledem k dominantní roli individuálních rozdílů, testů a dotazníků existují směrnice pro stanovení kvality testů a jejich použití. Dobře známým příkladem je příručka Standardy pro pedagogické a psychologické testy vydaná Americkou psychologickou asociací (1999). Existují také kritéria kvality teorií a měření, ale ta nejsou příliš často využívána. Jak jsme uvedli v kapitole 1, kritéria kvality jsou potřebná při hodnocení zdrojů teorií (implicitních, explicitních, alternativních), teoretické orientace (individuální rozdíly, vývoj a kontext), a prvky teorií, operacionalizace, měření a nástroje. Neexistují empirické informace o tom, které psychologické teorie jsou mezi veřejností a profesionály nejvíce oblíbené. Kvalifikovaným odhadem můžeme identifikovat preference kognitivně behaviorálního přístupu a kategorizace DSM-IV-TR. Četnost využívání testů maximálního výkonu a osobnostních testů svědčí o zájmu psychometriky o inteligenci a osobnost. Sociální kontext bude mít jistě svoji váhu v praktické diagnostice, ale neexistuje explicitní teoretický rámec nebo protokol, jak jej začlenit do procesu diagnostiky klienta. Existuje nepřímá informace o implicitních preferencích laiků a profesionálů, co se týče nástrojů. Četnost používání testů odborníky můžeme vnímat jako implicitní soud o kvalitě nástrojů. Pouze zlomek dostupných testů je využíván často. Odborníci také přemýšlejí o kvalitě svých schopností s ohledem na diagnostiku klientů a používání testů. Klienti jsou konfrontováni s diagnostickým postupem; jak hodnotí to, že jsou diagnostikováni? Více než polovina diagnostiků používá testy pravidelně. Výjimku tvoří skupina psychoterapeutů, kteří se omezují na dialog. Volba testů nebo dotazníků vychází z toho, jaký konstrukt považuje diagnostik vzhledem ke klientově zakázce nebo problému za relevantní, například stres u manažerů, emoční inteligence nebo sociální dovednosti. Tato volba závisí rovněž na obtížnosti administrace a vyhodnocování nástroje. Proto jsou například TAT nebo Rorschachův test vzhledem k časové náročnosti vyhodnocování méně populární. Svou roli sehrává také zkušenost s administrací a interpretací testu nebo dotazníku. V Evropě a USA existuje mnoho testů a dotazníků a jejich počet roste i v zemích jako je Indie, Čína, Indonésie nebo Brazílie. V každé zemi je registrováno odhadem více než 500 testů a využíváno jich je ještě více. Žádný diagnostik nemůže být dobře obeznámen se 138
všemi. Na základě dostupnosti a vnímané užitečnosti jsou některé nástroje využívány více než jiné. Některé země údaje o používání testů archivují. Mezi lety 1967 až 2000 je patrný odklon od nástrojů umožňujících diagnostikovi interpretaci (TAT, Rorschachův test, doplňování vět) k „objektivním“, tj. objektivně skórovatelným nástrojům (kognitivní testy a osobnostní dotazníky). Četnost použití se liší podle specifické oblasti (např. klinická psychologie, psychologie organizace a práce apod.), ale následující kvalifikovaný odhad platí pro USA, Evropu (např. Francii, viz Golay a Lecerf, 2011) a pravděpodobně i další země: K nejčastěji využívaným metodám patří individuálně administrované testy inteligence, zejména Wechslerovy škály. Ravenovy matrice mohou být administrovány skupinově a jsou často využívány ve výzkumu a v praxi jako hlavní ukazatel pro obecný faktor inteligence (gfaktor). Wechslerovy škály jsou využívány nejčastěji, následují různé testy schopností pro umisťování a výběr žáků, studentů a zaměstnanců. Třetí nejčastěji používanou metodou je pravděpodobně osobnostní dotazník Big Five, sloužící k vykreslení „normální“ osobnosti nebo některý z mnoha dalších osobnostních dotazníků. Čtvrté nejčastěji používané jsou osobnostní dotazníky jako MMPI, které nacházejí uplatnění tam, kde je úkolem diagnostika odhalit případnou poruchu osobnosti klienta. Existuje mnoho dotazníků s víceméně shodným zaměřením. Páté v pořadí jsou dotazníky identifikující profesní zájmy. Testy a dotazníky jsou k dispozici odborníkům, ti si je mohou kupovat od vydavatelů testů. Velké firmy si vytvářejí vlastní testové baterie a jejich data nejsou veřejně dostupná. Existují empirická data o používání diagnostických nástrojů. Uvedeme dva ne zcela aktuální příklady. Prvním příkladem je Oaklandův (1995) přehled testů používaných u dětí ve 44 zemích. Záměrně z výzkumu vyloučil USA, protože celkový výsledek by byl zkreslen častým používáním testů v USA. Pořadí se mírně liší od pořadí popsaného výše: Wechslerova inteligenční škála pro děti (WISC) Ravenovy progresivní matrice (verze pro děti/mládež) Rorschachův test Stanford-Binetův inteligenční test Wechslerova inteligenční škála pro dospělé (WAIS) Tematicko-apercepční test (TAT) Test diferenciace schopností (TDS) Minnesotský multifázový osobnostní inventář (MMPI) Vývojový test zrakového vnímání (M. Frostigová) Autor poznamenává, že často scházejí údaje o reliabilitě a validitě. Preference diagnostiků a praktiků jsou zřejmě jen částečně určovány psychometrickými vlastnostmi nástrojů. Větší význam má patrně vnímaná uživatelská přístupnost a relevance měřeného konstruktu pro otázku nebo problém dítěte. Je pochopitelné, že senzoricko-motorické testy (Frostigová) jsou využívány především u dětí, ale od trendu používání testů u dospělých se odchyluje i preference projektivních nástrojů. Je možné, že tento obraz se po letech přiblížil trendu u dospělých. (data pocházejí od Oakland a Hu ,1993). Druhým příkladem je studie Tyler a Miller (1986), kteří se před třiceti lety dotazovali britských diagnostiků, které testy používají. Zjištěné pořadí je podobné zjištěním Oaklanda a Hu: obecné testy inteligence, jako Wechsler, Stanford-Binet, Ravenovy standardní progresivní matice, nebo specifické testy inteligence, zejména Test diferenciace schopností; nebo testy specifických faktorů (škála Griffithové), jazykové testy (Reynell), testy senzorické/percepční (Bender Gestalt); obecné testy osobnosti, jako Catellův 16 PF nebo Eysenckův osobnostní dotazník (EPI); dotazníky k posuzování poruch (MMPI, TAT) nebo testy týkající se specifických témat, např. Test rodiny. Výsledný obraz je poměrně konzistentní: pořadí je v obou výzkumech stejné. 139
Praktičtí diagnostici reflektují své diagnostické aktivity, užívání a interpretaci nástrojů. Uvedeme si tři příklady. Prvním z nich je výzkum Everse et al. (2000), kteří se ve spolupráci s několika evropskými kolegy dotazovali psychologů sdružených v národních asociacích, s jakými problémy se při testování setkávají. Počet odpovědí byl omezený (odpovědělo pouze 12 až 40 % dotazovaných), dvě třetiny respondentů byly ženy, více než polovina byli kliničtí psychologové a jedna pětinu tvořili psychologové práce. Všichni potvrzují častější využívání objektivních testů namísto projektivních nástrojů a kriticky se vyjadřují k dovednostem uživatelů testů. Zmiňovali následující nedostatky: Používání nevhodných testů vzhledem ke klientově otázce/problému Nedostatek informací o nových výzkumech v oblasti Omezená možnost kontroly vlastních interpretací kolegy Standardní chyba měření testu není brána v potaz Administrace nekvalifikovaným personálem Opomíjení okolností, které ovlivňují validitu testu Nepodložené závěry Brenner (2003) se zabýval formulací psychologických zpráv a doporučuje jejich psaní s ohledem na klienta. Pro zvýšení relevance zprávy musí podle něj psychologové eliminovat profesní žargon; zdůrazňovat silné stránky klienta, zaměřit se na jeho zakázku, psát zprávy individualizovaně a s konkrétními doporučeními. Moreland et al. (1995) se pokusili empiricky vymezit požadované kompetence diagnostika. Sestavili seznam 86 kompetencí, např. schopnost nepomáhat oblíbeným osobám získat lepší skór. Tyto kompetence byly bodovány na škále relevance dovedností a znalostí diagnostika. Faktorovou analýzou získal několik faktorů s vlastní hodnotou vyšší než 1. Zde jsou některé příklady: Přehled o dění v průběhu testování a rozhovoru Použití vhodných testů Psychometrické vědomosti, zejména porozumění tomu, co znamená chyba měření, zohlednění standardní chyby měření Použití správných pravidel pro interpretaci Správné závěry na základě bodových výsledků testu Reflexe vlastní praxe ukazuje, že diagnostici akceptují pravidla klasické teorie testů a jsou si vědomi zjištění Huntera a Schmidta, že chyby při administraci a interpretaci jsou v diagnostice časté. Nepoukazují na nedostatky v teorii a instrumentaci, orientují se na administraci. Klienti posuzují kvalitu šetření, která jsou prováděna z důvodu žádosti o práci, přijetí do školy nebo zvýšení platu apod. O výsledky se opravdu zajímají a mohou být zprávou zklamáni. Zpětné vazby zákazníků jsou obvyklé v oblasti prodeje zboží. V oblasti diagnostiky není běžné žádat klienta o zpětnou vazbu týkající se jeho zkušenosti s průběhem testování. Také se velmi zřídka po určité době ověřuje, zda byla prognóza, intervence nebo rozhodnutí „správné“. Existují etické komise, které přezkoumávají stížnosti. Jejich počet je zpravidla omezený. Existuje možnost druhého posouzení. Přesto se ale zdá, že stížnosti na testování se v Evropě objevují vzhledem k počtu osob, které jsou ročně diagnostikovány, jen velmi zřídka. Počet stížností vzhledem k velkému počtu testovaných bude omezený i v USA, ale jsou zde vedeny diskuze týkající se diagnostického nálepkování (labeling) testovaných osob např. „mírně retardovaný“. Rodiče se domohli u soudu, aby bylo toto označení odstraněno ze spisu jejich dětí. Psychologové musejí u soudu vysvětlovat, co znamenají pojmy validita, cut-off skóry, falešná pozitivita nebo negativita. Ralph Nader vedl v USA velkou klientskou
140
organizaci a snažil se dosáhnout zákazu používání inteligenčních a výkonových testů u dětí, protože mohou znevýhodňovat příslušníky minorit. Vzpomeňme Jensenovo (1998) zjištění, že rozdíl IQ mezi bílými a ne-bílými Američany je větší než směrodatná odchylka (19 bodů). Diagnostici budou obhajovat testování s tím, že testy zaznamenávají rozdíly, ale nejsou příčinou rozdílů mezi etnickými skupinami. Je to sociální a školský systém, který tyto rozdíly vytváří a udržuje. Oblast, ve které lze očekávat kritickou pozornost věnovanou diagnostice, jsou žádosti o přijetí do zaměstnání nebo na prestižní školy. Psychologové se často účastní procesu výběru. Odmítnutí je velkým zklamáním a je pro uchazeče frustrující. Z této frustrace těží další psychologové, kteří uchazeče na výběrové řízení připravují. V některých zemích připravují uchazeče na přijímací zkoušky na univerzity i učitelé. Jsou vydávány knihy o tom, jak se chovat u přijímacích pohovorů, jak zvládnout ústní a písemné zkoušky. Nezřídka v nich psychologové kritizují jiné psychology. Obvykle nejde o seriózní reflexi činnosti diagnostiků, ale přesto je pro diagnostiky výzvou, aby transparentně vysvětlili, jaké jsou možnosti a limity testování při výběru uchazečů o zaměstnání a při přijímání studentů na školy. Diagnostika zahrnuje kromě odborných schopností diagnostiků a kvality diagnostických aktivit a nástrojů také etiku. Cates (1999) nazývá diagnostiku hybridem mezi uměním a vědou. Integrace objektivních dat do komplexní diagnózy je částečně umění. Shrnutí 7.2 Laici i odborníci mají implicitní představy o kvalitě teorií, měření a nástrojů, ty ale nejsou prozkoumány. Za nepřímé implicitní kritérium vnímané kvality můžeme považovat četnost užívání testů a dotazníků. Existují informace o tom, jak diagnostici reflektují kvalitu své práce. Více než polovina diagnostiků používá pravidelně testy. Existuje mnoho nástrojů a jen některé jsou používány často. Pořadí nejpoužívanějších je poměrně konzistentní: IQ testy (WAIS, Raven), testy diferenciace schopností, osobnostní dotazníky (MMPI, Big Five) a testy profesních zájmů. V průběhu času je patrný odklon od projektivních testů (Rorschach, doplňování vět) ve prospěch objektivně skórovaných testů a dotazníků. Kritéria pro použití testů odborníky nejsou primárně jejich validita a reliabilita, ale jejich relevance pro klientovu zakázku a diagnostikova znalost testu. Když diagnostici reflektují svoji činnost, jsou kritičtí k používání projektivních testů, znalosti oblasti, jíž jsou součástí, psychometrickým znalostem, k profesnímu žargonu a k přesnosti záznamu o průběhu vyšetření. Vzhledem k tomu, kolik lidí je ročně testováno kvůli přijetí do zaměstnání nebo na školu, není kritika ze strany klientů příliš častá. Výjimkou je klientská organizace v USA, která usilovala o zákaz testování při přijímacích zkouškách, protože znevýhodňuje menšiny. Citlivým tématem je také přijímací řízení do zaměstnání nebo na prestižní školy a univerzity; výsledky mohou být pro uchazeče zklamáním. Tato situace nahrává kritice psychologického testování i komercionalizaci přípravy uchazečů. 7.3 Explicitní kritéria pro kvalitu teorií, operacionalizaci, měření a nástroje Učebnice obvykle uvádějí tři až čtyři kritéria pro kvalitu teorií. Logická konzistence znamená, že není možno tvrdit, že určitá událost, chování, fenomén je pozorované, přítomné (pravdivé) a současně nepozorované a nepřítomné (nepravdivé) nebo že je stejné a současně jiné. Empirický důkaz, protože psychologie je považována za empirickou vědu spíše než např. historickou nebo filozofickou disciplínu, tvrzení musí být podpořena empirickými daty, vyjádřenými jako významné rozdíly mezi podmínkami a signifikantní korelace mezi dvěma či více projevy chování. Integrativní potenciál, tj. teorie musí ukázat schopnost
141
integrovat jinak samostatná data, a nakonec přínos pro výzkum: teorie musí podněcovat empirický výzkum a fungovat jako výzkumné paradigma, jak o něm píše Kuhn (1962). Vedle obvyklých kritérií existují znepokojující postřehy o praxi vytváření psychologických teorií. Představíme si komentáře Meehla (1978) a Gigerenzera (2000). Newell (1990; Anderson, 2003) popisuje základní nároky na realistickou kognitivní teorii. Také navrhuje empirické řešení roztříštěnosti výsledků výzkumů, tj. vztahů mezi prediktory a kritérii a nezávislými a závislými proměnnými za použití metaanalýz. Paul Meehl napsal před asi 35 lety, že vytváření psychologických teorií je vědecky nevýrazné a technologicky bezcenné. Tvrdil, že teorie nikdy neumírají, prostě jen mizí. Tento postřeh platí pro psychologii jako vědu, nikoli pro práci diagnostiků a praktiků. Meehl sám byl aktivním terapeutem. V roce 1978 sepsal článek, ve kterém vyjmenoval 20 důvodů pomalého vývoje plnohodnotných psychologických teorií. Patří k nim: Slabé definice smysluplných behaviorálních jednotek a jejich vztahů. Nedostatek užitečných taxonomií situací. Nejistota ohledně úrovně měření: pořadová, intervalová nebo poměrová Spoléhání na individuální rozdíly na (nezávislých) škálách, i když jde vždy o vzorce chování. Přítomnost divergentní kauzality: člověk nemusí pozorovat nic, protože i slabé až nule blízké proměnné působí velký efekt (později propracováno v nelineární dynamice a teorii katastrof). Individuum je objektem výzkumu, tj. smysl má idiografický přístup, ale korelační a experimentální designy výzkumu dominují. Neznámá role kritických událostí. Velký objem rušivých proměnných: obtížná manipulovatelnost proměnnými přesně podle plánu, aby byly tyto proměnné udržovány na konstantní úrovni a chyby měření bylo možné odhadovat přesně. Fakt, že kauzalita je komplexní, např. kvůli zpětnovazebním smyčkám. Procesy posilující se vzájemně, tj. jen vzácně existují jednoduché lineární vztahy. Náhodná procházka (random walk), tj. mnoho divergentních vlivů činí z chování náhodný, obtížně předvídatelný jev: štěstí a smůla je důležitým přispěvatelem k rozdílům v lidském přežívání, uspokojení, nemocech a úspěších. Obrovské množství zúčastněných aktivních proměnných. Význam kulturních faktorů. Obtížná cesta od konstruovaných indikátorů k reálným behaviorálním fenoménům: operacionalismus je nevyhnutelně jednostranný a limitovaný. Role záměrnosti: lidé mají cíle a připisují význam svému jednání i jednání ostatních. Role určitých prefabrikovaných pravidel ovládajících chování. Jedinečné lidské kvality: náboženství, pomsta atd. Etická omezení výzkumu. Meehl jistě poukázal na obtížná témata behaviorální vědy a pomohl porozumět jejímu pomalému vývoji. Neukazuje ale cestu ke změně. Je obtížné navrhnout výzkum, který bude splňovat zároveň všech dvacet doporučení. Přinosem jeho analýzy je poznání komplexnosti chování, jež není v dominujících experimentálních a korelačních výzkumných designech vždy adekvátně reflektována. Upozornil také na obtížnost definování teoretických konstruktů odděleně od sociálních podmínek klienta a na klady i zápory operacionalismu.
142
Jako by se po epoše velkých teoretiků z počátku 20. století, Freudovi, Skinnerovi, Eysenckovi a Piagetovi, dostavil strach z vytváření teorií. Čas takových velkých teorií je v době postmoderního myšlení pryč. Dnes jsou považovány za nejisté a neproduktivní: nejisté, protože možnost objevení opravdu zajímavého fenoménu je malá, a neproduktivní, protože dobře napsaná esej nebo kniha nebude publikována. Je to strach ze selhání, který brání opravdovému teoretickému myšlení, a postoj „publish or perish“ je podnětem pro výzkumy založené na datech (blok 7.1). Blok 7.1: Důraz na data nebo na teorii? Arie Kruglanski vedl kurz pro studenty jak napsat vědecký článek, který bude přijat nejvýznamnějšími odbornými časopisy. Doktorandy ujišťoval: „jakmile budete mít čtyři nebo pět experimentálních nebo korelačních studií, máte své Ph.D. jisté“. Americká psychologická asociace (APA) publikovala obsáhlou příručku se souborem doporučení, jak napsat článek tak, aby splňoval jejich standardy. To podporuje názor Kruglanského a Toryho Higginse (2004), že sociální psychologie a psychologie osobnosti se dnes více zaměřují na dílčí fenomény a data než na teorie (str. 96). Autoři dokonce tvrdí, že to brzdí vědecký pokrok a blokuje schopnost tvořit smysluplné spojnice s příbuznými disciplínami. Jako důvod uvádějí povahu vysokoškolského vzdělávacího systému, který je úspěšný v učení studentů o fenoménech, vědeckých metodách a analýze dat, ale selhal v poskytování takové průpravy, která by jim pomohla v teoreticko-konstruktivním úsilí. Dalším z důvodů může být postoj „publikovat“ – jednoduché, okamžitě srozumitelné články – nebo „zemřít“, který zastávají vědecké rady. Jak by profesoři naplnili požadovaný objem publikací za rok, kdyby neměli postgraduální studenty, kteří rychle provedou výzkum podle standardů APA? Gerd Gigerenzer vzpomíná na zážitek z oběda na jedné konferenci. U jednoho stolu obtěžkaného čínským jídlem se mačkali čtyři doktorandi a čtyři profesoři. Studenti dychtili zjistit z první ruky, jak dokončit disertaci a začít kariéru výzkumníka, profesoři nadšeně poskytovali rady. Jeden z kolegů jim autoritativně poradil: „Nemějte velké cíle. Prostě udělejte čtyři nebo pět experimentů, sepněte je dohromady a odevzdejte“. Doktorandi vděčně přikyvovali. Přikyvovali dále, i když jsem já (Gigerenzer) dodal: „Neřiďte se touhle radou, pokud nejste omezení nebo bez fantazie; zkuste myslet do hloubky, odvážně a exaktně; riskujte a buďte odhodlaní.“ Pro doktorandy rozhodně dilema (Gigerenzer, 2000, s. 14). Autor se zmiňuje také o analýzách, které uvádějí, že teoretické argumenty ve více než polovině studií ve dvou věhlasných sociálně psychologických časopisech hraničí s tautologií (vzpomeňme poznámky Jana Smedslunda o pseudoempirickém výzkumu). Dále zmiňuje svůj zážitek z četby článků v Journal of Experimental Psychology z let 1920 až 1930. Byl to depresivní zážitek, říká, protože tolik je toho dnes ztraceno: různorodost statistických metod, detailní kazuistické zprávy, pečlivý výběr participantů, vliv pohlaví experimentátora atd. Většina z toho se nicméně i tehdy týkala sběru dat bez předmětné teorie: „Data bez teorie jsou jako miminka bez rodičů. Nemají dlouhý život“ (s. 296), konstatuje. Zdá se, že teoretická analýza a nové a neotřelé myšlenky vzbuzují téměř úzkost, populární jsou bezmála tautologická vysvětlení. Teoretizování jako by byla přímo hříšná aktivita. Proč? Je to proto, že teoretické myšlenky jsou poplatné zkreslení, sebeklamu a ideologii? Nebo je to proto, že existuje tlak na kvantitu publikací, který je škodlivý pro vědeckou kvalitu, tj. píší se články, které jsou zapomenuty ihned poté, co vyjdou? Je to podivný a nepříjemný paradox: Věda je svobodná, mysli si, co chceš, přemýšlej jinak a odporuj (např. „chůze je jen prevencí pádu“), ptej se, emailová adresa autorů je vždy na první straně jejich článku, děkují vám za zájem, odpovídají velmi brzy, ale 143
neposílejte jim články, nad vaším příběhem nebudou vůbec trávit čas. Ale i věda je svázaná: jako postgraduální student se musíte věnovat tématu svého profesora, dělat, co má rád on a napsat čtyři nebo pět článků. A později, jakmile se dostanete do praxe, následujte ty, kteří mají moc, oni rozhodnou, zda budete moci zůstat, nebo budete „muset říci sbohem“ instituci či společnosti a stát se nezaměstnaným. Jejich povzbuzování k originalitě je pouhý rituál. To vypadá jako paradox, který musel cítit Kruglanski při doporučení publikovat jen články, které budou snadno zapomenuty. Paradox je možná pociťován méně, protože kariérní cesta bude jedním z obtížně zapamatovatelných empirických počinů (viz také Wakefield, 2007). Gigerenzer je vedoucím profesorem v německém výzkumném institutu Maxe Plancka v Berlíně. Zaměstnanci tohoto institutu oslavují každý článek v americkém odborném časopise. Zde je paradox zřejmě také přítomen, ale je zmírněn teoretickými články jeho oddělení, které jsou přijaty dokonce v amerických časopisech. Také spolupracuje s Kruglanskim na tématu intuitivního a racionálního usuzování. Podle Gigerenzera (2000) ústí nedostatek zájmu nebo strach z vytváření teorií v náhražky. Tvrdí, že institucionální síly a kariérní důvody jsou zodpovědné za to, že na tyto náhražky stále spoléháme. Rozlišuje čtyři typy náhražek: Jednoslovná vysvětlení: Pojem má široký význam a je volen tak, aby se vztahoval k fenoménu. Neopírá se o žádné fundamentální mechanismy nebo teoretické struktury. Protože je tak široký, může být aplikován téměř na cokoli. Gigerenzer uvádí jako příklad Kahnemanův výzkum heuristik a zkreslení, protože může být post-hoc přizpůsoben téměř jakémukoli výsledku: přehlížení základní úrovně výskytu (base-rate) je označováno jako reprezentativnost a opačný výsledek, který základní úrovně přeceňuje (konzervatismus) je „vysvětlován“ zakotvením (na základní úrovni výskytu) a přizpůsobením nových údajů vzhledem k této úrovni. Doporučuje reprezentativnost precizně definovat jako podobnost, kterou lze vyjádřit distancí. „Vysvětlování popisem“: Příkladem je rysová psychologie, ve které je inteligentní nebo svědomité chování připsáno dispozici k inteligenci nebo svědomitosti. Další příklad nalézáme v rozhodování: úkol se stane jednodušším, protože je relevantní nebo transparentní nebo charakteristický. To není vysvětlení, ale „popisné vyjadřování“. Matoucí dichotomie: V sociálních vědách existuje spousta příkladů, dědičnost versus prostředí, sériové versus paralelní zpracovávání, gramatické struktury (Chomsky) versus asociace (Skinner), osoba versus situace, organické versus mechanistické, nebo primární versus sekundární procesy (Freud), či racionální versus iracionální (Dawes). Připomínají dichotomii mysli a těla, za niž vděčíme západní filozofické tradici. Ve skutečnosti tyto rozdíly neexistují. Není genu, osoby apod. bez prostředí. Přizpůsobování dat: Používání sofistikovaných postupů analýzy dat jako by mělo kompenzovat nedostatek teorie. Výsledky jsou působivé, ale často obtížně interpretovatelné, vzhledem ke složitým reprezentacím v grafech, diagramech a mnoha číslech. Faktorová analýza, multidimenzionální škálování, postupy strukturního modelování a nově víceúrovňové modelování zřejmě převzaly moc nad konceptuálními strukturami. Techniky jsou samozřejmě užitečné, ale nejsou „generátory pravdy“. Newell (1980, 1990) se pokusil nalézt přiměřenou úroveň teoretizování pro kognitivní teorie: musí splnit rozmanitá kritéria a netrpět teoretickou „krátkozrakostí“, jak to vyjádřili Anderson a Lebiere (2003). Kritéria se nazývají „Newellův test“ pro teorii poznání, jeho autor se v něm pokusil nalézt střední cestu mezi Scyllou obrovského počtu podrobných proměnných malých experimentů a Charybdou jednoho dominantního konceptu, který 144
vysvětluje vše, např. podvědomí, evoluce, sociální srovnávání, heuristiky a předsudky, úzkost atd. Pro svůj test formuloval 13 položek: Prokazuje flexibilní chování jako funkci odpovídající na podmínky prostředí. Vykazuje adaptivní (racionální na cíl orientované) chování. Funguje v reálném čase. Funguje v bohatém komplexním podrobném prostředí, všímá si nesmírného množství měnících se detailů, používá velké množství vědění, a kontroluje motorický systém s mnoha stupni volnosti. Užívá symboly a abstrakce. Užívá jak přirozený, tak umělý jazyk. Učí se z prostředí a ze zkušenosti. Během vývoje si osvojuje nové schopnosti. Funguje samostatně, ale v rámci společenské komunity. Uvědomuje si sama sebe a svoji hodnotu. Je uskutečnitelná jako nervový systém. Lze ji modelovat jako proces embryonálního růstu. Utváří se skrze vývoj. Tyto „testové položky“ znějí rozumně a mohou být vztaženy na kognitivní teorie, jak učinili Anderson a Lebiere (2003) se svojí teorií ACT–R, a samozřejmě, jejich teorie splňuje řadu z uvedených kritérií. Položky mohou být využity také pro teorie dalších oblastí chování. Popisují zajímavé a nepopiratelné rysy lidského chování, které by měly být zařazeny do behaviorálních teorií. Dokonce zahrnují vývoj a kontext usměrňující chování. To odráží realistický postoj s respektem vůči komplexnosti chování i fyzického a sociálního prostředí. Stručně řečeno, na rozdíl od obvyklých kritérií z učebnic uvádíme specifičtější požadavky na vznik psychologické teorie a také jejich slabiny. Gigerenzer a Kruglanski uvádějí následující příčiny vzniku slabých teorií: Nedostatek teoretického zájmu. Zvyk testovat nulovou hypotézu. Organizace postgraduálního studia: kvantita namísto kvality. Izolace disciplin: teritoriálně vymezená věda blokuje proud metafor a vývoj nových teorií. Teritoriální zvyky znamenají, že práce z jiné discipliny je jednoduše ignorována nebo devalvována např. jako v kontroverzi klinického a statistického přístupu. Musíme si přiznat, že pravděpodobnost nalezení opravdu nového, zajímavého teoretického vysvětlení je nízká. V důsledku toho se postgraduální studenti ani nepokoušejí budovat svou kariéru na novém objevu: „nejsem žádný Einstein“. Také pokud by byla myšlenka, hypotéza nebo teorie opravdu nová, zněla by divně („chůze je prostě ne-padání“; „stabilní objekt je jen souborem pohybů jeho částeček“) a bylo by snadné ji odmítnout. Příkladem je lékař Semmelweis (1818-1865), který objevil, proč tolik žen a dětí zemřelo v důsledku porodu. V zásadě řekl doktorům: „Za to, že ty děti zemřely, můžete vy, je to kvůli vašim nemytým rukám a nečistým nástrojům“. Taková zpráva nebývá přijímána přívětivě. Na jednu stranu existují jisté pochybnosti o kvalitě teorií, na druhou stranu existuje mnoho empirických důkazů o efektech a vztazích, které jsou pro diagnostiku významné. Protože nejsou empirické výsledky organizovány do teorie nebo rámce, snadno upadají v zapomnění a musejí být znovu objevovány. Řešením může být metastudie. Roli metaanalýzy hájí např. Rosenthal a DiMatteo (2001). Samozřejmě nabízí odhad, ale dokonce ani tyto studie nejsou konzistentní, jak dokázali Shercliffe et al. (2009). Revidovali 10 let metastudií ve vysoce hodnoceném odborném časopise (Psychological Bulletin), a poukazují na nesrovnalosti. Je 145
zkrátka obtížné definovat jednou a pro všechny platná kritéria pro zařazení výzkumu do metastudie. Nicméně pro diagnostika jsou metastudie nápomocné. Za prvé získá dobrý odhad účinku relevantních intervencí, vztahů mezi prediktorem a kritériem, možností rozhodování. Za druhé obdrží informaci o podmínkách, za jakých se dají očekávat vysoké, střední a nízké účinky a korelace. Westen et al. (2004) žádá o další zvážení experimentálního přístupu k výzkumu efektu krátkodobé terapie. Ne všechny nemoci jsou srovnatelně identifikovatelné. Pravý experiment (random control trial, RCT) je relativně úspěšný v případě identifikovatelných symptomů, např. specifických příznaků úzkosti. Jiné intervence se zaměřují na povšechnější stížnosti a narušené chování klienta. V takovém případě nebývají laboratorně navržené terapie a experimentální přístup úspěšné. Psychologové-diagnostici potřebují „…empiricky ověřené intervence a empiricky podpořené teorie změny, které mohou integrovat do empiricky poučené terapie“ (s. 658). Vytváření „dekontextualizovaných“ teorií a striktní dodržování RCT nenabídne řešení této otázky. Empirické poznatky o účincích a vztazích mezi prediktorem a kritériem mohou být ale užitečné pro formulaci doporučení. Diagnostikovi se také dostává varování, že efekty a vztahy jsou součástí určitého kontextu, tj. musí být aplikovány na specifického klienta a jeho sociální kontext. Personsová (2005) hájí takovou empiricky podpořenou strategii. Přiznává, že v reálném světě klinické praxe jsou rozumné a metodologicky doporučené protokoly zřídka dodržovány. Existuje přístup zdůrazňující formulaci případu, ve kterém se vytvářejí hypotézy o mechanismech, a ty se empiricky testují. Nejedná se o testování nulové hypotézy, ale o srovnání s předem určenou hodnotou kritéria. Shrnutí 7.3 K učebnicovým kritériím „dobré“ teorie patří logická konzistence, empirické důkazy, integrativní potenciál a přínos pro výzkum. Současně již 35 let zaznívá kritika namířená proti psychologickému teoretizování. Meehl poukazuje na slabé definice jednotek chování a situací, idiografický charakter, divergentní a komplexní příčiny chování, nelineární a dokonce náhodné vztahy mezi podmínkami a chováním. Psychologická teorie musí brát v potaz všechny tyto nepopiratelné charakteristiky lidského chování, ale v mnoha případech se musí omezit jen na část z nich. Gigerenzer tvrdí, že teorie jsou často jen náhražkami, např. jednoslovná vysvětlení (např. odhady reprezentativnost, dostupnost), „přepis“ místo vysvětlení mechanismu, např. inteligentní chování je důsledkem dispozice k inteligenci, matoucí dichotomie, např. dědičnost versus prostředí, klinické versus statistické přístupy, a orientace na data, např. užívání souboru multivariačních technik bez konceptuálního a strukturního rámce. Autoři jmenují důvody nedostatku přínosných teorií: testování nulové hypotézy, organizace doktorského studia, postoj „publikuj (kvantitu) nebo zemři“, a konzervativnost představených. Můžeme také dodat, že vytváření teorií je riskantní a obtížné. Newell vytvořil „test“ k posouzení, zda kognitivní teorie vysvětlují skutečné charakteristiky lidského chování, jako je flexibilita, adaptivnost, reálný čas, autonomie a současně omezení, vědomí sebe sama, genetický a evoluční charakter lidského poznání. Každá teorie musí vysvětlovat tyto charakteristiky a někteří autoři tvrdí, že tyto požadavky splňují (Anderson). Jako řešení různorodosti výsledků studií o vztahu mezi stejnými proměnnými a efekty podobných intervencí jsou někdy nabízeny metastudie. I když tento přístup není bez chyb, studie např. nejsou srovnatelně aplikovatelné na různé oblasti narušeného chování, nabízí představu o efektu intervencí, o robustnosti vztahů mezi prediktorem a kritériem a zvyšují citlivost pro kontextualizaci těchto výsledků. 7.4 Kvalita vytváření teorií: individuální rozdíly Na počátku tvorby explicitních teorií o individuálních rozdílech v typickém chování stála hierarchická Eysenckova teorie a šestnáct rysů rozlišených Cattellem (osobnostní faktory 146
16PF). V obou případech existuje koncepční vztah mezi teorií a nástroji. Hierarchická povaha Eysenckova osobnostního dotazníku sestávajícího z typů, rysů, zvyků a situačně specifických odpovědí je částečně potvrzena. Cattellova teorie 16PF se stala kořistí Big Five, který si také vypůjčil jeho lexikální hypotézy a jeho struktura je spjata s výsledky faktorové analýzy. Eysenckův přístup vykazuje konzistenci, ale spojení s biologickými proměnnými je slabé a není důkladně přezkoumáno. Existují empirické důkazy, tj. signifikatní korelace, pro predikci relevantních kritérií, ale jsou slabé. Eysenckova teorie byla po krátké období přínosná pro výzkum, ten ale prováděla hlavně jeho skupina, ale dnes je spíše zastaralá a v důsledku toho nepříliš často diagnostiky využívaná. Teorie spojená s jednou dominantní osobou často nepřežije odchod svého zakladatele. Eysenckův syn Michael udržuje otcovo dědictví živé jako editor časopisu „Personality and Individual Differences“. Je to flexibilní teorie na základní úrovni situačně specifických odpovědí a zvyků. Nijak se nezabývá vývojem, stabilita je teoreticky očekávána a zdůrazňuje se genetický základ. Teorii nelze snadno přizpůsobit idiografickému popisu; není „personalizovanou“ teorií, tj. teorií o vztahu člověka k sobě, o jeho myšlenkách, pocitech a emocích. Výzkum není založen pouze na datech, multivariační analýza byla zvolena k testování očekávané struktury. Stručně řečeno, teorie splňuje mnohá z kritérií, ale má jen mírný prediktivní a výkladový potenciál a vytrácí se z kolektivní paměti psychologie. Cattellem navržená struktura šestnácti osobnostních faktorů není explicitně testována: typy rysů a spojení s výsledky faktorové analýzy zdroje nejsou často zkoumány, a pokud ano, jen Cattellovou výzkumnou skupinou. Po jeho smrti výzkum catellovské psychologie, jak svou práci nazýval, upadal. Prediktivní hodnota je slabá. V zásadě se jedná o flexibilní teorii, protože zahrnuje interakce rysů v situacích. Protože se jedná o rysovou teorii, stabilita je očekávána a kontrolována, vývoj teorie nesleduje. Není zvláště vhodná k aplikaci na individuální úrovni, ale Cattell se rozhodně pokoušel o predikci kritérií pro skupiny, např. mzdy u prodavačů. Navzdory těmto charakteristikám není Cattellova teorie u diagnostiků oblíbená a dotazník 16PF je využíván zřídka. Obě teorie se tváří jako validní napříč kulturami, to ale nebylo zevrubnějí zkoumáno, protože otázka srovnání osobnostní struktury mezi kulturami nebyla v dané době zajímavým tématem. Ani jedna z obou teorií nepoužívá jednoslovná vysvětlení, žádné „přepisy“ (i když biologické vysvětlení nebylo plně propracováno a nebylo ani úspěšné), nepoužívají jednoduché dichotomie a nelze ani říci, že by se pouze přizpůsobovaly datům. V rámci kritérií vykazují klasické rysové teorie dostatečnou kvalitu. Nepřinášejí ale žádný inspirativní výzkumný program a přežívají jen v dalších teoriích osobnosti a dotaznících. Teorie se zabývaly otázkou vztahu rysů, kterých je velké množství a jsou dosti abstraktní a racionální, protože nejsou výsledkem faktorové analýzy dat z velkých výběrových souborů. Vysvětlení lexikální a biologickou hypotézou je inspirující a stále je rozpracováváno, ale nikoli jako dědictví těchto teorií, ale v důsledku renesance rysů v Big Five. Pro diagnostiku není ani jedna z těchto teorií zásadní a související dotazníky vykazují jen mírnou korelaci s kritérii. Podobnou historii mají individuální rozdíly v inteligenci a schopnostech. Spearmanova dvoufaktorová teorie „inteligence“ (sám autor se používat pojem „inteligence“ zdráhal) je logicky konzistentní, pro dva faktory používané v položkách existují empirické důkazy a na určitou dobu dokázala sjednotit uvažování o inteligenci. Pro výzkum byla přínosná, výzkumy pokoušející se definovat g-faktor za použití např. elementárních kognitivních úkolů probíhají již velmi dlouho. Pro diagnostika je tato teorie užitečná. Udává skór IQ odkazující na celkovou kapacitu. Mnoho pozdějších koncepčních analýz a nástrojů vykazuje silný první faktor. 147
I inteligenci a schopnosti lze ale diferencovat, jak ukázali Thurstone a Guilford. Nejsou nezbytně protichůdná pozdějším rozpracováním Carrolla (inteligence) a Horn (schopnosti), kteří navrhují hierarchické teorie, jejichž platnost dokládají výsledky vhodných analýz. Nebudeme rozdíly v rámci psychometrických testů inteligence a schopností zdůrazňovat, tj. kapacity je možné diferencovat. Kritéria Meehla, Newella a Gigerenzera jsou využívána pro sledování kvality. Různorodé jednotky inteligence, jako jsou položky, elementární kognitivní úkoly, měření reakčních časů, a dokonce použití výsledků EEG ukazují, že zde neexistuje shoda o jednotkách. Úrovně měření jsou propracovány dobře, za použití IRT. Kauzalita, tj. interpretace příčin individuálních rozdílů, není vyřešena, zřejmě je kladena nesprávná otázka; je to jeden či více latentních rysů, jaký je relativní podíl dědičnosti versus prostředí, a v rámci výchovy hrají prim rodiče nebo vrstevníci? Zřejmě v důsledku moderní teorie testů (jednodimenzionální latentní rysy) panuje zdrženlivost v identifikaci vícenásobných příčin. Náhodné vlivy jsou odmítány a jednoduše nazývány chybami nebo nevysvětleným rozptylem. V inteligenci jako individuálně odlišné charakteristice je flexibilita součástí Hornovy a Cattellovy koncepce fluidní inteligence, ale v jiných teoriích není zahrnuta vůbec. Adaptabilita je klíčovou ideou a učení ze zkušeností je součást schopností. Inteligence je vnímána jako více či méně daná a přítomná vlastnost. Geneze a evoluce nejsou ústředními tématy; vývojem lidí jako živočichů obdařených vědomím a rozumem se teorie příliš nezabývají. Vlivem moderní testové teorie jsou preferována jednoslovná vysvětlení: jeden a jediný latentní rys, jedno a jediné měření vodivosti nervů atd., ale pro praktika toto hraje jen minoritní úlohu. Matoucí dichotomie dědičnost versus prostředí je nahrazena komplexními modely a mnoha zdroji rozptylu individuálních rozdílů. Riziko „přepisu“ je přítomno jedině, pokud je inteligence vnímána jako dispozice, ale pro interpretaci a vysvětlení jsou používány další a jiné jednotky. Spearman, Thurstone nebo Guilford nemohou být obviněni z přizpůsobování se datům, ale někdy je obtížné rozlišit mezi teorií a testováním teorie multivariačními technikami, např. v Carrollově faktorové analýze mnoha testů dostupných v 90. letech 20. století. Obecně mají všechny teorie podle Cohenova kritéria „dobrou“ prediktivní validitu. Pro diagnostiky jsou teorie inteligence a zejména spolehlivé a validní měřící nástroje důležitou součástí vybavení. Ve světle daných kritérií vykazují teorie inteligence a schopností uspokojivou kvalitu a představují užitečný nástroj pro predikci a výběr. Limity jsou ale také jasně dané, protože celkový rozptyl není nikdy vysvětlen, korelace jsou definovány pro výběr a konkrétní klient se může od obecně stanovené regresní linie lišit. Zjistit, zda hodnoty, uvedené v testovém manuálu, zapadají do životního kontextu jeho konkrétního klienta, je úkolem diagnostika Individuální rozdíly ve výkonnosti jsou téměř výhradně doménou teorie testů (SAT – testy používané v rámci přijímacího řízení na vysoké školy v USA), a v důsledku toho teorie výkonnosti v mnoha dalších oblastech není středem zájmu. Shrnutí 7.4 Teorie individuálních rozdílů v typickém chování jednotlivců jsme si představili na příkladech Eysenckova a Cattellova přístupu. V obou případech se jedná o teoreticky konzistentní příspěvky a existují i určité empirické důkazy předpokladů odvozených z těchto teorií. Integrují výzkum osobnosti, a – i když jen na krátké období – inspirovaly i další výzkum. Příslušné metody jsou používány dosud, ale ne ve své původní podobě. Eysenck vytvořil hierarchii elementů, Cattell dichotomii mezi pramennými a povrchovými rysy a připojil i vliv situace. Ani jedna z teorií není „personalizovaná“, tj. nemluví o vztahu jednotlivce k sobě samému. Kauzalita je postavena na biochemické bázi, na evoluční historii 148
a jazyce (lexikální hypotéza). To ale není ve výzkumech Eysencka, respektive Cattella dobře prozkoumáno a jedná se o obtížně ověřitelné předpoklady. Rysy jsou flexibilní, protože na nižších úrovních jsou spojené s prostředím, adaptivní, ale není zde brán zřetel na vývoj. Teorie neobsahují žádná jednoslovná vysvětlení, je zde určité riziko „přepisu“, ale ne podřízení datům. Kvalita je vzhledem ke zvoleným kritériím hodnocena jako dostatečná. Pro diagnostiky jsou přínosné zejména současné verze nástrojů, jejich prediktivní hodnota je však relativně nízká a výsledky bývají přeceňovány. Individuálními rozdíly v inteligenci a schopnostech se zabývali např. Spearman, Thurstone a Guilford, jejich teorie doplňuje i Hornova koncepce Gf a Gc13. Teorie inteligence a schopností jsou konzistentní, empiricky prokázané, sjednotily diskusi o inteligenci a diagnostici je využívají ve velkém rozsahu. Diskuse o elementech není dosud uspokojivě uzavřena, stejně jako debata o příčinách individuálních rozdílů (jeden či více latentních rysů, rychlost přenosu vzruchu atd.). Neexistuje debata o zúčastněných náhodných faktorech a kulturní rozdíly nebyly ve 30. až 60. letech 20. století zajímavým tématem. Flexibilitu zahrnuje Hornův a Cattellův faktor Gf, vývojem se teorie nezabývají, a schopnosti zahrnují učení ze zkušenosti. Nejsou zde jednoslovná vysvětlení, ani „přepisy“ ale je zde riziko dispozičních vysvětlení vzhledem k použití testu nebo jednoduché dichotomii dědičnostprostředí a přizpůsobení datům. Autoři původních teorií se těchto rizik dokázali vyvarovat. Pro diagnostiky jsou teorie a nástroje užitečné a prediktivní validita podle Cohenových doporučení je dobrá, ale nikoli dokonalá, tj. jednotliví klienti se budou vždy odlišovat od regresní linie popsané v metastudích. Otázka výkonu je řešena prakticky výhradně v rámci teorie testů (např. Scholastic Achievement Tests – SAT), ale existuje i samostatná teorie o dosahování základních a komplexních schopností a dovedností. 7.5 Kvalita teorií: vývoj Vývoj člověka popisují hlavně „slabé“ vývojové teorie Eriksona a Loevingerové. Pro existenci a pořadí osmi Eriksonových stadií nejsou empirické důkazy, Eriksonova teorie ale dokázala integrovat výzkum adolescence a dospělosti a je přínosná pro výzkum v některých oblastech života (např. „identity“ a „závazku“), nebo určitých úseků životního cyklu (např. vysokého stáří). Diagnostici některé pojmy užívají k popisu klientů. Elementy chování nejsou jasně popsány v operacionalizovaných termínech; v tomto smyslu bylo později podrobněji rozpracováno pojetí identity. Přechody mezi stadii životního cyklu jsou podle této teorie způsobeny konflikty – ty jsou hlavní hybnou silou takových přechodů.. Jedná se o „personalizovanou“ teorii: člověk je flexibilní, učí se ze zkušenosti, záleží na něm samotném, zrání a vývoj jsou možné za určitých podmínek. Mechanismus prostupování jednotlivými stadii není jednoslovným vysvětlením, na vývoji se podílí jak vnitřní, tak vnější vlivy a teorie se nepřizpůsobuje datům, protože ani není vhodná pro analýzu za pomoci standardních multivariačních technik. Diagnostikům nabízí zajímavé koncepty, ale pro většinu stadií chybí data a nejsou známy ani korelace mezi prediktory a kritérii. Kvalita je hodnocena jako nízká a pro části bez výzkumných důkazů jako nedostatečná. Součástí teorie je sled dobře řazených a zajímavě popsaných myšlenek o stadiích a konfliktech, kterými člověk v průběhu času může procházet. Loevingerová vytvořila teorii stadií vývoje ega ve čtyřech oblastech. Vytvořila nástroj (Nedokončené věty), který umožňuje definovat vývojové stadium člověka. Stanovení stadia má své důsledky, např. intervence musí být přiměřená pro dané stadium, aby přinesla užitek. Jedná se o logicky konzistentní teorii, ale posloupnost stadií není dána logicky, ale přirozeně, a může být empiricky zkoumána. Její výzkum neintegruje jiné práce a zůstal relativně osamocen od dalších výzkumů osobnostního vývoje, nebyl následován dalším výzkumem. Zdá se být „teorií jedné ženy“. Jednotkami chování jsou slovní vyjádření, která mají být interpretována a přiřazena k určitému stadiu, tj. kategorizována. Kategorie musí být řazeny jednoznačným způsobem a to je i empiricky ověřováno. Vysvětlení jsou srovnatelná s Eriksonovými. Diagnostici zřídka užívají doplňování vět k zhodnocení vývojového stadia Ega, 13
fluidní (spíše vrozená) a krystalická (kulturou a zkušeností ovlivněná) inteligence – pozn. překl. 149
částečně v důsledku časové náročnosti, ale také proto, že je tato metoda považována za projektivní. Teorie nabízí určité předpoklady, např. o vztahu stadií k inteligenci. I když je strukturovaná a aplikovatelná do čtyř oblastí chování, uspokojivý empirický výzkum chybí. Sama o sobě je hodnocena jako nedostatečná, ale svým způsobem užitečná: diagnostik může využít doplňování vět, test umožňuje spolehlivě přiřadit dané vývojové stadium, ale co to znamená a jak to souvisí s kritériem, např. úrovní zralosti, není dostatečně empiricky prošetřeno. Vývoj inteligence a kognitivních procesů je popsán v Piagetově „silné“ „organismické“ teorii. Je propracována pro mnoho oblastí, od řeči po aritmetiku, fyzikální koncepty, vhled do otázek pravděpodobnosti, zaujímání stanoviska, morální uvažování, experimentování atd. Popisuje vývoj dítěte od narození asi do 18 let. Její široká aplikovatelnost podstupuje stejné riziko jako evoluční teorie, lze ji aplikovat univerzálně na cokoli. Je logicky konzistentní. Zahrnuje poznatky mnoha oborů od biologie po logiku. Podporují ji mnohé výzkumy, napadána je ale metoda. Piaget odmítal faktorovou analýzu, rozhovory s dětmi prováděl podle své „klinické metody“ a prováděl malé experimenty. Má jistě integrativní potenciál, tj. pokrývá různé oblasti, interpretuje výsledky jiných studií. Byla užitečná pro výzkum: v Americe byly prováděny dlouhodobé studie nácviku k urychlení vývoje zejména od předoperačního stadia ke konkrétním operacím. Teorie se uplatňuje ve vzdělávání od jazyka po vědu a podporu sociálního a emočního vývoje. Zahrnuje mnoho různých elementů od reflexů, popisu raného kognitivního vývoje, k matematickým a logickým strukturám, které slouží popisu myšlení odpovídajícího stadiu formálních operací. Teorie se nezaměřuje na jednotlivce, ale na epistemický subjekt, tj. na člověka jako poznávající bytost. Kauzalita vychází zevnitř, ale je vždy spojena s učícím prostředím. U svých vlastních dětí Piaget poukázal na rozdílnou rychlost průchodu senzomotorickým vývojovým stadiem. Účinky prostředí (vlivů zamýšlených i náhodných) jsou poněkud podceňovány. Byly provedeny mezikulturní výzkumy k prokázání univerzálnosti stadií kognitivního vývoje. Newellova kritéria flexibility, adaptace, vývoje a evoluce a rostoucí autonomie (učení od ostatních lidí, fenoménů a událostí ve vnějším světě) jsou splněna a učení ze zkušenosti bylo podle Piageta v jistých kognitivních úrovních jediné možné. Nejsou zde žádná jednoslovná vysvětlení, stadia jsou definována v abstraktních termínech, není zde žádná jednoduchá dichotomie organismus versus prostředí, i když pozdější interpretace někdy tuto kontroverzi vytvářely, a neobjevuje se ani přizpůsobování dat pomocí multivariačních technik. Někteří autoři však Piagetovi vyčítají nedostatečně objektivní interpretaci odpovědí dětí a jejich chování v experimentech.
Demetriou et al. kombinují Piagetovu teorii s teorií mnohonásobných individuálních rozdílů inteligence. Case spojuje kognitivní struktury podle Piageta s rostoucí kapacitou pro zpracování informací. Protože splňuje většinu kritérií, může být kognitivní vývojová teorie hodnocena jako uspokojivá. Stále je přínosnou teorií vysvětlující kognitivní vývoj, ale už není významněji prezentována v odborných časopisech. Možnost praktického využití k predikci požadovaného chování je slabá. Piagetův program pokračoval po jeho smrti jen v malém rozsahu, neměl žádného významného následovníka. Teorie také nezapadá dobře do pragmatické tradice predikce, kontroly a rozhodování a postrádá i zábavnou hodnotu, jakou mají například rysy osobnosti podle Big Five. Klinický, interpretativní, hermeneutický přístup a Piagetovy abstraktně logické matematické struktury nejsou populární. Vyžadují od vědce velký objem vědomostí i kreativity a snadno mu hrozí obvinění ze subjektivity. Subjektivita se zdá být v současném výzkumu a teoriích chování smrtelným hříchem, ale to se může v budoucnu změnit. Ve Spojených státech byla Piagetova teorie představena v 60. letech a zmizela ze scény kolem roku 1995. Co se stane, když tato teorie zaujme čínské, indické, indonéské nebo africké psychology? Nebo je jim příliš kulturně vzdálená? Bude, jako dnes, americký ekonomický neoliberalismus a vědecký pragmatismus/empirismus dále ovlivňovat tyto nové ekonomiky, a v důsledku toho i jejich vědecké komunity, protože psychologie se obvykle ubírá tam, kam jdou peníze? Shrnutí 7.5 Eriksonova vývojová teorie osobnosti zahrnuje osm vývojových stadií, jejichž posloupnost není empiricky potvrzena. Obsahuje pro diagnostika užitečné koncepty jako stavy identity a formulovala podmínky pro růst a přechod do dalších stadií. Neexistuje výzkum, který by ji potvrdil nebo vyvrátil. Tato část teorie je tedy hodnocena jako neuspokojivá. Stadia identity jsou uspokojivě empiricky 150
prozkoumána. Existují nástroje k určení statutu identity u adolescenta. Tato část je pro diagnostiky užitečná, a je uspokojivé kvality. Slabá teorie Loevingerové o vývoji Ega rozlišuje sedm stadií ve čtyřech oblastech. Existují studie zkoumající jejich pořadí a je dostupný i nástroj k posouzení dosaženého stadia u určitého jednotlivce. Hypotézy odvozené z teorie, že pro dosažení účinku intervence je potřebné určitá úroveň, téměř nebyly testovány; vztah k inteligencí je prozkoumán a výsledky odpovídají předpokladům. Výzkum podporující tuto teorii jako celek však není dostačující. Vývoj inteligence a poznávacích procesů je popsán v Piagetově teorii. Teorie je konzistentní, je široce použitelná, pro výzkum přínosná a obsahuje mnoho originálních položek a zajímavých malých experimentů. Existuje několik výzkumů sledu stadií a řada výzkumů urychlení přechodu mezi stadii. Teorie splňuje mnoho kritérií, je spojena s teorií individuálních rozdílů a zpracování informací a její kvalita je hodnocena jako dostatečná. Protože nepoužívá žádné multivariační techniky a získané odpovědi a jednání dětí od narození do 18 let jsou interpretovány spíše než empiricky testovány, není v centru pozornosti výzkumného mainstreamu. Teorie se primárně neorientuje na predikci, kontrolu a rozhodování o výkonu, ale na popis epistemického subjektu. Částečně je teorií „jednoho muže“. Po Piagetově smrti ubývá empirických výzkumů, ale to se může změnit, pokud Piagetova kognitivní vývojová teorie a její rozpracování od Case a Demetriou vzbudí pozornost i v jiných kulturách.
7.6 Kvalita teorií: Sociální kontext klienta Utváření teorií o sociálním prostředí spočívá ve věrohodné formulaci souvislostí mezi kategoriemi a v definování různých charakteristik prostředí. Práce Bronfenbrennera či Magnussona a Stattina neobsahují žádné empirické důkazy a nejsou inspirativní pro výzkum, přináší příliš mnoho komplexních jednotek (mikro-, mezo-, a makroprostředí), nedisponují nástroji měření, a i když uznávají multikauzalitu, neobsahují žádné vyjádření o vývoji a evoluci. To vede k závěru, že jejich články jsou jen počátkem mapování prostředí, nikoli teorií o sociálním a fyzickém kontextu. Na konkrétní empirické úrovni jsou specifické situace a sociální kontexty popsány, např. individuální rozdíly a vývoj rodin, vrstevnických skupin, škol, komunit atd. Neexistuje specifická teorie a obvykle se předpokládá adaptace na sociální kontext. Sociální kontexty jsou charakterizovány zařazením do kategorií nebo umístěním na dimenze, které jsou definovány intuitivně a podpořeny exploračními multivariačními technikami, jako je faktorová analýza nebo hierarchická klastrová analýza. To může být počátkem teorie, protože induktivní (bottom-up) procedura k nalezení jádrových elementů sociálních kontextů může vyústit do formulace teoretického konstruktu. Zdá se, že musí být odvedeno ještě mnoho teoretické práce a pomoci by mohlo nahlédnutí k sociologům nebo kulturním antropologům. Vytváření teorií o vývoji sociálního kontextu a o jeho vztahu k dalším širším či užším kontextům je vzácné. Svůj vliv prokázala behavioristická definice stimulů jako posilujících činitelů, její rozpracování v díle Rottera nebo Bandury a spojení s kognitivním posouzením klientů činí z neobehavioristických teorií relativně komplexní, ale úspěšné příspěvky. Shrnutí 7.6 Vytvoření teorie o sociálním kontextu je teprve v zárodku. První kroky byly učiněny v rámci kategorizace propojených prostředí. Empirický výzkum umožnil rozlišit kategorie a dimenze v kontextu rodin, skupin vrstevníků, škol, sousedských komunit atd. Také pomohl nalézt pomocí exploračních multivariačních technik jádrové dimenze individuálních rozdílů mezi rodinami, vrstevnickými skupinami, školami atd. Vývoj a vztah několika kontextů není v teoriích zahrnut. Klasický behaviorismus je limitovaná, ale použitelná a úspěšná teorie. Rozpracování v dílech Rottera a Bandury budou mít pravděpodobně stejný osud jako již zmíněné teorie rysů a kognitivní vývojové teorie.
151
7.7 Kvalita operacionalizace a měření Pro „přijatelné, dobré“ operacionalizace potřebujeme teorii se souborem konstruktů a definovaných vztahů, ale také štěstí při hledání zajímavého chování reflektujícího tyto konstrukty. Operacionalizace je nezbytná, protože kromě koncepční analýzy potřebujeme i přiměřené konkrétní chování, které můžeme pozorovat. Musíme přijmout fakt, že teoretický konstrukt není nikdy dokonale pokryt, a je otázka, zda je to vůbec nutné. Můžeme se ale zaměřit na zajímavé a relevantní projevy, jako je inteligence, agrese, extraverze, plachost apod. Moderní teorie testů se tomuto kroku v měření vyhýbá zaměřením na strukturu testu či položek dotazníku, tj. jaký druh kategorie, škály nebo souboru škál definuje testové odpovědi. Měření zahrnuje kategorie a (vícenásobné) škály různých úrovní měření: ordinální, intervalové a poměrové. V psychologii jsou užitečné pořadové škály, ale uvažování o chování jako o pořadové nebo intervalové škále se na výsledku příliš neprojeví. Doménou teorie testů se stala kategorizace, škálování a objevování množství škál a faktorů, potřebných k popisu rozdílů v chování ve výběru, ale je možno použít jakékoli další multivariační techniky. Modely pro experimentální výzkum jsou založeny na principech analýzy rozptylu, vypracované Sirem Ronaldem Fisherem (viz Kirk, 1968). O kritice testování nulové hypotézy jako součásti (kvazi)experimentálního designu jsme pojednali již dříve. Teorie testů včetně dalších statistických modelů ani analýza rozptylu nejsou považovány za pouhý soubor technik užívaných ke skórování položek. Totéž platí o postupech, které mají prokázat. že nezávislá proměnná je příčinou změny proměnné závislé. Jsou také modely či reprezentacemi pro chování. Obdobně otázka kvality měření není otázkou matematických a statistických vlastností korelační a experimentální analýzy. Není nic špatného na matematice v oblasti měření. Centrálním tématem je vztah mezi testovou teorií a experimentováním a psychologickou teorií, jejíž význam je zásadní. Jak bylo řečeno v kapitole 2, podle psychometriků je moderní teorie testů nadřazená klasické teorii. Své sofistikované metody popisují jako něco, co je částečně v předstihu před substantivními (mini)teoriemi. Seznámíme se tedy s některými komentáři teoretiků k psychometrickým metodám a psychometrikům se zřetelem ke konceptům validity. Níže budou uvedeny tři důležitá témata k diskusi. Nejprve si popíšeme tento problematický vztah a jeho historii, poté bude na základě eseje prodiskutován současný stav věcí, nakonec se zmíníme o článku (Van der Maas et al., 2011), který se na tuto problematiku zaměřuje a přináší nadějnou zprávu, že je možné propojit latentní proměnné Raschových modelů s odpovídáním na položky pomocí modelu zpracování informací a získat tak substantivní (Van der Maas et al., s. 353) řešení problému měření v psychologii. V ideálním světě především existuje teorie (síť konstruktů nebo jen prázdných struktur), která vede ke specifickým predikcím, které mohou být testovány jako pravdivé či nepravdivé. V reálném světě diagnostiky je stav věcí jiný. Formování substantivních teorií podle všeho není v módě, protože výzkumníci se často omezují na testování specifických hypotéz generovaných na základě miniteorií. Specialisté na měření, tj. psychometrici a statistici, stále rozšiřují svůj repertoár sofistikovaných technik bez ohledu na potřeby diagnostiků a výzkumníků. Odborníci v praxi se pokoušejí využít jejich zjištění ponejvíce tak, že berou v úvahu reliabilitu a validitu testů a dotazníků. Jiné postupy jsou využívány jen zřídka, i když jsou proklamativně oceňovány jejich možnosti porozumět konstruování významu klientem při zodpovídání položek testů a dotazníků (viz např. Rosenbaum & Valsiner, 2011). V kapitole 3 se zaměřujeme na napětí ve vztahu mezi teoretiky, psychometriky a diagnostiky či terapeuty: Na počátku toužila nová disciplína – psychologie – po tom, aby byla vědeckou. Toho se dalo dosáhnout používáním fyziologických metod. Helmholtz spojil psychologické 152
reakce na to, co vidíme a co slyšíme s psychologickým měřením a Fechner definoval matematicky precizní vztah mezi vjemem osoby a hodnotou naměřenou u objektu nebo fenoménu přístrojově. Darwin se zaměřil na individuální rozdíly a na otázky adaptace na prostředí. Drobné rozdíly mezi rodiči a potomkem připisoval „přirozenému výběru“. Hlavními ingrediencemi vědecké psychologie bylo používání experimentálních (fyziologických) a korelačních metod (Darwin). Ty byly také v Cronbachově (1957) prezidentském proslovu k APA nazvány „dvěma vědeckými disciplínami v psychologii.“ Psychologie se také pokoušela být relevantní pro společnost. To vedlo mimo jiného k formování testového hnutí, protože školy a vojenské úřady potřebovaly nástroje pro výběr a rozmisťování. Tyto postupy určené pro velké skupiny musely být krátké a efektivní a tedy využívat jako elementy měření rysy, které jsou přítomné u všech individuí a umožňují predikci spíše než explanaci (ne)žádoucího chování. Jednotkou výzkumu se stal stabilní rys nebo faktor inteligence a osobnosti. Vědci a odborníci studovali velké skupiny a význam skóru byl determinován vztahem ke skórům ostatních, tj. jednotlivec nebyl v centru pozornosti. Úspěch a význam pro podporu společenských cílů přinesly jak radost, tak pochyby. Wissler (kapitola 1) byl již na počátku 20. století zklamán nízkou prediktivní validitou McKeen Cattellových fyziologických a psychologických měření. Binet měl při predikci větší úspěchy, ale „vysvětlený rozptyl“ zřídka dosáhl 25 %. Tento stav věcí vedl k rozvinutí dokonalejších postupů konceptuální analýzy: předmětem posuzování se stala konstruktová validita (Cronbach & Meehl, 1955), Guttman (1971) prosazoval fasetovou analýzu. Campbell a Fiske (1959) doplnili ke konstruktové validitě mnoho-rysovou mnoho-metodovou analýzu a Cronbach et al. (1970) teorii zobecnitelnosti. Společnou ideou těchto přístupů je, že výsledky testů ovlivňuje mnoho faktorů, a tyto psychologické a enviromentální proměnné je třeba odhadovat. Všechny činitele kromě „rysu“ se staly „chybou“. Přesnost měření je dnes spojena s kontrolou nad psychologickými procesy a neutralizací rušivých vlivů prostředí, jak dokládají i standardy APA (Standardy pro pedagogické a psychologické testy, 1999). Zmenšit propast mezi psychologickými teoriemi a psychometrikou a statistickým modelováním se pokusili teoretici a psychometrici Guttman a Cronbach. Pokud by uspěli, mohl by být podepsán mír mezi vědou a praxí: jedinou otázkou pro praktika by zůstalo: „Je tento nástroj, teorie, měření reliabilní, zobecnitelné, validní, a pro experimenty, je to „signifikantní“? Prediktivní validita testů a všech diagnostických postupů a velikosti účinku experimentů zůstává ale téměř 80 let na stejné úrovni (viz např. Meyer et al., 2001). To je jistě známo teoretikům, praktikům i psychometrikům. Více než čtyřicet let se také opakovaně zdůrazňuje, že aby mohlo dojít ke zlepšení, je třeba v psychologii posílit vztah mezi teorií, postupy měření a empirickými daty. Často se namítá, že substantivní teorie musejí být prozkoumány z hlediska možnosti měření. To je zbožné přání, ale psychometrici a statistici pokračují ve své práci odděleně od teoretiků, kteří v naší postmoderní době vykonávají nepopulární práci. A můžeme se ptát, zda tato spolupráce zvýší výrazně možnosti predikce a kontroly? Kvalifikovaný odhad zní: nezvýší, vzhledem k tomu, že v lidském světě existuje mnoho stupňů volnosti, od vnitřních, tedy svobody člověka jako dynamické biologické bytosti, až po vnější, tj. kolísavý fyzický a sociální kontext. Pokud bychom omezili všechny stupně volnosti, mohli bychom kontrolovat a predikovat téměř dokonale, a určovat parametry, které budeme predikovat a kontrolovat, ale to by byl „krásný nový svět14“, který si nikdo nepřeje. Vytváření teorií je riskantní, protože další výzkumníci budou namítat: „Je to jenom teorie, můžu klidně vytvořit nějaké další, stejně hodnotné teorie, kde máte empirický důkaz?“ Tento 14
Autor odkazuje na titul dystopického románu A. Huxleyho „Brave new world“, který v češtině vyšel pod názvem Konec civilizace – pozn. překl. 153
postoj snižuje šanci na vytvoření skutečně zásadní teorie, a pokud je už vytvořena, je obtížné převést ji do jazyka testové teorie a statistických modelů. To znamená, že jsme ustrnuli na mrtvém bodě a kvalita vztahu mezi modely statistického měření a substantivními teoriemi zůstává problematická. Reprezentanti obou táborů mají své odborné časopisy, jakoby říkali, že spolupracovat není potřeba. Za druhé, přimět tyto dva tábory ke spolupráci není jednoduché a lze pochybovat, zda by tato spolupráce, vzhledem ke svobodě klienta, vůbec přinesla lepší možnosti predikce, kontroly a rozhodování. Vzájemná očekávání psychometriků a statistiků na jedné straně a diagnostiků na straně druhé se nepotkávají. Ti první jakoby byli překvapení, že sofistikované modelování latentních rysů není využíváno v měření osobnosti a inteligence a následně v diagnostice. Tento stav popisuje ve svém článku Borsboom (2006). Ptá se, proč psychometrika není „integrována“ (str. 425) v psychologii. Vidí tři „překážky psychometrické revoluce“ (str. 428): první představují pravidla operacionalizace. Ta podporují myšlenku, že pozorování, které jsou popsána a mají svou kvalitu, tj. jsou zařazena do kategorií, nebo kvantitu (tj. jsou vyjádřena prostřednictvím skórů), nahrazují teoretické konstrukty. Psychometrické myšlení se od tohoto přístupu osvobodilo tím, že říká, že existuje model s formální strukturou, který je spojen s teoretickým atributem. To ukončilo debatu o relevanci, dostatečnosti nebo kompletnosti pokrytí operacionalizace teoretických atributů. Problém ale nezmizel: jakmile je struktura akceptována, protože souhlasí s daty, výsledky je třeba interpretovat: „o jaký druh teoretického atributu jde, je to extraverze, inteligence?“ Druhou překážkou je klasická teorie testů. Vyvolává problém: pravý skór je automaticky zakotven jako očekávaný skór po nekonečném počtu opakování. Neobsahuje žádnou informaci o případném vztahu jako v moderní teorii testů. Důraz na prediktivní validitu pak vede k opomíjení struktury testu. Svou hodnotu konstruktu projevuje korelací s dalším konstruktem, který podle moderní teorie testů rovněž není „měřen“. To znamená, že měříte „něco“ s neznámou strukturou srovnáváním s dalším „něčím“ s neznámou strukturou. Předmětem zájmu není vysvětlit povahu a formu vztahu mezi teoretickým atributem a jeho domnělým měřením. V důsledku toho neexistují hypotézy o povaze atributu, např. je spojitý nebo kategorický, je jedno- nebo vícedimenzionální? Autoři připouštějí, že tvůrce testu nebo výzkumník musí rozumět problému nezbytného propojení struktury teoretického atributu s pozorováním. Pokud ne, moderní teorie testů by byla jen bláznivý matematický cirkus. Bude se držet své myšlenky, že teoretické atributy mohou být zaměněny s předpokládanými testovými skóry získanými z odpovědí na položku. Pokud se výzkumník zajímá o vztah mezi pozorováním (skóry položek) a teoretickým atributem a zjistí například, že Raschův model s jedním parametrem je přiměřený, může vypočítat souhrnný index. To je vážený součet položek. Položky mají různou váhu vzhledem k strmosti charakteristické křivky položky. Tento součet se vztahuje ke kritériu a obvykle se ukazuje, že neexistuje téměř žádný rozdíl mezi skórováním podle klasické a moderní teorie. Nyní se diagnostik zeptá: „Jaký je tedy přínos?“ a odpovídá si, „moc velký ne“. Za třetí, podle Borsbooma populární koncept konstruktové validity (Cronbach a Meehl, Messick) věci ještě dále komplikuje a zhoršuje, protože podle tohoto principu člověk ví, co test měří, pokud se vztahuje k mnoha dalším konstruktům – o kterých ovšem také nevíme, jaká je jejich podstata. Dá se říci, že konstruktová validizace nikdy nekončí. Autoři také referují o moderní výzkumné kultuře a o nedostatečné reprezentaci psychometrických modelů v software, např. v SPSS. Přiznávají, že psychometrické modely jsou normativní a často vnímané jako přítěž. Nejsou považovány za příležitost k lepšímu porozumění teoretickým atributům. Obviňovány jsou i samotné teorie: nejsou dost silné, aby motivovaly k vytváření struktury (moderních) psychometrických modelů. Reakcí Kanea (2006) na tento argument je, že psychometrici by se zřejmě měli mimo jiné více věnovat popisným a metodologickým problémům v různých oblastech psychologie a 154
poznat problémy a cíle psychologů. Sijtsma (2006) nesouhlasí s myšlenkou „revoluce“: pokud by vládu převzala psychometrika, pravděpodobně by to vedlo jen k opakování výzkumu v psychologii osobnosti a kognitivní psychologii v nejlepší tradici těchto odvětví. Kvalita operacionalizace a měření a jejich vztah k teorii je nevyřešené, ale podnětné téma. Moderní teorie testů obchází otázku operacionalizace zdůrazňováním teoretického atributu a modelu měření, ale někdo musí napsat položky a vymyslet úkoly, a právě to je podstatou operacionalizace. Klasická teorie testů činí totéž tím, že určuje latentní rys jako výsledek předpokládaný při mnoha opakováních. Jak teoretikové, tak psychometrici se podle všeho vyhýbají popisnému teoretizování. Pokud se vrátíme k rozlišení „produkt – služba“ z kapitoly o kvalitě, můžeme říci, že Sijtsma a Kane vnímají IRT také jako „službu“. Borsboom zdůrazňuje IRT jako „produkt“, který musí být prodán a je překvapený, že se sám neprodává. Vztah mezi psychometriky, teoretiky a praktiky nelze vyřešit empiricky. Řešení je společenské: profesionálové z oboru psychologie spolupracující v „kritickém dialogu“. Existují ale i pokusy integrovat popisné teorie psychologických procesů a psychometriku (modelování latentních proměnných). Výše jsme se zamýšleli na tím, že sjednocení nenastane. Máme teď toto tvrzení popřít? Van der Maas et al. (2011) sepsali souhrnný článek, ve kterém propojují teorii zpracování informací, souhlas s výroky o osobnosti a postojích v dotazníkových položkách a správnou odpověď na položku ve výkonovém testu. Výchozím bodem je IRT, např. dvouparametrový model, podle kterého je pravděpodobnost správné nebo souhlasné odpovědi funkcí rozdílu mezi schopností osobnosti (theta) a obtížností položky (beta), vážený diskriminací položky (alfa), tj. jak dobře položka rozlišuje mezi rozdíly ve schopnostech. Raschův původní model měl jeden parametr, protože položky v něm měly mít stejnou váhu. Souhlas s výrokem nebo výběr odpovědi na otázku v testu předpokládá rozhodnutí. Rozhodnutí je učiněno jako poslední nabídka po postupném zpracování různých informací. Nabídka je učiněna, pokud důkaz o jedné z možností odpovědí překoná práh. Popis toho, co se děje, poskytuje model difúze. Jde o model postupného výběru, který probíhá jako náhodná procházka ve spojitém prostoru času a sledovaných stavů. Náhodná procházka, jako chůze opilce, je tedy nepredikovatelná. Tento model je populární, protože splňuje sekvenční test pravděpodobnostního poměru. Model optimalizuje předpokládanou přesnost vzhledem k reakčnímu času, nebo naopak optimalizuje reakční čas vzhledem ke stupni přesnosti, protože předpokládá inverzní vztah mezi rychlostí a správností. Psychologický proces umožňující odpovědi je difúzní proces o určitém průběhu (s přechody mezi kategoriemi odpovídání) a koncovým bodem. U osoby odpovídající na položku je přechod mezi kategoriemi odpovídání funkcí vlastnosti osoby a charakteristiky položky. Pokud předpokládáme lineární vztah, pak je tento průměrný přechod roven rozdílu hodnot vlastnosti osoby a obtížnosti položky. Autoři aplikují tento výklad difúze na IRT modely pro testování schopností. Pokud je reakční čas nulový, přesnost bude na úrovni náhody. Člověk musí mít vysokou úroveň schopnosti, aby mohl odpovědět správně v krátkém čase, a v krátkém čase budou odpovídat lidé s vyšší úrovní schopnosti než je obtížnost. Z toho vyplývá interpretování schopnosti na základě modelu procesu s četností přechodů mezi kategoriemi, která je vždy pozitivní a šance správné odpovědi se zvyšuje s delším reakčním časem. Podle tohoto modelu může člověk zodpovědět nakonec jakýkoli problém správně, pokud není omezen časem. Autoři ilustrují sílu modelu na šachu a na úkolech s mentální rotací. „Black-box“ mezi cílovým atributem (formálně představovaný jako IRT model) a odpovědí na úkol je teď vyplněna psychologickými mechanismy popsanými na základě difúzního modelu. Článek propracovává několik zajímavých důsledků, např. rozdíl mezi testy schopností a testy osobnosti a postojů, vzhledem k tomu, že difúzní model zapracovává reakční čas. Reakční 155
čas nebo čas na rozhodnutí je opravdu rozdílný pro nejobtížnější performační úkol oproti typickému. Testovaným subjektům poskytujeme instrukci, aby „typické“ položky zodpovídali rychle, bez uvažování: „váš první dojem je správný“. Pokud je inverzní vztah mezi správností a rychlostí realistický, přináší u testů schopností rozdíl v reakčních časech důsledky. Jejich nový IRT model také přináší škály s přirozenými nulovými hodnotami: nepřítomnostmi schopnosti. To má důsledky pro měření vlastností škál, teď můžeme přijmout přirozený nulový bod pro schopnosti. Článek uvádí do souvislosti latentní proměnné a zpracování informací. Obsahem je stále položka jako mikroprojev. Proces je difúzní model zdůrazňující dva parametry procesu odpovídání. Odpovědi na položku jsou pravděpodobně vnímány jako stavební kameny pro komplexnější chování. Diagnostikovi může tato informace posloužit jako vodítko k lepšímu porozumění procesům umožňujícím zodpovědět položku týkající se schopností, nemá ale žádné praktické využití. Nenabízí žádné nové skóry dodané k existujícím testům schopností, které by umožnily nový pohled na schopnosti a lepší predikci a rozhodování. Výsledkem článku také pravděpodobně nebudou nové a lepší testy schopností, osobnosti a postojů. Obsahuje vlastně jen doplňkovou interpretaci odpovědi na typické a maximální performační položky. Tato diskuse je akademická a teoretická. Dokonce ani začátek dialogu mezi měřením, modely a věcnou behaviorální teorií autorů Van der Maas et al. nebude zřejmě mít žádný efekt pro praktické diagnostiky, dokud moderní testová teorie nepomůže vytvářet lepší testy a dotazníky a neposkytne lepší vhled do struktury chování a faktorů, které je zapříčiňují. Bude to pravděpodobně dlouhá cesta. Dále budeme také hovořit o tom, že pokusy využít modely zpracování informací a psychometrické modelování na inteligenční procesy zatím nenabízí výhody pro diagnostiku inteligence. Stručně řečeno, podle výše uvedených kritérií kvality jsou operacionalizace a měření konzistentní, mají vliv na výzkum a jsou často využívanými postupy. Existuje zde jednostranná a limitovaná jednotka: (latentní) rysy. Ve výzkumu inteligence bylo více elementárních jednotek a je možno definovat další smysluplné jednotky: mody odpovědí (kognice, afekt, chování, ne jen položky), stavy, situace, podmínky, trvání atd. (Meier, 1994). Měření se zaměřuje na skupiny. Není zde příliš místo pro divergentní kauzalitu a reálně se objevující náhodné efekty jsou definovány jako chyba, vývoj není součástí psychometriky, ve které dominuje stabilita rysů. Riziko „přepisu“ není hypotetické, vzhledem k latentnímu rysu jako jádrové jednotce, i pokud je prázdnou strukturou, jako například jednoparametrový Raschův model. Diskuse mezi psychometriky, teoretiky a praktiky není jen slabostí sociálních věd. Je také vyjádřením dynamického vědeckého pohybu. Nikdy neustane a pokud se budou tyto tři skupiny vzájemně hlídat, a dívat se „přes plot k sousedům“, možnosti a omezení diagnostiky klienta za použití testů a dotazníků se vyjasní. Shrnutí 7.7 Operacionalizace je pokusem empiricky pokrýt jádrové prvky teoretických konstruktů. Nikdy nebude dokonale úspěšná, ale teoretický a praktický rámec, štěstí a náhoda mohou pomoci. Problém obsahu konstruktů obchází moderní teorie testů (IRT) zdůrazňováním struktury kategorií, škál a množství a vztahu dimenzí. Měření nabízí kategorie, škály a množství faktorů. Teorie testů se stala dominantní v analyzování vlastností testů, dotazníků a dalších diagnostických postupů. Vedle CTT a IRT může být v tomto korelačním výzkumu použita každá multivariační technika. Zastoupení kategorie je definováno kritériem, rozdíl mezi pořadovými a intervalovými škálami není velký a počet faktorů a dimenzí je otázkou, kterou musí zodpovědět teorie. Teorie testů, další statistické modely a experimentální designy (ANOVA) splňují svá vlastní vnitřní kritéria kvality. 156
Kritickou otázkou je vztah substantivní teorie a operacionalizace a měření. Popisné teoretizování není v postmoderní éře populární a je riskantní. Historické pokusy Cronbacha, Meehla a Messicka (konstruktová validita) a Guttmana (fasetová analýza) spojit obsah a metodu jsou vnímány jako vágní („konstruktová validizace nikdy nekončí“) a zřídka využívány (málokdy se setkáme s fasetovou analýzou). Vedle úsilí o vědeckost (experimentální a psychometrické metody) se praktičtí psychologové snaží o společenskou relevanci. To vedlo k predikci důležitých a zajímavých kritérií. Uspěli jen částečně, obvykle je „vysvětleno“ maximálně 25 % kritéria. Více než 40 let se doporučuje posílit vztah mezi substantivní teorií a psychometrikou. Ale jak toho dosáhnout, když se rozdělili už i samotní psychometrici: jedna skupina zdůrazňuje „službu“ teoretikům, druhá psychometrické „produkty“, jimž se teoretici musí přizpůsobit. Práce Van der Maas et al. (2011) představuje pokus propojit popisnou teorii (zpracování informací za použití difúzního modelu pro odpovědi na položku) s modelováním latentních proměnných podle IRT. Vztah mezi obsahem a metodou není vyřešený, což nemusí být tak zlé, jak to zní, protože tento stav je výrazem dynamiky vědy a objasňuje omezení predikce, kontroly a rozhodování. Pro diagnostika bude tato diskuse relevantní pouze tehdy, pokud vědci nabídnou zvládnutelné teorie a metody. Protože obojí se vztahuje především k výběrům, je třeba, aby zvážil, zda empirická zjištění (korelace a signifikantní rozdíly) platí i pro jeho konkrétního klienta. Rozdíly mezi psychometriky, teoretiky a profesionálními diagnostiky nevyřeší empirický výzkum. Možností je spolupráce, jakou se pokusil iniciovat Guttman, ale i taková spolupráce nepomůže zajistit „dokonalou“ predikci, kontrolu a možnost rozhodování vzhledem ke svobodě jednání klienta. 7.8 Kvalita nástrojů Nástroje v psychologii představují jakékoli procedury k posuzování chování a situací, ve skutečnosti ale převládají testy a dotazníky. Jak testy, tak dotazníky spadají do režimu klasické (CTT) a moderní teorie testů (IRT). Existují i další nástroje diagnostiky a posuzování, jako rozhovor, pozorování, funkční analýza chování a provádění malých experimentů. Kvalitu shromažďování takových dat zajišťují předepsané návody. Už v roce 1954 publikovala Americká psychologická asociace příručku Standardy pedagogických a psychologických testů (Standards for Educational and Psychological Tests), známou jako standardy APA. Poslední (páté) vydání je z roku 1999 a další se připravuje. Mezinárodní výbor pro testy (International Test Committee, ITC, 2001) popsal vodítka pro používání testů a kvalifikační předpoklady potřebné pro testování a diagnostiku. Kromě těchto standardů a návodů existují specifické soubory požadavků, doporučení, kritérií a principů např. pro počítačové testování (APA, 1986), psychologické testování na internetu (Naglieri et al., 2004), pro hodnocení (Shadish et al., 1995), pro vývojáře pozorovacích systémů a manuálů (Herbert & Attridge, 1975), pro hodnocení kvality zdokonalovacích programů a používání dat o zlepšování kvality (APA, 2009), pro hodnocení návodů pro adaptaci testů pro jiné kultury, než ve které test vznikl (ITC, viz Sireci, et al., 2010) a dokonce vědecké standardy psychologických postupů obecně (Hayes et al., 1995). Všechny tyto články a příručky obsahují mnoho požadavků, nároků a doporučení, které jsou někdy používány k definování požadavků k získání osvědčení k testování a diagnostice. Diskuse, kterou představíme dále, se omezuje na Standardy pedagogických a psychologických testů Americké psychologické asociace. Ty jsou výsledkem spolupráce psychologů z různých zemí. Standardy jsou pravidelně inovovány, jak postupuje vývoj v psychologii a psychometrice, a nový text se objeví, pokud se na něm „spolupracující psychologové“ shodnou. To obvykle zabere delší čas. Standardy ale nejsou ve Spojených státech ani jinde ve světě používány jako záruka kvality testů a dotazníků. V USA obsahuje recenze testů ročenka 157
Mental Measurement Yearbooks a v Británii jsou klinické a pracovně psychologické testy recenzovány a projednávány. Podle některých psychometriků sledují standardy APA nový vývoj příliš pomalu a váhavě. Hambleton (1986) napsal ve svém komentáři ke standardům z roku 1985, že nezačlenily moderní testovou teorii. Napadány budou i standardy z roku 1999, např. pro nedostatek pozornosti důsledkům IRT pro počítačové výpočty testových norem. V testech IRT jsou, přísně vzato, škálové hodnoty nezávislé na vlastnostech výběru, věku a pohlaví. Vedle testů založených na normách a kritériích může jako výsledek zapracování moderní testové teorie vzniknout nová skupina. Standardů z roku 1999 se pravděpodobně dotknou i komentáře ke konstruktové validitě, např. Borsboom a Shepard (kapitola 6). Musíme počkat a uvidíme, jak si šestá edice poradí s připomínkami a vědeckým vývojem. Vydání standardů z roku 1999 obsahuje Úvod s cíli, typy, aplikacemi a několika varováními a diskusí o „testech jako měření konstruktů“. Následuje několik témat: Konstrukce testů, ohodnocení a dokumentace (validita, reliabilita, chyby měření, vývoj testů, škálování, normy a ekvivalence testových skórů u rodáků a imigrantů, mužů a žen atd.) a další, Spravedlnost v testování (práva a povinnosti diagnostika a klienta, zacházení s žadatelem z jiného etnika, a Aplikace testů (vzdělávání, výběr, hodnocení programu). Někdy jsou k definování souboru kritérií k posouzení kvality testů a dotazníků používány standardy a systém britských psychologů. Nejpropracovanější systém používá holandský testový výbor, sekce Holandské psychologické asociace. Byl přeložen pro anglicky a německy mluvící země. V roce 2006 bylo posouzeno celkem 501 testů a dotazníků. Vodítka standardů APA byla převedena do charakteristik, vlastností, rysů testů a dotazníků. Ty mohou být posouzeny jako přítomné nebo chybějící. Rozlišuje se sedm sekcí, každá z nich obsahuje množství otázek, a vážená procedura vedou k zhodnocení každé jednotlivé sekce jako „dobré/dostatečné/nedostatečné“. Systém věnuje pozornost klasickým testově teoretickým psychometrickým vlastnostem testu. Sekce jsou následující: Základy testu, konstrukce dotazníku: Je jasně specifikován účel a aplikace nástroje? Jsou popsány předpoklady, ze kterých test vychází, je (jsou) konstrukt(y), které test měří, jasně definovány; je odůvodněna relevance obsahu testu vůči konstruktu, který má být měřen? (tři otázky). Kvalita testových materiálů: Jsou položky testu standardizovány; má test objektivní systém skórování; neobsahují položky rasistický nebo jinak urážlivý obsah pro určité skupiny lidí; jsou položky, manuál, posuzovací škály a odpověďové archy vypracovány tak, aby se zabránilo chybám při vyplňování; jaká je kvalita testových materiálů? (šest otázek). Kvalita testového manuálu: Je k testu dostupný manuál; jsou instrukce pro administrátora kompletní a jasné; je v manuálu uveden přehled relevantních výzkumů; je uvedeno, které informace mohou být důležité pro interpretaci testových skórů; je specifikováno, jaká profesionální kvalifikace je požadována pro administraci a vyhodnocení testu? (sedm otázek). Normy: Interpretace skóru subjektu musí být založena na srovnání s normativní skupinou; pokud subjekt uspěl v dosažení určité úrovně, např. 80 % správných odpovědí, je kriteriálně zakotvený test, jeho normy se týkají „normativně zakotveného testování“. Otázka, zda jsou stanoveny normy (včetně expektačních tabulek a cut-off skórů); jaká je kvalita normativních dat a design normativní studie; je uvedeno, na jaké další skupiny mohou být normy zobecněny, a pokud ano, jsou uvedeny intervaly spolehlivosti; je uvedena informace o průměrech, směrodatných odchylkách a distribuci skórů; je uveden rok sběru dat pro každou normativní skupinu? (osm otázek). Reliabilita: Je uvedena informace o reliabilitě testu; jsou výsledky výzkumu reliability dostatečné s ohledem na typ rozhodnutí na testu založených: reliabilita paralelních forem,
158
vnitřní konzistence, testová-retestová, reliabilita jako shoda posuzovatelů; jaká je kvalita výzkumu reliability: správné postupy, přiměřené výběry? (tři otázky). Konstruktová validita: Je uvedena informace o konstruktové validitě testu; podporují výsledky zamýšlený význam testu; jaká je kvalita výzkumu konstruktové validity: správnost procedur, přiměřenost výběru; je možné provést důkladné posouzení konstruktové validity testu na základě daných informací? (tři diferencované otázky). Kriteriální validita: Je uvedena informace o kriteriální validitě testu; jaká je kvalita výzkumu vztahu testu a kritéria; jsou výběry použité ve výzkumu konzistentní se zamýšleným použitím testu; jaká je kvalita měření kritéria? (tři dále diferencované otázky). V roce 2010 byl systém upraven tak, aby bylo možno posuzovat i počítačové testy. Systém skórování je vylepšen nabídkou příkladů, jak skórovat odpovědi na danou otázku. Tato procedura je aplikována na všechny holandské testy a každý test nebo dotazník je posuzován dvěma nezávislými recenzenty. Shoda posuzovatelů mezi recenzenty byla mírná pro úroveň položky/otázky (asi 70 otázek; shoda = 50 %) a dobrá na úrovni sekce (shoda = nejméně 80 %). Pokud nebyla nalezena shoda, rozhodl třetí posuzovatel. Použití takového systému nabízí obrázek kvality testů používaných v dané zemi a výsledky mohou být meziročně srovnávány. Nejčastěji bylo hodnocení „nedostatečné“ uděleno v sekci norem a kriteriální validity: v obou případech 56 %. Relativně nejlepší hodnocení získalo teoretické zázemí a testové materiály – 13 %, respektive 8 % nedostatečných. Ve světle připomínek k jednotlivým teoriím to může znít zvláštně. Stále se domníváme, že připomínky jsou oprávněné a že nároky na teorii jsou při hodnocení nástrojů příliš nízké. To je důsledkem toho, že se důraz klade na teorii testů, která má zajistit požadavky kvality. Výsledky výkonových testů jsou lepší než výsledky dotazníků typického výkonu, zejména v oblasti norem a v kriteriální validitě. Srovnání výsledků v průběhu času (1982 – 2006) ukazuje zlepšení, ale ne příliš velké. Výsledky se po roce 2000 stabilizovaly. To podporuje tvrzení, že se současnými psychologickými teoriemi, operacionalizacemi a měřením jsme dosáhli limitu v predikci, kontrole a rozhodování. Tyto výsledky z malé země (Holandska) se zřejmě nebudou lišit od výsledků z jiných zemí. Systém pomáhá určit slabá místa a ukazuje, kam zacílit výzkum. Jak zde bylo již opakovaně řečeno, praktici si vybírají testy, které budou používat, jen částečně na základě posouzení jejich psychometrických kvalit podle klasické teorie testů. Shrnutí 7.8 Kvalita testů a dotazníků je často diskutována, jsou popsána kritéria kvality. S požadavky na kvalitu se u jiných diagnostických postupů, např. rozhovoru, pozorování, formulace případu, setkáme jen zřídka. Standardy APA jsou vytvořeny pro testy a dotazníky. Vedle těchto standardů existují návody a doporučení pro hodnocení, pro počítačové testy a testování na internetu, pro pozorování. Pravidelně se komentáře k psychometrickým nástrojům objevují ve Spojených státech v ročenkách Mental Measurement Yearbook, britské odborné časopisy publikují recenze nových klinických testů a testů z oblasti psychologie organizace. Standardy se mění s vývojem v teorii a psychometrice. V některých evropských zemích jsou standardy převedeny do položek, které se dají využít k posouzení a skórování vlastností testu. Ve standardech nalezneme následující témata: Úvod: cíle a typy testů, testy jako měření konstruktů; Konstrukce testů: hodnocení, dokumentace, reliabilita, validita (konstruktová a prediktivní); Vývoj testů; Normy, srovnání testových skórů, spravedlivost; a Aplikace. Ze standardů byl vytvořen systém k posouzení testů a dotazníků. Holandský výbor pro testy posoudil 501 testů a dotazníků. Kvalita se v posledních 25 letech příliš nezvýšila a normy a prediktivní validita jsou ve více než polovině případů hodnoceny jako nedostatečné. Podobné výsledky bychom mohli očekávat i v jiných zemích, 159
což ukazuje, že diagnostické a posuzovací nástroje dosáhly svého limitu. Tato informace je diagnostikům dostupná, ale to, jak praktici testy používají, není dáno výhradně ani především hodnocením kvality nástroje. 7.9 Kvalita diagnostického procesu Každodenní praxe mnoha psychologů sestává z diagnostiky a terapie. Sama tato praxe může podpořit nebo snižovat kvalitu diagnostiky v důsledku nedostatku času, omezené škály nástrojů a kognitivního přetížení psychologa. Úkol psychologa je mnohostranný. Musí: Převést otázku klienta do psychologického jazyka. Nalézt a vybrat konstrukty, které popíší a vysvětlí chování klienta, Vybrat nástroje (testy a/nebo jiné procedury) k měření chování, Věnovat pozornost všem zdrojům informací: vlastnímu příběhu klienta (v jeho anamnéze) a/nebo jeho blízkým (heteroanamnéza), Formulovat logický výklad pro posouzení a způsob propojení informací, a Sepsat zprávu nebo doporučení tak, aby mu klient porozuměl a rady mohl a chtěl dodržet. Zacházení s kognitivním úkolem, jaký diagnostický proces představuje, je pravidelně popisováno jako „festival selhání“. Vzpomeňme na porušování normativních principů, vliv odhadů, předsudků a iracionality (Dawes), na klinické předpovědi, stereotypy, nedodržování statistických a logických pravidel, a na výpočetní omezení (např. odhad lineárního vztahu mezi proměnnými). V kapitole 6 jsme si argumenty proti představě chybujícího diagnostika vypůjčili od Gigerenzera: není oprávněné vnímat diagnostika jako iracionálního, správně sleduje konverzační pravidla, používá ne-matematický koncept pravděpodobnosti a někdy je konfrontován s nedosažitelným a nespravedlivě náročným úkolem a nevhodnými formáty problémů. Obrázek diagnostika „nemotory“ se nicméně v literatuře objevuje hojně. Pokud je diagnostik vnímán jako „náchylný k chybám“, potřebuje k tomu, aby mohl kvalitu své práce zvýšit, podporu. Návrhy pomůcek pro rozhodování, jako jsou Multi Attribute Utility Theory (MAUT), model testování hypotéz, expertní systémy, bayesovská pravidla a řada nejrůznějších návodů, jsou vnímány jako podpora. Bylo namítáno, že obrovské množství návodů může pro diagnostika představovat obtížně zvládnutelnou kognitivní zátěž. Některé podpůrné systémy jsou také omezeny jen na určité oblasti diagnostického procesu, např. použití testu a integrace informací. A znovu opakujeme: neexistuje výzkum, který by prokázal, že tyto pomůcky a návody snížily výskyt falešně pozitivních a negativních výsledků. Diagnostický proces zahrnuje i ne-testové aktivity jako rozhovor, psaní zpráv, interakci a konverzaci s klientem. Kvalita testu (validita) je založena na údajích z výběrů a na metastudiích. Studie ukazují nedokonalé korelace mezi prediktorem a kritériem, což znamená, že ne každý klient bude „na regresní linii nebo v její blízkosti“. Je dokonce možné, že klienti jako nereprezentativní skupina se odlišují relativně více od regresní linie než vzorek jako celek a je pravděpodobně možné předpovídat chování jedné osoby lépe než jiné. Diagnostický proces je komplexní, v důsledku toho existuje mnoho modelů a návodů, které pomáhají zajistit jejich kvalitu. Těchto materiálů přibývá, částečně aby ukáznily diagnostiky, a částečně aby podpořily obtížnou práci diagnostika – „realizátora vědy“. Příklad obecného souboru direktiv kvality vznikl v hnutí praxe založené na důkazech (APA Presidential Task Force Evidence-Based Practice, 2006). Praxe založená na důkazech v psychologii (Evidence-Based Practice in Psychology, EBPP) je definována jako„…spojení nejlepšího možného výzkumu s klinickou odborností v kontextu pacientových charakteristik, kultury a preferencí“(s. 273). Uváděno je mnoho typů výzkumných důkazů. Charakteristické je, že k nim patří nejen účinky intervencí za použití metaanalýzy, ale také klinická pozorování, kvalitativní výzkum, experimenty N=1, studie vztahu procesu a výsledku v přirozených podmínkách (s. 274). Zpráva zahrnuje doporučení pro výzkumníky k provádění 160
relevantních studií, např. interakcí mezi pacientem a terapií, prokazatelně účinné psychologické péče v kombinaci s farmakoterapeutickou léčbou nebo jako alternativy k ní, pozornost vůči starším dospělým, kritéria pro ukončení léčby, účinky nebo zpětnou vazbu stran diagnostiky a léčebného procesu atd. Jedním z cílů hnutí praxe založené na důkazech je klinická odbornost. Odkazuje ke kompetenci získané psychologem díky vzdělání, výcviku a zkušenosti, která ústí v efektivní praxi (s. 275). Je zřejmé, že i expert se může mýlit, ale odborná úroveň může být výsledkem diagnostiky nebo posuzování, systematické formulace případu a plánování léčby, rozhodování, monitorování pokroku klienta, interpersonální zdatnosti, sebereflexe, využívání výzkumných dat i porozumění vlivu individuálních kulturních a kontextových rozdílů. Vývoj není samostatně zmiňován. Odbornost také znamená vědět, kdy vyhledat vnější zdroje, např. konzultaci, doplňkové nebo alternativní služby. Doporučení pro výzkum je např. studium individuálních rozdílů mezi kliniky, ale také, a znovu a znovu, zlepšování reliability a validity diagnóz a kazuistik. Pro zjištění, co funguje, pro koho a v jakém kontextu, se počítá i s individuálními rozdíly mezi klienty a s vlivy širokého sociálního kontextu (kultury) a klientovými preferencemi. Je zdůrazňována myšlenka interakce faktorů léčby, osobnostních charakteristik a sociálního kontextu jako relevantní platformy pro validitu diagnostiky a terapie. Pracovní skupina pro odbornost dále požaduje věnovat pozornost faktorům spojeným s vývojovým stadiem a životním obdobím, v němž se klient nachází. Doporučení jsou projevem respektu k diagnostikovi-klinikovi a k jeho komplexním úkolům. Současně vyžadují obrovský rozsah znalostí a zkušeností, což splňuje jen málokdo. Je zajímavé, že klient musí být analyzován podle individuálních rozdílů, vývoje a sociálního kontextu, a že vážně jsou brány i individuální rozdíly mezi diagnostiky, resp. psychology. Roste také počet konkrétních vodítek. Často se mění a přizpůsobují se novým přesvědčením a zjištěním. Příkladem je postup k ohodnocení příručky k hloubkovému diagnostickému rozhovoru (Kici & Westhoff, 2004). Je formulován tak, že může být přednášen studentům. Obsahuje seznam otázek, na které se odpovídá kladně nebo záporně, a obsahuje následující otázky: Úvod: má příručka úvod, shrnutí? Aspekty chování: pocity, myšlenky a jednání: je žádán konkrétní popis příslušného problematického chování? Podmínky učení: co je na vašem chování pozitivní, co méně? Čas: vyjádření problematického chování dříve? Modely: které modely ovlivňují chování, dnes a v minulosti? Srovnání situací: v jakých situacích se chování objevuje? Důležití druzí: kdo je významný a důležitý s ohledem na problematické chování? Status: je chování přítomné u osob s vyšším, stejným nebo nižším statutem? Styl zvládání: jaká je kapacita klienta ke zvládání stresu? Události: jaké jsou relevantní události pro problematické chování? Typičnost: v jakých situacích se chování typicky objevuje? Časové období: během pracovních dní, o víkendech? Existuje mnoho obecných a specifických návodů. Evidentně je zde potřeba podobných podpůrných modelů a inventářů vodítek. Mohou fungovat jako indikátory kvality, ale také jako opora diagnostika. Aby měly zamýšlený účinek, musí být pokyny zvládnutelné. Kritika výzkumníků a tvůrců směrnic nebude účinná. Omezené množství jasných, ne příliš obecných a ne příliš specifických vodítek, která mají přímý vztah k samotnému procesu posuzování, je snadno přijímáno a aplikováno.
161
Opory pro rozhodování a návody mají garantovat kvalitu procesu posuzování. Diagnostický úkol je ale špatně definovaný problém rozhodování, informace je nekompletní, (kde začít a kde skončit?), problém klienta může být vysvětlen nebo chápán jako zapříčiněný různými příčinami a důvody a vztah mezi příčinami a důvody a léčbou není jeden na jednoho. Pomůcky pro rozhodování a návody by měly pomoci strukturovat úkol, aby se stal zvládnutelným. Pomůcky popisují komplexní výpočetní postupy, které pomáhají předcházet některým kritickým omylům. Návody někdy nabízejí buď příliš široké nebo příliš specifické procedury, které se týkají jen části procesu. Obojí nabízí relevantní kritéria kvality, ale pravděpodobně nejsou v praxi využívána. Existuje několik explicitních monitorovacích studií dokazujících platnost tohoto tvrzení, dokonce i když diagnostik přijímá tyto modely a návody, protože lidé (ani diagnostici) neříkají, co dělají, a ne vždy dělají to, co říkají (Glasman & Albarracin, 2006). Groenier et al. (2008) provedli takovou studii, aby zjistili, zda diagnostici v praxi využívali model testování hypotéz, který všichni přijímali a byli v něm vycvičeni. Autoři vytvořili dva dotazníky, jeden pro kroky, které vnímali jako nezbytné (N) s využitím seznamu 63 rozhodovacích kroků, rozdělených do šesti kategorií, a jeden pro opravdu uskutečňované (RE) kroky. Kategorie byly tyto: objednávka, analýza potíží, diagnostický scénář, analýza problému, objasnění a indikace pro léčbu. Dotazníky vyplnilo 175, respektive 138 psychologů. Byly zjištěny signifikantní rozdíly: respondenti uváděli objednávku, analýzu potíží, analýzu problému a analýzu přiměřené léčby jako nezbytné častěji, než jak je opravdu prováděli (N < RE). Nejméně často byla realizována analýza příčiny potíží, ačkoli ji autoři považují za významné vodítko pro terapii. Také „logické“ pořadí od objednávky k indikaci nebylo v procesu, jak jej diagnostici popisovali, dodržováno. To opět ukazuje, že se psychologové v praxi striktně neřídí normativními logickými modely. Není také dostatek výzkumů, které by prokazatelně identifikovaly rozdíly ve výskytu falešně pozitivních a negativních výsledků mezi diagnostikou striktně dodržující pravidla a „reálnou diagnostikou“. Souhrnně lze říci, že existuje mnoho kritérií kvality ve formě pomůcek (modelů) pro rozhodování a souborů obecných a specifických návodů, ale částečně poněkud přeceňují své cíle, protože diagnostici je nebudou vždy využívat, dokonce i když jsou v užívání těchto modelů a vodítek vyškoleni. Aby bylo možné tyto pomůcky v praxi úspěšně uplatňovat, je nutná rovnováha mezi modely a vodítky na jedné straně a kapacitou diagnostika ke zpracování informací na straně druhé. Vhled do reálného fungování diagnostiků a jeho výzkum doplňuje produkci rozhodovacích opor, návodů a pravidel. Existuje opozice vůči běžně prováděnému procesu posuzování: podle některých psychologů a pedagogů je současné nastavení diagnostického procesu nevhodné, protože odráží nesprávný přístup k lidským bytostem a v důsledku toho postrádá kvalitu. Filozofií tohoto procesu je, že lidé jsou testováni nástroji, které předpokládají stabilní rysy. Ty jsou v důsledku kompletně zodpovědné za jejich chování a není zde tedy prostor pro přímý fyzický a sociální kontext, který formuje chování lidí, ani pro politické síly ve společnosti, které kopírují existující rozdíly mezi lidmi. Diagnostika předpokládá „a-historickou“ a „dekontextualizovanou“ osobu, která může být rozložena na soubor objektivně měřitelných rysů. Společnost není jako příčina rozdílů mezi lidmi v inteligenci, zdraví a moci přítomna. Tento postoj je doprovázen odmítáním „objektivního měření osoby“ a empirické analytické epistemologie psychologie. Blok 7.2 obsahuje příklad. Blok 7.2: Konstruktivistický (konstrukcionistický) přístup (KKP) k diagnostickému procesu a odpovědi běžného praktického diagnostika (BPD) KKP: Testový skór neposkytuje objektivní informaci o osobě, protože osobu vnímá jako 162
individualistikou a nepružnou. Testy jsou zavádějící a omezené, protože neexistuje nic takového jako objektivní pozorování; každé pozorování je zatíženo předsudky a „teoriemi“ reprezentujícími zájmy vládnoucích skupin. Každý jednotlivec je součástí společenské struktury. Testová psychologie je víra, která se snaží napodobováním vědy získat vědecký status. Testující psycholog používá nástroje k upevnění svého statutu a moci. Každý test by měl reflektovat skór osoby v jejím kontextu. Jinými slovy, člověk má mnoho latentních rysů, stejně jako kontextů, ve kterých žije. BDP: Ano, člověk žije vždy v prostředí, ale jak jeho skóry, tak jeho prostředí reflektují určitou pozorovatelnou stabilitu. A nezveličujte roli testů: nejsou více ani méně než pomůckou k získání informací o člověku tak, aby mohl být porovnáván s výběrem nebo s předem stanoveným standardem, a to pomáhá predikovat s určitou mírou jistoty jeho budoucí chování. A ano, použitím testů se částečně snažíme osvobodit od myšlenky stanovit pro každou novou situaci nový skór. To přináší určité úspěchy, pokud se podíváme na koeficienty prediktivní validity. KKP: Test neodráží rys; spíše odráží způsob, jakým člověk vnímá situaci. Pokud má jinou představu než experimentátor; skór je bezcenný nebo nevalidní, jak byste řekl vy. BDP: To není pravda, situace je standardizovaná, takže všichni jsou zkoumáni za stejných podmínek a rozdíly můžeme připsat osobě. Pokud bych měl vytvořit jiné podmínky, skóry by nekorelovaly s žádným relevantním kritériem chování. KKP: Psychologický proces nemůže být vyjádřen číslem. BDP: Je obtížné popsat psychologické procesy, ale snažíme se o to například u inteligence a ve výzkumu osobnosti a nalézáme některé empirické vztahy mezi procesy a výkony. To nemůžete popřít. KKP: Jakékoli chování je vyjádřením osoby v přirozené situaci, ne izolovaný rys v rámci osoby. BDP: A co? A ta situace je do skóru zahrnuta, pokud je to možné. Existují modely, které odhadují osobnostní a enviromentální proměnné. Ale máte pravdu, skóry jsou citlivé na situaci a na složení skupiny (zejména rozptyl ve skupině); ano, skóry a dokonce koeficienty reliability jsou „kontextualizovány“. Počítáme odhad; nejen slova, slova, slova. Ale někdy úmyslně neutralizujeme situaci, abychom viděli účinky jen jednoho aspektu situace; nazýváme to manipulací s nezávislou proměnnou. A tato manipulace není totéž co získat moc nad člověkem. Vy byste rád prováděl diagnostiku osoby v jeho přirozeném prostředí bez jakékoli apriorní teorie a jen neomezeně sledoval chování, jako novorozeně. To je příliš náročné, jak jste řekl, neexistuje nic jako ateoretické pozorování. A tak dále, a tak dále... Odmítání v současnosti respektovaných diagnostických procedur je někdy doprovázeno doporučováním kvalitativních metod a volného popisu. V kulturní antropologii a sociologii se používají metody zúčastněného pozorování a etnografické metody, které mohou být účelným doplňkem testových skórovacích postupů. Mohou poskytnout informace o sociálním kontextu, který je v současné diagnostice spíše opomíjen. Muselo by být doloženo, že tento přístup zvyšuje možnosti predikce a kontroly. Můžeme se domnívat, že nezvyšuje, jak ukázala debata mezi klinickým a statistickým přístupem. Výhodou je možná to, že jak psycholog, tak klient takový postup snáze přijmou a může také doplnit popis chování klienta. Vztah mezi hodnocením výkonu, testovaným testy SAT, a entuziastickými reformátory pedagogiky (např. Wiggins, 1993) ilustruje blok 7.3. Tyto ideje se čas od času vracejí. Dnes podle všeho vládne hnutí „zpět ke kořenům“ tj. Jen čtení, aritmetika a poznatky o světě. Podpora sociálního vývoje a rozvoje kreativity je vnímána jako luxus. Blok 7.3: Testování žáků je nesprávná činnost; není spravedlivé vůči mladým zvídavým 163
studentům, kteří se snaží porozumět fyzickému a sociálnímu světu a žít ve světě bez honby za úspěchem Testy SAT jsou propracované. Obsahují úhledně standardizované a podle některých nudné úkoly. Mnoho výzev, s nimiž se studenti potýkají, není vůbec standardizováno. Přitahují jejich zvědavost a motivují je ke studiu intelektuálně vzrušujících fenoménů. Rádi vytvářejí produkty sami. Posuzovatel nemá žádný respekt ke kreativitě žáků a studentů. Učitel nemusí na žáky a studenty nakládat úkoly. Musí rozumět rozvíjejícímu se a kreativnímu talentu studentů. Škola není záležitost výuky faktů, ale vytváření významu studenty ve spolupráci s jejich učiteli. Wiggins říká, že máme tak špatné testy, jak si zasloužíme, ale tyto testy nezbavují učitele závazku zaměřit se zejména na proces učení a ne na produkty, které měří SAT. Testy jsou vždy kompromisem, testové položky jsou zjednodušené a zbavené kontextu, aby umožnily jednoduché „objektivní“ skórování. Opravdové problémy nejsou jako položky v testu, jsou špatně definované a volně strukturované. Posuzování by mělo být longitudinální, protože každý žák se mění. Administrátoři testů a experimentátoři jsou podle Wigginse „fatalističtí“ (str. 5) a chtějí jen jednu věc, skóry SAT, v rostoucí kapacitu žáků nevěří. Vztah mezi učitelem a studentem má morální dimenzi, jež se odráží v respektující interakci. Vidět ji můžeme v poskytnutí rychlé a kompletní zpětné vazby, spoustě času na zvládnutí látky, v bezpečném a známém prostředí podporovaném moudrým učitelem. Wiggins končí svoji knihu manifestem (vzpomeňme Komunistický manifest Karla Marxe) o právech studentů: „Assessment Bill of Rights“ (str. 28). Zahrnuje, mezi jiným, minimum tajností o obsahu testu, předkládání reálných problémů ke studiu, otevřenost o posuzovaných kritériích, zpětnou vazbu, otevřené klima umožňující diskusi, a testy, ve kterých studenti mohou vysvětlit, proč odpověděli tak, jak odpověděli. Testy by měly být opuštěny nebo nahrazeny, normativním a neúprosným odkladem teorie a namísto toho by mělo být dopřáno sluchu nejvyšším prioritám studentů. Konstruktivisté a psychologové hlásající reformu pedagogiky mají minimální vliv na proces posuzování. Omezuje se na manifesty v knihách, a změnu přístupu ke studentům a testům v několika školách. Shrnutí 7.9 Významnou část každodenní práce psychologa tvoří diagnostika a terapie individuálních klientů. Diagnostika je více než testování. Zahrnuje rozhodnutí, které musí psycholog učinit o problému nebo potížích, nástroje, zdroje a integraci informací. Představuje úkol, který musí být často splněn v časové tísni. Úkoly přinášejí velké množství informací. Výzkum posuzování prokázal selhávání při využívání podpůrných a normativních návodů a integračních a informačních modelů. Návody ke strukturování procesu jsou navíc nedostatečně využívány a modely ke zkvalitnění diagnostického procesu jsou někdy příliš komplexní, než aby mohly být uplatňovány v praxi, příliš rozsáhlé, někdy příliš obecné nebo příliš specifické. První případ se týká např. směrnic APA pro rozhodování založené na důkazech, druhý např. návodu k zajištění kvality diagnostického rozhovoru. V důsledku toho je jejich využití omezené. Sledování zda a jak je používají diagnostici vyškolení v modelu testování hypotéz ukázalo, že některé z kroků kategorií nejsou vždy provedeny a pokud ano, potom ne v logickém pořadí, jaké model předepisuje. Zdá se, že musí být nalezena nová rovnováha mezi limity diagnostika a kognitivní zátěží modelů a návodů, aby bylo možné navrhnout funkční a proveditelná kritéria kvality.
164
Současný diagnostický proces je podle některých konstruktivistů a pedagogických reformátorů založen na „a-historickém“ a „de-kontextualizovaném“ zobrazení člověka. Následkem toho postrádá kvalitu a je pro vývoj a kreativitu žáků a studentů dokonce škodlivý. Tito „disidenti“ nemají téměř žádný vliv na současnou diagnostickou praxi.. 7.10 Kvalita posuzování: Etika, soukromí, spravedlivé testování a podvádění při testech Kvalita je, mimo jiné, otázkou shody mezi službami a produkty diagnostika (diagnóza, rada, zpráva) a požadavky „správně smýšlející veřejnosti“. Je ale jednodušší požadavky formulovat než je splnit. Diagnostici musí hledat cestu mezi praktickými možnostmi a odlišnými nároky veřejnosti, svých kolegů a vědy. Aby mohl diagnostik zaručit kvalitu, potřebuje organizační rámec s přiměřenými prostředky, kolegy pro intervizi a supervizi a smysluplné pracovní protokoly, návody a procedury. Musí mu být umožněno provádět diagnostiku dle cílů a pravidel organizace (Donabedian, 1982). Organizace a klienti očekávají od diagnostika, že bude dodržovat etická a obecně platná pravidla slušného lidského chování. Diagnostik má práva a povinnosti vůči instituci, která ho zaměstnává, např. nemocnici, psychiatrické léčebně, škole, vládě atd. V některých zemích existují zákony, které definují povinnosti pracovníků v oblasti duševního zdraví. Diagnostik musí udržovat své vzdělání na požadované úrovni výcvikem, intervizemi a supervizemi a zachovávat standardy slušného chování, tj. respektovat soukromí klienta, vykonávat svou práci zodpovědně a být loajálním spolupracovníkem organizace nebo instituce, tj. starat se o kontinuitu, účinnost, orientaci na cíl a adekvátní personální obsazení. Kvalitní péče znamená zlepšování výsledků organizace, zvyšování spokojenosti klienta a omezování rizik. Diagnostik je zavázán přispívat ke zlepšení organizace (zaměstnavatele) používáním dostupných prostředků efektivně a zlepšováním spolupráce a účasti kolegů. Níže si uvedeme některé vybrané prvky kvalitní péče: etická pravidla, soukromí klientů, a specifickou část kvality testů: spravedlivost při testování různých skupin a „férovost“ respondentů samotných, o které budeme mluvit v kapitole o „podvádění“. Profesní organizace musí dbát na dodržování etických pravidel. Pro psychology platí například následující: Nediskriminovat jakoukoli část populace Nezneužívat své odbornosti nebo autority a moci Nepoužívat prostředky a nástroje, které snižují důstojnost klienta Omezit vztah s klientem na vztah profesionální Odmítnout kontakty s klientem, které by mohly vést k porušení etických pravidel Starat se o realistická očekávání klienta Zachovávat slib důvěrnosti Uchovávat po stanovený čas dokumentaci a zajistit, aby k ní neměly přístup neoprávněné osoby Umožnit kterémukoli klientovi zahájit nebo ukončit diagnostický a/nebo terapeutický proces, kdykoli si to přeje Každý diagnostik se snaží jednat v souladu se standardy, ale co to přesně znamená? Je v pořádku poskytnout radu po desetiminutové konverzaci, nebo je minimální čas alespoň půl hodiny? Je vždy nutné s klientem mluvit osobně, nebo stačí prostudovat dokumentaci? Jak a v jakém rozsahu se má diagnostik připravovat na sezení? S kým by se měl sám radit? Na tyto praktické otázky často reagují protokoly a návody. Nezřídka ale bývají vyvíjeny metodou pokus-omyl a učením se z chyb. Pokud jsou etická pravidla přesně popsána, může také
165
komise soudit jejich překročení. Taková komise je efektivní tehdy, když může sankcionovat chování profesionála napomenutím nebo dokonce vyloučením. Ve Spojených státech bývají psychologové často pohnáni k soudu. Ve většině zemí etické komise psychology předvolávají a sankcionují jen málo případ zřídka. V Holandsku si ročně vyžádá posouzení etickou komisí Asociace psychologů jen 10 až 15 případů. Diagnostika je dyadická interakce a diagnostik se zavazuje zachovávat soukromí klienta. Co může být sděleno zaměstnavateli o žadateli, co učiteli o studentovi, co rodičům o dítěti? Psycholog probírá s klientem témata a události, jež patří do soukromé sféry klienta. Na co se musí ptát, o čem má podat zprávu, co je významné vzhledem k problému klienta? Jak může být dokumentace chráněna před neoprávněnými, ale zaujatými osobami? Práva klienta i diagnostika samozřejmě chrání zákony, ale soudní projednávání způsobí často více škody než užitku oběma, nemluvě o tom, že trvá dlouho, než je vynesen verdikt. Soukromí je pro diagnostika i klienta ožehavým tématem, částečně i v důsledku současného trendu jednoduše o sobě informace sdílet. Vedení dokumentace v elektronické podobě a rychlé šíření informací zvyšuje možnost, že se soukromé informace stanou veřejnými, což platí dokonce i na úrovni vládních institucí (viz např. kauza WikiLeaks). Spravedlivost v testování a diagnostice znamená, že diagnostika nezvýhodňuje určité skupiny, např. muže vůči ženám, původní obyvatelstvo vůči přistěhovalcům. Spravedlnost je technickým termínem ve Standardech APA (1999). V první řadě znamená nepřítomnost zkreslení na úrovni položek. Položka může být zatížená zkreslením vůči určité skupině, např. položka zjišťující technické schopnosti může být zodpovězena rozdílně muži a ženami, i když skutečná míra schopností nebude genderově rozdílná. To se může stát, pokud se v testu objevují jen položky s auty a například žádné položky s domácími spotřebiči. Tento jev se označuje jako diferenciální funkčnost položky (differential item functioning, DIF). Moderní testová teorie nabízí postupy k identifikaci zkreslení na úrovni položek. Základní myšlenkou je porovnání testových skórů malých podskupin jednoho výběru (Mantel-Haenszelova procedura). Každá položka, u které se výsledky různých podskupin s přibližně stejnými skóry liší, je přezkoumána. Výsledkem je odstranění takto zatížené položky. Například ve velkém reprezentativním výběru holandských dětí ve věku 11-12 let 13 % položek testu SAT pro přijetí na střední školy vykázalo zkreslení pro etnické skupiny. Důvodem, proč položky znevýhodňovaly turecké a marocké děti vůči holandským, byl význam slova a parafrázování tohoto významu, ustálená spojení a gramatické konvence. Existuje řada výzkumů o zkreslení u položek často používaných testů maximálního výkonu. Obvykle jsou v nich porovnávány výsledky dětí imigrantů s dětmi rodáků. Očekávalo se, že bias by mohl vysvětlit a zmírnit rozdíly mezi skupinami. Rozdíl je obvykle větší než směrodatná odchylka ve prospěch místní populace. Výzkumy většinou uzavírají, že toto zkreslení je slabé. Fagan a Holland (2008) například administrovali u 633 dospělých (121 z minoritní skupiny) test slovní zásoby a krátkou verzi SAT. Tvrdí, že položky nejsou kulturně-předpojaté. Sackett et al. (2008) vypracovali metastudie k vyvrácení běžné kritiky vůči kognitivním testům pro výběr zaměstnanců a přijímací řízení na vyšší stupně škol. Studie byly prováděny na velkých výběrech a byly pro metaanalýzu vhodné. K jejím závěrů patří: Testy rozvinutých schopností jsou obecně validní pro zamýšlené použití k predikci krátkodobého i dlouhodobého akademického a pracovního výkonu. Validita není artefaktem socioekonomického statu. Nácvik není hlavní determinantou testového výkonu. Mechanismy související s motivací k úspěšnému řešení testu nejsou hlavními determinantami výkonu v testu v situacích s „vysokou sázkou“.. Testy obecně nevykazují zkreslení tak, aby predikovaly horší výkonu u příslušníků minoritních skupin.
166
Zmíněná studie (Sackett et al., 2008) však pojednává o zkreslení na úrovni testů, nikoli samostatných položek. Jednou z forem zkreslení je zkreslení prediktivní, tedy rozdíl v průměru podskupiny ve srovnání s jinou podskupinou (např. muži a ženy) a s celkovým průměrem (graf 7.1). Představme si následující situaci: manažeři a manažerky jsou srovnatelně kompetentní. Ve vybraných testech manažerských dovedností muži získávají o jednu směrodatnou odchylku lepší výsledek než ženy. Důsledkem je, že ženy jsou častěji odmítány než muži, i když jsou stejně kompetentní. To je příklad genderové diskriminace.
Graf 7.1 Ilustrace zkreslení interceptu mezi dvěma skupinami Pokud se sklon dvou skupin liší od sklonu kombinace obou, tj. pozorujeme různé korelace vztahu mezi prediktorem a kritériem, hovoříme o diferenciální validitě. Představme si vztah mezi úrovní vzdělání a příjmem. Řekněme, že r = 0,43. Pokud vypočítáme korelaci odděleně pro muže a ženy, je možné, že korelace bude nižší u jedné skupiny než u druhé, např. u mužů 0,54 a u žen 0,32. Rozdíl ve vzdělání u žen predikuje výši jejich platu méně spolehlivě než u mužů. Tímto fenoménem se zabývali Schmidt a Hunter (1979; graf 7.2). Nezjistili žádnou diferenciální validitu ve výběru 866 testových párů černo-bílých zaměstnanců zaměřených na páry validitu testů ve 39 studiích. V hypotetickém příkladu z obrázku 7.2 musí členové skupiny 2 skórovat v prediktoru výše než podskupina 1, mají-li dosáhnout shodné úrovně kritéria 2,0. Subgroup 1 Total group
Crit erio n sco re
Subgroup 2 Predictor score
Graf 7.2 Ilustrace zkreslení strmosti u dvou podskupin.
167
Podle výsledků Sackett et al.’s se zkreslení predikce neobjevuje často. Příklady takového zkreslení ale existují. Sackett a Saad (2002) prokázali nadhodnocení predikce u žen ve vojenské službě: jedna konstanta je určena pro celou skupinu, ale pokud se regresní přímky pro obě skupiny zobrazí odděleně, objeví se rozdíl konstant. Pro ilustraci takového nadhodnocení slouží hypotetický příklad zakreslený v grafu 7.1, pro aplikaci diagramu na uvedená si uvědomme, že podskupina 1 sestává z žen vojaček a podskupina 2 z mužů vojáků. Sackett et al. (2008) ve své metastudii uvádějí, že výše uvedené platí o přístupu skupin k vyššímu vzdělání a ke kvalitní práci. Možná již složení skupiny žadatelů o přijetí z minoritní skupiny je samo o sobě výběrem, a to výraznějším než u majoritní skupiny. V populaci šestiletých až dvanáctiletých je pravděpodobnost zkreslení zřejmě vyšší, protože zde není žádný výběr, všichni musí navštěvovat střední školu. Realistický příklad z přijímacího řízení na střední školu u u jedenáctiletých a dvanáctiletých ukazuje, že děti přistěhovalců dosahují v průměru o 1/3 směrodatné odchylky horšího výsledku než děti místních obyvatel. V zájmu spravedlivého přístupu je na střední školy přijat stejný podíl přistěhovalců jako domácích. Predikce je u nich tedy nadhodnocená a v důsledku toho středoškolské vzdělání častěji než domácí studenti nedokončí. Data ukazují, že středoškolské vzdělání dokončí asi třikrát více domácích studentů než studentů z řad imigrantů. Výzkum spravedlivosti v testování musí být opakován, vzhledem k tomu, že složení a úroveň podskupin se rychle mění. Dalším významem spravedlivosti je stejné zacházení s posuzovanými. Každý žadatel musí mít stejnou šanci na úspěch v posuzovací proceduře. Důležitou roli tedy hrají i propracované a kvalitní instrukce. Třetím významem spravedlivosti je podobnost výsledků testování. Dvě skupiny mohou dosáhnout rozdílných výsledků v prediktivním testu, i když se neliší ve svém výkonu, např. skupina starších bude mít v prediktivním testu nižší skóry než skupina mladší, i když se nebudou lišit ve skórech kritérií. To je forma diskriminace podle věku. Připomeňme, že Schmidt a Hunter (1998) zjistili, že u jejich výběru odborníků neexistuje korelace mezi věkem a výkonem. Je pravděpodobné, že mladší skupina skóruje lépe v prediktivním testu. To znamená riziko diskriminace podle věku. Čtvrtým významem spravedlivosti je rovná šance a příležitost k učení. To platí pro vzdělávání, každý žák musí dostat možnost a příležitost učit se a získat základní schopnosti a vědomosti. Je to sice toužebné přání, ale tento princip je třeba neustále připomínat. Spravedlnost kognitivních testů a jejich položek je propracována nejvíce; zkreslení v kritériích je zkoumáno méně často, i když kritéria jsou pravděpodobně vůči zkreslení pro různé skupiny stejně citlivá, např. kvůli rozšířeným stereotypům o určitých skupinách. Podskupinami bývají nejčastěji přistěhovalci vs. domácí, muži vs. ženy nebo skupiny s různým socioekonomickým statutem. Zkreslení se netýká jen položek, testů a kritérií, ale i samotných subjektů. Zejména žadatelé o práci mohou poskytovat sociálně žádoucí odpovědi na položky. Záměrné zkreslení ze strany subjektů můžeme nazvat předstíráním. Vztahuje se především na dotazníky typického chování, protože je nepravděpodobné, že člověk může něco předstírat u testů maximálního výkonu. Situace přijímacího pohovoru do zaměstnání nebo na prestižní školu může předstírání vyvolávat. Psychologové vyvinuli pro výběr zaměstnanců testy integrity. Ones et al. (1993) provedli metaanalýzu založenou na 665 koeficientech validity a zjistili, že testy integrity jsou významné pro predikci pracovního výkonu a kontraproduktivního chování jako krádeže, disciplinární problémy a absence. Odhadovaný průměr prediktivní validity testů integrity pro predikci hodnocení pracovního výkonu supervizory byl r = 0,41. Je ale třeba dodat, že i v testech integrity lze poměrně snadno podvádět. Viswesvaran a Ones (1999) zjistili, že všechny faktory Big Five byly stejně náchylné k předstírání. Birkeland et al. (2006) ale 168
udávají v metaanalýze 33 studií menší rozdíly. Napříč všemi typy zaměstnání uchazeči o práci skórovali výše než ti, kteří se o práci nehlásili, v extraverzi (d = 0,11), emoční stabilitě (d = 0,44), svědomitosti (d = 0,45) a otevřenosti (d = 0,13). Tyto závěry potvrzují Griffin et al. (2004) u Australanů i McFarland et al. (2000) u Američanů. V omezené studii holandských studentů nebyl nalezen žádný rozdíl ve skórech BF u žadatelů a ne-žadatelů (ter Laak et al., 2000). Výsledky se nejeví jako mezikulturně konzistentní. Stark et al. (2001) vnímá předstírání v dotazníku 16PF jako důvod ke znepokojení, ale Ellington et al. (2007) s využitím výsledků dotazníku California Personality Inventory (CPI) u 713 subjektů ujišťují o užitečnosti dotazníků. Jejich analýzy v rámci a mezi kontexty „odhalily určitý stupeň zkreslení odpovědí“. Autoři uzavírají diskusi s tím, že subjekty mohou v osobnostních dotaznících předstírat a že toto chování je podněcováno i situací přijímacího pohovoru. Holden et al. (2001) se pokusili omezit předstírání omezením času na odpověď, ale neexistují důkazy potvrzující, že omezení času respondenta na odpověď může zmírnit účinek předstírání na validitu. Ve stručnosti lze říci, že předstírání nemůžeme vyloučit v osobnostních dotaznících, zvláště pokud má testovaný subjekt na výsledku zvláštní zájem, např. při přijímacím pohovoru do zaměstnání nebo při přijímacím řízení na prestižní školu. Předstírání se neprojevuje u všech rysů ve stejné míře, nejčastěji se objevuje ve škálách svědomitosti, emoční stability a v testech integrity. Omezení času na odpověď předstírání nezabrání. Shrnutí 7.10 Kvalitní péče znamená také, že diagnostika splňuje požadavky veřejnosti, společnosti a vědy. Diagnostik či posuzovatel musí nalézt rovnováhu mezi rozdílnými požadavky klienta, organizace, kde je zaměstnán, instituce, která si jej vybrala pro jeho odbornost, vědy a společnosti. Psychologické asociace vydávají příručky s etickými pravidly, která jsou pravidly obecnými, tj. diagnostik je musí interpretovat a aplikovat ve specifických situacích. Podporu mu mohou poskytnout rady kolegů a supervizorů. Důležitým pravidlem je ochrana soukromí klienta. Prvkem kvality, který přitahuje nejvíce pozornosti, je spravedlivost nástrojů. Zkreslení položek se týká faktu, že osoby se stejnou úrovní schopnosti získají v testu rozdílné skóry kvůli určité položce (jejímu obsahu, způsobu kladení otázky atd.). Tento jev se nazývá nestejná funkčnost položky (DIF) a byl zkoumán u testů schopností ve výsledcích různých skupin: u mužů a žen, u místních obyvatel a imigrantů u skupin s různým socioekonomickým statutem. Výsledky těchto studií obecně prokazují, že v určité, byť slabé míře působí, Vzhledem k rychlým změnám ve skladbě populace je třeba věnovat mu pozornost průběžně a opakovaně. O zkreslení predikce se hovoří tehdy, pokud test poskytuje různé výsledky pro dvě skupiny, ale jejich výkon v kritériu je srovnatelný. Existuje možnost nadhodnocení i podhodnocení predikce podskupin vzhledem k rozdílům v průměrech dvou skupin vzhledem k průměru pro tyto dvě skupiny jako celek. Rozdílná validita je označení pro stav, kdy se sklon (a tedy i korelace) liší pro dvě skupiny, tj. pro jednu skupinu prediktor ukazuje vyšší korelaci s kritériem než pro druhou skupinu, např. korelace mezi úrovní vzdělání a platem je vyšší pro muže než pro ženy. Důvodem může být fakt, že rozdíly ve výdělcích žen jsou nižší než ve výdělcích mužů. I když zní pravděpodobně, že tato zkreslení existují, pouze několik studií toto zjištění jasně podporuje. Obecně se předpokládá, že míra zkreslení je spíše mírná. Kvalita diagnostiky závisí rovněž na upřímnosti klienta, zejména u osobnostních dotazníků, kde mohou respondenti podvádět ve snaze udělat dobrý dojem. Skóry v osobnostních dotaznících využitých pro účely přijímacího řízení do zaměstnání nebo na prestižní školu vykazují vyšší hodnoty ve faktoru svědomitosti, emoční stability a v integritě, než skóry získané v neutrálních situacích, např. při účasti na experimentu. Někteří autoři považují
169
efekt předstírání za minimální, většina studií ale podvádění potvrzuje. Tento efekt nenalézáme ve všech kulturách a liší se i jeho míra u různých sledovaných charakteristik. Koncepty a termíny v kapitole 7: KVALITA DIAGNOSTIKY Produkty a služby v diagnostice klienta Falešná pozitivita a negativita v predikci Standardy pedagogických a psychologických testů APA Četnost používání testů diagnostiky Pořadí používaných testů Kritika diagnostiků a jejich vědomostí a práce Kritéria pro teorie: logická konzistence, integrativní síla, přínos pro výzkum, empirické důkazy Některá z Meehlových „slabých míst teorií“: diverzita příčin, náhodná procházka atd. Gigerenzerovy náhražky teorií: jednoslovná vysvětlení, „přepis“, matoucí dichotomie, přizpůsobování datům Příčiny tvorby slabých teorií: nedostatek teoretického zájmu, teritorialita psychologických disciplín „Personalizované“ a „ne-personalizované“ osobnostní teorie Překážky „psychometrické revoluce“: operacionalismus, klasická testová teorie, nedostatek vhodných teorií Témata k hodnocení testů a dotazníků: podklady nástroje, kvalita testových materiálů, kvalita manuálu, normy, reliabilita, konstruktová validita a prediktivní validita Informační zátěž diagnostika: návody, formální modely Kritika konstruktivistů a vzdělávacích reformistů vůči posuzovacímu procesu Etická pravidla v diagnostice: soukromí Zkreslení na úrovni položek: diferenciální funkčnost položky Diferenciální validita Prediktivní zkreslení Předstírání v osobnostních dotaznících
ČÁST 3 Psychologická diagnostika ve výuce a v praxi 8 DIAGNOSTIKA A POSUZOVÁNÍ – VÝUKA, PROFESNÍ ODVĚTVÍ, PRAXE Psychologická diagnostika se přednáší v různých výukových kontextech. Protože není samostatnou psychologickou subdisciplínou, vyžaduje obeznámenost s poznatkovou základnou psychologie. Ve výuce i v profesionální praxi dochází k diferenciaci v důsledku vývoje disciplíny samotné i v důsledku společenských změn. Žádný diagnostik není schopen obsáhnout všechny podobory a odvětví diagnostiky, ty jsou fragmentované a stále se proměňují. Je obtížné identifikovat vlastní specializační doménu, a moci jednoznačně odpovědět na otázku “Co je tvé téma?“ Jak je diagnostika ukotvena v dílčích disciplínách a profesních oblastech psychologie? Jednotlivé disciplíny jsou reprezentovány katedrami a ústavy společenskovědních univerzitních institucí i odborníky v rámci institucí. Pracoviště charakterizuje jejich obsahové zaměření (věcný objekt) a perspektiv (formální objekt). Obvyklé je rozdělení na psychologii obecnou, vývojovou, sociální, klinickou psychologii a psychologii zdraví, psychologii práce a organizace a psychologii osobnosti. Na metodologii a statistiku se zpravidla pohlíží jako na samostatný obor. Rozvoj disciplín odborné psychologie je propojen s vývojem společnosti, institucí a organizací. Dělba práce a potřeba organizovat skupiny zaměstnanců byla podnětem ke vzniku oborů, jako je personalistika, psychologie průmyslu a psychologie práce 170
a organizace. Nedávno přibyla neuropsychologie. Na jaké otázky nabízejí tyto obory odpovědi? 8.1 Diferenciace psychologie Psychologie se od konce 19. století rozdělila do mnoha podoborů. Odlišují se svým materiálním a/nebo formálním objektem, tj. svým obsahem (specifické projevy chování) a/nebo specifickou perspektivou, ze které chování sledují. Klinický psycholog se zabývá jinými tématy než odborník na obecnou psychologii, nejsou si však úplně cizí. Deprese u dospělých je například tématem klinické psychologie, stejné téma ale může zkoumat i obecná psychologie, která se bude zabývat zapamatováním traumatických událostí u depresivních klientů. Vývojový psycholog se pak v zásadě zabývá jakýmkoli chováním, ale z perspektivy změn v průběhu času. Obvykle se rozlišují čtyři základní psychologické disciplíny. Obecná psychologie (psychonomie) zkoumá základní funkce jako je vnímání, pozornost, paměť, řeč, emoce a kognitivní funkce. Usiluje o nalezení obecných zákonitostí. Je nejstarší psychologickou disciplínou, jejími prvními představiteli byli Wundt a Fechner s Weberem. Zaměřuje se na zkoumání vztahu mysli a těla, studuje vztah mezi vnímáním a reálným světem. Vývojová psychologie se zabývá popisem a vysvětlením změn v chování během života. Původně se zaměřovala především na dětský věk, nazývala se “genetickou psychologií“ a byla považována za součást oboru psychonomie. V té době se zabývala výchovou dětí, hygienou a kontextem života domácností. Od 70. let 20. století vývoj člověka studuje v celoživotní perspektivě. Psychologie osobnosti se zaměřuje především na charakteristiky, ve kterých se lidé vzájemně odlišují. Nazývá se proto také „psychologií individuálních rozdílů“. což odkazuje ke korelačním výzkumům chování, zaměřeným na již existující rozdíly. V tom spočívá jejich odlišnost od experimentálních studií, ve kterých se nezávisle proměnné vytvářejí a v rámci výzkumu s nimi manipuluje. Jako samostatná disciplína se prezentuje i sociální psychologie, je ale otázka, zda termín „sociální“ označuje specifický obsah nebo perspektivu. Každé lidské chování je sociální, protože pokud by neexistovali další lidé, lidská bytost by ztratila svou podstatu. Zřejmě v důsledku toho sociální psychologie zahrnuje soubor různorodých témat, k nimž patří např. lidské vnímání, postoje, kognitivní disonance, altruismus, agrese atd. Vedle těchto základních disciplín existují aplikované obory klinické psychologie, psychologie zdraví a psychologie práce a organizace. Jejich vznik byl reakcí na požadavky společnosti. Znakem existence samostatné disciplíny jsou i specializované učebnice a odborné časopisy. Oblasti obecné psychologie a zpracování informací jsou v tomto ohledu pokryty velmi dobře. Zvláštní časopisy se věnují řadě základních funkcí, jako je vnímání, řeč nebo paměť. Totéž platí pro vývojovou psychologii. Damon (2006) je hlavním editorem čtyřsvazkové publikace o vývojové psychologii o více než 4500 stranách. V roce 2009 vyšlo už její čtvrté vydání. Vývojem dětí i dospělých, průběhem života a gerontologií se zabývá mnoho odborných časopisů (Birren & Schaie, 2006). Časopis Journal of Genetic Psychology je jedním z nejstarších amerických psychologických časopisů. Mnoho časopisů je věnováno rovněž tématu osobnosti, často ve spojitosti s posuzováním individuálních rozdílů. Vzniká rovněž řada přehledových učebnic (Pervin & John, 1999; Hogan et al., 1997). Aktuální přehledové práce se věnují i souvislostem mezi osobností, vývojem v průběhu života a metodologií (např. Pulkkinen & Caspi, 2002, Mroczek & Little, 2006; Robins et al., 2007). Mnoho sociálně psychologických učebnic odráží nedostatek materiálu a formálního objektu prezentováním různorodých témat, problémů, námětů, konstruktů a mikroteorií (např. Hewstone et al., 1997).
171
Ve studiu vnímání, paměti a řeči nehraje diagnostika žádnou zvláštní roli. V rámci aplikované kognitivní psychologie existuje prostor pro diagnostiku poruch vnímání, poznávání, řeči a paměti. Podobně v teoretických výzkumech vývoje není diagnostika specifickým tématem, zatímco v rámci aplikované vývojové psychologie je její úloha velmi významná. Binetův test byl původně zamýšlen jako nástroj k měření kognitivní úrovně u dětí. Osobnost a diagnostika jsou propojeny od samého počátku. Důraz je kladen na individuální rozdíly v rysech, poznávacích procesech, motivaci a adaptaci s ohledem na výběr a uplatnění jednotlivců. Diagnostika není zvláště důležitým tématem ani v sociální psychologii. Techniky konstrukce postojových škál (Edwards, 1957) mají úctyhodnou historii a jsou pro diagnostiku užitečné, ale vznikly nezávisle např. na teorii testů. Guttmanova škála byla například vytvořena k měření a škálování sociální distance/blízkosti mezi lidmi, ale může být použita i pro škálování vývojových posunů v kognitivní oblasti. Představuje test přirozené následnosti chování v průběhu života. Je deterministickou verzí Raschova modelu. Vedle čtyř základních psychologických disciplín existuje i obor metodologie a statistiky, považovaný často za samostatný. Zde k němu přistupujeme jako k pomocné disciplíně, pro mnohé však představuje skutečně samostatnou disciplínou s vlastním formálním objektem, např. matematickou psychologií. Coombs et al. vydali v roce 1970 knihu s tímto titulem, ve které se sami sebe ptají, zda je opravdu „disciplínou“ nebo jen „sbírkou užitečných triků“ (s. 1). Tento obor se obvykle věnuje výzkumným designům, statistickým a testově teoretickým modelům, teoriím a analýze dat a způsobům jejich shromažďování. Studenti se zabývají jednotlivými psychologickými disciplínami a identifikují se s nimi: on je vývojový psycholog, ale já studuji kognitivní psychologii. Existují zde hranice a dělící čáry. V rámci disciplín existují sítě výzkumníků a pracovních skupin s vlastními kongresy a odbornými časopisy. Výbory posuzující výzkumné žádosti jsou obvykle složeny z odborníků ze stejné skupiny. Žadatelé jsou často schopni dobře odhadnout, kdo bude posuzovat jejich návrh výzkumu. Mezi jednotlivými obory existuje hierarchie. Odborné komise nerozdělují peníze rovnoměrně mezi všechny obory. Ty zde popíšeme pomocí metafory „kast“, ke kterým nemůže člověk jen tak změnit příslušnost. Nemůže např. „vyměnit“ vývojovou psychologii za kognitivní, aniž by se dokonale přizpůsobil podmínkám oboru. Doporučení mezioborového přístupu k výzkumu bývají často jen planými slovy. Shrnutí 8.1 Psychologie se od svých počátků v 19. století rozdělila do dílčích disciplín: obecná psychologie zkoumá obecné zákonitosti vnímání, paměti, řeči apod., vývojová psychologie se zabývá změnami v chování v průběhu života, psychologie osobnosti studuje individuální rozdíly v typech, stylech a rysech osobnosti a sociální psychologie, pro niž není typický žádný specifický obsah ani teoretická perspektiva. Tyto čtyři disciplíny reprezentují samostatné instituce a mají vlastní časopisy a učebnice. Existují také samostatné ústavy klinické psychologie a psychologie zdraví a psychologie práce a organizace. Diagnostika nemá v jednotlivých podoborech specifické místo; výjimku tvoří psychologie osobnosti, která je historicky spojena s měřením individuálních rozdílů. Aplikované obory klinické psychologie a psychologie práce jsou těsně spjaty s diagnostikou poruch a výběrem zaměstnanců. Jednotlivé disciplíny jsme metaforicky popsali jako “kasty“, což odkazuje k jejich implicitní hierarchii a ke skutečnosti, že je obtížné mezi disciplínami volně přecházet. 8.2 Diferenciace psychologického vzdělávání Když univerzita zahájí výuku psychologie, přihlásí se obvykle jen malý počet studentů. Jakmile stát nebo země lépe prosperuje, na psychologii se hlásí více a více uchazečů. Nárůst zájmu souvisí s úsilím průkopníků, stoupenců a vládní politikou. Průkopníci musí přesvědčit studenty, že po ukončení studia najdou práci nebo alespoň že vzdělání v tomto oboru má 172
smysl, protože např. zprostředkuje kulturní hodnoty. Pokud uspějí, přidají se další studenti a do vzdělávání se zapojí noví mladí učitelé. Pokud není organizace uzavřená a pokud není na překážku vážná jazyková bariéra, navštěvují další země. Začnou přinášet zahraniční zkušenosti s úspěšnými postupy a zvolna utvářet obsah a metody odpovídající otázkám jejich vlastní společnosti. Organický růst oboru „zevnitř“ vyústí do vyčlenění samostatných témat a perspektiv a vede postupně k etablování základních a aplikovaných disciplín. Na počátku průkopníci ze zahraničí a/nebo z řad kolegů, kteří navštívili jiné země, „importují“ jen vybraná témata, i v tomto zdánlivě nahodilém souboru témat a kurzů s mnoha lokálními odchylkami však přesto existuje určitá jednota. V zásadě lze rozlišit šest oblastí. Klinická psychologie a psychologie zdraví. Stejně jako lékaři a zdravotníci mohou lidem s jejich potížemi a problémy pomoci i psychologové. Zvláště pokud se rychle rozvíjí střední třída, jejíž členové už nežijí intenzivně zakotveni v širší rodině, roste i poptávka po radách a pomoci při adaptaci na tuto novou situaci. Sociální psychologie a psychologie práce a organizace představuje samostatný proud ve vzdělávání, který reaguje na společenskou poptávku spojenou se situací, kdy vzhledem ke stěhování do samostatných domů a setkávání s jinými lidmi než členy rodiny vznikly nové sociální vztahy. Nová střední třída znamená nová povolání a nové role zaměstnanců. Vyčleňuje se rovněž vývojová psychologie (vývoj dětí, dospívajících a dospělých, vývoj v průběhu života) a pedagogická psychologie. Existuje poptávka po pomoci dětem, respektive jejich rodičům v otázkách rodičovství a vzdělávání. Obecná psychologie studuje základní funkce lidské psychiky od vnímání po poznávání a zpracování informací. Neuropsychologie se zaměřuje na vztah mozku a chování. Dva posledně jmenované obory jsou relevantní pro všechny odborné psychology. Kromě toho existuje vědecký zájem o trojici základních dimenzí lidské existence (individuální rozdíly, vývoj v čase a sociální kontext); tyto tři dimenze nejsou jen příkladem libovolné teoretické orientace. Teorie a metodologie v těchto oblastech jsou více méně univerzální, ale vyžadují elaboraci a interpretaci vzhledem k dané kultuře. To znamená, že psychologie je na rozdíl např. od fyziky částečně kulturní vědou. Připomeneme-li argumenty z kapitoly o historii, vidíme, že britská a americká pragmatická orientace je kulturně podmíněná. Importování americké psychologie znamená i import pragmatické orientace a empiristického postoje. Obecně je rozšířena struktura studia bakalář-magistr-Ph.D., liší se ale úroveň jednotlivých stupňů. Bakalářský stupeň poskytuje vzdělání všeobecné a nabízí jen omezenou přípravu pro profesionální dráhu. Kromě základních kurzů věnovaných psychologickým teoriím a metodám se na bakalářském stupni vyučuje i biologie a sociologie. V mnoha zemích mají studenti určitou volnost a mohou si sami zvolit, zda budou navštěvovat nepsychologické kurzy. Bakalářské studium je obvykle tříleté, magisterské jedno- až dvouleté. Dvouleté studium je cestou k profesionální dráze nebo doktorskému studiu. Obecná psychologie může být kombinována s neuropsychologií a neurovědami. Důraz je kladen na funkční poruchy u klientů. Odborníci na tuto oblast se musí seznámit s diagnostikou prováděnou s pomocí počítačů, testů a experimentů (Lezak et al., 2004). Spolupracují v týmech, kde jsou jim kolegy přírodovědci a lékaři. Magistři vývojové psychologie jsou obvykle zaměřeni na diagnostiku vývojových komplikací u dětí, adolescentů a jejich rodin. „Klienty budoucnosti“ jsou v rozvinutých zemích dospělí a staří lidé. Ke klinické psychologii a psychologii zdraví od počátku patří diagnostika abnormálního chování. Sociální psychologie je spojena s personalistikou, psychologií práce a organizace. Pro profesionály z těchto oborů je diagnostika a posuzování významnou součástí jejich praxe, např. při výběru uchazečů a analýze organizací. Postgraduální vzdělání navazuje na předchozí univerzitní studijní 173
programy. Studenti doktorského studia jsou obvykle vybíráni a navštěvují speciální kurzy, prohlubující jejich metodologické a statistické dovednosti. Řešená témata bývají součástí výzkumného programu pracoviště. Shrnutí 8.2 Psychologie je mladý obor, v některých zemích ještě mladší než v jiných. Psychologické vzdělávání umožňuje podpora zahraničních odborníků a průkopníků z dané země. Pro studenty je psychologie atraktivní tehdy, pokud země dosahuje určitého stupně prosperity, protože profese psychologa neuspokojuje bezprostřední potřeby potravy a bydlení. Psychologické vzdělávání sestává ze zdánlivě nahodilého souboru kurzů, který ale je konzistentní vzhledem k historii a vývoji disciplíny samotné i vzhledem k nárokům společnosti. Budoucí psychologové studují na katedrách kognitivní psychologie, vývojové psychologie, sociální psychologie, psychologie práce a organizace a klinické psychologie a psychologie zdraví. Všechny jmenované obory se stále přirozeně rozvíjejí. Struktura studia od bakalářského, přes magisterský až po doktorský stupeň je široce rozšířená, ale má různou úroveň. Mnoho studentů po ukončení magisterského studia zvolí profesionální praxi a seznámí se s diagnostickými metodami ve zvoleném oboru. 8.3 Diferenciace oblastí profesní praxe V praxi došlo ke vzniku několik samostatných oblastí psychologie . Nová disciplína může vzniknout tehdy, když skupina profesionálů popíše svou oblast působnosti, definuje úkoly a získá si pozici na trhu. Jakmile se jejich pozice upevní, může skupina definovat požadavky na ty, kdo se chtějí stát jejími členy. Přestože se jedná o rozdělení spíše umělé a mezi jednotlivými zeměmi existují velké rozdíly, rozlišujeme v psychologii pět profesních odvětví: klinická psychologie a psychologie zdraví, pedagogická psychologie, psychologie práce a organizace, poradenství pro volbu povolání a neuropsychologie. Encyklopedie diagnostiky (Fernández Ballesteros, 2003) definuje sedm srovnatelných oblastí z hlediska náplně práce: osobnost, inteligence, klinika a zdraví, pedagogika a dítě, práce a organizace, neurofyziologie, psychologická diagnostika a diagnostika prostředí. Mnoho odborníků identifikuje rozmanité skupiny dílčích problémů, i ty ale mohou být přičleněny do zmíněných oblastí. Některá témata přesahují do různých odvětví, např. vyhoření je tématem v psychologii práce (je břemeno pro zaměstnance příliš velké?) v klinické psychologii a psychologii zdraví, ale v každém odvětví je na něj pohlíženo z jiné perspektivy, např. klinický psycholog se bude zaměřovat na psychologickou konstituci člověka, zatímco psycholog práce bude spíše zkoumat pracovní podmínky klienta. Odborníci se hlásí k oblastem, ve kterých se cítí být „doma“. Dělení profesních oblastí odráží z části potřeby společnosti, ale do značné míry i vliv vzdělávacích institucí. Psychologové potřebují instituce, které nabízejí práci, například kliniky nebo školy. V dobách růstu blahobytu roste i počet studentů a pedagogických pracovníků. Vědečtí pracovníci studují chování bez ohledu na okamžitý zisk. Společnost a její instituce takovou svobodu umožňují, může ale existovat i tlak na řešení aktuálních problémů. Univerzity se těmto požadavkům čas od času přizpůsobují a organizují výuku k právě významnému tématu, např. děti, práce, organizace, zločin, terorismus, etnická integrace, protože i „psychologie se ubírá tam, kam směřují peníze“. Profesní organizace působí jako středověké cechy, protože vyžadují loajalitu svých členů a prověřují jejich schopnosti. Pokud členové standardy nesplňují, mohou být kritizováni a stíháni. V některých zemích existují zákony týkající se odborné psychologické péče, pravidla a požadavky kladené na své členy obvykle formulují samy profesní organizace. Ačkoli existuje mnoho rozdílů v organizaci jednotlivých oblastí psychologie v různých zemích, níže
174
se pokusíme popsat jednotlivá odvětví, jejich náplň (předmět, témata), instituce, druhy diagnostických aktivit, otázky a problémy i požadavky na kvalifikaci. Shrnutí 8.3 Profesní odvětví vznikají na základě potřeb společnosti a aktivity skupin psychologů, které zaujmou „místo na trhu“. Rozlišujeme pět oborů: klinická psychologie a psychologie zdraví, pedagogická psychologie, psychologie práce a organizace a poradenství pro volbu povolání a neuropsychologie. Obory vykazují charakteristiky středověkých „cechů“, což znamená, že vyžadují, aby noví členové prokázali své kompetence a pokud selžou, mohou být postihováni. 8.4 Klinická psychologie a psychologie zdraví Kliničtí psychologové a psychologové zdraví zkoumají chování, emoce a poznávací procesy, které nesplňují určitý standard. Chování může být nežádoucí, např. deprese, nebo žádoucí, např. zdravé sebeprosazování. Odborníci se snaží chování porozumět a posílit je nebo změnit. Do tohoto oboru náleží celá řada témat, např. fobie, nespavost, asertivita, psychosomatické potíže, hyperventilace, deprese, sexuální potíže, stres, epidemiologická témata, prevence poruch, pracovní neschopnost, důsledky traumatických událostí, sebevraždy, sociální opora, sexuální identita a sexuální násilí. Kliničtí psychologové pracují v institucích poskytujících zdravotní péči, krizovou intervenci, další vzdělávání, na klinikách, podnikových zdravotnických zařízeních a v psychiatrických léčebnách. Jejich práce je různorodá, od např. vytváření a hodnocení zdravotních programů, poskytování pomoci a sledování její kvality, výzkumu faktorů, které ohrožují zdraví, spolupráce při vytváření politiky institucí, navrhování, provádění a hodnocení preventivních programů, po zvládání stresu a pomoc obětem zločinů. Jejich práce vyžaduje diagnostiku individuálních klientů a jejich sociálního kontextu. Pozornost se zaměřuje na problémy osobnosti, poruchy, poškození mozku, problémy ve výchově dětí a v sociálních vztazích. Mozkem a jeho poškozením se dříve zabývala klinické psychologie, dnes se mu věnuje neuropsychologie. V mnoha institucích se kliničtí psychologové účastní přijímacího pohovoru s klientem. Ten zahrnuje i prvky zdravotní anamnézy, zaměřuje se například na tělesný vývoj a případné komplikace. Pro usnadnění komunikace s dalšími profesionály a pro organizaci a možnost kontroly svých činností vytvářejí instituce protokoly. Protokolem pro psychiatrické diagnózy je DSM. Blok 8.1 ukazuje příklad otázek a postupů. Blok 8.1: Příklad otázek a postupů v klinické psychologii a psychologii zdraví Otázka: Je přítomna porucha osobnosti? Postup: Aplikace kritérií z literatury (DSM), anamnéza, rozhovor, testy. Otázka: Je přítomna psychiatrická porucha? Postup: Aplikace kritérií pro psychiatrickou klasifikaci. Otázka: Jaká je kapacita klienta zvládnout velkou ztrátu? Postup: Porovnání intelektuální a emoční kapacity se závažností stresorů. Otázka: Jaké je sociální prostředí na oddělení, ve skupině nebo v instituci? Postup: Pozorování prostředí za pomoci objektivních škálovacích technik. Otázka: Je situace rodiny problémová, je přítomen manželský konflikt? Postup: Analýza rodiny/vztahů v manželství za pomoci dotazníků, v rozhovoru a pozorování manželských interakcí doma. Kliničtí psychologové používají rozsáhlý repertoár diagnostických nástrojů k posouzení poruch intelektu, poznávacích procesů, zpracování informací a osobnosti. Mnohé z těchto nástrojů umožňují objektivní skórování a jsou empiricky ověřené. Součástí shromažďování 175
dat je rozhovor. I když je tato procedura často kritizována jako subjektivní, strukturovaný rozhovor může být stejně reliabilní jako objektivní testy (Wood, et al., 2002; Meyer et al., 2001). Mezi další techniky patří funkční analýza chování a projektivní metody. Posledně jmenované jsou považovány za nedůvěryhodné vzhledem k subjektivní interpretaci odpovědí klienta. Existují různé profesní organizace klinických psychologů a psychologů zdraví, protože ti jsou zaměstnanci různých institucí s vlastní politikou a vlastními projekty. Některé z institucí jsou: kliniky nabízející ambulantní péči, forenzní instituce, domovy důchodců, nemocnice a psychiatrické léčebny, zařízení pro mentálně a tělesně postižené; kliničtí psychologové také vystupují jako soudní znalci. Většina psychologů má vzdělání právě v klinické psychologii a pracuje na klinických pracovištích. Shrnutí 8.4 Klinická psychologie a psychologie zdraví se zabývá chováním dětí a dospělých, které neodpovídá normě. Pokouší se o změnu tohoto chování nebo o jeho pochopení. Kliničtí psychologové pracují v institucích zabývajících se mentálním a fyzickým zdravím. Diagnostika tvoří podstatnou část jejich práce, používají různorodý soubor nástrojů a procedur, včetně rozhovoru a projektivních testů. Obor se dále dělí vzhledem k různorodosti úkolů, např. na denních ambulantních klinikách, v domovech důchodců a v institucích pro mentálně a tělesně postižené. 8.5 Personalistika, psychologie práce a organizace První psychologické testy byly navrženy pro účely výběru zaměstnanců a posuzování profesních zájmů. V rámci této oblasti lze odlišit zaměření na personalistiku, psychologii práce, ergonomii, psychologii organizace a poradenství pro volbu povolání. Personalistika se věnuje posouzení a predikci pracovní úspěšnosti jednotlivce a měření charakteristik s ohledem na výběr a umísťování pracovníků. Při výběru můžeme odmítnout uchazeče, pokud jejich počet převyšuje poptávku. Při umisťování musí být umístěni všichni, např. při přijímání dětí do škol. Základní otázkou je predikce a hodnocení výkonu zaměstnance. K oborovým tématům patří analýza práce, požadavků dané pracovní pozice, hodnocení zaměstnání, nábor zaměstnanců, výběr a umísťování, kariérní poradenství, výkonová orientace, poradenství a osobní trénink, např. nácvik schopností týmové spolupráce. Personalisté jsou zaměstnanci personálních oddělení společností nebo neziskových institucí. O práci musí soupeřit s dalšími odborníky, například s právníky, manažery a personalisty. Jsou přítomní u důležitých momentů v kariéře zaměstnanců: při výběru, změně zaměstnání i ukončování kariéry. K jejich práci patří i poradenství zaměstnancům s cílem podporovat přijatelné pracovní podmínky. Samozřejmou součástí jejich práce je nábor, výběr a umisťování zaměstnanců. Velké společnosti mají často oddělení, která vytvářejí své vlastní nástroje a postupy. Psychologové-personalisté potřebují znalosti o hodnocení personálu manažery a o jejich preferencích. Kromě posuzování jednotlivých zaměstnanců se zabývají i výkonem skupin a klimatem ve skupině. Analyzují skupiny, skupinový vliv, rozdělení moci a vůdcovství. Kromě testování jednotlivců využívají i assessment centra, tj. žádají kandidáty, aby se zapojili do hraní rolí a řešení problémů, které odrážejí jejich budoucí úkoly, např. rozhodnutí, která budou muset podstoupit. Psychologové práce a organizace se účastní posuzování kvality plnění úkolů zaměstnanci. Zajímá je rovněž, jak může práce získat smysl nebo se stát smysluplnější, jak předcházet tomu, aby zaměstnanci předčasně odcházeli, měli psychické nebo fyzické potíže, ztráceli motivaci, poškozovali společnost. Zkoumají spokojenost zaměstnanců, jejich motivaci, nemocnost, pracovní zátěž, vyhoření, zapojení, podvody, fungování skupin, spravedlivou odměnu za vykonanou práci a trénují manažery. Najdeme je v poradenských firmách, 176
firemních odděleních zdravotní péče, institucích zabývajících se vztahy s veřejností a institucích pro pomoc nezaměstnaným nebo jejich opětovné zapojení do pracovního procesu. Psychologové práce musejí rozumět diagnostice jednotlivců, skupin a pracovních podmínek. Musí se flexibilně přizpůsobovat požadavkům různých společností a znát nástroje pro posouzení klimatu společnosti a pracovních podmínek, např. posuzování náplně práce, vnímání odměny, styl vedení a psychologické a fyzické pracovní podmínky. Ergonomie je specializované odvětví, které přizpůsobuje úkoly zaměstnancům, bere v potaz jejich fyzické kapacity i kapacitu pro zpracování informací. Odborníci v tomto odvětví se podílejí např. na optimalizaci pracovních podmínek pro handicapované a starší pracovníky, vytváření podmínek pro bezpečnost práce a systémů dohledu, na zajištění bezpečnosti práce operátorů nebezpečných strojů, na tréninku bezpečnostního personálu k rozpoznávání signálů v hlučném prostředí a na prevenci poškození z opakovaného namáhání (repetitive strain injury – ̶RSI). Cílem je využít lidský potenciál bez ztráty zřetele na cíle společnosti vydělávat a jako společnost přežít. Psychologie organizace se zabývá spoluprací jednotlivců, skupin i organizací. Sleduje komplexní vztahy a komunikaci v institucích a firmách. Psychologové organizace studují spolupráci, vytváření koalic, komunikační procesy, rozdělení moci, vedení a spolupráci na rozhodování, sociální manipulaci a vývoj skupiny. Často bývají zaměstnáni jako výzkumníci a poradci, zapojují se i do organizování managementu. Od manažerů se očekává, že převezme vedení, někdy však aniž by poradcům naslouchal. Krizový manažer vede společnost v těžkých časech, např. pokud společnost přestane vydělávat, zaměstnanci musejí být propuštěni nebo se mění struktura společnosti. Pozice psychologa v organizaci není jednoduchá, protože personál ponese důsledky rozhodnutí, na kterých se podílí. Potřebuje rozumět tomu, co se ve skupině pod tlakem odehrává a být schopen sladit protichůdné cíle, např. záměry vedení se zájmy zaměstnanců. Musí být schopen analyzovat konflikt a trénovat management v řešení problémů, aniž by utrpěly vztahy. Nástroje k analýze těchto komplexních procesů ve skupině a organizaci není jednoduché vytvořit. Psycholog musí využívat své schopnosti vnímat signály, analyzovat je a komunikovat se zaměstnanci, tedy nejen s manažery. Psycholog organizace se zde utkává s reprezentanty dalších oborů, jako je sociologie, management a veřejná správa. Poradenství pro volbu povolání: Doménou poradců je výběr školy, zaměstnání, společnosti nebo instituce, kde chce být člověk zaměstnán. Pomáhají při volbě profese, která bude vyhovovat zájmům a možnostem klienta, žákům a studentům při výběru zajímavých a zvládnutelných kurzů. Poradci shromažďují informace o studijních možnostech a možnostech pracovního uplatnění. Pracují v nejrůznějších institucích nebo ve vlastní soukromé praxi a bývají velmi dobře informováni o pracovním trhu. Jejich klíčovým úkolem je posouzení zájmů a předpokladů, ale používají i nástroje zaměřené na motivaci, profesní zájmy a osobnost. Pokud během vyšetření zjistí, že klient vyjadřuje pochyby o svých zájmech a schopnostech, potom se součástí jejich práce stává i poradenství. Poradci pro volbu povolání na školách pracují pod odbornou supervizí. Významnou součástí jejich průpravy je i vzdělávání v diagnostice. Blok 8.2 ukazuje, jaké otázky a postupy jsou pro obor psychologie práce typické. Blok 8.2: Otázky a postupy v oboru psychologie práce a organizace a poradenství pro volbu povolání Otázka: Splňuje žadatel požadavky? Postup: Screening žadatelů s pomocí testů a rozhovorů nebo v assessment centrech podle předem zvolených kritérií. 177
Otázka: Je pracovní prostředí stresující? Postup: Hodnocení, rozhovory se zaměstnanci, pozorování pracovního prostředí: náplně práce, sociálních vztahů, vedení. Otázka: Jaké je organizační klima ve společnosti, na oddělení? Postup: Posouzení organizace v dimenzích jako uspořádanost, předvídatelnost, zaměřenost na cíl; schopnost vzbuzovat důvěru zaměstnanců, orientace na hodnoty (jen zisk nebo jen přežití, nebo dlouhodobá politika k přežití). Hodnocení a pozorování proměnných organizace. Otázka: Jak dobře plní zaměstnanec své úkoly? Postup: Popis přístupu k práci, sociálního chování; pocit úspěšnosti zaměstnance. Otázka: Jak vypadá týmová diskuse o rozvoji? Postup: Popis diskusí v týmu, popis skupinové dynamiky. Otázka: Jaké má daná osoba odborné zájmy? Postup: Prozkoumání zájmů, hodnot, self-konceptu a identity jedince. Otázka: Je daná osoba schopna dostát nárokům daného zaměstnání? Postup: Prozkoumání míry zájmu, schopností, a zvláštních dovedností potřebných pro danou práci. Otázka: Proč si daná osoba není schopna vybrat práci nebo školu? Postup: Posuzování osobnosti, sociálního prostředí a významu práce v životním kontextu osoby. Otázka: daná osoba schopna přebrat zodpovědnost za svá rozhodnutí? Postup: Posouzení zralosti volby, náhled na vlastní schopnosti. Otázka: Proč člověku jeho volba nepřináší uspokojení? Postup: Posuzování sociální adaptace, behaviorální indikátory psychických potíží. Shrnutí 8.5 Oblast pracovní psychologie zahrnuje personalistiku, psychologii organizace, ergonomii a poradenství pro volbu povolání. Psychologové s tímto zaměřením jsou činní ve společnostech, institucích, nebo mají své vlastní soukromé praxe. V každé z jmenovaných specializací hraje diagnostika významnou roli. Vedle klasických individuálních postupů (testování předpokladů, motivace, schopností) patří k jejich repertoáru i assessment centra a měření kvalit prostředí. 8.6 Vývojová a pedagogická psychologie Odborníci na vývojovou psychologii mají podobná východiska jako kliničtí psychologové, věnují ale zvláštní zřetel individuálním rozdílům vzhledem k věku a stupni vývoje. Vývojová psychologie klade důraz na rovnováhu vývoje v různých oblastech, např. po stránce vývoje emocí, sociálního chování a kognice. Součástí posuzování dětí a dospívajících je i znalost jejich sociálního prostředí (rodičů, sourozenců, vrstevníků, sousedství, školy, třídy). Specialisté na vývoj často pracují ve stejných institucích jako kliničtí psychologové a psychologové zdraví, ačkoli mezi dětskými a klinickými psychology existuje často rivalita ohledně vymezení kompetencí – klinici argumentují, že pro práci s dětmi nejsou zapotřebí žádné speciální a doplňující znalosti. Pedagogická psychologie je jednou z nejstarších oblastí uplatnění psychologie v praxi. Úspěšné počátky testového hnutí jsou spjaty s měřením kognitivní úrovně čtyř až dvanáctiletých dětí (Binet). Pedagogičtí psychologové informují učitele o procesu učení a faktorech, které jej ovlivňují: jsou to jednak kognitivní a osobnostní charakteristiky žáka, jako je jeho inteligence, schopnosti, motivace, strach ze selhání a citlivost vůči stresu, za druhé poskytují informace o charakteristikách skupiny, sociometrickém statutu žáka, o obtěžování a šikaně, o dětech vyloučených ze skupiny, a za třetí o vlastnostech učitele, např. o stylu vedení výuky: autoritářský, autoritativní nebo „laissez faire“. Dále se zabývají výukovým prostředím, například uspořádáním třídy, pořadím úkolů, didaktickými metodami a použitými 178
vzdělávacími médii. Klíčovými tématy jsou učení, kognitivní, sociální a afektivní procesy u žáků a výukové aktivity. Pro všechny čtyři jmenované oblasti existuje mnoho měřicích nástrojů. Obsah těchto nástrojů se primárně vztahuje ke vzdělávacím cílům, méně k teorii. Zaměřují se zejména na posouzení počátečního stavu a systém kroků k dosažení cíle. Takovýto systém slouží k zajištění toho, aby si žáci skutečně osvojili látku. Ke zhodnocení tohoto procesu jsou vytvářeny a využívány formativní školní testy. Často je vytvářejí učitelé, a jejich prostřednictvím ověřují, zda žáci látce rozumí. Požadavky na reliabilitu a validitu zde nejsou tak striktní jako pro školské testy používané při rozhodování, např. kterou střední školu zvolit. Pedagogičtí psychologové se podílejí na změnách a pokračující modernizaci vzdělávání. Radí učitelům a žákům a hodnotí výsledky modernizace, např. jak zvládnout nový výukový software, jak zajistit výuku žáků v odlehlých oblastech, jak používat ve výuce počítače. V některých zemích vytvářejí výukové plány centrální vládní instituce, které pak rovněž dohlížejí na úroveň vzdělání a pomáhají navrhovat testy školních dovedností. Pedagogičtí psychologové jsou často specialisty na posuzování. Samozřejmou, ale časově náročnou součástí práce je testování jednotlivých žáků. Čas od času je větší důraz kladen na systém vzdělávání a v důsledku toho ubývá individuálního testování, protože se předpokládá, že důležitým faktorem není žák, ale kvalita systému, v jehož rámci vzdělávání probíhá. Individuální a skupinové testování však přesto zůstává jedním z úkolů pedagogického psychologa. Zahrnuje měření inteligence a diagnostiku nadání, posuzování výkonové motivace, strachu ze selhání a sociální pozice žáka ve třídě. Zvláštní pozornost vyžadují žáci se specifickými poruchami učení ve čtení, psaní a matematice. Úroveň, jaké třída dosahuje, je funkcí inteligence a motivace žáků, proměnných osobnosti učitele, např. jeho znalostí a stylu výuky, počtu žáků ve třídě a fyzického prostředí. Vzdělávací instituce od základních po vysoké školy jsou „experimentální zahradou“ pro vývoj testů, a dalších posuzovacích technik. Pedagogický psycholog musí být obeznámen se širokou škálou testů a dalších postupů. Blok 8.3 obsahuje některé příklady typických otázek a postupů individuálního hodnocení žáků. Diagnostika v oblasti vzdělávání ale vzhledem ke komplexitě výukového procesu, společenských podmínek, stylů výuky, struktury tříd, učební látky i vzdělávacích cílů zahrnuje mnohem více témat. Blok 8.3: Některé otázky a postupy individuálního hodnocení žáků Otázka: Jaká je úroveň nadání žáka? Postup: Testy inteligence a kreativity, zájmů a motivace nejméně ve dvou oblastech. Otázka: Jaký výkon žák nebo celá třída podává? Postup: Hodnocení výkonu v důležitých oblastech, studium učebního profilu každého žáka a jeho třídy, monitoring školních výsledků několikrát během školního roku. Otázka: Má žák rozvinuté předpoklady pro učení se čtení a počítání? Postup: Hodnocení předpokladů speciálními testy. Otázka: Jaký je výkonnostní profil žáka? Postup: Provedení standardních testů čtení, počítání, psaní a sociálního chování. Otázka: Je dané dítě schopno zvládnout normální základní školní docházku? Postup: Posouzení inteligence a předpokladů k učení. Shrnutí 8.6 Zaměření vývojových psychologů (těch, kteří se věnují dětem, dospívajícím a dospělým) je podobné zaměření klinických psychologů. Důraz však kladou na vývoj chování v průběhu života. Speciální pozornost je věnována pedagogické psychologii. Pedagogičtí psychologové se, kromě jiného, zaměřují na proces učení u dětí, na styl a kvalitu výuky, uspořádání látky a 179
vybavení tříd. Diagnostika se týká všech aspektů učení: inteligence a motivace žáků; stylu výuky, vzdělávacích cílů i školního prostředí. 8.7 Neuropsychologie Neuropsychologie byla původně odnoží klinické psychologie. Dnes je samostatnou disciplínou, která se zabývá diagnostikou poškození mozku a jejich důsledky pro život. Své místo v tomto oboru nacházejí studenti klinické a obecné psychologie. Pro „zeitgeist“ je charakteristické zdůrazňování organické báze chování. Neuropsychologové se zabývají kognitivními poruchami paměti (Korsakovův syndrom jako důsledek zneužívání alkoholu, demence), řeči (afázie) a vnímání (agnózie, neschopnost rozpoznat senzorické vjemy). Tyto poruchy se objevují v důsledku nehody, mrtvice, abúzu alkoholu nebo degenerativních onemocnění mozku. K dalším poruchám v ohnisku zájmu neuropsychologie patří např. agrafie (neschopnost psát), amnézie (ztráta paměti), amúzie (ztráta hudebních schopností), apraxie (neschopnost vykonávat koordinované činnosti), dyslexie (specifická porucha čtení a porozumění slovům a větám) a hyperaktivita. Aktuálně zkoumaným fenoménem je funkční specializace mozkových hemisfér. Neuropsychologie je samostatným odvětvím vzhledem ke specializaci v praxi, ale také v důsledku společenských podmínek, např. stárnutí populace (spojeného s vyšším výskytem demencí) a dopravní nehodovosti (a vyšší prevalence kontuzí mozku). Odborníci v neuropsychologii mohou precizněji zhodnotit poškození percepčních funkcí a zpracování informací. V oblasti neuropsychologie spolupracují psychologové, fyzioterapeuti, psychiatři, specializované zdravotní sestry a neurologové. Neuropsychologové nacházejí zaměstnání ve stejných institucích jako kliničtí psychologové: v nemocnicích, rekonvalescenčních centrech a domovech důchodců. Diagnostika obvykle probíhá na základě žádosti jiného psychologa nebo lékaře. Neuropsychologové disponují informacemi o etiologii poruchy a tato informace vede k výběru diagnostického postupu. Vyšetření začíná zdravotní anamnézou (utrpěl klient v minulosti poškození mozku?), psychologickou anamnézou (rodina, sexuální vztahy) a zjištěním kognitivního statutu (úroveň vzdělání, pracovní kariéra a záliby). Dále se zjišťují aktuální potíže, jejich průběh a důsledky pro práci a vztahy. Tyto informace jsou obvykle ověřovány také heteroanamnézou, tj. položením stejných otázek jinému informovanému zdroji, například příbuznému nebo partnerovi. Používají se testy obecné výkonnosti (WAIS) a screeningové nástroje k diagnostice např. afázie, agnózie a amnézie. Dále existují specializované testy a „miniexperimenty“, zjišťující selektivní vizuální poruchy vnímání barev, jasu, textury a prostorového vidění. K posouzení důsledků poškození pro osobnost klienta se využívají dotazníky. Neuropsycholog musí mít obecné povědomí o diagnostických technikách doplněné o znalost specifických testů poškození mozku a také schopnost koncipovat „miniexperimenty“ (viz Lezak et al., 2004). Speciální metody jako zobrazení mozku využívají a výsledky interpretují obvykle lékaři. Neuropsychologové se zabývají fenomény, které mohou doprovázet poškození mozku, jako je deprese, demence, zhoršení kognitivních funkcí. Dále analyzují, například které jazykové funkce jsou poškozeny, a hodnotí účinky léčby (medikace, kognitivního tréninku a tréninku paměti, neurologických operací). Neuropsychologové se spolupodílejí i na rozhodování soudu, např. zda má klient nárok na pojistné plnění nebo zda je nezbytná ústavní léčba. Blok 8.4 obsahuje několik příkladů typických otázek a postupů v oboru neuropsychologie. Blok 8.4: Otázky a postupy v oboru neuropsychologie Otázka: Je přítomna porucha chování? 180
Postup: Anamnéza a neuropsychologická testová baterie, získání informací přímo ze sociálního prostředí klienta. Otázka: Je indikováno neurologické vyšetření? Postup: Provedení neuropsychologické testové baterie a kvalitativního klinického vyšetření. Otázka: Je přítomna hyperaktivita? Postup: Provedení neuropsychologické testové baterie a analýza profilu. Otázka: Je přítomna některá forma dyslexie? Postup: Analýza čtení, provedení analýzy pravidelností na výsledcích. Otázka: Jaké jsou důsledky specifického poškození mozku pro psychologické fungování v rodině a v práci? Postup: Posouzení kognitivní kapacity a osobnosti, rozhovor s příbuznými, blízkými a kolegy. Otázka: Má daná psychoaktivní látka účinky na učební výkon? Postup: Sledování inteligence a školního výkonu. Shrnutí 8.7 Na poli neuropsychologie spolupracují klinická a kognitivní psychologie. Hybnou silou při etablování této disciplíny se stalo stárnutí populace a nárůst počtu dopravních nehod, zejména u mladých řidičů. Neuropsychologové se zabývají vztahem mozku (jeho poškozením), chování a emocí. Potřebují znát diagnostiku poruch základního fungování kognice a řeči (mluvený projev, porozumění, čtení, psaní) a spolupracují s lékaři, neurology, fyzioterapeuty, specializovanými sestrami, a logopedy. Klienty diagnostikují obvykle na základě žádosti jiného psychologa nebo lékaře. 8.8 Komentáře a hodnocení Diferenciace psychologie jako vědy je patrná už v rozdělení pracovišť na univerzitách. Jejím základem je rozdílný obsah a/nebo perspektiva. Obsahem se liší kognitivní psychologie, vývojová psychologie a psychologie osobnosti. Na základě předmětu studia je obtížnější vyčlenit sociální psychologii. Na koncepci vzdělávání na vysokých školách má vliv společenská poptávka. S diferenciací vzdělávání se začínají formovat i „kasty“. Diagnostika jakoby patřila ke všem disciplínám a současně nepatřila nikam, není samozřejmou součástí oborů, ale není ani samostatnou disciplínou. Diferenciace vzdělávání odráží organizaci vědy, ale svou roli sehrává i jejich atraktivita pro studenty, možnosti profesního uplatnění, sociální status oboru a možnosti výdělku v profesní praxi. To může vést k nesourodým kombinacím předmětů, přesto však ve vzdělávání na bakalářském, magisterském i doktorském stupni panuje určitá jednotnost. Profesní praxe je ovlivněna skupinovými procesy v komunitách psychologů, kteří cítí jistotu vždy v rámci vlastní disciplíny nebo určitého okruhu témat. Pro rozvoj psychologické profesní praxe je také třeba, aby daná země vykazovat určitý stupeň prosperity, protože psychologie se zpravidla „bude ubírat tam, kam směřují peníze“. Skupiny odborníků mohou klást podmínky pro příjem nových členů a mohou se svou organizací podobat středověkým „cechům“. Vždy, když se objeví dvě strany, najde se i optimista, který se pokusí zkombinovat to nejlepší z obou a vylepšit možnosti pomoci a poradenství pro klienty. Aktuálním příkladem může být Goodheartová (2011). Přináší návrhy pro zlepšení praxe a definuje její stavební kameny: prvky, obsah, metodologická doporučení vycházející z psychologických poznatků, jako je praxe založená na důkazech, terapeutická vodítka, technologie, diagnostické systémy, měření výsledků a integrovaná zdravotní péče. Naše kniha tak optimisticky nevyznívá. Integrace vědy a praxe není tak jednoduchá záležitost, pro „kasty“ a „cechy“ představuje vzájemná 181
spolupráce problém. Jak jsme také objasnili v kapitole 5, směrnice jsou tak komplexní a různorodé, že v běžné praxi nebývají využívány. Integrace (kapitola 12) je také často příliš vzdáleným cílem jak pro akademiky, tak pro praktiky. Odborníci v oboru klinické psychologie a psychologie zdraví jsou konfrontováni s otázkou, co a kdo je normální; co a kdo se normě vymyká. To je definováno kulturně a některé skupiny určují obdobné standardy více než jiné. To je důležité téma pro odborníky. Kliničtí psychologové a zvláště psychoterapeuti mají k diagnostikování komplikovaný vztah jako k příliš objektivní a mechanické (na vzorce spoléhající) proceduře (kapitola 4). Jejich pomáhající přístup a využívání projektivních metod bývá pravidelně předmětem kritiky. Psychologové pracující ve firmách a státních institucích se podílejí na výběru a umisťování zaměstnanců. Aby mohli svoji práci vykonávat dobře, potřebují, aby jejich pozice byla nezávislá, ve skutečnosti bývají ale často závislí na vedení společnosti, nadřízených úřednících a politicích. Navíc pro výběr personálu využívají prediktory a kritéria, která se osvědčila někdy v minulosti. V době rychlých změn v průmyslu i ve společnosti mohou předpovídat „pro minulost“, a tedy špatně. Práce vývojových psychologů se více či méně podobá psychologii klinické, více se však koncentrují na proměny chování v čase. Pedagogičtí psychologové se zabývají „celým žákem v jeho sociálním kontextu“. Diagnostické metody a metody posuzování bývají většinou vytvořeny za účelem hodnocení výkonu a méně pro analýzu školních tříd, rodičovské opory a interakce mezi vrstevníky. To je částečně důsledkem výlučnosti testování výkonu a s ním spojené moderní teorie testů. Toto pole se bude vzhledem k proměnlivým cílům vzdělávání a k masivní participaci vzdělávacích institucí na životě společnosti vždy dynamicky vyvíjet. Pedagogičtí psychologové musí balancovat mezi požadavky měnícího se prostředí a podporou procesů učení, jejichž efektivitu dokládají jejich zkušenosti a výsledky výzkumů. Neuropsychologie následuje současného „ducha doby“, tedy aktuálně vlivnou tendenci vysvětlovat chování biologicky a neurologicky. I zde se ale stále využívají známé psychologické nástroje, jejichž užitečnost je prověřená. K dispozici jsou i zobrazení mozku a další citlivá a nákladná zařízení; otázka, zda dokáží přístroje vysvětlit specifické změny v chování po nehodě, mozkové příhodě nebo jiné formě poškození mozku lépe než psychologické nástroje, však zůstává stále nezodpovězená. V mnoha zemích profesní disciplíny odpovídají více či méně organizaci studia na vysokých školách a rozdělení psychologických podoborů. Takové rozdělení je užitečné pro studenty při volbě profesní dráhy. Nahodilý soubor předmětů je matoucí. I v rámci psychologických disciplín existuje určitá forma dělby práce. V situaci soutěžení o granty nastává rivalita. Granty jsou udělovány spíše v oblastech, které se prezentují jako vědecké, experimentální a statistické. Vztah mezi podobory a profesními oblastmi se v jednotlivých disciplínách liší. Studenti kognitivní psychologie a neuropsychologové se patrně spíše doplňují, hierarchie je však definovaná jednoduše: „Věda především.“ Totéž platí pro sociální psychologii a psychologii práce a organizace, poradenství pro volbu povolání a ergonomii, i pro vývojové a pedagogické psychology. Diskuse o rozdílech se vede zejména mezi klinickými psychology a ostatními podobory. Ukazuje na dlouhotrvající oddělení výzkumu a praxe. Dostává se jí zvýšené pozornosti díky požadavkům institucí na praxi založenou na důkazech v rámci psychoterapie. Kazdin (2008) analyzuje tuto diskusi a implicitně se staví na stranu „kliniků“. Tvrdí, že vymezení praxe založené na důkazech není zcela jasné (kritéria efektivity se liší: statisticky nebo klinicky významné?), měření je napadnutelné (např. velikost účinku neukazuje, zda deprese stále komplikuje klientovi život) a liší se i způsoby posuzování změny. Jak ukázala diskuse o rozhodování v klinické praxi (kapitola 4), i ona má své slabiny. Zdá se obtížné zvolit léčbu „na míru“ klientovi, nicméně Kadzin požaduje posílení poznatkové základny o klinické poznatky o mechanismech změny (terapeuta, terapie, kontextu) a o oblast interakcí vlastností 182
terapií, terapeutů a kontextů s charakteristikami klienta. Na takovém výzkumu by museli spolupracovat jak psychologové z praxe, tak vědci. Koncepty a termíny v kapitole 8: DIAGNOSTIKA A POSUZOVÁNÍ – VÝUKA, PROFESNÍ ODVĚTVÍ, PRAXE Diferenciace psychologie jako vědy (materiální a formální objekty) Rozdělení oborů na vysokých školách a univerzitách Rozdělení oborů v praxi Obecná psychologie (psychonomie) Vývojová psychologie Pedagogická psychologie Ergonomie Poradenství při volbě povolání Personalistika Psychologie práce a organizace Neuropsychologie
183