Swot-analyse van het Assessment Center Nanja Kolk, Marise Born en Henk van der Flier
Dankzij hun hoge voorspellende waarde en vanwege hun ‘face validity’ zijn Assessment Centers (AC’s) buitengewoon populair als selectie- en ontwikkelingsinstrument. Er wordt echter ook veel kritiek geuit, waarvan sommige punten terecht zijn en andere niet. Om een gefundeerd beeld te krijgen van een instrument zo gevierd als het AC, is het goed de methode eens van verschillende kanten te belichten. Een S(trengths) W(eaknesses) O(pportunities) T(hreats) analyse.
Assessment Centers (AC’s) zijn razend populair in het Nederlandse bedrijfsleven en bij de overheid. Niet langer alleen managers worden voor selectie of voor hun professionele ontwikkeling aan een conglomeraat van opdrachten onderworpen, het is nu ook de beurt aan andere professionals, zoals in de informatie- en communicatietechnologie (ICT). Een AC is – anders dan de naam suggereert – niet zozeer een plaats als wel een beoordelingsmethode, die wordt gebruikt voor het selecteren van personeel, maar tegenwoordig ook steeds meer wordt ingezet voor ontwikkelingsdoeleinden. In een AC wordt de kandidaat verzocht deel te nemen aan een aantal opdrachten die tezamen de beoogde taak dienen te representeren. Voorbeelden van dergelijke opdrachten zijn het tweegesprek (bijvoorbeeld met een klant, een collega, of een werknemer), een analyse/presentatieopdracht, een groepsdiscussie en een postbak (‘in-basket’). De prestaties van kandidaten worden beoordeeld door een of twee assessoren op een aantal gedragsdimensies (bijvoorbeeld overtuigingskracht, oordeelsvorming). Het beoordelen van mensen voor selectie of ontwikkeling wordt door velen gezien als een noodzakelijk kwaad. Het is voor sollicitanten immers niet altijd makkelijk om binnen één dag een stempel ‘geschikt’ dan wel ‘ongeschikt’, high potential dan wel low potential toegewezen te krijgen. Ook voor opdrachtgevers zijn selectiemethoden vaak nogal ondoorzichtige instrumenten, die doorgaans met de nodige scepsis bekeken worden. Bovendien bestaan er binnen onze eigen gelederen, onder psychologen, veel onduidelijkheden over welke kritiek op de methode terecht is en welke onterecht. Wat zijn de sterktes en de zwaktes van de AC-methode en waar liggen de kansen en bedreigingen? Een S(trengths) W(eaknesses) O(pportunities) T(hreats) analyse van het assessment center. Sterktes Waarom is het assessment center (AC) zo populair? Niet omdat selectiepsychologen om het hardst roepen dat de methode werkt, maar omdat objectief onderzoek steevast uitwijst dat het AC een goede voorspeller is van succesvol arbeidsgedrag (bijvoorbeeld Gaugler, Rosenthal, Thornton & Bentson, 1987; Schmidt & Hunter, 1998). Het verband
266
tussen de predictor (AC) en het criterium (succes in het werk) neemt na verloop van een aantal jaren zelfs nog enigszins toe. En om die predictieve of criteriumvaliditeit is het toch allemaal te doen. Dit robuuste resultaat wordt nog eens rooskleuriger wanneer het AC (dat wil zeggen: de opdrachten) wordt gecombineerd met andere beoordelingsinstrumenten, zoals intelligentietests, criteriumgerichte interviews en goed geconstrueerde persoonlijkheidsvragenlijsten. De oorzaak hiervan is dat deze instrumenten ieder een onafhankelijk deel van de te voorspellen prestaties van kandidaten lijken te meten (Goffin, Rothstein & Johnson, 1996). Overigens is het wel mogelijk dat dit resultaat enigszins geflatteerd is, doordat beoordelaars in het AC en beoordelaars in het werk soms dezelfde personen zijn. Dit is het geval bij een zogenaamd ‘In-Company’ AC, waarbij managers en psychologen samen het assessorenteam vormen. Het gevolg is dat de scores van de predictor en het criterium niet altijd onafhankelijk van elkaar zijn, hetgeen de correlatie oneigenlijk kan verhogen. Er is niettemin ook onderzoek bekend dat deze criteriumcontaminatie heeft uitgesloten en toch tot florissante conclusies kwam over de voorspellende waarde van het AC. Hieronder valt het indrukwekkende longitudinale onderzoek bij AT&T, The management progress study. In dit onderzoek heeft men de scores van een AC jarenlang in de kast gestopt, zonder deze aan wie dan ook bekend te maken – niet aan de latere beoordelaars, en zelfs niet aan de deelnemers. Ongeveer acht jaar later bliezen Bray en zijn collega’s het stof van de oorspronkelijke AC-scores en vergeleken zij deze met latere werkprestaties van de toenmalige deelnemers. De correlaties tussen dit AC en latere werkprestaties bleken tussen de .48 en .57 te liggen (Bray, Cambell & Grant, 1974). Naast de hoge voorspellingskracht, is een tweede sterke punt van het AC de hoge mate van betrouwbaarheid. Interbeoordelaarsovereenstemming is een acceptabele maat voor betrouwbaarheid van AC’s, aangezien het in deze context gaat om een beoordeling van een duidelijk afgebakend moment, waarin de beoordelaars allen over dezelfde informatie beschikken. Dit in tegenstelling tot vele andere vormen van prestatiebeoordeling. Assessoren in een AC, vooral ervaren en getrainde assessoren, zijn het in bijzonder hoge
DE PSYCHOLOOG
Wetenschap juni 2000
mate eens in hun evaluatie van de presentaties van kandidaten in een rollenspel. Om in termen van overeenstemming te spreken: (product-moment-)correlaties tussen twee onafhankelijke beoordelingen liggen in het algemeen tussen de .60 en .90. Vergeleken met andere vormen van prestatiebeoordeling kan dit een gunstig resultaat genoemd worden (Murphy & Cleveland, 1995). Een derde voordeel van de AC methode is de acceptatie door de gebruikers: zowel opdrachtgevers als kandidaten kunnen zich doorgaans goed vinden in het resultaat. Een assessment wordt door kandidaten meestal ook als eerlijk ervaren; iedereen krijgt immers een gelijke kans. De indrukvaliditeit wordt echter vooral bepaald door het open karakter van de AC methode. In tegenstelling tot bijvoorbeeld een intelligentietest, liggen de te meten constructen – voor zover daarvan in een AC gesproken mag worden – niet verscholen achter of binnen het meetinstrument. Deze zijn voor iedereen duidelijk. Soms gaat men in een AC zelfs zo ver dat de beoordelingscriteria gewoonweg vooraf aan de sollicitanten worden meegedeeld (Kleinmann, Kuptsch & Köller, 1996; Spychalski, Quinones, Gaugler & Pohley, 1997). De acceptatie door gebruikers van het AC wordt nog eens versterkt door de positieve geluiden omtrent de afwezigheid van sterke sekse-, leeftijds- en cultuurverschillen (zie bijvoorbeeld Thornton, 1992). Zwaktes Het AC kan evenwel niet de hemel worden ingeprezen zonder enige nuancering. Naast de hoge kosten die de methode met zich meebrengt, schuilt de tekortkoming van het AC vooral in het ontbreken van bewijs voor interne begripsvaliditeit. Het AC lijkt niet te meten wat het beoogt te meten, namelijk gedragsdimensies. Verschillende dimensies binnen één rollenspel, bijvoorbeeld overtuigingskracht, visie en sensitiviteit, hangen veel nauwer met elkaar samen (discriminante validiteit) dan overeenkomstige dimensies over rollenspellen heen (convergente validiteit), bijvoorbeeld overtuigingskracht gemeten in een groepsdiscussie en in een tweegesprek. Men zou natuurlijk het tegenovergestelde verwachten, omdat het niet de bedoeling is dat overtuigingskracht, visie en sensitiviteit hetzelfde betekenen, of dat bijvoorbeeld overtuigingskracht in een rollenspel en in een groepsdiscussie een andere betekenis krijgt. Ogenschijnlijk zijn de gedragsdimensies dus niet de eenheden die er in het AC worden gemeten. Als het niet de dimensies zijn, wat zijn we dan eigenlijk wel aan het meten? Hoe kan een AC zo goed voorspellen en toch niet begripsvalide zijn? Wat betreft de begripsvaliditeit kijken sommige onderzoekers ook naar relaties met verwante meetinstrumenten, ofwel de externe begripsvaliditeit. Uit onderzoek blijkt keer op keer dat het AC zeer laag correleert met bijvoorbeeld persoonlijkheidsvragenlijsten (Chan, 1996; Crawley, Pinder & Herriot, 1990; Fleenor, 1996), hetgeen werd opgevat als wederom een nieuwe aantijging in de opeenstapeling van bewijzen tegen de validiteit van AC’s. Wat betreft deze vermeende conceptuele verwantschap heeft echter onderzoek empirisch aangetoond dat het AC en persoonlijkheidsvragenlijsten vanuit meerdere optieken zo ver van elkaar afstaan (bijvoorbeeld in termen van type beoordelaar, domein van beoordeling – sign versus sample – en beoorde-
DE PSYCHOLOOG
Wetenschap juni 2000
lingsformat), dat een geringe correlatie tussen de twee in feite weinig zegt over externe begripsvaliditeit van het AC (Kolk, Born & Van der Flier, 1999). Daarnaast werd, zoals we eerder opmerkten, de lage correlatie tussen deze twee instrumenten ook gezien als een reden voor de hoge voorspellende waarde wanneer ze worden gecombineerd (Goffin et al., 1996). Blijkbaar dragen persoonlijkheidsvragenlijsten en AC’s elk iets anders bij aan de voorspelling van het criterium. Ten slotte is het nog maar de vraag of persoonlijkheidsvragenlijsten de rol van al dan niet aanverwant empirisch gefundeerd begrip waar kunnen maken. Al met al zijn wij van mening dat het weinig zinvol is AC’s binnen het zogenaamd nomologisch netwerk extern te valideren met persoonlijkheidsvragenlijsten. Kansen De erkenning van het probleem van interne begripsvaliditeit, begin jaren tachtig (bijvoorbeeld Neidig & Neidig, 1984; Sackett & Dreher, 1982; Turnage & Muchinsky, 1982) heeft geleid tot uitgebreid onderzoek. Talloze experimenten zijn uitgevoerd, zowel in het laboratorium als in de praktijk en er blijkt wel degelijk iets te verbeteren te zijn aan het gebrek aan validiteit. Zo op het eerste gezicht lijkt er zelfs een positief verband te bestaan tussen publicatiedatum en resultaten van onderzoek naar begripsvaliditeit: in latere studies zijn meer en meer aanwijzingen te vinden voor begripsvaliditeit. Vooral de laatste jaren, waarin in elk geval het aantal te beoordelen dimensies drastisch is verminderd (voorheen werden er wel vijftien dimensies per opdracht gemeten), zijn de geluiden over de interne validiteit van de AC-methode minder negatief (bijvoorbeeld Kudisch, Ladd & Dobbins, 1997; Sagie & Magnezy, 1997). Er is niet één antwoord te geven op de vraag waar het gebrek aan begripsvaliditeit aan ligt. De beste kansen voor het AC liggen onmiskenbaar in procedurele aanpassingen van de methode, waarvoor er vanuit veel verschillende invalshoeken bruikbare suggesties zijn gedaan. Zo draagt het gebruik van conceptueel onafhankelijke dimensies bij aan een beter onderscheidend vermogen en dus aan een hogere begripsvaliditeit (Kleinmann, Exler, Kuptsch & Köller, 1995). Ander onderzoek, verricht in samenwerking met het bureau LTP in Amsterdam, richtte zich op het gebruik van drie domeinen van gedragsdimensies, of ‘meta-dimensies’: Denken, Voelen en Kracht. Kies je in een opdracht steeds één dimensie uit elk van de domeinen (bijvoorbeeld ‘luisteren’ uit het domein Voelen, ‘inzicht’ uit het domein Denken en ‘doorzettingsvermogen’ uit het domein Kracht) dan blijken de intercorrelaties substantieel lager uit te vallen en meet je dus meer onafhankelijke elementen (Kolk, Born & Van der Flier, in review). Ook de opdrachten zelf zijn verantwoordelijk voor het ontbreken van bewijs voor begripsvaliditeit. Omdat menselijk gedrag nu eenmaal van situatie tot situatie pleegt te verschillen, is het logisch dat dit ook gebeurt binnen de context van een AC. De situaties verschillen met opzet zo veel mogelijk van elkaar, om een breed domein aan gedrag te ‘vangen’. Een lage convergente validiteit valt dan ook te verwachten vanuit deze ‘situationele specificiteits’-gedachte. In een experiment onderzochten Schneider en Schmitt (1992) of verschil in vorm en inhoud van de opdrachten van invloed
267
was op de begripsvaliditeit. De resultaten lieten zien dat het niet uitmaakt of de inhoud van twee opdrachten van elkaar verschilt (bijvoorbeeld een competitieve versus een coöperatieve taak), maar dat de vorm van de opdrachten (bijvoorbeeld een groepsdiscussie versus een rollenspel) wel degelijk een effect had. Een lage correlatie tussen opdrachten is vanuit de optiek van situationele specificiteit dus niet bijzonder problematisch, bovendien convergeren opdrachten van dezelfde vorm blijkbaar wel. Maar: ‘The need for convergence is of little practical value. One satisfies the internal construct validity indexes, while one sacrifies a more complete and more job-related sampling of behavior.’ (Neidig & Neidig, 1984). Een andere suggestie uit onderzoek richt zich op de beoordelaar als bron van ongewenste variantie. Assessoren maken beoordelaarfouten zoals centrale tendentie of halo. Halo wordt wel aangewezen als één van de voornaamste oorzaken van het gebrek aan eerdergenoemde discriminante validiteit van AC’s. Wanneer er halo optreedt in de beoordelingen, betekent dit dat verschillende dimensies zo sterk met elkaar samenhangen, dat er geen onderscheid meer wordt gemaakt. Beoordelaars vormen zich gedurende een opdracht een algemene indruk van de kandidaat, die ze laten weerklinken in alle dimensiescores (‘general impression halo’), hetgeen de discriminante validiteit verlaagt. De meeste interventies die erop gericht zijn halo te ondervangen, spitsen zich toe op het reduceren van de cognitieve overbelasting van de assessor, omdat deze in korte tijd zeer veel verschillende taken tegelijk uit moet voeren. Assessoren dienen daarom zo veel mogelijk ervaring te hebben met de beoordelingstaak (Sagie & Magnezy, 1997). Daarbij helpt het ook wanneer zij getraind worden in het beoordelen volgens een overeenkomstig referentiekader: Frame-of-Reference-training (Lievens, 1999). Naast de beoordelaar is ook de rolspeler van belang. Het is belangrijk dat de rolspelers, of dat nu psychologen of acteurs zijn, de kandidaten steeds volgens één bepaalde methode tegenspelen. Er moet een duidelijke leidraad zijn: doet de kandidaat dit, dan is de reactie zus en zo. De reacties van de kandidaat dienen feitelijk als ‘platforms’ voor het gedrag van de tegenspeler. Deze platforms moeten voor alle assessoren duidelijk zijn, zodat ze weten waar ze op moeten letten (Jansen & De Jongh, 1993). In termen van begripsvaliditeit betekent dit het waarborgen van het vertonen van dimensie-gerelateerd gedrag, hetgeen de convergente en discriminante validiteit potentieel verhoogt. Nader onderzoek zou uit moeten wijzen of deze hypothese kan worden ondersteund. Onderzoek wijst verder uit dat er ook aan de beoordelingsmethode veel te verbeteren valt. Zo blijkt het beoordelen met behulp van checklists de begripsvaliditeit van de beoordelingen te verhogen (Donahue, Truxillo, Cornwell & Gerrity, 1997; Reilly, Henry & Smither, 1990). Dit brengt helaas wel het risico met zich mee dat assessoren te veel gericht zijn op het gedrag dat op de checklist voorkomt en voorbijgaan aan ander relevant gedrag (Joyce, Thayer & Pond, 1994). Bovendien kon de toename van begripsvaliditeit bij checklistgebruik niet altijd worden gerepliceerd (Fritsche, 1993). Een alternatieve suggestie voor verbetering van de beoordelingsmethode werd gedaan door Kleinmann (Kleinmann, 1993; Kleinmann et al., 1996). Uit
268
onderzoek blijkt dat het onthullen van de dimensies aan kandidaten tot een verbetering van de begripsvaliditeit leidt, aangezien er meer dimensie-gerelateerd gedrag wordt uitgelokt en irrelevant gedrag wordt omzeild. Een andere discussie richt zich op het moment waarop de kandidaat beoordeeld dient te worden: meteen na iedere opdracht (within exercise method), of pas nadat alle opdrachten achter de rug zijn in een assessorenvergadering (within dimension method). In een dergelijke vergadering worden de prestaties van de kandidaat groepsgewijs besproken, waarna iedere assessor een uiteindelijke score per gedragscriterium geeft. Klaarblijkelijk leidt deze methode tot de hoogste convergente validiteit (correlatie tussen dimensies over meerdere opdrachten heen) (Adams, 1997; Silverman, Dalessio, Woods & Johnson, 1986). De vraag is alleen in hoeverre die verbetering in validiteit zinvol is: de verschillende beoordelingen zijn immers niet meer onafhankelijk van elkaar. Binnen deze context hebben twee zeer recente onderzoeken een antwoord gezocht op de vraag wat er gebeurt als iedere assessor slechts één dimensie in iedere opdracht beoordeelt (Arthur Jr., Woehr & Maldegen, in druk; Robie, Adams, Osburn, Morris & Etchegaray, in review). Iedere assessor ziet de kandidaten dus in iedere opdracht. De resultaten van beide onderzoeken waren spectaculair. Eindelijk viel de correlatie tussen dimensies over opdrachten heen hoger uit dan de correlatie tussen dimensies binnen één opdracht, in plaats van andersom. Toch kan je je afvragen wat de werkelijke bijdrage van dergelijke resultaten is, omdat in feite ongewenste assessor-variantie gewoonweg verplaatst is van de opdracht (opdracht-halo) naar de dimensie (dimensie-halo). Bedreigingen Kansen kunnen omslaan in mogelijke bedreigingen. De reductie van het aantal te meten dimensies in een rollenspel levert enerzijds winst op voor de begripsvaliditeit. Anderzijds trekken sommige onderzoekers deze lijn te ver door en pleiten zij voor het meten van twee of slechts één dimensie per opdracht. Het gevaar van een dergelijke aanpak is verlies van informatie. Omdat er bovendien een tendens te bespeuren is naar het reduceren van het aantal opdrachten in een AC (zie hieronder), kan de predictieve validiteit in het gedrang komen. Sommige onderzoekers en practici stellen zelfs voor de dimensies maar helemaal af te schaffen. De voorstanders van dit zogenaamde ‘situatieve AC’ (bijvoorbeeld Klimoski & Brickner, 1987) – in tegenstelling tot aanhangers van het ‘dimensionale AC’ – gaan ervan uit dat het meten van dimensies in een AC zinloos is, aangezien de begripsvaliditeit nog onvoldoende is aangetoond. Ze stellen voor om na afloop van iedere opdracht alleen algemene effectiviteit te meten. In deze bijdrage is echter duidelijk gebleken dat procedurele aanpassingen van het AC wel degelijk winst opleveren voor de begripsvaliditeit van de dimensies (zie ook Guion, 1998). Bovendien is er nog veel speelruimte voor nieuw onderzoek naar de determinanten van begripsvaliditeit. Het situatieve AC vormt een bedreiging omdat een aantal belangrijke voordelen van het dimensionale AC verdwijnt. Zo geven de dimensies assessoren de mogelijkheid een veelheid aan observaties te hercoderen in betekenisvol-
DE PSYCHOLOOG
Wetenschap juni 2000
le categorieën (Gaugler & Thornton, 1989). Zij reduceren de cognitieve overbelasting bij assessoren door het groeperen van objecten, personen en gebeurtenissen in een opdracht te vergemakkelijken (Zedeck, 1986). Dimensies geven bovendien meer betekenis aan de beoordelingen, zowel voor de psycholoog – als aanknopingspunten in diens rapportage – als voor de kandidaat – als aanknopingspunten voor diens persoonlijke ontwikkeling (Jones, Herriot, Long & Drakeley, 1991). Klaarblijkelijk geldt de uitspraak van Zedeck (1986, p. 271) nog steeds: ‘An implication that should not be made is that dimension assessment […] is eliminated from the process – at least at this point in time.’ Een ander gevaar voor het AC heeft een meer praktische oorsprong. Zoals gezegd is het AC een kostbare beoordelingsmethode. De kosten per afname variëren ongeveer tussen de twee- en de vijfduizend gulden voor een assessment. Overigens vallen deze kosten wel mee in vergelijking met de risico’s van het aannemen van een ongeschikt persoon. Desondanks is er toch een tendens tot bezuiniging; klanten willen een AC dat minder kostbaar is en minder tijdinvestering vereist. Psychologen worden hierdoor gedwongen het AC te beperken tot een klein aantal opdrachten. Er wordt dus uit kosten- en tijdsoverwegingen bespaard op de methode en dat gaat gepaard met een forse reductie van het aantal simulaties en rollenspellen. Men gaat in deze beslissing evenwel voorbij aan het feit dat een AC met één of twee opdrachten zich niet mag beroepen op de goede voorspellende waarde van het oorspronkelijke AC-ontwerp. Dit type AC nam wel twee of meer dagen in beslag en gebruikte wel tien opdrachten, zoals bijvoorbeeld in de eerdergenoemde AT&T Management progress study. Bij het reduceren van het aantal opdrachten in een AC is er ten eerste minder gelegenheid dimensies betrouwbaar te meten, en ten tweede is het te meten domein van de te voorspellen dimensie minder goed gedekt. Een omvangrijke meta-analyse wees inderdaad uit dat het AC beter voorspelt wanneer een groter aantal verschillende opdrachten wordt gebruikt (Gaugler et al., 1987). Onze indruk is dat een dergelijk grootscheeps AC nauwelijks nog wordt afgenomen – niet in Nederland, maar klaarblijkelijk ook steeds minder in de VS (zie Spychalski et al., 1997). Het AC wordt door inkrimping van het aantal opdrachten kwetsbaar voor de kritiek dat de methode de taak niet meer adequaat representeert en derhalve niet genoeg toevoegt aan de voorspelling. Kan het ‘uitgeklede’ AC de concurrentie met andere instrumenten zoals intelligentietest nog wel doorstaan? Nader onderzoek zou moeten uitwijzen of het typische hedendaagse AC net zo goed voorspelt als het AC ‘van weleer’. Daarbij dreigt ook nog eens het gevaar dat het AC van nu, met slechts een beperkt aantal opdrachten, gevoeliger wordt voor beroepsprocedures waarin de relevantie van het AC wordt betwist. Beroepsprocedures komen bijvoorbeeld in de VS aanzienlijk vaker voor dan in Nederland. Gek genoeg is er voor de Nederlandse assessmentpraktijk geen algemene standaard voorhanden die voorschrijft aan welke voorwaarden een AC idealiter zou moeten voldoen. Wij willen er dan ook voor pleiten dat dit hiaat wordt opgevuld door het formuleren van standaardrichtlijnen specifiek ontwikkeld voor het assessment center (zoals in de VS de Task Force on Assessment Center Guidelines (1989) zich tot doel stelde gedetailleerde aanbevelingen en richtlijnen op te stellen
DE PSYCHOLOOG
Wetenschap juni 2000
voor het ontwikkelen en evalueren van het AC). Hierbij kunnen we denken aan een instantie als de COTAN, die immers dergelijke standaarden ook hanteert voor de beoordeling van tests en vragenlijsten. Daarbij is het belangrijk dat dergelijke richtlijnen worden aangepast op basis van nieuwe gegevens en suggesties uit onderzoek. Dat er bespaard moet worden op beoordelingsprocedures is alleszins begrijpelijk. Besparing kan echter ook geschieden op andere manieren dan door het schrappen van een aantal opdrachten. Bij het samenstellen van de beste beoordelingsprocedure dient men zich de volgende vragen te stellen: wat is het doel van de beoordeling? Gaat het om selectie of om potentieelinschatting? Hoe belangrijk is het om de allerbeste kandidaat te krijgen? Wat zijn de risicofactoren? Is er een alternatieve selectiemethode van het AC even geschikt? Is een getrapte procedure mogelijk, waarbij het AC pas in het laatste stadium wordt ingezet? Is het mogelijk, omwille van tijdsbesparing, om vooraf vragenlijsten af te nemen via internet? Hoe moeilijk of makkelijk is het om iemand te vinden die aan het profiel voldoet, gezien de huidige krapte op de arbeidsmarkt? Overigens blijkt uit onderzoek dat een zware selectieprocedure, zoals het AC, de beoogde baan alleen maar aantrekkelijker maakt voor sollicitanten (Verburg, 1998). Conclusie Wanneer we een voorzichtige balans opmaken van twintig jaar AC-onderzoek en -praktijk dan kunnen we de volgende conclusies trekken. Dankzij een toereikende voorpellende waarde verwerft het AC zich een plaats binnen de beste predictoren voor succes in het werk. De methode is bovendien tamelijk betrouwbaar te noemen en kent een grote acceptatie en face validity bij de gebruikers. De achilleshiel van het AC is evenwel het uitblijven van bewijs voor begripsvaliditeit van de dimensies, hetgeen vele onderzoekers heeft aangezet tot het doen van (experimenteel) onderzoek naar de oorzaken van dit probleem, alsook naar mogelijkheden tot verbetering. De kansen voor het AC komen dan ook uit dit onderzoek naar voren: de begripsvaliditeit valt wel degelijk te verbeteren. Bepaalde procedurele aanpassingen op het gebied van de dimensies, de opdrachten of de training van de assessoren, leiden tot verbetering van de begripsvaliditeit. De bedreigingen voor het AC zijn tweëerlei. Ten eerste stellen sommige onderzoekers voor de dimensies maar helemaal af te schaffen in het zogenaamde ‘situatieve AC’. De dimensies vormen naar onze mening juist een groot voordeel van het AC, bijvoorbeeld door het vergemakkelijken van het coderen van observaties. Een tweede bedreiging ligt in de vraag van gebruikers naar kosten- en tijdsbesparing. Deze vraag kan aanleiding zijn het aantal opdrachten per AC te verminderen tot een of twee. Hierdoor wordt de taak echter minder goed gerepresenteerd, hetgeen de criteriumvaliditeit nadelig kan beïnvloeden. Onderzoek zou uit moeten wijzen of een dergelijk beknot AC nog steeds even goed voorspelt als het oorspronkelijke uitgebreide AC. Ten slotte willen we een lans breken voor het opstellen van heldere richtlijnen en aanbevelingen in een algemene standaard voor AC’s, teneinde de bruikbaarheid en validiteit van het AC te waarborgen.
269
Literatuur Adams, K.A. (1997). The effect of the rating process on construct validity: reexamination of the exercise effect in assessment center ratings. Unpublished masters’ thesis, University of Houston. Arthur Jr., W., Woehr, D.J. & Maldegen, R. (in druk). Convergent and discriminant validity of assessment center dimensions. A conceptual and empirical reexamination of the assessment center construct-related validity paradox. Journal of Management. Bray, D.W., Cambell, R.J. & Grant, D.L. (1974). Formative years in business. A longterm AT&T study of managerial lives. New York: Wiley. Chan, D. (1996). Criterion and construct validation of an assessment centre. Journal of Occupational & Organizational Psychology, 69, 167-181. Crawley, B., Pinder, R. & Herriot, P. (1990). Assessment centre dimensions, personality and aptitudes. Journal of Occupational Psychology, 63, 211-216. Donahue, L.M., Truxillo, D.M., Cornwell, J.M. & Gerrity, M.J. (1997). Assessment Center construct validity and behavioral checklists: some additional findings. Journal of Social Behavior and Personality, 12, 85-108. Fleenor, J.W. (1996). Constructs and developmental assessment centers: further troubling empirical findings. Journal of Business & Psychology, 10, 319-335. Fritsche, B.A. (1993). The effects of using behavioral checklists on the predictive and construct validity of assessment center ratings. Unpublished master’s thesis. Gaugler, B.B., Rosenthal, D.B., Thornton, G.C. & Bentson, C. (1987). Meta-analysis of assessment center validity. Journal of Applied Psychology, 72, 493-511. Gaugler, B.B. & Thornton, G.C. (1989). Number of assessment center dimensions as a determinant of assessor accuracy. Journal of Applied Psychology, 74, 611618. Goffin, R.D., Rothstein, M.G. & Johnston, N.G. (1996). Personality testing and the assessment center: incremental validity for managerial selection. Journal of Applied Psychology, 81, 746-756. Guion, R.M. (1998). Assessment, measurement and prediction of personnel decisions. Mahwah, NJ: Lawrence Erlbaum. Jansen, P.G.W. & De Jongh, F.D. (1993). Assessment Centers; een open boek. Utrecht: Uitgeverij Het Spectrum BV. Jones, A., Herriot, P., Long, B. & Drakeley, R. (1991). Attempting to improve the validity of a well-established assessment centre. Journal of Occupational Psychology, 64, 1-21. Joyce, L.W., Thayer, P.W. & Pond, S.B. (1994). Managerial functions: an alternative to traditional assessment center dimensions? Personnel Psychology, 47, 109-121. Kleinmann, M. (1993). Are rating dimensions in assessment centers transparent for participants? Consequences for criterion and construct validity. Journal of Applied Psychology, 78, 988-993. Kleinmann, M., Exler, C., Kuptsch, C. & Köller, O. (1995). Independence and observability of dimensions as moderators of construct validity in the assessment center [German]. Zeitschrift fur Arbeits-und Organisationspsychologie, 39, 22-28. Kleinmann, M., Kuptsch, C. & Köller, O. (1996). Transparency: a necessary requirement for the construct validity of assessment centres. Applied Psychology: an International Review, 45, 67-84. Klimoski, R. & Brickner, M. (1987). Why do assessment centers work? The puzzle of assessment center validity. Personnel Psychology, 40, 243-260. Kolk, N.J., Born, M.P. & Van der Flier, H. (1999, 12-15 May). Three barriers to evidence for external construct validity of assessment center ratings. Paper presented at the Ninth European Congress on Work and Organizational Psychology, Espoo-Helsinki, Finland. Kolk, N. J., Born, M.P. & Van der Flier, H. (in review). A triadic approach to assessment center’s construct validity. The effect of categorising dimensions into a feeling, thinking, power taxonomy. Kudisch, J.D., Ladd, R.T. & Dobbins, G.H. (1997). New evidence on the construct validity of diagnostic assessment centers: the findings may no be so troubling after all. Journal of Social Behavior & Personality, 12, 129-144. Lievens, F. (1999). An examination of factors which affect the construct validity of assessment centers. Unpublished doctoral dissertation, University of Gent, Gent. Murphy, K.R. & Cleveland, J.N. (1995). Understanding performance appraisal. Social, organizational, and goal-based perspectives. Thousand Oaks, CA: Sage Publications, Inc. Neidig, R.D. & Neidig, P.J. (1984). Multiple assessment center exercises and job relatedness. Journal of Applied Psychology, 69, 182-186. Reilly, R.R., Henry, S. & Smither, J.W. (1990). An examination of the effects of using behavior checklists on the construct validity of assessment center dimensions. Personnel Psychology, 43, 71-84. Robie, C., Adams, K.A., Osburn, H.G., Morris, M.A. & Etchegaray, J.M. (in review). Effects of the rating process on the construct validity of an assessment center. Sackett, P. R. & Dreher, G.F. (1982). Constructs and assessment center dimensions: some troubling empirical findings. Journal of Applied Psychology, 67, 401-410.
270
Sagie, A. & Magnezy, R. (1997). Assessor type, number of distinguishable dimension categories, and assessment centre construct validity. Journal of Occupational & Organizational Psychology, 70, 103-108. Schmidt, F.L. & Hunter, J.E. (1998). The validity and utility of selection methods in personnel psychology. Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274. Schneider, J.R. & Schmitt, N. (1992). An exercise design approach to understanding assessment center dimension and exercise constructs. Journal of Applied Psychology, 77, 32-41. Silverman, W.H., Dalessio, A., Woods, S.B. & Johnson, R.L. (1986). Influence of assessment center methods on assessors’ ratings. Personnel Psychology, 39, 565-578. Spychalski, A.C., Quinones, M.A., Gaugler, B.B. & Pohley, K. (1997). A survey of assessment center practices in organizations in the United States. Personnel Psychology, 50, 71-90. Task Force on Assessment Center Guidelines (1989). Guidelines and ethical considerations for assessment center operations. Public Personnel Management, 18, 457-470. Thornton, G.C. (1992). Assessment Centers in Human Resource Management. Reading, MA: Addison-Wesley Publishing Company. Turnage, J.J. & Muchinsky, P.M. (1982). Transsituational variability in human performance within assessment centers. Organizational Behavior & Human Performance, 30, 174-200. Verburg, R.M. (1998). Human Resource Management. Unpublished doctoral dissertation, Vrije Universiteit, Amsterdam. Zedeck, S. (1986). A process analysis of the assessment center method. In B.M. Staw & L.L. Cummings (Eds.), Research in Organizational Behavior (Vol. 8, p. 259296): JAI Press Inc.
Summary A Swot analysis of the Assessment Center N.J. Kolk, M.Ph. Born & H. van der Flier On account of a satisfactory criterion-related validity, Assessment Centers (AC’s) are still gaining popularity as a method of assessment and selection. However, the AC method is criticized on several issues, some of which are warranted, while others are not. In order to gain insight of a method as popular as the AC, this paper gives an overview of the ins and outs, by means of a S(trengths) W(eaknesses) O(pportinities) T(hreats) analysis.
Mw drs. N.J. Kolk, mw dr. M.Ph. Born en prof.dr. H. van der Flier zijn allen verbonden aan de afdeling Arbeids- en Organisatiepsychologie van de Vrije Universiteit Amsterdam. De eerste auteur is tevens werkzaam bij LTP, te Amsterdam. Correspondentieadres: Afdeling Arbeids- en Organisatiepsychologie, Van der Boechorststraat 1, 1081 BT Amsterdam.
DE PSYCHOLOOG
Wetenschap juni 2000