De webcamtest als voorspeller van professioneel gedrag

Dit artikel van Boom Lemma Tijdschriften is gemaakt voor Vrije Universiteit 180209

REEKS ‘WERVING EN SELECTIE’

De webcamtest als voorspeller van professioneel gedrag Marit R.E. Op de Beek, Janneke K. Oostrom & Marise Ph. Born* Deze studie beschrijft een nieuw type video-assessment ontwikkeld voor het meten van sociale competenties, de zogeheten webcamtest. Het doel van deze studie was het bepa‐ len van de criteriumgerelateerde validiteit van de webcamtest en de incrementele vali‐ diteit ten opzichte van een cognitieve capaciteitentest, een persoonlijkheidsvragenlijst en een situationele beoordelingstest in videovorm. Onderzoek onder 106 psychologie‐ studenten liet zien dat de webcamtest een significante correlatie heeft met het profes‐ sioneel gedrag van studenten tijdens werkgroepen, zoals dit beoordeeld is door hun docenten. Ook had de webcamtest incrementele validiteit ten opzichte van de andere instrumenten met betrekking tot het criterium professioneel gedrag. De kandidaten beschouwden de webcamtest als een indruksvalide test, maar beschouwden de situatio‐ nele beoordelingstest in videovorm als een test met een hogere indruksvaliditeit. Beper‐ kingen van dit onderzoek en suggesties voor verder onderzoek naar de webcamtest wor‐ den besproken. 1

Inleiding

In de inleiding op de nieuwe reeks ‘Werving en Selectie’ beschrijven Derous, Van der Velde en Born (2011) dat meer aandacht besteed mag worden aan onderzoek naar specifieke thema’s binnen werving en selectie. Trends in werven en selecte‐ ren (zoals contextualisatie, diversiteit en technologische innovatie) roepen inte‐ ressante onderzoeksvragen op. Door de groei van de dienstverlenende sector in Nederland is er steeds meer vraag naar selectietests waarmee sociale vaardig‐ heden gemeten worden (Ardts, 2006). Dipboye, Wooten en Halverson (2004) geven aan dat organisaties blijven zoeken naar nieuwe instrumenten voor het meten van sociale vaardigheden omdat veel van de gebruikte selectietests, zoals cognitieve capaciteitentests, niet toetsen hoe de werknemer met collega’s en klan‐ ten omgaat. Derous en collega’s (2011) beschrijven de mogelijkheden die geboden worden door multimedia. Het meten van bijvoorbeeld sociale vaardigheden, inte‐ griteit, leidinggeven en conflicthantering, is lastiger met traditionele tests dan met tests die gebruikmaken van multimediatoepassingen. Deze nieuwe (multi‐ *

Marit R.E. Op de Beek is verbonden aan Cubiks en Maxit Psychology. Janneke K. Oostrom en Marise Ph. Born zijn verbonden aan de Erasmus Universiteit Rotterdam, Instituut voor Psychologie, Sectie Arbeids- en Organisatiepsychologie. Correspondentieadres: M.R.E. Op de Beek, Rodenrijsestraat 14a, 3037 NG Rotterdam, [email protected], 06-30016150.

Gedrag & Organisatie 2011 (24) 3

257


Marit R.E. Op de Beek, Janneke K. Oostrom & Marise Ph. Born

media) instrumenten moeten wel kritisch onderzocht worden (Derous et al., 2011). Voor het meten van sociale vaardigheden wordt de steeds bekendere situationele beoordelingstest (situational judgment test [SJT]) ingezet. Een SJT is een test waarbij verschillende uitdagende werkgerelateerde situaties en antwoordopties worden aangeboden. Afhankelijk van de soort SJT moeten kandidaten de ver‐ schillende antwoordopties individueel beoordelen op effectiviteit, het beste ant‐ woord kiezen uit de antwoordopties of het antwoord kiezen dat omschrijft hoe de kandidaat zelf zou handelen (McDaniel, Morgeson, Finnegan & Campion, 2001; McDaniel, Hartman, Whetzel & Grubb III, 2007). Uit meta-analyses van McDaniel en collega’s (2001, 2007) blijkt dat SJT’s een voorspellende waarde heb‐ ben voor werkprestatie. Daarnaast hebben Oswald, Schmitt, Kim, Ramsey en Gil‐ lespie (2004) aangetoond dat een SJT incrementele validiteit heeft ten opzichte van andere metingen bij het voorspellen van studieprestaties. Ook bleek uit een meta-analyse van Hausknecht, Day en Thomas (2004) dat situationele tests als meer indruksvalide worden gezien dan cognitieve capaciteitentests en persoon‐ lijkheidsvragenlijsten. Indruksvaliditeit geeft aan hoe valide de test er op het eer‐ ste oog uitziet, dat wil zeggen hoe relevant de test lijkt voor het meten van de vaardigheden die de test beoogt te meten (Cook, 2004). Als de kandidaat bij voor‐ baat al een negatief beeld zou hebben van een test, zouden motivatie en prestatie kunnen dalen (Lievens, Van Dam & Anderson, 2002). SJT’s kunnen op een aantal aspecten van elkaar verschillen, bijvoorbeeld op de afnamevorm. Zo zijn er SJT’s waarin de situaties en antwoordopties schriftelijk of mondeling worden aangeboden, maar er bestaan ook zogenaamde video-SJT’s waarin de situaties en antwoordopties door middel van videofragmenten worden aangeboden (Chan & Schmitt, 1997). SJT’s kunnen ook verschillen wat betreft de instructies die gegeven worden aan de kandidaat met betrekking tot de manier van antwoorden (McDaniel et al., 2007; Van der Maesen, 2005). Deze aspecten kunnen van invloed zijn op de meetpretentie (bijv. Lievens & Sackett, 2006), de begripsvaliditeit (McDaniel et al., 2007; Ployhart & Ehrhart, 2003) en de voor‐ spellende waarde (bijv. McDaniel et al., 2001). De afnamevorm van SJT’s is van belang omdat bij het gebruik van een schrifte‐ lijke afnamevorm wellicht een groter beroep gedaan wordt op cognitieve vaardig‐ heden dan op sociale vaardigheden (Van der Maesen, 2005). Het gebruik van video-assessment is een manier om het cognitieve aspect van de test te verminde‐ ren (Chan & Schmitt, 1997). Ook spelen de instructies van een SJT een cruciale rol. Als de kandidaat geïnstru‐ eerd werd om de reacties te beoordelen op effectiviteit, vonden McDaniel en col‐ lega’s (2007) een relatief hoge correlatie tussen cognitieve capaciteiten en een SJT (r = .32). Volgens McDaniel en collega’s meet een SJT met dit soort instructies vooral het kennisniveau van de kandidaat. Echter, als de kandidaat geïnstrueerd werd om aan te geven welke reactie het beste bij het eigen gedrag past, corre‐ leerde de SJT niet met cognitieve capaciteiten (McDaniel et al., 2007). Motowidlo, Brownlee en Schmit (2008) maken een duidelijk onderscheid tussen tests die ken‐ nis over vaardigheden meten en tests die daadwerkelijk vaardigheden meten. Zo kan een kandidaat middels een SJT met gesloten antwoordvorm wel aangeven

258



De webcamtest als voorspeller van professioneel gedrag

wat hij denkt of vindt, maar of de kandidaat daadwerkelijk het desbetreffende gedrag zal, wil en kan vertonen, is iets wat niet gemeten kan worden met de SJT. De responsinstructies van SJT’s zijn dus ook van invloed op het type prestatie dat gemeten wordt; maximale prestatie (maximum performance) of typische prestatie (typical performance; McDaniel et al., 2007). Een SJT waarbij de kandidaat de reac‐ ties beoordeelt op effectiviteit meet maximale prestatie, terwijl een SJT waarbij de kandidaat aangeeft welke reactie het best bij het eigen gedrag past typische prestaties meet. Een relatief nieuw instrument dat is ontwikkeld om sociale vaardigheden in werk‐ gerelateerde situaties te meten, is de zogeheten webcamtest (Van der Maesen, 2005). Een webcamtest lijkt qua opzet op een video-SJT, aangezien in beide situ‐ ationele beoordelingstests videofragmenten aan de kandidaat worden gepresen‐ teerd. Maar waar een SJT de kandidaat meerdere antwoordopties aanbiedt, moet de kandidaat in een webcamtest een mondelinge spontane reactie geven. De reac‐ tie van de kandidaat wordt opgenomen met een webcam en achteraf beoordeeld aan de hand van algemene en specifieke situatiegerelateerde indicatoren. Bij een SJT kan de kandidaat aangeven wat hij of zij het beste zou vinden om in die situa‐ tie te doen, bij een webcamtest moet de kandidaat ook daadwerkelijk dit gedrag tonen. In figuur 1 staat een voorbeeld van een situatie zoals deze in een video-SJT en in een webcamtest wordt gepresenteerd. Dit voorbeeld illustreert zowel de overeenkomsten als de verschillen tussen beide tests. Stricker (1982) heeft onderzoek gedaan naar een meetinstrument dat lijkt op een webcamtest. Dit Interpersonal Competence Instrument (ICI) bevatte ook ver‐ schillende videogepresenteerde situaties met een open responsvorm. De reactie van de kandidaat werd echter alleen met een microfoon opgenomen. Er was dus geen videomateriaal van de kandidaat beschikbaar, zoals bij een webcamtest. De reacties van de kandidaten werden door twee onafhankelijke experts beoordeeld. Stricker concludeerde dat de ICI geschikt zou zijn voor het meten van sociale competenties. Door de filmopname kan bij een webcamtest ook non-verbale com‐ municatie worden meegenomen in de beoordeling. Dit kan een voordeel zijn omdat er meer informatie beschikbaar is. Tegelijkertijd kan dit een nadeel zijn omdat er eerder beoordelaarseffecten kunnen optreden. Oostrom, Born, Serlie en Van der Molen (2010) hebben onderzoek gedaan naar een webcamtest die speciaal ontwikkeld was als onderdeel van een certificerings‐ proces voor een arbeidsbureau in Nederland. Deze webcamtest trachtte de vaar‐ digheden met betrekking tot het adviseren van werkzoekenden te meten en bestaat uit werkgerelateerde situaties, die verzameld zijn door middel van criteri‐ umgerichte interviews met ervaren werknemers. De kandidaten werden beoor‐ deeld op een 5-puntsschaal door onafhankelijke beoordelaars op voor de situatie relevante indicatoren. Als andere voorspeller werd een kennistoets ingezet, waar‐ mee gemeten werd of de werknemer genoeg vakinhoudelijke kennis heeft om zijn of haar werk naar behoren uit te voeren. Als werkprestatiemaat werd enerzijds een managersbeoordeling ingezet en anderzijds een objectieve werkprestatiemaat die bestond uit een berekening van zowel het aantal geplaatste werkzoekenden dat nog geen uitkering ontving als het aantal geplaatste werkzoekenden dat al een


259



Figuur 1

Een voorbeeld van een situatie uit de webcamtest (WCT-L) en uit de video-SJT (SQ-leidinggeven). Opgesteld met toestemming van Van der Maesen | Koch HRM-advies

Het beeld is bevroren en de volgende inleidende tekst wordt gesproken aangeboden: Een werknemer meldt zich regelmatig ziek wegens verkoudheid. Ook nu komt zij zeggen dat zij naar huis wil gaan, terwijl het erg druk is. Vervolgens start het filmpje, de medewerker zegt: ‘Ja, ik denk dat ik maar beter naar huis kan gaan, ik heb het even aangezien, maar dit gesnotter is ook helemaal niks.’ Bij de webcamtest wordt de opname gestart en moet de kandidaat een reactie geven in de webcam, alsof deze medewerker recht tegenover de kandidaat zit (afbeelding links). Bij de video-SJT krijgt de kandidaat vier filmpjes aangeboden met een reactie van de leidinggevende. De kandidaat moet iedere reactie beoordelen op effectiviteit op een schaal van 1 (niet-effectief) tot 5 (effectief). De volgende vier reacties worden verfilmd weergegeven (afbeelding onder): 1) Ja, ik begrijp best dat dat niet gemakkelijk voor je is, maar eigenlijk vind ik het ook heel onplezierig voor ons hier als je nu weggaat, met al dat werk dat we hier hebben liggen, ik hoop dat je dat begrijpt. 2) Ja, dat zal allemaal wel, maar ik vind toch echt dat jij te vaak afwezig bent. Ik vind dat jij maar eens naar de dokter langs moet gaan om te kijken of er niet iets met jouw weerstand aan de hand is, want zo kan dat echt niet langer. Op deze manier komt al het werk achter. 3) Joh, ik vind het heel vervelend voor je, maar er moet mij toch iets van het hart, je bent de laatste tijd heel veel ziek wegens verkoudheid, is er soms iets anders aan de hand? Ik vind het toch moeilijk om dit steeds weer te accepteren. 4) Ja, het valt me toch echt een beetje van je tegen dat jij je om elke kleinigheid ziek meldt, zie je, je hebt ook je collega’s ermee, die zadel je met een hoop werk op. Realiseer je je dat wel?

260




uitkering ontving. De webcamtest had een voorspellende waarde voor deze laatste objectieve werkprestatiemaat (r = .26) en incrementele validiteit boven op de ken‐ nistoets. In totaal verklaarden de twee voorspellers 20% van de variantie in werk‐ prestatie. Met uitzondering van dit onderzoek is er nog geen onderzoek verricht naar dit type selectietest. Het doel van de huidige studie is om de voorspellende waarde van een webcam‐ test met betrekking tot professioneel gedrag van studenten in kaart te brengen. Professioneel gedrag is een gemiddelde beoordeling van docenten over de studie‐ gerelateerde inzet en gedragingen van een student. Aanvullend zal worden nage‐ gaan of een webcamtest incrementele validiteit heeft ten opzichte van meer gangbare instrumenten, zoals een cognitieve capaciteitentest en een persoonlijk‐ heidsvragenlijst. Ook zal worden onderzocht of een webcamtest incrementele validiteit heeft ten opzichte van een video-SJT. Tot slot zal worden bekeken hoe indruksvalide de kandidaten een webcamtest vinden. Allereerst wordt besproken wat tot op heden bekend is over de voor- en nadelen van video-assessment als afnamevorm. Daarna worden de voor- en nadelen van een open responsvorm in tests behandeld. In deze paragrafen wordt theoretisch onderbouwd waarom een webcamtest een goede voorspeller zou zijn voor professioneel gedrag. In tabel 1 staat een overzicht van deze bevindingen. 1.1 Voor- en nadelen van video-assessment Bij een video-assessment, zoals een webcamtest of een video-SJT, worden uit‐ dagende werksituaties gepresenteerd door middel van videofragmenten. Het onderzoek naar video-assessment is schaars, maar de resultaten die er zijn, zijn veelbelovend. In dergelijk onderzoek (bijv. Chan & Schmitt, 1997; Lievens & Sac‐ kett, 2006) worden verschillende voordelen van video-assessment beschreven en met resultaten ondersteund. Volgens Chan en Schmitt (1997) kan video-assessment adverse impact tegengaan. Adverse impact is een voorkeursbehandeling van leden uit meerderheidsgroepen, waarbij de selectieratio van de meerderheidsgroep substantieel groter is dan de selectieratio van de minderheidsgroep (Ironson, Guion & Ostrander, 1982). Een verschil in selectieratio’s kan veroorzaakt worden door scoreverschillen bij tests waar een beroep gedaan wordt op leesvaardigheid. Zo kan het zijn dat de leesvaar‐ digheid van minderheidsgroepen, bijvoorbeeld bij immigranten die de taal al wel spreken, maar nog niet goed schriftelijk beheersen of bij mensen met dyslexie, de prestatie op een test verlagen omdat zij simpelweg meer tijd nodig hebben om een instructie of opgave te lezen en te begrijpen. Video-assessment kan de mate van adverse impact reduceren, doordat er geen beroep wordt gedaan op de leesvaardig‐ heid van kandidaten (Chan & Schmitt, 1997; Van der Maesen, 2005). Verder lijkt video-assessment ook een toegevoegde waarde te hebben ten opzichte van andere instrumenten bij de voorspelling van werkprestatie. Uit een metaanalyse van Christian, Edwards en Bradley (2010) bleek bijvoorbeeld dat SJT’s afgenomen middels video-assessment beter werkprestatie voorspellen dan schrif‐ telijke SJT’s. Dit resultaat werd gevonden bij alle beoordeelde constructen, waar‐ onder leiderschapsvaardigheden en interpersoonlijke vaardigheden. Lievens en Sackett (2006) hebben onderzoek gedaan naar de voorspellende waarde van een


261



SJT die in videovorm en in schriftelijke vorm werd aangeboden. Het eerste te voorspellen criterium betrof het gemiddelde cijfer van de student (grade point ave‐ rage [GPA]) en het tweede te voorspellen criterium betrof de prestatie van de stu‐ dent op interpersoonlijke georiënteerde vakken (interpersoonlijke criterium). Lie‐ vens en Sackett vonden een significante correlatie tussen de video-SJT en het interpersoonlijke criterium (r = .34), maar niet tussen de schriftelijke SJT en dit criterium. Ten tweede bleek de video-SJT incrementele validiteit te hebben ten opzichte van een werksimulatie en een cognitieve test in het voorspellen van het interpersoonlijke criterium. De schriftelijke SJT had daarentegen een significante incrementele validiteit in het voorspellen van GPA. Lievens en Sackett conclu‐ deerden daarom dat wanneer interpersoonlijke capaciteiten gemeten worden, zoals bij SJT’s vaak het geval is, het aan te raden is om dat in videovorm te doen. Een ander voordeel van video-assessment is dat het een positieve invloed lijkt te hebben op de reacties van kandidaten. De waardering van video-assessment is vaak hoog (bijv. O’Reilly, Hubbard, Lessler, Biemer & Turner, 1994). Bij een vergelij‐ king van dezelfde test in schriftelijke vorm en videovorm vonden Chan en Schmitt (1997) dat kandidaten de test in videovorm als meer indruksvalide beschouwden. Cartney (2005) concludeerde in een kwalitatief onderzoek dat de meeste deelnemers een video-assessment een betere manier vonden om commu‐ nicatieve vaardigheden te meten dan een schriftelijk assessment. Ook RichmanHirsch, Olson-Buchanan en Drasgow (2000) hebben onderzocht of de manier van testafname invloed heeft op de testpercepties van de kandidaat. Zij vergeleken de percepties van de kandidaten op een inhoudelijk gelijke test die of op papier werd afgenomen, of via een computer, of in videovorm. Het betrof een SJT met con‐ flictsituaties op de werkplek. Afhankelijk van de geselecteerde reactie kreeg de kandidaat een volgende situatie aangeboden. De kandidaten, 131 managers van verschillende organisaties, vonden de video-assessment meer indruksvalide dan de papieren test en de computertest. Een nadeel van video-assessment is dat de opstartkosten hoog zijn. Hierbij valt te denken aan het inhuren van acteurs en apparatuur (Weekley & Jones, 1997), de kosten voor de softwareapplicaties en het uitgebreide voortraject van het maken van een functieanalyse en het schrijven van de scripts. Na deze initiële kosten zijn de operationele kosten veelal echter gering (Van der Maesen, 2005). Zo hoeven bijvoorbeeld de assessoren en acteurs niet ter plaatse aanwezig te zijn zoals bij rollenspellen of werksimulaties in een assessmentbureau (Chan & Schmitt, 1997). 1.2 Voor- en nadelen van een open responsvorm De voordelen van video-assessment in het algemeen zijn in diverse onderzoeken aangetoond. Echter, de vraag wat de meerwaarde is van een webcamtest ten opzichte van een video-SJT blijft daarmee nog onbeantwoord. Ondanks de voor‐ spellende waarde van video-assessment stellen Lievens en Thornton (2005) dat een SJT met reacties in videovorm geen werkelijke weergave is van interacties op de werkplek. In een echte situatie kan een medewerker of manager niet kiezen uit de beste reactie. Bij het moeten beoordelen van reacties zoals in een SJT, is het wellicht makkelijker om een maximale prestatie te leveren dan wanneer de reactie zelf bedacht en gegeven moet worden. Zeker in een situatie waarin er veel op het

262




spel staat (bijv. het al dan niet aangenomen worden voor een functie) zal de kan‐ didaat eerder neigen naar het tonen van maximale prestatie in plaats van typische prestatie (Sackett, Zedeck & Fogli, 1988). Voorwaarde voor deze maximale presta‐ tie is wel dat de kandidaat weet dat hij of zij geëvalueerd wordt en dat de kandi‐ daat dusdanig de tijd krijgt dat hij of zij in staat is om een maximale prestatie te leveren. Een test met een open responsvorm kan weleens een realistischer beeld geven van de daadwerkelijke werkprestatie dan een SJT met gesloten respons‐ vorm. Omdat een webcamtest een open responsvorm heeft, zou deze test wel eens eerder typische dan maximale prestatie kunnen meten. Het onderzoek van Motowidlo en collega’s (2008) ondersteunt deze veronderstelling. Uit dit onder‐ zoek bleek dat een gedragtest (rollenspel) de werkprestatie van winkelmede‐ werkers voorspelt (r = .26), maar een situationele kennistoets niet. Het onderzoek van Klehe en Latham (2007) ondersteunt deze veronderstelling gedeeltelijk. Zij onderzochten of een situationeel interview en een criteriumgericht interview (waarin specifiek gevraagd werd naar het gedrag in persoonlijk ervaren situaties) een andere mate van voorspellende waarde hadden voor maximale en typische prestatie. Zij lieten medestudenten anoniem maximale en typische prestatie beschrijven van de deelnemers. Wat bleek was dat het beschrijven van daadwerke‐ lijk vertoond gedrag met name typische prestatie voorspelt en dat een situatio‐ neel interview zowel maximale als typische prestatie voorspelt. Nadelen van een open responsvorm hebben met name betrekking op de beoor‐ delaarseffecten die kunnen optreden (Kunda, 1999; Lievens, 1998). Zo zou een beoordelaar bewust of onbewust beïnvloed kunnen worden door vooroordelen over etnische minderheden. Of als een beoordelaar zichzelf herkent in de kandi‐ daat (similar-to-me-effect) of de beoordelaar de kandidaat in eerste instantie goed vindt reageren of hem of haar aantrekkelijk vindt (halo-effect) kan dit de beoor‐ deling van het gehele assessment (onterecht) positief beïnvloeden ongeacht de verdere prestatie van de kandidaat.


263

264

De beoordeling wordt niet beïnvloed door de mening van assessoren Kan een groot beroep doen op leesvaaren beoordelaarseffecten zoals het halo-effect m n digheid h d Meer indruksvalide dan cognitieve capaciteitentest of persoonlijkheidsvragenlijsten p

De reactie kiezen die het beste het eigen gedrag weergeeft

Interview/ Open rollenspel

Open

Kan een groot beroep doen op lees- en schrijfvaardigheid d

Beschrijven hoe een eigen reactie in het verleden is geweest

De assessor heeft de mogelijkheid om dieper in te gaan op het onder- Kan beïnvloed worden door beoordewerp en om door te vragen bij twijfel l laarseffecten m n Voorspelt werkprestatie beter dan een situationele kennistoets l Bij geen standaardisatie van items en beoordeling, kan de (on)kunde van de assessor de prestatie beïnvloeden k n De assessor heeft de mogelijkheid om dieper in te gaan op het onder- Kan beïnvloed worden door beoordewerp en om door te vragen bij twijfel l laarseffecten m n Voorspelt werkprestatie beter dan een situationele kennistoets j Bij geen standaardisatie van items en beoordeling, kan de (on)kunde van de assessor de prestatie beïnvloeden k n

Een passende reactie geven

Beschrijven hoe een eigen reactie in het verleden is geweest

De beoordeling wordt niet beïnvloed door de mening van assessoren en beoordelaarseffecten zoals het halo-effect m n

Correleert veelal met cognitieve capaciteiten b º Kan een groot beroep doen op lees- en schrijfvaardigheid d

Beschrijven wat een De beoordeling wordt niet beïnvloed door de mening van assessoren effectieve reactie zou en beoordelaarseffecten zoals het halo-effect m n zijn

Correleert veelal met cognitieve capaciteiten b º Kan een groot beroep doen op leesvaardigheid h d

De beoordeling wordt niet beïnvloed door de mening van assessoren en beoordelaarseffecten zoals het halo-effect m n Meer indruksvalide dan cognitieve capaciteitentest of persoonlijkheidsvragenlijsten p

De meest effectieve reactie kiezen/ de reacties rangordenen

Gesloten

Nadelen

Geschreven

Voordelen

Instructies

Een overzicht van vormen van SJT’s, (type afnamevorm, responsvorm en instructie) en de mogelijke voor- en nadelen zoals besproken in dit artikel

Afname- Resvorm ponsvorm

Tabel 1





Geen standaardisatie van beoordeling, ondanks de eventuele beoordelaarinstructies kunnen oordelen gekleurd worden door beoordelaarseffecten m n Productiekosten zijn hoog a d

Noot : a Weekley & Jones, 1997; b Chan & Schmitt, 1997; c Lievens & Sackett, 2006; d Van der Maesen, 2005; e Christian, Edwards & Bradley ; f O’Reilly, Hubbard, Lessler, Biemer & Turner, 1994; g Cartney, 2005; h Richman-Hirsch, Olson-Buchanan & Drasgow, 2000; j Motowidlo, Brownlee & Schmit, 2008; 2006; k Lievens & Thornton, 2005; l Klehe & Latham, 2007; m Kunda, 1999; n Lievens, 1998; o McDaniel, Hartman, Whetzel & Lee Grubb III, 2007; p Hausknecht, Day & Thomas, 2004.

Open

Kan adverse impact tegengaan a b Toegevoegde waarde ten opzichte van andere instrumenten bij het voorspellen van werkprestatie c Mogelijkheid om door meerdere onafhankelijke beoordelaars te laten beoordelen d Wordt als meer indruksvalide beschouwd dan schriftelijke tests b g h Voorspelt werkprestatie beter dan een situationele kennistoets j

Kan adverse impact tegengaan a b Productiekosten zijn hoog a d Toegevoegde waarde ten opzichte van andere instrumenten bij het Geen goede werkelijkheidsweergave van voorspellen van werkprestatie c interacties op de werkplek k Wordt als meer indruksvalide beschouwd dan schriftelijke tests b g h Voorspelt eerder interpersoonlijke vaardigheden dan schriftelijke SJT’s, heeft incremenetele validiteit t.o.v. andere instrumenten bij het voorspellen van interpersoonlijke criteria c

De reactie kiezen die het beste het eigen gedrag weergeeft

Een passende reactie geven

Kan adverse impact tegengaan a b Productiekosten zijn hoog a d Toegevoegde waarde ten opzichte van andere instrumenten bij het Geen goede werkelijkheidsweergave van voorspellen van werkprestatie c interacties op de werkplek k b g h Wordt als meer indruksvalide beschouwd dan schriftelijke tests Voorspelt eerder interpersoonlijke vaardigheden dan schriftelijke SJT’s, heeft incremenetele validiteit t.o.v. andere instrumenten bij het voorspellen van interpersoonlijke criteria c

Gesloten

De meest effectieve reactie kiezen/ de reacties rangordenen

Nadelen

Video

Voordelen

Instructies

(Vervolg)

Afname- Resvorm ponsvorm

Tabel 1



265



1.3 Het huidige onderzoek Het doel van dit onderzoek is om de criteriumgerelateerde validiteit van een webcamtest met betrekking tot twee criteria na te gaan, namelijk het gemiddelde tentamencijfer en het gemiddelde cijfer op professioneel gedrag van studenten tijdens werkgroepen. Onder professioneel gedrag wordt verstaan een actieve deel‐ name aan de werkgroepbijeenkomsten, vaardigheden als groepsvoorzitter, luis‐ tervaardigheden en betrokkenheid. Studenten worden door docenten in ver‐ plichte werkgroepen op deze vaardigheden beoordeeld. In tegenstelling tot een tentamen waarin maximale prestatie wordt gemeten, is professioneel gedrag een meting van typische prestatie. In het huidige onderzoek wordt gebruikgemaakt van een webcamtest die leiderschapsvaardigheden in verschillende situaties meet waarbij het onder andere gaat om het motiveren en stimuleren van anderen, pro‐ fessioneel gedrag dat een student ook moet tonen in de werkgroepen. Daarnaast wordt de incrementele validiteit van een webcamtest ten opzichte van een cogni‐ tieve capaciteitentest, een persoonlijkheidsvragenlijst en een video-SJT onder‐ zocht. Bij deze video-SJT krijgen de studenten de opdracht om de reacties te beoordelen op effectiviteit. Tot slot wordt de indruksvaliditeit van een webcam‐ test onderzocht. 1.4 Hypothesen Zowel de video-SJT als de webcamtest trachten leiderschapsvaardigheden in ver‐ schillende werkgerelateerde situaties te meten. Om deze reden wordt verwacht dat scores op beide video-assessments positief gerelateerd zijn aan het criterium professioneel gedrag. Aangezien een SJT waarbij de kandidaat reacties beoordeelt op effectiviteit maximale pretatie meet (McDaniel et al., 2007), wordt verwacht dat scores op de video-SJT in het huidige onderzoek tevens gerelateerd zijn aan tentamencijfers. Vanwege de open responsvorm is de verwachting dat de web‐ camtest voorspellende waarde zal hebben voor typische prestatie, maar niet voor maximale prestatie. Hypothese 1a: De video-SJT heeft zowel criteriumgerelateerde validiteit met betrekking tot het criterium professioneel gedrag als voor het criterium gemid‐ deld tentamencijfer. Hypothese 1b: De webcamtest heeft criteriumgerelateerde validiteit met betrek‐ king tot het criterium professioneel gedrag, maar niet met betrekking tot het cri‐ terium tentamencijfer. De meerwaarde van het gebruik van video-assessment bleek op verschillende manieren uit het eerder omschreven onderzoek. Zo hebben deze onderzoeken aangetoond dat videotests incrementele validiteit hebben ten opzichte van cogni‐ tieve tests (Lievens & Sackett, 2006; Salgado & Lado, 2000) en een kennistest (Oostrom et al., 2010). Dit was vooral het geval wanneer het criterium een maat is voor sociaal gedrag (Lievens & Sackett, 2006). In lijn met deze bevindingen valt het volgende te verwachten.

266




Hypothese 2a: De video-SJT heeft incrementele validiteit ten opzichte van de cog‐ nitieve capaciteitentest en de persoonlijkheidsvragenlijst met betrekking tot het criterium professioneel gedrag. Binnen de categorie video-assessment is de mogelijk incrementele validiteit van de webcamtest ten opzichte van de video-SJT interessant. Omdat er een duidelijk verschil bestaat tussen de video-SJT, waarin de kandidaat moet weten hoe hij zich moet gedragen, en de webcamtest, waarin de kandidaat ook daadwerkelijk het gedrag moet vertonen, is de verwachting dat de webcamtest variantie in profes‐ sioneel gedrag kan verklaren boven op de variantie die verklaard wordt door een video-SJT. Hypothese 2b: De webcamtest heeft incrementele validiteit ten opzichte van de video-SJT, de cognitieve capaciteitentest en de persoonlijkheidsvragenlijst met betrekking tot het criterium professioneel gedrag. Het is interessant voor potentiële gebruikers van de webcamtest om te weten of de test wordt beschouwd als een indruksvalide test. Uit enkele eerdere studies over video-assessment kwam naar voren dat video-assessment als indruksvalide wordt beschouwd (bijv. Cartney, 2005; Chan & Schmitt, 1997; O’Reilly et al., 1994). Omdat de video-SJT en de webcamtest beide situationele videotests zijn, kan de volgende hypothese worden opgesteld. Hypothese 3: De webcamtest wordt door de kandidaat als een meer indruksvalide test beschouwd dan de cognitieve capaciteitentest en de persoonlijkheidsvragen‐ lijst en als een tenminste even indruksvalide test als de video-SJT, voor het meten van leidinggevende kwaliteiten. 2

Methode

2.1 Participanten en procedure In totaal namen 106 psychologiestudenten (37 mannen en 69 vrouwen) deel aan het onderzoek. Zij waren gemiddeld 21.94 jaar (SD = 2.85). Vijftig studenten zaten in het eerste jaar, 20 studenten in het tweede jaar en 36 studenten in het vierde jaar van de studie psychologie in de periode van testafname. Er deden geen studenten uit het derde jaar mee. Als criteria zijn alle beschikbare studiecijfers (tentamencijfers en cijfers op professioneel gedrag) vanaf het begin van de studie tot aan twee maanden na het afnamemoment van de gebruikte predictoren mee‐ genomen. Omdat enkele studenten zijn ingestroomd van een andere studie of universiteit zijn niet van alle studenten de resultaten uit het eerste jaar beschik‐ baar. Van de onderzoeksgroep was 93% geboren in Nederland en de rest elders. De volgorde van de afname van de tests was at random, maar werd wel geregis‐ treerd. De studenten kregen allen dezelfde instructies over het verloop van de afname. De indruksvaliditeit werd na afloop van iedere test gemeten.


267



2.2 Instrumenten •

Predictoren

• Webcamtest Voor dit onderzoek is een webcamtest voor leidinggevende vaardigheden gebruikt (WCT-L). Bij de WCT-L zit de kandidaat voor het computerscherm. De kandidaat krijgt op het scherm eerst een uitgebreide uitleg van een acteur. De instructies zijn voor alle kandidaten gelijk en benadrukken het belang van het geven van een spontane reactie alsof de persoon uit het filmpje echt tegenover de kandidaat zit. Daarna krijgt de kandidaat de gelegenheid om een situatie te oefenen voordat de test begint. Per situatie krijgt de kandidaat eerst een gesproken inleiding te horen. Vervolgens verschijnt er een acteur op het scherm die rechtstreeks tegen de kandidaat spreekt. Daarna is het de bedoeling dat de kandidaat een reactie geeft in de webcam. De kandidaat heeft maximaal één minuut de tijd om een reac‐ tie in te spreken, maar kan de opname ook afbreken indien de reactie binnen de minuut is gegeven. De reacties worden opgenomen en achteraf beoordeeld door vier getrainde beoordelaars (een mannelijke en een vrouwelijke psychologie‐ student en twee mannelijke sociologiestudenten, leeftijd: M = 26.00 jaar, SD = 3.83). Deze beoordelaars kregen een training bestaande uit twee dagdelen waarin de nadruk werd gelegd op de inhoud van de competenties, het gebruik van de beoordelingsindicatoren en het eventueel verwoorden van de prestatie van de kandidaten op de situaties. Ook werden beoordelaarseffecten besproken en de mogelijkheden om deze te reduceren. Zo is er bij de WCT-L de mogelijkheid om verticaal te beoordelen, dat wil zeggen dat beoordelaars per situatie kunnen beoordelen in plaats van per kandidaat wat bijvoorbeeld het halo-effect kan tegengaan. Tussen de bijeenkomsten door kregen de beoordelaars de gelegenheid om het beoordelen te oefenen door de opnames van vier kandidaten te beoorde‐ len. De beoordelaarsovereenstemming werd bekeken en de situaties waarbij er weinig consensus was tussen de beoordelingen werden uitvoerig besproken. Na deze training kregen de beoordelaars iedere week 10 kandidaten toegewezen die zij verticaal moesten beoordelen op een 5-puntsschaal van 1 (zeer ineffectief) tot 5 (zeer effectief). Voor het bepalen van de interbeoordelaarsovereenstemming is een intra-klasse correlatiecoëfficiënt (ICC) berekend. Iedere kandidaat werd beoordeeld door drie beoordelaars die willekeurig gekozen waren uit de vier beoordelaars. De beoordelaarsovereenstemming bleek voldoende hoog (ICC = .82). Voor dit onderzoek werd gebruikgemaakt van een webcamtest die speciaal was ontwikkeld voor het meten van leidinggevende kwaliteiten. De situaties zijn geschreven aan de hand van 10 criteriumgerichte interviews met ervaren leiding‐ gevenden, ook de beoordelingsinstructies zijn gebaseerd op deze interviews. De test is afgenomen bij zes ervaren leidinggevenden om de beoordelingsinstructies uit te breiden en te verfijnen. Op advies van vier adviseurs (drie psychologen/lei‐ dinggevenden (m) en een leidinggevende (v), leeftijd: M = 51.00 jaar, SD = 10.46) waren 10 situaties geselecteerd uit een set van 20 situaties. De adviseurs beoor‐ deelden iedere situatie op drie criteria: (1) persoonsgericht leiderschap, (2) taak‐

268




gericht leiderschap en (3) praktische relevantie. Met praktische relevantie werd aangeduid in welke mate een situatie beeldend is voor de realiteit. De uiteinde‐ lijke selectie bevat situaties die hoog scoorden op elk van deze criteria. De alfaco‐ efficiënt voor deze 10 situaties is .83. De WCT-L beoogt de competenties persoonsgericht en taakgericht leidinggeven te meten. Bij iedere situatie wordt de reactie beoordeeld op deze twee competenties. Voor iedere situatie worden dus twee scores gegeven op een 5-puntsschaal. De keuze voor deze twee competenties is gebaseerd op de meta-analyse van Judge, Piccolo en Ilies (2004) waarin zij met behulp van statistische correcties 163 corre‐ laties met persoonsgericht leidinggeven (Consideration) en 159 correlaties met taakgericht leidinggeven (Initiating Structure) bekeken. Hieruit bleek dat deze competenties beide hoog correleren met leiderschapsuitkomsten zoals de motiva‐ tie van de medewerker en de effectiviteit van de leider. Daarnaast bleken beide competenties duidelijk losse constructen te zijn. Judge en zijn collega’s benadruk‐ ten de indrukwekkende consistentie van deze resultaten bij verschillende criteria en metingen, in verschillende bronnen en over een lange tijdsspanne. In de WCT-L correleerden persoonsgericht en taakgericht leidinggeven hoog met elkaar (r = .80, p < .01). Naar aanleiding van een principale componentenanalyse met varimax rotatie is ervoor gekozen om de situaties in de WCT-L niet op te splitsen in twee competenties. Zelfs bij het forceren van twee componenten blij‐ ven de resultaten erop duiden dat er geen sprake is van twee competenties. Ondanks dat de eerste vijf componenten een eigenwaarde hebben van meer dan één (respectievelijk EW1 = 6.73; EW2 = 1.91; EW3 = 1.68; EW4 = 1.44; EW5 = 1.09), is zichtbaar in een scree plot dat de webcamtest slechts één competentie lijkt te meten. Deze competentie heeft een verklaarde variantie van 33.65%. In de discussie wordt dieper ingegaan op dit gegeven. Voor het onderzoek zijn de scores van een kandidaat op beide competenties per situatie samengenomen als één score. Als totaalscore is een gemiddelde score over alle situaties op de WCT-L berekend. • Video-SJT De video-SJT betreft de SQ-leidinggeven (Situational Questionnaire-leidinggeven, Van der Maesen & Koch, 2007). De SQ-leidinggeven meet inzicht in de vaardig‐ heden van een leidinggevende. Net als de WCT-L is de SQ-leidinggeven gebaseerd op uitdagende praktijkgerichte situaties die vervaardigd zijn aan de hand van cri‐ teriumgerichte interviews met ervaren leidinggevenden. Iedere kandidaat krijgt voorafgaand aan de test dezelfde gesproken en geïllustreerde instructie. Er wordt duidelijk aangegeven dat de kandidaat de situaties moet beoordelen op effectivi‐ teit. Daarna krijgen de kandidaten de gelegenheid om te oefenen alvorens de test begint. Zowel de situaties als de reacties worden in videovorm aangeboden. De test bestaat uit 17 situaties (α = .83). Bij elke situatie worden vier reacties gegeven die onafhankelijk van elkaar beoordeeld moeten worden op effectiviteit op basis van een 5-puntsschaal van 1 (niet effectief) tot 5 (effectief). De beoordeling van de kandidaat wordt vergeleken met de gemiddelde beoordeling van een expertgroep (15 ervaren managers die tezamen een interbeoordelaarsbetrouwbaarheid had‐ den van α = .93). Hoe hoger de overeenstemming tussen de kandidaat en het


269



gemiddelde van de expertgroep, hoe hoger de score van de kandidaat op de test. De score wordt weergegeven op een 100-puntsschaal. De dimensies die aan bod komen zijn aanspreken op resultaten, aanspreken op sociaal gedrag, motiveren en coa‐ chen. Zoals Judge en collega’s (2004) omschrijven is taakgericht leidinggeven gericht op het behalen van resultaten en het aanbrengen van structuur en per‐ soonsgericht leidinggeven gericht op het welzijn van de medewerker en het sti‐ muleren en complimenteren van hem of haar. De eerste twee dimensies zouden daarom theoretisch aansluiten op taakgericht leidinggeven en de laatste twee op persoonsgericht leidinggeven. Omdat bij de WCT-L gekozen is voor het gebruik van de totaalscore op de test, is voor dit onderzoek ook alleen de totaalscore op de SQ-leidinggeven meegenomen. • Cognitieve capaciteitentest Om de cognitieve capaciteiten van de kandidaten te meten, is gebruikgemaakt van de Captain test. De Captain test is een cognitieve capaciteitentest ontwikkeld door GITP en bestemd voor mensen met een hbo-opleiding of hoger (Van Leeu‐ wen, 2006). De test beoogt de cognitieve capaciteiten van de kandidaat te meten. De test bestaat uit drie delen: (1) Figuren met een tijdslimiet van 15 minuten (30 items, α = .83; gebaseerd op een normgroep tot 2006, N = 248; niveau: 3% lbo, 28% mbo, 37% hbo, 32% universitair ), (2) Verbale analogieën met een tijdsli‐ miet van 15 minuten (39 items, α = .90; gebaseerd op een onderzoeksgroep uit 2002, N = 1347; niveau: 100% wo) en (3) Cijferreeksen met een tijdslimiet van 18 minuten (25 items, α = .59; gebaseerd op een onderzoeksgroep uit 2002, N = 1167; niveau: 100% wo). Voor ieder correct item krijgt de kandidaat één punt. De onderlinge correlaties tussen de testonderdelen waren r = .28, p < .01 (Cijferreek‐ sen en Verbale analogieën), r = .24, p < .01 (Cijferreeksen en Figuurreeksen) en r = .41, p < .01 ( Figuurreeksen en Verbale analogieën). Vanwege de lage betrouw‐ baarheid en de lagere intercorrelaties met de andere twee testonderdelen, is Cij‐ ferreeksen niet meegenomen in de totaalscore. • Persoonlijkheidsvragenlijst De GITP Big Five-persoonlijkheidsvragenlijst G5R (Koch, 2003, zoals beschreven in Hoekstra, 2006) is gebruikt om de persoonlijkheidstrekken van de kandidaten in kaart te brengen. De vragenlijst beoogt vijf factoren te meten: (1) extraversie (27 items, α = .92), (2) vriendelijkheid (28 items, α = .83), (3) consciëntieusheid (40 items, α = .92), (4) stabiliteit (23 items, α = .88), en (5) openheid voor nieuwe ervaringen (47 items, α = .90). De interne consistentie is gebaseerd op een onder‐ zoeksgroep uit 2002 (N = 1071; selectiecontext 60%; man 69%). Daarnaast wordt een score gegeven op zelfpresentatie (35 items, α = .93). Zelfpresentatie staat voor ‘de gretigheid en de ambitie waarmee men zichzelf wil presenteren, zichzelf als krachtig, ambitieus, energiek en zelfverzekerd neerzetten’ (Koch, 2003, zoals beschreven in Hoekstra, 2006, p. 3). Zelfpresentatie correleerde daarnaast hoog met een aparte schaal die ingezet was voor het meten van sociale wenselijkheid. Resultaten op deze schaal dienen dan ook als aanvullende informatie bij de scores op de Big Five. Iedere factor wordt beoordeeld op een 5-puntsschaal. Soort‐ genootvaliditeit is onder andere aangetoond met de NEO (Hoekstra, 2006). De

270




correlaties tussen de corresponderende schalen variëren van r = .49 - .70 (p < .01, N = 260). • Indruksvaliditeit Indruksvaliditeit geeft weer in hoeverre een kandidaat de test relevant vindt voor het bepalen van het niveau van werkrelevante kennis, vaardigheden en kwalitei‐ ten (Cook, 2004). De indruksvaliditeit is gemeten door middel van een vertaalde en verkorte schaal van Smither, Reilly, Millsap en Stoffey (1993). De schaal bestaat uit zes items en is afgenomen na iedere test (WCT-L, SQ-leidinggeven, Captain en G5R). De alfacoëfficiënt wisselde per afnamemoment (α = .78 - .85). Voorbeelditems zijn: ‘Deze test is voor een leidinggevende functie relevant’ en ‘Deze test voorspelt prestaties in een leidinggevende functie goed’. Er is gebruik‐ gemaakt van een 5-puntsschaal van 1 (helemaal niet akkoord) tot 5 (helemaal akkoord). •

Criteria

• Tentamencijfer Het gemiddelde tentamencijfer is berekend uit de cijfers (op een schaal van 1 tot 10) van tenminste vijf tentamens. De eerstejaars studenten hadden op het moment van meting vijf blokken afgerond. Voor de tweedejaars studenten kon het gemiddelde van maximaal 13 tentamencijfers worden genomen en voor de vierdejaars studenten kon het gemiddelde van maximaal 22 tentamencijfers wor‐ den genomen. • Professioneel gedrag De cijfers voor professioneel gedrag worden door verschillende universitaire docenten gegeven aan de hand van een gestandaardiseerd scoreformulier. Iedere blokperiode begeleidt de docent een andere werkgroep. Aan het einde van ieder blok beoordeelt de docent alle studenten van zijn of haar werkgroep op professio‐ neel gedrag. Dit gebeurt aan de hand van een gestandaardiseerd scoreformulier met 19 stellingen (bijlage 1). Dit scoreformulier bevat onderwerpen als ‘vaardig‐ heden als gespreksleider/voorzitter’, ‘vaardigheden als notulist’ en ‘vaardigheden als groepslid’. De stellingen worden beoordeeld op een 5-puntsschaal 1 (geheel oneens) tot 5 (geheel eens). Uit deze gegevens wordt automatisch een schoolcijfer berekend. Ook wordt de score per vraag berekend, deze wordt weergegeven op een 5-puntschaal. Uit een principale componentenanalyse met varimax rotatie bleek dat 18 van de 19 vragen op drie factoren laden. De verklaarde variantie is 75.81%. Slechts één stelling, die betrekking heeft op het al dan niet op tijd komen van de student, is buiten beschouwing gelaten. De factoren zijn literatuurbegrip (verklaarde variantie = 60.1%), voorzitterschap (verklaarde variantie = 9.6%) en betrokkenheid bij de groep (verklaarde variantie = 6.1%). Literatuurbegrip is het kunnen verwoorden, uitleggen en ter discussie stellen van de literatuur in de werkgroep. Deze schaal bestaat uit vijf items (α = .94) en bestaat uit items als ‘De student creëerde diepgang in de discussie door bijvoorbeeld kritische vragen te stellen’. De factor voorzitterschap (α = .92) bestaat ook uit vijf items. Een voor‐


271



beeld van een item is: ‘De student stimuleerde als gespreksleider alle groepsleden om bij te dragen’. Tot slot bestaat de schaal betrokkenheid uit 8 items (α = .93). Een voorbeeld van een item dat bij deze factor hoort is: ‘De student had een geïn‐ teresseerde, betrokken houding ten opzichte van de groep’. Het gemiddelde van deze factoren (op een schaal van 1-5) is ook meegenomen in de analyses. 3

Resultaten

3.1 Beschrijvende resultaten Uit de correlatiematrix (zie tabel 2) komen enkele significante correlaties naar voren tussen geslacht en scores op de G5R (persoonlijkheidsvragenlijst) en op de SQ-leidinggeven (video-SJT met gesloten responsvorm). Vrouwen scoren beter op de SQ-leidinggeven (t = -2.12, p < .05), maar zijn minder extravert (t = 2.34, p < .01), minder emotioneel stabiel (t = 2.97, p < .01) en scoren lager op de factor zelfpresentatie (t = 3.56, p < .01) en openheid voor nieuwe ervaringen (t = 2.36, p < .05). Er bleek een verschil te zijn tussen de kandidaten die eerst de SQ-leidinggeven hadden gemaakt en de kandidaten die eerst de WCT-L (webcamtest) hadden gemaakt. Negenenveertig kandidaten hadden eerst de WCT-L en 56 kandidaten hadden eerst de SQ-leidinggeven gemaakt. De kandidaten die eerst de SQ-leiding‐ geven hadden gemaakt scoren significant hoger op de WCT-L (t = 2.35, p < .05). Andersom scoren de kandidaten die eerst de WCT-L hadden gemaakt niet signifi‐ cant beter op de SQ-leidinggeven (t = -0.27, ns). De score op de WCT-L en de score op de SQ-leidinggeven zijn ook significant met elkaar gecorreleerd (r = .22, p < .05). Scores op de WCT-L bleken verder gecorreleerd te zijn met extraversie (r = .24, p < .05), emotionele stabiliteit (r = .20, p < .05) en zelfpresentatie (r = .23, p < .05). Werkervaring noch leidinggevende ervaring bleek invloed te hebben op WCT-L scores (respectievelijk r = .15, ns; r = .16, ns). Leeftijd bleek wel significant gerela‐ teerd te zijn aan de WCT-L (r = .32, p < .01), net als studiejaar (r = .47, p < .01). Werkervaring is significant gecorreleerd met de factor literatuurbegrip van het criterium professioneel gedrag. Leeftijd en studiejaar bleken, tot slot, gecorreleerd met de factor betrokkenheid van het criterium professioneel gedrag (resp. r = .22, p < .05; r = .24, p < .05). In de verdere analyses is gecontroleerd voor geslacht, leeftijd, opleidingsniveau, werkervaring, leidinggevende ervaring en het volgordeeffect (dat wil zeggen of de kandidaat eerst de WCT-L of eerst de SQ-leidinggeven had gemaakt).

272



3.69

3.59

3.22

3.75

3.61

6.34

7.53

3.84

3.77

3.62

14 Vriendelijkheid

15 Consciëntieusheid

16 Stabiliteit

17 Openheid

18 Zelfpresentatie

19 Tentamencijfer

20 Professioneel gedrag

21 Voorzitterschap

22 Betrokkenheid

23 Literatuurbegrip

.20*

-.02

.08

.15

.13

.03

.04

.09

0.47 -.07

0.45

0.41

0.74

0.81

.16

.22*

.05

.13

.07

0.44 -.33** .11

0.30 -.23*

0.47 -.28** .22*

0.39 -.01

0.31 -.01

0.55 -.22*

.21*

.24*

.04

.13

.09

.17

.06

.19

.33**

-.06

.23*

-

.23*

.18

-.04

.10

.12

.15

.06

.18

.31**

-.07

.21*

.46**

.09

.05

.03

.06

.14

.19

.19

4

-

.01

.17

.07

.11

-.11

.00

.11

.11

.14

.22*

.13

.09

.00

-.07

-.03

-.08

-.10

.08

5

-

.13

.11

.15

.13

.03

.05

.06

.14

.13

.02

.16

.16

.10

.06

.04

.05

.10

6

-

.08

.01

.02

.05

.08

.05

-.04

-.11

.13

-.09

-.01

.23*

.06

-.05

-.01

-.08

7

9

.01

.07

.09

.15

-.08

.01

.14

-.23*

-.06

.01

.11

.16

.29** .23*

.15

.11

.18

.19*

-.04

.14

.20*

-.16

.04

.07

.09

.13

.84** .84**

.41** (.90)

(.83)

8

-

.11

.23*

.12

.20*

.17

-.06

.24*

(.83)

12

.25*

.17

.36**

.33**

.27** .36**

.28**

-.12

.00

-.02

.04

-.12

-.08

.22*

(.83)

11

.16

.19*

(.83)

14

.12

.13

.12

-.17

.67**

.38**

.16

.07

(.92)

15

-.03

.00

.05

.01

.16

.25*

.27**

.24*

-.26** .07

.14

.52** .43**

.30**

.09

.24*

(.92)

13

.31** .26** .44** .20*

.10

.10

.16

.20*

-.07

.09

.20*

-.23*

-.01

.05

.12

.17

10

17

18

.11

-.06

.01

-.01

-.18

.13

-.02

.02

.04

-.19*

.13

.00

.09

.05

-.14

.41** .59** (.93)

.35** (.90)

(.88)

16

20

.57**

.52**

.42**

21

22

.90**

.71**

23

.82** (.94)

.93** .77** (.93)

.82** (.92)

.56** (.88)

-ᵅ

19

Noot: * p < .05, ** p < .01 (tweezijdig getoetst). N = 106; M = gemiddelde; SD = standaarddeviatie; Geslacht (1 = man, 2 = vrouw); Leeftijd (min = 19, max = 35); Studiejaar (jaar 1 t/m 4); Werkervaring (schaal 1-5); Leidinggevende ervaring (schaal 1-5); Volgorde-effect ( = eerst de WCT-L gemaakt, 2 = eerst de SQ-leidinggeven gemaakt); Figuurreeksen (min = 75, max = 118); Analogieën (min = 79, max = 124); Cognitieve capaciteiten (min =78, max = 120); SQ-leidinggeven (situationele beoordelingstest, min =1, max = 100); WCT-L = webcamtest leidinggeven (min = 1, max = 100); Extraversie (5-puntsschaal ); Vriendelijkheid (5-puntsschaal); Consciëntieusheid (min = 5-puntsschaal); Emotionele stabiliteit (5-puntsschaal); Openheid voor nieuwe ervaringen (5-puntsschaal); Zelfpresentatie (5-puntsschaal); Tentamencijfer (min = 1, max = 10); Professioneel gedrag (min = 1, max = 10); Literatuurbegrip (5-punstschaal); Voorzitterschap (5-punstschaal); Betrokkenheid (5-punstschaal). Op de diagonaal zijn de betrouwbaarheden weergeven; a: betrouwbaarheid van het tentamen is irrelevant omdat ieder blok andere onderwerpen getoetst worden.

3.48

13 Extraversie

.13

.16

.05

.02

.07

.12

.17

.32** .47**

46.34 10.07

12 WCT-L

.25*

.06

9.44

51.20

.05

-.05

.12

11 SQ-leidinggeven

0.52 -.01

.08

.31** .22*

.00

1.45

7 Volgorde-effect

0.72

-

3

.63** .92**

10 Cognitieve c apaciteiten 100.00 10.00 -.12

1.10

6 Leidinggevende ervaring

1.43 -.03

.01

-

.67**

-.05

2.26

5 Werkervaring

0.50

.05

.00

2

100.00 10.00 -.10

1.36

4 Opleidingsniveau

1.34

2.85

-

9 Analogieën

2.22

3 Studiejaar

1

100.00 10.00 -.10

21.94

2 Leeftijd

0.48

SD

8 Figuurreeksen

1.65

M

Intercorrelaties

1 Geslacht

Tabel 2



273



3.2 De criteriumgerelateerde validiteit van de WCT-L De eerste hypothese stelde dat de SQ-leidinggeven met betrekking tot beide crite‐ ria criteriumgerelateerde validiteit zou hebben. Daarnaast werd verondersteld dat de WCT-L alleen criteriumgerelateerde validiteit zou hebben met betrekking tot het criterium professioneel gedrag. De WCT-L heeft volgens deze hypothese geen criteriumgerelateerde validiteit met betrekking tot het criterium gemiddeld ten‐ tamencijfer. Om deze hypothesen te toetsen werden allereerst correlaties bere‐ kend. De WCT-L bleek hoog gecorreleerd met het criterium professioneel gedrag (r = .36, p < .01), maar niet significant met het gemiddelde tentamencijfer (r = .11, ns). Uit een Fisher z-transformatie bleek dat de correlaties significant van elkaar verschillen (z = -2.80, p < .01). Vervolgens is een regressieanalyse uitgevoerd voor zowel de SQ-leidinggeven als de WCT-L met de criteria gemiddeld tentamencijfer en professioneel gedrag. Hierbij is gecontroleerd voor geslacht, leeftijd, oplei‐ dingsniveau, werkervaring, leidinggevende ervaring en het volgorde-effect. De resultaten staan in tabel 3. Hier is zichtbaar dat de WCT-L wel met betrekking tot professioneel gedrag criteriumgerelateerde validiteit heeft (ΔR² = .09; F = 10.50, p < .01; β = .37, p < .01), maar niet met betrekking tot het tentamencijfer. De SQleidinggeven daarentegen heeft zowel criteriumgerelateerde validiteit met betrek‐ king tot professioneel gedrag (ΔR² = .06; F = 6.63, p < .05; β = .26, p < .05), als met betrekking tot het tentamencijfer (ΔR² = .07; F = 7.77, p < .01; β = .28, p < .01). Met deze onderzoeksresultaten kan de eerste hypothese bevestigd worden. 3.3 Incrementele validiteit van de WCT-L Hypothese 2a voorspelde dat de SQ-leidinggeven incrementele validiteit zou heb‐ ben ten opzichte van cognitieve capaciteiten en persoonlijkheid in de voorspelling van het criterium professioneel gedrag. Hypothese 2b voorspelde dat de WCT-L incrementele validiteit zou hebben ten opzichte van de Captain (cognitieve capa‐ citeitentest), de G5R (persoonlijkheidsvragenlijst) en de SQ-leidinggeven in de voorspelling van het criterium professioneel gedrag. Een stapsgewijze lineaire regressieanalyse werd uitgevoerd, waarbij de SQ-leidinggeven in de op één na laatste en WCT-L in de laatste stap is toegevoegd. Tabel 4 geeft de resultaten weer.

274



Stap 2

Stap 1

Stap 2

Stap 1 -.23 .06 .10 -.02

Opleiding (vwo/bachelor) Werkervaring Leidinggevende ervaring Volgorde-effect

.02 .08 .09 .04

Opleiding (vwo/bachelor) Werkervaring Leidinggevende ervaring Volgorde-effect .26*

-.04

Studiejaar

SQ-leidinggeven

.09

-.02

Leeftijd

Geslacht

.37**

.14

Studiejaar

WCT-L

.06

-.04

Leeftijd

Geslacht

β

.10

.04

.15

.06

R²

.06

.04

.09

.06

ΔR²

6,63*

0,56

10,50**

0,76

F Change

Professioneel gedrag

Noot * p < .05, ** p < .01 (eenzijdig getoetst). N = 106; Bèta-gewichten zijn van de laatste stap.

SQ-leidinggeven

WCT-L

Predictor

.28**

.05

-.02

-.14

.44

-.41

.09

.05

.03

-.01

.00

-.16

.08

.01

.11

.08

β

.13

.06

.06

.05

R²

.07

.06

.01

.05

ΔR²

Tentamencijfer

7,77**

0,81

0,05

0,74

F Change

Voorspellende waarde van de WCT-L en de SQ-leidinggeven voor het gemiddelde cijfer op professioneel gedrag en het gemiddelde tentamencijfer

Onderzochte predictor

Tabel 3



275

276

.35**

.34

.26

.18

.07

.05

.08

.08

.11

.02

.05

ΔR²

9,81**

9,26**

1,82

1,98

0,66

F Change

Professioneel gedrag R²

Noot * p < .05, ** p < .01 (eenzijdig getoetst). N = 106; Bèta-gewichten zijn van de laatste stap.

WCT-L

-.25

Zelfpresentatie

Stap 5

-.06

Openheid .30*

-.14

Stabiliteit

SQ-leidinggeven

.33**

Consciëntieusheid

Stap 4

.04

.00 .33*

.04

Leidinggevende ervaring

Volgorde-effect

Vriendelijkheid

.01

Werkervaring

Extraversie

-.14

Opleiding (vwo/bachelor)

Stap 3

-.17

Studiejaar

.15

.14

Cognitieve capaciteiten

-.14

Leeftijd

β

Geslacht

Predictor

.38**

.10

-.16

-.20

-.06

.40**

.00

.28

.10

-.05

.07

-.03

-.21

-.17

.20

-.12

β

.28

.19

.17

.04

.04

R²

.09

.02

.13

.00

.04

ΔR²

9,84**

1,45

2,08

0,18

0,54

F Change

Voorzitterschap

Incrementele validiteit van de WCT-L met betrekking tot de criteria professioneel gedrag en voorzitterschap

Stap 2

Stap 1

Tabel 4






Tabel 5

Indruksvaliditeit: een vergelijking van de WCT-L met de Captain, de G5R en de SQ-leidinggeven

Indruksvaliditeit

M

SD

M-verschil met WCT-L

t

WCT-L

3.90

.58

-

-

Captain

3.17

.75

0.73

7.45**

G5R

3.69

.57

0.22

3.09**

SQ-leidinggeven

4.02

.48

-0.11

1.90*

Noot * p < .05, ** p < .01 (eenzijdig getoetst). N = 106. Indruksvaliditeit wordt weergegeven op een schaal van 1 = helemaal niet akkoord tot 5 = helemaal akkoord. M-verschil met WCT-L = het gemiddelde van de WCT-L minus het gemiddelde van de desbetreffende test.

De toevoeging van de SQ-leidinggeven (β = .30, p < .05) aan het model resulteerde in een totale verklaarde variantie van 26%, met een toename van 9% (F = 9.26, p < .01) boven op de demografische gegevens, de Captain en de G5R. De ver‐ klaarde variantie van het volledige model, inclusief de WCT-L (β = .35, p < .01) is 34% (ΔR² = .08), wat een sterk effect suggereert (F = 9.81, p < .01). Bij het voor‐ spellen van professioneel gedrag onder studenten bleek de SQ-leidinggeven naast een Captain en de G5R toegevoegde waarde te hebben, maar ook het toevoegen van de WCT-L had meerwaarde. Zowel hypothese 2a als 2b kan dus bevestigd worden. Het meest interessante aspect van professioneel gedrag in relatie tot de WCT-L is de factor voorzitterschap van het criterium professioneel gedrag. Daarom is met deze factor als afhankelijke variabele nog een afzonderlijke stapsgewijze lineaire regressieanalyse uitgevoerd. Wanneer alleen de factor voorzitterschap (tabel 4) wordt voorspeld door de verschillende predictoren, bleek dat alleen consciën‐ tieusheid van de G5R een significant bèta-gewicht heeft (β = .40, p < .01). De G5R in het geheel en de SQ-leidinggeven voegden aan de voorspelling van voorzitter‐ schap niets toe. De WCT-L verklaarde wel extra variantie in voorzitterschap ten opzichte van de demografische gegevens, de Captain, de G5R en de SQ-leiding‐ geven (ΔR² = .09; F = 9.84, p < .01; β = .38, p < .01). Dit model verklaart 28% van de variantie. 3.4 Indruksvaliditeit De derde hypothese stelde dat de WCT-L door de student als een meer indruks‐ valide test beschouwd zou worden in vergelijking met de Captain en de G5R, en dat de WCT-L als tenminste even indruksvalide beschouwd zou worden als de SQleidinggeven voor het meten van leidinggevende kwaliteiten. Voor een vergelij‐ king met de SQ-leidinggeven, de Captain en de G5R is een gepaarde t-toets uitge‐ voerd (zie tabel 5). Hieruit bleek dat de kandidaten de WCT-L (M = 3.90, SD = 0.58) significant meer indruksvalide vonden voor het meten van leidinggevende kwaliteiten dan de Captain (M = 3.17, SD = 0.75) en de G5R (M = 3.69, SD = 0.57; respectievelijk: t = 7.45, p < .01 en t = 3.09, p < .01), maar minder dan de SQ-lei‐ dinggeven (M = 4.02, SD = 0.48; t = 1.90, p < .05). Op basis van deze resultaten wordt de hypothese gedeeltelijk ondersteund.


277



4

Discussie en conclusie

4.1 De belangrijkste bevindingen Dit onderzoek had als doel om de voorspellende waarde na te gaan van een nieuw selectie-instrument, namelijk de webcamtest. Daarnaast is bestudeerd of deze test een toegevoegde waarde heeft ten opzichte van gangbare selectie-instrumen‐ ten, namelijk een cognitieve capaciteitentest en een persoonlijkheidsvragenlijst. Ook is nagegaan of de webcamtest incrementele validiteit heeft ten opzichte van een video-SJT. Hiervoor zijn twee criteria bekeken, het gemiddelde cijfer op pro‐ fessioneel gedrag, een meting van typische prestatie, en het gemiddelde cijfer op tentamens, een meting van maximale prestatie. Tot slot is onderzocht hoe indruksvalide de studenten de webcamtest vonden ten opzichte van de andere instrumenten. De video-SJT had criteriumgerelateerde validiteit met betrekking tot zowel pro‐ fessionel gedrag als tentamencijfers. De webcamtest bleek alleen met betrekking tot professioneel gedrag criteriumgerelateerde validiteit te hebben. Dit is een interessante bevinding voor de veronderstelling dat de webcamtest voorspellende waarde zou hebben voor een maat van typische prestatie, maar niet voor een maat van maximale prestatie. Daarentegen had de video-SJT naast voorspellende waarde voor de maat voor typische prestatie ook voorspellende waarde voor de maat voor maximale prestatie. Dit sluit aan bij de onderzoeksresultaten van Klehe en Latham (2007) die aantoonden dat een situationeel interview (in verge‐ lijking met de video-SJT) zowel typische als maximale prestatie voorspelde en dat het gedragsbeschrijvende interview (in vergelijking met de webcamtest) alleen typische prestatie voorspelde. Daarnaast kan een vergelijking getrokken worden met de onderzoeksresultaten van Lievens en Sackett (2006). Zij toonden aan dat video-assessment beter een interpersoonlijk criterium voorspelt dan cognitieve capaciteiten. Uit het huidige onderzoek bleek ook dat beide video-assessments (webcamtest en video-SJT) voorspellende waarde hebben voor de totaalscore op professioneel gedrag maar de cognitieve capaciteitentest niet. Een stapsgewijze regressieanalyse toonde aan dat de video-SJT toegevoegde waarde had in de voorspelling van professioneel gedrag. Zowel voor professioneel gedrag als voor de factor voorzitterschap verklaarde de webcamtest variantie boven op de variantie die verklaard werd door demografische gegevens, de cogni‐ tieve capaciteitentest, de persoonlijkheidvragenlijst en de video-SJT. De stijging in verklaarde variantie is weliswaar niet bijzonder hoog (voor de video-SJT 9% en voor de webcamtest 8%), toch kan een paar procenten meer in verklaarde varian‐ tie een aanzienlijke toename in utiliteit betekenen (Van der Maesen de Sombreff, 1992). De webcamtest bleek naast de persoonlijkheidsfactor consciëntieusheid, de enige test die het gedrag als voorzitter in een werkgroep goed voorspelde. Dit heeft een belangrijke implicatie voor de begripsvaliditeit van de webcamtest, die leiding‐ gevende vaardigheden beoogde te meten. Een kanttekening hierbij is dat de web‐ camtest ook hoog correleerde met literatuurbegrip. Een verklaring zou kunnen

278




zijn dat de factor literatuurbegrip een ruimer begrip meet, namelijk het vermogen om grote hoeveelheden informatie te begrijpen, te integreren, te verwoorden en uit te leggen. Salgado en Lado (2000) stelden al dat er veelal vakinhoudelijke ken‐ nis nodig is om een adequate reactie te geven in situationele tests. Met deze bre‐ dere interpretatie van de component literatuurbegrip zou dit kunnen betekenen dat om een hoge score te behalen op een situationele test, de kandidaat inzicht in en begrip van informatie nodig heeft. Literatuurbegrip correleert namelijk ook hoog met de cognitieve capaciteitentest en de video-SJT. De deelnemers vonden de webcamtest meer indruksvalide dan de cognitieve capa‐ citeitentest en de persoonlijkheidsvragenlijst, maar zij vonden de video-SJT meer indruksvalide dan de webcamtest. Een mogelijke verklaring zou kunnen zijn dat kandidaten het onnatuurlijk vinden om tegen een beeldscherm te praten wat als gevolg heeft dat zij de test minder indruksvalide vinden. Een andere verklaring hiervoor kan zijn dat de kandidaten meer bekend zijn met SJT’s, meer van de vali‐ diteit van SJT’s afweten en daarom de video-SJT als meer indruksvalide beoorde‐ len dan de webcamtest. 4.2 Beperkingen van dit onderzoek en suggesties voor verder onderzoek Een eerste onderwerp dat van belang is om verder te onderzoeken is het feit dat taakgericht en persoonsgericht leidinggeven (de competenties van de WCT-L) niet als afzonderlijke factoren uit de factoranalyse zijn gekomen. De hoge correlatie tussen deze twee competenties is te verwachten, immers een goede reactie in een bepaalde situatie vraagt om zowel een persoonsgerichte als een taakgerichte aan‐ pak (Judge et al., 2004). Judge en collega’s (2004) toonden aan dat de correlatie tussen persoonsgericht leidinggeven en taakgericht leidinggeven erg verschilt per meetinstrument. Bij de ene vragenlijst was de gemiddelde geobserveerde correla‐ tie tussen de twee competenties r =.36 en bij een andere vragenlijst r = -.07. Dit is lang niet zo hoog als de correlatie die in dit onderzoek naar voren kwam (r = .80), maar het kan zijn dat, bij het beoordelen van geobserveerd gedrag, het lastiger is om de competenties te scheiden dan bij het beoordelen van een schriftelijke test of vragenlijst. De beoordelaars beoordeelden wel verticaal per situatie, maar iedere situatie werd op twee verschillende competenties beoordeeld. Het kan zijn dat door beoordelaarseffecten als het halo-effect de beoordelaars zowel de taak‐ gerichte component als de persoonsgerichte component gelijkwaardig hebben beoordeeld ondanks het eventuele verschil in prestatie op beide competenties. Een interessant gegeven dat naar voren is gekomen in dit onderzoek is dat de webcamtest onderhevig lijkt aan leereffecten. Oudere studenten, studenten uit een hoger studiejaar en studenten die eerst de video-SJT hadden gemaakt, scoor‐ den significant hoger op de webcamtest. In de analyses is weliswaar gecontroleerd voor deze variabelen, maar het feit dat een kandidaat door ervaring beter kan worden in het maken van de webcamtest is een gegeven dat benoemd moet wor‐ den. Anderzijds is dit ook een interessante implicatie voor video-SJT’s. In lijn met de sociale leertheorie (Bandura, 1977) leren studenten blijkbaar van simpelweg situaties en reacties observeren. Een video-SJT kan daarmee een interessante trainingstool zijn.


279



Ook zijn enkele significante correlaties gevonden tussen de score op de webcam‐ test en schalen van de persoonlijkheidsvragenlijst. De score op de webcamtest is bijvoorbeeld positief gecorreleerd met emotionele stabiliteit. Wanneer een kandi‐ daat een lage emotionele stabiliteit heeft, is hij of zij angstiger, zelfbewuster en gevoeliger (Judge, Higgins, Thoreson & Barrick, 1999). Deze eigenschappen kun‐ nen het presteren op een webcamtest beïnvloeden. Daarnaast was zelfpresentatie positief gecorreleerd met scores op de webcamtest. Hogere scores op de facetten dominantie en energie zijn positief gecorreleerd met scores op de webcamtest. Het zou kunnen zijn dat deze studenten energieker en overtuigender overkomen dan mensen met lagere scores op deze facetten, waardoor zij beter hebben gepres‐ teerd op de webcamtest. Ook extraversie is positief gecorreleerd met scores op de webcamtest. Het gaat hier dan met name om de facetten zelfvertoon en onbe‐ schroomdheid. Een onbeschroomde student vindt het wellicht minder eng om zichzelf te presenteren voor een webcam en is daardoor in staat tot het geven van een effectievere reactie. In de huidige studie zijn de criteriumscores voor, tijdens en na de afname van de predictorscores verzameld. Het tegelijkertijd meten van voorspeller en criterium (concurrente validiteit) of het verzamelen van criteriumgegevens voordat de pre‐ dictoren gemeten worden (retrospectieve validiteit) kan echter andere resultaten opleveren dan wanneer de voorspeller eerder gemeten wordt dan het criterium (McDaniel et al., 2001). Cook (2004) noemt de veronderstelde problemen met betrekking tot concurrente validiteit. Zo is causaliteit een verondersteld pro‐ bleem, maar bijvoorbeeld ook restriction of range. Van Iddekinge en Ployhart (2008) beschrijven in hun overzicht van ontwikkelingen in de criteriumgerela‐ teerde validiteit van selectieprocedures, dat er bij het verzamelen van criterium‐ scores ook rekening gehouden dient te worden met de dynamiek van prestatie (werknemers gaan bijvoorbeeld na verloop van tijd beter presteren door persoon‐ lijke groei). Van Iddekinge en Ployhart benadrukken echter dat ondanks deze dynamiek, concurrente validiteitsgegevens gebruikt kunnen worden om presta‐ ties te voorspellen. Daarnaast vonden Weekley, Ployhart en Harold (2004) in hun onderzoek geen verschil in concurrente en predictieve validiteit van SJT’s. Niet alleen in het kader van onderzoek naar de psychometrische kwaliteiten van web‐ camtests, maar ook in het kader van verschillen tussen concurrente validiteit en predictieve validiteit is het interessant om bij dezelfde groep studenten over enkele jaren nogmaals criteriumgegevens te verzamelen om de voorspellende waarde van de webcamtest op lange termijn in kaart te brengen. Een ander methodologisch punt dat aangehaald moet worden is het gegeven dat de cognitieve capaciteitentest al niet correleerde met het criterium professioneel gedrag. Het is dan een logisch gevolg dat bij een regressieanalyse de video-SJT en de webcamtest, die wel correleerden met professioneel gedrag, een toegevoegde waarde hebben bij de voorspelling van dit criterium. Critici zouden zich kunnen afvragen of hier daarom wel gesproken mag worden van incrementele validiteit. De reden dat de cognitieve capaciteitentest toch is meegenomen in de analyses en in de conclusie is tweeledig. Enerzijds is de waarde van cognitieve capaciteiten bij de voorspelling van werk en studiesucces veelal aangetoond (bijv. Schmidt & Hunter, 1998). Theoretisch ligt het daarmee in de lijn der verwachtingen dat cog‐

280




nitieve capaciteiten invloed zouden hebben op professioneel gedrag dat, ondanks de sociale component, nog steeds een maat van studiesucces is. Anderzijds blijkt dat één factor van professioneel gedrag, literatuurbegrip, wel correleert met de cognitieve capaciteitentest (r = .31, p < .01). Het weglaten van de cognitieve capa‐ citeitentest uit de analyses alsmede de conclusie zou daarmee een onvolledig beeld scheppen. Een andere beperking van dit onderzoek is dat de onderzoeksgroep enkel uit stu‐ denten bestond. In deze studie was het niet haalbaar om andere proefpersonen dan studenten mee te nemen in de onderzoeksgroep. Het nadeel hiervan is dat er voor de studenten niets afhing van de tests. Dit kan op verschillende manieren invloed hebben gehad op de resultaten. Zo kunnen de studenten minder gemoti‐ veerd zijn geweest dan wanneer zij in een echte selectiecontext de tests zouden moeten maken. Ryan en Ployhart (2000) benadrukken dat studenten geen goede surrogaten zijn voor echte sollicitanten. Het is daarom raadzaam om onderzoek naar de webcamtest te doen in een selectiecontext. Verder kwam in dit onderzoek naar voren dat het aantal jaren werkervaring en het aantal jaren ervaring in een leidinggevende functie geen invloed had op de prestatie op de webcamtest. Omdat het type werk erg kan verschillen tussen stu‐ denten, zou het kunnen zijn dat er wel degelijk een effect is van werken leiding‐ gevende ervaring, maar dat dat in dit onderzoek niet naar voren komt. Vaak heb‐ ben studenten een bijbaan van middelbaar niveau waar zij wellicht niet zwaar aan tillen, denk hierbij aan bijvoorbeeld werk in de horeca of in een kledingwinkel. Voor toekomstig onderzoek zou het interessant zijn om werknemers uit verschil‐ lende branches te testen, met en zonder ervaring als leidinggevende. Tot slot zijn de kandidaat-percepties interessant om verder uit te diepen. Onder‐ werpen waar aan gedacht kan worden zijn testmotivatie, testangst, computer‐ angst, prestatieangst en het al dan niet leuk vinden van de test. Gekeken kan worden naar de invloed van percepties op prestatie en indruksvaliditeit. Dit onderzoek kan verder geen uitsluitsel geven over de redenen waarom kandidaten de webcamtest minder indruksvalide vonden dan de video-SJT. Het zou met betrekking tot verdere testontwikkeling interessant kunnen zijn om een kwalita‐ tief onderzoek te doen naar de meningen van de kandidaten over de webcamtest. Onderzoek naar de webcamtest staat in de kinderschoenen, maar de resultaten tot nu toe zijn veelbelovend. Deze studie heeft een aanzet gegeven om de kwali‐ teiten van de webcamtest verder te onderzoeken. Praktijkbox • De webcamtest is een innovatief video-assessment dat net als een rol‐ lenspel en een werksimulatie gericht is op het meten van gedrag van kandidaten. De webcamtest is een betrouwbaar instrument dat een voorspellende en toegevoegde waarde heeft ten aanzien van een cogni‐ tieve capaciteitentest, een persoonlijkheidsvragenlijst en een videoSJT met gesloten responsvorm bij het meten van professioneel gedrag (deze studie).


281



•

•

Testgebruikers kunnen eerder de webcamtest gebruiken dan het rol‐ lenspel en een werksimulatie wanneer assessoren en/of kandidaten bijvoorbeeld niet ter plaatse aanwezig kunnen zijn, als de beoordelaars onafhankelijk van elkaar (zonder elkaar te beïnvloeden) willen beoor‐ delen of als zij standaardisatie verkiezen boven interactie. De webcamtest lijkt eerder typische prestatie dan maximale prestatie te meten. Testgebruikers kunnen in het geval waarin zij op zoek zijn naar een meting van typische prestatie beter een webcamtest dan een video-SJT met gesloten responsvorm inzetten.

The webcam test as a predictor of professional behavior Marit Op de Beek, Janneke Oostrom & Marise Born, Gedrag & Organisatie, volume 24, September 2011, nr 3, pp. 257-285. The webcam test is a new video assessment designed to measure social competen‐ cies. The main purpose of this study was to investigate the criterion-related vali‐ dity of the webcam test and its incremental validity over and above a cognitive ability test, a personality questionnaire and a video-based situational judgment test. The sample consisted of 106 psychology students. In line with our expectati‐ ons, the webcam test showed a significant correlation with the criterion professi‐ onal behavior, a questionnaire about students’ motivation, chairmanship and pre‐ paration. Furthermore, the webcam test showed incremental validity over and above the other selection tests. Participants perceived the webcamtest as more face valid than the cognitive ability test and the personality questionnaire. Howe‐ ver, the video-based situational judgment test was perceived as more face valid than the webcamtest. Limitations of this study and suggestions for further study are discussed. Keywords: personnel selection, webcam testing, multimedia testing, video tes‐ ting, face validity Literatuur Ardts, J. (2006). De nieuwe context. In G. Smit, H. Verhoeven & A. Driessen (Eds.), Perso‐ neelsselectie en assessment: Wetenschap in de praktijk (p. 2-10). Assen, Nederland: Koninklijke Van Gorcum BV. Bandura, A. (1977). Self-efficacy: Toward a unifying theory of behavioral change. Psycholo‐ gical Review, 84, 191-215. Barrett, G.V., Phillips, J.S., & Alexander, R.A. (1981). Concurrent and predictive validity designs: A critical reanalysis. Journal of Applied Psychology, 66, 1-6. Cartney, P. (2006). Using video interviewing in the assessment of social work communica‐ tion skills. British Journal of Social Work, 36, 827-844.

282




Chan, D. & Schmitt, N. (1997). Video-based versus paper-and-pencil method of assessment in situational judgment tests: Subgroup differences in test performance and face vali‐ dity perceptions. Journal of Applied Psychology, 82, 143-159. Christian, M.S., Edwards, B.D., & Bradley, J.C. (2010). Situational judgment tests: Con‐ structs assessed and a meta-analysis of their criterion-related validity. Personnel Psy‐ chology, 63, 83-117. Cook, M. (2004). Personnel selection: Adding value through people (4th ed.). Chichester: John Wiley & Sons Ltd. Derous, E., Van der Velde, M.E.G., & Born, M.P. (2011). Terug van nooit weggeweest: Inlei‐ ding op de nieuwe reeks ‘Werving en Selectie’. Gedrag en Organisatie, 24, 3-17. Dipboye, R.L., Wooten, K., & Halverson, S.F. (2004). Behavioral and situational interviews. In M. Hersen (Ed.), Comprehensive Handbook of Psychological Assessment (pp. 297-318). Hoboken, New Jersey: John Wiley & Sons Inc. Hausknecht, J.P., Day, D.V., & Thomas, S.C. (2004). Application reactions to selection pro‐ cedures: An updated model and meta-analysis. Personnel Psychology, 57, 639-683. Hoekstra, H. (2006). Test informatie G5R. GITP INTERNATIONAL BV Versie 1.0.doc. Ironson, G.H., Guion, R.M., & Ostrander, M. (1982). Adverse impact from a psychometric perspective. Journal of Applied Psychology, 67, 419-432. Judge, T.A., Higgins, C.A., Thoreson, C.J., Barrick, M.R. (1999). The Big Five personality traits, general mental ability, and career success across the life span. Personnel Psycho‐ logy, 3, 621-652. Judge, T.A, Piccolo, R.F., & Ilies, R. (2004). The forgotten ones? The validity of considera‐ tion and initiating structure in leadership research. Journal of Applied Psychology, 89, 36-51. Klehe, U.C. & Latham, G. (2006). “What would you do – really or ideally? Constructs under‐ lying the behavior description interview and the situational interview in predicting typical versus maximum performance”. Human Performance, 19, 357-382. Kunda, Z. (1999). Social cognition: Making sense of people. Cambridge, Mass.: MIT Press. Lievens, F. (1998). Factors which improve the construct validity of assessment centers: A review. International Journal of Selection and Assessment, 6, 141-152. Lievens, F., Van Dam, K., & Anderson, N. (2002). Recent trends and challenges in person‐ nel selection. Personnel Review, 31, 580-601. Lievens, F. & Sackett, P.F. (2006). Video-Based versus written situational judgement tests: A comparison in terms of predictive validity. Journal of Applied Psychology, 91, 1181-1188. Lievens, F. & Thornton, G.C., III. (2005). Assessment centers: Recent developments in practice and research. In A. Evers, O. Smit-Voskuijl & N. Anderson (Eds.), Handbook of selection (pp. 243-264). London: Blackwell. McDaniel, M.A., Hartman, N.S., Whetzel, D.L., & Grubb III, W.L. (2007). Situational judg‐ ment tests, response instructions, and validity: A meta-analysis. Personnel Psychology, 6, 63-91. McDaniel, M.A., Morgeson, F.P., Finnegan, E.B. & Campion, M.A. (2001). Use of situatio‐ nal judgment tests to predict job performance: A clarification of the literature. Journal of Applied Psychology, 86, 730-740. Motowidlo, S.J., Brownlee, A.L., & Schmit, M.J. (2008). Effects of personality characteris‐ tics on knowledge, skill, and performance in servicing retail customers. International Journal of Selection and Assessment, 16, 272-281. Oostrom, J.K., Born, M.Ph., Serlie, A.W., & Van der Molen, H.T. (2010). Webcam testing: Validation of an innovative open-ended multimedia test. European Journal of Work and Organizational Psychology, 19, 532-550.


283



O’Reilly, J.M., Hubbard, M.L., Lessler, J.T., Biemer, P.P., & Turner, C.F. (1994). Audio and video computer assisted self-interviewing: Preliminary tests of new technologies for data collection. Journal of Official Statistics, 1, 197-214. Ployhart, R.E. & Ehrhart, M.G. (2003). Be careful what you ask for: Effects of response instructions on the construct validity and reliability of situational judgement tests. International Journal of Selection and Assessment, 11, 1-16. Richman-Hirsch, W.L., Olson-Buchanan, J.B., & Drasgow, F. (2000). Examining the impact of administration medium on examinee perceptions and attitudes. Journal of Applied Psychology, 85, 880-887. Ryan, A.M. & Ployhart, R.E. (2000). Applicants’ perceptions of selection procedures and decisions: A critical review and agenda for the future. Journal of Management, 26, 565-606. Sackett, P.R., Zedeck, S., & Fogli, L. (1988). Relations between measures of typical and maximum job performance. Journal of Applied Psychology, 73, 482-486. Salgado, J.F. & Lado, M. (2000). Validity generalization of video tests for predicting job performance ratings. Paper presented at the 15th Annual Conference of the Society of Industrial and Organisational Psychology, April, New Orleans. Schmidt, F.L. & Hunter, J.E. (1998). The validity and utility of selection methods in per‐ sonnel psychology: Practical and theoretical implications of 85 years of research find‐ ings. Psychological Bulletin, 124, 262-274. Smither, J.W., Reilly, R.R., Millsap, R.E., & Stoffey, R.W. (1993). Applicant reactions to selection procedures. Personnel Psychology, 46, 49-76. Stricker, L.J. (1982). Interpersonal competence instrument: Development and preliminary findings. Applied Psychological Measurement, 6, 69-81. Van der Maesen de Sombreff, P.E.A.M. (1992). Het rendement van personeelsselectie. Proef‐ schrift Rijksuniversiteit Groningen. Van der Maesen, P.E.A.M. (2005). Webcamtest voor actieve sociale vaardigheden. Gedown‐ load op 30 oktober 2007 van: www.vandermaesen.nl/upload/files/Webcamtest %20algemeen.pdf Van der Maesen, P.E.A.M. & Koch, B.P.N. (2007). Achtergrond & onderzoek. Gedownload op 3 maart 2008 van: www.vandermaesenkoch.nl/webcamtest/index.php?id=2 Van Iddekinge, C.H., & Ployhart, R.E. (2008). Developments in the criterion-related valida‐ tion of selection procedures: A critical review and recommendations for practice. Per‐ sonnel Psychology, 61, 871-925. Van Leeuwen, R. (2006). Test informatie Captain. GITP INTERNATIONAL BV Versie 1.0.doc. Weekley, J.A. & Jones, C. (1997). Video-based situational testing. Personnel Psychology, 50, 25-49. Weekley, J.A., Ployhart, R.E., & Harold, C.M. (2004). Personality and situational judgment tests across applicant and incumbent settings: An examination of validity, measure‐ ment, and subgroup differences. Human Performance, 17, 433-463.

284




Bijlage 1 Factoren van professioneel gedrag Naam factor

Vragen behorende bij de factor

Voorzitterschap

1) Als gespreksleider had de student zich goed voorbereid en had hij/zij een duidelijk overzicht van wat er besproken moest worden. 2) Als gespreksleider zorgde de student voor duidelijke structuur in de bespreking van het probleem. 3) De timing en de kwaliteit van de samenvattingen van de student als gespreksleider waren goed. 4) De student stimuleerde als gespreksleider alle groepsleden om bij te dragen. 5) De student stelde als gespreksleider concrete vragen aan de groep om diepgang in de discussie te stimuleren.

Betrokkenheid

6) De student slaagde erin als notulist zelfstandig bijdragen van groepsleden kort en helder samen te vatten op het bord. 7) De student gaf blijk van goede zelfstudie. 10) De student had extra, relevante literatuur bestudeerd boven op de minimale eis van twee bronnen per probleem. 13) De student nam actief deel aan de brainstorm en de probleemanalyse. 14) De student nam actief deel aan de nabespreking van de problemen. 15) De student was tijdens de voor- en nabespreking gemotiveerd om de problemen tot in de details uit te werken. 18) De student luisterde actief naar de bijdragen van andere groepsleden. 19) De student had een geïnteresseerde, betrokken houding ten opzichte van de groep.

Literatuurbegrip

8) De bijdragen van de student aan de nabespreking waren inhoudelijk van hoog niveau. 9) De student was in staat onderscheid te maken tussen hoofd- en bijzaken in de literatuur. 11) De student was in staat de bestudeerde stof in eigen woorden uit te leggen. 16) De student creëerde diepgang in de discussie door bijvoorbeeld kritische vragen te stellen. 17) De student zocht uit zichzelf naar verbanden tussen theorieën en/of bijdragen van groepsleden.


285

De webcamtest als voorspeller van professioneel gedrag

Recommend Documents