PDF hosted at the Radboud Repository of the Radboud University Nijmegen
The following full text is a publisher's version.
For additional information about this publication click this link. http://hdl.handle.net/2066/42091
Please be advised that this information was generated on 2015-11-19 and may be subject to change.
M
a a ik e v a n d e n
M
enno
de
Jong
H en
aak
,
P eter Ja n
S chellens
Hardopdenkprotocollen en gebruikersonderzoek Volledigheid en reactiviteit van de synchrone hardopdenkmethode
D e hardopdenkm ethode is een dom inante benadering gew orden voor het re gistreren van gebruiksprocessen van com m unicatiem iddelen, m et nam e websites en instructieve docum enten. H e t doel van een dergelijke registratie is vaak het pre testen van de com m unicatiem iddelen: het opsporen van m ogelijke gebruikersproblem en en het op basis daarvan form uleren van revisiesuggesties. In grote lijnen kom t de m ethode erop neer dat proefpersonen aan bepaalde taken w orden gezet, m et als extra opdracht om tijdens de taakuitvoe ring voortdurend h u n gedachten te ver baliseren. D e hardopdenkprotocollen, die bestaan uit een weergave van zowel de ac ties als de verbalisaties van proefpersonen, leveren gedetailleerde procesgegevens op over de w ijze waarop gebruikers te w erk gaan m et het betreffende com m unica tiem iddel. D eze procesgegevens zorgen ervoor dat de onderzoeker precies te w e ten k om t waar zich problem en voordoen, zodat deze vervolgens in een revisieronde verholpen kun n en w orden. Al sinds de vroege jaren ’80 is de m e thode in de Verenigde Staten gebruikt om allerlei docum enten te evalueren. Aan vankelijk kregen proefpersonen slechts de opdracht om een tekst hardop te lezen en h u n gedachten daarbij te verw oorden (Flower, Hayes T ij d s c h r ift v o o r T a a lb e h e e r s in g - 28 (2 0 0 6 ), n r. 3 , 1 8 5 -1 9 7
Sa m en va ttin g D e h ard op d en km eth od e h eeft zich ontw ikkeld to t een gangbare on d erzoek sm eth od e voor uit een lop en d lees- en schrijfonderzoek. In dit artikel staat de validiteit van de h ard op d en km eth od e als pretestinstrum ent centraal. D iscussies over de validiteit van h ardopdenkprotocollen betreffen de reactiviteit van de m eth od e en de volled igh eid van de verbalisaties. D e vraag w ordt b ean tw oord in hoeverre de aard van het testob ject van invloed is op de reactiviteit van de m eth o d e en de volled igh eid van de p rotocollen . D aartoe zijn synchrone en retrospectieve h ard op d en kp rotocollen vergeleken voor tw ee typen internet-applicaties: een on lin e b ib lioth eek catalogus en een gem een telijk e w ebsite. In beide gevallen blijken synchrone hardopdenkprotocollen m in d er geverbaliseerde p rob lem en te bevatten dan retrospectieve p rotocollen . D e reactiviteit van de m eth o d e blijkt sam en te hangen m et het testobject: in de bib lioth eek catalogu s leid d e de opdracht o m synchroon hardop te denken tot m eer observeerbare fouten in de taakuitvoering, op de gem een telijk e w ebsite n iet. D e z e verschillen kunnen w orden herleid to t verschillen in taken tussen de b eid e testob jecten .
& Swarts, 1983; Swaney e.a., 1981). D e 185
M a a ik e van d e n H a a k , M en n o d e J o n g e n P et e r J a n S c h e l l e n s
begrijpelijkheid van de tekst stond in dergelijk onderzoek centraal. D aarna is er in to en e m ende m ate gew erkt m et specifieke taken die proefpersonen aan de hand van een instruc tieve tekst m oesten verrichten (Schriver, 1987; Jansen & Steehouder, 1989). In die gevallen gaat het, naast begrijpelijkheid, ook om de vindbaarheid en de praktische toepassing van inform atie. D ieli (1986) beschrijft en vergelijkt hardopdenkonderzoek m ét (user protocols) en zonder (reader protocols) specifieke taken en concludeert dat beide vorm en van hardop d enkonderzoek inderdaad verschillende soorten resultaten opleveren. M eer recent vestigen Lentz & Pander M aat (2003) opnieuw de aandacht op de mogelijke waarde van hardopdenkprotocollen zonder taken. Zij beschrijven enkele studies w aarin de hardopdenkm ethode zonder taken w ordt vergeleken m et tw ee andere pretestm ethoden (de plus-en-m inm ethode en het com puterprogram m a Focus) en concluderen dat lezersprotocollen in ieder geval ge schikter zijn om begripsproblem en op te sporen dan beide andere pretestm ethoden. O ver de hele linie heerst er grote tevredenheid over het gebruik van hardopdenkonderzoek voor het pretesten van com m unicatiem iddelen. A angenom en w ordt dat de geconstateerde problem en goede voorspellers zijn van de problem en die echte gebruikers in h et dagelijks leven zullen gaan ondervinden. D e opkom st van het in tern et heeft de hardopdenkm ethode als pretestinstrum ent alleen m aar populairder gem aakt.Teksten die via het intern et w orden aangeboden, krijgen er bijna p er definitie een zware selectiedimensie bij (het zoeken en navigeren op de website), die de aandacht voor veel andere soorten gebruikersproblem en lijkt te verdringen. O p natuurlijke wijze kom en bij de evaluatie van websites tw ee afzonderlijke onderzoekstradities bij elkaar: die van tekstevaluatie (De Jong & Schellens, 1995) en usability testing (Nielsen, 1993; Dumas & R edish, 1999). B innen de traditie van de usability testing golden hardopdenkprotocollen al van oudsher als de dom inante evaluatiemethode. E en en ander heeft overigens wel geleid to t een onderbelichting van de tekstuele en visuele content van websites en een overmatige aandacht voor navigatieproblem en. In de context van usability testing heeft de validiteit van hardopdenkprotocollen nauw e lijks ter discussie gestaan. Integendeel, de m ethode w ordt doorgaans als onbetw istbaar cri terium gebruikt om andere evaluatiem ethoden m ee te\ vergelijken. Daarbij w ordt sterk ge leund op het standaardwerk van Ericsson & Sim on (1993), w aarin op basis van een groot aantal em pirische studies w ordt geconcludeerd dat hardopdenkgegevens, o nder een aantal stringente voorwaarden, in principe valide zijn. Z o m ag de taak zelf niet te m oeilijk zijn voor de proefpersoon (anders zal deze stoppen m et hardop denken), m aar m ag h et anderzijds ook niet gaan om een m in o f m eer geautom atiseerde taak. O o k w ordt er onderscheid gem aakt tussen drie niveaus van verbaliseren. D e eerste tw ee niveaus (het verklanken van inform atie die al in dezelfde vorm in h et korte term ijn geheugen aanwezig is en gedachten die als enige transform atie vertaald m oeten w orden in verbale inform atie) geven volgens Ericsson & Si m on geen problem en. Alleen w anneer proefpersonen m eerdere stappen m oeten zetten om van hun gedachten naar verbalisaties te kom en (dit w ordt h et derde niveau genoem d), levert hardopdenken volgens Ericsson & Sim on geen valide gegevens m eer op. H ierbij is te denken aan het filteren van de verbalisaties, het geven van verklaringen voor h et eigen gedrag o f het binnenhalen van kennis uit het lange term ijn geheugen. D aarnaast geven Ericsson & Sim on strenge gedragsregels voor de proefleider, die de proefpersoon er zonodig w el aan m o et her inneren hardop te denken (“keep talking”), m aar op geen enkele andere m anier m ag inter veniëren in h et proces.
Hardopdenkprotocollen en gebruikersonderzoek
D e voornaam ste discussie binnen het dom ein van de usability testing lijkt te gaan over de vraag in hoeverre h et theoretisch raam w erk van Ericsson & Sim on eigenlijk van toepas sing is op de praktijk van usability testing. W rig h t & M o n k (1991) deden een studie waarin ze een strikte uitvoering van de hardopdenkm ethode (exact volgens de regels van Ericsson & Sim on opgezet) probeerden te vergelijken m et een vrijere variant. D e vergelijking viel in het w ater doordat geen van hun proefleiders in de strikte conditie zich voldoende aan de richtlijnen hield. Tot vergelijkbare conclusies kw am en B oren & R am ey (2000) in een veldonderzoek naar de w erkw ijze van usability professionals: de gedragsregels van Ericsson & Sim on w orden niet nageleefd in de praktijk van usability testing. B oren & R am ey be togen dat dit niet per se slecht hoeft te zijn, om dat de doelstellingen van een usability test sterk afwijken van die van veel ander hardop denkonderzoek. N ie t h et hele proces, maar de problem en die zich voordoen, zijn het centrale aandachtspunt. O o k is er doorgaans het nodige te observeren, w aardoor de afhankelijkheid van de verbalisaties m inder groot is. Als een alternatief voor de traditionele benadering stellen B oren & R am ey een “speech com m unication”-benadering voor, waarin de proefleider in som m ige (beregelde) gevallen wel m ag ingrijpen in het proces en ook m eer interageert m et de proefpersoon. B uiten de context van usability testing is er doorlopend aandacht geweest voor de vali diteit van hardopdenkprotocollen. Diverse studies hebben aangetoond dat het gebruik van de hardopdenkm ethode in bepaalde contexten kan leiden to t vertekeningen. Proefpersonen kunnen h u n taken beter o f juist slechter uitvoeren dankzij de opdracht hardop te denken. Proefpersonen die slechter presteren, hebben te lijden onder een te zware cognitieve belas ting. In een eerdere studie zagen we dat dergelijke effecten ook in een usability test kunnen optreden: bij de evaluatie van een online bibliotheekcatalogus stelden we vast dat hardopdenkende proefpersonen m eer observeerbare fouten m aakten en m inder taken correct uitvoer den dan stilwerkende proefpersonen (Van den Haak, D e Jong & Schellens, 2003). Ericsson & Sim on (1993) veronderstellen dat proefpersonen m inder gaan verbaliseren w anneer hun taak te m oeilijk wordt. D at kan zo zijn, maar er blijkt in de praktijk soms ook een negatief effect te zijn op de kwaliteit van de taakuitvoering. Proefpersonen die beter presteren, pro fiteren van een mogelijk faciliterende bijdrage van de hardopdenkopdracht: het feit dat ze gedw ongen w orden hardop te denken, zorgt ervoor dat ze zorgvuldiger o f anderszins beter te w erk gaan dan norm aal. D it lijkt bijvoorbeeld het geval in leesprocessen (Silvén & Vauras, 1992; Loxterm an, Beek & M cK eow n, 1994; K ucan & Beek, 1997). O o k de m anier waarop proefpersonen te w erk gaan, kan door het hardopdenken w orden beïnvloed. Janssen,Van Waes &Van den Bergh (1996) heten bijvoorbeeld zien dat de opdracht om hardop te denken het schrijfproces (geoperationaliseerd als het pauzegedrag) van proefpersonen beïnvloedde, m et nam e als het ging om een complexe schrijftaak. M um m a, D raguns & Seibel (1993) stelden vast dat hardop denkende proefpersonen anders (efficiënter) te w erk gingen bij h et toekennen van persoonlijkheidskenm erken aan m ensen dan proefpersonen die stil w erkten. K noblich & R h en ius (1995) vonden in h u n onderzoek dat de opdracht om hardop te denken invloed had op de m anier waarop proefpersonen een koelinstallatie bedienden. Dergelijke studies roepen vragen op over de validiteit van de hardopdenkm ethode. D eze lijkt in p rincipe contextafhankelijk te zijn: in h et ene geval leidt hardopdenken to t een betere taakuitvoering, in het andere geval to t een m inder effectieve taakuitvoering en in verschil lende situaties blijken proefpersonen anders te w erk te gaan. W e k u n n en op grond van zulk onderzoek natuurlijk niet direct concluderen dat de validiteit van hardopdenkprotocollen als pretestm ethode dus ook problem atisch zal zijn, maar het onderzoek vestigt wel de aandacht
187
M a a ik e v an d e n H a a k , M e n n o d e J o n g e n P e t e r J a n S c h ellen s
op de m ogelijkheid dat er validiteitsproblem en optreden.V oor een usability test zouden alle hierboven beschreven afw ijkingen een bedreiging vorm en. Blijkbaar k u n n en de resultaten van een hardopdenktest een (positief dan wel negatief) vertekend totaalbeeld geven van de gebruiksvriendelijkheid van een com m unicatiem iddel. H e t percentage correct uitgevoerde opdrachten hoeft niet te corresponderen m et het succespercentage o nder stilwerkende ge bruikers. O o k kan h et hardopdenken problem en in een com m unicatiem iddel veroorzaken en andere problem en verhullen. Usability professionals hoeven h ier natuurlijk niets van te m erken: de uitkom sten van een usability test zullen er in h u n perceptie niet m inder overtui gend om zijn. H e t al dan niet optreden van vertekeningen doordat proefpersonen h u n gedachten m o e ten verbaliseren, lijkt voor een belangrijk deel samen te hangen m et de (deel)taken die zij m oeten uitvoeren. Bij elk em pirisch tegenbewijs tegen de validiteit van de hardopdenkm ethode verw ijzen Ericsson & Sim on (1993) ofwel naar onregelm atigheden in proefleidergedrag o f hardopdenkinstructies ofwel naar onderzoeksdoelstellingen die de type 1- en type 2-verbalisaties te boven gaan. Algem ene uitspraken over de validiteit van de hardopdenkm ethode liggen onzes inziens niet voor de hand. In plaats daarvan zou een uitvoerige verken ning van de relatie tussen taaksoorten en de validiteit van hardopdenkprotocollen een es sentiële stap zijn in de verdere ontw ikkeling van de m ethode. D e typologie van verbalisaties zoals Ericsson & Sim on (1993) die gebruikten, biedt in dit opzicht nog te w einig houvast. O o k binnen de context van usability testing lijkt een bezinning op de geschiktheid van de m ethode op allerhande deeltaken op zijn plaats. In de literatuur over h u m an -co m p u ter interaction w ordt de suggestie gew ekt dat het testen van software en h et testen van een website feitelijk op hetzelfde neerkom t, ondanks de grote verschillen tussen een regulier softwarepakket en een website. H oew el hardopdenkprotocollen in principe op dezelfde m a nier k u n n en w orden gebruikt voor beide testobjecten, is h et goed denkbaar dat h et anders gesteld is m et de validiteit van de m ethode. O o k in h et onderzoek naar tekstevaluatie is vooralsnog w einig rekening gehouden m et de invloed van h et testobject. In de overzichten die to t nu toe gem aakt zijn over het m ethodologische onderzoek naar tekstevaluatie (De Jong, 1998; D e Jong & Schellens, 1995; 2000), zijn de inzichten uit de h u m an -co m p u ter interaction onverkort m eegenom en. H et is w ederom de vraag o f dat gerechtvaardigd is. In dit artikel bespreken we tw ee studies w aarin de resultaten van synchrone en retrospec tieve hardopdenkprotocollen m et elkaar vergeleken w orden. Bij synchrone hardopdenkpro tocollen m oeten proefpersonen direct tijdens de taakuitvoering h u n gedachten verbaliseren; bij retrospectieve hardopdenkprotocollen verrichten proefpersonen eerst in stilte de taken en verbaliseren ze hun gedachten achteraf, terw ijl ze naar een video-opnam e van h u n taak uitvoering kijken. D e tw ee m ethoden w erden al door N ielsen (1993) als co ncurrenten be schreven. R e c e n t onderzoek waarin de verbalisaties van retrospectief hardopdenkende proef personen w erden afgezet tegen de oogbew egingen tijdens de taakuitvoering, geeft nadere ondersteuning voor deze, w at bewerkelijker, vorm van hardopdenkonderzoek: de verbalisaties achteraf bleken goed overeen te kom en m et de oogbew egingen die de proefpersonen tijdens de taakuitvoering hadden gem aakt (Guan e.a., 2006).E en vergelijking van beide v o rm en van hardopdenken levert een beeld op van de reactiviteit van de synchrone hardop denkm ethode en de volledigheid van de verbalisaties van proefpersonen tijdens de taakuitvoering (zie Figuur 1). Bij synchrone hardopdenkprotocollen w orden observeerbare en geverbaliseerde problem en tegelijkertijd verzameld; bij retrospectieve hardopdenkprotocollen zijn de tw ee soorten problem en verdeeld over twee ronden: de observeerbare problem en tijdens h et stil
188
Hardopdenkprotocolleti en gebruikersonderzoek
w erken, de geverbaliseerde problem en tijdens h et retrospectief hardopdenken. E en vergelij king van de observeerbare problem en betreft de reactiviteit van synchroon hardopdenken: de taakuitvoering w ordt in de retrospectieve conditie im m ers in h et geheel niet beïnvloed door een extra hardopdenktaak voor de proefpersonen. E en vergelijking van de geverbaliseerde problem en heeft betrekking op de volledigheid van synchrone hardopdenkprotocollen: de verbalisaties van de proefpersonen in de retrospectieve conditie staan im m ers niet onder dru k van de belasting die de taakuitvoering op zich al m et zich m eebrengt. Synchrone hardopdenkprotocollen
Retrospectieve hardopdenkprotocollen Reactiviteit
O bserveerbare problem en
<------------------------------------ ►
G everbaliseerde problem en
<4------------------------------------ ►
F iguur 1:
Volledigheid
O bserveerbare problem en
G everbaliseerde problem en
Schematisch overzicht van het onderzoek
H et gaat in dit onderzoek niet alleen om een vergelijking van de twee m ethoden, maar ook o m een vergelijking van testobjecten.W e kijken o f het onderscheid tussen synchrone en retro spectieve hardopdenkprotocollen op dezelfde m anier w erkt voor een online bibliotheekcata logus en een gemeentelijke website. D e eerste studie betro f de evaluatie van de bibliotheek catalogus van de Universiteit U trecht (Van den Haak, D e Jong & Schellens, 2004) en was een uitgebreide replicatie van een onderzoek dat we eerder in het Tijdschrift voor Taalbeheersing beschreven (Van den Haak, D e Jong & Schellens, 2003). D e tw eede studie had betrekking op de website van de gem eente Haarlem (Van den Haak, D e Jong & Schellens, 2007). In beide studies vergeleken we de tw ee typen hardopdenkprotocollen overigens ook nog m et een derde variant, namelijk constructive interaction (waarbij proefpersonen in tweetallen aan de taken moes ten werken), maar die laten we in dit artikel buiten beschouwing.Voordat we de opzet en de resultaten van ons onderzoek beschrijven, zullen we in de volgende paragraaf eerst ingaan op de kenm erkende verschillen die optreden tijdens het w erken m et de twee testobjecten. D e verschillen w orden gerelateerd aan verwachtingen ten aanzien van de reactiviteit van de hardopdenkm ethode en de volledigheid van de verbalisaties in de protocollen.
2. GebruiUerstakcn in de online catalogus en op de website
In de bibliotheekcatalogus en op de website gaven we de proefpersonen taken die kenm er kend w aren voor h et betreffende com m unicatiem iddel. In de online bibliotheekcatalogus m oesten de proefpersonen in vijf opdrachten m et diverse zoektechnieken w erken om al lerlei publicaties te vinden. Z e m oesten zoeken op auteur en op onderw erp. Z e m oesten com binaties van zoekterm en gebruiken, selecteren op taal en op jaar van publicatie en zoek
189
M a a ik e van d e n H a a k , M en n o d e J o n g e n P et er J a n S c h e l l e n s
term en trunceren. In de gem eentelijke website m oesten de proefpersonen in vijf scenario’s in totaal tw aalf deeltaken verrichten, die betrekking hadden op h et kopen van een huis, het aanbieden van afval, het inschrijven bij de gem eente als inw oner, h et betalen van gem een telijke belastingen en het verkrijgen van een parkeervergunning. Bij een vergelijking van de taakuitvoering in beide studies kom en w e to t enkele kenm erkende verschillen. H et w erken m et de online bibliotheekcatalogus kan getypeerd w orden als com plex maar overzichtelijk. Literatuur zoeken in een bibliotheekcatalogus is voor studenten een erkend lastige taak. In ons geval m oesten de proefpersonen ook nog zoeken in een catalogus waar ze niet aan gew end w aren (de proefpersonen studeerden aan de U niversiteit Twente; de catalo gus was van de U niversiteit U trecht). D e com plexiteit van de taak had vooral te m aken m et tw ee aspecten: (a) een gebrek aan voorkennis over inform atiezoeken, en (b) problem en m et de toepassing van de eigen voorkennis op een nieuw systeem. In beide gevallen m oesten zij zich een m entaal m odel proberen te vorm en van de opzet van de catalogus. H oew el de vijf taken geheel afzonderlijk van elkaar konden w orden verricht, is h et goed denkbaar dat er bepaalde leereffecten zouden optreden. D at laatste had te m aken m et de overzichtelijkheid: h et aantal knoppen w aaruit de proefpersonen m oesten kiezen, was in w ezen beperkt. H et w erken m et de website van de gem eente H aarlem was in principe m inder com plex. H et ging om m inder specialistische taken, die in principe aansloten op de dagelijkse leef w ereld van de proefpersonen. M aar de taken w aren aan de andere kant ook m inder over zichtelijk. In plaats van één interface waarm ee alle taken verricht m oesten w orden, m oesten de proefpersonen navigeren over de hele site. E en belangrijke taak was steeds uit te vinden waar de gewenste inform atie “verstopt” zat. Daarbij kregen de proefpersonen te m aken m et diverse m e n u ’s: op één w ebpagina stonden soms horizontaal en verticaal verschillende m e n u ’s w aaruit gekozen m oest w orden en als er een keuze was gem aakt kw am op h et lagere niveau vaak w eer een ander m enu tevoorschijn. Leereffecten w aren in deze context zo goed als onm ogelijk. Elk scenario stelde andere eisen aan de proefpersonen. H et grootste verschil tussen beide testobjecten b etro f h et belang van leesactiviteiten in de taakuitvoering. Van lezen, browsen o f skim m en was in de online catalogus nauwelijks sprake. Alleen als de proefpersonen ervoor kozen de online help te raadplegen, m oesten ze een hoeveelheid tekst verwerken. O p de gem eentelijke website, daarentegen, w aren lees-, brow se- en skim activiteiten juist erg dom inant. D at gold in de eerste plaats voor de content van de website, die uiteindelijk gelezen m oest w orden. M aar dergelijke activiteiten waren evenzeer van belang voor alle m e n u ’s, waarvan de linknam en m eer w aren dan lexicale aan duidingen van in principe eenduidige begrippen. Linknam en als “Leven & w o n en ” en “K o m en & gaan” lijken op kopjes in een reguliere tekst, waarbij er een voortdurende spanning is tussen inform ativiteit, inhoudelijke dekkendheid, bondigheid en aantrekkelijkheid. O p basis van de com plexiteit van de online bibliotheekcatalogus was h et te verw achten dat hier gem akkelijk problem en m et cognitieve belasting zouden optreden. Proefpersonen m o eten graven in hun h erinnering naar de functies die norm aal gesproken beschikbaar zijn in een bibliotheekcatalogus en m oeten deze functies relateren aan de knoppen op de interface. H et is goed denkbaar dat er bij een dergelijk testobject problem en optreden als de proefpersonen ook nog hardop m oeten denken. D at bleek in ieder geval in een vorige studie, w aarin een andere online bibliotheekcatalogus centraal stond (Van den Haak, D e Jong & Schellens, 2003). H et is ook voorstelbaar dat leereffecten in die situatie uitblijven die er bij stilwerkende proefpersonen w el zouden zijn. D at leidde to t de hypothese:
C
Hardopdenkprotocollen en gebruikersonderzoek
Hl
In de online bibliotheekcatalogus m aken proefpersonen in de synchrone conditie m eer observeerbare fouten dan proefpersonen in de retrospectieve conditie.
O p basis van eerder onderzoek naar de invloed van hardopdenken op h et leesproces ver w achtten we bij de gem eentelijke website juist h et tegenovergestelde (Silvén &Vauras, 1992; Loxterm an, Beek & M cK eow n, 1994; K ucan & Beek, 1997). Verondersteld kan w orden dat de opdracht om hardop te denken leidt to t een m eer systematische werkwijze, waarbij m oeilijk o f niet te verbaliseren deelactiviteiten als browsen o f skim m en w orden vervangen do o r lezen. Daarnaast zou ook de vertraging van de taakuitvoering, die gepaard gaat m et synchroon hardopdenken, k u nnen leiden to t een m inder impulsieve aanpak. D ergelijke m o gelijke effecten van hardopdenken w erden niet m eegenom en in het overzicht van Ericsson (1988), die zich beperkte to t de effecten van h et hardop lezen en h et verbaliseren na elke zin in de tekst, en die op grond daarvan aanmerkelijk optim istischer was over de beperkte effecten van de hardop denkm ethode op tekstbegrip. D at leidde to t de volgende hypothese: H2
O p de gem eentelijke website m aken proefpersonen in de synchrone conditie m inder observeerbare fouten dan proefpersonen in de retrospectieve conditie.
W at betreft de verbalisaties verw achtten w e geen interactie-effect tussen de hardopdenkvariant en h et testobject. H ier verw achtten we dat de retrospectieve hardop denkm ethode in beide gevallen m eer ruim te zou geven aan de proefpersonen om problem en te verbaliseren. O nze laatste hypothese was derhalve: H3
Zow el in de online bibliotheekcatalogus als op de gem eentelijke website verba liseren proefpersonen in de synchrone conditie m inder problem en dan proef personen in de retrospectieve conditie.
3. O n derzoek sopzet
In deze paragraaf geven w e een beknopt overzicht van de opzet van het onderzoek. E en uitgebreidere weergave is te vinden in de afzonderlijke verslaglegging van beide studies (Van den Haak, D e Jong & Schellens, 2004; 2007). D e online bibliotheekcatalogus van de U niversiteit U trech t w erd getest m et 40 studen ten als proefpersonen: 20 in de synchrone hardopdenkconditie, en 20 in de retrospectieve hardopdenkconditie. D e proefpersonen kregen vijf taken m et de catalogus. In de synchrone conditie m oesten ze tijdens de taakuitvoering h u n gedachten verbaliseren. In de retrospec tieve conditie bestond h et onderzoek uit tw ee stappen: eerst m oesten de proefpersonen stilw erkend de taken m et de catalogus verrichten; vervolgens m oesten ze h u n gedachten verbaliseren terw ijl ze naar een video-opnam e van h u n taakuitvoering keken. D e website van de gem eente H aarlem w erd eveneens m et 40 studenten geëvalueerd, die verdeeld w erden over de tw ee condities. In dit geval kregen de proefpersonen vijf scenario’s voorgeschoteld, die elk bestonden uit tw ee to t vier taken. In totaal m oesten ze tw aalf vragen aan de hand van de website beantw oorden. In beide gevallen richtte de analyse zich prim air op de detectie van mogelijke gebruikersproblem en. Daarbij m aakten we onderscheid tussen drie typen problem en. H et eerste type
191
M a a ik e van d e n H a a k , M en n o d e J o n g e n P et er J a n S c h ellen s
bestond uit de observeerbare problem en: dat w aren problem en waarbij de proefpersoon in de fout ging zonder dat dit leidde to t een vorm van verbalisatie. D e detectie van deze problem en was gebaseerd op een vergelijking van h et ideale handelingsverloop m et de ge beurtenissen op het scherm . H e t kon bijvoorbeeld zijn dat een proefpersoon een verkeerde zoekterm invulde o f een verkeerde link aanklikte. G oed beschouw d zouden er voor derge lijke problem en helemaal geen hardopdenkgegevens nodig zijn. H et tw eede type problem en bestond uit de geverbaliseerde problem en: dat w aren problem en die niet zichtbaar w aren op het scherm , m aar die w el door een proefpersoon o nder w oorden w erden gebracht. H et kon bijvoorbeeld zijn dat een proefpersoon duidelijk m aakte te twijfelen tussen m eerdere links o f in verw arring te zijn geraakt. H et derde type bestond uit gemengde problem en: dat w aren problem en waarbij de proefpersoon zowel een observeerbare fout had gem aakt als geverbaliseerd had. D it is enigszins een restcategorie, om dat de relatie tussen verbalisaties en handelingen verschillende vorm en kon aannem en. H et kon zijn dat een proefpersoon eerst een probleem verbaliseerde, w aarna het in de daaropvolgende actie ook zou blijken. M aar h et gebeurde ook dat een proefpersoon eerst een fout m aakte en er vervolgens over begon te praten. H e t kw am ook voor dat de foutieve handeling en de verbalisatie van het probleem op verschillende m om enten in het proces plaatsvonden. Vanwege dit gem engde karakter h ebben we besloten om deze laatste categorie in onze analyses buiten beschouw ing te laten en ons te concentreren op de zuivere observeerbare en geverbaliseerde problem en.
4. R esultaten
D e hoofdeffecten van h et testobject en van de hardopdenkconditie en de interactie-effecten tussen beide zijn getoetst in een m ultivariate variantieanalyse m et h et aantal observeerbare problem en en het aantal geverbaliseerde problem en als afhankelijke variabelen. D e resultaten van deze analyse zijn te vinden in Tabel 1 (gemiddelde scores en standaarddeviaties) en Tabel 2 (toetsing). E en eerste bevinding is dat het aantal observeerbare problem en p er proefpersoon sig nificant verschilde tussen de tw ee testobjecten. In de online bibliotheekcatalogus w erden, ongeacht de hardopdenkconditie, significant m eer observeerbare fouten gem aakt dan in de gem eentelijke website. D e eta2 van .17 duidt op een groot effect. D it correspondeert m et de aard van de tw ee testobjecten: bij het gebruik van een website m oeten relatief m eer m entale en m inder fysieke handelingen w orden verricht.W el m o et daarbij w orden vastgesteld dat het aantal geverbaliseerde problem en niet verschilde tussen de beide testobjecten. Tabel 1:
Gemiddelde aantallen problemen per proefpersoon in de vier condities O bserveerbare p rob lem en
Geverbaliseerde p rob lem en
S ynchroon
R etro sp ec tief
Synchroon
R etro sp ec tief
O nline bibliotheekcatalogus
5.5 (2.5)
3.1 (1.7)
1.7 (2.1)
3.4 (2.3)
Gemeentelijke website
1.8 (1.9)
2.8 (2.8)
2.0 (2.1)
3.4 (2.5)
N o o t: Standaardafwijking (SD) tussen haakjes
192
Hardopdenkprotocollen en gebruikersonderzoek Tabel 2: Toetsing van de verschíllen (Manova) F -w aarde Overall-effect testobject Overall-effect hardopdenkconditie Overall interactie-effect Effect testobject op: - observeerbare problem en - geverbaliseerde problemen Effect hardopdenkconditie op: - observeerbare problemen - geverbaliseerde problemen Interactie-effect op: - observeerbare problem en - geverbaliseerde problemen
V rijheidsgraden
Significantie
E ta2
8.230 4.628 6.266
2.75 2.75 2.75
/K.001 p<05 p<.005
.18 .11 .14
15.166 .062
1.76 1.76
p< . 001
.17
1.858 9.296
1.76 1.76
n.s. p<.005
11.611 .062
1.76 1.76
¿><.001 n.s.
n.s.
.11
.13
Vervolgens blijkt dat de hardopdenkconditie van invloed was op het aantal geverbaliseerde problem en. In de retrospectieve hardopdenkconditie w erden m eer problem en geverbaliseerd dan in de synchrone hardopdenkconditie. W ederom duidt de eta2 (.11) op een aanzienlijk effect. M et deze bevinding is de derde onderzoekshypothese, die betrekking had op de volledigheid van synchrone hardopdenkprotocollen, bevestigd. E r blijken achteraf proble m en in h et proces te zitten die tijdens de taakuitvoering niet geverbaliseerd w orden door de proefpersonen. E n deze constatering is onafhankelijk van de aard van het testobject. Onzes inziens even interessant is de constatering dat er geen verschil is tussen de condities in aan tallen observeerbare problem en. E r zijn, in overeenstem m ing m et onze bespreking van de literatuur, geen eenduidige uitspraken te doen over de reactiviteit van synchrone hardop denkprotocollen. W anneer we kijken naar de interactie-effecten, blijkt dat h et aantal observeerbare proble m en sam enhangt m et het samenspel tussen testobject en hardopdenkconditie. O o k hier is de eta2 aanzienlijk (.13). In h et geval van de online bibliotheekcatalogus lijkt het gebruik van de synchrone hardopdenkm ethode problem en te veroorzaken bij de proefpersonen. D it w ordt bevestigd door een t-test: proefpersonen in de synchrone conditie hebben significant m eer observeerbare problem en in de catalogus dan proefpersonen in de retrospectieve conditie (£=3.601, df=38, p < .0 0 1 , C o h e n s d= 1.14). D aarm ee is de eerste onderzoekshypothese be vestigd. In het geval van de gem eentelijke website is de tendens ju ist in de tegenovergestelde richting: h et gebruik van de synchrone hardopdenkm ethode lijkt problem en te voorkom en bij de proefpersonen. D it verschil is echter niet significant (i-test, ¿=-1.365, df=38, p= .1 8 0 ). D e tw eede onderzoekshypothese is daarm ee niet bevestigd, maar de onderliggende veron derstelling dat de reactiviteit van de synchrone hardopdenkm ethode sam enhangt m et de aard van het testobject blijft wel overeind.
193
M a a ik e van d e n H a a k , M e n n o d e J o n g e n P e t e r J a n S c h e l l e n s
5. D iscussie
In de context van form atief evaluatieonderzoek w ordt de hardop denkm ethode doorgaans gezien als een valide benadering, die veel van de nadelen van m eth o d en op basis van zelf rapportage (zoals de plus-en-m inm ethode) niet heeft. E en onm iskenbaar voordeel van de m ethode, althans w anneer er gew erkt w ordt m et taken, is dat we niet hoeven te vertrouw en op oordelen en inschattingen van de proefpersonen, maar dat we ook k u n n en zien o f ze daadwerkelijk m et het com m unicatiem iddel uit de voeten kunnen. H e t huidige onderzoek plaatst enkele vraagtekens bij de zekerheden die w e m eenden te hebben. Z o blijkt dat de problem en die proefpersonen tegenkom en in som m ige gevallen w orden veroorzaakt d o o r dat zij tijdens de taakuitvoering hardop m oeten denken. D eze bevinding correspondeert m et de resultaten van een vorige studie, w aarin synchrone en retrospectieve h ardopdenkprotocollen w erden vergeleken voor de evaluatie van een andere online bibliotheekcatalogus (Van den Haak, D e Jong & Schellens, 2003). In die vorige studie vonden w e zelfs dat ook h et percentage correct uitgevoerde taken verschilde: synchroon hardop denkende proefpersonen waren daarin significant m inder succesvol dan retrospectief hardopdenkende proefpersonen. In h et huidige onderzoek vinden we geen verschil in succespercentage, w at m ogelijk is toe te schrijven aan het geringere aantal taken dat de proefpersonen m oesten verrichten. Tot zover bevestigt het onderzoek de resultaten van de vorige studie. M aar uit de vergelijking m et de gem eentelijke website blijkt in de huidige studie dat de reactiviteit van de synchrone hardopdenkm ethode contextafhankelijk is. D e opdracht om hardop te denken had op de website niet dezelfde uitw erking als in de bibliotheekcatalogus. D e synchroon hardopdenkende proefpersonen presteerden weliswaar niet significant beter dan de retrospectief hard opdenkende proefpersonen, maar het is op basis van onze resultaten wel aannem elijk dat er testobjecten en opdrachten zullen zijn waarbij het hardopdenken faciliterend w erkt voor de taakuitvoering. D eze constatering vraagt om vervolgonderzoek dat m o et leiden to t een raam w erk waar in een taaktypologie w ordt verbonden aan assumpties over de reactiviteit van h et hard opdenken. D aarvoor is een taakanalyse nodig w aarin het gebruik van websites, interfaces en instructieve teksten zoals handleidingen o f form ulieren w ordt uitgesplitst in eenduidige deeltaken. In zorgvuldig afgebakende experim enten kan vervolgens w orden nagegaan welke invloed h et hardopdenken heeft op de taakuitvoering. D ergelijk onderzoek zou, b innen het dom ein van de form atieve evaluatie maar mogelijk ook daarbuiten, substantieel bijdragen aan de theorievorm ing over de waarde en beperkingen van h et hardopdenken als onder zoeksm ethode. E en andere bevinding is dat de synchrone hardopdenkm ethode leidt to t m inder geverbaliseerde problem en dan de retrospectieve hardopdenkm ethode. D it leidt to t vragen over de aard van synchrone en retrospectieve hardopdenkprotocollen. E en voor de hand liggende verklaring voor eventuele verschillen zou zijn dat de proefpersonen in de retrospectieve conditie m eer los kom en van de taakuitvoering. Toch lijkt h et recente onderzoek van G uan e.a. (2006) dit niet te bevestigen: de retrospectieve verbalisaties betroffen passages waar de proefpersonen tijdens de taakuitvoering daadwerkelijk aandacht aan besteedden, zoals bleek u it h u n eye-tracking data. M et andere w oorden: ook in retrospectief hardopdenkonderzoek blijken proefpersonen behoorlijk getrouw hun eigen taakuitvoering te volgen. Gedetailleerd tekstanalytisch onderzoek naar de verschillen tussen verbalisaties in synchrone en retrospec tieve hardopdenkprotocollen zou in dit opzicht erg waardevol zijn.
194
*
►
►
►
Hardopdenkprotocollen en gebruikersonderzoek
D e bovengenoem de vragen hebben prim air een theoretische inslag. M aar er zijn ook nog allerlei praktische vragen die evenzeer van belang lijken voor de validiteit van de m ethode. D e discussie over proefleidergedrag die door B oren & R am ey (2000) is aangezwengeld, zal op basis van em pirisch onderzoek to t een ontknoping m oeten kom en. Aan welke richtlijnen m o et een proefleider zich precies houden in de “speech com m unication”-benadering en w at zijn de effecten van zulk proefleidergedrag? O o k de instructie die aan hardop denkende proefpersonen w ordt gegeven en de oefening o f dem onstratie die de proefpersonen aan het begin van een sessie krijgen voorgeschoteld, zijn uiterst relevant. H et verbaliseren van ge dachten is niet iets w at alle proefpersonen intu ïtief kunnen. D e systematische ontw ikkeling van een onderzoekscontext die proefpersonen optim aal voorbereidt op de hardopdenktaak lijkt praktisch gesproken de meest dringende kwestie waar onderzoek naar gedaan m oet w orden. D at de talrijke vragen m et betrekking to t (synchrone en retrospectieve) hardopdenk protocollen vooralsnog onbeantw oord zijn, is w ellicht te w ijten aan de robuustheid van de m ethode en aan het onm iddellijk herkenbare n u t van de resultaten die deze oplevert. In de drie studies die we to t nu toe hebben verricht, w aren er bijvoorbeeld geen systematische verschillen te ontdekken in de lijsten m et problem en die op basis van synchrone en retro spectieve hardopdenkprotocollen w erden gevonden. E n de m eeste problem en die we vonden leken zonder m eer de m oeite waard (wat ook bleek uit een analyse w aarin experts de ernst en aannem elijkheid van de problem en m oesten beoordelen). D eze beide kenm erken hebben m ogelijk bijgedragen to t de mainstream kennis over usability testing die zich al een decen niu m lang nauwelijks ontw ikkelt. In adviesliteratuur over form atief evaluatieonderzoek en op congressen w ordt al jarenlang steeds dezelfde inform atie over hardopdenkonderzoek her haald. O m op dit gebied een stap verder te kom en zal er m eer gedetailleerd en systematisch onderzoek gedaan m oeten w orden naar de w erking van de hardopdenkm ethode. E en belangrijke im plicatie van het onderzoek dat w e hier beschreven, is dat w e voor zichtig m oeten zijn om m ethodologische inzichten die m et h et ene testobject zijn verkre gen, te vertalen naar andere onderzoeksobjecten. H e t onderzoek naar interfaces en software v erto ont grote verschillen m et de praktijk van tekst- o f website-evaluatie. Inzichten uit die hoek m o eten derhalve m et de nodige voorzichtigheid w orden geïnterpreteerd. D en k bij deze inzichten niet alleen aan de w erking van hardopdenkprotocollen, maar m ogelijk ook aan heuristische evaluatie, cognitive walkthroughs en scenario-evaluatie (Nielsen & Mack, 1994) en aan de optim istische inschattingen over aantallen proefpersonen die nodig zouden zijn voor een betrouw baar usability test resultaat (Nielsen, 1994;Virzi, 1992). E en bijko m ende overw eging is dat veel onderzoek uit deze hoek m ethodologisch niet sterk is (Gray & Salzman, 1998) en dat de verslaglegging ervan vaak zo bondig is dat er veel te raden overblijft over de precieze opzet van het onderzoek. We k u n n en dergelijke studies beter als inspiratie zien voor eigen onderzoek naar tekst- en w ebsite-evaluatie dan als volwaardige en toepasbare bron van kennis.
195
M a a ik e van d e n H a a k , M en n o d e J o ng en P et er J a n S c h el l en s
Bibliografie
B oren , M .T ., & R a m ey J. (2000). T hinking aloud: R econciling theory and practice. IEE E Transactions on Profes sional Communication, 4 3 ,261-278. D ieli, M . (1986). Designing successful documents: A n investigation of document evaluation methods. Diss. Carnegie-M ellon University. Pittsburgh. D u m a s, J.S ., & R ed ish , J.C. (1993). A practical guide to usability testing. N orw ood, NJ: Ablex. E ricsson, K .A . (1988). C oncurrent verbal reports on text comprehension: A review. Text, 8, 295-325. E ricsson, K .A ., & S im o n , H .A . (1993). Protocol analysis. Verbal reports as data. Cambridge, MS: M IT Press. Flow er, L ., H ayes, J .R ., & Swarts, H . (1983). Revising functional documents: the scenario principle. In: P.V. Anderson, R.J. Brockm ann & C .R . Miller (Eds.), New essays in technical and scientific communication. Research, theory and practice (pp. 41-58). Farmingdale, NY: Baywood. Gray, W .D., & S alzm an, M .C . (1998). Damaged merchandise? A review o f experiments that compare usability evaluation methods. Human-Computer Interaction, 13, 203-261. G uan, Z ., Lee, S., Cuddihy, E ., & R am ey, J. (2006). T he validity o f the stimulated retrospective think-aloud m ethod as measured by eye tracking. In: Proceedings of the S IG C H I conference on Human Factors in computing systems, Montréal, Québec, Canada (pp. 1253-1262). N ew York: A CM Press. H aak, M . van d en , Jon g, M . de, & S chellens, RJ. (2003). H ardopdenkprotocollen als pretestm ethode: Synchroon en retrospectief hardopdenken vergeleken. Tijdschrift voorTaalbeheersing, 25, 236-252. H aak, M.J. van den, Jon g, M .D .T . de, & Schellens, RJ. (2004). Employing think-aloud protocols and con structive interaction to test the usability o f online library catalogues: A m ethodological comparison. Inter acting with Computers, 1 6 ,1153-1170. H aak, M.J. van den, Jon g, M .D .T . de, & S chellens, RJ. (2007). Evaluation o f a municipal Web site:Three vari ants o f the think-aloud m ethod compared. Technical Communication, 54 (te verschijnen). Jansen, C.J.M ., & S teehouder, M.F. (1989). Taalverkeersproblemen tussen overheid en burger. Een onderzoek naar verbeteringsmogelijkheden van voorlichtingsteksten en formulieren. Diss. Pdjksuniversiteit U trecht. ‘s-Gravenhage: SDU. Janssen D .,W aes, L. van, & B ergh , H . van den (1996). Effects o f thinking aloud on w riting processes. In: C.M. Levy (ed.), The science of writing:Theories, methods, individual differences, and applications (pp. 233-250). Mahwah, N.J.: Lawrence Erlbaum. J on g, M . de (1998). Readerfeedback in text design. Validity of the plus-minus methodfor the pretesting of public information brochures. Dissertation University o f Twente. A m sterdam / Atlanta, GA: R odopi. J on g , M . de, & S chellens, RJ. (1995). Met het oog op de lezer. Pretestmethoden voor schriftelijk voorlichtingsmateriaal. Amsterdam: Thesis. J on g, M . de, & S chellens, RJ. (2000). Toward a docum ent evaluation methodology. W hat does research tell us about the validity and reliability o f evaluation methods? IE E E Transactions on Professional Communication, 4 3 ,242-260. K n ob lich, G ., & R h en iu s, D. (1995). Z ur Reaktivität Lauten Denkens beim komplexen Problemlosen [R e activity o f thinking aloud during complex problem solving]. Zeitschrift für experimentelle und angewandte Psychologie, XLII, 419-454. K ucan, L ., & B eck , I.L. (1997). Thinking aloud and reading com prehension research: Inquiry, instruction, and social interaction. Review of Educational Research, 6 7 ,271-299. L entz, L ., & Pander M aat, H . (2003). Waarom het lezersprotocol zo’n goede m ethode is om begripsproblemen op te sporen. Tijdschrift voor Taalbeheersing, 25, 202-220. L oxterm an , J .A ., B eck , I.L., & M cK eow n, M .G . (1994). T he effects o f thinking aloud during reading on stu dents’ com prehension o f m ore or less coherent text. Reading Research Quarterly, 29, 353-367.
196
Hardopdenkprotocollen en gebruikersonderzoek M u m m a , G .H ., D raguns, J.G ., & Seibel, R . (1993). Reactive affects o f concurrent verbalization in person perception tasks. European Journal of Social Psychology, 23, 295-311. N ielsen , J. (1993). Usability engineering. Boston, MA: Academic Press. N ielsen , J. (1994). Estimating the num ber o f subjects needed for a thinking aloud test. International Journal of Human-Computer Studies, 4 1 ,385-397. N ielsen , J., & M ack, R .L . (1994). Usability inspection methods. N ew York: John Wiley. Schriver, K .A . (1987). Teaching writers to anticipate the reader’s needs. Empirically based instruction. Diss. CarnegieM ellon University. Pittsburgh. Silvén, M ., & Vauras, M . (1992). Improving reading through thinking aloud. Learning and Instruction, 2, 69-88. Swaney, J .H ., e.a. (1981). Editing for comprehension: improving the process through reading protocols. Technical report no. 14. D ocum ent Design Project, Carnegie-M ellon University. Pittsburgh, PA. V irzi, R .A . (1992). R efining the test phase o f usability evaluation: H ow many subjects is enough? Human Factors, 34, 457-468. W righ t, P.C ., & M onk, A.F. (1991). A cost-effective evaluation m ethod for use by designers. International Journal of Man-Machine Studies, 35, 891-912.
197