Spraakherkenning: meer dan alleen spraak en lippen? Auke L. Klazema S1144111
[email protected] Ted Schmidt S1282247
[email protected] Begeleider: Drs. J. Boers Samenvatting Het automatisch herkennen van spraak wanneer er alleen gebruik gemaakt wordt van het spraaksignaal wordt sterk beperkt door de hoeveelheid ruis die er aanwezig is. Om dit te verminderen kan er gebruik gemaakt worden van een extra bron van spraakinformatie, zoals liplezen. Huidige lipleessystemen halen alleen informatie uit lipbewegingen, maar kunnen deze systemen ook verbeterd worden door gebruik te maken van extra visuele informatie? Om deze vraag te beantwoorden hebben we onderzoek gedaan of er een toename is in de liplees prestatie van mensen, wanneer er meer visuele informatie wordt aangeboden dan alleen de lipbewegingen. Hiervoor is er een experiment uitgevoerd waarbij proefpersonen tweelettergrepige woorden moesten herkennen uit videofragmenten met een verslechterd spraakgeluid. Drie soorten sets werden gebruikt: normaal beeld, alleen lipbewegingen en geen beeld, waarbij van elk 80 woorden werden aangeboden.
Inleiding Interessante feesten zijn interessant omdat de juiste ingredi¨enten zijn gecombineerd in de juiste proporties. Lekker eten, favoriete dranken, interessante gesprekken en muziek. Deze laatste twee ingredi¨enten vormen samen niet de meest geschikte combinatie. De muziek staat net te luid om elkaar makkelijk te kunnen verstaan. Toch lukt het de meeste mensen om tijdens feesten een gesprek te voeren. Hoe doen we dat toch? Vaak gaan de gesprekspartners iets dichter bij elkaar staan zodat zoveel mogelijk spraakgeluid de muziek kan overstemmen en ze kijken goed naar elkaars gezicht. Maar waar letten ze op? De lippen lijken de focus te zijn van het kijken maar wordt er ook meer informatie gebruikt uit het gezicht? Automatische Spraakherkenning alleen op basis van geluid is niet robuust genoeg. Een van de grootste problemen hierbij is achtergrondgeluid oftewel ruis. Voor het systeem is het lastig om onderscheid te maken tussen achtergrondgeluiden en de te verwerken gesproken tekst. Een mogelijke oplossing voor dit probleem is gebruik te maken van automatisch liplezen. Hiermee is vast te stellen of er daadwerkelijk een spreker is en welke klanken er mogelijk afkomstig van zijn. Bij liplezen worden de visuele aspecten van een foneem (viseem) vergeleken met het verkregen beeldmodel. Liplees systemen bezitten echter niet genoeg informatie om dezelfde lipleesprestaties te behalen als mensen (Lippmann, 1997). Welke visuele informatie moet worden gebruikt en welke aspecten van het gezicht zijn belangrijk? Hierin zijn we ge¨ınteresseerd, hoe lost de mens het probleem op van spraakherkenning in een ruizige
omgeving? Mensen combineren van nature audio en visuele informatie om de gesproken tekst te identificeren, vooral in ruizige omgevingen. De positieve bijdrage van visuele informatie bij spraak perceptie in een ruizige omgeving is al eerder door Sumby & Pollack (1953) bevestigd. Dat mensen spraak identificeren door het combineren van de audio en visuele stimuli is gedemonstreerd door het McGurk effect (McGurk & MacDonald, 1976). Wanneer er bijvoorbeeld een gesproken klank /ga/ tegelijk wordt aangeboden met een persoon op een video die /ba/ zegt, denken de meeste mensen dat deze persoon /da/ zegt. Terwijl deze klank niet visueel nog auditief is aangeboden, maar ontstaan is uit een combinatie van beide. In deze studie hebben we gekeken of ook daadwerkelijk alleen de lippen belangrijk zijn of dat er meer informatie uit het gezicht gehaald wordt voor het verstaan van spraak. Hiervoor is er een experiment gedaan waarbij proefpersonen moesten liplezen terwijl ze beperkte auditieve en visuele informatie aangeboden kregen. Het verschil in correct herkende gesproken woorden bij de verschillende aangeboden visuele stimuli, gaf in dit experiment aan wat de bijdrage is van deze visuele informatie voor het liplezen.
Theorie Verschillende onderzoekers hebben bestudeerd welke visuele aspecten gebruikt worden bij het identificeren van spraak. Echter komen veel van de bevindingen van deze onderzoekers niet met elkaar overeen. Thomas & Jordan (2004) hebben in hun studie de mogelijke tekortkomingen van de voorgaande 1
studies in kaart gebracht, een aantal voor dit onderzoek relevante bevindingen worden in dit hoofdstuk aangehaald. Een toegepaste methode voor het bepalen van de gebruikte visuele aspecten bij spraakherkenning, is door te kijken naar de fixatie van de ogen van de proefpersoon tijdens spraakherkenning. Zo bleek Uit onderzoek van Vatikiotis-Bateson, Eigsti, Yano en Munhall (1998) dat de mond van sprekers een duidelijk fixatie punt is tijdens een langdurige gesprek. Lansing en McConkie (1999) onderzochten de oogbewegingen van proefpersonen tijdens een liplees oefening zonder geluid. Hun bevindingen waren dat de proefpersonen zich fixeerden op het gebied rond de mond wanneer ze een woord moesten identificeren en het gebied rond de ogen wanneer ze de intonatie wouden bepalen. Een veel gebruikte methode voor het bepalen van de relevantie van verschillende visuele aspecten bij spraakherkenning, is het veranderen van de hoeveelheid visuele stimuli die wordt aangeboden tijdens spraakherkenning. IJsseldijk (1992) vond in zijn onderzoek dat visuele spraakherkenning slechts een klein beetje maar toch significant slechter was wanneer alleen het gedeelte rond de mond werd weergeven in plaats van het hele gezicht. Terwijl Stone (1957) geen verschil vond in spraakherkenning kwaliteit tussen weergave van het hele gezicht en mond/kaak/adamsappel en Berger et al (1971) en Greenberg & Bode (1968) hadden als bevinding dat wanneer het hele gezicht werd weergegeven dit soms betere spraakherkenning opleverde dan bij weergave van de mond/kaak/adamsappel. Marassa & Lansin (1995) gebruikten een video scherm van de mond/kaak/adamsappel ge¨ımplementeerd in een statisch gezicht en hadden dezelfde bevindingen als Greenberg & Bode (1968). Ook is er in onderzoek naar voren gekomen dat bewegingen in o.a. het gebied rond de ogen en wangen ook voor nuttige informatie kan zorgen. Uit Scheinberg (1980) zijn onderzoek kwam naar voren dat de wangen gebruikt kunnen worden om onderscheid te maken tussen medeklinkers die nauwelijks te onderscheiden zijn wanneer er alleen naar de mond gekeken wordt. Preminger et al (1998) vond in zijn studie dat de kin en zijkanten van de wangen belangrijke gezichtspunten waren voor spraakherkenning. Echter kunnen er een aantal opmerkingen geplaatst worden voor de manier waarop de bijdrage van deze kenmerken zijn onderzocht. Bij onderzoek naar de bijdrage van alleen de mond in voorgaande studies was het gebied rond de mond relatief groot en veranderlijk, waardoor vaak niet alleen de mond maar ook de kaak en soms de adamsappel werden weergegeven. De techniek die gebruikt werd om alleen de mond weer te geven door gebruik te maken van een video scherm (Berger et al.,
19971; GreenBerg & Bode, 1968; Marassa & Lansing, 1995; Stone, 1957) zorgde voor onnatuurlijke elementen in het beeld. Om alleen de mond weer te geven gebruikten GreenBerg & Bode (1968) een ondoorzichtig masker die het hele gezicht bedekte behalve de mond. Het probleem hierbij is dat de interpretatie van een beeld ambigu is wanneer het omringt is door een ander object (e.g., Cavedon, 1980; Nelson & Palmer, 2001). Ook be¨ınvloeden de randen en contrast bij het gebruik van een scherm de waarneming van beweging in het zichtbare gedeelte. Tyler & Torres (1972) lieten in hun onderzoek zien dat beweging eerder wordt waargenomen bij een statische achtergrond, dit effect zou zich ook voor kunnen doen bij het gebruik van een scherm met randen met een hoog contrast. De techniek die gebruikt word om alleen een bepaalde kenmerk van het gezicht te laten zien waarbij de rest van het gezicht niet zichtbaar is, zorgt voor een onnatuurlijk kijk- en aandachtsgedrag. Zoals eerder genoemd fixeert een kijker zich op verschillende aspecten in het gezicht, door alleen 1 gebied zichtbaar te maken kan de invloed van dit gebied groter zijn dan wanneer het hele gezicht weergegeven wordt. Een ander nadelig effect wanneer niet het hele gezicht wordt weer gegeven is, de verandering in het verwerken en identificeren van deze gezichtskenmerken. Tanaka & Farah (1993) demonstreerden dat individuele gezichtskenmerken gemakkelijker te identificeren zijn wanneer ze in het bijbehorende gezicht zitten, dan wanneer ze in een ander gezicht zijn geplaatst. Aan de hand van de eerder genoemde opmerkingen is er een experiment opgezet die rekening houd met de volgende aspecten: bij het mondgebied mag alleen de mond zichbaar zijn, er mogen geen zichtbare randen zijn bij de overgang van het te onderzoeken kenmerk en de rest van het beeld, het kijk- en aandachtsgedrag mag niet verstoord worden door delen van het gezicht weg te laten, het gezicht moet er natuurlijk uit zien en volledig te zien zijn. In dit experiment zijn de beelden waar alleen het mondgebied zichtbaar moet zijn, bewerkt met compositie software voor het aanbrengen van visuele effecten in videobeelden. Het mondgebied is naukeurig aangegeven door handmatig in elk videofragment het gebied te selecteren wat weergegeven mag worden. Dit bewerkte fragment is over een statisch gezicht heen gezet waardoor dit fragment het mondgebied vervangt. De randen van het mondgebied in het statische gezicht is weggevaagd door het geleidelijk in elkaar over te laten lopen. Om een zo goed mogelijke weergave van de informatie waarde van de mond te krijgen moet de mond zoveel mogelijk dezelfde vormen aannemen die hij ook tijdens een gesprek zou kunnen hebben. Door de context bij woorden in een zin is er echter een verwachting bij de luisteraar waardoor het 2
woord beter te identificeren is (West et al.,1983). Daarom is ervoor gekozen om de proefpersonen in dit experiment losse woorden te laten identificeren. Het aantal mogelijke visemen bij het uitspreken van een woord hangt af van het lettergreep type. Zo bevatten klikker-medeklinker woorden (km) 49 visemen en mkm 343 visemen (Wojdel, 2003). In dit experiment is er voor tweelettergrepige woorden gekozen mede omdat dit type woorden minder last van spreker afhankelijke variaties ondervond wat naar voren kwam in het onderzoek van Sumby & Pollack (1953). Om te kunnen concluderen of het aanbieden van dezelfde woorden bij minder visuele stimuli zorgt voor slechtere identificatie, moeten de gebruikte datasets groot genoeg zijn zodat enkele woorden die in meerdere sets voorkomen niet gemakkelijk onthouden worden. Daarom is er gekozen om drie sets van 80 woorden aan te bieden die random samengesteld zijn uit een set van 281 woorden.
Procedure en instrumenten 1
3
Experiment
De proefpersonen moesten bij het experiment woorden correct zien te identificeren in de drie situaties waarbij verschillende visuele informatie werd aangeboden. Het experiment is in twee volgordes uitgevoerd. De eerste volgorde begint met 80 fragmenten uit de video dataset die alleen de lip- en oogbewegingen bevat. Daarna werden 80 fragmenten uit de audio dataset aangeboden. De laatste 80 fragmenten kwamen uit de video dataset die alle gezichtsbewegingen bevat. Volgorde: lippen → geluid → gezicht
Variabelen
De variabelen die een rol spelen in dit experiment zijn: Aanwezigheid video: Om te testen of visuele informatie u ¨ berhaupt een effect heeft werd in het experiment ook een set zonder video aangeboden. De score op deze set werd vergeleken met de scores op de video sets voor een significant verschil. Bewegingen gezicht : Naast de audio set zijn er ook twee soorten audio-video sets. De eerste set bevat beeld en geluid van een persoon die tweelettergrepige woorden uitspreekt. Dezelfde beelden van de eerste set zijn voor de tweede set aangepast zodat alleen de lippen en ogen bewegen. Op deze manier kan worden bepaald of de andere bewegingen in het gezicht een bijdrage hebben bij spraakherkenning. Voor de ogen is gekozen omdat het anders een star en kunstmatig uitziend gezicht oplevert.
2
vormen de eerste set. Het audiosignaal wordt van deze bestanden ge¨extraheerd en vormen vervolgens weer 281 losse bestanden en daarmee de tweede set. De eerste set wordt daarna nog eens gemanipuleerd zodat alleen de lippen en ogen bewegen. Dit geeft opnieuw 281 losse bestanden en dit vormt de derde en laatste set. Elke set bevat spraakgeluid met toegevoegd ruissignaal maar verschilt in de hoeveelheid visuele stimuli die het bevat.
In de tweede volgorde waren de eerste en laatste type sets verwisseld. gezicht → geluid → lippen De proefpersonen kregen vanuit iedere set 80 unieke woorden te zien en/of te horen. De woorden waren willekeurig geselecteerd, hierdoor was niet bekend in welke volgorde de woorden zouden worden aangeboden. Hierdoor is een mogelijk verwachting of systematiek weggewerkt. Tussen de drie aangeboden sets van 80 woorden was overlap van woorden mogelijk. De proefpersonen gaven in een door ons gemaakt programma aan welk woord ze hadden gehoord. Alle data werd in dit programma geregistreerd en was zo gemakkelijk te analyseren. Er is niet gecorrigeerd voor typ fouten tenzij de proefpersoon hier om vroeg. De gegeven instructie is terug te vinden in de appendix.
Dataset
De dataset bestaat uit 281 eenvoudige tweelettergrepige woorden die door een persoon is uitgesproken, dit is opgenomen met een videocamera. De beelden zijn voorzien van een auditief ruissignaal. Als ruissignaal is er gekozen voor roze ruis, omdat dit type ruis het meest overeen komt met omgevingsgeluid (Voss & Clarke, 1975). De keuze voor de signaal ruis verhouding is gebaseerd op de resultaten uit een test met een proefpersoon waarbij de score op het gehele gezicht rond de 50% goed zat. De video beelden zijn in losse bestanden opgeslagen zodat ze afzonderlijk gebruikt kunnen worden. Zo ontstaan er 281 losse bestanden en deze
4
Proefpersonen
In het experiment hebben 16 proefpersonen meegedaan. De proefpersonen hadden geen gehoorof oogafwijkingen en indien dit wel het geval was gebruikte de proefpersoon daarvoor corrigerende maatregelen. Er is gekozen voor proefpersonen met een goed werkend gehoor omdat deze personen net zo veel visemen kunnen waarnemen als slechthorende of dove mensen (Owens et al, 1985). De proefpersonen waren niet vemoeid tijdens het uitvoeren van het experiment. De proefpersonen voerden het experiment uit in een rustige ruimte waarin weinig afleiding was. Dit 3
was niet altijd dezelfde ruimte. Ook zijn de experimenten op verschillende tijdstippen afgenomen.
Resultaten
Er is eenzijdig getoetst op de scores van de lippen en gezicht videofragmenten. De analyse laat een significant verschil zien bij de volgorde lippen - geluid 5 Gebruikte apparatuur - gezicht. Echter bij de volgorde gezicht - geluid De camera die gebruikt is voor de opnames is een lippen is er geen significant verschil gevonden die gr-dvl307 van JVC. Het bezit geen mogelijkheid om bevestigd dat het hele gezicht zorgt voor een beeen externe microfoon aan te sluiten. Hierdoor is ter spraakherkenning dan wanneer alleen de lippen een lichte ruis te horen die afkomstig is van de mo- worden weergegeven. toren van de camera die het bandje ronddraait. De opnames zijn weggeschreven in DV formaat op de Volgorde: lippen geluid gezicht computer. Waarna ze zijn geknipt in fragmenten P-waarde 0.007 van woorden en vervolgens opgeslagen in het xvid Volgorde: gezicht geluid lippen formaat. P-waarde 0.827 De files zijn overgezet op een laptop. Dit is een Tabel 1. P waardes verkregen uit de eenzijdige 1 gigahertz laptop met 128 mb geheugen. Een ont - toets. board chipset verzorgt de audio en video en is van het type SiS 630S. Het gebruikte besturingssyteem Ook voor de analyse van de scores tussen de twee was Windows 2000. Het gebruikte scherm was een soorten video fragmenten en de audio fragmenten 14 inch tft met een resolutie van 1024x768. is een eenzijdige t-toets gebruikt om te zien of het Het geluid werd afgespeeld op een hoofdtelefoon toevoegen van visuele informatie zorgt voor betere met het type HD 265 linear van het merk Sennheispraakherkenning. Uit de analyse komt overal een ser. significant resultaat.
6
Analyse
Volgorde: lippen geluid gezicht Lippen en geluid p-waarde 0.001 Gezicht en geluid p-waarde 0.001 Volgorde: gezicht geluid lippen Lippen en geluid p-waarde 0.001 Gezicht en geluid p-waarde 0.011 Tabel 2. P waardes verkregen uit de eenzijdige t - toets. Hier is bepaald of visuele informatie een verbetering geeft in de spraakherkenning.
Om te bepalen of er een verbetering in de spraakherkenning ontstaat door het aanbieden van visuele informatie wordt de scores op de audioset vergeleken met de audio/video set. En om te bepalen of alleen de lippen belangrijk zijn of dat andere bewegingen van het gezicht ook een bijdrage leveren in de spraakherkenning wordt de audio/video set met volledige bewegingen vergeleken met de audio/video set met alleen de lip en oog beweging. Om dit In beide volgordes scoorde de laatste set bijna te vergelijken is er gekeken naar de overeenkomst altijd hoger dan de eerste. tussen het woord dat opgegeven is door de proefpersoon en het daadwerkelijk uitgesproken woord. Als dit precies overeenkomt wordt dit als een juiste identificatie gezien. Bij spraakherkenning met een toegevoegd audioruissignaal zijn niet alle medeklinkers van elkaar te onderscheiden (Miller & Nicely, 1954). Hierdoor kan de score van een set ten onrechte lager zijn omdat deze meer woorden bevat met medeklinkers die audio/visueel verward kunnen worden en toch correcte nerderlandse woorden zijn. Daarom moet een ge¨ıdentificeerd woord ook goed gerekend worden wanneer er medeklinkers verschillen die bij de gebruikte signaal ruis verhouding niet te onderscheiden zijn. Met de verkregen scores is er een eenzijdige t-toets uitgevoerd om te bepalen of de toevoeging van visueel een significant beter resultaat opleverd dan wanneer alleen het audiosignaal wordt aan geboden. Ook is er een eenzijdige t-toets uitgevoerd om te zien of het aanbieden van het hele Figuur 1. De gemiddelde scores op elke set gezicht een significant beter resultaat opleverd dan en in beide volgordes. wanneer alleen de lippen worden weergegeven. 4
Conclusie Bij dit experiment is te zien dat de set die als laatst is aangeboden aan de proefpersonen voor een significant beter score zorgt ongeacht of dit de set met alleen de lippen of het hele gezicht is. Hieruit is dus niet te concluderen dat deze twee sets met verschillende visuele stimuli zorgen voor een betere of slechtere spraakherkenning. Wel is er een significante verbetering gevonden bij de spraakherkenning wanneer er niet alleen auditieve maar ook visuele informatie werd aangeboden. Omdat er op de laatste set significant beter gescoord wordt lijkt het er op dat hier sprake is van een leer effect. Dit leer effect kan onstaan zijn door de oefening die de proefpersonen hadden van het spraakherkennen in de voorgaande sets, of door het herkennen van woorden die ook in de voorgaande sets zijn aangeboden. Dit leereffect verstoort in ieder geval de scores dermate dat de data voor het vergelijken van bijdrage van de visuele aspecten onbruikbaar is geworden.
Discussie Het experiment dient opnieuw gedaan te worden waarbij rekening gehouden dient te worden met de volgende zaken. Training: ieder proefpersoon dient eerst getrained te worden. Zo heeft de proefpersoon geleerd hoe naar de video dient te kijken en zo is het leereffect weggewerkt. Alle woorden (3 * 80) dienen verschillend te zijn. In de opzet van dit experiment was het mogelijk om meerdere malen het zelfde woord te horen en/of te zien. Dit verstoord mogelijk de data omdat het woord dan al eerder gehoord is. De dataset kan kwalitatief nog beter door een externe microfoon te gebruiken tijdens de opnames. Een interesant artikel voor herhaling van het onderzoek of voor een vergelijkbaar onderzoek is (Conrey & Gold 2006).
di Psicologia Report, 12, 121. Conrey, B., and Gold, J. M. (2006). An ideal observer analysis of variability in visual-only speech, Vision Research, 46, 32433258 Greenberg, H. J., & Bode, D. L. (1968). Visual discrimination of consonants. Journal of Speech and Hearing Research, 11, 869874. IJsseldijk, F. J. (1992). Speechreading performance under different conditions of video image, repetition, and speech rate. Journal of Speech and Hearing Research, 35, 466471. J.C.Wojdel: Automatic lipreading in the Dutch language, PhD thesis Delft University of Technology 83-89003-62-7, 2003. Lansing, C. R., & McConkie, G. W. (1999). Attention to facial regions in 886 THOMAS AND JORDAN segmental and prosodic visual speech perception tasks. Journal of Speech, Language, and Hearing Research, 42, 526539. Lippmann, R.P. (1997). Speech recognition by machines and humans. Speech Communication, 22(1):115. Marassa, L. K., & Lansing, C. R. (1995). Visual word recognition in 2 facial motion conditions: Full face versus lips-plus-mandible. Journal of Speech and Hearing Research, 38, 13871394. McGurk, H. and MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264:746748. Miller, G. A., and Nicely, P. E. (1955). An analysis of perceptual confusions among some English consonants, Journal of Acoustic Society of America, 27, 338-352 Nelson, R., & Palmer, S. E. (2001). Of holes and wholes: The perception of surrounded regions. Perception, 30, 12131226.
Referenties Owens, Elmer, Blazek, Barbara Visemes ObBerger, K. W., Garner, M., & Sudman, J. (1971). served by Hearing-Impaired and Normal-Hearing The effect of degree of facial exposure and the ver- Adult Viewers J Speech Hear Res 1985 28: 381-393 tical angle of vision on speechreading performance. Teacher of the Deaf, 69, 322326. Preminger, J. E., Lin, H. B., Payen, M., & Levitt, H. (1998). Selective visual masking in speechCavedon, A. (1980). Contorno e disparazione reading. Journal of Speech, Language, and Hearing retinica come determinanti della localizzazione in Research, 41, 564575. profondita le condizioni della percezione di un foro [Contour and retinal displacement as determinants Scheinberg, J. C. (1980). Analysis of speechreaof localization in depth of the conditions of the per- ding cues using an interleaved technique. Journal ception of a hole]. Universita di Padova Instituto of Communication Disorders, 13, 489492. 5
Appendix Stone, L. (1957). Facial clues of context in lip reading. Los Angeles: John Tracy Clinic.
1
Instructie
Sumby, W.H., and Pollack, I. (1954). Visual U doet mee aan een experiment om te bepalen welcontribution to speech intelligibility in noise, Jour- ke visuele aspecten van het gezicht belangrijk zijn nal of Acoustic Society of America, 26, 212-215. voor spraakherkenning. Dit experiment is geheel vrijwillig en anoniem. Mocht u tussendoor besluiTanaka, J. W., & Farah, M. (1993). Parts and ten om te stoppen om wat voor reden dan ook dan wholes in face recognition. Quarterly Journal of is dat uw goed recht. Experimental Psychology, 46(A), 225245. U krijgt zometeen drie groepen van elk 80 fragmenten gepresenteerd van tweelettergrepige woorThomas SM, Jordan TR. Contributions of oral den. In de eerste set bevinden zich videobeelden and extraoral facial movement to visual and aumet geluid die zodanig zijn bewerkt zodat u alleen diovisual speech perception. J Exp Psychol Hum de lipbewegingen krijgen te zien. In de tweede set Percept Perform. 2004 Oct;30(5):873-88. bevinden zich alleen geluidsfragmenten. In de derde en laatste set bevinden zich videobeelden met Vatikiotis-Bateson, E., Eigsti, I. M., Yano, S., geluid. & Munhall, K. G. (1998). Eye movements of perOver de fragmenten is een audioruissignaal geceivers during audiovisual speech perception. Perplaatst zodat u goed moet opletten om het woord ception & Psychophysics, 60, 926940. te kunnen verstaan. Na elk fragment wordt u verzocht het woord in Voss, R.F., and Clarke, J. (1975). 1/f noise in te typen dat u heeft gehoord. Ook als u het niet music and speech, Nature 258, 317318 goed heeft kunnen horen dient u het woord in te West,R. F., Stanovich,K. E., Feeman,D. J., typen. Het is niet erg dat u een verkeerd woord Cunningham, A. E. The Effect of Sentence Context heeft in getyped omdat het experiment zo is opgeon Word Recognition in Second- and Sixth-Grade zet dat u fouten maakt. Children Reading Research Quarterly, Vol. 19, No. Als u een pauze nodig heeft dan kunt u wachten 1 (Autumn, 1983), pp. 6-15 met het indrukken van de entertoets nadat u een woord heeft opgegeven.
6