WOORDEN ONDER ELKAAR
Rede uitgesproken bij de aanvaarding van het ambt van bijzonder hoogleraar in de kwantitatieve taalkunde vanwege de Stichting Akademieleerstoelen Geesteswetenschappen van de Koninklijke Nederlandse Akademie van Wetenschappen. Radboud Universiteit Nijmegen, 3 februari 2006.
Koninklijke Nederlandse Akademie van Wetenschappen Postbus 19121, 1000 GC Amsterdam T 020-551 07 00 F 020-620 49 41 E
[email protected], www.knaw.nl Voor het bestellen van publicaties: T 020-551 07 80 E
[email protected] isbn 90-6984-470-2 Het papier van deze uitgave voldoet aan ∞ iso-norm 9706 (1994) voor permanent houdbaar papier © 2006 Koninklijke Nederlandse Akademie van Wetenschappen (knaw). Niets uit deze uitgave mag worden verveelvuldigd en/of openbaar gemaakt door middel van druk, fotokopie, via internet of op welke wijze dan ook, zonder voorafgaande schriftelijke toestemming van de rechthebbende, behoudens de uitzonderingen bij de wet gesteld.
pagina2.indd 2
13-1-2006 9:44:27 Process Black
ROLF HARALD BAAYEN
..................... WOORDEN ONDER ELKAAR Geheugen en predictie bij spreken, verstaan en lezen
KONINKLIJKE NEDERLANDSE AKADEMIE VAN WETENSCHAPPEN
Amsterdam, 2006
Mijnheer de Rector Magnificus, Leden van de Commissie Akademieleerstoelen Geesteswetenschappen van de Koninklijke Nederlandse Akademie van Wetenschappen, Leden van het curatorium van deze bijzondere leerstoel, Zeer gewaardeerde toehoorders, In 1864 verscheen een Nieuw Woordenboek der Nederlandsche Taal, dat in successievelijke bewerkingen en uitbreidingen in de volksmond bekend is komen te staan als de dikke Van Dale. Dit prachtige woordenboek biedt een schat aan informatie over vele tienduizenden woorden die in het Nederlandse taalgebied gebruikt worden of werden. Voor een knaagdier dat 16 tot 24 centimeter lang is, en waarvan het grootste gedeelte van de lengte op rekening komt van de staart, biedt mijn editie uit 19611 op bladzijde 1627, kolom twee, het woord rat, onder rasverbetering en voor rata. ras’verbetering, v., verbetering, veredeling van een ras: slechts drie
bijesoorten komen in aanmerking voor rasverbetering; . . . rat, v. (m.) (-ten), 1. knaagdier . . . ra’ta, (Lat. rata pars, evenredig deel), in: pro rata, naar rata (van), naar verhouding, naar evenredigheid van . . . Van Dale biedt, naast een aantal betekenisomschrijvingen, ook informatie over de verschijningsvormen van het woord rat. Zo vermeldt het dat het enkelvoud rat een meervoud heeft dat met dubbel T gespeld wordt, ratten. Dit lijkt overbodige informatie, maar woorden die rijmen op rat, bijvoorbeeld wad en bad, hebben in het meervoud een D in plaats van een T, en in het geval van baden ook nog klinkerverandering van A naar AA. Voorts noemt Van Dale het verkleinwoord, ratje en het bijbehorende meervoud ratjes. Tenslotte vermeldt het twee samenstellingen met rat, huisrat en zwerfrat, de volgens Van Dale belangrijkste twee soorten ratten. Van Dale biedt nog veel meer informatie over dit intelligente knaagdier. Een deel van deze informatie is verspreid over de bladzijden volgend op rat, voor zover het samenstellingen betreft die met rat beginnen. Tussen woorden als ratelklepper, rats en ratuig vinden we onder meer ratijzer (een ijzeren knip om ratten te vangen), ratdicht (onbereikbaar voor ratten), rattebeet, rattehol, rattenvanger, rattestaart en rattenbestrijding. Maar rat heeft nog meer morfologische familieleden, verspreid door het hele woordenboek heen, van bergrat tot zeerat (overigens geen
5
knaagdier, maar een vis). Dit soort woorden konden we vroeger uitsluitend opsporen met een retrograde woordenboek, zoals dat van Nieuwborg uit 1978.2 In dit woordenboek, niet meer dan een ingebonden versie van de computeruitdraai van een sorteerprogramma, vinden we wederom vele ratten onder elkaar, maar nu is er andersoortig kaf tussen het koren. RAT KRAT DAKRAT ZAKRAT TREKRAT WAGENKRAT FLESSENKRAT KERKRAT ACHTERKRAT U merkt bij het lezen van dit rijtje woorden dat het lastig wordt de ratten te onderscheiden van de kratten. Er zit een rat in krat, naast kat en at. Van dit soort ingebedde woorden hebben we bij het lezen aantoonbaar last, al merkt u daar alleen wat van bij het zoeken in een retrograde woordenboek.3 Een woord dat bij velen van u inmiddels door het hoofd zal zijn gegaan is muis. De dikke Van Dale beschrijft de rat als “een knaagdier van de familie der muizen”, maar voor systematische informatie over woorden die betekenisverwantschap hebben met rat, anders dan woorden met rat, moeten we te rade gaan bij een synoniemenwoordenboek, dat woorden ordent naar betekenis in plaats van naar vorm. Woordenboeken bevatten schatten aan informatie, maar die informatie is slecht toegankelijk. Woorden moeten volgens één of ander ordeningsprincipe onder elkaar gezet worden, zodanig dat de gebruiker een systematische zoektocht kan ondernemen. Deze vaak domweg vervelende zoektochten in de woordenboeken contrasteren met het gemak waarmee wij doorgaans onze gedachten in woorden weten uit te drukken bij het spreken, en het gemak waarmee we bij het lezen of luisteren de betekenissen van woorden weten te achterhalen. Wat zijn de organisatieprincipes voor woorden en hun betekenissen in ons geheugen die deze snelle en doorgaans zeer efficiënte lexicale verwerking mogelijk maken? Over het antwoord op deze vraag wordt zeer verschillend gedacht. Laten we beginnen met ons oor te luisteren te leggen bij de taalkunde.
6
Het lexicon in de taalkunde In de taalkunde hebben formele talen lange tijd model gestaan voor theorieën van het lexicon. Een formele taal bestaat uit een verzameling basisbouwstenen en regels om deze bouwstenen tot reeksen samen te voegen. U kunt hierbij denken aan uw zakrekenmachine: de bouwstenen zijn de getallen, haakjes en tekens voor vermenigvuldigen, optellen, delen, enzovoorts. Dankzij de ingeprogrammeerde rekenregels kunt u van getallen nieuwe getallen maken, zolang u maar niet door nul probeert te delen en de operatoren en haakjes op de juiste plaatsen inzet. Uw zakrekenmachine onthoudt niks, en berekent alles. U toetst 3 maal 3 in, en zij rekent 9 voor u uit. U toetst nogmaals 3 maal 3 in, en weer rekent ze 9 voor u uit. Nooit zal ze onthouden dat 3 maal 3 negen is. Ze is volmaakt in wat ze kan, maar daartegenover staat dat ze er ook nooit wat bij zal leren. Volgens de generatieve taalkunde is het lexicon een taalkundige rekenmachine. De amerikaanse geleerde Steven Pinker heeft deze visie op het lexicon gepopulariseerd met zijn boek ’Words and rules: the ingredients of language’.4 Volgens Pinker zou ook het lexicon bestaan uit een verzameling elementaire bouwstenen, de zogenaamde morfemen, gecombineerd met een verzameling regels die morfemen samenvoegen tot woorden. De volgende mini-grammatica illustreert de centrale concepten van deze theorie. MORFEMEN
rat, muiz, marmot, vogel, -en, -s MEERVOUDSREGEL
(i) draagt de laatste lettergreep van de stam klemtoon? (ii) zo ja, kies -en, zo nee, kies -s (iii) voeg -s of -en toe aan het eind van de stam VERSTEMLOZINGSREGEL
maak B , D , V, Z aan het eind van de stam stemloos (P, T, F, S) indien tevens aan het eind van een lettergreep Voor rat leiden we het meervoud ratten af, voor vogel het meervoud vogels. Voor het meervoud van muis moeten we een noodgreep toepassen. Als we de vorm muis in onze lijst met morfemen zouden opnemen, zouden we ten onrechte het meervoud muisen afleiden, in plaats van muizen. Om dit te voorkomen, nemen we muis op als muiz (en luis als luiz, huis als huiz, sluis als sluiz, maar kruis weer gewoon als kruis), samen met een extra regel, de verstemlozingsregel, die waar nodig de stemhebbende Z omzet in een stemloze S.
7
Een cruciale veronderstelling in deze theorie is dat alle eerdere ervaring met meervouden is geabstraheerd in de meervoudsregel en de stemloosheidsregel.5 Net zoals uw zakrekenmachine geen resultaten onthoudt, zo zou ons geheugen niets onthouden van de meervoudsvormen die het ooit eerder heeft gezien, gehoord of uitgesproken. Alle eerdere ervaring met complexe woorden zou uitsluitend en alleen samengebracht zijn in abstracte regels. In het vervolg zal ik de verzameling taalkundige en psycholinguïstische modellen die dit principe aanhangen, aanduiden als strikt decompositionele modellen. Deze benadering van taal is ontstaan in de zestiger en zeventiger jaren van de vorige eeuw, en weerspiegelt de informatietechnologie van die tijd. Computergeheugen was schaars en zeer kostbaar. Bij het schrijven van computerprogramma’s was het cruciaal om zo zuinig mogelijk met het geheugen om te gaan, en zoveel mogelijk via generalisaties te beregelen. Tegenwoordig hebben we welhaast geheugen te over, en blijken algorithmen die generaliseren over gigantische hoeveelheden opgeslagen voorbeelden, verrassende nieuwe mogelijkheden te bieden. Binnen de computationele taalkunde biedt het werk van geleerden als Rens Bod, Walter Daelemans en Antal van den Bosch hiervan inspirerende voorbeelden.6 Dat het contraproductief is de rol van het geheugen te beperken tot het onthouden van alleen morfemen en hun combinatieregels, heeft ook de amerikaanse geleerde Joan Bybee laten zien aan de hand van tal van subtiele verschijnselen in taal en taalverandering. Laten we daarom overstappen van het generatieve lexicon naar wat het experimenteel onderzoek ons heeft geleerd over de rol van geheugensporen voor regelmatige gelede woorden.
Geheugensporen voor regelmatige gelede woorden Het bekende gezegde “oefening baart kunst” wijst op de belangrijke rol van ervaring bij het leren van nieuwe vaardigheden. Het leren van woorden vormt hierop geen uitzondering. Hoe vaker we een woord tegenkomen, hoe beter het in ons geheugen blijft zitten. Een ieder die wel eens woordjes heeft moeten leren in een vreemde taal, weet uit ervaring hoe lastig het is om woorden die weinig gebruikt worden, toch goed te onthouden. Het is dan ook niet verwonderlijk dat in het experimentele onderzoek naar het mentale lexicon, de frequentie waarmee een woord voorkomt in de taal een belangrijke voorspeller is gebleken van de
8
verwerkingssnelheid. Hoe frequenter een woord is, hoe sneller je het herkent, en hoe sneller je het kunt uitspreken.7 Hoe zit het nu met de verwerkingstijd voor gelede woorden als rattenvanger en hotelrat? Het woord rattenvanger komt veel vaker voor dan het woord hotelrat. In het licht van het frequentie-effect verwachten we dat rattenvanger sneller verwerkt wordt dan hotelrat. Maar dan veronderstellen we wel dat rattenvanger en hotelrat zelfstandige eenheden zijn, elk met hun eigen geheugenspoor en hun eigen frequentie. Echter, als regelmatige gelede woorden geen eigen geheugensporen hebben, zoals in strikt decompositionele modellen wordt aangenomen, dan moeten de gebruiksfrequenties van regelmatige gelede woorden wel irrelevant zijn. In plaats daarvan zouden de samenstellende morfemen de cruciale dragers van het frequentie-effect moeten zijn. Een voorbeeld moge dit verduidelijken. Tabel 1 biedt een overzicht van de morfologische familie van de rat. Voor elk van haar 21 familieleden vermeldt de tabel de frequentie van dat familielid in een verzameling teksten met in totaal 42 miljoen woorden.8 Als deze familieleden eigenlijk helemaal niet in het mentale lexicon bestaan, omdat ze aldoor opnieuw ontleed of in elkaar gezet worden, dan moeten we aannemen dat hun frequenties geërfd worden door de morfemen waaruit ze zijn opgebouwd. Elke keer dat we het morfeem rat tegenkomen, op zichzelf of in een ander woord, wordt de frequentieteller voor rat opgehoogd. Voor de rat betekent dit dat haar frequentie van 994 met de gezamenlijke frequentie van al haar familieleden, 163, moet worden opgehoogd tot 1157. Volgens strikt decompositionele modellen zou deze gesomde frequentie de enig juiste frequentiemaat zijn om de lexicale verwerkingstijd van rat mee te voorspellen. Voor samenstellingen zoals hotelrat zou de verwerking
Tabel 1: De morfologische familie van de rat. Frequenties gebaseerd op een tekstverzameling van 42 miljoen woorden. N: zelfstandig naamwoord, V: werkwoord. beverrat buidelrat hotelrat kerkrat muskusrat rat (N) ratten (V)
2 6 2 5 33 994 4
rattegezicht rattehol rattekop rattengif rattenkoning rattenkruit rattenplaag
9
2 5 2 5 19 5 4
rattenprobleem rattenvanger rattenverdelger ratteval waterrat woelrat woestijnrat
3 29 2 6 13 10 6
dan bepaald worden door de frequenties van de samenstellende morfemen, de gesomde frequentie van hotel en de gesomde frequentie van rat. Verschillende experimenten hebben aangetoond dat deze voorspelling niet uitkomt. Bij het lezen van het woord rat, zo hebben we in ons lab kunnen vaststellen,9 is de gesomde frequentie van de familieleden helemaal niet van belang. In plaats van de gesomde frequentie van de 21 familieleden van rat — 1157 — blijkt het aantal familieleden zelf — 21 — de cruciale voorspeller te zijn. Hoe groter de morfologische familie, hoe korter de leestijden zijn. Hoe is dat mogelijk als de familieleden zelf niet opgeslagen zijn? Verder heeft Nivja de Jong in haar proefschrift laten zien dat bij samenstellingen zoals hotelrat en kerkrat, naast en onafhankelijk van de familie-effecten van rat, hotel en kerk, ook de frequenties van deze samenstellingen zelf goede voorspellers zijn van leestijden.10 Het lijkt er overigens op dat u een geleed woord maar éénmaal hoeft te horen of te lezen om het al te onthouden, zo blijkt uit het promotieonderzoek van Laura de Vaan. In deze rede heb ik tot nog toe éénmaal eerder het woord zeerat gebruikt. Ook als u dit woord nog nooit eerder was tegengekomen, herkent u het na één aanbieding toch onmiddelijk. Voorstanders van decompositionele theorieën zouden nu kunnen tegenwerpen dat de betekenissen van samenstellingen zoals hotelrat, kerkrat en zeerat toch moeilijk te voorspellen zijn uit hun samenstellende delen. Volgens Van Dale is een kerkrat een rat die zich in de kerk ophoudt, is een hotelrat een nachtelijke hoteldief, en is een zeerat geen knaagdier en geen mens maar een vis. Er lijkt geen pijl te trekken op de betekenissen van de samenstellingen met rat. We moeten deze betekenissen domweg onthouden, ze moeten wel in het lexicon zijn opgeslagen. Het is deze onontkoombare opslag die, aldus strikt decompositionele theorieën, verklaart waarom er een woordfrequentie-effect voor dit soort complexe woorden gevonden wordt en waarom veel complexe woorden bijdragen aan het familiegrootte-effect. Deze redenering loopt spaak op de frequentie-effecten die we keer op keer hebben geobserveerd voor woorden die zowel qua betekenis als qua vorm volstrekt regelmatig zijn, zoals meervouden van zelfstandige naamwoorden en vervoegingen van regelmatige werkwoorden. Zo wordt bijvoorbeeld het meervoud ratten bijna twee keer zo vaak gebruikt als het enkelvoud rat. Dankzij deze hoge frequentie wordt het (langere) meervoud bijna net zo snel gelezen en verstaan als het (kortere) enkelvoud. Meervouden die veel minder frequent zijn dan hun enkelvoud vergen doorgaans veel langere leestijden.11 Ook voor volstrekt regelmatige gelede woorden geldt klaarblijkelijk dat we uit ervaring wijs worden.
10
Uit het promotieonderzoek van Heidrun Bien naar de productie van samenstellingen12 blijkt eveneens dat strikt decompositionele modellen tekort schieten. Zij gebruikte in haar experimenten samenstellingen waarvan de betekenis wel voorspelbaar is. Bovendien gebruikte ze een productietaak waarin de rol van het conceptualisatieproces, zo niet geheel dan toch grotendeels, werd uitgeschakeld. Toch bleek dat de frequentie van een samenstelling als geheel mede de snelheid voorspelt waarmee deze uitgesproken wordt. De aanwezigheid van woordspecifieke geheugensporen in het mentale lexicon wordt verder ondersteund door studies die de details van het spraaksignaal nader onder de loep nemen. Mark Pluymaekers laat in zijn promotieonderzoek zien dat de duur van voor- en achtervoegsels in het acoustisch signaal afneemt bij toenemende woordfrequentie.13 Hij vroeg proefpersonen afgeleide woorden zoals ontvlammen en verplaatsen hardop voor te lezen. Ze kregen deze woorden op een beeldscherm aangeboden in een langzaam tempo met 1500 milliseconden per woord, een sneller tempo met 1100 milliseconden per woord, en een heel snel tempo met slechts 700 milliseconden per woord. Zoals verwacht, spraken de proefpersonen de woorden korter uit naarmate het tempo van het experiment werd opgevoerd. Onafhankelijk van het tempo bleken ze ook de voor- en achtervoegsels korter uit te spreken naarmate de frequentie van het gelede woord hoger was. Het gaat hier echt om de frequentie van het gelede woord zelf. De frequentie van de stam had geen enkele voorspellende waarde. Vergelijkbare resultaten verkreeg Mark Pluymaekers niet alleen onder laboratoriumcondities, maar ook voor spontane spraak zoals beschikbaar in het Corpus Gesproken Nederlands.14 Strikt decompositionele modellen doen dus precies de verkeerde voorspellingen voor hoe wij gelede woorden uitspreken. Ze voorspellen dat de frequenties van de delen de uitspraak bepalen, maar die zijn irrelevant. En ze voorspellen dat de frequentie van het geheel irrelevant is, maar die heeft nu juist bij uitstek voorspellende kracht. Het belang van het verband tussen stam en affix binnen het woord blijkt ook uit ons onderzoek naar frequentie en assimilatie. Mirjam Ernestus15 onderzocht het spraaksignaal van gelede woorden zoals wetboek. Volgens de handboeken16 wordt de stemloze T van wet onder invloed van de stemhebbende B van boek ook stemhebbend: WEDBOEK. Uit een grondige analyse van het Corpus Gesproken Nederlands bleek echter dat deze regressieve assimilatie maar in de helft van de gevallen optreedt, en dat in een kwart van de gevallen zelfs progressieve assimilatie optreedt (WETPOEK). Verder bleek dat de kans op assimilatie, regressief èn progressief, toeneemt naarmate het gelede woord frequenter is. Dit woord-
11
specifieke karakter van assimilatie is volstrekt in strijd met de voorspellingen van strikt decompositionele modellen van het mentale lexicon, en vormt het zoveelste bewijs voor het bestaan van geheugensporen voor gelede woorden. Deze laatste voorbeelden illustreren een verschijnsel dat bekend staat als één van de wetten van Zipf: woorden worden korter bij intens gebruik.17 . Op macronivo wordt televisie verkort tot teevee, en vervangt auto de langere vorm automobiel. Op micronivo wordt verplaatsen verkort tot FPLASE, en neemt FOEBAH de plaats in van voetbal. Naarmate woorden frequenter zijn, worden we gemakzuchtiger bij de uitspraak. Hierdoor vervagen de verschillen tussen de klanken op de grenzen tussen morfemen, en worden ook morfemen zelf vereenvoudigd dankzij het wegvallen van klanken.
Geheugen en (on)regelmaat Zowel woordfrequentie-effecten bij lezen, luisteren en spreken als ook de details van het acoustisch signaal wijzen erop dat regelmatige gelede woorden hun eigen sporen achterlaten in ons geheugen. Maar als dat zo is, hoe zit het dan met het verschil tussen bijvoorbeeld regelmatige en onregelmatige werkwoorden? Regelmatige werkwoorden onderscheiden zich toch van onregelmatige werkwoorden, hierin dat een regelmatige verleden tijd wel, maar een onregelmatige verleden tijd niet van de tegenwoordige tijd wordt afgeleid? Het overzicht in Tabel 2 brengt de verschillen in kaart tussen een strikt decompositioneel model (links) en een model met geheugensporen voor complexe
Tabel 2: Schematisch overzicht van de werkwoordsvormen in een decompositioneel lexicon en in een lexicon met geheugensporen voor regelmatige gelede woorden.
regelmatig onregelmatig
DECOMPOSITIONEEL
MODEL
MODEL
MET GEHEUGENSPOREN
tegenwoordige tijd hoop loop
verleden tijd liep
12
tegenwoordige tijd hoop loop
verleden tijd hoopte liep
woorden (rechts), aan de hand van de werkwoorden hopen (regelmatig) en lopen (onregelmatig). Een strikt decompositioneel lexicon bevat de stammen hoop en loop. Voor het onregelmatige werkwoord lopen bevat het daarnaast ook de stam voor de onregelmatige verleden tijd, liep. Voor regelmatige verledentijdsvormen bevat het strikt decompositionele lexicon geen vorm. De regelmatige verleden tijdsvormen moeten worden afgeleid van het werkwoord in de tegenwoordige tijd. In modellen met geheugensporen voor regelmatige woorden is dit niet nodig, en wellicht zelfs niet wenselijk. Hoe zouden we experimenteel kunnen toetsen dat de regelmatige verleden tijdsvorm wel of juist niet afgeleid wordt van de tegenwoordige tijdsvorm? Een taak die veel gebruikt is om dit verschil zichtbaar te krijgen is een voorleestaak waarin proefpersonen de tegenwoordige tijd op het beeldscherm krijgen aangeboden, en daarna zo snel mogelijk de corresponderende verleden tijdsvorm moeten uitspreken. Men ziet loop of hoop en moet liep of hoopte zeggen. De taak bootst de gang van zaken na in het generatieve lexicon: begin bij de tegenwoordige tijd, en leid dan de verleden tijd af. Deze taak ziet er heel natuurlijk uit, woordenboeken spellen toch ook de regelmatige verleden tijdsvormen niet in detail uit? En toch is deze taak ongelofelijk lastig. Proefpersonen verhaspelen regelmatige en onregelmatige werkwoorden, en melden geregeld na afloop van het experiment dat ze geschokt zijn over hoeveel fouten ze maakten. Waarom is deze taak zo lastig? In het strikt decompositionele model moet de oorzaak gezocht worden bij specifiek de onregelmatige werkwoorden. Bij die werkwoorden zijn de verleden tijdsvormen in het lexicon aanwezig, en moeten daarin worden opgezocht. Bij dat opzoeken kan van alles mis gaan. Bijvoorbeeld, bij rijmende werkwoorden zoals loop en koop kan er verwarring ontstaan omdat de corresponderende verleden tijdsvormen heel verschillend zijn: liep voor loop, maar kocht voor koop. Maar er is veel meer aan de hand, zo laat Wieke Tabak in haar promotieonderzoek zien. Het blijkt dat de vorm die men ziet, de vorm die men moet uitspreken in de weg zit. En dit niet alleen bij onregelmatige werkwoorden, maar net zo goed bij regelmatige werkwoorden. Het kost meer tijd om de verleden tijdsvorm uit te spreken naarmate de op het beeldscherm getoonde tegenwoordige tijdsvorm frequenter en de verleden tijdsvorm minder frequent is. Draaien we de taak om, zodat proefpersonen een verleden tijdsvorm zien, en de tegenwoordige tijdsvorm moeten uitspreken, dan zien we hetzelfde gebeuren. Nu geldt dat hoe frequenter de verleden tijd die men ziet is ten opzichte van de tegenwoordige
13
Figuur 1: Een regelmatig werkwoord (huilen, links) en een onregelmatig werkwoord (zingen) zoals uitgebeeld voor het plaatjesbenoemingsexperiment van Wieke Tabak. tijd die men moet zeggen, des te langer de benoemingstijden zijn. Opmerkelijk is dat er geen enkele aanwijzing in deze experimenten is dat het effect van de frequentieverhouding van de getoonde en de uitgesproken vorm anders zou zijn voor regelmatige en onregelmatige werkwoorden.18 Deze resultaten bevestigen dat regelmatige werkwoordsvormen hun eigen geheugensporen hebben, en in dit opzicht niet verschillen van onregelmatige werkwoorden. Voor onderzoek naar de productie van gelede woorden hebben dit soort voorleestaken twee vervelende nadelen. Ten eerste meten voorleestaken niet alleen productieprocessen maar ook processen van de visuele waarneming. Ten tweede zegt de voorleestaak het woord als het ware voor, en geeft daarom geen inzicht in de normale gang van gedachte tot uitspraak. In een reeks vervolgexperimenten vroegen we daarom proefpersonen op foto’s uitgebeelde handelingen te benoemen (zie Figuur 1). Anders dan gebruikelijk maakten wij onze proefpersonen niet van te voren met de foto’s vertrouwd en gaven we ze geen intructies over hoe ze de foto’s moesten benoemen. Anders zou de taak toch weer erg gaan lijken op de voorleestaak, waarin het uit te spreken woord ook aan de proefpersoon wordt verklapt.
14
In een eerste experiment vroegen we proefpersonen de handeling te benoemen met de infinitief, als antwoord op de vraag wat doet ze? zingen. Vervolgens kregen proefpersonen in één experiment eerst het woord vandaag en in een ander experiment eerst het woord gisteren te zien, waarna de foto werd getoond. We vroegen de proefpersonen zo snel mogelijk te antwoorden met zingt ze dan wel zong ze. In overeenstemming met onze verwachting was er in deze conceptueel gestuurde experimenten geen enkel spoor te bekennen van tegenwoordige en verleden tijdsvormen die elkaar in de weg zitten. De belangrijkste maat voor het voorspellen van de plaatjesbenoemingstijden in deze experimenten was de onzekerheid over het uitgebeelde werkwoord (gekwantificeerd met behulp van Shannon’s entropie, berekend over de relatieve frequenties van de in het experiment gekozen alternatieven). Een tweede buitengewoon robuuste predictor was of de laatste medeklinker van de stam zowel stemloos als stemhebbend voorkomt, of alleen stemloos (vergelijk Tabel 3). Proefpersonen deden er langer over om werkwoorden zoals graven en zweven te benoemen dan werkwoorden zoals zitten en ruisen. Om het werkwoord goed uit te spreken moeten we uit ons geheugen ophalen hoe de laatste medeklinker van de stam moet worden uitgesproken. Als hier meerdere mogelijkheden zijn, moet een keuze gemaakt worden — is het ZWEVEN of ZWE FEN — en het maken van deze keuze kost tijd. Het is interessant dat dit aspect van de planning van de vorm van werkwoorden in onze experimenten zeer significant aanwezig is, terwijl het verschil tussen sterke en zwakke werkwoorden nu juist volstrekt geen enkele voorspellende waarde heeft. In strikt decompositionele modellen zijn deze resultaten moeilijk te verklaren. Waarom zou de planning van een subtiel detail als de stemhebbendheid van de laatste medeklinker van de stam Tabel 3: Voorbeelden van regelmatige en onregelmatige werkwoorden waarvan de laatste medeklinker van de stam altijd stemloos is (links) dan wel zowel stemloos als stemhebbend kan zijn (rechts). ALLEEN STEMLOOS
STEMLOOS EN STEMHEBBEND
onregelmatig zit zitten zat zaten
onregelmatig graaf graven groef groeven
regelmatig ruis ruisen ruiste ruisten
15
regelmatig zweef zweven zweefde zweefden
wel van belang zijn, maar niet het veronderstelde fundamentele cognitieve verschil in planning voor onregelmatige werkwoorden (het ophalen van de stam uit het geheugen) en regelmatige werkwoorden (het toepassen van een morfologische regel)? Deze resultaten hebben verstrekkende gevolgen voor de linguïstische theorievorming. Vanaf de vijftiger jaren zijn taalkundige modellen ervan uitgegaan dat ingewikkelde vormen worden afgeleid van eenvoudiger vormen.19 Maar als complexe woorden hun eigen geheugensporen hebben, dan is het niet alleen niet nodig om woorden on-line van elkaar af te leiden, het is zelfs disfunctioneel om dat te doen. Stel dat we zweefde willen afleiden van zweef, terwijl we zweefde ook al in ons lexicon hebben. Dan zijn we in precies dezelfde positie als proefpersonen die de tegenwoordige tijd op het scherm zien, en de verleden tijd moeten uitspreken. De ene vorm zit de andere domweg in de weg. En dit niet alleen — het zou wel eens zo kunnen zijn dat hoe frequenter de tegenwoordige tijd is, hoe moeilijker het wordt die tegenwoordige tijd om te vormen tot een verleden tijd. Men heeft altijd stilzwijgend als vanzelfsprekend aangenomen dat men kosteloos de ene vorm kan activeren als startpunt voor verdere afleidingsprocessen. Onze experimenten stellen deze aanname fundamenteel ter discussie. Wat we nodig hebben is een theorie zonder afleidingen, een theorie waar zweefde direct vanuit de betekenis toegankelijk is, en niet pas via de omleiding van de tegenwoordige tijd zweef.20 Maar is deze conclusie niet in strijd met de indrukwekkende lijst van verschijnselen die volgens Steven Pinker zouden bewijzen dat woordvorming wezenlijk derivationeel van aard zou zijn, en gegrondvest op morfemen en regels? Steven Pinker onderbouwt zijn derivationele theorie met argumenten die hij ontleent aan zowel de taalkunde, als aan de neurocognitie en de taalpathologie. De taalkundige argumenten vormen samen een briljant kaartenhuis, gebaseerd op een wel zeer selectieve lezing van de literatuur. Ik geef een voorbeeld. Volgens Pinker hebben morfologische regels geen toegang tot de betekenissen van woorden. Deze stellingname onderbouwt hij als volgt.21 In het Engels zijn er woorden die qua betekenis dicht bij elkaar liggen, zoals slap, hit, and strike. Maar bij dit soort woorden met vergelijkbare betekenis vinden we zowel regelmatige als onregelmatige werkwoorden. Omgekeerd is er bij onregelmatige werkwoorden die wel steeds dezelfde klinkerwisseling vertonen geen sprake van duidelijke betekenisovereenkomsten, zoals blijkt uit bijvoorbeeld sing/sang, drink/drank, shrink/shrank, spring/sprang, stink/stank and ring/rang. Uit deze informele observatie leiden Pinker en zijn collega’s af dat morfologische regelmaat beperkt zou zijn tot eigenschappen van de woordvorm.
16
Dat er met deze conclusie iets fundamenteel mis is, blijkt al hieruit dat Pinker en de zijnen voorbij gaan aan de in descriptieve grammatica’s van het Engels22 bekende observatie dat veel namen van dieren waarop voor voedsel wordt gejaagd, in het Engels geen meervoudsuitgang krijgen: grouse, snipe, sheep, moose, deer, plaice, salmon, cod en hake hebben als meervoud grouse, snipe, sheep, moose, deer, plaice, salmon, cod en hake. Verder blijkt bij nadere bestudering dat regelmatige en onregelmatige werkwoorden wel degelijk, zij het op een subtieler manier, van elkaar verschillen in betekenis. Sommige van deze verschillen zijn zo subtiel, dat ze alleen met behulp van lexicale statistiek aan het licht gebracht kunnen worden, zoals ik samen met Fermín Moscoso del Prado Martín heb laten zien.23 Onregelmatige werkwoorden hebben meer synoniemen dan regelmatige werkwoorden. En de synoniemen van onregelmatige werkwoorden zijn vaak zelf weer onregelmatig. Met andere woorden, onregelmatige werkwoorden bewonen dichter bevolkte buurten in de semantische ruimte, en zoeken in die buurten elkaar op. Het is dus geen blind toeval dat de beide leden van woordparen als geven/nemen en gaan/komen allebei onregelmatig zijn.24 Het eerder besproken experiment van Wieke Tabak waarin we proefpersonen vroegen foto’s te benoemen leerde ons nog iets nieuws over de semantische verschillen tussen regelmatige en onregelmatige werkwoorden. Hoewel de makers van de foto’s uiteindelijk ongeveer evenveel regelmatige als onregelmatige foto’s aanleverden, rapporteerden zij dat regelmatige werkwoorden veel lastiger uit te beelden waren dan onregelmatige werkwoorden. Dat er een verschil in uitbeeldbaarheid bestaat tussen regelmatige en onregelmatige werkwoorden werd op tweeërlei wijze bevestigd. In de eerste plaats bleek uit de groottes van de JPG bestanden dat de foto’s van de regelmatige werkwoorden meer bytes in beslag namen dan de foto’s van de onregelmatige werkwoorden. Onregelmatige werkwoorden zijn blijkbaar makkelijker uit te beelden met simpele houdingen, en vereisen minder extra voorwerpen om de handeling te verduidelijken. In de tweede plaats benoemden de proefpersonen de foto’s voor regelmatige werkwoorden met meer verschillende werkwoorden dan het geval was voor de onregelmatige werkwoorden. Proefpersonen waren blijkbaar minder zeker over welke handeling bedoeld was bij foto’s van regelmatige werkwoorden. In het algemeen geldt dat onregelmatige werkwoorden met name fundamentele begrippen uitdrukken, terwijl regelmatige werkwoorden in hetzelfde betekenisveld doorgaans duiden op meer gespecialiseerde handelingen. Zo is lopen
17
Tabel 4: Basiswerkwoorden voor posities en bewegingen in het Nederlands en het Engels. Onregelmatige werkwoorden zijn met hoofdletters weergegeven, regelmatige werkwoorden met kleine letters. werkwoorden van positie
LIG
ZIT
STA
leun
HANG
DRIJF
LIE
SIT
STAND
LEAN
HANG
float
zweef hover
werkwoorden van beweging
LOOP
KRUIP
SPRING
ren
ZWEM
ZINK
DUIK
walk
crawl
SPRING
RUN
SWIM
SINK
DIVE
RIJD
VLIEG
KLIM
RIDE
FLY
climb
STIJG daal VAL ascend descend FALL
onregelmatig, maar zijn kuieren, wandelen, slenteren, rennen en hollen regelmatig. Als we vervolgens de fundamentele werkwoorden voor posities en bewegingen bij elkaar plaatsen zoals in Tabel 4, dan is de oververtegenwoordiging van de onregelmatige werkwoorden opvallend. Bij de meeste van deze werkwoorden is het menselijk lichaam het prototypisch subject. In het licht van deze twee observaties is het niet langer verwonderlijk dat onregelmatige werkwoorden makkelijker uitbeeldbaar zijn dan regelmatige werkwoorden. Ik heb u laten zien dat vorm en betekenis in de morfologie niet zo strikt gescheiden zijn als wel is gedacht. Deze conclusie blijft niet zonder gevolgen voor de interpretatie van de resultaten uit de neurocognitie en de taalpathologie die Pinker voor zijn strikt decompositionele model aanvoert. Vraagt men proefpersonen de verleden tijd uit te spreken die hoort bij een op het beeldscherm aangeboden tegenwoordige tijd, dan blijken verschillende gebieden in de hersenen actief te zijn voor regelmatige en onregelmatige werkwoorden.25 De regelmatige werkwoorden worden, aldus Pinker, verwerkt in delen van de hersenen die zich wijden aan regels, en de onregelmatige werkwoorden in delen van de hersenen die verantwoordelijk zijn voor opslag. Deze interpretatie is echter geenszins dwingend. Regelmatige en onregelmatige werkwoorden verschillen, zoals we hebben gezien, niet alleen wat hun vor-
18
melijke regelmaat betreft, maar ook wat hun betekenis betreft. Daardoor is het onduidelijk of verschillen in verwerking toegewezen moeten worden aan verschillen in vorm of aan verschillen in betekenis. Dat verschillen in betekenis inderdaad in het spel zouden kunnen zijn wordt gesuggereerd door onderzoek naar mensen die getroffen zijn door een hersenbloeding. Patiënten die met name problemen hebben met de betekenissen van woorden, blijken ook extra moeite te hebben met uitgerekend de onregelmatige werkwoorden.26 Verder zijn regelmatige werkwoorden qua klankopbouw ingewikkelder dan onregelmatige werkwoorden. De verleden tijd van loop is liep, een eenvoudige opeenvolging van een medeklinker, een klinker en een medeklinker. Maar de verleden tijd van hoop is hoopte, een vorm waarin de P en de T direct na elkaar moeten worden uitgesproken. Verschillen in hersenactiviteit tussen regelmatige en onregelmatige werkwoorden zijn vermoedelijk mede tot dit soort verschillen in het gemak van uitspreekbaarheid te herleiden.27
Geheugensporen en paradigmatische verbanden We hebben gezien dat het bewijsmateriaal voor het model van Steven Pinker aan alle kanten rammelt. Echter, als we ons model van het mentale lexicon niet voorzien van morfemen en regels, en regelmatige verleden tijden niet meer willen afleiden van tegenwoordige tijden, hoe moeten we dan de regelmaat in de woordbouw beschrijven en verantwoorden? Wat voor model komt er voor in de plaats? Ik zal vandaag niet veel meer kunnen bieden dan een eerste aanzet tot een antwoord op deze vraag. Deze eerste aanzet begint met te constateren dat we tot nog toe gesproken hebben over woorden als waren het volstrekt onafhankelijke eenheden. We zijn zulke onafhankelijke eenheden gewend uit onze papieren woordenboeken, waar elk woord haar eigen stukje tekst heeft. Maar hoe onafhankelijk van elkaar zijn woorden eigenlijk? De subtiele verschillen in betekenis tussen regelmatige en onregelmatige werkwoorden wijzen erop dat de relaties die woorden onder elkaar aangaan een principiële plaats verdienen in de theorievorming. In zijn “Course de linguistique générale” uit 1916 maakte Ferdinand de Saussure het beroemde onderscheid tussen syntagmatische en paradigmatische verbanden. Bij de syntagmatiek gaat het om de verbanden die elementen van de taal binnen reeksen aangaan. Bij paradigmatische verbanden gaat het om dwarsverbanden
19
het
de
ratje katje padje rat kat pad
rent rende
loopt liep
Figuur 2: Een voorbeeld van syntagmatische (horizontale) verbanden en paradigmatische (vertikale) verbanden gebaseerd op grammatikaal geslacht, rijm, achtervoegsel, woordsoort en tijd. tussen de elementen die op een bepaalde positie in een reeks kunnen voorkomen. Figuur 2 illustreert deze begrippen. De verbanden tussen de woorden in de zinnen die ontstaan door in elke kolom één woord te kiezen zijn syntagmatisch van aard. Een voorbeeld van een syntagmatische regel is dat in het Nederlands verkleinwoorden het lidwoord het vereisen. Paradigmatische verbanden zijn vertikaal weergegeven. De in Figuur 2 weergegeven verbanden geven overeenkomsten weer in grammatikaal geslacht, achtervoegsel, werkwoord en rijm. De woorden rat, kat en pad, bijvoorbeeld, staan in een paradigmatisch verband dankzij hun rijm en dankzij hun woordsoort. Verreweg de meeste aandacht in de taalkunde en taalpsychologie is tot nog toe gericht geweest op syntagmatische verbanden. Standaard morfologische regels proberen paradigmatische verbanden samen te vatten en te abstraheren tot syntagmatische relaties. Tabel 5 illustreert dit proces van abstractie voor de meervoudsvorming in het Nederlands. De syntagmatische regel krijgt toegang tot de klemtoon van de lettergreep links van het achtervoegsel, en kiest -en indien deze beklemtoond is, en -s indien deze onbeklemtoond is. Van wezenlijk belang voor deze aanpak is dat eigenschappen van stammen die niet in de regel zijn opgenomen per definitie niet relevant zijn. Voor de meervoudsvorming in het Nederlands lijkt deze regel het op het eerste gezicht heel aardig te doen, maar problemen worden meteen al zichtbaar bij woorden als lade en kade, die zowel een meervoud op -en als op -s kennen. Welk meervoud een spreker kiest, is bij dit soort paren mede gebaseerd op de relatieve frequentie in de ervaring van die spreker met de twee meervoudsvormen.28 Maar in strikt decom-
20
Tabel 5: Een syntagmatische regel voor de meervoudsvorming in het Nederlands maakt de keuze tussen -en en -s op grond van een abstracte eigenschap van de stam, namelijk, of haar laatste lettergreep klemtoon draagt. MEERVOUDEN
KLEMTOONPATROON STAMACHTERVOEGSEL
RAT -en
− − − −∪ −∪ −∪
KAT -en KRAT -en TA fel-s BE zem-s MOE der-s MEERVOUDSREGEL
-en -en -en -s -s -s
− → -en ∪ → -s
positionele modellen hebben sprekers dit soort informatie nu juist net niet tot hun beschikking. En als zij die informatie wel tot hun beschikking zouden hebben, dan nog is het volstrekt onduidelijk hoe die informatie tot een syntagmatisch kenmerk zou moeten worden gereduceerd. Laten we daarom onze benadering van wat regels zijn eens helemaal omkeren. In plaats van regels te benaderen vanuit de syntagmatiek, benaderen we ze nu vanuit de paradigmatiek, en vatten ze op als on-line generalisaties over in het geheugen beschikbare voorbeelden. Als deze omgekeerde benadering van regels, die geïnspireerd is door het werk van de belgische geleerde Walter Daelemans, juist is, dan moet de lexicale verwerking mede gestuurd worden door de paradigmatische relaties die woorden onder elkaar onderhouden. Een aanzienlijk deel van ons onderzoek gedurende de afgelopen jaren is gericht geweest op het experimenteel zichtbaar maken van het belang van deze paradigmatiek. Wij hebben ons daarbij met name gericht op drie verschijnselen in de nederlandse morfologie: familiegroottes, de tussenklanken in samenstellingen, en de verstemlozingsregel. In het Nederlands is werk de stam met het grootste aantal morfologische familieleden, zo’n 550 in totaal. De stam rat, met slechts 21 familieleden, is duidelijk minder productief, maar nog altijd vele malen productiever dan de stam zeis, die helemaal niet in afgeleide woorden of samenstellingen voorkomt. Ik heb er eerder
21
Tabel 6: De samenstellingen in de morfologische familie van de rat, geordend naar de positie van rat links dan wel rechts, in de samenstelling. SOM: gesomde frequentie in de positionele subfamilie, ENTROPIE: Shannon’s entropie berekend over de relatieve frequenties in de subfamilie. LINKS
rattegezicht rattehol rattekop rattengif rattenkoning rattenkruit rattenplaag rattenprobleem rattenvanger rattenverdelger ratteval SOM ENTROPIE
RECHTS
2 5 2 5 19 5 4 3 29 2 6 82 2.81
beverrat buidelrat hotelrat kerkrat muskusrat waterrat woelrat woestijnrat
2 6 2 5 33 13 10 6
77 2.44
in deze lezing al op gewezen dat, met name bij het lezen, een grotere morfologische familie tot snellere verwerking leidt. De rat leest sneller dan de zeis dankzij de aanwezigheid van paradigmatische relaties met onder meer rattenvanger, rattenplaag en dakrat. Met andere woorden, wat u verstaat als u leest wordt mede bepaald door wat u niet leest. Voor gelede woorden als rattenvanger en kerkrat is een verdere verfijning van stamgebaseerde paradigmatiek noodzakelijk. Tabel 6 ordent de samenstellingen met rat naar de positie van rat in de samenstelling: links of rechts. De laatste twee regels van deze tabel geven twee positionele paradigmatische maten: de gesomde frequentie waarmee rat links (82) dan wel rechts (77) voorkomt, alsmede Shannon’s entropie berekend over de verdelingen van de relatieve frequenties van de woorden in de linker en rechter positionele subfamilies. Heidrun Bien laat in haar promotieonderzoek zien dat beide maten significante predictoren zijn voor de tijd die we nodig hebben om dit soort samenstellingen uit te spreken.29 Niet
22
de frequentie van rat als zodanig, maar de frequentie en entropie van rat geconditioneerd op de positie van rat in de samenstelling is cruciaal. Stamgebaseerde paradigmatiek speelt ook een belangrijke rol bij de bepaling van de tussenklank in samenstellingen. De samenstellingen met rat als eerste lid in Tabel 6 illustreren het gebruik van de tussenklank -e(n)-. De rechterkolom van Tabel 6 geeft voorbeelden van samenstellingen zonder tussenklank. Het Nederlands kent ook samenstellingen met -s- als tussenklank, zoals schaapskooi en schaapskleren. De keuze van de tussenklank varieert niet alleen per linker lid van de samenstelling, maar ook tussen samenstellingen die het linker lid gemeenschappelijk hebben, vergelijk schaapherder met schaapskooi en schapenwol. Pogingen om de systematiek die aan de keuze van de tussenklank ten grondslag ligt bloot te leggen met syntagmatische regels hebben gefaald. Echter, in een paradigmatische benadering van de morfologie is de onderliggende systematiek verrassend simpel. Deze systematiek wordt bepaald door de distributie van de tussenklanken in de positionele subfamilies van de samenstelling. Hoe vaker een tussenklank in de linker of rechter positionele familie voorkomt, des te waarschijnlijker is het dat zij in nieuwe samenstellingen ingezet zal worden. Met behulp van machineleertechnieken heeft Andrea Krott vast kunnen stellen dat de kansverdeling in de linker subfamilie belangrijker is dan de kansverdeling in de rechter subfamilie.30 Met het aldus verkregen kwantitatieve model kunnen we precieze voorspellingen doen over het gebruik van de tussenklanken. Een nieuwe samenstelling als rat – krat vraagt zonder enige twijfel om -e(n)- als tussenklank, rattenkrat, want alle andere samenstellingen met rat als eerste lid hebben ook -en- als tussenklank. Voor een samenstelling als schaap – oog, zie Figuur 3, is de meest waarschijnlijke keuze eveneens de -e(n)-. Dit is de tussenklank die het meeste voorkomt volgend op schaap. Maar hier zou eventueel ook de -s- gekozen kunnen worden, naar analogie van schaapskudde en schaapskooi. Het model van Andrea Krott doet goede voorspellingen voor de tussenklanken die proefpersonen kiezen in nieuwe samenstellingen, en de tijd die zij nodig hebben om deze keuze te maken. Ook verklaart haar model waarom de meesten van u schapenkop beter vinden klinken dan schaapskaas. Door in schaapskop, de standaardvorm, de -s- te vervangen door -en- is de samenstelling regelmatiger geworden, en voelt zij grammatikaal aan. Maar vervangen we in schapenkaas de -en- door -s-, dan maken we de samenstelling onregelmatiger, en voelt zij contraintuïtief aan.31 Victor Kuperman is zijn promotieonderzoek begonnen met te laten zien dat ons model niet alleen de keuze van de tussenklank in samenstellingen voorspelt,
23
schaap
oog
schaapshond, schaapskleren, schaapskooi, schaapskop, schaapskudde, schaapsvacht
arendsoog, haviksoog, kennersoog, geestesoog, varkensoog
∅
schaapherder
argusogen, pretogen, eksteroog, facetoog, gazelleoog, kraaloog, spleetoog, schelvisoog, slaapogen, vetoog
-en-
schapenbout, schapenvel, schapenkaas, schapengras, schapenkeutel, schapenteelt, schapenvacht, schapenwol
geitenoog, hondenoog, kattenoog, koeienoog, paardenoog
-s-
Figuur 3: Morfologische paradigmatiek ligt ten grondslag aan onze intuïtie dat -en- de beste keus is voor de tussenklank in de nieuwe samenstelling schaap-?oog, en geen tussenklank (∅) de slechtste keus. Machineleertechnieken hebben uitgewezen dat het gewicht van de kansverdeling van de tussenklank in de linker familie een stuk groter is dan de kansverdeling in de rechter familie. maar ook de acoustische duur van de tussenklank. Hoe groter de kans op de -sin de linker familie van de samenstelling, hoe langer de duur van de -s- is. Met andere woorden, hoe zekerder de spreker is over de keuze van de tussenklank, des te duidelijker wordt zij uitgesproken. De paradigmatiek van de tussenklanken werkt blijkbaar door tot in de fijnste details van de articulatie. Vergelijkbare paradigmatische processen spelen zich af bij de interpretatie van nieuwe samenstellingen. Ik heb er eerder op gewezen dat de betekenis van een samenstelling als hotelrat onverwacht is gegeven de betekenissen van hotel en rat. Het is een traditionele wijsheid in de taalkunde dat samenstellingen gelede woorden zijn waarvan de betekenis niet voorspelbaar is op grond van systematische overeenkomsten in vorm en betekenis. Echter, de canadesche geleerde Christina Gagné heeft laten zien dat er veel meer van de betekenis voorspelbaar is dan
24
Tabel 7: De betekenisrelaties tussen het eerste en tweede lid in samenstellingen met berg als eerste lid. IN : berggeest, berggeit, berghut, bergjager, bergklimaat, bergkristal, berglucht, bergsport, bergstreek, bergstroom, bergwind, bergrivier, bergziekte, bergweide, bergpas, bergmeer, bergpad, bergkloof, bergeend.32 DEEL VAN : bergwand, bergtop, berghelling. BESTAAND UIT : bergland, bergrug, bergmassief, bergketen, bergkam, bergengte. VOOR GEBRUIK IN : bergstok, bergschoen.
altijd is gedacht.33 Zij begint met vast te stellen dat de betekenisrelaties die de leden van samenstellingen met elkaar aangaan, niet gelijkwaarschijnlijk zijn. Tabel 7 biedt een voorbeeld van de heel verschillende frequenties waarmee betekenisrelaties voorkomen in de samenstellingen die beginnen met berg. Bij het meerendeel van deze samenstellingen is er sprake van een relatie die het tweede lid typeert als voorkomend in de bergen. Christina Gagné heeft laten zien dat de interpretatie van nieuwe samenstellingen gestuurd wordt door de kansverdeling van de betekenisrelaties in de linker familie van de samenstelling. Voor samenstellingen die met berg beginnen, is een locatieve betekenisrelatie de meest waarschijnlijke. Ik heb in deze rede al een aantal keren de samenstelling bergrat genoemd. Als u dit woord nog niet eerder was tegengekomen, dan denkt u waarschijnlijk aan één of andere rattesoort die in de bergen voorkomt. Deze interpretatie wordt u aangereikt door de meest waarschijnlijke betekenisrelaties die berg in andere samenstellingen aangaat. Zij is welhaast onontkoombaar. In dit voorbeeld is deze interpretatie ook nog eens op het spoor van de conventionele betekenis zoals Van Dale die geeft. Het gaat inderdaad om een knaagdier dat in de natuur in de bergen voorkomt, maar in de omgangstaal gebruiken we marmot. Mijn laatste voorbeeld van het belang van de paradigmatiek betreft de onzekerheid die u misschien wel eens is overvallen bij de verleden tijdsvormen van werkwoorden als dubben en krabben: is het nu DUBDE of DUPTE, KRABDE of KRAPTE ? Deze onzekerheid ontstaat omdat dubben en krabben uitzonderlijk zijn binnen de verzamelingen woorden die een vergelijkbaar rijm hebben. Werkwoorden als happen, trappen, prakken, klappen en lappen hebben allemaal een verleden
25
tijd die eindigt op -te: hapte, trapte, prakte, klapte, lapte. Het werkwoord krabben is uitzonderlijk omdat het, althans volgens de normen van de standaardtaal — men denke aan de regel van ’t kofschip — een verleden tijd heeft met -de in plaats van -te: krabde. Het paradigmatische netwerk waarin krabben ligt ingebed oefent druk uit op krabben om haar verleden tijd regelmatig te maken binnen het paradigma, en leidt tot de intuïtieve welgevormdheid van krapte als nevenvorm van krabde. Mirjam Ernestus heeft in een lange reeks experimentele studies laten zien hoe deze paradigmatiek de lexicale verwerking beïnvloedt bij zowel nieuwe als bestaande woorden.34
Paradigmatiek onder Occam’s mes Gegeven dat paradigmatische verbanden ons inzicht in de taalsystematiek en in de lexicale verwerking wezenlijk verdiepen, rijst de vraag hoe die paradigmatiek nu eigenlijk in zijn werk gaat. Stel dat we de verleden tijd willen vormen voor ik rap, ’een klapperend geluid maken’ (Van Dale 1961, s.v.), niet te verwarren met het uit het Engels ontleende werkwoord ’rap’ (REP). Stel dat u nog nooit deze verleden tijd hebt gebruikt. Moeten we ons dan voorstellen (zie Tabel 8) dat we beginnen met rap te vergelijken met al de in het geheugen opgeslagen woorden waar het mee rijmt, vervolgens voor elk van die woorden kijken naar de corresponderende verleden tijd, dan met behulp van proportionele analogie bij al die verleden tijdsvormen de verleden tijd van rap afleiden, en tenslotte de
Tabel 8: De vorming van rapte met behulp van proportionele analogie van reeds in het lexicon aanwezige paren van tegenwoordige en verleden tijdsvormen in een “woord en paradigma” model. In dit voorbeeld is rapte de meest waarschijnlijke vorm, met een kans van 5 uit 6. tap lap flap klap hap krap
: : : : : :
tapte lapte flapte klapte hapte krabde
= = = = = =
26
rap rap rap rap rap rap
: : : : : :
rapte rapte rapte rapte rapte rabde
best ondersteunde van die verleden tijdsvormen uitkiezen? Deze voorstelling van zaken, die aansluit bij de zogenaamde “woord en paradigma” morfologie,35 heeft voor een verwerkingsmodel twee grote nadelen. In de eerste plaats is het aantal stappen dat nodig is om al die vergelijkingen te maken veel te groot om biologisch plausibel te zijn. In de tweede plaats kampt deze voorstelling van zaken met een wel heel erg grote representationele redundantie. Het kan niet anders of hier moet Occam’s mes in. Ik heb betoogd dat gelede woorden geheugensporen in het mentale lexicon achterlaten, maar dat hoeft nog niet te betekenen dat het lexicon bestaat uit eindeloze lijsten van woorden onder elkaar die bepaalde vormkenmerken gemeenschappelijk hebben, en algoritmen die deze lange lijsten moeten langslopen. Wat we nodig hebben is data-compressie. Een goede vorm van data-compressie verwijdert niet alleen redundantie, maar zorgt er ook voor dat belangrijke paradigmatische verbanden in het model met slechts enkele stappen toegankelijk worden. Van wat voor data-compressie zou het mentale lexicon gebruik kunnen maken? Om deze vraag te beantwoorden, is het nuttig om stil te staan bij hoe ons geheugen op een hoger cognitief niveau werkt. Stelt u zich voor dat u bij de deur van uw huis staat met een tas vol boodschappen, en dat u die in uw keuken wilt opbergen. Eerst moet de deur van slot en geopend, daarna moet u met uw boodschappen door de hal, recht vooruit nog een deur door, dan rechts en via de eetkamer de keuken in. Bij het volgen van dit pad door uw huis wordt u op elk moment ondersteund door uw geheugen. U herinnert u wat u zult zien als u de voordeur geopend hebt, de hal van uw huis. Elk van de deuren in de hal roept nieuwe herinneringen op aan de kamers achter deze deuren. Sommige kamers gebruikt u dagelijks, anderen zelden. Als u diep in gedachten uw huis binnenkomt, is het onwaarschijnlijk dat u op de automatische piloot naar de zolder loopt. U komt dan vermoedelijk terecht waar u normaal altijd naar toe gaat als u uw huis binnen komt, naar ik aanneem uw huiskamer. Wat belangrijk is in dit voorbeeld is dat u op heel veel verschillende manieren door uw huis kunt lopen, dat er paden door uw huis zijn die u telkens weer gebruikt, en dat u met een specifiek doel voor ogen, heel andere paden kunt volgen. Laten we ons fonologisch geheugen eens voorstellen als een labyrint van kamers, en gangen die de kamers verbinden. De kamers staan voor de klanken van de taal, voor hun acoustische en articulatorische eigenschappen. De gangen, die maar in één richting doorlopen kunnen worden, specificeren welke klankopeen-
27
volgingen mogelijk zijn. Dit labyrint van klanken representeert het geheugen voor de klankstructuur van de taal. Laten we vervolgens ons morfologisch geheugen voorstellen als een verzameling kortere of langere sporen door het fonologisch labyrint.36 Deze sporen kunnen op twee manieren gevolgd worden. Als u een woord hoort, krijgt u met elke nieuwe klank instructies voor welke gang u in het labyrint moet kiezen. Als u een woord uit wilt spreken, volgt u de aanwijzingen van een spoor dat u in uw morfologisch geheugen hebt opgeslagen. Figuur 4 is een mini-grammatica voor de fonologie en morfologie van de woorden die volgens de inzichten van de “woord en paradigma"morfologie in Tabel 8 volledig waren uitgespeld. Sporen in deze gerichte graaf lopen van links naar rechts. Het spoor voor tapte is met groen weergegeven, dat voor flap met rood, en dat voor krabde met blauw. In Figuur 4 vindt u lange en korte varianten van de A en de P. Sinds het beroemde proefschrift van Sieb Nooteboom in 1972 weten we dat de A in het
t
p¯ 6 t a¯ f l
5
e
p˘ 5 r k d a˘ ˘ 1 b 1 h
Figuur 4: Het fonologisch geheugen als een gerichte graaf, en het morfologisch geheugen als paden door deze graaf. Het pad voor tapte is in groen weergegeven, dat voor krabde in blauw, en dat voor flap in rood. De a¯ en p¯ representeren de fonetisch langere verschijningsvormen van de a en p indien geen achtervoegsel volgt, de a˘ , p˘ en b˘ representeren de fonetisch kortere vormen indien voorafgaand aan -te of -de.
28
tweelettergrepige tapte een kortere duur heeft dan de A in het éénlettergrepige tap. Rachèl Kemps heeft in haar proefschrift laten zien dat dit soort subtiele verschillen in de duur van de stam de interpretatie van gelede woorden sturen, lang voordat de achtervoegsels voor vervoegingen en verbuigingen het oor hebben bereikt.37 We nemen deze verschillen daarom in onze graaf op, hier voor het gemak met behulp van twee discrete representaties, maar idealiter in de vorm van kansverdelingen over de acoustische en articulatorische details van deze klanken in hun fonetische context.38 Dankzij de specificatie van fonetisch detail in de graaf kunnen we recht doen aan de observaties van Mark Pluymaekers en Mirjam Ernestus dat fonetisch detail mede bepaald wordt door de frequentie van het gelede woord. Ook kunnen we zo recht doen aan de positionele frequentie-effecten van Heidrun Bien: de rat in zeerat, bergrat en kerkrat is een andere rat dan de rat in rattekop, rattehol en rattenplaag, woorden waarin rat gevolgd wordt door twee extra lettergrepen. Met de graaf van Figuur 4 bereiken we aanzienlijke data-compressie. Zo volstaan in deze graaf 14 punten, één voor elke klankvorm. In het model volgens de “woord en paradigma” theorie (Tabel 8), waarin elk woord geheel wordt uitgespeld, hebben we 54 klankrepresentaties nodig. We hebben met deze compressie overigens niet alleen de redundantie tussen morfologisch verwante woorden zoals tap en tapte verwijderd, maar ook de redundantie tussen woorden als flap en lap. Om recht te kunnen doen aan de paradigmatische verbanden tussen woorden houden we in de graaf bij hoeveel woorden van de verbindingen gebruik maken. De verbinding van de lange a¯ naar de lange p¯ wordt door alle zes stammen van Tabel 8 gebruikt.39 De verbinding van de korte a˘ naar de korte p˘ wordt door vijf van de zes verleden tijdsvormen gebruikt. De verbinding van de korte a˘ naar de (korte) b˘ daarentegen is uniek voor het spoor van krabde. Deze frequenties op de lijnen die een punt van de graaf verlaten, kunnen we gebruiken om de macht der gewoonte in te schatten, om te kwantificeren welk spoor het meest waarschijnlijk is als we op onze automatische piloot zouden afgaan. Voor de groene en blauwe sporen die vertrekken vanuit de a˘ zijn deze kansen respectievelijk 5/6 en 1/6. De graaf voorspelt dat u, als u even niet oplet, KRAPTE zult zeggen in plaats van KRABDE . En de graaf voorspelt ook dat als iemand KRAPTE tegen u zegt, het u niet eens opvalt dat u niet de standaardvorm hebt gehoord. Tenslotte voorspelt de graaf dat als u een nieuwe verledentijdsvorm moet maken voor rap, u zich laat leiden door de macht der gewoonte en kiest voor RAPTE en niet voor RAB DE . Op dezelfde manier kunnen we verklaren waarom schapekop een welgevormd alternatief is voor schaapskop.
29
Dit voorbeeld laat zien hoe een theorie met geheugensporen voor gelede woorden in het mentale lexicon zowel zuinig kan zijn als ook in staat tot probabilistische generalisaties over paradigmatische verbanden, en dit zonder eindeloze rijen analogische verbanden te hoeven evalueren. Deze theorie veroordeelt u overigens niet tot KRAPTE in plaats van KRAB DE of tot SCHAPEKOP in plaats van SCHAAPSKOP , net zo min als u veroordeeld bent om altijd van uw voordeur naar uw huiskamer te lopen. Als u uw aandacht erbij houdt, dan kunt u voorkomen dat u op het verkeerde spoor komt de zitten. U kunt de norm van de standaardtaal volgen, en kiezen voor KRABDE en SCHAAPSKOP . Naarmate u vertrouwder bent met de standaardvorm zult u beter in staat zijn de macht der fonologische gewoonte te overwinnen. Dit zien we bij een verleden tijdsvorm als kruiste. Ondanks de voorkeur van het merendeel van de paradigmatisch verwante woorden voor -de, vergelijk sluisde, ruisde, huisde, pluisde, kiezen we in het geval van kruis, zelfs als we niet opletten, in ongeveer 85% van de gevallen voor -te. Dankzij de hoge gebruiksfrequentie van kruis zijn we goed vertrouwd met het spoor van dit woord door het fonologisch geheugen, en kunnen we fonologische attractors richting -de beter negeren en ons geheugenspoor vervolgen richting -te. De predicties van het fonologisch geheugen kunnen overstemd worden door de specificaties over het te volgen spoor in het morfologisch geheugen. Ook verkorte vormen zoals TUURLIJK , NTUUK en TUUK voor natuurlijk krijgen in deze theorie een natuurlijke plaats, en wel als olifantenpaadjes door het lexicale labyrint. Welk van de vele alternatieve sporen u kiest voor natuurlijk is niet alleen afhankelijk van stijl en formaliteit, maar ook, zoals Karen Keune in haar promotie-onderzoek laat zien, afhankelijk van onder meer uw sociale netwerk. Zo is de kans op het gebruik van olifantenpaadjes voor woorden met het achtervoegsel -lijk groter in Nederland dan in Vlaanderen, en groter voor mannen dan voor vrouwen.40 Elke spreker heeft zo haar eigen gespecialiseerde mentale lexicon, met geheugensporen die gezamenlijk een talige vingerafdruk vormen. Kortom, het mentale lexicon is een dynamisch systeem dat voortdurend in verandering is, en waarin verschillende krachten op allerlei niveaus op elkaar inwerken. Het onderzoek naar taal en het menselijk taalvermogen heeft in het verleden enorme impulsen gehad vanuit wiskundige disciplines zoals de theorie van formele talen en de formele logica. Ik ben ervan overtuigd dat het voor het hedendaagse taalkundig onderzoek essentieel is om ook inzichten uit de kansrekening, de statistiek en de machineleertechnieken in het hart van de theorievorming een plaats
30
te geven. Alleen zo zullen we in staat zijn om ten volle recht te doen aan de subtiele probabilistische systematiek die zo kenmerkend blijkt te zijn voor de dynamiek van woorden onder elkaar. ∗∗∗ Aan het einde van deze rede gekomen, wil ik mijn dank uitspreken aan de Stichting Akademieleerstoelen Geesteswetenschappen van de Koninklijke Nederlandse Akademie van Wetenschappen, die mij heeft willen voordragen voor de eervolle benoeming op deze bijzondere leerstoel met als leeropdracht de kwantitatieve taalkunde. Deze dank geldt eveneens de Faculteit der Letteren en het College van Bestuur van de Radboud Universiteit Nijmegen. Ik zal mijn best doen het in mij gestelde vertrouwen niet te beschamen. Ik maak van deze gelegenheid gebruik om ook NWO te bedanken voor het PIONIER subsidie die ik mocht ontvangen voor mijn onderzoek naar de balans van regels en opslag in het mentale lexicon. Zonder deze ondersteuning had ik hier vandaag niet gestaan. Ook het Max Planck Instituut voor Psycholinguïstiek ben ik veel dank verschuldigd, zowel voor de prachtige tijd die ik er als staflid mocht doorbrengen, als ook voor alle ondersteuning in de daarop volgende jaren. Dames en heren, ik heb ook heel veel te danken aan mijn naaste collega’s. Ik noem er slechts enkelen bij name. Hooggeleerde Schreuder, ik geniet nog altijd van onze nu al meer dan vijftien jaar bestaande samenwerking, een samenwerking die niet alleen heel vruchtbaar is gebleken, maar ook altijd buitengewoon plezierig is geweest. Het is mede dankzij uw hulp en inzet dat ik me in de psycholinguïstiek heb kunnen bekwamen. Zeergeleerde Ernestus, onze samenwerking is nog maar een zestal jaren oud. In deze korte tijd hebt u zich niet alleen onmisbaar gemaakt als buitengewoon getalenteerd onderzoekster, maar ook als de organisatorische motor van onze onderzoeksgroep. Ik hoop van harte dat wij ook in de komende jaren ons spannende, vruchtbare, en tegendraadse onderzoek op het grensvlak van fonologie en morfologie zullen kunnen voortzetten. Hooggeleerde Boves, zeergeleerde Ten Bosch en Cranen, onze samenwerking is nog maar enkele maanden oud. Ik heb hooggespannen verwachtingen en hoop veel van u te leren, met name over hoe simpele — wellicht domweg simplistische — taalkundige zoekontwerpen met bijvoorbeeld dynamic Bayesian networks handen en voeten kunnen krijgen.
31
Vanzelfsprekend ben ik ook een woord van dank verschuldigd aan mijn promovendi voor de ontzettend plezierige samenwerking, voor hun creativiteit en voor hun wetenschappelijke toewijding. Hun namen heb ik in deze rede al genoemd, ik herhaal ze daarom hier niet. Hard aan het lerende Benschop, Beukers, van der Knaap, Kertscher, Kruimel, Lahey, Mulder en Verhees, ik wil van deze gelegenheid gebruik maken om mijn grote erkentelijkheid voor jullie harde werk en inzet in ons “équipe” van studentassistenten in het openbaar uit te spreken. Ik besluit met een dankwoord aan mijn ouders, en aan Tineke, Jorn, Corine en Thera voor hun steun voor en geduld met mijn fascinatie voor wetenschappelijk onderzoek, en natuurlijk voor nog heel veel meer. Ik heb gezegd.
32
AANTEKENINGEN
1
Kruyskamp (1961).
2
Nieuwborg (1978).
3
Bowers et al. (2005) hebben dit aangetoond met een semantische decisietaak. Recent onderzoek in samenwerking met Lee Wurm (Wayne State, Detroit) heeft dit resultaat gerepliceerd voor visuele lexicale decisie met behulp van entropiematen gedefinieerd over de frequentieverdelingen van de verzamelingen ingebedde en inbeddende woorden.
4
Pinker (1999), zie ook Pinker and Ullman (2002a) en Pinker and Ullman (2002b).
5
Voor varianten van dit type model, zoals optimaliteitstheorieën, geldt precies hetzelfde, zij het dat alle kennis wordt geabstraheerd in constraints in plaats van in herschrijfregels.
6
Bod (1995); Daelemans et al. (1999); Daelemans and Van den Bosch (2005).
7
Voor de rol van frequentie in het algemeen, zie Hasher and Zacks (1984), voor woordfrequentie-effecten zie, e.g., Rubenstein and Pollack (1963); Oldfield and Wingfield (1965); Whaley (1978).
8
De frequenties zijn ontleend aan het CELEX lexicale gegevensbestand (Baayen et al., 1995), familieleden met frequentie 0 zijn niet in de tabel opgenomen.
9
Schreuder and Baayen (1997).
10
Zie De Jong et al. (2002) en ook Moscoso del Prado Martín et al. (2004).
11
Zie Bertram et al. (2000); Baayen et al. (2002) voor frequentie-effecten bij lezen en Baayen et al. (2003) voor vergelijkbare effecten bij luisteren.
12
Zie Bien et al. (2005).
13
Zie Pluymaekers et al. (2005).
14
Oostdijk (2002).
33
15
Zie Ernestus et al. (2005).
16
Zie, e.g., Booij (1995).
17
Zipf (1949).
18
Een controle-experiment waarin proefpersonen de op het beeldscherm getoonde vorm alleen maar hoefden uit te spreken liet wel frequentie-effecten zien voor de frequentie van het werkwoord en de frequentie van de getoonde flectievorm, maar niet voor de frequentieverhouding.
19
Zie bijvoorbeeld Bloch (1947) en Chomsky and Halle (1968).
20
Zie ook Stemberger (2004).
21
Zie Kim et al. (1991).
22
Zie bijvoorbeeld Quirk et al. (1985).
23
Baayen and Moscoso del Prado Martín (2005).
24
Onregelmatige werkwoorden vertonen ook een voorkeur voor het hulpwerkwoord zijn in de voltooide tijden, en dus voor de teliciteit van de door het werkwoord aangeduide handeling. Zie Lieber and Baayen (1997) voor de relatie tussen de keuze van het hulpwerkwoord voor de voltooide tijden en teliciteit.
25
Zie, e.g., Jaeger et al. (1996); Ullman (2004).
26
Zie Patterson et al. (2001); Lambon Ralph et al. (2005), maar voor het tegendeel Tyler et al. (2004, 2005).
27
Zie Marslen-Wilson and Tyler (1997, 1998) en Burzio (2002).
28
Zie Rainer (1988) voor het belang van de relatieve frequenties bij alternatieve realisaties, en Dabrowska (2001, 2004) voor een voorbeeld van het volledig ontbreken van syntagmatische generalisaties buiten gebieden van paradigmatische convergentie in het complexe naamvalssysteem van het Pools.
29
Bien et al. (2005).
30
Zie, e.g., Krott et al. (2001) en Krott et al. (2005).
31
Zie Krott et al. (2004)
32
Van Dale meldt s.v. bergeend dat deze met name veel voorkomt in de duinen. Dit
34
is vermoedelijk een rationalisatie voor de benaming van deze eendensoort, een rationalisatie die te verklaren valt door de grote paradigmatische ondersteuning voor de locatieve interpretatie voor composita met berg als eerste lid. 33
Zie, e.g., Gagné (2001).
34
Zie, e.g., Ernestus and Baayen (2003, 2004b, 2005).
35
Zie Blevins (2003) en Matthews (1974).
36
Dit zoekontwerp voor een theorie voor het grensvlak van fonologie en morfologie is mede geïnspireerd door de “geheugen en predictie” theorie van Hawkins and Blakeslee (2004).
37
Zie Nooteboom (1972) en voor de rol van subfonemisch detail, Salverda et al. (2003); Kemps et al. (2005a,b).
38
Vergelijk ook Pierrehumbert (2001, 2002).
39
Maar zie Ernestus and Baayen (2004a) voor de resten van stemhebbendheid in de realisatie van de p¯ voor werkwoorden als krabben.
40
Keune et al. (2005).
35
BIBLIOGRAFIE
Baayen, R. H., McQueen, J., Dijkstra, T., and Schreuder, R. (2003). Frequency effects in regular inflectional morphology: Revisiting Dutch plurals. In Baayen, R. H. and Schreuder, R., Morphological structure in language processing, 355– 390. Mouton de Gruyter, Berlin. Baayen, R. H. and Moscoso del Prado Martín, F. (2005). Semantic density and past-tense formation in three Germanic languages. Language, 81:666–698. Baayen, R. H., Piepenbrock, R., and Gulikers, L. (1995). The CELEX lexical database (CD-ROM). Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA. Baayen, R. H., Schreuder, R., De Jong, N. H., and Krott, A. (2002). Dutch inflection: the rules that prove the exception. In Nooteboom, S., Weerman, F., and Wijnen, F., Storage and Computation in the Language Faculty, 61–92. Kluwer Academic Publishers, Dordrecht. Bertram, R., Schreuder, R., and Baayen, R. H. (2000). The balance of storage and computation in morphological processing: the role of word formation type, affixal homonymy, and productivity. Journal of Experimental Psychology: Learning, Memory, and Cognition, 26:419–511. Bien, H., Levelt, W.J.M., and Baayen, R. H. (2005). Frequency effects in compound production. Te verschijnen in PNAS, 102. Blevins, J. P. (2003). Stems and paradigms. Language, 79:737–767. Bloch, B. (1947). English verb inflection. Language, 23:399–418. Bod, R. (1995). Enriching Linguistics with Statistics: Performance Models of Natural Language. University of Amsterdam: Institute for logic, language, and computation, Amsterdam. Booij, G. E. (1995). The phonology of Dutch. Clarendon Press, Oxford. Bowers, J., Davis, C., and Hanley, D. (2005). Automatic semantic activation of embedded words: Is there a “hat” in “that”? Journal of Memory and Language, 52:131–143. Burzio, L. (2002). Missing players: Phonology and the past-tense debate. Lingua, 112:157–199.
36
Chomsky, N. and Halle, M. (1968). The sound pattern of English. Harper and Row, New York. Dabrowska, E. (2001). Learning a morphological system without a default: The Polish genitive. Journal of child language, 28:545–574. Dabrowska, E. (2004). Rules or schemas? Evidence from Polish. Language and cognitive processes, 19:225–271. Daelemans, W. and Van den Bosch, A. (2005). Memory-based language processing. Cambridge University Press, Cambridge. Daelemans, W., Van den Bosch, A., and Zavrel, J. (1999). Forgetting exceptions is harmful in language learning. Machine learning, Special issue on natural language learning, 34:11–41. De Jong, N. H., Feldman, L. B., Schreuder, R., Pastizzo, M., and Baayen, R. H. (2002). The processing and representation of Dutch and English compounds: Peripheral morphological, and central orthographic effects. Brain and Language, 81:555–567. Ernestus, M. and Baayen, R. H. (2004a). The functionality of incomplete neutralization in Dutch. The case of past-tense formation. Te verschijnen in Laboratory Phonology, 8. Ernestus, M. and Baayen, R. H. (2005). Paradigmatic effects in auditory word recognition: The case of alternating voice in Dutch. Te verschijnen in Language and Cognitive Processes. Ernestus, M. and Baayen, R. H. (2003). Predicting the unpredictable: Interpreting neutralized segments in Dutch. Language, 79:5–38. Ernestus, M. and Baayen, R. H. (2004b). Analogical effects in regular past tense production in Dutch. Linguistics, 42:873–903. Ernestus, M., Lahey, M., Verhees, F., and Baayen, R. H. (2005). Lexical frequency and voice assimilation. In revisie voor JASA. Gagné, C. (2001). Relation and lexical priming during the interpretation of noun-noun combinations. Journal of Experimental Psychology: Learning, Memory, and Cognition, 27:236–254. Hasher, L. and Zacks, R. T. (1984). Automatic processing of fundamental information. The case of frequency of occurrence. American Psychologist, 39:1372– 1388. Hawkins, J. and Blakeslee, S. (2004). On intelligence. Henry Holt and Company, New York.
37
Jaeger, J. J., Lockwood, A. H., Kemmerrer, D. L., Van Valin, R. D., and Murphy, B. W. (1996). A positron emission tomographic study of regular and irregular verb morphology in English. Language, 72:451–497. Kemps, R., Ernestus, M., Schreuder, R., and Baayen, R. H. (2005a). Prosodic cues for morphological complexity: The case of Dutch noun plurals. Memory and Cognition, 33:430–446. Kemps, R., Wurm, L., Ernestus, M., Schreuder, R., and Baayen, R. H. (2005b). Prosodic cues for morphological complexity in Dutch and English. Language and Cognitive Processes, 20:43–73. Keune, K., Ernestus, M., Van Hout, R., and Baayen, R. H. (2005). Social, geographical, and register variation in Dutch: From written ‘mogelijk’ to spoken ‘mok’. Corpus Linguistics and Linguistic Theory, 1:183–223. Kim, J., Pinker, S., Prince, A., and Prasada, S. (1991). Why no mere mortal has ever flown out to center field. Cognitive Science, 15:173–218. Krott, A., Baayen, R. H., and Schreuder, R. (2001). Analogy in morphology: modeling the choice of linking morphemes in Dutch. Linguistics, 39(1):51– 93. Krott, A., Hagoort, P., and Baayen, R. H. (2004). Sublexical units and supralexical combinatorics in the processing of interfixed Dutch compounds. Language and Cognitive Processes, 19:453–471. Krott, A., Schreuder, R., Baayen, R. H., and Dressler, W. (2005). Analogical effects on linking elements in German compounds. Language and Cognitive Processes, in press. Kruyskamp, C. (1961). Van Dale Groot Woordenboek der Nederlandse Taal. Nijhoff, Den Haag. Lambon Ralph, M. A., Braber, N., McClelland, J. L., and Patterson, K. (2005). What underlies the neuropsychological pattern of irregular > regular past-tense verb production? Te verschijnen in Brain and Language. Lieber, R. and Baayen, R. H. (1997). A semantic principle for auxiliary selection in Dutch. Natural Language and Linguistic Theory, 15:789–845. Marslen-Wilson, W. and Tyler, L. (1998). Rules, representations, and the English past tense. Trends in cognitive sciences, 2:428–435. Marslen-Wilson, W. and Tyler, L. K. (1997). Dissociating types of mental computation. Nature, 387:592–594.
38
Matthews, P. H. (1974). Morphology. An Introduction to the Theory of Word Structure. Cambridge University Press, London. Moscoso del Prado Martín, F., Kosti´c, A., and Baayen, R. H. (2004). Putting the bits together: An information theoretical perspective on morphological processing. Cognition, 94:1–18. Nieuwborg, E. R. (1978). Retrograde Woordenboek der Nederlandse Taal. Kluwer, Deventer. Nooteboom, S. G. (1972). Production and perception of vowel duration: A study of the durational properties of vowels in Dutch. University of Utrecht, Utrecht. Oldfield, R. C. and Wingfield, A. (1965). Response latencies in naming objects. Quarterly Journal of Experimental Psychology, 17:273–281. Oostdijk, N. (2002). The design of the Spoken Dutch Corpus. In Peters, P., Collins, P., and Smith, A., New Frontiers of Corpus Research, 105–112. Rodopi, Amsterdam. Patterson, K., Lambon Ralph, M., Hodges, J., and McClelland, J. (2001). Deficits in irregular past-tense verb morphology associated with degraded semantic knowledge. Neuropsychologia, 39:709–724. Pierrehumbert, J. (2001). Exemplar dynamics: Word frequency, lenition and contrast. In Bybee, J. and Hopper, P., Frequency and the emergence of linguistic structure, 137–157. John Benjamins Publishing Company, Amsterdam/Philadelphia. Pierrehumbert, J. (2002). Word-specific phonetics. In Gussenhoven, C. and Warner, N., Laboratory Phonology VII, 101–140. Mouton de Gruyter, Berlin. Pinker, S. (1999). Words and Rules: The Ingredients of Language. Weidenfeld and Nicolson, London. Pinker, S. and Ullman, M. (2002a). Combination and structure, not gradedness, is the issue. TRENDS in Cognitive Sciences, 6:472–474. Pinker, S. and Ullman, M. (2002b). The past and future of the past tense. Trends in the Cognitive Sciences, 6(11):456–462. Pluymaekers, M., Ernestus, M., and Baayen, R. H. (2005). Lexical frequency and acoustic reduction in spoken Dutch. JASA, 118:2561–2569. Quirk, R., Greenbaum, S., Leech, G., and Svartvik, J. (1985). A comprehensive grammar of the English language. Longman, London. Rainer, F. (1988). Towards a theory of blocking: the case of Italian and German quality nouns. In Booij, G. E. and Van Marle, J., Yearbook of Morphology I, 155–185. Foris, Dordrecht.
39
Rubenstein, H. and Pollack, I. (1963). Word predictability and intelligibility. Journal of Verbal Learning and Verbal Behavior, 2:147–158. Salverda, A., Dahan, D., and McQueen, J. (2003). The role of prosodic boundaries in the resolution of lexical embedding in speech comprehension. Cognition, 9-0.51–89. Schreuder, R. and Baayen, R. H. (1997). How complex simplex words can be. Journal of Memory and Language, 37:118–139. Stemberger, J. P. (2004). Phonological priming and irregular past. Journal of Memory and Language, 50:82–95. Tyler, L., Marslen-Wilson, W., and Stamatakis, E. (2005). Differentiating lexical form, meaning, and structure in the neural language system. PNAS, 102:8375– 8380. Tyler, L., Stamatakis, E., Jones, R., Bright, P., Acres, K., and Marslen-Wilson, W. (2004). Deficits for semantics and the irregular past tense: A causal relationship? Journal of Cognitive Neuroscience, 16:1159–1172. Ullman, M. (2004). Contributionss of memory circuits to language: the declarative/procedural model. Cognition, 92:231–270. Whaley, C. P. (1978). Word-nonword classification time. Journal of Verbal Language and Verbal Behavior, 17:143–154. Zipf, G. K. (1949). Human Behavior and the Principle of the Least Effort. An Introduction to Human Ecology. Hafner, New York.
40