Het verbale prefix verSemantische generalisatie op basis van contextuele overeenkomst
Folgert Bastiaan Karsdorp
Het verbale prefix ver-
Scriptie voorgedragen ter verkrijging van de graad van MASTER OF ARTS in de
LINGUISTIEK aan het
Leiden University Centre for Linguistics, Universiteit Leiden door
Folgert Bastiaan Karsdorp 5 augustus 2009, Leiden
© 2009 Folgert Bastiaan Karsdorp. Deze scriptie is opgemaakt in LATEX. Voorkant: Afbeelding gegenereerd op basis van de dataset gebruikt in deze studie met behulp van Wordle (www.wordle.net).
Het verbale prefix ver-
Auteur: Studentnummer: E-mail:
Folgert Bastiaan Karsdorp 0455679
[email protected]
Abstract In many functional theories of language, abstraction is seen as the key concept of generalization in language. In this study I argue that it is possible to make generalizations without the need of abstraction. The model I present follows a recent line of research (e.g. Skousen 2002, Daelemans & Van den Bosch 2005) in which generalization is the result of analogical reasoning over a set of stored and categorized linguistic experiences. On the basis of an extensive corpus investigation, I show that in the case of the Dutch verbal prefix ver-, we can find multiple homogenous groups of verbs in ver- that arrise due to similarities in the way they are used.
Begeleiders:
Prof. Dr. G.E. Booij, Universiteit Leiden Dr. A.J. van Santen, Universiteit Leiden
Dankwoord Dit is de plaats waarop ik een aantal mensen wil bedanken die mij tijdens mijn studie en in het proces naar deze scriptie hebben geholpen. Een eerste woord van dank gaat uit naar mijn begeleiders Geert Booij en Ariane van Santen. Naast de vele waardevolle en interessante besprekingen die we hebben gehad, hebben ook de ‘hoe gaat het?’-mailtjes bijzonder veel geholpen. Ook mijn ouders, Ronald en Herby Karsdorp, wil ik mijn dank laten blijken. Zonder jullie onvoorwaardelijke steun was ik werkelijk nooit zo ver gekomen. Een speciaal woord van dank gaat uit naar mijn oud-huisgenoot, studiegenoot en bovenal vriend, Barend. Jarenlang heb ik met je samen mogen studeren, intellectuele sparsessies met je mogen houden maar vooral ontzettend veel van je mogen leren. Ik kan alleen maar de hoop uitspreken nog veel gesprekken over taalkunde met je te hebben tijdens een goede pot schaak. Maar het meest ben ik verschuldigd aan Nina. Dank voor al je liefs, hulp, aandacht en vooral geduld. . . Leiden, augustus 2009
iii
Inhoudsopgave Dankwoord
iii
Inhoudsopgave
v
Lijst van tabellen
vii
Lijst van figuren
ix
1
Inleiding
1
2
De semantiek van het prefix ver2.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 De literatuur over ver- . . . . . . . . . . . . . . . . . . 2.2.1 De Vries (1975) over ver- . . . . . . . . . . . 2.2.2 Lieber & Baayen (1993) over ver- . . . . . . . 2.3 Naar een alternatief model van betekenis(beschrijving)
3
4
Semantische doorzichtigheid en ontleedbaarheid 3.1 Inleiding . . . . . . . . . . . . . . . . . . . . 3.2 Het meten van semantische transparantie . . . 3.3 (On)doorzichtig ver- . . . . . . . . . . . . . 3.3.1 Het corpus . . . . . . . . . . . . . . 3.3.2 Resultaten . . . . . . . . . . . . . . . 3.4 Semantische transparantie en productiviteit . 3.5 Conclusie . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . .
. . . . . . .
Distributionele verwantschap 4.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Methodologie . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 De context . . . . . . . . . . . . . . . . . . . . 4.2.2 Werkwoordselectie en extractie van de gegevens
v
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
. . . . . . .
. . . .
. . . . .
3 3 3 3 7 10
. . . . . . .
13 13 13 16 16 16 18 22
. . . .
23 23 25 25 26
I NHOUDSOPGAVE
4.3 4.4 5
4.2.3 Woordassociatie, afstandsmaat en clusteranalyse . . . . . . . . . . Resultaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Besluit
26 31 36 39
Bibliografie
41
A Frequentiegegevens ver-
45
B Dichtstbijzijnde buren ver-werkwoorden
49
C Cd-rom
51
Index
53
vi
Lijst van tabellen 3.1 3.2 3.3
Frequentiegegevens ver-werkwoorden in het CONDIV-corpus. . . . . . . . . . Semantische transparantie van ver-werkwoorden . . . . . . . . . . . . . . . . Vergelijking tussen maat semantische transparantie ver-werkwoorden met productiviteitsindex P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16 17
Voorbeeldtabel invloed van context op semantische overeenkomsten Deel van matrix met ‘werkwoord plus object’-combinaties. . . . . . Dichtstbijzijnde buren voor 20 van de 54 ver-werkwoorden . . . . . Voorbeeldmatrix voor opbouw clusterstructuur . . . . . . . . . . .
. . . .
24 27 30 33
A.1 Frequentiegegevens ver- . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
B.1 Dichtstbijzijnde buren ver-werkwoorden . . . . . . . . . . . . . . . . . . . . .
49
4.1 4.2 4.3 4.4
vii
. . . .
. . . .
. . . .
. . . .
. . . .
18
Lijst van figuren 3.1 3.2
‘Dual-route’-model van taalverwerking . . . . . . . . . . . . . . . . . . . . . Frequentiedistributies semantisch (in)transparante ver-werkwoorden. . . . . . .
14 21
4.1
Dendrogram ver-werkwoorden . . . . . . . . . . . . . . . . . . . . . . . . . .
34
ix
Hoofdstuk 1
Inleiding Het onderwerp van deze studie is het werkwoordvormende prefix ver-. Het prefix ver- vormt voor wat de betekenis betreft een bijzonder uitdagende categorie. Er bestaat een enorme rijkdom aan verschillende betekenissen die met het prefix geassocieerd worden. We vinden werkwoorden van beweging (van het type verplaatsen, verspringen) en werkwoorden van tijd (van het type verstrijken, verlopen). Weer andere hebben een betekenisaspect van ‘vernietigen, kapotmaken’ (van het type vernielen, verslijten), het betekenismoment van ‘verspillen’ (type verkletsen) of de betekenis van ‘verwijdering’ (type verbannen, verdrijven). Een vrij grote groep ver-werkwoorden draagt een interessant pejoratief betekenisaspect in zich. Enkele voorbeelden zijn: verslapen, verdobbelen, vertellen (als in ‘hij vertelde zich’), verspelen, verrijden enzovoorts. Binnen functionele theorie¨en van taal zijn er in essentie twee verschillende benaderingen om met deze rijkdom aan betekenisaspecten om te gaan: een monoseme benadering en een polyseme benadering. In een monoseme benadering gaat men op zoek naar de grootste gemene deler tussen al deze betekenissen van ver-. Wat is het overkoepelende betekenisaspect dat ver- in al deze werkwoorden laat zien? In een polyseme benadering probeert men de betekenis van ver- te beschrijven in termen van gerelateerde subbetekenissen die met elkaar verbonden zijn in een polyseem netwerk. Een belangrijk aspect dat deze twee benaderingen met elkaar gemeen hebben is dat er abstracties gemaakt worden over de verschillende instantiaties van ver-. De gedachte is dat taalgebruikers deze abstractie nodig hebben om te kunnen generaliseren over woorden en om nieuwe woorden te vormen (zie bijvoorbeeld Booij 2007, Goldberg 2006). Abstractie is echter niet de enige manier om te kunnen generaliseren (voor zowel de taalkundige als de taalgebruiker). Ook Daelemans & Van den Bosch (2005) onderstrepen het belang abstractie en generalisatie niet aan elkaar gelijk te stellen. In deze scriptie wil ik laten zien dat we ook zonder abstracties tot generalisaties over de betekenis van ver- kunnen komen: ik ga er vanuit dat taalgebruikers voor de productie en verwerking van taal geen beroep hoeven te doen op abstracte regels of andere abstracte representaties. Ze gebruiken in plaats daarvan direct de talige ervaringen die ze in hun leven hebben opgedaan voor productie en verwerking van taal. Generalisaties in dit model zijn niet afhankelijk van abstractie, maar zijn het resultaat van analogisch redeneren op basis van onze talige ervaringen. Om tot een betekenisbeschrijving te komen die meer overeenkomt met de intu¨ıtie van 1
1. I NLEIDING de taalgebruiker, is het gebruik van een corpus een goed instrument. Een corpus kunnen we immers opvatten als een reflectie van de talige ervaringen van een groep taalgebruikers. Als het inderdaad zo is dat betekenis tot stand komt door het gebruik van een woord, en een corpus een reflectie is van taalgebruik, dan volgt daaruit dat we op basis van het gebruik van een woord in een corpus de betekenis van dat woord moeten kunnen achterhalen. In deze scriptie onderzoek ik een verzameling van statistische methodes waarmee de intu¨ıtie van de taalkundige meer op de achtergrond wordt geplaatst en we op een consistente en objectievere manier uitspraken kunnen doen over de betekenissystematiek van ver-. Hoewel interpretatie en introspectie altijd een rol spelen in het onderzoek, hoe empirisch het onderzoek ook is, geven de methodes die ik gebruik meer krediet aan de resultaten. Statistisch onderzoek is herhaalbaar, testbaar en maakt vergelijkingen tussen studies mogelijk. Een bijkomend voordeel van deze methodes is dat ze ook gebruikt kunnen worden voor de beschrijvingen van talige fenomenen waarover we geen intu¨ıtie (meer) hebben, bijvoorbeeld voor oudere taalfases van het Nederlands. De opbouw van deze studie is als volgt. In hoofdstuk 2 zal ik twee verschillende benaderingen van de betekenis van het prefix ver- beschrijven waarin abstractie een prominente rol speelt. Na een aantal belangrijke bezwaren op deze benaderingen te hebben genoemd, zal ik een alternatief model van betekenisbeschrijving voorstellen waarin we zonder gebruik te maken van abstractie tot generalisaties kunnen komen. Voor een beschrijving van de levende betekenissystematiek van het prefix ver- is het van belang een onderscheid te maken tussen woorden die de levende systematiek representeren en woorden die restanten zijn van oudere taalfases. Dit is een vraag die verband houdt met semantische transparantie van woorden. In hoofdstuk 3 zal ik daarom ingaan op de vraag hoe we met behulp van een corpus kunnen omgaan met de notie semantische transparantie. Hierna zal ik in hoofdstuk 4 een methode presenteren waarmee we op basis van het gebruik van ver- semantische verwantschap tussen werkwoorden kunnen onderzoeken. Ik sluit af in hoofdstuk 5 met het noemen van de belangrijkste bevindingen in deze scriptie.
2
Hoofdstuk 2
De semantiek van het prefix ver2.1
Inleiding
De literatuur over de betekenis van ver- in het Nederlands is betrekkelijk schaars. Het uitvoerigste overzicht van de verschillende gebruiksmogelijkheden van het prefix vinden we bij De Tollenaere in zijn artikel over ver- in het WNT (lemma: VER-). Andere studies die de verschillende aspecten van de betekenis van ver- bespreken zijn De Vries (1975) die eenzelfde soort betekenisbeschrijving geeft als De Tollenaere, Lieber & Baayen (1993) die een formele semantische analyse van het prefix geven, Van der Auwera (1999) die het prefix beschrijft in het kader van grammaticalisatieprocessen en Verhagen (2002) die een betekenisaspect van ver- vergelijkt met een syntactische constructie. In dit hoofdstuk zal ik een uiteenzetting geven van twee verschillende benaderingen van de betekenis van ver-. De eerste is de studie van De Vries (1975) die een categorisatie maakt van de verschillende gebruiksmogelijkheden van het prefix. De tweede is de studie van Lieber & Baayen (1993) die een formele, monoseme analyse geven van de betekenis van ver-. Beide benaderingen geven een beschrijving op basis van e´ e´ n of meerdere abstracties. Ik zal laten zien dat er bij de manier waarop de semantiek van ver- in deze studies wordt beschreven een aantal belangrijke kanttekeningen te plaatsen zijn. In paragraaf 2.3 zal ik daarom een alternatief model voorstellen waarmee we de betekenis van ver- op een adequatere manier kunnen beschrijven. Ook in dit model worden instantiaties van ver- gegroepeerd, maar het wezenlijke verschil is dat deze groeperingen gevormd worden op basis van generalisaties over corpusmateriaal zonder toegevoegde abstractieniveaus. De Vries (1975) geeft de uitvoerigste beschrijving van het prefix. Deze studie leent zich er daarom goed voor de verschillende gebruiksmogelijkheden van ver- verder in te leiden. Met deze studie zal ik beginnen.
2.2
De literatuur over ver-
2.2.1
De Vries (1975) over ver-
Het prefix ver- bezit zoals gezegd een grote semantische heterogeniteit. De uitgebreide betekenisbeschrijving van De Tollenaere in het WNT (Lemma: VER-) is daar een illustra3
2. D E SEMANTIEK VAN HET PREFIX vertief voorbeeld van. Het WNT onderscheidt maar liefst 24 betekenisgroepen waarin telkens subtiele betekenissen van het prefix naar voren komen. Veel van de onderscheiden betekenisgroepen onderhouden nauwe banden met elkaar en het is vaak betwistbaar of we daadwerkelijk met verschillende betekenissen te maken hebben. De Vries (1975, 119-126) probeert enige orde aan te brengen in de betekenisonderscheidingen van het WNT. De verschillende subbetekenissen die in hoge mate overlappen, neemt hij samen. Hij komt tot de volgende classificatie. 1. De eerste betekenisgroep die De Vries onderscheidt bevat het semantische moment van ‘een geheel of gedeeltelijk vernietigen, beschadigen of verspillen, of vernietigd, beschadigd of verspild worden door de werking of handeling waarnaar het ongelede correlaat verwijst’ (De Vries 1975, 119). Dit type is volgens De Vries het enige productieve type ver-afleidingen op basis van werkwoorden in het modern Nederlands. De categorie kan uitgesplitst worden in zes subtypes: a) ‘een vernietigen of vernietigd worden door de handeling of werking die in het simplex wordt uitgedrukt’ (van het type verbranden, vermoorden, verhongeren, verwurgen); b) ‘een verbruiken, opmaken door de handeling die in het simplex wordt uitgedrukt’ (van het type verbakken, verkoken, verspelen); c) ‘een verspillen door de handeling of werking die in het simplex wordt uitgedrukt, of doordat deze handeling te lang duurt of te intensief is’ (type verdobbelen, versnoepen, verbabbelen, verdansen, verpraten, verslapen); d) ‘een vernietigen, een te boven komen’ (van het type verdrinken, verslapen, verzuipen); e) ‘een beschadigen door de handeling of werking die in het simplex wordt uitgedrukt’ (van het type verknoeien, verschroeien, verslijten; f) ‘een beschadigen of beschadigd worden doordat de in het simplex uitgedrukte handeling of werking te lang duurt of te intensief is’ (van het type verbuigen). 2. De tweede categorie van ver-werkwoorden die De Vries onderscheidt bestaat uit werkwoorden die de betekenis bezitten ‘een op ongewenste wijze geschieden van de handeling of werking waarnaar het ongelede correlaat verwijst – met name met een verkeerd doel of gevolg’. Dit type is niet productief. Enkele voorbeelden zijn: vergroeien, vergeven, verdwalen, verdraaien, verleiden, verlokken, verwennen. Wel productief zijn de gevallen die vergezeld worden door een wederkerend voornaamwoord (type zich vergalopperen, zich vergapen, zich verslapen). 3. De volgende onderscheiden betekenisgroep bevat ver-werkwoorden met het semantische moment van ‘een verwijdering als gevolg van de handeling of werking waarnaar het ongelede correlaat verwijst’. Voorbeelden zijn: verbannen, verdrijven, vergieten, verjagen, verstoten, vervliegen.
4
De literatuur over ver4. De volgende categorie bestaat uit werkwoorden die het semantische moment bezitten van ‘het gericht zijn op een verandering van plaats, vorm, wijze of toestand van de handeling of werking waarnaar het ongelede correlaat verwijst’. Voorbeelden van dit type zijn: verbouwen, verbuigen, verhangen, verkleden, verkruipen, vermaken. 5. In een aantal ver-werkwoorden treffen we een pejoratief betekenisaspect aan dat bij het ongelede correlaat ontbreekt. Voorbeelden: verachten, verdenken, verdoemen, verleiden, verraden, vervloeken, verwensen. 6. In de volgende ver-werkwoorden is een perfectief semantisch moment aanwezig dat de ongelede correlaten missen: verbouwen (van graan), verhoren, versmaden, verteren, vertroosten. 7. In een aantal werkwoorden heeft ver- geen semantisch aspect en dient het of als stijlmiddel of is het een voorbeeld van archa¨ısch taalgebruik (verblijven, vereisen, verhopen, vermenen. 8. De Vries onderscheidt verder nog een groep werkwoorden met een substantief als basiswoord. Deze werkwoorden bezitten het semantische moment van ‘het worden of maken (c.q. voorzien) van de zaak of ermee geassocieerde zaak waarnaar het substantivische correlaat verwijst’. Ook dit type is productief. Veel van deze gevallen hebben een pejoratief betekenismoment. Enkele voorbeelden zijn: verafgoden, verboeren, verglazen, verkalken, verkoperen. 9. De laatste groep ver-werkwoorden die De Vries onderscheidt, bestaat uit werkwoorden met een adjectief als grondwoord. Deze werkwoorden hebben het semantische moment van ’(meer) ONGELEED ADJECTIEF maken/worden’. Ook dit type verwerkwoorden is productief. Een aantal voorbeelden: verarmen, verdoffen, veredelen, verfijnen. De Vries geeft met zijn classificatie een uitvoerig overzicht van de verschillende gebruiksmogelijkheden van het prefix ver-. Toch zijn er ook een aantal kanttekeningen bij te plaatsen. Hoewel De Vries het aantal onderscheiden betekenisgroepen in het WNT behoorlijk weet terug te brengen, blijft er nog een groot aantal subgroepen over. En in een aantal gevallen is de status van de subgroep nog altijd onduidelijk. Zoals De Vries zelf zegt in reactie op de classificatie van het WNT: ‘Uit hoeveel woorden moet de reeks bestaan om tot categorievorming te besluiten?’ (De Vries 1975, 125). Neem de onderscheiden groep verwerkwoorden met een perfectief betekenismoment. Kunnen we hier daadwerkelijk van een subbetekenis van ver- spreken of hebben we hier te maken met een groep werkwoorden die toevallig een bepaald aspect delen? En hoe zit dat met betekenisgroep (5): werkwoorden met een pejoratief betekenisaspect dat bij ongelede correlaat ontbreekt? Zeer regelmatig heeft een werkwoord met ver- een negatief evaluerende bijsmaak. Moeten we werkelijk besluiten tot categorievorming voor ver-werkwoorden waarvan het basiswoord deze ‘bijbetekenis’ niet hebben? Het lijkt me dat dergelijke onderscheidingen in hoge mate ad hoc zijn en arbitrair.
5
2. D E SEMANTIEK VAN HET PREFIX verEen volgende aanmerking op de categorisatie van De Vries is dat de relaties tussen de werkwoorden binnen een werkwoordsgroep en tussen de verschillende groepen werkwoorden onduidelijk blijft. Gezien de vaak zeer verwante betekenissen van de verschillende groepen werkwoorden, is het echter te verwachten dat er een onderlinge samenhang bestaat tussen de groepen. Het is niet duidelijk of de verschillende werkwoorden en werkwoordsgroepen bijvoorbeeld polyseme relaties met elkaar aangaan, of dat we te maken hebben met verschillende homonieme betekenissen van eenzelfde prefix. De Vries onderscheidt een groep werkwoorden met de betekenis ‘een verwijdering als gevolg van de handeling of werking waarnaar het ongelede correlaat verwijst’. In deze groep plaatst hij werkwoorden als verdrijven, vergieten en vervliegen. De betekenis die De Vries formuleert lijkt abstract genoeg om deze toch semantisch diverse werkwoorden op te nemen. Is deze abstracte, overkoepelende betekenis het enige wat de werkwoorden met elkaar gemeen hebben of zijn er ook op microniveau relaties die de werkwoorden met elkaar aangaan? Wat voor soort relatie bestaan er tussen bijvoorbeeld vergieten enerzijds en verdrijven anderzijds? Ook de relaties tussen de verschillende onderscheiden werkwoordsgroepen blijft onduidelijk. Binnen de groep werkwoorden met het betekenisaspect van ‘vernietigen’ (groep 1) onderscheidt De Vries maar liefst zes verschillende subgroepen. Hoe moeten we ons de interne samenhang tussen deze groepen werkwoorden voorstellen? Het lijkt erop dat we hier met polyseme betekenisgroepen van ver- te maken hebben. De Vries zegt hier echter niets over. Een belangrijk bezwaar dat met het vorige verband houdt, is de cognitieve realiteit van de verschillende werkwoordsgroepen. Hoewel De Vries er niet naar streeft een cognitief plausibele classificatie van de verschillende gebruiksmogelijkheden te geven, mogen we ons wel de vraag stellen wat zijn indeling nu precies beoogt te zeggen. De rijkdom aan verschillende betekenisgroepen, vaak bestaande uit een slechts redelijk homogene groep werkwoorden, roept de suggestie op dat we niet zozeer met een cognitief plausibel model te maken hebben, als wel met een betekenisindeling van een taalkundige, bedoeld als pedagogisch hulpmiddel. Een laatste bezwaar op de categorisatie van De Vries is de rol die hij het basiswoord toedicht. Voorafgaand aan de betekenisclassificatie maakt De Vries op formele gronden een indeling in werkwoorden met een verbale, een nominale en een adjectivale basis. Het probleem hiermee is dat de formele categorie¨en bij De Vries de semantische categorie¨en soms lijken te domineren. Neem een werkwoord op nominale basis als verhuizen of verharen. Deze werkwoorden zijn evident moeilijk in te passen in de betekenis ‘het worden of maken (c.q. voorzien) van de zaak of ermee geassocieerde zaak waarnaar het substantivische correlaat verwijst’. ‘Het worden van haar’? ‘Het worden van huis’? Misschien noemt De Vries deze werkwoorden met opzet niet, maar strikt genomen zouden we ze in zijn indeling wel bij de andere denominale werkwoorden moeten plaatsen. De benadering van De Vries (1975) voor de beschrijving van een morfologische categorie met een complexiteit als die van ver- is zeker niet onvruchtbaar. Het geeft een goed overzicht van de enorme rijkdom aan gebruiksmogelijkheden van het prefix. Desalniettemin hoop ik te hebben laten zien dat er ook kanttekeningen bij te plaatsen zijn. Laten we nu overgaan tot een andere benadering van het prefix, die van Lieber & Baayen (1993).
6
De literatuur over ver-
2.2.2
Lieber & Baayen (1993) over ver-
Lieber & Baayen (1993) geven een analyse van de lexicale semantiek van de drie verbale prefixen ver-, be- en ont-. Ze geven een beschrijving van de zogenoemde ‘Lexical Conceptual Structure’ (LCS) van de drie prefixen en baseren zich daarvoor op de theorie van lexicale semantiek ontwikkeld door Jackendoff (1990). In deze theorie wordt de betekenis van een werkwoord opgesplitst in een klein aantal semantische primitieven. In (2.1) staan twee voorbeelden (overgenomen van Lieber & Baayen 1993, 53): (2.1) Voorbeelden LCS uit Jackendoff (1990): a.
run
[Event GO([Thing
],[Path
])]
b.
touch
[State BE([Thing
],[Place
])]
Hoewel de notatie er complex uitziet, is de interpretatie vrij eenvoudig. Rennen is een gebeurtenis (event), uitgevoerd door iets of iemand (thing). Deze gebeurtenis vindt plaats door iemand of iets over een bepaalde route (path). Lieber & Baayen (1993) gaan uit van de hypothese dat alle ver-werkwoorden deel uitmaken van een en dezelfde morfologische categorie, onafhankelijk of de werkwoorden afgeleid zijn van adjectieven, nomina of werkwoorden. De betekenis die ze geven aan het prefix ver- is monoseem. Het idee is dat ver- een consistente LCS toevoegt aan de LCS van het grondwoord. Op deze manier komen de verschillende polyseme betekenissen tot stand die we bij De Vries (1975) hebben gezien. De LCS van het prefix ver- noteren Lieber & Baayen (1993, 55) als volgt: (2.2) Lexical Conceptual Structure ver-: [Event CAUSE([Thing TO([Thing,Property,Place
],[Event GO([Thing ])])])]
],[Path FROM([Thing,Place,Event
])
Met (2.2) proberen Lieber & Baayen (1993) te laten zien dat ver- typisch werkwoorden vormt van beweging (aangegeven met de semantisch primitief GO) waarin zowel een SOUR CE aanwezig is (het argument van FROM) als een GOAL (het argument van TO). Optioneel voegt ver- een causatief betekenisaspect toe (de semantische primitief CAUSE). De optionaliteit is aangegeven door de semantische functie te onderstrepen. De argumenten SOURCE en GOAL kunnen ingevuld worden door verschillende soorten semantische entiteiten: een plaats, een ding, een gebeurtenis enzovoorts. Afhankelijk van het basiswoord worden deze entiteiten ingevuld. Laat me dit illustreren aan de hand van een aantal voorbeelden, beginnend met werkwoorden op basis van een adjectief. (2.3) Deadjectivale ver-werkwoorden: a. b.
verarmen [Event GO([Thing
],[Path FROM([Thing
verarmen [Event CAUSE([Thing TO([Property arm])])]
],[Event GO([Thing
])TO([Property arm])])] ],[Path FROM([Thing
])
7
2. D E SEMANTIEK VAN HET PREFIX verHet idee is dat ver- in deze twee voorbeelden de LCS incorporeert van het adjectief arm als een argument van de semantische functie TO (de GOAL). Het resultaat verarmen betekent dan zoiets als ‘gaan van een voorheen ongespecificeerde staat naar een staat van arm zijn’ of de causatieve variant hiervan. Bij denominale ver-werkwoorden gebeurt ongeveer hetzelfde, maar het basiswoord kan op andere plaatsen ge¨ıncorporeerd worden. Drie voorbeelden: (2.4) Denominale ver-werkwoorden: a. b.
c.
verharen [Event GO([Thing haar],[Path FROM([Thing vermommen [Event CAUSE([Thing TO([Thing ])])] verhuizen [Event CAUSE([Thing TO([Place huis])])]
])TO([Thing
])])]
],[Event GO([Thing mom],[Path FROM([Thing
],[Event GO([Thing
])
],[Path FROM([Place huis])
Lieber & Baayen (1993) stellen dat het werkwoord verhuizen in (2.4c) zowel een causatief aspect als een bewegingsaspect in zich kan dragen. Het basiswoord huis bevindt zich zowel op de positie van de SOURCE als op de positie van de GOAL. Verhuizen betekent nu zoiets als ‘er voor zorgen dat iets gaat van huis naar huis’ (Lieber & Baayen 1993, 56). Het werkwoord verharen in (2.4a) impliceert volgens Lieber & Baayen (1993) de beweging van haar. Het haar bevindt zich op de positie van ‘theme’. Verharen betekent in de woorden van Lieber & Baayen (1993, 57): ‘for hair to go from its previous position to somewhere else – i.e. away’. Op het werkwoord vermommen kom ik later nog terug. Laten we nu de voorbeelden van deverbale werkwoorden bekijken die Lieber & Baayen (1993) geven. Twee voorbeelden: (2.5) Deverbale ver-werkwoorden: a.
b.
verspringen [Event GO([Thing ]α ,[Path FROM([Event MOVE BY JUMPING([Thing α [Path ])])TO([Place ])])]
],
verjagen [Event CAUSE([Thing ]α ,[Event GO([Thing ]β ,[Path FROM ([Event MOVE W/INTENT OF CATCHING ([Thing α],[Thing β])])TO([Place
])])]
Het werkwoord verspringen is een werkwoord van beweging. Het argument op de positie van FROM is gevuld door de LCS het werkwoord springen (aangegeven met MOVE BY JUMPING). De TO-positie blijft leeg. Het argument van GO en het argument van MOVE BY JUMPING zijn hetzelfde. Dit is aangegeven door ze dezelfde index te geven, α. Lieber & Baayen (1993) komen tot de volgende betekenisomschrijving van verspringen: ‘iets (α) begeeft zich door de handeling van springen naar een ongespecificeerde plaats’. Verjagen in (2.5b) kan op eenzelfde manier ge¨ınterpreteerd worden. De LCS van het basiswerkwoord 8
De literatuur over verjagen is uitgedrukt door ‘MOVE WITH THE INTENT OF CATCHING’. Verjagen betekent daarom zoiets als α zorgt ervoor dat iets anders (β) weggaat voor de handeling van α (het jagen), naar een ongespecificeerde plaats. Met hun analyse van ver-werkwoorden op basis van adjectieven, nomina en werkwoorden proberen Lieber & Baayen (1993) te laten zien dat we slechts e´ e´ n betekenis van verhoeven aan te nemen en toch tot de verschillende polyseme betekenissen kunnen komen die de morfologische categorie laat zien. De polyseme relaties die de verschillende werkwoorden met elkaar onderhouden, komen tot stand door de interactie van de LCS van ver- en de LCS van de verschillende basiswoorden. Deze monoseme betekenis van het prefix ver- en de strikt compositionele manier waarop de uiteindelijke betekenis van een werkwoord tot stand komt, is niet geheel onproblematisch. De betekenis van een ver-werkwoord zien Lieber & Baayen (1993) als de som van de zelfstandige betekenis van ver- en de betekenis y van het basiswoord. Deze combinatie levert de betekenis z op. Oftewel: z = ver- + y Deze optelsom van betekenissen heeft echter tot gevolg dat er voor de betekenisbeschrijving van z (die van de uiteindelijke afleiding) een beroep moet worden gedaan op erg abstracte betekenissen. Betekenissen, die nog maar weinig met de talige realiteit te maken lijken te hebben. Neem bijvoorbeeld het besproken werkwoord verhuizen. De betekenis die Lieber & Baayen (1993) aan dit werkwoord toekennen is ‘to cause something to go from house to house’. Welnu, betekent verhuizen werkelijk ‘het zorgen dat iets van huis naar huis gaat’? In deze betekenisopvatting zou de handeling die een postbode elke dag uitvoert ook ‘verhuizen’ genoemd kunnen worden. De hoge mate van abstractie van de betekenis, maakt dat deze onbruikbaar wordt om werkwoorden van elkaar te kunnen onderscheiden. Een belangrijke oorzaak voor de hoge mate van abstractie, is ook dat in de opvatting van Lieber & Baayen (1993) elk ver-werkwoord in essentie een werkwoord van beweging is. Dit aspect is vertegenwoordigd in de lexicale conceptuele structuur van ver-. Voor een consistente analyse waarin de betekenis de som is van ver- + basiswoord, moet dit betekenisaspect terugkomen in alle betekenissen van ver-werkwoorden. Dat dit niet zonder problemen is, is goed te zien aan een werkwoord als verharen. Volgens Lieber & Baayen (1993) betekent verharen zoiets als ‘for hair to go from its previous position to somewhere else’. Wat betekent dat? Welke realiteit heeft zo’n betekenis? Als een hond verhaart, zeggen we dan dat zijn haren zich hebben verplaatst van een oude naar een andere onbestemde positie? We zouden hier natuurlijk tegenin kunnen brengen dat de betekenisbeschrijvingen van Lieber & Baayen (1993) formele beschrijvingen zijn waarin een bepaalde mate van abstractie nodig is om tot een consistent en toepasbaar model te komen. Een voorbeeld als verharen roept echter wel de vraag op of de relatie met de ‘gewone’ betekenis, de betekenis in daadwerkelijk taalgebruik, nog wel aanwezig is. De relatie met het taalgebruik lijkt ook ver te zoeken in de betekenisomschrijving die Lieber & Baayen (1993) geven voor het werkwoord vermommen. Ook voor de betekenis van dit werkwoord wordt ervan uitgegaan dat zowel het prefix as het basiswoord een zelfstandige betekenisbijdrage leveren, oftewel: betekenisvermommen = betekenisver- + betekenismom 9
2. D E SEMANTIEK VAN HET PREFIX verNu betekent mom van oorsprong inderdaad ‘masker’, maar in het hedendaags Nederlands is deze betekenis zeer ongewoon en kennen we mom alleen nog in een enkele idiomatische uitdrukking. Voor de hedendaags taalgebruiker is het daarom erg onwaarschijnlijk dat z/hij vermommen analyseert als ver + mom en het de betekenis toekent ‘to cause a mask to go onto something’ zoals Lieber & Baayen (1993, 56) ons willen doen geloven. Het idee van strikte compositionaliteit gaat evident niet op voor een werkwoord als vermommen. Vermommen betekent immers meer dan de som der delen. Dergelijke semantisch ondoorzichtige woorden zijn vaak de resten van een niet langer vigerende systematiek. De opname van semantisch ondoorzichtige werkwoorden in de beschrijving van de betekenissystematiek van ver-, roept de vraag op wat het betekenismodel van Lieber & Baayen (1993) nu precies representeert. Lieber & Baayen (1993) staan ver- een monoseme, overkoepelende betekenis voor. Maar wat zegt ons deze betekenis nog over de bestaande betekenissystematiek als die ruim genoeg moet zijn om werkwoorden op te kunnen nemen die de hedendaagse systematiek niet langer representeren?
2.3
Naar een alternatief model van betekenis(beschrijving)
In de vorige paragraaf heb ik twee betekenisbeschrijvingen van het prefix ver- besproken. Daaruit is naar voren is gekomen dat er zowel op de categoriserende aanpak van De Vries (1975) als op de monoseme, compositionele benadering van Lieber & Baayen (1993) het nodige valt aan te merken. Het belangrijkste bezwaar op de classificatie van De Vries (1975) is dat zowel het aantal onderscheiden werkwoordsgroepen als de keuze voor bepaalde werkwoorden in een werkwoordsgroep onderhevig is aan een hoge mate arbitrariteit. Een categorisatie met een net iets andere indeling zou evengoed verdedigbaar zijn. Het belangrijkste punt van kritiek op de betekenisbeschrijving van Lieber & Baayen (1993) is de hoge mate van abstractie van de verschillende betekenisbeschrijvingen. Lieber & Baayen (1993) gaan uit van een overkoepelende, monoseme betekenis van ver-, die ruim genoeg moet zijn om alle ver-werkwoorden te kunnen beschrijven. Dit heeft tot gevolg dat de verschillende betekenissen die uit de analyse volgen van een vrij abstracte aard zijn. Doordat er weinig tot geen rekening gehouden wordt met het graduele karakter van compositionaliteit en semantische transparantie, moet deze betekenis zelfs zo abstract zijn dat ook werkwoorden beschreven kunnen worden die niet de hedendaagse betekenissystematiek representeren. De formulering van de betekenissen in dergelijke abstracte termen maakt dat interessante en voor de taalgebruiker re¨ele betekenisaspecten niet aan het licht komen. Een belangrijke vraag die we moeten stellen, is wat de betekenissen in de twee besproken analyses nu precies representeren. Heeft de indeling van de ver-werkwoorden in verschillende groepen van De Vries (1975) enige cognitieve realiteit? Dat wil zeggen, delen taalgebruikers de verschillende ver-werkwoorden daadwerkelijk in in verschillende groepen, ieder met een overkoepelende betekenis? Hetzelfde kunnen we aan de analyse van Lieber & Baayen (1993) vragen. Is de betekenis die Lieber & Baayen (1993) voorstellen voor ver- dezelfde betekenis die taalgebruikers in hun hoofd hebben? Of hebben we misschien puur te maken met de complexe systematisering van een talig fenomeen door taalkundigen? Nu hoeft dat op zichzelf geen bezwaar te zijn, maar als een beschrijving
10
Naar een alternatief model van betekenis(beschrijving) zonder deze complexiteit en abstractie de cognitieve realiteit ook (en beter) weet te vatten, verdient deze de voorkeur. Het model dat ik in deze scriptie wil voorstellen, is gebaseerd op het idee dat taalgebruikers bij taalproductie en -verwerking geen abstracte regels of andere abstracte representaties vormen op basis van hun ervaring met talige fenomenen. In plaats daarvan gebruiken taalgebruikers hun talige herinneringen direct bij de productie en verwerking van taal, zonder abstraherende tussenstappen (dit idee is onder andere vertegenwoordigd in: Skousen 2002, Daelemans et al. 1999, Daelemans & Van den Bosch 2005, Keuleers & Daelemans 2007). Elke talige ervaring (in de voornamelijk engelstalige literatuur ook wel EXEMPLAR genoemd) die een taalgebruiker in zijn of haar leven opdoet, wordt opgeslagen in het geheugen. Deze talige ervaring kan bestaan uit klankeigenschappen, uit woorden of grotere talige eenheden. Maar ook de context (syntactisch of sociaal) waarin een woord wordt gebruikt en de combinatie van al deze ervaringen, kunnen exemplars vormen. Tijdens de productie of verwerking van taal gebruiken we onze opgeslagen talige ervaringen, en kiezen we die ervaringen uit die op een bepaalde manier overeenkomst vertonen met de vorm die we willen produceren of verwerken. Taalproductie en -verwerking is in dit model het resultaat van analogisch redeneren op basis van onze talige ervaringen. Een voordeel van dit model van betekenis is dat betekenissen alleen procedureel bepaald zijn en dat het emergerende systeem (dat we kunnen beschrijven in termen van regels of andersoortige talige representaties) enkel bestaat bij de gratie van de aanwezige talige ervaringen. Anders geformuleerd, er bestaan geen regels of schema’s onafhankelijk van de talige ervaringen die een taalgebruiker beschikbaar heeft op een bepaald moment in zijn of haar leven. De betekenis van een ver-werkwoord kunnen we in dit model beschrijven als de talige ervaringen die een taalgebruiker van dat werkwoord heeft. Hoe wordt het werkwoord gebruikt, wat zijn de taalhandelingen die je ermee kunt uitvoeren, wat is het typische object dat de handeling uitgedrukt door het werkwoord ondergaat? Wanneer een taalgebruiker een nieuw werkwoord met ver- tegenkomt, zoekt h/zij in zijn of haar talige ervaringen naar woorden die in een bepaald opzicht overeenkomsten vertonen met dit werkwoord. Dat kunnen syntactische overeenkomsten zijn of fonologische en ook pragmatische. Op basis van het werkwoord dat de meeste overeenkomsten toont, kan de taalgebruiker tot een meest waarschijnlijke interpretatie komen van het nieuwe werkwoord. Dat er in dit model geen niveau van abstractie wordt aangenomen, betekent niet dat taalgebruikers geen semantische verwantschap tussen werkwoorden kunnen waarnemen. Taalgebruikers maken wel degelijk generalisaties over de betekenis van verschillende werkwoorden, maar dit hoeft niet via een abstractie te gaan. Woorden die in eenzelfde context voorkomen hebben vaak een goede kans semantisch verwant te zijn. De taalgebruiker heeft, met andere woorden, overeenkomstige talige ervaringen met verschillende woorden. Het zijn deze overeenkomsten in talige ervaringen op basis waarvan de taalgebruiker twee of meer woorden als semantisch verwant kan beschouwen. In hoofdstuk 4 zal ik een methode presenteren waarmee we op basis van daadwerkelijk gebruik van ver-, op een objectievere en minder arbitraire manier uitspraken kunnen doen over de eventuele semantische vergelijkbaarheid tussen verschillende ver-werkwoorden. 11
2. D E SEMANTIEK VAN HET PREFIX verMet deze analyse hoop ik een cognitief realistischer beeld te krijgen van de betekenissystematiek van ver-. Zoals we bij de bespreking van Lieber & Baayen (1993) hebben gezien, is het voor de beschrijving van de hedendaagse betekenissystematiek echter van belang een onderscheid te maken tussen semantisch doorzichtige en semantisch ondoorzichtige werkwoorden. De vraag is echter: hoe bepalen we of een werkwoord doorzichtig is of niet? Hoe kunnen we hierbij op een niet-arbitraire en min of meer objectieve manier te werk gaan? Deze vraag staat centraal in het volgende hoofdstuk.
12
Hoofdstuk 3
Semantische doorzichtigheid en ontleedbaarheid 3.1
Inleiding
Zoals bleek bij de bespreking van Lieber & Baayen (1993) is het voor de beschrijving van de hedendaagse betekenissystematiek van belang een onderscheid te maken tussen semantisch doorzichtige en semantisch ondoorzichtige woorden. Maar hoe bepalen we of een woord doorzichtig is of niet? Voor het hedendaags Nederlands hebben we vaak wel intu¨ıties over de doorzichtigheid van een woord, maar kunnen we hierbij ook op een consistente, nietarbitraire manier te werk gaan? In dit hoofdstuk zal ik een maat presenteren waarmee we de semantische transparantie en compositionaliteit van morfologisch complexe woorden op een objectievere manier kunnen onderzoeken. Op basis van deze maat zal ik laten zien dat semantisch transparante werkwoorden zich anders gedragen dan semantisch intransparante werkwoorden. De twee gedragen zich zodanig anders dat we van twee verschillende groepen werkwoorden kunnen spreken. De resultaten onderstrepen daarmee het belang een onderscheid te maken tussen doorzichtige en ondoorzichtige werkwoorden voor de beschrijving van de betekenissystematiek van ver-. De opbouw van dit hoofdstuk is als volgt. Ik zal beginnen met het uiteenzetten van de maat voor semantische transparantie (3.2). Vervolgens zal ik in paragraaf 3.3 de resultaten van de toepassing van deze maat op ver- bespreken. In paragraaf 3.4 zal ik ingaan op de interactie tussen semantische transparantie en productiviteit. Ik sluit af (3.5) met een opsomming van de belangrijkste bevindingen van dit hoofdstuk.
3.2
Het meten van semantische transparantie
In de morfologische literatuur is het een dominante gedachte dat de frequentie van woorden van invloed is op de compositionaliteit, de semantische transparantie en de manier van opslag van woorden (zie bijvoorbeeld Bybee 1985, Bybee 1995a, Bybee 1995b, Baayen & Lieber 1997). Ook in syntactische studies waarin de de focus op het constructionele karakter van taal wordt gelegd, is deze gedachte sterk vertegenwoordigd (zie bijvoorbeeld 13
3. S EMANTISCHE DOORZICHTIGHEID EN ONTLEEDBAARHEID verhinderen
ver-
hinderen
verhinderen
versnellen
ver-
snel
versnellen
Figuur 3.1: Twee voorbeelden van mogelijke verwerkingsroutes van woorden. De verwerkingsroute loopt via de doorgetrokken pijl.
Goldberg 2006). Het algemene idee is dat hoog-frequente woorden niet compositioneel zijn en een lage mate van semantische transparantie vertonen. Hoog-frequente woorden zijn opgeslagen in het mentale lexicon en worden bij de productie rechtstreeks opgehaald uit het lexicon. Laag-frequente woorden daarentegen, vertonen een hoge mate van compositionaliteit en semantische transparantie, zijn niet opgeslagen en worden telkens opnieuw gevormd bij de productie. In toenemende mate is er echter evidentie dat deze vaak als feit gepresenteerde gedachte een iets te eenvoudige voorstelling van zaken is. De Vaan et al. (2007) bijvoorbeeld, hebben in een recente studie aangetoond dat ook volstrekt regelmatige complexe morfologische nieuwvormingen zichtbare sporen achterlaten in het geheugen. Hoewel de precieze aard van de opslag van nieuwvormingen uit deze studie niet duidelijk wordt (is het complexe woord als geheel opgeslagen of wordt de koppeling tussen het basiswoord en bijvoorbeeld een suffix opgeslagen), doen de resultaten wel degelijk af aan de standaardopvatting dat laag-frequente woorden geen eigen representatie hebben in het mentale lexicon. Ook op de stellingname dat hoog-frequente woorden per definitie semantisch intransparant zijn en niet-compositioneel, is de afgelopen jaren de nodige kritiek geweest. Hay (2001, 2002) heeft bijvoorbeeld laten zien dat voor de mate van compositionaliteit en semantische transparantie, de absolute frequentie van een morfologisch complex woord ondergeschikt is aan de relatieve frequentie van dat woord ten opzichte van het basiswoord. Het basisidee is dat als een afleiding frequenter is dan het basiswoord, het afgeleide woord direct opgeroepen kan worden uit het geheugen en niet ‘via’ het basiswoord verwerkt hoeft te worden. Een woord als verhinderen heeft in het CONDIV-corpus (zie beneden) een frequentie van n=109, terwijl hinderen een frequentie heeft van n=58. Deze verhouding maakt het waarschijnlijker dat verhinderen niet zozeer ontleed wordt als ver + hinderen, maar rechtstreeks uit het geheugen wordt opgehaald. Het basiswoord van het werkwoord 14
Het meten van semantische transparantie versnellen daarentegen is frequenter dan de afleiding (respectievelijk n=4452 en n=84). Dit maakt het waarschijnlijker dat versnellen via snel verwerkt wordt. Figuur 3.1 (naar Hay 2001, 1045) geeft een schematische weergave van de twee verwerkingsstrategie¨en. De twee verwerkingsstrategi¨en in Figuur 3.1 representeren in essentie een ‘dual-route’model van taalverwerking en -productie waarin een strikt decompositionele component besloten ligt. Uit verschillende experimenten is echter gebleken dat dergelijke decompositionele modellen in verschillende opzichten vaak tekort schieten (voor uitgebreid een overzicht van tegenargumenten, zie Baayen 2006). Hoewel Hay (2001) haar idee illustreert aan de hand van een ‘dual-route’-model, kan de basisgedachte ook op andere modellen van taalverwerking toegepast worden. Zoals ze zelf schrijft: [...] the same prediction follows from all models in which both decomposition and whole-word access are available options (regardless whether they compete or converge), or in which the presence of the base word can be variably salient (Hay 2001, 1045). De relatieve frequentie van een afleiding ten opzichte van het basiswoord zou ik niet willen opvatten als de waarschijnlijkheid dat de afleiding via het basiswoord verwerkt wordt, maar als de waarschijnlijkheid dat het basiswoord met de afleiding geassocieerd wordt. Een afleiding als verhinderen heeft in deze opvatting een lagere waarschijnlijkheid geassocieerd te worden met het basiswoord dan, bijvoorbeeld, versnellen. De hoge waarschijnlijkheid dat versnellen geassocieerd wordt met het basiswoord snel, maakt dat versnellen semantisch doorzichtiger is dan verhinderen. Elke keer als het werkwoord versnellen wordt gebruikt, wordt daarmee ook (impliciet) snel opgeroepen. Afleidingen daarentegen waarbij de waarschijnlijkheid klein is dat er een associatie is met het basiswoord, hebben een grotere kans semantisch af te wijken, semantisch ondoorzichtig te zijn. Dergelijke afleidingen worden bij het gebruik zogezegd niet ‘gevoed’ door de betekenis van het basiswoord. Semantische transparantie kunnen we nu als volgt defini¨eren: ST =
F (c) F (b)
waarbij F(c) de frequentie is van een morfologisch complex woord binnen een corpus met N woorden en F(b) de frequentie van het basiswoord van dat woord. Merk op dat we met deze definitie berekenen wat de waarschijnlijkheid is dat een bepaald complex woord c met een basiswoord b geassocieerd wordt, binnen een afgebakende hoeveelheid tekst (het corpus). Dit reflecteert volgens mij een belangrijk aspect van semantische transparantie, namelijk dat de doorzichtigheid van een woord geen absoluut gegeven is, maar afhankelijk is van het actieve gebruik van woorden. Een woord als verbeelden is intu¨ıtief een vrij ondoorzichtige afleiding. Het is echter goed voorstelbaar dat de interne geleding van verbeelden voor een taalgebruiker meer naar voren zal komen naarmate het basiswoord beeld meer gebruikt wordt naast verbeelden.
15
3. S EMANTISCHE DOORZICHTIGHEID EN ONTLEEDBAARHEID
3.3
(On)doorzichtig ver-
In deze paragraaf zal ik op basis van de in de vorige paragraaf gepresenteerde maat de semantische transparantie van de ver-werkwoorden bespreken. Met deze gegevens hoop ik een beeld te krijgen van de levende systematiek van het prefix ver- in het hedendaags Nederlands. Voordat ik hiertoe overga zal ik eerst het in deze studie gebruikte corpus bespreken.
3.3.1
Het corpus
Het CONDIV-corpus (Grondelaers et al. 2000) vormt het empirische fundament van deze studie. Het corpus bestaat uit twee hoofdcomponenten (Nederlands-Nederlands en BelgischNederlands) die onderverdeeld zijn in subcorpora. Voor de huidige studie heb ik alleen gebruik gemaakt van de Nederlands-Nederlandse component van het corpus. Binnen deze component vinden we verschillende subcorpora: twee componenten met krantentaal en twee componenten met ‘internettaal’. Ik heb gebruik gemaakt van de twee componenten met krantentaal (bestaande uit een jaargang uit de Telegraaf en een jaargang uit het NRC Handelsblad) en van e´ e´ n van de internetcomponenten, namelijk Usenet (een subcorpus dat voornamelijk bestaat uit e-mailconversaties). De verschillende subcorpora samen tellen ongeveer 10 miljoen woorden.
3.3.2
Resultaten
In Tabel 3.1 staan verschillende frequentiegegevens voor het prefix ver- in het CONDIVcorpus.1 Per basiswoordsoort is telkens het aantal types en het aantal tokens gegeven. Werkwoorden die geen bestaand basiswoord (meer) hebben, zijn opgenomen onder ‘geen basiswoord’. Voor alle geattesteerde werkwoorden heb ik de frequenties van hun basistypes
tokens
ver- + A ver- + N ver- + V geen basiswoord
134 77 225 67
4743 2286 24178 12128
totaal
503
43335
Tabel 3.1: Frequentiegegevens van ver-werkwoorden in het CONDIV-corpus. Per basiswoordsoort is de typefrequentie en de tokenfrequentie gegeven. Werkwoorden zonder bestaand basiswoord zijn opgenomen onder ‘geen basiswoord’. 1
Zie Bijlage A voor een overzicht van de frequentiegegevens van de afzonderlijke ver-werkwoorden. Met behulp van een door mij geschreven script in de programmeertaal Python heb ik alle ver-werkwoorden evenals de type- en tokenfrequenties uit het corpus gehaald. Alle scripts die in deze studie gebruikt zijn (zie hoofdstuk 4) zijn te vinden op de bijgesloten cd-rom (bijlage C: /software/). De scripts kunnen eventueel ook per e-mail worden verstrekt. Mail daarvoor de auteur.
16
(On)doorzichtig ver-
basiswoord
transparante types ratio types transparante tokens ratio tokens
A
N
V
totaal
122 (134) .9104 4434 (4743) .9349
59 (77) .7662 793 (2286) .3469
179 (225) .7956 13635 (24178) .5639
360 (503) .7157 18862 (43335) .4352
Tabel 3.2: Semantische transparantie van ver-werkwoorden. De semantische transparantie is berekend op basis van de relatieve frequentie van de afleiding ten opzichte van het grondwoord. De tabel geeft per basiswoordsoort het aantal absolute types en tokens dat gemarkeerd is als semantisch transparant en het percentage transparante woorden. Tussen haakjes staan de type- en tokenfrequenties van de werkwoorden in het corpus (zie tabel 3.1). Werkwoorden zonder bestaand basiswoord zijn opgenomen bij het totaal.
woorden in het CONDIV-corpus opgezocht. Vervolgens heb ik voor elk ver-werkwoord de waarschijnlijkheid op associatie met de basiswoorden (de semantische transparantie) berekend op basis van de in paragraaf 3.2 besproken maat. Ligt de relatieve frequentie van een ver-werkwoord ten opzichte van het basiswoord onder de 1, dan is er een grotere kans dat het basiswoord met de afleiding geassocieerd wordt. Ligt de ratio boven de 1, dan neemt de kans af dat het basiswoord herkend wordt in de afleiding. Werkwoorden met een ratio onder de 1 zijn gemarkeerd als semantisch transparant, werkwoorden boven de 1 als intransparant. Tabel 3.2 geeft een overzicht van de resultaten. Laat me de resultaten stap voor stap bespreken. Op de eerste rij in de tabel vinden we per basiswoordsoort het aantal semantisch transparante werkwoordtypes. De groep werkwoorden zonder een bestaand basiswerkwoord is niet apart opgenomen in de tabel, maar ondergebracht bij het totaal. Tussen haakjes heb ik voor de duidelijkheid nogmaals de type- en tokenfrequenties van de werkwoorden in het corpus gegeven (zie Tabel 3.1). We zien dat er in de groep ver-werkwoorden op basis van een adjectief, 122 van de 134 werkwoordtypes semantisch transparant zijn. In totaal zijn er 360 types die gemarkeerd zijn als semantisch transparant. Op de tweede rij in de tabel heb ik het percentage semantisch transparante types gegeven ten opzichte van alle werkwoordstypes. Deze ratio berekenen we door het aantal transparante types te delen door het totaal aantal types. Uit de tabel komt duidelijk naar voren dat met name ver-werkwoorden op basis van een adjectief semantisch transparant zijn. Werkwoorden op basis van een nomen of een werkwoord doen het iets minder goed in termen van semantische transparantie (respectievelijk ST = .7662 en ST = .7956). Voor de tokens heb ik dezelfde procedure gevolgd als voor de werkwoordtypes. We zien dat de groep ver-werkwoorden op basis van een werkwoord veruit de meeste semantisch transparante tokens heeft. Kijken we echter naar de percentages, dan zien we dat wederom de groep werkwoorden op basis van een adjectief de meeste semantisch transpa-
17
3. S EMANTISCHE DOORZICHTIGHEID EN ONTLEEDBAARHEID
basiswoord
transparante types ratio types transparante tokens ratio tokens hapaxen P-waarde
adjectief
nomen
verbum
totaal
122 (134) .9104 4434 (4743) .9349 20 .0042
59 (77) .7662 793 (2286) .3469 20 .0087
179 (225) .7956 13635 (24178) .5639 25 .001
360 (503) .7157 18862 (43335) .4352 70 .0016
Tabel 3.3: Vergelijking tussen maat voor semantische transparantie met productiviteitsindex P. De semantische transparantie is berekend op basis van de relatieve frequentie van de afleiding ten opzichte van het grondwoord. De tabel geeft per basiswoordsoort het aantal absolute types en tokens dat gemarkeerd is als semantisch transparant en het percentage transparante woorden. Tussen haakjes staan de type- en tokenfrequenties van de werkwoorden in het corpus (zie tabel 3.1). Per basiswoordsoort is het aantal hapaxen en de productiviteitsindex P gegeven. Werkwoorden zonder bestaand basiswoord zijn opgenomen bij het totaal.
rante voorkomens bevat. Het verschil met de andere twee groepen werkwoorden is bij deze tokens bovendien vele malen groter dan bij de werkwoordtypes. Op basis van deze resultaten mogen we voorzichtig concluderen dat ver-werkwoorden op basis van adjectieven de hoogste mate van semantische transparantie bezitten. Zowel wat betreft het percentage werkwoordtypes als het percentage werkwoordtokens, presteert deze groep werkwoorden het beste.
3.4
Semantische transparantie en productiviteit
In de literatuur is vaak beweerd dat semantische transparantie nauw samenhangt met de notie productiviteit. Zoals Aronoff (1976, 45) opmerkt: ‘productivity goes hand in hand with semantic coherence’. In dit licht zou het interessant zijn om de productiviteit van de verschillende subcategorie¨en van ver-werkwoorden te vergelijken met de uitkomsten van de maat van semantische transparantie. De voorspelling – die Hay (2002, 535) zelf ook doet – is dat als semantische transparantie en productiviteit met elkaar samenhangen, we mogen verwachten dat de groep ver-werkwoorden met het hoogste percentage semantisch transparante werkwoorden, ook het productiefst is. De productiviteit van de ver-werkwoorden (en de subgroepen) heb ik bekeken met de door Baayen (1991) ontwikkelde productiviteitsmaat P. Deze maat geeft een productiviteitsindex terug die correspondeert met de waarschijnlijkheid of het potentieel nieuwe types van een categorie aan te treffen naarmate het aantal tokens stijgt. De index P kunnen we
18
Semantische transparantie en productiviteit berekenen door door het aantal hapaxen (woorden die 1 keer voorkomen (n1 )) te delen door de totale tokenfrequentie N van een categorie (oftewel: P = n1 /N ). In Tabel 3.4 heb ik nogmaals de resultaten van de semantische transparantie gegeven, maar nu met de corresponderende productiviteitsindices. In de tabel vinden we op de rij ‘hapaxen’ per basiswoordsoort het aantal geattesteerde werkwoorden met een frequentie van 1. Op de rij ‘P-waarde’ staan de productiviteitsindices per basiswoordsoort. We zien dat de productiviteitsindices een geheel ander beeld opleveren dan we eerder hebben gezien bij het meten van de semantische transparantie. Hoewel werkwoorden op basis van nomina in termen van semantische transparantie het slechtst presteren, is de productiviteitsindex voor deze groep werkwoorden het hoogst. In termen van productiviteit hebben de verwerkwoorden op verbale basis de laagste score. Hoe moeten we deze verschillen nu interpreteren? Is de voorgestelde maat van semantische transparantie niet in staat het productiviteitsaspect van een categorie weer te geven? Kan de productiviteitsindex P niet goed een beeld geven van semantische transparantie? Of zijn semantische transparantie en productiviteit niet zo nauw met elkaar verbonden als vaak wordt gedacht? De oplossing voor de verschillen moet volgens mij gezocht worden in een belangrijke assumptie die in de productiviteitsmaat P besloten ligt. De productiviteit van een categorie berekenen we met deze maat op basis het aantal hapaxen ten opzichte van de totale tokenfrequentie. De keuze voor hapaxen komt voort uit de voorspelling dat woorden met een frequentie van 1, de grootste kans hebben nieuwvormingen te zijn. ‘Oude’, niet langer gangbare woorden hebben echter ook vaak een lage frequentie, soms zelfs een frequentie van 1. De semantische transparantie van dergelijke ‘oude’ woorden is typisch laag (bijvoorbeeld omdat het basiswoord van de afleiding niet langer bestaat). Het komt erop neer dat de maat voor semantische transparantie in tegenstelling tot de productiviteitsindex P, gevoelig is voor niet langer gangbare woorden. Dit is een eerste mogelijke verklaring voor de verschillen tussen semantische transparantie en productiviteit van de verschillende ver-werkwoorden in Tabel 3.4. Een tweede oorzaak voor de verschillen moet eveneens gezocht worden bij de achterliggende assumptie van de productiviteitsindex P dat de hapaxen in een sample de beste indicatie zijn voor de productiviteit van een categorie. Als gevolg van deze assumptie worden alle woorden die zich boven deze grens bevinden streng gestraft, dus ook de woorden die een frequentie hebben van 2 of 3. Het is echter goed voorstelbaar dat nieuwvormingen in een tekst herhaald worden, precies om de reden dat het nieuwvormingen zijn. Als een taalgebruiker een bepaald nieuw woord vormt, is het goed mogelijk dat h/zij dat woord herhaalt om de hoorder een betere kans te geven tot een goede interpretatie van de nieuwvorming te komen. Ik heb het hier uiteraard alleen over situaties waarin met een zeker bewustzijn nieuwe woorden gevormd worden. Het is echter ook een bekend fenomeen dat taalgebruikers binnen een bepaald tijdsbestek onbewust dezelfde woorden en constructies gebruiken. Door een woord te gebruiken wordt het geactiveerd in het geheugen en dat vergroot de kans op herhaling van dat woord. Dit geldt uiteraard evengoed voor een bestaand woord als voor een nieuw gevormd woord. De voorgestelde maat voor semantische transparantie houdt wel rekening met mogelijke nieuwvormingen met een frequentie hoger dan 1. Op deze twee punten lijkt de voorgestelde maat van semantische transparantie superieur aan de productiviteitsindex P. We kunnen echter de uitkomsten van de semantische transpa19
3. S EMANTISCHE DOORZICHTIGHEID EN ONTLEEDBAARHEID rantie niet gelijkstellen aan de productiviteit, aangezien de maat ook woorden markeert als transparant die evident geen nieuwvormingen zijn. Immers, zolang de frequentie van het basiswoord hoger ligt dan de afleiding, wordt de afleiding als doorzichtig beschouwd. In verder onderzoek zou het interessant zijn te onderzoeken hoe de twee maten elkaar zouden kunnen aanvullen, en hoe we tot een maat van productiviteit kunnen komen waarin semantische transparantie is verwerkt. Voorlopig kunnen we de maat voor semantische transparantie wel opvatten als de mate van openheid of geslotenheid van een categorie. Merk op dat in de openheid en geslotenheid van een categorie impliciet het potentieel besloten ligt dat een categorie nieuwe leden opneemt. Om een verder beeld te krijgen van de interactie tussen productiviteit en semantische transparantie, richt ik me in de rest van deze paragraaf op de categorie ver-werkwoorden als geheel in plaats van op de verschillende subcategorie¨en. Een vraag die we kunnen stellen, is of we de semantisch transparante en de semantisch intransparante werkwoorden mogen beschouwen als twee aparte categorie¨en. Gedragen semantisch transparante werkwoorden zich significant anders dan semantisch intransparante werkwoorden? Volgen ze bijvoorbeeld een onderscheiden frequentieverdeling? In Figuur 3.2 zijn de frequentiedistributies voor de semantisch transparante (de rode lijn) en intransparante (de groene lijn) werkwoorden gegeven. De grafiek geeft de dichtheid weer van de frequentiedistributies, waarin de relatieve waarschijnlijkheid gemeten is op een waarde in de buurt van x (Baayen 2008, 78).2 De grafiek roept de suggestie op dat de groep semantisch transparante werkwoorden een voorkeur heeft voor laag- en middelfrequente werkwoorden. De groep intransparante werkwoorden daarentegen heeft ten opzichte van de transparante werkwoorden een lichte voorkeur voor werkwoorden met een middel tot hoge frequentie. Mogen we op basis van deze gegevens concluderen dat de ver-werkwoorden inderdaad in twee groepen uiteenvallen met een verschillende frequentiedistributie (laag- tot middelfrequent voor semantisch transparant en middel- tot hoogfrequent voor intransparante werkwoorden)? Verschillen in gemiddeldes onderzoeken we normaal met een t-test, maar Figuur 3.2 geeft de indruk dat de distributies geen normaalverdeling volgen, waardoor een t-test niet gepast is.3 . Een S HAPIRO -W ILK TEST FOR NORMALITY bevestigt dit beeld en laat zien dat de kans dat deze verdelingen een normaalverdeling volgen klein is: Semantisch transparante werkwoorden (W = 0.9472, p = 4.839e-10), semantisch intransparante werkwoorden: (W = 0.9698, p = 0.002990).4 Vanwege deze ongelijke verdeling heb ik een andere test gebruikt, namelijk de W ILCOXON TEST. Deze test geeft conservatievere p-waardes terug dan een t-test. Ondanks dit conservatisme zijn de gemiddelde frequenties van de semantisch transparante en semantisch intransparante werkwoorden significant verschillend: W = 32515.5, p = 3.9e-06. Een KOLMOGOROV-S MIRNOV TWO - SAMPLE TEST onderzoekt of twee verdelingen significant van elkaar verschillen. De test bevestigt het beeld dat we met 2
Omdat de frequentieverdeling van de ver-werkwoorden zeer ongelijk verdeeld is (veel laag-frequente vormen tegenover weinig hoog-frequente vormen), zijn de frequentiegegevens gelogaritmiseerd, om zo iets van de ongelijke verdeling af te halen. De logfrequentie 0 in Figuur 3.2 representeert de werkwoorden met een frequentie van 1. 3 Een t-test is alleen gepast als we te maken hebben met redelijk symmetrische distributies. 4 Een KOLMOGOROV-S MIRNOV ONE - SAMPLE TEST bevestigt deze test gedeeltelijk. Semantisch transparante werkwoorden: D = 0.1094, p = 0.0003606; semantisch intransparante werkwoorden: D = 0.0732, p = 0.4273.
20
0.10 0.00
0.05
dichtheid
0.15
0.20
Semantische transparantie en productiviteit
−2
0
2
4
6
8
10
frequentie
Figuur 3.2: Frequentiedistributies voor semantisch transparante en intransparante verwerkwoorden. De rode lijn representeert de frequentiedistributie van de semantisch transparante werkwoorden, de groene lijn die van de intransparante werkwoorden. De frequenties zijn omgezet naar log-waardes.
twee onderscheiden distributies te maken hebben: D = 0.1986, p = 0.0006233. Op basis van deze resultaten mogen we concluderen dat de ver-werkwoorden onderverdeeld mogen worden in twee groepen: een groep met semantisch transparante werkwoorden en een groep met semantisch intransparante werkwoorden. De twee distributies verschillen in vorm en hebben verschillende frequentiegemiddeldes: semantisch transparante werkwoorden geven de voorkeur aan lage(re) frequenties, intransparante werkwoorden aan hoge(re) frequenties. Deze resultaten werpen een interessant licht op de interactie tussen semantische transparantie en productiviteit. Het is een oncontroversi¨ele claim dat laagfrequente vormen een grotere kans hebben nieuwvormingen te zijn dan hoogfrequente vormen. Hoogfrequente vormen daarentegen hebben een grotere kans op een idiomatische betekenis (door proces-
21
3. S EMANTISCHE DOORZICHTIGHEID EN ONTLEEDBAARHEID sen van lexicalisatie bijvoorbeeld). Figuur 3.2 bevestigt dit. Het laat zien dat laagfrequente vormen doorgaans semantisch transparant zijn (met de hoogste piek op woorden met een frequentie van 1) en hoogfrequente woorden intransparant. Ze bevestigen dus het idee van Aronoff (1976) dat productiviteit en semantische coherentie hand in hand gaan. Het is echter een tendens en geen rigide, binaire oppositie.
3.5
Conclusie
In dit hoofdstuk heb ik een maat gepresenteerd waarmee we de semantische transparantie van morfologisch complexe woorden kunnen meten. Met deze maat berekenen we op basis van de relatieve frequentie van de afleiding ten opzichte van het basiswoord de waarschijnlijkheid dat het basiswoord van een afleiding met de afleiding geassocieerd wordt. De gedachte is dat als het basiswoord geassocieerd wordt met de afleiding, de betekenis van het basiswoord nog aanwezig is in de afleiding. Afleidingen waarbij deze associatie niet aanwezig is, worden niet gesteund door de betekenis van het basiswoord en hebben daardoor meer kans een idiomatische betekenis te ontwikkelen. Uit de toepassing van deze maat op de categorie werkwoorden met ver- bleek dat de groep werkwoorden met een adjectief als basiswoord de hoogste mate van semantische transparantie vertonen. Deze groep werkwoorden kunnen we beschouwen als de meest open subcategorie werkwoorden met ver-. De groep werkwoorden met een werkwoord als basis, vertoont juist de minste semantische doorzichtigheid en is daarmee de meest gesloten subcategorie. Verder heb ik laten zien dat semantisch transparante werkwoorden en semantisch in transparante werkwoorden een andere frequentiedistributie volgen. Semantisch doorzichtige werkwoorden zijn vaak laag- tot middelfrequent. De groep ondoorzichtige werkwoorden heeft een voorkeur voor hoge(re) frequenties. Op basis van de verschillen in frequentiedistributies mogen we concluderen dat we van twee verschillende groepen werkwoorden mogen spreken. Ze volgen een eigen distributiecurve en hebben significant verschillende frequentiegemiddeldes. De levende systematiek van een categorie wordt gerepresenteerd door de semantische transparantie en productiviteit van de categorie. De geconstateerde relatie tussen semantische transparantie en productiviteit onderstreept het belang een onderscheid te maken tussen semantisch doorzichtige en semantisch ondoorzichtige werkwoorden voor de beschrijving van de betekenissystematiek van ver- in het hedendaags Nederlands.
22
Hoofdstuk 4
Automatische inductie van semantische verwantschap 4.1
Inleiding
In de evolutionaire biologie wordt het onderscheid gemaakt tussen ‘parallelle’ en ‘convergerende’ evolutie. Parallelle evolutie beschrijft het proces waarin twee soorten met een gedeelde voorouder een bepaalde overeenkomstige biologische eigenschap ontwikkelen. Convergerende evolutie is het fenomeen waarbij soorten die biologisch niet verwant zijn, door interactie met eenzelfde ecologische omgeving een overeenkomstige eigenschap verkrijgen. Klassieke voorbeelden hiervan zijn het hebben van vleugels (vogels, insecten en vleermuizen), de gestroomlijnde vorm van zowel haaien als dolfijnen en het hebben van vingerafdrukken (koala’s en mensen). In al deze gevallen is de omgeving of context waarin de organismen leven van invloed op de uitkomst van evolutionaire ontwikkelingen (Dennett 1995). Eenzelfde invloed van context vinden we bij een minder biologisch organisme: het woord. Elk woord heeft een bepaalde gebruiksregel in de taalgemeenschap: het wordt op een conventionele manier en op conventionele plaatsen gebruikt. Dat kunnen dus lingu¨ıstische conventies zijn (in het Nederlands bijvoorbeeld de plaatsing van het werkwoord op de tweede zinspositie), maar ook sociale conventies (in welke situatie kies je welk woord?). Woorden die in overeenkomstige contexten gebruikt worden, delen vaak semantische eigenschappen. Parallel aan convergerende evolutie in de biologie kunnen we het ook zo formuleren, dat de context waarin woorden gebruikt worden, van invloed is op de overeenkomst in betekenis tussen woorden. Het idee dat semantisch gerelateerde woorden in overeenkomstige contexten voorkomen, wordt in de computationele taalkunde de DISTRIBUTIONELE HYPOTHESE genoemd. De intu¨ıtie hierachter vinden we terug in de beroemde uitspraak van Firth (1957): ‘You shall know a word by the company it keeps!’. Met andere woorden: je kunt de betekenis van een woord te weten komen door de contexten waarin het woord voorkomt, te onderzoeken. Woorden met een min of meer overeenkomstige context hebben een grotere kans semantisch verwant te zijn. Bekijk, om een indruk te krijgen hoe de context van een woord van invloed kan zijn op 23
4. D ISTRIBUTIONELE VERWANTSCHAP de betekenis van een woord, het volgende voorbeeld (naar Lin 1998): (4.1) Er staat een fles tezg¨uino op tafel. Iedereen houdt van tezg¨uino. Je wordt dronken van tezg¨uino. Tezg¨uino wordt gemaakt van graan. Hoewel we in eerste instantie niet weten wat tezg¨uino betekent, geeft de context ons een redelijk helder beeld: het gaat om een alcoholische drank. Het idee is nu dat vergelijkbare woorden in vergelijkbare contexten voorkomen (denk aan bier, tequila, jenever). De woorden waarmee een bepaald woord voorkomt en met welke niet, kunnen we opvatten als eigenschappen van dat woord. Op deze manier kunnen we de betekenis van een woord w defini¨eren als → − w = (e1 , e2 , e3 , . . . , eN ) waarbij e een eigenschap is en N het totaal aantal mogelijke eigenschappen (bijvoorbeeld het totaal aantal woorden in een corpus). Een woord w bestaat in deze opvatting uit een profiel met een reeks eigenschappen. Door de eenzelfde profiel te berekenen voor alle woorden in een corpus, kunnen we een beeld krijgen van welke woorden dicht bij elkaar staan en welke ver(der) van elkaar af. Tabel 4.1 geeft een idee hoe zoiets eruit zou kunnen zien. Uit de tabel komt duidelijk naar voren dat banaan en appel enerzijds en bier en
bier tezg¨uino appel banaan
fles
lekker
dronken
hop
zoet
gezond
1 1 0 0
1 1 1 1
1 1 0 0
1 0 0 0
0 0 1 1
0 0 1 1
Tabel 4.1: Fictief voorbeeld van woordovereenkomst op basis van context.
tezg¨uino anderzijds meer met elkaar gemeen hebben in termen van de woorden waarmee ze voorkomen. Met behulp van een afstandsmaat (zie beneden) kunnen we nu berekenen hoe ver de verschillende woorden van elkaar verwijderd zijn in termen van hun profiel. We hebben nu een eerste indruk van hoe we semantische overeenkomst tussen woorden kunnen uitleggen en berekenen in termen van de context waarin woorden voorkomen. In dit hoofdstuk wil ik onderzoeken of we op basis van de contexten waarin ver-werkwoorden gebruikt worden, semantische overeenkomsten kunnen aantonen tussen de werkwoorden. Hiermee hoop ik evidentie te vinden voor de hypothese dat we generalisaties kunnen maken over verschillende betekenissen zonder daarbij een beroep te hoeven op abstractie. In de volgende paragraaf zal ik dieper op ingaan op de notie context en zal ik de precieze methode beschrijven die ik voor de analyse van de ver-werkwoorden heb gekozen. In paragraaf 4.3 zal ik de resultaten van deze analyse bespreken. Ik sluit af in paragraaf 4.4 met de belangrijkste bevindingen van dit hoofdstuk.
24
Methodologie
4.2
Methodologie
In deze paragraaf beschrijf ik de precieze opbouw van het onderzoek naar semantische overeenkomsten van ver-werkwoorden. Ik zal de volgende stappen bespreken die voor de analyse noodzakelijk zijn: 1. de context op basis waarvan ik de semantische overeenkomsten tussen werkwoorden heb proberen te achterhalen (4.2.1); 2. hoe de selectie van werkwoorden tot stand is gekomen (4.2.2); 3. de associatiegewichten die ik heb toegepast en welke afstandsmaat voor semantische overeenkomst ik heb gekozen (4.2.3).
4.2.1
De context
In de inleiding van dit hoofdstuk heb ik een eerste indruk gegeven hoe de context van een woord van invloed kan zijn op de betekenis van dat woord en hoe we woorden met een overeenkomstige betekenis kunnen identificeren. Maar de context van een woord kan op verschillende manieren gedefinieerd worden. De context kan bijvoorbeeld uit een arbitrair aantal woorden bestaan rondom een bepaald doelwoord. Samen vormen deze woorden het ’contextraam’ van het doelwoord. Methodes die deze techniek gebruiken voor het defini¨eren van de context van een woord worden ook wel WINDOW- BASED genoemd. Informatie over de woordsoort van een woord of syntactische relaties tussen woorden, worden in deze methodes buiten beschouwing gelaten. We kunnen de context van een woord ook defini¨eren als de syntactische context waarin een woord voorkomt. Zo vormen bijvoorbeeld de werkwoorden die in subjectrelatie staan tot een bepaald nomen, de context van dat nomen. Deze techniek wordt SYNTACTIC - BASED genoemd. Voor de bestudering van de semantische overeenkomsten tussen de ver-werkwoorden definieer ik de context van een werkwoord in termen van de semantische objecten die al dan niet met dat werkwoord voorkomen. Onder semantische objecten van het werkwoord versta ik: ’objecten die als gevolg van de handeling uitgedrukt door het werkwoord een bepaalde verandering (hebben) ondergaan’. Deze opvatting van object is vrij ruim. Een semantisch object van een ver-werkwoord is in deze opvatting zowel het direct object van een transitief gebruikt werkwoord (als in Hij verstuurt een email) als het subject (of patiens) van een onpersoonlijk gebruikt werkwoord (als in De kwaliteit verbetert). We kunnen de contextdefinitie voor de ver-werkwoorden weergeven als → − w = (e1 , e2 , e3 , . . . , eN ) waarbij w het doelwoord is en e de mogelijke semantische objecten. De keuze voor de semantische objecten van ver-werkwoorden als context vloeit voort uit een primair onderdeel van de semantiek van de werkwoorden: het aspect van ’verandering’. Zoals we hebben gezien in hoofdstuk 2 delen alle ver-werkwoorden de abstracte betekenis van ’verandering’ en elke verandering heeft een bepaald object dat deze verandering ondergaat. Het lijkt me
25
4. D ISTRIBUTIONELE VERWANTSCHAP daarom goed te verdedigen de context van de ver-werkwoorden te defini¨eren in termen van hun semantische objecten. Nu we de context hebben bepaald op basis waarvan we de ver-werkwoorden willen vergelijken, kunnen we overgaan tot de andere methodologische stappen die nodig zijn voor de analyse.
4.2.2
Werkwoordselectie en extractie van de gegevens
Aangezien het CONDIV-corpus niet voorzien is van ‘Part Of Speech’-informatie (POS) of anderszins taalkundige meta-informatie, kan het voor een studie naar werkwoorden niet gemakkelijk rechtstreeks geraadpleegd worden. Ik heb het corpus daarom eerst getagged met behulp van de aan de Universiteit van Tilburg ontworpen tagger Tadpole 0.2 (Van den Bosch et al. 2007). Hoewel de tagger nog een b`eta-versie is, zijn de resultaten veelbelovend. Een voordeel van deze tagger is dat het corpus niet alleen voorzien kan worden van POS, maar ook van lemmata en morfologische segmentatie. Het analyseren van semantische overeenkomst op basis van de context waarin woorden voorkomen, wordt pas betrouwbaar wanneer we enigszins frequente woorden in de analyse betrekken (Stefanowitsch & Gries 2005). Ik heb daarom een eerste selectie gemaakt van ver-werkwoorden in het CONDIV-corpus die middel- tot hoogfrequent zijn. Vervolgens heb ik op basis van de gegevens over de semantische doorzichtigheid (hoofdstuk 3) een willekeurige selectie van semantisch doorzichtige werkwoorden gemaakt. Het aantal geselecteerde werkwoorden bedraagt 54 werkwoorden. Met behulp van een aantal door mij geschreven scripts in de programmeertaal Python, heb ik voor al deze werkwoorden de zin waarin ze voorkomen uit het corpus gehaald.1 Vervolgens heb ik bij al deze werkwoorden handmatig de semantische objecten die met de werkwoorden voorkomen ge¨ıdentificeerd. De 54 werkwoorden zijn goed voor 3305 ‘werkwoord plus object’-combinaties, met een tokenfrequentie van 5332. In totaal zijn 2233 object types ge¨ıdentificeerd.2 Deze gegevens zijn geplaatst in matrix waarin de werkwoorden de kolommen representeren en de objecten de rijen. Vervolgens zijn alle cellen (die een ‘werkwoord plus object’-combinatie representeren) ingevuld met de tokenfrequentie van de betreffende ‘werkwoord plus object’-combinatie. Tabel 4.2 geeft een indicatie hoe een dergelijke matrix eruit ziet.
4.2.3
Woordassociatie, afstandsmaat en clusteranalyse
Het doel van de hier gepresenteerde analyse is te onderzoeken in welke mate de verwerkwoorden semantisch met elkaar overeenkomen of verschillen in termen van de context waarin ze gebruikt worden. Om dat te kunnen doen hebben we nog twee dingen nodig: een ASSOCIATIEMAAT (waarmee we de associatiesterkte tussen een werkwoord en een object kunnen meten) en een AFSTANDSMAAT (waarmee we de overeenkomsten en verschillen 1 Alle scripts die gebruikt zijn voor de extractie van de werkwoorden en de objecten en de analyses (zie beneden) zijn te vinden op de bijgesloten cd-rom (bijlage C: /software/). 2 Deze en uitgebreidere frequentiegegevens zijn ook te vinden op de bijgesloten cd-rom (Bijlage C: /data/frequentiegegevens).
26
Methodologie
verschuiven
verbreken
verlopen
vergroten
...
verhogen
samenleving verkoop accent besteding aanvraag contract .. .
0 0 3 0 0 0 .. .
2 0 0 0 0 2 .. .
0 3 0 0 1 2 .. .
0 4 0 1 0 0 .. .
... ... ... ... ... ...
0 0 0 1 0 0 .. .
rivier
0
0
0
0
... ...
0
Tabel 4.2: Deel van matrix met ‘werkwoord plus object’-combinaties. In de kolommen staan de werkwoorden, in de rijen de objecten. Telkens is aangegeven met welke tokenfrequentie een combinatie van werkwoord en object voorkomt.
tussen de werkwoorden op basis van hun profielen kunnen meten). Laten we beginnen met de associatiemaat. Pointwise Mutual Information De tokenfrequentie waarmee een bepaalde combinatie van werkwoord en object voorkomt is geen goede indicatie van de associatiesterkte tussen dat werkwoord en dat object. De belangrijkste reden hiervoor is dat, hoewel een bepaald object met een redelijke frequentie voorkomt met een werkwoord, dat object helemaal niet informatief hoeft te zijn voor dat werkwoord. Het object kan bijvoorbeeld met veel meer andere woorden voorkomen waardoor het niet veel zegt over de semantiek van het doelwoord (hier: het werkwoord). Andersom kan ook: als een bepaald object met een vrij lage frequentie voorkomt met een bepaald werkwoord, zouden we op basis van de tokenfrequentie kunnen concluderen dat de associatie tussen dat object en het werkwoord laag is. Maar wat als het object behalve met dit werkwoord helemaal niet voorkomt? Dan zou de associatie eigenlijk heel hoog moeten zijn. Wat we nodig hebben, is een associatiemaat waarmee we kunnen berekenen hoeveel vaker dan kans een bepaald object (een eigenschap van een werkwoord) voorkomt met een werkwoord. Curran (2003) heeft laten zien dat de associatiematen die we kunnen gebruiken voor het berekenen van overeenkomsten tussen woorden op basis van hun context, dezelfde maten zijn voor het vinden van collocaties. Er zijn bijzonder veel associatiematen genoemd in de literatuur (voor een overzicht zie o.a. Evert 2004, Jurafsky & Martin 2008). Een van de invloedrijkste maten van associatie, ge¨ıntroduceerd door Church & Hanks (1990), is P OINTWISE M UTUAL I NFORMATION. Ik heb voor deze analyse voor deze maat gekozen, omdat hiermee in verschillende studies
27
4. D ISTRIBUTIONELE VERWANTSCHAP goede resultaten zijn geboekt (zie bijvoorbeeld Van der Plas 2008). Pointwise mutual information (PMI) is een associatiemaat van hoe vaak twee gebeurtenissen x en y (bijvoorbeeld twee woorden) samen plaatsvinden, vergeleken met wat we zouden verwachten als ze onafhankelijk van elkaar zouden zijn. De formule is I(x, y) = log2
P (x, y) P (x)P (y)
waarin P(x,y) de waarschijnlijkheid is dat x en y samen voorkomen en P(x)P(y) het product is van de waarschijnlijkheid van het voorkomen van x en de waarschijnlijkheid van het voorkomen van y. Wat meet PMI nu precies? Met PMI kunnen we de hoeveelheid informatie meten die een variabele bevat over de andere variabele (Manning & Sch¨utze 1999, Jurafsky & Martin 2008). Met andere woorden: wat weten we over gebeurtenis y als gebeurtenis x heeft plaatsgevonden en vice versa? In het geval van collocaties houdt dit de mate van associatie in tussen woord1 en woord2 . De PMI voor woord w met eigenschap e berekenen we als volgt: P (w, e) P M I(w, e) = log2 P (w)P (e) Laat me dit alles wat concreter maken met een voorbeeld. In het CONDIV-corpus komt het werkwoord verbreken in combinatie met het object verbinding 33 keer voor. Verbreken komt in totaal 95 keer voor en verbinding 407 keer. Met de PMI-waarde kunnen we meten hoe sterk verbreken en verbinding elkaar aantrekken. We krijgen met de maat een idee hoe zeker we ervan kunnen zijn dat als we verbreken tegenkomen in het corpus, verbreken vergezeld is van verbinding. Voor de berekening van de PMI-waarde moeten we de waarschijnlijkheden berekenen dat we verbreken en verbinding samen tegenkomen in een corpus en de waarschijnlijkheden van het aantreffen van verbreken en van verbinding. De waarschijnlijkheid kunnen we berekenen door de tokenfrequentie te delen door de grootte van het corpus. Vervolgens delen we de waarschijnlijkheid van verbreken met als object verbinding door het product van de waarschijnlijkheid op verbreken en de waarschijnlijkheid op verbinding. Als de logwaarde hiervan nul is, zijn de woorden onafhankelijk. Hoe verder de uitkomst van de nul verwijderd is, hoe sterker de associatie tussen de twee woorden. De complete berekening van de PMI voor verbreken en verbinding is als volgt: P M I(verbreken, verbinding) = log2 = log2
P (verbreken, verbinding) P (verbreken) × P (verbinding) 33 10859081 95 10859081
×
407 10859081
≈ 13.18
De PMI-waarde tussen verbreken en verbinding is 13.18. Dat betekent dat de twee woorden elkaar in behoorlijk sterke mate aantrekken. Ik heb de PMI-waarde voor alle combinaties van werkwoord plus object in het corpus berekend en deze gegevens geplaatst in een matrix gelijk aan Tabel 4.2. 28
Methodologie Helaas is PMI geen goede maat voor woorden met een lage frequentie, met name voor woorden met een frequentie van e´ e´ n (zie Manning & Sch¨utze 1999, 179-182). Stel dat een bepaald object in een corpus slechts e´ e´ n keer voorkomt, en wel met een van de verwerkwoorden. De PMI-waarde tussen deze twee woorden is dan heel hoog. Hoewel de PMI-waarde tussen dit soort woorden heel hoog is, hebben we hier vaak te maken met combinaties die elkaar naar onze intu¨ıtie helemaal niet aantrekken. Om dit probleem te overkomen heb ik alleen de PMI-waarde voor semantische objecten vanaf een frequentie van twee berekend. Objecten die slechts e´ e´ n keer voorkomen in het corpus hebben een PMI-waarde van nul gekregen (deze zijn dus gemarkeerd als onafhankelijk).3 Cosine afstandsmaat Om de verschillende werkwoorden te vergelijken op basis van hun contexten hebben we zoals gezegd een maat nodig waarmee we de afstand tussen de werkwoorden kunnen berekenen. Ik heb gekozen voor de Cosine-afstandsmaat. Evenals in het geval van PMI als associatiemaat, heb ik voor de Cosine-maat gekozen, omdat met deze maat in verschillende studies goede resultaten zijn behaald (zie Manning & Sch¨utze 1999, Curran & Moens 2002, Van der Plas 2008). Cosine is een geometrische maat die de cosinus teruggeeft van de hoek tussen de profielen van de werkwoorden. De Cosine berekenen we als het product van de (in deze studie gewogen) profielen: Σ gewicht(prof ielwoord1 ) × gewicht(prof ielwoord2 ) Cosine = p Σ gewicht(prof ielwoord1 )2 × gewicht(prof ielwoord2 )2 Als twee woorden precies dezelfde distributie hebben, is de hoek tussen de profielen nul. De waarde van de Cosine-maat is dan 1 (cos(0◦ ) = 1.0). Woorden die een tegenovergestelde distributie vertonen, staan in een hoek van cos(180◦ ) en krijgen de waarde -1. Orthogonale profielen krijgen de waarde 0 (cos(90◦ )) (Manning & Sch¨utze 1999, 300). We berekenen de semantische afstand tussen de verschillende werkwoorden op basis van gewogen contexten (die we berekend hebben met behulp van de associatiemaat PMI). In de formule staat ’gewicht’ voor de gebruikte gewichtsfactor.
3 De matrix met alle PMI-waardes tussen werkwoorden en objecten is te vinden op de cd-rom (Bijlage C: /data/matrix-PMI).
29
30 verslechteren vergroten vertalen verdubbelen verkopen vergroten verhuren verhogen verschuiven versnellen verlagen verzieken verleggen verbeteren verbeteren verlopen verzenden versnellen verpesten versterken
verbeteren verdubbelen verduidelijken vergroten verhuren verkleinen verkopen verlagen verleggen verlopen verminderen verpesten verschuiven verslechteren versterken verstrijken versturen vertragen verzieken verzwakken
.342 .295 .209 .295 .249 .249 .249 .315 .191 .230 .243 .271 .191 .342 .189 .208 .456 .258 .271 .184
vergroten verhogen verzwakken verhogen verouderen verdubbelen verouderen verminderen verspelen verstrijken vergroten verdraaien verstrijken versterken verzwakken verschuiven verkopen verlopen verbeteren verduidelijken
k=2 .201 .256 .152 .271 .173 .143 .246 .243 .126 .208 .239 .190 .182 .122 .184 .182 .145 .177 .148 .152
versterken verminderen verwoorden verkleinen verbouwen verstoppen2 verhandelen verdubbelen verhogen vertragen verhogen verbeteren verplaatsen verzieken verslaan verspelen verplaatsen verzieken verdraaien verdrijven
k=3 .189 .168 .131 .249 .155 .114 .159 .095 .098 .177 .222 .125 .141 .100 .148 .053 .135 .123 .125 .151
verzieken verkleinen verzachten verminderen verplaatsen verhogen versturen verschuiven verplaatsen verschuiven verdubbelen verzenden verlopen vergeven2 verwoorden vertragen vertalen verschuiven vertragen vervullen
k=4 .148 .143 .123 .239 .077 .095 .145 .074 .093 .116 .168 .113 .116 .090 .134 .034 .133 .097 .123 .105
Tabel 4.3: De vier (k) dichtstbijzijnde buren (Nearest Neighbours) voor 20 van de 54 onderzochte werkwoorden. Voor elk woord in de linker kolom geeft de tabel de 4 werkwoorden die wat betreft hun context het meest met dat werkwoord overeenkomen. Voor elk werkwoord is de cosinusafstand tot het doelwoord gegeven.
k=1
doelwoord
4. D ISTRIBUTIONELE VERWANTSCHAP
Resultaten
4.3
Resultaten
Contextuele afstanden tussen werkwoorden In Tabel 4.3 heb ik voor 20 van de 54 werkwoorden de vier werkwoorden gegeven die op basis van hun context de dichtstbijzijnde buren (in de overwegend engelstalige literatuur ook wel N EAREST N EIGHBOURS (NN) genoemd) van die werkwoorden zijn. De afstanden tussen de werkwoorden zijn berekend op basis van de Cosine afstandsmaat, zoals beschreven in paragraaf 4.2.3 met pointwise mutual information (PMI) als gewichtsfactor. Voor een overzicht van alle werkwoorden en hun vier dichtstbijzijnde buren, zie Bijlage B.4 De resultaten zijn veelbelovend. We zien verschillende homogene werkwoordparen en -groepen. Zo is verzenden bijvoorbeeld de dichtstbijzijnde buur van het semantisch nauw verwante versturen, en hebben verzieken en verpesten blijkens hun cosinushoek veel contextuele overeenkomsten. Ook zien we werkwoorden met meerdere semantisch coherente buren. Goede voorbeelden daarvan zijn vergroten, verdubbelen en bijvoorbeeld verminderen. Ook een werkwoord als verschuiven deelt zijn distributie met semantisch verwante woorden. We zien in twee van de vier buren van verschuiven het locatieve betekenisaspect van ’verplaatsen’ terug (verleggen, verplaatsen). Een laatste interessant voorbeeld is het werkwoord verlopen. Met uitzondering van verschuiven (k=4), delen al deze werkwoorden het semantische aspect van ’tijd’. Op basis van deze resultaten mogen we voorzichtig concluderen dat de cosinusafstandsmaat een goede maat is voor het opsporen van overeenkomsten tussen (werk)woorden op basis van hun distributionele eigenschappen. Daar moet echter wel bij gezegd worden dat de cosinuswaardes in de meeste gevallen vrij laag zijn. Zoals echter al naar voren komt uit Tabel 4.3 en wat later in de clusteranalyse nog duidelijker zal worden, zijn de waardes onderscheidend genoeg. Dat wil zeggen, hoewel de waardes niet heel hoog zijn, zijn ze toch in staat semantisch coherente groepen werkwoorden te onderscheiden. Een tweede voorzichtige conclusie die we aan de resultaten mogen verbinden, is dat de gekozen context van de werkwoorden, de semantische objecten, op basis waarvan we de woorden hebben vergeleken, informatief is voor het ontdekken van semantische overeenkomsten. De resultaten versterken het argument dat de semantische objecten van de ver-werkwoorden een primair onderdeel van hun betekenis vormen. De resultaten zijn echter niet allemaal even rooskleurig. Verschillende doelwoorden in Tabel 4.3 hebben buren die semantisch moeilijk te verenigen zijn met het doelwoord. Enkele voorbeelden zijn: versturen met als k=4 vertalen, verhuren met als k=2 verouderen en verpesten met als k=4 verzenden. De algemene tendens in de tabel lijkt te zijn dat de kwaliteit van de buren (wat betreft de semantische overeenkomst met het doelwoord) afneemt vanaf de dichtstbijzijnde buur tot buur k=4. De dichtstbijzijnde buur (k=1) is over het algemeen semantisch coherent met het doelwoord. Vanaf k=2 zijn de resultaten minder eenduidig. Enkele tegenvoorbeelden daargelaten, bevestigen de resultaten in Tabel 4.3 de hypothese dat we semantisch overeenkomstige werkwoorden kunnen identificeren op basis van hun 4
De complete matrix met daarin de afstanden tussen alle werkwoorden, is te vinden op de bijgesloten cd-rom (Bijlage C: /data/matrix-kNN.txt).
31
4. D ISTRIBUTIONELE VERWANTSCHAP distributionele verwantschap. Het is echter nog niet zo eenduidig hoe we op basis van de gegevens in Tabel 4.3 groepen van semantisch overeenkomstige werkwoorden kunnen maken. Dat komt omdat de buren van het ene doelwoord overlap vertonen met die van een ander doelwoord. Deze overlap is soms volledig, maar soms slechts gedeeltelijk. Neem een doelwoord als verbeteren dat als buren de werkwoorden verslechteren (k=1), versterken (k=2), vergroten (k=3) en verzieken (k=4) heeft. Los van de kwaliteit van deze buren, zouden we deze selectie werkwoorden kunnen beschouwen als een min of meer semantisch coherente groep. Maar op verslechteren na komen al deze buren ook bij andere doelwoorden voor en vaak zelfs dichterbij dat doelwoord. Zo komt bijvoorbeeld verzieken als k=1 bij het doelwoord verpesten voor en versterken als dichtstbijzijnde buur bij verzwakken. Moeten we de doelwoorden van deze werkwoorden ook in de groep van verbeteren opnemen? En wat doen we met de buren van de buren van verbeteren? Nemen we die ook mee? De overlap in buren tussen de verschillende doelwoorden zorgt voor een buitengewoon complexe interactie van werkwoorden die dicht bij elkaar staan. Het is bijzonder moeilijk om al deze interacties met de hand te ordenen. Daar komt nog bij dat Tabel 4.3 slechts de resultaten van 20 van de 54 werkwoorden geeft en per werkwoord slechts de vier dichtstbijzijnde buren in plaats van alle 53. Om dit probleem te overkomen heb ik de resultaten bestudeerd met behulp van een hi¨erarchische agglomeratieve clusteranalyse, waarnaar we nu overgaan. Hi¨erarchische agglomeratieve clusteranalyse H I E¨ RARCHISCHE AGGLOMERATIEVE C LUSTERANALYSE (HAC) is een familie van methodes waarmee de overeenkomsten en verschillen tussen verschillende items ge¨ıdentificeerd kunnen worden (zie voor een inleiding over HAC Gries 2008, hoofdstuk 5). Op basis van een matrix (zoals in Tabel 4.4) waarin de afstanden tussen de onderzochte items staan, maken we met behulp van een bepaalde gekozen clustermethode een clusterstructuur of clusternetwerk van deze items. Een clusterstructuur wordt typisch gevisualiseerd met behulp van een DENDROGRAM. Een dendrogram kunnen we opvatten als een boom waarin de overeenkomsten en verschillen tussen verschillende items weergegeven is. Items die dicht bij elkaar worden geplaatst in de boom (in hetzelfde cluster) hebben veel met elkaar gemeen. Items die ver van elkaar af staan, verschillen (meer) van elkaar. De nul in de boom representeert de minimale afstand. Laat me aan de hand van een voorbeeld verduidelijken hoe dit alles in z’n werk gaat. Hoewel ik van deze clustermethode in de uiteindelijke clusteranalyse geen gebruik zal maken, illustreer ik de procedure hier voor de eenvoudigheid aan de hand van de SINGLE LINKAGE clustermethode. In deze methode wordt de overeenkomst tussen twee elementen x en y gedefinieerd als de minimale afstand tussen een element van x en een element van y. Voor de gegevens in Tabel 4.4 betekent dit dat als eerste verbeteren en verslechteren met elkaar worden verbonden. De cosinuswaarde tussen deze twee werkwoorden is namelijk de hoogste waarde (cos = .342) in de matrix en daarmee is dit ook de kleinste afstand tussen twee werkwoorden. Hierna worden verlagen en verhogen met elkaar verbonden, omdat de afstand tussen deze twee werkwoorden de op een na kleinste is (cos = .315). Hierna, en nu wordt het interessant, wordt {verhogen, verlagen} verbonden met vergroten, omdat de 32
Resultaten
verhogen vergroten verbeteren verlagen verslechteren verdubbelen
verhogen
vergroten
verbeteren
verlagen
verslechteren
verdubbelen
.000 .271 .148 .315 .080 .256
.271 .000 .201 .056 .060 .295
.148 .201 .000 .042 .342 .084
.315 .056 .042 .000 .023 .095
.080 .060 .342 .023 .000 .012
.256 .295 .084 .095 .012 .000
Tabel 4.4: Voorbeeldmatrix voor opbouw clusterstructuur
kleinste afstand die verlagen of verhogen tot een ander werkwoord heeft, die van vergroten is, namelijk .271. Op deze manier werken we de gehele matrix af totdat er geen punten meer over zijn om opgenomen te worden in de clusterstructuur. Een nadeel van de single-linkage clustermethode is dat het vaak de datapunten als een lange ketting achter elkaar plaatst waardoor er geen duidelijke clusters onderscheiden kunnen worden. Voor de clusteranalyse van de ver-werkwoorden heb ik daarom voor een andere clustermethode gekozen, namelijk WARD. Dit is een methode met een variatieanalytische inslag. Bij deze methode is de homogeniteit binnen de groep het uitgangspunt voor het toevoegen van items aan een cluster. Bij elke stap in het vormen van een clusterstructuur wordt een item toegewezen aan een cluster op zo’n manier dat de variatie in de clusters geminimaliseerd wordt. Deze methode is herhaaldelijk gebruikt in verschillende talige studies met goede resultaten (zie bijvoorbeeld Stefanowitsch & Gries 2005, Divjak & Gries 2006, Gries & Stefanowitsch te versch.). De methode resulteert meestal in compacte clusters van gelijke grootte.5
5 Voor een uitgebreidere beschrijving van deze en andere clustermethodes, zie Gries (2008) en in het bijzonder Manning & Sch¨utze (1999).
33
0.4
0.6
0.8
1.0
1.2
1.4
1.6
34 1.8
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Figuur 4.1: Dendrogram van 54 ver-werkwoorden; gewichtsmaat: Pointwise mutual information; afstandsmaat: cosine; clustermethode: Ward
1
verminderen verhogen verlagen verkleinen vergroten verdubbelen verwennen vermaken verwelkomen vervoeren verouderen verkopen verhuren verpakken verstoppen verhandelen verslijten vervuilen verstoppen2 verbouwen vergaan verbranden verhoren vergeven verzachten verwoorden vergeven2 verspelen vertalen verduidelijken vervullen verwezenlijken verbeteren verslechteren verslaan versterken verzwakken verbreken verstoren verrijken verdrijven verzenden versturen verpesten verzieken verzwijgen verdraaien verplaatsen verschuiven verleggen versnellen vertragen verlopen verstrijken
4. D ISTRIBUTIONELE VERWANTSCHAP
Resultaten Figuur 4.1 geeft de resultaten van de clusteranalyse voor alle onderzochte werkwoorden.6 De resultaten zijn wederom veelzeggend. We zien een groot aantal semantisch homogene clusters (aangegeven met een rechthoek). Slechts een aantal werkwoorden behoren niet tot een coherente groep. Ik zet een aantal opvallende clusters op een rijtje: 1. Cluster 1 bestaat uit de zes werkwoorden verminderen, verhogen, verlagen, verkleinen, vergroten, verdubbelen. Opvallend is dat al deze werkwoorden een adjectief hebben als basiswoord. De werkwoorden delen het betekenisaspect van ’het meer/ minder worden van X’. Interessant is nog het subcluster {verhogen, verlagen}. Dit laat zien dat de analyse in staat is antonymische woordparen op te sporen, woordparen die uiteraard een bijzonder hoge mate van semantische verwantschap vertonen. 2. Cluster 5 bestaat uit verschillende werkwoorden met een negatief betekenisaspect, te weten het in negatieve zin aantasten van een bepaald object. Duidelijke voorbeelden hiervan zijn verslijten, vergaan, vervuilen, verbranden en verstoppen.7 Het werkwoord verbouwen lijkt niet heel erg op zijn plaats te zijn in deze groep. In het CONDIV-corpus heeft verbouwen echter een sterke associatie met het object gezicht. Dit maakt de clustering van verbouwen in deze groep inzichtelijker. Het enige werkwoord dat daadwerkelijk niet thuis lijkt te horen in dit cluster van zeven werkwoorden is verhoren. 3. Cluster 14 bestaat uit de de werkwoorden verzieken, verpesten, verdraaien en verzwijgen. Dit cluster is semantisch coherent in de zin dat al deze werkwoorden een pejoratief betekenismoment dragen. 4. Cluster 15 bestaat uit drie werkwoorden die een locatieve verandering van een object uitdrukken. Interessant om te zien is dat verschuiven en verleggen binnen deze groep samen nog een subcluster vormen. Mogelijk heeft dit ermee te maken dat verplaatsen een ruimer toepassingsdomein heeft. 5. Cluster 16 bestaat uit werkwoorden die met ’tijd’ te maken hebben (versnellen, vertragen, verlopen, verstrijken). De subclusters in dit cluster kunnen we opvatten als specificaties van de hoofdbetekenis ’tijd’. 6. Tot slot nog een aantal semantisch coherente werkwoordsparen die een zelfstandig cluster vormen: versturen en verzenden (cluster 13), verkopen en verhuren (cluster 3), verspelen en vergeven (cluster 7)8 , vertalen en verduidelijken (cluster 8), vervullen en verwezenlijken (cluster 9) en tot slot verbeteren en verslechteren (cluster 10). 6
Zoals gezegd representeert de nul in een dendrogram de maximale overeenkomst tussen items. Hoe verder van de nul, hoe minder de items met elkaar gemeen hebben. De cosinusmaat heeft echter de waarde 1 als waarde voor maximale overeenkomst. Om dit probleem te overkomen heb ik de cosinuswaardes voor de HAC getransponeerd naar waardes die begrepen kunnen worden door de HAC. De waarde nul in het dendrogram representeert nu de cosinuswaarde 1 en dus de maximale overeenkomst tussen distributies. 7 Het cijfer 2 achter het werkwoord verstoppen geeft aan dat we hier te maken hebben met verstoppen in de betekenis van ’blokkeren’ als in ’De afvoer van het toilet verstopte’. 8 Het gaat hier om vergeven met de betekenis ’weggeven’, als in ’De hotelkamer was al vergeven’.
35
4. D ISTRIBUTIONELE VERWANTSCHAP Een enkel tegenvoorbeeld daargelaten, kunnen we zeggen dat de clusteranalyse goed presteert. Van de 54 ver-werkwoorden is veruit het grootste deel semantisch coherent gegroepeerd. De resultaten bevestigen de hypothese dat deze semantisch coherente, homogene subgroepen van ver-werkwoorden gevormd kunnen worden op basis van de gekozen contextuele eigenschap, het semantisch object. Er is niet zozeer e´ e´ n overkoepelende betekenis, maar er zijn allerlei kleine subpatronen van werkwoorden die een bepaald semantisch aspect delen. De resultaten geven sterke evidentie voor de hypothese dat we op basis van generalisaties over corpusmateriaal semantisch coherente subgroepen van ver-werkwoorden kunnen onderscheiden.
4.4
Conclusie
In dit hoofdstuk heb ik een methode gepresenteerd waarmee we op basis van gebruikseigenschappen van de ver-werkwoorden semantische verwantschap tussen woorden kunnen onderzoeken. In deze methode gaan we uit van de hypothese dat de context waarin een woord gebruikt wordt, belangrijke informatie heeft over de semantiek van dat woord. Daaruit volgt dat woorden die in overeenkomstige contexten voorkomen, een hogere kans hebben vergelijkbare semantische eigenschappen te hebben. De context van de ver-werkwoorden heb ik gedefinieerd als de semantische objecten waarmee een werkwoord wel of niet voorkomt. Op basis van de maat pointwise mutual information, heb ik de aantrekkingskracht tussen de werkwoorden en de objecten waarmee ze voorkomen proberen te achterhalen. Deze maat geeft een indicatie van hoeveel meer we weten van een woord als we weten dat een ander woord voorkomt op een bepaalde positie in de tekst. De objecten van een werkwoord en de associatiewaardes tussen de twee, vormen samen het profiel of de vector van een werkwoord. Op basis van deze profielen heb ik de afstanden tussen de werkwoorden berekend. De afstand tussen de werkwoorden is eenvoudig gezegd de mate van overeenkomst in hun profielen. Met behulp van een agglomeratieve clusteranalyse heb ik laten zien dat we op basis van de gebruikseigenschappen van werkwoorden, coherente, semantisch homogene werkwoordsgroepen kunnen onderscheiden. Veruit de meeste onderzochte ver-werkwoorden worden geplaatst naast semantisch verwante buren. Een belangrijk theoretisch aspect van de analyse is dat we semantisch verwante groepen werkwoorden kunnen achterhalen zonder daarbij een beroep te hoeven doen op abstractie. De verschillende werkwoordgroepen emergeren uit het gebruik van de werkwoorden, ze zijn procedureel bepaald. Enkel op basis van distributionele overeenkomsten, overeenkomsten in het gebruik van de woorden, worden de groepen gevormd. De generalisatie vindt plaats zonder een abstraherende tussenstap. Uit de analyse bleek dat er een groot aantal relatief kleine clusters van semantisch vergelijkbare woorden gevormd worden (zoals het werkwoordspaar {verzenden,versturen}). De vraag is nu hoe we dit moeten interpreteren. Is de clusteranalyse niet in staat grotere verbanden tussen werkwoorden op te sporen? Uit de resultaten bleek bijvoorbeeld dat er een groot cluster was met werkwoorden die gevormd zijn op basis van een adjectief. Maar, er zijn ook werkwoorden op adjectivische basis die hier niet bij geplaatst zijn. De resultaten
36
Conclusie van de clusteranalyse gaan hiermee tegen het idee in dat de syntactische categorie van het basiswoord van een afleiding van invloed is op de betekenis van de afleiding. De vraag is echter of we dat wel zouden mogen verwachten. Misschien moeten we ons afvragen of deze hogere abstracties er voor het daadwerkelijke taalgebruik wel iets toe doen. Wat weet een taalgebruiker meer van de betekenis van een woord als hij weet wat de formele afleidingsrelatie van dat woord is? Algemener gesteld, wat is voor het daadwerkelijke gebruik van woorden, de relevantie te weten hoe woorden op een hoger niveau van abstractie bij elkaar geplaatst kunnen worden? Voor het daadwerkelijk taalgebruik is het genoeg te weten hoe een woord gebruikt wordt, wat je ermee kunt doen en waar je gesprekspartner met het gebruik van een woord op aanstuurt. Zo bezien is het waarschijnlijker dat er op lagere niveaus verbanden tussen woorden worden gelegd. Verbanden op het niveau van het gebruik van een woord. Een goede beschrijving van de levende betekenissystematiek van een morfologische categorie, hoort recht te doen aan deze verbanden. De uit de analyse voortkomende semantische groepen (waaronder de werkwoordsparen), kunnen we in dit licht beschouwen als een cognitief realistischere representatie van de talige realiteit. Een groot methodologisch voordeel van de hier gebruikte methode, is dat het over een grotere mate van objectiviteit beschikt. In veel benaderingen van betekenis worden modellen van categorisatie gebruikt waarin de invloed van intu¨ıties een grote rol speelt. In deze modellen worden bepaalde zaken voor waar aangenomen die niet oncontroversieel zijn. De informele component in veel betekenisbenaderingen bemoeilijkt bovendien het vergelijken van resultaten. Een model zoals gepresenteerd in dit hoofdstuk is een goede stap in de richting van consistentere en objectievere modellen van betekenisbeschrijving.
37
Hoofdstuk 5
Besluit In deze scriptie heb ik proberen te laten zien dat abstractie niet de enige weg is om tot generalisaties te komen. Als casus heb ik daarvoor de betekenis van het prefix ver- onderzocht. Het prefix ver- kent een bijzonder grote rijkdom aan verschillende betekenissen en vormt daarmee een uitdaging voor theorie¨en van betekenisbeschrijving. De vraag die in alle theorie¨en van betekenis centraal staat, is hoe we op basis van de verschillende instantiaties van een bepaald talig fenomeen tot generalisaties kunnen komen over dat fenomeen. In veel benaderingen van betekenis wordt hiervoor een beroep gedaan op abstractie. In hoofdstuk 2 heb ik aan de hand van twee betekenisbeschrijvingen in de literatuur besproken wat de bezwaren zijn van deze benaderingen. De belangrijkste bezwaren waren de hoge mate van arbitrariteit enerzijds en het ontbreken van contact met de talige realiteit door te veel abstractie anderzijds. Een belangrijke voorwaarde om het contact met de talige realiteit te behouden voor de beschrijving van de levende betekenissystematiek is een onderscheid te maken tussen woorden die deze systematiek representeren en woorden die dat niet (langer) doen. Daartoe heb ik in hoofdstuk 3 een methode gepresenteerd. Deze methode stelt ons in staat op basis van corpusmateriaal uitspraken te doen over de semantische transparantie van morfologisch complexe woorden. Met behulp van de maat van semantische transparantie die ik in dit hoofdstuk heb besproken, heb ik een selectie van semantische transparante verwerkwoorden gemaakt voor de analyse in hoofdstuk 4. Hoofdstuk 4, de eigenlijke kern van deze studie, toont aan dat we in staat zijn om generalisaties te maken over de betekenis van ver- zonder daarbij gebruik te maken van abstracties. De verschillende werkwoordgroepen komen voort uit het daadwerkelijke gebruik van de werkwoorden. De context, in deze studie gedefinieerd als het semantische object van de werkwoorden, blijkt voldoende te zijn om semantische verwantschap tussen werkwoorden vast te stellen. Op basis van de distributionele overeenkomsten tussen werkwoorden, worden de groepen gevormd. Het is dus niet de abstractie, maar het gebruik dat generalisaties mogelijk maakt. Met deze studie hoop ik ook het grote voordeel te hebben laten zien van een corpusgebaseerde, statistische benadering van taal. Het belang van theoretische studies mag uiteraard niet onderschat worden, maar om tot een volledig begrip te komen van het uitdagende fenomeen taal, is een corpus-gebaseerde en statistische onderzoeksaanpak onontbeerlijk. 39
Bibliografie Aronoff, M. (1976), Word Formation in Generative Grammar, Cambridge, Mass.: MIT Press. Baayen, R. H. (1991), ‘Quantitative aspects of morphological productivity’, Yearbook of morphology 149. Baayen, R. H. (2006), Woorden onder elkaar, Amsterdam: KNAW. Baayen, R. H. (2008), Analyzing linguistic data: A practical introduction to statistics using R, Cambridge University Press. Baayen, R. H. & Lieber, R. (1997), ‘Word frequency distributions and lexical semantics’, Computers and the Humanities 30(4), 281–291. Booij, G. E. (2007), Construction morphology and the lexicon, in ‘Selected Proceedings of the 5 th D´ecembrettes: Morphology in Toulouse’, Somerville MA.: Cascadilla Press, pp. 34–44. Bybee, J. L. (1985), Morphology: A study of the relation between form and meaning, Amsterdam: Benjamins. Bybee, J. L. (1995a), Diachronic and typological properties of morphology and theit implications for representation, in L. B. Feldman, ed., ‘Morphological Aspects of Language Processing’, Hillsdale, NJ: Erlbaum, pp. 225–246. Bybee, J. L. (1995b), ‘Regular morphology and the lexicon’, Language and cognitive processes 10(5), 425–455. Church, K. W. & Hanks, P. (1990), ‘Word association norms, mutual information, and lexicography’, Computational linguistics 16(1), 22–29. Curran, J. R. (2003), From Distributional to Semantic Similarity, PhD thesis, University of Edinburgh.
41
B IBLIOGRAFIE Curran, J. R. & Moens, M. (2002), Improvements in automatic thesaurus extraction, in ‘Proceedings of the Workshop on Unsupervised Lexical Acquisition’, Philadelphia, PA, pp. 59–67. Daelemans, W. & Van den Bosch, A. (2005), Memory-based language processing, Studies in Natural Language Processing, Cambridge University Press, Cambridge, UK. Daelemans, W., Van den Bosch, A. & Zavrel, J. (1999), Forgetting exceptions is harmful in language learning, in ‘Machine Learning, special issue on natural language learning’, Kluwer Academic Publishers, Boston. De Vaan, L., Schreuder, R. & Baayen, R. H. (2007), ‘Regular morphologically complex neologisms leave detectable traces in the mental lexicon’, The Mental Lexicon 2(1), 1– 24. De Vries, J. (1975), Lexicale morfologie van het werkwoord in modern Nederlands, Universitaire pers Leiden. Dennett, D. C. (1995), Darwin’s dangerous idea: Evolution and the meanings of life, Simon & Schuster. Divjak, D. & Gries, S. (2006), ‘Ways of trying in russian: clustering behavioral profiles’, Corpus Linguistics and Linguistic Theory 2(1), 23–60. Evert, S. (2004), The Statistics of Word Cooccurrences: Word Pairs and Collocations, PhD thesis, Universiteit van Stuttgart. Firth, J. R. (1957), ‘A synopsis of linguistic theory 1930-1955’, Studies in linguistic analysis pp. 1–32. Goldberg, A. E. (2006), Constructions at work: The nature of generalization in language, Oxford University Press, USA. Gries, S. (2008), Statistik f¨ur Sprachwissenschaftler, Vandenhoeck & Ruprecht. Gries, S. & Stefanowitsch, A. (te versch.), ‘Cluster analysis and the identification of collexeme classes’, Empirical and Experimental Methods in Cognitive/Functional Research. . Grondelaers, S., Deygers, K., Van Aken, H., Van Den Heede, V. & Speelman, D. (2000), ‘Het CONDIV-corpus geschreven Nederlands’, Nederlandse taalkunde 5(4), 356–363. Hay, J. (2001), ‘Lexical frequency in morphology: is everything relative’, Linguistics 39(6), 1041–1070. Hay, J. (2002), ‘From speech perception to morphology: Affix ordering revisited’, Language pp. 527–555. Jackendoff, R. (1990), Semantic Structures, Current Studies in Linguistics series, Cambridge, Massachusetts: The MIT Press. 42
Jurafsky, D. & Martin, J. H. (2008), Speech and language processing, Prentice Hall. Keuleers, E. & Daelemans, W. (2007), ‘Memory-based learning models of inflectional morphology: A methodological case study’, Lingue e Linguaggio 2, 151–174. Lieber, R. & Baayen, R. H. (1993), ‘Verbal prefixes in Dutch: a study in lexical conceptual structure’, Yearbook of Morphology 6, 51–78. Lin, D. (1998), Automatic retrieval and clustering of similar words, in ‘Proceedings of the 17th international conference on Computational linguistics’, Association for Computational Linguistics, Morristown, NJ, USA, pp. 768–774. Manning, C. D. & Sch¨utze, H. (1999), Foundations of statistical natural language processing, MIT Press. Skousen, R. (2002), An overview of analogical modeling, in R. Skousen, D. Lonsdale & D. Parkinson, eds, ‘Analogical modeling: an exemplar-based approach to language’, Amsterdam: John Benjamins, pp. 11–26. Stefanowitsch, A. & Gries, S. (2005), ‘Covarying collexemes’, Corpus Linguistics and Linguistic Theory 1, 1–43. Van den Bosch, A., Busser, B., Canisius, S. & Daelemans, W. (2007), ‘An efficient memorybased morphosyntactic tagger and parser for Dutch’, Proc. of CLIN 17. Van der Auwera, J. (1999), Dutch verbal prefixes, meaning and form, grammaticalization and lexicalization, in L. Mereu, ed., ‘Boundaries of morphology and syntax’, Amsterdam/Philadelphia: John Benjamins Publishing, pp. 121–136. Van der Plas, L. (2008), Automatic lexico-semantic acquisition for question answering, PhD thesis, Rijksuniversiteit Groningen. Verhagen, A. (2002), ‘From parts to wholes and back again’, Cognitive Linguistics 13(4), 403–439.
43
Bijlage A
Frequentiegegevens verTabel A.1: Gegroepeerde frequentiedistributie ver-werkoorden. Onder Vn staat het aantal types dat n keer voorkomt. Onder n staan de tokenfrequenties. Vn
werkwoorden
n
Vn 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
werkwoorden vertellen verkopen verwachten verliezen veranderen verdienen verklaren vergeten verdwijnen verschijnen vergelijken vertrekken verwijderen veroorzaken verbieden vervangen verlaten vermelden verbeteren verbazen verbinden veroordelen verdedigen vertonen verplichten vermoeden versturen verzekeren verdelen verspreiden
n 2346 2335 2139 1805 1473 1394 1179 1054 953 865 730 652 640 587 552 549 491 488 461 455 449 428 395 393 369 367 365 346 344 330 Gaat verder op volgende pagina
45
A. F REQUENTIEGEGEVENS verTabel A.1 – voortzetting van vorige pagina Vn
werkwoorden
n
1 1 1 1 2 1 3 1 1 1 1 1 1 2 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 3 1 1 1 1 1 1 1 2 1 1 1 1 1 1
verwerken verlopen verzinnen verzamelen verlagen, verwijzen vertegenwoordigen verhogen, verkrijgen, verslaan verzorgen verstaan verrichten verschillen vermoorden versterken vergroten, verwijten verdenken vervolgen verlenen, verrassen verdubbelen vertalen verkeren vergissen vertrouwen verstrekken verhuizen verplaatsen veroveren vernemen vereisen, verzenden verminderen vervallen verwerven verbergen, verkondigen verblijven vervoeren vernietigen vermijden, vervullen, verzetten verlengen verdiepen verschaffen verzoeken veronderstellen verhinderen vergeven verbreken, verheugen verlangen verwerpen verhelpen vervelen verstoren verspelen
319 303 298 293 288 284 282 276 271 266 263 252 248 247 246 245 218 211 207 199 196 190 189 187 186 183 180 179 175 174 156 155 154 145 143 141 130 128 126 121 112 109 102 101 100 98 96 95 94 91 Gaat verder op volgende pagina
46
Tabel A.1 – voortzetting van vorige pagina Vn
werkwoorden
n
2 1 2 1 1 3 1 2 1 1 1 2 3 1 5 1 6 1 3 1 1 3 2 2 1 4 2 2 3 2 1 5 1 3 3 2 3 2 3 2 2 7 3 3 2 4 6 3 6 6
verantwoorden, verwarren verschuiven verhandelen, versnellen verkrachten verhuren verluiden, vermaken, verstoppen veroorloven vergaan, verschuilen verzwakken verdrijven verleiden vergaderen, verwoorden verdommen, verkleinen, vernieuwen vertolken verenigen, vergoeden, verhoren, verlossen, verwaarlozen verbruiken verbouwen, verbranden, verheffen, verkiezen, vertragen, verzieken vergaren vergezellen, verpesten, verzuimen vernielen verraden vervuilen, verwennen, verzuchten verpakken, verslechteren verdringen, verstrijken verlichten verdraaien, verduidelijken, vervaardigen, verwisselen verleggen, verzwijgen verwezenlijken, verkennen verouderen, verslijten, verspillen verdrinken, verwikkelen versieren verbannen, verdampen, vermissen, verslaven, vervroegen verwelkomen vernederen, verwarmen, verworden vereren, verrijken, vertoeven verdragen, verscherpen verdoezelen, verhullen, verzachten vermengen, verwoesten verfilmen, vernoemen, vervormen verhalen, verzuipen verminken, verruilen verbijsteren, verduren, verklappen, vermenigvuldigen, verrekenen, verzeilen verongelukken, verontschuldigen, vervalsen verdwalen, verhouden, verontwaardigen vertikken, verwonderen verbleken, verruimen, verzanden, verzilveren verbreden, verergeren, verkleden, verrijzen, verstevigen, verweren verjagen, verlammen, verversen verduisteren, vereenvoudigen, vergemakkelijken, verhelderen, verpletteren, vervagen verdisconteren, verprutsen, verstrikken, verteren, vertroebelen, vervliegen
89 86 84 82 77 74 73 72 71 70 69 66 64 63 61 59 58 55 53 52 51 50 49 48 47 46 45 44 43 42 41 37 36 35 34 33 32 31 30 29 27 26 25 24 23 22 21 20 19 18
Gaat verder op volgende pagina
47
A. F REQUENTIEGEGEVENS verTabel A.1 – voortzetting van vorige pagina Vn
werkwoorden
n
7 4 8
verankeren, verkorten, verneuken, verrijden, verrotten, vervloeken, verweven verhitten, verkwanselen, vermommen, verontrusten verkroppen, verschansen, verschonen, verslikken, versoepelen, verzegelen, verzelfstandigen, verzoenen verblinden, vermeerderen, verrekken, verschepen, versleutelen, verwonden verblijden, verbloemen, verfoeien, verhongeren, verijdelen, verkassen, verkijken, verkleuren, verknoeien, verloochenen, verschieten, vervreemden, verwateren verafschuwen, verdrievoudigen, vergiftigen, verguizen, verleren, verscheuren, versmaden, verzinken verbitteren, vereenzelvigen, verknallen, verslingeren, versmelten, verstommen, verwekken verbreiden, vergallen, vergassen, vergoelijken, verjaren, verorberen, verschrompelen, verslinden, vervoegen, vervolmaken, verzaken verbasteren, verfijnen, vergapen, verheerlijken, verplegen, verschalken veraangenamen, verbijten, verdagen, verharden, verjongen, verkneukelen, verloten, verstikken, vertrappen, verzuren verdoen, verdoven, verdunnen, vereeuwigen, verfraaien, vergrijpen, verketteren, verslappen, verspringen, verstellen, verzwaren vergelden, verkloten, verleien, vermoeien, veronachtzamen, verpanden, verslepen, vertederen, vertroetelen, verviervoudigen, verwerkelijken verdonkeremanen, vereffenen, vergewissen, vergooien, verknippen, verkrampen, vermeien, vernauwen, verpieteren, versluieren, versperren, verstrengelen, vervatten, verveelvoudigen, verwensen, verzadigen veramerikaniseren, verbuigen, vergenoegen, vergrijzen, vergunnen, verhevigen, verloven, vermorzelen, verordonneren, verpatsen, verpauperen, verroeren, versnipperen, vertienvoudigen, verwaardigen, verzwelgen verachten, verbellen, verbroederen, verbruien, verdelgen, verdriedubbelen, vergelen, vergieten, vergokken, vergrendelen, verhangen, verkappen, vermalen, vernachelen, vernaggelen, vernevelen, verpachten, verregenen, verschrikken, verschuldigen, versoberen, versomberen, verspijkeren, verstappen, verstarren, verstillen, verstoten, vertakken, vertwintigvoudigen, vervijfvoudigen, vervluchtigen, verwaren, verwittigen, verwringen, verzakken verafgoden, verarmen, verbluffen, verbrijzelen, verbrokkelen, verdoemen, verfrissen, verfrommelen, vergroeien, vergulden, verhaspelen, verhoeden, verkankeren, verklooien, verknopen, verkwisten, verlijmen, verloederen, verlokken, verlustigen, vermageren, vern**ken, vernederlandsen, verontreinigen, verpompen, verpozen, verpulveren, verrechtsen, verrukken, verschimmelen, verschrijven, verslapen, verslonzen, versmallen, versnijden, versplinteren, verstedelijken, versterven, verstieren, verstrooien, vertekenen, vertwijfelen, verwaaien, verwelken, verzesvoudigen, verzwikken veraderen, veralgemeniseren, verbidden, verbijzonderen, verblikken, verblozen, verdorren, verdrukken, vereeuwen, verfikken, vergalopperen, vergoddelijken, vergroven, vergruizelen, vergruizen, verhaasten, verhapstukken, verheimelijken, verhelen, verijlen, verjubelen, verjungelen, verkauwen, verkavelen, verkillen, verkleumen, verkneuteren, verknutselen, verkutten, verkwikken, verlevendigen, verlinken, verluchten, vermanen, vermannen, vermazen, vermorsen, vermurwen, vernummeren, veroccultiseren, verontpersoonlijken, verordenen, verordineren, verpersoonlijken, verroesten, verroosteren, verruineren, versataniseren, verschralen, versjteren, versloffen, versnoepen, verspellen, verspreken, verstemmen, verstijfselen, verstijven, vertimmeren, verturkificeren, vertypen, vervetten, vervlechten, verwandelen, verwedden, verwerelden, verwijlen, verwilderen, verzakelijken, verzevenvoudigen, verzoveeldubbelen
17 16 15
6 13 8 7 11 6 10 11 11 16
16
35
46
70
V=503
48
14 13 12 11 10 9 8 7 6 5
4
3
2
1
N=43335
Bijlage B
Dichtstbijzijnde buren ver-werkwoorden Tabel B.1: De vier (k) dichtstbijzijnde buren (Nearest Neighbours) voor alle 54 onderzochte werkwoorden. Voor elk woord in de linker kolom geeft de tabel de 4 werkwoorden die wat betreft hun context het meest met dat werkwoord overeenkomen. Voor elk werkwoord is de cosinusafstand tot het doelwoord gegeven. Doelwoord
k=1
verbeteren verbouwen verbranden verbreken verdraaien verdrijven verdubbelen verduidelijken vergaan vergeven vergeven2 vergroten verhandelen verhogen verhoren verhuren verkleinen verkopen verlagen verleggen verlopen vermaken verminderen verouderen verpakken verpesten verplaatsen
verslechteren verhuren verstoppen verstoren verpesten verzwakken vergroten vertalen verbouwen verzachten verduidelijken verdubbelen verstoppen verlagen vervoeren verkopen vergroten verhuren verhogen verschuiven versnellen verwennen verlagen verkopen verstoppen verzieken verzenden
k=2 .342 .155 .135 .141 .190 .151 .295 .209 .146 .248 .113 .295 .240 .315 .107 .249 .249 .249 .315 .191 .230 .248 .243 .246 .226 .271 .148
k=3
vergroten vergaan verouderen versterken verzwijgen vervoeren verhogen verzwakken verbranden verwoorden vertalen verhogen verkopen vergroten verbranden verouderen verdubbelen verouderen verminderen verspelen verstrijken vervoeren vergroten verhuren verouderen verdraaien verschuiven
.201 .146 .093 .132 .142 .101 .256 .152 .078 .109 .110 .271 .159 .271 .091 .173 .143 .246 .243 .126 .208 .149 .239 .173 .102 .190 .141
versterken vervuilen verhoren verlopen verzieken verwennen verminderen verwoorden verpesten verbeteren verspelen verkleinen vergeven2 verdubbelen vermaken verbouwen verstoppen2 verhandelen verdubbelen verhogen vertragen verhoren verhogen vertalen verzenden verbeteren versturen
Gaat verder op volgende pagina
49
k=4 .189 .125 .091 .092 .125 .099 .168 .131 .052 .100 .109 .249 .091 .256 .081 .155 .114 .159 .095 .098 .177 .081 .222 .121 .101 .125 .135
verzieken verstoppen2 vervoeren verbeteren verwoorden verrijken verkleinen verzachten verlagen verzwijgen verkopen verminderen verbouwen verminderen verzwakken verplaatsen verhogen versturen verschuiven verplaatsen verschuiven vervullen verdubbelen verbeteren verkopen verzenden verpesten
.148 .116 .090 .088 .112 .085 .143 .123 .052 .095 .101 .239 .087 .222 .066 .077 .095 .145 .074 .093 .116 .075 .168 .120 .097 .113 .105
B. D ICHTSTBIJZIJNDE BUREN ver-WERKWOORDEN Tabel B.1 – voortzetting van vorige pagina Doelwoord
k=1
verrijken verschuiven verslaan verslechteren verslijten versnellen verspelen versterken verstoppen verstoppen2 verstoren verstrijken versturen vertalen vertragen vervoeren vervuilen vervullen verwelkomen verwennen verwezenlijken verwoorden verzachten verzenden verzieken verzwakken verzwijgen
verkopen verleggen versterken verbeteren vervuilen vertragen verleggen verbeteren verhandelen vervuilen verbreken verlopen verzenden verduidelijken versnellen verstoppen verstoppen2 verzwakken verwennen vermaken vertalen verzachten verwoorden versturen verpesten versterken verdraaien
50
k=2 .118 .191 .148 .342 .106 .258 .126 .189 .240 .181 .141 .208 .456 .209 .258 .198 .181 .105 .170 .248 .130 .321 .321 .456 .271 .184 .142
verdrijven verstrijken vergeven versterken verwennen verlopen verdubbelen verzwakken verpakken verbouwen verbeteren verschuiven verkopen verzenden verlopen verwennen verbouwen versterken vervoeren verwelkomen verstoren versterken vergeven vertalen verbeteren verduidelijken versturen
k=3 .085 .182 .071 .122 .105 .230 .114 .184 .226 .116 .125 .182 .145 .187 .177 .168 .125 .081 .133 .170 .069 .134 .248 .187 .148 .152 .101
verwoorden verplaatsen verkopen verzieken verkopen verbeteren vergeven2 verslaan vervoeren verkleinen verzieken verspelen verplaatsen versturen verzieken vermaken verslijten vermaken verlopen vervoeren verhogen verduidelijken verduidelijken verplaatsen verdraaien verdrijven vergeven
k=4 .083 .141 .053 .100 .082 .106 .109 .148 .198 .114 .106 .053 .135 .133 .123 .149 .106 .075 .093 .168 .067 .131 .123 .148 .125 .151 .095
verbreken verlopen verzwakken vergeven2 verwoorden versterken vergroten verwoorden verbranden verstoppen verdraaien vertragen vertalen verwezenlijken verschuiven verwelkomen verdraaien verhoren vertragen verslijten verlopen verdraaien verpesten verkopen vertragen vervullen vervoeren
.072 .116 .053 .090 .055 .101 .104 .134 .135 .053 .090 .034 .133 .130 .097 .133 .101 .055 .076 .105 .055 .112 .092 .141 .123 .105 .091
Bijlage C
Cd-rom
51
Index Daelemans & Van den Bosch (2005), 1, 11 Daelemans et al. (1999), 11 De Vaan et al. (2007), 14 De Vries (1975), 3–6, 10 dendrogram, 32 Dennett (1995), 23 distributionele hypothese, 23 Divjak & Gries (2006), 33
afstandsmaat, 24, 26, 29 Cosine, 29 Aronoff (1976), 18, 22 associatiemaat, 26, 27 Pointwise Mutual Information, 27 Baayen (1991), 18 Baayen (2006), 15 Baayen (2008), 20 Baayen & Lieber (1997), 13 betekenis monoseem, 7, 9, 10 polyseem, 7, 9 Booij (2007), 1 Bybee (1985), 13 Bybee (1995a), 13 Bybee (1995b), 13
Evert (2004), 27 exemplar, 11 Firth (1957), 23 Goldberg (2006), 1, 14 Gries (2008), 32, 33 Gries & Stefanowitsch (te versch.), 33 Grondelaers et al. (2000), 16
Church & Hanks (1990), 27 clusteranalyse, 32 hi¨erarchische agglomeratieve, 32 clustermethode single-linkage, 32 Ward, 33 compositionaliteit, 9, 10, 13, 14 context syntactic-based, 25 window-based, 25 Cosine, 29 Curran (2003), 27 Curran & Moens (2002), 29
Hay (2001), 14, 15 Hay (2002), 14, 18 Jackendoff (1990), 7 Jurafsky & Martin (2008), 27, 28 Keuleers & Daelemans (2007), 11 Lieber & Baayen (1993), 3, 6, 10 Lieber & Baayen 1993, 7–10, 12 Lin (1998), 24 Manning & Sch¨utze (1999), 28, 29, 33 53
I NDEX Nearest Neighbour, 31 Pointwise Mutual Information, 27 productiviteit, 18 semantische transparantie, 13–15, 17–21 single-linkage, 32 Skousen (2002), 11 Stefanowitsch & Gries (2005), 26, 33 Tadpole, 26 Van der Auwera (1999), 3 Van der Plas (2008), 28, 29 Verhagen (2002), 3 Ward, 33
54