Samenvatting Het vocabulaire van een taal bevat een rijk scala aan zelfstandige naamwoorden om de dingen om ons heen te benoemen. wanneór gebruiken we "politieagenten" en wanneer "politie"? wanneer gebruiken we *voorraado, "produkten", ',aanbiedingef, ,,afdankers',, ,,kóopwaar',, "handelswaar", "handelsartikel", ,,spulletjes,, en wat bedoelen we ermee? Het gebruik van die woorden is niet alleen een kwestie van ,het beestje bij de juiste naam noemen'. Ten eerste ligt het niet vast wat de dingen, oftewel de entiteiten, in een situatie zijn. welke entiteiten we onderscheiden hangt niet alleen af van de situatie maar ook van onze verwachtingen en interesses, b.v. een hlant in een winkel ziet koopwaar, de Ëosso-en winhelpersoneel, maar een winkeld,ief ziet buit, lnet alarrn en de bewakers. Gegeven een bepaalde verzameling entiteiten is het altijd mogelijk om die verzameling anders te groeperen of nieuwe entiteiten te onderscheiden in andere entiteiten, b.v. de kaft van een boeh ]net papier, de titel,het font,het lettertype, etc. Ten tweede kunnen veel woorden dezelfde entiteiten benoemen waarbij er sprake is van verschillende benoemingsrelaties. omdat zowel de entiteiten als de keuze van het
zelfstandige naamwoord niet vastliggen kunnen er allerlei communicatieve effecten ontstaan:
o ' '
woorden kunnen entiteiten in verschillende clusters verdelen, b.v. "100 auto's", "één fiIe". sommige woorden drukken een bepaald perspectief of een bepaalde
lading uit t.o.v. een entiteit terwijl andere woorden als een 'neutrale' naam functioneren, b.v. ,,voertuigr,, ,,wrak,', ,,krak, versus "auto". woorden kunnen op een verschillende grammaticale manier naar dezelfde entiteiten verwijzen. Een woord als "voertuigen" beschrijÍt a.u.to's als telbare dingen ("twee voertuigen,') terwijl we d.m.v. "verkeer" over dezelfde dingen praten zoals we over een niet-telbare
substantie praten (x"twee verkeer", *"twee water" zijn
ongrammaticaal).
Dergelijke effecten noem ik de individualiseringseffecten waarbij ik een onderscheid maak tussen grammaticale en conceptuele individualisering. Grammaticale individualisering wordt geieflecteerd door de kwantiÍïcationele eigenschappen van zelfstandige naamwoorden (telbaarheid), terwijl de gei'mpliceerde clustering en lading of perspectief worden beschreven als onderdeel van de conceptuele individualisering van woorden, Dit proefschrift probeert de verschillende individualiseringseigenschappen van Nederlandse en Engelse zelfstandige naamwoordln in kaart te brengen. Hierbij wordt op twee manieren gebuik gemaakt van de computer. Ten eerste worden de beschrijvingen opgeslagen in
&,
4r3
432 Samenuatting gebruiken om entiteiten in de juiste context en met de juiste implicaties te
Ten tweede wordt gebuik gemaakt van
computerprogramma's om de informatie die in bestaande woordenboeken staat te inventariseren.
benoemen.
Deel I van het proefschrift bevat een beschrijving van de individualiseringsmodellen waarbij uitgegaan wordt van een
pragmatisch georiënteerde functionele linguïstische theorie: Functionele Grammatica (FG, Dik 1989). Hiertoe worden de lexicale representaties in de vorm van zogenaamde'typed feature structures'beschreven die door een Lexicale KennisBank (LKB, Copestake 1993) kunnen worden gelezen, gebuik makend van unifrcatie. Deel II beschrijft hoe de informatie uit twee machine-leesbare woordenboeken is geanalyseerd en geïnventariseerd; deels als empirische toets van de in deel I beschreven modellen en deels ter evaluatie van de informatie in de woordenboeken. Als woordenboeken zijn de machine-leesbare versies gebruikt van het Longman Dictionary of Contemporary English (Procter 1978) en het Van Dale Groot Woordenboek Hedendaags Nederlands (van Sterkenburg en Pijnenburg 1984), vanafnu aangeduid als respectievelijk LDOCE en Van Dale.
Deel I Theorieën en Modellen Hoofdstuk 2 behandelt grammaticale individualisering. In FG wordt geen onderscheid gemaakt tussen het grammaticale effect van zelfstandige naamwoorden (telbaarheid) en het conceptuele effect (de telbaarheid van de dingen die we ons voorstellen). Dit is geen probleem zolang de grammaticale structuur en het conceptuele effect in overeenstemming zijn, zoals bij gewone telbare woorden die objecten benoemen ("een paar hardrijdende auto's") en gewone niet-telbare woorden die substanties benoemen ("een beetje zwart water"). Bij woorden zoals "verkeer" worden echter dezelfde discrete objecten als een niet-telbaar geheel benoemd (ueen beetje hardrijdend verkeer"). Ook al kwantifrceren we "verkeer" op een niet discrete manier zoals "watel', de eigenschap hardrijdend wordt op dezelfde manier verdeeld over de discrete conceptuele objecten als bij 'auto's'. Conceptuele discreetheid blijkt dus uit de manier waarop we eigenschappen distribueren terwijl grammaticale discreetheid bepaalt hoe we iets kwantifrceren. Om een dergelijke discrepantie tussen het grammaticale en het conceptuele effect te kunnen beschrijven wordt een onderscheid gemaakt tussen twee niveaus. Wanneer het grammaticale en conceptuele effect samenvallen zijn de waarden op beide niveaus door middel van een correlatie-index met elkaar verbonden. Indien er sprake is van discrepantie wordt het cffect apart gespecifrceerd. Een andere klasse zelfstandige naamwoorden wordt gevormd door groepsnamen zoals "familie", 'ftle". Hoewel we rilleon de groep als een geheel kunnen kwantifrceren ("twee families",
x"twee familie") kunnen eigenschappen zowel op de groep ("groot") als op
de leden ("ziek") van toepassing zijn: "de grote zieke familie". Waar groepsnamen grammaticaal slechts één individualiseringsniveau betreffen, impliceren ze in feite twee conceptuele entiteitsniveaus. Dit wordt tijdelijk opgelost door een onderscheid te maken op het conceptueel niveau tussen groepen die uit objecten bestaan en objecten die uit componenten bestaan, waarbij het grammaticale niveau alleen op de groep betrekking heeft. Vervolgens worden lexicale representaties gegeven voor vier klassen van zelfstandige naamwoorden: telbare objectnamen, niet-telbare objectnamen, telbare groepsnamen en niettelbare substantienamen, waarbij ik laat zien dat allerlei andere grammaticale verschillen tussen woorden die geen individualiseringseffect reflecteren kunnen worden weergegeven zonder aÍbreuk te doen aan die representaties.
Hoofdstuk 3 en 4 handelen over conceptuele individualisering. Hoofdstuk 3 bevat de principes en modellen uit de cognitieve psychologie
die nodig zijn om te beschrijven hoe wij de werkelijkheid indelen in categorieën en concepten. Essentieel daarbij is het zogenaamde basisniveau (Rosch 1977) waarbij met een minimum aan categorieën een maximum aan informatie over instanties van concepten voorspeld wordt. Hoofdstuk 4 beschrijft eerst hoe in FG betekenis van woorden op een relationele manier wordt gedefrnieerd in termen van relaties met andere woorden door middel van het principe van Stepwise Lexical Decomposition en het onderscheid tussen bewering en venonderstelling. De betekenis van een woord als "bachelor" wordt bijvoorbeeld in FG 'gedecomponeerd' in: zeggen van een man (veronderstelling) dat hij ongetrouwd is (bewering), waarbij verdere informatie wordt afgeleid uit de decompositie van de veronderstelling. Dit relationele betekenismodel wordt verder uitgebreid met deel-heel-relaties (meronymie-relaties). Vervolgens worden een aantal problemen beschreven van dit relationele model m.b.t. tot de volgende individualise-ringsverschijnselen:
o
woorden op het basisniveau ("auto") benoemen dingen zonder een duidelijke (formuleerbare) bewering te doen, terwijl algemenere woorden ("gevaarte") en specifiekere woorden ("lease bak") wel een
duidelijk oproepbare en formuleerbare implicatie met zich meebrengen. Dit blijkt uit het feit dat ze de meest neutrale benaming zijn voor het identificeren van entiteiten in een niet ambigue context, terwijl ze zic}a moeilijk lenen voor predicatief
.
gebruik ("Deze auto is een lease bak/gevaarte", ?"Deze lease bak/dit gevaarte is een auto"). alleen bij specifreke woorden ("lease bak") is het mogelijk om een duidelijke veronderstelling te formuleren ("auto"). Bij woorden op het basisniveau is ieder verondersteld concept minder basaal dan het woord zelf, terwijl abstracte woorden eerder een omgekeerde aÍhankelijkheid lijken te hebben van meer speciflreke begrippen. Dit
g
434 Samenuatting
435
laatste blijkt uit beperkingen van abstracte woorden zoals "voorwerp", "voedsel", "substantie" tot stereotypische specifrekere concepten (i.p.v. alle dingen die strikt genomen binnen de klasse vallen) en uit het feit dat er veel (productief afleidbare) abstracte woorden zijn in het Engels en Nederlands die helemaal géén veronderstelling impliceren, b.v. "handelsartikel" kan op alles
.
betrekking hebben. In Hoofdstuk 2 is een onderscheid gemaakt tussen componentgeheel relaties en geheel-groep relaties op grond van eigenschapsdistributies. In het relationele model wordt geen onderscheid gemaakt in de status van de relaties en kunnen dergelijke verschillen niet worden verklaard.
Beargumenteerd wordt dat deze problemen kunnen worden opgelost door een onderscheid te maken tussen een denotationeel niveau en een conceptueel niveau. Op het denotationele niveau wordt aangegeven op welke entiteiten een woord van toepassing kan zijn (de denotatie) in termen van het cognitieve basisniveau zoals beschreven in Hoofdstuk 3. Het denotationele niveau representeert dan het meest 'natuurlijke en zelf-evidente' abstractieniveau waarop we de werkelijkheid indelen. Op het conceptuele niveau wordt aangegeven welke conceptualisering een woord uitdrukt t.o.v. die denotatie. Het resultaat van dit onderscheid is een verankerd relationeel model (Anchored Relational Model) dat niet alleen een onderscheid maakt in de status van de lexicale semantische relaties maar dat ook de cognitieve last van het definiëren van de denotatie (kennis van de wereld) buiten het lexicon plaatst. Een verstrekkende consequentie van het verankerde model is dat abstracte woorden niet worden gedefinieerd in termen van nog abstractere woorden maar door middel van een omgekeerde aÍhankelijkheid van meer specifreke concepten. Op deze wijze zijn niet de meest abstracte begrippen de primitieven, maar de meest basale begrippen (de concepten op het basisniveau), wat in overeenstemming is met bevindingen uit de cognitieve psychologie.
In Hoofdstuk 5 worden lexicale representaties uitgebreid tot drie individualiseringsniveaus:
. . .
uit Hoofdstuk 2
grammaticaal niveau conceptueel niveau denotationeel niveau
Vervolgens worden lexicale representaties beschreven voor verschillende
klassen van conceptualiseringen t.o.v. het denotationele individualiseringsniveau:
. . . . .
.
n a m e s : woorden die als neutrale namen fungeren voor basisconcepten zonder bepaalde eigenschappen sterker te impliceren dan andere (b.v. "water") . subordinates: woorden die een bepaalde eigenschap prediceren van één bepaald basisconcept (b.v. "bluswater', "theewatef') . superordinates: woorden die een bepaalde eigenschap prediceren van een reeks meer specifreke basisconcepten (b.v. "blusmiddel"). whole: woorden die als neutrale namen fungeren voor een conceptueel natuurlijk geheel (b.v. "familielid"). group: woorden die meerdere wholes conceptualiseren als elementen van een gïoep en als het ware een extra entiteitsniveau boven het denotationele niveau impliceren (b.v. "familie"). Groepsnamen worden hier dus geherinterpreteerd als conceptualiseringen van een bepaalde denotatie in tegenstelling tot het onderscheid op het denotationele niveau in Hoofdstuk 2. component: woorden die extra entiteiten in natuurlijke gehelen conceptualiseren. Woorden zoals "kop" en n'ledemaat" benoemen geconceptualiseerde entiteiten binnen een natuurlijke entiteitscluster op het denotationele niveau (het lichaam of lijf uan een mens of dier). Door verwijzing ('inzoomen') naar specifreke delen van de denotatie wordt informatie over die delen verkregen.
Names; subordinates en superordinates verschillen dus in specifiekheid (hyponymie), terwijl wholes, groups en components deel-heel-relaties
met elkaar hebben (meronymie). Hyponymie- en meronymie-relaties kunnen worden gecombineerd tot 9 complexe klassen. Alle zelfstandige naamwoorden in het Nederlands en Engels drukken altijd een combinatie uit van een hyponymie- en meronymie-relatie, b.v. "ledemaato, "lichaam", groep" zijn respectievelijk een supercndinate component, superordinate whole en superordinate group. Naast een hyponymie- en meronymie-relatie drukken veel woorden ook nog een bepaalde attitude uit van de Spreker t.a.v. de geimpliceerde entiteit, b.v. "wrak", "krak", "schoft", "krukketeam", "bloedjes", "godenelftal". Attitude informatie kan worden gecombineerd met alle negen eerdere conceptualiseringsklassen. De lexicale representaties voor deze klassen worden aangevuld met een specificatie van de relatie met het
denotationele niveau door middel waarvan informatie over de geassociëerde denotatie kan worden afgeleid door de lexicale kennisbank. Aan de hand van deze representaties kunnen woorden die op
dezelfde dingen van toespassing kunnen zijn gedefinieerd worden als conceptuele varianten van de zelfde denotatie, waarbij de definiëring van die denotatie alleen op het basisniveau plaatsvindt. Vervolgens worden de conceptuele individualiseringsklassen gecombineerd met de klassen uit Hoofdstuk 2. Daarbij worden specifreke correlaties tussen de grammaticale typen en de conceptuele typen beschreven. De hypothese wordt gesteld dat indien er voldoende
&
436 Sarnenuatting
437
informatie is over de constitutie van de denotatie, telbaarheid correleert met het hebben van een discrete en vaste vorm. Er zijn twee manieren waarop er onduidelijkheid ontstaat over de constitutionele informatie van
hebben vaak een klassieke structuur met een beperkt aantal topwoorden, een maximum aan woorden op het basisniveau (die bovendien het rijkst
zijn) en morfologisch-complexe woorden op specifreke niveaus. Bij de toetsing van die voorspellingen wordt zoveel mogelijk gebruik gemaakt van eenvoudige kwantificationele gegevens. Het blijkt echter dat de relaties in de twee woordenboeken deels te arbitrair zijn en deels een niet-
de denotatie:
. .
indien woorden abstraheren van constitutie, indien er sprake is van conceptuele meervormigheid, waardoor de status van de individuen minder duidelijk of belangrijk is.
klassieke structuur vertonen. Als niet-klassieke structuren zijn gevonden (voorbeelden uit Van Dale):
Voor collectiva zoals 'verkeero, "wapentuig", "aardewerk",
"handelswaar" gelden beide, voor typische samenstellingen zoals "betaalmiddel", "blusmiddel", "handelsartikel" geldt het eerste criterium. In het laatste geval zien we dat niet de objecten maar alleen de entiteitstypen gekwantificeerd kunnen worden, b.v. "twee betaalmiddelen" zegt niets over de hoeveelheid geld, het aantal munten, cheques,
of
de geldwaarde, alleen iets over het aantal soorten.
Deel
II Woordenboeken en Data
In Deel II wordt de informatie in bestaande woordenboeken gerelateerd aan bovenstaande modellen. Hoofdstuk 6 geeft een globale beschrijving van de inhoud van die woordenboeken en het systematisch toegankelijk maken van die inhoud. Grammaticale coderingen, voor zover aanwezig, zijn al expliciet. Definities hebben echter de vorm van uitdrukkingen in natuurlijke taal. Om die informatie voor een computer toegankelijk te maken moet zowel de structuur van die defrnities geanalyseerd worden als de betekenis van de definiërende woorden worden bepaald. Voor de analyse van de definitiestructuur zijn speciale computerprogramma's
ontwikkeld (parsers). De betekenis van de defrniërende woorden kan echter slechts ten dele automatisch bepaald worden. Een dergelijk geanalyseerd woordenboek vormt een relationeel betekenismodel par song waarbij ieder woord kan worden gerelateerd aan de woorden in zijn defrnitie en de defrnitiewoorden op hun beurt weer kunnen worden opgezocht. Uitgaande van de aanname dat de woordenboekdefrnities een klassieke structuur en interpretatie hebben, waarbij het s5mtactische hoofd het genus vormt (de veronderstelling) en de syntactische bijbepalingen de differentiae (de bewering) vormen, kunnen de woorden in het woordenboek worden georganiseerd als een taxonomie van specifreke naar steeds algemenere woorden. Op grond van het individualiseringsmodel in Deel I zouden we in die taxonomie verschillende cognitieve niveaus moeten onderscheiden om het verschillend gebruik van die woorden te kunnen verklaren. Hoofdstuk 7 probeert de gevonden relaties te differentiëren op grond van voorspellingen in de cognitieve modellen over de eigenschappen van concopten op de verschillende niveaus. Deze hiërarchische modellen
{
o
nevenschikking van definitiehoofden of genuswoorden, b.v.: "object= voorwerp, zaak ofpersoon die beschouwd ofbehandeld wordt als zodanig.' "biogas = uit organisch afval verkregen methaan- en koolzuurgas dat als brandstofkan worden gebruikt."
.
één-woordsdefinities,b.v.: "alibi-Jet= excuus-Truus".
Nevenschikking kan worden geïnterpreteerd als een meronJ[nie-relatie tussen het gedefinieerde woord (het geheel, b.v. "biogas") en de nevengeschikte genuswoorden (de delen, "methaan- en koolzuurgas") of als een omgekeerde hyponymie-relatie tussen het meer algemene gedefinieerde woord ("object") en de nevengeschikte genuswoorden ("voorwerp, zaak of persoon") die als lijst van meer specifieke subtypen fungeren. In het laatste geval zou men van de meest ideale structuur kunnen spreken om superordinates zoals beschreven in deel I te defrniëren. Defrnities die uit èèn woord bestaan bevatten vaak s5rnonieme varianten van het gedefrnieerde woord. Uit een specifrekere vergelijking tussen Van Dale en LDOCE en de daaruit geëxtraheerde taxonomieën blijkt dat er fundamentele verschillen zijn tussen de manier waarop vergelijkbare woorden worden gedefrnieerd. Twee systematische oorzaken voor de verschillen zijn verschillen in het vocabulaire (Van Dale bevat drie keer zoveel zelfstandige naamwoorden) en in de opzet van de woordenboeken (LDOCE maakt gebruikt van een vastgestelde lijst van defrnitiewoorden, terwijl de keuze in Van Dale vrij is). Het effect van deze twee oorzaken is nader onderzocht. Een andere hypothese over de variatie in het defrniëren is dat het samenhangt met de rijkheid van het concept en als zodanig kan worden gezien als een indicatie dat een woord een concept op het basisniveau benoemt. Van woorden die een bepaalde conceptualisering impliceren mag worden verwacht dat ze ook consistenter gedefrnieerd zijn. Verder bevatten typische restricties van genuswoorden informatie over die genuswoorden zelf. We hebben in Deel I gezien dat abstracte woorden die op een scala van begrippen van toepassing kunnen zijn stereotypische restricties vertonen. Die woorden die in een woordenboek worden gedefrnieerd door een bepaald genuswoord kunnen worden gezien als de begrippen die het genuswoord typisch kan benoemen. De
&
4N
438 Sarnenuatting
o . . .
hoofdconclusie van Hoofdstuk 7 is echter dat de informatie in de onderzochte woordenboeken te arbitrair is om de verschillende individualiseringsniveaus automatisch te kunnen afleiden. In Hoofdstuk 8 wordt daarom geprobeerd met meer kwalitatieve technieken een diepere analyse te geven van de relaties die worden uitgedrukt door de meest frequente genuswoorden. Vier opvallende groepen kunnen worden onderscheiden in zowel LDOCE als Van Dale:
Voor ieder subtype wordt een lexicale representatie gegeven die het effect weerspiegelt. De informatie die daarmee voorspeld kan worden is echter
o
gedefrnieerde woord te kunnen voorspellen.
. . o
genuswoorden die
hogere-orde-entiteiten benoemen, zoals
"activiteit", "toestando. vage genuswoorden die concrete eerste-orde-entiteiten kunnen udat", "wat", iets". benoemen, zoals "ding", genuswoorden die personen aanduiden, zoals upersoon", "iemand". genuswoorden die relaties aanduiden, zoals "deel", "onderdeel", 'soort', "groep", ttstuk".
Deze groepen genuswoorden worden bekeken met betrekking tot: o a a o a
de hiërarchische positie die ze innemen de diepte van het semantisch veld dat ze representeren de diversiteit van het semantisch veld dat' ze representeren de defrnitiestructuur waarin ze voorkomen de structuur van de woorden die ze definiëren
Een belangrijke conclusie van dit hoofdstuk is dat er in het Nederlands en Engels veel abstracte zelfstandige naamwoorden zijn die concrete dingen
kunnen benoemen. Deze woorden kunnen beschouwd worden als superordinates zoals gedefinieerd in Deel I die zelf niet (of nauwelijks)
als genuswoord voorkomen en vaak een morfologisch complexe structuur hebben. Alszodanig falsificeren deze bevindingen de structuur van de
klassieke taxonomieën in cognitieve studies waarin slechts een paar topwoorden (abstracta) worden verondersteld en alleen specifieke woorden een complexe morfologische structuur hebben. De gevonden superordinates worden veelal gedefinieerd door zogenaamde lege defrnitiehoofden (b.v. "iets", "alles dat", waarbij vaak ook nevenschikking met andere genuswoorden voorkomt) gevolgd door een relatieve bijzin. Veel van de persoonaanduidende woorden hebben een identieke woorden defrnitiestructuur maar zijn alleen door het genus beperkt tot personen. Ten slotte zijn er duidelijke aanwijzingen gevonden voor de relationele functie van woorden zoals "deel", "stuk" en "groep". Het algemene effect van deze woorden is dat ze een woord van het ene individualiseringstype relateren aan een woord van een ander individualiseringstype. De relationele genuswoorden zijn verder ingedeeld in subtypen naar gelang de relatie die ze uitdrukken tussen de verschillende individualiseringsklassen:
subtlpe versus klasse, b.v. "soort" element versus groep, b.v. "lid", "groep", "verzameling" portie versus subtantie, b.v. "stuk", "hoeveelheid" component versus geheel, b.v. "onderdeel", "complexo, "systeem'
niet voldoende om alle individualiseringseigenschappen van het In Hoofdstuk 9 worden ten slotte de resultaten samengevat. De gevonden structuren en patronen worden gerelateerd aan de verschillende individualiseringsklassen en er wordt een schetsmatige indruk gegeven van de globale verdeling van het vocabulaire op grond van de expliciet gevonden informatie.
&