Lexicografie Tom Ruette 2007
Inhoudsopgave 1 Inleiding
2
2 Opnamecriteria
3
2.1
Van Dale Groot Woordenboek . . . . . . . . . . . . . . . . . .
3
2.2
Redactie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
3 Descriptieve aanpak
6
4 Case-study: beurtbalkje
7
5 Hands-on: web2.0 woordenboek
7
1
1
Inleiding
Een verklarend woordenboek is een selectieve representatie van de woordenschat van een taal. Zelfs lijvige woordenboeken als de Van Dale Groot Woordenboek der Nederlandse Taal (GVD) omvatten niet de volledige woordenschat van het Nederlands. Een taal is immers oneindig: er kunnen altijd nieuwe woorden worden gemaakt. Die nieuwe woorden kunnen op verschillende manieren ontstaan. De meest voorkomende manier is door samenstelling, maar ook volledige nieuwvormingen zijn niet uitgesloten. De laatste editie van de GVD (veertiende editie, 2005) telt 268.826 trefwoorden. Een trefwoord wordt ook wel eens lemma (meervoud: lemmata) genoemd. Daarvan zijn er pakweg 9000 nieuw ten opzichte van de vorige versie. Dat betekent niet dat er 9000 woorden meer staan in de GVD14 dan in de GVD13. De redacteurs van de GVD hebben ongetwijfeld ook woorden geschrapt. Net zoals er woorden ontstaan, verdwijnen er ook woorden. Lexicografie is een wetenschap, en wetenschappen leggen zichzelf strikte regels op. In de lexicografie hebben die regels onder meer te maken met de keuze van de lemmata. De redacteurs van een woordenboek hebben toegang tot een verzameling van teksten, die zo gekozen zijn dat ze een goede benadering geven van de taal. Zo een verzameling noemt men een corpus. Als zo een corpus een goede benadering is van de taal - dat hangt van vele factoren af - spreekt men van een representatief corpus. De teksten voor het Van Dale corpus komen uit tijdschriften en kranten. Uit die teksten halen de redacteurs de trefwoorden op basis van strikte regels. Merk op dat er hier al een eerste, weliswaar impliciete beperking optreedt in de keuze van de lemmata: er wordt geen
2
rekening gehouden met gesproken taal, enkel met geschreven taal. Er is een van oudsher groot verschil tussen gesproken en geschreven taal. Een interessante ontwikkeling voor de taalkunde, het wetenschappelijke domein waarin de lexicografie wordt bedreven, is het ontstaan van overgangsvormen zoals MSN-taal, blogs en fora. Daarop schrijft men zoals men spreekt, en zo is het mogelijk om een beter zicht te krijgen op de gesproken taal.
2
Opnamecriteria
Het eerste en belangrijkste probleem voor de woordenboekmaker is de precieze omschrijving van hoe woorden in aanmerking kunnen komen voor opname in het woordenboek. Om een goed beeld te krijgen van hoe zulke opnamecriteria eruit kunnen zien, volgen hier (vereenvoudigd) de opnamecriteria van de GVD.
2.1
Van Dale Groot Woordenboek
Als een woord in ons corpus minstens drie keer voorkomt in verschillende bronnen, dan is het een algemeen gebruikt en bekend woord en nemen we het op in ons woordenboek. In deze zin zitten meer criteria verborgen dan eerst lijkt. Hieronder worden de drie belangrijkste elementen besproken. Ten eerste is er het al besproken corpus van Van Dale. De samenstelling van een corpus bepaalt de representativiteit van het corpus. De bedoeling is om zo representatief mogelijk te zijn. Voor een lexicograaf is het immers belangrijk om een zo goed mogelijk beeld te schetsen van de te bespreken taal. Een taal bestaat echter uit een hele reeks lagen. Die lagen worden ook registers genoemd. Die registers gaan verder dan het onderscheid tussen geschreven 3
en gesproken taal. Een brief naar je oma verschilt zeker van een brief naar de directeur van een school. Een schrijfopdracht voor de les Nederlands verschilt van een stukje in het schoolblad. In het Nederlandse taalgebied speelt ook het verschil tussen Noord- en Zuid-Nederlands een rol. De keuze van teksten bepaalt de structuur van je corpus. Van Dale heeft ervoor gekozen om teksten uit tijdschriften en kranten te nemen voor de GVD. Hiermee sluit Van Dale een deel van de mogelijke registers in het Nederlands uit. Zo een zelf opgelegde beperking wordt niet als een negatief element beschouwd. Enkel door een bewuste beperking van het domein kan een optimale representativiteit worden behaald. Ten tweede is het er element van frequentie: minstens drie keer voorkomen in verschillende bronnen. De keuze voor de frequentie drie is volledig arbitrair, maar wel gemotiveerd. Door drie voorkomens te eisen, worden eenmalige spelfouten en ook de hapax legomena - eenmalige woorden, vaak po¨ etisch - uitgesloten. De frequenti¨ ele filter is vooral een eerste, automatische schifting om het werk van de redacteurs te vereenvoudigen. Ten derde, en ook het laatste punt, is de conclusie van Van Dale dat als iets minstens drie keer voorkomt in hun corpus, dat dan het woord algemeen gebruikt en bekend is. Die conclusie is niet geheel zonder gevaar voor veralgemening. Een eerste probleem is bijvoorbeeld het fenomeen van hardnekkige spelfouten. Daarnaast kan het ook voorkomen dat een of andere medische term drie keer voor komt in het corpus vanwege een bepaald incident. Zulk jargon hoort uiteraard niet thuis in een algemeen woordenboek. Het filteren van die ongewenste resultaten is het werk van de redactie. 4
2.2
Redactie
Het sprokkelen van trefwoorden voor het woordenboek verloopt quasi-automatisch. Dat automatisch oogsten levert ook ongewenste resultaten op. Die noemt men ruis. Denk bijvoorbeeld aan de vele samenstellingen die de laatste jaren gemaakt worden met moslim-. Of zoals hierboven al werd vermeld: jargon en spelfouten. Om dit te verhelpen, moet een team van redacteurs een verdere selectie maken. Op dat moment kan er niet meer gesproken worden van strikte opnamecriteria. Voor de ene redacteur kan een woord immers jargon zijn, voor een andere een doodnormaal woord. De redacteurs van een woordenboek moeten meer doen dan het fine-tunen van de eerste automatische selectie. Aan elk lemma moet immers ook nog een betekenis toegevoegd worden. Ook hier staan er computerhulpmiddelen ter beschikking. De computer kan een concordantie maken van het trefwoord waarvan de betekenissen moeten beschreven worden. Een concordantie is een lijst van zinnen (contexten) waarin het trefwoord voorkomt. Op die manier kan een redacteur snel zien in welke context een woord wordt gebruikt en welke betekenis het woord in die context heeft. Naast de beschrijving van de actuele stand van het Nederlands, is de GVD ook een archief van het Nederlands uit de periode (circa) 1880-2005. In die archief-functie speelt de redactie ook een belangrijke rol. Hogerop bleek al dat er niet alleen trefwoorden bijkomen, maar ook weggaan. Dat verwijderen van trefwoorden lijkt in te gaan tegen de archief-functie. Toch is het verwijderen van bepaalde trefwoorden veroorloofd, als het bijvoorbeeld gaat
5
om modieuze en tijdelijke uitspraken.
De GVD wil een beeld
geven van algemeen gebruikte taal, niet van op elkaar volgende trends.
3
Descriptieve aanpak
Een wetenschappelijke aanpak vereist van de redacteurs dat ze afstand nemen van persoonlijke overwegingen. Waardeoordelen zijn niet toegestaan. De makers van een woordenboek proberen de woordenschat van een taal te beschrijven zonder daarbij te zeggen wat goed of slecht zou zijn. Die descriptieve aanpak geldt voor alle wetenschappen. Het blijkt dat juist bij de taalkunde die emotionele afstand soms moeilijk te bewaren is. Het is pas sinds de veertiende editie van de GVD dat de labels die bij de trefwoorden worden geplaatst in theorie volledig waardevrij zijn. Hieronder volgt wat de GVD zelf te zeggen heeft over haar descriptieve aanpak: (GVD, inleiding op de veertiende editie) Ten slotte is er een functie die geen enkel beschrijvend woordenboek zichzelf toekent, maar die het door vele gebruikers wordt toegekend: die van scheidsrechter in geval van twijfel of onzekerheid over de normatieve status van een woord of verbinding. De Grote Van Dale beperkt zijn beschrijving in principe tot de standaardtaal. Daarmee is het een impliciet normatief woordenboek, dat wil zeggen dat elementen in het woordenboek die niet nader gemarkeerd zijn, tot het algemene taalgebruik gerekend worden, terwijl elementen die daar niet toe behoren, maar om bepaalde redenenen vermelding verdienen, gelabeld zijn met tijdsmarkeringen als archasch of verouderd en stilistische markeringen als formeel, informeel of vulgair. 6
4
Case-study: beurtbalkje
Een interessante case-study is het beurtbalkje-geval. Enkele mensen van TV Gelderland voelden de nood aan een treffend begrip voor het plastieken ding dat jouw aankopen scheidt van vreemde aankopen aan de kassa van de supermarkt. Het woord beurtbalkje werd uitgevonden. De ambitie was om dat woord in de Van Dale te krijgen. De mensen van TV Gelderland hebben dan een website opgericht - http://www.beurtbalkje.nl - om hun nieuw gevonden woord te verspreiden. Het woord is opgenomen in de nieuwe Dikke Van Dale omdat het woord een bekend begrip is geworden. De website van Van Dale - http://www.vandale.be/nieuws/taalnieuws/47290 - gebruikt dezelfde woorden om de opnamecriteria samen te vatten. Na de bespreking van de opnamecriteria van de GVD is het duidelijk hoe Van Dale een bekend begrip definieert. Door de media-aandacht die TV Gelderland zelf kon organiseren, is beurtbalkje een aantal keer voorgekomen in tijdschriften en kranten. Daardoor belandde het in het corpus van Van Dale. Nochtans is het woord volledig artificieel en niet spontaan ontstaan in het taalgebruik. Taalgebruikers die geen aandacht hebben gegeven aan de publiciteit rond beurtbalkje zijn waarschijnlijk niet op de hoogte van het bestaan van dat woord. Toch staat het woord in de GVD.
5
Hands-on: web2.0 woordenboek
De belangrijkste moeilijkheid bij het maken van een woordenboek is enerzijds de selectie van de lemmata en anderzijds het be7
schrijven van de betekenis. Tijdens de productie van het web2.0 woordenboek zullen echter nog vele andere moeilijkheden opduiken. Probeer problemen steeds zo op te lossen dat de idee achter de oplossing ook toepasbaar is op analoge problemen. Deze herbruikbaarheid van oplossingen is een indicatie van een doordachte werkwijze. Een goede lexicograaf weet ook precies het domein af te bakenen waarin zijn woordenboek zich specialiseert. De keuze voor het domein web-2.0 is al een eerste aanzet. De afbakening van het domein kan echter nog een aantal stappen verder gaan. Komt myspace in het woordenboek? Wat dan met Facebook ? Of worden die opgenomen onder het lemma sociale media?
Onthoud dat
juist door een bewuste beperking van het onderzoeksdomein de representativiteit vergroot wordt. Tot slot is er nog een taalkundige bedenking. Het domein web 2.0 is nog erg jong en de woordenschat is nog niet toe aan een standaard. Vanuit een wetenschappelijk en descriptief oogpunt moeten daarom twijfelengevallen als het/de blog objectief aangekaart worden.
8