Maken van een woordenboek:4 hoofdfasen 1. het maken van een concept + het testen van het concept door middel van proefartikelen hoe moet je woordenboek er inhoudelijk uitzien? 2. opbouw van een ‘materiaalverzameling’ die past bij het concept welk taalmateriaal is een geschikte basis voor het woordenboek? 3. het ‘redigeren’ (schrijven) van het woordenboek lexicografische bewerking van de ingangen volgens concept 4. publicatie van het woordenboek Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Woordenboek: macrostructuur: welke woorden ((of andere elementen)) uit de taal staan in het woordenboek? lijst van ‘ingangen’ / ‘lemmata’ / ‘trefwoorden’ (‘nomenclatuur’)
microstructuur: de soorten van informatie bij iedere ingang: (‘informatiecategorieën’) (bijvoorbeeld: woordsoort, betekenis, voorbeeldzin, …) Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Materiaalverzameling: digitaal tekstcorpus voor een wetenschappelijk woordenboek van de algemene taal
statistisch ‘representatief’ corpus: niet haalbaar -> ‘gebalanceerd’ corpus, d.w.z.: - veel verschillende soorten tekst (‘teksttypen’) - goede kwantitatieve verhoudingen tussen de teksttypen
Maar hoe precies? -> lexicografische corpora verschillen van elkaar, ondanks soortgelijk doel (bijv. Cobuild, Longman en andere) Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Corpora voor het Algemeen Nederlands Woordenboek ANW I. Voor de periode voor 2000 (ca. 60-70 mln woorden / ‘tokens’ ) reeds bestaande INL-corpora: 5, 27 en 38 mln corpora, PAROLE corpus: niet lexicografisch 50 mln corpus: wel lexicografisch ander beschikbaar materiaal op het INL
II Voor de periode na 2000 ( ca. 30-40 mln. woorden / ‘tokens’) opbouw nieuwe corpora: Domeinencorpus Nederlands (2000-2005) Domeinencorpus Vlaams (2001-2005) Corpus van literaire teksten (2000-2005) Neologismencorpus (2000-2019) Pluscorpus (2004) Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Algemeen Nederlands Woordenboek ANW: corpora (2) Domeinencorpus Nederlands (2000-2005) Domeinencorpus Vlaams (2001-2005)
selectie van teksten op basis van: - domeinen van www.nl-menu.nl: rubrieken in de samenleving - Google -> Ned.: 1121 Nederlandse domeinen, 18 mln tokens Vlaams: 1199 domeinen, ruim 11 mln tokens + wederzijds ontbrekende domeinen kenmerk: grote inhoudelijke diversiteit
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Algemeen Nederlands Woordenboek ANW: corpora (3) Corpus van literaire teksten (2000-2005) Teksttypen:
essays romans verhalen toneel
onderverdeling in:
oorspronkelijk en vertaald werk Noord (= Nederland) en Zuid (België)
Verwerving van de teksten: downloaden of scannen + OCR Omvang: 15 mln tokens gepland
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Algemeen Nederlands Woordenboek ANW: corpora (4) Neologismencorpus (2000-2019): nieuwe woorden, betekenissen, verbindingen Verwerving: dagelijks op basis van websites van ca. 20 dag- en weekbladen en nieuwssites Omvang: 20 mln tokens gepland;
lijst op internet (www.inl.nl)
Pluscorpus (2004) Woorden van voor 2000 uit het INL-lexicon die nog niet in het ANW-corpus met materiaal van na 2000 aanwezig waren Verwerving teksten: via Google Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
In het Corpus Gesproken Nederlands onderscheiden componenten (versie 1.0) Componenten: a. Spontane conversaties ('face-to-face') b. Interviews met leraren Nederlands c. Telefoondialogen opgenomen m.b.v. platform d. Telefoondialogen opgenomen m.b.v. minidisc recorder e. Zakelijke onderhandelingen f. Interviews en discussie uitgezonden op radio en televisie g. Discussie, debatten, vergaderingen (m.n. politieke) h. Lessen i. Spontane commentaren (o.a. sport) uitgezonden op radio en televisie j. Actualiteitenrubrieken en reportages uitgezonden op radio en televisie k. Nieuwsbulletins uitgezonden op radio en televisie l. Beschouwingen en commentaren uitgezonden op radio en televisie m. Missen, lezingen, plechtige toespraken n. Colleges, voordrachten, lezingen o. Voorgelezen teksten
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Automatische taalkundige verrijking (annotatie) van het corpus t.b.v. frequentietellingen en zoeksysteem (1) Verrijkt (geannoteerd) tekstfragment ontleend aan een oud INLcorpus: trefwoord en woordsoort (niet volgens de huidige TEI–standaard)
Ondanks_v{ondanks} de_l{de} uitwijzing_z{uitwijzing} en_c{en} de_l{de} politieke_a{politiek} spanningen_z{spanning} die_p{die} ze_p{ze} tot_v{tot} gevolg_z{gevolg} hebben_w{hebben}, biedt_w{bieden} Rabins_a{Rabins#} premierschap_z{premierschap} de_l{de} Palestijnen_z{Palestijn} nog_b(nog) altijd_b{altijd} de_l{de} beste_a{best} kansen_z{kans} om_v{om} ETC. Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Automatische taalkundige verrijking (annotatie) van het corpus t.b.v. frequentietellingen en zoeksysteem (2) Verrijkt (geannoteerd) tekstfragment ontleend aan het zoeksysteem voor het PAROLE-corpus
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Lexicografisch werkstation 3 componenten: materiaalverzameling (o.a. digitaal + verrijkt corpus) digitale redactionele werkomgeving digitaal woordenboek opslag: gestructureerd bestand lexicale database
-> gedrukt woordenboek elektronisch woordenboek met zoeksysteem
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Voorbeelden van functionaliteiten van het VMNW-systeem (op basis van de traditionele lexicografische praktijk)
- opvragen en bekijken van informatief materiaal - opvragen van citaten + aantekeningen maken bij een citaat - de citaten op diverse manieren groeperen, bijv per betekenis of per groep teksten + aantekeningen maken bij een groep citaten - de citaten op diverse manieren sorteren - aantekeningen maken bij een betekenis - citaten selecteren, aanpassen en overbrengen naar de lexicale database, als bewijs bij een bepaalde betekenis - een al bewerkt woord opvragen uit de lexicale database door de redacteur - wijzigen van artikelen door de redacteur - administratie van welke redacteur het artikel gemaakt heeft + wanneer, wie het gecontroleerd heeft + wanneer etc.
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Minimale eisen aan lexicografische werkomgeving Basiszoekmogelijkheden op een corpussysteem: o.a. - selecteren van een ‘subcorpus’ (deel van het corpus) - zoeken op woordvorm, trefwoord en woordsoort - gebruik van ‘hulpmiddelen’ bij de zoekvraag ( bijv. wildcards, jokers, AND/OR/ANDNOT)
- opvragen van ‘concordanties’: woord in een beperkte context verschillende sorteermogelijkheden gegevens over de bron waaruit het woord komt variabele context links en rechts van concordantiewoord - spreiding van een woord over de bronnen, een periode … - statistische collocaties lexicografische bewerking: speciale tekstverwerker met behoud van structuur van de data (bijv. XML) snel en gebruikersvriendelijk Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Literatuur in dit college: Van Sterkenburg (2003): 1.2 Geeraerts, D. & G. Janssens (1982), Wegwijs in woordenboeken. Van Gorcum, Assen. Hoofdstuk 1. Kruyt, J.G. & E. Putter (1992), Corpus Design Criteria. INL Working Papers 92-11. Moerdijk, F. (2004), Het Algemeen Nederlands Woordenboek (ANW), in: Nederlandse Taalkunde 9, 175-182.
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008