Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.nl: basiszoeken en uitgebreid zoeken links vanuit een artikel naar andere databestanden gebruik van operatoren EN en OF gebruik van wildcards * en ?
Twee andere voorbeelden: Mittelhochdeutsche Wörterbücher im Verbund http://germazope.uni-trier.de/Projects/MWV/wbb+ Wörterbuchnetz met andere woordenboeken, o.a. Deutsche Wörterbuch internetwoordenboekensysteem www.onelook.com
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Verschillen tussen VMNW en WNT die de opvraagbaarheid bepalen: 1. verschillen in inhoud: niet alle informatiecategorieën dezelfde 2. structuur van de digitale versie: VMNW: (relationele) database, waardoor alle informatiecategorieën expliciet en ondubbelzinnig voor de computer herkenbaar zijn WNT: niet volledig gestructureerd tekstbestand, waarin NIET alle informatiecategorieën expliciet en ondubbelzinnig voor de computer herkenbaar zijn door coderingen in het tekstbestand
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Van gedrukte tekst naar gestructureerd bestand: WNT GEDRUKTE TEKST
optical character recognition (OCR) of tekstverwerking DIGITAAL TEKSTBESTAND
automatische codering van informatiecategorieën
GESTRUCTUREERD DIGITAAL TEKSTBESTAND Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Automatische codering: principe het automatisch plaatsen van een begin- en eindcode om een stuk tekst dat een bepaald type informatie geeft (bijv. de informatiecategorie ‘trefwoord’, ‘citaat’, ‘datering’ etc.) op basis van: vormkenmerken van de tekst typografie, tekens, cijfers specifieke tekst context structuur van het artikel plaats in de structuur in combinatie met elkaar Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Automatische codering: complicerende factoren groot aantal potentieel te coderen informatiecategorieën complexe, fijnmazige structuur van grote artikelen typografische ambiguïteit en complexiteit lexicografische praktijk: variatie (inconsistentie): formeel en redactioneel ruimtegebrek -> middelen om de tekst te bekorten Consequenties: Niet alle informatiecategoriën zijn automatisch te coderen, waardoor de gebruiker van het woordenboek niet of niet precies vindt wat hij zoekt. Veel handmatig werk nodig voor verdere automatische codering.
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Gebruik van digitale woordenboeken voor natuurlijke-taal verwerkende computersystemen zoals: intelligente spelling- en grammaticacheckers systemen voor automatisch of computerondersteund vertalen mens-machinecommunicatiesystemen systemen voor automatische termextractie of informatie-extractie systemen voor ‘information retrieval’ MAAR: alleen de informatie is geschikt, niet de vorm -> automatische extractie van informatie uit digitale woordenboeken voor het maken van een ‘computationeel lexicon’ dat door een computer ‘gelezen’ kan worden
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Nederlandse PAROLE-lexicon (computationeel lexicon) verkrijgbaar via TST-centrale: www.inl.nl / producten
Morfologische informatie woordsoortinformatie, verbogen vormen, verkorte vorm eventueel: variante vormen eventueel: gebruiksinformatie (zeldzaam, archaïsch, informeel etc.) eventueel: geografische informatie
Syntactische informatie: valentiepatronen complementcategorieën (zoals werkwoord, zelfst. naamwoord e.d.) + eventuele specificatie functie van de complementen (bijv. zin na zelfst. naamwoord) onderlinge posities van lemma en complementen
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Voorbeelden van valentiepatronen in een formele interne notatie @#5. potje # Een potje babyvoeding ART+DET_1[NDETERMINATIVE] {1<SELF} (N_2:COMMON[NAPPOSITION]) {SELF<2}
@#9. vraag # De vraag of hij komt ART+DET_1[NDETERMINATIVE] {1<SELF} (Clause_2{of}[NCLAUSCOMP]) {SELF<2} Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Formele PAROLE-notatie in SGML van de vraag of hij komt (alleen om een idee te geven) <SynU id="Usyn6794" description="Description6794">
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
optional="NO_O" positionc="Position_C0"> n <SyntagmaT id="Syntagme_T0"
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
syntlabel="ART"> <SyntagmaNTC id="Syntagme_NT_C1" syntlabel="Clause" featurel="Trait_Lex2">
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008
Literatuur Van Sterkenburg (2003): 4.3, 5.1, 5.3 Kruyt, J.G. & J.J. van der Voort van der Kleij (1992-1993), Towards a computerized historical dictionary of Dutch. In: Acta Linguistica Hungarica 41 (1-4), Hungarian Academy of Sciences, Budapest, 159174. Kruyt, J.G. (1989). Gecomputeriseerde woordenboeken voor mens en computer. Jaarboek Instituut voor Nederlandse Lexicologie. Leiden : pp. 53-72. Kruyt, J.G. (1998). Elektronische woordenboeken en tekstcorpora voor Europese taaltechnologie. In: Trefwoord 12, jaargang 12, afl. 1, Jaarboek Lexicografie 1997-1998, pp. 28-42. Ook op www.inl.nl
Truus Kruyt, Lexicografie en lexicologie, Münster 2007/2008