Een digitale structuur voor het Woordenboek van de Drentse dialecten Jelke Bloem 24-07-2009
1
Inhoudsopgave 1
Inleiding
4
2
Het Woordenboek van de Drentse Dialecten
4
2.1 Wat staat er in het Drents woordenboek? . . . . . . . . . . . . .
5
2.2 Digitalisering . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3 Elektronische woordenboeken . . . . . . . . . . . . . . . . . . . .
7
Het Drents woordenboek online
8
3.1 Van WordPerfect naar database . . . . . . . . . . . . . . . . . . .
8
3.2 Het databaseontwerp . . . . . . . . . . . . . . . . . . . . . . . . .
9
3
3.3 De XML-structuur . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.4 Een voorbeeld van een lemma in het systeem . . . . . . . . . . . 13 3.5 Evaluatie van het systeem . . . . . . . . . . . . . . . . . . . . . . 14 4
Gerelateerd werk
16
5
Ontbrekende onderdelen in het online WDD
19
5.1 Ontbrekende informatievelden . . . . . . . . . . . . . . . . . . . . 19 5.1.1 Lemmanummering . . . . . . . . . . . . . . . . . . . . . . 20 5.1.2 Uitspraakinformatie . . . . . . . . . . . . . . . . . . . . . 20 5.1.3 Voorvoegsels . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.1.4 Lokale bronnen . . . . . . . . . . . . . . . . . . . . . . . . 21 5.1.5 Informatie die niet in de afkortingenlijst staat . . . . . . . 22 5.1.6 Uitleg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.1.7 Vaste uitdrukking . . . . . . . . . . . . . . . . . . . . . . 23 5.1.8 Complexe verwijzing . . . . . . . . . . . . . . . . . . . . . 24 5.1.9 Beperking van een woordvariant tot een bepaalde betekenis 24 5.2 Informatie op een andere plaats . . . . . . . . . . . . . . . . . . . 25 5.2.1 Kruisverwijzingen . . . . . . . . . . . . . . . . . . . . . . 25 5.2.2 Voorbeeldzinnen met bronnen . . . . . . . . . . . . . . . . 25 5.2.3 Een kruisverwijzing bij een voorbeeld . . . . . . . . . . . 25 5.2.4 Een woord uit een plaats . . . . . . . . . . . . . . . . . . 26 5.2.5 Een jargon bij een betekenis . . . . . . . . . . . . . . . . . 26
2
5.3 Informatie met een andere kardinaliteit . . . . . . . . . . . . . . 27 5.3.1 Meerdere verwijzingen . . . . . . . . . . . . . . . . . . . . 27 5.3.2 Meerdere lidwoorden . . . . . . . . . . . . . . . . . . . . . 27 5.4 Algemene conclusies . . . . . . . . . . . . . . . . . . . . . . . . . 28 6
Voorgestelde veranderingen
28
6.1 Gemplementeerde veranderingen . . . . . . . . . . . . . . . . . . 28 6.1.1 Algemene veranderingen . . . . . . . . . . . . . . . . . . . 29 6.1.2 Lemmatabel . . . . . . . . . . . . . . . . . . . . . . . . . . 29 6.1.3 Woordtabel . . . . . . . . . . . . . . . . . . . . . . . . . . 30 6.1.4 Betekenistabel . . . . . . . . . . . . . . . . . . . . . . . . 30 6.1.5 Voorbeeldentabel . . . . . . . . . . . . . . . . . . . . . . . 31 6.1.6 Oorsprongsinformatie . . . . . . . . . . . . . . . . . . . . 31 6.1.7 XML-structuur . . . . . . . . . . . . . . . . . . . . . . . . 32 6.2 Toekomstig werk . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 6.2.1 Natuurlijke taal . . . . . . . . . . . . . . . . . . . . . . . . 33 6.2.2 Afgekorte woorden en zinnen . . . . . . . . . . . . . . . . 33 6.2.3 Woordgroepen . . . . . . . . . . . . . . . . . . . . . . . . 33 6.2.4 Weggelaten verwijzingen . . . . . . . . . . . . . . . . . . . 34 6.2.5 De XML-conversie . . . . . . . . . . . . . . . . . . . . . . 34 6.2.6 De website . . . . . . . . . . . . . . . . . . . . . . . . . . 34 7
Conclusie en toekomstig werk
35
A Databaseontwerp van het online WDD
37
B Het voorgestelde databaseontwerp
40
C XML-informatiestructuur van het online WDD
42
D De voorgestelde XML-informatiestructuur
43
3
1
Inleiding
In de eerste maanden van 2009 is door studenten van de Rijksuniversiteit Groningen een digitale versie van het Woordenboek van de Drentse Dialecten (Kocks, 1997) ontwikkeld (Bloem et al., 2009). Het WDD is een uitgebreid woordenboek met daarin de Drentse woordenschat, waarbij ook informatie over geogra sche variatie en dialectvarianten is opgenomen. De digitalisering is in gang gezet door de auteur van het woordenboek, die wou dat de informatie voor een breed publiek toegankelijk moest worden. Het belangrijkste uitgangspunt hierbij was dat alle informatie uit het WDD ook in het online WDD beschikbaar kwam. De digitale versie bestaat uit een website1 die met een database communiceert. Woordenboeken worden gezien als een van de meest ingewikkelde vormen van tekstuele data (Zhang, 1995), en voor alle soorten informatie moet plaats zijn in de database. Niet alle informatie uit het Woordenboek van de Drentse Dialecten was in de databasestructuur van dit systeem te plaatsen. Een evaluatie van het systeem, beschreven in sectie 3.5, liet zien dat op het gebied van de database ontbrekende informatievelden voor de meeste verschillen tussen het gedrukte en online woordenboek zorgde. Er bleek bijvoorbeeld geen informatieveld voor verwijzingen tussen lemma's te zijn. De databasestructuur is in hoofdlijnen geschikt, maar om het doel van volledige opslag te bereiken zijn aanpassingen en uitbreidingen nodig. In dit verslag wordt onderzocht wat er moet worden veranderd om de informatie volledig in het systeem op te kunnen slaan. Op basis hiervan worden verbeteringen voorgesteld. 2
Het Woordenboek van de Drentse Dialecten
Het Woordenboek van de Drentse Dialecten (Kocks, 1997) geeft een overzicht van Drentse woorden, waarbij de nadruk wordt gelegd op de verschillende Drentse dialecten en de regio's waar ze gesproken worden. Bijzonder in het WDD is het grote aantal voorbeeldzinnen, waarmee het gebruik van de woorden verduidelijkt wordt. Dit komt doordat bij het verzamelen van taalmateriaal voor het woordenboek gevraagd werd om de woorden in zinsverband te geven. Verder bevat het allerlei andere informatie die men in een vertaalwoordenboek zou verwachten, zoals woordvertalingen en informatie over woordsoort en lidwoord van het trefwoord. Er is van 1963 tot 1997 aan het woordenboek gewerkt. Het is gebaseerd op ouder materiaal van onder andere eerdere pogingen tot het maken van Drentse woordenboeken, materiaal dat voor 1963 door de dialectoloog Jan Naarding verzameld is, waaronder een woordenlijst, en materiaal dat na 1969 uit vele Drentse plaatsen verzameld is door middel van kaartjes met vragen om zinnen met een bepaald woord te maken. Hiervoor werden in heel Drenthe teams opgezet voor het verzamelen van het materiaal, met als doel het maken van een woordenboek. Dit gebeurde met als uitgangspunt de gegevens van Naarding. In 1996 en 1997 werden de twee delen van het woordenboek uitgegeven. In 2003 gaf de auteur de opdracht om het WDD elektronisch beschikbaar te 1 www.drentswoordenboek.nl
4
Figuur 1: Een voorbeeld van een woordenboeklemma in het WDD. maken, zodat het voor een zo groot mogelijk publiek beschikbaar zou zijn. De Drentse cultuurinstelling het Huus van de Taol nam hierover contact op met de Rijksuniversiteit Groningen en in 2009 is het project door studenten van hun opleiding Informatiekunde gerealiseerd (Bloem et al., 2009). 2.1
Wat staat er in het Drents woordenboek?
Het lijkt een simpele vraag, maar het is wel een die erg belangrijk is bij digitalisering van woordenboeken. Om te weten welke informatievelden opgeslagen moeten worden, moet men eerst weten welke informatievelden in de brondata bestaan. En zoals in de inleiding al is gezegd, ligt dit in een woordenboek soms redelijk ingewikkeld. Ook is het zo dat elk woordenboek anders in elkaar zit, dus is het lastig om een algemeen model te gebruiken. Daarom zal ik hier bespreken welke informatie er in het WDD staat. Figuur 1 laat een lemma, ook wel woordenboekartikel genoemd, uit het WDD zien. Dit is het hoofdelement van het woordenboek. Een woordenboek bevat in principe een lijst lemma's, alfabetisch gesorteerd op het trefwoord of hoofdwoord. Dit trefwoord (hier: grand ) is een onderdeel van het lemma. Daarachter staat informatie over dit lemma, evenals varianten op het hoofdwoord, gevolgd door het =-teken. Achter de = staan twee genummerde betekenissen, waar ook allerlei soorten informatie in staat. De lemma-informatie van dit lemma bevat een aantal elementen die in de meeste woordenboeken wel te vinden zijn, namelijk het relevante lidwoord de, en de toepasselijke meervoudsuitgang -en. Het WDD bevat soms ook gebruiksinformatie bij het lemma, zoals het jargon waar het woord uit komt, maar dat is bij dit lemma niet het geval. Daarachter staat iets dat wat typischer is voor een dialectenwoordenboek als het WDD. Tussen haakjes kan met kleine letters een bron genoteerd staan, hier wb, wat volgens de afkortingenlijst het woordenboek van J. Bergsma is. Verder staat er ZOZ, dit is een van de Drentse dialecten, aangegeven door de regio waar het wordt gesproken (Zuidoost-Drenthe, zandgedeelte). Dit betekent dus dat dit woord alleen in ZOZ in gebruik is. Verder zou er tussen deze haakjes een plaatsaanduiding kunnen staan, zoals (Zdw) helemaal aan het einde van het lemma. Dit soort oorsprongsinformatie kan op allerlei plekken in het lemma staan, niet alleen bij de lemma-informatie. Zo kan het bijvoorbeeld alleen van toepassing zijn op een bepaalde betekenis van het lemma. Ook kan het redelijk ingewikkeld worden, bijvoorbeeld wanneer een bron haar informatie verzameld heeft uit een bepaalde plaats of regio (be:Emm en be:MD zijn in dit lemma te zien). 5
Hierna wordt een variant op het hoofdwoord van dit lemma genoemd: \Ook Doordat dit woordenboek alle Drentse dialecten dekt zijn er veel verschillende spellingsvarianten, vaak ook met een locatieaanduiding. Het kan ook voorkomen dat verwezen wordt naar een ander lemma als de spellingsvarianten hetzelfde zijn als bij dat lemma, maar hier is dat niet het geval. Na de variant staat tussen haakjes de behoorlijk gecompliceerde extra informatie dat voor deze variant, betekenis nummer 2 alleen in Zuidwest-Drenthe Noord gebruikt wordt. Dit geeft al een idee van de ingewikkelde relaties tussen gegevens die in zo'n woordenboek voorkomen. graand ".
Het betekenisgedeelte kan ook allerlei informatie bevatten. Het belangrijkste is de Nederlandse vertaling van de betreende betekenis, zoals \wand " in betekenis 1. Een betekenis kan ook weer oorsprongsinformatie hebben, in dit geval een bron met een plaats (be:Emm ). De tweede betekenis bevat nog een informatieveld waar het WDD heel veel van heeft, voorbeeldzinnen. Deze zijn door de hele provincie verzameld en geven een beeld van het gebruik van de woorden. Soms hebben deze zinnen nog een Nederlandse uitleg of vertaling, en zoals ook in dit lemma kunnen ze oorsprongsinformatie hebben. Ook kan hier aangegeven worden of het een vaste uitdrukking is, of guurlijk taalgebruik. Verder blijkt uit dit voorbeeld dat een vertaling ook een soort omschrijving van het bedoelde kan zijn. Iets dat ook in het WDD voor komt, maar dat niet in dit voorbeeld te zien is, zijn kruisverwijzingen. Daarbij wordt vanuit een lemma of lemmaonderdeel verwezen naar een geheel ander lemma, dat gerelateerd is aan de gegeven informatie. Ook staan er lemma's in het woordenboek die slechts verwijzen naar een ander lemma en geen verdere lemma-informatie hebben. Uit deze omschrijving blijkt al dat er veel verschillende informatievelden zijn, en dat die informatievelden soms in verschillende onderdelen van het lemma terug kunnen komen. Er zit een hele structuur achter, met enkele hoofdonderdelen die allerlei soorten informatie bevatten. Ook zijn er in het woordenboek vele uitzonderingen te vinden, die niet in een van de frequent voorkomende velden te plaatsen zijn. In hoofdstuk 3 wordt het bestaande digitale WDD-systeem behandeld, waarbij duidelijk zal worden dat het correct plaatsen van alle informatie voor een ingewikkelde database heeft gezorgd. 2.2
Digitalisering
Om alle voordelen van een digitaal woordenboek te kunnen benutten, moet de structuur van de gegevens in het digitale woordenboek expliciet worden aangegeven. Als een woordenboek slechts als een lap tekst wordt opgeslagen, dan heeft dit weinig voordelen ten opzichte van een papieren woordenboek, alleen algemene voordelen van digitale tekst zijn dan van toepassing. Een elektronisch woordenboek komt pas goed tot zijn recht als alle informatie duidelijk is ingedeeld zodat de computer weet wat voor informatie het is. Bij het verwerken van tekst zijn drie niveaus te onderscheiden (Renkema, 2004, p. 233). De eerste is het oppervlakteniveau, dit is de precieze formulering van een tekst. Op dit niveau zijn de tekstbestanden van het WDD opgeslagen op een computer. Ze zijn opgeslagen als een reeks karakters in een bepaalde 6
karaktercodering. Het tweede niveau is het propositionele niveau, de betekenis van de tekst in proposities. Proposities zijn de minimale betekeniseenheden van een tekst. Bij het aanbrengen van structuur bij het digitaliseren moet informatie uit dit tweede niveau bij de tekst gezet worden, zodat opgeslagen kan worden wat elk stukje tekst betekent. Zo wordt expliciet gemaakt of een afkorting bijvoorbeeld voor een bron of voor een plaats staat. Dit gebeurt door het automatisch aanbrengen van informatiecodes op basis van patronen, en geeft aan in welk informatieveld de informatie moet komen te staan. Het derde tekstniveau is de situationele representatie, een mentaal model van wat er in de tekst staat. Zo ver zijn computers helaas nog niet. Bij digitalisering van een woordenboek als het WDD is het expliciet maken van structuur een van de grootste struikelblokken. Een papieren woordenboek heeft alleen opmaakcodes, lees- en scheidingstekens en de volgorde van informatie om aan te geven bij welk veld informatie hoort. Dit geeft slechts een indicatie, er is geen direct verband te leggen tussen bepaalde opmaakcodes en informatievelden. Voor een elektronisch woordenboek moet het echter precies aangegeven zijn met behulp van informatiecodes. Waar opmaakcodes aangeven hoe de tekst die ze bevatten weergegeven wordt, geven informatiecodes aan wat voor soort informatie er in de tekst staat (Ide et al., 1993). Om deze stap te maken moet op basis van patronen bepaald worden bij welk informatieveld iets hoort, bijvoorbeeld met reguliere expressies. Deze patronen zijn afhankelijk van de opmaak, structuur en volgorde van de lemma-informatie van het speci eke woordenboek en moeten handmatig gede nieerd worden. Voor elke mogelijke situatie van elk informatieveld moet er een patroon zijn, en aangezien woordenboeken door mensen worden opgesteld, zullen er altijd fouten en onregelmatigheden te vinden zijn die niet binnen de patronen passen. Hierdoor is het vrijwel onmogelijk om automatisch 100% van de informatie te voorzien van informatiecodes. 2.3
Elektronische woordenboeken
Naast toegang op de computer kunnen goed ontworpen elektronische woordenboeken een groot aantal andere voordelen hebben ten opzichte van papieren woordenboeken. Een aantal mogelijke voordelen worden beschreven in \A practical guide to lexicography" (Oppentocht and Schutz, 2003). De indeling van een woordenboek is meestal gericht op ruimtebesparing. Alles wordt zo kort mogelijk geschreven, en redundantie wordt zo veel mogelijk vermeden. Bij een elektronisch woordenboek is de beschikbare opslagruimte veel groter, en niet gebonden aan de weergave van de gegevens. Hierdoor kunnen gegevens uit elektronische woordenboeken op een veel leesbaardere manier weergegeven worden. Afkortingen zijn niet meer nodig, en kruisverwijzingen naar andere trefwoorden kunnen vervangen worden door hyperlinks of door de informatie waar naar verwezen wordt, direct weer te geven. Voor een goed elektronisch woordenboek is het noodzakelijk om expliciet te maken bij welk informatieveld bepaalde informatie hoort. Een mens kan de tekst die er staat interpreteren, met behulp van de opmaak van het woordenboek, en er zo de benodigde informatie uithalen. Een computer kan de lemmatekst niet 7
interpreteren, dus elk stukje informatie moet in een veld geplaatst worden om verder gebruik mogelijk te maken. Dit is bijvoorbeeld nodig bij zoekopdrachten, waarbij op bepaalde soorten informatie gezocht moet kunnen worden, of simpelweg om informatie onder het juiste kopje weer te kunnen geven. Een papieren woordenboek is gesorteerd op trefwoord, en dat is ook de enige manier om het woordenboek te doorzoeken. Elektronische woordenboeken hebben deze beperking niet, op alle informatievelden kan worden gezocht of gesorteerd. Zo kan veel meer informatie gevonden worden, en ook veel sneller, dan bij papieren woordenboeken. Men kan bijvoorbeeld bij de trefwoorden ook de varianten ervan indexeren om ook via alternatieve spellingen het juiste lemma te kunnen vinden. Er kan bijvoorbeeld gezocht worden naar delen van woorden, of naar woorden in de verklaring of vertaling. Ook kunnen er beperkingen bij worden gegeven, bijvoorbeeld alleen woorden uit een bepaalde regio. Allerlei information retrieval-technieken kunnen op zo'n zoeksysteem worden toegepast, zoals spellingssuggestie. Ook kunnen automatische of semi-automatische bewerkingen worden uitgevoerd op de woordenboekgegevens. Zo kunnen inconsistenties of ontbrekende gegevens gevonden en gecorrigeerd worden. Als er bijvoorbeeld in een lemma twee betekenissen zijn, genummerd 2 en 3, betekent het dat er daar iets mis is gegaan. Er kan ook interactiviteit toegevoegd worden, waarbij de gebruikers bijvoorbeeld correcties aandragen, of hun weergave zo kunnen instellen dat alleen bepaalde informatie die ze interessant vinden wordt weergegeven. 3
Het Drents woordenboek online
Dit hoofdstuk bevat een beschrijving van het systeem voor het online Woordenboek van de Drentse dialecten, beschreven in Bloem et al. (2009), met speciale aandacht voor de database en de structuur hiervan. Het digitaliseringsproject begon bij de WordPerfect-bestanden van het WDD, met daarin de tekst en de opmaak voor het drukken, en eindigde met een website die toegang biedt tot de gegevens hieruit. 3.1
Van WordPerfect naar database
De WordPerfect-bestanden kunnen niet direct gebruikt worden, aangezien de informatie hierin geen informatiecodes heeft. WordPerfect-bestanden zijn binaire bestanden, waardoor ze niet met reguliere expressies te bewerken zijn. Dit was echter wel nodig om informatiecodering toe te voegen. De WordPerfectbestanden moesten dus omgezet worden naar een tekstformaat, waarbij de opmaak, die vaak belangrijk is om te bepalen wat voor soort informatie iets is, bewaard moest blijven. Hierbij werd gekozen voor HTML. Na deze stap werd het mogelijk om informatiecodes toe te voegen met behulp van reguliere expressies. Dit werd gedaan met een Perl-script, dat twee XML-bestanden opleverde, een voor lemma's die succesvol gecodeerd waren, en een voor de lemma's waar tekst dat binnen geen enkel patroon paste overbleef. XML is een goede manier om gegevens gestructureerd weer te geven, 8
Figuur 2: Een diagram van de hoofdstructuur van de database achter het online Drents woordenboek. Bijlage A geeft een volledig overzicht van de structuur met gedetailleerde diagrammen. en XML-structuren zijn boomstructuren2 . Woordenboeklemma's hebben een boomstructuur(Ide et al., 2000), dus dit maakt XML een geschikt formaat voor het opslaan van lemma's. Vanaf dit punt zouden de gegevens uit het succesbestand al gebruikt kunnen worden voor een website. In een XML-bestand staan de gegevens in informatievelden en met Xpath zijn ze ook doorzoekbaar. XML-bestanden missen echter wel een aantal eigenschappen die belangrijk zijn voor het toegang bieden aan veel gegevens via een website, zoals zoeksnelheid, indexeringsmogelijkheden, eciente opslag, en beveiliging (Bourret, 2003). Databases bezitten deze eigenschappen wel. Bovendien is het gebruik van een database achter een website gebruikelijker en zijn er goede standaardoplossingen voor. Hierom werd besloten om de data in een relationele MySQL-database (Dubois, 2008) op te slaan, die met de programmeertaal PHP met de website communiceert (Converse et al., 2004). De gegevens werden vanuit de XML in de database gezet via een PHP-script dat MySQL-queries maakte. Dit script maakte gebruik van het Document Object Model (Marini, 2002) om de juiste gegevens op de juiste plaats in de database te krijgen. De website3 is gebaseerd op templates en heeft een simpel ontwerp. Het bestaat uit zoekformulieren en een zoeksysteem, dat in PHP is geschreven en de database doorzoekt met SQL-queries. Nu volgt een beschrijving van de onderdelen van het systeem van het Drents woordenboek online. 3.2
Het databaseontwerp
Het online WDD heeft al een database waarin de verschillende onderdelen van een lemma goed gescheiden worden. De hoofdstructuur hiervan volgt logisch uit de structuur van het woordenboek en de structuur van woordenboeken in het algemeen. Figuur 2 laat de hoofdstructuur zien, volgens het ontwerp van Bloem 2 http://www.w3schools.com/xml/xml_tree.asp 3 www.drentswoordenboek.nl
9
et al. (2009). Het volledige diagram is te zien in bijlage A. Het ontwerp is gebaseerd op het idee dat lemma-informatie een boomstructuur heeft, met bij elk niveau wat informatie. Bovenaan staat het lemma met daarbij informatie als woordsoort, daaronder de betekenissen, met daaronder de vertalingen en voorbeelden. Om te kijken wat voor informatie er precies bij elk onderdeel kan horen, werd steekproefsgewijs in het woordenboek gekeken. Omdat de hoofdfunctie van het systeem het zoeken op woorden zou worden, en omdat sommige lemma's meerdere woorden (bijvoorbeeld varianten) hebben, werd een aparte zoektabel voor woorden toegevoegd. Deze moest zo ingericht zijn dat snel zoeken bevorderd werd, dus met een index voor de woorden en zo weinig mogelijk extra informatie (Rolland, 1998, p. 176). Van een aantal soorten gegevens werd vastgesteld dat een bepaald lemmaonderdeel meerdere gegevens van dat informatietype kan hebben, bijvoorbeeld vertalingen, woordsoorten of regio's waarin een woord wordt gebruikt. Deze attributen kregen een eigen tabel om te voldoen aan de eerste normaalvorm voor relationele databases, een regel die onder andere voorschrijft dat er niet meer dan een gegeven in een veld mag staan (Codd, 1970). Ook de vaste afkortingenlijsten die voorin het WDD te vinden zijn kregen hun eigen tabel met de afkorting en de voluit geschreven naam, omdat hier een beperkt aantal opties zijn en er anders veel duplicatie zou zijn. Bovendien staan in het WDD alleen de afkortingen in de lemma's, terwijl het wenselijk is om op de website de volledige namen weer te geven. Nadat het ontwerp gemaakt was, werden er nog af en toe uitzonderingen gevonden die niet in de ontworpen structuur pasten, bijvoorbeeld andere mogelijke locaties voor al eerder gevonden soorten informatie. Hiervoor werden in de meeste gevallen extra relaties toegevoegd of andere aanpassingen gemaakt, waardoor het uiteindelijke ontwerp vrij complex is geworden. Van sommige uitzonderingen werd bepaald dat ze niet frequent genoeg voorkwamen. Er werden ook een aantal situaties gevonden waarbij er een veel-op-veel-relatie was, bijvoorbeeld tussen regio en woord of tussen regio en betekenis. In deze gevallen werden koppeltabellen toegevoegd om deze relaties mogelijk te maken. Bij dit databaseontwerp zijn enkele algemene problemen te constateren. Er kunnen veel soorten informatie in een lemma staan, maar lang niet elk lemma heeft informatie van elke soort. Jargonaanduidingen komen bijvoorbeeld maar zelden voor, slechts 92 van de 42.415 lemma's in het systeem hebben een jargonaanduiding. De positie van de informatie in het lemma maakt hierbij ook uit. Een bronvermelding bij een woord staat in de database ergens anders dan een bronvermelding bij een betekenis, waardoor het verschillende informatievelden zijn. Voor elk informatieveld dat bij een tabel niet ingevuld is, wordt een nullwaarde opgeslagen. Deze waarden nemen ook ruimte in, en het is dus beter om ze te vermijden (Rolland, 1998, p. 73). Het ontwerp van het WDD-systeem is echter zo dat veel informatie uit een lemmaonderdeel (bijvoorbeeld betekenis) direct in de tabel van dat lemmaonderdeel staan, waardoor er veel nullwaarden ontstaan wanneer deze niet ingevuld zijn. Vaste afkortingenlijsten uit het woordenboek, zoals de lijst met Drentse plaatsen en hun afkorting, zijn in de database opgenomen als eigen tabel. Hier wordt dan vanuit de andere tabellen naar verwezen. Er zijn echter wel meer informatievelden die maar een beperkt aantal waarden kunnen hebben. Er zitten 10
bijvoorbeeld 6 unieke lidwoorden in het systeem (de, het, de het, het de, het het, de de), maar er zijn meer dan 20.000 lemma's waarbij een lidwoord is ingevuld. Dit betekent dat dezelfde gegevens erg vaak herhaald worden. Ook dit is iets dat in databases beter vermeden kan worden. Een eigen tabel voor de zes mogelijke lidwoorden waar door lemma's naar verwezen wordt, zoals dat bij de plaatsnamen ook gebeurt, zou dit probleem voorkomen. Overigens zouden deze lidwoorden volgens de eerste normaalvorm eigenlijk gescheiden moeten worden. Ook lijkt het erop dat niet met alle mogelijke informatievelden rekening is gehouden in het databaseontwerp, met name informatievelden die zelden gegevens bevatten. Dit wordt in hoofdstuk 5 verder besproken. Normaalvormen zijn criteria waarmee bepaald kan worden hoe gevoelig een database is voor inconsistentie. Deze criteria gelden voor tabellen, dus om een hele database in de derde normaalvorm te hebben, moeten alle tabellen van de database in de derde normaalvorm zijn. Tabellen in de eerste normaalvorm bevatten een gegeven per veld, en de rijen en kolommen van de tabel mogen niet in een bepaalde sorteervolgorde staan. De rijen en kolommen zijn in het WDD-systeem niet gesorteerd, dus aan dat onderdeel wordt voldaan. Er zijn echter wel enkele situaties te vinden waarbij niet aan het criterium \een gegeven per veld" wordt voldaan. Zo kan het voorkomen dat beide lidwoorden (de, het) bij een bepaald trefwoord in gebruik zijn. Deze worden dan samen in een veld gezet, en dit mag volgens dit criterium niet. Ook wordt bij bronvermeldingen soms een plaats of regio genoemd. Deze worden in het systeem als een eenheid opgeslagen, terwijl het twee verschillende gegevens zijn. Er valt echter ook wat voor te zeggen dat het gezamenlijk \oorsprongsinformatie" of iets dergelijks vormt, waarmee het wel aan de eerste normaalvorm zou voldoen. In hoofdstuk 5 wordt hier verder op in gegaan. De tweede normaalvorm schrijft voor dat een tabel in de eerste normaalvorm is, en dat elk attribuut functioneel afhankelijk is van de gehele tabelsleutel. Omdat tabellen in het WDD-systeem altijd een surrogate key hebben (de identi catienummers) of geen attributen hebben naast de sleutel (koppeltabellen), kunnen er geen situaties ontstaan waarbij een attribuut slechts afhankelijk is van een deel van de tabelsleutel. Hierom zijn alle tabellen in het systeem die in de eerste normaalvorm zijn, ook in de tweede normaalvorm. De derde normaalvorm schrijft voor dat elk niet-sleutelattribuut functioneel afhankelijk moet zijn van de sleutel, en dus niet van een ander nietsleutelattribuut. Hier voldoen de tabellen van het WDD-systeem ook aan. Als er bijvoorbeeld een afkorting en een volledige naam beschikbaar is, is de volledige naam afhankelijk van de afkorting. Hierom staan ze in een eigen tabel met de afkorting of een identi catienummer als sleutel, en niet in een van de hoofdtabellen. 3.3
De XML-structuur
Het XML-bestand dat de tussenstap vormde tussen opgemaakte tekst en relationele database bevatte de eerste digitale structuur voor het Woordenboek van de Drentse dialecten. Op basis van deze structuur werden de gegevens in de database gezet. Het was dus belangrijk dat ook deze structuur alle informatie 11
op de juiste plaatsen kon bevatten. Er zijn twee manieren om zo'n structuur te ontwerpen. Het is mogelijk om uit te gaan van de gegevens in het woordenboek zelf, en op basis daarvan de informatiecodes die de structuur vormen aan te brengen. Dit maakt het simpel om de structuur aan te brengen, maar kan het importeren van de XML-gegevens in de database complex maken. De andere mogelijkheid is om uit te gaan van het ontwerp van de relationele database. Zo kan een structuur gemaakt worden waaruit de gegevens op dezelfde manier gestructureerd zijn als in een relationele database, waardoor het importeren van de gegevens in de database simpel is. Dit zal het omzetten van de gegevens naar XML-formaat wel ingewikkelder maken. In het project is de eerste aanpak gebruikt, maar er zijn wel aanpassingen gemaakt om de structuur dichter bij die van de database te brengen, zodat er een tussenvorm ontstond. Er is eerst een XML-structuur ontworpen op basis van het woordenboek. Hierin bestond een lemma uit een vorm en een betekenis. De vormcode bevatte informatie over woordsoort, evenals de oorsprongsinformatie van het woord. Elk woord, trefwoord of variant, werd beschouwd als een vorm. Een nadeel hiervan was dat lemma- en woordinformatie niet gescheiden werden. Lemma-informatie, horende bij het trefwoord, geldt ook voor de varianten van het trefwoord. De betekeniscode bevatte de vertaling en het voorbeeld, met bijbehorende informatie. Woordenboeklemma's die slechts een verwijzing waren en niets anders, werden niet als lemma behandeld maar als verwijzing. Er werd ook een tweede XML-structuur ontworpen, op basis van het databaseontwerp. Hierbij waren de lemma- en woordinformatie wel gescheiden. Ook waren er identi catienummers toegevoegd om makkelijker naar andere woorden en lemma's te kunnen verwijzen, net als in de database. Lemma's met alleen een verwijzing kregen hier geen eigen code, maar werden behandeld als lemma met slechts een woord (dat ergens naar verwees). De XML-structuur die uiteindelijk gebruikt is, is een tussenvorm van de twee ontwerpen. In bijlage C is de volledige structuur te zien. Een lemma bestaat er nog uit een vorm en een betekenis, maar binnen de vormcode hebben de varianten van het trefwoord een eigen code, variant, waardoor woordinformatie van de varianten gescheiden is. De woordinformatie van het trefwoord en de lemma-informatie staan direct onder de vormcode. Overigens worden in de database trefwoorden net zo behandeld als variantwoorden, dus het was misschien niet nodig geweest om onderscheid te maken tussen hun woordinformatie. Verwijzingslemma's zijn uiteindelijk binnen het lemma geplaatst, waardoor woordinformatie ook opgeslagen kan worden, en hebben een eigen verwijzingscode, die direct onder het lemma zit. De structuur bevat uiteindelijk alleen identi catienummers voor lemma's. Omdat de XML een boomstructuur heeft, wordt uit de positie van informatie in de boom al duidelijk waar het aan gerelateerd is. Hier zijn dus geen identi catienummers bij nodig. Dit in tegenstelling tot de relationele database, waarbij zo'n relatie expliciet duidelijk gemaakt moet worden met behulp van identi catienummers. Alleen voor de lemma's geldt dit niet, het zijn de hoofdelementen van het document en er wordt ook van buitenaf (uit andere lemma's) naar verwezen.
12
Figuur 3: Een voorbeeld van een woordenboeklemma in het WDD: het lemma bongelachtig. Het trefwoord staat vooraan, daarachter zijn verschillende lemmaonderdelen te onderscheiden, bijvoorbeeld de genummerde betekenissen.
Figuur 4: Nogmaals het schema uit guur 2, maar dit keer ingevuld met informatie uit het lemma in guur 3. Alleen de eerste betekenis wordt getoond.
3.4
Een voorbeeld van een lemma in het systeem
Figuur 3 laat een lemma uit het WDD zien. De informatie is kort en bondig, en het is vrij duidelijk wat het allemaal betekent. Het is een goed voorbeeld om mee te illustreren hoe een lemma in de database van het WDD-systeem staat. Hiermee zullen niet alle mogelijke informatievelden behandeld worden maar het geeft wel een idee van hoe het werkt. Een volledig overzicht wordt gegeven door de entity-relationshipdiagrammen in bijlage A. Figuur 4 laat een versie van het diagram in guur 2 zien waarbij de informatie uit dit voorbeeldlemma is ingevuld. Elk lemma staat met een identi catienummer in de lemmatabel. Naast dit nummer vinden we hier de lemma-informatie. In dit lemma zijn dat de twee woordsoorten, bn en bw. Woordsoorten staan echter in hun eigen tabel, met afkorting en voluit, omdat er maar een beperkt aantal mogelijkheden zijn. Daarnaast is het zo dat een lemma meerdere woordsoorten kan hebben, zoals hier ook het geval is. Hier is dus sprake van een many-to-many of veel-op-veelrelatie, waardoor er een koppeltabel gebruikt moet worden (Rolland, 1998, p. 69). Het WDD-systeem heeft dit ook zo gedaan. De lemmatabel bevat verder 13
een verwijzing naar het trefwoord. Woorden hebben hun eigen tabel, omdat er meer woorden zijn dan lemma's (spellingsvarianten bijvoorbeeld) en omdat er veel naar woorden gezocht zal worden, waardoor het ecient is als ze in een aparte tabel met weinig extra informatie staan. Deze tabel bevat in principe alle dikgedrukte Drentse woorden uit het woordenboek, niet alleen de trefwoorden. Ook van de lemma's die alleen verwijzen naar een ander lemma, en geen verdere informatie hebben, wordt het trefwoord opgeslagen als woord, maar hiervoor wordt geen rij in de lemmatabel aangemaakt omdat er geen verdere informatie is. Bij dit voorbeeld zijn er geen varianten. Uit dit lemma komt alleen het trefwoord bongelachtig in de woordtabel. Naast het woord zelf staat in deze tabel een identi catienummer en het nummer van het lemma waar het woord bij hoort of naar verwijst, in dit geval dus het lemma waar het het trefwoord van is. Verder bevat deze tabel alleen informatie die het systeem gebruikt, namelijk het aantal hits voor het woord op de website en n-grams van het woord voor de spellingssuggestie. Het voorbeeldlemma in guur 3 bevat verder twee genummerde betekenissen. Deze staan in de tabel Betekenis, met een identi catienummer en een verwijzing naar het lemma waar de betekenissen bij horen. Dit soort verwijzingen zorgen ervoor dat de boomstructuur van de informatievelden bewaard blijft, ondanks het feit dat een relationele database, in tegenstelling tot bijvoorbeeld een XML-document, niet inherent een boomstructuur heeft. Aan het begin van de tweede betekenis staat een vertaling, bij de eerste zelfs twee. Deze hebben een eigen tabel in de WDD-database, omdat een betekenis meerdere vertalingen kan hebben. Deze tabel woordvertaling bevat alleen identi catienummers, vertalingen, en verwijzingen naar de betekenis waar de vertaling bij hoort. Bij de tweede betekenis staat ook een regioaanduiding. Hiervoor geldt hetzelfde als voor de woordsoorten, er zijn een beperkt aantal regio's, en er kunnen meerdere tegelijk genoemd worden, dus ze hebben in het WDD-systeem een eigen tabel met een koppeltabel tussen regio en betekenis, en overigens ook tussen regio en woord. Ditzelfde geldt voor bronnen, die in dit lemma echter niet genoemd zijn. Ook voorbeeldzinnen hebben een eigen tabel, Voorbeeld, met daarin een identi catienummer, de zin, een verwijzing naar de betekenis waar hij bij hoort, een uitdrukkingsvorm (bijvoorbeeld guurlijk), en een verwijzing naar een plaats, die we in dit voorbeeld ook twee keer terug zien (Bal en Sle ). De lijst van mogelijke plaatsen is een beperkte lijst, die in een eigen tabel Plaats staat met daarin de in het woordenboek gebruikte afkorting en de volledige plaatsnaam. Er is ook nog een tabel voorbeeldvertaling, die naar een voorbeeld verwijst en een vertaling hiervan bevat, maar de voorbeelden in dit lemma hebben geen Nederlandse verklaring. Ten slotte zien we bij de tweede betekenis een verwijzing naar een geheel ander lemma, `zie ook bongelig', deze staat in de tabel Betekenis als een verwijzing naar het lemma dat het trefwoord `bongelig' heeft. 3.5
Evaluatie van het systeem
Door middel van een steekproef zal ik testen hoe goed het huidige systeem werkt. Het uitgangspunt is het papieren woordenboek, alle gegevens hieruit moeten ook in de digitale versie beschikbaar zijn. Er kunnen echter fouten ingeslopen zijn via verschillende onderdelen van het systeem { de gegevens in het originele 14
Waarschijnlijke oorzaak Woordenboek XML-conversie Database Website Totaal
Aantal verschillen 2 6 7 3 18
Aantal lemma's 2 8 8 7 14
Tabel 1: De resultaten van de evaluatie van het WDD-systeem met een steekproef van 20 lemma's, met de waarschijnlijke oorzaak in de eerste kolom, het aantal unieke verschillen tussen het systeem en het woordenboek in de tweede kolom en het aantal lemma's dat door een bepaalde oorzaak een verschil bevat in de derde kolom. Er zijn 18 unieke verschillen gevonden, verspreid over 14 lemma's, waarbij sommige verschillen meerdere keren gevonden werden. 6 lemma's werden in het systeem volledig en correct weergegeven. woordenboek, de omzetting naar gestructureerde XML of de weergave op de website { en daar gaat dit verslag niet echt over, hier wordt wel nog wat over gezegd in sectie 6.2. In dit onderdeel wordt onderzocht wat voor soort fouten er veroorzaakt worden door het databaseonderdeel en de databasestructuur. Bij deze evaluatie wordt de informatie van 20 willekeurig gekozen lemma's4 uit het Woordenboek van de Drentse dialecten(Kocks, 1997), deel A-L, vergeleken tussen de gedrukte versie en de online versie5 van 11 juli 2009. De resultaten zijn te zien in tabel 3.5. De verschillen zijn geteld en gegroepeerd op waarschijnlijke oorzaak. Verschillen die in de evaluatie meerdere keren werden gevonden zijn in de tweede kolom slechts een keer meegeteld, want sommige fouten komen voor bij elk lemma waarbij het informatieveld waarmee iets mis gaat is ingevuld. In de derde kolom is dit niet gebeurd, deze kolom geeft het aantal lemma's dat verschillen bevat met de aangegeven oorzaak. De verschillen waarvan de database de waarschijnlijke oorzaak is worden hier nader bekeken. Overigens is het zo dat deze test niet helemaal representatief is vergeleken met normaal gebruik van een woordenboek, bepaalde woorden zullen vaker worden opgezocht dan andere, en lemma's met meer informatie hebben ook meer kans op fouten. Wel is het een goede manier om te zien in hoeverre de gegevens in de online versie overeenkomen met die in het gedrukte woordenboek. Tabel 3.5 laat zien dat er een aantal verschillen gevonden zijn. De verschillen die aan het woordenboek te wijten zijn betreen allebei verwijzingen die niet letterlijk kloppen. De verschillen uit de conversie betreen vooral situaties waarbij een informatieveld werd aangezien voor iets anders. Op het gebied van de website veroorzaken een paar weergavefouten verschillen in alle lemma's die uitleg bij voorbeeldzinnen bevatten of varianten met regio- of broninformatie hebben. De verschillen die aan de database liggen betreen vooral ontbrekende informatievelden. Zo bevatte een van de lemma's een plaatsaanduiding bij een woord, iets wat de databasestructuur van het WDD-systeem niet ondersteunt. Hoofdstuk 5 gaat uitgebreid op dit soort ontbrekende informatievelden in. De4 www.random.org werd gebruikt 5 www.drentswoordenboek.nl
om willekeurige lemma-identi catienummers te trekken
15
ze steekproef vond soortgelijke ontbrekende informatievelden als beschreven in 5.1.3, 5.1.4, 5.1.9, 5.2.1, 5.2.2 en 5.2.4. Verreweg de meeste verschillen die aan de database te wijten zijn betreen dus ontbrekende informatie. Het gaat hier om gegevens die niet in de bestaande databasestructuur passen. Uit dit hoofdstuk is gebleken dat de structuur in hoofdlijnen geschikt is voor de taak, maar er zijn wel uitbreidingen en aanpassingen nodig om het doel van volledige opslag van het WDD te kunnen bereiken. Het is dus niet nodig om een geheel nieuw databaseontwerp te maken. Wel zal in hoofdstuk 5 uitgebreider gezocht worden naar ontbrekende onderdelen van de databasestructuur, als basis voor mogelijke verbeteringen. 4
Gerelateerd werk
Literatuur over elektronische woordenboeken en digitalisering van woordenboeken is schaars. Er is wel veel geschreven over lexicale databases, waarbij het meer gaat om de relaties tussen woorden dan om hun betekenis. Ook komen hier vaak geen vertalingen bij kijken. Een boek waarin dat wel gebeurt is \Turning a bilingual dictionary into a lexical-semantic database" (Fontenelle, 1997). Hierin wordt een Engels-Frans en Frans-Engels vertaalwoordenboek, het Collins-Robert Dictionary, omgezet in een lexicaal-semantische database. Het boek richt zich vooral op woordcollocaties, maar beschrijft in hoofdstuk 6 ook uitgebreid de structuur van de gebruikte database. Omdat het woordenboek eerst gedigitaliseerd wordt en daarna pas lexicaal-semantische informatie wordt toegevoegd, kan het beginsysteem goed vergeleken worden met dat van het Drents woordenboek (WDD). In het project dat Fontenelle beschrijft werd eveneens gekozen voor een relationele database, omdat de verschillende soorten informatie anders niet goed te onderscheiden zouden zijn en niet apart weergegeven kunnen worden. Wel werd opgemerkt dat de grote variatie in de lengte van woordenboekgegevens en variatie in het aantal gegevens per informatieveld problematisch zouden kunnen zijn voor een relationele database, maar dat dit opgelost kan worden door meerdere tabellen te gebruiken. Het gebruikte databasesysteem had echter een lengtebeperking op tekstuele informatievelden, waardoor langere tekst opgesplitst moest worden in meerdere rijen. Het WDDsysteem heeft deze beperking niet. Net als in het WDD-systeem wordt hier gebruik gemaakt van een lemmatabel. Er zijn echter geen aparte tabellen voor woord of betekenis, in elke andere tabel in de database zijn extra velden toegevoegd om lemma's met hetzelfde hoofdwoord te onderscheiden (hier homograph genoemd) en om de betekenissen te onderscheiden. Het WDD-systeem bereikt hetzelfde met een boomstructuur waarbij een lemma aan betekenissen is gekoppeld, en de betekenissen weer aan de onderdelen waaruit het bestaat. Hierdoor hoeft niet elke tabel meerdere velden te hebben om aan te geven bij welk onderdeel van het lemma iets hoort (bijvoorbeeld een voorbeeldzin), maar het betekent wel dat meerdere tabellen aan elkaar gekoppeld moeten worden om te achterhalen bij welk lemma een bepaalde voorbeeldzin hoort. Het beschreven systeem heeft ook een tabel voor samenstellingen met het 16
lemma. Het WDD bevat dit soort informatie echter niet, dus het WDD-systeem heeft zo'n tabel niet. Er is ook een tabel voor woordsoort (part-of-speech) die bij de lemmatabel hoort, net als in het WDD-systeem. Verder is er een tabel voor Franse vertalingen, waarbij ook naar een gebruik van de vertaling verwezen wordt, vergelijkbaar met de jargontabel in het WDD-systeem, dat daar bij het lemma zelf of de betekenis hoort, en niet bij de vertaling. Dit verschil is waarschijnlijk toe te wijzen aan het feit dat het WDD een passief woordenboek is, waarin Drentse woorden voor Nederlandse sprekers worden uitgelegd. Daarom wordt dit soort informatie over de verschillende Drentse lemma's of betekenissen gegeven, niet over de Nederlandse vertalingen. Het Engels-Frans deel van het Collins-Robert Dictionary is echter bedoeld voor actief gebruik, waarbij de Franse woorden verduidelijkt moeten worden voor Engelssprekenden, met bijvoorbeeld gebruiksinformatie bij de Franse vertalingen. Verder is er een tabel voor metalingustische informatie, en een tabel voor voorbeeldzinnen, waarbij de voorbeeldvertalingen niet gescheiden zijn van de voorbeeldzinnen. In het WDD-systeem is dit wel zo, met een aparte tabel voor voorbeelden en voorbeeldvertalingen. Ook heeft het andere systeem een tabel voor kruisverwijzingen, met daarin het woord en de betekenis waaruit verwezen wordt, het doel van de verwijzing, en nog wat informatie. In het WDD-systeem is dit minder uitgebreid, verwijzingen horen er bij een betekenis en zijn altijd naar een lemma. Wel kunnen verschillende woorden naar een lemma verwijzen. Ten slotte zijn er tabellen voor gebruik en stijl. In het WDD zijn deze samengevat in de jargontabel. Het WDD-systeem komt dus in grote lijnen overeen met het hier beschreven systeem. Wel is het zo dat de koppeling van informatie aan het lemma anders gebeurt. Ook wordt er meer nadruk gelegd op kruisverwijzingen. Andere verschillen zijn veroorzaakt door de toch wel aanzienlijke verschillen tussen de woordenboeken waarop de systemen gebaseerd zijn. Anders dan het WDD, waar de verschillende lokale en regionale dialecten een belangrijke rol spelen, worden in het Collins-Robert dictionary twee standaardtalen aangehouden, en er kan twee kanten op vertaald worden. Een ander elektronisch woordenboeksysteem wordt beschreven in Zhang (1995). Het artikel legt de nadruk op het feit dat lemma's een boomstructuur hebben. In het beschreven systeem vormen de takken de relaties tussen gegevens, terwijl de bladeren de tekstuele data bevatten. Het WDD-systeem is echter ook te zien als een boomstructuur, waarbij lemma-informatie bovenaan staat, met daaronder de betekenissen, en daaronder de voorbeeldzinnen en hun vertalingen. Het is alleen niet geformaliseerd zoals bij dit systeem, waar de hele database erop gebaseerd is. Er worden daarom ook andere technieken gebruikt. Op basis van een SGMLtagged woordenboek wordt een objectgeorienteerde database gemaakt met daarin de woordenboeklemma's in boomstructuren, evenals een aantal lijsten met woordcategorieen. Een standaard SGML (of XML)-schema voor woordenboeken, dat nodig is om de benodigde woordenboekgegevens uit te halen, bestond echter nog niet. Het wordt beschreven als mogelijk heel complex, doordat het gedrukte woordenboek een van de meest ingewikkelde vormen van tekstuele data is. De objectgeorienteerde database maakt het gebruik van een boomstructuur 17
mogelijk. Als voordeel wordt genoemd dat het makkelijk is om te zoeken naar alle elementen van een soort, onafhankelijk van hun positie in de lemmastructuur. Dit wordt gedaan via de categorielijsten. Dit kan in het WDD-systeem echter ook, door bijvoorbeeld te kijken in alle koppeltabellen tussen het gezochte element (bijvoorbeeld regio-informatie) en de verschillende lemmaonderdelen. De vaste lijst van regio's is dan te vergelijken met de categorielijsten in het beschreven systeem. Ook de andere voordelen die in het artikel genoemd worden kunnen ook op een goed ontworpen relationele database van toepassing zijn. In een artikel van Markus and Heuberger (2007) worden taken en problemen beschreven bij het digitaliseren van een Engels dialectenwoordenboek. Aangezien het WDD ook verschillende dialecten beschrijft, is dit project ermee te vergelijken. De auteurs vinden een soortgelijke indeling van de lemma-informatie als in het WDD, met eerst het trefwoord, dan lemma-informatie en locatieinformatie, gevolgd door de betekenissen. Ook wordt er een commentaarveld onderscheiden voor onder andere kruisverwijzingen. Net als in het WDD worden informatievelden vaak leeg gelaten, ook wordt opgemerkt dat ze vaak heterogeen zijn. De vaste afkortingen (woordsoorten, regio's) worden ook gecategoriseerd, gemeenten worden bijvoorbeeld gekoppeld aan de regio waarin ze liggen. Dit is iets dat bij het WDD ook zou kunnen maar in principe niet nodig is voor een goed werkend online woordenboek. Het probleem van hybride betekenissen wordt ook aangehaald, waarbij een betekenis geen directe vertaling is maar bijvoorbeeld een omschrijving. In het WDD-systeem wordt dit allemaal als vertaling opgeslagen. De auteurs geven verder aan dat er veel handmatig werk nodig is door de complexiteit en heterogeniteit van de informatie. Cambridge heeft ook een digitaal woordenboeksysteem voor een tweetalig woordenboek ontworpen, dit wordt beschreven in Fraser (2008). Dit systeem moest ook geschikt zijn om de woordenboektekst mee te bewerken, dus er zijn andere keuzes gemaakt dan bij het WDD-systeem. Over een relationeel databasesysteem wordt opgemerkt dat het een hoge precisie zou opleveren, maar dat het ongeschikt is voor het opstellen van continue teksten en dat de structuur lastig te wijzigen is. Voor het WDD-systeem zijn dit geen problemen, maar voor dit project wel, daarom werd gekozen voor een XML-omgeving. Er werd geen geschikte DTD (Document Type De nition) gevonden, bestaande DTDs waren zo strikt geformuleerd dat ze niet toe te passen waren op een ander woordenboek, of juist extreem vrij om allerlei mogelijkheden toe te laten. Er werd een eigen DTD ontworpen, waarbij voor een strikte hoofdstructuur werd gekozen, met meer vrijheid op de lagere niveaus om variatie te kunnen beschrijven. Dit is te vergelijken met het WDD-systeem, waarbij simpele gegevens als regioaanduidingen op meerdere plaatsen in de structuur voor kunnen komen. In \A formal model of dictionary structure and content"(Ide et al., 2000) wordt een algemeen model voor woordenboekstructuren beschreven, dat als XML-formaat gebruikt kan worden. Het is niet gebaseerd op gedrukte woordenboeken en dus niet gebonden aan een bepaald coderings- of databaseformaat, al wordt XML als voorbeeld gebruikt. Ze zien een woordenboek als een boomstructuur, waarbij knopen de eigenschappen van hun ouders kunnen erven of er meer waarden aan kunnen toevoegen. Een lidwoord zou dan bijvoorbeeld kunnen gelden voor elke betekenis. In de structuur van het WDD is dit niet automatisch 18
zo, maar deze waarden kunnen wel achterhaald worden als dat nodig is. Dit model vermijdt echter het probleem dat er grote varieteit bestaat tussen wat er in woordenboeken staat, door geen speci eke mogelijke informatievelden te noemen. Deze zullen per woordenboek verschillen. Bij de XML-implementatie van het model worden drie informatiecodes genoemd: een voor knopen, een voor alternatieve mogelijkheden (als er meerdere invullingen voor een knoop mogelijk zijn) en een voor groepering van bij elkaar horende informatievelden. De overige codes zijn informatievelden in het woordenboek, die per woordenboek zullen verschillen. Dit verschilt niet zo heel veel van het XML-formaat dat in het WDD-project gebruikt werd, de knopen hadden er alleen speci eke namen zoals betekenis of voorbeeld, en er werden geen codes voor groepering of alternatieven gebruikt. Het is echter wel een goed teken dat de WDD-structuur lijkt op dit algemene model van woordenboekstructuur. De auteurs noemen ook de Extensible Stylesheet Language (XSL) als voordeel, waarmee gemakkelijk in boomstructuren kan worden gezocht en de informatie kan worden gemanipuleerd voor gebruik in verschillende toepassingen. Het WDD-project heeft echter ook een XML-tussenstap gebruikt om de informatie in de database te krijgen, dit XML-bestand zou ook gebruikt kunnen worden voor andere toepassingen. Ook is het mogelijk om de gegevens als XML te exporteren vanuit de WDD-database. 5
Ontbrekende onderdelen in het online WDD
In dit hoofdstuk zal ik lemma's beschrijven, waarvan bepaalde onderdelen niet in de bestaande databasestructuur (Bloem et al., 2009) opgeslagen kunnen worden. Op basis hiervan kan dan een aangepast ontwerp gemaakt worden, waar deze gegevens wel in op te slaan zijn. Te onderscheiden structuurproblemen zijn ontbrekende informatievelden, bestaande informatievelden op een andere plaats in de structuur, en informatievelden met een andere kardinaliteit dan wat de database kan bevatten. Hierbij gaat het erom of er een of meerdere gegevens van een bepaald soort op een plaats in de structuur kunnen staan. Bij de omzetting van de woordenboekbestanden naar XML-formaat werden voor het eerst informatievelden toegewezen aan de verschillende onderdelen van de lemma's. Dit werd met reguliere expressies gedaan, die bepaalden welke stukken van een lemma tot een bepaald informatieveld hoorden. Hier kwamen dus ook uitzonderingen aan het licht, namelijk delen van lemma's die met geen enkele reguliere expressie gematcht werden. Lemma's waarbij dit gebeurde werden niet verder verwerkt. De hier gepresenteerde fouten komen uit deze gedeeltelijk verwerkte lemma's. Nu volgen een aantal voorbeelden van dit soort lemma's en redenen waarom ze niet volledig in het bestaande systeem passen. 5.1
Ontbrekende informatievelden
Voor sommige informatie uit het woordenboek is geen passende plaats in de databasestructuur van het WDD-systeem. Dit zijn vaak soorten informatie die 19
in het WDD zelden genoemd worden, zoals uitspraakinformatie, of informatie die in het huidige systeem bij een ander informatieveld in zit, terwijl dit niet zo hoort. 5.1.1
Lemmanummering
Figuur 5: Het lemma aal I, een lemma met een Romeins cijfer, uitspraakinformatie en een verwijzing naar andere lemma's (zie ook) Figuur 5 laat het lemma Aal I zien. De toevoeging I is een Romeins cijfer, dat aangeeft dat er meerdere lemma's met trefwoord Aal zijn. Deze trefwoorden zijn homoniemen, woorden met dezelfde spelling maar een verschillende betekenis. De cijfers duiden de volgorde aan, en maken ook onderscheid tussen de lemma's. In het bestaande systeem is het cijfer niet van het trefwoord gesplitst. Het staat dus in de woordtabel in hetzelfde veld als het trefwoord. Dit splitsen zou eigenlijk wel moeten, aangezien het twee verschillende informatievelden zijn. Woorden als Aal I worden ook met hun Romeinse cijfer weergegeven op de WDD-website, terwijl het daar niet nodig is om op die manier onderscheid te maken, in tegenstelling tot in het gedrukte woordenboek. De database heeft namelijk ook lemmaidenti catienummers om lemma's te onderscheiden. Ook zijn Romeinse cijfers in het trefwoord problematisch bij het zoeken. Als iemand naar Aal zoekt, zou Aal I niet gevonden worden. Er was een speciale aanpassing nodig zodat de Romeinse cijfers bij het zoeken genegeerd zouden worden. Dit is een slechte oplossing, het scheiden van de twee gegevens zou beter zijn. Ondanks het feit dat de Romeinse cijfers in het online WDD overbodig zijn voor het onderscheiden van lemma's, moeten ze wel bewaard worden, aangezien ze de juiste volgorde van de lemma's aangeven. Bovendien is het doel om alles uit het woordenboek op te slaan, dus ook deze cijfers. Ze zullen dus ergens een eigen veld in de database moeten krijgen. 5.1.2
Uitspraakinformatie
Het lemma bevat ook uitspraakinformatie, iets wat in tegenstelling tot veel andere woordenboeken vrij zeldzaam is in het WDD (het woord `uitgesproken' komt 101 keer voor). Het huidige WDD-systeem heeft hier geen informatieveld voor. Een probleem hierbij is wel dat deze informatie in natuurlijke taal is geschreven, niet in een vaste vorm. Er zijn allerlei varianten op de notatie die in dit lemma wordt gebruikt, met extra kwanti ceerders als `soms' ( guur 5) of `vaak' ( guur 6), wat ook weer als uitspraakinformatie beschouwd zou kunnen 20
worden. Dit zorgt ervoor dat het niet zomaar met een reguliere expressie eruit te halen is.
Figuur 6: Het lemma aordig, met een uitspraakvariatie In guur 6 is een andere soort uitspraakinformatie te zien, waarbij geen woord genoemd wordt maar alleen een variatie, met een kwanti ceerder. Het zou misschien wenselijk zijn om in gevallen als deze het woord zonder `d' ook op te nemen in de woordtabel voor als mensen ernaar zoeken. 5.1.3
Voorvoegsels
Figuur 7: Het lemma aal(-), een samenvattende verwijzing van voorvoegsels Figuur 7 bevat enkele woorden met een streepje erachter, waaruit blijkt dat het hier om voorvoegsels gaat. In het online WDD worden ze behandeld als elk ander woord, maar in het papieren WDD lijken ze een iets andere betekenis te hebben. Ze worden er in de inleiding beschreven als samenvattende verwijzingen, waardoor dit voorbeeld betekent dat men voor elk woord dat met aal begint, ook bij de versie die met al of met eel begint kan kijken. Een groep woorden (alle woorden met het voorvoegsel) verwijst dus naar andere groepen woorden. Dit is problematisch, omdat het feit dat woorden met deze voorvoegsels bij elkaar horen niet expliciet in de database of elders in het systeem is opgeslagen, dus dan kan er ook niet op deze manier verwezen of gezocht worden. 5.1.4
Lokale bronnen
Figuur 8: Een deel van het lemma aodem, met voorbeeldzinnen uit bronnen en een bron met plaatsinformatie In guur 8 is achter de eerste voorbeeldzin een bron met een plaatsaanduiding te zien (N:Sle ). Sommige van de bronnen die gebruikt zijn om het WDD 21
mee te vullen zijn erg uitgebreid, zoals andere woordenboeken, en daarbij kan dan ook weer plaats- of regio-informatie horen, namelijk de plaats waar die bron de informatie vandaan heeft. In dit geval staat er (N:Sle), dat wil zeggen, informatie uit de collectie van Naarding (N), en het komt uit Sleen (Sle). Deze zin is dus niet speciaal voor het WDD verzameld, maar uit ouder materiaal gehaald. Het WDD-systeem heeft echter geen ruimte voor deze constructie. Het is mogelijk om verwijzingen naar bronnen te hebben, evenals verwijzingen naar plaatsen, maar in dit geval horen de twee gegevens duidelijk bij elkaar de gegevens komen uit de bron, die er plaatsinformatie over had. De bron en de plaats worden samen opgeslagen als bron, maar dit is eigenlijk niet correct omdat het twee verschillende gegevens zijn, en sommige bronnen kunnen samen met elke Drentse plaats voor komen. 5.1.5
Informatie die niet in de afkortingenlijst staat
Figuur 9: Een deel van het lemma boek II, met een variant die niet binnen een regio te plaatsen lijkt te zijn
Figuur 10: Het lemma boerwark, met een negatie in de regioaanduiding In guur 9 wordt geprobeerd de regio waarin een variant wordt gebruikt te beschrijven. Hierbij zijn de afkortingen die voorin het woordenboek gede nieerd zijn blijkbaar niet genoeg, want er wordt een regio beschreven die niet overeenkomt met een van de voorin beschreven regio's, namelijk Assen en de veengebieden van oost Drenthe (veengebieden OD, Ass ). Er worden wel afkortingen bij gebruikt, maar die vertellen niet het hele verhaal. De variant wordt namelijk slechts in een deel van OD gebruikt, namelijk de veengebieden, en hier is geen afkorting voor. Dit past dus niet in de bestaande structuur, want daar kunnen slechts de afkortingen uit de afkortingenlijst worden gebruikt. De situatie in guur 10 lijkt hier op, maar hierbij wordt een negatie gebruikt om aan te geven dat het woord overal, behalve in de veengebieden, wordt gebruikt. De betekenis van dit soort commentaren in natuurlijke taal is erg lastig uit de lemma-informatie te halen en binnen een vaste structuur op te slaan. De gegeven vertaling in guur 11 bevat meerdere mogelijke vertalingen, waarbij de tweede en derde vertaling alleen in bepaalde regio's gebruikt worden, en ook nog een kwanti ceerder hebben (soms ). De structuur van het WDDsysteem heeft echter geen ruimte voor locatieaanduidingen bij vertalingen. Bovendien zijn deze vertaling lastig te splitsen, omdat ze in natuurlijke taal zijn 22
Figuur 11: Een deel van het lemma boeskool, met regionale vertalingsverschillen geschreven. Daarnaast is er nog de kwanti ceerder die extra informatie aan het geheel geeft. De gehele vertaling zou dus ook als een eenheid gezien kunnen worden, omdat het te complex is om op te splitsen zonder informatieverlies. 5.1.6
Uitleg
Figuur 12: Een deel van het lemma schreven wordt
tun,
waarin een dieronvriendelijk spel be-
Figuur 12 laat een uitzonderlijk deel van een lemma zien. Op een plaats waar normaal een voorbeeldzin zou staan, staat de naam van een spel, met een aanduiding dat het een vaste uitdrukking is. Op de plaats van de voorbeeldvertaling staat een complete beschrijving van dit spel, met ten slotte een plaatsaanduiding. Dit zou in het bestaande systeem wel zo opgeslagen kunnen worden, maar eigenlijk is het niet hetzelfde. Deze situatie met een Drentse naam en beschrijving komt zelden voor. Dit is een voorbeeld van het soort unieke uitzonderingen dat het een bijna onmogelijke opgave maakt om automatisch 100% van de informatie correct, in een speci ek veld, op te slaan. 5.1.7
Vaste uitdrukking
Figuur 13: Het lemma wordt gebruikt
aampel,
een woord dat alleen in een vaste uitdrukking
Figuur 13 laat een andere uitzonderlijke constructie voor een lemma zien. Er staat slechts een trefwoord met een vaste uitdrukking waarin dit woord gebruikt 23
wordt, met wat bronaanduidingen. Er is geen andere lemma-informatie aanwezig, zelfs geen vertaling. Sommige woorden worden alleen in vaste uitdrukkingen gebruikt, bijvoorbeeld omdat andere betekenissen van het woord verouderd zijn. In dit geval zal er geen andere informatie te geven zijn, dus dan ontstaat er zo'n lemma. Er is in het huidige systeem geen veld om deze constructie \In ..." in op te slaan. Het zou misschien wel als voorbeeldzin gezien kunnen worden. 5.1.8
Complexe verwijzing
Figuur 14: Het lemma tuut-, met een behoorlijk complexe verwijzing naar andere groepen lemma's Figuur 14 laat een bijzonder complexe verwijzing zien, waar zelfs de meeste mensen waarschijnlijk even over na moeten denken om te kunnen interpreteren wat er staat. Het gaat hier om het voorvoegsel tuut-, dat als lemma in het woordenboek is opgenomen, en er wordt verwezen naar alle samenstellingen met de voorvoegsels hoender- en kip-, die ook gelden als tuut- in plaats van die voorvoegsels wordt gebruikt. Dit is een voorbeeld van ruimtebesparing in het woordenboek die in een digitale versie het gebruik alleen maar lastiger maakt. Voor alle samenstellingen met hoender- en kip- in de woordtabel zou ook een woord met tuut- toegevoegd moeten worden, maar het valt te betwijfelen of een automatisch systeem complexe verwijzingen als deze kan herkennen en op basis van de gegeven woorden zoiets zou kunnen uitvoeren. Bovendien is het misschien niet de moeite waard om zoiets te maken, omdat dit soort verwijzingen zeldzaam zijn en waarschijnlijk niet volgens een vast patroon zijn opgesteld. Dit is waarschijnlijk iets dat met de hand zal moeten gebeuren. De tekst \kan worden gelezen" komt slechts vier keer voor in het woordenboek, en elke verwijzing waarin dit voorkomt is anders opgesteld. 5.1.9
Beperking van een woordvariant tot een bepaalde betekenis
Figuur 15: Het lemma alarm, waarbij een eigenschap van een woordvariant wordt beperkt tot betekenis 2 Figuur 15 laat een deel van een lemma met meerdere betekenissen zien. Bij de variant larm wordt gemeld dat het in de regio ZOV wordt gebruikt, maar alleen in betekenis 2. Dit is een redelijk ingewikkelde constructie, die 24
overigens ook soms zonder speci eke woordeigenschap gebruikt wordt. Het is in de huidige database niet mogelijk om een woord, betekenis en regio op deze manier te koppelen, en aangezien de constructie vrij uitzonderlijk is, en er ook nog variaties in bestaan, is dat ook wel logisch. 5.2
Informatie op een andere plaats
Het Drents woordenboek bevat allerlei informatievelden die in meerdere delen van het lemma voor kunnen komen. Regio-informatie kan bijvoorbeeld bij een woord worden gegeven, maar ook bij een betekenis. Hierom moet in de database voor beide lemmaonderdelen een regioaanduiding kunnen worden opgeslagen. Niet alle mogelijke posities voor regio-informatie worden even vaak ingevuld, dus minder frequente posities voor informatievelden kunnen over het hoofd zijn gezien. 5.2.1
Kruisverwijzingen
Aan het einde van het lemma in guur 5 is een `zie ook'-verwijzing te zien (zie ook alle, als II ). Deze verwijzing lijkt bij het gehele lemma te horen, maar in het WDD-systeem kunnen alleen betekenissen dit soort verwijzingen naar andere lemma's bevatten. 5.2.2
Voorbeeldzinnen met bronnen
Figuur 8 laat een gedeelte uit het uitgebreide lemma aodem zien. Dit lemma heeft veel voorbeeldzinnen, iets dat wel vaker voor komt bij frequente woorden in het WDD. Naast het gebruikelijke formaat van een voorbeeldzin met een plaats, eventueel met vertaling, zijn er ook twee minder frequente constructies te zien. Achter de eerste voorbeeldzin staat geen plaats, maar een bron met een plaatsaanduiding. Verderop in dit lemma is nog zo'n geval te zien, waar wb (woordenboek Bergsma) achter het voorbeeld staat, en niet een plaats. Deze voorbeeldzin is dus uit het woordenboek van Bergsma gehaald, en de plaats is niet bekend. Het WDD-systeem heeft bij voorbeelden en voorbeeldvertalingen echter alleen ruimte voor plaatsen, niet voor bronnen. 5.2.3
Een kruisverwijzing bij een voorbeeld
Figuur 16 is een lemma met veel voorbeelden, zoals wel vaker in het WDD. Onder andere is een voorbeeldzin te zien met een aanduiding dat het guurlijk bedoeld is. Interessanter zijn de verwijzingen naar andere lemma's middenin het lemma, zoals \z. ook trappaol " . Ze lijken te horen bij de individuele voorbeelden waar ze op volgen. Het WDD-systeem heeft echter alleen ruimte voor een verwijzing bij een betekenis. Blijkbaar zijn ze op meer posities mogelijk dan waar het bestaande systeem rekening mee heeft gehouden.
25
Figuur 16: Het lemma trappen I, waarbij de eerste twee voorbeeldzinnen naar andere lemma's verwijzen
Figuur 17: Het lemma aanderworens, met een spellingsvariant die in slechts een plaats gevonden is (Ros )
5.2.4
Een woord uit een plaats
Het lemma in guur 17 is er een met veel variaties uit allerlei verschillende regio's. Opvallend is echter dat er ook een variant tussen staat die uit de plaats Ros(Roswinkel) komt, en dus niet uit een hele regio. Ook dit is een geval van een informatieveld op een uitzonderlijke plaats. Normaal worden plaatsen bij voorbeelden genoemd, maar uit dit voorbeeld blijkt dat plaatsaanduidingen soms ook bij woorden horen. Het WDD-systeem heeft alleen maar ruimte voor plaatsen bij voorbeeldzinnen of voorbeeldvertalingen. 5.2.5
Een jargon bij een betekenis
Figuur 18: Het lemma anvangen, met een jargonaanduiding bij een betekenis
26
In guur 18 wordt een jargonafkorting (glasbl.) gegeven, en hij hoort duidelijk bij deze vierde betekenis. Het WDD-systeem heeft echter alleen ruimte voor jargonaanduidingen bij lemma's. Uit dit voorbeeld blijkt echter dat ook individuele betekenissen van een lemma uit een bepaald jargon kunnen komen. 5.3
Informatie met een andere kardinaliteit
Om informatie in een tabel op te slaan, moet elk attribuut van de informatie atomisch zijn. Dit staat bekend als de eerste normaalvorm (Rolland, 1998, p. 75). Dit betekent dat het attribuut slechts een waarde mag hebben, dus een kardinaliteit van 1, en als het er meer zijn, moet het attribuut een eigen tabel krijgen. Een lemma heeft bijvoorbeeld maar een hoofdwoord, dit staat dus in de lemmatabel. Een lemma wel meer dan een betekenis hebben, dit moet dus in een aparte betekenistabel staan. Het is dus belangrijk voor het databaseontwerp om te weten of een bepaald gegeven een of meer keer op een bepaalde plaats in het lemma voor kan komen. Als de database slechts ruimte heeft voor een waarde, dan zullen alle andere waarden niet opgeslagen worden. 5.3.1
Meerdere verwijzingen
De verwijzing aan het einde van guur 5 verwijst naar meerdere andere lemma's, terwijl dit soort verwijzingen in het huidige systeem direct in de betekenistabel staan. Dit betekent dat er maar een per betekenis opgeslagen kan worden, en hier zijn twee van deze kruisverwijzingen te zien. Figuur 7 laat een van de vele woordenboeklemma's zien die geen eigen lemma-informatie hebben en alleen naar andere, soortgelijke lemma's verwijzen. Deze worden dus alleen opgenomen in de woordtabel met het trefwoord, en een verwijzing naar het lemma waar naar verwezen wordt. Het probleem hier is echter dat er naar twee andere lemma's verwezen wordt, en het huidige WDD-systeem ondersteunt dit niet. Deze verwijzingen staan namelijk als attribuut in de woordtabel, waardoor er maar een per woord kan zijn. Uit dit voorbeeld blijkt echter dat het ook zo kan zijn dat een enkel woord bij meerdere lemma's hoort. 5.3.2
Meerdere lidwoorden
Figuur 19: Het lemma anwies, waarbij beide lidwoorden in gebruik zijn Figuur 19 laat een lemma zien waarbij beide lidwoorden worden gebruikt. Het WDD-systeem heeft echter maar een veld voor een lidwoord. Momenteel worden in zo'n geval beide lidwoorden in een veld geplaatst, maar dit voldoet niet aan de eerste normaalvorm. Deze situatie is overigens vrij zeldzaam, bij slechts 395 van de meer dan 40.000 lemma's zijn beide lidwoorden mogelijk. 27
5.4
Algemene conclusies
De hiervoor genoemde voorbeelden wijzen op een aantal algemene problemen van het WDD-systeem. Sectie 5.1 liet zien dat er ook regelmatig ongestructureerde informatie in natuurlijke taal gegeven wordt, dat niet makkelijk in een bestaand informatieveld te plaatsen is. Dit zijn vaak uitzonderlijke gevallen, waardoor er geen algemeen patroon voor te vinden is en het dus moeilijk in een vaste structuur te plaatsen is. Daarnaast bleek dat er nog informatievelden waren die verder gesplitst kunnen worden, zoals de woorden met Romeinse cijfers. Sectie 5.2 liet zien dat er op veel meer plaatsen in het lemma informatie over bronnen, regio's of plaatsen, of verwijzingen naar andere lemma's, mogelijk zijn dan wat het WDD-systeem ondersteunt. Dit soort informatie is aan allerlei elementen toegevoegd, aan sommige vaker dan aan andere. Voorbeeldzinnen hebben bijvoorbeeld vrijwel altijd plaatsinformatie, andere informatie is zeldzaam. Het WDD-systeem ondersteunt alleen de meer frequente locaties van dit soort informatie, maar om de informatie uit het WDD volledig op te kunnen slaan, moet de structuur van de database ruimte hebben voor alle mogelijkheden. Dit geldt ook voor de kardinaliteit van sommige informatie zoals blijkt uit sectie 5.3, er wordt dan meestal een gegeven vermeld maar in uitzonderlijke gevallen meerdere gegevens. 6
Voorgestelde veranderingen
In dit hoofdstuk worden op basis van de eerdere hoofdstukken veranderingen voorgesteld die de kwaliteit en de volledigheid van de informatie in het online WDD-systeem zullen verbeteren. Deze veranderingen zijn onder te verdelen in veranderingen die reeds gemplementeerd zijn in een testdatabase en veranderingen die in de toekomst gemaakt kunnen worden. Helaas is het niet mogelijk om de testdatabase te evalueren of met de woordenboekgegevens te vullen, omdat andere onderdelen van het systeem ook aangepast zouden moeten worden om het geheel te laten functioneren. Die aanpassingen vallen grotendeels buiten het domein van dit verslag. 6.1
Ge mplementeerde veranderingen
Voor dit verslag is een testdatabase ontworpen en gemplementeerd. Eerder is al geconcludeerd dat de hoofdstructuur van het bestaande WDD-systeem goed is, door het te beoordelen (hoofdstuk 3) en te vergelijken met andere literatuur op dit gebied (hoofdstuk 4). Het ontwerp van de testdatabase is dus een aanpassing van het ontwerp van het WDD-systeem (zie bijlage A) en is in zijn geheel te zien in bijlage B. Hier worden de belangrijkste veranderingen besproken: eerst enkele veranderingen gebaseerd op algemene conclusies die in hoofdstuk 5 getrokken zijn, en dan de speci eke veranderingen per hoofdonderdeel van de database.
28
6.1.1
Algemene veranderingen
In hoofdstuk 3 werd geconstateerd dat de database vrij veel nullwaarden bevat, door de heterogeniteit van de lemma's. Het aantal nullwaarden kan verminderd worden door schaars ingevulde attributen een eigen tabel te geven met een koppeltabel tussen de originele tabel en de nieuwe tabel. Dan staat de relatie tussen beide gegevens in de koppeltabel, en bevat de originele tabel niet voor elke rij een veld voor het schaarse attribuut, iets dat veel nullwaarden oplevert. De extra tabellen zorgen echter ook weer voor meer gegevens. Maar het gebruik van koppeltabellen heeft ook nog andere voordelen. Er ontstaat een veel-op-veelrelatie tussen de originele tabel en het attribuut, waardoor er geen problemen ontstaan wanneer een informatieveld eens een keer twee gegevens heeft. In het Drents woordenboek komt dit nog wel eens voor, zoals sectie 5.3 liet zien. Ook zorgt het ervoor dat tekstuele gegevens maar op een plek in de database komen te staan. Er is bijvoorbeeld een beperkt aantal woordsoorten, dus een attribuut woordsoort zou veel herhaling laten zien. In een eigen tabel zouden echter alleen unieke woordsoorten opgenomen zijn, waarbij de koppeltabel ervoor zorgt dat de lijst van woordsoorten aan lemma's gekoppeld wordt. Als er dan een keer een afkorting moet worden veranderd, hoeft dit maar op een plek, in plaats van bij elk lemma met die woordsoort. Ook is het mogelijk om meerdere koppeltabellen te gebruiken om een gegeven aan meerdere andere tabellen te kunnen koppelen. Dit is al gedaan in het bestaande WDD-systeem, waar de tabellen met bronnen en regio's gekoppeld waren aan de woordtabel en de betekenistabel, omdat beide lemmaonderdelen regioaanduidingen en bronvermeldingen kunnen hebben. Ook is duidelijk geworden, onder andere in sectie 5.2, dat informatievelden op meer plaatsen kunnen staan dan waar het ontwerp van het WDD-systeem rekening mee houdt. Geogra sche informatie en oorsprongsinformatie is in het WDD een belangrijk onderdeel van de aangeboden informatie en is daardoor bij allerlei lemmaonderdelen te vinden, sommige vaker dan andere. Hierom zijn er in het nieuwe ontwerp meer relaties gelegd tussen dit soort informatie en de hoofdonderdelen, ook met behulp van koppeltabellen. Al deze koppeltabellen hebben ervoor gezorgd dat de testdatabase een stuk meer tabellen heeft dan die van het bestaande WDD-systeem, 41 tegenover 17. Deze tabellen bestaan echter alleen maar uit foreign keys. In hoofdstuk 5 werden lemma's uit het woordenboek behandeld die in het WDD-systeem niet volledig opgeslagen konden worden. Het vinden van dit soort lemma's was een belangrijk hulpmiddel bij het bepalen wat er veranderd en toegevoegd zou moeten worden. Om het volledige woordenboek gestructureerd op te kunnen slaan is het namelijk wel nodig om te weten wat er precies in staat. Op deze manier zijn allerlei uitzonderlijke situaties aan het licht gebracht. Hier zal ik de oplossingen voor een aantal van deze situaties bespreken per hoofdonderdeel van de databasestructuur. 6.1.2
Lemmatabel
Diagram 8 van appendix B laat het nieuwe ontwerp van de lemmatabel zien. De attributen meervoudsvorm en lidwoord hebben koppeltabellen gekregen, en er is een nieuw attribuut, nummer. Dit is een oplossing voor het in paragraaf 29
5.1.1 besproken ontbrekende onderdeel, aparte opslag van de Romeinse cijfers. In het bestaande systeem worden de nummers niet los van de trefwoorden gezien tijdens de conversie naar XML, en is er ook geen ruimte voor in de database. In het voorstel komt het Romeinse cijfer in het attribuut nummer, omdat het een onderscheidend kenmerk van lemma's is. Het is nu dus mogelijk dat een woord het hoofdwoord van meerdere lemma's is, dus dit is ook aangepast in het schema (de kardinaliteit is nu M aan de lemma-kant van de relatie). De relatie van een lemma naar een ander lemma waar de spellingsvarianten van het eerste lemma in staan, zit nu ook in een koppeltabel, omdat dit niet vaak voor komt in het woordenboek. Er zijn ook twee nieuwe informatievelden toegevoegd. De \zie ook" relatie, een koppeltabel voor kruisverwijzingen tussen lemma's, is toegevoegd naar aanleiding van het voorbeeld met de kruisverwijzing in guur 5, beschreven in paragraaf 5.2.1. Ook is er een nieuwe tabel voor commentaar toegevoegd. Dit is gedaan naar aanleiding van uitzonderingssituaties als het voorbeeld van guur 9, beschreven in paragraaf 5.1.5, waarbij de gegeven locatie-informatie te complex is om binnen de bestaande structuur in te passen, en beter in zijn geheel door mensen kan worden bekeken. De verwijzing uit guur 14 die beschreven is in 5.1.8 is ook een kandidaat voor deze tabel, deze relatie is erg complex. 6.1.3
Woordtabel
De woordtabel was bedoeld als een simpele, snelle zoektabel, en dat is in het nieuwe ontwerp, te zien in diagram 9 van appendix B, ook zo gebleven. Het attribuut Origineel is eruit gehaald, omdat het niet gebruikt werd. De bedoeling hiervan was het opslaan van een originele versie van het woord als er automatische bewerkingen op de database toegepast zouden worden (bijvoorbeeld het invullen van afkortingen), maar dit kan eventueel ook buiten de database opgeslagen worden. De relatie tussen woord en lemma is een veel-op-veel-relatie geworden, wat betekent dat er een koppeltabel is toegevoegd. Dit is gedaan omdat een woord naar meerdere lemma's bleek te kunnen verwijzen, zoals in guur 7 te zien is. Ook is er naar aanleiding van uitspraakinformatie als in paragraaf 5.1.2 een nieuwe relatie toegevoegd tussen lemma en woord, die alleen uitspraakinformatie bevat. Gewone varianten staan dus in de koppeltabel voor verwijzingen, en uitspraakvarianten in de koppeltabel voor uitspraak. Een uitspraakvariant is namelijk ook een woord, maar in de inleiding van het WDD wordt aangegeven dat "de variant vaker { en ook in de literatuur { wordt aangetroen, maar dat de aangegeven schrijfwijze dient te worden vermeden"(Kocks, 1997, p. LXIII). Hier is dus sprake van een relatie tussen een lemma en een woord(variant) maar een die alleen bedoeld is voor uitspraak. 6.1.4
Betekenistabel
Rondom de betekenistabel, diagram 10 van appendix B, zijn een aantal extra entiteiten toegevoegd. In paragraaf 5.2.5 bleek dat ook betekenissen een jargonaanduiding kunnen hebben, dus die relatie is mogelijk gemaakt. Ook is er, net als bij de lemmatabel, een commentaarmogelijkheid toegevoegd. In paragraaf 5.1.6 ( guur 12) werd een situatie beschreven waarin dit veld gebruikt zou 30
kunnen worden, waar een spel wordt uitgelegd bij een betekenis. Ook wordt bij betekenissen soms extra uitleg gegeven na de voorbeeldzinnen in de vorm van een citaat, zoals bij het lemma anjager, dat onder andere een onderdeel van een brandspuit is. Hier worden twee Nederlandstalige citaten gegeven die duidelijk maken waar het onderdeel voor was, na de voorbeeldzinnen. Verder was er nog een kleine verandering op het gebied van kruisverwijzingen, in paragraaf 5.3.1 ( guren 5 en 7) bleek dat de kardinaliteit daarvan meer dan 1 is, dus er is een veel-op-veel-relatie van de `zie ook'-relatie gemaakt en een koppeltabel gemplementeerd waardoor dit in de structuur past. 6.1.5
Voorbeeldentabel
In het diagram van het voorbeeldengedeelte van de structuur, diagram 11, is de grootste wijziging de mogelijkheid tot het toevoegen van meer oorsprongsinformatie. Hier gaat de volgende paragraaf over. Verder is de relatie met uitdrukkingsvormen van voorbeelden veel op veel gemaakt, en is er een mogelijkheid toegevoegd om kruisverwijzingen vanaf voorbeeldzinnen op te slaan, naar aanleiding van het lemma in paragraaf 5.2.3 ( guur 16). 6.1.6
Oorsprongsinformatie
De grootste wijziging op het gebied van de oorsprongsinformatie is dat er nu veel meer koppeltabellen zijn met de tussen de tabellen met oorsprongsinformatie en de tabellen van andere lemmaonderdelen, omdat duidelijk is geworden dat dit soort informatie in alle onderdelen van het lemma genoemd kan worden (woord, betekenis, voorbeeld, voorbeeldvertaling). De tabel Plaats is hierbij ook meegenomen, omdat in onder andere het voorbeeld dat besproken wordt in paragraaf 5.2.4 ( guur 17) te zien is dat plaatsinformatie niet alleen bij voorbeeldzinnen genoemd wordt. De andere grote verandering is gebaseerd op het probleem dat onder andere besproken is in paragraaf 5.1.4 ( guur 8), waar bleek dat bij bronnen ook locatie-informatie kan horen. In het WDD-systeem werden deze gegevens in een veld opgeslagen. De voorgestelde oplossing hiervoor is om bij de koppeltabellen tussen bron en een lemmaonderdeel naast een koppeling met bron ook ruimte te maken voor een optionele koppeling met regio en/of plaats. Hierbij is wel een nieuw sleutelattribuut nodig, een identi catienummer, omdat optionele attributen geen sleutel kunnen zijn. Deze oplossing is beter dan het samen opslaan van de informatie in de brontabel, ook als de informatie wel gesplitst zou zijn. De locatie-informatie en broninformatie horen namelijk niet echt bij elkaar, sommige bronnen komen mogelijk met elke plaats voor. Het zijn aparte vaste lijsten van afkortingen en namen, die gekoppeld worden om tot een oorsprongsvermelding te komen, vandaar deze oplossing. Het is ook niet mogelijk om de bron en de locatie helemaal los van elkaar te zien, dat zou niet overeenkomen met de informatie in het woordenboek, en een oorsprongsaanduiding als (bron:plaats, plaats) zou dan op dezelfde wijze opgeslagen zijn als (bron, plaats, plaats).
31
6.1.7
XML-structuur
In sectie 3.3 werd de XML-structuur besproken, die de tussenstap vormt tussen opgemaakte tekst en gestructureerd opgeslagen informatie in een database. Het is dus belangrijk dat de XML-structuur alle elementen uit de databasestructuur bevat, omdat het anders niet goed op elkaar aansluit. Daarom is er ook een nieuwe XML-structuur gemaakt, die in zijn geheel te zien is in appendix D. Eerder werd genoemd dat er twee mogelijke uitgangspunten zijn voor het ontwerpen van deze XML-structuur, de gegevens in het woordenboek of de relationele databasestructuur. Het nieuwe ontwerp is gebaseerd op het ontwerp van de database, omdat de omzetting van XML naar database dan makkelijker is. Ook is het logisch dat de structuur in een keer goed wordt toegevoegd aan de informatie, namelijk bij het omzetten naar XML. Het belangrijkste verschil met de eerdere XML-structuur is dat elke informatiecode correspondeert met een informatieveld uit de databasestructuur. De extra mogelijkheden die de voorgestelde structuur introduceert zijn dus ook in de voorgestelde XML-structuur terechtgekomen. Het trefwoord wordt nu als elk ander woord opgeslagen, met een attribuut dat aangeeft dat het een trefwoord is. Hierdoor staat, anders dan in de oude structuur, alle woordinformatie op hetzelfde niveau. Het grootste verschil tussen de XML-structuur en de databasestructuur is dat identi catienummers in de XML grotendeels ontbreken. Alleen de lemma's hebben er een. De identi catienummers zijn vooral nuttig om relaties aan te geven, en in de XML-structuur worden deze relaties duidelijk gemaakt door de boomstructuur van de gegevens. Van een stuk tekst dat als voorbeeld gecodeerd is, mag aangenomen worden dat het hoort bij de betekenis waarbinnen het staat. Alleen bij kruisverwijzingen is dit niet het geval. Hierom hebben lemma's wel identi catienummers. Overige identi catienummers kunnen worden toegevoegd bij het importeren van de informatie in de database. 6.2
Toekomstig werk
Ondanks het feit dat de voorgestelde wijzigingen niet geevalueerd konden worden, is het duidelijk dat de informatie uit het WDD nog steeds niet volledig opgeslagen kan worden in het testsysteem. Hoofdstuk 5 liet zien dat er soms vreemde en uitzonderlijke constructies in staan, en het mag duidelijk zijn dat het schrijven van een woordenboek toch mensenwerk is. Niet alles is in een informatieveld te plaatsen. Ook staat er in het woordenboek informatie waar alleen mensen iets van kunnen maken. Woordenboeken worden beknopt geschreven, en er wordt dus wel eens een beroep gedaan op de lezer om zelf informatie in te vullen. Daarnaast is in de evaluatie gebleken dat lang niet alle verschillen tussen het gedrukte en online woordenboek aan de databasestructuur lagen. Hier zal ik enkele mogelijke problemen bespreken die niet binnen de databasestructuur zijn op te lossen.
32
6.2.1
Natuurlijke taal
Een van de gevolgen van het feit dat het maken van een woordenboek mensenwerk is, is dat gegevens soms in natuurlijke taal worden opgeschreven, vooral bij de meer uitzonderlijke informatievelden waar waarschijnlijk geen vast formaat voor is bedacht. Een voorbeeld hiervan is te zien in guur 6. Voor mensen die in het woordenboek kijken maakt dit niet uit, want het is begrijpelijk, maar het kan problemen opleveren wanneer er met vaste regels betekenisinformatie aan wordt toegevoegd, zoals bij de XML-conversie. Natuurlijke taal laat zich niet zo makkelijk vangen in reguliere expressies. Algemenere regels kunnen fouten introduceren, en om speci eke regels te maken moeten alle verschillende zinsconstructies opgespoord worden. Een mogelijke oplossing hiervoor is semiautomatische invoer of correctie, waarbij bepaalde delen van het proces door een mens worden gecontroleerd of uitgevoerd. Bij uitspraakinformatie als in guur 6 zouden bijvoorbeeld automatisch alle lemma's met het woord `uitgesproken' gevonden kunnen worden, waarna een mens de nodige aanpassing kan maken. In het geval van guur 6 zou dit inhouden dat een nieuw woord zonder `d' wordt toegevoegd, en als uitspraakinformatie aan het lemma gekoppeld wordt. 6.2.2
Afgekorte woorden en zinnen
Woordenboeken worden zo beknopt mogelijk geschreven, en ruimtebesparing is iets dat veelvuldig terug te zien is in woordenboeken, ook in het WDD. De afkortingen van plaatsen zijn hier een voorbeeld van, maar er worden ook andere dingen afgekort. Bij spellingsvarianten of lijsten van samenstellingen wordt regelmatig het herhalende deel van het woord vervangen door puntjes. Ook bij voorbeeldzinnen komt dit wel eens voor, waarbij het weggelaten deel volgens de inleiding van het woordenboek niet eens altijd identiek hoeft te zijn. Hierbij wordt aangenomen dat de lezer kan infereren wat er bedoeld wordt op grond van de context. De inleiding van het woordenboek meldt hierover: \Meestal spreekt het gebruik voor zichzelf". Computers kunnen echter nog niet infereren. Dit soort situaties kunnen wel automatisch opgespoord worden, maar zullen handmatig moeten worden gecorrigeerd. 6.2.3
Woordgroepen
Soms worden in het WDD streepjes gebruikt om woordgroepen aan te geven. Een voorbeeld hiervan is te zien in guur 7, waar wordt gezegd dat voor alle woorden met het voorvoegsel aal ook al en eel mogelijk is. Ook dit is niet zomaar automatisch op te lossen. Als bijvoorbeeld voor elk woord dat met aalbegint, ook een woord al- en eel- aan de database wordt toegevoegd, zal dit misschien ook voor de plaatsnaam Aalden of het woord aalst gebeuren, afhankelijk van de implementatie. Een menselijke lezer zou hier kunnen bedenken dat dit niet logisch is. Zo'n automatisch proces van woordgroepoplossing zou op deze manier meer verschillen tussen het gedrukte en online woordenboek kunnen introduceren dan dat het oplost. Een soortgelijke situatie waarbij een automatisch proces wel uitkomst zou kunnen bieden zijn de woorden in het WDD waarbij kleine spellingsvariaties 33
binnen een woord met haakjes worden aangegeven, bijvoorbeeld de verwijzing baoze(l)n: z. baze(l)n. Hier is duidelijk wat er bedoeld wordt, de `L' is optioneel, dus er zou automatisch een versie met en zonder `L' toegevoegd kunnen worden. 6.2.4
Weggelaten verwijzingen
Ook de alfabetische volgorde van het woordenboek wordt gebruikt voor ruimtebesparing. Als twee lemma's alfabetisch vlak bij elkaar liggen, dan zal er geen kruisverwijzing worden toegevoegd, ook al zou dat anders wel gebeuren. Een online woordenboek in een database is echter niet per de nitie gesorteerd, dus het toevoegen van dit soort verwijzingen zal de duidelijkheid ten goede komen. Dit kan echter niet automatisch gedaan worden, er is iemand met genoeg kennis van het Drents om te kunnen beoordelen waar nieuwe verwijzingen moeten komen voor nodig. 6.2.5
De XML-conversie
Om gebruik van de testdatabase mogelijk te maken zullen de andere onderdelen van het proces ook aangepast moeten worden om aan te sluiten. De XMLconversiestap zal nieuwe reguliere expressieregels nodig hebben om de nieuwe datavelden te kunnen onderscheiden en de informatiecodes van de nieuwe XMLstructuur te kunnen toevoegen. Ook moeten de bestaande regels misschien wat speci eker gemaakt worden, om het aantal incorrecte gegevens in het systeem te verminderen. Informatie die door geen van de regels wordt herkend kan dan in een informatieveld voor commentaar geplaatst worden. Een aantal van de verschillen tussen het gedrukte en online woordenboek die in de evaluatie in sectie 3.5 werden gevonden, had hiermee te maken. Een ingewikkelde constructie zoals beschreven in 5.1.9 ( guur 15) kreeg vertalingscodes, terwijl het geen vertaling was. In een van de lemma's uit de steekproef werd de bronvermelding `md' gezien als de regio Midden-Drenthe (MD). Ook leken er soms regels te ontbreken, een verwijzing naar spellingsvarianten in de vorm \Var. als bij haren "werd niet als zodanig gecodeerd. Ook een bronaanduiding bij een betekenis werd niet goed gecodeerd. Ook was er een situatie waar een Drents woord schuingedrukt in de vertaling stond, dit werd meegenomen als voorbeeld. Verwijzingen, die in het papieren WDD schuin gedrukt staan, worden ook regelmatig als voorbeeldzin gecodeerd. Naast aanpassingen om aan te sluiten bij de voorgestelde structuur, is er dus ook nog ruimte voor verbetering van het conversieprogramma. 6.2.6
De website
De website geeft de gegevens uit de database op een duidelijke manier weer, en de code achter de website heeft een functie voor elk informatieveld. Hier zullen voor de nieuwe elementen van de structuur nieuwe functies gemaakt moeten worden om ze te kunnen weergeven. Ook op het gebied van de website werden in de evaluatie in sectie 3.5 enkele problemen geconstateerd, die terugkwamen bij elk lemma met een informatie34
veld waarvan de weergavefunctie het probleem heeft. Bij lemma's waar door woorden naar verwezen wordt, wordt de bron- en regio-informatie van al die woorden weergegeven, in plaats van alleen het trefwoord. Dit kan zorgen voor herhaling van regioaanduidingen en verkeerde informatie. Daarnaast bleken voorbeeldvertalingen vaak te ontbreken, en in de gevallen dat ze wel gegeven werden, waren ze niet gerelateerd aan de gegeven voorbeeldzin. De oorzaak hiervan lijkt te zijn dat er onjuiste identi catienummers worden gebruikt bij het vinden van de voorbeeldvertalingen, waardoor de relatie van voorbeeld naar vertaling niet goed wordt gevolgd. Vooral het tweede probleem is vrij ernstig, omdat er hierdoor regelmatig belangrijke informatie ontbreekt. 7
Conclusie en toekomstig werk
In dit verslag is de digitale structuur van het Woordenboek van de Drentse dialecten onderzocht. Op basis hiervan zijn verbeteringen voorgesteld en gemplementeerd. Gebleken is dat de structuur, beschreven in Bloem et al. (2009), in hoofdlijnen goed was, maar dat er veel kleinere verbeteringen mogelijk waren om de volledigheid en correctheid van de informatie in het online systeem te vergroten. Het betrof hier vooral het toevoegen van meer informatievelden en mogelijkheden om informatie op meer plaatsen in de lemmastructuur te zetten dan in het bestaande systeem. Er zijn eveneens enkele mogelijke verbeteringen voor andere delen van het systeem besproken, en wat er moet gebeuren om gebruik van een systeem met de hier besproken veranderingen mogelijk te maken. Ook is duidelijk geworden dat niet alles volledig automatisch opgelost kan worden. Omdat het woordenboek voor menselijke lezers geschreven is, moet er soms een mens ingezet worden om de betekenis van woordenboekinformatie expliciet te maken. De verbeterde structuur is niet geevalueerd, omdat andere onderdelen ook aangepast moeten worden om dit mogelijk te maken. Dit is iets dat in de toekomst gedaan kan worden, zodat een nieuwe evaluatie uitgevoerd kan worden en vergelijking met het bestaande systeem mogelijk wordt. Ook zou een nieuwe evaluatie een mogelijkheid bieden om de andere onderdelen van het systeem te onderzoeken en verbeteren. Als dat gebeurd is zal het ook mogelijk zijn om data in de verbeterde structuur in te voeren en het geheel in gebruik te nemen voor het online Woordenboek van de Drentse dialecten. Het praktisch nut hiervan is al gebleken uit commentaar van gebruikers van het systeem. Een gebruiker kon het lemma gulp niet vinden omdat het trefwoord gulp doorverwees naar een ander lemma. Het bleek dat gulp ook voorkwam als variant van een ander lemma, en omdat een woord in het huidige systeem slechts naar een lemma kan verwijzen, werd deze variant door haar latere positie in het woordenboek wel opgenomen en het trefwoord niet, wat het lemma gulp onvindbaar maakt. In het verbeterde systeem zou dit geen problemen opleveren, omdat een woord naar meerdere lemma's kan verwijzen. Het is duidelijk dat er behoefte is aan een online Drents woordenboek dat de volledige inhoud van het gedrukte Drents woordenboek op een correct gestructureerde wijze bevat, en deze verbeteringen brengen dit doel een stap dichterbij.
35
Referenties
J. Bloem, L. Buitinck, E. Joling, G. Kramer, and H. Kreulen. De dikke Kocks online. 2009. Eindverslag college CS NTV, Rijksuniversiteit Groningen. R. Bourret. XML and Databases, 2003. EF Codd. A relational model York, NY, USA, 1970.
of data for large shared data banks.
ACM New
Tim Converse, Joyce Park, and Clark Morgan. PHP5 and MySQL Bible. Hungry Minds Inc, 2004. Paul Dubois. MySQL. Addison-Wesley Professional, Thousand Oaks, CA, USA, 4th edition, 2008. T. Fontenelle. Turning a bilingual Niemeyer, Tubingen, 1997.
dictionary into a lexical-semantic database.
B. L. Fraser. Beyond De nition: Organising Semantic Information in Bilingual Dictionaries. Int J Lexicography, 21(1):69{93, 2008. doi: 10.1093/ijl/ecn002. N. Ide, J. Le Maitre, and J. Veronis. Outline of a model for lexical databases. Information Processing and Management, 29(2):159{186, 1993. N. Ide, A. Kilgarri, and L. Romary. A formal model of dictionary structure and content. In Proceedings of EURALEX 2000, pages 113{126, 2000. G.H. Kocks. Joe Marini. 2002.
Woordenboek van de Drentse Dialecten. Document Object Model.
Van Gorcum, 1997.
McGraw-Hill, Inc., New York, NY, USA,
M. Markus and R. Heuberger. The Architecture of Joseph Wright's English Dialect Dictionary: Preparing the Computerised Version. International Journal of Lexicography, 2007. L. Oppentocht and R. Schutz. Developments pages 215{227. Oxford Univ Press, 2003. J. Renkema.
Introduction to discourse studies.
FD Rolland.
The essence of databases.
in electronic dictionary design
,
John Benjamins B.V., 2004.
Pearson, 1998.
J. Zhang. Application of OODB and SGML techniques in text database: an electronic dictionary system. ACM SIGMOD Record, 24(1):3{8, 1995.
36
Bijlagen A
Databaseontwerp van het online WDD
Dit onderdeel bevat het databaseontwerp van het huidige online WDD-systeem. Het ontwerp wordt gepresenteerd in de vorm van een aantal Entity-Relationship (E-R) diagrammen, aangezien het originele diagram te groot is om in een afbeelding weer te geven. De diagrammen worden samengevat door de hoofdstructuur in de eerste afbeelding. Dit ontwerp wordt beschreven in sectie 3.2. De vierkanten zijn entiteiten en staan voor tabellen in de database. Ovalen zijn attributen van deze tabellen. Ruiten geven relaties tussen de tabellen weer, waarbij het cijfer 1 of de letter M de kardinaliteit aangeven. De 1 geeft aan dat er maximaal een gegeven uit de tabel aan een relatie meedoet, en als er een M staat, kunnen het er meer zijn. Een ruit met aan beide kanten een M staat dus voor een veel-op-veel-relatie. De lijnen laten zien welke elementen uit het diagram met elkaar verbonden zijn. Als een lijn dubbel is, betekent het dat deze verbinding verplicht is. Een attribuut dat met een dubbele lijn aan een tabel verbonden is, mag dus niet leeg zijn.
Diagram 1: Een diagram van de hoofdstructuur van de database, met de entiteiten van de belangrijkste lemmaonderdelen
37
Diagram 2: Een E-R diagram van het gedeelte van de database dat met de lemmatabel te maken heeft
Diagram 3: Een E-R diagram van het gedeelte van de database dat met de woordtabel te maken heeft
38
Diagram 4: Een E-R diagram van het gedeelte van de database dat met de betekenistabel te maken heeft
Diagram 5: Een E-R diagram van het gedeelte van de database dat met de voorbeeldtabel te maken heeft
Diagram 6: Een E-R diagram van het gedeelte van de database dat met de brontabel en de regiotabel te maken heeft
39
B
Het voorgestelde databaseontwerp
Dit onderdeel bevat het databaseontwerp van een verbeterde versie van de database van het WDD-systeem, gebaseerd op de conclusies uit dit verslag. Het ontwerp wordt gepresenteerd in de vorm van een aantal Entity-Relationship (ER) diagrammen. De diagrammen worden samengevat door de hoofdstructuur in de eerste afbeelding, die overigens nauwelijks veranderd is ten opzichte van de hoofdstructuur van het bestaande systeem. Ten opzichte van de diagrammen in bijlage A zijn er onder andere meer koppeltabellen toegevoegd, en meer relaties gelegd. Hierdoor kunnen meer informatievelden uit het woordenboek opgeslagen worden. In sectie 6.1 wordt dit ontwerp uitgebreid besproken..
Diagram 7: Een diagram van de hoofdstructuur van de database, met de entiteiten van de belangrijkste lemmaonderdelen
40
Diagram 8: Een E-R diagram van het gedeelte van de database dat met de lemmatabel te maken heeft
Diagram 9: Een E-R diagram van het gedeelte van de database dat met de woordtabel te maken heeft
Diagram 10: Een E-R diagram van het gedeelte van de database dat met de betekenistabel te maken heeft
41
Diagram 11: Een E-R diagram van het gedeelte van de database dat met de voorbeeldtabel te maken heeft
Diagram 12: Een E-R diagram van het gedeelte van de database dat met de tabellen met oorsprongsinformatie (bron, regio, plaats) te maken heeft
42
C
XML-informatiestructuur van het online WDD
Deze bijlage bevat de XML-structuur die werd gebruikt bij het maken van het online Woordenboek van de Drentse dialecten, zoals beschreven in sectie 3.3.
<jargon /> <woord /> <woordsoort> <meervoud /> <woordklasse /> <woordverwijzing /> <woordvertaling />
43
D
De voorgestelde XML-informatiestructuur
Deze bijlage bevat de XML-structuur die bij de voorgestelde databasestructuur voor het online WDD hoort, zoals beschreven in sectie 6.1.7. In tegenstelling tot de XML-structuur in bijlage C is deze structuur gebaseerd op de databasestructuur. Hierdoor wordt het importeren van de XML-gecodeerde gegevens in de database vergemakkelijkt, en bovendien is het logischer als de beide structuren overeenkomen.
<woordinfo type="trefwoord"|"uitspraak"|"variant"> <woord /> <meervoudsvorm /> <woordsoort /> <jargon />
44
<woordvertaling /> <jargon />
45