Hoofdklemtoon op Nederlandse woorden bepalen met behulp van Transformation-Based Learning
Afstudeerscriptie Informatiekunde
Karen Keune s1053221 k
[email protected]
Scriptiebegeleider en eerste lezer: Gosse Bouma Tweede lezer: Tam´as B´ır´o
Informatiekunde Rijksuniversiteit Groningen 27 november 2003
2
Inhoudsopgave 1 Inleiding 1.1 Klemtoon op woorden . . . . . . . . . . . . . . . . . . . . . . 1.2 Waarvoor het automatisch bepalen van klemtoon belangrijk is 1.2.1 Wat text-to-speech is . . . . . . . . . . . . . . . . . . . 1.2.2 Beperkt of onbeperkt aantal woorden . . . . . . . . . 1.3 Waarom Machine Learning gebruikt wordt . . . . . . . . . . .
. . . . .
5 6 6 6 6 7
2 Transformation-Based Learning 2.1 Waarom TBL wordt gebruikt . . . . . . . . . . . . . . . . . . . . 2.2 Hoe TBL werkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 fnTBL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 9 9 11
3 Baseline-systeem op basis van taalkundige regels 3.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Taalkundige regels voor klemtoon . . . . . . . . . . . . 3.2.1 Major- en minorgeneralistaties . . . . . . . . . 3.2.2 Gewicht van de lettergreep . . . . . . . . . . . 3.3 Taalkundige eigenschappen automatisch bepalen . . . 3.3.1 Data . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Verdeling train en test data . . . . . . . . . . . 3.4 Taalkundige eigenschappen in inputfile TBL . . . . . . 3.5 Klemtoon bepalen m.b.v. taalkundige regels . . . . . 3.5.1 Major-minor methode . . . . . . . . . . . . . . 3.5.2 Alternatieve methode . . . . . . . . . . . . . . 3.6 Conclusie klemtoon bepalen m.b.v. taalkundige regels 3.7 Uiteindelijke input voor TBL . . . . . . . . . . . . . .
13 13 13 14 15 16 16 16 16 17 18 19 20 21
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
4 Automatisch klemtoon bepalen met TBL 4.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Benodigde files voor het runnen van TBL . . . . . . . . . . . . . 4.2.1 Templates . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Testrules . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Trainen en testen met TBL . . . . . . . . . . . . . . . . . . . . . 4.3.1 Velden ltrgr, cv en ZL . . . . . . . . . . . . . . . . . . . . 4.3.2 Hoeveelheid context voor ltrgr, cv en ZL . . . . . . . . . . 4.3.3 Informatie eerder automatisch bepaalde klemtoon toevoegen 4.3.4 Resultaat TBL testen op data uit testb . . . . . . . . . . 4.4 Conclusie trainen en testen met TBL . . . . . . . . . . . . . . . . 3
23 23 23 23 24 25 25 29 29 31 31
4
INHOUDSOPGAVE
5 Onbeklemtoonde woorden beklemtonen m.b.v. defaultregels 33 5.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2 Defaultregels toepassen . . . . . . . . . . . . . . . . . . . . . . . 33 5.3 Voorkeur voor alternatieve methode . . . . . . . . . . . . . . . . 35 6 Foutenanalyse 37 6.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6.2 Percentage juist beklemtoonde woorden per aantal lettergrepen . 37 6.3 Percentage woorden per lettergreep voor alle, juiste en onjuiste woorden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.4 Klemtoonplaatsing voor alle, juiste en onjuiste woorden . . . . . 39 6.5 Onjuist beklemtoonde woorden . . . . . . . . . . . . . . . . . . . 41 6.5.1 Dubbel beklemtoonde woorden . . . . . . . . . . . . . . . 41 6.5.2 Onbeklemtoonde woorden . . . . . . . . . . . . . . . . . . 42 6.5.3 E´enmaal onjuist beklemtoonde woorden . . . . . . . . . . 43 6.6 Conclusie foutenanalyse . . . . . . . . . . . . . . . . . . . . . . . 45 7 Conclusie 7.1 Baseline-systeem op basis van taalkundige 7.2 Automatisch klemtoon bepalen met TBL 7.3 Onbeklemtoonde woorden beklemtonen . 7.4 Foutenanalyse . . . . . . . . . . . . . . . . 8 Discussie
regels . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
49 49 50 51 51 53
Hoofdstuk 1
Inleiding Spraak is een belangrijk communicatiemiddel. Wanneer mensen iets willen duidelijk maken doen ze dat vaak door te spreken. In de laatste jaren komen er steeds meer mogelijkheden om ook met sprekende computers te communiceren. Zo kun je bij het telefonisch opvragen van reistijden van de Nederlandse Spoorwegen een sprekende computer aan de lijn krijgen en kan een computer je de krant voorlezen. Wanneer gebruik gemaakt wordt van sprekende computers is het erg belangrijk dat hun spraak natuurlijk klinkt en niet als een typische robotstem. Om dit te bereiken is het toevoegen van prosodische informatie aan een tekst essentieel. Op deze manier wordt een tekst niet geheel eentonig uitgesproken, maar wordt er intonatie aan de tekst toegevoegd, waardoor deze, als dit goed gedaan wordt, vanzelf een stuk natuurlijker klinkt. Prosodische informatie moet aan elk woord apart toegevoegd worden, maar ook aan zinnen. Van elk woord wordt de ene lettergreep met meer nadruk uitgesproken dan een andere lettergreep. De klemtoon in een woord ligt voor dat woord altijd op dezelfde plaats. Of het woord nu aan het begin van de zin staat of ergens in het midden, dezelfde lettergreep zal beklemtoond worden. Bij het toevoegen van intonatie aan zinnen ligt dit anders. In de ene zin geeft een woord belangrijke informatie en moet daarom beklemtoond worden, hoewel in een andere zin hetzelfde woord juist niet beklemtoond moet worden omdat de nadruk van de zin op andere woorden ligt. Ook wordt een woord dat aan het einde van een vraagzin staat anders uitgesproken dan een woord dat aan het einde van bijvoorbeeld een uitroep staat. In dit onderzoek zal echter alleen gekeken worden naar de klemtoon die standaard op een woord ligt. Er zal worden onderzocht hoe goed het bepalen van hoofdklemtoon op willekeurige Nederlandse woorden met behulp van Transformation-based Learning werkt. In de rest van dit hoofdstuk zal dieper ingegaan worden op hoe klemtoon op woorden wordt gelegd en waarvoor het belangrijk is dat klemtoon automatisch bepaald kan worden. Ook zal worden uitgelegd waarom willekeurige woorden gebruikt worden en waarom hoofdklemtoon met behulp van Machine Learning bepaald zal worden. In het volgende hoofdstuk zal uitgelegd worden waarom er voor gekozen is om met Transformation-based Learning te werken en hoe deze methode precies werkt. 5
6
1.1
Hoofdstuk 1. Inleiding
Klemtoon op woorden
Woorden zijn onderverdeeld in ´e´en of meerdere lettergrepen. Tijdens het spreken worden niet alle lettergrepen in een woord op dezelfde manier uitgesproken. Wanneer er klemtoon op een woord ligt, zijn de toonhoogte, duur en luidheid van de klanken in deze lettergreep anders dan wanneer er geen klemtoon op de lettergreep ligt. Bij het beklemtonen van een lettergreep, gaat de toonhoogte van de klanken uit die lettergreep omhoog, duurt de lettergreep langer en wordt de lettergreep luider uitgesproken. In een woord ligt er klemtoon op ´e´en of meerdere lettergrepen. Een woord heeft echter maar op ´e´en lettergreep hoofdklemtoon. Wanneer een woord uit ´e´en lettergreep bestaat krijgt deze lettergreep altijd hoofdklemtoon. Wat langere woorden krijgen vaak nog op een extra lettergreep klemtoon. Deze klemtoon heeft nevenklemtoon en is wat zwakker dan hoofdklemtoon. Samenstellingen krijgen ook meer dan ´e´enmaal klemtoon. Bij samenstellingen krijgt ´e´en deel van de samenstelling hoofdklemtoon, het andere deel krijgt samenstellingsklemtoon. Deze delen van een samenstelling kunnen ieder ook nevenklemtoon krijgen. In dit onderzoek zal alleen naar de hoofdklemtoon op woorden gekeken worden. Andere soorten klemtoon worden achterwege gelaten.
1.2
Waarvoor het automatisch bepalen van klemtoon belangrijk is
Het beklemtonen van woorden is een belangrijk onderdeel bij het omzetten van tekst naar spraak (text-to-speech). Wanneer woorden hierbij niet beklemtoond worden zal een tekst die uitgesproken wordt erg robotachtig klinken. Elke letter zal dan in elke lettergreep op dezelfde manier uitgesproken worden. De tekst klinkt dan erg saai.
1.2.1
Wat text-to-speech is
Text-to-speech wordt voor steeds meer doeleinden gebruikt. Het wordt onder andere gebruikt voor telecommunicatie. Hierbij kunnen er telefoongesprekken gevoerd worden met computers. Wanneer bijvoorbeeld iemand de computer een vraag stelt kan het juiste antwoord op de vraag door de computer in een database opgezocht worden en kan de computer de gevonden tekst omzetten in spraak. Voor gehandicapte mensen kan text-to-speech ook een uitkomst zijn. Mensen die moeite hebben met spreken kunnen hun tekst intikken op een toetsenbord waarna deze tekst door de computer kan worden uitgesproken. Visueel gehandicapten hebben bijvoorbeeld baat bij text-to-speech doordat ze zo geschreven teksten in spraak aangeboden krijgen. Deze teksten kunnen vari¨eren van weerberichten tot emails die de blinde wel ontvangt, maar zelf niet kan lezen.
1.2.2
Beperkt of onbeperkt aantal woorden
Er is een groot verschil tussen het voorlezen van bijvoorbeeld een weerbericht of het omroepen van treininformatie op stations en het voorlezen van een krant of een email. Bij de eerste twee genoemde voorbeelden, het weerbericht en de
1.3. Waarom Machine Learning gebruikt wordt
7
treininformatie, is er sprake van beperkt aantal woorden dat uitgesproken moet kunnen worden. Zo hoeft de computer die het weerbericht voorleest de zin: Appels zijn deze week in de aanbieding. niet te kunnen voorlezen. Doordat voor het voorlezen van het weerbericht het domein van woorden dat uitgesproken moet kunnen worden van tevoren bekend is, kunnen deze woorden ´e´en voor ´e´en door iemand uitgesproken worden en in de computer opgeslagen worden, om deze woorden wanneer ze nodig zijn te kunnen laten horen. Omdat de klemtoon al op deze woorden is geplaatst is het kunnen bepalen van klemtoon op woorden voor deze toepassingen niet nodig. In een krantenbericht of een email kunnen echter alle mogelijke woorden staan. Het is onmogelijk om alle bestaande woorden in de computer op te slaan en vervolgens uit te spreken wanneer ze in een bericht voorkomen. Denk alleen al eens aan alle mogelijke samenstellingen die gemaakt kunnen worden. Wanneer bijvoorbeeld met behulp van een lexicon van 60K gekeken wordt hoeveel procent van 125M data niet in dit lexicon voorkomt, blijkt dit 3,63 procent zijn. (Ordelman, van Hessen en de Jong, 2001). Voor deze woorden is het belangrijk dat een geschreven tekst door een computer uitgesproken kan worden. Een onderdeel hiervan is dat de computer voor alle mogelijke woorden kan bepalen op welke lettergreep hoofdklemtoon komt te liggen. Om deze reden is het dan ook belangrijk dat klemtoon niet alleen voor bepaalde groepen woorden, zoals zelfstandige naamwoorden of monomorfemen, bepaald kan worden maar voor alle mogelijke woorden die in een tekst kunnen staan. Hier vallen bijvoorbeeld ook leenwoorden en samenstellingen onder. Hierom wordt er in dit hoofdstuk onderzocht hoe goed hoofdklemtoon te bepalen is voor willekeurige woorden.
1.3
Waarom Machine Learning gebruikt wordt
Met behulp van taalkundige regels kan klemtoon worden bepaald. Er zijn verschillende methodes om dit te doen. Klemtoon kan bijvoorbeeld bepaald worden met behulp van parameters (Hayes, 1981) of constraints (Nouveau 1994, Gilbers 1996). Wanneer klemtoon aan de hand van parameters of constraints wordt bepaald, wordt van een universele grammatica uitgegaan. Er zijn een aantal parameters of constraints in de universele grammatica die relevant zijn voor het bepalen van klemtoon. Met behulp van deze parameters of constraints kunnen een aantal regelmatigheden in een taal gevonden worden die beschreven worden. Doordat van een aantal universele eigenschappen van een taal wordt uitgegaan wordt het vinden van regels die klemtoon juist kunnen beschrijven beperkt. Er kunnen alleen regelmatigheden gevonden worden die in overeenstemming zijn met de universele regels. Ook kunnen er alleen generalisaties gevonden worden, zodat woorden die niet aan deze generalisaties voldoen, automatisch onregelmatigheden zijn. Zo wordt ook een grote groep woorden die niet aan de regelmatigheden voldoet als onregelmatig gezien, hoewel er voor deze groep woorden misschien best weer regels zijn te vinden die verklaren waarom in deze gevallen klemtoon anders ligt. Ook wordt klemtoon met behulp van parameters of constraints bepaald met specifieke eigenschappen van een woord. Zo wordt een lettergreep bijvoorbeeld als zwaar of licht gezien of worden alle consonanten met de letter ”C” van ”consonant” weergegeven en niet als de klank die werkelijk beschreven staat zoals ”l” of ”n”. Zo kan een regel zijn: Wanneer de finale lettergreep zwaar is krijgt deze klemtoon. Hierbij wordt dan geen onderscheid
8
Hoofdstuk 1. Inleiding
gemaakt tussen de informatie die verder in een lettergreep staat. Wanneer Machine Learning gebruikt wordt om hoofdklemtoon op woorden te bepalen hoeft er geen gebruik gemaakt te worden van parameters of constraints. Ook wordt er niet van een universele grammatica uitgegaan. Wel kunnen lettergrepen en hun taalkundige eigenschappen meegegeven worden aan de input van het programma en met deze informatie kunnen automatisch regels voor klemtoon gevonden worden. Hiermee kunnen veel regels gevonden worden die de regelmatigheden van het Nederlandse klemtoonpatroon beschrijven, die met parameters of constraints niet beschreven kunnen worden doordat er hierbij met de al vooraf bepaalde regels veel mogelijke regels worden uitgesloten. Er kan bij Machine Learning naar meerdere eigenschappen van een lettergreep worden gekeken. Zo kan worden meegenomen uit welke fonemen de lettergreep bestaat of dat een lettergreep zwaar of licht is. Ook zijn woorden niet regelmatig of onregelmatig. Wanneer een regel ervoor zorgt dat veel woorden juist beklemtoond worden, maar ook een aantal woorden hierdoor onjuist beklemtoond worden, kan er altijd nog een volgende regel gezocht worden die weer regelmatigheden in deze groep woorden vindt. Omdat klemtoonbepaling op Nederlandse woorden zeer complex is, is het erg moeilijk om een taalkundige beschrijving te maken die hoofdklemtoon aan willekeurige woorden toewijst. Doordat voor het Nederlands hoofdklemtoon het meest voorspelbaar is voor zelfstandige naamwoorden, wordt er vaak alleen bepaald hoe klemtoon aan deze groep woorden kan worden toegewezen (Booij 1995, Kager 1989). Andere soorten woorden hebben een minder duidelijk regelmatig patroon en zijn daardoor stukken moeilijker te beklemtonen met parameters of constraints. Er is onderzoek gedaan naar het beklemtonen van Nederlandse monomorfemen met behulp van Instance-based Learning (Daelemans, Gillis en Durieux, 1994a). Instance-based Learning is een vorm van Machine Learning waarbij niet uitgegaan wordt van een universele grammatica die het vinden van regels kan beperken. De resultaten van dit onderzoek zijn erg goed. Op bijna 90 procent van de woorden wordt de hoofdklemtoon juist gelegd. Ook het onderzoek van Busser (1998) waarbij willekeurige woorden beklemtoond worden met IGTree (Daelemans, van den Bosch en Weijers, 1997), een Machine Learning methode die in grote mate overeenkomt met Memory-based Learning, wordt een hoog percentage woorden, 87,8 procent, juist beklemtoond. Doordat bij het toekennen van klemtoon fonemen gebruikt worden die automatisch van grafemen naar fonemen omgezet zijn, zullen een aantal fonemen onjuist zijn. Wanneer alle fonemen, net als bij dit onderzoek, juist zouden zijn, zou het percentage juist beklemtoonde woorden waarschijnlijk iets hoger liggen. Ook dit onderzoek van Busser geeft erg goede resultaten. Om bovenstaande redenen is ervoor gekozen om juist met Machine Learning hoofdklemtoon op willekeurige Nederlandse woorden te bepalen. Hiervoor zal de methode Transformation-based Learning gebruikt worden. In het volgende hoofdstuk zal uitgelegd worden waarom voor deze methode gekozen is en hoe de methode werkt.
Hoofdstuk 2
Transformation-Based Learning Transformation-based Learning (TBL) werd in 1992 door Eric Brill ge¨ıntroduceerd. In 1995 schreef Brill een artikel waarin hij uitgebreid uitlegt wat TBL is (Brill, 1995). Dit artikel geeft goed de basis van TBL weer. In dit hoofdstuk zal worden uitgelegd waarom er in dit onderzoek gebruik wordt gemaakt van TBL en hoe TBL precies werkt.
2.1
Waarom TBL wordt gebruikt
Er is om verschillende redenen gekozen voor het werken met TBL in dit onderzoek. Een goede reden is dat TBL geschikt is voor het oplossen van taalkundige problemen. Dit is onder andere gedaan voor part-of-speech tagging (Brill 1992 en 1994), syntactic parsing (Brill 1993), prepositional phrase attachment disambiguation (Brill en Resnik 1994), text chunking (Ramshaw en Marcus 1995), en spelling correction (Mangu en Brill 1997). Andere redenen voor het werken met TBL zijn dat TBL gemakkelijk aan te passen is voor andere taalkundige problemen, dat de output van TBL goed te begrijpen is doordat TBL geen statistisch programma is waar cijfers uit rollen, maar een programma waarbij regels als output worden gegeven en dat de resultaten naar een FSA gecompileerd kunnen worden (Roche en Schabes, 1995) waardoor deze effici¨ent gebruikt worden.
2.2
Hoe TBL werkt
Aangezien TBL in dit onderzoek wordt gebruikt om hoofdklemtoon aan woorden toe te kennen, zal de werking van TBL aan de hand van dit probleem worden uitgelegd. Om met TBL te werken is een dataset nodig waarmee gewerkt kan worden. Dit kan een bijvoorbeeld een set zinnen of een set woorden zijn. Aangezien er bij klemtoontoekenning op woorden geen rekening wordt gehouden met de context van het woord is voor dit onderzoek een set woorden nodig. 9
10
Hoofdstuk 2. Transformation-Based Learning
Vervolgens moet de dataset geannoteerd worden. Dit kan heel simpel gedaan worden door de tag die waarschijnlijk het meest voor zal komen in de dataset aan ieder stukje data toe te kennen of door een aantal mogelijke tags random toe te kennen aan ieder stukje data uit de dataset. Dit kan in sommige gevallen ook al iets nauwkeuriger gedaan worden door bijvoorbeeld handmatig een programma te schrijven dat om gegronde redenen tags toekent aan de data uit de dataset. Hiervoor is ook gekozen bij het maken van de baseline voor dit onderzoek. Aan elke lettergreep uit een woord zal worden toegevoegd of deze lettergreep volgens een aantal taalkundige regels wel of geen klemtoon zou moeten krijgen. Hoe dit precies is gedaan staat beschreven in het volgende hoofdstuk. Het is mogelijk om verschillende kenmerken van een lettergreep aan de baseline voor het trainprogramma mee te geven. Zo kan bijvoorbeeld de lettergreep in fonemen geschreven meegegeven worden, maar kan ook nog abstracte informatie meegegeven worden, die bijvoorbeeld het gewicht van een lettergreep geeft. Ook moet bekend zijn wat de juiste tag is die bij elk stukje data hoort. Hiervoor kan de data die gebruikt wordt handmatig getagd worden of kan al bestaande informatie gebruikt worden. Voor het corpus dat in dit onderzoek wordt gebruikt is voor elk woord al bekend op welke lettergreep klemtoon ligt. Hiervoor hoeft dus niets meer handmatig geannoteerd te worden. De data moet opgedeeld worden in train- en testdata. Door het automatisch toekennen van tags wordt een bepaald percentage woorden nog onjuist beklemtoond. Door nu regels te leren die toegepast kunnen worden op de data waarin fouten zitten, en deze fouten te verbeteren wordt het percentage onjuist beklemtoonde woorden steeds kleiner. Dit verbeteren van de geannoteerde data gebeurt in de learner. Voordat dit gedaan kan worden moet de learner weten met welke gegevens uit de input data er rekening gehouden moet worden bij het verbeteren van de geannoteerde data. Hiervoor worden templates gebruikt die door de gebruiker zelf moeten worden meegegeven. Deze templates beschrijven de transformaties die mogelijk zijn om de output beter op de waarheid te laten lijken. Een template kan bijvoorbeeld aangeven dat er naar de lettergreep zelf en naar de voorafgaande lettergreep moet worden gekeken. Ook wordt in een template aangegeven welke data aangepast kan worden. In dit geval dus de handmatig geannoteerde tekst. Aan de hand van templates kan de learner dan transformaties uitvoeren. Een transformatie bestaat uit twee componenten. Een herschrijfregel en de omgeving waar de regel betrekking op heeft. Een mogelijke herschrijfregel is: • Verander de tag van 0 naar 1. Voor klemtoontoekenning zou dit bijvoorbeeld betekenen dat een lettergreep die geen klemtoon krijgt (0), wel klemtoon moet krijgen (1). De beschrijving van de omgeving waar de regel betrekking op heeft kan dan zijn: • De voorafgaande lettergreep is licht. Deze transformatie zorgt er dus voor dat alle lettergrepen die voorafgegaan worden door een lichte lettergreep en geen klemtoon krijgen, beklemtoond worden. Gedurende het trainen met de learner wordt steeds de transformatie gevonden die de beste score oplevert. Een transformatie kan onjuiste tags juist maken
11
2.3. fnTBL
maar ook juiste tags onjuist maken. De score is nu het aantal tags dat juist getransformeerd wordt min het aantal tags dat onjuist getransformeerd wordt. Elke keer nadat de transformatie met de beste score gevonden wordt, wordt deze toegepast op het geannoteerde corpus waarmee getraind wordt. Op basis van het verbeterde corpus wordt opnieuw de regel gevonden met de beste score. Het leren gaat door totdat er geen transformaties meer gevonden kunnen worden waarvan de toepassing een positief effect heeft op de verbetering van het geannoteerde corpus. De eerste transformaties die worden gevonden zullen erg algemene regels zijn die voor heel veel woorden gelden. Ook zullen er door deze regels heel wat woorden fout verbeterd worden. Gedurende het trainen zullen er steeds specifiekere regels gevonden worden die vaak de fouten die in het begin veroorzaakt zijn, door de algemene regels, weer verbeteren. Het aantal regels dat gevonden wordt hangt af van de templates die gegeven wordt en van de grootte van het traincorpus. Om tot de best mogelijke resultaten voor een bepaald probleem te komen kan het nuttig zijn om meerdere keren te trainen waarbij er elke keer gebruikt wordt gemaakt van een andere set templates. Zo kan bekeken worden welke informatie uit de inputdata het meest geschikt is om mee te trainen. Na het trainen kan er getest worden met de testdata. Dit is het deel van het gebruikte corpus waarmee niet getraind is. Zo wordt bekend hoeveel procent van de data juist geannoteerd wordt door de regels die gevonden zijn tijdens het leren. In het geval waarin hoofdklemtoon aan woorden toegekend wordt, kan nu berekend worden hoeveel procent van de woorden na het leren juist beklemtoond is.
2.3
fnTBL
Voor dit onderzoek is de versie fnTBL1 , gemaakt door Radu Florian en Grace Ngai (2001) gebruikt. De reden hiervoor is dat deze versie sneller werk dan de tagger van Brill. Met Brills tagger worden de regels die toegepast kunnen worden na elke transformatie helemaal opnieuw berekend. De regels die verbeteringen geven worden gegenereerd en er wordt vervolgens voor de regel die de meeste verbeteringen geeft (good counts) uitgerekend hoeveel verslechteringen (bad counts) deze regel geeft. Dit wordt herhaald voor de regel die na deze regel het best is en dit gaat zo door totdat er geen regels meer zijn die in totaal een betere score kunnen halen dan de beste score die tot dan toe berekend is. Dit heeft dus als voordeel dat niet voor alle mogelijke regels de bad counts berekend hoeven worden. Het nadeel is echter dat deze methode steeds langzamer werkt naarmate de score van de beste regel afneemt. fnTBL is een versie van TBL die sneller werkt doordat het algoritme dat hiervoor gebruikt wordt voor een regel zowel de good counts als de bad counts onthoudt. Deze counts worden opgeslagen en herberekend wanneer nodig, wanneer een nieuw geselecteerde regel aan het corpus toegevoegd wordt. Het voordeel hiervan is dat alleen de scores van regels die mogelijk veranderen herberekend hoeven te worden wanneer een regel toegepast moet worden op het train corpus. Wanneer de regel: 1 http://nlp.cs.jhu.edu/
rflorian/fntbl/tbl-toolkit/tbl-toolkit.html
12
Hoofdstuk 2. Transformation-Based Learning • Beklemtoon een lettergreep die onbeklemtoond is, wanneer deze lettergreep zwaar is. toegepast wordt op het corpus en de regel: • Haal de klemtoon van een lettergreep af, wanneer deze lettergreep superlicht is.
een andere mogelijke regel is waarvan de score berekend is, dan hoeft de score van deze regel niet aangepast te worden omdat de eerste regel geen mogelijke veranderingen meebrengt voor de tweede regel. Een lettergreep kan namelijk niet zwaar en superlicht zijn. Deze methode kan tot vier zo snel werken als Brills methode (Radu Florian en Grace Ngai, 2001).
Hoofdstuk 3
Baseline-systeem op basis van taalkundige regels 3.1
Inleiding
Wanneer er met behulp taalkundige regels klemtoon bepaald wordt, is het belangrijk niet alleen naar het woord te kijken zoals dat normaliter geschreven wordt, maar ook naar expliciete taalkundige informatie uit dat woord. Zo kan er naar een lettergreep die omgezet is in fonemen gekeken worden, maar kan er ook een kenmerk zijn, van een gehele lettergreep, dat belangrijk is voor de bepaling van klemtoon, dat daarom als zodanig bekeken wordt. Om met behulp van taalkundige regels automatisch klemtoon toe te kennen is het noodzakelijk dat de taalkundige informatie die hiervoor nodig is, automatisch bepaald kan worden. In dit hoofdstuk worden eerst een aantal taalkundige features besproken die van belang zijn bij het bepalen van klemtoon op een woord. Deze features worden vervolgens automatisch bepaald met fonologische informatie uit Celex 1 , ontwikkeld door het Max-Planck-Instituut te Nijmegen, en worden in de input voor TBL gezet. Om hierna klemtoon aan de woorden toe te kennen worden taalkundige regels gebruikt waarmee automatisch klemtoon wordt toegekend. De taalkundige regels waarmee klemtoon bepaald is worden ge¨evalueerd met behulp van informatie waaruit blijkt welke lettergrepen echt beklemtoond zijn. Zo kan namelijk bepaald worden welk percentage woorden door de taalkundige regels juist beklemtoond is. Ook wordt aan de input voor TBL toegevoegd welke lettergrepen volgens deze regels beklemtoond zijn. Als laatste wordt in de input voor TBL gezet welke lettergrepen echt beklemtoond zijn. In het volgende hoofdstuk kan met deze file getraind en getest worden.
3.2
Taalkundige regels voor klemtoon
Klemtoon wordt toegekend aan een lettergreep uit een woord. Aan de hand van de positie van een lettergreep in een woord en aan de hand van verschillende taalkundige features die deze lettergrepen bevatten, worden regels gemaakt die 1 http://www.kun.nl/celex
13
14
Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels
klemtoon toekennen. Er is niet ´e´en manier waarop deze features gebruikt moeten worden. De verschillende features helpen allemaal bij het bepalen van klemtoon. Er zijn door taalkundigen meerdere methodes geschreven om klemtoon aan een woord toe te voegen. Wanneer een woord in lettergrepen verdeeld is en elke lettergreep in fonemen geschreven is, bevat deze lettergreep heel veel verschillende informatie. Met behulp van taalkundige informatie die explicieter is, is het makkelijker en sneller om klemtoon toe te kennen. Om deze reden worden hieronder een aantal nuttige features van lettergrepen gegeven die kunnen helpen bij het bepalen van klemtoon.
3.2.1
Major- en minorgeneralistaties
Kager (1989) gebruikt verschillende kenmerken van een woord om hoofdklemtoon voor het Nederlands te bepalen. Ten eerste moet het woord in lettergrepen verdeeld zijn. Dit is nodig omdat klemtoon op een lettergreep valt en ook omdat Kager de positie van een lettergreep binnen een woord gebruikt, om te bepalen of er op deze lettergreep klemtoon ligt. De meest gedetailleerde informatie die Kager uit een lettergreep gebruikt zijn niet de fonemen uit die lettergreep, maar de categorie waartoe elke vocaal binnen die lettergreep behoort. De categorie¨en die hij gebruikt zijn medeklinker, korte klinker, lange klinker, diftong en schwa. De informatie over een lettergreep die Kager verder gebruikt is het verschil tussen open en gesloten lettergrepen en het onderscheid tussen superzware, zware, lichte, en superlichte lettergrepen. Kager verdeelt de regels onder in de belangrijkste regels ’major generalisaties’ en de iets minder belangrijke regels ’minor generalisaties’. Deze generalisaties staan hieronder weergegeven: Majorgeneralisaties 1. Hoofdklemtoon bevindt zich nooit verder dan drie syllabes verwijderd van de rechter woordgrens 2. Hoofdklemtoon valt op de syllabe voor een syllabe die een (onderliggende) schwa als kern heeft en waarin deze schwa voorafgegaan wordt door een consonant 3. Hoofdklemtoon kan niet op de voorlaatste (antepenult) syllabe vallen, indien de voorlaatste syllabe gesloten is en een volle vocaal bevat of indien de voorlaatste syllabe een diftong bevat. Minorgeneralisaties 1. Woorden met finaal superzware (VVC of VCC) syllabes hebben finaal hoofdklemtoon (waarbij VV = lange klinker, V = korte klinker en C = medeklinker) 2. Woorden met finaal een diftong hebben finaal hoofdklemtoon 3. Woorden met finaal een gesloten syllabe met een korte vocaal hebben antepenult hoofdklemtoon; in geval van tweesyllabige woorden penult. 4. Woorden met finaal een open syllabe hebben penult hoofdklemtoon Deze regels zijn niet voor elk woord toepasbaar. Ze zijn geschreven voor een grote groep regelmatige woorden.
3.2. Taalkundige regels voor klemtoon
3.2.2
15
Gewicht van de lettergreep
In tegenstelling tot Kager gebruikt F´ery (1998) alleen het gewicht van een lettergreep om klemtoon te bepalen. Zij verdeelt lettergrepen onder in de categorie¨en zwaar, licht en superlicht om klemtoon te bepalen. Zij doet dit voor het Duits, maar aangezien de manier van klemtoon bepalen voor het Duits veel weg heeft van de manier waarop dit voor het Nederlands gedaan kan worden, wordt haar methode in dit onderzoek ook voor het Nederlands gebruikt. Door voor elke lettergreep alleen aan te geven of deze zwaar, licht of superlicht is, wordt de informatie over het gewicht van een lettergreep expliciet gegeven. F´ery deelt de lettergrepen als volgt in: • zwaar: CVCC, CVVC • licht: CVC, CVV, CV • superlicht: C@ Hierin staat @ voor een schwa of een syllabische sonorant. Aangezien de methode die F´ery gebruikt niet alle mogelijke lettergrepen omvat die er zijn, worden er voor dit onderzoek een aantal regels toegevoegd, zodat het gewicht van elke lettergreep gegeven kan worden. Met behulp van Celex wordt bekeken wat alle mogelijke lettergrepen zijn, wanneer de vocalen uit de lettergrepen in de vijf categorie¨en die nodig zijn voor het bepalen van de major- en minorgeneraties, worden omgezet. Zo worden alle mogelijke weergaven van lettergrepen bestaande uit V,VV, C, vv en @ gevonden. In deze verdeling staat vv voor een diftong. De uiteindelijke verdeling, op basis van de verdeling van Caroline F´ery, komt er nu als volgt uit te zien: Zwaar • Een lettergreep die eindigt op CVCC, CVVC, CvvC, VCC, VVC, vvC of CC, gevolgd door 0 of meer C’s. Licht • Een lettergreep die eindigt op CVV, Cvv, CVC of CV. • De lettergrepen VV, vv, VC, V en C. Superlicht • Een lettergreep waar een schwa in staat. Uit F´ery’s onderzoek blijkt onder andere dat een zware lettergreep meestal beklemtoond is en dat een superlichte lettergreep dit nooit is. Verder gebruikt ook zij de positie van de lettergreep in het woord om klemtoon te bepalen. Ook Daelemans, Gilles en Durieux (1994b) geven de regel dat een lettergreep met een schwa erin nooit klemtoon kan krijgen.
16
3.3
Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels
Taalkundige eigenschappen automatisch bepalen
Door met behulp van een script de taalkundige eigenschappen van een lettergreep te bepalen, kunnen de regels automatisch worden toegepast. Het is bovendien voor TBL belangrijk dat taalkundige eigenschappen van woorden expliciet in de inputfile komen te staan. Op deze manier is het voor TBL gemakkelijker om handig en snel features van woorden te vinden die van belang zijn bij het bepalen van klemtoon. Zo worden regels sneller gevonden en zijn er minder regels nodig om tot een goed trainresultaat te komen.
3.3.1
Data
Om eigenschappen van woorden automatisch te bepalen wordt de lexicale database Celex gebruikt. De inhoud van deze file ziet er als volgt uit: 30\aal\15\’al\[a:l]\[VVC] 31\aal\13\’al\[a:l]\[VVC] 32\aalbes\18\’al-bEs\[a:l][bEs]\[VVC][CVC] 33\aalbessen\18\’al-bE-s@\[a:l][bE[s]@]\[VVC][CV[C]V] . . . 40\Aalders\24\\\ 41\aalelger\25\’al-El-G@r\[a:l][El][G@r]\[VVC][VC][CVC] Het vierde veld van elke regel bevat de fonologische transcriptie van het woord. Ook wordt elk woord in dit veld in lettergrepen verdeeld. Dit is precies de informatie die nodig is om de verschillende eigenschappen automatisch te bepalen. Uit deze file is de kolom gefilterd waarin de informatie staat die nodig is. De file bestaat uit 381.292 woorden. Voor dit onderzoek zijn eigennamen, woorden met een spatie erin, woorden waarop twee keer klemtoon ligt en dubbele woorden uit deze file verwijderd. Er blijven nu 282.369 woorden over.
3.3.2
Verdeling train en test data
Om met behulp van TBL een goed programma te kunnen schrijven dat klemtoon bepaalt, is het nodig om met train en test data te werken. 80 procent van de woorden uit Celex die gebruikt worden, wordt train data. 10 procent van de woorden wordt gebruikt als test data. Deze data zal testa worden genoemd. De overige 10 procent wordt tevens gebruikt als test data, alleen worden deze woorden pas gebruikt wanneer het programma helemaal klaar is en er voor het laatst getest wordt. Er mogen met behulp van deze test data geen veranderingen meer worden aangebracht in het programma. Deze test data wordt testb genoemd.
3.4
Taalkundige eigenschappen in inputfile TBL
Om nu de eigenschappen van elk woord expliciet in de inputfile te krijgen wordt elk woord opgedeeld in lettergrepen. Dit wordt gedaan door op elke regel ´e´en
3.5.
Klemtoon bepalen m.b.v. taalkundige regels
17
lettergreep uit het woord te zetten. Na de laatste lettergreep van een woord volgt een lege regel die het woordeinde aangeeft. Na deze lege regel komt de eerste lettergreep van het volgende woord. Op deze manier wordt er per lettergreep naar een woord gekeken en kan er gezien worden op welke positie van het woord een lettergreep staat. De lettergrepen van een woord worden weergegeven in fonemen. Het veld waarin deze lettergrepen staan wordt vanaf nu ltrgr genoemd. Dit veld wordt aan de input van TBL toegevoegd om ook zeer gedetailleerde informatie uit een lettergreep te kunnen halen. Deze informatie gaat verloren wanneer de fonemen in categorie¨en ingedeeld worden. Om nu de expliciete informatie te geven die het systeem van Kager nodig heeft om hoofdklemtoon toe te kunnen kennen, worden alle fonemen opgedeeld in de vijf categorie¨en die hiervoor nodig zijn. Deze informatie komt achter de lettergreep te staan die in fonemen is weergegeven. Voor de woorden aagt, aagtappel en aagtappelen komt dit er als volgt uit te zien: axt VVCC axt VVCC A V p@l C@C axt VVCC A V p@ C@ l@ C@ Om de nu zeer algemene informatie toe te voegen die over een lettergreep alleen zegt of deze lettergreep zwaar, licht of superlicht is, wordt wederom een nieuw veld toegevoegd, genaamd ZL@. De voorlopige input komt er nu als volgt uit te zien: axt VVCC Z axt VVCC Z A V L p@l C@C @ axt VVCC Z A V L p@ C@ @ l@ C@ @ In dit veld wordt een zware lettergreep met een Z aangegeven, een lichte lettergreep met een L en een superlichte lettergreep met een @.
3.5
Klemtoon bepalen m.b.v. taalkundige regels
Achter de velden ltrgr, cv en ZL moet een veld komen te staan dat aangeeft of er volgens taalkundige regels klemtoon op deze lettergreep valt. In dit onderzoek
18
Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels
wordt aan de hand van twee mogelijke methodes automatisch bepaald op welke lettergreep van elk woord klemtoon komt. De twee methodes staan hieronder beschreven.
3.5.1
Major-minor methode
Om te bepalen of op een bepaalde lettergreep klemtoon ligt worden de eerder in dit hoofdstuk besproken major- en minorgeneralisaties van Kager (1989) toegepast. Wanneer een lettergreep volgens deze methode klemtoon krijgt, wordt er een ”1” in het veld achter het veld ZL gezet, wanneer dit niet het geval is, komt er een ”0” in dit veld. Dit nieuwe veld zal verder klemprob genoemd worden. Na het toevoegen van dit veld zal de voorlopige input er als volgt uit komen te zien: axt VVCC Z 1 axt VVCC Z 0 A V L 1 p@l C@C @ 0 axt VVCC Z 0 A V L 1 p@ C@ @ 0 l@ C@ @ 0 Wanneer alleen deze regels toegevoegd worden wordt slechts 26,0 procent van de woorden juist beklemtoond. Om dit resultaat te verbeteren wordt de regel die zowel Gillis, Daelemans en Durieux als F´ery voorstellen toegevoegd, die stelt dat een lettergreep met een schwa erin nooit klemtoon kan hebben. Na het toevoegen van deze regel wordt 35,0 procent van de woorden juist beklemtoond. Aangezien er nu nog veel woorden zijn die niet of dubbel beklemtoond zijn, worden er nog een aantal defaultregels toegevoegd om het resultaat te verbeteren. De eerste drie regels die gebruikt worden gaan uit van het principe dat klemtoon meestal op ´e´en van de drie laatste lettergrepen van een woord ligt, maar nooit op een lettergreep met een schwa erin. Door te stellen dat klemtoon nooit op een lettergreep valt die een schwa bevat, wordt wederom de regel gebruikt die F´ery en Daelemans geven. Ook wordt hierbij de regel die Kager geeft gebruikt die stelt dat klemtoon altijd op ´e´en van de drie laatste lettergrepen van een woord komt. Aangezien de woorden waarvan elk van de drie laatste lettergrepen een schwa bevat nu geen klemtoon krijgen, is een extra regel toegevoegd die stelt dat wanneer dit het geval is de eerste lettergreep die vooraf gaat aan deze drie lettergrepen die geen schwa bevat, klemtoon krijgt. De volgende regels worden toegevoegd: 1. Leg klemtoon op de antepenult (A), wanneer er geen klemtoon op het woord ligt en de antepenult geen schwa bevat. 2. Leg klemtoon op de penult (P), wanneer er geen klemtoon op het woord ligt en de penult geen schwa bevat. 3. Leg klemtoon op de finale lettergreep (F), wanneer er geen klemtoon op het woord ligt en de laatste lettergreep geen schwa bevat.
3.5.
Klemtoon bepalen m.b.v. taalkundige regels
19
4. Wanneer een woord zowel in de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep voor de antepenult indien deze lettergreep geen schwa bevat. 5. Wanneer een woord zowel in lettergreep voor de antepenult als de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep die twee lettergrepen voor de antepenult ligt. 6. Verwijder, wanneer een woord twee keer klemtoon heeft, de klemtoon die als tweede in het woord wordt gegeven. 7. E´enlettergrepige woorden krijgen altijd klemtoon. Na het toevoegen van deze regels hebben alle woorden ´e´enmaal klemtoon. De regels staan in bovenstaande volorde omdat ze zo het beste werken. Zowel wanneer de eerste drie regels van volgorde verwisseld worden, als wanneer in de zesde regel klemtoon op de tweede lettergreep komt te staan gaan de resultaten achteruit. Door het toevoegen van deze regels wordt nu 44,8 procent van de woorden juist beklemtoond. Door het verwisselen van volgorde van de eerste drie regels worden de in tabel 3.1 gegeven percentages woorden juist beklemtoond per mogelijke volgorde. volgorde APF AFP PAF PFA FAP FPA
testa % juist 44,8 44,2 44,7 44,7 44,0 44,0
Tabel 3.1: Klemtoon met extra defaultregels Zoals uit tabel 3.2 afgelezen kan worden, ligt het percentage juist beklemtoonde woorden, wanneer in plaats van de laatste klemtoon de eerste klemtoon verwijderd wordt, op 41,4 procent. Hierbij wordt de volgorde antepenulte, penulte, finale lettergreep aangehouden bij het bepalen van klemtoon. beklemtoond % juist
eerste klemtoon 44,8
laatste klemtoon 41,5
Tabel 3.2: Dubbele klemtoon verwijderd
3.5.2
Alternatieve methode
Aangezien de bovenstaande methode om voorlopige klemtoon toe te kennen zonder een aantal defaultregels toe te voegen een redelijk laag percentage woorden juist beklemtoont, heb ik nog een andere methode gebruikt om klemtoon toe te kennen aan een woord. Binnen deze methode wordt er slechts gebruikt
20
Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels
gemaakt van een aantal, door mijzelf gemaakte, defaultregels. Met deze regels wordt er, net als bij de regels die extra gebruikt worden bij de major- minor generalisaties, vanuit gegaan dat klemtoon meestal op ´e´en van de laatste drie lettergrepen ligt, behalve wanneer al deze lettergrepen een schwa bevatten. Dan komt de klemtoon op de eerst voorafgaande lettergreep die geen schwa bevat. Dit zijn de regels die nu gebruikt worden: 1. Leg klemtoon op de antepenult (A), wanneer er geen klemtoon op het woord ligt en de antepenult geen schwa bevat. 2. Leg klemtoon op de penult (P), wanneer er geen klemtoon op het woord ligt en de penult geen schwa bevat. 3. Leg klemtoon op de finale lettergreep (F), wanneer er geen klemtoon op het woord ligt en de laatste lettergreep geen schwa bevat. 4. Wanneer een woord zowel in de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep voor de antepenult indien deze lettergreep geen schwa bevat. 5. Wanneer een woord zowel in lettergreep voor de antepenult als de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep die twee lettergrepen voor de antepenult ligt. 6. E´enlettergrepige woorden krijgen altijd klemtoon. Deze alternatieve methode om klemtoon te bepalen geeft een stuk betere resultaten dan de methode waarin major- en minorgeneralisaties gebruikt worden. De volgorde antepenult, penult, finaal geeft hierbij, net zoals bij de eerdere methode het hoogste percentage juist beklemtoonde woorden. Alleen wordt met behulp van deze methode 57,0 procent van de woorden juist beklemtoond in plaats van 44,8 procent in bovenstaande methode. Alle resultaten staan weergegeven in tabel 3.3. volgorde APF AFP PAF PFA FAP FPA
testa % juist 57,0 44,2 44,7 44,7 44,0 44,0
Tabel 3.3: Klemtoon m.b.v. alternatieve methode
3.6
Conclusie klemtoon bepalen m.b.v. kundige regels
taal-
Wanneer de alternatieve methode wordt gebruikt om klemtoon op woorden te leggen, wordt het hoogste percentage juiste woorden gevonden. Dit percentage
3.7. Uiteindelijke input voor TBL
21
is 57,0 procent. Hierbij moet de klemtoon, wanneer deze lettergreep geen schwa bevat, op de antepenult gelegd worden, anders op de penult en indien deze lettergreep ook een schwa bevat, op de finale lettergreep. Wanneer de finale lettergreep ook een schwa bevat en er daardoor nog steeds geen klemtoon toegekend kan worden, wordt de klemtoon op de eerste lettergreep voor de antepenult, die geen schwa bevat, gelegd. De methode waarbij major- en minorgeneralistaties worden gebruikt werkt beduidend minder goed dan de alternatieve methode. Wanneer alleen de majoren minorgeneralisaties gebruikt worden bij het bepalen van klemtoon wordt slecht 26,0 procent van de woorden juist beklemtoond. Door de regel toe te voegen die stelt dat er nooit klemtoon op een lettergreep komt die een schwa bevat, komt het percentage juist beklemtoonde woorden op 35,0 procent te liggen. Na het toevoegen van een aantal defaultregels die ervoor zorgen dat elk woord ´e´enmaal beklemtoond is, ligt het percentage juist beklemtoonde woorden op 44,8 procent. Met deze methode wordt 12,2 procent van de woorden minder juist beklemtoond dan met behulp van de alternatieve methode. De methode van Kager waarin major- en minorgeneralistaties gebruikt worden om klemtoon te bepalen is geschreven voor een grote groep regelmatige woorden. Het loslaten van deze regels op een grote groep woorden uit Celex die niet alleen regelmatige woorden bevat, maar bijvoorbeeld ook onregelmatige woorden, samenstellingen en woorden van buitenlandse oorsprong, geeft dus geen goed resultaat. Doordat deze regels wel volgens taalkundige redenaties opgesteld zijn en voor een redelijk deel van de woorden uit het gebruikte corpus zouden moeten gelden, worden de resultaten van beide methodes gebruikt als input voor Machine Learning. Het zou kunnen zijn dat er om deze reden een aantal goed te gebruiken regels worden herkend bij het trainen. Aan de hand van de resultaten die gevonden worden wanneer Machine Learning toegepast is, zal besloten worden welke methode het best bruikbaar is.
3.7
Uiteindelijke input voor TBL
Door achter de al eerder in dit hoofdstuk gegenereerde velden voor de input voor TBL een veld te zetten waarin staat of een lettergreep ook daadwerkelijk klemtoon moet krijgen wordt de uiteindelijke input voor TBL verkregen. In dit veld wordt, net als in het veld dat hiervoor staat, met een ”1” aangegeven dat een lettergreeep beklemtoond is en met een ”0” aangegeven dat een lettergreep onbeklemtoond is. Om te weten welke lettergreep klemtoon krijgt wordt de klemtooninformatie uit Celex gebruikt, die voor elke lettergreep aangeeft of deze lettergreep beklemtoond is of niet. Om deze reden zal dit veld vanaf nu Celex worden genoemd. De uiteindelijke input voor TBL komt er nu als volgt uit te zien: axt VVCC Z 1 1 axt VVCC Z 0 1 A V L 1 0 p@l C@C @ 0 0
22
Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels
axt VVCC Z 0 1 A V L 1 0 p@ C@ @ 0 0 l@ C@ @ 0 0
Hoofdstuk 4
Automatisch klemtoon bepalen met TBL 4.1
Inleiding
Na het cre¨eren van inputdata voor TBL kan het Machine Learning proces bijna uitgevoerd worden. Wel is het nog belangrijk dat er bepaald kan worden welke informatie uit de input gebruikt wordt voor het trainen. Dit kan bepaald worden met behulp van templates. In het eerste deel van het hoofdstuk staat beschreven hoe deze templates werken. Vervolgens wordt in een aantal stappen, met behulp van verschillende templates, uitgezocht welke input het beste werkt. Er wordt gekeken of het verstandig is om zowel met het veld ltrgr als met de velden cv en ZL rekening te houden tijdens het trainen of dat het juist verstandig is om bijvoorbeeld alleen veld cv te gebruiken voor het trainen. Ook wordt bepaald hoeveel lettergrepen er het beste in de context kunnen staan. Er kan bijvoorbeeld naar twee lettergrepen voor en na het veld worden gekeken, maar ook naar drie lettergrepen. Vervolgens wordt gekeken of het nut heeft het veld ”klemprob”waarin de voorlopige klemtoon staat ook te gebruiken tijdens het trainen. De templates die uiteindelijk het beste resultaat geven bij het testen zullen gebruikt worden om ook de data uit testb te testen.
4.2 4.2.1
Benodigde files voor het runnen van TBL Templates
Templates worden gebruikt om aan te geven met welke informatie uit de inputfile er getraind en getest gaat worden. Met behulp van deze templates wordt aangegeven naar welke velden uit de input en naar welke hoeveelheid context er gekeken wordt. Wanneer er naar een grotere context van de lettergreep wordt gekeken, kan er meer rekening gehouden worden met de omgeving waarin de lettergreep staat. Wanneer er bijvoorbeeld een zware lettergreep voor de betreffende lettergreep staat en de lettergreep wordt gevolgd door een superlichte lettergreep, dan zal de verwachting voor wel of geen klemtoon waarschijnlijk anders liggen dan wanneer alle lettergrepen licht zijn. 23
24
Hoofdstuk 4. Automatisch klemtoon bepalen met TBL
Een voorbeeld van templates die voor dit onderzoek gebruikt zijn staat hieronder: ZL_0 => klemprob ZL_0 ZL_1 => klemprob ZL_0 ZL_1 ZL_2 => klemprob ZL_-1 ZL_0 => klemprob ZL_-1 ZL_0 ZL_1 => klemprob ZL_-1 ZL_0 ZL_1 ZL_2 => klemprob ZL_-2 ZL_-1 ZL_0 => klemprob ZL_-2 ZL_-1 ZL_0 ZL_1 => klemprob ZL_-2 ZL_-1 ZL_0 ZL_1 ZL_2 => klemprob cv_0 => klemprob cv_0 cv_1 => klemprob cv_0 cv_1 cv_2 => klemprob cv_-1 cv_0 => klemprob cv_-1 cv_0 cv_1 => klemprob cv_-1 cv_0 cv_1 cv_2 => klemprob cv_-2 cv_-1 cv_0 => klemprob cv_-2 cv_-1 cv_0 cv_1 => klemprob cv_-2 cv_-1 cv_0 cv_1 @_2 => klemprob Met deze templates wordt er naar de velden ZL en cv gekeken. In ZL 0 geeft ZL aan dat er naar het veld ZL wordt gekeken. De 0 geeft aan dat er naar de lettergreep gekeken moet worden waar het programma op dat moment is. Wanneer de template ”ZL -1 ZL 0 ZL 1 → klemprob” gegeven wordt betekent dit dat er voor de betreffende lettergreep naar het veld ZL gekeken moet worden, maar dat ook voor de lettergreep die voor deze lettergreep komt naar het veld ZL gekeken moet worden. Dit wordt aangegeven met ZL -1. ZL 1 geeft hier aan dat er ook voor de lettergreep die na de betreffende lettergreep komt naar het veld ZL gekeken moet worden. Het veld klemprob, dat achter de pijl staat, geeft het veld aan waarin veranderingen moeten plaatsvinden. Met behulp van de informatie uit de velden cv en ZL moeten regels gemaakt worden die de waarden in klemprob verbeteren. Voor dit onderzoek moet achter de juiste lettergrepen wel of geen klemtoon komen. In het veld klemprob staat aangegeven of een lettergreep volgens de in het vorige hoofdstuk beschreven major-minor of alternatieve methode klemtoon krijgt. Met behulp van templates worden nu regels gevonden die verbeteringen aanbrengen in klemprob, zodat een hoger percentage van de woorden juist beklemtoond wordt.
4.2.2
Testrules
De regels die met behulp van de templates gevonden worden, worden naar een file weggeschreven. De regels komen als volgt in de file te staan: GOOD:2566 BAD:795 SCORE:1771 RULE: ZL_-2=L ZL_-1=L ZL_0=Z ZL_1=@ => klemprob=1 GOOD:2044 BAD:397 SCORE:1647 RULE:
4.3. Trainen en testen met TBL
25
cv_0=VCC => klemprob=0 GOOD:1582 BAD:188 SCORE:1394 RULE: ZL_-2=@ ZL_-1=@ ZL_0=L => klemprob=0 GOOD:1564 BAD:349 SCORE:1215 RULE: cv_-1=CVV cv_0=CVVCC => klemprob=1 GOOD:1418 BAD:255 SCORE:1163 RULE: ZL_-2=ZZZ ZL_-1=@ ZL_0=Z => klemprob=1 De SCORE van een regel is erg belangrijk. SCORE = GOOD - BAD. Het geeft aan hoeveel extra woorden juist beklemtoond zijn door het toevoegen van deze regel. Achter RULE staat de regel gegeven die toegevoegd is. De regel ”cv -1=CVV cv 0=CVVCC → klemprob=1” geeft aan dat, wanneer de betreffende lettergreep uit CVVCC bestaat en de lettergreep ervoor uit CVV, de betreffende lettergreep beklemtoond wordt. Deze regel geeft geen informatie over waar in het woord deze lettergreep moet staan. Dit gebeurt wel bij de regel ”ZL -2=ZZZ ZL -1=@ ZL 0=Z → klemprob=1”. Hierin geeft ZZZ een lege regel aan. Aangezien er tussen de laatste lettergreep van een woord en de eerste lettergreep van het volgende woord altijd een lege regel staat, is nu bekend dat de ZL -1 de eerste lettergreep van een woord moet zijn en ZL 0 de tweede.
4.3
Trainen en testen met TBL
De inputfile voor TBL bestaat uit vijf velden. Het laatste veld geeft aan waar de klemtoon daadwerkelijk ligt. De andere vier velden zeggen allemaal iets over de betreffende lettergreep en kunnen gebruikt worden om te voorspellen of op die lettergreep klemtoon ligt. De input ziet er als volgt uit: axt VVCC Z 1 1 axt VVCC Z 0 1 A V L 1 0 p@l C@C @ 0 0 axt VVCC Z 0 1 A V L 1 0 p@ C@ @ 0 0 l@ C@ @ 0 0
4.3.1
Velden ltrgr, cv en ZL
Eerst wordt onderzocht welke features van een lettergreep het meest effectief zijn voor TBL. De features die hiervoor gebruikt worden staan in de velden ltrgr, cv en ZL. In het veld ltrgr staan de fonemen waaruit de lettergreep bestaat. In dit veld staan 11606 mogelijke waarden voor een lettergreep. Er zullen dus erg veel regels nodig zijn om voor al deze mogelijke lettergrepen na te gaan wanneer zij beklemtoond zijn. Ook elk veld uit de context dat bekeken wordt heeft weer 11606 mogelijke waarden. Het is dus erg ineffici¨ent om alleen met behulp van deze informatie klemtoon te bepalen.
26
Hoofdstuk 4. Automatisch klemtoon bepalen met TBL
Veld cv abstraheert van de precieze fonemen, maar geeft nog wel de lettergreepstructuur weer. Voor dit veld zijn er 80 mogelijke waarden. De informatie die uit dit veld gehaald kan worden staat impliciet ook in het veld ltrgr gegeven, maar door deze explicietere weergave is het handiger voor TBL om regels te vinden. Bovendien kunnen er op deze manier algemenere regels gevonden worden die gebruik maken van bepaalde eigenschappen van een woord of lettergreep. Veld ZL abstraheert nog verder naar een abstracte classificatie van lettergrepen. In dit veld staat alleen nog weergegeven of een lettergreep zwaar, licht of superlicht is. Dit veld heeft dus drie mogelijke waarden. De informatie in dit veld is dus zeer abstract. Het voordeel hiervan is dat de regels die gevonden worden heel algemeen zijn en daardoor voor veel woorden gelden. Het nadeel is dat er naar weinig eigenschappen van een lettergreep gekeken kan worden en er daardoor ook een hoop informatie wegvalt. Taalkundige informatie uit elk veld apart getest Eerst zijn de velden ltrgr, cv en ZL apart getest. Dit is zowel voor de input die tot stand is gekomen met behulp van de major- en minorgeneralisaties als voor de alternatieve input gedaan. Er wordt een context gebruikt van twee lettergrepen. De betreffende lettergreep, de twee lettergrepen die voor de betreffende lettergreep staan en de twee lettergrepen die na de betreffende lettergreep komen. Dit wordt context=2 genoemd. Het hoeft niet zo te zijn dat deze hoeveelheid context de beste resultaten oplevert. Er is voor deze grootte van context gekozen omdat er waarschijnlijk best veel informatie uit te halen valt, en wanneer er met meer context zou worden getraind het trainen, wanneer er meerdere velden samen bekeken gaan worden, wel erg lang kan gaan duren. Deze resultaten geven bovendien ook niet het eindresultaat. Later zal worden onderzocht wat de ideale hoeveelheid context is om mee te trainen. Nadat er voor deze velden is getraind, zijn de regels die hierbij gegenereerd zijn toegepast op de data uit testa. De resultaten in tabel 4.1 geven aan hoeveel procent van de woorden juist beklemtoond is. Een woord is alleen juist beklemtoond als er maar ´e´en lettergreep beklemtoond is en deze lettergreep de lettergreep is die ook daadwerkelijk klemtoon moet krijgen. In onderstaande tabel staan de letters ”mm” voor de methode met major- en minorgeneralisaties. ”Alt” staat voor de alternatieve methode. In de kolommen ”% juist” staan de percentages juist beklemtoonde woorden weergegeven. In de kolommen ”regels” staat aangegeven hoeveel regels er nodig zijn om tot de bijbehorende percentages juist beklemtoonde woorden te komen. veld veld ltrgr veld cv veld ZL
mm % juist 76,6 75,1 68,7
mm regels 13109 3171 55
alt % juist 76,7 75,6 67,5
alt regels 11147 3124 42
Tabel 4.1: Velden apart
Doordat het veld ltrgr zoveel mogelijke waarden kan hebben, worden er inderdaad ook erg veel regels gebruikt om te bepalen welke lettergrepen beklem-
4.3. Trainen en testen met TBL
27
toond moeten worden. Wel wordt met behulp van deze regels 76,6 a 76,7 van de woorden juist beklemtoond. Ondanks dat veld cv veel minder waarden kan hebben dan veld ltrgr wordt maar 1,5 tot 1,1 procent van de woorden minder, juist beklemtoond. Wel zijn er veel minder regels nodig om tot dit resultaat te komen. Bij de major- minor methode worden er 3171 regels gebruikt in plaats van de 13109 regels die nodig zijn om tot de resultaten van veld ltrgr te komen. Voor de alternatieve methode worden er 3124 regels gebruikt om tot het resultaat van veld cv te komen en worden er 11147 regels gebruikt om tot de resultaten van veld ltrgr te komen. Veld ZL, dat maar drie mogelijke waarden per lettergreep kan krijgen, scoort een stuk lager dan de andere twee velden. Bij de major- minor methode wordt slechts 68,7 procent van de woorden juist beklemtoond en bij de alternatieve methode slechts 67,5 procent. Wel worden hier maar respectievelijk 55 en 42 regels voor gebruikt. Wanneer er bij het trainen naar meerdere velden wordt gekeken, zal dit veld om deze reden wel nuttig zijn om het aantal regels dat nodig is om tot het hoogste percentage juist beklemtoonde woorden te komen erg te verminderen. Om tot de percentages juist beklemtoonde woorden te komen worden bij de alternatieve methode minder regels gebruikt dan bij de major-minor methode. In twee van de drie gevallen ligt het percentage juist beklemtoonde woorden dat met behulp van de alternatieve methode wordt gevonden net wat hoger dan bij de major-minor methode. Hier wordt echter nu nog niet zoveel rekening mee gehouden voor het verdere onderzoek. Wanneer uiteindelijk de beste templates worden gevonden om mee te trainen, zal op basis van het percentage juist beklemtoonde woorden en het aantal regels dat gebruikt wordt bepaald worden welk van beide methodes het beste gebruikt kan worden. Alle taalkundige informatie samen getest Om nu te zien hoe het resultaat is wanneer de features uit alle velden meegenomen worden bij het trainen, wordt er getest met templates uit de velden ltrgr, cv en ZL in ´e´en file. Er is voor gekozen om in ´e´en template slechts naar ´e´en veld te kijken. Er wordt dus niet naar een template als ”ltrgr -1 ZL 0 cv 1 → klemprob” gekeken. Wanneer er slechts naar ´e´en veld per template wordt gekeken, wordt ook al naar alle informatie uit de velden ltrgr, cv, ZL en klemprob gekeken. Wanneer er nu informatie uit verschillende velden in een template staat kunnen er wel meer verschillende regels gevonden worden, en waarschijnlijk zijn er dan ook wel minder regels nodig om tot het resultaat te komen, maar er wordt geen nieuwe informatie gevonden over een lettergreep. Hierdoor zal het percentage juist beklemtoonde woorden waarschijnlijk niet veel hoger worden. Een andere redenen voor het niet testen van informatie uit verschillende velden in ´e´en template is dat dit in combinatie met de templates die gebruik maken van ´e´en veld, al snel meer dan 1 Gb geheugen kost terwijl op een machine met 1 Gb geheugen gewerkt wordt. De file met templates komt er nu als volgt uit te zien:
ZL_0 => klemprob ZL_0 ZL_1 => klemprob
28
Hoofdstuk 4. Automatisch klemtoon bepalen met TBL
ZL_0 ZL_1 ZL_2 => klemprob ZL_-1 ZL_0 => klemprob ZL_-1 ZL_0 ZL_1 => klemprob ZL_-1 ZL_0 ZL_1 ZL_2 => klemprob ZL_-2 ZL_-1 ZL_0 => klemprob ZL_-2 ZL_-1 ZL_0 ZL_1 => klemprob ZL_-2 ZL_-1 ZL_0 ZL_1 ZL_2 => klemprob cv_0 => klemprob cv_0 cv_1 => klemprob cv_0 cv_1 cv_2 => klemprob cv_-1 cv_0 => klemprob cv_-1 cv_0 cv_1 => klemprob cv_-1 cv_0 cv_1 cv_2 => klemprob cv_-2 cv_-1 cv_0 => klemprob cv_-2 cv_-1 cv_0 cv_1 => klemprob cv_-2 cv_-1 cv_0 cv_1 @_2 => klemprob ltrgr_0 => klemprob ltrgr_0 ltrgr_1 => klemprob ltrgr_0 ltrgr_1 ltrgr_2 => klemprob ltrgr_-1 ltrgr_0 => klemprob ltrgr_-1 ltrgr_0 ltrgr_1 => klemprob ltrgr_-1 ltrgr_0 ltrgr_1 ltrgr_2 => klemprob ltrgr_-2 ltrgr_-1 ltrgr_0 => klemprob ltrgr_-2 ltrgr_-1 ltrgr_0 ltrgr_1 => klemprob ltrgr_-2 ltrgr_-1 ltrgr_0 ltrgr_1 @_2 => klemprob
Aangezien veld ltrgr door zijn vele mogelijke waarden ervoor zorgt dat er veel extra regels komen om klemtoon mee te bepalen, worden ook alleen veld cv en ZL getest, zonder ltrgr. Er wordt nog steeds naar context=2 gekeken. De resultaten staan in tabel 4.2. veld ZL en cv ltrgr, cv en ZL
mm % juist 75,8 84,9
mm regels 2116 6860
alt % juist 76,5 84,7
alt regels 2191 6879
Tabel 4.2: Velden gecombineerd
Uit deze resultaten blijkt dat het belangrijk is dat veld ltrgr deel uitmaakt van de train data. Wel komen er een stuk meer regels bij, maar de testresultaten gaan er, wanneer alle velden getraind worden in plaats van alleen de velden cv en ZL, ook wel een stuk op vooruit. Het percentage ligt bij de methode met major- en minorgeneralisaties dan 9,1 procent hoger en bij de alternatieve methode 8,2 procent. Aangezien het, doordat de resultaten er zo op vooruit gaan, belangrijker is dat er een hoger percentage juist beklemtoonde woorden gehaald wordt dan dat er minder regels gebruikt worden wordt ervoor gekozen om met de features uit alle velden samen verder te trainen.
29
4.3. Trainen en testen met TBL
4.3.2
Hoeveelheid context voor ltrgr, cv en ZL
Tot op dit moment is er alleen gekeken hoe het trainen werkt wanneer er naar context=2 wordt gekeken. Het trainresultaat kan wellicht verbeterd worden door naar een andere hoeveelheid context te kijken. Het is niet waarschijnlijk dat er wanneer er naar context=1 gekeken wordt verbeteringen zullen optreden, omdat er dan met minder informatie rekening kan worden gehouden dan wanneer er naar meer context gekeken wordt. Toch wordt er met context=1 getest, zodat er een beeld verkregen kan worden van de verschillen in de resultaten bij het gebruik van verschillende hoeveelheden context. Ook worden de trainresultaten bekeken van context=3. De resultaten hiervan staan in tabel 4.3 context context=1 context=2 context=3
mm % juist 78,7 84,9 85,3
mm regels 7095 6860 6831
alt % juist 78,3 84,7 85,1
alt regels 7110 6879 6909
Tabel 4.3: Context voor velden ltrgr, cv en ZL
Het trainen met context=1 werkt inderdaad het minst goed. Er worden hiervoor de meeste regels gebruikt en het percentage juist beklemtoonde woorden ligt beduidend lager dan bij de andere twee manieren van trainen. Het trainen met context=3 geeft de beste resultaten. Het percentage juist beklemtoonde woorden ligt 0,4 procent hoger dan wanneer naar context=2 wordt gekeken. Bij de major-minor methode ligt het aantal regels 29 regels lager wanneer er naar context=3 gekeken wordt, bij de alternatieve methode ligt het aantal regels dan juist 30 regels hoger. Aangezien bij een van beide methodes een lager aantal regels wordt gebruikt en het percentage juist beklemtoonde woorden wat hoger ligt voor beide methodes, wordt toch context=3 gebruikt in de rest van het onderzoek. Er is niet getest voor context=4. Om dit te testen is meer dan 1 Gb geheugen nodig, terwijl op een machine gewerkt wordt met 1 Gb geheugen. Aangezien het verschil tussen de resultaten van het trainen context=2 en context=3 maar 0,3 tot 0,4 procent is, is het ook niet erg waarschijnlijk dat de resultaten er nog erg veel op vooruit zouden gaan wanneer er naar context=4 gekeken zou worden.
4.3.3
Informatie eerder automatisch bepaalde klemtoon toevoegen
Tot nu toe is er nog niets gedaan met het veld klemprob, waarin aangegeven staat welke lettergrepen volgens de major-minor en de alternatieve methode klemtoon krijgen. Toch kan dit veld belangrijke informatie geven tijdens het trainen. De belangrijkste informatie die dit veld kan toevoegen is waarschijnlijk dat elk woord maar op ´e´en lettergreep hoofdklemtoon kan hebben. Er is tot nu toe nog niet met behulp van deze kennis getraind en er wordt nu aan een redelijk aantal woorden tweemaal hoofdklemtoon toegekend of geen enkele hoofdklemtoon toegekend. Bij woorden die geen klemtoon hebben gekregen en woorden die tweemaal klemtoon hebben gekregen waarvan de ene klemtoon juist is, is er een goede kans dat deze woorden juist beklemtoond worden wanneer veld
30
Hoofdstuk 4. Automatisch klemtoon bepalen met TBL
klemprob ook getraind wordt. In tabel 4.4 staat voor deze woorden aangegeven voor hoeveel procent van het totale aantal woorden dit het geval is. aantal keer klemtoon 2 keer klemtoon, 1 juist 0 keer klemtoon
% mm methode 4,0 6,7
% alt methode 4,2 6,7
Tabel 4.4: Verkeerd aantal klemtonen m.b.v. velden ltrgr, cv en ZL Bij het trainen van veld klemprob moet naar een redelijk hoog aantal lettergrepen worden gekeken, omdat het bij het trainen moet opvallen dat er maar ´e´enmaal klemtoon mag worden toegewezen aan een woord. Alle lettergrepen van een woord moeten dus tegelijkertijd bekeken kunnen worden. Er is getraind met context=4 en context=5. De resultaten hiervan staan in tabel 4.5. veld context=4 context=5
mm % juist 88,6 88,7
mm regels 6399 6443
alt % juist 89,2 88,7
alt regels 6358 6461
Tabel 4.5: Veld klemprob toegevoegd
Het trainen met context=4 geeft het hoogste percentage juist beklemtoonde woorden voor de alternatieve methode. Voor de major-minor methode geeft context=5 het hoogste percentage juist beklemtoonde woorden. Wanneer er naar context=4 gekeken wordt zijn er overigens minder regels nodig dan wanneer er naar context=5 gekeken wordt. Aangezien het percentage juist beklemtoonde woorden voor de major-minor methode maar met 0,1 procent toeneemt bij context=5 en verder context=4 betere resultaten levert, is ervoor gekozen om voor dit onderzoek verder te werken met context=4. aantal keer klemtoon 2 keer klemtoon, 1 juist 0 keer klemtoon
% mm methode 0,18 4,9
% alt methode 0,17 4,1
Tabel 4.6: Verkeerd aantal klemtonen m.b.v. velden ltrgr, cv, ZL en klemprob
Zoals uit tabel 4.6 afgelezen kan worden is het aantal woorden dat tweemaal klemtoon heeft gekregen, waarvan ´e´en juiste klemtoon, enorm gedaald. Bij de major-minor methode zijn er nog slechts 51 van de 28237 woorden waarvoor dit het geval is en bij de alternatieve methode 48 van de 28237 woorden. Omdat dit nog bij zo weinig woorden het geval is, is het het niet waard om hiervoor na het trainen en testen met TBL nog extra regels toe te voegen. Het aantal woorden dat niet beklemtoond wordt is bij de major-minor methode gedaald met 1,8 procent en bij de alternatieve methode met 2,6 procent. Toch wordt nog altijd respectievelijk 4,9 procent en 4,1 procent van de woorden niet beklemtoond. Deze woorden zouden na het trainen nog klemtoon toegekend kunnen krijgen wanneer er met behulp van een programma met zelf geschreven regels erin alsnog klemtoon toegekend wordt aan deze woorden.
31
4.4. Conclusie trainen en testen met TBL
4.3.4
Resultaat TBL testen op data uit testb
Aangezien nu bekend is met welke templates verder gewerkt zal worden, kan testb gebruikt worden om te testen of de regels ook voor deze data goed werken. Met data uit testb is nog niet eerder iets gedaan, dus er kunnen ook geen conclusies zijn getrokken uit eerdere resultaten die specifiek gelden voor deze data. Er wordt gekeken naar de velden ltrgr, cv en ZL met context=3 en naar veld klemprob met context=4. De resultaten staan gegeven in tabel 4.7. testb ltrgr, cv, ZL en klemprob
mm % juist 89,0
alt % juist 89,2
Tabel 4.7: Resultaten testb Het blijkt dat de regels, die gecre¨eerd zijn met behulp van de templates die voor de data uit testa het beste werken, met behulp van de data uit testb zelfs nog iets hogere percentages juist beklemtoonde woorden geven.
4.4
Conclusie trainen en testen met TBL
Uit het trainen en testen van de velden ltrgr, cv en ZL apart blijkt dat hoe meer mogelijke waarden een veld kan bevatten hoe hoger het percentage juist beklemtoonde woorden is. Ook blijkt dat wanneer er meer mogelijke waarden zijn voor een veld, het aantal regels dat gegenereerd wordt, snel oploopt. Veld ltrgr, waarin de lettergrepen staan weergegeven in fonemen, bevat de minst expliciete informatie. Het percentage juist beklemtoonde woorden dat met behulp van dit veld gevonden wordt is voor dit veld het hoogst. Namelijk 76,6 procent voor de major-minor methode en 76,7 procent voor de alternatieve methode. Wel zijn er respectievelijk 13109 en 11147 regels nodig om tot deze resultaten te komen. Met behulp van het veld cv wordt er ook nog een redelijk hoog percentage juist beklemtoonde woorden gevonden. Wel zijn hiervoor een stuk minder regels nodig. Het percentage juist beklemtoonde woorden dat met behulp van de informatie uit veld ZL gevonden wordt ligt een stuk lager, wel wordt er met weinig regels toch veel vooruitgang geboekt, doordat de informatie in dit veld zo geabstraheerd is dat wanneer er een regel gevonden wordt, deze voor veel woorden zal gelden. Wanneer de regels gecombineerd worden, werkt dit het beste wanneer zowel veld ltrgr als cv als ZL bekeken wordt. Door deze drie velden te combineren wordt optimaal gebruik gemaakt van de taalkundige informatie die een lettergreep bevat. Met behulp van het zeer geabstraheerde veld ZL worden op een handige en snelle manier zeer algemene regels gevonden die voor veel lettergrepen gelden. Met behulp van veld cv wordt de iets minder algemene informatie, die nog altijd wel geabstraheerd is van de oorspronkelijke informatie, gevonden. Hiermee worden dus de iets minder voorkomende regels gevonden die nog altijd vaak voor redelijk wat lettergrepen gelden. Met de informatie uit veld ltrgr kan de meest gedetailleerde informatie worden gehaald, die vaak voor minder lettergrepen geldt, maar toch nog wel belangrijke verbeteringen in de resultaten aanbrengt. Op deze manier wordt met behulp van de major-minor methode 84,9 procent van de woorden juist beklemtoond en met behulp van de alternatieve
32
Hoofdstuk 4. Automatisch klemtoon bepalen met TBL
methode 84,7 procent. Hier zijn respectievelijk 6860 en 6879 regels voor nodig. Om de ideale hoeveelheid context te vinden, is er getest met context=1, context=2 en context=3. Het percentage juist beklemtoonde woorden is het hoogst wanneer er naar context=3 wordt gekeken. Voor de major-minor methode ligt het percentage dan op 85,3 procent en voor de alternatieve methode ligt dit op 85,1 procent. Ook het aantal regels dat gebruikt wordt ligt bij dit aantal lettergrepen voor de major-minor methode het laagst. Er worden 29 regels minder gebruikt. Voor de alternatieve methode worden er het minste regels gebruikt wanneer er naar context=2 gekeken wordt. Hiervoor worden 30 regels minder gebruikt dan wanneer er naar context=3 gekeken wordt. De rest van het onderzoek wordt er naar context=3 gekeken, omdat dit in de meeste opzichten het beste werkt. Door het toevoegen van veld klemprob, stijgt het aantal juist beklemtoonde woorden voor de major-minor methode 3,3 procent en voor de alternatieve methode 4,1 procent. De percentages juist beklemtoonde woorden zitten nu respectievelijk op 88,6 en 89,2 procent. Deze resultaten zijn bereikt door voor dit veld naar context=4 te kijken. Het aantal regels is gedaald door de toevoeging van veld 5. Er worden voor de major-minor methode 6399 regels gebruikt en voor de alternatieve methode 6358 regels. Het percentage woorden dat tweemaal beklemtoond was waarvan, ´e´enmaal juist, daalt enorm. Van 4,0 en 4,2 procent van de woorden tot 0,18 en 0,17 procent van de woorden. Het percentage onbeklemtoonde woorden daalt van 6,7 procent tot 4,9 procent voor de major-minor methode. Voor de alternatieve methode daalt dit percentage van 6,7 procent naar 4,1 procent. Door met een aantal zelf geschreven regels alsnog klemtoon aan die woorden toe te voegen, zou waarschijnlijk een deel van deze woorden juist beklemtoond kunnen worden. De testresultaten van testb zijn iets beter dan die van testa. Het percentage juist beklemtoonde woorden ligt voor de major minor methode op 89,0 procent en voor de alternatieve methode op 89,2 procent. Door tijdgebrek is er niet in tienvoud getest om te onderzoeken of dit een significant verschil is. In het volgende hoofdstuk zal bekeken worden of het toevoegen van een extra programma dat de onbeklemtoonde woorden uit testa beklemtoont, het percentage juist beklemtoonde woorden hoger kan maken. Wanneer dit een goed resultaat oplevert voor de data uit testa, zal dit ook met behulp van testb getest worden. Met behulp van deze resultaten zal bepaald worden met welke methode er verder gewerkt zal worden
Hoofdstuk 5
Onbeklemtoonde woorden beklemtonen m.b.v. defaultregels 5.1
Inleiding
TBL kent niet aan elk woord klemtoon toe, doordat TBL niet leert dat elk woord precies ´e´enmaal hoofdklemtoon krijgt. In het vorige hoofdstuk bleek dat na het trainen en testen met TBL nog 4,9 procent van alle woorden uit de major-minor methode en 4,1 procent van de woorden uit de alternatieve methode onbeklemtoond was. Het is voor TBL ook erg moeilijk om onbeklemtoonde worden alsnog te beklemtonen, doordat het enige dat TBL weet is dat er ergens in een rij onbeklemtoonde lettergrepen een lettergreep beklemtoond moet worden. Het is voor TBL moeilijk regels te maken die bepalen op welk van deze lettergrepen de klemtoon zal liggen. Om deze reden wordt in dit hoofdstuk handmatig klemtoon aan deze woorden toegekend met behulp van een aantal defaultregels. Eerst zullen de defaultregels genoemd worden, vervolgens zal het percentage juist beklemtoonde woorden met toevoeging van deze defaultregels berekend worden. Aan de hand het percentage juist beklemtoonde woorden dat de major-minor methode en de alternatieve methode halen wanneer de onbeklemtoonde woorden alsnog beklemtoond worden, wordt bepaald of in de input voor TBL beter de major- en minorgeneralisaties gebruikt kunnen worden of de defaultregels zoals deze in de alternatieve methode beschreven staan.
5.2
Defaultregels toepassen
De regels die hiervoor gebruikt zijn, zijn dezelfde regels als de regels die gebruikt zijn om met behulp van de alternatieve methode klemtoon te bepalen voor de input van TBL. Dit zijn de volgende regels: 1. Leg klemtoon op de penult (P), wanneer er geen klemtoon op het woord ligt en de penult geen schwa bevat. 33
34 Hoofdstuk 5. Onbeklemtoonde woorden beklemtonen m.b.v. defaultregels 2. Leg klemtoon op de antepenult (A), wanneer er geen klemtoon op het woord ligt en de antepenult geen schwa bevat. 3. Leg klemtoon op de finale lettergreep (F), wanneer er geen klemtoon op het woord ligt en de laatste lettergreep geen schwa bevat. 4. Wanneer een woord zowel in de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep voor de antepenult indien deze lettergreep geen schwa bevat. 5. Wanneer een woord zowel in lettergreep voor de antepenult als de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep die twee lettergrepen voor de antepenult ligt. 6. E´enlettergrepige woorden krijgen altijd klemtoon. Wel zijn de eerste, de tweede en de derde regel van volgorde verwisseld ten opzichte van volgorde waarin ze de vorige keer toegepast werden. Uit het testen van bovenstaande regels waarbij de volgorde van de regels 1, 2 en 3 verwisseld werd, bleek dat deze volgorde voor de alternatieve methode de beste resultaten opleverde. Om tot de beste resultaten voorde major-minor methode te komen, moeten de tweede en de derde regel worden omgewisseld. Er is getest met de data uit testa. In de tabellen 5.1 en 5.2 staat in de tweede kolom het aantal woorden gegeven dat onbeklemtoond was en nu juiste beklemtoond wordt door toevoeging van de defaultregels en in de derde kolom staat het percentage woorden van het aantal eerder onbeklemtoonde woorden gegeven dat nu juist beklemtoond wordt. volgorde APF AFP PAF PFA FAP FPA
mm + TBL aantal wo 471 465 538 553 450 461
mm + TBL % juist 33,8 33,3 38,6 39,6 32,3 30,9
Tabel 5.1: Resultaten toevoeging Defaultregels aan major- minormethode
volgorde APF AFP PAF PFA FAP FPA
alt + TBL aantal wo 390 384 414 401 358 366
alt + TBL % juist 33,7 33,2 35,8 34,7 31,0 31,7
Tabel 5.2: Resultaten toevoeging Defaultregels aan alternatieve methode
35
5.3. Voorkeur voor alternatieve methode
Door het aantal woorden dat onbeklemtoond was en nu alsnog beklemtoond is met behulp van de defaultregels op te tellen bij het aantal woorden dat door TBL al juist beklemtoond was, wordt het totale aantal woorden gevonden dat nu juist beklemtoond is. De resultaten hiervan voor testa en testb staan gegeven in de tabellen 5.3 en 5.4. testa wo juist TBL wo extra juist totaal wo juist
mm aantal 25016 553 25569
mm % 88,6 2,0 90,6
alt aantal 25182 414 25596
alt % 89,2 1,5 90,6
Tabel 5.3: Percentage juist beklemtoonde woorden testa
testb wo juist TBL wo extra juist totaal wo juist
mm aantal 25130 492 25622
mm % 89,0 1,7 90,7
alt aantal wo 25304 404 25708
alt % 89,20 1,4 91,0
Tabel 5.4: Percentage juist beklemtoonde woorden testb
Door de toevoeging van extra defaultregels wordt bij de major-minor methode 1,7 procent van het totale aantal woorden extra juist beklemtoond, bij de alternatieve methode is dit 1,4 procent. De alternatieve methode scoort 86 woorden hoger dan de major-minor methode. Voor de major-minor methode wordt nu 90,7 procent van de woorden juist beklemtoond, voor de alternatieve methode wordt 91,0 procent van de woorden juist beklemtoond.
5.3
Voorkeur voor alternatieve methode
Doordat de alternatieve methode nog steeds een hoger percentage juist beklemtoonde worden oplevert dan de major-minor methode ligt het voor de hand met de alternatieve inputfile voor TBL verder te werken. In het vorige hoofdstuk bleek ook al dat de alternatieve methode minder regels nodig heeft om tot deze percentages te komen. Aangezien de input van de alternatieve methode simpeler is, de alternatieve methode het hoogste percentage juist beklemtoonde worden geeft en er voor de alternatieve methode minder regels nodig zijn om tot het percentage juist beklemtoonde woorden te komen, is ervoor gekozen met deze methode verder te gaan. Ik heb niet genoeg tijd gehad om dit in tienvoud te trainen, daarom kan ik niet te zeggen of de verschillen tussen beide methodes significant zijn.
36 Hoofdstuk 5. Onbeklemtoonde woorden beklemtonen m.b.v. defaultregels
Hoofdstuk 6
Foutenanalyse 6.1
Inleiding
Om een beter beeld te krijgen van de woorden uit de test data en hoe deze beklemtoond worden, wordt in dit hoofdstuk een foutenanalyse gegeven voor de resultaten uit hoofdstuk 4. Het beklemtonen van onbeklemtoonde woorden, zoals in hoofdstuk 5 beschreven staat, is voor deze woorden niet gedaan. Er zal eerst gekeken worden hoe vaak woorden met een bepaald aantal lettergrepen juist beklemtoond worden. Zo kan het zijn dat woorden bestaande uit twee lettergrepen veel vaker juist beklemtoond worden dan woorden bestaande uit bijvoorbeeld vijf lettergrepen. Vervolgens wordt er naar een aantal eigenschappen van alle woorden, juiste woorden en onjuiste woorden uit de test data gekeken. Er wordt voor deze categorie¨en woorden bekeken op welke lettergrepen hoe vaak klemtoon ligt en er wordt gekeken uit hoeveel lettergrepen de woorden uit deze categorie¨en bestaan. Door hiernaar te kijken kunnen er wellicht verschillen gevonden worden tussen deze categorie¨en. Aangezien er verschillende soorten onjuist beklemtoonde woorden zijn, wordt er onderscheid gemaakt tussen dubbel beklemtoonde woorden, niet-beklemtoonde woorden en woorden die wel ´e´enmaal klemtoon hebben gekregen maar op de verkeerde lettergreep. Voor deze woorden wordt gekeken uit hoeveel lettergrepen deze woorden bestaan en of er overige kenmerken te vinden zijn voor deze groepen woorden waaruit duidelijk kan worden waarom juist deze woorden niet juist beklemtoond worden. Deze analyses worden allemaal uitgevoerd met de data zoals deze na het testen met TBL is.
6.2
Percentage juist beklemtoonde woorden per aantal lettergrepen
Op basis van de resultaten uit TBL wordt per aantal lettergrepen waar een woord uit bestaat, gekeken welk percentage woorden uit die categorie juist beklemtoond wordt. Aangezien kortere woorden gemakkelijker te beklemtonen lijken, zou het dus logisch zijn wanneer deze woorden vaker juist beklemtoond zouden zijn dan langere woorden. In tabel 6.1 staan deze resultaten gegeven. 37
38
Hoofdstuk 6. Foutenanalyse lettergrepen 1 2 3 4 5 6 7 8 9 10
aantal woorden 578 4950 9138 7838 3734 1417 414 131 32 4
% woorden juist beklemtoond 100 94,4 91,2 86,2 83,4 84,8 81,4 84,7 81,3 80,0
Tabel 6.1: Percentage juiste woorden per aantal lettergrepen
Aangezien een woord altijd beklemtoond is en klemtoon op een lettergreep uit het woord valt, is het logisch dat alle ´e´enlettergrepige woorden juist beklemtoond zijn. Ook kon verwacht worden dat een hoog percentage van de 2-lettergrepige woorden juist beklemtoond zou worden. Er is sowieso, wanneer er geen rekening wordt gehouden met verdere taalkundige eigenschappen die klemtoon voor een woord voorspellen, een kans van 50% dat de klemtoon op de juiste lettergreep valt, en omdat het woord korter is, hoeft met minder informatie uit de rest van het woord rekening gehouden te worden om te kunnen bepalen op welk van de twee lettergrepen klemtoon het meest waarschijnlijk is. Van de 3-lettergrepige woorden wordt 3,2 procent minder, juist beklemtoond dan van de 2-lettergrepige woorden. Toch wordt nog altijd 91,2 procent van de woorden wel juist beklemtoond. Dat er minder woorden juist beklemtoond worden heeft er natuurlijk mee te maken dat de kans dat de klemtoon juist gelegd is maar ´e´en op drie is wanneer er geen rekening wordt gehouden met klemtoon bepalende taalkundige eigenschappen. Doordat de regels die gebruikt worden om de input van TBL te genereren stellen dat klemtoon bij voorkeur op de antepenulte, de penulte of de finale lettergreep komt, is de kans al groter dat bij woorden die niet uit meer dan drie lettergrepen bestaan, de juiste klemtoon gekozen wordt dan bij woorden die uit meerdere lettergrepen bestaan. Er rekening mee houdend dat de regel van Kager die stelt dat klemtoon altijd op ´e´en van de laatste drie lettergrepen van een woord komt alleen voor regelmatige woorden geldt en bijvoorbeeld helemaal niet voor samenstellingen, valt te verwachten dat voor dit soort woorden het bepalen van klemtoon moeilijker is dan voor kortere woorden waarbij de klemtoon wel vaak op ´e´en van de drie laatste lettergrepen ligt. Deze regel is namelijk gebruikt voor het bepalen van klemtoon op woorden m.b.v. taalkundige regels. Deze regels staan in het baseline-systeem voor de input van TBL. Wanneer er dus begonnen wordt met trainen zijn woorden die antepenult, penult of finaal beklemtoond moeten worden al vaker juist beklemtoond dan woorden die verder naar voren klemtoon krijgen. Voor woorden bestaande uit vijf tot tien lettergrepen ligt het percentage juist beklemtoonde woorden altijd tussen de 80,0 en 84,7 procent. Opvallend is dat woorden die uit zes of acht lettergrepen bestaan vaker juist beklemtoond worden dan woorden die uit vijf of zeven lettergrepen bestaan. Doordat deze resultaten aan de hand van een beperkt aantal woorden gevonden zijn, kunnen
6.3. Percentage woorden per lettergreep voor alle, juiste en onjuiste woorden39 hier verder geen conclusies uit getrokken worden.
6.3
Percentage woorden per lettergreep voor alle, juiste en onjuiste woorden
In de eerste kolom van tabel 6.2 staat voor de woorden uit de test data welk percentage van de woorden uit welk aantal lettergrepen bestaat. Zo bestaat 2,0 procent van de woorden uit ´e´en lettergreep. In de kolom ”juiste wo” staat aangegeven welk percentage van de woorden uit hoeveel lettergrepen bestaat, maar dan alleen voor de woorden die juist beklemtoond zijn. In de kolom ”onjuiste wo” staan de percentages voor woorden die onjuist beklemtoond zijn. Uit deze tabel valt af te lezen dat het percentage woorden dat uit ´e´en, twee of drie lettergrepen bestaan hoger ligt in de kolom met juiste woorden dan in de kolom met alle woorden. Deze woorden worden dus relatief vaak juist beklemtoond. Voor de woorden bestaande uit meer dan drie lettergrepen geldt dat deze woorden in de kolom met onjuiste woorden vaker voorkomen dan in de kolom met alle woorden. Deze woorden worden dus relatief vaak onjuist beklemtoond. lettergrepen 1 2 3 4 5 6 7 8 9 10
alle wo 2,0 17,5 32,4 27,8 13,2 5,0 1,5 0,5 0,11 0,0
juiste wo 2,3 18,6 33,3 26,8 12,4 4,8 1,3 0,4 0,1 0,0
onjuiste wo 0 9,1 24,6 35,5 20,3 7,0 2,5 0,7 0,2 0,0
Tabel 6.2: Percentage van het totale aantal woorden per categorie
6.4
Klemtoonplaatsing voor alle, juiste en onjuiste woorden
Voor regelmatige monomorfemen valt klemtoon, volgens taalkundige regels van Kager (1989) altijd op de antepenulte, de penulte of de finale lettergreep. Omdat in de data die voor dit onderzoek gebruikt worden niet alleen monomorfemen en regelmatige woorden voorkomen, zal de klemtoonverdeling anders zijn. Door te kijken hoe de klemtoon in Celex gelegd is voor deze woorden, wordt bekeken op welke lettergreep hoe vaak klemtoon ligt wanneer willekeurige woorden gebruikt wordt. Uit een steekproef van 300 woorden komen de resultaten die in tabel 6.3 gegeven zijn. Om te zien op welke lettergrepen hoe vaak klemtoon ligt voor woorden die door TBL juist beklemtoond zijn, wordt voor een groep van 300 woorden beke-
40
Hoofdstuk 6. Foutenanalyse
ken op welke lettergreep klemtoon ligt. Deze resultaten staan in de derde kolom van tabel 6.3. Ook voor de woorden die door TBL onjuist beklemtoond zijn is gekeken op welke lettergreep hoe vaak klemtoon had moeten liggen. Hiervoor is voor 300 woorden die onjuist beklemtoond zijn gekeken waar Celex de klemtoon op deze woorden legt. Wanneer naar alle woorden uit de testdata gekeken wordt komt bijvoorbeeld in 34,3 procent van de gevallen klemtoon op de antepenulte lettergreep, wanneer echter alleen naar de woorden die door TBL juist beklemtoond worden wordt gekeken krijgt 32,7 procent van deze woorden klemtoon op de antepenult en wanneer alleen naar de woorden wordt gekeken die onjuist beklemtoond zijn, had op slechts 24,0 procent van deze woorden klemtoon op de antepenult moeten liggen. De resultaten hiervan staan in de vierde kolom van tabel 6.3. lettergrepen 7 6 5 4 3 (antepenult) 2 (penult) 1 (finaal)
% alle wo 0 2,0 4,3 21,0 34,3 29,0 9,3
% wo juist 0 1,7 5,0 17,7 32,7 34,3 8,1
% wo onjuist 2 3,7 5,7 16,7 24,0 30,7 17,3
Tabel 6.3: Welke lettergreep beklemtoond
Uit de resultaten uit de kolom met alle woorden blijkt inderdaad dat klemtoon niet op de antepenulte, de penulte of de finale lettergreep hoeft te liggen. In 21,0 procent van de gevallen ligt de klemtoon op de vierde lettergreep vanaf het einde van het woord. Toch valt de klemtoon vaker op de antepenult of de penult. Dit in respectievelijk 34,3 en 29,0 procent van de gevallen. Wat opvalt is dat klemtoon slechts in 9,3 procent van de gevallen finaal ligt. Van de woorden waarop de klemtoon finaal ligt bestaat 29 procent maar uit ´e´en lettergreep. Doordat er niet alleen monomorfemen in de test data staan is het niet gek dat 4,3 procent van de woorden klemtoon krijgt op de vijfde lettergreep van achteren en 2,0 procent van de woorden zelfs klemtoon krijgt op de zesde lettergreep van achteren. Samenstellingen en woorden met een prefix ervoor krijgen bijvoorbeeld vaak klemtoon toegekend aan het begin van het woord. Dit zal ook blijken uit de analyse van onjuist beklemtoonde woorden verder op in dit hoofdstuk. Juist beklemtoonde woorden hebben het vaakst klemtoon op de penulte lettergreep. Dit is anders dan bij alle woorden waarbij antepenulte klemtoon het meest voorkomt. Het verschil bij de juiste woorden tussen klemtoon op de antepenult en de penult is echter niet groot. Het verschil is slechts 1,6 procent. Een ander verschil is dat in de set met juiste woorden het aantal woorden met klemtoon op de vierde lettergreep van achteren 3,3 procent lager ligt dan bij alle woorden. Omdat er met een set van slechts 300 woorden getest is kan er van kleine verschillen in resultaten niet veel gezegd worden. Door deze resultaten valt wel af te lezen dat het niet zo is dat klemtoon op een bepaalde lettergreep opvallend vaak juist beoordeeld wordt in vergelijking met ”alle woorden”. De onjuiste woorden geven resultaten die wel duidelijk afwijken van de juiste
41
6.5. Onjuist beklemtoonde woorden
en alle woorden. Zo staan er veel meer woorden in deze set die op de finale lettergreep beklemtoond hadden moeten worden. Een verklaring hiervoor zou kunnen zijn dat de klemtoon in het algemeen niet vaak op de finale lettergreep valt. Bij het cre¨eren van regels door TBL zal ook rekening gehouden zijn met dit feit. Daardoor zal TBL er misschien de voorkeur aan geven, wanneer klemtoon op de finale lettergreep valt, de klemtoon toch op een andere lettergreep te leggen, omdat over het algemeen de kans groter is dat klemtoon op een andere lettergreep valt. Woorden met antepenulte klemtoon komen juist minder vaak voor in de set met onjuiste woorden dan in de andere twee lijsten. 24,0 procent van de woorden heeft in deze set antepenulte klemtoon hoewel dit aantal in de lijst met alle woorden 10,3 procent hoger ligt. De verklaring hiervoor zou hetzelfde kunnen zijn als de verklaring voor het hoge percentage woorden met finale klemtoon, maar dan precies omgekeerd. Omdat klemtoon vaak antepenult ligt, wordt klemtoon vaak op deze lettergreep gelegd. Woorden die inderdaad antepenult klemtoon hebben worden hierdoor vaak juist beklemtoond. Ook valt het op dat in de set met onjuiste woorden klemtoon vaker op vijf, zes of zeven lettergrepen van het einde af ligt. Dit kan verklaard worden door de resultaten uit de tabel 6.1 waaruit blijkt dat langere woorden minder vaak juist beklemtoond worden en daarom dus vaker in de set met onjuiste woorden voorkomen.
6.5
Onjuist beklemtoonde woorden
Door de onjuist beklemtoonde woorden op te delen in woorden die dubbel klemtoon krijgen, woorden die onbeklemtoond zijn en woorden die ´e´enmaal klemtoon krijgen, kan er gekeken worden naar wat de mogelijke oorzaken zijn van het onjuist beklemtonen van woorden uit de verschillende categorie¨en.
6.5.1
Dubbel beklemtoonde woorden
Er zijn 48 woorden uit testa die dubbel beklemtoond worden, wanneer met behulp van de alternatieve methode klemtoon wordt bepaald. Elk van deze woorden bestaat uit vier tot tien lettergrepen. Wat het aantal lettergrepen van deze woorden precies is staat weergegeven in tabel 6.4. lettergrepen 4 5 6 7 8 9 10
aantal woorden 1 0 10 24 8 4 1
% woorden 2,1 0 20,8 50,0 16,7 8,3 2,1
Tabel 6.4: Verdeling lettergrepen dubbel beklemtoonde woorden
Alle dubbel beklemtoonde woorden krijgen ´e´enmaal de juiste klemtoon toegewezen en ´e´enmaal een verkeerde. Er zijn dus geen woorden die tweemaal
42
Hoofdstuk 6. Foutenanalyse
klemtoon op een onjuiste lettergreep toegewezen krijgen. 37 van de dubbel beklemtoonde woorden zijn samenstellingen. In 36 van de 37 gevallen krijgt het laatste woorden uit de samenstelling de extra, onjuiste, klemtoon toegewezen en staat de juist beklemtoonde lettergreep in het eerste deel van de samenstelling. In het andere geval is de extra klemtoon juist aan het begin van de samenstelling geplaatst. Het is nooit zo dat ´e´en deel van een samenstelling dubbel beklemtoond wordt. Uit deze informatie kan geconcludeerd worden dat TBL de neiging heeft de klemtoon voor deze woorden op de antepenult, de penult of de finale lettergreep te leggen en dat nooit ´en ´ deel van een samenstelling dubbel beklemtoond wordt. In tabel 6.5 staan voorbeelden van dit soort woorden. Wanneer een lettergreep vet gedrukt is betekent dit dat deze lettergreep beklemtoond moet worden. Een cursief gedrukte lettergreep geeft de door TBL extra beklemtoonde lettergreep aan. wereldfederalisme verzorgingsarrangement arbeidersassociatie rijksuniversiteiten fotoluminescentie Tabel 6.5: Dubbel beklemtoonde samenstellingen
Van de elf woorden die geen samenstellingen zijn, zijn acht woorden bijvoeglijke naamwoorden en hebben zes woorden een prefix aan het begin van het woord waar in vijf van de gevallen klemtoon op zou moeten liggen, maar er niet op ligt. In tabel 6.6 staan een aantal van deze dubbel beklemtoonde woorden, die geen samenstellingen zijn, gegeven. In totaal is het bij 41 van de 48 woorden het geval dat de klemtoon op het laatste deel van de het woord wordt gelegd, hoewel de klemtoon op het eerste deel van het woord zou moeten komen. gecaricaturiseerde herkapitalizerend neofiguratiefste inferioriteit Tabel 6.6: Dubbel beklemtoonde niet samenstellingen
6.5.2
Onbeklemtoonde woorden
Doordat de analyses in dit hoofdstuk worden uitgevoerd met de data zoals deze na het testen met TBL is en de onbeklemtoonde woorden dus niet alsnog beklemtoond worden, blijven er woorden onbeklemtoond. Dit geldt voor 1156 woorden uit testa. Om na te gaan of het niet krijgen van klemtoon met het aantal lettergrepen waar een woord uit bestaat te maken heeft, worden deze woorden vergeleken met alle woorden en de onjuiste woorden die per lettergreep in tabel 6.2 staan gegeven. De resultaten voor onbeklemtoonde woorden staan in tabel 6.7.
43
6.5. Onjuist beklemtoonde woorden lettergrepen 1 2 3 4 5 6 7 8 9 10
aantal wo 0 1 8 585 401 125 27 7 2 0
% woorden 0 0,09 0,69 50,60 34,69 10,81 2,34 0,61 0,17 0
Tabel 6.7: Aantal lettergrepen woorden zonder klemtoon
Het is erg opvallend dat het percentage woorden bestaande uit vier of vijf lettergrepen voor de onbeklemtoonde woorden veel hoger ligt dan bij alle woorden en de onjuiste woorden. Van deze woorden bestaat 50,60 procent uit 4lettergrepige woorden. Dit percentage ligt bij alle woorden op 35,5 procent en bij de onjuiste woorden slechts op 27,8 procent. Woorden met twee of drie lettergrepen blijven haast nooit onbeklemtoond. Bestaat 24,6 procent van alle data uit woorden bestaande uit drie lettergrepen, en zelfs 32,4 procent van de onjuiste woorden, in deze data bestaat slechts 0,69 procent van de woorden uit 3-lettergrepige woorden. Woorden van zeven lettergrepen of meer vallen niet op wanneer ze vergeleken worden met de woorden uit andere data. Voor 50 woorden uit deze categorie is bekeken of er nog andere opvallende kenmerken zijn anders dan het aantal lettergrepen waar de woorden uit bestaan. Van deze woorden zijn slechts zes woorden samenstellingen en beginnen twaalf woorden met een lettergreep die een prefix is of zou kunnen zijn. Van de 50 woorden hadden er zes klemtoon moeten krijgen voor de antepenult. Uit deze resultaten kunnen geen duidelijke redenen aangewezen worden die ervoor zorgen dat veel woorden onbeklemtoond blijven. Om een beter beeld te krijgen van welke woorden onbeklemtoond blijven, staan in tabel 6.8 20 onbeklemtoonde woorden. Op de lettergreep die vet gedrukt is hoort klemtoon te liggen.
6.5.3
E´ enmaal onjuist beklemtoonde woorden
Er staan in de test data 1851 ´e´enmaal onjuist beklemtoonde woorden. Voor de woorden die wel ´e´enmaal beklemtoond zijn, maar onjuist, is in tabel 6.9 aangegeven uit hoeveel lettergrepen deze woorden bestaan. Deze tabel verschilt ten opzichte van de kolom met onjuist beklemtoonde woorden in de tabel 6.2 in dat in deze tabel de dubbel beklemtoonde woorden en de onbeklemtoonde woorden niet meegerekend worden. Het meest opvallend is het hoge percentage woorden dat uit drie lettergrepen bestaat. Dit percentage ligt op 40,25 procent, hoewel dit voor alle woorden samen op 24,6 procent ligt en voor de juiste woorden op 32,4 procent. Dat dit percentage hoog is heeft er waarschijnlijk mee te maken hebben dat woorden die uit drie woorden bestaan bijna altijd wel klemtoon toegewezen krijgen. Zie
44
Hoofdstuk 6. Foutenanalyse onvoorstelbaarheid opkrabbelende kanada’s karafwijnen corona’s xerantemum semestri¨ ele wordingsleer zeszijdige interumperen interscolair oudewijvenpraatjes ongescheiden ordonnanti¨en konvenient leverancier penetrantste sloeharingen antiserum onoorbaarste Tabel 6.8: Onbeklemtoonde woorden lettergrepen 2 3 4 5 6 7 8 9 10
aantal wo 277 745 498 220 80 25 6 0 0
% wo 14,96 40,25 26,90 11,89 4,32 1,35 0,32 0 0
Tabel 6.9: Aantal ´e´enmaal onjuist beklemtoonde woorden
tabel 6.7 waarin bijna geen 3-lettergrepige woorden onbeklemtoond zijn. Verder valt op dat woorden die uit meer dan drie lettergrepen bestaan minder voorkomen bij de onjuist ´e´enmaal beklemtoonde woorden dan bij alle woorden en alle onjuiste woorden. De wat langere woorden worden meestal niet ´e´enmaal onjuist beklemtoond, maar blijven onbeklemtoond of worden dubbel beklemtoond. Net als bij de onbeklemtoonde woorden wordt er naar 50 onjuiste ´e´enmaal beklemtoonde woorden gekeken om te zien of deze woorden nog andere opvallende kenmerken hebben, anders dan het aantal lettergrepen waar de woorden uit bestaan. Van deze woorden zijn, evenals bij de onbeklemtoonde woorden, zes woorden samenstellingen. Er zijn 16 woorden die beginnen met een lettergreep die een prefix is of zou kunnen zijn. Aan acht van de 50 woorden wordt
45
6.6. Conclusie foutenanalyse
preantepenulte klemtoon toegekend. Op zes van de woorden ligt daadwerkelijk preantepenulte klemtoon. Slechts in ´e´en geval ligt de klemtoon preantepenult waar deze ook preantepenult hoort te zijn. Evenals bij de onbeklemtoonde woorden zijn er geen duidelijke redenen aan te wijzen die ervoor zorgen die ervoor zorgen dat veel woorden onbeklemtoond blijven. Om een beter beeld te krijgen van welke woorden verkeerd beklemtoond worden, staan in tabel 6.10 20 onbeklemtoonde woorden. De lettergreep waarop klemtoon had moeten liggen is vet gedrukt en de lettergreep waarop TBL klemtoon heeft gelegd is cursief gedrukt. infectiegevaar indecentie ontembaarst doordachte flankeurs hardleerst hofdignitaris iglo’s podiums pretexteer retourneren ravanger subtieler achterhouding injunctie onwaarde buitengemeenst barokst boerenkinkels doorlopen Tabel 6.10: E´enmaal onjuist beklemtoonde woorden
6.6
Conclusie foutenanalyse
In dit hoofdstuk is een foutenanalyse gegeven voor de resultaten die TBL geeft na het trainen en testen. Uit deze resultaten kunnen de onderstaande conclusies worden getrokken. Wanneer er gekeken wordt naar het percentage juist beklemtoonde woorden per lettergreep, blijk dat kortere woorden gemakkelijker te beklemtonen zijn dat langere woorden. Dat kortere woorden eerder juist beklemtoond worden valt onder andere te verklaren uit het feit dat klemtoon op minder verschillende lettergrepen kan vallen en daardoor eerder op de juiste lettergreep valt. Een andere verklaring hiervoor is dat woorden in de input voor TBL bijna altijd klemtoon op de antepenult, de penult of de finale lettergreep meekrijgen. Door voor alle woorden uit de test data te bekijken waar klemtoon komt te liggen, blijkt dat klemtoon het vaakst op de antepenult ligt. Ook valt klemtoon
46
Hoofdstuk 6. Foutenanalyse
vaak op de penult en op de vierde lettergreep vanaf het einde van het woord. Klemtoon valt veel minder vaak finaal. Juist beklemtoonde woorden hebben het vaakst klemtoon op de penult in tegenstelling tot alle woorden waar de klemtoon het vaakst op de antepenult ligt. Ook krijgen woorden vaak klemtoon op de antepenult. De vierde lettergreep van achteren is minder vaak beklemtoond. Er zijn geen overduidelijke verschillen tussen alle woorden en juist beklemtoonde woorden. Onjuiste woorden wijken meer af van alle woorden. Er staan veel woorden in deze set die finaal klemtoon hadden moeten krijgen. Een verklaring hiervoor kan overgeneralisatie zijn. Er staan in de file met alle woorden weinig woorden finaal beklemtoond zijn. Doordat TBL ziet dat een woord niet vaak finaal beklemtoond wordt, zal er soms voorkeur worden gegeven aan het beklemtonen van een andere lettergreep uit het woord. Het aantal woorden dat antepenult beklemtoond had moeten worden is bij de onjuiste woorden veel lager dan bij alle woorden en de juiste woorden. Ook hiervoor kan de verklaring het percentage woorden in de file met alle woorden zijn. Alleen is dit percentage juist hoog en komen er dus minder woorden die antepenult beklemtoond moeten worden in de file met onjuiste woorden. Woorden waarvan de vijfde, zesde of zevende lettergreep van achteren beklemtoond is komen ook relatief erg vaak in de file met onjuist beklemtoonde woorden voor. Dit valt te verklaren doordat langere woorden minder vaak juist beklemtoond worden. Het blijkt dat woorden bestaande uit ´e´en, twee of drie lettergrepen vaker in juiste woorden voorkomen dan in alle woorden en de file met onjuiste woorden. Wanneer een woord meer dan drie lettergrepen heeft komt het woord in de file met onjuiste woorden het vaakst voor. De onjuiste woorden kunnen verdeeld worden in drie categorie¨en. Dubbel beklemtoonde woorden, onbeklemtoonde woorden en ´e´enmaal, onjuist, beklemtoonde woorden. Dubbelbeklemtoonde woorden krijgen klemtoon op de juiste en op ´e´en onjuiste lettergreep. Er zijn 48 dubbel beklemtoonde woorden. Dubbel beklemtoonde woorden zijn in 77 procent van de gevallen samenstellingen. Bij deze samenstellingen moet in bijna alle gevallen het eerste deel van de samenstelling beklemtoond worden en valt de extra klemtoon op het laatste deel van het woord. Samenstellingen weggelaten staan er nog elf andere woorden in deze file. Hiervan zijn acht woorden bijvoeglijke naamwoorden, en hebben zes woorden een prefix. Vijfmaal zou hier klemtoon op moeten liggen. In 85,4 procent van alle dubbel beklemtoonde woorden moet klemtoon meer in het begin van het woord komen te liggen dan waar klemtoon gelegd is. Er blijven 1056 woorden onbeklemtoond. Voor deze woorden is net als bij alle woorden, de juiste woorden en de onjuiste woorden, het percentage woorden per lettergreep gegeven. Het blijkt dat het aantal woorden bestaande uit vier of vijf lettergrepen aanzienlijk hoger ligt dan bij de andere categorie¨en. Ook blijkt dat 2- en 3-lettergrepige woorden haast nooit onbeklemtoond blijven. Om eventuele andere opvallende kenmerken van onbeklemtoonde woorden te kunnen vinden zijn 50 woorden bekeken. Er waren geen opvallende kenmerken waaruit onbeklemtoonde woorden gemakkelijk kunnen worden herkend. Evenals voor de onbeklemtoonde woorden is voor de ´e´enmaal onjuist beklemtoonde woorden het percentage woorden per lettergreep gegeven. Het percentage woorden dat uit drie lettergrepen bestaat ligt bij deze woorden erg hoog. Dit komt doordat woorden die uit twee of drie lettergrepen bestaan haast nooit
6.6. Conclusie foutenanalyse
47
onbeklemtoond blijven. Woorden die uit meer dan drie lettergrepen bestaan komen minder voor. Dit soort woorden worden vaker dubbel beklemtoond of blijven onbeklemtoond. Ook zijn net als voor de onbeklemtoonde woorden 50 woorden bekeken om eventuele andere opvallende kenmerken van ´e´enmaal, onjuist, beklemtoonde woorden te kunnen vinden. Net als bij de onbeklemtoonde woorden zijn er geen opvallende kenmerken voor dit soort woorden gevonden.
48
Hoofdstuk 6. Foutenanalyse
Hoofdstuk 7
Conclusie Uit dit onderzoek blijkt dat hoofdklemtoonbepaling op willekeurige woorden met behulp van Transformation-based Learning effectief is. Met deze methode kan 89,2 procent van de woorden juist beklemtoond worden. Hiervoor zijn 6358 regels nodig. Omdat er weinig vergelijkbaar onderzoek is gedaan is het niet mogelijk om aan te geven hoe goed een percentage van 89,2 procent juist beklemtoonde woorden precies is. Daelemans, Gillis en Durieux (1994a) beklemtoonden bijna 90 procent van de monomorfemen die zij voor hun onderzoek gebruikten juist met behulp van Instance-based Learning. Wel gebruikten zij hiervoor een vele kleinere dataset waarmee getraind werd. Afgezien van dit lijkt een percentage van 89,2 procent juist beklemtoonde woorden in dit onderzoek goed, omdat willekeurige woorden moeilijker te beklemtonen zijn dan alleen monomorfemen. Busser (1998) beklemtoonde met behulp van de Machine Learning methode IGTree 87,8 procent van een set willekeurige woorden juist. Wel wordt het bepalen van klemtoon in dit onderzoek vooraf gegaan door automatische grafeem-naar-foneem conversie, waardoor niet alle grafemen juist in fonemen omgezet zullen zijn, zodat het bepalen van klemtoon, op de in fonemen geschreven woorden, ook niet meer helemaal juist kan gebeuren. Wanneer er woorden gebruikt waren die allen correct in fomenen waren omgezet zou het percentage van 87,8 procent waarschijnlijk iets stijgen. Het percentage van 89,2 procent juist beklemtoonde woorden uit dit onderzoek lijkt, ook in vergelijking met het onderzoek van Busser, goed. Hieronder staan de conclusies die uit de hoofdstukken 3, 4, 5 en 6 getrokken kunnen worden.
7.1
Baseline-systeem op basis van taalkundige regels
De voorlopige hoofdklemtoon die in de inputfile meegegeven wordt is op twee manieren bepaald. Bij de eerste methode wordt gebruik gemaakt van de majoren minorgeneralisaties van Kager (1989). Voor de andere methode worden een aantal defaultregels gebruikt om klemtoon toe te wijzen. Deze methode wordt de alternatieve methode genoemd. Wanneer de major- en minorgeneralisaties van Kager worden toegepast om klemtoon te bepalen, wordt slechts 25 procent van de woorden juist beklemtoond. Door de regel die F´ery (1998) gebruikt, 49
50
Hoofdstuk 7. Conclusie
die stelt dat er nooit klemtoon op een schwa komt, toe te voegen en nog een aantal defaultregels toe te voegen die ervoor zorgen dat elke lettergreep ´e´enmaal beklemtoond wordt, wordt uiteindelijk 44,8 procent van de woorden juist beklemtoond. Met deze toevoegingen aan de generalisaties is verder gewerkt. Het loslaten van deze regels op een grote groep woorden uit Celex, die niet alleen regelmatige woorden bevat, maar bijvoorbeeld ook onregelmatige woorden, samenstellingen en woorden van buitenlandse oorsprong, geeft dus geen goed resultaat. Wanneer de alternatieve methode gebruikt wordt om klemtoon te bepalen wordt 57,0 procent van de woorden juist beklemtoond. Hieruit blijkt dat met een aantal defaultregels klemtoon beter te bepalen is dan met de generalisaties die Kager geeft. In de inputfile worden een aantal taalkundige eigenschappen van woorden meegegeven. Zo wordt een lettergreep geschreven in fonemen meegegeven, maar ook wordt specifieke taalkundige informatie meegegeven door voor elke foneem aan te geven tot welke categorie deze behoort. Hierbij kan gekozen worden uit de categorie¨en consonant, lange klinker, korte klinker, diftong en schwa. Ook wordt abstracte taalkundige informatie meegegeven door van een lettergreep alleen maar aan te geven of deze zwaar, licht of superlicht is. Door verschillende soorten taalkundige informatie mee te geven aan de input, worden er tijdens het leren met TBL sneller en gemakkelijker regels worden gevonden waarmee klemtoon bepaald kan worden.
7.2
Automatisch klemtoon bepalen met TBL
Het hoogste percentage juist beklemtoonde woorden wordt gevonden wanneer er tijdens het trainen naar de taalkundige eigenschappen uit alle drie de velden wordt gekeken. Door deze drie velden te combineren wordt optimaal gebruik gemaakt van de taalkundige informatie die een lettergreep bevat. Met behulp van het abstracte veld ZL worden op een handige en snelle manier zeer algemene regels gevonden die voor veel lettergrepen gelden. Met behulp van veld cv, dat minder abstract is dan veld ZL, maar wel expliciet informatie over een lettergreep weergeeft, worden de iets minder voorkomende regels gevonden die nog altijd vaak voor redelijk wat lettergrepen gelden. Uit veld ltrgr kan de meest gedetailleerde informatie worden gehaald, die vaak voor minder lettergrepen geldt, maar toch nog wel belangrijke verbeteringen in de resultaten aanbrengt. De beste resultaten worden verkregen als er voor deze velden naar context=3 gekeken wordt. Door tijdens het trainen ook naar het veld te kijken waar de voorlopige klemtoon in staat kan er geleerd worden op de hoeveelste lettergreep in een woord vaak klemtoon valt en dat er op woorden slechts ´e´enmaal klemtoon hoort te liggen. Voor dit veld is er naar context=4 gekeken. Door het toevoegen van dit veld daalt het aantal dubbel beklemtoonde en onbeklemtoonde woorden aanzienlijk, waardoor het percentage juist beklemtoonde woorden stijgt. Ook daalt het aantal regels dat nodig is om tot het percentage juist beklemtoonde woorden te komen. Het percentage juist beklemtoonde worden ligt nu wanneer de major-minor methode gebruikt wordt om de voorlopige klemtoon op woorden aan te geven op 89,0 procent. Wanneer de alternatieve methode gebruikt wordt om de voorlopige
7.3. Onbeklemtoonde woorden beklemtonen
51
klemtoon aan te geven ligt het percentage juist beklemtoonde woorden op 89,2 procent. De alternatieve methode werkt dus 0,2 procent beter dan de majorminor methode. Om tot deze resultaten te komen zijn voor de major-minor methode 6399 regels gebruikt en voor de alternatieve methode 6358 regels. Ook in dit opzicht werkt de alternatieve methode net iets beter. Doordat er niet in tienvoud getest is, kan er niet gezegd worden of deze resultaten significant verschillen.
7.3
Onbeklemtoonde woorden beklemtonen
Omdat redelijk wat woorden na het trainen met TBL geen klemtoon toegewezen hebben gekregen is aan deze woorden alsnog klemtoon toegewezen met behulp van een aantal defaultregels. Hierdoor kwam het percentage juist beklemtoonde woorden voor de major-minor methode uit op 90,7 en voor de alternatieven methode op 91,0 procent. Ook nu kan er daarom het beste met de alternatieve methode gewerkt worden.
7.4
Foutenanalyse
Uit de foutenanalyse blijkt dat er geen duidelijke redenen zijn voor het onjuist beklemtonen van de woorden. Het is bijvoorbeeld niet zo dat een hoog aantal leenwoorden onjuist beklemtoond wordt of dat woorden met een bepaalde taalkundige eigenschap vaak onjuist beklemtoond worden. Wel bleek dat samenstellingen moeilijk te beklemtonen zijn en dat ook woorden die beginnen met een prefix redelijk veel voorkomen in de lijst met onjuiste woorden.
52
Hoofdstuk 7. Conclusie
Hoofdstuk 8
Discussie Omdat er weinig werk vergelijkbaar is met wat in dit onderzoek is onderzocht, moet er om een beter beeld te krijgen van hoe goed de resultaten van dit onderzoek zijn meer onderzoek gedaan worden. Door bijvoorbeeld met Instance-based Learning te testen in plaats van met Transformation-based Learning, kan getest worden of TBL in vergelijking met IBL geschikt is om hoofdklemtoon op willekeurige woorden te leggen. Wel moet er dan met dezelfde train data getest worden. De train data die in dit onderzoek gebruikt zijn komen redelijk overeen met de data die Busser (1998) gebruikt. Om de resultaten van deze twee onderzoeken goed te kunnen vergelijken zouden de fonemen die Busser gebruikt om klemtoon op woorden toe te kennen met zekerheid juist moeten zijn. Ook is het misschien mogelijk om een aantal taalkundige methodes om hoofdklemtoon mee te bepalen los te laten op willekeurige woorden. Hierdoor kan een beter beeld verkregen worden van hoe goed deze taalkundige methodes werken. Wel moeten deze regels dan automatisch te bepalen zijn voor woorden, wat voor taalkundige constraints en parameters niet gemakkelijk is. Om de resultaten van dit onderzoek te verbeteren, kan er meer taalkundige informatie worden toegevoegd aan de inputfile voor TBL en kan de taalkundige informatie in ´e´en template uit meerdere velden, die verschillende taalkundige eigenschappen bevatten, komen. Hierbij kan er ook naar een hoeveelheid context van de lettergreep worden gekeken die niet voor voor en na de betreffende lettergreep dezelfde grootte heeft. Zo is het bijvoorbeeld mogelijk naar een context van ´e´en lettergreep voor het woord en drie lettergrepen na het woord te kijken. Om een beeld te krijgen van de regels die TBL gevonden heeft tijdens het trainen kan een aantal goed werkende regels bekeken worden. Dit zou interessante informatie kunnen opleveren over wanneer een lettergreep beklemtoond moet worden en wanneer niet. Ook kan getest worden hoe belangrijk het hebben van een goede inputfile is. In dit onderzoek bleek al dat de methode die in de input het laagste aantal juist beklemtoonde woorden gaf soms zelfs beter scoorde dat de methode waarbij al meer woorden juist beklemtoond waren voordat er getraind werd.
53
54
Hoofdstuk 8. Discussie
Bibliografie [1] R.H. Baayen, R. Piepenbrock, and H. van Rijn. The CELEX Lexical Database (CD-ROM). University of Pennsylvania, Philadelphia, PA: Linguistic Data Consortium, 1993. [2] G.E. Booij. The Phonology of Dutch. Clarendon Press, Oxford, 1995. [3] Eric Brill. A simple rule-based part-of-speech tagger. In Proceedings of ANLP-92, 3rd Conference on Applied Natural Language Processing, pages 152–155, Trento, IT, 1992. [4] Eric Brill. Automatic grammar induction and parsing free text: A transformation-based approach. In Meeting of the Association for Computational Linguistics, pages 259–265, 1993. [5] Eric Brill. Some advances in transformation-based part of speech tagging. In National Conference on Artificial Intelligence, pages 722–727, 1994. [6] Eric Brill. Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging. Computational Linguistics, 4(21):543–565, 1995. [7] Eric Brill and Philip Resnik. A transformation-based approach to prepositional phrase attachment disambiguation. In Proceedings, Fifteenth International Conference on Computational Linguistics, Kyoto, Japan, 1994. [8] Bertjan Busser. TreeTalk-D: A Machine Learning Approach to Dutch Word Pronunciation. In Text, Speech, Dialog, pages 3–8, 1998. [9] Noam Chomsky. Principles and parameters in syntactic theory. Explanation in Linguistics,: The Logical Problem of Language Acquisition, pages 32–75, 1981. [10] Walter Daelemans, Steven Gillis, and Gert Durieux. The acquisition of stress, a data-oriented approach. Computational Linguistics, 3(20):421– 451, 1994a. [11] Walter Daelemans, Antal van den Bosch, and Ton Weijters. IGTree: Using trees for compression and classification in lazy learning algorithms. Artificial Intelligence Review, 11(1-5):407–423, 1997. [12] Caroline F´ery. German word stress in optimality theory. Journal of Comparative Germanic Linguistics, 2(2):101–142, 1998. 55
56
BIBLIOGRAFIE
[13] Radu Florian and Grace Ngai. Fast transformation-based learning toolkit. Technical report, Johns Hopkins University, September 2001. [14] Dicky Gilbers and Wouter Jansen. Klemtoon en ritme in optimality theory. deel 1: hoofd neven-, samenstellings-, en woordgroepsklemtoon in het nederlands. TABU, 2(26):53–101, 1996. [15] Steven Gillis, Walter Daelemans, and Gert Durieux. Are children lazy learners? a comparison of natural and machine learning of stress. In 16th conference cognitive science society, pages 369–374, 1994b. [16] B.P. Hayes. A Metrical Theory of Stress Rules. Indiana University Linguistics Club, Bloomington, Indiana, 1981. [17] Ren´e Kager. A Metrical Theory of Stress and Destressing in English and Dutch. Foris, Dordrecht, 1989. [18] Lidia Mangu and Eric Brill. Automatic rule acquisition for spelling correction. In Proc. 14th International Conference on Machine Learning, pages 187–194. Morgan Kaufmann, 1997. [19] D. Nouveau. Language Acquisition, Metrical Theory, and Optimality: A Study of Dutch Word Stress. OTS dissertation series, Rijksuniversiteit Utrecht, 1994. [20] R. Ordelman, A. van Hessen, and F. de Jong. Lexicon optimization for dutch speech recognition in spoken document retrieval, 2001. [21] Lance Ramshaw and Mitch Marcus. Text chunking using transformationbased learning. In David Yarovsky and Kenneth Church, editors, Proceedings of the Third Workshop on Very Large Corpora, pages 82–94, Somerset, New Jersey, 1995. Association for Computational Linguistics. [22] Emmanuel Roche and Yves Schabes. Deterministic part-of-speech tagging with finite-state transducers. Computational Linguistics, (21):227–263, 1995.