Definitie-herkenning: het begrijpelijker maken van medische wetenschappelijke teksten BA Informatiekunde, Rijksuniversiteit Groningen 8 augustus 2007 Martijn Eikenhorst (s1583271) Bachelor scriptie
Inhoudsopgave Inleiding......................................................................................................................................2 Hoofdstuk 1 Gerelateerd werk....................................................................................................3 Automatische term-herkenning op basis van een woordenlijst ..............................................3 Herkennen van definities doormiddel van syntactische informatie........................................4 Hoofdstuk 2 Andere applicaties .................................................................................................5 Herkennen van afkortingen ....................................................................................................5 Automatische term-herkenning op basis van statistiek ..........................................................6 Hoofdstuk 3 De applicatie ..........................................................................................................7 Hoofdstuk 4 Evaluatie ..............................................................................................................11 Conclusie ..................................................................................................................................13 Referenties ................................................................................................................................14
1
Inleiding Wetenschappelijke documenten zijn meestal alleen te begrijpen voor professoren en studenten uit een bepaald vakgebied. Dit komt doordat de documenten vaak alleen gericht zijn op het betreffende vakgebied en bijna elk vakgebied heeft zijn eigen vakjargon. Een vakjargon bestaat onder andere uit vaktermen (definities). Neem bijvoorbeeld de zin: “De acetylcysteïne bevordert de uitscheiding van de schadelijke paracetamolmetabolieten, dit gaat hepatoxiciteit (leververgiftiging) en renaal falen tegen”. Deze zin komt uit een medisch document over paracetamol. In de zin staan een aantal medische definities, zoals renaal wat nier betekent en acetylcysteïne wat een naam van een medicijn is. Voor een leek zijn deze definities niet te begrijpen. Wetenschappelijke documenten kun je op verschillende manieren beter begrijpbaar maken voor mensen die niet bekend zijn met het vakjargon. Dit kan bijvoorbeeld door documenten niet in vakjargon te schrijven, maar omdat dit vaak geen optie is kun je er ook voor kiezen om bij een document uitleg te geven over bepaalde definities die in een document voorkomen. Om dit te verwezenlijken heb ik voor mijn Informatiekunde bachelor project software ontwikkeld die bij wetenschappelijke documenten uitleg geeft over de definities. Ik heb me hierbij gericht op het medische vakgebied. Dit omdat er op het World Wide Web veel wetenschappelijke documenten te vinden zijn op het medische vakgebied en omdat veel mensen interesse hebben in de medische wereld. In deze scriptie zal ik als eerste twee eerder gedane onderzoeken op het gebied van definitie herkenning in teksten bespreken. Daarna zal ik ingaan op twee applicaties die iets doen op het gebied van definitie herkenning. Vervolgens bespreek ik de door mij gemaakte applicatie en de evaluatie van mijn onderzoek. Tot slot geef ik mijn conclusie.
2
Hoofdstuk 1 Gerelateerd werk In dit hoofdstuk behandel ik twee artikelen over eerder gedane onderzoeken op het gebied van definitie herkenning. Als eerste behandel ik een artikel van Sophia Ananiadou en als tweede komt een artikel van Ismail Fahmi en Gosse Bouma aan bod.
Automatische term-herkenning op basis van een woordenlijst Sophia Ananiadou1 beschrijft in haar artikel een methode voor het automatisch herkennen van termen. Daarvoor heeft ze een systeem ontwikkeld op basis van een analyse van de subtaal geneeskunde (in het Engels). Wat een woordenlijst opleverde. Het systeem gaat uit van vier verschillende woordstructuur levels, namelijk: 1. 2. 3. 4.
niet native samenstelingen (neo-classicale samenstellingen); klasse I achtervoegsel; klasse II achtervoegsel; en native samenstellingen.
Elke level heeft twee karakteristieken, namelijk zijn eigen cyclus en de optionele cyclussen. De cyclussen met recursieve structuren kunnen er zo uit zien: prefix II + woord + suffix I + suffix I. Hierbij zijn level 1 regels twee keer gebruikt voor level 2. Voor het analyseren van tekst is gebruik gemaakt van een bottom-up chart parser. Elke grammatica regel is gemarkeerd door één of meerdere levels. Dit geldt ook voor de lexicale gegevens. Bijvoorbeeld het klasse I achtervoegsel ous van het Engels woord glorious zal gemarkeerd worden als level 1. De monomorphemische non-achtervoegsel native lexivale gegevens worden ook gemarkeerd als level 1. Bij het woord glorious zou de uitkomst zijn: glory ((zelfstandignaamwoord)(level 1)) en ous ((achtervoegsel)(level 1)), deze representaties komen in de chart te staan. Om definities te onderscheiden van normale woorden, zijn termvormende achtervoegsels uit de subtaal analyses gemarkeerd. Daarnaast is het term type geplaatst in een woordenboek record. Elk achtervoegsel heeft zijn eigen record. Bij het onderzoek kon men alleen voor onbekende woorden de term status bepalen als het een bekend terminologisch element bevatte. Deze woordvorm bevat namelijk een onbekende morfologie. Woordvormen met bekende morfologie vormden geen probleem. Het gebruik van level ordering maakte het mogelijk om sterke restricties toe te passen op woord- of termvormen. Zo zijn foutieve woord- en termvormen verwijderd door een filter. Volgens Sophia Ananiadou is term-formulering maar één van de factoren voor term herkenning. Het onderzoek was gericht op de morfologie-syntactische aspecten van termformulering.
3
Herkennen van definities doormiddel van syntactische informatie Ismail Fahmi en Gosse Bouma2 hebben onderzoek gedaan naar het herkennen van definities met behulp van syntactische informatie. Met machine learning hebben ze geprobeerd om een Question Answering systeem te leren medische definities te herkennen. Om hiermee vragen over medische definities te kunnen beantwoorden. Om de uitleg over definities te vinden hebben ze gebruik gemaakt van de medische pagina’s van Wikipedia. Hierbij is alleen gebruik gemaakt van de eerste alinea’s, omdat daarin meestal de definitie staat. De medische pagina’s hebben ze syntactisch geparsed met Alpino (Maloui en van Noord3, 2004), waarbij ze zochten naar potentiële definitie zinnen. Potentiële definitie-zinnen zijn zinnen met een vorm van zijn met een bijbehorend onderwerp en een naamwoordelijk bevestigende frase als zuster. Doormiddel van filters is geprobeerd om alleen de definitie zinnen te extraheren. Het bleek dat ook niet definitie zinnen geëxtraheerd werden. Om definities beter te herkennen hebben ze definities geclassificeerd, waarbij ze experimenten uitgevoerd hebben met de volgende attributen: • • • •
tekst (zins-) eigenschappen: bag-of-words, bigrams en root forms; document eigenschappen: positie van de zin in het document; syntactische eigenschappen, positie van het onderwerp in de zin; en named entity tags: named entity class (NEC) van onderwerpen.
Door het systeem deze attributen aan te leren met machine learning hebben ze geprobeerd het systeem beter te maken. Daarbij is steeds één van de attributen of een combinatie van de attributen gebruikt. De machine learning technieken die ze gebruikt hebben zijn: • naive Bayes; • maximum entropy; • en support vector machines (SVMs). De experimenten wezen uit dat simpele attributen als bag-of-words, bigrams en de positie van de zin in het document bij naive Bayes een relatief hoge nauwkeurigheid opleverde van 89,82%. De nauwkeurigheid werd groter wanneer de syntactische eigenschappen en de positie van de zin in het document beide gebruikt werden. De beste nauwkeurigheid werd behaald met maximum entropy (92.21%) zonder dat de named entity tags gebruikt werden. Daaronder zat de naive Bayes (90,26%) ook zonder dat de named entity tags gebruikt werden.
4
Hoofdstuk 2 Andere applicaties In dit hoofdstuk zal ik ingaan op twee applicaties die iets soortgelijks doen als mijn applicatie. Als eerste behandel ik een applicatie van Ariel Schmartz en Marti Hearst. Vervolgens behandel ik een applicatie van Manuel Zahariev.
Herkennen van afkortingen Ariel Schwartz en Marti Hearst4 hebben een applicatie gemaakt waarmee ze proberen afkortingen en hun betekenis in medische documenten te herkennen. Dit gebeurt aan de hand van twee hoofdtaken. De eerste taak is het extraheren van <short-form, long-form> paren uit het document. De tweede taak is het vinden van de correcte long-form uit dezelfde zin waarin de short-form staat, waarbij short-form staat voor de afkorting en long-form voor de betekenis. In de meeste gevallen staan afkortingen tussen haakjes of naast haakjes. Er zijn twee vormen: • •
Betekenis (afkorting); en Afkorting (betekenis).
De eerste vorm komt het meeste voor. Als er tussen de haakjes twee of meer woorden staan, dan is het één van de tweede vorm. Voor het herkennen van de afkortingen en hun betekenis maken Ariel Schmartz en Marti Hearst gebruik van een algoritme die met twee indexen werkt. De eerste index sIndex staat in het begin bij de laatste letter van de afkorting. De tweede index lIndex staat aan het einde van de mogelijke betekenis. De lIndex loopt over de letters terug totdat een match gevonden is. Dan loopt de sIndex een letter terug en daarna loopt de lIndex terug totdat de volgende match gevonden is. Dit gebeurt totdat de sIndex bij de eerste letter van de afkorting is en er een match is gevonden voor deze letter. Zo zou bij de het volgende paar
de sIndex beginnen bij ‘I’ en de lIndex bij de ‘t’ van Instituut. Als de eerste match (Instituut) gevonden is gaat de sIndex naar ‘M’ en de lIndex zoekt naar de volgende match (Meteorologisch). Dit gaat zo verder totdat de match (Koninklijk) gevonden is voor de ‘K’. Het algoritme is geschreven in een kort Java programma van 260 regels. Er is geen trainingsdata nodig om het programma te gebruiken. Voor de evaluatie van de applicatie hebben Ariel Schmartz en Marti Hearst gebruik gemaakt van MEDLINE en de Medstract Gold Standard Evaluation Corpus5. Daarin zitten 168 <short form, long form> paren., waarbij ze een recall van 82% haalden en een precisie van 96%, wat een hoge effectiviteit betekent. Door de hoge effectiviteit en de simpelheid van het algoritme is de applicatie beter toepasbaar dan applicaties die veel regels hanteren. Door de eenvoud is de applicatie ook transparanter dan de alternatieve applicaties. Voor dit soort simpele taken hebben Ariel Schmartz en Marti Hearst de voorkeur voor een simpel algoritme boven het gebruik van machine learning. Dit omdat het sneller werkt. Het labelen van trainingdata kost veel meer tijd.
5
Automatische term-herkenning op basis van statistiek Ido Dagan en Ken Curch6 hebben een semi-automatische tool (Termight) gemaakt dat professionele vertalers helpt met het identificeren van technologische definities. Termight werkt met twee subtaken, namelijk: 1. het genereren van een lijst met definities; 2. en het vinden van de vertalingsequivalenten. Voor de eerste taak maakt Termight gebruik van een part of speech tagger van (Church7, 1988) voor het maken van een lijst met kandidaat definities. Deze lijst wordt handmatig gefilterd. Doordat het handmatig filteren te lang duurt hebben Dagan en Curch er een interactief user interface voor gebouwd. De professionele vertaler krijgt een lijst van kandidaat definities te zien en kan zo de definities filteren. Voor het genereren van een lijst met definities volgt het algoritme van Termight de volgende stappen: • • • • •
extraheren van single-woord en multi-woord definities groeperen van de definities op basis van de head-woorden en sorteren van de groepen op basis van de head-woord frequenties; alfabetisch sorteren in omgekeerde volgorde van definities binnen elke groep; het toekennen van overeenkomende zinnen met elke term; op basis van de tekst het alfabetisch sorteren van de overeenkomende zinnen van een term.
Alleen zelfstandige naamwoorden worden herkent en single-woorden komen uit een lijst van alle worden in de tekst zonder de stopwoorden en noise woorden. Om multi-woord definities te herkennen gebruikt Termight syntactische patronen bestaande uit reguliere expressies en gevonden woorden uit een document dat getagged is met de tagger van (Church, 1988). Het groeperen van de definities op basis van head-woorden gaat aan de hand van het laatste woord van de definitie. De overeenkomende zinnen zijn er om te kunnen zien of een definitie echt een definitie is en om te kunnen zien of er multi-woord definties niet op de kandidaten lijst staan. Voor de tweede taak identificeerd Termight voor elk voorkomen van een source definitie een kandidaat vertaling gebaseerd op de ligging van de definitie woorden. Termight verzamelt de kandidaat vertalingen van alle voorkomende source definities en sorteert deze in een volgorde op basis van frequentie van laag naar hoog. De gebruiker kan vervolgens aangeven welke kandidaten goed zijn en welke nog niet op de lijst staan. De prestatie applicatie was bij de evaluatie door Dagan en Curch lang niet perfect, maar toont wel aan dat het mogelijk is om met statistische gegevens bruikbare informatie uit teksten te extraheren en die door de gebruiker te laten corrigeren.
6
Hoofdstuk 3 De applicatie In dit hoofdstuk komt mijn eigen ontworpen applicatie aan bod. De applicatie geeft uitleg over medische definities. Door op een door de applicatie herkende definitie te klikken zoekt de applicatie uitleg over de definitie op in Wikipedia. Er is gekozen voor Wikipedia, omdat Wikipedia een veel gebruikte en uitgebreide encyclopedie is.
Hoe werkt de applicatie Om definities te herkennen maakt de applicatie net zoals in het onderzoek van Sophia Ananiadou gebruik van een woordenlijst. De woordenlijst bestaat uit 1828 woorden en is opgebouwd uit het online medische woordenboek van www.ziekenhuis.nl. In de woordenlijst staan de definities in zowel het Nederlands als het in Engels. Dit om een vertaling mogelijk te maken. Het systeem zoekt alleen naar definities die bestaan uit één woord. Een geselecteerd document wordt regel voor regel ingelezen. Daarbij bekijkt de applicatie woord voor woord of het woord in de woordenlijst voorkomt. Als een woord voorkomt in de woordenlijst, dan maakt de applicatie een hyperlink aan, die het woord in de regel vervangt. In figuur 1 staat een voorbeeld van een geparsde document. De gebruiker kan bij het lezen van het document de hyperlink aanklikken voor informatie over het woord. In deze hyperlink wordt de definitie in het zowel Nederlands als Engels meegegeven aan de applicatie. Dit gebeurt om het mogelijk te maken de uitleg van de definitie op te kunnen zoeken in beide talen. De informatie over het woord zoekt de applicatie op in Wikipedia. Als het woord gevonden is geeft de applicatie de informatie weer in een apart venster. Bij een Nederlands document zoekt de applicatie in de Nederlandse versie van Wikipedia en bij een Engelstalig document in de Engelse versie van Wikipedia. Bij de weergegeven informatie kan de gebruiker kiezen om de informatie op te laten zoeken in de andere taal (Engels dan wel Nederlands). Ook als er geen informatie gevonden is kan de gebruiker kiezen om het woord op te zoeken in de andere taal. In figuur 2 staat een voorbeeld van een in Wikipedia opgezochte Engelse definitie diagnosis.
Figuur 1: applicatie voorbeeld van geparsde document
7
Het zoeken in de Nederlandse versie van Wikipedia gebeurt door de volgende URL aan te roepen: http://nl.wikipedia.org/w/index.php?title=<definitie>&printable=yes. Voor het zoeken in de Engelse versie begint de URL met http://en.wikipedia.org. Hierbij geeft Wikipedia een webpagina terug die de applicatie met PHP4 bewerkt. Meestal staat in de eerste alinea de definitie weergegeven. De eerste alinea is daarom voldoende om een beknopte uitleg te geven over de gezochte definitie. De applicatie geeft dan ook alleen de eerste alinea weer, zoals ook gebeurt bij het onderzoek van Fahmi en Bouma. Deze wordt uit de webpagina gefilterd doormiddel van reguliere expressies. Mocht de applicatie geen informatie op Wikipedia vinden, dan geeft het systeem dit aan. Definities waarvoor Wikipedia doorverwijspagina’s heeft worden door de applicatie niet weergegeven. Dit zijn pagina’s met bijvoorbeeld: <definitie> kan verwijzen naar of <definition> can refer to. Het is niet gelukt om door te linken naar de verwijspagina’s. Dit vermindert wel de prestaties van de applicatie, omdat de applicatie hierdoor van minder definities informatie kan geven.
Figuur 2: In Wikipedia opgezochte Engelse definitie diagnosis
8
De applicatie is geschreven in PHP4, HTML en Javascript. PHP is gebruikt voor: • • • •
het herkennen van definities in een document en deze te herschrijven naar een hyperlink; het opzoeken van definities op Wikipedia; het bewerken van de door Wikipedia teruggegeven informatie; en het weergeven van de uitleg.
Het herkennen van de definities gebeurt met de code 1 op de volgende pagina. In regels 4 t/m 22 wordt de woordenlijst doorlopen waarbij in regels 7 t/m 11 met reguliere expressies van het huidige woord in de woordenlijst de Nederlandse en Engelse vertaling wordt op geslagen. Vervolgens wordt in regels 13 t/m 21 afhankelijk van de taal van het document de hyperlink gegenereerd. Hierbij worden alle woorden in de gelezen regel die matchen met het huidige woord uit de woordenlijst vervangen. Code 2 geeft het javascript weer dat aangeroepen wordt als een gebruiker een hyperlink aanklikt. Javascript maakt het mogelijk om een aangeklikte definitie te laden in de PHP pagina voor het opzoeken en verdere verwerking. HTML is gebruikt in de hoofdpagina, waar gekozen kan worden tussen de voorbeeld documenten. De applicatie is te bekijken op http://hagen.let.rug.nl/~s1583271/leeshulp. 1 while (!feof($tekst)) { 2 $tLine = fgets($tekst); 3 4 while (!feof($termen)) { 5 $wLine = fgets($termen); 6 7 ereg('^([A-Z]+[a-z]+[A-Z]*[a-z]*)%',$wLine, $wTermNed); 8 $termNed = strtolower($wTermNed[1]); 9 10 ereg('%([A-Z]+[a-z]+[A-Z]*[a-z]*)',$wLine, $wTermEng); 11 $termEng = strtoLower($wTermEng[1]); 12 13 if ($taal == "ned") { // Nederlandse tekst 14 $replacement = ''.$termNed.''; 15 $term = $termNed; 16 } 17 elseif ($taal == "eng") { // Engelse tekst 18 $replacement = ''.$termEng.''; 19 $term = $termEng; 20 } 21 $tLine = preg_replace('/\b'.$term.'\b/', $replacement, $tLine); 22 } 23 rewind($termen); 24 25 echo $tLine; 26 echo '
'; 27 } 28 fclose($termen); 29 fclose($tekst);
Code 1
9
<script type="text/javascript"> function open_win(tNed, tEng, ttaal) { window.open("wikisearch.php?termNed="+tNed+"&termEng="+tEng+"&taal="+ttaal+"","_blank","to olbar=no, location=no, directories=no, status=no, menubar=no, scrollbars=yes, resizable=no, copyhistory=yes, width=400, height=400"); }
Code 2.
10
Hoofdstuk 4 Evaluatie In dit hoofdstuk ga ik in op mijn evaluatie, die ik naar aanleiding van mijn applicatie heb vastgesteld. Voor de evaluatie heb ik gebruik gemaakt van 5 Nederlandse teksten en 5 Engelse teksten, waar ik gedeeltes uitgehaald heb. De laatste drie Nederlandse teksten uit tabel 1 komen van Wikipedia. Deze heb ik gebruikt om te kunnen kijken of woorden die Wikipedia zelf doorlinkt herkend worden door de applicatie. De Engelse teksten zijn gedeeltes van verschillende wetenschappelijke medische onderzoeken die op het World Wide Web te vinden zijn.
Resultaten In de Engelse documenten staan veel meer definities die in de woordenlijst voorkomen dan in de Nederlandse documenten. In de Nederlandse documenten zijn 24 woorden herkend als unieke definities per document tegenover 41 definities in totaal. Bij de Engelstalige documenten werden 112 woorden als unieke definities herkend tegenover 226 in totaal. Het aantal herkende definities lijkt laag, maar dit is te verbeteren door gebruik te maken van meerdere woordenboek sources en thesauri dan alleen www.ziekenhuis.nl die ik gebruikt heb. Ook het aantal woorden dat Wikipedia zelf doorlinkt en herkend wordt door de applicatie kan hiermee vergroot worden. Met meer onderzoek naar het gebruik van statistische informatie zou het gebruik van statistische informatie, zoals Ido Dagan en Ken Church gedaan hebben, misschien ook tot verbetering kunnen leiden. Tekst / Nederlands I II III IV V Totaal:
Totaal aantal woorden 273 291 517 708 448 2237
Unieke definities 5 5 6 6 5 26
Totaal aantal definities 6 14 8 12 5 44
Goed herkend 5 11 5 8 3 32
Unieke definities 12 35 25 23 17 112
Totaal aantal definities 19 94 38 33 42 226
Goed herkend 9 67 26 18 11 131
Recall % 83,3 78,5 62,5 66,7 60,0 72,7
Tabel 1: scores Nederlandse teksten
Tekst / Engels I II III IV V Totaal:
Totaal aantal woorden 265 883 510 460 367 2485
Recall 47,4 71,3 68,4 54,5 26,2 58,0
Tabel 2: scores Engelse teksten
Uit de resultaten blijkt dat Nederlandse medische definities beter te vinden zijn dan Engelse definities, zie tabel 1 en 2. De totaalscore voor Nederlandse definities heeft een recall van 73,2% en voor Engelse definities een recall van 58,0%. De lage totaalscore van de Engelse teksten is te wijten aan teksten I, IV en V die alle drie een recall hebben van lager dan 60%. Deze wegen te veel op tegen de andere twee teksten. De recalls zijn berekend met alle
11
gevonden definities in een tekst, dus niet met de unieke definities. Dit zijn tegenvallende resultaten. Van te voren had ik hogere waardes verwacht. Wat vooral opvalt, is dat de Engelstalige tekst V een recall heeft van maar 26,2%. Hierbij zijn van simpele woorden als negative en function geen informatie gevonden. Bij nader onderzoek blijkt het hier te gaan om doorverwijspagina’s. Function komt in totaal 6 keer voor in de tekst. Met een tekst met 42 definities heeft dit een grote impact op de score. Dit geeft gelijk aan dat het weglaten van doorverwijspagina’s een slechte invloed heeft op de prestaties van de applicatie. Verder valt op dat de Nederlandse tekst I een recall heeft van 83,3%. Dit is de hoogste score van allemaal. De resultaten van de Nederlandstalige teksten en de Engelstalige teksten zijn eigenlijk niet met elkaar te vergelijken, omdat de Nederlandse teksten veel minder definities hebben, dan de Engelse teksten. Dit heeft te maken met het gebrek aan betere Nederlandstalige teksten. De applicatie heeft de mogelijkheid om bij de weegegeven informatie over een Nederlandse definitie de informatie weer te geven in het Engels en andersom. Daarom heb ik gekeken of de prestatie van de applicatie verbeterd wordt door een in het Nederlands niet gevonden definitie op te zoeken in het Engels en andersom. Bij de Nederlandse teksten verbetert de recall tot 81,1%. Bij de laatste drie teksten stijgt de recall niet en blijft het aantal gevonden definities gelijk. Bij de Engelse teksten verbetert de recall wel aanzienlijk tot 79,6%. Waarbij tekst I de beste stijging laat zien (van 47,4% naar 68,4%). Dit komt mede doordat deze tekst het minste aantal definities bevat. Als je in absolute getallen gaat kijken, dan heeft tekst II de grootste stijging met tien extra gevonden definities. De laagste stijging is te zien bij tekst V. Daar blijft de recall onder 50% staan, deze is namelijk 30,9%. Taal/Tekst Nederlands Engels
I 100 68,4
II 100 81,9
III 62,5 86,8
IV 66,7 69,7
V 60,0 30,9
Tabel 3: Recall met zoeken in andere taal
Nog een paar opvallende dingen zijn dat de applicatie van simpele definities als functie (function), extreem (extreme) en advice geen informatie vindt. Van advise is bij de Nederlandse vertaling (advies) wel informatie te vinden. Dit heeft te maken met het feit dat deze definities betrekking hebben op meerdere dingen of meerdere betekenissen hebben. Hierdoor bestaan er voor deze definities op Wikipedia verwijspagina’s en de applicatie filtert deze pagina’s er uit. Van de Engelse definitie population geeft Wikipedia verkeerde informatie terug. De Nederlandse informatie klopt wel.
12
Conclusie Met mijn applicatie heb ik geprobeerd om een hulpmiddel te maken voor het begrijpelijker maken van medische wetenschappelijke teksten. De resultaten van het onderzoek tonen aan dat de applicatie voor verbetering vatbaar is. De scores zijn lager dan verwacht. Toch laat de applicatie zien dat het mogelijk is om informatie over medische definities op te zoeken in Wikipedia en dat het mogelijk is om daaruit alleen de benodigde informatie te extraheren. Het opzoeken gaat met een relatief simpele methode, namelijk met een woordenlijst. Dat de resultaten tegenvallen, komt voornamelijk doordat definities waarvan doorverwijspagina’s bestaan aangemerkt worden als geen informatie gevonden. Er kan onderzoek gedaan worden hoe via deze doorverwijspagina’s toch de juiste informatie weergegeven kan worden. Ook zou een toekomstige versie gebruik kunnen maken van een subset van Wikipedia in XML-formaat. Dit heeft als voordeel dat er andere zoektechnieken gebruikt kunnen worden. Het nadeel is dat de applicatie dan niet zoekt in de nieuwste informatie. Het is mogelijk om de applicatie uit te breiden voor het zoeken van definities in andere domeinen van het medische domein, bijvoorbeeld ICT of economische wetenschap. De functionaliteit voor zoeken naar definities die uit meerdere woorden bestaan kan ook toegevoegd worden. Het uitbreiden van het woordenboek met meerdere woordenboek sources kan de prestaties van de applicatie verbeteren. Daarnaast kan het gebruik van statistische informatie ook de prestaties verbeteren, maar hier moet eerst meer onderzoek naar gedaan worden. Verder kan de mogelijkheid voor het herkennen en uitleg geven over afkortingen toegevoegd worden, zoals Ariel Schwartz and Marti Hearst hebben gedaan. Dit zit niet in de huidige applicatie, omdat er geen lijst met medische afkortingen/acroniemen beschikbaar is. Het geeft de mogelijkheid om snel afkortingen in tekst op te zoeken. Daarnaast is de zoekbron Wikipedia uit te breiden met andere bronnen, bijvoorbeeld met WordNet of een andere database. Kortom: meer onderzoek en uitbreiding aan de hand van mijn applicatie zullen waarschijnlijk leiden tot betere resultaten, maar mijn applicatie is een goede start voor het begrijpelijker maken van medische wetenschappelijke teksten.
13
Referenties 1
Sophia Ananiadou,1994, A methodology for automatic term recognition, Proceedings of the 15th conference on Computation linguistics – Volume 2
2
Ismail Fahmi and Gosse Bouma, 2006, Learning to Identify Definitions using Syntatic Features, Proceedings of the EACL 2006 workshop on Learning Structured Information in Natural Language Applications
3
Rob Malouf en Gerjan van Noord, 2004, Alpino automatische ontleder (parser) voor het Nederlands, http://www.let.rug.nl/~vannoord/alp/Alpino 4
Ariel Schwartz and Marti Hearst, 2003, A Simple Algorithm For Identifying Abbreviation Definitions in Biomedical Text, Proceedings of the Pacific Symposium on Biocomputing, http://citeseer.ist.psu.edu/schwartz03simple.html 5
Medstract Gold Standard Evaluation Corpus, http://scylla.cs.brandeis.edu/goldstandards.html 6
Ido Dagan and Ken Church, 1994, Termight: Identifying and Translating Technical Terminology, AT&T Bell Laboratories
7
Kenneth W. Church, 1988, A stochastic parts program and noun phrase parser for unrestricted text, In Proceedings of ACL Conference on Applied Natural Language Processing
14