Computationele Taalkunde in Groningen Nerbonne Achtergrond Ontleden (Parsing)
Informatiekunde in Groningen
Informatie Extractie Uitspraakvergelijkingen Andere projecten
John Nerbonne Alfa-informatica Rijksuniversiteit Groningen
Huus van de Taol 3 juni 2009
Computationele Taalkunde in Groningen Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
Technologie voor taal
Computationele Taalkunde in Groningen
Informatiekunde
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• Studie waar computer centraal staat: Programmeren,
ontwerpen, analyseren van ICT producten • Gericht vooral op taal en geschiedenis • Veel afgestudeerden in grotere ICT bedrijven of met
eigen bedrijven • Een aanrader voor jongen mensen die in ICT verder
willen! • Vandaag: Een kijk in de keuken van de onderzoekers
Computationele Taalkunde in Groningen
Nederlandse syntaxis top
Nerbonne
smain
Achtergrond vc
Ontleden (Parsing)
ppart
Informatie Extractie
mod adv vannacht11
mod
pp
Uitspraakvergelijkingen Andere projecten
hd prep bij0 hd noun juwelier1
obj1
np
app noun A. B. Bakema2
det det de6
1
ld
1 np
pp
obj1 noun twintig over twee13
det det een16
mod adj half17
pp
hd noun tegel18
hd prep door19 det det de20
mod
hd prep aan5
su
obj1
mod
hd prep om12
hd verb ben10
pp
obj1
np
hd noun A-straat7 hd prep in8
mod
pp
obj1 noun Groningen9
hd verb gooi22
obj1
np
hd noun ruit21
Computationele Taalkunde in Groningen
Van Noord: Parsing
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• Taalkundige grammatica plus • Stochastisch model van toepassing • 30 jaargangen kranten (≈ 500 Mln woorden), 8 CPU
jaar • Informatiekunde: 10-20% HPC cluster use • Verbeteringen t.a.v. ANS, Van Dale • Samenwerkingen met Van Dale, KPN, Spectrum, ... • Basis voor practische toepassingen
Computationele Taalkunde in Groningen
Parsing Nauwkeurigheid (F-Score)
Nerbonne Achtergrond Ontleden (Parsing)
Uitspraakvergelijkingen
86 82
84
Accuracy
88
Andere projecten
90
Informatie Extractie
0
50
100
150 Time (weeks)
2PR
200
250
300
Computationele Taalkunde in Groningen
Toepassingen van Parsing
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• OVIS, Openbaar Vervoer Informatiesysteem • Telefooninformatiesysteem voor NS • Samenwerking met Philips, KPN • 83% gesprekken succesvol • Sentimentanalyse in politieke krantartikels • VU dissertatie • detecteert positieve/negatieve attitude • Standaardgebruik in veel projecten • STEVIN (NL/BE, OCW, EZ, NWO) • Voorbeeld: interpreteer verwijzingen (hij, zij, ...) • Informatie Extractie
Computationele Taalkunde in Groningen
Bouma: Vragen beantwoorden
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• Vind exact antwoord in tekstverzameling
Wanneer is Willem de Zwijger overleden? — 1584 in Delft • Internationale Concurrentie: CLEF • Bronnen: AD & NRC (1994 & 1995) • Test sets: 200 vragen
• 4,1M zinnen (XML bestanden), 78M woorden • allemaal ontleden, opgeslagen • 25 Gb, 500 CPU dagen
Computationele Taalkunde in Groningen
Rol van taalkunde?
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie
Wie verleende asiel aan Mengistu?
Uitspraakvergelijkingen Andere projecten
• Zimbabwe verleende asiel aan Mengistu • Aan Mengistu werd asiel verleend door Zimbabwe
Wanneer vond de Duitse hereniging plaats? • Sinds de Duitse hereniging in oktober 1989 ... • Al in ’62 voorspelde hij de Duitse hereniging ... • datum syntactisch afhankelijk van hereniging
Computationele Taalkunde in Groningen
CLEF ’05 Evaluatie
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• Data vrijgegeven: 18 mei, resultaten ingediend: 25 mei • 200 vragen • 60 definitie vragen (Wat is gingivitis?) • 49,5% correct (op 2 na ’s werelds beste, beste in NL)
’s werelds beste vóór 2005: 47% (2004)
Computationele Taalkunde in Groningen Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
Medische Terminologie • Extraheer terminologie, verhoudingen van medische
teksten • renale dysplasië, nierenfalen, renale infectie,
glomerulaire filtratiesnelheid, hydronephrosis, kreatinefosfaat, acute glomeruli-nefritis, ... • streptococcale longontsteking is bacteriële longontsteking is pneumonia is longziekte is cardio-pulmonaire ziekte is ... • hoge koorts is-symptoom-van streptococcale longonsteking • bacteriële longontsteking veroorzaakt glomeruli-nehpritis • Bronnen: Wikipedia, Merck, Elsevier Medical
UMLS (Unified Medical Language System) • Toepassingen in indiceren, opleiding, automatisch
samenvatten,... • Fahmi proefschrift
Computationele Taalkunde in Groningen
Reeksvergelijkingen
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• Vergelijkbaarheid in uitspraak meten • Editafstand, (pair) Hidden Markov Models • Applications • Detecteer verwisselbare drogennamen (Kondrak, FDA) • Detecteer transliteraties van vreemde namen IR, IE Pervez Musharraf, Pervez Musharaf, ...
Computationele Taalkunde in Groningen Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
Dialectuitspraken: 108 vergelijkingen
Computationele Taalkunde in Groningen
Andere taalprojecten
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
• Woordenboek van de Drentse Dialecten!! • Digitalisering van Sonttolregisters (G. Welling) • Diagrammatische Redenatie (L. Bosveld) • Automatische Vertaling (J. Tiedemann) • Tekstverrijking (geographische referentie, definities) • toevoeging voor krantteksten • e-learning • Ideën (dromen) • Invloeddetecteren (stijl, ..., plagiaat) • Informatie extractie voor rechtsteksten, technische hanboeken, ... • Webdiensten voor geestes- en sociaalwetenschappers (samenwerking met UB Groningen)
Computationele Taalkunde in Groningen
Technologie voor taal
Nerbonne Achtergrond Ontleden (Parsing) Informatie Extractie Uitspraakvergelijkingen Andere projecten
www.infokunde.nl Informatiekunde: voor studenten die graag met computers werken!