Implicit linguistics Machine learning of text-to-text processing
Voorspel het volgende woord
Mijn woordvoorspellingssysteem • verzamelt voorbeelden van woorden in context • slaat ze op in een geheugen • Bij een nieuw missend woord: – vergelijkt nieuwe context met opgeslagen voorbeelden – voorspelt woord horend bij de meest gelijkende context
Wat is het missende woord
• Voorbeelden van woorden in context in overvloed (kranten, archieven, internet) • Praktisch probleem: – Miljoenen voorbeelden opslaan? – Zoeken in miljoenen voorbeelden?
• Beslissingsbomen: combinatie van – Compacte opslag van voorbeelden – Regelvormige generalisatie uit opgeslagen voorbeelden
1
Voorbeeld: voorspel say of says
Dit alles zonder taalkundige abstracties Regel: voorspel say, tenzij linkerwoord he, she, of it is; voorspel dan says
2
Hoe kom ik erop? • Mijn Vernieuwingsimpulsproject “Memory models of language”: er wordt te weinig afgevraagd of abstractieniveaus wel nodig zijn • Eigen onderzoek uit 2002:
• Een andere “tekst-in, tekst-uit” toepassing is vertalen • Eenvoudige interpretatie, analoog aan woordvoorspelling: – Woord in context in taal A – Vertalen naar het corresponderende woord in taal B
– woordsoorten, een gangbare taalkundige abstractie, bleken vervangen te kunnen worden door de woorden zelf in een tekstanalyse-taak
Liam kreeg een nieuwe fiets
Voorbeeld: vertaal Liam kreeg een nieuwe fiets • naar het Engels • Voorbeeldmateriaal: Europees parlement
Liam kreeg een nieuwe fiets
Liam
Vraag nummer 8 van Liam Hyland (H-0167/03):
Liam
Vraag nummer 20 van Liam Hyland (H-0234/03):
Liam
Liam
Vraag nummer 5 van Liam Hyland (H-0379/02):
Liam
Vraag nummer 8 van Liam Hyland (H-0167/03):
Liam
Vraag nummer 20 van Liam Hyland (H-0234/03):
Liam
Liam
kreeg
een nieuwe fiets
?
Ik
kreeg
een knikje en dacht…
Liam
Vraag nummer 5 van Liam Hyland (H-0379/02):
?
got
Liam
3
Liam
kreeg
een nieuwe fiets
got
Liam kreeg
een
nieuwe fiets
Ik
kreeg
een knikje en dacht…
got
… een mandaat voor
een
nieuwe overeenkomst …
… als u tenminste
een
nieuwe regel kunt …
U kunt dus
een
nieuwe fase van …
a
Ik kreeg
een
knikje en dacht …
a
got
Liam
a one
Liam got
Liam kreeg
een
nieuwe fiets
… een mandaat voor
een
nieuwe overeenkomst …
… als u tenminste
een
nieuwe regel kunt …
U kunt dus
een
Ik kreeg
een
Liam got
?
a a
Liam kreeg een nieuwe fiets … mandaat voor een nieuwe overeenkomst …
? new
one
… behoefte aan een nieuwe aanpak van hun …
new
nieuwe fase van …
a
U kunt dus een nieuwe fase van de …
new
knikje en dacht …
a
a
Liam kreeg een nieuwe fiets … mandaat voor een nieuwe overeenkomst …
Liam got a
new
Liam kreeg een nieuwe
fiets
?
new
… het gebruik van de
fiets
bevorderd wordt …
bicycle
… behoefte aan een nieuwe aanpak van hun …
new
… van een helm op de
fiets
wordt onderzocht …
bicycle
U kunt dus een nieuwe fase van de …
new
Liam got a
new
Liam got a new
4
Liam kreeg een nieuwe
fiets
… het gebruik van de
fiets
bevorderd wordt …
bicycle
… van een helm op de
fiets
wordt onderzocht …
bicycle
Liam got a new
bicycle
bicycle
Oplossingen nodig voor • Zinnen van verschillende lengte • Verschillen in woordvolgorde
Liam kreeg een nieuwe fiets
Liam got a new bicycle
Waar staat mijn voorstel in de taalkunde?
Oplossingen uit bestaand werk
Generalisatie
• Taalkundige modellen – Verklaren en voorspellen door generalisaties te maken
• Abstractie lijkt hierbij noodzakelijk. Immers, het tegenovergestelde
Abstractie
– verklaart niets, maar somt alleen op – voorspelt niets dan wat al eens gezien is
• Maar het is belangrijk om het concept generalisatie los te zien van abstractie – Mijn aanpak abstraheert niet, maar generaliseert wel
Geen abstractie
Geen generalisatie
Regels
Voorbeelden gecomprimeerd tot generaliserende regels
Voorbeelden
5
Doel van mijn voorstel: • De creatie van niet-abstraherende modellen van woordvoorspelling en vertalen • die wel generaliseren • en die complexe beslissingen kunnen nemen zonder expliciete abstracte taalkundige noties te gebruiken.
More explanation please • Motivations
My Ph.D. thesis (1997) •
– My Ph.D. thesis (1997) – Van den Bosch & Buchholz (2002)
• Word prediction
Word pronunciation – –
•
Classical solution 1. 2. 3. 4. 5.
– Memory-based language modeling – Confusible correction
• Machine translation – Example-based MT – N-gram post-processing
Morphological analysis Graphemic parsing Grapheme-phoneme conversion Syllabification Stress assignment
My solution
• • •
Van den Bosch & Buchholz (2002)
Input: word Output: phonemic representation, with stress
Direct conversion of letters to phonemes+stress Worked better than 5, 3, or 2 substeps
Van den Bosch & Buchholz (2002)
Simple intuition: • PoS disambiguate explicitly suspect-N vs suspect-V • words disambiguate implicitly … the suspect … … we suspect …
6
Word prediction • “archetypal problem of NLP” (Even-Zohar, Roth, Zelenko, 1999) • Different from word completion • Predict what? – the next word – the missing word
• The next word itself, or a set of possible words, with probabilities
A special problem • Examples abound in huge quantities • When viewed as prediction task, – Extremely many classes, – having same (Zipfian) distribution as features.
• Many ML algorithms will not scale “very well”.
Memory-based word prediction
Data
• IB1 has scaling problems – (Even TiMBL) – Trees get too big – (Even Medusa’s 48 Gb is not enough)
• But: IGTree!
Data set
– Increasing amount of learning material – Direction: from recent to past
• What to expect? – Constant improvement with doubling of training examples?
Genre
Number of tokens
TRAIN-REUTERS
Reuters Corpus Volume I
newswire
130,396,703
TEST-REUTERS
Reuters Corpus Volume 1
newswire
100,000
TEST-ALICE
Alice’s Adventures in Wonderland
fiction
33,361
TEST-BROWN
Brown (Penn Treebank)
mixed
453,446
Experiments • Learning curve
Source
Details & variants • Windowed data: – “middle” task: 7 left - 7 right window
• Hapaxing: – – – –
If word occurs below threshold, convert it to HAPAX Only include non-HAPAX examples in training set But include them in test set Thresholds 10, 100, 1000
7
Train RCV1, test Alice
Train RCV1, test Brown
Train and test on RCV1
Numbers of nodes
Speed
Example concatenated “output” • Portuguese Prime Minister Antonio Guterres appealed Kohl recently to use his trip to exert a positive influence on Jakarta improve what he described as "intolerable conditions" in East Timor. • - Finance Minister Antonio Guterres plans to the was, change his powers to discuss a big impact on Tuesday newsroom, he described as an challenging are an East Germany.
8
Example concatenated “output”
Example concatenated “output”
• Portuguese Prime Minister Antonio Guterres appealed Kohl recently to use his trip to exert a positive influence on Jakarta improve what he described as "intolerable conditions" in East Timor. • - Finance Minister Antonio Guterres plans to the was, change his powers to discuss a big impact on Tuesday newsroom, he described as an challenging are an East Germany.
• Portuguese Prime Minister Antonio Guterres appealed Kohl recently to use his trip to exert a positive influence on Jakarta improve what he described as "intolerable conditions" in East Timor. • - Finance Minister Antonio Guterres plans to the was, change his powers to discuss a big impact on Tuesday newsroom, he described as an challenging are an East Germany.
More example errors
Confusibles
• • • • • • • • • • •
economic ties Indonesia’s ($ 4.45 billion) final reading sceptical awaiting low automaker favor studying …
- bilateral cooperation - Arizona’s - ($ 1.99 billion) - third stage - bullish - withholding - high - producer - favour - mulling -…
Confusibles: experiments
• Limit prediction task between confusible alternative wordforms – Training examples: all occurrences of the alternatives – Test examples: any new occurrence of any of the alternatives
• Purpose: for correction – But: confusible disambiguation has been focus of research itself (Mangu & Brill, 1997; Golding & Roth, 1999; Even-Zohar & Roth, 2000; Huang & Powers, 2001; Banko & Brill, 2001) – (take actual word in test data as gold standard)
There vs. their vs. they’re
• Additional data: – 1,096,950,281 words from New York Times 1994-2002 (part of the Gigaword corpus)
• Nine confusible sets from Golding & Roth (1999): Cite, sight, site
Fewer, less
Than, then
Accept, except
Among, between
There, their, they’re
Affect, effect
I, me
To, too, two
9
Confusibles vs. all-words prediction
Confusibles in three test sets
Machine translation
Idea
• Known for bad “funding vs result” ratio and science fiction literature • Has had several fashions – Interlingua-based – Current: statistical MT (because of current evaluation metric favoring SMT)
• One strong undercurrent completely based on memory – Translation memories – Example-based machine translation
Crackpot idea? • No, classification-based MT is also explored at Dublin City University (Andy Way); approach is similar • Only “linguistic” abstraction necessary is to identify “marker words”, i.e. closed-class function words, marking chunk segments • Research partnership with DCU is planned
10