PaCo-MT Parse and Corpus-based Machine Translation
STEVIN Programmadag 2010
1
Project: PaCo-MT • • • •
2008-2011 Gesponsord door NL Ù EN NL Ù FR Consortium partners – CCL – KULeuven – Alfa-Informatics – RUGroningen – OneLiner bvba Translation Services
STEVIN Programmadag 2010
2
Parse & Corpus-based MT • In SMT wordt geleerd op basis van • Parallelle teksten • Doeltaalteksten
• In PaCo-MT wordt geleerd op basis van • Parallelle treebanks • Doeltaaltreebanks
STEVIN Programmadag 2010
3
Treebanks • Automatische syntactische annotatie (parsing) van teksten • NL: Alpino (van Noord 2006) • EN: Stanford parser (Klein & Manning 2003) • FR: Malt parser (Nivre 2007) • Getraind op French Treebank (Abeillé 2003)
• Dit zijn gratis beschikbare parsers !
STEVIN Programmadag 2010
4
Corpora • Parallel • Europarl (Koehn 2005) • DGT-TM (Steinberger 2007) • DPC • Translation Memories (OneLiner)
• Mono • British National Corpus • STEVIN projects: Dcoi / Lassy / Sonar (+ CGN) • Alpino treebank (van Noord) • French treebank (Abeillé 2003) • Much more STEVIN Programmadag 2010
5
Alignering • Zinsalignering • Europarl zinsaligner • Hunalign
• Woordalignering • GIZA++ (Och & Ney) • Moses (Koehn et al)
• Knoopalignering • Lingua::Align (eigen werk: Tiedemann & Kotzé 2009)
• Verschillende algorithmes worden experimenteel getest
STEVIN Programmadag 2010
6
Aligneringsvoorbeeld
<sl id="1_504" tlid="1_503" cat="PP" rel="prep"> <node id="1_5" tlid="1_1" pos="IN" rel="hd" root="of" token="of" /> <node id="1_506" tlid="1_505" cat="NP" rel="pobj"> <node id="1_7" tlid="1_2" pos="DT" rel="det" root="the" token="the" /> <node id="1_8" tlid="1_3" pos="NNPS" rel="hd" root="Minutes" token="Minutes"/> <node id="1_1" pos="prep" rel="hd" root="van" token="van" /> <node id="1_505" cat="np" rel="obj1"> <node id="1_2" pos="det" rel="det" root="de" token="de" /> <node id="1_3" pos="name" rel="hd" root="Notulen" token="Notulen" />
STEVIN Programmadag 2010
7
Transfer • Uit gealigneerde knopen worden automatisch stochastische TRANSFER- regels afgeleid • Frequentie van transferpatroon in data • Aligneringsgewicht
• De brontaalboom wordt omgezet in een doeltaalwoud • Verschillende transfer-mechanismen worden onderzocht NP[DET N PP[PREP NP]] => NP[NP[DET N] PP[PREP NP]] MWU[MWP[Europese] MWP[Unie] => NP[ADJ[European] N[Union]] STEVIN Programmadag 2010
8
Doeltaalsynthese • In de transfermodule wordt abstractie gemaakt van de volgorde van dochterknopen onder de moederknoop • Het doeltaalmodel selecteert de meest waarschijnlijke volgorde(s) volgens de doeltaaltreebank • Verschillende features worden onderzocht op hun kwaliteit om de volgorde te voorspellen • Dependency relaties • Hoofden / Lemmas van hoofden • Categorieën / parts-of-speech / subcategorisatie-frames • Combinaties
STEVIN Programmadag 2010
9
Doeltaalsynthese
sv1
--
--
Herschrijfregels top: sv1 punct sv1: verb adv np pp np: det noun
pp
punct
top
obj1 hd mod np mod det hd verb adv det zie
noun
ook het kaartje
hieronder .
STEVIN Programmadag 2010
10
Integratie • Al deze prototype-componenten worden met elkaar verbonden, ook al draaien ze op verschillende machines • Ontwikkeling van een eengemaakt configuratiemechanisme • Parse parameters • Transfer parameters • Synthese parameters
• Ontwikkeling POSIX wrapper • Java + apache.commons • Glassfish application server
STEVIN Programmadag 2010
11
Glassfish Platform
STEVIN Programmadag 2010
12
Grafische User Interface • Drupal module ontwikkeling voor elke module • Maakt distributie en configuratie makkelijker
STEVIN Programmadag 2010
13
Drupal module configuratie voor Alpino
STEVIN Programmadag 2010
14
Grafische user interface
STEVIN Programmadag 2010
15
Post-editing Interface • Work in progress • Staat toe om gegenereerde vertalingen te verbeteren • Houdt rekening met verschillende alternatieve vertalingen en staat toe om delen te kiezen uit andere vertalingen • Wordt teruggekoppeld aan corpus-informatie zodat PaCo-MT bijleert
STEVIN Programmadag 2010
16
Stand van zaken • Momenteel hebben we een geintegreerd taalonafhankelijk basissysteem • Meer linguistische data wordt nog toegevoegd • Er worden van de verschillende componenten verschillende settings uitgeprobeerd om te bepalen wat de beste resultaten geeft • Er wordt nog gewerkt om de snelheid van het systeem te verhogen • Er wordt nog gewerkt aan een krachtiger transferformalisme STEVIN Programmadag 2010
17
Publicaties Martens, S., and Vandeghinste V. (2010). An Efficient, Generic Approach to Extracting Multi-Word Expressions from Dependency Trees. In Proceedings of the CoLing Workshop: Multiword Expressions: From Theory to Applications (MWE 2010). Vandeghinste, V., and Martens, S. (2010). Bottom-up transfer in Example-based Machine Translation. In Proceedings of EAMT 2010. European Association for Machine Translation. Saint-Raphael Tiedemann, J. & Kotzé, G. (2009). Building a Large Machine-Aligned Parallel Treebank. Proceedings of TLT-8. Vandeghinste, V. & Martens, S. (2009). Top-down Transfer in Example-based MT. Proceedings of 3rd Workshop on EBMT. Dublin. pp. 69-76. Tiedemann, J., & Kotzé, G. (2009). A Discriminative Approach to Tree Alignment. Proceedings of RANLP. Van den Bogaert, J. (2009). The emergence of hybrid machine translation systems and their integration into business processes. Berkeley Globalization Conference. Journal of Internationalisation and Localisation. Vandeghinste, V. (2009). Tree-based Target Language Modeling. In EAMT-2009: Proceedings of the 13th Annual Conference of the European Association for Machine Translation , ed. Lluís Màrquez and Harold Somers, 14-15 May 2009, Universitat Politècnica de Catalunya, Barcelona, Spain; pp.152-159.
STEVIN Programmadag 2010
18