Autonomata, Too Henk van den Heuvel CLST, Radboud Universiteit Nijmegen
AUTONOMATA Too • • • • •
CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel ELIS, Universiteit van Gent: Jean-Pierre Martens, Bert Réveil Nuance: Bart d’Hoore TeleAtlas: Luc Peirlinckx, Luc Mortier UiL-OTS: Gerrit Bloothooft, Marijn Schraagen
• Hetzelfde consortium als in Autonomata
Doelen van het project • ASR van POIs verbeteren • Bouwen van demo-applicatie om proof of concept te laten zien • POIs: – Hotel/Motel: • Accor Ruisbroek Humaniteitslaan • Ad Foendoem
– Resto/Nightlife: • Eat-Things • Eb en Vloed
Achtergrond van het project • Prestatie van ASR voor gewone woorden hangt sterk af van uitspraakvariatie • Bij ASR voor namen is dat nog sterker het geval. Dat komt door: – Onaangepaste spelvormen – Buitenlandse namen – Buitenlandse sprekers van inlandse namen
• Doelstelling van Autonomata Too: greep krijgen op deze uitspraakvarianten – Door automatisch succesvolle uitspraakvarianten te genereren voor het herkenningslexicon – Door het gebruik van P2P-convertoren
Voorbeelden Naam: Spreker: FL EN FR MR
NL
EN
FR
MR
Guido Mensaert
Queen Elisabeth street
Quai de l’Industrie
Faiza Choueikh
Autonomata, Transfer Of Output • Resultaten van Autonomata: 1. Het Autonomata gesproken namencorpus 2. P2P–omzetter voor persoonsnamen: NL & VL 3. P2P-omzetter voor plaats- en straatnamen: NL & VL 4. P2P leersoftware, toepasbaar op: 1. Andere typen namen 2. Andere talen 3. Niet canonieke uitspraken
5. Transcriptietools die p2p’s kunnen aanwenden
Autonomata Naamcorpus 120 uit Nederland
60 autochtoon
15 Noord- en Zuid-Holland 15 Gelderland 15 Groningen, Friesland, Drenthe 15 Noord-Brabant, Limburg
60 allochtoon
20 Engels 20 Frans 20 Marokkaans Arabisch
120 uit Vlaanderen
60 autochtoon
15 Brabants 15 Oost-Vlaams 15 West-Vlaams 15 Limburgs
60 allochtoon
20 Engels 20 Frans 20 Marokkaans Arabisch
Autonomata naamcorpus Spraakmateriaal: – 70% Nederlands/Vlaamse namen – 10% Engelse namen – 10% Franse/Turkse namen – 10% Marokkaanse namen Iedere spreker las: - 69 persoonsnamen (voor- en achternaam) - 112 toponymen (straatnamen, plaatsnamen)
Oude versie P2P-transcriptietool • Schema
text
standard g2p
input conversion
domain p2p
LH+ / CGN
LH+ / CGN
• Keuzes – taal (G2P) = DUN of DUB – foneemset = LH+ (geen conversie) of CGN – transcriptie met of zonder p2p
Nieuwe versie • Schema text
standard g2p
input conv domain p2p
transcription
• Talen (G2P): DUN, DUB, ENG, FR, GE • Foneemsets: incl outputconversie • Meerdere p2p-convertoren (niet zichtbaar) • Foneemtranscripties als input voor P2P
output conv
ASR evaluatie van P2Ps: EXP-transcripties (CLST) Name source Speakers NL EN FR MR FL NER 2.9 5.8 3.9 3.3 rNIR -10.6 14.2 11.3 25.0
Names NL
Speaker origin NL EN FR NER rNIR -
19.1 -0.5
18.2 5.7
MR 11.0 4.3
•Voor moedertaalsprekers zien we een flinke herkenverbetering • Voor buitenlandse sprekers zien we een geringe verbetering
Multilinguale herkenningsexperimenten (ELIS) • Taalindeling – NAT: native taal (hier: NL) – NN1: non-native talen die de spreker kent (hier: Engels, Frans (en Duits)) – NN2: andere non-native talen (hier: Marokkaans en Turks)
• Baseline herkenningssysteem – Monolinguale ACM, monolinguale g2p transcripties
• Beste herkenningssysteem – Multilinguale ACM, 2 extra buitenlandse g2p transcripties
Multilinguale herkenningsexperimenten (ELIS) Base: NER (%): AC-MONO – DUN g2p transcripties Naam-origine
Baseline • (NAT,NAT) is OK
Sprekerorigine
NAT
NN1
NN2
All
NAT
3.9
22.5
12.6
8.7
NN1
18.1
37.5
14.7
21.8
NN2
22.5
36.4
29.3
26.0
All
12.4
30.1
17.8
16.6
Best: NER (%): AC-MULTI – DUN, ENG, FRF g2p transcripties Naam-origine
• Andere niet
Beste systeem • Toevoegen non-native transcripties − verbetert NN1 naam-
herkenning • Multiling. akoest. modellen − Modelleren buitenlandse
Sprekerorigine
NAT
NN1
NN2
All
NAT
4.9
5.9
8.9
5.7
NN1
11.6
7.1
6.9
10.0
− Modelleren buitenlandse klanken van NN1 sprekers
NN2
21.6
21.0
20.0
21.3
− (NAT,NAT) wordt slechter
All
10.8
9.6
11.6
10.7
klanken in NN1 (en ook NN2) namen
Autonomata TOO spraakcorpus (UiL-OTS) Taalachtergrond spreker
Doel
Gerealiseerd
Te doen
Nederlands
20 20 40
19 20 39
1 0 1
Engels
10
10
0
Frans
10
7
3
Turks
10
4
6
Marokkaans
10
1
9
Totaal
80
61
19
Nederland Vlaanderen Totaal