Beszédtechnológia a médiában
Tibor Fegyó SpeechTex Kft.
SpeechTex Kft Célunk korszerű beszédfelismerő motor és kapcsolódó alkalmazások, megoldások fejlesztése, kapcsolódva a hanganalitikai, hangbányászati feladatokhoz Fő kutatás-fejlesztési területek : • Nagyszótáras beszédfelismerés • Beszédanalitika • Multimédia archívumok indexelése • Automatikus hívásirányítás • Multimodális felhasználói felületek • Magyar és közép-európai nyelvekre fókuszálva
Beszédtechnológia a médiában
2
Beszédfelismerési technológia • Saját fejlesztésű beszédfelismerő motor és fejlesztői környezet • Kliens-szerver alapú, elosztott működést támogató felismerő motor • Valós idejű feldolgozás komplex, nagyméretű modellek esetén is • Nincs szótárméret korlát, akár millió szavas szótár is kezelhető • Egyedi, személyre szabott beszédfelismerési modellek • Akusztikus modellezési módszerek: hagyományos GMM (Gaussian
Mixture Modell) és újabban DNN (Deep Neural Network) • Nyelvi modellezési módszer: WFST (Weighted Finite States
Transducers) • Nem csodaszer: nem hibátlan, nem univerzális, nem végtelenül gyors
Beszédtechnológia a médiában
3
Motiváció • Motiváló statisztikák Youtube 2,5m+ óra feltöltés havonta Médiafigyelés: ~400 rádió / TV adó Magyarországon Az élő műsorok aránya ismét nő
Beszédtechnológia a médiában
4
Feladatok, kihívások • A „nagyok” számára kötelező a feliratozás, ami
valós időben emberi erővel nem megoldható • A videók életciklusát, használhatóságát a
kereshetőséggel, indexeléssel lehet növelni • Élő műsorok kihívásai A beszédfelismerő számára kijelölt témakör egyre szélesebb A spontán beszéd jelentősen különbözik a tervezett bemondói beszédtől
Beszédtechnológia a médiában
5
Mikor tekintjük jónak a beszédfelismerőt? • Általános megközelítés szerint a beszédfelismerés
pontosságát szóhibaaránnyal mérjük. •
substitution insertion deletion WER( word error rate) number _ of _ input _ words
• WER egy jól definiált feladaton, parlamenti
jegyzőkönyvek esetén:
hivatalos kézi lejegyzés hibája: WER = 15.7% gépi beszédfelismerés hibája: WER = 19.2%
• Szükség lenne szöveganalitikai indíttatású
hibaarány definícióra Beszédtechnológia a médiában
6
Nyelv modellezése • Tipikus korpusz méret: 10-100M tokens • Szótárméret 50K to 1.5M types • Szó-/ morf-alapú megoldások a ragozott nyelvek
kezelésére • Szó-alapú nyelvi modellek 3/4-gram modell (feladatra/adatbázisra optimalizálva) • Morf-alapú nyelvi modellek 4/5/6-gram modell (feladatra/adatbázisra optimalizálva)
Beszédtechnológia a médiában
7
Gépi tanulás – modellezés • Statisztikai alapelven működik, adatvezérelt
eljárások a beszéd különböző szintjein • Szavak, szókapcsolatok: szöveges adatbázisokon
tanul, mint pl.
Hírportálok, nyilvános webes tartalmak Jogi anyagok Parlamenti felszólalások
• Kiejtés: félautomatikus módszerek • Beszédhangok: 100+ óra hanganyag • A tanító mintának illeszkedni kell a feladathoz
Beszédtechnológia a médiában
8
Tematikus korpuszok – nyelvi modellezéshez Témakör
Forrás
Hírek
TV műsor leiratok
602k
15.9m
egyéb hírforrások
1 200k
54.7m
1 355k
35.6m
616k
14.4m
beszélgetés leiratok
48k
1.0m
bővített korpusz
98k
3.2m
Diktálás támogatás jogi diktálás fordító memória Telefonos ügyfélszolgálat
Szóalakok Szavak száma száma
• Témakörönként • jelentős különbség a tanítóminták mennyiségében • nem egyenletes a használt szókincs sem • az adatgyűjtés költsége sem azonos Beszédtechnológia a médiában
9
Szükségesek-e a tematikus korpuszok? 75
telefonos ügyfélszolgálat
hírműsorok
jogi diktálás
65
WER [%]
55
45
35
25
15
5
AM: telefon LM: ügyfélszolgálat
AM: telefon LM:hírműsor
AM:telefon LM: jogi
AM: stúdió LM: ügyfélszolgálat
AM:stúdió LM:hírműsor
AM: stúdió LM: jogi
• Szóhibaarány a feladatokhoz illeszkedő, illetve
nem illeszkedő modellek esetén Beszédtechnológia a médiában
10
Memória optimalizálás Forrás
Szótár
Szavak Memória száma
WER
TV-műsor leiratok
602k
15.9m
1.3 Gb
27%
Egyéb hírforrások
(1 200k)
54.7m
3.6Gb
30%
TV-műsor leiratok + egyéb hírforrások
931k
70.6m
4.0 Gb
26%
TV-műsor leiratok + egyéb hírforrások legjobban illeszkedő 50%-a
931k
43.3m
2.7Gb
26.1%
TV-műsor leiratok + egyéb hírforrások legjobban illeszkedő 25%-a
931k
29.6m
2.1Gb
26.3%
• Korpuszbővítés eredményesebb domain-közeli
szövegekkel • Nem gazdaságos „feleslegesen” bővíteni Beszédtechnológia a médiában
11
Számításigény (sebesség) optimalizálás Szóhibaarány (WER) vs. Sebesség (RTF) 30
Legpontosabb
Legyorsabb
25
RTF
20
15
10
5
0 30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
WER
Beszédtechnológia a médiában
12
Számításigény (sebesség) optimalizálás Szóhibaarány (WER) vs. Sebesség (RTF) 1
Legpontosabb
0,9
Legyorsabb
0,8 0,7
RTF
0,6 0,5 0,4 0,3 0,2 0,1 0 36,00%
36,50%
37,00%
37,50%
38,00%
38,50%
39,00%
39,50%
40,00%
WER
Beszédtechnológia a médiában
13
Szóhibaarány a médiában 45 40
WER [%]
35 30 25 20 15 10 5
Magazin
•
Sportmagazin
Hírháttér
Sporthír
Híradó
Időjárás
Az eltérések főbb indokai:
egymásra beszélés spontán beszéd háttérzaj tematika eltérés (sport, bulvár)
Beszédtechnológia a médiában
14
Beszédstílusonként átlagolva Broadcast Conversation (BC) 35
Broadcast News (BN)
34,6
WER [%]
29,3
26,3
25
15
12,7
10,5
9,9
5
GMM 64 óra
•
DNN 64 óra
DNN 500 óra
Jelentősen javuló eredmények: • a tanító korpusz méretének növelése • technológia váltás
Beszédtechnológia a médiában
15
Demó •
Kézi felirat + gépi felirat (hírháttér jellegű műsorok - BC) • Ma Reggel – építkezés • Ma Reggel – családtámogatás • Ma Délben – tőzsde • Ezekben a műsorokban a fix részekhez előre megírt, az élő részekhez valós időben kézzel gépelt felirat kerül jelenleg adásba
•
Csak gépi felirat (BN) • Híradó • Előre tárolt feliratokkal kerül adásba
Beszédtechnológia a médiában
16
Köszönjük a figyelmet!