Budapesti M¶szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék
Mély neuronhálók alkalmazása és optimalizálása magyar nyelv¶ beszédfelismerési feladatokhoz
Szakdolgozat
Készítette
Konzulens
Varga Ádám Csaba
Dr. Mihajlik Péter
2014. december 11.
Tartalomjegyzék Kivonat
4
Abstract
5
Bevezet®
6
1. A gépi beszédfelismerés elméleti hátterének áttekintése és gyakorlati eredményei 8 1.1.
Bevezetés a gépi beszédfelismerésbe . . . . . . . . . . . . . . . . . . . . . . .
8
1.1.1.
A nyelvi modellezésr®l röviden
. . . . . . . . . . . . . . . . . . . . .
9
1.1.2.
A lényegkiemelés folyamata
. . . . . . . . . . . . . . . . . . . . . . .
11
1.1.3.
Akusztikus modellezés . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.1.4.
Dekódolás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2.
Nemzetközi eredmények
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.3.
Jelenlegi irányok
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2. A beszédfelismer® keretrendszer specikációja 2.1.
23
A nyílt forráskódú megoldások áttekintése . . . . . . . . . . . . . . . . . . .
23
2.1.1.
24
A Kaldi beszédfelismer® keretrendszer
. . . . . . . . . . . . . . . . .
3. Kísérletek hírm¶sorok hanganyagain
26
3.1.
A rendszer felépítése
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2.
A kísérletek során vizsgált paraméterek . . . . . . . . . . . . . . . . . . . . .
28
3.3.
Tesztek a 10 órás adatbázison . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.3.1.
Kiinduló rendszer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.3.2.
Tesztek lterbank bemeneti jellemz®kkel . . . . . . . . . . . . . . . .
34
3.3.3.
A beszél®adaptáció lehet®ségei
. . . . . . . . . . . . . . . . . . . . .
36
Tesztek a 20 órás adatbázison . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.4.1.
Hagyományos GMM-alapú módszerek
. . . . . . . . . . . . . . . . .
38
3.4.2.
Neuronhálós modellezési megoldások . . . . . . . . . . . . . . . . . .
40
3.5.
Tesztek a 64 órás adatbázison . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.6.
Összegzés
44
3.4.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Kísérletek telefonos ügyfélszolgálati hanganyagokon 4.1.
Beszédfelismerési eredmények az MTÜBA-1/A-n
1
. . . . . . . . . . . . . . .
45 46
4.2.
Beszédfelismerési eredmények az MTÜBA-2/A-n
. . . . . . . . . . . . . . .
46
4.3.
Beszédfelismerési eredmények az MTÜBA-2/C-n
. . . . . . . . . . . . . . .
48
4.4.
Összegzés
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
5. Az akusztikus modellek tanításának és dekódolásának er®forrásigényei 51 Összefoglalás
54
Köszönetnyilvánítás
55
Rövidítések jegyzéke
56
Ábrák jegyzéke
57
Táblázatok jegyzéke
58
Irodalomjegyzék
61
2
HALLGATÓI NYILATKOZAT Alulírott Varga Ádám Csaba, szigorló hallgató kijelentem, hogy ezt a szakdolgozatot meg nem engedett segítség nélkül, saját magam készítettem, csak a megadott forrásokat (szakirodalom, eszközök stb.) használtam fel. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de átfogalmazva más forrásból átvettem, egyértelm¶en, a forrás megadásával megjelöltem. Hozzájárulok, hogy a jelen munkám alapadatait (szerz®(k), cím, angol és magyar nyelv¶ tartalmi kivonat, készítés éve, konzulens(ek) neve) a BME VIK nyilvánosan hozzáférhet® elektronikus formában, a munka teljes szövegét pedig az egyetem bels® hálózatán keresztül (vagy autentikált felhasználók számára) közzétegye. Kijelentem, hogy a benyújtott munka és annak elektronikus verziója megegyezik. Dékáni engedéllyel titkosított diplomatervek esetén a dolgozat szövege csak 3 év eltelte után válik hozzáférhet®vé.
Budapest, 2014. december 11.
Varga Ádám Csaba hallgató
Kivonat Az automatikus gépi felismerés területén jelenleg a legígéretesebb irányt a mély (mesterséges) neurális hálózatokkal megvalósított akusztikus modellek alkalmazása jelenti. Bár teljesítményük lényegesen felülmúlja a hagyományos, generatív akusztikus modellekét, nagyszótáras, magyar nyelv¶, folyamatos beszédfelismerési feladatokra való alkalmazásuk terén eddig kevés kutatási eredmény született. A szakdolgozat célja, hogy magyar nyelv¶ beszédadatbázisok alapján vizsgálja a mély neurális hálózatos modellek alkalmazási lehet®ségeit ipari környezetben megvalósítandó beszédfelismerési feladatokra, elemezze az azokkal elérhet® javulást a hagyományos modellekkel szemben és megtalálja az optimális neurálishálózat-architektúrát és paraméter-kongurációt az egyes feladatokhoz. Az 1. fejezet bemutatja a beszédfelismerés elméleti hátterét, kitérve a hagyományos megközelítésekre, valamint áttekinti a neurális hálózatok jellemz®it és a velük megvalósítható akusztikus modellezést, végül röviden ismerteti a hasonló feladatokon elért nemzetközi eredményeket. A 2 fejezet specikálja a keretrendszert, amiben a kísérletek megvalósításra kerülnek. A 3. és 4. fejezetekben két különböz® magyar nyelv¶ beszédfelismerési feladathoz készíthet® akusztikus modellek teljesítményének elemezésére kerül sor. Az el®bbi feladat televízióban sugárzott hírm¶sorok alapján készíthet® rendszerek vizsgálata, az utóbbi pedig telefonos ügyfélszolgálati adatbázisok alapján rögzített beszélgetéseken alapul. A feladat mindkét esetben minél jobb pontosságú, a hanganyagok automatikus feliratozására, lejegyzésére a gyakorlatban is használható akusztikus modell készítése. A 5. fejezet összefoglalja a neurális hálózatok tanításának er®forrásigényeit. Végül az eredmények összegzésére és a további kutatási irányok kijelölésére kerül sor.
4
Abstract Currently, one of the most promising direction in automatic speech recognition is the use of acoustic models based on deep articial neural networks. Although they signicantly outperform traditional generative acoustic models, there has been little research conducted on their applications to Hungarian large vocabulary continuous speech recognition tasks. The aim of this thesis is to examine the possibilities of using neural network based models built on Hungarian speech databases for industrial speech recognition tasks, to analyze the obtainable improvement compared to traditional models, and to nd the optimal neural network architecture and parameter conguration for each task. Chapter 1 describes the theoretical background of speech recognition, including traditional approaches and the characteristics of neural networks, as well as the acoustic modeling methods based on them. It also reviews some of the international results acheived on similar tasks. Chapter 2 species the toolkit in which the experiments are conducted. Chapters 3 and 4 analyze the performance of acoustic models built for two dierent Hungarian language speech recognition tasks. Chapter 3 describes and examines systems built on television broadcast media. The models introduced and evaluated in Chapter 4 are based on telephone helpdesk conversation databases. In both cases the goal is to build acoustic models with optimal accuracy that can be used for creating subtitles or audio transcriptions automatically. Chapter 5 summarizes the computational resources necessary for the training of neural networks. Finally, the results are summarized and further research directions are given.
5
Bevezet® Szakdolgozatom során célom és feladatom beszédfelismerési feladatok megvalósítása magyar nyelv¶ beszédadatbázisokon. Ezen belül munkám fókuszát az ún. mély mesterséges neurális hálózatokkal történ® mintaillesztési technológiák jelentik. A mesterséges neurális hálózatok tanításával végzett feladatok a gépi tanulási módszerek esetén a hagyományos technikákat lényegesen felülmúlóan teljesítenek, és ez a megoldás más területek (pl. képfelismerés, cs®del®rejelzés) beszédfelismerési feladatokra is eredményesen alkalmazható. A neurális hálókkal történ® beszédfelismerés jelenleg is a nemzetközi kutatás középpontjában helyezkedik el, mivel alkalmazásuk jelent®s javulást hozott az addigi rejtett Markov-modelleken alapuló technológiákhoz képest a kétezres évek végén. Bár a beszédfelismerési kutatások és fejlesztések már több évtizede folynak és az id®k során a mindennapi számítógépes- vagy mobilalkalmazásokban is megjelennek, a neuronhálók új lendületet adtak a területnek, hiszen alkalmazásukkal egyes esetekben akár több tíz százaléknyi relatív javulás is meggyelhet® a beszédfelismerési pontosságban. A technika viszonylag kés®i megjelenése azzal is magyarázható, hogy a neuronháló-tanítás rendkívül er®forrás-igényes folyamat, így a korábbi számítógépes kongurációk nem, vagy csak rendkívül hosszú id® alatt lettek volna alkalmasak ezen számítási feladatok elvégzésére. Bár a neurális hálózatok a legígéretesebb irányt jelentik jelenleg a beszédfelismerés területén, magyar nyelv¶, folyamatos, nagyszótáras felismerési feladatokon történ® alkalmazásukat illet®en eddig azonban csak kevés vizsgálat történt. Célom így az általam végzett kísérletek alapján egy átfogó képet adni a különböz® magyar nyelv¶ beszédfelismerési feladatokon elérhet® eredményekr®l. A neuronhálók számos szabadon hangolható paramétere tág teret hagy a tanítások adott adatbázisokhoz, feladatokhoz való optimalizálásukhoz; ezen optimumok megtalálása is feladataim közé tartozik. A feladat megvalósítását a Kaldi nyílt forráskódú keretrendszer [20] segítségével végzem el. A nemzetközi gyakorlatban használt, beszédfelismerési feladatok kutatás-fejlesztését támogató rendszerek közül jelenleg ezen keresztül érhet®ek el a legfrissebb neurális hálós tanítási módszerek, valamint a kódok szabad módosítása lehet®vé teszi a módszerek adott feladatokhoz történ® testreszabását. Bizonyos lépéseket a Kaldi n kívüli egyéb keretrendszerekben is megvalósítok az eddigi, más rendszerekben elért összehasonlíthatóság érdekében. Kísérleteim több magyar nyelv¶ beszédadatbázis köré épülnek, amelyek ipari feladatokhoz közel álló rendszerek megvalósításához szolgálnak alapul. Minden esetben megvizsgálom a hagyományos megoldások hatékonyságát különböz® modell-architektúrák és para-
6
méterbeállítások mellett, esetlegesen további módszereket (pl. dimenziócsökkentés, beszél®adaptáció) alkalmazva. Ezt követ®en áttekintem a neurális hálózatok tanításával elérhet® eredményeket adott felépítés (rétegszám, aktivációs függvény, dimenzió) és paraméterbeállítások mellett. Az így elérhet® hibaarányt ezen paraméterek nomhangolásával és különböz® architektúrák alkalmazásával próbálom minimalizálni az optimális konguráció megtalálásáig. A feladataim alapját jelent® adatbázisok alapvet®en televíziós híranyagokat és egyéb m¶sorokat, valamint telefonos ügyfélszolgálatok rögzített beszélgetéseit tartalmazzák. Ennek fényében vizsgálataim, eredményeim és a létrehozott akusztikus modelljeim használhatóak lesznek televíziós adások, valamint telefonbeszélgetések automatikus feliratozására, átiratok készítésére. A feladat megvalósítása érdekében általánosságban az 1. fejezetben áttekintem a a gépi beszédfelismerési folyamatok elméleti hátterét, kitérve a hagyományos, generatív modellekre, valamint részletesen bemutatva a neurális hálózatokkal történ® beszédfelismerési (és általános gépi tanulási) módszereit. Felvázolom a nemzetközi szakirodalom alapján a hasonló beszédfelismerési feladattípusokon elért eredményeket. Röviden bemutatom a különböz®, beszédfelismerési pontosságot javító technikákat, mint a dimenziócsökkentés, beszél®adaptáció. A 2. fejezetben specikálom és röviden bemutatom a beszédfelismerési feladatokhoz használt keretrendszert. A 3. és 4. fejezetekben részletesen elemzem a két f® adatbázis-típuson (híranyagok, valamint telefonos ügyfélszolgálat) megvalósított feladatokat, a klasszikus megoldásokkal elérhet® eredményeket, majd részletesen ismertetem a neurális hálózatok tanításával elérhet® felismerési pontosságot, valamint azok egyes paramétereinek hatását és jelent®ségét a szóhibaarány alakulására. Az 5. fejezetben elemzem az egyes modellek tanításához szükséges er®forrásigényeket, a tanítási id®k alakulását a különböz® modellek és adatbázis-méretek, valamint adott CPU-konguráció mellet. Áttekintem a modellek tanításának memóriaigényeit, valamint a grakus processzoron való futtatás lehet®ségeit, és a videomemória méretének hatását a tanítási sebességre. Végül összegzem a feladataim megvalósítása során elért eredményeket, következtetéseket vonok le az egyes adatbázisoknál legjobbnak bizonyuló kongurációkat illet®en és áttekintem az esetleges további kutatási irányokat.
7
1. fejezet
A gépi beszédfelismerés elméleti hátterének áttekintése és gyakorlati eredményei 1.1. Bevezetés a gépi beszédfelismerésbe Az alábbiakban ismertetem a beszédfelismerési feladatokhoz használt rendszerek m¶ködésének lépéseit és a megvalósításukhoz használt elméleti hátteret. Bemutatom a lényegkiemelési eljárások, az akusztikai és a nyelvi modellezés alapvet® épít®elemeit. Áttekintem az akusztikai modellezésben alkalmazott hagyományos megoldásokat, és bemutatom a feladatom szerves részét képez® neurális hálózatok m¶ködésének alapjait. Röviden kitérek az olyan, felismerési pontosságot pozitívan befolyásoló tényez®kre is, mint a tanítóvektorok dimenziócsökkentése, valamint a beszél®adaptáció. Az itt olvasható elméleti összefoglaló alapját [5] valamint [14] jelenti, ahol valamint a további megfelel® helyeken hivatkozott irodalomban megtalálható a lépések részletesebb ismertetése. Egy beszédfelismer® rendszer alapvet® feladata a bemenetre érkez® akusztikus információt (hanghullámok) az elhangzott szavaknak, mondatoknak megfelel® szöveges kimenetté alakítani. Ez a gyakorlatban a lehetséges célszavak illetve -mondatok közül a legvalószín¶bb kiválasztásával történik, amihez ismernünk kell a mondatok, szókapcsolatok elhangzásának valószín¶ségét (nyelvi modell), a szavak és a fonémasorozatok összerendelését (lexikon), valamint az egyes fonémák adott akusztikai megvalósulásának valószín¶ségét (akusztikus modell) [14]. A végs® kimenetet ezen modellek kombinált valószín¶ségeinek felhasználásával kaphatjuk meg. A beszédfelismerési feladat formális megfogalmazásához jelöljük a bemenetre érkez® akusztikus jelek sorozatát
O-val
a következ®képp:
O = o1 , o2 , o3 , . . . , on , ahol
(1.1)
oi a teljes jelsorozat i. eleme (ezeket reprezentálhatja például az adott id®pillanatban a
bemenetre érkez® jel frekvencia-komponenseit tartalmazó vektor, a pontos eljárást lejjebb
8
ismertetem). Jelöljön továbbá
W
egy adott szósorozatot (mondatot) az alábbi módon:
W = w1 , w2 , w3 , . . . , wm ahol
wj
a szósorozat
j.
(1.2)
szava.
Ilyenkor a beszédfelismerési feladatot megfogalmazhatjuk a következ®képpen: adott akusztikus bemenet esetén keressük a legvalószín¶bb
ˆ W
szósorozatot
L
O
nyelvben, azaz:
ˆ = arg max P (W |O) W
(1.3)
W ∈L Mivel a
P (W |O)
valószín¶ség nem számítható, ezért a Bayes-szabály alkalmazásával
átalakítjuk az egyenletet:
P (W |O) =
P (O|W )P (W ) P (O)
(1.4)
Behelyettesítve:
ˆ = arg max P (O|W )P (W ) = arg max P (O|W )P (W ) W P (O) W ∈L W ∈L
(1.5)
Az 1.5 egyenletben lév® utolsó egyszer¶sítést azért tehetjük meg, mert az összes lehetséges mondat közül keressük a legvalószín¶bbet,
P (O) viszont eközben változatlan, így nem befo-
lyásolja az eredményt [14]. Az 1.5 egyenletet szokás a beszédfelismerés alapegyenletének nevezni [5], mivel összefoglalja a beszédfelismerés során megoldandó feladatokat: kiszámítása a nyelvi modell, míg meghatározása
P (O|W )
P (W )
az akusztikus modell feladata.
Az 1.1 ábrán sematikusan végigkövethet®k a beszédfelismerés lépései és ahhoz szükséges modellek szerepe. A feladat két f® szintje a lényegkiemelés és a mintaillesztés. El®bbi során (részletesen ld. az 1.1.2 részt) a bejöv® akusztikus információból történik a mintaillesztéshez használt jellemz®vektorok kinyerése, míg az utóbbi lépcs® tartalmazza az akusztikus és nyelvi modellek és a lexikon felhasználásával dekódolható legvalószín¶bb mondatot. Amint az ábrán is látható, a
P (O|W )
valószín¶ség meghatározása az akusztikus modell
és a lexikon együttes feladata. Míg a lexikon az adott szósorozatokhoz rendelhet® fonémasorozatok valószín¶ségét tartalmazza, addig az akusztikus modell feladata az adott fonémákhoz tartozó legvalószín¶bb jellemz®vektorok megkeresése. A fonémákat
Φ-vel
jelölve,
Viterbi-approximációt alkalmazva így a 1.5 egyenlet a következ®képpen módosítható (a gyakorlatban célszer¶ szorzás helyett a valószín¶ségek logaritmusát összegezni):
ˆ = arg max P (O|Φ)P (Φ|W )P (W ) W
(1.6)
W ∈L
1.1.1. A nyelvi modellezésr®l röviden A nyelvi modellezés célja egy adott szósorozat, mondat valószín¶ségének meghatározása egy adott nyelvben (P (W )). Én röviden a leggyakrabban alkalmazott módszert, az N-
9
LÉNYEGKIEMELÉS
lényegkiemelés
jellemz®vektorok
O MINTAILLESZTÉS
akusztikus modell
P (O|W ) fonémavalószín¶ségek
nyelvi modell
lexikon
P (W )
dekódolás
Az úton áll az autó. . .
1.1. ábra.
P (W |O)
A beszédfelismerési feladat lépéseinek áttekintése [14] alapján
gram modelleket mutatom be. Az N-gram modellek egy adott szósorozat valószín¶ségét egy korpuszban (a kérdéses nyelven írott szövegek lehet®leg minél nagyobb gy¶jteményéb®l) való együttes el®fordulásaik alapján határozzák meg. Egy
l hosszú szósorozat (W l ) N-gram
valószín¶sége a következ® módon számítható:
l
PN −gram (W ) =
l Y
P (wi |wi−N +1 , . . . , wi−1 )
(1.7)
i=1 Egy példán keresztül illusztrálva az A kutya ugat. mondat valószín¶ségét egy bigram modell (N
= 2)
esetén a következ®képpen számíthatjuk:
P2−gram (00 hsi a kutya ugat h/si00 ) = P (00 a00 |00 hsi00 )P (00 kutya00 |00 a00 )P (00 ugat00 |00 kutya00 )P (00 h/si00 |00 ugat00 ),
10
(1.8)
ahol
hsi
a mondat kezdetét,
h/si
pedig a végét jelöli.
Az általam megvalósított rendszerek nyelvi modellezése 3-gram modellekkel történt, ahol a trigram valószín¶ségeken túl a bigram és az unigram (azaz az egyszer¶ el®fordulási) valószín¶ségek is gyelembe voltak véve (backo -elv [14]). A gyakorlatban egyéb modellezési technikák is el®fordulhatnak, ilyenek pl. az ígéretesnek látszó neurális hálós nyelvi modellek [2], ezekkel azonban feladatom során nem foglalkozom.
1.1.2. A lényegkiemelés folyamata A beszédfelismerési feladat els® eleme a bemenetre érkez® a tanítás-tesztelés során beszédadatbázisból származó, felhasználás során valós idej¶ akusztikai információt az akusztikus modellek számára feldolgozhatóvá tenni, azaz a hanghullámoknak egy jól használható és az emberi beszéd f® akusztikai jellemz®it meg®rz® reprezentációt találni. A legeredményesebbnek az ún. MFCC-vektorok (Mel Frequency Cepstral Coecients, melfrekvenciás kepsztrális együtthatók) bizonyultak, az alábbiakban ezt ismertetem, majd röviden kitérek az általam is vizsgált egyéb jellemz®vektorokra.
MFCC-vektorok A bejöv® beszéd hanghullámainak átalakításához az analóg jelet digitalizálni kell. Amennyiben a modellek tanítása és tesztelése során beszédadatbázisokat alkalmazunk, ezzel már nem kell tör®dni, hiszen az anyag megfelel® formátumban van. Valósidej¶ felismerés esetén a számítógép vagy mobileszköz mikrofonjára érkez® jelet mintavételezni és kvantálni kell, ez ilyenkor a beépített analóg-digitális konverterrel történik. A beszédfelismerési feladatok során tipikusak a 16kHz-en mintavételezett, 16 biten kvantált anyagok, azonban telefonvonalon elhangzó anyagokon végzett beszédfelismerés esetén a kisebb sávszélesség miatt a 8kHz mintavételezési frekvencia is elegend® [6]. A mintavételezett és kvantált digitális jeleket ezt követ®en bevett gyakorlat el®kiemelésnek (preemphasis ) alávetni, ahol egy els®rend¶ felülátereszt® sz¶r®vel a kisebb energiájú magasabb frekvenciájú összetev®ket a nagyobb energiával rendelkez® alacsonyabb frekvenciakomponensekkel hozzuk közel azonos energiaszintre, megel®zve így a különbségek miatti információvesztesége (ez a spektrális lejtés az emberi beszéd sajátosságaiból következik). Az el®kiemelést követ® lépés a beérkez® akusztikai jelek ablakozása. A beszédfelismerési feladat során a bemen® beszéd spektrális tulajdonságai nem állandóak, ezért a fonémákra való leképezés érdekében célszer¶ azt rövid, néhány tíz ms-os részekre osztani. Így élhetünk azzal a feltevéssel, hogy az egyes ablakokon belül a jel stacionárius. A gyakorlatban az ablakozás egymásba lapolódó keretekkel történik, Hamming-ablak
1 alkalmazásával a
spektrumban fellép® szakadások elkerülése érdekében. A beszédhangokat (mint az akusztikai jeleket általában) jól jellemzik a frekvenciakomponensei és azok energiája, ezért a lényegkiemelés egyik f® lépése a jelek frekvenciatartományba való transzformálása a diszkrét Fourier-transzformáció segítségével. A spektrumot
1
( wHamming [k] =
0, 54 − 0, 46 cos( 2πk ) L 0,
, 0≤k ≤L−1 , egyébként
11
ezt követ®en a négyzetére emeljük és az így kapott energiaspektrummal dolgozunk tovább. Az energiaspektrum el®állítását az emberi hallást modellez® ún. mel-skálára
2 való transz-
formálás követi. Erre azért van szükség, mert az emberi hallás magasabb frekvenciákon (kb. 1kHz felett) kevésbé érzékeny. A gyakorlatban ez egy sz¶r®sor segítéségével történik, amely az egyes frekvenciasávokban dolgozó sz¶r®kb®l épül fel. A sz¶r®k 1kHz alatt lineárisan helyezkednek el a frekvenciatartományban, felette pedig távolságuk logaritmikusan n®. További, az emberi hallást jellemz® megoldás a sz¶r®sor utáni logaritmizálás, amely ezen tényez®n túl a bemeneten el®forduló kisebb ingadozásokra való érzékenységet is csökkenti. A fenti, emberi tényez®ket gyelembe vev® megoldások igazoltan javítják a beszédfelismerési pontosságot. A lényegkiemelés utolsó lépése a sz¶réssel és logaritmizálással kapott spektrum visszatranszformálása az id®tartományba. Ez történhet a frekvenciatartományba való áttéréshez használt transzformáció inverzével, azaz inverz diszkrét Fourier-transzformációval, azonban jelenleg a gyakorlatban szinte kizárólag diszkrét koszinusz-transzformációt (DCT) alkalmaznak ennek megvalósítására. Az így kapott id®tartománybeli jelet az eredeti jel
kepsztrumának (cepstrum ) nevezzük, ami a spektrum logaritmusának a spektrumaként is deniálható (amennyiben gyelmen kívül hagyjuk a mel-sz¶r®sor használatát). Az így nyert kepsztrum el®nye, hogy azon túl, hogy jól reprezentálja az egyes beszédhangokra
3
jellemz® paramétereket (mint pl. a formánsértékek ), a kepsztrális együtthatók a Fourieregyütthatókkal szemben dekorreláltak, ami a hagyományos beszédfelismerési technológiák számára jelent®sen könnyebbé teszi az egyes paraméterek megtanulását. A gyakorlatban az els® 12 kepsztrális együttható alkalmazása elegend® a kiemelt jellemz®vektorokban, mivel ezek hordozzák a lényeges információkat. A 12 kepsztrális együtthatón túl a jellemz®vektorok tartalmazzák az adott id®keretbe tartozó jel energiáját is, mivel ez lényeges információt hordoz a kérdéses beszédhangok természetét illet®en (pl. az
[a]
hang több energiával bír, mint a
[p]
stb.). A jel energiáján
túl célszer¶nek bizonyul a jel változásának (∆), valamint a változás változásának (∆∆) jellemz®vektorokhoz történ® hozzáf¶zése is. Az egyszeres és kétszeres deriváltak jó képet adnak a beszédjelek nem-konstans tulajdonságairól, mint például a formánsértékek változása és ennek a változásnak a sebessége (gyorsulás), vagy egy felpattanó zárhang (pl.
[b])
esetén a felpattanás tulajdonságai. A deriváltak számítását a gyakorlatban célszer¶ nem keretenként, hanem több id®keret összefogásával, lineáris regresszió segítségével végezni. A
∆
és
∆∆
értékek kiszámítása a jel energiájára nézve is szolgálhat hasznos információval,
így ezeket is konkatenáljuk a jellemz®vektorokhoz. A lényegkiemelés lépéseit az 1.2 ábra foglalja össze. A gyakorlatban s¶r¶n alkalmazott és általam is használt jellemz®vektorok tehát 39 dimenziósak és a következ®képp épülnek fel: 12 kepsztrális együttható, valamint ezek egyszeres és kétszeres deriváltjai (összesen 36 dimenzió), valamint további három, jelenergiát reprezentáló dimenzió az energia és annak
∆
és
2 3
∆∆
értékei.
mel(f ) = 1127 ln(1 +
1 ) 70
A beszédhangok spektrumának kiugró csúcsai, amelyek a sz¶r®ként viselked® emberi toldalékcs® (garat, szájüreg, orrüreg, valamint egyéb, a beszédképzésben részt vev® szervek) er®sítési frekvenciáit jelzik.
12
el®kiemelés
ablakozás
P
|()2 |
DF T
mel()
d d2 dt , dt2
|x2 [k]|
log()
DCT
+
MFCC39 1.2. ábra.
A 39-dimenziós MFCC-vektorok felépítésének lépései
Filterbank-vektorok Bár a hagyományos beszédfelismerési technológiák esetén a kepsztrális együtthatók alkalmazás bizonyul a leghatékonyabbnak, a jelenleg legjobb eredményeket produkáló neurális hálózatos modellek esetén a mel-sz¶r®sor közvetlen kimenetén el®álló jellemz®k alkalmazása is eredményesnek bizonyult, bizonyos esetekben az MFCC-vektoroknál jobban teljesítettek [26]. Ezért feladatom során lterbank-jellemz®kkel (a továbbiakban FBANK) is végeztem vizsgálatokat. Ilyen esetekben a lényegkiemelési lépések annyiban különböznek az 1.2 ábrán láthatóknál, hogy a feldolgozási lépések végén a sz¶rt energiaspektrum id®tartományba való visszatranszformálását elhagyjuk. FBANK-jellemz®k alkalmazása esetén a sz¶r®sorban található sz¶r®k száma szabad paraméter, amely valamilyen mértékben befolyásolhatja a felismerési eredményeket; az általam vizsgált esetekben ez 27 és 40 között változott.
Normalizálás A jellemz®vektor-kiemelés lépése után bevett módszer azokon valamilyen normalizálási eljárást végezni. Erre annak érdekében van szükség, hogy a beszél®k és a beszédmódok egyéni különbségeit kompenzáljuk, így növelve a beszédfelismerést végz® modell általánosító képességét. A leggyakrabban alkalmazott normalizációs módszer a kepsztrumátlagok és a variancia kiegyenlítése, a Cepstral Mean and Variance Normalization (CMVN). A módszer során a jellemz®vektorok komponenseib®l kivonjuk az adott komponensek jellemz®vektorok között számított átlagát, majd az adott komponens vektorok közötti szórásával osztjuk el értéküket [21]:
CM V N (xi [k]) =
xi [k] − µi [k] σi [k]
(1.9)
Az átlag és a szórás kiszámítását nem a teljes jellemz®vektor-sorozaton, hanem csak azoknak egy véges
N
méret¶ ablakozásán számítjuk, ahol az ablak közepén a kérdéses
13
jellemz®vektor helyezkedik el:
1 µi [k] = N σi2 [k] =
1 N
k+N/2−1
X
xi [n]
(1.10)
(xi [n] − µi [k])2
(1.11)
n=k−N/2
k+N/2−1
X
n=k−N/2
1.1.3. Akusztikus modellezés A beszédfelismerés egyik legfontosabb lépése a rendszer központját jelent® akusztikai modellezés. Ez a legkritikusabb elem a végs® felismerési pontosság tekintetében, ezért számos megoldás született rá. A terület folyamatosan fejl®dik, és számos lehet®ség kínálkozik az eddigi modellek továbbfejlesztésére, valamint a meglév®k adott feladatokra történ® optimalizálására. A most következ®kben el®ször áttekintem az akusztikus modellezés f® feladatait, majd alapjaiban bemutatom a hagyományosan alkalmazott architektúrákat. Ezt követ®en ismertetem a neurális hálózatok felépítésének, paramétereinek és tanításának f® jellemz®it.
A megvalósítandó feladat A beszédfelismerési feladatok során alapvet®en egy gépi tanulási folyamatot valósítunk meg. A célunk, hogy a rendelkezésre álló adatokból (beszédadatbázis) kinyert jellemz®vektorok alapján a modell megtanulja az egyes beszédhangok, hangkapcsolatok jellemz®it, majd ezen betanult paraméterek alapján olyan anyagokat is minél pontosabban ismerjen fel, amilyenekkel korábban a tanulás során még nem találkozott. A rendszerek tanítása többféle adattal történhet. Feladataim során felügyelt tanítással (supervised learning ) dolgozom, azaz a beszédadatbázisokban található hanganyagokhoz minden esetben tartozik szöveges átirat. Az akusztikus modell feladata, hogy ezeknek a hanganyagoknak (illetve a bel®lük készített jellemz®vektoroknak) és a hozzájuk rendelhet® átiratoknak az ismeretében a tanítás során a paramétereit úgy hangolja, hogy közben a tanítóhalmazon (TRAIN) mérhet® felismerési hibaarányt minél alacsonyabb mérték¶re csökkentse. Bizonyos esetekben el®fordulhat azonban a túltanulás jelensége: ilyen esetekben a tanítóhalmazon ugyan nagyon jól teljesít a rendszer, kés®bb, a felismerési feladat során azonban a pontosság még nem látott adatokon rossz lesz. A tanulást követ®en a modell teljesítményét egy elkülönített tesztel®halmazon (TEST, EVAL) mérhetjük; ez célszer¶en állhat az adott beszédadatbázis egy olyan részhalmazából, amelyet a tanítás során nem használtunk fel. A teszthalmaz mellet bizonyos esetekben egy ún. fejlszt®halmazon (DEV) is mérhetjük a felismerési teljesítményt; ez szolgálhat a végs® tesztelés el®tt a legjobb modell kiválasztására, paraméter-nomhangolásra stb. (ilyenkor értelemszer¶en ebbe is olyan anyagok kerülnek, amelyek sem a tanító- sem a teszthalmazokban nem szerepelnek). Az egyes modellek felismerési pontosságának számszer¶sítésére leggyakrabban a hiba-
14
arányt (error rate ) használjuk, amelyet a következ®képpen deniálunk:
ER = ahol
S
a helyettesítések,
D
a törlések,
I
S+D+I , N
(1.12)
pedig a beszúrások száma az összes vizsgált
(N ) egység között. Amennyiben a kiértékelést szóalapon végezzük, szóhibaarány ról (Word
Error Rate, WER) beszélhetünk, bizonyos esetekben azonban érdemes lehet a bet¶ket (LER) vagy a mondatokat (SER) kiértékelési egységnek tekinteni (pl. a magyar nyelvre a toldalékolások, szóösszetételek miatt a WER meglehet®sen pesszimista mér®száma a felismerési teljesítménynek [17]).
Beszédfelismerés rejtett Markov-modellekkel A hagyományos beszédfelismer® rendszerekben az akusztikus modellezés ún. rejtett Markov-
modellekkel (Hidden Markov Model, HMM ) [9] történik. A fonémamodellezés jellemz®en háromállapotú (plusz egy kezdet- és végállapot) rejtett Markov-modellekkel végezhet®, ahol három állapotot feleltetünk meg a fonéma elejének, közepének és végének, és az állapotok között átmeneti valószín¶ségeket deniálunk. Egy ilyen modell látható a 1.3 ábrán, ahol
pij
jelzi a következ® állapotba való átmenés, illetve az adott állapotban maradás valószí-
n¶ségét (i
=j
esetén). Egy fonémasorozat valószín¶ségét egyszer¶en az adott fonémákhoz
tartozó modellek egymás után f¶zésével és a konkatenált modell alkalmazásával kaphatjuk meg.
start
start
p01
eleje
p12
közepe
vége
p34
stop
p33
p11 1.3. ábra.
p23
p22
Példa egy háromállapotú, fonémamodellezésre használható rejtett Markov-modellre
Rejtett Markov-modellek alkalmazása esetén az egyes állapotokhoz tartozó valószín¶ségeket Gauss-függvények lineáris kombinációiból állíthatjuk el®. Ez azért célravezet®, mivel ilyen esetben az egyes átlagértékek, valamint kovariancia-mátrixok már egyértelm¶en meghatározzák a kérdéses eloszlásokat, így elegend® ezeket eltárolni az azonosításukhoz. A Gauss-eloszlások kombinációit alkalmazó klasszikus, rejtett Markov-modelles felismer®rendszereket emiatt a szakirodalom kevert Gauss-modelleknek (Gaussian Mixture Models, GMM) is nevezi. GMM-modellek esetén a normáleloszlás többdimenziós (MFCC-vektorok esetén 39) általánosítását használjuk, és a kérdéses jellemz®vektorok adott állapothoz tartozó valószín¶ség-eloszlását a megfelel®en módosított Baum-Welch-algoritmussal vagy Viterbi-tanítással számíthatjuk (a módszerek részletezése és összehasonlítása megtalálható [23]-ban). A fonémamodellezés során triviális megoldás az egyes beszédhangok önmagában, környezett®l nem függ® modellezése. Az ilyen megoldásokat monofón rendszereknek nevezzük.
15
Közismert azonban, és feladataim megvalósítása során is jól látszott, hogy az így végzett beszédfelismeréssel gyenge teljesítmény érhet® csak el. Ennek fényében célszer¶ a trifón modellek alkalmazása, ahol egy-egy hangot három érték jellemez: a kérdéses hang, valamint az el®tte álló és utána következ® hangok (vagy szóhatárok). Ez a megközelítés jelent®s javuláshoz vezet, és egyben magában foglalja a beszédben artikulált alakok olyan mögöttes reprezentációtól való eltéréseit, mint pl. a magyar zöngésségi hasonulások (pl.
→ [me:shEz])
/me:zhEz/
[17]. A trifónok építése történhet kézzel, de hatékonyabb automatikusan,
döntési fák alkamazásával végezni [19]. A trifónokon túl további pozíciófüggést is vihetünk a rendszerbe, ha a nyelvi modellben is megkülönböztetjük egymástól a szóeleji, szóbelseji és szóvégi elhelyezkedéseket.
Beszédfelismerés mesterséges neurális hálózatokkal Jelenleg a nemzetközi kutatás középpontjában álló akusztikus modellek az ún. mély mesterséges neurális hálózatok (Deep Neural Networks, DNN), amelyek a fentebb ismertetett GMM-alapú architektúráknál szignikánsan jobb eredmények produkálására képesek. A neuronhálók elnevezésüket az emberi agyban található neuronok között zajló kommunikációs architektúrához hasonló felépítésük miatt kapták, fontos megjegyezni azonban, hogy az általam is vizsgált mesterséges neuronhálózatok nem hivatottak az emberi agyat modellezni, csupán matematikai modellek, amelyek jól alkalmazhatók gépi tanulási, mintaillesztési feladatokra. A neuronhálózatok számos egyszer¶, elemi egységb®l épülnek fel; ezeket a biológiai analógia mintájára neuronoknak nevezzük. A 1.4 ábrán látható egy ilyen neuron sematikus szerkezete. A bemenetére érkez®
x
értékeket egy adott
w
súlyozás szerint veszi gyelem-
be. Az így összeadódó súlyozott bemeneti értékeket ezt követ®en egy, a neuronra jellemz®
aktivációs függvény (f ) alapján transzformálja; így áll el® a neuron kimeneti értéke (y ):
y = f (xT w)
x0
w0
x1
w1
...
...
xn
wn
f (Σxi wi )
Σxi wi
1.4. ábra.
(1.13)
y
Egy neuron sematikus szerkezete
Az aktivációs függvény megválasztása egy a neurális hálózatok paraméterei közül, ami
16
befolyásolhatja a felismerési pontosságot. A legegyszer¶bb megoldás egy egyszer¶ küszöbérték kijelölése, ami alatt a kimeneten
y = 0,
a küszöböt átlépve
y=1
jelenik meg. Mivel
azonban célunk az, hogy a súlyok kismérték¶ változtatása a kimenetben is kis változást okozzon, ezért a tangens hiberbolikuszt approximáló szigmoid -függvény alkalmazása terjedt el [22]:
sigmoid(x) =
1 , 1 + e−cx
c∈R
(1.14)
Ezen túlmen®en gyakori és az általam megvalósított feladatokban is szerepl® megoldás az ún. rektikációs függvény alkalmazása is (rect(x)
= max{0; x}),
ami a klasszikus
szigmoidnál jobb eredmények elérésére is képes. A kétfajta aktivációs függvényt a 1.5 ábrán láthatjuk.
−4
1
1
0.5
0.5
−2
2
4
−1
−0.5
0.5
−0.5
−0.5
−1
−1
1.5. ábra.
1
a. A szigmoid-függvény (c = 1) az origóba eltolva b. A rektikációs függvény
Egy neuron önmagában csak bináris klasszikációra használható, így a több osztály felett végzett mintaillesztési feladatok megvalósításra (mint a beszédfelismerés is) több neuront kell összekapcsolnunk neuronhálóvá. A neurális hálót felépít® neuronokat rétegekbe rendezzük, ahol a rétegeken belül az általam vizsgált architektúrákban nem futnak összeköttetések (ezek az ún. el®recsatolt, vagy feed forward neurális hálózatok), az egyes rétegek között azonban minden neuron kimenete minden következ® réteg-beli neuron bemenetére csatlakozik. A neurális hálót felépít® neuronrétegek három típusba sorolhatók: be- és kimeneti, valamint rejtett rétegekre. A bemeneti réteg gyakorlatilag csak a bemen® jellemz®k tárolására szolgál. Beszédfelismerési feladat esetén jellemz®en több jellemz®vektor kerül a bemenetre ablakszer¶en: a kérdéses vektor, valamint azt megel®z® és követ® további vektorok (az ablakméret általában 7 és 17 között változik). A valódi számítások és a tanulás a neuronháló közbüls®, ún. rejtett rétegeiben történik. A rejtett rétegek száma, és a rejtett rétegeket felépít® neuronok száma kritikus paraméter a tanulás szempontjából. A három vagy több rejtett réteget tartalmazó neuronhálókat illeti a szakirodalom mély jelz®vel. A kimeneti réteg megvalósítására használható kézenfekv® megoldás minden felismerend® osztályhoz egy neuront rendelni. Ilyenkor a leger®sebb aktivációjú kimeneti neuronhoz tartozó osztályba sorolhatjuk a kérdéses mintát. Egy ilyen megoldást szemléltet a 1.6 ábra, ahol sötét színezés jelzi az éppen tüzel® neuront.
17
súlyozások (w)
súlyozások (w)
rejtett réteg
bemeneti réteg 1.6. ábra.
kimeneti réteg
Példa egy egyszer¶, egy rejtett réteg¶ neurális hálózatra, a kimenetén egy tüzel® neuronnal
A gyakorlatban a rejtett rétegek és a kimeneti rétegek közé kerülhet egy a kimenetnél nagyobb dimenziójú ún. softmax -réteg. Ennek szerepe, hogy egyfel®l a kimenet el®tt egy szélesebb réteget képezve növelje a tanulás hatékonyságát, valamint hogy a kimene-
4
ten megjelen® klasszikációs valószín¶ségek összegét 1-re normalizálja a softmax-függvény segítségével [22].
A neuronháló tanítása lényegében az egyes súlyok nomhangolását jelenti. Célunk az általános gépi tanulási paradigmához hasonlóan a tanítóhalmaz alapján megkeresni a hibafüggvény minimumát a megfelel® súlyozás megválasztásával úgy, hogy ezt követ®en a teszthalmazon is minél jobb felismerési eredményt érjünk el. A hibafüggvényt adott
W
súlymátrix mellett a következ®képpen számíthatjuk [18]:
C(W) = N
a tanítóvektorok száma,
tartozó osztály (||v||
y(x)
1 X ||t(x) − y(x)||2 2N x
a neuronháló által becsült,
t(x)
(1.15)
pedig a ténylegesen
x-hez
5 a vektor hosszát jelöli).
A hibafüggvény minimumának megkeresése matematikailag összetett feladat, ezért itt ennek részletezésébe nem bocsátkozom. Alapját a sztochasztikus leszálló gradiens (stochas-
tic gradient descent ) és a visszalép® algoritmus (backpropagation algorithm ) jelenti [18]. Ezen módszerek segítségével a neurális hálót tanító algoritmus a súlyokat minden tanítási
4 5
sof tmax(x)i =
exi N P exk
(N neuron esetén az i. neuronra)
k=1
x bemeneti vektor több MFCC-jellemz®vektor összef¶zése. y(x) és t(x) felfogható a neurális háló
kimeneti rétegének reprezentációjaként, pl. ha egy öt neuronból álló kimeneti rétegb®l a 3. neuron aktív, akkor y(x) = [0, 0, 1, 0, 0]T 18
ciklusban
∆w
értékkel mozdítja el (a súlyok kezdeti inicializálása 0 körül, adott szórással,
véletlenszer¶en történik) [12]:
∆wi = −ε A 1.16 egyenletben szerepl®
ε
∂C(W) ∂wi
(1.16)
szabadon hangolható érték, a tanulási sebesség (learning
rate ). Mint látni fogjuk, megválasztása nagyban befolyásolja a felismerési eredményeket, a túl nagy érték túl felületes tanulást eredményezhet, míg a túl alacsony túltanuláshoz és még nem látott anyagokon rossz teljesítményhez vezethet. A gyakorlatban
ε
nem állan-
dó, hanem a tanulás során megadott értékek között változik, vagy addig csökken, amíg a tanítóanyagon a hibafüggvény javulása bizonyos érték alá nem kerül.
Dimenziócsökkentés A beszédfelismerési pontosság javítása érdekében tanítandó akusztikus modell bemenetére érkez® jellemz®vektorokat a lineáris diszkrimináns-elemzés (Linear Discriminant Analysis, LDA) [10] segítségével egy el®zetes transzformációnak vethetjük alá, ami a modell által tanulandó dimenziók számát csökkenti úgy, hogy eközben a dimenziócsökkentés során kialakult osztályok közti megkülönböztethet®séget növeli (azaz sok, egymástól kevéssé különböz® dimenzióból kevesebb, jobban szeparálható dimenziót állít el®). Az LDA megvalósítása is gépi tanulási paradigmában történik, ahol az el®zetesen felcímkézett tanítóadatok alapján igyekszik a rendszer egy olyan transzformációt végrehajtani, amely eredményeként az egyes, jobban összetartozó minták könnyebben szeparálható csoportokba képez®dnek le. Az általam megvalósított beszédfelismerési feladatokban az LDA elvégzését minden esetben Maximum Likelihood lineáris transzformáció (MLLT) követi [7], ami a Gauss-függvények paramétereinek további, a megkülönböztethet®séget növel® nomhangolását végzi.
Beszél®adaptáció További, a felismerési pontosságot optimalizáló tényez® az akusztikus modell paramétereinek egy-egy adott beszél® tulajdonságaira való hangolása (hangszín, beszédmód stb.). A beszél®adaptív tanítás módszere (Speaker Adaptive Training, SAT) megköveteli, hogy az egyes hanganyagokhoz rendelkezésre álljon az információ, hogy az melyik beszél®t®l hangzott el. Az ún. fMLLR-eljárás (Feature-Space Maximum Likelihood Linear Regression, jellemz®térben végzett Maximum Likelihood lineáris regresszió) azzal az el®nnyel bír, hogy nemcsak beszél®adaptív tanításhoz, hanem egy adaptálatlanul tanított modell dekódolás során történ® tesztanyaghoz hangolásához is használható (amennyiben a tesztanyag beszél®it ismerjük). Továbbá amíg a klasszikus SAT-technikák (MLLR, MAP) csak GMM-alapú rendszereknél alkalmazhatók, fMLLR-adaptációt neurális hálók esetében is végezhetünk. Ezen eljárás során a jellemz®vektor-térben végzünk a bemeneti jellemz®kön egy lineáris transzformációt, a módszer pontos leírása megtalálható [8]-ban. Amennyiben nem áll rendelkezésre információ az egyes beszél®k kilétér®l, lehet®ség van a beszél®k automatikus módon történ®, felügyeletlen gépi tanulással végzett csoportosítá-
19
sára (klaszterezésére). A klasztercímkékkel ellátott anyagokkal már lehetséges adaptívan tanítani az akusztikus modelleket. A legegyszer¶bb esetben az egyes anyagrészeken tanított GMM-modellek közötti eltérés számszer¶sítése alapján végezhet® csoportosítás [13].
1.1.4. Dekódolás A beszédfelismerési feladatok során alkalmazott modellek (nyelvi és akusztikus modell és ezek épít®elemei) a tanítást követ®en összevonhatók egyetlen közös felismerési gráfba. Ez a gráf a modellezés összes lépését magában foglalja, ezáltal a legvalószín¶bb mintaillesztés egy optimális útkeresési feladattá egyszer¶södik, ami dinamikus programozási módszerekkel oldható meg [5]. A gyakorlatban ez a Viterbi-algoritmussal történik, ahol az egyes utak kezd®pontját a bemen® jellemz®vektor-sorozatok, végpontját pedig a kimeneten felismert szósorozatok (mondatok) jelentik. A gyakorlati megvalósítás során az összes lehetséges út megkeresésének elkerülése érdekében a legjobb út valószín¶ségénél adott értékkel kisebb valószín¶ség¶ lehet®ségek elvetésre kerülnek (pruning ).
1.2. Nemzetközi eredmények Egy beszédfelismer® rendszer létrehozása során az azzal kapható felismerési pontosságot a modellparamétereken és az alkalmazott technikákon túl alapvet®en befolyásolja a megvalósítandó feladat típusa, valamint a tanításhoz rendelkezésre álló beszédadatbázis mérete és tulajdonságai (mintavételezési frekvencia, átiratok min®sége, beszél®információ stb.). Nyilvánvaló, hogy egy egyetlen beszél®re adaptált, kisszámú különböz® szót (pl. egy mobiltelefon használója által beolvasott számjegyeket) felismerni hivatott rendszer sokkal jobb eredményeket képes produkálni egy nagyszótáras, folyamatos beszédfelismer® rendszerrel szemben. Mivel az általam megvalósított feladatok ez utóbbi kategóriába oszthatók, az alábbiakban röviden bemutatom a nemzetközi kutatások során hasonló feladatokon elért eredményeket.
Broadcast-anyagokon elért eredmények Mivel egyik f® feladatom magyar nyelv¶, televízióban sugárzott m¶sorok (híradó, beszélget®s m¶sorok stb.) automatikus feliratozásához használható beszédfelismer®-rendszer építése volt, ezért megvizsgáltam néhány más nyelven megvalósított, broadcast-médiára épül® rendszer teljesítményét. Mivel az egyéni feladatokra készült rendszerek esetében minden esetben eltér a tanító-adatbázisok mérete és tartalma, ezért a sztenderd korpuszokkal ellentétben ezek összehasonlítási alapnak kevéssé használhatók, tájékozódásképp azonban érdemes lehet áttekinteni ®ket. Az elmúlt húsz évben a beszédfelismerési kutatásoknak és az új technológiáknak köszönhet®en a különböz® televízióban, rádióban sugárzott m¶sorok felismerésében elért eredményeiben jelent®s javulás gyelhet® meg. [3] 1994-es cikkében spontán beszéden 62,9%-os, felolvasott beszédben (pl. hírolvasók) 49%-os szóhibaarányról számol be. Ugyanezek a kongurációk egy évvel kés®bb 59,7% és 48%-ra csökkennek.
20
A broadcast-anyagokat kutató publikációk többsége hagyományos, Markovmodell-alapú technikákkal dolgozik, újabban azonban a neurális hálózatok el®térbe kerülésével ilyen kutatásokról is olvashatunk. A 2014-ben megjelent német tanulmány [25] esetén jól meggyelhet® a neuronhálók el®nye a sztenderd GMM-modellekkel szemben: míg hagyományos technikákkal spontán m¶soranyagokon 50%-os szóhibaarányt sikerült csak elérni, addig mély neurális hálózatokkal ez az érték ugyanazon a teszthalmazon 37,6%. Ez 25%-os relatív javulás, ami egyértelm¶en megmutatja alkalmazásuk el®nyét. A legjobb eredmények 26%-os szóhibaarány magasságában fekszenek [15], azonban ebben nagyban közrejátszik a korpuszban található anyagok típusa míg az utóbbi hírm¶sorokon tanított rendszerek f®leg koordinált (hírolvasás) stúdiófelvételekre épülnek, addig a német tanulmányban spontán, zajos, több beszél®s anyagok is találhatók a tanító- és teszthalmazokban. Mivel az általam megvalósítandó feladat is hasonló jelleg¶, ezért 30% alatti szóhibaarány elérése elfogadható célnak látszik.
Telefonos adatbázisokon elért eredmények Feladataim másik nagy típusát a telefonbeszélgetések alapján épített akusztikus modellek teljesítményének vizsgálata jelenti. A folyamatos telefonbeszélgetés-alapú felismerési feladat nemzetközi sztenderdje a Switchboard -korpusz,
6 azonban fontos kiemelni, hogy ez
esetben több mint 300 órányi tanítóanyag áll rendelkezésre, ahol a beszélgetések két oldala csatornánként fel van címkézve, valamint beszél®címkékkel is el van látva, pontosabb adaptációs megoldások alkalmazását téve lehet®vé ezzel. Ezzel szemben az általam vizsgált feladatok során kisebb adatbázisok állnak csak rendelkezésemre, általában beszél®információ nélkül. A közös jellemz® a m¶soranyagoknál alacsonyabb sávszélesség (és mintavételezési frekvencia), ami negatívan befolyásolja a felismerési pontosságot. A Switchboard -korpuszon [11] HMM-architektúrák alkalmazásával 27,4%-os elérhet® szóhibaarányról számol be, amit 7 rejtett réteget tartalmazó neurális hálók segítségével 19,6%ra csökken. [29] alapján 5 rejtett réteg alkalmazásával 22,5%-os WER-érték érhet® el. Várakozásaim szerint a feljebb említett okok miatt az általam vizsgált adatbázisokon csak magasabb hibaarány-érték lesz elérhet®, azonban a tendenciák és a neuronhálók pozitív hatása szempontjából érdemes szem el®tt tartani ezeket az eredményeket. [1] 70 órányi német nyelv¶ telefonbeszélgetés alapján tanított hagyományos GMMmodellekkel 40% körüli WER-r®l számol be, így a rendelkezésemre álló (mind 60 órányi anyagnál kisebb) adatbázisokkal ezen technikákkal 40% feletti szóhibaarány várható, amin neurális hálózatokkal javulás érhet® el; [24] neuronhálókkal 28%-os relatív javulást mutat fel a Switchboard -korpuszon, így kisebb adatbázison is jelent®s hibaarány-csökkenésre lehet számítani.
1.3. Jelenlegi irányok A neurális hálózatok alkalmazásával elérhet® beszédfelismerési pontosság a nemzetközi irodalom alapján szignikánsan jobb a hagyományos megoldások teljesítményénél, azonban
6
https://catalog.ldc.upenn.edu/LDC97S62 21
az eddigi eredményekhez képest további javulást hozhat az ún. konvolúciós neuronhálók alkalmazása. A bemeneti konvolúciós réteget eredményesen alkalmazták más mintaillesztési feladatokra, és amint [27] munkájából is látszik, a beszédfelismerésben is sikerrel használható. További irány lehet a sztenderd szigmoid, és a nála jobban teljesít® rektikációs aktivációs függvények után további függvénytípusokat alkalmazni; jelenleg különböz® ma-
xout aktivációjú [28] neuronáhálók terén is folyik kutatás. Ígéretes irányt jelent az ún. dropout -típusú (kiejtéses) hálózatok alkalmazása, amelyeknél az egyes rétegbeli neuronok kimenetéb®l egy bizonyos százalékot kinullázunk, így kényszerítve a neuronokat az önálló tanulásra [4]. A neurális hálózatok vizsgálata és beszédfelismerésre történ® alkalmazásuk aktívan kutatott és dinamikusan fejl®d® terület, az el®relépéseknek a legsz¶kebb keresztmetszete a rendkívül nagy er®forrásigény neuronhálós tanításokhoz sok és gyors processzorra és/vagy grakus egységre van szükség, ami konvolúciós hálózatok alkalmazása esetén hatványozottan igaz.
22
2. fejezet
A beszédfelismer® keretrendszer specikációja 2.1. A nyílt forráskódú megoldások áttekintése A feladataim megvalósításához alapvet®en egy olyan kutatási eszközre volt szükségem, ami egyfel®l támogatja az általam vizsgálni kívánt beszédfelismerési módszereket, különös tekintettel a neurális hálós akusztikus modellezésre. Olyan eszközt kerestem, amelyben az alapvet® megoldások, valamint a kiegészít®, felismerési eredményeket pontosító technikák (dimenziócsökkentés, beszél®adaptáció stb.) megfelel®en implementálva vannak, ugyanakkor lehet®séget nyújt a hagyományos, kevert Gauss-modelleken alapuló akusztikus modellek vizsgálatára is. Fontos volt számomra, hogy egy rendszeren belül tudjam megvalósítani a beszédfelismerési feladat összes lépését, azaz legyenek támogatva különböz® lényegkiemelési eljárások, importálhatóak legyenek a nyelvi modellek, szótárak, és a dekódolást, valamint a kiértékelést is meg tudjam valósítani. A másik fontos elvárásom a rendszer módosíthatósága volt az egyes feladatokhoz történ® testreszabhatóság érdekében. Ezek fényében mindenképpen egy olyan nyílt forráskódú, szabadon terjeszthet® és módosítható eszközt kerestem, ami minél jobban megfelel a céljaimnak. Korábban a beszédfelismerési kutatásokban legszélesebb körben alkalmazott ilyen rendszer a HTK Toolkit
1 volt, sok rendszer továbbra is e köré az eszköz köré épül. Fontos
hátránya azonban, hogy a neurális hálózatos tanításokat egyáltalán nem támogatja, ezért mindenképpen másik megoldásra volt szükségem. További nyílt forráskódú megoldásként a CMU Sphinx -rendszer
2 jöhetett volna szóba, azonban ennek alkalmazása az elavult tech-
nológia és az er®sen hiányos dokumentáció miatt nem látszott célszer¶nek. A nemzetközi szakirodalmat vizsgálva 2013. óta egy másik sokat hivatkozott beszédfelismer® keretrendszer a Kaldi névre hallgató nyílt forráskódú eszköz.
3 [20] A nyílt forráskódú,
C++-ban készült rendszer Linux-alapú környezetben futtatható, kódja szabadon módosítható és b®víthet®, Apache 2.0 licensz alatt érhet® el. A HTK Toolkit tel szemben itt meg vannak valósítva különböz® neurális hálós tanítóalgoritmusok, így ez utóbbi tulajdonsága,
1
http://htk.eng.cam.ac.uk/ http://cmusphinx.sourceforge.net/ 3 http://kaldi.sourceforge.net/ 2
23
valamint a jelenlegi kutatásokban való szélesebb kör¶ alkalmazása miatt választottam a
Kaldi t feladataim megvalósításához.
2.1.1. A Kaldi beszédfelismer® keretrendszer A Kaldi bármilyen UNIX-alapú környezetben telepíthet®, Windows alatt a Cygwin alkalmazása jelenthet megoldást, azonban a dokumentáció szerint azonban ilyenkor számos kompatibilitási probléma fordulhat el®. Ennek fényében ezt a lehet®séget nem vizsgáltam, a keretrendszert Ubuntu 12.04 operációs rendszer alatt használtam feladataim megoldásához. A rendszer programozása alapvet®en UNIX shell-szkriptben (bash) történik, amely segítségével a bash-en belül elvégezhet® feldolgozási lépéseken túl a Kaldi ban megtalálható futtatható C++ állományokat hívjuk meg a beszédfelismerési lépések lényegi része ezeken keresztül történik. Ezen állományok a Kaldi C++ könyvtáraira hivatkoznak, ezeknek pedig további küls® könyvtárakra lehet szükségük a mátrixok, véges állapotú transzdúcerek kezelésére, valamint a GPU-támogatás elérésére [20]. A rendszer felépítését a 2.1 ábra illusztrálja.
Unix Shell Szkript
futtatható Kaldi C++ állományok
matrix nnet gmm hmm fst ...
OpenFST 2.1. ábra.
LibATLAS
CUDA
Kaldi C++ könyvtárak
küls® könyvtárak
A Kaldi beszédfelismer® rendszer környezetének felépítése [20] nyomán
A csomag letöltéséhez és a folyamatosan megjelen® frissítések kezeléséhez szükséges a
subversion verziómenedzser megléte, valamint a telepítéshez az automake eszköz is el®feltétel. Amennyiben ezek rendelkezésre állnak, a telepítés automatikusan történik, azonban sok esetben el®fordulhat, hogy bizonyos, a Kaldi számára szükséges további küls® csomagokat kézileg kell telepíteni, pl. a LibATLAS gy¶jteményt, illetve az OpenFST
4 lineáris algebrai megoldásokat szolgáltató
5 véges állapotó transzdúcereket menedzsel® programcso-
magot. Amennyiben a neurális hálózatok tanítását gyorsítani szeretnénk, lehet®ségünk van videokártyán futtatni azokat. A Kaldi a CUDA Toolkit
4
http://www.openfst.org/twiki/bin/view/FST/WebHome http://math-atlas.sourceforge.net/ 6 https://developer.nvidia.com/cuda-toolkit 5
24
6 segítségével végzi ezt, így ennek a
csomagnak is szükséges a telepítése, valamint ezt követ®en a Kaldi újrafordítása. Grakus processzor-alapú tanításhoz mindenképpen nVIDIA típusú grakus kártyákra van szükség.
7
8
A Kaldi ban a gyakran használt sztenderd korpuszokhoz (WSJ , TIMIT , Switchboard stb.) találhatók mintaszkriptek. Ezek elvégzik a lényegkiemelés lépéseit, az el®re elkészített nyelvi modelleket megfelel® súlyozott transzdúcerekké konvertálják, majd a megadott paramétereknek megfelel®en betanítják az akusztikus modelleket, ennek végeztével pedig a felismerési gráfot létrehozva dekódolást végeznek és mérik az elért hibaarányt. Bár a rendszer a sztenderd korpuszokon elvileg automatikusan m¶ködik, a kódok módosítása sokszor nem csak optimalizálási, hanem hibajavítási célból is szükséges. A különböz® verziók frissítései sokszor nem követik egymást, valamint az operációs rendszer és egyéb csomagok között is el®fordulhatnak kompatibilitási problémák. Ezek felderítése és kijavítása id®igényes feladat lehet. Saját adatok használata esetén minimálisan a következ®kre van szükségünk: 1. a vizsgálandó adatbázis hangfelvételei vagy az ebb®l valamilyen lényegkiemelési eljárással korábban kinyert jellemz®vektorok 2. az adatbázis felvételeihez tartozó szöveges átiratok 3. az adatbázis felvételeihez tartozó beszél®azonosítók, vagy amennyiben ez nem áll rendelkezésre, tetsz®leges azonosítók (a Kaldi megköveteli, hogy az azonosítók a fájlnevek prexei legyenek) 4. nyelvi modell 5. szótár Munkám során ezek az állományok elérhet®ek voltak az egyes beszédadatbázisokhoz, formátumuk azonban sokszor gyökeresen különbözött a Kaldi által használttól. Ezért minden esetben az els® lépés ezek megfelel® alakra történ® konverziója volt, aminek automatizálása érdekében szkripteket (bash, perl) készítettem, valamint így végeztem az esetleges további, rendelkezésre nem álló, de a további állományok alapján egyértelm¶en generálható fájlok el®állítását is (pl. beszél®információ). Az adatbázisokon végzett beszédfelismerési kísérletek során a Kaldi ban megtalálható lényegkiemelési eljárások (MFCC, FBANK) mellett küls® eszközökkel is végeztem lényegkiemelést. Erre azért volt szükség, hogy az általam kapott eredmények más, nem Kaldi-alapú rendszerekkel is összehasonlíthatóak legyenek, és az elkészült modelleket a Kaldi tól független (pl. HTK Toolkit re épül®) rendszerekkel is tesztelni lehessen. Ezek közül legf®bbképp a VOXerver
9 beszédfelismer® rendszerben implementált MFCC-lényegkiemelési eljárást
alkalmaztam, hogy eredményeim ebben, a szakdolgozatomhoz köt®d® ipari alkalmazások által is használt eszközben is használható legyen.
7
https://catalog.ldc.upenn.edu/LDC93S6A, https://catalog.ldc.upenn.edu/LDC94S13A https://catalog.ldc.upenn.edu/LDC93S1 9 http://speechtex.com/index.php/technology 8
25
3. fejezet
Kísérletek hírm¶sorok hanganyagain A szakdolgozatom során megvalósított feladataim gerincét a különböz® méret¶, hírm¶sorok hanganyagait tartalmazó adatbázisok jelentették. Ezek a beszédadatbázisok valós televízióadásokban elhangzott felvételekb®l állnak, különböz® csatornák híradóm¶soraiból épülnek fel. Az adatbázis tartalma magával vonja a feladat komplexitását: a hírm¶sorok során a hírolvasók zajmentes stúdiókörülmények között koordinált, jól artikulált, felolvasott beszédet valósítanak meg, azonban az egyes blokkokhoz tartozó riportokról, bejelentkezésekr®l mindez már nem mondható el. Ez utóbbi esetben sokszor találkozunk spontán beszéddel (pl. egy interjú esetén), ami sokszor kevésbé artikulált, valamint el®fordulhatnak megakadások, esetleg egymás szavába vágás is. Semmiképp sem elhanyagolható mérték¶ ilyenkor a hattérzaj sem, ami tovább nehezíti a beszédfelismerési feladatot. A célom ezeken a híranyagokon olyan akusztikus modell készítése volt, ami kell® általánosító er®vel bír ahhoz, hogy jól lehessen használni televíziós m¶sorok valós id®ben történ® automatikus feliratozásához. A rendelkezésemre álló maximális hanganyag 64 órát tett ki, ezekhez mind tartoztak kézzel készített átiratok is a felügyelt tanításhoz. Feladatom során több, különböz® méret¶ részhalmazát is használtam a teljes adatbázisnak (10, 20, illetve az 5. fejezet tesztjeihez 32 órányi anyagok) a tanítóanyag méretének beszédfelismerési pontosságra gyakorolt hatásának vizsgálata érdekében. Ebben a fejezetben bemutatom a különböz® méret¶ hírm¶sor-hanganyagokon megvalósított beszédfelismer® rendszereket, és az azokkal elérhet® szóhibaarányokat. Megvizsgálom a tanítóanyag és a nyelvi modell méretének hatását az eredményekre. A hagyományos GMMalapú technikák mellett a neurális hálózatokkal történ® akusztikus modellezésre fektetem a hangsúlyt és ezeknek optimalizálom a szabad paramétereit az egyes feladatokra, igazolom el®nyüket a klasszikus megoldásokkal szemben. Kitérek a dimenziócsökkentés (LDA, MLLT) hatásaira, valamint egy elkülönített, beszél®információkat is tartalmazó teszthalmaz segítségével a beszél®adaptáció lehet®ségeit is bemutatom.
3.1. A rendszer felépítése Az alábbiakban röviden ismertetem a hírm¶sorok hanganyagain megvalósított felismer®rendszer általános struktúráját, az elvégzett kísérletekhez használt általános felépítést, a
26
tesztek metodikáját. A különböz® méret¶ adatbázisokon elvégzett lépéseket és azok sorrendjét, hierarchiáját követhetjük a 3.1 ábrán. Az els® lépés minden esetben a teljes 64 órás adatbázis megfelel® részhalmazának elkülönítése az anyagból. Ez történhet el®re elkészített fájllista alapján, ami specikálja az adott részadatbázisokba tartozó anyagokat, illetve mivel a hangfájlok közel azonos hosszúságú (néhány másodperces) szegmentumokra vannak vágva arányosan is használhatjuk az anyagok megfelel® százalékát. A 10 és 20 órás anyagok sztenderdnek min®sülnek, így itt az el®bbi, míg az er®forrás tesztelésre használt különböz® 32 órás adatbázisok vizsgálata során az utóbbi módszert alkalmaztam. A következ® lépés a fájllista alapján az átiratok sz¶rése és ezek konverziója Kaldi kompatibilis formátumba, valamint a vonatkozó azonosító-beszél® megfeleltetések generálása. Mivel beszél®információ nem állt rendelkezésre, ezért ebben az esetben a beszél®azonosítók azon f®fájlok (m¶sorok) azonosítói voltak, amelyekhez az egyes szegmentumok tartoztak. Ezzel párhuzamos feladat a rendelkezésre álló kiejtési szótár és nyelvi modell alapján a nyelvi modell transzdúcerének létrehozása és a nyelvi adatok gépi formátumba való konvertálása (a Kaldi az egyes szavaknak egész számokat feleltet meg). A lényegkiemelés történhet a Kaldi n belül megvalósított módszerekkel, valamint használhatunk más rendszerekkel nyert jellemz®vektorokat is ebben az esetben azokat importálni és kompatibilis formátumúvá alakítani kell; ebben segítséget nyújthat a
htk2ark1
konverziós program. Miután minden tanításhoz és dekódoláshoz szükséges adat rendelkezésre áll (a tesztanyagokat a tanítóanyagokhoz hasonló módon kell el®készíteni), a kísérletek kiindulópontjaként a következ® módon végeztem a modellek tanítását: el®ször minden esetben egy monofón, GMM-alapú modellt készítettem, amely illesztései a kés®bbi trifón GMM-modellek alapjaként is szolgálnak a tanításhoz. Ezt egy trifón modell tanítása követi, ahol egy döntési fa segítségével automatikusan állnak el® a trifónok. Az eredmény további javítása érdekében általánosan alkalmaztam az újratanítás módszerét: miután egy kész modell alapján elkészítjük az illesztéseket, azzal egy újabb, szintén trifónos Markovmodell-alapú rendszert tanítunk; ez mint látni fogjuk pontosítja a felismerési eredményeket. A dimenziócsökkent® eljárások is a trifón modellek bemeneti jellemz®in kerültek alkalmazásra azokban az esetekben, ahol ezek hatását vizsgáltam. A neuronháló-alapú akusztikus modellek tanítását bevett szokás annak a rendszernek az illesztéseire alapozni, amelyik a klasszikus módszerek közül a legjobb felismerési eredményt produkálja. Így a következ® lépésben a feladat ennek a modellnek a kiválasztása; a teljesítmény összehasonlításán túl ez a tény indokolja, hogy a neurális hálók tanítását megel®z®en minden esetben részletes vizsgálatot folytassunk a hagyományos, kevert Gauss-modelleket alkalmazó beszédfelismerési technikák terén is. Az akusztikus modellek tanítása során számos szabad paraméterrel dolgozunk; ez különösen a neurális hálózatok esetén igaz, azonban már a rejtett Markovmodell-alapú rendszerek megvalósítása során is lehet®ségünk nyílik bizonyos változók hangolására (pl. a felhasz-
1
http://www.utdallas.edu/~hynek/tools/Kaldi/htk2ark.c 27
átiratok
nyelvi modell
felvételek
data
lang
feats
monofón
trifón
legjobb modell trifón
kiválasztása
(újraillesztett)
trifón (LDA)
neurális háló
3.1. ábra.
A híranyagon megvalósított beszédfelismer® rendszer tervezésének folyamatábrája
nált Gauss-függvények száma). Így célszer¶nek látszott ezeknél a módszereknél is több kongurációt tesztelni különböz® paraméter-beállításokkal, megvizsgálni azok hatását a beszédfelismerési eredményre, így keresve meg az optimális modellt a neuronhálózatos tanítások alapjához.
3.2. A kísérletek során vizsgált paraméterek Az alábbiakban felsorolom a megvalósított feladatok során vizsgált f® paramétereket, amelyeket (néhány konstans értéken tartott jellemz® mellett) az optimális modellek megkereséséhez használtam. Ezek leírása megtalálható az 1. fejezetben, valamint az ott hivatkozott szakirodalomban; az eredmények feltüntetésekor az alábbi módon hivatkozom rájuk. A feltüntetett szóhibaarány-értékek (WER) 1 óra 34 perc hosszú DEV- és 1 óra hosszú EVAL-halmazon kerültek mérésre; a használt szótár 150577 szót tartalmazott.
28
Bemeneti jellemz®k •
MFCC39: 39 dimenziós MFCC-vektorok a Kaldiban
megvalósított lényegkiemelési
eljárással.
•
FBANKx : a sz¶r®kimenetekb®l közvetlenül, visszatranszformálás nélkül nyert jellemz®vektorok, ahol
x a dimenziószám (az alkalmazott mel-sz¶r®k száma a sz¶r®sor-
ban).
•
TZCC39: 39-dimenziós, Kaldin kívüli rendszerrel (VOXerver ) megvalósított MFCCjellemz®vektorok; alkalmazásuk a modellek küls® kompatibilitása, Kaldin kívül történ® tesztelhet®sége érdekében történik.
•
+CMVN: opcionális kepsztrális átlag- és variancia-normalizálás a jellemz®vektorokon.
•
+LDAx :
opcionálisan alkalmazott lineáris diszkrimináns-elemzés a jellemz®vekto-
rokon a dimenziószám csökkentése és a megkülönböztethet®ség növelése érdekében (opcionális).
x
az LDA megvalósításához használt algoritmus bemenetén összefogott
id®ablakok számát jelenti.
•
+MLLT:
az LDA-hoz kapcsolódó és azzal együtt alkalmazott dimenziócsökkent®
ML lineáris transzformáció.
Gauss-szám A klasszikus, GMM-alapú beszédfelismerési módszerek esetén a rejtett Markov-modellek egyes állapotaihoz tartozó Gauss-függvények összege, ami a tanítás során a Kaldi ban automatikusan kerül elosztásra az állapotok között a tanításhoz használt adathalmaz mérete alapján.
Döntési fa levélszám Trifón modellek esetében a monofónok automatikus trifónosításához használt döntési fa leveleinek (azaz a különböz® lehetséges osztályoknak) a száma. A vizsgált kongurációk során ez minden esetben 2500, ezért külön nem kerül feltüntetésre (monofón esetben értelemszer¶en 0, hiszen nem történik trifónosítás).
Modell •
Klasszikus, GMM-modellek esetén a modell lehet monofón, illetve trifón, a fonémamodellezés pedig történhet pozíciófüggetlen, valamint pozíciófügg® módon (szóeleji, szóbelseji és szóvégi hangok megkülönböztetésével vagy enélkül).
•
Neurális hálózatok tanítása esetén a legf®bb modellparaméter a neuronháló rejtettrétegszáma (k ), és ezen rétegek neuronjainak száma (l); erre
k×l
alakban hivatkozom.
Itt tüntetem fel az adott modellben alkalmazott aktivációs függvény típusát is (tanh, rectier stb.), valamint bizonyos esetekben a tanítás egyéb jellemz®it.
29
Epoch-szám A neurális hálózatok tanítása során alkalmazott összes tanítási ciklus száma (azaz annak értéke, ahányszor végigfut a tanítóalgoritmus a teljes adatbázison). Általában adom meg, ahol
k
k +l alakban
azon ciklusok száma, amely során a tanulási sebesség fokozatosan a
kezdetir®l a végs® értékére csökken (ld. a következ® pontot),
l
pedig azoké a ciklusoké,
amelyek során a tanulási sebesség változatlanul a végs® értéken van tartva.
Tanulási sebesség A
x/y
alakban megadott értékek, ahol
x
és
y
rendre a kezdeti és a végs® tanulási sebessé-
get jelenti. Amennyiben az epochok számának meghatározása automatikusan történik (ld. el®z® pont), csak a kezdeti érték kerül feltüntetésre.
Softmax-réteg A neurális hálózatok utolsó rejtett rétege és kimeneti rétege közé beiktatott softmax aktivációjú réteg neuronjainak száma.
3.3. Tesztek a 10 órás adatbázison Kísérleteim kiindulópontját a teljes 64 órás hírm¶sor-hanganyag egy tízórás részhalmaza jelentette. Feladataim megvalósítását célszer¶nek t¶nt egy viszonylag kis méret¶ adatbázisra alapozva elkezdeni, mivel így a tanítási és tesztelési id®k, amelyek a teljes anyag felhasználása esetén több napot is igénybe vesznek, még olyan keretek között maradnak (a pontos adatok az 5. fejezetben olvashatók), amelyek lehet®vé teszik többféle konguráció egymás utáni kipróbálását, így segítve el® a beszédfelismer® rendszer optimalizálását. A részhalmazon jól teljesít® modellek ezután jelenthetik a több anyagon tanított rendszerek kiindulópontjait, ami az egyes nagyobb adatbázisok esetén további optimalizációs lépések követhetnek.
3.3.1. Kiinduló rendszer A legels® tesztsorozat a Kaldi ban megvalósított, más sztenderd korpuszokon (pl. WSJ) jól teljesít® kongurációban készült, az ott javasolt alapértelmezett paraméterértékek használatával. Az itt megvalósított beszédfelismer® rendszer akusztikus modelljei a lehet® legjobb elérhet® eredmény érdekében minden, szóhibaarányt várhatóan csökkent® technikát alkalmaznak: a bemeneti jellemz®vektorokon kepsztrális normalizálás, valamint trifón modell esetében dimenziócsökkentés (LDA+MLLT) is történik, a fonémamodellezés pedig pozíciófügg®. Monofón modell esetén 1000, míg trifón HMM alkalmazásakor összesen 30000 teljes Gaussfüggvény-számmal dolgoztam, a trifón modelleknél a döntési fák levélszáma 2500. A neurális hálózat tanításához a lényegesen jobban teljesít® trifón rendszert használtam alapul. Ebben az esetben a kiindulópontként használt neuronháló-architektúra három rejtett réteggel, rétegenként 1024 neuronnal rendelkezett, valamint a kimeneti réteg elé egy
30
4000 neuronból felépül® softmax-réteget helyeztem el. A tanítás 20, tanulási sebességet csökkent®, majd további 5, végs® tanulási sebességet megtartó epochból állt. A kezdeti tanulási sebességet a Kaldi ban alapértelmezettként szerepl® 0,004-re választottam, és ennek az értéknek a tizedére csökkentettem fokozatosan a tanítási ciklusok alatt. Az GMM-alapú és a neurális hálózatokkal elért eredmények nyomon követhet®k a 3.1 és 3.2 táblázatokban. Az így felállított alaprendszerhez a híradatbázisból készült közepes méret¶ nyelvi modellt használtam; a nyelvi modell azért kapta a közepes jelz®t, mert bár rendelkezésre állt egy ennél nagyobb modell is, ami tovább javíthatta volna az elért felismerési pontosságot, a dekódoláshoz használt felismerési gráf azonban ilyenkor olyan nagy méret¶, hogy az abban megvalósítandó optimális útkeresési feladathoz 32GB memória sem bizonyult elegend®nek. 3.1. táblázat.
A kiinduló rendszer eredményei a 10 órás híradatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k MFCC39 +CMVN MFCC39 +CMVN +LDA7 +MLLT
3.2. táblázat.
1k
monofón, pozíciófügg®
30k
trifón, pozíciófügg®
WER WER DEV [%] EVAL [%] 50,9
58,5
33,8
39,5
A kiinduló rendszer eredményei a 10 órás híradatbázison (NN)
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER WER jellemz®k sebesség DEV [%] EVAL [%] MFCC39 +CMVN +LDA7 +MLLT MFCC39 +CMVN +LDA7 +MLLT
20+5
20+5
3 × 1024,
0,004 /0,0004
4000
28,7
29,2
4 × 1024,
0,004 /0,0004
4000
29,9
30,5
tanh
tanh
Az így felállított rendszerek bár még nem bocsátkoznak a különböz® paraméterek hatásainak részletes vizsgálatába és egyéb optimalizálás sem történik, az alapvet® tendenciák már itt is jól meggyelhet®k. Elmondható, hogy míg a monofón rendszer teljesítménye ötven százalék feletti szóhibaarányt eredményez, a trifón-alapú HMM-rendszer bemeneti dimenziócsökkentéssel ehhez az értékhez képest megközelít®leg 33%-os átlagos relatív
2
teljesítményjavulást produkál.
A 3.2 táblázatból jól látszik továbbá a neurális hálózatok alkalmazásával történ® mintaillesztés jelent®s el®nye a hagyományos Gausskeverék-alapú rendszerekéhez képest. Az átlagos WER-érték itt a trifón-HMM rendszerrel elérhet® 36,7%-ról 29% alá csökken; ez relatív javulás tekintetében további 21%-nak felel meg. A neurális hálózat rejtett rétegeinek számát illet®en elmondható, hogy három rejtett rétegnél több alkalmazása ez esetben nem
2
Több rendszer teljesítményének összehasonlításakor többet árulhat el a pontosság javulásáról, ha az x−xref abszolút, százalékpontos különbség helyett a relatív különbséget ( xref ) vesszük gyelembe, hiszen egy adott abszolút különbség sokkal nagyobb javulást jelent kisebb referenciaértékek mellett. 31
célravezet®, 4 rejtett réteg esetén rosszabb szóhibaarányt kapunk (ez ilyen kis adatbázisméretnél érhet®). Ezek az eredmények jó kiindulópontot jelentenek a további feladatok tekintetében, hiszen jó áttekintést adnak az alapvet®, különböz® akusztikus modellezési technikák várható beszédfelismerési pontosságának tekintetében. A mesterséges neurális hálózatokkal elérhet® szignikáns mérték¶ javulás alátámasztja a használatuk indokoltságát a híradatbázison, valamint további beszédfelismerési feladatok megvalósítása során. A puszta számszer¶ értékeken túl érdemes megvizsgálni részletesebben is a felismert kimenetek és az elhangzott tesztanyagok viszonyát, hogy képet kaphassunk a körülbelüli értékekhez tartozó felismerési kimenetek min®ségér®l, használhatóságáról. Az alábbiakban ugyanaz a fent ismertetett három modell által felismert rövid részlet, valamint a hozzájuk tartozó valós leirat olvasható. Az egyes kimenetek esetében vastaggal jelöltem a helyettesítéseket, áthúzással a beszúrásokat és
√
szimbólummal a törléseket. A nagybet¶sítést
és a központozást kézileg végeztem el, mivel ez a Kaldi által felismert kimeneteken nem történik meg, és már a tanítóanyag is kisbet¶sítésre kerül, valamint eltávolításra kerülnek bel®le az írásjelek. A referencia-leirat: Mit kérhet cserébe a pénzügyi segítségért a Nemzetközi Valutaalap? A Figyel® cím¶ hetilap birtokába jutott dokumentum szerint a kormánynak többek között vissza kell állítania a Jegybank függetlenségét. El®ször csökkenteni kell, majd ki kell vezetnie a válságadókat és át kell alakítania a szociális juttatások rendszerét. A Figyel® cím¶ lap internetes kiadásának értesülései szerint az IMF és az EU egyebek mellett azt várja a kormánytól, hogy mérsékelje és vezesse ki a válságadókat, alakítsa át a szociális juttatások rendszerét és vezesse be a magáncs®d intézményét. A Híradó kérdésére a tárgyalásokért felel®s tárca nélküli miniszter titkárságán azt mondták, hogy a kormány nem reagál sajtóértesülésekre. Martonyi János külügyminiszter a Le Figaro cím¶ konzervatív francia lapnak azonban meger®sítette: a kabinet kész mindent megvitatni az Európai Unióval és a Nemzetközi Valutaalappal. A tárcavezet® azt mondta, idézem: nem állítom, hogy készek vagyunk mindenre. A monofón rendszer kimenete (WER=50,9%):
Még egy cserében a pénzügyi segítségért a Nemzetközi Valutaalap? A félelem cégnek a birtokába jutott dokumentum szerint a kormánynak többek között vissza kell állítania a Jegybank függetlenségét. El®ször csökkenteni kell,
Vatikán
√√
vezet®je
a válságadókat
is
át kell
alakítani
a szociális jutta-
tások rendszerét. A Figyel® cím¶ lap internetes kiadásának értesülései szerint
a IMF és az EU egyebek mellett azt várja a kormánytól, hogy misékkel és mezes ki a válságadókat, valaki csak a szociális juttatások rendszerét is √ mezes de a magán cs®d intézményét. Híradó kérdésére a tárgyalásokért az
felel®s tárca nélküli miniszter titkárságán azt mondták, hogy a kormány nem
jóvá sajtóértesülésekre. Martonyi János külügyminiszter a lu 32
√
árucikkek
lap azonban meger®sítette: a kabinet és mindent megvitatni az Európai Unióval és a Nemzetközi Valutaalappal. A tárcavezet® osztotta √ , idéz: nem állítom, hogy kész hogy minderre.
konzervatív francia
A trifón, LDA-t és MLLT-t is alkalmazó rendszer kimenete (WER=33,8%): Mit
kérnek
cserébe a pénzügyi segítségért a Nemzetközi Valutaalap? A Fi-
gyel® cím¶ hetilap birtokába jutott dokumentum szerint a kormánynak többek között vissza kell állítania a Jegybank függetlenségét. El®ször csökkenteni kell, majd ki kell vezetnie a válságadókat
is
át kell
alakítani
a
a
szociális jutta-
tások rendszerét. A Figyel® cím¶ lap internetes kiadásának értesülései szerint az
IMF-nek s az EU egyebek mellett azt várja a kormánytól, hogy mérsékel-
je és vezesse ki a válságadókat, alakítsa át a szociális juttatások rendszerét és vezesse be a
magán cs®d
intézményét. A Híradó kérdésére a tárgyalásokért
felel®s tárca nélküli miniszter titkárságán azt mondták, hogy a kormány nem reagál sajtóértesülésekre. Martonyi János külügyminiszter
√
√
orvosi Daróczi
laknak azonban meger®sítette: a kabinet kész mindent megvitatni az Európai Unióval és a Nemzetközi Valutaalap tart. A tárcavezet® azt mondta, idézem: nem állítom, hogy készek vagyunk minderre. konzervatív francia
A neurális hálózatra épül® rendszer kimenete (WER=28,7%): Mit kérhet cserébe a pénzügyi segítségért a Nemzetközi Valutaalap? A Figyel® cím¶ hetilap birtokába jutott dokumentum szerint a kormánynak többek között vissza kell állítania a Jegybank függetlenségét. El®ször csökkenteni kell, majd ki kell vezetnie a válságadókat és át kell alakítani a a szociális juttatások rendszerét. A Figyel® cím¶ lap internetes kiadásának értesülései szerint az
IMF-nek és az EU egyebek mellett azt várja a kormánytól, hogy mérsékelje és vezesse ki a válságadókat, alakítsa át a szociális juttatások rendszerét és vezessen be a magán cs®d intézményét. A Híradó kérdésére a tárgyalásokért felel®s tárca nélküli miniszter titkárságán azt mondták, hogy a kormány nem reagál sajtóértesülésekre. Martonyi János külügyminiszter a
√
Figaro cím¶ konzerva-
tív francia lapnak azonban meger®sítette: a kabinet kész mindent megvitatni az Európai Unióval és a Nemzetközi Valutaalappal. A tárcavezet® azt mondta, idézem: nem állítom, hogy készek vagyunk
minderre.
A kimenetek vizsgálatával a szóhibaarányok számszer¶ ismerete nélkül is jól látható az egyes rendszerek teljesítménye közötti számottev® különbség. Míg a monofón modell bár a szavak nagy százalékát helyesen ismeri fel, alapvet®en nehezen érthet®, számos súlyos hibával t¶zdelt felismerési kimenetet produkál, addig a trifón modellel készült rendszer jóval kevesebb hibát vét. A neurális hálózat azonban még érezhet® további javulást hoz: a hibák itt már kevéssé zavaróak, és a rendszer olyan szavakat is felismer, amivel mindkét hagyományos megoldásnak komoly problémái voltak (különösen a francia lap nevénél látszik ez, habár itt még a neuronháló sem nyújt tökéletes teljesítményt).
33
Másfel®l fontos észrevenni, hogy a különböz® rendszerek által ejtett hibák sok esetben csak minimálisak, gyakran csak egy-egy bet¶nyi különbség található a referencia-leirat és a felismert kimeneti szöveg között (pl. egy elrontott rag, vagy a mindenre minderre tévesztése, amelyek kiejtése gyakorlatilag azonos). Ugyanakkor szóhibaarány mérésekor ezek a tévesztések ugyanolyan hibás szónak min®sülnek, mint pl. a monofón rendszer esetében a mérsékelje misékkel hiba. Külön problémás a helyzet az egybeírandó, de külön szóként felismert összetett szavak esetében (magáncs®d magán cs®d ), hiszen ilyenkor rögtön két hibás szóval számol a WER-t meghatározó algoritmus: egy hibás helyettesítéssel (magán-
cs®d magán ) és egy beszúrással (cs®d ). E problémák miatt a magyar esetében, valamint egyéb agglutináló nyelveknél célszer¶bb lehet és többet mondhat a rendszerteljesítményr®l a bet¶hibaarány (LER) mérése, azonban a bevett gyakorlat és az eredmények összehasonlíthatósága érdekében én az eredményeim közlésekor továbbra is a szóhibaarány-értékeket tüntetem fel.
3.3.2. Tesztek lterbank bemeneti jellemz®kkel A Kaldi ban implementált MFCC-jellemz®kinyerési eljárással készült modellek vizsgálatát követ®en célszer¶nek látszott egyéb lényegkiemelési eljárások vizsgálata is. A szakirodalom szerint [26] lterbank-jellemz®vektorokkal neurális hálózatok alkalmazása esetén bizonyos esetekben az MFCC-vektorokkal tanított neuronhálókénál jobb teljesítmény is elérhet®, ezért mindenképpen fontosnak láttam ezen a téren is kísérleteket folytatni. FBANK-jellemz®kkel alapvet®en két kísérleti kongurációt állítottam össze: egy Kal-
di n belül használható modellekb®l állót, pozíciófügg® fonémamodellezéssel, valamint egy azon kívül is kompatibilis modelleket tartalmazót, ahol a fonémamodellezés pozíciófüggetlen módon történt. Ezekben az összeállításokban mindkét esetben 27 dimenziós sz¶r®sorkimenettel dolgoztam (kompatibilitási okokból); a dimenziószám hatásait kés®bb, a 20 órás tanítóanyagon végzett kísérletekben vizsgálom. A két konguráció közti további különbségek szintén kompatibilitási megfontolásokból fakadnak. Az egyik ilyen a kepsztrális normalizáció alkalmazása illetve annak elhagyása. Mivel a CMVN csak oine módban értelmezhet®, hiszen valósidej¶ alkalmazások esetében nem áll rendelkezésre az adott id®keretet követ® ablakozások tartalma [16], ezért a VOXer-
ver implementációjából ez a lépés kimaradt, így az ezzel kompatibilis modelleken (3.3 és 3.4 táblázat) is kihagytam ennek használatát. A másik hasonló okok miatt elhagyott eljárás itt az LDA+MLLT-vel elérhet® dimenziócsökkentés, mivel a modellek készülésekor aktuális VOXerver -verzióban még ezek az algoritmusok sem voltak megvalósítva. Harmadrészt ugyanez mondható el a rektikációs aktivációs függvényt alkalmazó neurális hálózatos modellekr®l, mivel a kérdéses verzió csak tanh aktivációjú neuronhálók kezelését tette lehet®vé (ezt is csak dekódolási id®ben). A lterbank-jellemz®vektorokon tanított akusztikus modellek által elérhet® eredmények a két különféle kongurációban megvalósítva a 3.3 és 3.4 táblázatokban láthatók. Az eredményeket vizsgálva elmondható, hogy a GMM-modellek mellett a dimenziócsökkentés nélküli modellek lényegesen rosszabban teljesítenek az MFCC-lényegkiemeléssel készült pár-
34
3.3. táblázat.
Filterbank jellemz®vektorokkal elért eredmények a 10 órás adatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k
WER WER DEV [%] EVAL [%]
FBANK27
1k
85
85,7
FBANK27 +CMVN
1k
64,0
71,5
FBANK27
15k
79
81,5
FBANK27 +CMVN
15k
55,1
69,4
FBANK27
30k
78,5
81,6
52,1
64,3
FBANK27 +CMVN FBANK27 +LDA7 +MLLT FBANK27 +CMVN +LDA7 +MLLT FBANK27 +LDA7 +MLLT FBANK27 +CMVN +LDA7 +MLLT FBANK27 +LDA9 +MLLT FBANK27 +CMVN +LDA9 +MLLT FBANK27 +LDA9 +MLLT FBANK27 +CMVN +LDA9 +MLLT
30k
monofón pozíciófüggetlen monofón pozíciófügg® trifón pozíciófüggetlen trifón pozíciófügg® trifón pozíciófüggetlen trifón pozíciófügg®
15k
trifón pozíciófüggetlen
38,3
42,8
15k
trifón pozíciófügg®
33,9
39,1
30k
trifón pozíciófüggetlen
38,2
42,3
30k
trifón pozíciófügg®
33,8
39,2
15k
trifón pozíciófüggetlen
35,3
39,9
15k
trifón pozíciófügg®
33,2
38,9
30k
trifón pozíciófüggetlen
34,6
39,9
30k
trifón pozíciófügg®
32,8
38,7
jaiknál mind monofón, mind trifón esetben. LDA+MLLT alkalmazásával ez a különbség elt¶nik, a dimenziócsökkentett modellek megközelítik a 3.1 táblázatban láthatók teljesítményét, s®t, pozíciófügg® modellezés és CMVN alkalmazása esetén jobb eredményeket tapasztalunk (ezek elhagyása f®ként a dimenziócsökkentés elhagyásakor okoz felt¶n®en rosszabb eredményt). Úgy t¶nik továbbá, hogy FBANK-jellemz®vektorok alkalmazásakor célravezet® a lineáris diszkrimináns-elemzéshez használt vektorablakozás méretét 7-r®l 9-re emelni, hiszen ez még láthatóan további szignikáns javulást hoz a szóhibaarányokban. A HMMekhez használt összes Gauss-szám tekintetében egyértelm¶, hogy a 30000 Gauss-függvény alkalmazása javasolt a 15000-rel szemben. Ugyanakkor a neurális hálózatos modelleket vizsgálva kijelenthetjük, hogy bár FBANKjellemz®k esetén érdemes négy rejtett réteg alkalmazása (MFCC-jellemz®vektoroknál ez
35
3.4. táblázat.
Filterbank jellemz®vektorokkal elért eredmények a 10 órás adatbázison (NN)
Bemeneti Epoch-szám Modell jellemz®k FBANK27
20+5
FBANK27 +CMVN +LDA9 +MLLT
20+5
FBANK27
20+5
FBANK27 +CMVN +LDA9 +MLLT FBANK27 +CMVN +LDA9 +MLLT FBANK27 +CMVN +LDA9 +MLLT
20+5
20+5
20+5
3 × 1024,
tanh pozíciófüggetlen 3 × 1024,
tanh pozíciófügg® 4 × 1024,
tanh pozíciófüggetlen 4 × 1024,
tanh pozíciófügg® 3 × 1024,
rect pozíciófügg® 4 × 1024,
rect pozíciófügg®
Tanulási WER WER sebesség Softmax réteg DEV [%] EVAL [%] 0,004 /0,0004
4000
30,6
31,4
0,004 /0,0004
4000
30,3
31,3
0,004 /0,0004
4000
30,1
31,2
0,004 /0,0004
4000
30,0
30,8
0,004 /0,0004
4000
29,0
30,7
0,004 /0,0004
4000
28,9
31,6
már nem hozott további javulást), ilyen esetben rektikációs hálózatok esetén sem érhet® el az alaprendszernél jobb teljesítmény, bár a neuronhálók jelent®s el®nye a GMMtechnikákhoz képest itt is egyértelm¶en látszik.
3.3.3. A beszél®adaptáció lehet®ségei A sugárzott adások automatikus felismerési pontosságának javítására egy lehetséges megoldás az ún. újrabeszél®k alkalmazása. Míg egy koordinált, stúdiókörülmények között rögzített beszéd (pl. hírolvasás) felismerése viszonylag eredményesen történhet a hanganyagok közvetlenül a felismer®rendszer bemenetére küldésével, addig ennél zajosabb körülmények között készült felvételek (pl. helyszíni tudósítás) és spontán beszéd esetében a feladat már jóval nehezebb. Ilyenkor célravezet® lehet a sugárzott m¶sor és a beszédfelismer® modell közé egy újrabeszél®t beiktatni, akinek a feladata az elhangzott anyagok minimális csúsztatással történ® reprodukálása (akár egy szinkrontolmács, csak ebben az esetben nem történik fordítás). Az újrabeszél®k alkalmazásának el®nye, hogy míg egy adott m¶sor zajos lehet és több beszél® megszólalásait is tartalmazhatja (akik ráadásul egymás szavába is vághatnak), addig az újrabeszél®k által produkált hanganyag koordinált stúdiókörülmények között kerül rögzítésre, ami javíthatja a felismerési pontosságot. Másfel®l véges számú újrabeszél® alkalmazása esetén lehet®ség van beszél®adaptációt végezni az akusztikus modelleken, ami szintén további javulást hozhat a felismerési feladat pontosságában. Feladataim megvalósításához rendelkezésemre állt egy újrabeszélt m¶sorokból álló . Az anyagok mennyisége önmagában nem lett volna elegend® új akusztikus modellek beszél®adaptív tanításához, azonban a hírm¶sorok hanganyagain tanított modellek és fMLLR-
36
transzformáció alkalmazása segítségével lehet®ségem nyílt az újrabeszél®k anyagait teszthalmazként alkalmazni, és csupán dekódolási id®ben elvégezni a beszél®adaptációt. Ez a fajta adaptációs megoldás ugyan csak GMM-alapú rendszereknél alkalmazható közvetlenül, a jellemz®vektor-térben végzett transzformációhoz használt transzformációs mátrixokat a neurális hálózatokkal készült modellek dekódolásához is sikeresen fel tudtam használni. Az adaptációs kísérletek elvégzéséhez négyféleképpen valósítottam meg az és a dekódolást: 1. Adaptáció nélküli egyszer¶ dekódolás az újrabeszél®k halmazán (az összehasonlíthatóság érdekében). 2. Beszél®adaptáció a teljes újrabeszél®-halmazon és dekódolás szintén a teljes halmazon. Ez a Kaldi ban szerepl® megoldás, ami várhatóan a legjobb eredményeket hozza, azonban egy valósidej¶ rendszer esetén nem használható, hiszen a felismerend® anyag alapján kéne elvégezni az adaptációt, majd felismerni azt, ez a kétlépéses megoldás pedig jelent®s sebességcsökkenéshez vezet. 3. Beszél®adaptáció a teljes újrabeszél®-halmaz kétharmadán, felismerés a maradék egyharmadon. Ez valós idej¶ alkalmazásokban is használható megoldás, a kevesebb anyag miatt azonban teljesítménycsökkenés várható. 4. A teljes újrabeszél®-anyagon adaptált modell tesztelése a 3. pontban elkülönített kb. 30%-os részhalmazon (az azzal való összehasonlíthatóság érdekében).
3.5. táblázat.
A beszél®adaptáció eredményei a 10 órás adatbázis felhasználásával (GMM)
Bemeneti Gauss-szám Modell jellemz®k MFCC39 +CMVN MFCC39 +CMVN MFCC39 +CMVN +LDA7 +MLLT
3.6. táblázat.
monofón pozíciófügg® trifón pozíciófügg®
1k 30k
trifón pozíciófügg®
30k
WER WER WER WER 1 [%] 2 [%] 3 [%] 4 [%] 62,0
53,3
54,6
53,6
48,1
39,1
40,1
39,5
47,1
39,0
39,2
39,1
A beszél®adaptáció eredményei a 10 órás adatbázis felhasználásával (NN)
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER WER WER WER jellemz®k sebesség 1 [%] 2 [%] 3 [%] 4 [%] MFCC39 +CMVN +LDA7 +MLLT
20+5
3 × 1024,
tanh
0,004 /0,0004
4000
40,1
38,1
38,9
38,4
A különféle kongurációkban megvalósított adaptációs eredmények a 3.5 és 3.6 táblázatokban követhet®k végig. Az fMLLR-adaptáció jótékony hatása különösen a hagyományos
37
megoldásokkal készült modelleknél szembet¶n®: trifón modellezés esetén körülbelül 17%os relatív javulás gyelhet® meg az adaptálatlan modellhez képest. A legjobb eredményt ebben az esetben is neurális hálózat alkalmazásával kapjuk, azonban érdemes észrevenni, hogy a relatív javulás mértéke itt már jóval kisebb, 3% körüli az adaptációt nem használó dekódoláshoz képest. Ez jól magyarázható a neuronhálók jobb általánosítóképességével, ami abban is megmutatkozik, hogy már az adaptálatlan modell lényegesen jobb felismerési eredményt produkál a GMM-alapúaknál. A javulás relatív mértéke a 3.2 ábrán is követhet® (az 1. és 3. módszerek összehasonlítása alapján).
18 16
∆WERrel %
14 12 10 8 6 4 2 mono 3.2. ábra.
tri
tri+LDA
NN
A beszél®adaptáció által hozott relatív javulások a 10 órás anyagon.
3.4. Tesztek a 20 órás adatbázison A tízórás anyagon végzett alaprendszer vizsgálata után az akusztikus modellezési eljárásokat a kétszer nagyobb, húszórás részhalmazon vizsgáltam meg. A lehet®ségek minél szélesebb kör¶ vizsgálata érdekében többféle paraméterbeállítást is vizsgáltam, valamint igyekeztem azokat a lehet® legjobb eredmények elérése érdekében optimalizálni, különös tekintettel a neurális hálózatokra.
3.4.1. Hagyományos GMM-alapú módszerek A 10 órás adatbázison felállított hagyományos Markovmodell-alapú kongurációkat futtatva jól látszik a kétszer nagyobb tanítóanyag jótékony hatása a felismerési pontosságra. Míg trifón modellezéssel a kisebb anyagon a legjobb elérhet® eredmény 36,7% átlagos WER volt, itt ez 34,7% (5,4% relatív javulás). További érdekesség, hogy ez esetben lterbankjellemz®vektorok alkalmasával még kis mérték¶ (relatív 2%) javulás elérhet®. Az így kapott eredményeket nyomon követhetjük a 3.7 táblázatban. Az eredményeket vizsgálva jól látszik a különféle bemeneti jellemz®vektorok megválasztásának hatása a felismerési eredményre. A legrosszabb eredményt a Kaldi n kívül is kompatibilis konguráció produkálja (második) blokk: az kb. egy százalékponttal rosszabb
38
3.7. táblázat.
Eredmények a 20 órás adatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k MFCC39 +CMVN MFCC39 +CMVN MFCC39 +CMVN MFCC39 +CMVN +LDA7 +MLLT MFCC39 +CMVN +LDA7 +MLLT
1k 15k 30k
51,2
56,1
35,7
40,8
35,1
40,0
15k
trifón, pozíciófügg®
33,7
37,0
30k
trifón, pozíciófügg®
32,6
36,8
53,4
58,3
35
40,7
34,5
40,1
TZCC16
1k
TZCC16
15k
TZCC16
30k
TZCC16 +LDA7 +MLLT TZCC16 +LDA7 +MLLT FBANK27 +CMVN FBANK27 +CMVN FBANK27 +CMVN +LDA7 +MLLT FBANK40 +CMVN FBANK40 +CMVN FBANK40 +CMVN +LDA7 +MLLT
monofón, pozíciófügg® trifón, pozíciófüggetlen trifón, pozíciófügg®
WER WER DEV [%] EVAL [%]
monofón, pozíciófüggetlen trifón, pozíciófüggetlen trifón, pozíciófüggetlen
15k
trifón, pozíciófüggetlen
34,2
38,1
30k
trifón, pozíciófüggetlen
33,4
37,5
64
68,3
47,7
51,7
33,1
34,8
80,1
75,5
74,1
66,6
32,4
35,3
1k 30k 30k 1k 30k 30k
monofón, pozíciófügg® trifón, pozíciófügg® trifón, pozíciófügg® monofón, pozíciófügg® trifón, pozíciófügg® trifón, pozíciófügg®
szóhibaarány magyarázható a CMVN elhagyásával, valamint a pozíciófüggetlen modellezés alkalmazásával. Ugyanakkor vegyük észre, hogy LDA nélküli esetben mégis jobb teljesítményt mutat, így a normalizálás és a pozíciófügg® fonémamodellezés nem minden esetben kritikus kérdés. Az összes Gaussfüggvény-számot ezesetben is 30000-re érdemes választani. A lterbank bemeneti jellemz®kkel készült modellek eredményeib®l levonható tapasztalatok a legtöbb ponton egybevágnak a 10 órás anyagon tapasztaltakkal. További vizsgált paraméter ebben az esetben a sz¶r®sor dimenziószáma (27 ill. 40). Megállapíthatjuk, hogy míg LDA+MLLT nélküli bemeneti jellemz®knél a 27 dimenziós FBANK-vektorok teljesítménye jobbnak mutatkozik, a dimenziócsökkentés ezt a különbséget is gyakorlatilag
39
kiegyenlíti, így ilyen esetekben ez feltehet®en nem kritikus paraméter.
3.4.2. Neuronhálós modellezési megoldások A neurális hálózatok alkalmazása várakozásaimnak megfelel®en lényeges javulást eredményezett a 10 órás anyag esetén, így nagyobb adatbázison történ® tanításuktól a jobb általánosítóképesség miatt pontosabb felismerési eredmények várhatók el. Ezekkel a várakozásokkal ellentétes azonban a húszórás adatbázison tanított neuronhálózatok teljesítménye, mivel megállapíthatjuk, hogy azonos architektúra mellett (3
× 1024,
tanh aktivációs függvény)
nem kapunk jobb eredményt: míg a kisebb adatbázison 29%-os átlagos WER-t lehetett elérni, addig azonos architektúrával ez a kétszer nagyobb tanítóanyagon ez 30,1%. Ez ugyan meglep®, de bizonyos esetekben el®fordulhat: amennyiben a kiértékeléshez használt teszthalmazokat jobban reprezentálja a sz¶kebb tanítóanyag, az nyújthat jobb teljesítményt kisebb mérete ellenére is. Mivel a tízórás részhalmaz úgy lett összeválogatva, hogy a teljes hatvannégy órás híranyag legzajosabb felvételeit tartalmazza és mivel a tesztanyagokban is zajosabb, helyszíni bejelentkezéseket, riportokat is tartalmazó m¶sorrészletek találhatók, talán ez állhat a jelenség hátterében. Ugyanakkor bár azonos kongurációval nem érhet® el jobb teljesítmény, a neurális hálózatok paramétereinek optimalizálásával valamint más jellemz®vektorokkal még kis mértékben tovább csökkenthet® a szóhibaarány. Az alábbiakban megvizsgálom a hangolható paraméterek hatását, ez alapján pedig egy optimálisan teljesít® rendszert állítok fel.
Jellemz®vektorok Mivel a húszórás tanítóanyag esetében a lterbank-jellemz®k jobb eredményt mutattak HMM-rendszerek esetében is, ezért feltehet®, hogy neurális hálózatok használatánál is indokolt alkalmazásuk. A 3.8 táblázat az MFCC, FBANK és a VOXerver -kompatibilis TZCC jellemz®kkel készült eredményeket hasonlítja össze. Az eredményekb®l látható, hogy neuronhálók esetén is ezúttal a FBANK-jellemz®vektorok teljesítenek a legjobban, tehát egy optimális rendszert ezzel lehet érdemes kiépíteni. Különös továbbá, hogy a pozíciófüggetlen és CMVN nélküli TZCC vektorok is jobb eredményt mutatnak a pozíciófügg® MFCC+CMVN kongurációnál. 3.8. táblázat.
A jellemz®vektorok hatása a neuronhálós modellekre a 20 órás adatbázison.
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER WER jellemz®k sebesség DEV [%] EVAL [%] MFCC39 +CMVN +LDA7 +MLLT FBANK40 +CMVN +LDA7 +MLLT TZCC16 +LDA7 +MLLT
20+5
20+5 20+5
3 × 1024,
0,004 /0,0004
4000
29,4
30,8
3 × 1024,
0,004 /0,0004
4000
28,2
29,8
3 × 1024,
0,004 /0,0004
4000
29,2
29,9
tanh
tanh tanh
40
A neurális hálózat mérete Bár a tízórás tanítóanyagon nem sikerült javulást elérni a rétegszám 3 fölé növelésével, a kétszer akkora adatbázison egy további rejtett réteg hozzáadásával,
4 × 1024
architek-
túrájú neurális hálózattal elérhet®nek t¶nik egy minimális teljesítménynövekedés (kb. 1% relatív WER). Ugyanakkor a rétegszám emelésével párhuzamosan végzett neuronszámkétszerezés már nem hoz növekedést, hanem rontja a felismerési eredményeket. A 3.3 ábrán végigkövethet® a plusz rejtett rétegnek köszönhet® kismérték¶ javulás, valamint az azt követ® teljesítmény-visszaesés
4 × 2048
méret¶ neuronhálók mellett, MFCC- ill. FBANK-
jellemz®vektorok esetén. MFCC FBANK
WER%
30
29.5
29
28.5 3 × 1024 3.3. ábra.
4 × 1024
4 × 2048
A réteg- és dimenziószám hatása a 20 órás anyagon MFCC- és FBANK-jellemz®vektorok esetén
Az aktivációs függvény megválasztása A felismerési pontosságot a neuronok aktivációjának típusa is meghatározza. A klasszikus tangens hiperbolikusz típusú függvénnyel szemben jobbnak bizonyult a rektkációs függvényt alkalmazó neuronhálózatok implementációjával készült akusztikus modell. Ebben az esetben MFCC bemeneti jellemz®k és
3 × 1024 méret¶ neurális hálózat alkalmazása esetén
az átlagos szóhibaarányban közel 3%-os relatív javulást sikerült elérni a tanh aktivációjú hálózatokhoz képest (ld. 3.9 táblázat).
Tanulási sebesség További fontos paraméter lehet a tanulási sebesség optimális megválasztása. A kezdeti tanulási sebesség helyes behangolása azért sem egyszer¶ feladat, mert el®zetes meghatározására nem állnak rendelkezésre a gyakorlatban általánosan használt eljárások, hanem mindenképpen végig kell futtatni a tanításokat egy-egy adott értékkel, majd a választás op-
41
3.9. táblázat.
Az aktivációs függvény hatása a 20 órás adatbázison.
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER WER jellemz®k sebesség DEV [%] EVAL [%] MFCC39 +CMVN +LDA7 +MLLT MFCC39 +CMVN +LDA7 +MLLT
20+5
3 × 1024,
0,004 /0,0004
4000
29,4
30,8
3 × 1024,
0,004 /0,0004
4000
28,6
30,0
tanh
20+5
rect
timalitására a hibafüggvény alakulásából következtethetünk. Túl magas tanulási sebesség esetén ebben oszcillációt tapasztalhatunk (mivel a súlyok hangolása túl nagy ugrásokban történik, így nem tud a hibafüggvény a minimumban stabilizálódni). Amennyiben pedig az értéke egy ponton beragad, akkor feltehet®en egy lokális minimumot talált meg a rendszer, ahonnan azonban a túl kicsi
ε-érték
miatt nem fog tudni kilépni.
A tízórás anyagon jól teljesít® 0,004 kezdeti tanulási sebességet két irányba változtatva is vizsgáltam: ennek tízszeresét (0,04) valamint felét (0,002). Az így kapott eredmények ismeretében a három konguráció közül a legnagyobb érték bizonyult a legeredményesebbnek, így a húszórás anyagon ennek alkalmazása javasolt. Ezzel szemben a legkisebb tanulási sebesség lényegesen rosszabb teljesítményt nyújtott a kiinduló értékkel tanított modellnél, így az ilyen alacsony értékeket ekkora adatbázisméretnél feltehet®en kerülni kell, lényegesen nagyobb tanítóanyag esetén lehet érdemes ilyen alacsony értékek használata. A különböz® értékek melletti átlagos szóhibaarány-eredmények és a köztük fennálló különbségek a 3.4 ábrán láthatók (bemeneti jellemz®k: MFCC39+CMVN+LDA7+MLLT, neuronháló-architektúra:
3 × 1024,
tanh).
WERavg %
33
32
31
30 0.002
0.004
0.04 logε
3.4. ábra.
A tanulási sebesség hatása a szóhibaarányra 3 × 1024 méret¶ neuronháló mellett, MFCC-jellemz®kkel a 20 órás adatbázison
42
Az optimalizált megoldás A fent ismertetett paraméterek hatásának vizsgálata és nomhangolása után kapott eredmények alapján a következ® összeállítású neuronhálózatos akusztikus modell bizonyult a legcélravezet®bbnek:
•
40-dimenziós lterbank bemeneti jellemz®vektorok, CMVN, LDA és MLLT alkalmazásával
•
4 rejtett réteg alkalmazása, rétegenként 1024 neuronnal
•
rektikációs aktivációs függvénnyel m¶köd® neuronok használata
•
0,04-r®l 0,004-re csökken® tanulási sebesség beállítása
•
20, tanulási sebességet csökkent®, majd 5, ezt megtartó tanítási ciklus (ez állandó paraméter volt)
•
4000-dimenziós kimeneti softmax réteg beiktatása (szintén állandó paraméter)
Ezzel a megvalósítással a DEV-halmazon 28,4%-os, az EVAL-halmazon pedig 28,6%-os (átlag: 28,5%) szóhibaarányt sikerült elérnem. Ez jobb teljesítményt jelent, mint a 10 órás adatbázison MFCC-jellemz®kkel kapható legjobb átlagos 29%-os eredmény, ugyan csak fél százalékpontnyi abszolút eltérést tapasztalunk (1,7% relatív különbség).
3.5. Tesztek a 64 órás adatbázison A két kisebb részhalmaz vizsgálata után végül a teljes 64 órás hírm¶sor-hanganyag vizsgálata következett. A tanítóanyag méretének több mint megháromszorozása jótékony hatásúnak bizonyult a különféle akusztikus modellek számára, ugyanakkor megjegyzend®, hogy a javulás mértéke továbbra sem kiemelked® mérték¶. A GMM-alapú modelleknél a korábbi trendek gyelhet®ek meg a hibaarányok alakulásában. A neurálishálózat-alapú beszédfelismer®-rendszer TZCC-jellemz®vektorok és pozíciófüggetlen Kaldi n kívül kompatibilis konguráció esetén átlagosan kb. abszolút egy százalékpontnyival teljesít jobban a 20 órás anyagon elért azonos kongurációnál. A leghatékonyabbnak ismét a
4 × 1024 mére-
t¶ architektúra bizonyul, azonban az egy rejtett réteggel kisebb hálózatnál csak elenyész® mértékben teljesít jobban. Az eredményeket a 3.10 és 3.11 táblázatok tartalmazzák. 3.10. táblázat.
Eredmények a 64 órás adatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k
WER WER DEV [%] EVAL [%]
TZCC16
1k
56,0
60,6
TZCC16
30k
35,1
38,0
TZCC16 +LDA7 +MLLT
30k
33,5
36,4
monofón, pozíciófüggetlen trifón, pozíciófüggetlen trifón, pozíciófüggetlen
43
3.11. táblázat.
Eredmények a 64 órás adatbázison (NN)
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER WER jellemz®k sebesség DEV [%] EVAL [%] TZCC16
20+5
TZCC16
20+5
3 × 1024,
tanh
4 × 1024,
tanh
0,004 /0,0004 0,004 /0,0004
4000
28,1
29,4
4000
28,0
29,3
3.6. Összegzés A hírm¶sorok hanganyagából felépül® adatbázissal végzett számos vizsgálat jól bizonyítja a neuronhálók alkalmazásának el®nyeit: míg hagyományos, GMM-alapú technikákkal a szóhibaarány mindig jóval 30% felett maradt, addig neuronhálók alkalmazásával ez néhány százalékkal ez alá vihet®. A bemeneti dimenziócsökkentés a Markov-modellekkel készült felismer®k teljesítményét egyértelm¶en javítani látszik, így alkalmazása mindenképpen javasolt, valamint jobb teljesítményük miatt a neuronhálók tanítását is LDA+MLLT-t alkalmazó modellek illesztései alapján érdemes végezni. Különösen elengedhetetlennek látszik a dimenziócsökkentés lterbank-jellemz®vektorok alkalmazása esetén; ilyenkor ennek elhagyása gyakorlatilag használhatatlan modellt eredményez. A tanítóanyag méretének hatása is megmutatkozik a beszédfelismerési eredményeken. Bár a javulás mértéke a várakozásokhoz képest némileg elmarad, illetve a húszórás adatbázis esetében a kisebb adatbázishoz képesti javulás elérése csak más bemeneti jellemz®kkel lehetséges az optimalizált neuronháló-architektúrával, alapvet®en látszik a nagyobb anyagon való modelltanítás jobb általánosítóereje és jobb illeszkedése a teszthalmazokra. Mivel a tízórás adatbázis összeállítása során szempont volt a legzajosabb anyagok kiválogatása, és mivel a tesztanyagok is alapvet®en zajosabb anyagokból épülnek fel, ezért lehetséges, hogy már a legkisebb adatbázissal sikerült optimális-közeli modellt készíteni, és a nagyobb anyagokkal elérhet® javulás már csak kisebb mérték¶. A neurális hálózatok alkalmazásának egyetlen hátránya a nagy számításigény és az ezzel járó hosszú tanítási id®. A teljes hatvannégy órás anyag esetében ez egy neuronhálóhoz már másfél-két napot is igénybe vesz; a pontos er®forrásigényekr®l ld. az 5. fejezetet.
44
4. fejezet
Kísérletek telefonos ügyfélszolgálati hanganyagokon A híranyagokon folytatott vizsgálatokon túl a Magyar Telefonos Ügyfélszolgálati Adatbázis (MTÜBA) is végeztem kísérleteket. A különböz® telefonos ügyfélszolgálatok felvételeib®l és átirataiból készült adatbázis több részre van osztva a különböz® ügyfélszolgálatok szerint (14 számjelzés), valamint ezek további különböz® részadatbázisokra vannak darabolva jellegük szerint (bet¶jelzések). Minden egyes részadatbázishoz külön-külön teszthalmazok tartoznak. Az ügyfélszolgálati anyagokon készíthet® akusztikus modellek és az azokból építhet® beszédfelismer®-rendszerek vizsgálatának a m¶sor-feliratozáshoz hasonlóan er®s gyakorlati vonatkozása van: az automatikus beszédfelismeréssel leiratozható telefonadatbázisanyagok komoly segítséget jelenthetnek a rögzített beszélgetések kereshet®sége szempontjából (a felismert szövegeket, illetve az azokban található kulcsszavakat gyelembe véve). Jelenleg a kézzel leiratozott anyagok aránya átlagosan 1% körül van a különféle telefonos ügyfélszolgálatok körében, így az ezirányú kutatások és fejlesztések mindenképpen indokoltnak látszanak. Az adatbázisok legalapvet®bb különbsége a híranyagokhoz képest a mintavételezési frekvencia. Míg az el®z® fejezetben vizsgált adatbázis felvételei 16kHz-en lettek mintavételezve, addig a telefonbeszélgetések kisebb sávszélessége miatt ezekben az esetekben elegend® 8kHz-es mintavételezéssel készíteni a felvételeket. A keskenyebb frekvenciasáv várakozásaim szerint hatással lesz a beszédfelismerési szóhibaarányokra: a telefon-sávszélességben jelen nem lév® frekvenciakomponensek hiánya információveszteséggel járhat a jellemz®vektorok számára, ez pedig negatív irányba befolyásolhatja a beszédfelismer®-rendszerek teljesítményét. A teljes MTÜBA-adatbázisból feladataim megvalósításához két részadatbázist (MTÜBA1 és MTÜBA-2) használtam, ezeken belül pedig az MTÜBA-1/A, valamint MTÜBA-2/A és MTÜBA-2/C alrészekkel foglalkoztam. Alapvet®en a neurális hálózatokkal elérhet® javulás mértékére (illetve ennek maximalizálására) fókuszáltam, ugyanakkor mivel a 2/C részadatbázis tanító- és tesztanyagaihoz a leiratokat készít®k azonosítói is rendelkezésre álltak, lehet®ségem nyílt egy beszél®adaptációhoz hasonló újszer¶ adaptív tanítás megvalósítására. (a híranyagokon ez csak teszteléskor volt lehetséges az újrabeszél®k hanganyagán).
45
A telefonos adatbázisokon folytatott kísérletek elvégzéséhez a híranyagokon már m¶köd® összeállításra alapoztam: a hagyományos GMM-modellek elkészítése után a legjobb megoldásra alapozva végeztem a neurális hálózatok tanítását a várakozásaim szerint jobban teljesít® akusztikus modellek létrehozásához. A legtöbb esetben a Kaldi n kívül kompatibilis kongurációkat vizsgáltam (TZCC jellemz®vektorok CMVN nélkül, pozíciófüggetlen modellezés stb.), egyes esetekben más összeállítások teljesítményét is ellen®riztem. A tesztekhez használt szótár minden esetben 93424 szót tartalmazott.
4.1. Beszédfelismerési eredmények az MTÜBA-1/A-n Az els®ként vizsgált részadatbázis megközelít®leg 54 és fél órányi hanganyagból, illetve a hozzájuk tartozó leiratozásokból épül fel. A teszthalmaz 57 perc hosszú. A 8kHz-en mintavételezett telefonbeszélgetések két-két fél az ügyintéz® és az ügyfél között zajlanak, párbeszédes jelleg¶ek. A beszélgetések spontán jelleg¶ek, gyakoriak a megakadások, újrakezdések, a két fél közötti átfedések (egyszerre beszélés, egymás szavába vágás), ami mind nehezít® tényez® lehet a beszédfelismerési feladat során. A hagyományos akusztikus modellek elkészítése és eredményeinek vizsgálata igazolja azt a feltevést, hogy az alacsonyabb sávszélesség és mintavételezési frekvencia negatív következményekkel jár a beszédfelismerési pontosság tekintetében. A GMM-modellekkel készült rendszerek ebben ennél az adatbázisnál minden esetben 40% feletti szóhibaarányt produkálnak, ami lényegesen rosszabbnak mondható a híranyagokon mért 30-35% közötti WERértékeknél. A dimenziócsökkentés jótékony hatása ebben az esetben is megmutatkozik, és a relatív javulás tekintetében még fontosabbnak bizonyul, mint korábban a híranyagokon készített rendszereknél: ezen a telefonos adatbázison közel 5,5%-kal jobban teljesít az LDA-t is tartalmazó modell a dimenziócsökkentés nélküli trifón párjához képest, míg a híradatbázisnál ez a javulás csak 2-3%-os volt. A neuronháló-alapú modellek felismerési pontosságát vizsgálva ezúttal is megállapíthatjuk egyértelm¶ el®nyüket a klasszikus modellezési megoldásokhoz képest. A javulás jelent®s: a
3 × 1024 architektúrájú,
tanh-aktivációjú neuronháló esetében ez közel 7 százalékpont, a
dimenziócsökkentés nélküli modellhez képest (ami a modell alapjául szolgált) pedig több mint 9, ami relatív javulás tekintetében A 21%-ot közelíti. Az aktivációs függvényt rektikációsra változtatva még további kb. fél százalékpontnyi javulás érhet® el azonos réteg- és dimenziószám mellett. Az eredményeket a 4.1 és 4.2 táblázatok ismertetik. A fonémamodellezés pozíciófügg®sége tekintetében elmondhatjuk, hogy bár hatással van a felismerési eredményekre, az eltérés nem számottev®. Hagyományos modelleknél ez maximum néhány tizedszázalékpont a pozíciófügg® modellezés javára. A
3 × 1024
tanh ar-
chitektúránál a különbség valamivel nagyobb, a pozíciófüggetlen modell szóhibaaránya kb. abszolút 1 százaléknyival rosszabb.
4.2. Beszédfelismerési eredmények az MTÜBA-2/A-n A 2/A jelzés¶ adatbázis az 1-es számjelzés¶t®l különböz® ügyfélszolgálattól származó - és átiratgy¶jtemény els® részhalmaza. A felvételek szintén 8kHz-es mintavételezés¶ek; össze-
46
4.1. táblázat.
Eredmények az MTÜBA-1/A adatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k
WER EVAL [%]
TZCC8
1k
63,3
TZCC8
1k
TZCC8
30k
TZCC8
30k
TZCC8 +LDA7 +MLLT
30k
4.2. táblázat.
monofón, pozíciófüggetlen monofón, pozíciófügg® trifón, pozíciófüggetlen trifón, pozíciófügg® trifón, pozíciófügg®
20+5
TZCC8
20+5
TZCC8
20+5
44,3 44,1 41,7
Eredmények az MTÜBA-1/A adatbázison (NN)
Bemeneti Epoch-szám Modell jellemz®k TZCC8
63,3
Tanulási WER sebesség Softmax réteg EVAL [%]
3 × 1024,
tanh pozíciófüggetlen 3 × 1024, tanh pozíciófügg® 3 × 1024, rect pozíciófügg®
0,04 /0,004
4000
36,1
0,04 /0,004
4000
35,0
0,04 /0,004
4000
34,5
sen megközelít®leg 38 óra található ebben a részadatbázisban, míg a hozzá tartozó teszthalmaz 5 órányi hanganyagot tartalmaz. Az 1/A adatbázishoz használt modellekhez hasonló megoldásokat alkalmazva a felismerési szóhibaarányok alakulása követi a már megszokott és elvárt trendet. Ebben az esetben valamivel gyengébb eredmények érhet®k el mind hagyományos, mind neurális hálózatos megoldásokkal, ez alapvet®en a kevesebb rendelkezésre álló anyagnak tudható be. Továbbá az eredményeket vizsgálva látható (4.3 és 4.4 táblázatok), hogy a relatív javulás mértéke is kisebb a neuronhálók hatására: míg az MTÜBA-1/A esetében ez 20% felett volt, itt ez azonos konguráció mellett körülbelül csak 13%-os. A hálózatot tovább mélyítve egy újabb réteggel (4
× 1024),
valamint az általánosan
jobb teljesítményt pordukáló rektikációs aktivációs függvényt alkalmazva még sikerül a szóhibaarányt csökkenteni, azonban ennek mértéke az 1 százalékpontot sem éri el. A GMM-ekhez használatos összes Gauss-függvény számának hatása egybevág az eddigi tapasztalatokkal: a nagyobb érték (30000) alkalmazása javasolt. A dimenziócsökkentés ennél a részadatbázisnál bár továbbra is javítja az eredményeket, alkalmazása kevésbé látszik kritikusnak az 1/A-nál tapasztaltakhoz képest: 15000 Gauss-függvény használatakor nem mozdítja lejjebb a szóhibaarányt, a jobban teljesít®, 30000 Gauss-görbét alkalmazó trifón modellnél is csak 1%-os relatív javulást hoz.
47
4.3. táblázat.
Eredmények az MTÜBA-2/A adatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k
WER EVAL [%]
TZCC8
1k
65,7
TZCC8
15k
TZCC8
30k
TZCC8 +LDA +MLLT TZCC8 +LDA +MLLT
monofón, pozíciófüggetlen trifón, pozíciófüggetlen trifón, pozíciófüggetlen
45,8 45,0
15k
trifón, pozíciófüggetlen
45,8
30k
trifón, pozíciófüggetlen
44,5
4.4. táblázat.
Eredmények az MTÜBA-2/A adatbázison (NN)
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER jellemz®k sebesség EVAL [%] TZCC8
20+5
TZCC8
20+5
TZCC8
20+5
TZCC8
20+5
3 × 1024,
tanh
4 × 1024,
tanh
3 × 1024,
rect
4 × 1024,
rect
0,04 /0,004 0,04 /0,004 0,04 /0,004 0,04 /0,004
4000
39,2
4000
38,9
4000
38,5
4000
38,4
4.3. Beszédfelismerési eredmények az MTÜBA-2/C-n A harmadikként vizsgált 2/C jelzés¶ részadatbázis az eddigiek közül a legrövidebb, kb. 27 és fél órányi hangfelvételt tartalmaz, a teszteléshez használt DEV-halmaz 1 óra, az EVAL-halmaz közel 2 óra hosszú. Ennek a részhalmaznak a legnagyobb különbsége az eddig vizsgáltakhoz képest, hogy mind a tanítóanyagok, mind a hozzájuk tartozó teszthalmazok el vannak látva a kézi leiratokat készít® személyekre vonatkozó címkékkel. Ugyan mind a hagyományos SAT-módszerek, mind az fMLLR-t alkalmazó adaptációs megoldások a felvételekben szerepl® beszél®kre vonatkozó címkék meglétét követelik meg, feltehet®, hogy a leiratozók ismeretében is érhet® el valamilyen mérték¶ javulás beszél®adaptív tanítás alkalmazásával (a beszél®címkéket leiratozó-címkékkel helyettesítve). Ennek az állhat a hátterében, hogy egy-egy átíró jellemz®en egy-egy (vagy több) személy teljes anyagait kapja meg leírásra, ami bizonyos mértékben közelítheti az explicit beszél®információk meglétét. A módszer azonban mindenképpen csak er®s becslés: a beszél®k nem egyértelm¶ kilétén túl nem veszi gyelembe a beszélgetések kétoldalúságát sem (minden felvétel két személy között zajlik). Jobb eredményeket beszél®-klaszterezéssel illetve automatikus beszél®detekcióval lehetne elérni, ezek azonban túlmutatnak szakdolgozatom keretein. Az el®z®ekhez hasonló kongurációban készült eredményeket vizsgálva megállapítható, hogy a szóhibaarány mind hagyományos (4.5 táblázat), mind neurális hálózatos modellek esetében alacsonyabbnak bizonyul az eddigi két adatbázison mértnél. A hasonló mintavételezési frekvencia és az eddigi legkisebb tanítóhalmaz-méret ismeretében ez meglep® lehet, a
48
jobb illeszkedés feltehet®en a teszthalmazok összeállításának is köszönhet®. Hagyományos GMM-modelleknél az LDA+MLLT alkalmazása az el®z® esetekhez hasonlóan bár pozitív hatású, a javulás mértéke elenyész®; nem látszik kritikusnak a dimenziócsökkentés. 4.5. táblázat.
Eredmények az MTÜBA-2/C adatbázison (GMM)
Bemeneti Gauss-szám Modell jellemz®k
WER WER EVAL [%] EVAL [%]
TZCC8
1k
58,0
58,9
TZCC8
15k
38,6
40,8
TZCC8
30k
37,9
40,4
TZCC8 +LDA +MLLT TZCC8 +LDA +MLLT
monofón, pozíciófüggetlen trifón, pozíciófüggetlen trifón, pozíciófüggetlen
15k
trifón, pozíciófüggetlen
38,7
39,9
30k
trifón, pozíciófüggetlen
38,1
39,4
A legjobban teljesít® trifón modell alapján végzett leiratozó-adaptív tanítás valamint dekódolás a híranyagokhoz hasonlóan az fMLLR-transzformáción alapul. Az így elérhet® relatív javulás az átlagos szóhibaarányban kb. 1,6% (38,7% átlagos WER az adaptálatlan modell 39,3%-os teljesítményéhez képest). Az érték ugyan nem magas, de látszik rajta a feljebb tárgyalt leiratozók és beszél®k közti feltételezett korrelációk pozitív hatása, így ennek a gyakorlatban eddig nem alkalmazott módszernek a használata indokolt lehet, amennyiben beszél®címkék nem, csak leiratozó-azonosítók állnak rendelkezésre. Ugyanakkor elmondható, hogy amennyiben az adaptált modellt adaptáció nélkül dekódoljuk, a felismerési pontosság drasztikusan visszaesik (40% fölé), így adaptálatlan teszteléshez adaptálatlanul tanított modell alkalmazása javasolt. A három különböz® kongurációban elérhet® eredmények a 4.1 ábrán láthatók (a (si) jelöli az adaptált modell adaptálatlan dekódolását). A neurális hálózatokat a legjobb eredmény elérése érdekében az leiratozó-adaptációt is alkalmazó modellre építettem. Az átlagos felismerési pontosságban elérhet® javulás
3×1024
tanh architektúrájú háló mellett 12% körül alakul. Az optimalizálás ebben az esetben is történhet a rétegszám növelésével, ezzel még elérhet® kismérték¶ további javulás. Ugyanakkor megállapíthatjuk, hogy a rektikációs aktivációs függvény alkalmazása ebben az esetben rosszabb beszédfelismerési pontosságot eredményez; a szóhibaarányok alakulása a 4.6 táblázatban látható.
4.4. Összegzés A telefonos ügyfélszolgálatokon készült beszédfelismer®-rendszerek felismerési teljesítményét vizsgálva láthattuk, hogy a korábban, a híranyagokon meggyelt általános tendenciák itt is megmutatkoznak. Emellett néhány ponton kisebb eltéréséket is tapasztaltunk, ami fakadhat az adatbázisok alapvet®en eltér® jellegéb®l és az alacsonyabb mintavételezési frekvenciából (amely legf®képp az elérhet® legjobb szóhibaarány mértékét befolyásolja negatívan).
49
DEV EVAL
WERavg %
42
40
38
36
tri+LDA 4.1. ábra.
tri+LDA+SAT
tri+LDA+SAT (si)
A leiratozó-adaptív tanítás és dekódolás hatása
4.6. táblázat.
Eredmények az MTÜBA-2/C adatbázison (NN)
Bemeneti Epoch-szám Modell Tanulási Softmax réteg WER WER jellemz®k sebesség DEV [%] EVAL [%] TZCC8
20+5
TZCC8
20+5
TZCC8
20+5
TZCC8
20+5
3 × 1024,
tanh
4 × 1024,
tanh
3 × 1024,
rect
4 × 1024,
rect
0,04 /0,004 0,04 /0,004 0,04 /0,004 0,04 /0,004
4000
32,8
35,3
4000
32,8
35,1
4000
35,9
35,9
4000
33,3
36,0
A hagyományos trifón modelleknél továbbra is a harmincezer Gauss-függvényt alkalmazó, LDA+MLLT-vel dimenziócsökkentett modellek teljesítettek a legjobban, habár a dimenziócsökkent® transzformációk hatása azonban csak egy részadatbázis esetén látszott kritikusnak. A neurális hálózatok el®nye ismét megmutatkozott, az így elérhet® relatív javulás minden részadatbázis esetében meghaladta a 10%-ot, egy esetben 20% fölött is volt. A rétegszám tekintetében a 4 rejtett réteg alkalmazása látszik el®nyösnek, az aktivációs függvény típusánál pedig a rektikációs függvény eredményesebbnek bizonyul az esetek többségében, azonban a 2/C részadatbázisnál ez nem mondható el, így mindig érdemes többféle kongurációt vizsgálni.
50
5. fejezet
Az akusztikus modellek tanításának és dekódolásának er®forrásigényei A beszédfelismer®-rendszerek felépítése, különösen az akusztikus modellek tanítása számításigényes feladat, ami már közepes méret¶ tanító-adatbázisok, nyelvi modellek, teszthalmazok esetén hosszú tanítási id®ket eredményezhet. Különösen igaz ez a neurális hálózatok tanítására, ahol egy 50-60 órányi anyagon tanított modell súlyainak beállítása még videokártya alkalmazásával is (a minél hatékonyabb párhuzamosítás érdekében) kb. másfél napot vesz igénybe. Ez a fejezet röviden áttekinti az általam megvalósított feladattípusok során fellép® memória- és processzorigényeket, és a különböz® folyamatok futtatási idejét. A közölt eredmények Intel i7-2700K típusú processzort tartalmazó számítógépen (3,4 GHz órajel, 4 zikai mag, 8 szálon futtatható folyamatok, 8GB cache) kerültek mérésre. Általánosságban elmondható, hogy a tanítóhalmaz méretének növekedésével arányosan növekszik a neurális hálózatok tanítási ideje. A Kaldi ban mért különböz® hosszúságú anyagokhoz tartozó, tangens hiperbolikusz aktivációs függvényt alkalmazó 15+5 epochon keresztül tanuló neurális hálózatokhoz szükséges tanítási id®k alakulása a 5.1 ábrán látható. A szükséges id®mennyiség növekedése nem csak a tanítóhalmaz, hanem a neuronháló méretének is függvénye: a
3 × 1024
méret¶ architektúrához egy további rejtett réteget adva
megközelít®leg 18%-kal növekszik a tanítási id®, ugyanakkor bizonyos mérték¶ szétnyílás is meggyelhet® az értékpárok közt a tanítóanyag méretének növelésével. Az összehasonlíthatóság érdekében az adott adatbázisokon egy-egy hagyományos trifón modell tanítási ideje is feltüntetésre kerül: az ezekhez szükséges id®mennyiség láthatóan elenyész® a neurális hálózatokhoz képest. A 5.1 látható neurális hálózatos tanítási id®k egy 2GB memóriát tartalmazó GForce
GTX-650 típusú videokártya mellett álltak fenn. Amennyiben er®sebb teljesítmény¶ videokártya is a rendelkezésre áll, a videomemória növelésével sebességnövekedés érthet® el.
1
Kétszeres (4GB) érték mellett ez kb. 30%-os gyorsulást jelentett (ld. 5.2 ábra). Ugyanakkor elmondható, hogy a videokártya-alapú tanítás tehermentesíti a számítógép egyéb er®forrásait: a memóriahasználat ilyenkor nem éri el a 2GB-ot (max. 1,8GB) sem, a rendelkezésre
1
Kísérleteimhez rendelkezésre állt egy nVidia GTX-760 típusú videokártyával szerelt számítógép is, ugyanolyan típusú processzorral, 32 GB memóriával.
51
4,500 nn
Tanítási idö (perc)
4,000
nn
3 × 1024 4 × 1024
3,500 3,000 2,500 2,000 1,500 1,000 500 10
20
32
64
Adatbázis mérete (óra) tri
Tanítási idö (perc)
30
20
10
10
20
32
64
Adatbázis mérete (óra) 5.1. ábra.
Akusztikus modellek tanítási ideje az adatbázis méretének függvényében
álló processzorokból pedig egy mag illetve szál kerül csak teljes kihasználásra. Ezzel szemben tisztán CPU-n, grakus processzor nélkül futtatott tanítások esetén a processzorigény értelemszer¶en megn® (a Kaldi maximálisan kihasználja ilyenkor a rendelkezésre álló CPUkat), a tanítási id® pedig több mint háromszorosára növekszik. A teljes 64 órás híranyagon így egy pusztán CPU-n tanított 4 rejtett réteg¶ neurálishálózat-alapú akusztikus modell elkészítése egy hétnél is több id®t vesz igénybe, ezért mindenképpen javasolt a grakus processzoron történ® er®s folyamatpárhuzamosítás. GMM-alapú modelleknél nem áll rendelkezésre videokártyán való tanítási funkció, így ezek a folyamatok mind CPU-alapúak, a rendelkezésre álló er®forrásokat teljes mértékben kihasználják. A Kaldi ban azonban ezen modellek tanításának memóriaigénye sem magas, csupán valamivel több mint 1GB (átlagosan 1,1-1,3GB) RAM-szükséglet¶ek. A fenti eredményekb®l látható, hogy bár a neurális hálózatok teljesítménye felülmúlja a klasszikus megoldásokét, tanítási sebesség tekintetében a komplexebb neuronhálóarchitektúrák lényegesen alulmaradnak a rejtett Markov-modellekkel szemben, a teljesít-
52
3 × 1024, 4 × 1024, 3 × 1024, 4 × 1024, 3 × 1024, 4 × 1024,
2GB 2GB 4GB 4GB CPU CPU
Tanítási idö (perc)
10,000 8,000 6,000 4,000 2,000
32 óra 5.2. ábra.
64 óra
A videomemória hatása a neuronhálók tanítási sebességére
ménynövekedésnek tehát ára van. A neurális hálózatokkal készült modellek dekódolásának id®- és memóriaszükséglete a 5.1 táblázatban látható a hírm¶sor-hanganyagokhoz tartozó nyelvi modell mellett. A szükséges id® és a dekódolandó anyag hosszának arányát az ún. real time factor (RTF) méri, ezzel jellemezhet® a felismer®rendszer reszponzivitása. Jól látszik, hogy az optimális útkeresés a tanításnál lényegesen nagyobb memóriaigény¶ feladat. A DEV- és EVAL-halmazok közti RTF-eltérés azzal magyarázható, hogy a Kaldi a dekódolás során adaptív pruning technikával veti el a kis valószín¶ség¶ lehet®ségeket, valamint az EVAL-halmaz zajosabb anyagokból épül fel, így az egyes alternatívák valószín¶ségei közti kisebb eltérések mélyebb keresést (és ezáltal hosszabb dekódolási id®t) eredményezhetnek. 5.1. táblázat.
RTF és dekódolási memóriaigény a hírm¶sor-hanganyagon
Gráfépítés
id® 6 perc
max. memória 4GB
Dekódolás (DEV) Dekódolás (EVAL)
RTF 0,2
max. memória 5,5GB
53
RTF 0,52
max. memória 8,4GB
Összefoglalás A szakdolgozatom során megvalósított feladatok célja els®sorban minél alacsonyabb szóhibaarányt produkáló beszédfelismer®-rendszerek létrehozása volt. Ennek eléréséhez els®sorban az akusztikus modellezés különféle lehet®ségeire fókuszáltam, áttekintve a hagyományos, kevert-Gauss-alapú, rejtett Markov-modelles technikákat, valamint a beszédfelismerésben újabb kelet¶ neurális hálózatokkal történ® modellezés lehet®ségeit. Kísérleteimet a Kaldi nyílt forráskódú keretrendszer segítségével végeztem el két f® területen: televíziós híranyagokon, valamint telefonos ügyfélszolgálatok felvételein. A témakör szakirodalmának és nemzetközi eredményeinek áttekintését követ®en felvázoltam az általános rendszertervet és -specikációt, majd ismertettem a különféle akusztikus modellekkel elérhet® eredményeket a különböz® adatbázisokon. A hagyományos modelleknél vizsgáltam a Gauss-szám értékének hatását, valamint elemeztem a bemeneti jellemz®kön végzett dimenziócsökkentés pozitív hatásait. A neurális hálózatokon alapuló akusztikus modellek vizsgálatával megmutattam azok el®nyét a klasszikus megoldásokhoz képest; az így készült felismer®-rendszerek minden esetben felülmúlták a GMM-rendszerek teljesítményét. A szabad paraméterek nomhangolásával igyekeztem minden más-más adatbázisra épül® felismerési feladathoz megtalálni azoknak optimális beállításait. A modelleket különböz® bemeneti jellemz®vektorokkal és fonémamodellezési eljárásokkal is teszteltem. Általánosságban elmondható, hogy a legjobb modellnek a 4 rejtett réteget tartalmazó, rejtett rétegenként 1024 neuronból felépül®, 4000-dimenziós kimeneti softmax-réteg¶, rektikációs aktivációs függvényt alkalmazó neurális hálózatok bizonyultak. Ugyanakkor láthattuk, hogy ezek a paraméterek nem minden tanító-adatbázis esetén bizonyultak optimálisnak, így ezeknek a behangolása, a tanulási sebesség megfelel® értékének megválasztása és a legjobban teljesít® architektúra felépítése adatbázis-specikus feladat, ami számos tesztb®l álló kísérletsorozatot igényelhet. A f® irányvonalak azonban mindenképp láthatók, így ez jó támpontot nyújthat a rendkívül számításigényes kísérletek irányának meghatározásához. Mivel a neurális hálózatok tanítása mint láthattuk id®igényes folyamat, ezért a különféle modellek vizsgálatának a kutatásra rendelkezésre álló id® a legsz¶kebb keresztmetszete. A szakdolgozatomban vizsgált kongurációk mellett ígéretesnek mutatkoznak bizonyos újabb kelet¶ neuronháló-architektúrák is, úgy mint a konvolúciós hálók illetve a
dropout -hálózatok, az ilyen irányban történ® kutatás még további javulást eredményezhet a felismerési pontosságokban.
54
Köszönetnyilvánítás Köszönöm a szakdolgozatom elkészítéséhez és a hozzá kapcsolódó kutatásokhoz nyújtott segítséget témavezet®mnek, Mihajlik Péternek, valamint mindenkinek, aki a IB154-es laborban vagy a környékén megfordult és bármilyen segítséget vagy tanácsot adott, továbbá azoknak, akik akármilyen módon támogattak, inspiráltak, kritizáltak, irányba állítottak, használható tudást adtak vagy szórakoztattak.
55
Rövidítések jegyzéke CMVN
Cepstral Mean and Variance Normalization
Kepsztrális átlag- és variancia-normalizáció
DNN
Deep Neural Network
Mély neurális hálózat
FBANK
Filterbank
sz¶r®sor
Feature Space Maximum
Jellemz®térben végzett legnagyobb
Likelihood Linear Regression
valószín¶ség lineáris regresszió
GMM
Gaussian Mixture Model
Kevert Gauss-modell
HMM
Hidden Markov Model
Rejtett Markov-modell
LDA
Linear Discriminant Analysis
Lineáris diszkrimináns-elemzés
fMLLR
MFCC
Mel Frequency Cepstral Coecients
Melfrekvenciás kepsztrális együtthatók
Maximum Likelihood Linear
Legnagyobb valószín¶ség lineáris
Transformation
transzformáció
SAT
Speaker Adaptive Training
Beszél®adaptív tanítás
WER
Word Error Rate
Szóhibaarány
MLLT
56
Ábrák jegyzéke 1.1.
A beszédfelismerési feladat lépéseinek áttekintése [14] alapján
. . . . . . . .
10
1.2.
A 39-dimenziós MFCC-vektorok felépítésének lépései . . . . . . . . . . . . .
13
1.3.
Példa egy háromállapotú, fonémamodellezésre használható rejtett Markovmodellre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.4.
Egy neuron sematikus szerkezete
. . . . . . . . . . . . . . . . . . . . . . . .
16
1.5.
a. A szigmoid-függvény (c
az origóba eltolva b. A rektikációs függvény
17
1.6.
Példa egy egyszer¶, egy rejtett réteg¶ neurális hálózatra, a kimenetén egy tüzel® neuronnal
= 1)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.
A Kaldi beszédfelismer® rendszer környezetének felépítése [20] nyomán
3.1.
A híranyagon megvalósított beszédfelismer® rendszer tervezésének folyamatábrája
. . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.
A beszél®adaptáció által hozott relatív javulások a 10 órás anyagon.
3.3.
A réteg- és dimenziószám hatása a 20 órás anyagon MFCC- és FBANKjellemz®vektorok esetén
3.4.
. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A tanulási sebesség hatása a szóhibaarányra
3 × 1024
mellett, MFCC-jellemz®kkel a 20 órás adatbázison
18 24
28 38
41
méret¶ neuronháló
. . . . . . . . . . . . . .
42
4.1.
A leiratozó-adaptív tanítás és dekódolás hatása
. . . . . . . . . . . . . . . .
50
5.1.
Akusztikus modellek tanítási ideje az adatbázis méretének függvényében . .
52
5.2.
A videomemória hatása a neuronhálók tanítási sebességére . . . . . . . . . .
53
57
Táblázatok jegyzéke 3.1.
A kiinduló rendszer eredményei a 10 órás híradatbázison (GMM)
. . . . . .
31
3.2.
A kiinduló rendszer eredményei a 10 órás híradatbázison (NN) . . . . . . . .
31
3.3.
Filterbank jellemz®vektorokkal elért eredmények a 10 órás adatbázison (GMM) 35
3.4.
Filterbank jellemz®vektorokkal elért eredmények a 10 órás adatbázison (NN)
36
3.5.
A beszél®adaptáció eredményei a 10 órás adatbázis felhasználásával (GMM)
37
3.6.
A beszél®adaptáció eredményei a 10 órás adatbázis felhasználásával (NN)
.
37
3.7.
Eredmények a 20 órás adatbázison (GMM)
. . . . . . . . . . . . . . . . . .
39
3.8.
A jellemz®vektorok hatása a neuronhálós modellekre a 20 órás adatbázison.
40
3.9.
Az aktivációs függvény hatása a 20 órás adatbázison. . . . . . . . . . . . . .
42
3.10. Eredmények a 64 órás adatbázison (GMM)
. . . . . . . . . . . . . . . . . .
43
3.11. Eredmények a 64 órás adatbázison (NN) . . . . . . . . . . . . . . . . . . . .
44
4.1.
Eredmények az MTÜBA-1/A adatbázison (GMM)
. . . . . . . . . . . . . .
47
4.2.
Eredmények az MTÜBA-1/A adatbázison (NN) . . . . . . . . . . . . . . . .
47
4.3.
Eredmények az MTÜBA-2/A adatbázison (GMM)
. . . . . . . . . . . . . .
48
4.4.
Eredmények az MTÜBA-2/A adatbázison (NN) . . . . . . . . . . . . . . . .
48
4.5.
Eredmények az MTÜBA-2/C adatbázison (GMM)
. . . . . . . . . . . . . .
49
4.6.
Eredmények az MTÜBA-2/C adatbázison (NN) . . . . . . . . . . . . . . . .
50
5.1.
RTF és dekódolási memóriaigény a hírm¶sor-hanganyagon . . . . . . . . . .
53
58
Irodalomjegyzék [1] Bauer, P. Abel, J. Fischer, V. Fingscheidt, T.: Automatic recognition of wideband telephone speech with limited amount of matched training data. In Proc. EUSIPCO
2014 (konferenciaanyag). Lisszabon, Portugália, 2014. szeptember, 12321236. p. [2] Bengio, Y. Ducharme, R. Vincent, P. Jauvin, C.: A neural probabilistic language model. Journal of Machine Learning Research, 3. évf. (2003. január), 11371155. p. [3] Cook,
G.
D. Christie,
J.
D. Clarkson,
P.
R. Hochberg,
M.
M. Logan,
B. T. Robinson, A. J. Seymour, C. W.: Real-time recognition of broadcast radio speech. In Proc. ICASSP 1996 (konferenciaanyag), 1. köt. Atlanta, GA, USA, 1996. május, 141144. p. [4] Dahl, G. E. Sainath, T. N. Hinton, G. E.: Improving deep neural networks for LVCSR using rectied linear unit and dropout. In Proc. ICASSP 2013 (konferenciaanyag). Vancouver, BC, USA, 2013. május, 86098613. p. [5] Fegyó, Tibor Mihajlik, Péter: Gépi beszédfelismerés. Oktatási segédanyag. 2014. október 12.
http://alpha.tmit.bme.hu/~mihajlik/baf/Beszfelokt.pdf.
[6] Fodor, György: Jelek és rendszerek. 2006, M¶egyetemi Kiadó. [7] Gales, Mark: Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12. évf. (1998. október), 7598. p. [8] Gales, Mark: Maximum likelihood linear transformations for HMM-based speech recognition. Computer Speech and Language, 12. évf. (1998. április) 2. sz., 7598. p. [9] Gales, Mark Young, Steve: The Application of hidden Markov models in speech recognition. Foundations and Trends in Signal Processing, 1. évf. (2007. március) 3. sz., 195304. p. [10] Haeb-Umbach, Reinhold Ney, Hermann: Linear discriminant analysis for improved large vocabulary continuous speech recognition. In Proc. ICASSP 1992 (konferenciaanyag), 1. köt. San Francisco, CA, USA, 1992. március, 1316. p. [11] Hinton, G. Deng, L. Yu, D. Mohamed, A. Jaitly, N. Senior, A. Vanhoucke, V. Nguyen, P. Sainath, T. Dahl, G. Kingsbury, B.: Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29. évf. (2012. június) 6. sz., 8297. p.
59
[12] Hinton, Georey: Coursera. Neural networks for machine learning 2014. október 25.
https://www.coursera.org/course/neuralnets. [13] Jin, H. Kubala, F. Schwartz, R.: Automatic Speaker Clustering. In DARPA Speech
Recognition Workshop (konferenciaanyag). Chantilly, VA, USA, 1997. február. [14] Jurafsky, Daniel Martin, James H.: Speech and language processing. An introduction
to natural language processing, computational linguistics, and speech recognition. 2009, Pearson Education. [15] Mau£ec, Mirjam Sepesy gank, Andrej: Speech recognition system of slovenian broadcast news. In Ipsic, Ivo (szerk.): Speech Technologies. 2011, InTech. [16] Mihajlik, Péter:. szóbeli közlés 2014. október. [17] Mihajlik, Péter: Spontán magyar nyelv¶ beszéd gépi felismerése nyelvspecikus sza-
bályok nélkül. PhD értekezés (Budapesti M¶szaki és Gazdaságtudományi Egyetem). 2010. [18] Nielsen, Michael: Neural networks and deep learning 2014. október 21.
http://
neuralnetworksanddeeplearning.com/index.html. [19] Pavelka, Tomá² Král, Pavel: Neural network acoustic model with decision tree clustered triphones. In IEEE Workshop on MSLP 2008 (konferenciaanyag). Cancún, Mexikó, 2008. október, 216220. p. [20] Povey,
D. Ghoshal,
A. Boulianne,
G. Burget,
L. Glembek,
O. Goel,
N. Hannemann, M. Motlicek, P. Qian, Y. Schwarz, P. Silovsky, J. Stemmer, G. Veselý, K.: The Kaldi Speech Recognition Toolkit. In IEEE 2011 Workshop on
ASRU (konferenciaanyag). 2011. december. [21] Prasad, N. Vishnu Umesh, S.: Improved cepstral mean and variance normalization using Bayesian framework. In Proc. ASRU 2013 (konferenciaanyag). Olmütz, Cseh Köztársaság, 2013. december, 156161. p. [22] Rójas, Raul: Neural networks. A systematic introduction. 1996, Springer. [23] Rodríguez, Luis Javier Torres, Inés: Comparative study of the Baum-Welch and Viterbi training algorithms applied to read and spontaneous speech recognition. In Parles, Francisco José Campilho, Aurélio J. C. de la Blanca, Nicolás Pérez Sanfeliu, Alberto (szerk.): Pattern Recognition and Image Analysis. Lecture Notes in Computer Science sorozat, 2652. köt. 2003, Springer Berlin Heidelberg, 847857. p. [24] Seide,
F. Li,
G. Yu,
D.:
Conversational
speech
transcription
using
context-
dependent deep neural networks. In Proc. Interspeech 2011 (konferenciaanyag). Firenze, Olaszország, 2011. augusztus, 437440. p.
60
[25] Stadtschnitzer, M. Schwenninger, J. Stein, D. Koehler, J.: Exploiting the largescale German Broadcast Corpus to boost the Fraunhofer IAIS speech recognition system. In Proc. LREC 2014 (konferenciaanyag). Reykjavík, Izland, 2014. május, 3887 3890. p. [26] Tóth, László: Phone recognition with deep sparse rectier neural networks. In Proc.
ICASSP 2013 (konferenciaanyag). Vancouver, BC, USA, 2013. május, 69856989. p. [27] Tóth, László: Combining time- and frequency-domain convolution in convolutional neural network-based phone recognition. In Proc. ICASSP 2014 (konferenciaanyag). Firenze, Olaszország, 2014. május, 190194. p. [28] Tóth, László: Convolutional deep maxout networks for phone recognition. In Proc.
Interspeech 2014 (konferenciaanyag). Szingapúr, 2014. szeptember, 10781082. p. [29] Yu, D. Seltzer, M. L. Li, J. Huang, J. Seide, F.: Feature learning in deep neural networks studies on speech recognition tasks. In ICLR 2013 (konferenciaanyag). 2013. március.
61