A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Mély neuronhálók alkalmazása és optimalizálása
magyar nyelv¶ beszédfelismerési feladatokhoz Varga Ádám Csaba, KHLU9W 2015. január 10. Konzulens: Dr. Mihajlik Péter Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
A megvalósítandó feladatok
I I
I
I I
Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer® rendszerek tervezése magyar nyelv¶ beszédadatbázisokhoz A neurális hálózatos módszerek hagyományos eljárásokkal szembeni teljesítményének elemzése Paraméter-nomhangolás, optimalizálás Számítási er®forrásigények meghatározása
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
A beszédfelismerési feladat
I
Akusztikus bemenetb®l szöveges kimenet el®állítása: I I
lényegkiemelés mintaillesztés Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Mintaillesztési módok súlyozások ((w ))
I
I
I
Statisztikai módszerek: cél a feldolgozott hangra legjobban illeszked® fonémák, szavak, szósorozatok keresése Hagyományos módszerek: rejtett Markov-modellek Az újabb kelet¶ neurális hálózatos megoldásokkal jobb pontosság érhet® el Varga Ádám Csaba, KHLU9W
súlyozások ((w ))
f (xT w)
rejtett réteg(ek) bemeneti réteg (x)
kimeneti réteg (y)
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Kutatási eszközök
I
Kaldi: nyílt forráskódú beszédfelismer® keretrendszer I I
I
támogatja a klasszikus és a neurális hálós modellek tanítását is szabadon módosítható, testreszabható kódok
Beszédadatbázisok I I
híradó-hanganyagok (64 óra; 16kHz) telefonos ügyfélszolgálati hanganyagok (54, 38 és 27 óra; 8kHz)
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
A f®bb kísérleti paraméterek
I I I
I
I
adatbázisméret akusztikus modell (HMM vs. DNN) bemeneti jellemz®k (pl. normalizálás, dimenziócsökkentés, lényegkiemelés módja) neuronháló-architektúra és tanítási paraméterek (pl. dimenziók, tanulási sebesség) lehet®ségek a beszél®adaptációra
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Eredmények a hír-hanganyagokon HMM DNN 36
I
34
WERavg %
32 I
30
I
28 26
I
24 22 20
a legjobb hagyományos és neuronhálós modellek teljesítménye legjobb konguráció
10 óra
20 óra
4 × 1024 méret¶ neuronháló indokolt a dimenziócsökkentés, normalizálás
64 óra
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Eredmények a hír-hanganyagokon (folyt.)
I
beszél®adaptáció újrabeszél®kre I
I
I
I
az adatbázis sok ismeretlen beszél®t tartalmaz, a felvételek zajosak, gyakori az egyszerre beszélés stb. megoldás: újrabeszél®k alkalmazása az ® hangjukra tesztelési id®ben adaptálható a modell az adaptáció az adaptálatlan modellhez képest 17%-os relatív javulást hoz hagyományos HMM-módszereknél neurális hálókkal is érzékelhet® javulás, bár kisebb (3%)
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Eredmények az ügyfélszolgálati hanganyagokon HMM DNN 45 I
WERavg %
40 35
I
30 25 20
1/A
2/A
a hír-hanganyagoknál tapasztaltak itt is érvényesek a rosszabb akusztikai körülmények miatt magasabbak a szóhibaarányok
2/C
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Tanítási er®forrásigények, dekódolási id® 3 4 3 4 3 4
× × × × × ×
1024, 1024, 1024, 1024, 1024, 1024,
2GB 2GB 4GB 4GB CPU CPU
GPU GPU GPU GPU
I
10,000
Real Time Factor: RTF =
Tanítási idö (perc)
8,000
I
6,000
t(dek o´dol a´s) t(dek o´daland o´ anyag )
Átlagos RTF a híranyagon: 0,36
4,000 2,000 32 óra
64 óra
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Összefoglalás és további irányok
I
I
I
neurális hálózatokkal minden esetben javulás érhet® el, ez átlagosan relatív 16% a hagyományos módszerekhez képest a dimenziócsökkentés javulást hoz, 3-4 1000 dimenziós rejtett réteg teljesít a legjobban további irányok I I
új neuronháló-architektúrák automatikus beszél®klaszterezés
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Kérdések?
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Bírálói kérdések I Mi a különbség a DEV az EVAL teszthalmazok között? Miért kell külön DEV teszthalmaz, ha egyszer a felismerés ideje elhanyagolható a betanításhoz képest? I
A DEV halmaz hagyományosan a modellek nomítására, az EVAL pedig a végs® tesztelésre szolgál, alapvet®en nem különböznek (a tartalmukat leszámítva).
I Mi az oka, hogy a 3.6-os táblázatban feltüntetett eredmények jelent®sen rosszabbak a referenciához képest (3.2 táblázat)? Vajon az újrabeszél®k rosszabbul mondták fel az elhangzottakat, mint az eredeti beszél®k? I
Az újrabeszél®-teszthalmaz anyaga nem azonos az eredeti teszthalmazzal, sokkal kisebb annál (ilyen formában csak az adaptációs lehet®ségek vizsgálatára szolgált), de a kérdésben felvetett eset is el®fordulhat. Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Bírálói kérdések (folyt.)
I A 10 és a 20 órás adatbázison betanított modellek ugyanazon a teszthalmazon lettek tesztelve (3.4 pont)? I
Igen.
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása
A megvalósítandó feladatok A beszédfelismerési feladat Kutatási eszközök Kísérletek és eredmények Összefoglalás és kérdések
Köszönöm a gyelmet!
Varga Ádám Csaba, KHLU9W
Mély neuronhálók alkalmazása és optimalizálása