278
BESZÉDKORPUSZ TERVEZÉSE MAGYAR NYELV, REJTETT MARKOV-MODELL ALAPÚ SZÖVEGFELOLVASÓHOZ Tóth Bálint – Németh Géza – Olaszy Gábor Bevezetés A gépi beszéd-elállítás lehetségét elször Kempelen Farkas alkotta meg 1791-ben (Nikléczy–Olaszy 2004), de a számítógépes szöveg-beszéd átalakítók fejldése is több évtizedes múltra tekint vissza mind nemzetközi (Moulines–Charpentier 1990; Hunt–Black 1996; Black–Lenzo 2000; Möbius 2000), mind pedig hazai viszonylatban (Kiss–Olaszy 1982). A gépi szöveg-beszéd átalakítás általánosságban két f lépésbl áll: a szövegfeldolgozó és a beszéd-elállító részekbl (1. ábra).
1. ábra A gépi szöveg-beszéd átalakítás általános struktúrája A szövegfeldolgozó modul a bemeneti szövegen végez különböz átalakításokat, majd az eredmény alapján egy leíró adatmátrixot hoz létre, melyben szerepelnek a bemeneti szöveget reprezentáló beszédhangok és a bemeneti szövegre jellemz szegmentális és szupraszegmentális információk. Ezt a leíró mátrixot kapja meg a beszéd-elállító modul, amelybl elállítja a gépi beszéd hullámformáját. Az elmúlt évtizedekben különböz megközelítésekkel modellezték az emberi beszéd-elállítás mechanizmusát. A gépi beszéd-elállító modul két nagy csoportját különböztetjük meg: a szabály- és az adatvezérelt beszédhang-elállítást. Szabályvezérelt beszédhang-elállítás esetén mérésekbl és tapasztalati úton szerzett információk alapján felállított szabályok szerint állítjuk el a gépi beszédhangot. Ilyen megoldás például az artikulációs (Mermelstein 1973), illetve a formánsszintézis (Kiss–Olaszy 1982; Klatt–Klatt 1990) és a hullámforma-összefzésen alapuló diád- és triádalapú rendszerek (MoulinesCharpentier 1990; Olaszy et al. 2000).
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 279 Adatvezérelt beszédhang-elállítás esetén úgynevezett beszédkorpuszokból kinyert információk alapján állítjuk el a gépi beszédhangot. A beszédkorpusz tartalma és felépítése alapveten meghatározza az eredményt. Általában több órányi emberi beszédet használnak, továbbá annak fonemikus átiratát, a hanghatárokat és még további lehetséges információkat (pl. hangsúlyok). Adatvezérelt megoldás például a korpuszalapú elemkiválasztásos beszédszintézis (Möbius 2000; Németh et al. 2006) és a rejtett Markovmodell (Hidden Markov Model, HMM) alapú beszédszintézis (Yoshimura et al. 1999; Black et al. 2007). Az els, magyar nyelvre készített rejtett Markovmodell alapú szövegfelolvasó fejlesztésének részleteit Tóth és Németh (2010) tanulmánya tartalmazza. Napjainkban a rejtett Markov-modell alapú szövegfelolvasó rendszerek a leginkább elterjedtek számos elnyös tulajdonságuk miatt. Kisméret (1,5-2 Mbyte) beszédadatbázisból képesek jó, közel állandó minség, érthet beszédet elállítani, amely hordozza a beszél hangszínezeti tulajdonságait is (Yoshimura et al. 1999). Ezen túl jelents elny más megoldásokkal szemben, hogy lehetség van viszonylag kicsi (5-10 percnyi) beszédkorpusz segítségével a jellemz paraméterfolyamok, és így a gépi beszédhang karakterisztikájának adott célbeszélhöz való adaptációjára (Tamura et al. 1998; Ogata et al. 2006; Yamagishi–Kobayashi 2007). Hátránya is van az eljárásnak, nehéz a teljes prozódiai rendszert megvalósítani (kérdés, óhajtás stb.), az elállított beszéd hangkimeneti korrektsége nem hibamentes (rossz hangidtartamok, hangkimaradások elfordulhatnak). További hátrány, hogy a felmerül hangzási hibák korrigálása nehéz, hiszen nem látunk bele a tanulási és szintetizálási folyamat részleteibe. Célkitzés Célunk az volt, hogy megállapítsuk, hogy a rejtett Markov-modell alapú szövegfelolvasás esetén javul-e a hangminség, ha a beszédkorpusz automatikusan végzett címkézését utólagosan kézi ellenrzésnek vetjük alá, és az esetleges címkehibák számát így gyakorlatilag nullára csökkentjük. Rejtett Markov-modell alapú szövegfelolvasás A 2. ábra egy általános HMM-alapú szöveg-beszéd átalakító blokkdiagramját mutatja be. Az eljárás két f részbl áll: tanítási és szintézis szakaszból. A tanítási szakaszban a tanító beszédkorpusz hullámformáiból kinyerjük a gerjesztési és spektrális paramétereket, majd ezen paramétereket és a beszédkorpuszhoz tartozó további információkat (pl. fonemikus átirat, hanghatárok, szegmentális és szupraszegmentális információk) adjuk át a HMM tanítási szakasznak. A tanító beszédkorpusz néhány órányi, lehetleg stúdióminség felvételt tartalmaz egy beszéltl, illetve a hanganyag fonemikus átiratát és minél pontosabb hanghatárjelöléseket. Tehát elször a jellemz – gerjesztési és spektrális – paramétereket kinyerjük a beszédkorpuszból, majd ezen paraméterek sokaságát generatív modellekkel helyettesítjük. A modell paramétereinek becslésére a következ képlet
280
Tóth Bálint – Németh Géza – Olaszy Gábor
szerint általában a maximum likelihood (ML) vagy ahhoz hasonló becslést alkalmaznak: ˆ = arg max{ p(O | W , )}
(1)
ahol Ȝ a modell paramétereit, O a beszédkorpuszból származó jellemz paramétereket (tanítóadatok) és W az O-hoz tartozó szósorozatot jelöli. A címkék a hullámforma szövegének fonemikus átiratán és az idzítéseken túl számos szegmentális és szupraszegmentális információt tartalmaznak hang-, szótagmag-, szó-, mondatrész- és mondatszinten (Zen et al. 2007). Ezeket a címkéket környezetfügg címkéknek is nevezzük. A környezetfügg címkék lehetséges kombinációja túl nagy (> 1053) ahhoz, hogy megfelelen reprezentatív beszédkorpuszt tudjunk hozzá készíteni, ezért a paraméterfolyamokat döntési fák segítségével csoportokba soroljuk (Yoshimura et al. 1999). Külön-külön döntési fa tartozik az egyes paraméterfolyamokhoz. Például 40 beszédhanggal számolva a kvinfón (a vizsgált hang és az eltte, ill. utána következ 2-2 hang) lehetséges változatainak száma 405 = 102 400 000, melyhez hozzávéve a további környezetfügg címkéket óriásira növeljük az állapotteret. A HMM tanítási szakaszában a gerjesztési, a spektrális és az idzítési paraméterekhez készítünk generatív modelleket. A folytonos paraméterfolyamokat (pl. spektrális paraméterek) Gauss-eloszlásokkal közelítjük (Yoshimura et al. 1999), míg a diszkrét/folytonos paraméterfolyamokat (pl. gerjesztési paraméterek esetén diszkrét módon jelezzük a zöngétlen hangot, zöngés esetben pedig folytonos módon az alapfrekvenciát) többter valószínségi eloszlású HMMekkel (Multi-Space Probability Distribution HMM, MSD-HMM) modellezzük (Tokuda et al. 1999). Annak érdekében, hogy a hangok és a mondat ritmikáját megfelelen modellezni tudjuk, a HMM-állapotok közötti átmeneti valószínségeket nem egy értékkel, hanem Gauss-eloszlásokkal írjuk le. A tanítási folyamat végére eláll az úgynevezett HMM adatbázis, mely a beszédkorpusz jellemz paraméterfolyamainak generatív modelljeit tartalmazza. A szintézis során ezen modellek segítségével fogunk gépi beszédhangot elállítani a következ módon. A w szósorozathoz és Ȝ becsült modell paraméterekhez tartozó o paraméterek kimeneti valószínségét maximalizáljuk az alábbiak szerint: oˆ = arg max{p( o | w, ˆ )} o
(2)
Tehát a (2)-es egyenlet maximalizálását hajtjuk végre: a HMM generatív modellekbl a bemeneti szöveg alapján elállított környezetfügg címkehalmazra legjellemzbb paraméterfolyamokat generáljuk. Ebbl a paraméterfolyamból állítjuk el a gépi beszédhangot olyan beszédkódoló eljárással, mint például az impulzus-zaj gerjesztésen alapuló LPC beszédkódoló.
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 281
2. ábra HMM-alapú szövegfelolvasó tanítási és szintézis fázisának blokkdiagramja Rejtett Markov-modell alapú beszéladaptáció Az elz részben a beszélfügg tanítást mutattuk be. A HMM-alapú beszédszintézis egyik nagy elnye, hogy képes a beszéladaptációra. A beszéladaptáció annyit jelent, hogy a rendszer hangkarakterisztikáját képesek vagyunk egy adott célbeszélhöz hasonlóra kialakítani. Más megoldásokkal szemben a rejtett Markov-modellek esetén elny, hogy a beszéladaptációhoz viszonylag rövid, 5-10 perces beszédkorpusz elegend. A beszéladaptált tanítás folyamata hasonló a beszélfügg esethez, azonban itt a tanítást két f részre oszthatjuk: elször egy átlaghangot tanítunk, melyet utána a célbeszél hangkarakteréhez igazítunk (3. ábra). Ebben az esetben így áll el a szintézis alapját képez HMM-adatbázis. Ezután a beszédhang elállításának módszere megegyezik a beszélfügg esetben használt módszerrel (2. ábra alsó része). Az átlaghang elállításához több beszél-
282
Tóth Bálint – Németh Géza – Olaszy Gábor
tl (legalább 4-5), minél hosszabb (személyenként legalább 1-1,5 óra) hangfelvételre, annak fonemikus átiratára és pontos hanghatárjelöléseire van szükség. Ezután a HMM-eket az összes beszél adatbázisa alapján tanítjuk be az átlaghangra, melyben jelen vannak minden egyes beszélre az alapfrekvencia, hangidtartam és spektrális paraméterek.
3. ábra A beszéladaptált tanítás blokkdiagramja Az átlaghang tanításához használhatunk férfihangot, nit vagy mindkettt. A gyakorlatban a kevert nem átlaghang-elállítást célszer választanunk, majd ebbl adaptálni mind férfi, mind ni hangra. Meg lehet csinálni, hogy el-
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 283 lentétes nem átlaghangból adaptálunk ni/férfihangra, azonban Isogai és munkatársai (2005) kutatásában ez jelents minség- és természetességcsökkenést okozott a végs hangnál a nemenkénti átlaghanghoz képest. Yamagishi és munkatársai (2007) olyan eljárásról számolnak be, mely segítségével kevert nem átlaghangból a nemenkénti átlaghanghoz képest minimális minség- és természetességromlás mellett lehet ni és férfi hangra adaptálni. Miután elkészültek az átlaghang HMM modelljei, a célbeszéltl származó hangfelvételekkel tudjuk a modellt az adott személy hangkarakteréhez és beszédstílusához igazítani, adaptálni. A beszél adaptációjára alapveten kétfajta lehetségünk van. Amennyiben kevés (5-10 perc) hanganyag áll rendelkezésre a célbeszéltl, akkor elnyös maximum likelihood linear regression (MLLR) alapú adaptációt választani (Ogata et al. 2006). Tamura és munkatársai (1998) kísérlete alapján akár már öt mondat is elegend lehet ahhoz, hogy a célszemély hangkarakterét és beszédstílusát visszaadja a gépi beszédhang. Amennyiben hosszabb (több mint 1 óra) adaptációs hanganyag is elérhet, akkor a maximum a posteriori (MAP) technikát érdemes használni (Yamagishi et al. 2007), mely az elznél jobb minség mesterségesen generált hangot eredményez. Ennek a technológiának az új változatai, mint például a CSMAPLR (constrained structural maximum a posteriori linear regression) közel azonos minséget és természetességet képviselnek, mint a beszélfügg tanítás esetén elállított mesterséges beszéd (Yamagishi et al. 2009). A beszéladaptáció során MLLR eljárást használtunk. Az MLLR lineáris transzformációk segítségével az átlaghang HMM modell paramétereit a célhang „irányába” módosítja. Az állapotkimenetek ekkor a következképp alakulnak: ˆ ) b j (ot ) = N (ot ; µˆ j ; ¦ j
(3)
µˆ j = Ar ( j ) µ j + br ( j )
(4)
ˆ = HT ¦ H ¦ j r( j) j r( j)
(5)
ahol
ˆ a j-edik állapotra jellemz kimeneti srségfüggvényhez tarµˆ j és ¦ j
tozó várható értékvektor, ill. kovarianciamátrix a lineáris transzformáció után.
Ar ( j ) , br ( j ) és H r ( j ) a várható érték lineáris-transzformációs mátrixa,
a hozzá tartozó eltolásvektor és a kovariancia lineáris-transzformációs mátrixa az r(j)-edik regressziós osztályban. Az adott állapotokra jellemz kimeneti srségfüggvényeket regressziós fa segítségével osztályokba soroljuk, egy adott osztályban azonos lineáris-
284
Tóth Bálint – Németh Géza – Olaszy Gábor
transzformációs mátrixokat és eltolásvektort használunk. A regressziós fa méretének az adaptációs anyag mennyiségéhez való igazításával tudjuk szabályozni az adaptáció komplexitását és általánosítható képességét. Alapveten az MLLR két fajtáját különböztetjük meg: azonos A és H lineáristranszformációs mátrixok esetén korlátozott MLLR-rl (constrained MLLR, CMMLR), egyébként pedig korlátozás mentes MLLR-rl (unconstrained MLLR) beszélünk. A jelen cikkben ismertetett rendszer esetén CMLLR-t használtunk. Anyag és módszer A kutatásaink során adott szövegkorpuszokból felolvasással beszédkorpuszokat készítettünk. Ezen beszédkorpuszokat címkékkel láttuk el (szegmentálás). Megvizsgáltuk a fonématévesztés hibaarányát (phone error rate, PER), valamint a címketévesztés hatását a hangminségre. Az eredmények szubjektív értékelése céljából meghallgatásos tesztet végeztünk. Beszédkorpuszok Beszédkorpuszon a következt értjük: hanganyag, a felolvasott szöveg fonemikus átirata és szegmentálási címkék halmaza. A betanításhoz felhasznált beszédkorpuszok felolvasott beszédbl készültek. Minden bemondó egységesen ugyanazt a szöveget olvasta fel, amely fonetikailag kiegyensúlyozott mondatokat (Vicsi et al. 2004) tartalmazott (kb. 2000 mondat). Öt beszédadatbázis készült, 4 férfi bemondó (életkoruk 60, 50, 30, 29 év) és egy ni (33 év) hangból. A beszédkorpusz digitalizálási adatai: 16 kHz, 16 bit. Az öt beszédadatbázishoz (1. táblázat) az eredeti szövegkorpuszok automatikus módszerrel készített fonemikus átiratát használtuk, ugyanakkor az F1 és N1 beszédadatbázison kézileg is ellenriztük a fonemikus átirat és a szegmentálás pontosságát. A késbbiekben ez utóbbi két változatot tekintjük referenciának. A beszélfügg tanítás során egyszer az F1 és N1 adatbázis automatikus módszerekkel elkészült változatát, majd a kézi ellenrzésen is átesett változatait használtuk fel (összesen 4 darab). Beszéladaptált esetben az átlaghangot az automatikus módszerekkel elkészített öt beszédkorpusszal tanítottuk. Ezután a beszéladaptációt az F1 és N1 adatbázisok egy részhalmazával végeztük el (szintén a kézi és automatikus változatokkal, összesen itt is 4 darab). Az átlaghang tanítása során a szövegek fonemikus átírása kizárólag automatikus úton történt az eredeti szövegbl. Megjegyezzük, hogy az ideális eset az lenne, ha az átlaghang adatbázisai mind kézzel ellenrzöttek lennének. Kutatásunk jelenlegi szakaszában azonban még nem állt rendelkezésre az összes beszédkorpusz kézi átirata javított hanghatárokkal, ezért a konzekvens adatbázis-építés elvét alkalmaztuk, mindegyik beszédkorpuszból az automatikus átiratot használtuk.
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 285 1. táblázat: A kutatás során használt beszédkorpuszok Beszél 1. férfi beszél (F1) 2. férfi beszél (F2) 3. férfi beszél (F3) 4. férfi beszél (F4) 1. ni beszél (N1)
Mondatszám Idtartam 1936 190 perc 1938 137 perc 1941 170 perc 1938 214 perc 1937 128 perc
Feldolgozás automatikus és kézi ellenrzés automatikus automatikus automatikus automatikus és kézi ellenrzés
Fonématévesztési hibaarány Módszert dolgoztunk ki a fonématévesztések hibaarányának (PER) megállapítására. A következ hibafajtákat kezeltük: – A bemondó mást olvas fel, mint ami a szövegben van. 1. példa: szöveg: és, fonetikai átirat: és, kimondva: s. 2. példa: szöveg: lehtetlen, átirat: lehtetlen, kimondva: lehetetlen. – A fonetikai átíró mást jelöl, mint az elhangzott elem. Példa: szöveg: 900, fonetikai átirat: kilencszáz, kimondva: kilencáz. A javítás módszere: a gépileg felcímkézett adatállományokat kézi ellenrzésnek vetjük alá. Ennek során a fonemikus átiratot és az elhangzott hanganyagot egybevetjük, és a hibákat javítjuk a megfelel helyen. Minden esetben a kézzel javított fonemikus átiratot tekintjük referenciának. A kézzel javított átiratról feltételezzük, hogy hangról hangra azt tartalmazza, ami a beszédkorpusz hanganyagában szerepel. A fonématévesztések hibaarányának meghatározása során a referenciához képest vizsgáljuk az automatikusan készített fonemikus átiratot. A fonématévesztések hibaarányának számítása közben a fontos jellemzk: – Fonémák száma: az összes fonéma száma a beszédkorpuszban. – Helyes fonémák száma: a kézi átirathoz képest mennyi fonéma azonos. – Törlések: az automatikus átiratban a kézi átirathoz képest kitöröltünk egy fonémát. – Helyettesítés: az automatikus átiratban a kézi átirathoz képest helyettesítettünk egy fonémát. – Beszúrás: az automatikus átiratban a kézi átirathoz képest beszúrtunk egy fonémát. A javítások száma a törlések, helyettesítések és beszúrások számának öszszege. A fonématévesztések hibaarányát a következképp számoltuk (Young et al. 2006): PER =
HelyesFonémákSzáma FonémákSzáma
(6)
286
Tóth Bálint – Németh Géza – Olaszy Gábor
Szegmentálás Szegmentáláson azt a folyamatot értjük, mely során a hangfelvételek hullámformáján címkével bejelöljük minden hang és szünet kezdetét (hanghatárok). Szegmentálási szempontból kétféle címkét különböztetünk meg, a hang elejét jelz jelölést és a szünetek elején elhelyezett címkét (hangsor belseji szünet és hangsor végi). Ezeket a hanghatárokat automatikus módszerrel, úgynevezett kényszerített felismeréssel (forced alignment) határoztuk meg, ami gépi beszédfelismerési módszeren alapul (Mihajlik et al. 2002). Ekkor a beszédfelismer a bemeneti szöveget elemezve jelöli ki a hanghullámban a hangokat és a hanghatárokat. Az eljárást azért hívják kényszerített felismerésnek, mert a szövegbl adódik, hogy milyen hangok követik egymást, továbbá hogy a hanghullámban csak annyi hangot jelölhet be az algoritmus, amennyi a szövegbl következik. Fontos figyelembe vennünk, hogy hibátlan fonemikus átirat esetén is lehetnek hibás hanghatárcímkék. Ezért a kényszerített felismerés szegmentálási eredményét kézi ellenrzéssel javítottuk (4. ábra). Mivel a kézi ellenrzés nagy emberi erforrást igényel, ezért ezt a használt beszédkorpuszoknak csak egy részében végeztük el (lásd 1. táblázat).
4. ábra A hanghatárok automatikus, gépi elhelyezése (fent) és a kézi javítás eredménye (lent) az Itt volt, de már elment. mondatban A hanghatárhibákat osztályokba soroltuk be – attól függen, hogy hány ms eltérés van a referencia és az automatikus hanghatár-meghatározás között – a következképp: 0,1–9 ms, 10–19 ms, 20–29 ms, 30–39 ms, 40–49 ms, 50– 59 ms, 60–69 ms, 70–79 ms, 80–89 ms, 90 ms-nál több. A szegmentálás végeztével eláll(nak) a HMM-tanításhoz, illetve adaptációhoz szükséges beszédkorpusz(ok). Az automatikus és kézi ellenrzéssel történ beszédkorpuszok elállítási folyamatát az 5. ábra szemlélteti. Az ábrán szürke dobozokkal jelöltük a tanítás/adaptáció során felhasznált elemeket. A gépi beszéd elállítása A HMM-szintézishez a HTS 2.1-es rendszer módosított, magyar változatát használtuk kevert gerjesztéssel (Tóth–Németh 2010). A lényegkiemeléshez
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 287 25 ms-os Hanning-ablakot használtunk 5 ms eltolással. A jellemz paraméterfolyam 39 mel-kepsztrális együtthatót, a log{F0}-t, a zöngésségi arányt és az ezekhez tartozó delta és delta-delta együtthatókat tartalmazta. Kutatásunk során vizsgáltuk a beszélfügg és beszéladaptált eseteket is.
5. ábra A beszédkorpuszok elállítási folyamata kézi ellenrzéssel (bal) és automatikusan (jobb) Meghallgatásos teszt Az eredmények kiértékelése céljából meghallgatásos tesztet állítottunk össze. A korábban ismertetett módon összesen 8 különböz gépi beszédelállító rendszert hoztunk létre a teszthez: BF-F1-kézi, BF-F1-automatikus, BF-N1-kézi, BF-N1-automatikus, BA-F1-kézi, BA-F1-automatikus, BA-N1kézi, BA-N1-automatikus. A meghallgatásos teszt két részbl állt. Az els részben a tesztalanyok a hangminták hangzásának természetességét osztályozták a következ rendszerek esetén: BF-F1-kézi ↔ BF-F1-automatikus, BF-N1-kézi ↔ BF-N1-automatikus, BA-F1-kézi ↔ BA-F1-automatikus, BA-N1-kézi ↔ BA-N1-automatikus.
288
Tóth Bálint – Németh Géza – Olaszy Gábor
A meghallgatásos teszt els részében minden rendszerbl 10 hangmintát (mondatot) használtunk fel, páronként a minták szövege azonos volt. Egy tesztel a 10 mintából 2 mintapárt hallgatott meg a beszélfügg férfi és ni, illetve beszéladaptált férfi és ni HMM-rendszerek által generált hangminták közül. A tesztalanyok ötelem skálán osztályozhatták, hogy a mintapár mintái ugyanolyan természetesek-e, illetve hogy valamelyik mintát kicsit vagy sokkal természetesebbnek érzik-e a másik mintánál. A mintapárokat mindkét sorrendben lejátszottuk a tesztalanyoknak, hogy ellenrizzük az ítéletalkotás következetességét. Amennyiben jelents eltérés volt az osztályozásban a különböz sorrendek esetén, akkor ezen méréseket nem vettük figyelembe a tesztek során. Ilyen jelleg eltérés csupán néhány esetben volt észlelhet, de nem volt jellemz sem a beszélre, sem a tesztalanyokra. A meghallgatásos teszt második felében az eredeti beszél természetes bemondásához hasonlították a tesztalanyok a gépi beszédet, hogy mennyire adja vissza annak hangzását. Ebben az esetben mind a nyolc rendszer részt vett a tesztben. A meghallgatásos teszt második felében is összesen 10 hangmintát használtunk fel, egy tesztalany egy rendszerbl egy hangmintát hallgatott meg, és 1-tl 5-ig kellett a mintákat osztályoznia. Az 1-es osztályzat itt azt jelentette, hogy egyáltalán nem adja vissza az eredeti beszél hangkarakterét, az 5-ös pedig, hogy a szintetizált hangminta összetéveszthet az eredeti beszélvel. A meghallgatásos teszt mindkét részében minden tesztalany esetén másmás sorrendben játszottuk le a hangmintákat, így zárva ki az esetleges „memóriahatásokat” (van Santen 1993). A tesztet összesen 29-en végezték el, 14 férfi és 15 n. Az átlagéletkor 31 év volt, a legfiatalabb tesztalany 20, a legidsebb 65 éves volt. 6 tesztalany beszédszakért volt. A teszt internetalapú volt, böngészbl lehetett kitölteni, a hangminták MP3 kódolással voltak tárolva 128 kbps, 16 bit minségben. Eredmények A korábbiak alapján az eredmények ismertetését három részre bontjuk: megvizsgáljuk a fonématévesztések hibaarányát (PER) a beszédkorpuszokban, ismertetjük az automatikus és kézi szegmentálás különbségeit, illetve meghallgatásos tesztekkel vizsgáljuk a pontos címkézés hatását a gépi beszéd minségére. Fonéma tévesztések hibaarányának vizsgálata A kísérleteink során összesen 8-féle beszédkorpuszt vizsgáltunk: 4 korpuszt a beszélfügg tanításhoz és 4 korpuszt a beszéladaptált változathoz (ezek a korábbi korpuszokat, illetve azoknak részhalmazait tartalmazták). Az adaptációs kis beszédkorpuszt az F1 és N1 korpuszból származtattuk, és elemeit úgy választottuk ki, hogy az adott F1 és N1-bl az összes törlés, helyettesítés és beszúrás szerepeljen benne. Ezáltal az automatikus fonemikus átiratból a legtöbb hibát tartalmazó részeket tartottuk meg, továbbá véletlen
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 289 módon kiválasztottunk hozzá annyi hanganyagot, hogy 10 perc körüli idtartam álljon rendelkezésünkre. Az eredményeket a 2. és a 3. táblázat mutatja. BF-fel jelöljük a beszélfügg, BA-val a beszéladaptált eljárásokhoz tartozó korpuszokat. A 2. táblázat alapján megállapíthatjuk, hogy a beszélfügg esetekben a hibák száma elenyész a teljes korpusz nagyságához képest. A 3. táblázat pedig megmutatja, hogy az adaptációs beszédkorpusz esetén már nagyobb mérték hibaaránnyal kell számolnunk. 2. táblázat: A beszélfügg tanításhoz felhasznált beszédkorpuszok
Mondatszám Idtartam Fonémaszám A helyes fonémák száma Törlések Helyettesítések Beszúrások A javítások száma PER
BF-F1kézi 1936 190 perc 80964 80964 – – – – 0%
BF-F1automatikus 1936 190 perc 81053 80380 32 57 584 673 0,83%
BF-N1kézi 1937 128 perc 80893 80893 0%
BF-N1automatikus 1937 128 perc 81058 80663 51 114 260 425 0,52%
3. táblázat: A beszéladaptációhoz felhasznált beszédkorpuszok
Mondatszám Idtartam Fonémaszám A helyes fonémák száma Törlések Helyettesítések Beszúrások A javítások száma PER
BA-F1kézi 104 10 perc 4281 4281 – – – – 0%
BA-F1automatikus 104 10 perc 4370 3697 32 57 584 673 15,5%
BA-N1kézi 164 11 perc 6934 6934 0%
BA-N1automatikus 164 11 perc 7099 6674 51 114 260 425 6%
A szegmentálás vizsgálata A hanghatárhibák összehasonlításából származó eredményeket beszélfügg tanítás során felhasznált beszédkorpusz esetén a 6., 7., beszéladaptált esetben pedig a 8. és 9. ábrák mutatják be.
Tóth Bálint – Németh Géza – Olaszy Gábor A hangok száma (db)
290
70000 57869 60000 50000 40000 30000 17238 20000 5355 10000 1664 0
555
188
81
40
20
28
1-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90Hanghatárhiba (ms)
A hangok száma (db)
6. ábra Az automatikus hanghatár-meghatározás pontossága BF-F1 esetben 70000 60000 50000 40000 30000 20000 10000 0
65805
13854 2317
656
227
91
46
17
9
20
1-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90Hanghatárhiba (ms)
A hangok száma (db)
7. ábra Az automatikus hanghatár-meghatározás pontossága BF-N1 esetben 3500 3000 2500 2000 1500 1000 500 0
3173
884 264
86
25
8
1
3
1
1
1-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90Hanghatárhiba (ms)
8. ábra Az automatikus hanghatár-meghatározás pontossága BA-F1 esetben
A hangok száma (db)
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 291 7000 6000 5000 4000 3000 2000 1000 0
5788
1037 148
36
15
7
3
0
1
0
1-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90Hanghatárhiba (ms)
9. ábra Az automatikus hanghatár-meghatározás pontossága BA-N1 esetben Az adaptációs beszédkorpusz esetén is megvizsgáltuk a hanghatárokat, hogy az automatikus módszer mennyire tér el a kézi javítástól. Az arányok hasonlóak voltak, mint a beszélfügg esetben, a hanganyag hossza miatt azonban a hibák száma jóval alacsonyabb. Az eredményeket a 7. és 8. ábra mutatja. A 2. táblázatban szerepl fonémák számát a 8. és 9. ábrákkal, illetve a 3. táblázatban feltüntetett fonémák számát a 10. és 11. ábrákkal összevetve megállapítható, hogy a beszédkorpuszban szinte az összes hanghatár módosítva lett kisebb (0,1–9 ms) és kicsit nagyobb (10–19 ms, 20–29 ms, 30– 39 ms, 40–49 ms) mértékben. A meghallgatásos teszt eredményei Kutatásunk célja a kialakult szövegfelolvasó rendszerek hangjának összehasonlítása volt annak a céljából, hogy megállapítsuk, hogy a kézi címkézés okoz-e minségbeli javulást beszélfügg és beszéladaptált esetekben. A meghallgatásos teszt eredményeit a 10. (els teszt) és a 11. ábra (második) mutatja. A 10. ábra bal oldalán jelöljük, hogy melyik rendszereket hasonlítjuk össze, a jobb oldalán pedig rendre ábrázoljuk a rendszerek összehasonlításának eredményeit (balról jobbra: az els sokkal jobb, mint a második; az els jobb, mint a második; ugyanolyan mindkét rendszer; a második jobb, mint az els; a második sokkal jobb, mint az els). Az eredmények alapján nem volt szignifikáns különbség egyik esetben sem a kézi és az automatikus címkézés között. A szignifikanciát egymintás t-próbával ellenriztük. Egyedül a férfi beszélvel tanított beszél függ rendszer esetén volt tapasztalható szignifikáns eltérés a kézi ellenrzés javára (legalsó sor). A meghallgatásos teszt második részében az eredeti beszél természetes bemondásaihoz kellett a tesztalanyoknak a mintákat hasonlítaniuk. Megfigyelhet, hogy a minség mindegyik rendszer esetén hasonló volt. Az eredményeket páronként megfigyelve (els-második, harmadik-negyedik, ötödikhatodik, hetedik-nyolcadik oszlop) láthatjuk, hogy a természetes bemondás-
292
Tóth Bálint – Németh Géza – Olaszy Gábor
hoz képest sem volt szignifikáns eltérés a kézi és automatikus módszerek között. A szignifikanciát a várható értékre vonatkozó kétmintás párosított tpróbával ellenriztük. A beszéladaptált ni hang esetén a kézi ellenrzés minimálisan rosszabb pontokat kapott, mint az automatikus módszer. Ez a nem várt eredmény a mérést terhel zajból származhat, nagyobb számú tesztalany esetén ez a különbség vélhetleg megsznne. 0%
20%
40%
60%
80%
100%
BF-F1-kézi és BF-F1-auto BF-N1-kézi és BF-N1-auto BA-F1-kézi és BA-F1-auto BA-N1-kézi és BA-N1-auto Kézi sokkal jobb
Kézi jobb
Ugyanolyan
Auto jobb
Auto sokkal jobb
10. ábra A meghallgatásos teszt els részének eredményei: páros összehasonlítás a különböz gépi rendszerek között
Pontszám
5,00 4,00 3,00 2,00 1,00 BF-F1- BF-F1- BF-N1- BF-N1- BA-F1- BA-F1- BA-N1- BA-N1kézi auto kézi auto kézi auto kézi auto
11. ábra A meghallgatásos teszt második részének eredményei: páros összehasonlítás a gépi rendszerek és az eredeti beszél között Következtetések Az eredmények alapján egyedül egy esetben okozott szignifikáns minségjavulást a kézi ellenrzés az automatikussal szemben (BF-F1), azonban a meghallgatásos teszt második része során ugyanebben az esetben már nem volt észlelhet szignifikáns minségbeli különbség. Ez azzal magyarázható,
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 293 hogy a teszt els részében összehasonlítást végeztünk két rendszer között (relatív minsítés), ami a kis eltéréseket is jelentsen fel tudja nagyítani. A teszt második felében a rendszereket külön-külön vizsgáltuk meg (abszolút minsítés), és az így kapott eredményeket hasonlítottuk össze, és ekkor már nem mutatkozott BF-F1 esetén sem szignifikáns különbség. Az összes többi esetben (BA-F1, BF-N1, BA-N1) a kézi hanghatárjelölés és kézi fonemikus átirat nem okozott szignifikáns javulást a jelenlegi magyar nyelven mköd rejtett Markov-modell alapú szövegfelolvasó rendszerben. Ezt azzal lehet magyarázni, hogy a rejtett Markov-modell alapú szövegfelolvasó generatív modelleket épít a tanító beszédkorpuszból. A beszédkorpuszban szerepl fonémák nagyszámú elfordulásának köszönheten az automatikus eljárások által a rendszerben jelenlév hibák a statisztikai módszerek hatására kiátlagolódnak, és így nem okoznak észlelhet minségromlást a végs rendszerekben. A cikkben bemutatott eredmények alapján kiderül, hogy jelenleg nem feltétlen a címkézés és a fonemikus átirat pontossága határozza meg a jó hangminséget HMM-alapú gépi beszédkeltés esetén. Elképzelhet, hogy más, minséget befolyásoló tényezk (pl. hangsúlyok pontos meghatározása) javítása után a fonemikus átirat és hanghatárcímkék pontossága is már szignifikáns mértékben fogja befolyásolni a gépi beszéd minségét. Az eredmények alapján fontos vizsgálni, hogy mi az a hibahatár, ami már jelents minségromlást okoz beszélfügg és beszéladaptált esetben. Amennyiben a generatív modellek nagyobb hibák esetén is még megfelel minséget képesek produkálni, lehetséges lehet automatikus beszédfelismer és kényszerített felismerés alapján felügyelet nélküli tanítás és beszéladaptáció (Tóth–Németh 2011). A HMM-alapú szövegfelolvasók minségével a korpuszalapú elem-összefzéses rendszerek minsége összemérhet, ezért fontos az alkalmazott módszerek elvi lehetségét mindkét eljárás esetén megvizsgálni. A korpuszalapú elem-összefzéses szövegfelolvasó rendszerek esetén fontos szerepet játszik a gépi beszéd minségében a pontos fonemikus átirat és a pontos hanghatárjelölés. Az automatikus módszerekbl ered hibák az elemkiválasztás és -összefzés során hibákat visznek be a rendszerbe, és így elkerülhetetlen, hogy amennyiben a felolvasandó szöveg a hibásan megjelölt elemek közül választ, az rosszabb minség gépi beszédet okoz. Összefoglalás Jelen cikkünkben bemutattuk a rejtett Markov-modell alapú felolvasás alapjait, és röviden ismertettük a beszélfügg rendszer és a beszéladaptáció legfontosabb lépéseit. A kutatás keretein belül beszédkorpuszokat készítettünk a rejtett Markov-modell alapú szövegfelolvasó rendszerek tanításához. Elkészítettük a korpuszok automatikus címkézését, majd annak kézi ellenrzés alapú javítását a fonemikus átiratra és a hanghatárokra vonatkozóan. Statisztikát készítettünk az automatikus eljárásokat összevetve a kézi címkézés-
294
Tóth Bálint – Németh Géza – Olaszy Gábor
sel, és nyolc különböz HMM-adatbázist hoztunk létre. Ezek alapján meghallgatásos tesztet terveztünk annak érdekében, hogy megállapítsuk, hogy okoz-e szignifikáns minségjavulást a kézi fonemikus átirat és kézi hanghatárjelölés az automatikus módszerekkel szemben. Eredményeink megmutatták, hogy a magyar nyelv rejtett Markov-modell alapú szövegfelolvasó rendszerekben a kézi fonemikus átirat és hanghatárjelölés nem okoz szignifikáns minségjavulást. Ezen eredményekre támaszkodva a jövben a nagy mennyiség kézi címkézés helyett használhatunk automatikus módszereket, illetve további kutatási célunk a beszédkorpusz pontossága és a HMM-alapú gépi beszéd minsége közötti összefüggések vizsgálata. Irodalom Black, Alan – Lenzo, Kevin 2000. Limited domain synthesis. In: Proceedings of ICSLP. 411–414. Black, Alan – Zen, Heiga – Tokuda, Keiichi 2007. Statistical parametric speech synthesis. In: Proceedings of ICASSP. 1229–1232. Hunt, Andrew – Black, Alan 1996. Unit selection in a concatenative speech synthesis system using a large speech database. In: Proceedings of ICASSP. 373–376. Isogai, Juri – Yamagishi, Junichi – Kobayashi, Takao 2005. Model adaptation and adaptive training using ESAT algorithm for HMM-based speech synthesis. In: Proceedings of EUROSPEECH. 2597–2600. Kiss Gábor – Olaszy Gábor 1982. Interaktív beszédszintetizáló rendszer számítógéppel és OVE III beszédszintetizátorral. Magyar Fonetikai Füzetek 10. 21–45. Klatt, Dennis H. – Klatt, Laura C. 1990. Analysis, synthesis, and perception of voice quality variations among female and male talkers. Journal of the Acoustical Society of America 87/2. 820–857. Mermelstein, Paul 1973. Articulatory model for the study of speech production. Journal of the Acoustical Society of America 53. 1070–1082. Möbius, Bernd 2000. Corpus-based speech synthesis: Methods and challenges. Speech and Signals - Aspects of Speech Synthesis and Automatic Speech Recognition 79–96. Moulines, Eric – Charpentier, Francis 1990. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communications 9. 453–467. Németh Géza – Olaszy Gábor – Fék Márk 2006. Új rendszer, korpusz alapú gépi szövegfelolvasó fejlesztése és kísérleti eredményei. Beszédkutatás 2006. 183–196. Nikléczy, Péter – Olaszy, Gábor 2004. Kempelen’s speaking machine from 1791: Possibilities and limitations. (Recovering a 200 year-old technology.) Grazer linguistische Studien 62. 111–120. Ogata, Katsumi – Tachibana, Makoto – Yamagishi, Junichi – Kobayashi, Takao 2006. Acoustic model training based on linear transformation and MAP modification for HSMM-based speech synthesis. In: Proceedings of ICSLP. 1328–1331. Olaszy, Gábor. 1984. A phonetically based data and rule system for the real time textto-speech synthesis of Hungarian. In: Proceedings of the Xth International Congress of Phonetic Sciences. Volume 2. 243–246.
Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell… 295 Olaszy, Gábor – Németh, Géza – Olaszi, Péter – Kiss, Géza – Zainkó, Csaba – Gordos, Géza 2000. Profivox – a Hungarian TTS System for telecommunications applications. International Journal of Speech Technology 3–4. 201–215. van Santen, Jan P. H. 1993. Perceptual experiments for diagnostic testing of text-tospeech systems. Computer Speech and Language 7. 49–100. Tamura, Masatsune – Masuko, Takashi – Tokuda, Keiichi – Kobayashi, Takao 1998. Speaker adaptation for HMM-based speech synthesis system using MLLR. In: Proceedings of ESCA/COCOSDA Workshop on Speech Synthesis. 273–276. Tokuda, Keiichi – Masuko, Takashi – Miyazaki, Noboru – Kobayashi, Takao 1999. Hidden markov models based on multi-space probability distribution for pitch pattern modeling. In: Proceedings of ICASSP-99. 229–232. Tóth, Bálint – Németh, Géza 2010. Improvements of Hungarian hidden Markov model-based Text-to-Speech synthesis. Acta Cybernetica 19/4. 715–731. Tóth, Bálint – Németh, Géza 2011. The effects of phoneme errors in speaker adaptation for HMM speech synthesis. In: 12th Annual Conference of the International Speech Communication Association. 2805–2808. Vicsi Klára – Kocsor András – Teleki Csaba – Tóth László 2004. Beszédadatbázis irodai számítógép-felhasználói környezetben. In: Second Conference on Hungarian Computational Linguistics (MSZNY 2004). 315–318. Yamagishi, Junichi – Kobayashi, Takao – Nakano, Yuji – Ogata, Katsumi – Isogai, Juri 2009. Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm. IEEE Audio, Speech, & Language Processing 17/1. 66–83. Yamagishi, Junichi – Kobayashi, Takao – Renals, Steve – King, Simon – Zen, Heiga – Toda, Tomoki – Tokuda, Keiichi 2007. Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV. In: Proceedings of ISCA SSW6. 125–130. Yamagishi, Junichi – Kobayashi, Takao 2007. Average-voice-based speech synthesis using HSMM-based speaker adaptation and adaptive training. In: IEICE Transactions on Inf. & Syst. E90-D/2. 533–543. Yoshimura, Takayoshi – Tokuda, Keiichi – Masuko, Takashi – Kobayashi, Takao – Kitamura, Tadashi 1999. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis. In: Proceedings of Eurospeech. 2347–2350. Young, Steve – Evermann, Gunnar – Gales, Mark – Hain, Thomas – Kershaw, Dan – Liu, Xunying – Moore, Gareth – Odell, Julian – Ollason, Dave – Povey, Dan – Valtchev, Valtcho – Woodland, Phil 2006. The HTK Book, Version 3.4. 289–292. Zen, Heiga – Nose, Takashi – Yamagishi, Junichi – Sako, Shinji – Masuko, Takashi – Black, Alan – Tokuda, Keiichi 2007. The HMM-based speech synthesis system version 2.0. In: Proceedings of ISCA SSW6. 294–299. A kutatást a BelAmi: ALAP2-00004/2005, a TÁMOP-4.2.2-08/1/KMR-2008-0007, a TÁMOP-4.2.1/B-09/1/KMR-2010-0002 és CESAR (No271022) projektek támogatták.