Szolgáltatásbővítés gépi beszédfeldolgozással* D R . GORDOS G É Z A Rudapesti Műszaki Egyetem H í r a d á s t e c h n i k a i Elektronika I n t é z e t
ÖSSZEFOGLALÁS A beszéddel kapcsolatos emberi funkciók— a beszélés, megértés és beszélőfelismerés — gépi megvalósításának elvi alapjait a telefónia vetette meg az érthetőségvizsgálatok, a PCM és a vokóder korai meg alkotásával. Elsősorban a mikroelektronika megvalósító erejétől tá mogatva a gépi beszédfeldolgozás szárba szökkent és most viszonoz: új szolgáltatásokat kínál a telefóniának és az egész távközlésnek. E szolgáltatások egyik csoportja a hagyományos szolgáltatásokon belül jelentkezik. Ilyen az előfizetőt szóban tájékoztató vagy útba igazító telefonközpont. A szolgáltatások másik csoportja merőben ú j , amit a beszédválaszú, vagy a beszéddel kérdezhető adatbázisok, helyfoglaló rendszerek példáznak. A dolgozat a szolgáltatások áttekintése után a legelterjedtebb beszéd feldolgozási ág: a beszédszintézis általános módszereit tárgyalja. Ezután néhány eredeti hazai beszédszintézis technológiát ismertet, majd ezek eredményeit összehasonlítja a világszínvonallal. Végül be mutatásra kerül az, hogy a beszédszintézis módszerei miként vezet hetnek beszédmegértéshez.
1. Bevezetés A távközlés fejlődése k é t alapvető i r á n y b a n zajlik. Az egyik a m á r meglevő szolgálatok tökéletesítését, olcsóbbá és m e g b í z h a t ó b b á tételét szolgálja. Ebbe az i r á n y b a olyan hatalmas jelentőségű fejlesztések es nek, mint a t á r o l t programvezérlés vagy a digitális eljárások elterjedése a kapcsolástechnikában, a fény távközlés az á t v i t e l t e c h n i k á b a n , vagy a szolgálatok integrálódása. A távközlés fejlődésének másik iránya az előfizetőnek n y ú j t o t t szolgáltatások bővítése. Ez megjelenhet teljesen új szolgálatok létrejöttében — amit az a d a t á t v i t e l i szolgálat bevezetése példáz. De megjelenhet a m á r meglevő szolgálatok új vagy fej lettebb szolgáltatásainak formájában is. A t á v beszélő szolgálat erre a hívásátirányítás szolgáltatá sával, az a d a t á t v i t e l i szolgálat pedig az operátori kísérő hang átvitelének szolgáltatásával mutat pél dát. A gépi beszédfeldolgozás leglátványosabban egy sereg új szolgáltatásra és emellett sok régebbi szol g á l t a t á s minőségjavítására kínál lehetőséget. K e v é s bé l á t v á n y o s , de nagy jelentőségű az, ahogy a gépi beszédfeldolgozás a m á r ma is m ű k ö d ő szolgáltatások h a t é k o n y s á g á t növelni tudja. Elöljáróban le kell szögezni, hogy a lehetőségek k i a k n á z á s a világszerte r o h a m l é p t e k k e l halad előre, és szerény eredmények m á r h a z á n k b a n is mutatkoznak.
2. A gépi beszédfeldolgozás fogalma A gépi beszédfeldolgozáson első közelítésben az em beri beszédfunkciók mesterséges megvalósítását, i l letve azok gépi ú t o n t ö r t é n ő u t á n z á s á t értjük. A foga* ÖÉiangzott a Magyar Tudományos Akadémia 1984. november 1-i tudományos ülésszakán.
512
DR. GORDOS
GÉZA
1937-ben született, 1960ban villamosmérnöki, 1966-ban egyetemi dokto ri, 1977-ben kandidátusi oklevelet szerzett. Fő munkahelye 1960-tól a BME Híradástechnikai Elektronika Intézete, ül. annak jogelődje, ahol je lenleg az átvitel- és rend szertechnika osztályt ve
zeti. 1964 és 1972 között a Posta Kísérleti Intézet ben, 1972-ben UNESCOszakértőként Görögország ban, 1974/75-ben vendég professzorként Angliában dolgozott. Fő érdeklődési területe a fém- és fény vezetős digitális átvitel, adatátvitel, valamint a gépi beszédszintézis és be szédfelismerés.
lom pontosabb értelmezéséhez a természetes beszéd láncon [1] keresztül j u t h a t u n k el. A természetes be szédlánc az emberi beszélőből, a beszélő által keltett levegőrezgéseket á t v i v ő akusztikus térből s az em beri felfogóból áll. Ezen természetes beszédlánc egy vagy t ö b b elemének mesterséges megvalósítását ne vezzük gépi beszédfeldolgozásnak. A gépi beszédfeldolgozás nem új keletű. Első hite les [2, 3] és sikeres megjelenése Kempelen Farkas nevéhez fűződik, a k i 1791-ben egy erősen korlátozott képességű „beszélő g é p " megalkotásáról számolt be. A t á r s a d a l o m b a n széles k ö r b e n először a természetes beszédlánc második elemének — a szájtól fülig ter jedő akusztikus térnek — a mesterséges megvalósítá sa terjedt el, mégpedig egyrészt a térbeli távolságot legyőző távbeszélő átvitel és rádiózás, másrészt az időbeli távolságot legyőző hangrögzítés formájában. Igaz, hogy e technikák a beszédet minden feldolgo zási ponton analóg m ó d o n kezelték, amit — e tekin tetben é r t e t t egyszerűsége m i a t t — ma nem tekin t ü n k beszédfeldolgozásnak, a ma is fajsúlyosnak ítélt feladatok megoldásának n é h á n y sarkkövét mégis e technikák m u n k á l t á k k i . A korai telefónia (Fletcher, [4]) m u n k á l t a k i az objektív paraméterek (sávszéles ség, jel-zaj viszony stb.) és a szubjektív paraméterek (érthetőség, hanghűség) k ö z ö t t i kapcsolatokat, és vetette ezzel meg a percepciós vizsgálatok máig is legfontosabb alapjait. Jelentőségében ezzel összemérhető Reeves p u l z u s kód—modulációs szabadalma [5]. Ez volt az első lépés a híradás- és számítástechnika eljárásait és módszereit ötvöző digitális jelfeldolgozás felé. Az el sőt újabbak k ö v e t t é k : a vocoder (Dudley, [6]) és a beszédszüneteket de te ktá ló és kihasználó T A S I rendszer m á r a magasabb emberi beszédfunkciókat valósítják meg elektronikus eszközökkel, és így a mai modern, digitális e l e k t r o n i k á n alapuló gépi be szédfeldolgozás közvetlen előfutárainak tekinthe tők. Híradástechnika
XXXV.
évfolyam 1984. 11. szám
3. A gépi beszédfeldolgozás osztályozása Ma a gépi beszédfeldolgozás igen sok ágra bomlik, és a gyors fejlődés az egyértelmű osztályozást nehéz zé teszi. Mindazonáltal n é h á n y ág értelmezése egysé gesnek t e k i n t h e t ő . 3.1. Beszédtömörítésen olyan kódolást és dekódo lást é r t ü n k , amely h a t é k o n y a b b a h a g y o m á n y o s PCM-nél, t e h á t 1 sec-nyi a k t í v beszéd átvitelét, illetve rögzítését 64 kbit-nél kevesebb ráfordítással oldja meg. Ezt az i r á n y t ma egyebek között a CCITT is erő sen kutatja. 3.2. A beszéddetekció a beszéd jelenlétét indikálja. A T A S I rendszer, i l l . az I N T E L S A T ezt az átviteli utak jobb kihasználására a SPADE és I N T E L C S A T rendszer pedig az i n a k t í v csatorna a d ó j á n a k kikap csolására használja fel. Igen nehéz a zajos ipari kör nyezetben m ű k ö d ő beszéd jelenlétének detektálása [8], amire beszédfelismerő rendszerek automatikus indí tásánál, illetve kikapcsolásánál van egyebek k ö z ö t t szükség. 3.3. A beszédszintézis fogalma ö n m a g á t m a g y a r á z za. Ma ez a gépi beszédfeldolgozás legszélesebb kör ben alkalmazott ága, ezért az a l á b b i a k b a n ennek fog j u k a legtöbb figyelmet szentelni. 3.4. Beszédmegértés az elhangzott beszéd jelentés t a r t a l m á n a k gépi felfogása. A felfogás eredménye első fokon a j e l e n t é s t a r t a l o m n a k megfelelő a k c i ó : például egy parancs végrehajtása. Egy k ö v e t k e z ő fokozat — és valójában az elsőnek nyelvészeti jellegű továbbfejlesztése — a jelentéstartalom betűképének helyesírás szerinti megjelenítése. A beszédmegértés ( k o r á b b a n beszédfelismerésnek nevezték) a beszéd szintézisnél lényegesen bonyolultabb feladat. Bo nyolultsága végső soron abból fakad, hogy az em beri beszédmegértés fiziológiai és idegi folyamatai nemcsak hogy kevésbé ismertek a beszédképzés folya m a t a i n á l , de lényegében sok ponton még feltáratla nok. Megoldás mégis van, s ez értelmezésünk szerint [9] a beszédszintézis felől, mégpedig törvényszerűen onnan bontakozik k i . N y i l v á n v a l ó ugyanis, hogy a beszélő szervek folyamatait a mondanivaló h a t á r o z z a meg, s a beszédmegértés célja éppen e m o n d a n i v a l ó megállapítása. Ha t e h á t a hanghullámból sikerül visszakövetkeztetni a beszélő szervek folyamataira — ami a beszédszintézis inverz feladata — akkor közelebb j u t o t t u n k magához a mondanivalóhoz. A cikk végén vázoljuk majd ezen elv egyik megvalósítá sát. Annak dacára, hogy a beszédmegértés még messze van a tökéletestől, sikeres fejlődés k é t irány ban is t a p a s z t a l h a t ó . Az egyik irány kevés (30...60) izoláltan kiejtett szót b á r k i n e k a kiejtésében nagy valószínűséggel felismerő eszközökhöz vezetett az ezer dollárok nagyságrendjébe eső áron. A másik irány készüléke igen sok (mintegy 1000) szót ismer fel folytonos kiejtésben is, á m a szöveget csak né h á n y (2...5) személytől fogadja el, akikhez a gépet egy tanulási folyamattal „ h o z z á kell szoktatni". Az eszközök ára a tízezer dollárok nagyságrendjében van. Az 1. á b r á n bemutatott diagramunk t a l á n jól érzékelteti a jelen helyzetet. T ö b b helyen k i p r ó b á l t a k m á r mesterséges gépírókat is, s ha azok t é m á k r a sza kosodnak (szókincs!), akkor az eredmények bizta tóak. 3.5. Nemcsak a kriminalisztika, hanem egyre in Híradástechnika
XXXV.
évfolyam 1984. 11. szám
k á b b a pénzügyi t r a n z a k c i ó k a t , információ szolgál t a t á s o k a t stb. kísérő személyazonosítás is jó h a s z n á t veszi a hang alapján t ö r t é n ő gépi beszélő személy azonosításának és felismerésének. Az eljárás automa tikus — szemben p l . az ujjlenyomat-vizsgálattal, — és megbízhatósága lényegesen felülmúlja az aláírás alapján t ö r t é n ő azonosítást, a k á r ember, a k á r gép végzi az u t ó b b i t . 3.6. A digitális beszédfeldolgozás kis m é r e t ű k é szülékekkel gyakorlatilag megfejthetetlen beszédtitkosítást tesz lehetővé. 3.7. I t t csak megemlítjük, hogy a gépi beszédfel dolgozást sikerrel a l k a l m a z z á k beszéd-manipulálásra, igen sok orvosdiagnosztikai célra és a beszédkészség ja vítására stb. 4. Gépi beszédfeldolgozás a távközlésben A gépi beszédfeldolgozás mai lehetőségeinek fenti felsorolása u t á n a távközlési alkalmazások szinte m a g á t ó l értetődőek. A távbeszélő-szolgálat h a g y o m á n y o s szolgáltatása a speciális hívószámokon elérhető t á j é k o z t a t á s (pon tos idő, időjárás stb.), illetve mese. Ha i t t a magneto fon szerepét beszédszintetizátor veszi á t , a szolgálta t á s megbízhatósága és a szöveg szerkeszthetősége óriásit j a v u l . A kis méretek, a mikroelektronizáltság, a szöveg k ö n n y ű — a k á r k ö z p o n t i processzorból, automatiku san t ö r t é n ő — szerkeszthetősége a beszédszintetizá torokat kiválóan alkalmassá teszik arra, hogy t á v beszélő központok előfizetőiket élőszóban tájékoztas sák. Az előfizető és a távbeszélő-szolgálat k ö z ö t t i k o m m u n i k á c i ó leglényegesebb gátja ma az, hogy az előfizetők tömegei nem t u d j á k helyesen értelmezni a túl sokféle jelzőhangot. A manuális üzemről auto m a t á r a t ö r t é n ő áttérés egyetlen h á t r á n y á n — az elszemélytelenő előfizető/szolgálat kapcsolaton — a beszédszintézis m á r ma, a beszédmegértés pedig a közeljövőben segíthet. A számítástechnika és távközlés szimbiózisának egyik legnagyobb jelentőségű fejleménye az, hogy nagy tömegek is hozzáférhetnek adat- és információs bázisokhoz. A tömeges elterjedésnek azonban feltétele
30 —I
1000 ; 1 • F E L I S M E R E N D Ő SZAVAK S Z Á M A
H6^n 1. ábra. A gépi beszédmegértés tipikus teljesítőképes sége 1984-ben. l s n ^ l O
513
az, hogy az előfizetői terminál valóban olcsó legyen. A terminál input és output funkciókkal rendelkezik, melyek közül az output (képernyő, n y o m t a t ó stb.) a d r á g á b b . Ezt a d r á g á b b funkciót a beszédszintézis meg tudja t a k a r í t a n i , amennyiben az a d a t b á z i s a hozzá érkezett kérdésre a választ beszédszintézis útján a távbeszélő vonalon keresztül adja meg. és azt az előfizető a kézibeszélő hallgatóján keresztül veszi. A m ű s z a k i lehetőségek ennek a beszédválaszú szol g á l t a t á s n a k a bevezetéséhez teljességgel adottak. Az előfizetői terminál input szerepét i t t vagy maga a választómű (számtárcsa, billentyűzet), vagy egy né h á n y ezer forintos k l a v i a t ú r a szolgálhatja. Ahhoz, hogy a távbeszélő készülék mindenfajta kiegészítés nélkül legyen alkalmas információs bázi sok i n t e r a k t í v lekérdezésére, az információs bázist k i kell egészíteni beszédmegértő egységgel. Temati k á b a n k o r l á t o z o t t információs bázisok (pl. helyjegy foglalás vagy m ű s o r t u d a k o z ő d á s ) esetén ez m á r ma elérhető. T ö b b jel mutat arra, hogy a beszéd titkosításának is opcionális' távbeszélő-technikai szolgáltatássá kell majd válnia. A fentiekben arra m u t a t t u n k példát, hogy a gépi beszédfeldolgozás hogyan jelenhet meg az előfizetők felé. A távközlés belső m e c h a n i z m u s á n a k tökéletesí tésében, h a t é k o n y a b b á tételében — leginkább az á t viteli utak jobb kihasználásában — a gépi beszédfel dolgozás ugyancsak sokrétű alkalmazást nyer.
5. Ember—gép kapcsolatok
A szervező értelmezi a felhasználói parancsot, és vezérli a szintetizátort. A „szöveget beszéddé alakí t ó " ún. text-to-speech converter-eknek a k i m o n d a n d ó közlemény betű/írásjel kódját kell megadni. A szer vező — á l t a l á b a n egy 20...100 kbyte-os program — ebből megszerkeszti a megfelelő hang- vagy diád alapelemek sorozatát, ezt módosítja az írásjelnek megfelelő szupraszegmentális szerkezettel (hangma gasság-, ritmus- és intenzitásvariációk), és elindítja a k i m o n d á s t . Ilyen programot ma még csak egy adott nyelvre tudnak készíteni, de ezen a nyelven tetszőle ges szöveg megszólaltatható. A szöveg érthetősége és természetessége nagyban függ az éppen használt alapelemek számától és milyenségétől. Ezt az magya rázza, hogy az élő nyelvben egyazon nyelvi egység (pl. az „ a j " diád) a szövegkörnyezettől függően vég telen változatossággal jelenik meg. Ma m á r léteznek olyan text-to-speech szervezők, amelyek 300...600 alapelemet (a legsikeresebb text-to-speech converterekben: diádot) is tudnak kezelni. Hogy pontosan mik legyenek az alapelemek, azt még minden nyelv nél k u t a t j á k . A ma elért érthetőség 85%. a természe tesség pedig 60% körül van. Ahol a 100% érthetőség a követelmény, ott az alap elemek szavak vagy rövid kifejezések. Tekintve, hogy minden t á r véges, az ilyen szintetizátorok kötött szótárnak. H a azonban arra gondolunk, hogy egy p á l y a u d v a r i közönségtájékoztatás 50...150 szóval, és az ezek összefűzésével k é p e z h e t ő t ö b b ezer értel mes szófüzérrel tökéletesen megoldható, megértjük, hogy miért terjednek az ilyen szintetizátorok. Belát hatjuk, hogy ez a „ k ö t ö t t s é g " nem is nagy ár a
Az ember h a g y o m á n y o s a n „ k e z é v e l " kezeli a gépet, és a szemével figyeli és leolvassa a gép közlendőit. Az ember—gép kapcsolatok h a g y o m á n y o s formái k ö z ö t t a gépek akusztikus jelzései elhanyagolható jelentőségűek. A gépi beszédfeldolgozás egészen új t á v l a t o k a t n y i t ezen a területen. A beszéd az ember legtermészete sebb, legkevésbé fárasztó k o m m u n i k á c i ó s módja. Beszédkapcsolatnál nem kell kéztávolságon belül t a r t ó z k o d n i , nem kell megfelelő „látószögben" el helyezkedni, és a fül sokkal alkalmasabb a szimultán figyelésre, mint a szem. Mindezekért az ember—gép kapcsolatokban a beszéd egyre fokozódó szerephez j u t , és ez alól a világ talán legkomplexebb gépezete, a távközlés sem kivétel.
SZINTETIZÁTOR
DEKÓDOLÓ
= 0
ALAPELEMTAR
I
ALAPELEM. TÁR
6. A beszédszintézis általános elvei A gépi beszédfeldolgozás legfejlettebb, mindenfajta alkalmazásra kész ága a beszédszintézis. A beszédszintetizáló rendszerek k é t elemből t e v ő d nek össze a 2. á b r a szerint: a beszédszintetizátorból és a szövegelőkészítő rendszerből. Összefüggésükre később mutatunk r á . A beszédszintetizátorok á l t a l á b a n egy alapelemtárat, egy dekódolót és egy szervezőt tartalmaznak. Az alapelemtár elemei nyelvi egységek. A szinteti zátorok bizonyos t í p u s á b a n az alapelemek hangok (pl. „ a " ) , m á s t í p u s b a n k e t t ő s hangok (diádok, p l . „ a j " ) , megint m á s típusnál szavak vagy egész kifeje zések (pl. „ a j t ó " vagy „ a z ajtó záródik").
514
"»C|(i)
SZOVEGELOKESZITO (KÓDOLÓ)
ALAPELEM TAR
RENDSZER
ÍH5-J
2. ábra. Beszédszintetizáló rendszer i : Automatikus szövegelőkészítés i i : Interaktív szövegeíőkészítés Híradástechnika
XXXV.
évfolyam 1984. 11. szám
100% érthetőségért és 95% feletti természetességért. A k ö t ö t t szótáras szintetizátoroknál egy-egy közle ményre annak szám-, r i t k á b b a n közönséges írás sze r i n t i betűkódjával kell hivatkozni. A szervező ezt ér telmezi, ilyenekből füzéreket képez, és azon szer keszt: kihagy, beszúr, kicserél. A szervező program r i t k á n nagyobb 2 k b y t e - n á l . A k ö t ö t t szótáras szin tetizátorok alapelemtárai cserélhetők, b ő v í t h e t ő k . Nincs a k a d á l y a annak sem, hogy a különböző alap elemek különböző nyelvhez tartozzanak. Sőt, a k ö t ö t t szótáras beszédszintézis á r n y a l a t o k a t is k i t u d fejezni. ( Á r n y a l a t o n a kiejtés írásban nem rögzíthető variációit értjük.) Léteznek olyan szintetizátorok is, amelyek hang és/vagy diád típusú alapelemeket tartalmaznak, és k ö t ö t t szótárasak. I t t egy közlemény k i m o n d á s i parancsának megérkezésekor a szervező kikeresi az alapelemek ezen közleményhez előre összeállított sorozatát, és elindítja a k i m o n d á s t . Ezek a szinteti zátorok hangminőség t e k i n t e t é b e n alig jobbak a text-to-speech convertereknél. Még nem esett szó a dekódolókról. M i n t l á t t u k , bár milyen típusú is a szintetizátor, szüksége van egy alapelemtárra. R e n d k í v ü l i esetektől eltekintve az alapelemek együttesen 30.. .60 sec-nyi vagy még t ö b b beszédet képviselnek. Ennek h a g y o m á n y o s PCM típusú őrzéséhez 2...4 Mbyte-os vagy m é g nagyobb tároló kellene. E z t elkerülendő, az alapelemek az általános célú szintetizátorokban t ö m ö r formában vannak kódolva. A dekódoló egy olyan aritmetika, amely a tömör, 1000...4000 bit/sec jelfolyamból a fül számára élvezhető 64 000 bit/sec beszédhullámot lét rehozza. Megjegyezzük, hogy a kereskedelem — az ön m a g á b a n életképtelen — dekódolót szokta „beszéd s z i n t e t i z á t o r a k é n t emlegetni. Fentiek u t á n m á r nyilvánvaló a szövegelőkészítő rendszer szerepe: ez hozza létre a t ö m ö r formában k ó d o l t alapelemtárat. Text-to-speech rendszereknél az alapelemtár egyszer s mindenkor adott, i t t t e h á t a szövegelőkészítésnek nincs folytonos szerepe. K ö t ö t t szótáras rendszerekben azonban a szótár bővítése csak a szövegelőkészítés közbejöttével végezhető. 7. Tömörítési filozófiák és eljárások 7.1. A tömörítés
minősítése
M i n t l á t t u k a beszédszintézis kulcskérdése a t ö m ö rítés. Ugyanakkor az á t v i t e l t e c h n i k a is sokat foglal kozik a beszéd 64 k b i t / s - n á l lassúbb, de kiváló minő séget biztosító átvitelével. A beszéd digitalizálása a digitális hangrögzítésnek is feladata. Egységes k é p ben szemlélhetjük e t e c h n i k á k a t , ha a beszéd-digita lizálás jóságát az M=c -H+c -V 1
2
+ c -K 3
(1)
összefüggéssel értelmezett [9] M s z á m kicsinységével m é r j ü k . I t t H az eredeti és a kódolás —dekódolás folyamata u t á n visszaállított jelek k ö z ö t t i eltérés emberi megítélést t ü k r ö z ő mérőszáma, V az idő egységnyi eredeti üzenet megadásához szükséges kódolás u t á n i bit-szám, K pedig a kódoló és dekódoló bonyolultságának olyan mérőszáma, amely azt is tükrözi, hogy real-time megoldás létezik-e vagy sem. Híradástechnika
XXXV.
évfolyam 1984. 11. szám
A c c és c súlyozó tényezők az alkalmazástól füg genek. A digitális hangrögzítés nagyon szigorú H-ná\, míg „ e n g e d é k e n y " V és K területén, b á r K-nál meg követeli a real-time m ű k ö d é s t . A telefónia közepesen szigorú i í - n á l , de kicsi, olcsó, real-time kódolót és dekódolót követelvén szigorú K - v a l szemben, s V így 64 kbit/sec körülire adódik. A beszédszintézis valamivel e n y h é b b H t e k i n t e t é b e n , de — szótártól függően — e s e t e n k é n t 3 kbit/sec alatti V - t követel, ezért K-ban k é n y t e l e n engedni: a kódoló legtöbbször nem alkalmas real-time működésre, és a real-time de kódoló is t ö b b mikroprocesszor bonyolultságú esz köz. v
2
:i
7.2. PCM alapú és fázisrendező
eljárások
Térjünk ezek u t á n rá a beszédszintézisben alkalma zott tömörítési (kódoló/dekódoló) eljárásokra. Csak igen kis a l a p e l e m t á r ú szintetizátor rendszerek elé gedhetnek meg a PCM, vagy annak rokonai, a DM, DPCM, ADPCM által n y ú j t o t t , a 20 kbit/sec alá j u t ni nem t u d ó tömörséggel. Még a Digitalker-ben [10] alkalmazott fázisrendezéses eljárás ([1]) által nyersen biztosított 16 kbit/sec sem bizonyul legtöbbször elég tömörnek. 7.3.
Formánsszintézis
E z é r t a 60-as é v e k b e n mind jobban a formánskódolásra terelődött a figyelem. I t t abból indulnak k i , hogy a legtöbb nyelven m á r elég m e g b í z h a t ó adatok állnak rendelkezésre az egyes hangok és h a n g á t m e n e tek akusztikai szerkezetéről: i d ő t a r t a m á r ó l , relatív s p e k t r u m á r ó l és intenzitásáról. A z t is megfigyelték, hogy a hangmagassággal rendelkező hangok spektru ma t ö b b é ( m a g á n h a n g z ó k ) — kevésbé (felpattanó zöngés hangok) vonalas, míg a többieké folytonos. Előbbieket t e h á t egy periodikus, u t ó b b i a k a t egy zajgenerátor által t á p l á l t , a hang s p e k t r u m á n a k meg felelően beállított szűrővel létre lehet hozni. H a m á sik hangot akarunk kelteni, á t kell „ h a n g o l n u n k " a szűrőt, és a megfelelő gerjesztést kell alkalmazni. A 3. á b r á n l á t h a t ó , vezérelhető szűrőt t a r t a l m a z ó el rendezés t e h á t egy beszédszintetizátor. A kódolást egy fonetikai ismeretekkel rendelkező személy végzi. Mivel egy-egy hang vagy á t m e n e t 8.. .200 msec idő t a r t a m ú , és ezalatt a g e n e r á t o r t és szűrőt 10...12 adat á 2.. .6 bittel h a t á r o z z a meg, a formánsszintézis tömörsége szövegtől függően 600...2000 bit/sec. Ez, és az a t é n y , hogy 1982-ben egy mikroelektronizált formáns szintetizátor [11] jelent meg a piacon, az
J
A L A P E L E M - TAR
I m p . gei
n
,_J~~\
_
r
^
zöngés n
_
I z a j g e n . I—' I 1 zör zöngétlen
3. ábra. Formánsszintetizátor (az „ A " átvivő rendszer formánsszűrő) és LPC/PARCOR szintetizátor (az „ A " átvivő rendszer az 5. és 6. ábra szerinti) felépítése. e(n): normalizált gerjesztés (1. a szöveget)
515
a l k a l m a z á s o k a t erősen motiválja. U t ó b b i magyar nyelvi felhasználására is m e g t ö r t é n t e k m á r az első lépések [12], melyek a közeljövő MINIVOX rend szerét ígérik. Mindeme sikerek mellett l á t n u n k kell, hogy a formánskódolás átlagos nyelvi megfigyelésekre t á m a s z kodik. E z é r t a hangzás „személytelen", nem 100%osan természetes, sőt, csak a legképzettebb kódoló személyek t u d j á k meghaladni a 95%-os érthetőséget. A formánskódolás klasszikus eljárása t e h á t nem a kódolandó beszédrész egy k o n k r é t kiejtéséből indul — mint a PCM, DPCM stb. E z é r t m i u t ó b b i a k a t „lejegyző", előbbit „ g e n e r á l ó " eljárásnak t e k i n t j ü k . Nyilvánvaló, hogy a formánskódolás minőségén azzal lehetne javítani, ha az is természetes kiejtésből i n dulna. Ebben az i r á n y b a n jelentkezett kezdeti ered ményekkel 1988-ban az Utrechti Egyetem, s ilyen irányú m u n k á k folynak — a „virtuális f o r m á n s " új fogalmára [1] alapozva — a Budapesti Műszaki Egyetemen. 7.3. LPC és PARCOR
eljárások
Ma a legjobb e r e d m é n y t egy egészen m á s elv, a lineá ris predikción, illetve parciális korreláción alapuló kódolás/dekódolás adja. Noha az eljárás k é t alap g o n d o l a t á t A t a l és Hanauer [13], illetve Itakura és Saito [14] csak a 60/70-es évek fordulóján vetette fel, a módszer m á r célba é r t . Ezen az elven alapul a Texas Instruments [15], illetve a Nippon EC mikroelektroni zált szintetizátora, s ennek továbbfejlesztésével k é szült a BME LIAVOX beszédszintézis rendszere [16]. Az eljárás megértéséhez t e k i n t s ü k a beszédet 10.. .20 msec hosszú szegmensekre bontottnak. Jelölje egy szegmens m i n t á i t s(0), s(l), . . . , s(N— 1). Tegyük fel, hogy minden s(n) minta jól közelíthető az őt p
megelőző
p darab minta 2 r ( ~0 a
s
n
alakú lineáris i=i kombinációjával. Az a ú n . Zineáris predikciós e g y ü t t h a t ó k a t ( = coefficient: c; LPC) megUehet h a t á r o z n i úgy, hogy az i
e(n) = s(rí) =
21 a,- • s(n — i )
ún. predikciós hiba négyzetösszege,
e\rí), minimális
legyen. (Hogy e(0), e(l), . . ., e(p) is s z á m í t h a t ó le gyen, az s(-p) = s(-p + l) = . . . = s ( - l ) = 0 feltéte lezésselélünk, ami [1] szerint sehol sem vezet ellent mondásra.) A 4. ábrából látszik, hogy az e(n) sorozat általában kisebb abszolút értékű elemekből áll, t e h á t kevesebb bittel a d h a t ó meg, mint az s(n) sorozat. M i vel az E = {e(0), e(N—l), a ..., a } adathalmaz ból az S={s(0), ..., s(N — 1)} adathalmaz az s(n) = p = e(n) + 2 i ( — 0 összefüggéssel pontosan visszav
a
s
p
n
i=i
állítható, de E megadásához kevesebb bit kell, mint S megadásához, a d a t t ö m ö r í t é s t é r t ü n k el. A pontos visszaállítás miatt jogos az eljárást „hullámforma kódolás"-nak nevezni. Az így elérhető 3—4-szeres tömörítés 10—20-szorosra fokozható az alábbi felismeréssel. Az ábrából l á t h a t ó , hogy zöngés beszédhez t a r t o z ó szegmensnél e(n) helyettesíthető olyan — az alapfrekvenciával megegyező periodicitású — impulzussorozattal, amelyben csak egy vagy n é h á n y minta különbözik zérustól. Zöngétlen szegmenseknél viszont az e(rí) egy, a hangtól független zajgenerátor jelének t ű n i k , mely nek csupán a „ n a g y s á g a " függ az éppen vizsgált szegmens tényleges jelétől. Jelölje e(n) fentiek szerinti közelítését e(n) (1. a 4. á b r á t ) . A t a l és társai arra a meglepő felismerésre j u t o t t a k , hogy ha a visszaállí táshoz e(n) helyett e(n)-et használjuk, az ~s(rí) - e(rí) + 2,a<•• s ( n - i)
(3)
sorozat tökéletes érthetőségű és tökéletes természetességű beszédhez vezet, sőt, legtöbbször s(n)-ből még az a személy is felismerhető, akitől az s(rí) származik. A lineáris predikció elvén alapuló tömörítés (Linear Predictiv Coding = LPC) dekódolója ezek u t á n ugyanúgy tartalmaz impulzus- és zaj generátort, mint
zöngés hang
zöngétlen hang
A
A
s(N)
s(-p
e(n)
(2)
I
n.
•••i * • ' » ' • » ' i n i ' 1
1
1
'i'
1
1
I I ' I I ' I ' I
i' ' 1
To
e(n) t
.1..
• I
.
• 1 • I• I "'I
.
I
,
l| |i
i . , i I. , i 11,i
I
ii
1 , 1 1 1 . ^ ,
IH6-A| 4. ábra. A lineáris predikció értelmezése. To: alapperiódus (hangmagasság-)idő. A : szegmens
516
Híradástechnika
XXXV.
évfolyam 1984. 11. szám
k u r z í v , másrészt a s t r u k t ú r a stabilitása a |Jfc^-J s l feltételekkel egyszerűen ellenőrizhető, ami praktikus szempontból igen fontos. A LIAVOX rendszer a PARCOR s t r u k t ú r á t valósítja meg [16].
8. A beszédmegértés f e l é . . .
ÍH1T5 5. ábra. LPC dekódoló
F a n t - t ó l [17] származik az az ötlet, hogy a beszéd képző szerveket (hangszálak, rések, garat-, száj-, orrüreg) a 7. á b r a szerint egy d u g a t t y ú v a l és egy azo nos hosszúságú (/), de lépcsőzetesen változó keresztmcLs7.etű[(.t ) csőszakaszokból álló rendszerrel model(
e(n)
6. ábra. PARCOR dekódoló a formánsszintézis dekódolója (3. á b r a ) . A szűrő helyébe azonban i t t a (3) egyenletet megvalósító el rendezés lép, melyet ö n m a g á b a n az 5. ábra mutat be. Gyakorlati okokból legtöbbször i t t is egységnyi amplitúdójú impulzus, és egységnyi szórású zajgene r á t o r t alkalmaznak (melyek jelét e(n)-nel jelöljük). A dinamikaviszonyok helyreállítására a L I A V O X rendszer a ^?s (n)=^[s(n)] feltételből származó I 2
2
N
N
„gain factor"-t használja jó eredménnyel. Az LPC beszédszintézis t e h á t az alábbi fázisokból áll: — szóelőkészítés fázisa: szegmentálás (tipikusan 10...25 msec-nyi részletek, A = 80...260 m i n t á v a l ) , zöngés—zöngét len jelleg és előbbi esetben a k v á z i periódusidő megállapítása, a hibaminimalizálást meg valósító a , a , ..., a ún. LPC e g y ü t t h a t ó k — általá ban komoly jelfeldolgozást involváló, i t t nem részle tezett — meghatározása (p értéke tipikusan 8.. 12), „ g a i n factor" m e g h a t á r o z á s a ; azaz szegmensenként összesen (p + 2) adat m e g h a t á r o z á s a és elhelyezése az a l a p e l e m t á r b a n ; — a szó kiejtésének fázisa: a 3., 5., i l l . 6. á b r á n bemutatott LPC szintetizátor m ű k ö d t e t é s e úgy, hogy szegmensről szegmensre a vezérlés beállítja a dekódoló paramétereit, melyek a z u t á n a szegmens i d ő t a r t a m a alatt v á l t o z a t l a n o k maradnak. A szóelőkészítés igen magas fokon a u t o m a t i z á l h a t ó , és mivel nem nyelvészeti szabályokra, hanem a lineáris predikció matematikai elméletére épít, nyelv független, sőt, minden olyan hangjelenséget visszaad, amit az ember egyáltalán kelteni t u d (nevetés, k ö h ö gés stb.). E z t a magas minőséget a zöngés/zöngétlen döntésben, p e r i ó d u s m e g h a t á r o z á s b a n és lineáris predikcióban megtestesülő mély elméleti a p p a r á t u s biztosítja. H a az 5. á b r á n bemutatott dekódoló helyett a 6. á b r á n bemutatott ú n . PARCOR s t r u k t ú r á t használ j u k , k é t előnyhöz j u t u n k . E g y r é s z t a benne szereplő /c,. parciális korrelációs e g y ü t t h a t ó k számítása reT
x
2
Híradástechnika
p
XXX
V. évfolyam 1984. 11. szám
H6 - 7 7. ábra. Az emberi beszédkeltés akusztikus csőmodellje l e z z ü k . E z t a modellt T=2 l/v (ahol v a hang terjedési sebessége) időközönként vizsgálva, a csőrendszert ugyanaz a diszkrét idejű átviteli függvény írja le, m i n t a 6. á b r a szerinti PARCOR szintézis s t r u k t ú r á t , ha a k = (A — A )/(A +A ) megfelelést felis merjük. Ez viszont azt jelenti, hogy ha a szintézis nél ismertetettek szerint m e g h a t á r o z z u k /í,-t, abból a beszélő szervek Ai/A keresztmetszeti viszonyai megállapíthatók. Más szóval a hanghullámból vissza tudunk k ö v e t k e z t e t n i arra, hogy milyen v o l t a beszé lő szervek állása a hang keltésekor. Ez pedig egy le hetséges első mozzanat az egyes hangok felismerése, az akusztikai lényegkiemelés felé. i
i
i+1
i
l+1
i+1
Záró gondolat A gépi beszédszintézis világszerte és h a z á n k b a n is rendelkezésre álló eljárásai sok régi szolgáltatás fel j a v í t á s á r a és sok új szolgáltatás bevezetésére adnak m ó d o t a távközlésben. A magasabb r e n d ű gépi be szédfunkciók — a beszédmegértés, beszélőazonosítás stb. — t e k i n t e t é b e n ugyanez a közeljövőben v á r h a t ó . IRODALO M [1] Gordos G., Takács Gy.: Digitális beszédfeldolgo zás, Műszaki Könyvkiadó, Budapest, 1983. p. 345.
517
[2] Kempelen, W. v.: Le Mechanisme de la Parole, suive de la Description d'une Machine Parlante, J. V . Degen, Vienna, 1791. [3] Dudley, H., Tarnóczy T.: The Speaking Machine of Wolígang von Kempelen, JASA, Vol. 22. 1950. pp. 151-160. [4] Fletcher, H.: Speech and Hearing in Communication, van Nostrand, New York, 1953. [51 Reeves, A. H.: Francia Szabadalom 52183, 1938. [6] Dudley, H : Remaking Speech, JASA, Vol. 11. 1939. pp. 169-177. [7] O'Neill, E. F.: TASI: Time Assignment Speech Interpolation, Bell. Lab. Rec, V o l . 37. March, 1959. pp. 8 2 - 8 7 . [8] Gordos, G.: Speech Detection i n Severe Nőise, l l s t I n t . Cong. on Acoustics, Paris, 1983. Proc. pp. 91 — 94. [9] Gordos, G.: Digitalizálás a h a n g t e c h n i k á b a n : új t á v l a t o k az ember—gép kapcsolatban, K é p és hangtechnika, V o l . X X X . No. 1. Febr. 1984. pp. 15-23. [10] D T 1000 Digitalker Speech Synthesis Evaluation
[11] [12]
[13] [14]
[15] [16]
Board,NationalSemiconductors I M - F L 30M120, 1980. MEA 8000, Philips gyártmányismertető, 1982. Békési S., Gordos G., Olaszy G., Podoletz Gy., Takács Gy.: Eljárás formánsszintetizátorok vezér lésére mesterséges beszéd és speciális hangjelen ségek létrehozása céljából, Magyar találmányi bejelentés, 18 682, 1983. Atal, B. S., Hanauer, S. L . : Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, JASA, Vol. 50. 1971. pp. 637-655. Itakura, F., Saito, S.: Speech Analysis-Synthesis System Based on the Partial Autocorrelation Coefficient, Acoust. Soc. of J a p á n Meeting, Oct. 1969. TMS 5200, Texas Instruments gyártmányismer tető, 1982. Gordos G., Podoletz Gy., Békési S., Takács Gy.: Eljárás és berendezés a beszédkeltés akusztikus csőmodelljén alapuló beszéd és egyéb hangjelen ségek mesterséges előállítására, Magyar találmá nyi bejelentés, 4186/1983.
MEV ALKATRESZKATALOGUS BESZEREZHETŐ A
MEV EMO KERAVILL MÁRKABOLTBAN:
Bp.V, Múzeum krt. 11. és a Katalógusboltban: Bp. V, Szt. István tér 4.
VÁLLALAT 518
Híradástechnika
XXXV.
évfolyam 1984. 11. szám