Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék
A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben
Szaszák György
Tézisfüzet
Tudományos vezető Dr. Vicsi Klára, DSc
Budapest, 2008
1 Bevezetés Napjainkban, az információs társadalomban és a mesterséges intelligencia korában alapvető igényként jelentkezik az emberi képességek gép általi minél hűebb megvalósítása. Nincs ez másként a beszédfelismerésben sem, az ember régi vágya, hogy gépeivel saját nyelvén kommunikálhasson. Jóllehet a kezdetek óta jelentős eredményeket értek el a beszédfelismerés történetében, maga a beszédfelismerés problémaköre napjainkban sem tekinthető még megoldott problémának. Sőt, ha arra gondolunk, hogy a valódi beszédfelismerés tulajdonképpen a beszéd gép általi értelmezését, megértését is jelenti, még messzebb érezhetjük magunkat a céltól. Különösen, ha a magyar nyelvre gondolunk, amelynek agglutináló – azaz toldalékoló – jellege miatt az indoeurópai, illetve angol nyelvekre kidolgozott beszédfelismerési módszerek alkalmazása egyáltalán nem egyszerű feladat, nagyszótáras, általános témakörű irodai diktálásra alkalmas beszédfelismerő mind a mai napig nem is létezik a magyar nyelvre. Ezzel együtt a klasszikus beszédfelismerésben lassan bő évtizede egyfajta egyhelyben topogás mutatkozik. A napjainkban leghatékonyabb és leginkább alkalmazott statisztikai eljárásokkal az adott technikai színvonalon elérhető eredmények megszülettek, azokat lényegében már csak továbbragozni lehet. Ennek ellenére a kutatók figyelme csak az utóbbi időben fordult az emberi beszéd más dimenziói felé, és mostanra terjedt el az a szemlélet, amely a beszédet a kommunikáció egy részének, egyik lehetséges csatornájának tekinti, és megpróbálja a beszéddel párhuzamosan megjelenő egyéb információforrásokat is kiaknázni (pl. multimodális beszédfelismerés). Maga a beszéd mint információhordozó sincs még azonban teljesen kihasználva a szűkebben vett beszédfelismerésben sem. A hagyományos, statisztikai alapú folyamatos beszédfelismerés a beszédet fonémaszekvenciának tekinti és így is dolgozza fel [1, 7]: a beszédfelismerésben a szegmentális (beszédhang léptékű) tartományba eső fonetikai szerveződési szintet, majd e felett a szavak, sőt inkább a szókapcsolatok szintjét veszik figyelembe, előbbit a fonéma modellek, utóbbit a nyelvi modell testesítik meg a beszédfelismerőkben. Ebben a feldolgozási láncban a beszéd mint akusztikai produktum csak a legelső szinten, szegmentális tartományban jelenik meg, utána nem veszik figyelembe. Meggyőződésem, hogy a beszéd szupraszegmentális tartományban akusztikailag is alátámasztja a szókapcsolati szintet, és így információforrásként hozzájárulhat a teljesebb beszédfelismeréshez, megnyitva az utat a valódi beszédértés irányába is. Gondoljunk csak arra, hogy a szupraszegmentálisan (prozódiailag) rosszul megformált közlemény – azaz helytelenül hangsúlyozott, nem megfelelő hanglejtésű vagy éppen túl monoton beszéd – az emberi beszédértést megzavarja, sőt, meg is tévesztheti, mégis ritkaságszámba mennek a szupraszegmentális tartománybeli kutatások, a szupraszegmentális tartomány akusztikailag is megjelenő elemeit – a szupraszegmentális beszédjellemzőket – pedig nem használják a
1
beszédfelismerésben. Árnyalja a képet, hogy a fonetikai és fonológiai tudomány sem egységes részletekbe menően már a szupraszegmentális jellemzők pontos meghatározása kérdésében sem, nemhogy az egyes jellemzők mérnöki tudományokban is jól felhasználható egzakt leírásában. Úgy gondolom, a magyar nyelvre a már említett agglutináló sajátosság és az ebből fakadó problémák miatt különösen érdemes a szupraszegmentális tartományt, illetve az általa hordozott információt a beszédfelismerés menetébe integrálni. Amellett, hogy magának a beszédfelismerésnek eredményességét is javíthatja a szupraszegmentális tartomány figyelembe vétele, alapját képezheti a szintaktikai és szemantikai szintű feldolgozásnak is. A prozódia beszédfelismerésben való alkalmazását viszonylag kevesen vizsgálták, konkrét gyakorlati alkalmazást pedig, amely kihasználná ezt a lehetőséget, még kevesebbet mutattak be a tudományos életben. Természetesen azért akadnak kivételek is: a beszédfelismerés szakirodalmában két összefoglaló jellegű munkát [10, 21] is fellelhetünk a prozódia felhasználási lehetőségeiről, ezzel együtt ezen munkák sokszor egész fejezetei az „elméletileg lehetséges” síkján maradnak, számos vélt alkalmazási lehetőséget azzal indokolnak, hogy az a nyelvészeti kutatások alapján valószínűnek látszik, ám a gyakorlati beszédtechnológiába csak részlegesen ültetik át azokat. A prozódia beszédfelismerésben való felhasználását meg is valósító alkalmazások közül tudomásom szerint a prozódiailag igen gazdag japán nyelvben a szavak alapfrekvenciamintázatát ismerték már fel Markov modellekkel [5]. Vizsgálataikat sajnos csak két beszélőre végezték, ekkor a félszótag felismerési arány javult a prozódia figyelembe vételével. E módszer speciálisan a japán nyelvre lett kidolgozva, melyben az alapfrekvencia jellegzetes változásokat mutat a szavak szintjén, indoeurópai, illetve a magyar nyelvekre ez a módszer aligha adaptálható. Amerikai angol nyelvre döntési fás osztályozóval olyan rendszert implementáltak [19], amely a beszédben a szünetek és hangsúlyok mintázatát a felismerési hipotézisek szintaktikai és szemantikai elemzővel legenerált referenciamintázatával veti össze, és ennek alapján újrarangsorolja a legvalószínűbb hipotéziseket. A figyelembe vett szupraszegmentális jellemző elsősorban az időtartam, amely az amerikai angol nyelvben a legfontosabb jellemző a hangsúlyozás szempontjából. A módszerrel a hipotézisek között a helyes hipotézis rangsorbeli helyzete közeledett az első helyhez. A hipotézisgráfok prozódiai információn alapuló újrasúlyozását német nyelvre is vizsgálták [10, 11]. Az Indiában beszélt bengáli nyelvre is készítettek szóhatár detektálót [12] – részben munkámmal párhuzamosan –, de azt beszédfelismerőbe nem építették be. A prozódiai frázisok és a mondatok határainak automatikus detektálása viszonylag gyakori alkalmazásnak számít [3, 10, 11, 16, 21].
2
2 Kutatási célkitűzések Dolgozatomban a beszéd szupraszegmentális (prozódiai) jellemzőinek automatikus beszédfelismerésbeli felhasználhatóságát vizsgálom. Munkám célja annak tudományos bemutatása és igazolása, hogy a prozódia által hordozott és ki nem használt információ hozzájárulhat a beszédfelismerés eredményeinek javításához, illetve szintaktikai és szemantikai szinten lényeges többletet is adhat hozzá. Emellett feladatomnak tekintem, hogy a prozódiai jellemzők olyan feldolgozását valósítsam meg, amely akusztikai szinten biztosítja a szupraszegmentális szerkezet követhetőségét és felhasználását a beszédfelismerésben, illetve amely alapvető osztályozási feladatok elvégzésével – szintaktikai tagolással (fonológiai frázisokra való tagolás) és szemantikai feldolgozással (modalitásfelismerés) – plusz információt ad a hagyományos beszédfelismeréssel kapott szöveges kimenethez, illetve ezt kiegészítendő, támpontokat jelenthet a magasabb szintű szintaktikai és a szemantikai feldolgozás robusztusabbá tételéhez. Vizsgálataim középpontjában a magyar nyelv áll, de igyekszem olyan struktúrákban gondolkozni, amely a más nyelvekre történő általánosítást is lehetővé teszi. Éppen ezért a kidolgozott módszerek más nyelvekre történő adaptálhatóságát is vizsgálom. Célkitűzéseim között szerepel annak igazolása, hogy az alapfrekvencia és energia mint prozódiai (szupraszegmentális) beszédjellemzők alapján a magyar nyelvben a hangsúly detektálható, és kötött hangsúlyú nyelvekre ennek alapján megvalósítható a szóhatárok jelentős részének detektálása csúcskereséssel, illetve fonológiai frázisok dallammenetének alakfelismerésére visszavezetett statisztikai osztályozással. Igazolom azt is, hogy az ezzel a módszerrel detektált szóhatárok figyelembe vétele a „hagyományos” statisztikai, fonéma alapú, folyamatos gépi beszédfelismerés eredményét javítja, ha felismerés során előálló hipotézisgráfban az élsúlyokat a szóhatárok helyzetének megfelelően módosítjuk. Az újrasúlyozás [19] a prozódiai információ (szegmentálás, azaz beszédfolyam-tagolás) felismerési folyamatba való becsatolásának eszköze, amely alkalmazkodik a hagyományos gépi beszédfelismerők felépítéséhez és működéséhez, így azokhoz kiegészítő modulként csatlakoztatható. E lehetőséget különösképpen az agglutináló (toldalékoló) nyelvek (ilyen a magyar nyelv is) szempontjából vizsgálom, amelyek esetében a manapság elterjedten használt n-gram szó alapú nyelvi modellezés a szóalakok nagyon magas száma miatt korlátozottan alkalmazható. Célom a tagmondat- és mondathatárok pontos detektálása is, illetve a mondattípusok (modalitás) felismerése automatikusan, az akusztikailag mérhető szupraszegmentális beszédjellemzők alapján statisztikai módszerrel, HMM alapú osztályozót felhasználva. Egy ilyen, szintén a beszédfelismerőkhöz csatlakoztatható modul szemantikai feldolgozásban nagy
3
segítséget jelentene, például a megfelelő írásjelek használatában a szöveges kimeneten, de a szemantikai elemzők működését is támogathatja az akusztikai információ beszédjelből való kinyerése és feldolgozása révén.
3 Módszertan A dolgozatomban bemutatott kutatásokhoz a beszédtechnológiában, ezen belül is a beszédfelismerés területén elterjedt módszereket vettem alapul. A beszédet szupraszegmentális tartományban vizsgálom. A szupraszegmentális jellemzők akusztikai szintű feldolgozását az alapfrekvencia és az intenzitás (illetve jelenergia) alapján végzem. Az időtartamok mérését előzetes tájékozódó vizsgálataim során nem találtam célravezetőnek a megfogalmazott feladatra. Az akusztikailag feldogozott szupraszegmentális tartományra egy-egy adott szupraszegmentális jellemzőre (pl. hangsúly, beszéddallam) osztályozási feladatot fogalmazok meg. Ennek legegyszerűbb formája „igen-nem” típusú döntés (pl. van-e hangsúly egy adott szótagon), de történhet a döntés több osztályra is (pl. milyen az adott beszédszakasz jellemző dallamsémája). A döntést csúcskeresési algoritmussal, illetve az eljárás finomításával a későbbiekben HMM alapú osztályozóval végzem. Az osztályozás eredménye alapján fonológiai frázis-, illetve mondathatár-detekciót is megvalósítok. Az osztályozó révén ekkor beszédfolyam-szegmentálás történik. A megfogalmazott feladathoz elkészült osztályozó- vagy felismerő egység (illetve az ezekből származtatott funkcionális modul) teljesítményét teszteléssel határozom meg az előzetesen rögzített mérőszámokkal, amelyek a rendszer, illetve az implementált algoritmusok teljesítményét (pontosságát, eredményességét, hatékonyságát) mérik. Az algoritmusokat iteratívan optimalizálom a főbb paraméterek külön-külön való változtatásával, ennek során a viszonyítási alap mindig a kiindulási rendszer.
4 Új eredmények 4.1 Szóhatár-detekció hangsúlydetekció alapján A hangsúly a beszédben valamely szó egy szótagjának kiemelése, megkülönböztetése a többi szótagtól [4]. Egy adott nyelvben a hangsúly kötött, ha mindig a hangsúlyos szó azonos szótagján realizálódik, kötetlen, ha a hangsúlyozandó szótag ugyanazon szón belül
4
„vándorolhat”. A magyar nyelv kötött hangsúlyú, első szótagra eső hangsúllyal. Kötött hangsúlyúak még pl. a finn, cseh és lengyel nyelvek. Az angol nyelv kötetlen hangsúlyozású. A hangsúly létrehozásában három tényező együttesen vagy egyedileg játszhat szerepet [4, 8]. E három tényező (i) az alapfrekvencia kiemelkedése a hangsúlyos szótagon, (ii), a hangsúlyos szótag nagyobb intenzitással való kiejtése és (iii) a hangsúlyos szótag magánhangzójának időtartambeli hosszabbodása. Egyes nyelvekben a hangsúly egyértelműen megfeleltethető e három tényező valamelyikének, a magyar nyelvben azonban a hangsúly lehet nyomatéki, azaz eredhet intenzitástöbbletből [4], de a hangsúlyérzetet jelentősen befolyásolja az alapfrekvencia is. Saját tapasztalataim alapján meghatározóbbnak tartom a hangsúlyban az alapfrekvencia szerepét (vö. [8], [14]). Mindezt a BABEL beszédadatbázison [20] végzett vizsgálataim is alátámasztották. Első tézisemben azt állítom, hogy a magyar nyelvben a kötött hangsúlyozást kihasználva az alapfrekvencia- és az intenzitással arányos energiamenet figyelembevételével a szóhatárok jelentős hányada detektálható. Egészen pontosan azok a szóhatárok detektálhatók, amelyeket hangsúlyos szó követ. Tézis I. [J1, C1] A kötött hangsúlyozású magyar nyelvben a szóhatárok jelentős hányada detektálható a hangsúly, illetve áttételesen a hangsúlyt meghatározó akusztikai-prozódiai jellemzők, az alapfrekvencia és az energia menete alapján. A hangsúlydetekciós eljárást az alapfrekvencia és az energia paraméterekre alapoztam, az időtartammérést viszont elhagytam. A BABEL adatbázison [20] végzett előzetes vizsgálataim alapján ugyanis az időtartamok és a hangsúlyozás között nem találtam kiaknázható, megbízható összefüggést. A prozódiai-akusztikai jellemzők a szótagok magánhangzóinak stacioner szakaszán vagy a teljes beszédjelen is mérhetők. Utóbbi esetben szükségessé válik az alapfrekvencia interpolálása a zöngétlen szakaszokon, illetve számolni kell a zömmel mássalhangzó kapcsolatokban megjelenő mikroprozódiai ingadozások megjelenésével is. Az I. tézis bizonyításához azt mutattam meg, hogy az alapfrekvencia és energia alapján lehetséges a hangsúlydetekció, feltételezve, hogy e két jellemző a hangsúlyos szótagon maximumot ad [14]. A hangsúly detektálását csúcskeresési algoritmussal valósítottam meg. Az algoritmus folyamatosan nyomon követi a beszédjel egy tetszőlegesen időablakolt szakaszán a megfigyelni kívánt prozódiai jellemző(ke)t, és ezek értékeit átlagolva meghatározza az ablakba eső beszédjel-szakaszra várható értéküket (M) és szórásukat (σ) (empirikus közép, ill. tapasztalati szórás). Az értékekből egy küszöböt határozok meg: K = M + k *σ ,
(1)
ahol k tetszőleges konstans, nagyságrendileg 0,5-1,5 közötti értékkel. Ezt követően a választott prozódiai jellemző(k)re azt vizsgálom, nagyobb(ak)-e a K küszöbnél, ha igen, akkor
5
ezt csúcsnak tekintem, és itt az algoritmus hangsúlyos pozíciót detektál. A hangsúlyos pozíció az első szótagra való kötöttsége miatt szóhatárra képezhető (például az energiagörbe minimumára). Közvetlenül az alapfrekvencia és az energia helyett belőlük származtatott mennyiségeket is felhasználhatunk, így az egyes szótagok közötti alapfrekvencia- és energiaszintbeli különbségeket is. Ekkor a csúcskeresést azzal a különbséggel végzem, hogy a várható érték és a szórás számításakor a kapott értékek abszolút értékeit használom. A csúszóablakos számítás ekkor is indokolt, hiszen alkalmazkodnunk kell a mért differenciális jellemzők dinamikatartományának folyamatos változásaihoz. Az így kapott hangsúly- és a ráépülő szóhatár-detektáló rendszer felépítése az 1. ábrán látható.
Alapfrekvencia meghatározás
Beszédjel
Energia kiszámítása
Csúcskeresés/ Görbejellegmeghatározás
Hangsúlydetekció
Szóhatárok
Csúcskeresés/ Görbejellegmeghatározás
1. ábra: A csúcskeresésen alapuló hangsúlydetektálás elvi vázlata
A tézis bizonyítását kísérletileg végeztem a fenti algoritmus alapján, a csúcskeresési algoritmusra alapozott eljárás teljesítményelemzésére a következő két mérőszámot használtam: • A pontossággal (precision) azt jellemzem, hogy az algoritmus mennyire detektálta (azonosította) helyesen a hangsúlyokat, illetve a szóhatárokat:
p=
•
tp , tp + fp
(2)
ahol tp (true positive) a helyesen azonosított hangsúlyos szótagok/szóhatárok száma, fp (false positive) a téves hangsúly-/szóhatár-azonosítások száma. A hatékonysággal (recall vagy sensitivity) mérem, hogy az összes, a mondatokban előfordult szó hány százalékánál detektálta az algoritmus az első szótagot hangsúlyosnak:
r=
tp , tp + fn
(3)
ahol fn (false negative) a nem azonosított hangsúlyos szótagok/szóhatárok száma.
6
A (2) és (3) összefüggésekkel meghatározott mutatók ábrázolhatók PR-térben (PrecisionRecall space), így a két jellemző alapján történő teljesítménykiértékelés áttekinthetőbb1. A teljesítményelemzéshez a tesztmintákat a BABEL beszédadatbázisból vettem. Az eredmények – az algoritmus felépítésének megfelelően – azt mutatták, hogy a pontosság emeléséhez a hatékonyságból fel kell adnunk, az csökkenni fog. A legnagyobb kapott pontosság 91%, 14% hatékonyság mellett. A folyamatos jelleggörbék alapján kapott eredmények az 1. táblázatban láthatók. 1. táblázat: Hangsúlyos pozíció detektálása a teljes beszédjelen mért jelleggörbék alapján Pontosság/Hatékonyság [% / %] F0 E F0&E 70 / 32 69 / 34 91 / 14
4.2 Fonológiai frázisok osztályozása és szóhatár-detektálás alakfelismeréssel A következő tézis a prozódiai információ a beszédfelismerésben is felhasznált statisztikai eszközökkel történő kinyerését és feldolgozását, hasznosítását célozza a beszédfelismerés folyamatában.
Tézis II. A. [J1, J2, B1, C1] A kötött hangsúlyozású magyar nyelvben a fonológiai frázisokra alakfelismerésen alapuló szegmentálás valósítható meg rejtett Markov-modellekkel. E szegmentálás alapján a fonológiai frázishatárokra eső szóhatárok is detektálhatók. Ez a tézis azt állítja, hogy a hangsúlyozási mintázat és a dallammenetek által megadott prozódiai struktúra elemei diszjunkt osztályokba sorolhatók úgy, hogy a fonológiai frázishatárra eső szóhatárok detektálhatók a hangsúlyozási minta és a dallammenetek együttes modellezését megvalósító fonológiai frázisosztályok alakfelismerésével, rejtett Markov modell alapú osztályozási eljárásban. Dallammenetek alatt a hangmagasság folyamatos változásai értendők a változás irányától függően [8]. Általában az alábbi dallammeneteket szokás elkülöníteni [4]: eső, ereszkedő, szökő, emelkedő, lebegő. A fonológiai frázis rendszerint néhány (vagy akár egyetlen) szóból áll [18], önálló hangsúllyal és dallammenettel jellemezhető [6]. Pszicholingvisztikai kutatások tanúsága szerint a fonológiai frázisoknak, illetve azonosításuknak a beszédpercepcióban kulcsszerepe van (vö. [2]). A II. A tézist kísérletileg igazoltam. A fonológiai frázisosztályokat (FF-osztályok) dallammenetek alapján különítettem el. A magyar nyelvre 5+1, azaz a szünettel együtt 1
A pontosságot és hatékonyságot PR-térben ábrázolva angol elnevezéseikkel (precision ill. recall) használom, értékkészletük a [0, 1] intervallum. Táblázatokban százalékra átszámítva közlöm értékeiket.
7
összesen 6 osztályt használtam az alábbiak szerint: eső (FA); ereszkedő (DE); lebegő/változatos (FL); emelkedő-eső (RF); emelkedő/szökő (RI); szünet (SIL). A szünet és a lebegő dallammenet kivételével minden fonológiai frázis hangsúllyal indít, határaikat pedig mindig a szóhatároknál rögzítettem, hiszen a fonológiai frázis egy-egy rövidebb szóláncnak felel meg [18]. A szupraszegmentális tartományban működő osztályozót a statisztikai beszédfelismerésre kidolgozott eljárás alapján valósítottam meg [7]. A fonológiai frázisok osztályozásához egy prozódiai-akusztikai, és egy prozódiai-nyelvi modellre van szükség (vö. [5], [19]). Ha a beszédjelhez illeszkedő FF-osztályok sorozata rejtett Markov modellekkel felismerhető, akkor a prozódiai mintaillesztés végén visszakereshető a végül maximális súlyúnak adódott útvonal által fedett rejtett szupraszegmentális állapotsorozat, az állapotok időbeli elhelyezkedését is beleértve. Mivel a FF-osztályok határai szóhatárokra esnek, a megfelelően pontos FF-osztályozás révén a fonológiai frázishatárok detektálhatók, így a nekik megfelelő szavak vagy szóláncok határai is. Innen egyenes út vezet a prozódiai szegmentáló megalkotásáig (lásd 4.3 szakasz). A FF-osztályozó által használt prozódiai nyelvtan nem statisztikai, hanem szabály alapú véges állapotú nyelvtan. A HMM alapú FF-osztályozót HTK keretrendszerben [22] implementáltam. A megvalósított rendszer felépítése a 2. ábrán látható. FFosztályok HMM-jei
F0 & energia kinyerése
Szupraszegmentális akusztikai előfeldolgozás
Szupraszegmentális jellemzővektorok
Fonológiai frázisosztályok illesztése
Beszédjel
Illesztett FF-osztályok
FF-osztályok kapcsolódási modelljei
2. ábra: Statisztikai alapú FF-osztályozórendszer blokkvázlata
A szupraszegmentális tartományú akusztikai előfeldolgozás során az alapfrekvenciát AMDF-alapú algoritmussal határozom meg, majd 7 pontos medián szűrést hajtok végre. Interpolációt nem használok. Az alkalmazott keretidő 25,6 ms. Az energia esetében 100 ms időablakkal átlagolok, a keretidő szintén 25,6 ms. Mindkét jellemzőhöz kiszámítom első és másodrendű deriváltjaikat is. A jellemzővektorok tehát hatdimenziósak, és 25,6 ms keretidőnként képződnek. Az alkalmazott prozódiai nyelvtan (GFF) a következő volt:
GFF = [SIL] < RF | (DE [SIL]) | (RI SIL) > SIL,
(4)
ahol a ’< >’ szimbólumok egy vagy több, a ’{ }’ szimbólumok nulla, egy vagy több
8
ismétlődést jelölnek, a ’|’ szimbólum kizáró vagy kapcsolatot, a ’[ ]’ opcionálisan elmaradó eseményeket jelöl. A nyelvtan választásának indokait részletesen bemutattam az értekezésben. (4) optimalizálását nem elsősorban a FF-osztályozás, hanem a szóhatár-detektálásra való alkalmasság szempontjából végeztem. A kísérletekhez ismét a BABEL beszédadatbázisból vett mintákat használtam. Az FF-osztályok HMM-jeinek betanításához a beszédmintákat az alapfrekvencia és az energia menete alapján FF-osztályokra szegmentáltam. A FF-osztályozó teljesítményét a beszédfelismerésben használatos helyes felismerési (osztályozási) aránnyal mértem. Ha a fonológiai frázishatárra eső szóhatárok detektálásának eredményességét vizsgáljuk, az a szóhatár-detektálásra bevezetett (2) és (3) mérőszámokkal végezhető el, így az eredmények az I. tézis kapcsán kidolgozott módszer eredményeivel is összehasonlíthatók. Ekkor a szóhatárt ismét akkor tekintettem helyesen detektáltnak, ha a fonémaszintű szegmentálással összevetve az a tényleges szóhatár 100 ms-os környezetébe esett (vö. [5]). Teszteléssel vizsgáltam mind a FF-osztályozó, mind az erre épülő, fonológiai frázisok határain szóhatárt detektáló algoritmus teljesítményét. A 3. ábra a FF-osztályozó a (4) nyelvtanban megadott osztályozási feladatban elért helyes osztályozási arányát mutatja. A FF-osztályozás alapú szóhatár-detektálás esetén megvizsgáltam, hogy mely prozódiai jellemzők esetében adódik optimális eredmény a pontosságra és a hatékonyságra. A csak az alapfrekvencia-, illetve csak az energiajel alapján dolgozó modellek nem adtak olyan jó teljesítményt, mint a mindkét jellemzőt felhasználók. A pontosság és a hatékonyság tekintetében a FF-osztályok HMM-jeinek állapotszámát és a kibocsátás eloszlását leíró Gauss függvények komponenseinek számát is optimalizáltam. Előbbire 11 állapot, utóbbira 1-2 komponens adódott optimálisnak. 90
Helyes osztályozási arány [%]
80 70 60 50 40 30 20 10 0 RF
DE
RI
SIL
FF-osztály
3. ábra. A FF-osztályozó (4) prozódiai nyelvtan szerinti osztályozási teljesítménye
9
A kapott eredmények tanúsága szerint a szóhatár-detekció pontossága és hatékonysága optimális esetben magyar nyelvre 77,4%, illetve 57,1% (lásd 4. ábra). A szóhatár-detektálás kapcsán vizsgáltam a FF-osztályozó betanító anyagának szempontjából azt is, hány beszélővel adódik optimális eredmény: 14 fő, 4 fő, majd egyetlen fő férfi beszélő anyagával tanítva a pontosság kismértékben változott, legmagasabb a 4 fős betanító halmaz esetében volt. A hatékonyság viszont jelentősebben változott, optimális eredményt a 4 fős betanító halmazra kaptam. Mindez a 4. ábrán is nyomon követhető. A betanító anyag szűkítésekor ügyeltem arra, hogy a beválogatott beszélők kiejtése prozódiailag megfelelő legyen.
0,775 0,774
4 férfi
1 férfi
0,773
Precision (p)
0,772 0,771 0,77 0,769 0,768 0,767 0,766
14 férfi
0,765 0,764 0,3
0,35
0,4
0,45
0,5
0,55
0,6
0,65
0,7
Recall (r)
4. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar nyelvre 1, 4 és 14 férfi beszélő anyagával betanítva, 18 beszélő anyagán tesztelve
A FF-osztályokat a későbbiekben tapasztalataim alapján finomítottam, az új osztályozás mondatindító (me), erősen hangsúlyos (fe), gyengén hangsúlyos (fs), prozódiai frázisvégi folytatást jelző (fv), mondatzáró (mv), semleges (s) és szünet (sil) osztályokat különböztet meg. Fontosabb a szupraszegmentális tartomány akusztikai előfeldolgozásának változása, az alapfrekvencia-jelben oktávugrás elleni szűrést használok, a medián szűrés helyett átlagoló szűrővel végzem a simítást. A keretidőt 10 ms-ra csökkentettem. Az újradefiniált FFosztályok bevezetésével és a feldolgozás finomításával a szóhatár-detektálásra kapott pontosság, illetve hatékonyság 79,2%, illetve 58,5%, a szóhatárok időbeli elhelyezésének pontatlansága (a valós szóhatártól való távolság szórása) pedig jelentősen csökkent.
Tézis II. B. [J1, B1, C2, C3, C4] A magyar nyelvre, a fonológiai frázisosztályok behatárolására kidolgozott módszer más kötött hangsúlyú nyelvekre is közvetlenül alkalmazható a fonológiai frázishatárokra eső szóhatárok detektálása céljából.
10
A tézist a magyar nyelvű FF-osztályozó finn nyelvre történő adaptálásával igazoltam. Ennek során finn nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési, FF-osztály szegmentálási, HMM-betanítási feladatokat, amelyeket korábban a magyar nyelvű rendszerre. A betanítás és tesztelés alapjául szolgáló adatbázis a Helsinki University of Technology által készített Finnish Speech Database [17], amely 250 mondatot tartalmaz összesen 4 beszélő bemondásában. A teszteredmények kiértékelését a magyar nyelvre bemutatott eljárással megegyezően végeztem. A finn nyelv esetében is a 11 állapotú, 1 Gaussos HMM modellek adták a legjobb eredményt mind az alapfrekvencia, mind az energiaszint, valamint ezek első és második deriváltjai alapján működő modellekben. A (2) és a (3) összefüggésekkel definiált (pontosság és hatékonyság) eredményességi jellemzők finn nyelvű rendszerrel 69,2%, illetve 76,8%. Ez a magyar nyelvű eredményekkel összevetve alacsonyabb pontosságot, ugyanakkor jóval nagyobb hatékonyságot jelent (lásd 5. ábra). Vizsgáltam a kétnyelvű szóhatár-detektáló rendszer teljesítményét is. A mindkét nyelven betanított rendszer pontossága majdnem eléri az egynyelvű rendszerét, hatékonysága viszont jelentősen nagyobb az egynyelvű esethez képest. Az eredmények az 5. ábrán láthatók PR-térben ábrázolva.
0,78
MM
Precision (p)
0,76
VM
0,74 0,72
FM
FF
0,7 0,68
VF
MF
0,66 0,4
0,5
0,6
0,7
0,8
0,9
Recall (r)
5. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar és finn nyelvre, illetve kétnyelvű rendszerekkel. A pontok melletti feliratokon az első betű a betanító, a második a teszthalmazra utal: M=magyar, F=finn, V=vegyes magyar-finn
11
4.3 Szóhatár-detektáló rendszer felhasználása a gépi beszédfelismerésben Megvizsgáltam, hogy a II. A. tézisben bemutatott, FF-osztályozásra visszavezetett szóhatárdetektálóval javítható-e a beszédfelismerés pontossága. Az eredményeim alapján bizonyítandó tézis:
Tézis III. [J2, B2, C5] A beszédfelismerésben a helyesen felismert szavak aránya növelhető a II. A. tézisben bemutatott, az alapfrekvencia- és energiamenet alapján működő HMM alapú fonológiai frázisosztályozóval a beszédfolyamon végzett prozódiai szegmentálással. Az állítás bizonyításához a szóhatár-detektálásra használt FF-osztályozót (prozódiai szegmentálót) beszédfelismerőbe építettem, és kétmenetes beszédfelismerésben a hipotézisgráfok újrasúlyozásával vettem figyelembe a prozódiai szegmentálást. A hipotézisgráfok újrasúlyozásának végrehajtásához a szóhatárok időpontbeli helyzetét (tB) intervallumokba transzformáltam az π t) + A, ha t ∈ [t B − ∆T,t B + ∆T ] Acos ( , LB (t) = 2∆T 0 egyébként
(5)
összefüggés alapján (vö. [10]). Itt ∆T az intervallum hosszát befolyásoló paraméter, értéke kísérleteimben 100 ms volt. LB(t) ily módon tulajdonképpen a szóhatár adott időpontban történő elhelyezkedésének valószínűségével arányos pontszámot ad meg. A beszédfelismerés során előálló hipotézisgráfban azoknak a szavaknak és szóláncoknak megfelelő utak súlyát, amelyek esetén a szavak határai időben egybecsengenek a prozódiai szegmentálás által jelzett határokkal megnövelem (6). Hasonlóképp, azokban az esetekben, amikor a prozódiai szegmentáló által megadott határok szavak belsejébe esnek, az eredetileg hozzárendelt súlyokat csökkentem (7). Sc renum = w a L B ( t start ) + w b L B ( t end ) ,
(6)
ahol tstart a szó gráf szerinti kezdő, tend a szó gráf szerinti végpontjának felel meg (az időben), wa és wb pedig súlyok. N − k −1
Sc punish =
∑L
B
(t i ) ,
(7)
i = k +1
ahol N a kiértékelendő szó(lánc)hoz tartozó összes keret száma, k= ∆T. A gráf éléhez tartozó új Screscored pontszám értéke:
12
Sc rescored
= w O Sc orig + w P ( Sc renum − Sc
).
punish
(8)
(6)-ban wa=0,5, wb=0,5; (8)-ban wO=1, wP=2,5 volt a kísérleteim során. A beszédfelismerő, amelybe a prozódiai szegmentálót beépítettem, magyar nyelvű, HTK rendszerben megvalósított radiológiai leletező alkalmazás (39 MFCC, 10 ms keretidő, 37 beszédhang modell, 32 Gauss, 8 óra anyagon tanítva). A szótár elemszáma mintegy 4000 szó, a kísérletben a bi-gram nyelvi modellt binarizáltam. Célom annak kipróbálása, hogy képes-e a prozódiai információ minimális nyelvtani információ mellett a felismerés hatékonyságát javítani. Ezzel a nagyszótáras alkalmazások felé tekintek, ugyanis nagy szótárméret esetén a nyelvi modell elkészítéshez rendkívül nagy szövegadatbázis kell, a nyelvi modell használata pedig rendkívül műveletigényes. Különösen igaz ez az agglutináló nyelvekre – így a magyarra is – amelyek esetén viszonylag szűk tématerületen is relatíve nagy az előforduló szóalakok száma a toldalékoló jelleg miatt. A 6. ábra alapján felépített kísérleti rendszerrel hasi és kismedencei ultrahangos leletek felismerését vizsgáltam összesen 20 darab leletre (kb. 300 mondaton). A felismerést azonos körülmények között azonos leletekre az alaprendszerrel, majd a prozódiai szegmentálóval kibővített rendszerrel elvégezve a helyesen felismert szavak aránya összességében relatív 3,8%-kal javult. A javulás mértéke leletenként változó, egyes esetekben 10% fölötti eredményt is kaptam, ugyanakkor előfordult, hogy a felismerés a prozódiai szegmentáló hibázása miatt leromlott a referenciához képest. A hibaanalízis során kiderült, hogy ekkor a prozódiai szegmentáló tévedett az alapfrekvencia-detektor hibázásának eredményeként. Az összességében tekintett szignifikáns javulás azonban igazolja a III. tézis állítását. Beszédhang HMM
Szótár
Beszédjel
Nyelvi modell
Szegmentális akusztikai előfeldolgozás
Szegmentális tartományú mintaillesztés
Szupraszegmentális akusztikai előfeldolgozás
Prozódiai szegmentálás
Hipotézisgráfok újrasúlyozása Útvonalkiértékelés
FF-osztály kapcsolódási modell
FF-osztályok
FF-osztály HMM
6. ábra: Prozódiai szegmentálóval kiegészített beszédfelismerő felépítése
13
Felismert szöveg
A relatív 3,8% javulás 4 ezer szavas, igen behatárolt szó- és mondatkészletű beszédfelismerő alkalmazásban véleményem szerint nagyon jó eredmény, ez ugyanis a szótár méretének növelésével, illetve a felismerendő szöveganyag kötetlenebbé választásával még nagyobb teljesítménynövekedést eredményezhet.
4.4 Modalitásfelismerés és tagmondathatár-detektálás A mondat modalitása alatt kizárólag a mondat típusát értem, amelyet elsősorban az intonáció határoz meg. Modalitása szerint a mondat lehet kijelentő, kérdő, felszólító, felkiáltó vagy óhajtó. A hagyományos beszédfelismerésben a mondat típusának automatikus felismerése gyakorlatilag nem lehetséges. Ha a mondattípust mégis meg szeretnénk határozni, próbálkozhatunk a természetes nyelvfeldolgozásban használatos szintaktikai vagy szemantikai eszközökkel, elemzőkkel (pl. [16]). Ezek egyik nagy hátulütője, hogy a felismerő szövegkimenetén dolgoznak, így felmerül az esetleges felismerési hibák továbbterjedése a modalitást meghatározó modulba is. Emellett könnyen elképzelhető olyan eset is, hogy a prozódián kívül semmilyen más elem nem jelzi a modalitást [10]. Írásban a megfelelő írásjelből eldönthetjük, hogy a beszélő állításként vagy kérdésként, esetleg felkiáltásként fogalmaz-e meg egy-egy mondatot. A mondatok tagolásában a vesszők vannak segítségünkre, bár azok nem mindig esnek egybe a prozódiailag megnyilvánuló tagolással [15].
Tézis IV. A. [B3, C6] A fonológiai frázisok osztályozására magyar nyelvre kidolgozott folytonos HMM alapú algoritmus a megfelelő módosításokkal alkalmas a tagmondathatárok detektálására, és a mondat modalitásának meghatározására. A modalitás felismerése elsősorban szemantikai szintű feladat, és legalább egy, de gyakrabban több mondatból álló beszédszegmensre végezhető el. Mivel a modalitás mondat szinten értelmezett, ezért a modalitás felismerésének szintaktikai vonatkozásai is vannak, ez pedig a robusztus mondathatár-, sőt tagmondathatár-detekció. A tagmondatokat úgy értelmeztem, mint az írásban vesszővel jelölendő mondatbeli határokat, míg a mondatok az írásban mondatzáró írásjellel lezárandó nyelvi egységek. Mint említettem, a tagmondatok prozódiai szempontból nem feltétlenül esnek egybe az írásban vesszővel elválasztott tagmondatokkal (bár általában igen [15]). Megfelelően feldolgozott beszédadatbázis hiányában ezt a kérdést nem vizsgáltam. Előzetes feltevésem szerint a modalitásfelismeréshez a szupraszegmentális akusztikai előfeldolgozás során nagyobb időablakokkal szükséges átlagolunk, az optimális
14
ablakméreteket, teljesítményelemzéssel határoztam meg. A II.-III. téziscsoportokban bemutatott esethez képest a HMM alapú rendszer ezúttal a FF-osztályok helyett tagmondatokra készült, a mondatszintű intonációt leíró prozódiai-akusztikai modellek használatával. Fontos különbség FF-osztályozó és a modalitásfelismerő rendszer között, hogy előbbi esetben az illesztett FF-osztály gyakorlatilag közömbös volt, a lényeges információt csak az egyes osztályok határai adták a szóhatár-detektálásra használt alkalmazásban, míg most az illesztett tagmondatosztály adja meg a mondat modalitását (ha mondatzáró tagmondatról van szó), így ez is informatív, hiszen ennek alapján lesz lehetséges az írásjelek kitétele a felismert szövegben, ha a modalitásfelismerőt beszédfelismerőbe építjük be. A modalitásfelismerő betanításához a szupraszegmentális tartományban (alapfrekvencia és energia) feldolgozott beszédet tagmondat szinten szegmentáltam és címkéztem, hasonlóan a szóhatár-detektálásra bemutatott esethez. Az optimális osztályozáshoz szükséges osztályokra való felbontást iteratívan szűkítettem a végső összesen 7 osztályra (ebből 1 a szünet): • Nem mondatzáró tagmondat (T) • Kijelentő mondat záró tagmondata (S) • Kiegészítendő kérdés (K) • Eldöntendő kérdés (E) • Felszólítás/felkiáltás (X) • Óhajtó mondat (O) • Szünet (U) Eltérő intonációs mintája miatt az eldöntendő (igen/nem válasz) és kiegészítendő (explicit válasz) kérdéseket a szakirodalmi nyelvészeti osztályozásnak megfelelően különválasztottam [13]. A felkiáltó és a felszólító mondatok intonációja közötti szerény különbség miatt ezeket egymástól nem különböztettem meg. Ez egyébként a megfelelő írásjel (felkiáltójel) kitételében nem okoz majd problémát. Az összeállított tagmondathatár-detektáló és modalitásfelismerő rendszer blokkvázlata a 7. ábrán látható. Az alapfrekvencia és az energia kinyerése a 4.3 szakaszban bemutatott eljárással egyezik. Az akusztikai előfeldolgozó nagyobb átfogású ablakokra átlagol. Tagmondat intonációs HMM-ek
F0 & energia kinyerése
Szupraszegmentális akusztikai előfeldolgozás
Szupraszegmentális jellemzővektorok
Beszédjel
Tagmondat osztályok illesztése
Tagmondat és mondathatárok, modalitás és írásjelek Tagmondatok kapcsolódási modelljei
7. ábra: Statisztikai alapú tagmondathatár-detektáló és modalitásfelismerő rendszer blokkvázlata
15
A tagmondatok kapcsolódási modelljeit megadó nyelvtan (Gtm) a beszédet opcionális szünet, opcionális nem mondatzáró tagmondatok, és kötelezően megjelenő záró tagmondatok sorozataként adja meg (jelölések magyarázatát lásd pl. a (4) nyelvtannál): (9)
Gtm = [U] < [T] ( S | E | X | K | O ) [U] > [U]
Az osztályozási (modalitásfelismerési) teljesítményt ezúttal a beszédfelismerésben „szokásos” helyes felismerési aránnyal (10) mértem, miután az osztályozás maga sem közömbös.
Corr =
H ⋅ 100% , N
(10)
ahol H a helyesen felismert, N az összes tagmondatok száma a teszthalmazban. A munkám során folyamatosan optimalizált – mintegy 18 ezer tagmondattal betanított – osztályozóra a helyesen felismert tagmondatok aránya az egyes tagmondattípusokra a 8. ábrán látható.
100
Corr [%]
80 60 40 20 0 S
T
K
E
X
O
U
Tagmondat-osztály
8. ábra: A tagmondattípusokra lebontott felismerési ráta 11-es állapotszám és a 40 keretnyi átlagolási intervallum mellett, gyermek adatbázison
Meglepő, ugyanakkor a modalitásfelismerésre is a 11 állapotú rejtett Markov tagmondatmodellek adtak optimális eredményt, az időátlagolás mértéke pedig 100-400 ms átfogású tartományban nem változtatta tendenciózusan az eredményeket. Míg a kötött hangsúlyra épülő szóhatár-detekció viszonylag nyelvspecifikus, hiszen csak kötött hangsúlyú nyelvekre alkalmazható a magyar nyelven kívül, addig a tagmondathatárdetekció és modalitásfelismerés a nyelvek jóval nagyobb körére általánosítható, mivel a prozódiai frázis végének emelkedő intonációval való jelzése, illetve a létező mondattípusok a hangsúlyozásnál univerzálisabb tulajdonságok.
16
Tézis IV. B. [C7] A magyar nyelvre kidolgozott HMM alapú tagmondatszintű szegmentáló és modalitásfelismerő eljárás más, a modalitást mondatintonációban kifejező nyelvekre közvetlenül alkalmazható. A tézist a magyar nyelvű tagmondatszintű szegmentáló és modalitásfelismerő német nyelvre történő adaptálásával igazoltam. Ennek során német nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési, tagmondat szegmentálási, HMM-betanítási feladatokat, amelyeket a korábban a magyar nyelvű rendszerre. A betanításhoz használt szöveganyagot a Kiel Corpus-ból [9] vettem. Az összeállított német rendszer felépítése tehát mindenben megfelel a magyar nyelvűének, az alapfrekvencia- és energiamenet feldolgozása is azonosan történt. A német nyelvű adatbázis szűkösebb mérete miatt 5 tagmondatosztályt különítettem el: • Nem mondatzáró tagmondat (T) • Kijelentő mondat záró tagmondata (S) • Kérdés (eldöntendő és kiegészítendő) (K) • Felszólítás/felkiáltás (X) • Szünet (U) A kiegészítendő és eldöntendő kérdéseket tehát összevontam, közöttük ugyanis a Kiel Corpus elemzésekor nem találtam meggyőzőnek az intonációbeli különbséget, sőt, a két kérdéstípus meglepően hasonló intonációval realizálódott a legtöbb esetben. Az óhajtó tagmondat adat hiányában nem szerepel az osztályozásban. A német nyelvre a modalitásfelismeréshez használt nyelvtan (GGER): GGER = [U] < [T] (S | E | FF ) [U] > [U]
(11)
Minden egyéb feltétel megegyezik a magyar nyelvű rendszerre bemutatottal. A (10) összefüggéssel definiált felismerési arány szerinti eredmények német nyelvre a 9. ábrán láthatók tagmondat, illetve mondattípus szerinti bontásban. Az egyes mondatvégi írásjeleknek megfelelő tagmondat-osztályok felismerése eléri (kérdő, illetve felkiáltó és felszólító mondatok), illetve meghaladja (kijelentő mondat) a 70%-ot. A nem mondatzáró tagmondatok alacsony felismerési aránya utalhat a vesszővel jelölt, és a prozódiailag ténylegesen realizálódó tagmondatok közötti különbségekre. Mivel a Kiel Corpus meseolvasás és információ-lekérdezés jellegű bemondásokat tartalmaz, így valószínűsítem, hogy a környezetükből kiragadott, a beszédadatbázis bemondóinak szemszögéből konkrét kommunikációs célhoz nehezen társítható, egymással lazán összefüggő mondatokból álló magyar anyaghoz képest lényegesen kisebb a vesszővel jelzett és a ténylegesen realizálódó prozódiai mondattagolás közötti átfedés. Az eredmények alapján a német nyelvű
17
modalitásfelismerő és tagmondathatár-detektáló rendszert mindenképpen a gyakorlatban is használhatónak tartom.
100 90
Corr [%]
80 70 60 50 40 30 20 10 0 T
E
X
S
U
Tagmondat-osztály
9. ábra: A tagmondattípusokra lebontott felismerési arány a 11-es állapotszám és a 40 keretnyi átlagolási intervallum mellett
5. Az eredmények alkalmazhatósága Az I. tézis elvi jelentősége mellett hangsúlydetekció alapú beszédfolyam-szegmentálást tesz lehetővé. A II. téziscsoporttal együtt a hangsúly-, a fonológiai frázis-, illetve a rá visszavezetett szóhatár-detektálás magasabb szintű, szintaktikai és szemantikai feldolgozásnak képezheti alapját, a beszédfelismerést valóban a beszédértés felé elmozdítva. Segítheti a szintaktikai tagolást és elemzést a természetesnyelv-feldolgozásban (pl. beszédalapú tartalmi kivonatolás a fontos, így hangsúlyozott információhordozó elemek kiemelésével; mondatelemzés gépi fordítórendszerekben, stb.). Igen fontos alkalmazás a közvetlenül a beszédfelismerésben való felhasználás, amelyet emiatt a III. tézisben külön vizsgáltam. A műszaki alkalmazásokon kívül az I.-II téziscsoportok eredményei felhasználhatók nyelvészeti kutatásokhoz is, különösen a spontán beszéd vizsgálatára. A III. tézis önmagában egy alkalmazás, nagyszótáras beszédfelismerés esetén azonban jelentős előrelépést hozhat a tézisben lefektetett módszerek alkalmazása a toldalékoló nyelvek esetében. A IV. téziscsoport eredményei a beszédfelismerés során előálló szöveges kimenet írásjelekkel való automatikus ellátását teszik lehetővé, egyben a II. tézishez hasonlóan a természetesnyelvfeldolgozásban a szintaktikai és szemantikai szinteken jelentős információt adhatnak a
18
feldolgozáshoz (pl. topik-komment osztályozás a mondattagolás szempontjából, mondatelemzés, fókuszdetektálás). Lehetővé teszik a beszédfolyam mondatokra tagolását, a prozódiai frázisok határait (levegővétel) igen pontosan detektálhatóvá teszik. A II. és IV. téziscsoport eredményei számítógépes beszédoktató alkalmazásokban a helyes hangsúlyozás és hanglejtés elsajátításához adnak kiindulási alapot. Ez az alkalmazás – francia partnerrel – már fejlesztés alatt áll.
Felhasznált irodalom [1] Bechetti, C., Prina-Ricotti L.: Speech Reognition. Theory and C++ Implementation. Fondazione Ugo-Bordoni, Rome, Italy. 1999. [2] Cristophe, A., Peperkamp, S., Pallier, C., Block, E., Mehler, J.: Phonological Phrase Boundaries Constrain Lexical Access I. Adult Data. Journal of Memory and Language, Vol. 51, 2004. Elsevier. pp. 523–547. [3] Gallwitz, F., Niemann, H., Nöth, E., Warnke, W.: Integrated recognition of words and prosodic phrase boundaries. Speech Communication, 36(2002): 81-95. [4] Gósy Mária: Fonetika, a beszéd tudománya. Osiris, Budapest, 2004. pp.182-243. [5] Hirose, K.; Minematsu, N.; Hashimoto, Y.; Iwano, K.: Continuous Speech Recognition of Japanese Using Prosodic Word Boundaries Detected by Mora Transition Modeling of Fundamental Frequency Contours, Proceedings of ISCA Tutorial and Research Workshop on Prosody in Speech Recognition and Understanding, Red Bank, NJ, USA, pp.61-66. 2001. [6] Hunyadi, László: Hungarian Sentence Prosody and Universal Grammar. Peter Lang, 2002. [7] Jelinek, Frederick: Statistical Methods of Speech Recognition. MIT-Press, USA, 1998. [8] Kassai Ilona: Fonetika. Nemzeti Tankönyvkiadó, Budapest, 1998. [9] KIEL Corpus of read Speech, Volume I. Institut für Phonetik und digitale Sprachverarbeitung der Christian-Albrechts-Universitat zu Kiel, Dec. 1994. [10] Kompe, Ralf: Prosody in Speech Understanding Systems. LNAI 1307, Springer. 1997. [11] Kompe, R.; Kießling, A.; Niemann, H.; Nöth, E.; Schukat- Talamazzini, E.G.; Zottmann, A.; Batliner, A.: Prosodic scoring of word hypotheses graphs. In: Proc. European Conf. on Speech Communication and Technology (European Conf. on Speech Communication and Technology, Madrid, September 1995) Vol. 2, pp. 1333-36. 1995. [12] Mandal, S.; Gupta, B. Datta, K.: Word boundray Detection Based on Suprasegmental Feaures, a Case Study on Bangla Speech. International Journal of Speech Technology, Vol. 9. Num. 1-2 pp. 17-28. 2007. [13] Olaszy Gábor: A magyar kérdés dallamformáinak és intenzitásszerkezetének fonetikai vizsgálata. In: Beszédkutatás'2002 Szerk.: Gósy Mária, MTA Nyelvtudományi Intézet, Budapest, 2002. pp. 8399.
19
[14] Olaszy Gábor: Az alapfrekvencia és a hangsúlyozás kapcsolata a magyarban. In: Kísérleti fonetika - Laboratóriumi fonológia 2002. (szerk.: Hunyadi László) Kossuth Egyetemi Kiadó, Debrecen, 2002. [15] Olaszy Gábor: Prozódiai szerkezetek jellemzése a hírfelolvasásban, a mesemondásban, a novellaés a reklámok felolvasásában. In: Gósy Mária (szerk.): Beszédkutatás 2005. MTA Nyelvtudományi Intézet, Budapest 2005. [16] Shriberg, E., Stolcke, A., Hakkani-Tür, D. and Tür, G.: Prosody-based automatic segmentation of speech into sentences and topics. Speech Communication, vol. 32, no. 1-2, pp. 127-154, 2000. [17] Vainio, M., Altosaar, T., Karjalainen, M., Aulanko, R., Werner, S.: Neural network models for Finnish prosody. Proceedings of ICPhS 1999, San Francisco (1999) 2347-2350. [18] Varga László: A magyar mellékhangsúly fonológiai státusáról. In: Magyar Nyelvőr, 124. évfolyam 1. szám. 2000. pp. 91-108. [19] Veilleux, N. M., Ostendorf, M.: Prosody/parse scoring and its application in ATIS. Proc. ARPA Human Language Technology Workshop '93. pp 335-40. 1993. [20] Vicsi K., Vig, A.: Az első magyar nyelvű beszédadatbázis, Beszédkutatás 98, MTA Nyelvtudományi Intézete, Budapest, pp. 163-177. 1998. [21] Waibel, Alex: Prosody and Speech Recognition. Pitman, London, UK. 1988. [22] Young, S. et al.: The HTK Book (for version 3.3). Cambridge University. 2005.
Publikációim [J] Folyóiratok (Journals) [J1] Vicsi, K., Szaszák, Gy.: Automatic Segmentation of Continuous Speech on Word Level Based on Supra-segmental Features. International Journal of Speech Technology, Vol. 8, Num. 4, pp. 363-70. (2005) [J2] Szaszák, Gy., Vicsi, K.: Using prosody for the improvement of automatic speech recognition. Infocommunications Journal (English issue of Híradástechnika). Vol. LXIII. Num 7. pp. 35-40. (2008) [J3] Szaszák György: Ejtésvariáció modellezés a beszédfelismerésben. Akusztikai szemle VI:(1) pp. 312. (2005) [J4] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Gordos G.: Development experiences of a Hungarian speaker independent continuous speech recognizer. Híradástechnika – InfoCommunications Technology LXI:(7) pp. 22-27. (2006)
20
[B] Publikációk szerkesztett könyvben (Publications in Edited Books) [B1] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Word Boundary Detection in ASR. In: A. Esposito, M. Bratanic, E. Keller, M. Marinaro (eds.): Fundamentals of Verbal and Nonverbal Communication and the Biometric Issue. (NATO Security through Science Series; Vol. 18. IOS Press, Amsterdam pp. 161-170. (2007) [B2] Szaszák, Gy; Vicsi, K: Using Prosody in Fixed Stress Languages for Improvement of Speech Recognition. In: A. Esposito et al. (eds): Verbal and Nonverbal Communication Behaviours, Springer, pp. 138-150. (2007) [B3] Vicsi K., Szaszák Gy., Németh Zs: Folyamatos magyar beszéd mondatfajtáinak automatikus felismerése. In: Gósy Mária (szerk): Beszédkutatás 2007. pp. 162-172. (2007) [B4] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben I. In: Gósy Mária (szerk): Beszédkutatás 2002. szám: pp. 216-234. (2002) [B5] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben II. In: Gósy Mária (szerk): Beszédkutatás 2003. pp. 163-176. (2003)
[C] Konferenciacikkek (Conference Papers) [C1] Szaszák Gy., Vicsi K., Borostyán G.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján. II. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY-2004). Szeged, Magyarország, 2004. december. pp. 319-325. [C2] Vicsi K., Szaszák Gy.: Automatic Segmentation of continuous speech on word and phrase level based on supra-segmental features. Forum Acusticum. Budapest, Magyarország, 2005. május, pp. 2669-73. [C3] Szaszák Gy., Vicsi K.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján: II. rész: Statisztikai eljárás, finn-magyar nyelvű összehasonlító vizsgálat. III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 360-370. [C4] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Phrase Boudary Detection in ASR. Text, Speech and Dialogue: 9th International Conference on Text, Speech and Dialogue TSD 2006. Brno, Csehország 2006. szeptember. pp. 547-554. [C5] Szaszák Gy., Vicsi K.: Speech recognition supported by prosodic information for fixed stress languages. Text, Speech and Dialogue: 10th International Conference on Text, Speech and Dialogue TSD 2007. Plzen, Csehország 2007. szeptember. Springer, 2007. pp. 262-269.
21
[C6] Vicsi, K.; Szaszák Gy.; Németh Zs.: Prozódiai információ használata az automatikus beszédfelismerésben; mondat modalitás felismerése, V. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, 2007. december. pp. 69-80. [C7] Vicsi, K.; Szaszák, Gy.: Using Prosody for the Imporvement of ASR - Sentence Modality Recognition, Interspeech 2008, Brisbane, Australia, 2008. szeptember. [C8] Szaszák Gy., Vicsi K.: Examination of Pronunciation Variation from Hand-Labelled Corpora. Text, Speech and Dialogue: 7th International Conference Proceedings, TSD 2004. Brno, Csehország 2004. szeptember. Springer, 2004. pp. 473-480. [C9] Vicsi K., Kocsor A., Tóth Sz. L., Szaszák Gy., Teleki Cs., Bánhalmi A., Paczolay D.: A magyar referencia adatbázis és alkalmazása orvosi diktáló rendszerek kifejlesztéséhez. III. Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 435-438. [C10] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Teleki Cs., Tóth Sz. L.: Középszótáras, folyamatos beszédfelismerő rendszer fejlesztési tapasztalatai: III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 348-359.
22