Beszédfelismerés, beszédmegértés
Werner Ágnes PDF created with pdfFactory trial version www.pdffactory.com
Beszéd, ember-gép kapcsolat A beszéd az emberek közötti legtermészetesebb információátviteli forma. Az ember és a gép kapcsolatában is ez lehetne talán a legcélravezetőbb, ha a számítógépekhez jó minőségű beszédperifériák állnának rendelkezésre.
Beszédfelismerés, beszédgenerálás
PDF created with pdfFactory trial version www.pdffactory.com
Szempontok n
n
n
A beszédfelismerő alkalmazások egy részénél csak kényelmi vagy anyagi szempontok játszanak szerepet, máshol azonban a kéz és a szem felszabadítása az alapvető szempont. Ilyen alkalmazások például: n n n n
telefonálás vezetés közben, diktálás sötétben (pl. röntgenezésnél), leltározás terepen, fogyatékosok számára használható rendszerek stb.
PDF created with pdfFactory trial version www.pdffactory.com
Nehéz feladat n
n
A beszédfelismerő rendszerek elkészítése nagyon nehéz feladat. Oka: n n
n
n
a feladatok nehezek és sokrétűek, az adott nyelvtől is nagyban függnek.
A magyar nyelvű beszédfelismerő programokat elsősorban hazai fejlesztéssel kell kidolgozni. Oka: n n
nyelvünk sajátos, ragozással kifejező jelleg, a szükséges beszédadatbázisokat csak anyanyelvi környezetben lehet megfelelően kiépíteni és tesztelni.
PDF created with pdfFactory trial version www.pdffactory.com
A beszédfelismerőktől elvárható feladatok n
n
n
n n n n
a rendszer ismerje fel a beszédet (általánosságban: beszédszöveg átalakítás) beszéddetekció: annak felismerése, hogy beszéd van vagy nincs zöngés/zöngétlen meghatározás, leginkább csak támogatja a beszédfelismerőket, de néha önálló feladatnak is tekintik beszélő felismerése beszélő azonosítása mintaszöveg felvétele, amit belépéskor el kell mondani véletlenszerűen kisorsolt minta: sok mintát vesznek fel, és ezek közül egyet véletlenszerűen sorsol a rendszer a belépéskor
PDF created with pdfFactory trial version www.pdffactory.com
A beszédfelismerés több szempontból is osztályozható n n n
n
n
n n n
n
kis (kötött) szótáras, kb. 100 szó nagy szótáras (kötetlen szótáras), 20-80000 szó személyfüggő: egy személy beszédét ismeri fel, általában adaptív rendszer, egy adott személyre rátanul személyfüggetlen: nagyon sok mintával dolgozik, a személyfüggőséget megpróbálja kiátlagolni izolált szavas: egymástól hosszú idővel elválasztott szavak (pl. utasítások) kapcsolt szavas: a szavak közti szünetek minimálisak folyamatos beszéd: diktáló rendszerek jó minőségű beszédből felismerők: mindig innen indul a felismerés, és valamilyen trükkel sikerül robosztussá tenni robosztus rendszerek: elég nagy zaj mellett is felismerik a beszédet
PDF created with pdfFactory trial version www.pdffactory.com
A beszédfelismerés történeti áttekintése a célkitűzések szemszögéből Cél: olyan szoftver/hardver készítése, amely a beszédjelet írott alakra konvertálja írógép, amelynek diktálni lehet Huszadik század első felében: n a távközlés motiválta a beszédvizsgálatát n a feldolgozási eljárások legtöbbje a beszédkódolásból származó módszereken alapszik Ötvenes - hatvanas évek n digitális technológia fejlődése a területen zajló kutatásnak újabb lökést adott n rövid beszédszeleteket próbáltak fonémaként besorolni n hosszabb egységek esetében az időbeli változatosságot (rövidülés, nyúlás) még nem képesek kezelni n hosszabb egységek esetén két megoldási javaslat: n n
a beszédet fonémákra kell szegmentálni, majd pedig a szegmenseket kell felismerni nagyobb egységeket (pl. szavakat) kell venni és az időtengely menti lehetséges torzulásokat ún. dinamikus idővetemítéssel kell kezelni
PDF created with pdfFactory trial version www.pdffactory.com
Később Hetvenes évek n az utóbbi megoldás letisztulása és elterjedése jellemzi n megpróbálják a felismerés során felhasználni a magasabb szintű (lexikális, szintaktikai, szemantikai) információkat n beszédfelismerés helyett beszédmegértés n célkitűzésük a rendszer helyesen reagáljon az elhangzott utasításra-a mondanivaló lényegét kellett megérteni Nyolcvanas évek n az ismeretalapú rendszerek iránti érdeklődés megcsappant n folyamatos beszédfelismerésre a dinamikus idővetemítési módszert ún. kapcsoltszavas felismeréssé egészítették ki n rejtett Markov-modell alapú felismerés alapja, hogy minden felismerendő egységhez tartozik egy valószínűségi modell, amely egy adott megfigyelést valamilyen valószínűséggel generál, kimeneteként a legnagyobb valószínűséget adó modellt választjuk
PDF created with pdfFactory trial version www.pdffactory.com
Később Kilencvenes évek: n HMM alapú rendszerek dominálnak n óriási adatbázisok készültek, melyek segítségével a felismerők rejtett Markov modelljei egyre több tanítandó paramétert tartalmazhatnak Utóbbi évek n multimédia elterjedése n a személyi számítógépek is képesek beszédfelismerésen alapuló alkalmazások futtatására a fejlődés miatt n audiovizuális beszédfelismerés PDF created with pdfFactory trial version www.pdffactory.com
Automatikus beszédfelismerés Az emberekhez hasonlóan a gépi felismerőnek is szüksége van tanulásra, mind a nyelvi, mind az akusztikus információt valamilyen formában előre be kell vinni a rendszerbe. Ha egy nyelv szókészletének egy részével és hangjainak paramétereivel (spektrum, időbeli lefolyás) és kiejtési szabályaival betanítunk egy gépi felismerőt, akkor lehet esély arra, hogy önálló szavakat vagy hosszabb kifejezéseket gépi úton felismertessünk. PDF created with pdfFactory trial version www.pdffactory.com
Kötetlen, folyamatos beszéd felismeréséhez vagy a nagy háttérzajban történő felismeréshez szükséges a nyelvi és tartalmi elemzés is, mint ahogy az ember is csak azt ismeri fel biztonságosan, amit megért.
PDF created with pdfFactory trial version www.pdffactory.com
A gépi beszédfelismerés folyamata Akusztikus előfeldolgozás: melynek során a beszéd információtartalmát jellemző paramétereket határozzák meg. Ennek során eltávolítják a beszélőre, annak hangulatára, és a környezetre vonatkozó adatokat. A beszédfelismerés célja a beszéd információtartalmának kinyerése. PDF created with pdfFactory trial version www.pdffactory.com
A gépi beszédfelismerés folyamata Mintaillesztés: Az előfeldolgozás után kapott paramétereket mintaillesztéssel vetik össze a referenciamintákkal vagy modellekkel, amelyeket a betanítás során készítenek és tárolnak el. A felismerés alapegységei lehetnek az egyes beszédhangok és ezek kombinációi (kettőshangok, hármas hangok, félszótagok, szótagok, szavak vagy akár hosszabb kifejezések). n n
n
Az angolban és számos más nyelvben a szavak a legalkalmasabb alapegységek. A magyar nyelvben a ragozás, toldalékolás miatt minden szónak több száz vagy akár ezer alakja is lehet, ezért a szavaknál kisebb egységeket szokás választani. A beszédhangok nemcsak attól függenek milyen hang van előttük/utánuk, hanem az akusztikai környezettől, a beszélő személyétől, nemétől, szociális és regionális hovatartozásától stb.
PDF created with pdfFactory trial version www.pdffactory.com
A gépi beszédfelismerés folyamata n
n
n
n
Ezen változékonyság kezelésére jelenleg a leghatékonyabb megoldást a rejtett Markov modelleken (HMM) alapuló statisztikus módszerek nyújtják. Ha a modellek jól be vannak tanítva, akkor minden kiejtett szót a saját modellje állítja elő a legnagyobb valószínűséggel. Szó helyett rövidebb és hosszabb egységekre is alkalmazható a módszer, de akár mondatok nyelvi modellezésére is. Folynak kísérletek egyéb módszerekkel, főként mesterséges neuron hálózatokkal (ANN), de ezek hatékonysága még elmarad a HMM technikától.
PDF created with pdfFactory trial version www.pdffactory.com
A gépi beszédfelismerés folyamata Nyelvi elemzés: az akusztikai illesztésnél legjobbnak bizonyult elemek sorozatából a legvalószínűbb szavakat vagy hosszabb szövegeket választhatjuk ki a szótárt és a nyelvtani ismereteket tároló tudásbázisból. n A beszédhangokon, mint elemi egységeken alapuló, ún. nyílt szótáras felismerés lehetővé teszi, hogy új szavak egyszerűen felvehetők legyenek a szótárba. A modelleket nagymennyiségű, beszédhangokra szegmentált mintával kell betanítani. PDF created with pdfFactory trial version www.pdffactory.com
Melyek azok a szintek, amelyeken a beszédet értelmezni lehet, s hogyan segíthetnek ezek a felismerésben? n n
n n n n
Fonetika – milyen hang lehet az? Fonológia – hogyan módosíthatták a hangot a szomszédai, állhat-e itt ilyen hang? Lexika, morfológia - van-e ilyen szó, szóalak? Szintaktika – helyes-e nyelvtanilag ez a szerkezet? Szemantika – van-e értelme? Pragmatika – vajon ebben a szituációban, szövegkörnyezetben miért ezt mondta?
PDF created with pdfFactory trial version www.pdffactory.com
Tudományterületek, amelyek érintettek a beszédfelismerésben: n n n n n n
Villamosmérnöki tudományok Akusztika, pszichoakusztika Neurofiziológia Kognitív pszichológia Nyelvészet Mesterséges intelligencia (induktív tanulás, fuzzy technológia, neurális hálózatok)
Szükséges a megfelelő információáramlás!
PDF created with pdfFactory trial version www.pdffactory.com
Alkalmazási lehetőségek Irányítás n Csupán néhánytucat vezényszót kell felismerni (pl. olyan rádiótelefon, mely betanítható hogy utasításra tárcsázzon). n Többnyire csak izolált szavakat kell felismerni. n Egyszerű esetekben a szókincs is olyan kicsi hogy az összest be lehet mondatni a felhasználóval. n Ha a vezényszavak elég különbözőek, megbízható felismerés érhető el.
PDF created with pdfFactory trial version www.pdffactory.com
Diktálóprogramok n
n
n
n
Feladat: hangról hangra leírni az elhangzott szöveget, bármiről legyen is szó, és bármilyen szavakat használjon is a beszélő. A nyelvtan a lehető legszabadabb, és a szótár a lehető legnagyobb - ezért az akusztikai-fonetikai szintű felismerésnek kell nagyon erősnek lennie. A szintaktika és szemantika kezelésére - sztochasztikus nyelvi modellek - becslést adnak arra, hogy egy szó milyen valószínűséggel fordulhat elő. Nagyon tiszta beszédet igényelnek, továbbá erősen beszélőfüggők.
PDF created with pdfFactory trial version www.pdffactory.com
Dialógusrendszerek n
n
n
n
n
Legtöbbször telefonos alkalmazások, amikor a gép és a felhasználó párbeszédet folytat. A párbeszéd célja lehet valamely adat lekérdezése adott adatbázisból, vonatjegy rendelése stb. A beszéd szükségszerűen zajos és folyamatos, beszélőfüggetlen felismerőre van szükség. A szókincs kicsi (1-2 ezer szó), a mondatok felépítése könnyen leírható, sőt a párbeszéd is megtervezhető – dialógus modellezés. Egy kérdés – válasz kör a következő lépésekből épül fel: beszédfelismerés, nyelvi elemzés, szemantikai elemzés, adatbázis lekérdezés, válaszgenerálás.
PDF created with pdfFactory trial version www.pdffactory.com
Magyar fejlesztések n n n n
Morphologic Kft. szótárprogramok fordítóprogramok Mobimouse
PDF created with pdfFactory trial version www.pdffactory.com
Néhány megvalósított rendszer Windows XP Tablet PC Edition A Windows XP Tablet PC Edition egyik legfontosabb újdonságai a hangvezérlési, illetve beszédfelismerési funkciók, melyek csak az angol nyelvet támogatják. Mikrofonon keresztül adhatjuk ki parancsainkat a számítógépnek, s érhetjük el a Windows vagy az alkalmazások különböző menüpontjait igen kényelmesen. A diktálás opció aktiválásával lehetőség nyílik rövidebb-hosszabb szövegek bevitelére is. PDF created with pdfFactory trial version www.pdffactory.com
FülElek A FülElek(R) Ability beszédfelismerő program használatával rendkívüli módon leegyszerűsödnek a szövegszerkesztéssel járó formázó, szerkesztési és fájlkezelő műveletek. A vezérlő parancsokat szóban is kiadhatja a felhasználó, méghozzá magyar nyelven. A program 37 parancsot ismer fel és hajt végre, melyek között sok olyan is szerepel, amit egérrel csak bonyolult módon lehet előhívni. PDF created with pdfFactory trial version www.pdffactory.com
Az Audi beszédfelismerő rendszere n
n
n
n
n
Segítségével szóban adott utasításokkal vezérelhető a navigációs rendszer, a rádióberendezés, az autótelefon-kihangosító legfontosabb alapfunkciói. A vezető vagy utasa szóban jelölheti meg az utcát, a házszámot vagy más egyéb úticélt, ezzel vezérelve az útvonalszámítást és útvonalvezetést. A rendszer különböző nyelvi stílusokat és nyelvjárásokat is megért. Azonosítani képes a gyors beszédtempó miatt összefolyó szavakat is. Az elektronikus zajcsökkentő hatékonyan kiszűri a mellékzajokat.
PDF created with pdfFactory trial version www.pdffactory.com
Beszédfelismerés radiológusoknak 10 nyelven A Speech Magic 10 nyelven a teljes radiológus szókincset tartalmazza, amivel 60 százalékkal csökkenti a dokumentációs időt a röntgenosztályokon.
PDF created with pdfFactory trial version www.pdffactory.com
Szájról olvasó, jelbeszédet értő számítógépek Sokkal jobban értjük a beszélő személyt, ha nemcsak hallgatjuk, de látjuk is. audiovizuális beszédfelismerés Az IBM Thomas J. Watson Kutatóközpontjában már négy éve fejlesztenek audiovizuális beszédfelismerő technológiákat. Csendben, gyenge és erős háttérzajjal tesztelték a rendszert. Sokkal jobb eredményeket kaptak, mint a csak audió kísérletek során.
PDF created with pdfFactory trial version www.pdffactory.com
Nyelvtanulás számítógépes szimulációval
„Immáron nem elég a háborúban diadalmaskodni, de a békét is meg kell nyerni. Esetleg úgy, hogy anyanyelvükön kommunikálunk, barátságosan elbeszélgetünk az ellenséges, illetve megszállt területek lakosságával.” A katonai felkészülés során igénybe vehető a játékalapú nyelvi szimulátor Tactical Language Training System: n az intelligens ágenseket alkalmazó játékok megkönnyítik, személyre szabják a sok gondot, fejtörést okozó nyelvtanulást; n interaktív viszonyban állnak a monitoron megjelenő, általuk választott gesztusokkal felvértezett avatárokkal, a helybélieket megszemélyesítő virtuális karakterekkel; n taktikus és praktikus, hadműveletek, békefenntartás közben bármikor bevethető tudásra tesznek szert. PDF created with pdfFactory trial version www.pdffactory.com
Beszélő számítógép n
A SpeakBoard segítségével magyar nyelven, természetes hangzású női vagy férfi hangon tudjuk felolvastatni a n n n n n n
n n
word dokumentumokat, e-mailjeinket, az Interneten található weblapokat, pdf dokumentumokat, szöveges állományokat és minden más a képernyőn megjelenő szöveget.
Pontosan és jól érthetően olvas fel, megkönnyítve a tanulást a diszlexiások számára. www.speecht.com
PDF created with pdfFactory trial version www.pdffactory.com
Vakok és gyengén látók számára n n
Profivox beszédszintetizátor Képes karaktersorozatok felolvasására és mesterséges intelligencia technikák segítségével fontos információkat nyer ki a felhasználók számára.
PDF created with pdfFactory trial version www.pdffactory.com
Rendszám-azonosító n
n
n
HP iPaq zsebszámítógépre kifejlesztett szoftver rendőrök használhatják az autóban vezetés közben megérti, visszabetűzi a beolvasott rendszámot és figyelmeztet, ha azt körözik
PDF created with pdfFactory trial version www.pdffactory.com
Játékok n
n
n n
Az első elérhető magyar nyelvű alkalmazás a korábban már nagy sikert aratott "Színözön" játék HP iPAQ Pocket PC-re készült változata. A játék vezérlése beszédhanggal történik. A program magyar nyelven ért. A szavak felismerése személyfüggetlenül történik, vagyis nem kell előzetesen betanítani.
PDF created with pdfFactory trial version www.pdffactory.com