Multimédia az audiovizuális beszédfeldolgozásban
dr. Czap László Miskolci Egyetem Villamosmérnöki Intézet Automatizálási Tanszék Miskolc, Egyetemváros e-mail:
[email protected] Abstract Audio-visual speech processing takes into consideration not only the voice but also the lip movements and gestures of the speaker. Software and hardware multimedia tools enable joint processing of voices and images. Human lip-reading experiments can improve the efficiency of speech reading by machines as well. Talking heads can support the speech recognition of hearing impaired people. Bevezetés Ha a beszélőnek nem csak a hangját, hanem a szájmozgását és gesztusait is figyelembe vesszük a beszéd felismerése vagy szintézise során, audiovizuális beszédfeldolgozásról beszélünk. A kép és a hang kezelése kínálja a multimédia eszközök alkalmazását. Az emberi kommunikációban nagy segítségünkre van, ha látjuk a beszélőt. Ez bátorítást ad arra, hogy a jelenséget felhasználjuk a gépi beszédfeldolgozásban is. Egyrészt a vizuális jel javíthatja a beszédfelismerő felismerési arányát, másrészt, ha a gépi beszédet grafikusan szintetizált beszélő fej képével kísérjük, sokat javíthatunk pl. a nagyothallók beszédfelismerésén. Az audiovizuális beszédfelismerés és a videó beszédszintézis szorosan kapcsolódik a képfeldolgozás fejlődéséhez, a modern számítástechnikához. 1. Audiovizuális beszédszintézis A zajos beszédre figyelő ember hasonló helyzetben lehet, mint a beszéd felismerésében korlátozott nagyothalló. Közismert, hogy a siketek képesek szájról olvasni. Nagy jelentősége van az olyan kutatásoknak, amelyek szintetizált képpel próbálják utánozni a természetes beszélő hangképzését, audiovizuális eszközökkel segítve a beszéd megértését. Egyes rendszerek műfejet ábrázolnak. [1] Az arc mimikáját háromdimenziós modell alapján utánozzák. A vizsgálatok szerint a természetes emberi arcot megközelítő mértékben javítja a műfej a beszéd megértését zajos környezetben és hallássérülteknél. A grafikusan szintetizált vizuális beszéd olyan előnyöket is kínál, amelyek a valóságos beszélőnél jobban megkönnyítik a szájról olvasást. Pl. a fogak és a nyelv mozgása láthatóvá tehető félig átlátszó szintetizált arcon keresztül. A szintetizált mozgás kódolása rendkívül tömör, mindössze néhány száz bit másodpercenként. A vizuális szintetizátorok másik része [2, 3] valóságos beszélő adatainak felvételéből alakult ki. Ebben az esetben a beszélő felismerhető, ugyanúgy, mint az emberi hangfoszlányokból építkező akusztikus szintetizátor esetén. Érdekes kutatás eredménye a háromdimenziós modell megalkotása a kétdimenziós képek alapján. Ennek látványos demonstrációja volt, amikor egy mozifilm egyik kockájától kezdve a főhős arcát a kutató a saját arcára cserélte. [4]
2. Audiovizuális beszédfelismerés Régóta ismert, hogy ha látjuk is a beszélőt, nem csak a hangját halljuk, jobban felismerjük a beszédet különösen zajos környezetben. [5] Annak vizsgálatához, hogy mit várhatunk az audiovizuális gépi felismerőtől, hasznos, ha ismerjük, hogy az emberi beszédmegértést mennyire támogatja a vizuális jel. A vizsgálatok szerint különösen a hang képzési helyének felismerését segíti. Ebben a kísérletben a természetes beszédhez meghatározott pillanatnyi energiájú zajt adtunk. A képet a vizsgált szó sorszámával feliratoztuk. Csak akusztikus jelnél a sorszám látszott, audio-vizuális vizsgálatnál a beszélő képe is. [6] Benoît és társai azt vizsgálták, hogy az arc mely részei a legfontosabbak a beszéd felismeréséhez. [7] A legtöbb segítséget a száj adja, de szinte az egész test alátámasztja (vagy éppen cáfolja) a mondanivalót. A beszédfelismerő rendszerek tervezésekor a következő kérdések merülnek fel: Hogyan találjuk meg a képen a beszélő arcát, az ajkait vagy más “beszédes“ testrészeit? Hogyan emelhetjük ki a lényeges vizuális információt a videojelből? Melyek a legfontosabb vizuális jellemzők? Hogyan lehet az audio és vizuális csatorna információit integrálni? A vizuális információ kinyerésére olyan algoritmusra van szükség, amely nem érzékeny a megvilágítás változásaira, a bőrszínre, a beszélő távolságára, mozgására, az arcszőrzetre, sminkre stb. Néhány rendszerben a kamera rögzített a beszélő fejéhez képest, pl. speciális sisakkal. Ha a beszélő szabadon mozoghat, első feladat az arc megtalálása. Ez rendszerint a bőrszín alapján történik. A bőr színezete elég érzéketlen a megvilágítás különbségeire és alig függ az emberi rasszoktól. Fekete- fehér képen a mozgás figyelése vezethet eredményre. A beszélő szája és álla végzi a legintenzívebb mozgást.[8] A hang és képi információk egyesítésére két módszer terjedt el: az elején vagy a végén egyesíthetjük a két úton kapott eredményeket. Ha az elején integrálunk, a felismerő bemeneti jeleként használjuk az akusztikus és a vizuális információt, és együtt dolgozzuk fel őket. Ha a végén integrálunk, a külön-külön feldolgozott eredményeket a végén vetjük össze. Létezik közbenső módszer is, amely az egyik jel feldolgozása közben veszi figyelembe a másik jelet. Máig megválaszolatlan kérdés, hogy az ember hogyan integrálja az akusztikus és vizuális jelet. Ennek vizsgálatára használják a McGurk hatást. 3. A McGurk hatás McGurk és MacDonald 1976-ban publikált cikkében adta közre a felfedezést, amely szerint, ha egy hangot hallunk egy másik hang képével párosítva, gyakran egy harmadik hangot érzékelünk. Tipikus példa, hogy b-t hallunk, g-t látunk és d-t érzékelünk. A jelenséget McGurk hatásnak nevezik. Az utóbbi két évtizedben az effektust igen intenzíven kutatják. Egyik oka az érdeklődésnek az, hogy azon kevés lehetőségek egyikéről van szó, amikor tiszta - zaj illetve torzításmentes – hanggal végezhetünk kísérletet. Az a jellemző ugyanis, hogy a tiszta beszéd vizuális rásegítés nélkül is tökéletesen érthető, így a beszéd vizuális támogatása nem érzékelhető. A McGurk hatás pedig tiszta beszédnél is fellép. Egyetemi hallgatók bevonásával a McGurk hatás zajfüggését és magánhangzó függését vizsgáltuk. Ismereteim szerint magyar anyanyelvű hallgatósággal Grasseger végzett kísérleteket, de a tesztelt szöveg osztrák akcentusú német nyelvű volt. Az első kísérletben –6, 0, illetve +6 dB-es jel-zaj viszonyú beszéd esetén vizsgáltuk a McGurk hatást. A különböző szótagokhoz ugyanazt a hangot szinkronizáltuk. A hallgatók
mindig b-t hallottak és b-t, d-t, g-t, vagy gy-t láttak. ‘B’ válasz esetén hang dominanciát, d-b párnál ’d’ válasz esetén kép dominanciát állapítottunk meg. Ha g-t vagy gy-t láttak, b-t hallottak és d-t válaszoltak, McGurk hatást regisztráltunk. Az eredmények (1. ábra) 0 dB-nél a Mc Gurk illúzió maximumát mutatják. Rosszabb minőségű beszédnél jobban hagyatkozunk a vizuális jelre, amit kép dominancia formájában is tapasztalhattunk. +6 dB-nél a hang ad több támpontot, amit hang dominancia formájában is érzékelhetünk. 0-dB jel-zaj viszony körül alakul ki a McGurk hatás maximuma. A csatolt videón Ön is kipróbálhatja a McGurk hatást. Az anyagon szótagokat hall és lát, mindegyiket kétszer egymás után. Az akusztikus és vizuális jel eltérő. Minden bemondásnál ’be’-t hallunk és mást-mást látunk. (Próbáljuk meghallgatni csukott szemmel.) Az első szótag a ’be’ (kétszer), nincs ellentmondás a kép és a hang között. A második szótag a ’de’. Ha ’de’-t hallunk, a vizuális jel dominál. Ezután ’ge’ és ’gye’ látszik és – ahogy már megszoktuk – ’be’ hallatszik. Ha ’de’-t érzékelünk, érvényesült a McGurk hatás.
70 60 50 40 30 20 10 0 -6 dB
0 dB
6 dB
1. ábra A McGurk hatás –6 , 0 és +6 dB jel-zaj viszonynál (%). A következő kísérletben az előbbi mássalhangzókat ‘a’, ‘e’, illetve ‘i’ magánhangzók követték. Az eredmények ‘e’ környezetben jóval több illúziót mutattak, mint ‘a’ hang előtt és kicsivel többet mint ‘i’ előtt.
80 70 60 50 40 30 20 10 0 a
e
i
2. ábra McGurk hatás különböző magánhangzók környezetében (%). A McGurk hatás eltérő arányának egy lehetséges magyarázata, hogy a három hang közül ez a legnyíltabb, itt látható legjobban a hangképzés. Összefoglalás A rohamléptekben fejlődő számítástechnikai eszközök és szoftverek lehetővé teszik olyan multimédia anyagok előállítását, amelyek az audiovizuális emberi beszédmegértés kutatását segítik. Olyan alkalmazásokat fejlesztenek, amelyek megkönnyíthetik a nagyothallók beszédmegértését és a gépi beszédfelismerés hatékonyságát is javíthatják.
Irodalomjegyzék 1. D. W. Massaro: Perceiving Talking Faces MIT Press, 1998. 2. T. Kuratate: Kinematics Based Syntesis of Realistic Talking Faces AVSP ’98 Sydney, 1998. 3. Philip Rubin, Eric Vatikiotis-Bateson: Talking Heads AVSP ’98 Sydney, 1998 4. S. Morishima: Real-time Talking Head Driven by Voice and its Application to Communication and entertainment AVSP ’98 Sydney, 1998 5. N. M. Brooke: Talking Heads and Speech Recognisers That Can See D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 6. L. Czap: Audio and Audio-visual Perception of Consonants Disturbed by White Noise and ’Cocktail Party’ ICSLP ’98 Sydney 7. C. Benoit, T. G. Marigny, B. Le Goff, A. Adjoudani: Which Components of the Face do Humans and Machines Best Speechread? D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 8. M. E. Hennecke, D. G. Stork, K. V. Prasad: Visionary Speech: Looking Ahead to Practical Speechreading Systems D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 9. H. McGurk, J. W. MacDonald: Hearing Lips and Seeing Voices. Nature, 264. 1976. 10. K. P. Green: The Use of Auditory and Visual Information in Phonetis Perception D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996.