Beszédfelismerés és –szintézis tételek: 1. tétel:
Emberi beszédlánc, beszéd szerkezete, beszédhang, beszédhangok osztályozása, fonéma
A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelenség tartozik. A természetes beszédlánc: Æ A beszéd szerkezete: A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. Beszédhang: A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA. Fonéma: Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő. A fonémakészlet elemei a fonémák. Beszédhangok osztályozása:
2. tétel:
Az emberi beszédképzés szervei, működésük, beszédképzés és beszédhang osztályok
Beszédképzés: rizsa… Beszédhang osztályok: ld. 1. tétel
3. tétel:
A beszéd, mint lineáris idővariáns rendszer, gördülő spektrum, formánsok
A beszéd, mint akusztikus jelenség, egy rendszer bizonyos gerjesztésekre adott válasza:
Az eredeti időfüggvényből egy ablak(vagy súly-)függvénnyel kiveszünk egy részletet. Pl. Hamming-ablak
Magánhangzók formánsstruktúrája: • gördülő spektrum • burkológörbe • csúcsai: formánsok (lok.max.) • ettől 3 dB mélységhez tartozó frekvencia-távolság: a formáns sávszélessége (B1-B2) • B3 3 kHz fölött van, már nem annyira fontos • mássalhangzók (felpattanó zárhangok): minden mgh-val együttállva különbözők lesznek a formánsai. • de mindig egy frekvenciáról indul ki a msh-nál: ez a lokusz B
4. tétel:
Lineáris predikció alapegyenlete, hiba, analízis és szintézis modell, az együtthatók kiszámolási módszerei beszédjel mintákból
A lineáris predikció alapegyenlete: A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával. Az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. A p a prediktor fokszáma. Predikciós hiba: - a becslés pontatlanságát jellemzi, mintáról mintára változik. - négyzetes összeg minimalizálása:
Analízis és szintézis modell:
Beszédfelismerők, beszédszintetizátorok elve:
Az αi lineáris predikciós együtthatók kiszámítása, hogy a négyzetes hiba minimális legyen. Æ
… deriváljuk:
= 0 Æ szélsőértékkeresés:
, vagy mátrix alakban:
, azaz:
Kovariancia módszer: A predikciótól azt kívánjuk meg, hogy az n0=p és n1=N-1 határok között legyen jó! Tehát az első p elemet nem kell jól becsülnie!
Autokorrelációs módszer: A 0 ≤ n ≤ N-1 indextartományon kívüli jelemeket zérusnak tételezi fel és a hibát n0= -∞ és n1= +∞ között értelmezi, a megoldandó egyenletrendszer mátrixa szimmetrikus, a főátlóval párhuzamos átlókban azonos elemet tartalmaz, az egyenletrendszer felírásához is csak p+1 darab együtthatót kell meghatározni. , ,
,
azaz
5. tétel:
Lineáris predikció és a PARCOR módszer
ill.
Saito és Itakura gondolata volt bevezetni az előre és visszairányú hibára együttesen jellemző Wp értéket:
k:
P A R ciális K O R relációs
együttható
Rekurzív formula:
Először kiszámoljuk k1-et minden n-re: s (n) = e0 (n) = f0 (n), majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető. Fontos: |ki|≤ 1 A PARCOR eljárás olyan beszédfeldolgozási eszköz, amely: 6-20 együtthatóval leírja a beszédjel egy szakaszát, az együtthatók rekurzív képlettel meghatározhatók, amodell stabilitása garantálható, az együtthatókból és valamilyen hibajelből a beszédjel előállítható.
6. tétel:
Lineáris predikció és az akusztikus csőmodell
A beszédkeltés akusztikus csőmodellje: Vékony cső. Itt a hullámok tengelyirányban terjednek. A hanghullám visszaverődése a csőfalról veszteségmentes. A toldalékcső csatolásmentes. A csőfalak merevek. Állóhullámú minták – NEGYEDhullámú rezonátor: bal végén zárt, jobb végén nyitott cső: P(x): hangnyomás, U(x): térfogat-sebesség. ¼, ¾, 5/4 hullámok… fn =
c=340m/s, l=0,17m c (2n − 1), n = 1,2,... F =500, F =1500, F =2500 1 2 3 4l
Állóhullámú minták – FÉLedhullámú rezonátor: cső zárt, ill. nyitott mindkét végén (1; 2 hullám):
fn =
c=340m/s, l=0,17m c n, n = 0,1,2,... F1=0, F2=1000, F3=2000 2l
A csőmodellen keresztül fizikai tartalom rendelhető a modellhez. A csőmodell paraméterei magából a beszédjelből meghatározhatók!
7. tétel:
Prozódikus jelenségek
Prozódia: (nem „mit”, hanem „ahogy” mondjuk) - a beszéd szupraszegmentális akusztikai jegyeivel foglalkozó tudományág. Szupraszegmentális: több szegmentumon (több fonémán) átívelő jelenség. Intonáció: Hanglejtés. Az alapfrekvencia (F0) változtatásaival produkáljuk. A zöngétlen hangok nem játszanak szerepet a beszéddallam alakításában. Hangerő: Elsősorban a tüdőből kiáramló levegő mennyiségével szabályozzuk. A hang intenzitásához kapcsolódik. Ritmus: Időtartamok. Ide tartozik a beszéd sebesség, bizonyos szótagok vagy fonémák nyújtása, és a szünet. Hangszín: Érzékelhető kommunikációs szerepe van, de hogy pontosan mi a hangszín, azt nehéz megfogalmazni, és még nehezebb mérni. Spektrális tulajdonság. Írásban a prozódiát írásjelekkel, időnként tipográfiai eszközökkel közelítjük. A kapcsolat azonban jóval kevésbé szoros vagy definiált, mint a betűk és az elhangzó fonémák között. Beszéd agyi szerveződése: Aszimmetria: A bal agyfélteke dominál a beszédképzésben és megértésben. A jobb agyfélteke leginkább a beszéd zenei jellemzőivel foglalkozik, vagyis a prozódiával. Embernél tipikus csak, állatoknál nincs aszimmetria. Nyelvenként változnak a prozódikus jelenségek (nyelvcsaládok – hasonlóság…) Univerzális szabályszerűségek: biológiai okok:
• Alapfrekvencia deklináció és terjedelem redukció (fogy a levegő)
• Hangerő csökkenés (fogy a levegő) Æ • Szavak csoportokba szervezése (frázis tagolás) • Szillabifikáció (szótagok képződése) Hangerő – hangzósság: Azonos képzési erőhöz különböző mérhető hang intenzitás tartozik a különböző fonémáknál. (Az u hangot jóval erősebben kell kimondani, hogy ugyanannyira hallatszódjon, mintha az a-t akarnánk kimondani...) A hangerő megválasztása elsősorban a fizikai és pszichikai „távolsághoz” igazodik. – előadás/párbeszéd; bizalmas/távolságtartó. Szavak csoportokba szervezése: Nem biztosan van biológiai ok. Frázisvégek: jell. Hanglejtés minták (nem mondatvégnél emelkedő dallam) + szünet. Mondat: levegővételtől levegővételig. Eső alapfrekvencia. Utána szünet. Szillabifikáció: Szótagokba sorolás. Érződik, hogy van természetes határ. Alig biztos a biológiai ok.
Prozódia a beszédben: Könnyíti a szöveg értelmezését – tagolás, hangsúlyozás. + hangulat, érzelmi állapot, indulatok. Szintaktika (tagolás), pragmatika (milyen cselekvéshez használjuk), ill. szemantika (tonális nyelvek – mandarin: más dallam más jelentés) Hangsúlyozás: Több erőt fejtünk ki a hangsúlyos szótagra: ez fontosabb. Ütem-, szakasz-, mondathangsúly. Prozódia a beszédtechnológiában: Beszédszintézis: jó TextToSpeech rendszereknél kb. természetesen hangzó szöveg (hírolvasó). Új: Expressive Speech Synthesis. Beszédfelismerés: gyerekcipőben… Dialógus rendszerek: szóátvétel…
8. tétel:
Alapfrekcencia meghatározó algoritmusok
Alapfrekvencia (F0): a hangszalagok pillanatnyi rezgésszáma. Csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben. – Fizikai mennyiség. Pitch: ~ hangmagasság. Érzeti mennyiség. Azonos frekvencia ~ azonos pitch. A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. PDA – Pitch Detector Algorithm: a beszédjelből a pitch kontúrt képes előállítani. VDA – Voicing Detection Algorithm: A PDA-nak része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős. Pitch-kontúr előáll: Haladunk ablakról ablakra, mindegyikre adunk egy alapfrekvencia becslést (tipikus hossz: 20 – 40 ms, lépésköz: 10 ms, általában átfedik egymást). ACF: Auto Correlation Function (autokorreláció függvény): t+w / 2
rt (τ ) =
∑ s(i) * s(i − τ )
i =t − w / 2 t+w / 2
∑ s(i)
i =t − w / 2
2
s(t) – a beszédjel; w – az elemzett ablak hossza
F0 = fs / τ *
ahol τ * az rt (τ ) " legjobb" csúcsa.
Csúcskiválasztás… Detekciós hibák: - oktávtévesztés, pontatlanságok F0-nál, zöngés/ztlen tévesztés.
ASDF: Average Squared Difference Function: F0 = fs / τ * ahol τ * az d t (τ ) " legjobb" mélypontja.
t+w / 2
d t (τ ) =
∑ [s(i) − s(i − τ )]
i =t − w / 2
t+w / 2
2* t+w / 2
d t (τ ) =
CEPSTRUM(x) = IFFT ( LOG ( |FFT(x)|) )
∑ s(i)
2
i =t − w / 2
AMDF: Average Magnitude Difference Function: Cepstrum:
2
∑
s (i ) − s (i − τ )
i =t − w / 2
w
LPC: Csúcsokat keresünk a Lineáris Predikciós Együtthatós hibajelben: pitch-mark kijelölés. ACF: sok a hiba Æ előfeldolgozás: aluláteresztő szűrő, középre vágás. „s” „sz” „c” eltűnik. Összetett PD struktúra: PDA kiértékelés Æ beszédadatbázisok, amiben a zöng/ztlen szakaszok, alapfr. értékek címkézve. Laryngográf. Zöng/ztlen megkülönböztetés: csúcsnagyság, beszédablakenergia vs. küszöbérték. Hangmagasság módosítása: PSOLA – overlappingolás: LPC határok átfedődése…
9. tétel:
Beszéd és érzelem
Kommunikáció: üzenetváltások közös kód alapján kódolás és dekódolás is történik. Verbális kommunikáció: a kód előzetes megállapodással lett közössé pl. (jel)nyelvek, protokollok Nem verbális kommunikáció: van közös kód, de nem megegyezés eredménye (érzelmi – biol. alap) Verbális csatornák: beszélt nyelv, egyezményes jelek Nem verbális csatornák: vokális expresszió, tekintet, gesztusok, távolság, emblémák [vö. prozódia] Kódosztás a csatornák között: Az érzelem felismerése lassabb és bizonytalanabb, ha csökkentjük az elérhető nem-verbális csatornák számát. Brunswick: adó, érez => sok érzelmi csatorna Æ a csatornákat dekódolja => fölfogja az érzést a vevő. Metakommunikáció: komm. a komm.-ról Az emberi közlésfolyamat mindig kétszintű: akaratlagos + spontán („minősíti” érz. tartalom. – akarattól független, nem tudjuk kihagyni Æ őszinte). A/D párhuzam. Emóciók – belső biol. szabályozás + külső megfigyelő befolyásolása (kommun.) - homeosztázis, hormon-egyensúly billentése, betegségek Elsődleges érzelmek: kéreg alatti területek, szenzoros inputmintákra automatikusan. Őszinte. Másodlagos érzelmek: prefontális kéreg is, mentális képek közbeiktatásával váltódik ki. Féltekei aszimmetriák: az érzelmi prozódia inkább jobb féltekés, a grammatikai inkább balféltekés. Diszkrét emóciók: alapérzelmek: meglepetés, félelem, harag, öröm, szomorúság, undor [by arckifej.] Folytonos emóciók: (feeltrace) aktív—passzív, kötöttség +/-, erősség, intenzitás – átmenetek. Érzelmes beszéd adatforrások: Érzelem portré: színészek beszéljenek. Valódibb: önkéntesek hangulati befolyásolása.
10. tétel: Beszédszintézis alapelvei, problémái, példa a számfelolvasó
11. tétel: Jóminőségű beszédszintézis megoldásai
12. tétel: Izolált szavas felismerők alapproblémái, a felismerők elemei, idővetemítés
13. tétel: Rejtett Markov Modell a beszédfelismerésben
14. tétel: Folyamatos beszédfelismerő neurális hálózatokkal
15. tétel: Beszédjel tömörítés
16. tétel: Beszélő személy felismerés
17. tétel: Multimodális beszéd