Beszédinformációs rendszerek

Beszédinformációs rendszerek 2. 3. előadás, beszédakusztika gyakorlat

A beszéd akusztikai leírása Vicsi Klára

1. A beszédfolyamat akusztikai jellemzői A beszéd nyelvi jelentéssel bíró akusztikai produktum, számos nem nyelvi jelentést hordozó információval. Az érzelmek (harag, izgalom, öröm, panasz, csodálkozás, gyengédség, ijedtség, stb.) szintén jelentősen befolyásolják a hang fizikai paramétereit. Beszéd igen erősen redundans. Informaciót több síkon hordozza: Beszédhang szintű leírás

-

szegmentális szerk.

Szó, mondat szintű leirás

-

szupraszegmentális szerkezet

1.1. A beszéd, mint összetett akusztikai jelzés A beszéd, tekintettel a szavak közötti szünetekre, voltaképpen különálló rezgések sorozata. Ezeket a rezgéseket bonyolult, összetett és koordinált fiziológiai működéssel hozzuk létre. De nemcsak létrehozását tekintve összetett folyamat a beszéd, hanem megjelenési formája is mutatja az összetettséget, tehát akusztikailag is összetett jelsorozat. Ha a beszéd nem lenne egyéb, mint az írásjelek hangos megjelenési formája, akkor nem éreznénk kifejezőbbnek, elevenebbnek a nyomtatott, vagy írott betűnél. A beszéd által hordozott mondanivaló minőségileg különbözik az írott szóalakokkal kifejezett fogalmi jellegű tartalmaktól. A beszédben kifejezésre jutó, fogalmi szintet el nem érő érzelmi, hangulati jellegű információnak a megvalósulását a komplex természetű akusztikai jel teszi lehetővé. Milyen paraméterekkel jellemezhetjük a beszédet, mint komplex akusztikai jelet? 1. A beszédhang nyomás, beszédintenzitás, beszédteljesítmény hangnyomás 1Pa = 1 N/m2 = 0,10 cm vizoszl. A hangforrás a légnemű és folyékony közegben – aránylag egyszerűen követhető fizikai folyamattal – nyomásingadozást kelt. Ez a nyomásingadozás igen kicsi és a légköri (sztatikus) nyomás értékére szuperponálódik, vagyis annak hangfrekvenciás ingadoztatásában nyilvánul meg. Az időbeli változás tehát

p 0 + p(t )

alakban jelentkezik, ahol a hangot kifejező második tag valamilyen nyomásváltozást lejegyző berendezéssel ugyan rögzíthető, de amelynek időbeli középértéke zérus:

p(t ) =0.

Az arány

p 0 és p(t) csúcsértéke között normális beszéderősség esetén egy milliómod, a

szokásos legerősebb zajok mellett még mindig egytized rész.

Maga a p(t) függvény tartalmazhat periódusos és statisztikusan ingadozó elemeket, de az ún. alapzajtól eltekintve véges ideig tart és rendszerint berezgési és lecsengési elemekkel is rendelkezik. Tehát matematikailag rendkívül bonyolult függvény. Ezért a megismerés formája rendszerint nem az időbeli lefolyás rögzítése, hanem az időbeli négyzetes középérték,

p eff =

1 p (t ) = t 2 − t1 2

t2

∫p

2

(t )dt

t1

megállapítása. A négyzetes középérték mérése nemcsak fizikai kényszer, hanem egyben biológiai is. A fül ugyanis sokféle elemző és értékelő tevékenység során saját négyzetes jelleggörbéjét is kihasználja és a négyzetes középértéket, az ún. effektív értéket érzékeli. Tárgyalásaink során hangnyomáson (p) mindig effektív hangnyomást értünk. A hangtér teljes jellemzésére egyedül a hangnyomás nem elegendő. Vagy még egy téradatot, vagy a hangtér „impedanciáját” ismernünk kell hozzá. Szabad térben haladó síkhullámok esetén a térösszefüggések egyszerűen fejezhetőek ki:

a részecskesebesség: v =

a sűrűsödés: s =

a kimozdulás:

p , és a fázisban nincs eltérés; ρc

p , és szintén fázisban marad; ρc 2

ξ=

v 2πf

=

v

ω

, és 90◦-ot késik;

a gyorsulás: a = vω, és 90◦-ot siet.

Az összefüggésekben a pc kifejezés (a közeg nyugalmi sűrűsége és a terjedési sebesség szorzata, egysége: kg /( m s ) = Pas / m = Ns / m = MKSRayl ) a közeg valós impedanciája, akusztikai keménysége. Síkhullámok esetén valós érték, ami méréstechnikai szempontból igen nagy szerencse. 2

Néhány nyomásérték összehasonlításként: sztatikus nyomás

→ 1 atm ∼ 105 Pa

beszéd nyomásingadozás

→ 10-2 10-1 Pa

3

2 ⋅ 10 -5 Pa

hallásköszöb

→

fájdalomküszöb

→ 20 Pa

energiaáramlás[Ws/m3] energia → hangrezgések mechanikai energiája egy adott térrészre igaz: Eössz − E nyug = E hang

p2 [Ws/m3] hangenergia-sűrűség: E = ρ ⋅c E [Ws/m3], c [m/s],

ρ

[kg/m3], p [N/m2]

hangenergia továbbítása → hangsugárzás hangteljesítmény (P): a hangforrás körüli képzett gömbfelületen időegység alatt átáramlott összes energiamennyiség [Watt] hangintenzitás (I): egységnyi felületen merőlegesen időegység alatt átáramlott energia [W/m2] (1.1. ábra)

1.1. ábra

I=

ρ ⋅c

p2 ρ ⋅c = akusztikai keménység

Decibel érték – színtérték hallásküszöb: I 0 = 10

−12

p 0 = 2 ⋅ 10 −5 Pa

W / m2 ,

P = 2 ⋅ 10 2 Pa

kiabálás több nagyságrend átfogás.

A könnyebb kezelhetőség miatt bevezették a szintértékek használatát:

LB = log tizede:

I = log I − log I 0 I0

Bel [B]

LdB = 10 lg 10 log

2.

3.

4.

I = 10 lg I − 10 lg I 0 deciBel [dB] I0

W P2 P = 10 log 2 = 20 lg W0 P0 Po

Mivel az intenzitásszint a beszédfolyamatban állandóan hullámzik, meg kel különböztetnünk az átlagos intenzitásszintet az intenzitásszint csúcsoktól. A beszédintenzitás szintet a folyamatos beszéd valamely időközre vonatkoztatott effektiv értékével jellemezzük. Az időköz mértéke szerint megkülönböztetünk pillanatnyi és hosszabb időközre vonatkoztatott átlagos értéket. A beszédfrekvencia [Hz], amely a folyamatos beszéd átlagos alapfrekvenciáját jelenti, férfiaknál 100-200 Hz, nőknél 150-300 Hz, gyermekeknél 250-600 Hz. A beszéd hangmagasságának változásai a mondatok dallamformáit alakítják ki. Minél több emócióval telített a beszéd, annál jobban érvényesül benne a melodikus elem. A beszéd akusztikumának fontos jellemzője a beszédszínkép, amely a frekvenciaösszetevők intenzitásszintjeinek összessége. A beszédhangok jellemzői, de a megváltozott színkép tükrözője lehet a beszélő állapotának. A beszédszínkép jellemzi a beszélőt is; meg tudjuk róla ítélni, hogy férfi, nő, vagy gyermek beszél-e, fiatal-e, vagy öreg, stb. Az időtartam, tempó és szünetek összefüggésben vannak a beszélő egyén karakterével, vagy érzelmi állapotával. De van logikai funkciójuk is. Kiemelik a nyomatékos mondanivalót, felhívják a figyelmet valami olyan értelmezésre, amit a szó önmagában nem fejez ki.

A beszédben az akusztikai összetevők a legváltozatosabb módon kombinálódnak, s lehetővé teszik, hogy a beszéd, mint komplex akusztikai jelzés az árnyalt és differenciált közlés eszköze legyen. A beszédhangok frekvenciái kb. 70 Hz-től 10 000 Hz-ig terjednek. A legnagyobb teljesítményt az 500 Hz körüli összetevők hordozzák. Ha 400 Hz alatti frekvenciákat levágjuk, az energia fele, ha 800 Hz-ig vágjuk, az energia negyedrésze marad meg. A magas hangok levágása az energiát csak kismértékben csökkenti. A beszédproduktumban az energia nagyobb része a magánhangzókhoz kapcsolódik. Szavakról felvett hangnyomásgörbéken a magánhangzók mindig nagyobb teljesítményértéket mutatnak. Ha a beszélő megemeli a hangját, hangosabban beszél, általában a frekvencia összetétel is megváltozik. A nagyobb hangerő esetén a nagyobb frekvenciájú felhangok intenzitása nagyobb mértékben erősödik fel, mint a kis frekvenciájúaké.

Az átlagos beszédszínkép A beszéd pillanatról pillanatra változó alapfrekvenciájú, intenzitású és színképi eloszlású hangjelek egymásutánja. A hangközvetítés, a beszédérthetőség, a beszéd akusztikai jellegének megállapítása céljából szükséges megismernünk a beszéd egészére jellemző színképi eloszlást. Milyen frekvenciájú és amplitúdójú hangok dominálnak a beszédben? Milyen a részösszetevők viszonya a beszédben? Ezekre a kérdésekre akkor tudunk feleletet adni, ha ismerjük a beszédszínképet. Mi a beszédszínkép? A beszédszínkép a beszédben előforduló hangok átlagos színképi eloszlást tünteti fel az amplitúdó és a frekvencia függvényében. A beszédszínkép megállapításához „beszédzörejt” teremtünk, amely nem más, mint sok beszélő beszédéből kapott, homogén eloszlású, időben állandó színképű zörej. A beszédszínkép megállapítására alkalmas módszer kidolgozása Tarnóczy Tamás nevéhez fűződik (Tarnóczy, 1970, 1971). Az elemzés alapjául szolgáló zörejt több személy egy időben lefolyó, különböző szövegű beszédének együttes hangzása teremti meg. A beszédzörejről kapott beszédszínkép a kísérleti személyek ejtésének átlagos színképi eloszlását mutatja. (1.2. ábra)

1.2. ábra

A beszédszínkép meghatározásához a következő módszert használják: A legtöbb esetben 10 személy olvas fel folyamatos szöveget 10 mikrofonba. A mikrofonok áramát felerősítve, egyetlen szalagra veszik fel a hangkeveréket. A szalagot visszajátszva egyetlen beszédzajt lehet észlelni, amelyet elemzési módszerekkel vizsgálnak. A magyar hangképzésből eredő átlagos beszédszínképet Tarnóczy vizsgálatai alapján ismertetjük. A 62 személy beszédéről készített átlagos színképet ábra mutatja be. A férfiak beszédében három amplitúdócsúcs emelkedik ki az első 100 Hz-en, a második 260-270 Hz-en, a harmadik 510 Hz-en jelentkezik. A nők beszédében két energia csúcsot vehetünk észre: az első 200 Hz-en, a második 510 Hz-en jelentkezik.

1.2. A beszéd szegmentális szerkezete

Egy beszédhang akusztikai tulajdonságait a gerjesztés típusa és a képzés helye (a hangképző csatorna állapota ) együttesen határozzák meg. Ehhez járul még a száj sugárzási ellenállásának a hatása.

1.3. ábra Hangképző csatorna

1.1.táblázat Artikuláció – hangképzőszervi mozgások összessége a beszéd folyamán A hangképzőszervek

A beszédképzés folyamata

1. tüdő

Respirációs (légzési szakasz)

2. gégefő

Fonációs (zöngeképzési szakasz)

3. toldalékcső

Artikulációs (hangképzési szakasz)

A beszédhang, mint rezgés Az emberi beszédhangnál, akár beszéd, akár énekhang azonos a keltési mechanizmus. Tüdő, a hörgők és a légcső adja a szükséges levegőáramot. A kitóduló levegő útját a hangszalagok rugalmas hártyaként zárják el. A hangszalag alatti térségben a levegő túlnyomása (szubglottikus nyomás) normális erősségű beszédnél 4-5 cm vízoszlop (40-50 Pa) nyomásnak felel meg, kiabáláskor 20 cm vízoszlop (200 Pa), a légköri nyomás 100 000 Pa.

orrüreg szájüreg nyelv

ajkak

ínyvitorla

fogak

garatüreg

pitvar

gégefő légcső

tüdő

1.4. ábra A beszédet létrehozó szervek Hangszalagok – rugalmas kötőszöveti redők. Levegőáramlásnál – alakú hangrés keletkezik: szubglottikus túlnyomás – szétfeszíti a hangszalagokat, a kialakult hangrésnél a levegő részecskék sebessége nő, a nyomás csökken, összezárul a hangszalag: v∼

1 p

Bernoulli-elv

A résen kitóduló levegő részecskéi longitudinális rezgést végeznek. A hangszalagok periodikus mozgássorozata határozza meg a hang magasságát. (f0) A hangadás a fonáció. A keletkezett hang a zönge. Öngerjesztett rezgés – a gerjesztő forrás nem a hangszalagok mozgása, hanem a résen kiáramló levegőimpulzusok. A hangszalagoknak vezérlő szerepük van.

Gégeizmok működését idegi szabályozás révén végezzük. Fonáció vezérléséért alsó szinten a nyúltagyi központok a felelősek.Sérülésükkor a hangszalagok bénulása következik be. Nyelv, ajak mozog. Felső szinten a Brocka féle mező valósítja meg a beszédképző szervek irányítását. Irányítás a X. agyideg ágain történik. Néhány tipikus hangszalagállást az 1.5-1.7. ábrákon mutatunk be.

1.5.

1.6.

1.7..

1.8. ábra

A rezonancia szerepe a hangképzésben A hangképzésben szerepet játszó toldalékcsőnek, mint akusztikai üregnek – a tordalékcső alakjától, falainak szilárdságától stb. függően sajátos önrezgései vannak, s ezeknek az önrezgéseknek a frekvenciái szabják meg a beszédhangok színezetét. A toldalékcsövet változó akusztikai szűrőknek tekinthetjük, amelynek rezonáló tulajdonságai a beszédhang színének alakításában vesznek részt. Megnagyobbodott toldalékcső az alacsonyabb felhangokat erősíti, a kistérfogatú üregrendszer a magasakat emeli. A hangrés alatti légcső is rezonátorként viselkedik. Ez mélyhangú rezonátor, amely az egyéni hang-színre az egyik legjellemzőbb tényező.

1.2.1. A magánhangzók akusztikai leírása A magánhangzók leírása rezonanciaelmélettel A száj – garat – orrüreg, mint összetett üregrezonátor rendszer szerepel.

Rezonátor rendszer T0

P (ω)

T0

1.9. ábra A rezonátrorendszer eredő átvitelének (P(ω)) kialakulása a következő: Zönge függyvény U(ω) (1.10. ábra) Hangszalagok rezgése által keltett hangnyomás változás háromszög alakú periodikus függvény szerinti, amelynek színképében a felharmonikus összetevők intenzitása 12 dB/okt. esik.

f i = ni f 0

I -12 dB/okt

U(ω)

f

fi

f0

1.10. ábra

ni = 1,2, Üreg átviteli függvény T(ω) (1.11. ábra) Üregek rezonanciái, zérushelyei felerősítik, elnyomják vagy megszüntetik az adott felharmónikust. F1 I

3 dB

F2 3 dB

B1

B2

F3 3 dB

T(ω)

B3 f 1.11. ábra

Hangképző üregek átviteli függvényében a maximum helyek az F1 F2 F3 formáns frekvenciák, B1B2B3 a sávszélességek

Sugárzási ellenállás R(ω) (1.12. ábra) Csatolás a térbe ahol 6 dB/okt a felharmonikusok emelése

I + 6 dB/okt. R(ω)

f0

fi

f 1.12. ábra

eredő színjép:

P(ω ) = U (ω ) ⋅ T (ω ) ⋅ R(ω ) (1.13. ábra)

I - 6 dB/okt

P (ω) f

A magánhangzók leírása csőelmélettel:

1.13. ábra

=

17

20 cm3 ~ 500 Hz hangszalag

szájnyílás

F2 =3C/4l

F3 = 5C/4l

1.14. ábra Felhangtartalom milyensége határozza meg a magánhangzók hangszínét

A beszédhangképzés helye Az artikuláció során a hangképzőszervek mozgásával hangoljuk a hangképző üregeket, evvel a T(ω) függvényt változtatjuk meg. A nyelv visszintes és függőleges mozgásával használt leggyakoribb előfordulásokat a táblázat mutatja.

~ 1500 Hz

~ 2500 Hz

1.2. táblázat A nyelv szerepe a magánhangzók képzésében:

A nyelv vízszintes mozgása szerint:

Hátul képzett (veláris) Felső nyelvállású Középső nyelvállású

A nyelv függőleges mozgása szerint

Alsó nyelvállású Legalsó nyelvállású

Középen (mediális)

képzett

Elöl képzett (palatális)

Felső Felső-középső Középső Középső-alsó Alsó

A képzési hely függvényében létrejövő színképi változásokat jól szemlélteti a 1.15. ábra. Az állkapocs mozgás a nyelv függőleges mozgásával szinkronban változik. Amennyiben az állkapocs nyílik → F1 nő, F2 megközelítőleg állandó, ha a nyelv hátramozdul, és száj kerekedik → F2 csökken, F1 állandó. Az i artikulációs képzési helye megegyezik az ü hang képzési helyével, de ajak kerekedik, ezért F2 csökken.

1.15. ábra Magyar magánhangzók jellegzetes spektrum szórásképei Bark-sávos elemzés esetén (Vicsi, 1994) A magánhangzók állománya nyelvenként változik. Vannak nyelvek, ahol csak néhány magánhangzó van, mint például a Japánban, de más nyelvek például a svéd 20-nál több magánhangzót használ. Különböző nyelvek magánhangzóinak képzési helyeit a 1.16. és 1.17. ábrák mutatják.

1.16. ábra

1.17.ábra Spanyol, japán, angol magánhangzó állomány

1.18. ábra Az F1 formánsfrekvencia szórásterületek ábrázolása az F2 függvényében, angol magánhangzók esetén, IPhA simbólumokkal jelölve

A F1 formánsfrekvencia ábrázolása az F2 függvényében gyakori ábrázolási forma, amely az 1.18.-1.21. ábrákon tanulmányozható angol magánhangzóknál, magyar férfiak és magyar női ejtésben. Az ábrákon a magánhangzók IPhA jelölésrendszerben lettek feltüntetve.

F2 frekvencia (Hz)

magaselől

alacsonyelől

alacsonyhátul 1.19..ábra Angol magánhangzók F1, F2 grafikonja IPhA jelölésrendszerrel

magashátul

F1 frekvencia (Hz)

(Tarnóczy)

1.20. ábra Magyar férfi magánhangzók F1, F2 grafikonja IPhA jelölésrendszerrel

(Tarnóczy) 1.21. ábra Magyar férfi magánhangzók F1, F2 grafikonja IPhA jelölésrendszerrel

Nasalitás hatása

1.22. ábra Spectra of a nonnasal vowel and the murmur portion of a nasal consonant

1.23. Ábra: „Didn’t you see me?”mondat spektrogramja hasonlítsa össze az „i” nem nazális magánhangzót az „n” nazális mássalhangzóval a „didn’t” kifejezésben

A szomszédos hangok hatása A magánhangzók színképét a mássalhangzók képzési helye befolyásolja. A 1.24 ábrán sematikusan mutatunk be egy példát a formánsok alakulásra izolált magánhangzó kiejtésekor és zárhangok környezetében.

transient part

f F3

F3 F2

F2 F1 t

30 ms

u

d

u

30 ms d

F1

quasy stacioner part

1.24. ábra

A személyek hatása a színképre F1 F2 ábrán beszédhangok szórásképe átlapolódik (1.18 – 1.25. ábrák) egy nem ejtésén belül is. Nemek szerint is különválnak az F1 F2 helyek: férfiak esetében lényegesen alacsonyabbak, mint nők esetén, és gyermekeknél a legmagasabb.

111111111111111111

1.25. ábra Az F1 F2 helyek eltolódásának aránya hangcsoportonként változik (1.25. ábra) Ez jól látható az ábrán. Férfi – nő – gyermek színkép F1F2 együttes ábrázolásában.

NORMALIZÁCIÓS PROBLÉMA F0 férfi:

80-150 Hz

nő:

150-250Hz

gyermek:

200-550 Hz

üregméreten múlnak a különbségek, nem csak az alaphangon

1.

Időtartam-ritmus

gyakoriság

Magánhangzók időtartama ~ 60 ms – 300 ms között változik.

100 ms rövid

t

150 ms hosszú

1.26. ábra

Időtartam változással csak a quasi-periódikus szakasz ideje változik. Átmenet időtartama közelítőleg változatlan. Ez általában is igaz: a bszdétempó változásaival is a stacioner szakaszok hossza változik, a tranziensek időzítése alig. A

t

30 ms

30 ms

1.27. ábra

A 30 ms

30 ms t 1.28. ábra

1.2.2. Mássalhangzók A képzés során a szájüregben akadály képződik, melyen a levező átáramolva, vagy az akadályt megszüntetve zörej keletkezik. Vannak rezonáns jellegű mássalhangzók és zörej jellegű mássalhangzók, amelyek lehetnek: zöngések és zöngétlenek. 1.2.2.1. Réshangok Artikulációs leírás: A hangképző csatornában kiáramló levegő szűk résen halad át. Turbulens áramlás keletkezik. A hang keletkezésének kétüreges modelljét az 1.29.ábra szemlélteti.

1.29.ábr.

P (ω ) = T (ω ) ⋅ R(ω ) ⋅ Z (ω ) T = pólus formáns Z = zero antiformáns Kritikus áramlási sebességet, amelynél a turbulens zaj keletkezik a Reynold számmal (Re) fejezzük ki.

Re = v ⋅ h / υ v = áramlási sebesség [m/s] h = szűkűlet átmérője [m]

υ = viszkózitás kinematikus koeficiense (0,15 cm2/s levegőnél) beszédzajra Re > 1800 A tipikus képzési helyeket az 1.30. ábra mutatja.

1.30. ábra Tipikus képzési helyek

Akusztikai leírás Artikulációs konfiguráció és a kialakult színkép közötti összefüggést mutatja az 1.31. ábra. Képzésnél a rés hátrafelé tolódik a velum (lágy szájpad) felé → színképi energiasúlypont lefelé tolódik. Sziszegő

–

pl.: s, S

nem sziszegő pl.: f, v

Réshangok esetén a szomszédos hangok kis hatással vannak a színkép alakulására. Személyfüggés → nincs Időtartam, ritmus: 100-200 ms, hosszú mássalhangzó → 200 - 300 ms

0 – 10 – 20 – 30 – 40 – dB

0 10

– – |

|

|

|

|

|

|

|

|

|

|

2 4 6 8 10 12 14 16 18 20 450

1000 1850 3400 7700

|

|

|

|

|

|

|

|

|

2 4 6 8 10 12 14 16 18 20 450

1000 1850 3400 7700

Bark Hz

1.31. ábra Színképi szórásterületek változása a képzési hely függvényében

1.2.2.2.Zárhangok Zörej jellegű mássalhangzók. Gerjesztés a zár felpattanásával történik. A létrejövő zörej a zárfelpattanási zörej, amelynek színképi súlypontja a képzés helyétől függ.

Artikulációs leírás locus: a mássalhangzó képzési helyének akusztikai vetülete

1.32. ábra

(Ray D. 1992)

Akusztikai leírás akusztikailag összetett beszédhang :zárképzési tranziens és zörej után következik a zár, majd a zárfelpattanás zörej. zárképzési hely – színképi súlypont, mint a réshangnál (1.33. ábra)

1.33. ábra

Időtartam, ritmus zár ~ 80 - 100ms felpatt. zörej ~ 5 - 40 ms + aspiration hosszú mássalhangzó – csak a zár időtartama nő meg, ~ 100 – 300 ms

1.2.2.4 Affrikáták Zár és rés képzése rövid egymásutánban. Artikulációs leírás

1.34. ábra

Akusztikai leírás locus képzési hely szerint Akusztikailag összetett beszédhang: zárképzési tranziens és zörej, zár, zárfelpattanási zörej, spiráns zörej. zár-réshangok képzési hely → színképi súlypont, mint a réshangoknál Időtartam:

zár ~

50-100 ms

zárrés ~

50-100 ms

hosszú mássalhangzó → csak a zár időtartama növekszik

1.2.2.4. Nazálisok rezonáns jellegű mássalhangzók Artikulációs leírás a velopharyngeal rész nyitott, levegő áramlik az orrüregen és a szájüregen keresztül – nazális magánhangzók csak az orrüregen keresztül – nazális mássalhangzók.

1.35. ábra

1.3. táblázat Nazális, orális képzés összehasonlítása

Nazális mássalhangzók

Orális zárhangok

Orrüregen keresztül

szájüregen keresztül

folyamatos

pillanatnyi

nem felpattanó zár (okklazíva)

felpattanó zár (explozíva)

zengő

nem zengő

Levegőáramlás helye A tényleges hangképzés időtartama A képzés módja Hangzósság Akusztikai leírás

az átviteli függvény tartalmaz pólusokat és zérusokat nazális formáns frekvenciája 250 – 300 Hz (1.36. ábra)

1.36. ábra

(Ray D. 1992)

a többi formánshely a képzés helyétől függ. Antiformáns helyek alacsony (750 – 1250 Hz), középső (1450 – 2200 Hz) és magas (3000 Hz fölött) szintén változnak a képzési hellyel. Energiájuk jellemzően kisebb mint a magánhangzóké.

1.2.2.5. Likvidák rezonáns jellegű mássalhangzók. Formánsokkal és antiformánsokkal rendelkeznek, energiájuk jellemzően kisebb, mint a magánhangzóké (1.37. ábra)

1.37. ábra

1.2.2.6 Összefoglaló jellemzés Hangképzés során a különböző akusztikai gerjesztésekkel a képzőszervek hangolásával olyan akusztikailag különböző mechanikai rezgéssorozatot állítunk elő, amely a nyelvi tartalom segítségével beszédhangok sorozatává áll össze agyunkban. Különböző gerjesztési típusokat használunk, melyek eredményeként különböző beszédhangcsoportokat hozunk létre. 1.4. táblázat

tiszta gerjesztés

gerjesztés típusa

akusztika produktum

beszédhangtípus

hangszalag rezeg

zönge

magánhangzók

résen kiáramló levegő

súrlódási zörej

réshangok

zárfelpattanás

zárfelpattanási zörej

zárhangok

hangszalag rezeg + a

zönge + súrlódási zörej

zöngés réshangok,

turbulens áramlás

vegyes gerjesztés

résen kiáramlik a levegő

likvidák

hangszalag rezeg +

zönge + zárfelpattanási

zöngés zárhangok

zárfelpattanás

zörej

nazálisok

hangszalag rezeg +

zönge +

zöngés affrikáták+

zárfelpattanás +

zárfelpattanás zörej+

(zár-réshangok)


súrlódási zörej

hangszalag nem rezeg +

-------

zárfelpattanás +

zárfelpattanási zör. +


súrlódási zörej

+

Zöngétlen affrikáták (zárréshangok)

A beszédhangcsoportokon belül a beszédhangok a képzési helyben különböznek egymástól. Pl. magánhangzók esetében a hangképző szervek pozíciója határozza meg, hogy milyen magánhangzókról van szó. Például az „a” hangot középen képzett alsó nyelvállású, igen nyílt állkapcsú, ajakműködésű, legtágabb hangképzéssel állítjuk elő. Az „i” hangot pedig elöl képzett, felső nyelvállású, zárt állkapcsú ajakréssel képezzük. A zárhangok, illetve réshangok esetében a szájüregen belül a zár, illetve rés helyzete határozza meg, hogy éppen melyik zár illetve réshangot képezzük..

-----------------

Beszédinformációs rendszerek

Recommend Documents