ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra měření
Neintruzivní algoritmus pro měření kvality ozvučení prostoru
Non-intrusive Sound Distribution Quality Measurement Algorithm
bakalářská práce
Studijní program: Elektrotechnika a informatika Studijní obor: Kybernetika a měření Vedoucí práce: Doc. Ing. Jan Holub, Ph.D.
Jiří Šplíchal
Praha 2011
ANOTACE Tato bakalářská práce se zabývá návrhem neintruzivního algoritmu pro měření srozumitelnosti řeči. Zaměřuje se především na určení odstupu signál šum a parametru popisující míru odrazů z nahrávky pořízené v prostředích s odlišnými akustickými vlastnostmi. V závěru práce je pomocí těchto parametrů sestavena výsledná hodnota ve stupnici MOS, která se porovná s výsledky subjektivních testů srozumitelnost, které byly pořízeny v daných prostorech.
ANOTATION This work deals with design of non-intrusive measurement algorithm. It focuses mainly on determination signal to noise ratio and parameter describing amount of reverberation from record taken in places with various acoustical characteristics. The value obtained from these parameters is compared with results from subjective intelligibility measurement in conclusion.
Čestné prohlášení autora práce Prohlašuji, že jsem předloženou práci vypracoval samostatně a že jsem uvedl veškeré použité informační zdroje v souladu s Metodickým pokynem o dodržování etických principů při přípravě vysokoškolských závěrečných prací. V Praze dne 30. 5. 2011
.......…………………. Podpis autora práce
Poděkování Chtěl bych v první řadě poděkovat vedoucímu práce panu doc. Ing. Janu Holubovi, Ph.D. za četné připomínky a návrhy, které vedly k úspěšnému dokončení této práce. Také děkuji panu Bc. Michalovi Křemenovi za poskytnutí nahraných vzorků a poskytnutí všech informací souvisejících s daným měřením. V neposlední řadě děkuji rodině a všem blízkým, kteří mě za celou dobu studia neustále podporovali.
1.
Úvod ............................................................................................................................... 9
2.
Měření srozumitelnosti řeči ......................................................................................... 10 2.1.
Akustické parametry ovlivňující přenos řeči ........................................................ 10
2.1.1. Doba dozvuku .................................................................................................. 10 2.1.2. Hladina hluku v pozadí .................................................................................... 11 2.2.
Objektivní a subjektivní metody měření srozumitelnosti ..................................... 11
2.3.
Subjektivní testy ................................................................................................... 11
2.3.1. Testy na úrovni slov ......................................................................................... 12 2.3.2. Testy na úrovni vět ........................................................................................... 12 2.4.
Objektivní metody měření srozumitelnosti .......................................................... 13
2.4.1. Artikulační index (Articulation Index)............................................................. 13 2.4.2. %Alcons (Percentage Articulation Loss of Consonants) ................................. 14 2.4.3. STI a RASTI .................................................................................................... 15 2.4.3.1. STI (Speech Transmission Index) ................................................................. 18 2.4.3.2. RASTI (RApid Speech Transmission Index) ................................................ 21 3.
Praktická část ............................................................................................................... 24 3.1.
Úvod ..................................................................................................................... 24
3.1.1. Použité přístroje a testovací signál ................................................................... 24 3.2.
Křivky stejné hlasitosti ......................................................................................... 25
3.3.
Vliv šumu na srozumitelnost ................................................................................ 27
3.4.
Hlasový detektor ................................................................................................... 28
3.5.
Odrazy .................................................................................................................. 31
4.
Závěr ............................................................................................................................ 35
5.
Literatura ...................................................................................................................... 38
6.
Přílohy .......................................................................................................................... 41
SEZNAM OBRÁZKŮ Obr. 2-1 Referenční oblast řeči pro stanovení AI ................................................................. 14 Obr. 2-2 Obálková funkce a její spektrum ............................................................................ 16 Obr. 2-3 Vliv rušení a echa na MTF ..................................................................................... 17 Obr. 2-4 Vliv šumu v pozadí na modulační index ................................................................ 18 Obr. 2-5 Maskování frekvenčního pásma k pásmem k-1 ..................................................... 19 Obr. 3-1 Křivky stejné hlasitosti ........................................................................................... 26 Obr. 3-2 Histogram energii a jeho vyhlazení ........................................................................ 29 Obr. 3-3 Funkčnost hlasového detektoru v zašuměném prostředí ........................................ 30 Obr. 3-4 Funkčnost hlasového detektoru v ne zašuměném prostředí ................................... 30 Obr. 3-5 Autokorelační funkce v prostoru bez výrazných odrazů ........................................ 32 Obr. 3-6 Autokorelační funkce v prostoru s výraznými odrazy ........................................... 32 Obr. 3-7 Histogram autokorelační funkce v prostoru bez výrazných odrazů ....................... 33 Obr. 3-8 Histogram autokorelační funkce v prostoru s výraznými odrazy........................... 33 Obr. 4-1 Výsledek experimentu ............................................................................................ 36 Obr. 6-1 Mapa open space kancelář...................................................................................... 45 Obr. 6-2 Mapa obchodní centrum ......................................................................................... 45 Obr. 6-3 Mapa auditorium .................................................................................................... 46 Obr. 6-4 Mapa technologické zázemí ................................................................................... 46 Obr. 6-5 Mapa běžná místnost .............................................................................................. 47 Obr. 6-6 Mapa poslechová místnost ..................................................................................... 47
SEZNAM TABULEK Tab. 2-1 Určení sklonu maskování ....................................................................................... 19 Tab. 2-2 Váhovací koeficienty a práh slyšitelnosti pro určení STI ...................................... 21 Tab. 2-3 Hodnocení STI ....................................................................................................... 21 Tab. 3-1 Použité přístroje...................................................................................................... 24 Tab. 3-2 Věty použité pro testování prostor ......................................................................... 24 Tab. 3-3 Škála MOS ............................................................................................................. 25 Tab. 4-1 Koeficienty lineární regrese ................................................................................... 35
SEZNAM PŘÍLOH Příloha 1 - Naměřené hodnoty .............................................................................................. 41 Příloha 2 - Koeficienty křivek stejných hlasitostí ................................................................. 44 Příloha 3 - Mapy měřených objektů...................................................................................... 45 Příloha 4 - Výpis programu .................................................................................................. 48
1. Úvod Komunikace je jednou z nejdůležitějších lidských schopností. Aby tato základní lidská schopnost byla naplněna, musí komunikace splňovat svoji hlavní úlohu, kterou je především spolehlivý přenos informace. V prostorách určených k verbální výměně informací jako jsou divadla, přednáškové sály, velké kanceláře, ale i nemocnice či letiště, je na srozumitelnost kladen velký důraz a je nutné tento parametr měřit. V prostředí, kde by konvenční metody měření srozumitelnosti mohly ohrozit bezpečnost provozu, je nutné vypracovat jiné postupy měření kvality řeči. Cílem této práce je návrh algoritmu, který bude z nahrávek danému prostředí vlastní, to znamená především mluvené slovo, vyhodnocovat srozumitelnost řeči bez možnosti porovnat nahrávku s originálním vzorkem. Důraz je kladen především na odhadnutí odstupu signál šum a na míře odrazů v konkrétním vzorku. Práce je rozdělena na dvě části, teoretickou a praktickou. Teoretická část stručně popisuje vliv prostředí na kvalitu srozumitelnosti řeči a popis základních subjektivních a objektivních metod měření srozumitelnosti řeči. Praktická část popisuje způsob získání parametrů, které reprezentují již zmíněný odstup signál šum a odrazy.
9
2. Měření srozumitelnosti řeči Srozumitelnost řeči je dána přesností, s jakou normální posluchač porozumí mluvenému slovu. Vzhledem k tomu, že některé informace sdělené prostřednictvím řeči jsou obsaženy v kontextu, v gestikulaci či výrazu obličeje přednášejícího, je možné pochopit smysl vět, i když jsme schopni vnímat jenom část mluveného projevu. Nicméně ve velkých sálech a posluchárnách se tento minoritní zdroj informací neuplatní a musíme se spoléhat na zvuk vycházející od mluvčího.[1] První testy srozumitelnosti vznikaly v Bellových telefonních laboratořích a později na Harvardské universitě. V těchto laboratořích vznikaly první seznamy slov, slabik a vět, které se testovaly na posluchačích a procentuálně se vyhodnocovaly. V prostředí s dobrými akustickými vlastnostmi hodnoty dosahují kolem 95%. V rozmezí 80% až 75% je srozumitelnost pro posluchače přijatelná. Při nižších hodnotách se musí posluchač na daný projev soustředit a pod 60% je přenos mluveného slova téměř nepřijatelný.[2] 2.1. Akustické parametry ovlivňující přenos řeči Mezi zdrojem zvuku a posluchačem vystupuje poslechový prostor jako přenosový kanál, který stejně jako u jiných typů přenosových cest, jako jsou drátové, radiokomunikační a optické vedení, ovlivňuje významnou měrou přenášený akustický signál. Proto je žádoucí znát vliv jevů, které dominantně ovlivňují šíření zvuku v místnosti, a tím i srozumitelnost. 2.1.1. Doba dozvuku Doba dozvuku se definuje jako doba, která je potřebná ke snížení hladiny akustického tlaku o 60 dB. Ve většině budov závisí příjemná akustika místnosti přímo na krátké době dozvuku. Místnosti určené pro konverzaci nebo místnosti, kde je vyžadována vysoká míra soukromí, jsou na krátké době dozvuku závislé nejvíce. Zvuk, který k posluchači dorazí jako první, se nazývá přímý zvuk. Ten je následován krátkými dozvuky. Krátkými dozvuky rozumíme takové zvuky, které k posluchači dorazí do 50ms. Ty považujeme za integrované do zvuku přímého, mající na srozumitelnost řeči pozitivní vliv. Dozvuky, které k posluchači dorazí později, mohou být již vnímány jako rušící. [1]
10
Doba dozvuku závisí na pohltivosti stěn a ta je vzhledem ke svému rezonančnímu charakteru závislá na frekvenci zvuku. 2.1.2. Hladina hluku v pozadí
V každém akustickém prostředí je určitá úroveň okolního hluku. Úroveň tohoto hluku je závislá na aktivitách probíhajících v rámci prostoru a v bezprostřední blízkosti. Hluk pozadí maskuje řečový signál a zhoršuje poměr signál šum. Zvýšená úroveň hluku pozadí nutí mluvčího neúmyslně zvýšit hlasitost, což se označuje jako efekt Lombard. Při vysoké úrovní mluveného slova okolo 75dB dochází u mluvčího ke změně fonetiky a intonace a srozumitelnost se zhoršuje. V normálním prostředí je průměrná úroveň řeči 55 až 65dB. Citlivost sluchového orgánu na hluk je nejvyšší na kmitočtu 6kHz s úrovní 12dB.[1]
2.2. Objektivní a subjektivní metody měření srozumitelnosti Přístupy pro měření kvality srozumitelnosti řeči lze rozdělit do dvou základních skupin: x
Objektivní testy
x
Subjektivní testy
2.3. Subjektivní testy Subjektivní testy jsou založené na hodnocení srozumitelnosti posluchači. Subjektivní testy lze rozdělit na případ, kdy testovací subjekt (posluchač) rozeznává text bez smyslových výrazů a slabik a na rozpoznávání smysluplných slov a vět. Problémy, které jsou spojeny s těmito metodami spočívají jak v časové a organizační náročnosti, tak v subjektivitě a dodržení podmínek pro jejich opakovatelnost. Pokud použijeme materiál podobný lidské řeči, narážíme na problémy spojené s lidským vnímáním řeči, jako je paměť a schopnost domýšlení. Tento faktor nám může zkreslit výsledky měření. Přes všechny výše zmíněné problémy se subjektivní testy používají, protože srozumitelnost posuzují skuteční lidé a při větším počtu hodnotitelů jsou výsledky srovnatelné s jinými metodami měření. Kombinací a modifikací těchto základních metod existuje mnoho dalších subjektivních testů srozumitelnosti.[21]
11
2.3.1. Testy na úrovni slov a) Slovní test CV, VC, CVC , VCV, atd. V (Vowel) z angličtiny samohláska, C (Consonant) souhláska. Nesmyslné kombinace souhlásek a samohlásek jsou předčítány a posluchači procentuálně vyhodnoceny. První testy tohoto typu vznikly v roce 1929. b) Rýmový test RT - Používá rýmovaná slova a slabiky c) Diagnostický rýmový test DR - Používá párů slov, které se liší v počáteční slabice /1958/ d) Interferenční test - Speach interference test - Používá se záměrné rušení na různých úrovních. e) Modifikovaný rýmový test MRT - Zde se testuje srozumitelnost počátečních i koncových souhlásek 2.3.2. Testy na úrovni vět a) Harvardské psychoakustické testy Na základě slovních testů srozumitelnosti bylo sestaveno 100 vět, které vycházejí z běžné hovorové řeči. Ve větě je vždy vynecháno nějaké slovo a posluchač musí toto slovo doplnit. Vyhodnocení testů je velmi jednoduché a na posluchače nejsou kladeny žádné vysoké nároky. Negativní úlohu zde hraje paměťový efekt. b) Haskinsovy věty Test má stejné základy jako harvardské psychoakustické testy jen s tím rozdílem, že věty nedávají smysl, a tím je na posluchače kladen daleko větší nárok. c) Sémanticky nepředvídatelné věty Věty mají stejný základ jako Haskinsovy, nemají smysl a jsou složeny především z jednoslabičných slov. [3][15]
12
2.4. Objektivní metody měření srozumitelnosti Subjektivní metody měření srozumitelnosti jsou poměrně drahé, náročné na organizaci a školení velkého počtu posluchačů. Proto byly vyvinuty metody založené na elektronickém měření akustických parametrů a automatickém vyhodnocení srozumitelnosti řeči. Objektivní testy jsou na rozdíl od subjektivních snadno opakovatelné, to znamená, že pro každé opakování nám dávají stejný výsledek. V této kapitole jsou popsány tyto čtyři metody AI, % alcons, STI a RASTI. 2.4.1. Artikulační index (Articulation Index) Uzavřený AI Základem této metody je definice ideálního referenčního pásma řeči v třetinooktávovém frekvenčním spektru. Jako reference se používá frekvenční charakteristika mužského hlasu s dynamickým rozsahem 30dB. V případě, že naměřená úroveň šumu leží nad horním limitem daného kmitočtového pásma je příspěvek k celkovému AI nulový. Leží-li naměřená hodnota uvnitř 30 ti decibelového rozsahu je příspěvek roven váhovému faktoru a leží-li hodnota více než -30dB pod horním limitem je příspěvek 30dB. Výsledná AI je součet všech hodnot vynásobených příslušným váhovým faktorem. Při AI = 100% je srozumitelnost řeči velmi dobrá a naopak při 0% je srozumitelnost velmi špatná. Metoda vznikla v roce 1949.
13
Obr. 2-1 Referenční oblast řeči pro stanovení AI
Otevřený AI Při nízkých hodnotách naměřeného šumu bychom vždy dostali výsledek blížící se 100%, a proto v některých případech pro získání vypovídající hodnoty je nutné posunout spodní limit na hodnotu 0dB. Při této metodě může AI dosahovat hodnot až 225%[20][21]
2.4.2. %Alcons (Percentage Articulation Loss of Consonants) Tato metoda srozumitelnosti se vypočítá z měření přímé a odražené zvukové vlny. Výsledek se udává v procentech. Výsledek je tedy přímo úměrný dozvuku místnosti, velikosti místnosti a vzdálenosti mluvčího od posluchače. Bylo zjištěno, že přenos souhlásek hraje větší úlohu ve srozumitelnosti než přenos samohlásek. Vlivem odrazů se srozumitelnost souhlásek snižuje daleko dříve než samohlásek. Čím jsou souhlásky slyšet jasněji, tím je přenášená řeč srozumitelnější. Výsledek udává procentuální ztrátu souhlásek, a čím je hodnota nižší, tím je srozumitelnost lepší. Maximální přijatelná hodnota je 15%, která odpovídá 25dB poměru signál šum. Hodnota 5% se doporučuje pro místnosti určené ke vzdělávání. Nevýhoda této metody je, 14
že měření se provádí na jednom kmitočtu se středem 2kHz a také zde není zahrnut důležitý faktor poměr signál šum. Metoda byla poprvé publikována v roce 1971.[13][22]
2.4.3. STI a RASTI Další významnou skupinou jsou metody, které pro určení přenosové kvality řeči využívají změny modulačního indexu testovacího signálu. Ten se porovnává s naměřeným signálem po přenesení komunikačním kanálem. Komunikačním kanálem můžeme rozumět jak cestu od mluvčího k posluchači v rámci jedné místnosti nebo jakýkoliv jiný způsob přenosu signálu (radiové cesty, telefony, atd.). Poměr modulačního indexu vysílaného a naměřeného signálu určuje tak zvaná modulační přenosovou funkci. mF
m0 mi ,
(2.1)
kde m0 je modulační index přijatého signálu a mi je modulační index přijatého signálu.
Z modulační přenosové funkce m F lze vyjádřit zdánlivý odstup signál šum podle vztahu:
SNRApp
§ mF · 10 log ¨¨ ¸¸ . © 1 m F ¹
(2.2)
Pro určení tohoto odstupu signál šum nemusíme uvažovat příčinu zkreslení, jako jsou ozvěny, odrazy, šum, nelineární zkreslení.[9]
15
Lidskou řeč můžeme rozdělit na sekvence nejmenších prvků řeči zvané fonémy. Foném je nejmenší jednotka řeči, která je významotvorná. Může tedy rozlišovat jednotlivá slova s různým významem. Každý foném má jedinečnou obálkovou funkci. Spektrum z této obálkové funkce nám dává obecnější popis průběhu funkce. Pro srozumitelnost je nezbytné, aby spektrální rozdíly mezi fonémy byly zachované. Tyto rozdíly je možno charakterizovat obálkovou funkcí, kde zkreslení, jako je šum nebo odrazy, potlačí spektrální rozdíly jednotlivých fonémů, což zároveň ovlivňuje průběh výsledné obálkové funkce. Na obrázku 2-2 je znázorněna obálková funkce pro oktávové pásmo se střední frekvencí 250 Hz. Tvar funkce je pro každou posloupnost fonémů specifický. Spektrum je měřeno v rozsahu 0,2Hz – 12,5Hz v 1/3 otavních intervalech a normováno na střední hodnotu intenzity. [9]
Obr. 2-2 Obálková funkce a její spektrum
Z porovnání obálkového spektra před průchodem a po průchodu přenosovým kanálem vzniknou rozdíly, které popisuje již zmíněná modulační přenosová funkce MTF jako pokles modulačního činitele. Na obrázku 2-3 je vidět vliv rušení a ozvěn na obálkovou funkci a na MTF. Z obrázku je vidět, že šum není závislý na frekvenci funkce, naopak odrazy se projeví jako dolní propust.
16
Obr. 2-3 Vliv rušení a echa na MTF
Modulační přenosovou funkci lze také teoreticky vypočítat, a tím tak předpovědět chování signálu v daném prostoru. Výpočet provedeme pomocí vztahu:[9]
mF
kde
S N
1
1 2
T · § 1 ¨ 2S F R ¸ 1 10 13.8 ¹ ©
je teoretický odstup signál šum a TR je doba dozvuku.[14]
17
(2.3) S 1 N 10
2.4.3.1.
STI (Speech Transmission Index)
Tuto metodu vyvinuli Hougast a Steeneken v roce 1971. Tato metoda objektivního hodnocení srozumitelnosti řeči je založena na příspěvcích jednotlivých frekvenčních pásem, které odpovídají frekvenčnímu spektru lidské řeči. Tyto příspěvky jsou určeny efektivním odstupem signál šum. Odstup signál šum se nazývá efektivní, protože do výsledku se přičítá nejenom šum pozadí, který přímo ovlivňuje SNR, ale i nelinearity, odrazy a ozvěny. Testovací signál se skládá z šumu, který má stejné frekvenční spektrum jako je frekvenční spektrum dlouhodobé řeči. Ten je filtrován v rozmezí od 125Hz do 8kHz po oktávách. Každé oktávové pásmo je modulováno sinusovým signálem tak, že obálka intenzit je modulovaná sinusově. Abychom tohoto dosáhli, musíme amplitudově modulovat šum funkcí
1 cos 2S . f m .t . U této metody se používá 14
modulačních frekvencí od 0.63 do 12.5 Hz v 1/3 oktávovém kroku pro všechny oktávy. To je dohromady 98 hodnot, ze kterých se vypočítá index STI. Na obrázku 2-4 je znázorněna modulace, kde činitel modulace se snížil z m=1 na m=0.5 vlivem působení šumu.[4]
Obr. 2-4 Vliv šumu v pozadí na modulační index
18
Výsledný činitel modulace je přímo úměrný odstupu signál šum podle vztahu:
SNR 10log
m dB 1 m
(2.4)
STI zohledňuje také maskování a práh slyšitelnosti. Oba aspekty jsou modelovány přidáním pomyslného šumu a tím se přímo ovlivní odstup signál šum. Maskování je neschopnost sluchového ústrojí vnímat tóny, které nejsou frekvenčně dostatečně vzdáleny. Signál na nižších frekvencích muže ovlivnit vnímání jiných tónů nebo úzkofrekvenčních signálů. To závisí na úrovni maskovacího signálu na frekvenčním odstupu mezi signály. Na obrázku 2-5 je možno pozorovat vliv maskování frekvenčním pásmem k 1 s intenzitou 60 dB na pásmo k . Koeficienty pro výpočet maskování jsou uvedeny v tabulce 2-1 a jsou dány vztahem[16] I am,k
I k 1 * amf
.
(2.5)
Obr. 2-5 Maskování frekvenčního pásma k pásmem k-1
Uroveň v dB Sklon maskovaní amf
46-55 -40
56-65 -35
66-75 -25
76-85 -20
86-95 -15
>95 -10
0.000100 0.000316 0.003162 0.010000 0.031622 0.100000 Tab. 2-1 Určení sklonu maskování
19
Práh slyšitelnosti je v STI zahrnut jako spodní limit úrovně maskovacího šumu pro každé frekvenční pásmo I rs ,k .Tato hodnota je určena podle tabulky 2-2. Jak už bylo nastíněno, STI zahrnuje do svého konceptu maskování a práh slyšení jako pokles SNR. To se konkrétně provádí přepočítáním a normováním modulačního indexu s ohledem na tyto aspekty
m 'k , f
mk , f
Ik
podle rovnice.
I k I am,k I rs ,k
(2.6)
kde mk , f je modulační index pro pásmo k a modulační frekvenci f, I k je střední intenzita v daném oktávovém pásmu, I am,k je střední hodnota maskovaného signálu. Efektivní odstup signál šum se podle předchozích modifikací upraví do vztahu.
SNRk , f
10 log
mkc , f 1 mkc , f
(2.7)
Přístup STI přiřazuje hodnoty odstupu signál šum v intervalu od -15dB do 15dB hodnotám, která odpovídají srozumitelnosti v rozmezí 0 až 1. Proto je nutné SNR transformovat na index TI k , f podle rovnice.
TI k , f
SNRk , f 15dB
(2.8)
30dB
Dále je pro každé frekvenční pásmo spočten aritmetický průměr všech 14 modulačních frekvencí, který vede na index MTI k .
MTI k
1 14 ¦ TI k , f 14 f 1 20
(2.9)
Nakonec je vyjádřen index STI r podle rovnice[9]. STI r
D1 x MTI1 E1 x MTI1 x MTI 2 D 2 x MTI 2
(2.10)
E2 x MTI 2 x MTI3 .... D7 x MTI 7 Koeficient D k představuje váhu oktávového pásma k a E k je opravný koeficient. Oba jsou dány tabulkou 2-2. V tabulce 2-3 je uveden index STI a jeho odpovídající srozumitelnost.
Pásmo Hz Muži Ženy
α β α β
I rs ,k
125 0,085 0,085 – –
250 0,127 0,078 0,117 0,099
500 0,23 0,065 0,223 0,066
1k 0,233 0,011 0,216 0,062
2k 0,309 0,047 0,328 0,025
4k 0,224 0,095 0,25 0,076
8k 0,173 – 0,194 –
46
27
12
6,5
7,5
8
12
Tab. 2-2 Váhovací koeficienty a práh slyšitelnosti pro určení STI
STI 0 - 0.3 Hodnocení nesrozumitelný
0.3 - 0.45 slabý
0.45 - 0.6 postačující
0.60 - 0.75 dobrý
0.75 - 1.0 Excelentní
Tab. 2-3 Hodnocení STI
2.4.3.2.
RASTI (RApid Speech Transmission Index)
V praxi metoda STI často představuje zbytečně detailní analýzu, a protože přístup STI pracuje s velkým množstvím naměřených vzorků, což je časově náročné, byla představena metoda RASTI, jejíž analýza je omezena pouze na dvě oktávová pásma se středními frekvencemi 500Hz a 2kHz a pouze na čtyři nebo pět modulačních frekvencí v těchto pásmech. Modulační frekvence jsou pro jednotlivá oktávová pásma následující:[9]
21
1) Pro oktávové pásmo se střední hodnotou 500 Hz; 1Hz; 2 Hz; 4Hz; 8Hz 2) Pro oktávové pásmo se střední hodnotou 2 kHz; 0,7Hz; 1,4Hz; 2,8Hz; 5,6Hz; 11,2 Hz Algoritmus výpočtu indexu RASTI: Stejně jako u STI se měří změna indexu modulace pro jednotlivá pásma před průchodem a po průchodu prostředím, tudíž postup je velmi obdobný. 1) Výsledné indexy modulace m0 jsou odvozeny pro jednotlivá pásma. 2) Poměry výsledných indexů modulace m0 a počátečních indexů modulace mi jsou určovány podle rovnice m
m0 m 1 mi
(2.11)
3) Každá z devíti hodnot je pak konvertována na x podle rovnice § m · x 10 log ¨ ¸ © 1 m ¹
(2.12)
kde x může být interpretováno jako zdánlivý poměr signál šum v decibelech. 4) Hodnoty vyšší než +15 dB se nahradí hodnotou 15dB, hodnoty nižší než -15 dB se nahradí hodnotou -15dB, 5) Určí se aritmetický průměr x z takto získaných devíti hodnot. 6) Provede se normování rovnicí (2.13) x 15 y 30
Tím dostaneme index y od 0 do 1, což je index RASTI. Omezení metody RASTI: Použití metody RASTI je omezeno faktory souvisejícími s přenosem řeči, hlukem pozadí a dozvukem. Proto by její použití mělo být omezeno na případy, ve kterých jsou splněny následující požadavky:
22
a) V podstatě lineární přenos řeči (bez ořezávání atd.), jelikož metoda neuvažuje nelineární zkreslení. b) Širokopásmový přenos řeči (typicky od 200Hz do 6kHz), jelikož metoda je založena na předpokladu v podstatě neomezeného spektra řeči. c) Hluk v pozadí bez slyšitelných tónů a bez výrazných vrcholů a propadů v oktávovém pásmu d) Hluk v pozadí neimpulzního charakteru e) Doba dozvuku nezávisí významně na frekvenci
23
3. Praktická část 3.1. Úvod Tato práce analyzuje nahrávky, které byly pořízeny v rámci projektu Bc. Michala Křemene Projekt 1. Vzorky byly nahrány v několika akusticky odlišných prostředích, aby bylo možno zkoumat rozdíly v kvalitě srozumitelnosti. V tomto případě byly zvoleny prostory: technické zázemí budov (holé chodby), open office kanceláře, moderní stavba nákupního centra, běžný pokoj obytného domu, auditorium určené pro výuku žáků a jako poslední prostor byla vybrána odhlučněná místnost určená pro poslechové testy. Popis a mapy měřených objektů obsahuje příloha. 3.1.1. Použité přístroje a testovací signál přístroj
výrobce
typ
Sériové číslo
Reproduktor
Dynaudio acoustics
BM5A
586701
CD přehrávač
Bose
Nahrávací zařízení
Zoom
MA017019168 034144Z52442409AE H4
99598
Tab. 3-1 Použité přístroje
No.
mluvčí
Znění věty
1
Muž 1
Zakoupené zboží je se zárukou.
2
Žena 1
Právě oznámili zrušení letu.
3
Muž 2
Letadlo mělo velké zpoždění.
4
Žena 2
Náhle začalo hustě sněžit
Tab. 3-2 Věty použité pro testování prostor
24
K dispozici byly také výsledky subjektivních testů, které pro sto vybraných nahrávek udávají srozumitelnost ve stupnici MOS. Škála MOS 5 Vynikající kvalita 4 Dobrá kvalita 3 Přijatelná kvalita 2 Špatná kvalita 1 Velmi špatná kvalita Tab. 3-3 Škála MOS
Za použití parametrů, obdržené jako výsledek této práce, budou ilustrativně odhadnuty koeficienty pro rovnici lineární regrese.
3.2. Křivky stejné hlasitosti Subjektivní vnímání hlasitosti není přímo úměrné fyzikální energii, ale je podle FechnerWeberova zákona logaritmem intenzity zvuku. Tato závislost není lineární, ale je závislá na frekvenci. Jednotkou hlasitosti je fón [Ph], což odpovídá hladině akustického tlaku na kmitočtu 1000 Hz. Na obrázku 3-1 , je vynesena závislost, frekvence a akustického tlaku čistých tónů, které jsou vnímány sluchovým ústrojím stejně hlasitě. [10]
25
140
120
Hladina akustického tlaku [dB]
100
80
60
40
20
0 1 10
2
3
10
4
10
10
Frekvence [Hz]
Obr. 3-1 Křivky stejné hlasitosti
Postup výpočtu těchto křivek udává norma ČSN ISO 226, podle které se jednotlivé křivky vypočítají podle vztahu[10]:
Lp
Af
4, 47.10
3
§ 10 log Af ¨¨ ©Df
10
0,025 LN
· ¸¸ dB Lu 94dB ¹
§ T f Lu · ª º ¨¨ 10 9 ¸¸ ¹» 1,15 «0, 4.10© « » ¬ ¼
26
(3.1)
Df
(3.2)
kde T f je práh slyšení, D f je exponent pro vnímání hlasitosti, Lu je velikost lineární přenosové funkce normované na 1kHz a LN je příslušná hladina stejné hlasitosti. Vzhledem k tomu, že nahrávky byly pořízeny pomocí širokopásmového mikrofonu je v prvním kroku nezbytné filtrovat nahrávku vzhledem k citlivosti lidského ucha. K tomuto účelu jsem zvolil křivku o hlasitosti 60 Ph, pomocí které byl její inverzí navrhnut v prostředí MATLAB filtr a následně signál filtrován.
3.3. Vliv šumu na srozumitelnost Jak bylo uvedeno v předešlých kapitolách, srozumitelnost nepříznivě ovlivňuje hluk v pozadí. Proto první parametr, který je v této práci zkoumán odstup signál šum. Výpočet SNR stanovuje následující vztah:
§P · SNRdB 10log10 ¨ sig ¸ © Pšum ¹
(3.3)
Aby bylo možné spočíst výkony signálu a šumu, je nezbytné nejprve nahrávku rozdělit na část s řečovou aktivitou a část, která obsahuje pouze šum. Parametr, který popisuje míru hluku v pozadí, byl získán vypočtením výkonů jednotlivých složek podle vzorce P
1 N
N 1
¦ x k
2
(3.4)
k 0
a dosazením do vztahu 3.3 je obdržen parametr, který odráží odstup signál šum v jednotlivých nahrávkách.
27
3.4. Hlasový detektor Rozpoznání aktivních úseků byl použit energetický detektor. Tento detektor vypočítá energii pro každý rámec. Audio signál byl rozdělen do rámců o délce 30ms. Pro každý rámec byla vypočtena místo krátkodobé energie krátkodobá intenzita, která není tak citlivá na velké změny úrovně signálu.[19] Krátkodobé energie, která je definovaná vztahem f
En
¦ ª¬ s k w n k º¼
2
k f
,
(3.5)
kde s(k) je vzorek signálu v čase k a w(n) je typ váhového okénka. Krátkodobá intenzita je vypočtena podle vztahu f
Mn
¦ s k wn k
k f
.
(3.6)
Tento postup může spolehlivě fungovat, pokud je zvolen vhodně práh, se kterým se segment energie porovnává. V tomto případě se nebude referenční práh v rámci jednoho audio souboru měnit, protože se předpokládá měření časově krátkého úseku a nepředpokládají se výrazné změny v dynamice hluku v pozadí. Váhové okénko je obdélníkové. Protože řeč je velmi specifický signál a aktivní část signálu je obsažena na malém počtu vzorků vzhledem k úsekům řečově neaktivním, je vhodné k určení prahu použít histogram.
28
300
250
250
200
200 150
150 100
100 50
50
0
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
Obr. 3-2 Histogram energii a jeho vyhlazení
Z obrázků je vidět, že největší počet vzorků má energie blízko nule. Tyto vzorky představují v nahrávce šum. Druhé maximum odpovídá energiím, které reprezentují právě aktivní řečový signál. Mezi těmito maximy lze pozorovat minimum, které odpovídá kýženému prahu. Z histogramu byla spočtena obálka, ve které první lokální minimum přestavuje práh, který byl použit v hlasovém detektoru. Na obrázkách 3-3 a 3-4 je názorně předvedena funkčnost hlasového detektoru jak v zašuměném prostředí, tak i v prostředí bez šumu.
29
0.2
0.15
0.1
0.05
0
-0.05
-0.1
2
4
6
8
10 t[s]
12
14
16
18
Obr. 3-3 Funkčnost hlasového detektoru v zašuměném prostředí
0.6
0.4
0.2
0
-0.2
-0.4
2
4
6
8
10 t[s]
12
14
16
18
20
Obr. 3-4 Funkčnost hlasového detektoru v ne zašuměném prostředí
Pro tento detektor byla zohledněna také časová bezpečnost. Pokud signál po dobu menší než 300ms klesne pod stanovenou prahovou hodnotu energie, je tento úsek započítán do aktivní části signálu.
30
3.5. Odrazy Parametr, který bude odrážet míru odrazů v daném prostředí je určen pomocí autokorelační funkce. Korelaci lze definovat jako konvoluci a pro spojité signály je určena vztahem: f
f g t ³f f * W g t W dW
(3.7)
kde f * představuje pro komplexní signály komplexně sdružené číslo k f . Autokorelací rozumíme korelaci signálu se sebou samým. Lze tedy psát:
f
f f t ³f f * W f t W dW
(3.8)
Pokud přejdeme od spojitých signálů k signálům diskrétním, uvažujeme korelaci podle vztahu
f
f g k ¦
i f
(3.9)
f i g k i
respektive autokorelaci jako f
f f k ¦
i f
f i f k i
.
(3.10)
Autokorelace dosahuje maxim v časech, kdy se daný signál nejvíce podobá sobě samému. Toho lze využít k určování odrazů, protože pokud se zvuková vlna odrazí a je přijmutá v jiném čase než vlna přímá, ve výsledném zaznamenaném měření se bude původní signál opakovat. Výsledný průběh autokorelace právě v těchto časech dosahuje maxim. Z toho vyplývá, že pokud daný prostor bude vykazovat velikou míru ozvěn, také průběh funkce bude obsahovat více maxim než u měření prostor s menším počtem odrazů. Pro určení mohutnosti funkce byl opět 31
použit histogram. Na obrázku 3-5 a 3-6 je ilustrován rozdíl v autokorelační funkci, přičemž obr. 3-6 byl pořízen v prostředí s velkou mírou odrazů.
150
100
50
0
-50
-100 -2
-1.5
-1
-0.5
0 t[s]
0.5
1
1.5
2
Obr. 3-5 Autokorelační funkce v prostoru bez výrazných odrazů
40
30
20
10
0
-10
-20 -3
-2
-1
0 t[s]
1
2
3
Obr. 3-6 Autokorelační funkce v prostoru s výraznými odrazy
32
Z porovnání obrázků je vidět, že parametr popisující četnost odrazů závisí na mohutnosti autokorelační funkce okolo počátku. Vliv šumu v pozadí by se na výsledku neměl uplatnit, pokud platí předpoklad, že šum je bílý, tudíž nekoreluje a projeví se pouze v čase W
0.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -100
-50
0
50
100
150
Obr. 3-7 Histogram autokorelační funkce v prostoru bez výrazných odrazů 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -20
-10
0
10
20
30
40
Obr. 3-8 Histogram autokorelační funkce v prostoru s výraznými odrazy
33
Z grafu je možno vyčíst, že šířka normovaného histogramu je přímo úměrná mohutnosti autokorelační funkce, přičemž nezáleží na energii, s jakou byla nahrávka pořízena a na hodnotě maxima. Z autokorelační funkce byl proveden výřez v intervalu W
0 s až W
1 s a histogram byl
vypočítán pouze z tohoto výběru. Šířka histogramu je spočtena na dvou procentech.
34
4. Závěr Tato práce se zabývá zpracováním nahraných vzorků mluveného projevu v prostorách, které měly odlišné akustické vlastnosti, a tím ovlivnily srozumitelnost řeči. Vstupní signál byl nejprve upraven filtrem, který zohledňoval citlivost lidského sluchového ústrojí. Filtr byl navržen podle křivek stejné hlasitosti, konkrétně podle křivky o hlasitosti 60 Ph. Pro odhadnutí parametrů mající vliv na srozumitelnost bylo v dalším kroku nezbytné navrhnout hlasový detektor, který rozdělil signál do úseků s hlasovou aktivitou a bez ní. Z poměru výkonů těchto dvou částí byl vypočten první parametr odhadující odstup signál šum. Druhý parametr, který vypovídá o četnosti a síle odrazů byl vypočten pomocí autokorelační funkce a jejího histogramu. Pomocí funkce MATLABU „robustfit“ byly určeny koeficienty lineární regrese a tím určena výsledná rovnice ve tvaru:
y
k1 k2 x1 k3 x2 ,
(3.11)
kde k1 , k 2 , k3 jsou koeficienty lineární regrese, x1 je parametr popisující odrazy a x2 je parametr odstup signál šum. Koeficienty k jsou určeny následující tabulkou.
k1
4,775
k2
0,023
k3
-0,122
Tab. 4-1 Koeficienty lineární regrese
Následující graf znázorňuje porovnání výsledků. Na vodorovné ose jsou hodnoty obdržené ze subjektivních testů a na svislé ose jsou výsledky vypočtené dle výše zmíněné rovnice 3.11.
35
5
4.5
4
MOS odhadnutý z parametrů
3.5
3
2.5
2
1.5
1
1
1.5
2
2.5
3 MOS subjektivních testů
3.5
4
4.5
5
Obr. 4-1 Výsledek experimentu
Pokud by vypočtené hodnoty přesně odpovídaly výsledkům měření, všechny body grafu by ležely na diagonále. Z grafu je patrné, že body téměř diagonálu kopírují s určitým rozptylem. Mira shody byla posouzena střední kvadratickou chybou, která je definovaná dle vztahu:
RMSE
1 n 2 yi xi , ¦ ni1
(3.12)
kde yi je hodnota naměřená pomocí subjektivních testů a xi je hodnota určena dle vztahu 3.11. Střední kvadratická chyba se podle rovnice 3.12 rovná RMSE
0,5909 . Z této hodnoty lze
usoudit, že se podařilo navrhnout uspokojivý algoritmus pro odhad srozumitelnosti řeči. 36
Nepřesnosti jsou způsobeny metodami, které byly použity pro odhad parametrů pro určení srozumitelnosti. Zpřesnění těchto parametrů a určení dalších bude předmětem navazující diplomové práce.
37
5. Literatura 1. Department of Electronics and Multimedia Communications [online]. 2009. Speech
Intelligibility. Dostupné z WWW:
. 2. Archived Ecotect WIKI [online]. 2005. ROOM ACOUSTICS: MEASURES. Dostupné
z WWW: . 3. TOULA , Michal. Subjektivní a objektivní měření srozumitelnosti řeči přenesené
telekomunikačním kanálem[online]. Praha: ČVUT, 2009. 26 s. Bakalářská práce. ČVUT. Dostupné z WWW: . [2] Basic sof the STI-measuring method 4. SEENEKEN, Herman J.M. ; HOUTGAST, Tammo . Homepage of Herman
Steeneken [online]. 2006 Speech Transmission Index (STI). Dostupné z WWW: . 5. Speech Transmission Index. In Wikipedia : the free encyclopedia [online]. St.
Petersburg (Florida) : Wikipedia Foundation. Dostupné z WWW: . 6. Articulation Index. In Wikipedia : the free encyclopedia [online]. St. Petersburg
(Florida) : Wikipedia Foundation. Dostupné z WWW: . 7. Alcons. In Wikipedia : the free encyclopedia [online]. St. Petersburg (Florida) :
Wikipedia Foundation. Dostupné z WWW: 8. GEOFFROY, Nancy Anne. Measuring Speech Intelligibility in Voice Alarm
Communication Systems. Dostupný z WWW: . 9. ČSN EN 60268-16. Elektroakustická zařízení - Část 16: Objektivní hodnocení
srozumitelnosti řeči indexem přenosu řeči. Praha: Úřad pro technickou normalizaci, metrologii a státní zkušebnictví, 2004. 36 s.
38
10. ČSN ISO 226. Akustika - Normované křivky stejné hlasitosti. Praha: Úřad pro
technickou normalizaci, metrologii a státní zkušebnictví, 2005. 24 s. 11. GRANÁT, Michal. OBJEKTÍVNI METODY PRO HODNOCENÍ KVALITY
AUDIOSIGNÁLŮ [online]. Brno 2009. 69 s. Diplomová práce. VUT v Brně. Dostupné z WWW: . 12. CARVALHO, António P.O. Relations between rapid speech transmission index
(RASTI) and other acoustical and architectural measures in churches. Dostupný z WWW: . 13. MAPP, Peter. Measuring Intelligibility. Dostupný z WWW:
<www.svconline.com/mag/avinstall_measuring_intelligibility/>. 14. PAVELKA, Michal; MAREŠ, Jiří. Stanovení akustické kvality metodou RASTI.
Dostupný z WWW: <www3.fs.cvut.cz/web/fileadmin/documents/12241.../DIAGO-PaMa.pdf>. 15. BEZDÍČEK, Martin. Subjektivní a objektivní hodnocení kvality řečového
signálu. Dostupný z WWW: <www.vutbr.cz/www_base/zav_prace_soubor_verejne.php?file_id=5610>. 16. STEENEKEN, Herman. DESCRIPTION OF THE STI-MEASURING METHOD
Dostupný z WWW: <www.steeneken.nl/sti/Basics_STI_web-site.pdf>. 17. ZAPLATÍLEK, Karel; DOŇÁR, Bohuslav. MATLAB začínáme se signály. Praha: BEN,
2010. 271 s. 18. ZAPLATÍLEK, Karel; DOŇÁR, Bohuslav. MATLAB tvorba uživatelských aplikací.
Praha: BEN, 2004. 216 s. 19. PSUTKA, Josef. Komunikace s počítačem mluvenou řečí. Praha: Academia, 1995.
287 s. 20. PAVELKA, Michal. Určení artikulačního indexu ve vnitřním prostoru
vozidel. Dostupný z WWW: .
39
21. PAVELKA, Michal; NĚMEČEK, Pavel. POROVNÁNÍ METODIK MĚŘENÍ
SROZUMITELNOSTI ŘEČI POMOCÍ ARTIKULAČNÍHO INDEXU. Dostupný z WWW: . 22. Ng, Tsing Chun (2007) Identification of audio and room parameters for optimum
speech intelligibility in room. Masters thesis, Universiti Teknologi Malaysia, Faculty of Electrical Engineering. 23. KŘEMEN, Michal. Projekt 1. Praha, 2010. 25 s. Semestrální práce. ČVUT.
40
6. Přílohy Příloha 1 - Naměřené hodnoty no. 1 2 3
testovaci misto
misto
typ zvuku
poslechova_mistnost
misto_1_(3.4m)_pred_reproduktorem
man_1
poslechova_mistnost poslechova_mistnost
misto_3_(1.6m)_vpravo_pred_reproduktore m misto_3_(1.6m)_vpravo_pred_reproduktore m
vzorek
kanal
MOS
2
2
4,9
man_1
2
2
4,76
woman_2
2
1
4,66
SNR
Odrazy
31,194
18
29,593
13
26,151
13
18,235
29
poslechova_mistnost
misto_1_(3.4m)_pred_reproduktorem
woman_1
2
2
4,55
rodinny_dum_bezna_mistnost
misto_2_(2.3m)_vpravo_pred_reproduktore m
woman_2
3
1
4,55
22,636
19
6
poslechova_mistnost
misto_2_(3.2m)_vlevo_pred_reproduktorem
woman_1
2
1
4,52
21,265
14
7
poslechova_mistnost
misto_2_(3.2m)_vlevo_pred_reproduktorem
man_1
2
1
4,52
22,299
15
8
open_space_kancelar
misto_1_(3.1m)_vpravo_od_reproduktoru
man_2
2
1
4,45
23,709
15
9
open_space_kancelar
misto_1_(3.1m)_vpravo_od_reproduktoru
man_1
1
1
4,34
24,884
21
10
poslechova_mistnost
misto_2_(3.2m)_vlevo_pred_reproduktorem
woman_2
2
2
4,31
21,145
10
11
rodinny_dum_bezna_mistnost
misto_3_(1.8m)_vlevo_za_reproduktorem
man_1
2
1
4,31
33,492
19
12
open_space_kancelar
misto_1_(3.1m)_vpravo_od_reproduktoru
man_2
2
1
4,31
23,709
15
poslechova_mistnost
misto_3_(1.6m)_vpravo_pred_reproduktore m
man_2
2
2
4,28
26,122
12
14
open_space_kancelar
misto_2_(5.2m)_pred_reproduktorem
man_2
2
2
4,24
26,727
18
15
poslechova_mistnost
misto_2_(3.2m)_vlevo_pred_reproduktorem
man_2
2
2
4,24
22,683
11
16
poslechova_mistnost
misto_1_(3.4m)_pred_reproduktorem
woman_2
2
2
4,21
17,502
13
poslechova_mistnost
misto_3_(1.6m)_vpravo_pred_reproduktore m
woman_1
2
1
4,1
17,513
15
18
rodinny_dum_bezna_mistnost
misto_1_(2.6m)_vlevo_pred_reproduktorem
man_1
2
1
4,07
33,456
20
19
rodinny_dum_bezna_mistnost
misto_3_(1.8m)_vlevo_za_reproduktorem
man_2
2
1
4,07
30,723
15
20
technologicke_zazemi
misto_2_(16.8m)_pred_reproduktorem
woman_2
3
2
4,07
20,836
18
21
auditorium
misto_2_(3m)_pred_reproduktorem
woman_2
1
1
4,07
21,742
27
22
rodinny_dum_bezna_mistnost
misto_1_(2.6m)_vlevo_pred_reproduktorem
man_1
2
1
4,03
33,456
20
man_1
2
1
4,03
31,155
19
man_2
3
1
4
4 5
13
17
23 24
rodinny_dum_bezna_mistnost rodinny_dum_bezna_mistnost
misto_2_(2.3m)_vpravo_pred_reproduktore m misto_2_(2.3m)_vpravo_pred_reproduktore m
30,317
15
25
rodinny_dum_bezna_mistnost
misto_1_(2.6m)_vlevo_pred_reproduktorem
woman_2
2
1
3,93
18,948
29
26
open_space_kancelar
misto_1_(3.1m)_vpravo_od_reproduktoru
woman_1
1
1
3,9
26,350
31
27
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
woman_2
2
2
3,9
19,529
19
rodinny_dum_bezna_mistnost
misto_2_(2.3m)_vpravo_pred_reproduktore m
woman_1
3
2
3,83
19,461
22
29
auditorium
misto_1_(3.8m)_vlevo_od_reproduktoru
man_2
1
2
3,79
22,745
23
30
technologicke_zazemi
misto_2_(16.8m)_pred_reproduktorem
man_2
4
2
3,79
20,533
18
31
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
man_2
2
2
3,76
26,071
19
32
rodinny_dum_bezna_mistnost
misto_1_(2.6m)_vlevo_pred_reproduktorem
man_2
3
1
3,69
28,860
13
33
auditorium
misto_3_(7m)_pred_reproduktorem
man_2
1
1
3,66
25,244
20
28
41
34
auditorium
misto_2_(3m)_pred_reproduktorem
man_2
2
1
3,62
22,003
16
35
open_space_kancelar
misto_2_(5.2m)_pred_reproduktorem
woman_2
3
2
3,59
18,921
24
36
auditorium
misto_3_(7m)_pred_reproduktorem
man_1
1
1
3,59
28,121
26
37
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
man_1
2
2
3,55
27,204
22
38
auditorium
misto_1_(3.8m)_vlevo_od_reproduktoru
man_1
1
2
3,55
26,347
22
39
poslechova_mistnost
misto_1_(3.4m)_pred_reproduktorem
man_2
2
1
3,55
20,710
13
40
auditorium
misto_3_(7m)_pred_reproduktorem
man_2
1
2
3,55
25,930
19
41
rodinny_dum_bezna_mistnost
misto_3_(1.8m)_vlevo_za_reproduktorem
woman_2
2
1
3,52
21,179
31
42
auditorium
misto_1_(3.8m)_vlevo_od_reproduktoru
woman_1
1
2
3,48
20,703
31
43
open_space_kancelar
misto_2_(5.2m)_pred_reproduktorem
man_1
2
1
3,45
25,691
24
44
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
woman_2
2
1
3,45
19,529
19
45
technologicke_zazemi
misto_2_(16.8m)_pred_reproduktorem
woman_2
3
1
3,45
20,362
19
46
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
man_1
2
2
3,45
27,204
22
47
technologicke_zazemi
misto_3_(22.5m)_pred_reproduktorem
man_1
1
1
3,41
20,943
59
48
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
man_1
2
1
3,41
22,077
27
49
auditorium
misto_3_(7m)_pred_reproduktorem
woman_2
1
1
3,38
19,228
24
50
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
woman_1
2
1
3,38
23,855
21
51
rodinny_dum_bezna_mistnost
misto_3_(1.8m)_vlevo_za_reproduktorem
woman_1
2
1
3,34
22,200
27
52
open_space_kancelar
misto_1_(3.1m)_vpravo_od_reproduktoru
woman_2
2
2
3,34
16,791
37
53
technologicke_zazemi
misto_2_(16.8m)_pred_reproduktorem
woman_1
2
1
3,31
22,906
24
rodinny_dum_bezna_mistnost
misto_2_(2.3m)_vpravo_pred_reproduktore m
woman_1
3
1
3,31
18,637
15
55
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
man_2
2
1
3,31
23,905
16
56
open_space_kancelar
misto_1_(3.1m)_vpravo_od_reproduktoru
man_1
1
2
3,31
20,312
31
57
auditorium
misto_2_(3m)_pred_reproduktorem
woman_1
1
2
3,24
23,791
37
58
rodinny_dum_bezna_mistnost
misto_1_(2.6m)_vlevo_pred_reproduktorem
woman_1
2
2
3,21
18,044
31
59
auditorium
misto_2_(3m)_pred_reproduktorem
man_1
1
2
3,21
19,685
25
60
rodinny_dum_bezna_mistnost
misto_1_(2.6m)_vlevo_pred_reproduktorem
woman_1
2
1
3,21
19,840
26
61
auditorium
misto_1_(3.8m)_vlevo_od_reproduktoru
man_1
1
1
3,17
23,294
21
62
open_space_kancelar
misto_3_(10.2m)_pred_reproduktorem
woman_2
1
2
3,14
16,086
26
63
open_space_kancelar
misto_3_(10.2m)_pred_reproduktorem
man_2
4
2
3,1
16,315
14
64
open_space_kancelar
misto_3_(10.2m)_pred_reproduktorem
man_2
1
1
3,1
19,948
14
65
technologicke_zazemi
misto_1_(4.2m)_pred_reproduktorem
woman_1
2
2
3,1
23,748
25
66
auditorium
misto_3_(7m)_pred_reproduktorem
woman_2
2
1
3,03
21,776
18
67
auditorium
misto_1_(3.8m)_vlevo_od_reproduktoru
woman_2
1
1
3,03
25,456
44
68
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
man_1
1
2
3,03
20,280
17
69
auditorium
misto_2_(3m)_pred_reproduktorem
woman_1
1
1
3,03
17,231
24
70
open_space_kancelar
misto_2_(5.2m)_pred_reproduktorem
woman_1
3
1
3
18,254
17
71
nakupni_centrum
misto_4_(20m)_vlevo_od_reproduktoru
woman_2
3
1
3
12,689
23
72
technologicke_zazemi
misto_2_(16.8m)_pred_reproduktorem
man_2
4
1
2,97
22,348
20
73
technologicke_zazemi
misto_2_(16.8m)_pred_reproduktorem
man_1
2
1
2,9
19,795
22
74
open_space_kancelar
misto_3_(10.2m)_pred_reproduktorem
man_1
3
1
2,83
16,512
19
54
42
75
open_space_kancelar
misto_3_(10.2m)_pred_reproduktorem
woman_2
3
2
2,83
10,740
24
76
technologicke_zazemi
misto_3_(22.5m)_pred_reproduktorem
man_1
1
2
2,76
22,836
35
77
open_space_kancelar
misto_3_(10.2m)_pred_reproduktorem
woman_1
2
1
2,55
18,258
19
78
nakupni_centrum
misto_4_(20m)_vlevo_od_reproduktoru
man_1
2
1
2,55
14,780
28
79
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
man_1
1
1
2,52
14,805
22
80
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
woman_1
1
2
2,45
17,760
19
81
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
woman_1
1
2
2,34
17,760
19
82
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
woman_2
1
1
2,34
12,349
17
83
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
man_2
1
1
2,28
17,119
22
84
nakupni_centrum
misto_4_(20m)_vlevo_od_reproduktoru
woman_2
3
2
2,24
12,153
24
85
nakupni_centrum
misto_4_(20m)_vlevo_od_reproduktoru
man_1
2
1
2,14
14,780
28
86
nakupni_centrum
misto_4_(20m)_vlevo_od_reproduktoru
woman_1
2
1
1,86
16,451
33
87
nakupni_centrum
misto_4_(20m)_vlevo_od_reproduktoru
man_2
2
1
1,76
14,353
23
nakupni_centrum
misto_3_(12.5m)_vlevo_vpred_reproduktor em
woman_2
2
2
1,76
9,362
29
nakupni_centrum
misto_1_(4.5m)_pred_reproduktorem
woman_1
1
1
1,66
16,675
25
nakupni_centrum
misto_3_(12.5m)_vlevo_vpred_reproduktor em
man_2
1
2
1,55
10,858
20
91
nakupni_centrum
misto_2_(19.5m)_pred_reproduktorem
woman_1
3
1
1,45
12,144
27
92
nakupni_centrum
misto_2_(19.5m)_pred_reproduktorem
man_2
2
1
1,45
10,755
22
woman_1
2
2
1,41
14,012
31
woman_1
2
1
1,34
12,236
26
man_1
2
1
1,24
88 89 90
93 94 95
nakupni_centrum nakupni_centrum nakupni_centrum
misto_3_(12.5m)_vlevo_vpred_reproduktor em misto_3_(12.5m)_vlevo_vpred_reproduktor em misto_3_(12.5m)_vlevo_vpred_reproduktor em
9,334
23
96
nakupni_centrum
misto_2_(19.5m)_pred_reproduktorem
man_1
2
1
1,21
11,733
25
97
nakupni_centrum
misto_2_(19.5m)_pred_reproduktorem
woman_1
3
2
1,17
11,196
27
98
nakupni_centrum
misto_2_(19.5m)_pred_reproduktorem
woman_2
4
1
1,14
11,733
25
nakupni_centrum
misto_3_(12.5m)_vlevo_vpred_reproduktor em
man_2
1
1
1,1
8,904
20
nakupni_centrum
misto_2_(19.5m)_pred_reproduktorem
man_2
2
2
1,07
10,163
24
99 100
Tabulka 6-1 Naměřené hodnoty
43
Příloha 2 - Koeficienty křivek stejných hlasitostí f [Hz] 20 25 31,5 40 50 63 80 100 125 160 200 250 315 400 500 630 800 1000 1250 1600 2000 2500 3150 4000 5000 6300 8000 10000 12500
alfa f 0,532 0,506 0,48 0,455 0,432 0,409 0,387 0,367 0,349 0,33 0,315 0,301 0,288 0,276 0,267 0,259 0,253 0,25 0,246 0,244 0,243 0,243 0,243 0,242 0,242 0,245 0,254 0,271 0,301
Lu[dB] -31,6 -27,2 -23 -19,1 -15,9 -13 -10,3 -8,1 -6,2 -4,5 -3,1 -2 -1,1 -0,4 0 0,3 0,5 0 -2,7 -4,1 -1 1,7 2,5 1,2 -2,1 -7,1 -11,2 -10,7 -3,1
Tf[dB] 78,5 68,7 59,5 51,1 44 37,5 31.5 26,5 22,1 17,9 14,4 11,4 8,6 6,2 4,4 3 2,2 2,4 3,5 1,7 -1,3 -4,2 -6 -5,4 -1,5 6 12,6 13,9 12,3
Tabulka 6-2 Koeficienty pro určení křivek stejných hlasitostí [10]
44
Příloha 3 - Mapy měřených objektů [23]
Obr. 6-1 Mapa open space kancelář
Obr. 6-2 Mapa obchodní centrum
45
Obr. 6-3 Mapa auditorium
Obr. 6-4 Mapa technologické zázemí
46
Obr. 6-5 Mapa běžná místnost
Obr. 6-6 Mapa poslechová místnost
47
Příloha 4 - Výpis programu x
krivky.m % M-file nacte koeficienty potřebmé pro výpočet křivek setejných hlasitostí % a vypočte koeficienty filtru FIR. % -----------------------------------------------------------------------clear all load('koeficienty.mat') Ln=60; fs = 44100; L=[]; f = koeficienty_nove(:,1)'; for Ln = 10:10:120; for i = 1:length(f) % výpočet dle definice A(i)=4.47*10^-3*(10^(0.025*Ln)-1.15)+(0.4*10^(((koeficienty_nove(i,4)... +koeficienty_nove(i,3))/10)-9))^koeficienty_nove(i,2); Lp(i)=((10/koeficienty_nove(i,2))*log10(A(i)))-koeficienty_nove(i,3)+94; end end Lp=-Lp; %inverze průběhu Lp=Lp-max(Lp); %normování podle maxima f=f/(fs/2); Lp=10.^(Lp/10); %odlogaritmovani x=0:0.001:1; Lp=interp1(f,Lp,x, 'pchip'); %interpolace filtr = fir2(100,x,Lp);
x
prah.m % % % %
Funkce načte soubor přijatý jako parametr vypočíta segmenty energie, určí histogram a z něho najde první lokální minimum což je výstup z funkce --------------------------------------------------------------------
function [prah,a,krok]=prah(soubor,kanal)
krok =1323 %délka segmentu suma = 0; count =0; [Y,FS,NBITS,OPTS]=wavread(soubor);
48
Y=filtrovat(Y); %filtrace vstupního signálu Y=Y(:,kanal);
%výběr příslušného kanálu
a=zeros(length(Y)/krok,1); %spočtení energie v jednotlivých segmentech for i = 1:length(Y)/krok; for f = (count*krok)+1:(count+1)*krok; suma = suma + (abs(Y(f,1))); end suma = (suma)/krok; a(count+1)=suma; count=count+1; suma = 0; end [H,X]=hist(a,100); %histogram [maxh, ind] = max(H);%optimalizace histogramu H = H(ind:end); X=X(ind:end); avg=smooth(H,10,'lowess'); %vyhlazení histogramu [maxa, in] = max(avg); %optimalizace histogramu avg = avg(in:end); derivace = diff(avg); %derivace p = 1:length(derivace); par=avg(derivace(p)>0); prah=X(find(avg==par(1))); %prvni minimum prah = prah(1); end
x
rozdelit.m % Funkce ze zadaných parametrů práhu a vektoru vsupních vzorků rozdělí % vstupni vektor na části s řečovou aktivitou a vypočíta SNR function [b,c,SNR]=rozdelit(prah,a,Y,krok) b=zeros(1,length(a)); %pomocný vektor na vykresení c=zeros(1,length(Y)); % vektor vzorku s hlasovou aktivitou e=zeros(1,length(Y)); %vektor vzorků bez řečové aktivity % Určení aktivních částí for i=1:length(a); if(a(i)>prah)
49
b(i)=7; if (krok*(i+1)>length(Y)) pom = length(Y); else pom = krok*(i+1); end
c(i*krok:pom) = Y(i*krok:pom); e(i*krok:pom) = 0;
else for k = 0:11; pom = i+k; pom1 = i -(11-k); if (i -(11-k)<1) pom1=1; end if (pom>=length(a)) pom = length(a); end
if(a(pom)>prah && a(pom1)>prah ) b(i)=7; c(i*krok:krok*(i+1)) = Y(i*krok:krok*(i+1)); e(i*krok:krok*(i+1)) = 0; count = count + 1; break; else
if (krok*(i+1)>length(Y)) pom = length(Y); else pom = krok*(i+1); end e(i*krok:pom)=Y(i*krok:pom); b(i)= 0; c(i*krok:krok*(i+1))=0; count = 1;
end end end end
50
c = c(c~=0); e = e(e~=0);
as = sum(c.^2)/length(c); %výpočet výkonu aktivní části asu = sum(e.^2)/length(e); %výpočet výkonu neaktivní části SNR = 10*log10(as/asu); %výpočet SNR end
x
korelace.m % Funkce vypočítá autokorelaci signálu zadaného v parametru funkce dále % sestrojí histogram a vypočte šířku ve dvou procentech %----------------------------------------------------------------------function [p,SNR] =
korelace(soubor,kanal)
[prah,a,krok,FS]=prah(soubor,kanal); %vypočtení prahu a energii [b,c,SNR]=rozdelit(prah,a,Y,krok); %rozdělení na aktivni a neaktivní části kor2=xcorr(c,c); %výpočet korelce % doba=(length(kor2)/FS)/2 ;%doba snimani % osa=-doba:1/FS:doba-1/FS;%osa korelacni funkce p = round(length(kor2)/2); kor2=kor2(p:p+44100); %výběr jedné sekundy [h,x]=hist(kor2,200); %histogram h=h./max(h); %normování dle maxima p = length( h(h>0.02)) %počet soubců histogramu větších ja 2% end
51