Proceedings of the 6th Conference of Czech Student AES Section on Audio Technologies and Processing. ATP 2005
Czech student AES section in cooperation with Brno University of Technology, Faculty of Electrical Engineering and Computer Science, Department of Telecommunications and Czech Technical University in Prague, Faculty of Electrical Engineering, Department of Radioelectronics
Editor:
Jiří Schimmel, MSc.
ISBN 80-214-2925-9
Česká studentská sekce AES ve spolupráci s Fakultou elektrotechniky a komunikačních technologií Vysokého učení technického v Brně a Fakultou elektrotechnickou Českého vysokého učení technického pořádá 6. studentskou konferenci
24. května 2005 Fakulta elektrotechnická České vysoké učeni technické Technická 2, Praha 6 Česká republika
http:// www.aes.cz / atp2005
OBSAH Contents Úvodní slovo Preamble
7
Abstrakty Abstracts
9
Tutorial Session -Alois Melka: Kdopak by se bál psychoakustiky? (rozšířený abstrakt) Who’s Afraid of Psychoacoustics? (extended abstract)
17
Jiří Přinosil: Systém podpory zpracování audio signálů Support System for Audio Signals Processing
19
Jiří Schimmel: Řízení zpracování signálů v reálném čase pomocí komunikačních sítí Control of Real-Time Signal Processing Via Communication Networks
29
Pavel Rajmic, Jan Vlach: Metoda segmentované waveletové transformace pro zpracování signálů v reálném čase Method of Segmented Wavelet Transform for Real-time Signal Processing
36
Václav Eksler: Separace přímých směsí audio signálů založená na časově frekvenční analýze Separation of Linear Instantaneous Mixtures of Audio Signals Based on Time Frequency Analysis
41
Zbyněk Bureš: Objektivní hodnocení kvality zvuku Objective Sound Quality Estimation
47
Vítězslav Kot: Multikanálový digitální efekt reverb s neexponenciálně doznívající impulsní odezvou 53 Multichannel Digital Effect Reverb with Non-Exponentially Decaying Impulse Response Jan Aksamít: Přenos komprimovaných řečových signálů Transferring of Coded Speech Signals
60
5
Michal Vlk: Plesiochronní převodník vzorkovací frekvence Plesiochronous Sample Rate Convertor
64
Jan Křenek, Jan Holub: Neintrusivní měření kvality hlasových přenosů pomocí histogramů Histogram based approach for non-intrusive speech quality measurement in networks
68
Karel Motl: Elektroakustický vysílač s přímou D/A přeměnou Electroacoustic Transmitter with the Direct D/A Conversion
73
František Rund: Modelování přenosu zvuku do vnitřního ucha Modelling of Sound Transfer into Inner Ear
81
Pavel Štemberk: Moderní metody automatického rozpoznávání řeči Modern Methods for Automatic Speech Recognition
87
Kamil Ptáček: Optoakustický měnič jako digitální sluchátko Optoacoustic Digital Earphone
95
Hynek Bořil: Lombardův efekt v řečových databázích CLSD a SPEECON Lombard Effect in CLSD and SPEECON Speech Databases
100
Pavel Šimek: Hodnocení kvality řeči pomocí neintrusivní metody Single Ended Method for Objective Speech Quality Assessment
108
Jiří Dostál, René Szotkowski: Nástin možností využití multimédií ve výuce The Outline of Possible Usage of the Multimedia in Learning
112
Pavel Valoušek: Jednoduchá konverze audio formátů: DSD na PCM Simple Audio Format Conversion: DSD to PCM
6
116
Vážení a milí kolegové, konference Audio Technologies and Processing je vždy, jak mi bylo potěšením několikrát na vlastní kůži zažít, velmi příjemná událost. Fakt, že v době, kdy píšu tyto řádky, vrcholí přípravy šestého ročníku je důkazem toho, že si to nemyslím pouze já. Vytváření možnosti přátelského a kolegiálního setkávání studentů různých oblastí zvukové techniky je zajisté velmi vítaným počinem, za což jistě patří jeho organizátorům pocta i dík. Tím, že se začíná ujímat začleňování vyzvaných přednášek do programu konference, dostává akce kromě vědeckého i pedagogický rozměr. Věřím, že pro takto zapálené fórum nikdy nebude problém sehnat odborníky ochotné podělit se se svými životními zkušenostmi. I zásluhou existence této konference je Česká studentská sekce AES hodnocena mezi ostatními sekcemi jako jedna z nejaktivnějších. Přejme si, aby tomu tak bylo i nadále.
V Praze dne 29.dubna 2005
Libor Husník předseda České sekce AES
7
PODĚKOVÁNÍ Tato publikace byla vydána za finanční podpory získané z grantu GAČR 102/03/H086 „Nové pojetí a koordinace výuky doktorandů v radioelektronice a souvisejících oborech“.
8
Abstrakty Systém podpory zpracování audio signálů Jiří Přinosil Tento článek se zabývá návrhem rozhraní plug-in modulů pro vazbu mezi signálovým procesorem Motorola rodiny DSP56300 a osobním počítačem. Toto rozhraní umožňuje zavádění a odstraňování algoritmů číslicového zpracování zvukových signálů do digitálního signálového procesoru z počítače a obousměrnou komunikaci mezi signálovým procesorem a osobním počítačem pomocí sériového rozhraní. Rozhraní plug-in modulu je implementováno na vývojovém modulu DSP 56307EVM.
Řízení zpracování signálů v reálném čase pomocí komunikačních sítí Jiří Schimmel Tento článek se zabývá návrhem protokolu pro řízení číslicového zpracování signálů pomocí komunikačních sítí, zejména sítí TCP/IP, a jeho multiplatformním parserem. Využití tohoto protokolu v embedded jednotkách pro zpracování audiosignálu představuje moderní řešení dálkově řízeného číslicového zpracování zvukových signálů v reálném čase. Cílem je získat možnost řízení zpracování zvukových signálů v sítích s distribuovaným zpracováním na velké vzdálenosti, např. prostřednictvím Internetu.
Metoda segmentované waveletové transformace pro zpracování signálů v reálném čase Pavel Rajmic, Jan Vlach Nová metoda segmentované waveletové transformace (SegWT) umožňuje přesný výpočet waveletové transformace diskrétního signálu po segmentech. To znamená, že tato metoda může být využita pro waveletové zpracování signálů v reálném čase nebo v případě, kdy je třeba zpracovat dlouhý signál (ne nutně v reálném čase) pomocí úprav waveletových koeficientů, ale pro tuto úlohu není dostatek paměti (např. v signálových procesorech). Pak je možno novou metodou zpracovat signál po částech. Metodu lze využít univerzálně všude tam, kde je třeba zpracovávat signály pomocí waveletové transformace (např. odšumování signálů, komprese, zpracování hudby, řeči, alternativní DMT modulace v xDSL systémech). V tomto článku je prezentován princip segmentované dopředné waveletové transformace.
Separace přímých směsí audio signálů založená na časově frekvenční analýze Václav Eksler Problematikou separace zdrojů nebo také separace signálů se zabývá skupina metod, jejichž cílem je pomocí procesu separace naslepo obnovit původní zdrojové signály z jejich směsí, přičemž zdrojové signály ani prostředí, ve kterém došlo ke „smíchání“, nejsou předem známy. V tomto článku představíme a na experimentu ověříme navrhnutou zdokonalenou separační metodu vhodnou pro separaci řečových event. hudebních signálů, která je založená na časově-frekvenční analýze a sledování kmitočtu základního tónu řečového signálu. 9
Objektivní hodnocení kvality zvuku Zbyněk Bureš Stanovení kvality audio signálu z hlediska vnímání posluchačem je přetrvávajícím problémem. Vlivem digitálního zpracování se objevují nové jevy, mající dopad na vnímanou jakost zvuku. Omezená propustnost komunikačních prostředků způsobuje tlak na redukci datového toku. Jsou neustále vyvíjeny nové metody zpracování audio signálů, jejichž vliv na posluchače je třeba posuzovat. V uvedeném kontextu se hodnocení kvality zvuku jeví jako velice významné a aktuální. Vzhledem k náročnosti subjektivních poslechových testů je snaha nalézt objektivní měřítka, jež by byla dostatečně dobře korelována s výsledky subjektivních testů. Článek přináší přehled o současných metodách objektivního hodnocení kvality zvuku, o jejich problémech a možných směrech rozvoje.
Multikanálový digitální efekt reverb s neexponenciálně doznívající impulsní odezvou Vítězslav Kot V článku je prezentován nový algoritmus multikanálového digitálního zvukového efektu typu reverb. Tento algoritmus produkuje impulsní odezvu s nastavitelnou obálkou dozvuku, celkovou dobou dozvuku a frekvenčně závislou dobou dozvuku. Obálka se může skládat z libovolného počtu lineárně rostoucích či klesajících úseků, což poskytuje možnost vytvoření zajímavého reverberačního efektu.
Přenos komprimovaných řečových signálů Jan Aksamít V dnešní době jsou stále více nasazovány systémy umožňující přenos řečových signálů (telefonních hovorů) v páteřních sítích v paketové formě. Tento článek se zabývá vlivem zpracování řečového signálu na kvalitu rekonstruovaného signálu po průchodu tandemovým zapojením kodeků a případnými problémy vznikajícími při tomto procesu.
Plesiochronní převodník vzorkovací frekvence Michal Vlk Při propojování digitálních elektroakustických zařízení se někdy setkáváme s problémem převodu vzorkovacích frekvencí, které jsou si velice blízké. Taková situace nastává v zařízeních, kde jsou použity různé autonomní zdroje hodinových signálů stejné frekvence. V článku je popsán plesiochronní převodník vzorkovací frekvence založený na spojitém prototypu FIR filtru. Je uveden základní teoretický rozbor metody a popsán algoritmus výpočtu v jazyku ANSI C.
Neintrusivní měření kvality hlasových přenosů pomocí histogramů Jan Křenek, Jan Holub Článek popisuje způsob použití histogramů pro neintrusivní hodnocení kvality hlasových přenosů v GSM a jiných sítích. 10
Elektroakustický vysílač s přímou D/A přeměnou Karel Motl Vývoj v oblasti elektroakustických měničů se již po dobu několika desítek let omezuje především na hledání nových materiálů a technologií výroby při zachování stejného principu funkce reproduktoru. Tím začíná zaostávat za zbytkem elektroakustického řetězce, kde došlo ke značným změnám způsobeným kompletní digitalizací. To má napravit elektroakustický měnič s přímou digitálně analogovou přeměnou, někdy nazývaný jako digitální reproduktor (DR). Tato práce pojednává o modelu digitálního reproduktoru, který má sloužit k nalezení jeho podstatných parametrů a vlastností v závislosti na použitých technologiích a alternativách realizace.
Modelování přenosu zvuku do vnitřního ucha František Rund Pochopení způsobu jakým funguje lidské slyšení je základním předpokladem pro návrh nových metod zpracování zvuku. Tento článek se zabývá studiem vlivu přenosové charakteristiky vnějšího zvukovodu na zvukový signál vnímaný ve vnitřním uchu. Přenosová funkce vnějšího ucha je také často dávána do souvislosti s chronickým akustickým traumatem. Ale stejně často se také uvádí, že vliv vnějšího ucha (zvukovodu) je kompenzován při průchodu zvuku středním uchem. Tento článek se snaží přispět ke studiu tohoto problému pomocí modelování vnějšího a středního ucha.
Moderní metody automatického rozpoznávání řeči Pavel Štemberk Automatickým rozpoznáváním řeči (ASR) rozumíme konverzi dané promluvy na čistý text. Moderní metody pro ASR jsou založeny na generování různých možností posloupností slov z daného akustického signálu. K tomuto účelu se používají statistické metody na bázi skrytých Markovových modelů, které reprezentují nejmenší fonetické části (fonémy). Ty pak mohou pomocí nějaké rozpoznávací sítě reprezentovat předem dané možnosti posloupností slov. Tato rozpoznávací síť může být reprezentována váhovým stavovým automatem (WFSM), což díky dnešním nástrojům pro WFSM znamená možnost optimalizace rozpoznávací sítě (sdružování konců a začátků slov) a tím i zvýšení celkové rychlosti rozpoznávacího procesu.
Optoakustický měnič jako digitální sluchátko Kamil Ptáček I přes mohutný nástup digitální zvukové techniky stále zůstávají v audio řetězci dva analogové články. Jsou to akusto-elektrický a elektro-akustický měnič. Přesto, že je problém digitalizace těchto prvků již zkoumán, nepodařilo se zatím vytvořit prakticky použitelný systém. Tento článek se zamýšlí nad využitím nekonvenčního druhu elektro-akustické přeměny signálu. Jedná se o optoakustický měnič s nepřímým vyzařováním použitý jako miniaturního sluchátko s přímou D/A přeměnou.
11
Lombardův efekt v řečových databázích CLSD a SPEECON Hynek Bořil Úspěšnost systémů automatického rozpoznávání řeči výrazně klesá v hlučném prostředí. Tento pokles je způsoben nejen samotnou přítomností šumu v analyzovaném řečovém signálu, ale také změnami v produkci řeči, kterými se mluvčí snaží zvýšit srozumitelnost promluvy v reakci na okolní hluk. Tyto změny jsou nazývány Lombardův efekt (LE). Cílem analýzy LE je návrh degradačního modelu popisujícího vztah mezi Lombardovou a neutrální řečí. Pokud je takovýto vztah nalezen, je možno navrhnout parametrizace řečového signálu méně citlivé na vliv LE. V této zprávě je porovnána databáze Czech SPEECON s nově vytvořenou databází Czech Lombard Speech Database. Srovnání je provedeno z hlediska parametrů citlivých na LE za účelem vyhodnocení použitelnosti zmíněných databází pro analýzu a modelování LE.
Hodnocení kvality řeči pomocí neintrusivní metody Pavel Šimek Tento příspěvek popisuje jednu z metod ohodnocení kvality řeči v telekomunikačních sítích. Cílem první části je vysvětlit obecné metody pro hodnocení kvality řeči. Druhá hlavní část popisuje neintrusivní metodu pro ohodnocení kvality řečového signálu v telekomunikačních sítích dle doporučení P.563.
Nástin možností využití multimédií ve výuce Jiří Dostál, René Szotkowski Příspěvek řeší problematiku možností využití multimédií ve výuce a zabývá se aplikačnímu možnostmi využití informačních a komunikačních technologií.
Jednoduchá konverze audio formátů: DSD na PCM Pavel Valoušek Principy pulsně-kódové a sigma-delta modulace jsou známy již dlouhou dobu. První z těchto modulací se stala neoficiálním standartem pro profesionální i spotřební digitální audio, druhý typ modulace je široce používán v různých technických aplikacích a v A/D a D/A konverzi audio signálů. Jednobitový sigma-delta datový tok se vzorkovací frekvencí 2.8224 MHz vytvořený modulátorem vyššího řádu používaný pro Super Audio CD se nazývá Direct Stream Digital. Pro další zpracování je nezbytné tento signál převést na PCM formát.
12
Abstracts Support System for Audio Signals Processing Jiří Přinosil This paper deals with proposal of a plug - in interface for link between signal processor of the Motorola DSP56300 family and personal computer. This interface allows loading and removing algorithms of the digital audio signal processing to the digital signal processor from computer and bidirectional communication between the signal processor and the personal computer by a serial interface. The plug-in interface is implemented in the evolutionary module - DSP56307EVM.
Control of Real-Time Signal Processing Via Communication Networks Jiří Schimmel This paper deals with design of protocol for control of digital audio signal processing over communication networks, namely for TCP/IP networks, and its multi-platform parser. The application of this protocol in embedded audio processing units represents a modern approach to remote-controlled real-time processing of digital audio signals. The aim is to get possibility to control audio signal processing in distributed processing networks at very long distances, e.g. via the Internet.
Method of Segmented Wavelet Transform for Real-time Signal Processing Pavel Rajmic, Jan Vlach The new method of segmented wavelet transform (SegWT) makes it possible to exactly compute the discrete-time wavelet transform of a signal segment-by-segment. This means that the method could be utilized for wavelet-type processing of a signal in real time, or in case we need to process a long signal (not necessarily in real time), but there is insufficient computational memory capacity for it (for example in the signal processors). Then it is possible to process the signal part-by-part with low memory costs by the new method. The method is suitable for universal utilization in places where the signal has to be processed via modification of its wavelet coefficients (e.g. signal denoising, compression, music or speech processing, alternative modulation techniques for xDSL systems). In the paper, the principle of the segmented forward wavelet transform is described.
Separation of Linear Instantaneous Mixtures of Audio Signals Based on Time Frequency Analysis Václav Eksler Problems of blind source/signal separation are explored by a group of methods, the goal of which is to recover original source signals from their mixtures using a separation process, withal source signals nor mixing background are not known in advance. In this paper we introduce a projected advanced method suitable for separation of speech or music signals, which is based on the time-frequency analysis and tracking of the fundamental frequency of speech signal and which validity is proved by an experiment. 13
Objective Sound Quality Estimation Zbyněk Bureš Estimation of sound quality, as is perceived by the listener, is a persistent problem. New phenomena that affect perceived quality appear due to digital processing. Limited capacity of communication networks enforces bitrate reduction. New methods of digital sound processing are being developed. In this context, sound quality estimation is an important and topical issue. In order to avoid troublesome subjective listening tests, objective measures are being sought that would correlate well enough with subjective test results. In the article an overview of current methods is presented, current problems and matters of interest are reviewed and possible ways of development are mentioned.
Multichannel Digital Effect Reverb with Non-Exponentially Decaying Impulse Response Vítězslav Kot This paper presents a new algorithm of multichannel digital reverberation. Presented algorithm produces impulse response with controllable decay curve, reverberation time and frequency dependent reverberation time. The decay curve can consist of arbitrary number of increasing or decreasing linear segments, which provide possibility of create an interesting reverberation effect.
Transferring of Coded Speech Signals Jan Aksamít There is a growing number of systems allowing the transferring of speech signals through backbone networks in the packet form. The article is focused on a signal treatment and its influence in a quality of a signal after passing through tandem-connection of codecs and possible problems that can arise from this process.
Plesiochronous Sample Rate Convertor Michal Vlk Sometimes in digital acoustic signal transfer we solve problem of converting signals of two nearly similar sample rates. This situation occurs in equipments where more autonomous clocks (like quartz without PLL) are used. Therefore we must use plesiochronous sample rate converter (PCSRC) between them. PCSRC based on the continous prototype of finite response digital filter is analyzed in the paper. General theory of such that system is presented and ANSI-C algorithm is introduced.
Histogram based approach for non-intrusive speech quality measurement in networks Jan Křenek, Jan Holub This article describes the usage of histograms for speech audio quality assessment in GSM and other networks. 14
Electroacoustic Transmitter with the Direct D/A Conversion Karel Motl Development in the field of electroacoustic transducers has been reduced for many years to experiments with materials and technology, whereas basic principles stay unchanged. The rest of the electroacoustic chain is completely digitalized, so there is tendency to digitalize also the end of such a chain. It leads to electroacoustic transducers with direct D/A conversion (digital loudspeaker). In this work model of digital loudspeaker is described and its utilization for analysis of the main parameters and characteristics is presented.
Modelling of Sound Transfer into Inner Ear František Rund The insight in the way how the human hearing works is important for design of new methods of signal processing. This paper is concerning about the influence of the external ear canal transfer function on sound signal perceived in the cochlea. The ear canal transfer function is often related to the Noise Induced Hearing Loss. But often is also stated, that the influence of external ear canal is cancelled by transfer characteristics of the middle ear. This paper wants to contribute to study of the problem by means of modelling external and middle ear.
Modern Methods for Automatic Speech Recognition Pavel Štemberk Modern architectures for ASR are mostly software architectures generating a sequence of word hypotheses from an acoustic signal. The most popular algorithms implemented in these architectures are based on statistical methods - Hidden Markov models (HMMs), which represent elementary probabilistic models of basic linguistic units (e.g., phonemes). This is used to build word representations by using a recognition network. This network can be represented by a Weighted Finite State Machine (FSM), which leads to the possible optimization of recognition network (sharing of origins and ends of given words). This is the main issue for improving whole recognition speed against ASR used in the present.
Optoacoustic Digital Earphone Kamil Ptáček Despite massive usage of digital technology in audio world, some parts of audio chain still remain in analog form. They are electro-acoustic and acusto-electric transducers. Although the research towards their digital substitution is in progress, there is still no useful system. In this paper the application of optoacoustic transducer as digital earphone is discussed.
15
Lombard Effect in CLSD and SPEECON Speech Databases Hynek Bořil The performance of speech recognition systems decreases rapidly in the presence of environmental noise. The degradation is not only caused by noise corruption of speech, but also by modifications of speech production by speaker in an effort to increase communication efficiency. Such speech production changes are called Lombard effect (LE). Goal of the LE analysis is proposal of a degradation model representing relations between Lombard speech and clean speech. If such a relation is found, features more robust to LE can be proposed. In this paper, speech features sensitive to LE are analysed and compared for Czech SPEECON database and newly established Czech Lombard Speech Database to evaluate their suitability for LE analysis and modelling.
Single Ended Method for Objective Speech Quality Assessment Pavel Šimek The contribution describes one of methods for evaluation speech quality of telephone networks. The aim of first part is to explain general methods for assessing the speech quality. The second main part describes a Single ended method for objective speech quality assessment in narrow-band telephony applications.
The Outline of Possible Usage of the Multimedia in Learning Jiří Dostál, René Szotkowski The contribution solves the possible usage of the multimedia in the learning and it deals with application possibilities in using the informational and communicational technologies.
Simple Audio Format Conversion : DSD to PCM Pavel Valoušek Principles of pulse-code and sigma-delta modulation are well known for a long time. The first of them stands "de-facto" as a standard of professional and consumer digital audio, the second one is widely used in various technical applications and in audio A/D and D/A conversion. Sigma-delta 1-bit data stream with sampling frequency 2.8224 MHz created by high order modulator used for Super Audio CD is called Direct Stream Digital. For further processing, it is necessary to convert this signal into PCM format.
16
KDOPAK BY SE BÁL PSYCHOAKUSTIKY? Who’s Afraid of Psychoacoustics? Alois Melka
*
Abstrakt Zatímco před zhruba dvaceti lety byl význam slova psychoakustika srozumitelný jen úzkému okruhu výzkumníků, je dnes tato vědní disciplína široce aplikována v praxi zejména v souvislosti se snahami o zlepšování hlukových poměrů. V důsledku více než skromného rozsahu výuky tohoto oboru na českých vysokých školách se u naší technické inteligence vyskytuje řada zkreslených představ o psychoakustice, které někdy vedou až k jejímu odmítání, jindy naopak k jejímu nekritickému přijímání, často spojenému s nepromyšleným používáním psychoakustických měřicích metod a s chybnou interpretací výsledků těchto měření. Autorovou snahou je přispět touto přednáškou k alespoň částečnému zlepšení popsaného stavu. V úvodní části přednášky budou vysvětleny rozdíly mezi užším „inženýrským“ a širším „psychologickým“ chápáním psychoakustiky a mezi klasickou a tzv. novou psychofyzikou; tyto rozdíly jsou příčinou většiny nedorozumění mezi akustiky a experimentálními psychology. Po ilustrování vztahů mezi podnětovými (fyzikálními) a psychologickými („subjektivními“) proměnnými, jejichž vyšetřování bylo ústředním bodem klasické psychofyziky, bude na Grahamově rovnici obecného chování organismu ilustrována důležitost i tzv. vnějších či rušivých proměnných (předem známých i latentních), které mohou významně ovlivnit výsledky psychoakustického experimentu. Dále bude stručně pojednáno o dvou základních typech měření v psychoakustice: psychologickém a přístrojovém měření. Bude vysvětlena důležitost znalosti metrické úrovně škálování psychologických proměnných (na nominální, pořadové, intervalové nebo poměrové stupnici) a zdůrazněna nezbytnost používat při zpracování změřených dat jen statistické postupy přípustné pro danou úroveň škálování. Stručně budou charakterizovány nejčastěji používané psychometrické metody v psychoakustice. V souvislosti s přístrojovým měřením tzv. sluchově adekvátních Zwickerových psychoakustických veličin budou diskutovány možnosti a limity těchto měření. Přednáška vznikla v rámci práce na projektu grantové agentury ČR „Kvalitativní aspekty zpracování audiovizuální informace v multimediálních systémech“, reg. č. 102/05/2054, řešeného na katedře radioelektroniky Fakulty elektrotechniky ČVUT v Praze.
Doporučená literatura [1] [2] [3] [4] [5]
BLAUERT, J. – JEKOSCH, U.: Sound-quality evaluation – a multi-layered problem. ACUSTICA/acta acustica 83 (1997), 747–753. BODDEN, M.: Psychoacoustics and industry: Instrumentation versus experience? ACUSTICA/acta acustica 85 (1999), 604–607. FERJENČÍK, J.: Úvod do metodologie psychologického výzkumu. Portál, Praha 2000. GEIST, B.: Psychologický slovník. 2. vyd. Nakladatelství Vodnář, Praha 2000. GUILFORD, J. P.: Psychometric methods. 2nd Edition. McGraw-Hill, New York 1954.
*
Ing. Alois Melka, CSc., Voskovcova 14, 152 00 Praha 5 tel.: +420 251 811 785, e-mail:
[email protected]
17
[6] [7] [8] [9] [10]
GUTJAHR, W.: Die Messung psychischer Eigenschaften. VEB Deutscher Verlag der Wissenschaften, Berlin 1971. MELKA, A.: Základy experimentální psychoakustiky. Akademie múzických umění v Praze, Praha 2005 (v tisku). MEILI, R. – ROHRACHER, H., et al.: Učebnice experimentální psychologie. Státní pedagogické nakladatelství, Praha 1969. RIELÄNDER, M. M. (Editor): Reallexikon der Akustik. Verlag Erwin Bochinski, Frankfurt am Main 1982. ZWICKER, E. – FASTL, H.: Psychoacoustics. Facts and models. Springer-Verlag, Berlin 1990.
Poděkování Tato práce vznikla s přispěním projektu GAČR 102/05/2054.
O autorovi Ing. Alois Melka, CSc. (∗1937) absolvoval v r. 1960 Elektrotechnickou fakultu Českého vysokého učení technického v Praze. V r. 1972 obhájil na téže fakultě vědeckou hodnost kandidáta technických věd. V r. 1961 nastoupil do zaměstnání ve Výzkumném ústavu elektroakustiky (VÚELA) v Praze, jehož ředitelem byl pozdější vedoucí katedry zvuku a vibrací na Elektrotechnické fakultě ČVUT v Praze Prof. Ing. J. Merhaut, DrSc. Díky jemu se Ing. Melka brzy dostal k systematické výzkumné práci v tehdy novém oboru psychoakustika, kterému zůstal věrný až do odchodu do důchodu. Ve VÚELA pracoval jako výzkumný, později jako vědecký pracovník do r. 1976, kdy odešel do Výzkumného ústavu zvukové, obrazové a reprodukční techniky (VÚZORT) v Praze. Zde pracoval postupně jako vědecký pracovník, vědecký náměstek ředitele (1990), ředitel ústavu (1990-92) a po privatizaci ústavu (1992) se opět vrátil k vědecké práci. Krátce po prodeji a.s. VUZORT firmě SONING Praha s.r.o. nastoupil 1.5.1996 u firmy AKUSTIKA Praha, s.r.o., kde byl zaměstnán jako samostatný psychoakustik do konce r. 2002, kdy odešel do důchodu. Během své pracovní činnosti řešil Ing. Melka řadu výzkumných projektů z oblasti psychoakustiky. Ve VÚELA se věnoval převážně výzkumu subjektivních účinků různých typů zkreslení, vznikajícího při elektroakustickém přenosu hudebního signálu, a vypracování metodiky subjektivního hodnocení zvukové kvality reproduktorových soustav. Ve VÚZORT se spolupodílel na plánování a realizaci poslechových testů akustické kvality nejvýznamnějších pražských koncertních sálů, vedl řešení několika projektů zaměřených na zjišťování zvukové kvality různých druhů hudebních nástrojů (trombón, trubka, housle) fyzikálními i psychologickými měřicími metodami a vypracoval nový soutěžní řád a metodiku subjektivního hodnocení zvukové kvality houslí pro 3. mezinárodní houslařskou soutěž v Praze v r. 1993. V letech 1993-95 přednášel externě na Elektrotechnické fakultě ČVUT v Praze v rámci doktorandské výuky oboru „Akustika“ předmět „Fyziologická a psychologická akustika“. Jako zaměstnanec firmy AKUSTIKA Praha řešil pro a.s. ŠKODAAUTO několik úkolů zaměřených na kvalitu reprodukce zvuku v interiérech automobilů a pro zaměstnance oddělení technického vývoje uskutečnil v Mladé Boleslavi několik sérií odborných přednášek a školení, spolupracoval se Státním zdravotním ústavem v Praze při experimentálním výzkumu působení nízkofrekvenčního hluku na obyvatele staveb, na objednávku Hudební fakulty Akademie múzických umění v Praze koncipoval a v letech 19972001 vedl řešení části evropského projektu COST G6 „Digital Audio Effects“ zaměřené na výzkum percepčních účinků prostorově-akustických efektů, používaných při úpravách studiových stereofonních snímků vážné hudby. 18
SYSTÉM PODPORY ZPRACOVÁNÍ AUDIO SIGNÁLŮ Support System for Audio Signals Processing Jiří Přinosil
*
Abstrakt Tento článek se zabývá návrhem rozhraní plug-in modulů pro vazbu mezi signálovým procesorem Motorola rodiny DSP56300 a osobním počítačem. Toto rozhraní umožňuje zavádění a odstraňování algoritmů číslicového zpracování zvukových signálů do digitálního signálového procesoru z počítače a obousměrnou komunikaci mezi signálovým procesorem a osobním počítačem pomocí sériového rozhraní. Rozhraní plug-in modulu je implementováno na vývojovém modulu DSP 56307EVM.
Abstract This paper deals with proposal of a plug - in interface for link between signal processor of the Motorola DSP56300 family and personal computer. This interface allows loading and removing algorithms of the digital audio signal processing to the digital signal processor from computer and bidirectional communication between the signal processor and the personal computer by a serial interface. The plug-in interface is implemented in the evolutionary module - DSP56307EVM.
Úvod Programově vytvořené digitální zvukové efekty, můžeme rozdělit do dvou skupin – efekty označované jako DSP efekty, běžící v signálových procesorech na hardwarových kartách počítačových systémů, a zvukové efekty, zpracovávané přímo v procesoru osobního počítače a označované jako CPU efekty. Z hlediska uživatele není rozdílu, jestli použijeme DSP efekt nebo CPU efekt. Z technického hlediska to však rozdíl je, neboť algoritmus prvního efektu je přenesen v assembleru signálového procesoru do paměti signálového procesoru na PCI kartě a počítač se již o něj dále nestará. Ve druhém případě je přímo v řídícím počítači spuštěn proces realizující zvolený algoritmus hudebního efektu, ale tím se současně zvýší výpočetní zatížení jádra počítače. Snaha o univerzálnost použití digitálních zvukových efektů vyústila v technologii plugin modulů. Plug-in modul je virtuální modul, který se vloží do cesty zpracování digitálního zvukového signálu, podobně jako efekt vložený do signálové cesty kanálu mixážního pultu. Myšlenka plug-in technologie je následující: vytvoříme hardwarově nezávislý programový modul zpracovávající signál s přesně definovaným formátem vstupu a výstupu a dále vytvoříme hostitelské prostředí, které bude zprostředkovávat tomuto modulu vazbu na okolí, tzn. poskytovat standardizovaná rozhraní pro komunikaci s hardwarem. Typickým příkladem audio plug-in modulu je realizace hudebního efektu. Vstupní signál je nejprve efektem ovlivněn (přepracován) a pak vyslán na výstup. Plug-in modul může ale signál i vytvářet, tedy chovat se jako generátor nebo syntezátor.
*
Jiří Přinosil, Ústav telekomunikací FEKT, Vysoké učení technické v Brně, Purkyňova 118, 612 00 Brno, +420 723 946 654, e-mail:
[email protected]
19
tel.:
Rozhraní plug-in modulu DSP plug-in modul tedy skládá ze dvou částí: části běžící na hostitelském počítači a části běžící v digitálním signálovém procesoru. První část modulu obsahuje hlavně uživatelské rozhraní algoritmu (User Interface UI). Druhá část - DSP kód - je přenesena přes komunikační rozhraní do digitálního signálového procesoru, viz obr.1.
Obr.1. Zpracování audio dat na signálovém procesoru DSP kód se skládá ze dvou částí, které jsou firmwarem (Software Developer toolKit SDK) volány jako podprogramy: • inicializační kód (Init Code) –
obsahuje počáteční nastavení, je spuštěn před prvním použitím, poté odstraněn
• kód procesu (Process Code) –
kód zajišťující zpracování signálu
Firmware (SDK) umožňuje zavedení kódu algoritmu assembleru digitálního signálového procesoru z hostitelského počítače do paměti digitálního signálového procesoru, přidělení jemu odpovídajících paměťových prostředků, řízení zpracovávání audio signálu, obousměrný přenos audio dat a parametrů. Při dealokaci plug-in modulu jsou využité prostředky (paměť dat a programu) uvolněny. Výměna dat mezi algoritmem a rozhraním je zprostředkována pomocí paměťových oblastí, které mohou být definovány v interních nebo externí datové paměti. Audio data jsou do paměti digitálního signálového procesoru umístěna automaticky firmwarem. Jako komunikační rozhraní byla zvolena sériová linka COM s asynchronním přenosem o rychlosti 57,6kb/s, bez využití parity, s datovou šířkou 8 bitů. Na straně signálového procesoru jsou data, která jsou vysílána po bytech, přejímány kanálem přímého přístupu do paměti DMA0, poté sloučeny ve tříbytová slova a pomocí kanálu DMA1 uloženy do příslušné části paměti.
20
Vysílání a příjem zvukových dat je nezávislé na uživatelském rozhraní, do signálového procesoru vstupují a vystupují přes rozšířené synchronní sériové rozhraní ESSI s dvoukanálovým 16 bitovým A/D (D/A) převodem. Vzorkovací kmitočet lze volit v rozmezí 8-48 kHz (viz [5]).
Systém SDK Celkový pohled na systém SDK Programové prostředí SDK je navrženo pro neustálý příjem vzorků vstupního signálu a jejich ukládání do paměti. Po přijetí vzorku jsou prvnímu procesu přiřazeny počáteční adresy jeho paměťových oblastí, adresa paměti, kde je uložen vzorek příchozího zvukového signálu, a adresa paměti, kam má být uložen zpracovaný vzorek. Poté je tento proces spuštěn jako podprogram. Po jeho ukončení je zpracovaný vzorek uložen na místo příchozího a je provedeno stejné nastavení pro další proces. Po zpracování vzorku všemi přítomnými procesy je odeslán na výstup a čeká se na příchod nového vzorku. Pro zavedení nového procesu, odstranění stávajícího, či změnu jeho parametrů musí uživatel pomocí uživatelské aplikace vyslat po přenosovém rozhraní řídící byte RB, jež udává typ požadované operace, následovaný dalším bytem CP, jež udává číslo procesu, s kterým má být tato operace provedena. Po přijetí obou bytů dojde k přerušení normální činnosti systému, RB je přečten a podle jeho obsahu je vybrán příslušný podprogram pro provedení požadované operace. Tento podprogram přijímá po komunikačním rozhraní další data, která obsahují velikosti a zarovnání paměťových oblastí, velikost DSP kódu, inicializační kód a kód procesu a parametry dle prováděné operace. Tato data jsou vysílána uživatelským rozhraním, a podprogramem zpracovávána. Po skončení podprogramu je systém uveden opět do normálního režimu činnosti. Činnost SDK při normální provozu a při přerušení je zjednodušeně ukázána na obr. 2 a 3. Registry R0-R7 udávají počáteční adresy paměťových oblastí jednotlivých procesů a adresu zpracovávaného vzorku.
Obr. 2. Architektura SDK při normálním provozu
21
Obr. 3. Architektura SDK při obsluze přerušení Podle obsahu bytu RB zvolí tedy SDK k obsluze jeden ze tří podprogramů. 1. Podprogram zavedení procesu, který provede následující činnosti: • podle čísla procesu najde jeho příslušné umístění v paměti, • podle požadovaného zarovnání a velikosti jednotlivých paměťových oblastí určí jejich počáteční a koncovou adresu a načte jejich obsah, • podle délky DSP kódu určí velikost potřebné programové paměti pro tento proces a načte inicializační kód a kód procesu, • spustí inicializaci s již přiřazenými paměťovými oblastmi a poté inicializační kód z programové paměti odstraní, • zařadí proces do cesty zpracovávání signálu a provede návrat do normálního režimu činnosti. 2. Podprogram změny parametrů, který • podle čísla procesu najde jeho příslušné umístění v paměti a určí umístění měněných parametrů, • načte nové parametry a zajistí jejich atomický (nepřerušitelný) zápis do příslušné části paměti a • provede návrat do normálního režimu činnosti. 3. Podprogram odstranění procesu, který • podle čísla procesu najde jeho příslušné umístění v paměti, • odstraní proces z cesty zpracovávání signálu, • uvolní jeho paměťové oblastí včetně přerovnání obsahů pamětí, • odstraní procesu z programové paměti a přerovnání jejího obsahu a • provede návrat do normálního režimu činnosti.
22
Struktura systému SDK Hlavní činností systému je tedy zpracovávání vzorků příchozího signálu načtenými procesy, jež jsou uloženy v programové paměti. Všechny procesy mají přiděleny určité části datových pamětí X a Y, v nichž mohou být uloženy konstanty, parametry a nebo mohou sloužit jako zásobník pro příslušný proces. Tyto části pamětí jsou nazývány paměťové oblasti (memory areas MA). Každý proces má přiděleno až pět těchto oblastí a jeden zásobník v datové paměti X o velikosti 224 slov společný pro všechny procesy i systém SDK. Popis těchto oblastí včetně vlastností ukazuje tab.1. Tab. 1 Popis paměťových oblastí
Paměťové oblasti 1 a 2 se nejlépe hodí k uložení konstant, koeficientů a různých pomocných veličin. Jejich výhodou je, že se nachází v interní RAM, což umožňuje rychlý přístup do paměti, a konstantní adresa (u těchto oblastí nedochází k přerovnání). Jelikož nejsou přístupné pomocí DMA, nejsou též přístupné z uživatelského rozhraní, načtení požadovaných dat do paměti se provádí v inicializačním kódu. Paměťové oblasti 3 a 4 mají univerzální využití a jsou jediné do kterých se dá zapisovat i po načtení procesu do systému SDK. Spojují výhody interní RAM s dostatečnou velikostí volné paměti. Jedinou nevýhodou je, stejně jako u paměťové oblasti 5, jejich proměnná adresa, což je nutno brát v potaz při návrhu plug-in modulů. Paměťová oblast 5 má největší možnou kapacitu volné paměti a nachází se v externí RAM, čili doba přístupu k datům je delší. Z toho je možné vyvodit, že její nejlepší využití bude jako velký zásobník pro vzorky daného procesu. Obsazenost a využití celého adresního prostoru pamětí X, Y a P systémem SDK, procesy a jejich paměťovými oblastmi je znázorněn na obr. 6. 23
Uživatelské rozhraní Uživatelské rozhraní je vytvořeno v programovacím jazyce C++ ve vývojovém prostředí Borland C++ Builder 6. Snahou při jeho realizaci bylo dosažení velmi jednoduchého intuitivního ovládání s rychlou odezvou systému SDK a minimálními požadavky na využití výkonu cílového počítače. V uživatelském rozhraní (obr. 4) jsou všechny načtené plug-in moduly seřazeny dle pořadí ve zpracovávání zvukového signálu.
Obr. 4. Uživatelské rozhraní Na obr. 4 je zobrazeno uživatelské rozhraní s popisem jednotlivých částí: 1) načtení nového plug-in modulu, 2) změna parametrů označeného plug-in modulu, 3) odstranění označeného plug-in modulu, 4) ukončení programu a 5) seznam načtených plug-in modulů. Jednotlivé plug-in moduly jsou ve skutečnosti soubory, jež obsahují přeložený DSP kód včetně konstant, koeficientů apod., který je přenesen do signálového procesoru, a nastavení pro tento modul. Z tohoto nastavení je v uživatelském rozhraní pro každý modul automaticky generováno jeho rozhraní (obr. 5), jež obsahuje název modulu, názvy, minimální, maximální a celkový počet hodnot parametrů tohoto modulu. Tyto parametry jsou převáděny do vhodného tvaru (hexadecimálního) a přenášeny do signálového procesoru, kde jsou ukládány 24
do příslušných částí paměťových oblastí 3 a 4. Po ukončení tohoto rozhraní jsou nastavení jednotlivých parametrů uložena pro příští použití.
Obr. 5. Rozhraní plug-in modulu Na obr. 5 je ukázán příklad možného rozhraní jednoho plug-in modulu s popisem jednotlivých částí: 1) načtení plug-in modulu do signálového procesoru, 2) načtení nastavených parametrů (lze až po načtení modulu), 3) ukončení a návrat do uživatelského rozhraní, 4) název plug-in modulu a 5) parametry a jejich nastavení.
Návrh plug-in modulů Vlastní plug-in modul je tedy soubor typu .rif vytvořený ze souboru typu .lod, obsahujícího přeložený DSP kód včetně konstant apod. (v hexadecimálním tvaru), pomocí programu Konstruktor.exe a nastavením názvu efektu, požadovaných velikostí a zarovnání jednotlivých paměťových oblastí atd., jež se provádí v tomto programu. DSP kód Počáteční adresy jednotlivých paměťových oblastí, pozice v zásobníku, adresa uložených vstupních vzorků a adresa pro výstupní vzorky jsou vždy při spuštění příslušného procesu uloženy v adresních registrech R0 až R7. Nastavení všech registrů (AGU i ALU) před spuštěním patřičného procesu ukazuje tab. 2. Po spuštění procesu je registr R5 systémem již nevyužit a může být libovolně použit, dle potřeb procesu.
25
Tab.2. Využití registrů digitálního signálového procesoru Registr a,b x,y r0 r1 r2 r3 r4 r5 r6 r7 n0 n1, ... ,n7 m0, ... ,m7
Hodnota při volání funkce Nulovány Nedefinovány Adresa vstupního vzorku prvního kanálu Adresa výstupního vzorku prvního kanálu Počáteční adresa paměťové oblasti 3 Počáteční adresa paměťové oblasti 1 a 2 Počáteční adresa paměťové oblasti 4 Počáteční adresa DSP kódu v programové paměti Počáteční adresa paměťové oblasti 5 Pozice zásobníku Při zpracování po blocích obsahuje počet vzorků pro zpracování Nedefinován Lineární adresování, $FFFFFF
Obsahy těchto registrů mohou být procesem libovolně měněny, s výjimkou obsahu registru R7. Jeho hodnota lze pouze inkrementovat nebo dekrementovat při ukládání a načítání ze zásobníku. Obsahy registrů n0 až n7 a m0 až m7 sice měněny být mohou, ale před skončením procesu je nutno zajistit nastavení jejich původních hodnot, viz tab. 2. Při psaní DSP-kódu musí být respektovány zásady pro správnou funkci SDK: 1. inicializační kód a kód procesu jsou volány jako podprogramy, a proto musí být ukončeny instrukcí návratu rts, 2. při návrhu se vychází z toho, že počáteční adresa paměťových oblastí 3 a 4 je rovna 0, 3. inicializační kód by neměl být delší než kód samotného procesu, v opačném případě je nutné při udávání délky kódu uvést větší z nich, 4. nepřerušitelnou instrukci rep používat minimálně a pro minimální počet opakování, 5. nepoužívat absolutní adresování, místo instrukcí jmp,do… použít jejich relativní ekvivalenty bra,dor…, 6. při práci s paměťovými oblastmi 3, 4 a 5 je nutno brát v potaz jejich možné přemísťování při přerovnávání, tj. při jejich použití ve funkci zásobníku neukládat přímo jeho pozici, ale jen offset od počáteční adresy, a 7. snažit se o optimalizaci co do minimálního využití výkonu jádra a obsazení pamětí. Soubor typu .lod lze vytvořit ze souboru typu .cld pomocí programu cldlod.exe, který musí být spuštěn v příkazovém řádku zadáním: cldlod název.cld > název.lod
Závěr Popsaný systém umožňuje zpracovat každý vzorek audio signálu až 29 procesy (záleží na využití výkonu jádra a obsazení pamětí jednotlivými procesy) s výkonem 100MIPS (100 milionů instrukcí za sekundu). V dalším vývoji bude pozornost zaměřena na provedení vazby na rozhraní VST (Virtual Studio Technology [8]) s podporou vlastních grafických uživatelských rozhraní. 26
Obr. 6. Využití paměťového prostoru
27
Literatura [1] [2] [3] [4] [5] [6] [7] [8]
SMÉKAL, Z., VÍCH, R. Zpracování signálů pomocí signálových procesorů. Radix. Praha, 1998. ISBN 80-86031-18-7 ZÖLZER, U. et al. DAFX Digital Audio Effects. John Wiley & Sons, Ltd. New York, 2002. ISBN 0-471-49078-4 Computer-Controlled Sound Systems. In Proceedings of AES 13th International Conference. Dallas, Texas, USA, 1994. ISBN 0-937803-25-1 DSP56300 Family manual, Motorola, Inc., 2000. DSP56307EVM User’s Manual, Motorola, Inc., 1999. DSP56L307 User’s Manual, Motorola, Inc., 2001. Motorola DSP assembler reference manual, Motorola, Inc., 1996. VST Plug-Ins Software Developer Kit 2.3. Steinberg Media Technologies GmbH. 2003..
28
ŘÍZENÍ ZPRACOVÁNÍ SIGNÁLŮ V REÁLNÉM ČASE POMOCÍ KOMUNIKAČNÍCH SÍTÍ Control of Real-Time Signal Processing Via Communication Networks Jiří Schimmel
*
Abstrakt Tento článek se zabývá návrhem protokolu pro řízení číslicového zpracování signálů pomocí komunikačních sítí, zejména sítí TCP/IP, a jeho multiplatformním parserem. Využití tohoto protokolu v embedded jednotkách pro zpracování audiosignálu představuje moderní řešení dálkově řízeného číslicového zpracování zvukových signálů v reálném čase. Cílem je získat možnost řízení zpracování zvukových signálů v sítích s distribuovaným zpracováním na velké vzdálenosti, např. prostřednictvím Internetu.
Abstract This paper deals with design of protocol for control of digital audio signal processing over communication networks, namely for TCP/IP networks, and its multi-platform parser. The application of this protocol in embedded audio processing units represents a modern approach to remote-controlled real-time processing of digital audio signals. The aim is to get possibility to control audio signal processing in distributed processing networks at very long distances, e.g. via the Internet.
Úvod Cílem této práce bylo vytvoření univerzálního komunikačního protokolu určeného pro řízení všech typů systémů zpracování zvukových signálů v reálném čase. Tento protokol musí být schopný popsat jakýkoliv dílčí proces prováděný při zpracování zvukových signálů. Základní myšlenkou protokolu je, že všechny parametry systému vztahující se k číslicovému zpracování signálů musí být jednoznačně popsány, aby bylo možné popsat jakýkoliv dílčí proces prováděný při číslicovém zpracování signálů. Proto je každý parametr přenášený pomocí navrženého protokolu jednoznačně specifikován následujícími identifikátory: Channel type, Channel group, Channel number, Parameter block, Parameter block index, Parameter type a Parameter type index. Původně byl tento protokol navržen pro systém Dmatrixx [3], proto je označen DMP (DMatrixx protocol) a v současné době je dostupný ve verzi 1.3.
Struktura protokolu V současné verzi je definováno devět skupin zpráv, které ukazují možnosti protokolu: komunikační zprávy, konfigurační zprávy, zprávy parametrů, zprávy mapy metrů, zprávy scén, zprávy parametrů skupin, zprávy masky a ochrany parametrů, zprávy popisů a zprávy přenosu binárních dat. První skupina zapouzdřuje všechny zprávy pro ustanovení komunikace mezi serverem a klientskou aplikací, zprávy obsluhy chyb atd. Druhá skupina, konfigurační zprávy, obsahují *
Ing. Jiří Schimmel, Ústav telekomunikací, FEKT VUT v Brně , Purkyňova 118, 612 00 Brno tel.: +420 541 149 167, fax.: +420 541 149 192, e-mail:
[email protected]
29
zprávy pro přenos informací o konfiguraci systému, tj. o kanálech, skupinách, blocích a jejich propojení. Řízená aplikace poskytuje tato data řízené aplikaci, takže může sestavit diagram systému, který je základem pro identifikátory parametrů. Třetí skupina obsahuje zprávy pro požadavky a přenosy parametrů. Zprávy čtvrté skupiny přenášejí informace tzv. mapy metrů, což je datový kontejner s identifikátory bodů metrů, tj. bodů ve virtuální cestě zvukového signálu, kde je úroveň signálu měřena a vysílána do řídící aplikace. Zprávy scén jsou použity pro ukládání, vyvolávání a správu okamžitých nastavení parametrů uložených v paměti systému. Zprávy skupin parametrů jsou navrženy pro přenos informací o uživatelem definovaných skupinách. Skupina zpráv masky a ochrany parametrů obsahuje zprávy pro nastavení ochrany parametru proti uživatelským změnám a nastavení masek parametrů, které jsou použity k filtrování změn parametrů. Skupina zpráv popisů, je navržena pro přenos textových popisů kanálů, bloků, parametrů atd. Skupina zpráv přenosu binárních dat slouží k přenosu kódů algoritmů do cílového systému a pro tzv. in-system programming, tj. přeprogramování firmware přímo v systému. Každý datový blok je doplněný hlavičkou uvedenou v Tab. 1. Obsahuje informace o úrovni protokolu, délce a prioritě zpráv a časové razítko. Tato data umožňují rozeznat a obsloužit následující situace: 1. 2. 3. 4.
rozdělení zprávy do několika paketů, spojení více zpráv do jednoho paketu, doručení zpráv ve špatném pořadí a rozhodnutí o prioritě zprávy, když je v jednom okamžiku přijat z několika klientů stejný typ zprávy.
Tab. 1. Hlavička zprávy protokolu DMP Data Timestamp Message length Protocol level Message priority
Bity 32 16 2 6
Popis čas od počátku komunikace délka zprávy b bytech 01 = verze 1.x 64 úrovní od přístupových práv “nobody” po “administrator”
Kódování parametrů Protokol je určen pro řízení velkých systémů číslicového zpracování zvukových signálů, jako jsou mixážní pulty pro divadla, hudební a kongresové haly atd., které potřebují přijímat a vysílat tisíce parametrů současně. Takové systémy potřebují vysokorychlostní datový přenos, aby spravovaly datový tok s nízkým zpožděním, proto kódování parametrů musí používat datové bloky parametrů tak malé, jak je možné. Proto navržený protokol nepoužívá datové typy s plovoucí řádovou čárkou ale podporuje přenos tří následujících datových typů: 1. spojité hodnoty v rozsahu <0, 1> kvantované na 256 nebo 65536 úrovní, 2. celočíselné hodnoty v rozsahu 0 až 65536 a 3. hodnoty typu Boolean. Kromě hodnoty parametru je protokolem přenášen jeho typ a rozlišení (8 nebo 16 bitové). Hodnoty typu Boolean jsou zakódovány přímo v datovém typu a nejsou použity žádné datové byty. Spojité hodnoty mohou být použity v absolutním a relativním režimu. V relativním režimu jsou přenášeny hodnoty v rozsahu <-1, 1>. 30
Kódování bloku parametru je ukázáno v Tab. 2. První bajt obsahuje identifikátor typu kanálu a první tři bity určují počet bitů v následujících dvou bajtech, ve kterých je uložen počet skupin kanálů. Uživatelem definované skupiny kanálů jsou použity navíc k dělení kanálů podle jejich typů – je použito kódování čísel skupin kanálů s dynamickým rozsahem, takže maximální číslo kanálu není omezeno počtem kanálů ve skupině. Celkový počet kanálů zůstává stejný. Dva bity datového formátu určují jeden z následujících datových typů: spojitá hodnota v absolutním režimu, spojitá hodnota v relativním režimu, celočíselná hodnota a hodnota typu Boolean. Bit datového rozsahu určuje počet následujících bajtů nesoucích hodnotu parametru. Tento bit je použit pro přenos hodnoty typu Boolean, takže v případě hodnoty typu Boolean nejsou přenášeny žádné další bajty. Tab. 2. Kódování bloku parametru v protokolu DMP Data Channel Group Range Channel Type Channel Group & Number Parameter Block Parameter Block Index Parameter Type Parameter Type Index Data format Data range Value
Bity 3 5 16 8 8 8 5 2 1 8 16 0
Popis počet bitů obsahujících informaci o čísle skupiny kanálů typ kanálu, výčtový typ, rozsah 0 až 32 skupina a číslo kanálu, proměnný počet bitů typ bloku parametrů, výčtový typ, rozsah 0 až 255 index bloku parametrů daného typu, rozsah 0 až 255 typ parametru, výčtový typ, rozsah 0 až 255 index typu parametru, rozsah 0 až 32 formát dat – spojitý (fixed-point), integer, boolean rozsah dat, 8 nebo 16 bitů hodnota (nízké rozlišení) hodnota (vysoké rozlišení) hodnota typu Boolean
Měření úrovně zvukového signálu Protokol podporuje přenos informace o úrovni zvukového signálu v jakémkoliv uživatelem definovaném bodě virtuální cesty zpracování zvukového signálu v systému. Identifikace těchto bodů je podobná jako identifikace parametrů – používá identifikátory Channel type, Channel group, Channel number, Parameter block, Parameter block index a Pre/post. Kódovaní datového bloku metru v protokolu je ukázáno v Tab. 3. Prvních šest identifikátorů je stejných jako prvních šest identifikátorů datového bloku parametru. Další identifikátor určuje pozici pre/post a typ metru (rms, peak, atd.). Poslední dva volitelné bajty určují maximální a minimální úroveň metru v dB. Přenos informace o úrovních zvukového signálu v systému má kritické požadavky na přenosovou rychlost, protože musí být vyslány tisíce hodnot až padesát nebo vícekrát za sekundu, aby vizuální indikace úrovně signálu byla spojitá. Aby velikost datového bloku s hodnotami metrů byla co nejmenší, používá protokol datový přenosový blok osmibitových hodnot metrů seřazených za sebou. Hodnoty v přenosovém bloku metrů jsou vysílány jako osmibitové hodnoty lineární stupnice v dB v rozsahu
. Skutečná hodnota úrovně v decibelech L signálu je zakódována do celočíselné hodnoty podle následujících pravidel:
31
k k k k k
=0 =1 = 253 ⋅ (L − Lmin ) / (Lmax − Lmin ) + 1 = 254 = 255
pro L < Lmin (žádný signál) pro L = Lmin . pro Lmin < L < Lmax pro L = Lmax pro L > Lmax (přebuzení)
(1)
Úrovně metrů jsou tedy kvantovány na 254+2 úrovně. Datový kontejner zvaný mapa metrů (Meter Map) určuje vztahy mezi body metrů v systému a tímto přenosovým blokem. Kdykoliv je přenosový blok metrů přijat, aplikace prochází kontejner, dekóduje hodnoty a přiřadí je odpovídajícímu bodu metru. Zprávy mapy metrů zajišťují, že kontejner mapy metrů je stejný jako na obou stranách spojení. Tento systém redukuje datový tok na 15%. Tab. 3. Kódování bloku bodu mapy metrů v protokolu DMP Data Channel Group Range Channel Type Channel Group & Number Parameter Block Parameter Block Index Reserved Range Position Type Maximum range Minimum range
Bity 3 5 16 8 8 4 1 1 2 8 8
Popis počet bitů obsahujících informaci o čísle skupiny kanálů typ kanálu, výčtový typ, rozsah 0 až 32 skupina a číslo kanálu, proměnný počet bitů typ bloku parametrů, výčtový typ, rozsah 0 až 255 index bloku parametrů daného typu, rozsah 0 až 255 rezervováno příznak určující, že následují hodnoty rozsahu pozice Pre/post typ metru maximum rozsahu metru, –128 až +127 dB minimum rozsahu metru, –128 až +127 dB
Data specifická pro systém Protokol podporuje transparentní přenos dat specifických pro systém. Kódování dat specifických pro systém je ukázáno v Tab. 4. Každý datový blok dat specifických pro systém přenesený v systému pomocí protokolu DMP má vlastní identifikátor. V syntaktickém analyzátoru (parseru) protokolu je definovaný typ unie (union), který ukládá dekódovaný datový blok a provádí jeho přetypování podle jeho identifikátoru. Tab. 4. Kódování bloku specifických dat v protokolu DMP Data Type Length Data
Bity 8 16 …
Popis identifikátor datového bloku délka datového bloku v bytech datový blok
Syntaktický analyzátor protokolu Syntaktický analyzátor (parser) protokolu je relační vrstva protokolu DMP. Jinými slovy, je to proces, který umožňuje aplikacím mezi sebou komunikovat pomocí protokolu DMP. Základními funkcemi syntaktického analyzátoru protokolu DMP jsou:
32
-
kódování a dekódování zpráv protokolu, spojování rozdělených datových bloků, oddělení spojených datových bloků, seřazování přicházejících zpráv podle jejich časového razítka a priority a oprava chyb a oznamování neopravitelných chyb.
Samotné vysílání a přijímání není funkcí syntaktického analyzátoru, pouze zpracování přijatých dat a příprava dat pro vysílání. Aplikace může pro přenos datových bloků protokolu DMP použít jakékoliv komunikační rozhraní, např. Ethernet, MIDI, atd.
Rozhraní unsigned char*
unsigned char* CDMPMeter
CDMPBuffer
CDMPMeterMap
CDMPBuffer
CDMPMessage
CDMPMessage CDMPParameter
CDMPParameter
DDMPDatablock
DDMPDatablock
CDMPMsgBuffer
void*
DMPDatablock
CDMPParemeter
CDMPMeter
char*
Aplikace Obr. 1. Struktura tříd syntaktického analyzátoru protokolu DMP Obr. 1. ukazuje strukturu tříd syntaktického analyzátoru protokolu DMP. Plné šipky reprezentují směr kódování a otevřené šipky reprezentují směr dekódování. Kvůli crossplatformnímu použití je pro implementaci syntaktického analyzátoru protokolu DMP použit jazyk ANSI C++ [1] a prvky STL (Standard Template Library). Syntaktický analyzátor protokolu DMP je dostupný ve formě zdrojových souborů, nejsou použity žádné staticky nebo
33
dynamicky linkované knihovny. V syntaktickém analyzátoru jsou definovány následující třídy. Obsluha chyb Třída CDMPError je třídou standardní C++ výjimky. Ostatní třídy používají tuto třídu k vyvolání výjimky, pokud je použití výjimek povoleno. Datové vyrovnávací paněti Třída CDMPBuffer spojuje komunikační rozhraní je se syntaktickým analyzátorem. Implementuje dynamický kontejner typu vector nad datovým typem unsigned char. Zajišťuje kontrolu integrity dat. Tuto třídu lze vytvořit pomocí ukazatele na standardní datový typ unsigned char a rovněž lze použít přetypování na tento typ. Datové typy parametrů Třída CDMPParameter obsahuje kompletní definici a hodnotu parametru. Její základní funkcí je konverze, přetížení operátoru = a dynamické přetypování hodnoty parametru do datových typů float, integer a boolean. Třída obsahuje metody, jejichž funkce se překrývají, nebo jsou totožné. Důvodem je snaha umožnit vývojáři použít jakékoliv programovací postupy, protože objekty třídy CDMPParameter jsou základním datovým rozhraním mezi aplikací a syntaktickým analyzátorem protokolu DMP. Třída CDMPDatablock obsahuje všechny ostatní datové typy použité v protokolu jako jsou prosté hodnoty, textové řetězce, data specifická pro systém atd. Zprávy protokolu Třída CDMPMessage je základní třídou syntaktického analyzátoru protokolu DMP, která umožňuje kódování a dekódování protokolu z a do objektu třídy CDMPBuffer. Třída obsahuje dva dynamické kontejnery typu vector objektů třídy CDMPParameter, které obsahují parametry protokolu, a objektů struktury DDMPDatablock, které obsahují ostatní typy dat protokolu. Třída sama rozhoduje o nejvhodnějším zakódování dat a volbě typu zprávy. Aplikace žádá o data voláním funkce ProcessData, která vrací první dosud nepředaná data ve frontě doplněná identifikátorem typu dat. Vyrovnávací paměti zpráv Třída CDMPMessageBuffer obsahuje dynamický kontejner ukazatelů na objekty třídy CDMPMessage. Organizuje dekódované zprávy, tj. provádí jejich organizování ve frontě, změně pořadí podle časové značky a priority zprávy atd. Pracuje jako vyrovnávací paměť pro předávání zpráv aplikaci. Aplikace žádá o data ze syntaktického analyzátoru voláním funkce ProcessData, která vrací první dosud nepředaná data ve frontě doplněná identifikátorem typu dat. Metry Třída CDMPMeter zapouzdřuje vlastnosti metru. Jejich identifikace je podobná identifikaci parametru. Pouze typ a index typu parametru jsou nahrazeny identifikátorem pre/post. Mapa metrů Třída CDMPMeterMap obsahuje definici mapy metrů. V přenosovém bloku metrů jsou přenášeny pouze hodnoty, nikoliv identifikátory. Ty jsou seřazeny v objektu této třídy v 34
pořadí odpovídajícím pořadí hodnot metrů v datovém přenosovém bloku. Objekty třídy CDMPMessage provádějí přiřazení hodnoty metru jeho identifikátoru na základě dat uložených v globálním objektu třídy CDMPMeterMap.
Závěr Tento článek podává stručný přehled o navrženém protokolu pro řízení číslicového zpracování zvukových signálů přes komunikační sítě a jeho multiplatformní syntaktický analyzátor. Detailnější informace lze nalézt v [4]. Protokol DMP stejně jako jeho syntaktický analyzátor jsou stále ve vývoji a v současné době jsou experimentálně použity v systému Dmatrixx mixing matrix [3] pro víceklientové dálkové řízení mixážní matice, parametrů kanálů a měření úrovně ve 256 kanálech. Pro další verzi protokolu jsou ve vývoji následující vylepšení: přenos konfiguračních dat pro konfiguraci uvnitř systému, přenos multimediálních signálů, podpora distribuovaného zpracování zvukových signálů a podpora pro systémy odolné proti výpadkům.
Poděkování Tato práce vznikla v rámci řešení projektu MPO „Výzkum technologií systémů zpracování zvuku v reálném čase“, ev. č. FD-K3/036.
Literatura [1] [2] [3] [4]
STROUSTRUP, B. The C++ Programming Language, 3rd edition. Addison-Wesley Professional, 1997. ISBN 0201889544 JOSUTTIS, N., M. The C++ Standard Library: A Tutorial and Reference, 1st edition. Addison-Wesley Pub Co, 1999. ISBN 0201379260 Dmatrixx mixing matrix system [online]. D-Mexx, 2004, [2004-10-14]. http://www.dmexx.com/english/prods_dmatrixx.htm KRKAVEC, P. Universal Communication Interface for Control of Audio Signal Processing Systems. Research report on the solution of project No FD-K3/036
35
METHOD OF SEGMENTED WAVELET TRANSFORM FOR REAL-TIME SIGNAL PROCESSING Metoda segmentovane´ waveletove´ transformace pro zpracova´nı´ signa´lu˚ v rea´lne´m cˇase Pavel Rajmic, Jan Vlach
Abstract The new method of segmented wavelet transform (SegWT) makes it possible to exactly compute the discrete-time wavelet transform of a signal segment-by-segment. This means that the method could be utilized for wavelet-type processing of a signal in “real time”, or in case we need to process a long signal (not necessarily in real time), but there is insufficient computational memory capacity for it (for example in the signal processors). Then it is possible to process the signal part-by-part with low memory costs by the new method. The method is suitable for universal utilization in places where the signal has to be processed via modification of its wavelet coefficients (e.g. signal denoising, compression, music or speech processing, alternative modulation techniques for xDSL systems). In the paper, the principle of the segmented forward wavelet transform is described.
Abstrakt Nova´ metoda segmentovane´ waveletove´ transformace (SegWT) umozˇnˇuje prˇesny´ vy´pocˇet waveletove´ transformace diskre´tnı´ho signa´lu po segmentech. To znamena´, zˇe tato metoda mu˚zˇe by´t vyuzˇita pro waveletove´ zpracova´nı´ signa´lu˚ v „rea´lne´m cˇase“ nebo v prˇ´ıpadeˇ, kdy je trˇeba zpracovat dlouhy´ signa´l (ne nutneˇ v rea´lne´m cˇase) pomocı´ u´prav waveletovy´ch koeficientu˚, ale pro tuto u´lohu nenı´ dostatek pameˇti (naprˇ. v signa´lovy´ch procesorech). Pak je mozˇno novou metodou zpracovat signa´l po cˇa´stech. Metodu lze vyuzˇ´ıt univerza´lneˇ vsˇude tam, kde je trˇeba zpracova´vat signa´ly pomocı´ waveletove´ transformace (naprˇ. odsˇumova´nı´ signa´lu˚, komprese, zpracova´nı´ hudby, rˇecˇi, alternativnı´ DMT modulace v xDSL syste´mech). V totmo cˇla´nku je prezentova´n princip segmentovane´ doprˇedne´ waveletove´ transformace.
1 Introduction There are a number of theoretical papers and practical applications of the wavelet transform. However, all of them approach the problem from such a point of view as if we knew the whole of the signal (no matter how long it is). Due to this assumption, we cannot perform the wavelet-type signal processing in real time in this sense. Of course there are real-time applications of the wavelet type, but, all of them utilize the principle of overlapping segments of the “windowed” signal (see for example [1, 6]). In the reconstruction part of their algorithms they certainly introduce errors into the processing, because the segments are assembled using weighted averages. Processing a signal in “real time” actually means processing it with minimum delay. A signal, which is not known in advance, comes to the input of a system piecewise, by mutually independent segments that have to be processed and, after the modification, sent to the output of the system. This is typically the case of processing audio or telecommunications signals. Mgr.
Pavel Rajmic, Ph.D., U´ stav telekomunikacı´, FEKT VUT Brno, Purkynˇova 118, 612 00 Brno, tel. 541 149 166, e-mail: [email protected]
36
Approximation at level 1
500
450
400
350
300
250
200
150
500
1000
1500
500
1000
1500
2000 2500 Details Coefficients
3000
3500
4000
3000
3500
4000
5
Level number
4
3
2
1
2000
2500
Scale of colors from MIN to MAX
Figure 1 Signal (top) and its scalogram (bottom). Scalogram is a type of graph representing the frequency contents of a signal in time. It is constructed from the wavelet coefficients.
The new method, the so-called segmented wavelet transform (SegWT1 ), enables this type of processing. It has a great potential application also in cases when it is necessary to process a long signal off-line and no sufficient memory capacity is available. It is then possible to use this new method for equivalent segmentwise processing of the signal and thus save the storage space. In this sense the SegWT algorithm corresponds to overlap-add and overlap-save algorithms in Fourier-type linear filtering. Another possible application of the SegWT algorithm is the instantaneous visualization of signal using an imaging technique referred to as “scalogram”, see Fig. 1. The decomposition depth is in this Figure. The bigger is the absolute value of the single coefficient, the lighter is the color saturation of the respective cell in the graph. In fact, plotting scalogram is a technique similar to plotting a spectrogram in real time. In wavelet transformation there is an advantage in that the signal need not be weighted with windows, which results in a distortion of the frequency information, as is the case with the spectrogram. Moreover, a scalogram created by means of the SegWT is quite independent of the chosen length of segment. In the available literature, this way of performing the wavelet transform is practically neglected, and this was the reason why our effort was devoted to developing modified algorithm. In fact, a modified method of forward wavelet transform is presented in this paper. 1
we introduce abbreviation SegWT (Segmented Wavelet Transform), because SWT is already reserved for stationary wavelet transform [4]
37
Figure 2 Mallat’s pyramid algorithm of wavelet decomposition. The input signal is transformed into its wavelet coefficients via a filter bank.
2 Discrete-time Wavelet Transform In practical problems we most frequently work with discretized (sampled) signals of finite length. In this case we speak of the finite discrete (or discrete-time) wavelet transform, DTWT, which can be represented by an orthogonal matrix of size [8]. Let be a vector of length . Its wavelet transform is vector , obtained as
Ï
Ï
Ý ÏÜ
Ý
Ü
Ü Ï Ý ÏÝ Ï Ï
(1)
Due to the orthogonality of , the inverse wavelet transform is . It is evident from the above text that the wavelet transform has an important property – linearity. Instead of multiplying vectors and by orthogonal matrices and , respectively, more effective Mallat’s pyramid algorithm [3] is used for computing the transform. Each step of this algorithm corresponds to:
Ü Ý
1. extending the input vector 2. filtering this vector by specific low-pass and high-pass filters 3. cropping the central part of the result 4. decimating the result. The coefficients from the low-pass branch are called “approximations” and those from the high-pass branch are called “details”. We can repeat this single transformation step with the approximations standing for the input signal. The number of such repetitions, , is called transformation depth. Scheme of this algorithm is depicted in Figure 2. This way the input is divided into a number of frequency subbands. The algorithm of the inverse wavelet transform is similar: we pass through decomposition “tree” in the opposite direction performing reverse operations.
3 Segmented Wavelet Transform Ordinarily used discrete-time wavelet transform (described in previous Section) is suitable for processing signals “off-line”, i.e. known before processing, although being even very long. The task for the segmented wavelet transform, SegWT, is naturally to allow signal processing by its segments, so that in this manner we get the same result (same wavelet coefficients) as in the ordinary DTWT case. In this problem, the transform depth , wavelet filter length and 38
Ü
(a)
Ü (b)
Ü
Ü
Ü
Ü
Ü
Figure 3 Scheme of signal segmentation. The input signal Ü (a) is divided into segments of equal length, the last one can be shorter than this (b); the -th segment of Ü is denoted byÜ.
...
Ü
Ü
Ü
Ü
...
Figure 4 Illustration of extending of the segments.
the segments’ length play a crucial role. Figure 3 shows the scheme for simple segmentation of the signal. Derivation of the SegWT algorithm requires a very detailed knowledge of the DTWT algorithm [5, 9]. Thanks to this it is possible to deduce fairly sophisticated rules how to handle the signal segments. We found out that, in dependence on it is necessary to extend every segment from left by exact number of samples from the preceding segment and from right by another number of samples from the subsequent one. Figure 4 illustrates the principle of segment extending. Each segment has to be extended different length from left and right and the length can also differ from segment to segment. Of course, there can be derived restricting conditions on the segment’s length , because the segment cannot be too small for computing wavelet coefficients. The first and the last segments have to be handled specially. We have to extend these segments according the selected border treatment [7]. After the appropriate extension of the segments, we apply DTWT algorithm to each of them, omitting its extension step. This way we get several sets of wavelet coefficients. We cut out the redundant coefficients in a predefined way (the redundancy is inevitable due to the transform by segments) and then join the respective coefficients sets. The result is exactly the same as if we performed the DTWT of the signal as a whole. The complete algorithm accompanied by detailed proofs can be found in [5]. 39
4 Conclusion In the paper, a novel method, SegWT, was presented, which allows us to perform the discrete-time wavelet transform of a signal segment-by-segment. This has two major benefits, the main one is that it is possible to process data via wavelet transform in real time, and the second one is, that SegWT requires much less memory and computational potential. Thus, the method would be suitable e.g. for implementation on digital signal processors and the range of applications of the new algorithm is very wide – from signal denoising through signal compression to modern wavelet techniques in DMT modulation in xDSL systems. Acknowledgments The paper was prepared within the framework of No. 102/04/1097 and 102/03/0762 projects of the Grant Agency of the Czech Republic, project 1E1850015 of Grant Agency of Academy of Sciences of the Czech Republic and project MS1850022.
References [1] Darlington, D., Daudet, L., Sandler, M.: Digital Audio Effects in the Wavelet Domain. In Proc. of the 5th Int. Conf. on Digital Audio Effects (DAFX-02), Hamburg (2002) [2] Dutilleux, P.: An implementation of the “algorithme a` trous” to compute the wavelet transform. In Wavelets: Time-Frequency Methods and Phase Space, Inverse Problems and Theoretical Imaging, editors J.-M. Combes, A. Grossman, P. Tchamitchian. pp. 298–304, Springer-Verlag, Berlin (1989) [3] Mallat, S.: A Wavelet Tour of Signal Processing. nd edition, Academic Press (1999) ISBN 0-12-466606-X [4] Nason, G.P., Silverman, B.W.: The stationery wavelet transform and some statistical applications. In Wavelets and Statistics, volume 103 of Lecture Notes in Statistics, editors A. Antoniadis, G. Oppenheim, pp. 281–300, Springer-Verlag, New York (1995) [5] Rajmic, P.: Vyuzˇitı´ waveletove´ transformace a matematicke´ statistiky pro separaci signa´lu a sˇumu (Exploitation of the wavelet transform and mathematical statistics for separation signals and noise, in Czech), PhD Thesis, Brno University of Technology, Brno (2004) [6] Rajmic, P., Klimek, J.: Removing Crackle from an LP Record via Wavelet Analysis. In Proc. of the 7th Conference on Digital Audio Effects (DAFx’04), Naples, Italy, Federico II University of Napoli (2004) [7] Strang, G., Nguyen, T.: Wavelets and Filter Banks. Wellesley Cambridge Press (1996) [8] Vidakovic, B.: Statistical Modeling by Wavelets (Wiley Series in Probability and Statistics). John Wiley & Sons, New York (1999) [9] Wickerhauser, M. V.: Adapted Wavelet Analysis from Theory to Software. IEEE Press, A K Peters, Ltd. (1994)
40
SEPARACE PŘÍMÝCH SMĚSÍ AUDIO SIGNÁLŮ ZALOŽENÁ NA ČASOVĚ-FREKVENČNÍ ANALÝZE Separation of Linear Instantaneous Mixtures of Audio Signals Based on Time-Frequency Analysis+ Václav Eksler
*
Abstrakt Problematikou separace zdrojů nebo také separace signálů se zabývá skupina metod, jejichž cílem je pomocí procesu separace naslepo obnovit původní zdrojové signály z jejich směsí, přičemž zdrojové signály ani prostředí, ve kterém došlo ke „smíchání“, nejsou předem známy. V tomto článku představíme a na experimentu ověříme navrhnutou zdokonalenou separační metodu vhodnou pro separaci řečových event. hudebních signálů, která je založená na časově-frekvenční analýze a sledování kmitočtu základního tónu řečového signálu.
Abstract Problems of blind source/signal separation are explored by a group of methods, the goal of which is to recover original source signals from their mixtures using a separation process, withal source signals nor mixing background are not known in advance. In this paper we introduce a projected advanced method suitable for separation of speech or music signals, which is based on the time-frequency analysis and tracking of the fundamental frequency of speech signal and which validity is proved by an experiment.
Úvod Separace zdrojů či signálů naslepo BSS (z anglického Blind Source/Signal Separation, [3]) je skupina metod číslicového zpracování signálů, jejichž cílem je pomocí separačního procesu obnovit původní zdrojové signály z jejich směsí. Označením „zdroj“ se zde rozumí původní signál, označení „slepý“ pochází z chabé - pokud vůbec nějaké - znalosti směsného prostředí a velice slabých předpokladů, které máme o zdrojových signálech. Někteří česky píšící autoři opisují BSS také názvem „slepá separace“ nebo „separace neurčených zdrojů“. Obecnou definici BSS lze rovněž přiblížit pomocí následující analogie: signál šířící se neznámým prostředím (systémem) lze modelovat signálem, který projde číslicovým filtrem. K obnovení zdrojového signálu je pak nutné nalézt filtr inverzní, mluvíme pak o separaci či dekonvoluci naslepo, viz diskuse např. v [6]. V nejjednodušší formě řeší BSS situaci, kdy signály dopadající na snímací senzory (např. mikrofony) nejsou vzájemně časově posunuté. Dále se předpokládá, že počet senzorů je větší nebo roven počtu zdrojových signálů a aditivní šumy nejsou výrazné kromě situace, kdy se snažíme ze směsi určit právě signál šumového charakteru. Předpokládejme následující směšující model zobrazený na obr. 1, ve kterém vystupují dva pozorované signály směsí xi, i = 1,2, které jsou lineárními přímými směsmi dvou reálných zdrojových signálů si. Platí + *
Tento článek vznikl v rámci řešení grantového projektu FRVŠ 1500/G1/2005. Ing. Václav Eksler, Ústav telekomunikací, FEKT VUT v Brně , Purkyňova 118, 612 00 Brno, tel.: +420 541 149 208, fax.: +420 541 149 192, e-mail: [email protected]
41
x1 (k ) = a11s1 (k ) + a12 s2 (k ) x2 (k ) = a21s1 (k ) + a22 s2 (k )
,
(1)
kde směšující koeficienty aij jsou reálné a konstantní a k je index diskrétní časové posloupnosti řádkových vektorů signálů směsí xi = {xi(k)}k = 1,..,K a řádkových vektorů zdrojových signálů si = {si(k)}k = 1,..,K. K je délka zpracovávané části signálu ve vzorcích. s1(k)
x 1(k)
a 11
a21 a 12 s2(k)
x2(k)
a 22
Obr.1 Přímý směšující systém předpokládající směšování dvou signálů
Algoritmus založený na časově-frekvenční analýze Jeden z přístupů, jak separovat lineární přímé směsi (další jsou směsi konvolované, kterými se zabývá např. [6]), je založen na normalizovaných kumulantech čtvrtého řádu (tedy špičatosti, viz [1]), který umožňuje řešit situaci, ve které je počet zdrojů roven nebo dokonce větší než počet senzorů. Daný jednoduchý separační algoritmus, který představil Yannick Deville a kol. v pracích [2], [4] nebo [5], je založen na časově-frekvenční analýze a dokáže v základní podobě separovat jeden zdrojový signál ze dvou směsí. Jeho velkou výhodou je, že dokáže separovat nestacionární signály a dokonce signály různě závislé nebo gaussovské, jejichž časově-frekvenční reprezentace ale musí být rozdílné. Tato metoda je zvláště vhodná k separaci směsí řečových a hudebních signálů. Předpokládat budeme situaci dvou zdrojů a dvou směsí, tedy i = 1,2. Metoda představená v práci [2] je založena na hledání lineárních kombinací dvou směsí ze vztahu (1) podle následujícího vztahu yi (k ) = x1 (k ) − ci ⋅ x2 (k )
(2)
a dokáže ze směsí extrahovat jeden výstupní signál reprezentovaný řádkovým vektorem yi = {yi(k)}k = 1,..,K, který se bude lišit od zdrojového pouze v měřítku. Separační koeficienty ci, pomocí kterých extrahujeme zdrojové signály s1 a s2, najdeme pomocí vztahů
c1 =
a12 , a22
c2 =
a11 . a21
(3)
Jádrem diskutované metody je nyní myšlenka, že pokud dokážeme v časové oblasti najít části signálů směsí, které obsahují příspěvek pouze jednoho zdroje, můžeme jednoduše najít separační koeficienty ci z rovnice (2). Například, pokud dokážeme najít čas k°, ve kterém s2(k°) = 0, vztahy (1) přejdou do tvaru
42
x1 (k °) = a11s1 (k °) x2 (k °) = a21s1 (k °)
(4)
a výpočtem poměru x1 (k °) a11 = x2 (k °) a21
(5)
pak přímo dostáváme hodnotu koeficientu c2, pomocí kterého extrahujeme zdroj s2. Z předchozího tedy vyplývá, že teoreticky pouze požadujeme, aby v některém časovém okamžiku k° jeden ze zdrojů nepůsobil. Bohužel je poměrně složité najít takový časový okamžik, ve kterém jeden ze zdrojů nepůsobí. Udělejme dva předpoklady: • Časově-frekvenční transformace zdrojů musí být navzájem různé. • Musí existovat některé časově-frekvenční rámce signálů, ve kterých je přítomen příspěvek pouze jednoho zdroje. Využijeme toho, že tato situace je běžná pro směsi řečových nebo hudebních signálů. Samotná analýza může být prováděna např. krátkodobou Fourierovou transformací STFT (Short Time Fourier Transform) signálů směsí. Nejprve vynásobíme každý vzorek signálu směsi xi(k′) vzorkem posunutého okna h(k-k′), např. Hannova, centrovaného v čase k a dostaneme tak vzorky modifikovaného signálu xi (k , k ' ) = xi (k ' )h(k '−k ) .
(6)
Vztah (6) představuje nyní závislost, která je funkcí dvou časů, pevného času k, který nás zajímá, a časového průběhu k′. Pokud nyní aplikujeme na xi(k,k′) ze vztahu (6) STFT, dostáváme obraz Xi(k,ω) a naším cílem je najít takové časově-frekvenční oblasti, ve kterých se bude vyskytovat pouze jeden zdroj. Proto nyní zavedeme komplexní poměr
α (k , ω ) =
X 1 (k , ω ) , X 2 (k , ω )
(7)
který budeme počítat pro každý rámec signálu a frekvenční pásmo. S ohledem na rovnici (1) má komplexní poměr ze vztahu (7) tvar
α (k , ω ) =
a11S1 (k , ω ) + a12 S 2 (k , ω ) . a21S1 (k , ω ) + a22 S 2 (k , ω )
(8)
Ze vztahu (8) je nyní zřejmé, že pokud jeden zdroj nemá žádnou složku v čase (k,ω), tedy v Hannově okně centrovaném k času k a frekvenčnímu pásmu centrovanému k frekvenci ω, pak je poměr α(k,ω) reálný a přímo rovný hodnotě separačního koeficientu ci. Např. pokud S2(k,ω) ve směsi chybí, pak
α (k , ω ) =
a11 = c2 , a21
(9)
což je koeficient extrahující zdroj s2 podle vztahu (2). Nicméně v reálných případech se často vyskytuje situace, kdy poměr α(k,ω) není reálný, ale jeho imaginární část je poměrně malá vzhledem k jeho reálné části. Proto jsme zavedli chybovou konstantu ε, pro kterou platí, že pokud Img(α (k , ω )) < ε , předpokládáme, že jeden ze zdrojů se ve směsích nevyskytuje, a z reálné části α(k,ω) přímo určíme koeficient ci.
43
Uvedený algoritmus má nicméně zjevný nedostatek v tom, že dokáže najít pouze ten separovaný signál, jehož zdroj se ve směsi nevyskytuje. Autoři v [4] konstatují, že získání jedné složky ze směsí přímo závisí na extrémech průběhu funkce normalizované špičatosti, přičemž berou v úvahu znaménka zdrojových špičatostí. Jimi popsaná separační metoda je založena na optimalizaci (maximalizaci a/nebo minimalizaci v závislosti na povaze zdroje) normalizované špičatosti lineárních přímých směsí zdrojových signálů. Otázkou nicméně zůstává, jakým jiným způsobem najít oba zdroje, tedy jak vzájemně rozeznat a rozlišit okamžiky, ve kterých nepůsobí buď jeden nebo druhý zdroj.
Modifikovaný algoritmus využívající parametrů signálů Abychom odstranili uvedené nedostatky algoritmu z předchozí kapitoly, navrhli jsme pro separaci směsí řečových a hudebních signálů následující modifikaci, která sleduje parametry řeči, v tomto případě kmitočet základního tónu F0. Tato modifikace je založena na jednoduché úvaze: ve všech rámcích signálů směsí, ve kterých nepůsobí jeden ze signálů, budeme počítat kmitočet základního tónu řeči např. pomocí metody AMDF (Average Magnitude Difference Function) podle vztahu [7] F0 =
Fs , k min
(10)
kde kmin přísluší hodnotě prvního minima RD(k)min v průběhu funkce RD(k), což je v podstatě autokorelační funkce, ve které se operace násobení nahradí operací odečítání, platí tedy N −k
RD ( k ) = ∑ s ( n ) − s ( n + k ) .
(11)
n =1
Výpočet operace odečítání je pochopitelně méně náročný a lze ukázat, že první výrazné minimum v průběhu funkce RD(k) odpovídá svou polohou periodě základního tónu, N je zde délka váhovacího okna (délka zpracovávaného rámce signálu). Fs je vzorkovací kmitočet. x1(k)
x2(k)
Hannovo okno
STFT
Hannovo okno
STFT
X1(k,ω)
X 1 (k , ω ) X 2 (k , ω )
∀ k ,ω
⎛X ⎞ Img⎜⎜ 1 ⎟⎟ < ε ⎝ X2 ⎠
X2(k,ω)
přeskupení
F0
F01 c1
F02 rozdělení
c2
y1(k)
Obr. 2 Blokové schéma zdokonaleného separačního algoritmu založeného na časově−frekvenční analýze, který sleduje kmitočet základního tónu řeči 44
y2(k)
V rámcích signálů, ve kterých platí Img(α (k , ω )) < ε (viz rovnice (8)), počítáme kmitočet základního tónu řeči, zároveň stanovíme koeficienty ci podle postupu uvedeného v předchozí kapitole a jako výsledek tak dostáváme matici o dvou sloupcích, ve které každý řádek obsahuje hodnotu koeficientu ci a jemu náležející hodnotu stanoveného kmitočtu základního tónu F0i. Po stanovení matice dvojic ci a F0i, tedy po zpracování vybrané části signálů směsí, dojde k přeskupení matice tak, že hodnoty základního kmitočtu budou seřazeny např. vzestupně. Pokud pro zdrojové signály platí, že mají různé základní kmitočty řeči (což ve většině případů platit bude), lze přeskupenou matici rozdělit na sadu koeficientů ci, kterým přísluší základní kmitočet F01 a na sadu koeficientů ci, kterým přísluší základní kmitočet F02. Z těchto dvou sad pak výpočtem hodnot mediánu získáme koeficienty c1 a c2, jejichž dosazením do rovnice (2) získáme hledané separované výstupní signály. Popsaný algoritmus je blokově znázorněn na obr. 2.
Ukázka experimentu separace Popsaný algoritmus jsme testovali v prostředí MATLAB na množství uměle smíchaných směsí. Zejména pro dvojice mluvčích s různými kmitočty základního tónu řeči (např. muž-žena) jsme dostávali velice uspokojivé výsledky. Na 0 je zobrazen příklad separace dvou zdrojových signálů (s parametry F01 ≈ 110 Hz, F02 ≈ 242 Hz), které byly smíchány směsnou maticí A = [1 1,1; 1,12 1]. Analyzován byl signál z pěti rámců délky 512 vzorků při překryvu 50%, použitý vzorkovací kmitočet byl Fs = 8 kHz, chybová konstanta ε = 0,1. Výsledné separační koeficienty stanovené představenou metodou jsou uvedeny v tab. 1, teoretické hodnoty jsou získány přímo z matice A pomocí vztahů (3). Tab. 1 Výsledky separace využitím navrhnuté úpravy časově-frekvenčního algoritmu c1 c2
teoretická hodnota 1,100 0,8929
hodnota stanovená algoritmem 1,0988 0,8953
Závěr Navrhli jsme zdokonalení separační metody vhodné k separaci řečových event. hudebních signálů z jejich směsí, která je založena na časově-frekvenční analýze a sledování kmitočtu základního tónu řečových signálů, jejíž platnost pak byla ověřena řadou experimentů. Dodejme, že uvedené algoritmy separace lze rozšířit i na hledání případů více než dvou zdrojových signálů a to dokonce i v případě, kdy máme k dispozici pouze dvě jejich směsi, viz např. [2], v tom případě budeme hledat ne dva, ale více kmitočtů základních tónů zdrojových signálů, musí však platit předpoklady uvedené výše.
Literatura [1] [2]
ABRAMOWICH, F., STEGUN, I. A. Handbook of Mathematical Functions – Formulas, Graphs, and Mathematical Tables. Dover Publications, New York, 1972. ISBN 486-61272-4. ABRARD, F., DEVILLE, Y., WHITE, P. From blind source separation to blind source cancellation in the underdetermined case: a new approach based on timefrequency analysis. Proc. of the 3rd Int. Workshop on Independent Component Analysis and Blind Signal Separation (ICA'01), pp.734-739, San Diego, Calif., 2001.
45
[3]
CICHOCKI, A., AMARI, S. Adaptive Blind Signal and Image Processing, John Wiley & Sons, Ltd., 2002. ISBN 0471-60791-6. DEVILLE, Y., BENALI M. Un critère de séparation de sources fondé sur les kurtosis normalisés signés. In Proc. of GRETSI'99 symposium sur le Traitement du Signal et des Images. 17e Colloque, Vannes, France, vol.4, pp.1145-1148, 1999. DEVILLE, Y., BENALI, M. Differential source separation: concept and application to a criterion based on differential normalized kurtosis. In Proc. of EUSIPCO, Tampere, Finland, 2000. HYVÄRINEN, A., KARHUNEN, J., OJA, E. Independent component analysis. John Wiley & Sons, Toronto, 2001. ISBN 0-471-40540-X. SIGMUND, M. Analýza řečových signálů. VUT v Brně, Brno 2000, 86 stran. ISBN 80-214-1783-8.
[4] [5] [6]
y2(k)
y1(k)
x2(k)
x1(k)
s2(k)
s1(k)
[7]
k
Obr. 3 Ukázka separace dvou řečových signálů popsaným algoritmem: zobrazeny jsou časové průběhy nejprve dvou zdrojových signálů si, poté dvou jejich směsí xi a nakonec dvou separovaných (výstupních) signálů yi
46
OBJEKTIVNÍ HODNOCENÍ KVALITY ZVUKU Objective Sound Quality Estimation Zbynˇek Bureš∗
Abstrakt Stanovení kvality audio signálu z hlediska vnímání posluchaˇcem je pˇretrvávajícím problémem. Vlivem digitálního zpracování se objevují nové jevy, mající dopad na vnímanou jakost zvuku. Omezená propustnost komunikaˇcních prostˇredk˚u zp˚usobuje tlak na redukci datového toku. Jsou neustále vyvíjeny nové metody zpracování audio signál˚u, jejichž vliv na posluchaˇce je tˇreba posuzovat. V uvedeném kontextu se hodnocení kvality zvuku jeví jako velice významné a aktuální. Vzhledem k nároˇcnosti subjektivních poslechových test˚u je snaha nalézt objektivní ˇ mˇerˇítka, jež by byla dostateˇcnˇe dobˇre korelována s výsledky subjektivních test˚u. Clánek pˇrináší pˇrehled o souˇcasných metodách objektivního hodnocení kvality zvuku, o jejich problémech a možných smˇerech rozvoje.
Abstract Estimation of sound quality, as is perceived by the listener, is a persistent problem. New phenomena that affect perceived quality appear due to digital processing. Limited capacity of communication networks enforces bitrate reduction. New methods of digital sound processing are being developped. In this context, sound quality estimation is an important and topical issue. In order to avoid troublesome subjective listening tests, objective measures are being sought that would correlate well enough with subjective test results. In the article an overview of current methods is presented, current problems and matters of interest are reviewed and possible ways of development are mentioned.
Úvod V pˇredkládaném cˇ lánku se zabývám pˇrehledem stávajících metod objektivního stanovení kvality zvukových, pˇredevším hudebních signál˚u. Problematika hodnocení kvality ˇreˇci z˚ustává z d˚uvodu odlišných kriterií víceménˇe samostatnou disciplínou. Stanovení kvality zvukových signál˚u je i pˇres pokraˇcující vývoj technologií zpracování zvuku stálým problémem. Jmenujme pro ilustraci nˇekolik motivaˇcních pˇríklad˚u. Vnímaná jakost zvuku je ovlivˇnována novými jevy, které s sebou pˇrináší cˇ íslicové zpracování signál˚u [1]. Omezená propustnost souˇcasných prostˇredk˚u digitální komunikace zp˚usobuje tlak na redukci datového toku signál˚u, s pochopitelným dopadem na kvalitu. Jsou neustále vyvíjeny nové metody zpracování audio signál˚u, jejichž vliv na posluchaˇce je tˇreba posuzovat [2]. V tomto kontextu se hodnocení kvality zvuku jeví jako velmi významné a aktuální. Specifickou a pon eˇ kud odlišnou oblastí je výzkum vlastní percepce zvukových podnˇet˚u cˇ lovˇekem, kde se pod otázkou, který signál je horší, ukrývá hlubší motivace, než jen prosté porovnání. Slovo objektivní je ovšem v této souvislosti nezbytné vnímat do jisté míry tak, že jde spíše o hodnocení bez pˇrítomnosti posluchaˇcu˚ , než o hodnocení obecnˇe platné. ∗ ˇ Ing. Zbynˇek Bureš, Katedra radioelektroniky, FEL CVUT Praha, Technická 2, 166 27, Praha 6 tel. 2 2435 2111, e-mail: [email protected]
47
Subjektivní poslechové testy Klasickým zp˚usobem stanovení kvality zvukových signál˚u jsou subjektivní poslechové testy. Tyto testy jsou však nároˇcné v mnoha smˇerech, zejména organizaˇcnˇe a cˇ asovˇe. Pˇri jejich realizaci narážíme na potíže s výbˇerem reprezentativního vzorku posluchaˇcu˚ , jsou kladeny vysoké požadavky na poslechové podmínky, to jest akusticky vyhovující prostor, adekvátní reprodukˇcní zaˇrízení, vhodná konfigurace. V neposlední ˇradˇe je nutné brát v potaz napˇríklad únavu respondent˚u cˇ i další nepˇredvídatelné faktory, a snažit se jich pˇri organizaci test˚u vyvarovat. Neménˇe významným cˇ initelem, ovlivˇnujícím mnohdy vypovídací hodnotu celého testu, je správný návrh sady testovacích signál˚u a následné korektní statistické vyhodnocení výsledk˚u. Snadno se m˚uže stát, že nedostaneme odpovˇed’, již jsme hledali. Pˇres vyjmenované nedostatky z˚ustávají subjektivní poslechové testy stále jediným absolutním mˇeˇrítkem vnímané kvality, nebot’ posluchaˇc je vždy „koneˇcnou instancí“ a jeho názor je tˇreba respektovat. Pˇri výzkumu zákonitostí lidské percepce jsou dokonce jedinou možností, jak korelovat neurologické poznatky s koneˇcným vjemem. Metodika subjektivních test˚u je podrobnˇe rozpracovaná, podle doporuˇcení ITU je výstupem cˇ íslo SDG (Subjective Difference Grade), vyjadˇrující rozdíl zpracovaného signálu oproti referenˇcnímu [3].
referenˇcní signál
kmitoˇctová oblast
psychoakustický model
mask. práh vs. chybový signál testovaný signál
kmitoˇctová oblast
+
odhad zvukové kvality
−
Σ
Obr. 1 Srovnání chybového signálu s maskovacím prahem
Objektivní mˇerˇ ítka zvukové kvality Již v minulosti byla snaha postihnout jakost zpracovaného signálu nˇejakým cˇ íselným údajem, který by zohledˇnoval dosažené vlastnosti. Výsledkem jsou mˇeˇrítka jako odstup signálu od šumu nebo míra harmonického zkreslení, jež jsou ovšem velmi úzce zamˇeˇrena pouze na urˇcitý rys zpracovaného signálu. V dnešní situaci, kdy se vlivem inherentnˇe nelineárního cˇ íslicového zpracování objevují zcela nové typy zkreslení, mají tato klasická mˇeˇrítka jen omezenou vypovídací schopnost. Je proto snaha vytvoˇrit nové metody, které by lépe vyˇcíslovaly d˚usledky zpracování signálu. Vždy je však tˇreba mít na pamˇeti úskalí takovýchto metod. Mapování r˚uzných zkreslení, p˚usobících na posluchaˇce, na výsledný celkový vjem kvality je dosti problematické. Vždy se
48
také jedná o srovnání testovaného signálu a signálu referenˇcního, nelze tedy hovoˇrit o absolutním hodnocení. O dalších problémech se ještˇe zmíním.
Objektivní metody stanovení kvality zvuku Jak již bylo v úvodu rˇeˇceno, motivací k vývoji objektivních metod posuzování zvukové kvality jsou nevýhody subjektivních test˚u a nedostateˇcnost tradiˇcních mˇeˇrítek jakosti. V dnešní dobˇe pˇribývá také potˇreba v reálném cˇ ase sledovat napˇríklad pˇrenášený signál, s pˇrípadnou zpˇetnou vazbou. Dalším vhodným využitím objektivních metod je podpora návrhu subjektivních test˚u, abychom byli schopni efektivnˇe vybrat kruciální vzorky signál˚u. Obecná struktura a problémy V zásadˇe existují k pˇredkládanému problému dva pˇrístupy. Jeden spoˇcívá v urˇcení chybového signálu a jeho srovnání s vypoˇctenými maskovacími prahy (obr. 1). Zde je tˇreba uvážit, že stanovení maskovacích prah˚u nemusí být dostateˇcnˇe pˇresné, navíc metoda neposkytuje informaci o míˇre rušivosti nadprahového chybového signálu. Jinak ˇreˇceno, dozvíme se pouze zda je zkreslení slyšet cˇ i nikoli. V pˇrípadˇe slyšitelných zmˇen není možné odhadout jejich dopad na celkový vjem kvality.
referenˇcní signál
psychoakustický model srovnání vnitˇrních representací
testovaný signál
odhad zvukové kvality
psychoakustický model
Obr. 2 Srovnání vnitˇrních reprezentací
Lepší je proto porovnávat tzv. vnitˇrní reprezentace obou vstup˚u. Pomocí psychoakustického modelu, který zohlední pˇrenos zvuku vnˇejším, stˇredním a vnitˇrním uchem a další vlivy, odhadneme p˚usobení každého ze vstup˚u na vlastní sluchový receptor (Cortiho orgán). Poté pomocí kognitivního modelu vygenerujeme jediný údaj, vypovídající o kvalit eˇ (obr. 2). Ani tento druhý pˇrístup se však nedokáže vyrovnat s urˇcitými skuteˇcnostmi. Za prvé se apriori pˇredpokládá, že p˚uvodní signál je lepší než zpracovaný. To nemusí být obecn eˇ pravda, jako pˇríklad lze uvést nˇekterá zkreslení, zp˚usobená analogovými zaˇrízeními, která pˇri vjemu cˇ asto p˚usobí pˇríjemnˇe. Nˇekdy zkreslení znamená obohacení zvuku. Také závislost rušivosti na typu chybového signálu cˇ i jeho odstupu od prahu vnímatelnosti není dostateˇcnˇe prozkoumána. Koneˇcnˇe pˇri korelování výsledk˚u objektivních a subjektivních metod budeme vždy narážet na rozmanité kulturní zázemí, vkus, a zkušenost cílového posluchaˇce.
49
vstupní signály (referenˇcní a testovaný)
model vnˇejšího ucha (FFT)
model vnˇejšího ucha (banka filtr˚u) psychoakustický model
excitaˇcní obrazce
excitaˇcní obrazce
výpoˇcet MOV (model output variables)
kognitivní model
výpoˇcet mˇeˇrítek kvality
index zkreslení
ODG (objective difference grade) Obr. 3 Struktura modelu dle ITU BS.1387
Souˇcasné metodologie Snaha o objektivní pˇrístup k hodnocení audia je dokumentována historickým vývojem, který se poˇcíná již v 70. letech minulého století. Dosavadním vrcholem, jehož nedostatky jsou pˇredmˇetem stálého výzkumu, je doporuˇcení ITU-R BS.1387 [4]. Tato norma do sebe pojala nˇekolik pˇredchozích metod, a pracuje na principu srovnání vnitˇrních reprezentací (obr. 3). Existují již její komerˇcní implementace [5] [6] a podle autor˚u je korelovanost výstup˚u modelu s výstupy subjektivních test˚u velmi dobrá. Míst pro zlepšování je ale celá ˇrada, nˇekterým z nich se budeme vˇenovat dále. V novodobé literatuˇre jsou publikovány nové pˇrístupy jak ke kognitivnímu, tak k psychoakustickému modelu. Zajímavou prací je návrh modelující ucho v cˇ asové oblasti [7]. Doporuˇcení [8] je možné brát jako dobrý základ pro další vývoj. Zahrnuje tzv. basic a advanced model, používající FFT a banku filtr˚u. Pˇredevším ze spektrálních vlastností srovnávaných signál˚u vypoˇcítává výstupní promˇenné (MOVs), které jsou nakonec pomocí neuronové sítˇe pˇrevedeny na jediný údaj, ODG (Objective Difference Grade), který má již dle názvu odpovídat SDG. Nedostatky doporuˇcení ITU-R Problémy, které pokládám za významné, a které doposud nejsou vyˇrešeny, jsou shrnuty níže. Zejména se jedná o nerespektování faktu, že lidský sluchový orgán je párový, a vjem z obou cˇ ástí je nepˇríliš probádaným zp˚usobem pˇrevádˇen na vjem jediný. Model ITU provádí oddˇelené vyhodnocení kanál˚u a výsledky pr˚umˇeruje, což je zjevnˇe zkreslující pohled. Zvuk,
50
pˇricházející do jednotlivých receptor˚u, není v centrální nervové soustavˇe pr˚umˇerován, nýbrž z rozdíl˚u mezi kanály je urˇcována prostorová konfigurace zdroj˚u zvuku, lateralizace atd. Pˇri uvažování binaurálního vjemu dochází též ke zmˇenám maskovacích prah˚u a dalších parametr˚u. Tímto zjednodušením se tedy pˇripravujeme o závažnou informaci, která m˚uže být pro vjem celkové kvality podstatná. Nem˚uže být také hodnocen vliv zpracování signálu na jeho prostorový obraz, napˇríklad zúžení sterea, rozmazání zdroj˚u zvuku a podobnˇe. Je tˇreba podotknout, že obecnˇe nezáleží na tom, zda je signál reprodukován stereofonnˇe nebo vícekanálovˇe. Posluchaˇc, který disponuje pouze dvˇema ušima, vždy vytváˇrí sv˚uj celkový mentální zvukovˇe prostorový obraz ze dvou poˇcitk˚u. Pˇri poslechu ve volném poli pouze vyvstává problém správného mapování kanál˚u na sluchové orgány. Dalším zjednodušením je nedostateˇcné vyhodnocení možných fázových zmˇen ve zpracovaném signálu. Bylo zjištˇeno [8], že fázové uspoˇrádání frekvenˇcních komponent signálu má vliv na vjem nejen jeho barvy, ale také hlasitosti. Tento fenomén by hrál svou roli i pˇri ignorování binaurálního vjemu. Uvážíme-li ale, že v lidském (obecnˇe samozˇrejmˇe nejen v lidském) sluchovém ústrojí dochází k lateralizaci a identifikaci zvukových zdroj˚u právˇe na základˇe drobných fázových rozdíl˚u mezi kanály, je okamžitˇe zˇrejmé, že vliv fáze m˚uže být významný. Jiný aspekt, který nemá dostateˇcnou podporu v doporuˇcení [4], má spíše kognitivní charakter. V d˚usledku blokového zpracování signál˚u, napˇríklad pˇri kompresi, m˚uže docházet k periodickým zmˇenám ve spektru výstupního signálu. Pokud se jedná kupˇríkladu o kmitání urˇcité kmitoˇctové složky, dojde k vydˇelení nového sluchového objektu, který je vnímán jako nesouvisející s p˚uvodním signálem a jeho rušivost je znaˇcnˇe vysoká.
Závˇer Problematika objektivního hodnocení kvality audio signál˚u je perspektivní, neustále se rozvíjející oblastí, nabízející pomˇernˇe široké pole k dalšímu výzkumu. Zdokonalování kognitivních a psychoakustických model˚u v souvislosti se stanovením existující kvality m˚uže zp eˇ tnˇe vést k uplatnˇení nových poznatk˚u i pˇri kompresi signál˚u, tak, aby byly omezené schopnosti lidského sluchového ústrojí lépe využity pˇri redukci pˇrenášených dat [9]. Pouze ojedinˇelé pokusy byly zatím vedeny k propojení objektivního hodnocení kvality obecných zvukových signál˚u a ˇreˇci [10]. Narážíme zde na ponˇekud jiná mˇeˇrítka jakosti, u ˇreˇci je v prvé ˇradˇe rozhodující srozumitelnost, která je podporována mj. kontextovým dopl nˇ ováním chybˇející informace, zatímco u hudebních signál˚u jsou požadavky obvykle podstatn eˇ vyšší. Systémy pro redukci dat jsou pˇri požadavku velmi nízkých tok˚u odlišné pro ˇreˇc a hudbu, hodnocení jejich kvality spoleˇcným sjednoceným mechanismem proto zatím není realizováno.
Podˇekování ˇ cˇ .102/05/2054 „Kvalitativní aspekty zpraTato práce je podporována grantem GA CR cování audiovizuální informace v multimediálních systémech“ a výzkumným zám eˇ rem MSM cˇ . 6840770014 „Výzkum perspektivních informaˇcních a komunikaˇcních technologií“.
Literatura [1] Stuart, J. Robert. Coding for High-Resolution Audio Systems. J. Audio Eng. Soc., 2004 March, vol. 52, No. 3
51
[2] Painter, T. – Spanias, A. A Review of Algorithms for Perceptual Coding of Digital Audio Signals. Arizona State University. Telecommunications Research Center. Department of Electrical Engineering, 1997 [3] International Telecommunication Union (ITU). RECOMMENDATION ITU-R BS.1116-1: Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems. 1997 [4] International Telecommunication Union (ITU). RECOMMENDATION ITU-R BS.1387: Method for Objective Measurement of Perceived Audio Quality. 1998. [5] OPERA Voice/Audio Quality Analyzer [online]. Last revision Feb 2005 [cit. 2005-05-02]. URL: [6] CRC-SEAQ System for the Evaluation of Audio Quality [online]. Last revision March 2005 [cit. 2005-05-02]. URL: [7] Robinson, David J. M. – Hawksford, Malcolm J. Time-domain auditory model for the assessment of high-quality coded audio. 107th AES Convention, 1999 September 24-27, New York, USA [8] Andersen, Tue Haste – Jensen, Kristoffer. Importance and Representation of Phase in the Sinusoidal Model. J. Audio Eng. Soc., 2004 November, vol. 52, No. 11 [9] Rodrigues, Joao Manuel – Tomé, Ana Maria – Oliveira e Silva, Tomás. Auditory Models in Audio Coding. 111th AES Convention, 2001 September 21-24, New York, USA [10] Beerends, John. Measuring the Quality of Speech and Music Codecs, an Integrated Psychoacoustic Approach. 98th AES Convention, 1995 February 25 - 28, Paris, France
52
MULTIKANÁLOVÝ DIGITÁLNÍ EFEKT REVERB S NEEXPONENCIÁLNĚ DOZNÍVAJÍCÍ IMPULSNÍ ODEZVOU Multichannel Digital Effect Reverb with Non-Exponentially Decaying Impulse Response *
Kot Vítězslav
Abstrakt V článku je prezentován nový algoritmus multikanálového digitálního zvukového efektu typu reverb. Tento algoritmus produkuje impulsní odezvu s nastavitelnou obálkou dozvuku, celkovou dobou dozvuku a frekvenčně závislou dobou dozvuku. Obálka se může skládat z libovolného počtu lineárně rostoucích či klesajících úseků, což poskytuje možnost vytvoření zajímavého reverberačního efektu.
Abstract This paper presents a new algorithm of multichannel digital reverberation. Presented algorithm produces impulse response with controllable decay curve, reverberation time and frequency dependent reverberation time. The decay curve can consist of arbitrary number of increasing or decreasing linear segments, which provide possibility of create an interesting reverberation effect.
1 Úvod Reverberační algoritmus prezentovaný v tomto článku si neklade za cíl věrnou simulaci akustických vlastností reálného poslechového prostoru. Má sloužit k netradičnímu efektování hudebních vzorků a tak obohacení možností při hudební tvorbě. Impulsní odezva produkovaná tímto algoritmem nemá exponenciálně klesající obálku, jak je požadováno u klasických reverberačních algoritmů, ale skládá se z volitelného počtu lineárních segmentů s nastavitelnou dobou trvání. Doba trvání a počet všech segmentů určují celkovou dobu dozvuku reverberátoru. V algoritmu je implementována i obdoba frekvenčně závislé doby dozvuku známé z klasických reverberačních algoritmů, zde má však zavedení frekvenčně závislé doby dozvuku oproti klasickým algoritmům poněkud jiný význam.
2 Celková bloková struktura reverberátoru Struktura multikanálového digitálního reverberátoru s neexponenciálním dozvukem vychází ze struktury Moorerova reverberátoru [3] [5]. Základem Moorerova reverberačního algoritmu jsou paralelně řazené hřebenové filtry v sérii se sériově řazenými fázovacími články. Neexponenciálního průběhu impulsní odezvy je možné dosáhnout záměnou klasických hřebenových filtrů za hřebenové filtry s neexponenciálně doznívající odezvou (NEDCF - Non-Exponentially Decaying Comb Filter) [1] [7].
*
Ing. Vítězslav Kot, Ústav telekomunikací, FEKT VUT v Brně , Purkyňova 118, 612 00 Brno tel.: +420 541 149 222, e-mail: [email protected]
53
Celková bloková struktura reverberátoru s neexponenciálním dozvukem je na obr. 1. Pro jednoduchost je zobrazena jednokanálová verze tohoto reverberátoru, verzi pro více kanálů však získáme jednoduchým rozšířením, jak je ukázáno dále. Výstup reverberátoru je součtem tří signálů. Prvním je přímý signál yd(n) ze vstupu reverberátoru váhovaný koeficientem gd, druhým je signál ye(n) tvořený prvotními odrazy zpožděný o E vzorků a váhovaný koeficientem ge. Třetím signálem je signál pozdních odrazů ys(n) váhovaný koeficientem gs a zpožděný o S vzorků. Váhovací koeficienty umožňují nezávisle na sobě nastavit požadovanou úroveň jednotlivých složek v celkovém součtu, zpožďovací články pak nastavují časový počátek prvotních a pozdních odrazů. gd
1 xd(n)
gs
a1
NEDCF1
b1
z-(E)
Early
ge
ye(n) a2
NEDCF2
s(n)
b2
NAF1
NAF2
z-(S)
ANAF ys(n)
1 yrev (n) aP
NEDCFP
bP
Obr. 1 Celková struktura reverberátoru s neexponenciálním dozvukem
3 Blok prvotních odrazů Blok prvotních odrazů "Early" (obr. 2) je tvořen zpožďovací linkou doplněnou o vnořený fázovací článek s frekvenčně závislým výstupem (ANAF - Absorbent Nested Allpass Filter). Vnořený fázovací článek s frekvenčně závislým výstupem vznikne vložením filtru s přenosovou funkcí He(z) do klasického vnořeného fázovacího článku, jak je ukázáno na obr. 3. 1 xd(n)
ANAF
-(N ) z e1
-(N ) z eL
-(N ) z e2
c2
c1
cL
1 ye(n)
Obr. 2 Struktura bloku prvotních odrazů
54
g2 g1
-(N ) z o
-(N ) z i
1 xd(n)
He(z)
1 ye(n)
-g1 -g2
Obr. 3 Vnořený fázovací článek s frekvenčně závislým výstupem (ANAF - Absorbent Nested All-pass Filter) Takovéto uspořádání umožňuje pomocí koeficientů g1, g2 struktury ANAF nastavovat hustotu prvotních odrazů (obr. 4) a pomocí vnořeného filtru jejich frekvenční závislost. Hodnoty koeficientů c zpožďovací linky jsou dány výrazem ci = (− 1) ⋅ e i i
pro i = 1,2,...,L,
(1)
kde e je vektor hodnot obálky v L zlomových bodech.
e→
1 0.5 0 -0.5 1000
2000
3000
4000
5000
n→
1000
2000
3000
4000
5000
n→
e→
1 0.5 0 -0.5
Obr. 4 Hustota prvotních odrazů, Ni = 29, No = 67, mezní frekvence filtru fc = 2000 Hz, nahoře g1 = g2 = 0.4, dole g1 = 0.01, g2 = 0.4
4 Blok pozdních odrazů Blok pozdních odrazů se skládá ze tří částí. Nejdůležitější z nich je hřebenový filtr s neexponenciálním dozvukem (NEDCF) viz obr. 5. Tato struktura byla poprvé představena v [7]. Skládá se z dvojice sériově řazených integračních hřebenových filtrů spolu s předřazeným řídícím FIR filtrem složeným z L zpožďovacích členů. Obálka impulsní odezvy je tak v tomto případě tvořena L lineárními úseky. Hodnota zpoždění každého zpožďovacího členu řídícího FIR filtru musí být celistvým násobkem hodnoty zpoždění odpovídajících integračních hřebenových filtrů, jen tak lze zajistit funkčnost a stabilitu celého systému. V případě, že tomu tak není, impulsy zpožděné o N1 až Nc = N1 + N2 + ,..., + NL
55
a váhované koeficienty g1, g2 , g3 ,..., gL+1 se v impulsní odezvě nesetkávají s impulsy hřebenových filtrů zpožděnými o hodnotu N a nemohou se tak sčítat, respektive odčítat. Impulsní odezvu pak tvoří odezva integračního hřebenového filtru druhého řádu - systém je nestabilní. z-(N 1 )
1 xd(n) g1
z-(N 2 ) g2
z-(N L ) gL+1
g3
z-(N)
z-(N)
-1
-1
1 xn(n)
Obr. 5 Hřebenový filtr s neexponenciálním průběhem impulsní odezvy (NEDCF) Z výše uvedeného plyne, že délky úseků impulsní odezvy je možno nastavovat pouze po diskrétních skocích o velikosti NTvz, kde Tvz je perioda vzorkovacího signálu. Pro výpočet koeficientů g1, g2 , g3 ,..., gL+1 jsem stanovil tyto vztahy: g1 =
e1 N , N1
n
(e n − e n−1 )N
k =2
Nn
g n = −∑ g k −1 +
(2)
pro n = 2,3,...,L,
(3)
L
g L +1 = −∑ g k ,
(4)
k =1
kde L je počet lineárních úseků impulsní odezvy, e je vektor hodnot obálky ve zlomových bodech, N je hodnota zpoždění integračních hřebenových filtrů a N1,...,NL jsou hodnoty zpoždění jednotlivých zpožďovacích členů řídícího FIR filtru. Výše uvedené vztahy platí pouze v případě, že vzorky impulsní odezvy jsou všechny stejné polarity (zpětnovazební koeficient hřebenového filtru je roven jedné). Není-li tomu tak, musíme v případě výskytu lichého počtu vzorků mezi dvěma zlomovými body obrátit polaritu daného koeficientu. Další částí bloku pozdních odrazů je vnořený fázovací článek (NAF - Nested All-pass Filter). Jedná se o strukturu z obr. 3 pouze bez vnořeného filtru. Základní výhoda vnořených fázovacích článků oproti klasickým fázovacím článkům je větší hustota impulsů na výstupu těchto článků, jejichž počet s časem dále roste, stejně jako je tomu u reálných poslechových prostorů. Tyto články mají za úkol podstatným způsobem zvýšit hustotu impulsů v impulsní odezvě paralelně řazených NEDCF. 56
Poslední částí bloku pozdních odrazů je struktura ANAF, která je stejná jako v bloku prvotních odrazů. Jejím úkolem je, kromě dalšího zvýšení hustoty impulsů, zavést do pozdních odrazů frekvenčně závislý dozvuk. Zde je na místě diskuze ohledně zavedení frekvenčně závislé doby dozvuku. Už jen samotná definice frekvenčně závislé doby dozvuku se zde liší od definice zavedené u reverberátoru s exponenciálně klesající impulsní odezvou. Zde jde totiž o syntetický, nepřirozený typ dozvuku, u kterého nemůžeme najít žádnou analogii s přirozenými dozvuky. Můžeme si tak frekvenčně závislou dobu dozvuku představit jakkoli. Pokud se ovšem budeme řídit zkušeností z exponenciálně klesajících odezev, pak by při vzestupných úsecích impulsní odezvy mělo docházet k lineárnímu zesilování určitých frekvencí a při sestupných k jejich lineárnímu zeslabování. Otázka je, které frekvence by se měly zesilovat či zeslabovat a v jakém rozsahu. Při pokusném modelování takovéhoto frekvenčně závislého dozvuku však dostaneme naprosto nepoužitelné výsledky. Navíc při implementaci vyžadující práci v reálném čase by musel být blok frekvenčně závislého dozvuku systém s časově proměnnými parametry, což představuje relativně značnou komplikaci. Prezentovaný způsob, ač ne zcela korektní, poskytuje z poslechového hlediska zřejmě nejlepší výsledky.
5 Rozšíření jednokanálové verze reverberátoru V případě multikanálové verze tohoto efektu přejdou vektory koeficientů a, b (viz obr. 1) v matice. Označíme-li počet vstupních kanálů M, počet výstupních kanálů K a počet NEDCF P, můžeme zapsat matice A, B ve tvaru ⎡ a11 ... a1M ⎤ ⎡ b11 ... b1K ⎤ ⎥ ⎢a ⎢b a2 M ⎥ b2 K ⎥⎥ 21 21 ⎢ ⎢ , B= . A= ⎢ . ⎢ . . ⎥ . ⎥ ⎥ ⎥ ⎢ ⎢ ⎣aP1 ... aPM ⎦ ⎣bP1 ... bPK ⎦
(5)
Matici přenosových funkcí paralelního systému NEDCF označíme D(z), vektor signálů jednotlivých kanálů na výstupu tohoto systému označíme s(z) a vektor signálů na vstupu paralelního systému NEDCF x(z). S využitím Z-transformace pak můžeme psát ⎡ gs1 xd1 ( z ) ⎤ ⎡ s1 ( z ) ⎤ ⎡ H NEDCF ( z ) 0 ⎤ 0 ⎢ ⎥ 1 ⎢ . ⎥ . ⎢ ⎥ ⎢ ⎥, D( z ) = ⎢ 0 ... 0 ⎥ , x( z ) = ⎥ , s(z ) = ⎢ . . ⎢ ⎥ ⎢ ⎥ ⎢ 0 0 H NEDCF ( z )⎥ ⎢ ⎥ ( ) ( ) s z g x z P ⎣ ⎦ ⎣⎢ K ⎦⎥ ⎣ sM dM ⎦
(6)
kde gs1, gs2 ,..., gsM jsou vstupní váhovací koeficienty a HNEDCF1(z), HNEDCF2(z) ,..., HNEDCFP(z) jsou přenosové funkce jednotlivých NEDCF. Pak pro vektor signálů na výstupu paralelního systému NEDCF platí
s ( z ) = B T ⋅ D( z ) ⋅ A ⋅ x( z ) .
(7)
Každá složka vektoru s(z) odpovídá jednomu kanálu na vstupu sériově řazených fázovacích článků tzn., že každý kanál má samostatnou část pro zvýšení hustoty impulsů v impulsní odezvě i pro zavedení frekvenčně závislého dozvuku.
57
6 Praktický návrh reverberátoru Při praktickém návrhu bloku pozdních odrazů je nezbytné dodržet několik zásad. Je nutné, aby impulsní odezva reverberátoru měla dostatečnou hustotu impulsů v impulsní odezvě. Tato odezva musí mít navíc (v případě vyřazeného bloku pro zavedení frekvenčně závislého dozvuku) charakter bílého šumu s patřičným dozvukem. Toho lze docílit vhodnou volbou zpoždění integračních hřebenových filtrů v systémech NEDCF. Hodnoty těchto zpoždění by měla být vhodně zvolená prvočísla. Nesoudělnost hodnot zpoždění N zamezí nežádoucí superpozici vzorků impulsních odezev jednotlivých NEDCF. Poměr zpoždění integračních hřebenových filtrů systémů NEDCF by měl podle [3] být N 1 : N P = 1 : 1 .5 .
(8)
kde P je počet NEDCF systémů. Tento počet je rovněž velmi důležitým parametrem. Vysoké hustoty impulsů v impulsní odezvě reverberátoru lze dosáhnout při P = 16 NEDCF systémů. V případě multikanálové verze je nutné nastavit koeficienty matice B tak, aby se jednotlivé kanály co nejvíce odlišovaly. Příkladem vhodné matice B pro dvoukanálový reverberátor je (9). Rovněž parametry struktury NAF i ANAF v bloku pozdních odrazů by měly být v každém kanále jiné. Na obr. 6 je ukázka celkové impulsní odezvy reverberátoru s neexponenciálním dozvukem, počet lineárních úseků L = 4. ⎡1 1⎤ ⎢− 1 1 ⎥ ⎢ ⎥ B = ⎢ 1 − 1⎥ ⎢ ⎥ ⎢− 1 − 1⎥ ⎢⎣ : : ⎥⎦
(9)
h →
1 0.5 0 -0.5 -1
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
n →
5.5 4
x 10
Obr. 6 Ukázka možného tvaru celkové impulsní odezvy reverberátoru
7 Závěr Prezentovaný reverberační algoritmus lze s úspěchem využít při hudební tvorbě. Byl testován pro různé typy hudebních vzorků, přičemž velmi zajímavých efektů lze dosáhnout při zpracování krátkých perkusivních zvuků a hlasu. Nevýhodou algoritmu je jeho relativně vysoká výpočetní náročnost, která ale v dnešní době rozhodně nepřekračuje přípustnou mez. 58
Literatura [1] [2] [3] [4] [5] [6] [7]
Balik, M., Function Generator Based on NEDCF. In Proceedings of. International conference Research in Telecommunication Technology - RTT 2003. Bratislava: Publisher STU, 2003, s. 84 - 87, ISBN 80-227-1934-X Balik, M. New Structure for 8-Channel Digital Reverberation In Proceedings of. International Conference TSP 2003 - Telecommunications and Signal Processing. Brno: VUT Brno, 2003, s. 270 - 274, ISBN 80-214-2433-8 Benson, K., Audio Engineering Hand Book. Chapter 6 - Room Simulation, p.181, Mc.Graw-Hill, NY, 1988. Frenette, J., Reducing Artifical Reverberation Requirements Using Time-Variant Feedback Delay Networks. A Research Project, University of Miami, Florida, 2000 Gardner, W.G., The virtual Acoustic Room, Master Science Thesis at the MIT, 1992 Jot, J. M., Efficient models for reverberation and distance rendering in computer music and virtual audio reality. IRCAM, Paris, France Piirila, E., Lokki, T., Valimaki, V., Digital Signal Processing Techniques for Nonexponentially Decaying Reverberation. Helsinki University of Technology, 1998
59
PŘENOS KOMPRIMOVANÝCH ŘEČOVÝCH SIGNÁLŮ Transferring of Coded Speech Signals
Jan Aksamít∗ Abstrakt V dnešní době jsou stále více nasazovány systémy umožňující přenos řečových signálů (telefonních hovorů) v páteřních sítích v paketové formě. Tento článek se zabývá vlivem zpracování řečového signálu na kvalitu rekonstruovaného signálu po průchodu tandemovým zapojením kodeků a případnými problémy vznikajícími při tomto procesu.
Abstract There is a growing number of systems allowing the transferring of speech signals through backbone networks in the packet form. The article is focused on a signal treatment and its influence in a quality of a signal after passing through tandem-connection of codecs and possible problems that can arise from this process.
Úvod Systémy pro přenos hovorových signálů založené na technologii kódování a paketového přenosu se v dnešní době začínají rozvíjet v čím dál větší míře, jejich hlavní výhodou je úspora přenosové kapacity. S tím úzce souvisí i úspora prostředků vynaložených na přenos hovorových signálů telekomunikační sítí. Při použití těchto zařízení je díky kódování snížena celková přenosová kapacita na cca jednu třetinu až čtvrtinu, při zachování únosné kvality signálu. Pomocí paketovacího mechanismu lze zase dosáhnout maximálního snížení chybovosti. Je pochopitelné, že tyto výhody sebou nesou i nevýhody, těmi je hlavně zhoršení kvality přeneseného hovorového signálu a jeho zpoždění. Pro testování kvality přenosu řečového signálu telekomunikačními zařízeními a systémy byly vyvinuty dvě základní metody, subjektivní a objektivní. Metody jsou popsány v doporučeních ITU-T řady P [1], [2], [3] a [4].
Subjektivní metody hodnocení kvality přenosu Metody subjektivního ohodnocení kvality jsou určeny pro obecné použití. Jsou nezávislé na typu degradace hovorového signálu, ač se jedná o ztrátu (i celých rámců), šum, chybovost přenosu, ozvěny, nelineární zkreslení při použití vokodérů s nízkými přenosovými rychlostmi. K subjektivnímu posouzení kvality telekomunikačních zařízení a systémů lze principiálně použít dva typy testů, poslechové a konverzační. Výsledkem je hodnota parametru MOS (Mean Opinion Score).
∗
Jan Aksamít, Katedra telekomunikační techniky, ČVUT FEL, Technická 2, 166 27 Praha 6 - Dejvice; tel.: +420 224 352 180, fax: +420 233 339 810, e-mail: [email protected]
60
Konverzační testy Konverzační testy jsou určeny k laboratorní simulaci situací, se kterými se setkávají uživatelé telekomunikačních koncových zařízení. Při použití konverzačních testů je nutné zvolit vhodné podmínky a testovací subjekty, stejně důležité je i korektní vedení testu. Princip testu je následující: dva testovací subjekty jsou umístěny do dvou zvukotěsných místností, které jsou blízko kontrolní mÍstnosti. Objem místností nesmí být menší než 20 m3. Šum v obou místnostech musí být udržován na nejnižší možné hladině. Oba testovací subjekty vedou normální telefonní rozhovor a hodnotí kvalitu přenosu hovorového signálu, zatímco obsluha v kontrolní místnosti mění podmínky testu. Škála pro ohodnocení kvality přeneseného hovorového signálu je v případě konverzačních testů pětistupňová. Poslechové testy Výsledky poslechových testů nejsou stejně realistické, jako testy konverzační. Omezení jsou proto v určitých aspektech méně přísná. Znamená to, že je nutné sledovat, kontrolovat a specifikovat mnoho parametrů, které jsou při konverzačních testech automaticky v rovnováze. Proces testování je však jednodušší, než u testů konverzaËnÌch. Princip testu je následující: testovací subjekt je umístěn do zvukotěsné místnosti, která má objem v rozmezí 30 až 120 m3. Šum musí být udržován na nejnižší možné hladině. Testovacímu subjektu jsou do sluchátka přehrávány testované řečové signály a subjekt hodnotí jejich kvalitu pomocí jedné z metod uvedených dále. Poslechových testů pro hodnocení je několik, jejich vyčerpávající popis lze najít v [2].
Objektivní metody hodnocení kvality přenosu Mezi metody objektivního ohodnocení kvality přenosu hovorového signálu telekomunikačními sítěmi patří metoda PESQ (Perceptual Evaluation of Speech Quality) [3]. Tato metoda kombinuje techniku časového zarovnání známou z metody PAMS (Perceptual Speech Quality Measurement) s přesným modelováním fyziologie sluchu metody PSQM (Perceptual Speech Quality Measurement). Je určena nejen pro testování kvality přenosu hlasovými vokodéry, lze ji využít i k testování o celého okruhu. Vztah mezi hodnotou PESQ a faktorem MOS Při porovnávání a zpracování hodnot se nevychází přímo z hodnot PESQ, jelikož se v telekomunikacích daleko častěji udávají hodnoty vzešlé ze subjektivních testů, tedy MOS. Hodnoty PESQ leží v intervalu 0,5 až 4,5, zatímco hodnoty MOS pro poslechové metody jsou v intervalu od 1,02 do 4,56. Mapovací funkce mezi těmito hodnotami je definována v doporučení ITU-T [4].
Tandemové zapojení kodeků V praxi často nastává případ, kdy dochází k tandemovému zapojení kodeků, jmenujme případ, kdy probíhá telefonní hovor z pobočkové podnikové sítě používající VoIP přes veřejnou telefonní síť na mobilní telefon.
61
Používané typy kodeků K testu byly použity tyto typy kodeků: GSM Half Rate, GSM Full Rate, GSM Enhanced Full Rate, GSM Adaptive Multi-Rate, PCM. Pro testování GSM AMR byla zvolena nejnižší přenosová rychlost 4,75 kbit/s. Výsledky kvalitativních testů tandemového zapojení kodeků V tab.1 jsou uvedeny hodnoty MOS a R-faktoru pro jednotlivé kombinace tandemových zapojení kodeků včetně indexu zhoršení Ie-PCM, který popisuje zhoršení kvality oproti zapojení PCM-PCM. Typy kodeků PCM - PCM AMR – AMR AMR – FR AMR – EFR AMR – HR AMR – PCM FR – FR FR – EFR FR – HR FR – PCM EFR – EFR EFR – HR EFR – PCM HR – HR HR - PCM
MOS 4,038 1,857 2,256 2,271 1,998 2,459 3,367 3,380 2,546 3,535 3,560 2,647 3,923 2,136 2,597
R-faktor 80,372 35,656 43,842 44,136 38,642 47,782 65,248 65,510 49,447 68,690 69,215 51,369 77,423 41,457 50,418
Ie-PCM 0 44,716 36,53 36,236 41,73 32,59 15,124 14,862 30,925 11,682 11,157 29,003 2,949 38,915 29,954
Tab. 1 – Hodnoty parametru MOS pro tandemové zapojení kodeků
Závěry a další směr výzkumu Jak je zřejmé z výsledků testů, některá tandemová zapojení kodeků jsou nevhodná. Pokud k nim dojde náhodně v jednotlivých případech telefonních hovorů, lze je akceptovat ad hoc. Avšak pokud jsou tato zapojení trvale použita v tranzitních sítích, může dojít k velkému nárůstu reklamací kvality hovorů a následně by mohlo dojít i k odlivu zákazníků z důvodu nespokojenosti. Jelikož většina ústředen umožňuje otestovat kvalitu telefonního kanálu před vlastním spojením, je zájmem většiny operátorů toto testování provádět, avšak nelze používat metody PESQ pro jejich relativně velkou časovou náročnost. Pro prověření by měl být použit signál o krátkém trvání, cca několik stovek milisekund, pomocí kterého by bylo možno zjistit typy používaných kodeků, jejich počet a přibližné zhoršení kvality signálu po jejich průchodu. Tento příspěvek vznikl za podpory grantu AV ČR s označením NPV 1ET300750402.
62
Literatura [1] [2] [3] [4] [5] [6]
CHU, WAI C. Speech coding algorithms, Foundation and Evolution of Standardized Coders. John Wiley & Sons, Inc., Hoboken, New Jersey 2003. ITU-T P.800: Methods for subjective determination of transmission quality. ITU 1996 ITU-T P.862: Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs, ITU 2001. ITU-T P.862 Amendment 1: Revised Annex A: Source code for the reference implementation and conformance tests. ITU 2003. ITU-T P.830: Subjective performance assessment of telephone-band and wideband digital codecs. ITU 1996. KOMÁREK, T. Paketový přenos komprimovaných hovorových signálů, Diplomová práce, ČVUT 2005.
63
PLESIOCHRONNÍ PŘEVODNÍK VZORKOVACÍ FREKVENCE Plesiochronous Sample Rate Convertor Michal Vlk
*
Abstrakt Při propojování digitálních elektroakustických zařízení se někdy setkáváme s problémem převodu vzorkovacích frekvencí, které jsou si velice blízké. Taková situace nastává v zařízeních, kde jsou použity různé autonomní zdroje hodinových signálů stejné frekvence. V článku je popsán plesiochronní převodník vzorkovací frekvence založený na spojitém prototypu FIR filtru. Je uveden základní teoretický rozbor metody a popsán algoritmus výpočtu v jazyku ANSI C.
Abstract Sometimes in digital acoustic signal transfer we solve problem of converting signals of two nearly similar sample rates. This situation occurs in equipments where more autonomous clocks (like quartz without PLL) are used. Therefore we must use plesiochronous sample rate converter (PCSRC) between them. PCSRC based on the continous prototype of finite response digital filter is analyzed in the paper. General theory of such that system is presented and ANSI-C algorithm is introduced.
Úvod Přestože je teorie lineárních systémů již dlouhou dobu dostatečně propracovaná (a to včetně systémů parametrických [1][2][3]), tak některé práce zabývající se převodem vzorkovací frekvence v elektroakustice [4] se stále snaží problematiku převést do pojmů soustavy lineární v čase invariantní s jistým „obohacením“. V dalším textu ukáži, že lze někdy postupovat mnohem příměji. Obecně je možné lineární soustavu charakterizovat konvolucí: ∞
y (t ) =
∫ H (t , q) x(q)dq
/1/
−∞
kde x(q) je vstup, y(t) výstup a H(t,q) je jádro transformace. Pro identitu je jádro prosté: H (t , q ) identita = δ (t − q )
/2/
*
Ing. Michal Vlk, Tesla, a.s., Poděbradská 186; 190 00 Praha 9 - Hloubětín; tel.: (++420) 266 107 696, e-mail: [email protected]
64
Pro soustavy časově invariantní (LTI) lze zavést přenosovou funkci (všimněme si, že jde o funkci jedné proměnné): H (t , q ) LTI = h(t − q )
/3/
Existují ovšem i docela jednoduché transformace signálu, které ač jsou parametrické, používají se docela často. Jde například o prodloužení v čase. (to znamená „pustit pásek jinou rychlostí“): H (t , q ) DIL=k = δ (kt − q )
/4/
Naproti tomu operátor posunutí je „jenom“ časově invariantní: H (t , q ) DIS =d = δ (t − q + d )
/5/
Naprosto analogické vztahy budou platit pro systémy v čase diskrétní, jen integrály přejdou v nekonečné součty a Diracovy distribuce přejdou v jednodušší „Kroneckerovy“ delty. Jediný potenciální problém může být kmitočtový rozsah signálů. Protože vzorkování si lze představit jako násobení periodickou řadou Diracových impulsů, ∞
y (t ) = x(t ). ∑ δ (t − nTs )
/6/
n = −∞
bude z elementárních vlastností Fourierovy transformace zřejmý překryv kmitočtových pásem (blíže viz. [5][6]) Velice názorné je sumu v /6/ a její Fourierův obraz zakreslit do obrázku:
Co se stane, pokud navzorkujeme spojitý signál, který není omezen kmitočtově? Potože násobení v časové oblasti odpovídá konvoluce v oblasti kmitočtové, bude spektrum navzorkovaného průběhu vypadat asi takto:
65
Proto veškeré signály, které vstupují do diskrétního zpracování, by měly být kmitočtově omezeny (fmax=fs/2), aby byl výsledek jednoznačný. To neplatí jenom pro signály, ale také pro spojité prototypy filtrů. Převodník vzorkovací frekvence je vlastně takový operátor posunutí /5/, jehož hodnota „k“ se mění v závislosti na okamžité fázi vstupního a výstupního signálu. Jde tedy o parametrickou soustavu. Impulsní odezva posunutí je ve spojité oblasti Diracův impuls posunutý v čase o k. Jak ale vypadá operátor posunutí v oblasti diskrétní, který není ve sporu s /6/ ? Je známa velká třída diskrétních filtrů, zvaných „filtry s konečnou impulzní odezvou“ (FIR) a některé z nich jsou vytvořeny navzorkováním spojitého prototypu. Proč tedy nevzít spojitý prototyp FIR filtru typu dolní propust za základ našeho interpolátoru? ∞
FIR = ϕιρ. ∑ δ (t − nTs )
/7/
n = −∞
zde FIR je v čase diskrétní filtr a ϕιρ je jeho spojitý prototyp. FIR s posunutím potom bude: ∞
FIR DIS =d = ϕιρ ∑ δ (t − nTs + d )
/8/
n = −∞
kde jedinou podmínkou na ϕιρ je kmitočtové omezení, dané jednoznačností dle /6/.
Realizace Při syntéze algoritmu autor vycházel z filtrů typu dolní propust navrhovaných pomocí okénka, u kterých lze jednoduše vyčíslit spojitý prototyp. Ukázalo se jako výhodné použít filtr Blackmannův a Blackmann-Harrisův. Jako výpočetně nevýhodný se ukázal filtr KaiserBesselův. Blackmannovo okno je definováno: FAC=0.42-0.50*COS(Q)+0.08*COS(2.Q) Blackmann-Harrisovo okno je definováno: FAC=1.0-(0.35875-0.48829*COS(Q)+0.14128*COS(2.0*Q)-0.01168*COS(3.0*Q)) kde Q je v intervalu 0..2π Vlastní filtr je tvořen součinem okna s funkcí typu: FLT=sin(W)/W, kde W=απn. α je tím blíže jedné zdola, čím více koeficientů má náš FIR, protože α určuje šíři přechodového pásma.
Závěr V článku byla ukázána jedna z aplikací parametrických soustav. Je jen škoda, že parametrické soustavy zůstávají stále mimo hlavní zájem odborné veřejnosti, přestože formulace některých problému s jejich pomocí může vést k překvapivě jednoduchým algoritmům. Měli bychom proto pohled na ně přehodnotit.
66
Výpis kódu v jazyku ANSI-C: N = 128; /* velikost filtru, musí být RDX2*/ for(i=0;i=1.0;) { k = ((k + N)-1)%N; a[k]= wave_in(); instp -=1.0; } for(i=0;i
Literatura [1] [2] [3] [4] [5] [6]
SCHWARTZ, Laurent: MÉTHODES MATHÉMATIQUES POUR LES SCIENCES PHYSIQUES ; HERMANN , Paris VI, 1961. WUNSCH, Gerhard: SYSTEMTHEORIE ; GEEST&PORTIG, Leipzig, 1975 SAEKS, Richard: GENERALIZED NETWORKS ; Holt, Rinehart and Winston, New York, 1975 ROTHACHER, Fritz Markus: SAMPLE-RATE CONVERSION: ALGORITHMS AND VLSI IMPLEMENTATION ; dizertace, SWISS FEDERAL INSITUTE OF TECHNOLOGY, ZURICH, 1995 Čížek, Václav: DISKRÉTNÍ SIGNÁLY A SOUSTAVY ; ČVUT, PRAHA, 1980 Самойло,К.А.,ред.: РАДИОТЕХНИЧЕСКИЕ ЦЕПИ И CИГНАЛЫ ; РАДИО И СВЯЗЬ, МОСКВА, 1982 67
HISTOGRAM BASED APPROACH FOR NONINTRUSIVE SPEECH QUALITY MEASUREMENT IN NETWORKS Neintrusivní měření kvality hlasových přenosů pomocí histogramů *
Jan Křenek , Jan Holub
*
Abstract This article describes the usage of histograms for speech audio quality assessment in GSM and other networks.
Abstrakt Článek popisuje způsob použití histogramů pro neintrusivní hodnocení kvality hlasových přenosů v GSM a jiných sítích.
Introduction The networks, such as GSM, UMTS, Tetra or Local Area Network (with proper VoIP software) represent technology used for speech transmission. Transmitted voice signal experiences a set of distortions on its way through the communication channel from a receiver to transmitter. Each distortion type (e.g. attenuation, noise, delay, echo, packet loss, clipping, jitter etc.) could cause considerable voice quality degradation. Along with the need for quality improvement goes the need for a methodology for its measurement. Two different methods are described below followed up with a deeper focus on histogram based nonintrusive voice quality measurement.
Voice quality measurement There are two different methods for voice quality measurement: Intrusive and Nonintrusive. Intrusive method Based on a comparison of both, original and transmitted signal using proper algorithm, e.g. ITU-T P862 (PESQ). The usage of intrusive method gives more accurate results in comparison with the quality assessed by the average listener that is acquired from listening tests. High cost and time consumption forms a space for the second, Non-intrusive method. Non-intrusive method The non-intrusive method estimates the quality just from the transmitted sample! It is easy to see the difficulty of such an algorithm to give reliable results. The main advantage of the non-intrusive method is cost efficiency (“unlimited” number of speech samples can be *
Ing. Jan Krenek, Department of Measurement, CTU in Prague, FEL, Technicka 2, 162 27 Prague tel.: +420 2 2435 2187, fax.: +420 2 3119 929, e-mail: [email protected] * Doc. Ing. Jan Holub, Department of Measurement, CTU in Prague, FEL, Technicka 2, 162 27 Prague tel.: +420 2 2435 2131, fax.: +420 2 3119 929, e-mail: [email protected]
68
assessed for the quality for the total accuracy improvement), the measurement is conducted within real network data and states (as the call establishment is not necessary unlike in the intrusive method). Nevertheless, some distortion types, like the harmonic distortion of some codec’s (e.g. ADPCM) cannot be detected, due to the lack of the original sample. It is therefore recommended to use a combination of both, intrusive and non-intrusive methods. MOS scale When discussing quality of voice transmission, clarification of the term „QUALITY“ is expedient. Surprisingly, the term is not defined unambiguously. Considering the signal transmission, the quality is treated as the level of similarity of both the transmitted and received sample. In a view of human perception, the quality indicators could be: clarity, delay, noise, level, drop-outs, etc. For the purpose of the quality assessment, the MOS (Mean Opinion Score) scale is widely used, which corresponds to the meaning of the average listener. It is, therefore, a subjective assessment. MOS scale 5
Excellent
4
Good
3
Fair
2
Poor
1
Bad
Tab. 1 MOS scale Unlike the standard custom, the best “excellent” grade is a 5, whereas the worst “bad” grade is a 1.
Histogram based non-intrusive algorithm for voice transmission quality measurement For the algorithm development, a proper library of speech samples is essential. Such a library was at our disposal. It consists of four original speech samples made by two male and female professional speakers. These samples were distorted by clipping (simulating the distortion caused by a Voice Activity Detector used in mobile phones), jitter, noise and filtering. In total, the library contains 40 samples (4 original and 36 distorted). Quality of those distorted samples was assessed during listening tests, which are considered as an etalon of value that is basically desirable by every quality appraising algorithm to achieve. The first step is to obtain histograms of all samples. Such an algorithm can work as the one in Fig. 1. The examined sample is at first normalized in amplitude and re-sampled to an 8kHz sample rate. After that, the whole sample is divided into 16ms packets. Using FFT, amplitude spectrum is computed for every packet. Depending on the type of each packet (active speech-voice or pause-noise) determined by a Voice Activity Detector, the sum of the amplitude spectra related to the packet type is computed. Sum of voice packets – “HIST_voice”, sum of noise packets – “HIST_noise” and sum of both – “HIST” were examined for invention of parameters with relation to quality.
69
Load sample, sample normalization
1
If speech sample rate ≠ 8kHz, resample
Voice Activity Detection
noise
voice LOOP START Until end of sample
HIST_voice = HIST_voice + ABS(FFT(packet*hann))
HIST_noise = HIST_noise + ABS(FFT(packet*hann))
Take first or next packet of 16ms from the sample
LOOP END
HIST = HIST + ABS(FFT(packet* hann))
Sample noise power computation
plot HIST plot HIST_voice plot HIST_noise
1
Fig. 1 Simplified flowchart for Histograms creation The simplified flowchart in Fig. 1 was more complex in real in order to provide other histograms creation. The expanded flowchart gives 4 more histograms – “HIST_voice_delta”, “HIST_voice_delta_delta”, “HIST_noise_delta” and “HIST_voice_delta_delta”. Delta (∆) represents that difference between the amplitude spectrum of the actual packet and the next packet (with 50% overlap) was used for the histogram computation. In the double delta variant, there is a difference from differences made in the previous step, also with a 50% overlap. The reason for making such differences with a 50% overlap is that they can increase resolution and highlight possible parameters.
Fig. 2 Histogram of pure sample of MOS=5 70
Fig. 3 Histogram of clipping distorted sample of MOS=4.88
Fig. 4 Histogram of clipping distorted sample of MOS=2.76 There are frequency bins on the horizontal axis (with increasing position towards the right, the frequency increases). The vertical axis is the axis of amplitudes. Counts are represented by the color scale, from white to black. The presented histograms are actually three dimensional figures presented in two dimensions. In Figures 2 – 4, sample histograms can be seen. The first histogram in Fig.2 is a histogram of the sample with the best quality (MOS=5). In Fig. 3 – the histogram of the
71
sample is just a bit distorted by clipping with MOS=4.88. Fig. 4 shows a histogram significantly distorted by clipping (MOS=2.76). It can be seen even at first glance that the number of counts in first row (from bottom) of histograms increases with decreasing quality. On further review, it can be seen that the ratio between for example five frequency bins from the middle of the second row and the middle five from the first row is bigger than 1 for relatively high quality. This ratio decreases with the quality. The procedure of searching for parameters applied on all speech samples and all (=seven) histograms leads to spotting many desirable parameters. Such parameters were spotted and could be used as an input for a neural network in order to find out which of them are suitable to use and how each should affect the result of the algorithm. However, high computational requirements for all histogram creation made usage of such an algorithm unsuitable for real-time quality assessments. The primary advantage of the non-intrusive method is its speed. Further investigations to speed up the computations are in progress at present. Consideration is being given whether the usage of a Voice Activity Detector and the computation of all seven histograms for all samples are necessary.
Conclusion In this paper, a novel approach for voice transmission quality assessment in a nonintrusive way was presented. Starting with brief introduction of VTQoS (Voice Transmission Quality of Service) measurement, principle of proposed histogram based algorithm was described. Even though this approach has shown its functionality, further research is necessary for the performance improvement.
References [1] [2] [3]
KŘENEK, J. Systém pro intrusivní měření kvality přenosu hlasu v sítích GSM s lokalizací polohy, Diploma Thesis, CTU FEL 2004. VEAUX, Ch. – BARRAIC, V. Perceptually Motivated Non-Intrusive Assessment of Speech Quality, Measurement of Speech and Audio Quality in Networks, Proceedings, Prague 2002, ISBN – 80-01-02515-2 BERNEX, E. – BARRAIC, V. Architecture of non-intrusive perceived voice quality assessment, Measurement of Speech and Audio Quality in Networks, Proceedings, Prague 2002, ISBN – 80-01-02515-2
72
ˇ ELEKTROAKUSTICKÝ VYSÍLAC ˇ ˇ ˇ S PRÍMOU D/A PREM ENOU Electroacoustic Tansmitter With The Direct D/A Conversion Karel Motl∗
Abstrakt Vývoj v oblasti elektroakustických mˇeniˇcu˚ se již po dobu nˇekolika desítek let omezuje pˇredevším na hledání nových materiál˚u a technologií výroby pˇri zachování stejného principu funkce reproduktoru. Tím zaˇcíná zaostávat za zbytkem elektroakustického rˇetˇezce, kde došlo ke znaˇcným zmˇenám zp˚usobeným kompletní digitalizací. To má napravit elektroakustický mˇeniˇc s pˇrímou digitálnˇe analogovou pˇremˇenou, nˇekdy nazývaný jako digitální reproduktor (DR). Tato práce pojednává o modelu digitálního reproduktoru, který má sloužit k nalezení jeho podstatných parametr˚u a vlastností v závislosti na použitých technologiích a alternativách realizace.
Abstract Development in the field of electroacoustic transducers has been reduced for many years to experiments with materials and technology, whereas basic principles stay unchanged. The rest of the electroacoustic chain is completely digitalized, so there is tendency to digitalize also the end of such a chain. It leads to electroacoustic transducers with direct D/A conversion (digital loudspeaker). In this work model of digital loudspeaker is described and its utilization for analysis of the main parameters and characteristics is presented.
Úvod Úkolem digitálního reproduktoru je zabezpeˇcení pˇrevodu signálu reprezentovaného pulznˇekódovou modulací (PCM) na analogový akustický signál. Princip funkce spoˇcívá v pˇrevodu paralelního toku vstupních dat na akustické impulzy, jejichž amplitudy odpovídají respektivním vahám bit˚u. To je zajištˇeno bud’ rozdˇelením membrán do sektor˚u s velikostmi 2N , nebo je použito více mˇeniˇcu˚ s odpovídajícím poˇctem (ty pak tvoˇrí bitové skupiny, viz obr. 1). Akustická 1. bit
2. bit
3. bit
4.bit
Obr. 1 Princip funkce digitálního reproduktoru
odezva, kterou pˇríslušná cˇ ást membrány (resp. bitová skupina mˇeniˇcu˚ ) vygenerovala v podobˇe akustických impulz˚u, odpovídá svojí amplitudou váze pˇríslušného bitu. Souˇcet všech tˇechto ˇ Ing. Karel Motl, Katedra radioelektroniky, FEL CVUT Praha, Technická 2, 166 27, Praha 6 tel. 02/2435 2111, e-mail: [email protected] ∗
73
pulz˚u pˇredstavuje pulznˇe amplitudovou modulaci (PAM), ze které již lze získat p˚uvodní analogový signál pomocí akustické filtrace. Pokud je vzorkovací frekvence dostateˇcnˇe vysoko v˚ucˇ i hranici slyšitelnosti, lze filtraci vypustit.
Model rˇetˇezce digitálního reproduktoru ˇ ezec digitálního reproduktoru lze rozdˇelit na nˇekolik základních cˇ ástí (viz obr. 2): Retˇ • Walshova transformace ve funkci zdroje digitálních dat (konverze analogového signálu na tˇrístavový digitální signál) • výkonové zesílení digitálního signálu (v podobˇe budiˇce) • filtry odpovídající pˇrenosovým charakteristikám elektroakustických mˇeniˇcu˚ • zpožd’ovací cˇ lánky simulující dráhová zpoždˇení signál˚u v poli mˇeniˇcu˚
Walshova
filtrace
τ
filtrace
τ
filtrace
τ
transformace Analog
Σ
Obr. 2 Schéma modelu digitálního reproduktoru
Walshovy funkce Walshovy funkce, které byly poprvé popsány v roce 1923, jsou kompletní systém pravoúhlých ortogonálních funkcí, které lze využít ke generování signál˚u za využití digitální techniky, kde jsou k dispozici pouze výstupní hodnoty -1, 0 a 1. Použitím Walshovy transformace získáváme pr˚ubˇehy jednotlivých bit˚u v paralelní podobˇe PCM, což je zajímavé právˇe pro simulaci DR. Mezi hlavní výhody Walshových funkcí patˇrí rychlost a jednoduchost jejich generování. Pro generování Walshových funkcí jsou nejˇcastˇeji použity Rademacherovy funkce, pˇredstavené o rok dˇríve. Jedná se o pravoúhlé pr˚ubˇehy se stˇrídou 1:1 a v mocninách dvou (viz obr. 3). Jednotlivé Walshovy funkce lze vyjádˇrit pomocí souˇcinu Rademacherových funkcí. Máme-li funkci wal(i, t), je i vyjádˇreno binárnˇe pomocí Grayova kódu, ze kterého se urˇcí, které Rademacherovy funkce budou pro generování použity. Pˇríklady jsou uvedeny v tab. 1. Je zˇrejmé, že Rademacherovým funkcím odpovídají pˇrímo funkce wal(1), wal(3), wal(7) a wal(15) a že produktem dvou Walshových funkcí je opˇet Walshova funkce. Podle lichosti nebo sudosti jejich pr˚ubˇeh˚u je znaˇcíme cal resp. sal (cosine/sine wal(i, t)).
74
1
1
0
1
0
−1
−1
1
1
0
1
−1
1
0
1
−1
Obr. 3 Rademacharovy funkce rad(0, t) až rad(4, t)
Index Gray˚uv kód 0 0000 1 0001 2 0011 3 0010 4 0110 5 0111 6 0101 7 0100 8 1100 9 1101 10 1111 11 1110 .. .. . . 15 1000
Walshovy funkce wal(0, t) = 1 wal(1, t) = rad(1, t) wal(2, t) = rad(2, t) · rad(1, t) wal(3, t) = rad(2, t) wal(4, t) = rad(3, t) · rad(2, t) wal(5, t) = rad(3, t) · rad(2, t) · rad(1, t) wal(6, t) = rad(3, t) · rad(1, t) wal(7, t) = rad(3, t) wal(8, t) = rad(4, t) · rad(3, t) wal(9, t) = rad(4, t) · rad(3, t) · rad(1, t) wal(10, t) = rad(4, t) · rad(3, t) · rad(2, t) · rad(1, t) wal(10, t) = rad(4, t) · rad(3, t) · rad(2, t) .. . wal(15, t) = rad(4, t)
Tabulka 1: Vytváˇrení Walshových funkcí pomocí Rademacherovým funkcí
1
0
1
−1
Obr. 4 Složení funkce wal(5, t)
Zesílení signálu Další cˇ ástí modelu jsou zesilovaˇce zajištující výkonové zesílení signálu s ohledem na charakter zátˇeže použitých mˇeniˇcu˚ . V modelu jsou uvedené pro úplnost, jejich návrhem je potˇreba se zabývat až pˇri konstrukci celého ˇretˇezce.
75
Vlastnosti mˇeniˇcu˚ Výsledné vlastnosti digitálních reproduktor˚u závisejí zejména na volbˇe principu elektroakustické pˇremˇeny. Jednotlivé typy mˇeniˇcu˚ se liší akustickými i elektrickými vlastnostmi, rozmˇery, dostupností a cenou. Hlavní parametry, které jsou podstatné z hlediska praktického využití, jsou kmitoˇctový rozsah, dosažitelný akustický tlak, smˇerovost a zkreslení. Do modelu je tedy nutné zavést zejména parametry související s mezemi v kmitoˇctové a amplitudové oblasti (filtrace a limitace signálu). Pˇridáním dalších model˚u lze simulovat r˚uzné druhy zkreslení (harmonické, intermodulaˇcní apod.)
Dráhová zpoždˇení Významným jevem, který má za následek nezanedbatelné zkreslení pˇredevším v závislosti na smˇerové charakteristice, je zpoždˇení signál˚u jednotlivých mˇeniˇcu˚ v poli. Každý má v˚ucˇ i referenˇcnímu poslechovému bodu r˚uznˇe dlouhé dráhy šíˇrení (viz obr. 5). Tyto r˚uzné vzdálenosti vedou ke špatnému sˇcítání impulz˚u v rámci jedné vzorkovací periody. Zkreslení proto výrazným zp˚usobem vzr˚ustá se stoupajícím odklonem od osy pole. Samozˇrejmˇe je dále velmi podstatné rozdˇelení mˇeniˇcu˚ a bitových skupin v poli (jak je popsáno v [2] a [5]). V pˇrípadˇe re
t2 t1 t0 ref. bod
Obr. 5 Dráhové rozdíly vedoucí ke zpoždˇení akustického signálu pro každý bit (odlišné dráhy jejich šíˇrení)
alizace digitálního reproduktoru pomocí pole miniaturních mˇeniˇcu˚ lze jeho parametry ovlivnit rozložením jednotlivých mˇeniˇcu˚ (a bitových skupin) v poli (jak je popsáno v [2]). Souvisí to se zmínˇenou problematikou dráhových zpoždˇení - tyto alternativy mají vliv na výslednou superpozici akustických pulz˚u (viz obr. 6).
Vyzaˇrovací impedance Hlavní d˚uvod, proˇc se bˇežnˇe používané reproduktory potýkají s velmi nízkou úˇcinností, spoˇcívá v nízké vyzaˇrovací impedanci, tedy špatném výkonovém pˇrizp˚usobení. V pˇrípadˇe vyšších nárok˚u na citlivost reproduktor˚u je snaha používat velké plochy membrán, silné magnety (co ~ × ~l), nebo nepˇrímovyzaˇrující konstrukce. nejvyšší B Digitální reproduktory využívající pole mˇeniˇcu˚ se odlišují od analogových mimo jiné vyzaˇrující impedancí, která závisí pˇri každém vzorku na poˇctu aktivních bit˚u. Vzhledem k r˚uzným alternativám rozmístˇení jednotlivých mˇeniˇcu˚ a bitových skupin v poli bude zajímavé tyto závislosti analyzovat.
76
Obr. 6 Alternativy uspoˇrádání polí
Základní vztahy Mechanická vyzaˇrovací impedance je dána pomˇerem fázoru celkové síly na povrchu kmitajícího tˇelesa a fázoru radiální rychlosti kmitání tohoto povrchu ~ ~ mv = F , Z v~s
(kg · s−1 ; N, m · m−1 )
(1)
a vzniká jako reakce prostˇredí na kmitající objekt. Akustická vyzaˇrovací impedance je pak definována jako pomˇer tlaku na povrchu vysílaˇce a objemové rychlosti vysílaˇcem vytváˇrené ~ av = p~ , Z w~s
(kg · s−1 · m−4 ; P a, m3 · s−1 ).
(2)
Další základní teoretické vztahy popisují chování zdroj˚u záˇrících do neohraniˇceného prostˇredí (pulzující cˇ i oscilující koule apod. viz [8]), v pˇrípadˇe reálných aplikací reproduktor˚u ˇrešíme pˇrípad záˇriˇcu˚ , které leží v rovinˇe stˇeny (ozvuˇcnice). Vε
Vn z>0 ε
dS
Obr. 7 Situace pro výpoˇcet vyzaˇrovací impedance
Pˇri odvozování vyzaˇrovací impedance uvažujeme cˇ ást kmitající plochy - elementární plochu dS = dxs dys kmitající normálovou rychlostí v~n (xs , ys ), která je zdrojem objemové rychlosti p v~n dS (viz obr. 7). Pro celou kmitající oblast lze urˇcit rychlostní potenciál ve vzdálenosti l = z 2 + (x − xs )2 + (y − ys )2 jako superpozici jednotlivých zdroj˚u na S0 : ZZ e−jkl 1 ~ v~n dxs dys . (3) Φ=− 2π l S0
77
Akustický tlak nad rovinnou pístovˇe kmitající deskou je pak dán Rayleighovým integrálem: ZZ e−jkl jk%0 c0 v~n (xs , ys ) dxs dys . (4) p~ = −jω%0 Φ = 2π l S0
Tento vztah popisuje situaci samostatné kmitající plochy. Máme-li pole mˇeniˇcu˚ , musíme brát v úvahu jejich vzájemné ovlivˇnování. To popisuje Helmholtz˚uv integrál: Z Z Z Z −jkl e jk%0 c0 ~ dxs dys dxdy. (5) F = v~n 2π l S0 ×S0
Vyzaˇrovací impedance je pak popsána vztahem ZZ Z Z −jkl ~ e ~ mv = F = jk %0 c0 dS dσ. Z v~n π l
(6)
S0
Σ0
Pro aplikaci tohoto vztahu na kruhovou pístovˇe kmitající membránu o polomˇeru R a stˇredem umístˇeným v poˇcátku souˇradnicového systému (bod [x = 0, y = 0]), jak je popsáno na obrázku 8, pˇrevedeme situaci do polárních souˇradnic a provedeme postupnou integraci podle jednotlivých promˇenných π ) Z s Z2π ( ZR Z2 2rcosϕ % c ~ mv = jk 0 0 e−jkl dl dϕs rdr dϕ. (7) Z π 0
0
y
0
− π2
y´s
l ϕs
[xs ys ]
[xy]
r
ϕ
x´s
[00]
x
Obr. 8 K výpoˇctu Helmholtzova integrálu pro kruhovou membránu (definice poˇcátku pˇred pˇrevodem do polárních souˇradnic)
Aplikace pro digitální reproduktory Jak již bylo zmínˇeno, existuje libovolné množství variant rozmístˇení mˇeniˇcu˚ a bitových skupin v poli pro digitální reproduktory (obr. 6). Z d˚uvodu jednoduchého popisu (a také realizace) uvažujme nyní rozdˇelení aktivních ploch do mezikruží, jak popisuje obrázek 9. 78
R R1 R2
R3
Obr. 9 Sekce membrán DR v uspoˇrádání koncentrických mezikruží pro výpoˇcet vyzaˇrovací impedance
Každá cˇ ást je v takovémto uspoˇrádání aktivní cˇ i neˇcinná v závislosti na vstupní posloupnosti bit˚u. M˚užeme tedy uvažovat napˇríklad takové kombinace, jako jsou kruhy s polomˇery R0 , R1 , R2 , R3 , jednotlivá mezikruží, dále kombinace nˇekolika mezikruží nebo kruh˚u a mezikruží. V pˇrípadˇe nízkých kmitoˇct˚u platí pro kruhy a mezikruží následující vztahy: R1 ZR1 4 Z πR 4 (4r − jkr 2 π)rdr = R13 − jk 1 (4r − jkr 2 π)r dr = 3 4 0
4
ZR1 R
2
r − jkπ
(8)
R
ZR1 R
R3 r dr = 4 3 3
R1 R
R4 − jkπ 4
R1 R
4 π = (R13 − R3 ) − jk (R14 − R4 ). 3 4
(9)
Ostatní ˇrešení odpovídající r˚uzným kombinacím kruh˚u a mezikruží lze nalézt souˇcty pˇríslušných integrál˚u. Výslednou vyzaˇrovací impedanci lze pak vypoˇcítat následujícím zp˚usobem: ~ mv = jk %0 c0 2π[ 4 (R3 − R3 ) − jk π (R4 − R4 )] = Z π 3 1 4 1 4 = jk%0 c0 π (R13 − R3 ) + k 2 π 2 %0 c0 (R14 − R4 ) = 3 4 = (kπ)2 %0 c0 (R14 − R4 ) + j kπ%0 c0 (R13 − R3 ). 3
(10)
Pˇri realizaci experimentálního vzorku (kdy jsou použity miniaturní mˇeniˇce) lze popisovanou situaci vytvoˇrit vhodným seskupením tˇechto mˇeniˇcu˚ v poli, pˇriˇcemž bude záležet na pomˇeru zpracovávaných vlnových délek a rozmˇer˚u celkové konstrukce, do jaké míry bude výsledek v souladu se simulací.
Závˇer Popsaný model má sloužit k analýze základních parametr˚u rˇetˇezce digitálního reproduktoru, které pak mohou vypovídat o kvalitˇe výsledného akustického signálu. V simulacích lze vhodnou manipulací se signály modelovat napˇríklad r˚uzné druhy nelineárního kvantování, dynamické komprese, harmonické cˇ i intermodulaˇcní zkreslení a podobnˇe. Filtry s odpovídajícími pˇrenosovými charakteristikami složí k modelování reálných mˇeniˇcu˚ . 79
Mezi hlavní výhody digitálních reproduktor˚u patˇrí zjednodušení signálového ˇretˇezce, kdy jsou klasický elektrický D/A pˇrevodník, výkonový zesilovaˇc a reproduktor nahrazeny jediným zaˇrízením. Jejich vlastnosti budou záviset zejména na zvolené technologii výroby vhodných m eˇ niˇcu˚ , jejichž dostupnost souvisí s rozvojem mikromechanických technologií. Podˇekování Tento výzkum je podporován výzkumným zámˇerem VZ 6840770016 a grantem CTU0507913.
Literatura [1] Flanagan, J.L.: Direct Digital-to-Analog Conversion of Acoustic Signals, The Bell Systems Technical Journal, Vol. 59, No.9, 1980 [2] Huang, Y., Busbridge, S.C., Gill, D.S.: Distortion and Directivity in a Digital Transducar Array Loudspeaker, J. Audio. Eng. Soc.: Vol. 49, No. 5, May 2001 [3] Hayama, A., Furihata, K., Yanagisawa, T.: Electrodynamic type plane loudspeaker driven by 16 bits digital signal and its acoustic responses, Proceedings of ICA Conference, Rome 2001 [4] Husník, L.: Výhody a nevýhody digitálního reproduktoru, Akustické listy CSAS 4 Vol. 7(2001) 19-20 [5] Husník, L.: Analýza vlivu rozložení bit˚u v poli mˇeniˇcu˚ reproduktoru s pˇrímou digitálnˇe analogovou pˇremˇenou. Akustické listy, 3, vol. 9, 2003, pp14-16 [6] Husník, L.: Audio Going Digital - Present State and History of Digital Transducers, In: Proceedings of X Symposium New Trends in Audio and Video, Wroclaw 2004, pp47-52. [7] Husník, L.: Influence of Transducer Transfer Function on the Signal Radiated by a Digital Loudspeaker, Proceedings of Digital Technologies 2004, Žilina, December 2 2004, pp9196, ISBN: 80-8070-334-5 [8] Škvor, Z.: Akustika a elektroakustika, 1. vydání, Academia, Praha 2001 [9] Morgan, M. S., Bolen, L. N.: Direct digital-to-analog conversion of acoustic signals using a solid dielectric transducer/filter system, J. Acoust. Soc. Am., Vol. 90, No. 6, December 1991. [10] Busbridge, S. C. et al.: Digital loudspeaker technology: current state and future developments, AES 112TH convention, Munich, Germany 2002 May 10-13. ˇ [11] Svatoš, J.: Elektronika nízkofrekvenˇcních zaˇrízení - pˇrednášky, Vydavatelství CVUT, Praha 1991
80
ˇ MODELOVÁNÍ PRENOSU ZVUKU ˇ DO VNITRNÍHO UCHA Modeling of Sound Transfer into Inner Ear František Rund∗
Abstrakt Pochopení zp˚usobu jakým funguje lidské slyšení je základním pˇredpokladem pro návrh nových metod zpracování zvuku. Tento cˇ lánek se zabývá studiem vlivu pˇrenosové charakteristiky vnˇejšího zvukovodu na zvukový signál vnímaný ve vnitˇrním uchu. Pˇrenosová funkce vnˇejšího ucha je také cˇ asto dávána do souvislosti s chronickým akustickým traumatem. Ale stejnˇe cˇ asto se také uvádí, že vliv vnˇejšího ucha (zvukovodu) je kompenzován pˇri pr˚uchodu zvuku stˇredním uchem. Tento cˇ lánek se snaží pˇrispˇet ke studiu tohoto problému pomocí modelování vnˇejšího a stˇredního ucha.
Abstract The insight in the way how the human hearing works is important for design of new methods of signal processing. This paper is concerning about the influence of the external ear canal transfer function on sound signal percieved in the cochlea. The ear canal transfer function is often related to the Noise Induced Hearing Loss. But often is also stated, that the influence of external ear canal is canceled by transfer characteristics of the middle ear. This paper wants to contribute to study of the problem by means of modeling external and middle ear.
Úvod Studium pˇrenosu zvuku do vnitˇrního ucha má sv˚uj význam nejen pro technické aplikace (zpracování zvuku), ale i v medicínˇe, napˇr. pˇri studiu poruch sluchu. Velmi významnou poruchou sluchu je chronické akustické trauma. Pˇri této poruše dochází k trvalé sluchové ztrátˇe typicky na frekvencích 3–6 kHz, aˇc se postižený pohyboval v prostˇredí se širokopásmovým hlukem. Studiem této problematiky se podrobnˇe zabývá práce [3]. Jedno z vysvˇetlení tohoto jevu, uvádˇené v práci [3], dává tento jev do souvislosti s pˇrenosovou funkcí vnˇejšího zvukovodu. Vnˇejší zvukovod lidského ucha, vzhledem k svým rozmˇer˚um, „zesiluje“ zvuky jím procházející právˇe v oblasti 3–6 kHz, což by podle této teorie mohlo vést k poškození pˇríslušných bunˇek ve vnitˇrním uchu. Ovšem toto vysvˇetlení se nepodaˇrilo v práci [3] prokázat, což je vysvˇetlováno zeslabením vlivu pˇrenosu zvukovodu pˇrenosovou funkcí stˇredoušních k˚ustek. Proto je nutné sledovat nejen pˇrenos vnˇejším zvukovodem, ale celkový pˇrenos až do vnitˇrního ucha. Vzhledem k tomu, že pˇrímé mˇeˇrení na živých subjektech je velmi problematické, nabízí se využít pro sledování tohoto pˇrenosu matematických model˚u. ˇ Ing. František Rund, Katedra radioelektroniky, FEL CVUT Praha, Technická 2, 166 27, Praha 6 tel. 22435 2108, e-mail: [email protected] ∗
81
E ZˆecE
w ˆD
C pˆecE
∆
D
w ˆE
ˆcav Z
pˆD
S
vˆI
w ˆC
S FˆI
∆ˆ p
C
vˆS
K
pˆcav
pˆE
I
w ˆD
Zˆis
FˆS
pˆC
ˆC Z
jádro: akustický zdroj
zvukovod
bubínek, kladívko, kovadlinka
tˇrmínek
kochlea
Obr. 1 Blokové schéma modelu podle [2] a [4]
Stávající modely V literatuˇre lze nalézt množství matematických model˚u r˚uzných cˇ ástí lidského ucha, a zvláštˇe stˇredního ucha, sestavených za pomoci analytických i numerických metod. V tomto cˇ lánku se budeme zabývat dvˇema zástupci tˇechto model˚u, analytickým modelem [2] (doplnˇeným o model vnˇejšího zvukovodu podle [4]) a numerickým modelem [1]. Analytický model pˇrenosu zvuku od zdroje až do kapaliny v hlemýždi (kochlea) sestavený pomocí metody elektro-akustické analogie byl publikován v práci [2]. Tento model byl sestaven na základˇe velkého poˇctu mˇeˇrení na kadaverózních vzorcích, a je zamˇeˇren zejména na modelování stˇredního ucha. Tento model byl doplnˇen pˇresnˇejším modelem vnˇejšího zvukovodu, jak bylo publikováno v práci [4]. Blokové schéma upraveného modelu je na obrázku 1. Každý blok modelu je popsán svojí kaskadní maticí, není tedy problém spojovat jednotlivé bloky dohromady a poˇcítat odpovídající charakteristiky. Celý model je založen na jednorozmˇerném pˇrístupu, jeho platnost je tudíž omezena na vlnové délky menší než pˇríˇcný rozmˇer uvažovaných objekt˚u. Dále je tˇreba mít na pamˇeti, ze tento model má sv˚uj základ v mˇeˇrení na kadaverózních vzorcích, tudíž nem˚uže modelovat aktivní procesy v lidském uchu, napˇríklad stˇredoušní reflex. Numerický model byl vytvoˇren v práci [1] modelováním jednoho kadaverózního vzorku lidského ucha pomocí metody koneˇcných prvku (FEM). V práci [1] byl publikován modelovaný pr˚ubˇeh výchylky bubínku a tˇrmínku (oválného okénka). Tento model opˇet nebere v úvahu aktivní procesy v lidském uchu. Na obr. 2 vlevo je modelovaný pˇrenos akustického tlaku z volného pole na výchylku tˇrmínku (oválné okénko) pomocí modelu podle [2] a [4]. Zobrazený pr˚ubˇeh je pro jeden z modelovaných zvukovod˚u a pro r˚uzné aproximace tlumení ve zvukovodu. Ale i bez uvažování ztrát ve zvukovodu je maximum pˇrenosu výchylky tˇrmínku vyvolané zvukovodem cca 5 dB pod maximem produkovaným dalšími cˇ ástmi. Na obr. 2 vpravo je cˇ árkovanˇe výsledek FE modelu podle [1]. Je zobrazena výchylka tˇrmínku pˇri akustickém tlaku 90 dB SPL na vstupu zvukovodu. Pro srovnaní je zobrazeno totéž pomocí modelu podle [2] a [4]. Je zˇrejmé, ze oba modely jsou v dobré shodˇe (rozdíly jsou zp˚usobené tím, že analytický model byl sestaven na základˇe mˇeˇrení více kadaverózních vzork˚u a FE model pouze jednoho) a práce [2] uvádí porovnání s dalšími modely výchylky tˇrmínku, které jsou také v dobré shodˇe. Oba modely tedy ukazují, že pˇrenos stˇredního ucha zeslabí vliv maxima pˇrenosu zvukovodu na výchylku tˇrmínku, tedy na výchylku na vstupu vnitˇrního ucha. Z tohoto faktu nˇekteˇrí autoˇri odvozují závˇer, že maximum pˇrenosu 82
80
0
10
60
S
|ξ /p
−1
|ξ /p | [µ m]
40 −2
10
S
E
20
ecE
| [dB re 1 nm/Pa]
10
−3
10
0 −4
−20
10
bez ztrát ztráty lin ztráty log FEM model
bez ztrát ztráty lin ztráty log
−40
3
4
10
2
10
10
f [Hz]
3
10
4
10
f [Hz]
Obr. 2 Vlevo – model pˇrenosové funkce ze vstupu na výchylku oválného okénka z volného pole podle [2] ˇ a [4] pro r˚uznou aproximaci tlumení ve zvukovodu. Vpravo – Cárkovanˇ e: modelovaný pr˚ubˇeh výchylky oválného okénka pˇri akustickém tlaku 90 dB SPL na vstupu zvukovodu podle FE modelu [1]. Další typy cˇ ar: totéž pomocí [4].
zvukovodu se ve vnitˇrním uchu neuplatˇnuje. Ovšem pro potvrzení tohoto závˇeru je zˇrejmˇe nutné sledovat nikoli pouze výchylku na vstupu vnitˇrního ucha, ale pomˇery uvnitˇr hlemýždˇe, o což se pokusíme v dalším odstavci.
Modelování dalších pˇrenosu˚ Vzhledem k tomu, že práce [2] sestavuje model lidského ucha až do kapaliny v hlemýždi pomocí metody elektro-akustické analogie, není problém vyjádˇrit libovolnou veliˇcinu v libovolném místˇe dráhy zvuku. Sama práce [2] uvádí „celkový pˇrenos akustického tlaku“ z volného pole do kapaliny v hlemýždi (viz obr. 4 vpravo nahoˇre), kde je pˇríspˇevek maxima zvukovodu k celkovému pˇrenosu opˇet významný. Pokusíme se tedy vyjádˇrit základní veliˇciny na vstupu vnitˇrního ucha i uvnitˇr hlemýždˇe – ˆ tedy FS , vˆS a pˆC , w ˆc – z popisu soustavy na obr. 1 pomocí kaskádních matic. Vstupní akustický tlak oznaˇcíme obecnˇe jako pˆ1 , abychom odvozený postup mohli použít pro pˇrenos z volného pole (ˆ pecE ) i pro pˇrenos ze vstupu zvukovodu (ˆ pE ). Z definice kaskádní matice (viz [4]) pro pˇrenos akustického tlaku do hlemýždˇe (na obr. 1 brána C) platí 1 pˆC = 1C , pˆ1 A11
(1)
ˇ len kaskádní matice A1C . Tato matice byla získána (podle definice kaskde A1C 11 je pˇríslušný c kádní matice) násobením dílˇcích matic všech blok˚u vˇcetnˇe bloku hlemýždˇe. Tento pˇrenos je vyjádˇren na obr. 4 nahoˇre. Podobnˇe snadno lze urˇcit pˇrenos akustického tlaku ze vstupu na sílu na tˇrmínku (na obr. 1 brána S) jako 1 FˆS (2) = 1S 0 . pˆ1 A11 83
| [dB re 1]
−70
−80
ecE
−90
|F /p
−100
S
|FS/pE| [dB re 1]
−70
−110
3
−90
−100
−110
4
10
−80
10
10
3
f [Hz]
−90
bez ztrát ztráty lin ztráty log
−110
3
−80
−90
−100
bez ztrát ztráty lin ztráty log
−110
4
10
−70
ecE
−80
S
| [dB re 1]
−60
−70
|v /p
|vS/pE| [dB re 1]
−60
−100
4
10
f [Hz]
3
4
10
10
f [Hz]
10
f [Hz]
Obr. 3 Model pˇrenosu akustického tlaku ze vstupu zvukovodu (vlevo) i z volného pole (vpravo) na oválné okénko. Nahoˇre pr˚ubˇeh síly na tˇrmínku, dole rychlosti. 0
Potˇrebnou matici A1S získáme z matice A1S (souˇcin všech pˇredchozích matic až po matici tˇrmínku AS ) jejím vynásobením maticí reprezentující zatˇežovací impedanci tˇrmínku a hlemýždˇe – podrobnˇeji [4]. Tento pˇrenos je na obrázku 3 nahoˇre. Pomocí dosazení vztah˚u (2) a (1) do prvního ˇrádku matice tˇrmínku AS získáme vztah pro výpoˇcet pˇrenosu akustického tlaku na objemovou rychlost v hlemýždi AS11 1 1 w ˆC . (3) = S 0 − pˆ1 A12 A1S A1C 11 11 Tento pˇrenos je na obr. 4 dole. Poslední ze základních veliˇcin je akustická rychlost na bránˇe S. Potˇrebný pˇrenos získáme dosazením vztah˚u (1) a (3) do druhého ˇrádku matice AS , tedy AS11 AS22 1 AS21 vˆS . (4) = 1C + S 0 − pˆ1 A11 A12 A1S A1C 11 11 Tento pˇrenos je na obrázku 3 dole. Z tohoto vztahu m˚užeme dále urˇcit vztah pro výchylku tˇrmínku (obr. 2) jako vˆS . (5) ξˆS = jω
Diskuze výsledku˚ modelu Obrázky 3 a 4 ukazují pr˚ubˇehy pˇrenosu základních veliˇcin na vstup vnitˇrního ucha (oválné okénko) a dovnitˇr hlemýždˇe. Pˇrenosy byly urˇceny shora popsaným postupem pro zvuk pˇrenášený za vstupu zvukovodu (brána E na obr. 1) i ze zdroje umístˇeného vnˇe zvukovodu. Pro modelování byl použit „pr˚umˇerný“ model stˇredního ucha podle [2], doplnˇený o model vnˇejšího zvukovodu konkrétního tvaru podle [4]. V souladu s [4] byly pˇri modelování zvukovodu uvažovány tˇri typy aproximace tlumení (bez tlumení, lineární a logaritmická aproximace). 84
40
30
| [dB]
30
|p /p
10
ecE
20
10
20
C
C
E
|p /p | [dB]
40
0
−10
3
−10
4
10
0 3
−200
bez ztrát ztráty lin ztráty log
−220
3
−190
−200
−210
bez ztrát ztráty lin ztráty log
−220
4
10
−180
ecE
−190
C
| [dB re 1]
−170
−180
|w /p
|wC/pE| [dB re 1]
10
f [Hz]
−170
−210
4
10
10
f [Hz]
3
4
10
10
f [Hz]
10
f [Hz]
Obr. 4 Model pˇrenosu akustického tlaku ze vstupu zvukovodu (vlevo) i z volného pole (vpravo) do kapaliny v kochlee. Nahoˇre pr˚ubˇeh akustického tlaku, dole objemové rychlosti.
Na obrázku 3, který zobrazuje pomˇery na oválném okénku, je zˇrejmé, že i když se na výchylce tˇrmínku (obr. 2) málo projevuje vliv „zesílení“ zvukovodu, je tento vliv stále pˇrítomný. Tento fakt je zˇrejmý zejména na pr˚ubˇehu síly kmitání tˇrmínku, kde i pro „nejhorší pˇrípad“ (pˇrenos z volného pole a logaritmická aproximace tlumení) maximum vyvolané zvukovodem o cca 2 dB pˇrevyšuje maximum vyvolané stˇredním uchem. To znamená, že zvuky o kmitoˇctech okolo 4 kHz p˚usobí na oválné okénko cca 1,25krát vˇetší silou než zvuky o kmitoˇctech okolo 800 Hz (maximum stˇredního ucha) a o cca 3krát (10dB) vˇetší silou než zvuky o kmitoˇctech okolo 1,5 kHz (lokální minimum). Ovšem pravdˇepodobnˇe tato síla (stejnˇe tak jako výchylka na oválném okénku) nemá pˇrímý vztah k poškození vnitˇrního ucha a tedy ani k chronickému akustickému traumatu. Proto se zabývejme pomˇery uvnitˇr hlemýždˇe. Pomˇery v hlemýždi znázorˇnuje obr. 4. V pˇrípadˇe objemové rychlosti v kapalinˇe hlemýždˇe je pro „nejhorší pˇrípad“ maximum zp˚usobené zvukovodem již pouze o cca 2 dB níže než maximum zp˚usobené stˇredním uchem. Ovšem pro tlak v kapalinˇe hlemýždˇe, který by opravdu mohl být urˇcující pro poškození smyslových bunˇek, pˇrevyšuje maximum vyvolané zvukovodem ostatní maxima o cca 5 dB! („nejhorší pˇrípad“) Toto lze interpetovat tak, že zvuky o kmitoˇctech okolo 4 kHz p˚usobí ve vnitˇrním uchu témˇeˇr 2x vˇetším tlakem než zvuky okolo 1 kHz (další maximum) a témˇeˇr 2,5x (7.5 dB) vˇetším tlakem než zvuky okolo 1.5 kHz (lokální minimum). Samozˇrejmˇe, pˇri interpretaci sestavených model˚u je zapotˇrebí postupovat opatrnˇe. Model podle [2] je zamˇeˇren zejména na modelování stˇredního ucha, a vnitˇrní ucho je modelováno jen jako jeho zátˇež (i když tento model byl ovˇeˇrován mˇeˇrením v hlemýždi pomocí hydrofonu) a byl sestaven zejména na základˇe mˇeˇrení na kadaverózních vzorcích, proto nem˚uže postihovat nˇekteré „aktivní“ mechanizmy v lidském uchu. Dále je tˇreba mít na mysli, že tento model uvažuje pouze „základní“ a „jednorozmˇerné“ chování systému, tedy napˇr. uvažuje pouze zjednodušený (pˇredozadní) pohyb tˇrmínku apod. Ovšem i na základˇe tohoto (nedostateˇcného) modelu lze uˇcinit závˇer, že není možné vylouˇcit vliv „zesílení“ zvukovodu na poškození sluchu. Pro tvorbu pˇresnˇejšího závˇeru by bylo nutné studovat šíˇrení zvuku v hlemýždi až k smyslovým receptor˚um, tedy zahrnout do modelování i model hlemýždˇe.
85
Závˇery Na základˇe model˚u sestavených podle citovaných prací lze uˇcinit tyto závˇery: 1. Pˇri modelování výchylky na vstupu vnitˇrního ucha dochází analytický ([2] a [4]) i numerický [1] model k srovnatelným výsledk˚um (viz obr. 2). 2. Pˇri pr˚uchodu zvuku stˇredním uchem dochází, v souladˇe s [3], k oslabení vlivu „zesílení“ zvukovodu. 3. Pro posouzení tohoto vlivu na receptory vnitˇrního ucha není dostaˇcující sledovat pouze pr˚ubˇeh výchylky na oválném okénku. 4. Podle sestavených model˚u je vliv „zesílení“ zvukovodu i ve vnitˇrním uchu stále významný (viz obr. 4). 5. Pro detailní posouzení vlivu zvukovodu na receptory vnitˇrního ucha by bylo nutné sestavit složitˇejší model zahrnující i modelování vnitˇrního ucha.
Podˇekování ˇ cˇ .102/05/2054 „Kvalitativní aspekty zpracoTato práce je podporována grantem GA CR vání audiovizuální informace v multimediálních systémech“ a výzkumným zám eˇ rem VZ 6840770016.
Literatura [1] GAN, R. Z. – FENG, B. – SUN, Q. Three-Dimensional Finite Element Modeling of Human Ear for Sound Transmission. Annals of Biomedical Engineering., 2004, vol. 32, no. 2, s. 847–859. [2] HUDDE, H. – ENGEL, A. Measuring and Modeling Basic Properties of the Human Middle Ear and Ear Canal. ACUSTICA - acta acustica, 1998, vol. 84, s. 720–738, 894–913, 1091– 1109 [3] MEJZLÍK, J. – PELLANT, A. – CHROBOK, V. Vztah akustiky zevního zvukovodu a chronického akustického traumatu. Pardubice, 2002. Závˇereˇcná zpráva o ˇrešení projektu podˇ reg. cˇ . NK 6179-3. poˇreného Interní grantovou agenturou Ministerstva zdravotnictví CR, [4] RUND, F. Pˇrenos akustického tlaku vnˇejším zvukovodem lidského ucha (aplikace teorie ˇ vlnovod˚u s nekonstantním pr˚urˇezem. Praha: CVUT FEL Praha, 2005. 125 s., 19 s. pˇríloh. Disertaˇcní práce, školitel Prof. Ing. Zd. Škvor, DrSc.
86
MODERNI´ METODY AUTOMATICKE´HO ˇ ECˇI ´ VA ´ NI´ R ROZPOZNA Modern Methods for Automatic Speech Recognition Pavel Sˇtemberk1
Abstrakt Automaticky´m rozpozna´va´nı´m rˇecˇi (ASR) rozumı´me konverzi dane´ promluvy na cˇisty´ text. Modernı´ metody pro ASR jsou zalozˇeny na generova´nı´ ru˚zny´ch mozˇnostı´ posloupnostı´ slov z dane´ho akusticke´ho signa´lu. K tomuto u´cˇelu se pouzˇ´ıvajı´ statisticke´ metody na ba´zi skryty´ch Markovovy´ch modelu˚, ktere´ reprezentujı´ nejmensˇ´ı foneticke´ cˇa´sti (fone´my). Ty pak mohou pomocı´ neˇjake´ rozpozna´vacı´ sı´teˇ reprezentovat prˇedem dane´ mozˇnosti posloupnostı´ slov. Tato rozpozna´vacı´ sı´t’ mu˚zˇe by´t reprezentova´na va´hovy´m stavovy´m automatem (WFSM), cozˇ dı´ky dnesˇnı´m na´stroju˚m pro WFSM znamena´ mozˇnost optimalizace rozpozna´vacı´ sı´teˇ (sdruzˇova´nı´ koncu˚ a zacˇa´tku˚ slov) a tı´m i zvy´sˇenı´ celkove´ rychlosti rozpozna´vacı´ho procesu.
Abstract Modern architectures for ASR are mostly software architectures generating a sequence of word hypotheses from an acoustic signal. The most popular algorithms implemented in these architectures are based on statistical methods - Hidden Markov models (HMMs), which represent elementary probabilistic models of basic linguistic units (e.g., phonemes). This is used to build word representations by using a recognition network. This network can be represented by a Weighted Finite State Machine (FSM), which leads to the possible optimization of recognition network (sharing of origins and ens of given words). This is the main issue for improving whole recognition speed against ASR used in the present.
´ vod U Rozpozna´va´nı´ spojite´ rˇecˇi s pouzˇitı´m HMM je vlastneˇ hleda´nı´ nejlepsˇ´ı mozˇne´ variace vı´ce ”slepeny´ch” HMM modelu˚ prˇedstavujı´cı´ch elementa´rnı´ foneticke´ jednotky (naprˇ. fone´my) dane´ho jazyka. Pravdeˇpodobnost cele´ho HMM je da´na mnozˇinou vstupnı´ch rˇecˇovy´ch vektoru˚ v diskre´tnı´m cˇase [4]. V prˇ´ıpadeˇ rozpozna´va´nı´ rˇecˇi rˇecˇove´ vektory prˇedstavujı´ zparametrizovane´ u´seky rˇecˇove´ho signa´lu [5]. Ing. Pavel Sˇtemberk, Katedra teorie obvodu˚ FEL CˇVUT v Praze, Technicka´ 2,166 27 Praha tel.: +420 2 2435 2820, email: [email protected] 1
87
HMM Zjednodusˇeneˇ rˇecˇeno: HMM je stochasticky´m procesem vykazujı´cı´m pravdeˇpodobnost, zˇe dany´ model emituje vstupnı´ rˇecˇove´ vektory o. HMM samotny´ se skla´da´ ze dvou cˇa´stı´ - stavove´ho automatu s konecˇny´m pocˇtem stavu˚, reprezentujı´cı´ cˇasovou variabilitu ˇrecˇi (zajisˇteˇna neza´vislost na rychlosti promluvy) a konecˇny´m pocˇtem vy´stupnı´ch distribucˇnı´ch funkcı´ s norma´lnı´m rozdeˇlenı´m ze vsˇech emitujı´cı´ch vnitrˇnı´ch stavu˚ reprezentujı´cı´ spektra´lnı´ promeˇnlivost rˇecˇi. Prˇ´ıklad HMM cˇasto pouzˇ´ıvane´ho pro rozpozna´va´nı´ izolovany´ch slov je zobrazen na obr. 1. HMM je definova´n na´sledujı´cı´mi parametry: 0.85
1
0.93
2 0.07
b1( ot )
0.83 0.06
3 0.09
b2( ot )
0.92 0.12
4
0.08
5
0.05
b3( ot )
Obra´zek 1: Prˇ´ıklad levo-prave´ho HMM; matice prˇechodu˚ viz (1)
• π - inicializacˇnı´ vektor; πi je tak pravdeˇpodobnostı´, zˇe HMM je ve stavu i v cˇase t = 0, pro rˇecˇ pouzˇ´ıva´me (1, 0, . . . , 0) • A - matice prˇechodu˚; ai,j je pravdeˇpodobnost prˇechodu ze stavu i do stavu j viz (1) • B - matice vy´stupnı´ch rozdeˇlenı´; bj (o) je pravdeˇpodobnost emise ˇrecˇove´ho vektoru o ve stavu j [4, 5] 0 0.93 0.07 0 0 a1,1 a1,2 a1,3 a1,4 a1,5 0 0.85 0.06 0.09 0 a2,1 a2,2 a2,3 a2,4 a2,5 = a3,1 a3,2 a3,3 a3,4 a3,5 A= (1) 0 0 0.83 0.12 0.05 0 0 a4,1 a4,2 a4,3 a4,4 a4,5 0 0.92 0.08 a5,1 a5,2 a5,3 a5,4 a5,5 0 0 0 0 0 Pokud je dolnı´ troju´helnı´kova´ cˇa´st matice prˇechodu˚ nulova´, HMM model nazy´va´me levo-pravy´ - viz (1), obr. 1. Zatı´mco matice A jednotlivy´ch modelu˚ jsou zna´my jizˇ po natre´nova´nı´ rozpozna´vacˇe, matice B se sestavujı´ teˇsneˇ prˇed rozpozna´vacı´m procesem z parametru˚ distribucˇnı´ch funkcı´ bj (o) aplikovany´ch na rˇecˇove´ vektory [4, 5].
Vy´pocˇet max(P (O, s | M )) Chceme-li spocˇ´ıtat nejvysˇsˇ´ı mozˇnou P (O, s | M ) spolecˇneˇ s posloupnostı´ stavu˚ s = (s1 , s2 , . . . , sN ) rˇecˇove´ho vektoru O = (o1 , o2 , . . . , oT ) pro dany´ model M , je nejefektivneˇjsˇ´ı mozˇny´ zpu˚sob nalezenı´ dane´ cesty v soucˇasne´ dobeˇ Viterbiho algoritmus s logaritmicky´mi 88
pravdeˇpodobnostmi [4]: Definujme logaritmicke´ promeˇnne´ 1≤i≤N π ˜i = log(πi ), ˜bi (ot ) = log[bi (ot )], 1 ≤ i ≤ N, 1 ≤ t ≤ T ; 1 ≤ i, j ≤ N a ˜ij = log(aij ),
(2)
Dalsˇ´ı postup pak: 1. Inicializace:
2. Rekurze:
˜i + bi (o1 ), δ˜1 (i) = π ψ1 (i) = 0
1≤i≤N
˜ ˜ ˜ δt (j) = bj (ot ) + max δt−1 (i) + a ˜ij 1≤i≤N ˜ij , 2 ≤ t ≤ T, 1 ≤ j ≤ N ψt (j) = arg max δ˜t−1 (i) + a
(3)
(4)
1≤i≤N
3. Ukoncˇenı´:
P˜ ∗ = max [δ˜T (i)]
(5)
s∗T = arg max [δ˜T (i)]
(6)
1≤i≤N
1≤i≤N
4. Hleda´nı´ posloupnosti stavu˚ (od konce) s∗t = ψt+1 (s∗t+1 ),
t = T − 1, T − 2, . . . , 1.
(7)
Na´rocˇnost algoritmu je v tomto prˇ´ıpadeˇ cca N 2 T soucˇtu˚. Jedna´ se tak o nejvy´hodneˇjsˇ´ı mozˇnou implementaci algoritmu hleda´nı´ nejlepsˇ´ı posloupnosti stavu˚. Vy´sˇe uvedeny´ algoritmus demonstruje na prˇ´ıkladeˇ obra´zek 8.
WFST a rozpozna´va´nı´ rˇecˇi WFST (Weighted Finite State Transducer) T = (Σ, Ω, Q, E, i, F, λ, ρ)
(8)
je definova´n sadou vstupnı´ch znaku˚ Σ, sadou vy´stupnı´ch znaku˚ Ω, konecˇny´m pocˇtem stavu˚ Q, konecˇny´m pocˇtem prˇechodu˚ E ⊆ Q × (Σ ∪ {}) × (Ω ∪ {}) × K × Q, pocˇa´tecˇnı´m stavem i ∈ Q a mnozˇinou koncovy´ch stavu˚ F ⊆ Q. Prˇechod t = (t− , li (t), lo (t), w(t), t+ ) ∈ E by´va´ reprezentova´n spojnicı´ ze zdrojove´ho stavu t− do cı´love´ho stavu t+ , se vstupnı´m na´veˇsˇtı´m li (t), a vy´stupnı´m na´v. lo (t) a vahou w(t)[2, 1, 3].
89
Rozpozna´vacı´ kaska´da (RC) je WFST, ktery´ mapuje stavy kontextoveˇ za´visly´ch fone´mu˚ na posloupnost slov a soucˇasneˇ uda´va´ jednotlive´ pravdeˇpodobnosti mozˇny´ch sekvencı´ teˇchto stavu˚ (tedy i slov)[1]. RC prˇedstavuje WFST, ktery´ vznikne slozˇenı´m elementa´rnı´ch WFST: H ◦C ◦L◦G ,
(9)
kde • H - HMM FST (WFST) mapujı´cı´ stavy jednotlivy´ch HMM modelu˚ na kontextoveˇ za´visle´ fone´my (trifo´ny) • C - FST kontextove´ za´vislosti mapujı´cı´ kontextoveˇ za´visle´ fone´my (trifo´ny) na kontextoveˇ neza´visle´ • L - WFST slovnı´ku mapujı´cı´ kontextoveˇ neza´visle´ fone´my na slova • G - WFST reprezentujı´cı´ gramatiku (pravdeˇpodobnost sekvencı´ slov)
dáma:dáma/0.5 0
<sil>:<sil>/1
1
2
na:na/0.5 na:na/0.5
jezdec:jezdec/0.5
pět:pět/0.5 5
e/1
3
čtyři:čtyři/0.5
4
a) č:čtyři/0.5 0
1
t:<eps>/1
6
<sil>:<sil>/0.5 <sil>:<sil>/0.5
8
7
2
i:<eps>/1
3
ř:<eps>/0.5
4
i:<eps>/1
5
r:<eps>/0.5
š:čtyři/0.5 d:dva/1 6
v:<eps>/1
7
a:<eps>/1
8
b) Obra´zek 2: a) prˇ´ıklad G WFST - cˇa´st hry sˇachy; b) prˇ´ıklad L WFST - naznacˇena mozˇnost alternativnı´ vy´slovnosti
Rozvinutı´ RC na doprˇednou sı´t’ Meˇjme naprˇ´ıklad RC pro rozpozna´vacˇ slov ”ano” a ”ne”, ktery´ je na obra´zku 5 a. Slozˇitost vy´sledne´ho automatu se zvy´sˇ´ı T kra´t, kde T je pocˇet rˇecˇovy´ch vektoru˚. Na obra´zku 5 b je pak uveden doprˇedny´ WFST vytvorˇeny´ z dane´ RC [6] - zde je pro jednoduchost uveden pouze prˇ´ıklad pro T = 3. Pro prˇedstavu jednoducha´ promluva ”ano” mu˚zˇe obsahovat 100-500 ˇrecˇovy´ch vektoru˚. Uka´zka hlavnı´ vy´hody aplikace WFST na rozpozna´va´nı´ rˇecˇi je uvedena na obr. 6 a 7. Ve strucˇnosti operace determinizace (obr. 6 a ukazuje RC po determinizaci) znamena´ sdruzˇova´nı´ stejny´ch pocˇa´tku˚ slov a operace minimalizace (obr. 6 b). Vy´sledkem je pak rozvinuty´ doprˇedny´ WFST s nizˇsˇ´ım pocˇtem stavu˚. 90
x/<eps>_x:x/<eps>_<eps>
x/<eps>_x:x/x_x x/<eps>_x:x/<eps>_x
x/<eps>_x:x/x_<eps>
x,<eps> x/<eps>_x:x/y_<eps>
x,x
x/<eps>_y:y/<eps>_x x/<eps>_x:x/y_x x/<eps>_x:x/x_y
<eps>,*
y,x
x/<eps>_y:y/x_x
x/<eps>_x:x/<eps>_y x/<eps>_x:x/y_y x,y x/<eps>_y:y/x_y
x/<eps>_y:y/<eps>_y
x/<eps>_y:y/y_x x/<eps>_y:y/y_y
y,y x/<eps>_y:y/<eps>_<eps>
x/<eps>_y:y/y_<eps>
x/<eps>_y:y/x_<eps>
y,<eps>
a) x#2:<eps>
x#1:<eps> <eps>:x
1
x#1:<eps>
3
x#3:<eps> x#2:<eps>
5
x#3:<eps> 7
<eps> 9
<eps>
0
<eps> <eps>:y y#1:<eps> 2
b)
y#3:<eps>
y#2:<eps> y#1:<eps>
4
y#2:<eps>
y#3:<eps>
8
6
Obra´zek 3: a) prˇ´ıklad C FST pro jednoduchost pouze pro dva fone´my ”x” a ”y”. Funkce: naprˇ. vstupnı´ sekvence ”x y x x” bude mapova´na na kontextoveˇ za´vislou ”x/ y y/x x x/y x x/x ”; b) prˇ´ıklad H uzavrˇeny´ (pro mozˇnou operaci skla´da´nı´) FST (resp. WFST) - dva 3-stavove´ HMM fone´mu˚ ”x” a ”y” bez kontextove´ za´vislosti
Prozatı´mnı´ vy´sledky V soucˇasne´ dobeˇ probı´ha´ vy´voj programu RCT - Recognition Cascade Toolkit, ktery´ umozˇnˇuje postavit jednotlive´ komponenty RC a jejı´ rozvinutı´ v doprˇedny´ WFST. Pro nacˇ´ıta´nı´ jednotlivy´ch HMM modelu˚ jsou pouzˇity elementa´rnı´ knihovny HTK toolkitu [5], ktere´ jsou natre´nova´ny pomocı´ databa´ze SPEECON dostupne´ na katedrˇe teorie obvodu˚. Tato databa´ze obsahuje 700 dospeˇly´ch lidı´ po cca 30ti minutovy´ch promluva´ch. Pouzˇite´ modely jsou prozatı´mneˇ natre´nova´ny na 100 lidech z databa´ze SPEECON. Na´sledujı´cı´ tabulka demonstruje prozatı´mnı´ u´speˇsˇnost implementace rozvı´jenı´ RC v doprˇednou sı´t’(pouzˇito cca 200 nahra´vek od ru˚zny´ch mluvcˇ´ıch). Typ ”ano” - ”ne” 0-9
HTK
FSM
Prˇesnost FSM se zp. prˇechody u modelu˚ ticha
100% 97.62%
99.5% 95.24%
99.5% 96.43%
Samotne´ testova´nı´ rychlosti rozpozna´va´nı´ je zatı´m dı´ky neoptima´lnı´ implementaci algoritmu rovinutı´ RC na doprˇednou sı´t’neproveditelne´.
91
d/<eps>_v#0:0/0
<sil>#0:0/0
<sil>#2:0/0 2
<sil>#1:0/0 <sil>#0:1/0
0
1
d/<eps>_v#1:0/0 d/<eps>_v#1:0/0
4
d/<eps>_v#0:2/1
<sil>#1:0/0
o/<eps>_s#0:0/0
v/d_a#0:0/0
d/<eps>_v#2:0/0 d/<eps>_v#2:0/0
7 o/<eps>_s#1:0/0
v/d_a#0:0/0
10
s/o_m#0:0/0
o/<eps>_s#2:0/0
a/v_<eps>#0:0/0
v/d_a#2:0/0
v/d_a#1:0/0 v/d_a#1:0/0
13
v/d_a#2:0/0
16
a/v_<eps>#0:0/0
19 s/o_m#2:0/0
s/o_m#1:0/0
a/v_<eps>#1:0/0 a/v_<eps>#1:0/0
22
a/v_<eps>#2:0/0 a/v_<eps>#2:0/0
25
28
m/s_<eps>#1:0/0
m/s_<eps>#0:0/0
<sil>#0:1/0
m/s_<eps>#2:0/0
<sil>#1:0/0 <sil>#0:0/0
<sil>#2:0/0 o/<eps>_s#0:3/1
3
<sil>#0:0/0
o/<eps>_s#1:0/0
5
t/<eps>_Ø#0:4/1
t/<eps>_Ø#0:0/0
t/<eps>_Ø#1:0/0 t/<eps>_Ø#1:0/0
6
o/<eps>_s#2:0/0
8
9
s/o_m#0:0/0
11
t/<eps>_Ø#2:0/0 t/<eps>_Ø#2:0/0
12
s/o_m#1:0/0
14
Ø/t_y#0:0/0 Ø/t_y#0:0/0
Ø/t_y#1:0/0 Ø/t_y#1:0/0
15
s/o_m#2:0/0
17
y/Ø_<eps>#0:0/0
21
m/s_<eps>#1:0/0
23 y/Ø_<eps>#0:0/0
Ø/t_y#2:0/0 Ø/t_y#2:0/0
18
m/s_<eps>#0:0/0
20
27
<sil>#0:1/0
29
<sil>#0:1/0
<sil>#2:0/0 32
<sil>#1:0/0
31
<sil>#2:0/0 33
<sil>#0:0/0
y/Ø_<eps>#2:0/0
y/Ø_<eps>#1:0/0 y/Ø_<eps>#1:0/0
24
m/s_<eps>#2:0/0
26
y/Ø_<eps>#2:0/0
30
Obra´zek 4: Prˇ´ıklad RC - tato je schopna rozpoznat slova ”trˇi”, ”dva”, nebo ”osm” a/<eps>_n#1/0
a/<eps>_n#0/0 <sil>#1/0 <sil>#0/0
a)
<sil>#0/0
0
2
<sil>#1/0
1
<sil>#2/0
<sil>#2/0 3
<sil>#0/0
a/<eps>_n#0/3
4
a/<eps>_n#1/0
a/<eps>_n#2/0 a/<eps>_n#2/0
6
n/<eps>_e#0/0
n/<eps>_e#0/4
5
8
n/<eps>_e#1/0 n/<eps>_e#1/0
n/<eps>_e#2/0
7
n/a_o#0/0 n/a_o#0/0
9
n/a_o#2/0
n/a_o#1/0 n/a_o#1/0
10
n/<eps>_e#2/0
n/a_o#2/0
12
e/n_<eps>#0/0 e/n_<eps>#0/0
14
e/n_<eps>#1/0 e/n_<eps>#1/0
11
o/n_<eps>#0/0 o/n_<eps>#0/0
e/n_<eps>#2/0
13
16
0:294/76 0:293/82 0:292/99
64
67
0:294/72
0:292/96
0:1/52
3
0:2/59 0:2/57
0
0:1/0
0:1/48 1
2
0:2/49 4
5
0:337/64
7
58
0:338/88
59
0:337/65 0:337/65
56
0:337/64
0:292/96 62
0:3/76
0:339/90
0:380/82
0:126/94 0:125/95 0:124/65
13
16
0:124/64
22
0:126/101 0:126/101
0:379/97 17
20
11
12
0:125/92
0:125/98 0:125/98
0:126/98 15
0:381/112 23
31
29
0:381/114
0:380/73
0:380/73
19
<sil>#2/0 <sil>#2/0 21/0
<sil>#0/0
51
0:3/173
0:2/144
0:1/93 34
27
0:2/147
40
0:1/95
32
52
0:3/185
0:2/127 0:3/187 0:2/130
41
47
53
0:3/156 0:3/159
0:2/136 0:2/139
0:1/91 0:1/94
0:510/77 0:510/77
0:509/71
0:508/71
0:508/71
35
46
0:1/92
0:510/78
0:509/72
0:509/72 26
<sil>#1/0
0:3/194 0:3/197
45
0:1/90
0:508/80
0:381/114
0:379/118
0:126/98
39
72
0:381/113 0:508/79
0:380/86
50
0:3/176 0:1/97
28
<sil>#0/0 17
0:2/164
0:510/78 25
<sil>#0/0
0:3/218
0:2/166
69
0:509/75
0:379/97 0:380/86
44
0:1/94
0:510/81
0:508/85
0:379/118 0:124/64
0:124/65
19
0:294/76
0:294/75
63
0:381/131
0:379/98
38
0:293/82
0:292/110 60
49
0:3/221
66
0:338/91
0:338/91
71
20
0:2/191
0:2/194
0:292/110 0:293/81
9
8
10
65
57
0:3/78
0:3/63 0:124/63
0:339/99
0:338/88
0:337/64 0:3/66
0:3/60
0:338/94
0:339/99
0:339/90 55
0:2/57 0:2/54
6
61
68
43
0:1/96
0:1/99
<sil>#1/0
o/n_<eps>#2/0 o/n_<eps>#2/0
15
0:294/73
0:293/88
0:293/87 0:339/95
70
37
18 <sil>#0/0
0:3/269 0:2/222 0:1/81
o/n_<eps>#1/0 o/n_<eps>#1/0
e/n_<eps>#2/0
54/0
48
42
36
33 0:509/71 30
24
21
18
14
b)
0:125/92
Obra´zek 5: a) prˇ´ıklad RC rozpozna´vacˇe ”ano-ne”; b) rozvinuty´ doprˇedny´ WFST z prˇedchozı´ RC (zjednodusˇeno na 3 ˇrecˇove´ vektory)
Podeˇkova´nı´ Tato pra´ce je podporova´na granty GACˇR 102/05/0278 ”New Trends in Research and Application of Voice Technology”, GACˇR 102/03/H085 ”Biological and Speech Signals Modeling” a vy´zkumny´m za´meˇrem MSˇM 6840770014 ”Research in the Area of the Prospective Information and Navigation Technologies”.
Reference [1] Fernando, C., Pereira, N., Riley, M. Speech recognition by composition of weighted finite automata. MIT Press , Cambridge, Massachusetts, 1997. [2] Mohri, M. Finite-state transducers in language and speech processing. Association for Computational Linguistic, 23:2, 1997. [3] Mohri, M., Fernando, C., Pereira, N. Weighted finite state transducers in speech recognition. Computer Speech and Language, 1:69–88, 2002. [4] Rabiner, L., Juang, B., H. Fundamentals Of Speech Recognition. Englewood Cliffs, N.J., PTR Prentice Hall, c1993. 507 p. TK7895.S65R33, 1993.
92
<sil>#0/0
<sil>#2/0 2
<sil>#1/0
a)
<sil>#0/0
0
1
d/<eps>_v#0/3
4
d/<eps>_v#1/0 d/<eps>_v#1/0
6
d/<eps>_v#2/0 d/<eps>_v#2/0
8
10
v/d_a#2/0
v/d_a#1/0
v/d_a#0/0 v/d_a#0/0
v/d_a#1/0
v/d_a#2/0
12
14
a/v_<eps>#1/0
16
a/v_<eps>#2/0
19
<sil>#0/0
22
<sil>#1/0 c/a_e#0/0
a/v_c#2/0
a/v_c#1/0
a/v_c#0/0 a/v_c#0/0
a/v_<eps>#2/0
a/v_<eps>#1/0
a/v_<eps>#0/0
a/v_<eps>#0/0 d/<eps>_v#0/0 <sil>#1/0
c/a_e#1/0
c/a_e#2/0
e/c_t#0/0
e/c_t#1/0
t/e_<eps>#0/0
e/c_t#2/0
t/e_<eps>#1/0
t/e_<eps>#2/0
<sil>#2/0
<sil>#0/0 <sil>#1/0
a/v_c#1/0
17
a/v_c#2/0
20
c/a_e#0/1
23
26
c/a_e#1/0
29
c/a_e#2/0
32
e/c_t#0/0
e/c_t#1/0
34
36
e/c_t#2/0
38
t/e_<eps>#0/0
t/e_<eps>#1/0
40
42
t/e_<eps>#2/0
<sil>#0/0
44
25
<sil>#0/0
28
<sil>#2/0 31/0
<sil>#0/0
<sil>#2/0 t/<eps>_Ø#0/5
3
<sil>#0/0
t/<eps>_Ø#0/0 5
t/<eps>_Ø#1/0 t/<eps>_Ø#1/0
7
t/<eps>_Ø#2/0 t/<eps>_Ø#2/0
Ø/t_y#0/0 Ø/t_y#0/0
9
11
Ø/t_y#1/0 Ø/t_y#1/0
Ø/t_y#2/0 Ø/t_y#2/0
13
15
y/Ø_c#0/0 y/Ø_c#0/0
y/Ø_c#2/0
y/Ø_c#1/0 y/Ø_c#1/0
18
a/v_<eps>#0/0
y/Ø_c#2/0
21
c/y_e#0/0 c/y_e#0/0
24
27
c/y_e#1/0 c/y_e#1/0
30
c/y_e#2/0 c/y_e#2/0
33
e/c_t#0/0 e/c_t#0/0
e/c_t#1/0 e/c_t#1/0
35
37
e/c_t#2/0 e/c_t#2/0
39
t/e_<eps>#1/0
t/e_<eps>#0/0 t/e_<eps>#0/0
t/e_<eps>#1/0
41
43
t/e_<eps>#2/0 t/e_<eps>#2/0
45
a/v_<eps>#2/0
a/v_<eps>#1/0
<sil>#1/0 <sil>#2/0
<sil>#0/0
<sil>#2/0 2
<sil>#1/0
b)
<sil>#0/0
0
1
4
d/<eps>_v#1/0
6
d/<eps>_v#2/0
v/d_a#0/0 v/d_a#0/0
7
8
v/d_a#1/0 v/d_a#1/0
9
v/d_a#2/0 v/d_a#2/0
a/v_<eps>#1/0
11
a/v_<eps>#0/0
d/<eps>_v#0/0
d/<eps>_v#2/0
d/<eps>_v#1/0
d/<eps>_v#0/0 <sil>#1/0
a/v_c#0/0 a/v_c#0/1
10
13
a/v_<eps>#2/0
18
a/v_c#2/0
19
c/a_e#0/0 c/a_e#0/0
20
c/a_e#2/0
c/a_e#1/0 c/a_e#1/0
21
c/a_e#2/0
22
3
t/<eps>_Ø#0/2
t/<eps>_Ø#1/0
t/<eps>_Ø#0/0 5
t/<eps>_Ø#1/0
29
t/<eps>_Ø#2/0 t/<eps>_Ø#2/0
30
Ø/t_y#1/0
Ø/t_y#0/0 Ø/t_y#0/0
31
Ø/t_y#1/0
32
Ø/t_y#2/0 Ø/t_y#2/0
33
y/Ø_c#0/0 y/Ø_c#0/0
y/Ø_c#1/0 y/Ø_c#1/0
34
35
y/Ø_c#2/0 y/Ø_c#2/0
36
c/y_e#0/0 c/y_e#0/0
37
c/y_e#1/0 c/y_e#1/0
38
23
e/c_t#1/0
24
<sil>#1/0 t/e_<eps>#0/0
e/c_t#2/0
e/c_t#1/0
e/c_t#0/0 e/c_t#0/0 e/c_t#0/0
<sil>#2/0
<sil>#0/0
<sil>#0/0
<sil>#0/0
14 a/v_c#2/0
a/v_c#1/0 a/v_c#1/0
12
e/c_t#2/0
25
t/e_<eps>#0/0
t/e_<eps>#1/0 t/e_<eps>#1/0
26
27
t/e_<eps>#2/0 <sil>#0/0 t/e_<eps>#2/0
15
16
<sil>#2/0 17/3
<sil>#0/0
28
c/y_e#2/0 c/y_e#2/0
39
Obra´zek 6: a) determinovana´ RC rozpozna´vacˇe ”dva, dvacet, trˇicet”; b) RC z obr. a po aplikaci FSM operace minimalizace 6
0:1531/63
0:2/108
0:1/57 0:2/106
5 0:1/58
0:2/74
0:2/72
0:3/139
0:1/52
0:2/59
9
0:1/0
0:1/48 1
2
0:2/49 7
0:2/57
0:2/57 0:2/54 0:3/60
0:1531/62
0:3/78
0:1531/63 8
13
190
191
15
0:1532/64
0:3/66
0:3/76
0:3/63 0:925/62
0:1531/63
192
0:1532/69 0:1532/69
201
200
17
0:1532/62
206
20
0:926/72
0:2608/77
0:1533/66
0:2608/71 0:2608/72
0:2609/99
217
0:2610/89
219
224
0:2610/93
0:2610/86
223
0:2383/86
225
0:2383/94 0:2383/94
0:2383/93
0:2610/90
0:2610/87
0:2609/99
230
0:2384/80
235
0:2385/101
0:2384/81 229
0:2383/86
210
216
0:2609/86
0:2610/83
222
0:2383/81
228
0:2383/81
0:2610/84
0:2384/80
0:2384/80
234
0:2384/80
0:2385/102
0:2608/76
0:925/70
203
208
22
0:926/75
26
0:927/71
31
0:926/77
0:2384/82 0:2384/83
236
0:2385/90
0:2385/99
240
0:2385/102
241
0:2608/70 0:925/63
209
0:2609/77
0:925/63
0:2609/86 215
214
23
0:2610/79
0:925/70 0:926/76
27
0:926/71
0:927/75
0:927/70
0:927/76
0:927/71
32
0:1930/70
0:926/78 28
0:2610/75
221
0:2610/76
220
24
33
0:1930/62
29
0:927/75
0:927/76
0:2383/81
227
0:2384/82
233
0:2384/83
0:2383/81
0:2383/78
0:926/71 0:926/73
30
0:2385/98
239
0:2385/98
0:859/90
0:859/87 0:859/86
0:2384/88
0:927/76
232
36
0:2385/97
245
37
38
0:1931/69
34
35
0:1930/64
39
0:1930/72
41
0:859/87
248
42
47
40
0:1931/75
46
0:1932/68
0:1931/80
0:524/67
0:1931/81
0:523/64
0:523/64
48
121
250
251
0:524/67
0:1932/77 53
120 0:1932/73
45
0:523/66 119
0:1932/68
118
0:523/76
52
0:524/73
0:523/68 122
0:524/69 127
123
0:524/68
128
0:523/68
54
0:861/105
257
0:861/99
129
0:525/76
0:525/83
132
0:524/69
258
135
0:1312/87
0:515/82
249 0:860/101
254
0:860/102
255
0:861/107
259
0:861/108 0:1312/86
0:861/116
260
0:679/84 0:679/84
140
133
138
0:679/87
139
137
0:1312/90
0:680/98
0:1312/84 144
0:680/101
143
155
0:1312/87
154
0:681/99
130
136
0:680/95
142
0:681/106 0:514/68
56
0:514/65 0:515/73
57
0:514/64 0:515/69
58
0:514/64 0:515/67
59
0:514/68 0:515/68
149
148
0:515/74 0:516/76
62
0:515/69 0:516/73
63
0:515/67 0:516/73
0:515/69 64
146
0:516/73 0:1/93
68
0:516/73
157
0:681/116
0:1/95
0:1/92 0:2/147
65
0:681/107
152
0:1313/78
0:681/108
0:1313/79
0:2/127
0:1314/90
169
151
0:1313/76 162
0:681/102
0:1314/95
168
0:1314/95
0:1313/77
0:1654/100
174
0:1654/99
89
180
0:1314/89
167
0:1654/103
173
0:1654/103
0:1314/89
0:1655/93
179
181
0:1656/88
0:1656/92
0:1/102
0:1314/84
166
0:1654/97
172
0:1655/99
178
0:1656/86
0:1/98
0:1/93
184
83
0:1/103
71
0:1/98
72
0:1/98
77
0:2/136
0:1/89
0:1/86
0:1/95
0:1/91 78
79
76
0:2/145
90
81
0:2/122 92
93
0:3/156
0:3/172 0:3/169
82
84
95
0:1/77
0:1/63 85
96
97
86
0:1/61
99
98
0:3/88
0:2/65 0:2/62
101
102
0:3/66 0:3/64
0:3/67 0:3/64
0:3/91
117/0
116
115
0:3/123 0:3/120
0:3/168 0:3/165
100
87
0:2/87 0:2/85
0:2/117 0:2/114
0:2/148 0:2/146
0:2/170
0:2/167
0:2/162
0:2/159
0:2/161
189
0:1/67 0:1/58
187
0:1/108
0:2/159
0:3/182
0:3/180
0:3/171
0:3/168
94
0:3/203
0:3/200 91
0:3/159
0:2/135 0:2/133
0:2/124
0:2/120
0:2/139
80
0:1656/65 0:1656/65
188
0:1/97 0:1/74
185
183
0:1656/71
0:1656/71
0:1656/92
0:1655/94
0:1655/74 0:1655/75
182
0:1656/84 0:1656/84
186
177
0:1655/91
0:1655/92
0:516/69
0:2/134
0:3/176
0:1655/98
0:1655/100
0:1654/85 0:1654/84
176
0:1655/97
0:1656/88
0:1313/79
0:1/92 66
0:2/117 75
175
171
0:1654/98
0:1654/98
0:1654/105
0:1314/90
0:1314/80 0:1314/80
170
0:1313/75
0:516/69
70
0:2/136
88
0:1314/89
165
0:1314/89
0:1654/105
0:1313/80
0:1/94
0:1/91 0:2/130
0:1313/73
163
0:516/70
0:516/70
74
164
0:515/71
0:1/95
73
0:1313/72
0:1312/86
156
0:1313/74
0:1313/75 153
0:1/105 60
0:516/73
0:516/73 69
159
0:1312/87
0:2/143 67
0:1312/83 0:1312/83
147
0:681/116
161
0:681/105
0:515/71
61
0:1312/83
0:1655/101 150
0:681/105 0:679/84 0:514/65
158
0:1312/90
0:681/99
124 0:525/84
0:1312/87
0:1312/84
0:680/100
0:679/86
0:680/102
145
0:681/102
0:680/102
261
0:1312/87
0:680/101
0:680/101
0:680/102
0:679/90
0:680/103
0:525/82
141
0:1312/87
0:1312/84
0:861/116
0:679/87
0:1312/90 134
160 0:514/76
0:861/102
0:679/86
0:679/91 0:679/90
0:524/74
55
0:860/102 0:861/102
0:525/77
0:680/99
0:525/83
131
0:514/76
0:524/71
0:679/89 126
125
0:524/71
0:525/81
0:514/64 0:525/82
0:525/82 50
253
0:861/105
0:525/77
51 0:514/65
0:1932/70
0:860/99 0:861/99
0:861/106
0:524/69
0:524/82
0:1932/68
252
0:525/78
0:1932/72
0:1931/76
0:1932/67
0:514/84
0:860/95
0:523/64
0:1932/69 0:523/83
244
0:859/86 0:860/101
0:860/102 0:860/103
256
0:1931/77 0:1931/78
44
49
0:859/84
246
0:1932/76
0:523/75
0:1932/83
238
0:1931/68
0:1931/75
0:1931/76
0:859/84
0:523/64
0:1930/72
0:1930/64
0:1931/69
43
243
0:859/84
247
0:860/100
0:1930/75
0:927/78
0:927/70 0:927/71
0:1930/69
0:1930/69
0:2385/90
0:859/91
0:860/101 226
0:523/65 0:1930/62
242
0:859/90
0:860/98
0:2609/86
0:926/69
237
0:2385/99
0:859/89
0:2608/70
21
231
0:2384/80
0:2385/102 0:2609/85
0:1930/75 0:926/72
0:2609/97 0:2609/97
218
202
0:926/71
25
213
0:925/70
0:1533/66
0:925/63
205
0:2608/76
0:1533/59
197
0:1533/59 0:925/63
0:2609/99 0:2609/100
0:2383/93
0:1533/65 204
0:1532/62 0:3/77
0:2608/80 0:2608/80
212
0:1533/65 0:925/70
0:1533/59
0:2608/78 0:2608/78
211 198
207
0:1533/74
0:1533/65 0:1533/65
199
0:1533/74
0:2610/94 0:1532/69
0:1532/65 0:3/133
196
0:925/64
0:925/64
195
0:1531/72
16
0:1532/63
14
19
0:1532/68
18
193
0:1532/66 0:1531/62
0
0:1531/70
0:3/79
0:1531/62
3
0:1531/71 194
0:1532/61 10
0:2/70
0:1/55
0:1531/64
0:3/136 0:1531/69
4
12
0:3/142 11
0:2/71
114
113
0:3/207 0:3/205
112
0:3/211 0:3/208
111
0:3/213 0:3/210
110
109
108
107
106
105
0:3/187 0:3/185
104
103
Obra´zek 7: Rozvinuty´ doprˇedny´ WFST z prˇedchozı´ RC (zjednodusˇeno na 6 ˇrecˇovy´ch vektoru˚)
[5] Young, S. The HTK Book (for HTK Version 3.2.1). Microsoft Corporation, Cambridge University Engineering Department, 3.2 edition, 2002. [6] Sˇtemberk, P. Speech recognition based on fsm and htk toolkits. Prˇ´ıspeˇvek ve sbornı´ku, Digital Technologies 2004, EDIS-Zˇilina University publishers, Zˇilina, ISBN 80-8070-3345., 1:55–60, 2004.
93
94
0.93
0.06
0.12
0
1
2
3
~ (1) =b ( ) G1 1 o1 \1 (1)=0
o1
~ (1) =b (o )+log(0.85)+ ~ (1) G1 G2 1 2 \2 (1)=1
~ (2) =b ( o )+log(0.06)+ ~ (1) G1 G2 2 2 \2 (2)=1
o2
~ (1) =b ( o )+log(0.85)+ ~ (1) G3 G2 1 3 \3 (1)=1
~ (2) =b ( o )+log(0.06)+ ~ (1) G2 G3 2 3 \3 (2)=1
~ (3) =b ( o )+log(0.12)+ ~ (2) G2 G3 3 3 \3 (3)=2
o3
~ (1) =b ( o )+log(0.85)+ ~ (1) G4 G3 1 4 \4 (1)=1
~ (2) =b ( o )+log(0.06)+ ~ (1) G4 G3 2 4 \4 (2)=1
~ (3) =b ( o )+log(0.12)+ ~ (2) G4 G3 3 4 \4 (3)=2
o4
~ (2) =b ( o )+log(0.83)+ ~ (2) G5 G4 2 5 \5 (2)=2
~ (3) =b ( o )+log(0.12)+ ~ (2) G5 G4 3 5 \5 (3) =2
o5
~ (3) =b ( o )+log(0.92)+ ~ (3) G6 G5 3 6 \6 (3) =3
o6
Obra´zek 8: Demonstrace Viterbiho algoritmu - prˇ´ıklad pro 3-stavovy´ HMM a 6 ˇrecˇovy´ch vektoru˚. Sˇipky ukazujı´ na stav i prˇedchozı´ho vektoru o s nejveˇtsˇ´ı cˇa´stecˇnou pravdeˇpodobnostı´ (4)
0.85
0.83
0.92
0.08
4
ˇ JAKO DIGITÁLNÍ ˇ C OPTOAKUSTICKÝ MENI SLUCHÁTKO Optoacoustic Digital Earphone Kamil Ptáˇcek∗
Abstrakt I pˇres mohutný nástup digitální zvukové techniky stále z˚ustávají v audio rˇetˇezci dva analogové cˇ lánky. Jsou to akusto-elektrický a elektro-akustický mˇeniˇc. Pˇresto, že je problém digitalizace tˇechto prvk˚u již zkoumán, nepodaˇrilo se zatím vytvoˇrit prakticky použitelný systém. Tento cˇ lánek se zamýšlí nad využitím nekonvenˇcního druhu elektro-akustické pˇremˇeny signálu. Jedná se o optoakustický mˇeniˇc s nepˇrímým vyzaˇrováním použitý jako miniaturního sluchátko s pˇrímou D/A pˇremˇenou.
Abstract Despite massive usage of digital technology in audio world, some parts of audio chain still remain in analog form. They are electro-acoustic and acusto-electric transducers. Although the research towards their digital substitution is in progress, there is still no useful system. In this paper the application of optoacoustic transducer as digital earphone is disscused.
Úvod Myšlenka elektro-akustického mˇeniˇce s pˇrímou D/A pˇremˇenou (digitální sluchátko) byla p˚uvodnˇe pˇredstavena J. L. Flanaganem [1] na zaˇcátku 80. let. Takovým mˇeniˇcem lze nahradit poslední cˇ ást audio ˇretˇezce (D/A pˇrevodník-zesilovaˇc-reproduktor). Na vstupu mˇeniˇce je digitální elektrický signál a na výstupu analogový akustický signál. D/A pˇrevod je zde realizován souˇctem váhovaných impuls˚u jejichž velikost je úm eˇ rná váze odpovídajících bit˚u daného kódového slova. Impulsy mohou být s cˇ ítány pˇrímo na akustické stranˇe (jako souˇcet váhovaných akustických tlak˚u) nebo v magnetickém obvodu elektrodynamického m eˇ niˇce (více cívek s váhovaným poˇctem vinutí), atd. Hlavní výhody budoucích systém˚u by m eˇ ly být vyšší úˇcinnost, citlivost a nižší celkové náklady. Nejobvyklejším pˇrístupem ke konstrukci reproduktoru s pˇrímou D/A pˇremˇenou je použití mˇeniˇcu˚ s váhovanými plochami membrán nebo ješt eˇ cˇ astˇeji 2n stejných mˇeniˇcu˚ pro n-tý bit. Takové systémy bývají obvykle pˇrímo vyzaˇrující a rozmˇerné. To vede na problémy s fázovými posuvy signál˚u které pˇricházejí od jednotlivých mˇeniˇcu˚ . Dále jsou zde problémy se setrvaˇcností mechanických cˇ ástí konvenˇcních mˇeniˇcu˚ . Jiným ˇrešením je použití nestandardního zp˚usobu elektro-akustické pˇremˇeny. Kapilára
11111111 00000000 0000000000 1111111111 00000000 11111111 0000000000 1111111111 00000000 11111111 0000000000 1111111111 000000000 111111111 00000000 11111111 0000000000 1111111111 000000000 111111111 00000000 11111111 0000000000 0000000001111111111 111111111
Svˇetlovod
Absorpˇcní buˇnka
Vlnovod
Obr. 1 Konstrukce optoakustického mˇeniˇce
∗
ˇ Ing. Kamil Ptáˇcek, Katedra radioelektroniky, FEL CVUT Praha, Technická 2, 166 27, Praha 6 tel. 02/2435 2111, e-mail: [email protected]
95
Optoakustický mˇeniˇc Jako vhodný systém, který nemá pohyblivé sou cˇ ásti a je z principu nepˇrímo vyzaˇrující se jeví optoakustický mˇeniˇc. Myšlenka optoakustického mˇeniˇce byla p˚uvodnˇe pˇredstavena Alexandrem Grahamem Bellem v roce 1881. I pˇres stáˇrí myšlenky se jedná o relativnˇe novou technologii, co se akustických mˇeniˇcu˚ týká, protože první dotažené experimenty s optoakustickými m eˇ niˇci spadají do roku 1976 [4] [5] [6]. Z2
ZK
wz
pz
Z0
Z1
Z3
Vlnovod
ZV
P1 : P2
Obr. 2 Náhradní schema optoakustického mˇeniˇce
Principiální schéma optoakustického mˇeniˇce je na obrázku 1. Vstupním signálem je intenzitnˇe modulovaný svˇetelný paprsek vedený optickým vláknem do absorp cˇ ní komory. Komora má velmi malý objem a je vyplnˇena absorpˇcním plynným nebo pevným médiem. Zvuk vznikající v komoˇre díky optoakustickému jevu vystupuje malým otvorem na který navazuje kapilára a akustický vlnovod. Na obrázku 2 je náhradní obvod pro optoakustický m eˇ niˇc s kapilárou a vlnovodem. Zdrojem signálu je zdroj objemové rychlosti w Z s vnitˇrní impedancí Z0 , což je impedance objemu absorpˇcní buˇnky (akustická poddajnost). Navazující impedance Z K je impedance kapiláry která se skládá z akustického odporu a hmotnosti. Z0 =
κp0 jωVc
ZK =
8µl 4ρ0 l + jω πR2 3πR2
(1)
kde ω je úhlový kmitoˇcet vstupního signálu, V c objem absorpˇcní buˇnky, µ viskozita prostˇredí (vzduch µ = 1, 84 · 10−5 N · s · m−2 ), l délka kapiláry a R polomˇer kapiláry. Kuželový divergentní vlnovod lze nahradit pomocí π-ˇclánku s transformátorem kde: Z1 =
S1 ρ0 c0 ka0 cotg( kl2 ) cotg kl2 − ka0
Z3 =
S1 ρ0 c0 kb0 cotg( kl2 ) cotg kl2 + kb0
Z2 = S1 ρ0 c0 jsin(kl)
(2)
P1 : P2 = a0 : b0
(3)
k je vlnové cˇ íslo, l délka vlnovodu, S1 pr˚urˇez vlnovodu ve vzdálenosti a0 od špiˇcky kužele a b0 vzdálenost konce vlnovodu od špiˇcky kužele. Protože pˇredpokládáme použití sluchátka pˇri zastrˇcení do zvukovodu, bude impedance ZU závislá na velikosti uzavˇreného objemu mezi bubínkem ucha a sluchátkem. Pro zdroj objemové rychlosti platí: wz (ω) = (p0 (κ − 1)/κ)GA GM Gω Pω
(4)
kde GM je materiálová konstanta popisující termodynamické vlastnosti absorp cˇ ního média, Gω disperzní funkce závisející na disipaci v objemu bu nˇ ky, p0 barometrický tlak, κ pomˇer cp /cv pro vzduch, GA koeficient úˇcinnosti vstupní svˇetelné energie a Pω optický výkon dodaný do bu nˇ ky. 96
A
A-A
R1,3
∅0,8
R1
00000000000 11111111111 00000000000 11111111111 11111111111 00000000000 00000000000 11111111111 00000000000 11111111111 00000000000 1111111111111111111111111 0000000000000000000000000 000000 11111111111 111111 00000000000 11111111111 000000 111111 11111111111 000000 00000000000 111111 11111111111 00000000000 000000 111111 00000000000 11111111111 3 000000 111111 R 00000000000 11111111111 000000 111111 10A00000000000 000000 111111 0 1 00 11111111111 11 000000 111111 5 00 11 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 2 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 00000000000000000000000 11111111111111111111111 12
Obr. 3 Konstrukce experimentálního mˇeniˇce
Pro mˇeniˇc s pˇrímou D/A konverzí potˇrebujeme více r˚uzných vstup˚u. Protože cˇ initele GA , GM a Gω jsou závislé pouze na rozmˇerech buˇnky a parametrech absorpˇcního média, m˚užeme psát: wz (ω) = (p0 (κ − 1)/κ)GA GM Gω Pωn (5) n
To znamená, že m˚užeme bez problém˚u použít optoakustický systém jako m eˇ niˇc s pˇrímou D/A konverzí, kde je souˇcet váhovaných hodnot provádˇen pomocí nˇekolika váhovaných svˇetelných paprsk˚u. Ty je možno váhovat na elektrické stranˇe nebo i pomocí clon.
Konstrukce mˇeniˇce Na obrázku 3 je nákres experimentálního vzorku který bude sloužit k základním pokus˚um. Skládá se ze dvou cˇ ástí. Delší díl obsahuje absorpˇcní komoru o objemu cca 10cm3 a kapiláru. Komora je z jedné strany otevˇrená, aby bylo možné použít pro poˇcáteˇcní experimenty pˇrímé buzení LED diodou. Druhý díl slouží k uzavˇrení komory a má otvory pro prostrˇcení svˇetlovod˚u. Na obrázku 4 jsou vyobrazeny hotové experimentální vzorky. Pro ovˇeˇrení byly provedeny nˇekteré výpoˇcty. Na obrázku 5 je zobrazen vypoˇcítaný pˇrenos objemové rychlosti experimentálním vzorkem. Je vidˇet, že je shora znaˇcnˇe kmitoˇctovˇe omezen, což není vhodné pro práci s
Obr. 4 Experimentální vzorky
97
20
10
−→ Pw [dB]
0
-10
-20
-30
-40
1
10
2
10
3
10 −→ f [Hz]
4
10
5
10
Obr. 5 Vypoˇcítaný pˇrenos objemové rychlosti u vyrobeného vzorku
obdélníkovým signálem. Je zˇrejmé, že bude tˇreba konstrukci ještˇe upravit.
Závˇer Byly vytvoˇreny experimentální optoakustické mˇeniˇce se kterými budou provedeny pokusy s pˇrenosem obdélníkového signálu. Z vypo cˇ ítaných vlastností vyplynula nutnost úprav akustických obvod˚u navazujících na vlastní mˇeniˇc. I pˇres nˇekteré nevýhody optoakustického sytému jako je napˇr. nízká úˇcinnost je možné tento princip použít pro pˇrímou D/A pˇremˇenu. Optoakustický systém nemá žádné pohyblivé mechanické souˇcásti a je nepˇrímo vyzaˇrující, což eliminuje problémy s fázovými posuvy. Bohužel hlavnˇe díky malé úˇcinnosti se oblast použití zužuje na miniaturní sluchátka.
Podˇekování ˇ 102/03/H086 a výzkumným zámˇerem MSM Tento výzkum je podporován grantem GACR 6840770014.
Literatura [1] Flanagan, J.L.: Direct Digital-to-Analog Conversion of Acoustic Signals, The Bell Systems Technical Journal, Vol. 59, No.9, 1980 [2] Furihata, K., Hayama, A., Asano, D. K., Yanagisawa, T.: Acoustic characteristics of an electrodynamic planar digital loudspeaker, J. Acoust. Soc. Am.: 114, July 2003. [3] Huang, Y., Busbridge, S.C., Gill, D.S.: Distortion and Directivity in a Digital Transducar Array Loudspeaker, J. Audio. Eng. Soc.: Vol. 49, No. 5, May 2001 [4] Kleinman, D. A., Nelson, D. F.: The Photophone - an Optical Telephone Reciever, J. Acoust. Soc. Am. 60, str. 1482-1494, July 1976. [5] Kleinman, D. A., Nelson, D. F.: The Photophone - Physical Design, J. Acoust. Soc. Am. 60, str. 240-250, July 1976. 98
[6] Kleinman, D. A., Nelson, D. F.: Photophone performance, J. Acoust. Soc. Am. 60, str. 251255, July 1976. [7] Škvor, Zd.: Akustika a elektroakustika, Praha, Academia 2001, 520 stran.
99
LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON Lombard Effect in CLSD and SPEECON Speech Databases Hynek Bořil
*
Abstrakt Úspěšnost systémů automatického rozpoznávání řeči výrazně klesá v hlučném prostředí. Tento pokles je způsoben nejen samotnou přítomností šumu v analyzovaném řečovém signálu, ale také změnami v produkci řeči, kterými se mluvčí snaží zvýšit srozumitelnost promluvy v reakci na okolní hluk. Tyto změny jsou nazývány Lombardův efekt (LE). Cílem analýzy LE je návrh degradačního modelu popisujícího vztah mezi Lombardovou a neutrální řečí. Pokud je takovýto vztah nalezen, je možno navrhnout parametrizace řečového signálu méně citlivé na vliv LE. V této zprávě je porovnána databáze Czech SPEECON s nově vytvořenou databází Czech Lombard Speech Database. Srovnání je provedeno z hlediska parametrů citlivých na LE – za účelem vyhodnocení použitelnosti zmíněných databází pro analýzu a modelování LE.
Abstract The performance of speech recognition systems decreases rapidly in the presence of environmental noise. The degradation is not only caused by noise corruption of speech, but also by modifications of speech production by speaker in an effort to increase communication efficiency. Such speech production changes are called Lombard effect (LE). Goal of the LE analysis is proposal of a degradation model representing relations between Lombard speech and clean speech. If such a relation is found, features more robust to LE can be proposed. In this paper, speech features sensitive to LE are analysed and compared for Czech SPEECON database and newly established Czech Lombard Speech Database to evaluate their suitability for LE analysis and modeling.
Úvod LE je spojen se změnami v produkci řeči za účelem zvýšení její srozumitelnosti v hlučném prostředí [1]. Z hlediska řečových parametrů se LE projevuje jako nelineární zkreslení závislé na konkrétním mluvčím a typu a úrovni okolního hluku. LE se projevuje především změnami hlasové intenzity, průběhem základního řečového kmitočtu f0 a změnami polohy a šířky fomantových laloků (danými konfiguracemi dutin vokálního traktu) [2]. Základní architektury rozpoznávání řeči s LE mohou být rozděleny do 3 skupin – užití robustní parametrizace řečového signálu, ekvalizace LE a natrénování rozpoznávače na řeč s LE. První dva přístupy předpokládají užití rozpoznávače natrénovaného na řeči bez LE s front-endem zajišťujícím normalizaci řečových parametrů. Třetí přístup je založen na trénování rozpoznávače přímo na řeč s LE. Vzhledem k velké závislosti projevů LE na mluvčím a typu hluku se třetí přístup příliš neosvědčil. Cílem analýz LE je vyjádření vztahů mezi neutrální a Lombardovou řečí [1, 3]. Pokud jsou takové vztahy nalezeny, je možno navrhnout vhodnou řečovou parametrizaci či ekvalizaci řečových parametrů. *
Ing. Hynek Bořil, Katedra teorie obvodů, ČVUT – FEL, Technická 2, 166 27 Praha 6 – Dejvice tel.: +420 22435 2820, e-mail: [email protected]
100
V současné době je k dispozici několik českých řečových databází nahraných částečně či zcela v reálných hlučných prostředích. Přítomnost hluku v nahrávkách však neumožňuje zcela odděleně analyzovat vlil LE a vliv hluku. V řadě nahrávek také mluvčí nereagují odpovídajícím způsobem na okolní hluk a pouze čtou jednotlivé promluvy [4]. V následujícím textu je představena nově vytvořená databáze CLSD [5], její parametry jsou srovnány s databází Czech SPEECON [6].
Struktura a sběr CLSD Databáze je zaměřena na analýzu a modelování LE. V současné době obsahuje promluvy 26 mluvčích, 12 žen a 14 mužů. Všichni mluvčí byli nahráváni jak v neutrálních tak simulovaných hlučných podmínkách. Složení databáze Skladba databáze je obdobná databázi SPEECON, některé velmi specifické položky, především hláskovaná slova, internetové adresy a spontanní promluvy, byly vyřazeny. Databáze sestává z následujících typů promluv: • • • •
Foneticky bohatý materiál – slova a věty. Izolované a vázané číslovky, přirozená čísla. Příkazy – různé aplikační povely. Speciální položky – data, časové údaje apod.
Pro dostatečné pokrytí celého fonetického slovníku českého jazyka je v každém nahrávacím bloku (1 mluvčí, 1 nahrávací podmínky) začleněno 30 foneticky bohatých vět. Aby bylo možno provádět statisticky význačné rozpoznávací testy s malým slovníkem, každý blok obsahuje 470 izolovaných, opakovaných a vázaných číslovek. Pro srovnání – jeden blok SPEECONu obsahuje 40 číslovek. Nahrávací platforma Promluvy byly nahrávány digitálně na pevný disk. V případě nahrávání se simulovanými hlučnými podmínkami slyšel mluvčí odposlech svého hlasu smíchaný s reprodukovaným šumem v uzavřených sluchátkách. Operátor měl do sluchátek puštěný identický hluk smíchaný s odposlechem promluvy mluvčího o intenzitě snížené vzhledem ke zvolené virtuální vzdálenosti od mluvčího – obr. 1.
middle talk close talk noise + speech mon.
H&T RECORDER
SPEAKER
OK – next / BAD - again speech monitor
OPERATOR
Obr 1. Nahrávací konfigurace V případě nesrozumitelnosti operátor vyžadoval opakování promluvy. Tato konfigurace motivuje mluvčího naplnit definici LE – reagovat na okolní hluk za účelem zvýšení srozumitelnosti promluvy.
101
Nahrávací sada sestává ze 2 uzavřených sluchátek AKG K44 a 2 mikrofonů identických se SPEECONem – close-talk Sennheiser ME-104 a hands-free Nokia NB2 – umístěných v odlišných vzdálenostech od úst. Hlukové pozadí Materiál pro nahrávání v simulovaném hlučném prostředí je tvořen 25 vzorky z jedoucího automobilu vybranými z databáze CAR2E [7] a 4 umělými pásmovými šumy (62 – 125, 75 – 300, 220 – 1120, 840 – 2500 Hz). Zvolené typy hluků umožňují pozorování změn produkce řeči při přirozeném hlukovém pozadí a při hlucích zasahujících pásma typického výskytu základního řečového tónu a prvních formantových kmitočtů. Nastavení úrovně odposlechu hluku Pro reprodukovatelné nastavení hlasitosti simulovaného hluku bez potřeby průběžného používání hlukoměru byla měřením na umělé hlavě zjištěna závislost úrovně akustického tlaku SPL (Sound Pressure Level) ve sluchátkách na efektivní hodnotě napětí naprázdno na výstupu zvukové karty VRMS_OL – obr. 2. Pro požadované SPL pak stačí pro referenční šum nastavit příslušnou efektivní hodnotu napětí naprázdno na výstupu zvukové karty. Jednotlivé hluky byly normalizovány podle RMS, čímž byla zajištěna stejná úroveň SPL pro všechny nahrávky v bloku. SPL bylo pro většinu mluvčích voleno 90 dB, virtuální vzdálenost 3 m. 105
Soundcard Output Voltage vs. Noise SPL
100 95
SPL (dB)
90 85 80 75
⎛ VRMS _ OL ⎞ SPL = 20 log ⎜ (dB) −6 ⎟ ⎝ 4.386 ⋅10 ⎠
70 65 60 0
50
100
150
200
250
300
350
400
VRMS_OL (mV)
Obr. 2. Závislost SPL hluku na napětí na výstupu zvukové karty naprázdno
Struktura databáze Czech SPEECON Databáze obsahuje nahrávky promluv v různých reálných prostředích, pro porovnávání parametrů s CLSD byla vybrána prostředí ‘office’ a ‘car’. Obsah databáze byl zmíněn v oddílu o CLSD.
Testy na databázích Pro obě databáze byly testovány parametry citlivé na LE. Bylo analyzováno rozložení základního řečového tónu f0, polohy prvních 4 formantových laloků a jejich šířky. Aby bylo
102
možno posoudit vliv posuvu parametrů při LE na úspěšnost rozpoznávání, byly provedeny rozpoznávací testy na slovníku tvořeném číslovkami. Pro detekci formantů a f0 byl použit volně šiřitelný systém WaveSurfer [8]. Rozpoznávač číslovek byl vytvořen v HTK (Hidden Markov Model Toolkit) [9]. Základní řečový tón f0 Analýza f0 byla prováděna pro znělé úseky všech neutrálních a Lombardových promluv. Na obr. 3 a 4 jsou ukázány rozložení f0 pro nahrávky z kanceláře a auta databáze SPEECON a neutrální a Lombardovy nahrávky databáze CLSD. 120000
Fundamental Frequency Distribution
Number of Frames
100000 80000 Office Car
60000 40000 20000 0 70
170
270
370
470
570
Frequency (Hz)
Obr. 3. Rozložení f0 pro nahrávky v prostředí ‘office’ a ‘car’ ve SPEECONu 70000
Fundamental Frequency Distribution
Number of Frames
60000 50000 Neutral LE
40000 30000 20000 10000 0 70
170
270
370
470
570
Frequency (Hz)
Obr. 4. Rozložení f0 pro neutrální a Lombardovy nahrávky v CLSD V obou případech je patrný posuv f0 při promluvách v hlučném prostředí. U CLSD je posuv díky vysoké úrovni hluku a potřebě srozumitelnosti promluv výrazně vyšší, střední hodnota mužského f0 se posunuje výše nežli je typický výskyt ženského f0 neutrální řeči, ženské f0 se pak posouvá až do oblasti typického výskytu prvních formantů.
103
Formanty Abychom mohli analyzovat formanty pro jednotlivé hlásky, je potřeba znát časové polohy těchto hlásek v promluvách a těm pak přiřadit odpovídající hodnoty formantových kmitočtů. Polohy hlásek byly určeny automatickým labelováním monofonním rozpoznávačem natrénovaným na 70 mluvčích SPEECONu. Stavy modelů monofónů obsahují 32 směsí (mixtures), pro parametrizaci bylo použito 12 kepstrálních koeficientů, energetický koeficient, delta a delta-delta koeficienty. Automatické labelování bylo provedeno v obou databázích na promluvách s číslicemi. Pro detekci prvních 4 formantových kmitočtů a šířek odpovídajících formantových laloků byla ve WaveSurferu zvolena metoda založená na LPC 12 řádu. Informace o formantech byly přiřazeny příslušným hláskám. Na obr. 5, 6, 7 a 8 jsou ukázány polohy prvních dvou formantových kmitočtů pro tyto samohlásky /a/, /e/, /i/, /o/ a /u/. 2400
Female Vowel Formants
i
2200
i'
F2 (Hz)
2000
e
1800
Office Car
e'
1600
a' o'
1400
u'
a o
1200
u 1000 300
350
400
450
500 F1 (Hz)
550
600
650
700
Obr. 5. Polohy F1 a F2 pro vybrané samohlásky – SPEECON ženy 2400
Male Vowel Formants 2200 2000 F2 (Hz)
i 1800
i'
Office Car
e'
1600
e
1400
a' o'
u'
1200
u
o
1000 300
350
a
400
450
500 F1 (Hz)
550
600
650
700
Obr. 6. Polohy F1 a F2 pro vybrané samohlásky – SPEECON muži
104
2400
Female Vowel Formants 2200
/i'/
/i/
/e'/
F2 (Hz)
2000
/e/
1800
/a'/
1600
/a/
1400
/o'/
/u'/ /o/
1200
Neutral LE
/u/
1000 300
400
500
600 F1 (Hz)
700
800
900
Obr. 7. Polohy F1 a F2 pro vybrané samohlásky – CLSD ženy 2400
Male Vowel Formants
2200 2000 F2 (Hz)
/i/
/i'/ /e'/
1800
Neutral LE
/e/ 1600 1400
/u/
/o/
1000 300
400
/a'/
/a/
/u'/
1200
500
/o'/
600 F1 (Hz)
700
800
900
Obr. 8. Polohy F1 a F2 pro vybrané samohlásky – CLSD muži Jak je z grafů patrné, k posunu prvních formantových kmitočtů u samohlásek dochází při změně nahrávacího prostředí u obou databází, u CLSD je posuv podstatně výraznější. Zatímco mužské formanty se posouvají do oblastí typických pro formanty ženské, ženské se posouvají do zcela netypických oblastí, což může představovat značné problémy pro rozpoznávač natrénovaný na neutrální řeči, jak bude ukázáno dále. Rozpoznávací testy V závěru byl vyhodnocován vliv LE na úspěšnost rozpoznávání číslovek. Pro tuto úlohu byl použit rozpoznávač zmíněný v předchozím oddílu. Rozpoznávání bylo prováděno na položkách s izolovanýmy, opakovanými a vázanými číslovkami. Výsledky pro obě databáze jsou shrnuty v tab. 1 a 2. V prvním řádku tabulek je uvedeno, pro jaký typ dat byly testy prováděny, M a F značí mužské a ženské promluvy. V druhém řádku je uveden počet testovaných mluvčích, ve třetím počet rozpoznávaných číslovek, ve čtvrtém je WRR (Word Recognition Rate) – úspěšnost rozpoznávání na úrovni slov.
105
Data set Num. of speakers Num. of digits WRR
Office F 22 880 94.55%
Office M 31 1219 95.73%
Car F 28 1101 95.37%
Car M 42 1657 89.50%
LE F 12 5360 57.18%
LE M 14 6303 83.71%
Tab. 1 Výsledky rozpoznávání číslic – SPEECON Data set Num. of speakers Num. of digits WRR
Neutral F 12 4930 92.70%
Neutral M 14 1423 96.20%
Tab. 2 Výsledky rozpoznávání číslic – CLSD V případě SPEECONu nedošlo v případě promluv v autě k výraznému zhoršení rozpoznávacího scóre, nejvyšší propad byl o necelých 6 % u mužských promluv. U ženských promluv nedošlo ke statisticky význačné změně úspěšnosti. U CLSD je pokles úspěšnosti rozpoznávání patrný jak pro mužské – 12,5 % – tak pro ženské – 35,5 % – promluvy. Výraznější zhoršení v případě ženských promluv může být spojeno s posunem formantů jak bylo prezentováno v předchozím oddílu, tj. zatímco mužské formanty se posouvají spíše do oblastí výskytu ženských formantů, ženské se posouvají do oblastí dosti neobvyklých, na něž rozpoznávač neutrální řeči nebyl trénován.
Závěr Byly prezentovány výsledky analýz řečových parametrů citlivých na LE u databází Czech SPEECON a CLSD. Ukázalo se, že přestože v případě SPEECONu dochází u promluv z jedoucího auta k určitému posunu parametrů, nemá to významný vliv na úspěšnost neutrálního rozpoznávače. Navíc u těchto nahrávek lze těžko rozlišit případný negativní vliv šumu v řečovém signálu a LE. U CLSD dochází k výraznému posuvu řečových parametrů, což se projevuje i značným poklesem úspěšnosti rozpoznávání, u mužů došlo ke zhoršení o 12,5 % a u žen o 35,5 %, což potvrzuje, že v CLSD je LE výrazně zastoupen a databáze je tudíž vhodná k analýzám a modelování LE.
Poděkování Teoretická část práce vznikla za podpory grantu GAČR 102/05/0278 „Nové směry ve výzkumu a využití hlasových technologií“, sběr dat byl podpořen grantem GAČR 102/03/H085 „Modelování biologických a řečových signálů“ a výzkumným záměrem MSM 6840770014 „Výzkum perspektivních informačních a komunikačních technologií“.
Literatura [1]
HANSEN, J. H. L. Analysis and Compensation of Speech under Stress and Noise for Environmental Robustness in Speech Recognition. Speech Communications, Special Issue on Speech under Stress, 20(2):151-170, November 1996.
106
[2] [3] [4] [5] [6] [7] [8] [9]
WOMACK, B.D., HANSEN, J. H. L. Classification of Speech under Stress Using Target Driven Features. Speech Communications, Special Issue on Speech under Stress, 20(1-2):131-150, November 1996. CHI, S. M., OH, Y. H. Lombard Effect Compensation and Noise Supression for Noisy Lombard Speech Recognition. Proc. ICSLP '96, 4:2013-2016, Philadelphia, 1996. BOŘIL, H. Recognition of Speech under Lombard Effect. Proc. of the 14th CzechGerman Workshop on Speech Processing, p. 110 – 113, Prague, Czech Republic, 2004. BOŘIL, H., BOŘIL, T., POLLÁK, P. Design of Lombard Speech Database. Proc. Radioelektronika 2005, Brno, Czech Republic, 2005. www.speecon.com POLLÁK, P., VOPIČKA, J., SOVKA, P. Czech Language Database of Car Speech and Environmental Noise. EUROSPEECH-99, 5:2263-6, Budapest, Hungary 1999. SJÖLANDER, K., BESKOW, J. WaveSurfer - an Open Source Speech Tool. Proc. ICSLP 2000, Bejing, China, 2000. YOUNG, S. et al. The HTK Book ver. 2.2. Entropic Ltd 1999.
107
HODNOCENÍ KVALITY ŘEČI POMOCÍ NEINTRUSIVNÍ METODY Single Ended Method for Objective Speech Quality Assessment Pavel Šimek*
Abstrakt Tento příspěvek popisuje jednu z metod ohodnocení kvality řeči v telekomunikačních sítích. Cílem první části je vysvětlit obecné metody pro hodnocení kvality řeči. Druhá hlavní část popisuje neintrusivní metodu pro ohodnocení kvality řečového signálu v telekomunikačních sítích dle doporučení P.563.
Abstract The contribution describes one of methods for evaluation speech quality of telephone networks. The aim of first part is to explain general methods for assessing the speech quality. The second main part describes a Single ended method for objective speech quality assessment in narrow-band telephony applications.
General methods and standards A quality of speech can be measured basically by means of two different way. The first is a non-intrusive method. This method is based on monitoring of proceed communication. The monitor is usually installed in a supervision system of telephone network, where is able to observe many of proceeded communications. A disadvantage of this method is an absence of original source signal. So it could be very difficult detect some specific type of signal distortion. In area of non-intrusive methods was during 2004 approved algorithm according to recommendation ITU-T P.563 which should substitute methods ITU-T P.561 and ITU-T P.562. The second approach is an intrusive method. An en essence of intrusive algorithm is comparison between an original signal X(t) and a degraded signal Y(t) that is the result of passing X(t) through a communications system. The output of this algorithm is a prediction of the perceived quality that would be given to Y(t) by subjects in a subjective listening test. In area of intrusive methods was during 2001 approved algorithm according to recommendation ITU-T P.862.
*
Ing. Pavel Šimek, Katedra telekomunikační techniky, FEL ČVUT v Praze , Technická 2, 16627 Praha 6 e-mail: [email protected]
108
P.563 - Single ended method for objective speech quality assessment The ITU-T P.563 algorithm is usable for predictions of speech quality without a original reference signal. For this reason this method is recommended for live network monitoring, non-intrusive speech quality evaluation and evaluation by using unknown sources of speech at the far-end side of a telephone connection. Methods for speech quality assessment, such as ITU-T Recommendation P.862, require either a reference signal or they predict only quality indexes based on a restricted set of parameters like level, noise in speech pauses and echoes. The P.563 algorithm is the first recommended method for single-ended non-intrusive measurement applications that takes into account the full range of distortions occurring in public switched telephone networks and that is able to calculate the speech quality on a perception based scale MOS-LQO according to Recommendation ITU-T P.800.1. P.563 can be used at any location in the transmission chain. The output score is then comparable to the quality perceived by a human listener, who is listening with a conventional handset at this point. This algorithm is designed for assessing quality of human speech only. It cannot be used for the evaluation of music, noise or other non-speech audio signals. The speech signal to be assessed has to be recorded. The digitized and recorded speech signal has to fulfill the following requirements: •
Sampling frequency: 8000Hz If higher frequencies are used for recording, a separate down-sampling by using a high quality flat low pass filter has to be applied. Lower sampling frequencies are not allowed.
•
Amplitude resolution: 16 bit linear PCM
•
Minimum active speech in file: 3.0 s
•
Maximum signal length: 20.0 s
•
Minimum speech activity ratio: 25 %
•
Maximum speech activity ratio: 75 %
•
Range of active speech level: -36.0 to –16 dBov (dB to overload point) A level adjustment to -26dBov is part of P.563. The recommended level limitation should avoid additional artefacts by low signal to noise ratio or amplitude clipping respectively. The factors for which P.563 had demonstrated acceptable accuracy and recommended application scenarios are environmental noise at the sending side, characteristics of the acoustical interface of the sending terminal, speech input levels to a codec, transmission channel errors, packet loss and packet loss concealment with CELP codecs and transmission systems including echo cancellers and noise reduction systems under single talk conditions and as they will be scored on an ACR scale. Coding technologies for which P.563 had demonstrated acceptable accuracy are Waveform codecs, e.g. G.711; G.726; G.727, CELP and hybrid codecs e.g. G.728, G.729, G.723.1 and other codecs: GSM-FR, GSM-HR, GSM-EFR, GSM-AMR, CDMA-EVRC TDMA-ACELP, TDMA-VSELP, TETRA.
109
The ITU-T P.563 algorithm Signal is first pre-processed. This pre-processing begins with the model of the receiving handset. Then a voice activity detector (VAD) is used to distinguish portions of the signal that contain speech and the speech level is calculated. Following this, a speech level adjustment to -26 dBov is applied. The pre-processed speech signal to be assessed is then investigated by several separate analyses, which detect a set of characterizing signal parameters. This analysis is applied at first to all signals. Based on a restricted set of key parameters an assignment to a main distortion class is made. The key parameters and the assigned distortion class are used for the adjustment of the speech quality model. This provides a perceptual based weighting where several distortions are occurring in one signal but one distortion class is more prominent than the others. The basic block-scheme of P.563 is shown in Figure 1. Pre-Processing IRS receive filtering active speech level adjus tm ent Application of voice activity detection
Calculation of characteristic speech parameters
key parameters
Bas ic Speech Des criptors
Low Static SNR
High Additional Nois es
Low Segm ental SNR
Mutes / Interrutions / Tim e Clippings
Speech Quality Model
MOS-LQO
Male
Fem ale
Un-Natural Voice
'Robotization'
Figure 1. Block scheme of P.563 The P.563 algorithm’s signal parameterisation can be divided into three independent blocks that correspond to the main classes of distortion: -
Vocal Tract Analysis and Unnaturalness of Speech 1. Male voices 2. Female voices 3. Strong ‘Robotization’
-
Analysis of Strong Additional Noise 1. Low static SNR (Background noise floor) 2. Low segmental SNR (Noise that is related to the signal envelope)
-
Interruptions, Mutes and Time Clipping
110
In addition a set of basic speech descriptors like active speech level, speech activity and level variations will be used, mainly for adjusting the pre-processing and the VAD. Some of the signal parameters calculated within the pre-processing stage will be used in these three functional blocks.
Conclusion The P.563 method cannot be applied for replace subjective testing but it can be used to measurements where auditory tests would be too complex, expensive or not applicable at all. The P.563 algorithm also does not provide a complete evaluation of transmission quality. It predict the effects of noise and one-way speech distortion on quality of speech in the same way as it can be checking by an auditory test assessing listening quality on an ACR (Absolute Category Rating) scale. The P.563 algorithm scores the speech signal in that way, as it is presented to a human listener by using a conventional shaped handset and listening with a SPL (Sound Pressure Level) of 79 dB at the ERP (Ear Reference Point). Because P.563 predicts the human quality perception in combination with a common receiving terminal, the degradation produced by a receiving terminal and other equipment in a real monitored connection, which are connected behind the measurement point, can not be taken into account. Because P.563 evaluates listening quality scores, all effects degrading talking quality or conversational quality only can not be taken into account. That means, the effects of delay, loudness loss, talker-echo, side-tone, and other impairments related to the talking quality or two-way interaction only are not reflected in the P.563 scores. That is the reason why it is possible to have high P.563 scores and yet non-optimal quality of the connection overall. It should be highlighted that P.563 is designed for the prediction of speech quality in public switched narrow-band telephone networks. The types and the amount of the distortions, technologies and applications in the validation procedure cover the range of common occurrences in such networks.
References [1] [2] [3]
ITU-T, Recommendation P.563: Single ended method for objective speech quality assessment in narrow-band telephony applications, 05/2004 ITU-T, Recommendation P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, 2001 Holub, J.: Hodnocení hlasových přenosů v telekomunikačních sítích, Sdělovací technika 6/01, s. 3-5
111
NÁSTIN MOŽNOSTÍ VYUŽITÍ MULTIMÉDIÍ VE VÝUCE The outline of possible usage of the multimedia in learning Jiří Dostál, René Szotkowski
*
Abstrakt Příspěvek řeší problematiku možností využití multimédií ve výuce a zabývá se aplikačnímu možnostmi využití informačních a komunikačních technologií.
Abstract The contribution solues the possible usage of the multimedia in the learning and it deals with applicational possibilites in using the informational and communicational technologies.
Úvod Informační a komunikační technologie se staly nedílnou součástí života člověka a nabízí mnoho možností rozvoje lidské individuality, život bez nich si v dnešní společnosti jen málokdo dokáže představit. Na uvedená fakta a skutečnost, že zmiňované technologie se stávají v celé své šíři a rozmanitosti stále častěji nezbytným prostředkem pro řešení řady životních situací, reaguje společnost realizací informační výchovy. Žáci tak získají vědomosti, dovednosti a postoje týkající se mnoha různorodých oblastí informačních a komunikačních technologií, které je v každodenním životě obklopují, popř. které mají na jejich život podstatný, avšak více či méně zjevně dokazatelný vliv. Integrace informačních a komunikačních technologií do obsahu vzdělávání není jedinou cestou jejich implementace do edukačního procesu. Dostaly se snad do všech oblastí lidského konání, tedy i do výuky, a to v podobě materiálních didaktických prostředků, ta se tak stává za dodržení a respektování všeobecně platných didaktických zásad a podmínek efektivnější. Jejich účelné využívání s adekvátní volbou a vhodnou kombinací s ostatními didaktickými prostředky, jelikož nikdy nevstupují do výuky izolovaně, do ní vnáší nové možnosti a působí na její celkovou vyváženost. V souvislosti s aplikací informačních a komunikačních technologií do výuky vystupuje do popředí využívání multimédií jako jednoho z významných a účinných didaktických prostředků současného vzdělávání.
Aplikační možnosti počítačů do výuky Počítač se ve výuce můžeme aplikovat dvěma způsoby, ty se ovšem do určité míry prolínají a nejdou od sebe úplně oddělit. Jsou to (1): 1. Výuka o počítači – obsahuje poznatky o technickém vybavení (hardware), o programovém vybavení (software) a s tím související obsluhou, případně i údržbou hardware a tvorbou software. 2. Výuka s počítači (počítačová výuka) – zahrnuje všechny způsoby využití počítače pro účely výuky jako pomůcky pro učitele a žáka. Takto pojatá výuka může být uplatněna *
PhDr. Jiří Dostál, Mgr. René Szotkowski, KTEIV, PdF, Univerzita Palackého v Olomouci, Žižkovo nám. 5, Olomouc 77140, [email protected], [email protected]
112
ve všech předmětech. U takto vedené výuky není nutná znalost programovacích jazyků u žáků. Je nutná alespoň částečná znalost komunikace s počítačem. Výuku s počítači lze rozdělit na výuku počítačově podporovanou a počítačově řízenou. Naznačené možnosti využití počítače ve výuce lze znázornit pomocí následujícího schématu: POČÍTAČ VE VÝUCE Výuka o počítači
Výuka s počítači Výuka počítačem podporovaná
Výuka počítačem řízená
Na počítač používaný ve výuce je nutné nahlížet tak, že se jedná o interaktivní audiovizuální prostředek s tím rozdílem, že má daleko více možností než klasické pomůcky, což je to dáno velkým množstvím jeho funkcí. V souladu z výše uvedenými souvislostmi má počítač ve výuce mnoho všestranně zaměřených funkcí, mezi ty nejdůležitější lze zařadit: 1. POČÍTAČ JAKO UČEBNÍ POMŮCKA - u nás jedna z nejužívanějších funkcí. Jedná se zejména o využití počítače jako pomůcky při výuce programování, obsluhy počítače, poznávání jednotlivých typů počítačů atd. Tato funkce přispívá ke zvýšení názornosti pomocí modelování, nejrůznějších simulací, grafiky a animace, dále napomáhá k zpřístupnění informací pomocí databanky a prezentace učební látky. 2. POČÍTAČ JAKO PRACOVNÍ NÁSTROJ ŽÁKA – umožňuje jeho činnost při získávání poznatků a dovedností (výuka s počítači), funguje jako dokonalá didaktická technika. 3. POČÍTAČ JAKO PRACOVNÍ NÁSTROJ UČITELE – učiteli slouží počítač jako pracovní nástroj zejména při přípravě a plánování pedagogického procesu (úvazky, evidence studentů atd.) (1), dále se uplatní při řízení výuky a hodnocení výuky. V této souvislosti odborná literatura hovoří o třech základních modelech počítačem podporované výuky, jedná se o počítač ve funkci vyučovacího stroje (automatu) při počítačem podporované výuce, počítač ve funkci demonstračního prostředku jako pomocník učitele a počítač jako vnější aktivní paměť učitele. Pro úplnost zde uvádíme jejich stručný popis (2): 1. Počítač ve funkci vyučovacího stroje (automatu) při počítačem podporované výuce Počítač je v roli učitele, předává poznatky, kontroluje jejich osvojení, snaží se programovou složkou motivovat žáka. 2. Počítač ve funkci demonstračního prostředku jako pomocník učitele Slouží učiteli k demonstracím jinak obtížně znázornitelných jevů, které mohou být modelovány v názornější podobě. Je možné zobrazit nejrůznější varianty řešení v ploše i v prostoru, umožňuje interaktivní rozvíjení obrazu, konstruování a animaci děje. Přitom je ponechán prostor pro komunikaci učitele a žáka. Učitel může prezentaci látky přenést na připojené audiovizuální prostředky (nejčastěji dataprojektor, případně LCD rámeček nebo video). 3. Počítač jako vnější aktivní paměť učitele Tento model posílí (na rozdíl od předchozích modelů) práci učitele s informacemi, umožňuje informace o osvojování učiva a chápání žáka didakticky vhodně využít k řízení prezentované učební látky. Učiteli pomáhá k podrobnější analýze vlastní práce a zkvalitňování jeho působení.
113
V návaznosti na uvedené modely můžeme následně vymezit hlavní oblasti počítačem podporované výuky v tomto pořadí: 1. Prezentace učiva učitelem Prezentace učiva probíhá nejčastěji pomocí jednoho počítače ve spojení s dataprojektorem. Vyučující libovolných předmětů má široké možnosti ve využití této techniky např. k prezentaci učiva pomocí textů, fotografií, filmových a zvukových ukázek, modelování nejrůznějších jevů apod., jde o využívání výhod multimediální výuky. 2. Výuka informatiky a výpočetní techniky Výuka probíhá nejčastěji na počítačové učebně, kde je umístěno dostatečné množství počítačů tak, aby alespoň jeden počítač připadl vždy na dva žáky. V poslední době se setkáváme s e-learningem, který je stále častěji skloňován zejména v kontextu s distančními formami vzdělávání. Počítačem podporovanou výuku (e-výuku) lze chápat především jako formu vzdělávací činnosti, při niž vzdělávající a vzdělávaní vstupují do určitých vztahů za aktivní pomoci počítače jako technického prostředku pro dosažení stanoveného cíle. Počítač se v tomto případě stává prostředníkem pro prezentaci učiva, řízení procesu učení, pořizování zpětné vazby atp. Nejde ovšem o úplné vyloučení lidského faktoru, na pozadí vždy stojí člověka jako tvůrce vzdělávacích obsahů, taktéž řízení e-kurzů, či tvorbu e-learningových prostředí apod. provádí člověk.
Multimédia ve výuce Navzdory tomu, že pojem multimédium je z terminologického hlediska dostatečně významově průzračným, nacházíme rozdíly v definování tohoto pojmu. Důvodem je pravděpodobně různorodost přístupů, které jsou mnohdy specializované dle příslušných oborů. Pro naše potřeby, tedy edukační hlediska, budeme rozumět multimédiem libovolnou informaci charakterizovanou zprostředkováním minimálně dvěma informačními kanály. Informační kanály v tomto případě vycházejí z psychosomatických možností člověka, které jsou limitovány odvislostí od senzoricko-receptivních schopností člověka. Dále je nutné zmínit, že informační kanály tvoří jednotný celek, soubor. Mezi základní typy multimediálních informací odvislých i od možností jejich zprostředkování lze řadit (3): textové a grafické informace, víceúrovňové statické obrazy, pohyblivé dynamické obrazy (video), řečové informace a audio-informace. Multimediální výuka není pojmem novým spojeným pouze s počítači, již dávno byl používán pro označení libovolné výuky, kde bylo využito například statické či dynamické projekce ve spojení s výkladem učitele v uceleném souboru. Dnes je využíván ovšem především ve spojení s počítačem. Možnosti využití počítače ve výuce shrnují J. Slavík a J. Novák (4): 5. informační zdroje, 1. multimediální programy, 6. videokonference, 2. simulační programy, 7. distanční formy výuky, modelování, 8. virtuální realita. 3. testovací programy, 4. výukové programy,
114
Rozdělení je mnohdy spíše ilustrativní, např. libovolný výukový program může být multimediální. Oblast výukových programů je značně široká a lze ji dále členit (upraveno dle 5): 5. didaktické hry, 1. programy pro expozici učební 6. elektronické učebnice, látky, 7. elektronické encyklopedie, 2. programy pro fixaci učební 8. programy pro řízení látky (procvičování), laboratorní výuky, 3. programy pro testování 9. programy pro výuku stupně osvojení učební látky, programování. 4. simulační programy, Hlavní charakteristikou výukových programů je jejich souvztažnost k plnění výukových cílů, což je optimálně zajištěno jejich didaktickou transformací. Tím, že prostřednictvím multimédií působíme souběžně na více smyslových receptorů v jednom okamžiku dosahujeme lepších výsledků výuky, učivo je trvaleji a hlouběji osvojeno. Při aplikaci multimediálního systému do výuky bychom měli dodržovat následující didaktické zásady (6): • Komplexnost - na tvorbě multimediálního pořadu by měl participovat i didaktik, který dohlédne na to, aby zde byla zachována logická návaznost a který ví, že ke komplexnosti patří možnost demonstrace reálných jevů, grafické zjednodušení formou nákresů a skic, následná aktivní práce žáka, zahrnující určitou manipulaci s tématem, a následné slovní vytváření představ. • Aktivita - pokud žák aktivně participuje na procesu učení, vytváří se jeho motivace. Při využití multimediálního počítače nenastává v učebně žádná nevhodná aktivita „pod lavicí“. • Samostatnost - ta se uplatňuje při aplikaci získaných vědomostí a zkušeností při řešení praktických návyků a dovedností. • Přiměřenost - je třeba brát v úvahu individuální rysy jedince, pohlaví a pokročilost v práci s multimediálním počítačem. • Posloupnost - postupovat od nejjednoduššího ke složitějšímu, od analýzy k syntéze, přes indukci až k systematizaci a třídění.
Literatura [1] [2] [3] [4] [5] [6] [7] [8]
JANDOVÁ, L. Počítačová výuka. 1. vyd. Plzeň: Pedagogická fakulta ZČU v Plzni, 1995. 22 s. ISBN 80-7043-147-4. KROPÁČ, J. - KUBÍČEK, Z. - CHRÁSKA, M. - HAVELKA, M. Didaktika technických předmětů vybrané kapitoly. 1. vyd. Olomouc: Univerzita Palackého v Olomouci, 2004. 223 s. ISBN 80-244-0848-1. CHAPMAN, N. – CHAPMAN, J. Digital multimedia. Mississauga: John Wiley & Sons, 2004. ISBN 04-708-5890-7. SLAVÍK, J. - NOVÁK, J. Počítač jako pomocník učitele. Praha: Portál, 1997. STRACH, J. Využití počítačů ve výuce. In ŠIMONÍK, O. Vybrané kapitoly z obecné didaktiky. Brno: PdF MU, 1996. VRBA, J. – VŠETULOVÁ, M. Multimediální technologie ve vzdělávání. Olomouc: Vydavatelství UP, 2003. ISBN 80-244-0562-8. MAZÁK, E. Počítačová výuka. Praha: ČVUT, 1991. ISBN 80-01-00529-1. KONÍČEK, L. Počítačem podporovaná výuka a experiment. Ostrava: Ostravská univerzita v Ostravě, 2003. ISBN 80-7042-965-8.
115
JEDNODUCHÁ KONVERZE AUDIO FORMÁT : DSD NA PCM Simple Audio Format Conversion : DSD to PCM
Pavel Valoušek *
Abstrakt Principy pulsn -kódové a sigma-delta modulace jsou známy již dlouhou dobu. První z t chto modulací se stala neoficiálním standartem pro profesionální i spot ební digitální audio, druhý typ modulace je široce používán v r zných technických aplikacích a v A/D a D/A konverzi audio signál . Jednobitový sigma-delta datový tok se vzorkovací frekvencí 2.8224 MHz vytvo ený modulátorem vyššího ádu používaný pro Super Audio CD se nazývá Direct Stream Digital. Pro další zpracování je nezbytné tento signál p evést na PCM formát.
Abstract Principles of pulse-code and sigma-delta modulations have been well known for a long time. The former stands “de-facto“ as a standart of professional and consumer digital audio, the second one is widely used in various technical aplications and in audio A/D and D/A conversions. Sigma-delta 1-bit data stream with sampling frequency 2.8224 MHz created by high order modulator used for Super Audio CD is called Direct Stream Digital. For further processing, it is necessary to convert this signal into PCM format.
Úvod Nejpoužívan jším typem modulace v sou asné digitální audiotechnice je modulace PCM. D vodem je snadná interpretovatelnost a zpracovatelnost digitálních dat a teoreticky relativn jednoduchá modulace a demodulace, tedy analogov -digitální a digitáln -analogová konverze. Konvertory pracující na principu PCM se nazývají R-2R nebo také Ladder Type. Ozna ení vychází z principu jejich fungovaní a to spínání odpor r zné hodnoty, generující proudy vždy 2x v tší než p edchozí stupe . Jak se brzy ukázalo, s p evodníky tohoto typu nelze jít dále než k p esnosti odpovídající hranici 18 bit . Jejich výroba je zna n náro ná a tudíž i velmi nákladná. Z tohoto d vodu se p evodníky postupn za aly ubírat cestou zmenšení kvantiza ního kroku a zv tšením frekvence. Takové p evodníky jsou nesrovnateln levn jší na výrobu, p i emž dosahují velmi dobré m itelné parametry.
*
Ing. Pavel Valoušek, Katedra radioelektroniky, FEL VUT v Praze, Technická 2, Praha 6 - Dejvice 166 27 tel.: +420 2 2435 2205, fax.: 420 2 3333 9801, e-mail: [email protected]
116
A koliv se dnes v praxi stále ješt ve v tšin p ípad používá PCM (CD/DVD-A), o jeho p evod mezi analogovou a digitální doménou se starají tém výhradn SDM p evodníky. Princip SDM se dnes majoritn uplat uje na hardwarové úrovni, avšak mezi A/D a D/A konverzí se stále pracuje s PCM. Vznikla tedy myšlenka, použít jako transportní formát p ímo SDM bez nutnosti další mezikonverze na PCM viz. Obr. 1. Tato myšlenka se v praxi uplatnila na SACD, kde je 1bit/2.8224MHz SDM signál nazýván DSD.
Obr. 1 Schéma digitálního et zce
Myšlence využití DSD nelze up ít oproti PCM jednoduchost a v tší transparentnost pr chodu audio signálu celým audio et zcem, ovšem sou asná realizace v praxi zdaleka není tak jednoduchá, jak je nazna eno na obrázku. Z principu nelze data v DSD formátu podrobit jakémukoli zpracování. Pro a už studiové úpravy nebo postprocessing je nutno DSD p evést na PCM, by v praxi jsou oba typy modulací provázané. Jak lze také vid t na Obr. 1, b žný 1-bitový A/D p evodník s PCM výstupem založený na sigma-delta modulátoru používá proces digitální filtrace práv pro p evod sigma-delta dat na PCM. Tyto filtry jsou možným zdrojem degradace signálu, proto se tato práce zabývá možností konverze s co nejmenším vlivem na kvalitu signálu. V následujících odstavcích jsou popsány oba typy modulací a princip konverze DSD na PCM.
PCM Analogový signál je vzorkován v ase v ekvidistantních okamžicích s frekvencí Fs. Hodnoty signálu jsou v t chto okamžicích kvantovány v n-bitovém rozsahu s odpovídajícím rozlišením q=2n-1 kvantiza ních krok a n-bitové slovo je poté zakódované nej ast ji do dvojkového dopl ku. P i vzorkování je t eba zachovat vzorkovací teorém, podle kterého nejvyšší frekvence vzorkovaného signálu musí být menší než polovina vzorkovací frekvence. Tím se p edejde vzniku zkreslení p i samotném procesu vzorkovaní. P íklad signálu se sinusovým pr b hem nakvantovaného v 8 bitech s frekvencí 2,205 kHz a vzorkovací frekvencí 44,1 kHz je na Obr. 2. Normované spektrum je na Obr. 3.
117
Obr. 2
asový pr b h PCM signálu
Obr. 3 Spektrum PCM signálu
SDM Princip Sigma-Delta modulace spo ívá ve spojení delta modulace s technikou tvarování šumu – noise shapingem [2]. Delta modulace je založena na kvantování zm ny signálu s vysokou vzorkovací frekvencí. Frekven ní omezení SD modulátoru je dáno strmostí analogového signálu. Základní schéma delta modulátoru je zobrazeno na Obr. 4. Spojením delta modulátoru s blokem tvarování šumu získáme sigma-delta modulátor prvního ádu, jehož schéma je na Obr. 5.
Obr. 4 Schéma delta modulátoru
118
Obr. 5 Schéma SDM prvního ádu
Systém SDM, který je u SACD ozna ován DSD, využívá modulátoru vyššího ádu se vzorkovací frekvencí 64*Fs nebo nov 128*Fs, kde Fs je 44.1 kHz. Schéma modulátoru pátého ádu SONY FF popsaného v z-domén [1] je zobrazen na Obr. 6. Tento modulátor byl namodelován v prost edí MATLAB. Spektrum modulovaného signálu o frekvenci 5.04 kHz a vzorkovací frekvencí 2.8224 MHz je na Obr.7.
Formát textu
Obr. 6 Schéma Sony FF SDM
Obr. 7 Spektrum SDM signálu
119
Vlastnosti modulací Z p ímého porovnání spekter je z ejmý zásadní rozdíl mezi vlastnostmi obou modulací. Zatímco PCM modulace nabízí v celém frekven ním pásmu stejné parametry jako dynamický rozsah nebo odstup signálu od kvantiza ního šumu, pr b h t chto parametr je u SDM frekven n závislý. Na nízkých frekvencích poskytuje velký odstup signálu od šumu, který se s rostoucí frekvencí mírn zvyšuje a teprve na vysokých frekvencích v ádu desítek a stovek kHz se za íná projevovat výrazný nár st šumu. Takový pr b h dob e koresponduje s pr b hem citlivosti lidského ucha. Na nízkých frekvencích je žádoucí vysoké rozlišení, které m žeme oželet na vysokých a pro lidské ucho mén citlivých frekvencích. U obou typ modulací je ješt prostor na ur ité zlepšení parametr nap íklad pomocí r zných technik ditheringu, p i zachování stejného bitového rozlišení a vzorkovací frekvence.
Konverze formát Nebudeme-li uvažovat zp sob získání digitálního audio signálu, m žeme SDM i PCM signál rozlišit pouze pomocí bitové hloubky a vzorkovací frekvence. Ob modulace ve svém spektru obsahují užite ný signál v základním pásmu. P i konverzi je tedy nutné rozší it bitovou hloubku SDM signálu a zárove snížit jeho vzorkovací frekvenci. Spolu s odstran ním vysokofrekven ního šumu lze tyto operace provést decima ním filtrem typu dolní propust. Vzhledem k bitovým hloubkám a vzorkovacím frekvencím signál jsou na takový filtr kladeny pom rn vysoké požadavky. Filtr byl navržen s následujícími parametry.
-
vstupní signál DSD 1-bit 2.8224 MHz výstupní signál PCM 24bit 176.4 kHz a 88.2 kHz zvln ní v propustném pásmu 0dB útlum v nepropustném pásmu 120dB ší ka propustného pásma > 22 kHz ád filtru < 1024 lineární pr b h fáze
Na Obr 8. a Obr 9. jsou zobrazeny frekven ní a fázové charakteristiky dvou navržených filtr pro výsledné vzorkovací frekvence 176.4 kHz respektive 88.2 kHz a na Obr.10 je zobrazeno spektrum výsledného PCM signálu po filtraci DSD signálu se spektrem na Obr. 7. Výstupy obou filtr byly otestovány v prost edí MATLAB jak na vygenerovaných signálech tak na hudb s použitím DSD modulátoru. Kvalita výstup vygenerovaných signál odpovídala cílovému bitovému rozlišení a vlastnostem DSD modulátoru, ve sledované ásti spektra nedošlo k post ehnutelnému zhoršení parametr signálu. Po plánované hardwarové implementaci filtru bude možné s kvalitním A/D p evodníkem s DSD výstupem provést i poslechové testy a posouzení kvalit tohoto filtru oproti t m, integrovaným v b žných SDM p evodnících s PCM výstupem.
120
Obr 7. Frekven ní a fázová charakteristika filtru 176.4 kHz
Obr 8. Frekven ní a fázová charakteristika filtru 88.2 kHz
121
Obr. 10 Spektrum výsledného PCM signálu po filtraci
Záv r V této práci jsou rozebrány n které vlastnosti PCM a SDM modulací v souvislosti s audio signály a nazna en postup konverze signálu DSD na PCM pomocí decima ního FIR filtru. V programu MATLAB byl vytvo en sigma-delta modulátor s jehož pomocí byly vygenerovány úseky DSD signál pro konverzi do PCM. Rovn ž byly navrženy decima ní FIR filtry pro 2 r zné výstupní vzorkovací frekvence a t mito filtry byly získány signály v PCM formátu.
Pod kování Tato práce vznikla a grantu CTU 0507913.
za
podpory
výzkumného
zám ru
VZ
6840770016
Literatura [1] Hawksford, M.O.J. Time-Quantized Frequency Modulation,Time-Domain Dither, Dispersive Codes, and Parametrically Controlled Noise Shaping in SDM. J. Audio Eng. Soc., Vol. 52, No.6, 2004 June [2] Park, Sangil Principles of Sigma-Delta Modulation for Analog-to-Digital Converters. Motorola DSP paper, APR8/D, rev 1 [3] Super Audio CD a Technical Overview. SACD whitepaper, Philips Sony, September 2001
122