XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
194
Rozpoznávání hlasových vstupů LIČEV, Lačezar1 & ALMÁSY, Peter2 1
Doc., Ing., CSc.,
Katedra informatiky-456, VŠB-TU Ostrava, 17. listopadu,
Ostrava-Poruba, 708 33 2
[email protected],
http://www.vsb.cz/~lic10
Ing., Katedra informatiky-456, VŠB-TU Ostrava, 17. listopadu, Ostrava-Poruba, 708 33
[email protected]
Abstract: Tématem tohoto příspěvku je analýza řeči prováděná na PC. V první části je představen matematický aparát nezbytný pro zpracování zvukového signálu. Jistý prostor je věnován také několika metodám z oblasti umělé inteligence, které jsou při analýze hlasového projevu často užívány. Druhá část čerpá ze zkušeností získaných během realizace několika systémů pro analýzu řeči. Jsou zde prezentovány výsledky dosažené při identifikaci izolovaných slov, posloupností izolovaně pronášených slov a konečně i využití akusticko-fonetických znalostí při klasifikaci souvislého řečového projevu. Keywords: klasifikace promluvy, identifikace slov v řeči, mikrosegment, neuronová síť
1 Úvod Komunikace člověka s počítačem prostřednictvím mluveném dialogu vyžaduje technické i algoritmické řešení několika úloh, které se týkají zejména zpracování řečového signálu, automatické syntézy a rozpoznávání řeči, včetně porozumění významu rozpoznaných slov a vět. Zřejmě největší problémy v sobě skrývá rozpoznávání plynulé řeči. Komplikace navíc rostou s velikostí rozpoznávaného slovníku, závislostí na hlasu řečníka či rušivým prostředím. Značně omezená je také součinnost procesu klasifikace řečového signálu a procesu porozumění smyslu posloupnosti klasifikovaných slov. Z těchto důvodů jsou systémy hlasového dialogu využívány zatím pouze v omezeném měřítku, a to zejména v jednodušších a úzce problémově zaměřených aplikacích jako jsou např. automatické informační a rezervační systémy. Naopak systémy, které pracují s hlasovou syntézou se již dnes staly nedílnou součástí běžného života, kdy nám např. “neživý” operátor sděluje výši našeho kreditu na mobilním telefonu či hlásí zpoždění vlaku, který tu měl už dávno být.
2 Řeč 2.1 Informační obsah řeči Informační obsah fonetické formy Nejmenší jednotkou řeči, která může rozlišovat jednotlivá slova se nazývá foném [1]. Počet fonémů v existujících světových jazycích se pohybuje od 12 do 60. V českém jazyce je jich 36, v anglickém 42 a např. v ruském 40. Fonémy se skládají do větších celků – slabik. Libovolná promluva je potom vlastně opakování různých slabik.
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
195
Informační obsah akustické formy Pod pojmem akustická forma si lze představit průběh amplitudy v čase a průběh změn frekvence v čase [1]. Uvažujeme-li, že frekvenční spektrum naší promluvy nebude přesahovat hodnotu Fm=16 kHz a dynamika řeči bude 50 dB při minimálním šumu, byla by pro kvalitní záznam signálu nutná informační rychlost větší než 200 000 bit/s. Z hlediska sémantiky akustická forma nese informace např. o intonaci a tempo promluvy, charakteristické zabarvení hlasu každého řečníka, dialekt, individuální zvláštnosti a defekty mluvčího apod.
Vznik řečového signálu Zdrojem řečových kmitů jsou lidské řečové orgány. Ty se skládají z hlasivek, dutiny hrdelní, ústní a nosní, měkkého a tvrdého patra, zubů a jazyka. K těmto orgánům je však nutno připočíst ještě fundamentální zdroj hlasové energie, tj. plíce a s nimi funkčně spjaté dýchací svaly. Frekvence kmitaní hlasivek je různá a pohybuje se v rozmezí 150 až 400 Hz. Frekvence kmitů hlasivek F0 charakterizuje základní tón lidského hlasu. A akustická realizace fonému záleží na jeho předcházejícím a následujícím zvuku, tak i na tempu a intonaci řeči. Tato závislost je známa jako koartikulace. Fón označuje minimální fonetickou jednotku identifikující jednotlivé primitivní zvuky. Všechny odlišné fóny určitého fonému se nazývají alofóny. Kupříkladu pro foném [s] existuje množství alofónů [s], závislých na kontextu, jako např. ve slovech “sup”, “eso”, “osa”, “srp” atd.
3 Akustické zpracování signálu 3.1 Charakteristika akustického signálu Velmi podstatnou věcí při zpracování řečového signálu je jistě druh cílové aplikace. Hlavní hlediska, které lze sledovat, jsou především složitost, rychlost přenosu informace a pružnost. Důležitým předpokladem při zpracovávaní akustického signálu je fakt, že se nám jeho vlastnosti v průběhu času mění pomalu, což umožňuje dále signál zpracovávat pomocí metod krátkodobé analýzy, při níž se úseky řeči vydělují a zpracovávají tak, jako by to byly krátké, na sobě nezávislé zvuky (mikrosegmenty). Délka mikrosegmentu se většinou pohybuje v rozmezí 10 – 30 milisekund. Výsledkem analýzy je potom číslo, či vektor čísel, který jistým způsobem charakterizuje daný mikrosegment.
3.2 Kódování tvaru vlny – pulsní kódová modulace PCM Informace obsažená v mluvené řeči je obvykle získávána mikrofonem. Pro další zpracování je zapotřebí tyto analogové kmity převést do číslicových údajů. Tento proces se nazývá pulsní kódová modulace nebo též digitalizace a zahrnuje provedení dvou kroků, a to vzorkování a kvantizaci s kódováním.
3.3 Pomocné metody zlepšující zpracování signálu Preemfáze znamená zdůrazňování amplitud spektrálních složek řečového signálu s jejich vzrůstající frekvencí. Důvod tohoto procesu vyplývá z právě opačného chování řečového ústrojí, tj. z poklesu amplitud spektrálních složek řečového signálu na vyšších frekvencích.
3.4 Zpracování v časové oblasti Většinu metod krátkodobé analýzy v časové oblasti lze vyjádřit vztahem: Qn =
∞
∑τ (s(k ))w(n − k ),
k = −∞
kde
Qn
(1)
je krátkodobá charakteristika s(k) je vzorek akustického signálu získaný PCM v čase k τ(.) vyjadřuje příslušnou transformační funkci w(n) je váhová posloupnost neboli tzv. okénko, kterým se váží vzorky s(k).
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
196
V systémech analýzy řečového signálu se volí obvykle n = Ni-1 při zpracování, kdy mikrosegmenty na sebe navazují, nebo n = [N(i+1)/2]-1 pro mikrosegmenty, které se překrývají o polovinu. Přitom i je pořadí analyzovaného mikrosegmentu a N je počet vzorků mikrosegmentu.
Krátkodobá energie Funkci krátkodobé energie signálu lze definovat vztahem:
En =
∞
∑ [ s (k ) w(n − k )] , 2
k = −∞
kde
s(k)
(2)
je vzorek signálu v čase k w(n) je příslušný typ okénka.
Dále se často využívá tzv. krátkodobá intenzita, která je definovaná vztahem:
Mn =
∞
(3)
∑ s(k ) w(n − k )
k = −∞
Hodnoty krátkodobé energie i krátkodobé intenzity mohou být využity například při automatickém oddělování segmentů ticha od segmentů řeči. Lze jich též využít při oddělování znělých a neznělých částí promluvy.
Krátkodobá funkce středního počtu průchodu signálu nulou Frekvenci průchodů signálu nulovou úrovní můžeme chápat jako jednoduchou charakteristiku popisující spektrální vlastnosti signálu. Krátkodobou funkci středního počtu průchodu nulou lze definovat jako: ∞ Z n = ∑ | sgn[s (k )] − sgn[ s (k − 1)] | w(n − k ), (4) k =−∞
kde
sgn (s(k)) = 1 pro s(k) ≥ 0 sgn (s(k)) = -1 pro s(k) < 0 w(n) je pravoúhlé okénko.
3.5 Zpracování ve frekvenční oblasti Mluvená řeč může být ve frekvenční oblasti reprezentována jako kompozice spektrální obálky charakterizující vlastnosti hlasového ústrojí a jemné struktury charakterizující buzení. Jak se mění buzení a tvar hlasového ústrojí, vytvářejí se různé zvuky a mění se i spektrum signálu. Nejčastěji používané postupy jsou založeny na aplikaci krátkodobé diskrétní Fourierovy transformace.
Fourierova transformace Předpokládejme, že metodou PCM byly získány vzorky s(k) řečového signálu. Krátkodobá Fourierova transformace je pak definována vztahem:
S (ω , n ) =
∞
∑
s (k )h (n − k )e −
jω k
k = −∞
kde
h(n) je funkce okénka, která vybírá pro zpracování určený úsek signálu s(k) jsou vzorky řečového signálu.
(5)
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
197
Na tuto rovnici lze nahlížet dvěmi různými pohledy. • V prvním případě, je signál řeči zpracováván nejčastěji tzv. krátkodobou diskrétní Fourierovou transformací, kde jsou čas i frekvence diskrétní. • Ve druhém případě, lze na Fourierovou analýzu pohlížet jako na proces lineární filtrace a je možné vhodnou volbou funkce okénka navrhnout pásmový filtr či soustavu pásmových filtrů. Diskrétní Fourierova transformace DFT se zavádí pro vyjádření spektrálních vlastností jednak periodických posloupností s konstantní periodou N odečtů a jednak posloupností konečné délky N odečtů. Předpokládejme, že x(n) = 0, n = 0,1,2…N-1, je posloupnost N časových odečtů signálu x(t) s konstantní periodou vzorkování T. Pak koeficienty X(k) DFT lze získat ze vztahu: N −1 N −1 (6) 2π − kn
X (k ) =
∑
x ( n ) exp( − j
n=0
N
kn )
=
∑
x ( n )W N
n=0
kde k = 0,1,2….N-1. Rychlá Fourierova transformace FFT se zavádí z ryze praktických důvodů. Jedná se o postup, který umožňuje radikální snížení množství operací při výpočtu koeficientů DFT
Pásmová filtrace V mnoha aplikacích zpracování řečového signálu je účelné provádět jeho pásmovou filtraci. Vhodným výběrem počtu a šířky pásem lze totiž efektivně detekovat fonetickou strukturu řeči a využít informace obsažené ve výstupních signálech jednotlivých filtrů, např. pro účinnou klasifikaci hlásek či celých slov. Nejčastěji je pro účely pásmové filtrace využívána FFT a polyfázový frekvenční filtr (navržen pro MPEG kompresi zvuku).
4 Rozpoznávání Máme posloupnost příznaků či přesněji vektorů příznaků. Dimenze těchto vektorů je dána počtem měřených koeficientů a délka posloupnosti je úměrná délce slova a je určena počtem mikrosegmentů. Rozpoznávání obrazů slov tedy spočívá v zařazování těchto obrazů do předem definovaných tříd, které většinou reprezentují slova pracovního slovníku.
4.1 Statistický přístup Princip této metody vychází z představy o vytváření řeči. Při generování řeči člověkem, si lze představit, že hlasové ústrojí je během krátkého časového intervalu – mikrosegmentu – generuje určitý foném. V uvažovaném mikrosegmentu je pak hlasovým ústrojím produkován krátký signál, který závisí na stavu artikulačního ústrojí a může být popsán určitými spektrálními charakteristikami. Budeme předpokládat, že počet spektrálních charakteristik je konečný. Toho lze dosáhnout vektorovou kvantizací, kdy je vytvořena kódová kniha typových spektrálních vzorů a každá spektrální charakteristika je nahrazena indexem nejbližšího typového spektrálního vzoru z kódové knihy. Z představy o vytváření řeči vychází i konstrukce klasifikátoru, založena na modelování řečového signálu pomocí Markovova procesu.
4.2 Vzdálenostní přístup Dynamické programování – DTW Klasifikátory slov využívající metodu dynamického programování poskytují rozhodnutí o zařazení neznámého slova do určité třídy nejčastěji na základě minimální vzdálenosti obrazu neznámého slova k některému ze vzorových obrazů této třídy.
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
198
Neuronová síť Rozpoznávání probíhá na základě podobnosti si jednotlivých vzorků promluvy. Čím méně se budou jednotlivé hodnoty vektorů lišit, tím větší bude pravděpodobnost zařazení do stejné skupiny neuronů. Jedná se tedy o jakousi “vzdálenost” mezi porovnávanými vektory. Pro účely zařazování navzájem si podobných vzorků se jeví jako nejvhodnější dvouvrstvá neuronová síť. Spodní vrstva je jakýmsi vstupem sítě. Tam je přivedeno např. celé, právě namluvené slovo. Síť tyto data zpracuje a na horní vrstvě (výstupní), která bude reprezentovat jednotlivé rozpoznané slova, se zobrazí výsledek. Tím je třída slov, kterým se vstup nejvíce podobá.
4.3 Rozpoznávání izolovaných slov Obecné blokové schéma klasifikátoru izolovaných slov je uvedeno na obrázku č. 1. Z tohoto obrázku je patrné, že klasifikátor pracuje ve dvou režimech činnosti. V režimu trénování jsou na základě trénovací množiny vytvářeny a uchovávány referenční obrazy slov slovníku, zatímco v režimu klasifikace dochází k porovnávání testovaného obrazu s referenčními obrazy uloženými ve slovníku s následnou klasifikací obrazu testovaného slova.
Zpracování signálu
Výběr příznaků
Vytvoření obrazu testovaného slova
Vytvoření referenčních obrazů slov
Porovnání obrazů
Rozpoznání neznámého slova
Obrázek 1 – Blokové schéma klasifikátoru slov.
4.4 Rozpoznávání v kontinuální promluvě Má-li být komunikace s počítačem mluvenou řečí plynulá a přirozená, musí mít uživatel možnost mluvit souvisle, tedy bez pauz mezi slovy. K zabezpečení tohoto požadavku je nezbytné vyřešit celou řadu dodatečných problémů, kterými mohou být například otázky počtu slov v promluvě, lokalizace hranic jednotlivých slov, problematika trénování, resp. klasifikace, na úrovni posloupnosti slov apod. V součastné době existují v oblasti klasifikace kontinuální promluvy čtyři hlavní směry.
Rozpoznávání spojených slov Rozpoznávání spojených slov je určitým předstupněm klasifikace souvislé řeči. V systémech rozpoznávání spojených slov se skládá neznámá promluva z řetězce slov, které byly vybrány z omezeného slovníku izolovaných slov a které byly řečníkem vysloveny souvislým způsobem, tj. bez zřetelných pauz mezi slovy. Přitom se obvykle předpokládá, že počet slov ve vysloveném řetězci nemusí být předem přesně znám. Výsledkem klasifikace by mělo být
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
199
číslo udávající “optimální” počet slov obsažený v promluvě, konkrétní výčet těchto slov s odpovídajícím pořadím a popřípadě i umístění časových okamžiků hranic mezi slovy.
Statistický přístup Tento přístup rozvíjí statistické metody klasifikace založené na skrytých Markovových modelech a přizpůsobuje je souvislé promluvě. Přitom se předpokládá využití především Markovových modelů fonému, jejich zřetězování do modelů slov a posléze spojení této struktury s tzv. jazykovým modelem. Jazykový model přitom poskytuje pro rozhodování klasifikátoru dodatečnou informaci, která se týká statistik výskytu posloupnosti n-tic po sobě jdoucích slov pracovního slovníku.
Strukturální přístup Strukturální metody rozpoznávání pracují s obrazy tvořenými souborem nalezených základních popisných elementů – primitiv, jejich vlastnostmi a relacemi mezi nimi. Primitiva představují minimální kvalitativní charakteristiky, které lze nalézt v obraze. Každé primitivum je popsáno jistým symbolem, tzv. terminálem. V rozpoznávaném obraze lze mezi primitivy nalézt jisté vztahy, které lze syntakticky popsat jako jisté n-ární relace nebo operace nad odpovídajícími symboly. V případě aplikace rozpoznávání řeči jsou jako primitiva nejčastěji uvažovány fonémy, slabiky, slova apod., jako typická operace nad odpovídajícími terminálními symboly je operace zřetězení. Úloha klasifikace je pak převedena na úlohu rozhodování o tom, ke kterému z jazyků charakterizujících jednotlivé třídy, popis neznámého obrazu patří.
Uplatnění znalostního přístupu Základní idea tohoto přístupu spočívá ve formalizaci obecných znalostí (báze znalostí) získaných dlouholetým experimentováním se zpracováním a klasifikací mluvené řeči a jejich oddělení od konkrétních “řečových dat” (báze dat). Silná motivace pro tento přístup byla vyvolána rozvojem zejména expertních systémů, které naznačily nový způsob, jakým se může na řešení složitého problému efektivně podílet i celá řada nezávislých odborníků. Protože rozpoznávání je charakterizováno těsnou vazbou mezi zpracováním řečového signálu na mnoha hierarchických úrovních, zdá se, že využití expertních znalostí může významně usnadnit řešení celé problematiky. Expertní systémy přistupují k řešení uvedené úlohy prostřednictvím dekompozice složité expertizy do velkého počtu dílčích rozhodnutí podpořených relativně jednoduchými znalostmi, které jsou specifikovány jako tzv. akusticko-fonetické, lexikální, fonologické, prozodické, syntaktické, sémantické a pragmatické zdroje znalosti.
5 Dosažené výsledky Následující text přibližuje výsledky prací [4] a [6], které vznikly na Katedře Informatiky FEI, VŠB TUO. Jedná se o shrnutí zkušeností získaných jak při implementaci klasifikace izolovaných slov, tak i při rozpoznávání kontinuální promluvy.
5.1 Klasifikace izolovaných slov Vzorkování a kvantizace Řeč je do PC převáděna pomocí A/D převodníku zvukové karty. Přestože v [1] se uvádí, že pro kvalitní snímání zvuku je vhodné použít vzorkovací frekvenci mezi 16 – 20 kHz, ukázala se hodnota 8 kHz pro účely detekce izolovaných slov jako dostačující. Podle provedených testů nemělo zvýšení frekvence vzorkování podstatnější vliv na kvalitu detekce, zato však způsobilo citelné zpomalení celého procesu rozpoznávání. Každý vzorek je kvantizován do 256 úrovní. (8 bitový převod).
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
200
Mikrofon Důležitým krokem je volba mikrofonu. Z několika dostupných druhů byl po testech vybrán jako nejvhodnější mikrofon určený pro internetovou telefonii. Výhodným je zejména proto, že je upevněn k sluchátkům a tudíž si udržuje od zdroje zvuku (úst mluvčího) konstantní vzdálenost. Použitý přistroj byl kondenzátorový, s citlivostí 62 dB a frekvenčním rozsahem 50 Hz – 16 kHz.
Zesílení signálu Po zkušenostech s prvními verzemi klasifikátoru bylo na začátek celého procesu detekce přidáno zesílení vstupního signálu. Jedná se o normalizaci nasnímaných hodnot do intervalu <-127, 127>. Dále byla zavedena prahová hodnota velikosti amplitudy, pod kterou je vzorek považován za šum a tudíž není zesilován. Provedené úpravy byly přínosem zejména při určování počátku a konce slova.
Preemfáze Preemfáze byla implementována jako číslicový filtr aplikovaný na signál po procesu vzorkování a kvantizace. Vstupní signál je upravován podle vztahu
y (n) = x(n) − αx(n − 1),
(7)
kde x(n) je vzorek signálu v čase n a hodnota konstanty α byla zvolena 0,92. Použití preemfáze mělo dle očekávání na kvalitu klasifikace pozitivní vliv.
Určení hranic promluvy Pro účely stanovení hranic slova byla použita metoda pracující s krátkodobou intenzitou. Aby se zlepšila flexibilita a spolehlivost detekce, umožňuje algoritmus nastavit tzv. délku ticha, což je číslo určující, kolik mikrosegmentů ticha se může celkem v jednom slově vyskytovat. Z provedených testů plyne, že nejlepších výsledků lze dosáhnout pro délku ticha rovnu pěti (tj. při 20ms délce mikrosegmentu je nejdelší pauza uvnitř slova dlouhá nejvýše 100ms). Druhým prvkem majícím vliv na kvalitu určení hranice slova je předpokládaná hladina šumu. Tato hodnota popisuje procentuální intenzitu hluku z okolního prostředí. Vyšší hodnoty způsobují, že za promluvu nebudou považovány vzorky s malou intenzitou. Dalším důsledkem je vyšší citlivost na pauzy uvnitř jednotlivých slov. Příliš nízké hodnoty mohu naopak zapříčinit spojování několika slov v jeden celek.
Pásmová filtrace Pásmová filtrace byla implementována dvěma způsoby. Prvním, a jak následně prokázaly testy i úspěšnějším postupem, je využití rychlé Fourierovy transformace pro rozdělení signálu do osmi pásem. Druhou metodou byla aplikace polyfázového filtru. Hlavním problémem tohoto řešení je, že filtr rozdělí vstupní signál do 32 pásem, ale pro další zpracování (rozpoznání pomocí neuronové sítě) je jich zapotřebí pouze osm. Tento nedostatek byl řešen sloučením čtyř sousedních pásem do jednoho. Výsledky získané tímto postupem však nebyly v porovnání s FFT natolik lepší, aby kompenzovaly jeho vysokou výpočetní náročnost
Segmentace spektrální stopy Poté co je mikrosegment vstupního signálu rozdělen na osm pásem, je zapotřebí pro každé z nich stanovit charakteristiku. K tomuto účelu byla použita krátkodobá intenzita signálu. Tím je každý mikrosegment popsán vektorem osmi čísel. Problémem je, že klasifikovaná slova mají obecně různou délku a proto je počet mikrosegmentů proměnlivý. Při klasifikaci pomocí
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
201
neuronové sítě je však nutné, aby měla všechna slova stejně dlouhou reprezentaci. Toho bylo dosaženo použitím metody nazývané segmentace spektrální stopy. Spektrální stopou se nazývá spojnice koncových bodů vektorů příznaků. Protože není znám její skutečný průběh, je spektrální stopa aproximována mezi každými dvěma sousedními body lineárním úsekem. Poté je tato interpolovaná stopa rozdělena na N nových segmentů a je určeno N+1 nových příznakových vektorů, které tvoří nový obraz slova. Podle doporučení v [1] je před vlastní segmentací prováděno vyhlazení dlouhodobého spektra a jeho normalizace. Další pomocnou úpravou je vyhlazení amplitudové obálky.
Rozpoznávání pomocí neuronové sítě Zřejmě nejlepších výsledků při klasifikaci je dnes dosahováno aplikací metod založených na skrytých Markovových modelech. Důvodem, proč byla zvolena neuronová siť je zejména relativní jednoduchost implementace a rychlost odezvy. Výhodnou je i možnost ukládat natrénovaný slovník a později jej načítat bez nutnosti nového učení. Pro účely rozpoznávání se jevila jako nejvhodnější dvouvrstvá síť s Kohonenovým učením. Na spodní vrstvu jsou přiváděna data získaná segmentací spektrální stopy. Neurony horní vrstvy tvoří reprezentaci rozpoznávaných slov.
5.2 Kontinuální promluva Na pojem kontinuální promluva lze nahlížet dvěma způsoby. Obvyklejší je za kontinuální považovat řeč ve formě běžného lidského dialogu, ve které nemají jednotlivá slova mezi sebou dostatečně dlouhou pauzu a mohou splývat v celek. Způsob řešení klasifikátoru pracujícího s tímto druhem promluvy je popsán v sekci 5.2.2 a základním principem je využití akusticko-fonetické znalosti. Pro některé třídy aplikací lze za kontinuální považovat také posloupnost po sobě jdoucích izolovaných slov. Postup z 5.2.1 provádějící rozpoznávání jednotlivých slov oddělených úseky ticha vychází z metody izolovaně za sebou vyslovených slov.
Izolovaně vyslovovaná slova Základem klasifikace se stal postup použitý při rozpoznávaní izolovaných slov. Aby bylo zajištěno součastné snímání i zpracování vstupního signálu, pracuje algoritmus ve dvou paralelních vláknech. K dispozici jsou dvě nezávislé vyrovnávací paměti. Do jedné jsou data ukládána a součastně je prováděna klasifikace signálu uloženého v paměti druhé. Dojde-li k zaplnění vstupního bufferu, jsou role obou vyrovnávacích pamětí vzájemně zaměněny. Každému rozpoznávanému slovu je možné během procesu učení přiřadit akci (spuštění externího programu), která bude provedena v případě kladné detekce. Jednotlivým činnostem lze navíc přiřadit i minimální potřebnou míru jistoty, že slovo spojené s danou akcí bylo rozpoznáno správně. Tuto vlastnost je jistě vhodné použít u potenciálně nebezpečných příkazů (např. vymaž, ukonči, …), protože u kontinuální promluvy lze předpokládat, že na vstup klasifikátoru se dostanou i slova, která nejsou obsažena ve slovníku.
Využití akusticko-fonetické znalosti Akusticko-fonetická znalost vyjadřuje vztah mezi akustickou informací a fonetickým přepisem vyslovené promluvy. V přístupu založeném na vzdálenosti je například možné nejprve popsat jednotlivé mikrosegmenty řečového signálu akustickými, popř. i fonetickými, příznaky a na jejich základě pak každý mikrosegment klasifikovat do malého počtu akustickofonetických kategorií. Sousední mikrosegmenty stejného typu pak lze spojovat do větších celků, tzv. fonetických segmentů, a tyto segmenty je možné v dalším kroku přesněji identifikovat, například porovnáním se slovníkem vzorových fonetických segmentů.
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
202
Postup, jenž je zde prezentován není s metodou akusticko-fonetických znalostí zcela totožný, je jí však inspirován. Společnou je oběma postupům snaha zařadit každý mikrosegment do některé z daných kategorií. Detekce počátku a konce slova tak, jak byla použita v případě klasifikace izolovaných slov je v případě kontinuální promluvy nepoužitelná (nedostatečná, respektive žádná pauza mezi slovy; nelze rozlišit energetické pauzy uprostřed slov od skutečných hranic). Proto jsou ze vstupního signálu klasifikovány pouze takové úseky, ve kterých hodnota energie řečového signálu neklesla pod danou úroveň šumu. Ke klasifikaci je opět použita síť s Kohonenovým učením. Množství neuronů výstupní vrstvy odpovídá počtu tříd, do kterých mohou být segmenty zařazeny (při experimentální implementaci bylo použito 50 tříd). Každé slovo je tedy charakterizováno vektorem tříd segmentů. Pro slova s různou délkou však tímto způsobem získáme různě dlouhé vektory tříd u = (u1,u2,…,um) a v = (v1,v2,…,vn). To znesnadňuje další porovnávání a tím i celé rozpoznávaní. Jako řešení se nabízí výpočet vzdálenosti těchto vektorů pomocí vztahu r
d = ∑ | ui − vi |,
(8)
i =1
kde r = min(m,n). Aby mělo smysl provádět výpočet vzdálenosti musí navíc platit, že se dimenze m a n obou vektorů nesmí výrazně lišit. Protože ze vstupního signálu nelze jednoznačně stanovit, kolik slov daný úsek promluvy obsahuje, je nutné neznámou promluvu klasifikovat jako řetězec několika referenčních promluv. Jedním ze způsobů, jak to provést, je postupně vybírat z vektoru tříd segmentů neznámé promluvy úseky vhodné délky a porovnávat, který z referenčních vektorů odpovídá danému úseku nejlépe. Menší rozdíly, způsobené kolísáním tempa řeči nebo nepřesným určením počátku a konce promluvy, lze eliminovat posunutím prvků referenčního vektoru doleva či doprava. Je-li k danému úseku nalezeno referenční slovo, aplikuje se stejný postup na nový úsek, který začíná v místě, kde skončilo předchozí porovnávání.
6 Závěr Rozpoznávání izolovaných slov popsané v 5.1 a na něj navazující klasifikaci izolovaně vyslovovaných povelů v kontinuální promluvě z 5.2.1 lze podle dosažených výsledků prohlásit za úspěšné. Experimentální aplikace pracuje rychle a s vysokým procentem korektních rozpoznání. K jistému zpoždění dochází pouze tehdy, jsou-li povely vyslovovány rychle za sebou. Výsledky klasifikace kontinuální promluvy dosažené pomocí postupu 5.2.2 byly zklamáním a tato metoda musí být ohodnocena jako neúspěšná. Při zpětném prozkoumání se jako chybné jevilo již zařazování mikrosegmentů do tříd pomocí neuronové sítě. Dlouhodobým cílem, jenž je sledován při návrhu a konstrukci systémů identifikace slov, je zabezpečit rozpoznávání jednotlivých slovních povelů bez omezení kladených na rychlost promluvy či intonaci řečníka. Přestože se tento úkol prozatím jeví jako nesplnitelný, nebyl nalezen důvod, který by dosažení tohoto cíle znemožňoval. To otevírá prostor pro další výzkum.
Literatura ADVANTECH Co. Ltd. Advantech PC-Labcard User's Manual, Rev.1.10, Taiwan, Feb.,1993. BÁRTA R, KEDROŇ P. Analýza a syntéza zvuku. Diplomový projekt VŠB-TU Ostrava, Ostrava 1997. INTERNET. CS-VOICE. WWW stránka firmy FROG Systems s.r.o.http://www.anet.cz/frog.
XXVIII. ASR '2003 Seminar, Instruments and Control, Ostrava, May 6, 2003
203
INTERNET. FONETIC. WWW stránka Jakuba Dadáka (Cortex Software), http://ww2.fce.vutbr.cz/~smdad. LAZZARO J. J. Mluvit stejně jako my. Bajt, 1992, č.4, s.97-101. MAŘÍK V., ŠTĚPÁNKOVÁ O., LAŽANSKÝ J. a kol. Umělá inteligence. Díl 1. Academia, Praha 1993, 264 s. PSUTKA J. Komunikace s počítačem mluvenou řečí. Academia, Praha 1995, 287 s. REUSCH R., NIEDEN A. Programování zvukových karet, Magazin časopisu CHIP, 2. vydání, červenec 1995. SBORNÍK PŘEDNÁŠEK Analýza, syntéza a rozpoznávání řeči. ČSVTS, Praha 1985, 156 s. UHLÍŘ J., VÍCH R. Číslicová analýza a syntéza řeči. Prognostická studie. ČSAV, Praha 1985, 36 s. VONDRÁK, I. Umělá inteligence a neuronové sítě, Skriptum TUO, I.vydání, 1994.