A2M31RAT - Řečové aplikace v telekomunikacích Záznam a zpracování hlasových signálů pro potřeby výzkumu a aplikací hlasových technologií. Textové korpusy Doc. Ing. Petr Pollák, CSc.
17. května 2011 - 15:44
I. část Tvorba řečových databází
Motivace pro tvorbu řečových databází Proč vytvářet řečové databáze ? Zdroj charakteristik řečových signálů (řečové databáze) Trénování rozpoznávačů řeči (HMM) Charakteristiky hlasu mluvčího při syntéze
Zdroj informací o jazyce (textové databáze) Textové korpusy Jazykové modely Zdroj fonetické informace (slovníky)
Testování vyvíjených algoritmů Potlačování řeči v šumu Kódování řečového signálu
Základní kategorie řečových databází Akustické (řečové) DB testovací DB - není součástí systému Potlačování řeči v šumu, kódování řečového signálu trénovací DB - ovlivňuje vlastnosti systému trénování HMM (rozpoznávání řeči či řečníka), trénování neuronových sítí, průměrování charakteristik (syntéza, DTW) Lexikální (textové) DB Lexikony tvorba gramatiky rozpoznávače (seznam známých slov), získání fonetického přepisu promluvy (výslovnostní lexikon) Textové korpusy souvislých textů Zdroje nahrávaných promluv, trénování jazykových modelů, zdroje pro tvorbu lexiconů
Zdroje a dostupnost řečových databází Základní zdroje řečových databází LDC (Linguistic data consortium) http://www.ldc.upenn.edu ELRA (European Language Recources Agency) http://www.elra.info Privátní zdroje Finanční náklady na pořízení řečových databází Číslovky - ELRA, 10 000 EUR Czech SpeechDat - ELRA, 16 000 EUR (6 500 EUR) databáze řady SPEECON - více než 60 000 EUR databáze řady SpechDat-Car - 60 000 - 90 000 EUR Lexicony řady LC-Star - cca 20 000 EUR Členství v LDC - 2 000 USD / rok ⇒
NUTNO ČASTO TVOŘIT VLASTNÍ ŘEČOVÉ DATABÁZE
Požadavky na rozsah a obsah řečové DB DB pro trénování rozpoznávačů řeči velký počet mluvčích (5000 Polyphone DB) (pro základní SI rozpoznávač - 200 mluvčích) pokrytí textů k rozpoznávání → definice korpusu DB pokrytí variability prostředí DB pro syntézu řeči pokrytí možných vzorků řečových úseků pro syntézu extrakce charakteristik daného mluvčího (obecná syntéza - ne hlášení poskládaná z celých slov) DB pro rozpoznávání resp. identifikaci řečníka pokrytí variability promluvy jednoho mluvčího ⇓ Nelze vytvořit zcela univerzální DB !!
Pokrytí mluvčích a prostředí v DB pro rozpoznávání Požadavky na zastoupení mluvčích: pohlaví (50% - 50%) věk (zastoupení všech věkových kategorií) dialekt (5 regionů: Čechy 2, Morava 3) Typická prostředí využívající hlasové ovládání: telefonní kanál - pro hlasové služby v pevných resp. mobilních telekomunikačních sítích, prostředí automobilu - ovládání různých zařízení v automobilu hlasem bez ztráty koncentrace na řízení je velmi žádaná, kancelář, domácí prostředí, veřejná prostranství - ovládání řady běžných spotřebitelských zařízení, zejména elektronických, Internet - roustoucí zájem s rozšiřující se komunikací v sítích VoIP.
Základní konfigurace nahrávacího zařízení 1
2
On-line záznam s přímou digitalizací na PC - optimální volba nahrávací zařízení (případ řešení hlasového vstupu ve funkčním systému) - snímaná data se přímo digitalizují a mohou se ukládat do výsledné struktury - lze použít běžně dostupné přenosné počítače (Pozor, standardní vstupy nemusí zaručovat požadovanou podporu či kvalitu) - Na trhu jsou dostupné karty do PC (notebooků) i pro vícekanálové nahrávání Off-line digitální záznam - kvalitní digitální záznam na standardním audio zařízení (diktafony, mp3-wav recordery) - zvukový záznam by měl být uchován v plné kvalitě (ne s kompresí nahraných dat) - zařízení typu DAT pásky, standardní audio kazeta = historie význam snad jen pro zpracování existujících záznamů (archivů)
Software pro nahrávání řečových signálů
1
2
Realizace jednotlivých nahrávek - komerčně dostupné produkty: Adobe Audition (původně CoolEdit), SoundForge - volně šiřitelné nástroje WaveSurfer z KTH ve Stockholmu, Praat z University v Amsterdamu, Audacity apod. Nahrávání rozsáhlejších databází - nutný vhodně přizpůsobený nahrávací software - SpeechRecorder volně dostupný produkt skupiny z univerzity v Mnichově - obtížné přizpůsobování univerzálních nástrojů, jazykovým zvláštnostem, apod.
Speech Recording Studio - SPEECON
Volba počtu nahrávaných kanálů
Pro rozpoznávač řeči lze vystačit s jednokanálovým řečovým signálem. Více kanálů je potřeba v okamžiku zahrnutí algoritmu zvýrazňování řečového signálu snímaného v hlučném prostředí. Vícekanálový sběr se realizuje často i za účelem získání signálů současně z několika různých vstupních kanálů (např. použitím mikrofonů různé kvality). - SpeechDat-Car (pole 3 mikrofonů, close-talk, GSM) - SPEECON (4 různé kanály)
Volba a umístění mikrofonů
Výběru vhodných mikrofonů: kvalitní mikrofon vs. cenová dostupnost ?? Směrová charakteristika Použití vysoce směrových mikrofonů (zvyšují SNR snímaného signálu, ale problém při pohybu mluvčího) Všesměrové mikrofony v hlučném pozadí snímají příliš mnoho rušivého pozadí Pozice mikrofonů close-talk resp. head-set middle-talk far-talk
Příklad umístění blízkých mikrofonů - SPEECON
Příklad umístění vzdálených mikrofonů - SPEECON
Příklad umístění mikrofonů v automobilu - SPEECON
Nahrávací schéma pro databázi s Lombardovým efektem
Lombardův efekt Posun charakteristik produkované řeči vlivem hlučného pozadí : - intenzita - základní tón - posice formantů
Nahrávání DB s Lombardovým effektem
Definice nahrávaného korpusu Základní požadavky = pokrytí dané rozpoznávání úlohy hlasové vytáčení telefonního čísla ovládání různých funkcí v telekomunik. službách ovládání zařízení v automobilu ovládání různých zařízení v domácím prostředí Typické položky v řečových DB číslovky: izolované (0-9), spojené, přirozená čísla povely (aplikačně závislé) jména osob (křestní i příjmení) názvy měst, ulic, firem, atd. datum, čas, peněžní částky hláskovaná písmena foneticky bohaté věty a slova (NEJVÝZNAMĚJŠÍ TRÉNOVACÍ DATA)
Výběr foneticky bohatých vět Algoritmus 1
2
3
4
5
6
Shromáždění vstupního textového korpusu (Internet, novinové texty, elektronické knihy) Předzpracování vstupního korpusu (vyčištění textu) Základní výběr foneticky vyváženého korpusu (přednostní výběr řídkých fonémů a následné dovažování) Kontrola foneticky vyváženého korpusu NEZBYTNÝ MANUÁLNÍ ZÁSAH ! Finální vyvážení (opakování vyvažovacího algoritmu) Výběr podmnožiny pro jednoho mluvčího (subkorpus by měl být též vyvážený)
Anotace řečových dat - transkripce obsahu promluvy Ortografická transkripce Klasická psaná forma promluvy podle pravidel českého pravopisu „šestnáct set třicet devětÿ Nutno ručně vytvořit ! (zkorigovat rozpoznaný obsah) Ortoepická transkripce Regulerní fonetická forma dané promluvy „šestnáct set tŘycet devjetÿ Automaticky generovatelná z ortografické transkripce! Fonetická transkripce Skutečně vyslovená varianta dané promluvy „šesnácet tŘyce devjetÿ Nutno ručně vytvořit ! (zkorigovat)
Generování ortoepické transkripce
1
2
Výslovnostní lexikon - typická součást řečových databází i rozpoznávačů - možné varianty výslovnosti Generování podle pravidel - vhodné pro češtinu (problém pro angličtinu) - ortografická transkripce musí být ve slovní podobě - problém s cizími slovy resp. s nepravidelnou výslovností ⇓
Rozšířená ortografická transkripce Ortografická transkripce s vyznačenou nepravidelnou výslovností „(James/džejms) měl (panický/panycký) strach.ÿ
Anotace neřečových událostí
Anotace neřečových událostí - přeřeknutí, useknutí promluvy - neřečové události od řečníka - neřečové události reprezentující prostředí Informace o mluvčím a nahrávacích podmínkách Časové značky hranic fonémů (fonetická segmentace) - pro trénování HMM není tato informace nutná - pro trénování ANN jsou hranice elementů nezbytné - velmi pracné → nutno automaticky generovat
Anotační software
Požadavky na software: - snadná manipulace s labelovacím souborem - přehrávání signálu - další specifické funkce zefektivňující anotační proceduru Příklady: - WWWTranscribe (TU Muenchen) - Transcriber (http://trans.sourceforge.net) - další volně šiřitelné obecnější nástroje (Praat, WaveSurfer)
FTP Transcriber (VUT & ČVUT)
Transcriber
XTrans
Obrázek převzatý z M. L. Glenn, S. M. Strassel, H. Lee. XTrans: A Speech Annotation and Transcription Tool. In Interspeech 2009, Brighton, UK.
Dostupné české databáze na ČVUT FEL Český SpeechDat - ID databáze: FIXED3CS - telefonní databáze z pevné sítě, fs = 8000Hz, 8 bitů, a-law - 1052 mluvčích, cca 15 minut od jednoho mluvčího - obsahuje foneticky bohatý materiál i aplikačně orientované položky Dostupnost: ELRA (číslo v katalogu S0094) Číslovky - ID databáze: FIXED2CS - telefonní databáze z pevné sítě, fs = 8000Hz, 8 bitů, a-law - 1227 mluvčích, cca 5 minut od jednoho mluvčího - obsahuje aplikačně orientované položky (především základní číslovky) Dostupnost: ELRA (číslo v katalogu S0077) Český SPEECON - ID databáze: ADULT1CS, CHILD1CS - databáze z různých prostředí (kancelář, domov, auto, veřejné prostory), - fs = 16000Hz, 16 bitů, lineární PCM, 4 různé kanály - 590 dospělých a 50 dětí, cca 30 minut od jednoho mluvčího - obsahuje foneticky bohatý materiál i aplikačně orientované položky pro ovládání různých zařízení Dostupnost: ELRA (číslo v katalogu S0298)
Dostupné české databáze na ČVUT FEL
Databáze z automobilu - ID databáze: CAR2ECS - databáze nahrávek z automobilu, - fs = 16000Hz, 16 bitů, lineární PCM, 2 kanály - 118 mluvčích, pouze 2 minuty na mluvčího, cca 3,5 hodiny celkem - obsahuje číslovky, povely a věty (věty nejsou foneticky vyvážené) Dostupnost: ČVUT (http://noel.feld.cvut.cz/speechlab) Databáze z automobilu - ID databáze: CZKCC - databáze nahrávek z automobilu, - fs = 48000Hz, 44100Hz, 16 bitů, lineární PCM, 2 kanály - 1000 mluvčích, cca 30 minut na mluvčího, cca 500 hodin celkem - obsahuje číslovky, povely a foneticky vyvážené věty Dostupnost: firemní DB, ČVUT (pro výzkum a výuku)
Dostupné české databáze na ČVUT FEL
Databáze řeči s Lombardovým efektem - ID databáze: CLSD05 - databáze nahrávek s vyvolaným Lombardovým efektem (obsahuje paralelní nahrávky neutrální a Lombardovy řeči), - fs = 16000Hz, 16 bitů, lineární PCM, 2 kanály - aktuálně 26 mluvčích, cca 60 minut na mluvčího, - obsahuje foneticky bohatý materiál i aplikačně orientované položky Dostupnost: ČVUT (http://noel.feld.cvut.cz/speechlab)
Další dostupné databáze pro češtinu
VOA - Voice of America Broadcast News Czech - databáze českých zpráv stanice Hlas Ameriky, - fs = 16000Hz, 16 bitů, lineární PCM, 1 kanál - cca 30 hodin řeči celkem - obsah lze pokládat za foneticky bohatý materiál Dostupnost: LDC (LDC2000S89, LDC2000T53) Czech Broadcast News Speech - databáze českých zpráv z rozhlasu a televize - fs = 22050Hz, 16 bitů, lineární PCM, 1 kanál - cca 50 hodin řeči celkem - obsah lze pokládat za foneticky bohatý materiál Dostupnost: LDC (LDC2004S01, LDC2004T01)
Databáze pro další jazyky
TIMIT - TIMIT základní širokopásmová databáze americké angličtiny, NTIMIT je varianta pro řeč v telefonním pásmu, CTIMIT je varianta pro mobilní telekomunikační sítě. WSJ0, WSJ1 - čtené texty z deníku Wall Street Journal. TIDIGITS - Vývoj a testování rozpoznávače s malým slovníkem (modely celých slov) SpeechDat, SPEECON - řada databází se stejnou strukturou a obsahem pro většinu evropských a světových jazyků AURORA - databáze pro srovnávací experimenty parametrizací řeči řečová data + trénovací a testovací skripty + referenční etalon AURORA 2 - English (TIDIGITS + umělý šum) AURORA 3 - German, Finish, Spanish, Italian, Danish (reálné prostředí automobilu) AURORA 4 - English (WSJ - spojitá řeč, umělý šum)