Řečové technologie v praxi
ŘEČOVÉ TECHNOLOGIE v PRAXI Josef Psutka, FAV ZČU v Plzni
Obsah: 1. 2. 3.
1.10 2014
Automatické rozpoznávání řeči počítačem Počítačová syntéza řeči Hlasový dialog člověka s počítačem
1
MSV Brno
Řečové technologie v praxi
Automatické rozpoznávání řeči Úloha:
Systém pro diktování textů do počítače
Charakteristika: o SW systém pro automatický převod české mluvené řeči do textu o Využívá se pro snížení náročnosti tvorby psaných dokumentů o Uvolnění rukou a zraku pro jiné účely o Pomoc handicapovaným
1.10 2014
2
MSV Brno
Řečové technologie v praxi
Vlastnosti: o o o o o o o
Přepis v reálném čase bez zpoždění se slovníkem větším než 1 mil. slov Rozsáhlé výslovnostní slovníky jmen a příjmení, obcí, ulic, firem … (dalších 1,5 milionu slov) Denní aktualizace slovní zásoby Automatická adaptace na hlas řečníka Využití moderního HW (paralelizace, GPU) Hlasové ovládání aplikace Obory použití - medicína (patologie, histologie, radiologie, chirurgie, ORL, interna, kardiologie, onkologie, psychiatrie … ) - právo (soudnictví, advokacie … ) - státní správa - soukromá sféra
o
1.10 2014
SW se prodává pod označením MegaWord
3
MSV Brno
Řečové technologie v praxi
1.10 2014
4
MSV Brno
Řečové technologie v praxi
Automatické rozpoznávání řeči Úloha:
Titulkování živých televizních pořadů
Projekt:
Eliminace jazykových bariér handicapovaných diváků České televize
Charakteristika:
Tvorba skrytých titulků živě vysílaných TV pořadů různých žánrů (politika sport, zábava … ) Náhrada stenotypistů a rychlopísařů na klávesnici Dva přístupy k řešení úlohy o přímé (automatické) titulkování z doprovodné zvukové stopy TV pořadu o titulkování s využitím tzv. stínového řečníka
1.10 2014
5
MSV Brno
Řečové technologie v praxi
Přímé automatické titulkování Zvuková stopa TV pořadu
Titulky
ASR (realtime LVCSR)
Lze využít jen pro specifické typy TV pořadů o vždy mluví pouze jeden řečník o kultivovaný projev řečníka o omezená doména projevu o klidné akustické prostředí
1.10 2014
6
MSV Brno
Řečové technologie v praxi
Přímé automatické titulkování
přenosy z Parlamentu ČR (Poslanecké sněmovny a Senátu)
specifické akustické modely pro poslance a senátory
specifický jazykový model a slovník s automatickou aktualizací
zpracovaný titulek je automaticky doplněn interpunkcí
titulky opatřeno dosud více než 1,5 tisíce přenosových hodin
přesnost vytvářených titulků je přes 90%
1.10 2014
7
MSV Brno
Řečové technologie v praxi
Titulkování s využitím stínového řečníka Zvuková stopa TV pořadu
Titulky
ASR (realtime LVCSR)
Hodí se pro pořady diskusní (časté střídání řečníků, řečníci mluví najednou), pořady sportovní a zábavní (ruch na pozadí, emotivní řeč) apod.
Lze využít pro libovolné žánry pořadů
Inspirace u BBC, vyvinuta vlastní (lepší) technologie
4-fázový trénink s využitím patentem chráněného trenažéru
Přesnost vytvářených titulků přes 98%
1.10 2014
8
MSV Brno
Řečové technologie v praxi
Práce stínového řečníka
Poslouchá zvukovou stopu TV pořadu
Diktuje do titulkovacího systému
Vybírá řeč „hlavního“ řečníka (pokud mluví více řečníků najednou)
Koriguje mluvu řečníka
Kontroluje a opravuje výsledný text titulků
Přidává nová slova do slovníku (je-li to třeba)
Indikuje změnu řečníka (změna barvy titulku)
Zadává interpunkci
Zvládá až 2 hodiny titulkování
1.10 2014
9
MSV Brno
Řečové technologie v praxi
Schéma titulkování živých pořadů
1.10 2014
10
MSV Brno
Řečové technologie v praxi
Titulkování s využitím stínového řečníka Individuální akustický model pro každého stínového řečníka Specifický jazykový model a slovníky pro každou domény S využitím stínového řečníka titulkovány Diskusní a politické pořady:
Otázky Václava Moravce, Hyde Park, Interview 24, Ekonomika 24, Volební debaty
Zábavné, estrádní a kratochvilné pořady:
Cena TýTý, Cena Thálie, Sportovci roku (atlet, fotbalista …. ), Star Dance …
Sportovní přenosy:
hokejová a fotbalová čs.liga, evropská liga, tenis (Davis Cup, Fed Cup); OH v Soči, MS v hokeji a ve fotbale
(titulkování dalších typů pořadů se připravuje
1.10 2014
11
MSV Brno
Řečové technologie v praxi
Vyhledávání informací v audio(-vizuálních) archivech Rychlé vyhledávání informací v proudu mluvené řeči (on-line anebo archiv záznamů) Hledání klíčových frází (slov) v proudu řeči o Hledání na úrovni vyslovených a rozpoznaných slov o Hledání na úrovni vyslovené posloupnosti fonetických zvuků Hledání topiků, tj. audio segmentů, kde se mluví o daném tématu Využití: call centra, rozsáhlé multimediální archivy, bezpečnostní složky státu
1.10 2014
12
MSV Brno
Řečové technologie v praxi
Počítačová syntéza řeči IT technologie, která umožňuje převádět psaný text na mluvenou řeč (angl. TTS systémy – Text-to-Speech) Cílem je generovat řeč z libovolného textu ve vysoké kvalitě Není možné uložit všechna slova (věty) do počítače, a pak je jen přehrávat! Konkatenační korpusově orientovaný systém
Text
1.10 2014
Řeč
13
MSV Brno
33 Řečové technologie v praxi
Schéma procesu TTS Dnes bude zataženo,, v některých oblastech přeháňky,, po 6. hod. očekáváme sněžení.. D dnez bude zataženo
vňekterích oblastech přeháňki pošesté hoďiňe očekáváme sňežeňí textová analýza, fonetická transkripce, prozodická slova
pauza
pauza
pauza
nádech
prozodická analýza, intonační a rytmický průběh
výběr, spojování a úprava základních řečových jednotek
1.10 2014
14
MSV Brno
Řečové technologie v praxi
Počítačová syntéza řeči Využití: Automatické čtení textu pro zrakově handicapované osoby Automatický dabing (čtení titulků) televizních pořadů Automatické hlásiče (nádraží, bezpečnostní složky apod.) Součást hlasových dialogových systémů Ukázky : „monohlasový“ pořad míchání (2orig) (2TTS)
1.10 2014
15
MSV Brno
Řečové technologie v praxi
Hlasový dialog člověka s počítačem Hlavním účelem hlasových dialogových systémů (HDS) je vytvořit rozhraní mezi počítačem řízenou aplikací a uživatelem komunikujícím hlasem
1.10 2014
16
MSV Brno
Řečové technologie v praxi
Hlasový dialog člověka s počítačem Hlasové dialogové systémy dovolují uživatelům komunikovat prostřednictvím hlasu s počítačovými nebo internetovými aplikacemi, jako jsou databázové a expertní systémy nebo systémy automatického řízení, ovládání a monitorování
Využití HDS je efektivní v situacích, kdy o o
Oči i ruce uživatele jsou plně zaměstnány jinými úkoly
o
Uživatel je vzdálen od systému a může využít pouze hlasové komunikace přes běžné telefonní nebo radiové spoje
o
Uživatel je zdravotně handicapovaná osoba s pohybovými, příp. zrakovými obtížemi
Uživatel má potřebu být pohyblivý a jiná vstupně-výstupní zařízení jsou neefektivní
Ukázky dialogu: - Informace o odjezdech vlaků „zde“ - Inteligentní asistentka „zde“ - Trenažér pro výuku řídicích letového provozu „zde“ 1.10 2014
17
MSV Brno
Řečové technologie v praxi
Děkuji za pozornost
1.10 2014
18
MSV Brno
Řečové technologie v praxi
1.10 2014
19
MSV Brno