Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Počítačové zpracování řeči a možnosti jeho využití ve státní správě Josef Psutka
Katedra kybernetiky, Fakulta aplikovaných věd Západočeská univerzita v Plzni
26.9 2006
1
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Řečové technologie – možnosti využití q q
q q
q
26.9 2006
Rozpoznávání mluvené řeči počítačem Vyhledávání slov v audio archivech anebo v proudu řeči Počítačová syntéza řeči Hlasové dialogové systémy (dialog člověka s počítačem) Verifikace a identifikace osob podle hlasu
2
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Rozpoznávání mluvené řeči počítačem (1) Nároky na konstrukci systému:
q Charakteristiky hlasů jednotlivých řečníků jsou modelovány tzv. akustickým modelem • •
systém může být trénován na hlas jediného řečníka, anebo může být na řečníku nezávislý (je trénován z hlasů stovek až tisíců různých hlasů)
q Způsob řazení slov v promluvě je modelován tzv. jazykovým modelem •
26.9 2006
jazykový model je získán zpracováním rozsáhlých textů (promluv) – miliony až stovky milionů běžných slov
3
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Rozpoznávání mluvené řeči počítačem (2) Současné možnosti:
q Počítač umí rozpoznat jen slova, která má ve slovníku q Velikost slovníku může být několik desítek až stovek tisíc slov
q Systémy jsou schopny práce v reálném čase q Přesnost (chybovost) systému silně závisí na mnoha (často neovlivnitelných) parametrech
26.9 2006
4
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Rozpoznávání mluvené řeči počítačem (3) Dosahovaná přesnost rozpoznávání:
q Ovlivněna kvalitou přenosového kanálu a prostředím (telefonní kanál, tichá místnost, řeč v jedoucím autě ap.)
q Množstvím řečníků, na jejichž hlasy byl systém trénován a kteří jej využívají
q Způsobem mluvení (čtená řeč, spontánní řeč ap.) q Typické hodnoty přesnosti rozpoznávání:
26.9 2006
•
čtená řeč, systém adaptován na jediný hlas – 90 až 95%
•
spontánní řeč, telefonní kanál – 50 až 70%
5
Personalis 2006
On-line titulkování zasedání parlamentu
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Rozpoznávání mluvené řeči počítačem (4) Možnosti využití systémů rozpoznávání řeči:
q Přepis řeči do textu (omezené možnosti) q Titulkování televizních pořadů (skryté titulky) q Systémy pro vyhledávání informací v rozsáhlých řečových archivech
q Systémy vyhledávání klíčových slov v proudu řeči q Hlasové dialogové systémy
26.9 2006
7
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Hledání klíčových slov (1) Možnosti využití:
q Hledání v řečových archivech (záznamy schůzí, videonahrávky diskusí apod.)
q Lze hledat klíčová slova nebo topiky (témata, o kterých se mluví)
q Systémy on-line vyhledávání klíčových slov v proudu řeči (monitorování telefonních linek apod.)
q Systémy umožňují hledat i slova, která nejsou ve slovníku 26.9 2006
8
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Hledání klíčových slov (2) Ukázka vyhledávání klíčových slov v záznamech schůzí Parlamentu ČR
26.9 2006
9
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Počítačová syntéza řeči (1) q Nejsložitější a nejpoužívanější jsou systémy převodu textu na řeč
q Systémy dosahují dokonalé srozumitelnosti výsledné syntetické řeči
q Intenzivní výzkum je soustředěn na zvyšování přirozenosti
q Systémy převodu textu na řeč jsou konstruovány tzv. „zřetězováním“ velmi krátkých segmentů řeči z rozsáhlé databáze promluv konkrétního řečníka
26.9 2006
10
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Počítačová syntéza řeči (2) q Ukázky vývoje počítačové syntézy češtiny:
• věta č.1 : • věta č.2 :
26.9 2006
11
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Počítačová syntéza s podporou audiovizuální artikulující hlavy
26.9 2006
12
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
26.9 2006
13
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Hlasové dialogové systémy (1) q Dovolují člověku získávat informace prostřednictvím hlasové komunikace s počítačovými a internetovými aplikacemi
q Dialogové systémy jsou zatím konstruovány vždy pro konkrétní aplikační oblast q
Vyhledávání informací uložených v databázích a na Internetu (často komunikace s využitím telefonu) • informační systémy (informace o kulturních pořadech, o
odjezdech vlaků apod). q
Komunikace se systémy automatického řízení, ovládání a monitorování • automatická spojovatelka, ovládání zařízení hlasem apod.
26.9 2006
14
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Hlasové dialogové systémy (2) Příklady použití: q Přihlašování na zkoušky • Alternativa k přihlašování na zkoušky přes internet.
q Automatická spojovatelka q Aktuální zpravodajství • Čtení aktuálních novinek (zpráv) ze serveru www.idnes.cz pomocí formátu RSS, tel. 377 638 805
q Výsledky přijímacího řízení na ZČU přes telefon • V provozu již od roku 2000, každý rok (červen, červenec) obslouží 2000-3000 hovorů. 26.9 2006
15
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Hlasové dialogové systémy (3) Funkční schéma dialogového systému „Přijímací řízení“
Vybrat fakultu ze seznamu
Pozdrav a informace
Vybrat studijní obor ze seznamu
Vlož své IČ Výsledky zkoušky nnnnnenalezeno
IČ nalezeno ? ?zeno
–
Další info ? nnnnnenal
+
+
–
26.9 2006
16
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
Verifikace a identifikace osob podle hlasu q Verifikace řečníka – ověření, zda hlas neznámé osoby je dostatečně podobný hlasu člověka, za kterého se neznámá osoba vydává q Identifikace řečníka – úkolem je zjistit, kterému ze skupiny známých (referenčních) řečníků je hlas neznámé osoby nejvíce podobný q Využití • Všude, kde jde o ověřování totožnosti lidí a k dispozici je vzorek jejich hlasu (soudy, policie, zabezpečení před neoprávněným vstupem apod.) 26.9 2006
17
Personalis 2006
Počítačové zpracování řeči a možnosti jeho využití ve státní správě
SHRNUTÍ Možnosti využití řečových technologií ve státní správě a při obraně bezpečnosti státu: q Hledání klíčových slov (terorismus, kriminalita) q Vyhledávání v řečových archivech (audio nebo video záznamy schůzí, jednání, telefonních záznamů apod.)
q Informační „stánky“ – počítačové syntéza řeči (handicapovaní) q Dialogové systémy (možnost vyhledat zveřejněné informace prostřednictvím telefonu)
q Verifikace a identifikace osob podle hlasu (bezpečnost státu)
26.9 2006
18
Personalis 2006
Děkuji za pozornost!
Zveme Vás do přísálí na ukázky funkce reálných systémů z oblasti řečových technologií
http://ui.zcu.cz
26.9 2006
19
Personalis 2006