• DEMO
• Převod signálu na slovní reprezentaci • Rozpozná jen to, na co byl naučen • Jazyk, prostředí, slovník, téma • Každé slovo zná svůj čas
• Přijďte za mnou po přednášce (iPhone, iPad) • Sledujte Twitter • Podívejte se, jak se choval rozpoznávač v nestandardních situacích
ZÍSKÁVÁNÍ DAT Z ŘEČI www.phonexia.com, 1/16
INFORMACE V ŘEČI B žný lov k vysloví pr m rn 7400 slov denn , napíše však maximáln n kolik set slov písmo 8%
e 92%
Pouze text je však dnes indexován vyhledáva i, dohledatelný a používán v rozhodovacích procesech www.phonexia.com, 2/16
OBSAH Co je v e i? Jaké jsou dnes k dispozici technologie a co umí? Kdy se budeme s e ovými technologiemi b žn setkávat? Jak se zapojit?
www.phonexia.com, 3/16
CO JE V ŘEČI Mluvčí
Obsah
Jazyk hovoru Dialekt, p vod e níka Vzd lání e níka Pohlaví, v k Identifikace mluvčího
Klíčová slova Doslovný přepis řeči Téma Kdy mluv í mluví
Prostředí
Technika
Kde mluv í mluví Ke komu mluv í mluví (dialog, tení, proslov) Jiné zvuky (hudba apod.)
P ístroj (tel./mic/...) P enosové kanály (pevná/mobil/Skype) Kodeky (gsm/mp3/…) Kvalita signálu www.phonexia.com, 4/29
ŘEČOVÉ TECHNOLOGIE Přepis “Dobrý den” Rozpoznání řeči
Hovor / řeč
Klíčová slova “Novák”
Identifikace mluvčího
Kdo Jan Novák
Identifikace pohlaví
Pohlaví Muž / Žena
Identifikace jazyka
Jazyk ENG / DEU / ??
www.phonexia.com, 5/29
PŘEPIS ŘEČI NA TEXT • P epis e i vygeneruje k audiu dopl kovou informaci (text), kterou lze snadno indexovat, vyhledávat v ní a použít pro zp ístupn ní audia • Umož uje nasadit nástroje pro analýzu textu.
pro
Příklady využití:
• PrepisReci.cz (CZ), Prednasky.com (CZ), SuperLectures.com (EN) www.phonexia.com, 6/29
KVALITA PŘEPISU • Pokud je adaptace na jazykovou doménu (medicína, právo, IT), má text minimum chyb a lze ho b žn íst Prednasky.com, SuperLectures.com • Bez adaptace na jazykovou doménu a p i b žné konverza ní e i lze pochopit význam textu a lze v n m vyhledávat PrepisReci.cz www.phonexia.com, 7/16
PŘEPIS ŘEČI NA TEXT e
Zdroj
Dopravní policisté chystají na Velikonoční svátky přes sto sedmdesát dopravních akcí. Na idi e bude podle šéfa dopravní police dohlížet p es tisíc policistů.
P epis
Dopravní policisté chystají nevelikonoční svátky přesto sedmdesát dopravních akci. Ne idi e bude podle šéfa dopravní policie dohlížet p es tisíc policistu. www.phonexia.com, 8/16
DOHLEDATELNOST • Rozpoznávač může dělat chyby (počítač nezná fyzikální podstatu světa, naše koníčky, kamarády, vztahy) • Můžeme ale vygenerovat i alternativní (blízké) varianty přepisu a v nich pak vyhledávat => Téměř 100% dohledatelnost
www.phonexia.com, 9/16
DETEKCE KLÍČOVÝCH SLOV • Jednodušší a rychlejší technologie • Nižší přesnost než přepis • Lze snadněji pokrýt velkou řadu jazyků • Použití například pro monitoring médií nebo kontrolu práce operátorů v call centrech
www.phonexia.com, 10/16
IDENTIFIKACE MLUVČÍHO • • •
• • •
Mluvčího lze popsat hlasovým otiskem o délce jen 600 bajtů Hlasové otisky lze snadno porovnávat (řádově milióny porovnání v čase < 1s) Aplikace: verifikace osoby / vyhledávání záznamu podle hlasu / propojování záznamů od stejného mluvčího / segmentace nahrávky na mluvčí Technologie je výrazně lepší než člověk Každé 2 roky chybovost klesne na ½ V brzké době bude na každém telefonu a výrazně omezí anonymitu hlasové komunikace
x
x
>>
x
x
www.phonexia.com, 11/16
IDENTIFIKACE JAZYKA •
• •
Funguje jako klasifikátor, který lze trénovat k rozpoznání libovolného jazyka nebo i dialektu
x
Tréning probíhá na 10 až 20 hodinách nepopsané řeči (jen je potřeba znát jazyk)
x
Cca 40 předtrénovaných jazyků
x x
>> x x x x x
www.phonexia.com, 12/16
KDY SE BUDEME S ŘEČOVÝMI TECHNOLOGIEMI BĚŽNĚ SETKÁVAT? •
Dnes jsou běžně využívány call centry, zpravodajskými složkami, začínají se používat v mobilních aplikacích a začínají se objevovat se na internetu (např. Prednasky.com)
•
Omezující faktor je kvalita záznamu: − se vzdáleností mikrofonu od úst klesá přesnost − šumy a neřečové události snižují přesnost − s množstvím různých mikrofonů klesá přesnost
•
Řešením je nový hardware a lepší algoritmy www.phonexia.com, 13/16
ZAŘÍZENÍ, KTERÉ VŠE ZMĚNÍ Mobilní telefon Mikrofonní pole
Handsfree
www.phonexia.com, 14/16
JAK SE ZAPOJIT? 1) Společné inovativní projekty Nabízíme technologii, technickou podporu, pomoc s komercializací a naše kontakty 2) Hledáme vývojáře, obchodníky, marketéry, designéry, … na stálou pozici i na občasnou výpomoc 3) Lze se zapojit přímo do špičkového výzkumu na Speech@FIT www.phonexia.com, 15/16
OTÁZKY A ODPOVĚDI Phonexia s.r.o.
[email protected] www.phonexia.com
www.phonexia.com, 16/16
í Phonexia a Superlectures ?
• • • • • •
• Nasbírat data Zvolit parametry Zvolit model Natrénovat model Evaluaovat klasifikátor
nasazení
Apriorní znalost problému
Modely
vstup
Výpočet příznaků
Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz)
rozhodnutí
“Dekódování”
-
• •
Gaussian Mixture models – kluci, holky vstup
MFCC
Vyhodenocení GMM skóre
Rozhodnutí
kluk, holka
•
•
O
• •
O
• •
•
• • •
•
•
matylda1:/mnt/data matylda2:/speech matylda3:/speech matylda4:/speech matylda5:/speech matylda6:/speech scratch01:/mnt/data scratch02:/mnt/data scratch03:/mnt/data scratch04:/mnt/data scratch05:/mnt/data scratch06:/mnt/data
19T 8,1T 26T 26T 8,7T 8,7T 3,0T 3,0T 1,9T 3,0T 3,0T 4,4T
14T 6,3T 23T 14T 8,7T 8,0T 2,5T 866G 1,4T 1,4T 15G 1,9T
5,2T 72% /mnt/matylda1 1,8T 78% /mnt/matylda2 3,0T 89% /mnt/matylda3 12T 55% /mnt/matylda4 74G 100% /mnt/matylda5 713G 92% /mnt/matylda6 531G 83% /mnt/scratch01 2,1T 29% /mnt/scratch02 522G 73% /mnt/scratch03 1,6T 48% /mnt/scratch04 3,0T 1% /mnt/scratch05 2,6T 42% /mnt/scratch06
• Faculty (faculty members, research intent) research funds) • EU projects (FP[4567]) • Past: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA, MOBIO, weKnowIt, DIRAC • Running: FP7 GLOCAL
• US funding – Air Force EOARD, IARPA, DARPA • Local funding agencies - Grant Agency of CR, Ministries of Education, and Trade and Commerce • Czech “force” ministries – Defense, Interior
• • • – – – –
•
• – – – – –
• –
• Přemýšlet o výsledcích a chtít přijít věcem na kloub.
Děkujeme za pozornost http://phonexia.com/ http://superlectures.com/ http://speech.fit.vutbr.cz/