Beszédfelismerés alapú megoldások AITIA International Zrt. Fegyó Tibor
[email protected]
www.aitia.hu
AITIA • Magyar tulajdonú vállalkozás • Célunk: kutatás-fejlesztési eredményeink integrálása személyre szabott komplex informatikai rendszerekbe, szolgáltatásokba • Szoros kapcsolat egyetemi kutatóhelyekkel
Beszédfelismerés alapú megoldások
AITIA termékcsoportok • Távközlési mérımőszerek és szolgáltatások • Társadalmi és gazdasági folyamatok szimulációja • Web fejlesztés • Beszédfelismerés és alkalmazásai
Beszédfelismerés alapú megoldások
Beszédfelismerési technológia • Célja: beszédbıl szöveg átalakítása • Alkalmazási típusai – Parancsszó vezérlés (pl. név szerinti tárcsázás) – Kulcsszó keresés rövid szövegben, a parancsszó vezérlés kiterjesztése – Kulcsszó keresés folyamatos szövegben – Folyamatos felismerés (diktálás, archívum indexálás) • Kihívások: < 100% pontosság, zajos környezet, nincs univerzális megoldás Beszédfelismerés alapú megoldások
VOXenter • • • • • •
Hangportál keretrendszer Teljes IVR funkcionalitás GUI a dialógus szerkesztéshez Hívás fogadás és indítás Különbözı adatbázis, és telefon interfészek Példák – Név alapú tárcsázás, okmányirodai, önkormányzati tájékoztatás, tudakozó szolgáltatás, helyfüggı szolgáltatás, www.gyorgyszervonal.hu Beszédfelismerés alapú megoldások
VOXearch • Rögzített hanganyagok feldolgozása, indexelése folyamatos beszédfelismerési módszerrel • Tematikus betanítást igényel • Adatbázisok győjtése 20-70 óra/ 200k-5M szó • Jelenlegi teszek valós idıben 60-80%-os pontosság • Nem diktálás, hanem keresés a cél • Példa: híradó keresı (www.mindroom.hu), hangarchívum keresı Beszédfelismerés alapú megoldások
VOXerver • Saját fejlesztéső beszédfelismerı motor + tanító keretrendszer • Parancsszó vezérléstıl a folyamatos felismerésig azonos az alap technológia • Morféma alapú statisztikus nyelvi modellezés • Interfészek külsı alkalmazások felé, beépíthetı fekete dobozként • Mobil eszközre portolásra kísérletek Beszédfelismerés alapú megoldások
Mitıl mőködik? • A beszédfelismerı alapvetıen adatvezérelt, statisztikai megközelítéseket tartalmaz – A beszéd hangokat sok ember hangjával kell tanítani, témafüggetlen, de akusztikus környezet, és beszédstílus függı – A szótárat (nyelvi modell) azzal a témakörrel kell tanítani, ahol használják. Alkalmazás függvényében a tanító szöveg: • szó lista • folyamatos szöveg
• A keretrendszer kész, de a tanítás nem megkerülhetı ⇒ egyedi projektek Beszédfelismerés alapú megoldások
Őrlapkitöltés, leletezés • Az őrlapok egyes mezıiben korlátos válasz lehetıségbıl választhatunk • A szabad szavas mezık is tipikusan kis szótárral leírhatóak • A tanítás együttmőködést igényel az alkalmazó részérıl, mivel a tanító adat ott áll rendelkezésre • Többlépcsıs tanítás a pontosság növelése érdekében: írott, majd elmondott adatokkal • Folyamatos karbantartással javul a minıség Beszédfelismerés alapú megoldások
Őrlapkitöltés, leletezés (2) • A kitöltött őrlap szabványos formátumban kerül tárolásra, így integrálható akár a meglévı kórházi dokumentum kezelı rendszerekkel is • Elosztott, és centralizált megoldás is elképzelhetı
Beszédfelismerés alapú megoldások
Betegirányítás • • • • • •
Automata telefonos rendszer Hangbemondással lehet elérni az osztályokat Általános információk adhatók automatikusan Tehermentesíti a portást/ telefonközpontost Idıpont egyeztetés Szőrıvizsgálatok eredményének lekérdezése
Beszédfelismerés alapú megoldások
Demonstráció (1) • Folyamatos felismerı • 1.2M szóval tanított rendszer • (politikai) jellegő hírek feldolgozása
Beszédfelismerés alapú megoldások
Demonstráció (2) • • • •
Név szerinti tudakozó 24 000 elemő szótár Név+város+utca Parancsszavas üzemmód
Beszédfelismerés alapú megoldások
Demonstráció (3) • • • • •
Híradó keresı Folyamatos felismerésre épülı címkézı rendszer 5+ M szavas tanító halmaz Tetszıleges kulcsszóra kereshetünk „Új” szavak is elıfordulhatnak a morféma modellek miatt
Beszédfelismerés alapú megoldások