Asistivní technologie Přehled výzkumu na českých vysokých školách
Autoři: Lenka Lhotská, Olga Štěpánková, Daniel Novák České vysoké učení technické v Praze
Listopad 2013
Úvod
Výzkumnými tématy, které mají dopad na oblast asistivních technologií, se v České republice zabývá několik vysokých škol. Konkrétně jde o České vysoké učení technické v Praze, Západočeskou univerzitu v Plzni, Technickou univerzitu v Liberci, Vysokou školu báňskou – Technickou univerzitu Ostrava a Vysoké učení technické v Brně.
České vysoké učení technické v Praze Projekt Centra asistivních technologií V prostorách FEL ČVUT bylo vytvořeno centrum moderních technologií pro výuku v oblasti asistivních technologií. Tato oblast výuky zahrnuje prostředky a technologie péče a zkvalitnění života seniorům, invalidním a handicapovaným občanům a dětem. Centrum asistivních technologií (CAT) je realizováno ve spolupráci dvou vysokých škol ČVUT a UK (celkem šest kateder FEL ČVUT a jeden ústav 1. LF UK) pro výuku interdisciplinární oblasti asistivních technologií jako jedné z hlavních priorit vzdělávacího programu v rámci EU. S ohledem na výraznou interdisciplinaritu oboru a velkou ekonomickou náročnost těchto technologií je CAT vytvářeno ve spolupráci více pracovišť s uvažováním výrazného synergického přínosu sdílení znalostí i technologií. CAT je využíváno v prvé řadě studenty FEL a 1. LF (bakalářské, magisterské, kombinované, doktorské studium, celoživotní vzdělávání a studium v anglickém jazyce), a dále i pro celoživotní vzdělávání biomedicínských inženýrů a zdravotních pracovníků. Jako podmnožina asistivních technologií je rovněž cílem CAT uvádění technologií a pomůcek pro vzdělávaní handicapovaných. V České republice je CAT první integrované pracoviště pro podporu výuky v oblasti AT neexistuje. Katedry, které se na přípravě projektu podílejí, vycházejí ze svých zkušeností ve výuce v oboru Biomedicínské inženýrství a mohou se opírat i o mezinárodní zkušenosti získané v rámci řešených projektů 6. a 7. rámcového programu, zaměřených na eHealth, eInclusion a AT.
2
V současné době je v prostorách CAT využívána přístrojová technika, která jednak souvisí s přímou lékařskou péčí, jednak tvoří podpůrnou infrastrukturu a v neposlední řadě je využitelná v oblasti domácí péče a asistivních technologií. Toto vybavení je využíváno pro výuku a výzkum, je také možné ho využívat v celoživotním vzdělávání pro široké spektrum účastníků kursů, včetně pracovníků ze sociální sféry.
Projekt navigace pro nevidomé – uveden v prezentaci L. Lhotské Projekt I4Control – uveden v prezentaci D. Nováka Další projekty navigace – uvedeny v prezentaci Z. Míkovce
Západočeská univerzita v Plzni Syntéza řeči Systémy akustické syntézy řeči samy o sobě nabízejí široké pole uplatnění, ať už v oblastech, kde jiný než hlasový způsob komunikace nepřichází v úvahu, ale i tam, kde možnost hlasové komunikace výrazně obohatí kvalitu dané lidské činnosti nebo prostě tam, kde hlasová syntéza může ulehčit život. Syntetizovaná řeč může nahradit skutečného lidského řečníka na širokém spektru různých pozic – od rutinního oznamování opakujících se informací (zastávky MHD, nádraží, apod.), přes hlasový monitoring údajů (řídicí střediska), informační a dialogové systémy (automatická spojovatelka, telefonní klientské či informační linky), až po vysoce propracované a přirozené čtení libovolných textů (e-maily, SMS, ale i celé knihy). V současné době nelze též syntéze řeči upřít stoupající uplatnění v zábavním průmyslu. Nicméně nejužitečnějšími aplikacemi syntézy řeči jsou nepochybně aplikace pro handicapované lidi. Tyto aplikace mohou využívat lidé s různým zrakovým, sluchovým nebo hlasovým postižením. Zrakově postižení mohou používat systém TTS, který jim bude předčítat jakýkoliv text (např. ve formě čtečky obrazovky, screen readeru). Hlasově postižení mohou k vytváření „své“ řeči využívat svůj „osobní“ systém syntézy řeči. Lidé, kteří ztratili řeč například po mozkové mrtvici, mohou využít technologii založenou na modelu mluvicí hlavy pro výuku řeči. Sluchově postižení mohou upřednostnit poslouchání neutrální, srozumitelné a akusticky čisté syntetické řeči před zašuměnou, dynamickou přirozenou řečí. Lidé s menším postižením sluchu
3
mohou dále současně využívat informace vizuální, získané odezíráním modelu mluvicí hlavy (zejména rtů), i akustické, obsažené ve vytvářeném řečovém signálu. Využití obou druhů informace může najít významné uplatnění i například k výuce znakové řeči sluchově nepostižených. Audiovizuální rozpoznávání řeči Jedná se o úlohu rozpoznávání řeči počítačem, v níž je využíváno obou složek řeči: akustické složky a vizuální složky. Řeč je produkována řečovým ústrojím a výsledkem produkce řeči člověkem je akustický signál, který můžeme slyšet a pohyb řečového ústrojí, který můžeme vidět. Bohužel viditelnou část hlasového ústrojí představují pouze rty, zuby, jazyk a tváře člověka. Proto vizuální složka řeči obsahuje méně informace než akustická složka řeči. Vizuální složku řeči využívají nejen lidé se sluchovým postižením (odezírání ze rtů), ale používáme ji nevědomě všichni v běžné komunikaci především v hlučných prostředích. Audio-vizuální syntéza řeči Je dobře známo, že odezírání ze rtů je nutnou podmínkou porozumění řeči sluchově postižených lidí. Ti používají specifických tvarů tváře zejména pak rtů k získání informací o promluvě. Ale i pro normálně slyšící jedince pomáhá vizuální vjem k lepšímu porozumění. Již v roce 1935 pak Cotton uvedl, že vizuální řeč je důležitou částí vizuálního slyšení normálně slyšících i když v těchto případech je vždy dominantním akustický vjem. Proto můžeme konstatovat, že vizuální řeč je přirozenou částí verbální mezilidské komunikace. Do vizuální řeči můžeme zahrnout všechny řečové projevy, které můžeme vnímat zrakem na tváři řečníka. Kompletní vizuální informace je zprostředkována tvarem a pohybem rtů, brady, zubů, tváří a krku. Vizuální a akustické projevy jsou z principu jejich vzniku synchronizované. Důkazem o přínosu vizuální řeči k celkovému porozumění jsou prováděné audio-vizuální studie vnímání řeči. Projekt ELJABR Projekt ELJABR (ELiminace JAzykových BaRiér handicapovaných diváků České televize) byl odstartován 1. 7. 2006 a ukončen 30. 9. 2011. Na projektu spolupracovala Laboratoř počítačového zpracování řeči (katedra kybernetiky) na Západočeské univerzitě v Plzni a firma SpeechTech,
s.r.o.
Cílem
projektu
bylo
eliminovat
jazykové
bariéry
dvou
skupin
handicapovaných televizních diváků ČT. První skupinu tvoří diváci, kteří jsou sluchově postiženi 4
a kteří při sledování televizních programů využívají skryté titulky. Tento cíl byl řešen nasazením nově vyvinutých a speciálně přizpůsobených systémů automatického rozpoznávání řeči zejména při titulkování „živých“ pořadů. V případě druhé handicapované skupiny jde o starší nebo mentálně postižené diváky, kteří nejsou schopni vnímat doprovodný zvuk, vadí jim snížená srozumitelnost reálných dialogů, případně i doprovodná hudební a efektová složka. Při řešení této úlohy byla využita technologie počítačové syntézy řeči (jde o vytvoření paralelní zvukové stopy bez rušivých složek). Překlad do znakované řeči Základní jednotkou znakového jazyka je znak (zhruba odpovídá jednomu slovu (pojmu) v mluveném jazyce, to ale neplatí vždy). Znak má dvě složky: nemanuální a manuální. Nemanuální složka je vyjádřena mimikou, pohyby a pozicemi hlavy a horní části trupu (tzv. nemanuální nosiče). Manuální složka je vyjádřena tvary, pohyby a pozicemi rukou (tzv. manuální nosiče). Znaky se realizují ve znakovacím prostoru, který je zhruba vymezen rozpaženými lokty, temenem a linií vedenou pod žaludkem. Hlavní rozdíl mezi češtinou a ČZJ je dán tím, že ČZJ je vizuálně-motorický jazyk, tj. tento jazyk není vnímán sluchem ale zrakem a je založen na tvarech, pozicích a pohybu ne na zvuku. Z toho pramení dvě základní odlišnosti znakového jazyka: simultánnost a existence v trojdimenzionálním prostoru. První možností jsou systémy založené na pravidlech. Tyto systémy lze podle složitosti uspořádat do tzv. Vauquisovy pyramidy. V tomto případě: Překlad do znakované češtiny se jeví jako snadnější, to je dáno tím, že ve znakované češtině je kladen důraz na vztah jedna k jedné (co slovo to znak) mezi českým textem a jeho překladem do znakované češtiny. Ve znakované češtině je také zachována česká gramatika, odpadá tak převod do jiného gramatického vyjádření. Při překladu tedy stačí jen nalézt ke každému slovu, které se bude překládat (některá česká slova se při překladu do znakované češtiny vynechávají), odpovídající znak a případně přidat další znaky, které jsou nezbytné pro vyjádření správného smyslu české věty (např. znaky pro zájmena, která se v české větě explicitně nevyjadřují, ve znakované češtině však ano; znak vyjadřující zápor; znak pro minulý a budoucí čas apod.). Tento překlad lze tedy plně řešit pomocí systému s architekturou přímého překladu. Překlad textu do znakového jazyka je oproti tomu mnohem obtížnější. Je dokonce obtížnější než překlad češtiny do jiného, cizího mluveného jazyka. To proto, že v případě překladu češtiny do jiného mluveného jazyka, jde o překlad mezi jazyky, které sémantické vztahy a gramatické uspořádání ve větě vyjadřují stejně, tj. pomocí slov a ne např. využitím prostoru kolem 5
mluvčího, jako je tomu ve znakovém jazyce. Jak již bylo řečeno, znakové jazyky jsou vizuálněmotorické jazyky, které pro vyjádření sémantických vztahů v promluvě a jim odpovídajícím gramatickým konstrukcím používají znaky a jejich prostorové uspořádání ve znakovém prostoru (simultánnost a existence v trojdimenzionálním prostoru). Vzhledem k tomu, že neexistuje psaná forma žádného znakového jazyka, která by byla přijatá a používaná neslyšícími (existují ovšem psané formy, které byly uměle vytvořeny pro potřeby slyšících uživatelů např. systém SignWriting nebo pro potřeby reprezentace znaků na počítači např. HamNoSys - notační systém, pro zápis libovolného znakového jazyka, podobný jako fonetická transkripce pro mluvenou řeč), je pořízení paralelních korpusů, které by se daly použít pro statistický přístup k řešení problému překladu, velice obtížné a nákladné. Drtivá většina systémů je tedy založena na využití lingvistického přístupu k řešení problému překladu. Rozpoznávání znakového jazyka Cílem rozpoznávání znakového jazyka je rozpoznat promluvu znakujícího člověka. Rozpoznaná informace je následně předána modulu překladu znakového jazyka, který jí přeloží do srozumitelné formy. Vstupem pro rozpoznávač je sekvence snímků, zachycena například kamerou. Obecně je možné použít i jíný snímací přistroj jako například datové rukavice. Syntéza znakové řeči Syntézou znakové řeči rozumíme napodobení pohybů znakující lidské postavy. Úkolem syntézy je vytvoření obrazu modelu člověka ukazující znakovou řeč například na obrazovce počítače. Spojením této animace se systémem překládající psaný text do znakové řeči dostáváme virtuálního tlumočníka překládající například televizní zprávy.
Technická univerzita v Liberci Projekty Laboratoře počítačového zpracování řeči Laboratoř počítačového zpracování řeči patří k vedoucím pracovištím v oboru hlasových technologií v České republice. Hlavní výzkumnou doménou byla a je oblast rozpoznávání řeči. Začátkem 90. letech byla pozornost zaměřena především na řešení problematiky rozpoznávání izolovaně pronášených slov a frází, později se začali věnovat i nejsložitější úloze - rozpoznávání plynulé řeči. V současné době vyvinuté systémy zvládají rozpoznávání jednotlivých slov z 6
rozsáhlých slovníků obsahujících řádově stovky tisíc slov, a to od libovolného mluvčího, v reálném čase (do 1 s) a s úspěšností nad 95 % - nejen na PC ale dokonce i na mobilním přístroji. U spojité řeči se procento správně rozpoznaných slov pohybuje kolem 90 % u přepisování televizních popř. rozhlasových pořadů a kolem 95 – 97 % u spojitého diktování libovolnou osobou (se slovníkem 350 000 slov). Je třeba si však uvědomit, že jde o velmi komplikovanou úlohu, zejména v češtině, jejíž slovník čítá několik milionů různých slovních tvarů. Hlavním krédem laboratoře je dělat nejen teoreticky zaměřený výzkum, ale vždy jej také ověřovat na konkrétních aplikacích a úlohách z praxe. Příkladem takto do praxe dovedených aplikací jsou programy MyDictate a MyVoice (navržené pro potřeby hendikepovaných osob), dále NewtonDictate (nejlepší český program pro spojité diktování, vyvinutý ve spolupráci s firmou Newton Technologies a.s.), ATT Toolkit (program pro přepis televizních a rozhlasových pořadů nasazený ve firmě Newton Media), či starší programy InfoCity neboVisper.
Vysoká škola báňská – Technická univerzita Ostrava Měření glykémie nevidomými Pro slabozraké či nevidomé osoby je čtení aktuálních údajů zobrazených na displeji osobních diagnostických přístrojů nedostupné. Nevidomý musí mít vždy při měření pomoc další osoby. Nově navržená unikátní elektronická konstrukce ve spojení s glukometrem umožňuje osobě slabozraké či nevidomé bez pomoci další osoby zjišťovat naměřené údaje a ty použít vhodně k dalšímu postupu léčby, tzn. osoba slabozraká či nevidomá bude schopna provádět „selfmonitoring" (sledování vývoje nemoci a úprava dávkování léčiva samotným pacientem). Elektronická konstrukce nezasahuje do zapojení domácích diagnostických přístrojů, pouze využívá sériové rozhraní poskytované těmito přístroji.
Vysoké učení technické v Brně Zpracování řeči Projekt je zaměřen na teoretický výzkum pro tyto oblasti aplikaci: - telekomunikace: informační systémy pro telefonní služby v pevné i mobilní síti, informace o dopravě, infrastruktuře obcí,
7
vstup do databází pomocí telefonu, použití mobilních telefonů vautomobilu a hlučných prostorech - multimediální prostředky využití výpočetní techniky: interaktivní systémy záznamu informací (diktovací stroje), interaktivní prostředky jazykové výuky, automatické titulkování v televizi, apod. - povelové systémy pro ovládání přístrojů, ovládání vybraných funkcí v palubním počítači automobilu, ovládání robotů hlasem - pomoc zdravotně postiženým: kochleární implantáty a jejich optimální aplikace, zvýrazňování řeči pro sluchově postižené.
Závěr V tomto stručném přehledu jsou uvedeny ty projekty, které se i prakticky využívají. Je zřejmé, že převažují softwarové projekty, které využívají velké přidané hodnoty ve využitých myšlenkách. Převažují aplikace na zpracování řečového signálu, případně textu. Oblast asistivních technologií, vyžadující využití různých přístrojů a hardwarových zařízení, je i finančně náročnější pro výzkum. Bez grantové podpory není možné výzkum v této oblasti realizovat. Problémem je často nepochopení ze strany hodnotitelů grantových přihlášek, protože interdisciplinární témata nelze snadno zaškatulkovat do základního členění podle oborů, které se standardně v grantových agenturách používá.
8