Masarykova univerzita Fakulta informatiky
Adaptace rozhlasového vysílání pro sluchově postižené Bakalářská práce
Brno 2014
Lubomír Hykl
Prohlášení Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.
Vedoucí práce: Mgr. Luděk Bártek, Ph.D
Poděkování Děkuji všem, kdo mi jako neslyšícímu studentovi Fakulty informatiky Masarykovy univerzity pro dokončení této práce vytvořili mimořádné podmínky. Můj dík patří především vedoucímu bakalářské práce, Mgr. Luďku Bártkovi, Ph.D., z Katedry počítačových systémů a komunikací FI MU, dále vedení Fakulty informatiky, jmenovitě doc. Mgr. Haně Rudové, Ph.D., proděkance pro bakalářské a magisterské studium, a pracovníkům Střediska pro pomoc studentům se specifickými nároky MU, především Mgr. Lukáši Másilkovi a řediteli střediska PhDr. Petrovi Peňázovi za jazykové korektury českého textu. Zvláštní dík patří všem členům mé rodiny, totiž mé manželce Daniele a mým dětem, Igoru Gordonovi a Regině Gordaně. Bez jejich pochopení a vstřícnosti by moje práce nebyla možná.
Shrnutí Cílem bakalářské práce bylo analyzovat programy pro automatické rozpoznání řeči a textové procesory nebo aplikace podporující přenos textu či videa v reálném čase. Na základě získaných informací autor práce připravil návrh a implementaci vlastní webové aplikace, která umožní lidem se sluchovým postižením sledovat rozhlasové vysílání v přístupné podobě. Jedná se o novodobý model transformace mluvené řeči do textové podoby a znakového jazyka, který využívá nejnovější vyspělé technologie a umožní komunitě sluchově postižených sledovat informace vyřčené v rozhlasovém vysílání.
Klíčová slova
aplikace, reálný čas, ASR, český znakový jazyk, avatar, textový procesor
1. ÚVOD 2. ORGANIZACE UNIE NESLYŠÍCÍCH BRNO, O. S. 3. KOMUNIKAČNÍ SPECIFIKA OSOB SE SLUCHOVÝM POSTIŽENÍM 3.1. Pojem „osoba se sluchovým postiženým“ 3.2. Slyšící čtenáři 3.3. Prelingválně neslyšící čtenáři 3.4. Nedoslýchaví čtenáři 3.5. Ohluchlí čtenáři 3.6. Hluchoslepí čtenáři 4. APLIKACE PRO AUTOMATICKOU ANALÝZU MLUVENÉ ŘEČI 4.1. Aplikace Newton Dictate a její analýza 4.2. Aplikace NovaVoice a její analýza 4.3. Aplikace Nuance Dragon NaturallySpeaking a její analýza 4.4. Aplikace Nuance Dragon Dictation a její analýza 4.5. Analýza všech argumentů k důvodu za nevyužití 4.5.1. Nepřesné rozpoznání promluvy v reálném čase 4.5.2. Rozhovor dvou a více mluvčích v reálném čase 4.5.3. Časté vyčerpání kapacity operační paměti 4.5.4. Použití hlasových příkazů při rozhlasovému vysílání 4.5.5. Adaptace mluvčích při rozhlasovému vysílání 5. APLIKACE PRO VIZUÁLNÍ ZPŘÍSTUPNĚNÍ MLUVENÉ ŘEČI V REÁLNÉM ČASE 5.1. Přenos psaného textu 5.1.1. Polygraf 5.1.2. eScribe
6
5.1.3. Transkript online s.r.o. 5.2. Přenos videa v českém znakovém jazyce 5.2.1. ooVoo - analýza 5.2.2. Microsoft Skype - analýza 5.2.3. Camfrog - analýza 5.2.4. Google Hangouts a Google Hangouts Air - analýza 5.2.5. Ustream - analýza 5.2.6. Apple FaceTime - analýza 6. APLIKACE NA AUTOMATICKÉ ROZPOZNÁNÍ MLUVENÉ ŘEČI S PŘEKLADEM DO ČESKÉHO ZNAKOVÉHO JAZYKA - AVATARA 6.1. MUSSLAP 6.2. Jiné projekty založené na motion capture 6.3. Shrnutí 7. APLIKACE S PODPOROU KOLABORACE V REÁLNÉM ČASE 7.1. Dokumenty Google - analýza 7.2. WriteURL - analýza 7.3. ZOHO Docs - analýza 7.4. Microsoft Office Web Apps - analýza 7.5. LiveNote - analýza 8. NÁVRH ROZHRANÍ APLIKACE 8.1. Univerzalita aplikace vůči webovým prohlížečům 8.2. Návrh aplikace 9. TESTOVÁNÍ MOŽNÝCH ŘEŠENÍ PROBLÉMŮ 9.1. Popis a výsledky testování dvou aplikací ASR 9.2. Testování přepisu a tlumočení rozhlasového vysílání
7
10. HODNOCENÍ APLIKACE CÍLOVÝMI UŽIVATELI 11. LITERATURA
8
1. ÚVOD Jako neslyšící uživatel českého znakového jazyka jsem častokrát zažil situaci, kdy partneři mého jednání viditelně reagovali na zprávy, které právě v tu chvíli získávali, případně v nedávné minulosti získali, poslechem rozhlasu. Tyto zážitky mne vedly k návrhu integrovat technologii transkripce mluveného slova a technologii tlumočení mluveného slova online s technologií rozhlasového vysílání do jediné aplikace, tak aby mohli nedoslýchaví průběžně číst rozhlasové vysílání, neslyšící mohli sledovat tyto zprávy v českém znakovém jazyce, a tak se jedni i druzí mohli zorientovat v situacích, kdy slyšící na vyslechnuté zprávy reagují a vycházejí z nich. Pracuji už déle než 6 let jako technik v občanském sdružení Unie neslyšících Brno [1]. Vedoucí této organizace Ivan Poláček mě požádal, abych předložil návrh takové webové aplikace na zpřístupnění rozhlasových zpráv pro neslyšící, přičemž hlavní podmínkou byl bezplatný provoz. Aplikace neměla záviset na konkrétním operačním systému nebo webovém prohlížeči a neměla vyžadovat instalaci nějakého softwaru na straně koncového uživatele. Požadavkem byl jednoduchý systém, tak aby uživatel, který navštíví webovou stránku s navrženou aplikací, neměl s jejím ovládáním problém. Bohužel jsem nenašel vhodnou aplikaci pro automatické rozpoznávání řeči (ASR, automatic speech recognition [2]) a její transkripci do textu. Hlavním důvodem je fakt, že ani jeden z dostupných ASR programů nezvládá bez chyby rozpoznat více mluvčích v jednom okamžiku. Navíc potřebuje mít uložen hlasový profil mluvčího, což v podmínkách radiového vysílání není možné. Z toho důvodu jsem se rozhodl pro zajištění technologií pro přepis mluvené řeči prostřednictvím zapisovatele a tlumočení do českého znakového jazyka. Nejprve tedy bylo nutné vyřešit dva důležité základní úkoly. Prvním úkolem bylo vyhledat a vybrat online editor pro záznam textu v reálném čase na bázi HTML5 [3], poskytující plně duplexní komunikační kanály v průběhu jednoho nezávislého TCP spojení. Komunikace prostřednictvím TCP probíhá na portu 80, který je v nastavení firewallu vždy povolen, uživatel tak není nucen cokoliv měnit v nastavení prohlížeče či systému. I to podporuje univerzální použití webové aplikace na všech webových prohlížečích, neboť není třeba dodatečně instalovat software pro konkrétní webový prohlížeč. Důležitým požadavkem je použití aktualizované verze webových prohlížečů. Například bývá problém s webovým prohlížečem Microsoft Internet Explorer [4], který podporuje protokol WebSocket [5] pro komunikaci se serverem prostřednictvím obousměrného komunikačního kanálu až od verze 10. Dalším speciálním požadavkem programátora grafického uživatelského rozhraní je, aby bylo možné využít libovolnou šablonu. Dalším úkolem bylo vyhledat software či webovou aplikaci umožňující streamování živého video přenosu nebo vysílání záznamu videa prostřednictvím sítě Internet, a to ve formátu HD či Full 9
HD kvůli kvalitě videa, jakou vyžadují neslyšící uživatelé pro komunikaci prostřednictvím českého znakového jazyka v reálném čase i s možnou podmínkou nízké odezvy zpoždění. Dalším bodem bylo získat a upravit jQuery [6] knihovnu pro základní nastavení formátu písma, nastavení barvy písma a barvy pozadí, dále zobrazení kalendáře, aby bylo možné nahlížet do historie přepisu či historie vysílaných videí. Cílem je nabídnout informace co nejširší skupině uživatelů. Návrh webové aplikace proto dává možnost vybrat informaci pouze v textové podobě, nebo v českém znakovém jazyce, nebo obě dvě možnosti najednou. Do budoucna, pokud aplikace bude mít dobrý ohlas, pokládám za vhodné nabízet takto sluchově postiženým všechny klíčové informační služby, například informace o krizových situacích v ČR a podobně. Je žádoucí, aby užívané webové aplikace pro přenos informací v textové podobě i pro streamování či záznam živého přenosu videa byly bez poplatků. Rozhlasová vysílání důležitých informací, jakými jsou informace o krizových situacích, nejsou v ČR zpoplatněna a požadavek rovných šancí znamená hledat odpovídající řešení pro neslyšící. Po analýze dostupných technologií, která je součástí předkládané práce, byla pro online editaci textu v reálném čase zvolena aplikace WriteURL [7], protože využívá návrh standardu HTML5 a používá zavedený protokol WebSocket. Umožňuje také jednodušší sdílení dokumentů než ostatní webové procesory – pomocí URL. Nabízí zajímavé DOM [8] elementy a umožňuje naprogramovat vlastní úpravy na přizpůsobení šablony pro zobrazení na displeji. Aplikace je dostupná zdarma, technickou podporu je možné získat bezprostředně formou elektronických pošt. Ke streamování videa byla zvolena aplikace Google Hangouts Air [9]. Nabízí řadu funkcí: je možné streamovat videa ve formátu HD, sdílet přímý odkaz na zdroj videa prostřednictvím jeho URL a zdarma poskytuje záznam videa s časovým omezením. Nabízí jednoduchý vestavěný kód i nastavení rozlišení přehrávače pro streamování videa v živém přenosu nebo vysílání záznamu videa. Je výhodou, že vše se provozuje přes kanál YouTube [10]. Není tak třeba řešit instalaci speciálního softwaru, nastavení čísla kanálu a podobně. Dále je u JQuery API řada nabídek: lze převzít modul na přizpůsobení písma, nastavení barvy pozadí, zvětšení i zmenšení písma. Všechny zmíněné aplikace jsou dostupné zdarma. Návrh řešení je dostupný ve zkušební verzi na webové stránce http://www.hykl.cz/.
10
2. ORGANIZACE UNIE NESLYŠÍCÍCH BRNO, O. S. Unie neslyšících Brno (dále jen UNB) jako samostatné občanské sdružení existuje od roku 1998, kdy se oddělila od České unie neslyšících [11] (dále jen ČUN) se sídlem v Praze a stala se součástí nově založené Českomoravské jednoty neslyšících [12] (dále ČMJN), jejímiž členy se dále staly organizace z Olomouce, Jihlavy a Plzně. Okolo roku 2000 už plynule fungovala ČMJN a přidávaly se další organizace jako např. APPN, o. s. [13], 365, o. p. s. [14] aj. Vedle ČMJN a ČUN existuje v ČR řada dalších zájmových organizací sluchově postižených s celostátním působením. Posláním UNB je podporovat sluchově postižené osoby bez rozdílu. Poskytuje kromě sociálního poradenství různé praktické služby, jako například tlumočnickou službu. Cílem UNB je také vzdělávat a seznamovat neslyšící s nejrůznějšími technologiemi, které usnadní jejich komunikaci se slyšícími a začlenění je do společnosti. V centru pozornosti jsou kompenzační pomůcky včetně telekomunikačních technologií, jakým je tlumočená telefonie a tlumočnické služby online. Další z činností UNB je pořádání kurzů českého znakového jazyka pro veřejnost. UNB od 90. let minulého století spolupracovala se SPT Telecom (pak Český Telecom, poté Telefónica O2). Vzniklo tak operátorské centrum pro sluchově postižené (fax, psací telefon, apod.). V roce 2011 byl zahájen unikátní český projekt Telekomunikační centrum neslyšících (TKCN) – viz na
. TKCN je po skončení projektu funkční dodnes – nabízí 10 samostatných služeb: psací telefon prostřednictvím mobilní aplikace, e-psací telefon, e-mail, tlumočení přes Microsoft Skype, tlumočení přes ooVoo, tlumočení přes Apple FaceTime, simultánní přepis, SMS, s-linka, vzkazy od slyšících lidí. Jako společná služba s O2 funguje Hovor pro neslyšící [15]. Od začátku roku 2014 UNB řeší nový projekt s názvem „Nezávislá komunikace pro sluchově postižené – dostupně a ekonomicky“ (http://www.unieneslysicichbrno.cz/projekt2014.php). Sluchově postižení mohou dostat malý mikrofon do vlastních chytrých telefonů či přenosných počítačů a mít speciální software, který rychle přenese řeč na server, kde se v reálném čase analyzuje, transformuje do textu a odešle zpět na displej.
11
3. KOMUNIKAČNÍ SPECIFIKA OSOB SE SLUCHOVÝM POSTIŽENÍM 3.1. Pojem „osoba se sluchovým postiženým“ Veřejnost běžně nevnímá rozdíl mezi osobami neslyšícími, nedoslýchavými, ohluchlými a hluchoslepými, přestože se jejich sluchové postižení, a tím i komunikační postupy, zásadně liší. Proto se snaží řada institucí, počínaje zájmovými organizacemi sluchově postižených, o osvětu v této oblasti. Neslyšící se nikde neschovávají. Naopak. Ukazují svou bohatou kulturu, pořádají akce, divadelní představení, účastní se nejrůznějších projektů a i přesto se stále setkávají s nedostatkem povědomí a své kultuře a s řadou předsudků. Problém představuje už sám pojem „osoba se sluchovým postižením“ vzhledem k nedostatku společných zájmů jednotlivých dílčích skupin, které pod tento obecný pojem spadají. Není zřejmé, jaký komunikační systém používat: nedoslýchavý může užívat mluvený jazyk a odezírat, případně i částečně sluchem sledovat; nebude pro komunikaci potřebovat tlumočníka. Uživatel českého znakového jazyka, který mluvený jazyk nepoužívá, využívá tlumočnických služeb. Bude-li však při užívání českého znakového jazyka užito orálních komponentů, může si slyšící myslet, že souvisejí s mluveným jazykem, a může od neslyšícího očekávat komunikaci v mluveném jazyce. Je tedy třeba respektovat jednotlivá sluchová postižení a jejich rozdíly.
3.2. Slyšící čtenáři Informace se ke slyšícím osobám dostávají sluchem, mluveným projevem i vizuálním vnímáním. Díky médiím se slyšící k nejrůznějším informacím dostávají poměrně pohodlnou cestou. Ať už má slyšící jakékoliv vzdělání, má výhodu majority: je schopen vstřebávat i předávat informace, protože je většinou použit jeho komunikační systém, tedy mluvený jazyk, který se již od narození a hlavně ve škole učí.
3.3. Prelingválně neslyšící čtenáři Osoby, jež se narodily s úplnou ztrátou sluchu (jež byla být způsobena geneticky, zdravotními problémy matky v těhotenství, vlivem nejrůznějších nemocí v raném věku dítěte apod.) získávají informace hlavně díky smyslu, který je pro ně nejdůležitější, a to zrakem. Nejdůležitější je pro neslyšícího vizuálnost – na svých očích je životně závislý. Pro komunikaci využívají český znakový jazyk. A v dnešní době již řada bariér pro neslyšící komunikující českým znakovým jazykem odpadá. Jsou zaměstnaní, mohou studovat… Podle studijních předpokladů lze neslyšící rozdělit do dvou skupin:
12
1. Lidé s dobrými studijními předpoklady, kteří usilují alespoň o střední vzdělání, se učí mluvený, resp. psaný jazyk. Je pro ně jazykem cizím, protože se k informacím o jeho struktuře a smyslu dostávají jen nepřímo. Ačkoli se v českém jazyce zdokonalují a textu rozumí, míra porozumění není srovnatelná se slyšícím, tedy rodilým mluvčím českého jazyka. I vzdělaní prelingvální neslyšící se při čtení textu musejí hodně soustředit, přemýšlet nad významem textu v mluveném, resp. psaném jazyce a nad jeho souvislostmi. Text si mohou číst i několikrát, než si budou jisti porozuměním. Prelingvální neslyšící, pro kterého je český jazyk jazykem cizím, nebude vnímat text tak jako slyšící uživatel českého jazyka. 2. Lidé bez vzdělání si přímo po základní škole hledají pracovní uplatnění. Je řada neslyšících, kteří jsou velmi zruční, a jelikož mají cvik ve vizuálním vnímání, jsou v praxi mnohdy přesní v porovnání se slyšícími – nejsou mentálně zaostalí, dosáhli jen nižšího vzdělání. Jejich mateřským jazykem je český znakový jazyk stejně jako u první skupiny a jazyk český je rovněž jazykem cizím. Vzhledem k nižšímu vzdělání a k tomu, že ke komunikaci používají český znakový jazyk, je jejich porozumění mluvenému či psanému jazyku velmi omezené, s čímž už v dnešní době, kdy jsou tlumočníci českého znakového jazyka, neslyšící učitelé, není tak obtížné se vypořádat, jako tomu bylo v minulosti. A doufám, že tento trend se bude mít v budoucnu ještě zlepšovat. Pro obě skupiny neslyšících je typické, že se při čtení textu pořád doptávají na význam. I když k porozumění dojde, zvlášť u osob s vyšším vzděláním, není míra porozumění taková jako při užití českého znakového jazyka. Proto je třeba podporovat rozvoj technologií pro neslyšící, například rozšiřování videí v českém znakovém jazyce, čímž by se neslyšící dostali bez jakýchkoliv problémů k informacím. Masová média, jako je televize, rádio, rozhlas, jsou převážně přizpůsobená slyšícím; klasická média, jako jsou noviny a časopisy, se zase více hodí pro ohluchlé a nedoslýchavé osoby, chybí média pro neslyšící. Pro neslyšící jsou možnosti opravdu omezené. Skupina uživatelů českého znakového jazyka není malá, ovšem chybí technologie a metodika pro jeho šíření a šíření informací v českém znakovém jazyce.
3.4. Nedoslýchaví čtenáři Je potřeba si uvědomit rozdíl mezi ohluchlými a nedoslýchavými osobami. Ohluchlá osoba se narodila bez poruchy sluchu, ta nastala v průběhu života, respektive po rozvoji centru řeči. Nedoslýchavé osoby se již s poruchou sluchu narodily. Tuto ztrátu sluchu lze kompenzovat sluchadly, jež se nosí celý život. Samozřejmě i užívání sluchadel a vnímání sluchu díky nim je třeba procvičovat. Nedoslýchavé děti jsou převážně integrovány do běžných základních škol. Tím se více setkávají se slyšícími, mnohdy jsou uživateli mluveného jazyka a odezírají. Ač se tedy s českým jazykem setkávají denně a při čtení nejsou větší potíže s porozuměním, občas dochází k propojení 13
souvislostí v textu, ve srovnání například se slyšícími osoby, později. Musejí nad textem více přemýšlet a souvislosti hledat. V poslechu a vnímání mluveného jazyka pomáhají sluchadla. Nejjednodušší přístup k informacím pro nedoslýchavé je díky čtení, nikoliv díky poslechu, jelikož je mnohdy potřeba mluvené slovo opakovat, mluvit zblízka. Pokud se narodí nedoslýchavé dítě v rodině neslyšících rodičů, je možné, že nebude integrováno, nýbrž bude navštěvovat školu pro sluchově postižené, kde je také kladen důraz na porozumění textu. Opět je třeba rozlišovat sluchové postižení, tedy zda se jedná o nedoslýchavou či neslyšící osobu. Jsou to dvě odlišné skupiny sluchově postižených, jež se neliší jen druhem sluchového postižení, ale také komunikačním systémem, kdy neslyšící užívají český znakový jazyk a nedoslýchavé osoby mluvený jazyk, mnohdy hlasitěji než slyšící osoby, odezírání a informace získávají hlavně čtením.
3.5. Ohluchlí čtenáři Jsou to osoby, jež ztratily sluch po rozvoji centru řeči, tedy po třetím roku věku, ať už úrazem, nemocí či generačním problémem. Jelikož před ztrátou sluchu mluvený jazyk užívaly a ohluchly například v dětství, adolescentním věku či ve stáří, jsou zvyklé používat mluvený jazyk a mluvit. Pokud není ztráta sluchu úplná, lze ji kompenzovat sluchadly. Z hlediska ohluchlých je největší problém odposlech, hlavně pokud hovoří více osob, nebo při poslechu médií, kdy se hovoří rychle – nevzniká tedy problém se samotným porozuměním. Ohluchlé osoby jsou uživateli mluveného, resp. psaného jazyka a bez problému rozumějí při čtení.
3.6. Hluchoslepí čtenáři Postižení hluchoslepých je nejtěžší, a jde-li o prelingvální hluchoslepé, je vzdělávání velmi obtížné a omezené. U těžce zrakově postižených, kteří sekundárně přicházejí o sluch, se komunikace orientuje na přepis mluveného slova v Braillově hmatovém písmu, k čemuž slouží speciální technologie, nebo se používá například Lormova hmatová abeceda. Těžce sluchově postižené osoby, které sekundárně přicházejí o zrak, používají taktilní český znakový jazyk. Technologické prostředky, jak zajistit pro hluchoslepé osoby přístup k informacím, jsou v současnosti velmi omezené. Což nevylučuje, že vznikne technologie, která umožní předávat informaci hluchoslepým osobám i bez osobního tlumočníka, který musí být fyzicky přítomen.
14
4. APLIKACE PRO AUTOMATICKOU ANALÝZU MLUVENÉ ŘEČI Nejdříve bych rád poděkoval za technickou podporu firmě NEWTON Technologies, která mi poskytla licenci k aplikaci NEWTON Dictate [16] v rozšířené verzi 4, a společnosti Consulting Company Novasoft za poskytnutí licence k aplikaci NovaVoice [17] ve verzi 7.0.4. Dal jsem si za cíl analyzovat oba zmíněné programy. Dle doporučení obou firem jsem je testoval na lepších a výkonnějších zařízeních, jak na osobních počítačích, tak na přenosných.
4.1. Aplikace Newton Dictate a její analýza Pro použití aplikace Newton Dictate je výrobcem doporučen počítač s procesorem Intel i5 či vyšší verze o minimální frekvenci 1,7 GHz. Požaduje se operační paměť o kapacitě alespoň 4 GB, program samotný bude potřebovat přibližně 600 MB. Pracovat s ním mohou uživatelé operačního systému Microsoft Windows, a to od verze XP, pro správné fungování aplikace si musí nainstalovat nejnovější verzi 4.0 platformy Microsoft .NET [18]. Licence pro program se prodává ve třech různých podobách: 1. hardwarový klíč (USB), který je možné přenášet na více hardwarových zařízení a k užívání není třeba připojení k internetu; 2. jednorázová registrace přes internet, pomocí níž je licence svázána s jedním hardwarovým zařízením; 3. internetová licence jednoho hardwarového zařízení – uživatel musí být připojen k internetu při každém spuštění programu i změnách během jeho použití. Upgrade v rámci stejné verze je zdarma, v případě přechodu na novější verzi je nutné uhradit poplatek. Podpora pro mobilní zařízení zatím není nabízena. Při analýze této aplikace jsem se přednostně zabýval její speciální funkcí – MINI ND (pro transkripci řeči v reálném čase a jejím přepisu do dokumentu jiného textového editoru či procesoru). Nastavení zvukového vstupu lze standardně najít v ovládacích panelech systému Microsoft Windows. Je-li uživatel schopen sloučit za pomoci směšovače dva kanály do jednoho vstupu, pak je možné rozpoznat rozhovor dvou mluvčích snímaný dvěma mikrofony a přepis vložit do dokumentu textového editoru či procesoru. Newton Dictate umožňuje rozpoznání audio nahrávky do textu, podporovány jsou následující audio formáty: MP3, WAV, WMA, AMR, AVI, MP4, MP2, MOV, 3GP, SPX, DSS a DS2. Při zhoršených zvukových podmínkách je kvalita přepisu závislá na více faktorech. Záleží na kultuře projevu mluvčího, intenzitě okolního ruchu, kvalitě snímacího zařízení a samozřejmě na charakteru diktovaného textu. Program disponuje databází nejrůznějších ruchů a šumů, které 15
při rozpoznání dokáže ignorovat. Dochází-li v operační paměti volné místo během transformace mluvené řeči do textové podoby, dojde k jejímu zpomalení, které však nemá vliv na kvalitu rozpoznání. Rozhraní programu nabízeného i v české lokalizaci je velmi intuitivní, má standardní podobu aplikace v operačním systému Microsoft Windows 8 [19] (styl nabídky karet, obrazovky apod.). V nabídce programu je možné zvolit položky Šablony, Slovníky a Mini. Ze zajímavých funkcí zmíním možnost exportovat zvukovou i textovou podobu řeči do formátu TTA. Možnosti formátování rozpoznaného textu jsou omezené pouze na základní funkce. Uživatel si může spravovat svůj vlastní slovník či využívat oborové, bohužel s licencí, která mi byla poskytnuta, jsem je neměl možnost prozkoumat. Průběh diktování je možné sledovat skrze dvě ikony. Jedna z nich informuje o intenzitě snímaného zvuku, druhá indikuje obsazenost operační paměti. Není možné nastavit hlasový profil, k dispozici je však funkce automatické hlasové adaptace. Během diktování se program přizpůsobuje hlasu uživatele, takže při další příležitosti může dojít ke zvýšení kvality rozpoznání. Není-li tato funkce zapnuta, dochází pouze k jednorázové hlasové adaptaci, jejímž cílem je dosáhnout co největší kvality rozpoznání aktuální řeči, nikoliv zlepšovat hlasový profil. Z dalších zajímavých funkcí upozorním na možnost rozpoznání nahrávky z diktafonu či editaci a formátování textu za pomoci hlasových příkazů, a to i u známého textového procesoru Microsoft Office Word. Více viz na
.
4.2. Aplikace NovaVoice a její analýza Aplikace NovaVoice je nabízena pouze uživatelům operačního systému Microsoft Windows. Minimální konfigurace hardwarového zařízení pro použití aplikace závisí na typu licence, která je buď lokální anebo serverová. Lokální licence se dělí podle počtu slov ve slovníku: 1. malý slovník o 300.000 slovech – je vyžadován procesor, ideálně od společnosti Intel, se dvěma jádry o frekvenci 2 GHz za podmínky minimálně 1000 bodů naměřených podle CPU Benchmark. Pro plynulý běh programu je třeba disponovat operační pamětí o kapacitě alespoň 2 GB. 2. střední slovník o 500.000 slovech – je třeba dvoujádrového procesoru, ideálně od společnosti Intel, o frekvenci 2 GHz za podmínky minimálně 1500 bodů podle CPU Benchmark a operační paměti o kapacitě alespoň 3 GB. 3. velký slovník o 1.000.000 slovech – je vyžadován čtyřjádrový procesor, optimálně vyrobený společností Intel, o frekvenci 2,5 GHz za podmínky minimálně 5000 bodů podle CPU Benchmark a operační paměť o kapacitě alespoň 8 GB.
16
Lokální licence je pevně svázaná s hardwarovým zařízením. Za příplatek 1000 Kč je možné provést instalaci programu na další počítač, diktovat však může pouze ten, kdo má k dispozici zařízení s hardwarovým klíčem. Serverová licence vyžaduje počítač s procesorem o frekvenci minimálně 1,4 GHz za podmínky 3000 bodů podle CPU Benchmark. Počet zakoupených licencí určuje, na kolika zařízeních najednou je možné program používat v rámci lokální sítě připojené k hlavnímu operačnímu serveru. Doporučená velikost operační paměti závisí na velikosti slovníků, pohybuje se od 200 MB až po 500 MB. U serverové licence se do operační paměti nenahrává celý slovník, nýbrž pouze tzv. Shadow slovník. Pokud si uživatel nezakoupí předem "údržbu" slovníku, musí si ji později přikoupit za cenu licence. Tato politika je férová vůči uživatelům, kteří mají údržbu zakoupenou od počátku používání programu. Více viz . Při analýze této aplikace jsem se přednostně zabýval její speciální funkcí – Interaktivní mód (pro transkripci řeči v reálném čase a jejím přepisu do dokumentu jiného textového editoru či procesoru). NovaVoice je možné použít pro rozpoznání řeči jediného mluvčího, nikoliv pro rozhovor více lidí s více mikrofony. Program umožňuje rozpoznání audio nahrávky do textu, podporovány jsou následující audio formáty: WAV, DS2, MP3, DSS, 3GP, 3GP2, AMR, FLAC, FLV, OGG, RM, WMA, M4P, ASF, AVI, MOV, MP4, MPG, MPEG, SWF, WMV, MKV a QT. Kvalitu rozpoznání zásadně ovlivňuje frekvenční rozsah (mezi 100 Hz a 15 kHz) a vzorkovací frekvence (16 kHz). Model adaptace hlasu může být buď univerzální (důsledkem je větší chybovost), nebo podle pohlaví či v závislosti na uživateli, jehož hlas byl aplikací rozpoznáván naposledy. Nevýhodou je, že druh modelu je třeba zvolit ještě před diktováním. Při zhoršených zvukových podmínkách má NovaVoice problémy. V takovém prostředí výrobce doporučuje nasadit kvalitnější sluchátka se dvěma mikrofony. První z nich snímá řeč, druhý zvukové ruchy. Hardware sluchátek od sebe oba signály odečte a programu vrací k rozpoznání kvalitní a čistý zvuk. Je-li kapacita operační paměti vyčerpána, dochází k tzv. swapování na pevný disk, což má za následek zpomalení transformace zvuku do textové podoby. Neznamená to však ztrátu kvality rozpoznání vzhledem k dostupnosti bufferu, ve kterém se nahraný zvuk dočasně uloží a je k dispozici pro přesun do operační paměti po jejím uvolnění. V porovnání s Newton Dictate se NovaVoice uživatelům lépe ovládá, čemuž napomáhá přívětivější grafické rozhraní aplikace. Průběh diktování je možné sledovat na dolním panelu aplikace, který nabízí informace o aktuálním stavu operační paměti, uživatelském profilu, modelu hlasové adaptace a právě využívaném vstupním a výstupním zvukovém zařízení. Uživatel si zde může nastavit i velikost písma, v němž je rozpoznaný text vypisován na obrazovku.
17
NovaVoice taktéž nabízí základní funkce pro ovládání, oproti Newton Dictate však disponuje bohatší nabídkou dalších nástrojů. Uživateli umožňuje exportovat zvukový soubor s nahrávkou řeči do formátů WAV a MP3. Program lze na rozdíl od Newton Dictate ovládat funkčními klávesami. Další výhodou je i tzv. Korekční mód, v němž může uživatel pomocí textového editoru upravovat a formátovat rozpoznaný text či provádět jeho korektury. NovaVoice nabízí uživateli možnost editace pojmů ve slovníku a je samozřejmě přístupná i v české lokalizaci.
4.3. Aplikace Nuance Dragon Dictation a její analýza Nuance Dragon NaturallySpeaking [20] je rychle vyvíjející se software pro rozpoznávání mluvené řeči do elektronické podoby, který je možné používat na počítačích a zařízeních s operačním systémem Microsoft Windows a Apple MacOSX. Umožňuje nejen automatické rozpoznávání řeči, ale i ovládání počítače a jeho aplikací prostřednictvím hlasových příkazů. Pro rozpoznání řeči je určen program Dragon NaturallySpeaking, který nepřenáší zpracovaný text znak po znaku, nýbrž vyčkává a analyzuje opakovaně části mluveného projevu, které pak v textové podobě najednou posílá na obrazovku. Uživatel tak vnímá určité zpoždění mezi vysloveným a napsaným. Po instalaci aplikace uživatel iniciuje svůj osobní profil, což může učinit nahráním datového souboru se svým vlastním hlasem či namluvením několika frází na místě. Podstatnou nevýhodou Nuance Dragon NaturallySpeaking je absence podpory rozpoznání mluveného projevu v češtině. Uživatel sice může zkusit diktovat česky, výsledkem je však většinou neobvyklý překlad. Přitom se uvádí, že u nejznámějších jazyků je přesnost rozpoznání 99 %. Uživatel výsledky rozpoznání vylepšuje soustavným „tréninkem“ aplikace, čím častěji ji používá, tím více ji učí přesněji rozpoznat jeho mluvený projev. Korekce drobných chyb provádí pomocí svého hlasu, což je pomalejší, než kdyby tak činil s pomocí klávesnice. Rozpoznání mluveného projevu diskutujících osob během rozhlasového vysílání je nepřesné. Přepisovatel, který sleduje radiové vysílání, lépe rozpozná hlasy jednotlivých lidí a umí přesněji zapsat jejich dialog. I v případě drobných korektur je přepisovatel ve výhodě, protože uživatel aplikace Nuance Dragon NaturallySpeaking není schopen v jedné chvíli rozpoznávat text a zároveň provádět opravy.
4.4. Aplikace Nuance Dragon Dictation a její analýza Dragon Dictation [21] je další aplikací vyvíjené společností Nuance, která tak rozšiřuje svou podporu i na mobilní zařízení postavené na operačních systémech Google Android a Apple iOS. Slouží uživatelům, kteří ovládají počítač především hlasem s minimálním použitím klávesnice. Při zahájení práce s aplikací je nutné nastavit profil mluvčího a určit stát, v němž žije a pracuje. Program počítá s vestavěným mikrofonem mobilního zařízení. Skrze něj probíhá nahrávání 18
komunikace a následná analýza, jejíž výsledek se v textové podobě zobrazí až po rozhodnutí uživatele, který jej může poslat v SMS zprávě, e-mailem, prostřednictvím Facebooku, Twitteru či jej zkopírovat do libovolné další aplikace. Dragon Dictation dokáže identifikovat mluvčího dle jeho hlasu, umí rozpoznat konec mluveného projevu. Umožňuje uživateli měnit jazyk, který má být rozpoznáván. Analýza mluveného projevu a zobrazení výsledku rozpoznání je u obou mobilních operačních systémů zcela rozdílná. Zatímco v případě Google Android si uživatelé aplikace Dragon Dictation ihned přečtou výsledek analýzy na displeji svého mobilního zařízení, rozpoznání řeči osoby používající systém Apple iOS je provedeno až po ukončení promluvy, stejně tak jako její textová podoba. Podstatným rozdílem mezi oběma aplikacemi společnosti Nuance je lepší podpora češtiny v případě Dragon Dictation. Bohužel, aplikaci pro mobilní zařízení nelze použít pro transkripci řeči v reálném čase a jejím přepisu do dokumentu jiného textového editoru či procesoru. Více viz .
4.5. Analýza všech argumentů k důvodu za nevyužití Nyní uvedu důvody, proč jsem se rozhodl nevyužít programy pro automatické rozpoznávání řeči (ASR, Automatic Speech Recognition) a její transkripci do textové podoby. Uvádím celkem pět hlavních argumentů, na základě nichž jsem dospěl k rozhodnutí použít technologie pro přepis mluvené řeči prostřednictvím zapisovatele a pro tlumočení do českého znakového jazyka.
4.5.1. Nepřesné rozpoznání promluvy v reálném čase V rozhlasovém vysílání se střídají osobnosti hovořící o tématech z různých oblastí. Bude-li pro každou z probíraných oblastí k dispozici slovník s vysokým počtem pojmů, je transformace do textové podoby možná, avšak její výsledek stejně nebude stoprocentně přesný. Příkladem je prakticky ověřená skutečnost s několika osobami diskutujícími konkrétní téma. Přestože hovořili o tomtéž, výsledek rozpoznání promluvy byl u každého z nich jiný. Přepisovatel zachytí rozmluvu na dané téma bez ohledu na počet diskutujících. Aby bylo dosaženo přesné transkripce pomocí aplikace ASR, je třeba, aby byl každý mluvčí poučen o zásadách správného diktování. Je otázkou, zda je možné, aby každá osobnost promlouvající během rozhlasového vysílání na různé téma absolvovala školení o zásadách správného diktování. Po ukončení mluveného projevu během rozhlasového vysílání je do programu většinou zařazena hudba. Program ASR se snaží o rozpoznání skladby, což vyústí v nesmyslný obsah. Oproti tomu přepisovatel jednoduše oznámí, že momentálně dochází k hudební reprodukci.
19
Úspěšné rozpoznání svého mluveného projevu zajistí pravděpodobně lépe ten mluvčí, který pracuje se slovníkem aplikace ASR a věnuje natrénování více času. Může tak stabilizovat slovník a dodržuje zásady pro správné diktování. Bude-li za těchto podmínek řeč vedena na běžná témata prostřednictvím stereotypní rutinní češtiny, měl by program ASR zvládnout transkripci mluveného projevu do psané podoby s vyšší přesností. Na webových stránkách NEWTON Technologies se uvádí, že: Program NEWTON Dictate zvládá rozpoznávání jednotlivých slov a větných spojení z rozsáhlých slovníků obsahujících řádově stovky tisíc slov, a to od libovolného mluvčího a v reálném čase s úspěšností více než 98%. Čeština je krásný, ale složitý jazyk. Jeho ohebnost, skloňování nebo časování často vede k dramatickému nárůstu unikátních slovních tvarů. Proto je vhodné pro diktování odborného textu používat také odborně zaměřené slovníky. Po opakovaných pokusech o rozpoznání mluveného slova zaznívajícího v programech různých rozhlasových stanic, kdy jsem využil obě aplikace ASR (Newton Dictate, NovaVoice), jsem přesvědčen, že výsledkem transkripce je nepřesný obsah plný gramatických chyb a nesmyslných projevů různých osobností. Je-li audio nahrávka umístěna v archivu, je možné provést korekturu její textové podoby vzniklé rozpoznáním. Uživatelů se zájmem o archivní informace je však málo. Jejich podstatná část preferuje okamžitou transkripci aktuálně vysílaných informací.
4.5.2. Rozhovor dvou a více mluvčích v reálném čase Dalším problematickým bodem je automatické rozpoznání promluvy dvou a více mluvčích během rozhlasového vysílání. Veškeré zkoumané aplikace ASR nepodporují přenos řeči více osob snímané různými mikrofony do jedné aplikace v reálném čase, počítají pouze s jedním mikrofonem. Je možné použít směšovač, přesnost takového automatického rozpoznání je však nízká, protože aplikace při analýze mluveného projevu porovnávají aktuálně získanou promluvu s těmi předchozími. Oproti tomu je možné, aby více přepisovatelů zachytilo komunikaci několika osob, čímž je zaručena přesnější transkripce řeči. Využívají přitom v reálném čase jedné webové aplikace. Případně může rozhovor zachytit i jeden přepisovatel, který při změně hovořící osobnosti uvede její jméno.
4.5.3. Časté vyčerpání kapacity operační paměti Při praktickém testování obou aplikací (Newton Dictate, NovaVoice) bylo zjištěno, že automatické rozpoznávání řeči v reálném čase zapříčiňuje výrazné zpomalení transkripce do textové podoby, a to i o několik minut. Obecně je možné přijmout zpoždění do pěti sekund, testování obou aplikací však potvrdilo zpomalení o jednu minutu v případě desetiminutové promluvy během rozhlasového vysílání.
20
4.5.4. Použití hlasových příkazů při rozhlasovému vysílání Výsledek rozpoznání mluveného projevu je u obou aplikací ASR (Newton Dictate, NovaVoice) předán uživateli v textovém editoru bez jakéhokoliv formátování. Text postrádá interpunkci a není dělen do vět, ani odstavců, je tedy obtížně čitelný a informace v něm nejsou tematický rozděleny. Obecné řešení tohoto problému neexistuje. Obě zkoumané aplikace (Newton Dictate, NovaVoice) však nabízejí uživateli ve svém slovníku i slova, jejichž vyřčením je možné přidat nový odstavec, řádek či interpunkci pro oddělení vět a jejich částí. NovaVoice navíc vyžaduje, aby uživatel po vyřčení hlasového povelu zajišťujícího formátování textu udělal ve své promluvě pauzu minimálně jednu vteřinu. Problémy mohou nastat, používá-li mluvčí ve svém projevu pojmy, které nemá zájem interpretovat jako hlasové povely. V takovém případě může v nastavení vypnout ovládání pomocí hlasových příkazů. V neposlední řadě je samozřejmé, že vyslovení hlasových povelů k zajištění formátování rozpoznaného textu není přirozenou součástí rozhlasového vysílání a bude slyšící posluchače mást a znepříjemňovat sledování řeči. Naproti tomu přepisovatel může s pomocí klávesnice jednoduše formátovat zapsaný text během svého výkonu, a to i v situaci, kdy hovoří více osob najednou. Sluchově postižení potřebují informace v textové podobě nejen kvalitně reprodukované, ale i přehledně zapsané bez ohledu na nastavení vlastností fontu či pozadí textu, které si mohou v aplikaci měnit sami.
4.5.5. Adaptace mluvčích při rozhlasovému vysílání Každý člověk má svůj vlastní hlas. Není však jednoduché automaticky rozpoznat už pohlaví mluvčího. Pro garanci vysoké kvality rozpoznání by bylo ideální, kdyby v průběhu rozhlasového vysílání mluvil jeden a tentýž člověk, čímž by byla zajištěna dokonalá adaptace aplikace ASR na jeho hlas. Je však logické, že takto rozhlasové vysílání nefunguje – střídají se v něm mluvčí, kteří nejen samostatně informují, ale i uskutečňují rozhovory na témata z různých oblastí. Šance na adaptaci hlasů všech mluvčích je tedy nulová. V případě rozpoznání řeči, která je archivována v uložených audio nahrávkách, jsou programy ASR jednoznačně použitelné. Je totiž prostor pro adaptaci hlasu mluvčích a další rozpoznání do textové podoby je tak přesnější. Transkripce rozhlasového vysílání do textové podoby s pomocí aplikací ASR v reálném čase však nedosahuje kvality manuálního přepisu.
5. APLIKACE PRO VIZUÁLNÍ ZPŘÍSTUPNĚNÍ MLUVENÉ ŘEČI V REÁLNÉM ČASE Přepis mluvené řeči v reálném čase mohou zajišťovat přepisovatelé fyzicky přítomní na místě hovoru – naslouchají mluvenému projevu a podle pravidel, která se v jednotlivých zemích pro tuto profesi teprve ustalují, simultánně převádějí text do psané podoby pomocí textového procesoru; výsledek své 21
činnosti sdílejí s koncovým uživatelem technologicky různým způsobem. Alternativou této možnosti je online přepis na dálku. Nabídku simultánního přepisu mluvené řeči nabízejí v určité míře všechny organizace zaměřené na sluchově postižené. Každá organizace má svůj způsob a svůj systém zajišťování přepisu, ať už jde o práci přepisovatele, nebo o sledování přepisů na straně uživatele. Nejvíce využívané jsou služby, které nabízí ČUN Praha, Středisko Teiresiás [22] a UNB Brno. Technické parametry tohoto servisu jsou stereotypně známé: přepisovatel naslouchá mluvené řeči a simultánně přepisuje text na zařízení, které je připojeno k individuálnímu displeji, k velkoplošné obrazovce nebo promítacímu plátnu mnoha různými způsoby: kabelem VGA, HDMI, pomocí bezdrátového připojení Wi-Fi k zapojení do sítě Wi-Di, nebo pomocí dataprojektoru. Zcela odlišné řešení představuje online přepis pomocí automatického rozpoznávání řeči (ASR, automatic speech recognition), zpravidla s využitím tzv. stínového mluvčího pro eliminaci chyb vznikajících při plně automatizovaném provozu. Tuto technologii využívá např. Česká televize ve spolupráci se Západočeskou univerzitou za účelem automatického titulkování pořadů. Část 4.1 této kapitoly bude zaměřena na analýzu technologií, které pro simultánní přepis textu používají tři české instituce, které se této činnosti profesionálně věnují. Část 4.2 se zaměřuje na zpřístupnění mluveného textu prostřednictvím překladu, resp. tlumočení, a věnuje se analýze aplikací pro sdílení videí s textem v českém znakovém jazyce v reálném čase – cílem této části bylo ověřit, jaký je postoj komunity sluchově postižených k existujícímu softwaru.
5.1. Přenos psaného textu Je důležité analyzovat přenos psaného textu, protože na přenos textu mezi přepisovateli a uživateli za účelem vizualizace mluvené řeči v reálném čase existují různé způsoby. Je především velmi důležité, jak funguje získávání informací v reálném čase a komunikace mezi přepisovateli a uživateli, jaké připojení vyžaduje používaná aplikace a jakou má uživatel možnost nastavit technické parametry přenosu. Ideální je taková aplikace, která dává uživatelům, kteří sledují přepis textu, možnost měnit nastavení, tj. přizpůsobit zobrazený přepis, a dále možnost sledovat přepis v reálném čase současně s vlastním surfováním na Internetu, aniž by přitom vznikaly zvláštní nároky na typ internetového připojení nebo spojení s přepisovatelským centrem.
5.1.1. Polygraf Polygraf [23] je jako speciální aplikace vytvořená ve Středisku pro pomoc studentům se specifickými nároky Masarykovy univerzity (dále Středisko Teiresiás). Aplikace slouží primárně 22
k distribuci přepisů mluveného slova k více uživatelům současně, případně i k jednomu uživateli bez toho, aby se sluchově postižený fyzicky vázal na přepisovatele a displej jeho stroje. V původní verzi byl Polygraf určen výhradně pro osoby se sluchovým postižením, v nynější verzi navíc zajišťuje také individuální přístup k vizuální prezentaci pro osoby se zrakovým postižením a ukazuje se jako velmi praktický během konferencí a dalších veřejných akcí, kde problém se sledováním mluveného slova či obrazu mívají i osoby, které v běžném životě postižení nepociťují. Důležité je, že není potřeba připojení k Internetu. Uživatel má možnost měnit nastavení vizuálních parametrů pro sledování textu na displeji (míra zvětšení nebo zmenšení, barva textu a pozadí apod.). Další funkcí je oboustranná komunikace, tedy možnost sluchově postiženého oslovit přepisovatele pomocí chatu, a v případě dohody tak používat hlas přepisovatele k vlastní aktivní komunikaci se slyšícím (pokud sluchově postižený nemá možnost nebo nechce vlastní hlas na veřejnosti použít). Díky vytvořenému vlastnímu uzavřenému bezdrátovému spojení jsou vysílána signálem data, k nimž se mohou dostat uživatelé, kteří jsou připojení k danému uzavřenému bezdrátovému kanálu prostřednictvím zařízení pro sledování přepisu (vlastní tablet či chytrý telefon). Aplikace má omezený výběr jednoho Wi-Fi připojení, což přináší určitá omezení. V dnešní době je mnoho lidí, kteří mají různá mobilní zařízení s možností přenosu dat, a pokud by aplikace Polygraf ve větší míře podporována, určitě by to pro sluchově postižené bylo ideální. Při zkoumání podmínek na různých vysokých školách, vyšších odborných školách i v jiných organizacích byla komunita sluchově postižených příjemně překvapena, když zjistila, jak jedinečné služby aplikace Polygraf poskytuje – hodnotí ji jako nejlepší aplikaci pro distribuci přepisu. Aplikaci je možné do vlastního zařízení se systémem Android či iOS stáhnout z internetového obchodu, kde se nabízí zdarma klientská část pro uživatele sledujícího přepis. Výhodou je nezávislost vlastní bezdrátové sítě na dostupnosti Internetu, což umožňuje mnohem širší veřejnosti, aby aplikace byla využita i v méně příznivých technických podmínek. Negativum představuje vazba aplikace Polygraf na textový procesor Microsoft Word verze 2003 a novější, pod operačním systémem Microsoft Windows.
5.1.2. eScribe Česká unie neslyšících, oblastní organizace Praha (dále ČUN Praha), realizovala projekt s názvem Simultánní přepis mluvené řeči, který podpořila Nadace Vodafone Česká republika a částečně také Ministerstvo práce a sociálních věcí. Na něj navazuje projekt eScribe, který je nadále podporován Nadací Vodafone Česká republika a částečně Magistrátem hlavního města Prahy.
23
Vlastním řešitelem projektu je České vysoké učení technické v Praze (dále ČVUT) jako partner ČUN Praha. Na webové stránce http://www.escribe.cz/ se uvádějí o projektu tyto informace [24]: Projekt eScribe je zaměřen na odbourávání komunikačních barier neslyšících a je přímým navázáním na již podpořený projekt Simultánní přepis mluvené řeči (rychlopísaři přepisují přednášku / konferenci do textu, který je promítán na plátno, popř. monitor neslyšících). Cílem je vytvořit široce dostupné online přepisovací centrum, čímž se zlevní a zefektivní práce rychlopísařů. Ideou projektu je nahradit rychlopísaře automatem na rozpoznávání řeči, což bude náplní následného pokračování. V rámci tohoto projektu se budou porovnávat výsledky písařů s možnostmi současných rozpoznávačů řeči. Výstupem bude online přepisovací centrum a odborná studie náročnosti přizpůsobení současných rozpoznávačů řeči potřebám neslyšících. Aplikace umožňuje přepisovateli, aby se nevázal na místo konání akce a přepis v reálném čase zajišťoval z domu nebo z místa, kde je nižší zvukové rušení a lepší technické zázemí. Pro sledování takto vytvářeného přepisu je nutné, aby se sluchově postižený uživatel připojil k síti Internet prostřednictvím jakéhokoliv zařízení s libovolným webovým prohlížečem. Instalace softwaru, který používá přepisovatel centra eScribe, je náročná – jde o instalaci programu X-lite [25] do operačního systému Microsoft Windows, další podmínkou je nainstalovaný textový procesor Microsoft Office Word a nastavené zabezpečení povolující spouštění maker. Službu eScribe využívají specializované přepážky Poštovní spořitelny, některé pobočky České pošty (v případě úspěšnosti pilotního provozu by se služba rozšiřovaly na všechny pobočky), dále ERA, kamenné obchody Vodafone, kde sluchově postižení mohou komunikovat přes eScribe, pokud nemají zajištěné tlumočení českého znakového jazyka, a také v České spořitelně na vyhrazených omezených označených „online přepis“.
5.1.3. Transkript online s.r.o. Společnost, která jako profesionální službu na českém území nabízí online přepis s využitím projektu eScribe, funguje jako podnikatelský subjekt v ČR od roku 2012. Nabízí službu nejen pro individuální klienty, pro neziskovou organizaci i pro komerční firmy, které o přepis online požádají. O kvalitě svých přepisovatelů uvádí [26]: Naši zkušení přepisovatelé Vám pomocí těchto aplikací, klávesnice a hbitých prstů přepíší vše doslova. Jsou to držitelé mistrovské státní zkoušky ze psaní na klávesnici, disponují několikaletými zkušenostmi v praxi. Jejich rychlost psaní při vynikající přesnosti přesahuje 500 úhozů za minutu. Jsou pochopitelně vázáni etickým kodexem a mlčenlivostí.
24
Společnost vytvořila aplikaci eScribeDroid, kterou lze použít online přepis v reálném čase na dálku v lokalitách pokrytých mobilním signálem 3G nebo bezdrátovou sítí a slouží pro osoby se sluchovým postižením. Aplikace bohužel podporuje pouze mobilním operační systém Google Android. Pro využití k osobním účelům je měsíčně zdarma až 100 minut online přepisu, bohužel jen v omezené časové době, ve všedních dnech od 9.00 do 18.00 hodin. Aplikace eScribeDroid nabízí nejen přepis v reálném čase, ale také náhled do archivu přepisů.
5.2. Přenos videa v českém znakovém jazyce Cílem analýzy dostupných aplikací zajišťujících multimediální komunikační služby je zjistit, jakou aplikaci a z jakého důvodu v praxi využívají právě osoby se sluchovým postižením pro přenos videohovoru v českém znakovém jazyce. Podmínkou je, aby byla možnost streamování živého vysílání videa v reálném čase a možnost archivace videa s vysílaným záznamem, obojí zdarma. Dalším požadavkem je, aby video bylo možné co nejjednodušším způsobem sdílet mezi tlumočníkem českého znakového jazyka a koncovým uživatelem, tedy bez nutnosti náročného nastavení parametrů přenosu. Hlavní pozornost se zaměřuje na výběr rozlišení a formátu videa, v závislosti na rychlosti připojení a na individuálním požadavku na kvalitu videa, který může souviset se složitostí sdělení, s tlumočníkem apod. Video ve formátu HD je pro komunitu sluchově postižených ideálním řešením pro pochopení informací v českém znakovém jazyce.
5.2.1. ooVoo – analýza ooVoo [27] je multimediální software, který poskytuje komunikační služby, jako je proprietární videochat a instant messaging, na platformách operačních systémů Microsoft Windows, v rozhraní Facebooku, Apple MacOSX a mobilních operačních systémů Google Android a Apple iOS. Škála nabízených služeb je podobná jako u Microsoft Skype. Umožňuje registrovaným uživatelům (identifikovaným pomocí adres elektronických pošt) komunikovat prostřednictvím zasílání rychlých zpráv, textového chatu, telefonních hovorů, videochatu (včetně sdílení souborů a záznamu videohovoru v rozlišení HD) a videokonferencí bez jakýchkoliv poplatků. Tarif „Free“ nabízí videochat, textový chat v reálném čase, videokonference maximálně dvanáct klientů současně a internetové telefonní hovory. Placený tarif v cenové hladině okolo 30 USD ročně nebo 3 USD měsíčně nabízí komunikaci bez reklamních bannerů, lepší technickou podporu a dovoluje ukládat nahrané video maximálně do 1000 minut. Hodnocení tohoto programu ze strany sluchově postižených je velmi pozitivní – zvláště u neslyšících, kteří se komunikují českým znakovým jazykem, jde o software velmi využívaný ve všech věkových kategoriích. Ve světovém měřítku službu používá více než 80 miliónů lidí, především proto, že nabízí velmi kvalitní aplikaci pro videohovory. 25
Unie neslyšících Brno, o. s., APPN, ASNEP 1 i další organizace, které se zaměřují na tlumočení z a do českého znakového jazyka, využívají tento software jako hlavní komunikační program. Problém představuje přenos dat k uživateli a od uživatele s ohledem na rychlost připojení k Internetu. Pokud kolísá přenosová rychlost, pak může dojít ke ztrátě kvality obrazu. A právě ztráta kvality videa je primární problém u sluchově postižených kvůli srozumitelnosti.
5.2.2. Microsoft Skype – analýza Microsoft Skype [28] je nejznámější a nejvyužívanější program na základě proprietární řešení. Nabízí klientům registrovaným pomocí ID účtu Microsoftu nebo adresy elektronické pošty možnost vzájemně telefonovat zdarma. Za poplatek je možné komunikovat mezi účtem Skype a telefonními sítěmi (ať už na pevné linky, nebo do mobilních sítí). Skype ovšem nabízí nejen telefonii, ale i další speciální služby, jako je instant messaging a zasílání rychlých zpráv. Placený tarif Premium nabízí skupinový videohovor až pro 10 lidí. Nyní Microsoft začíná nabízet zlepšenou verzi Skype TX – jedná se o spojení televizního studia s komunikační službou, včetně specializovaného hardwaru. Porovnávat Skype s programem ooVoo nelze, protože Microsoft Skype podporuje mnohem více operačních systémů, například Windows Phone a Linuxu, a také dalších speciálních vstupních zařízení, například Playstation Vita, televizních zařízení podporující Smart TV. ...negativem je, že Skype se 443 miliony uživatelů je docela vytížená síť a dochází k častým výpadkům a ztrátám paketů, což se projevilo i na videokonferenci 1:1. Pro větší počet účastníků by se tyto problémy kumulovaly. Kvalita videa je obdobná jako u ooVoo. [29] V dnešní době je registrovaných uživatelů mnohem více, patrně více než miliarda. Pro sluchově postižené býval Skype primárním komunikačním nástrojem pro videohovory, jenomže už několik let se objevují výpadky spojení kvůli vytíženosti sítě. V současné době získává neslyšící uživatele zpět kvůli zlepšené obrazovce formátu HD, která je nakonec lepší než u ooVoo. Komunita sluchově postižených je přesvědčena o perspektivnosti programu Skype – Microsoft se zjevně snaží zvýšit jeho efektivitu.
5.2.3. Camfrog – analýza Camfrog je multimediální software známý jako videokonferenční systém, který nabízí chatovací místnosti nastavené uživateli. Podporuje operační systémy Microsoft Windows, Apple MacOSX, mobilní zařízení a webové rozhraní Facebooku. Stávajících uživatelů Camfrogu je okolo 140 000
1
Asociace organizací neslyšících, nedoslýchavých a jejich přátel – více viz na .
26
uživatelů denně [30]. Nabídka pro uživatele je pestrá: instant messaging, zasílání textových zpráv, sdílení souborů, založení multiuživatelských videokonferencí, kam se může připojit na jedné místnosti až do 1000 uživatelů současně. Je možné sdílet video na webovém rozhraní YouTube a s videem v programu Camfrog. Další speciální funkci nabízí „Super Fast Video“ – je možné sledovat a vysílat či streamovat videa ve vysoce kvalitním videu. Problém mohou mít uživatelé tohoto programu s pomalým připojením. Placený tarif stojí okolo 45 USD za rok, po aktivaci placeného tarifu je možné v chatovací místnosti otevřít více oken současně, dále lze libovolně měnit rozměr obrazovky videa, vyhledávat uživatele v chatovací místnosti, připojit se pomocí vzdálenému přístupu a sledovat webovou kameru, ostatní funkce jsou podobné jako u ooVoo a u Microsoft Skype. Společnost Camfrog Server se nakonec rozhodla vytvořit vestavěnou funkci pro neslyšící uživatele (Camfrog Deaf Video Chat), neboť zjistili, že neslyšící uživatelé software používají ke komunikaci prostřednictvím videochatu. Neslyšící uživatelé jsou zařazeni do seznamu TOP chatovacích místností „Deaf“. Camfrog Server této chatovací místnosti nastavil automatické výchozí nastavení, které blokuje zvuk, aby slyšící nemohli do chatovací místnosti „Deaf“ vstupovat. Camfrog poskytuje vysoce kvalitní služby pro neslyšící kvalitou obrazu a má mezi neslyšícími velký respekt. Chatovací místnost Camfrog může být obsahově nevhodná pro nezletilé, rodiče proto musejí kontrolovat nezletilé děti, které využívají tuto službu. Čeští neslyšící začali používat Camfrog původně jako nejlepší komunikační program, později dali přednost konkurenci, např. ooVoo a Microsoft Skype. Důvodem pro vyhledávání jiných softwarových řešení byla snaha získat sledování a vysílání webových kamer s menšími výpadky a kvalitním videem.
5.2.4. Google Hangouts a Google Hangouts Air – analýza Google Hangouts [9] je webová aplikace nabízející služby instant messaging, video chat, videokonference či založení skupinových konverzací s více lidmi. Pro komunitu sluchově postižených je velkou novinkou. Její základní výhodou je nezávislost na platformě, uživatelé jakéhokoliv počítače či mobilního zařízení spolu mohou komunikovat, není třeba instalovat speciální software určený pro konkrétní typ operačního systému. Nabízí jednoduché ovládání, pro pozvání člověka do konverzace stačí kliknout na fotografii v jeho profilu. Členové komunity sluchově postižených tuto webovou aplikaci vyzkoušeli a byli spokojeni. Ocenili ji jako nástroj s nejlepším video streamingem a rychlým zahájením skupinových konverzací a videokonferencí. Před zahájením prvního videohovoru je nutné jednorázově nainstalovat plugin pro zajištění podpory všech funkcí aplikace v konkrétním prohlížeči daného operačního 27
systému, zkontrolovat nastavení kamery a mikrofonu a nastavit rychlost připojení u zařízení, které bude pro komunikaci využito. Google nedávno nabídl k použití zdarma další aplikaci Hangouts On Air [31], o kterou se lidé se sluchovým postižením začali ihned zajímat. Umožňuje video streaming z jakéhokoliv zařízení připojeného k internetu na veřejný profil u Google+ či kanál YouTube, navíc mohou uživatelé vytvořit sdílený odkaz na svých webových stránkách ve formátu embed code. Po ukončení streamování je záznam uložen na YouTube a dostupný i na sociální síti Google+, přičemž je možné jej sdílet prostřednictvím aplikace Google Hangouts On Air. Uživatelé serveru YouTube mohou sledovat video streaming komunikace lidí z celého světa, mají k dispozici program živých přenosů a díky aplikaci Google Calendar si mohou sestavit plán sledování. Google Hangouts nabízí zdarma i další užitečnou funkci Vzdálená plocha, pomocí níž může osoba sdílet plochu svého počítače jiným uživatelům. Je tak možné například vzdáleně spravovat cizí počítač.
5.2.5. Ustream – analýza Ustream [32] je webová aplikace sloužící pro streamování videa v živém přenosu nebo pro vysílání záznamu videa prostřednictvím sítě Internet. Po přihlášení pomocí existující adresy elektronické pošty nebo založeného uživatelského účtu u této webové aplikace je možné se připojit s jakoukoliv videokamerou a vysílat se širokým výběrem typů rozlišení včetně HD i Full HD. Uživatel má možnost založit kanál plánovaného streamingu živého vysílání v reálném čase a nabízet své video v tomto kanále, případně v některém z již existujících kanálů, a tyto kanály lze dělit do různých kategorií. Uživatelé, kteří chtějí sledovat nějaký video streaming, mohou použít nejrůznější hardwarová zařízení, například všechny typy zařízení Apple a Android, televizory, přehrávače médií apod. Uživatelé mohou také o médiích diskutovat současně s tím, jak je sledují. Lze živě vysílat z jakéhokoliv počítače s použitím bezplatného softwaru pro streamování videa. Nabízí se 3 typy tarifů. Tarif Pro Broadcasting je do 30 dnů zdarma, aby mohli uživatelé otestovat, zda jim služba vyhovuje. Po 30 dnech testování se pak mění na tarif Pro Plans ve verzi Silver, Gold nebo Platinum. U všech verzí tarifu Pro Plans lze vybrat, kolik návštěvníků může sledovat určitý kanál, další nastavení se týká různých doplňkových služeb, například vložení kódů, editace vestavěných kódů, editace a nastavení kanálu. Funkci Pro Broadcasting využívají registrovaní uživatelé hlavně v oblasti obchodu, koncertů, konferencí a pro podobné účely, kde mohou video sledovat vysoké počty zájemců. Pro registrované uživatele jde o velmi jednoduchý a efektivní způsob přenosu videa. Další speciální funkcí je LiveAd: uživatel může ke svému živému vysílání nebo k nahranému videu nechat přidat reklamu pro svou cílovou skupinu (např. před zahájením živého vysílání), a tak získat určitou částku na základě dohody s provozovatelem aplikace. Vývojáři mohou pracovat s rozhraním API a vytvořit svou vlastní aplikaci. 28
Pomocí JavaScript Player API lze přizpůsobit ovládací prvky a jejich rozvržení, nastavení datového spojení apod. Vestavěný kód je možné editovat (např. velikost okna, šablonu přehrávače, ochranu heslem před spuštěním), lze vytvořit vlastní stránku kanálu Ustream nebo ji propojit s rozhraním Facebooku a Twitteru. Společnosti Panasonic, Logitech, Samsung a Teradek mají certifikované vysílání, vlastní API a vlastní aplikaci pro kamery a enkodery s přímým napojením na Ustream. Pro všechny uživatele se nabízí ke stažení aplikace Ustream Producer, která slouží pro řízení streamingu, ať už v živém přenosu, nebo ze záznamu v počítači: je možné nastavit HD kvalitu, přepínat mezi několika kamerami, lze snímat obrazovku, přehrávat soubory ve formátech VOD. Je podporováno spojení FireWire, HDMI a HD či SD kamer. Aplikace Ustream na zařízeních Applu (iPhone, iPad) a zařízeních se systémem Android umožňují streamovat videa v živém přenosu kdekoli. Podporují vysílání na bázi internetového připojení 3G, 4G/LTE a Wi-Fi. Díky technologii 4G a LTE sítím vzrostly možnosti pro streaming videa v mobilním zařízení. V komunitě sluchových postižených, zvláště těch, kteří jsou zvyklí sledovat přímý přenos sportovních vysílání, se webová aplikace Ustream běžně používá.
5.2.6. Apple FaceTime – analýza Aplikace Apple FaceTime [33] funguje pouze na platformě operačního systému Apple MacOSX a mobilního operačního systému Apple iOS: umožňuje pomocí mikrofonu a webkamery telefonovat či navázat videohovor. Jde tedy o podobnou službu, jakou nabízí Microsoft Skype. Funguje pouze ve všem zařízení typu Apple, tedy na počítačích Mac a na mobilních zařízeních iPod, iPad nebo iPhone. Službu FaceTime lze aktivovat buď pomocí mobilního čísla poskytovaného mobilním operátorem, nebo na základě registrovaného účtu Apple ID, a pak lze kdykoli a kdekoli připojit na jakékoliv komunikační zařízení firmy Apple. Aplikace FaceTime je kompatibilní s vestavěnou kamerou FaceTime. Při komunikaci pomocí videohovorů je logicky potřeba se připojit k síti Internet buď pomocí Wi-Fi, nebo na datovém přenosu 3G, 4G/LTE, který podporují novější mobilní zařízení. Prozatím fungují videohovory jen pro spojení dvou účastníků pouze s maximálním rozlišením 720p, přirozeně také v širokoúhlém formátu obrazovky 16:9. Přehled technologií, které používá Apple, uvádí [34]: AAC (Advanced Audio Codec) pro hlas, populární H.264 pro video (nejsou zdarma, ale jsou standardizované, np. Skype používá vlastní proprietární řešení), SIP pro iniciaci hlasového volání, RTP a SRTP pro přenos dat a řadu technologií (STUN, TURN a ICE) pro
29
komunikaci se zařízením za NATem. Mimochodem, všechny internetové technologie (SIP, RTP a další) jsou otevřené standardy, za kterými stojí IETF. Kromě toho ještě Apple podle všeho používá XMPP, neboli Jabber, což je opět otevřený standard, který již Apple nějakou dobu používá pro řadu svých služeb – včetně Apple Push Service, tedy službu předávání informací na iPhone. Počet uživatelů této služby je v současnosti 15-20 miliónů a pokud výhledově aplikace bude podporovat i další operační systémy, je možné, že se tyto statistiky několikanásobně zvýší. Nevýhodou je, že se nenabízí streamování videa v živém přenosu pro veřejnost. Vzhledem k vysoké kvalitě videohovorů, kterou mohou potvrdit sluchově postižení uživatelé, kteří mají zařízení Apple, je komunita sluchově postižených s komunikací za pomoci této aplikace spokojená. Problém může představovat koupě samotného zařízení kvůli vysoké ceně na českém trhu.
6. APLIKACE NA AUTOMATICKÉ ROZPOZNÁNÍ MLUVENÉ ŘEČI S PŘEKLADEM DO ČESKÉHO ZNAKOVÉHO JAZYKA – AVATARA Technologie, které se zaměřují na automatické rozpoznání mluvené řeči a její překlad do znakového jazyka prostřednictvím avatara, nejsou běžně dostupné. Neexistuje aplikace pro překlad mluvené češtiny do českého znakového jazyka v reálném čase, kterou by bylo možné použít v živém přenosu s výsledkem podobným těm, které nabízí automatické překladače psaných textů. Ostatně i pro sdělení, která nejsou v reálném čase, ale jsou syntetizována z předem uložených dat, komunita neslyšících, kteří využívají český znakový jazyk, jednoznačně preferuje komunikaci prostřednictvím živého člověka, ne pomocí avatara, a to kvůli srozumitelnosti. Jak uvádí § 4 zákona 155/1998 Sb., o komunikačních systémech neslyšících a hluchoslepých osob, ve znění zákona č. 384/2008 Sb.: (1) Český znakový jazyk je základním komunikačním systémem těch neslyšících osob v České republice, které jej samy považují za hlavní formu své komunikace. (2) Český znakový jazyk je přirozený a plnohodnotný komunikační systém tvořený specifickými vizuálně-pohybovými prostředky, tj. tvary rukou, jejich postavením a pohyby, mimikou, pozicemi hlavy a horní části trupu. Český znakový jazyk má základní atributy jazyka, tj. znakovost, systémovost, dvojí členění, produktivnost, svébytnost a historický rozměr, a je ustálen po stránce lexikální i gramatické. Překlad psaného textu nebo mluvené řeči do českého znakového jazyka je mnohem obtížnější než překlad do jiného mluveného jazyka. Neexistují srovnávací korpusy textů v auditivně-orálních jazycích a vizuálně-motorických jazycích, o něž by se překlad mohl statisticky opírat, ani funkční pravidlové systémy generující výroky se správnou artikulací znaků a jejich gramaticky korektním řazením v 3D prostoru. Avatar tedy nemůže nabídnout tlumočení v reálném čase.
30
§ 6 citovaného zákona o komunikačních systémech neslyšících a hluchoslepých osob uvádí: (2) Znakovaná čeština využívá gramatické prostředky češtiny, která je současně hlasitě nebo bezhlasně artikulována. Spolu s jednotlivými českými slovy jsou pohybem a postavením rukou ukazovány jednotlivé znaky, převzaté z českého znakového jazyka. Znakovaná čeština v taktilní formě může být využívána jako komunikační systém hluchoslepých osob, které ovládají český jazyk. Převod psané, případně i mluvené řeči do znakované češtiny je proto snadnější než u českého znakového jazyka: lze postupně jednotlivým slovům textu, až už psaného, nebo vzniklého rozpoznáním mluvené řeči, přiřazovat ekvivalenty v českém znakovém jazyce syntetizované prostřednictvím avatara. Avatar lze použít pro syntézu předem připraveného přepisu do znakované češtiny nebo překladu do českého znakového jazyka. Předem připravené znění textu v českém znakovém jazyce se zaznamená pomocí notačního systému (HamNoSys [35], méně často Stokoeho transkripce [36] nebo SignWriting [37] apod.) a tento záznam lze pomocí avatara syntetizovat. Realizace automatického překladu češtiny do českého znakového jazyka prostřednictvím avatara není otázkou nejbližší budoucnosti, i když pro překlad stereotypních a strukturálně jednodušších formulací jde výhledově o technologii reálnou.
6.1. MUSSLAP Projekt řešený týmem Katedry kybernetiky na Fakultě aplikovaných věd Západočeské univerzity v Plzni (plný název Multimodal Human Speech and Sign Language Processing for HumanMachine Communication [38]) si kladl za cíl přepis mluvené češtiny do znakované češtiny nebo její překlad do českého znakového jazyka. Jde o složitou úlohu, která má tři části: rozpoznávání spojité mluvené řeči, vizuální syntéza znakované češtiny a spojení či kombinace obou technologií. Proto byl projekt v praxi zaměřen na velmi úzce vymezený typ textů: překlad informací o vlakových spojeních. Informace vyslovená hlasově se na displeji objevuje v přepisu do znakované češtiny, ovšem až poté, co proběhne automatické titulkování (rozpoznání řeči). Komunita sluchově postižených o tomto projektu bohužel ví málo, přestože projekt skončil koncem roku 2008. K praktickému využití této technologie došlo později, když Západočeská univerzita začala pracovat ve spolupráci s Masarykovou univerzitou v Brně [39] a Univerzitou Palackého [40] v Olomouci na slovníku českého znakového jazyka online [41]. Syntéza jednotlivých znaků i frází českého jazykového jazyka prostřednictvím avatara vyvinutého původně v projektu MUSSLAP je součástí tohoto slovníku.
31
Pro správné rozpoznání je třeba nejen dobře popsat manuální složky českého znakového jazyka (tvar rukou, pohyb rukou a orientace rukou a místa artikulace), ale i nemanuální (artikulace rtů, postavení těla, rychlost řeči a mimika v obličeji). Při výzkumu bylo použito dvou kamer na sledování pohybu rukou a hlavy v 3D prostoru. Byla zkoumána i syntéza českého znakového jazyka – napodobení pohybů znakujícího lidského figuranta. Cílem syntézy je zpracovat a vytvořit obraz, který by se co nejvíce podobal člověku a mohl plnit roli virtuálního tlumočníka. V praxi je srozumitelnost této syntézy opět otázkou gramatické přesnosti: přepis do znakované češtiny, kde gramatika českého znakového jazyka odpadá, je vyšší pravděpodobnost, že syntéza bude funkční, v případě českého znakového jazyka pak je mnohem nižší pravděpodobnost přesnosti a srozumitelnosti syntézy. K srozumitelnosti přispívá v daném případě tvorba modelu lidské postavy. Byla využita animace lidské postavy pomocí standardu nazvaného H-anim, která je složena z 89 spojených kloubů, jde proto o strukturovaný model byl dostatečný pro animaci lidské postavy.
6.2. Jiné projekty založené na motion capture Mocaplab Mocaplab is one of Europe’s leading innovative motion capture studios, offering complete motion capture and animation services for film, television, commercials, video games, art and science. V překladu zní: Mocaplab je jedním z předních evropských inovačních motion capture studiu, která nabízí kompletní zachycování a animace pohybu služeb pro film, televizi, reklamy, video hry, umění a vědy. Mocaplab [42] řeší různé projekty, jeden z nich, financovaný vládou ve Francii, se zabývá vytvořením avatara znakového jazyka. Komunitě sluchově postižených pozitivně hodnotí další projekty pařížského studia Mocaplab, jejichž snahou je zachytit a syntetizovat pohyb lidského figuranta s co nejvyšší přesností. Hlavně prelingválně neslyšící, kteří od narození používají znakový jazyk jako svůj mateřský jazyk, vyžadují přesnost pohybů i mimiky člověka znakujícího v prostoru. Projekt SiSi - Say It, Sign In Cílem tohoto projektu je převod z mluvené angličtiny do textové podoby a následně do britského znakového jazyka (dále BSL), jež je interpretován animovanou postavou – avatarem. Prvotně se na vývoji podílel vysokoškolský ústav University of East Anglia [43], posléze se zapojil i výzkumný tým IBM. Nyní je SiSi [44] společným projektem v rámci globálního studentského programu Extreme Blue. 32
Systém TESSA Systém TESSA je v současné době schopen komunikovat pouze jedním směrem, nemůže odpovídat na znakování. Další vývoj softwaru je tedy charakterizován snahou o rozpoznávání alespoň velmi omezeného počtu znaků, který by byl schopen přetlumočit i opačným směrem [45]. Kdekoliv ve světě je obecným faktem nedostatek kvalifikovaných tlumočníků znakového jazyka. Cílem projektu TESSA2 je ulehčit neslyšícím komunikaci s pracovníky pošt, a to na základě rozpoznání jeho mluveného projevu a následném převodu do znakového jazyka, který interpretuje avatar. Jelikož informace pracovníka jsou víceméně stereotypní a obsahově omezené na úzkou oblast poštovních služeb, pravděpodobnost chyb v projevu znakujícího avatara je nižší. Vývoj systému TESSA je financován poštovní společností Consingia a další výzkum je podpořen z projektu ViSiCAST, který je součástí unijního programu Technologie informační společnosti (IST). Kombinuje technologie pro automatické rozpoznávání mluvené řeči a virtuální animaci lidského pohybu - tedy avatara s cílem umožnit komunikaci pracovníků pošty se zákazníky se sluchovým postižením. Shrnutí Zabývat se těmito světovými projekty v situaci, kdy řešení překladu do českého znakového jazyka není k dispozici, nebylo pragmatické s ohledem na požadavek praktického zajištění rozhlasového vysílání.
6.3. Shrnutí Argumenty, proč v návrhu aplikace nebude využita technologie automatického rozpoznání mluvené řeči s následnou syntézou znakového jazyka pomocí avatara, jsou v zásadě tři: 1. Aktuálně není k dispozici aplikace umožňující překlad a syntézu českého znakového jazyka. 2. Avatar stále ještě nemá výrazové možnosti shodné s živým člověkem, proto překlad bývá hůře srozumitelný kvůli gramatické nepřesnosti při syntéze (typickým problémem je překlad dvou a více mluvčích, neboť neexistuje algoritmus pro přidělování pozic jednotlivých mluvčích při tlumočení do znakového jazyka). V případě, že by fungoval pouze přepis rozhlasového vysílání do znakované češtiny, kde se gramatika českého znakového jazyka neuplatňuje, sníží se tím sledovanost pořadu, především u prelingválně neslyšících, protože jejich upřednostňovaným a v řadě případů i mateřským jazykem je český znakový jazyk.
2
TESSA development is funded by Consignia. Further research into TESSA is also being funded by ViSiCAST , a European Union Information Societies Technology (IST) project. Více viz na
33
3. S ohledem na argument 1 a 2 není zatím technologicky reálné vyjadřovat prostřednictvím avatara přirozené pocity (žert, ironie, podráždění, smutek, sentiment apod.), jejichž nositelem je v mluveném jazyce nejčastěji barva hlasu. Ostatně tomu tak v dané chvíli není ani v případě hlasové syntézy. To v řadě případů brání porozumět skutečnému komunikačnímu záměru.
7. APLIKACE S PODPOROU KOLABORACE V REÁLNÉM ČASE Mým cílem je analyzovat existující online kancelářské aplikace nebo textové procesory, pomocí nichž lze zapisovat text v reálném čase a jsou k dispozici zdarma. Podmínkou využitelnosti tedy je práce s dokumenty v reálném čase, možnost prohlížení i editování dokumentu v přímém přenosu a uživatelské přizpůsobení grafického prostředí, což znamená možnost vytvářet vlastní šablonu.
7.1. Dokumenty Google – analýza Tradičním nástrojem pro záznam textu je software Microsoft Office 3 pro operační systém Windows a MacOSX, dále LibreOffice4, který podporuje i operační systém Linux, a další podobné kancelářské programy. S trvalou přístupností Internetu se objevily kancelářské balíky online, z nichž nejznámější jsou Dokumenty Google (Google Docs). Dokumenty Google [46] je online kancelářský balík, využívající cloud computing5 pro sdílení dokumentů. Navazuje na řadu jiných aplikací společnosti Google, které jsou spojené se službou Disk Google: kromě Dokumentů jde o Tabulky Google, tedy tabulkový procesor, dále Prezentace, Formuláře a Nákresy. Pro přístup k Dokumentům je potřeba mít buď vlastní účet Google nebo jinou ověřenou adresu elektronické pošty. Pracovat s Dokumenty Google je možné pouze v režimu online; v režimu offline fungují jen v součinnosti se službou Disk Google, nebo v prohlížeči Google Chrome 6, případně pod operačním systémem Chromium. Velkou výhodou je, že balík není potřeba instalovat do různých počítačů nebo do hardwarových zařízení. Editace jakýkoliv souborů přes Dokumenty Google funguje v reálném čase a může ji provádět více registrovaných uživatelů současně – vždy probíhá automatické ukládání do Disku Google. Všechny komunikace probíhají přes šifrovaný protokol na HTTPS. Kterýkoliv text v Dokumentech Google je možné operativně přeložit do jiného jazyka pomocí Překladače Google, samozřejmě s velmi rozdílnou mírou správnosti, v závislosti na povaze textu a kvalitě dat dostupných pro zvolený jazyk. 3
Microsoft Office - kancelářský program buď na základě desktopové nebo webové rozhraní. Více viz . 4 LibreOffice - LibreOffice je svobodný kancelářský balík pro Windows, Macintosh a Linux, který nabízí šest plnohodnotných aplikací pro práci. Více viz . 5 Cloud Computing - poskytování služeb či aplikací uložených na serverech v síti Internet s tím, že uživatelé k nim mohou přistupovat například pomocí webového prohlížeče, apod. Více viz . 6 Google Chrome – webový prohlížeč. Více viz .
34
Dokumenty je možné sdílet soukromě nebo veřejně, přičemž odkaz na ně lze zaslat buď e-mailem, nebo sociální sítí Google+7, Facebook8 a Twitter9. Při sdílení je možné nastavit jakýkoliv typ oprávnění pro jakoukoliv osobu, buď jen pro prohlížení anebo pro možnou úpravu jako editace. Další možností je odeslat e-mailem pozvánku, ta pak vyzve k přečtení nebo k úpravě. Je-li soubor Dokumentů Googlu publikován bezprostředně na webové stránce, je při každém uložení na Disku Google obsah okamžitě aktualizován. [47] J. Čížek srovnává Dokumenty Google a Office Web Apps takto Zde jednoznačně boduje Google. V obou případech můžete dokument sdílet soukromě i veřejně pomocí odkazu. Pokud nemáte účet na SkyDrive, můžete si takový dokument pouze prohlédnout, Docs ovšem nabízí i možnost zcela anonymní úpravy, jeho dokument tedy upraví i člověk nepřihlášený – naprostý anonym. To ocení všichni, kteří chtějí sdílet k hromadné úpravě nějaký text, tabulku aj. a neví, jestli mají ostatní účet u Googlu. Při návrhu rozhraní aplikace jsem uvažoval, jestli nepoužít Dokumenty Google. Negativum ovšem je, že nelze individuálně upravovat šablonu dokumentů. Proto nakonec jsem dospěl k rozhodnutí, že webová aplikace WriteURL nabízí víc předností. Poskytují formát celé obrazovky, a individuální nastavení velikosti dokumentu na displeji. Jako špičková aplikace mají Dokumenty Googlu velmi klasické a funkční grafické uživatelské prostředí. Lze importovat soubory z řady formátů a jsou-li korektně kódovány, většinou proběhne konverze bez problému. Nabízí se celá řada různých formátování a editačních funkcí. Komunita sluchově postižených Dokumenty Google používá a bere je jako samozřejmost. V kategorii online kancelářské aplikaci je v této komunitě o aplikaci nejběžnější.
7.2. WriteURL – analýza WriteURL [7] je moderní webová aplikace, která funguje jako online textový procesor v reálném čase. Oproti Dokumentům Google nevyžaduje žádnou registraci ani potřebné heslo k přístupu. Zapisovatelé a čtenáři budou potřebovat pouze znalost URL adresu. Funguje ve všech novějších webových prohlížečů, protože používá technologii HTML5 WebSocket – je stále otevřené spojení mezi prohlížečem a serverem a to je důvodem, proč u nejstarších prohlížečů nemusí fungovat. Je programován v JavaScriptu, a na serveru je nainstalován
7
Google+ - sociální síť. Více viz . Facebook - sociální síť. Více viz . 9 Twitter - sociální síť. Více viz . 8
35
JavaScript, konkrétně modul Node.js10, přičemž současný server této aplikace běží na serveru Nginx 11 v operačním systému Linux. Při vytváření dokumentu jako na straně zapisovatele stačí kliknout na „New Documents“. Psát v textovém procesoru v různých jazycích není problém, je nastaveno kódování UTF-812. Textový procesor nabízí základní nastavení písma, vložení obrázku a hypertextového odkazu, což je pro přepisovatele jako základní funkci postačující. Uživatel se nemusí registrovat do systému této aplikace – WriteURL je k dispozici pro všechny zdarma bez rozdílu. Další funkci je jednoduché sdílení dokumentů. Sdílení se děje buď e-mailem, anebo pomocí tří různých variant adresy URL. První typ „Write URL“ umožňuje zápis a úpravu dokumentu, druhý typ adresy „Read URL“ umožňuje pouze přečtení dokumentu a poslední typ „Publish URL“ slouží ke zveřejnění dokumentu. Výhodou tedy je, že je-li později zapotřebí upravit například zveřejněný dokument, je možné přejít na URL adresu, která slouží k tomu účelu. Čtenáři, kteří mají přístup pouze k adrese typu „Read URL“, mohou vidět změny v dokumentu v reálném čase. Není potřeba stáhnout dokument, ani se nemusí bát přechodu na novější verzi jak textového procesoru, tak prohlížeče. Existující dokumenty lze upravovat v režimu offline. Změny informace v dokumentu offline jsou ukládány v jakémkoliv hardwarovém zařízení a v případě připojení tohoto zařízení online, se data okamžitě synchronizují. Plánuje se další vývoj v šifrování dokumentů. Obecným příkladem URL adresy je www.writeurl.com/text/id/read/write/new a to lze chápat logicky: dokument má vždy identifikační kód (zkratka id), heslo pro čtení (zkratka read), případně heslo pro editaci (zkratka write). Zkratka new slouží pro vytvoření nového dokumentu. Pokud uživatel klikne na domovské stránce WriteURL na „New Documents“, server automaticky vygeneruje náhodný identifikační kód, náhodné heslo pro čtení a náhodné heslo pro zápis. Manuálně může sám uživatel zadat vytvořenou ID adresu, heslo pro čtení a heslo pro zápis, přičemž musí zadat v každém údaji minimálně 3 znaky z malých písmen a-z a číslic 0-9. Tým WriteURL doporučuje, aby při vytváření dokumentu manuálním zadáním identifikačních údajů byly kódy delší kvůli zabezpečení (možnosti kód odhadnout). Při dostatečně složitém kódu je pravděpodobnost odhadnuti minimální. WriteURL nabízí také klasický export souboru, ale pouze do formátu MS Word nebo HTML a pouze v prohlížeči Google Chrome. Pro uživatele jsou k dispozici odpovědi na často kladené otázky: například možnost upravovat styly CSS, úpravy elementů pomocí DOM v oblasti kódování JavaScriptu apod.
10
Node.js – moderní software, který běží na serveru v jazyce JavaScript. Více viz . Nginx – je svobodný program webového serveru. Více viz . 12 UTF-8 - univerzální znaková sada použitá ve více webových stránkách. Více viz . 11
36
Po několikaměsíčním testování tuto aplikaci považují pro daný účel za nejvhodnější. S jednáním s týmem uživatelské podpory WriteURL mám bohaté zkušenosti a chystám se aplikaci využít i v příštích projektech Unie neslyšících Brno.
7.3. ZOHO Docs – analýza ZOHO Docs [48] můžeme chápat jako on-line kancelářský balík podobný webovým aplikacím dvou známých konkurentů Microsoft Office Web Apps a Google Docs. Nabízí 3 různé tarify. Tarif „Free“ nabízí základní funkce – sdílení složek a souborů, kancelářské aplikace jako u Google Docs, správa uživatelů, historie ukládaných dokumentů a 5 GB dat pro úložiště. U druhého tarifu nabízí za poplatek 5 USD měsíčně pro jednoho uživatele neomezené množství pracovních prostorů, plánovače úloh, sdílení souborů s možnosti chráněným heslem a nastavení základní oprávnění uživatelů, dále 250 GB dat úložiště. Dále poslední placený tarif za 8 USD měsíčně pro jednoho uživatele nabízí ještě víc speciálních funkcí: 1000 GB dat úložiště, skupiny Active Directory, a další. Společná aplikace ZOHO Docs pro Desktop umožňuje synchronizaci souborů a složek z klientských počítačů přímo do úložiště dat u ZOHO v režimu online. ZOHO Docs pro desktop funguje stejně jako Disk Google: podporuje spolupráci s dokumenty v režimu online s ostatními uživateli současně v reálném čase. Do systému online kancelářské aplikace ZOHO Docs je možné se přihlásit buď pomocí zaregistrovaného účtu ZOHO, anebo i přímo v rozhraní účtu Google nebo účtu Google Dokumenty i taky v rozhraní Facebook a ještě u účtu Yahoo. Je možné nastavit synchronizaci společně s ZOHO Docs Sync i také je možné s Dropbox13. Nabízí ještě lepší funkci jako možné vložení vestavěného kódu do jiné webové stránky – při HTML syntaxi „iframe“ se chová se jako rám okna. Pro návrh vytvářené aplikace nelze tento nástroj použít, protože má stejný problém jako Dokumenty Google: uživatelské přizpůsobení šablony je nemožné, zobrazuje se vždy celá stránka stejná jako u editace ZOHO Docs. Další negativa je, že vestavěný kód nezobrazuje změny v reálném čase. Jenom ukazuje statický obsah v době vložení vestavěného kódu. Další překvapivou funkci, že při nastavení je možné konfigurovat povolení přístupu do ZOHO Docs podle IP adresy, tedy veřejně. Jsou podporovány aplikace v mobilních zařízeních a pro chytré telefony na platformách operačních systému Apple iOS a Google Android. Pro vývojáře se nabízí možnost využít API, programátoři mohou vytvářet své vlastní aplikace a využít možnost sdílení, prostředky pro ukládání dokumentů a přístup k dokumentům ze služeb ZOHO Docs. Důvodem malého počtu uživatelů v ČR je chybějící česká lokalizace. V komunitě sluchově postižených je malá pravděpodobnost, že se najde ten uživatel, který tuto aplikaci používá. U 13
Dropbox - webové úložiště využívaného systému cloud computingu. Více viz .
37
Dokumentů Google pravděpodobnost vyšší než u všech jiných online kancelářských aplikací vzhledem k možnostem sdíleného editování a spolupráce s mnoha uživateli současně.
7.4. Microsoft Office Web Apps – analýza Microsoft Office je celosvětově známý kancelářský balík, který nabízí celou řadu aplikací, např. Word, Excel, PowerPoint, Outlook, Access, Publisher, InfoPath, Visio, OneNote a jiné další. Cloud computing umožnil, že se tento balík nabízí nejen ve verzi pro desktopový počítač, ale i jako webovou aplikace s podobnou myšlenkou jako Google Docs. Microsoft Office Web Apps [49] umožňuje pracovat online buď pod operačním systémem Microsoft Windows, nebo Apple MacOSX. Pro přístup k Microsoft Office Web Apps je potřeba se zaregistrovat na Microsoft Live14 a získat adresu elektronické pošty v doméně outlook.com, resp. outlook.cz, případně hotmail.com. Přístup do systému Office Web Apps je zdarma, ale pouze se základními funkcemi: Word Online pro základní prohlížení a správu textových dokumentů, Excel Online pro prohlížení a správu tabulek, PowerPoint Online pro prohlížení a správu prezentací, OneNote Online pro psaní poznámkových bloků, Kalendář jako plánovač úloh, Outlook pro přístup ke schránce elektronických pošt a OneDrive (dříve SkyDrive) pro správu úložišť, kde lze ukládat soubory podobné jako na Disku Google. Ve srovnání s Google Docs i ZOHO Docs má lepší grafické uživatelské prostředí, přinejmenším v tom smyslu, že je povědomé těm, kdo jsou zvyklí na MS Office jako primární kancelářský balík při práci offline. Shodně s Google Docs a na rozdíl od ZOHO Docs má českou lokalizaci. Desktopový kancelářský balík Microsoft Office lze nainstalovat pouze do jedné klientské stanice a samozřejmě nabízí vyšší komfort. Kromě tarifu Office Online, který je zdarma, se dále nabízejí placené tarify buď pro domácnost anebo pro firmu. Tarif Office 365 pro domácnosti obsahuje plnohodnotnou aplikaci a dále doplňkové funkce, jako jsou: offline úložiště, možný přístup k chytrému telefonu s operačním systémem Microsoft Windows Phone, Google Android i Apple iPhone. Pro otevření dokumentů v režimu online je možné použít nainstalovanou desktopovou aplikaci. Pro firmu je Office 365 ve třech variantách podle počtu uživatelů, k nimž se jako doplňkové funkce nabízejí Access, Publisher, Lync a InfoPath. Nejdražší verze obsahují jako doplněk dále službu Active Directory. Všechny tarify obsahují sdílení souborů v reálném čase prostřednictvím zaslaného odkazu s 3 typy oprávnění a to pro prohlížení, pro úpravu i pro publikování souborů – princip je podobný jako u Dokumentů Google. Všechny soubory jsou ukládány do úložiště OneDrive. Nabízí se také základní nainstalované šablony.
14
Microsoft Live – více viz .
38
Co se týká spolupráce v reálném čase prostřednictvím veřejného odkazu nebo při oprávnění pro pouhé zobrazení, neaktualizuje se dokument automaticky – odezva je s velkým zpožděním. Nabízí se také možnost použít vestavěný kód, který funguje podobně jako v případě sdílení souborů. Jako nástroj do připravovaného návrhu nelze MS Office Web Apps použít, protože nereaguje na změny dokumentu v reálném čase. Placené tarify nebyly otestovány, protože cílem je aplikace bezplatná.
7.5. LiveNote – analýza LiveNote [50] je webová aplikace fungující na témže technologickém principu jako WriteURL. Je mnohem jednodušší, nabízí práci s dokumentem v reálném čase, při vytvoření dokumentu má nastavenou šablonu, kterou není možné individuálně přizpůsobit nastavení obrazovky. Zobrazuje informace o počtu připojených uživatelů, nabízí rychlé ovládání, export dokumentů, možnost notifikací a další. Využívá technologii WebSocket protokolu HTML5. Proto opět platí, že ve starších verzích prohlížeče může mít uživatel problém se připojovat a sdílet vytvořený dokument. V takovém případě je sdílení dokumentu možné jen zkopírováním adresy URL. K dispozici je uživatelská podpora, s níž se dá komunikovat prostřednictvím e-mailu. Pro návrhu zamýšlené aplikace je zásadním nedostatkem, že nelze individuálně nastavit šablony zobrazení podle uživatele.
8. NÁVRH ROZHRANÍ APLIKACE Cílem mého návrhu rozhraní aplikace je přístupnost pro webové prohlížeče bez omezení. Je použit nástroj pro přenos textu v reálném čase od přepisovatele ke čtenáři, tak by odezva měla minimální zpoždění, a to technologie WebSocket v HTML5. Je použit kaskádový styl CSS3 15 kvůli podpoře univerzálního rozlišení na všech platformách a jejich operačních systémech. Kvůli ukládání historie informací a sdílení informací bylo potřeba využít PHP 16 a MySQL17 a organizovat data v databázi. Použil jsem javascriptovou knihovnu JQuery, která po úpravách slouží pro nastavení barvy písma, pozadí a podobně. Pro přenos textu v reálném čase jsem zvolil webovou aplikaci WriteURL. Díky elementům DOM přítomným v této aplikaci se veškerý text nevkládá ihned do zdrojového kódu, takže prohlížený dokument zabere méně místa v paměti. Streamování živého přenosu či záznamu tlumočení ve znakovém jazyce je zajištěno pomocí aplikace Google Hangouts Air, je možné jej zobrazit na sdíleném kanálu YouTube, na který je odkázáno pomocí embed code ve zdroji webové stránky.
8.1. Univerzalita aplikace vůči webovým prohlížečům
15
CSS3 – kaskádový styl verze 3. Více viz . PHP – Programovací jazyk pracující na straně serveru. Více viz . 17 MySQL – databázový systém. Více viz . 16
39
Při vytváření webové aplikace je dobré myslet předem na univerzálnost použití webové aplikace vzhledem k webovým prohlížečům, a to na všech platformách a operačních systémech. Důvodem je poskytnout všem uživatelům snadný přístup k rozhraní aplikace.
Mým cílem je
odstranění veškerých bariér, např. nucené instalace software či různých pluginů. Od 8. dubna 2014 už není dostupná podpora a aktualizace pro Windows XP [51]. Vytvářená aplikace tak nepočítá s podporou starších verzí prohlížeče Internet Explorer pro tento operační systém. Mým cílem je využít technologii HTML5, jež je podporována prohlížeči všech různých platforem: Microsoft Windows (Vista, 7, 8, 8.1), Apple MacOSX, Linux i jiné OS, které v novějších verzích fungují bez problémů. Navržená webová aplikace bude fungovat v počítačích či přenosných zařízeních všech různých platforem a operačních systémů. Při ověřování funkčnosti aplikace použiji nejčastěji používané prohlížeče jako je Internet Explorer, Mozilla Firefox18, Google Chrome, Opera19, Apple Safari20 a Maxthon21. Pravděpodobnost nalezení problému je nižší, použije-li uživatel aktualizovanou nejnovější verzi vybraného webového prohlížeče.
8.2. Návrh aplikace Návrh je první webovou aplikací, která umožňuje rozhlasové vysílání ve dvou kanálech – textový přepis mluvené řeči a překlad do českého znakového jazyka v reálném čase, včetně možnosti nahlédnout dodatečně do archivu přepisů a překladů. Aplikace je ve značkovacím jazyce HTML5 a s podporou protokolu WebSocket. Vysvětlivky Normální zobrazení je chápáno jako základní zobrazovací režim. Obsahuje indikátory ONLINE/OFFLINE, dále sekci ARCHIV a v pravém horním rohu ikonu HELP pro uživatele, kteří k ovládání aplikace potřebují návod. Indikátor ONLINE informuje uživatele o tom, že v hlavním okně právě běží přepis aktuálního rozhlasového vysílání, indikátor OFFLINE naopak vyjadřuje, že k přepisu v reálném čase momentálně nedochází, a uživateli je nabídnuto přejít do sekce ARCHIV, kde může vyhledávat v historii přepisů. Vygenerování základního okna webové aplikace obsluhuje skript index.php. Bude na něm většinou zobrazen přepis aktuálního rozhlasového vysílání, který bude uživatelům nabízen téměř denně na rozdíl od omezeného provozu vysílání ve znakovém jazyce.
18
Mozilla Firefox – webový prohlížeč. Více viz . Opera – webový prohlížeč. Více viz . 20 Apple Safari – webový prohlížeč. Více viz . 21 Maxthon – webový prohlížeč. Více viz . 19
40
Uživatel má možnost nastavit dva různé typy zobrazení, a to buď normální režim, nebo režim celé obrazovky. Při změně režimu dále vybírá ze šesti zobrazovacích módů: -
okno obsahující pouze přepis vysílání,
-
přepis je zobrazen v levé polovině okna, video s tlumočením v pravé části,
-
okno obsahující pouze video s tlumočením vysílání,
-
přepis je zobrazen v pravé polovině okna, video s tlumočením v levé části,
-
obnova obsahu stránky,
-
přechod na jiný režim zobrazení
Žlutý panel s ikonami reprezentujícími šest ovládacích prvků je umístěn na horní hranici okna aplikace a lze jej zobrazit pomalým pohybem kurzoru myši směrem k němu. Podobně, přejede-li uživatel kurzorem myši pomalu k dolní hranici okna aplikace, zobrazí se další žlutý panel s ovládacími prvky pro nastavení formátování textu. V okně s přepisem může změnit barvu textu i pozadí, velikost a typ písma, zobrazení tučně či kurzívou. Provede-li uživatel změnu, je přizpůsobena i velikost okna s videem nabízejícím verzi ve znakovém jazyce. Kurzor myši je stále zobrazen, chce-li jej uživatel nechat zmizet, pohybuje s ním pomalu k pravé hranici okna aplikace. Potřebuje-li jej poté znovu zobrazit, analogicky myší posune doleva. Sekce ARCHIV nabízí uskutečněné přepisy či překlady rozhlasového vysílání podle data, kdy se vysílání konalo. Uživatel nejdříve aktivuje ikonu s kalendářem a v něm vybere příslušný den. Následně klikne na obrázek lupy, čímž provede vyhledání přepisu či videa v databázi. Není-li záznam k dispozici, je o tom uživatel informován textem uprostřed okna aplikace a může tak vyhledat přepis či překlad vysílání, které se uskutečnilo v jiném termínu. K úpravě vzhledu aplikace byly použity kaskádové styly CSS3, které umožňují vytvořit webový design zajišťující přizpůsobení stránky podle rozlišení displeje. Díky souboru color-picker.css a skriptu colorpicker.js může uživatel zadávat barvu textu či pozadí třemi způsoby: určením hodnot v modelech RGB či HSB nebo hexadecimálně. Další sada stylů loading.css umožňuje výběr již dříve uložené barvy. Aplikace před zobrazením svého obsahu zjišťuje pomocí stylů v reset.css typ zařízení a použitý webový prohlížeč. Na základě těchto informací přizpůsobuje vzhled okna. Obecné styly pro nastavení vzhledu jsou uloženy v souboru standard.css, který zahrnuje i pravidla pro přizpůsobení vzhledu okna při změnách jeho velikosti. Dvojice zebra_datepicker.css a zebra_datepicker.js se poté stará o přizpůsobení vzhlede kalendáře, v němž uživatel vybírá data.
41
jQuery Níže nabízím přehled všech javaskriptových knihoven, které jsem použil k nastavení DOM elementů, pro manipulaci s CSS či animace. -
jquery-1.9.1.js je odkaz propojující zdrojové soubory aplikace se serverem jQuery.com
-
script.js – knihovna se základním nastavením WriteURL umožňující využití DOM elementů a jejich nastavení. Je možné ji volně upravovat i dalšími programátory, ne pouze pro naše účely.
-
canvasloader.js – nástroj pro zobrazení animace a efektu grafického pohybu pro sdělení, že se právě načítá již dříve uložená barva (viz také sada stylů loading.css)
-
colorpicker.js, utils.js a eye.js – knihovny sloužící k zobrazení nabídky barevných modelů RGB, HSB nebo k hexadecimálnímu zápisu barvy
-
font-config.js – knihovna slouží k nastavení vlastností písma
-
font-selector.js – knihovna pro nastavení barvy pozadí a textu
-
font-style.js – knihovna umožňuje změnu řezu písma (tučně či kurzívou)
-
checkbox.js a jquery.icheck.js – knihovna upravující vzhled formulářového prvku zaškrtávací pole
-
scrollto.js – knihovna umožňující automatické vnucení pohybu směrem dolů, kterou využívám pouze při přepisu rozhlasového vysílání v reálném čase
-
zebra_datepicker.js – knihovna obsluhující kalendář a nabízející možnost předávat data v proměnných v libovolném formátu
MySQL Přepisovatel či tlumočník se před zahájením svého výkonu přihlašuje k databázi a přiřazuje výsledek své budoucí práce k datu, v němž bude přepis či tlumočení pořízeno. Ve stejném dni nemusí současně dojít k přepisu i tlumočení, obě osoby jsou na sobě nezávislé. Databáze obsahuje tyto tabulky: writer – evidence přepisů, tabulka obsahuje dva sloupce id, date. Identifikátor id se přiřazuje automaticky, datum se ukládá ve formátu YYYY-MM-DD. interpreter – evidence tlumočnických videí, tabulka obsahuje tři sloupce id, date a url_streaming. Atribut url_streaming uchovává odkaz na YouTube kanál, na němž je video s tlumočením sdíleno. První dva atributy mají stejný význam a formát jako v případě tabulky writer.
42
9. TESTOVÁNÍ MOŽNÝCH ŘEŠENÍ PROBLÉMŮ 9.1. Popis a výsledky testování dvou aplikací ASR Testování aplikací Newton Dictate a NovaVoice proběhlo v Unii neslyšících Brno. Zúčastnilo se jej celkem 12 mluvčích, kterým byl na počátku vysvětlen jejich úkol - svým přirozeným hlasem přednést text vytištěný na předaném papíře, který neznali. Mluvčí neabsolvovali školení o zásadách správného diktování a jejich hlasy nebyly v žádném z obou programů adaptovány. Cílem testování bylo získat informaci o přesnosti rozpoznání daného článku, který byl rozsahu jedné strany A4. Přesnost se u každého mluvčího vyjádřila zvlášť pro oba programy a následně se v procentech vyjádřil průměrný výsledek pro každou aplikaci ASR. Vzali jsme v potaz, že každý mluvčí mluví jiným způsobem, tzn. má jinou barvu hlasu, emocionálnost vyjádření, či je různého pohlaví. Testování bylo provedeno na této skupině 12 lidí: 2 mladí studenti, 2 mladé studentky, 2 dospělí muži, 2 dospělé ženy, 2 starší muži, 2 starší ženy. 97 % byla požadovaná přesnost, kterou bylo možné označit jako uspokojivou. Další podmínky testování byly nastaveny takto: 1.
prostor pro nahrávání byl menší, 16 m2
2.
mluvčí hovořili běžným hlasem, nezaznamenali jsme během testování žádný výrazný hluk
3.
mluvčí seděl u počítače, využíval dva mikrofony, okna byla zavřená
4.
byly využity dva výkonné počítače o stejné konfiguraci: 8 GB operační paměti kvůli zamezení možného přetížení paměti, procesor CPU Intel i5, dle technické specifikace obou aplikací maximálně dostačující
5.
byl použit mikrofon značky VXi CC Pro™ 4010 DC s adaptérem USB - VXi Corp VXI 100 USB
6.
na prvním počítači se 64-bitovým operačním systémem Microsoft Windows 7 byla spuštěna aplikace NEWTON Dictate, druhý počítač se spuštěnou aplikací NovaVoice byl nakonfigurován stejně jako první.
7.
spuštěné programy byly na obou počítačích spuštěny jako jediné běžící aplikace
8.
každý mluvčí hovořil pouze jednou a díky dvěma mikrofonům připojeným ke každému počítači zvlášť byla řeč rozpoznána oběma aplikacemi paralelně.
9.
celý text obsahoval 522 slov ve spisovné češtině na téma dopravní nehody a jejího popisu
10.
všichni mluvčí se seznámili s tím, že se mají mluvit běžným způsobem. Měli možnost se “rozmluvit”, avšak bez možnosti si přečíst článek určený k testování
11.
vyhodnocení výsledků rozpoznání řeči 12 mluvčích předložíme ve třech částech. Nejprve u každého mluvčího uvedeme přesnost rozpoznání jeho řeči, a to u obou aplikací. Následně pro každý program ASR provedeme výpočet průměrné přesnosti rozpoznání. Na závěr uvedeme ještě průměrnou přesnost rozpoznání u obou aplikací ASR.
43
Uvádíme vzorec pro výpočet přesnosti rozpoznání mluvené řeči do textové podoby, jehož výsledek je v procentech: ((a - b) / a) * 100, kde - symbolem a rozumíme celkový počet slov v článku. - symbolem b rozumíme celkový počet chybně rozpoznaných slov. Aplikace Newton Dictate na 12 mluvčích: Mluvčí 1: ((522 - 63) / (522)) * 100 = 0,879 * 100 = 87,9 % Mluvčí 2: ((522 - 74) / (522)) * 100 = 0,858 * 100 = 85,8 % Mluvčí 3: ((522 - 58) / (522)) * 100 = 0,888 * 100 = 88,8 % Mluvčí 4: ((522 - 61) / (522)) * 100 = 0,883 * 100 = 88,3 % Mluvčí 5: ((522 - 78) / (522)) * 100 = 0,850 * 100 = 85,0 % Mluvčí 6: ((522 - 49) / (522)) * 100 = 0,906 * 100 = 90,6 % Mluvčí 7: ((522 - 55) / (522)) * 100 = 0,894 * 100 = 89,4 % Mluvčí 8: ((522 - 64) / (522)) * 100 = 0,877 * 100 = 87,7 % Mluvčí 9: ((522 - 44) / (522)) * 100 = 0,915 * 100 = 91,5 % Mluvčí 10: ((522 - 47) / (522)) * 100 = 0,909 * 100 = 90,9 % Mluvčí 11: ((522 - 52) / (522)) * 100 = 0,900 * 100 = 90,0 % Mluvčí 12: ((522 - 61) / (522)) * 100 = 0,883 * 100 = 88,3 % Průměrná úspěšnost rozpoznání aplikace Newton Dictate: 88,68 %.
Aplikace NovaVoice na 12 mluvčích: Mluvčí 1: ((522 - 47 ) / (522)) * 100 = 0,900 * 100 = 90,0 % Mluvčí 2: ((522 - 39 ) / (522)) * 100 = 0,925 * 100 = 92,5 % Mluvčí 3: ((522 - 57 ) / (522)) * 100 = 0,890 * 100 = 89,0 % Mluvčí 4: ((522 - 51 ) / (522)) * 100 = 0,902 * 100 = 90,2 % Mluvčí 5: ((522 - 42 ) / (522)) * 100 = 0,919 * 100 = 91,9 % 44
Mluvčí 6: ((522 - 56 ) / (522)) * 100 = 0,892 * 100 = 89,2 % Mluvčí 7: ((522 - 34 ) / (522)) * 100 = 0,934 * 100 = 93,4 % Mluvčí 8: ((522 - 62 ) / (522)) * 100 = 0,881 * 100 = 88,1 % Mluvčí 9: ((522 - 59 ) / (522)) * 100 = 0,886 * 100 = 88,6 % Mluvčí 10: ((522 - 36 ) / (522)) * 100 = 0,931 * 100 = 93,1 % Mluvčí 11: ((522 - 60 ) / (522)) * 100 = 0,885 * 100 = 88,5 % Mluvčí 12: ((522 - 34 ) / (522)) * 100 = 0,934 * 100 = 93,4 % Průměrná úspěšnost rozpoznání aplikace NovaVoice: 90,65 %. Průměrná přesnost rozpoznání pro obě aplikace: 89,665 %.
Po vyhodnocení testování obou aplikací jsem dospěl k závěru, že 90% přesnost rozpoznání mluvené řeči není dostačující pro rozhlasové vysílání. Věřím, že v budoucnu se oběma firmám podaří dostát mému požadavku, tedy 97% úspěšnosti rozpoznání, a to bez jakéhokoliv školení mluvčích týkajícího se zásad pro správné diktování.
9.2. Testování přepisu a tlumočení rozhlasového vysílání Smyslem následujícího testování bylo analyzovat práci přepisovatele a tlumočníka, kteří měli za úkol provést přepis živého rozhlasového vysílání do textové podoby, resp. jeho tlumočení do českého znakového jazyka. Sledovali jsme nejen problémy související s technikou, ale i funkčností transkripcí rozhlasového vysílání do dvou odlišných verzí, které probíhaly souběžně v reálném čase. Testování proběhlo v klidné místnosti Unie neslyšících Brno se zajištěným připojením k internetu o těchto parametrech: 35 Mb/s download, 2 Mb/s upload. Je vhodné na tomto místě poznamenat následující skutečnost: Mluvčí je při vyjadřování vlastních myšlenek pomalejší, než když předčítá připravený text. Proto je snazší přepisovat text mluvčího, který se vyjadřuje vlastní myšlenky, než mluvčího, který text čte. K testování byly přizvány dvě osoby, přepisovatelka začátečnice a profesionální tlumočnice znakového jazyka. Přepisovatelka měla k dispozici svůj osobní přenosný počítač a sluchátka. Do textové podoby převáděla pořad Radiožurnál Českého rozhlasu a použila k tomu textový procesor WriteURL, přičemž nebylo třeba nějakého výkonnějšího zařízení než běžného kancelářského počítače. Ještě před zahájením přepisu inicializovala nový záznam v databázi MySQL, který je identifikován datem pořízení. Uživatelé tak mají na webových stránkách, v sekci Archiv, přehled přepisů seřazených 45
dle data. Služba navíc funguje omezeně, ne každý den, proto se v přehledu nabízejí data, kdy skutečně došlo k přepisu. Pro přenos tlumočení do českého znakového jazyka byl použit výkonný osobní počítač s procesorem Intel i5, operační pamětí o kapacitě 16 GB a výkonnou videokamerou Logitech s podporou HD formátu. Tlumočení je snímáno videokamerou a data se pak ihned přenáší pomocí webové aplikace Google Hangouts Air, pro kterou je třeba jednorázově nainstalovat plugin a zajistit tak podporu spolupráce s internetovým prohlížečem. Stejně jako přepisovatelka, i tlumočnice před zahájením tlumočení inicializovala nový záznam v databázi MySQL, který je identifikován datem pořízení. Kromě něj záznam obsahuje odkaz na YouTube kanál (proměnná url_streaming), na němž může uživatel překlad rozhlasového vysílání do znakového jazyka sledovat. Obě databáze fungují odděleně a nezávisle stejně jako zmiňované služby, které nemusí být nabídnuty současně. Při testování jsem narazil na několik problémů, které, pokud vyvstanou, mohou ovlivnit kvalitu výsledného přepisu či tlumočení. Prvním z nich je kolísavá rychlost uploadu, což se projevilo při testování v Unii neslyšících Brno a mělo za následek zpoždění vysílání tlumočení o několik vteřin. Díky nejnovějším moderním technologiím, které se využívají např. na Masarykově univerzitě (upload minimálně 80-100 Mbit/s, přenos po optickém kabelu s rychlostí až 10 Gbit/s), je tento problém snadno řešitelný. Dalším negativním ovlivněním kvality tlumočení může být neznalost tématu pořadu. Tlumočnice se nemohla předem připravit na to, co ji čeká. Určitě by jí pomohl program rozhlasového vysílání, z něhož by bylo patrné, na jakou oblast se konkrétní pořad zaměří. Nelze také ovlivnit skladbu mluvčích a srozumitelnost či rychlost jejich projevu. Webová aplikace nabízející přepis či tlumočení rozhlasového vysílání je užitečná nejen pro uživatele se sluchovým postižením, ale i tlumočníky znakového jazyka, kteří mohou porovnat překlad s originální promluvou a učit se na základě sledování profesionálního výkonu svého kolegy či kolegyně. Další výhodou je i možnost provádět přepis či tlumočení na libovolném místě se zajištěným připojením na internet. Rychlost přepisu se uvádí v počtu úhozů za minutu. Existuje přepisovatel, který zvládne psát s rychlostí více než 800 úhozů za minutu bez výraznějšího množství chyb. Cílem přepisovatele je zaznamenat obsah promluvy, tj. zachytit důležitou informaci a nedůležitou vynechat. Příkladem, který se stal během testování a ilustruje předchozí skutečnost, je text "Miloš Zeman", který se v přepisu objevil ve chvíli, kdy mluvčí vyslovil "prezident České republiky Miloš Zeman". Takové zkratky používá přepisovatel v situaci, kdy "nestíhá", přičemž počítá s tím, že osoba sledující rozhlasové vysílání ví, že Miloš Zeman je prezidentem České republiky. Kvalita přepisu během testování byla uspokojivá, a to i přes to, že přepisovatelka nebyla připravená na svůj výkon, tj. nevěděla, o jakém tématu se bude hovořit. Pokud by osoba odpovědná za přepis byla profesionálem, určitě bych jí doporučil využívat programy pro automatické rozpoznání řeči. Pomocí pro začátečníky může být i aplikace, která dokáže přenášený zvuk mírně zpomalit, čímž jim dopřeje více času pro přepis. 46
Přesnost transkripce a rychlý přenos informací v textové podoby, to jsou dva hlavní rozdíly, které vyvstanou při porovnání výstupu přepisovatelky a aplikace ASR. Manuální přepis má stále lepší výsledky než automatické rozpoznání, je však otázkou času, kdy technologie ASR vyrovná tento nepoměr. Požadavek na výkonný hardware a vylepšení algoritmu pro rozpoznání mluvené řeči, to jsou úkoly, které před vývojáři programů ASR stojí, aby jejich produkty dokázaly přesně a smysluplně transformovat mluvenou řeč do textové podoby. Webová aplikace nabízející rozhlasové vysílání uživatelům se sluchovým postižením je novátorským počinem. Neslyšícím umožňuje sledovat pořady ve znakovém jazyce, nedoslýchaví si mohou přečíst jejich textovou interpretaci. Jsem připravený na kritiku ze strany veřejnosti, která mi pomůže vylepšit stávající zkušební verzi webové aplikace. Jsem si vědom toho, že se mohou objevit chyby technického charakteru i v přehlednosti a funkčnosti grafického návrhu aplikace.
10. HODNOCENÍ APLIKACE CÍLOVÝMI UŽIVATELI Dotazník vyplnilo celkem 28 osob, z toho 4 slyšící, 10 nedoslýchavých a 14 neslyšících. Byli vybráni náhodně a bez toho, že by šlo o osoby technicky předem seznámené s aplikací. Výsledný návrh hodnotí koncoví uživatelé podle dotazníkového průzkumu celkově jako velmi dobrý. Komunita sluchově postižených doposud neznala aplikaci, jejímž cílem je zpřístupňovat rozhlasové zprávy prostřednictvím přepisu a tlumočení do českého znakového jazyka v reálném čase. Oceňují také, že mohou navštěvovat archiv přepisů i tlumočení, samozřejmě s vědomím toho, že se jednalo o testování.
1.
Na otázku, zda znají rozhlasové vysílání pro sluchově postižené, odpovědělo 22 osob, že takovou aplikaci neznají, 6 osob odpovědělo, že neví. To znamená, že model je nový, možná i ve světovém kontextu – srovnatelná aplikace mi není známa.
2.
Na otázku ohledně ovládání aplikace odpovědělo 26 osob, že aplikaci ovládají bez nápovědy a nemají s ní problém, tj. byli schopni přepnout rozhraní na textový přepis, resp. tlumočení do českého znakového jazyka. Zbývající měli problém hlavně s ovládáním archivů přepisu.
3.
28 respondentů byli uživatelé Windows XP, Windows 7, Windows 8, MacOSX 10.9.3., jejich webovým prohlížečem byl většinou Google Chrome, dále Mozilla Firefox, na posledním místě Internet Explorer. 28 osob mělo webový prohlížeč s podporou protokolu WebSocket a HTML5 běžel bez problému.
4.
Respondenti ocenili design aplikace – při různých velikostech monitoru neměli problém s přizpůsobením velikosti.
5.
4 slyšící byli překvapeni tím, že aplikace funguje v reálném čase, a dostalo se jim technického vysvětlení. 47
6.
Někteří neslyšící doporučili aplikaci použít i pro další účely, například pro přepisy vysokoškolských přednášek, jež by díky této aplikaci bylo možné sledovat na nejrůznějších koncových zařízeních, pokud je student chce číst v klidu nebo chce na dálku sledovat tlumočení. To si ovšem vyžádá více času, protože překládaný návrh aplikace je stále beta verzí, která není zcela bez chyb.
7.
Kritické připomínky byly následující:
a. Jen část uživatelů má dostatečně rychlý internet a při vysílání živého přenosu tlumočení do českého znakového jazyka pak dochází ke zpomalení nebo zastavení,čeká se na načtení dat videa. Tyto problémy mělo 8 neslyšících, protože měli připojení pomalejší než 1 Mb/s. Věděli, že mají možnost změnit rozlišení, ale při menším rozlišení se ztrácí kvalita informace. Ostatní neměli problém s příjmem v kvalitě HD, a to jen se slabým zpožděním.
b. Co se týká přepisu, objevil se požadavek na rozšíření možností formátování (například zarovnání). Tito žadatelé si byli vědomí, že se jedná o zkušební verzi a že s dalším vývojem se počítá.
c. Je-li přepis spuštěn současně s tlumočením, nepřináší v stejném okamžiku tutéž informaci. Bylo už vysvětleno, že primárním cílem vysílání je nabízet informaci jedním kanálem, protože přepis má zpoždění okolo 10 s a tlumočení okolo 15 s. Obsah sdělení byl přednější než vyrovnání časového zpoždění.
d. Oproti původnímu záměru předložit návrh, který nebude vyžadovat žádný speciální software, je ve výsledném návrhu potřeba nainstalovat plugin pro podporu sledování videa, totiž Adobe Flash Player a Adobe ShockWave Player. Nejde ovšem o závažnou překážku, protože tyto pluginy lze velmi jednoduše stáhnout a nainstalovat v několika minutách. Do budoucna se nabízí využití vylepšené technologie, kterou nabízí YouTube ve formátu mp4 na standardu HTML5.
e. Do budoucna je rovněž žádoucí, aby rozhraní fungovalo i na mobilních zařízeních. Pro bezproblémové využití chytrého telefonu bude aplikace vyžadovat další úpravy, kterým se nebráním věnovat.
f. Polovina respondentů zjistila, že v živém přepisu nelze pomocí myši listovat textem směrem nahoru (zpět). Dostalo se jim vysvětlení, že aplikace funguje na podobném principu jako přenos zvuku, kde rovněž není možné se v živém přenosu vracet zpět. Naopak není problém dodatečně nahlédnout do archivu.
g. Chápu jako chybu, že jsem s návrhem aplikace nepřišel dřív, než se stala tématem mé bakalářské práce, protože bych mohl při bakalářské práci už vzít v potaz připomínky uživatelů.
48
Cíloví uživatelé se shodují že aplikace je novátorská, a pokládají ji za užitečnou nejen pro neslyšící, ale i pro další skupiny sluchových postižených. Do konce roku 2014 počítám s další inovací této aplikace, právě pro potřeby přepisu a tlumočení vysokoškolských přednášek, seminářů a podobně. Ukazuje se, že většina neslyšících využívá mobilní data a že je možné tuto aplikaci chápat jako potvrzení dalších možností do budoucna.
11. LITERATURA Odkazy webových stránek, které jsem čerpal: [1] HYKL, Lubomír. Unie neslyšících Brno, o.s. - Poskytovatel služeb pro sluchově postižené ve městě Brně a okolí. [online]. Unie neslyšících Brno, o. s., 1999-2014, [cit. 2014-04-17]. Dostupné z: . [2] SpeechTech ASR - rozpoznávání řeči [online]. SpeechTech s.r.o., 2014, [cit. 2014-04-18]. Dostupné z URL: . [3] HTML5 [online]. World Wide Web Consortium, 2013, [cit. 2014-04-20]. Dostupné z: . [4] Procházení webu [online]. Microsoft, 2014, [cit. 2014-04-20]. Dostupné z: . [5] WebSocket.org -- A WebSocket Community: What is WebSocket? [online]. Kaazing Corp., 2013, [cit. 2014-04-22]. Dostupné z: . [6] jQuery [online]. The jQuery Foundation, 2014, [cit. 2014-04-22]. Dostupné z: . [7] KROGH, Morten, MOBERGER, Elias. Online text editor – WriteURL [online]. Amber Biosciences AB, 2014, [cit. 2014-04-23]. Dostupné z: . [8] W3C Document Object Model [online]. World Wide Web Consortium, 1997-2005, [cit. 2014-04-25]. Dostupné z: . [9] Hangouts Google+ – Hangouts Google [online]. Google, Inc., 2014. [cit. 2014-04-25]. Dostupné z: . [10] YouTube [online]. YouTube, LLC, 2014. [cit. 2014-04-26]. Dostupné z . [11] Česká unie neslyšících [online]. Česká unie neslyšících, 2009, [cit. 2014-04-26]. Dostupné z: .
49
[12] Českomoravská jednota Neslyšících [online]. Českomoravská jednota Neslyšících, 1999, [cit. 2014-04-26]. Dostupné z: . [13] APPN – Agentura pro neslyšící [online]. APPN, o. p. s. (Agentura pro neslyšící), 2014, [cit. 2014-04-26]. Dostupné z: . [14] 365ops.cz [online]. 365ops.cz, [cit. 2014-04-27]. Dostupné z: . [15] Služba Hovor pro neslyšící | Myslíme na [online]. Telefónica Czech Republic, a.s., [cit. 2014-04-26]. Dostupné z: . [16] NEWTON Dictate 4 - Každé slovo může být zapsáno. [online]. NEWTON Technologies, a.s., 2013, [cit. 2014-04-28]. Dostupné z: . [17] NovaVoice [online]. Consulting Company Novasoft, a.s., 2006-2011, [cit. 2014-04-30]. Dostupné z: . [18] .NET Downloads, Developer Resources & Case Studies | Microsoft .NET Framework [online]. Microsoft, 2014, [cit. 2014-04-30]. Dostupné z: . [19] Windows 8.1. – Microsoft Windows [online]. Microsoft, 2014, [cit. 2014-04-30]. Dostupné z: . [20] Dragon - Dragon NaturallySpeaking - Nuance - Nuance [online]. Nuance Communications, Inc., 2014, [cit. 2014-05-02]. Dostupné z: . [21] Dragon Dictation App; Text to Speech App - Nuance [online]. Nuance Communications, Inc., 2014, [cit. 2014-05-02]. Dostupné z: . [22] Středisko Teiresiás [online]. Teiresiás, Středisko pro pomoc studentům se specifickými nároky Masarykovy univerzity, 2014, [cit. 2014-05-06]. Dostupné z: . [23] BVISS. Polygraf - Systém pro sledování textového zápisu výuky v reálném čase [online]. Teiresiás, Středisko pro pomoc studentům se specifickými nároky Masarykovy univerzity, 2014, [cit. 2014-05-05]. Dostupné z: . [24] eScribe, on-line centrum přepisu neslyšícím [online]. R&D Centre ČVUT, 2009, [cit. 2014-05-07]. Dostupné z: . [25] X-Lite: X-Lite - Welcoming You to the World of Softphones [online]. CounterPath Corporation, 2003-2014, [cit. 2014-05-07]. Dostupné z: .
50
[26] Představení transkriptu - Transkript online s.r.o. [online]. Transkript s. r. o., 2014, [cit. 2014-05-09]. Dostupné z: . [27] ooVoo Video Chat [online]. ooVoo LLC, 2014, [cit. 2014-05-10]. Dostupné z: . [28] Co je Skype? Video volání online, zasílání rychlých zpráv, mobilní chat [online]. Skype, Microsoft, 2014, [cit. 2014-05-11]. Dostupné z: . [29] SKLENÁK, Tomáš. Videokonference pro neslyšící [online]. Diplomová práce Fakulty informatiky Masarykovy univerzity. Brno: Masarykova univerzita 2009. Publikováno 9. 1. 2010, [cit. 2014-04-14]. Dostupné z URL: . [30] Camfrog Video Chat Rooms & Live Webcams [online]. Camshare, Inc., 2014, [cit. 2014-05-15]. Dostupné z: . [31] Broadcast your hangout to the world for free - Google+ [online]. Google, Inc., 2014, [cit. 2014-05-15]. Dostupné z: . [32] Ustream - The leading HD streaming video platform [online]. Ustream, Inc., 2014, [cit. 2014-05-17]. Dostupné z: . [33] Apple - FaceTime - Make video calls from your Mac. [online]. Apple, Inc., 2014, [cit. 2014-05-17]. Dostupné z: . [34] LÉR, Martin. Tváří v tvář: Apple FaceTime bere videotelefonii útokem [online]. In: Lupa.cz. 29. 10. 2010. [cit. 2014-05-02]. Dostupné z: . [35] HamNoSys - DGS-Corpus. [online]. Academy of Sciences in Hamburg, 2014, [cit. 2014-05-17]. Dostupné z: . [36] MARTIN, Joe. SignWriting Linguistics Forum: Stokoe Notation [online]. Movement Writing, Inc., 1996-2013, [cit. 2014-05-17]. Dostupné z: . [37] SignWriting For Sign Languages [online]. Movement Writing, Inc., 1996-2013 [cit. 2014-05-17]. Dostupné z: . [38] O projektu / Projekt Musslap [online]. Západočeská univerzita v Plzni, 2004-2008, [cit. 2014-05-17]. Dostupné z: .
51
[39] Masarykova univerzita [online]. Masarykova univerzita, 1996-2014, [cit. 2014-05-17]. Dostupné z: . [40] UP [online]. Univerzita Palackého v Olomouci, [cit. 2014-05-17]. Dostupné z: . [41] Výkladový slovník českého a českého znakového jazyka online /testovací verze/ | slovnik.zj.teiresias.muni.cz [online]. Teiresiás, Středisko pro pomoc studentům se specifickými nároky Masarykovy univerzity, 2014, [cit. 2014-05-17]. Dostupné z: . [42] Mocaplab [online]. Mocaplab, Sarl, 2007-2014, [cit. 2014-05-17]. Dostupné z: . [43] University of East Anglia - UEA [online]. University of East Anglia - UEA, 2013, [cit. 2014-05-17]. Dostupné z: . [44] Say It, Sign It | MQTT [online]. MQTT, [cit. 2014-05-17]. Dostupné z: . [45] Časopis GONG: Avataři - virtuální tlumočníci ve Velké Británii [online]. GONG, [cit. 2014-05-17]. Dostupné z: . [46] Docs, Sheets, and Slides [online]. Google, Inc., 2014, [cit. 2014-05-18]. Dostupné z: . [47] ČÍŽEK, Jakub. Srovnání: Google Docs vs. Office Web Apps [online]. In: Živě. Mladá fronta 2014, [cit. 2014-05-04]. Dostupné z: . [48] 10 Million users Work Online with Zoho [online]. Zoho Corporation Pvt. Ltd, 2013, [cit. 2014-05-18]. Dostupné z: . [49] Office [online]. Microsoft, 2014, [cit. 2014-05-16]. Dostupné z: . [50] LiveNote - Realtime document collaboration [online]. LiveNote, [cit. 2014-05-18]. Dostupné z: . [51] Konec podpory pro Windows XP - Microsoft Windows [online]. Microsoft Corp., 2014, [cit. 2014-05-03]. Dostupné z: .
52
Zdrojové kódy převzaty do návrhu aplikace: 1. Zebra DataPicker - jQuery kalendář: . 2. Efekt zaškrtávacího políčka - iCheck - . 3. Textový procesor WriteURL - . 4. Animační „loading“ obrázek - . 5. Zdrojové soubory aplikace se serverem jQuery.com - . 6. ColorPicker – nastavení barev - . 7. Ikony ve formátu PNG - .
53