NĚKTERÉ Z MOŽNOSTÍ VYUŽITÍ POČÍTAČE OVLÁDANÉHO HLASEM VE SPECIÁLNÍ PEDAGOGICE Věra Strnadová - Jan Nouza Když byl na konferenci „ Handicap 94 " na liberecké Technické univerzitě předveden prototyp systému ovládaného lidskou řeči, zbudil mezi přítomnými účastníky mimořádný zájem. Už tehdy mne napadla otázka: jak by tento program reagoval na můj hlas? Nemám ani představu o svých vlastních hlasových kvalitách Od svých sesli lei neslyším S doc. Ing. Janem Nouzou, jedním z autorů programu, jsme se dohodli na experimentu. který by ukázal, jak by uvedený program fungoval v případě člověka, který svou řeč nemůže kontroloval sluchem Na základě výsledků jsme chtěli upravit program lak, aby bvl později využitelný jako vizuální zpětná vazba pro ohluchlé a případně i prelingválně neslyšící děti i dospělé. Hlasem ovládaný systém je v současné verzi schopen pracovat prakticky na každém osobním počítači vybaveném operačním prostředím Windows a zvukovou kartou K počítači se připojí sluchátka s malým mikrofonem. Při nasazeni sluchátek dbáme, aby byl mikrofon umístěn spiše pod bradou, nikoliv přímo před ústy. Vlastni test je nutno vykonával v místnosti, kde jsou v maximální možné
míře omezeny další rušivé zvuky. Testovaný člověk by měl být v naprosté fyzické i psychické pohodě a má mluvit klidně, přirozeně (jako kdyby hovořil s osobou, kterou již dobře znáj. Test se skládá z vyslovování předem připraveného počtu slov, kterých může být několik desítek, případně i několik set Počítač vždy provede analýzu zvukového signálu, po niž následuje vyhodnoceni. Na obrazovce se pak napíše nejpravděpodobněji vyslovené slovo. Výsledek rozpoznáni je k dispozici prakticky okamžitě (během několika desetin sekund). Od října 1995jsme prováděli řadu testů. Výsledky těchto testů byly zpracovány z technického hlediska doc. Ing Janem Nouzou, já jsem měla za úkol zaznamenávat hlavně své pocity. Ráda bych se s vámi rozdělila o poznatky, které jsem získala během těchto testů.
Testy rozpoznání řeči u osoby ohluchlé v dětství Přípravná fáze Před započetím prvního testu bylo potřeba, abych předem věděla, co se ode mne bude očekávat. Bylo to nutné pro snížení
možného psychického napětí, které by mohlo negativně ovlivnit hlasové projevy během testů. Protože jsem nemohla sama odhadnout přiměřenou hlasitost své mluvy, dohodli jme se s experimentátorem, že mi dle potřeby bude ukazovat předem připravené písemné pokyny: „tišeji", „víc nahlas" a „opakovat". Takto jsem získala větší jistotu a postupně jsem se uklidnila.
První test První typ testu probíhal se systémem natrénovaným na 33 slov, jejichž statistické (tzv. markovské) modely byly vytvořeny z nahrávek několika desítek slyšících lidí. Všichni dobře víme, že neexistují dva lidé, kteří by měli zcela totožné hlasové projevy. V mém případě navíc šlo o znatelně deformovanou výslovnost, způsobenou více než třicetiletou absencí sluchové zpětné vazby. Test se skládal z celkem deseti opakováni, v nichž jsem na základě požadavku počítače postupně vyslovila všechna slova. Počítač je rozpoznával a automaticky vytvářel protokol experimentu. V mém případě bylo celkové skóre rovno 72 procentům rozpoznaných slov. (Hladina úspěšnosti správného rozpoznání se u běžné populace pohybuje nad 95 procenty, přičemž pro konkrétního uživatele není nutná žádná adaptační fáze.) Při prvních testech jsem byla příliš soustředěna na sledování výsledků na monitoru, který indikoval rozpoznaná slova. Ukázalo se však, že to ovlivňuje další průběh testu, zejménajistým nárůstem napětí v případě negativních výsledků. Při dalších ex-
perimentech bylo proto využito jiné signalizace výsledků: zobrazením významu vysloveného slova. Na monitoru se dle mých pokynů objevil např. geometrický' obrazec, který jsem mohla hlasovým pokynem zvětšit, zmenšit, vybarvit, posunout či smazat. Takto jsem se mohla více soustředit na momentální výslovnost, nikoliv na skóre výsledků a mluvila jsem již klidněji.
Upravený test K velkému zlepšeni došlo v dalších fázích testů, když byla viditelná zpětná vazba indikována pomoci grafu časového vývoje signálu. V podstatě šlo o zviditelněný průběh řeči. Zde jsem poprvé zjistila, že při mluveni nesprávně hospodařím s dechem: často se např. před vlastní promluvou objevil krátký signál, indikující hlasitější nadechnutí či jiný mimovolný zvukový projev, o kterém jsem sama nevěděla. Detektor řeči však na něj reagoval. Po tomto upozornění jsem již byla schopna monitorovat vlastni promluvu tím, že jsem tento časový vývoj signálu sledovala. Při další zkoušce pak byl výsledek již mnohem lepší, což na mne působilo velmi pozitivně: nemohu-li svoji mluvu kontrolovat sluchem, mohu si zlepšit artikulaci tak, že ji budu sledovat zrakem. Mohu říci, že po celou dobu logopedické péče během mé školní docházky jsem nezažila takový pocit, že mohu sama vědomě ovlivnit svou výslovnost. Nebyla jsem závislá na druhém člověku, který by mi říkal: „Špatně. Ještě jednou. Znovu...", aniž bych věděla, co vlastně při mluvení dělám špat-
ně. Po několika „tréninkových" sezeních program rozpoznal již cca 80 procent mnou vyslovených slov. Navíc tu byla možnost natrénovat systém přímo na můj hlas. Pak mi již poéitač „rozuměl" téměř dokonale, proto jsem si mohla vyzkoušet i hlasové ovládáni několika dalších programů a her. Tyto povzbuzující výsledky mne motivovaly k tomu, abych přivedla i kamarádku, která měla zájem uvedený systém také vyzkoušet. Tato žena je prelingválně neslyšící (ztratila sluch v 8 měsících věku).
Testy rozpoznání řeči u preiingvárně neslyšících osob Řeč prelingválně neslyšících osob se značně liší od řeči později ohluchlých lidí. Prelingválně neslyšící člověk se sice ve škole učí vyslovovat různé hlásky, výsledek však působí nepřirozeně a vyznačuje se nesprávnými modulačními faktory. V našem konkrétním připadě se u zkoušené osoby projevily tyto závažné problémy: 1. Artikulační neobratnost mluvidel a v důsledku toho: - nesprávné vysloveni některých hlásek, zvláště Č, Š, Ž - neschopnost vyslovit Ř, Ť. 2. Narušení přirozené dynamiky mluvy - neúměrné zpomalení mluvy v místech, kde se vyskytla obtížněji vyslovitelná hláska, - snaha o velmi výrazné vyslovení obtížnější hlásky (kromě Š, Ž, Č také R, Z, C a H, CH, K),
3. Slova, která měla vice než dvě slabiky, byla při výslovnosti rozčleňována na slabiky např. slovo „trojúhelník" znčlo jako „Th-Roj-Ú-elni-Kh" (počáteční T i konečné K s přídechem). 4. Nesprávné hospodaření s dechem, zbytečný výdech před za čátkem vyslovení slova. 5. Nerespektování dlouhých a krátkých vokálů (během mluvení musela být na tuto skutečnost upozorňována). 6. Tvrdý hlasový začátek nejen na začátku slov, ale také na začátku každé slabiky i uprostřed slova. 7. Neznalost významu předepsaných slov v předem připravené slovni zásobě: „elipsa, obdélník, úsečka"... Nejdříve jsme se pokusili vysvětlovat význam neznámých slov (toto bylo přijato velmi vděčně, respondentka má aktivní zájem o rozšiřování své slovní zásoby). Poté jsme se pokoušeli pomocí znakového jazyka vysvětlovat i to, v čem dělá při výslovnosti chybu, ale zde jsme příliš neuspěli. Respondentka některé své nedostatky již zná (obtížnost výslovnosti), o jiných ani nevěděla (přídech, slabikováni...) a přes její aktivní snahu spolupracovat se nepodařilo tyto nedostatky odstranit.
Upravený test Protože náprava výslovnosti u dospělých neslyšících (všeobecně) je velmi obtížná a málo úspěšná (jde o léta zafixované stereotypy), rozhodli jsme se tyto překážky obejít tak, že jak slovní zásoba, tak i hlásková skladba a délka slov bude při-
způsobena specifickým podmínkám. To znamená, že budou použita slova - snadno vyslovitelná, - neobsahující hlásky, které respondentka nedovede vyslovit, - s významem, který zkoušená osoba již zná. S takto vybraným slovníkem (20 slov) jsme nejprve provedli sérii nahrávacích pokusů. Protože nahrávací program zároveň zobrazuje průbéh signálu, mohlo být těchto nahrávek průběžně využíváno k vysvětlování chyb ve výslovnosti. Průběhy signálu na monitoru ukázaly zejména nesprávné hospodaření s dechem na začátku promluvy, tvrdé hlasové nasazeni, zbytečné časové prodleni na některých obtížně vyslovitclných hláskách, nepřirozené členění na slabiky, aj. Z nahraných promluv byly následně vytvořeny modely slov, které měly posloužit jako základ rozpoznávacímu systému. V tomto případě tedy šlo o pokus, kdy byl systém vyloženě přizpůsoben specifické výslovnosti daného člověka. Účelem experimentu bylo zjistit, zda a do jaké míry je řeč osoby postižené ztrátou sluchu konsistentní a reprodukovatclná. Ukázalo se, že takto připravený systém byl schopen rozpoznávat slova dané osoby s úspěšností cca 85 procent, což bylo velkým překvapením a zároveň velkou motivační vzpruhou pro další nácvik. Získat důvěru v možnosti systému a zároveň začít věřit i svým schopnostem je totiž pro handicapovaného člověka jedním z nejdůležitějších momentů.
Srovnávací test Stejný slovník, který byl vytvořen pro potřeby neslyšící testované osoby, byl natrénován na mluvu běžných řečníků. Při druhém testu jsme tento materiál využili pro porovnání výslovnosti prelingválně neslyšící respondentky. Skóre rozpoznaných slov zde bylo samozřejmě v podstatně nižši míře (cca 50 procent správně rozpoznaných slov). Tento test nám však umožnil stanovit jakousi srovnávací hladinu, nyní díky rozpoznávacímu systému snadno kvantifikovatclnou. O tyto poznatky bychom se mohli opírat při budoucích experimentech a při hodnocení aplikačních možností dalších pomůcek vyvíjených na principu počítačové analýzy, vizualizace a rozpoznáváni řeči. Jednou z nich je i dále uvedený program.
Systém vizuální řečové zpětné vazby Jde o program, který rozvíjí možnosti nácviku řeči na základě záznamu, grafického zobrazení a vizuálního porovnání řečového průběhu. Cílem programu je dát neslyšícímu člověku a jeho pedagogovi nástroj, který umožní zachytit řeč v paměti počítače, okamžitě zobrazit její průběh i průběh některých dalších důležitých parametrů. Navíc poskytuje možnost tato grafická data vizuálně porovnat s daty odpovídajícími promluvám až tří různých mluvčích. To, že je v každém okamžiku k dispozici větší počet referenčních průběhů k porovnáni, je velice důležité. Neslyšící člověk tak není nucen snažit se přiblížit se
svým projevem ke konkrétnímu mluvčímu, což ani není dost dobře možné, ale vždy si může najít toho, k némuž má nejblíže. Zobrazeni více průběhů jediného slova nebo fráze zároveň umožňuje odhalit, které rysy jsou společné všem mluvčím, a jsou tudíž pro daný řečový prvek charakteristické a důležité a které jsou naopak nevýznamné. Práce se systémem, který je vyobrazen na přiloženém obrázku, probíhá asi následovně. Nejprve je třeba vybrat slova, jejichž nácvik bude prováděn. Tato slova se zapíši do souboru slovníku a několik vzorových mluvčích je namluví do počítače. Je dobré, zastupuji-Ii tito mluvčí různé skupiny populace, tj. muže, ženy i děti. Jako referenční lze pak vybrat ty nahrávky, které jsou pro danou vyučovanou osobu hlasově nejbližší. Protože pro nahrávání existuje špeciálni pomocný program, není pořízení záznamu příliš časově náročné. Pokud má být během testů využito i funkce automatického rozpoznávání, je třeba ještě předem vytvořit modely jednotlivých slov. To zajistí jiný, tzv. trénovaci program, který ke své činnosti potřebuje nahrávky alespoň od deseti různých lidí. (viz obr. na str. 34) Po těchto přípravách již můžeme se systémem pracovat. Na monitoru se objeví dotaz na základní údaje o testované osobě (muž, žena, dítě), které použije k vytváření protokolu. Současně se provede výběr referenčních mluvčích. Po stisku tlačítka Start se v nejhořejším ze čtyř grafických oken objeví slovo, které má být vysloveno. Jakmile počítač zachytí začátek řeči.
začne ji nahrávat V okamžiku, kdy řeč skončila, je signál okamžitě k dispozici na obrazovce, a to ve dvou podobách: jako časový průběh a jako tzv. spektrogram. Časový průběh, zobrazený vlevo, poskytuje globální obraz o časovém vývoji signálu. Lze z něj vyčíst např. informaci o hlasitosti promluvy a o jejích změnách, o délce slova i o jeho členění. Tyto informace jsou v pravé polovině okna doplněny o pohled do spektrální oblasti. Sytějšími barvami je zde znázorněna vyšší intenzita signálu v jednotlivých frekvenčních pásmech. Bezprostředně po vykresleni prvního okna se i v dalších třech oknech objeví podobná vyobrazení vycházející z nahrávek stejného slova od předtím vybraných mluvčích. V tu chvíli je dána možnost neslyšícímu i jeho učiteli, aby na záznamech hledali zásadní odlišnosti a pokusili se posléze najit jejich příčinu. Všechny záznamy lze opakovaně akusticky přehrávat, což může pomoci zejména učiteli, který je tak schopen lépe detekovat a analyzovat chyby. Práce s grafickými záznamy samozřejmě vyžaduje určité zkušenosti, které však lze získat během poměrně krátké doby. Záznamy promluv testované osoby však nemusejí být nahrávány pouze do jediného, horního, okna. Naopak, pouhým stiskem tlačítka myši na tlačítku v levém horním rohu příslušného okna lze záznam do tohoto okna nasměrovat. V praxi bude jistě velice výhodné a instruktivní, když se na jediné obrazovce objeví jak výsledky současného, tak i předchozího snažení. Okamžitě lze totiž vidět a porovnat, zda
došlo k žádoucí změně, zda se nová promluva více blíží ke grafickému záznamu průběhu mluvy ostatních mluvčích, apod. V tomto ohledu se zdá být systém opravdu jedinečný. Popsaný systém, který byl vytvořen v Laboratoři počítačového zpracování řeči na Technické univerzitě v Liberci (autoři
D. Hájek a J. Nouza) čekají nyní praktické ověřovací zkoušky na některém z pracovišt pro výuku sluchově postižených dětí. Aby se logopedický nácvik pomocí počítače nestal pro děti jen další rutinní a nezáživnou povinností, připravili autoři i sadu několika motivačních her, v nichž se hlas stává hlavním ovládacím prvkem.
MuW- Gel t Te»l tor MS Wlndowt. v 1 0 . Spredi Lab TUL . 1996 System |nlo ffinduw Word: čtyři -> recugnized as: ttyři glart ( QK | ňgaln | Ľduac | E)«y | flult !) Speaker: trmpO Word: čtyři
O Speaker MVH01
ÔSpraktr:ZAE02
O Speaker: Z1.K01