Problematika hluchoty: Aktuální otázky Datum: 25. 11. 2016 Zapsala: Markéta Šestáková
MODERNIZACE VYSÍLÁNÍ ZNAKOVÉHO JAZYKA V TELEVIZI -
Ing. Martin Bernas CSc., Ing. Petr Zatloukal Katedra radioelektrotechniky, FEL, ČVUT
SOUČASNÝ STAV A CÍLE ŘEŠENÍ -
-
-
reálný obraz znakového mluvčího je neoddělitelnou součástí televizního obrazu nevýhoda – ti, co to nepotřebují, ho tam mají taky a zakrývá jim část obrazu pouze u několika televizních pořadů (Sama doma, Zprávy…) 1. etapa projektu o reálný obraz znakového mluvčího bude přenášen nezávisle na televizním obrazu – jinou cestou (v poslední době se nabízí cesta přes internet) může být přenášen u většího počtu pořadů (závisí to na ČT atd.) nezatíží to televizní kanál možnosti jsou omezeny pouze potřebou reálného mluvčího 2. etapa projektu o nahrazení reálného mluvčího animovaným mluvčím (někdy ve vzdálené budoucnosti) znakový mluvčí by mohl být ve všech pořadech vždy by byla ale potřeba pomoc reálného tlumočníka
1. ETAPA -
-
v TV studiu se vyrobí obraz+zvuk a doplňkový přenos mluvčího ČZJ přenos dat o TV signál (obraz a zvuk) je přenášen standardní cestou – je zkomprimován a následuje digitální přenos dat ve standardu DVB-T (v budoucnu to bude standard T2) o reálný mluvčí je přenášen paralelně – je také zkomprimován a přenesen pomocí nového standardu HbbTV tyto dvě cesty se sejdou v televizním přijímači a ve výsledku se zobrazí stejně jako dnes (obraz znakového mluvčího by mohl být možná i volitelně velký) cílem je zařídit nezávislý přenos, aby mluvčí ZJ nebyl součástí televizního obrazu
PŘENOS DAT -
-
-
standard HbbTV (= Hybrid Broadcat Broadband TV) o spojuje dvě cesty broadcast – standardní TV vysílání broadband – širokopásmový internet podmínka – TV přijímač připojený k anténě i k internetu (dnes není problém) na rozdíl od starých standardů má výhodu v tom, že jeho poslední verze řeší i ten největší problém – synchronizaci s TV obrazem (nemusí to být synchronizované úplně přesně, ale znakování se nesmí příliš časově odchýlit od obrazu) přes HbbTV si můžete zobrazovat archiv ČT i na TV (jako v počítači), zpětně prohlédnout pořad má i další využití a je otevřený pro další aplikace
KOMPRESE OBRAZU A VIDEA -
standardně: jeden pixel obrazu = 8 bitů – není to nejvhodnější kódování (zabírá hodně místa) snaha najít optimální kompresi obrazu pomocí určité komprese snížíme potřebná přenosová data bez ztráty kvality o entropie zprávy (informační obsah zprávy) spočítatelná hodnota – výpočet je založen na pravděpodobnosti výskytů symbolů ve zprávě -> kolik bitů na 1 obrazový bod potřebujeme? 1
Problematika hluchoty: Aktuální otázky Datum: 25. 11. 2016 Zapsala: Markéta Šestáková
-
-
-
-
-
reálně není přesně dosažitelná, ale dá se k ní přiblížit tato hranice ale nestačí pro přenos náročného TV signálu -> běžně se komprimuje i víc větší komprese je už ztrátová – z obrazů mizí jisté detaily, ale do určité míry jsou to ztráty irelevantní, pro lidské oko neviditelné = perceptuálně bezeztrátová komprese další hranice není spočitatelná a závisí na jedinci v určité míře je větší komprese přijatelná používaných algoritmů je celá řada o např. klasický přenos obrázků („zazipování“) – bezeztrátová komprimace na přijatelný objem dat; ale příliš nízký a nezaručený kompresní poměr ztrátové kompresní algoritmy se běžně používají v praxi pro obrázky a videa, např. JPEG o standardy pro přenos videa MPEG-2 standardní televizní signál, zvládne ho každý přijímač (povinně) kompresní poměr kolem 50:1 (50 znaků v obrázku : přenese se 1) H.264; AVC – advance video coding HD vysílání dovoluje vyšší kompresi (100:1) v současnosti nejaktuálnější všechny standardy jsou založené na stejném principu o obrázek se rozdělí na malé části (bloky) -> je přenesen do spektrální obrazu -> pomocí kvantizační matice můžeme říct, co lidské oko určitě vidí a co by nemuselo vidět (co je tedy možné „vynechat“) každý nový standard je lepší, je to dáno vývojem výpočetní techniky (mnohem účinnější a lepší průběh procesů) nový standard vzniká, když je možné stejnou kvalitu získat 2x vyšším kompresním poměrem v r. 2021 se předpokládá nasazení standardu s kompresním poměrem 200:1 – H.265, HEVC o pokud si budeme chtít koupit nový TV přijímač, tak už ty se standardem H.265 a HbbTV (momentálně drahé, lepší tak rok počkat) o standardní vysílání už nebude snahou je, aby TV nezabírala tak široké vysílací pásmo – díky digitálnímu vysílání se zužuje (probíhá to po celé Evropě)
KOMPRESE OBRAZU ZNAKOVÉHO MLUVČÍHO -
-
-
standard H.264 je v tuto chvíli k dispozici a je nejvhodnější úprava – rozšíření o oblasti zájmu o neslyšící se dívají především na obličej mluvčího a na ruce (a pozadí) pouze periferně o -> rozdělení obrazu na obličej, znakující ruce a pozadí při kompresi se preferuje hlavně kvalita obličeje, potom rukou, a až poté pozadí (hodnota hpar) upravení algoritmu – trochu zvýšená kvalita v oblasti obličeje; kvalita v oblasti rukou zvýšena o polovinu méně zvolení dvou velikostí obrazu mluvčího o nejmenší 544 řádek (velikost poloviny HD obrazu) o 640 řádek bitové rychlosti o pro testy srozumitelnosti (40-80 kb/s) a kvality (vyšší)
SUBJEKTIVNÍ TESTY SROZUMITELNOSTI A OBRAZOVÉ KVALITY -
realizovány na katedře radioelektrotechniky (hl. slyšící), na škole v Radlicích a v Pražském spolku neslyšících v Modřanech 2
Problematika hluchoty: Aktuální otázky Datum: 25. 11. 2016 Zapsala: Markéta Šestáková
-
celkem 55 hodnotitelů, z toho 18 neslyšících o pro testy srozumitelnosti jenom neslyšící, výjimečně slyšící, kteří velmi dobře uměli ZJ test srozumitelnosti byl založen na 12 minimálních párech (-> 24 vět) o různé verze jedné věty v několika úrovních komprimace
Výsledky – srozumitelnost -
podle očekávání poměrně vysoká u bitového toku 80 kb/s (u většího i menšího obrazu) téměř 100% pro nižší bitové toky – zdůraznění obličeje je poměrně účinné (zvyšuje srozumitelnost)
Výsledky – kvalita -
-
-
-
využit standard, pomocí kterého se běžně testují všechny nové kompresní algoritmy BT.500 metoda DSCQS (Double Stimulus Continuous Quality Scale) o hodnotitel hodnotí kvalitu viděného obrazu o po sobě viděl referenční a zkreslené video (nevěděl, které je které) – obě hodnotil na stupnici (z níž bylo vidět, které je podle něj lepší/horší a o kolik) vhodná metoda pro vyloučení subjektivní preference hodnotitele – nejde o absolutní hodnocení, ale o rozdíly mezi hodnocením referenčního a zkresleného obrazu průběh o ukázková referenční a zkreslená videa (aby hodnotitel věděl, co se bude dít) o přestávka o několik prvních výsledků se nezapočítává, čeká se, až se hodnotitel „stabilizuje“ o nesmí to trvat déle než půl hodiny o hodnocení jedné věty trvá asi 45 vteřin (1. video, 2. video, 1. video, 2. video, pauza na vyhodnocení) cílem je spočítat rozdíly mezi referenčním a zkresleným obrazem výsledky od 0-20 vynikající (viz tabulka v prezentaci) o výsledky u většího i menšího obrazu jsou podobné u většího - větší rozdíly (chyby jsou viditelnější) závislost kvality obrazu na zdůraznění obličeje o graf v prezentaci – křížky = optimální zdůraznění nevýhoda zdůraznění obličeje o zvýšení kvality obličeje na úkor okolí – to je méně kvalitní a rušivější o -> nasnímané pozadí odstraněno a nahrazeno konstantní barvou
Závěr - doporučení -
pro velikost obrazu 544: 150kbps, hpar 1.05 pro velikost obrazu 640: 160 kbps, hpar 1.04 tento postup se už v jiných zemích používá, je to proveditelné záleží na ČT a jiných televizních společnostech ČT byla původně iniciátorem těchto experimentů, ale po personálních změnách se více šetří
MODERNIZACE TV VYSÍLÁNÍ – ANIMACE -
-
Syntéza ZJ o na začátku ČJ text – software/program, který ho zpracuje -> znakující PC model o v podstatě překladač (podobně jako Google Translator) Proč ne reálný tlumočník? o s videem reálného tlumočníka nelze dále pracovat, nelze spojovat jeho různé části o u animace lze pohybová data spojovat o tyto algoritmy je možné potom použít pro další věci, aplikace, které využívají animaci
SYNTÉZA 1) transkripce - z ČJ textu do něčeho, co už souvisí s ČZJ (ale je to zapsané) 3
Problematika hluchoty: Aktuální otázky Datum: 25. 11. 2016 Zapsala: Markéta Šestáková
o notační systémy – je jich hodně, ale ne každý je umí o pro účely animace je to jedno – stačí i něco vlastního, klidně obsáhlý popis 2) animace – část softwaru dostane transkripci, vezme potřebná data a pospojuje se
Transkripce -
-
asi nejtěžší úkol (ani automatické překladače AJ -> ČJ nejsou bez chyb) přímo tímto se příliš nezabývají (jde to mimo jejich odbornost) jak překladači pomoct o omezení slovníku na určitou oblast (počasí, banka…) o -> omezený vstup – omezení toho, co člověk chce překládat důležitá je podstata sdělení, ne způsob, jak to bylo řečeno ideální by byl software, který by vybral jen to důležité
Animace -
-
-
-
jejich hlavní zaměření ruční o model je v PC a člověk vezme např. jeho ruku, hýbne s ní, uloží to, pak nastaví další polohu a počítač to propojí o časově náročné a nemusí být přesné pohybová data ze systému pro snímání pohybu o snímání člověka, který má na sobě markery (body, senzory) – kamera snímá jen ty body, se kterými se dále pracuje o pohyb modelu vychází z pohybu reálného člověka musím vědět, co animovat, a jak z transkripce ty věci spojovat potřeba databáze, korpusu ZJ v nějakém formátu, s daty, které reprezentují konkrétní úseky, znaky… např. věta: JÁ + KNIHA + klasifikátor + ČÍST o potřebuji ty části mít nasnímané např. 4 různá data (znaky), ty se vezmou a propojí; nebo mít celou tu větu, či pojení o při spojování musí být vždy brán ohled na gramatiku atd. je potřeba vyřešit, jak se jednotlivá data budou spojovat výsledný celek se předá algoritmu, který to aplikuje na model -> vznikne animace
ZISK POHYBOVÝCH DAT -
-
markery – odráží se na nich infračervené světlo, které vysílají kamery (ty kamery potom vidí jen ty markery) pokud je kamer víc, je možné získat 3D souřadnice pohybová data o snímali celkem 90 markerů (články prstů, ruce, asi 33 na obličeji…) o každý marker má své trajektorie, křivku měnící se v čase (na 3 osách (3 souřadnice)) -> 90 trojic křivek (pro jeden znak/jednu věta/nějaký úsek) jednu větu lze nasnímat a pak rozstříhat, znaky z ní porovnávat se samostatně zaznamenanými znaky, nahradit části… věnovali se specifickým znakům při dalším testování bude potřeba použít složitější věty než jen „Já čtu knihu.“
SEGMENTACE -
rozdělení vět nebo jiných úseků systém popisu znaku v technické literatuře: „příprava - provedení - uvolnění“ dalo by se uvažovat o spojení uvolňovací části prvního a přípravné části následujícího znaku o není to ale úplně jednoznačné – různí neslyšící stanovují jako začátek a konec znaku různá místa 4
Problematika hluchoty: Aktuální otázky Datum: 25. 11. 2016 Zapsala: Markéta Šestáková
o
Je to přirozené? Jaká má být délka spojení? Je to vždy stejné?
MOŽNOSTI SPOJOVÁNÍ -
další řešený problém po vyřešení jak úseky rozsegmentovat nahrazení prostředku věty samostatně snímaným znakem musí se vyřešit to, že při nahrávání figurant nestojí vždy úplně stejně o -> souřadnice se liší, proto se musí upravit, aby byly co nejpodobnější problémy – ruka nesmí procházet tělem, ten pohyb musí být přirozený, nesmí se najednou prodloužit ruka apod.
POČÍTAČOVÝ MODEL -
na něj se aplikují výsledná data
5