Beszédtechnológia élő sportközvetítések gépi feliratozása Tibor Fegyó SpeechTex Kft.
Előzmények • TV műsor feliratozás 2014 – K+F együttműködés 2016 – szolgáltatás • A megvalósítás fő kihívásai nagy mennyiségű releváns tanító adat
összegyűjtése feldolgozása
valósidejű integráció
• Mindroom projekt 2008 – tematikus reklámelhelyezés
Beszédtechnológia
2
Motiváció • Az elsődleges cél megfelelés a törvényi
kötelezettségnek
JBE szolgáltatók 24 órában kötelesek felirattal ellátni a műsoraikat
• A kezdeti rendszer a sportműsorokat még nem
kezelte elég hatékonyan • Magyarországon ma nincs olyan publikus kereső,
ahol az elhangzott műsorokban tartalmilag lehetne keresni
Beszédtechnológia
3
Kitekintés – IBM (ustream) headlines (2017) • How AI will change live sports broadcasting • Contextual video advertising: why it matters and
how AI can help • To win in streaming media services, get clever
with data • How advances in cognitive awareness promise to
redefine video industry economics • How Watson Video Enrichment can provide better
decisionmaking data and unlock new business possibilities in the media industry Beszédtechnológia
4
IBM (ustream) motivation – AI & sport • The real game-changer for live sports
broadcasting is artificial intelligence. • AI will not only affect viewers, but also advertisers,
broadcasters, and even the athletes and coaches. • It will enrich video content with better insights and
better recommendations. • Soon, we may not recognize a sporting event
without it.
Beszédtechnológia
5
Sport – labdarúgás feliratozás • Miért labdarúgó-mérkőzések? nagyon népszerűek sok az élő adás • Nehezebb feladat, mint a közéleti műsorok Zajos környezet Nagyrészt spontán, töredezett, kontextus nélküli beszéd Sok személynév (akár minden 7. szó!) • Kézi feliratozás: nagyon hiányos és sokat késik • Cél: minél hatékonyabban kiváltani a kézi
módszereket Beszédtechnológia
6
Élő TV műsor feliratozás Élőmunka igény
Kézi feliratozás (gépelés) késik, hiányos, drága, de pontos
Szószerinti újrabeszélés élő, hiányos, drága, kevésbé pontos
élő, teljes, olcsó, kevésbé pontos (~5-30% WER)
Beszédtechnológia
késik (~5 sec), hiányos (6080%), drága, de pontos (1-5% WER)
Gépi feliratozás + utófeldolgozás
Élő gépi feliratozás
Élő felirat
Újrabeszélés + élő szerkesztés
Adás késleltetés
Késleltetett felirat
Rendelkezés re álló idő 7
Kézi valósidejű feliratozás • Sport műsor kézi felirat Az „ ipari sztenderd”: képzett leiratozók 4 - 6 óra alatt készítenek 99% pontosságú leiratot a hangminőség függvényében (3 USD / min) • Sztenográf alkalmazása (US) Gyakorlott bírósági jegyzőkönyv írók 3 - 6 hónapos képzés: élő adások leiratozása további 12 - 18 havi képzés után: élő sportközvetítések leiratozása
Beszédtechnológia
8
Gépi feliratozás: kihívások - válaszok • Témához illeszkedő tanító korpusz Releváns forrásokból gyűjtött szöveg 100m+ szó / 1.6m szó •
Zajos környezet
Valós környezetben rögzített hangfelvételek 500+ óra
• Gyorsan változó, rövid ideig érvényes, de fontos
névelemek
Bővíthető nyelvi modell szükséges
• Olvashatóság
Beszédtechnológia
központozás 9
A kiindulási modell • Releváns tanító korpusz Sportműsor kézi leiratok Sporthír feliratok Élő közvetítések utólag javított feliratai Sport témájú webkorpusz Hírműsorok kézi leiratok Hír témájú webkorpusz Parlament webkorpusz
• 3-gram szóalapú modellek • Részmodellek lineáris interpolációja • Számításigény 24 óra / 128Gbyte memória Beszédtechnológia
10
Modell bővítési mintafeladat: EB 2016 • 2016-os labdarúgó EB bírói, edzői, játékosai • Alanyesetű személynevek listája 595 személy pl: Wayne Rooney 2 alakban: Rooney, Wayne_Rooney (összesen 1190 névalak) • Főnévi esetragokkal ellátott lista 6 féle esetrag: részes, tárgy, eszközh., ablativus, delativus, allativus (~85%-os lefedettség) • Összesen 7 x 1190 névalak
Beszédtechnológia
11
Környezetfüggetlen szótárbővítés • Névalakok izolált elhelyezése a nyelvi modellben • Nem igényel tanítószöveg előkészítést! • Elhelyezés tanítószövegben Szélsőségesen egyszerű Névalakok felsorolása a tanítószövegben • Interpoláció unigram modellel Unigram nyelvi modell a névalakokból Interpoláció a többi nyelvi modellel
Beszédtechnológia
12
Környezetfüggő szótárbővítés • Tanítószöveg előkészítés szükséges! • Releváns kontextus keresése Személynév felismerés a kézi leiratokon (NER) Kiindulás: hiányosan címkézett tanítószöveg Címkézés SzegedNE-vel (nagy pontosság) Stanford-NER tanítása: kézi címkék + SzegedNE címkék Eredmény: ~95% pontosság, ~88% felidézés • Osztály n-gram tanítása Névelemek behelyettesítése a személynév címkék helyére
Beszédtechnológia
13
Szótárbővítés hatása Szótárbővítés
Relatív hiba csökkenés
Tanító szövegben felsorolt nevek
3%
Interpolált névlista
6%
N-gramm modellek
10%
• Maximum 0,5% szótár bővítés • Modell újratanítás minden esetben szükséges • Az N-gramm modellek további jelentős befektetést
igényelnek • A közvetítés előtt közvetlenül a modell ezen
módszerekkel nem módosítható Beszédtechnológia
14
Szótárbővítés demó Bővített modell
Kezdeti nyelvi modell
Beszédtechnológia
15
Környezetfüggetlen szótárbővítés • Futásidejű modell interpoláció a motorban A „nagy” modell és a névlista önálló modellként kerül betöltésre Több modell is betölthető Minden modell súlyozható Modellek átjárhatóak • Elveszítjük az N-gramm modell előnyeit • Percek alatt bővíthető a modell
Beszédtechnológia
16
Eredmény • Sportoló nevekkel bővített, • Központozott, • Kereshető (Webvtt – html5 szabvány) • Feliratozott élő sportközvetítések
Beszédtechnológia
17
Köszönöm a figyelmet!
A projekt részben az EUREKA – DANSPLAT projekt támogatásával került megvalósításra, szerződésszám: EUREKA_15_1_2016-0019