Beszédtechnológia. élő sportközvetítések gépi feliratozása. Tibor Fegyó SpeechTex Kft

Beszédtechnológia élő sportközvetítések gépi feliratozása Tibor Fegyó SpeechTex Kft.

Előzmények • TV műsor feliratozás  2014 – K+F együttműködés  2016 – szolgáltatás • A megvalósítás fő kihívásai  nagy mennyiségű releváns tanító adat  



összegyűjtése feldolgozása

valósidejű integráció

• Mindroom projekt  2008 – tematikus reklámelhelyezés

Beszédtechnológia

2

Motiváció • Az elsődleges cél megfelelés a törvényi

kötelezettségnek 

JBE szolgáltatók 24 órában kötelesek felirattal ellátni a műsoraikat

• A kezdeti rendszer a sportműsorokat még nem

kezelte elég hatékonyan • Magyarországon ma nincs olyan publikus kereső,

ahol az elhangzott műsorokban tartalmilag lehetne keresni

Beszédtechnológia

3

Kitekintés – IBM (ustream) headlines (2017) • How AI will change live sports broadcasting • Contextual video advertising: why it matters and

how AI can help • To win in streaming media services, get clever

with data • How advances in cognitive awareness promise to

redefine video industry economics • How Watson Video Enrichment can provide better

decisionmaking data and unlock new business possibilities in the media industry Beszédtechnológia

4

IBM (ustream) motivation – AI & sport • The real game-changer for live sports

broadcasting is artificial intelligence. • AI will not only affect viewers, but also advertisers,

broadcasters, and even the athletes and coaches. • It will enrich video content with better insights and

better recommendations. • Soon, we may not recognize a sporting event

without it.

Beszédtechnológia

5

Sport – labdarúgás feliratozás • Miért labdarúgó-mérkőzések?  nagyon népszerűek  sok az élő adás • Nehezebb feladat, mint a közéleti műsorok  Zajos környezet  Nagyrészt spontán, töredezett, kontextus nélküli beszéd  Sok személynév (akár minden 7. szó!) • Kézi feliratozás: nagyon hiányos és sokat késik • Cél: minél hatékonyabban kiváltani a kézi

módszereket Beszédtechnológia

6

Élő TV műsor feliratozás Élőmunka igény

Kézi feliratozás (gépelés) késik, hiányos, drága, de pontos

Szószerinti újrabeszélés élő, hiányos, drága, kevésbé pontos

élő, teljes, olcsó, kevésbé pontos (~5-30% WER)

Beszédtechnológia

késik (~5 sec), hiányos (6080%), drága, de pontos (1-5% WER)

Gépi feliratozás + utófeldolgozás

Élő gépi feliratozás

Élő felirat

Újrabeszélés + élő szerkesztés

Adás késleltetés

Késleltetett felirat

Rendelkezés re álló idő 7

Kézi valósidejű feliratozás • Sport műsor kézi felirat  Az „ ipari sztenderd”: képzett leiratozók 4 - 6 óra alatt készítenek 99% pontosságú leiratot a hangminőség függvényében (3 USD / min) • Sztenográf alkalmazása (US)  Gyakorlott bírósági jegyzőkönyv írók  3 - 6 hónapos képzés: élő adások leiratozása  további 12 - 18 havi képzés után: élő sportközvetítések leiratozása

Beszédtechnológia

8

Gépi feliratozás: kihívások - válaszok • Témához illeszkedő tanító korpusz  Releváns forrásokból gyűjtött szöveg  100m+ szó / 1.6m szó •

Zajos környezet 

Valós környezetben rögzített hangfelvételek  500+ óra

• Gyorsan változó, rövid ideig érvényes, de fontos

névelemek 

Bővíthető nyelvi modell szükséges

• Olvashatóság 

Beszédtechnológia

központozás 9

A kiindulási modell • Releváns tanító korpusz  Sportműsor kézi leiratok  Sporthír feliratok  Élő közvetítések utólag javított feliratai  Sport témájú webkorpusz Hírműsorok kézi leiratok  Hír témájú webkorpusz  Parlament webkorpusz 

• 3-gram szóalapú modellek • Részmodellek lineáris interpolációja • Számításigény 24 óra / 128Gbyte memória Beszédtechnológia

10

Modell bővítési mintafeladat: EB 2016 • 2016-os labdarúgó EB bírói, edzői, játékosai • Alanyesetű személynevek listája  595 személy pl: Wayne Rooney  2 alakban: Rooney, Wayne_Rooney (összesen 1190 névalak) • Főnévi esetragokkal ellátott lista  6 féle esetrag: részes, tárgy, eszközh., ablativus, delativus, allativus (~85%-os lefedettség) • Összesen 7 x 1190 névalak

Beszédtechnológia

11

Környezetfüggetlen szótárbővítés • Névalakok izolált elhelyezése a nyelvi modellben • Nem igényel tanítószöveg előkészítést! • Elhelyezés tanítószövegben  Szélsőségesen egyszerű  Névalakok felsorolása a tanítószövegben • Interpoláció unigram modellel  Unigram nyelvi modell a névalakokból  Interpoláció a többi nyelvi modellel

Beszédtechnológia

12

Környezetfüggő szótárbővítés • Tanítószöveg előkészítés szükséges! • Releváns kontextus keresése  Személynév felismerés a kézi leiratokon (NER)  Kiindulás: hiányosan címkézett tanítószöveg  Címkézés SzegedNE-vel (nagy pontosság)  Stanford-NER tanítása: kézi címkék + SzegedNE címkék  Eredmény: ~95% pontosság, ~88% felidézés • Osztály n-gram tanítása  Névelemek behelyettesítése a személynév címkék helyére

Beszédtechnológia

13

Szótárbővítés hatása Szótárbővítés

Relatív hiba csökkenés

Tanító szövegben felsorolt nevek

3%

Interpolált névlista

6%

N-gramm modellek

10%

• Maximum 0,5% szótár bővítés • Modell újratanítás minden esetben szükséges • Az N-gramm modellek további jelentős befektetést

igényelnek • A közvetítés előtt közvetlenül a modell ezen

módszerekkel nem módosítható Beszédtechnológia

14

Szótárbővítés demó Bővített modell

Kezdeti nyelvi modell

Beszédtechnológia

15

Környezetfüggetlen szótárbővítés • Futásidejű modell interpoláció a motorban  A „nagy” modell és a névlista önálló modellként kerül betöltésre  Több modell is betölthető  Minden modell súlyozható  Modellek átjárhatóak • Elveszítjük az N-gramm modell előnyeit • Percek alatt bővíthető a modell

Beszédtechnológia

16

Eredmény • Sportoló nevekkel bővített, • Központozott, • Kereshető (Webvtt – html5 szabvány) • Feliratozott élő sportközvetítések

Beszédtechnológia

17

Köszönöm a figyelmet!

A projekt részben az EUREKA – DANSPLAT projekt támogatásával került megvalósításra, szerződésszám: EUREKA_15_1_2016-0019

Beszédtechnológia. élő sportközvetítések gépi feliratozása. Tibor Fegyó SpeechTex Kft

Recommend Documents