Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON) Eindverslag
Initiatiefnemer Innovatief Aanbesteden
Aanbestedende dienst
Platformmanager
© Addestino Innovation Management 2012 | Gaston Crommenlaan 4 bus 501, 9th Floor Building A, 9050 Gent T: +32 9 296 21 29 | F: +32 9 296 22 00 | E:
[email protected] | W: www.addestino.be
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Inhoud 1
Objectieven en werkingskader ........................................................................................................ 4 1.1
Achtergrond en doelstellingen ................................................................................................. 4
1.2
Kenbaarheid naar de markt ..................................................................................................... 5
1.3
Deelnemende partners ............................................................................................................ 6
2
Samenvatting ................................................................................................................................... 7
3
Positioneren en definiëren ............................................................................................................... 9 3.1
De projectinitiators ................................................................................................................... 9
3.1.1 Vlaams Departement Economie, Wetenschap en Innovatie (EWI), afdeling Strategie en Coördinatie ...................................................................................................................................... 9 3.1.2
Beleidsdomein Cultuur Jeugd, Sport en Media (CJSM), afdeling Media ........................ 9
3.1.3
Vlaamse Radio- en Televisieomroep (VRT) .................................................................. 10
3.2
4
5
3.2.1
De digitale uitdaging van VRT ....................................................................................... 10
3.2.2
Synergiën tussen VRT en andere zenders. .................................................................. 11
3.3
Het voortraject: “Nederlandse Ondertiteling” (NEON) ........................................................... 11
3.4
Beoogde doelstelling van het innovatieplatform .................................................................... 12
3.5
Deliverables van het innovatieplatform.................................................................................. 12
Inschatting van het innovatiepotentieel vanuit gebruikersstandpunt ............................................. 13 4.1
De verschillende gebruikersgroepen en hun noden .............................................................. 13
4.2
Opstellen van de gebruikersvereisten ................................................................................... 14
4.3
Inschatting van het innovatiepotentieel ................................................................................. 17
Inschatting van de stand van de techniek: innovatiepotentieel vanuit technologische invalshoek 22 5.1
6
Werkingskader van het innovatieplatform ............................................................................. 10
De referentieoplossing: “α” .................................................................................................... 22
5.1.1
α Bouwblok: Scriptinterpretatie ...................................................................................... 22
5.1.2
α Bouwblok: Taalherkenning ......................................................................................... 24
5.1.3
α Bouwblok: Videoverwerking ....................................................................................... 25
5.1.4
α Bouwblok: Diarisation ................................................................................................. 27
5.1.5
α Bouwblok: Spraakherkenning (speech-to-text) .......................................................... 30
5.1.6
α Bouwblok: Punctuatie ................................................................................................. 33
5.1.7
α Bouwblok: Vertaling .................................................................................................... 34
5.1.8
α Bouwblok: Spreek- naar schrijftaalomzetting ............................................................. 36
5.1.9
α Bouwblok: Synchronisatie .......................................................................................... 37
5.1.10
α Bouwblok: Ondertitelgeneratie en –reductie .............................................................. 38
5.1.11
α Bouwblok: Topicdetectie ............................................................................................. 39
5.1.12
α Bouwblok: User Interface “cockpit” ............................................................................. 40
5.1.13
Algemene technologische facetten ................................................................................ 41
Synthese: uitwerken van een prototype voor Innovatief Aanbesteden ......................................... 43
05/02/2013
IWT – Innovatief Aanbesteden - 2013
2
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
6.1
Doelstelling van een prototype .............................................................................................. 43
6.2
Prioriteiten van het prototype ................................................................................................. 43
6.2.1 6.3
Conclusies van deze prioritering ................................................................................... 44
Het prototype: plan van aanpak............................................................................................. 45
6.3.1
Randvoorwaarden ......................................................................................................... 47
7
Governance ................................................................................................................................... 47
8
Voorwaarden tot succes ................................................................................................................ 47
Bijlage A: Ondertitelproces binnen VRT voor voorbereidbare programma’s ........................................ 49
05/02/2013
IWT – Innovatief Aanbesteden - 2013
3
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
1 Objectieven en werkingskader 1.1 Achtergrond en doelstellingen Dit eindverslag beschrijft het gevolgde traject van het innovatieplatform ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’, presenteert de synthese van de resultaten en schetst de vervolgstappen. De doelstelling van dit eindverslag is het vormen van een basis voor het opmaken van een precommercieel en/of commercieel bestek. Hiertoe worden op het innovatieplatform de verschillende projectstakeholders samengebracht met als doel het verzamelen van kennis, inzichten en concrete voorstellen vanuit verschillende invalshoeken. Dit eindverslag formuleert een nauwkeurig antwoord op de volgende vragen:
Wat behelst het project ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’? Waar ligt het innovatiepotentieel van dit project, zowel vanuit gebruikerstandpunt als vanuit technologische invalshoek? Waar liggen de echte noden voor een prototype en een precommerciële aanbesteding in het kader van Innovatief Aanbesteden?
Addestino Innovation Management werd door de projecteigenaars, met name het Vlaams Departement Economie, Wetenschap en Innovatie (EWI) in samenwerking met het beleidsdomein Cultuur, Jeugd, Sport en Media, de Vlaamse Radio en Televisie (VRT) en het IWT, aangesteld om het innovatieplatform ‘spraak en taaltechnologisch ondertitelen in het Nederlands’ te coördineren. Addestino heeft als missie om innovatie te leveren aan zijn klanten, end-to-end, vanaf het idee tot het eindresultaat. Deze missie wordt volbracht dankzij drie centrale pijlers:
Addestino omvat een multidisciplinair team dat in staat is om innoverende doorbraken te realiseren doorheen business, strategie, technologie en gebruikerservaring. Addestino beheerst een iteratieve end-to-end methodologie waarmee risico gereduceerd wordt en product- en dienstontwikkeling succesvol versneld wordt. Addestino bezit een diepgaande technologische kennis en past die pragmatisch toe in verscheidende industriesectoren (telecom, gezondheidszorg, energie, transport, elektronica, enz.) en in verscheidene omgevingen (start-ups, kmo’s, multinationals, universiteiten en overheidsinstellingen).
Voor dit project stelt Addestino Dominique Buyse en Thomas Geerinck voor. Dominique is burgerlijk ingenieur in micro-elektronica, met een bijkomende executive MBA opleiding. Hij heeft een brede ervaring in de bedrijfswereld, zowel nationaal als internationaal, in strategie en business development, marketing, R&D management en project management. Thomas is burgerlijk werktuigkundigelektrotechnisch ingenieur met een doctoraat in digitale signaalverwerking. Hij heeft ervaring in onderzoeksprojecten, project/bid/operational management, business development en strategie projecten. Addestino kan ook beroep doen op eerdere ervaringen met het instrument Innovatief Aanbesteden, i.h.b. met ICIS, complementaire muntsystemen, en Persoonlijk Ontwikkelingsplan (POP). In het innovatieplatform ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ neemt Addestino de rol op van platformmanager. Als platformmanager faciliteert en coördineert Addestino het innovatieplatform, begeleidt en modereert de vergaderingen en stimuleert de nodige wisselwerking tussen de verschillende partijen. Als platformmanager treedt Addestino steeds op in het algemeen belang, met als taak om de deelnemers aan het platform resultaatgericht en op één lijn te krijgen. Daarnaast verschaft Addestino het nodige inzicht en de nodige ervaring in het innovatiegebeuren, mede door het aanwenden van een weldoordacht plan van aanpak voor het innovatieplatform en een methodologie voor de inhoudelijke discussies en denkprocessen tijdens de werksessies.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
4
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Dit eindverslag is aldus het resultaat van een gestructureerd proces om het innovatiepotentieel van ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ te bepalen met als doel de vraagstelling naar aanbodszijde te verfijnen in het kader van een precommercieel of een commercieel bestek. Het innovatieplatform ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ is effectief gestart op 13 juni 2012 en eindigt op 31 oktober 2012. Het beslaat de volgende zes iteraties doorheen 3 dimensies: gebruikers, technologie en ‘governance’: 1. ‘Scoping’ werksessie met medewerkers van de projectinitiator waarbij ‘en-petit-comité’ getracht wordt het eindantwoord van het innovatieplatform neer te schrijven op basis van een combinatie van ervaring uit het verleden, wensen en hypotheses. Deze sessie laat toe een eerste maal de maatschappelijke waarde en het innovatiepotentieel van ‘spraak en taaltechnologisch ondertitelen in het Nederlands’ te identificeren. 2. Werksessie met een aantal gebruikersgroepen om het standpunt van de (eind)gebruikers te belichten. Deze sessie laat toe het innovatiepotentieel vanuit gebruikersstandpunt verder uit te werken, in het bijzonder de gebruikersnoden en de naar toegevoegde waarde geprioritiseerde use-cases. 3. Werksessie met experts en beslissingsgemachtigden van de opdrachtgever en partners om het aangewezen business model, beheersdynamieken en ecosysteem verder in kaart te brengen. 4. Werksessie met geïnteresseerde industriepartners en kennisinstellingen om de stand van de techniek na te gaan en de referentiearchitectuur, belangrijke componenten, en noodzakelijke koppelingen met de externe wereld scherp te stellen. 5. Werksessie met geïnteresseerde industriepartners en kennisinstellingen om de stand van de techniek na te gaan, een inschatting te maken van de risico’s en het innovatiepotentieel vanuit technologische invalshoek te bepalen. 6. Eindverslag en afsluitende presentatie van het innovatieplatform opgemaakt door Addestino op basis van alle vergaarde informatie tijdens de werksessies.
1.2 Kenbaarheid naar de markt [Paragraaf voorbehouden voor het IWT]
05/02/2013
IWT – Innovatief Aanbesteden - 2013
5
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
1.3 Deelnemende partners In het kader van de transparantie en het open karakter van het innovatieplatform ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ worden hierbij de deelnemende bedrijven, overheidsdiensten en kennisinstellingen gelijst. VRT VMMa SBS Belgium Regionale zenders (ATV, TV Brussel, RingTV,…)
05/02/2013
IWT – Innovatief Aanbesteden - 2013
6
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
2 Samenvatting Dit document is het eindverslag van het innovatieplatform ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’, dat liep van 13 juni 2012 tot de slotpresentatie op 5 februari 2013 en waarbij Addestino optrad als platformmanager voor het IWT. Het bevat de volledig uitgewerkte resultaten van het traject en schetst de mogelijke prioriteiten en vervolgstappen voor het opmaken van een precommercieel bestek. Het Vlaams Departement Economie, Wetenschap en Innovatie (EWI), in samenwerking met de andere projectinitiators beleidsdomein Cultuur, Jeugd, Sport en Media (CJSM) en de VRT, wenst door middel van een innovatieve aanpak van ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ de efficiëntie van de huidige manier van werken (substantieel) te verbeteren zodat meer resultaat (lees: meer ondertitelde programma’s) voor minder of dezelfde operationele kosten mogelijk wordt, zonder daarbij in te boeten aan kwaliteit van de gegenereerde ondertitels. Bovendien kan zo voldaan worden aan de beleidsmatige eis om 95% van de uitzendingen ondertiteld te hebben. De conclusies van het innovatieplatform ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ situeren zich op drie vlakken. Als eerste conclusie: het project ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ is zeer innovatief vanuit gebruikersstandpunt. Het project adresseert heel wat verscheidene gebruikersgroepen (direct of indirect) en tracht voor elk van die gebruikersgroepen specifieke noden, behoeften, problemen of uitdagingen op te lossen. De vele use-cases met hoog ingeschatte toegevoegde waarde voor de eindgebruiker getuigen hiervan. In totaal werden een dertigtal diverse use-cases opgesteld met relevante eindgebruikers, waarvan ruim de helft bestempeld werden door die eindgebruikers als “zeer belangrijk”. Het innovatieve karakter van deze use-cases werd ook bevestigd door de partners uit de industrie en kennisinstellingen. Als tweede conclusie: het project ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ is zeer innovatief vanuit technologisch standpunt. Uit discussies met experten uit de industrie en kennisinstellingen blijkt dat er vandaag al heel wat technologische ondersteuning voor het ondertitelen haalbaar is en zelfs commercieel beschikbaar. Alleen, die beschikbare functionaliteiten leveren pas kwaliteitsvolle resultaten indien de gegevensinstroom sterk geconditioneerd wordt (lange fragmenten, volzinnen, moedertaalsprekers,…), hetgeen natuurlijk niet overeenkomt met de realiteit. Verder kwamen in totaal 16 technologische facetten naar voor die elk een bepaald innovatiepotentieel (en dus risico) met zich mee dragen. Die facetten omvatten veelal dezelfde functionaliteiten als de vandaag reeds beschikbare, alleen zijn ze niet meer geconditioneerd. De voornaamste technologische uitdagingen voor ‘spraak- en taaltechnologisch ondertitelen in het Nederlands’ zijn een intuïtieve UI die de gebruiker toelaat flexibel te interageren met de onderliggende modules en waar nodig kan bijsturen; automatische spraakherkenning die sprekeronafhankelijk werkt en een juiste betrouwbaarheidsindicatie aanlevert; diarisation naar spraak vs. niet-spraak voor interactieve fragmenten met overlap en bijhorende betrouwbaarheidsindicatie, enz. Kwaliteit van de ondertiteling staat in deze altijd voorop. Een volautomatisch ondertiteling verwerkingspad lijkt daarom uit den boze. De ondertitelaar dient niet vervangen te worden door een automatisch proces, maar eerder ondersteund in het verwerkingsproces. Als derde conclusie: de belangrijke mate waarin technologisch ondersteund ondertitelen een hoge toegevoegde waarde levert aan verschillende groepen van eindgebruikers in combinatie met een significant risico dat op korte termijn gereduceerd kan worden vereist een precommerciële ontwikkelingsfase. De inzichten van het innovatieplatform tonen immers aan dat heel wat zaken, doch gewenst door de eindgebruikers, vandaag niet beschikbaar zijn op de markt en bijgevolg onderzoek en ontwikkeling (O&O) vereisen. In een eerste traject ligt de focus op het realiseren van de centrale bouwblok UI ‘cockpit’ met open integratie van de onderliggende modules. In een tweede traject worden een aantal kleinere precommerciële aanbestedingen gelanceerd worden met als doel de huidige performantie en kwaliteit van bestaande bouwblokken die inkoppelen op de UI ‘cockpit’ significant te verbeteren. In de eerste plaats gaat het hier over de bouwblokken diarisation,
05/02/2013
IWT – Innovatief Aanbesteden - 2013
7
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
spraakherkenning (speech-to-text) en scriptinterpretatie. Voor een meer gedetailleerde beschrijving van deze trajecten wordt doorverwezen naar de tweede deliverable van dit project, de project fact sheet, die de basis vormt voor een precommerciële aanbesteding. De voorgestelde vervolgstappen na dit traject omvatten het opstellen van een gedetailleerde tijdslijn en budget voor de precommerciële fase en het samenstellen van evenwichtige consortia van aanbieders. Deze zaken vallen echter buiten de context van dit document. Tot slot wenst Addestino het IWT te bedanken voor het gestelde vertrouwen, het Departement EWI, het departement CJSM, en de VRT voor de geleverde expertise en inspanningen en alle partners voor hun deskundigheid en enthousiaste medewerking!
05/02/2013
IWT – Innovatief Aanbesteden - 2013
8
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
3 Positioneren en definiëren 3.1 De projectinitiators 3.1.1 Vlaams Departement Economie, Wetenschap en Innovatie (EWI), afdeling Strategie en Coördinatie Als kenniscentrum binnen de Vlaamse Overheid op het gebied van economie, wetenschap en innovatie is de ambitie van het Departement EWI om Vlaanderen naar de top van Europese regio's te loodsen, via een ideale mix van economie, wetenschap en innovatie. Hiertoe zorgt EWI voor beleidsvoorbereiding, beleidsopvolging en beleidsevaluatie voor het beleidsdomein Economie, Wetenschap en Innovatie. Vlaanderen laten evolueren tot een van de meest vooruitstrevende en welvarende regio’s in de wereld is daarbij het belangrijkste doel en wordt verwezenlijkt via volgende hefbomen:
het ondersteunen en valoriseren van excellent wetenschappelijk onderzoek, het creëren van een aantrekkelijk en duurzaam bedrijfsklimaat, het bevorderen van een creatieve, innovatieve en ondernemende samenleving.
Dit innovatieplatform biedt voor EWI een mooi valorisatietraject (zowel maatschappelijk als economisch) van een Stevin-resultaat. Tevens biedt dit project een mogelijke opening naar nieuwe vormen van bilaterale samenwerking in het kader van de Stuurgroep Vlaanderen/Nederland (specifiek gericht op de bevordering van strategische samenwerking tussen Vlaanderen en Nederland op het gebied van economie, wetenschap en innovatie).
3.1.2 Beleidsdomein Cultuur Jeugd, Sport en Media (CJSM), afdeling Media Als één van de 13 homogene beleidsdomeinen van de Vlaamse Regering, stippelt beleidsdomein CJSM het mediabeleid uit samen met de bevoegde minister. Het mediabeleid 2009-2014 zet actiegericht in op kwaliteit, toegankelijkheid, vernieuwing, maatschappelijk verantwoord ondernemen en duurzaamheid. Maar het beleid focust ook op analyse, reflectie en debat opdat mensen, mediaspelers en overheid krachtdadiger worden in het tegemoet treden van de diverse en complexe uitdagingen. De beleidsnota media 2009-2014 zet, als antwoord op deze uitdagingen, de volgende strategische doelstellingen centraal:
de onafhankelijkheid, pluriformiteit en kwaliteit van de media de toegang voor elke Vlaming tot een divers, kwalitatief en innovatief media-aanbod media stimuleren als partners in een vooruitstrevende informatiemaatschappij
Binnen deze doelstellingen gaat bijzondere aandacht naar de openbare omroep als ijkpunt in een snel evoluerend en versnipperd medialandschap; de leefbaarheid van de Vlaamse audiovisuele sector; kwaliteitsjournalistiek; het stimuleren van mediavaardigheden en het realiseren van een e-inclusieve samenleving. Extra aandacht is er, in lijn met het regeerakkoord, ook voor de toegankelijkheid van media. Toegankelijkheid van media betekent immers ook dat er werk dient gemaakt te worden van ondertiteling van televisieprogramma’s, audiodescriptie en auditieve ondertiteling. De sociale inclusie van doelgroepen als doven en slechthorenden wordt hiermee bevorderd. Belangrijk om dit alles te kunnen garanderen, is de aanwezigheid van voldoende kennis bij de overheid. Het departement CJSM speelt hier als kennisknooppunt een belangrijke rol.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
9
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
3.1.3 Vlaamse Radio- en Televisieomroep (VRT) De openbare omroep – VRT is een Extern Verzelfstandigd Agentschap (EVA) van CJSM - speelt een belangrijke rol bij het beschikbaar stellen van een kwalitatief aanbod via traditionele en nieuwe mediatoepassingen, zoals beschreven in zijn publieke opdracht. Zijn hele aanbod moet maximaal toegankelijk zijn op televisie en op internet. Zo is het hele lineaire VRT-aanbod, inclusief alle bestaande plusinitiatieven, via de ether gratis beschikbaar in Vlaanderen en Brussel. Alle digitale abonnees in Vlaanderen en Brussel kunnen zonder meerkost het hele lineaire digitale VRT-aanbod ontvangen. De VRT is decretaal verplicht om daarnaast de technologische ontwikkelingen op de voet te volgen zodat hij bv. zijn programma’s, als dat nodig en wenselijk is, ook via nieuwe mediatoepassingen aan zijn kijkers en luisteraars kan aanbieden. De beheersovereenkomst houdt daarom rekening met de afspraken die hierover in het regeerakkoord zijn vastgelegd. De VRT vervult hiertoe een voortrekkersrol in onderzoek en ontwikkeling, in het voordeel van de hele Vlaamse audiovisuele mediasector. De VRT blijft onderzoek verrichten naar en investeren in innovatie en technologie, zowel op het vlak van mediaproductie als op het vlak van informatiebeheer, -distributie en –consumptie. Zo bereidt de VRT zich voor op de nieuwste technologische evoluties en anticipeert hij op de uitbreiding van mediaplatformen en de nieuwe functionele mediavormen. Bijkomend maakt de VRT werk van de digitalisering en ontsluiting van het VRT-archief ten behoeve van andere televisieomroepen, scholen, bibliotheken, e.d. Geen enkele aanbieder kan immers een divers en kwalitatief programmaschema opmaken zonder voldoende bruikbaar audiovisueel materiaal. Naast de creatie van nieuwe digitale inhoud, zijn er ook belangrijke inspanningen nodig voor de digitalisering van analoge programma’s uit de audiovisuele archieven.
3.2 Werkingskader van het innovatieplatform 3.2.1 De digitale uitdaging van VRT Digitalisering is vandaag dé uitdaging in de mediasector. Digitale media zijn steeds nadrukkelijker aanwezig en overspoelen mensen met informatie van een groeiend aantal aanbieders. Het is de ambitie van de Vlaamse Regering dat elke Vlaming toegang heeft tot een divers en kwalitatief hoogstaand media-aanbod waarin technologische innovaties en nieuwe mediatoepassingen zijn geïntegreerd. Binnen de digitale media vormt televisie een zeer dominante factor in de tijdsbesteding van de gemiddelde Vlaming. Naast een belangrijke bron van ontspanning is het voor velen ook de belangrijkste informatiebron. Het recht van personen met een sensoriële handicap en van ouderen om te participeren en geïntegreerd te zijn in het maatschappelijke en culturele leven is dan ook onlosmakelijk verbonden met de beschikbaarheid van toegankelijke televisiediensten. Ongeveer 1 miljoen mensen in Vlaanderen hebben nood aan of appreciëren ondertitels. Daarom dient blijvend geïnvesteerd te worden in de ondertiteling van televisieprogramma’s op zowel de openbare omroep als op de commerciële en de regionale televisieomroeporganisaties. In overleg met de sectorraad Media werden recent door de bevoegde minister in haar beleidsbrief 2011-2012 een tijdspad en quota vastgelegd voor de ondertiteling van programma’s. Voor journaals en informatieprogramma’s, maar evenzeer voor andere programma’s. Niet alleen standaard tekstuele ondertiteling, maar evenzeer audiobeschrijving, gebarentaal, en auditieve ondertiteling behoren tot de scope van deze quota. De VRT leverde de voorbije jaren steeds meer inspanningen om het aanbod aan ondertitelde programma’s uit te breiden. Door het inzetten van meer mensen (vijf extra VTE’s sinds 2007) en
05/02/2013
IWT – Innovatief Aanbesteden - 2013
10
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
middelen en door een verhoogde efficiëntie steeg het aantal ondertitelde programma’s procentueel van 62% (eind 2007) naar 85% (eind 2010) en in absolute cijfers van 4.012 uren (in 2007) naar 5.836 uren (in 2010). Dit gebeurde binnen de huidige besparingscontext. De VRT blijft er continu naar streven om zo efficiënt mogelijk de beschikbare middelen in te zetten. Vanaf begin 2012 is de nieuwe beheersovereenkomst 2012-2016 van kracht waarin ook gepreciseerd staat dat de VRT haar aanbod toegankelijk moet maken voor personen met een auditieve/visuele beperking. Voor blinden en slechtzienden wordt via de teletekstpagina 889 gesproken ondertiteling (GO) verder toegankelijk gemaakt. Hiertoe levert de VRT ondertitelinformatie bij alle anderstalige programma’s en programmaonderdelen, voorlopig met uitzondering van een aantal programma’s van de nieuwsdienst. Tegen eind 2012 dienen ook alle programma’s van de nieuwsdienst voorzien te zijn van ondertitelinformatie. Tevens zal de VRT één (kwaliteits)fictiereeks per jaar uitzenden die toegankelijk gemaakt zal worden via audiodescriptie (AD) en zal de VRT haar sites maximaal conform het Anysurfer-label realiseren. Voor doven en slechthorenden dient via de teletekstpagina 888 95% van de programma’s (uitgezonderd hosting, trailering en commerciële communicatie) te worden ondertiteld. Daarbinnen dienen de nieuws- en duidingprogramma’s 100% ondertiteld te worden tegen eind 2014.
3.2.2 Synergiën tussen VRT en andere zenders. Bovenstaande uitdaging voor VRT geldt vanzelfsprekend ook voor de andere zenders binnen het Nederlandstalige medialandschap, zij het met andere randvoorwaarden (bv. het te behandelen volume aan programma’s, de grootte van de ondertitelequipes, enz. Voor Vlaanderen zijn dit VMMa, SBS Belgium, en de verschillende regionale zenders. In het kader van het STON project wordt daarom nauw overleg gepleegd met deze zendergroepen met als doel de gemeenschappelijke en verschillende objectieven en verwachtingen in kaart te brengen, bv. op het vlak van huidige gebruikersnoden, huidige equipes en workflow, verwachtingen naar aanbodszijde toe, investeringsmogelijkheden, enz.
3.3 Het voortraject: “Nederlandse Ondertiteling” (NEON) Het produceren van ondertitels in het Nederlands bij televisieprogramma’s is dus verplicht in Vlaanderen. Dit is een mens- en tijdsintensieve activiteit, zoals beschreven in het ondertitelingproces in bijlage A. Ondersteuning door technologie, meer bepaald taal- en spraaktechnologie, kan bijgevolg een belangrijke hulp (en bron van besparing) betekenen. Bij de huidige stand van de technologie is de volledige vervanging van de menselijke ondertitelaar door een machine niet aan de orde. Toch kan de hedendaagse spraak- en taaltechnologie de ondertitelaar merkelijk ondersteunen en resulteren in een aanzienlijke tijdwinst. Zo heeft het Stevindemonstratieproject “Nederlandse Ondertiteling” (NEON), dat bestaande teksten of scripts condenseert en aligneert met gesproken audio, op zich al een mogelijke tijdwinst van 50% procent aangetoond. Binnen het NEON-project werkten de Vlaamse Radio en Televisie en de Nederlandse Publieke Omroep nauw samen met het Nederlandse Telecats als industriële partner en de universiteiten van Gent, Antwerpen en Leuven. Sedert de oplevering van het NEON-prototype is een gelijkaardig systeem commercieel beschikbaar gekomen op basis van de onderzoekssoftware. Dit systeem is verkrijgbaar met een Nederlandse spraakherkenner. De VRT heeft tot op heden enkel een demonstratie ervan gezien en zal op korte termijn het systeem kunnen testen op eigen materiaal. NEON schiet echter onder meer tekort in het analyseren van scripts en audiodetectie (onderscheid tussen spraak en niet-spraak), en is daardoor eigenlijk enkel bruikbaar bij eenvoudige documentaires.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
11
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
3.4 Beoogde doelstelling van het innovatieplatform In dit project wordt met geavanceerde technieken gepoogd nog meer tijdwinst te realiseren, en het dus beter te doen dan de huidige commerciële stand van zaken. Het innovatieplatform heeft als centrale doel de huidige grenzen van de techniek af te tasten en met geavanceerde technieken de toolkit en proces om programma’s te ondertitelen efficiënter en effectiever te maken, zonder daarbij in te boeten aan kwaliteit van de gegenereerde ondertitels. Idealiter werkt het innovatieplatform naar een geïntegreerde oplossing die verschillende functionaliteiten incorporeert in een werkbaar en gebruiksvriendelijk geheel (a.h.w. een softwarematige “ondertitelwerkbank”), die naadloos aansluitbaar is op de commerciële tools die vandaag reeds (of in de toekomst) gebruikt worden, en bovendien in de huidige workflow past. De noodzakelijke functionaliteiten dienen best modulair geïncorporeerd te worden in de oplossing om ze makkelijk in en af te koppelen.
3.5 Deliverables van het innovatieplatform Tijdens het innovatieplatform toegewerkt naar twee deliverables: 1. Het voorliggende finale rapport dat een antwoord biedt op de vraag: waar ligt het innovatiepotentieel van het masterplan? Het finale rapport bevat een duidelijke beschrijving van de aangewende aanpak en methodes, de identificatie van het innovatiepotentieel op basis van een waarde-versus-risico analyse, de prioriteiten van een mogelijk prototype, het actieplan om met dit prototype een reductie van het technologisch risico te realiseren, enz. M.a.w. een scherpstelling van de vraag naar aanbodszijde. 2. De project fact sheet die de basis vormt voor een precommerciële aanbesteding. In dit document wordt steeds de afweging gemaakt tussen wat wenselijk is versus wat haalbaar is gegeven de middelen, de stand van de techniek, enz.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
12
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
4 Inschatting van gebruikersstandpunt
het
innovatiepotentieel
vanuit
Vanuit de expertise van de projectinitiators worden de verscheidene gebruikersgroepen en hun noden in kaart gebracht. De gebruikersgroepen omvatten zowel de eindgebruikers die met de beoogde oplossing voor spraak- en taaltechnologisch ondertitelen aan de slag moeten gaan, als de doelgroepen die onrechtstreeks geïmpacteerd worden. Vervolgens worden de belangrijkste gebruikersvereisten in kaart gebracht vanuit de expertise van de gebruikers zelf aan de hand van een niet-exhaustieve lijst van use-cases. Op deze manier wordt getracht een eerste algemeen beeld te schetsen van de geambieerde capaciteiten van het project.
4.1 De verschillende gebruikersgroepen en hun noden ‘Spraak- en taaltechnologisch ondertitelen in het Nederlands’ bevat in grote lijnen een tweetal primordiale processtappen: het ondertitelen zelf, en de vertaalslag. Beide processtappen impacteren een aantal doelgroepen hetzij rechtstreeks (de mensen die de ondertitels opmaken), hetzij onrechtstreeks (de mensen die de ondertitels lezen of gebruiken). Voor elk van deze doelgroepen wordt hieronder bovendien aangegeven welke noden of problemen zij ervaren. Wat betreft het ondertitelen zelf worden zo voor onderstaande doelgroepen een aantal welbepaalde noden en problemen opgelost of verlicht:
Voor de redacteurs (productiemedewerkers, ondertitelaars) dient de continu hoge werklast van het opmaken van ondertitels verlicht te worden. Zo worden de redacteurs in staat gesteld een groter volume aan materiaal te ondertitelen in minder tijd. De kijkers, met name doven, slechtzienden, allochtonen, Teletekst 888-gebruikers, telefonerende mensen, mensen die de klank niet al te luid hebben staan, e.d., kunnen m.b.v. de ondertitels de programma’s blijven volgen. Voor de beleidsvoerders kan het beleidsmatig opgelegde quota van 95% (aantal Nederlandstalige programma’s die ondertiteld worden) gehaald worden, zelfs al stijgt het programma-aanbod.
Het vertalen impacteert volgende doelgroepen die elk met andere noden en problemen te maken hebben :
Voor de vertalers dient de hoge werklast verminderd te worden, bv. door (semi-)automatisch te segmenteren waar er gesproken wordt, door de vereiste meertaligheidexpertise van de vertalers te verlichten , e.d. De programmamakers dienen snel en goedkoop te kunnen vertalen (bv. voor een reportage over Indonesië de vertaling via VRT laten uitvoeren omdat ze zelf niet over de kennis van het lokale Javaanse dialect beschikken). Daarnaast zou een goede vertaling helpen om snel zeer selectief te kunnen zoeken (bv. “Wanneer en in welk programma heeft Leterme of Obama over een bepaald onderwerp een welbekend statement gemaakt?”) Voor de kijker dient de kwaliteit van de vertalingen te verbeteren zodat irritaties en ergernissen verminderen. Voor de dispatcher/productiemedewerker is het van belang om programmamateriaal op voorhand automatisch te screenen naar bv. gesproken taal zodat hij de programma’s snel kan toewijzen aan de juiste vertaler en een beter zicht krijgt op zijn capaciteitsplanning.
Tot slot, naast de doelgroepen die een impact ondervinden van de ondertiteling en vertaling processtappen, vormt het archief een bijkomende doelgroep. Deze doelgroep ervaart volgende noden: het sneller ontsluiten van het archief (analoog, digitaal), het makkelijker annoteren van data, het sneller zoeken door toepassen van audiomining technieken (bv. het productiehuis van Blokken
05/02/2013
IWT – Innovatief Aanbesteden - 2013
13
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
kan op deze manier snel de ondertiteling van de VRT screenen op mogelijke controversiële uitspraken van presentator Ben Crabbé.), en het verwerken van meerdere binnenkomende informatiestromen (zoals bv. HP Autonomy dit doet voor Reuters, Al Jazeera).
4.2 Opstellen van de gebruikersvereisten Onderstaande lijst van een dertigtal use-cases, opgesteld samen met vertegenwoordigers van de gebruikersgroepen doorheen het Vlaamse zenderlandschap, brengt de gebruikersvereisten in kaart. ID
Als een…
kan ik…
zodat…
Waarde
Alternatieven
1.1 Vertaler
zoeken in een script naar stukken ik efficiënt kan werken tekst in mijn beheerste taal (doelgericht, sneller, minder fouten)
3
Manueel doorlopen
1.2 Vertaler
zoeken in een audiofragment naar ik efficiënt kan werken audiostukken in mijn beheerste (doelgericht, sneller, minder taal fouten)
3
Manueel doorlopen
2
Vertaler
gebruik maken van een vertaaldatabase (vertaalgeheugen, registers, …)
ik sneller en correcter kan vertalen
13
3.1 Vertaler
gebruik maken van anderstalige scripts
ik sneller en correcter kan vertalen
5
Elektronische Van Daeles, eigen software, Trados voor technische vertaling, … Worddocs, PDF in originele taal
3.2 Vertaler
gebruik maken van anderstalige ondertitels
ik sneller en correcter kan vertalen
5
Worddocs, PDF in originele taal
4.1 Vertaler/ ondertitelaar
automagic gebruiken op de dit EN synchroon loopt met originele audio voor live vertalen speaker, EN live interactie en ondertitelen toelaat bvb voting
40
Duits onderzoeksysteem (Verbmobil)
4.2 Vertaler/ ondertitelaar
automagic gebruiken op hersproken audio in de originele taal, voor live vertalen en ondertitelen
dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting
20
Duits onderzoeksysteem (Verbmobil)
4.3 Vertaler/ ondertitelaar
automagic gebruiken met respeaking door tolk voor live vertalen en ondertitelen
dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting
13
Manueel
5.1 Ondertitelaar
automagic gebruiken voor live ondertitelen NL-NL
dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting
40
Manueel
05/02/2013
IWT – Innovatief Aanbesteden - 2013
14
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
5.2 Ondertitelaar
automagic op hersproken audio gebruiken voor live ondertitelen
20
Manueel
6
Ondertitelaar
een script automatisch omzetten ik sneller kan werken in ondertitels voor verschillende standaarden en formaten, zonder vertaling
20
Copy-paste & manueel
7
Ondertitelaar
de metadata meegebruiken tijdens omzetten van script in ondertitels bv. blokje zetten voor oplijning, kleuren van dialooglijsten, … er op rekenen dat grammaticale blokken bij elkaar gehouden worden (bvb dmv rules)
ik sneller kan werken
5
Manueel scripts lezen of sommige SW doen dit al (niet in NL bv. Sysmedia)
8
Ondertitelaar
het geheel leesbaar wordt zonder manuele herschikking op woordniveau
8
Manueel scripts lezen of sommige SW doen dit al (niet in NL bv. Sysmedia)
9
Ondertitelaar
de tekst aligneren met de audio ik dit niet meer manueel dmv auto- matische moet doen gegenereerde tijdscodes uit script
40
Manueel in NL of prototype SW ("Spraak") (bestaat al?)
10
Ondertitelaar
beschikken over een volautomatische ondertiteling applicaties
ik enkel nog minimale correcties hoef uit te voeren
100
Geen
11
Ondertitelaar
beschikken over zelf te beheren spellingscontrolesoftware
corrector niet alles moet nalezen, en alles uniform ondertiteld wordt
20
Word
12
Ondertitelaar
gebruik maken van verrijkte audio-info (detectie spraak, taal, sprekers)
ik sneller kan werken, oplijnen, …
13
Bestaat deels (Intelligence)
13
Productiemede gebruik maken van verrijkte werker audio-info (detectie spraak, taal, sprekers)
ik sneller kan werken, preciezer toewijzen
13
Bestaat deels (Intelligence)
14
Ondertitelaar
automatisch vooraf gegenereerde de ondertitels automatisch ondertiteling laten meelopen bij gesynchroniseerd lopen live presentaties bv. nieuwslezer
40
Manueel
15
Ondertitelaar
gebruik maken van clusteren van de ondertitel kleuren audiostukken van telkens automatisch en consistent dezelfde spreker toegekend worden
8
Manueel
05/02/2013
dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting
IWT – Innovatief Aanbesteden - 2013
15
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
16
Ondertitelaar
automatische speech-to-text ik enkel nog de kwaliteit gebruiken (niet moet controleren persoonsgebonden) in NL-NL met goede kwaliteit
40
Persoonsgebonden OF nietpersoonsgebonden (Nuance, Sphinx, HTK, …)
17
Ondertitelaar
automatische speech-to-text gebruiken (niet persoonsgebonden) in beperkte andere (gekende) talen, zonder vertaling
ik enkel nog de kwaliteit moet controleren
13
Persoonsgebonden OF nietpersoonsgebonden (Nuance, Sphinx, HTK, …)
18
Ondertitelaar
automatische speech-to-text gebruiken (niet persoonsgebonden) met directe vertaling in 3 talen waarbij brontaal gekend is
ik enkel nog de kwaliteit moet controleren
40
Persoonsgebonden OF nietpersoonsgebonden (Nuance, Sphinx, HTK, …)
19
Ondertitelaar
gebruik maken van programmaspecifieke thesaurus met "standaard" uitdrukkingen
ik sneller kan werken
5
Elke keer opnieuw
20
Ondertitelaar
live gebruik maken van programmaspecifieke thesaurus met "standaard" uitdrukkingen (bv. short form, macro, …)
ik sneller kan werken
5
Elke keer opnieuw
21
Ondertitelaar
automatisch positie van ondertitels laten verplaatsen ifv achtergrondbeeld
ik goede leesbare ondertitels 8 heb zonder manuele ingreep
Manueel
22
Productiemede verrijkte beeldinformatie (shot werker change, aftiteling, SVO,…) verkrijgen en gebruiken
ik sneller beeldmateriaal kan 20 analyseren
Manuele annotatie
23
Archivaris
verrijkte audio- en beeldinformatie ik beter kan annoteren om verkrijgen en gebruiken later sneller te zoeken
20
Manuele annotatie, minimaal
24
Ondertitelaar
spraakherkenning verder het resultaat sneller en verbeteren naar nauwkeurigheid, nauwkeuriger is codes & short forms, snelheid (mag sprekerafhankelijk)
20
Nuance
25
Ondertitelaar
automatisch reduceren in verschillende gradaties (standaard reductie , ‘klare taal’)
5
"NEON" in NL, mankracht, Scandinavië: "klare taal"
26
Ondertitelaar
beschikken over een automatisch sneller kan werken en enkel 20 aangegeven niveau van kan focussen op de niet betrouwbaarheid van alle betrouwbare stukken automatisch modules
05/02/2013
ik minder denkwerk nodig heb, tijdsbesparing
IWT – Innovatief Aanbesteden - 2013
Bestaat dit vandaag?
16
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
4.3 Inschatting van het innovatiepotentieel Het innovatiepotentieel van elke use-case wordt toegekend door middel van een planning poker techniek. De laagste waarde in de schaalverdeling is een 0 en betekent “totaal niet innovatief voor de eindgebruiker”. Een waarde 20 en hoger dient dan weer geïnterpreteerd te worden als “uitermate innovatief voor de eindgebruiker”. Use-case 1.1: Een vertaler zoekt automatisch in een script naar stukken tekst in zijn beheerste taal Score van het innovatiepotentieel: 3 De nood die deze use-case vertegenwoordigt is wel degelijk een pijnpunt, maar komt in de praktijk echter niet zoveel voor. Als de situatie zich voordoet, bv. in een journaal, betekent het wel een significante tijdswinst indien automatisch in een script gezocht kan worden. Om vervolgens een goede vertaling te maken is enkel het stuk tekst, zonder contextinformatie niet voldoende, wat dan weer een deel van de tijdswinst teniet doet, vandaar score 3. Use-case 1.2: Een vertaler zoekt automatisch in een audiofragment naar stukken in zijn beheerste taal Score van het innovatiepotentieel: 3 Idem als use-case 1.1. Use-case 2: Een vertaler maakt gebruik van een vertaaldatabase (registers, vertaalgeheugen,…) Score van het innovatiepotentieel: 13 Indien er klachten opduiken rond vertaling zijn die steevast te herleiden naar de gehanteerde registers. Die registers zelf vervolledigen en up-to-date te houden is bovendien erg moeilijk. De problematiek kan bv. zeer specifiek gaan over het verschil tussen een ‘inspector’ in een Britse detective, wat helemaal niet hetzelfde is als een Amerikaanse ‘inspector’, en dus anders dient vertaald te worden. Ook voor kortere fragmenten blijft deze problematiek geldig, eerder voor wat betreft namen, titels en spellingscontrole. De vraag is hoe effectief in gebruik dergelijke registers kunnen worden. Bestaande initiatieven werken ondermeer in de richting van een soort van Wikipedia-achtig systeem waarbij dmv. Mindmapping technieken bv. de medische terminologie en titels. De nood aan een effectief systeem is wel degelijk zeer belangrijk, kortom score 13. Use-case 3.1: Een vertaler maakt gebruik van anderstalige scripts Score van het innovatiepotentieel: 5 In de praktijk blijkt dat vaak afgeweken wordt van wat er in de scripts staat, zodat zondermeer het script volgen niet resulteert in juiste ondertiteling. Deze use-case zou kunnen werken, maar andere alternatieven hebben meer effect, vandaar score 3. Use-case 3.2: Een vertaler maakt gebruik van anderstalige ondertitels Score van het innovatiepotentieel: 5 Indien vandaag een vertaler beschikt over anderstalige ondertitels, helpt dat sterk om de vertaling te versnellen. Wel moeten omzichtig omgesprongen worden met het vertalen van gezegden, spreuken,… Deze anderstalige ondertitels zijn echter slechts beschikbaar voor een klein deel van de te ondertitelen programmatuur waardoor de impact eerder beperkt is, vandaar score 5. Use-case 4.1: Een vertaler kan de originele audio live automatisch omzetten in vertaalde ondertitels Score van het innovatiepotentieel: 40 Voor de kijker is dit een ideaal scenario, geen tijdsvertraging met nog steeds dezelfde hoge kwaliteit. Voor de vertaler- en ondertitelingsequipes betekent dit een enorme tijdswinst, vandaar de hoge 40.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
17
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Use-case 4.2: Een vertaler kan de hersproken audio in de originele taal live automatisch omzetten in vertaalde ondertitels Score van het innovatiepotentieel: 20 Voor de kijker betekent dit een zeer beperkte tijdsvertraging met nog steeds dezelfde hoge kwaliteit. Voor de vertaler- en ondertitelingsequipes betekent dit een significante tijdswinst, doch iets lager dan in use-case 4.1, vandaar de hoge 20. Use-case 4.3: Een vertaler kan de hersproken audio live vertaald door een tolk automatisch omzetten in ondertitels in de doeltaal Score van het innovatiepotentieel: 13 Voor de kijker heeft dit scenario quasi dezelfde toegevoegde waarde als use-case 4.2. De tijdsvertraging neemt iets toe. Voor de vertaler- en ondertitelingsequipes is de impact net iets lager dan in use-case 4.1 maar nog steeds zeer belangrijk, vandaar de hoge 13. Use-case 5.1: Een ondertitelaar kan automatisch live ondertitelen Nederlands-Nederlands Score van het innovatiepotentieel: 40 Deze use-case weerspiegelt de acute nood die leeft bij de Vlaamse zenders, nodig om het ondertitelquota opgelegd door de overheid te halen, vandaar de hoge 40. Use-case 5.2: Een ondertitelaar kan automatisch live ondertitelen Nederlands-Nederlands op basis van hersproken audio Score van het innovatiepotentieel: 20 In lijn met de voorgaande variant van de use-case, is de score van deze use-case eveneens zeer hoog. De impact op de ondertitelingsequipes is echter lager vermits er nog steeds een herspreker vereist is in de workflow. Use-case 6: Een ondertitelaar kan een script automatisch omzetten in ondertitels voor heel wat standaarden en formaten. Score van het innovatiepotentieel: 20 Deze use-case is niet even relevant voor alle zenders: sommige zenders kunnen in veel mindere mate beschikken over scripts. Los daarvan houdt deze use-case een grote meerwaarde in, niet alleen voor de ondertitelaar, maar bv. ook voor de archivaris. Vandaar de hoge 20. Use-case 7: Een ondertitelaar gebruikt metadata (kleuren van dialooglijsten,…) om scripts om te zetten in ondertitels Score van het innovatiepotentieel: 5 Opnieuw geldt de opmerking dat scripts niet even belangrijk zijn voor alle Vlaamse zenders. Zo werken de regionale zenders helemaal niet met scripts, zodat een dergelijke use-case voor deze gebruikers veel minder attractief is. Deze use-case zorgt er natuurlijk wel voor dat de workflow van ondertitelaar toch weer sneller kan verlopen, door bv. gebruik te maken van de ingekleurde dialooglijsten, tijdscodes van de verschillende sprekers, enz. Opzichzelfstaand is deze use-case niet zo heel bijzonder, het effectief gebruiken van een script blijft dat wel, hetgeen de score 5 verantwoordt. Use-case 8: Een ondertitelaar rekent erop dat grammaticale blokken bij elkaar gehouden worden bij generatie van de ondertiteling Score van het innovatiepotentieel: 8 Het bij elkaar houden van grammaticale eenheden verhoogt de leesbaarheid, hetgeen een belangrijke troef is voornamelijk voor de kijker. Voor de ondertitelaar betekent deze use-case een zekere meerwaarde, maar is op zich niet kritisch in de workflow. Vandaag bestaat deze functionaliteit al in bepaalde ondertitelingspakketten, maar de technologie staat nog niet op punt. Kortom, score 8.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
18
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Use-case 9: Een ondertitelaar aligneert tekst met audio d.m.v. automatisch gegenereerde tijdscodes uit het script Score van het innovatiepotentieel: 40 In het geval er geen scripts zijn is deze use-case van geen tel. In het andere geval is de impact zeer groot. In het aligneren kruipt typisch zowat de helft van de manuele effort, vandaar de hoge 40. Use-case 10: Een ondertitelaar beschikt over een volautomatisch ondertitelingsapplicatie Score van het innovatiepotentieel: 100 De impact op de workflow van de ondertitelingsequipes is dusdanig groot dat enkel achteraf nog minimale correcties uitgevoerd dienen te worden, vandaar de maximale score van 100. Use-case 11: Een ondertitelaar beschikt over een zelf te beheren spellingscontrolesoftware Score van het innovatiepotentieel: 20 De problematiek omvat bv. de juiste schrijfwijze van eigennamen, namen in een fictiereeks, Brussels jargon, … Ook bij dringende opdrachten kan dit zeer handig zijn en kostbare tijd besparen. Tenslotte is het voor de kijker toch storend als er in de ondertiteling een aantal flagrante fouten zitten. Kortom, een hoge 20 is hier gerechtvaardigd. Use-case 12: Een ondertitelaar maakt gebruik van verrijkte audiobestanden (detectie spraak, taal, spreker) Score van het innovatiepotentieel: 13 Deze use-case is van belang bij bv. hermontages met audioquotes. Het biedt een extra mogelijkheid t.o.v. vandaag gehanteerde alternatieven, kan bovendien ook een andere manier van werken inhouden. De impact op de workflow is echter lager dan bv. de impact die het auto-aligneren van tekst en audio realiseert (use-case 9), vandaar de significante 13. Use-case 13: Een productiemedewerker maakt gebruik van verrijkte audiobestanden (detectie spraak, taal, spreker) Score van het innovatiepotentieel: 13 Belangrijke opmerking is dat niet alle Vlaamse zenders vandaag productiemedewerkers in dienst hebben die de programmatuur dienen te screenen op bv. gesproken taal. Deze activiteit die vandaag manueel gebeurt is zeer tijdsrovend. De impact van deze use-case is bijgevolg significant, in die mate zelfs dat het de workload zou kunnen halveren door bv. een snel antwoord te bieden op vragen als ‘waar spreekt President Obama’ in de auto newsfeeds. Vandaar 13. Use-case 14: Een ondertitelaar laat vooraf gegenereerde ondertiteling automatisch meelopen bij live uitzendingen Score van het innovatiepotentieel: 40 Voor de regionale zenders is deze use-case niet relevant daar zij niet live uitzenden. De impact voor de ondertitelequipes van de zenders die wel live uitzenden is zeer groot. Zo kan ook voor de dure (alvast wat betreft ondertiteling) laatavond uitzendingen bespaard worden in aantal FTE in de equipes. Use-case 15: Een ondertitelaar clustert audiostukken van dezelfde spreker Score van het innovatiepotentieel: 8 Als onderdeel van use-case 12, zei het met een iets beperktere scope, wordt de toegevoegde waarde ook iets lager ingeschat, 8. Use-case 16: Een ondertitelaar gebruikt automatische niet-persoonsgebonden speech-to-text in NederlandsNederlands met een goede kwaliteit Score van het innovatiepotentieel: 40 Analoog aan use-case 9, is de impact van deze use-case enorm op de ondertiteling workflow zeer groot. Het omzetten van de audio naar tekst zonder vertaling omvat zowat de andere 50% van de ondertiteling effort, vandaar de hoge 40.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
19
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Use-case 17: Een ondertitelaar gebruikt automatische niet-persoonsgebonden speech-to-text in een beperkt aantal andere talen (zonder vertaling) met een goede kwaliteit Score van het innovatiepotentieel: 13 Deze use-case is van groot belang voor de regionale omroep Brussel, waar ondertitels in 3 talen gegenereerd dienen te worden. Voor de andere zenders is deze nood minder acuut, vandaar een 13. Use-case 18: Een ondertitelaar gebruikt automatische niet-persoonsgebonden speech-to-text met directe vertaling in 3 talen met een goede kwaliteit Score van het innovatiepotentieel: 40 Voortbouwend op de redenering bij use-case 16 en 17, is deze use-case zeker pertinent, in het bijzonder ook voor de ‘expat’ doelgroep. Vandaar de hoge 40. Use-case 19: Een ondertitelaar gebruikt programmaspecifieke thesauri met ‘standaard’ uitdrukkingen Score van het innovatiepotentieel: 5 Deze use-case is eigenlijk een leuk extraatje, maar de tijdswinst zal hier echter vrij beperkt blijven, met als gevolg score 5. Use-case 20: Een ondertitelaar gebruikt live programmaspecifieke thesauri met ‘standaard’ uitdrukkingen Score van het innovatiepotentieel: 5 De toegevoegde waarde van deze use-case is hoger dan voorgaande use-case 19. De situatie doet zich echter minder voor, vandaar dezelfde inschatting: 5. Use-case 21: Een ondertitelaar verplaatst automatisch ondertitels i.f.v. het achtergrondbeeld Score van het innovatiepotentieel: 8 In het uitzendbeeld mogen bepaalde elementen zoals bv. een grafiek, nooit overschreven worden. Hoewel er bepaalde stelregels bestaan om grafieken in beeld te plaatsen, worden die niet altijd even secuur opgevolgd en moet de plaats van de ondertitels aangepast worden. De tijdswinst die met deze use-case kan gehaald worden is wel belangrijk, maar niet enorm, vandaar de score 8. Echter bij de regionale zenders waar de ondertiteling en de plaatsing op het beeld uitgevoerd wordt door dezelfde persoon speelt dit veel minder. Use-case 22: Een productiemedewerker gebruikt verrijkte beeldinformatie Score van het innovatiepotentieel: 20 De problematiek die in deze use-case speelt omvat bv. het detecteren in het beeld van pancarten met Jamie Olliver recepten, een jaartal in een film, reeds aanwezige ondertiteling in het beeld, enz. Vandaag gebeurt de detectie manueel en wordt elk item apart doorgestuurd naar de vertaler. Automatisatie als voorbereidende verwerkingsstap kan hier een grote impact hebben. Naast tijdswinst worden door automatisatie bovendien minder fouten gemaakt en dus score 20. Use-case 23: Een archivaris gebruikt verrijkte audio- en beeldinformatie Score van het innovatiepotentieel: 20 De Vlaamse zenders hebben samen een zeer groot archief. Essentieel om te ontsluiten is het digitaliseren van dit materiaal, waarbij automatisatie vanzelfsprekend een zeer grote versnelling zou betekenen, vandaar de eveneens hoge score 20. Hier dient wel opgemerkt te worden dat deze use-case zich aan de grens bevindt van de scope van het project STON. Use-case 24: Een ondertitelaar verbetert zelf de spraakherkenning functionaliteit naar nauwkeurigheid,… Score van het innovatiepotentieel: 20 Het spreekt voor zich dat een ondertitelaar die gedurende enkele weken een programma met een aantal specifieke actoren dient te ondertitelen (bv. Tour de France) niet dagelijks dezelfde aanpassingen wenst te doen aan de spraakherkenningsresultaten. Deze zelf kunnen verbeteren met relevante data heeft een significante impact op de verwerkingstijd van een ondertitel, vandaar een 20.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
20
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Use-case 25: Een ondertitelaar kan automatisch ondertitels reduceren in verschillende gradaties Score van het innovatiepotentieel: 5 De toegevoegde waarde van deze use-case t.o.v. de vandaag reeds bestaande alternatieven is niet zo groot, er kan al heel wat vandaag, vandaar score 5. Use-case 26: Een ondertitelaar beschikt over een automatisch aangegeven betrouwbaarheidsniveau van alle automatische modules. Score van het innovatiepotentieel: 20 Het spreekt voor zich indien een ondertitelaar beroep doet op automatisatie om zijn werk te versnellen steevast de hoge kwaliteit van ondertitels wenst te behouden. Vandaar is het van belang dat de ondertitelaar goed weet wanneer hijzelf dient in te grijpen op de ondertitels. Vandaar de hoge score 20.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
21
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
5 Inschatting van de stand van de techniek: innovatiepotentieel vanuit technologische invalshoek 5.1 De referentieoplossing: “α” Fout! Verwijzingsbron niet gevonden. illustreert vanuit functionele invalshoek de referentieoplossing van het innovatieplatform “spraak- en taaltechnologisch ondertitelen in het Nederlands”. Om geen enkel verband te impliceren met een eventuele implementatiekeuze wordt aan de referentieoplossing de benaming “α” gegeven. α omvat een aantal inputs, een aantal outputs en een aantal functionele componenten of bouwblokken. De inputs omvatten bestaande scripts, originele audio- en video, hersproken audio, bestaande ondertitelbestanden, contextuele info, en tot slot manuele input. De outputs omvatten naast de ondertitels zelf ook rapportering rond bv. detectie van spraakfragmenten. In de volgende secties wordt elke functionele bouwblok in al zijn technologische facetten besproken en wordt voor elk technologisch facet een inschatting gemaakt van het innovatiepotentieel.
Figuur 1: Referentieoplossing "α"
5.1.1 α Bouwblok: Scriptinterpretatie Inputs De scriptinterpretatie haalt de benodigde informatie uit bestaande scripts. Deze scripts zijn best uitgebreid en bevatten typisch naast de integrale teksten (zelfs met “euhs” erbij) ook regieaanwijzingen. De VRT beschikt voor de meeste programma’s over scripts van diverse bronnen (VRT, productiehuizen, andere omroepen) en in de meest diverse formaten. Ze bevatten vaak niet enkel de tekst die voor de ondertiteling kan dienen, maar ook allerhande meestal nuttige productie- en regieaanwijzingen, metadata of steuntitels bij een dialoog (bv. in de fictiereeks Thuis: “Daar spreekt Frank, dan Simonneke”). Deze scripts kunnen zowel in de doeltaal als in een andere taal aangeleverd worden.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
22
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Outputs De scriptinterpretatie levert drie types output: de geëxtraheerde transcriptiefragmenten die rechtstreeks aan de ondertitelgeneratie- en -reductiemodule geleverd worden en indien nodig eerst vertaald worden; tijdscodes naar de synchronisatiemodule indien die beschikbaar zijn in het script; en een rapport met metadata opstellen. Deze metadata bevat info zoals acteurs, locaties,… Technologische facetten SCRPT – 1: Scriptinformatie-extractie Omschrijving Bij scriptinformatie-extractie gaat men per gelokaliseerd veld in het script de inhoud interpreteren, bv. tijdscode-informatie uit een veld halen dat ook gebruikt wordt om sprekerinformatie toe te voegen. Observatie & strategische keuzes In de praktijk blijkt dat scripts niet altijd met de grootste zorg worden aangemaakt. Vooral velden die technische informatie bevatten, zijn zeer gevoelig aan interpretatiefouten. Als bijvoorbeeld bij de tijdscodes een aantal keer de lengte van een fragment wordt ingevuld in plaats van het startmoment en dit niet gedetecteerd wordt, zorgt dit voor problemen in de synchronisatie. Ook formatteringsfouten zorgen voor moeilijkheden. Als er bijvoorbeeld ‘21 jan 2012’ in plaats van 21/01/2012 ingevuld wordt, kan de scriptinterpretatie hier mislopen. Bij scriptinformatie-extractie moet men kiezen op welk type informatie men initieel zal focussen. Men kan starten met enkel automatische extractie van de transcriptiefragmenten. Daarna kan men de tijdscodes extraheren en nadien kan men kijken of ook andere metadata kan geëxtraheerd worden. Risicoscore: 8 Inschatting experts & voornaamste risicobronnen De algemene consensus bij dit facet was dat het op zich gemakkelijk is om de inhoud van velden te interpreteren als deze consistent zijn ingevuld. Dit houdt meteen het voornaamste risico in. De meerderheid van de scripts worden manueel aangemaakt en bevatten alle fouten hierboven aangehaald. Het vergt dan ook veel werk om de meerderheid van de velden correct te interpreteren. SCRPT - 2: Adaptieve parsing Omschrijving Met parsing wordt bedoeld om het aangeleverde script op te delen in velden per functie zodat deze velden nadien geïnterpreteerd kunnen worden. Concreet betekent dit bijvoorbeeld het zoeken naar de velden met de transcripties, de velden met de tijdscodes en de velden met de acteurs. Het ‘adaptief’ aspect geeft aan dat deze parsing manueel of automatisch kan worden aangepast zodat verschillende type scripts behandeld kunnen worden. Observatie & strategische keuzes In de praktijk ziet men een veelheid aan scriptformaten. De scripts verschillen in aangeleverd documentformaat (pdf, doc,…) en in lay-out. Bovendien ziet men regelmatig lay-out inconsistenties. Om de veelheid aan scriptformaten te kunnen bevatten, moeten een aantal keuzes gemaakt worden. Zal men ondersteuning aanbieden voor een x-aantal veel voorkomende formaten? Of kiest men voor een systeem waarbij de gebruiker de parser zelf kan aanpassen om een nieuw scriptformaat te behandelen? In een later stadium kan men mogelijk een systeem ontwikkelen waarbij de parser zelf de transcripties detecteert in het script op basis van spraakherkenning. Riscicoscore: 3 Inschatting experts & voornaamste risicobronnen Er werd algemeen besloten dat het risico recht evenredig is met het aantal te ondersteunen scripts en de inherente menselijke fouten. Voor een 100-tal scriptformaten valt dit nog mee, vandaar de score 3.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
23
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
5.1.2 α Bouwblok: Taalherkenning Inputs De bouwblok taalherkenning doelt op het herkennen van de taal per fragment (scriptfragment uit de scriptinterpretatie). De taalherkenning kan hierbij eventueel geholpen worden door contextinformatie rond de verwachte talen. Outputs Per scriptfragment duidt men de herkende taal aan. In een vereenvoudigde versie van taalherkenning kan men enkel aanduiden of het fragment al dan niet Nederlands is. De informatie die bekomen wordt, dient niet alleen als input voor de vertaling, maar levert ook metadata voor rapportering. Technologische facetten TLHRK – 1: Taalherkenning ‘vreemde talen’ Omschrijving Bij taalherkenning ‘vreemde talen’ gaat men per fragment de taal proberen herkennen door bijvoorbeeld te vergelijken met een database van gekende talen. Observatie & strategische keuzes We zien dat het herkennen van een tiental West-Europese talen al voldoende is om een hoge graad van automatisatie te halen. Er blijken ook een aantal talen te zijn die sterk op elkaar gelijken (vb. Noors, Zweeds, Deens), maar mocht hier een foute classificatie gebeuren zou dit geen verstrekkende gevolgen hebben aangezien vertalers meestal gespecialiseerd zijn in een groep van gelijkaardige talen (vb. de Scandinavische talen). In verband met de lengte van het fragment stelt men dat een aantal woordsequenties over het algemeen voldoende is om de taal te herkennen. Risicoscore: 1 Inschatting experts & voornaamste risicobronnen Het herkennen van talen stelt geen probleem zolang de taal in de database gekend is. Met een database van een tiental West-Europese talen kan al heel wat gerealiseerd worden. De voornaamste risicobron is het werken met zeer korte fragmenten. Fragmenten in aanliggende talen leveren soms ook fouten op, maar die zijn niet onoverkomelijk. Ook het feit dat bepaalde zinnen in de brontaal moeten blijven staan (vb. quotes) wordt niet aanzien als onoverkomelijk. TLHRK – 2: Taalherkenning ‘niet-Nederlands’ Omschrijving Bij taalherkenning ‘niet-Nederlands’ wordt per scriptfragment stukken niet-Nederlands onderscheiden. Observatie & strategische keuzes De moeilijkheid van dit facet is een grootteorde kleiner i.v.m. het vorige facet (TLHRK – 1: taalherkenning ‘vreemde talen’) aangezien hier nu enkel moet vergeleken worden met een database van de Nederlandse taal. Risicoscore: 1 Inschatting experts & voornaamste risicobronnen Het risico is bijgevolg laag, enkel een database van het Nederlands is voldoende. TLHRK – 3: Betrouwbaarheid van taalherkenning Omschrijving Per scriptfragment bepaalt men hoe betrouwbaar het oordeel van de taalherkenner is. Risicoscore: 1 Inschatting experts & voornaamste risicobronnen Doordat de risicoscores bij de implementatiefacetten (TLHRK – 1 en TLHRK – 2) laag ingeschat worden, ligt het risico dat de betrouwbaarheid niet correct is ook laag. Als men immers goed kan bepalen welke de overeenkomstige taal van een fragment is, kan men het ook duidelijk aanduiden
05/02/2013
IWT – Innovatief Aanbesteden - 2013
24
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
indien er geen overeenkomstige taal werd gevonden. De lengte van een fragment bepaalt mee de kwaliteit.
5.1.3 α Bouwblok: Videoverwerking Inputs De videoverwerking haalt allerhande informatie uit het aangeleverde beeldmateriaal. Er kan ook informatie-uitwisseling met de audioverwerking (diarisation) gebeuren. Zo kan audiosegmentatie helpen om de performantie van videosegmentatie te verbeteren en omgekeerd. Outputs Videoverwerking levert output onder de vorm van segmentatie-informatie (shotwissels, shotlengte,...) die gebruikt kan worden bij diarisation. De segmentatie-informatie geeft immers al aan waar het shot wisselt en ook waar waarschijnlijk de spreker wisselt. Deze info kan ook gebruikt worden om de punctuatie te verbeteren. Bovendien kan op basis van de shotwissels bepaald worden waar een ondertitel zeker moet verdwijnen. Een van de richtlijnen in de ondertitelstijlgids stelt immers dat ondertitels niet in beeld mogen blijven bij een scènewisseling. De shotlengte geeft meteen ook weer hoe lang een ondertitel in beeld kan blijven en bijgevolg weet het systeem of het mogelijk is om de ondertitel op te splitsen. Videoverwerking kan ook de ondertitelplaats en/of –kleur mee sturen door bv. witte letters op een witte achtergrond te vermijden. Verder is het ook nuttig om originele captions en ondertitels te detecteren en lokaliseren, om die vervolgens al dan niet te overschrijven met nieuwe ondertitels. Om dit onderscheid automatisch te laten verlopen, dient de videoverwerking de captions/ondertitels ook te herkennen (inhoudsinformatie-extractie). Nog een stap verder houdt in om ook logo’s te gaan herkennen en bv. recepten in beeld automatisch te lezen. Tot slot kan ook gezichts-, en lipherkenning toegepast worden. Als men de spreker herkent, kan dit van pas komen tijdens diarisation en spraakherkenning. Alle bovenstaande informatie is uiteraard ook nuttig om de metadata over het audiovisuele fragment aan te vullen. Technologische facetten VIDEO – 1: Segmentatie Omschrijving Bij segmentatie gaat men de shotwissels en de shotlengte van elk beeldfragment bepalen. Observatie & strategische keuzes ‘Pan/tilt’ camerabewegingen worden niet als shotwissels beschouwd. Tijdens zulke camerabewegingen blijft ook vaak dezelfde spreker of sprekersgroep aan het woord. Risicoscore: 1 Inschatting experts & voornaamste risicobronnen Volgens de experts is performante shotwisseldetectie momenteel ‘sneller dan real time’ mogelijk. VIDEO – 2: Beeldinformatie-extractie Omschrijving In deze context doelen we met beeldinformatie-extractie op het zoeken naar beeldinformatie die kan helpen bij het plaatsen van de ondertitels. Dit slaat op achtergronddetectie, detectie van bestaande captions en ondertitels,… Het is in dit geval nog niet de bedoeling om enige tekst op het scherm te begrijpen. Observatie & strategische keuzes Het is zeker mogelijk om deze gevraagde informatie uit het videomateriaal te halen, zei het met een zekere niet te vermijden foutmarge. Sommige zaken kunnen niet automatisch gedetecteerd worden. Zo werd ooit in de laatste scene van de laatste aflevering van de serie ‘Van Vlees en Bloed’ de tekstuele aankondiging van het volgende programma net over het beeld van een in de verte stervend
05/02/2013
IWT – Innovatief Aanbesteden - 2013
25
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
personage geplakt. Op dat moment was dat hoekje het belangrijkste deel van het beeld. Om deze fouten op te vangen zou een productiemedewerker van het programma vooraf moeten aanduiden waar geen titels mogen verschijnen. Risicoscore: 2 Inschatting experts & voornaamste risicobronnen Volgens de experts is alle technologie voorhanden om deze informatie uit video te verkrijgen. VIDEO – 3: Inhoudsinformatie-extractie: bestaande ondertitels herkennen Omschrijving Het facet ‘Inhoudsinformatie-extractie: bestaande ondertitels herkennen’ omvat het herkennen van de bestaande ondertitels en captions om deze al dan niet te overschrijven. Risicoscore: 3 Inschatting experts & voornaamste risicobronnen Aangezien ondertitels en captions zo goed als altijd in een duidelijk (gekend) lettertype bovenop het beeld gezet worden, is het goed doenbaar om via OCR de tekst te herkennen. Als ondertitels echter in een exotisch lettertype staan of als captions meer ‘ingewerkt’ zijn in het beeld dan wordt de herkenning moeilijker. Dit is slechts sporadisch het geval. Een ander risico is dat men pas kan beslissen of de ondertitel mag overschreven worden op basis van de interpretatie van die ondertitel. In dat geval volstaat dit facet niet. VIDEO – 4: Inhoudsinformatie-extractie: bestaande tekst lezen Omschrijving Dit facet behelst het begrijpen van allerhande tekst die in het beeldmateriaal vervat zit. Bovenop de bestaande ondertitels en captions, denken we hier aan logo’s, recepten, plaatsnamen op verkeersborden,… Dit facet is minder belangrijk voor het plaatsen van de ondertitels, maar is zeer waardevol voor de productiemedewerker en archivaris. Zij hebben meteen informatie zonder het hele programma te bekijken. Risicoscore: 8 Inschatting experts & voornaamste risicobronnen Volgens de experts is dit momenteel nog zeer moeilijk. Veel hangt af van de kwaliteit van de tekst. Een logo dat op dezelfde plaats blijft staan, is herkenbaar. De naam van een speler op de achterkant van zijn shirt is al heel wat moeilijker, tot zelf onmogelijk. VIDEO – 5: Volledige inhoudsinformatie-extractie Omschrijving Volledige inhoudsinformatie-extractie doelt op het extraheren van alle mogelijke informatie die in beeld komt: bv. gezichtsherkenning van honderden gezichten, het lezen van alle tekst die in beeld komt,… Hoewel gezichtsherkenning kan helpen bij diarisation en spraakherkenning, is dit facet opnieuw vooral belangrijk voor de productiemedewerker en archivaris. Zij hebben meteen zeer veel informatie zonder het hele programma te bekijken. Observatie & strategische keuzes Bij gezichtsherkenning is het ook mogelijk om A vs. B herkenning te doen in plaats van absolute herkenning. Voor diarisation zou het immers al nuttig zijn om te weten wanneer een bepaalde spreker terugkeert. Risicoscore: 20 Inschatting experts & voornaamste risicobronnen Tijdens de sessie werd dit facet behandeld als de exotische, experimentele vorm van inhoudsinformatie-extractie. Gezichtsherkenning wordt in andere contexten wel redelijk succesvol gebruikt, maar dan gaat het dikwijls om het vergelijken van profielfoto’s met een beperkte database van mogelijke matches. Een uitgebreide gezichtsherkenning is vandaag nog niet matuur.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
26
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
5.1.4 α Bouwblok: Diarisation Input Bij diarisation is de originele audio de belangrijkste input. Diarisation kan ook verbeteren door segmentatie-informatie uit de videoverwerking mee te gebruiken. Diarisation kan op zijn beurt ook de videoverwerking helpen. Ook bij diarisation is context een nuttige bron van informatie. Het is handig om te weten welke de verwachte talen en/of sprekers zijn. Output De belangrijkste output van diarisation is een segmentatie van de originele audio in fragmenten. De segmentatie hanteert typisch (één van) volgende criteria: spraak vs. niet-spraak, taalherkenning, sprekerherkenning. ‘Spraak vs. niet-spraak’ segmentatie duidt de begin- en eindtijd aan van een spraakfragment te midden van alle ander geluid (muziek, stilte, lawaai,…). Zo kan het handmatig scannen van de originele audio op zoek naar spraak vermeden worden. Ten tweede kan men per spraakfragment de taal herkennen en indien nodig het spraakfragment verder opdelen als er meerdere talen gesproken worden. Deze taalsegmentatie-informatie wordt in de vertaalstap gebruikt. Taalsegmentatie kan eventueel beperkt worden tot het herkennen en opdelen van niet-Nederlandse fragmenten. Verder kan men ook nog segmenteren per spreker. Als men van een bepaalde groep sprekers de stemprofielen ter beschikking heeft, kan men per fragment aanduiden wie de desbetreffende spreker is. Dit kan de kwaliteit van de spraakherkenning ten goede komen. Alle bovenstaande segmentatie-informatie levert ook nuttige metadata op. De rapportering kan aangevuld worden met de gevonden talen en/of sprekers. In samenwerking met de videoverwerking genereert diarisation segmentatie-informatie die ook bijdraagt tot de punctuatie en reductie, zoals bv. sprekers- en scènewissels, scènelengtes, stiltes,… Technologische facetten DIARI – 1: Segmentatie ‘spraak vs. niet-spraak’, strikt afgelijnde lange stukken DIARI – 2: Segmentatie ‘spraak vs. niet-spraak’, korte stukken (enkele woorden) DIARI – 3: Segmentatie ‘spraak vs. niet-spraak’, overlap Omschrijving Bij segmentatie ‘spraak vs. niet-spraak’ gaat men de spraakfragmenten onderscheiden van het ander geluid (muziek, stilte, lawaai,…). Observatie & strategische keuzes In de praktijk ziet men dat er zelden audio is waarbij spraak strikt gescheiden is van alle ander geluid. Tijdens de spraak kan er nog onbedoeld geluid (achtergrondgeluid) en/of bedoeld geluid (eg. jingles) aanwezig zijn. Er komen ook dikwijls spraakfragmenten voor die maar enkele woorden lang zijn. Risicoscore bij strikt afgelijnde lange stukken: 2 Inschatting experts & voornaamste risicobronnen De algemene consensus was dat het mogelijk is om een spraakfragment van enkele zinnen te onderscheiden van bv. een muziekfragment van dezelfde lengte. Uiteraard is de geluidskwaliteit, zoals bij alle diarisationfacetten, een zeer belangrijke bron van risico. Geluidskwaliteit omvat de kwaliteit van de bron (ervaren spreker, moedertaalspreker, gebruik van dialect,…) en de opnamekwaliteit (ruis, omgevingsgeluid, echo’s). Met kwaliteit wordt in deze context bedoeld in welke mate het fragment geschikt is voor automatische verwerking. Het kan zijn dat de subjectieve kwaliteit (de luisterervaring) best aanvaardbaar is, maar dat door een bepaald effect het fragment toch moeilijk bruikbaar is voor automatische verwerking. Zo maakt galm (bv. in een kerk) het onmogelijk om fragmenten automatisch te verwerken.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
27
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore bij korte stukken (enkele woorden): 8 Inschatting experts & voornaamste risicobronnen Vanuit de praktijkervaring blijkt dat het zeer moeilijk is om van een zeer kort stukje audio (de lengte van een aantal woorden) te bepalen of het nu al dan niet spraak is. Zo worden in een aflevering van de Vlaamse soap ‘Thuis’ heel wat korte fragmenten niet weerhouden als spraak. Deze stukjes zijn nochtans duidelijk verstaanbaar voor de kijker en dienen dus zeker ondertiteld te worden. Kan men er in slagen om een automatische detectie te doen waarbij men weinig spraakfragmenten mist (type-II fouten) zonder te veel audiofragmenten verkeerdelijk als spraak te herkennen (type-I fouten)? Risicoscore bij overlappende stukken: 13 Inschatting experts & voornaamste risicobronnen Wanneer spraak overlapt met ander geluid is het volgens de experts zeer moeilijk om de afgelijnde spraak te detecteren. We denken hierbij een scene waarbij er zich een gesprek afspeelt tijdens een concert. Hoewel het voor de kijker duidelijk hoorbaar is dat er zich een gesprek afspeelt, is het voor automatische verwerking uitermate moeilijk om aan te duiden waar er spraak is en waar enkel muziek. DIARI – 4: Taalsegmentatie ‘vreemde talen’: lange fragmenten, moedertaalsprekers DIARI – 5: Taalsegmentatie ‘vreemde talen’: alleenstaande zinnen, niet-moedertaalsprekers Omschrijving Bij taalsegmentatie ‘vreemde talen’ gaat men de spraakfragmenten die men gedetecteerd heeft in de originele audio, verder opdelen in fragmenten per gesproken taal. Deze segmentatiestap levert een rapport af met de opdeling van de originele audio in eentalige fragmenten en een aanduiding van de herkende taal per fragment. Observatie & strategische keuzes Taalsegmentatie ‘vreemde talen’ toepassen betekent vergelijken met een database van gekende talen. Het is dus belangrijk om te definiëren welke talen gedetecteerd moeten worden. Net zoals bij taalherkenning op scripts beperken wordt de scope herleidt tot een tiental West-Europese talen. Bovendien geldt, net zoals bij taalherkenning op scripts, dat het verwisselen van verwante talen geen grote gevolgen heeft voor de verder workflow aangezien die talen in de regel toch door dezelfde teams worden behandeld. Net zoals bij de andere diarisation stappen, impacteren de zeer variërende kwaliteit en lengte van de inputfragmenten de kwaliteit. Het is ook belangrijk om rekening te houden met nietmoedertaalsprekers omdat dit toch regelmatig voorkomt, bijvoorbeeld bij interviewers die zich aanpassen aan de taal van de geïnterviewde persoon. Risicoscore bij lange stukken gesproken door moedertaalsprekers: 5 Inschatting experts & voornaamste risicobronnen In de huidige experimenten wordt een 95% accuraatheid gehaald bij taalherkenning op lange stukken spraak gesproken door moedertaalsprekers. Risicoscore bij korte stukken (mogelijk niet- moedertaalsprekers): 20 Inschatting experts & voornaamste risicobronnen De experts erkennen dat taalherkenning op enkelvoudige zinnen zeer moeilijk is, zeker als de kwaliteit van de spraak varieert. Ondanks de negatieve praktijkervaring van de experts werd er gezegd dat L&H er vroeger in slaagde om taalherkenning toe te passen op drie woorden. Het is onduidelijk welke de kwaliteit van de fragmenten was tijdens de experimenten van L&H. Een andere moeilijkheid bij taalsegmentatie vormen sprekers die in hetzelfde fragment verschillende talen spreken. We denken hierbij aan het gebruik van anderstalige quotes of een interviewer die naar de kijker toe in het Nederlands spreekt maar met de geïnterviewde persoon Engels spreekt. Zoals bij de omschrijving reeds aangehaald, zit er een klein risico in de verwerking van aanverwante talen. Deze talen zullen sneller verward worden met elkaar, maar dit heeft weinig gevolgen voor de workflow.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
28
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
DIARI – 6: Taalsegmentatie ‘niet-Nederlands’: lange fragmenten, moedertaalsprekers DIARI – 7: Taalsegmentatie ‘niet-Nederlands’: alleenstaande zinnen, niet-moedertaalsprekers Omschrijving Taalsegmentatie ‘niet-Nederlands’ doelt op het onderscheiden van Nederlands en niet-Nederlands binnen de spraakfragmenten. Deze opdeling kan bijvoorbeeld nuttig zijn bij het bepalen van de programma’s en/of programmafragmenten waar nog een vertaalstap nodig is. Observatie & strategische keuzes Taalsegmentatie ‘niet-Nederlands’ omvat in principe meer algemeen ‘taalsegmentatie ‘niet-doeltaal’’, waarbij de doeltaal naast het Nederlands evengoed Frans of Engels kan zijn. In vergelijking met taalsegmentatie ‘vreemde talen’ volstaat nu een database van de doeltaal. Risicoscore bij lange stukken gesproken door moedertaalsprekers: 3 Inschatting experts & voornaamste risicobronnen Taalsegmentatie ‘niet-Nederlands’ is een stap eenvoudiger dan taalsegmentatie ‘vreemde talen’. Risicoscore bij korte stukken (mogelijk niet- moedertaalsprekers): 13 Inschatting experts & voornaamste risicobronnen Taalsegmentatie ‘niet-Nederlands’ is een stap eenvoudiger dan taalsegmentatie ‘vreemde talen’. DIARI – 8: Sprekersegmentatie ‘A vs. B’: afgelijnde fragmenten DIARI – 9: Sprekersegmentatie ‘A vs. B’: interactief gesprek met overlappende fragmenten Omschrijving Bij sprekersegmentatie ‘A vs. B’ wil men terugkomende sprekers herkennen en van elkaar onderscheiden ten behoeve van het inkleuren van de ondertitels. Risicoscore bij afgelijnde fragmenten: 3 Inschatting experts & voornaamste risicobronnen Het herkennen van terugkomende sprekers is zeker mogelijk, echter niet met absolute zekerheid, wel met een percentage als maat voor de gelijkenis tussen bv. de spreker in fragment y met de spreker van fragment x. Het is dus opnieuw zoeken naar een balans tussen het verkleinen van het aantal type-II fouten (dezelfde sprekers die toch onderscheiden worden) zonder het aantal type-I fouten te laten oplopen (sprekers die foutief als gelijk worden beschouwd). Als eenzelfde spreker in verschillende ruimtes spreekt, resulteren de verschillende opnamecondities in een moeilijkere detectie. In het algemeen kunnen we zeggen dat opnames die in ruimte en tijd verschillen moeilijker te matchen zijn dan opnames die na elkaar onder dezelfde condities opgenomen zijn. Risicoscore bij interactieve gespreken met overlappende fragmenten: 13 Inschatting experts & voornaamste risicobronnen In het geval van overlappende fragmenten (sprekers vallen elkaar in de rede, praten tegelijk) is het veel moeilijker om een automatisch onderscheid te maken tussen de sprekers. DIARI – 10: Sprekersegmentatie op naam: zonder stemprofiel, zonder context DIARI – 11: Sprekersegmentatie op naam: met stemprofiel en context Omschrijving Bij sprekersegmentatie op naam gaat men nog een stap verder in vergelijking met vorige technologische facetten. Naast het scheiden van de fragmenten per spreker, dienen ze ook nog automatisch gelabeld te worden met de naam van de spreker. Observatie & strategische keuzes In de ondertitelworkflow heeft sprekersegmentatie op naam weinig toegevoegde waarde. Dit technologisch facet mag dus ‘best effort’ worden uitgevoerd en kan handige metadata opleveren voor de productiemedewerker en archivaris. Gezien de benodigde effort om stemprofielen op te maken, dient dit enkel in overweging genomen te worden bij veel voorkomende sprekers (vb. nieuwslezers, quizpresentatoren, personages van langlopende series,…).
05/02/2013
IWT – Innovatief Aanbesteden - 2013
29
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore bij herkenning zonder stemprofiel en zonder context: 13 Inschatting experts & voornaamste risicobronnen Zonder stemprofiel is het quasi onmogelijk om fragmenten op naam te labellen. Een weinig waarschijnlijk alternatief bestaat erin een tekstuele interpretatie van de transcripties te maken om de naam op te pikken en te linken aan een bepaalde spreker. Risicoscore bij herkenning met gekende stemprofielen en met context: 3 Inschatting experts & voornaamste risicobronnen Indien men beschikt over een database met stemprofielen is het wel mogelijk om in een aantal archieffragmenten op zoek te gaan naar een geselecteerde spreker of, omgekeerd, op zoek te gaan naar de gekende sprekers in een bepaald fragment. Het aantal valse positieven die optreden is typisch afhankelijk van de gewenste mate van gelijkenis binnen de vergelijkingscriteria. Perfect werkt het dus niet. DIARI – 12: Betrouwbaarheid van segmentatie: afgelijnde fragmenten DIARI – 13: Betrouwbaarheid van segmentatie: korte, overlappende fragmenten Omschrijving Zoals bij alle automatische verwerkingsstappen moet bij segmentatie aangegeven worden in welke mate een geautomatiseerde actie correcte resultaten genereert. In dit geval moet men aangeven hoe betrouwbaar een geplaatste scheiding is naar zowel spraak vs. niet-spraak, taalsegmentatie en sprekersegmentatie. Observatie & strategische keuzes Het genereren van betrouwbaarheidsmaten gebeurt bij diarisation op basis van statistische methodes. Er is geen externe methode die een betrouwbaarheid kan aangeven. Bijgevolg is het genereren van een correcte betrouwbaarheidsmaat van een technologisch facet even moeilijk als het implementeren van het technologische facet zelf. Risicoscore bij afgelijnde fragmenten: 3 Risicoscore bij korte en overlappende fragmenten: 13 DIARI – 14: Adaptief lerend effect Omschrijving Het adaptief lerend effect bij diarisation omvat het offline aanvullen van de databases op basis van manueel gecorrigeerde fouten. Bij taalsegmentatie betekent dit het aanvullen van de taaldatabases als een taal niet of verkeerd gedetecteerd werd. Bij sprekersegmentatie gaat het over het aanleren of verbeteren van stemprofielen van sprekers Observatie & strategische keuzes Het corrigeren en het triggeren van het adaptief lerend effect wordt gedaan door medewerkers die niet op de hoogte zijn van de algoritmische werking van de automatische diarisation. Hiermee moet rekening gehouden worden tijdens het design van deze leerstap. Risicoscore: 3 Inschatting experts & voornaamste risicobronnen Er werd algemeen aangenomen dat het technologische risico van dit technologisch facet beperkt is. Er zit wel een risico vervat in het dagelijks gebruik van deze leerstap, met name door ondoordacht aanvullen van de databases en stemprofielen de kwaliteit van het systeem naar beneden halen.
5.1.5 α Bouwblok: Spraakherkenning (speech-to-text) Inputs Bij spraakherkenning zijn er twee belangrijke inputkanalen. Enerzijds zijn er de gesegmenteerde audiofragmenten afkomstig van de originele audio. Bij deze fragmenten is de taal en eventueel de spreker gekend. Anderzijds is er de hersproken audio (respeaking). In dit geval zal een gekende herspreker het originele materiaal bekijken, beluisteren en de spraak opnieuw inspreken. Het is belangrijk op te merken dat de herspreker zelden volledig hetzelfde zegt als de originele spreker. De herspreker zal bijvoorbeeld zinconstructies verkorten, synoniemen gebruiken en meer volzinnen gebruiken. De herspreker combineert dus al een deel van de volledige verwerkingsketen (reductie,
05/02/2013
IWT – Innovatief Aanbesteden - 2013
30
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
spreek- naar schrijftaalomzetting, punctuatie). Een speciaal geval van herspreken is het herspreken door een tolk. Hierbij wordt ook de vertaalstap door de herspreker uitgevoerd. Context is een andere belangrijke input bij spraakherkenning om een idee te hebben over het voorliggende stemprofiel. Dient men te werken met niet-persoonsgebonden stemprofielen (algemene categorieën: vrouw, man, kind, senior,…) of kan een persoonsgebonden stemprofiel (gekend acteur, herspreker,…) aangewend worden. Deze contextinformatie wordt verstrekt door de diarisation. Outputs De output van spraakherkenning is de getranscribeerde spraak. De kwaliteit van de transcripties is zeer verscheiden. Indien de spraakherkenning toegepast op onsamenhangende spreektaal wordt, zal er veel meer nabewerking nodig zijn. Echter, in sommige gevallen is de getranscribeerde spraak van een herspreker reeds van een voldoende kwaliteit om met minimale nabewerking als ondertitel gebruikt te worden. Technologische facetten S-2-T – 1: Sprekeronafhankelijke spraakherkenning Omschrijving Sprekeronafhankelijke spraakherkenning genereert transcripties op basis van een gemiddeld stemprofiel of op basis van een categorie-specifiek stemprofiel (vrouw, man, kind, senior,…) Observatie & strategische keuzes Bij spraakherkenning moet men rekening houden met de zeer verscheiden inputkwaliteit. We spreken hier niet alleen over de geluidskwaliteit, maar ook over het type spraak: bv. een geoefend spreker zoals een nieuwslezer vs. een geïnterviewde man in de straat, een voorbereide tekst of speech vs. een onvoorbereide conversatie. Spraakherkenning kan zowel live als offline gebeuren. Echter, hoe langer de beschikbare rekentijd, hoe beter de resultaten zijn. Risicoscore: 13 Inschatting experts & voornaamste risicobronnen De risicoscore bevat de assumptie dat het hier gaat om een documentaire die door een goede spreker in een professionele studio werd ingesproken. Sprekeronafhankelijke spraakherkenning genereert vandaag immers nog te veel fouten om als een efficiëntie verhogend hulpmiddel aan te wenden. Als we bijvoorbeeld kijken naar de transcripties die Google offline genereert bij YouTube video’s dan is de kwaliteit zelfs bij speeches van president Obama ondermaats. Uiteraard is de geluidskwaliteit, net zoals bij de diarisationfacetten, een zeer belangrijke bron van risico bij alle technologische facetten van spraakherkenning. Geluidskwaliteit omvat de kwaliteit van de bron (ervaren spreker, moedertaalspreker, gebruik van dialect,…) en de opnamekwaliteit (ruis, omgevingsgeluid, echo’s). Met kwaliteit bedoelen we hier opnieuw in welke mate het fragment geschikt is voor automatische verwerking. Zoals bij alle technologische facetten van spraakherkenning, zijn daarnaast ongekende woorden en neologismen een risico. Deze kunnen door offline training (adaptief lerend effect) wel aangevuld worden. S-2-T – 2: Spraakherkenning met gekend stemprofiel Omschrijving Bij spraakherkenning met gekend stemprofiel genereert men transcripties waarbij men de spraakherkenner zo instelt dat hij enkel gebruik maakt van het geselecteerde stemprofiel. Observatie & strategische keuzes Net zoals bij sprekerherkenning moet men bepalen van wie men een stemprofiel gaat maken. Dit zal meestal gebeuren voor frequente sprekers (nieuwslezers, acteurs van langlopende series,…). Het maken van een stemprofiel kan al op basis van een half uur offline training van de spraakherkenner.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
31
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore: 5 Inschatting experts & voornaamste risicobronnen Hoewel de haalbaarheid van spraakherkenning bij gekende stemprofielen een aantal grootteordes groter is dan de haalbaarheid van sprekeronafhankelijke spraakherkenning, is ook hier de implementatie verre van triviaal. Ook bij dit facet is er nog een groot verschil en dus risico qua spraakkwaliteit. Het zal bijvoorbeeld veel eenvoudiger zijn om spraakherkenning toe te passen op hersproken audio dan op de spraak van een acteur in een serie waarvan men het stemprofiel gekend. In goed geconditioneerde omstandigheden is het wel vrij goed haalbaar. Zo gaf Microsoft onlangs een demo waarbij de toespraak van een Engelstalige spreker eerst omgezet werd naar Engelstalige transcripties, daarna vertaald werd naar het Chinees en vervolgens in het Chinees werd uitgesproken. Bij het genereren van de transcripties was slechts 15% van de gedetecteerde woorden fout. Het ging hier wel over een getrainde stem en een voorbereide tekst. S-2-T – 3: Betrouwbaarheid van sprekeronafhankelijke spraakherkenning S-2-T – 4: Betrouwbaarheid van spraakherkenning met gekend stemprofiel Omschrijving Per woord(groep) bepaalt men hoe betrouwbaar de spraakherkenning is. Aan de hand van de betrouwbaarheid per woord(groep) kan men eventueel een globaal cijfer van het fragment genereren. Op basis van dit cijfer kunnen dan beslissingen over de workflow genomen worden. Er kan bijvoorbeeld beslist worden om de transcriptie niet te gebruiken omdat de correctie meer tijd zou vergen dan de manuele transcriptie van het originele fragment. Of men kan beslissen om de transcriptie direct te corrigeren alvorens de andere verwerkingsstappen aan te vatten. Observatie & strategische keuzes Het genereren van betrouwbaarheidsmaten gebeurt bij spraakherkenning op basis van statistische methodes. Er is geen externe methode die een betrouwbaarheid kan aangeven. Bijgevolg is het genereren van een correcte betrouwbaarheidsmaat van een technologisch facet even moeilijk als het implementeren van het technologische facet zelf. Risicoscore bij sprekeronafhankelijke spraakherkenning: 13 Risicoscore bij spraakherkenning met gekend stemprofiel: 5 S-2-T – 5: Adaptief lerend effect Omschrijving Het adaptief lerend bij spraakherkenning omvat twee aspecten. Enerzijds vult men offline de database aan met nieuwe woorden, zoals momenteel al gedaan wordt bij de VRT tijdens de uitzendingen van de Tour de France. De aangevulde woorden worden dan de volgende dag correct getranscribeerd. Anderzijds omvat het ook het aanleren en/of verbeteren van de stemprofielen. Observatie & strategische keuzes Het corrigeren en het triggeren van het adaptief lerend effect wordt gedaan door medewerkers die niet op de hoogte zijn van de interne algoritmische werking van de automatische spraakverwerking. Hiermee moet rekening gehouden worden tijdens het design van deze leerstap. Om de spraakherkenning te verbeteren is er nood aan correcte transcripties, terwijl correcte transcripties niet een harde vereiste is voor het genereren van ondertitels. Als de niet gecorrigeerde transcripties verder gebruikt worden in de semiautomatische workflow om ondertitels te genereren, zijn enkel de finale ondertitels ter beschikking om de spraakherkenning te verbeteren. Risicoscore: 13 Inschatting experts & voornaamste risicobronnen Op basis van de bovenstaande observaties, werd door de experts besloten dat dit adaptief lerend effect zeer moeilijk automatisch uit te voeren valt. Het toevoegen van woorden kan voorlopig enkel door manuele correctie van de transcripties. Bovendien dient de impact van het toevoegen van nieuwe woorden, transcripties aan de spraakherkenner goed bestudeerd te worden. De kwaliteit van de spraakherkenner mag er in geen geval op achteruitgaan.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
32
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
5.1.6 α Bouwblok: Punctuatie Inputs De punctuatiemodule neemt als input de transcripties van de spraakherkenning, zei het van verscheiden kwaliteit. Zo zal de transcriptie van hersproken audio een correctere structuur bevatten dan de transcriptie van een onvoorbereide conversatie. In deze transcripties moeten vervolgens leestekens geplaatst worden. De punctuatiemodule kan verbeterd worden m.b.v. segmentatie-informatie afkomstig van de diarisation en videoverwerking. Outputs De output van de punctuatiemodule bestaat uit tekstfragmenten (getranscribeerde spreektaal) waarin leestekens staan. In het beste geval gaat het hier al om betekenisvolle (half)zinnen. Technologische facetten PUNCT – 1: Plaatsen van eindleestekens in volzinnen PUNCT – 2: Plaatsen van eindleestekens in spreektaal Omschrijving Op basis van segmentatie-informatie die door diarisation en videoverwerking uit de originele audio werd gehaald, worden er eindleestekens (punten en vraagtekens) geplaatst in de doorlopende transcripties. Het is hierbij wel belangrijk dat de segmentatie-informatie ook informatie bevat over pauzes en eventueel intonatie. Er kan ook gebruik gemaakt worden van tekstanalyse om de meest logische plaats van punten en vraagtekens te lokaliseren. Risicoscore bij volzinnen: 5 Inschatting experts & voornaamste risicobronnen Wanneer de transcriptie gebaseerd is op spraak die bestond uit volzinnen dan bevat de audio duidelijkere pauzes en is de tekstuele structuur helderder. Het is dan ook haalbaar om eindleestekens te plaatsen, met een ingeschatte maximale performantie van ca. 65%. Er dient evenwel opgemerkt te worden dat het niet triviaal is. Zo werd er ooit een project opgezet om manueel een corpus van het gesproken Nederlands te maken. Hierbij transcribeerden een aantal personen manueel een volume Nederlandse taal. In de transcripties was er geen consistentie in het plaatsen van punten. Risicoscore bij spreektaal: 13 Inschatting experts & voornaamste risicobronnen Het toevoegen van punten en vraagtekens aan spreektaal is zeer moeilijk aangezien spreektaal zeer weinig structuur bevat. PUNCT – 3: Plaatsen van komma’s Omschrijving Op basis van informatie uit de diarisation en op basis van tekstanalyse plaatst men komma’s in de transcripties. Observatie & strategische keuzes Hoewel komma’s de structuur van een zin kunnen verhelderen en ze op bepaalde plaatsen zelfs verplicht zijn volgende de Nederlandse taalregels, is de plaatsing van komma’s toch minder duidelijk in vergelijking met de plaatsing van eindleestekens. Risicoscore bij volzinnen: 40 Inschatting experts & voornaamste risicobronnen Het is momenteel onmogelijk om op een automatische manier komma’s te plaatsen.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
33
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
PUNCT – 4: Betrouwbaarheid van plaatsen van eindleestekens in volzinnen PUNCT – 5: Betrouwbaarheid van plaatsen van eindleestekens in spreektaal Omschrijving Per geplaatst leesteken genereert men een betrouwbaarheidsmaat. Die maat drukt uit hoe zeker men is dat daar een leesteken thuishoort. Opnieuw kan men op basis van die afzonderlijke cijfers een globaal cijfer per fragment genereren. Dat cijfer kan dan bijvoorbeeld gebruikt worden om beslissingen over de workflow te nemen. Observatie & strategische keuzes Het genereren van betrouwbaarheidsmaten bij punctuatie gebeurt op basis van statistische methodes. Er is geen externe methode die een betrouwbaarheid kan aangeven. Bijgevolg is het genereren van een correcte betrouwbaarheidsmaat van een technologisch facet even moeilijk als het implementeren van het technologische facet zelf. Risicoscore bij volzinnen: 5 Risicoscore bij spreektaal: 13
5.1.7 α Bouwblok: Vertaling Inputs De input van de vertaalstap zijn tekstfragmenten in de brontaal. Deze tekstfragmenten zijn van verschillende oorsprong en bijgevolg van verschillende kwaliteit. Ten eerste zijn er de anderstalige scripts. De tekstfragmenten werden geëxtraheerd door de scriptinterpretatie en de taal werd herkend via de taalherkenning. Anderstalige scripts bevatten door de band genomen correcte zinnen. Ten tweede zijn er de transcripties van de originele of hersproken audio waarop reeds punctuatie werd toegepast. Afhankelijk van de bron van de spraakherkenning zal de kwaliteit van de transcripties verschillen van een onduidelijke woordenketting tot correcte zinnen. Ten derde is er ook de mogelijkheid om anderstalige ondertitels te vertalen. Hier mag men ervan uitgaan dat men correcte zinnen moet vertalen. Context kan als extra input dienen bij de vertaalstap. Het gaat hier bijvoorbeeld om domeinspecifieke vertaalregisters (bv. terminologie bij forensische programma) of programmaspecifieke vertaalregisters (bv. in ‘Band of Brothers’ staat het Engelse ‘lieutenant’ voor het Nederlandse ‘sergeant’). Outputs De output bestaat uit tekst in de doeltaal. In dit project worden Nederlands, Frans en Engels als doeltaal beschouwd. Technologische facetten VERTA – 1: Vertaling via n-grams met beschikbaar vertaalgeheugen Omschrijving Bij vertaling via n-grams gaat men woordgroep per woordgroep (n-gram) vertalen. De gekende vertalingen van woordgroepen zitten opgeslagen in een vertaalgeheugen. Een bekende implementatie van vertaling via n-grams is Google Translate. Naast het vertaalgeheugen maakt men ook gebruik van de domeinspecifieke of programmaspecifieke thesauri indien beschikbaar. Vertaling via n-grams is enkel een vertaalhulpmiddel en wordt niet gebruikt om volautomatische vertalingen te produceren. Observatie & strategische keuzes Om vertaling via n-grams toe te kunnen passen, moet men beschikken over een voldoende uitgebreid vertaalgeheugen.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
34
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore:
1
Inschatting experts & voornaamste risicobronnen Vertaling via n-grams is een beschikbare technologie. Het is, zoals reeds vermeld, belangrijk om een initieel vertaalgeheugen te hebben dat kan uitgebreid worden door het adaptief lerend effect. De kwaliteit van de te vertalen tekstfragmenten vormt wel een risico. Het is zeer moeilijk om vertaling toe te passen op tekstfragmenten die geen correcte zinnen bevatten. Als de te vertalen tekstfragmenten complexe structuren bevatten, creatief taalgebruik en uitdrukkingen, dan is het minder haalbaar om de vertaling automatisch te doen. Indien anderzijds de te vertalen tekstfragmenten goed geconditioneerd zijn kan het wel, zoals het Canadese METEO systeem aantoont. METEO is een systeem waarbij Canadese weerberichten automatisch vertaald worden in de taal van de andere Canadese provincies (Franse weerberichten naar het Engels en omgekeerd). Dit systeem was zeer succesvol doordat weerberichten korte standaardzinnen bevatten met zeer domeinspecifieke thesauri. VERTA – 2: Vertaling via ‘fuzzy matching’ met beschikbaar vertaalgeheugen Omschrijving Bij vertaling via ‘fuzzy matching’ gaat de vertaalmachine op zoek naar een ‘fuzzy match’ tussen de te vertalen zin en het vertaalgeheugen. Nadat de ‘fuzzy match’ gevonden is kunnen de verschillen door middel van woordvertaling of manuele input gecorrigeerd worden. De vertaalde zin wordt dan toegevoegd aan het vertaalgeheugen. Naast het vertaalgeheugen maakt men ook gebruik van de domeinspecifieke of programmaspecifieke thesauri indien beschikbaar. Observatie & strategische keuzes Om vertaling via ‘fuzzy matching’ toe te kunnen passen, moet men beschikken over een voldoende uitgebreid vertaalgeheugen. Risicoscore: 1 Inschatting experts & voornaamste risicobronnen Vertaling via ‘fuzzy matching’ is een beschikbare technologie. Er gelden dezelfde risico’s als bij vertaling via n-grams. Er moet enkel vermeld worden dat het beschikbaar vertaalgeheugen groter is dan dat bij n-grams aangezien de hoeveelheid zinnen groter is dan de hoeveelheid n-grams om dezelfde rijkheid van een taal te bestrijken. VERTA – 3: MT (machine translation) met basis corpora Omschrijving Bij MT (machine translation) gebruikt men zinsgebaseerde statistische matching om een volledig automatische vertaling uit te voeren. Op basis van uitgebreide tweetalige corpora vindt men de matches. Risicoscore: 40 Inschatting experts & voornaamste risicobronnen Indien men een volledig corpus van de bron- en doeltaal ter beschikking zou hebben, scoorde men het risico op 5. Dit corpus moet echter zo groot zijn dat het niet haalbaar is om dit op korte termijn te realiseren. VERTA – 4: Betrouwbaarheid vertaling Omschrijving Per vertaalde zin bepaalt men hoe betrouwbaar de vertaling is. Deze betrouwbaarheidsmaat geeft aan of de betekenis van de zin behouden werd. Observatie & strategische keuzes De twee eerste facetten, vertaling via n-grams of ‘fuzzy matching’, vergen sowieso manuele input waardoor het gebruik van betrouwbaarheidsmaten minder noodzakelijk is. Er bestaan verder experimentele systemen waarbij men betrouwbaarheidsmaten genereert van een vertaalde tekst. Zo is er de BLEU (Bilingual Evaluation Understudy) waarbij men de vertaalde zinnen gaat vergelijken met een set van goede vertalingen.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
35
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore: 20 Inschatting experts & voornaamste risicobronnen De bestaande (experimentele) technieken om de correctheid van een vertaling te beoordelen zijn ontoereikend i.v.m. een manuele controle. VERTA – 5: Adaptief lerend effect Omschrijving Het adaptief lerend effect bij vertaling omvat het technologische aspect van het terugvoeren van manueel gecorrigeerde vertaling naar de vertaalgeheugens zodat dezelfde zin volgende keer wel automatisch vertaald wordt. Observatie & strategische keuzes Het adaptief lerend effect kan eventueel per langlopende serie toegepast worden zodat men een programmaspecifiek thesaurus opbouwt (vb. ‘The Bold and the Beautiful’). Dit verhoogt de consistentie van de vertaling binnen alle afleveringen van de serie. Risicoscore: 3 Inschatting experts & voornaamste risicobronnen Het technologische aspect van dit adaptief lerend effect wordt reeds gebruikt en moet dus eenvoudig te implementeren zijn. Er moet wel nagedacht worden over hoe deze terugkoppeling intuïtief kan verlopen.
5.1.8 α Bouwblok: Spreek- naar schrijftaalomzetting Inputs De input van de spreek- naar schrijftaal omzettingsmodule bestaat uit gepunctueerde zinnen en zinsfragmenten in de doeltaal. Deze zinnen en zinsfragmenten kunnen van allerhande oorsprong zijn. Als de input van de volledige moduleketting bestond uit scripts of (anderstalige) ondertitels, kunnen we ervan uitgaan dat de omzetting niet meer nodig is. De omzettingsmodule zal vooral belangrijk zijn om ongestructureerde input (ie. spreektaal) uit de originele audio te verwerken. Deze zinsfragmenten kunnen mogelijk logisch en grammaticaal incorrect zijn. Outputs De omzettingsmodule zorgt ervoor dat de output bestaat uit gestructureerde betekenisvolle zinnen in de doeltaal. Technologische facetten SPR-2-SCHR – 1: Spreek- naar schrijftaalomzetting Omschrijving De spreek- naar schrijftaal omzettingsmodule verwerkt logisch en grammaticaal incorrecte zinnen en zinsfragmenten tot correcte zinnen. Observatie & strategische keuzes In de context van ondertitels is het concept ‘schrijftaal’ minder sterk bepaald dan bij formele brieven. In de context van ondertitels wil men enkel bereiken dat het geheel leesbaar is zonder dat men de essentie van de spraak verliest. Er is geen nood aan een registeromzetting. Hiermee wil men zeggen dat het dus niet nodig is om te gaan zoeken naar synoniemen of schrijftaalconstructies ter vervanging van de spreektaal. Risicoscore: 20 Inschatting experts & voornaamste risicobronnen Het implementeren van een automatisch verwerkingssysteem dat betekenisvolle zinnen genereert op basis van een ongestructureerde woordenvloed, is op dit moment niet aan de orde. Volgens de experts is hier momenteel zelfs weinig tot geen onderzoek over lopende. De grootste uitdaging zit in het feit dat deze omzetting enkel kan gebeuren op basis van de inhoud van de spreektaal. Er is dus inhoudsinterpretatie nodig. Bovendien is spreektaal zeer
05/02/2013
IWT – Innovatief Aanbesteden - 2013
36
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
situatieafhankelijk en bevat spreektaal ook non-verbale informatie (intonatie, pauzering,…) zodat de essentie snel verloren gaat als men de verwoording verandert.
5.1.9 α Bouwblok: Synchronisatie Inputs Bij synchronisatie worden tijdscodes gegenereerd door tekst en originele audio met elkaar te vergelijken. De input bestaat dus enerzijds uit tekst, hiermee bedoelen we scriptfragmenten en/of transcripties van de hersproken audio, en anderzijds uit de originele audio. Transcripties van originele audio worden niet als input in rekening genomen. Synchronisatie dient immers behouden te blijven na spraakherkenning op originele audio toe te passen. Outputs De door synchronisatie gegenereerde tijdscodes worden gebruikt om de ondertitels synchroon met de spraak te laten verschijnen. Technologische facetten SYNC – 1: Synchronisatie script Omschrijving Bij synchronisatie van een script gaat men de originele audio vergelijken met het aangeleverde script. Hierbij wordt aangenomen dat het script een bijna letterlijke transcriptie van de spraak is, of toch niet al teveel afwijkt. De gegenereerde tijdscodes worden gebruikt om de ondertitels te synchroniseren of om de originele tijdscodes uit het script te controleren. Observatie & strategische keuzes Synchronisatie van het script gebeurt via een vereenvoudigde vorm van spraakherkenning op de originele audio. Het is niet nodig om de originele spraak te transcriberen en dan een matching op woordniveau uit te voeren. Risicoscore: 3 Inschatting experts & voornaamste risicobronnen Als de scripts niet te veel afwijken van de spraak is deze component zeker te implementeren. Aan het aantal reeds beschikbare tools (NEON, Softel Swift Resync Tigo/Enterprise, Screen Wincaps Qu4ntum,..) kan afgeleid worden dat dit technologische facet al (gedeeltelijk) gecommercialiseerd is. SYNC – 2: Synchronisatie transcripties van hersproken audio Omschrijving Bij synchronisatie van de transcripties van hersproken audio gaat men tijdscodes genereren door deze transcripties te vergelijken met de originele audio. Op die manier kan men de ondertitels die vanuit de transcripties aangemaakt worden, synchroon met de originele audio laten verschijnen. Observatie & strategische keuzes Zoals bij de technologische facetten van spraakherkenning reeds aangehaald, kan de herspreker meerdere aspecten van de moduleketting op zich nemen. De herspreker zal bijvoorbeeld bijna altijd al een bepaalde mate van reductie en spreek- naar schrijftaalomzetting uitvoeren. Dit heeft implicaties op de gelijkenis tussen de transcripties en de originele spraak. In het uiterste geval wordt de respeaking uitgevoerd door een tolk zodat de transcripties zelfs niet meer in dezelfde taal staan als de originele spraak. Automatische synchronisatie houdt dan in dat de transcripties opnieuw vertaald dienen te worden naar de brontaal en die vertaling dan te matchen met de originele spraak. Risicoscore: 8 Inschatting experts & voornaamste risicobronnen Omwille van de inhoudelijke afwijking tussen transcripties van respeaking en de originele spraak, is de synchronisatie hier een aantal grootteordes moeilijker dan de synchronisatie van een script.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
37
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Bovendien is er meestal een reden waarom respeaking wordt toegepast, zoals bv. de beperkte kwaliteit van de originele audio. De beperkte kwaliteit van de originele audio maakt de vergelijking met de mogelijke afwijkende transcripties nog moeilijker.
5.1.10 α Bouwblok: Ondertitelgeneratie en –reductie Inputs De ondertitelgeneratie en –reductiemodule heeft als doel om schermklare ondertitels beschikken. De belangrijkste input is uiteraard de tekst zelf, meer bepaald in het ideale geval grammaticaal correcte zinnen in de doeltaal. Vervolgens worden segmentatie-informatie van de audio- en videoverwerkingsmodule en tijdscodes (vanuit script, anderstalige ondertitels of synchronisatiemodule) gecombineerd om te bepalen wanneer en hoelang een ondertitel in beeld mag verschijnen. Op basis van deze informatie moet de tekst nog gereduceerd worden. Verder kan deze module ook beeldinformatie gebruiken om de plaatsing van de ondertitel te bepalen. Zo mag deze niet over bestaande captions of ondertitels verschijnen (al is dit in sommige gevallen juist wel nodig) en moet de kleur aangepast zijn aan de achtergrond. Outputs De output van de ondertitelgeneratie en –reductiemodule bestaat uit schermklare ondertitels. Dit betekent gesynchroniseerde tekst die vrij synchroon loopt met de spraak en verschijnt volgens de geldende grammaticale en beeldtechnische stelregels. Technologische facetten GEN&RED – 1: Bepaling reductiemaat Omschrijving Het bepalen van de reductiemaat omvat het combineren van tijdsinformatie, afkomstig uit segmentatie-informatie en tijdscodes, en stelregels tot de toegelaten tekstlengte en splitsingsmogelijkheid per tekstfragment. De toegelaten tekstlengte impliceert meteen de reductiemaat. In een interactieve conversatie waarin snel gesproken wordt, zal dit proces detecteren dat er relatief veel reductie nodig is op de zinnen uit het aangeleverde script. Als het echter over een rustige voiceover gaat, mag de spraak mogelijk over verschillende ondertitels gesplitst worden. Risicoscore: 2 Inschatting experts & voornaamste risicobronnen Volgens de experts is het vrij eenvoudig om dit facet te implementeren, dit wordt vandaag al aangetoond. GEN&RED – 2: Graduele reductie Omschrijving Bij graduele reductie wordt het aantal karakters van de oorspronkelijke zin teruggebracht tot de gewenste waarde zonder de essentie van de zin en zonder de relatie van de zin met de context te verliezen. Deze reductie kan bijvoorbeeld gebeuren door het gebruik van synoniemen, van een aantal stelregels (bv. adjectieven weglaten), of ook van parellelle corpora om van een bepaalde woordgroep of uitdrukking de gereduceerde versie te vinden. Observatie & strategische keuzes Reductie kan reeds vervat zitten in een aantal modules voorafgaand aan de effectieve ondertitelgeneratie –en reductiemodule. Zo kan bij vertaling al een gedeeltelijke reductie toegepast worden, des te meer in het geval van manuele interventies zoals een herpreker of een manuele vertaler.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
38
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore: 5 Inschatting experts & voornaamste risicobronnen Het implementeren van een module die zinnen reduceert op basis van synoniemen, stelregels en parallelle corpora is geen onoverkomelijk probleem. In het onderzoeksproject NEON werden behoorlijke resultaten gehaald bij normale spreeksnelheid. Het risico bestaat wel dat de algoritmische aanpak van de reductie bij bepaalde zinnen essentiële informatie dreigt te verwijderen uit de ondertitel. Zo zal men het woord ‘koele’ in de woordgroep ‘koele kamer’ waarschijnlijk wel mogen verwijderen, maar men mag dit niet doen in de woordgroep ‘koele kikker’. Bovenstaand probleem kan men mitigeren door gebruik te maken van ‘mutual expectation’ regels. Zo zal het adjectief ‘koel’ veel waarschijnlijker zijn bij het woord ‘kikker’ en dus waarschijnlijk betekenisvol zijn. Echt moeilijk wordt het als ook rekening moet gehouden worden met de context. Zo zal men in een kinderverhaal over gekleurde kikkers de woordgroep ‘groene kikker’ niet mogen verkorten tot ‘kikker’. Het is duidelijk dat het risico op fouten stijgt als de gewenste reductiemaat stijgt. GEN&RED – 3: Reductie naar eenvoudige zinnen Omschrijving Reductie naar eenvoudige zinnen gaat verder dan de graduele reductie. Het is hier de bedoeling om een registeromzetting uit te voeren naar een register bestaande uit eenvoudige woorden en constructies, zonder daarbij de essentie van de tekst te verliezen. Observatie & strategische keuzes Omtrent omzetting naar eenvoudige zinnen of kernwoorden zijn er reeds projecten opgezet. Zo bestaat er het Scandinavische project “Klare Taal”. Dit duidt aan dat het zeker mogelijk is om dit facet te implementeren. Risicoscore: 5 Inschatting experts & voornaamste risicobronnen Ondanks het feit dat de registeromzetting een bepaalde mate van inhoudsinformatie vereist, schatten de experts mits de nodige effort en de bestaande initiatieven in het achterhoofd houdende de haalbaarheid van dit facet in op 5.
5.1.11 α Bouwblok: Topicdetectie Inputs Topicdetectie neemt als input alle tekstuele informatie in de doeltaal. De structuur en correctheid van deze tekst is van ondergeschikt belang. Daarnaast kan topicdetectie contextinformatie gebruiken om een aantal selectiecriteria toe te voegen of weg te laten. Zo kan het bijvoorbeeld interessant zijn om tijdens politieke programma’s te zoeken naar ministernamen. Outputs De output van de topicdetectie is verrijkte metadata van het voorliggende fragment met bv. keywords, vermelde namen, vermelde plaatsen,… Technologische facetten TOPIC – 1: Topicdetectie Omschrijving Op basis van tekstuele input selecteert men kernbegrippen uit een tekst. Risicoscore: 3 Inschatting experts & voornaamste risicobronnen Het is zeker mogelijk om iets te realiseren dat aan de vereisten van dit facet voldoet. De moeilijkheid zit hem in het bepalen wat belangrijk is bij een bepaalde uitzending en wat niet. Zo is een terloops vermeld jaartal in de nieuwsuitzending onbelangrijk, maar kan datzelfde jaartal in een documentaire wel veel waarde hebben. Aan de hand van de context kan men een aantal selectiecriteria toevoegen.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
39
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Het achterhalen van de echte boodschap en korte inhoud van een programma is echter nog niet hetzelfde als het extraheren van de frequentst uitgesproken woorden.
5.1.12 α Bouwblok: User Interface “cockpit” Inputs De UI geeft aan de gebruiker de mogelijkheid om van elke module de resultaten te bekijken met ook de betrouwbaarheidsmaten van de automatische verwerking indien beschikbaar. Outputs De UI bundelt de configuratie van elke module en levert intuïtieve manuele controle- en bijstuurmogelijkheden op elke module aan. De UI laat ook toe om de volledige moduleketting flexibel aan te passen qua configuratie. Technologische facetten UI – 1: Aanpassen moduleketting Omschrijving Met het aanpassen van de moduleketting bedoelt men het in- en uitschakelen van bepaalde modules naargelang het type input. Observatie & strategische keuzes Het is vanuit een gebruikersstandpunt logischer om vanuit een use-case standpunt te werken. Op basis van het antwoord op de vraag “ik wil α gebruiken om… zodat…”, wordt de juiste workflow geconfigureerd hetgeen impliceert dat bepaalde modules in- en uitgeschakeld dienen te worden. De interfaces van de verschillende modules dienen hierop afgestemd te worden. Risicoscore: 3 Inschatting experts & voornaamste risicobronnen Volgens de experts is het niet moeilijk om op basis van het gebruikersstandpunt de juiste modules in te schakelen. Er moet uiteraard rekening gehouden worden met componentintegratie. Dit wordt in een volgende sectie besproken bij de algemene technologische facetten. UI – 2: Intuïtieve infoaanlevering (UI gedeelte) Omschrijving Eén van de taken die de UI moet verwezenlijken is op een intuïtieve manier aanleveren van informatie aan de gebruiker. Tijdens de sessies werd dit opgesplitst in ‘UI gedeelte’ en ‘interactie met backend’. ‘UI gedeelte’ focust louter op het realiseren van een UI frontend die eenvoudig te gebruiken is en perfect aansluit bij de noden van de gebruikers. Observatie & strategische keuzes Omdat de UI net het stuk is waar de gebruikers het meest mee in contact zullen komen, is het zeer belangrijk deze perfect af te stemmen met hun noden. Tijdens het realiseren van dit facet is de dialoog met de gebruikers bijgevolg zeer belangrijk. Risicoscore: 2 Inschatting experts & voornaamste risicobronnen Mits voldoende gebruikersinteractie is het realiseren van een goede UI een standaard oplosbaar probleem. UI – 3: Intuïtieve infoaanlevering (interactie met backend) Omschrijving Naast het realiseren van een bruikbare UI frontend is het ook nodig om de interactie met de backend op die manier te realiseren dat de gebruiker enkel die info ziet die hij op dat moment nodig heeft en enkel parameters bijstelt die op dat moment invloed hebben. Observatie & strategische keuzes Het is belangrijk rekening te houden met het type gebruikers. Zo is een ondertitelaar geen spraakherkenningsspecialist en genereert het bijgevolg weinig toegevoegde waarde om de parameters van de spraakherkenning instelbaar te maken voor de ondertitelaar.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
40
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Er kan geopteerd worden voor een niveausysteem waarbij een expertgebruiker meer info en mogelijkheden krijgt. Risicoscore: 8 Inschatting experts & voornaamste risicobronnen Het is verre van triviaal om de interactie met de backend te realiseren. Er is de afweging tussen het verzwaren van de UI en de efficiëntie van de modules. Zo zal een UI met veel functies bij een expertgebruiker er voor zorgen dat hij de modules zo efficiënt mogelijk kan instellen. Voor een beginnende gebruiker zal dit echter verwarrend zijn en mogelijk tot een verminderde efficiëntie leiden door verkeerde instellingen. UI – 4: Intuïtieve bijstuurmogelijkheden Omschrijving De UI moet toelaten om manueel in te grijpen wanneer de automatische verwerking niet goed werkt. De gebruiker moet zowel kunnen controleren, corrigeren en volledige ondertitels overnemen. Op basis van betrouwbaarheidsmaten moet de gebruiker zo gestuurd worden zodat hij enkel focust op de onbetrouwbare stukken. Wanneer de gebruiker ingrijpt, is het de bedoeling dat hij snel kan werken. Hiervoor moeten een aantal tools ter beschikking staan zoals autocompletion, shortcuts, thesauri, spellingscontrole, grammaticacontrole,… Observatie & strategische keuzes Zoals bij vele facetten in de STON context, moet het niveau van betrouwbaarheid waarbij louter gecontroleerd, gecorrigeerd, of overgenomen wordt zorgvuldig ingesteld worden. Aangezien het voor de zenders onaanvaardbaar is om foute ondertitels uit te zenden zal men waarschijnlijk op het einde van de automatische verwerking een volledige manuele controle doen (eindredactie). Tussenliggende controles en correcties kunnen per gebruiker ingesteld worden. In algemene consensus kan gesteld worden dat fouten in tussentijdse verwerkingsstappen niet zo heel erg zijn, zolang de ondertitels op het einde van het proces juist zijn en geen type-I of -II fouten bevatten. Daarom lijkt een volautomatisch verwerkingspad uit den boze. De referentieoplossing α dient bijgevolg niet de ondertitelaar te vervangen door een automatisch proces, maar eerder te ondersteunen in het verwerkingsproces. Risicoscore: 13 Inschatting experts & voornaamste risicobronnen Volgens de experts is het zeer moeilijk om dit facet te implementeren zodat het een meerwaarde betekent voor de gebruikers. Er zit voorlopig nog te veel risico op het bepalen van de betrouwbaarheidsmaten. Er zouden veel te veel type-I/II fouten plaatsvinden als men nu op deze betrouwbaarheidsmaten zou afgaan.
5.1.13 Algemene technologische facetten ALG – 1: Componentintegratie Omschrijving Componentintegratie omvat in deze context het zo goed mogelijk laten samenwerken van de verschillende modules zonder daarbij in te boeten op de flexibiliteit van de koppeling. Concreet omvat het een goede implementatie van de API van de modules en de ‘glue logic’ indien men derde-partijmodules wil toevoegen. Observatie & strategische keuzes Aangezien de API van derde-partijmodules vast ligt vandaag, zal het vervangen van een module geen sinecure zijn. Men moet ook nagaan of het mogelijk is om een vaste, open API te specificeren voor bepaalde componenten. Dit technologische facet hangt ook samen met facet UI – 1 (aanpassen van moduleketting). Bij het opmaken van de API tussen de componenten moet men immers rekening houden met de verschillende mogelijke workflows.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
41
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Risicoscore: 5 Inschatting experts & voornaamste risicobronnen Het integreren van componenten en het modulair maken van de componenten is op zich een vraagstuk dat reeds opgelost is in andere contexten. Het risico zit vervat in het creëren van een echt generiek framework waarbinnen aanbieders hun module kunnen ophangen en waar gebruikers de gewenste workflows kunnen selecteren. ALG – 2: Beheren van IPR Omschrijving In vele modules wordt gebruik gemaakt van een offline lerend effect doordat databases worden aangevuld met manueel vertaald werk, originele ondertitels, bestaande corpora,… Aangezien al deze input het resultaat is van manueel werk, kan het zijn dat de eigenaars een vergoeding eisen wanneer hun werk gebruikt wordt door andere partijen (bv. ondertitelbedrijven die werken in onderaanneming). Risicoscore: 2 Inschatting experts & voornaamste risicobronnen Mits het maken van een aantal pragmatische afspraken tussen de verschillende betrokkenen is het beheer van IPR best doenbaar. Een complex business model opzetten waarbij nauwkeurig bijgehouden wordt wie welke rechten heeft op een bepaald (deel-)fragment is echter verre van triviaal, maar hier niet echt aan de orde.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
42
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
6 Synthese: uitwerken Aanbesteden
van
een
prototype
voor
Innovatief
De scope van het project “Spraak- en taaltechnologisch ondertitelen in het Nederlands” zit inherent vervat in de lijst van use-cases (zie hoofdstuk 4) en de technologische facetten (zie hoofdstuk 5). Het project geeft blijk van ambitieuze use-cases, zeer vele facetten en bijgevolg heel wat uitdagingen. Om de vooropgestelde ambities van dit project uit te bouwen zal het nodige budget beschikbaar gesteld moeten worden en zullen er heel wat inspanningen geleverd moeten worden. Maar vooraleer een volledig geïntegreerde oplossing te gaan ontwikkelen waaraan tal van risico’s gebonden zijn, wordt de initiële focus best gelegd op een precommercieel voortraject. Tijdens dit voortraject wordt met beperkte middelen een relevant prototype opgebouwd om de grootste risicobronnen te reduceren of zelfs volledig weg te werken. Zelfs na een succesvol voortraject is het aan te raden om een geïntegreerde oplossing op te bouwen aan de hand van een iteratieve aanpak. Steeds opnieuw dienen incrementele, haalbare stappen gezet te worden naar het einddoel.
6.1 Doelstelling van een prototype Het prototype heeft als doel om tijdens een precommercieel traject de belangrijkste risico’s weg te werken en zoveel mogelijk obstakels uit de weg te ruimen voor een klassieke aanbesteding. Een relevant prototype is een prototype dat erin slaagt om de facetten met groot innovatiepotentieel op een slimme en kosteneffectieve wijze op te lossen. Het maximale innovatiepotentieel wordt bereikt door de combinatie van een hoge toegevoegde waarde voor de eindgebruiker en een niet al te hoog risico. Facetten met een te hoog risico worden niet mee in beschouwing genomen, daar het zeer onwaarschijnlijk is om deze risico’s op korte termijn voldoende te reduceren. Dat is de essentie van het prototype. Al het klassieke, dure en tijdrovende werk wordt daarnaast doorverwezen naar het ontwikkelproces van het eindproduct.
6.2 Prioriteiten van het prototype De uitdagingen voor het prototype worden bepaald door het innovatiepotentieel in te schatten in twee dimensies: toegevoegde waarde voor de eindgebruiker versus risico op vlak van technologie, implementatie, of gebruikersaanvaarding. Om de vereisten en de prioriteiten van het prototype duidelijk te maken, werden de use-cases gescoord naar toegevoegde waarde voor de eindgebruiker om zo het innovatiepotentieel vanuit gebruikersstandpunt te bepalen (zie hoofdstuk 4). Daarnaast werd het risico van elk facet geschat om zo het innovatiepotentieel op vlak van technologie, wetgeving of omkadering te bepalen (zie hoofdstuk 5). Wegens het inherente verband tussen de use-cases en de facetten, kan ten slotte voor elk facet de toegevoegde waarde bepaald worden.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
43
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Figuur 2: Roadmap: prioritaire uitdagingen van het prototype
Figuur 2 weerspiegelt de prioritaire uitdagingen voor het prototype in een zgn. prioriteringsgrid van waarde vs. risico. Binnen deze matrix worden typisch een viertal zones onderscheiden. Linksboven liggen de kritische functionaliteiten van het eindproduct die een hoge toegevoegde waarde hebben voor de eindgebruiker maar waarvan het risico eerder beperkt is. Rechtsboven situeren zich de elementen met een hoge toegevoegde waarde voor de eindgebruiker en met bovendien een aanzienlijk risico. Linksonder liggen de details van het eindproduct waarvan de toegevoegde waarde eerder beperkt is en die daarenboven geen hoog risico met zich meedragen. Het laatste kwadrant bevat de zaken die weinig toegevoegde waarde leveren en toch een hoog risico inhouden. Deze zijn voor het eindproduct op dit moment helemaal niet belangrijk. De hoogste prioriteiten op de roadmap van een prototype worden typisch gevormd door de elementen met hoge toegevoegde waarde voor de eindgebruiker, en met op relatief korte termijn goed te reduceren risico. Hoe hoger het risico van een facet, hoe moeilijker om dit risico op korte termijn afdoende te reduceren. Afhankelijk van de beschikbare middelen en de spreiding van de elementen op de grid kan een afbakening gemaakt worden van de minimale scope van het prototype.
6.2.1 Conclusies van deze prioritering Op basis van de prioritering van uitdagingen voor het prototype beschreven in de voorgaande sectie, worden volgende overkoepelende observaties gemaakt:
Op een aantal meer specifieke bouwblokken en facetten na, leveren quasi alle facetten een significante toegevoegde waarde voor de gebruiker. Heel wat facetten met hoge toegevoegde waarde voor de eindgebruiker houden daarenboven een relatief beperkt risico in en komen zo in aanmerking voor een klassieke aanbesteding.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
44
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Daarnaast zijn er aanzienlijk wat facetten met hoge toegevoegde waarde waarvoor een risico reductie noodzakelijk is. Deze facetten, bovendien verspreid over de verschillende bouwblokken van de referentiearchitectuur komen in aanmerking voor een pre-commerciële aanbesteding.
Deze facetten met hoogste innovatiepotentieel zijn: Bouwblok User Interface “cockpit”
Facet UI–3: Intuitieve info aanlevering (interactie met backend) UI–4: Intuïtieve bijstuurmogelijkheden
Speech-totext
S-2-T-1: Sprekeronafhankelijke spraakherkenning S-2-T-3: Betrouwbaarheid van sprekeronafhankelijke spraakherkenning S-2-T-5: Adaptief lerend effect DIARI-2: Segmentatie spraak vs. niet-spraak: korte stukken DIARI-3: Segmentatie spraak vs. niet-spraak: overlappende stukken DIARI-13: Betrouwbaarheidsindicatie van segmentatie: korte, overlappende stukken
Diarisation
Korte toelichting Een goede UI bouwen die louter info aanlevert vormt geen technologisch probleem. Deze UI op een intuïtieve manier laten interageren met de onderliggende bouwblokken en de gebruiker toelaten om intuïtief bij te sturen is heel wat moeilijker. Automatische spraakherkenning (speech-to-text) levert vandaag enkel kwaliteitsvolle resultaten indien gewerkt wordt met voor de herkenner gekende stemprofielen.
Diarisation levert vandaag enkel kwaliteitsvolle resultaten in het geval van mooi afgelijnde lange stukken tekst zonder interactieve passages met overlap, uitgesproken door moedertaalsprekers
Andere facetten met aanzienlijk innovatiepotentieel zijn: Bouwblok Diarisation
Scriptinterpretatie Punctuatie Vertaling
Facet DIARI-5: Taalsegmentatie ‘vreemde talen’: enkel zinnen, niet-moedertaalsprekers DIARI-7: Taalsegmentatie ‘niet-Nederlands’: enkel zinnen, niet-moedertaalsprekers DIARI-9: Sprekersegmentatie A vs. B: interactief gesprek met overlap DIARI-10: Sprekersegmentatie op naam: zonder stemprofiel, zonder context SCRPT-1: Scriptinformatie-extractie PUNCT-2: Plaatsen van eindleestekens in spreektaal PUNCT-5: Betrouwbaarheid van het plaatsen van eindleestekens in spreektaal VERTA-4: Betrouwbaarheid van de vertaling
6.3 Het prototype: plan van aanpak Voorgaande prioriteringoefening laat toe de basisscope voor een precommercieel aanbestedingstraject in grote lijnen te bepalen. Tijdens het precommerciële ontwikkelingstraject dient deze scope scherp gesteld te worden op maat van de gebruikersgroep om de hoge toegevoegde waarde effectief te realiseren en tegelijkertijd dienen de technologische, implementatietechnische risico’s gereduceerd te worden. In consensus met de andere zenders wordt geopteerd om een gefaseerde aanpak te hanteren, hieronder schematisch weergegeven in Figuur 3. Voor een meer gedetailleerde beschrijving van deze aanpak wordt doorverwezen naar de tweede deliverable van dit project, de project fact sheet, die de basis vormt voor een precommerciële aanbesteding. In een eerste fase/perceel wordt een precommerciële aanbesteding gelanceerd die de focus legt op het realiseren van de centrale bouwblok UI ‘cockpit’ gekoppeld aan een integratietraject van de onderliggende modules. In essentie is de scope van dit perceel het realiseren van volgende use-case,
05/02/2013
IWT – Innovatief Aanbesteden - 2013
45
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
waarbij ‘betrouwbaarheidsmaten’ betrouwbaarheidsmaten’. UC 26 Als een ondertitelaar
iets
moet
ingeperkt
kan ik beschikken over een automatisch aangegeven niveau van betrouwbaarheid van alle automatisch modules
worden
tot
‘vandaag
zodat ik sneller kan werken en enkel kan focussen op de niet betrouwbare stukken
beschikbare
waarde 20
De UI ‘cockpit’ omvat facetten die vandaag goed realiseerbaar zijn, alsook facetten waarvoor risicoreductie nodig is. Belangrijk is dat deze ‘cockpit’ een zeer uitgekiende architectuur heeft met goed gescheiden functionele lagen. Typisch kan een drieledige gelaagdheid volstaan, met name: de grafische UI bovenaan waarmee de gebruiker rechtstreeks kan interageren; onderaan de interfaces met de onderliggende bouwblokken, en ertussenin de business logica. Componentintegratie doelt op het kunnen inkoppelen van reeds bestaande en gebruikte functionele bouwblokken. De interfaces met de onderliggende bouwblokken dienen daarom open te zijn. Op termijn moet het mogelijk zijn bepaalde bouwblokken te vervangen door een nieuwe versie van dezelfde leverancier of door een andere leverancier. Initieel zullen niet zomaar alle bouwblokken gekoppeld worden aan de ‘cockpit’, ook hier zal goed afgewogen worden welke bouwblokken prioritair zijn. Prioritair betekent in deze context dat een bouwblok op basis van de vandaag behaalde performantie en kwaliteit van resultaten een significante toegevoegde waarde genereert voor de eindgebruiker (lees: tijdswinst door de technologische ondersteuning zonder daarbij in te boeten aan kwaliteit).
Figuur 3: Plan van aanpak voor de realisatie van het prototype
In een tweede fase zullen dan een aantal kleinere precommerciële aanbestedingen gelanceerd worden met als doel de huidige performantie en kwaliteit van bestaande bouwblokken die inkoppelen op de UI ‘cockpit’ significant te verbeteren. In de eerste plaats gaat het hier over de bouwblokken diarisation, spraakherkenning (speech-to-text) en scriptinterpretatie. Naast de algoritmische verbetering van de bouwblok dient de scope van deze trajecten ook de inkoppeling op de UI ‘cockpit’ uit het eerste fase mee in beschouwing te nemen, met name een hierop afgestemde API. Finale doelstelling van een dergelijk traject is dat binnen afzienbare tijd door de leverancier vooropgestelde KPI’s aangetoond kunnen worden die een substantiële toegevoegde waarde inhouden voor de eindgebruiker. Het ligt immers voor de hand dat de complexe materie rond bv. diarisation en
05/02/2013
IWT – Innovatief Aanbesteden - 2013
46
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
spraakherkenning niet binnen 24 maanden helemaal opgelost zal zijn. De vooropstelling van KPI’s vormen zo een tussentijds assessment. De vooropgestelde timing ambieert om ten laatste Q3 2013 te kunnen aanvangen met de eerste fase: de ontwikkeling van de UI ‘cockpit’. De duur van deze eerste fase wordt ingeschat op ca. 15 maanden. In parallel met de eerste fase en afhankelijk van de beschikbare middelen kunnen de verbeteringstrajecten van de respectievelijke bouwblokken opgestart worden. Idealiter starten deze gelijk met het eerste perceel. Typisch hebben deze een doorlooptijd van 12 tot 18 maanden vooraleer een significante verbetering qua performantie en kwaliteit kan aangetoond worden. Kortom, een eerste finaal prototype wordt geambieerd tegen eind 2014.
6.3.1 Randvoorwaarden Tijdens de eerste precommerciële ontwikkelingsfase ligt de nadruk uiteraard op het reduceren van het risico van de hierboven en het genereren van de hoge toegevoegde waarde binnen de ondertiteling workflow. Belangrijk om aan te halen in dit kader is het feit dat de ondertiteling slechts een onderdeel vormt van de volledige digitale media workflow. Bijgevolg zal de UI ‘cockpit’ ook opereren binnen een overkoepelende technologische omgeving bestaande uit onder meer:
Het media management systeem als centrale punt in de gehele digitale media workflow: van data intake over transcoding, media management, verkennen en bewerken tot annotatie door grote groepen gebruikers simultaan. Het nieuwskamer beheersysteem om bestaande nieuwsbronnen te afficheren, nieuwe content aan te maken en te distribueren, doorheen de verschillende nieuwsdistributiekanalen TV, radio, web, mobile, enz. Planning tools aangaande distributie van media: wat wordt wanneer uitgezonden? Andere tools gericht op het bewerken van digitale media content.
Er wordt dus gewerkt met verschillende leveranciers, die allemaal tot op zekere hoogte geïntegreerd zijn in één centrale architectuur. Idealiter vormt cockpit een plug-in of add-on op de vandaag gebruikte technologie. De verwevenheid van de cockpit met deze architectuur en zijn componenten mag ook niet te groot zijn, gezien de eerder beperkte levensduur van de aangewende technologie. Deze randvoorwaarden vormen niet de prioriteit binnen het precommerciële traject, maar dienen wel in het achterhoofd gehouden te worden.
7 Governance Om de business case van een technologisch ondersteunde oplossing voor spraak- en taaltechnologisch ondertitelen mee te dragen zal de VRT overgaan tot een investering van XXk€. De andere Vlaamse zenders zijn echter ook gebaat bij een dergelijk scenario. Daarom dient nagegaan te worden of de zenders samen hun schouders onder het project wensen te zetten.
8 Voorwaarden tot succes Vandaag slaagt de VRT en zijn ondertitelingteam erin om van het totale volume aan programmatuur 92% te ondertitelen, dit met een beperkt budget komende van de VRT zelf en de productiehuizen. Het ondertitelteam bestaat uit een 25-tal voltijds equivalenten en genereert per jaar een 200k€ aan kosten. Dit alles om steeds opnieuw ondertiteling met hoge kwaliteit af te leveren. Binnen 3 jaar ambieert de VRT om 95% te ondertitelen van het dan geldende volume aan programmatuur. Wetende dat het totale volume aan programmatuur de komende 3 jaar met 50% zal toenemen is dit een ambitieuze uitdaging. Deze stijging is in belangrijke mate te wijten aan het derde net (mogelijk maar deels geladen), een meer toegankelijke website, en andere platformen. Het doel is
05/02/2013
IWT – Innovatief Aanbesteden - 2013
47
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
om dit te realiseren zonder extra kosten (200k€) en met het zelfde personeelsbestand van 25 voltijds equivalenten. Vanzelfsprekend dient de hoge kwaliteit van ondertiteling aangehouden te worden. De centrale vraag die aan leveranciers gesteld dient te worden in het kader van het innovatieplatform “Spraak- en taaltechnologisch ondertitelen in het Nederlands” wordt bijgevolg: toon aan dat een efficiëntiestijging van +50% meetbaar en realiseerbaar is, zonder in te boeten aan kwaliteit.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
48
Spraak- en Taaltechnologisch Ondertitelen in het Nederlands (STON)
Bijlage A: Ondertitelproces binnen VRT voor voorbereidbare programma’s
Opvragen van mediabestand(en) en scripts bij de programmamaker. Inladen van de mediabestanden via encoders. Controle van de mediabestanden op de volgende punten: o Beschikbare audiosporen, o Talen die aan bod komen (belangrijk voor de toewijzing aan de vertaler), o Visuele informatie in beeld (pancartes, grafiek, naam van spreker, plaatsnamen, enz.) Toewijzing van de opdracht aan vertaler/ondertitelaar. Maken van ondertitels in gespecialiseerde software: dit is een mengeling van technische aspecten en schrijfprocessen: o Technische handelingen: Vastleggen in- en uitpunt per ondertitel bij begin en einde van gesproken taal of op basis van scène-wissels, Stijlbepaling per titel: kleur, cursief, boxing, plaatsing, enz. o Schrijfproces: Tekst intikken in een ondertitel of kopiëren van tekstblok uit het script in de ondertitel. Tekst bewerken op basis van stijlrichtlijnen (leessnelheid, woordgroepen, lexicon, grammatica, taalregister, . . . ). o Beide processen verlopen continu door elkaar. Aanpassingen van de ondertitels op basis van informatie die later opduikt: o Herkleuren van scènes door conflicten met personages o Inhoudelijke aanpassing van tekst (bijvoorbeeld: een begrip dat niet werd meegegeven wegens plaatsgebrek blijkt cruciaal te zijn) Deze processen gebeuren zowel voor intra- als voor interlinguale ondertiteling. Op verschillende momenten in het ondertitelproces worden beide ondertitelbestanden samengevoegd om overlappingen te vermijden. Controle door eindredactie: inhoudelijke en technische controle van de ondertitels op lapsussen, tikfouten, inhoudelijke of lexicale fouten.
05/02/2013
IWT – Innovatief Aanbesteden - 2013
49