Innovatieplatform STON Spraak- en Taaltechnologisch Ondertitelen in het Nederlands
1
Overzicht • Output sprint 2: Use cases • Output sprint 3: De referentieoplossing “α”
2
ID
Als een…
1.1
Vertaler
1.2
Vertaler
2
Vertaler
3.1
kan ik…
zodat…
Waarde
Alternatieven
3
Manueel doorlopen
zoeken in een script naar stukken tekst in mijn beheerste taal zoeken in een audiofragment naar audiostukken in mijn beheerste taal gebruik maken van een vertaaldatabase (vertaalgeheugen, registers, …)
ik efficiënt kan werken (doelgericht, sneller, minder fouten) ik efficiënt kan werken (doelgericht, sneller, minder fouten) ik sneller en correcter kan vertalen
3
Manueel doorlopen
13
Vertaler
gebruik maken van anderstalige scripts
ik sneller en correcter kan vertalen
5
3.2
Vertaler
gebruik maken van anderstalige ondertitels
ik sneller en correcter kan vertalen
5
4.1
Vertaler/ ondertitelaar Vertaler/ ondertitelaar
automagic gebruiken op de originele audio voor live vertalen en ondertitelen automagic gebruiken op hersproken audio in de originele taal, voor live vertalen en ondertitelen automagic gebruiken met respeaking door tolk voor live vertalen en ondertitelen automagic gebruiken voor live ondertitelen NL-NL automagic op hersproken audio gebruiken voor live ondertitelen een script automatisch omzetten in ondertitels voor verschillende standaarden en formaten, zonder vertaling de metadata meegebruiken tijdens omzetten van script in ondertitels bv. blokje zetten voor oplijning, kleuren van dialooglijsten, … er op rekenen dat grammaticale blokken bij elkaar gehouden worden (bvb dmv rules)
dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting
40
Elektronische Van Daeles, eigen software, Trados voor technische vertaling, … Worddocs, PDF in originele taal Worddocs, PDF in originele taal Duits onderzoeksysteem (Verbmobil) Duits onderzoeksysteem (Verbmobil)
dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting dit EN synchroon loopt met speaker, EN live interactie toelaat bvb voting ik sneller kan werken
13
Manueel
40
Manueel
20
Manueel
20
Copy-paste & manueel
ik sneller kan werken
5
het geheel leesbaar wordt zonder manuele herschikking op woordniveau
8
de tekst aligneren met de audio dmv automatische gegenereerde tijdscodes uit script beschikken over een volautomatische ondertiteling applicaties beschikken over zelf te beheren spellingscontrolesoftware
ik dit niet meer manueel moet doen
40
ik enkel nog minimale correcties hoef uit te voeren corrector niet alles moet nalezen, en alles uniform ondertiteld wordt
100
Manueel scripts lezen of sommige SW doen dit al (niet in NL bv. Sysmedia) Manueel scripts lezen of sommige SW doen dit al (niet in NL bv. Sysmedia) Manueel in NL of prototype SW ("Spraak") (bestaat al?) Geen 3
20
Word
4.2
4.3 5.1
Vertaler/ ondertitelaar Ondertitelaar
5.2
Ondertitelaar
6
Ondertitelaar
7
Ondertitelaar
8
Ondertitelaar
9
Ondertitelaar
10
Ondertitelaar
11
Ondertitelaar
20
ID
Als een…
12
Ondertitelaar
kan ik…
zodat…
gebruik maken van verrijkte audio-info ik sneller kan werken, oplijnen, … (detectie spraak, taal, sprekers) 13 Productiemedewerker gebruik maken van verrijkte audio-info ik sneller kan werken, preciezer (detectie spraak, taal, sprekers) toewijzen 14 Ondertitelaar automatisch voorafgegenereerde de ondertitels automatisch ondertiteling laten meelopen bij live gesynchroniseerd lopen presentaties bv. nieuwslezer 15 Ondertitelaar gebruik maken van clusteren van de ondertitel kleuren automatisch en audiostukken van telkens dezelfde spreker consistent toegekend worden 16 Ondertitelaar automatische speech-to-text gebruiken (niet ik enkel nog de kwaliteit moet persoonsgebonden) in NL-NL met goede controleren kwaliteit 17 Ondertitelaar automatische speech-to-text gebruiken (niet ik enkel nog de kwaliteit moet persoonsgebonden) in beperkte andere controleren (gekende) talen, zonder vertaling 18 Ondertitelaar automatische speech-to-text gebruiken (niet ik enkel nog de kwaliteit moet persoonsgebonden) met directe vertaling in controleren 3 talen waarbij brontaal gekend is 19 Ondertitelaar gebruik maken van programmaspecifieke ik sneller kan werken thesaurus met "standaard" uitdrukkingen 20 Ondertitelaar live gebruik maken van programmaspecifieke ik sneller kan werken thesaurus met "standaard" uitdrukkingen (bv. short form, macro, …) 21 Ondertitelaar automatisch positie van ondertitels laten ik goede leesbare ondertitels heb verplaatsen ifv achtergrondbeeld zonder manuele ingreep 22 Productiemedewerker verrijkte beeldinformatie (shot change, ik sneller beeldmateriaal kan aftiteling, SVO,…) verkrijgen en gebruiken analyseren 23 Archivaris verrijkte audio- en beeldinformatie verkrijgen ik beter kan annoteren om later sneller en gebruiken te zoeken 24 Ondertitelaar spraakherkenning verder verbeteren naar het resultaat sneller en nauwkeuriger is nauwkeurigheid, codes & short forms, snelheid (mag sprekerafhankelijk) 25 Ondertitelaar automatisch reduceren in verschillende ik minder denkwerk nodig heb, gradaties (standaard reductie , ‘klare taal’) tijdsbesparing 26 Ondertitelaar beschikken over een automatisch sneller kan werken en enkel kan aangegeven niveau van betrouwbaarheid van focussen op de niet betrouwbare alle automatisch modules stukken
Waarde
Alternatieven
13
Bestaat deels (Intelligence)
13
Bestaat deels (Intelligence)
40
Manueel
8
Manueel
40
5
Persoonsgebonden OF nietpersoonsgebonden (Nuance, Sphinx, HTK, …) Persoonsgebonden OF nietpersoonsgebonden (Nuance, Sphinx, HTK, …) Persoonsgebonden OF nietpersoonsgebonden (Nuance, Sphinx, HTK, …) Elke keer opnieuw
5
Elke keer opnieuw
8
Manueel
20
Manuele annotatie
20
Manuele annotatie, minimaal Nuance
13
40
20
5 20
"NEON" in NL, mankracht, Scandinavië: "klare taal" Bestaat dit vandaag? 4
Overzicht • Output sprint 2: Use cases • Output sprint 3: De referentieoplossing “α”
5
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 6
De referentieoplossing “α” αααinput: αinput: input: αinput: input: αanderstalige A/V input: anderstalige A/V A/V anderstalig, anderstalig, anderstalige Nederlandstalige scripts scripts respeaking enkel zonder ondertitels metrespeaking (bv. tijdscodes tijdscodes door live)tolk INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 7
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 8
α Bouwblok: Scriptinterpretatie IN
ID
Technologisch facet
• De aangeleverde scripts, in de doeltaal of een andere taal
OUT
• Transcripties en scriptinformatie als input van de vertalingsmodule • Scriptinformatie rond tijdscodes, gebruikt bij synchronisatie • Rapportering rond gevonden script metadata, etc.
% Conf.
NVT
Beknopte omschrijving
SCRPT - 1
Scriptinformatie-extractie
Scriptinformatie-extractie doelt op het herkennen en begrijpen van relevante gegevens uit de aangeleverde scripts, zoals bv. transcripties, tijdscodes, sprekers, regie-info, context.
SCRPT - 2
Adaptieve parsing
Adaptieve parsing omvat het eenvoudig inladen van bestaande scripts door bv. 1) via een UI manueel relevante criteria in te stellen,waarbij de veelheid aan mogelijke scriptformaten ondersteund wordt of 2) via automatische detectie van de kolom met spraak via spraakherkenning
Risicoscore 8
3
9
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 10
α Bouwblok: Taalherkenning IN
ID
Technologisch facet
• Geëxtraheerde transcriptiefragmenten van de scriptinterpretatie • Contextinfo rond verwachte talen
OUT
• Taal per fragment als input voor de vertalingsmodule • Rapportering rond de gevonden talen
% Conf.
Betrouwbaarheid van de taalherkenning per fragment
Beknopte omschrijving
Risicoscore
TLHRK - 1
Taalherkenning vreemde talen
Bij taalherkenning „vreemde talen‟ tracht men per fragment de taal te bepalen door bv. vergelijking met database van gekende talen.
1
TLHRK - 2
Taalherkenning niet-Nederlands
Bij taalherkenning „niet-Nederlands‟ tracht men te bepalen of het fragment al dan niet Nederlands is.
1
TLHRK - 3
Betrouwbaarheid van taalherkenning
Per fragment bepaalt men hoe betrouwbaar het oordeel van de taalherkenner is. De lengte van het fragment bepaalt mee de kwaliteit (bv. min. enkele woorden)
1
11
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 12
α Bouwblok: Videoverwerking IN
ID
Technologisch facet
• Het aangeleverde beeldmateriaal
OUT
• Segmentatie-informatie gebruikt bij diarisation, punctuatie, reductie • Beeldinformatie als input voor de plaatsing van de ondertitels • Inhoudsinformatie ter ondersteuning van diarisation • Rapportering rond de uitgevoerde videobewerking
% Conf.
NVT
Beknopte omschrijving
Risicoscore
VIDEO - 1
Segmentatie
Segmentatie doelt op het aanduiden van de shotlengte als input bij de bepaling van de reductiemaat en op het aanduiden van shotwissels als hulp bij diarisation en punctuatie .
VIDEO - 2
Beeldinformatie-extractie
Bij beeldinformatie-extractie zal men bij een beeld bepalen waar het mogelijk is om ondertitels te plaatsen. Hierbij wordt rekening gehouden met o.a. originele captions, logo‟s, achtergrond,…
VIDEO - 3
Inhoudsinformatie-extractie bestaande ondertitels
Bij inhoudsinformatie-extractie „bestaande ondertitels‟ tracht men de bestaande captions/ondertitels te herkennen zodat men daarmee rekening houdt (overschrijven, vertalen,…).
3
VIDEO - 4
Inhoudsinformatie-extractie tekst lezen
Bij inhoudsinformatie-extractie „tekst lezen‟ tracht men de duidelijke tekst die in het origineel beeld zit lezen (captions, ondertitels, recepten,…)
8
VIDEO - 5
Volledige inhoudsinformatie-extractie
Bij volledige inhoudsinformatie-extractie wil men alle verschenen en mogelijk onduidelijk tekst kunnen lezen, 100-en gezichten herkennen, ..
20
11 2
13
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 14
α Bouwblok: Diarisation (1) IN
OUT
% Conf.
ID
Technologisch facet Segmentatie spraak vs. niet-spraak
DIARI - 1 DIARI - 2 DIARI - 3 Taalsegmentatie vreemde talen DIARI - 4 DIARI - 5 Taalsegmentatie niet- Nederlands
DIARI - 6 DIARI - 7
• Het aangeleverde originele audiomateriaal • Segmentatie-informatie uit de videoverwerkingsmodule • Context: verwachte talen en/of sprekers • Per taal/spreker gescheiden spraakfragmenten • Rapportering rond de gevonden talen/sprekers • Aanvullende segmentatie-informatie die gebruikt wordt bij punctuatie en reductie Betrouwbaarheid van de taal/sprekerherkenning per fragment
Beknopte omschrijving
Risicoscore
Segmentatie „spraak vs. niet-spraak‟ doelt op het herkennen van de spraakfragmenten ten midden van muziek, lawaai,.. Assumptie: afgelijnde audiostukken. Assumptie: korte, maar afgelijnde stukken Assumptie: stukken met overlap
2 8 13
Segmentatie „vreemde talen‟ doelt op detecteren van de spraakfragmenten in het originele audiomateriaal en het aanduiden van de gesproken taal. Assumptie: grote stukken, moedertaalsprekers Assumptie: zinnen, niet-moedertaalsprekers,…
5 20
Segmentatie „niet-Nederlands‟ doelt op het detecteren van de spraakfragmenten in het originele audiomateriaal en het aanduiden van de niet-Nederlandse fragmenten. Assumptie: grote stukken, moedertaalsprekers Assumptie: zinnen, niet-moedertaalsprekers,…
3 13
15
α Bouwblok: Diarisation (2) IN
OUT
% Conf.
ID
Technologisch facet Sprekersegmentatie A vs. B
DIARI - 8 DIARI - 9 Sprekersegmentatie op naam
DIARI - 10 DIARI - 11 Betrouwbaarheid van taal/sprekersegmentatie DIARI - 12 DIARI - 13 DIARI - 14
Adaptief lerend effect
• Het aangeleverde originele audiomateriaal • Segmentatie-informatie uit de videoverwerkingsmodule • Context: verwachte talen en/of sprekers • Per taal/spreker gescheiden spraakfragmenten • Rapportering rond de gevonden talen/sprekers • Aanvullende segmentatie-informatie die gebruikt wordt bij punctuatie en reductie Betrouwbaarheid van de taal/sprekerherkenning per fragment
Beknopte omschrijving
Risicoscore
Bij sprekersegmentatie A vs. B wil men naast taalsegmentatie ook de sprekers onderscheiden en terugkomende sprekers herkennen. Assumptie: afgelijnde stukken Assumptie: interactief gesprek met overlap
3 13
Bij sprekersegmentatie op naam wil men naast taalsegmentatie ook de sprekers per fragment aanduiden. Assumptie: geen gekend stemprofiel of context Assumptie: gekend stemprofiel en context
13 3
Per fragment bepaalt men hoe betrouwbaar de scheiding tussen de fragmenten is en hoe betrouwbaar de taal/sprekerherkenning is. Assumptie: afgelijnde stukken Assumptie: korte, overlappende stukken
3 13
Door manuele correctie van type I/II fouten wordt de database aangevuld/gecorrigeerd en verbetert de taal/sprekerherkenning bij volgende fragmenten.
3 16
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 17
α Bouwblok: Spraakherkenning IN
ID
Technologisch facet
• Gesegmenteerde audiofragmenten • Hersproken audiofragmenten
OUT
• Transcriptie per audiofragment
% Conf.
Betrouwbaarheid van de transcriptie per audiofragment
Beknopte omschrijving
Risicoscore
Sprekeronafhankelijke spraakherkenning
Bij spraakherkenning op originele audiofragmenten genereert men transcripties door gebruik te maken van bepaalde algemene stemprofielen, bv. gemiddelde, vrouw, senior, kind,…
Spraakherkenning met gekend stemprofiel
Bij spraakherkenning op hersproken audiofragmenten kan men bv. transcripties genereren door gebruik te maken van het stemprofiel van de herspreker of het stemprofiel van een frequent voorkomend acteur.
S-2-T - 3
Betrouwbaarheid van sprekeronafhankelijke spraakherkenning
Per fragment bepaalt men hoe betrouwbaar de spraakherkenning is.
13
S-2-T - 4
Betrouwbaarheid van spraakherkenning bij een gekend stemprofiel
Per fragment bepaalt men hoe betrouwbaar de spraakherkenning is.
5
S-2-T - 5
Adaptief lerend effect
Door het toevoegen van woorden en het leren van bepaalde stemprofielen verbetert de performantie van de spraakherkenning, bv. Tour de France uitzending daags voordien.
S-2-T - 1
S-2-T - 2
13
5
13
18
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 19
α Bouwblok: Punctuatie IN
ID
Technologisch facet Plaatsen van punten en vraagtekens
PUNCT - 1 PUNCT - 2 PUNCT - 3
PUNCT - 4 PUNCT - 5
• Tekstfragmenten (transcripties) • Segmentatie-informatie van video- en audioverwerkingsmodules
OUT
• Tekstfragmenten met leestekens
% Conf.
Betrouwbaarheid per geplaatst leesteken
Beknopte omschrijving Bij het plaatsen van punten en vraagtekens tracht men het einde van de zin te zoeken en het gepaste eindleesteken in te voegen. Assumptie: volzinnen Assumptie: spreektaal
Plaatsen van komma‟s
Bij het plaatsen van komma‟s tracht men te zoeken waar men in schrijftaal een komma zou plaatsen door bv. grammaticale interpretatie, pauzes te zoeken,…
Betrouwbaarheid plaatsing van punten en vraagtekens
Bij elk geplaatst leesteken tracht men aan te geven hoe zeker men is dat het daar thuishoort. Assumptie: volzinnen Assumptie: spreektaal
Risicoscore
5 13 40
5 13
20
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 21
α Bouwblok: Vertaling IN
ID
Technologisch facet
• Tekst in brontaal van verschillende kwaliteit • Context, domeinspecifieke registers.
OUT
• Tekst in doeltaal (Ned/Fr/Eng)
% Conf.
Betrouwbaarheid van de vertaling per zin
Beknopte omschrijving
VERTA - 1
Vertaling op basis van n-grams
Bij „n-gram‟ vertaling zet men de anderstalige tekst om naar de doeltaal door gebruik te maken van een n-grams en een bestaand vertaalgeheugen. Manuele input is nog steeds vereist.
VERTA - 2
Vertaling op basis van „fuzzy matching‟
Bij „fuzzy matching‟ vertaling zet men de anderstalige tekst om naar de doeltaal door gebruik te maken van „fuzzy matches‟ met reeds vertaalde zinnen. Manuele input is nog steeds vereist. Bij MT (machine translation) zet men op een volledig automatisch de anderstalige tekst om naar de doeltaal. Deze manier is zeer afhankelijk van de grootte van de corpora.
VERTA - 3
MT-gebaseerde vertaling
VERTA - 4
Betrouwbaarheid vertaling
Per zin tracht men te bepalen hoe betrouwbaar de vertaling is.
VERTA - 5
Adaptief lerend effect
Door manuele correctie van fout vertaalde zinnen vult men het vertaalgeheugen aan wat resulteert in een betere performantie.
Risicoscore 1
1 40
20 3
22
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 23
α Bouwblok: Spreek- naar schrijftaalomzetting IN
ID
Technologisch facet
SPR-2-SCHR - 1 Spreek- naar schrijftaalomzetting
• Tekst in doeltaal
OUT
• Tekst in doeltaal bestaande uit grammaticaal en logische correcte volzinnen.
% Conf.
NVT
Beknopte omschrijving Spreek- naar schrijftaalomzetting omvat het genereren van grammaticaal en logisch correcte volzinnen op basis van mogelijk grammaticaal incorrecte zinsfragmenten in de doeltaal.
Risicoscore 20
24
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 25
α Bouwblok: Synchronisatie IN
ID
Technologisch facet
• Scriptfragmenten • Originele audio • Transcripties van de hersproken audio
OUT
• Tijdscodes per script- of transcriptiefragment
% Conf.
NVT
Beknopte omschrijving
SYNC - 1
Synchronisatie script
Bij synchronisatie van een script tracht men per scriptfragment te bepalen waar in de tijd het fragment begint door te vergelijken met de originele audio.
SYNC - 2
Synchronisatie transcriptie hersproken audio
Bij synchronisatie van de transcripties van de hersproken audio tracht men per transcriptiefragment te bepalen waar in de tijd het fragment begint door te vergelijken met de originele audio.
Risicoscore 3
8
26
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 27
α Bouwblok: Ondertitelgeneratie en -reductie IN
ID
Technologisch facet
• Tekst in de doeltaal in grammaticaal correcte volzinnen • Segmentatie-informatie van video- en audioverwerkingsmodules • Beeldinformatie van de videoverwerkingsmodule • Tijdscodes van scripts of van synchronisatiemodule
OUT
• Tekst in de doeltaal met tijdscodes en positiegegevens (ie. ondertitels)
% Conf.
NVT
Beknopte omschrijving
Risicoscore
GEN&RED - 1
Bepaling reductiemaat
Bepaling van de reductiemaat omvat het omzetten van beeldinformatie, tijdsinformatie en stelregels naar tekstlengte en splitsingsmogelijkheden van de ondertitel.
GEN&RED - 2
Graduele reductie
Bij reductie tracht men een zin te verkorten zonder relevante informatie te verwijderen door bv. synoniemen te gebruiken, stelregels te gebruiken (eg. adjectieven weglaten), parallelle corpora te gebruiken,…
5
GEN&RED - 3
Reductie naar eenvoudige zinnen
Reductie naar eenvoudig begrijpbare zinnen (registeromzetting) of zelfs enkel kernwoorden („Klare Taal‟).
5
2
28
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 29
α Bouwblok: Topicdetectie IN
ID TOPIC - 1
Technologisch facet Topicdetectie
• Tekst in de doeltaal
OUT
• Rapportering met inhoudsinformatie
% Conf.
NVT
Beknopte omschrijving Bij topicdetectie is het van belang alle gegevens te noteren die relevant zijn bij het aangeleverde programma. Dit behelst keywords, sprekers, vermelde namen, getoonde plaatsen, getoonde personen,…
Risicoscore 3
30
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 31
α Bouwblok: User Interface “cockpit” IN
ID
• Tussentijdse resultaten van alle modules • Betrouwbaarheidsmaten van alle modules
OUT
• Configuratie van alle modules • Manuele, intuïtieve bijstuurmogelijkheid op elke module
% Conf.
NVT
Technologisch facet
Beknopte omschrijving
UI - 1
Aanpassen moduleketting
Het aanpassen van de moduleketting omvat het al dan niet inschakelen van een module op basis van het aangeleverde materiaal (bv. geen vertalingsmodule bij Nederlandstalige audio).
UI - 2
Intuïtieve infoaanlevering UI gedeelte
Intuïtieve infoaanlevering „UI gedeelte‟ doelt op het eenvoudig en snel verkrijgen van info van de verschillende modules over de automatische verwerking.
UI - 3
Intuïtieve infoaanlevering Interactie met back-end
Intuïtieve infoaanlevering „interactie met back-end‟ doelt op de afweging tussen intuïtiviteit van de interface en efficiëntie van de machine (ie. veel aanpassen is goed voor de efficiëntie maar onoverzichtelijk).
UI- 4
Intuïtieve bijstuurmogelijkheden
Met bijstuurmogelijkheden bedoelt men het snel en intuïtief overnemen en/of corrigeren van de automatische verwerking op basis van betrouwbaarheidsmaten of manueel nazicht. Ook de manuele correctie dient snel en intuïtief te verlopen door bv. autocompletion, shortcuts,…
Risicoscore 3
2
8
13
32
De referentieoplossing “α” INPUTS
BOUWBLOKKEN
OUTPUTS Topicdetectie
ScriptScriptinterpretatie interpretatie
Rapporten Metadata
Script Taalherkenning
Synchronisatie
Videoverwerking A/V Diarisation
Audio (respeaking)
Spraakherkenning (SPEECHTO-TEXT)
Punctuatie
Vertaling
Spreeknaar schrijftaal omzetting
Ondertitel generatie en reductie
Ondertitels
Anderstalige ondertitels Context
Manuele input
User Interface “Cockpit” 33
α: Algemene technologische facetten
ID
Technologisch facet
Beknopte omschrijving
ALG - 1
Componentintegratie
Componentintegratie doelt op de mogelijkheid om derdepartijcomponenten te integreren zonder al te veel wijzigingen aan te hoeven brengen aan het geheel.
ALG - 2
Beheren van IPR
Beheren van IPR omvat het bijhouden van alle afspraken rond het gebruiken en uitwisselen van zowel origineel materiaal (eg. bestaande ondertitels) als aangemaakt materiaal (eg. vertaalwerk).
Performantie
Performantie doelt op de doorlooptijd van bronmateriaal tot schermklare ondertitels. Dit is vooral belangrijk bij live ondertiteling, met bovengrens 30s.
End-to-end kwaliteit
Het beschikbaar hebben/stellen van een voldoende groot volume aan getranscribeerd audiovisueel trainingsmateriaal is nodig om het systeem offline te trainen en bepaalt in grote mate mee de haalbare end-to-end kwaliteit.
Risicoscore 5
2
34