Vergadering TTNWW, gedeelte Spraak

Vergadering TTNWW, gedeelte Spraak  Nijmegen, 6 april 2010  Aanwezig: Lou Boves, Patrick Wambacq, Jean‐Pierre Martens, Marc Kemps‐Snijders, Kris Demuynck,  Marijn Huijbregts, Daan Broeder, Arjan van Hessen  Afwezig: Roeland Ordelman  Noot van Patrick: de antwoorden op de vragen van Lou staan in een apart document dat ik niet heb  (Arjan: kan je dit rondsturen?); ik heb  enkele bijkomende opmerkingen daarover hieronder  opgeschreven, wellicht verhuizen die best naar dat andere document (maar verderop in het verslag  staan ook nog enkele dingen die relevant zijn voor de vragen van Lou). 

Opmerkingen bij de antwoorden op de vragen van Lou:  −

in principe gebeurt de opslag van de data in de CLARIN centra zelf en niet elders. Als  KADOC dat niet wil moeten zij ofwel zelf een CLARIN centrum worden (enkel voor  hun gegevens) of wordt hun data niet opgenomen in CLARIN. In dat laatste geval  kunnen zij aan de gebruikers van hun gegevens wel de CLARIN transcriptietools  aanbieden, of beter: zij transcriberen hun eigen materiaal als gebruiker, met de  CLARIN tools, en bieden de transcripties aan aan hun klanten. In elk geval zullen zij  wel voorbeelddata leveren voor het pilootproject. 

−

hoe maak je tools die binnen vijf of tien jaar nog werken of hoe verklein je de  inspanning om ze werkend te houden? Daar zijn geen richtlijnen voor. Er zal altijd  mankracht nodig zijn om tools te onderhouden. (quote: gemeten over de  levensduur van een tool is 20% van de tijd nodig om hem te maken, 80% van de tijd  is nodig om hem te onderhouden). 

−

versioning: er moet zorgvuldig worden bijgehouden voor elke output van een  CLARIN tool, hoe die tot stand is gekomen en met welke versie van de tools  (provenance data, op te slaan in de metadata van de output). We zijn wel niet  verplicht om voor elke tool elke versie werkend te houden (en we zullen dat dus ook  niet doen). M.a.w. de output van een tool kan bij ongewijzigde input veranderen in  de loop van de tijd. 

−

worden transcripties (of andere outputs) bijgehouden op de servers voor  hergebruik en worden zij daardoor een nieuw deel van de CLARIN data? We willen  niet 50 keer hetzelfde transcriberen. Dat kan door die output op te slaan in de  metadata (onderscheid met data wordt wel vaag), op voorwaarde dat de gebruiker  ermee instemt. Maar het kan zinvol zijn om een transcriptie toch opnieuw te doen  (zie de vorige opmerking). Elke gebruiker krijgt ook een eigen werkruimte waarin hij  (tussen)resultaten kan bijhouden. Die kan wel niet gedeeld worden met andere  gebruikers. 

−

ASR zal (zeker in het begin) menselijke interventie nodig hebben om goed te kunnen  werken. Tuning zal altijd een beter resultaat geven, maar de vergadering is het  erover eens dat als een “redelijk” resultaat bereikt wordt, manuele tuning niet  verder hoeft. Een redelijk resultaat zal hopelijk kunnen bereikt worden door  voldoende informatie te bekomen van de gebruiker over de herkenningstaak en 

Issues: 

door daartegenover voldoende “standaard modellen” (akoestisch, taal, lexicon, ...)  te stellen in de herkenningsstraat.  −

CLARIN centra zullen in de regel niet over de inhoudelijke kennis beschikken om de  software echt te onderhouden en om manuele interventies te doen. Dit pleit ervoor  om van ESAT een CLARIN centrum te maken (dat zich alleen met ASR zal  bezighouden). ESAT zal zich hierover nog beraden want dit vereist inspanningen die  niet onderzoeksgerelateerd zijn en die bij gebruikers verwachtingen genereren over  support. 

−

er is nog geen echte CLARIN‐standaard. We gaan zelf onze eigen formaten,  werkwijzen, ... bekijken in het licht van CLARIN en zelf een aantal standaarden  vooropstellen. ESAT gaat de eisen aan de input en het formaat van de resultaten  van de spraakherkenner opstellen en rondsturen aan de projectdeelnemers. Wij  gaan met z’n allen dan kijken of de juiste metadata aanwezig zijn. Welke vragen  worden vooraf gesteld aan de gebruiker en welke services/tools worden daar dan  bij gemaakt? Na uiteindelijke vaststelling zullen de parameters samen met het MPI,  in ISOCAT’s “gezet” worden. 

−

hoe ga je om met de load op je systeem? Wat doe je als twee archieven beide 200  uur aanbieden? Het gedeeltelijk antwoord op deze vraag is dat er een maximale  grootte zal opgelegd worden aan de bestanden die kunnen opgeladen worden en  dat er een first‐come first‐serve queue komt. Wellicht moet een beter mechanisme  voor prioriteiten bedacht worden. Er moet ook een onderscheid gemaakt worden  tussen leveranciers van data die hun gegevens (corpora) via CLARIN willen ter  beschikking stellen en de tools willen inzetten voor de annotatie ervan, en  gebruikers die gewoon eigen materiaal willen verwerken en de resultaten daarvan  voor zich willen houden. 

−

het is onvermijdelijk dat er beperkingen zullen zijn aan de webservice. Het is zeer  belangrijk om deze op te schrijven en kenbaar te maken aan de gebruikers, zodat ze  weten want ze kunnen verwachten. 

Mogelijke services gerelateerd aan ASR (nodig/ indien voldoende tijd /  niet binnen TTNWW):  −

segmentatie: spraak / niet spraak / muziek en anders, onderscheid sprekers,  taaldetectie, gender, clustering van sprekers over verschillende bestanden heen,  NODIG; dialectdetectie en shot‐detectie is ook interessant, NIET IN TTNWW 

−

transcriptie, NODIG 

−

alignering, NODIG 

−

Indexatie (vraag van Lou): lijst met keywords bijvoegen die herkend moeten  worden, INDIEN TIJD 

−

automatische punctuatie of structurering van de transcripties op basis van pauses,  INDIEN TIJD 

−

taalmodeladaptatie: eigen lijst met eigennamen bijvoegen, INDIEN TIJD 

−

taalmodeladaptatie: eigen teksten opladen; dit vereist tekstnormalisatie (eventueel  tekstnormalisatie als aparte service voorzien met feedback door de gebruiker),  INDIEN TIJD (mede afhankelijk van de mate van normalisatie die we willen  inbouwen) 

−

convertoren voor inputformaat/outputformaat (input: SOX kan al heel wat, output:  wellicht xml nodig en conversie naar bv. CTM en STM, INDIEN TIJD 

−

G2P eventueel met TTS‐feedback, NIET IN TTNWW 

−

akoestische adaptatie (supervised/unsupervised), NIET IN TTNWW 

−

topicdetectie (supervised en unsupervised) korte lijst, NIET IN TTNWW 

−

emotiedetectie, NIET IN TTNWW 

−

automatische samenvatting van de audio, NIET IN TTNWW (hoort dit niet eerder bij  taal dan bij spraak?) 

Vragen te stellen aan de gebruiker in een webformulier:  −

cf. www.webasr.org van Sheffield, zie ook de screenshots op het einde van dit  verslag 

−

spraakmodus (discussie+aantal sprekers / vrij / presentatie / voorlezen / zang (we  gaan wel geen zang proberen te herkennen!) / anders) 

−

taal van de spreker(s) (NL/VL) 

−

geslacht van de spreker(s) (wat als de segmentatie er anders over denkt?) 

−

akoestische omstandigheden: omgeving van de opname, breedband/smalband,  nagalm, clipping, soort microfoon, ... 

−

topic 

−

formaat van de klankbestanden: we gebruiken 16bit/16kHz/mono/PCM‐signed. We  zullen ook een maximale grootte opleggen aan de bestanden. 

Werkplan van het project  −

zie de projectaanvraag blz. 30 e.v.; WP2 en WP3: de beschrijvingen hiervan in de  projectaanvraag overlappen enigszins. We stellen daarom enkele aanpassingen  voor: in WP2 komt alle spraaktechnologie werk, (herkenner en bijkomende  modules, audio‐segmenter en –indexer en gerelateerd werk). Daardoor bekomen  we WP2a: herkenner, WP2b: segmenter/indexer (zat voordien in WP3). In WP3 zit  dan  alles wat met de webservice te maken heeft. In de Gantt chart (verderop) is  met deze aanpassing rekening gehouden. 

−

waar namen van onderzoeksgroepen vermeld worden, betekent dit dat zij  verantwoordelijk zijn voor de vermelde taak. Dit betekent niet dat zij de enige  uitvoerder ervan zijn. 

−

de budgetverdeling onderaan de beschrijving van elk werkpakket klopt niet overal.  Dat is later rechtgezet en dit zijn de juiste gegevens: WP3 €103k (54k, 29k, 10k, 10k)  en WP4 €25k (5k, 5k, 5k, 5k, 5k). Voor de andere werkpakketen en in de  samenvattende tabellen eerder in de tekst klopt alles wel. 

−

hoe lang gaat het project eigenlijk duren? In de projectaanvraag werd voor het  spraakgedeelte 2 jaar voorzien, terwijl op blz. 3 van het voorstel (in het algemene  gedeelte) een periode van 2 jaar en 7 maanden wordt voorzien (waarvan er al 6  weken voorbij zijn). De financiers stellen zich (vermoedelijk) flexibel op en we  kunnen deze extra tijd dus wel gebruiken indien nodig. Maar we blijven mikken op 2  jaar voor het spraakgedeelte, verdeeld volgens de Gantt chart verderop in dit  verslag. De start van het eigenlijke werk zal moeten verschoven worden naar het 

ogenblik waarop de geschikte uitvoerders kunnen aangeworven worden en kunnen  starten. Vermoedelijk wordt dit september 2010. De laatst mogelijke startdatum is 1  oktober 2010 zodat het werk nog kan afgerond worden tegen 30 september 2012  (de uiterste einddatum vermeld in de aanvraag).   −

verantwoordelijken voor de werkpakketten en deliverables: in NL altijd UT behalve  voor WP3‐D1: RU (waar staat dit ergens, ik vind dit nergens terug); in VL: ESAT  behalve WP2b: ELIS 

−

WP1a: requirements: vermits er nog geen CLARIN standaard is, stellen we deze zelf  op. Een initiële versie kan nu gemaakt worden; naarmate de uitvoering van het  project vordert kunnen daar nog dingen bijkomen. 

−

WP1b: implementatie van de standaarden: blijft zoals het is 

−

WP2: gebruiksvriendelijkheid van de ASR software verhogen, bijkomende ASR  modules (parameterinstelling gebaseerd op de antwoorden van de gebruikers op  specifieke vragen, interface naar AUTONOMATA tools). Er moeten bijkomende  taalmodellen en akoestische modellen gemaakt worden; dit zal echter maar  gebeuren als er tijd voor is (tenslotte blijft dit een pilootproject). (ESAT) 

−

WP3a: alle taken die plaatsgrijpen vóór ASR: segmentatie, taaldetectie,  sprekerclustering, ... (ELIS) 

−

WP3b: alle modules toegankelijk maken via een webservice, bouw van een  webinterface (UT). Webinterface: is een form op je scherm waarin jij alle gegevens  zet die gebruikt moeten worden. Webservice is de service zelf die het doet. Er komt  een soort CLARIN‐template hiervoor zodat je een zelfde look‐and‐feel krijgt bij alle  facetten van de straat. Maar we hoeven daar niet op te wachten. 

−

WP4: gebruikerstesten: blijft zoals het is. 

−

WP5: disseminatie, demonstrator, documentatie: blijft zoals het is, met dien  verstande dat de demonstrator eigenlijk bestaat uit wat er in WP3b werd gebouwd  (de webinterface). 

−

Gantt chart: zie verderop in dit verslag 

Actiepunten  −

Utwente bezorgt haar lexicale resources aan ESAT 

−

ESAT gaat een lijst opstellen van de requirements waaraan servers moeten voldoen  om SPRAAK te kunnen draaien. Idem voor het trainen van taalmodellen. 

−

ESAT gaat een ftp server inrichten voor de data van de gebruikers. De link gaat naar  Mark KS 

−

Utwente gaat uitzoeken in welke formaten de gebruikers hun data zullen  aanleveren. 

−

Utwente of MPI? : toegang regelen voor de andere deelnemers op de clarin.nl  website 

−

ESAT, ELIS, RU, UTwente: dataleveranciers contacteren teneinde de data te  verkrijgen en te kunnen opladen op de ftp‐server 

−

RU: Lou gaat bekijken hoe er een CLARIN call voor tender kan geschreven worden  zodat uitgebreidere deelname van de gebruikers verzorgd kan worden. In TTNWW  krijgen zij maar 5k en dat is heel weinig. 

−

Patrick/Arjan: de lijst met WP’s wordt herschreven in een meer praktisch workflow‐ document. Is dit nog nodig als je de beschrijvingen in de vorige hoofding leest?  Komt dit niet gewoon neer op een update/verfijning van de Gantt chart? 

TTNWW Spraak Gantt chart   

!"

#!$

#%!

"!

 

)*"+

opstellen requirements

)*",

implementatie CLARIN standaarden gebruiksvriendelijke ASR

)*%+ )*%, )*&

audio-segmenter/indexer en uitbreidingen webgebaseerde spraak services

)*-

bepaling metadata, gebruikerstesten

)*'

disseminatie, demonstrators, documentatie

!" #"" #%! "! !" #!" #%! "" !" #!& #%! "" !" #!' #%! "" !" #!( #%! "" !" #!$ #%! "" !" #"" #%! "" !" #!" #%! "% !" #!& #%! "% !" #!' #%! "% !" #!( #%! "% !" #!$ #%! "%

 

Screenshots van de ASR webinterface van Sheffield (www.webasr.org)   

 

Vergadering TTNWW, gedeelte Spraak

Recommend Documents