Vergadering
TTNWW,
gedeelte
Spraak
Nijmegen,
6
april
2010
Aanwezig:
Lou
Boves,
Patrick
Wambacq,
Jean‐Pierre
Martens,
Marc
Kemps‐Snijders,
Kris
Demuynck,
Marijn
Huijbregts,
Daan
Broeder,
Arjan
van
Hessen
Afwezig:
Roeland
Ordelman
Noot
van
Patrick:
de
antwoorden
op
de
vragen
van
Lou
staan
in
een
apart
document
dat
ik
niet
heb
(Arjan:
kan
je
dit
rondsturen?);
ik
heb
enkele
bijkomende
opmerkingen
daarover
hieronder
opgeschreven,
wellicht
verhuizen
die
best
naar
dat
andere
document
(maar
verderop
in
het
verslag
staan
ook
nog
enkele
dingen
die
relevant
zijn
voor
de
vragen
van
Lou).
Opmerkingen
bij
de
antwoorden
op
de
vragen
van
Lou:
−
in
principe
gebeurt
de
opslag
van
de
data
in
de
CLARIN
centra
zelf
en
niet
elders.
Als
KADOC
dat
niet
wil
moeten
zij
ofwel
zelf
een
CLARIN
centrum
worden
(enkel
voor
hun
gegevens)
of
wordt
hun
data
niet
opgenomen
in
CLARIN.
In
dat
laatste
geval
kunnen
zij
aan
de
gebruikers
van
hun
gegevens
wel
de
CLARIN
transcriptietools
aanbieden,
of
beter:
zij
transcriberen
hun
eigen
materiaal
als
gebruiker,
met
de
CLARIN
tools,
en
bieden
de
transcripties
aan
aan
hun
klanten.
In
elk
geval
zullen
zij
wel
voorbeelddata
leveren
voor
het
pilootproject.
−
hoe
maak
je
tools
die
binnen
vijf
of
tien
jaar
nog
werken
of
hoe
verklein
je
de
inspanning
om
ze
werkend
te
houden?
Daar
zijn
geen
richtlijnen
voor.
Er
zal
altijd
mankracht
nodig
zijn
om
tools
te
onderhouden.
(quote:
gemeten
over
de
levensduur
van
een
tool
is
20%
van
de
tijd
nodig
om
hem
te
maken,
80%
van
de
tijd
is
nodig
om
hem
te
onderhouden).
−
versioning:
er
moet
zorgvuldig
worden
bijgehouden
voor
elke
output
van
een
CLARIN
tool,
hoe
die
tot
stand
is
gekomen
en
met
welke
versie
van
de
tools
(provenance
data,
op
te
slaan
in
de
metadata
van
de
output).
We
zijn
wel
niet
verplicht
om
voor
elke
tool
elke
versie
werkend
te
houden
(en
we
zullen
dat
dus
ook
niet
doen).
M.a.w.
de
output
van
een
tool
kan
bij
ongewijzigde
input
veranderen
in
de
loop
van
de
tijd.
−
worden
transcripties
(of
andere
outputs)
bijgehouden
op
de
servers
voor
hergebruik
en
worden
zij
daardoor
een
nieuw
deel
van
de
CLARIN
data?
We
willen
niet
50
keer
hetzelfde
transcriberen.
Dat
kan
door
die
output
op
te
slaan
in
de
metadata
(onderscheid
met
data
wordt
wel
vaag),
op
voorwaarde
dat
de
gebruiker
ermee
instemt.
Maar
het
kan
zinvol
zijn
om
een
transcriptie
toch
opnieuw
te
doen
(zie
de
vorige
opmerking).
Elke
gebruiker
krijgt
ook
een
eigen
werkruimte
waarin
hij
(tussen)resultaten
kan
bijhouden.
Die
kan
wel
niet
gedeeld
worden
met
andere
gebruikers.
−
ASR
zal
(zeker
in
het
begin)
menselijke
interventie
nodig
hebben
om
goed
te
kunnen
werken.
Tuning
zal
altijd
een
beter
resultaat
geven,
maar
de
vergadering
is
het
erover
eens
dat
als
een
“redelijk”
resultaat
bereikt
wordt,
manuele
tuning
niet
verder
hoeft.
Een
redelijk
resultaat
zal
hopelijk
kunnen
bereikt
worden
door
voldoende
informatie
te
bekomen
van
de
gebruiker
over
de
herkenningstaak
en
Issues:
door
daartegenover
voldoende
“standaard
modellen”
(akoestisch,
taal,
lexicon,
...)
te
stellen
in
de
herkenningsstraat.
−
CLARIN
centra
zullen
in
de
regel
niet
over
de
inhoudelijke
kennis
beschikken
om
de
software
echt
te
onderhouden
en
om
manuele
interventies
te
doen.
Dit
pleit
ervoor
om
van
ESAT
een
CLARIN
centrum
te
maken
(dat
zich
alleen
met
ASR
zal
bezighouden).
ESAT
zal
zich
hierover
nog
beraden
want
dit
vereist
inspanningen
die
niet
onderzoeksgerelateerd
zijn
en
die
bij
gebruikers
verwachtingen
genereren
over
support.
−
er
is
nog
geen
echte
CLARIN‐standaard.
We
gaan
zelf
onze
eigen
formaten,
werkwijzen,
...
bekijken
in
het
licht
van
CLARIN
en
zelf
een
aantal
standaarden
vooropstellen.
ESAT
gaat
de
eisen
aan
de
input
en
het
formaat
van
de
resultaten
van
de
spraakherkenner
opstellen
en
rondsturen
aan
de
projectdeelnemers.
Wij
gaan
met
z’n
allen
dan
kijken
of
de
juiste
metadata
aanwezig
zijn.
Welke
vragen
worden
vooraf
gesteld
aan
de
gebruiker
en
welke
services/tools
worden
daar
dan
bij
gemaakt?
Na
uiteindelijke
vaststelling
zullen
de
parameters
samen
met
het
MPI,
in
ISOCAT’s
“gezet”
worden.
−
hoe
ga
je
om
met
de
load
op
je
systeem?
Wat
doe
je
als
twee
archieven
beide
200
uur
aanbieden?
Het
gedeeltelijk
antwoord
op
deze
vraag
is
dat
er
een
maximale
grootte
zal
opgelegd
worden
aan
de
bestanden
die
kunnen
opgeladen
worden
en
dat
er
een
first‐come
first‐serve
queue
komt.
Wellicht
moet
een
beter
mechanisme
voor
prioriteiten
bedacht
worden.
Er
moet
ook
een
onderscheid
gemaakt
worden
tussen
leveranciers
van
data
die
hun
gegevens
(corpora)
via
CLARIN
willen
ter
beschikking
stellen
en
de
tools
willen
inzetten
voor
de
annotatie
ervan,
en
gebruikers
die
gewoon
eigen
materiaal
willen
verwerken
en
de
resultaten
daarvan
voor
zich
willen
houden.
−
het
is
onvermijdelijk
dat
er
beperkingen
zullen
zijn
aan
de
webservice.
Het
is
zeer
belangrijk
om
deze
op
te
schrijven
en
kenbaar
te
maken
aan
de
gebruikers,
zodat
ze
weten
want
ze
kunnen
verwachten.
Mogelijke
services
gerelateerd
aan
ASR
(nodig/
indien
voldoende
tijd
/
niet
binnen
TTNWW):
−
segmentatie:
spraak
/
niet
spraak
/
muziek
en
anders,
onderscheid
sprekers,
taaldetectie,
gender,
clustering
van
sprekers
over
verschillende
bestanden
heen,
NODIG;
dialectdetectie
en
shot‐detectie
is
ook
interessant,
NIET
IN
TTNWW
−
transcriptie,
NODIG
−
alignering,
NODIG
−
Indexatie
(vraag
van
Lou):
lijst
met
keywords
bijvoegen
die
herkend
moeten
worden,
INDIEN
TIJD
−
automatische
punctuatie
of
structurering
van
de
transcripties
op
basis
van
pauses,
INDIEN
TIJD
−
taalmodeladaptatie:
eigen
lijst
met
eigennamen
bijvoegen,
INDIEN
TIJD
−
taalmodeladaptatie:
eigen
teksten
opladen;
dit
vereist
tekstnormalisatie
(eventueel
tekstnormalisatie
als
aparte
service
voorzien
met
feedback
door
de
gebruiker),
INDIEN
TIJD
(mede
afhankelijk
van
de
mate
van
normalisatie
die
we
willen
inbouwen)
−
convertoren
voor
inputformaat/outputformaat
(input:
SOX
kan
al
heel
wat,
output:
wellicht
xml
nodig
en
conversie
naar
bv.
CTM
en
STM,
INDIEN
TIJD
−
G2P
eventueel
met
TTS‐feedback,
NIET
IN
TTNWW
−
akoestische
adaptatie
(supervised/unsupervised),
NIET
IN
TTNWW
−
topicdetectie
(supervised
en
unsupervised)
korte
lijst,
NIET
IN
TTNWW
−
emotiedetectie,
NIET
IN
TTNWW
−
automatische
samenvatting
van
de
audio,
NIET
IN
TTNWW
(hoort
dit
niet
eerder
bij
taal
dan
bij
spraak?)
Vragen
te
stellen
aan
de
gebruiker
in
een
webformulier:
−
cf.
www.webasr.org
van
Sheffield,
zie
ook
de
screenshots
op
het
einde
van
dit
verslag
−
spraakmodus
(discussie+aantal
sprekers
/
vrij
/
presentatie
/
voorlezen
/
zang
(we
gaan
wel
geen
zang
proberen
te
herkennen!)
/
anders)
−
taal
van
de
spreker(s)
(NL/VL)
−
geslacht
van
de
spreker(s)
(wat
als
de
segmentatie
er
anders
over
denkt?)
−
akoestische
omstandigheden:
omgeving
van
de
opname,
breedband/smalband,
nagalm,
clipping,
soort
microfoon,
...
−
topic
−
formaat
van
de
klankbestanden:
we
gebruiken
16bit/16kHz/mono/PCM‐signed.
We
zullen
ook
een
maximale
grootte
opleggen
aan
de
bestanden.
Werkplan
van
het
project
−
zie
de
projectaanvraag
blz.
30
e.v.;
WP2
en
WP3:
de
beschrijvingen
hiervan
in
de
projectaanvraag
overlappen
enigszins.
We
stellen
daarom
enkele
aanpassingen
voor:
in
WP2
komt
alle
spraaktechnologie
werk,
(herkenner
en
bijkomende
modules,
audio‐segmenter
en
–indexer
en
gerelateerd
werk).
Daardoor
bekomen
we
WP2a:
herkenner,
WP2b:
segmenter/indexer
(zat
voordien
in
WP3).
In
WP3
zit
dan
alles
wat
met
de
webservice
te
maken
heeft.
In
de
Gantt
chart
(verderop)
is
met
deze
aanpassing
rekening
gehouden.
−
waar
namen
van
onderzoeksgroepen
vermeld
worden,
betekent
dit
dat
zij
verantwoordelijk
zijn
voor
de
vermelde
taak.
Dit
betekent
niet
dat
zij
de
enige
uitvoerder
ervan
zijn.
−
de
budgetverdeling
onderaan
de
beschrijving
van
elk
werkpakket
klopt
niet
overal.
Dat
is
later
rechtgezet
en
dit
zijn
de
juiste
gegevens:
WP3
€103k
(54k,
29k,
10k,
10k)
en
WP4
€25k
(5k,
5k,
5k,
5k,
5k).
Voor
de
andere
werkpakketen
en
in
de
samenvattende
tabellen
eerder
in
de
tekst
klopt
alles
wel.
−
hoe
lang
gaat
het
project
eigenlijk
duren?
In
de
projectaanvraag
werd
voor
het
spraakgedeelte
2
jaar
voorzien,
terwijl
op
blz.
3
van
het
voorstel
(in
het
algemene
gedeelte)
een
periode
van
2
jaar
en
7
maanden
wordt
voorzien
(waarvan
er
al
6
weken
voorbij
zijn).
De
financiers
stellen
zich
(vermoedelijk)
flexibel
op
en
we
kunnen
deze
extra
tijd
dus
wel
gebruiken
indien
nodig.
Maar
we
blijven
mikken
op
2
jaar
voor
het
spraakgedeelte,
verdeeld
volgens
de
Gantt
chart
verderop
in
dit
verslag.
De
start
van
het
eigenlijke
werk
zal
moeten
verschoven
worden
naar
het
ogenblik
waarop
de
geschikte
uitvoerders
kunnen
aangeworven
worden
en
kunnen
starten.
Vermoedelijk
wordt
dit
september
2010.
De
laatst
mogelijke
startdatum
is
1
oktober
2010
zodat
het
werk
nog
kan
afgerond
worden
tegen
30
september
2012
(de
uiterste
einddatum
vermeld
in
de
aanvraag).
−
verantwoordelijken
voor
de
werkpakketten
en
deliverables:
in
NL
altijd
UT
behalve
voor
WP3‐D1:
RU
(waar
staat
dit
ergens,
ik
vind
dit
nergens
terug);
in
VL:
ESAT
behalve
WP2b:
ELIS
−
WP1a:
requirements:
vermits
er
nog
geen
CLARIN
standaard
is,
stellen
we
deze
zelf
op.
Een
initiële
versie
kan
nu
gemaakt
worden;
naarmate
de
uitvoering
van
het
project
vordert
kunnen
daar
nog
dingen
bijkomen.
−
WP1b:
implementatie
van
de
standaarden:
blijft
zoals
het
is
−
WP2:
gebruiksvriendelijkheid
van
de
ASR
software
verhogen,
bijkomende
ASR
modules
(parameterinstelling
gebaseerd
op
de
antwoorden
van
de
gebruikers
op
specifieke
vragen,
interface
naar
AUTONOMATA
tools).
Er
moeten
bijkomende
taalmodellen
en
akoestische
modellen
gemaakt
worden;
dit
zal
echter
maar
gebeuren
als
er
tijd
voor
is
(tenslotte
blijft
dit
een
pilootproject).
(ESAT)
−
WP3a:
alle
taken
die
plaatsgrijpen
vóór
ASR:
segmentatie,
taaldetectie,
sprekerclustering,
...
(ELIS)
−
WP3b:
alle
modules
toegankelijk
maken
via
een
webservice,
bouw
van
een
webinterface
(UT).
Webinterface:
is
een
form
op
je
scherm
waarin
jij
alle
gegevens
zet
die
gebruikt
moeten
worden.
Webservice
is
de
service
zelf
die
het
doet.
Er
komt
een
soort
CLARIN‐template
hiervoor
zodat
je
een
zelfde
look‐and‐feel
krijgt
bij
alle
facetten
van
de
straat.
Maar
we
hoeven
daar
niet
op
te
wachten.
−
WP4:
gebruikerstesten:
blijft
zoals
het
is.
−
WP5:
disseminatie,
demonstrator,
documentatie:
blijft
zoals
het
is,
met
dien
verstande
dat
de
demonstrator
eigenlijk
bestaat
uit
wat
er
in
WP3b
werd
gebouwd
(de
webinterface).
−
Gantt
chart:
zie
verderop
in
dit
verslag
Actiepunten
−
Utwente
bezorgt
haar
lexicale
resources
aan
ESAT
−
ESAT
gaat
een
lijst
opstellen
van
de
requirements
waaraan
servers
moeten
voldoen
om
SPRAAK
te
kunnen
draaien.
Idem
voor
het
trainen
van
taalmodellen.
−
ESAT
gaat
een
ftp
server
inrichten
voor
de
data
van
de
gebruikers.
De
link
gaat
naar
Mark
KS
−
Utwente
gaat
uitzoeken
in
welke
formaten
de
gebruikers
hun
data
zullen
aanleveren.
−
Utwente
of
MPI?
:
toegang
regelen
voor
de
andere
deelnemers
op
de
clarin.nl
website
−
ESAT,
ELIS,
RU,
UTwente:
dataleveranciers
contacteren
teneinde
de
data
te
verkrijgen
en
te
kunnen
opladen
op
de
ftp‐server
−
RU:
Lou
gaat
bekijken
hoe
er
een
CLARIN
call
voor
tender
kan
geschreven
worden
zodat
uitgebreidere
deelname
van
de
gebruikers
verzorgd
kan
worden.
In
TTNWW
krijgen
zij
maar
5k
en
dat
is
heel
weinig.
−
Patrick/Arjan:
de
lijst
met
WP’s
wordt
herschreven
in
een
meer
praktisch
workflow‐ document.
Is
dit
nog
nodig
als
je
de
beschrijvingen
in
de
vorige
hoofding
leest?
Komt
dit
niet
gewoon
neer
op
een
update/verfijning
van
de
Gantt
chart?
TTNWW
Spraak
Gantt
chart
!"
#!$
#%!
"!
)*"+
opstellen requirements
)*",
implementatie CLARIN standaarden gebruiksvriendelijke ASR
)*%+ )*%, )*&
audio-segmenter/indexer en uitbreidingen webgebaseerde spraak services
)*-
bepaling metadata, gebruikerstesten
)*'
disseminatie, demonstrators, documentatie
!" #"" #%! "! !" #!" #%! "" !" #!& #%! "" !" #!' #%! "" !" #!( #%! "" !" #!$ #%! "" !" #"" #%! "" !" #!" #%! "% !" #!& #%! "% !" #!' #%! "% !" #!( #%! "% !" #!$ #%! "%
Screenshots
van
de
ASR
webinterface
van
Sheffield
(www.webasr.org)