Verslag van Conferentiebezoek
35th Annual Meeting of the Association for Computational Linguistics and
8th Conference of the European Chapter of the Association for Computational Linguistics 7 t/m 12 juli 1997 Gert Veldhuijzen van Zanten
1 Inleiding Dit is een verslag van mijn bezoek aan de eerste gezamenlijke bijeenkomst van de Amerikaanse en Europese afdelingen van de Association for Computational Linguistics (ACL). De bijeenkomst werd gehouden van 7 t/m 12 juli 1997 in de Universidad Nacional de Educacíon a Distancia (UNED), Madrid, Spanje. Ik bezocht er de hoofdconferentie en een daaropvolgende workshop over dialoogsystemen.
2 Conferentie De conferentie werd bezocht door zo’n vijfhonderd deelnemers, bestond uit een aantal sessies van vier presentaties, waarbij er steeds twee sessies parallel plaatsvonden. In totaal werden er 63 papers gepresenteerd. Daarnaast waren er een aantal studentsessies, en een tweetal invited talks.
2.1 Dinsdag 8 juli Mijn vliegtuig vertrok na enige vertraging om ongeveer 11 uur ‘s morgens en om iets over half twee landde het op het vliegveld Barajas van Madrid. Ik ging met de bus en taxi naar mijn hotel “Florida Norte” en nadat ik me daar een beetje geinstalleerd had ben in naar het conferentieterrein gelopen om de proceedings e.d. op te halen en de eerste praatjes bij te wonen; na twee praatjes in de sessie over Statistics and Meaning, ben ik overgestapt naar de sessie over “Generation”. 2.1.1 Sessie “Statistics and Meaning” A DOP Model for Semantic Interpretation Remko Bonnema, Rens Bod en Remko Scha Duo-presentatie; inleiding Rens Bod, verder Remko Bonnema de belangrijkste vraag die hierbij naar voren kwam is “wat is de eenheid die bepaald of twee subbomen in dezelfde categorie vallen waarover statistiek wordt bedreven. Te fijne onderverdeling levert teveel data-sparseness op en te grof levert te weinig generalisatie. Uit experimenten met het OVIS corpus blijkt dat syntactische categorie samen met semantische type de beste labelling geeft.
Verslag ACL/EACL '97, Madrid
1
Fertility Models for Statistical Natural Understanding Stephen Della Pietra, Mark Eptstein, Salim Roukos en Todd Ward. Hier werd natuurlijke-taalproduktie voorgesteld als een noisy channel, waardoor een formele taal “in het hoofd van de spreker/schrijver” verstuurt werd en er als natuurlijke taal uitkwam. Verschillende hidden-layer modellen worden gebruikt om vanuit de natuurlijke taal terug te redeneren naar de formele taal. 2.1.2 Sessie “Generation” An algorithm for Generating Referential Descriptions with Flexible Interfaces Helmut Horacek Een verhaal over de generatie van beschrijvingen die uniek verwijzen naar een object in een bepaalde scene, rekening houdend met linguistische beperkingen en met cognitieve beperkingen van de toehoorder. Applying Explanation-based Learning to Control and Speeding-up Natural Language Generation Günther Neuman Dit praatje was voor mij nauwelijks te volgen, waarschijnlijk omdat mij de benodigde HPSG-achtergrond ontbreekt, wat zijn LISZT-s en/of HANDEL-s?
2.2 Woensdag De woensdag begon met een invited talk van David Sadek, en vervolgens een sessie over Spoken en Multimodal interaction. De middag heb ik vrijgenomen, omdat er alleen praatjes waren over Finite State Technologies, Machine Translation, Syntax en Morphology. Geen van deze onderwerpen leek me direct relevant voor dialoogmanagement. Verder heb ik deze dag nog de demo van VerbMobil bekeken. Erg imposant was dat ze in dit spraak-naar-spraak vertaalsysteem bij de spraakherkenning gebruik maken van prosodie, om bv de verschillende betekenissen van het Duitse “noch” te achterhalen. En ook om zinsgrenzen te bepalen. 2.2.1 Invited talk Rational Agency as the basis for Natural Dialog: The ARTIMIS Technology David Sadek (CNET, France Telecom, Lannion, France) Zeer indrukwekkend praatje, helaas veel te veel sheets, dus veel interessante details werden alleen maar geflashed. Besproken werd een dialoogsysteem dat informatie kon geven over allerlei soorten telefonische information servers, zoals voor weerberichten en vacatures. Er zijn verschillende aanpakken mogelijk voor het modelleren van dialogen. Ten eerste is er de structurele aanpak, waarin dialogen worden beschreven m.b.v. eindigen automaten en/of grammatica’s. Een aanname achter deze aanpak is dat er achter dialogen een eindige reguliere structuur schuilgaat. Een tweede aanpak is die van de klassieke planbased modellering. Hierin staat het idee van “communication as action” centraal, speech acts veranderen de mentale toestand van de dialoogpartners op een manier die te plannen is. Het voordeel van deze aanpak is dat het een betere verklaring geeft voor dialoogfenomenen dan de structurele aanpak. Sadek ziet echter een probleem, dat er geen expliciet model voor gedrag wordt gegeven in deze aanpak. Hij stelt daarom een derde aanpak voor, die hij Rational Interaction noemt. (Hij geeft een referentie Cohen & Levesque, ACL ‘85.) Wat precies het verschil is met de plan-based aanpak wordt me echter nog niet helemaal duidelijk. Er wordt in het systeem niet langer naar doelen toegeredeneert, maar Sadek stelt dat
Verslag ACL/EACL '97, Madrid
2
het voldoende is om voor iedere intentie die het systeem heeft de reden te representeren waardoor die intentie ontstaan is. Hij noemt dit: Rational Effect. Het systeem bestaat uit verschillende schillen, waarbij de binnenste een model voor rationeel gedrag modelleert. Daaromheen bevindt zich een schil waarin communicatie wordt toegevoegd. Vervolgens cooperatief gedrag en tenslotte een schil waarin natuurlijke taal capaciteiten zijn opgenomen. Sadek stelt dat hijzich niet kan voorstellen dat het mogelijk is een dialoog systeem te maken dat niet in de basis een intelligent systeem is. Het ARTIMIS systeem is gebaseerd op een formele modale logica (kripke class KD45q) met daarin modale operatoren voor belief, intention en uncertainty, waarbij de intention operator niet eens een primitieve operatie is. Belangrijk zijn verder twee predicaten Feasible(a,p) en Done(a,p). Een aantal axioma’s modeleren rationeel gedrag, een aantal andere communicatie, en verdere zijn er nog een paar voor cooperatief gedrag. Sadek claimt dat dit voldoende is om alle gedrag van het systeem af te leiden. Verder beschrijft Sadek de werking van de natuurlijke taal componenten, een robuuste island-driven parser bepaald de betekenis van uitingen, en een generatiemodule vertaalt speech acts in natuurlijke taal. Uit de demo blijkt dat aan de laatste nog wel wat verbetert kan worden. De demo is verder indrukwekkend omdat het systeem vrijwel onmiddellijk antwoorden genereert. Iets dat voor een systeem dat op basis van first-principles speech acts berekent tot nu toe voor onmogelijk werd gehouden. Dat ie niet vals speelt demonstreert Sadek door on-line verschillende coöperativiteits axioma’s aan een uit te zetten en te laten zien hoe dat het gedrag van het systeem beinvloed. Of het voor ingewikkelder domeinen ook mogelijk zal blijken om realtime vanuit first-principles systeemuitingen te genereren blijft een vraag. In ieder geval is de interesse gewekt en ik zal zeker enige referenties natrekken. Erg jammer dat dit praatje niet vergezeld gaat van een paper in de proceedings. 2.2.2 Sessie Spoken and Multimodal Interaction Intonational Boundaries, Speech Repairs, and Discourse Markers: Modelling Spoken Dialog Peter Heeman en James Allen Beschrijft een methoden om de in de titel genoemde spontane spraak fenomenen met een geintegreerde aanpak op te sporen. De geintegreerde aanpak is nodig omdat er een grote mate van statistische interactie is tussen de fenomenen. Het was moeilijk om het praatje te volgen, omdat er een zeer grote hoeveelheid speech repairs te beluisteren viel. Tracking Initiative in Collaborative Dialogue Interactions Jennifer Chu-Carroll en Michial Brown. Er werd een pleidooi gehouden voor het onderscheid tussen taakinitiatief en dialooginitiatief. Er worden verschillende cues genoemd die verschuivingen van de twee soorten initiatief aanduiden. In een analyse van verschillende corpora wordt aangetoond dat door gebruik te maken van deze cues de predictie van initiatiefverschuivingen significant verbetert. Een zwak punt blijft dat de verschillende cues moeilijk automatisch te bepalen zijn, en tevens dat niet duidelijk wordt gemaakt hoe of waarom een dialoogsysteem er baat bij zou hebben om initiatiefverschuiving te kunnen voorspellen. PARADISE: A Framework for Evaluation Spoken Dialogue Agents Marilyn Walker, Diane Litman, Candace Kamm en Alicia Abella Er werd een raamwerk voor de evaluatie van dialoogsystemen gepresenteerd. In het raamwerk wordt user-satisfaction geoperationaliseerd als de gewogen som van een aantal
Verslag ACL/EACL '97, Madrid
3
tamelijk willekeurige metingen aan het systeem, onderverdeelt naar taak succes, efficientie metingen en kwalitatieve metingen. Twee belangrijke problemen kwamen bij mij naar boven borrellen: Als we dit soort evaluaties gebruiken, zullen systemen die zich aanpassen aan de gebruiker niet als beter uit de bus komen dan systemen die dat niet doen, omdat deze verschillen in de statistiek tenonder zullen gaan. Ten tweede, de aanname dat user-satisfaction te operationaliseren is als een lineaire combinatie van meetbare factoren in het systeem gedrag is op zijn minst dubieus. Het effect van een enkele factor die zeer slecht presteert is waarschijnlijk nooit op te vangen door op andere punten beter te presteren; de gebruiker zal zich er waarschijnlijk aan blijven ergeren. Unification-based Multimodal Integration Micheal Johnston, Philip Cohen, David McGee, Sharon Oviatt, James Pittman en Ira Smith Zeer aardig verhaal over het integreren van pen-bewegingen over een display met gesproken invoer. De integratie geschied door beide vormen van input te representeren als getypeerde feature structuren, en deze vervolgens te unificeren als de tijdsintervallen van de uitingen aan bepaalde criteria voldoen.
2.3 Donderdag De donderdag bestond voor mij uit een bezoek aan de Underspecification and Parallelism sessie. ‘s Middags was de ACL business meeting, maar ik heb in plaats daarvan een bezoek gebracht aan het beroemde “Prado” museum. 2.3.1 Sessie “Underspecification and Parallelism” Efficient Construction of Underspecified Semantics under Massive Ambiguity Jochen Dörre Presenteert een efficient algoritme om vanuit een parse-forest een compacte ondergespecificeerde semantische representatie te genereren. Het exponentiele gedrag dat zou ontstaan door alle lezingen van een massief ambigue zin te expanderen wordt voorkomen door rechtstreeks vanuit het parse-forest de semantiek te bepalen. A Theory of Parallelism and the Case of VP Ellipsis Jerry Hobbs en Andrew Kehler Goed gepresenteerd verhaal over parallellisme en ellipsis. De theorie is gebaseerd op een begrip van similarity, waarin twee termen “similar” zijn, als het predikaat hetzelfde is en als de argumenten ofwel co-referentiëel zijn, ofwel “similar”. Geeft verklaringen voor het feit dat bepaalde strict en sloppy lezingen van verwijzende uitdrukkingen al dan niet mogelijk zijn. On Interpreting F-Structures as UDRS-s J. van Genabith en Richard Crouch Laat zien dat er een correspondentie bestaat tussen F-structuren en UDRS-s. A Uniform Approach to Underspecification and Parallelism Joachim Niehren, Manfred Pinkal en Peter Ruhrberg Een hogere orde formalisme voor de behandeling van onderspecificatie en parallellisme. Maakt gebruik van zg. context variabelen, die kunnen staan voor termen met een gat erin, waarin een term kan worden gesubstitueerd. Er lijkt een interessante parallel te zijn met het paper van Hobbs.
Verslag ACL/EACL '97, Madrid
4
3 Workshop: Interactive Spoken Dialog Systems: Bringing Speech and NLP Together in Real Applications. 3.1 Vrijdag De vrijdag begon met een drietal tutorials van uiteenlopende kwaliteit. Vervolgens een sessie met drie papers en ‘s middags een poster sessie. 3.1.1 Tutorials Automatic Speech Recognition A. Acero In deze tutorial werd een zeer aardig overzicht van spraakherkenning gegeven; Hidden Markov Models, Baum-Welch werden besproken, maar ook de problemen die zich in de praktijk aandienen Text-to-Speech Synthesis M. Macchi Op deze workshop tamelijk misplaatste tutorial. Ging voor 80% over problemen die in een dialoogsysteem helemaal niet voorkomen. Alleen het gedeelte over phonetics-tospeech was relevant. Dialogue Modelling J. Allen Vaag verhaal over een opzetje (meer was het niet) van een taxonomie voor dialoogsystemen. Zeer teleurstellend aangezien Allen goed werk verricht heeft op het gebied dialoogsystemen. 3.1.2 Paper Session Evaluation Interactive Dialogue Systems: Extending Component Evaluation to Integrated System Evaluation Marilyn Walker, Diane Litman, Candace Kamm en Alicia Abella Hetzelfde verhaal als woensdag op de Spoken and Multimodal Interaction Sessie van de hoofdconferentie, met hier en daar wat andere accenten. A Generic Template to Evaluate Integrate Components in Spoken Dialogue Systems Gavin Churcher, Eric Atwell en Clive Souter Verslag van een mislukte poging om mensen die dialoogsystemen maken een oordeel te ontlokken over de relatieve belangrijkheid van een klein aantal dialoogfactoren. Het EAGLES sausje kon niet verhullen dat het verhaal eigenlijk nergens over ging. Generality and Objectivity: Central Issues in Putting a Dialogue Evaluation Tool into Practical Use Laila Dybkjaer, Niels Ole Bernsen en Hans Dybkjaer Aardig verhaal over een studie van een dialoogcorpus dat m.b.v. Wizard-of-Oz experimenten verzameld was. Aan de hand van het corpus is een aantal “guidelines for dialogue behaviour” samengesteld en vervolgens is voor een ander deel van het corpus getest welke mate van overeenstemming twee onderzoekers konden bereiken over wat de oorzaken waren (in termen van overtredingen van de guidelines) van dingen die in de dialoog foutliepen. Aardig is dat de maxims van Grice een subset van de guidelines waren. Verslag ACL/EACL '97, Madrid
5
Er ontstond na afloop enige discussie over de algemene geldigheid van de guidelines; die stond zeker niet voor iedereen vast. Het lijkt erop dat veel van de guidelines alleen voorlopige guidelines zijn, die alleen gelden zolang de technologie meer geavanceerde mogelijkheden nog niet toelaat. 3.1.3 Poster session Er werden tien posters gepresenteerd. Bij een aantal van deze posters heb ik interessante discussies kunnen voeren. Ik noem alleen de posters die enige positieve indruk hebben achtergelaten. Planning Efficient Mixed Initiative Dialogue Eli Hagen en Brigitte Grote Een interessante poster. Ze maakten duidelijk hoe uit een combinatie van een taakmodel en een dialoogmodel min-of-meer automatisch de systeemuitingen te bepalen zijn. Lijkt erg op hoe de dialoog manager in OVIS2 werkt, alleen wordt er een aparte expliciete representatie van een dialoogmodel gebruikt. Closing Troubleshooting Segments in User-System Dialogue D. Duff, F. Reeder en S. LuperFoy Over het voorkomen en behandelen van communicatieproblemen. Formal Representation of Ambiguity Kees van Deemter Deze poster ging over iets heel anders dan het paper in de proceedings deed vermoeden, namelijk over een veilige manier om ambiguiteiten te representeren m.b.v. onderspecificatie.
3.2 Zaterdag Het vervolg van de workshop. 3.2.1 Paper Session “Automatic Speech Recognition” The “Casual Cashmere Diaper Bag”: Constraining Speech Recognition using Examples Paul Martin Aardig verhaal over het automatische genereren van een taalmodel voor de spraakherkenner van een systeem waarmee je door een catalogus van een warenhuis kon browsen. Het probleem is dat je niet alle noun-noun compounds zoals “casual cashmere diaper bag” wilt toestaan, om de spraakherkennerperformance anders heel beroerd wordt. Er werd een methode gegeven om alleen die combinaties toe te laten die in de catalogus voorkwamen, plus nog een aantal andere combinatie die op basis van een bepaalde generalisatie berekend konden worden. Grammatical Analysis in the OVIS spoken Dialog System Mark-Jan Nederhof, Gosse Bouma, Rob Koeling en Gertjan van Noord. Een alleraardigst verhaal van onze zeer gewaardeerde collega’s, waarin werd laten zien dat gedegen formeel gefundeerd werk ook nog efficient kan zijn. Filtering Errors and Repairing Linguistic Anomalies for Spoken Dialogue Systems David Roussel en Ariane Halber Een verhaal dat niet te volgen was vanwege het zeer gebrekkige Engels en lage volume van de spreker. Voor zover het nog wel te volgen was, leek me bovendien dat de Verslag ACL/EACL '97, Madrid
6
hele operatie zinloos. Er werd namelijk een techniek beschreven om uit een spraakherkenner die de N beste zinnen opleverde om te vormen naar een soort lattice die vervolgens nog met een-of-ander mechanisme bewerkt werd om enige robuustheid te bewerkstelligen voor de parser. Het leek erop dat de hele operatie niet nodig was geweest als de spraakherkenner direct een woordgraaf had opgeleverd. 3.2.2 Paper Session “Usibility/Portability” How to Obey the 7 Commandments for Spoken Dialogue? Emiel Krahmer, Jan Landsbergen en Xavier Pouteau Aardige poging om een ontwerp te beschrijven vanuit een van te voren bepaald idee over de kwaliteit van een dialoogsysteem. Met enige humor gebracht. Towards a PURE Spoken Dialogue System for Information Access Rajeev Agarwal Beschreef een PURE (Portable, Usable, Robust en Extensible) architectuur voor een gesproken dialoogsysteem dat toegang verschaft tot informatie die via webpagina’s kan worden opgevraagd. Het systeem lijkt in hoge mate portable, voor verschillende domeinen, maar heeft wel een aantal beperkingen. Interessante aanpak. A programmable Multi-Blackboard Architecture for Dialogue Processing Systems Matthias Denecke Hoewel ie wat mij betreft beter de multi-blackboard had kunnen weglaten toch wel een aardig verhaal. De dialoog is gebaseerd op het idee dat in sommige (de meeste) informatiedialogen, een database query moet worden gedaan waarvoor eerst een aantal slots moet worden gevuld. Ook als geen van deze slots een waarde heeft zou er al een query kunnen plaatvinden, alleen zou die dan een enorme hoeveelheid records opleveren. In dit systeem wordt hiervoor een compacte representatie opgeleverd, waarin alle record over elkaar heen worden gegooid, en de verschillende velden (features in een featurestructuur) verzamelingen van voorkomende waarden krijgen toegewezen. Deze verzamelingen dienen vervolgens om gerichte vragen te stellen. 3.2.3 Paper Session “Dialog Strategies” Corpus-based Information Presentation for a Spoken Public Transport Information System Mieke Rats, R.J. Vark en J.P.M. de Vreught Geeft een aantal voorstellen voor verbeteringen aan het VIOS systeem. Met name de presentatiefase wordt onder de loep genomen. De voorstellen zijn gemotiveerd door een onderzoek van een corpus van mens-mens dialogen, en het blijft dus de vraag of die aanpassing haalbaar zijn, en of ze in een mens-machine dialogen tot vergelijkbaar efficiente dialogen leiden. Duidelijk is wel dat er in de presentatiefase verbeteringen wenselijk zijn. Dialogue Strategies for Improving the Usability of Telephone Human-Machine Communication Morena Danieli, Elisabetta Gerbino en Loreta Moisa Een zeer aardig verhaal over het nut van confirmation en clarification sub-dialogen in praktische dialoogsystemen. Speech-Graphics Dialogue Systems Alan Biermann, Michael Fulkerson en Greg Keim Begon met een pleidooi voor het expliciet modelleren van een user-model in dialoogsystemen. Verwees naar het werk van Smith en Hipp over Missing Axiom Theory. VervolVerslag ACL/EACL '97, Madrid
7
gens ging het over het automatisch leren van regels over de manier waarop bepaalde informatie aan de gebruiker moet worden gepresenteerd. 3.2.4 Discussie/Panel “Dialog Systems of the Future” Het panel bestond uit Gene Ball van Microsoft Research, Jay Wilpen van de spraak groep van AT&T, Jacques Terken van het IPO, en Paul Martin van Sun. Gene Ball had een verhaal over de cool van gesproken interfaces, en gaf een demonstratie van een geanimeerd figuurtje waarmee de gebruiker een eenvoudige dialoog kon voeren. Het figuurtje leidde je ondertussen rond door de webpages van Microsoft research. Jay Wilpen toonde een video van een telefonisch systeem dat als een soort persoonlijke assistent kon optreden, met features zoals het opbellen van personen door hun naam in te spreken, agenda bijhouden, voice mail en gesproken herinneringen. Jacques Terken benadrukte het belang van onderzoek naar taal- en spraakgeneratie en liet een bandje horen met de nieuwste spraaksynthese van het IPO. Dat klonk erg goed. Tenslotte had Paul Martin nog een paar losse opmerkingen. Allen voorspelden een gouden toekomst voor gesproken dialoogsystemen, maar er waren wel een paar bedenkingen. De echter killer-application was nog niet gevonden, en tot die tijd was spraak vooral een cool gadget. Spraak is vooral handig in hands-busy eyes-busy applications, en zal in niet mobiele situaties niet gemakkelijk het keyboard verdringen. Spraakinterfaces in kantoren hebben het nadeel dat iedereen mee kan luisteren. De discussie zwalkte een beetje heen en weer naar verschillende onderwerpen, zoals het belang van usermodelling, evaluatie. Er blijken in geimplementeerde systemen ontzettend veel zaken impliciet ingeprogrammeerd te worden zonder dat daar een expliciete theoretische fundering voor bestaat. Er is duidelijk behoefte aan een meer fundamentele aanpak. Op een vraag of de tijd al rijp was voor de implementatie van pragmatiek, antwoordde Jacques Terken zeer terecht: “Iedereen gebruikt al pragmatiek, alleen niemand gebruikt semantiek.”
Verslag ACL/EACL '97, Madrid
8