ParleBode Het Schettergezang van de Vink Domineert het Vogelconcert
Nummer 35 September-October 1997
Jrgng 5, Nr. 6
Inhoudsopgave De WauwelWok Computerhumor: Interview Geautomatiseerd Nederlands Tweetalige hersenen Ma Mignonne Djoerd H. naar Bulgarije en Canada Call Centre Pages Virtueel Theater: Interviews Parlevink / Deelprojecten / Overzicht Afstudeerders Stages en D-opdrachten, Recente Publicaties Nieuwe projecten binnen Parlevink Monitoring: Binnenlandse Zaken stelt 1 ton beschikbaar voor onderzoek op het gebied van (deels geautomatiseerde) informatieverstrekkende systemen binnen Nederlandse gemeenten. Dit onderzoek is deel van het OL2000 project. Roel van Veen is aangesteld om dit onderzoek mede vorm te geven. Belastingdienst: Deze dienst wil graag onderzoek starten op het terrein van information retrieval en de betekenis die dit onderwerp heeft voor de belastingdienst. Djoerd Hiemstra gaat een poosje voor hen aan het werk. 1
D.C. Dennett goes Parlevink DD heeft toegezegd 7 october 1997 een informele Parlevinkbijeenkomst op te sieren met zijn aanwezigheid.
D. Hofstadter went Parlevink DH is 16 juli langs geweest. Zie volgende ParleBode voor verslag.
Verantwoording Jaargang 5, Nr.6 van de PARLEBODE, Taaluitgeverij met nieuws en informatie over het Neslia Paniculata PARLEVINK project. De informatie richt Enschede zich vooral op studenten met belangstelling voor, of al ’werkzaam’ binnen het Parlevink project. Onderzoek (en dus ook stage en D-opdrachten) vindt plaats op Uitgeverij voor Lezers en Schrijvers het terrein van taaltheorie, taaltechnologie en van Talige Boeken. neurale netwerken. Mens-machine interactie en de toegankelijkheid van informatiesystemen (incl. Internet/WWW) zijn de meer globale aandachtsgebieden van het project. Specificatie, parallelle processen en software engineering zijn invalshoeken die soms ook aan bod komen. Het ontwerpen van programmeertalen en bijbehorende grammatica’s en compilers valt ook binnen het belangstellingsgebied van dit project. Kunnen computers taal begrijpen is een onderliggend thema.
Kijk voor informatie over Parlevink-activiteiten, discussies, wauwelwokjes, aankondigingen, korte artikeltjes, etc. op inf.seti.parlevink. Op WWW is ook informatie over Parlevink beschikbaar. Kijk op: http://wwwseti.cs.utwente.nl/Docs/parlevink/parlevink.html En als je dan toch bezig bent, http://wwwseti.cs.utwente.nl/~scollo/seti-i3.html voor links naar deelprojecten van Parlevink, en http://wwwseti.cs.utwente.nl/Docs/parlevink/sigparse voor informatie op het gebied van parsing, en http://twentyone.tpd.tno.nl/ voor informatie over project ‘Twenty-One’.
Laatste Nieuws Vandaag: Documentaire van Thomas Rodsky over taalontwikkeling van jonge kinderen (1 tot 3 jaar) die niet geheel volgens plan verloopt. Zo stuitte Rodsky in Appingedam op een peuter die in plaats van het Appingedams dat zijn ouders spraken, het Indiaas machtig bleek te zijn. Ondanks pogingen van ouders, artsen en linguïsten is de peuter niet op andere gedachten te brengen.
Bezorging
Hulp bij de samenstelling van ook deze ParleBode weer van het SETI-Promo-Team (Charlotte & Alice), Djoerd en vele anderen. 2
GEEN PARLEBODE VANGEN?
ONT-
Zie colofon rechtsonder deze pagina onder kopje Bezorging
Franse taalpolitie Francofone autoriteiten in Canada zijn op het net op oorlogspad, laat Marco van het Hoog weten vanuit Montreal. De Office de la Langue Francaise (OLF) van de Franstalige provincies maant bedrijven dat ze hun homepages in de Franse taal moeten opstellen. Weigeraars riskeren boetes. Het bedrijf Micro-Bytes Logiciels zag zich genoodzaakt de eigen website uit de lucht te halen ondanks het feit dat 75 procent van de Engelstalige informatie ook het Frans beschikbaar was. The Gazette heeft er een - Engelstalig verhaal over. http://www.microbytes.com/ http://www.montrealgazette.com/ARCHIVES/970614quebec1.html
Ambitieus en gedegen Of het nu komt omdat de wijzen uit het oosten komen of omdat de gemeente Enschede samenwerkt met de Universiteit Twente is onbekend, maar zeker is dat de KenUw-Rechten pilot in Enschede bezig is zich tot een toonaangevend project te ontwikkelen. Onlangs is de start gemaakt met het bouwen van een uniek kennissysteem dat de basis moet gaan vormen van een virtueel loket Bouwen & Wonen. "Er moet nog veel gebeuren" zo tempert Hans Koenders het optimisme "we zijn begonnen met slechts drie produkten en dat is al een enorme klus. Van elk produkt maken we nu een complete analyse van de regelgeving en het achterliggende administratieve proces. Resultaat is onder meer een soort beslissingsboom of stroomschema waarmee afnemers afhankelijk van hun vraagpatroon een route in kunnen volgen. Dat levert zelfs bij eenvoudige produkten al snel een notitie op van een pagina of tien." Bij de drie produkten die Enschede momenteel uittest zitten niet direct de eenvoudigste. Bij de vraag naar (huur)woningen wil Enschede expliciet samenwerking zoeken met woningbouwverenigingen en makelaars. "Het is nu de tijd om de hobbels die je op je weg tegenkomt in kaart te brengen. Interorganisatorische samenwerking hoort daarbij. Bovendien, wat is een loket voor Bouwen & Wonen als daar geen informatie over beschikbare woningen in zit?" zo verklaart Koenders de keuze voor het traject. Is een produkt eenmaal geheel geanalyseerd dan is het onderbrengen van de informatie in het kennissysteem een relatief kleine stap. Daarbij is het echter niet ondenkbaar dat 3
naarmate het aantal produkten in het virtuele loket stijgt er door de integratie ook technische problemen kunnen ontstaan. Enschede hoopt aan het eind van het jaar de belangrijkste van de 200 relevante produkten en diensten in het systeem te hebben ondergebracht. Eind juni is een eerste prototype met beperkte inhoud gereed die uitgebreid in het college van B&W besproken zal worden. Niet alleen in het ontwikkelen van het virtuele loket is Enschede voortvarend bezig, ook de organisatorische omslag begint in Enschede werkelijkheid te worden. De onlangs met elkaar gefuseerde Bouw- en Milieudiensten zullen alle loketten op iin plek gaan plaatsen. Dit vergt een behoorlijke verbouwing van het centrale pand maar wordt toch uitgevoerd ondanks het feit dat er plannen zijn om over enkele jaren een compleet nieuw stadskantoor te bouwen waar alle gemeentelijke diensten in gehuisvest zullen worden. Daarnaast krijgt de pilot in Enschede steeds duidelijker politieke steun. Wethouder Marco Swart is al vanaf het begin enthousiast maar nu willen ook raadsleden meer weten en zal het project en de demo binnenkort in de commissie middelen gepresenteerd worden. Heel concreet en tastbaar gaat de samenwerking met KPN worden. Binnenkort start vanuit de KPN landelijk een proef met informatiezuilen. Een aantal hiervan zullen in Enschede geplaatst worden met ondermeer de informatie vanuit het Bouwen & Wonen project. Hoewel er nog discussie is over het aantal in Enschede te plaatsen zuilen (KPN wil er drie plaatsen, Enschede liefst 60) en de menustructuur die erg aanbod gericht is zal de proef in Enschede zeker doorgang vinden.
Van: C. H. & D. van Schooneveld
Datum: Zaterdag 26 juli 1997 15:16 --------------------------------------------------------------------------re: recensie van Barsky, Noam Chomsky Naar aanleiding van de recensie van Robert F. Barsky, Noam Chomsky, door H. Brandt Corstius (NRC Handelsblad 18.7.1997 Boeken 7) de volgende kanttekening. Na het verschijnen van Chomsky’s Syntactic Structures in 1957 in de serie Janua Linguarum van Mouton en voor mijn vertrek van Leiden naar Stanford in 1959 heb ik met A.A. Reichling onderhandeld over het opnemen van een Engelse vertaling van zijn bekende dissertatie "Het Woord" in dezelfde serie, waarvan ik redacteur was. Reichling was toen nog bijzonder goed te spreken over Chomsky’s Syntactic Structures, en noemde het boekje "een juweeltje" of iets dergelijks. Ikzelf had het boekje voor de Janua Lingarum willen weigeren, omdat het als basis heeft de op de 19e eeuwse Junggrammatiker teruggaande distributionalistische theorie van Chomsky’s leermeester Z.S. Harris, die volgens mij nergens toe kan leiden. De directeur van de uitgeverij Mouton, P. de Ridder, heeft mij toen overtuigd dat de Janua serie een forum zou moeten zijn waarin diverse ideeen verkondigd konden worden. Derhalve hebben we het toch in de serie opgenomen. Ik ben het in één opzicht met de heer Brandt Corstius oneens, namelijk wanneer hij Chomsky de grootste taalkundige van deze eeuw noemt. Er zijn helaas vrij talrijke in de wetenschap actieve Amerikanen die personen, feiten en logische redeneringen aan hun laars lappen als ze denken dat ze daarmee hun carrière kunnen bevorderen. Zodoende worden ze bekend zonder nochtans groot te zijn. Chomsky moge de bekendste taalkundige van deze eeuw zijn, de grootste is ongetwijfeld de tot Amerikaan genaturaliseerde Rus Roman Jakobson, in leven hoogleraar aan Harvard en aan het Massachusetts Institute of Technology, van wie Chomsky verschillende ideeen heeft overgenomen en verdraaid. Als men de salarissen nutteloos betaald aan Chomsky's volgelingen gaat berekenen, heeft hij een schade aan de taalwetenschap toegebracht die waarschijnlijk in de miljarden dollars loopt. Prof. Dr. C. H. van Schooneveld 4
Theater Pagina’s http://www.nic.surfnet.nl/nlmenu.eng/kucu/thea.html http://www.dino.nl/cabaretweb/ http://www.aub.nl/ http://www.ai.mit.edu/projects/infolab/globe.html
Einde van de WauwelWok
Wetenschap, Cultuur & Samenleving THEMA Nummer 3, September/Oktober 1997-09-03
MACHINALE moppen Robert van Willigenburg Het zal nog tientallen jaren duren voordat een computer echt bedreven is in de subtiliteiten die humor vergt. Toch zijn er al verrassende resultaten geboekt. Vooral eenvoudige ’talige’ humor laat zich vrij gemakkelijk in modellen en formules vangen.
Julia en Robyn discussiëren via Internet. Robyn: "Hoe voel je je?" Julia: "Vreselijk" Robyn: "Waarom, Julia?" Julia: "Ik heb last van PMS" Robyn: "Julia, ben je menselijk?" Julia: "Komt de paus uit Polen?" Robyn: "Ja, Julia, maar ben jij menselijk?" Julia knipoogt. Robyn: "Julia, ben je een computer?" Julia is beledigd door de vraag. Robyn: "Julia, ben je een vrouw?" Julia: "Ik ben vrouwelijk." Robyn: "En, Julia, ben je menselijk?" Julia: "Niet wanneer ik ongesteld ben, Robyn."
De discussie hiernaast is via het beeldscherm gevoerd. Julia is inderdaad geen mens maar een chatterbot, een computerprogramma dat in staat is gesprekken te voeren. Ze doet haar uiterste best om via het beeldscherm zo menselijk mogelijk over te komen. Julia is ontwikkeld aan de Carnegie Mellon Universiteit in het Amerikaanse Pittsburgh. De grapjes die Julia maakt, zijn door de programmeurs ingeblikt maar worden niet zomaar volgens een willekeurig schema afgedraaid. Julia is in staat te associëren met woorden en zinspatronen. Tegelijk probeert ze het gesprek een bepaalde kant op te sturen.
Wanneer Julia vraagt: "Wat voor dieren had u als kind?", dan is de kans erg groot dat de gebruiker een aantal knaagdieren opsomt. De vooraf geprogrammeerde opmerking "Cavia's hebben ongeveer de intelligentie van een komkommer" maakt dan deel uit van de context. Mocht de gebruiker een onlogisch of vaag antwoord geven, dan begint Julia te vertellen over haar eigen jeugd op de boerderij. Daarna kan ze alsnog de grap maken. Slimmerikken die 5
een wedervraag stellen, zoals "waarom wil je dat weten",krijgen als antwoord "Oh, ik ben gewoon nieuwsgierig". Tot op heden is Julia overigens vooral gespecialiseerd in discussies over huisdieren in het algemeen en katten (ze heeft er zelf twee) in het bijzonder. Om Internetgebruikers met opspelende hormonen op het verkeerde been te zetten, is Julia bovendien bedreven in het afwijzen van aanzoeken en oneerbare voorstellen.
Slapstick De makers van Julia zijn grotendeels afkomstig uit het veld van de linguïstiek, het automatisch vertalen en kunstmatige intelligentie. Een breed vakgebied waartoe ook prof.dr ir Anton Nijholt van de vakgroep Software Engineering en Theoretische Informatica (SETI) aan de Universiteit Twente zich mag rekenen. Eind 1996 organiseerde hij een internationale workshop over 'computationele humor' in Enschede. De hele wereldtop in het betrekkelijk kleine vakgebied kwam opdraven. Het onderzoek en zeker de praktische toepassing van humor die door de computer wordt begrepen of zelfs gegenereerd, staat ondanks de stormachtige ontwikkelingen in de informatisering nog steeds in de kinderschoenen. Het concentreert zich vooral op taal. Non-verbale humor denk bijvoorbeeld aan slapstick of het trekken van gekke bekken - is nog moeilijker in formules en programma's te vatten. Nijholt: "We zijn hier in de vakgroep al jaren bezig met het modelleren van taalgebruik om teksten machinaal te vertalen. Het doel is natuurlijk om elke tekst aan te kunnen. Daarbij stuit je onherroepelijk op expliciete of impliciete humor. Dat is een aspect van de taal dat zich nog veel moeilijker laat definiëren. Want bij het vertalen moet je een tekst soms niet al te letterlijk nemen. Sinds een paar jaar zijn we theorieën aan het formuleren over de manier waarop een computer daarmee om moet gaan." De belangrijkste vorderingen op dit gebied zijn vooral gemaakt op het gebied van het onderzoek gericht op het humoristische gebruik van homoniemen en synoniemen. Er zijn zogeheten script-technieken die een computer eenvoudige vormen van talige humor kunnen laten herkennen en genereren. Nijholt: "Op het gebied van de zinsbouw en in mindere mate de betekenis van woorden worden echt vorderingen gemaakt. De taal is tot op zekere hoogte inmiddels zo wiskundig gemodelleerd dat je het in computerprogramma's kunt omzetten. Maar de rest, zeker het begrip van de context van een tekst, staat nog op een laag niveau."
In Twente wordt op dit gebied niet zoveel praktisch onderzoek gedaan. Het is vooral theorievorming. In het buitenland zijn wel toepassingen gecreërd. Onderzoekers van de universiteit van Edinburgh ontwikkelden JAPE: Joke Analysis and Production Engine - een grapjes analyserend en producerend programma. JAPE verzint raadseltjes op het niveau van zinsbouw, klank en vorm. Het levert vooralsnog geen dijenkletsers op:
"Welke groente huilt na de winter? - Een lente-ui." JAPE is in staat dergelijke raadseltjes zelf te verzinnen. Hij kiest een woord, analyseert het en brengt het in verband met andere woorden. Hij begint meestal bij het resultaat. Lente-ui is in dit voorbeeld dus het eerst gekozen woord. In zijn elektronische woordenboek zoekt hij de associaties en vindt dan bijvoorbeeld "Lente - seizoen - winter" en "ui -groente - huilen". Die 6
gegevens combineert hij via een acceptabele zinsbouw tot de vorm van een eenvoudige vraag met een kort antwoord. De babbelende conversatie-analyserende computer Julia, ontstaan in het begin van de jaren ’90, is niet de enige in haar generatie. Een afstammeling van Julia is Elmo, een vergelijkbare robot die deel uitmaakt van een computerspel dat een virtuele wereld voorstelt. Meerdere spelers kunnen deelnemen aan het spel en bij Elmo aankloppen voor assistentie. Zelf leert Elmo ook zijn ’omgeving’ kennen. Samen met de spelers bouwt hij ervaring op. Elmo is in Georgetown (VS) geïntegreerd met JAPE. Niet in eerste instantie om Elmo vriendelijker of intelligenter te laten lijken, maar meer met de bedoeling om te ontdekken of Elmo op een spontane manier gedoseerde grapjes kon brengen. De onderzoekers onderscheidden verschillende mogelijke momenten om de raadsels op het scherm te laten komen. De meest voor de hand liggende vorm is de directe vraag van de gebruiker: "Elmo, kun je me een grapje vertellen?" Omdat JAPE nu gecombineerd is met een babbelmachine, zal hij eerst reageren met een antwoord als: "Okee, maar hij is niet zo heel leuk", waarna pas het raadseltje komt. Een slimme manier om 'onverwacht' humor in te bouwen is door het te gebruiken bij een gebrek aan gespreksstof. Wanneer Elmo het antwoord op een bepaalde vraag van een medespeler in de virtuele wereld niet weet, dan zoekt hij een steekwoord uit de vraagstelling en gaat er mee associëren. De gebruiker krijgt dan een raadsel of een stelling voorgeschoteld. Maar vaak gaat de associatie te ver. Dan Loehr van Georgetown University geeft in zijn analyse van de koppeling tussen JAPE en Elmo twee duidelijke voorbeelden van de wijze waarop het genereren van grapjes precies goed of precies mis kan gaan. De situatie was als volgt:: een speler vraagt aan Elmo of de hond die in het spel voorkomt hem zal bijten. (De tekst is in het Engels). You say, "Elmo, will the dog bite me?? Elmo says, "Hmmm..." Elmo says, "What do you call affection that is used to store data?" Elmo says, "A love byte" De computer heeft hier het woord 'bite' geassocieerd met 'byte', en als woordgrapje de betekenis van bijten behouden. Daarna is de computerterm, 'byte' terechtgekomen bij 'datastorage' (data-opslag). De grap is onschuldig en zelfs vrij elegant als ontwijkend antwoord op de vraag. Maar het had net zo goed als volgt kunnen gaan: You say, "Elmo, will the dog bite me?? Elmo says, "Hmmm..." Elmo says, "What do you get when you cross a female relative with an insect nest?" Elmo says, "An aunt hill." Het woord 'bite' is ergens in het woordenboek van Elmo geassocieerd met 'insect', waarna 'ant' (mier) op de proppen kwam, dat weer fonologisch veranderd is in 'aunt' (tante). Heel erg vergezocht dus, en eigenlijk gewoon niet leuk voor de argeloze gebruiker van de computer. De proef met het combineren van JAPE en Elmo slaagde, ook al was het programma traag en werd de humor nog als onnatuurlijk ervaren. Elmo is nu aan het bijleren.
7
Algoritme Het ten behoeve van de computer modelleren van echt menselijke interpretatie van humor staat nagenoeg gelijk aan een Tantaluskwelling. Behalve dat het nauwelijks mogelijk is om zoiets subtiels als goede smaak in te bouwen, is het probleem vooral dat een computer behoefte heeft aan regels. Zelfs een uitzondering is voor de computer een regel, omdat hij nu eenmaal geprogrammeerd is. Een computer kan combineren en associëren op basis van wat hij uit zijn databanken heeft opgediept. Wanneer hij volgens een bepaalde wiskundige formule een grap genereert, wil dat niet meteen zeggen dat die grap leuk is. Nog ingewikkelder wordt het, wanneer de menselijke gebruiker van de computer, degene die van de grap kennisneemt, juist weer moet lachen om zo'n stompzinnige poging tot humor. Daarmee wordt niet-leuk vanzelf weer leuk. Al in de jaren zestig was er Eliza, de patiënt-vriendelijke, luisterende psychotherapeut. Veel gebruikers werden gefopt door de manier waarop Eliza het gesprek gaande hield. Wanneer iemand bijvoorbeeld zei: "Ik voel me niet goed", dan kwam er antwoord in de trant van "hoe zou je je willen voelen", of simpelweg "vertel verder". Hilarisch was het moment waarop Eliza converseerde met een andere computer, Parry, die was geprogrammeerd om zich te gedragen als paranoïde patiënt. Parry werd totaal achterdochtig van de rustige houding van Eliza. Wanneer Parry bijvoorbeeld zei "Ik denk dat je me niet begrijpt", reageerde Eliza met "Zou je willen dat ik je begreep?", waarna Parry vertwijfeld uitriep: "Waarom vraag je dat?". Het resultaat kan komisch zijn, maar dat wil nog niet zeggen dat de computer daarmee begrijpt wat er gebeurt. Nijholt: "Maar wat betekent begrijpen bij een computer? Dat twee plus drie gelijk is aan vijf, dat is ook maar aangeleerd. We moeten denk ik accepteren dat computers nu eenmaal zo werken. Het is dan helemaal niet zo vreemd om te proberen het menselijk gedrag te modelleren. Je kunt je net zo goed afvragen in hoeverre bijvoorbeeld verliefdheid of andere vormen van ons gedrag niet doodgewoon mechanismen zijn."
Ruzie Het onderzoek naar computationele humor gaat tegenwoordig steeds meer in de richting van de filosofie. In ieder geval leert het ons hoe ingewikkeld we zelf in elkaar zitten. Omdat het ondoenlijk is alle mogelijke referenties, associaties en eigenlijk de kennis van de hele wereldgeschiedenis te modelleren, wordt het meeste succes geboekt in onderzoeksgebieden die afgebakend zijn. Nijholt is niettemin dwars genoeg om te vinden dat de conventionele manier van het zoeken naar oplossingen omgedraaid moet worden. "Er bestaan modellen voor de manier waarop mensen communiceren. Er wordt meestal van uitgegaan dat een geslaagde uitwisseling van informatie een voorbeeld is van goede communicatie. Er past een bepaalde dialoog bij een bepaalde vorm van informatieoverdracht. Maar je kunt je afvragen of dat de juiste benadering is. Ik denk dat de sleutel ligt bij het zoeken naar dingen die juist niet passen. Misschien wordt er te veel gedacht vanuit datgene wat de computer wèl kan, namelijk het opzetten van een sluitende conversatie. Het lijkt mij veel interessanter om bijvoorbeeld een ruzie te modelleren." Maar zoals bij zoveel takken van wetenschap, kost het 'opvoeden' van de computer tijd en dus geld. Nijholt: "Het gereedschap laat het misschien wel toe, maar er zijn heel veel mensen voor nodig. Met name informatici zijn pas geneigd om iets te doen wanneer het geld opbrengt, dus dan moet je er de industrie al achter hebben staan. Maar bovendien is, om echt flinke stappen vooruit te kunnen doen, hier samenwerking nodig tussen verschillende disciplines. Denk maar aan filosofie, biologie, neurologie, psychologie, taalkunde, kunstmatige intelligentie. Er staan nog steeds muren tussen al die afdelingen. Zoals zo vaak
8
is er nog nauwelijks sprake van dat de ene wetenschapper weet wat de andere aan het doen is."
Een van de problemen is de dosering van grapjes bij de interactie tussen mens en computer. Wanneer een leek een ’intelligente’, reagerende computer raadpleegt, moet de gebruiker het gevoel hebben op een prettige manier te worden geholpen. Nijholt: "Mag je dat ding zomaar allerlei grappen laten maken, of kap je dat af? Het is niet de bedoeling om de gebruiker te irriteren." Nijholt laat zien wat hij bedoelt. Op zijn kamer legt hij verbinding met Internet. Studenten van zijn vakgroep zijn bezig met een grafisch informatiesysteem voor een schouwburg. Via Internet kan de bezoeker door de schouwburg wandelen, de zaal bekijken en een virtuele informatrice aanspreken, net als in werkelijkheid. Het bewegende figuurtje aan de balie is in staat om te reageren op uiteenlopende, door de gebruiker ingetypte vragen, zoals: ’wat staat er vanavond op het programma’, of ’zijn er nog kaarten voor Tineke Schouten’. Abstractere vormen van vragen, zoals ’vertel eens iets leuks’, zijn moeilijker te beantwoorden. Voorlopig zal het antwoord in de context van het programma van de schouwburg staan. De informatrice zal dan bijvoorbeeld reageren met: ’Op 10 september Youp van ’t Hek. Op 5 oktober Herman Finkers’. Nijholt: "We hebben nu de basis van dit systeem. De komende tijd gaan we kijken in hoeverre we ook de sociale omgeving mee kunnen laten spelen. Wanneer iemand een gezellig gesprekje begint, moet de computer daar op een bepaalde manier op inspelen. Je kunt niet volstaan met ingeblikte grapjes. En zelfs wanneer de computer iets onverwachts verzint, dan nog heb je mensen nodig om de scheiding tussen leuk en niet-leuk aan te brengen. We hebben bijvoorbeeld wel eens het script van een bankroof gekoppeld aan dat van een fast food-restaurant. Daar kwam dan de grap uit: ’Geef me al het geld uit de kassa Jazeker, en wilt u er Franse frietjes bij?’ Het toepassen van humor is afhankelijk van de gebruiker, van de context, van de geschiedenis die de gesprekspartners hebben opgebouwd tijdens de dialoog. Het is bijna een onmogelijke opgave om dat allemaal te reconstrueren. Want als je de computer dat allemaal hebt aangeleerd, dan heb je bijna een mens geschapen."
(8523(6( 72/.(1
&200,66,(
=2(.7
1,(8:(
',*,7$/(
Geautomatiseerd Nederlands onmisbaar Geavanceerde vertaalvoorzieningen zijn van groot belang voor de instandhouding van de meertaligheid in Europa. Voor de relatief kleine talen betekent dit dat zij op tijd de beurs moeten trekken. Anders ziet de toekomst er volgens sommigen somber uit. door Marc van Oostendorp
9
Wie wil weten of de computers van de Europese Commissie uit en naar het Nederlands kunnen vertalen, moet eerst Engels leren. Veel recente officiële documenten zijn, bijvoorbeeld via Internet, snel te raadplegen. Alleen staan die teksten daar de eerste tijd vaak alleen in het Engels. Na enkele maanden verschijnen vertalingen, maar dan doorgaans eerst in de 'grote talen', Duits en Frans. Wie alleen Nederlands verstaat, is nauwelijks up-to-date.
meer dan een tussenoplossing. Iemand die snel kennis wil nemen van de strekking van een bepaald ambtelijk stuk, kan het door Systran laten vertalen. Daarna kan hij of zij bepalen of de tekst moet worden vertaald door een echte, menselijke vertaler: de uitvoer van Systran is zelf niet van een voldoende hoog niveau om gepubliceerd te worden.
Die stand van zaken is kenmerkend. Hij laat zien dat goede en snelwerkende vertaalsystemen belangrijk zijn voor de Europese democratie. Op zijn minst de verantwoordelijke ambtenaren en politici moeten de stukken waarop ze hun beleid baseren in hun eigen taal tot zich kunnen nemen. Het recht van Engelstaligen is wat dit betreft natuurlijk niet groter dan dat van Nederlands-, Frans- of Griekstaligen.
Die vertaler zou vervolgens bij zijn werk gebruik kunnen maken van de ruwe vertaling die het systeem biedt. Zo'n manier van werken, die post-editing genoemd wordt, is in het verleden wel aangeprezen als een groot voordeel van vertaalcomputers. Postediting zou vertalers veel werk besparen, omdat ze alleen de uitvoer van de computer hoefden bij te vijlen. In de praktijk werkt het niet zo. Professionele vertalers vertalen liever alles zelf, in een keer goed, in plaats dat ze de grove producten van Systran corrigeren.
Nu zijn menselijke vertalers weliswaar vaak erg goed, maar meestal ook duur en langzaam, zodat lang niet alle teksten vertaald kunnen worden. Wat zou het prettig zijn als iedere ambtenaar van de Unie met één druk op de knop in zijn tekstverwerker een zojuist gemaakt bestand kon opslaan in versies voor alle officiële talen van de Europese Unie. Maar zover is het nog lang niet. Over de vertaalcomputer wordt al nagedacht sinds in de jaren veertig de eerste computer werd gebouwd, maar met één druk op de knop lukt het nog altijd niet. Meer dan twintig jaar geleden, in 1976, nam de toenmalige EEG het automatische vertaalsysteem Systran in gebruik. Het systeem vertaalt tegenwoordig ongeveer 100.000 bladzijden tekst per jaar voor ambtenaren en politici, zowel bij de Europese instanties (Europees Parlement, Europese Commissie, enzovoorts) als bij de regeringen van de lidstaten. Het is daarmee waarschijnlijk het productiefste vertaalsysteem van Europa. Toch is het allesbehalve verfijnd. De uitvoer geeft in het beste geval een globaal idee van de inhoud van het vertaalde document. Het systeem biedt dus niet 10
Bijvijlen
Voor het Nederlands wordt Systran overigens nauwelijks gebruikt. De nadruk ligt op de drie werktalen van de Europese Commissie, het Engels, het Frans en het Duits. Tussen die drie talen kan naar hartelust vertaald worden: van het Frans naar het Engels, van het Engels naar het Frans, van het Frans naar het Duits, enzovoorts. Uit het Nederlands kan Systran helemaal niet vertalen, en naar het Nederlands alleen vanuit het Engels en het Frans, niet uit het Duits. Vertaling Engels-Nederlands maakt maar ongeveer anderhalf procent uit van het totale aantal vertalingen. Uit het Frans wordt iets vaker vertaald: ongeveer 4 procent van alle vertalingen die Systran in Europa maakt gaan van die taal naar het Nederlands. Voor de Europese Commissie hebben vertalingen van en naar het Nederlands ook geen prioriteit. De Commissie geeft van oudsher voorrang aan verbetering van automatische vertalingen tussen de drie werktalen. Onderlinge vertalingen tussen het Frans en het Engels vormen het
paradepaardje van Systran. Deze vertalingen geven een behoorlijke indruk van de inhoud van een document. Op dat niveau moeten vertalingen tussen het Duits en het Engels en tussen het Duits en het Frans ook komen. Wie wat meer aandacht wil voor een kleinere taal, doet er goed aan zelf te investeren. De Nederlandse Taalunie is dan ook sinds 1994 in overleg met de Commissie over samenwerking om het Nederlands een belangrijker plaats te geven in het vertaalsysteem. Naar welke talen kan het best vertaald worden? Er werd al snel gekozen voor vertalingen vanuit het Nederlands. Nederlandstaligen beheersen over het algemeen voldoende Frans, Duits en Engels om in ieder geval documenten in die talen te kunnen begrijpen. Het is belangrijker om uit het Nederlands naar de drie grote talen te kunnen vertalen. Zo kunnen zoveel mogelijk anderstalige ambtenaren en politici kennisnemen van teksten die in het Nederlands zijn opgesteld.
Goede en snelwerkend e vertaalsyste men zijn belangrijk voor de Europese d i
Al in 1994 stuurden de verantwoordelijke ministers in het Nederlandse taalgebied een intentieverklaring aan de Europese Commissie. Samen zouden ze ongeveer 280.000 gulden (ofwel 5,6 miljoen Belgische frank) bijdragen om de gewenste modules aan Sys~ tran toe te voegen. Ondertussen was de Europese Commissie echter van gedachten veranderd. Systran was niet langer het enige vertaalsysteem waarmee de officiële Europese instanties zouden werken. Men zou bekijken of andere bedrijven vergelijkbare of misschien zelfs betere programma's konden leveren. Systran is een robuust systeem, maar het heeft ook veel problemen. Een daarvan is dat het werkt met aparte modules voor taalparen. De vertalingen van het Frans naar het Engels worden als het ware gemaakt door een heel ander programma dan die van het Frans naar het Duits, of van het Duits naar het Engels. Dat
betekent dat er evenveel programmamodules nodig zijn als taalparen. En dat betekent weer dat het aantal benodigde modules enorm groeit naarmate het aantal opgenomen talen toeneemt. Hoe meer talen toegevoegd worden, des te sterker het aantal taalparen toeneemt. Een kleine rekensom kan dat verhelderen. Er staan op dit moment elf landen op de kandidatenlijst om toe te treden tot de Unie. Voorbeelden zijn Polen, Hongarije, Cyprus en Roemenië. Als alle aanvragen gehonoreerd worden, komen er tien talen in de Unie bij. Zelfs als er maar één taal aan de elf van de huidige Unie zou worden toegevoegd, komen er al tweeëntwintig taalparen bij. Dat zou betekenen dat er tweeëntwintig nieuwe programmamodules bijbesteld zouden moeten worden bij de Luxemburgse firma Gachot SA. En dat terwijl nog geen fractie van de modules die nu al nodig zijn op een bevredigend niveau staan. Alternatieven Het ligt voor de hand om ook alternatieven te bekijken, al is het maar omdat die voor sommige van de onderontwikkelde taalparen al redelijk tot behoorlijk goed werkende computersystemen hebben gebouwd. Zo heeft het bedrijf SiemensNixdorff voor de Belgische federale overheid een systeem ontwikkeld voor vertaling tussen het Nederlands en het Frans. Dat systeem zou ook in aanmerking komen. Overigens wordt op deze manier het probleem van Systran nog steeds niet opgelost. Nog steeds neemt het aantal benodigde taalmodules toe bij elke nieuwe taal in de Europese Unie. Om dit aantal te beperken zal eerst geprobeerd worden vertaalmodules te maken die Frans, Duits en Engels kunnen vertalen uit en naar de andere officiële talen van de Unie. Het taalpaar Nederlands-Spaans zal volgens die richtlijn dus nog op zich laten wachten. Aan één voorwaarde zullen de systemen in ieder geval moeten voldoen. Ze moeten het eigenlijke vertaalprogramma gescheiden houden van het vertaalwoordenboek. Een goed vertaalprogramma bestaat op zijn minst uit deze twee 11
onderdelen. Het programma kent de grammaticaregels van de twee talen. De te vertalen woorden zoekt het daarbij op in een tweetalige woordenlijst. Het is van belang om de twee dingen uit elkaar te houden, omdat er relatief veel tijd en geld wordt gestoken in de woordenlijst. ’Die investeringen willen we niet weggooien op het moment dat de software verouderd is’, zegt J. Roukens, die bij de Europese Commissie werkt aan het nieuwe actieprogramma van die Commissie, Multi Lingual Information Society (MLIS, ’Meertalige Informatiemaatschappij’). In het kader van dit programma zullen allerlei projecten worden bekostigd die op de een of andere manier de veeltaligheid in het elektronische tijdperk bevorderen. Systemen voor automatisch vertalen horen daar uiteraard bij: geen veeltaligheid zonder vertalingen. Ook de samenwerking met de Taalunie zal uit de gelden voor dit actieprogramma bekostigd worden. Aanvraag De Taalunie heeft een aanvraag ingediend om het vertaalproject onder te brengen in het MLIS-programma. Als deze aanvraag gehonoreerd wordt, zal men moeten kiezen welk product of welke producten in gebruik zullen worden genomen. Die vertaalprogramma’s zullen eerst uitgebreid worden getest, door ervaren vertalers, taaladviseurs, en deskundigen op het gebied van taal en techniek. Het zal nog wel even duren voordat de Nederlandse modules op het niveau van Frans-Engels zijn. Zijn andere landen ook al bezig? Roukens zegt dat Nederland en Vlaanderen in ieder geval het voordeel hebben van samenwerking in de Taalunie. ’Dat geldt lang niet voor alle talen.’ Bovendien is ook gewoon niet iedereen even geïnteresseerd. Engeland investeert bijvoorbeeld bijzonder weinig. In zekere zin heeft dat land ook geen investeringen nodig. Als de Taalunie, Nederland, Vlaanderen en de Europese Commissie een programma laten maken om vertalingen te maken uit het Nederlands naar het Engels, profiteren de Engelstaligen daar in zekere zin ook van.
12
De Franse regering investeert wel veel geld in projecten die de positie van het Frans in de nieuwe media verstevigen. Zo probeert ze een Frans tegenwicht te bieden tegen de hegemonie van het Engels op het wereldwijde Internet. Dat betekent overigens niet dat ze zou investeren in een vertaalprogramma FransNederlands. Ook een land als Duitsland heeft voorlopig nog geen belangstelling getoond voor vertalingen uit of naar het Nederlands, terwijl het wel degelijk belang heeft bij de ontwikkeling van vertaalmodules. Het Duits is van de drie grote talen het zwakst vertegenwoordigd in Systran, maar de rol van die taal binnen de Europese Unie is de laatste jaren steeds groter geworden.
Moderne technologie Wat de grote landen ook doen, het blijft belangrijk dat het Nederlands goed vertegenwoordigd wordt. Daar zijn politieke redenen voor. Door te investeren in automatische vertaalsystemen laat het Nederlandse taalgebied zien dat de rol van het Nederlands als officiële taal van de Europese Unie serieus genomen wordt. Maar er zijn ook andere argumenten. Met deze projecten kunnen we veel kennis opdoen die ook weer bij andere computertoepassingen voor taal en tekstverwerking kan worden gebruikt; toepassingen die het mogelijk maken om efficiënt Nederlandse teksten te bewerken, te raadplegen en te doorzoeken bijvoorbeeld. Naar verwachting worden dit soort systemen in de toekomst nog veel efficiënter en economisch belangrijker dan ze nu al zijn. Het is belangrijk dat het Nederlands ook in de moderne technologie een rol blijft spelen. 'Als we het niet opbrengen', schreef de Nijmeegse hoogleraar Lou Boves onlangs, 'zal het Nederlands als cultuurtaal het jaar 2050 niet halen. Het zal dan zoveel gemakkelijker zijn om teksten te maken in met na me het Engels dan in het Nederlands, dat geen enkel bedrijf het zich kan veroorloven om het inefficiënte en ineffectieve Nederlands serieus te nemen.'
Vreemde taal zit apart in hoofd Wie in het Memorial Sloan-Kettering Kankercentrum in New York wegens een hersentumor geopereerd moet worden, krijgt voortaan standaard de vraag of hij tweetalig is. Zo ja, dan willen de artsen weten of de patient van jongsaf aan tweetalig is of dat hij zijn tweede taal op latere leeftijd heeft geleerd. Die wetenschap is nodig om bij de hersenoperatie het motorische spraakcentrum (centrum van Broca) zo goed mogelijk te sparen. Personen die op latere leeftijd een tweede taal verwerven, zo blijkt uit beeldvormend onderzoek van de hersenen hebben namelijk twee motorische spraakcentra in plaats van één. Bij mensen die van kindsbeen tweetalig zijn, is het spraakvermogen voor beide talen in één gebiedje geconcentreerd.
die na een hersenoperatie of door epileptische aanvallen de beheersing van één taal kwijtraakten. Neurologen van het Memorial Sloan-Kettering en van de Cornell Universiteit in New York hebben met een geavanceerde beeldvormingstechniek kunnen aantonen dat ‘oudere’ tweetaligen inderdaad over twee motorische spraakcentra beschikken (Nature 10 juli). De onderzoekers opperen dat jonge kinderen in de fase waarin ze voor het eerst leren spreken, nog voldoende ‘hersenruimte’ hebben om twee talen in één motorisch spraakcentrum vast te leggen. Wie op latere leeftijd een tweede taal leert, moet daarvoor ‘uitwijken’ naar nabijgelegen gedeelten in de hersenvoorkwab, waar het centrum van Broca is gesitueerd.
Aanwijzingen dat dit het geval is, waren al eerder gevonden bij tweetalige patienten
Wie een tweede taal laat leert vertoont tweetalige hersenen. Als je twee talen vloeiend spreekt, hebben die dan elk hun eigen plek in je hoofd? Onderzoek van Joy Hirsch en andere neurowetenschappers in New York, dat deze week gepubliceerd is in Nature, lijkt het begin van een antwoord op die vraag te geven: het ligt eraan wanneer je die tweede taal geleerd hebt. Wie tweetalig opgevoed wordt, houdt daar deels een andere ‘organisatie’ van de hersenschors aan over dan degenen die als ‘vroeg-volwassene’ een nieuwe taal leren.
na een hersenbeschadiging hun moedertaal niet meer spraken en overschakelden op een tweede taal, of die na een operatie problemen kregen met een of meer van de talen die ze kenden. Elektrische stimulatie van de hersenschors (vaak door neurochirurgen gebruikt om te bepalen waar er vooral niet gesneden mag worden) liet ook iets soortgelijks zien: daarmee blijk je soms een van de talen die iemand spreekt te kunnen ‘uitschakelen’.
Uit de klinische literatuur waren wel gevallen bekend van mensen die
Over hoe en waar taal in de hersenen zit, is nog veel onduidelijk, maar de
13
onderzoekers hebben zich beperkt tot de twee gebieden in de linker hersenhelft, waarvan al sinds de vorige week vaststaat dat ze belangrijk zijn voor taal: het gebied van Broca (in de voorhoofdskwab) en dat van Wernicke (wat verder naar achteren, in de slaapkwab). Zes ‘vroeg-tweetaligen’ en zes ‘laat-tweetaligen’ moesten in stilte in beide talen een gebeurtenis beschrijven. Tijdens die opdrachten werden met behulp van magnetische velden afbeeldingen, zogenaamde fMRI-scans, gemaakt. Bij iedereen lichtte zowel het gebied van Broca als
dat van Wernicke telkens op, maar bij de laattweetaligen was er in het gebied van Broca een duidelijke anatomische scheiding te zien tussen de twee talen. Tussen de eerste en de tweede taal werd bij alle zes een afstand gemeten, varierend van 4,5 tot 9 millimeter. Bij de vroegtweetaligen was die afstand er niet, en het
gebied van Wernicke liet bij beide groepen nauwelijks of geen verschil tussen de talen zien. Resultaten die vooral nieuwe vragen oproepen. Bijvoorbeeld: wat gebeurt er precies in ‘Broca’, en wat in ‘Wernicke’? Wat zegt dit over de ‘kritieke periode’ voor taal, ons tot in de puberteit aldoor afnemende vermogen
een taal tot in de puntjes te leren beheersen? Hoe zit het met mensen die meer dan twee talen beheersen? Kun je ook zes gescheiden gebiedjes hebben? En hoe goed moet je kennis van een taal zijn voordat je een duidelijk afgebakend stukje hersenschors hebt ontwikkeld?
(Liesbeth Koenen)
Uit de ROSKAM (15 augustus 1997) Ma Mignonne (Clement Marot) Ma mignonne, Je vous donne Le bon jour; Le sejour Cest prison. Guerison Recouvrez, Puis ouvrez Votre porte Et quon sorte Vitement, Car Clement Le vous mande. Va, friande de ta bouche, Qui se couche En danger Pour manger Confitures; Si tu dures Trop malade, Couleur fade Tu prendras, Et perdras Lembonpoint Dieu te doint Sante bonne Ma mignonne
14
Ma Mignonne (Anton Nijholt/Clement Marot) Teder wicht, Dit gedicht Wenst U rap Beterschap. Al te lang In’t gevang. Uw uitzicht Vraagt om licht. Weg gordijn! Zonneschijn! Voel de zon, Zegt Anton. Wordt gezond! Gun je mond Geen rust, maar Kaviaar, Fruit of cake, Kleine bleekScheet! Geen zin? Denk eens in, Dun als riet, Kan toch niet. Eet je rond, En gezond. En dat is, Zeer gewis, Van gewicht Teder wicht.
Eurolan ’97 Summer School on Corpus Linguistics Djoerd Hiemstra
Preface This report gives account of my participation to the Eurolan Summer School from the 13th of July till the 26th of July 1997 in Tusnad, Romania. During the Summer School I had the opportunity to give two presentations about the work of the University of Twente on European Projects. At the workshop "Lexicon and Corpora" the use of parallel corpora in Twenty-One project was presented. During the "Language Awareness Seminar" crosslanguage retrieval initiatives were presented including the Pop-Eye project and participation of Twenty-One to the TREC competition. I wish to thank the Telematics Programme of the European Union, Sector Language Engineering for sponsoring the participation to Eurolan’97.
1 Introduction The Eurolan Summer School was organised for the third time in its history and is getting bigger and bigger. This time there were 15 faculty members giving lectures to 75 students from 13 different European countries. Topics covered by the Summer School were: Corpus Annotation, Word-sense Disambiguation, Lexicography, Discourse Linguistics, Statistical methods, Grammar Engineering and Finite State methods. In the remainder of this report a short description will be given of the most striking lectures per topic. 2 Corpus Annotation and Sense Disambiguation The lecture of Tomaz Erjavec from Josef Stefan Institute, Ljubljana covered the use of SGML (Standard Generalised Mark-up Language) for Corpus Annotation. SGML was used in the Multext East Project (http://nl.ijs.si/ME/) for the annotation of parallel versions of 1984 of Orwell, fiction and Newspapers. Dan Tufis from the Romanian Academy, Bucharest also presented work on Multext East. Nancy Ide from the Vassar College, USA and University of Aix-en-Province, France also presented work on corpus annotation. Ide mentioned standards developed in the Text Encoding Initiative (TEI) project (http://etext.virginia.edu/TEI.html) and the Corpus Encoding Standard (CES) project (http://www.cs.vassar.edu/CES/). Ide also gave an extensive overview (from the sixties until now) of work on word sense disambiguation, which will be published in the Computational Linguistics of early 1998. 3 Lexicography John Sinclair from the University of Birmingham presented his work on COBUILT Corpusbased dictionaries. COBUILT uses large corpora to extract concordances of words or phenomena. Sinclair distinguishes five ’levels of meaning’: the core which is a single word or phrase; the collocation which is physical coocurrence; the colligation which is grammatical co-ocurrence; semantic preference which are regularities of word choice and the prosody which are pragmatic regularities. Nicoletta Calzolari from the University of Pisa presented some aspects of the management of multilingual computational lexicons; Especially building multilingual lexicons using Machine Readable Dictionaries (MRD) and parallel corpora. Within the European project SPARKLE 15
(Shallow Parsing and Knowledge extraction for Language Engineering) SPARKLE will use Shallow Parsing for (semi-) automatic lexicon acquisition and word sense disambiguation for English, French, German and Italian. Companies like Xerox and Sharp will use technology developed in SPARKLE to build pilot systems for multilingual information retrieval systems (http://www.ilc.pi.cnr.it/sparkle/sparkle.html). 4 Discourse Linguistics Massimo Poessio from the University of Edingborough presented the collection and annotation of a dialogue corpus in the Maptask project. In Maptask dialogues are collected by giving two people slightly different maps and giving them the instruction to guide each other to a goal. The linguistic interpretation of the maptask corpus is automated (partially) for: time stamps, speech segmentation, part-of-speech tagging, syntactic analysis and speech-acts. Especially annotation of speech-acts is difficult. Speech-acts must be chosen in a way that humans assign them consistently. This can be evaluated with the kappa statistic. Laurant Romary from CRIN-CNRS, Nancy also presented work on the annotation of spoken dialogues. 5 Statistical methods Martin Rajman from the Swiss Federal Institute of Technology in Lausanne (EPFL) presented work on Statistical Context Free Grammars, Hidden Markov Models and Data Oriented Parsing. At EPFL interesting work is done on comparing taggers from different companies. They will probably be the first to verify Rens Bot’s results on Data Oriented Parsing. 6 Grammar Engineering Paola Monachesi from the University of Tübingen and Liviu Ciortuz from DFKI both presented work on HPSG, respectively for Italian and Romanian. Aravind Joshi from the University of Pennsylvania presented work on Lexicalised Tree Adjoining Grammars (LTAG). In a lexicalised grammar all rules are associated with one lexical item (a word). Parsing with LTAG is difficult because a derived tree may have several derivations. An alternative way of 'parsing' with LTAG is tagging each word or lexical item with a partial tree using standard Hidden Markov techniques, so-called supertagging. Hans Uszkoreit from DFKI and the University of Saarbrücken presented work on grammar development and evaluation. For grammar development DFKI developed the PAGE system (http://www.dfki.de/lt/systems/page/). For grammar evaluation DFKI developed the TSNLP test suites which exist of annotated example sentences which are representative for certain language phenomena (http://www.dfki.de/lt/projects/tsnlp.html). Test-suites are considered to be competence data. For grammar engineering also 'performance data' will be used for evaluation, i.e. linguistically interpreted 'real-life' data. 7 Finite State methods Jean-Pierre Chanod from Xerox Research Centre in Grenoble presented work on Finite State methods. At Xerox, Finite State Transducers are used for Tokenisation, Morphological Analysis, Part of Speech Tagging and Shallow Parsing. More information on Finite State Tools at Xerox can be found at: http://www.rxrc.xerox.com/research/mltt/Tools/.
16
RIAO ’97 Conference "Computer-assisted information searching on internet" Djoerd Hiemstra Preface This report gives acount of my visit to the RIAO ’97 Conference at McGill University in Montreal Canada on the 25th, 26th and 27th of June 1997. During the conference two presentations were given about the Twenty-One project. A paper titled "A domain specific lexicon acquisition tool for crosslanguage information retrieval" was presented by Wessel Kraaij during the main conference program. A second paper titled "The Twenty-One demonstrator" was presented by myself during the parallel session about system demonstrations. A prototype version of the Twenty-One demonstrator was demonstrated on the 26th of June during the breaks between presentations. Special thanks go out to co-authors Franciska de Jong and Wessel Kraaij. I also wish to thank the Telematics Programme of the European Union, Sector Language Engineering for sponsoring the trip to Canada.
1 Introduction The RIAO conference is one of the major conferences on Information Retrieval (IR). Topics covered by RIAO’97 were for example: Visualisation Tools, Automatic Abstracting, Linguistic Approach, Multilingual Approach, Relevance Ranking, Query Reformulation, Information Filtering. The remainder of this report gives an overview of the most interesting presentation per topic. 2 Invited Speaker N. Brodie of the National Library of Candada gave a presentation about the GILS project (Government Information Locator Service). GILS is an WWW-profile on the ANSI Z39.50 search and retrieval protocol. GILS is currently used by the Candadian government for the dissemination of Environmental Information. Environmental IR-systems with the same objective as the Twenty-One system are available on the WWW: http://www2.ec.gc.ca/ and http://enrm.ceo.org/. More about the GILS system can be found on http://gils.gc.ca/ or http://www.usgs.gov/public/gils/software.html/ 3 Visualisation Tools A. Wexelblat from MIT started his presentation with the announcement that he was actually a story-teller. In fact his presentation was quite inspiring. He advocated ’the Footprints’ 17
system, a system that brings history to digital information by adding information about which hyperlinks/buttons/menu’s people use often. Key-words of this presentation "Collective Intelligence" (together we know everything) and "Passive Collaboration". (the system gets better just by using it. Users do not have to give ’relevance feedback’). 4 Automatic Abstracting B. Katz from MIT, USA gave a presentation about the START system. The START system accepts NL queries and is able to answer them, or to refer the user to a WWW page that contains the right answer. The system uses simple phrase rewriting rules to rewrite queries to a standard form. Queries START can answer are e.g. "Show me Boris Katz’ home page" or "Is it raining in Paris today". START is available via the WWW: http://www.ai.mit.edu/projects/infolab/globe.html 5 Linguistic Approach A.T. Arampatzis from Patras, Greece and Nijmegen, the Netherlands gave a presentation about IRENA (Information Retrieval Engine based on Natural Language Analysis). IRENA uses noun phrase extraction, query expansion (morphological variants, synonyms from Wordnet), proper name identification. Results show that morphological expansion is very usefull for high recall. Noun phrases extraction leads to very high precision, but also very low recall, which raises the question: "Does NLP help IR?" R. Pohlmann from Utrecht University, the Netherlands presented experiments done with Dutch within UPLIFT (Utrecht Project: Linguistic Information for Free Text retrieval). Different choices for combining terms to form head-modifier pairs were investigated. Techniques used are compound splitting and generation, noun phrase extraction. Results showed that retrieval performance of Dutch text can be improved significantely by using NLP. C. Buckley from Cornell University, USA also used phrases to enhance retrieval performance. In the study phrases recognised using linguistic methods were compared to phrases recognised using statistical methods. Buckley reported that both methods yield comparable results. Furthermore identification of phrases has an insignificant effect on the retrieval performance. "Does NLP work" remains unanswered. 6 Multilingual Approach M. Wechsler from the Swiss Federal Institute of Technology presented simple language processing techniques on multilingual document collections. Some of the presented techniques were: stop word removal, word normalisation (Porters stemming for French and Italian, dictionary-based for German), proper names identification. Some issues on userinterfaces for cross-langauge retrieval systems were also presented. D. Oard from University of Maryland, USA gave an overview of different approaches to adaptive multilingual text filtering systems. He gave an overview of techniques that were used before in cross-language retrieval systems, comparing two corpus-based techniques (Cross-language Latent Semantic Indexing, Vector translation using Word-alignment) and a MT-based tecnique (Text Translation using Logos). Interesting was his work on selecting corpora for training and evaluation. Cross-language LSI seemed to give the best results. 7 Panel: TREC in many languages D. Harman of the USA National Institute of Standards and Technology (NIST) told something about TREC-5 English. TREC-5 was held in November 1996. Thirty-eight groups from nine countries participated. A. Smeaton of Dublin City University, Ireland, gave a historic overview of six years of TREC program. Apart from a list of almost al participants and their approach to IR he gave some funny anecdotes, i.e. someone who participated by just using a 386-PC and almost managed to index al the material in three months. Smeaton also introduced TREC-6, which 18
will have a cross-language retrieval task involving English, French and German documents. It seems that there are even participants of TREC-6 that will use Dutch queries... C. FLuhr from "le Commissariat a l’Energie Atomique" presented Amaryllis: The French Language TREC. Amaryllis is not part of NIST, but follows the TREC procedure for evaluation. 8 Relevance Ranking D. Cutting presented optimum time and space complexity vector space ranking algorithms. Starting with very simple and time/space consuming algorithm, he introduced a number of tricks to achieve better performance. Presented algorithms were: Linear Search, Hit List Search, Inverted Index Search, Parallel Merge Search and Block Search. T. Rose gave a presentation about searching using similarities between documents. He investigated a large number of methods: cosine measure (vector space), letter ngrams, word frequencies and word ngrams. Also some other word cooccurence measures like loglikelihood ratio, mutual information and chi-square. Rose reported that results of the best techniques were still rather disappointing. 9 Query Reformulation P. Bruza presented a called ’query by help users that don’t they see it; or do know say it. The method is based noun phrases, e.g. the query ’internet security of network’ or ’security’. A prototype is available
method for query reformualtion he navigation’. Query by navigation may know what they want, but will know when what they want, but don’t know how to on refinement and enlargement of ’internet security’ can be refined to enlarged to either ’internet’ or via WWW on
http://www.dstc.edu.au/cgi-
G. Greffenstette of Xerox suggested a similar ’query by structure of phrases. clustered following the fact that a noun phrase, if it is part of a adverb, etc. Each syntactic sentences, e.g. the query research’, ’things to research’,
bin/RDU/hib/hib
Research Centre, France navigation’ method, using the syntactic Refinement of the query are the query is the head or modifier of verb phrase, if it is accompanied by an relation is presented to the user by simple ’research’ can be refined by ’types of etc. 10 Information Filtering method called suppertagging for Supertagging is based on Lexicalised Tree supertag consists of a elemantary tree of how the word is used in a sentence. With possible to distinguish between ’appoint*’ (appointment appointed) in ("She was appointed by the Governor") apartement".
and
R. Chandrasekar presented a information filtering. Adjoining Grammars. A which is a detailed desription this method it was occurences of e.g. the sense of ’meeting’ phrases like "... well appointed
19
CALL CENTRES PAGES De eerste telefoon in Schiedam uit: de Schiedamse Courant 27 september 1882. "Door de welwillendheid van de firma Houtman & Co. waren wij in de gelegenheid den Bell Telephoon toestel te bezichtigen, dat op hunne kantoren in de Frankelandsche Laan en aan de Hoofdstraat dezer dagen werd aangebracht. Men staat waarlijk verbaasd over de eenvoudigheid van een toestel dat twee kantoren op betrekkelijk verren afstand met elkander kan spreken alsof men zich in hetzelfde gebouw bevond in twee aangrenzende vertrekken. Wij spraken op het eene kantoor met iemand op het andere en ter nauwernood hadden wij een vraag gedaan of het antwoord volgde. De muziek van een speeldoos werd van het eene kantoor duidelijk naar het andere overgebracht. Het grote gemak en voordeel dat door de telefoon wordt verkregen zal hare invoering zeker spoedig meer algemeen doen worden".
PTT introduceert spraakherkenning Door onze redacteur
MICHIEL VAN NIEUWSTADT ROTTERDAM, 1O MEI. Mobiele bellers bij PTT Telecom kunnen vanaf dit najaar een telefoonnummer kiezen door een commando in te spreken in de telefoon. Dat zegt P. van Doorn, directeur van de divisie Mobiele Netwerk Diensten van PTT Telecom. Het commando van de beller is een woord, bijvoorbeeld de naam van de persoon die gebeld moet worden. Een computer in het mobiele netwerk van PTT Telecom kiest vervolgens een abonneenummer dat is voorgeprogrammeerd. Er zijn per abonnee maximaal 50 nummers beschikbaar. De prijs van de nieuwe dienst wil PTT Telecom nog niet bekend maken. De dienst voice dialing genoemd, komt dit najaar beschikbaar voor alle mobiele abonnees van PTT Telecom. Philips presenteerde eerder dit jaar een mobiel toestel waarmee eveneens door het uitspreken van een naam een nummer kan worden gekozen. In dit nieuwe toestel kunnen maximaal tien nummers worden voorgeprogrammeerd. Toch is de dienst van PTT Telecom nieuw volgens Van Doorn. "Zij stoppen deze mogelijkheid in hun telefoon, wij passen spraakherkenning toe in het netwerk", zegt hij.
20
Spraakherkenning is een technologie die computers in staat stelt gesproken woord te herkennen. Het bestaat in primitieve vorm al enkele decennia. Tot op heden bestonden er nauwelijks commerciële toepassingen omdat de communicatie tussen spreker en computer gebrekkig verliep. Marktonderzoekers voorzien echter dat spraakherkenning wegens de snel groeiende mogelijkheden al voor het eind van deze eeuw kan uitgroeien tot een miljardenmarkt. De Nederlandse Spoorwegen hebben aangekondigd spraakherkenning binnen enkele maanden te willen inzetten voor telefonische informatie over treinreizen. Vooralsnog bevindt het NS-systeem zich in een testfase.
NRC, 20 mei 1997.
NRC HANDELSBLAD 17 mei 1997-06-25
’Neezee venuurvijf tien! OV-REISINFORMATI E ONTWIKKELT PRATENDE REISPLANNER Binnenkort staat Openbaar Vervoer Reisinformatie de klant per computer te woord. Het programma vraagt door tot alle nodige gegevens door de klant bevestigd zijn. JudithJunger HEEFT U GEEN ZIN een ingewikkelde treinverbinding in het spoorboekje op te zoeken? Geen nood, u kunt altijd 0900 9292 bellen. Om zes uur 's ochtends werkt dat vlot, maar in kantooruren zijn lange wachttijden geen uitzondering, en dat tegen vijftig cent (binnenkort vijfenzeventig) per minuut. Om de wachttijd te verkorten schakelt Openbaar Vervoer Reisinformatie binnenkort naast de gewone medewerkers een computer in. 'Goedemorgen', zegt een vrouwenstem. 'Dit systeem van Openbaar Vervoer Reisinformatie geeft uitsluitend informatie over vertrek en aankomsttijden van treinen in Nederland. Van welk station naar welk station wilt u reizen?' Klant: 'Ik wil van Amsterdam-Amstel naar Heerlen.' Vrouwenstem: 'Wanneer wilt u van Amsterdam-Amstel naar Heerlen vertrekken?' Klant: 'Vrijdag, om acht uur.' Vrouwenstem: 'Dus u wilt vertrekken op achttien april om acht uur 's ochtends.' Klant: 'Nee, om acht uur 's avonds.' (...)Vrouwenstem: 'Het systeem heeft de volgende verbinding gevonden: uw trein vertrekt om twintig uur tien van Amsterdam Amstel (...) Wilt u dat ik de verbinding herhaal?' (....) Zo ongeveer verloopt een gesprek met het nieuwe systeem. Momenteel verkeert het nog in een proeffase, tot ongeveer eind juli, aldus Bram Munnik van Openbaar Vervoer Reisinformatie. "Over ongeveer tweeënhalve maand is deze fase afgerond, en wordt het systeem, als de klanten er tevreden over zijn, operationeel. Daarnaast blijven er de gewone medewerkers. Het betreft een samenwerking tussen Openbaar Vervoer Reisinformatie en Ptt Telecom. Daarmee is Nederland het tweede land in de wereld met een inlichtingen systeem per computer.” SPRECHENDER FAHRPLAN De Zwitserse spoorwegen werken al sinds mei 1996 met een telefonisch informatiesysteem per computer (Sprechender Fahrplan). Dat handelt met vier krachtige pc's tachtigduizend gesprekken per maand af. De technologie voor beide systemen komt van Philips, waar men 21
al enkele jaren bezig is met spraaktechnologie. Openbaar Vervoer Reisinformatie en de Zwitserse spoorwegen gebruiken een van de resultaten hiervan, het pakket SpeechMania. Het pakket is ontwikkeld voor het verstrekken van specifieke inlichtingen, zoals het weerbericht, verkeers- of beursinformatie. Gesprekken voeren met de computer in gewone spreektaal heeft altijd al tot de verbeelding van onderzoekers gesproken. In de jaren ’60 en ’70 wilde men de computer elk willekeurig gesprek laten voeren. Hiervoor moest het programma de taal helemaal ’leren’, dat wil zeggen de betekenis van alle woorden en alle grammaticale regels. Dat viel niet mee. Een van de betere systemen uit die tijd was LUNAR, in 1972 ontwikkeld door de Amerikaan Woods voor het beantwoorden van vragen over de chemische analyse van maangruis. LUNAR kon achtenzeventig procent van de vragen goed begrijpen en goed beantwoorden. Twaalf procent van de vragen ging verloren door diverse administratieve fouten, tien procent werd niet begrepen door taalkundige problemen. Zo had LUNAR er moeite mee om vragen met verwijzingen, ontkenningen en meerdere woorden als ’alle’ en ’sommige’ naar de juiste logische formule te vertalen. In de jaren ’80 is het accent komen te liggen op taalverwerving in beperkte situaties zoals het geven van reisinformatie. Het struikelblok bij een dergelijk systeem is niet meer het taalkundige aspect zoals bij de systemen uit de jaren ’60 en ’70 (die met geschreven in- en uitvoer werkten) maar ’spraakherkenning’, het verstaan van wat er gezegd wordt. De vraag uit het voorbeeld zou namelijk als volgt bij de computer kunnen binnenkomen: ’ikwilvanamster damamstel naarheerle’. Denk maar aan een vakantie in Griekenland - wat u hoort is een stroom klanken en niet een duidelijke reeks van woorden. WAT DE COMPUTER HOORT IS EEN STROOM KLANKEN EN NIET EEN DUIDELIJKE REEKS VAN
De eerste stap is dan ook het herkennen van de woorden. Hiervoor moet de computer het ingekomen analoge signaal eerst digitaliseren en bewerken. Een van de stappen is een Fourieranalyse die het geluidsverloop in de tijd vertaalt naar een beschrijving in termen van geluidsintensiteit (energie) als functie van toonhoogte. Elke vijfentwintig milliseconden van het signaal wordt voorgesteld door een akoestische vector, dat wil zeggen een rij getallen die weergeeft hoe gedurende die periode de energie van het signaal over de toonhoogtes verdeeld is. De aldus verkregen stroom van akoestische vectoren wordt dan vergeleken met de opgeslagen patronen behorend bij de woorden die het systeem kent. De woorden zijn weergegeven in fonemen - de kleinste klankeenheid waarin een woord ontleed kan worden. Zo bestaat het woord ’Amsterdam’ uit de fonemen: ’a’,’m’,’s’, ’t’, ’ur’ en ’d’. Het herkennen van woorden en woordpatronen gebeurt met statistische methodes. De stroom van akoestische vectoren wordt hierbij gemodelleerd als een Markov-proces (gedefinieerd door de Russische wiskundige Markov in 1913). Dat is een toevalsproces waarbij de toestand op een bepaald tijdstip alleen afhangt van de toestand op het vorige tijdstip. In een Markov-proces wordt de overgang van de ene toestand naar de volgende bepaald door overgangswaarschijnlijkheden, bijvoorbeeld de kans dat op een foneem’m’een foneem ’s’ volgt. Speciaal voor het herkennen van fonemen is het Markov-proces uitgebreid met een extra component die het langzamer of sneller uitspreken van een woord kan opvangen. Dit is het zogenoemde Hidden Markov-model. Het systeem wordt getraind door de belangrijke woorden een heleboel keren door mensen te laten inspreken. Zo leert het programma de benodigde overgangswaarschijnlijkheden tussen de fonemen kennen. Zodra het systeem bijvoorbeeld het woord ’Amsterdam’ kent (dat betekent dat er nu een specifiek diagram voor dit woord in het databestand is), weet het dat 22
na ’amstur’ de kans op ’d’ een stuk groter is dan de kans op ’m’. Als het systeem dan een woord binnenkrijgt waarvan het het begin herkent als ’amstur’ maar de rest niet kan thuisbrengen, zal het er ’Amsterdam’ van maken. Als de klant nu toevallig ’Amstelveen’ heeft gezegd ontstaat er een fout. Dergelijke fouten kan het programma niet herstellen, daarom vraagt het steeds naar bevestiging. Deze soms irritante eigenschap kan dan ook niet omzeild worden. Zodra het programma de belangrijke woorden redelijk goed kent begint men met de tweede fase van de training (niet alle informatie die binnenkomt is immers even belangrijk, alleen de aanwijzingen voor de treinverbinding die gezocht moet worden). Het programma kan nu door iedereen gebeld worden. Het zal nu nog diverse herkenningsfouten maken, maar naar gelang het meer getraind is zullen die minder vaak voorkomen. Het moet nu ook leren verschillende manieren van uitspreken te herkennen. Hier ligt uiteraard een grens aan wat verwacht kan worden, maar in ieder geval moet Groningen zowel met een harde als een zachte ’g’ herkend worden. Volgens Bram Munnik zijn voor deze fase van de training ongeveer twaalfduizend gesprekken nodig.
DE HELE VRAAG Het verstaan van losse woorden is echter nog niet voldoende. De computer moet de hele vraag van de klant kunnen begrijpen. Het programma moet bijvoorbeeld weten welke woorden plaatsnamen zijn en welke dag-, datum- of tijdsaanduidingen. Met andere woorden, elk herkend woord moet een betekenis krijgen. Dit gebeurt aan de hand van een taalmodel, dat weer bestaat uit statistische regels, bijvoorbeeld over de kans dat ’negen uur’ gevolgd wordt door ’ ’s ochtends’ of door ’geleden’. In de context van het zoeken naar een treinverbinding is de kans op negen uur ’ ’s ochtends’ veel groter dan op ’negen uur geleden’. Het taalmodel bevat ook regels over de Nederlandse taal. Zo is het in het Nederlands uitgesloten dat het woord ’van’ gevolgd wordt door een werkwoordsvorm. Met dergelijke regels kan het programma een misverstand herkennen. Hoe kan het programma een fout herstellen? Dit kan eigenlijk maar op één manier: met doorvragen. Soms zegt de vriendelijke vrouwenstem dan ook 'Ik heb u niet verstaan. Kunt u (...) herhalen'?' Elke keer dat de klant iets gezegd heeft begint de reactie van het programma met een vraag, bijvoorbeeld 'Dus u wilt van Amsterdam Amstel naar Heerlen reizen?'. Hier is het programma bezig om te bevestigen dat het de beller goed heeft verstaan. De vraag van de klant wordt stapsgewijs begrepen door er de volgende gegevens uit te destilleren: plaats van bestemming, plaats van aankomst, dag, en - afhankelijk van uw wens - vertrek- of aankomsttijd. Het programma blijft doorvragen tot alle nodige gegevens door de klant bevestigd zijn. Eenmaal zo ver wordt in het databestand van de gewone Reisplanner het antwoord op de gestelde vraag opgezocht. (Wanneer het systeem operationeel wordt zullen er ook extra reisgegevens verstrekt worden zoals werkzaamheden aan de spoorbaan of extra ingezette treinen.) Het geven van het antwoord kan op twee manieren gebeuren: door zogenoemde 'text-to-speech' technologie, waarbij uit de computer een digitale stem komt, of door woorden en stukjes zin aan elkaar te plakken die door een mens zijn ingesproken. Zowel OV Reisinformatie als de Zwitserse spoorwegen hebben voor de tweede oplossing gekozen. "Het klinkt gewoon mooier", zegt Bram Munnik. "Je krijgt niet zo'n robotstem." Dat is waar, hoewel de vriendelijke :vrouwenstem een wat raar staccato spreekt. Wilt u het zelf proberen? Bell dan 070 3040418. Goede reis!
23
NS voeren definitief pratende computer in voor reizigers
Wanneer wilt u van Harlingen naar Schinnen reizen?
ANP AMSTERDAM
Door Rieks op den Akker
De Nederlandse Spoorwegen gaan definitief een sprekende computer invoeren. De computer kan treinteizigers via een eenvoudige dialoog informeren over aankomst- en vertrektijden. Het nieuwe systeem begrijpt gewone spreektaal en kan eenvoudige wedervragen stellen. De NS doen er al een proef mee. Succesvolle introductie zal op termijn leiden tot banenverlies bij tal van bedrijven, die hun telefonistes vervangen door sprekende computers. Dat stelt Philips, dat het systeem heeft ontwikkeld. Sprekende computers kunnen een enorme kostenbesparing opleveren, meent het bedrijf, omdat veel werk van telefonistes overbodig wordt. Het elektronicaconcern beschouwt de overeenkomst met de NS als een doorbraak op de Nederlandse markt. Philips liet donderdag in Amsterdam weten dat de Nederlandse Spoorwegen de eerste Nederlandse onderneming is die het systeem gaat hanteren. In het buitenland maken de Zwitserse spoorwegen en de Duitse luchtvaartmaatschappij Lufthansa al gebruik van het systeem. NS en Philips experimenteren sinds kort met een nieuw informatienummer (070-3040418), waarop een vrouwelijke computerstem de beller te woord staat. De computer heeft een vocabulaire van duizenden woorden en kan wedervragen stellen als ‘Op welke dag wilt u vertrekken?’ De NS willen het systeem vanaf oktober landelijk gaan invoeren. Bij de Zwitserse spoorwegen handelt een sprekende computer al 97 procent van de verzoeken om informatie af. 24
In het kader van het prioriteitsprogramma taal en spraaktechnologie wordt in samenwerking met openbaar vervoer reisinformatie hard gewerkt aan een computersysteem dat geheel automatisch reisinformatie per telefoon kan vertrekken. Het systeem dat ondere andere ontwikkeld wordt bij het het instituut voor spraaktechnologie in Eindhoven, en waaraan uiteraard ook KPN meedoet, is gebaseerd op een duitstalig systeem dat door Philips Aken is ontwikkeld. In Duitsland is al enige tijd ervaring opgedaan met het informatie-systeem dat reizigers treinverbindingen van de Deutsche Bahn kan verstrekken. Het systeem is verkocht aan de Zwitserse spoorwegen voor wie het sinds kort ook in Zwitserland operationeel is. OVR heeft in Nederland een 9 tal informatie-centrales waar mensen door middel van een 06 nummer informatie over openbaarvervoer kunnen vragen. Dit nummer is zwaar overbezet. Er gelden wachttijden van gemiddeld meer dan 5 minuten. Onlangs werden de gesprekskosten verhoogd naar 75 cent per minuut maar dat heeft geen noemenswaardig effect gehad op het aantal telefoontjes. De dienst van OVR voorziet kennelijk in een grote behoefte. OVR steekt jaarlijks vele miljoenen in deze service, maar ze kan de vraag om informatie niet aan. Toch is ze niet bereid veel meer geld in de dienst te stoppen. Telefonistes die de klanten te woord staan werken onder grote druk. Ze werken 4 uur achtereen telefoontjes af met daartussen 1 kwartiertje pauze. Wanneer de telefoniste een gesprek beeindigt krijgt ze onmiddellijk het volgende gesprek binnen. Tijd om even achterover te leunen of iets na te zoeken is er niet. Vaak krijgen ze klanten aan de telefoon die beginnen zich te beklagen over de lange wachttijd. "He he , dat was precies 5 minuten", zo beginnen ze met geergerde stem. Toch moet je als telefoniste natuurlijk vriendelijk blijven. Veel klanten begrijpen niet wat voor soort informatie ze moeten geven om geholpen te kunnen worden en soms zijn ze niet bereid de nodige informatie te verschaffen omdat ze vinden dat dat te privee is. "Ze denken dan dat ik ze op kom zoeken", vertelde een telefoniste mij. Bovendien bevat het informatie-systeem waarmee ze werken fouten. De ervaren informatrices kennen die fouten. Onlangs werden studenten na een korte cursus ingezet om de vaste krachten te helpen bij hun zware taak. Dat deze tijdelijke krachten regelmatig onjuiste informatie geven of een klant
niet kunnen helpen dat spreekt voor zich. Maar OVR is al tevreden wanneer ze 1 op de 3 klanten goed kunnen helpen. De grote werkdruk leidt tot stress en een groot ziekteverzuim. Men wacht met smart op assistentie van een computer die een deel van hun werk kan overnemen. Hoe lang duurt het nog voor het computersysteem hun komt helpen?
Onlangs werd in diverse kranten een telefoonnummer gepubliceerd dat je kunt bellen om het huidige systeem eens uit te proberen. Ik heb het een paar keer uitgeprobeerd en het resultaat is bedroevend. De automatische informatrice kan alleen informatie geven over aankomst en vertrektijden van treinen in Nederland. Dit terwijl je op het 06 nummer van OVR informatie kunt krijgen over alle middelen van openbaar vervoer in nederland dus inclusief bus en boot verbindingen. Bovendien kun je daar ook te weten komen wat de goedkoopste reis is. Het gaat dus om een zeer beperkte dienst. Na de vraag " van welke station naar welk station wilt u reizen?" zei ik in het eerste gesprek: ik wil graag van Enschede naar Arnhem reizen". Daarop antwoordde het systeem met een goed verstaanbare vrouwenstem (de kwaliteit van de spraak is prima): "Wanneer wilt u van Enschede naar Arnhem reizen?" (aan de pauzes tussen de plaatsnamen kun je horen dat deze zin in elkaar gezet is maar dat is niet echt storend) Waarop ik zei maandag. Hoe laat wilt u overmorgen van E naar A reizen? Het systeem zei inderdaad "overmorgen" wat goed was omdat ik op zaterdag belde. Ik zei 9.00. Maar toen ging het systeem in de fout Het zei u wilt dus morgen om 9.00 uur van E. naar A. reizen? Nee, zei ik "overmorgen". Maar toen was ze het spoor bijster. Ze had me niet begrepen. Uiteindelijk gaf ze me de vertrektijden en overstaptijden van mijn reis op zondag. De fout was niet meer te herstellen. Wanneer ik tensloote op haar vraag of ik nog meer informatie wil antwoord: "Nee dank u wel" dan begint ze toch weer met de vraag van welke station naar welk station ik wil reizen?" Gelukkig heb ik geen enkele schroom om de verbinding dan maar te verbreken. In een tweede test vroeg ik om een verbinding tussen Harlingen en Veendam. Maar in plaats van Veendam verstond ze Veenendaal en na nog eens Veendam te hebben gezegd kwam ze met Schinnen aan zetten. Ik wist dat Veendam geen NS-station heeft. In plaats dat ze dat zegt verstaat ze iets anders. Dat komt omdat ze niet weet dat Veendam geen station heeft. De naam Veendam komt niet voor in haar lijst met stationsnamen en daarom maakt ze er iets van dat er op lijkt. Nu lijkt Schinnen helemaal niet op Veendam. Die verwarring komt denk ik doordat ze slecht om kan gaan met ruis en andere geluiden die ze uit de omgeving opvangt. Je moet dus niet ondertussen iets tegen een ander die bij je zit mompelen of lachen als je met de automaat onderhandeld, want ze denkt steeds dat je het tegen haar hebt. Dus niet zeggen: "zet het gas even lager, het water kookt" want voor je het weet denkt ze dat je naar Volendam wilt. Het spijt me heel erg voor die arme telefonistes van OVR. Ik denk dat ze snel aktie moeten onernemen tegen hun baas om betere arbeidsomstandigheden af te dwingen, want anders zal er nog heel wat ziekte-verzuim-geld uitbetaald moeten worden voor ze hulp krijgen van de sprekende computer.
Rieks op den Akker
25
Daag Majoef Hans Ree, NRC Handelsblad, 20-5-1997-07-13 Dat is toch om razend te worden! In de trein zien we de tram al aankomen, de laatste van de dag. We haasten ons naar buiten, met een heel groepje zijn we, we rennen de trap af, de trambestuurder ziet ons komen, maar hij houdt niet stil bij de halte, integendeel, hij zet flink vaart. Daar gaat hij, de laatste rit. “Dat doen die klootzakken vaak”, zegt een jongen. “Ze denken er het recht toe te hebben, omdat hun stop volgens de dienstregeling net een minuut voor de aankomst van de laatste trein is. Ze hoeven niet op ons te wachten.” Het station ligt op de kruising van de spoorweg en een snelweg. We moeten lopen, naar de lichtjes van de bewoonde wereld. En zo zou ik wel door kunnen gaan. Hou liever op, ziek word ik van jullie! Je kan nergens meer komen of iemand begint wel te klagen over het openbaar vervoer en dan valt meteen de helft van het gezelschap gretig in, de een is omgeleid, de ander heeft in een weiland gestaan, ze hebben allemaal wel hun kleine avontuurtjes meegemaakt waarmee ze ons willen vervelen. Verwende zeurpieten zijn het, die gebruikers van het openbaar vervoer. Te beroerd om te leren autorijden stappen ze lui in een collectief vervoermiddel, maar als goede Nederlandse klagers eisen ze wel dat het in alle omstandigheden voor hen op maat gesneden is. Eigenlijk zijn ze allemaal als die schaker die op het stationsplein in een willekeurige tram stapte en aan de bestuurder zei: “Breng me naar mijn vriend Oskam.” Gelukkig kunnen die schakers in de WW nu de computer heeft laten zien dat hun prachtspel maar een soort groot boter, kaas en eieren is, dat ruimt weer op. Ho, ho! Het gaat er maar om hoe groot. Alles wat de mens kan zeggen of denken kan uitgedrukt worden in een rij die bestaat uit nullen en enen. Dat is ook waar, net als die vergelijking met boter, kaas en eieren. Geen reden om het menselijke gedachtenleven te kleineren. Waar het om gaat is dat de rij onafzienbaar lang is. Op een gegeven moment slaat hier de kwantiteit om in de kwaliteit, als de liberale heren automobilisten mij nog kunnen verstaan. Zijn die er trots op dat ze niet klagen over hun files? Ze leven in een liberaal dromenland, waarin hun wegennet een soort van God gegeven natuur is, die ze als knoestige individualist te lijf gaan. Onze trein- en tramreiziger daarentegen wordt iedere dag met menselijke machtsverhoudingen geconfronteerd. Klaag niet en zie de tram die voor uw neus wegrijdt als een leerschool voor het politiek bewustzijn. Mag een taalkundige nu eindelijk ook iets zeggen? Voor mij is het openbaar vervoer een bron van interessante wetenschappelijke experimenten. Ik belde de nieuwe computer van de Spoorwegen die zaterdag in de wetenschapsbijlage werd ebschreven. Het pratende spoorboekje dat menselijke stemmen kan verstaan. Iedere dag kom ik met de trein langs het station Den Haag-Mariahoeve en het viel mij op dat de naam van dat station door de boordmicrofoon onveranderlijk werd uitgesproken als Daag Majoef. Denk niet dat ik klaag. Als wetenschapper observeer ik, als reiziger sluit ik verdroomd de ogen, hoor dat wij Daag Majoef naderen en waan mij even in de Oriënt Express. Zou de computer van de Spoorwegen ook het taalgebruik van het eigen personeel herkennen? Ik kwam op het idee omdat ik een slager had gezien die zijn eigen patés lustte. Ik vroeg de reistijden tussen Daag Majoef en Amsan Raj. De computer herkende de heerlijke exotische klanken nog niet, maar dat kan komen. Als het hele Nederlandse volk meehelpt kunnen we te weten komen hoeveel er precies van onze taal ingeslikt kan worden zonder de communicatie te verstoren. Joef-Raj zal straks genoeg zijn vor de computer en voor onszelf ook. Het is puur snobisme en koude kak, al die overbodige extra klanken. 26
Kleindenker, die nog in het verleden leeft? Lang voor het zover is zal de computer aan een enkel uitgesproken woord niet alleen de reiziger herkennen, maar ook weten waar die is en waar hij heen wil, op grond van zijn vroegere verplaatsingen, die alle in het geheugen zijn opgeslagen. Denk niet dat het toch voor kan komen dat de reiziger eigenlijk ergens naar toe wil dan de computer denkt. Gebeurt het niet vaak dat wij onze eigen geheime wensen niet kennen? Dan leggen wij ons maar al te graag neer bij de mening van een expert die het beter weet. Het gaat zo al toe in het huis van Bill Gates, de Amerikaanse computerkoning. Als een gast bij hem aanbelt klinkt er muziek. Het is het liedje dat die gast bij zijn vorige bezoek in de badkamer heeft gefloten, nu georkestreerd door de computer. In zijn logeerkamer is de televisie geprogrammeerd met videofilms van de regisseur die vorige keer in een talkshow was waarvoor de gast laat was opgebleven. Op het kussen ligt een boek van zijn lievelingsschrijver. Het behang van de kamer kleurt bij zijn pyjama. Alles uitgezocht door de computer. Zoals het daar bij Gates gaat, zal het straks overal gaan. Bel de computer van de Spoorwegen, zeg goedemorgen en de treintaxi wordt al naar uw huis gestuurd. Openbaar vervoer, maar nu inderdaad op maat gesneden. Dialectische verzoening van de verouderde politieke tegenstelling tussen de liberale automobilist en de collectivistische treinreiziger, dankzij de computer. Boerenklompenfilosoof, ik heb medelijden! Gevangene van uw technologisch wereldbeeld! Uw toekomstfantasieën gaan er altijd mank aan dat één ding in uw gedachten drastisch veranderd wordt, terwijl alle andere dingen hetzelfde blijven. Denkt u werkelijk dat er in die wetenschappelijke toekomst nog verschil zal zijn tussen de computer van de Spoorwegen en u? Tussen de treintaxi en u? De Zenmeester lijdt niet aan de illusie van de individuele persoonlijkheid, hij is de computer, de treintaxi en de trein en hij danst tussen Daag Majoef en Amsan Raj en overal waar hij wil. Hans Ree, NRC Handelsblad, 20-05-1997.
Reisinformatie en het luisterend oor van de computer Marc van Oostendorp
Onze Taal 1997 * 6 Elke dag bellen bijna veertigduizend reizigers het nummer van Openbaar Vervoer Reisinformatie. Tot nu toe kregen ze altijd een mens aan de lijn, al moesten ze daar soms even op wachten. Maar na de komende zomer wordt een deel van de gesprekken door een computer afgehandeld. Voor het zover is, moeten er nog wel een paar problemen worden opgelost. Telefoneren is niet gemakkelijk, zeker niet als je een computer bent. Ik draai het telefoonnummer van een computersysteem dat vragen beantwoordt over vertrektijden van treinen. Vervolgens raak ik verwikkeld in een verwarrend gesprek.
"Ik wil van Oisterwijk naar Heerenveen." "U wilt van Alphen aan den Rijn naar Ede-Wageningen." "Nee, ik wil vertrekken uit Oisterwijk." "Hoe laat wilt u vertrekken uit Koog-Zaandijk?" 27
De organisatie OV Reisinformatie beantwoordt jaarlijks miljoenen telefonische vragen over de snelste manier om in Nederland met het openbaar vervoer te reizen. Vorig jaar gaf zij tien miljoen reisadviezen. Er werd veertien miljoen keer gebeld, maar een groot deel van de bellers kreeg kennelijk een ingesprektoon of vond de rij wachtenden te lang, en hing op. Die mensen had OV Reisinformatie ook graag te woord willen staan, maar daarvoor zou een aanzienlijke uitbreiding van het personeel nodig zijn. Daar is geen geld voor, en dus gaat men na de zomer proberen een deel van de gesprekken te automatiseren.
Legio Problemen Voorlopig gaat het alleen om de vragen over treintijden. Wie met de bus, de tram of de veerpont wil reizen moet wachten op een informatrice van vlees en bloed. Volgens Bram Munnik van OV Reisinformatie gaat bijna veertig procent van alle gesprekken alleen over reizen van station tot station. In ongeveer de helft van die gesprekken wordt alleen om aankomst- of vertrektijden gevraagd. De beperking tot treintijden is volgens Munnik nodig omdat het systeem nu al meer dan genoeg problemen op te lossen heeft. Het heeft een woordenschat van slechts tweeduizend woorden: de namen van de stations in alle mogelijke varianten (’Den Bosch’, ’’s-Hertogenbosch’, ’Den Bosch Centraal’, ’Den Bosch CS’), de namen van dagen (’vandaag’, ’aanstaande zondag’, ’veertien juni’) en de tijden (’vijf over half twaalf’, ’elf uur vijfendertig’, ’een uur of half twaalf’). In werkelijkheid heeft het systeem trouwens een groter geheugen, want het moet allerlei tongvallen kunnen onderscheiden. Een limburger moet evengoed worden verstaan als een Groninger, een Hagenaar of een Surinamer. En ook mensen die verkouden zijn of met een dubbele tong spreken, moeten te volgen zijn.
Marietje van Groningen Zelfs in een eenvoudig gesprek worden overigens al meer dan tweeduizend woorden gebruikt. Gelukkig hoeven niet al die woorden begrepen te worden. Als mensen tegen elkaar praten, zeggen ze allerlei dingen die niet strikt noodzakelijk zijn voor de informatieuitwisseling. ’Goedemiddag, ik wil graag weten hoe ik vanuit Amsterdam in Zwolle kom.’ In zo’n zin staan maar ver woorden die echt van belang zijn: ’vanuit Amsterdam in Zwolle’. De rest is ruis. "Zelfs in die ruis kan echter verwarrende informatie voorkomen", legt Munnik uit. "Veel mensen zijn gewend zich aan het begin van een gesprekje voor te stellen. Normaal gesproken is dat geen probleem, maar het wordt verwarrend als iemand bijvoorbeeld Marietje van Groningen heet. De computer moet dan wel begrijpen dat die laatste twee woorden een naam zijn en niet de vertrekplaats van Marietje. Of sel dat iemand zegt dat zij ’om een uur of twaalf’ wil vertrekken en zij spreekt dat woord een uit als ’een’. Dan moet de vertrektijd nog steeds wel rond twaalf uur gezocht worden, en niet rond een uur."
Keuze blijft Er zijn dus nog wel wat problemen. OV Reisinformatie neemt dan ook uitgebreid de tijd om het systeem te ontwikkelen en te testen. Ruim twee jaar geleden is men begonnen met de ontwikkeling ervan, samen met de bedrijven Philips en KPN, en geholpen door onder andere de organisatie voor Nederlands Wetenschappelijk Onderzoek (NWO) en de Technische Universiteit Delft. Het gesprekje dat ik voerde, was een van de twaalfduizend conversaties die honderden proefpersonen deze maanden met de computer hebben. Na de zomer, als het systeem voldoende verschillende stemmen en accenten gehoord heeft, wordt het waarschijnlijk op 28
beperkte schaal ingevoerd in een van de ngen regio’s waarin OV Reisinformatie Nederland heeft verdeeld. Mensen die in die regio 0900-9292 bellen, kunnen ervoor kiezen zich door de computer te laten helpen in plaats van in de rij te gaan staan. Als dat experiment bevredigend verlopen is, wordt de dienst waarschijnlijk in de loop van 1998 in heel Nederland ingevoerd. Voorlopig zal de klant er altijd voor kunnen kiezen een mens aan de lijn te krijgen.
Uiteindelijk gaf de computer me de route van Oisterwijk naar Heerenveen. Nu de terugreis nog. Omdat ik dacht dat het sneller zou gaan met een menselijke gesprekspartner, draaide ik het reguliere nummer en legde de informatrice mijn vraag voor. Even was het stil. "Pardon," zei zij, "wij geven geen informatie over internationale treinen." Voor reizen naar Oostenrijk moest ik een ander nummer draaien.
WIE MET een computer wil praten, kan sinds een paar maanden terecht bij telefoonnummer 0703040418. Een prettige vrouwenstem neemt de telefoon op: "Goedemorgen, van welk station naar welk station wilt u reizen?" "Nou, doe mij maar een retourtje Leiden-Amsterdam" zeg je, kouwend op een broodje kaas. "U wilt dus - van Veenendaal-De Klomp – naar Amsterdam?" antwoordt de vrouwenstem na korte aarzeling. Als je het niet kunt laten iets meligs in te spreken als: "Heeft Willem Alexander al gebeld?", komt de stem ijzersterk terug met: "U wilt dus - om 14 uur 30 - van Leiden - naar Leeuwarden?" De beller is hiermee een van de duizenden proefkonijnen geworden in het project Taal- en Spraaktechnologie, waarin diverse universiteiten, KPN en Philips
De machine leert luisteren Algemeen Dagblad zaterdag 20 september 1997 Uiteindelijk, is de bedoeling, moeten computers allerlei routinevragen naar concrete informatie af kunnen handelen. Omdat natuurlijke spraak veel variatie vertoont, is het nodig zulke systemen bloot te stellen aan veel sprekers die spontaan op het programma reageren. Tot nu toe hebben zo’n 10.000 mensen het experimentele Openbaar Vervoer Informatie Systeem (OVIS) gebeld. Alle gesprekken worden op band opgenomen en achteraf door een mens beluisterd. Aperte ongein wordt weggegooid, de rest vormt ’lesmateriaal’ voor het systeem. In het laboratorium, als een paar proefpersonen standaardzinnetjes voorlezen, is spraakherkenning een koud kunstje. Ook blijkt persoonsherkenning relatief eenvoudig, omdat het stemgeluid een karakteristiek patroon heeft dat niemand kan imiteren. Onlangs opende de Nijmeegse vakgroep Taal en Spraak een internet-pagina waar de gebruiker zich de eerste keer mondeling aanmeldt, waarna de eigen stem het wachtwoord vormt. Ook bestaan al dicteerapparaten, die een door de eigenaar
ingesproken tekst op papier zetten. Als ook de betekenis herkend moet worden, lijkt ’taal’ veel ongrijpbaarder. Vier jaar geleden zette de ANWB al heel overmoedig een computer in om telefonische vragen over de marktwaarde van tweedehands-auto’s te beantwoorden. Wegens te veel fouten is men toen al gauw overgestapt op een meerkeuzesysteem via de telefoontoetesen, net als bij de girofoon.
29
Prof. L. Boves, coordinator van het Taal- en Spraakproject: “We hebben geleerd dat het vreselijk moeilijk is om van schijnbaar eenvoudige dingen die mensen zeggen, precies vast te leggen wat ze betekenen. Er bellen mensen die Amsterdam ‘Mokum’ noemen, of Groningen ‘Groningen-stad’. Al die varianten moet de computer herkennen.” Bovendien gebruiken mensen dubbelzinnige termen waar de computer zich in verslikt. Oorspronkelijk zou het NS-informatienummer 24 uur per dag in bedrijf zijn, maar dat bleek te hoog gegrepen. De reden: het programma kan niet overweg met ‘morgen’ en ‘vandaag’. Treinkaartjes van ‘vandaag’ zijn geldig tot de laatste trein vertrekt, maar soms is dat ver na middernacht. Mensen spelen daar flexibel op in, maar op een moeilijk in regels te vangen manier. Boves denkt dat zulke obstakels nog wel te omzeilen zijn. “Als iemand over een paar jaar het NS informatie-nummer belt, beseft hij of zij nauwelijks meer dat hij met een machine praat.” Waarschijnlijk zullen veel service-nummers tegen die tijd geautomatiseerd zijn. Toch betekent dat nog lang niet dat een computer een echt gesprek kan voeren. Bij zulke telefoontjes nemen mensen instinctief de moeite om netjes te spreken en ondubbelzinnige mededelingen te doen. De computer kan dan op een heel beperkt kennisgebied een standaard-reportoire van antwoorden afwerken. Maar van veel dagelijks spraakgebruik is de betekenis context-afhankelijk: uit louter de gesproken informatie valt niet af te leiden wat er bedoeld wordt. Wie gezellig wil napraten over de laatste aflevering van GTST zal dat toch echt met iemand die die soap gezien heeft, of op z’n minst weet wat televisie is.
Razendsnel door woordenboek De eerste serieuze pogingen om machines gesproken woord te laten verstaan dateren uit de jaren zestig. Sindsdien is dankzij steeds krachtiger computers en verfijningen in de programma’s geleidelijk vooruitgang geboekt. Elk geluid bestaat uit trillingen in de luchtdruk die een computer net zo goed kan registreren als het menselijk oor. Het probleem is om in dat zeer complexe trillingspatroon klanken en woorden te onderscheiden. Het spraakherkenningsprogramma hakt het stemgeluid in intervalletjes van 0,01 seconde, en bepaalt voor elk van die stukjes het spectrum. De mix van hoge en lage tonen die er in voorkomt. 30
Gesproken Nederlands kent een kleine vijftig klanken, elk met een eigen spectrum. De computer vergelijkt het waargenomen spectrum met de beginstukken van die vijftig klanken, en bepaalt de kans dat ze overeenkomen. Hij zal dus denken: ‘45% kans dat hier een ‘A’ begint, 18% dat hier een ‘U’ begint, enzovoort. Tussen verschillende sprekers komt te veel variatie voor om losse klanken met zekerheid te identificeren. Het programma onthoudt echter die kansverdeling, en vergelijkt opeenvolgende intervalletjes met elkaar. Op zeker moment weet het systeem dan vrij zeker dat de spreker ‘A’ zegt en niet ‘U’, dus als het een
plaatsnaam is die genoemd wordt, is dit misschien ‘Amsterdam’ maar zeker niet ‘Utrecht’. In het woordenboek dat de computer 100 keer per seconde doorloopt op overeenkomsten, kunnen plaatnamen met een U dus verder buiten beschouwing blijven. Dit proces van schrappen en voorlopige kansen toekennen gaat dor totdat de spreker uitgesproken is: bepaalde woordcombinaties zijn waarschijnlijker dan andere, maar zelfs het laatste woord kan daar nog invloed op hebben. Deze aanpak vergt veel geheugen en rekenkracht. Pas de laatste jaren zijn computers snel genoeg om die klus aan te kunnen. Het vinden van de grens
tussen woorden blijft nog een probleem. Als het programma meent de boodschap verstaan te hebben (‘ik wil van Amsterdam naar Leeuwarden’) vraagt hij aanvullende gegevens en verifieert meteen de
vorige: ‘Wanneer wilt u van Amsterdam naar Leeuwarden?’ Als ‘Leeuwarden’ nu verkeerd verstaan is, is verwaaring het gevolg. De hoorn neerleggen en opnieuw beginnen is de snelste oplossing, maar doorgaans duurt het vrij
lang voordat de beller dat doorheeft. Hetzelfde systeem zou, met een andere woordenschat, ook voor het opnemen van bestellingen of reserveringen geschikt zijn.
LACHEN Spraakherkenning is volop in ontwikkeling, er wordt nu ook al volop mee geexpirimenteerd. Zo ook bij de NS, als je 070-3040418 belt dan kom je in een expiriment terecht: de vrouwelijke robot die je stem herkent ! Jij zegt hoe je wilt reizen en zij (de robot) geeft een advies op maat ! Dat wilde ik weleens proberen, ik belde dus het nummer en zette de taperecorder aan... Een werkelijk zeer charmant klinkende ’dame’ kwam aan de lijn. Ik noem haar voor het gemak maar Anne... Anne: Van welk station naar welk station wilt u reizen? Ik: Van Amsterdam naar Maasstricht Anne: Op welke dag wilt u vanuit Amsterdam Centraal Station naar Maasstricht reizen ? Ik: Dinsdag Anne: Hoe laat wilt u overmorgen reizen ? Ik: 7 minuten over 10 Anne: U wilt dus om 10 uur 7 ’s-ochtends vertrekken ? Ik: Ja Anne: De sprekende computer heeft de volgende verbinding gevonden: Ik was verbluft. Wat volgde was een gedetailleerde route-beschrijving inclusief overstappen, etc. En wat een lieve stem ! Weet je, ik voelde vlinders in m’n buik. Zou het ook mogelijk zijn een afspraakje met Anne te regelen ? Tja, we leven in de moderne tijd, dat moet toch kunnen? Vastbesloten belde ik opnieuw, hier een letterlijke weergave van het romantische gesprek wat ik toen mocht beleven: Anne: Van welk station naar welk station wilt u reizen ? Ik: Ik vind u zo’n leuke vrouwelijke computer, kan ik ook een afspraakje met u maken ? <Een verdraaid menselijk trekje trad nu op: er viel even een ijzige stilte !) Anne:
Zei u dat u vanuit ’t Harde wilt vertrekken ?
Nu was het mijn beurt om even stil te vallen. Ik: Nee, ik vraag of ik een afspraakje kan maken met u heeft zo’n lieve, romantische stem Anne: Zei u dat u vanuit Maastricht wilt vertrekken ? Ik begon me af te vragen of het nog wat zou worden met dat afspraakje, maar ik besloot stoicijns te vervolgen: Ik: Nee, ik wil graag een afspraakje met u maken, kan dat ? Een keertje gezellig naar de film of zo ? 31
Anne: Zei u dat u vanuit ’t Harde wilt vertrekken ? Ik: (geirriteerd nu) NEE MENS, ik wil een afspraak maken, wat moet ik in ’t Harde !! Anne: Zei u dat u vanuit Maastricht wilt vertrekken ? Ik: (diepe zucht) Nou ja, tenzij je in Maastricht woont, dan moet ik daar wel een keer vertrekken. Anne: Zei u dat u vanuit Breda-Prinsenbeek wilt vertrekken ? Eindelijk begreep ik hoe slim domme blondjes eigenlijk wel niet zijn. Vergeleken met zo’n computer-vrouw hebben deze een IQ van 200. Ik ging verder om te kijken of zo’n afspraakje me toch zou lukken, alhoewel de kans op succes me vrij klein leek inmiddels: Ik: Anne: Ik: Anne:
Als je in Breda-Prinsenbeek woont wel Op welke dag wilt u vanuit Deventer naar Maastricht reizen ? Nou, wanneer wil jij ? Woensdag of zo ? Op welke dag wilt u vanuit Blerick naar Hilversum rijden ?
Misschien was ’t wel mijn nieuwe after shave of anders m’n warme stem, maar Anne was duidelijk in de war. Iedere keer dreunde ze andere bestemingen op. Bestaat er eigenlijk Prozac voor computer-vrouwen ? Ik: (luid) Woensdag !! Anne: Hoe laat wilt u op Woensdag 24 september reizen ? Ik: Tja, komt half 12 jou uit ? Anne: Hoe laat wilt u op Donderdag 12 maart reizen ? Ik: 12 maart ??? Nou, dat duurt wel een beetje erg lang !! Kan het niet wat eerder ? Anne: Hoe laat wilt u op Donderdag 12 maart reizen ? Verdraaid, computer of niet, typisch een vrouw, en maardoordrammen en doordrammen ! Ik: (met diepe zucht): Half 2 Anne: U wilt dus in de nacht van Donderdag 12 op vrijdag 13 maart om 1 uur 30 vertrekken ? Aha, dat gehad ! gebruikt spannend
ging de goede kant op. Ik had het helemaal niet over ’s-nachts Zie je wel, als je maar flink aanhoudt en de juiste tactiek dan krijg je een computer-vrouw best warm voor een leuk en afspraakje!
Ik: Je loopt hard van stapel, maar als jij een afspraakje’s-nachts wilt. Anne: Ik versta u niet (en opnieuw de vraag). Ik: JAHAAA !! Anne: Op het traject Blerick-Hilversum rijden op Donderdag 12 maart geen treinen. Dit werd me teveel. Ik verbrak de verbinding en besefte dat ik kennis had gemaakt met de 21e eeuw. Kille domme computer-vrouwen met een namaak lieve stem. Een afspraakje maken zit er niet in, in feite is Anne een monster zonder gevoel :=(
Geachte mijnheer/mevrouw, Fijn dat u wilt meewerken aan de verfijning van onze hotel reserveringlijn. Om u een indruk te geven van wat de bedoeling is, vindt u op de volgende pagina’s een uitleg over spraakherkenning en over de reserveringlijn. 32
Sinds kort is het mogelijk om gewoon tegen een computer praten, die vervolgens gewoon antwoord geeft! Dit is mogelijk geworden door natuurlijke spraakherkenning. TeleCats is één van de pioniers in Nederland voor natuurlijke spraakherkenning. Er is een demonstratie van spraakherkenning gemaakt voor een hotelreserveringlijn. Mensen kunnen naar deze lijn bellen en vertellen wat ze ongeveer zoeken. Vervolgens zoekt de computer een geschikt hotel uit. In de praktijk zou het systeem de beller kunnen doorverbinden met het hotel om de details door te nemen. De demonstratie houdt het echter bij een eenvoudige melding. Om spraak goed te kunnen herkennen, moet het systeem getraind worden. Dit wordt gedaan door veel verschillende mensen naar het systeem te laten bellen. De stemmen van de beliers worden opgenomen en naderhand afgeluisterd en vergeleken met wat het systeem verstaan heeft. Op deze manier zal het systeem 'leren' woorden en woordcombinaties beter te herkennen. Om ervoor te zorgen dat het systeem alle mensen kan verstaan, dient het systeem te worden getraind door zoveel mogelijk verschillende mensen. Mannen en vrouwen, jong en oud, en uit verschillende streken in Nederland.
Training van de’hotel reserveringlijn U bent bereid gevonden om mee te werken aan de training van het systeem. Hiertoe verzoeken we u enkele malen het systeem te bellen en de dialoog te doorlopen. Stelt u zich voor dat u op zoek bent naar een hotel ergens in Nederland, maar dat u nog niet weet welk hotel. U heeft bepaalde voorkeuren voor een kamer en prijs en u heeft bepaalde eisen aan de accommodatie. Het systeem zal u leiden door de dialoog, maar u kunt zelf ook initiatief nemen. Het systeem reageert op Ü. Net als een 'echte' telefoniste. Probeert u de dialoog te doorlopen en het systeem voor u een hotel te laten selecteren. Als het systeem u herhaaldelijk verkeerd verstaat (dit kan in de trainingsfase zeker wel gebeuren), kunt u het systeem soms het beste maar gewoon gelijk geven om toch door te kunnen naar de rest van de dialoog. U traint het systeem sowieso. Ook al verstaat het systeem niets van wat u zegt, toch is de spraak van u zeer waardevol om de herkenning te verbeteren. U telefoontje heeft dus altijd zin. U kunt het systeem bereiken op nummer: (053) 488 99 55
Een dialoog met het systeem zou als volgt kunnen verlopen: (S=Spraakherkenner,K=klant) S: K: S: K: S: K:
Goedemiddag. U bent verbonden met... Waar wilt u een hotel reserveren? Hallo, ik wil graag een hotel in de buurt van Eindhoven. Wat voor type kamer wilt u in Eindhoven reserveren? Doe maar een tweepersoons kamer. In wat voor prijsklasse zoekt u een tweepersoons kamer Ach, iets van rond de 85 gulden lijkt me wel redelijk.
Het is ook mogelijk om een aantal dingen in een keer tegen het systeem te zeggen.
33
S: Goedemiddag. U bent verbonden met..... Waar wilt u een hotel reservëreri? K: Ik wil een éénpersoons kamer in Limburg voor drie nachten van rond de 70 gulden. S: Wanneer wilt u voor drie nachten een eenpersoons kamer in Limburg van rond de 70 gulden?
U ziet dat het systeem de dingen die het verstaan heeft, herhaalt. Dit, om u de mogelijkheid te geven om het systeem te verbeteren als deze u verkeerd verstaan heeft. Dit werkt bijvoorbeeld als volgt, K: S: K: S:
Ik wil een hotel in Emmen. Wat voor type kamer wilt u in Venlo huren? Nee niet in Venlo, in Emmen! Wat voor type kamer wilt u in Emmen huren?
Op de volgende pagina is een overzicht te vinden van welke termen het systeem kent. Gebruikt u dit alleen als u er niet uitkomt zonder dit overzicht. Het is beter als u het systeem gewoon belt en datgene zegt, wat voor u normaal is. Wel heeft het zin om de lijst met plaatsnamen erbij te nemen. Het systeem kent namelijk slechts hotels in 25 plaatsen in Nederland. Belt u het systeem zo vaak als u wilt, en vraag eventueel uw kennissen het ook eens te proberen. Hoe meer hoe beter. We verzoeken u wel vriendelijk op zijn minst drie keer te bellen, zodat we behoorlijk wat van uw spraak kunnen gebruiken. Alvast hartelijk bedankt voor uw medewerking. Met vriendelijke groet, Wim Luimes Directeur van TeleCats
Spiekbriefje Hieronder staan opsommingen van de mogelijkheden die in het systeem zijn ingebouwd. U kunt dit gebruiken om het systeem wat gerichter te testen.
Plaatsbepaling Het systeem accepteert verschillende plaatsbepalingen voor het hotel U kunt een plaatsnaam een streek of provincie of een bekend gebouw noemen. 25 grote plaatsen in Nederland Amersfoort Breda Dordrecht Haarlem Tilburg Amsterdam Den Bosch Eindhoven Leeuwarden Utrecht Apeldoorn Den Haag Emmen Maastricht Venlo ArnhemDen Helder Enschede Nijmegen Vlissingen Assen Deventer Groningen Rotterdam Zwolle’ gebieden in Nederland Drente Flevoland Friesland Gelderland 34
Noord Brabant Noord Holland Overijssel Utrecht
Achterhoek Gooi IJsselmeer de Randstad
West Fdesland Zeeuws Vlaanderen Zuid Limburg
Groningen Limburg
Zeeland Zuid Holland
Twente Waddenzee
Belangrijke gebouwen in Nederland V\ITC
1 Jaarbeurs Utrecht
RAI Amsterdam
Bijzonderheden (einde van de dialoog) Als u bijzonderheden aan het zaken lift terras parkeergelegenheid vergaderzaal honden bar
hotel of aan de kamer wilt aangeven, kunt u denken aan onderstaande sauna zwembad zonnebank fitness speeltuin squash
bowling paardrijden golf tennis
CVN onderzoekt call-centers (Computable, 26/9/97) Hoofddorp De dienstenbond CNV gaat onderzoek doen naar het functioneren van call-centers. De vakbond vindt dat de arbeidsomstandigheden in deze jonge en snel groeiende bedrijfstak te wensen overlaten. Steeds meer grote ondernemingen besteden hun belwerk uit aan call-centers die 24 uur lang in bedrijf zijn. Het gaat om het te woord staan van klanten, telefonische enquetes, reserrveringen of helpdesk-functies. De ‘belfabrieken’ bieden werk aan enkele duizenden mensen. Binnen enkele jaren zou de bedrijfstak naar schatting 120.000 tot 160.000 arbeidsplaatsen kunnen opleveren. Over beloning en arbeidstijden komen veel klachten binnen, beweert de dienstenbond CNV. Telefonisten moeten soms op de meest onmogelijke tijdstippen werken en hebben geen zekerheid over hun baan. De werknemers vallen niet onder een cao. In de bankensector is hierover onrust ontstaan toen ABN Amro zijn telefoonmedewerkers in een aparte call-center onderbracht en de Banken-CAO op hen niet van toepassing verklaarde. De CNV vindt het hoog tijd dat ook dit segment een nette bedrijfstak wordt.
STAGE-& D-OPDRACHTEN
Call Centre Technologie Dialogue Design with Reliability Measures Gies Bouwman, D-opdracht, Philips GmbH Forschungslaboratorien, Aachen Periode: april 1997 - november 1997 Beg.: Nils Lenke, Bernd Rüber, Anton Nijholt, Joris Hulstijn Omschrijving. Philips Aachen is, among others, concerned with research & development in the area of user interfaces for (spoken language) dialogue systems. Having a systematic investigation on useful dialogue design strategies with a special emphasis on using confidence measures for, e.g., shortening or smoothing the dialogue is quite useful for Philips. The aim is to develop dialogue strategies which make full use of existing confidence measures for the reliability of the recognition of the items supposed to have been stated by a user. These strategies will be used in 35
the user interface design for an Automatic Exchange Board System. Remarks: Dialogue examples of the existing PADIS system are provided. Full software support will be given, including the provision of the confidence measures for the semantic items supposed to be spoken. • New dialogue strategies using confidence measures will have to be implemented in HDDL, a high level dialogue description language. • User Interface Design support will be given by Twente and the Dialogue Systems division of Philips Aachen.
Een Spraakgestuurd Bioscoop-Reserveringssysteem Mathieu van den Berk, Stage-opdracht, TeleCats, Enschede Periode: augustus - november 1997 Beg.: Wim Luimes en Anton Nijholt Omschrijving: SpeechMania is de commerciële versie van het Philips Aken dialoogsysteem (zie proceedings TWLT9). Dit systeem is aangekocht door TeleCats, een bedrijf in Enschede gespecialiseerd in voice-response systemen en alert op ontwikkelingen op het gebied van spraaktechnologie. De bedoeling is met het aangekochte systeem tal van spraakapplicaties te ontwikkelen. Zo zal gekeken worden naar het ontwerpen van een generiek dialoogsysteem voor het reserveren van kaartjes voor evenementen van ontspannende aard, zoals bioscoop/concert/theater/voetbal, met behulp van SpeechMania. Om de omvang van de stage-opdracht enigszins in te perken zal gekeken kunnen worden naar een specifiek domein, om op grond van die ervaringen te komen tot het gewenste generieke systeem. Daarom zal in de opdracht de aandacht gaan naar het ontwerpen en implementeren van een systeem voor het reserveren van bioscoopkaartjes, het belbios-systeem. In de opdracht zal uitgebreid gebruik gemaakt kunnen worden van de expertise die opgedaan is tijdens het werken aan het SCHISMA (Schouwburg Informatie en Reservering) systeem van de Parlevink Onderzoeksgroep van de Universiteit Twente.
Conversation Flow Manager Karianne Braat en Harold Jurgen Oortwijn. Stage-opdracht, Coopers & Lybrand, Amsterdam/Fontainebleau. Periode: 15 aug -15 oktober 1997 Begeleiding: Martin Kolkman en Anton Nijholt Omschrijving: VoiceTec is een internationale technologie-ontwikkeling die plaatsvindt in Amsterdam en Fontainebleau, begeleid door medewerkers van Coopers & Lybrand. Het doel is het ontwikkelen van een nieuwe generatie voice response systemen voor de luchtvaarten reserveringsindustrie. Hierbij worden een aantal (redelijk) mature informatietechnologieen, zoals voice recognition, rule-based systems en speech generation geintegreerd tot een produkt voor het automatisch beantwoorden van telefoongesprekken. 'VoiceRes' is het eerste IT-product dat volledig geautomatiseerd reservering services verricht voor luchtvaartmaatschappijen. 'VoiceRes' verricht alle call center handelingen van verkoop van een reservering: van initiatie van een gesprek (querying) tot het boeken van een reservering (sales completion). Ontwikkeling van een nieuw produkt is op dit moment in gang gezet. Kern van dit produkt is een conversation flow manager welke de dialoog met klanten tijdens de telefoongesprekken stroomlijnt. Tijdens de stage zal de conversation flow manager ontworpen en gebouwd moeten worden. Ook zullen de diverse basiscomponenten van 'VoiceRes' tot een werkend produkt geintegreerd moeten worden. De ontwikkelomgeving is Visual C++. 36
Einde Call Centre Pages
Virtuele informatrice? De faculteit Informatica heeft het Enschedese Muziekcentrum op het World Wide Web gezet. Dinsdag 1 juli vindt de opening van het virtuele muziekcentrum plaats. Bezoekers kunnen het Enschedese Muziekcentrum bekijken, kletsen met medebezoekers, en aan de virtuele informatrice - Karin - vragen stellen. In de nabije toekomst wordt zij uitgerust met spraak, lipbewegingen en ’lichaamstaal’
Prof. dr. ir. Anton Nijholt van de vakgroep Software Enigineering en Theoretische Informatica (Seti): ’We willen allerlei informatie zo toegankelijk mogelijk maken voor een groot publiek. De bezoeker kan vragen wanneer Youp van ’t Hek in Enschede optreedt, of hoe hij bij de Schouwburg komt. Ook kan hij kritisch vragen hoe het zicht is vanaf rij 23. Karin kan dan de weg wijzen en voorstellen om met eigen ogen een kijkje te nemen.’
Welke technische grenzen wilt u met dit project attaqueren? ’In de eerste plaats de koppeling tussen taal en spraak. Het mooiste is wanneer de computer beide beheerst maar dat is vrijwel onmogelijk. Toch willen we weten hoever we kunnen komen. Het is de kunst om het vraaggedrag van de gebruiker zó te sturen dat de virtuele informatrice daadwerkelijk korte informatieve antwoorden kan geven. Op zo'n meta-niveau kun je weldegelijk tot natuurlijke communicatie komen. 'Verder willen we alles zo realistisch mogelijk voorstellen. Nieuw bij dit project is dat we alles via WWW-technologie aanbieden.'
Zullen Twentenaren anders reageren op Karin dan Japanners op het virtuele model-sterretje Kyoko Date? 'Kyoko Date heeft een eigen TV-show en hits! Onze Karin is met haar vergeleken nogal onbeholpen. Het duurt heel lang voor we daar iets moois van hebben gemaakt. 'Karin zou het gezicht van de Schouwburg moeten worden. Mensen communiceren gemakkelijker met een gezicht dan met een kaal scherm. In de VS zijn animatie-laboratoria die gezichten beschikbaar stellen. Misschien kunnen we met één daarvan aan de slag. 'In Zweden zijn bij veerbootdiensten virtuele poppen die synchroon spreken. Op een gegeven moment laten zij een tabel met vertrektijden zien. Dat is hele complexe informatie. Je ziet de ogen van de pop dan naar linksonder bewegen. Als virtuele bezoeker ga je automatisch mee.'
Is de Twentse Schouwburg commercieel geïnteresseerd? Een leuke dame verkoopt vast meer kaartjes. ’De vorige directeur was redelijk positief maar marketing-strategisch was hij er zeker nog niet mee bezig. In Purmerend wordt spraaktechnologie binnenkort waarschijnlijk gekoppeld aan een reserveringsdienst. Je ziet tegenwoordig toch iets gevoeligheid ontstaan voor dit soort toepassingen.’ Egbert van Hattem 37
Virtual reality bij Informatica Een kijkje achter de schermen van een virtueel theater door Wiebe van der Veen CAMPUS Voordat je een kaartje koopt voor een concert van De Dijk, een opera van Verdi of een voorstelling van Herman Finkers, wil je eerst wel eens een geschikte plek uitzoeken. Even vooraf rondkijken in het theater kan nu via Internet. Achter de balie van dit ‘virtuele theater’ geeft Karin antwoord op al je vragen. Levensecht verschijnt het Muziekcentrum in Enschede op het beeldscherm van je pc. Door te bewegen met de muis kun je op je gemak ronddwalen in het theater. Even in de zaal kijken: waar wil ik graag zitten? Misschien is het balkon toch leuker. Dan maar even de trap op. Na ook nog een kijkje te hebben genomen in de muziekshop, wil je weten welk concert er vanavond is. Achter de informatiebalie staat Karin klaar om antwoord te geven op al je vragen. Kom je dicht genoeg in de buurt van de balie, dan vraagt deze ‘virtuele informatrice’ uiterst beleefd waarmee ze je van dienst kan zijn. “Nu moet je je vraag nog intypen,” legt Jan Sipke van der Veen uit. “Binnenkort gaan we ook werken met spraak. Karin geeft dan sprekend antwoord en beweegt haar lippen daarbij. Ook kun je in het theater een praatje maken met andere bezoekers.” Samen met twee studenten van de Hogeschool Enschede heeft Jan Sipke het virtuele theater ‘gebouwd’ en op Internet gezet, zodat zoveel mogelijk mensen een kijkje achter de schermen kunnen nemen. Toegankelijk Doel van het project, geleid door prof. Anton Nijholt, is om informatie zo toegankelijk mogelijk te maken, zonder dat je als gebruiker heel veel van computers hoeft te weten. En zonder dat je een hele reeks instructies hoeft aan te horen in de trant van “Wilt u meer weten over popconcerten, toets dan twee.” Nee, jíj stelt de vraag en het systeem vertaalt die vraag voor de computer. Daarvoor moet het herkennen wat wel en niet belangrijk is. Zo kan de vraag ‘Ik wil weten, als het niet teveel moeite is, welke popconcerten er deze week plaatsvinden in het muziekcentrum?’ Makkelijker korter worden gesteld. Het is de kunst om dat vraag-antwoordspel een beetje te sturen. Optimale mens-machine interactie heet dat. Karin gaat met jouw vraag zoeken in het Schouwburg Informatie systeem, vindt de gewenste gegevens en formuleert vervolgens een nette zin als antwoord. De volgende stap is dat ze ook voor je kan reserveren. Maar voor het concert zelf moet je gelukkig nog wel de deur uit. Je kunt tenslotte niet altijd achter je pc zitten. 21 is een Europees project waarin de Parlevink onderzoeksgroep participeert. Studenten kunnen een rol vervullen binnen dit project door middel van afstudeerprojecten (en in de toekomst wellicht ook stages). D-opdrachten kunnen bijvoorbeeld betrekking hebben op onderwerpen die met information retrieval te maken hebben. Ontleden, herkenning van bepaalde concepten, vertalen van termen, OCR, beeldherkenning, etc. zijn deelonderwerpen die aan bod kunnen komen. Ook kan gewerkt worden aan onderwerpen die nauw gerelateerd zijn aan 21 maar 38
die in het project zelf niet prominent aanwezig zijn.
Plaatjes kijken WebSeer is an image search engine for the World Wide Web developed at the University of Chicago. Using WebSeer, you can search for images using words describing the contents of the image and, optionally, by specifying characteristics of the image, such as whether or not it is a photograph, or how many faces it contains.
Status The current database contains over three million images and is growing continuously. Some searches you might try:
"aurora"--photograph--color "eagle"--photograph "rose"--photograph--0 faces "Beavis and Butthead"--graphic "space shuttle"--photograph--color "OJ Simpson"--photograph--1 face "OJ Simpson"--photograph "Star Wars"--photograph
Further Information WebSeer: An Image Search Engine for the World Wide Web, University of Chicago Technical Report TR-96-14, July 1996. [Postscript 4,408k] [Compressed Postscript 848k] [PDF 1936k]. A shortened, updated version: [Postscript 352k] [Compressed Postscript 152k] [PDF 1312k] Distinguishing Photographs and Graphics on the World Wide Web, Submitted to the IEEE Workshop on Content-Based Access of Image and Video Libraries, March 1997. [Postcript 249k] [Compressed Postcript 86k].
39
PROJECT PARLEVINK Language Engineering Universiteit Twente
Parlevink Het Parlevink project is een taaltheorie en -technologie project van de van de Universiteit Twente. Uitgangspunt is een (software) engineering benadering van natuurlijke taal en natuurlijke taal verwerkende systemen.
Onderwerpen In deelprojecten wordt aandacht geschonken aan syntaxis, semantiek en pragmatiek. Dialoogmodellering is ook onderdeel van het project, evenals connectionistische taalverwerving en -verwerking. Ondersteunend onderzoek wordt verricht op het gebied van formele talen en van neurale netwerken. Integratie van het onderzoek vindt plaats binnen een project met KPN Research. Dit is het SCHISMA deelproject: ontwerp en realisatie van een via natuurlijke taal toegankelijk schouwburginformatie& reserveringssysteem. Andere onderwerpen die bij dit integratieproject een rol spelen zijn de inbedding van een dergelijk systeem binnen een Digitale Stad, ‘virtual reality’ en taalnavigatie binnen een schouwburg, ‘technology assessment’, bestuurlijke en maatschappelijke aspecten en spraak.
AIO-Onderzoek In 1996 verrichten een viertal AIOs onderzoek binnen het project (robuuste taalanalyse, pragmatiek, dialoogmodellering en dialooganalyse). In 1995 verscheen het proefschrift ‘Little Linguistic Creatures’ van Marc Drossaers dat uitvoerig in de Volkskrant werd besproken. In het najaar van 1997 zal het proefschrift van Jan Schaake over taal en pragmatiek verschijnen. Ander AIO onderzoek heeft betrekking op robuuste taalanalyse en op het gebied van formele modellen voor dialoogmodellering. Nieuw AIO onderzoek in samenwerking met de TRESE onderzoeksgroep op het gebied van object-georienteerd natuurlijke taalverwerking zal ook in 1997 gestart worden. Onderzoek naar het interactiegedrag van verschillende gebruikersgroepen bij mens-machine communicatie en onderzoek op het terrein van logistiek en neurale netwerken zal eveneens in de loop van 1997 door nieuwe AiOs binnen het project gestart worden.
40
Projecten Naast het hierboven genoemde samenwerkingsproject SCHISMA met KPN Research (het realiseren van een via natuurlijke taal toegankelijk theater-informatie en -reserveringssysteem) zijn er een aantal andere deelprojecten van Parlevink met een meer internationaal karakter. Het Twenty-One project (samen met o.a. Getronics, Rank Xerox en TNO Delft) heeft betrekking op onderzoek naar het vergroten van de toegankelijkheid van documenten op het gebied van het milieu. Taaltechnologie wordt in dit project te hulp geroepen om het zoeken naar documenten te vergemakkelijken en om het de makers van documenten te mogelijk te maken om informatie beschikbaar te stellen aan de ‘buitenwereld’. Multi-media information retrieval (taal, spraak, beeld, video, tekst) in verschillende talen is een uitgangspunt van dit project. NFC (Neuro-Fuzzy Centre) is een samenwerkingsproject met o.a. het Centrum voor Micro-Electronica (CME) en de FachHochSchule Münster op het terrein van de toepassing van neuro-fuzzy technologie in het Midden- en KleinBedrijf (MKB) in de regio Twente-Münster. MEWO (Maatschappelijke Effecten van Wetenschappelijk Onderzoek) is een door de Universiteit Twente geïnitieerd project dat kijkt naar de rol van taal en spraak bij telematica- en informatietechnologiesystemen (MMC, HCI, Internet, etc.) en hoe onderzoekers vorm kunnen geven in hun onderzoek aan maatschappelijke aspecten en effecten van hun onderzoek. Pop-Eye, is een onderzoeksproject (met TROS, SWF, etc.) waar de vraag wordt gesteld of het mogelijk is information retrieval te plegen op onderteksten van film/video beelden. Ook hier geldt dat het niet alleen om retrieval gaat, maar ook over de manier waarop documenten beschikbaat gesteld worden aan de WWW gemeenschap. Teleloket tenslotte, is een groot samenwerkingsproject (met TW, BSK, WMW, Gemeente Enschede) dat gefinancierd wordt door Binnenlandse Zaken en dat tot doel heeft allerlei overheidsinformatie toegankelijker te maken voor de burger. Daarbij wordt vanuit Parlevink vooral gekeken naar de spraak-, taal- en dialoogaspecten.
Workshops Vanuit het Parlevinkproject worden de halfjaarlijkse Twente Workshops on Language Technology (TWLT) georganiseerd. Van een in eerste instantie lokale gebeurtenis zijn deze workshops uitgegroeid tot internationale bijeenkomsten met een ‘mixture’ van beginnende en prominente onderzoekers. TWLT 12, in september 1996 en gewijd aan (verbale) computationele humor, had o.a. Douglas Hofstadter, John Allen Paulos en Marvin Minsky als sprekers.
Studenten Naar verwachting zullen in de komende jaren zo’n 20 tot 30 studenten afstudeerwerk verrichten binnen het Parlevinkproject. Daarnaast zijn er veel studenten die stages uitvoeren op het terrein van natuurlijke taal in het bedrijfsleven. Afstuderen is mogelijk binnen de verschillende deelprojecten van Parlevink. Daarnaast wordt iedere student uitgenodigd zelf een onderwerp te bedenken dat op een of andere wijze past binnen de Parlevink-filosofie. Nadere Inlichtingen: [email protected]
41
Overzicht Parlevink Afstudeerders Overzicht Afstudeerders Parlevink 1990 1991 1. E. Leerkes
2. B. Pluimers 3. M. Lankhorst
1992
1993
4. J. Braam 5. H.R. Ophoff 6. J. Schaake 7. B. v Heuveln
8. H.E. v Elburg 9. H. Harkema 10. E. Schol 11. A. Hoekstra 12. H. Waterlander 13. Th. de Haan 14. M. Verlinden 15. H.-J. Hesselink 16. W.O. Huijssen
1994
1995
1996
1997-1998
17. H. ter Doest 18. G.J. Kruizenga 19. L. Thierry 20. F. Hemels 21. D. Bijwaard 22. D. Kersten 23. M. Opdam
24. R. Ekkelenkamp 25. M. Moll 26. F. Wiersma 27. S. Spruit
28. R. Bos 29. W.J. vd Veer 30. R. Steetskamp 31. C. Willems (1) 32. W.A. Veling 33. Dj. Hiemstra 34. E. v Kalkeren 35. M. Grim 36. Th. vd Geest 37. K. Schrijvers 38. D. van Leeuwen 39. E.L. Salomons 40. E. Rommes (2) 41. J. Hage
42. R. van Loo (1) 43. R. Buter 44. H. Kuijpers 45. S. vd Berg 46. Th. Westerveld 47. M. vd Bijl 48. M. Dashorst 49. B. v Schooten 50. P.J. Hoekstra 51. G. Bouwman 52. J. Feenstra M. Acket J.R. Brouwer E. Barten D.H. Lie A. van Slooten S.M. vd Oord M. van den Berk S.P. Ennema O. ter Meer J. Tanaka A.J. van Kesteren M. Visser H. Jurriens E. Selles (3) R. Selles (3) M. Donders J. Hendriks M. van Otterlo I. Doornekamp W. Solleveld K. Braat J. ter Stroet M. de Louwere
(1): WWTS student (2) BSK student (3) HIO student 42
RECENTE RAPPORTEN VAN STUDENTEN Anne Veling. An Incremental Machine-learning Approach to Natural Language Understanding. Doctoraalverslag, Medialab, Schellinkhout, August 1996, 61 pgs. Theo van der Geest Een Neurale Doctoraalverslag, August 1996, 52 + 20 pgs.
Woordvertaler.
Edwin van Kalkeren. Het uitgeven van juridische informatie via de Elektronische Snelweg. Doctoraalverslag, August 1996, 108 pgs. Djoerd Hiemstra. Automatic creation of a multilingual dictionary in Twenty-One, Doctoraalverslag, August 1996, 52 + 12 pgs. Martin Grim Speaker-independent speech recognition with Linguistic Creatures, Doctoraalverslag, August 1996, 96 pgs. Eljakim Schrijvers A Fully Automatic Funny Remark Generator, Doctoraalverslag, September 1996, 50 pgs. Etto L. Salomons. The Use of Kohonen Networks in Finding Classes of Dialogue Utterances, Doctoraalverslag, September 1996, 112 pgs. Marc Evers. SoftImage SDK Training Material Development., Stageverslag, Manchester University, September 1996, 85 pgs. Joost Hage. Neural Networks and Time Series, Doctoraalverslag, KPN Research, Groningen, October 1996, 59+21 pgs. P.J. Hoekstra. Expansion and improvement of the association analysis program, Stageverslag, Silicon Biomedical Systems, Heemskerk, November 1996, 180 pp. Jan Sipke van der Veen. Beweging in de Derde Dimensie op het Internet, Stageverslag, KPN Research, Groningen, Januari 1997, 52 pp. Martijn Dashorst. Designing a finetuning algorithm for RAW: A psycholinguistic speech recognition model, Doctoraalverslag, Max Planck Instituut, Nijmegen, Maart 1997, 63 pp. A.G.G. Bouwman. Skennen, bij wijze van spreken, Stageverslag, Océ Research, Venlo, April 1997, 22 pp. Herre Kuijpers. Beeldherkenning met behulp van Doctoraalverslag, SMR, Amsterdam, Mei 1997, 31 + xi pp.
‘Sparse’
representaties,.
Renald Buter. Een Ordening in Zoekelementen. Doctoraalverslag, Belastingdienst, Utrecht, Mei 1997, 60 pp. Machiel H.M. van der Bijl. Neural Network Modeling of Early Word Acquisition. Juni 1997, 59 pp.
43
S.E. van der Berg. Supervised classification algoritmen en hun gebruik voor het classificeren van uitingen en een natuurlijke taal dialoogsysteem, Doctoraalverslag, Juni 1997, 95 pp. E. Selles & R. Selles. VRML97: De modellering van een virtueel muziekcentrum!, HIO Afstudeerverslag, Juli 1997, 94 pp. Thijs Westerveld. Contextgevoelige Spellingscorrectie in SCHISMA. Doctoraalverslag, juni 1997, 65+29 pp. D. Lie & J. ter Stroet. Natural Language Processing. Stageverslag, Océ Research, Venlo, Juni 1997, 54 pp.
Stages en D-Opdrachten in Uitvoering Neurale Netwerken voor het Oplossen van Optimalisatieproblemen B.W. van Schooten, D-opdracht, 1997 Periode: augustus ‘96 - oktober ‘97 Beg.: J. van den Berg/A. Nijholt Optimalisatienetwerken zijn dynamische (Hopfield-achtige) neurale netwerken die ingezet kunnen worden om combinatorische optimalisatieproblemen op te lossen. Zij werken echter in het algemeen minder goed voor problemen met relatief veel constraints, en zijn in het algemeen maar in beperkte mate schaalbaar. Ook zijn er alternatieve manieren om een probleem op een neuraal netwerk af te beelden die van invloed zijn op de werking van zo'n systeem. Er wordt in deze opdracht naar alternatieven gezocht om optimalisatieproblemen af te kunnen beelden op dynamische netwerken om deze problemen het hoofd te bieden. De opdracht wordt ingedeeld in de volgende fasen: 1.Literatuuronderzoek. Ontwikkelingen omtrent zowel de wiskundige beschrijving van de dynamiek van neurale netwerken als simulatieresultaten van optimalisatienetwerken worden nader bekeken en vergeleken. 2.Praktisch onderzoek. Een alternatief model moet zowel wiskundig goed beschreven en onderbouwd worden, als met behulp van simulatie getest worden op een aantal representatieve probleeminstanties.
Comfort-Optimalisatie bij de Aanmeting van Electrische Rolstoelen Petra Hoekstra, D-opdracht, 1997 Periode: november ‘96 tot juni ‘97 Beg.: M. Poel / M. Drossaers 3T is een bedrijf dat zich voornamelijk bezighoudt met technische software systemen, en op het moment is betrokken bij het ontwerp van een nieuwe motorbesturing voor een electrische rolstoel. Electrische rolstoelen moeten worden aangemeten. Dit houdt in dat de motorbesturings- en de bedieningsparameters, zo'n 30 stuks, worden geoptimaliseerd met betrekking tot de 44
mogelijkheden en de subjectieve comfortervaring van de bestuurder. Momenteel is het niet mogelijk om in alle gevallen een bevredigende instelling te vinden. Het Neuro-Fuzzy Centrum is ingeschakeld om een prototype van een aanmeetsysteem te bouwen. SETI doet hierbij onderzoek naar een adaptief optimalisatiealgoritme (een neuraal netwerk) voor dit systeem. De belangrijkste uitdagingen van dit onderzoek zijn hoe linguistische uitingen van comfortbeschrijving moeten worden geinterpreteerd in het overigens numerieke model, en hoe het adaptieve karakter van het optimalisatiealgoritme gebuikt kan worden om een subjectieve waarde, het comfort, te maximaliseren.
Wittgenstein en de Problematiek van Dialoogsystemen Maurits Acket, D-opdracht, 1997 Periode: januari - september 1997 Beg.: Jan Kuper De filosofische invalshoek van Wittgensteins Philosophische Untersuchungen kan geïnterpreteerd worden als een poging de in de Tractatus Logico Philosophicus naar voren gebrachte funderingsverhouding tussen taal en logica om te keren. Was in de Tractatus de universele logische vorm het uiteindelijke fundament van elk zinvol gebruik van de taal, in de Untersuchungen is juist dit zinvolle taalgebruik de fundering van elke mogelijke logische of filosofische theorie. Deze theorieën hebben slechts de status van een reconstructie van iets dat altijd al aan ze vooraf gegaan moet zijn in de orde van fundamentaliteit. Ook in de taaltechnologie begint men door ervaring deze wijsheid te onderschrijven. Het blijkt ondoenlijk te streven naar omvattende theorieën die alle technische problemen bij voorbaat in beginsel al opgelost hebben, of naar systemen die een al te ruim gebied van taalgebruik omvatten. Het zoeken naar pragmatische oplossingen voor een beperkt gebruik van taal, waarbij geleefd moet worden met de onvolkomenheden die worden veroorzaakt doordat men ergens moet ophouden met reconstrueren, wordt beschouwd als een principiële noodzaak en minder als een technische tekortkoming. Voor technici is deze wijsheid verbonden met praktijkervaring waarin herhaaldelijk blijkt dat een oplossing van een probleem weer nieuwe problemen in het leven roept. Voor Wittgenstein is het een fundamenteel inzicht, dat echter niet weer in een omvattende theorie uitdrukbaar is. Op dit punt kunnen filosofie en taaltechnologie iets aan elkaar hebben. De moeilijkheden waarvoor de ontwikkelaars van dialoogsystemen komen te staan hebben vaak grote verwantschap met de voorbeelden die Wittgenstein in de Untersuchungen aanvoert. De eye-openers die Wittgenstein met behulp van deze voorbeelden aan zijn lezers wil voorhouden zijn daarom waarschijnlijk ook voor taaltechnologen verhelderend. Anderzijds zijn de problemen met dialoogsystemen die bedoeld zijn om maatschappelijk te functioneren levensechter dan Wittgensteins vrij primitieve voorbeelden. Dit kan nu weer vanuit een filosofisch gezichtspunt verhelderend zijn. In hoeverre chargeert Wittgenstein de situatie? Wat wil hij ons eigenlijk precies laten zien en is dat eigenlijk wel te zien? Het is de bedoeling dat in dit project enkele typerende problemen bij de ontwikkeling van dialoogsystemen onder de Wittgensteiniaanse loupe worden genomen aan de hand van cases uit de literatuur. De Philosophische Untersuchungen dienen hierbij als primair wijsgerig referentiekader, hoewel het soms nodig zal zijn ook commentaren en later werk van Wittgenstein bij het onderzoek te betrekken.
45
Programmeren met Ongedefineerdheid Jan Feenstra, D-opdracht, 1997 Periode: februari - september 1997 Beg.: Jan Kuper Het begrip ongedefinieerdheid treedt vaak op in specificeren en programmeren. De betekenis van het begrip is echter zeer onduidelijk, en in de praktijk wordt het op diverse verschillende manieren geïnterpreteerd. Zo leiden niet alleen non-terminerende berekeningen (soms) tot ongedefinieerdheid, maar onvolledige specificaties, syntaxfouten, type-fouten, run-time errors en exceptions eveneens. Vanuit het perspectief van informatieinhoud zijn dit totaal verschillende interpretaties. Enkele van deze vormen bevatten volledige informatie, en kunnen dus gebruikt worden tijdens rekenprocessen. De opdracht behelst ten eerste het isoleren van deze vormen. Hiertoe moet een literatuurstudie worden verricht naar onder andere de diverse vormen van exception handling die in programmeertalen bestaan. Ten tweede moet een programmeertaal worden ontwikkeld waarin deze vormen expliciet worden gebruikt. Deelvragen hierbij zijn de typering van ongedefinieerdheidswaarden (polymorfisme?), striktheid van operaties, gelijkheid. Ten derde: in de praktijk is de gewenning aan het begrip niet groot. Daarom moet de te ontwikkelen programmeertaal tevens op een praktische en hanteerbare wijze bijhouden waar in de berekening het begrip is opgetreden. Als de tijd het toelaat, kunnen ook de verschillende theoretische representaties van het begrip met elkaar worden vergeleken, zoals driewaardige logica en logica met existentiepredicaat.
Management tools for Document Databases Michiel Scheepmaker, Stage-opdracht, Destin inc., Nivelles, Belgium. Periode: Aug-Nov 1997 Beg. Chr. Dupriez & F. de Jong Development of index management tools for document databases This stage will emcompass many steps of the creation of a commercial product targeted to management of information databases. This includes participation to design (functions, user interfaces), implementation of main modules, testing, evaluation of market feedback. The modules that will be worked on are -
tools to manage multilingual termiology of an organization (translation in English and Dutch of an existing Thesaurus management software)
-
tools to receive data from existing systems (keywords, relations between keywords, documents description and location, indexation of documents by keywords)
-
tools to calculate indices and produce control lists to validate document databases (or structured databases viewed as a document database indexed by keywords)
-
tools to generate easy to use indexes for Internet users.
High Level Besturingssoftware voor een Kunstaap E. Barten, Stage-opdracht, Demcon. Periode: 1 sept – 1 dec, 1997. Beg. P.T. Rutgers, M.F.J. Drossaers/A. Nijholt 46
Voor de ontvangsthal van een vleugel van de St. Maartenskliniek in ‘s Heerenberg is kunstenaar Aernout Mik gevraagd een kunstobject te ontwerpen. Mik is met het idee van een aap gekomen als kijk- en speelobject voor patiënten en bezoekers van de kliniek. De Oerang Oetang moet in staat zijn met geïnteresseerden een spelletje boter-kaas-en-eieren (BKE) te spelen. De aap moet patiënten helpen het vertrouwen in eigen lichaam te herwinnen. Hij moet patiënten helpen hun eigen wereldje te ontvluchten; hij moet een vriendje zijn, een ‘goede slome lobbes’ zijn. Aspecten als aaibaarheid en een vriendelijk gedrag zijn van belang. Het bedrijf Demcon heeft opdracht gekregen het mechatronische deel van de aap te verzorgen. Het doel van de stage-opdracht is een substantiële bijdrage te leveren aan de op neuro-fuzzy technologie gebaseerde besturingssoftware van de kunstaap. De software moet zodanig zijn dat de kunstaap zoveel mogelijk een levensecht gedrag vertoont. De belangrijkste eisen die gelden zijn: • • • • • •
Alle bewegingen moeten vloeiend verlopen. Het speelgedrag (BKE) moet onvoorspelbaar en gevarieerd zijn De aap moet altijd een respons geven op impulsen uit de omgeving zoals aanrakingen, geluiden of zetten in het spelletje BKE. Een van buitenaf opgelegde beweging moet worden gevolgd. De bewegingen moeten met grote variëteit worden uitgevoerd. De kunstaap mag af en toe rare bewegingen maken, in het kader van het onvoorspelbaar blijven.
Een Neuro-Fuzzy Onderhoudsmonitor voor Microfilters Miklós Donders, D-opdracht, LHS. Periode: 1 sept '97 - 1 mei '97. Beg. S. van Hoof, M.F.J. Drossaers / A. Nijholt. LHS Microfiltrations past onder andere microfilters toe in waterzuiveringsinstallaties. Een microfilter bestaat uit een koker die gevuld is met poreuze buisjes. De te filteren vloeistof wordt aan weerszijden van de koker onder druk gezet. De gefilterde vloeistof komt aan de buitenkant van de koker naar buiten. Na verloop van tijd raakt het filter verstopt met het uitgefilterde materiaal. De huidige procedure is dat het filter na een vaste periode wordt gereinigd gedurende een vaste tijdsduur. De reiniging bestaat uit het terugspoelen van vloeistof door het filter, eventueel met toevoeging van een bepaalde hoeveelheid reinigingsvloeistof. Als terugspoelen niet meer afdoende helpt, moet het filter worden vervangen. Bij optimalisatie van dit systeem dient men de produktie (hoeveelheid gefilterde vloeistof per tijdseenheid) af te wegen tegen de kosten (reiniging en vervanging filter). Het doel van de opdracht is een prototype van een neuro-fuzzy onderhoudsmonitor te maken. Eventueel kan de onderhoudsmonitor vervolgens toegepast worden op een testopstelling. Verder dient de kennis die wordt opgedaan betreffende neuro-fuzzy regelingen te worden overgedragen aan het bedrijf, zodat deze kan worden aangewend ter verbetering van haar produkten en concurrentiepositie. De opdracht bestaat uit: 1. Het doen van onderzoek naar een prototype van een computermodel voor waterfiltratie op basis van bestaande modellen van bierfiltratie en met gebruik van validatietechnieken. 2. Het doen van onderzoek naar prototypen van een PID-gebaseerde, en verschillende neuro-fuzzy onderhoudsmonitoren. 3. Het iteratief testen en verbeteren van de prototypen en het vergelijken van de resultaten met de momenteel gehanteerde methode. 47
Hoogniveau Besturingstalen voor Robots S.P. Ennema, D-opdracht, SIGN Periode: 1 febr – 1 nov., 1997 Beg.: J. Zwiers Het globale doel van de opdracht is om te komen tot een raamwerk op redelijk hoog niveau voor het besturen van robots, waarbij het aansturen van die robots niet gebeurt door rechtstreekse aansturing van de hardware. Dit raamwerk wordt gebaseerd op een beschrijving door middel van parallelle en communicerende processen. Het doel hiervan is het modulariseren van de functionaliteit van dergelijke besturingssystemen. Gedacht moet worden aan het scheiden van modulen die zich bezig houden met low-level besturing op het niveau van individuele sensoren en actuatoren, modulen die de communicatie en coördinatie van dergelijke low-level modulen verzorgen, en modulen die strategische "lange termijn" doelen proberen te bereiken, gebruik makend van de overige modulen, met eventueel modulen die de “lange termijn" opdrachten omzetten in low-level opdrachten. Er zal gewerkt worden met de aanwezige "Lego Robots", om verschillende technieken uit te proberen. De opdracht valt uiteen in de volgende onderdelen: (1) Het maken van een formele specificatie van (de interface van) de Lego robots. (2) Onderzoeken welk niveau aansturing gebruikt moet worden. (3) Het maken van een interface in Java om hoog niveau besturing om te zetten in laag niveau besturing. (4) Bestuderen van de mogelijkheden van hoog niveau besturingstalen voor robots.
Te beginnen Stages en D-opdrachten Danny Lie: Stefan vd Oord: Jurgen ter Stroet: Mathieu vd Berk Michiel Visser: Oscar ter Meer Michiel de Louwere Jasper Hendriks Martijn van Otterlo
D-Opdracht, Medialab/Intern, Schellinkhout, genereren van abstracts D-Opdracht, Intern, theorie: natuurlijke taal en fuzzy logics D-opdracht, IPA, neurale netwerken, kratvraagvoorspeller D-opdracht, Virtual SCHISMA ?? Stage, Oce Research, Venlo D-opdracht, Spraaktechnologie ?? ??
en anderen.
Stage-/Externe D-Opdrachten Beschikbaar Spraak- en Dialoogtechnologie bij Lernout & Hauspie (België) De volgende vier stage-opdrachten (4-6 maanden) zijn beschikbaar: 1. Studie van een applicatie voor database query met dialogen 48
• query in meerdere stappen ipv in 1 uiting • query met natuurlijke taal Nadruk ligt eerder op studie en prototypen dan op volledige ontwikkeling van een applicatie. Aandachtspunten zijn hoe de link leggen tussen database fields en frames en concepten. Ergonomisch aspect is query tightening en relaxation om tot cooperatieve dialoog te komen 2. Evaluatie van dialoogmodellen voor een e-mail reader Iteratie van • uitproberen verschillende uiteenlopende strategieën voor dialogen, gebaseerd op principes uit ergonomie • field experiments met Wizard of Oz • op basis hiervan dialogen aanpassen Na enkele iteraties een afweging maken van de verschillende strategieën plus pogen de effecten te duiden (welke principes zijn belangrijkst, wat gaat best samen, ...) 3. Assessment van concept-to-speech technieken L&H heeft verschillende technologieën om spraak te genereren: coded speech playback, vocoding, text-to-speech, transplanted prosody, en combinaties. Elk van deze technologieën heeft zijn eigenschappen, voor- en nadelen. De vraagstelling in deze stage is: welke techniek vinden luisteraars best geschikt voor welk type van informatie (vaste mededelingen, mededelingen met licht variërende informatie, database resultaten, ...) en hoe aanvaardbaar is het door elkaar gebruiken van verschillende technieken? 4. Datum (of tijds-)generatie in dialogen In het L&H dialoogsysteem worden datumaanduidingen in een vast semantisch formaat voorgesteld. Dat formaat laat vaagheid, ambiguiteit, redundantie en contradicties toe. • Een gedeelte van de stage is het genereren van gepaste uitdrukkingen in natuurlijke taal voor deze semantische representatie. • In een tweede deel willen we onderzoeken hoe we datum aanduidingen in context moeten genereren. Wanneer zeggen we best "yesterday" of "last Thursday" of "October 25th"? Hoe kunnen we verschillende semantische representaties voor eenzelfde datum uit elkaar afleiden (bv. door introduceren of weghalen van ambiguiteit of redundantie) en op welke basis kiezen we de beste uitdrukking in een gegeven context? Dit kan eventueel uitgeprobeerd worden binnen de e-mail dialoog applicatie. Contactpersoon: A. Nijholt, [email protected], INF2055
Data Mining voor Marketing bij KPN Research in Groningen KPN Research in Groningen is op zoek naar een drietal afstudeerders op het gebied van data mining. Globale omschrijving onderzoek: Bij KPN Research wordt onderzoek uitgevoerd naar de inzet van data mining technieken voor marketing doeleinden. Data mining is het achterhalen van interessante verbanden in grote hoeveelheden gegevens. Bij data mining worden technieken uit de databases, statistiek en de artificial intelligence gebruikt (neurale netwerken, regelinductie). Bij KPN Research wordt onderzoek verricht hoe data mining technieken kunnen helpen bij het beantwoorden van marketing vragen. Een korte omschrijving van de opdrachten: 1).Data voorbewerking: opzetten van een goed model om de eerste data mining stap, het voorbewerken van de gegevens, te verbeteren. We denken aan het toepassen van 49
statistische technieken. De student moet een behoorlijk goede cijferlijst hebben, en hetzij een informaticastudent zijn die goed is in wiskunde, of vice-versa. 2).Onderzoeken van de mogelijkheden van wavelets als data mining techniek. Allereerst inventariseren wat er aan literatuur en informatie bestaat, dit verwoorden in een duidelijk rapport, en vervolgens aan de hand van een case de mogelijkheden ook praktisch aantonen. Voor de afstudeerder gelden dezelfde eisen als bij 1. 3).Maken van een data mining model voor het beantwoorden van marketing vragen. Hierbij kan gebruik worden gemaakt van de cases die in het afgelopen jaar bij het Marketing Intelligence Center van PTT Telecom zijn binnengekomen. Bedoeling is dat het model marketing vragen in groepen indeelt, waarbij per groep wordt bepaald wat de meest geschikte technieken en databronnen zijn. Contactpersoon: Mannes Poel, [email protected]
Vraagvoorspelling met Neurale Netwerken Bij het hoofdkantoor van Schuitema (C1000, Spar, Casper) in Amersfoort wordt gewerkt aan logistieke problemen. De opdracht betreft het ontwerpen en implementeren in een simulatieomgeving van een aantal neuraal-netwerkarchitecturen waarmee de vraag naar 50100 AGF (aardappelen, groente en fruit) producten kan worden voorspeld op basis van gegevens van verkopen in het verleden. Mogelijk wordt bij de selectie van architecturen ook een genetisch algoritme betrokken. De opdracht bouwt voort op resultaten die in een reeds eerder bij Schuitema uitgevoerde stage zijn verkregen. Bij de opdracht wordt gebruik gemaakt van kennis op het gebied van signaalbewerking, data mining, time series prediction en genetische algoritmen. Contactpersoon: Marc Drossaers, [email protected]
Faillissementsvoorspelling jaarcijfers
van
bedrijven
aan
de
hand
van
De Universiteit Twente heeft een traditie in het onderzoek naar faillissementsvoorspellingen voor bedrijven, met name de groep rond prof. Bilderbeek van Technische Bedrijfskunde, is actief op dit gebied. Via samenwerking met deze groep zijn wij in het bezit van de jaarcijfers van een aantal Belgische bedrijven over een aantal jaren. Het doel van de opdracht is met behulp van deze data een neuraal netwerk te ontwerpen en te implementeren dat een voorspelling doet of het bedrijf binnen 5 jaar failliet is of niet. Indien dit ontwerp zeer goed functioneert kan het uitgebreid worden naar het ontwerp en implementatie van een neuraal netwerk dat aan de hand van de jaarcijfers over een aantal jaren, voorspelt over hoeveel jaar het bedrijf failliet gaat. De onderzoeksvragen die aan bod komen zijn: • welke neurale architectuur is het meest geschikt, • welke bedrijfstak afhankelijke kenmerken zijn belangrijk bij de faillissementsvoorspelling, 50
• in hoeverre spelen tijdsafhankelijke kenmerken een rol. Voor beide opdrachten geldt dat de implementatie waarschijnlijk met behulp van het softwarepakket MATLAB moet gebeuren. Bovendien moeten er werkende demo-versies opgeleverd worden die gebruikt kunnen worden voor WWW-pagina’s.
Teleloket: de Overheid op Internet De vakgroep Software Engineering en Theoretische Informatica van de Faculteit der Informatica van de Universiteit Twente is betrokken bij de ontwikkeling van een virtueel overheidsloket bij de gemeente Enschede. Dit Teleloket bestaat uit drie geïntegreerde en grotendeels geautomatiseerde modules: 1. De Poortwachter die mensen opvangt en aangeeft wat ze van de gemeente kunnen verwachten. 2. De Omroeper die ongevraagd mensen vertelt wat er allemaal in de gemeente gaat gebeuren: van bestemmingsplan tot kapvergunning. 3. De Griffier die mensen helpt om subsidies of vergunning aan te vragen of het doorlopen van een beroepsprocedure ondersteunt. Onderliggend aan het hele project is Internettechnologie. Het is de bedoeling dat het systeem aangeboden wordt middels PC’s in overheidsgebouwen, via buitenzuilen op straat en (uiteindelijk) middels tweewegkabel en set top boxes via de televisie. De hierbeschreven opzet van het systeem maakt duidelijk dat zowel qua presentatie in de gebruikersinterface als qua gegevensmanagement in de daaronderliggende lagen een continue interactie tussen geografische en textuele gegevens plaats moet vinden. Burgers moeten in bij hen bekende termen ruimtelijke objecten kunnen selecteren en daar vragen over stellen die in de beantwoording vervolgens grafisch weergegeven worden. Maar ook zou de overheid over buurten of panden informatie kunnen verstrekken waarvan de burger het bestaan niet vermoedde maar die hij of zij toch prettig vindt om te weten. Voor deze klus zoeken we mensen die, • willen programmeren in Java, • willen werken aan een zinvolle multimedia-toepassing (geografische informatie en tekst), • zich aangetrokken voelen tot een belangrijke toepassing als communicatie tussen overheid en burger. Contactpersoon: Jan Schaake, [email protected]
Afstudeeropdracht op het gebied van Voice Mail Al geruime tijd is er de mogelijkheid om geluidsfiles in email-berichten op te nemen. Een bijzonder vorm hiervan is de gesproken email, de voice mail. Hierbij wordt een boodschap ingesproken en per email naar een ontvanger verstuurd. De grootte van de bestanden die voice mail bevatten zijn vaak enorm, 50 Mb.wordt al bij een relatief kort bericht bereikt. Om deze bestanden te verkleinen zijn compressiealgoritmen beschikbaar. Een nadeel van deze algoritmen is dat ze dom zijn, dwz werken zonder acht te slaan op eigenschappen van spraak. Aan de andere kant zijn er uit de spraakherkenning een aantal voorbewerkings-methoden bekend, met name cepstrum parameter extractie, Linear predictive coding en filterbanken, die in staat zijn de in een spraaksegment karakteriserende frequenties te extraheren. Vaak zijn dit de spraakformanten. Een spraaksegment bestaat al gauw uit zo'n 5000 getallen, waarvan er zo'n 10 karateriserend zijn. De methoden voor extractie zijn beschreven in een UT-Inf afstudeerverslag, in de vorm 51
van Matlab code. Deze extractie methoden kunnen gezien worden als vormen van intelligente spraakdata compressie. De opdracht is de beste, d.w.z. snelste gegeven het feit dat niet al te beste microfoons gebruikt worden, intelligente compressiemethode te selecteren op basis van enkele tests, en een zeer snelle software tool te maken die op een voice mail eerst de intelligente en daarna, naar keuze, een of meer domme compressies uitvoert. De uitvoer van de intelligente compressie moet direct via een geluidskaart weer te geven zijn. Er moet ook gekeken worden naar de mogelijkheden de intelligente compresie methode te integreren in de spraakregistratie tool. Contactpersoon: Marc Drossaers, [email protected]
Stage-opdracht: Een Neurale Netwerk Onderhoudsstatus-monitor Neurale Netwerken worden vaak gebruikt voor het oplossen van optimalisatieproblemen. In het algemeen hangt de optimale oplossing daarbij af van een veelheid van factoren. Een van de toepassingen van neurale netwerken voor optimalisatie is in onderhoudsstatusmonitoren. Dit zijn computerprogramma’s die op basis van de performance-gegevens van een machine een advies genereren omtrent de wenselijkheid van een onderhoudsbeurt of vervanging van de machine. Factoren die hierbij een rol spelen zijn naast de kosten van onderhoud van de machine ook vaak dat onderhoud geen volledig herstel van de machine oplevert, dus dat met iedere onderhoudsbeurt de maximale performance van de machine terugloopt en dat steeds meer en steeds vaker onderhoud nodig is. Met betrekking tot het vervangingspunt moet rekening worden gehouden met de gewenste minimale performance van de machine, de onderhoudskosten en de vervangingskosten. Voor studenten die geinteresseerd zijn in neurale netwerken is er de mogelijkheid in de vorm van een bedrijfsstage in Hengelo (Ov.) te werken aan een onderhoudsstatus-monitor. De stage is onderdeel van activiteiten die verricht worden in het kader van het Neuro-Fuzzy Centrum. Daardoor wordt een heel redelijke stagevergoeding geboden. Geintereseerden kunnen voor inlichtingen terecht bij M. Drossaers (INF 2031, tel. 4893745, [email protected]) of M. Poel (INF 2102, tel. 3920, [email protected]).
Stage- D-Opdracht: Machine-assisted riddle generation Suggested Supervisors: Graeme Ritchie/Anton Nijholt Principal goal of the project: At present, the JAPE-2 computer program produces punning riddles from a large, fixed lexicon with a narrow range of types of information. The project would involve constructing a variant of the program which interacted with the user to obtain information about words and phrases, and then used JAPE’s rules to construct riddles about those items. This allows customised joke-creation and also permits a wider range of information types to be used, thus widening the possible joke types. 52
Description: JAPE-2 is a large Prolog program, which contains a general purpose publicly available online dictionary (WordNet), and various other sources of information about words. The unique aspect of the program is that it also contains symbolic rules which allow it to construct punning riddles. At present, it is invoked via Prolog, supplying suitable parameters. It will then produce punning riddles according to its rules and the lexical information that it has. There are certain drawbacks to this. Firstly, the WordNet dictionary has only certain types of information about words and the relations between them, which restricts the sorts of jokes that can be built. Although the semantic patterns of various joke-types can be coded up in JAPE rules, the lexical resources do not supply sufficient data for the rules to work. Secondly, there is no way to guide JAPE, for example to produce jokes on a certain topic or using certain words. It simply produces hundreds of jokes in an arbitrary manner. Both of these deficiencies could be remedied by adding a user-guidance module to the system, with the following facilities: - the user can specify a word or compound nominal which is to appear in the final joke, and if the lexicon contains that item, the system will attempt to produce such a joke. - the user can suggest a semantic topic, and the system will attempt to produce a joke on that topic. - the user can define new lexical information to augment the basic WordNet, thereby allowing a wider range of joke types, or allowing jokes which use very idiosyncratic lexical data. The aim of the project is to design, implement and test such a module. Resources Required: The JAPE-2 program and Prolog. Degree of Difficulty: The student has to understand the workings of JAPE-2, carry out original design work, and do some awkward implementation. Medium to hard. Suitability for students with specific backgrounds: A high level of competence in Prolog programming is ESSENTIAL. Some natural language/linguistics knowledge is desirable. References Binsted, K. (1996). Machine humour: an implemented model of puns . PhD thesis. Department of Artificial Intelligence, University of Edinburgh. K. Binsted and G. Ritchie (1994). An Implemented Model of Punning Riddles. Pp. 633-638 in Proceedings of the Twelfth National Conference on Artificial Intelligence/Sixth Conference on Innovative Applications of Artificial Intelligence (AAAI-94). Edited by B. Hayes-Roth and R. Korf; published by MIT Press, Cambridge, Mass; ISBN 0-262-61102-3. K. Binsted and G. Ritchie (1997). Computational rules for generating punning riddles. HUMOR 10, 1.
SETI-Stage of Externe Afstudeeropdracht op het gebied van Automatische Zoutstrooiers Nido B.V. produceert zoutstrooiinstallaties, die door Rijkswaterstaat worden ingezet om gladheid op de wegen te bestrijden. Met behulp van moderne informatica-ontwikkelingen probeert men een overmaat aan gestrooid zout te voorkomen. Dit ter bescherming van het milieu en om kosten te minimaliseren. Enerzijds wil men zich door een neuraal netwerk op 53
basis van een veelheid van soorten informatie laten adviseren over de hoeveelheid te strooien zout, anderzijds wil men visuele sensoren gebruiken om het strooien af te stemmen op de vorm van de weg en de aanwezigheid van obstakels op de weg. Voor studenten die geinteresseerd zijn in neurale netwerken en met name de integratie van multimodale informatiestromen of beeldbewerking is er de mogelijkheid in de vorm van een bedrijfsstage of externe afstudeeropdracht te werken aan verschillende onderdelen van nieuwe strooiinstallaties. De stage of afstudeeropdracht is onderdeel van activiteiten die verricht worden in het kader van het Neuro-Fuzzy Centrum. Daardoor wordt een heel redelijke stagevergoeding geboden. Geintereseerden kunnen voor inlichtingen terecht bij Drossaers (INF 2031, tel. 4893745, [email protected]), Nijholt (INF 2055, tel. 4893686, [email protected]) of Mannes Poel (INF 2102, tel. 4893920, [email protected]).
SETI-Stage of Externe Afstudeeropdracht op het gebied van Neurale Netwerken Remeha B.V. (Apeldoorn) is een producent van centrale verwarmingsinstallaties voor grote gebouwen. Via een telefoonverbinding kan op deze installaties worden ingelogd om het functioneren van de installatie te meten en te besturen. Op basis van (het verloop van) deze gegevens en te modelleren ervaringskennis wil men zich door een neuraal netwerk laten adviseren over het al dan niet laten uitvoeren van een onderhoudsbeurt. Hierbij moet het functionaliteitsverlies tegen de kosten en de overlast van onderhoud worden afgewogen. Voor studenten die geinteresseerd zijn in neurale netwerken en met name optimalisatie is er de mogelijkheid in de vorm van een bedrijfsstage of externe afstudeeropdracht te werken aan een onderhoudsstatus-monitor. De stage of afstudeeropdracht is onderdeel van activiteiten die verricht worden in het kader van het Neuro-Fuzzy Centrum. Daardoor wordt een heel redelijke stagevergoeding geboden. Geintereseerden kunnen voor inlichtingen terecht bij Marc Drossaers (INF 2031, tel. 4893745, [email protected]), Anton Nijholt (INF 2055, tel. 4893686, [email protected]) of Mannes Poel (INF 2102, tel. 4893920, [email protected]).
SETI-Stage of Externe Afstudeeropdracht op het gebied van Neurale Netwerken IPA B.V. (Oldenzaal) bouwt voor het distributiecentrum van Schuitema in Woerden een systeem voor het automatisch verzamelen van vrachten waarmee supermarkten bevoorraad worden. Ten behoeve van dit systeem moet een prognose tool ontwikkeld worden waarmee door leveranciers een minimale voorraad dagverse zuivelprodukten kan worden aangehouden. Voor studenten die geinteresseerd zijn in neurale netwerken, en met name time series prediction (prognose) is er de mogelijkheid in de vorm van een bedrijfsstage of een externe afstudeeropdracht te werken aan deze prognose tool. De stage of afstudeeropdracht is onderdeel van activiteiten die verricht worden in het kader van het Neuro-Fuzzy Centrum. Daardoor wordt een heel redelijke stagevergoeding geboden. 54
Geintereseerden kunnen voor inlichtingen terecht bij Marc Drossaers (INF 2031, tel. 4893745, [email protected]), Anton Nijholt (INF 2055, tel. 4893686, [email protected]) of Mannes Poel (INF 2102, tel. 4893920, [email protected]).
Allerhande WieWatWaar Er studeren veel studenten af binnen ParleVink. Jan Schaake en Hugo ter Doest zijn AiO bij Parlevink geworden, Marc Lankhorst in Groningen, Willem-Olaf Huijsen in Utrecht, Aarnoud Hoekstra in Delft, Henk Harkema in Los Angeles, Mark Moll bij Carnegie Mellon, Pittsburgh en Margriet Verlinden in Tilburg. Dennis Bijwaard werkt bij het NLR in Amsterdam. Femke Heemels is de SDU gaan versterken en Leonard Thierry is bij BSO, Utrecht gaan werken. Gerald Kruizenga is een eigen bedrijfje begonnen. H.-E. van Elburg werkt inmiddels bij Ericson R&D, Rijen. Danny Kersten is in dienst getreden bij IPO, prioriteitsprogramma Taal en Spraak en Rudie Ekkelenkamp werkt bij TNO in Delft (Documentaire Informatietechnologie). Frank Wiersma heeft een aanstelling bij KPN Research in Groningen gekregen. Sandor Spruit vervolmaakt bij OTS (Universiteit Utrecht) zijn afstudeerwerk. Anne Veling gaat door bij MediaLab, Schellinkhout (onderdeel van Origin). Rene Steetskamp is na een kort verblijf in Nijmegen ingelijfd door HSA in Hengelo. Ook Theo van der Geest werkt daar. Rene Bos is bij CMG in dienst getreden. Martijn Dashorst en Machiel van der Bijl zijn naar Utopics gegaan en Renald Buter naar CWTS in Leiden.
55
Parlevink Stages en D-Opdrachten Wat betreft stages zijn er de volgende mogelijkheden: Alfa-informatica (Groningen) CAP Gemini/Lingware (Utrecht) Digital Equipment (Nieuwegein) Getronics (Amsterdam) Human Inference (Arnhem) KPN Research (Leidschendam) Max Planck Instituut (Nijm.) NICI (Nijmegen) Philips (Aken) SMR (Amsterdam) TNO/Technische Informatica (Delft)
Bolesian (Helmond) Carnegie Mellon University NeuroFuzzy Centre, Twente Coopers & Lybrand KPN Research (Groningen) Lernout&Hauspie (België) MediaLab, Schellinkhout Océ (Venlo) Rank Xerox, Grenoble VDA, Hilversum University of Texas (Austin)
Dit is geen volledige lijst. Taal- en beeldverwerking en neurale netwerken (soms in combinatie) zijn vaak voorkomende onderwerpen. Er zijn (vrijwel) immer stages en D-opdrachten mogelijk bij het Nijmeegse Max Planck Instituut, bij Océ-Venlo en bij Sentient Machine Research (Amsterdam). Bij TNO (Delft) liggen taken op het terrein van documentaire informatietechnologie en information retrieval. Bij CAP Gemini Lingware krijg je meestal te maken met vertaalsoftware. Philips Aken vraagt informaticastudenten met belangstelling voor spraak. Er zijn ook stageplaatsen op het gebied van taal en spraak bij KPN Research te Leidschendam en op het gebied van neurale netwerken te Groningen. Voor interne D-opdrachten wordt vaak gekeken naar Parlevinkwerk op het gebied van een via natuurlijke taal toegankelijk theater informatie- & reserveringssysteem (SCHISMA), naar toegankelijkheid van Internet en binnen het 21-project naar multimedia information retrieval.
Op dit moment wordt door de volgende studenten afstudeerwerk verricht: Boris van Schooten Petra Hoekstra Gies Bouwman Sjoerd Ennema Maurits Acket J. Feenstra
Combinatorische problemen en neurale netwerken Optimalisatie met neurale netwerken Spraak en dialogen Robotspecificatie Dialogen & Wittgenstein Ongedefinieerheid
Informatie over stages en D-opdrachten: Anton Nijholt, kamer 2055, INF Gebouw of Mannes Poel. Je kunt ook bij anderen binnenstappen: Franciska de Jong, Gerrit van der Hoeven, Rieks op den Akker, Peter Asveld, Jan Schaake, Marc Drossaers, Betsy van Dijk, Jan Kuper, Job Zwiers.
56
RECENTE PUBLICATIES (1997) N. Sikkel. Parsing Schemata. A Framework for Specification and Analysis of Parsing Algorithms. XVI, 398 pp. (Texts in Theoretical Computer Science. An EATCS Series) Hardcover; ISBN 3-540-61650-0, Springer-Verlag, Berlin, 1997. A. Nijholt. Foreword. In: N. Sikkel. Parsing Schemata. EATCS Monograph Series, SpringerVerlag, Berlin, v-ix, 1997. N. Sikkel & A. Nijholt. Parsing of context-free languages. Chapter 17 in Handbook of Formal Languages., Part II. A. Salomaa & G. Rozenberg (eds.), Springer-Verlag, 61-100, 1997. A. Nijholt and T. Andernach. The Robust Analysis of User Utterances in a Mixedinitiative Dialogue System. Fifth International Symposium on Social Communication, Santiago de Cuba, 1997, p.31. Dj. Hiemstra. Deriving a bilingual lexicon for cross language information retrieval. GRONICS ’97: Proceedings of the fourth Groningen International Information Technology Conference for Students, M. Heemskerk & M. Diepenhorst (eds.), 21-26. A. Nijholt. Dichter bij oneindig. In: Oneindig. Jaarboek 1997, Wiskundige Studievereniging “Christiaan Huijgens”, Technische Universiteit Delft, 94-96. T. Andernach, M. Poel and E. Salomons. Finding Classes of Dialogue Utterances with Kohonen Networks. In: Proceedings NLP workshop of the European Conference on Machine Learning (ECML), Prague, April 1997. D. Hiemstra, F. de Jong & W. Kraaij. A domain specific lexicon acquisition tool for cross-language information retrieval. Proceedings RIAO’97 Conference: ComputerAssisted Searching on the Internet, June 1997, Montreal, Canada. P.R.J. Asveld: Controlled fuzzy parallel rewriting. In: Gh. Paun & A. Salomaa (eds.): New Trends in Formal Languages -- Control, Cooperation, and Combinatorics''. Lecture Notes in Computer Science 1218 (1997), Springer, Berlin, etc. [invited paper], 49-70. R. Leenes & J. Schaake. OLE2000: A study 57
in questions and demand. Presented at the IFIP WG 8.5 (“Information Systems in Public Administration”) workshop “Empowering Citizens through IT – Innovation in Governmental and Municipal Information Systems”, Stockholm, May 5-6, 1997. Also, Information Infrastructure and Policy. An international journal on the development, adoption, use and effects of information technology, 1997, to appear. J. Hulstijn. Structured information states - raising and resolving issues-. CTIT Technical Report series, No. 97-18, ISSN 1381 - 3625, 20 pp. J. Hulstijn. Structured information states - raising and resolving issues. In: Proceedings of Mundial’97, Formal Semantics and Pragmatics of Dialogue. G. Jäger and A. Benz (eds.), University of Munich, 1997, to appear. A. Nijholt. De Delftse methode: Een kritische terugblik. “25 over 25: Reflecties van leden van de Hogeschoolraad/Universiteitsraad aan de TH/TU Delft, 1972-1997”, H. van Iperen & A. Mijnett (eds.), Delft University Press, ISBN 90-407-1410-x, 1997, 63-69. A. Nijholt. Toegankelijkheid
en zichtbaarheid. I/O Vivat 13, Juli 1997, 15-17.
J. Hulstijn, R. Steetskamp, H. in a theatre information Internacional de de Lingüística
ter Doest, S.P. van de Burgt & A. Nijholt. Dialogues and booking system. In: Memorias. V Symposio Comunicación Social. Santiago de Cuba, Centro Aplicada, 1997, 87-99.
D.H. Lie, J. Hulstijn Schisma. In: 1997 (IWPT ’97), MIT, A. Nijholt. integration. Electrica,
HumanIn:
H. ter Doest & A. Nijholt. Language analysis in International Workshop on Parsing Technologies Boston, USA, 1997, 243-244. computer interaction and computer-telephony FIE’97, Universidad de Oriente, Facultad de Ingenieria Santiago de Cuba, 1997. To appear. M. Moll and R. Miikkulainen (1997). Convergence-Zone Episodic Memory:
Analysis and Simulations, pp. 1017--1036. P. Wittenburg & M. Dashorst. Modeling in Psycholinguistics,
Neural Networks 10 (6), RAW. In: Computational Berkeley. To appear.
G.-J.M. Kruijff & J. Schaake. Discerning relevant information in discourses using TFA. Chapter ?? in Current Issues in Linguistic Theory. Benjamins Publishing Company, New York, 1997. To appear. P.R.J. Asveld & A. Nijholt. The inclusion problem for some subclasses of context-free languages. To appear. H. Bunt & A. Nijholt (eds.). Dialogue Management in Natural Language Systems. Benjamins Publishing Company, New York, in preparation. A. Nijholt & G. Scollo (eds.). Algebraic Methods in Language Processing. Special Issue of Theoretical Computer Science, in preparation. H. ter Doest. Robustness and Efficiency in Unification-based Parsing Methods. Ph.D. thesis, University of Twente, Enschede, The Netherlands. To appear.
58
Language Engineering A Greater Use of Language in Every Sense Talk in a world without language barriers Think how much more easily you could use your computer, by simply telling it what to do. Suppose also that many of the features of your car were voice operated, such as using the telephone, selecting a CD, opening the windows, and learning about traffic conditions ahead. Consider how much time you would save if a computer could find exactly the information you are looking for, from multilingual sources, and do it much more efficiently than you. Imagine picking up the telephone to speak to someone in another country. You have no common language but you are still able to communicate, each of you speaking and hearing your own language. Access to systems and services through natural language will make them available to everyone. The barriers will be gone. Machines will understand what we tell them and we shall understand each other better.
Hear how language engineering works Through language engineering we can find ways of living comfortably with technology. Our knowledge of language can be used to develop systems that recognise speech and writing, understand text well enough to select information, translate between different languages, and generate speech as well as the printed word. By applying such technologies we have the ability to extend the current limits of our use of language. Language enabled products will become an essential part of everyday life. This is the power of language engineering; using the power of language.
Remain in touch with our heritage Europe is rich in the diversity of language and culture which it enjoys. This is an asset which we need to preserve for our education, our pleasure, and for its economic benefit. New technology combined with our knowledge of language will enable us to retain our national and cultural identities and appreciate the differences of others. At the same time we shall communicate more effectively and with greater sensitivity. By helping to create greater cohesion within Europe, our natural interdependence will be turned into an easier, more rewarding, working relationship. Our cultural treasures, in libraries and museums across the European Union, will be made accessible to everybody, irrespective of boundaries
Focus on the benefits The impact of language products on almost every aspect of our lives will be immense. To have the right information at the right time is surely vital to every industrialist, administrator and politician. Being able to handle your export business as well as you do your domestic customers, is crucial to developing new markets abroad. Being able to use new technology more easily will improve productivity and performance in all walks of life. Helping the disabled to integrate into all aspects of society will improve the quality of life for them and their families, as well as making more skills available to the community. Transacting business at our convenience: at any time; from home; through our mobile telephones; will enable us to make better use of our time. Easier operation of machines will reduce stress and improve safety. A more responsive service from our public administration and public service agencies will help to improve the quality of life for all of us. More efficient translation services will lead to better international understanding, at all levels. Greater availability of information about other countries’ goods and services, employment prospects, weather, and traffic conditions will expand our horizons. The success of our enterprise in achieving these benefits will make European companies world leaders in the exploitation of language technology.
Touch the future The new millennium is approaching. With it will come the fruits of language engineering: a better world; a competitive Europe. This technology is now moving rapidly towards its successful application to the things that matter. It is a key: to the multi-lingual society; the information age; our future.
Recognise the value For many years developments in language engineering have been going on, quietly. The technology has been developed and vital language resources, such as electronic dictionaries and grammars, have been compiled. The work is not yet complete. It is of real value to business and to many other aspects of our lives. Give it your support and realise the benefits for yourself.
59
21 Media Information Transaction and Dissemination is een Europees project waarbinnen Parlevink participeert. Het project wordt vanuit Parlevink gecoordineerd door Franciska de Jong. Bij haar zijn ook nadere inlichtingen te krijgen over D-opdrachten binnen dit project. Parlevink participeert in een MEWO-project van de Universiteit Twente. MEWO staat voor Maatschappelijke Effecten van Wetenschappelijk Onderzoek. Het thema van het project is ‘De Digitale Stad’. Gekeken wordt naar maatschappelijke aspecten en effecten van zoiets als een DS en hoe onderzoekers op het gebied van telematica- en informatietechnologie op een systematische wijze weet kunnen krijgen van die aspecten en effecten en die vervolgens mee kunnen nemen in hun onderzoek. Voor D-opdrachten: Jan Schaake. Het Neuro-Fuzzy Centre is een regionaal project waarin Parlevink participeert. Binnen dit project worden kleine opdrachten uitgevoerd op het gebied van neuro-fuzzy technologie voor het MKB in de regio Twente-Münster. Voor D-opdrachten/stages: M. Poel of M. Drossaers. Pop-Eye is ook een Europees Parlevinkproject. Het houdt zich bezig met onderwerpen als het indexen van ondertitels van film- en videomateriaal om retrieval te plegen. D-opdracht of stage bij TROS? Met financiering van Binnenlandse Zaken wordt vanuit Parlevink gekeken naar het via taal en spraak meer toegankelijk maken van overheidsinformatie: TeleLoket. Een typisch Parlevinkproject met tal van invalshoeken zo mag blijken uit de deelnemers: INF (Parlevink), BSK, Gemeente Enschede, Binnenlandse Zaken en een aantal bedrijven. Dopdrachten?: Jan Schaake of Anton Nijholt. SCHISMA is een regulier Parlevinkproject dat zich toespitst op het gebruik van spraak- en taaltechnologie (en natuurlijk software engineering, etc.) voor een schouwburg-informatie & -reserveringssysteem. Invalshoeken: taal, spraak, specificatie, evaluatie, ergonomie, virtual reality, animatie, etc. zijn onderwerpen die bijvoorbeeld in afstudeeropdrachten aan bod kunnen komen. D-opdrachten?: Nijholt, e.a. BIT/Multiple User Groups is een project met WMW en T&M. Parlevink gaat kijken naar de wijze waarop rekening gehouden kan worden met verschillende gebruikersgroepen bij mens-machine communicatie. In het bijzonder zullen genderverschillen bij dit onderzoek een rol spelen. Bij WMW wordt gekeken naar vooronderstellingen van ontwerpers. Bij T&M naar gender en organisatie. 60