Enterprise Language Processing [Nederlandse titel?] Aanzet voor een nieuw programma Inleiding In deze notitie, die gemaakt is in opdracht van de Nederlandse Taalunie, beschrijven wij de contouren van een nieuw Nederlands-Vlaams programma voor onderzoek en ontwikkeling dat gericht is op wat “Enterprise Language Processing” genoemd kan worden: het zoveel mogelijk automatisch verwerken van de enorme hoeveelheden geschreven en gesproken (en audiovisueel) materiaal dat via allerlei media, maar vooral via het Internet, geproduceerd en gedistribueerd wordt. Die hoeveelheden zijn zo overstelpend groot dat handmatige selectie van dat deel van het materiaal dat potentieel van belang is voor een organisatie en handmatige verwerking van de selectie volstrekt onmogelijk geworden is. Organisaties (overheden en bedrijven) lopen daardoor het risico uiterst relevante informatie te missen, soms met dramatische gevolgen (zoals de aanslagen op 11 september 2001, de moord op Theo van Gogh, etc.), vaker met onbekende economische schade (er zijn om begrijpelijke redenen vrijwel alleen moeilijk verifieerbare anekdotes over problemen en verliezen van bedrijven die het gevolg waren van negatieve oordelen over producten en diensten in blogs en in sociale media). Enterprise Language Processing is bedoeld als een essentieel hulpmiddel voor de beheersing van die informatiezondvloed. De langetermijnvisie is het ontwikkelen van automaten die talige documenten kunnen 'begrijpen', en die op basis van dat begrip en kennis over de belangen van de organisatie waarvoor ze 'werken' de potentieel relevante documenten kunnen selecteren en de informatie in die documenten zo kunnen ontsluiten, samenvatten en presenteren voor de mensen die keuzes moeten maken en beslissingen moeten nemen. Hoewel het duidelijk is dat een groot (en groeiend) deel van de informatie in de vorm van beelden geproduceerd zal worden, richt dit programma zich toch volledig op talige informatie, eventueel in combinatie met of ondersteund door (bewegende en/of stilstaande) beelden. Op dit moment is het automatisch begrijpen van teksten in een natuurlijke taal een soort van heilige graal in een aantal onderzoeksgebieden, waaronder in ieder geval de informatica, de kunstmatige intelligentie, de filosofie en de taalwetenschap. Het zal duidelijk zijn dat wat hier bedoeld wordt met Enterprise Language Processing ook voor alle andere wetenschappelijke disciplines van groot belang is, want niet alleen overheid en bedrijfsleven dreigen te verdrinken in de stortvloed van documenten, hetzelfde geldt voor onderzoekers in alle disciplines. Voor de hand liggende voorbeelden zijn hier biologie, genetica, en medische wetenschappen, waar elk jaar miljoenen artikelen verschijnen, waardoor het steeds lastiger wordt om de relevantie en de implicatie van onderzoeksresultaten te beoordelen. Uit het bovenstaande mag duidelijk zijn dat Enterprise Language Processing niet alleen een enorme wetenschappelijke uitdaging oplevert, maar dat er ook grote maatschappelijke en economische belangen mee gediend zijn.
Samenvatting van de stand van zaken internationaal en nationaal In de afgelopen decennia is substantiële vooruitgang geboekt bij het automatisch verwerken van talige documenten. De zoekmachines die tegenwoordig door bijna iedereen en elke dag gebruikt worden zouden zonder automatisch taalverwerking ondenkbaar zijn. Voor het plannen van een nieuw programma gericht op onderzoek en ontwikkeling van Enterprise Language Processing is dat tegelijkertijd een zegen en een vloek. Het is een vloek omdat op veel plaatsen de neiging bestaat om te zeggen dat openbare financiering van onderzoek en
1/11
ontwikkeling niet nodig is, want “Google en Microsoft” doen het toch al (en met meer middelen). Daar komt bij dat de prestaties van de huidige zoekmachines gemakkelijk overschat worden. Het is zeker waar dat het zoeken naar documenten die voldoende aanknopingspunten bieden om “weer even verder te kunnen” door Google en Bing heel gemakkelijk geworden is. Het is nu heel gemakkelijk om één of twee artikelen over een bepaald onderwerp te vinden, en in sommige gevallen is dat voldoende. Daardoor is het soms lastig om duidelijk te maken dat de grote bekende zoekmachines nog steeds in veel opzichten tekort schieten. Het kan bijvoorbeeld nodig zijn om alle artikelen die relevant zijn voor een bepaald onderwerp te vinden, en om die te classificeren als positief, neutraal of negatief. Voor dergelijke taken zijn de gangbare zoekmachines zeker niet berekend, en op veel plaatsen groeit het besef dat de bestaande zoekmachines verre van perfect zijn. Maar tegelijkertijd zijn onderzoekers het er ook over eens dat de bestaande technologie een solide basis biedt voor onderzoek en ontwikkeling gericht op fundamentele verbeteringen. Voordat we ingaan op de verhouding tussen onderzoek en ontwikkeling binnen de grote 'Informatiebedrijven' zoals Google, Microsoft en IBM geven we in deze sectie eerst een korte samenvatting van de stand van zaken in het onderzoek en de ontwikkeling op het gebied van Enterprise Language Processing (in de literatuur meestal aangeduid met de oudere term Taal- en Spraaktechnologie; maar het domein waar we over spreken kan ook aangeduid worden met termen als kennisbeheer, beslissingsondersteuning of kunstmatige intelligentie) . Daarbij besteden we zowel aandacht aan ontwikkelingen binnen die 'Informatiebedrijven' als aan ontwikkelingen die gestuurd worden door grote programma's die (grotendeels) met overheidsmiddelen gefinancierd worden. Het zou te ver voeren om ín een overzicht van onlangs afgesloten en nog lopende programma's voor onderzoek en ontwikkeling op het brede terrein van Enterprise Language Processing in te gaan op de methoden en technieken van onderzoek die gebruikt en ontwikkeld worden. We zullen ons in deze notitie beperken tot een weergave van de richtingen waarin het veld zich beweegt. Maar we zullen dit overzicht wel afsluiten met een aantal samenvattende opmerkingen over de manieren waarop onderzoek en ontwikkeling aangepakt worden. De stand van zaken in Europa In Europa spelen, naast een aantal kleine nationale programma's die wellicht relevant zouden kunnen zijn het Frans-Duitse Quaero programma, en een aantal onderdelen van het Zevende Kaderprogramma. Het Quaero programma is met name interessant vanwege de focus op methoden en technieken die breed toepasbaar zijn op documenten met verschillende structuur uit verschillende media (geschreven, audiovisueel, etc.). Zoals van een Frans-Duits programma te verwachten is, is er speciaal aandacht voor vertaling voor zowel geschreven als gesproken (en audiovisuele) documenten en communicatie. In de onderzoeksagenda van de Europese Gemeenschap ligt de nadruk – uiteraard – op de problemen die het gevolg zijn van het feit dat Europa een veeltalige samenleving vormt. Het is absoluut niet te verwachten dat Europa op enige termijn terug zal komen op het standpunt dat alle officiële talen van de lidstaten gelijkwaardig zijn, en dat alle burgers recht hebben op informatie in hun eigen taal. Bovendien beseffen ook multinationaal opererende bedrijven steeds meer dat klanten prijs stellen op informatie in hun eigen taal. Tegen die achtergrond is het begrijpelijk dat in het Zevende Kaderprogramma de nadruk tot voor kort heel sterk op machinaal vertalen lag, waarbij het opmerkelijk is dat de calls zich vooral richtten op het bij elkaar brengen en op elkaar aansluiten van bestaande hulpmiddelen (woordenboeken, thesauri, etc.) en het combineren van regelgebaseerde en statistische technieken. In recentere calls is er meer ruimte voor onderzoek, gericht op nieuwe methoden en technieken voor het ontsluiten van informatie en voor mens-machine interactie in natuurlijke omstandigheden. Bij het breder definiëren van de doelen van het programma speelt het besef dat Enterprise Language Processing veel meer is dan alleen (machinaal) vertalen zeker een belangrijke rol. Publiek gefinancierd onderzoek in Amerika In Amerika is DARPA waarschijnlijk de belangrijkste publiek gefinancierde organisatie voor onderzoek en ontwikkeling op het gebied van Taal- en Spraaktechnologie, kunstmatige intelligentie en kennisbeheer. In
2/11
sommige projecten werkt DARPA nauw samen met de National Security Agency. Het valt op dat de lopende DARPA-speerpuntprogramma's allemaal gericht zijn op fundamenteel nieuwe benaderingen en oplossingen van problemen die door sommigen al lang als 'opgelost' beschouwd worden, maar waar de bestaande oplossingen uiterst kwetsbaar zijn voor variaties in de randvoorwaarden en omstandigheden. We zien hier dus hetzelfde spanningsveld als eerder gesignaleerd: aan de ene kant de indruk dat bedrijven als Google etc. adequate technologie en toepassingen leveren, en aan de andere kant het besef dat de bestaande toepassingen voor heel veel doeleinden nog steeds verre van goed genoeg zijn. In dit spanningsveld kiest DARPA klaarblijkelijk voor een op de (middel-)lange termijn gerichte fundamentele aanpak. Tot de speerpunten van DARPA behoren spraak-naar-spraakvertaling, automatische spraakherkenning onder moeilijke omstandigheden, het uit 'hardcopies' van documenten (in verschillende talen) extraheren van de informatie en het snel ontwikkelen van technologie voor talen die ineens relevant worden. Ook voor DARPA (en NSA) is meertaligheid essentieel. De eerste D in het acroniem DARPA staat niet voor niets voor 'Defense': de missie van DARPA is het ontwikkelen van kennis en technologie die de taken van de Amerikaanse legereenheden vergemakkelijkt. Net andere woorden: het onderzoek dat door DARPA gefinancierd en gestuurd wordt is primair gericht op de noden van een grote professionele organisatie. In die zin passen de initiatieven van DARPA perfect in het kader van Enterprise Language Processing. Ook de soldaten en technici op de werkvloer worden beschouwd als voor hun informatietaken getrainde professionals. DARPA is betrokken bij de financiering van het Never Ending Language Learning (NELL) project dat uitgevoerd wordt door Carnegie Mellon University. In NELL wordt geprobeerd een brug te slaan tussen het oorspronkelijke Word Wide Web als een netwerk van met elkaar gerelateerde en op inhoud doorzoekbare documenten en het (toekomstige) Semantic Web waarin de inhoud van alle documenten gerepresenteerd is in de vorm van 'feiten'. Tot dusver heeft NELL zich beperkt tot geschreven documenten waarin het Engels de voornaamste of de enige taal is. Op dit moment lijkt NELL eerder gericht op fundamenteel onderzoek dan op concrete toepassingen ten behoeve van Enterprise Language Processing. Bedrijfsonderzoek in Amerika In Amerika zijn er ook een paar grote bedrijven die onderzoek en ontwikkeling doen op het brede gebied van de Enterprise Language Processing, met IBM, Google en Microsoft als de belangrijkste partijen. Op het gebied van de verwerking van geschreven taal richt Microsoft zich op ondersteuning van gebruikers van de Office software, onder andere door middel van machinale vertaling en spelling- en grammaticacorrectie. Daarnaast is er onderzoek naar het automatisch begrijpen van implicaties van beweringen en het bouwen van semantische netwerken. Als het om gesproken taal gaat, ligt de nadruk vooral op mens-machine interactie, zoals in de recent geïntroduceerde Kinect aanvulling bij de Xbox en gesproken zoekopdrachten in mobiele versies van de Bing zoekmachine. Ondanks het feit dat Microsoft zich meer dan bijvoorbeeld Apple richt op professionele toepassingen in bedrijven en organisaties, bestaat toch de indruk dat het onderzoek en de ontwikkeling op het brede gebied van automatische verwerking van natuurlijke taal zich meer richt op ondersteuning van individuele eindgebruikers dan op het oplossen van de problemen die grote organisaties hebben bij het beheersen van de informatiestromen. Google zegt zich te richten op onderzoek en ontwikkeling op alle deelgebieden van de informatieverwerking, waaronder alle disciplines die een rol spelen bij het automatisch begrijpen van geschreven, en gesproken en multimedia documenten: kunstmatige intelligentie, data mining, mens-machineinteractie, Machine Learning, machinaal vertalen, natuurlijke-taalverwerking, spraakverwerking en virtual reality. De visie die IBM probeert te realiseren is de overgang van informatieverwerking in 'computertermen' naar de verwerking van informatie op de manier waarop mensen dat doen. Veel van dat onderzoek komt bij elkaar in het DeepQA project, dat moet laten zien hoe betere verwerking van natuurlijke taal, gecombineerd met Machine Learning, kennisrepresentaties en redeneren, en Information Retrieval zal leiden tot vraag-antwoordsystemen die zich even intelligent kunnen gedragen als mensen. Vergeleken met Microsoft en Google lijkt het onderzoek van
3/11
IBM meer gericht op de noden en behoeften van grote organisaties dan op de behoeften van individuen. De eerste toepassingen van de technologie onder het publicitair succesvolle Jeopardy programma lijken dan wel gericht op de ondersteuning van artsen bij hun diagnose en therapie, maar daar gaat het nog steeds om ondersteuning van professionals. Ook lijkt het alsof het onderzoek bij IBM zich meer dan bij de twee andere bedrijven concentreert op teksten in het Engels. De stand van zaken in Azië In Azië zien we globaal dezelfde ontwikkelingen als in Europa en Amerika: ontwikkeling van technologie die uiteindelijk in staat zal zijn om mens-machine interactie en de verwerking van informatie zo te maken dat de mens zich ondersteund voelt door de computers, in plaats van het gevoel te houden dat men zich voortdurend moet aanpassen aan de beperkingen van de computer als het gaat om de verwerking van intrinsiek ambigue gegevens in natuurlijke taal. Voor organisaties in Azië is er nog een extra motivatie voor onderzoek naar natuurlijke-taalverwerking, namelijk het niet-alfabetische schrift, dat zich slecht verhoudt tot de op het Engels gebaseerde toetsenborden. Methoden en Technieken Als er één trend is die zichtbaar is in het onderzoek en ontwikkeling op het brede veld van Enterprise Language Processing dan is dat de toepassing van zelflerende algoritmen die gebruik maken van een brede range van bronnen: van de totale verzameling documenten die via het Internet toegankelijk zijn tot gegevens over de keuzes en voorkeuren van afzonderlijke individuen. De inzet van zelflerende algoritmen is een noodzakelijk gevolg van de overstelpende omvang van de hoeveelheid documenten en de gegevens in die documenten, gevoegd bij de grote (en oncontroleerbare) variatie in alle aspecten van het taalgebruik en de noodzaak om een aantal verschillende talen naast elkaar te kunnen verwerken. Het is niet alleen zo dat gestructureerde handmatige verwerking van de inhoud van al die documenten absoluut onmogelijk is, het is ook gebleken dat de toepassing van deterministische regels niet tot de gewenste resultaten kan leiden. De inzet van zelflerende systemen vraagt onderzoek en ontwikkeling in een aantal disciplines en op een aantal sterk verschillende aspecten (om het woord “niveau” te vermijden). Machine Learning wordt in velerlei vormen al op grote schaal toegepast bij onderzoek en applicatieontwikkeling in alle subdomeinen en toepassingsgebieden in de kunstmatige intelligentie en de taal- en spraaktechnologie. Desondanks is er behoefte aan onderzoek naar nieuwe Machine Learning algoritmen die met een minimale vorm van supervisie daadwerkelijk kunnen leren van hun omgang met (voornamelijk talige, maar ook niet-talige) gegevens. Een fundamentele vraag is hierbij tot op welke hoogte een feitelijk lichaamsloze machine talige informatie kan 'begrijpen' door te zoeken naar expliciet en impliciet geformuleerde feiten en verbanden in grote hoeveelheden geschreven en gesproken materiaal. Hier speelt het fundamentele, en nog lang niet opgeloste, probleem van de 'grounding' van gegevens, informatie en kennis een centrale rol. Een ander fundamenteel probleem (voor een deel gerelateerd aan de 'grounding'-kwestie) betreft het voor inhoudelijke verwerking toegankelijk maken van de explosief groeiende hoeveelheid bronnen die in hun oorspronkelijke vorm niet bestaan uit discrete symbolen (zoals door spaties gescheiden woorden), maar uit handgeschreven of gesproken documenten en video. Er is niet alleen behoefte aan fundamenteel onderzoek naar nieuwe Machine Learning technieken. Er is zeker ruimte voor beter gebruik van bestaande Machine Learning technieken die al ingezet worden voor de verwerking van natuurlijke taal en voor het op TST-problemen toepassen van Machine Learning technieken die nog niet eerder voor dat doel gebruikt zijn. Communicatie met gebruik van natuurlijke taal is per definitie een sociaal fenomeen. Ook vrijwel alle definities van het begrip 'kennis' leggen de nadruk op het sociale karakter. Kennis wordt gezien als informatie die met andere leden van een groep gedeeld wordt, en die door alle leden van die groep op dezelfde manier geïnterpreteerd en gebruikt wordt. Bovendien leren individuen 'taal' van andere leden van de groep waartoe zij behoren. We hebben inmiddels het stadium bereikt waar het sociale karakter van taal en communicatie niet meer
4/11
genegeerd kan worden in onderzoek en ontwikkeling van natuurlijke taalverwerking. Dat heeft geleid tot de opkomst van disciplines zoals Crowd Sourcing en Social Information Processing, die voor de ontwikkeling van TST en Enterprise Language Processing onmisbaar geworden zijn. Op de eerste plaats vereisen deze ontwikkelingen het creëren van omgevingen die mensen stimuleren om hun kennis en ervaring ter beschikking te stellen. Tegelijkertijd moet gegarandeerd kunnen worden dat de privacy en andere belangen van de (bewust of onbewust) deelnemende individuen optimaal bewaakt worden. En niet op de laatste plaats zijn methoden en technieken nodig om de kwaliteit en de betrouwbaarheid van de bijdragen van in principe willekeurige personen aan een groter geheel te bewaken en te garanderen. De verhouding tussen publiek en privaat gefinancierd onderzoek Hierboven is al gezegd dat organisaties (zoals NWO, maar ook de Europese Commissie) van tijd tot tijd de vraag stellen of het nog wel nodig is om onderzoek gericht op Enterprise Language Processing te financieren omdat het niet duidelijk is of publieke financiering nog nodig is, als Google c.s. toch al 'alles' doen. Een andere, enigszins gerelateerde, vraag is of automatische natuurlijke taalverwerking überhaupt enig economisch en sociaal nut heeft. Die laatste vraag wordt vooral opgeroepen door het feit dat er weinig of geen aansprekende voorbeelden zijn van succesvolle bedrijven of aansprekende toepassingen waarin die technologie duidelijk zichtbaar is. Wat de noodzaak voor openbare financiering van onderzoek naar natuurlijke taalverwerking (als fundament voor Enterprise Language Processing) betreft kunnen we op de eerste plaats wijzen naar de fundamentele problemen die in de vorige sectie aangestipt zijn. Het beantwoorden van die fundamentele vragen heeft geen duidelijk belang voor de bedrijven die nu het meest actief zijn op het gebied van natuurlijke taal verwerking. Daar komt bij dat het onderzoek in de bedrijven toch sterk gericht is op toepassingen die op de korte termijn gerealiseerd kunnen worden. Wij zijner daarom van overtuigd dat er een grote ruimte is fundamenteel en strategisch onderzoek en dat de resultaten van dat onderzoek op (middel-)lange termijn gebruikt kunnen en zullen worden voor economisch en maatschappelijk relevante toepassingen. Die toepassingen zullen zeker versterking opleveren voor Enterprise Language Processing, maar we zullen ze ook zien in andere domeinen waar taalgebruik een belangrijke rol speelt (zoals in het onderwijs en de zorg). De vraag naar nut en noodzaak van taal- en spraaktechnologie is op zich wellicht begrijpelijk, omdat het gaat om zogenaamde 'enabling technologies', technologieën die voor gebruikers niet zichtbaar zijn omdat ze ingebed zijn in 'grotere' toepassingen. Wat de individuele gebruiker ziet is de spelling- of grammaticacorrectie, de internet zoekmachine of de geautomatiseerde klantenservice. Om maar één voorbeeld te geven: dat op websites zoals die van de KLM of de ING Bank vragen getypt kunnen worden in gewoon Nederlands is te danken aan technologie van het taaltechnologiebedrijf. Wat informatiemanagers in bedrijven zien zijn toepassingen voor data mining, document routering en classificatie, het bewaken van het imago van de organisatie in de pers en op het internet, etc. Dat die toepassingen zonder de inzet van taal- en spraaktechnologie onmogelijk zijn weten vaak alleen de leveranciers van die toepassingen, en die leveranciers betrekken de technologie dan vaak ook nog van veel kleinere bedrijven die mede daardoor vrijwel onzichtbaar blijven. De positie van het Nederlands in Enterprise Language Processing Het Nederlands is – in de terminologie van een bedrijf als Microsoft – een “tier 2 language”: een taal die niet meegenomen wordt in de ontwikkeling van nieuwe toepassingen, maar waarvoor succesvol gebleken toepassingen wel in tweede termijn beschikbaar gemaakt worden. Voor de spraaktechnologie betekent dit dat de grote technologieleveranciers zoals Nuance, Loquendo, SVOX, etc. hun producten voor automatische spraakherkenning en spraaksynthese ook voor het Nederlands leveren. Google levert “Voice Search” voor het Android platform ook voor het Nederlands. De 'standaard' technologie (nodig voor toepassingen als dicteren en automatisering van klantcontacten) is gebaseerd op een taalonafhankelijke motor, die met specifiek Nederlandse data getraind wordt. De multinationale bedrijven die multilinguale technologie leveren geven er de voorkeur aan om het trainingsmateriaal zelf te verzamelen, en om de training uit te voeren met eigen personeel. Er bestaat
5/11
daarom weinig of geen bereidheid om met onderzoeksorganisaties samen te werken bij de ontwikkeling van Nederlandstalige versies van hun producten. Tegelijkertijd kan opgemerkt worden dat er in niche markten, zoals de inzet van spraaktechnologie bij het leren van vreemde talen, het ondersteunen van communicatie van mensen met een handicap en het ontsluiten van multimedia documenten wel degelijk ruimte is voor samenwerking met bedrijven die op nationale schaal opereren, en ook met internationaal actieve bedrijven. Onderzoek en ontwikkeling in niche toepassingen van spraaktechnologie wordt vergemakkelijkt door de beschikbaarheid van het in het STEVIN programma ontsloten SPRAAK pakket voor automatische spraakherkenning. Naast SPRAAK bestaat nog de door Marijn Huijbregts ontwikkelde SHOUT toolkit, die behalve voor spraakherkenning ook ingezet kan worden voor diarization en sprekerherkenning. Er is de laatste jaren in Nederland en Vlaanderen minder hard gewerkt aan de ontwikkeling van toolkits voor spraaksynthese, maar de beschikbare middelen zijn zeker voldoende krachtig voor vrijwel alle denkbare niche toepassingen. Voor wat de taaltechnologie betreft is de situatie vergelijkbaar: er zijn goede hulpmiddelen beschikbaar voor 'standaard' toepassingen zoals spelling- en grammatica correctie, woordafbreking, en ad hoc document retrieval en er is machinale vertaling tussen het Nederlands en een aantal grote talen. Voor een deel is die technologie voor grote bedrijven als Microsoft ontwikkeld door lokaal gevestigde kleine bedrijven, maar er is zelden of nooit intensieve samenwerking geweest met onderzoeksorganisaties. Maar ook hier geldt dat er tal van geavanceerde toepassingen zijn (zoals enterprise search en opinion mining) waar ruimte is voor samenwerking tussen bedrijven en onderzoeksinstellingen. Nederland en Vlaanderen beschikken samen over een groot aantal onderzoeksgroepen en MKB’s/KMO’s die met behulp van wat in wezen open source software is heel interessante toepassingen kunnen ontwikkelen.
Toekomstig onderzoek In deze sectie signaleren we een aantal zaken die volgen uit de boven gegeven beschrijving van de stand van zaken op het zich ontwikkelende gebied van Enterprise Language Processing en die voor de opzet en organisatie van een toekomstig onderzoekprogramma relevant zijn. Hierbij richten we ons primair op inhoudelijke aspecten, al sluiten wij af met concrete aanbevelingen, ook voor financiering. Het lijkt op dit moment niet erg opportuun om financiering van toekomstig onderzoek strikt afhankelijk te maken van Nederlands-Vlaamse samenwerking. Daarom zijn de aanbevelingen geformuleerd in een vorm die het toelaat om voortgang te maken ook als een van de twee landen geen financiering kan vinden. Voor (vrijwel) alle aspecten van Taal- en Spraaktechnologie is er eerder onderzoek gedaan en gepubliceerd en bestaan er modules en procedure die – hoewel verre van perfect – in de praktijk goed bruikbaar zijn voor sommige, maar zeker niet voor alle denkbare toepassingen. Deze constatering leidt tot de conclusie dat er behoefte is aan verschillende parallelle stromen van onderzoek en ontwikkeling. Op veel gebieden kunnen bruikbare toepassingen voor het Nederlands gemaakt worden met de (deskundige) inzet van bestaande technologie. Daarnaast zijn er toepassingen die nu nog buiten het bereik liggen, maar die gerealiseerd kunnen worden met incrementele verbetering van bestaande benaderingen. Maar op een aantal punten zal incrementele verbetering niet leiden tot de noodzakelijke oplossingen; op die punten is er dus behoefte aan fundamenteel onderzoek dat tot echte doorbraken en vernieuwing kan leiden. Met andere woorden, er is nog steeds behoefte aan fundamenteel-wetenschappelijk onderzoek, aan toepassingsgericht onderzoek, en aan werk op het grensvlak van onderzoek en ontwikkeling. Vooruitgang op het terrein van Enterprise Language Processing kan alleen geboekt worden door de inzet van zelflerende systemen die de enorme massa talige documenten grotendeels automatisch kunnen leren begrijpen en op basis van dat begrip op een voor mensen bruikbare en toegankelijk manier kunnen verwerken en presenteren. Om te voorkomen dat die zelflerende systemen op een volkomen verkeerd spoor terecht komen gaat crowd sourcing en social information processing een steeds belangrijkere rol spelen als een vorm van supervisie en controle bij de training van zelflerende systemen. Het steeds grotere belang van de inbreng van individuen, met daarnaast het belang van steeds grotere relevante
6/11
databestanden, heeft geleid tot een ingrijpende verandering van de manier waarop onderzoek en ontwikkeling georganiseerd en gestuurd worden. Tot voor kort leefde de hoop dat onderzoek genoeg zou hebben aan grote, openbaar toegankelijk databestanden, die gebruikt konden worden voor het ontwikkelen van nieuwe technologie. Het idee was, kort door de bocht, dat de overheid zou kunnen zorgen voor de taaldata als een vorm van openbare infrastructuur, en dat onderzoekers en bedrijven op basis van die infrastructuur hun eigen technologie zouden kunnen ontwikkelen. Een wetenschapsmethodologisch voordeel van die werkwijze was (en is) dat er voor iedereen toegankelijke testdata beschikbaar zijn, zodat concurrerende benaderingen objectief met elkaar vergeleken kunnen worden. Er zijn ook altijd wetenschapsmethodologische bezwaren geweest tegen die op vergelijkende testen gebaseerde organisatie, al was het maar het feit dat veel van die testen en vergelijkingen eigenlijk niet meten wat we zouden willen meten, maar meten wat we op een zeker moment wel kunnen meten. Met het risico dat heel veel tijd en energie gestoken wordt in het optimaliseren van procedures voor zaken die uiteindelijk toch niet heel erg relevant blijken te zijn. Maar om een aantal redenen zien we op dit moment de coulissen verschuiven. De kosten voor het verzamelen, annoteren en IPR-vrij maken van voldoende grote openbaar toegankelijke data worden steeds hoger. Internationale evaluatiefora zoals TREC, CLEF, INEX en NTCIR worden daardoor steeds meer afhankelijk van de inbreng van vrijwilligers. Tegelijkertijd zien we steeds vaker dat onderzoekers werken met data die zij van het Internet plukken. Op die manier komen bestanden beschikbaar die vele malen groter zijn dan de corpora die in het recente verleden geproduceerd zijn. In veel gevallen weegt de grotere omvang zwaarder dan het risico dat de kwaliteit van de data minder hoog is. Het bezwaar dat de zelf verzamelde bestanden niet zonder meer openbaar gemaakt kunnen worden en ter beschikking gesteld kunnen worden aan andere onderzoekers, zodat die hun eigen methoden en technieken niet op dezelfde data kunnen toepassen, wordt voor een groot deel ondervangen door nieuw-ontwikkelde technieken te testen op 'oude' publiek toegankelijke corpora. Grote softwarebedrijven gebruiken voor hun onderzoek en ontwikkeling gegevens (getypte vragen, klikgegevens, gesproken vragen) die in operationele diensten verzameld worden en die daarom helemaal niet buiten het eigen bedrijf mogen komen. Op die manier kunnen problemen met IPR op een effectieve manier omzeild worden, terwijl de hoeveelheid data veel groter kan zijn dan wat door een centrale organisatie tegen redelijke IPR-voorwaarden beschikbaar gemaakt kan worden. En die bedrijven zijn tevreden als de prestaties van hun eigen technologie en hun eigen toepassingen beter worden. Het zal niet verbazen dat het gebruik van potentieel vervuilde data die tegen verwaarloosbare kosten van het Internet gehaald kunnen worden nieuwe wetenschappelijke vragen oproept. Aan de ene kant is het nodig om nieuwe technieken te ontwikkelen voor dataverwerking die robuust zijn tegen onbekende vervuiling, of technieken die gebruikt kunnen worden om vervuiling te herkennen en te verwijderen. Aan de andere kant leeft de vraag hoe methoden en technieken die ontwikkeld en getest zijn op data die niet in exact dezelfde vorm toegankelijk zijn voor andere onderzoekers (zonder impliciet of expliciet in conflict te komen met IPRbeperkingen) toch met elkaar vergeleken kunnen worden. Wat dat laatste betreft is het van belang dat de Nederlands-Vlaamse onderzoeksgemeenschap in staat gesteld wordt om betrokken te blijven bij internationale initiatieven die gericht zijn op het organiseren van benchmarks voor een brede range van technologieën en toepassingen. Een voor het academische onderzoek totaal andere vraag is hoe het mogelijk gemaakt kan worden om onderzoek te doen op basis van data die bedrijven onmogelijk breed toegankelijk kunnen maken zonder hun eigen IPR en de privacy van hun klanten te schaden. Op dit punt moet op de eerste plaats gedacht worden aan de zoekvragen (getypt of gesproken) die de eigenaars van grote zoekmachines of van grote bedrijven met heel veel klantcontacten bezitten, en die alleen gebruikt mogen worden voor onderzoek en ontwikkeling binnen het bedrijf, gericht op de verbetering van de eigen diensten en producten. Waar de openbare beschikbaarheid van taaldata minder wordt, lijken wij wat de beschikbaarheid van methoden en technieken betreft een tegengestelde ontwikkeling te zien. Veel van de nieuw-ontwikkelde basistechnieken komen snel beschikbaar in de vorm van open source software, vaak alleen als scripts bovenop al bestaande publiek toegankelijke software pakketten als LibSVM, R, WEKA, SPRAAK, etc. In die vorm zijn de implementaties in ieder geval geschikt voor academisch gebruik. Of dat ook voor commercieel gebruik geldt, is
7/11
een vraag. Maar bij zowel academisch als commercieel gebruik is het essentieel dat er deskundigheid is voor het gebruik van de technieken. Het gaat steeds om enabling technology, niet om kant-en-klare toepassingen. De tegengestelde ontwikkelingen naar enerzijds private data en anderzijds open source software creëert de noodzaak om een nieuwe vorm en functie te ontwikkelen voor organisaties als ELRA, LDC en in de NederlandsVlaamse context de TST-Centrale. In het takenpakket van dergelijke organisaties zal de nadruk verschuiven van het onderhoud van semi-statische databestanden naar ondersteuning bij het gebruik van software en tools. Daarbij moet wel opgemerkt worden dat de ervaring uitwijst dat die ondersteuning vrijwel alleen effectief geleverd kan worden door onderzoeksgroepen die de tools en software zelf ontwikkeld hebben en/of zelf actief gebruiken voor eigen onderzoek en ontwikkeling. Voor organisaties als ELRA, LDC en in de NederlandsVlaamse context de TST-Centrale, valt in dat licht vooral te denken aan een rol in het regisseren van de ondersteuning vanuit een centraal punt.
Aanbevelingen De bovenstaande overwegingen leiden tot een aantal conclusies, die hier kort samengevat zullen worden. Vooraf moet opgemerkt worden dat wij in deze aanbevelingen de nadruk leggen op inhoudelijke aanbevelingen. Wij onthouden ons daarmee van specifieke aanbevelingen over de manier waarop de gezamenlijke VlaamsNederlandse financiering en sturing van het noodzakelijke onderzoek en het noodzakelijke ontwikkelwerk het beste georganiseerd zou kunnen worden. Om die reden bevatten de aanbevelingen een aantal voorbeelden van toepassingen en mogelijke projecten en mogelijke financiers waarvan uitdrukkelijk gesteld wordt dat ze niet uitsluitend en volledig zijn. Overigens staat het buiten kijf dat alles in het werk gesteld moet worden om de Vlaams-Nederlandse samenwerking die in het afgelopen decennium gegroeid is in stand te houden en waar mogelijk te versterken. 1. Er is voor een toekomstig onderzoeksprogramma geen behoefte aan het bouwen van nieuwe, omvangrijke, publiek toegankelijke corpora. Onderhoud en eventueel kleine uitbreidingen van bestaande corpora is voldoende. Het langetermijn onderhoud van corpora kan het beste georganiseerd worden in het kader van de CLARIN activiteiten. Zolang het Instituut voor Nederlandse Lexicologie blijft bestaan en functioneren op dezelfde manier als in het recente verleden kan het onderhoud van corpora het beste bij het INL ondergebracht worden. Het INL zou uitgenodigd moeten worden om een kostendekkende begroting te maken voor deze vorm van onderhoud. Samenwerking en afstemming met het CLARIN-NL project, dat als een van zijn doelen heeft om een structurele basis te creëren voor de financiering van een op talige data gerichte onderzoeksinfrastructuur ligt daarbij voor de hand. 2. Er is behoefte aan ondersteuning van Nederlandse en Vlaamse onderzoeksgroepen en innovatieve bedrijven aan de internationaal georganiseerde evaluatie-initiatieven, zoals die ontwikkeld worden in bijvoorbeeld CLEF. Die betrokkenheid is om twee redenen van groot belang. Ze helpt onderzoekers in Nederland en Vlaanderen om op een dieper (hands-on) niveau op de hoogte te blijven van de internationale ontwikkelingen, en ze is een noodzakelijke voorwaarde voor het meenemen van het Nederlands als taal in toekomstige benchmarks (met als spin-off het voordeel dat er nieuwe – en voor nieuwe toepassingen relevante – openbaar toegankelijke trainings- en testcorpora voor het Nederlands beschikbaar komen). De betrokkenheid van Nederland en Vlaanderen bij internationale benchmarks kan gerealiseerd worden met bescheiden middelen. Een bedrag van € 100.000 per jaar is zeker voldoende om de lopende benchmarks bij te houden. Voor het spelen van een grotere, voortrekkersrol bij de ontwikkeling van benchmarks – wat een actieve rol in specifiek onderzoek vereist – is een bedrag van € 200.000 per jaar voldoende. Die middelen zijn nodig voor de ondersteuning van onderzoeksgroepen in Nederland en Vlaanderen die een actieve bijdrage leveren aan de organisatie van de evaluatieinitiatieven. Die ondersteuning is nodig omdat zaken als het maken van training- en testcorpora, hoe belangrijk ook, niet gelden als academische prestaties vergelijkbaar met artikelen. 3. Er is zeker behoefte aan het beheer van softwaretools die door onderzoekers in Nederland en Vlaanderen
8/11
ontwikkeld worden, en die van belang zijn voor het hele veld (academisch en commercieel). Er is zeker ook behoefte aan de ontsluiting van nieuwe tools die in het buitenland ontwikkeld worden, en aan ondersteuning van onderzoekers in Nederland en Vlaanderen bij het gebruiken van die tools en bij de aanpassing ervan aan de specifieke eisen die het Nederlands stelt. De organisatie en de financiering van het onderhoud van en de ondersteuning bij het gebruik van softwaretools is een onopgelost probleem. In CLARIN wordt momenteel gezocht naar werkbare en toekomstvaste oplossingen. Het lijkt onwaarschijnlijk dat deze vorm van onderhoud en ondersteuning op dezelfde manier georganiseerd kan worden als het onderhoud van corpora. Onderhoud en gebruik van software die ontwikkeld is voor heel specifieke taken vergt een groot begrip van die taken. Het ligt daarom voor de hand om onderzoeksgroepen waar de software ontwikkeld is of waar de software actief gebruikt wordt in te schakelen bij het onderhoud en de ondersteuning. Het is op dit moment niet mogelijk om een gedetailleerde begroting te maken van de kosten die met onderhoud en ondersteuning van software tools gemoeid zijn. Een definitieve inschatting kan ook pas gemaakt worden op basis van beslissingen over welke tools wel en welke niet met openbare en geoormerkte middelen ondersteund moeten worden. Het ligt voor de hand om CLARIN te vragen om een concreet plan te ontwikkelen. In ieder geval is er behoefte aan een effectieve makel- en schakelfunctie, die informatievragers via één centraal loket de weg kan wijzen. Hier kan zeker een rol weggelegd zijn voor de Nederlandse Taalunie, wellicht in samenwerking met CLARIN. 4. Er is behoefte aan fundamenteel onderzoek, aan strategisch onderzoek, aan toepassingsgericht onderzoek en aan opleiding van onderzoekers. Idealiter zouden die behoeften in een geïntegreerde aanpak gezamenlijk vervuld moeten worden. Op dit moment is er geen organisatie die voor de verticale integratie van fundamenteel, strategisch en toepassingsgericht onderzoek op het gebied van Enterprise Language Processing kan zorgen. Het is ook niet duidelijk hoe zo'n organisatie er uit zou moeten zien. Een voornamelijk op industrie en toepassingen gerichte organisatie als NOTaS zou wel betrokken moeten zijn, maar het is niet duidelijk hoe zij kan zorgen voor de integratie met fundamenteel onderzoek. Ambtelijke organisaties als Agentschap.nl en EWI kunnen de noodzakelijke inhoudelijke deskundigheid niet garanderen. Misschien de beste oplossing voor de korte en middellange termijn is de professionalisering van een vrijwilligersorganisatie zoals CLIN en CLIF. Waarschijnlijk is het nodig om twee deeltijdmedewerkers aan te stellen, een met een achtergrond in de taaltechnologie en een in de spraaktechnologie. Die mensen moeten zicht hebben op en belangstelling hebben voor zowel onderzoek als ontwikkeling, en ze moeten op de hoogte zijn van mogelijkheden voor financiering van demonstratieprojecten. De professionele CLIN/CLIF (pCLINF) zou de middelen moeten hebben om vaker dan één keer per jaar bijeenkomsten te beleggen en om activiteiten te organiseren die specifiek gericht zijn op het bij elkaar brengen van onderzoekers en ontwikkelaars op specifieke gebieden (zoals bijvoorbeeld opinion mining). pCLINF moet kunnen dienen als aanspreekpunt voor overheidsorganisaties en financiers (zoals NWO en FWO, maar ook EWI en Agentschap.nl). Voor dat doel is het waarschijnlijk dienstig als pCLINf een bestuur krijgt met een samenstelling en een mandaat analoog aan het huidige TST-Bestuur. Een pCLINF zoals hier gesuggereerd zal op jaarbasis € 150.000 nodig hebben, € 100.000 voor personeelskosten en € 50.000 voor het organiseren van activiteiten. Het is het overwegen waard om pCLINF ook een budget te geven voor het financieren van demonstratieprojecten, zoals de succesvolle projecten in STEVIN. In dat geval zou er per jaar een additioneel bedrag van € 400.000 nodig zijn (voldoende voor vier substantiële projecten). Voor het succes van pCLINF is het essentieel dat zowel Nederland als Vlaanderen vertegenwoordigd zijn. 5. Het fundamentele onderzoek moet zich richten op Machine Learning met als doel het ontwikkelen van nieuwe methoden om grip te krijgen op de betekenis die in gesproken en geschreven taal uitgedrukt wordt. De grote uitdaging kan geformuleerd worden in termen als “automatisch begrijpen van (geschreven en multimedia) documenten” of de “simulatie van eruditie”. Om dit doel te realiseren moet in Nederland een kleine commissie samengesteld worden die een
9/11
gebiedsoverschrijdend programma ontwikkelt binnen NWO. Daarbij zouden in ieder geval de gebieden Geesteswetenschap, Exacte Wetenschap en STW betrokken moeten zijn. Het is denkbaar dat ook andere gebieden bij het programma betrokken worden, afhankelijk van de rol die toebedeeld wordt aan Cognitiewetenschap en de noodzakelijke basis in embodiment voor het leren begrijpen van taaluitingen. Een soortgelijke commissie zou de mogelijkheden voor een programma in Vlaanderen moeten onderzoeken. Voor NWO is met dit voorstel een bedrag gemoeid van € 5.000.000. De ervaring wijst uit dat een bedrag in die orde van grootte voldoende is voor zes à zeven projecten in de omvang van de huidige kleine programma's bij NWO-G, en dat een programma van die omvang een blijvende impact kan hebben. Het programma zou eind 2012 of begin 2013 van start kunnen gaan. Idealiter zou in Vlaanderen een 'vergelijkbaar' bedrag beschikbaar moeten zijn. De Nederlandse en Vlaamse programma's hoeven niet van elkaar afhankelijk te zijn, maar als ze beide gerealiseerd worden, is een goede coördinatie noodzakelijk. De boven voorgestelde pCLINF zou in dat verband zeker een nuttige en noodzakelijke rol kunnen spelen. De samenwerking en afstemming tussen Nederland en Vlaanderen kan vorm gegeven worden door ervoor te zorgen dat onderzoekers en beleidsmakers uit beide landen van begin af aan bij de voorbereiding van grotere programma's betrokken zijn. Het is van groot belang dat het onderzoek in dit programma, ondanks (of misschien juist dankzij) het fundamentele karakter, een open oog heeft voor nieuwe toepassingen in nieuwe domeinen. Om een min of meer concreet voorbeeld te geven: fundamenteel onderzoek zou de nu ontbrekende synergie kunnen leveren die nodig is om economisch haalbare toepassingen te ontwikkelen voor ondersteunde communicatie van mensen met beperkingen. Bij de huidige stand van de kennis is er nauwelijks of geen overdracht van technologie tussen verschillende beperkingen. 6. Het strategisch onderzoek moet zich zoveel mogelijk afspelen in in de context van een concrete toepassing, waardoor voortdurende bewaking en evaluatie van de vorderingen mogelijk wordt. De toepassingen kunnen onder andere gevonden worden in de brede maatschappelijke domeinen als Gezondheid en Zorg, Onderwijs, E-Government, Veiligheid, Cultureel Erfgoed, maar ook in meer op onderzoeksvragen gerichte gebieden als Semantic Web. Zeker in Nederland moet serieus gekeken worden naar projecten en toepassingen op het gebied van de creatieve industrie, het enige door het nieuwe ministerie ELI gedefinieerde zwaartepunt dat min of meer rechtstreeks aansluit bij Enterprise Language Processing. Dit deel van het onderzoek kan het beste gerealiseerd worden in de vorm van een of meer programma's met een opzet analoog aan het CATCH programma binnen NWO. Met andere woorden, een van de voorwaarden voor de financiering van projecten is de deelname van een bedrijf of een organisatie die de te ontwikkelen technologie en toepassingen daadwerkelijk gaat gebruiken. Een dergelijke constructie maakt het mogelijk om bedrijfs/organisatie-interne data, die om allerlei redenen niet naar buiten gebracht mogen worden toch toegankelijk te maken voor wetenschappelijk en technologisch onderzoek. Het ligt voor de hand om de programma's die hier bedoeld zijn te focusseren op toepassingen die anders zijn dan de 'standaard' toepassingen die met behulp van technologie van grote bedrijven gerealiseerd kunnen worden. Toepassingen, met andere woorden, die met bestaande commerciële technologie niet realiseerbaar zijn, maar die wel ontwikkeld kunnen worden op basis van nieuw onderzoek en met technologie die in de deelnemende onderzoeksgroepen ontwikkeld is. Er kan een lange lijst van interessante en relevante toepassingen en onderwerpen gemaakt worden die in aanmerking zouden kunnen komen voor strategisch onderzoek waarin bedrijven/organisaties en universiteiten samenwerken. Er zijn allerlei vormen van enterprise search, opinion mining, geavanceerde toepassingen in de zorg voor ouderen, hulpmiddelen in het onderwijs (op de eerste plaats taalonderwijs, maar zeker ook interactieve vormen van onderwijs in andere vakken), daarbij aansluitend serious gaming, ontsluiting van multimedia bestanden, ondersteuning van politie en veiligheidsdiensten bij het verwerken van talige boodschappen, etc. Binnen NWO zou voor deze activiteiten een bedrag van € 5.000.000 gereserveerd moeten worden, te besteden in twee tranches van € 2.500.000. De eerste tranche kan van start gaan eind 2012, begin 2013,
10/11
en de financiering van de tweede tranche, begin 2015, kan afhankelijk gemaakt worden van het succes van de projecten in de eerste tranche. In Vlaanderen zou EWI een bedrag in dezelfde orde van grootte beschikbaar moeten maken. 7. Specifiek toepassingsgericht onderzoek moet per definitie uitgevoerd worden in een context waarin een bedrijf de leidende partner is. Het is aan te bevelen om de ontwikkeling van toepassingen op een andere manier te financieren dan het strategische en fundamentele onderzoek. Voor de organisatie en de financiering van dit soort onderzoek moeten creatieve nieuwe vormen ontwikkeld worden die tegemoet komen aan de belangen en behoeften van MKB’s/KMO’s, zonder dat dit ten koste gaat van de belangen van de onderzoeksinstellingen. 8. De focus op het Nederlands als doeltaal wordt gegarandeerd doordat er voor het strategische en toepassingsgerichte onderzoek samengewerkt wordt met bedrijven die diensten en producten aanbieden waarin het Nederlands de werktaal is. 9. Tenslotte moet nogmaals het belang benadrukt worden van effectieve samenwerking en coördinatie tussen de potentiële financiers aan Nederlandse en Vlaamse kant. Ook hier geldt waarschijnlijk dat er nieuwe vormen ontwikkeld moeten worden, die de verschillen tussen de procedures en gewoontes in de twee landen kunnen overbruggen.
11/11