Technologieverkenning Nederlandstalige Taalen Spraaktechnologie
Rapport bij project 103185, versie 1.1
Dit rapport is geschreven in opdracht van het ministerie van Economische Zaken door Jaap Akkermans, Brigit van Berkel, Chris Frowein en Linda van Groos van M&I/PARTNERS bv en Dirk Van Compernolle van Montemore NV. Amersfoort / Leuven, 18 februari 2004
Inhoudsopgave 1 1.1 1.2 1.3 1.4 1.5
Vraagstelling Taal- en spraaktechnologie: de vooravond van grootschaligheid De vragen in deze technologieverkenning Het BATAVO-voorstel als aanleiding voor de studie Opbouw van dit rapport Leeswijzer
2 2.1 2.1.1 2.1.2 2.1.3 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.3 2.3.1 2.3.2 2.3.3 2.4
Achtergrond Een historische terugblik wereldwijd Droom en realiteit, pragmatiek en deeloplossingen Lerende systemen en de rol van data en statistiek in het TST-gebeuren Linguistic Data Consortium , Evaluation and Language Distribution Agency TST-programma’s van de Nederlandse en Vlaamse overheid EUROTRA bijdrage voor de Nederlandse taal (1978 – 1993) Het Nederlandse programma ‘Analyse en Synthese van Spraak’ (ASSP) CELEX (1986 – 2000) Het korte-termijnprogramma Spraak- en Taaltechnologie in Vlaanderen (1994-1997) Het NWO-prioriteitsprogramma in Nederland (1995-2000) Het Corpus Gesproken Nederlands (1998 – 2003) De Nederlandse Taalunie TST-Platform en het Actieplan 1999 BATAVO TST-Centrale Aanvraag financiering voor TST uit het IOP-fonds
9 9 10 10 11 12 12 13 14 14 15 15 16 16 17 17 17
3 3.1 3.2 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.4 3.5 3.5.1 3.5.1.1 3.5.1.2 3.5.1.3 3.5.1.4 3.5.2 3.5.2.1
Domeinafbakening TST Inleiding Domeinafbakening Begrippenkader Basisbegrippen en kennisdomeinen Data Regels en grammatica’s Modules en basiscomponenten Samenhang tussen de verschillende soorten basisvoorzieningen Terminologie gebruikt in het BATAVO-document Toepassingen Taaltechnologie Hulpmiddelen voor Tekstverwerking Toegang tot (on)gestructureerde informatie Multilinguale Informatiecreatie en -verwerking Taalleren (CALL) Spraaktechnologie Telefoniegebaseerde Informatiesystemen
19 19 19 20 20 21 22 22 23 24 25 25 25 25 26 26 26 26
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
6 6 6 7 8 8
Pagina 2 van 127
3.5.2.2 3.5.2.3 3.5.2.4 3.5.2.5
Dicteer- en transcriptietoepassingen Consumentenmarkt Audio search & retrieval Toepassingen van spraaktechnologie die geen ‘taligheid’ vereisen
27 27 28 28
4 4.1 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5
Gelaagd model voor het TST-innovatiesysteem Het TST-innovatieproces als gelaagde keten De actoren in de gelaagde keten Type spelers bij aanmaak van de basisvoorzieningen (laag 1) Type spelers in het TST-ontwikkelingsproces (laag 2 en laag 3) Type spelers in het commercialisatieproces (laag 3 en 4) Kenmerkende en onderscheidende factoren Afhankelijkheid van taalgebied in het ontwikkelings- en commercialisatieproces Taalafhankelijkheid van de technologie Rol van TST in het eindproduct Rol basisvoorzieningen in het eindproduct en gevaar voor reverse engineering Taal versus spraak
29 29 32 32 32 32 33 33 34 35 35 35
5 5.1 5.2 5.2.1 5.2.2 5.3 5.4
TST-actoren in Nederland en Vlaanderen Publiek onderzoek Marktpartijen Beschrijving van de aktoren Prioriteiten van marktpartijen Netwerkrelaties tussen actoren Vergelijking Nederland en Vlaanderen
36 36 37 37 38 39 40
6 6.1 6.2 6.3 6.3.1 6.3.2 6.3.3 6.3.4 6.3.5 6.4 6.4.1 6.4.2 6.4.3 6.4.4 6.4.5 6.4.6 6.4.7 6.5
De economische betekenis van TST Methodiek voor het bepalen van de economische betekenis Call centers en IVR: een assessment Tentatieve verbreding naar de totale spraakmarkt De pc-dicteermarkt Een inschatting van de economische impact van de dicteermarkt Andere pc/servertoepassingen De consumentenmarkt voor spraak Spraak en Ambient Technology Economische belang van taaltechnologische systemen Economisch belang van het semantisch web Knowledge management Lokalisatie van software en gebruiksaanwijzingen Automatisch vertalen Multi-lingual publishing Language learning Proofing tools Het rendement op een investering in TST
41 41 42 44 45 46 47 47 49 49 49 50 51 52 53 53 54 54
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 3 van 127
7 7.1 7.2 7.3
Zelfanalyse van de sector en prioriteitenstelling Workshops als input voor een analyse De scenariodiscussies Visie van het veld op wenselijke onderzoeksprioriteiten
55 55 55 59
8 8.1 8.1.1 8.1.2 8.1.3 8.2 8.2.1 8.2.2 8.2.3
Sterkte-zwakte analyse van het innovatiesysteem Sterkten van het innovatiesysteem Wetenschappelijke kwaliteit staat niet ter discussie Grote internationale zichtbaarheid Intensieve wisselwerking tussen marktpartijen en kennisinstituten Zwaktes van het innovatiesysteem Zwakheden als gevolg van onvoldoende basistaalvoorzieningen Interne zwakheden Overige zwakheden
60 60 60 60 60 60 61 61 62
9 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 9.10 9.11
Voorstel voor een stimuleringsprogramma De noodzaak van een gemend instrumentarium De onvoorwaardelijke noodzaak van vraagstimulering De onvoorwaardelijke noodzaak van een IPR-beleid Toekenning van financiering voor tools of onderzoek versus LR’s Aanmelden van het in eigendom bezitten van Language Resources Organisatie van een hybride programma Eén organisatorisch kader voor Nederland en Vlaanderen tezamen Benodigd budget Personele invulling van de programma(voorbereidings)commissie Programmering van onderzoek op hoofdlijnen Planning in de tijd
63 63 65 66 66 67 68 69 69 71 71 72
10 10.1 10.2 10.3
Conclusies en samenvatting Advies in het kort Antwoord op vijf hoofdvragen van de opdrachtgever Antwoorden op de specifieke vragen bij deze technologie-verkenning
73 73 73 74
Bijlage 1: Samenstelling begeleidingsgroep
75
Bijlage 2: Hoofdlijnen van het BATAVO-voorstel
76
Bijlage 3: Kwantitatieve gegevens TST-sector
77
Bijlage 4: TST in call-centers en IVR-systemen
94
Bijlage 5: Participanten in de TST-workshops
100
Bijlage 6: Scenario’s
102
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 4 van 127
Bijlage 7: Conclusies EUROMAP benchmark
110
Bijlage 8: Onderzoeksprioriteiten volgens Scansoft
112
Bijlage 9: Visie van NOTaS
114
Bijlage 10: Standaardisatie
123
Bijlage 11: Voorbeelden van projectactiviteiten
125
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 5 van 127
1
Vraagstelling
1.1
Taal- en spraaktechnologie: de vooravond van grootschaligheid
Al in de jaren tachtig was Taal- en Spraaktechnologie (TST) een beleidsthema voor de Nederlandse overheid. Het bureau Van de Bunt verrichtte toen in opdracht van het Nederlandse ministerie van Economische Zaken een uitgebreide studie. In de jaren daarna is ook aan talloze initiatieven voor TST-onderzoek door de Nederlandse overheid financiële steun gegeven. Ook de Vlaamse overheid steunde TST-technologie over een lange reeks van jaren, onder andere in de context van ‘Flanders Language Valley’. Twintig jaar later is een deel van de in de tachtiger jaren verwoorde belofte wel degelijk waargemaakt. Volgens de recente benchmark studie Euromap, uitgevoerd in opdracht van de Europese Unie binnen het vijfde Kaderprogramma, scoren zowel Nederland als België hoog op dit technologiegebied qua onderzoeksresultaten. Moeiteloos zijn ook toonaangevende bedrijven op het gebied van spraak- of taaltechnologie in zowel Nederland als België te vinden. Een van de wereldspelers van het vorige decennium, Lernout & Hauspie, was zelfs een Vlaams bedrijf. Maar het feit dat resultaten zijn bereikt, betekent nog niet dat de vraag welke bijdrage TST nu en straks levert aan een duurzame economische groei definitief, is beantwoord. In de aangehaalde benchmark studie wordt gesteld dat de fase van grootschaliger marktdoorbraak nu is aangebroken en dat de cruciale vraag van dit moment luidt: Onder welke voorwaarden kan de huidige fase van ‘early adopters’ overgaan in de fase met grootschaliger toepassingen.
1.2
De vragen in deze technologieverkenning
Gegeven die vraag heeft het ministerie van Economische Zaken het initiatief genomen om een technologieverkenning naar Nederlandstalige Taal- en Spraaktechnologie uit te laten voeren. Het ministerie heeft een aantal andere partijen bij de uitvoering van de studie betrokken: de Vlaamse overheid; het Nederlandse ministerie van OC&W; de Taalunie, een Vlaams-Nederlandse organisatie. De genoemde organisaties vormden een begeleidingsgroep voor deze studie. (Voor de samenstelling, zie bijlage 1) De specifieke vragen die in de studie beantwoord moesten worden waren: Welke bijdrage levert TST aan de duurzame economische groei in Nederland en Vlaanderen? Is het een technologiegebied dat kansen biedt voor de Nederlandse en Vlaamse economie? Zo ja, wat is de omvang van die kansen? Hoe ziet het TST-innovatiesysteem er nu uit? Hoe kan het functioneren van dit systeem worden beschreven met het model van het Dynamisch Innovatiesysteem (DIS)? Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 6 van 127
Wat zijn de sterke en zwakke punten van dit TST-innovatiesysteem? Is er verschil in de werking van het innovatiesysteem tussen België en Nederland? Kan men eventuele verschillen verklaren? Is er een rol voor de overheden weggelegd om het functioneren te verbeteren? Als de overheden een rol zouden moeten spelen bij het bevorderen van de innovatie op het gebied van TST, welke aanpak moet dan worden gekozen? Heeft die aanpak rendement in economisch en cultureel opzicht? Met welke bestaande beleidsinstrumenten, bijvoorbeeld een IOP (Innovatiegericht Onderzoekprogramma) in Nederland of een SBO (Strategisch Basisonderzoek) in Vlaanderen, kan een gewenst beleid worden vormgegeven? Kan een renderende aanpak ook op draagvlak in het veld rekenen? Wat is het draagvlak bij de kennisinstituten? Welk draagvlak bestaat bij marktpartijen? En wat is de synergie tussen beide groeperingen?
1.3
Het BATAVO-voorstel als aanleiding voor de studie
Een tweede aanleiding voor de Nederlandse overheid om deze verkenning medio juli 2003 op te dragen is, een ter tafel liggend voorstel van de Nederlandse en Vlaamse onderzoekswereld om de Basistaalvoorzieningen (BATAVO) voor de Nederlandse taal aan te vullen. In het BATAVOvoorstel wordt ervan uitgegaan dat de beschikbaarheid van min of meer dekkende basisvoorzieningen voor de Nederlandse taal een van de noodzakelijke voorwaarden is om in ons taalgebied het ‘gat’ tussen de huidige fase van de early-adopters en die van grootschalige toepassingen te overbruggen. Niemand twijfelt aan de stelling dat basisvoorzieningen voor een taal onmisbaar zijn. Wel roept de stelling vragen op: Als Basistaalvoorzieningen worden gecreëerd of verbeterd, welk positief of negatief effect heeft dat dan op de bestaande TSTbedrijvigheid en hun positie op de nationale TST-markt en de TSTwereldmarkt? Is de commerciële TST-sector in Vlaanderen en Nederland voor een doorbraak op internationale markten het meest gediend met steun aan de eigen Nederlandse taal, of is het stimuleren van veeltalige benaderingen en/of vertaaltechnologie juist belangrijker? Past het aanmaken van basisvoorzieningen zoals in het BATAVOplan gedefinieerd, binnen het bestaande beleidsinstrumentarium voor technologiestimulering in Nederland en Vlaanderen?
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 7 van 127
1.4
Opbouw van dit rapport
Hoofdstuk 2 van dit rapport schets de historische achtergrond van de Taal- en Spraaktechnologie (TST). In het volgende hoofdstuk wordt het TST-domein preciezer afgebakend om dan in hoofdstuk 4 een model te kunnen introduceren voor de werking van het innovatiesysteem. Hoofdstuk 5 geeft een overzicht van alle actoren in Nederland en Vlaanderen. Na deze inleidende en meer beschrijvende hoofdstukken volgen hoofdstukken die een sterk analyserend of adviserend karakter hebben. Hoofdstuk 6 geeft een oordeel over de economische betekenis van TST. Hoofdstuk 7 bevat een zelfanalyse van de TST-sector en de eigen prioriteitenstelling. Hoofdstuk 8 schetst de sterkten en zwakten van de sector zoals M&I/PARTNERS die ervaart. Hoofdstuk 9 bevat ons advies voor een hybride stimuleringsprogramma en gaat in op omvang en gewenste organisatievorm. Hoofdstuk 10 bevat een samenvatting. Het rapport bevat vervolgens 11 bijlagen, waaronder door de marktpartijen ingebrachte notities over de gewenste prioriteiten bij stimulering van Nederlandstalige TST door de Nederlandse en Vlaamse overheid.
1.5
Leeswijzer
Dit rapport kan lineair worden gelezen, beginnend bij het volgende hoofdstuk tot en met bijlage 11. Maar er zijn ook andere methoden om van de inhoud van het rapport kennis te nemen. De lezer die is geïnteresseerd in de antwoorden op hoofdlijnen leest eerst hoofdstuk 10 (samenvatting en conclusies). Het einde van dat hoofdstuk leert de lezer welke hoofdstukken vervolgens de aandacht zouden kunnen vragen. De lezer die eerst meer gevoel voor de vraagstelling wil krijgen zou kunnen beginnen met de vier scenario’s uit bijlage 6. De laatste bijlage: 11 bevat vervolgens een aantal concrete, aansprekende onderzoeksvragen. Vervolgens zou hij door kunnen gaan met het analytische deel van dit rapport: hoofdstuk 4 tot en met 9. Diegenen die al vertrouwd zijn met TST als domein zouden hoofdstuk 2 en 3 kunnen overslaan, hoofdstuk 4 wel lezen om dan te vervolgen met de hoofdstukken 7 tot en met 9. Diegenen met een sterke focus op economisch rendement kunnen het best beginnen met hoofdstuk 6.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 8 van 127
2
Achtergrond
2.1
Een historische terugblik wereldwijd
Woordenboeken en naslagwerken zijn de enige tastbare output van geformaliseerd linguïstische kennis tot de computer zijn intrede maakt en de moderne taal- en spraaktechnologie mee vormgeeft in de jaren vijftig en zestig. Wetenschappers dromen luidop van machines die kunnen luisteren en spreken of die hele teksten kunnen vertalen. Een halve eeuw later is een beperkt deel van deze droom werkelijkheid geworden. Bepaalde (eenvoudiger) technologieën, zoals spellingcheckers, zijn alledaagse consumententechnologie geworden. Daarnaast wordt veelvuldig gebruikgemaakt van pragmatische taaltechnologische oplossingen voor de verbetering van zoekresultaten van zoekmachines. Complexere technologieën zoals spraakherkenning en synthese komen dicht bij maturiteit, maar zijn er nog niet helemaal. Vooral de technologieën die ‘verstaan van natuurlijke taal’ vereisen, hebben de te hoge verwachtingen zeker niet volledig kunnen inlossen. De technologische vooruitgang is nochtans gestaag geweest, mede gedragen door een dramatische en continue groei van beschikbare computercapaciteit. Door zijn complexiteit en variabiliteit laat natuurlijke taal zich moeilijker in een computermodel vatten dan oorspronkelijk geanticipeerd. Daardoor is de weg naar functionele technologie lang en voor bepaalde toepassingen nog maar voor een stuk afgelegd. Voor sommige heel complexe toepassingen - zoals automatisch vertalen - is daardoor de aandacht voor een groot stuk verlegd van ‘kant-en-klaarvertalen’ naar ‘hulpmiddelen’ die het manueel vertalen kunnen helpen en versnellen. Het is een voorbeeld van hoe de economische realiteit zich aanpast aan de technologische haalbaarheid. Een andere vaststelling – vooral gedreven door economische factoren – zijn de grote kwaliteitsverschillen tussen talen. Kwaliteit voor het Engels is beduidend beter dan voor het Nederlands, wat uiteraard uitmondt in een hogere penetratie van de technologie in de Verenigde Staten dan in het Nederlands taalgebied. De basisontwikkeling van taal- en spraaktechnologie werd over de jaren heen gedragen door een aantal belangrijke impulsprogramma’s van diverse overheden. DARPA is sinds begin jaren ’70 een belangrijke financier geweest voor onderzoeksprogramma’s rond spraakherkenning en automatisch vertalen in de Verenigde Staten. Ook de onderzoeksprogramma’s van de Europese unie hebben belangrijke impulsen gegeven. Een van de grootste en langstlopende initiatieven hierin was het project EUROTRA voor automatisch vertalen (1982-1993). Naast de publieke initiatieven, werd in de jaren tachtig ook door de grote multinationals massaal in deze technologie geïnvesteerd: bijvoorbeeld Philips, Siemens, BSO, IBM, AT&T en Apple. Bekende projecten in Nederland in dat kader zijn het Rosetta-project van Philips en DLT (Distributed Language Translation) van het toenmalige BSO. Naarmate de technologie marktrijper werd, speelden meer en meer kleine en grote bedrijven een rol die van spraak- en taaltechnologie hun belangrijkste werkdomein hadden gemaakt. Voorbeelden voor spraakherkenning zijn Dragon, Lernout & Hauspie, Nuance (www.nuance.com) en Scansoft (www.scansoft.com). Een aantal van die partijen zijn inmiddels kopje onder gegaan (Lernout & Hauspie), zijn door grotere spelers overgenomen (Dragon, namelijk door Scansoft) en een aantal van de multinationals hebben hun activiteiten sterk teruggeschroefd (Siemens, Philips, Apple). Maar anderen bleven volop prioriteit geven aan het terrein (IBM) en er kwamen ook grote spelers bij (met name Microsoft).
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 9 van 127
Omwille van instabiliteit in de markt, door overnames en acquisities verandert de situatie bij de kleinere bedrijven continu. 2.1.1
Droom en realiteit, pragmatiek en deeloplossingen
Een aantal van de oorspronkelijke doelstellingen van TST, waarmee grote onderzoeksprojecten met al even grote verwachtingen waren opgezet, zijn nog niet gerealiseerd en worden dat wellicht ook niet in de nabije toekomst. Daarom dienen technologische doelstellingen voortdurend bijgestuurd te worden en op hun realiteitsgehalte te worden onderzocht. Volautomatisch vertalen is misschien zo’n onhaalbaar doel. Hulpmiddelen die vertalers efficiënter laten werken vormen nu de kern van de vertaaltechnologie. Bij de zogenaamde lokalisatie van software of het vertalen van handleidingen voor fabrieksproducten zijn zulke hulpmiddelen inmiddels onmisbaar. Anderzijds kan een efficiënt documentbeheer en een goede organisatie van wat moet worden vertaald een even grote impact hebben op de kosten van het vertalen als het gebruik van dure technologie voor het vertalen zelf. Zogenaamde ‘translation memories’, met het van oorsprong Duitse bedrijf Trados (www.trados.com) als wereldmarktleider, herkennen identieke fragmenten uit reeds vertaalde documenten en vormen een voorbeeld van een pragmatische tussenoplossing voor het vertalen, zolang het uiteindelijke doel niet realiseerbaar is. Inhoudelijk is dergelijke software gebaseerd op eenvoudige patroonherkenning en dan is verdedigbaar dat het niet onder de noemer TST valt. Anderzijds is zo’n translation memory ook te beschouwen als een vertaalwoordenboek waarin complexe termen en hele zinnen zijn opgenomen. Indien het op die manier is omschreven en wordt opgevat, moet het inhoudelijk wel als TST worden ervaren. Het voorgaande voorbeeld is een goede illustratie van het TST-domein zoals het vandaag bestaat. Vooreerst is TST meestal geen doel op zich, maar een deeltechnologie geïntegreerd in een toepassing met behoefte aan TST-componenten. De kwaliteit van de eindtoepassing staat centraal. Alle technologie die hierbij helpt om de TST-problematiek op te lossen is welkom, ongeacht of het rudimentair, heuristisch of wetenschappelijk complex is. 2.1.2
Lerende systemen en de rol van data en statistiek in het TST-gebeuren
TST is technologie die op één of andere manier kennis bevat over taal. Wat die kennis precies inhoudt, is over de jaren heen sterk geëvolueerd. In de aanvangsjaren domineert een aanpak, waarbij een menselijke expert zijn kennis expliciet in een computerprogramma inbrengt. Het alternatief voor deze kennisgebaseerde aanpak, is een statistische aanpak waarin een computer leert uit voorbeelden van taal en spraak. Een statistische aanpak wordt het eerst bepleit voor spraakherkenning door onderzoekers bij bedrijven als IBM en Dragon midden jaren zeventig. Deze statistische aanpak - Hidden Markov Models genoemd - wordt vanaf de jaren ’80 gebruikt en is tot vandaag de toonaangevende methodologie zowel binnen het onderzoek als voor producten. In een statistische aanpak - zoals HMMs - bepaalt de expert een ruw concept en worden de details ‘geleerd’ uit een groot corpus geschreven of gesproken taal. In deze lerende systemen staan expert en data min op meer op gelijke voet. De kwaliteit van de gecreëerde technologie wordt beperkt, enerzijds door de kwaliteit van het model dat door de expert ontwikkeld werd en anderzijds door de kwaliteit van de data waaruit geleerd moet worden. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 10 van 127
Vandaar een continue vraag naar ‘meer en betere data’ ter ondersteuning van die ontwikkelingen. Een bekende uitspraak van één van de pioniers van deze technologie, F. Jelinek, is ‘there is no data like more data’. Sinds lang wordt het einde van het HMM-tijdperk voorspeld, omdat het basisconcept te simplistisch zou zijn en bepaalde inherente tekortkomingen bevat. Een aantal van die tekortkomingen worden door recente ontwikkelingen wel weggewerkt. Tevens is het een uitermate flexibel en schaalbaar instrument gebleken dat optimaal gebruik wist te maken van de groeiende rekenkracht en de bijkomende hoeveelheden data. Daarom vormen HMMs - ondanks alle kwaaltjes - zeker nog voor de nabije toekomst de kern van elke spraakherkenner. De taaltechnologische gemeenschap stond zeer lang weigerachtig tegenover het gebruik van statistische technieken met Noam Chomsky, één van de grondleggers van de moderne linguïstiek, als uitgesproken opposant met een al even bekende uitspraak (1969) ‘It must be recognized that the notion ‘probability of a sentence’ is an entirely useless one, under any known interpretation of this term’. Niettemin zijn sinds een paar jaar ook binnen deze gemeenschap heuristische en statistische aanpakken aanvaard als volwaardige technieken en wordt ook hier het belang van corpora onderkend waaruit deze aanpakken kunnen leren. Dat statistiek eerder zijn intrede maakte in het spraaktechnologisch gebeuren dan in taaltechnologie en er nog steeds een grotere rol speelt, kan enerzijds verklaard worden op basis van inhoudelijke aspecten, maar is zeker evenzeer te verklaren door het feit dat spraaktechnologie zijn wortels heeft in ingenieursfaculteiten terwijl taaltechnologie voor een groot deel ontwikkeld wordt door wetenschappers met een niet-technische achtergrond (taalkundigen, logici). Anderzijds is het ook zo dat formele taalkennis lange tijd meer als een belemmering dan als een hulp voor het spraakherkenningonderzoek werd ervaren, zoals blijkt uit een ander uitspraak van Jelinek(1988) ‘Anytime a linguist leaves the group the recognition rate goes up’. Waar 20 jaar geleden de spraaktechnologische en taaltechnologische gemeenschappen sterk gescheiden leefden met een duidelijk andere visie, zijn de verschillen vandaag veel minder uitgesproken. Statistische en lerende systemen vormen een essentiële bouwblok van TSTtechnologie. Maar deze technieken hebben net zoals kennisgebaseerde technieken hun specifieke beperkingen. De evolutie van de recente jaren gaat zowel voor taal- als spraaktechnologie meer en meer in de richting van een multi-disciplinaire aanpak, waarbij naast het aspect ‘kennis’ ook een essentiële rol is weggelegd voor ‘data’. Waar ‘kennis’ deels taalspecifiek en deels taalonafhankelijk is, is ‘data’ uiteraard 100% taalafhankelijk. 2.1.3
Linguistic Data Consortium , Evaluation and Language Distribution Agency
Corpora en databases spelen dus een immer belangrijker rol in het TST-onderzoek, maar het aanmaken van grote corpora en databases is dermate duur dat de aanmaak voor één onderzoeksproject of voor één toepassing zelden is te verantwoorden. Eind jaren tachtig werd duidelijk dat het probleem van databases op wereldschaal diende te worden aangepakt. Enerzijds moest een oplossing gevonden worden om databases die ooit in het kader van één of ander project waren aangemaakt, niet verloren te laten gaan na afloop van dergelijk project. Anderzijds diende een oplossing gevonden te worden voor projecten - met veelal een tijdelijke structuur - die het aanmaken van data als doel hebben. De ontwikkelaars van de data zijn immers niet noodzakelijk de geschikte entiteit om na de ontwikkeling ook onderhoud en distributie op gang te zetten, bij gebrek aan structuur of relevante kennis. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 11 van 127
Om aan deze problematiek een oplossing te bieden werd in de USA het LDC (Linguistic Data Consortium) opgericht in 1992 en enkele jaren later ELRA (http://www.elra.info/), European Linguistic Resource Association) in Europa. Beide organisaties zijn distributieagentschappen met in de eerste plaats een informatieve en logistieke opdracht. Bij ELRA loopt dat via een daaraan gekoppelde onderneming (ELDA). De rechten van de databases die gedistribueerd worden, blijven over het algemeen bij de oorspronkelijke ontwikkelaars. Zowel LDC als ELRA bieden een ruime waaier van lexica en corpora aan in de meest uiteenlopende talen. LDC heeft naast de distributietaak ook een taak bij productie en beheer. Circa 70% van het budget wordt daaraan besteed. Het mission statement van LDC luidt: ‘The Linguistic Data Consortium is an open consortium of universities, companies and government research laboratories. It creates, collects and distributes speech and text databases, lexicons, and other resources for research and development purposes.’ Het betekent dat TST niet alleen een technologieterrein is geworden met steeds meer de cultuur van een bètaterrein. Het betekent ook dat het net als de sterrenkunde en deeltjesfysica faciliteiten nodig heeft voor zijn verdere ontwikkeling. Wat de telescoop en deeltjesversneller is voor sterrenkundige en fysicus, is de TST-basisvoorziening geworden voor de TST-wetenschapper en de TST-technoloog.
2.2
TST-programma’s van de Nederlandse en Vlaamse overheid
2.2.1
EUROTRA bijdrage voor de Nederlandse taal (1978 – 1993)
Eurotra is een onderzoeksprogramma dat bij uitstek het verschil markeert tussen de niettechnologische wortels van de taaltechnologie en een technologische aanpak. Het is een programma gericht op automatisch vertalen, dat in 1978 geïnitieerd wordt door de Europese Commissie. Alle talen hebben in het programma een gelijke positie en voor elk mogelijk taalpaar voor vertaling is een programmatische component georganiseerd. Nederland en Vlaanderen zijn betrokken bij elk taalpaar waar het Nederlands in voorkomt. Bij de start zijn de universiteiten van Delft en Leuven bij het programma betrokken. Later raakt ook Utrecht betrokken. De financiële basis voor het Nederlandse aandeel, een zogenaamd associatiecontract komt echter moeizaam tot stand zodat het echt grootschalige onderzoek pas start in 1986. Als Spanje en Portugal toetreden tot de Europese Unie wordt de omvang van het programma nog eens aanzienlijk vergroot want het aantal talenparen stijgt door die uitbreiding aanzienlijk. Het financiële volume van Eurotra is dan uiteindelijk (in ECU de voorloper van de euro):
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 12 van 127
Onderdeel
periode
Totaalbedrag
EU
Eurota - basis Eurotra – addendum 1 Eurotra – addendum 2 Bijdrage Utrecht central operations Workshop Transitiecontract Totaal
sept 86 – juni 88 juli 88 – juni 89 juli 89 – dec 90 juli 88 – juni 89
1200 600 945 30
720 360 567 30
mei 1990 juli 91 – juni 93
60 530 3365
60 318 2055
Nederlandse Vlaamse overheid overheid 320 160 252
160 80 126
312 1044
366
Omdat de omvang van dit project volstrekt ongekend is in de wereld van het taalkundig onderzoek laat de Nederlandse overheid het onderzoek onderbrengen in een aan de universiteit van Utrecht gelieerde stichting, de Stichting Taaltechnologie (www-sk.let.uu.nl/stt). Het Vlaamse onderzoek wordt gesitueerd in Leuven. Tijdens de looptijd van het onderzoek worden door de Utrechtse groep samenwerkingsrelaties opgezet met Philips (Rosetta-project), BSO (DLT-project) en Van Dale (binnen een deelproject Lexic). Ook wordt een gezamenlijk project opgezet met Tilburg op het gebied van grammatica’s (Grammer). Internationaal wordt samengewerkt met Essex, Genève en Manchester (het MiMo project). Leuven creëert een samenwerkingsverband met Siemens (METAL-project). Midden 1993 wordt het project beëindigd. Al daarvoor wordt de Utrechtse groep qua personele bezetting aanzienlijk gereduceerd (tot zo’n 30% van de omvang tijdens de piek). Een deel van de onderzoekers verdwijnt naar taalkundige bedrijven of buitenlandse (met name Duitse) universiteiten. Daarmee is de historie van Eurotra aan de universiteit van Utrecht meteen kenmerkend voor die van het vakgebied: moeizaam begin om de financiering rond te krijgen; excellente onderzoeksprestaties (de groepen zijn veelvuldig geprezen); problemen met de status in eigen kring: de Utrechtse groep kreeg ondanks de omvang van de derde geldstroom nooit een hoogleraar van de gastheeruniversiteit; bovendien heeft het onderzoek nauwelijks promoties opgeleverd omdat het (toentertijd) ‘not-done’ was om in een letterenfaculteit te promoveren op iets waarvoor computers werden gebruikt; een serieus probleem met de verankering van resultaten: Utrecht is binnen het huidige Nederlandse TST–onderzoek geen dominante speler meer en de belangrijkste spin-offs van het eens zeer omvangrijke onderzoeksproject zijn het secretariaat dat men vervult voor het Europese Netwerk of Excellence ELSNET en een buitengewoon hoogleraar verbonden aan Scansoft. De Leuvense groep is wel nog altijd erg actief op het gebied van taaltechnologie. 2.2.2
Het Nederlandse programma ‘Analyse en Synthese van Spraak’ (ASSP)
Gedurende 1985 tot eind 1994 liep in Nederland het programma Analyse en Synthese van Spraak als één van de zeven zogenaamde SPIN-programma’s. Het totale budget, ondergebracht bij een landelijke Stichting Spraaktechnologie, bedroeg 10 miljoen gulden. Het programma was bedoeld om de achterstand in Nederland op het gebied van spraaktechnologie in te halen. De belangrijkste deliverable was een goed werkend tekst- en spraaksysteem.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 13 van 127
2.2.3
CELEX (1986 – 2000)
In 1986 wordt CELEX (http://www.kun.nl/celex/), het centrum voor lexicale informatie, opgericht in Nijmegen onder supervisie van vijf onderzoeksinstellingen in Nederland. De financiering is afkomstig uit het Informatica Stimuleringsplan (INSP, 1984-1988) het stimuleringskader waar ook initiatieven als SURFnet uit zijn voortgekomen. Elektronische databanken worden aangelegd voor het Engels, Duits en Nederlands. De CELEX databanken zijn woordenboeken verrijkt onder andere met fonetische en morfologische informatie. Na het uitbrengen van versie 3.1 voor het Nederlands in 1990, waren de verdere uitbreidingen en correcties beperkt. Een laatste online NL versie 3.2 werd uitgebracht in 1998. CELEX als instituut was operationeel tot eind 2000 en verzorgde onder andere een interactieve interface. De databases zijn nog steeds verkrijgbaar op cd-rom via het LDC (3.1 voor het Nederlands) ‘for research purposes only’. De CELEX databases zijn nog steeds veelgebruikte hulpmiddelen voor onderzoek en ontwikkeling. 2.2.4
Het korte-termijnprogramma Spraak- en Taaltechnologie in Vlaanderen (19941997)
Op initiatief van de Vlaamse regering werd een korte-termijn TST-programma (twee jaar, met een budget van ongeveer € 1,2 miljoen) gestart. Binnen dit programma werden naast een drietal onderzoeksprojecten ook drie projecten ter ondersteuning van de taal- en spraakinfrastructuur ondersteund: COGEN (Corpus Gesproken Nederlands): gesproken corpus in het Vlaams met textuele annotatie gericht naar het gebruik voor trainen van automatische spraakherkenningssystemen; FONILEX: Fonetisch woordenboek, geschikt voor Vlaamse TST-toepassingen, in sterke mate de Vlaamse exponent van CELEX; ANNO: een corpus dat is gemaakt op basis van actualiteitenprogramma’s en nieuwsberichten die op de VRT radio zijn uitgezonden in de jaren 90. Tezelfdertijd vraagt de Vlaamse regering een advies aan de Vlaamse Raad voor Wetenschapsbeleid (VRWB) over ‘een mogelijk onderzoeksprogramma in spraak- en taaltechnologie’ (22/03/1994). Op basis van het wetenschappelijk potentieel en het cultureel-technologisch belang van de Nederlandse taal voor de maatschappij wordt een gematigd positief advies verleend om over te gaan tot een langdurige (tienjarige) impuls voor TST in Vlaanderen. Belangrijkste kanttekening die de VRWB maakt, is dat ze onvoldoende tijd kreeg om de studieopdracht uit te voeren. In 1997 kreeg het korte-termijnprogramma een positieve eindevaluatie zowel op inhoudelijk vlak als op basis van samenwerking tussen de verschillende onderzoeksinstellingen. Het langetermijnprogramma werd als dusdanig nooit gerealiseerd. Niettemin kunnen een aantal latere initiatieven als directe of indirecte uitlopers hiervan beschouwd worden, zoals Vlaanderen’s bijdrage aan het CGN (Corpus Gesproken Nederlands) en steun voor de oprichting van de TSTcentrale.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 14 van 127
2.2.5
Het NWO-prioriteitsprogramma in Nederland (1995-2000)
Het NWO-prioriteitsprogramma (http://odur.let.rug.nl:4321/) Taal- en Spraaktechnologie was een vijfjarig onderzoeksprogramma. Het programma had tot doel samenwerking en kennisuitwisseling tot stand te brengen tussen de spraak- en taaltechnologen. Binnen het programma wilde men tezelfdertijd fundamentele vooruitgang boeken binnen het wetenschappelijk domein en als demo een praktische applicatie bouwen, namelijk een Openbaar Vervoer informatiesysteem (voor treinverkeer). Het programma werd gefinancierd door NWO, Philips en KPN. De omvang bedroeg circa € 2,5 miljoen. De onderzoeksactiviteiten waren gespreid over vier instellingen: KUN (spraakherkenning), IPO Eindhoven (dialoogmanagement en spraak output), Universiteit van Amsterdam (statistische taalmodellering) en Universiteit Groningen (conventionele taalmodellering). Binnen het project werd een serie van steeds krachtiger ‘demonstrators’ gebouwd. 2.2.6
Het Corpus Gesproken Nederlands (1998 – 2003)
Het project Corpus Gesproken Nederlands (CGN, 1998-2003) is gericht op de aanleg van een databank van het hedendaagse Standaardnederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. De beoogde omvang van het corpus is circa tien miljoen woorden, waarvan tweederde deel afkomstig is uit Nederland en een derde uit Vlaanderen. In totaal gaat het hierbij om zo'n duizend uren spraak. De basisannotatie omvat de orthografische transcriptie en de verrijking met woordsoortinformatie en lemmatisering. Daarnaast is een selectie van één miljoen woorden meer gedetailleerd geannoteerd. Het CGN-project heeft een totale duur van circa vijf jaar. De officiële startdatum lag op 1 juni 1998. De laatste release wordt verwacht tegen december 2003. Detailinformatie kan gevonden worden op: http://lands.let.kun.nl/cgn/ Het project wordt gefinancierd door de Vlaamse en Nederlandse overheid. Het totale budget bedraagt circa € 4,6 miljoen en wordt voor 1/3 door Vlaanderen en 2/3 door Nederland betaald. De financiering van Nederlandse en Vlaamse instellingenen is strikt gescheiden en wordt gedragen door de respectieve overheden. Projectmatig wordt het CGN wel beheerd als één project. In totaal zorgen zeven kennisinstellingen uit Nederland en Vlaanderen voor de uitvoering van het project. Daarnaast hebben nog meerdere personen uit kennisinstellingen en het bedrijfsleven een actieve rol in de stuurgroepen die de diverse aspecten van het project beheren en sturen. Alle eigendomsrechten op het corpus werden in de loop van het project overgedragen aan de Nederlandse Taalunie. De distributie van het corpus - inclusief de geluidsopnames - wordt verzorgd door ELDA www.elda.fr, een bedrijf onder de ELRA. Het CGN is beschikbaar voor zowel onderzoeks- als commercieel gebruik (onder verschillende voorwaarden). De afronding van het corpus betekent ook dat het beheersvraagstuk dat in paragraaf 2.1.3 werd geschetst, uiterst actueel is.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 15 van 127
2.3
De Nederlandse Taalunie1
Om aan de samenwerking op het gebied van de Nederlandse taal en letteren gestalte te geven hebben het Koninkrijk der Nederlanden en het Koninkrijk België in 1980 een verdrag gesloten, het Verdrag inzake de Nederlandse Taalunie. Met dit verdrag werd de Nederlandse Taalunie (NTU) ingesteld. Volgens de oprichtingsakte behoren tot het werkingsterrein: ‘de taal en letteren als onderwerp van wetenschap, de letteren als vorm van kunst, de taal als communicatiemiddel van de wetenschappen, de taal als medium van de letteren, het onderwijs van de taal en van de letteren en meer in het algemeen, de taal als instrument van maatschappelijk verkeer’. ‘ De concrete doelstellingen en werking worden bijgestuurd in actieplannen met een looptijd van vijf jaar. Naast cultuur, onderwijs en de positie van het Nederlands in de wereld, vinden we nu bij de doelstellingen terug: basisvoorzieningen voor de beschrijving van het Nederlands; een elektronische 'taalinfrastructuur' om de positie van het Nederlands in de internationale informatiemaatschappij te versterken; samenwerking tussen Vlaanderen en Nederland op het gebied van spelling, taalzorg en taaladvisering. 2.3.1
TST-Platform en het Actieplan 1999
In 1997 werd in opdracht van de TU een terreinverkennend onderzoek gestart naar de positie van het Nederlands in taal- en spraaktechnologie (TST). Dit leidde in 1999 tot de oprichting van het TST-platform. Het TST-Platform werd officieel ingehuldigd op 19 april 1999 ter gelegenheid van de technologiebeurs F.T.I.-Technoland. Naast de Nederlandse Taalunie maken de volgende organisaties deel uit van het platform: vanuit Nederland: het Ministerie van Onderwijs, Cultuur en Wetenschappen (OC&W), het Ministerie van Economische Zaken (EZ), NWO en Senter/EG-Liaison; vanuit Vlaanderen: het Ministerie van de Vlaamse Gemeenschap (vertegenwoordigd door de Administratie Wetenschap en Innovatie), het IWT en het FWO-Vlaanderen. Binnen het platform werd ‘Het Actieplan voor het Nederlands in Taal- en Spraaktechnologie’, gelanceerd dat langs de volgende vier actielijnen was opgezet: Actielijn A: Uitbouw van de makel- en schakelfunctie. De belangrijkste doelen waren het bevorderen van samenwerking tussen alle betrokken partijen (bedrijfsleven, kennisinstellingen en beleidsmakers), het vergroten van de bekendheid van TST en het stimuleren van het gebruik van de resultaten van TST-onderzoek door marktpartijen. Actielijnen B&C: Versterking van de digitale taalinfrastructuur en het uitwerken van standaarden en evaluatiecriteria. Actielijn D: Het opstellen van een plan voor beheer, onderhoud en distributie. In deze actielijn moest een blauwdruk worden opgesteld voor het beheer, het onderhoud en de distributie van basistaalmaterialen ontwikkeld met overheidsgeld.
Tekstmateriaal van volgende bronnen werd deels hergebruikt: (1) www.taalunie.nl (2) een Euromap Artikel van C. Cucchiarini en E. D’Halleweyn, beide werkzaam bij de NTU: http://www.hltcentral.org/page-1016.0.shtml 1
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 16 van 127
2.3.2
BATAVO
De actielijnen voor infrastructuur en standaarden [B&C] hebben geleid tot de definitie van een BATAVO (Basis Taalvoorzieningen) voor de Nederlandse taal, zowel voor de taaltechnologie als de spraaktechnologie. De Engelstalige term die hiervoor gebruikt wordt luidt BLARK (Basic Language Resource Kit). Door de beschikbaarheid van de verschillende materialen te analyseren, kan prioriteit worden toegekend aan de ontwikkeling van die onderdelen van de BATAVO's waarvan vaststaat dat ze essentieel zijn maar die vooralsnog ontbreken. Twee prioriteitenlijsten werden ontwikkeld, één voor spraaktechnologie en één voor taaltechnologie. De lijsten werden voorgelegd aan vertegenwoordigers van het hele TST-veld. Na feedback werden definitieve prioriteitenlijsten opgesteld en bij beleidsinstellingen ingediend. Deze zijn samengevat in bijlage 2. 2.3.3
TST-Centrale
Binnen de beheersactielijn [D] werd in 2000-2001 een ‘Blauwdruk voor beheer, onderhoud en distributie van door de overheid gefinancierde digitale materialen’ opgesteld door een team van taaltechnologiedeskundigen aan het Instituut voor Nederlandse Lexicologie. Een van de aanbevelingen in de Blauwdruk geldt het opzetten van een consortium van verschillende taalorganisaties, een zogenaamde TST-centrale, die de infrastructuren combineert die nodig zijn voor verschillende projecten en materialen aanbiedt via één loket. Omdat de Taalunie een permanente Nederlands-Vlaamse infrastructuur vertegenwoordigt en op basis van haar doelstellingen, wil de NTU hierin een leidende rol innemen en toezicht houden op de activiteiten van de TST-centrale. De Taalunie heeft inmiddels voor het beheer en onderhoud van taalmaterialen, die op korte termijn beschikbaar komen € 530.000,- per jaar gereserveerd op de begroting voor de komende vijf jaar (2003-2007). De opzet van het beheer van basisvoorzieningen was geen onderdeel van deze technologieverkenning.
2.4
Aanvraag financiering voor TST uit het IOP-fonds
In het voorjaar van 2003 is een zogenaamde IOP-vragenlijst opgesteld als start voor de onderbouwing van een nieuw IOP op het gebied van TST. De discussie in de Stuurgroep IOP heeft mede geleid tot deze verkenning. Taaltechnologische prioriteiten die werden bepleit in deze notitie: generieke methoden en software voor het voorbewerken van willekeurige teksten; methoden, technieken en software voor de automatische ontleding en interpretatie van zinnen en teksten; geannoteerde corpora. Spraaktechnologische prioriteiten die werden bepleit: automatische spraakherkenning; gesproken corpora. In deze vragenlijst wordt voorgesteld om het volgende type programma te starten in IOP-kader:
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 17 van 127
Fundamenteel: lange termijn gericht 20% van de het volume Dit deel van het onderzoek levert de theoretische basiskennis voor de ontwikkeling van TST. Doordat de fundamentele kennis breed inzetbaar is, kan met een beperkt deel van de totaal beschikbare middelen volstaan worden. Strategisch: middellange tot lange termijn gericht 50% van het volume Dit is het centrale deel van het programma: fundamentele kennis en algoritmen worden geconcretiseerd in een vorm waarin ze toegepast kunnen worden voor het oplossen van generieke problemen. Het strategische onderzoek voedt het fundamentele en het toepassingsgerichte onderzoek en het wordt door die typen projecten ook zelf gevoed en gestuurd. Toepassingsgericht: middellange termijn gericht 25% van het volume In dit deel van het onderzoek worden generieke oplossingen geconcretiseerd tot operationele systemen en diensten die in het laboratorium met proefpersonen en in het veld met ‘echte’ gebruikers getest kunnen worden. Dit deel van het programma wordt in omvang beperkt omdat met name veldtesten de grens van de pre-concurrentiële research naderen. Toegepast: korte termijn gericht 5% van het volume Het korte termijn toepassingsgerichte onderzoek zal grotendeels gefinancierd worden met additionele middelen, bijvoorbeeld via het programma Technologische samenwerking.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 18 van 127
3
Domeinafbakening TST
3.1
Inleiding
In dit hoofdstuk worden termen die veelvuldig voorkomen in taal- en spraaktechnologie, het innovatieproces en het beleidsondersteunend onderzoek nauwer gedefinieerd. Eerst wordt TST als domein omschreven. Daarna worden een aantal begrippen uit de relevante kennisdomeinen toegelicht.
3.2
Domeinafbakening
In de begindagen van taal- en spraaktechnologie werd het onderzoek gedragen door een aantal grootschalige en ambitieuze onderzoeksprojecten die ondubbelzinnig onder de noemer taal- en spraaktechnologie vallen, zoals volautomatisch vertalen en het onbeperkt omzetten van spraak naar tekst of vice versa. Zoals reeds aangegeven bij het historisch overzicht staat deze hoogtechnologische invalshoek wat haaks op de economische realiteit. Bij vele toepassingen met een hoog ‘taal- en spraakgehalte’ ligt de klemtoon niet op de TST-component die er zich in bevindt of is die component uitermate heuristisch en simplistisch van aard. Voor economisch succes is veelal het technologisch platform waarop alles zich afspeelt het belangrijkste, zoals een meertaling documentmanagementsysteem, een platform voor Interactive Voice Response (IVR), et cetera. Twee verschillende fenomenen doen zich hier voor. 1. Er is heel wat technologie aan de rand die met akoestische signalen of documenten omgaat, maar waarbij de taalkundige inhoud van de boodschap niet centraal staat. Deze technologieën zijn misschien geen TST op zich, maar zijn wel noodzkelijke componenten om volledige toepassingen te bouwen. Voorbeelden hiervan zijn: spraakcodering, spraakmanipulatie (dit valt eerder onder ‘signaalverwerking’); document processing & management voor zover het enkel betrekking heeft op formatteren, beheer, et cetera; telefonieplatformen voor het opzetten van call centers; ... 2. Voor generische (complexe) TST-componenten bestaan veelal kwalitatief evenwaardige alternatieven geschoeid op eenvoudiger technologie op voorwaarde dat de eisen gesteld door de toepassing beperkt zijn. De technologische onderbouw van die alternatieve componenten berust in grote mate op pragmatiek en/of statistiek, waarbij weinig diepgaand inzicht in taal of taaltechnologie vereist is. Kiezen voor deze alternatieve technologieën in plaats van generisch beschikbare TST gebeurt op basis van kwaliteit, prijs, beschikbaarheid, .... Voorbeelden van deze technologieën zijn: spraaksynthese via concatenatie van woorden; vertaalgeheugens gebaseerd op taalonafhankelijke patroonherkenning ; zoekmachines gebaseerd op taalonafhankelijke patroonherkenning; ...
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 19 van 127
Voorgaande discussie suggereert volgende mogelijke - doch vrij strikte - definitie voor TST: ‘TST is Technologie die omgaat met geschreven of gesproken taal en waarbij kennis van één specifieke taal of een groep van talen een essentiële rol speelt. Hierbij is het irrelevant of die kennis via een expert of via een lerend proces verworven is.’ Bij dergelijke strikte definitie zijn de hierboven beschreven categorieën 1 & 2 strikt genomen geen ‘TST’. Daarentegen spelen ze wel een cruciale rol als technologische component of platform in de sectoren die TST gebruiken. Bij een economische analyse van de volledige sector (inclusief toepassingen) kunnen ze niet uit het oog worden verloren.
3.3
Begrippenkader
Eén van de onderliggende problemen bij het opstellen van het begrippenkader is dat één en hetzelfde woord, meerdere betekenissen kan hebben. Een mooi voorbeeld hiervan is een uitspraakwoordenboek. Enerzijds is het een basisvoorziening die bij de ontwikkeling van heel wat TST-componenten een rol speelt. In elektronische vorm en met de nodige interfaces is het een halffabrikaat dat ingebouwd kan worden in een tekst-naar-spraak of spraakherkenningsmodule die op zijn beurt weer een halffabrikaat is dat ingebouwd wordt in een interactive voice response systeem. Tenslotte, op cd of in gedrukte vorm is het een commercieel product. De oorsprong van dergelijk multi-functionele termen is meestal inhoudelijk, de rol in het economisch proces moet dan van uit de context blijken. 3.3.1
Basisbegrippen en kennisdomeinen
In de TST komen heel wat kennisgebieden bijeen. Inhoudelijk worden ze hier kort beschreven. Voor een belangrijk deel betreft het uiteraard domeinen die uit de klassieke taalkunde stammen. Fonologie, grafemen en fonemen: bij fonologie gaat het om de uitspraak van woorden en zinnen en de regels op basis waarvan bepaald wordt hoe een woord wordt uitgesproken. Een foneem is de kleinste klankeenheid in gesproken taal, een grafeem is een letter of lettercombinatie die de bouwstenen zijn van geschreven taal. Prosodie: dit heeft te maken met informatie die wel in de akoestische signalen voorkomt, maar niet in geschreven taal zoals melodie, intonatie, accenten, pauzes, et cetera. Morfologie: gaat op zoek naar de interne structuur van eenvoudige en complexe woorden. Het gaat daarbij om samenstellingen, maar ook om voor-, achter- en tussenvoegsels. Syntax: bij het bepalen van de syntax gaat het om de interne structuur van zinnen zoals die voorkomt in natuurlijke taal. Lexicologie: studie naar de manier waarop taalkundige elementen (woorden, morfemen) in een lexicon moeten worden opgeslagen voor taalkundige analyse. Semantiek heeft betrekking op de betekenis van woorden, zinnen en teksten. Pragmatiek: kennis van de wereld rondom ons. Wanneer we omgaan met gesproken taal komen daar nog een aantal specifieke domeinen bij: digitale signaalverwerking: het manipuleren van gedigitaliseerde spraaksignalen vooral voor frequentieanalyse, parameterextractie, ruisonderdrukking; Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 20 van 127
psycho-akoestiek: legt verbanden tussen signalen en menselijke perceptie. Uiteindelijk maakt TST ook gebruik van kennis uit andere domeinen die heel behulpzaam zijn in het leggen van verbanden tussen al die verschillende linguïstische representatieniveaus. Statistiek / statistische patroonherkenning: statistische patroonherkenning is een aanpak waarbij een herkenningssysteem leert uit voorbeelden. De expert die het systeem ontwerpt dient enkel een vaag concept uit te werken. De parameters in het systeem worden volautomatisch aangeleerd. Statistische patroonherkenning bevat heel wat generische technieken. Het toepassen op taalkundige problemen stelt dermate specifieke eisen dat het gebruik van statistiek in het kader van taal- en spraak specifiek nieuwe kennisdomeinen heeft doen ontstaan. Spraakherkenning: voor de akoestische patroonherkenning wordt gebruikgemaakt van Hidden Markov models. Statistische taalmodellen: modelleren taal als een statistisch proces (met of zonder enige klassieke syntactische kennis als onderdeel van het geheel). Oorspronkelijk werden ze ontwikkeld als hulpmiddel bij spraakherkenning, maar nu worden ze ook toegepast bij automatisch vertalen en taalanalyse. 3.3.2
Data
Dataverzamelingen zijn noodzakelijk voor het ontwikkelen van taal- en spraaktechnologische toepassingen. Er worden verschillende soorten dataverzamelingen onderscheiden. Lexicons beschrijven woorden, morfemen, uitdrukkingen et cetera die in een taal voorkomen, aangevuld met taalkundige verrijkingen die van belang zijn voor de verwerking. Voorbeelden van verrijkingen zijn fonetische transcriptie, opdeling in lettergrepen, morfologische analyse, syntactische categorie enzovoort. Er zijn ook meertalige lexicons voor vertaaldoeleinden. Thesauri of semantische netwerken bevatten woorden met hun betekenisrelaties, in een hiërarchische of netwerkstructuur. Corpora zijn grote verzamelingen tekst of spraakopnamen, meestal verrijkt met taalkundige beschrijvingen (fonetische transcriptie, morfologische structuur, woordsoort, syntactische structuur van zinnen). Er zijn verschillende soorten corpora, zoals spraakcorpora, multilinguale corpora (meerdere talen), multimediale corpora (mix van audio, video, tekst, plaatjes). Bij al deze data kunnen we een onderscheid maken tussen: generische databases: dit zijn voorzieningen gericht op het doorsnee gebruik van een taal en alle frequent voorkomende woorden en constructies; domeinspecifieke (of toepassingsgerichte) databases: dit zijn voorzieningen die heel nauw aanleunen bij een bepaald domein, bijvoorbeeld medische terminologie of nog specifieker radiologie. Verder kan een onderscheid gemaakt worden tussen twee soorten corpora: corpora die bedoeld zijn om automatisch patronen af te leiden in lerende systemen; testsuites en testcorpora, die gebruikt worden voor evaluatie en benchmarking van spraak- en taaltechnologische toepassingen, modules en data.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 21 van 127
3.3.3
Regels en grammatica’s
Regels en grammatica’s vormen de kennis die als input dient om taalkundige bewerkingen te kunnen doen met TST-modules. Een morfologische parser bijvoorbeeld kan gevoed worden met regels voor het Nederlands of het Engels. Overigens zijn regels en grammatica’s niet altijd expliciet; vaak zijn ze ingebouwd in taalkundige modules of is de kennis opgeslagen in lexicons. TST-regels zijn er op vrijwel alle TST-deelgebieden: fonologische regels voor grafeem-foneem omzetting; grammatica’s voor syntactische analyse; morfologische regels; et cetera. 3.3.4
Modules en basiscomponenten
Gesproken taal kunnen we op verschillende niveaus voorstellen, gaande van het signaal over het woordniveau tot het conceptniveau. Basiscomponenten uit de TST analyseren op een bepaald niveau of leggen verbanden tussen de verschillende niveaus of zijn hulpmiddelen hierin. De voorstelling op verschillende niveaus mag echter geenszins geïnterpreteerd worden als een eenvoudig gelaagd model. Daardoor werken vele basiscomponenten over vele niveaus heen en niet steeds op dezelfde consequente wijze. In onderstaand schema is weergegeven op welke onderdelen van taal- en spraakherkenning en – synthese en op welke representatieniveaus de verschillende componenten betrekking hebben:
analyse
taaltechnologie synthese analyse
spraaktechnologie gesproken taal
signalen
fonemen
grafemen
morfemen
woorden, begrippen
zinnen
teksten
grafeem-foneemomzetting tekstvoorverwerking morfologische analyse morfo-syntactische disambiguering syntactische analyse semantische analyse prosodiegeneratie prosodieherkenning foneem-grafeemomzetting spraaksynthese spraakherkenning foonstringherkenning sprekerherkenning taal en dialectidentificatie corpora semantisch netwerk, thesaurus lexicon
statistiek, heuristiek
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 22 van 127
We onderscheiden op het gebied van taaltechnologie de volgende basiscomponenten. Grafeem-foneemomzetting: het omzetten van de schrijfwijze van een woord naar de klankrepresentatie. In feite ligt dit meer op het gebied van de spraaktechnologie, maar er zijn ook typisch taalkundige toepassingen waarin spraak geen rol speelt (het zoeken van namen op klank). Tekstvoorverwerking: het voorbewerken van een tekst, bijvoorbeeld door het detecteren van zinsgrenzen, datums, eigennamen, tijdstippen, afkortingen, et cetera. Morfologische analyse: afleiden van de interne structuur van complexe woorden. Een belangrijk onderdeel is de morfosyntactische disambiguering: i.e., bepalen van de juiste morfologische variant op basis van de context in een zin (vóórkomen versus voorkómen). Syntactische analyse: achterhalen van de syntactische structuur van zinnen. Semantische analyse: analyseren van de betekenis van een zin of een tekst. Tekstgeneratie: generatie van tekst op basis van een interne representatie, bijvoorbeeld een tabel. Op het gebied van spraaktechnologie maken we een onderscheid tussen de volgende componenten: spraaksynthese: omzetten van geschreven tekst in gesproken taal; spraakherkenning: omzetten van gesproken taal in geschreven taal; foneem-grafeemomzetting: het omzetten van gesproken in geschreven taal, hierbij komen allerlei zaken zoals foonstringbewerking, segmenteren et cetera kijken; prosodiegeneratie: genereren van intonatiepatronen; prosodieherkenning: analyseren van intonatiepatronen; sprekerherkenning: herkenning wie er aan het woord is; taal- en dialectidentificatie: vaststellen van taal, dialect en spraak. Spraakherkenning en spraaksynthese zijn zeer veel omvattende componenten bestaande uit kleinere modules. Sommige van die modules, zoals een grafeem-foneem omzetter of fonetisch woordenboek, zijn relatief onafhankelijk van de rest van het systeem en kunnen beschouwd worden als een plug-in module. De meeste submodules werken echter sterk in parallel. Bijvoorbeeld hoewel spraakherkenning intern fonemen als representatieniveau gebruikt, kan het niet opgesplitst worden in de concatenatie van een foneemherkenner (op basis van akoestisch signaal) en een woordherkenner (op basis van herkende fonemen). Door de nauwe samenwerking tussen de modules is het verre van triviaal (meestal gewoon onmogelijk) om de afzonderlijke modules uit één systeem te lichten en in te pluggen in een ander systeem. Het al dan niet aanwezig zijn van bepaalde modules zal het gedrag van het globale systeem beduidend beinvloeden; in die context spreken we dan van: robuuste spraakherkenning: spraakherkenning met achtergrondgeluiden; non-native spraakherkenning: technieken om spraakgebruik van non-natives te herkennen; adaptatie: aanpassing van het herkende signaal op basis van de spreker en op basis van lexicons; betrouwbaarheidsmaten: schattingen van de waarschijnlijkheid dat een oplossing correct is. 3.3.5
Samenhang tussen de verschillende soorten basisvoorzieningen
Er zijn twee manieren voor de ontwikkeling van componenten en modules die het verband leggen tussen verschillende representatieniveaus. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 23 van 127
Een ontwikkeling waarbij gebruik wordt gemaakt van taalkundige regels en taalkundig inzicht (de kennisgebaseerde of deductieve benadering). De in paragraaf 3.3.3 genoemde grammatica’s worden daarbij handmatig opgesteld en vormen de basis voor een taalkundige analyse. Op basis van grote hoeveelheden data (corpora), al dan niet voorzien van taalkundige verrijking, worden automatisch regels en patronen afgeleid (de statistische of inductieve benadering). Deze worden vervolgens weer gebruikt voor taalkundige analyse. Een groot voordeel van de eerste methode is dat de afgeleide regels eenvoudig interpreteerbaar zijn. Het blijkt echter verre van triviaal onze intuïtieve kennis van taal te formaliseren. In een testfase blijken regels veelal te generaliserend of te beperkend. Het grote voordeel van de statistische aanpak is dat de expert enkel dient om het framework te schetsen en dat de details geleerd worden in een trainingsfase. Het leidt veelal tot beter generaliserende systemen dan regelgebaseerde. De interne datastructuren zijn echter moeilijk of niet interpreteerbaar en daardoor soms al evenmin herbruikbaar over verschillende toepassingen. De keuze voor regelgebaseerd of statistisch is afhankelijk van de component en de uiteindelijke toepassing. Veelal zal een volledig systeem componenten bevatten die via de verschillende ontwikkelingsprocessen zijn ontstaan. Een mogelijke relatie tussen de verschillende TST-basiscomponenten wordt in onderstaand plaatje geschetst: Vergelijkende analyse
Leer Corpus verrijkt
output
Test Corpus kaal
Test Corpus verrijkt
Vergelijking Leer Corpus kaal
Prototype TST component
score
TST component output
tuning
3.4
Taal Regels
lexicon
Terminologie gebruikt in het BATAVO-document
Het BATAVO-document definieert ‘BAsis TaalVOorzieningen’. De definitie van specifieke termen is daarin sterk gelijklopend met de definities omschreven in 3.3.2, 3.3.3 en 3.3.4. Het dient wel aangestipt dat het BATAVO-plan niet enkel data omvat maar ook het maken van regels en grammatica’s uit 3.3.3 en componenten uit 3.3.4.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 24 van 127
In die zin wijkt de definitie af van de courante interpretatie van de Engelse term Language Resources die enkel op de data slaat uit 3.3.2.
3.5
Toepassingen
In deze paragraaf worden een aantal toepassingen van taaltechnologie respectievelijk spraaktechnologie kort toegelicht. Deze worden telkens gegroepeerd volgens gangbare marktsegmenten. Het is evident dat in bepaalde systemen meerderen van deze elementaire toepassingen gebruikt kunnen worden. 3.5.1
Taaltechnologie
3.5.1.1
Hulpmiddelen voor Tekstverwerking
Dit zijn de meest alledaagse voorbeelden van taaltechnologie. Spellingcheckers zijn een echte commodity en typisch, van vrij goede kwaliteit. Grammatica- en stijlcheckers zijn ook ingebouwd in de meeste standaard tekstverwerkingspakketten, maar leveren niet dezelfde gebruikerstevredenheid. Optical Character Recognition (OCR), het herkennen van een grafische weergave van tekst na bij voorbeeld scannen, kan zonder taaltechnologie, maar de beter presterende applicaties hebben minimaal een beperkte TT-component. Gedacht kan dan worden aan een lexicon, of een eenvoudige parser voor desambiguering bij twijfelgevallen. Het automatisch herkennen van de taal waarin een document is geschreven is een technologie die in deze sfeer, maar ook hierbuiten, de meeste toepassing vindt. 3.5.1.2
Toegang tot (on)gestructureerde informatie
Zoekmachines op het internet zijn in eerste instantie gebaseerd op eenvoudige patroonherkennigstechnieken. Als resultaat worden alle documenten gevonden die een of meerdere woorden van de zoekopdracht (letterlijk) bevatten. Tekstretrieval is een toepassing waar stilaan overgestapt wordt van naïeve patroonherkenning naar het incorporeren van taaltechnologie. Hierbij wordt dan gebruikgemaakt van semantische analyse en semantische netwerken/thesauri in combinatie met statistische methoden, en in mindere mate van morfologische, morfosyntactische en syntactische analyse. Zoekmachines voor intranet of beperkte domeinen kunnen geoptimaliseerd worden voor de specifieke taak waarvoor ze ontworpen worden. Voor die beperkte toepassing leveren ze dan beduidend betere resultaten dan de generische machines. Bij die optimalisatie wordt zowel gebruikgemaakt van taaltechnologie als statistieken afgeleid van taakspecifiek materiaal. Retrieval / matching van NAW (naam, adres, woonplaats) gegevens is een heel specifieke zoekrobot omdat veelal gezocht wordt op patronen waarvan men wel de uitspraak kent, maar niet de juiste schrijfwijze. Door combinatie van patroonherkenning en taaltechnologie, i.c. gespecialiseerde grafeem-foneemomzetting voor eigennamen, kan de performantie aanzienlijk verbeterd worden over naïeve patroonherkenning alleen.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 25 van 127
3.5.1.3
Multilinguale Informatiecreatie en -verwerking
Vertaalsoftware. Het volautomatisch vertalen van volledig willekeurige teksten geeft onvoldoende kwaliteit om echt bruikbaar te zijn in een multilinguaal databasesysteem. Indien beperkt tot eenvoudige alledaagse zinnen of een beperkt toepassingsdomein leveren de systemen wel afdoende resultaten en kunnen ze fungeren als een interessant hulpmiddel, bijvoorbeeld bij het aanleren van een nieuwe taal. Vertaalhulpmiddelen, multilinguale contentmanagement. In de professionele vertaalmarkt is de aandacht verschoven van volautomatisch vertalen naar hulpmiddelen voor de professionele vertaler. Deze omvatten specifieke woordenboeken, vertaalgeheugens en eventueel ook een volledig automatische component. Belangrijk in deze context is ook stijlchecking software die ervoor moet zorgen dat de te vertalen documenten enkel eenduidige en eenvoudig te vertalen constructies bevatten (bijvoorbeeld Simplified English zoals ontwikkeld door Boeing). Documenten die aan deze vrij restrictieve normen voldoen zijn dan ook geschikt voor volautomatisch vertalen. De focus is voor een deel verlegd van vertalen naar vertaalbaarheid. In dezelfde sfeer, maar meer organisatorisch van aard is de software die ervoor zorgt dat dezelfde content hergebruikt kan worden tussen verschillende publicatietypes (bijvoorbeeld website, rapporten, publicaties) en daardoor slechts één keer dient vertaald te worden. 3.5.1.4
Taalleren (CALL)
Softwarepakketten voor het aanleren van nieuwe talen bevatten in grote mate nog voorbereide oefeningen. Het incorporeren van taaltechnologische componenten opent belangrijke nieuwe mogelijkheden. Ook spraaktechnologie wordt veelvuldig geïncorporeerd in deze pakketten. 3.5.2
Spraaktechnologie
3.5.2.1
Telefoniegebaseerde Informatiesystemen
Het betreft toepassingen waarin de gebruiker via zijn telefoon snel toegang zoekt tot informatie, een persoon of een dienst. Call centers (IVR) zijn gecentraliseerde punten waar men informatie kan bekomen over producten en diensten van bedrijven. Eenvoudige diensten kunnen volledig geautomatiseerd worden. Indien er slechts informatie over een heel beperkt aantal topics moet verstrekt worden kan de sturing gebeuren met DTMF-toetsen en kan de informatieboodschap vooraf ingesproken zijn. Indien het dynamische informatie betreft die vanuit een database wordt betrokken, is één of andere vorm van spraaksynthese onontbeerlijk. Naarmate de toepassing complexer wordt, wordt sturing via een menustructuur storender voor de gebruiker en wordt de vraag naar spraakherkenning groter. Deze diensten zijn soms puur informatie, maar kunnen eveneens transacties bevatten, bijvoorbeeld bij het kopen van tickets voor evenementen of vervoer. Een back-up naar een human operator wordt meestal voorzien voor complexere vragen en transacties om personen te helpen die om één of andere reden met het automatisch systeem niet overweg konden. Een volledig geautomatiseerd Call Center heeft het grote voordeel van 24hr/24hr beschikbaarheid.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 26 van 127
Hoeveel van de respons automatisch en hoeveel via een menselijk operator wordt afgehandeld hangt heel sterk af van de toepassing en kan omzeggens variëren van 0 tot 100%. Toepassingen van geautomatiseerde Call Centers zijn zeer uiteenlopend. Bekende voorbeelden zijn: reisinformatiesystemen, het opvragen van telefoonnummers van abonnees bij de operatoren, het opvragen van beurscijfers. Een automated attendant is de eerstelijns toegang tot een bedrijf waarbij men doorgeschakeld wordt naar de gewenste persoon en/of dienst of naar een operator. Een business portal is de eerste lijnstoegang tot een bedrijf waarbij zowel informatie kan verstrekt worden als waarbij een doorschakelfunctie wordt voorzien (in zekere zin een mengeling van automated attendant met een aantal call center functies). Het bedienen van informatiekiosken op openbare plaatsen loopt misschien niet via een klassieke telefoon, maar via een ingebouwde microfoon. Qua type applicatie is het echter heel gelijklopend met de telefoniegebaseerde toepassingen en kan daarom best onder deze categorie geplaatst worden. 3.5.2.2
Dicteer- en transcriptietoepassingen
Het aanmaken van documenten op een pc met spraak is de belangrijkste toepassing van spraakherkenning met groot vocabularium. Complexere toepassingen zijn hier mogelijk, omdat de computer zijn modellen kan aanpassen aan de spreker en omdat de audio-input een goede kwaliteit heeft. De kwaliteit van de generische producten is nog beperkt en vereist een grote gebruikersdiscipline om van een echt nuttig gebruik te kunnen spreken. Er zijn twee mogelijkheden om de kwaliteit van de systemen verder te verbeteren: (i) werken met gebruikers die de gewoonte hebben te dicteren en (ii) de toepassing beperken (i.e. specifieke taalmodellen maken) voor subdomein Deze aanpak is succesvol voor een aantal doelgroepen zoals radiologen, advocaten, politiediensten, et cetera Naast het aanpassen van de taalmodellen aan deze 'verticale markten' is er tevens vraag naar integratie van de technologie in een ruimer informatiseringsproces, vooral in de medische sector. 3.5.2.3
Consumentenmarkt
Command & Control / Data-entry Typisch spreken we over spraakherkenning voor de 'handsvrije' bediening van autonome systemen (veelal met heel beperkte computercapaciteit). Een klassieke toepassing is de bediening via stem van een telefoon of een navigatiesysteem in de wagen. De bediening van een telefoon kan met een beperkte rudimentaire interface; de bediening van een navigatiesysteem vereist enerzijds een groot vocabularium eigennamen en ook een veel complexere interface. Het 'handsvrij bedienen' van apparatuur moet ruim geïnterpreteerd worden. Hieronder verstaan we ook het invoeren van codes van producten die in of uit stockage worden geplaatst, et cetera Sprekende Woordenboeken ‘Speak & Spell’, een sprekend woordenboek op de markt gebracht 25 jaar geleden, was zonder twijfel één van de eerste grote commerciële toepassingen van spraaksynthese. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 27 van 127
Sprekende woordenboeken vormen nog steeds een belangrijke afzetmarkt voor spraaksynthese en zijn vooral populair in het verre Oosten. 3.5.2.4
Audio search & retrieval
Het zoeken in databases van gesproken documenten (bijvoorbeeld films, reportages,...) op basis van specifieke woorden (bijvoorbeeld eigennamen) of een specifieke problematiek (bijvoorbeeld tweede wereldoorlog). 3.5.2.5
Toepassingen van spraaktechnologie die geen ‘taligheid’ vereisen
Er zijn belangrijke toepassingen van spraaktechnologie die geen ‘taligheid’ vereisen en daarom ook niet de kern uitmaken van dit rapport. Ze worden heel kort geschetst ter volledigheid. Verder komen ze echter niet meer aan bod. Spraakcodering is de meest mature van alle spraaktechnologieën. Het prototype voorbeeld is vanzelfsprekend de draagbare telefoon. Sprekerherkenning kan gebruikt worden voor authentificatie. Omdat de stem niet zo eenduidig is als vingerafdrukken of een IRIS-scan is sprekerherkenning (alleen) niet bruikbaar voor de meest veeleisende toepassingen. Anderzijds is de interface eenvoudig en goedkoop voor dagelijks gebruik, sociaal veel acceptabeler dan bijvoorbeeld vingerafdrukken. Sprekerherkenning binnen een kleine groep personen werkt heel goed en wordt gebruikt binnen spraakherkenningssystemen die input van meerder sprekers moeten verwerken om het spreker-adaptatieproces te sturen. Ruisonderdrukking, echo-onderdrukking maken gebruik van klassieke signaalverwerkingstechnieken om de kwaliteit van een spraaksignaal te verbeteren. Ze zijn essentiële componenten in vele spraakherkenningstoepassingen. Om optimaal te werken voor spraak is een ruw model van spraak vereist, dat dan optimaliter taalonafhankelijk moet zijn.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 28 van 127
4
Gelaagd model voor het TST-innovatiesysteem
4.1
Het TST-innovatieproces als gelaagde keten
Het innovatieproces voor taal- en spraaktechnologie (TST) kunnen we weergeven als een gelaagde keten met vier lagen. Vraagzijde TST-technologie
Randvoorwaarden en infrastructurele condities
Makelaars, advies en voorlichting
Onderwijssubsysteem
LAAG 4: gebruiker
Afname van producten en diensten met embedded TST
Aanbodzijde TST-technologie LAAG 3: TST-embedding
Fundamenteel TST-onderzoek
Strategisch TST-onderzoek
Toegepast onderzoek met TST afhankelijkheden
Toegepast TST-onderzoek
Strategische basisvoorzieningen
TST-integratie bij product- en platform ontwikkeling
Maken van TST-modules en halffabrikaten
Productgerichte basisvoorzieningen
Ontwikkeling van applicaties met embedded TST
LAAG 2: TST-onderzoek en ontwikkeling
LAAG 1: TSTbasisvoorzieningen
Afstand tot de markt
Langs de horizontale as staat de afstand tot de markt uit met spelers in de keten die dichter of verder van de markt afstaan. Verticaal zijn de volgende lagen te onderscheiden: de basistaalvoorzieningen, maar uitdrukkelijk beperkt tot de data zelf en het aanmaakproces ervan; TST-onderzoek en ontwikkeling wat uiteindelijk resulteert in commercieel beschikbare TSTcomponenten; TST-embedding; de vraagzijde. Lagen 1-3 vormen samen het aanbodsysteem. Ondanks de grote verscheidenheid in TST-producten voldoet dit algemene schema in ruime mate. Algemeen gesteld is er tussen de verschillende lagen en de verschillende posities in de keten een intense interactie voor nagenoeg alle producten en diensten. Naargelang product of dienst kan er wel een groot verschil zijn tussen de relatieve impact van de verschillende lagen of bepaalde blokken en bestaande actoren zijn niet persé beperkt tot één ketenpositie of één laag.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 29 van 127
Laag 1. TST-basisvoorzieningen In het BATAVO-rapport worden zowel data (lexicons, thesauri en corpora) als modules (parsers, tools voor tekst voorverwerking et cetera) tot de basistaalvoorzieningen gerekend. In dit rapport hebben we ervoor gekozen alleen data (lexicons, thesauri, corpora zoals beschreven in paragraaf 3.3.2 van dit rapport) in de onderste laag te situeren. Modules worden gelokaliseerd in laag 2. Strategische basisvoorzieningen zijn generisch van aard (voor een bepaalde taal) en veralgemenend. Ze zijn essentieel zowel voor het onderzoek als voor een brede waaier van productontwikkelingen. Vanaf het begin is herbruikbaarheid over een langere periode een kwalificatie die nagestreefd wordt. Omdat ze generisch en multifunctioneel moeten zijn, worden ze veelal verrijkt met heel wat details. Anderzijds zullen ze omwille van hun generisch karakter nooit allesomvattend zijn. Strategische basisvoorzieningen bevinden zich zowel in de not-forprofit als commerciële sfeer. Veelal worden ze beschikbaar gemaakt op de markt. Productgerichte basisvoorzieningen richten zich naar specifieke toepassingsdomeinen (bijvoorbeeld thesauri van medische terminologie), soms tot één enkel product. Productgerichte basisvoorzieningen bevinden zich hoofdzakelijk in de commerciële sfeer en worden veelal aangewend voor strikt intern gebruik. Werk dat niet strikt noodzakelijk is in een korte-termijnstrategie wordt door die commerciële partijen vermeden. Laag 2. TST-onderzoek en ontwikkeling De componenten kunnen onderverdeeld worden in twee klassen. Modules zijn componenten die verdere ontwikkeling ondersteunen. Het is technologie in ruwe vorm met beperkte interfaces, documentatie, et cetera. De gebruiker is dus bij voorkeur een andere TST-expert die de zwaktes kan relativeren en weet te omzeilen. Modules zullen veelal puur ondersteunend werken in het ontwikkelingsproces van een andere TSTcomponent. Anderzijds kunnen ze ook dienen als basistechnologie waaruit een commercieel product wordt ontwikkeld. Halffabrikaten zijn afgewerkte producten die klaar zijn voor integratie in andere halffabrikaten of rechtstreeks in eindproducten. De klant is mogelijk een andere TSTontwikkelaar die deze module in een groter geheel inbouwt, maar wellicht frequenter is het een niet-TST-specialist die deze kant-en-klare module in zijn toepassing inbouwt. Bij een beperkt aantal producten is taal en spraak de kern van het product zelf: bijvoorbeeld bij woordenboeken of dicteersoftware. In de overgrote meerderheid van de toepassingen vormt TST slechts een component(je) van een veel groter geheel en soms is de eindgebruiker zich weinig bewust van de onderliggende technologie. Voorbeelden zijn legio: spellingcheckers in wordprocessors; spraaksynthese die gebruikt wordt om informatie die is opgeslagen in een database weer te geven over de telefoon; spraakherkenning die een informatiesysteem of een boekingssysteem stuurt. In deze laag horen thuis: de regels en grammatica’s zoals die zijn omschreven in paragraaf 3.3.3; en de componenten beschreven in 3.3.4 van dit rapport. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 30 van 127
Laag 3. Applicatieontwikkeling Laag 3 heeft betrekking op de ontwikkeling van toepassingen voor eindgebruikers waarin gebruikgemaakt wordt van een of andere TST-component. Verschillende toepassingen werden beschreven in 3.3.5. Het profiel van de integratoren is zeer uiteenlopend. Het betreft onder meer: integratoren in de telefonie (Logica-CMG, VOXTRON) die werken in opdracht van de dienstensector (bijvoorbeeld banken, openbaar vervoer, telecom operatoren); ontwikkelaars van consumenten en/of professionele apparatuur (Philips, Nokia, Bosch, Siemens); softwareontwikkelaars (contentmanagement, tekstverwerking, vertaler workbenches, taalleersoftware) et cetera. Ter illustratie van het volledige proces is de generieke bovenstaande figuur uitgewerkt voor het toepassingsdomein tekst retrieval, waarbij voor de leesbaarheid niet alle mogelijk bruikbare taalkundige basiscomponenten zijn opgenomen. Randvoorwaarden en infrastructurele condities
Onderwijs-subsysteem
Afname van producten en diensten met embedded TST
Makelaars, advies en voorlichting
Retrieval voorbeeld Verbetering van retrieval door gebruik van semantiek
LAAG 3: TST-embedding
semantische modellen, parsers
kwaliteit semantische analyse, benchmarking
gebruik van statistiek en semantiek voor classificatie en informatie-extractie
corpora, lexicons, taalpaarcombinaties, semantische netwerken, thesauri
TST-integratie bij product- en platform ontwikkeling
informatie-extractie, automatische classificatie, vaststellen brontaal, dialooganalyse
taalpaarcombinaties, thesaurus, semantisch netwerk, afgestemd op het domein
Content Management Systeem, Document Management Systeem
LAAG 2: TST-onderzoek en ontwikkeling
LAAG 1: TST-basisvoorzieningen
Afstand tot de markt
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 31 van 127
4.2
De actoren in de gelaagde keten
4.2.1
Type spelers bij aanmaak van de basisvoorzieningen (laag 1) Publieke producenten van basisvoorzieningen: leggen zich toe op generische bestanden. Benadrukt moet worden dat publieke kennisinstellingen vaak wel interesse hebben in de BESCHIKBAARHEID van deze voorzieningen, maar niet persé in de PRODUCTIE ervan. Het type werk (‘monnikenwerk’) wordt in de regel wel door wetenschappers begeleid maar niet uitgevoerd. Het vormt geen zelfstandig onderwerp voor een AIO om een proefschrift op te baseren. Private partijen: deze hebben vaak bestanden gericht op een specifiek marktsegment en opereren dan in een niche markt. Sommige commerciële basisvoorzieningen zijn wel generiek (bijvoorbeeld van de makers van woordenboeken) maar dat zijn uitzonderingen.
4.2.2
Type spelers in het TST-ontwikkelingsproces (laag 2 en laag 3) Kennisinstellingen: leggen zich toe op fundamenteel en strategisch onderzoek, dat echter steeds moeilijker is uit te voeren zonder goede basisvoorzieningen. In verticaal geïntegreerde projecten kunnen kennisinstellingen rechtstreeks werken met ontwikkelaars van producten en diensten en zelfs feedback krijgen van eindgebruikers. De mogelijkheden voor zulke verticaal georiënteerde projecten zijn sterk taalafhankelijk. TST-componentenbouwers: zij leveren halffabrikaten. Veelal zijn ze specialist in één of meerdere onderdelen van het TST-gebeuren. TST-componenten worden gelicentiëerd aan platformbouwers of rechtstreeks aan integratoren. Componentenbouwers maken gebruik van publieke basisvoorzieningen of private bestanden die ze al dan niet in huis aangemaakt hebben. Applicatieontwikkelaars: kopen platformen en TST-componenten en maken daarmee producten in eigen beheer of in opdracht, maar in elk geval in functie van wat door de markt gevraagd wordt. De toepassing staat centraal: soms is TST hierin een essentiële component, soms is het slechts een ‘feature’.
4.2.3
Type spelers in het commercialisatieproces (laag 3 en 4) Platformbouwers: leveren de hardware en/of software waarin TST ingebouwd moet worden. Voor hen is TST interessant in de mate waarin het de eigen commerciële positie kan verbeteren. Indien TST interessant lijkt, zullen ze met TST rekening houden bij de ontwikkeling, eventueel interfaces standaardiseren, of zelfs bepaalde TST-componenten in het platform inbouwen. Alhoewel platformbouwers niet de ‘echte klanten’ zijn van TST, zijn ze wel uitermate belangrijk voor het ‘faciliteren’ ervan. Distributeurs van producten: consumentenproducten vinden hun weg naar de markt via de kanalen die voor dat type toepassing gangbaar zijn. Uitbaters van diensten: alle bedrijven die informatie voor de klant via het web of telefoon wil faciliteren zijn een potentiële uitbater van een dienst met TSTcomponenten embedded.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 32 van 127
Zij beslissen welke informatie via welke user interface aangeboden wordt. Voorbeelden zijn banken, de overheid, telefoonoperatoren, de help desks van virtueel alle producerende bedrijven, ...
4.3
Kenmerkende en onderscheidende factoren
4.3.1
Afhankelijkheid van taalgebied in het ontwikkelings- en commercialisatieproces
De hierboven geschetste processen verlopen niet op dezelfde wijze en even snel voor elke taal. Kennisinstituten gebruiken veelal het Engels als testcase in het onderzoekswerk, omwille van de grotere beschikbaarheid van data en om de behaalde resultaten te kunnen aftoetsen op internationaal aanvaarde benchmarks. Ook in verticaal geïntegreerde projecten (zie verder) wordt hoofdzakelijk gewerkt in het Engels. In onderzoek gesteund door de nationale overheid komt de eigen taal soms wel expliciet aan bod. Commerciële actoren op laag 2 zijn specialisten in de kerntechnologieën en proberen een wereldwijde positie in te nemen. Gebaseerd op dezelfde basistechnologie proberen ze zoveel mogelijk talen te ontwikkelen. In eerste instantie zijn dit uiteraard de commercieel interessantste talen (US-Engels, Chinees, Japans, Europees Engels, Spaans, Duits, Frans, Russisch en Portugees). Een partij als ScanSoft levert voor veel productlijnen de producten in meerdere talen. Onafhankelijk van hun lokalisatie, hebben ze kennis nodig van specialisten in de diverse talen die ze op de markt aanbieden. Applicatieontwikkelaars ontwikkelen producten en systemen in de talen die voor hun markt relevant zijn. Een bank, telecom operator of informatiedienst voor het Openbaar Vervoer die actief is in het Nederlandse taalgebied zal om een Nederlandstalig product vragen. Toch vragen ze minder vaak om een commercieel product dan vergelijkbare spelers in de ‘grote’ taalgebieden omdat ze de ‘stand van de techniek op Nederlandstalig TST-gebied’ vaak onvoldoende vinden. Verticaal geïntegreerde onderzoeksprojecten zijn de afgelopen jaren extra gestimuleerd door de Europese Commissie. Het heeft tot gevolg gehad dat financiering met publieke middelen de ‘grote’ talen extra heeft bevoordeeld en de ‘kleine’ een extra achterstand heeft bezorgd. Dit is goed te zien aan de volgende tabel, opgesteld met data afkomstig van de HLT Central website, een site die is opgezet binnen het Vijfde Kaderprogramma (www.hltcentral.org): Taal binnen een HLT-project Engels Duits Frans Spaans Italiaans Grieks Fins Zweeds Portugees Tsjechisch
Aantal projecten 51 29 27 20 17 13 5 5 4 3
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 33 van 127
Nederlands Hongaars Bulgaars Deens Lets Litouens Pools Russisch
3 3 2 2 1 1 1 1
Nederland heeft steeds in de top-5 gestaan van participerende landen en heeft een score behaald die overduidelijk boven het ‘just retour’ ligt. (De overige landen in top 5: Verenigd Koninkrijk, Frankrijk, Duitsland en Italië.) Ook Vlaanderen heeft altijd goed meegedaan in Europese projecten. Het heeft ertoe geleid dat veel publiek gefinancierde onderzoeksinstellingen andere talen dan de moedertaal centraal hebben gesteld in hun onderzoeksprogrammering. Vaak wordt bij de Nederlandse taal beweerd dat het geen ‘kleine’ taal is maar een middelgrote. In het taalgebied (inclusief Zuid-Afrika) wonen 21 miljoen Nederlandstaligen. Maar het bovenstaande mechanisme van EU-financiering kent geen ‘middelgrote talen’. Het effect is sterk binair: de TST-ontwikkeling van een taal wordt in de projecten vooruit geholpen (Engels, op afstand Frans, Duits en Spaans) of niet. Overigens blijkt uit de tabel dat het Nederlands qua object van onderzoek nog achterblijft bij minder grote talen als Grieks en Scandinavische talen. Mogelijk is dat veroorzaakt door aanvullend nationaal beleid voor die talen, dat tot nog toe voor het Nederlands beperkt is gebleven. Het meest in het oog springend voorbeeld is het beleid van IJsland, een taalgebied met 350.000 inwoners. In dat land heeft de overheid een agressief beleid geformuleerd om de TST-technologie te ontwikkelen voor de eigen ‘superkleine’ taal. 4.3.2
Taalafhankelijkheid van de technologie
Het streefdoel van de componentenbouwers van taal- en spraaktechnologie (laag 2) is een product te ontwikkelen waarin de code taalonafhankelijk is en alle taalafhankelijkheid in data wordt gevat. Vanuit het standpunt van herbruikbaarheid van ontwikkelingseffort en van een ‘meertalig’ softwareproduct is het zeker de juist product filosofie. De taalafhankelijke data die in het eindproduct moet ingepast worden komt van klassieke bronnen (bijvoorbeeld lexica) of zijn parameters in een statistisch model die getraind worden op basis van taalspecifieke databases (bijvoorbeeld parameters in HMM-systemen). Dit standpunt kan verder verdedigd worden vanuit taalfilosofische hoek omdat er geen enkele evidentie is van genetische overdracht van kennistaal en het taalleerproces voor elke taal gebruikmaakt van dezelfde generische leermachine. Voorgaande redenering gaat echter niet volledig op omdat de gebruikte automatische leerprocessen veel zwakker zijn dan het menselijk leerproces. Sommige taalspecifieke fenomen lenen zich beter voor de gangbare statistische aanpakken dan andere. Bijvoorbeeld Engels laat zich relatief goed modelleren door woordgebaseerde N-gram taalmodellen. Dit is helemaal niet het geval voor agglutinerende talen zoals Turks, Fins of Koreaans en in mindere mate voor talen zoals het Duits en het Nederlands. Een ander voorbeeld is het belang van tonaliteit in een taal: in het Chinees is de invloed fonemisch, in een Europese taal is het een factor in de intonatie. De modellering moet dus expliciet anders. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 34 van 127
De stand van zaken is zo dat de meeste technologie eerst ontwikkeld werd voor het Engels en later getransplanteerd naar andere talen met een beperkte ontwikkelingseffort. Het framework van de technologie is dus geoptimaliseerd voor het Engels en veelal suboptimaal voor die andere talen. Om optimale producten te krijgen in een taal is heel wat meer nodig dan het hertrainen van de parameters in het Engelse systeem op een database van de nieuwe taal. Economische factoren spelen veelal een doorslaggevende rol in de beslissing of het porteren naar een nieuwe taal grondig of oppervlakkig gebeurt. 4.3.3
Rol van TST in het eindproduct
In veel gevallen geeft TST een toegevoegde waarde aan een product (bijvoorbeeld spellingchecker in een tekstverwerker) dat op zich reeds een volwaardig was. In dergelijke gevallen kan de TSTcomponent intern ontwikkeld worden of aangekocht worden van een externe partij. Microsoft maakt zijn eigen spellingcheckers voor de grootste talen, maar koopt ze aan voor het Nederlands. Als TST de kern uitmaakt van het eindproduct, is de ontwikkelaar van het product veelal ook de ontwikkelaar van de TST-component en mogelijks ook voor een groot deel afhankelijk van intern aangelegde basisvoorzieningen (bijvoorbeeld Van Dale). 4.3.4
Rol basisvoorzieningen in het eindproduct en gevaar voor reverse engineering
Zoals reeds vermeld zijn er afhankelijk van het type product grote verschillen in de relatieve toegevoegde waarde van de diverse lagen. Eén van de belangrijke onderscheidende factoren is het directe belang van de basisvoorzieningen in het eindproduct. In sommige taaltechnologische producten (bijvoorbeeld thesauri) vormen de basisvoorzieningen de kern van het product. De toegevoegde waarde van de technologie in laag 2 is dan soms erg beperkt, of anders gezegd: de afstand tussen basisvoorziening en afgeleverd product is er klein. In dergelijke gevallen zit het gros van de IPR (Intellectual Property Rights) in de basisvoorzieningen. Indien de basisvoorziening daarenboven nog eens rechtstreeks zichtbaar is in het eindproduct dienen heel specifieke voorzorgen genomen te worden voor bescherming van de IPR en om reverse engineering te vermijden. In spraakherkenning ligt de situatie behoorlijk anders: spraakcorpora en tekstcorpora zijn er heel belangrijk voor de kwaliteit van het eindproduct maar de basistechnologie speelt relatief nog een belangrijker rol. Verder is het onmogelijk om uit het eindproduct de basisvoorzieningen of de basistechnologie af te leiden via reverse engineering. Dit verklaart ook waarom er voor spraaktechnologische toepassingen meer ‘global players’ zijn (IBM, Microsoft, Scansoft, Nuance) dan voor taaltechnologie (Microsoft met spellingcheckers in zijn kantoorapplicaties). 4.3.5
Taal versus spraak
Hoewel de grens tussen taal en spraak niet altijd duidelijk te trekken is - voor spraakanalyse is ook taalanalyse benodigd - is zowel bij kennisinstellingen als bij bedrijven een specialisatie op één van de twee gebieden eerder norm dan uitzondering. Ook de toepassingsgebieden zijn verschillend. Spraaktechnologie richt zich meer op voice respons systemen, dicteersoftware, call center toepassingen, toegangscontrole en toepassingen voor gehandicapten, terwijl taaltechnologie zich meer richt op retrieval van teksten of gedeeltelijk gestructureerde informatie, hulpmiddelen voor tekst preprocessing en vertaalsoftware. Hulpmiddelen voor vreemde talen onderwijs worden zowel vanuit de taaltechnologie als de spraaktechnologie geproduceerd. Audio-mining is dan weer een voorbeeld waarbij zowel spraak- als taaltechnologie een essentiële component zijn.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 35 van 127
5
TST-actoren in Nederland en Vlaanderen
5.1
Publiek onderzoek
In Nederland zijn zeven publieke kennisinstellingen in enige omvang actief op het gebied van TST-onderzoek. In Vlaanderen zijn dat er drie. Al deze kennisinstellingen staan vermeld in onderstaande tabel, waarbij TNO is uitgesplitst naar drie betrokken instituten en Leuven is uitgesplitst voor taal en spraak. De instituten zijn geordend naar financiële omvang zoals de auteurs van deze verkenning die hebben berekend op basis van door de instituten zelf verstrekte gegevens. Universiteit van Antwerpen, CNTS KU Nijmegen, afd. Taal en Spraak / IST Universiteit van Amsterdam, ILLC / taal Universiteit van Tilburg KU Leuven, ESAT - PSI RU Groningen Universiteit Twente KU Leuven, Linguïstiek Universiteit van Utrecht TNO Telecom TNO Technische Menskunde (TM) RU Gent, ELIS TNO Technisch Physische Dienst (TPD)
BE NL NL NL BE NL NL BE NL NL NL BE NL
TT TST TT TT ST TT TST TT TST TST ST ST TST
1,5 M€ 1,3 M€ 1,2 M€ 1,1 M€ 0,9 M€ 0,7 M€ 0,7 M€ 0,6 M€ 0,6 M€ 0,4 M€ 0,3 M€ 0,3 M€ 0,3 M€
In bijlage 3 is in detail uitgewerkt wat het kennisprofiel van deze instituten is en hoe de wetenschappelijke onderzoekscapaciteit is opgebouwd. Die opbouw is samengevat in onderstaande tabel: Fte in Taal en Spraak hoogleraar wetenschappelijk personeel AIO/OIO technisch medewerker studenten Totaal (excl. studenten)
taal Vlaanderen
Nederland
3,8 27 0 0 4 30,8 18%
6,1 36,5 36 6,9 36 85,5 50%
spraak som Vlaanderen Nederland 9,9 3,7 1,8 63,5 10,8 23,2 36 4 7 6,9 0,5 2,7 40 3 7 116,3 36 7 68% 11% 20%
som 5,5 34 11 3,2 10 5 32%
totaal 15,3 97,5 47 10,1 50 155 100%
De totale omvang van het onderzoek is net boven € 10 miljoen euro per jaar, waarvan € 3,4 miljoen in Vlaanderen en € 6,7 in Nederland. De omvang van het taalonderzoek bedraagt € 6,8 miljoen en die van spraak € 3,3 miljoen euro per jaar. Uit de tabel blijkt dat in Vlaanderen taal en spraak qua omvang ongeveer in balans zijn. In Nederland is taalonderzoek qua omvang duidelijk groter dan spraakonderzoek. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 36 van 127
Inhoudelijk zijn samenvattend de volgende prioriteiten te onderkennen. Belangrijke onderzoeksdomeinen in het taalgebied zijn: ongeveer evenveel aandacht voor syntactische als semantische analyse; daarnaast is er ook aandacht voor tekstvoorverwerking en in mindere mate morfologie/ lexicologie; als kennisterrein waar binnen gewerkt wordt, wordt veelvuldig verwezen naar information retrieval en gerelateerde terreinen. Karakteristiek voor het spraakgebied: robuuste spraakherkenning krijgt veruit de meeste aandacht; daarnaast worden ook prosodiegeneratie en -herkenning en uitspraakmodellering meermaals vermeld; kennisterreinen die hier expliciet naar voor komen zijn deze van de interactive voice response systemen en het ontsluiten van audio-archieven.
5.2
Marktpartijen
5.2.1
Beschrijving van de aktoren
In onderstaande tabel worden enkele voorbeelden gegeven van marktpartijen op de verschillende lagen van het model dat is beschreven in hoofdstuk 4. Bedrijven die enkel op laag 1 actief zijn, zijn er nagenoeg niet. Wel zijn bedrijven die actief zijn op laag 2 en 3 veelal noodzakelijkerwijs ook actief op laag 1. Tevens zijn spelers op niche kennisdomeinen bijna van nature geïntegreerde bedrijven, actief tezelfdertijd op lagen 1, 2 en 3. Op elke laag wordt een voorbeeld gegeven van een bedrijf in Nederland en in Vlaanderen. Onderstaande lijst werd gemaakt met zowel input van de enquêtes als andere publiek beschikbare informatie (onder andere de website van de bedrijven zelf). Phonetic Topographics (VL) [1, spraak] Polderland (NL) [2, vooral taal]
Scansoft (USA,VL) [1+2,3, vooral spraak]
[1] Phonetic Topographics (onderdeel van TeleAtlas) maakt phonetische woordenboeken van plaatsnamen om het gebruik van spraaktechnologie in navigatiesystemen te ondersteunen. [2] Polderland is bekend van zijn spellingcheckers voor onder andere het Nederlands die onder meer gebruikt worden in de Microsoft Office producten. Naast producten voor het Nederlands ontwikkelt het soortgelijke technologie voor een aantal andere (kleine) talen. [2] Scansoft is één van de belangrijkste ontwikkelaars wereldwijd van spraaksynthese en spraakherkenningstechnologie. De spraaktechnologie werd over de voorbije twee jaar gekocht van (het failliete) L&H, Philips en Speechworks. De technologie wordt gelicencieerd in drie hoofdmarkten: professionele dicteersystemen, telecommunicatie en consumenten elektronica. Voor de ontwikkeling van de basistechnologie dient Scansoft ook in basisvoorzieningen te investeren[1]. [3] Scansoft is ook actief als ontwikkelaar van TST-consumenten software. De belangrijkste productlijnen zijn de pc gebaseerde DragonDictate en software voor OCR (de oorspronkelijke activiteit van ScanSoft).
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 37 van 127
Telecats (NL) [3, spraak]
Voxtron (VL) [3, spraak]
Human Inference (NL) [1+2+3, taal en spraak]
Knowledge Concepts (NL) [1+2+3, taal] Language & Computing (VL) [1+2+3, taal]
Van Dale (NL) [1+3, taal]
Xplanation (VL) [3+4, taal]
ABN AMRO (NL) [4, taal en spraak]
5.2.2
[3] TeleCats ontwikkelt en implementeert turnkey-oplossingen om de afhandeling van telefoongesprekken geheel of gedeeltelijk te automatiseren. Spraakherkenning, spraaksynthese en sprekerherkenning (allen extern gelicencieerd) zijn een onderdeel van het aanbod. [3] Voxtron ontwikkelt systemen voor interactive voice response voor toepassingen zoals phone banking. Spraakherkenning en spraaksynthese (extern gelicencieerd) worden hierbij toegepast en geïntegreerd in de bestaande systemen. [1+2+3] Human Inference is een specialist in het gebruik van eigennamen (NAW gegevens) van en door mensen met alle varianten van dien ten gevolge van uitspraak, spelling, afkortingen, etc. Hierdoor kunnen bijvoorbeeld entries met afwijkende spelling toch gevonden worden, kunnen duplicaties in bestanden opgespoord worden, etc. Human Inference maakt gebruik van eigen databases en eigen technologie. Knowledge Concepts levert, integreert en beheert TST-software voor knowledgemanagement en de content managementindustry. [1+2+3] L&C is een specialist op het vlak van semantiek en actief in het ontsluiten van ongestructureerde tekst. Hierbij richt het zich vooral op multi-linguale oplossingen in de medische sector. L&C beweert over de grootste medische databank ter wereld te beschikken waarin meer dan 1.000.000 concepten zijn opgeslagen, gelinkt aan meer dan 7.000.000 objecten. [1+3] Als woordenboekenspecialist is Van Dale al langer in de taaltechnologie actief dan dat de term bestaat. In die hoedanig-heid is het een typische producent van een eindproduct. Hiervoor wordt beroep gedaan op wat wellicht de meest exhaustieve lexicale basisvoorziening is voor het Nederlands. Om de markt van het eindproduct te beschermen voert Van Dale bewust geen actieve politiek van het licentiëren van zijn basismateriaal aan derden. [3+4] Xplanation is een vertaalbedrijf. Activiteiten op het vlak van automatisch vertalen werden volledig stopgezet. Taaltechnologie wordt wel nog intern gebruikt ter ondersteuning van de activiteiten, vooral bij het beheer van de lexicale gegevens. [4] Als dienstenbedrijf is ABN AMRO een potentiële grootgebruiker van TST-technologie, zowel aan de taalkant (bijvoorbeeld ontsluiting NAW gegevens) als aan de spraakkant (uitbouw van het Call Center).
Prioriteiten van marktpartijen
Door de beperkte retour van de enquêteformulieren door bedrijven en het weerhouden van vertrouwelijke informatie omtrent hun strategische richtingen, is het onmogelijk de huidige prioriteiten voor het volledige TST-veld in Vlaanderen en Nederland te schetsen. Op basis van de ingevulde enquêteformulieren en andere informele feedback kunnen volgende tendensen wel weerhouden worden. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 38 van 127
Taaltechnologie: met stip: semantische analyse; grafeem-foneemomzetting; tekstvoorverwerking; dialoogsystemen. Spraaktechnologie: met stip: robuuste spraakherkenning; adaptatie; betrouwbaarheidsmaten. Toepassingen taaltechnologie: retrieval NAW-gegevens; retrieval van teksten; vertalen. Toepassingen spraakherkenning en –synthese: Interactive Voice Respons Systemen; Call Center toepassingen. Waar zien bedrijven toegevoegde waarde van kennisinstellingen? Dat is bij: ontwikkeling van corpora; benchmarking en standaardisatie; onderzoek naar gebruik statistiek en heuristiek. Bijlage 3 bevat een bedrijfsprofiel van de respondenten.
5.3
Netwerkrelaties tussen actoren
De via de enquête verzamelde gegevens bieden voldoende basis om conclusies te trekken over de onderlinge relaties tussen de diverse actoren. Het volgende kan worden geconcludeerd over de relaties tussen de kennisinstituten onderling. De Vlaamse instellingen werken meer met elkaar samen dan in Nederlands-Vlaamse samenwerking. Hetzelfde geldt voor de Nederlandse kennisinstellingen. Nijmegen is het kennisinstituut dat de meeste relaties onderhoudt met andere kennisinstituten en het is dus de grootste ‘netwerker’. Deze kennisinstelling onderhoudt relaties met zowel taalals spraakpartijen en is ook een link in de samenwerking Nederland – Vlaanderen. Tilburg heeft een met Antwerpen gedeelde hoogleraar (Daelemans). Tilburg heeft intensieve relaties met andere taalinstituten (Amsterdam, Twente). Een Nederlandse kennisinstelling waar in het verleden aanzienlijke overheidsinvesteringen op het gebied van taal- en spraak naar toe zijn gegaan, namelijk de universiteit Utrecht (zie paragraaf 2.2.1) wordt vaak genoemd, maar heeft geen intensieve wetenschappelijke relaties met andere instituten. Ze vervult wel het secretariaat van het Network of Excellence ELSNET. Het netwerkpatroon met buitenlandse organisaties verschilt sterk tussen instellingen. Alleen Tilburg2 vervult een rol in internationale standaardisatieactiviteiten (ISO). Gemeld is dat ook het Max Planck instituut actief zou zijn op standaardisatiegebied. Dit instituut heeft de vragenlijst niet beantwoord.
2
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 39 van 127
De volgende conclusies mogen worden getrokken over de samenwerking tussen kennisinstellingen en bedrijven. Er is duidelijk een samenwerkingspatroon ontstaan tussen de TST-bedrijven en de kennisinstituten. In Nederland is de stichting NOTaS een belangrijke schakel tussen markt en kennisinstellingen. De ‘global player’ Scansoft wordt door alle Vlaamse instellingen genoemd en door slechts één Nederlands kennisinstituut (Nijmegen). De universiteit van Utrecht heeft daarnaast een deeltijdhoogleraar vanuit Scansoft (Odijk). De meest intensieve relaties zijn vervolgens met de bedrijven Irion Technologies, Knowledge Concepts, Polderland en Textkernel (allen op taal georiënteerd). De leverancier van basisvoorzieningen in klassieke zin (woordenboeken, Van Dale) wordt door geen enkele instelling genoemd als partij waarmee tenminste met enige regelmaat wordt samengewerkt. Er is relatief weinig samenwerking tussen kennisinstellingen en de bedrijven die de technologie ‘embedden’. Slechts drie samenwerkingsverbanden zijn in de geretourneerde vragenlijsten genoemd.
5.4
Vergelijking Nederland en Vlaanderen
De verhouding tussen publieke en private partijen is in Vlaanderen duidelijk harmonieuzer dan in Nederland. Het is moeilijk daar een 100% verklaring voor te vinden en er mag niet al te snel een verklaring in de volksaard gezocht worden. Mogelijke verklaringen zijn hierna genoemd. In Vlaanderen wordt ‘de markt’ gedomineerd door één grote, sterk R&D-georiënteerde partij, namelijk Scansoft. Dit heeft alles te maken met de erfenis van Lernout & Hauspie (L&H). L&H was uitgegroeid tot de grootste speler binnen het TST-domein op wereldvlak maar kon de ambities niet waar maken. Niettemin was L&H de dominante factor op TST-gebied in Vlaanderen in de voorbije 10 jaar. De basis van de technologie lag voor een stuk in de kennisinstellingen in Vlaanderen, wat zorgde voor intense relaties. Scansoft onderhoudt deze contacten nog steeds, zij het minder intens dan bij L&H het geval was. Anderzijds had L&H ook de meeste kleinere spelers op de Vlaamse markt geabsorbeerd waardoor de markt op laag twee bijna werd leeggezogen. Via het concept van Flanders Language Valley werden vele toepassingsbedrijven opgestart, waarvan velen echter de crisis in de ICT-sector en de ondergang van L&H niet overleefden. In Nederland ontbreekt een speler van de omvang van Scansoft. Grote bedrijven zijn beter in staat om productieve relaties te leggen en te onderhouden met kennisinstellingen dan kleine bedrijven, tenzij die het rechtstreekse gevolg zijn van een spinoff. Voorzover er grote bedrijven waren in de Nederlandse TST (Philips, Océ, ooit BSO, KPN Telecom) hebben die zich grotendeels teruggetrokken uit laag 2. Op dit moment zijn de Nederlandse marktpartijen met een belangrijke component in laag 2 vooral start-ups of nichespelers. Polderland is de grootste laag 2 speler qua omvang en heeft inmiddels ook een langere historie dan een start-up. In Nederland is taalonderzoek omvangrijker dan spraakonderzoek. De relatie tussen markt en publieke sector is bij taal problematischer dan bij spraak, onder andere omdat IPR moeilijker is te beschermen (zie daarvoor ook paragraaf 4.3.4). Juist de regeling rond IPR is in het BATAVO-document niet expliciet ingevuld, terwijl de vermenging van de ‘language resources’ met de ‘tools’ in één aanpak tot extra discussies aanleiding heeft gegeven. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 40 van 127
6
De economische betekenis van TST
6.1
Methodiek voor het bepalen van de economische betekenis
Moeiteloos kunnen rapporten gevonden worden waarin het economisch belang van taal- en spraaktechnologie wordt verkondigd. Het probleem is dat dergelijke rapporten al jaren worden gepubliceerd en dat lang niet alle voorspellingen zijn uitgekomen. Het is daarom noodzakelijk om claims ten aanzien van het economisch belang van TST goed te onderbouwen. Slechte voorspellingen blijken zelfs contraproductief voor de marktontwikkelingen in het gebied te zijn. Dat wordt het best geïllustreerd door de scenario’s die financiële analisten voor TST maakten op het eind van de internet-hype periode. Die creëerden een irreëel verwachtingspatroon waaraan een bedrijf als Lernout & Hauspie (en geen enkel ander bedrijf) kon voldoen.
PC Dictation Market ($M) Predictions and Reality 1.000 900 800 700 600 500 400 300 200 100 0
Dataquest 98 Dragon L&H
1997
1998
1999
2000
2001
2002
Die opgeklopte verwachtingen vormden het decor waarbij L&H uiteindelijk ten onder ging. Het bewijst dat een goed beleid ten aanzien van Taal- en Spraaktechnologie onderbouwd moet worden met een goede economische analyse en niet met hype-verwachtingen. Bij de beantwoording van de IOP-vragenlijst in het voorjaar van 2003 werd de volgende visie gegeven: “De omvang van de markt voor producten en diensten die alleen geleverd kunnen worden dank zij het bestaan van TST beloopt (zeker wereldwijd gezien) vele miljarden. Omdat TST een enabling technology is, is het lastig om het exacte aandeel van TST aan die omzet te bepalen, maar conservatieve schattingen komen bij bedragen tussen € 500 miljoen en één miljard € in het jaar 2005. Omdat TST een enabling technology is, moeten de economische doelstellingen van een IOP-TST beschreven worden op twee niveaus, nl. de uiteindelijke toepassingen en de TST industrie in engere zin. [….] Het meest direct zichtbare economische belang van TST ligt bij het groeiend aantal bedrijven die TST ontwikkelen, en met name bij bedrijven die toepassingen met TST ontwikkelen. [….] Het beleid van de Europese en nationale overheden is erop gericht dat alle burgers in hun eigen taal toegang kunnen krijgen tot alle voor hun relevante informatie. Dat doel kan in Nederland (en Vlaanderen) alleen verwezenlijkt worden als er adequate taal- en spraaktechnologie voor het Nederlands ontwikkeld wordt.” Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 41 van 127
Alhoewel er niets mis is met bovenstaande redenering, zijn er toch kantekeningen te plaatsen. De analyse geeft geen raming voor het economisch effect van Nederlandstalige TST, maar voor TST in zijn algemeenheid. Een raming voor Nederlandstalige TST is niet te krijgen door anderen te citeren. De auteur beperkt zich tot een raming van het effect op wereldschaal en geeft geen cijfer voor het effect op de Nederlandse economie. Er wordt een analyse gegeven op twee niveaus, namelijk de TST-industrie in engere zin (laag 2 in dit rapport) en de TST-toepassingen (laag 3 in dit rapport). Hieronder volgt een analyse die ook het economisch effect van het incorporeren van TST-toepassingen in met name de dienstensector meeneemt (laag 4). Een schatting van de economische impact per 2005 is een wel erg korte termijn voor een economische assessment die een middellange onderzoeksinspanning (met een effect op de economie na vijf tot acht jaar) moet rechtvaardigen. Om een nauwkeuriger analyse te verkrijgen is hieronder de volgende werkwijze gekozen. Er wordt een nauwkeurige analyse gemaakt van een relatief goed in kaart te brengen markt, namelijk die voor TST-gebruik binnen call centers en Interactive Voice Response (IVR) systemen. Voor die markt beschikken de auteurs van dit rapport over cijfers die binnen de TST-industrie zelf worden gebruikt bij de interne economische analyses. Die analyse laten we aansluiten bij het in dit rapport opgestelde 4-lagen model voor de TSTsector. Het resultaat voor het in detail geanalyseerde marktsegment wordt vervolgens gegeneraliseerd door een schatting te maken van de relatieve omvang van de call center/IVR-markt ten opzichte van de totale spraakmarkt. De analyse van de spraakmarkt wordt aangevuld met een analyse van het economisch belang van geavanceerde taaltechnologie.
6.2
Call centers en IVR: een assessment
De economische impact van TST op de markt voor call centers en Interactive Voice Respons (IVR)-systemen kan worden berekend aan de hand van het 4-lagen model. De economische waarde van commerciële basisvoorzieningen, tools en modules is terug te vinden in de licentiebedragen uit de verkoop van deze technologie. Door licenties uit de verkoop van producten van laag 1 en 2 als eerste uitgangspunt te nemen wordt de markt voor call center/IVR-producten zonder geavanceerde TST-embedding automatisch uitgesloten en wordt een overoptimistische raming vermeden. De inkomsten uit licenties voor ‘Advanced Speech Technology’ (AST) is wereldwijd goed bekend en er kan een goede inschatting worden gemaakt van inkomsten uit Nederlandstalige systemen, namelijk € 1 miljoen per jaar (cijfer 2003). Vervolgens kan een goede inschatting worden gemaakt van de omvang van de gerelateerde productontwikkeling en integratie op laag 3. Op basis van hard empirisch cijfermateriaal is dat het viervoudige van de inkomsten uit licenties. Voor Nederlandstalige TST bedraagt dat in 2003 dus € 4 miljoen. De toepassing van deze technologie in de dienstensector verdubbelt de economische impact, gegeven de efficiencywinst in de dienstverlening. Dat is overigens een geringe ‘multiplier factor’. Voor andere TST-gebieden kan het gebruik van TST een economische impact geven die resulteert in een grotere concurrentievoorsprong en dus een betere ‘multiplier’. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 42 van 127
In dit geval worden eventuele nieuwkomers op de markt (bijvoorbeeld een buitenlandse bank die gaat concurreren met Nederlandse banken) geconfronteerd met dezelfde tekortkomingen in de Nederlandstalige AST als hun Nederlandse concurrenten. Bovenstaande analyse is in detail beschreven in bijlage 4. Die bijlage is geschreven in de Engelse taal omdat de analyse is voorgelegd aan meerdere marktpartijen in de Advanced Speech Technology (en niet alleen aan partijen die actief zijn in het Nederlandse taalgebied.). De opgestelde analyse kreeg veel waardering en bijval. De financiële omvang voor 2003 is, afzonderlijk gespecificeerd voor laag 1+2, laag 3 en laag 4, weergegeven in het midden van het onderstaande schema. Het gaat in totaal om € 10 miljoen aan ‘economische impact’.
Effect maximaal stimuleringsbeleid = 60 miljoen € groei naar 4 % van VS-markt 1 % van VS-markt Totaal = 80 miljoen € per 2008
Totaal = 10 miljoen € per 2003
nog steeds 1 % van VS-markt Totaal = 20 miljoen € per 2008
Call centers / IVR markt in 2008 zonder stimulering
Laag 4 heeft multiplier 2 = 5 miljoen €
Laag 4 heeft multiplier 2 = 40 miljoen €
Laag 3 = 4 miljoen € development / integration
keer 8
Laag 3 = 32 miljoen € development / integration
Laag 1 + 2 = 1 miljoen € licensing
keer 8
Laag 1 + 2 = 8 miljoen € licensing
Call centers / IVR (2003)
Max in 2008
De omvang van de Nederlandse AST-markt (in dit segment vrijwel geheel Nederlandstalig) is slechts 1% van die in de Verenigde Staten (waar uiteraard sprake is van Engelstalige systemen). Naar rato van de omvang van potentiële gebruikers in Nederland plus Vlaanderen versus de Verenigde Staten, zou die omvang 7% moeten zijn als in beide taalgebieden in dezelfde mate van AST-technologie gebruik wordt gemaakt. De beleidskeuze waar het Nederlandse taalgebied mee wordt geconfronteerd is de volgende (aangegeven met de pijlen naar links respectievelijk rechts vanuit de middenkolom). Tevreden zijn met een dergelijke geringe toepassing van AST in onze diensteneconomieën en onze technologische achterstand accepteren. De marktomvang voor toepassing van AST blijft 1% in plaats van 7% in vergelijking met de markt in de VS en de groei in de periode 2003 – 2008 is in beide markten een factor twee.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 43 van 127
Een dergelijke situatie niet accepteren en investeren om de achterstand voor de Nederlandse taal in te halen. Als doelstelling voor 2008 zou kunnen worden geformuleerd dat de achterstand iets meer dan gehalveerd moet worden en dat de relatieve omvang van de markt 4% moet worden. (Gezien de grotere schaalvoordelen die in de VS-markt bereikt kunnen worden is het niet realistisch de 7% te willen halen.) Het inhalen van de achterstand betekent dat de markt in de periode 2003 – 2008 met een factor 8 moet groeien. Als we mogen veronderstellen dat die extra groei kan worden bewerkstelligd met een investering in het Nederlandse en Vlaamse innovatiesysteem van € 10 miljoen over vijf jaar, dan is de economische ratio om dit te doen triviaal. Een jaarlijkse economische winst die oploopt tot € 60 miljoen in 2008 tegen een investering over vijf jaar van ‘slechts’ € 10 miljoen! Uiteraard is dit een conclusie die is getrokken voor een deelmarkt voor toepassing van TST, namelijk geavanceerde spraaktechnologie in de Call center en IVR-markt. Maar in zijn algemeenheid geldt dat het beleidsvraagstuk niet is of betere TST-technologie rendement kan opleveren. Die vraag kan haast altijd positief worden beantwoord. De werkelijke vraag, centraal in volgende hoofdstukken is, of een investering in het innovatiesysteem van Nederland en Vlaanderen ook daadwerkelijk leidt tot betere technologie op de markt. Met andere woorden: of men met een extra investering de bestaande hoogwaardige wetenschappelijke kennis weet om te zetten in toegepaste technologie. Benadrukt wordt dat de bovengeschetste inhaalactie niet vereist dat volstrekt nieuwe TSTtechnologie wordt ontwikkeld. Het gaat immers om een inhaalslag. Wel moet uit de inleidende hoofdstukken duidelijk zijn geworden dat talen onderling te sterk verschillen (en zeker bijvoorbeeld Nederlands en Engels) om die inhaalactie te beschouwen als een simpele kopieeractie. Een land met wetenschappelijke kennis op een tweede plan moet niet aan zo’n inhaalslag beginnen, want het zal de eindstreep niet halen. Maar Nederland en Vlaanderen hebben wel een wetenschappelijk topniveau.
6.3
Tentatieve verbreding naar de totale spraakmarkt
Zoals in 3.5.2 reeds aangegeven, zijn de belangrijkste segmenten van de spraaktechnologiemarkt: telefonie: met als basisapplicatie het ophalen van informatie; pc: met als belangrijkste toepassing het dicteren van documenten; consumer/embedded: met een brede waaier van toepassingen (elektronische woordenboeken, command & control, speelgoed, navigatiesystemen, enzovoorts). Geen van de verschillende marktsegmenten is echt dominant ten opzichte van de andere. Integendeel, op basis van beschikbare gegevens kan men concluderen dat de verschillende segmenten ongeveer even belangrijk zijn voor de constructeurs van de basistechnologieën. Niettemin heeft elk marktsegment ook heel specifieke karakteristiek die het volledige plaatje sterk beïnvloeden.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 44 van 127
6.3.1
De pc-dicteermarkt
De pc-dicteermarkt valt uiteen in twee segmenten: occasionele eindgebruiker; professionele gebruiker. Software voor occasionele eindgebruiker vertrouwt op een generisch taalmodel. Als dusdanig wil het geschikt zijn voor ‘alledaags gebruik’. Dit type gebruik is dan ook niks minder dan een vervanging van het toetsenbord. De complexiteit van deze toepassing wordt bepaald door de enorme variabiliteit van documenten die mensen aanmaken. Daarnaast wordt de herkenningsgraad negatief beïnvloed door de grote variabiliteit in spreek- en dicteerstijl. Tenslotte ontdekken veel potentiële gebruikers die geen ervaring met dicteren hebben, dat ze uiteindelijk toch het toetsenbord verkiezen boven spraakinput. De combinatie van deze complicerende factoren maakt dat deze technologie geen succes is bij het grote publiek, maar wel bij selecte groepen, bijvoorbeeld personen met een ‘golden voice’, personen met een handicap, ... Dit marktsegment wordt tegenwoordig gedomineerd door een klein aantal spelers zoals Scansoft, IBM en Microsoft. IBM en Microsoft verkopen generische spraakherkenning in de eerste plaats in combinatie met hun andere hardware of software. Als ‘onafhankelijk product’ speelt het slechts een secundaire rol. Het in elkaar zakken van de dicteermarkt na de hoopvolle introductie eind jaren ‘90 was één van de oorzaken van de ondergang van L&H. Tezelfdertijd is deze markt ook het zwaarst verstoord geweest door het faillissement. De aankoop van Dragon - de vroegere marktleider binnen dit segment - was immers nog niet verwerkt en een geïntegreerde productstrategie was nog niet ontwikkeld op het ogenblik van het faillissement. Deze condities kunnen ervoor gezorgd hebben dat de dicteermarkt een overdreven negatieve correctie gemaakt heeft. In elk geval lijkt het waarschijnlijk dat deze markt op langere termijn door Microsoft en IBM zal beheerst worden, met slechts een beperkte rol voor de onafhankelijke spelers. Omwille van hun indirecte verkoopstrategie valt er geen eenduidige marktwaarde te bepalen. De generische dicteermarkt vormt in ons gelaagde model voor de taal- en spraaktechnologie dus een case, waar alle aanbodlagen 1 tot en met 3 met elkaar verknoopt zijn en waarbij een paar van de wereldspelers voor pc- technologie zich deze markt toe-eigenen. Helemaal anders ligt de situatie voor de professionele markt. In die markt moet een generisch pakket aangepast worden aan de specifieke noden van een professionele groep, bijvoorbeeld radiologen of advocaten. De belangrijkste doelgroep wordt gevormd door beroepen waar nu reeds ‘dicteren’ een onderdeel is van de dagelijkse werkzaamheden. De aanpassingen situeren zich op twee niveaus: aanpassing van het taalmodel aan het taalgebruik van de doelgroep en inpassen van de software in de werkomgeving van de doelgroep. Binnen dit marktsegment is Microsoft helemaal niet actief en IBM slechts in beperkte mate. Indien ze al actief zijn in deze markt is het als licentieverschaffer van de basistechnologie. De professionele dicteermarkt past dus wel goed in het gelaagde model. Er is nog een belangrijke stap van generische technologie naar een pakket dat geschikt is voor een specifieke professionele groep. De applicatieontwikkeling gebeurt in sommige gevallen door de ontwikkelaar van de basistechnologie (bijvoorbeeld Scansoft voor bepaalde doelgroepen). Maar het gebeurt evenzeer door kleine onafhankelijke softwarehuizen, bijvoorbeeld het Nederlandse G2Speech op basis van Philips-technologie voor de medische markt. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 45 van 127
Gezien de hoge graad van fragmentatie en specialisatie in deze markt (specifieke software per taal en per toepassing) is het logisch dat dergelijke ontwikkelingen in grote mate door en voor de lokale markt gebeuren. Gezien de graad van specialisatie is het ook logisch dat de prijs per kopie van dergelijke software een paar orde van groottes hoger ligt dan bij de generische pakketten. Dus ondanks het veel kleinere aantal kopieën dat wordt verkocht in de professionele markt versus de generische markt, is de marktwaarde van beide wellicht vergelijkbaar. Net zoals bij de telefoniemarkt die is besproken in paragraaf 6.2 merken we een veel lagere penetratiegraad van dicteertoepassingen voor het Nederlands dan voor het Engels. Vele eerste generatie producten voor het Nederlands werden zelfs vroegtijdig door de producenten teruggetrokken. Nu lijkt de Nederlandstalige technologie stilaan klaar voor een voorzichtige lancering, dus toch zo’n vier jaar achter op de ontwikkeling in de VS. De achterstand van het Nederlands ten opzichte van het Engels is overduidelijk en zal blijven bestaan tenzij er een inhaalslag wordt gemaakt. Vanwege de sterke gelijkenis tussen de professionele pc-dicteermarkt en de telefoniemarkt (ondanks de even grote verschillen: software versus service) kunnen we ervan uitgaan dat de hefboomfactoren in grote mate gelijklopend zijn. Om de totale impact in te schatten, moeten we dus enkel de omzet van de leveranciers van de core software kunnen inschatten. De beste leidraad hier zijn de omzet cijfers van Dragon voor de overname door L&H en de huidige cijfers van Scansoft (hoewel die geen specifieke opdeling per product maakt). Op basis van deze cijfers kan de totale waarde van de omzet op laag 1&2 geschat worden op $100 miljoen. Dit is vergelijkbaar met de omzet in de telefoniemarkt. Indien we 50% toekennen aan de professionele markt die het belangrijkst is voor ontwikkelingen op lokaal vlak, dan komen we tot de conclusie dat de impact van professioneel dicteren ongeveer 60% is van de waarde van de telefoniemarkt. 6.3.2
Een inschatting van de economische impact van de dicteermarkt
Er zijn belangrijke hefboomfactoren actief in de spraaktechnologie zodra applicatiespecifieke toepassingen door en voor de lokale markt moeten gebeuren. Het totale economische volume in de sector is daardoor een ordegrootte hoger dan de naakte omzet bij de leveranciers van de basistechnologie. Dat troffen we ook al aan bij de Call Center/IVR-markt, waar een verhouding bestond van 1 : 7 tussen licenties op de basistechnologie ten opzichte van applicatieontwikkeling (zie bijlage 4). Die relatief hoge multiplier leidde tot de volgende cijfers voor de aanbodzijde: jaar
wereldmarkt
VS-markt
2003 2008
700 M$ 1840 M$
460 M$ 920 M$
percentage van wereldmarkt 66% 50%
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Nederland + percentage t.o.v. Vlaanderen VS-markt 5 M€ 1% afhankelijk van beleid
Pagina 46 van 127
Als we veronderstellen dat de multiplier factor in de dicteermarkt dezelfde waarde heeft resulteert dit in de volgende schatting. jaar
wereldmarkt
2003 2008
400 M$ ?
percentage t.o.v. Nederland + wereldmarkt Vlaanderen, (schatting) Nederlandstalig (schatting) 2,5 M€ 0,6 % afhankelijk van beleid
Opnieuw is de markt voor het Engels beduidend beter ontwikkeld dan voor het Nederlands. Het is zelfs niet uitgesloten dat een deel van de dicteermarkt in Nederland en Vlaanderen op de Engelse taal is gebaseerd. Door de combinatie van inherente groei en kwaliteitstoename kunnen hele hoge groeipercentages voor Nederlandstalige dicteertoepassingen in de professionele sfeer gerealiseerd worden. De huidige groei van een Nederlands bedrijf als G2Speech dat in de top-50 van groeiers staat bevestigt dit. Maar de lange termijn groei is uiteraard weer afhankelijk van de beleidskeuze of de kwaliteit van de moedertaal met een investering in onderzoek aanzienlijk zal worden verhoogd of niet. Speciaal voor de eigen moedertaal moet het realiseerbaar zijn om een toepassingsvolume te creëren dat beduidend boven de huidige markt ligt als de kwaliteit van Nederlandstalige toepassingen toeneemt. 6.3.3
Andere pc/servertoepassingen
Buiten het dicteren (genereren van tekst) zijn er nog een reeks andere toepassingen mogelijk op de pc. Een paar belangrijke zijn: taalleersoftware; automatische ondertiteling; transcriberen van en zoeken op audio-archieven. Dicteersoftware kan aan de basis liggen van de implementaties, maar de toepassingen vereisen wel meer dan een generiek pakket. Vandaag zijn het marktsegmenten die nog in de kinderschoenen staan, maar die wellicht een mooi groeiperspectief bieden. Hier concrete cijfers op plakken is echter uitermate speculatief. 6.3.4
De consumentenmarkt voor spraak
De consumentenmarkt is de meest diverse van alle. Het betreft zowel sprekende poppen als de bediening van mobilofoons en zakcomputers, systemen voor data-entry op de werkvloer, navigatiesystemen, sprekende woordenboeken, enzovoorts. Wat betreft totale omzet aan spraaktechnologie is de consumentenmarkt potentieel zeker even belangrijk als telefonie en dicteren. Het betreft vaak generische taalonafhankelijke technologie, bijvoorbeeld spraakcodering voor opslag, sprekerafhankelijke spraakherkenning voor eenvoudige commando’s, spraaksynthese via ‘phrase concatenation’.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 47 van 127
Door de prijsdruk worden de kosten van technologie-adaptatie en applicatieontwikkeling op laag 3 in het ontwikkelingsproces nauwlettend in het oog gehouden. Waar mogelijk wordt gekozen voor een taalonafhankelijke implementatie. Voor veel producten is er wel een aanpassing per taal, maar die is veelal beperkt. De focus ligt dus in hoofdzaak op generische technologie en een ontwikkelomgeving die ook toegankelijk is voor de niet-specialist. Voor high-end systemen (zoals navigatie) is taalafhankelijkheid wel belangrijk. In het algemeen mogen we stellen dat ontwikkelingen van geavanceerde spraaksystemen voor en door de lokale markt minder sterk aanwezig is in de consumentenmarkt dan in andere sectoren. Van alle segmenten is de consumentenmarkt de enige die nog steeds beperkt wordt door de kracht van de hardware. Maar daarin zal snel verandering komen. Ook de kleinere platformen gaan heel snel de kant op van generische computersystemen wat de mogelijkheden voor spraaktechnologie enorm doet toenemen. Daardoor gaat het belang van ‘taalafhankelijkheid’ in deze sector nog sterk stijgen. Als voor een klein device de user-interface software door lokale vendors kan worden ontwikkeld, bevinden we ons in hetzelfde scenario als de Call Center markt en de professionele dicteermarkt. Omwille van de hardwareproblematiek kunnen we inschatten dat de consumentenmarkt - voor dat deel waarin taalafhankelijkheid een belangrijke rol speelt - een vijftal jaar zal achterlopen op de telefoniemarkt en de professionele dicteermarkt. Daarom zouden we de omvang van de Call Center/IVR in het jaar 2008 kunnen nemen als uitgangspunt. Op wereldschaal is verondersteld dat de omvang ervan een gegeven is, terwijl de Nederlandse markt afhankelijk is van beleidskeuzen. Gesteld dat de achterstand voor het Nederlands in 2008 is ingelopen, dan betekent dit het volgende voor de Call Center / IVR markt: jaar
wereldmarkt (licenties op basistechnologie)
wereldmarkt (inclusief applicaties)
2008 2013
230 M$ 460 M$
1840 M$ 3680 M$
Nederland + Vlaanderen (inclusief applicaties) 40 M€ 80 M€
percentage t.o.v. wereldmarkt (tussen haakjes t.o.v. VS-markt) ongeveer 2% (4%) gelijkblijvend
Aangenomen is dat een verdubbeling van de markt in de periode 2008 – 2013 plaatsvindt. Als we vanaf 2008 een parallel mogen trekken tussen Call Center / IVR-markt en consumentenmarkt, is er het volgende kwantitatieve beeld voor het laatste marktsegment: jaar
wereldmarkt (licenties op basistechnologie)
wereldmarkt (inclusief applicaties)
2008 2013
225 M$ 1125 M$
450 M$ 2250 M$
Nederland + Vlaanderen (inclusief applicaties) 9 M€ 45 M€
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Nederland + Vlaanderen (inclusief multiplier gebruik = 3) 36 M€ 180 M€
Pagina 48 van 127
Waarbij is verondersteld: dat licenties uit de basistechnologieën in 2008 even groot zijn voor Call Centers / IVR en in de consumentenmarkt; dat de marktgroei in de consumentenmarkt een factor 5 bedraagt in de periode 2008 – 2013 wat bij een grote groei van embedded systems niet onredelijk is om te veronderstellen; dat de multiplier voor ontwikkeling een factor 2 is (in plaats van een factor 7); maar dat de multiplier voor gebruik in de markt een factor 4 is (in plaats van 2). Uiteraard zijn dit nogal speculatieve cijfers gezien de lange termijn horizon en de vele aannames. Maar ze maken wel duidelijk dat het nalaten van de inhaalslag voor de Nederlandse taal in de periode 2003 – 2008 in de consumentenmarkt na 2008 nog veel grotere economische nadelen kan veroorzaken dan met een beperkte horizon tot 2008 is te signaleren. 6.3.5
Spraak en Ambient Technology
Philips doet onderzoek op het gebied van Ambient Technology en heeft dit begrip doen inburgeren bij het formuleren van het technologiebeleid binnen de Europese Unie. Het gaat daarbij om ICT-technologie die voldoet aan vijf criteria3: embedded: de netwerktechnologie is geïntegreerd in de omgeving; context-aware: devices herkennen een individu en zijn situatie; personalized: de technologie kan passend gemaakt worden op iemands persoonlijke behoeften; adaptive: de technologie wijzigt als antwoord op persoonlijk handelen; anticipatory: de technologie kan anticiperen op verlangens. Spraak is een belangrijk onderdeel om dergelijke technologie te realiseren en heeft de aandacht in een laboratoriumcontext, bijvoorbeeld in de onderzoeksactiviteit SPICE4 (Speech Interfaces for Consumer Electronics) binnen het Home-Lab van Philips. Gezien de terugtrekkende beweging van Philips op het gebied van taal en spraak zal wel eerder sprake zijn van het integreren van technologie die door derden is ontwikkeld dan het zelfstandig door Philips ontwikkelen van spraaktechnologie. Bovendien is het niet waarschijnlijk dat de Nederlandse taal een eerste prioriteit zal zijn van het bedrijf. In de openbaar gemaakte onderzoeksoutput figureert alleen Engels.
6.4
Economische belang van taaltechnologische systemen
Het economisch belang van taaltechnologie is lastiger te kwantificeren dan van spraaktechnologie. De reden is dat het toepassingsgebied pluriformer is en het spectrum aan technologieën breder is dan bij spraak. Hieronder wordt daarom in meer kwalitatieve zin het economische belang van taaltechnologie aangetoond. 6.4.1
Economisch belang van het semantisch web
Taalkundige noties als semantiek zullen belangrijk worden in de context van het World Wide Web. De conventionele manier van zoeken op het internet staat los van de betekenis van de content. Het leidt ertoe dat zoekstrategieën inefficiënt zijn.
3 4
Zie Emile Aarts en Stefano Marzano, “The new everyday, views on Ambient Technology, Philips 2003. Zie het geciteerde boek, pagina 334 en 335.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 49 van 127
Door de grondlegger van het web zelf, Tim Berners Lee van CERN, is een volgende generatie WWW voorgesteld waarbij de inhoud van webpagina’s als metadata beschikbaar zijn: het ‘semantic web’. Uiteraard is het ondoenlijk alle webcontent handmatig te beschrijven qua inhoud. Onvermijdelijk zijn daarvoor automatische tools noodzakelijk. En omdat inhoud vaak taalafhankelijk zal zijn, zullen deze tools een beroep moeten doen op technologie die met taal kan omgaan: dus taaltechnologie. Op dit ogenblik zijn de onderzoekswerelden van de taaltechnologie en die van het semantisch web nog redelijk gescheiden werelden. Maar de eerste verkennende stappen worden gezet en een injectie in het taaltechnologisch onderzoek zou onvoorwaardelijk moeten leiden tot een intensivering van de onderlinge kennismaking. Het economisch belang van dergelijke ontwikkelingen is uiteraard recht evenredig met het economisch belang van het World Wide Web en internet en dus heel groot. 6.4.2
Knowledge management
Sterk verwant met het voorgaande is Knowledge Management. Een niche speler als het Nederlandse Knowledge Concepts is duidelijk actief op dit terrein. Overigens voor een aanzienlijk deel voor niet-Nederlandstalige kennisontsluiting, bijvoorbeeld bij multinationale ondernemingen (zoals Shell) waar Engels de voertaal is om kennis vast te leggen. Ook op het gebied van Knowledge Management zijn taaltechnologische instrumenten cruciaal zoals het onderstaande schema laat zien (afkomstig van Knowledge Concepts, LangTech 2002 conferentie): HLT-products for the Knowledge Management Community data semantic networks thesauri
taxonomies
gazetteers
authority files
modules text preprocessors
normaliser
tagger/ lemmatiser
semantical analyser
document filters
spelling normaliser
POStagger
event extractors
tokenisers
number normaliser
lemmatiser
frame extractor
language tagger
accronym normaliser
morphological analyser
proper name extractor
parsers
diacritics normaliser
decompounder
Lexicons
Bij Knowledge Management spelen geavanceerde zoekinstrumenten een essentiële rol. Tot op zekere hoogte bevat een zoekmachine zoals Google al elementen van deze nieuwe benadering en verklaart dat ook waarom deze zoekmachine anderen van de markt heeft verdrongen. Maar met name in de sfeer van intranets zijn de zoekmachines te vinden waar, uiteraard met een domeinspecifieke invulling, Knowledge Management wordt gerealiseerd. Namen als Autonomy en Verity horen daarbij. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 50 van 127
En net als bij de professionele dicteermarkt en de Call Center / IVR markt in het spraakdomein is er een markt te voorzien voor partijen die de benodigde toespitsing op specifieke inhoud voor lokale markten kunnen invullen. Als de kwaliteit van Nederlandstalige tools onvoldoende is zal deze lokale markt sterk achterblijven bij die van de Engelstalige wereldspelers. Ovum heeft in 2002 een schatting gemaakt van de markt voor geavanceerde zoekmachines. Ovum stelde dat de omvang ervan $ 470 miljoen bedroeg in 2002 en dat deze zou groeien tot het dubbele in 2006. Dit zijn dus markten met een omvang in dezelfde orde van grootte als die voor Call Centers / IVR. Knowledge Concepts schat in dat de ‘enterprise search markt’ in 2002 voor 20% gebaseerd zal zijn op geavanceerde taaltechnologische tools. In 2006 zou dat gegroeid zijn tot 40%. Het moge duidelijk zijn dat het Nederlandse bedrijfsleven op achterstand kan raken bij zijn interne informatiehuishouding en dus zijn overall efficiency, als de toepassing van Knowledge Management zou achterblijven bij die in andere landen. 6.4.3
Lokalisatie van software en gebruiksaanwijzingen
Een derde marktsegment waar taaltechnologie een belangrijke economische impact zal hebben is de lokalisatiemarkt en de markt voor vertalingen. De lokalisatie kan in drieën worden gesplitst: de markt voor het vertalen van software naar een specifieke taal; vrijwel altijd is de brontaal Engels; de markt voor het vertalen van gebruiksaanwijzingen bij industriële producten in de taal van het land waar het product wordt verkocht; de brontaal is vaak de taal van de producent; andere typen documenten die naar een breed spectrum van talen moeten worden vertaald. De softwarelokalisatie is sterk geconcentreerd in één land, namelijk Ierland. Die concentratie is vermoedelijk niet tot stand gekomen doordat Ierland uitmuntende taaltechnologische kennis bood, maar door belastingvoordelen en dergelijke. Wat ook de reden is, de dominante positie van Ierland laat wel zien dat een dergelijke industrie voordelen ziet in concentratie. Er is één uitzondering op die concentratietendens. Het softwarebedrijf Networks Associates Technology (onder andere de maker van de McAfee anti-virus software) heeft zijn lokalisatieactiviteiten geconcentreerd in Amsterdam. Zelfs de vertaling van Engels naar Japans is enige jaren terug uit Japan weggehaald naar Nederland omdat concentratie en gebruikmaken van dezelfde tools als voor andere talen voordelen bood ten opzichte van aanwezigheid in de afzetmarkt zelf. Het belang van concentratie zal de komende tijd waarschijnlijk nog verder toenemen als naast vertaalmemories (van bijvoorbeeld leverancier Trados) ook meer geavanceerde vertaaltechnologie wordt gebruikt. Het is een economisch belang om de positie als vestigingsland voor lokalisatie te handhaven, of beter nog, uit te bouwen door te concurreren op geavanceerde kennis in plaats van belastingvoordelen. Naast de softwarelokalisatie is de lokalisatie van gebruiksaanwijzingen van belang. Een partij die al jarenlang actief is in deze markt is het Nederlandse bedrijf Océ. Na jarenlange investering in ‘eigen’ technologie heeft men de laatste jaren de route gekozen van gebruiker van elders ontwikkelde vertaalhulpmiddelen. Onder elke vertaling die binnen Océ wordt gemaakt staat geprint dat door gebruik van geavanceerde vertaaltools x % tijd is bespaard. De gangbare besparing bij Océ is 40 tot 50%.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 51 van 127
Uiteraard is het niet alleen van belang voor Océ, maar voor de gehele Nederlandse en Vlaamse productie-industrie om in een omgeving te verkeren waar taaltechnologische kennis voor efficiënte lokalisatie beschikbaar is. Die beschikbaarheid kan nog een extra multipliereffect hebben omdat het gezien kan worden als een vestigingsfactor. 6.4.4
Automatisch vertalen
De veranderingen die gelden voor de lokalisatie-industrie gelden natuurlijk ook voor de vertaalmarkt in zijn algemeenheid. Voor de Nederlandse taal is die markt niet goed ontwikkeld en de vertaalindustrie in Nederland is nog vrij ambachtelijk. In Vlaanderen zijn meer bedrijven te vinden die zich expliciet op de markt voor geavanceerde vertaaltechnologie hebben gestort, zoals Cross Language. Uiteraard creëert een tweetalig land als België ook meer marktvraag naar vertalingen en ook de in Brussel gevestigde Europese Commissie is een grootafnemer van vertalingen. De Commissie is zelfs de trekker geweest voor het creëren van een aanbieder van vertaaltechnologie voor de diverse talen binnen de Europese Unie, waaronder het Nederlands. De Commissie heeft vervolgens jarenlang gebruikgemaakt van de technologie van dat bedrijf, namelijk het Franse bedrijf Systran. Ondanks het feit dat de kwaliteit van de Systran-vertaalmodules van en naar het Nederlands aanzienlijk achterblijft bij die voor andere talenparen is lange tijd nooit actie ondernomen om meer aanbieders te creëren of om incentives te creëren die de kwaliteit bij de bestaande aanbieder probeert te verbeteren. In januari 1999 is wel zo’n activiteit gestart, namelijk het MLIS-project NL-Translex. Het project had de ontwikkeling tot doel van de vier vertaalparen Nederlands – Engels, Nederlands – Frans, Engels – Nederlands en Frans – Nederlands, uitgaande van een reeds bestaand systeem voor automatisch vertalen van algemene teksten. De aldus ontwikkelde vertaalparen zouden gebruikt kunnen worden door de vertaaldiensten van de Europese Unie en door die van de overheidsinstellingen in de lidstaten van de Unie. De technologieleverancier die de vertaalparen zou gaan ontwikkelen werd geselecteerd via een aanbestedingsprocedure volgens de Europese richtlijnen. Dit leidde tot de selectie van de firma Systran. Partners in dit project waren de Nederlandse Taalunie, tevens initiator en coördinator van het project, de Europese Commissie, het Ministerie van Onderwijs, Cultuur en Wetenschappen (Nederland), het Ministerie van Economische Zaken (Nederland), het Instituut voor de aanmoediging van Innovatie door Wetenschap en Technologie (IWT, Vlaanderen) en Systran. Verder waren de volgende organisaties als gebruikers bij het project betrokken: de Hoofdafdeling Vertalingen van het Ministerie van Buitenlandse Zaken (Nederland), het Vertaalbureau van de Sociale Verzekeringsbank (Nederland) en de Afdeling Kanselarij van het Ministerie van de Vlaamse Gemeenschap. Het project is eind 2002 afgerond. Het NL-Translex vertaalsysteem is in eerste instantie bedoeld voor overheidsinstanties. Deze kunnen via de Nederlandse Taalunie een gratis gebruikslicentie verkrijgen. Het vertaalsysteem zoals het nu beschikbaar is, is bedoeld voor algemene teksten. Men weet echter dat de prestaties van automatische vertaalsystemen veel beter zijn, als deze geschikt worden gemaakt voor specifieke vertaaldomeinen. Binnenkort zal de Nederlandse Taalunie in samenwerking met de partners in het vorige NL-Translex project, een vervolgproject opstarten waarbij geëxperimenteerd zal worden met de customization van NL-Translex voor een drietal vertaaldomeinen. Daarnaast zijn de resultaten van het project door Systran verwerkt in commerciële producten, zoals het onlangs op de markt verschenen Systran Personal 4.0. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 52 van 127
De bovenstaande alinea is met behulp van Systran Personal 4.0 vertaald van het Nederlands naar het Frans en van het Nederlands naar het Engels. Hieronder volgen de resultaten: Resulterende Franse tekst (met bovenstaande Nederlandse tekst als input): “Le projet fin 2002 complet. NL-Translex le vertaalsysteem est destiné en premier lieu pour les administrations. Ceux-ci peuvent obtenir une licence d'utilisation gratuite par le biais de l'union linguistique néerlandaise. Le vertaalsysteem comme est maintenant disponible, est destiné pour les textes généraux. Lui weet que les prestations d'un vertaalsystemen automatique améliorent beaucoup est toutefois, si ceci est fait convenable pour vertaaldomeinen spécifique. D'ici peu l'union linguistique néerlandaise en collaboration avec les partenaires dans NL-Translex précédent le projet, un projet de suite en marche mettre avec lequel sera expérimenté avec le customization NL-Translex pour une triade de vertaaldomeinen. En plus les résultats du projet ont été traités par Systran dans les produits commerciaux, comme sur le marché Systran Personal 4.0 est paru récemment.“ Resulterende Engelse tekst (met bovenstaande Nederlandse tekst als input): “The project end 2002 is rounded. NL-Translex translation system has been in the first place intended for government agencies. These can obtain a free user licence by means of Nederlandse Taalunie. The translation system such as now available is, has been intended for general texts. One knows however that the performances of automatic translation systems improve much be, if these are made suitable for specific translation domains. Soon Nederlandse Taalunie in association with the partners in previous NL-Translex project, a continuation project start up where will be experimented with the customization of NL-Translex for three translation domains. Moreover the results of the project have been processed by Systran in commercial products, such as recently on the market appeared Systran Personal 4.0”
6.4.5
Multi-lingual publishing
Zeker in Nederland is de uitgeverijsector belangrijk. Een deel van die sector, met name die voor wetenschappelijke literatuur is sterk gericht op de Engelse taal. Maar een ander deel is op de Nederlandse taal gericht. Met het beschikbaar komen van betere vertaaltechnologie wordt ook multi-lingual publishing mogelijk en kan het zijn dat de uitgeverijactiviteiten voor vele verschillende landen op één punt worden geconcentreerd. Als de Nederlandse uitgeverijen niet vroegtijdig inspelen op deze nieuwe mogelijkheden kan dit een verzwakking betekenen voor de economische positie van Nederland op het terrein van de uitgeverij. 6.4.6
Language learning
Bij spraaktechnologie is deze sector al genoemd. Juist hier is een toenemende integratie van taal en spraak te zien.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 53 van 127
6.4.7
Proofing tools
De huidige spellingcheckers zullen op termijn uitgroeien naar nog krachtiger taaltools binnen de standaardpakketten voor kantoorautomatisering. Wat onder spraak is geschreven over de brede PC-dicteermarkt heeft een equivalent voor de taaltechnologische tools Het economische belang van de taalcomponent en die voor spraak zullen vergelijkbaar zijn.
6.5
Het rendement op een investering in TST
Uit de bovenstaande kwantitatieve analyse voor spraak en de meer kwalitatieve schets voor taal blijkt overduidelijk dat TST-technologie een grote economische impact heeft. Dit is geen nieuwe constatering want in eerdere besluitvormingstrajecten over het toekennen van middelen is steeds weer dezelfde conclusie over het economisch belang van TST getrokken. Ondanks het feit dat de analyse bij spraak meer kwantitatief is dan bij taal is er geen reden om het economisch belang van spraak hoger te achten dan die voor taal of omgekeerd. Bovendien zijn de beide terreinen in toenemende mate met elkaar vervlochten. We herhalen dan ook de conclusie die al bij spraak werd getrokken. Het essentiële vraagstuk is niet zozeer of TST een economische belang heeft. Het werkelijke vraagstuk is of een extra investering in TST die economische effecten ook daadwerkelijk teweegbrengt. Dat is eerder afhankelijk van het goed functioneren van het TST-innovatiesysteem en de gerichtheid op het leveren van economisch relevante output dan afhankelijk van de vraag of het terrein op zichzelf economisch relevant is. Taal- en spraaktechnologie is economische relevant.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 54 van 127
7
Zelfanalyse van de sector en prioriteitenstelling
7.1
Workshops als input voor een analyse
Als onderdeel van een procesmatige aanpak van deze technologieverkenning heeft M&I/PARTNERS een drietal workshops georganiseerd. In bijlage 5 is opgenomen wie aan deze workshops hebben deelgenomen. Er waren gemiddeld 20 deelnemers per workshop, op de gewenste manier verdeeld over Nederlandse en Vlaamse participanten. Er was in gelijke mate participatie vanuit bedrijven als kennisinstituten. De workshops zijn door de deelnemers als zeer zinvol ervaren. Elke workshop had een centraal thema. De eerste workshop eind augustus 2003 betrof een eerste kennismaking en had het functioneren van het TST-innovatiesysteem als onderwerp; de output van die discussie is verwerkt in hoofdstuk 8 (sterkte-zwakte analyse). Tijdens de tweede workshop van medio september 2003 werden scenario’s besproken. Tijdens de derde workshop werd gestart met een discussie over onderzoeksprioriteiten.
7.2
De scenariodiscussies
In bijlage 6 zijn de besproken scenario’s opgenomen. Het ging bij deze scenario’s er niet om een zo geloofwaardig beeld van de toekomst te schetsen. Doelbewust bevatte elk scenario een toekomst in een wat extreme richting om uitspraken uit te lokken. De vier besproken scenario’s zijn hieronder in beeld gebracht.
Alle talen
Scenario 4: Nederland en Vlaanderen zijn beide global TST-players
Nederlands
Eigen taal vs. alle talen
Scenario 3: NL en Vlndr als vestigingsplaats van global TSTplayers Scenario 1: Nederland TSTonderzoeksland en Vlaanderen global player
Scenario 2: TST optimaal toegepast in NL + Vlaamse diensten -economie
Beperkt
Omvangrijker
Mate van overheidsstimulering
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 55 van 127
Als assen van dit scenariokwadrant zijn gekozen: de mate waarin de overheid stimuleert; de mate waarin de eigen moedertaal dan wel alle talen centraal werden gesteld. Voor dit laatste was gekozen omdat aanvankelijk sommige marktpartijen vraagtekens plaatsten bij een stimulering gericht op Nederlandstalige TST. In elk scenario stond een bepaald overheidsinstrument centraal: scenario 1: creëren van basistaalvoorzieningen (‘BATAVO’); scenario 2: vraagstimulering; scenario 3: steun voor strategisch onderzoek; scenario 4: directe bedrijfssteun. In de scenarioteksten werd naar een door de Europese Unie geïnitieerde benchmarkstudie verwezen om één parameter bij voorbaat ongevarieerd te kunnen laten. Uit die benchmark (zie bijlage 7) blijkt zonneklaar dat het onderzoek op het gebied van taal en spraak in zowel Nederland als Vlaanderen op hoog niveau staat. Scenario’s met slechte onderzoekers lagen dus niet ter tafel. Uiteraard was het niet de bedoeling dat één van de scenario’s als het meest waarschijnlijk werd gekozen. Doel was het uitlokken van een discussie over het potentiële succes van elk instrument. De conclusie uit de tweede workshop was dat een gemengde vorm van stimulering nodig was. Het instrument ‘gerichte bedrijfsstimulering’ werd daarbij door velen als potentieel minder succesvol gekarakteriseerd, ook al mag niet de conclusie worden getrokken dat dit een door iedereen gedeelde mening is. In deze workshop kwam ook nadrukkelijk voor het voetlicht dat er over de gewenste verhouding tussen marktpartijen en publieke instellingen verschillende visies bestaan. Maar ook werd duidelijk dat er een brede en degelijke basis bestaat om de verschillen in opvatting onderling te bespreken en om tot een oplossing te komen. De accentverschillen komen goed tot uiting door uitspraken van diverse partijen tijdens de scenariodiscussie te citeren. Naar aanleiding van scenario 1 (waarin de aandacht wordt gericht op basisvoorzieningen). Een stimuleringsbeleid gericht op basisvoorzieningen moet worden aangevuld met een additionele stimulans voor kennisontwikkeling. Op termijn zal dat bijdragen aan verspreiding van expertise over een grote groep mensen. (UT/TNO). Er moet een consensus gevonden worden hoe vrij beschikbaar de BATAVO-data moeten worden. (Universiteit Gent). Ik vind het moeilijk om het belang voor de academische wereld te vertalen in een invulling, terwijl ik de KUN als de enige belanghebbende zie. (Polderland). Creëer een centrale marktplaats voor basiscomponenten (corpora, parsers, woordenboeken, etcetera) waar onderzoeksinstellingen en TST-bedrijven elkaar kunnen vinden en waar deze componenten kunnen worden uitgewisseld. Dit kan voorkomen dat er dubbel werk wordt verricht. (Cross-Language). Stimuleer onderzoeksprogramma's die de kosten van productie voor Language Resources reduceren. (Scansoft). Er wordt nu geroepen dat de prioriteiten in de BATAVO-plannen materialen bevatten die eigenlijk al bij bedrijven beschikbaar zijn. Als dit zo is, dan zou er een lijst van zulke materialen moeten komen om daarmee een zinvolle selectie uit de BATAVO-lijsten te kunnen maken. (Nederlandse Taalunie).
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 56 van 127
Naar aanleiding van scenario 2 (waarin de aandacht gericht wordt op vraagstimulering). Bewustzijn van bestaande vraag zou met name bij integrators moeten worden gestimuleerd. (UT/TNO) Een overheidsdienst met embedded TST moet verrijkend zijn ten opzicht van bestaande diensten, dat wil zeggen door de TST een betere dienstverlening opleveren. Betrekken van kennisinstellingen daarbij is gewenst zowel voor de korte termijn als de lange termijn realisatie met complexere TST-input. (TNO Telecom) Evenwicht tussen duwen en trekken is nodig, want anders riskeer je niets fundamenteels te bereiken en worden enkel wat korte-termijn succesjes geboekt. (Universiteit Gent) Vraagstimulering is goed maar eenzijdigheid moet worden vermeden. Beleid met alleen vraagstimulering leidt tot afbraak van de kennisinfrastructuur doordat niet wordt geïnvesteerd in onderhouden en uitbouwen van kennis bij kennisinstellingen. (Nijmegen) Market pull is goed, maar dan wel in combinatie met stimulering van fundamenteel onderzoek. Onder andere om ervoor te zorgen dat we niet alleen een 'volger' worden die alleen lokalisatie doet maar om het mogelijk te maken op sommige onderwerpen voorop te blijven lopen. (Nijmegen) Kennisinstellingen moeten (via licenties) toegang krijgen tot de basisresources van bedrijven. (Leuven) Verbeteren van de eigen diensten met behulp van TST laat zien dat het werkt. Geef subsidie aan bedrijven die ook zoiets doen. (Telecats). Financier niet alleen opdrachten vanuit de overheid voor TST-applicaties, maar stel bijvoorbeeld ook middelen beschikbaar voor het stimuleren van gebruikersverenigingen waardoor bedrijven van elkaar kunnen leren. (Cross-Language) Door vraagstimulering worden vooral bedrijven gestimuleerd om meer aan R&D te doen. Kennisinstellingen worden dan indirect gestimuleerd, want bedrijven zullen contact opnemen met kennisinstellingen. Er moet altijd rekening mee worden gehouden dat de werkelijke technische vindingen vrijwel altijd bij bedrijven liggen. (Human Inference) Zie ook het Next Generation Scenario van NOTaS. (meerdere NOTaS leden) Naar aanleiding van scenario 3 (waarin de aandacht gericht wordt op strategisch onderzoek). Bestaande start-ups zijn al omgevallen als de resultaten van strategisch onderzoek op de markt komen. Ook marktvraag vertegenwoordigende partijen (bijvoorbeeld banken) moeten worden betrokken in de agenda. Real-life corpora van marktpartijen gebruiken voor onderzoek. (TNO Telecom). Steun projecten binnen de thema's waarover kennisinstellingen en bedrijven akkoord waren. Eis dat het Nederlands de eerste of toch een van de behandelde talen is in het project. Steun enkel projecten waarin meerdere instellingen samenwerken. Tracht bedrijven te betrekken door hen ook eigen data te laten aanleveren in een project. (Gent) Vraaggestuurde onderzoeksprojecten die voor bedrijven interessant perspectief bieden helpen om de huidige mismatch tussen behoefte van bedrijfsleven en aanbod vanuit onderzoek uitgevoerd aan kennisinstellingen, op te heffen of te verkleinen. (Nijmegen) Multi-lingualiteit en taalonafhankelijkheid zijn goed, maar er moet voldoende aandacht blijven voor de Nederlandse taal. Dit kan bijvoorbeeld door de componenten eerst te ontwikkelen voor het Nederlands (als test cases). Robuustheid van technologie, met name voor spraakherkenning, moet vooral ook gecreëerd worden voor de eigen taal. (Nijmegen)
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 57 van 127
Tools voor andere talen kunnen het best op buitenlandse universiteiten worden ontwikkeld. (Antwerpen) Stimuleren van samenwerking met MKB. Openzetten van ‘real life’ databases. Opleiden van mensen. (Telecats) Semantisch web en machine-vertalen als focusgebieden. (Cross Language) Poneer een visie/lijn die circa 10 jaar beslaat en jaarlijks wordt aangepast. Stimuleer een multilinguale aanpak maar stel daarbij als voorwaarde dat initieel in het Nederlands wordt gewerkt/onderzocht. (Human Inference) Leg de nadruk op ontwikkelingen voor het Nederlands plus taalonafhankelijk onderzoek (dus niet andere talen). Regel iets om 'starters' in leven te houden tot minimaal na afloop van een IOP. Zet in op verbetering Information Extraction (kenniseconomie) in brede zin. (Polderland) Koppel mensen uit het bedrijfsleven aan de onderzoeksdoelstellingen. (OV9292) Ook hier geldt weer: stimuleer de samenwerking tussen bedrijfsleven en kennisinstellingen. Welke informatie (voorzieningen) zijn er en welke moeten hoe en onder welke voorwaarden worden ontwikkeld? (Human Inference) Investeer in robuuste spraakherkenning, semantisch web en basisvoorzieningen voor het Nederlands. (Nederlandse Taalunie) Naar aanleiding van scenario 4 (waarin de aandacht gericht wordt op directe bedrijfssteun). Stimulering van start-ups en de groei van kleine bedrijven is belangrijk. (TNO) Technology push is belangrijk, maar daarnaast zouden afnemers en integrators gestimuleerd moeten worden om met TST-producten te werken. (UT/TNO) Stel kaders voor samenwerking tussen kennisinstelling en bedrijven vast. Creëer een pre voor bedrijven op Nederlands taalgebied. Betrek bedrijven bij de Batavo-agenda. Vraag blijft: hoe stimuleer je de markt voor TST-producten? (TNO Telecom) Gerichte bedrijfsstimulering zal vooral bijdragen tot de realisatie van korte-termijnplannen van bedrijven, maar zal weinig bijdragen tot het tot stand komen van open-source voor taalvoorzieningen. Het strategisch onderzoek komt dan niet sterk aan bod. (Gent) Tezijnertijd kan gerichte bedrijfsstimulering aanvullend zijn op een IOP. Nu is het (nog) niet actueel. Bij voorkeur aansturen op gedistribueerde aanleg van resources die in algemeen toegankelijke pool beschikbaar zijn voor alle belanghebbenden. (Nijmegen) Gerichte bedrijfsstimulering komt enkel tegemoet aan korte-termijnbelangen van het bedrijfsleven. Staat ook compleet los van het opgestelde Batavo-plan. Er is geen speciale aandacht voor de Nederlandse taal bij een dergelijke benadering. (Leuven) De samenwerking tussen bedrijven en kennisinstellingen wordt niet gestimuleerd door gerichte bedrijfsstimulering. Eerder het tegenovergestelde. Financiering van zowel 1) bedrijven als 2) Batavo zal waarschijnlijk niet leiden tot doorstroom van kennis en producten. (Nijmegen) Het zal moeilijk zijn 1) goede afspraken te maken over de beschikbaarheid van de producten voor de kennispartners en 2) geen concurrentievervalsing te krijgen door het ontwikkelen van bestaande producten. (Antwerpen)
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 58 van 127
Semantisch web-projecten samen met machinevertalen (MT) zouden een focus kunnen zijn voor significante vernieuwing. Dit sluit aan bij zoekmachines zoals Autonomy, Verity en Google en bij Knowledge Management. De betekenis van dit type applicatie zal enorm groeien. Nederland en Vlaanderen zouden door gerichte overheidsstimulering van dergelijke applicaties een belangrijke rol op wereldschaal kunnen spelen in semantisch-web en MT applicaties. (Cross Language) Het Next Generation Scenario (NGS) dat NOTaS op verzoek van EZ heeft opgesteld is de toetssteen voor directe bedrijfsstimulering. Batavo is de toetssteen voor specifiek Nederlands. Er moet een commissie komen met daarin bedrijven, kennisinstellingen en overheid die jaarlijks de NGS / Batavo aanpast en aan de realiteit toetst. (Human Inference) Er is speciale aandacht nodig voor kleine bedrijven die in het geschetste scenario voor bedrijfsstimulering geen kans maken. Het scenario is alleen haalbaar voor innovatief onderzoek en niet voor productontwikkeling (aanbesteding). Lijkt zeer korte-termijnscenario waarbij slechts gehoopt kan worden dat (toevallig) de juiste keuzes gemaakt worden. De overheid moet de richting van onderzoek & ontwikkeling niet gaan bepalen. (Polderland) Marktvraag definieert behoeften die weer leiden tot onderzoeksvragen. De creatie van marktvraag ontbreekt in het voorgelegde scenario. (OV9292) Stimuleer projecten die bijdragen aan kostenbesparing voor het aanmaken van Language Resources. Zorg voor aan bedrijven aangepaste subsidiëringmiddelen: korte opstarttijd, korte doorlooptijd en hoge mate van flexibiliteit. (Scansoft)
7.3
Visie van het veld op wenselijke onderzoeksprioriteiten
In de derde workshop werd gestart met een discussie over onderzoeksprioriteiten. Aanvankelijk werd dit gedaan aan de hand van A4-projectvoorstellen waarom door M&I/PARTNERS was gevraagd. Vanuit sommige bedrijven en een enkel kennisinstituut werd aangegeven dat een dergelijke procedure binnen zeer korte tijd niet kon voldoen aan de eisen van wetenschappelijke zorgvuldigheid en stelde men een alternatief voor. Dat heeft erin geresulteerd dat vanuit NOTaS (een samenwerkingsverband tussen Nederlandse TST-bedrijven en Nederlandse kennisinstituten) en vanuit Scansoft prioriteiten zijn ingebracht. Die zijn opgenomen als bijlage 8 en 9. De A4-procedure die tijdens de derde workshop is gestart, is niet afgerond. In hoofdstuk 9 wordt geadviseerd om die in de follow-up van deze technologieverkenning en dan met de vereiste wetenschappelijke zorgvuldigheid, weer op te pakken.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 59 van 127
8
Sterkte-zwakte analyse van het innovatiesysteem
8.1
Sterkten van het innovatiesysteem
8.1.1
Wetenschappelijke kwaliteit staat niet ter discussie
Zoals al in het vorige hoofdstuk ter sprake is gebracht, staat het Nederlandse en Vlaamse onderzoek zowel voor spraak- als taaltechnologie op hoog niveau. Dit is dus onweerlegbaar een sterk punt van het innovatiesysteem. (Opnieuw wordt verwezen naar bijlage 7.) 8.1.2
Grote internationale zichtbaarheid
Sterk verweven met het voorgaande is het gegeven dat Nederland internationaal een belangrijke positie heeft. Het secretariaat van het Europese Network of Excellence berust bij Nederland (ondergebracht bij de universiteit van Utrecht, S. Krauwer als secretaris). Vanuit de optiek van de Nederlandstalige TST zou het overigens ook als zwakte gezien kunnen worden, want Nederlandse onderzoekers concentreren zich vaak op meer dan één taal bij hun onderzoek. Toch is het Nederlands vaak wel onderdeel van het (vergelijkend) onderzoek en levert het multilinguale perspectief natuurlijk ook extra inzichten op. Een computerprogrammeur die alleen in COBOL kan programmeren zal nooit tot grote academische hoogte stijgen. 8.1.3
Intensieve wisselwerking tussen marktpartijen en kennisinstituten
Zowel Nederland als Vlaanderen kennen een traditie waarin samenwerkingsprojecten worden opgezet tussen de ‘taalindustrie’ en de kennisinstituten. In het verleden waren dat vaak samenwerkingsprojecten met grote industriële partijen die investeerden in taal en spraak (Philips met Rosetta, Siemens met Metal, BSO met DLT, Océ met zijn vertaaltechnologie, L&H met zijn spraaktechnologie, KPN Telecom met zijn interesse in geavanceerde Voice Respons). Nu veel van die grote partijen het speelveld hebben verlaten is de samenwerking verschoven naar samenwerking met kleinere partijen. Soms zijn die nog niet voorbij een start-up fase, soms hebben ze al jaren lang een gevestigde positie verworven (bijvoorbeeld Polderland) zonder de onkwetsbaarheid van een industriële gigant te kunnen krijgen. In Vlaanderen is de samenwerking minder drastisch veranderd en verschoven van de ene global player (L&H) naar haar opvolger (Scansoft). Overigens ook Scansoft’s inspanning op het terrein van spraak- en taaltechnologie is (wereldwijd) niet groter dan 600 personen. De verschuiving van grootmachten naar kleinere spelers heeft wel zijn effect op de samenwerkingsrelaties. De marktpartijen kunnen zich geen samenwerking puur voor de etalage permitteren en kijken zakelijk naar wat een samenwerking hen oplevert. Dat leidt tot meer emotie dan in het verleden.
8.2
Zwaktes van het innovatiesysteem
Het TST-innovatiesysteem kent niet alleen sterke punten. De zwakke punten kunnen worden onderverdeeld in drie categorieën: 1. zwakheden door het gebrek aan basistaalvoorzieningen; 2. interne zwakheden binnen het TST-onderzoek zelf; 3. overige zwakheden (in totaal 6). Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 60 van 127
In onderstaand schema zijn alle acht zwakheden aangegeven. Vraagzijde TST-technologie
Probleem 3: niet geregelde IPR + IPR-historie Randvoorwaarden en infrastructurele condities
Probleem 4: onvoldoende participatie bij int. standaardisatie Makelaars, advies en voorlichting
LAAG 4: gebruiker
Onderwijssubsysteem
Afname van producten en diensten met embedded TST
Probleem 8: traagheid aan vraagkant
Aanbodzijde TST-technologie LAAG 3: TST-embedding
Toegepast onderzoek met TST afhankelijkheden
TST-integratie bij product- en platform ontwikkeling
Ontwikkeling van applicaties met embedded TST
Probleem 7: TST één uit velen Probleem 5: interactie + nieuwe start-ups
Strategisch TST-onderzoek
Toegepast TST-onderzoek
Probleem 2: 'interne' problemen
Maken van TST-modules en halffabrikaten
Probleem 6: te klein aantal
Fundamenteel TST-onderzoek
LAAG 2: TST-onderzoek en ontwikkeling
Probleem 1: onvoldoende basistaalvoorzieningen Strategische basisvoorzieningen
Productgerichte basisvoorzieningen
LAAG 1: TSTbasisvoorzieningen
Afstand tot de markt
8.2.1
Zwakheden als gevolg van onvoldoende basistaalvoorzieningen
In dit rapport is al meerdere malen het belang van basistaalvoorzieningen benadrukt en is al meerdere malen verwezen naar het BATAVO-document dat de beschikbaarheid van deze basisvoorzieningen centraal stelt. Het feit dat ze onvoldoende beschikbaar zijn en de relatieve achterstand ten opzichte van talen met een groot verspreidingsgebied is zonder meer een zwak punt van het innovatiesysteem. 8.2.2
Interne zwakheden
Een tweede categorie zwakheden heeft betrekking op het systeem van het TST-onderzoek zelf. Het volgende is te signaleren. De TST-sector kent grote schommelingen in beschikbaarheid van middelen. Telkens als een groot project wordt afgerond, valt het onderzoeksvolume terug en kan onvoldoende continuïteit worden geboden aan (jonge) onderzoekers. Voor een deel is dit gebrek aan continuïteit een extern gegeven. Maar anderzijds is de onderzoeksgemeenschap ook onvoldoende goed georganiseerd en onvoldoende gericht op het verdedigen van de eigen belangen. In deze verkenning is een historisch overzicht van eerdere middelentoekenningen opgesteld en een economische analyse gemaakt van het belang van TST. Het is opvallend hoe weinig eigen kracht de sector heeft om dit type analyses op te stellen.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 61 van 127
In Vlaanderen is er een bundeling van de gezamenlijke onderzoeksinstituten in CLIF. In Nederland is zo’n bundeling er niet. Wel nemen een groot deel van de Nederlandse instellingen deel aan NOTaS, maar enkele instellingen ontbreken in die samenwerking. Dat creëert een extra drempel om de gemeenschappelijke belangen goed te verwoorden en te verdedigen. De discussie tussen kennisinstituten en marktpartijen is overduidelijk geïntensiveerd, maar is nog te weinig zakelijk van karakter. 8.2.3
Overige zwakheden
De zes overige zwakheden in het TST-innovatiesysteem zijn de volgende. De beperkte beschikbaarheid van Language Resouces (zwakte 1) is meer dan de pure afwezigheid. De sector is onvoldoende in staat om de intellectuele rechten van aangemaakte resources goed te regelen in adequate en innovatiebevorderende IPR-afspraken. De publieke kennisinstituten participeren in standaardisatieactiviteiten, maar op een onvoldoende schaal en met te weinig terugkoppeling naar alle TST-kennisinstituten en de TST-bedrijven De TST-sector is een ideaal voorbeeld van een sector waar onderzoeksresultaten kunnen worden vertaald in nieuwe start-ups. Dat is gebeurd en de voorbeelden zijn duidelijk te noemen, maar idealiter worden er meer nieuwe bedrijven gecreëerd, zowel met een verankering op laag 2 of pure laag 3 spelers die bestaande of pas ontwikkelde producten van derden integreren. Voor het bepalen van het succes van een stimuleringsaanpak is het ook cruciaal om te monitoren of dergelijke nieuwe bedrijvigheid daadwerkelijk ontstaat. (Duidelijke verbreding van de markt van bestaande spelers moet uiteraard ook gezien worden als nieuwe bedrijvigheid.) De integratoren van TST die niet in niches opereren maar TST zien als één van de vele bouwstenen in hun toepassingen, zijn heel moeilijk op het thema TST te mobiliseren. Ze hebben nauwelijks op deze technologieverkenning gereageerd, ondanks het feit dat ze daar uitdrukkelijk voor waren uitgenodigd. Bij het formuleren van een stimuleringsbeleid moet goed met deze zwakte rekening gehouden worden. De vraagkant is onvoldoende ontwikkeld. Veel bedrijven zouden TST kunnen invoeren en zouden daar een economische belang bij hebben. Maar door onbekendheid en door het vermijden van risico’s gebeurt dat onvoldoende. De opsomming van zwakheden laat zien dat die niet geconcentreerd zijn op één onderdeel en heel divers zijn. Een stimuleringsaanpak van TST zal daarom ook divers moeten zijn, wil ze succesvol kunnen zijn.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 62 van 127
9
Voorstel voor een stimuleringsprogramma
9.1
De noodzaak van een gemend instrumentarium
Zowel uit de zelfanalyse van het veld als uit de voorafgaande analyse van sterktes en zwaktes volgt dat een stimuleringsaanpak een hybride karakter dient te hebben. In onderstaand figuur is het in dit rapport gehanteerde vier-lagen model voor de TST-sector geplaatst in het door Arnold en anderen ontwikkelde, en door het Nederlandse ministerie van Economische Zaken gehanteerde Dynamisch Innovatiesysteem (DIS). Het DIS geeft een helder totaaloverzicht van het instrumentarium dat overheden tot hun beschikking hebben.
Vraagzijde TST-technologie
Randvoorwaarden en infrastructurele condities
Makelaars, advies en voorlichting
Vraag van bedrijven / overheid ('intermediate demand')
LAAG 4: gebruiker
Onderwijssubsysteem Politieke systeem (Overheid / RTDgovernance / RTD beleid)
Aanbodzijde TST-technologie Fundamenteel TST-onderzoek
Consumentenvraag ('final demand')
Afname van producten en diensten met embedded TST
LAAG 3: TST-embedding LAAG 2: TST-onderzoek en ontwikkeling Strategisch TST-onderzoek
Toegepast TST-onderzoek
Maken van TST-modules en halffabrikaten
LAAG 1: TST-basisvoorzieningen Strategische basisvoorzieningen
Productgerichte basisvoorzieningen
Afstand tot de markt Effectiviteit van overheidsbeleid
Hieronder volgt een discussie van de mogelijkheden. Stimuleren door de overheden van de activiteiten op laag 1. Dit impliceert het steunen van het BATAVO-plan voorzover het de data betreft in de basisvoorzieningen. Hierna wordt dit onderdeel van het BATAVO-plan aangeduid met ‘BATAVO-data’. De nadruk voor overheidsbeleid moet liggen op generieke bestanden, terwijl de aanmaak van productgerichte Language Resources vooral aan marktpartijen overgelaten kan worden. Stimuleren van de activiteiten op laag 2. Hieronder vallen opnieuw de voorstellen in het BATAVO-document, maar nu wat betreft de generieke tools die worden gebruikt in combinatie met basisbestanden. Hierna worden die aangeduid met ‘BATAVO-tools’. Het creëren van basisbestanden mag uiteraard niet zonder zo’n parallel traject om tools te creëren. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 63 van 127
Anders is er het risico dat ze ongebruikt op de plank blijven liggen. En de tijdens de tweede workshop bepleite zoektocht naar methoden om de productiekosten van basisbestanden te reduceren mag uiteraard ook niet ontbreken. Ook het TST-onderzoek – van fundamenteel tot toegepast - bevindt zich op laag 2. Een extra financiële injectie, vooral voor onderzoek met een strategisch karakter, zal het rendement van de investeringen in basisvoorzieningen verbeteren en daarnaast, los van basisvoorzieningen, additionele methoden en inzichten creëren. Die moeten (en kunnen in dit TST-domein) op de middellange termijn daadwerkelijk leiden tot nieuwe start-up bedrijven. Dat kunnen dan de voor het TST-innovatieproces zo cruciale partijen op laag 2 zelf zijn. Dan wel nieuwe nichegeoriënteerde integratoren en embedders op laag 3. Stimulering direct op laag 3 is vrijwel ondoenlijk. Onderzoek met TST-afhankelijkheden heeft een onvoldoende scherpe focus voor een gerichte stimuleringsaanpak, zoals die in een IOP vorm krijgt. En de kans dat er enig volume aan dergelijke projecten bij de minder inhoudelijk gefocusseerde SBO-regeling in Vlaanderen zullen worden gesteund is ook gering. Voor de ontwikkelaars van applicaties met embedded TST blijft taal en spraak ook maar één van de vele onderdelen om te integreren in hun eindproduct. Daarop zullen ze moeilijk te mobiliseren zijn. Bovendien is de productontwikkeling een marktaangelegenheid waar de overheid meestal weinig grip op heeft. Vraagstimulering op laag 4. Uiteraard heeft de overheid hier zijn beperkingen en kan het alleen de eigen vraag van overheidspartijen beïnvloeden. Maar de op die manier uitgeoefende invloed aan de vraagkant zal wel heel effectief zijn en de juiste balans tussen ‘push’ en ‘pull’ creëren. Via de vraagkant (in plaats van de aanbodzijde) wordt zo ook invloed uitgeoefend op de laag 3 partijen. Randvoorwaarden en condities: cruciaal is hier een duidelijke aanpak van het IPR-vraagstuk. Daarnaast is het participeren in standaardisatiewerkzaamheden van belang. Deze vijf aanbevolen opties zijn aangegeven in onderstaand schema: Standaardisatie
IPR-beleid
Vraagzijde TST-technologie
Randvoorwaarden en infrastructurele condities
Makelaars, advies en voorlichting
Onderwijssubsysteem
LAAG 4: gebruiker
Afname van producten en diensten met embedded TST
Vraagstimulering Aanbodzijde TST-technologie Toegepast onderzoek met TST afhankelijkheden
LAAG 3: TST-embedding
Fundamenteel TST-onderzoek
Strategisch Strategisch TST-onderzoek
TST-integratie bij product- en platform ontwikkeling
Maken van TST-modules en halffabrikaten
Toegepast onderzoek IOP / SBO TST-onderzoek
Ontwikkeling van applicaties met embedded TST
LAAG 2: TST-onderzoek en ontwikkeling
Batavo - tools Batavo Strategische basisvoorzieningen
- data
Productgerichte basisvoorzieningen
LAAG 1: TSTbasisvoorzieningen
Afstand tot de markt
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 64 van 127
In het DIS-model zijn ook voorlichting en het onderwijs subsysteem expliciet opgenomen. Die behoeven geen aparte aandacht. Voorlichting, advies en makelaarsfunctie: voorlichting en kennisdisseminatie rond in gang gezet onderzoek zal altijd een integraal onderdeel zijn van een Nederlands stimuleringsbeleid langs de lijnen van een al of niet hybride IOP. Daarmee is makelen tussen de publieke kennisinfrastructuur en marktpartijen automatisch een integraal onderdeel van een stimuleringsbeleid. Makelen tussen marktpartijen kan de overheid overlaten aan de markt, bijvoorbeeld aan een door TST-marktpartijen opgerichte brancheorganisatie als NOTaS. Wellicht is steun voor een marktinitiatief gewenst, maar voor dergelijke steun bestaan al instrumenten waarop dan een beroep gedaan zou kunnen worden. Die vorm van makelen is daarom geen integraal onderdeel van de in dit rapport aanbevolen stimuleringsaanpak. Het makelen in Vlaanderen tussen markt en publieke kennisinstituten heeft duidelijk al vorm gekregen en vraagt nauwelijks om extra maatregelen. Door de structuur van de Vlaamse markt met een beperkter aantal spelers waarvan één hele dominante, is dit makelaarsvraagstuk overigens ook minder ingewikkeld dan in Nederland. Onderwijs-subsysteem: er wordt van uitgegaan dat extra steun voor onderzoek automatisch een impact zal hebben op het onderwijs-subsysteem. Ook hier zijn geen additionele maatregelen vereist.
9.2
De onvoorwaardelijke noodzaak van vraagstimulering
Het succes van de geschetste aanpak met vijf componenten zal sterk afhankelijk zijn van de mate waarin de vraagstimulering concreet wordt ingevuld. In het verleden is NWO bij de vormgeving van het OVIS-onderzoek (Openbaar Vervoer Informatie Systeem) ook al de weg van vraagstimulering gaan bewandelen, al karakteriseert NWO haar aanpak eerder als ‘technische demonstrator’. Die aanpak is in elk geval als technische demonstrator succesvol afgerond en positief geëvalueerd. Ook werd OVIS door marktpartijen genoemd als succesvolle toepassing van geavanceerde spraaktechnologie. Er zijn dus zeker mogelijkheden om deze route van vraagstimulering verder in te slaan. De overheid heeft in haar eigen dienstverlening meer dan genoeg momenten waarop geavanceerde TST kan worden ingezet. In beperkte mate doet ze dat overigens al. (De belastingdienst gebruikt bijvoorbeeld de geavanceerde tools van Human Inference.) Het is goed om na te gaan welke risico’s worden gelopen als een vraaggerichte component géén onderdeel is van de stimuleringsaanpak. De kans is groot dat onderzoekers zich vooral zullen richten op laag 1 en laag 2 en de relatie tussen beide lagen (in de vorm van het produceren van tools voor basisvoorzieningen). Die basisvoorzieningen leiden dan niet tot de beloofde toepassingen in de markt. En ook de keuze welk basisbestand wel en welk basisbestand geen prioriteit moet krijgen wordt dan op geen enkele manier door ontwikkelingen in de markt beïnvloed. De kans wordt groter dat de bestaande niche-georiënteerde bedrijven onvoldoende profiteren van de stimulering van het onderzoek. Juist die kleinere niche-spelers uit Nederland zullen gemakkelijker bij een stimuleringsbeleid worden betrokken als er ook een vraagcomponent wordt gecreëerd waarop ze kunnen inspelen. (Grotere bedrijven zoals Scansoft kunnen wel op alleen push-georiënteerd beleid inspelen.)
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 65 van 127
9.3
De onvoorwaardelijke noodzaak van een IPR-beleid
Ook IPR-beleid moet onvoorwaardelijk onderdeel zijn van de hybride stimuleringsaanpak die in dit rapport wordt bepleit. Het is van belang om te beseffen dat het niet alleen gaat om de intellectuele rechten op nieuw te creëren basisbestanden. In het verleden zijn vaak bestanden gecreëerd met (mede)financiering van de nationale of Europese overheid waarvan achteraf is gebleken dat de rechten onvoldoende duidelijk zijn geregeld. Soms is onduidelijk wie de rechthebbende is doordat er bij aanvang geen afspraken over zijn gemaakt. Ook kan het zijn dat bij veranderingen (bijvoorbeeld de overgang van KPN Research naar TNO) niet helder is waar eigendomsrechten heen zijn meeverhuisd. En tenslotte kan het zijn dat rechten bij partijen onder voorwaarden zijn neergelegd (bijvoorbeeld voorwaarden ten aanzien van medefinanciering) en dat alom betwijfeld wordt of aan die voorwaarden voldaan is. De overheid doet er in zo’n situatie goed aan geen ‘publieke domein filosofie’ te hanteren voor nieuwe door haar (mede)gefinancierde Language Resources, maar om rechten te claimen en - als het niet gewenst is inkomsten voor het gebruik te vragen - licenties ‘om niet’ te verlenen aan al die partijen die een bijdrage leveren om het vraagstuk van ‘lacunes in de IPR-regelingen’ tot een oplossing te brengen. Aan partijen die daar niet aan meewerken, zou dan wel een financiële vergoeding kunnen worden gevraagd voor het gebruik van een nieuwe basisvoorziening. Er moet ook voor worden gewaarschuwd dat er geen simpele regels zijn voor een IPR-regeling die universeel van toepassing is op elke basisvoorziening. Het is niet uitgesloten dat nieuwe Language Resources worden gecreëerd die als kern of als onderdeel een deelbestand hebben dat eerder is geproduceerd door een private partij. De private inbreng zal in zo’n geval tot uitdrukking moeten komen in een IPR-regeling, tenzij de oorspronkelijke rechten worden aangekocht door publieke partijen. Tenslotte moet worden opgemerkt dat het niet is uitgesloten dat soms ook voor tools of modules een IPR-regeling moet worden getroffen.
9.4
Toekenning van financiering voor tools of onderzoek versus LR’s
Het bijzondere karakter van generieke Language Resources komt ook tot uitdrukking in het verschil dat noodzakelijk zal zijn tussen het financieren van de aanmaak van basisdata en het toekennen van subsidies aan onderzoek of tool-ontwikkeling. De essentie van zowel een IOP in Nederland als een SBO in Vlaanderen is dat overheidsmiddelen beschikbaar worden gesteld aan de publieke kennisinstituten. Marktpartijen zijn bij een IOP betrokken bij de programmering en begeleiding van onderzoek, maar profiteren niet direct van de beschikbare geldstromen. Het gangbare middel om tot toekenning van middelen te komen is een selectie van projectvoorstellen die zijn ingediend naar aanleiding van een ‘Call for Project Proposals’. Die projectvoorstellen moeten passen binnen een meerjarenplan voor het onderzoek en moeten vallen binnen de thema’s waarvoor een oproep wordt uitgestuurd. Voorstellen voor het produceren van nieuwe Language Tools of taalmodules kunnen vallen binnen hetzelfde mechanisme. De financiering is weer uitsluitend bestemd voor publieke kennisinstituten.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 66 van 127
Voor het toekennen van middelen voor de productie van nieuwe Language Resources ligt een aanbestedingsprocedure meer voor de hand. Het is bij die aanbesteding niet noodzakelijk en voor een goede samenwerking tussen marktpartijen en publieke kennisinstituten ook onwenselijk om bij voorbaat realisatie door een marktpartij of realisatie in een combinatie van marktpartij(en) en publieke partij(en) uit te sluiten. De publieke kennisinstituten zijn zelf alleen geïnteresseerd in het beschikbaar komen van Language Resources en niet zozeer in de productie ervan. Net als een Hoge Energie fysicus bij CERN niet geïnteresseerd is in de vraag wie zijn versneller heeft gebouwd, zo zal een computerlinguïst niet wezenlijk geïnteresseerd zijn hoe een generiek basisbestand voor taal wordt gecreëerd. De Hoge Energie fysicus heeft de ambitie een versneller te gebruiken voor onderzoek en heeft geen ambitie om er een te bouwen. Bouwen vereist hele andere deskundigheden dan het doen van onderzoek met een versneller bij CERN. Bij Language Resources gaat het bij productie van een basisvoorziening net zo om hele andere deskundigheden dan onderzoeksvaardigheden. Het zijn het type deskundigheden die we bij monniken aantreffen: het is ‘monnikenwerk’. De aanmaak van BATAVO-data is ook geen onderwerp waarop men kan promoveren. En er kunnen dus ook geen AIO’s voor worden ingezet. In het BATAVO-plan worden voor het monnikenwerk bijvoorbeeld (relatief goedkope) student-assistenten ingehuurd. Mocht een private partij een andere en wellicht goedkopere methode voorstellen om hetzelfde resultaat te bereiken, dan is er vanzelfsprekend niets op tegen om daar de voorkeur aan te geven. Voor de te volgen procedure wordt dan ook het volgende geadviseerd. Er wordt een aanbestedingsdocument opgesteld waarin een gedetailleerd eindresultaat wordt omschreven. Er is geen reden om de aanbesteding van het ene basisbestand in de tijd te koppelen met dat van een ander terwijl in een Call for Project Proposals altijd wel bundeling van voorstellen in de tijd ontstaat. Er wordt een deadline voor aanbiedingen vastgesteld en er wordt aanbesteed. Boven een bepaald bedrag zal dat een Europese aanbestedingsprocedure moeten zijn. Er wordt een ‘beste bieder’ geselecteerd, waarbij de kans weliswaar klein is dat deze afkomstig is uit een regio buiten het Nederlandse taalgebied, maar het is niet strikt uitgesloten. De opdracht wordt gegund. Het BATAVO-document zoals dat is opgesteld in opdracht van de Nederlandse Taalunie verliest door het bovenstaande niets aan waarde. Wel is gebleken dat het tot verwarring leidt als data en tools in een totaalkader worden geplaatst zonder het strikte onderscheid in middelentoekenning te maken dat hier wordt bepleit. De consequentie is dat het bestaande BATAVO document op korte termijn in twee separate documenten moet worden gesplitst: één document voor data en één voor tools/modules. De voor de hand liggende opdrachtgever daarvoor is de Nederlandse Taalunie.
9.5
Aanmelden van het in eigendom bezitten van Language Resources
Bovenstaande tenderprocedure voor Language Resources zou er toe kunnen leiden dat bestaande bestanden die zijn opgebouwd door marktpartijen gedupliceerd worden. Er zijn twee redenen om dat te vermijden: vanzelfsprekend leidt het tot dubbel investeren en dus inefficiënte besteding van financiële middelen; Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 67 van 127
ernstiger is nog dat de marktpositie van een innovatieve niche speler zou kunnen worden ondergraven zoals in paragraaf 4.3.4 is geschetst; uiteraard heeft een stimuleringsprogramma de functie om bedrijvigheid te stimuleren, niet om de positie ervan aan te tasten. De organisatie NOTaS is met een voorstel gekomen om het gevaar dat dit laatste gebeurt te verkleinen. Private partijen melden het bezit van Language Resources vrijwillig aan bij de organisatie die verantwoordelijk wordt voor het management van een TST-stimuleringsaanpak indien deze bestanden zijn gecreëerd met private middelen (waarbij WBSO-middelen ook tot private financiering worden gerekend). Diezelfde partijen melden het bezit van Language Resources verplicht aan bij de bovengenoemde organisatie als dergelijke bestanden zijn ge(co)financierd met publieke middelen (waarbij financiering via de WBSO weer niet als publieke financiering wordt gezien). Het advies is om dit voorstel van NOTaS over te nemen. Bij het stellen van prioriteiten voor basisbestanden en het opstellen van aanbestedingsdocumenten kan er dan rekening mee worden gehouden. Overigens is het waarschijnlijk dat een generiek basisbestand dat in opdracht van de overheid wordt gecreëerd altijd minder specifiek en op een niche is toegesneden wanneer een bestand van een TST-bedrijf dat in een niche opereert, ook al kan niet worden ontkend dat ook een gedeeltelijke duplicering altijd een bedreigend element bevat voor zo’n speler.
9.6
Organisatie van een hybride programma
Bij het kiezen van een organisatorische opzet voor het voorgestelde hybride programma moet er rekening mee worden gehouden dat de bestuurlijke kwaliteiten die nodig zijn om vraagstimulering en IPR-beleid vorm te geven niet dezelfde zullen zijn als de vereiste kwaliteiten voor het vaststellen van inhoudelijke onderzoeksprioriteiten. De inhoudelijke onderzoeksprogrammering kan aan een (in Nederland gebruikelijke) programmavoorbereidingscommissie worden overgelaten (die men ook de naam van programmacommissie kan geven). Het is gewenst om die commissie geen finale besluitvormingsbevoegdheid te geven, ook al gezien de soms forse verschillen in visie die er bestaan tussen diverse onderzoeksinstituten over de gewenste richting van het onderzoek of de gewenste vorm voor samenwerking met marktpartijen. Het is dan beter om inhoudelijke voorstellen te laten voorbereiden door de programmavoorbereidingscommissie en een bestuurslaag daarboven een ‘ja, akkoord’ of ‘nee, omdat’ te laten formuleren. Bij het uitblijven van instemming wordt de taak om een herzien advies op te stellen weer bij de programmavoorbereidingscommissie neergelegd.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 68 van 127
Financiers
Vraagstimulering (6 mln € over 5 jaar; 'zaaigeld' / bijdrage aan demonstrators)
Uitvoeringskader vraagstimulering
`Black box' Eén of meer lagen "JA" of "NEE omdat" besluitvorming
IPR-beleid voor publiek (mede)gefinancierde basisvoorzieningen / tools / modules
Uitvoeringskader IPR-beleid
Progr. cie.
De precieze opzet van de bestuurlijke laag boven de programmavoorbereidingscommissie valt buiten de scope van deze technologieverkenning. Het is nog een punt van discussie of deze laag uit één bestuur, vrij ongebonden ten opzichte van de financierende overheden, kan bestaan of dat een opzet met meer niveaus de voorkeur verdient. In het schema hierboven is die bestuurlijke laag dan ook als ‘black box’ aangeduid. Wel moet duidelijk zijn dat de verantwoordelijkheden om vraagstimulering effectief te maken en een IPR-beleid vorm te geven bij deze ‘black-box’ moeten liggen en niet bij de vooral onderzoeksinhoudelijk georiënteerde programmavoorbereidingscommissie. Waar mogelijk moet de personele capaciteit om die verantwoordelijkheden waar te maken door de ‘black box’ worden ingehuurd bij organisaties die onderzoeksprogramma’s begeleiden (Senter, NWO, AWI/ATI in Vlaanderen).
9.7
Eén organisatorisch kader voor Nederland en Vlaanderen tezamen
De hierboven geschetste opzet zou voor Nederland en Vlaanderen gezamenlijk moeten gelden. Het inhoudelijke terrein van de TST en de daarbinnen opererende marktpartijen zijn te zeer verweven om een separate inhoudelijke aansturing voor Nederlandse respectievelijk Vlaamse partijen te kunnen tolereren. Met een dergelijk gezamenlijke opzet is overigens al ervaring opgedaan in het TST-veld, namelijk bij de realisatie van het Corpus Gesproken Nederlands. De praktijk leert dat bij de realisatie van de gezamenlijk vastgestelde programmatische inhoud nog al eens teruggevallen wordt op de eigen nationale uitvoeringskaders. Bij de inhoudelijke onderzoeksprogrammaring, de aanpak van IPR, bij de opzet van projectbegeleidingsgroepen en zelfs ten aanzien van de basisfilosofie voor vraagstimulering is het echter absoluut noodzakelijk dat Nederland en Vlaanderen gezamenlijk optrekken.
9.8
Benodigd budget
Nu de hybride-opzet van een stimuleringsaanpak is geformuleerd en de organisatorische vormgeving van een programma op hoofdlijnen is geschetst, is het noodzakelijk de vraag te beantwoorden welke financiële omvang een programma moet krijgen, zowel in zijn geheel als relatief tussen de diverse deelprogramma’s.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 69 van 127
Gegeven de ambitieuze doelstelling om achterstanden voor de eigen Nederlandse taal in te halen en om op deelterreinen op wereldschaal kopposities in te nemen in het gebruik van spraak en taal, wordt geadviseerd. om het volume aan publiekonderzoek met € 12 miljoen over vijf jaar te versterken; dit is een groei van ongeveer een kwart omdat het lopend onderzoeksvolume over vijf jaar zo’n € 50 miljoen bedraagt (voor taal plus spraak en voor Nederland plus Vlaanderen); om dat bedrag van € 12 miljoen ongeveer in gelijke mate te verdelen tussen werk van onderzoekers voor aan basisbestanden gerelateerde tools en modules (hiervoor aangeduid met ‘BATAVO-tools’) en onderzoeksactiviteiten met een andere scope; om € 6 miljoen beschikbaar te stellen voor de aanmaak van de Language Resources zelf (hiervoor aangeduid met ‘BATAVO-data’); om een even groot bedrag beschikbaar te stellen voor vraagstimulering; om de totale kosten van € 24 miljoen over over jaar op de gangbare 1 : 2 wijze te verdelen over Vlaanderen en Nederland, dus € 16 miljoen voor Nederland en € 8 miljoen voor Vlaanderen; eveneens om een ongeveer gelijke prioriteit aan taal als aan spraak te geven (waarbij moet worden bedacht dat er een toenemende integratie van taal en spraak zichtbaar is, zodat dit onderscheid wel steeds minder zinvol wordt). In onderstaand schema zijn deze geadviseerde financiële injecties in taal- en spraaktechnologie opgenomen, waarbij weer benadrukt is dat de verantwoordelijkheid voor vraagstimulering bestuurlijk op een andere laag ligt dan de programmatische verantwoordelijkheid voor BATAVO en strategisch onderzoek. Voor IPR-beleid is geen apart bedrag genoemd. De kosten van IPRbeleidsformulering kunnen worden gedekt uit een algemene overhead. IPR-beleid voor publiek (mede)gefinancierde basisvoorzieningen / tools / modules
Vraagstimulering (6 mln € over 5 jaar; 'zaaigeld' / bijdrage aan demonstrators)
`Black box' Eén of meer lagen
Uitvoeringskader vraagstimulering
'Programmacommissie' (planvorming voor de onderstaande onderdelen + projectselectie / géén besluitvorming)
Strategisch onderzoek IOP / SBO (6,6 mln € over 5 jaar)
financiering uitsluitend voor kennisinstituten (inclusief HBO)
Projectbegeleidingsgroepen
financiering voor kennisinstituten
Batavo - tools (5,4 mln € over 5 jaar)
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Uitvoeringskader IPR-beleid
aanmaak door kennisinstituten of (commerciële) derden
Batavo - data (6 mln € over 5 jaar)
Pagina 70 van 127
In Vlaanderen heeft al besluitvorming plaatsgevonden5 over het zogenaamde BATAVO-deel in bovenstaand schema. In Nederland heeft nog geen besluitvorming op deelaspecten plaatsgevonden.
9.9
Personele invulling van de programma(voorbereidings)commissie
Om een snelle start mogelijk te maken wordt hieronder een advies van M&I/PARTNERS voor de samenstelling van de programmavoorbereidingscommissie gegeven. Naam J. Odijk (voorzitter) A. van Hessen J. van Gent J. Martens A. Schenk F. van Eynde W. Daelemans L. Boves H. Bunt A. Bronkhorst T. Kruyt S. Krauwer
Affiliatie Scansoft / Universiteit Utrecht Telecats / Universiteit Twente Irion Technologies Universiteit van Gent Van Dale Universiteit van Leuven Universiteit van Antwerpen /Tilburg Universiteit van Nijmegen Universiteit van Tilburg TNO - TM INL (een Vlaams-Nederlandse instelling) Elsnet (European Network of Excellence)
Alle leden zouden moeten participeren op persoonlijke titel, zonder last en ruggespraak met de organisatie waarvan zij afkomstig zijn. Overwogen zou kunnen worden om nog een lid afkomstig uit het kleinschaliger bedrijfsleven in Vlaanderen op te nemen en een extra lid afkomstig uit dit zelfde type bedrijfsleven uit Nederland. De programmavoorbereidingscommissie zou op de gebruikelijke wijze ondersteuning moeten krijgen vanuit organisaties als Senter, NWO of de Vlaamse equivalenten daarvan. Zij zou kunnen starten voordat er een definitief besluit is genomen over de ‘black-box’ organisatie.
9.10
Programmering van onderzoek op hoofdlijnen
De bijlagen 8, 9 en 10 van deze technologieverkenning bevatten de bouwstenen voor een inhoudelijke programmering voor BATAVO-data, BATAVO-tools en het strategisch onderzoek. De bijlage vanuit NOTaS (bijlage 9) is het resultaat van intensief overleg tussen de NOTaS leden onderling. Die leden zijn zowel afkomstig van de bedrijven als van het merendeel van de Nederlandse kennisinstellingen. Wel moet worden bedacht dat NOTaS een Nederlandse organisatie is. Om dit te compenseren is door M&I/PARTNERS aan de grootste Vlaamse speler (Scansoft, geen lid van NOTaS) gevraagd ook haar visie op prioriteiten binnen een stimuleringsprogramma op schrift te stellen. Die zijn te vinden in bijlage 8.
Onder voorbehoud van goedkeuring door de begrotingswetgever en onder de conditie dat aan Nederlandse zijde dezelfde besluiten worden genomen.
5
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 71 van 127
Omdat daarmee nog niet voldaan is aan de in dit rapport bepleite gezamenlijke definitie van prioriteiten door Vlaamse en Nederlandse partijen, wordt aanbevolen om, na een positief besluit over de adviezen in deze technologieverkenning, nog een formele ronde te organiseren waarin alle partijen worden opgeroepen voorstellen voor activiteiten waarvoor de bepleite programmavoorbereidingscommissie verantwoordelijk wordt, op tafel te leggen. Om de niet deskundige lezer een toegankelijker beeld te schetsen van mogelijke projecten zijn in een bijlage 11 een aantal tot de verbeelding sprekende voorbeelden opgenomen. Daar is een voorbeeld van een vraagstimulerinsgactiviteit aan toegevoegd.
9.11
Planning in de tijd
In onderstaand schema wordt een mogelijke voortgang in de tijd geschetst. De in de voorgaande paragraaf aanbevolen formele ronde is daarin opgenomen. Het tijdpad bevat ook onderdelen die de onderzoekssector voor eigen risico zou kunnen ondernemen, zoals een eerste ‘Call for Project Ideas op A4-basis’ voordat formele goedkeuring van een meerjarenprogramma is ontvangen. Zonder dergelijke stappen blijkt het voortraject van IOP’s langer te duren dan wenselijk is. Start "Call for Research Ideas & Priorities"
februari
Start "Call for Project Ideas A4-formaat" op eigen risico
Afsluiting "Call for Research Ideas & Priorities"
maart
april
mei
juni
juli
Afsluiting "Call for Project Ideas A4-formaat" op eigen risico
augustus
september
Start "Call for Project Proposals" op basis van goedgekeurd Meerjarenplan
oktober
november
januari 2004 Opdracht tot opsplitsing BATAVO aanpak in data en tools
december januari 2005
Rapportage over opsplitsing BATAVO aanpak in data en tools Formele instel-ling van een Programmacommissie
Aanname: overeenstemming over black-box in organisatieopzet Oplevering concept Meerjarenplan van de Programma-commissie
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Aanname: goedkeuring concept Meerjarenplan van de Programma-commissie
Pagina 72 van 127
10
Conclusies en samenvatting
10.1
Advies in het kort
Gegeven de ambitieuze doelstelling om achterstanden voor de eigen Nederlandse taal in te halen en om op wereldschaal kopposities in deelterreinen in te nemen (of te behouden) in het gebruik van spraak en taal, wordt geadviseerd: om het volume aan lopend publiek gefinancierd onderzoek voor taal en spraak (TSTonderzoek) van zo’n € 10 miljoen per jaar te versterken met een extra injectie van € 12 miljoen over vijf jaar; dit is een groei van ongeveer een kwart van het lopende onderzoeksvolume; om dat bedrag van € 12 miljoen ongeveer in gelijke mate te verdelen tussen werk van onderzoekers gericht op tools en modules die aan basisbestanden zijn gerelateerd (aangeduid met ‘BATAVO-tools’) en onderzoeksactiviteiten met een andere scope; om daarb bovenop € 6 miljoen beschikbaar te stellen voor de aanmaak van de Language Resources (aangeduid met ‘BATAVO-data’); en om een vervolgens even groot bedrag van € 6 miljoen beschikbaar te stellen voor vraagstimulering; om een even grote prioriteit aan taal als aan spraak te geven; en om de totale kosten van € 24 miljoen over vijf jaar op de gangbare 1 : 2 wijze te verdelen over Vlaanderen en Nederland, dus € 16 miljoen voor Nederland en € 8 miljoen voor Vlaanderen.
10.2
Antwoord op vijf hoofdvragen van de opdrachtgever
Elke technologieverkenning die het Nederlandse Ministerie van Economische Zaken initieert moet antwoorden formuleren op vijf hoofdvragen over het technologiethema, in dit geval Nederlandstalige TST. Welke bijdrage levert Nederlandstalige TST aan duurzame economische groei ? Hoe ziet het dynamisch innovatiesysteem eruit voor (Nederlandstalige) TST ? Wat zijn kenmerken / knelpunten ? Kan een programmatische aanpak voor technologiestimulering bijdragen aan verbeteren van het innovatiesysteem. Zo ja, hoe ziet die aanpak eruit? Wat is het draagvlak voor zo’n aanpak? Welke aanbevelingen voor oplossingrichtingen kan men formuleren ? De antwoorden op deze vijf vragen zijn hierna genoemd. TST kan een aanzienlijke bijdrage leveren aan duurzame economische groei. Het vraagstuk daarbij is niet zozeer of TST een economische impact heeft. Dat lijkt triviaal. De relevante vraag is of het nationale innovatiesysteem de output kan genereren om die impact op de economie daadwerkelijk te genereren, of dat Nederland en Vlaanderen een adopter worden van technologie die grotendeels elders is ontwikkeld, zelfs voor de moedertaal. Het model van het dynamisch innovatiesysteem (DIS) is goed bruikbaar voor het formuleren van een programmatische aanpak. In dit geval kan de aanbodkant het beste in drie lagen worden opgesplitst, namelijk de laag van basistaalvoorzieningen, TST-onderzoek in enge zin en integratie/embedding van TST-componenten. Het DIS levert met name het inzicht op dat stimulering op de derde laag (integratie en embedding) niet mogelijk is. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 73 van 127
Dat levert een extra argument op om prioriteit te geven aan vraagstimulering (naast aanmaak basistaal-voorzieningen en strategisch onderzoek). Een programmatische aanpak is de aangewezen manier om een extra injectie aan TSTtechnologie te geven. Die programmatische aanpak moet een hybride karakter hebben. Financieren van bijvoorbeeld alleen basistaalvoorzieningen is onverstandig beleid. Er is veel draagvlak voor een dergelijke programmatische aanpak. Wel is het zo dat er een continue discussie is tussen marktpartijen en publieke kennisinstellingen over de juiste prioriteiten. Het goed regelen van het intellectueel eigendom van data, tools en/of modules is cruciaal om een goede samenwerking en draagvlak te behouden. In paragraaf 10.1 is de oplossingsrichting die wordt geadviseerd bondig verwoord.
10.3
Antwoorden op de specifieke vragen bij deze technologieverkenning
In deze verkenning gericht op taal- en spraaktechnologie zijn meer specifieke vragen geformuleerd. Hieronder zijn die vragen herhaald en is aangegeven in welke hoofdstukken de vragen worden beantwoord. Onder welke voorwaarden kan de huidige fase van ‘early adopters’ overgaan in de fase met grootschaliger toepassingen. (Zie hoofdstuk 9) Welke bijdrage levert TST aan de duurzame economische groei in Nederland en Vlaanderen? Is het een technologiegebied dat kansen biedt voor de Nederlandse en Vlaamse economie? Zo ja, wat is de omvang van die kansen? (Zie hoofdstuk 6) Hoe ziet het TST-innovatiesysteem er nu uit? Hoe kan het functioneren van dit systeem worden beschreven met het model van het Dynamisch Innovatiesysteem (DIS)? Wat zijn de sterke en zwakke punten van dit TST-innovatiesysteem? Is er verschil in de werking van het innovatiesysteem tussen België en Nederland? Kan men eventuele verschillen verklaren? Is er een rol voor overheden weggelegd om het functioneren te verbeteren? (Zie hoofdstuk 4, 7 en 9) Als de overheden een rol zouden moeten spelen bij het bevorderen van de innovatie op het gebied van TST, welke aanpak moet dan worden gekozen? Heeft die aanpak rendement in economisch en cultureel opzicht? Met welke bestaande beleidsinstrumenten, bijvoorbeeld een IOP (Innovatiegericht Onderzoek-programma) in Nederland of een SBO (Strategisch Basisonderzoek) in Vlaanderen, kan een gewenst beleid worden vormgegeven? (Zie hoofdstuk 6 en 9) Als Basistaalvoorzieningen worden gecreëerd of verbeterd, welk positief of negatief effect heeft dat dan op de bestaande TST-bedrijvigheid en hun positie op de nationale TST-markt en de TST-wereldmarkt? (Zie hoofdstuk 3, 4 en 9) Is de commerciële TST-sector in Vlaanderen en Nederland voor een doorbraak op internationale markten het meest gediend met steun aan de eigen Nederlandse taal, of is het stimuleren van veeltalige benaderingen en/of vertaaltechnologie juist belangrijker? (Zie hoofdstuk 4 en 7) Past het aanmaken van basisvoorzieningen zoals in het BATAVO-plan gedefinieerd, binnen het bestaande beleidsinstrumentarium voor technologiestimulering in Nederland en Vlaanderen? (Zie hoofdstuk 9) Kan een renderende aanpak ook op draagvlak in het veld rekenen? Wat is het draagvlak bij de kennisinstituten? Welk draagvlak bestaat bij marktpartijen? En wat is de synergie tussen beide groeperingen? (Zie hoofdstuk 7 en 8) Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 74 van 127
Bijlage 1: Samenstelling begeleidingsgroep Ministerie van Economische Zaken, NL, cluster ICTcompetenties Ministerie van Economische Zaken, NL, IOP-secretariaat Ministerie van Economische Zaken, NL Ministerie van Onderwijs, Cultuur en Wetenschappen, NL Ministerie van de Vlaamse Gemeenschap Departement Wetenschap, Innovatie en Media (WIM), Administratie Wetenschap en Innovatie (AWI), Afdeling Technologie en Innovatie (ATI) Nederlandse Taalunie
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
drs. H. Docter ir. M.C.F. van den Bosch ir. J.P. Mook drs. R.F. Spoor E. Dewallef
drs. E. d’Halleweijn, vervangen door dr. C. Cucchiarini
Pagina 75 van 127
Bijlage 2: Hoofdlijnen van het BATAVO-voorstel In onderstaande tabellen zijn de binnen BATAVO voorgestelde activiteiten voor taalrespectievelijk spraaktechnologie aangegeven, inclusief de door de Vlaamse en Nederlandse onderzoekers geformuleerde budgettaire wensen. BATAVO-prioriteiten voor taaltechnologie
Treebank voor geschreven Nederlands, hergerbruik en aanpassing van tools Training en testing van robuuste grammatica/parser Annotatie van syntaxis en semantiek Tekstvoorverwerking Vertaalequivalenten Bilinguale corpora
Aantal jaren 5
fte/ jaar 12
Totaal fte 60
Budget in euro 4.500.000
3 3
3 3
9 9
675.000 675.000
78
5.850.000
Totaal fte 50 9 15
Budget in euro 3.750.000 675.000 1.125.000 P.M. 5.550.000
TOTAAL fte / Budget BATAVO-prioriteiten voor spraaktechnologie
Automatic Speech Recognition Spraakcorpora en test cases Tools (annotatie) Synthese (via project Nextens)
Aantal jaren 5 3 5
TOTAAL fte / Budget
fte/ jaar 10 3 3
74
In totaal wordt een budget van € 11.400.000,- gevraagd om binnen een periode van vijf jaar de meest dringende – en realiseerbare – bijkomende basismaterialen voor het Nederlands te ontwikkelen. Uitgaande van een al jarenlang gehanteerde verdeelsleutel 1/3 – 2/3 tussen Vlaanderen en Nederland komt dit in financiële termen neer op:
jaarlijks (in euro) Vlaanderen: Nederland Totaal
760.000 1.520.000 2.280.000
over vijf jaar (in euro) 3.800.000 7.600.000 11.400.000
Het bovenstaande BATAVO-voorstel is voorgelegd aan de stuurgroep IOP die geadviseerd heeft om deze technologieverkenning Taal- en Spraaktechnologie te laten verrichten.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 76 van 127
Bijlage 3: Kwantitatieve gegevens TST-sector Vragenlijsten kennisinstellingen Respons De vragenlijst is bij de start van het onderzoek (augustus 2003) toegestuurd aan 10 kennisinstellingen in Nederland en Vlaanderen. Aan drie instellingen werden meerdere vragenlijsten gestuurd, geadresseerd aan verschillende instituten (Nijmegen 3x, Leuven 2x en TNO 3x). Vanuit Nijmegen werd een deels gebundeld antwoord ontvangen. Eén vragenlijst bleef onbeantwoord (Max Planck Instituut Nijmegen). In onderstaande tabel zijn de kennisinstituten die hebben gereageerd6, weergegeven, en is tevens aangegeven: of het Vlaamse of Nederlandse instellingen betreft; het domein waarop een instelling zich richt: op Taaltechnologie (TT), Spraaktechnologie (ST) of beide (TST); het financiële volume (in miljoen €) waarbij de instellingen zijn geordend naar de omvang van hun TST-onderzoek. Universiteit van Antwerpen, CNTS KU Nijmegen, afd. Taal en Spraak / IST Universiteit van Amsterdam, ILLC / taal Universiteit van Tilburg KU Leuven, ESAT - PSI RU Groningen Universiteit Twente KU Leuven, Linguïstiek Universiteit van Utrecht TNO Telecom TNO Technische Menskunde (TM) RU Gent, ELIS TNO Technisch Physische Dienst (TPD)
BE NL NL NL BE NL NL BE NL NL NL BE NL
TT TST TT TT ST TT TST TT TST TST ST ST TST
1,5 M€ 1,3 M€ 1,2 M€ 1,1 M€ 0,9 M€ 0,7 M€ 0,7 M€ 0,6 M€ 0,6 M€ 0,4 M€ 0,3 M€ 0,3 M€ 0,3 M€
Gewenste vorm van samenwerking Aan de instellingen is gevraagd hoe zij hun rol zagen als er een IOP (Innovatiegericht Onderzoeksprogramma) zou starten (het Vlaamse equivalent is een SBO, Strategisch Basisonderzoek). Vraagstelling: welke vorm van samenwerking met bedrijven en andere onderzoeksinstellingen ambieert uw instelling in een eventueel IOP TST?
Een aantal kleine groepen ontbreken, maar zij vormen naar de inschatting van de auteurs minder dan 10% van het onderzoeksvolume.
6
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 77 van 127
De volgende antwoorden zijn ontvangen:
Deelnemen aan kennisuitwisselingsbijeenkomsten Medefinancieren van TST projecten Begeleiden van TST projecten Participeren in de uitvoering van TST projecten Medeformuleren van TST projecten Medeprogrammeren van het IOP, deelname in programmacommissie
ja 13 1 12 13 13 12
ja/nee nee
laag
12 1
1
1
1
Prioriteit middel hoog 5 8 1 7 4 1 12 1 12 4 7
Met name wordt veel prioriteit gegeven aan het participeren in de uitvoering van TST-projecten, en in het mede formuleren van TST-projecten. Omvang en financiering onderzoeksgroepen In onderstaande tabel is de omvang van het onderzoeksveld TST in aantal fte (full-time equivalenten onderzoekscapaciteit) in kaart gebracht. Fte in Taal en Spraak hoogleraar wetenschappelijk personeel AIO/OIO technisch medewerker studenten Totaal (excl. studenten)
taal 3,8 27 0 0 4 30,8
Vlaanderen spraak tezamen 3,7 7,4 10,8 37,8 4 4 0,5 0,5 3 7 19 50
taal 6,1 36,5 36 6,9 36 85,5
Nederland spraak tezamen 1,8 6 23,2 59,7 7 43 2,7 9,6 7 43 34,7 120,2
Of anders geordend: Fte in Taal en Spraak hoogleraar wetenschappelijk personeel AIO/OIO technisch medewerker studenten Totaal (excl. studenten)
taal Vlaanderen
Nederland
3,8 27 0 0 4 30,8 18%
6,1 36,5 36 6,9 36 85,5 50%
spraak som Vlaanderen Nederland 9,9 3,7 1,8 63,5 10,8 23,2 36 4 7 6,9 0,5 2,7 40 3 7 116,3 19 34,7 68% 11% 20%
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
som 5,5 34 11 3,2 10 53,7 32%
totaal 15,3 97,5 47 10,1 50 170 100%
Pagina 78 van 127
Het financiële volume7 (in € per jaar) dat hier naar schatting mee is gemoeid, is als volgt: Financiële omvang TST (in miljoen €/jaar) hoogleraar wetenschappelijk personeel AIO/OIO technisch medewerker Totaal (excl. studenten)
Vlaanderen
Nederland
taal
taal
0,5 1,6 0,0 0,0 2,1
0,8 2,1 1,4 0,4 4,7
som taal 0,13 3,3 1,4 0,4 6,8
Vlaanderen
Nederland
spraak
spraak
0,5 0,6 0,2 0,03 1,3
0,2 1,4 0,3 0,1 2,0
som spraak 0,7 2,0 0,4 0,2 3,3
De totale omvang van het onderzoek is net boven € 10 miljoen per jaar, waarvan € 3,4 miljoen in Vlaanderen en € 6,7 miljoen in Nederland. Dit zijn bedragen gebaseerd op kostprijs per jaar, zoals die door NWO wordt gehanteerd. De omvang van het taalonderzoek bedraagt € 6,8 miljoen en die van spraak € 3,3 miljoen per jaar. Indien TNO buiten beschouwing gelaten wordt (andere wijze van financiering), worden de onderzoekers voor 35% gefinancierd uit de 1e geldstroom, voor 45% uit de tweede geldstroom en voor 20% uit de 3e geldstroom. Wat betreft de 2e geldstroom is NWO de belangrijkste financier. Daarnaast worden Senter (IOP-instrument) en KNAW genoemd. De volgende tabel geeft de kennisinstituten aan, geordend naar omvang in fte8.
Amsterdam (UvA, ILLC) Nijmegen (KUN, Letteren) Antwerpen (CNTS) Tilburg (KUB, Letteren) Groningen KU Leuven (ESAT) TU Twente KU Leuven (Letteren) RU Utrecht TNO Telecom TNO Technische Menskunde RU Gent (ELIS) TNO Technisch Physische Dienst Totaal
Taal 25 7 23 19,4 14 9,8 7,75 4,9 1
Spraak 16 2,5 13,6 1,8 0,25 2,8 6,1 5,5 5,1
4,4 116
54
Totaal 25 23 23 21,9 14 13,6 11,6 8 7,7 7,1 5,5 5,1 4,4 170
Financieel volume is niet noodzakelijk het exact financieel volume dat omgaat aan een bepaalde instelling, maar is afgeleid op basis van aantal fte's en type kostprijs. Aangezien de kostprijs voor eenzelfde fte kan verschillen naargelang de financieringsbron kunnen er kleine afwijkingen optreden.. 8 Omwille van verschillen in type-benamingen en type-classificering tussen Vlaanderen en Nederland zijn de gegevens niet 100% coherent tussen beide regios. In het bijzonder het onderscheid tussen categorieen wetenschappelijk personeel en AIO/OIO is niet rigoureus, de som van beide wel. 7
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 79 van 127
Taaltechnologische terreinen De onderzoeksinstellingen omschrijven zelf hun onderzoeksterrein als volgt: KU Brabant (KUB)
-
computationele semantiek: inhoudsanalyse van talig materiaal geheugengebaseerde (op machine learning berustende) verwerking van taal en spraak op een scala van deelterreinen - dialoogmanagement en user interface design KU Nijmegen (KUN) De expertise met betrekking tot TT is geconcentreerd rond een aantal topics: (1) taaltechnologie in multimodale interfaces (2) basistechnologie voor parsering van geschreven taal (Nederlands en Engels) (3) toepassingen van taaltechnologie voor Information Extraction en automatisch samenvatten (4) ontwerp, aanmaak, exploitatie en beheer van grote corpora van geschreven en gesproken taal (5) validatie van taaltechnologie producten. RU Utrecht Taal en spraaktechnologie, met name linguistic resources (voor taal en spraak), syntaxis, taalkundige aspecten van TTS (“front-end”); logische aspecten van computationele grammaticaformalismen. Logische aspecten van NLP Universiteit Antwerpen, Zelflerende technieken (machine learning, data mining) Centrum voor Nederlandse Natuurlijke taalverwerking / tekstanalyse / text mining Taal en Spraak (CNTS) Daarnaast ook: psycholinguïstiek en neerlandistiek KU Leuven (Letteren) Computationele syntaxis, semantiek, morfologie en fonologie Elektronische corpora en lexica Automatische vertaling Tagging, chunking, parsing en morfologische analyse Talen: Nederlands, Engels en Frans RU Groningen (RUG) De groep is gespecialiseerd in robuuste syntactische analyse, waarbij gebruik wordt gemaakt van handgeschreven grammaticaregels en statistische modellen ontleend aan omvangrijke corpora. Deze kennis is bijvoorbeeld ingezet in het NWO-TST programma. Op beperkte schaal wordt onderzoek gedaan naar POS-tagging (met name als een eerste stap voor robuust parseren) en het extraheren van lexicale informatie uit corpora (met name gericht op het verbeteren van de lexicale component van de grammatica). Universiteit van Amsterdam, Intelligente informatietoegang, zowel meertalig als linguïstisch geïnformeerd, Institute for Logic, Language en concreet gemaakt in prototypen op het gebied van information retrieval, and Computation (ILLC) vraag-antwoord systemen, en ontologieopbouw en –onderhoud. TNO Telecom Zie bij ‘spraaktechnologische terreinen’ TNO Technisch Physische Kennis: Basiskennis over de ontsluiting van ongestructureerde informatie Dienst (TPD) (tekst, audio en video) Producten: Advies en implementatie van prototypen, contractonderzoek
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 80 van 127
In onderstaande matrix is weergegeven op welke taaltechnologische terreinen de kennisinstellingen zich begeven, in percentages van de totale tijdsbesteding aan onderzoek per instelling.
x x
10% 10% 5% 2% 10% 10% 28% 5%
5% 15%
20% 19,4
5% 5% 20% 25% 5% 10% 10% 9,8
5% 5% 15% 20% 5% 30% 20%
40% 20% 20% 20%
5% 5% 5% 10% 10% 25% 40%
x x x
x
x x x
x 5%
20% 10% 10% 20% 20%
10% 10% 65% 10%
20% 7
4,9
23
7,75
15% 15% 10% 10% 25% 20%
x 50% 50%
25
Aantal
x
8 7 6
20% 20% 20% 10% 10%
5% 14
TNO TPD
Antwerpen (CNTS)
x x
TNO telecom
Utrecht (RUU)
x x
Amsterdam (UvA, ILLC)
Nijmegen (KUN)
x x
Groningen (RUG)
Twente (TUT)
x x x
KU Leuven (Letteren)
Tilburg (KUB)
Taaltechnologie Werkzaamheden Fundamenteel onderzoek Toegepast onderzoek Prototyping Gebied Grafeem-foneemomzetting Tekstvoorverwerking Morfologische analyse Lexicologie Morfosynt. disambiguering Syntactische analyse Semantische analyse Tekstgeneratie Vertaalcomponenten Dialoogsystemen Omvang groep
20% 1
4,4
Gemiddeld percentage
aantal fte
4% 9% 8% 10% 9% 26% 24% 2% 4% 4% 100%
5 10 9 11 11 30 28 2 5 5 116,25
Opvallend is een sterke nadruk op syntactische en semantische analyse. Kennisterreinen die veel expliciet genoemd worden zijn information retrieval en gerelateerde terreinen als automatische classificatie en informatie-extractie, ontologieën, dialoogsystemen, en zelflerende technieken. Spraaktechnologische terreinen De onderzoeksinstellingen omschrijven zelf hun onderzoeksterrein als volgt: KU Brabant (KUB) KU Nijmegen (KUN)
Universiteit Antwerpen, Centrum voor Nederlandse Taal en Spraak (CNTS) KU Leuven ESAT – PSI
Zie bij ‘taaltechnologische terreinen’ De ST expertise is geconcentreerd rond een aantal topics: (1) basistechnologie voor automatische spraak- en sprekerherkenning (2) toepassingen van spraakherkenning, met name voor onderwijs van het Nederlands als tweede taal, maar ook voor informatie- en communicatiediensten, (3) spraaktechnologie in multimodale interfaces (4) ontwerp, aanmaak, exploitatie en beheer van grote corpora van gesproken taal (5) validatie van spraaktechnologie producten. Zie bij ‘taaltechnologische terreinen’
Spraakherkenning: ruisrobuustheid, integratie van diverse kennisbronnen, akoestische modellering, onderwerp-afhankelijke taalmodellen, syntactische taalmodellen, sprekeradaptatie; toepassingen: taalleren, non native speakers, dialectinvloeden Spraakanalyse: extractie van basisinfomatie (pitch, tijdsduur, …) Spraakmodificatie: wijzigen van parameters zoals pitch en duur Spraakcodering: bandbreedte-afhankelijke compressie Corpusopbouw: opbouw van grote databanken voor het trainen van spraakherkenner
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 81 van 127
RU Gent, ELIS
TNO Telecom
TNO Technische Menskunde (TM)
TNO Technisch Physische Dienst (TPD)
Kennis: perceptief gemotiveerde analyse van spraak, akoestische modellen voor spraakherkenning, automatische segmentatie van spraak en audio, uitspraakmodellering voor spraakherkenning, prosodische modellen voor spraaksynthese en spraakherkenning. Producten: artikelen in wetenschappelijke literatuur, software-modules, demos TNO Telecom levert aan Nederlandse partijen spraaktechnologie (maatwerk) oplossingen voor telefoniediensten en producten gebaseerd op commercieel verkrijgbaar spraaktechnologie software. Door haar kennis van spraaktechnologie wordt deze software zo verder geoptimaliseerd (lexica, grammatica's, akoestische modellen trainen, uitspraak optimalisatie bij synthese, gebruik van sprekerverificatie optimalisatie algoritmes). Tevens wordt kennis van gebruikersvriendelijk dialoogontwerp toegepast om de eindgebruiker zo makkelijk mogelijk met de spraakgestuurde diensten te laten werken. - Kennis omtrent groot-vocabulaire Nederlandse spraakherkenning, met name toegepast voor data-ontsluiting; de herkenner is als product leverbaar. - Kennis omtrent sprekeronafhankelijke herkenners voor (onder andere) telefonieapplicaties, in het bijzonder de aanpassing aan non-native uitspraak. - Kennis omtrent de (subjectieve en objectieve) evaluatie van spraakgestuurde diensten en systemen. - Kennis omtrent sprekerherkenning; onze GMM-gebaseerde herkenner heeft met goed resultaat aan de laatste NIST benchmark deelgenomen en is als product leverbaar. Zie bij ‘taaltechnologische terreinen’
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 82 van 127
In onderstaande matrix is weergegeven op welke spraaktechnologische terreinen de kennisinstellingen zich begeven, in percentages van de totale tijdsbesteding aan onderzoek per instelling.
10% 90%
50% 10%
25%
Aantal
x
x x x
x x
8 8 5
x
Gemiddeld percentage
aantal fte
10%
10% 5% 5% 0% 31% 8% 9% 3% 2% 5% 3% 6% 2% 11%
5 3 3 0 17 4 5 2 1 3 2 3 1 6
7,1
100%
55
20% 10%
50%
30% 10% 10%
TNO TPD
50%
100% 75% 5% 5%
x x
TNO TM
50%
x x x
TNO telecom
x x
RU Gent (ELIS)
x x
KU Leuven (ESAT)
Antwerpen (CNTS)
x x
KU Leuven (Letteren)
Utrecht (RUU)
x x x
Nijmegen (KUN)
Twente (TUT)
Tilburg (KUB)
Spraaktechnologie Werkzaamheden Fundamenteel onderzoek Toegepast onderzoek Prototyping Gebied Prosodiegeneratie prosodieherkenning Spraaksynthese Foneem naar grafeemomzetting Robuuste spraakherkenning Non-native spraakherkenning Sprekerherkenning Taal- en dialectidentificatie Adaptatie Betrouwbaarheidsmaten / Aanmaak/exploitatie corpora architectuur spraakcodering Uitspraakmodellen, segmentatie Omvang groep
20% 10%
40% 5% 5% 5%
10% 10%
30% 35% 5%
40% 20% 20% 10%
80%
10%
10% 10%
20% 25% 10%
20% 2,5
1,8
16
40% 2,8
0,25
13,6
5,1
5,5
Met name op het gebied van robuuste spraakherkenning wordt veel onderzoek verricht, vooral gericht op toepassingen als Voice Respons Systemen. Type onderzoek Vraagstelling: Welk type onderzoek wordt op uw instelling uitgevoerd? Geef bij de toelichting aan welke eventuele corpora, taalregels, prototypes etc. dit betreft.
Ontwikkeling van corpora. lexicons etc. Benchmarking Ontwikkeling van (ver)taalregels (morfologisch, syntactisch, etc.) Onderzoek naar en toetsing van het gebruik van statistiek en heuristiek Ontwikkeling van nieuwe basisalgoritmes Ontwikkeling van prototypes van componenten
Aantal kennisinstellingen 12 9 7 10 9 12
Anders, namelijk
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 83 van 127
Andere typen onderzoek die expliciet genoemd werden, waren: de ontwikkeling van standaarden; de validatie van TST-producten; gebruikersevaluatie; productontwikkeling. Toekomstige ontwikkelingen en toepassingen Op verschillende manieren is de kennisinstellingen gevraagd naar de toekomstige ontwikkelingen die zij zien op TST-gebied, welke toepassingsmogelijkheden een grote vlucht zullen gaan nemen, en welke ‘quick wins’ er te behalen zijn. Daarnaast is ook de vraag gesteld op welke gebieden de ontwikkelingen achterblijven en wat de oorzaken daarvan zijn. De visies van de verschillende kennisinstellingen hierop kwamen sterk overeen. Toekomstige ontwikkelingen ziet men op een aantal terreinen: semantische analyse van teksten ten behoeve van een betere ontsluiting: informatie-extractie, (content based) information retrieval, kennismanagement, robuuste classificatie van teksten, automatische vertaling; vraag-antwoord systemen, dialoogsystemen (zowel op taal als spraaktechnologisch gebied); ontsluiting van gesproken audio-archieven, multimediale ontsluiting; robuuste spraakherkenning (mobiele toepassingen via GSM, PDA); robuuste spraaksynthese (IVR); spraakherkenning ten behoeve van toegangscontrole en beveiliging (authenticatie). TST-gebieden waarop ontwikkelingen achterblijven liggen vooral op het gebied van de Nederlandstalige TST: herkenning van Nederlandse spraak; syntactische/semantische analyse van het Nederlands; spraaksynthese voor het Nederlands. Daarnaast wordt het belang van de combinatie van fundamenteel taalkundige en datageoriënteerde statistische methoden benadrukt, en vindt men onderzoek daarnaar ook belangrijk. Voor de achterblijvende ontwikkelingen ziet men een drietal oorzaken. Het onderzoek is gefragmenteerd en wordt op veel verschillende plaatsen uitgevoerd waarbij te weinig gebruik wordt gemaakt van elkaars onderzoeksresultaten. Er is geen commercieel belang voor het Nederlands; het is een te klein taalgebied. Daardoor zijn er ook te weinig hulpmiddelen, zoals corpora en benchmarks. De industrie kan niet meer investeren en universiteiten zijn te sterk afhankelijk van kortetermijnfinanciering.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 84 van 127
Beschikbare faciliteiten en mogelijke spin-offs Onderstaande tabel geeft een overzicht van de beschikbare faciliteiten van de geënquêteerde kennisinstellingen:
TNO telecom
TNO TM
KU Leuven (ESAT)
KU Leuven (Letteren)
Amsterdam (UvA, ILLC)
Groningen (RUG)
Antwerpen (CNTS)
Nijmegen (KUN)
Twente (TUT)
Tilburg (KUB)
Beschikbare faciliteiten, tools, corpora, demo-faciliteiten etc. IR systeem Vraag-antwoord systeem taalrader taalcorpora spraakcorpora lexicons parsers ontologie/thesaurus spraakherkenningstools machine learning tools krantenmateriaal autocue bestanden van NOS journaals
x x x x
x x
x x
x
x
x
x
x
x
x
x x x
x
x x
x x x
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 85 van 127
Netwerken In onderstaand overzicht is weergegeven van welke netwerkorganisaties de geënquêteerde kennisinstellingen en bedrijven deel uitmaken:
x
TNO TPD
TNO telecom
TNO TM
RU Gent (ELIS)
x
KU Leuven (ESAT)
x
KU Leuven (Letteren)
x
Amsterdam (UvA, ILLC)
Groningen (RUG)
x x x
Antwerpen (CNTS)
x x
Utrecht (RUU)
Twente (TUT)
x x
Nijmegen (KUN)
Tilburg (KUB)
Lidmaatschap netwerkorganisaties Notas ELSNET ELRA/ELDA CLIF ISCA DELOS BNVKI ISO TC37/SC5 ACL/SIGSEM working group COST278 Nemlar ONTOWEB TST platform Stichting Taaltechnologie Stichting Spraaktechnologie TST platform European Masters in Language and Speech SIGNLL NATO IST werkgroep NIST evaluaties DSPValley LDC
x x
x
x x
x
x
x x
x
x
x
x
x x x x x x x x x x x x x x x
Enkele conclusies. De deelname aan netwerkorganisaties is zeer versnipperd. Alle Nederlandse Kennisinstituten behalve Groningen en Utrecht zijn lid van NOTaS (NB. In NOTaS zijn zowel kennisinstellingen als bedrijven vertegenwoordigd). Alle Vlaamse instellingen participeren in CLIF (Computational Linguistics in Flanders). Er is geen Nederlands equivalent voor deze organisatie. Alle op taal georiënteerde instellingen, behalve het ILLC en TNO TPD, participeren in Elsnet: een EU Network of Excellence met het secretariaat bij de Universiteit van Utrecht (Krauwer). ELRA / ELDA wordt vaak genoemd (mogelijk is deze organisatie niet door iedereen als een netwerkorganisatie gezien en is participatie nog breder).
Vragenlijsten bedrijven Respons De vragenlijst is toegestuurd naar 38 bedrijven, en door 14 bedrijven ingevuld geretourneerd. De informatie uit de vragenlijsten is gebruikt bij het opstellen van het hoofdrapport, maar de respons is te laag voor een kwantitatieve verwerking. In onderstaande tabel is aangegeven welke bedrijven bij de start zijn benaderd met een vragenlijst:
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 86 van 127
Ontwikkelaars TST tools
Ontwikkelaars TST tools
GIOS
NL
ST
AKTOR Knowledge
B
TT
Human Inference
NL
TT
Collexis
NL
TT
Irion Technologies
NL
TT
Cross-Language
B
TT
Knowledge Concepts
NL
TT
Van Dale
NL
TT
Language & Computing
B
TT
Explio NV
B
TT
Telecats
NL
ST
Medialab
NL
TT
Voice Insight
B
TST
ORCAvoice
NL
ST
Phonetic Topographics (TeleAtlas)
B
ST
Polderland Language & Speech Technology
NL
TT
Q-go Amsterdam
NL
TT
Scansoft Belgium
B
TST
Bedrijven vnl. gericht op embedded TST (applicatieontwikkelaars, gebruikersorg.) ABN-AMRO (nieuwe technologieen)
NL
ST
Openbaar Vervoer Reisinformatie (OVR)
NL
ST
Textkernel Amsterdam
NL
TT
Philips Business Communication
NL
ST
Vocalibur Language & Speech Technology B.v.
NL
TST
PICA
NL
TT
Voice Databridge
NL
ST
Thales / DECIS
NL
TST
VOXTRON
B
ST
Xplanation International Group
B
TT
Bedrijven vnl. gericht op embedded TST (applicatieontwikkelaars, gebruikersorg.) IT Forensic
NL
TT
Kenniscentrum Cibit
NL
TT
Logica/CMG
NL
TST
OCE R&D
NL
TST
Rabobank
NL
ST
Shell International Exploration and Production
NL
TST
SNT (50% dochter KPN)
NL
ST
Technologie & Innovatie
B
ST
De ordening is nog volgens de bij de start van het onderzoek gekozen systematiek (zonder lagen). Tijdens het onderzoek zijn vragenlijsten naar additionele partijen gestuurd, die overigens maar incidenteel retour zijn ontvangen. Omdat dit vaak additionele partijen aan de vraagkant betrof, mag worden geconcludeerd dat partijen aan de vraagkant extra moeilijk te bewegen zijn een respons te geven. Omdat de allergrootste TST-bedrijven onder de respondenten ontbreken (Scansoft, Polderland en Van Dale) mogen niet te snel conclusies over de marktpartijen worden getrokken. Overigens is van de eerste twee genoemde bedrijven wel input in andere vorm (mondeling of inhoudelijke input) gekregen. Juist de grotere bedrijven blijken niet bereid, vermoedelijk op grond van (grensoverschrijdende) concurrentieoverwegingen, om aan de start van een verkenning - en zonder de uitslag te weten van de overheidsbesluitvorming over een TST-stimuleringsprogramma - op ruime schaal kwantitatieve gegevens te verstrekken. In een aanvullende nulmeting zal het tot nog toe vergaarde materiaal moeten worden aangevuld. Visie van bedrijven op bijdrage kennisinstellingen De respons op de vragenlijst was wel voldoende om een goede conclusie te kunnen trekken, welke visie bedrijven hebben op de gewenste bijdrage vanuit de kennisinstituten. Vraagstelling: op welke wijze kunnen universiteiten naar uw idee bijdragen aan het innovatief vermogen van het bedrijfsleven? Geef bij de toelichting aan welke eventuele corpora, taalregels, opleidingen etc. voor uw bedrijf van belang zijn.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 87 van 127
Het antwoord is aangegeven in de volgend tabel:
Ontwikkeling van corpora. lexicons et cetera Benchmarking Onderzoek naar en toetsing van het gebruik van statistiek en heuristiek Ontwikkeling van nieuwe basisalgoritmes Ontwikkeling van (ver)taalregels (morfologisch, syntactisch, et cetera) Ontwikkeling van prototypes van componenten Anders, namelijk marktonderzoek
Aantal keer genoemd 10 9 7 6 5 4 1
Genoemde prioriteiten op basis van de partiële respons Ook aan de bedrijven is gevraagd welke toekomstige ontwikkelingen zij zien op TST-gebied, welke toepassingsmogelijkheden een grote vlucht zullen gaan nemen en welke ‘quick wins’ er te behalen zijn. Daarnaast is ook weer de vraag gesteld op welke gebieden de ontwikkelingen achterblijven en wat de oorzaken daarvan zijn. Zowel wat betreft de toekomstige ontwikkelingen als de achterblijvende gebieden en de oorzaken daarvan is er erg veel overeenstemming tussen hetgeen door kennisinstellingen en bedrijven naar voren wordt gebracht. Het feit dat de uitspraken afkomstig zijn van slechts een deel van de bedrijven kan invloed hebben op het resultaat. Met betrekking tot toekomstige ontwikkelingen zijn een aantal onderwerpen genoemd. (Cross Language) Information Retrieval, meertalige semantische netwerken. Dialoogsystemen. Kennismanagement, intranet. Multimediale toepassingen. Mobiele informatiediensten. Robuuste spraakherkenners. Call center toepassingen. Identificatie, authenticatie en toegangscontrole. TST-gebieden waarop ontwikkelingen achterblijven liggen vooral op het gebied van de Nederlandstalige TST: spraakherkenning en synthese voor het Nederlands; dicteertoepassingen; automatisch vertalen. Voor de achterblijvende ontwikkelingen ziet men de volgende oorzaken. Het Nederlandse taalgebied is te klein, waardoor ontwikkelingen voor het Nederlands niet rendabel zijn. De stand van zaken van de techniek: het ontbreken van zicht op praktische applicaties op korte termijn. De kwaliteit van TST-producten is nog onvoldoende. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 88 van 127
Er is een gap tussen onderzoek op universiteiten en toepassingen voor bedrijven. Het onderzoek richt zich teveel op zaken die nog lang niet te realiseren zijn. Er wordt geen aandacht besteed aan de borging van het onderhoud (bijvoorbeeld van semantische netwerken). Ontwikkeling heeft dan ook geen zin. De markt is onvoldoende op de hoogte van de stand van zaken en de mogelijkheden ter verbetering van de efficiency van de bedrijfsprocessen middels inzet van TST. Gebruikers hebben onrealistische verwachtingen, of juist onvoldoende inzicht in toepassingsmogelijkheden.
Samenwerking In onderstaande matrix zijn samenwerkingsrelaties weergegeven. Tussen de partijen die de vragenlijst hebben ingestuurd, dus zowel kennisinstellingen als bedrijven (met name de toolleveranciers) en de samenwerkingsrelaties die door de respondenten zijn genoemd met partijen die niet hebben gereageerd; met name het aantal partijen uit de marktsector neemt daardoor aanzienlijk toe. Niet alle samenwerkingsverbanden zijn weergegeven: samenwerkingsverbanden met buitenlandse partners en met kleinere bedrijven waar incidenteel mee samen wordt gewerkt zijn niet in dit overzicht opgenomen. De vetgedrukte (grijs gearceerde) kruisjes geven aan dat de partijen vaker dan maandelijks contact hebben. Allereerst is een matrix opgenomen die de onderlinge relaties weergeeft tussen de kennisinstellingen: kennisinstellingen
x
x
x x x
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
x
x x
x x x x
x x
x x
x
x x x
Pagina 89 van 127
RU Maastricht
x
x x x x
x x x x x
TU Eindhoven
x x x
x
x x
x x x
x
CWI
x x
Antwerpen (CNTS)
x
Amsterdam (UvA, ILLC)
Twente (TUT)
x
x x
x x
TNO telecom
x x
TNO TM
x
TNO TPD
x x
x x x
RU Utrecht
x
x x x x x
x x x
Groningen (RUG)
x
x
RU Gent (ELIS)
x x
KU Leuven (Letteren)
KU Leuven (ESAT)
Nijmegen (KUN)
Tilburg (KUB)
Kennisinstellingen KU Brabant KU Nijmegen, afdeling Taal en Spraak KU Leuven, ESAT - PSI KU Leuven, Letteren RU Gent, ELIS RU Groningen RU Utrecht TNO Technisch Physische Dienst TNO Technische Menskunde TNO Telecom TU Twente Universiteit van Amsterdam, ILLC Universiteit van Antwerpen, CNTS
x x
x
Het volgende kan worden geconcludeerd. Nijmegen is het kennisinstituut dat de meeste relaties onderhoudt met andere kennisinstituten en het is dus de grootste ‘netwerker’; het onderhoudt relaties met zowel taal- als spraakpartijen. Tilburg heeft intensieve relaties met andere taalinstituten (Amsterdam, Twente); Tilburg heeft een met Antwerpen gedeelde hoogleraar (Daelemans). TNO Technische Menskunde wordt opvallend vaak (vier keer) genoemd als partij waarmee men intensieve relaties heeft; Twente en TNO hebben een intensieve relatie (deels door personele unie via prof. de Jong). De Vlaamse instellingen werken meer met elkaar samen dan met Nederlandse instituten; Nijmegen is weer de belangrijkste link. Een Nederlandse kennisinstelling waar in het verleden aanzienlijke overheidsinvesteringen op het gebied van taal- en spraak naar toe zijn gegaan, namelijk de universiteit Utrecht, wordt wel vaak genoemd, maar heeft geen intensieve relaties met andere instituten. Het volgende schema geeft aan welke bedrijven worden genoemd door de kennisinstituten en omgekeerd. In de kolommen staan bedrijven die zijn genoemd door respondenten, dus ook bedrijven die niet hebben gereageerd op de vragenlijst (rechts in de kolommen). Bedrijven zonder score zijn door anderen dan kennisinstituten genoemd. toolleveranciers
x x
x
x x
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
x x x
x
Pagina 90 van 127
x
Vocalibur
x
Textkernel
Siemens
x x x x
x x x x
x
Scansoft
Q-go
Polderland
Nuance
x x
van Dale
Cross Language
Voice Insight
Telecats
Language & computing
x
Knowledge Concepts
Irion
x x
Human Inference
GIOS
Kennisinstellingen KU Brabant KU Nijmegen, afdeling Taal en Spraak KU Leuven, ESAT - PSI KU Leuven, Letteren RU Gent, ELIS RU Groningen RU Utrecht TNO Technisch Physische Dienst TNO Technische Menskunde TNO Telecom TU Twente Universiteit van Amsterdam, ILLC Universiteit van Antwerpen, CNTS
De volgende conclusies mogen uit de tabel worden getrokken. De ‘global player’ Scansoft wordt door alle Vlaamse instellingen genoemd, en door slechts één Nederlands kennisinstituut (Nijmegen); Utrecht heeft overigens een deeltijdhoogleraar vanuit Scansoft (Odijk) maar noemt de samenwerking met Scansoft niet. De meest intensieve relaties zijn met de bedrijven Irion Technologies, Knowledge Concepts, Polderland en Textkernel (alle op taal georiënteerd). De leverancier van basisvoorzieningen in klassieke zin (woordenboeken, Van Dale) wordt door geen enkele instelling genoemd als partij waarmee tenminste met enige regelmaat wordt samengewerkt. Hoewel het in deze tabel niet is opgenomen, is er relatief weinig samenwerking tussen kennisinstellingen en de bedrijven die de technologie ‘embedden’. Slechts drie samenwerkingsverbanden zijn genoemd. Tabellen waarin ook de samenwerkingsrelaties tussen bedrijven onderling zijn aangegeven, zijn deels wel beschikbaar maar kunnen niet als publieke informatie worden gezien. Algemene conclusie uit de vragenlijsten is dat met name in projecten, maar ook regulier veel wordt samengewerkt op TST-gebied, met name tussen kennisinstellingen onderling maar ook tussen kennisinstellingen en bedrijven. Deze samenwerking bestaat zowel uit contractresearch als uit uitwisselingsrelaties. Gemiddeld wordt met zo’n drie bedrijven en met vier à vijf andere kennisinstellingen samengewerkt op reguliere basis (contactmomenten meer dan eens per maand).
Profiel van bedrijven De door de respondenten onder de bedrijven aangegeven bedrijfsprofielen zijn hieronder weergegeven. In één geval (Polderland) is aanvullende informatie over het bedrijfsprofiel verkregen en in de tabel opgenomen. Als een bedrijf zowel actief is op het gebied van taal als spraak is het onder het voor dat bedrijf meest kenmerkende gebied opgenomen. De bedrijven omschrijven zelf hun werkterrein op taalgebied als volgt: Human Inference
Irion
Technologiekennis: de medewerkers van Human Inference op de afdeling product development zijn opgeleid in de computationele liguïstiek, informatica of hebben een puur taalkundige achtergrond. Producten: Fouttolerante, kennisgedreven software-bouwstenen voor de verwerking van relatiegegevens (namen, adressen, enz.); hiertoe heeft Human Inference sinds 1986 uitgebreide geannoteerde corpora aangelegd met gegevens over landen, waaronder taal, maar ook geografie, gewoonten, wetgeving, enz. De groep is gekenmerkt door drie met elkaar verweven specialiteiten: - toegepaste taaltechnologie, met het accent op de inzet van semantische netwerken en generieke grammatica’s - geavanceerde statistieken t.b.v. information retrieval, classificatie, clustering en information processing - methoden voor snelle en robuuste processing van ongestructureerde informatie die van het internet komt. Basisproducten zijn: (i) een zoeksysteem
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 91 van 127
Knowledge Concepts Language and Computing Polderland
Voice Insight
Pica Thalis - DECIS
(ii) een automatisch classificatiesysteem (iii) een automatisch samenvattingengeneratiesysteem (iv) een systeem voor woordgebaseerde gedisambigueerde vertaling in een groot aantal talen (v) een dialoogsysteem voor dialogen met ongestructureerde informatiebanken (vi) een “cockpit” voor GUI-gestuurde capturing en conversie van data uit willekeurige bronnen. Knowledge Concepts levert, integreert en beheert HLT-software voor de knowledge management en de content management industrie. Ontology-based multi-lingual natural language understanding. Polderland levert taaltechnologische modules voor een breed repertoire aan talen. De modules zijn hulpmiddelen voor auteurs, voor kennismanagement of voor spraakgerelateerde taken. Voorbeelden van elke categorie: proofing tools, analysehulpmiddelen zoals een spellingcontrole of een woordafbreker, voor talen als Nederlands, IJslands, Catalaans, Afrikaans en vele andere. Kennismanagement-tools: SmartMatch(=taaltolerant zoeken), KLiP(=PoS-tagger, e.a.), LIT (taalidentificatie). Spraakgerelateerde tools: PreMail (E-mail-preprocessing), LGM (taalgenerator). Doelgroep: system integrators, uitgevers, telecom en academische wereld. Kennisbereik: formele beschrijvingsmodellen, morfologie, syntax, woordafbreking, dit alles voor vrijwel alle taalfamilies; statistische methoden voor PoS-tagging. Taalgeneratie. Parsing. Samenwerking met kennisinstellingen in Nederlands taalgebied: - KUN (diverse afdelingen) - Fryske Akademy - TUE Voice-Insight positioneert zich als schakel tussen ontwikkelaars van geavanceerde spraaktechnologie en ontwikkelaars en eindgebruikers van toepassingen en diensten die technische databanken raadplegen en bijwerken. Voice-Insight’s VQL technologie maakt het mogelijk spraaktechnologie te implementeren voor het ondervragen en updaten van databanken. De core business van Voice-Insight is het ontwerpen, ontwikkelen, verkopen en ondersteunen van een software development kit (SDK) voor ontwikkelaars, OEMs, system integrators en dergelijke. Voice-Insight ontwikkelt zelf ook toepassingen, ofwel als ”proof of concept” in een of andere nichebranche ofwel als eindproduct of dienst voor bedrijven. R&D op het vlak van taal- en spraaktechnologie maken tevens deel uit van onze nevenactiviteiten. Zo kunnen we constant de manier waarop we de nodige woordenschat, woordenboeken en grammaticale regels genereren en toepassen verbeteren. Producten voor bibliothecaire toepassingen; specialiteit: software voor bouw, beheer en toegang tot meta-data databases. Kennis is ICT gericht, domein-specifieke kennis op taalkundig gebied is slechts in zeer geringe mate aanwezig. Producten zijn intelligente informatiesystemen die gebruikt worden in diverse applicatiedomeinen, waaronder defensie, air-traffic management en communicatie. Voor alle produkten geldt dat er sprake is van een man-in-the-loop aspect, waardoor rechtstreekse interactie met mensen via spraak belangrijk is.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 92 van 127
Xplanation
Automatische tekstverwerking is belangrijk omdat geschreven informatie onderdeel is van de bronnen die door de applicaties gebruikt worden. De activiteiten van Xplanation omvatten het gebruik van TST-componenten die ingebed zijn in een service-model. De enige activiteiten die rechtstreeks verband houden met de TST-componenten in kwestie kunnen eerder gekenmerkt worden als onderhoud (software maintenance + beheer van de lexicale gegevens).
De bedrijven omschrijven zelf hun werkterrein op spraakgebied als volgt: GIOS
Telecats
OVR Philips Voxtron
De research medewerkers van GIOS die betrokken zijn bij taaltechnologische projecten hebben allen een relevante Universitaire opleidingen genoten: Cognitiewetenschap en Taaltechnologie (KUN); Taal en Spraak (KUN), en Taal en Kunstmatige Intelligentie (KUB). Hun gezamenlijke kennis bestrijkt de meeste gebieden van de taal- en spraaktechnologie en computertelefonie. Daarnaast beschikken zij over werkervaring met betrekking tot de toepassing van taal- en spraaktechnologie in IVR-systemen. Het belangrijkste produkt van GIOS is TwinTalk: een systeem dat ons in staat stelt om voor klanten snel IVR-applicaties te bouwen die gebruik maken van automatische spraakherkenning en spraaksynthese (mogelijk in combinatie met DTMF-invoer). Bovendien wordt door GIOS gewerkt aan verschillende ontwikkeltools componenten en corpora die we gebruiken bij de bouw van deze spraakgestuurde diensten. TeleCats is een bedrijf dat call processing automatiseert. TTS, ASR en sprekerverificatie zijn technieken die hiervoor gebruikt worden. TeleCats koopt de basissoftware (Philips, ScanSoft, PerSay) en ontwikkelt zowel losstaande modules als gehele applicaties op basis van deze technieken. Daarnaast ontwikkelt TeleCats eigen technieken om het maken en controleren van telefoondialogen te vereenvoudigen. Kant- en klare spraakdiensten voor complete reisinformatie zowel voor het openbaar vervoer als ook de auto en andere modaliteiten. Het integreren van spraaktechnologie (herkenning en synthese) in telecomoplossingen op klantgerichte basis. Op gebied van TST zijn wij zuivere gebruikers van spraakherkenners. Het bouwen van grammatica voor de herkenners is het diepste wat als kennis aanwezig is.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 93 van 127
Bijlage 4: TST in call-centers en IVR-systemen This appendix has been written in the English language as comments have been solicited from global experts and from French speaking specialists in Belgium. Moreover several source texts that have been used were written in English.
The need for realistic market forecasts Many market forecasts for Language and Speech Technology are ‘overhyped’. The best example is the huge discrepancy between market estimates of the ‘forecasting industry’ and the reality within Lernout & Hauspie, just before the company collapsed. Dataquest predicted a high growth in revenues for the PC dictation market during 1998 - 2002. However, the reality was that revenues decreased in this period because of killing competition between Lernout & Hauspie, IBM and Dragon that caused the introductory prices ($ 600 in 1997) to drop; high customer drop-out rate, so limited ‘upgrade’ revenues.
PC Dictation Market ($M) Predictions and Reality 1.000 900 800 700 600 500 400 300 200 100 0
Dataquest 98 Dragon L&H
1997
1998
1999
2000
2001
2002
In the longer term this market for PC dictation is expected to move up again. Microsoft is already embedding this type of technology in Windows-XP at no visible cost to its customers as a ‘Please-keep-out-of my-market’ message. The direct revenues remain small and unpredictable9 in that case. Of course the indirect economic impact of this embedding might be huge, which means that there can be a very high multiplier factor between direct revenues and all revenues, including those from usage. Microsoft is currently only targeting generic use of speech technologies and is not entering the market of vertical applications such as medical and legal10. In order to assess the long-term economic value of Language and Speech Technology it is required to start from realistic predictions for the relevant market segments and to take ‘economic multiplier effects’ from the usage of the technology into account.
Microsoft’s client revenue from Operating Systems is about 10 billion US-dollars. How much of this revenue can be allocated to embedded speech technology is difficult to say. 10 The Dutch company G2 Speech is a typical example of such a vertical company. 9
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 94 van 127
In this appendix we calculate the economic impact of advanced speech technologies in the Call Center and IVR (interactive voice response) market. This is a segment that was reported by a large Dutch bank (ABN-AMRO) as underdeveloped for the Dutch language11 and it is one of the most relevant market segments for advanced speech technology (AST).
Advanced Speech Technologies in the call center and IVR market In terms of complexity we can divide this market into 3 segments: Segment
User control
System output
Low-end
menu style with small branching factor controlled by DTMF menu style with small branching factor controlled by DTMF or small vocabulary speech recognition Menus with large branching factors operated by spontaneous voice dialogues
Prerecorded messages, life operator Pre-recorded, Textto-Speech (TTS), life operator
Medium
High-end
Dynamic output generated by dialogue system (TTS), transfer to life operator for complex matters only
Speech technology value -
ASR / TTS license: € 200-€ 1.500/port; application development € 1.000-4.000 / port ASR / TTS license: € 1.000-2.500/port ; application development € 2.000-15.000 / port
Penetration (estimate) 75%
20%
5%
DTMF = Dual Tone Multi-Frequency ASR = Automatic Speech Recognition TTS = Text-to-Speech
Market volume and market penetration are measured in number of telephony ports. The average cost for hardware and basic software of such a port may be estimated at around € 1.000,-. Total costs per port – considering a mono-lingual application - consist of basic hardware and software (€ 1.000,- per port); license costs (up to € 2.500,- per port); application development cost (up to € 15.000,- per port). As the cost of basic hard and software is not driven by speech technology as such it is not further taken into account and only license and application development costs have been considered in the following analysis and are seen as the ‘added speech technology value’. The critical factors in calculating the added technology value are clearly the penetration of high-end applications and the application development costs. 11 ABN-AMRO reported that its competitors in the US market have installed advanced speech technology. The company has started to use US-English speech technology in the US as well. Also for Brasil-Portugese text-to-speech technology is available at a quality level that could justify implementation. But the quality of Dutch language products is too low to justify any investment in ABN-AMRO’s home market. Moreover there is an insufficient number of Dutch integrators with knowledge of the advanced software tools (e.g. SpeechWorks or Nuance).
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 95 van 127
While the core technology license revenues have been reasonably well estimated on a per port basis, this is much harder to know for the application development cost.
Worldwide Market Analysis The market leader in high-end speech technologies for this call center market in the USA is Nuance. Currently Nuance generates revenues in the order of $50M, of which half is licensing and the other half services and maintenance12. Market predictions yield an approximate annual growth rate of 10-15%, so a potential doubling in 5-7 years time. Growth is based on growing market size of call centers in general and a shift towards high-end solutions. Classical low-end IVR is a mature market that should expect little or no growth. At this point Nuance is still loosing money on virtually every deal, which means that the market is still too slow to recover the full development cost of an application. But Nuance hopes for breakeven in 2005. Nuance has some 20 languages in its portfolio but generates by far most income (80%) from US-English. Other major players in the US market are: ScanSoft (through the acquisition of the US-company SpeechWorks) and IBM for the core technologies; LocusDialogue and iVOice (among others) for application development. The application development happens mostly with companies specializing in voice operated systems, sometimes in-house by very large customers and to a small extent only with the licensing companies in terms of services. Another segment is technology & services developed internally at some of the major telecom operators, e.g. AT&T.
Recent global predictions of the forecasting industry Two recent market reports make an estimate of the ‘speech technology market in telecom’. GARTNER (2002 / 2003): estimates the Nuance worldwide market share (in number of ports) as 36%; estimates a doubling of the worldwide licensing market to $259 million in 2007. ABI = Allied Business Intelligence Inc. (2003): estimates the speech technology business in telecom (world-wide) at little less than $900 million for 2003; forecasts a growth to $5 billion in 2008 (5,5 times larger than the 2003 market). VIA = Voice Information Associates (2003) : estimates the current market share of Nuance in terms of installed ports at 42%.
12 In some reported figures maintenance cost is included in license cost, whereas in other cases it is considered to be part of service cost.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 96 van 127
The Gartner report is inconsistent with the revenue numbers published by Nuance. It seems as if they attribute all revenue generated by Nuance as license related, or they were too optimistic about 2003. (The report is based on 2002 figures.) In any case if Nuance shipped software for 36% of the ports, then it must be estimated that they had more than 36% of the value, as they are definitely high-end and probably the most expensive. This is supported by the VIA data. The ABI estimate seems reasonable in its current estimate but is much more optimistic in its growth prediction. Currently the speech technology market is by far dominated by the US market (estimated at 2/3 of the global market). The ABI growth path is only possible if Europe and East Asia can grow to similar markets as the US, which is quite difficult given the language diversity.
Our global market estimate For our prediction of the future we assume that the US market will double while the other markets evolve faster. The result is that the US market share drops from 66% today to 40-50% in 2008, yielding a worldwide growth factor of about 3. Using all the available numbers and scaling down the traditionally optimistic predictions of the forecasting industry we derive the following numbers: Speech technology licensing market / call centers and IVR (2003) revenues Nuance licensing & maintenance market share Nuance our estimate world wide licensing revenue compare Gartner ibidem
50 million $ 35 million $ 40% 87,5 million $ 130 million $
We assume a ratio for license revenue to revenues from application development as 1 : 7. This ratio has been endorsed by many of the experts in the AST field that have been consulted when writing this appendix. It differs from the mono-lingual ratio as the relative cost of application development increases in multilingual environments and multilingual services have become important. The result is: Total speech technology market / call centers and IVR (2003) world wide licensing revenue application development revenue our estimate total compare ABI ibidem (2003)
87,5 million $ 612,5 million $ 700 million $ 900 million $
Given a world-wide growth by a factor of 3 in 5 years we derive the following data for 2008: Total speech technology market / call centers and IVR (2008) our estimate added value of AST our estimate 5-year growth factor compare ABI added value of AST compare ABI 5-year growth factor
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
2100 million $ 3 5 billion $ 5,5
Pagina 97 van 127
The current and future market for Dutch Language AST Rough estimates based on the tenders by large customers (KPN in the Netherlands, banks in Belgium, etc.) over the last couple of years yield a market estimate of less than 10.000 ports operated in the Dutch language. Currently there are no high-end applications up and running and only a small part of them are using some speech technology, maybe as little as 10%. At an average of € 1.000 / port for licensing and a ratio of 1 : 4 for licensing versus application development for this medium-end market we may optimistically estimate that the global Dutch speaking market is € 5 million only. If we assume that the US market is 65% of the worldwide market of $700 million, this implies that the current market for Dutch speaking speech technology is about 1% of the US market today. This clearly shows a technological backwardness in this area relative to the US economy. The population ratios between the USA and the two most important Dutch language speaking areas (the Netherlands plus Flanders) is 7%. The call center market potential may be in that proportion. The market potential for advanced speech applications is maybe smaller due to the scale effect. So it would be unreasonable to assume that the market for AST in the Dutch language could ever be more than 5% of the US-English market. But for the time being it is only 20 % of that value, due to a variety of reasons, but one of which is definitely the insufficient quality of the available core technologies for Dutch.
Potential and challenges for the Dutch Language market Based on the above figures there is currently an underdeveloped market for Dutch language speech technology applications in medium and high end telecom applications. This situation can be changed if the following conditions can be fulfilled: the quality of basic speech technology components (ASR, TTS) needs to improve significantly; there should be continued technological progress that leads to a significant reduction in the application development cost. Our assumption is that ‘Dutch’ is not inherently more difficult than ‘English’ for speech recognition applications, although this still needs to be proven. At this point it cannot be said with certainty that both languages are equally ‘difficult’, nor do we know how badly the strong dialectical nature of the Dutch language region will impact the performance of complex systems. We also assume that the scale effect is not so important that it becomes inefficient to develop high-end applications for the Dutch language market. A population of around 20 million people should be sufficient for profitable product development, once the basic technology components have become available.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 98 van 127
Given the expenses and risks involved, it is excluded that the market for Dutch language speech products will develop entirely by itself without any government interference. Hence the potential extreme scenarios for the Dutch and Flemish government are: the national markets stay underdeveloped and at 1% of the US market which is expected to be doubled by 2008. The Dutch / Flemish market size increases from € 5 million to € 10 million by 2008. This is the scenario without any government policy; the Dutch speaking market picks up speed. By 2008 it reaches 4% of the US market (close to its maximum potential). Hence it grows from € 5 million today to € 40 million by 2008. This is the scenario with a full fledged government TST policy of the Dutch and Flemish government. We conclude that government interference may generate € 30 million additional annual revenues in advanced speech technology.
Cost-benefit analysis of a government investment in AST Benefits of implementing AST in the call center / IVR market all depend on value in terms of saved ‘operator time’. We expect that Dutch service organisations will be conservative in exploiting AST and will only implement the technology when their gain in additional efficiency is at least twice the investment cost. This would imply that the multiplier factor from usage is at least 2. It is unlikely to be larger as for example Dutch banks cannot gain additional global market share elsewhere13 because of implementing Dutch language AST and foreign banks that would enter the Dutch speaking market (like Citibank in Belgium) face the same quality of Dutch language AST as the existing players in the Dutch and Flemish market. Nevertheless the total economic impact – both direct and from usage – would be € 80 million in yearly revenues and the difference in yearly revenues with the scenario with underdeveloped AST would be € 60 million. If a government initiative could effectively accelerate AST-developments with an investment of around € 10 million (for speech only) divided over a five year period, the potential impact is more than sufficient to justify that investment.
13
It is different for automatic translation technology.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 99 van 127
Bijlage 5: Participanten in de TST-workshops M&I/PARTNERS heeft een drietal workshops georganiseerd, die werden gehouden in Tilburg (26 augustus en 12 september 2003) respectievelijk in Antwerpen (3 oktober 2003). De volgende personen hebben geparticipeerd: 26-aug
12-sep
3-okt
WS1
WS2
WS3
ja
ja
Kennisinstellingen TNO-TM
Bronkhorst
TNO Telecom
Jongebloed
ja
ja
UT (en TNO-TPD)
de Jong
ja
ja
Universiteit Gent
Martens
ja
ja
KU Leuven
Schuurman Wambacq
ja ja
van Eynde Universiteit van Antwerpen KUN
ja
ja
Tjong Kim Song
ja
Daelemans (ook UvT)
ja
Oostdijk
ja
Strik
ja
ja
ja
ja
RU Groningen
Bouma
Universiteit van Tilburg
Bunt
ja ja
Elsnet (network of excellence)
Krauwer
ja
Marktpartijen ABN-AMRO
Rats
ja
Telecats (en UT)
van Hessen
ja
CrossLanguage
van der Meer
Human Inference
Mergen
ja
Wandt
ja
Polderland
de Mönnink
ja
ja
van den Heuvel
ja
ja
9292 reisinfo
Munnik
ja
ja
Scansoft (en UU)
Odijk
ja
ja
ja
ja
Human Inference Voice Insight
ja
Wandt
ja
Mergen
ja
den Ouden
ja
Ballieu
ja
Knowledge Concepts
Kobus Schalkwijk
ja
Irion Technologies
van Gent
ja
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
ja ja
ja ja
Pagina 100 van 127
Intermediairs NTU
Cucchiarini
ja
ja
ja
Knops
ja
ja
ja ja
NWO
Dijkstra
ja
Senter (Nederland)
Kruithof
ja
Min van EZ (Nederland)
van den Bosch
ja
ja
Vlaamse overheid (AWT)
Dewallef
ja
ja
ja
Min van OCW
Spoor
ja 22
18
Overheden
Aantal participanten
22
De participanten in de workshops waren voor 2/3 op laag 2 actief. Onderstaand schema geeft de achtergrond van de participanten weer zoals die participeerden in workshop 1 van augustus 2003. De achtergrond van de participanten in volgende workshops zal niet wezenlijk verschillen. Vraagzijde TST-technologie
2% Makelaars, advies en voorlichting
Afname van producten en diensten met embedded TST
LAAG 4: gebruiker 4%
4% Aanbodzijde TST-technologie
LAAG 3: TST-embedding (22%)
Toegepast onderzoek met TST afhankelijkheden
TST-integratie bij product- en platform ontwikkeling
10 %
2% 26 % Fundamenteel TST-onderzoek
10 %
13 % Strategisch TST-onderzoek
Toegepast TST-onderzoek
Maken van TST-modules en halffabrikaten
18 %
4%
Ontwikkeling van applicaties met embedded TST
Strategische basisvoorzieningen
9% Productgerichte basisvoorzieningen
3%
LAAG 2: TST-onderzoek en ontwikkeling (66%)
LAAG 1: TSTbasisvoorzieningen (7 %)
Afstand tot de markt
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 101 van 127
Bijlage 6: Scenario’s Inleiding Een viertal TST-scenario’s zijn hieronder kort beschreven. Ze verschillen in: de mate waarin en de wijze waarop TST bijdraagt aan de economie; de omvang van de overheidssteun voor TST; de gerichtheid op vooral de Nederlandse taal of een mix van meerdere talen. Alle scenario’s gaan uit van een start in 2004 en hebben een achtjarige doorlooptijd. In een schema:
Alle talen
Scenario 4: Nederland en Vlaanderen zijn beide global TST-players
Nederlands
Eigen taal vs. alle talen
Scenario 3: NL en Vlndr als vestigingsplaats van global TSTplayers Scenario 1: Nederland TSTonderzoeksland en Vlaanderen global player
Scenario 2: TST optimaal toegepast in NL + Vlaamse diensten -economie
Beperkt
Omvangrijker
Mate van overheidsstimulering Van de deelnemers wordt onder andere het volgende gevraagd: een oordeel over de wenselijkheid van een beschreven scenario; een oordeel hoe reëel het scenario wordt gezien (politieke haalbaarheid); de invulling van het meest kenmerkende stimuleringsinstrument in een scenario; een oordeel over de intensiteit waarmee en de manier waarop kennisinstellingen en marktpartijen in het scenario samenwerken; een oordeel over de wijze waarop Nederland en Vlaanderen in het scenario samenwerken; voorstellen voor wijzigingen in het scenario om het effectiever en/of beter haalbaar te maken.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 102 van 127
In de vier scenario’s worden de volgende vier vormen van overheidsstimulering gestalte gegeven. In scenario 1 hebben de overheden gekozen voor gedeeltelijke financiering van het BATAVO-voorstel. Gegeven een tekort aan beschikbare overheidsfinanciering wordt slechts 2/3 van het gevraagde budget beschikbaar gesteld. Daarom moeten er prioriteiten worden gesteld binnen het BATAVO-projectplan uit 2002. De deelnemers aan de workshop wordt gevraagd die prioriteiten te formuleren. In scenario 2 leggen de overheden prioriteit bij vraagstimulering en treedt de overheid vooral als ‘launching customer’ op. Gegeven het beslag daarvan op middelen is voor Batavo nu 50% van het gevraagde budget beschikbaar. De deelnemers wordt gevraagd suggesties te doen voor vraagstimuleringsactiviteiten. In scenario 3 wordt een IOP opgezet met een financiële omvang die gelijk is aan het gevraagde Batavo-budget. Toekenning van middelen vindt plaats via tendering. Tijdens de looptijd van het Batavo-project blijkt slechts 1/3 van de activiteiten betrekking te hebben op het Nederlands. Daarvan heeft 1/4 betrekking op basisvoorzieningen. In totaal 2/3 van de IOP-projecten is gericht op een mix van meerdere talen of taalonafhankelijke activiteiten. De deelnemers wordt gevraagd suggesties te doen voor de programmalijnen van zo’n IOP. In scenario 4 wordt gerichte bedrijfsstimulering gegeven aan TST-bedrijven (zoals dat ten tijde van de regering Van den Brande in Vlaanderen is gedaan). De deelnemers wordt gevraagd thema’s te selecteren die de overheid als ‘doorbraaktechnologie’ zou kunnen steunen. Elke deelnemer wordt gevraagd om per aspect een oordeel te geven (op een as van 1 tot en met 5) binnen elk scenario. Daarom zijn vier discussierondes met kleinere subgroepen georganiseerd. Het oordeel op aspecten en de inhoudelijke invulling van beleidsmaatregelen gebeurt op een invulformulier dat wij graag van elke deelnemer in ontvangst nemen na afloop van de sessie. De suggesties voor optimalisering van een scenario wordt per subgroep gedaan. Alle deelnemers ontvangen de geaggregeerde workshopinformatie retour. (En als ze daar prijs op stellen een kopie van het door hen ingevulde scoringsformulier.)
Vooraf Geen van deze scenario’s is gebaseerd op vaststaande feiten. Analyses en opvattingen in een scenario worden niet noodzakelijkerwijs gedeeld door de opstellers en kunnen doelbewust zijn geformuleerd om discussie uit te lokken.
Scenario 1 Eind 2003 besluit de overheid conform het advies van M&I/PARTNERS om het Batavo-project gericht op basisvoorzieningen voor de Nederlandse Taal in afgeslankte vorm te starten. Het onderzoek zal in de periode 2004 - worden gefinancierd via NWO voor het Nederlandse aandeel en via de AWI voor het Vlaamse deel. Voor een IOP kon in Nederland geen draagvlak worden gevonden omdat de opvattingen van kennisinstellingen en bedrijven over de gewenste richting en prioriteiten van TST-onderzoek te veel divergeerde. De Batavo-financiering wordt eind 2003 beschikbaar gesteld nadat de activiteiten waren aangepast aan het afgeslankte budget. Het betekent dat in de volgende matrix [NTU, 2002] prioriteiten moeten worden gesteld.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 103 van 127
BATAVO geplande prioriteiten voor taaltechnologie versus beschikbaar budget Aantal fte/ Totaal Gepland: jaren jaar fte 5 12 60 Treebank voor geschreven Nederlands, hergerbruik en aanpassing van tools Training en testing van robuuste grammatica/parser Annotatie van syntaxis en semantiek Tekstvoorverwerking Vertaalequivalenten Bilinguale corpora
Geraamd fte / budget Beschikbaar budget in scenario 1
3 3
3 3
9 9
675.000 675.000
[?]
[?]
78 [?]
5.850.000 3.900.000
BATAVO geplande prioriteiten voor spraaktechnologie versus beschikbaar budget Aantal fte/ Totaal Gepland: jaren jaar fte 5 10 50 Automatic Speech Recognition 3 3 9 Spraakcorpora en test cases 5 3 15 Tools (annotatie) Synthese (via project Nextens)
Geraamd fte / budget Beschikbaar budget in scenario 1
Budget in euro 4.500.000
[?]
[?]
74 [?]
Budget in euro 3.750.000 675.000 1.125.000 P.M. 5.550.000 3.700.000
Dus voor taal en spraak tezamen: Aantal jaren Gevraagd voor Spraak + Taal Beschikbaar gesteld in scenario 1 waarvan gefinancierd door Nederland waarvan gefinancierd door Vlaanderen
3-5 jaar [?]
Totaal fte 152 [?]
Budget in euro 11.400.000 7.600.000 5.067.000 2.533.000
Dit bijgestelde Batavo-programma loopt vijf jaar, conform de oorspronkelijke planning (dus 2004 – 2009). Er wordt goed samengewerkt tussen de Nederlandse en Vlaamse kennisinstellingen. In 2010 initieert de Europese Commissie opnieuw een TST-benchmark voor de EU-lidstaten, vergelijkbaar met het Euromap project uit 200114. In 2011 concludeert men in het eindrapport van die nieuwe benchmark-studie het volgende over Nederland: 14 Enkele conclusies uit deze Euromap studie: 1) HLT (= Human Language Resources) has a long and established history in Belgium, where some of the earliest suppliers of language technology products and services were established in the 1990s. The research base is robust, and compares well with the EU standard. Commitment to research by both the public and private sector is favourable. Flanders benefits from close collaboration with the research community in The Netherlands. 2) The Netherlands is a leader in European HLT, and ranks near the top in overall potential, and in RTD investment policy. The country ranks in the middle tier for research and technology transfer, largely because the number of startups and examples of commercial innovation are low relative to the strength of the research base. 3) There is a small but growing number of companies in The Netherlands developing and supplying products and services based on Human Language technology. EUROMAP has identified 15 [Dutch] companies in the field. Most commercial activity is in knowledge applications based on text, or interface applications based on speech.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 104 van 127
‘The Netherlands continues to be a leader in European HLT. And it continues to have an outstanding track record in multilingual HLT. However, it has not made a similar growth in its R&D output as some of the European industrial leaders in TST. The discrepancy between the strength of the research base and the fragmented Dutch industrial TST activities with no larger scale TST companies (as was already noticed in the Euromap benchmark) has impacted the Dutch HLT research including the more fundamentally oriented research. In addition the opportunity costs of creating basic language resources – a government priority since 2004 - has negatively influenced the fundamental research activities as human capital in TST research was scarce and funding for TST research groups remained at the same or a somewhat lower level. There was also a mismatch between this new government priority for creating basis language resources in the native language and the strength of the research groups which was and is in multilingual HLT.’ Voor Vlaanderen is er toch een wat ander oordeel (ook al verschilde het overheidsbeleid sinds 2004 niet meer tussen Nederland en België): ‘The Euromap study of 2001 concluded that the Flanders HLT research was not at the same excellent level as the Dutch HLT research and profited from collaboration with its close neighbours. In 2011 it is clearly the reverse. The Flanders research community has profited largely from the industrial TST leadership of Belgium companies and the RTD-chain (from fundamental research up to product development) was much more balanced than the one in the Netherlands. The priority to create basic native language resources did not disturb this balance as the TSTindustry indeed integrated some of the basic tools and basic data for the Dutch language in its products. This integration even generated some new research questions. (and a ‘brain drain’ from Holland to Belgium).’ Dankzij die integratie van de Nederlandse taal in enkele ICT-producten van Belgische makelij (zoals zoekmachines op het web, vertaaltechnologie voor Engels-Nederlands en omgekeerd en integratie van gesproken Nederlands in talige interactiesystemen) is de Nederlandse taal niet verdwenen door al het ICT-geweld dat in 2011 nog verder in de maatschappij is doorgedrongen. Wat wel verdwenen is zijn veel van de Nederlandse start-ups uit de periode 2000 – 2005. Enkele Nederlandse TST-bedrijven zijn van de markt verdwenen bij gebrek aan succes. Maar het merendeel is opgekocht door de grote TST-spelers (waaronder die uit België). De spelling checker in Microsoft’s Word bijvoorbeeld wordt nu (nadat het Nederlandse bedrijf dat die maakte, was opgekocht) door de software gigant zelf verder ontwikkeld, net als die voor andere kleine talen.
4) Belgium has a strong history of industry investment in HLT, and ranks above average on this measure, as well as on its tradition of RTD in multiple languages. Commercial investment in HLT research has been interrupted recently by the failure of the most significant national player, L&H, but the assets of this company have passed to others, and most of the technology is still available to the market, some in successor companies in Belgium. 5) The Netherlands has an outstanding track record in multilingual HLT. There is less evidence, however, of strong research in cross-language capabilities. There is little commercial activity in cross-language applications, and no national supplier of machine translation for the Dutch language - a significant gap in coverage probably due, in part, to the low density of the Dutch language. No free Dutch gisting engine is available on the Web. Weakness in the cross-language focus may also reflect a shift in the centre of gravity of the localisation industry from The Netherlands (which was originally a leader in this field) to Ireland, which occurred in the 1990s. Revitalising the development of cross-language products and services is a notable opportunity. 6) A multi-language focus is natural to the Belgian community, which has three national languages, and is the home to citizens from all over the Union due to the administrative role of Brussels. […] Belgium has one of the best track records in addressing cross-language issues and multi-language HLT development, in both the speech and NLP domains. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 105 van 127
De productiefaciliteiten voor de ‘minority language tools’ heeft Microsoft geconcentreerd in de VS, inclusief de bijbehorende research. Ook het Van Dale woordenboek voor het Nederlands (dat alleen nog maar in elektronische vorm bestaat) wordt door Microsoft uitgegeven. Het bedrijf maakt bij de ontwikkeling van alle nieuwe tools en producten dankbaar gebruik van de basisvoorzieningen die via Batavo zijn gecreëerd. De opgekochte Nederlandse bedrijven zijn omgevormd tot verkoopkanaal voor Nederlandstalige TST-tools. Additionele vraag aan de participanten in de workshop: geef aan welke prioriteiten in een Batavo-programma met gereduceerd budget gesteld moeten worden (dan wel welke Batavoonderdelen geschrapt zouden kunnen worden).
Scenario 2 In 2003 besluiten de Nederlandse en Vlaamse overheid op advies van M&I/PARTNERS om de nadruk te leggen op vraagstimulering. Binnen zo’n beleidsaanpak is er weinig prioriteit en aandacht voor de research zelf. Daarom wordt voor het Batavo-voorstel slechts de helft van het gevraagde budget beschikbaar gesteld (€ 5,7 miljoen over een vijfjarige periode) en is het beleid dat de basisvoorzieningen voor het Nederlands deels gecreëerd moeten worden door market pull. Vraag vanuit de markt ontstaat bij een klein taalgebied niet autonoom, maar de overheden besluiten om overheidsdiensten en de semi-overheid actief aan te moedigen om TST-technologie in de eigen dienstverlening in te bouwen en maken een stimuleringsregeling voor de meerkosten daarvan. Een van de expliciet benoemde onderdelen binnen de meerkosten zijn de basisvoorzieningen voor het Nederlands. Nu is ‘launching customer’ spelen lange tijd de achilleshiel van het Nederlandse innovatiebeleid geweest: ‘Geen daden, maar woorden’ past het best bij het beleid tot aan 2004. Maar dankzij het Nederlandse Innovatieplatform onder voorzitterschap van de MP veranderde dat in de jaren daarna. Ook alleen dankzij de betrokkenheid van de ministeriële toppers kon het budget voor de TST-vraagstimulering, € 25 miljoen over vier jaar, gevonden worden en verdeeld worden over de begrotingen van een aantal ministeries. De Nederlandse aanpak had ook zijn effect op de besluitvorming in Vlaanderen. Zoals te verwachten was, investeerden alle (semi-)overheidsdiensten in Nederlandstalige diensten waarin ze de taal- of spraaktechnologie verwerkten. Bij een evaluatie van het beleid in 2012 bleken de basisvoorzieningen ook daadwerkelijk verdubbeld te zijn ten opzichte van wat rechtstreeks uit het Batavo-budget was gefinancierd. De via vraagstimulering gecreëerde voorzieningen bleken zelfs frequenter gebruikt dan de voorzieningen die voor 100% met subsidiegelden waren opgebouwd. De evaluatie is ook zeer positief over het economisch rendement van de TST-investeringen. De kwaliteit en ICT-embedding van de Nederlandse en Vlaamse dienstensector bleef zijn toppositie houden op de wereldmarkt. Wel is de TST-industrie in Nederland en Vlaanderen minder multi-lingual en cross-lingual geworden dan ze in de jaren 2001 – 2005 was. De sector heeft niet meer de ambitie om start-up bedrijven te creëren en op eigen kracht en creativiteit te investeren in volstrekt nieuwe TSTproducten. Ze is meer een sector geworden waar de tools die elders voor de belangrijke talen worden ontwikkeld worden omgevormd tot ‘native language tools’. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 106 van 127
Daarmee levert ze een belangrijke economische bijdrage, maar meer als economische randvoorwaarde voor groei in de dienstensector. Haar eigen bijdrage aan het BNP van Nederland en Vlaanderen stelt niet veel voor. Voor Nederland brengt dat weinig verandering in de eerdere situatie, voor België betekent het een toontje lager zingen. Vrijwel alle TST-bedrijven, waaronder degenen die rond 2000 de L&H-erfenis hebben weten te bemachtigen, zijn opgekocht door de ‘global players’ elders in de wereld. Dit heeft ook een effect op het fundamentele en toegepaste TST-onderzoek. Het blijft van hoog niveau, maar qua omvang is het eerder toe- dan afgenomen. De echt nieuwe kennis komt immers niet van de kennisinstellingen, maar wordt uit het buitenland gehaald. Ook in het onderzoek is er daarom een onderscheid ontstaan tussen de innovatieve kernen in de landen van de grote taalgebieden (Engels, Spaans, Duits, Frans, Japans en Chinees). De overige landen zijn de hulpjes geworden. Maar daar licht de minister van Economische Zaken in dit technologiegebied niet van wakker. Additionele vraag aan de participanten in de workshop: geef aan welk type (semi-)overheidsdiensten zouden kunnen worden gesteund in een vraagstimuleringsregeling met de overheid als ‘launching customer’. Geef aan welke, nu beschikbare Nederlandse producten (van kennisinstellingen of marktpartijen) door die launching customers gebruikt zouden kunnen worden.
Scenario 3 In 2003 besluit de Nederlandse overheid op advies van M&I/PARTNERS om een IOP (Innovatiegericht Onderzoeksprogramma) voor Taal- en Spraaktechnologie te creëren. Ook de Vlaamse overheid ziet af van het eerdere besluit om de TST-middelen met één pennenstreek beschikbaar te stellen aan de basisvoorzieningen zoals geschetst in het Batavo-plan. Ze geeft toch de voorkeur aan het tendering principe dat de kern vormt van het IOP-instrument en ook de Belgische industrie voelt veel voor het toekennen van overheidsgelden binnen door de industrie medevormgegeven programmalijnen. Helaas start het IOP pas in 2006. Vaak duurt het lang om IOP’s te starten en in dit geval is het extra complex omdat de Nederlandse en Vlaamse overheid langdurig moeten overleggen over de wijze van beheer en management. Het resultaat van dat lungdurig overleg is wel positief. Het IOP wordt het eerste Vlaams-Nederlandse IOP en beheerd door één organisatie, naar het model van Senter en gevestigd in Brussel (aan het AWI gelieerd). Een budget van € 12 miljoen (acht Nederland, vier Vlaanderen) is beschikbaar over de eerste periode van vier jaar (2006 – 2009). In Nederland wordt het budget op 50/50 basis verschaft door de ministeries van OCW respectievelijk EZ. Programmalijnen worden in 2005 vastgelegd na een stevige discussie tussen marktpartijen en kennisinstellingen. Die ging onder andere over de verhouding tussen onderzoeksactiviteiten gericht op het Nederlands, op andere talen dan wel op taalonafhankelijke vraagstukken. Met name het bedrijfsleven benadrukt dat zij het zich niet kunnen permitteren om zich te eenzijdig op het Nederlands te richten. Voor zo’n kleine taal is onvoldoende markt en de niches waarin de TST-industrie vaak opereert vragen om een multi-linguale aanpak. En dat is juist een sterk punt in het Nederlandse en Vlaamse onderzoekslandschap. Het resultaat van de discussie is een werkplan waarin elk deel qua financieel volume ongeveer 25% van het geheel uitmaakt dus € 4 miljoen per deel). Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 107 van 127
Het Batavo-plan voor basisvoorzieningen vormt een vierde onderdeel van het IOP, ook weer met omvang van € 4 miljoen. Bij de IOP-tenders kunnen projecten voor basisvoorzieningen worden ingediend. Dat blijkt in de praktijk wel te werken, zij het dat juist bij dit vierde IOPprogrammadeel voor de basisvoorzieningen de betrokkenheid van de industrie niet eenvoudig te realiseren is. In de mid-term evaluatie van het IOP van begin 2011 wordt het IOP als succesvol beoordeeld. Het heeft de samenwerking tussen publieke onderzoeksinstellingen en TST-marktpartijen flink verbeterd. En ook de samenwerking over de ‘grens’ (als je de overgangslijn tussen Nederland en België nog zo mag noemen). Het onderzoek op TST-gebied is door al die samenwerkingsrelaties op topniveau gebleven. Aan de marktkant hebben vooral de start-up partijen uit de periode 2001 – 2005 van het IOP geprofiteerd en die marktpartijen hebben hun niches weten uit te bouwen. Het heeft in Nederland en Vlaanderen een goed vestigingsklimaat gecreëerd voor de global TST-players (die zonder uitzondering afkomstig zijn uit landen met grote taalgebieden). Vooral toen de economie weer aantrok na de economische recessie (vanaf 2007) vestigden zich nogal wat spelers in Amsterdam en ‘Flanders Valley’. Het economisch effect van het IOP wordt daarom als zeer positief gezien. Het gaat daarbij niet alleen om de bijdrage van de buitenlandse vestigingen aan het BNP van Nederland en Vlaanderen. De aanwezigheid van die ‘globally-thinking partijen’ leidt ertoe dat de Nederlandse en Vlaamse dienstensector TST-tools intensief gebruikt, vooral binnen internationaal georiënteerde bedrijven en multinationals. Nederland en Vlaanderen weten zo hun reputatie van handelslanden waar men ook andere talen spreekt te handhaven. De beschikbaarheid van enkele basisvoorzieningen voor het Nederlands in combinatie met de aanwezigheid van global players die zulke voorzieningen weten te gebruiken, leidt er toe dat in een aantal toepassingen, met name daar waar de interactie met een Nederlandstalige gebruiker aan de orde is, de Nederlandse taal niet verdwijnt. Additionele vraag aan de participanten in de workshop: geef voor drie van de vier IOP-delen van € 4 miljoen aan welke programmalijnen voor onderzoek men er in zou moeten opnemen. (Het Batavo-deel van het IOP mag oningevuld blijven, want daar wordt in scenario 1 aandacht aan besteed.
Scenario 4 In 2003 besluiten de Nederlandse en Vlaamse overheid op advies van M&I/PARTNERS om de nadruk te leggen op directe bedrijfsstimulering van TST-bedrijven. De groei van Lennart en Hauspie in België had laten zien dat een dergelijk beleid zijn vruchten afwerpt en in 2003 was de teleurstelling dat niet alles goed gegaan was met dit bedrijf gelukkig vervangen door een meer realistische houding. Economische groei is immers Creative Destruction (Schumpeter): het teloor gaan van een bedrijf is geen verrassend fenomeen en ook niet ernstig15 zolang de kennis behouden blijft en weer elders wordt ondergebracht. En dat laatste was overduidelijk gebeurd met de L&H-erfenis.
15
Behalve voor aandeelhouders.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 108 van 127
Zowel de Nederlandse als Vlaamse overheid besluiten om TST als technologisch doorbraakthema aan te merken. Plannen voor innovatief onderzoek en productontwikkeling kunnen worden goedgekeurd voor 1/3 overheidsubsidie. Het belang dat de overheid etaleert leidt er ook toe dat de diverse TST-start-ups de eigen financiering, waarover ze niet zelf beschikken, snel van venture kapitaalverschaffers kunnen lenen. Het budget voor subsidie aan doorbraakprojecten bedraagt € 25 miljoen over vier jaar. Daarnaast is financiering beschikbaar voor het Batavo-plan met een omvang van 50% van de gevraagde middelen (zie scenario 2). Dit beleid heeft, zoals te verwachten viel, een positief effect op de groei van de TST-bedrijven in Nederland en Vlaanderen. In 2012 zijn Nederland en Vlaanderen de enige plaats in Europa waar een TST-industrie met een wereldpositie is gevestigd. En net als vroeger toen taal en spraak nog weinig met ICT te maken hadden, weet men de afkomst uit een klein taalgebied tot zijn voordeel uit te bouwen. De economische toppositie dankt men vooral aan het feit dat een product op efficiënte wijze voor een hele reeks van talen (soms zelfs voor het Nederlands) beschikbaar komt. Uiteraard profiteert het onderzoek mee van de onstuimige groei en weet men die behendigheid van ‘éénmaal betalen, meerdere malen halen’ een steeds steviger wetenschappelijke basis te geven. Uiteraard is een evaluatierapport uit 2012 lovend over de effectiviteit van het beleid. Additionele vraag aan de participanten in de workshop: geef aan welk type projecten echte ‘doorbraakprojecten’ zouden kunnen zijn. En geef daarbij aan waarom de Nederlandse of Vlaamse overheid subsidie zou moeten verstrekken, bijvoorbeeld omdat er een marktimperfectie is of omdat een in Nederland of Vlaanderen gevestigd bedrijf aantoonbare nadelen heeft door zijn aanwezigheid in zo’n klein taalgebied. (NB. Er mag uiteraard ook geen conflict met Europese mededingingsregels zijn.)
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 109 van 127
Bijlage 7: Conclusies EUROMAP benchmark In de benchmark studie EUROMAP zijn de volgende statements over Nederland respectievelijk Vlaanderen opgenomen (onderstreping door de opstellers van dit rapport). HLT has a long and established history in Belgium, where some of the earliest suppliers of language technology products and services were established in the 1990s. The research base is robust, and compares well with the EU standard. Commitment to research by both the public and private sector is favourable. Flanders benefits from close collaboration with the research community in The Netherlands. The Netherlands is a leader in European HLT, and ranks near the top in overall potential, and in RTD investment policy. The country ranks in the middle tier for research and technology transfer, largely because the number of start-ups and examples of commercial innovation are low relative to the strength of the research base. There is a small but growing number of companies in The Netherlands developing and supplying products and services based on Human Language technology. EUROMAP has identified 15 [Dutch] companies16 in the field. Most commercial activity is in knowledge applications based on text, or interface applications based on speech. Belgium has a strong history of industry investment in HLT, and ranks above average on this measure, as well as on its tradition of RTD in multiple languages. Commercial investment in HLT research has been interrupted recently by the failure of the most significant national player, L&H, but the assets of this company have passed to others, and most of the technology is still available to the market, some in successor companies in Belgium. The Netherlands has an outstanding track record in multilingual HLT. There is less evidence, however, of strong research in cross-language capabilities. There is little commercial activity in cross-language applications, and no national supplier of machine translation for the Dutch language - a significant gap in coverage probably due, in part, to the low density of the Dutch language. No free Dutch gisting engine is available on the Web. Weakness in the crosslanguage focus may also reflect a shift in the centre of gravity of the localisation industry from The Netherlands (which was originally a leader in this field) to Ireland, which occurred in the 1990s. Revitalising the development of cross-language products and services is a notable opportunity. A multi-language focus is natural to the Belgian community, which has three national languages, and is the home to citizens from all over the Union due to the administrative role of Brussels. […] Belgium has one of the best track records in addressing cross-language issues and multi-language HLT development, in both the speech and NLP domains. In de EUROMAP-studie is het volgende vergelijkend schema opgenomen over de wetenschappelijke score per land:
16
Nederlandse documenten claimen een aantal van 50 – 100.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 110 van 127
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 111 van 127
Bijlage 8: Onderzoeksprioriteiten volgens Scansoft Profiel Scansoft Scansoft is het grootste bedrijf op het terrein van de taal- en spraaktechnologie in het Nederlandstalige gebied. Het is onderdeel van het Amerikaanse bedrijf Scansoft, dat 800 medewerkers heeft. Rond de 600 van hen zijn werkzaam in de taal- en spraaktechnologie, ongeveer 200 mensen zijn nog betrokken bij het product waarmee het bedrijf ooit groot (en kapitaalkrachtig) is geworden, namelijk software voor scanners. Van de 600 medewerkers op het terrein van de taal- en spraaktechnologie werken er rond de 110 in Vlaanderen. Het bedrijf heeft veel spraaktechnologische producten en ‘human knowledge’ opgekocht van andere bedrijven, waaronder een groot deel van de boedel van Lernout & Hauspie. Na IBM en Microsoft is het de grootste wereldspeler op het gebied van taal- en spraak. Het heeft de volgende prioriteiten geformuleerd voor door de Nederlandse en Vlaamse overheden te financieren publiek onderzoek.
Prioriteiten: Noden aan data met betrekking tot het Nederlands State-of-the-Art Automatic Speech Recognition (ASR) verwerkt commando’s en lijsten van namen, of zorgvuldig gedicteerde spraak. Spontane en minder zorgvuldige spraak ligt nog buiten het bereik van de huidige ASR-technologie en zal dat nog enige jaren blijven. Spraakdata met opnames van spontane spraak zijn daarom op korte termijn niet bruikbaar voor de ontwikkeling van concrete producten, maar wel voor langere termijn onderzoek naar nieuwe generatie ASR-technologieën die wel of in ieder geval beter kunnen omgaan met spontane spraak dan de huidige generatie. Werk aan het ontwikkelen van een ASR-systeem in het kader van Batavo zou zich daarom moeten concentreren op het beschikbaar stellen van ASR-engines die onderzoek hieraan faciliteren. State-of-the-Art spraakdatabanken die command&control ASR-technologie ondersteunen, bestaan voor het Vlaams en het Nederlands en zijn verkrijgbaar bij ELRA of komen daar binnenkort beschikbaar (S0xyz codes refereren naar ELRA-codes). De onderstaande resources17 zijn deels het resultaat van door de EU gefinancierd onderzoek (SpeechDat en Speecon).
17 Voetnoot van M&I/PARTNERS: Er zijn overigens ook door de EU ge(co)financierde basisbestanden die helaas niet beschikbaar zijn voor derden. In begin 90'er jaren is er een project geweest, Onomastica, gesubsidieerd door de EU, waarin grote lexica voor namen met fonetische transcripties zijn gemaakt. Hoewel er van te voren afgesproken was dat de resulterende data publiekelijk beschikbaar zouden komen, waren die afspraken blijkbaar onvoldoende expliciet vastgelegd, en die data zijn dan ook nooit publiekelijke beschikbaar gekomen (tot frustratie van velen). Voor Nederland waren KPN en de universiteit van Nijmegen bij Onomastica betrokken. De IPR voor de Nederlandse Onomastica data ligt bij KPN (of lag want het is onduidelijk wat er met dergelijke rechten is gebeurd bij de overgang van KPN research naar TNO). Scansoft heeft verschillende keren geprobeerd een licentie op die data van KPN te krijgen; zonder resultaat tot nu toe. Als deze data alsnog publiekelijk beschikbaar zouden komen, dan zou er wat Scansoft betreft geen verdere behoefte zijn aan een publiekelijk gesubsidieerd project hieromtrent.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 112 van 127
Telefoon: - Nederlands: Polyphone (S0010); - Nederlands Speechdat-II MDB-250 (S0106); - Vlaams SpeechDat-II FDB-1000 (S0107). SpeechDat-Car - Vlaams & Nederlands (S0139). Speecon - Vlaams circa eind 2004 beschikbaar; - Nederlands circa eind 2004 beschikbaar. De waarde van bepaalde data en de behoefte aan nieuwe types data zal mede bepaald worden door technologische ontwikkelingen. In het recente verleden hebben we dat gezien met diensten voor vaste-lijn telecommunicatie versus mobiele telefonie: de snelle groei van de mobiele telefoniemarkten in Europa maakte dat de databanken voor vaste-telefonie-diensten die reeds bestonden of juist in ontwikkeling waren onvoldoende waren om de klantenbehoeftes af te dekken: aanvullende mobiele-telefonie-databanken waren nodig. In de komende tijd zou iets dergelijks zich kunnen voordoen op het gebied van de microfoontechnologie: als bijvoorbeeld Array-microfoons een succes blijken te zijn en op grote schaal gebruikt gaan worden, dan zouden aanvullende spraakdatabanken met via arraymicrofoons opgenomen data noodzakelijk kunnen blijken. Een belangrijk aspect voor bijna alle huidige spraakapplicaties dat wel genoemd wordt in het Batavo-document, maar waar geen concrete acties voor gepland lijken te zijn, zijn namen. Namen (persoonsnamen, bedrijfsnamen, organisatienamen, plaatsnamen, straatnamen) spelen een cruciale rol in veel telefonische spraaktoepassingen (directory assistance, reverse directory, informatiesystemen) alsook in spraaktechnologie die ingebed is in relatief kleine systemen in auto’s en in draagbare apparatuur zoals PDA en mobiele telefoons (bijvoorbeeld voor navigatiesystemen). Het betreft hierbij zowel spraaksynthese als spraakherkenning. Van namen is echter bekend dat de modellering van de uitspraak allerlei problemen geeft. Namen zijn vaak van vreemde oorsprong, of bevatten delen die van vreemde oorsprong zijn. Ze bevatten daarom vaak een spelling die het niet eenvoudig maakt om de uitspraak te voorspellen (voor mens en machine). En veel namen hebben een afwijkende spelling zelfs als ze niet van vreemde oorsprong zijn. ScanSoft en zijn voorgangers hebben al onderzoek op dit gebied gedaan en zetten dat ook nu nog voort, maar hier ligt ook een rol voor publiek gefinancierd onderzoek: een beleid gericht op basisvoorzieningen voor het Nederlands zou een uitspraaklexicon voor namen moeten omvatten van significante grootte, dat naast een normatieve en ‘correcte’ uitspraak voor iedere naam uitspraakvarianten bevat. Een dergelijke resource zou de basis kunnen leggen voor onderzoek aan modellering van uitspraakvarianten van namen of zou in samenhang met dergelijk onderzoek ontwikkeld kunnen worden. Momenteel is er voor het Nederlandstalig gebied geen resource van dit type publiekelijk beschikbaar. Onomasticon, dat in het verleden met overheidsgeld is ontwikkeld, is niet publiekelijk beschikbaar en daarnaast waarschijnlijk te beperkt in opzet (veel transcripties zijn uitsluitend gegenereerd door grafeem-naar-foneem methoden en er zijn geen uitspraakvarianten). Onderzoek naar methodes die de inspanning en doorlooptijd van de productie van resources reduceren, of die de herbruikbaarheid van data voor een grote range van TST-systemen bevorderen, moet gestimuleerd worden.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 113 van 127
Bijlage 9: Visie van NOTaS Voorwoord van het NOTaS bestuur Bijgaand document is geschreven als reactie op een oproep van M&I/PARTNERS (M&I). Deze oproep werd door M&I gedaan in de aanloop naar de derde workshop (d.d. 10 oktober jongstleden) en had primair tot doel casuïstiek te verzamelen voor het inkleuren van de onderzoeks- en ontwikkelingsbehoeften van de sector. Door M&I werd dan ook aan de genodigden voor de workshop gevraagd om concrete projectvoorstellen in te dienen. Dit is door tal van deelnemers aan de workshop ook gedaan. In overleg met de betrokken onderzoekers van M&I/PARTNERS heeft NOTaS besloten als organisatie niet met projectvoorstellen te komen maar het accent in haar reactie te leggen op het definiëren van een aantal onderzoeksthema’s (die op zich kunnen dienen als kapstok voor concrete projectvoorstellen). Het primaire doel van de handreiking van NOTaS is inzichtelijk te maken aan welke thematische lijnen de Nederlandse bedrijven prioriteit zouden willen geven. We zeggen met nadruk Nederlandse bedrijven omdat er bij NOTaS (nog) geen Vlaamse bedrijven zijn aangesloten. NOTaS zou haar eigen doelstellingen niet serieus hebben genomen als ze haar ambities niet hoger zou hebben gesteld. Met de notitie wordt daarom niet alleen beoogd inzicht te bieden in de thematische lijnen die de bedrijven belangrijk vinden maar wordt ook een oordeel gegeven over de onderzoeksmatige uitvoerbaarheid en de innovativiteit. Immers tal van kennisinstellingen (betrokken in NOTaS) zijn actief betrokken geweest bij de opstelling van de notitie en aldus heeft er ook een eerste evaluatie plaatsgevonden van de haalbaarheid en wetenschappelijke verantwoordheid. Deze visie heeft een draagvlak binnen NOTaS (inmiddels 22 deelnemers) en is de resultante van (soms indringende) discussies. Het stuk is dan ook in de ogen van het bestuur voldoende volwassen om als extern document te fungeren. Om die reden heeft het bestuur dan ook ingestemd met het voorstel van M&I/PARTNERS om het document als bijlage op te nemen in het onderzoeksverslag van M&I. Daarbij wordt wel opgemerkt dat in verband met de tijdsdruk (het beginpunt lag in de tijd gezien op 11 oktober 2003) er wel concessies zijn gedaan aan de zorgvuldigheid en de volledigheid. In de overtuiging dat het hier gaat om een stap in een veel meer omvattend proces is het bestuur van oordeel dat dit een verantwoorde keuze was. 1. Inleiding Dit document is bedoeld als aanvulling op het voorlopige rapport ‘Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie’ van M&I/PARTNERS. In het onderhavige document geven we aan welke onderzoeksthema’s centraal zouden moeten worden gesteld, toegesneden op de behoeftes van de betrokken sector. In sectie 2 staat een opsomming van thema’s. Sectie 3 bevat een lijst met innovatieondersteunende tools, methoden en activiteiten. De lijsten zijn het resultaat van een veel ruimere discussie. Een aantal aspecten van die discussie willen we hieronder expliciet noemen, om de lijsten hun ruimere kader te geven. 1. De afgelopen decennia is er in Nederland en Vlaanderen veel belangstelling geweest voor onderzoek en ontwikkeling in de TST. Er is een behoorlijke hoeveelheid kwalitatief hoogwaardig onderzoek verricht en een aantal van de resultaten daarvan hebben hun weg naar de markt gevonden. We besteden in deze tekst nauwelijks aandacht aan de geschiedenis van TST in het Nederlands taalgebied, aangezien dat reeds in het rapport ‘Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie’ in voldoende mate beschreven wordt. TST is bijna nooit de kern van een applicatie, maar is meestal een enabling technology. De toepasbaarheid van TST wordt dan in sterke mate bepaald door het karakter van de applicatie.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 114 van 127
2.
3.
4.
5.
Het huidige document propageert niet om geheel nieuwe onderzoeksrichtingen in te slaan, maar om, voortbouwend op bestaand onderzoek, de toepasbaarheid van de kennis in praktische applicaties te garanderen. Kort geleden nog, waren de meeste consumenten ervan overtuigd dat het gebruik van met name spraaktechnologie, op het punt stond gemeengoed te worden. Men dacht hierbij zonder twijfel aan computers (zoals in Star Trek) waartegen je, net als tegen een mens, ‘gewoon’ kon praten. Hoewel dit in toenemende mate gebeurt (nu ook KPN en concurrenten het in de 118 diensten toepassen), zijn de meeste TST-diensten nog onzichtbaar. Zonder het ons te realiseren, krijgen we bij overheid en bedrijven bijna altijd eerst een computer aan de lijn (toets 1 voor algemene informatie, 2 voor evenementen et cetera). Webdiensten gebruiken in toenemende mate taaltechnologie om gebruikers te helpen bij navigatie door hun website (type hieronder uw vraag in en klik op ‘submit’). De meeste consumenten (en misschien ook wel onderzoekers) hebben zich niet gerealiseerd dat TST een enabling technology is en dus onzichtbaar moet zijn wanneer het goed werkt. Toch wordt TST (en dan met name de werkelijk ‘intelligente variant’) nog minder vaak toegepast dan zou kunnen. Het zou kunnen dat dit komt door de afwezigheid van herbruikbare componenten; TSTtoepassingen vergen nog te vaak een voorstudie en pilot voordat het daadwerkelijk tot een applicatie kan komen. We kunnen ons de vraag stellen, wat TST nodig heeft om de componenten te kunnen leveren waarmee applicatiebouwers de talige applicaties voor een breed publiek geschikt kunnen maken. Het antwoord op deze vraag menen we te moeten zoeken in robuustheid. Talige applicaties zijn eerst dan aantrekkelijker dan ‘ongeletterde’ oplossingen, wanneer de dekkingsgraad, de precisie en de analytische diepte van de componenten voldoen. Deze kwaliteitscriteria moeten dan ook nog in overeenstemming worden gebracht met vaak stringente snelheidseisen. Robuustheid en algehele kwaliteit dient een centraal criterium te zijn binnen het onderzoeks- en ontwikkelbeleid. Met betrekking tot de analytische diepte kan worden opgemerkt, dat veel van de (potentiële) toepassingen (KM, vertaalondersteuning, proofing tools, et cetera) een flinke additionele inspanning in de richting van semantische kennis vereisen. Buiten de eerdergenoemde succesfactoren is een antwoord nodig op de vraag, wat de consument motiveert om een talige dienst te (gaan) gebruiken. Ontwikkelingsactiviteiten dienen te zijn gestut door betrouwbaar marktonderzoek. Hiernaast speelt markteducatie een grote rol: de zegeningen van een nieuwe technologie blijken in het gebruik. Onderzoek en ontwikkeling in TST vereisen basisvoorzieningen. Dit is het onderwerp van het BATAVO-voorstel. Onder de basisvoorzieningen begrijpen we dan niet alleen de resources, zoals corpora, lexica en grammaticale beschrijvingen, maar zeker ook de onderzoekshulpmiddelen, zoals taggers, herkenners, parsers en andere ondersteunende instrumenten zoals standaarden voor taaltechnologische resources. NOTaS steunt dan ook het BATAVO-voorstel. Sectie 3 moet beschouwd worden als aanvullend commentaar bij dit voorstel. Men kan zich de vraag stellen, waarom de Nederlandse en Vlaamse overheden in TST zouden moeten investeren. TST is, zoals reeds eerder opgemerkt, een enabling technology die bepaalde applicaties en/of diensten mogelijk maakt, of er voor zorgt dat applicaties gebruikersvriendelijker kunnen worden (intypen of inspreken van een vraag in plaats van het eindeloos klikken op ‘links’ of toetsen). TST-technology bestaat deels uit generieke componenten (spectraal analyse, snel in woordenlijsten zoeken, statistische relevanties berekenen et cetera) deels uit taalafhankelijke en cultureel bepaalde componenten.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 115 van 127
Afwezigheid van Nederlandstalige ‘state-of-the-art’ componenten, zal op den duur leiden tot Nederlandstalige diensten die minder gebruikersvriendelijk zullen zijn dan vergelijkbare diensten in ‘grotere’ talen. Gedacht kan worden aan telefonische diensten waarbij bijvoorbeeld een Fransman wel gewoon kan vragen om het toezenden van een gewenst artikel terwijl de Nederlander hiervoor nog eindeloos op toetsen moet drukken. Ook zal een Duitser straks (zonder kennis van het Spaans) moeiteloos in een Spaanstalige catalogus kunnen zoeken en er zaken uit bestellen, terwijl de Nederlander zich zal moet behelpen met het zoeken in het Engels in deze Spaanstalige catalogus. Op dit moment spelen Nederland en Vlaanderen (al dan niet gedwongen door hun kleine taalgebied) een prominente rol binnen de TST-wereld, maar het blijft noodzakelijk om er in te investeren: bij ontwikkelkeuzes zal de markt met name eerst voor economische prominente taalgebieden kiezen. Kleinere talen en meertaligheid komen altijd in de praktijk op de tweede plaats (als ze überhaupt al op een plaats komen). Omdat TST een terrein is dat wereldwijd momenteel een grote ontwikkeling doormaakt, heeft stimulering direct positief gevolg voor de concurrentiepositie van Nederland en Vlaanderen in zowel het onderzoek als de ontwikkeling van producten. Het huidige kabinet onderschrijft het belang hiervan. Het Nederlandse taalgebied heeft nu nog een goede naam in internationaal onderzoek. Toepasbaarheid van (Nederlandstalige) onderzoeksresultaten voor andere taalgebieden kan leiden tot een verbetering van de internationale concurrentiepositie. Een doorbraak op TST-gebeid voor het nationale bedrijfsleven leidt haast per definitie tot een internationale doorbraak. 6. Na geprobeerd te hebben de vraag naar de zin van stimulering positief te beantwoorden, staan we stil bij het instrumentarium voor stimulering. Bestaande stimuleringsinstrumenten zijn gericht op (fundamenteel) onderzoek en ontwikkeling en op samenwerking tussen individuele bedrijven en kennisinstellingen. - Het lijkt wenselijk om te voorkomen dat samenwerking tussen kennisinstellingen en bedrijfsleven al te zeer een incidenteel karakter heeft. Het verdient aanbeveling dat een stimuleringsinstrument met name een bredere en langerlopende vorm van samenwerking faciliteert. - Het vereiste marktonderzoek en markteducatie overstijgen de individuele TST-spelers. NOTaS zou hierin een belangrijke rol kunnen spelen. Door investering van de overheid wordt het resultaat gemeengoed. - De overheid kan een belangrijke rol vervullen als launching customer. Een nieuwe applicatie voor een breed publiek zal (net als OVIS destijds) een belangrijke stimulans betekenen voor de Nederlandse TST en bovendien een belangrijke rol vervullen in vraagstimulering. Het OVIS-project is technisch geslaagd te noemen. Het is van groot belang maximaal lering te trekken uit dergelijke projecten. Hoewel we het belang van onderzoek naar betere spraakherkenning onderschrijven, zijn we van mening dat nieuwe applicaties zich (in eerste instantie) moeten richten op de interpretatie van tekstuele informatie (eventueel kan die ook middels spraakherkenning verkregen zijn). Het ligt daarbij voor de hand om te kiezen voor een overkoepelend project voor een information extraction (question answering) toepassing. We denken daarbij specifiek aan het automatisch beantwoorden, dan wel doorsturen naar de juiste personen van binnen-komende e-mails (of telefoongesprekken) bij een overheidsinstelling (bijvoorbeeld de belastingdienst of een gemeente). Een dergelijk project zou zich moeten richten op robuuste analyse van tekst, zowel syntactisch als semantisch (of liever nog op de integratie van die twee).
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 116 van 127
2. Innovatieve technieken Geïntegreerde tekst- en spraakgebaseerde retrieval en mining In de kennismanagement wereld wordt min of meer standaard gedacht in een stappenplan dat bestaat uit de volgende onderdelen: informatieverwerving, -structurering, -indexering/retrieval en -extractie. Gecombineerde behandeling van audio- en tekstfiles is daarbij een onderwerp dat snel aan belang wint. Voor NOTaS als geheel zou het van grote waarde zijn als we er in zouden slagen binnen een projectenstructuur de brug te slaan tussen audio en tekst retrieval. Met name aan de zijde van verzekeraars en banken zijn er duidelijk vragers met een concrete behoefte die als projectpartner zouden kunnen en willen fungeren en die ook als launching customer kunnen optreden. Ook kan de overheid, met haar nadruk op openbaarheid van bestuur en het ‘naar de burger toe’ brengen van de politiek, baat hebben bij het snel ontsluiten van gesproken vergaderingen (zowel op gemeentelijk, als op provinciaal en landelijk niveau). Op dit moment wordt er al over de integratie van tekst en audio retrieval/mining gesproken met gemeenten en provincie in het oosten van het land.
Integratie van TST-techniek met andere technieken en heuristieken. In de praktijk zien we dat bij de toepassing van TST maar zelden de TST-technologie de enige in te zetten technologie is en dat het vooral draait om intelligente integratie met technieken uit aanpalende velden, zoals statistiek en artificiële intelligentie. Zo is bijvoorbeeld op het terrein van de automatische classificatie van documenten een duidelijke meerwaarde te halen uit de combinatie van statistische classificatie op basis van machine learning technieken en TST-technieken (die zelf natuurlijk ook statistisch kunnen zijn). Met name bij grotere bedrijven gaat inmiddels een zo grote hoeveelheid informatie rond dat er een dwingende behoefte bestaat aan het inzetten van automatische classificatiesystemen. Steeds meer blijkt ook dat classificatie eveneens bruikbaar is in tal van industriële workflows waar een beslissing moet worden genomen op bepaalde kruispunten in de informatieflow.
Hybride systemen voor taal- en spraakverwerking Binnen Knowledge Management groeit het besef dat het opgeven van een letterlijke zoekstring lang niet in alle gevallen tot bevredigende resultaten leidt. Voor classificatie, maar zeker ook voor natuurlijke taalinterfaces, is een analyse van tekst nodig die tot het betekenisniveau gaat en die structurele eenheden identificeert. Vragende voornaamwoorden als wie, wat en wanneer kunnen worden beantwoord na een analyse die handelende personen, onderwerpen en tijdsbepalingen kunnen identificeren. Een vraag van het type waarom, vereist een breder semantisch apparaat. Dit geldt ook voor auteurshulpmiddelen en voor geautomatiseerde telefonische Q+A diensten. Om een dergelijke analyse te kunnen uitvoeren is ten minste een gedeeltelijke syntactische analyse nodig alsook een daarop voortbouwende semantische interpretatie van de componenten. Onderzoek in deze richting vereist een aanzienlijke inspanning in de richting van corpusannotatie en de ontwikkeling van lexicons die verrijkt zijn met complementatie-informatie en semantische tags. De huidige praktijk maakt nauwelijks gebruik van kennis voorbij het niveau van part-of-speechtagging en vaak dat nog niet eens. Er bestaat momenteel nog geen integratie van syntactische en semantische annotatie. Het inrichten van een hybride analysesysteem betekent een grote stap voorwaarts in information extraction en mining. Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 117 van 127
Sommige moderne systemen voor analyse gebruiken een combinatie van statistische en regelgebaseerde procedures. Beide technieken hebben voor- en nadelen: statistiek laat zich makkelijker opschalen maar vereist vaak een enorme trainingsset en regelgebaseerde systemen kunnen ons direct iets leren over de beschreven structuren, maar zijn erg arbeidsintensief om in te vullen. Ons inziens wordt nog veel te weinig aandacht besteed aan de verdere ontwikkeling van technieken die beide benaderingen succesvol in zich verenigen. Onderzoek in deze richting is relatief nieuw en heeft nog niet zijn weg naar het product gevonden. Een dergelijke techniek zou een onmiddellijke doorbraak betekenen met enorme consequenties voor vrijwel elke talige toepassing boven het woordniveau.
Semantisch (web) georiënteerde taalverwerking TST-toepassingen die inhoudelijk begrip vereisen van teksten of van gesproken boodschappen, zijn tot nu toe vrijwel beperkt tot die situaties waarin volstaan kan worden met conceptspotting, zoals dialoogsystemen over een zeer beperkt onderwerp waarbij de gebruiker slechts enkele semantische waarden hoeft te communiceren om een informatiebehoefte kenbaar te maken. Ontwikkelingen in de computationele semantiek, vooral die welke aansluiten bij de ontwikkeling van het semantisch web en bij de ontwikkeling van standaarden voor content representatie (in ISO TC37/SC4-verband), openen nieuwe toepassingsmogelijkheden voor situaties die verfijndere inhoudelijke analyse vereisen. Te denken valt bijvoorbeeld aan het volgende.
Verankering van interpretatie in semantisch web concepten Tot nu toe zijn de concepten waarin conceptspotting applicaties verankerd zijn, impliciet gedefinieerd binnen de applicatie. Dit maakt interoperabiliteit onmogelijk en heeft het gevaar van discrepanties met concepten die gebruikers hanteren. Het semantisch web biedt een techniek die deze beperkingen en problemen kan helpen oplossen. Ook voor meer geavanceerde vormen van inhoudelijke interpretatie is deze verankering van enorm belang voor het ontwikkelen van geavanceerde toepassingen. Daartoe moeten wel inspanningen gepleegd worden voor de ontwikkeling van ontologieën die bij de Nederlandse taal aansluiten en bij nationale Nederlandse en Vlaamse contexten.
Interpretatie van multi-word expressies De behoefte aan diepe NLP-processing neemt in hoog tempo toe onder meer in het kader van email autoresponse. Deze ontwikkelingen worden versterkt door de trend van customer selfservice voorzieningen (en daarbij kan customer vervangen worden door willekeurig welke andere stakeholder, zoals employee self-service of investor self-service). Het is voor organisaties essentieel dat deze selfservicevoorzieningen goed worden geïntegreerd met e-mail answering services en call center oplossingen. Voor het goed functioneren van de TST-component van deze voorzieningen is het essentieel dat de semantische verwerking van multi-word uitdrukkingen op een veel hoger plan wordt gebracht. Voor bijvoorbeeld de procesindustrie is het van groot belang dat het complexe idioom van deze industrie makkelijker en beter herkenbaar en toegankelijk wordt. Teveel gaat de aandacht van onderzoeksinstellingen uit naar de lexicale benadering op het niveau van headwords. Deze benadering is bovendien teveel gericht op de generieke taal en te weinig op applicatiespecifieke taal.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 118 van 127
Gebeurtenisextractie en semantische frames Nog teveel gaat de aandacht uit naar het herkennen en analyseren van woorden. Te weinig wordt aandacht besteed aan de syntactische kant van TST. Van de zijde van gebruikers wordt nadrukkelijk interesse getoond voor fenomenen als gebeurtenisextractie en het extraheren van semantische frames. In internationaal verband is er een snel toenemende interesse te bespeuren voor semantic frames maar Nederland blijft daar nadrukkelijk bij achter. Gebeurtenisextractie en semantische frames zijn temeer belangrijk omdat zij een goede opstap bieden naar de bredere ontwikkeling van het semantische web (of het semantische intranet) en daarmee naar de toekomstige ontwikkeling van internetdiensten. Er zou een mooie demonstrator/pilot mogelijk zijn die laat zien dat dit in principe al mogelijk is, en die duidelijk maakt wat de potentie in deze richting is van gerichte Nederlandstalige TSTinspanning.
Robuuste, herbruikbare modellen van dialoogmanagement In bestaande commerciële dialoogsystemen wordt de beregeling van de dialoogvoering, het dialoogmanagement, vrijwel altijd gedaan met zeer eenvoudige modellen gebaseerd op frames (slot-filling) of simpele finite-state machines. Zulke dialoogmanagers zijn ad hoc en zijn vrijwel nooit herbruikbaar bij verandering van toepassingsdomein. Het probleem is om meer algemene, flexibele en herbruikbare modellen te ontwikkelen die toch robuust zijn. Meer nadrukkelijke dialoogaansturing vanuit de representatie van dynamische dialoogcontexten lijkt hier de aangewezen weg. Theoretische aanzetten zijn hiervoor aanwezig, maar vrijwel geen pogingen tot implementatie. Ook hier zijn mogelijkheden weggelegd voor het gebruiken van combinaties van statistische en regelgebaseerde technieken.
3. Innovatieondersteunende activiteiten
tools,
methoden
en
Standaarden en benchmarks TST-software wordt in vrijwel alle gevallen geïntegreerd in andere software. Mede als gevolg hiervan wordt de TST-sector zeer sterk geconfronteerd met tal van standaarden en normalisaties. Er is op geen enkele wijze sprake van een gericht beleid ten aanzien van deze standaarden. Standaarden zijn per definitie internationaal. Vorig jaar is de ISO-groep opgericht die zich bezighoudt met de ontwikkeling van standaarden voor de taaltechnologie (ISO TC 37/SC 4). Door hierbij aansluitend een actieve rol te spelen kan de Nederlandstalige TST proberen maximale invloed te hebben op dit proces. Binnen dit raam wordt zeer in het bijzonder aandacht gevraagd voor een duidelijke positiebepaling ten aanzien van de ISO standaards voor ‘metadata registries’ en voor ‘repositories of data elements’ (ISO 11179-1/6. Deze standaard poogt een internationale grondslag te bieden voor ‘semantic interoperability’ op data- en metadataniveau. De standaard is daarmee een essentiële bouwsteen in de verdere ontwikkeling van het semantic web en daarmee voor de ontwikkeling van internetdiensten. Het streven zou erop gericht moeten zijn dat de kennisinstellingen, bedrijven én de overheid duidelijk hun positie bepalen ten aanzien van deze standaard en deze positiebepaling zoveel mogelijk vertalen naar praktisch handelen in de richting van de drie kernelementen van deze standaard: het opzetten van ‘metadata registries and repositories of data elements’; Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 119 van 127
clusters of semantic templates; e-terminologies. Door tijdig duidelijk positie te bepalen kan worden voorkomen dat tijd, geld en energie verloren gaat aan harmonisatie en standaardisatie in een latere fase. Veel belangrijker is dat middels een duidelijke positiebepaling de transparantie van markt en de onderlinge uitwisselbaarheid van terminologiesets sterk kan worden verbeterd. Dit gaat ook op voor de praktische inzetbaarheid van e-terminologies. Als zodanig kunnen acties op dit terrein nadrukkelijk worden gezien als vraagstimulerende activiteiten. Test suites voor zaken als classificatie van documenten, zoals die bestaan voor het Engels, zouden kunnen worden toegepast op het Nederlands (en andere talen). Het verdient wellicht aanbeveling om voor meting van kwaliteit van bijvoorbeeld classificatie aansluiting te zoeken bij bestaande standaarden en methodieken, zoals TREC en de ontwikkeling van de daartoe benodigde resources te stimuleren.
Tools voor corpora Corpusmateriaal heeft zijn nut bewezen in tal van toepassingsgebieden van TST. De ontwikkeling in de richting van multimediale corpora zal zich verder voortzetten. Het instrumentarium voor het werken met corpora (compileren, verrijken, exploiteren) is echter beperkt, zelfs waar het pure tekstcorpora betreft. Het is moeilijk om de ontwikkeling van dergelijke tools financieel te stutten, aangezien de markt voor deze tools beperkt is, grotendeels in de academische wereld ligt en veel van de corpora zeer specialistische wensen voor die tools met zich meebrengen. Daar staat tegenover, dat het belang van corpusmateriaal in onderzoek zo groot is dat ontwikkeling van nieuwe technologieën er sterk van afhankelijk is. Het ontbreekt aan een exploitatiehulpmiddel, waarin gestructureerde informatie kan worden gezocht, gevisualiseerd en gemanipuleerd. Voorzover instrumenten bestaan die met gestructureerde informatie overweg kunnen, zijn ze toegesneden op specifieke structurele modellen (bijvoorbeeld LDB en CLUES van de KUN). Voor corpora met additionele verrijkingsniveaus bestaan in het geheel geen instrumenten. Het annotatieproces zelf behoeft dringend robuuste parseertools die interactief gebruikt kunnen worden, zodat menselijke interventie en controle optimaal verbonden worden met het analyseproces. Zulks geldt zowel voor corpora van tekst als van spraak.
Opleidingen Mede als gevolg van de beperkte omvang van de TST-markt zijn er (nog) vrij weinig dienstverleners die zich richten op het verlenen van professionele diensten op het terrein van TST. Zo ontbreekt een diensteninfrastructuur voor opleidingen in het doelmatig gebruik van TST-software. Ook de universiteiten houden zich niet bezig met het verzorgen van dergelijke opleidingen en trainingen. Noodgedwongen moeten industriële spelers zelf deze opleidingen ter hand nemen terwijl zij daar qua bezetting in het geheel niet op zijn ingesteld. Het zou voor het versterken van het professionele karakter van de sector goed zijn als er gericht gewerkt wordt aan de ontwikkeling van praktijkgerichte opleidingen en trainingscurricula. Dit zou potentiële gebruikers ook in staat stellen beter te beslissen over de aanschaf van TST-software. NOTaS overweegt daarom masterclasses op te zetten die tot doel hebben om ‘niet TST-experts’ van geïnteresseerde bedrijven in contact te brengen met de mogelijkheden van TST. Onbekend maakt onbemind, en er zijn veel te veel bedrijven die op dit moment nog geen idee hebben van wat er allemaal kan.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 120 van 127
Dergelijke cursussen zouden een duidelijke mix moeten bieden van hoogwaardige kennisoverdracht met hands-on ervaring met de betrokken software. Een voorbeeld zou kunnen zijn een praktijkcursus automatische classificatie. Binnen het raam van een dergelijke cursus kan aan de cursisten worden geleerd hoe een taxonomie moet worden gebouwd, hoe trainings-documenten moeten worden geselecteerd en hoe classifiers kunnen worden getraind en aangepast. De cursus kan ook een uitstekend platform bieden voor het versterken van het draagvlak voor normen als de ISO 11179. De cursussen zouden idealiter moeten worden opgezet in een nauwe samenwerking tussen universiteiten en kennisinstellingen en het is van belang dat deelnamecertificaten worden uitgereikt die een erkende status hebben (zowel van overheidswege als van de kant van het bedrijfsleven (de gebruikers van de software). Bezien zou kunnen worden of aan een dergelijk initiatief handen en voeten kan worden gegeven in de vorm van een soort e-learning centre.
IPR Er vinden snelle ontwikkelingen plaats op het terrein van de bescherming van software. Zo is het patenteren van software sterk in ontwikkeling. Op dit terrein loopt Europa achter op Japan en de VS en het zou goed zijn als aan dit punt meer aandacht wordt besteed, ook in de context van een mogelijke PPP-formule voor het beheer van TST-software. Vier actielijnen zijn hierbij te onderscheiden. Gerichte kennisoverdracht aan betrokkenen uit de sector met betrekking tot de beschikbare methodes van IPR-bescherming: auteursrecht, database protectie en software patentering. Dit moet uitmonden in een duidelijk beleidsplan binnen de sector ten aanzien van de IPRbescherming. Een en ander zou onder meer kunnen uitmonden in standaardvoorwaarden ten behoeve van contracten tussen leveranciers en afnemers van taaltechnologie. Samenspraak met partijen als ELRA en LDC lijkt daarbij gewenst. Het ontwikkelen van een helder kader voor het ontwikkelen en beheren van open-source software en een duidelijke definitie van de rol en betekenis van het Taalschap daarbinnen. In het bijzonder zal daarbij ook nader moeten worden uitgewerkt het beheer en de exploitatie van software en corpora voor onderzoek- en onderwijsdoeleinden en het beheer en de exploitatie voor commerciële doeleinden. Het ontwikkelen van een goed model voor het beheer en de exploitatie van BATAVOvoorzieningen. Het vormgeven van een taalschap als zodanig met inbegrip van de ontwikkeling van een beleidsprogramma, een exploitatieplan en een overlegstructuur.
Nawoord bestuur Ten tijde van het versturen van de visie kon het bestuur van NOTaS nog niet beschikken over een min of meer definitieve versie van het rapport van M&I/PARTNERS. Wel is reeds bekend dat in de ogen van M&I/PARTNERS de markt voor taaltechnologie zodanig intransparant is dat het niet mogelijk is op enigszins verantwoorde wijze het economisch potentieel van deze markt te schetsen. Het NOTaS-bestuur kan voor dit standpunt vanuit onderzoeksmatig oogpunt wel begrip hebben. Beleidsmatig gezien is het risico echter dat het geweldige potentieel dat de taaltechnologie op dit moment heeft, voor buitenstaanders onzichtbaar blijft.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 121 van 127
Vanuit een oogpunt van strategische ontwikkeling wil het bestuur van NOTaS er dan ook voor pleiten dat op beleidsniveau wordt nagegaan of het mogelijk is om langs andere dan de thans gevolgde wegen toch een schets op tafel te leggen is van het ontwikkelingspotentieel van de taaltechnologie sector. Daarbij denkt het bestuur meer in het bijzonder aan de wenselijkheid van een nadere analyse van de impact, die uit kan gaan van de realisatie van het derde generatie web (het zogeheten semantic web op de behoefte aan taaltechnologische producten. Het bestuur erkent op voorhand dat een dergelijke analyse niet kan worden uitgevoerd in de vorm van een extrapolatie vanuit bestaande ontwikkelingen (al dan niet in het buitenland) zoals voor het segment spraak is gebeurd. Langs de weg van toekomstverkenningen moet het mogelijk zijn de kansen die de komst van de derde generatie web (inclusief intranet) biedt aan de sector taaltechnologie (en zeker ook aan de sector spraaktechnologie) nader in kaart te brengen. Met name de bedrijven die betrokken zijn in de segmenten kennismanagement en customer self-service merken nu reeds aan den lijve dat de TST-sector staat aan de vooravond van zeer ingrijpende veranderingen. Het bestuur wil er bij de beleidsmakers binnen de ministeries van EZ en OC&W op aandringen begrip te hebben voor het oordeel van de onderzoekers dat de sector taaltechnologie niet met traditionele middelen in kaart kan worden gebracht. Dit mag echter niet leiden tot de conclusie dat daarmee de kous af is. Integendeel, mede in het licht van de strategische doelen die het kabinet zich heeft gesteld om een de Nederlandse economie te transformeren naar een kenniseconomie, is het essentieel dat wordt getracht de kansen die de derde generatie web biedt aan de sector TST in kaart te brengen. TST-technologie is immers een van de kerntechnologieën binnen de verdere ontwikkelingen van het semantic web. Voor een dergelijke toekomstverkenning zijn op internationale schaal voldoende aanzetten gegeven. Niet alleen kan inmiddels beschikt worden over een toekomstverkenning die in opdracht van de Europese Commissie en NSF (zeg maar het Amerikaanse NWO) is opgesteld maar ook in het kader van W3C verband zijn reeds een aantal toekomstverkenningen uitgevoerd. Het bestuur van NOTaS verklaart zich op voorhand graag bereid om medewerking te verlenen aan de uitvoering van een dergelijke toekomstverkenning c.q als eerste stap in dit proces met de betrokken beleidsmakers van gedachten te wisselen over het hoe en waarom van een dergelijke nadere analyse.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 122 van 127
Bijlage 10: Standaardisatie Inleiding Voor de Nederlandse TST-industrie, met zijn relatief kleine thuismarkt, is het van meer dan gemiddeld belang dat internationale standaarden tot stand komen en worden ondersteund door de industrie. Zowel van de zijde van de Nederlandse en Vlaamse overheid als de zijde van de industrie en de kennisinstellingen mag verwacht worden dat op een actieve wijze wordt ingespeeld op de totstandkoming van internationale standaarden en dat er ook een duidelijke visie wordt ontwikkeld ten aanzien van de gewenste inhoud van dergelijke standaarden. Om aan de noodzakelijk geachte discussie handen en voeten te geven is deze beknopte notitie door enkele NOTaS-leden geschreven en ingebracht voor opname als bijlage.
ISO/TC37 Voor de ontwikkeling van dergelijke standaards is de ISO het belangrijkste kristallisatiepunt. Binnen ISO bestaan meerdere Technische Comitees. Een daarvan is TC 37. Dit comité houdt zich bezig met de totstandkoming van normalisaties voor die direct voor de TST-sector van belang zijn. In de woorden van ISO luidt de taakopdracht van dit comité als volgt. ISO/TC 37’s mission is to provide standards and guidelines to standardization experts, language professionals in all institutions and organizations creating and handling language resources (including ISO itself, other international organizations, national standards bodies, national government services, companies, non-governmental organizations etc) in order to enable them to prepare high quality language resources and tools for a wide variety of applications in professional and scholarly information and communication, education, industry, trade, etc. Binnen het raamwerk van de TC 37 worden vier subcomitees onderscheiden: ISO/TC37/SC1 – principles and methods; ISO/TC37/SC2 – terminography and lexicography; ISO/TC37/SC3 – computer applications for terminology; ISO/TC37/SC4 – language resource management. Het werk in de onderscheiden subcomitees is opgedeeld over diverse werkgroepen. Hierop bestaat één uitzondering. Direct onder de verantwoordelijkheid van het technisch Comité valt namelijk het werk aan de opstelling van basis principes voor meertalige product classificatie in verband met e-commerce.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 123 van 127
In de volgende tabel wordt een overzicht gepresenteerd van de onderscheiden werkgroepen.
SC1 Principles and methods
SC2 terminography and lexicography
SC3 Computer applications for terminology
SC4 language resource management
Werkgroepen Harmonisation of terminology Principles, methods and vocabulary Socioterminology Coding systems Terminography Lexicography Source identification for language resources Data elements Vocabulary Data interchange Database management Basic descriptors and mechanisms for language resources
Werk in andere landen Een aantal landen heeft de afgelopen tijd beleid ontwikkeld dat er op gericht is optimaal in te spelen op de internationale standaards. In het bijzonder kunnen hier worden genoemd Frankrijk (zie http://www.recherche.gouv.fr/technolangue) en Canada (zie http://www.pcobcp.gc.ca/aia/default.asp?Language=E&Page=ActionPlan in combinatie met de oprichting van een Canadese TST-belangenorganisatie http://www.ailia.ca/en/home/historique.html). Met name Frankrijk heeft, binnen het raam van het stimuleringsprogramma Technolangue, zeer expliciete doelstellingen geformuleerd ten aanzien van onderzoek en beleidsbeïnvloeding op het terrein van internationale standaardisatie. De volgende paragraaf uit het programma Technolangue (zie ook http://www.recherche.gouv.fr/technolangue/theme/normes.pdf) is in dat verband relevant. La rapidité de l’évolution technologique dans le secteur des TIC, et notamment dans le domaine du traitement automatique des langues naturelles (écrit et oral), rend particulièrement aiguë la question de la normalisation et de la standardisation. Celle-ci revêt plusieurs aspects : il s’agit en premier lieu pour les acteurs de se tenir informés de l’évolution des normes et des standards afin de ne pas se laisser surprendre par l’arrivée « inattendue » de normes ou standards pouvant remettre en cause leur stratégie.
Oproep tot actie Het is voor Nederland en Vlaanderen van groot belang dat op dit zeer strategische niveau duidelijk positie wordt gebouwd en dat het werken aan normalisatie wordt gezien als een integraal onderdeel van de strategieontwikkeling voor de sector. Daarbij dient bedacht te worden dat weliswaar een belangrijk deel van de beleidsvorming op dit terrein op de een of andere manier binnen de directe invloedssfeer van de ISO ligt maar dat met name in het voorbereidende traject veel gebeurt dat zich aan de directe invloed van ISO onttrekt. Belangrijke organen zijn in ieder geval ook W3C (zeker in verband met de snelle ontwikkeling van het semantic web) alsook LISA (de Localisation Industry Standards Organization). In hoge mate relevant voor standaardontwikkeling is verder ook het project ISLE/Eagles.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 124 van 127
Bijlage 11: Voorbeelden van projectactiviteiten Tijdens de laatste workshop is aan kennisinstituten en bedrijven gevraagd om ideeën te formuleren voor strategisch onderzoek en vraagstimulering. Enkele daarvan zijn hieronder weergegeven als illustratie van het type onderzoek dat binnen een TST-stimuleringsprogramma gesteund zou kunnen worden. Strategisch onderzoek / tools / modules Projectidee: Automatische beantwoording van ‘waarom-vragen’ op basis van ongestructureerde tekst Op dit moment wordt er op veel plaatsen gewerkt aan het bouwen van vraag-antwoord systemen voor strikt feitelijke vragen (wie, wat, waar, wanneer), dus vragen die bevredigend beantwoord kunnen worden met een zelfstandig naamwoord groep. Maar niet alle soorten vragen kunnen op die manier beantwoord worden. Een belangrijke categorie betreft hier vragen die beginnen met ‘waarom’. We denken dat een verstandige combinatie van geavanceerde technologie voor Information Extraction en parsing veel van die vragen kan beantwoorden, mits dat antwoord voorkomt in teksten. In dit onderzoek willen we de kennis en de methoden ontwikkelen die nodig zijn om waaromvragen (en verwante soorten vragen als ‘hoe’, ‘waarmee’ et cetera) automatisch te beantwoorden. Daartoe zal eerst een taxonomie van dat soort vragen gemaakt worden, gebaseerd op de operaties die op teksten uitgevoerd moeten worden om de antwoorden te vinden en weer te geven. Vervolgens zullen die operaties/procedures geïmplementeerd en getest worden. Dat kan aan de hand van Nederlandse corpora, maar de technieken kunnen vrijwel zeker met kleine aanpassingen ook toegepast worden voor andere talen. Projectidee: Corpora van taalfouten De beste manier om de prestaties van automatische en menselijke taalverwerkers te verbeteren is door specifiek te focusseren op relevante fouten, waarbij ‘relevant’ een aantal betekenissen kan hebben, zoals ‘frequent’, ‘storend’, ‘persistent’. In dit onderzoek willen we corpora bouwen van relevante fouten in geschreven taal, zowel voor aanvankelijk schrijfonderwijs in de eerste taal, leerders van het Nederlands als tweede taal, en vreemde-taal leerders van de moderne schooltalen. De corpora zullen gebouwd worden op basis van schrijfproducten die leerders produceren als onderdeel van een opleiding. De corpora zullen op een gedetailleerd niveau geannoteerd worden, en voorzien worden van geschikte exploitatie tools.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 125 van 127
Projectidee: Semantisch-web gebaseerde corpus constructie Doel: het ontwikkelen van methoden en “tools” (programmatuur) voor het semantisch annoteren van corpora van (Nederlandstalige) teksten, aansluitend op domeinspecifieke en mogelijkerwijs ook generieke ontologieën volgens de strategie van het Semantisch Web. (N.B. Generieke ontologieën zijn deels taalonafhankelijk en deels taalspecifiek. Domeinspecifieke ontologieën zijn deels algemeen en deels verschillend van land tot land, denk bijvoorbeeld aan ontologieën voor de zorgsector). Voor generieke, taalonafhankelijke onderdelen kan aangesloten worden bij het werk van het W3C consortium. Voor het taalspecifieke Nederlandse deel is eigen onderzoek noodzakelijk.
Projectidee: Dialoogmanagement Doel: het ontwikkelen van generieke methoden voor dialoogmanagement, dat wil zeggen voor het bepalen van een passend vervolg van een (op het gebruik van de Nederlandse taal gebaseerde) dialoog met een gebruiker, gebaseerd op de basisprincipes van rationaliteit, coöperativiteit en socialiteit, en het bepalen van “common ground”. N.B.: De basisprincipes van dialoogmanagement zijn in hoge mate taalonafhankelijk, maar de concrete uitwerking ervan is taalafhankelijk. Deze veronderstelt gedetailleerde analyses van het gebruik van taalspecifieke vormen voor het uitdrukken van communicatieve intenties, voor “dialogue control”, en voor (het signaleren van) “grounding”.
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 126 van 127
Vraagstimulering Projectidee: Opvang van gesprekken met klanten Telefonische toegang tot bedrijven wordt voor consumenten en burgers steeds complexer door het toenemend aantal diensten en door verschillende telefoonnummers. Met spraak- en taaltechnologie is het mogelijk op een veel natuurlijkere manier, namelijk met gesproken vragen, automatisch de klantvraag af te handelen, dan wel naar de juiste medewerker van het bedrijf door te verbinden. De uitdaging zit aan een aantal kanten: de spraakherkenning van een grote variatie van uitingen en de domeinafhankelijkheid daarin; het interpreteren van de vraagstelling en koppelen aan de juiste vervolgactie: doorvragen bij ambiguïteiten, gaan zoeken naar een antwoord of doorschakelen naar de juiste medewerker; het retrieven van de juiste informatie bij de vraag dan wel beslissen dat er geen direct antwoord mogelijk is; het samenvatten van de gevonden informatie aan de beller op een begrijpelijke en korte/bondige manier. Daarnaast komt mogelijkerwijs ook de verbetering van spraaksynthese aan de orde voor het verstaanbaar uitspreken van dynamische informatie. In een demonstrator vorm, maar beter nog in een echte dienst zou het systeem moeten kunnen worden ingezet om gesprekken van klanten op te vangen. De overheid zou hiervoor één van haar vele ingangen ter beschikking kunnen stellen (onder andere belasting telefoon, gemeentelijke ingangen, Postbus 51 et cetera). Hoe echter de situatie, hoe beter de werkelijke problemen kunnen worden gedetecteerd en aangepakt. Projectidee: Vertaaltechnologie voor Turks - Nederlands Allochtonen die de Nederlandse taal niet machtig zijn, vormen nu een onzichtbare groep binnen de eigen allochtone gemeenschap. Als deze mensen ouder worden kan het zijn dat zij moeten worden opgevangen en verzorgd in een Nederlandstalige zorgomgeving. Het is gewenst vertaaltechnologie te ontwikkelen en daadwerkelijk in te zetten die de communicatie tussen Nederlandstalige verzorgers en sprekers / schrijvers van met name het Turks en Arabisch kan ondersteunen. Deelactiviteiten: het maken van algemene talenparen voor vertaling van en naar de allochtone taal; het waar zinvol toespitsen van de vertaaltechnologie op specifieke domeinen (bijvoorbeeld medische informatie, ziekteverschijnselen).
Technologieverkenning Nederlandstalige Taal- en Spraaktechnologie Versie 1.1 18 februari 2004
Pagina 127 van 127