TST-rondetafel 07/09/2011 STEVIN-roadmapworkshop
27 april 2012 Peter Spyns voorlopig
Vlaamse overheid, Departement EWI
pagina 1 van 54
Hoofdstuk 1 Vooraf Vooraleer het eigenlijke werk aan te vatten, wil ik graag alle deelnemers (zie annex Hoofdstuk 9. Hoofdstuk 19.1) aan de STEVIN-roadmapworkshop bedanken voor hun aanwezigheid en bijdrage. In het bijzonder gaat mijn appreciatie uit naar de drie notulisten (dr. Kim Luyckx – UA, drs. Wim Desmet – KULeuven, drs. I. Schuurman – KULeuven), en de discutanten (dr. ir. P. Rutten – Innovatiecentrum Oost-Vlaanderen, dr. Ir. J. Verhasselt – Yazzoom). Deze laatste fungeerde ook als discussieleider tijdens de plenaire sessie en was bereid om eerdere versies van dit rapport na te lezen, samen met Prof.dr. ir. J.-P. Martens (UGent) en mevr. S. Poelvoorde (Mentoring Systems). Ook hen bedank ik van harte.
Verder moet ook het STEVIN-programma vermeld worden dat instond voor de financiering van deze dag (07/09/2011) in het mooie en stimulerende kader van de Universitaire Stichting te Brussel. STEVIN (www.stevin.org) wordt gezamenlijk gefinancierd door Vlaanderen en Nederland. Brussel, 27 april 2012 dr. Peter Spyns – Departement Economie, Wetenschap en Innovatie (tevens STEVIN-programmacoördinator voor de Nederlandse Taalunie) Noot: Gezien dit document vooral beoogt een werkdocument te zijn, werd minder aandacht besteed aan opmaak en “talige opsmuk”.
Hoofdstuk 2 Inhoudstafel Hoofdstuk 1 Vooraf .................................................................................................................................. 2 Hoofdstuk 2 Inhoudstafel ......................................................................................................................... 2 Hoofdstuk 3 Managementsamenvatting .................................................................................................. 3 Hoofdstuk 4 Inleiding ............................................................................................................................... 4 4.1. Reikwijdte en context.................................................................................................................. 4 4.2. TST en STEVIN .......................................................................................................................... 4 4.2.1. Wat is Taal- en Spraaktechnologie (TST) ?......................................................................... 4 4.2.2. Wat is STEVIN ..................................................................................................................... 5 4.2.3. Waarom is TST belangrijk ?................................................................................................. 6 Hoofdstuk 5 Methode ............................................................................................................................ 11 Hoofdstuk 6 De sessies ......................................................................................................................... 13 6.1. Sessie 1: Applicatiegebieden ................................................................................................... 13 6.2. Sessie 2: Technologiekloven .................................................................................................... 17 6.3. Sessie 3 Sociale en maatschappelijke relevantie .................................................................... 22 6.4. Sessie 4 Niche naar markt ....................................................................................................... 26 6.5. Sessie 5 Markten en competenties .......................................................................................... 29 6.6. Sessie 6 Internationale trends en toekomstvisie ...................................................................... 33 6.7. De voorstelling van de “nota Boves” met discussiemoment .................................................... 37 6.8. De plenaire afsluitende discussie ............................................................................................. 41 Hoofdstuk 7 Breder beleidskader .......................................................................................................... 43 7.1. Beleidsinstrumenten ................................................................................................................. 43 7.2. Vlaams beleidskader ................................................................................................................ 45 7.3. Recente initiatieven en opportuniteiten .................................................................................... 45 Hoofdstuk 8 Algemene conclusies en verwachtingen ........................................................................... 47 Hoofdstuk 9 Annexen ............................................................................................................................ 49 9.1. Lijst der deelnemers ................................................................................................................. 49 9.2. Resultaten uit de sessies.......................................................................................................... 50
Vlaamse overheid, Departement EWI
pagina 2 van 54
Hoofdstuk 3 Managementsamenvatting Dit rapport kadert in het STEVIN-programma – het gezamenlijk gefinancierde VlaamsNederlandse onderzoeksprogramma rond taal- en spraaktechnologie (TST) voor het Nederlands.1 Het rapport is de neerslag van wat een “roadmapworkshop” werd genoemd. De bedoeling was om na te denken over het “post-STEVIN-tijdperk”, nieuwe trends en opportuniteiten voor onderzoek en ontwikkeling in TST te identificeren en eventueel een (technologisch) stappenplan op te stellen om die opportuniteiten te realiseren. Deze denkoefening was een eerste stap en werd als een rondetafel georganiseerd. Tijdens verschillende sessies bespraken vertegenwoordigers van het TST-veld (zowel van universiteiten als van bedrijven) een aantal thema’s waarbij ook een vergelijking gemaakt werd met een gelijkaardige Nederlandse oefening van 10 jaar geleden. Dit rapport bevat de volledige notulen van alle sessies, evenals een korte beschrijving van eerdere en recente beleidsinitiatieven. De volgende grote lijnen (organisatorisch en inhoudelijk) kwamen naar voor: De positie van het Nederlands blijft een belangrijk gegeven vanuit een cultureel en politiek oogpunt zodat een specifieke ondersteuning van het Nederlands op lange termijn nodig blijft; Er is nood aan een mediator of belangenorganisatie of netwerkorganisatie om informatie door te spelen en/of onderzoeksresultaten beter af te stemmen op de noden van het bedrijfsleven. Een regelmatige monitoring van de stand van zaken van het TST-veld is hierbij wenselijk. Betere samenwerking met bestaande intermediaire organisaties o.a. rond technologietransfert is een eerste stap. Een inbedding bij een bestaande intermediaire organisatie is een optie; Zowel op Vlaams als op Europees niveau bestaan er voldoende aanknopingspunten en recente initiatieven om TST in een breder geheel in te bedden – niet enkel om de technologie vooruit te helpen maar ook om de sector meer visibiliteit te bieden. De nodige stappen dienen hiertoe te worden gezet. Samenwerking in Vlaams-Nederlands verband ligt hierbij voor de hand; Taal- en spraaktechnologie wordt nu vooral als een ondersteunende, waar relevant gepersonaliseerde, technologie gezien die, samen met andere technologieën waarbij vooral aan multimedia en audiovisuele media gedacht wordt, in velerlei toepassingen een nuttige component vormt. Vertrekpunt moet wel de noden van de gebruikers zijn. Aansluiting zoeken bij andere initiatieven wordt heel belangrijk in de nabije toekomst; TST-onderzoek dient vooral aandacht te hebben voor snelheid, robuustheid, adaptabiliteit, variatie (bv. register, locatie, medium), modulariteit en combineerbaarheid van TST-modules of componenten. Niet langer het realiseren van gegevenscollecties op zich, maar het implementeren van hulpmiddelen (in een geïntegreerd proces) is van belang zodat derden gegevenscollecties zelf op maat kunnen maken of zelf modules kunnen combineren tot nieuwe innovatieve toepassingen; Een wervend onderzoeksprogramma rond “teleaanwezigheid” (bv. een virtuele vergaderzaal) biedt veel uitdagende onderzoeksvragen en perspectieven op innovatieve toepassingen die voor verschillende sectoren van nut kunnen zijn. Evenwel mag dit niet tot onrealistische verwachtingen bij de buitenwacht leiden. Al te veel hypes rond TST hebben de sector nadeel berokkend. Het is nu aan de beleidsmakers om zich deze conclusies eigen te maken, om te zetten in enkele concrete stappen en nieuwe initiatieven, waarna het TST-veld opnieuw aan de slag kan.
1
www.stevin-tst.org
Vlaamse overheid, Departement EWI
pagina 3 van 54
Hoofdstuk 4 Inleiding 4.1.
Reikwijdte en context
Dit rapport is een onderdeel van een langer traject, met name het is een momentopname in een stappenplanproces (“roadmap exercise”) rond taal- en spraaktechnologie (voor het Nederlands) – afgekort TSTN. Het STEVIN-programma (zie verder) nadert de voltooiing en het is nu de vraag hoe verder te gaan met de resultaten van dit onderzoeksprogramma rond TSTN. Een onderdeel in dit denkproces betreft het samenbrengen van spelers in het Vlaamse TSTN-veld en hun wensen en verzuchtingen te noteren om deze later al dan niet om te zetten in concrete maatregelen en beleidsplannen, waarbij de nadruk komt te liggen op het valoriseren van de resultaten (= materialen die door de TST-Centrale onderhouden en verdeeld worden). Vanuit het STEVIN-programma werd de organisatie van een dergelijke roadmapworkshop vooropgesteld en gefinancierd. Vanuit EWI werd deze workshop op analoge wijze aangepakt als het proces rond het opzetten van het “Nieuw Industrieel Beleid” en het “Innovatiecentrum Vlaanderen” gezien in beide beleidsdocumenten eveneens sprake is van innovatieregiegroepen en innovatieknooppunten m.i.v. rondetafels. Dit spoort ook met het beleid op Europees vlak (DG INFSO) dat de TST-sector meer visibiliteit wil geven en hiertoe ondersteuning wil verlenen. Dit rapport kan dus ook ingebracht worden bij de consultatierondes vanwege DG INFSO. Tevens is er zowel van Vlaamse en Nederlandse kant en vanuit de Nederlandse Taalunie belangstelling om inspanningen rond digitalisering van Nederlandstalig erfgoed op elkaar af stemmen. Dit laatste is natuurlijk breder dan louter tekstuele bronnen en omvat ook multimedia bronnen. De centrale en gemeenschappelijke spil blijft de taal, c.q. het Nederlands, zodat een interessante kruisbevruchting tussen de verschillende technologieën kan ontstaan. Ook inspanningen om op Europees vlak een onderzoeksinfrastructuur op te zetten voor de humane en sociale wetenschappen om bronnen e.d. beter te ontsluiten dankzij TST (CLARIN) lopen hieraan parallel. Kortom, vele aanverwante initiatieven lopen en kunnen elkaar versterken indien deze goed op elkaar afgestemd worden. Vandaar het belang van het opmaken van een stappenplan en van sectorvorming door en voor de Vlaamse TST-spelers. Dit rapport bevat de resultaten van de gedachtenwisseling van de STEVIN-roadmapworkshop (of TST-rondetafel) van 7 september 2011 in de Universitaire Stichting te Brussel.2 Na een inleidende sectie over taal-en spraaktechnologie (TST), het STEVIN-programma en het belang van TST (sectie Hoofdstuk 4), wordt de werkmethode gehanteerd tijdens de workshop toegelicht in sectie Hoofdstuk 5. In de volgende sectie (Hoofdstuk 6) wordt uitvoerig gerapporteerd over de verschillende workshopsessies. Vooraleer af te ronden met met conclusies en aanbevelingen (sectie Hoofdstuk 8), wordt eerst het breder beleidskader geschetst in sectie Hoofdstuk 7. 4.2.
TST en STEVIN
4.2.1.
Wat is Taal- en Spraaktechnologie (TST) ? 3
Taal- en spraaktechnologie ligt op het kruisingsvlak tussen ICT (o.a. artificiële intelligentie, kennisrepresentatie, signaalverwerking) en taalwetenschap. Taaltechnologen proberen de computer een taal te leren begrijpen en zelf correcte taal te laten produceren. Spraaktechnologen willen de computer spraak leren verstaan en zelf goed verstaanbare spraak laten produceren. Vaak werken ze samen om tot betere resultaten te komen. Echt begrijpen doet een computer taal en spraak niet. Hij kijkt het alleen af bij mensen of maakt gebruik van de regeltjes die mensen hem aanleren. Een computer die taal begrijpt, kan met je meedenken. Als je een vraag intypt in een zoekmachine, geeft hij je direct een antwoord, in plaats van een lange lijst met sites waarop misschien het antwoord te vinden is. Een computer met taalbegrip is niet alleen handig voor zoekmachines. Ook als je de rode draad uit een grote hoeveelheid documenten wilt halen, komt zo’n computer goed van pas. Veel marketingbedrijven maken al gebruik van zulke technieken. Zo kunnen ze gemakkelijk bijhouden hoe consumenten online over hun product praten. Deze techniek heet text mining. Door een analyse van de liedteksten kan de computers zelfs 2 3
Zie http://taalunieversum.org/taal/technologie/stevin/vlaamse_roadmapworkshop/ voor alle informatie. Deze sectie is grotendeels gebaseerd op http://www.kennislink.nl/publicaties/taal-en-spraaktechnologie.
Vlaamse overheid, Departement EWI
pagina 4 van 54
automatisch een sfeervolle afspeellijst voor je samenstellen. Ook andere specifieke toepassingen worden gebouwd, zoals een automatische samenvatter en vertaalsoftware. Ook kan software met enige kennis van het Nederlands teksten controleren op wollig taalgebruik. Sinds een paar jaar maakt automatisch vertalen een flinke opmars. Bedrijven bieden nu al gratis online hun diensten aan om je tekst van de ene taal naar de andere om te zetten. De kwaliteit van de vertaling is helaas nogal wisselvallig, en ontoereikend om zomaar te worden overgenomen zonder verdere nawerking door menselijke vertalers. Met het huidige tekort aan tolken en vertalers en de uitbreiding met nieuwe lidstaten steekt de EU opnieuw meer geld in onderzoeksprojecten om vertaalsoftware te verbeteren. De spectaculairste toepassing van spraaktechnologie maken gebruik van de stem bij de interactie met computers en mobiele apparaten. Je spreekt tegen de computer en hij verstaat wat je zegt. Dit heet spraakherkenning. De computer antwoordt of geeft informatie in gesproken taal. Dit heet spraaksynthese. Je navigator in de wagen is in vele gevallen een mooi voorbeeld van spraaksynthese. In sommige gevallen kan je ook de gewenste bestemming uitspreken, wat praktischer is en tijdens het rijden zonder gevaar kan gebeuren. 4.2.2.
Wat is STEVIN4
STEVIN (Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands) is een meerjarig onderzoeks- en stimuleringsprogramma (2005 – midden 2012) voor Nederlandstalige taalen spraaktechnologie dat gezamenlijk door de Vlaamse en Nederlandse overheid wordt gefinancierd (11,4 M€, waarvan 3,8 M€ door Vlaanderen en 7,6 M€ door Nederland). De doelstellingen van het programma kunnen puntsgewijs als volgt worden samengevat: - Het stimuleren van de taal- en spraaktechnologische sector in Vlaanderen en Nederland door het financieren van strategisch onderzoek, het stimuleren van de vraag naar taal- en spraaktechnologische producten en het bevorderen van netwerking en kennisoverdracht. - Het realiseren van een adequate digitale taalinfrastructuur voor het Nederlands zodat de positie van het Nederlands in de moderne informatie- en communicatiewereld kan worden versterkt. Het gaat hierbij om zowel data (zoals digitale gegevensbanken, corpora van geschreven en gesproken taal, elektronische woordenboeken en computationele lexicons) als om tools (software en trainingsmateriaal voor het helpen aanmaken van de verschillende soorten verrijking van het desbetreffende taalmateriaal). - het verder stimuleren van netwerking, zwaartepuntvorming en verankering, het opleiden van nieuwe experts, het bevorderen van vraagstimulering en kennisoverdracht en het adequaat regelen van intellectuele eigendomsrechten. Naast de essentiële voorzieningen (de digitale taalinfrastructuur voor het Nederlands) werden binnen STEVIN ook enkele demonstratieprojecten en toegepaste onderzoeksprojecten uitgevoerd. Daarin werden interessante toepassingen ontwikkeld die de vraag naar TST moesten vergroten. Zo kunnen mensen met dyslexie nu gebruik maken van een speciaal voor hen ontwikkelde spellingchecker of zelfcorrigerende woordvoorspeller. En met een speciale plug-in kunnen Twitter-gebruikers vragen over spelling stellen aan een chatbot. Voor blinden en slechtzienden, is er een krant ontwikkeld die dagelijks wordt voorgelezen door de computer. Voor leerders van het Nederlands werd een computerprogramma ontwikkeld waarmee ze hun uitspraak en taalvaardigheid zelfstandig kunnen oefenen. Er is nu ook een telefonische dienst die onderzoekt of sollicitanten geschikt zijn voor een functie op een helpdesk. Ook werd een prototype ontwikkeld dat automatisch bepaalde televisieprogramma’s kan ondertitelen. De mogelijkheden om technieken uit de spraak- en taaltechnologie lijken onbeperkt5. De materialen die door STEVIN-projecten6 worden opgeleverd gaan in principe over naar de Taalunie m.i.v. de intellectuele eigendomsrechten. Dit laat toe dat de Taalunie de materialen kan aanbieden via de TST-Centrale als “one stop TSTN-shop” en deze verder kan onderhouden. In sommige gevallen wordt een “open source” regeling toegelaten. Hoewel de overdracht van de eigendom geen courante 4 5 6
Deze sectie is gebaseerd op http://www.kennislink.nl/publicaties/stevin-2004-2010 . Op http://www.notas.nl/nl/dixit.html kan men talloze voorbeelden vinden van TST-toepassingen. Dit geldt niet voor de demonstratieprojecten.
Vlaamse overheid, Departement EWI
pagina 5 van 54
praktijk is in de onderzoekswereld blijkt dit wel een grote “vrijheid” en slagkracht te bieden in het kader van CLARIN. Het biedt immers de garantie dat het eigendomsrecht afdoende geregeld is om de materialen door derden, in vele gevallen ook door het bedrijfsleven, te kunnen laten hergebruiken. Voor vele materialen, ook op Europees niveau, is de IPR niet sluitend of afdoend geregeld, wat verdere exploitatie ernstig hindert. Noteer dat NWO onlangs haar subsidieregeling aangepast heeft in de zin dat NWO mede-eigenaar wordt van de resultaten die dienen te worden gedeponeerd bij DANS (Data Archiving and Networked Services – het wetenschappelijk e-depot in Nederland voor de alfa- en gammawetenschappen). 4.2.3.
Waarom is TST belangrijk ?
4.2.3.1. Inleiding TST in Vlaanderen is, na de ondergang van Lernout & Hauspie Speech Products, nog altijd beladen met een zeker odium. Nochtans noemde de CEO van Nuance (toendertijd Scansoft), Paul Ricci, de overname van delen van het failliete L&H “the best deal of my life”. Het lag dus niet aan de technologie waar Nuance, tien jaar later, nog altijd op voortbouwt. Nieuwe technologische hoogstandjes vanuit de USA hebben TST onlangs opnieuw in de aandacht gebracht. IBM met Watson, een gesofisticeerd en uitermate krachtig platform voor vraag-antwoord (Q&A) en Apple, door de Iphone4S van spraaktechnologie van SIRI te voorzien, hebben TST weer “hot” en “hip” gemaakt. TST, onder de vorm van toepassingen voor het grote publiek, zal waarschijnlijk langzaam maar zeker opnieuw op het voorplan komen, in een multimodale (bv. aanraakscherm) en mobiele setting (bv. smartphones). In vele andere gevallen zal TST een ondersteunende technologie worden die op de achtergrond draait zonder dat een gebruiker ook maar beseft dat een TST-component actief is. Bv. wie weet dat in Firefox een Nederlandstalige spellingscorrector actief is ? Of dat Yahoo (als eerste zoekmachine) sinds midden de jaren ’90 een woordontledingsprogramma (van Inco, L&H) gebruikt om meer hits te produceren? Anderzijds, aan de lancering van een telefonieversie van RailTime werd door de NMBS nauwelijks ruchtbaarheid gegeven. Anderzijds experimenteert de NMBS nu wel met spraaksynthese bij het omroepen van de treinaankondigingen. Zoals meestal met dit soort technologische innovaties wordt het systeem in het Engels aangeboden (Siri ook nog in Frans en Duits). Nederlands voor de Iphone zou er pas eind 2012 (of later) aankomen. Voor Watson zijn er momenteel nog geen “anderstalige” plannen bekend. Vandaar dat er, naast economische en wetenschappelijke redenen, ook een culturele grond is om TST voor het Nederlands een extra duwtje te (blijven) geven. In de volgende secties wordt aangetoond dat TST als wetenschappelijk onderzoeksdomein ook een belangrijke technologische bijdrage kan leveren bij het tot stand brengen van innovatieve producten en diensten. Momenteel wordt TST vooral toegepast in de context van ziekenhuizen, callcenters en voorraadbeheer. Een specifieke nichemarkt vormt toepassingen ter ondersteuning van mindervaliden. Beter bekend bij het grote publiek is de spraakinterface bij autonavigatiesoftware, en sinds kort dus ook bij de iPhone. 4.2.3.2. Studies in de aanloop naar STEVIN In deze sectie worden enkele studies aangehaald die aan de oorsprong van het STEVIN-programma lagen. Vervolgens wordt geput uit de Speerpuntenstudie van de VRWB en de eigen EWI-TSTforecast. Tot slot wordt kort een zeer recent rapport van een EU-excellentienetwerk voorgesteld. In 1998 werd in Nederland een zogenaamde “Technologieradar” uitgevoerd. Deze had tot doel te achterhalen welke technologische evoluties in een periode van tien jaar zich in Nederland zouden voltrekken en welke domeinen opportuniteiten zouden bieden voor de Nederlandse economie, daarbij vertrekkend vanuit de vraag van de bedrijven. Uit de resultaten blijkt dat TST, begrijpelijkerwijze, vooral in het ICT-domein toepasbaar was (“data and knowledge systems – CAD, computer modelling & simulation”) en bij “technologies for interactive and multimedia applications”. Vooral in de volgende sectoren werden opportuniteiten voorspeld: “printing & publishing”, “electrical and electronic components”, “machinery and transport equipment”, “leisure and entertainment”, en “information and telecom services, software”. Vooral interactieve en multimediatechnologie in de software-, informatica- en telecomsector werd aanzien als veelbelovend.
Vlaamse overheid, Departement EWI
pagina 6 van 54
Anderzijds werd vermeld dat bedrijven niet meer actief waren op het vlak van redeneersystemen (kunstmatige intelligentie). Vooral het informatiebeheer in grote bedrijven (bv. banken, verzekeraars, juridische dienstverlening, uitgevers enz.) zou op velerlei wijze ondersteund kunnen worden door TST (post sorteren, vertaling, informatiebeheer). Ook het verhogen van de gebruiksvriendelijkheid van allerlei toepassingen werd als een trend omschreven. Tevens werd de manipulatie en verwerking van multimediale data (bv. omroepen) als belangrijk beschouwd. Binnen de medische sector zou TST een belangrijke ondersteunende factor kunnen vormen (bv. dicteertoepassingen, informatie ophalen uit het medisch dossier, kennisgebaseerde beslissingssystemen). Wel werd opgemerkt dat vele van de toepassingen en diensten van meet af aan een globale concurrentie dienen aan te gaan. Enerzijds is het eigen taalgebied te beperkt, anderzijds waren nogal wat toepassingen, bv. rond kennisbeheer, “universeel” en/of gebaseerd op internationale ontwikkelingen. Typisch was de korte cyclus zodat bedrijven snel moeten inspelen op opportuniteiten waardoor het onderzoek het tempo moeilijk kan bijhouden. In 1998 werd ook aangegeven dat de snelle groei van niet-Engelstalig informatie op het Internet een belangrijke hefboom zal worden. In het Radarworkshoprapport (1999) werd het pijnpunt van de gebrekkige samenwerking en geringe onderlinge betrokkenheid tussen de bedrijfswereld en de kennisinstellingen, de lage prioriteit van het Nederlands, en het tekort aan (af)studerende TST-specialisten aangehaald. Kansen werden dan weer in de bredere context gesitueerd van communicatie en interactie waarbij de technologie zich naar de mens zou richten (i.p.v. omgekeerd). Enkele van de toen vooropgestelde oplossingen betroffen de organisatie van workshops of uitwisselingssessies, aanbieden van stageplaatsen, bijhouden van “wiedoetwat”, “wiebiedtwataan”, “wiezoektwat” e.d. Kortom, vele zaken die in 1999 besproken werden zijn nu nog altijd actueel.7 Aan deze workshop namen experten uit Vlaanderen en Nederland deel. Het doel van de M&I Partnersstudie (2004) was na te gaan of, en zo ja in welke mate, TST kon bijdragen aan een duurzame economische groei in Nederland en Vlaanderen. Tevens werd o.a. de vraag gesteld naar de sterktes en zwaktes, de verschillen tussen België en Nederland, en de meest gepaste vormen van overheidsondersteuning. Dit alles werd beschreven aan de hand van het gelaagd innovatiemodel. De bespreking van het economisch potentieel richtte zich voornamelijk op een vergelijking met de Amerikaanse markt. Tevens werd toen al aangegeven dat TST voornamelijk een ondersteunende (“enabling”) technologie is, waardoor het moeilijk is de exacte waarde te bepalen. “Het meest direct zichtbare economisch belang van TST ligt bij het groeiend aantal bedrijven die TST ontwikkelen, en met name bij bedrijven die toepassingen met TST ontwikkelen” [p.41]. Verder werd ook in dit rapport gewezen op het Europese en nationale beleid om burgers in hun eigen taal toegang te laten krijgen tot alle voor hen relevante informatie. Als marksegmenten werden besproken: - de contactcenters (call centers en interactive voice response – IVR) - de dicteermarkt (vooral voor professionele gebruikers en specifieke doelgroepen) - taalleersoftware - het semantisch web - kennisbeheer - lokalisatie en (automatische) vertaling - meertalig publiceren Het antwoord op de vraag of TST een economisch belang had werd positief beantwoord, maar met de bijkomende nuance dat toen zich eerder de vraag stelde of overheidsondersteuning daadwerkelijk economische effecten te weeg zou brengen. En dat was, volgens de studie, afhankelijk van het goed functioneren van het TST-innovatiesysteem. 7
Er mag wel niet uit het oog verloren worden dat de situatie in Nederland t.o.v. 1999 wel veranderd is, al was het maar door de creatie van de Nederlandse Organisatie voor Taal – en Spraaktechnologie (NOTaS) in 2001. In Vlaanderen is de situatie spijtig genoeg vooral veranderd door het verdwijnen van L&H, en de cluster van bedrijfjes in Flanders Language Valley die TST in allerlei toepassingen probeerden te integreren. Dit rapport beschrijft de “opinie” van de Vlaamse TST-sector, die ongetwijfeld anders is dan die van het TST-veld in Nederland.
Vlaamse overheid, Departement EWI
pagina 7 van 54
Relevant in deze context waren de sterktes en zwaktes. Een duidelijke sterkte was de hoge kwaliteit van TST-onderzoek in Nederland en Vlaanderen en de daaraan gerelateerde sterke internationale positie en zichtbaarheid. Vooral Nederland (Nederlandse onderzoeksgroepen) namen toen al vaak het voortouw in grote projecten en initiatieven – ook nu weer met CLARIN-EU en de CLARIN-ERIC waarvan Nederland de coördinatie (en bijhorende extra financiering) op zich neemt. Ook de intensieve wisselwerking tussen marktpartijen en kennisinstituten als sterkte gezien, die toen wellicht vooral in Nederland te situeren viel.
Figuur 1: de zwaktes van het TST-innovatiesysteem [overgenomen uit M&I/Partners p.61]
De zwaktes werden in twee categorieën ingedeeld: interne en overige (cf. de problemen in Figuur 1). De interne zwaktes (probleem 2) betroffen een gebrek aan continuïteit aan financiering, wat zich nu opnieuw voordoet. In Vlaanderen is na het einde van STEVIN geen nieuw programma voorzien – wel blijven de reguliere financieringskanalen open voor TST-voorstellen. In Nederland wordt via CLARIN-NL wel in nieuwe financiering via een langetermijnprogramma voorzien – weliswaar meer voor infrastructuur dan voor onderzoek. Een gebrek aan eigen kracht vanuit de sector om zelf visies en stappenplannen op te stellen om de eigen belangen te verdedigen werd nadrukkelijk aangehaald. Het bestaan van CLIF (een onderzoeksnetwerk met alle Vlaamse TST-onderzoekers) en NOTaS (een belangenorganisatie bestaande uit een viertal universiteiten, een tiental bedrijven en enkele semi-overheidsorganisaties) bleek in 2004 onvoldoende om de gemeenschappelijke belangen goed te verwoorden en verdedigen. Ook in de afloop van STEVIN komt ditzelfde euvel blijkbaar opnieuw de kop opsteken.8 Uit de sector zelf kwam nauwelijks een concreet voorstel voor de toekomst of werd zich weinig moeite getroost om pro-actief te wegen op de agendabepaling9. 8
Eerlijkheidshalve dient gezegd te worden dat CLIF een FWO-onderzoeksnetwerk is waarbij lobbyen en het optreden als een sectorvertegenwoordigende organisatie strikt genomen buiten de taken valt. 9 In Vlaanderen ligt dit ook (veel) moeilijker daar dergelijke beïnvloeding niet op het niveau van de financieringsagentschappen kan spelen (gezien er geen programmatorische aanpak bestaat).
Vlaamse overheid, Departement EWI
pagina 8 van 54
De overige (nu nog relevante) zwaktes betreffen een te beperkte creatie van spin-offs of een te beperkte verbreding van de activiteiten van bestaande spelers (probleem 5). Tussen 2004 en 2012 zijn, zoals te verwachten, nieuwe TST-spelers bijgekomen en enkele andere (met het Nederlandse Polderland als voornaamste exponent) verdwenen. Het blijkt overigens niet zo evident om de status van het veld te monitoren, net omdat nieuwe bedrijven klein beginnen en daardoor gemakkelijk “onder de radar blijven” (probleem 7). Ook integratoren van TST waren en blijven nog altijd moeilijk te bereiken. Misschien hebben dergelijke bedrijven nog altijd onvoldoende zicht op de mogelijkheden die TST biedt ? Of net wel zodat ze er niet in “geloven” ? Misschien zijn er onvoldoende materialen beschikbaar die voldoende inpasbaar zijn in hun toepassingen (probleem 6) ? Feit blijft dat door hun “stilte” het moeilijk is om rekening te houden met hun inzichten en wensen. Het M&I-rapport stelde dat de vraagkant in het algemeen onvoldoende ontwikkeld was (probleem 8). Of in de praktijk de toepassingsgerichte STEVIN-projecten hieraan in voldoende mate tegemoet gekomen zijn, moet nog blijken. Het TST-veld zelf is in ieder geval enthousiast over de STEVINdemonstratieprojecten.10
Zoals hoger reeds enigszins aangegeven zal verder blijken dat vele van de vermelde zwaktes nog altijd in min of meerdere mate spelen. Evenwel, de EC erkent dat ook op Europees niveau zich analoge problemen stellen. Noot: M.b.t. Figuur 1 moet voor de volledigheid nog vermeld worden dat problemen (1) en (3) grotendeels door STEVIN aangepakt werden, problemen (3) en (4) in het kader van CLARIN verder opgenomen worden evenals door de TST-Centrale. 4.2.3.3. Vlaamse studies Met de VRWB-Speerpuntenstudie (2006), die bestond uit een combinatie van literatuuronderzoek, expertenbevraging en paneldiscussies, wou de toenmalige Vlaamse Raad voor Wetenschapsbeleid (VRWB) de speerpunten identificeren en technologieclusters bepalen waarop het beleid in Vlaanderen in de toekomst zou moeten inzetten m.b.t. het wetenschaps- en technologiebeleid.11 Soortgelijke internationale rapporten en een expertenraadpleging in Vlaanderen vormden de basis om een aantal stellingen te definiëren over potentiële toekomstige toepassingen van technologieën. Uit deze studie kwam TST naar voor als een ondersteunende technologie ("enabling technology") voor nieuwe producten en diensten. Immers, TST werd bij vele van de vijftien technologieclusters vermeld, zonder evenwel een cluster op zich te vormen. Als belangrijke trend werd een verbeterde mens-machine interactie en communicatie aangehaald. Dit zowel in contexten van “ambient intelligence”, autonavigatie en –bediening, domotica in de welzijnsen verzorgingssector, machinebediening en –aansturing, leeromgevingen en speltoepassingen, en bediening van ICT-toestellen in het algemeen. TST is hierbij niet de alleszaligmakende technologie, maar wordt gecombineerd met multimedia en multimodaliteit. Toepassingen in het kader van informatieverwerking en –beheer die onder de noemer “enterprise content management systemen” (CMS) gegroepeerd worden zullen meer en meer de huidige webCMS, documentCMS, archieven enz. overkoepelen. TST, opnieuw in een multimediale combinatie, biedt innovatieve mogelijkheden om beter en sneller informatie (m.i.v. klant- en relatiebeheer) te verwerken en beheren. Een specifieke vorm betreft informatie van de overheid die in allerlei e-governmenttoepassingen ten behoeve van de burger en het bedrijfsleven Figuur 2: samenvatting resultaten EWI-TST-forecast 10 11
Cf. het STEVIN-eindevaluatierapport p.94 – www.stevin-tst.org/programma/#evaluaties In 2012 zou de studie opnieuw uitgevoerd worden.
Vlaamse overheid, Departement EWI
pagina 9 van 54
kan aangewend worden. Een ander belangrijk toepassingsdomein is de gezondsheids- en welzijnssector waar zeer veel cruciale informatie in om gaat. De EWI-TST-forecast (2008) werd opzet als een Delphibevraging via het web, waarbij EWI aan een 70-tal belanghebbenden 50 stellingen voorlegde om aan elke stelling een score toe te kennen op basis van wenselijkheid en haalbaarheid. De stellingen schetsten, in een tijdsperspectief, van vijf jaar een mogelijk product, dienst of situatie waarbij TST gebruikt werd. Bv. TST kan ouderen helpen via een betere spraakinterface bij domotica. Levenslang onafhankelijk leven en e-leren en –testen kwamen als meest wenselijk toepassingsdomein uit de bus; automotive en logistieke toepassingen als minst wenselijke (zie Figuur 2). De andere domeinen scoorden ongeveer even hoog, waarbij ontspanning en serious gaming er iets bovenuit steekt. Tevens maakten de belanghebbenden duidelijk dat ze vanwege de overheid ondersteuning (blijven) verwachten. 4.2.3.4. Europese initiatieven Het META-NET12 (2011) is een (nog lopend) excellentienetwerk (gefinancierd door DG INFSO – 7KP) van 44 onderzoekscentra uit 33 landen. Een van de doelstellingen is een gedeelde visie op TST te ontwikkelen en een daarbij samengaande onderzoeksagenda op te stellen. Drie brede visies worden momenteel naar voor geschoven. 1. Een taaltransparant web en mediaervaring: het web is meertalig en multimediaal a. Crosslinguale informatietoegang tot alle media vanuit elke taal b. Multimediale meertalige ondertiteling c. Vertaling binnen een taal (technisch taalgebruik, registers, stijl, …) 2. Natuurlijke en inclusieve interactie: digitale communicatie kent geen grenzen a. Natuurlijk omgaan met robots en “software-assistent” b. Assistieve/ondersteunende technologie c. Crosslinguaal e-leren d. Crosslinguale “vergaderingassistent” 3. Efficiënt informatiebeheer: de informatietoename kent geen grenzen a. Gefedereerd meertalig audiovisueel zoeken b. Gepersonaliseerde “informatie-assistent” c. continu loggen (opslaan en klasseren van spraak en semantische analyse van input) META-NET gaat uit van de evenwaardigheid van alle talen. LT-Compass13 (2012) is een pas opgestarte “support action” (opnieuw door DG INFSO gefinancierd) met als doel de TST-sector in Europa te stimuleren door de verschillende spelers met elkaar in contact te brengen en als belangengroep te laten optreden. Het is tevens de bedoeling dat de sector als dusdanig zichtbaarder wordt en beter in kaart gebracht wordt. Kortom, deze doelstellingen lopen in belangrijke mate parallel aan wat de Taalunie met haar makel- en schakelactiviteiten beoogt.
12 13
http://www.meta-net.eu/events/meta-forum-2011/mission http://www.ltcompass.eu/
Vlaamse overheid, Departement EWI
pagina 10 van 54
Hoofdstuk 5 Methode Er is duidelijk niet gekozen om zomaar partijen bij elkaar te brengen rond een tafel en de gedachten of discussie de vrije loop te laten. Integendeel, er is teruggegrepen naar een methode die in 2001 toegepast werd tijdens een “TST-visieworkshop” georganiseerd door het toenmalige Nederlandse Ministerie van Economische Zaken, het toenmalige Senter en NWO.14 Op deze manier kan de discussie gestructureerd worden aan de hand van enkele concrete vragen. Tijdens de workshop in 2001 werden een vijftal thema’s behandeld. Een extern bureau heeft rond deze thema’s een aantal vragen geformuleerd evenals een kader waarbinnen deze vragen gesitueerd werden. Dit kader werd overgenomen en ietwat geactualiseerd. Tevens werd een zesde thema toegevoegd (over de toekomst). Het idee was om tijdens de sessies te vergelijken met wat er 10 jaar geleden uit bus kwam om zo een mogelijk verschil of evolutie vast te stellen. Voor de zesde sessie (over de toekomst) bestond er geen vergelijkingsmateriaal zodat een slide met de “TST-hypecyclus”15 gebruikt werd. Gezien de positieve beoordeling van deze methode en werkwijze door de deelnemers aan de TSTvisieworkshop in 2001 (cf. Figuur 3) werd er van uitgegaan dat de methode ook wel in 2011 zou aanslaan. Wel werd in 2011 substantieel meer tijd uitgetrokken voor discussie tijdens een sessie: in plaats van een halfuur werd een uur en drie kwartier voorzien (m.i.v. de vergelijking met het verleden). Dit leek logisch gezien het hogere aantal deelnemers per sessie (maximaal 11 in 2011 i.p.v. gemiddeld 5 in 2001).
Figuur 3: beoordeling van de werkmethode (in 2001)
Bijkomend werd tijdens een plenaire sessie een rapport voorgesteld dat een toekomstvisie schetst vanuit een onderzoeksperspectief. Dit rapport werd besteld door de Taalunie en werd kort besproken tijdens een vergadering van de STEVIN-programmacommissie. Door het TST-bestuur werd 14 15
EZ draagt nu de naam van Economie, Landbouw en Innovatie en Senter heet nu Agentschap NL. Deze slide werd getoond tijdens een META-networkshop en komt oorspronkelijk uit een Gartnerrapport.
Vlaamse overheid, Departement EWI
pagina 11 van 54
voorgesteld om dit rapport ook voor te leggen aan “het veld” tijdens deze dag zodat de deelnemers reacties en aanvullingen konden formuleren. Nadien werd een synthese gepresenteerd van de bevindingen uit elke parallelsessie om iedereen snel op de hoogte brengen en om enkele krachtlijnen van de dag te identificeren. Tijdens een inleidende plenaire sessie werd de dag gekaderd in recente Vlaamse beleidsinitiatieven (Vlaanderen in Actie en de VRWI-speerpunten, het “Nieuw Industrieel Beleid” en het “Innovatiecentrum Vlaanderen”). Vervolgens werd kort uitgelegd hoe de parallelsessies zouden verlopen, waarbij benadrukt werd dat het kader niet als beperkend en normatief meer eerder als vertrekbasis diende te worden beschouwd en als vergelijkingsbasis voor de resultaten van 2001. De deelnemers kregen als algemene opdracht input te leveren zodat deze dag als direct resultaat een lijst kon opleveren van: (toekomstige) noden of problemen die de sector nog moet overwinnen (toekomstige) taal- en spraaktechnologie die daarbij kan helpen d.m.v. nieuwe producten, diensten of zakenmodellen (potentiële) onderzoeksthema’s om die technologie te bouwen of te verbeteren Andere nodig geachte begeleidende maatregelen of instrumenten Daarnaast werd het opstellen van een rapport – voorliggende tekst dus – in het vooruitzicht gesteld dat een visie zou bevatten op een toekomst van het TST-domein die in te passen valt in de Vlaamse beleidscontext en internationale initiatieven. Tot slot werd de hoop uitgesproken dat van deze dag een katalyserende werking zou uitgaan en enkele spelers in het TST-veld zich als “voortrekkers van het veld” zouden aanbieden. Nadien startten de parallelle sessies – onderbroken door de lunch. Elke sessie werd inhoudelijk geleid door een discutant uit het veld bijgestaan door een vertegenwoordiger van EWI (als waarnemer). Tevens waren notulisten voorzien (TST-postdocs). De discutanten werden geselecteerd door EWI op basis van hun (vroegere) TST-expertise en hun huidige functie (neutrale positie – IBBT, Innovatiecentrum Oost-Vlaanderen, TST-onafhankelijke consulent). In extremis haakte de IBBTvertegenwoordiger af zodat een EWI-medewerker twee sessies inhoudelijk geleid heeft als discutant. De Universitaire Stichting werd als locatie gekozen. Bij veel deelnemers (ook academische) bleek de Universitaire Stichting een onbekende te zijn die evenwel goed in de smaak viel als sfeervolle vergader- en lunchlocatie.
Vlaamse overheid, Departement EWI
pagina 12 van 54
Hoofdstuk 6 De sessies 6.1.
Sessie 1: Applicatiegebieden
Synthese: Qua applicatiegebieden vallen weinig of geen grote vernieuwingen te melden. Van de applicatiegebieden die 10 jaar geleden geïdentificeerd werden vallen er evenmin af. Wel wordt een evolutie naar vele (kleine) niche toepassingen vastgesteld. De vraag blijft bestaan naar kwaliteitsverbetering op moeilijke aspecten, zoals het adequaat omgaan met verschillen in stijl en taalregisters (dialect, chattaal,…) en met domeinspecifiek jargon bij automatische vertaling, spraakherkenning en data mining. Voor leersystemen van taal en (uit)spraak leeft de nood om deze meer adaptief te maken (aangepast aan de gebruiker) alsook om specifieke toepassingen te voorzien voor specifieke problemen of aandoeningen (bv. na een stembandoperatie). Tenslotte lijkt met de toegenomen computerkracht en technologieontwikkeling nu ook spraak-naarspraakvertaling in het stadium te komen waar nuttige toepassingen haalbaar zijn in komende 10 jaar, o.a. in tele-presence toepassingen.
Discussieleider: Jan Verhasselt EWI-begeleider: Karel Goossens Notulist: Kim Luyckx Aanwezigen: - Industrie: Guido Beerten, Anja Höthker, Sabrina Poelvoorde, Rudy Tirry, Tom Vanallemeersch, Jos Van Sas - Overheid: Kris Van Bruwaene - Onderzoeksinstellingen: Piet Desmet, Patrick Wambacq Inleiding: De discussieleider leidt de sessie in met de kernvraag (cf. Figuur 4): - welke zijn potentieel interessante toepassingsgebieden voor TST in de toekomst ? - indien mogelijk, welke trends, afhankelijkheden en prioriteiten zijn identificeerbaar Hij stelt de werkwijze voor: - eerst stellen alle aanwezigen zich kort voor; - vervolgens bereiden ze zich individueel voor op basis van een dimensieschema (zie Figuur 4); - daarna volgt een plenaire discussie.
Figuur 4: de opgave voor werkgroep 1
De verschillende dimensies van het schema worden kort toegelicht: 1. performantie: hoog (P+), midden (P+-), laag (P-) 2. responssnelheid: langere wachttijd (R+), even later (R+-), ogenblikkelijk (R-) 3. dimensie: vast – mobiel – draagbaar
Vlaamse overheid, Departement EWI
pagina 13 van 54
Na de individuele voorbereiding worden volgende zaken aangehaald tijdens de plenaire discussie. Alle deelnemers aan tafel geven om beurt hun opinie In de vertaalbranche zijn volgende punten van belang: De kwaliteit van een vertaling blijft een belangrijk punt (met als aanduiding P+, R+). De automatische controle ervan is nog zeer beperkt: bv. stijlanalyse ontbreekt volledig. Als afhankelijkheden ziet deze expert de beschikbaarheid van meertalige corpora (geen lexica) gerelateerd aan terminologie-extractie. Kwalitatief hoogstaande vertaling, niet enkel van het Nederlands, is belangrijk; De vertaling van verschillende taalregisters in de sociale media (P+, R+) zoals “slang” en chattaal krijgt meer aandacht; Een steeds meer voorkomende vraag betreft de mogelijkheid om binnen figuren tekst als dusdanig (niet als grafisch element) te herkennen en verder als tekst te verwerken (vooral vertalen). In de callcentersector ziet men vooral toepassingen voor een interne helpdesk (P+, R+ voor tekst, Rvoor spraak). Dit omvat o.a. het bevestigen en/of aanpassen van afspraken met specialisten (een geautomatiseerde helpdesk) (P+, R+). Vanuit de telecomhoek biedt “tele-presence”16 (voor cloudomgevingen) (P+-, R-) nieuwe opportuniteiten. Meer concreet kan TST voor tele-presence voorzien in spraak-naar-spraakvertalingen met lipsynchronisatie met avatar (een realistische simulatie van face-to-face-interactie). Anderen zien een toekomst in het controleren van informatie van het Internet – bv. nu komt informatie zomaar in kranten terecht. In de dienstverlening en openbare sector zal spraak-naar-spraak-vertaling meer en meer van nut zijn bv. ziekenhuispersoneel dat moet omgaan met asielzoekers. Dergelijke toepassingen zoude, ook de verhoudingen tussen Nederlands- en Franssprekenden in het gemeentehuis kunnen verbeteren. Vele toepassingen situeren zich in het domein van de informatie-extractie. Een verbeterde matching van informatie in uitgeverijen (P+,R+) aan de hand van clustering en interpretatie van informatie, waarbij clusters associatief worden weergegeven. Hierbij is het van belang dat correcte associaties getoond worden. Het gaat om het vinden van verbanden tussen teksten (bv. gelijkaardige stijl, zelfde onderwerp, genre, …) en het presenteren van de zoekresultaten; Het herkennen van het niveau van taalgebruik (voornamelijk taalregister en terminologie) (P,R), bv. het verschil in taal- en woordgebruik tussen een sollicitant en een vacatureschrijver. Bij uitbreiding zorgt deze technologie voor een verbetering van de robuustheid bij zoek- en matchtechnologie in het algemeen; De opwaardering van het taalgebruik (P, R), zoals omzetten van dialect naar standaardtaal in geschreven (tekst-naar-tekst, P+) en gesproken taal (dialect in spontane spraak); Tekstvertalingen: grote bedrijven hebben grote volumes aan te vertalen documenten (en beschikken dus over trainingsmateriaal) (P+). Ook voor particulieren worden vertaaltoepassingen interessanter (P+-, R-) – bv. in het domein van sociale media (P+, R-); Ook domein-specifieke termextractie biedt interessante opportuniteiten (P+, R+). Zelfs wanneer domein-specifieke kennis (bv. onder de vorm van lexica of parallelle corpora) niet beschikbaar is, is het toch nodig om domein-specifieke vertalingen te maken (P-, R+). Een ander domein gaat over leren, taaltesten enz. Daarbij biedt schrijfondersteuning (P+, R+-) met analyse van teksten en het aanbieden van verbeteringen of suggesties uit taaldatabanken een grote stap voorwaarts. In dezelfde sfeer vindt men adaptieve leersystemen (P+-, R+-) die inspelen op de interessesfeer en taalniveau van een leerder. Een vorm van verbeteringen betreft uitspraakcorrectie (eventueel zelfs met intonatie) (P+, R+). Dergelijke toepassingen vergen een goede (en uitdagende) interactie met de leerder zodat een onderliggend dialoogsysteem noodzakelijk wordt (nu zijn dergelijk interacties eerder op een transactiemodel gebaseerd en dus redelijk voorspelbaar). 16
Door een combinatie van technologieën creëert men een systeem dat de indruk wekt dat twee (of meerdere) personen die fysisch van elkaar verwijderd zijn zich toch op eenzelfde plaats bevinden. Bv. videoconferenties, operaties op afstand en virtuele leslokalen zijn relatief meer en minder bekende toepassingen.
Vlaamse overheid, Departement EWI
pagina 14 van 54
Spraaktechnologen zien vooral spraak-naar-spraakvertaling voor de consumentenmark als beloftevol (P+-, R-). De vicepresident van Google Europa, Peter Norvig, nam dit als voorbeeld van een toekomstige toepassing waarvoor Google interesse heeft. Een mogelijke toepassing is spraakanalyse voor specifieke contexten zoals patiëntennazorg na een stembandoperatie, taallabo’s, en logopedie (thuis oefenen). In de mediasector groeit de belangstelling voor en nood aan het archiveren (transcriberen P+, R+-) en doorzoekbaar maken van spraak- en geluidsbestanden (wie heeft wat gezegd = audiomining P+, R+) . Een voor de hand liggende (maar momenteel “moeilijke”) toepassing is het automatisch transcriberen van vergaderingen. Tenslotte zal ook spraakbesturing verdere ingang vinden onder de vorm van meerdere nieuwe toepassingen vinden (bv. bediening van een bed of domotica in het algemeen). Vanuit een mediaorganisatie wordt vooral een betere sprekeronafhankelijke spraakherkenner verwacht (P+, R+-), evenals spraak-naar-spraakvertaling voor ondertitelen. Suggesties van synoniemen en relevante informatie die tijdens het vertalen aangeboden worden kunnen hierbij nuttig zijn. Ook een correcte spelling (en uitspraak) van (vooral anderstalige) eigennamen is belangrijk voor journalisten (bv. tijdens de journaals op radio en televisie) (P+-, R+-). Verder zou textmining beter kunnen door het gebruik van associaties: dit is vooral handig voor journalisten, uitgevers en consumenten die hierdoor meerdere bronnen (krantenarchief, internetbronnen, tv-archieven, …) ter beschikking krijgen.
Tien jaar geleden is dezelfde oefening al eens gemaakt: wat waren de resultaten toen? Op basis van de figuur wordt aangehaald dat in 2001 volgende applicaties in de discussie niet vermeld werden: e-testing (in lezen en schrijven) bij e-learning en schrijfondersteuning een virtuele assistent (P+-, R-) – vooral binnen bepaalde domeinen zou dit haalbaar moeten zijn (bv. kledingadvies) veiligheidstoepassingen (forensisch) (P+-, R+-) – bv. monitoren van tekst en spraak Verder wordt nog opgemerkt dat termextractie text mining ondersteunt. Trends zoals bedacht in 2011 Nu wordt de grens van de rekenkracht minder een factor om rekening mee te houden, kwaliteit des te meer. Machinevertaling met minder accuraatheid is niet meer wenselijk. Als de vertaling meer tijd vergt verwacht men een kwalitatief hogerstaand eindresultaat.
Figuur 5: het resultaat voor werkgroep 1 (in 2001)
Vlaamse overheid, Departement EWI
pagina 15 van 54
De talige invoer wordt ook complexer en meer divers, waarbij meer en meer “natural language understanding”-capaciteiten verwacht worden. Elke sector heeft eigen noden. En vaak duidt de kwalificatie “domeinspecifiek” op een tekort van generieke kracht of algemene toepasbaarheid van een technologie. Als technologische zwaartepunten schuift dit panel drie thema’s naar voren: 1. machinevertaling 2. spraak-naar-spraakvertaling 3. e-learning en –testing
Vlaamse overheid, Departement EWI
pagina 16 van 54
6.2.
Sessie 2: Technologiekloven
Synthese: De discussie over technologische kloven mondde snel uit in een discussie over een kloof in het TST-innovatielandschap zelf. De resultaten van het TST-onderzoek stromen onvoldoende door naar het bedrijfsleven enerzijds. Anderzijds is het bedrijfsleven zich onvoldoende bewust van het potentieel van het TST-onderzoek dat een antwoord kan bieden op hun vragen mocht dit voldoende gericht worden op het oplossen van industrieel (en maatschappelijk) relevante problemen. Eerder dan dat specifieke technologische kloven overbrugging behoefden kwam de nood aan een mediator duidelijk uit de verf die deze kloof in het TST-innovatiesysteem (een zogenaamd systeemfalen) moet dichten. Binnen een dergelijke intermediaire organisatie communiceren TST-onderzoekers, TST-bedrijven, TST-integratoren en TST-afnemers met elkaar over (internationaal) beschikbare materialen en hulpmiddelen, over het vertalen van onderzoeksresultaten naar concreet inzetbare materialen en hulpmiddelen door het bedrijfsleven, over het opstellen van vraaggestuurde en geprioriteerde onderzoeksagenda’s enz. Discussieleider: Peter Spyns EWI-begeleider: Hilde Vermeulen Notulist: Wim De Smet Aanwezigen: - Industrie: Saskia Debergh, Paul Hermans, Eric Van Hoorenbeeck - Onderzoeksinstellingen: Jean-Pierre Martens, Werner Verhelst, Walter Daelemans, Veronique Hoste, Sien Moens, Hans Paulussen, Frank Van Eynde, Inleiding: De discussieleider leidt de sessie in met de kernvragen: - wat zijn de technologische uitdagingen die in de toekomst het TST-domein kunnen belemmeren? - welke hindernissen zijn er vanuit de markt? Hij stelt de werkwijze voor: - eerst stellen alle aanwezigen zich kort voor; - vervolgens bereiden ze zich individueel voor op basis van een dimensie-schema (zie figuur); - daarna volgt een plenaire discussie. De verschillende dimensies van het schema worden kort toegelicht (cf. Figuur 6): 1. responstijd (snelheid) 2. accuraatheid (fouten in systeem) 3. tijd (wanneer beschikbaar?) 4. mobiliteit van technologie Via een mind-mapping tool worden alle (voor zover mogelijk) aangehaalde hindernissen met elkaar in verbinding gesteld en visueel voorgesteld als leidraad tijdens de discussie. Om de deelnemers een houvast te geven geeft de discussieleider tekst-tospeech als voorbeeld. Over
Vlaamse overheid, Departement EWI
Figuur 6: de opgave voor werkgroep 2
pagina 17 van 54
de voorbije tien jaar zijn deze applicaties van een PC (desktop) gemigreerd naar “hand held devices” (smart phone e.d. of een “automotive platform”) terwijl ook de accuraatheid verhoogd is. Maar momenteel is er nog altijd een probleem met de stemintonatie waarbij onvoldoende emotie in de stem kan gelegd worden (bv. om op automatische wijze audioboeken aan te maken met de stem van een bekend persoon). De deelnemers hadden moeite om specifieke technologiekloven aan te halen. Volgens sommigen hangt zoiets heel sterk af van de focus en het uitgangspunt (primeert snelheid dan wel accuraatheid dan wel hardwarevereisten, enz.) zodat het moeilijk is om “kloven” in het algemeen te duiden. Na de individuele voorbereiding bleek dan ook gauw dat de aangehaalde elementen weliswaar belangrijke en te overbruggen hindernissen betroffen maar dat deze kloven vooral als dysfuncties in het innovatiesysteem te beschouwen zijn. Kortom, eerder dan over technologische kloven ging de plenaire discussie vooral over het zogenaamde “systeemfalen”, waarvan de belangrijkste oorzaak blijkt te zijn het onvoldoende doorstromen van onderzoeksresultaten naar bedrijven enerzijds en anderzijds het onvoldoende vertalen van problemen vanuit het bedrijfsleven naar onderzoeksvragen. Een aantal deelnemers meent dat hier een rol weggelegd is voor een intermediaire organisatie met kennis van TST die onderzoekers, bedrijven en potentiële gebruikers met elkaar in contact brengt en TST een zo ruim mogelijke bekendheid kan geven. Na de individuele voorbereiding worden volgende zaken aangehaald tijdens de plenaire discussie. 1. Een belangrijk probleem is het verschil tussen wat een onderzoeker als eindresultaat aflevert en wat de bedrijfswereld er eigenlijk van verwacht. Duidelijke verschillen bestaan tussen een algoritme en een toepassing, tussen een halffabricaat en een afgewerkt product. Pijnpunten daarbij zijn bv. de gebruikte programmeertaal, het al dan niet conform zijn aan bepaalde industrieel gebruikte standaarden, de manier van testen, de volledigheid van de documentatie, de software-architectuur, enz. Vooral publicaties worden academische gevaloriseerd: een onderzoeker wordt niet “academisch beloond” voor het algemeen beschikbaar maken van kwaliteitsvolle software, data of documentatie. Voor dergelijke taken heeft een onderzoeker dus geen tijd. Een gerelateerd probleem blijft het verschil tussen vraag en aanbod tussen de onderzoekswereld en de bedrijven, ondanks de inspanningen van een programma zoals STEVIN dat ook valorisatie door bedrijven poogt te realiseren. Om een snellere technologietransfert te realiseren is het wenselijk om bv. het bouwen van een corpus, de implementatie van programma’s, … ook te valoriseren in het curriculum van een onderzoeker. Maar vooral zal een vraaggestuurde context, waarbij onderzoek gebeurt op thema’s die bedrijven aanbelangen, hierbij een belangrijke rol spelen. 2. Een van de deelnemers nam als voorbeeld het GATE-systeem17: dit is niet beschikbaar voor het Nederlands. Wetenschappelijk gezien loont het evenwel nauwelijks om een nieuwe taal, zoals het Nederlands, aan het systeem toe te voegen. GATE heeft trouwens een ontstaansgeschiedenis van meer dan 20 jaar, net omdat een dergelijk platform slechts stapsgewijs kon uitgebouwd worden op basis van (Europese) projectfinanciering. 3. Men haalt het recente contract tussen Google en het Europese patentbureau i.v.m. vertaaltechnologie aan: waarom is er niet met Europese onderzoekers samengegaan? Sommigen menen dat Google globaal veel meer geld/moeite spendeert aan het aantrekken van goede studenten met TST-ervaring, en dat de overheid dus meer geld aan TSTonderwijs moet besteden. Een tegenkanting was dat een sector zichzelf en haar aantrekkingskracht moet bewijzen – ook L&H is klein begonnen. Van de overheid kan niet verwacht worden dat ze voor iedere specifieke (technologie)(deel)sector zwaar investeert in onderwijs. Er bestaat trouwens geen garantie dat die inspanningen ook lonen, waarbij men het voorbeeld geeft van de inspanningen om studentes naar de ingenieurswetenschappen aan te trekken. 4. Er wordt gevraagd welke inter-universitaire initiatieven bestaan om eventueel van daar uit een competentiepool te creëren. Het IWT heeft de invulling van aanvragen voor
17
Dit is het natuurlijketaalverwerkingsplatform van de Universiteit van Sheffield. Meerdere talen worden ondersteund.
Vlaamse overheid, Departement EWI
pagina 18 van 54
innovatiesamenwerkingsverbanden aangepast18. Een groep bedrijven moet een visie op onderlinge samenwerking en innovatie indienen waarna meestal een haalbaarheidsstudie van het voorstel volgt. Er wordt gewezen op het feit dat voor TST een gemeenschappelijke visie door bedrijven wellicht nog niet bestaat. Heeft een samenwerkingsverband wel zin als er nog geen vertegenwoordiger voor het veld opgestaan is? De discussieleider haalt aan dat een van de doelen van het STEVIN-programma het creëren van netwerken is, en dat de vergadering van vandaag ook bedoeld is om een “groepsgevoel” te stimuleren. Ook op Europees vlak speelt deze problematiek zodat we in Vlaanderen zouden kunnen meesurfen met deze Europese initiatieven (zie ook sectie 7.1). 5. Hét gat in de markt bestaat niet. Toepassingen ontstaan omdat bedrijven producten creëren, niet omdat er een vraag naar is die ingevuld moet worden. Het groeiend belang dat aan “user driven innovation” gehecht wordt lijkt dit te nuanceren. Toepassingen ontstaan vanuit een contact van bedrijven met klanten. Dé technologische kloof is dat er technologie beschikbaar is in de academische wereld, terwijl de bedrijven/klanten daar vaak geen weet van hebben. De vraag wordt gesteld wat het probleem is met specifieke toepassingsnoden die vanuit het bedrijfswereld komen? Is het een probleem van implementatie, of fundamenteel onderzoek? Er wordt geantwoord dat de onderzoekers nog niet ver genoeg zijn om snel "gemakkelijke", typische problemen op te lossen. Afnemers vinden geen tussenbedrijven om hun problemen op te lossen, en onderzoekers hebben niet als doel om consultancy uit te voeren voor bedrijven. Vele van de beschikbare tools zijn voornamelijk bruikbaar voor mensen die de materie kennen. Dit volstaat niet voor bedrijven die eindproducten maken (bv. geen APIs, documentatie), maar wel voor tussenbedrijven (zoals TST-integratoren). Het is ook niet altijd mogelijk vanuit een doctoraatsstandpunt om zo'n samenwerking op te starten. Er wordt geopperd dat GATE e.d. (zie hoger) nu wel wereldwijd bekend is en ontwikkeld werd in een academische context. De vraag rijst of zoiets niet mogelijk is in Vlaanderen? Van GATE wordt aangehaald dat het zwaar gefinancierd werd door de Europese overheid vanaf de opstart – pas nu is het zelfbedruipend. Er wordt aan toegevoegd dat een dergelijk platform voor academisch ontwikkelde tools wel wenselijk is maar jaren voorbereiding vergt. Evenmin is er financiering voorhanden is om gespecialiseerde programmeurs aan te trekken gezien deze immers meer verdienen in de privésector. Algemeen bruikbare materialen en hulpmiddelen hebben weliswaar een grote waarde, maar voor de verbetering van concrete toepassingen heeft een bedrijf meestal nood aan specifieke materialen. Deze kunnen enkel in samenwerking (onderzoekers – ontwikkelaars of gebruikers) worden aangepast of ontwikkeld. Soms is de kost voor aanpassingen van generieke materialen te groot t.o.v. de kost voor een specifieke herontwikkeling op maat. 6. De oprichting van een Vlaamse organisatie Taal en Spraaktechnologie als tegenhanger van NoTAS (Nederlandse organisatie voor Taal-en Spraaktechnologie) komt ter sprake. Als potentiële hindernis wordt vermeld dat academische partners geen (of te weinig) continuïteit ervaren bij hun contacten met industriële partners. Een overkoepelende organisatie zou hier van nut kunnen zijn en dus ook als centraal aanspreekpunt kunnen fungeren. Het idee wordt positief onthaald. Toch wijst men erop dat een dergelijk consortium zeker niet alleen uit onderzoekers maar ook uit dienstverleners én eindafnemers vanuit de bedrijfswereld dient te bestaan. Anderen betwijfelen dan weer of eindafnemers voldoende interesse hebben om aan een dergelijk initiatief deel te nemen (wegens te zeer op technologie gericht). Probleem lijkt te zijn dat sommige bedrijven wel TST-afnemers zijn, maar niet geïnteresseerd zijn in het langetermijn karakter van onderzoek en ontwikkeling. Concrete vragen kunnen nog niet (snel genoeg) ingevuld worden. Het potentieel is wel aanwezig, want élk bedrijf heeft problemen waar taaltechnologie hulp kan bieden. Maar die samenwerking blijft momenteel te vaak ergens steken. De reden hiervoor is dat er geen standaard “one-size-fits-all-toepassingen” bestaan die snel aan specifieke bedrijfsnoden kunnen tegemoet komen. Nochtans is de technologie voorhanden en kan deze aangepast worden. Evenwel, is er geen onderzoeksmankracht voor 18
http://www.iwt.be/subsidies/vis-hs
Vlaamse overheid, Departement EWI
pagina 19 van 54
beschikbaar en ontbreekt bij veel bedrijven specifieke TST-expertise. Wat nodig is (en in Nederland wel bestaat) is een mediator die dergelijke vragen kan doorsturen, en “tussenlaag-bedrijven” die een doorontwikkeling van fundamenteel onderzoek kunnen uitvoeren. 7. Men vraagt zich af of er een aparte Vlaamse mediator moet komen, dan wel aansluiting moet gezocht worden bij het Nederlands centrum? Om een samenwerkingsnetwerk tussen bedrijven en onderzoekers via een mediator te creëren, zijn niet alleen grote bedrijven nodig. Veel kleine bedrijfjes zijn zeker even nuttig/sterk. Het IWT ondersteunt een netwerkfaciliteit, met namen het VIN (zie http://www.innovatienetwerk.be/) maar dit wordt zelden gebruikt om TST-vraag en aanbod op elkaar af te stemmen. Binnen het TST-veld is er te weinig coördinatie, en hangt het van individuen af of er initiatieven komen en of die opgevolgd worden (waarbij opnieuw het probleem van continuïteit van de contacten opduikt). Een andere functie van de mediator zou kunnen bestaan uit het opvolgen van de “mensen” in het veld om problemen van continuïteit en persoonsgebondenheid (altijd andere mensen te contacteren) op te lossen. 8. Men vraagt zich af of het verhaal rond TST niet beter in een breder verband gesitueerd wordt, met name TST en multimediale toepassingen in een enkele mediatororganisatie? Met het IBBT is er hier al sprake van. Belangrijk is ervoor te zorgen dat het externe beeld van multimedia niet de taal-en spraaktechnologie overheerst, maar er moet in ieder geval een link zijn met audio en video. Bv. spraaksynthese betreft geluid en beelden, maar beeld domineert altijd en krijgt de meeste financiering. Als er een organisatie komt die TST zal promoten, mag dat niet enkel vanuit een multimedia-standpunt gebeuren, want dan krijgt TST minder focus. Tien jaar geleden is dezelfde oefening al eens gemaakt: wat waren de resultaten toen? Op basis van Figuur 7 worden volgende zaken besproken: 1. Tools voor dummies: Het panel oordeelt dat dit een belangrijk punt was tien jaar geleden. Evenwel, de situatie is ondertussen veranderd. Er bestaat nu veel meer ondersteuning voor de ontwikkeling van tools, maar de tools zelf zijn nog onvoldoende beschikbaar voor mensen uit het domein. Bij vele beschikbare materialen ontbreekt een goede technische beschrijving (in veel gevallen is de documentatie een amalgaam van projectleverbaarheden, publicaties en losse rapporten zonder veel oog voor gebruiksvriendelijkheid en technische kenmerken (bv. specificaties over de performantie op verschillende computerplatformen, versies van OS en programmeertalen enz.). Een (technische) checklist van beschikbare software is nodig. Voor bedrijven is er weinig technische informatie beschikbaar over algoritmes. 2. De problemen die een oplossing vergden worden overlopen: “world modelling”: niet opgelost “common sense reasoning”: niet opgelost betekenisrepresentatie & -extractie: hoewel er heel veel werk verzet werd in dit domein, blijven er nog veel open vragen. Het grootste probleem is dat activiteiten wel voor het Engels worden uitgevoerd, maar niet voor het Nederlands. Hierdoor boet dit onderwerp vanuit academisch oogpunt zwaar aan belang in, gezien enkel over voortgang omtrent problemen specifiek voor het Nederlands kan gerapporteerd worden en niet over het voortuithelpen van de internationale “state of the art”. spontane spraak: niet opgelost syntax rule/ statistics in syntax: min of meer opgelost multi-linguality (resources, grote bestanden en tools) – zie verder 3. Rond meertaligheid wordt gepolst hoe bedrijven aankijken tegen het gebruik van het Nederlands vs. het Engels. Een antwoord is dat verschillende talen worden gebruikt in de modellen, elke taal heeft zijn eigen inbreng in hun model. Een bijkomende vraag is of er bij het bouwen van deze modellen gebruik gemaakt wordt van bestaande onderzoeksresultaten (bv. STEVIN-corpora). Er bestaat wel een samenwerking met de universiteitswereld, maar er is nog maar weinig gebeurd met resultaten die uit deze samenwerkingsprojecten kwamen. Bedrijven verwachten niet altijd dat academische projecten
Vlaamse overheid, Departement EWI
pagina 20 van 54
direct inzetbaar resultaten opleveren, maar verlangen wel resultaten die door de bedrijfswereld op korte termijn kunnen worden doorontwikkeld. Soms gaat de interesse meer uit naar het onderzoek op zich dan in concrete resultaten. Soms zijn resultaten (bv. corpora) te “rijk” voor hetgeen een bedrijf nodig heeft: aanpassen van het bestaande materiaal vraagt soms bijna evenveel tijd als het opnieuw aanmaken op maat van de bedrijfsbehoeftes.
Figuur 7: het resultaat voor werkgroep 2 (in 2001)
Vlaamse overheid, Departement EWI
pagina 21 van 54
6.3.
Sessie 3 Sociale en maatschappelijke relevantie
Synthese: 1) De gebruiker moet centraal staan: toegankelijke technologie dient/ondersteunt de mens, en niet omgekeerd. 2) Ook de informatie moet toegankelijk zijn, op maat van de gebruiker zowel qua taal, taalgebruik of register, als inhoudelijke aard 3) Het succes van (ondersteunende) technologie hangt ook af van de perceptie 4) De technologie moet voldoende robuust en adaptief zijn
Discussieleider: Peter Rutten EWI-begeleider: Rita Hauchecorne Notulist: Ineke Schuurman Aanwezigen: - Industrie: Jo Cremelie, Filip De Brabander, Filip Degeijter, Sabine Geldof, Carl Van Himbeeck, Luc Meertens - Onderzoeksinstellingen: Dirk Van Compernolle, Kris Demuynck Inleiding: De discussieleider leidt de sessie in met de kernvraag welke de rol is die TST kan spelen bij sociale en maatschappelijke vraagstukken. Hij legt uit dat inclusie ook ouderen (vergrijzing), minder-validen, anderstaligen, tweedetaalleerders (ten bate van hun integratie) omvat. Vanuit de zaal komt dadelijk de reactie dat zeker in deze context het TST-aanbod wel een aangename ervaring aan de gebruikers dient te bieden. Anders ontwikkelt men er al snel een aversie tegen. De discussieleider stelt de werkwijze voor: - eerst stellen alle aanwezigen zich kort voor; - vervolgens bereiden ze zich individueel voor (zie Figuur 8); - daarna volgt een plenaire discussie. Na de individuele voorbereiding worden volgende zaken aangehaald tijdens de plenaire discussie. De volgende thema’s komen naar voren tijdens de discussie:
Figuur 8: de opgave voor werkgroep 3
1. Toegankelijkheid van technologie Producenten/ontwikkelaars moeten de gebruikers en hun wensen/noden centraal stellen. De technologie mag dus niet te ingewikkeld zijn, vooral niet voor ouderen (onder 1 knop zit één 1 functie => heel deterministisch); voor jongeren speelt dit veel minder. Jongeren passen vaak wel zelf een toestel aan hun eigen wensen en noden aan; ouderen proberen niet eens. 2. Toegankelijkheid van informatie (Automatische) vertalingen zijn noodzakelijk. Je mag er niet van uitgaan dat iedereen voldoende Engels kent (en wat als Chinees DE taal van de toekomst wordt?). Niet iedereen is voldoende “computer-literate“om zelf een vertaalprogramma te gebruiken. Exclusie ligt hier op de loer!
Vlaamse overheid, Departement EWI
pagina 22 van 54
Applicaties (bv. vertaalprogramma's) zullen ook rekening moeten houden met cultuurverschillen (die de acceptatiegraad van een vertaalde tekst, bv. een gebruiksaanwijzing, of zelfs de interpretatie kan beïnvloeden) en registerverschillen taalgebruik en opleidingsgraad moeten worden afgestemd, zowel in originele als in vertaalde documenten. Men merkt op dat vooral jongeren geen gebruiksaanwijzingen meer lezen. Ze gebruiken Google e.d. om antwoorden op hun vragen te krijgen. Gebruik van taaltechnologie moet tot betere antwoorden leiden (zoekfunctie, vertalen, synthese). In een bredere context (bv. vanuit het oogpunt van veiligheid / gebruik in noodsituaties) is het van het grootste belang dat teksten (handleidingen, veiligheidsprocedures, medische bijsluiters) goed leesbaar en begrijpbaar zijn. 3. Struikelblokken bij TST als ondersteunende technologie 1) weinig of geen vraag 1. vaak weet 'men' niet dat een (technologische) oplossing bestaat / kan ontwikkeld worden 2. TST wordt als te duur, te oud, te technologisch ervaren, 3. er hangt een negatieve perceptie rond het gebruik van TST of andere technologie: het wordt bv als stigmatiserend gezien (je bent “dom” of “oud” of “gehandicapt” als je ondersteunende technologie gebruikt!) 2) meer algemeen: 1. hetgeen wordt ingevoerd (taal of woordenreeks) is niet wat de technologie verwacht of aankan (bv Nederlandse invoer in een Engels programma, of een Nederlandse zin met (teveel) spelfouten in een Nederlands programma). Dergelijke input moet worden vertaald of gecorrigeerd. Daarbij mogen we niet aanvaarden dat enkel Engels wordt geaccepteerd. 2. een vraag is of voor alle klanten eenzelfde 'stem' bij (bij TTS) gebruikt kan worden (elke situatie heeft pro's en contra’s op dat vlak) 3. bij spraakherkenning kan onvolledige herkenning ook behulpzaam zijn. Daarbij moeten we ook realistisch zijn/blijven qua verwachtingen: het is immers niet haalbaar binnen redelijke termijn om alle invoer volledig te begrijpen. Zo is er overigens regelmatig een probleem met het Noord-Nederlands t.o.v. het ZuidNederlands, en andere varianten op die “basisvarianten”, zoals het NT2-probleem (bv migranten) en dialectale uitspraken en de zogenaamde “tussentaal” in Vlaanderen. 4. er bestaat ook een probleem m.b.t. educatieve toepassingen: de kosten van bv. schermen. 5. het Nederlands zou breed ondersteund moeten worden In het algemeen zal het marktaspect belangrijk blijven, met name hoeveel exemplaren van een toepassing kunnen worden verkocht, maar toch wordt een bepaalde vorm van overheidsondersteuning in deze verwacht.
Tien jaar geleden is dezelfde oefening al eens gemaakt: wat waren de resultaten toen? Op basis van Figuur 9 worden volgende zaken besproken die veranderd zijn t.o.v. de situatie van tien jaar geleden: - Men heeft nu meer de perceptie dat applicaties werken, bv Google, en we dragen dagelijks allerlei dingen met ons mee! (bv. de recente Apple iPhone4S die ook met spraaktechnologie werkt, weliswaar niet voor het Nederlands of een TomTom voor het Noord-Nederlands). - De deelnemers pleiten voor brede toegankelijkheid van informatie voor iedereen (Any surfer label), en constateert dat voor allerlei groepen die toegankelijkheid toch onvoldoende blijft zodat het gevaar voor exclusie reëel blijft, bv gehandicapten. - Een voordeel is dat het “L&H effect” ("alles kan morgen" enerzijds en “TST = fraude” anderszijds) wegebt. Algemene verwachtingen zijn nu veel realistischer en neutraler (zoals in andere landen). Het blijft wel zo dat voor het Engels substantieel veel meer mogelijk is dan voor het Nederlands. - De variatie in taalgebruik (binnen Vlaanderen, en tussen het Nederlands zoals gesproken in Vlaanderen dan wel Nederland) blijft, wat dus ook een weerslag heeft op toepassingen. Bv. het navigatiesysteem van TomTom laat toe dat straatnamen enz. voluit ingesproken worden in
Vlaamse overheid, Departement EWI
pagina 23 van 54
het Noord-Nederlands terwijl die functionaliteit voor het Zuid-Nederlands enkel via “letters spellen” aangeboden wordt.
Figuur 9: het resultaat voor werkgroep 3 (in 2001)
Nieuwe elementen die door de deelnemers aangebracht worden zijn: - Een nieuwe, te nemen horde wordt het groeiende aantal van Engelse (leen)woorden die in het Nederlands gebruikt worden zodat er “taalgemengde” zinnen als input aan bv. een herkenner aangeboden worden. Wel bestaan er nu meer applicaties die meertalig zijn (ook gedeeltelijk in het Nederlands). - Er tekent zich een belangrijk verschil af tussen ouderen en jongeren: eerstgenoemden zijn minder geneigd om on-line iets te bestellen (of formulieren in te vullen – bv. belastingen) terwijl laatstgenoemden daar weinig problemen mee hebben. Ook het verschil in de gevoeligheid omtrent privacy tussen beide groepen kan een rol spelen in de adoptie van TSTondersteunde technologie. Natuurlijk blijven hier de wettelijke bepalingen gelden. - Toch blijkt dat voor ingewikkelde vragen zowel jong als oud toch liever spreekt met 'een mens' of help desk (i.p.v. machine). Een interessant 3D project in dit opzicht (cf. ook de notie van ”tele-presence” in sessie 1) is de "aangifte op afstand" bij de politie van Rotterdam.19 - Het argument van de feitelijke bruikbaarheid speelt nu veel meer mee. Dit heeft geleid tot bijgestelde verwachtingen én een hogere acceptatiegraad (indien de toepassing nuttig is, dan is het goed). Ook het kostenplaatje speelt een rol. Vele toepassingen worden verondersteld gratis of tegen lage kostprijs te zijn (o.i.v. Google willen vooral jongeren bijna nergens meer voor betalen, behalve voor games en toestellen). - Meer en meer toepassingen worden niet langer “stand-alone” gebruikt maar in een geïntegreerde omgeving. Ook met de recente opgang van “cloud-computing” en “software as 19
Zie http://nos.nl/artikel/175354-virtuele-aangifte-een-succes.html : burgers geven
Vlaamse overheid, Departement EWI
pagina 24 van 54
-
a service” is het de verwachting dat het aandeel van stand-alonetoepassingen zal verminderen. Het is van belang aan de perceptie te werken (hoewel dit voor sommigen een non-issue is): TST moet gezien worden als hulpmiddel, en geen doel op zich. Toch is er een aura van “coolness” of “sexiness” niet slecht gezien TST als studierichting niet populair is in de Lage Landen, maar bv. wel in delen van het vroegere Oostblok. In Vlaanderen hangt nog altijd het L&H-stigma bij de oudere generaties terwijl de jongere generaties (zeker meisjes) afkerig zijn van het technologiegehalte. Misschien kan het accent beter op bepaalde toepassingsdomeinen (bv. sociale inclusie), deelaspecten (gebruiksinterface) of mogelijkheden (bv. informatieanalyse) gelegd worden.
Vlaamse overheid, Departement EWI
pagina 25 van 54
6.4.
Sessie 4 Niche naar markt
Synthese: TST-technologie die zich momenteel in een niche bevindt kan gevat worden onder de benaming “gepersonaliseerde informatieverwerking en –bewerking”. Dit omvat o.a. het aanpassen aan handicaps binnen een doelgroep (ondertiteling voor slechtzienden, voorlezen voor slechthorenden, een “luisterende” persoonlijke assistent voor minder mobiele personen, enz.). E-learning wordt als een interessante nichemarkt bestempeld waar een combinatie taal- en spraaktechnologie vele mogelijkheden biedt (bv. stemkarakterisatie) om de leerinhouden op attractieve en afwisselende wijze aan te bieden aan de lerende. Hiervoor kan aangeleund worden bij de “gaming” en creatieve industrie. Tot slot biedt het semantisch web vele mogelijkheden (bv. ontology learning en mining), waarbij ook “opinion and sentiment mining” nadrukkelijk vermeld worden, wat o.a. het ontwikkelen van technologie impliceert waarmee aan inhoudsanalyse kan gedaan worden.
Discussieleider: Peter Rutten EWI-begeleider: Karel Goossens Notulist: Kim Luyckx Aanwezigen: - Industrie: Jo Cremelie, Sabine Geldof - Onderzoeksinstellingen: Kris Demuynck, Véronique Hoste, Jean-Pierre Martens, Patrick Wambacq Inleiding: De discussieleider leidt de sessie in met de vragen: 1. inventariseer markten/doelgroepen bij innovators en voorlopers 2. welke technologieën hebben groeipotentieel? 3. cf. AIDA-model 4. welke competenties hebben we of moeten we ontwikkelen 5. welke zijn de prioriteiten? 6. hoe bereiken we bij de ‘vroege meerderheid’?
Figuur 10: de opgave voor werkgroep 4
Vlaamse overheid, Departement EWI
pagina 26 van 54
Hij legt uit dat ‘niche’ als ‘embryonaal’ dient geïnterpreteerd te worden. Hij geeft als voorbeeld dat hij verwacht dat binnen vijf à tien jaar binnen de sociale media nieuwe toepassingen (bv. dialoogsystemen) opduiken die zelflerend en adaptief zijn waarbij de adaptatie ook een vorm van normalisatie tot gevolg heeft bij de gebruikers. Tevens stelt hij de werkwijze voor: - eerst stellen alle aanwezigen zich kort voor; - vervolgens bereiden ze zich individueel voor op basis van een schema (zie Figuur 10); - daarna volgt een plenaire discussie. Na de individuele voorbereiding worden volgende zaken aangehaald tijdens de plenaire discussie. Elke deelnemer geeft om beurt zijn of haar opinie. De voorgestelde ideeën worden hieronder samengevat en gecombineerd – en ook in vergelijking met de situatie in 2001 (cf. Figuur 11). Een niche is bv. de toegang tot informatie voor mensen met beperkingen (analfabeten, blinden). Vooral functionaliteiten zoals samenvatten, vereenvoudigen, voorlezen, in symbolen vertalen zijn belangrijk. Ook het aanpassen van teksten aan het niveau van de gebruiker (bv. beperkte woordenschat) is belangrijk. Algemeen geformuleerd (breder dan specifieke doelgroepen) gaat het om het presenteren van informatiestromen op een gepersonaliseerde manier. Een daarbij nauw aansluitende toepassing is de persoonlijke assistent (“personal assistant”) die logischerwijze op maat is van de gebruiker en de gebruikscontext. Een veelbelovend toepassingsdomein is “independent/assisted living”. Andere mogelijke toepassingen in het e-health domein betreffen ondersteuning bij dyslexie, afasie en dysartrie. Voor dergelijke toepassingen wordt een hoge performantie verwacht van een TST-oplossing. Een andere embryonale toepassing gericht op doelgroepen (en wellicht op redelijk korte termijn te realiseren) is het “live” ondertitelen van tv-programma’s voor doven en slechthorenden. Nu worden ondertitels ingesproken (en gecondenseerd). Om rechtstreeks (uit het audiokanaal) en volautomatisch spraak te herkennen en samen te vatten in ondertitels is de technologie momenteel nog niet goed genoeg. In België wordt e-learning als een nichemarkt gezien. Kwaliteit en interactiviteit worden als de grootste pluspunten gezien van een TST-ondersteunde e-learningtoepassing. Scholen vormen begrijpelijkerwijze een zeer belangrijke groep van afnemers. Maar dergelijke toepassingen dienen voldoende spelelementen in zich te hebben die voor afwisseling zorgen in het leerproces. Tevens dient de applicatie goed in te spelen op de competenties (verworven en te verwerven) en problemen van de leerling (belang van een gepersonaliseerde interactie). Bij het uitwerken van dergelijke toepassingen is het (economisch gezien) noodzakelijk een generieke methode en eduwaremodules te bouwen die snel kunnen worden aangepast aan andere doelgroepen (bv. taalcursussen in een bedrijfscontext). Een betere communicatie tussen de technologie-ontwikkelaars en technologieafnemers (c.q. uit het educatieve veld – bv. uitgevers van leermiddelen) is vereist – ook al om het beroepsveld (lesgevers) te overtuigen van de mogelijkheden en nut. Een potentieel interessante technologie is stemmodificatie en –karakterisatie: deze kan ingezet worden bij e-learningtoepassingen (zodat leerlingen de stem van hun leraars te horen krijgen) of doelgroepentoepassingen (zodat een persoon met spraakstoornis een stem naar keuze kan gebruiken om zich uit te drukken) of bij reclamespotjes op radio of tv. Acapela biedt dergelijke technologie al aan, maar Nuance nog (?) niet. Een sterk opkomende toepassing is “opinion mining”, dit is onderzoeken welke opinies mensen publiceren op het internet. Vooral voor marketingdoeleinden is dit een zeer belangrijke technologie. Maar om tot goede en betrouwbare resultaten te komen is het nodig om modaliteiten (gebruik van bijwoorden zoals “misschien”, vervoegde vormen zoals “zou” e.d.) te herkennen evenals negaties en vormen van ironie of andere sentimenten. Afgeleide toepassingen zijn reputatiemanagement: wat denken mensen over bepaalde bedrijven, publieke personen. Als andere veelbelovende technologie wordt inhoudsanalyse en “profiling” voorgesteld. Toepassingen voor deze technologie kunnen zowel in het domein van tekst, beeld als spraak gevonden worden. Ook
Vlaamse overheid, Departement EWI
pagina 27 van 54
op het maatschappelijke vlak kunnen deze toepassingen hun relevantie en nut bewijzen. Een voorbeeld is een recent SBO-project dat zelfmoordneigingen detecteert in chats en blogs op Netlog. Maar ook stemanalyse om een depressie te detecteren behoort tot de mogelijkheden. De laatste technologie(familie) met een belangrijk groeipotentieel die besproken wordt betreft het automatisch bouwen en uitbreiden van ontologieën (“ontology mining and learning”). Ook op Europees vlak (vooral via het Kaderprogramma) wordt sinds een tiental jaar zwaar ingezet op deze technologie, die trouwens sterke banden heeft met artificiële intelligentie, gegevensbankbeheer, informatiesystemen en het semantisch web. Gezien een groot deel van de kennis (die de “grondstof” vormt om dergelijk (semi-)formeel semantisch netwerk of ontologie te bouwen) in de eigen taal opgeslagen is of via mondelinge sessies geëxpliciteerd wordt is taaltechnologie een noodzakelijke ondersteunende technologie om de kennisopbouw voor semantischwebtoepassingen (gedeeltelijk) te automatiseren. Een belangrijk onderdeel betreft het automatisch annoteren van Nederlandstalige bronnen zodat deze ook via het semantisch web toegankelijk worden. Op deze manier verschaffen vraag-antwoordsystemen (al dan niet gecombineerd met contentmanagementsystemen) meer precieze antwoorden, wat dan weer de “customer experience” verbetert. Het voorbeeld wordt aangehaald van twee bedrijven die fusioneren en waarvan de informatiesystemen van beide bedrijven op elkaar dienen te worden afgestemd om het management van de nodige gegevens te voorzien over de stand van zaken binnen het eengemaakte bedrijf. De moeilijkheid hierbij is dat die bedrijven meer dan waarschijnlijk verschillende termen gebruiken om hetzelfde idee te benoemen en de conceptuele ruimte anders ingedeeld kan zijn. Termextractie en ontologieleren gaan hier hand in hand. Andere gerelateerde deeldomeinen (waarin taalspecifieke componenten nodig zijn) zijn ontologiematching (aligning and merging), en –evaluatie. Ook worden (semi-)formele ontologieën (de tagsets die een vaste definitie hebben) gecombineerd met zogenaamd “social tagging” (gebruikers die spontaan eigen labels of tags toekennen aan bronnen (foto’s, filmpjes enz.) op het web).
Figuur 11: het resultaat van werkgroep 4 (in 2001)
Vlaamse overheid, Departement EWI
pagina 28 van 54
6.5.
Sessie 5 Markten en competenties
Synthese: De groep is van mening dat TST klaar is voor gebruik in veel meer toepassingen dan vandaag het geval is voor het (Zuid-)Nederlands. TST kan nog meer dan vandaag bijdragen tot het verhogen van de efficiëntie in bedrijven, in de gezondheidszorg en bij de overheid. Ook het verhogen van inclusie/integratie/toegankelijkheid van informatie is een belangrijke motivatie om meer TST technologie te gebruiken. Wat nodig is om dit te realiseren is het ontstaan van technologieontwikkelaars die de beschikbare technologie gemakkelijker toegankelijk maken voor applicatieontwikkelaars door het ter beschikking stellen van TST-expertise en het bouwen van tussenlagen tussen de basistechnologie en de toepassingen (zoals dialoogmodules en het (helpen) definiëren en implementeren van standaarden). Ook is er nood aan een centrale organisatie, een vertegenwoordiger van de sector, als aanspreekpunt en promotor voor deze technologie en zijn toepassingen. Ten slotte dienen de basistechnologieën verbeterd te worden, in het bijzonder de robuustheid tegen en/of het aanpassen aan verschillen in stijl en taalregisters (bv. dialecten zoals gesproken in tv-programma’s).
Discussieleider: Jan Verhasselt EWI-begeleider: Rita Hauchecorne Notulist: Wim De Smet Aanwezigen: - Industrie: Guido Beerten, Saskia Debergh, Luc Meertens, Sabrina Poelvoorde, Carl Van Himbeeck - Overheid: Kris Van Bruwaene - Onderzoeksinstellingen: Hans Paulussen, Dirk Van Compernolle, Eric Van Horenbeeck Inleiding: De discussieleider leidt de sessie in. Hij geeft aan dat het doel bestaat in het aanduiden van markten, waarbij de focus ligt op de "vroege en late meerderheid": producten die niet echt meer toekomstgericht zijn, en waarvan er al eerste versies beschikbaar zijn. Deze producten komen nu beschikbaar voor het grote publiek. Voor elke geïdentificeerde markt is het nodig de "attention" (zie het AIDA-model), de aantrekkingskracht voor elke doelgroep te beschrijven, en aan te geven wat de karakteristieken zijn die mensen zullen aantrekken. Welke aspecten vergen nog werk, welke bijkomende competenties zijn nog nodig en welke competenties die al aanwezig zijn moeten we verscherpen/in het spotlicht stellen? Hij stelt de werkwijze voor: - eerst stellen alle aanwezigen zich kort voor; - vervolgens bereiden ze zich individueel voor op basis van een dimensieschema (zie Figuur 12); - daarna volgt een plenaire discussie.
Na de individuele voorbereiding worden volgende zaken aangehaald tijdens de plenaire discussie.
Vlaamse overheid, Departement EWI
Figuur 12: opgave voor werkgroep 5
pagina 29 van 54
Alle deelnemers stellen de voor hen relevante markten voor met de belangrijkste aantrekkingsfactor. Daarbij vullen ze aan welke competenties nodig zijn om deze markten aan te spreken. 1. Een eerste (brede) markt is de overheid met al haar ministeries, steden en gemeentes. Als voornaamste attractiefactor worden de verhoogde (24/7) toegankelijkheid van informatie en archieven vernoemd, en de daaruit voortvloeiende kostenbesparing door het automatiseren van bepaalde “simpele” of eenduidige aanvragen. Ook kan de informatie van websites in meerdere talen aangeboden (en opgevraagd ?) worden. Misschien kunnen zelfs dankzij automatische “on the fly” vertaling bepaalde informatiebronnen dynamisch in meerdere talen aangeboden worden (bv. verslagen van de gemeenteraad) ? Belangrijke anderstalige minderheidsgroepen in steden en gemeentes kunnen op deze manier beter bereikt worden (bv. Turks in Gent). Er wordt gesuggereerd dat op deze manier een hogere graad van integratie en samenhang kan bereikt worden. Immigranten kunnen op deze manier wellicht sneller hun weg vinden in hun nieuwe woonplaats als ze de essentiële informatie (bv. huishoudelijke OCMW-reglementen en gemeentelijke reglementeringen) in hun eigen taal aangereikt krijgen en ook in hun taal vragen kunnen stellen (via computerondersteunde weg). Dit geldt tevens voor toeristen (weliswaar gaat het dan om andere informatie). Vooral voor de Brusselse regio kunnen dergelijke toepassingen nuttig zijn (internationale administraties, ambassadepersoneel, inwijkelingen, vluchtelingen, Vlamingen en Franstaligen). Een specifieke overheidsmarkt betreft toepassingen in de context van veiligheid. Bv. hoe kunnen inlichtingendiensten snel problematische sites of gevaarlijke groeperingen (frauduleuze sites of “verborgen” sites van terroristische groeperingen) enz. vinden en herkennen. Als te verwerven competentie wordt hier vooropgesteld: kennis over wie hierover kan aangesproken worden. Het is nodig contactpersonen te identificeren zowel aan de kant van de informatieaanbieders als aan de kant van potentiële informatieafnemers om het informatieaanbod te structuren (welke items zijn het “populairst”, hebben een goede verhouding moeite vs. tijdswinst enz.). Ook de beslissers dienen enige competenties te ontwikkelen over het potentieel van TST. Of omgekeerd dienen onderzoekers te leren om derden te overtuigen van de noodzaak of het nut van het gebruik van TST. Bv. de exponentiële groei van databronnen heeft een einde gemaakt aan manuele opzoekmethodes. in de rechtsspraak. Dankzij TST kan sneller en accurater in dossiers gezocht worden. D.m.v. associatietechnieken kan men bv. sneller precedenten en verbanden tussen dossiers vinden. Als technische competentie haalt men bv. de kennis aan die nodig is om vertaalengines te trainen op specifieke corpora, of meer algemeen gesteld, de kennis die nodig is om voor generieke taaltools op maat gesneden taalmodellen aan te maken en te trainen (zowel voor taal- als spraaksoftware). 2. De markt van de gezondheidssector kan ontdubbeld worden: naast het beheren, ontsluiten en verwerken van grote hoeveelheden administratieve en medische informatie zijn ook een aantal medische toepassingen mogelijk. In het eerste geval gaat het vooral over het elektronisch medisch patiëntendossier (en de ganse informatieflow daarrond) waarvan de informatie vanuit verschillende gezichtspunten snel beschikbaar moet zijn (per individuele patiënt, per ziekte, per behandeling enz.). Als voorbeeld van een medische toepassing wordt het diagnosticeren en opvolgen van patiënten met een gehoorbeschadiging aangehaald. Bepaalde technieken van signaalverwerking die in de spraaktechnologie gebruikt worden kunnen de spraakverstaanbaarheid bij patiënten verbeteren. TST kan ook het diagnoseproces ondersteunen, waarvoor momenteel toontesten gebruikt worden. De belangrijkste vereiste competentie is technisch, met name medische kennis gecombineerd met expertise in signaalverwerking om betere spraakverstaanbaarheidstesten te kunnen aanbieden op een geïndividualiseerde basis (automatisering van foneemtesten en foneemdiscriminatie). Verder wordt het definiëren van een standaard als noodzakelijk ervaren, evenals een nood aan publiek beschikbare medische corpora (de meeste data was tot nu toe confidentieel en/of in privéhanden). 3. Als nieuwe markt identificeert het panel het “real-time” ondertitelen van audio uit verschillende bronnen voor diverse toepassingen, waarbij de audio-kwaliteit een belangrijke factor is – in het bijzonder voor oude opnames. Transcriberen van opnames (zie bv. ook toepassingen rond
Vlaamse overheid, Departement EWI
pagina 30 van 54
veiligheid) is een andere toepassing van dezelfde technologie. Als vereiste competenties wordt hier spraakherkenning voor "colloquial" streekdialect vernoemd. Tegelijk vraagt men zich af of zoiets wel haalbaar is in functie van een kosten/batenanalyse (hoeveel training/trainingskost vergt dit ?). Op internationaal vlak is dit al "beschikbaar" (e.g. YouTube). Is dit ook mogelijk/wenselijk voor het Vlaams ? Verder wordt nog gesuggereerd om te onderzoeken voor multimediabestanden in combinatie met beeldherkenning bepaalde descriptieve annotaties kunnen gegenereerd worden. 4. Een brede markt die enige tijd geleden negatief in de belangstelling gekomen is vanwege lange wachttijden, is die van de call-centers. Niet alleen het al “gekende” beantwoorden van frequente vragen (ook in sectoren zoals telecom of energiebedrijven) maar ook het reserveren van tickets (bv. trein, luchtvaart). Automatisering m.b.v. TST (dialoogsystemen) kan voor een permanente dienstverlening (24/7) en een reductie van de wachttijden zorgen, waardoor klanten minder snel de neiging zullen hebben naar de concurrentie over te lopen. Het personeel kan dan ingeschakeld worden voor de moeilijk te automatiseren vragen. 5. Een cruciale competentie is een goede expertise in het opstellen van dialogen (“prompts”) en het definiëren van een (variabele) dialoogstructuur die rekening houdt met de zwaktes van spraakherkenning. De uitrol van modules in het (Zuid-)Nederlands is zeer gewenst, waarvoor de onderliggende technologie nog dient verfijnd te worden (bv. om de impact van dialecten en spreektaal op te vangen – zie hoger). 6. Het panel beschouwt mobiele apparaten als “prime time markt”, met name het verfijnen van de mogelijkheid om meer informatie over bepaalde zaken automatisch te verkrijgen (automatic datalinken, meta-data). TST is hier een achterliggende drijfkracht. Om het belang ervan te onderstrepen wijst men er op dat bv. gebruikers bij sommige websites al specifiek moeten aangeven dergelijk informatieaanbod niet te wensen. Als ontbrekende competitie aan de kant van applicatieontwikkelaars wordt (weeral) TSTexpertise vernoemd. De noodzakelijk geachte betrokkenheid van de technologieontwikkelaar bij het uitwerken van een toepassing verhoogt de drempel voor een applicatieontwikkelaar. De beschikbare materialen moeten dus “ontwikkelaarsvriendelijker” aangeboden worden (betere bruikbaarheid, betere aanpasbaarheid). 7. Gedeeltelijk naar analogie met de eerder vermelde overheidsmarkt ziet men ook mediabedrijven, omroepen, krantenuitgevers en allerlei spelers in de sociale media als een veelbelovende markt. Die organisaties genereren en verwerken heel veel data, maar een aanpassing in hun werkwijze is noodzakelijk voor hun klanten. Deze verlangen immers een betere personalisatie van de voor hen bestemde informatie. Vereiste competenties omvatten spraakherkenning, audio-mining, semantische verwerking, archivering, sentiment en opinion mining, en de kennis om al deze technologieën te combineren. Als bijkomende potentieel interessante markten worden nog vermeld: 1. Leren op afstand, bv. senioren die via internet nieuwe talen willen leren 2. Taalonderricht: onderwijs voor talen, grammatica, uitspraakcontrole, leuker maken van leren. 3. HR/R&D van grote bedrijven (het opvissen van “lost information”) Tot slot volgt nog de algemene bemerking dat er een verschil bestaat tussen eindgebruikers vs. tussenpersonen en tussen directe toepassingen (bv. dicteersystemen) vs. "onzichtbare" toepassingen (bv. Google dat meer taaltechnologie gebruikt). De paradox is dat het brede publiek meer verwacht van TST dan wat op een bepaald moment realistisch gezien haalbaar is, terwijl de echte voortgang minder gekend is en onderschat wordt. In vele gevallen is TST maar een deel van de technologische oplossing. Het succes van een toepassing hangt dus ook af van het samenspel tussen de verschillende componenten en het succes van TST hangt af van het succes van het geheel. Zal spraaktechnologie als een succesvolle technologie ervaren worden dankzij de integratie in de Apple iPhone4S of zal de iPhone meer succes kennen dankzij de integratie van spraaktechnologie ? Anderzijds betwijfelen sommigen of het grote publiek echt wel weet heeft van de functie van TST. Wie beseft er bv. dat het T9-algoritme in een gsm met TST te maken heeft ?20 20
Zie www.kennislink.nl/publicaties/26-letters-onder-9-toetsen
Vlaamse overheid, Departement EWI
pagina 31 van 54
In ieder geval heeft TST nood aan toepassingen met een positieve uitstraling – zeker in Vlaanderen waar het L&H-trauma na tien jaar nog altijd niet verteerd is en negatief op de technologie zelf blijft afstralen. Vanuit een breder perspectief is het wenselijk om meer te communiceren naar bedrijven en eindgebruikers om het nut, het belang en het potentieel van TST te duidelijk te maken (zeker voor “onzichtbare” toepassingen). Een centrale organisatie, vertegenwoordiging van de sector, voor de promotie van deze technologie is nodig.
Figuur 13: het resultaat van werkgroep 5 (in 2001)
Na het uitdelen van de resultaten van dezelfde oefening van tien jaar geleden (cf. Figuur 13) volgt een discussie om een algemene consensus te bereiken over welke nieuwe zaken toe te voegen en welke zaken die vroeger belangrijk waren en nog niet opgelost dan wel onbelangrijk geworden zijn. 1. Onder invloed van de massa-individualisering wordt “toerisme” toegevoegd als nieuwe markt. Veel meer dan vroeger kan een reiziger of bezoeker informatie op maat ontvangen, mede dankzij TST. Als gekoppelde competentie ziet het panel de noodzaak om bedrijven blijvend te sensibiliseren. De oprichting van een vertegenwoordigende organisatie of een TSTbelangenorganisatie dringt zich dus op. 2. Het panel is van mening dat de gamingindustrie waarschijnlijk (te) weinig interesse betoont voor Vlaams-Nederlandse TST-technologie (behalve waar het “serious gaming” betreft dat bv. in het onderwijs kan ingezet worden).
Vlaamse overheid, Departement EWI
pagina 32 van 54
6.6.
Sessie 6 Internationale trends en toekomstvisie
Synthese: Ondanks de bedenkingen die het gebruik van de zogenaamde “Gartner hypecyclus” kan oproepen, vormt dit de vertrekbasis om de discussie op gang te trekken. Zeker bij dit onderdeel van de discussie dient men ook met het Europese beleidsniveau rekening te houden. Een (altijd aanwezige) trend is het streven naar een betere kwaliteit in een kortere tijd in een breder toepassingsdomein met een hogere robuustheid (automatische vertaling, spraakherkenning) voor het Nederlands. Deze technologie zal in zeer veel gevallen onzichtbaar blijven, en gecombineerd worden met o.a. multimedia en artificiële intelligentie. Vanuit de filosofie dat veel TST-bouwstenen beschikbaar zijn zullen ook andere combinaties (vooral in het semantisch web) opgang maken. Nieuwe methodes om “open ended” toepassingen te trainen of te adapteren voor specifieke doelen zijn nodig. Dit kan gebeuren met beperktere corpora of door bestaande corpora beter te combineren. Een andere inhoudelijke trend is de evolutie van vormgebaseerde naar inhoudgebaseerde analyse (m.b.v. kennisassociatietechnieken).
Discussieleider: Peter Spyns EWI-begeleider: Hilde Vermeulen Notulist: Ineke Schuurman Aanwezigen: - Industrie: Guy Coene, Filip De Brabander, Anja Höthker, Rudy Tirry, Tom Vanallemeersch, Hans Van Mingroot - Onderzoeksinstellingen: Walter Daelemans, Piet Desmet, Sien Moens, Frank Van Eynde Inleiding: De discussieleider leidt de sessie in. Hij geeft aan dat in deze sessie een strategische blik voorwaarts belangrijk is, waarbij een onderscheid wenselijk is tussen technologieën en toepassingen die op korte, middenlange dan wel lange termijn zich in een opgaande dan wel neergaande cyclus bevinden. Dit komt ook wel in andere sessies aan bod, maar tijdens deze sessie kan een veel ruimer overzicht en meerdere mogelijke “toekomsten” aan bod komen.
Figuur 14: de Gartner hypecycle voor TST en aanverwante ICT
Vlaamse overheid, Departement EWI
pagina 33 van 54
Om de discussie een vertrekbasis en referentiekader te geven wordt vertrokken van Figuur 14 (een grafiek van Gartner), die ook tijdens een workshop van DG INSFO over TST getoond werd. De figuur toont de zogenaamde “hype cycle”. Opkomende ICT-technologieën worden gepositioneerd in een van de segmenten die een innoverende technologie (“emerging technology”) in principe doorloopt. De discussieleider verwijst als voorbeeld naar de jaren 1980 toen de EC zeer veel geld spendeerde aan machinevertaling waarbij de verwachtingen te snel te hoog gespannen waren (“piek van opgeblazen verwachtingen”). Of dichter bij huis, hoe taal- en spraaktechnologie van L&H in allerlei situaties zou toegepast worden – tot het voorlezen van recepten aan huisvrouwen bij het koken of het inspreken van gegevens door boeren tijdens het melken van koeien toe.21 Zo situeert Gartner spraaktechnologie al dichtbij de productiviteitsfase (nog een tweetal jaar te gaan) terwijl virtuele persoonlijke assistenten blijkbaar nu al een doodgeboren kind zijn (“death on arrival”). De virtuele werelden (zoals Second Live) bevinden zich nu in het dieptepunt (het dal der desillusie) en hebben vijf tot tien jaar nodig om daar uit te klimmen (als het zover komt). Vanzelfsprekend is dit de visie van Gartner en kan er op de methode om opkomende technologieën op de cyclus te situeren eveneens kritiek geleverd worden (wat trouwens vanuit een aantal hoeken al gebeurd is). Maar de figuur dient vooral om de deelnemers te laten nadenken over toekomstmogelijkheden voor TST (gesitueerd t.o.v. andere innovatieve ICT-toepassingen) en nadien opmerkingen te laten formuleren. De discussieleider vult nog aan dat tien jaar geleden geen equivalente sessie gehouden werd. Toen werd gevraagd om de gehanteerde werkmethode (organisatie in sessies enz.) te beoordelen. Gezien de antwoorden toen vooral positief waren vond hij het niet meer nodig deze beoordeling opnieuw te laten doen. In de algemene inleiding werd de slide met het commentaar van tien jaar geleden trouwens getoond (cf. Figuur 3). Hij stelt de werkwijze voor: - eerst stellen alle aanwezigen zich kort voor; - vervolgens bereiden ze zich individueel voor op basis van de Gartner ICT-hypecyclus (zie figuur); - daarna volgt een plenaire discussie. Na de individuele voorbereiding worden volgende zaken aangehaald tijdens de plenaire discussie. Een eerste opmerking betreft de hypecyclus zelf: in feite is deze cyclus ook maar een momentopname in een continue opeenvolging van gelijkvormige cycli waarbij technologieën verdwijnen, van plaats veranderen of erbij komen. In dit geval werd het productiviteitsplateau op augustus 2010 gedateerd. Bevindingen rond huidige stand van zaken Er is vraag naar een hogere kwaliteit van bestaande TST-applicaties (bv. machinevertaling), waarbij naar een soepele uitbreiding van domeinen / focus / doelpubliek gestreefd wordt (nu zijn vertaalsystemen vaak nog te beperkt in wat ze aankunnen).
21
Tevens zullen mobiele, real-time applicaties (echt real time, niet met een wachttijd van bv. enkele minuten) opgang maken. Vaak zijn die al wel beschikbaar voor het Engels, maar ze zouden ook voor het Nederlands beschikbaar moeten komen. Hopelijk kunnen deze dan ook in Vlaanderen gemaakt worden. Veel is in se lokaal realiseerbaar.
Steeds meer bestaande toepassingen (bv. voor vertalingen) worden in “the cloud” gezet, en op deze manier commercieel geëxploiteerd en voor iedereen bruikbaar gemaakt.
Een belangrijke opmerking is dat er veel applicaties zijn waar TST wel een grote rol speelt, maar niet de centrale rol. TST is een ingebedde, ondersteunende of mogelijkmakende technologie (“enabling technology”), wat op zich ook belangrijk is – bv. taalanalyse kan datamining verbeteren.
Een breed onderschreven verzuchting betreft een vlottere doorstroming van onderzoeksresultaten naar commerciële resultaten. In het beste geval wordt nu enkel een prototype gemaakt, waarvan het bedrijfsleven niet van het bestaan afweet (eventueel met
Voor wie er mocht aan twijfelen, dit zijn authentieke voorbeelden!
Vlaamse overheid, Departement EWI
pagina 34 van 54
uitzondering van leden van gebruikerscommissies of projectpartners). Een betere communicatie en informatiedoorstroming tussen de diverse partijen is nodig (naast het doorstromen van de resultaten zelf). Trends en wensen/verlangens Uit de discussie komen vijf centrale ideeën naar voor. 1. De trend gaat van vormgebaseerde analyse naar inhoudgebaseerde analyse. Bv. i.p.v. ‘Brussel’ louter als string te beschouwen en als dusdanig te gebruiken, kunnen associaties tussen “Brussel” en “de hoofdstad van de EU” gelegd en gebruikt worden. Dergelijke associaties (op basis van kennis van de wereld) moeten goed gerepresenteerd worden, wat nu vaak gebeurt vanuit het standpunt van het Engels. De associaties zijn taalonafhankelijk, maar niet noodzakelijk cultuuronafhankelijk. De trend veronderstelt dat het doenbaar is om teksten te disambigueren en te annoteren. Momenteel levert de technologie voor NER (named entity recognition) en STEx (space time event expressions) al goede resultaten op qua correctheid en robuustheid, maar het is nodig om veel meer categorieën te kunnen detecteren en annoteren. Sommigen betreuren dat in Vlaanderen TST en AI (artificiële intelligentie) uit elkaar gegroeid zijn, vooral daar veelbelovende toepassingen in de toekomst een combinatie van beide vereisen (bv. machine learning). 2. De combinatie van TST met multimedia wordt steeds belangrijker. DARPA in de US zet hier zwaar op in. Ook de EC (DG INSFO) probeert al jaren het onderzoek in de richting van deze combinatie sturen. Ook in beelden (niet enkel stilstaande) wil men inhoud herkennen. Een voorbeeld van fundamenteel onderzoek op dit domein betreft de vraag hoe (software-)robots zelf taal en talige begrippen aanleren via “machine learning” en beeldherkenning. Hoewel een breed toepasbare technologie op dat vlak nog niet voor morgen is vordert het onderzoek wel. 3. Veel technologische bouwstenen – al dan niet los – zijn nu beschikbaar maar dienen gecombineerd/geïntegreerd te worden. Hier liggen veel onderzoekstoepassingen. Op deze manier kunnen we nu idealen uit de jaren ’70 realiseren, o.a. teksten begrijpen (waarbij het niet enkel om taal gaat). In de komende vijf jaar verwacht men concrete aanzetten in die richting. Dit is ook hoe IBM het Watsonsysteem heeft opgebouwd: vele bestaande technologieën (niet zozeer “cutting edge” technologie) combineren. Vooral vanuit het bedrijfsleven worden het belang van standaarden en het volgen van die standaarden benadrukt. Vele van hun toepassingen zijn gebaseerd op standaarden. Mochten onderzoeksresultaten die standaarden ook volgen zou dit de integratie in bestaande toepassingen vergemakkelijken. Dit geldt zowel voor software-interfaces (APIs) als voor datastandaarden (bv. voor tagsets voor corpora). Als voorbeeld van hoe zaken slim kunnen gecombineerd worden om kennis te achterhalen, wordt het FRIS (Flanders Research Information Space) aangehaald. IBM heeft vorig jaar in een proefproject met EWI hierrond samengewerkt. Men zou er TST-gerelateerde technologieën kunnen mee integreren zoals web crawling, data mining, recommendersysteem enz.22 4. Hoewel het momenteel nog een uitdaging is wordt de verwerking van open tekst als een must gezien voor de toekomst. Bv. lokalisatie voor games (een nieuwe vorm van softwarelokalisatie), want daarin komt open tekst voor. Misschien zijn sommige games niet of slecht “vertaalbaar”. Dit kan ook gelden voor e-learning: bij spreekvaardigheidsoefeningen in dialoogvorm of schrijfondersteunende oefeningen wordt open tekst ingevoerd. In het algemeen vereisen e-learningtoepassingen adaptiviteit en maximale aanpassing aan de leerder. 5. Machinevertalingen zullen met velerlei uitdagingen geconfronteerd worden, zoals werken in andere domeinen dan de gebruikelijke, werken met vergelijkbare corpora i.p.v. parallelle corpora. Nu wordt vaak het Europarl-corpus gebruikt (omdat het heel uitgebreid is), maar dit corpus is niet bruikbaar voor alle domeinen zodat het interessant wordt om vergelijkbare corpora te gebruiken, als vervanging van parallelle corpora (die equivalent vertaalde zinnen 22
De discussieleider (medewerker van EWI) geeft aan dat wat voorgesteld wordt inderdaad al overwogen werd, maar nog niet in praktijk omgezet is. Het team verantwoordelijk voor het FRIS is van die mogelijkheden op de hoogte.
Vlaamse overheid, Departement EWI
pagina 35 van 54
bevatten die gealigneerd zijn). Hierbij kan een verbetering van de huidige aligneringstechnieken onderdeel van de oplossing vormen – bv. door gebruik te maken van parafrases. Gebruik van vergelijkbare corpora zou misschien een antwoord kunnen bieden op de nood aan steeds meer en omvangrijkere corpora die onderzoekers nodig hebben om hun systemen te trainen en te testen. In de bedrijfswereld zijn veelal slechts bescheiden corpora beschikbaar. Vandaar dat het in die context nuttig is om nieuwe algoritmes te onderzoeken om systemen te kunnen trainen en testen met kleinere corpora. Op het internationaal vlak zijn dergelijke algoritmes interessant voor zogenaamde “kleine”, “bedreigde” talen of talen die maar in beperkte mate geschreven en gedigitaliseerde bronnen kennen (zoals bv. in Afrika). Informatiedoorstroming (en hypes) De discussie mondt uiteindelijk uit in de (fundamentele) vraag hoe een correct en realistisch verwachtingspatroon omtrent TST te scheppen. Enerzijds helpt belangstelling om TST in de kijker te plaatsen, anderzijds is het een nadeel indien voor allerlei applicaties de eerste verwachtingen vaak zo opgeklopt worden door de media dat teleurstelling niet kan uitblijven. Zelfs indien snel gecorrigeerd leiden hypes al te vlug een eigen leven (bv. de intelligente en pratende koelkast die autonoom bestellingen kan plaatsen via het internet om zijn inhoud op peil te houden). Een bijkomend probleem is dat financierende instellingen soms wel eens meegaan in een hype (bv. de EC met Eurotra). In Vlaanderen bestaat er geen instantie die een objectieve en gefundeerde kijk op de zaak kan geven, en dit zowel aan de media en het grote publiek als aan bedrijven. Op die manier blijft de kennis over de potentialiteit van TST beperkt tot een beperkt kringetje van ingewijden, en blijven onderzoeksresultaten veelal beperkt tot een nog kleiner kringetje van onderzoekers. Als consensus geldt dat Vlaanderen kennis heeft, maar die moet vermarkt worden (cf. “Kennis-Kunde-Kassa”). De vraag rijst of (en zo ja, waarom) de informatiedoorstroming elders beter lukt. In ieder geval wordt op Europees vlak een soortgelijke problematiek ervaren, want DG INSFO heeft het META-project goedgekeurd (een “netwerk of excellence” dat o.a. een stappenplan wil opstellen) en LT Compass (een “support action” dat een business forum zal opstarten) – zie sectie Europese initiatieven. Als rationale hiervoor worden de fragmentatie en beperkte visibiliteit van het TST-veld als economische sector aangehaald. 23 Ook problemen met informatiedoorstroming en een betere afstemming onderzoeksinstellingen-industrie worden vermeld. Vlaanderen zal er dus belang bij hebben om op deze Europese initiatieven in te spelen. Als uitsmijter wordt nog vermeld dat IBM in Vlaanderen een incubatiecentrum wil bouwen.
23
Zie http://cordis.europa.eu/fp7/ict/language-technologies/business-platform_en.html
Vlaamse overheid, Departement EWI
pagina 36 van 54
6.7.
De voorstelling van de “nota Boves” met discussiemoment
inleiding Prof.dr.ir. Jean-Pierre Martens (UGent-ELIS-DSSP) presenteert de voorlopige nota “Masterplan TST” van de hand Prof. Dr. L. Bou Boves (Radboud Universiteit Nijmegen). Samen met Prof. Dr. Ir. Hugo Van hamme (KULeuven-ESAT-PSI), Prof.dr. A. van den Bosch (toen Universiteit Tilburg, nu Radboud Universiteit Nijmegen) maakte Prof. Martens deel uit van de klankbordgroep van dit rapport. Dit rapport werd opgemaakt in opdracht van de Nederlandse Taalunie.24 Vanuit het TST-bestuur was voorgesteld om het rapport mee te nemen in de discussies tijdens de STEVIN-roadmapworkshop. Gezien deze workshop in Vlaanderen ingericht werd, werd Prof. Martens gevraagd om de belangrijke punten in het rapport voor te stellen. Hijzelf leidt zijn presentatie in met de mededeling dat de nota, en dus ook zijn voorstelling ervan, de visie van een onderzoeker weerspiegelt. Deze visie werd (beperkt) aangevuld met het commentaar van een klankbordgroep (cf. hoger). Tussentijds werden hoofdlijnen gepresenteerd tijdens de STEVINdag 2010 in Tilburg25, maar het volledige verhaal wordt nu voor het eerst voorgesteld. Weliswaar met die verstande dat het geen volledige samenvatting betreft De presentatie - slide Doelstellingen Het grote idee van STEVIN was het ontwikkelen en vrij beschikbaar maken van enkele resources voor het Nederlands. Het nieuwe plan moet dus andere doelstellingen hebben, zoals - methodes ontwikkelen (en beschikbaar maken) voor de automatische verwerking van talige documenten - innovatieve toepassingen maken met dergelijke methodes Dit wordt benoemd met de term “Enterprise Language Processing” - slide Technologische motivatie Er bestaat een overweldigend aanbod van informatie Er wordt een kortere reactietijd gevraagd vanuit de bedrijfswereld. o Een handmatige verwerking is niet meer nodig o Het mislopen van vitale informatie kan grote economische schade aanrichten => nood aan intelligente zoekmachines die documenten "begrijpen" => nood aan presentatie van informatie op maat van de beoogde gebruiker De huidige zoekmachines worden overschat: - specifieke vragen zijn moeilijk te stellen - niet àlle info wordt aangeboden - relevantiescores zijn niet altijd toegespitst op doelstelling/informatienood van de gebruiker Vandaar de nood aan fundamentele verbeteringen. De huidige technologie kan een goede basis vormen en de nodige expertise is aanwezig in Vlaanderen en Nederland. - slide Politieke motivatie Socio-economisch: - Mochten bedrijven met een sterke etalagefunctie (omdat ze een groot publiek bereiken) TST meer in hun toepassingen gebruiken, zou dit kunnen resulteren in een grotere visibiliteit van de meerwaarde van TST; - Nichemarkten en -bedrijven kunnen op die manier gestimuleerd worden om beschikbare TST maximaal in een kleine markt te introduceren; - Technologieleveranciers hebben een pool nodig van jonge experts om aan te werven. Wetenschappelijk: - Voldoende kritische massa is noodzakelijk om op lange termijn te blijven meedraaien zodat continue financiering noodzakelijk is; - STEVIN heeft al het belang en nut van internationale samenwerking aangetoond; 24
De redactie van het rapport verliep niet van een leien dakje (wegens overmacht), wat een negatief effect had op de communicatie met de klankbordgroep. 25 Zie www.stevin-tst.org/stevin-dag_5
Vlaamse overheid, Departement EWI
pagina 37 van 54
Specifieke technologie moet laagdrempelig bereikbaar worden voor onderzoeksgroepen die zich niet specifiek op TST richten, maar die dankzij TST (als ondersteunende technologie) wel nieuwe problemen in hun domein zouden kunnen onderzoeken. Positie van het Nederlands: - Men moet er voor zorgen dat het Nederlands voldoende aandacht krijgt bij de ontwikkeling en introductie van nieuwe toepassingen zodat ook mensen die het Engels niet machtig zijn deze ook kunnen gebruiken. Als met redelijke middelen de achterstand t.o.v. Engels kan weggewerkt worden, moet men dat proberen; - Sommige zaken worden elders ook gedaan (cross-linguale en anderstalige projecten); - In andere landen zet men (geregeld) belangrijke initiatieven op om hun taal (of talen) “op peil” te houden (bv. Estland, Letland, Litouwen, Ierland, Frankrijk, Duitsland, Japan, Malta, Nederland, Scandinavische landen, Turkije, India).26 -
- slide Inhoud 3 pijlers worden voorgesteld: toepassingsgerichte projecten, strategische onderzoeksprojecten, en fundamenteel onderzoek - Voor toepassingsgerichte projecten wordt gedacht aan nieuwe toepassingen voor bestaande technologieën Qua thema’s moet het breed blijven, maar op termijn moet er wel een valorisatiepotentieel bestaan. De voorkeur gaat uit naar methodes die: - voortbouwen op beschikbare kennis - leren op basis van onmiddellijk toegankelijke data - robuust zijn: in nieuwe domeinen werken, en aanpasbaar zijn aan specifieke noden - slide Organisatie Een eigen programma ontwikkelen, zelf prioriteiten stellen zodat aanwezige expertise maximaal benut en verder ontwikkeld kan worden Aansluiting zoeken bij internationale (technologie-)initiatieven: bv. benchmarking activiteiten Contacten leggen met andere expertisegebieden: audio-visueel/multimedia, datamining, ... - slide Financiering Integratie van de drie eerder vermelde pijlers: - Netwerken opzetten (bv. CLIF als coördinator), aanspreekpunt voor bedrijven creëren: een Vlaams alternatief voor NOTaS opzetten. Dit verbetert ook de visibiliteit van TST; - De rol voor bedrijven wordt als tweeledig opgevat: bij een toepassingsgericht project kan een bedrijf beter het initiatief nemen, terwijl bij fundamenteel onderzoek bedrijven meer een feedback-rol opnemen - Een communicatieplan is nodig Er moet vermeden worden dat IPR het uitvoeren van goede projecten verhindert: onderzoek op confidentiële data van bedrijven moet mogelijk zijn, maar ook de valorisatie van projectresultaten moet mogelijk blijven. Nederlands-Vlaamse financiering opzetten met aan Vlaamse kant betrokkenheid van EWI, IWT, FWO, ... Van de Vlaamse overheid wordt minimaal 1 miljoen € per jaar aan financiering verwacht Reacties vanuit de zaal op de presentatie: Een goed punt is de nadruk van de betrokkenheid van bedrijven bij projecten (meer dan alleen bij toepassingsgerichte projecten). - Is het ook gewenst dat bedrijven de kar trekken bij fundamenteel onderzoek? - Bedrijven hebben typisch een beperkte rol bij fundamenteel onderzoek; - Bedrijven tonen vaak weinig interesse: sturen maar een paar keer per jaar iemand naar projectvergaderingen; - Dit hangt af van het project: sommige SBO’s vragen lidgeld van de leden van de gebruikerscommissie, waardoor de bedrijven dan effectief iets terug verwachten.
26
Cf. META-NET deliverable D11.3, pp. 44 – 71
Vlaamse overheid, Departement EWI
pagina 38 van 54
Het nut van een belangenorganisatie van TST-bedrijven in Vlaanderen is al een aantal keren aan bod gekomen vandaag. Is dit een zinvolle zaak ? - Bij veel bedrijven is TST maar een klein deel van de puzzel. Deze bedrijven zullen niet gemotiveerd zijn om aan te sluiten bij een belangenorganisatie. De situatie in Nederland is anders. Daar is dit over de jaren heen gegroeid, vanuit kleine bedrijven die zich gegroepeerd hebben. In Vlaanderen zal er geen goede representatie zijn vanuit de industrie omdat er niet echt een TST-industrie is. - Niemand kent niemand in de bedrijfswereld: er is geen aanspreekpunt, en geen visibiliteit. Dus zo’n organisatie kan daar al van nut zijn. Het kan ook als lobby-punt fungeren. - Een netwerkorganisatie is nodig. Immers, vanuit de bedrijfswereld bestaat er ook vraag/interesse, met name vanwege bedrijven die (een beetje) TST ontwikkelen of die TST integreren (cf. de carrosserie-motor analogie). Als elk bedrijf een van haar IT-ers die in het domein werkt zou afvaardigen, kan veel informatie en ervaringen uitgewisseld worden. Als er veel bedrijven aangesproken worden zal er iets groeien. Maar er moet aan gewerkt worden. - DSP-Valley is ook zo gegroeid, het is mogelijk om grote bedrijven met kleine bedrijven te laten samenwerken. - Een netwerk van TST-gebruikende en niet enkel louter ontwikkelende bedrijven klinkt wel goed. Er is nood aan onderzoek in de drie pijlers, maar integratie is nodig. Een belangenorganisatie is mogelijk, maar CLIF (en eventueel CLIN) kunnen ook dit doen. Hoe dan ook, er is nood aan ontsluiting van bestaande technologie. Hier moet volgens het rapport de nadruk op gelegd worden. Maar hoe en door wie zal deze ontsluiting en integratie georganiseerd worden ? - Zoiets wordt vaak vanuit bedrijven gevraagd. Expertisecentra zijn gekend, maar dit zijn centra die geen tijd/geld kunnen spenderen aan korte consultancy-opdrachten om technologie te implementeren voor specifieke vragen. In hogescholen is dat vaker wel mogelijk. De financieringsmechanismes zijn dus wel beschikbaar. Maar de mankracht vanuit de academische wereld is niet beschikbaar op korte termijn. Een onderzoeksgroepen dient dergelijke consultancy als een dienstverlening te beschouwen. - Het is dan nodig om (academische) onderzoekers beter te betalen om een vlucht naar de industrie tegen te houden. - Tevens is een betere infrastructuur vereist om dit soort studenten te kunnen interesseren. - Alles wat in STEVIN gemaakt is, wordt beschikbaar gesteld, maar wordt niet gebruikt omdat bedrijven dit niet kunnen implementeren (wegens een nood aan te specifieke kennis en expertise). Een TST-centrale zou hierin kunnen voorzien. - Binnen STEVIN werden geen toepassingen gemaakt, enkel demonstrators. - Een dergelijke opzet moet vraaggestuurd georganiseerd worden. Een zekere vorm van basisfinanciering is wellicht nodig om dit soort dienstverlening te verschaffen. - In de academische wereld wordt men wel afgerekend op publicaties. Er is geen tijd om te spenderen aan louter implementatie. Hoe gaat de software gebruikt worden? Als er geld wordt gespendeerd aan het ontwikkelen van software, moet er ook opvolging zijn. Anders, hoe kan je vermijden dat er met overheidsgeld software ontwikkeld wordt die nadien niet meer gebruikt gaat worden ? Een van de stellingen is dat we geen geld meer moeten spenderen aan de ontwikkeling van corpora omdat hoe dan ook op dit vlak niet meer geconcurreerd kan worden met wat er in de (grote) bedrijven al aanwezig is. Hoe kan output van tools dan nuttig verspreid worden, verder dan alleen maar onder medewetenschappers? - Er moet een overlap zijn met de ontwikkeling van software tussen onderzoeksgroepen en verdere ontwikkeling bij bedrijven. - STEVIN ontwikkelde halffabricaten, vooral om te verspreiden onder wetenschappers. De focus op verspreiding naar bedrijven wordt nu pas gelegd, niet vroeger. Als een netwerk bestaat waar ook ontwikkelende bedrijven in zitten, is het ook belangrijk dat bedrijven een keuze maken tussen projecten en producten. Bedrijven die projecten ondersteunen krijgen een deel van de output, het project ook. Voor producten zijn er ook zaken nodig zoals updates van het product: er is dus ook feedback nodig om te weten wat er aan updates nodig is.
Vlaamse overheid, Departement EWI
pagina 39 van 54
-
Samengevat dus: naast de universitaire wereld is er een tussencategorie nodig die diensten beschikbaar maakt voor andere bedrijven die productontwikkelaars zijn. Er is een bedrijf nodig dat het gewoon is om softwareprojecten bij de klanten zelf te begeleiden (wat dus niet hetzelfde als technologie ontwikkelen).
Documentatie is noodzakelijk om vanuit een bedrijf te weten wat er beschikbaar is. Een centraal opgezette organisatie kan dit beschikbaar stellen (zo worden doctoraatstudenten verlost van de last van om dit te doen). - Als een netwerk beschikbaar is zal er wel een vorm van communicatie ontstaan waarlangs beschikbare informatie gedeeld/onthuld wordt. Afsluitende noot: Vijf van de aanwezige bedrijven hebben al eens gehoord van de TST-Centrale. Diezelfde bedrijven hebben ook al eens de website van de TST-Centrale geraadpleegd om te zien welke materialen beschikbaar gesteld worden.
Vlaamse overheid, Departement EWI
pagina 40 van 54
6.8.
De plenaire afsluitende discussie
De notulist van elke sessie stelde kort de belangrijkste conclusies en aandachtspunten voor zijn/haar sessie voor. Telkens was er ruimte voor een tweetal vragen of bemerkingen vanuit het publiek. Daarna was er nog een algemene afsluitende discussie. Hieronder volgen de samenvattingen.
Sessie 1: Applicatiegebieden Heel veel toepassingen werden geïdentificeerd. T.o.v. 10 jaar geleden is er een veel grotere niche-markt waar nuttige toepassingen bestaan (vs. een paar grote toepassingen, zoals dicteertoepassingen e.d.). Vertaling komt in verschillende toepassingen voor (real-time, spraak naar spraak, ...) Het onderwijsdomein wordt als belangrijk beschouwd: uitspraakcorrectie, schrijfondersteuning In verschillende applicaties is er de vraag om spraaktechnologie robuuster te maken (t.o.v. ruis, dialecten, groter scala aan stijl van documenten) Telepresence (next generation teleconferencing) wordt gezien als een toepassing van de (nabije) toekomst (vereist een hoge performantie en lage responstijd).
Sessie 2: Technologiekloven Er is een verschil tussen een half- en eindfabricaat, evenals een verschil tussen een onderzoeker en een intermediair. Deze laatste neemt het op zich om een vertaalslag te maken van de technologie. Dergelijke intermediair ontbreekt voor het TST-domein. Er is ook een probleem om onderzoekers aan te trekken gezien de betere verloning bij de industrie. Veel technologie is beschikbaar, maar niet gekend (bij het bedrijfsleven) en/of in een ongeschikte vorm. Er is dus nood aan een intermediaire organisatie die zowel voor bekendmaking als voor de technologievertaalslag zorgt. Ook dienen afnemers van de technologie hierbij betrokken te worden. Maar one-size-fits-all is niet werkbaar (maatwerk is nodig) Een ander probleem is de continuïteit van medewerkers in bedrijven – waardoor contactpersonen plots verdwijnen zonder dat andere partijen weten wie ze voortaan kunnen aanspreken bij dat bedrijf. Een intermediaire organisatie zou kunnen aansluiten bij een centrum rond multimedia, maar er zal zeker een aparte focus op taal- en spraak moeten liggen want meestal drukken “de media-aspecten” de talige aspecten weg. Sessie 3: Sociale en maatschappelijke relevantie Inclusie (van ouderen) en integratie zijn zeer belangrijke thema’s. Het gaat om het toegankelijk(er) maken van technologie, dingen eenvoudiger maken. Dit is sterk afhankelijk van doelgroepen: oudere generaties hebben liever één toepassing, terwijl de jongere generatie zelf informatie kan aggregeren. Specifieke vormen van toegankelijkheid (bv. van bepaalde informatiestromen) kan beter, bv. TST kan helpen om arbeidsstromen beter in kaart te brengen en vraag en aanbod op elkaar af te stemmen (niet enkel jobbeschrijvingen wat nu al gebeurt maar ook competenties). Educatie: dit is een mondiale en meertalige “omgeving” geworden zodat machinevertaling nuttig is, maar ook dingen zoals culturele afhankelijkheid dienen aan bod te komen. Mensen gaan nu anders om met informatie: b.v. i.p.v. een handleiding te lezen wordt naar snel naar Google gegrepen. Wat opnieuw een rol voorziet voor vertaaltechnologie. Veiligheid is een belangrijk aspect. Het betreft o.a. documenten screenen, ook in andere talen. In een lokale context gaat het om ondersteuning van mensen bij noodsituaties. TST moet inspelen op en zich aanpassen aan het veranderende (lossere) taalgebruik (o.i.v. email, sms en Twitter). Als lastige kloven werden het mogelijks stigmatiserend neveneffect van het gebruik van technologie en het gebrek aan kennis van het technologieaanbod vermeld. Sessie 4: Niche naar markt Volgende nichemarkten werden geïdentificeerd: Automatic content extraction: profilering
Vlaamse overheid, Departement EWI
pagina 41 van 54
E-learning, e-health, ambient assisted living: dergelijke zaken bestaan maar zijn nog niet doorgebroken Automatisch vulgariseren en samenvatten van teksten zodat ze begrepen worden door personen met cognitieve beperkingen Live ondertiteling Stemkarakterisatie - manipulatie Content management system
Sessie 5: Markten en competenties Markten en doelgroepen verschillen maar in beperkte mate t.o.v. de situatie van 10 jaar geleden. Er zijn nu wel vooral méér niches (zie ook sessie 1). Als factoren voor aantrekkelijkheid ziet men: (i) de mogelijkheid tot kostenbesparing en (ii) ondersteuning van inclusie/integratie/verhoging van toegankelijkheid (zie ook sessie 3) Als nodige competenties wordt vermeld: o Het toegankelijk maken van technologie en het transformeren van algoritmen naar tools o Het opzetten van een TST-belangenorganisatie, bv. voor sensibiliseringswerk en het creëren van een netwerk om vragen, antwoorden en oplossingen te verspreiden naar de juiste doelgroep o Instroom van onderzoekers verhogen die later ook vanuit het bedrijfsleven een verdere contributie blijven leveren aan het veld. Sessie 6: Internationale trends en toekomstvisie Een hogere kwaliteit van TST-applicaties is vereist evenals real-time applicaties Multimodale toepassingen zijn al beschikbaar in US, maar nog niet bij ons (tele-presence) Voor inhoudgerelateerde applicaties zal het niet zozeer de taal zijn die primeert, maar wel de inhoud (het begrijpen van teksten). De bouwstenen zijn er, maar moeten nog samengebracht worden (in de komende 5 jaar kan de aanzet voor die integratie geleverd worden). De kloof tussen academische wereld en het bedrijfsleven blijft ! Bedrijven zoeken vaak toepassingen voor domeinen waarvoor geen corpora beschikbaar zijn. Verder blijft het wederzijds gemis aan begrip bestaan: wat is nodig voor bedrijven, wat is beschikbaar vanuit universiteiten? In de nabije toekomst is een link tussen beide nodig. Afsluitende discussie De vraag naar een intermediaire organisatie of mediator dook regelmatig onder de een of andere vorm op, vooral om een brugfunctie te vervullen qua kennisdoorstroming tussen de onderzoekswereld en het bedrijfsleven die blijkbaar nog altijd twee sterk gescheiden werelden zijn in het TST-domein. Een programma zoals STEVIN en IWT-SBOs, zoals AMASS++, Aladin, SPACE en AMICA die in principe strategisch onderzoek (ook voor bedrijven) steunen27, volstaan blijkbaar niet. De vergadering constateerde de wenselijkheid om een dergelijke intermediaire organisatie op de een of andere manier in het leven te roepen. Idealiter zou een beperkte groep van “trekkers” hierbij het voortouw kunnen nemen, waarbij op het elan van deze vergadering kan worden voortgegaan. De vergadering werd besloten met de oproep dat vrijwilligers die voorlopige versies van dit rapport willen nalezen zich kunnen melden. Eenmaal de definitieve versie van het rapport beschikbaar kunnen eventueel meer concrete stappen ondernomen worden.
27
PARIS is een pas toegekende IWT-SBO (combinatie van TST en webtechnologie)
Vlaamse overheid, Departement EWI
pagina 42 van 54
Hoofdstuk 7 Breder beleidskader 7.1.
Beleidsinstrumenten
Figuur 15 is een weergave van het gelaagd innovatiesysteem voor TST (cf. Figuur 1), zoals voorgesteld in de M&I Partnerstudie die STEVIN voorafging (cf. sectie Studies in de aanloop naar STEVIN). Op die achtergrond werden de voornaamste Vlaamse beleidsinstrumenten uitgezet, de STEVIN-projecttypes aangevuld met Taalunie en CLARIN-activiteiten. De grijze velden behoren tot het STEVIN-programma en kunnen dus als afgelopen beschouwd worden. Bemerk dat STEVIN zich vooral op “laag 1” (aanmaak basistaalvoorzieningen) en “laag 2” toegespitst heeft (strategisch onderzoek, niet op fundamenteel onderzoek) met bijkomende accenten op vraagstimulering en IPRbeleid. TST-inbedding gebeurde in mindere mate (enkel in de 3de ronde STEVIN-O&O-projecten). Equivalenten in het Vlaamse beleidsinstrumentarium (rode velden) zijn IWT SBO-projecten (strategisch basisonderzoek), IWT Tetra-projecten (technologiediffusie), IBBT ICON-projecten, al dan niet in combinatie met IWT O&O-projecten (vraaggestuurd onderzoek). Deze komen ongeveer overeen met de inbeddingslaag. Basisvoorzieningen kunnen als een vorm van infrastructuur beschouwd worden en dergelijke projectvoorstellen behoren tot het terrein van de Herculesstichting. Een recent instrument is het “innovatief aanbesteden” (IWT) dat zich duidelijk situeert aan de vraagstimuleringszijde. Het FWO staat in voor het fundamenteel onderzoek en mobiliteitsbeurzen (deze laatste komen ruwweg overeen met STEVIN-netwerksubsidies). De Taalunie- (TST-Centrale, M&S) en CLARIN-activiteiten worden verder besproken. Het grote verschil met STEVIN is dat de Vlaamse instrumenten onafhankelijk van elkaar opereren, terwijl in het STEVIN-programma bv. het hergebruik van STEVIN-basisvoorzieningen in een inbeddingsproject als evaluatiecriterium kon worden opgenomen. Om een gelijkaardig effect te bewerkstelligen zouden de beheerders van het instrument rekening kunnen houden met de inbreng van een “overspannende” inhoudelijk beslagen commissie. Hier komt het grote verschil tussen de Vlaamse “bottom-up”-benadering en de Nederlandse/Europese programmatorische aanpak dus duidelijk tot uiting. Een ander verschil is dat het geen gezamenlijk Vlaams-Nederlandse instrumenten zijn (zie verder).
Figuur 15: het gelaagd TST-innovatiesysteem [bewerking van M&I/Partners p.61]
Vlaamse overheid, Departement EWI
pagina 43 van 54
Tot slot bestaan er ook nog enkele Vlaamse instrumenten die momenteel onderbenut worden waar het STEVIN betreft: het Vlaams InnovatieNetwerk (met afstemming van specifieke verzoeken om vraag en aanbod), de collectieve centra en competentiepolen (gezamenlijk onderzoek en kennisdiffusie), en de Vlaamse provinciale innovatiecentra en IWT-innovatieadviseurs (advies en voorlichting). Directe Vlaamse equivalenten met links naar het onderwijssysteem (STEVINeducaprojecten) en standaardisatie (CLARIN) zijn onbestaande. Figuur 16 toont het plaatje in een supra-Vlaams kader. Specifiek binnen het Nederlandse taalgebied opereert de Nederlandse Taalunie. Deze financiert de TST-Centrale (die taalmaterialen, o.a. die van STEVIN, onderhoudt en verdeelt) en voert de “makel en schakel”-functie28 uit. Het lijkt dus zinloos om een parallel Vlaams circuit apart op te zetten, maar veeleer kunnen door samenwerking en afstemming betere resulaten bereikt worden (bv. de Taalunie is niet vertrouwd met de Vlaamse technologiedisseminatiemogelijkheden van het IWT en IBBT). Hetzelfde geldt mutatis mutandis voor bepaalde activiteiten binnen CLARIN (bv. virtual language observatory), META-net (LT World aka META-Share – een FP7 “network of excellence”) en LT Compass29 (een FP7 “supporting activity”). Deze benadering past in de systeembenadering van innovatie, waar de strategische intelligentie gedistribueerd zit over de verschillende actoren in het systeem, en deze dus met elkaar dienen samen te werken.
Figuur 16: TST in een Europees kader
Vanuit het Europese niveau zijn de reguliere FP-instrumenten (DG INFSO (FP), DG Research (ESFRI) en DG Enterprise (CIP) te vermelden. Enkel ESFRI heeft een concrete impact op het Vlaams (en Nederlandse) TST-landschap onder de vorm van de CLARIN-ERIC. Binnen de CLARIN-ERIC wordt aan “wetenschappelijke valorisatie” gedaan (TST aanwenden ten behoeve van niet in TST onderlegde wetenschappers uit de humane en sociale wetenschappen). Disseminatie en training zijn onderdeel van de lokale CLARIN-activiteiten. Hoewel vanuit DG INFSO een specifiek excellentienetwerk (META-net) en ondersteunende actie (met name LT Compass) gefinancierd worden, blijven dit activiteiten van bepaalde duur, daar waar de CLARIN-ERIC dankzij nationale gelden in principe een duurzame inplanting kent. Vlaanderen neemt onrechtstreeks deel aan de CLARIN-ERIC via de Taalunie.30
28
Dit is het in kaart brengen en met elkaar contact brengen van (nieuwe) TST-spelers in het veld. Cf. http://www.ltcompass.eu/ 30 Het Vlaamse TST-veld heeft een nieuw voorstel ingediend voor de 2de Vlaamse ESFRI-ronde. 29
Vlaamse overheid, Departement EWI
pagina 44 van 54
Een andere vorm van samenwerking die meer op valorisatie gericht is, zijn het ERA-net EraSME (dat enigszins met de STEVIN-demonstratieprojecten kan vergeleken worden) en het EU art. 185 (oud art. 167) initiatief AAL (Ambient Assisted Living). Binnen deze kaders is het misschien mogelijk om, samen met Nederland, opnieuw een TST-oproep gezamenlijk te organiseren en te financieren (weliswaar via een virtual common pot daar waar STEVIN een echte common pot hanteerde). Afstemming over de instrumenten en landen heen kan verlopen via het nu bestaande TST-bestuur dat na de afloop van STEVIN opnieuw als uitwisselingsplatform (TST-platform) zal functioneren (daar waar het nu vooral optreedt als bestuur van het STEVIN-programma). De huidige Vlaams-Nederlandse “TST-driehoek” krijgt dus een bredere Europese dimensie. 7.2.
Vlaams beleidskader
Momenteel maken twee belangrijke beleidsinitiatieven de dienst uit binnen het beleidsdomein Economie, Wetenschap en Innovatie. Enerzijds het meer economisch gerichte “Vlaanderen in Actie” met een daaraan verbonden “Witboek voor een Nieuw Industrieel Beleid”, anderzijds het meer op innovatie gerichte “Innovatiecentrum Vlaanderen”. Vanuit de Europese Commissie en de VRWI wordt tevens het idee van “Smart Specialisation” gepromoot. Vlaanderen neemt deel aan een OESOonderzoek rond slimme specialisatie. In het kort is de gemeenschappelijke boodschap dat Vlaanderen over onvoldoende financiering beschikt om alle onderzoeks- en innovatieactiviteiten te kunnen financieren, zeker in tijden van budgettaire krapte. Keuzes dringen zich dus op. Vlaanderen moet ondersteunen waar het sterk in is om die sterke posities te behouden. Tevens moet het aandacht blijven hebben voor nieuwe ontluikende en mogelijks interessante technologieën. Het kan daarbij “aanleunen” bij landen of regio’s die bv. een sterkere positie innemen in een domein qua onderzoek maar waar Vlaanderen sterk staat qua benutting of omgekeerd (slimme specialisatie). Nieuwe combinaties en kruisbevruchtingen over domeinen heen zijn nodig waarbij industrie en onderzoekers beter moeten samenwerken en een vraaggedreven stappenplan uitwerken (m.b.v. de zogenaamde “innovatieknooppunten”). Een innovatieregiegroep (van het Innovatiecentrum Vlaanderen) is, in essentie, een groepering van belanghebbenden rond een bepaalde technologie (dus eerder aanbodgericht), terwijl een innovatieknooppunt (van het Witboek voor een Nieuw Industrieel Beleid) in essentie eerder belanghebbenden uit verschillende sectoren bijeenbrengt (dus eerder vraaggericht). Hoewel beide platformen onvermijdelijk een aantal organisaties gemeenschappelijk zullen hebben, zullen ze onvermijdelijk een eigen dynamiek krijgen waarbij wederzijdse afstemming cruciaal zal blijken. Uiteindelijk dienen deze initiatieven (en de financiering ervan) bij te dragen tot de realisatie van de “fabriek van de toekomst”. Hoewel TST een meer bescheiden economische impact heeft dan pakweg de chemische sector, kan het toch de moeite waard lonen om, met bescheiden middelen, de filosofie en aanpak van zowel het Nieuw Industrieel Beleid als het Innovatiecentrum Vlaanderen en slimme specialisatie toe te passen op het TST-domein. Dit net omwille van het feit dat er verschillende initiatieven op diverse terreinen en door diverse actoren geïnitieerd werden. Door deze beter op elkaar af te stemmen is het mogelijk om naar de doelstellingen van de bredere beleidskaders toe te werken en zo een beleidsmatige versnippering tegen te gaan zonder dat daar veel nieuwe geoormerkte middelen tegenover hoeven te staan. Binnen EWI kan TST kan een “niche case” worden voor het Nieuw Industrieel Beleid. Eerste contacten hierrond zijn gelegd. 7.3.
Recente initiatieven en opportuniteiten
Onlangs werd een voorstel omtrent “Spraak- en Taaltechnologisch ondertitelen voor het Nederlands” (STON) goedgekeurd in het kader van het innovatief aanbesteden vanuit het beleidsdomein EWI. Dit voorstel heeft niet enkel technologische maar ook maatschappelijke merites en vindt zijn oorsprong in een STEVIN-demonstratieproject (NeON – Nederlandstalige Ondertiteling). Een eerste stap in deze procedure is het organiseren van een innovatieplatform met belanghebbenden, en zou dus een aanzet tot een innovatieknooppunt kunnen worden. Dit platform biedt een mooie kans aan het TST-veld om zich wat beter te organiseren en contacten te leggen met
Vlaamse overheid, Departement EWI
pagina 45 van 54
spelers uit een aanpalend domein31, voornamelijk media. Deze bedrijven kunnen een beter zicht krijgen op wat TST hen te bieden heeft. Idealiter komt een innovatieknooppunt tot stand, of misschien wel een cluster van TST-gerelateerde organisaties. Met Nuance International Communications heeft Vlaanderen een afdeling in huis van de belangrijkste internationale “lead company” op het vlak van TST. De Nederlandse Taalunie probeert Nederlandse en Vlaamse overheidsactoren samen te brengen om een betere afstemming te bereiken rond het digitaliseren en ontsluiten van cultureel en wetenschappelijk erfgoed. TST kan zeker een onderdeel vormen van deze plannen gezien het erfgoed voor een belangrijk deel uit talige bronnen bestaat en via taal beter kan ontsloten worden (ook al via de meta-data). De inspanningen rond CLARIN kunnen hier gedeeltelijk bij aansluiten. Aan Nederlandse kant is er de topsector “creatieve industrie”32 waarmee aansluiting kan gezocht worden. Ook in Vlaanderen wordt de creatieve industrie als een belangrijke sector beschouwd. Ontsluiting en hergebruik van erfgoedbronnen kan een belangrijke opportuniteit betekenen binnen (een deel van) de creatieve industrie. Dit is een pril initiatief dat nog alle kanten op kan. Een mogelijk scenario voor het wetenschapsveld zou er kunnen in bestaan een e-depot op te richten. Naar analogie met het Nederlandse DANS (Data Archives and Networked Services) zou dit een centrale instelling kunnen zijn (bv. als onderdeel van de Waalse Krook) dan wel een virtuele organisatie bestaande uit universiteitsbibliotheken en –archieven die ook als digitaal depot voor onderzoeksresultaten en –data voor hun universiteit fungeren. De Taalunie financiert en organiseert de TST-Centrale (die vele TST-materialen onderhoudt en verdeelt) en de makel-en schakelfunctie (M&S). Tevens bestaan er plannen bij de Taalunie om meer strategische intelligentie over het Nederlandstalige TST-veld op structurele wijze te verwerven en sneller evoluties te herkennen. De Taalunie faciliteert ook het TST-bestuur/TST-platform. Dit groepeert vertegenwoordigers van Vlaamse en Nederlandse overheidsorganisaties zodat regelmatig informatie kan uitgewisseld worden. Een taak voor het TST-platform kan er in bestaan om een nieuw TST-beleid op langere termijn uit te tekenen, waarbij Vlaanderen en Nederland de krachten kunnen bundelen dan wel de complementariteit nastreven. Momenteel loopt een OESO-onderzoek rond “slimme specialisatie”. Uit een voorlopige deelconclusie blijkt dat Vlaanderen meer dan bovengemiddeld gespecialiseerd is in o.a. medische informatica of medische informatieverwerking (niet enkel ICT om patiënten te ondersteunen, maar ook dokters en het zorgproces in het algemeen). Vele van de tijdens deze rondetafel aangehaalde TST-toepassingen zijn denkbaar/toepasbaar in het kader van medische informatica (bv. informatiebeheer, mensmachine-interactie, multimodaliteit). Rond dit thema kan dus een koppeling gerealiseerd worden tussen een innovatieregiegroep en een innovatieknooppunt. Noteer tevens dat het IBBT over een “Future e-health” departement beschikt waarbij dit alles kan aansluiten. Vorig jaar werd het Microsoft Innovatiecentrum opgericht dat zich toelegt op e-health en digitale toepassingen voor de zorgsector, waaronder cyberbeveiliging (in Kortrijk) en gaming (in Genk). Dit alles kadert in Flanders’ Care dat de innovatie in de zorgsector wil stimuleren. Op het Europese niveau willen zowel CLARIN, META-net als LT-Compass o.a. een TST-roadmap opstellen en sensibiliserende activiteiten opzetten vanuit de invalshoek van sociale en humane wetenschappen resp. industrie en vertaalkunde resp. KMO’s. Door informatie aan deze initiatieven door te spelen over de Vlaamse situatie kunnen we wellicht proactief nieuwe EU-initiatieven in de toekomst beter laten inspelen op de Vlaamse situatie, en voordeel halen uit hun acties en analyses.
31
De ICT-bedrijvenenquête (www.agoria.be/ictenquete/#agoria) die Agoria onlangs heeft opgezet (met een specifieke vraag over spraaktechnologie en tekst mining en information access) kan interessante bevindingen opleveren in dit kader. 32 In juni van dit jaar stelt NWO een eerste oproep open in het kader van Creatieve Industrie voor thema's als (Serious) Gaming, Media & ICT, Business Innovation en Cultural Heritage.
Vlaamse overheid, Departement EWI
pagina 46 van 54
Hoofdstuk 8 Algemene conclusies en verwachtingen De meeste deelnemers beschouwen de rondetafel als een goed initiatief. Het gebeurt immers zelden – toch in de TST-sector – dat de overheid de sector bijeenroept en een belangrijk aantal spelers de kans biedt om met de overheid in dialoog te treden, waarbij zowel vertegenwoordigers van de universiteiten als van de privésector samen hun standpunten naar voor kunnen brengen. Dat blijft best geen eenmalige gebeurtenis, waarbij het gecreëerde momentum wordt bestendiging vraagt. De verspreiding van de finale versie van dit rapport en eventuele opvolgingsactie zou een volgende aanleiding kunnen betekenen om de sector nog eens bij elkaar te roepen. Maar tegelijkertijd legt dit al een interne zwakte van de sector bloot, met name dat de sector als sector eigenlijk nauwelijks bestaat. Een sector zet zichzelf meestal op de kaart als er een organisatie de belangen van de sector waarneemt, verdedigt en uitdraagt. Vandaar dat de eerste, en belangrijkste conclusie is dat een traject nodig is dat leidt tot de creatie van een structuur die de sector verenigt en verdedigt. Een dergelijke structuur kan een beperkte dan wel uitgebreider takenpakket op zich nemen, wat natuurlijk ook een meer beperkte dan wel uitgebreide vorm van financiële ondersteuning veronderstelt: Minimaal staat deze structuur in voor informatieverspreiding en standpuntvoorbereiding, waarbij het beleggen van rondetafels of discussiemomenten wellicht een noodzakelijke activiteit is; Meer ten gronde wordt op regelmatige basis de stand van zaken in het TST-veld bijgehouden. Deze taak kan in overleg door meerdere organisaties worden uitgevoerd. Op basis van de resultaten van deze monitoring kunnen onderzoeks- of technologieplannen opgesteld worden die eventueel als leidraad geldt bij overheidsondersteuning; Een meer uitgebreid takenpakket zou er kunnen in bestaan dat ook een vertaalslag gemaakt wordt van onderzoekshalffabricaten naar gemakkelijk te integreren modules, waarbij ook ingezet wordt op typische technologietransfertactiviteiten. De vraagt stelt zich vervolgens of een nieuwe structuur nodig is dan wel of deze structuur kan ingepast worden bij een bestaande organisatie of structuur. De verwachting is dat in de toekomst meer en meer combinaties tussen TST en multimedia zullen ontstaan, waardoor een inbedding bij het IBBT logisch lijkt. Toch wordt gevreesd dat de “beelden” de taal en spraak zullen wegdrukken zodat de eigenheid van TST voldoende moet benadrukt worden. In ieder geval zal een goede mix van types van belanghebbenden nodig zijn. Omdat de wereld rondom niet stil staat zijn de deelnemers aan de rondetafel van mening dat de positie van het Nederlands permanent aandacht blijft verdienen. Nieuwe ICT-producten en –diensten worden altijd eerst vanuit een Engelstalig perspectief aangeboden, waarbij het Nederlands pas op het tweede of derde plan komt. Gezien het groeiend aantal mogelijke toepassingen van TST wordt het ook meer er meer belangrijk dat al deze toepassingen ook door Nederlandstalige gebruikers kunnen worden aangewend. De tweede conclusie luidt dus dat de bestendiging van de positie van het Nederlands in het snel evoluerende ICT-landschap een permanente zorg blijft en nog altijd ondersteuning vergt. Anderzijds heeft TST stilletjes aan een omslagpunt bereikt waardoor TST kan worden aangewend bij andere overheidsinitiatieven die het belang van de Nederlandse taal en cultuur hoog houden, zoals o.a. bv. het zoeken in en ontsluiten van gedigitaliseerd (talig) erfgoed, het ondersteunen van leerprocessen m.b.v. “serious gaming” of het stimuleren van permanente vorming via “blended learning”. Vlaanderen staat niet alleen met een aantal van de in dit rapport opgesomde vaststellingen en aandachtspunten. Ook in andere (kleinere) landen of regio’s in Europa spelen soortgelijke bekommernissen, tot zelfs op het Europese niveau. Vooral de initiatieven die zullen leiden tot toekomstvisies, technologiestappenplannen en “sectorvorming” dienen van nabij gevolgd te worden. Vlaams-Nederlandse samenwerking lijkt hierbij voor de hand liggend, maar is in de praktijk toch niet zo gemakkelijk te realiseren. Inspelen op deze Europese initiatieven zodat deze ook rechtstreeks de Vlaamse TST-sector ten goede komen geldt dus als derde conclusie. In tegenstelling tot de “STEVIN-periode” staat TST als technologie niet meer centraal, en kan TST nauwelijks nog aanspraak maken op een eigen ondersteunings- of stimuleringsprogramma. TST dient zich dus in te passen in andere initiatieven (bv. Flanders’ Care, Creatieve industrieën) en zich in te
Vlaamse overheid, Departement EWI
pagina 47 van 54
schrijven in de doelstellingen van die andere initiatieven (en hun uiteindelijke gebruikers). Dit zal automatisch leiden tot een meer vraaggestuurde invulling van de onderzoeksagenda en het zoeken naar nieuwe en innovatieve invalshoeken waar TST meerwaarde kan bieden binnen het grotere geheel. Toepassingen van TST binnen de audiovisuele media (en multimedia in het algemeen) liggen voor de hand, evenals gepersonaliseerde toepassingen in de gezondheids- of welzijnssector. De vierde conclusie is dan ook dat de sector moet inzetten op het zoeken naar en het vinden van aansluiting bij bredere initiatieven op basis van de potentiële verdiensten van TST. Dit gebeurt best in samenhang met de eerder vermelde conclusie. Een volgende conclusie dringt zich dan op: een nieuw onderzoeksprogramma na STEVIN moet sowieso andere criteria hanteren die beter sporen met ontwikkelingen of trends in het bedrijfsleven of de maatschappij. Los van het zoeken naar synergiën met andere initiatieven, programma’s enz. zou eventueel toch nog een apart O&O-programma kunnen opgezet worden al dan niet in een internationaal kader. Het idee is dan om een geïntegreerde demonstrator te implementeren waarbij een aantal deeldomeinen technologische modules aanleveren. NWO heeft enkele jaren geleden een soortgelijk onderzoeksprogramma opgestart ter waarde van 2 miljoen euro (met een vereiste van 50% eigen inbreng van de deelnemende onderzoeksgroepen). Als criteria voor eender welk vervolgonderzoek kwamen uit de verschillende deelsessies volgende punten naar voor: de gebruiker staat centraal: een vraaggedreven onderzoeksagenda (geen sturing vanuit het aanbod), waarbij verschillende gebruikersgroepen en dus ook specifieke gebruikersnoden dienen (h)erkend te worden; snelheid: “echte” real-time of ”nearly zero latency time”: de toepassing reageert ogenblikkelijk op de gebruiker; robuustheid: een zinvolle verwerking van onvoorziene invoer of open tekst (dialectgebruik, sms-taal, nieuwe Engelstalige (leen)woorden, …); aanpasbaarheid: een gemakkelijke porteerbaarheid naar andere domeinen waarbij de kennisbasis ofwel voldoende generiek is of voldoende snel en zonder al te veel moeite kan aangepast worden aan de nieuwe situatie – eventueel gebruik makend van gelijksoortige kennis; variatie: een vlotte behandeling van verschillende soorten taalgebruik (binnen eenzelfde standaardtaal) of types (afhankelijk van het gebruikte medium); modulariteit: duidelijk afgelijnde TST-modules zorgen voor een betere combineerbaarheid en inwisselbaarheid (a.h.w. “plug and play”) van functionaliteiten. Verschillende inhoudelijke thema’s passen onder een gemeenschappelijke noemer van “virtuele vergaderruimte”, o.a. multimodaliteit (m.i.v. “tele-presence”), informatie-extractie, dialoogsytemen, dicteertoepassingen, sprekerherkenning, audiomining, en eventueel spraak-naar-spraakvertaling, in een multimediale omgeving. Een afgeleide kan “het virtuele leslokaal” worden, waardoor ook een component e-learning in velerlei vormen kan geïntegreerd worden. Los hiervan werden ook nog het semantisch web en het elektronisch medisch patiëntendossier als belangrijke onderzoeks- en toepassingsgebieden aangehaald (zodat een virtueel dokterskabinet ook als thema zou kunnen gelden). Vooral de overheid (in alle breedte) wordt als markt gezien waarbij een betere dienstverlening, toegankelijkheid van informatie en kostenbesparing als voornaamste voordelen worden bestempeld. Als bijkomende overweging werd nog meegegeven dat niet langer het realiseren van gegevenscollecties op zich een prioriteit is, maar wel het implementeren van hulpmiddelen (in een geïntegreerd proces) zodat derden zelf gegevenscollecties (of toepassingen) op eigen maat kunnen maken. Evenwel moet gewaakt worden over de perceptievorming: te hoge (maatschappelijke) verwachtingen zijn te vermijden (cf. L&H in het bedrijfsleven en Eurotra in de onderzoekswereld), terwijl ook pejoratieve of stigmatiserende beeldvorming rond individuele toepassingen dient vermeden te worden (bv. ondersteunende technologie voor mindervaliden). Nu bepaalde TST-toepassingen (cf. (auto)navigatietoepassingen, vertaalsites op het net, enz.) stilletjes aan ingeburgerd geraken, lijkt zich een kentering te kunnen inzetten.
Vlaamse overheid, Departement EWI
pagina 48 van 54
Hoofdstuk 9 Annexen 9.1.
Lijst der deelnemers
In totaal namen 38 personen deel, waarvan 4 van het dept. EWI, 3 post-docs als notulisten, 12 senior universitaire onderzoekers, 16 uit/voor het bedrijfsleven en 3 uit overheidsorganisaties.
Beerten Coene Cremelie Daelemans De Brabander De Geijter De Smet Debergh Demuynck Desmet Geldof Goossens Hauchecorne Hermans Hoethker Hoste Luyckx Martens Meertens Moens Paulussen Poelvoorde Rutten Schuurman Spyns Tirry Van Bruwaene Van Compernolle Van Eynde Van Himbeeck Van Horenbeeck Van Mingroot Van Sas Vanallemeersch Verhasselt Verhelst Vermeulen Wambacq
Guido Guy Jo Walter Filip Filip Wim Saskia Kris Piet Sabine Karel Rita Paul Anja Veronique Kim Jean‐Pierre Luc Sien Hans Sabrina Peter Ineke Peter Rudy Kris Dirk Frank Carl Eric Hans Jos Tom Jan Werner Hilde Patrick
Vocalcom NV AKTOR Jabbla Universiteit Antwerpen – CLIPS Natlanco Actonomy K.U.Leuven – LIIR iKnow ‐ InterSystems Universiteit Gent K.U.Leuven – ITEC Namahn Dept. Economie, Wetenschap en Innovatie Dept. Economie, Wetenschap en Innovatie ProXML Toyota Motor Europe Hogeschool Gent Universiteit Antwerpen – CliPS Universiteit Gent – ELIS Crosslang K.U.Leuven – LIIR K.U.Leuven – Kortrijk Mentoring Systems BVBA Innovatiecentrum Oost‐Vlaanderen K.U.Leuven – CCL Dept. Economie, Wetenschap en Innovatie Lionbridge VRT K.U.Leuven – ESAT K.U.Leuven – CCL Cochlear Technology Centre Belgium Universteit Antwerpen IBM Alcatel‐Lucent Systran / K.U.Leuven VBTS Vrije Universiteit Brussel – ETRO Dept. Economie, Wetenschap en Innovatie K.U.Leuven – ESAT
S1 S1 S3 S2 S3 S3 N2 S2 S3 S1 S3 E1 E3 S2 S1 S2 N1 S2 S3 S2 S2 S1 D3 N3 D2 S1 S1 S3 S2 S3 S2 S2 S1 S1 D2 S2 E2 S1
S5 S6 S4 S6 S6 S5 N5 S5 S4 S6 S4 E4 E5 X S6 S4 N4 S4 X S6 S5 S5 D4 N6 D6 S6 S5 S5 S6 S5 S5 S6 X S6 D5 S4 E6 S4
Een vijftal genodigden lieten weten die dag niet te kunnen deelnemen maar gaven aan geïnteresseerd te zijn in de resultaten.
Vlaamse overheid, Departement EWI
pagina 49 van 54
9.2.
Resultaten uit de sessies
Figuur 17: het resultaat van werkgroep 1 (in 2011)
Figuur 18: het resultaat van werkgroep 2 (in 2011)
Vlaamse overheid, Departement EWI
pagina 50 van 54
Figuur 19: het resultaat voor werkgroep 3 (in 2011) [vraag 1]
Vlaamse overheid, Departement EWI
pagina 51 van 54
Figuur 20: het resultaat voor werkgroep 3 (in 2011) [vraag 2]
Vlaamse overheid, Departement EWI
pagina 52 van 54
Figuur 21: het resultaat voor werkgroep 3 (in 2011) [vergelijking met 2001]
Figuur 22: het resultaat voor werkgroep 4 (in 2011)
Vlaamse overheid, Departement EWI
pagina 53 van 54
Figuur 23: het resultaat voor werkgroep 5 (in 2011)
Figuur 24: het resultaat voor werkgroep 6 (in 2011)
Vlaamse overheid, Departement EWI
pagina 54 van 54