CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
CLARIN-NL: Nulmeting en behoeftenonderzoek
Ton van der Wouden, in samenspraak met Jan Odijk, Arjan van Hessen en Heiko Tjalsma (DANS), januari 2010 versie januari_25
Inleiding Dit document beschrijft een voorstel voor een onderzoek onder de doelgroep van CLARIN-NL. Het beoogde onderzoek valt in twee delen uiteen, een “behoeftenonderzoek” en een “nulmeting”. Enerzijds (nulmeting) dient het onderzoek (meer) inzicht te bieden in de huidige stand van die onderzoeks-infrastructuur, opdat aan het einde van de projectperiode zinvolle uitspraken gedaan kunnen worden over het succes van het CLARIN-programma. Anderzijds (behoeftenonderzoek) heeft het onderzoek ten doel een (beter) beeld op te leveren van de behoeften van de onderzoeksgemeenschap met betrekking tot de digitale onderzoeksinfrastructuur voor de humaniora en de sociale wetenschappen, in het bijzonder voor onderzoekers die met grote hoeveelheden talig materiaal (willen) werken. Dit laatste met het oog op optimale besteding van de CLARIN-gelden. Een bijkomend voordeel van dit onderzoek is dat CLARIN-NL (nogmaals, beter) onder de aandacht van de doelgroep wordt gebracht. In het vervolg beschrijven we eerst het kader van CLARIN. Vervolgens bespreken we details van de nulmeting (inventarisatie van bestaan en gebruik van tools en resources) en daarna van het behoeftenonderzoek (wat heeft de onderzoeksgemeenschap nú nodig). We sluiten af met een algemene passage over rapportage en planning & begroting.
Kader: CLARIN-EU en CLARIN-NL Het wetenschappelijk onderzoek in de humaniora staat in Nederland op een hoog niveau. Dat blijkt uit nationale en internationale beoordelingen, rankings en evaluaties, en dat komt tot uitdrukking in kwantiteit en kwaliteit van wetenschappelijke publicaties, maar zeker ook in het bestaan van een uitgebreide onderzoeksinfrastructuur. Zo is er in de afgelopen jaren in het kader van programma’s als IMIX, STEVIN, DOBES, en TDS veel geld en personeel geïnvesteerd in het verzamelen en digitaliseren van gegevens (corpora, databases, ...) (in het vervolg: “resources”) en in het ontwikkelen van programmatuur en andere instrumenten om die data optimaal te ontsluiten, te visualiseren en dergelijke (in het vervolg: “tools”).
1
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
Het succes van al deze vroege investeringen heeft ook een keerzijde, namelijk een gebrek aan interoperabiliteit, veroorzaakt door een gebrek aan compatibiliteit. In het algemeen zijn de data gedigitaliseerd naar eigen inzichten, en de tools zijn doorgaans ontwikkeld met de eigen data in gedachten. Het gevolg daarvan is dat veel tools alleen bij de data passen waarvoor ze bedoeld zijn, en andersom. Met andere woorden: de tools van onderzoeksgroep X passen zomaar niet bij de data van onderzoeksgroep Y – als het bestaan ervan daar al bekend is – en omgekeerd kunnen de data van onderzoeksgroep X niet zonder meer bewerkt worden met de tools van groep Y. CLARIN staat voor Common Language Resources and technology Infrastructure. CLARIN-EU is een grootschalig Europees samenwerkingsprogramma dat erop gericht is talige hulpbronnen en technologie te creëren, op elkaar af te stemmen en beschikbaar en onmiddellijk bruikbaar te maken. 1 CLARIN beoogt wetenschappers uit de humaniora en de sociale wetenschappen hulpmiddelen en instrumenten te bieden die nodig zijn voor computerondersteunde taalverwerking, ongeacht welke van de vele mogelijke rollen de taal binnen het onderzoek speelt. CLARIN-EU is een voorbereidingsproject, met als voornaamste doelstelling de verschillende nationale overheden ertoe te bewegen te participeren bij de totstandkoming en uitbating van de CLARIN-infrastructuur, maar het biedt slechts beperkte financiële mogelijkheden voor het tot stand brengen daarvan. Nederland heeft al besloten tot participatie in CLARIN en daarvoor middelen vrijgemaakt (voor het CLARIN-NL project). Nederland zal participeren in alle drie de fases van het project: specificatie en ontwerp, implementatie, en exploitatie. Het Nederlandse CLARIN-NL beoogt binnen de Europa-brede infrastructuur van CLARIN een centrale rol te spelen. Dat betekent twee dingen: in de eerste plaats het ontwerpen, ontwikkelen en onderhouden van een onderzoeks-infrastructuur, nodig voor duurzame en permanente eScience 2 in de geesteswetenschappen, in het bijzonder voor onderzoekers die met grote hoeveelheden
1
“what [is] needed [is] not another portal to compete for space on our desktops with those of our faculty, institution, national community, academic discip[l]ines, etc. What we need is to present our resources and tools as standards-conformant services so that they can be integrated into the researcher's environment.” (CLARIN Newsletter 2, July 2008, p. 7).
2
“The term e-Science (or eScience) is used to describe computationally intensive science that is carried out in highly distributed network environments, or science that uses immense data sets that require grid computing; the term sometimes includes technologies that enable distributed collaboration, such as the Access Grid. The term was created by John Taylor, the Director General of the United Kingdom's Office of Science and Technology in 1999 and was used to describe a large funding initiative starting in November 2000. Examples of the kind of science include social simulations, particle physics, earth sciences and bioinformatics.” (http://en.wikipedia.org/wiki/E-Science, 12/10/2009). “E-Science is about global collaboration in key areas of science, and the next generation of infrastructure that will enable it” (John Taylor).
2
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
tekstuele of talige data werken. 3 En in de tweede plaats het voortouw nemen bij allerlei ontwikkelingen die niet alleen voor CLARIN-NL, maar ook voor CLARIN-EU interessant kunnen zijn. Door in een vroeg stadium het initiatief te nemen, kan de invloed van de Nederlandse CLARIN-community beduidend zijn. Dat is des te meer zo, omdat CLARIN-NL een aanzienlijk budget heeft om de gestelde doelen te bereiken. Het primaire zwaartepunt van de inspanningen van CLARIN ligt in het toegankelijk(er) maken en het (beter) op elkaar laten aansluiten van bestaande tools en resources, bij voorkeur via een web-gebaseerde infrastructuur, alsmede het stimuleren en faciliteren van de interoperabiliteit van de tools en resources. Archivering en curatie van data is daar een wezenlijk onderdeel van de onderzoeksgemeenschap is niet gebaat bij data die liggen te verstoffen of die onbruikbaar worden omdat hun formaat in onbruik raakt. 4 Een belangrijke taak voor CLARIN-NL ligt daarmee in het definiëren van standaarden voor data en metadata, en in het stimuleren en faciliteren van de conversie van tools en resources naar CLARIN-formaten ter verhoging van de interoperabiliteit. Het ontwikkelen van tools en resources behoort in het algemeen niet tot de doelen van CLARIN, tenzij het gaat om ontbrekende “essential tools and resources”. Wel valt er nog een wereld te winnen in het evangeliseren binnen de humanoria. Op dit moment zijn CLARIN en alles waar het voor staat waarschijnlijk nog te veel alleen bekend bij de direct betrokkenen. Juist die groepen die in hun onderzoek traditioneel niet of nauwelijks met de computer werken (anders dan email, Powerpoint, Internet en tekstverwerking) zouden bekend gemaakt moeten worden met CLARIN. Dat zou kunnen gebeuren aan de hand van werkende showcases (zoals het Virtual Language Observatory 5, de interactieve dialectkaart van het Meertens Instituut 6, de Radio Oranje-demo van CHoral 7 en Het geheugen van Nederland 8), maar daarnaast ook met behulp van onderzoeksscenario’s die nu nog vastlopen op compatibiliteits- en infrastructuurproblemen (zie bijlage). Doel van dit evangeliseringswerk is dat de jonge bekeerlingen ook hun onderzoeksvragen aan kunnen pakken met behulp van de CLARIN-infrasructuur en te komen tot
3
CLARIN zou men kunnen zien als de tegenhanger van de “Virtual Laboratory for e-Science” (http://www.vl-e.nl/frame_home.htm), waar e-science wordt opgevat als “(digitally) enhanced science”.
4
Merk op dat gebruiksformaten niet automatisch ook de beste archiveringsformaten zijn.
5
http://www.clarin.eu/vlw
6
http://www.meertens.knaw.nl/soundbites/kaart.html
7
http://hmi.ewi.utwente.nl/showcase/Radio%20Oranje%20demo
8
http://www.geheugenvannederland.nl
3
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
nieuwe onderzoeksvragen die gedefinieerd en aangepakt kunnen worden dankzij de CLARINinfrastructuur. 9
De nulmeting Het voornaamste doel van de nulmeting is een ijkpunt te creëren voor de evaluatie van het succes van de CLARIN-inspanningen. In het licht van dat doel moeten de resultaten zo “hard” mogelijk zijn, bij voorkeur kwantitatief in termen van kengetallen zoals het aantal, de omvang en het gebruik van de bestaande tools en resources.
Aanpak Hoewel het in de rede ligt dat er een bestaande inventarisatie zou zijn van de tools en resources op het terrein dat CLARIN bestrijkt, blijkt dat in de praktijk tegen te vallen, en kunnen we voor de nulmeting niet volledig terugvallen op eerder onderzoek. Gelukkig zijn er wel initiatieven geweest die als uitgangspunt kunnen dienen, zoals het onderzoek van Daelemans et al. naar basisvoorzieningen voor Taal- en Spraaktechnologie en een BLARK (BAsic LAnguage Resource Kit) voor het Nederlands. 10 Bovendien kan er samengewerkt worden met DANS, dat enige tijd geleden begonnen was met een dergelijke inventarisatie (zie http://www.clarin.eu/view_resources). Deze inventarisatie door DANS is echter minder snel voltooid dan ooit de bedoeling was. Uit genoemd vooronderzoek, gecombineerd met een eerste oriëntatie, komt naar voren dat binnen de taal- en spraaktechnologie een aantal “grote spelers” te onderscheiden is, die voldoen aan de volgende criteria: •
beschikken over veel tools en resources
•
stellen die tools en resources (of in elk geval hun catalogi) in toenemende mate beschikbaar via het web
9
CLARIN heeft uiteindelijk wellicht ook een roeping in het onderwijs: “Als het onderwijs niet verandert, zal de affiniteit met ICT in de humanities blijven achterlopen.” (Dirk Roorda, die de gedachte op zijn website toeschrijft aan Fotis Jannidis). 10
Walter Daelemans en Helmer Strik (red.): Het Nederlands in taal- en spraaktechnologie: prioriteiten voor basisvoorzieningen. Rapport in opdracht van de Nederlandse Taalunie, 01/07/2002 o.a. via http://lands.let.ru.nl/~strik/publications/). Samengevat in: W. Daelemans, D. Binnenpoorte, F. de Vriend, J. Sturm, H. Strik & C. Cucchiarini: Establishing priorities in the developement of HLT resources: the DutchFlemish experience. In: W. Daelemans, T. du Plessis, C. Snyman & L. Teck (eds.), 'Multilingualism and Electronic Language Management'. Proceedings of the 4th International MIDP Colloquium, 22-23 September 2003, Bloemfontein, South Africa (Studies in Language Policy in South Africa 4). Pretoria: Van Schaik Publishers, pp. 9-23.
4
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
•
proberen (vaak) gebruikscijfers bij te houden.
Het gaat dan onder meer om het Meertens Instituut (Amsterdam), het Max Planck Institut (Nijmegen), de TST-Centrale (Leiden) enz. Op internationaal niveau valt te denken aan organisaties als ELDA (Evaluations and Language resources Distribution Agency 11) en LDC (Linguistic Data Consortium 12). Andere tools en resources zullen moeilijker te vinden zijn, omdat ze ontwikkeld zijn binnen vakgroepen en instituten en om eerder genoemde redenen (incompatibiliteit, ad hoc, ...) niet “uitgevent” en dus “verborgen” zijn. 13 Buiten de eigenlijke taal- en teksttechnologie zijn DANS en Dariah (Digital Research Infrastucture for the Arts and Humanities 14) goede startpunten. In concreto omvat de nulmeting idealiter de volgende stappen: •
up-to-date maken en aanvullen van de bestaande inventarisaties (m.n. Daelemans, DANS), in de eerste plaats via de catalogi van genoemde en andere grote spelers, en vervolgens ook via gesprekken met de beheerders van de tools en resources aldaar, en ten slotte (als het gaat om de “kleinere spelers”) via andere kanalen, bijvoorbeeld via gesprekken met onderzoekers. Daarbij dient ook aandacht besteed te worden aan de vraag hoe de rechten en licenties geregeld zijn.
•
proberen gebruikscijfers los te krijgen bij de bezitters van de tools en resources: hoe vaak wordt wat gebruikt door wie? Het is mogelijk dat deze cijfers niet zomaar beschikbaar zijn, maar misschien wel te reconstrueren zijn via jaarverslagen, eindverslagen van projecten die die tools hebben gemaakt enz.
•
proberen gebruikscijfers los te krijgen bij onderzoekers: hoe vaak gebruiken onderzoekers c.q. onderzoeksgroepen welke resources, en tot wat voor resultaten leidt dat? Als onderzoekers zelf niet over deze cijfers beschikken, dan zijn ze misschien te destilleren uit eindverslagen van projecten en jaarverslagen van afdelingen en instituten.
11
http://www.elda.org/
12
http://www.ldc.upenn.edu/
13
De moeilijkheid van een nulmeting is een extra bewijs voor het nut van CLARIN!
14
http://www.dariah.eu/ “DARIAH's mission is to facilitate long-term access to, and use of all European arts and humanities data for the purposes of research. DARIAH is the digital research infrastructure that will connect scholarly data archives and repositories with cultural heritage for the arts and humanities across Europe, making scattered resources accessible through one click. DARIAH aims to create one European data area in which scholars and students can easily survey the available information in their field -- data which is dependable in terms of both quality and durability. Research which builds on this data will expand the knowledge and understanding of our heritage, histories, languages and cultures.”
5
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
•
nagaan in hoeverre tools en resources, dan wel catalogi daarvan, bekend zijn bij de onderzoekers. Als onderzoekers wel van het bestaan van tools en resources weten, maar ze niet gebruiken, wat zijn de obstakels die het gebruik van resources in de weg staan?
Het zal duidelijk zijn dat naar volledigheid gestreefd wordt, maar dat die hoogstwaarschijnlijk niet bereikt zal kunnen worden. Zo zal het wel niet haalbaar zijn om in dit kader een volledig overzicht te maken van al het gebruik van alle bestaande resources, maar dankzij de samenwerking met DANS zal er toch aardig wat bereikt kunnen worden. De gesprekken met de onderzoekers over gebruik zijn goed te combineren met, en een mooie ingang tot, het behoeftenonderzoek: de eigen ervaringen van de onderzoeker met bekende tools en resources zijn een mooie opstap voor het in kaart brengen van zijn of haar lacunes en behoeften. De doelstellingen van het DANS-onderzoek zijn niet helemaal gelijk aan die van het CLARINonderzoek, maar het gaat voor een belangrijk deel wel om dezelfde mensen in de onderzoeksgemeenschap. Om irritatie en non-respondentie verkomen is het zaak zowel de vragen als de planning goed af te stemmen: zo mogelijk interviews combineren, en als dat niet mogelijk is omdat de informanten al door DANS geïnterviewd zijn, niet dezelfde vragen stellen en niet te snel na het DANS-interview weer contact opnemen.
Tijdpad Het ligt voor de hand om het grootste deel van de nulmeting vooraf te laten gaan aan het behoeftenonderzoek. In de eerste plaats is het namelijk zaak dat de nulmeting zo vroeg mogelijk in het CLARIN-traject zijn beslag krijgt – anders is het immers geen nulmeting – en in de tweede plaats kan de nulmeting als welkome bijkomstigheid hebben dat de uitvoerder van het behoeftenonderzoek een zo goed mogelijk beeld krijgt van het bestaan en het gebruik van de bestaande tools en resources. Voorstel: nulmeting voltooien 1 juni 2010.
Het behoeftenonderzoek Doel en doelgroep Het doel van de behoeftenmeting is het in kaart brengen van de wensen en noden van de onderzoeksgemeenschap met betrekking tot de digitale onderzoeks-infrastructuur voor de humaniora en de sociale wetenschappen, in het bijzonder voor onderzoekers die met grote hoeveelheden talig materiaal (willen) werken. Dit opdat de CLARIN-gelden optimaal besteed kunnen worden, om in lijn met het doel van CLARIN, talige hulpbronnen en technologie te creëren, op elkaar af te stemmen en beschikbaar en onmiddellijk bruikbaar te maken. Bijkomend argument voor een behoeftenonderzoek nu: de Nederlandse faculteiten letteren en geesteswetenschappen worden op dit moment geconfronteerd met sterke bezuinigingen en koersveranderingen, die tot onbedoeld gevolg kunnen hebben dat, mét instituten, opleidingen, of individuele onderzoekers, ook belangrijke en soms unieke data verloren zouden kunnen gaan – tenzij er speciale inspanningen geleverd worden, bijvoorbeeld in het kader van CLARIN. 6
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
De doelgroep van CLARIN bestaat uit onderzoekers in de geesteswetenschappen en de sociale wetenschappen, en dan met name onderzoekers die met grote hoeveelheden materiaal (tekst of spraak, maar ook video of beeld) (willen) werken en die voor hun onderzoek gebruik willen maken van talige resources en van tools om die resources optimaal te benutten. Hoewel sommige onderzoekers beide rollen zullen vervullen, is het toch zinvol om onderscheid te maken tussen aanbieders en gebruikers. Aanbieders Grosso modo zijn de aanbieders van tools en resources technisch onderlegd, in elk geval waar het gaat om de technische details van het eigen product. Ze zijn overtuigd van de kwaliteit van hun product, ook voor andere gebruikers. Uit het onderhavige onderzoek zal moeten blijken in hoeverre deze groep doordrongen is van de noodzaak tot compatibiliteit, interoperabiliteit en gebruiksgemak, en in hoeverre ze beschikt over de technische know-how om de noodzakelijke conversies zelf te verrichten. De aanbieders zijn grofweg weer in twee groepen te verdelen. Als we de taal- en spraaktechnologie even als voorbeeld nemen, dan zien we daarin enerzijds “grote spelers” zoals Max Plack-Instituut, Meertens Instituut, INL, en de afdelingen alfa-informatica van de RUG en corpustaalkunde van de RUN. Dezen hebben veel data en resources, maar ook de technische know-how om adequaat te zorgen voor curatie en archivering; conversie van data en/of resources kan zonodig binnenshuis gebeuren. Anderzijds zijn er de kleinere teams (niet zelden bestaand uit slechts één onderzoeker) die weliswaar beschikken over interessante en vaak unieke data en resources (denk bijvoorbeeld aan veldwerkmateriaal van uitheemse, mogelijk inmiddels uitgestorven talen). Deze kleinere teams beschikken in het algemeen niet over de nodige know-how, infrastructuur of ondersteuning voor curatie, archivering en conversie voor gebruik door anderen. In het ergste geval raken deze data en tools verloren als de onderzoeker ermee ophoudt. Gebruikers Gebruikers hebben een onderzoeksprobleem dat ze opgelost willen zien. Ze hebben de hoop dat er resources of tools zijn die hun onderzoek kunnen vergemakkelijken of verbeteren. Uit het hier voorgestelde onderzoek zal moeten blijken of ze weten bij wie ze daarvoor moeten aankloppen; als ze dat wel weten, weten ze dan ook (precies) hoe die hulpmiddelen werken? Kunnen ze beschikken over de technische know-how om de hulpmiddelen aan te passen aan hun eigen data (of andersom), en zo niet, wat zijn de mogelijkheden om die know-how te verwerven? Daarnaast valt te verwachten dat er een groep gebruikers is die helemaal niet op de hoogte zijn van de mogelijkheden, en voor wie het gebruik van resources en tools nog een onbekend en mogelijk tamelijk angstaanjagend terrein is. Het onderzoek zal moeten uitwijzen hoe groot deze groep ongeveer is, hoe die mogelijkerwijze bereikt kan worden, en hoe hun eventuele
7
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
technologieangsten c.q. onwetendheid het best bestreden kunnen worden. 15 Uit het onderzoek zal moeten blijken of er behoefte is aan verbetering van interfaces, enerzijds, en ondersteuning, anderzijds, dat laatste bijvoorbeeld in de vorm van tutorials en hands-on-workshops. 16
Methode Een van de standaardmanieren om de behoeften van gebruikers te meten is de enquête. In dit geval lijkt deze methode echter minder geschikt. Uit ervaringen bij een enigszins vergelijkbaar project (STEVIN) blijkt dat bij deze specifieke populatie van wetenschappers de respons op enquêtes buitengewoon laag is, en dat de vragen noodzakelijkerwijs te weinig specifiek zijn om (voor het onderhavige doel) bruikbare antwoorden en resultaten op te leveren. Dit is te meer zo, omdat veel gebruikers niet weten wat er aan tools en resources bestaat en omdat ze niet weten wat er mogelijk aan conversiehulpmiddelen ontwikkeld zou kunnen worden (zie hierboven). 17 In plaats daarvan stellen we voor, het zwaartepunt van het onderzoek te leggen bij een serie een-op-een- of een-op-weinig-gesprekken met geselecteerde onderzoekers. De gesprekken zullen de vorm krijgen van semi-gestructureerde interviews: de interviewer weet welke vragen hij aan de orde wil laten komen (zie de questionnaire hieronder), maar hij hoeft die niet aan de geïnterviewden te laten zien. Niet alle vragen zijn immers relevant voor alle groepen onderzoekers. Het is eerst en vooral zaak de geïnterviewde zelf de ruimte te bieden om zijn eigen verhaal te vertellen, en zijn eigen behoeften te formuleren. De interviewer is dusdanig
15
Vergelijk ook de vorige voetnoot.
16
De TST-centrale is indertijd voor het Corpus Gesproken Nederlands de boer op geweest met tutorials en hands-on-workshops. Weet iemand hoe dat gevallen c.q. geëvalueerd is? In elk geval is het een aandachtspunt voor gesprek bij TST. 17
Dit probleem is niet uniek voor Nederland. Begin januari 2010 vroeg een John Levin op de Humanist list: In the course of my MA in Digital Humanities at CCH @ Kings, I'm spending too much time trying to find suitable software for my work. I'm thinking of advanced applications, e.g. for textual analysis and map making, than more general tasks like text editing. Further, it's also finding reliable, supported software. Evaluating apps takes time, and testing software only to discard it as inadequate wastes it. Google hasn't been useful in this respect. There doesn't seem to be a (web-based) catalogue of software suitable for digital humanities, oftewel “How do you find the software you use for your digital humanities projects?”. Hij kreeg geen kant-en-klaar antwoord, maar wel een lijst met bruikbare websites, zoals http://echo.gmu.edu/toolcenter-wiki/index.php?title=Main_Page, http://digitalresearchtools.pbwiki.com/, http://heuristscholar.org/heurist/?w=all&q=tag:tools+tag:software, http://digitalresearchtools.pbworks.com/ en http://digitalresearchtools.pbworks.com/Text-AnalysisTools.
8
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
ingevoerd in de materie dat hij de geïnterviewde(n) kan helpen bij het bedenken van mogelijke behoeften, en wellicht ook bijpassende (bestaande of te ontwikkelen) oplossingen. Het lijkt ons verstandig om de gesprekken bewust in drie ronden te organiseren om aldus het interactieve karakter (geven en nemen) te optimaliseren: •
in de eerste ronde mensen die al weten wat de infrastructuur precies inhoudt: van hen kan de interviewer ideeën krijgen die hij later in gesprekken kan gebruiken;
•
in de tweede ronde mensen die tools en resources ontwikkeld hebben: van hen kun je ideeën krijgen wat er allemaal is etc;
•
in de derde ronde mensen die nog niet (zo erg) op de hoogte zijn van de mogelijkheden van de moderne technologie.
De te interviewen mensen voor de verschillende ronden worden op verschillende manieren geselecteerd. Die voor de eerste ronde zijn enerzijds te vinden via de hierboven genoemde “grote spelers” en anderzijds via de mailinglist van CLARIN, en die voor de tweede ronde via de uitkomst van de nulmeting en via instituutsdirecteuren en onderzoeksleiders. De gesprekken kunnen zo nodig worden ingeleid met een presentatie voor de te interviewen onderzoeker en zijn/haar onderzoeksgroep, waarin doel en aanpak van CLARIN worden geschetst, en begeleid door een korte schriftelijke enquête per e-mail waarmee een aantal kerngetallen van de onderzoeksgroep (omvang, omzet, output) worden verzameld. De kennisbasis wordt verbreed via literatuur- en dossierstudie en eventueel congresbezoek.
Praktisch Hierboven hebben we al verschillende groepen onderscheiden. Gegeven dat het zwaartepunt van CLARIN-NL (mede vanwege onvolledige financiering) bij tekstuele data en taaltechnologische toepassingen ligt, is het redelijk om bij de (in brede zin) taalkundig georiënteerde onderzoeksgroepen te beginnen, en dan meer speciaal bij de CLARIN-partners daaronder. In het licht van de nadruk op onderzoek dienen de onderzoeksuniversiteiten en – instituten het eerst aan de beurt te komen, en dan van de universiteiten met name die, die een complete letteren- of humaniora-faculteit hebben. Zie de laatste pagina’s van dit document voor een eerste indeling en namen.
Flankerend onderzoek De gehonoreerde én de niet-gehonoreerde aanvragen van de eerste ronde CLARIN-voorstellen kunnen helpen een beter beeld te krijgen van de behoeften in het veld; ook is het goed de ontwikkelingen bij de CLARIN-afdelingen van andere landen in de gaten te houden. Het lijkt ons nuttig hierbij ook recente NWO-aanvragen op voor CLARIN relevante onderzoeksterreinen in de beschouwingen te betrekken.
9
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
De onderzoeker zal zich de eerste maand verder inlezen in de materie, m.n. in de laatste jaargangen van relevante tijdschriften zoals Literary and Linguistic Computing, Text Technology, en Digital Studies, en in recente Proceedings van conferenties zoals Digital Humanities (2009 Un. of Maryland, USA, 2008 Oulu, Finland, 2007 Un. of Illinois, USA, 2006 Sorbonne, Frankrijk). Dit onderdeel dient twee doelen: de interviewvragen uitbreiden en verfijnen, en een beter beeld krijgen van de mogelijkheden en tendensen binnen het vakgebied. Een andere gemakkelijke manier om een beeld te krijgen van de huidige stand van zaken van het aanbod van tools en resources op het gebied van de computertaalkunde is een bezoek te brengen aan CLIN (eerste vrijdag van februari van 2010, Utrecht); voor spraaktechnologie is dat de Dag van de Fonetiek (december 2009). Bezoek aan een of meer buitenlandse conferenties of CLARIN-meetings is ook zinvol om een beter beeld van CLARIN te krijgen en inzicht in de behoeften van de doelgroep buiten Nederland (met name bijv. WP3-mensen zoals Tamás Váradi). Tenslotte zal bestudering van de ingediende voorstellen voor de “First open Call” van CLARIN ook inzicht kunnen geven in bestaande en op dit moment gevoelde noden en behoeften (in de verslaglegging zullen de gegevens natuurlijk geanonimiseerd zijn).
E-mail-vragenlijst 1. Uit hoeveel fte onderzoekers bestaat uw groep ongeveer. 2. Het onderzoek van uw groep beweegt zich op het gebied van de geschiedenis / letterkunde / taalkunde /taaltechnologie / overige nl. 3. Maakt u gebruik van gedigitaliseerde gegevensbestanden met (voornamelijk) tekstueel materiaal? Zo nee, zou u dat graag willen, zo ja, 18 a. In welk formaat? CLARIN-compliant? b. Welke tools? CLARIN-compliant? c. Welke problemen ondervindt u op dit gebied? 4. Mist u tools of resources? Waar denkt u aan?
Rapportage Van het onderzoek zal verslag worden gedaan in tussenrapporten en een eindrapport. In het licht van de hierboven aangehaalde doelstelling dat CLARIN-NL een centrale rol gaat vervullen in CLARIN-EU, zal het eindrapport in het Engels gesteld zijn. Weliswaar is het in de eerste plaats bedoeld voor intern gebruik, namelijk om antwoord te krijgen op de vraag “waar liggen de behoeften van de Nederlandse onderzoekers als het gaat om e-science-infrastructuur”, maar
18
Mensen die iets (maar niet alles) van Clarin weten zullen deze vragen beslist niet kunnen beantwoorden, maar dat hoeft ook niet, als de interviewer het antwoord maar kan (re)construeren.
10
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
het kan ook partners in andere landen tot richtsnoer en inspiratie dienen, en zo mogelijk zelfs een standaard definiëren. Bovendien is gebleken dat er ook belangstelling voor dit soort gegevens bestaat bij organisaties als DANS, NTU, NWO... Het rapport zal bestaan uit twee delen. Eén deel wordt gevormd door een inventarisatie van de huidige stand van de digitale onderzoeks-infrastructuur voor de humaniora en de sociale wetenschappen, in het bijzonder voor onderzoekers die met grote hoeveelheden talig en tekstueel materiaal (willen) werken. In het andere deel wordt een overzicht gegeven van de behoeften die er op dit gebied leven in de onderzoeksgemeenschap. Waar mogelijk zullen die behoeften worden geordend naar urgentie en realiseerbaarheid. Als blijkt dat er belangrijke (“essentiële”) tools of resources ontbreken dan zullen die als zodanig gesignaleerd worden. Eindverslag nulmeting bestaat dus uit: •
inleiding en toelichting
•
staatjes en tabellen
Eindverslag gebruikersonderzoek bestaat dus uit •
inleiding en toelichting
•
veel tekst
•
mogelijk enige staatjes en tabellen, maar nauwelijks kwantitatieve data
Deliverables: Een maand na aanvang onderzoek: •
Beknopt literatuurverslag
•
Definitieve vragenlijst
Halverwege het onderzoek: •
Een tussenrapport
Aan het eind van het onderzoek: •
Een eindverslag
11
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
Planning & Begroting Planning Tijdsduur: negen maanden, van 1 november 2009 tot 1 augustus 2010. Voorbereiding: 1 november – 1 februari. Het onderzoek kan pas daadwerkelijk van start gaan na goedkeuring door het CLARIN-NLbestuur, die hopelijk per 1 februari 2010 een feit is. Zoals hierboven aangegeven is, verdient het aanbeveling zo snel mogelijk de nulmeting ter hand te nemen. In het voorjaar van 2010 zullen evenwel ook de resterende interviews van het DANSonderzoek plaats vinden. In goed overleg met DANS zou de CLARIN-onderzoeker daarbij aanwezig zijn, zodat de specifieke CLARIN-vragen aan de orde komen.
Deliverables (“leverbaarheden”) 1. 1 maart: (beknopt) literatuuroverzicht en definitieve vragenlijst. 2. 1 juni: verslag nulmeting 3. 1 augustus: verslag gebruikersonderzoek 4. 1 september: eindrapport
Begroting Personele kosten ca. € 65000 (40/52)*85000). Hardware: kleine laptop (mini notebook) met mobiel internet (bij Vodafone € 399 plus kosten abonnement), kleine digitale dictafoon (vanaf € 50 ex BTW)). 19 Reis- en verblijfkosten P.M.
Verantwoordelijkheden De directeur van CLARIN-NL treedt op als leidinggevende van de onderzoeker, die ook regelmatig contact onderhoudt met de andere leden van het uitvoerend bestuur.
19
Arjan suggereert te kijken of je niet gewoon de gesprekken in stereo op het netbook kunt opnemen: lijkt hem a) een betere kwaliteit te geven en b) makkelijker te processen. Voordeel van stereo is het makkelijker processen achteraf. Hij heeft daar meer verstand van dan ik, dus ik laat me graag leiden door zijn advies.
12
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
Appendix Instituten en contactpersonen In het kader van het DANS-onderzoek zijn/worden de volgende personen gesproken: A (al bezocht) Alice Dijkstra
NWO beleidsfunctionaris taal- en tekstkundige projecten
Steven Krauwer
UU, CLARIN
Katrien Depuydt, Remco van Veenendaal
INL, TST-centrale
Eep Talstra
VU Theologie
Karina van Dalen-Oskam
Huygens Instituut
Peter Wittenburg
MPI, CLARIN
Pieter Muysken
Radboud Universiteit Nijmegen, taal
Erik-Jan Zürcher
Turks, UL, RGW/IISG KNAW tekst
Piek Vossen
VU taal
B (nog te doen) Sjef Barbiers
Meertens instituut taal
Joris van Zundert
Huygens Instituut - Interedition o.a. tekst
Francisca de Jong
VKS, U Twenthe) taal
Cees Klapwijk
directeur DBNL tekst
Henk Wals
Huygens Instituut tekst
Reinier Salverda
Fryske Akademy taal
Lou Boves, Nelleke Oostdijk
Radboud Universiteit Nijmegen, corpuslinguïstiek, taal
John Nerbonne, Gosse Bouma
Universiteit Groningen, taal
13
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
De uitgesproken bedoeling van deze lijst was om deze beperkt te houden en alleen een relatief klein aantal “sleutelfiguren” te interviewen. Het schema hieronder geeft een overzicht van de voornaamste te bezoeken instituten en contactpersonen. De lijst valt in twee groepen uiteen: de eerste groep instituten is meer taalkundig dan de tweede. Let op dat deze indeling orthogonaal staat op de eerder aangekondigde indeling in drie groepen individuen (infrastructuurmensen, dataproducenten en –beheerders, en gebruikers). De lijst heeft niet de pretentie volledig te zijn, maar veeleer complementair aan de lijst hierboven; om praktische redenen zullen vermoedelijk niet alle genoemde personen gesproken kunnen worden. Gedurende het onderzoek zal de lijst bovendien bijgesteld en verfijnd worden (zie ook vraag 19 hierboven). In de laatste kolom staat grofweg de categorie (infrastructuur, dataproductie, databeheer, gebruiker) aangegeven, voor zover dat nu bekend is; bij anderen kan die status pas bepaald worden door het onderzoek uit te voeren.
14
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
Groep 1 Universiteit Groningen, CLCG
Universiteit Utrecht
Radboud Universiteit Nijmegen
Universiteit Leiden
Alfa-informatica
Al gedekt door DANS
producenten, gebruikers
Taalkunde
dr. Zwart prof.dr. Hoeksema
gebruikers, producenten
Computertaalkunde
zeer nauw betrokken bij CLARIN
Taalkunde
prof.dr. Everart (zeer nauw betrokken bij CLARIN) prof.dr. Sanders
CLST
(al gedekt door DANS)
CLS
prof.dr. Coppen prof.dr. Fikkert Dr. Crasborn
producenten, gebruikers
Theoretische taalkunde, neurolinguïstiek en computerlinguïstiek
dr. Cremers dr. Levelt dr. Caspers prof.dr. Schiller
gebruikers, producenten?
Beschrijvende taalkunde
prof.dr. Adelaar prof.dr. Mous prof.dr. van der Wal prof.dr. TiekenBoon van Ostade
gebruikers, producenten
natuurlijke-taalverwerking
prof.dr. de Rijke prof.dr. Bod
gebruikers, producenten
Taalkunde
prof.dr. Weerman prof.dr. Hengeveld
gebruikers, producenten
Historische taalkunde
Universiteit van Amsterdam
15
gebruikers, producenten
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
prof.dr. Boersma Vrije Universiteit Amsterdam
Lexicologie prof.dr. Spooren Taalkunde/communicatiewetenschappen
gebruiker, producent?
Universiteit Twente
informatica
dr. Theune dr. Heeren (ook UL)
datagebruikers, producenten?
Universiteit Tilburg
Natuurlijke-taalverwerking
prof.dr. van den Bosch prof.dr. Krahmer
gebruikers, producenten
Max Planck Instituut Nijmegen
Infrastucturen, fonetiek
Broeder Dr. Ernestus andere onderzoekers
infrastructuur, beheer, gebruik, productie
Meertens Instituut Amsterdam
Dialectologie(?) Etno-musicologie
drs. Zeldenrust prof.dr. Grijp
infrastructuur, beheer, gebruikers, producenten
Instituut voor Nederlandse Lexicologie Leiden/TST
dr. Tiberius
infrastructuur, beheer
Fryske Akademy Leeuwarden
dr. Hoekstra dr. Versloot
infrastructuur, beheer, gebruikers, producenten
beeld
drs. Nauta
beheer?
tekst
dr. Bossenbroek
?
Maastricht Rotterdam Amsterdam
prof.dr. Wyatt (al gedekt door DANS) prof.dr. Wouters dr. van den Heuvel
?
Groep 2 Koninklijke Bibliotheek Virtual knowledge Studio
DANS Den Haag
(gedekt door DANS-onderzoek) 16
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
Huygens Instituut CKCC “geleerdenbrieven” project (Descartes Instituut, UvA, Huygens, KB, DANS, VKS)
(gedekt door DANS-onderzoek) Utrecht Amsterdam
prof.dr. Mijnhardt dr. Blom G. Gerritsen
infrastructuur, dataproductie
IISG
dr. van der Werf-Davelaar
?
KDC
Dr. Winkeler
?
COGIS
Drs. Eggink
?
IIAV/Aletta
Drs. Keller Drs. Douze Prof. dr. Wieringa
?
Beeld & Geluid
drs. Oomen drs. de Jong
?
DBNL
(gedekt door DANS-onderzoek)
Universiteit Maastricht
dr. Gerrits
?
Open Universiteit
prof.dr. Van Marle
?
17
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
Appendix X
Questionnaire: De vragen waarop een antwoord gezocht wordt, zijn voor een belangrijk deel af te leiden van de einddoelen van CLARIN-NL, zoals die gedefinieerd zijn in sectie 9 van het langetermijnprogramma. Wellicht ten overvloede: het zij duidelijk dat niet alle hieronder geformuleerde vragen relevant zijn voor alle hierboven gekarakteriseerde technici, aanbieders en gebruikers. Aanbod: 1. Wat hebt u in de aanbieding aan tools en resources? Wat hebben anderen daar aan? Kunnen die daar onmiddellijk mee aan de slag? •
Wat voor formaten gebruikt u? 20
•
Bij wie liggen de rechten? Mag iedereen uw tools en resources zomaar gebruiken? [IPR]
2. Zou u uw data ergens willen onderbrengen, ook al is het alleen maar voor de archivering? Aan welke organisatie(s) denkt u dan? Of hebt uzelf faciliteiten voor langetermijnbewaring? 3. Vindt u data sharing belangrijk, zou u uw data onder bepaalde omstandigheden en voorwaarden willen delen met anderen? 4. Waarom zou u meedoen? Wat voor garantie hebt en zoekt u dat “ze” niet de krenten uit uw pap vissen en met uw resultaten op de loop gaan? Vraag 5. Waar gaat u naar toe als u voor uw onderzoek grote hoeveelheden tekst (geluid, beeld, video, …) wilt gebruiken waarmee u specifieke zaken wilt doen? [nit-wits] 6. Hebt u een goed overzicht van de resources en tools die voor het werk belangrijk zouden kunnen zijn 7. Waar gaat u naar toe als u een parser, een POS-tagger, een lemmatizer of iets dergelijks voor uw data zoekt? [technische infrastructuur] 21
20
Achterliggende vraag natuurlijk: hoe verhouden die formaten zich tot CLARIN-formaten?
21
Uit een proefgesprek met Leidse descriptivisten is andermaal duidelijk geworden dat dit soort tools er voor minder populaire talen in het algemeen niet is.
18
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
8. Welke services en tools ontbreken voor het onderzoek dat u zou willen doen? 9. Waar gaat u naartoe als u een corpus (taal, spraak, video, …), een lexicon, een ontologie of iets dergelijks nodig hebt? [data-infrastructuur] 10. Wat zou u, in een ideale wereld, voor tools en resources “van de plank willen kunnen trekken”? [user needs] Infrastructuur 11. Hebt u er vertrouwen in dat u zo’n parser of zo’n corpus direct zult kunnen gebruiken? 12. Vindt u zichtbaarheid van taalresources en tools/services belangrijk; waarnaar zou u willen zoeken? 13. Hoe portable moet de software zijn? Zou u tevreden zijn als de software op servers draait in plaats van op uw eigen notebook? 14. Hebt u behoefte aan cursussen/tutorials mbt. CLARIN-zaken? Waarover precies? Hebt u daar tijd voor? 15. Welke service en accessmogelijkheden verwacht u van een servicecenter dat data en services gaat hosten? 16. Hoe is de (infrastructuur)samenwerking met buitenlandse collega’s? 17. Wie moet er volgens u voor zorgen dat standaarden worden gevolgd (de onderzoeker, de ontwikkelaar, de archivist, iemand anders)? Algemeen 18. Hoe zou u willen dat uw onderzoek er over vijf jaar uitziet? 19. Met wie zouden we nog meer moeten praten, denkt u?
Wat is uw opinie over de volgende stellingen, c.q. herkent u zich in de geschetste situatie? Kunt u voorbeelden geven/toelichten? 1. Resources of tools worden niet gebruikt omdat het bestaan ervan niet bekend is. 2. Resources of tools worden niet gebruikt omdat ze de technische kennis van de onderzoeker te boven gaan (en er geen budget is om iemand met de juiste technische kennis erbij aan te stellen).
19
CLARIN-NL Bestuursvergadering 3 02-02-2010 - Bijlage 7.1
3. Resources of tools worden wel gebruikt, maar het vereist het samenwerken met een andere partner met de juiste technische kennis, hetgeen op zich goed is maar extra tijd en effort kost. 4. Resources of tools worden wel gebruikt, maar het werk hieraan wordt uitbesteed aan een andere partner met de benodigde technische kennis en expertise (extra kosten). 5. Resources of tools worden wel gebruikt, maar het vereist een grote inspanning (kwantificeer!) om er vertrouwd mee te raken en ermee te werken. 6. Resources of tools worden wel gebruikt, maar er is veel effort nodig (kwantificeer) om de data in een geschikt formaat te brengen (bijv. om er tools op los te laten). Dit zowel voor pure formaatkwesties als voor semantische operabiliteit. 7. Tools bestaan maar ze werken alleen op een ander platform dan dat waar de onderzoeker mee vertrouwd is (bijv. alleen op Linux/UNix ipv ook op Windows).
20