Eindrapport Datamanagement Faculteit Geesteswetenschappen Inhoud 1. 2. 3. 4. 5.
Inleiding Conclusies en aanbevelingen Aanpak datamanagement Resultaten van de enquêtes Bevindingen naar aanleiding van de interviews
Bijlagen A. Lijst met onderzoekers die zijn uitgenodigd voor een interview B. Template voor een datamanagementplan (DMP)
Datum 11 juni ’15 16 juni ‘15 24 juni ‘15 1 juli ’15
Eindrapport datamanagement
Versie 0.1 eerste conceptversie 0.2 versie, incl. opmerkingen projectgroep 0.3 versie, incl. commentaar Rob Goedemans 1.0 versie t.b.v. WD overleg, incl. opmerkingen projectgroep
Pagina 1
1. Inleiding 1.1 Algemeen Datamanagement is voor universiteiten een actueel onderwerp. Dat heeft deels te maken met de steeds maar groeiende hoeveelheid (digitale) data die door wetenschappelijk onderzoek gegenereerd wordt. Maar een aantal affaires op het gebied van wetenschappelijke integriteit heeft de noodzaak van een duidelijk beleid op het gebied van datamanagement onderstreept. Ook beseffen wetenschappers dat het de kwaliteit van hun onderzoek ten goede komt als er in een vroeg stadium wordt nagedacht over de opslag, het structureren en het toegankelijk maken van hun onderzoekdata. Dit heeft er toe geleid dat subsidieverstrekkers als NWO en de Europese commissie strengere eisen hebben opgesteld t.a.v. de opslag en het hergebruik van onderzoekdata. Ook uitgeverijen scherpen hun richtlijnen op het terrein van datamanagement aan. Onder datamanagement wordt in dit verband verstaan: het creëren, opslaan, onderhouden, beschikbaar maken, ontsluiten en langdurig bewaren van onderzoekdata. Onderzoekdata zijn zeer veelsoortig. De definitie van data zal in de praktijk afhangen van de discipline waarin het onderzoek plaatsvindt. De universiteit wil onderzoekers zo goed mogelijk in staat stellen om (aantoonbaar) met data om te gaan en te voldoen aan de eisen die externe partijen op het terrein van datamanagement stellen. Een universitair project onder regie van de afdeling Academische Zaken van het Bestuursbureau heeft onder meer geresulteerd in een aantal pilots bij faculteiten waarbij via workshops ervaring is opgedaan met datamanagement. Ook is een voorlopige universitaire richtlijn datamanagement opgesteld die faculteiten, en met name de wetenschappelijke instituten, helpt bij het inrichten van de verantwoordelijkheden m.b.t. goed datamanagement. In 2014 is de faculteit Geesteswetenschappen een eigen project gestart om inzicht te verkrijgen in de behoefte van onderzoekers aan ondersteuning op het terrein van datamanagement. Daartoe is een enquête onder het wetenschappelijk personeel uitgezet en er zijn interviews met een aantal onderzoekers gehouden. Hierbij is overigens uitsluitend gekeken naar digitale onderzoekdata. Voor het beheer van niet-digitale data (papieren vragenlijsten, labjournaals, analoge geluidsopnames) zou aanvullend onderzoek mogelijk interessant en nuttig kunnen zijn. Veel van dit materiaal zou overigens retrospectief of in het kader van een onderzoekproject gedigitaliseerd kunnen worden. 1.2 Overwegingen vooraf bij de opslag en de (duurzame) ontsluiting van data Voor goed datamanagement is duurzame ontsluiting van onderzoekdata een grotere uitdaging dan de archivering ervan. Archivering klinkt immers passief terwijl ontsluiting voortdurende aandacht en dynamiek vereist. Bovendien heeft het ontsluiten van data ook de meest vergaande consequenties voor datamanagement. In principe is er niets tegen gedistribueerde en/of geïndividualiseerde opslag. Maar gedistribueerd opgeslagen data zijn moeilijker (duurzaam) te ontsluiten, omdat het lastig is om er beheersinstrumenten (datastructuren, zoekmachines, query-talen, etc.) omheen te bouwen.
Eindrapport datamanagement
Pagina 2
Zonder de behoefte om onderzoekdata ook te ontsluiten en toegankelijk te maken zouden er simpeler en minder omvattende protocollen voor datamanagement te vinden zijn. De ambitie van deze faculteit zou daarom gericht moeten zijn op het publiek maken van dure, zeldzame en/of essentiële data. Niet de archivering maar de ontsluiting gaat op de lange termijn het meeste pijn doen. Daar zit in zekere zin het onderhoud ook verstopt: we hoeven geen data “te poetsen” maar moeten de ontsluitingsinstrumenten up to date houden. In deze beginfase waarin wordt nagedacht over goed datamanagement is de dynamische, actieve en duurzaam beheerde dataontsluiting voor sommigen misschien een brug te ver. Tegelijkertijd zijn echter de vragen over opslag en bijvoorbeeld de werkomgeving bijna alleen te beantwoorden in het licht van de vraag wat je met de onderzoekdata uiteindelijk wil. Als de faculteit géén beleid voert op het (duurzaam) willen ontsluiten van onderzoekdata dan zijn opslagomgeving en uniformiteit/standaardisering bijvoorbeeld ook minder nijpende kwesties. 1.3 Over dit rapport In dit eindrapport van de projectgroep worden in hoofdstuk 2 aanbevelingen gedaan over het facultaire beleid en de ondersteuning op het terrein van datamanagement. In hoofdstuk 3 wordt kort iets gezegd over de aanpak van de universitaire en facultaire projecten t.b.v. datamanagement. In de hoofdstukken 4 en 5 worden achtereenvolgens de voornaamste enquêteresultaten en de bevindingen n.a.v. de interviews samengevat. Bijlage A bevat een lijst met onderzoekers die wij hebben uitgenodigd voor een interview. In bijlage B is een template voor een datamanagementplan (DMP) opgenomen.
Eindrapport datamanagement
Pagina 3
2.
Conclusies en aanbevelingen
Op basis van de resultaten van de enquête en de bevindingen n.a.v. de interviews komen we tot de volgende aanbevelingen. -
Veel onderzoekers blijken behoefte te hebben aan advies van ICT experts op verschillende vlakken: cursussen en praktische ondersteuning bij de hard- en software die ze gebruiken. Ons advies is om t.b.v. de instituten in de staf bij IFZ een expert voor ICT & Onderzoek aan te stellen . Deze moet bijvoorbeeld kennis hebben van databases in het onderzoek, onderzoektools en onderzoek in het algemeen. De expert kan adviseren bij het schrijven van onderzoeksvoorstellen, zowel als in de onderzoeksfase, wanneer de IT-componenten moeten worden ontworpen en geïmplementeerd. Bovendien kan de expert cursussen voor de onderzoekers verzorgen en helpen bij het opstellen van een DMP.
-
Bovenstaande lacune hangt samen met het feit dat onderzoekers beter geïnformeerd zouden moeten worden over de bestaande voorzieningen. Men blijkt over het algemeen niet goed gebruik te maken van voorzieningen die de faculteit al biedt op het terrein van ICT & Onderzoek. Dat kan te maken hebben met een tekort aan beschikbare expertise, maar ook met onvoldoende goede communicatie over ICT –voorzieningen. Om aan dit laatste tegemoet te komen valt te denken aan het inrichten van een website voor ICT & Onderzoek waarop alle opties voor tooling, hosting, bestaande ondersteuning, specifieke IT-expertise bij instituten, etc. worden gepresenteerd. Voorgesteld wordt om samen met de afdeling C&W een dergelijke website op te zetten en om ook andere vormen van communicatie gericht op onderzoekers te verkennen.
-
Trainingen datamanagement zijn belangrijk voor het creëren van bewustzijn en het leren van vaardigheden, bijvoorbeeld bij het schrijven van een DMP. Wij stellen voor om een trainingsprogramma op te zetten en een training voor PhD’s (als eerste doelgroep) verplicht te stellen. Een training zou vervolgens moeten worden ondergebracht in de R&O-cyclus. Trainingen zullen samen met de UBL worden gegeven. Met de pilot-training, eind 2014, t.b.v. LUCL PhD’s zijn goede ervaringen opgedaan. Het opleidingsprogramma zou in samenwerking met HRM/P&O moeten worden ontwikkeld.
-
De faculteit moet op zoek naar een passende voorziening voor de duurzame opslag en ontsluiting van haar onderzoekdata. Uit ons onderzoek blijkt dat de komende jaren de behoefte aan opslag niet verrassend hoog zal zijn: hooguit 40 TB, gebaseerd op de lopende projecten. Een oplossing voor de opslag hiervan zou eenvoudig binnen de faculteit zelf gevonden kunnen worden. Voor de ontsluiting van data op de lange termijn is echter specialistische expertise gewenst is en dus ligt een universitair of landelijk datacentrum meer voor de hand. Voor een aantal disciplines bij de faculteit zou dat DANS kunnen zijn, maar DANS is slechts één van de opties. Naar verwachting zal het deponeren van data bij archieven zoals DANS overigens leiden tot een (aanzienlijk) toegenomen administratieve last voor de onderzoeker. Dat is een serieus aandachtspunt. Te veel bureaucratie en hoge kosten t.b.v. de duurzame opslag en ontsluiting leiden er waarschijnlijk toe dat onderzoekers hun data niet gaan deponeren.
Eindrapport datamanagement
Pagina 4
-
Uit de enquêtes en de interviews blijkt dat het niet altijd duidelijk is waar het eigenaarschap en de gebruiksrechten van onderzoekdata zijn belegd. Dat speelt in het bijzonder bij grote projecten en bij internationale projecten. Het is zinvol om samen met andere faculteiten over dit onderwerp meer helderheid te creëren. Mogelijk dat hierover een bestuurlijke handreiking of beleidsafspraak zou kunnen worden afgesproken. Die zou dan moeten passen binnen de cultuur van openheid die bij de Leidse universiteit t.a.v. onderzoekresultaten al zeer lang de norm is. Voor open access van wetenschappelijke publicaties heeft het College van Bestuur al tot zo’n beleidslijn besloten. Een vergelijkbare richtlijn voor open data ligt in de rede. Ten aanzien van de toegankelijkheid van onderzoekdata zou derhalve moeten gelden: data zijn openbaar, tenzij….
Ten slotte een aantal aanbevelingen over de ICT-voorzieningen. -
Er is een grote behoefte aan betrouwbare, betaalbare en veilige dataopslag die toegankelijk is van buiten de universiteitsmuren (ook voor niet-medewerkers). Gezien de lage prijzen die commerciële aanbieders tegenwoordig voor dit soort diensten rekenen mag het in het leven roepen van een universitair opslagplatform eigenlijk geen probleem zijn. Veel onderzoekers maken gebruik van Dropbox. Er is inmiddels een veiliger en gratis alternatief voor het hoger onderwijs: SURFdrive. Wij bevelen het bestuur aan om t.a.v. het gebruik van clouddiensten voor onderzoek een facultaire richtlijn vast te stellen. Op basis daarvan zou bijvoorbeeld alleen in bepaalde gevallen Dropbox mogen worden gebruikt. Een dergelijke richtlijn zal moeten worden gebaseerd op een vergelijking tussen de functionaliteit en schaalbaarheid van elk van de producten.
-
Het gebruik van scanners is veel groter dan gedacht en dus zouden de faculteit of de instituten er goed aan doen om dit beter te faciliteren. Hierbij valt te denken aan kleurenscanners in elk instituut, verbonden aan het netwerk, toegankelijk voor alle onderzoekers en uitsluitend in te zetten voor onderzoeksdoeleinden. Ondersteuning zou binnen de instituten moeten worden geregeld. NB: de multifunctionals zijn overigens niet geschikt voor dit doel, en zijn bovendien te vaak bezet voor kopieer- en printacties.
-
Bij o.a. het LUCAS en het LIAS bestaat behoefte aan dienstverlening op het terrein van digitalisering van oude videobanden. Het UFB heeft zo’n dienst, maar die wordt te duur gevonden. Het ASC digitaliseert, maar niet op grote schaal. De instituten zelf hebben ook geen productiestraat. Om de conversie te faciliteren zou de afdeling IFZ moeten worden gevraagd om een voorstel uitwerken. De eenmalige kosten kunnen dan bijvoorbeeld nog in begroting voor 2016 worden opgenomen.
-
Tenslotte, met betrekking tot de infrastructuur, is het gebrek aan controle over hun eigen PC een bron van frustratie voor veel onderzoekers. Een vaak gehoorde klacht is dat veiligheid en beheersbaarheid tot in het extreme worden aangevoerd als argument om medewerkers op veel niveaus rechten te ontzeggen. Dit gaat ten koste van de vrijheid om op een behoorlijke manier onderzoek te kunnen doen. Het leidt er bovendien toe dat veel onderzoekers hun eigen ICT-voorzieningen inrichten, zowel binnen als buiten de universiteit.
Eindrapport datamanagement
Pagina 5
3. Aanpak datamanagement 3.1 Universitair project In 2014 is het College van Bestuur een universitair project Datamanagement gestart dat ten doel heeft Leidse onderzoekers zodanig te ondersteunen dat zij kunnen voldoen aan de strengere eisen van subsidieverstrekkers op het terrein van datamanagement. Dit programma bestaat uit drie deelprojecten: a. Een deelproject beleid: om welke data gaat het, wat zijn de bewaartermijnen, wat zijn verplichtingen t.a.v. openbaarmaking en hergebruik, etc.? b. Een deelproject ondersteuning en training: welke diensten zijn nodig om de wetenschappers optimaal te ondersteunen? c. Een deelproject infrastructuur: welke ICT-faciliteiten voor het opslaan, bewerken en delen van onderzoekdata zijn nodig en waar kunnen deze het beste worden aangeboden? Het universitaire project heeft inmiddels een aantal resultaten opgeleverd: -
Er is een universitair template voor een DMP. Dit template is gebaseerd op best practices bij andere faculteiten. Ook voor onze faculteit is dit een zeer bruikbaar template.
-
In maart 2015 is een “Voorlopige regeling Datamanagement Universiteit Leiden” door het CvB vastgesteld. Faculteiten is gevraagd deze richtlijn voor de afzonderlijke onderzoekinstituten nader uit te werken.
-
Bij de UBL is een zgn. Research Data Office (RDO) ingericht waar onderzoekers terecht kunnen met vragen over datamanagement. Daarnaast is voor de structurele universitaire ondersteuning op het terrein van datamanagement een concept-organisatiemodel uitgewerkt.
-
Er is een overzicht opgesteld van mogelijke (nationale en internationale) archieven waar onderzoekdata langdurig veilig kunnen worden opgeslagen. DANS wordt daarbij genoemd, maar voor de faculteit Geesteswetenschappen zou dit slechts één van de mogelijke alternatieven zijn.
-
Er is een door de UBL verzorgde training op het terrein van datamanagement. Hier blijkt in de praktijk grote behoefte te bestaan. Faculteiten hebben over het algemeen positief op de inhoud van deze training gereageerd.
3.2 Facultair project Het facultaire project datamanagement is in 2014 gestart om beter inzicht verkrijgen in de behoefte van de onderzoekers aan ondersteuning op het terrein van datamanagement. Op basis hiervan kan de faculteit de hogere eisen aan datamanagement voor onderzoek beter faciliteren.
Eindrapport datamanagement
Pagina 6
In het project zijn de volgende activiteiten uitgevoerd. 1. Een enquête over datamanagement onder alle wetenschappers. Aan de hand van een gestructureerde vragenlijst zijn zij bevraagd over de huidige praktijk t.a.v. datamanagement (wat voor data, welke formaten, beschikbaarheid, etc.) en hun wensen t.a.v. ondersteuning en ICT-faciliteiten (opslag, duurzaamheid). 2. Interviews met een aantal onderzoekers. Aanvullend op de enquête is met een beperkt aantal onderzoekers meer in detail gekeken naar hun ervaringen en wensen t.a.v. datamanagement in hun onderzoekproject. 3. Organisatie van een workshop t.b.v. LUCL-PhD’s. De workshop die werd gegeven door de UBL was bedoeld om de bewustwording t.a.v. het belang van datamanagement te vergroten en om ervaring op te doen met het universitaire template voor een DMP. Ca. 10 PhD’s hebben een DMP opgesteld. 4. In de facultaire nieuwsbrief fgw.nu is een artikel verschenen over het project en het belang van datamanagement voor onderzoekers De projectgroep bestaat uit Marian Klamer (LUCL, projectleider t/m 30 april 2015), Crit Cremers (LUCL, projectleider vanaf 1 mei 2015), Jeroen Touwen (IG), Rob Goedemans (IFZ), Peter Mostert (IFZ, projectsecretaris) Het overleg van WD’s fungeert als klankbordcommissie.
Eindrapport datamanagement
Pagina 7
4. Resultaten enquêtes In de periode april-mei is een enquête gehouden onder meer dan 600 onderzoekers. Het aantal respondenten was 92, als volgt verdeeld over de vijf instituten: LUCL: LUCAS: Geschiedenis LIAS: Filosofie:
26 15 16 34 2
De vragen in de enquête hadden onder meer betrekking op de typen en bronnen van de onderzoekdata die worden verzameld (documenten, spreadsheets, audio, video, etc.), de opslagmedia (lokale netwerkschijven, externe disks, USB sticks, Dropbox of andere cloudoplossingen), de opslag van data na afloop van het project en het gebruik van metadata. Ook werd gevraagd welke vormen van ondersteuning en welke ICT-voorzieningen gewenst zijn. Hieronder een samenvatting van de belangrijkste resultaten. 4.1 Typen en bronnen data
Eindrapport datamanagement
Pagina 8
Opvallend is dat er veel meer van scans gebruik wordt gemaakt dan was verwacht. En als gevolg daarvan blijkt de vraag naar scanvoorzieningen (zie ook 4.2) veel groter. Audio en video zijn belangrijke onderzoekbronnen, maar staan toch niet in de top 3. Data analyse gebeurt veelal met spreadsheets. NB. Iets meer dan 40% van de respondenten geeft aan ook niet-digitale data te gebruiken. Deze vallen buiten de scope van dit onderzoek.
Op de vraag uit welke bronnen data afkomstig zijn, antwoordde meer dan 80% dat data worden verzameld binnen het project zelf. 50% maakt gebruik van data van publiek toegankelijke bronnen (zoals bv. het CBS) en 30% van data die niet publiek toegankelijk zijn. Veel onderzoekers maken overigens gebruik van meerdere bronnen. 4.2. Gebruikte en gewenste voorzieningen To capture, produce, collect or create your research data, what instruments, equipment, 100,0% hardware, software or tools do you use?
80,0% 60,0% 40,0% 20,0% 0,0%
Instruments Equipment Hardware
Software
Tools
Onder voorzieningen worden verstaan apparatuur (camera, audio/voice recorder, scanner, microfoon, MRI-scanner, koptelefoon, etc.), hardware (PC/laptop, diverse opslag USB-stick en andere opslagmedia, iphone, etc.), software (Excel, Word, Acrobat, Java, etc.) en andere hulpmiddelen zoals Dropbox, Google drive . In de praktijk is het onderscheid tussen apparatuur en hardware niet zo duidelijk. Dat zelfde geldt voor het onderscheid tussen software en tools. Veel wetenschappers maken voor hun onderzoek veelal gebruik van eigen ICT-voorzieningen( eigen laptop, opslagmedia, zelf aangeschaft software) . De huidige IT-dienstverlening vindt men weinig flexibel, te veel is gestandaardiseerd. Voor onderzoek zijn vaak speciale voorzieningen gewenst. Opvallend is dat sommige wetenschappers niet goed op de hoogte zijn van voorzieningen die al beschikbaar zijn. Ten slotte is er een grote vraag naar goede scanvoorzieningen. 4.3 Opslag van data Voor de opslag van data is een grote variëteit aan oplossingen op de markt beschikbaar. Een overgrote meerderheid van de respondenten maakt gebruik van lokale voorzieningen, zoals de schijf van de eigen laptop, aangevuld met externe diskdrives en USB-sticks. Ook cloudoplossingen als Dropbox en – in iets mindere mate – Google docs blijken populair. SURFdrive, het veiliger alternatief van SURF voor Dropbox, is nog niet bij iedereen bekend en wordt mede daarom nog weinig gebruikt. Eindrapport datamanagement
Pagina 9
Minder dan 40% van de respondenten heeft voldoende aan de netwerk schijf (de p- en j-schijf van de werkplek). De verwachte behoefte aan opslag van alle respondenten opgeteld voor de komende paar jaar bedraagt niet meer dan 10TB. Dat is niet erg veel. De intensieve data verzamelaars (“heavy users”) zijn echter apart geïnterviewd. Maar als we hun behoefte aan data opslag er bij optellen, dan komen we voor de hele faculteit waarschijnlijk toch niet boven de 40TB uit.
NB. Onder overige worden genoemd: Online database, Google drive, LAT, WriteLatex, SURFdrive, printed/written, TimeMachine, One Drive, personal website, computing grid (LUMC), Owncloud.
Er is op het terrein van het beheer rond de opslag van data binnen de faculteit veel “zelfredzaamheid”. Het gaat hierbij met name om back ups en andere voorzieningen om data veilig te stellen. Een beperkt aantal onderzoekers blijkt nu een beroep te doen op de ondersteuning van de faculteit of het instituut, blijkend uit onderstaand overzicht. Dit betekent overigens niet dat er in verband met de aangescherpte eisen op het terrein van datamanagement geen behoefte is aan een goede, betrouwbare, betaalbare, centrale opslag. Bij voorkeur door middel van een cloudoplossing, zodat samenwerking tussen onderzoekers mogelijk is.
Eindrapport datamanagement
Pagina 10
4.4 Eigenaarschap en toegankelijkheid van de data Op de vraag wie naar hun oordeel de eigenaar is van de data bleken onderzoekers nogal verschillende antwoorden te geven. De meeste onderzoekers zijn van mening dat zij zelf de data bezitten. Omdat de onderzoekers in deze categorie meestal in loondienst zijn zal men mogelijk bedoelen dat de universiteit eigenaar is van de data. Anderen beschouwen de data als het eigendom van NWO, het researchteam of de externe opdrachtgever. Een enkeling meent dat de onderzoekdata publiek eigendom zijn. De onduidelijkheid over het eigenaarschap van de onderzoekdata leidt er ook toe men er onzeker over is of op de data auteurs- en/of licentierechten rusten. Ongeveer de helft van de respondenten meent van niet, meer dan 30% weet het niet.
Eindrapport datamanagement
Pagina 11
Gezien het bovenstaande lijkt het van belang dat de universiteit tot een richtlijn of standpunt komt t.a.v. het eigenaarschap en daarmee de toegankelijkheid van onderzoekdata. Een beleid over Open Data zou in het verlengde moeten liggen van hetgeen door de universiteit over Open Access in internationaal verband is afgesproken: data zijn openbaar, tenzij... 4.5 Opslag van de data na afloop van het project en het gebruik van meta-data Een belangrijk aspect van datamanagement betreft de opslag en het beheer van de data na afloop van het project. In de enquête zijn over dit onderwerp een aantal vragen gesteld. Op de vraag hoe men van plan is om na beëindiging van het project de data op te slaan is als volgt geantwoord (er waren meerdere oplossingen mogelijk) Yes, I plan to store my data on a local (external) disk
42,31% 33
Yes, I plan to archive my data in a data-archive or data repository
30,77% 24
Yes, I plan to store my data on (please specify)
21,79% 17
Don’t know (yet)
20,51% 16
Yes, I plan to store my data on the university network
10,26%
8
No, I do not plan to store or archive my data
2,56%
2
Total: 78
Over het algemeen is men zich overigens niet bewust van eventuele eisen van de subsidiegever ten aanzien van de archivering van data. Slechts 6 van de 78 respondenten geeft aan dat die verplichting er inderdaad is, maar over de bewaartermijnen bestaan weer verschillen. Drie personen noemen een periode van 15 jaar, één noemt een bewaartermijn van 5 jaar en de twee overige geven aan hun data oneindig beschikbaar te willen houden voor een breed publiek. Een andere vraag betrof de beschikbaarheid van de data voor andere onderzoekers. Gevraagd werd of onderzoekers bereid zijn om data na afloop van hun project te delen. Ook hierop is zeer verschillend geantwoord, maar een meerderheid is daartoe zeker bereid. Onder degenen die hun data niet toegankelijk willen stellen voor anderen vielen een paar opvallende antwoorden op te tekenen: “I decide what I publish, why should I give data to anyone else?”, “The data are already available in archives”. “My notes make no sense out of context”. “It is not the practise to do so (would make doing research very easy for ‘competitors’)”, “It is not allowed by the source Archive”.
Eindrapport datamanagement
Pagina 12
Om data in archieven goed toegankelijk te maken voor andere onderzoekers of andere belangstellenden is het van belang ze goed te beschrijven aan de hand van zgn. meta-data. Voorbeelden van meta-data zijn: beschrijvingen van de soorten/typen data, versies van data en gebruikte software, informatie over hoe de data zijn verzameld (plaats, tijd). Voorbeelden die op beperkte schaal worden gebruikt bij FGW zijn IMDI (https://tla.mpi.nl/tools/tla-tools/oldertools/imdi-editor/) , OLAC (http://www.language-archives.org/OLAC/metadata.html) en Dublin Core (http://dublincore.org/) . Uit de antwoorden uit de enquête blijkt dat bij het verzamelen en beheren van data een grote meerderheid van de onderzoekers weinig of geen gebruik maakt van (standaard) beschrijvingen voor meta-data. Bij de langdurige opslag en ontsluiting van onderzoekdata, zullen data-archieven een belangrijke rol gaan vervullen, maar voor die dienstverlening zullen zij strenge voorwaarden hanteren t.a.v. de metadatering. Dat zal dus een flinke cultuuromslag vereisen en leiden tot een administratieve last voor onderzoekers. Als die administratie te veel vergt, dan zullen onderzoekers vrijwel zeker ervan afzien hun data te deponeren in een archief. Hier ligt dus een uitdaging.
Eindrapport datamanagement
Pagina 13
5. Bevindingen naar aanleiding van de interviews In aanvulling op de enquête zijn ca. 12 interviews gehouden met onderzoekers. Zij werden geselecteerd op grond van hun data-intensief onderzoek. Met deze groep is meer gedetailleerd ingegaan op hun datamanagementvragen. Een overzicht van de voor een interview uitgenodigde personen is te vinden in bijlage A. De conclusies die op basis van de interviews kunnen worden getrokken bevestigen het beeld dat uit de antwoorden op de enquête is ontstaan. De belangrijkste bevindingen kort samengevat : -
Waarschijnlijk zal de vraag naar opslag op basis van het huidige onderzoek over 4 jaar niet meer dan 40 TB zijn. De praktijk is dat een zeer kleine groep onderzoekers heel veel opslagcapaciteit (ca. 30 TB) vraagt en dat een heel grote groep onderzoekers tezamen de overige 10 TB vult. In de meeste projecten wordt dit opgelost met eigen harde schijven waarbij onderzoekers zelf back ups van de data verzorgen. Sommige onderzoekers geven aan dat zij wel behoefte hebben aan een centrale server (bij faculteit of instituut) om hun data op te slaan. Een aantal onderzoekers kan overigens toe met de netwerkschijven (J:- en P:schijven) die het ISSC aanbiedt.
-
Het gebrek aan controle over hun eigen PC blijkt een bron van frustratie voor de onderzoekers. Een veelgehoorde klacht is dat veiligheid en beheersbaarheid tot in het extreme worden aangevoerd als argument om medewerkers op veel niveaus rechten te ontzeggen. Dit gaat ten koste van de vrijheid om op een behoorlijke manier onderzoek te kunnen doen.
-
Binnen de meeste projecten zijn het de jonge PhD’s die de ICT-voorzieningen inrichten en beheren. Zij zijn goed bekend met de mogelijkheden van bepaalde (vaak open source) software binnen hun eigen vakgebied. Zij installeren de programmatuur, verzorgen de toegang tot de data, maken de back ups, fungeren als eerstelijns helpdesk, etc. Bij een aantal projecten zijn hiervoor ICT-specialisten ingehuurd of is de ICT-omgeving uitbesteed.
-
In projecten waarbij wordt samengewerkt met andere universiteiten is het vaak onduidelijk wie verantwoordelijk is voor de ontsluiting en het eigenaarschap van de verzamelde data. De data worden bijvoorbeeld opgeslagen op een server bij één van de deelnemende instellingen die het beheer voert en de integriteit van de data bewaakt. Omdat er tijdens de projectfase geen afspraken over zijn gemaakt is de toegankelijkheid na het project vaak niet gewaarborgd.
-
In sommige projecten wordt samengewerkt met het LUMC. Bijvoorbeeld voor het gebruik van de MRI-scanner of het maken van (audio- en video) opnames. Onderzoekers hebben dan te maken met de Ethische commissie van het LUMC en in de meeste gevallen mogen de data het LUMC ook niet verlaten. Voor toegang tot de data is apart autorisatie en authenticatie vereist. Ook de toestemmingsdocumenten liggen in het LUMC en bij verantwoording aan de subsidiegevers kan alleen worden doorverwezen naar het LUMC.
Eindrapport datamanagement
Pagina 14
-
Bij o.a. het LUCAS en het LIAS bestaat behoefte aan dienstverlening op het terrein van digitalisering van (oude) videobanden. Het UFB heeft zo’n dienst, maar die wordt te duur gevonden. Ook het ASC digitaliseert, maar niet op grote schaal. De instituten zelf hebben ook geen productiestraat.
-
Toch nog heel wat wetenschappers zijn onvoldoende op de hoogte van voorzieningen en expertise die al beschikbaar zijn bij de faculteit of het instituut. Het LUCL beschikt bijvoorbeeld over verscheidene eigen servers met onderwijshulpmiddelen en onderzoekresultaten, maar dit blijkt niet bij iedereen in het instituut bekend. Tevens is er de nodige database expertise voorhanden. Men blijkt soms evenmin bekend met de ICTondersteuning van de afdeling IFZ.
-
Beveiliging en privacyaspecten spelen een belangrijke rol bij de meeste onderzoekprojecten. Voor laboratoriumexperimenten zijn vooraf door betrokkenen ondertekende verklaringen noodzakelijk, voor veldinterviews wordt schriftelijk toestemming gevraagd (maar dit blijkt in sommige landen overigens onmogelijk). Voor beveiliging van bestanden wordt meestal een wachtwoordbeveiliging toegepast, in sommige gevallen worden harde schijven in een kluis opgeborgen.
-
Er wordt veel gebruikt gemaakt van opslag in de cloud, vooral Dropbox en in een enkel geval Google-drive. Men is nog niet goed bekend met SURFdrive, het veiliger alternatief voor Dropbox. Met name Dropbox is populair, maar als lange-termijnarchief is het niet geschikt. Op dit moment beschikt de faculteit niet over een formeel standpunt ten aan zien van de uitwisseling van onderzoekdata via Dropbox. Sommige instellingen in binnen- en buitenland hebben een dergelijke regeling wel.
-
Zoals ook uit de enquête blijkt is de duurzame opslag van onderzoekdata vrijwel nergens formeel belegd. Tijdens de interviews zijn diverse data-archieven genoemd . Naast DANS o.a. Clarin (http://www.clarin.nl/) , Endangered Language Archive (ELAR, Londen), het Max Planck Instituut, Bibliotheque Nationale Mali, Documentation of endangered languages (DOBES, http://dobes.mpi.nl) . Ook worden data soms opgeslagen en ontsloten bij buitenlandse universiteiten die als penvoerder optreden in een samenwerkingsproject.
-
Voor slechts een enkele van de door ons geïnterviewde onderzoekers was een DMP verplicht. Tijdens de workshop die in 2014 werd verzorgd door de UBL is door een aantal LUCL PhD’s ervaring opgedaan met het schrijven van een DMP. Hiervoor is gebruik gemaakt van het ‘standaard’ template dat ook bij andere faculteiten wordt toegepast. In de praktijk blijkt dit template goed te werken.
-
Ten slotte: er is behoefte aan een webserver waarop vrijelijk databases (en websites) geplaatst kunnen worden. Daarnaast vraagt men bij de instituten om externe harde schijven beschikbaar te stellen voor tijdelijke back-ups (in het veld).
Eindrapport datamanagement
Pagina 15
Bijlage A Lijst met onderzoekers die zijn uitgenodigd voor een interview LUCAS Ton Harmsen Daniela Merolla Gerhard Jan Nauta GS Catia Antunes Luuk de Ligt B. Noordervliet Jeroen Touwen LUCL Willem Adelaar Kate Bellamy Willemijn Heeren Marian Klamer Victoria Nyst Anneloes van Iwaarden Niels Schiller Ingrid Tieken Daan van de Velde LIAS Gabriëlle van den Berg Florian Schneider Hilde de Weert NB. Om agenda-technische redenen lukte het helaas niet om alle in de lijst genoemde personen te spreken te krijgen. Een aantal onderzoekers was in de periode april-mei afwezig of zegden af. Anderen bleken langs andere weg al input geleverd te hebben (namelijk tijdens de workshop datamanagement in het voorjaar 2014 of via de enquête). In sommige gevallen hebben we als alternatief een collega uit de zelfde onderzoekgroep uitgenodigd voor een interview. Om die reden hebben we toch een redelijk compleet beeld gekregen van de behoefte aan ondersteuning op het terrein van datamanagement van de ‘grootverbruikers’.
Eindrapport datamanagement
Pagina 16
Template Data Management Plani
Bijlage B
Please contact Leiden Research Data Office if you need help: http://www.library.leiden.edu/education-research/library-research/researchdata/support.html or http://www.library.leiden.edu/ask-a-librarian.html Name and contact details Please include email address and telephone number Name of project and group Description of your research
Briefly describe your research to help others understand the purposes for which the data are being collected or created. Max. 50 words.
Supervisors if relevant Project duration Names of people and their responsibilities for data management
Start: DD-MM-YYYY End: DD-MM-YYYY Responsibilities can be collecting, storing, documenting, sharing and archiving the data. Naming anyone with specific roles and responsibilities for data management is especially important for collaborative projects that involve many researchers and/or partner organisations.
Funding body(ies)
If applicable.
Grant number
If applicable. A grant number provides unique identification for the grant.
Partner organisations
If applicable. These may be research partners that use your data, or that you use data from.
About this Data Management Plan Date written
DD-MM-YYYY
Date last update
DD-MM-YYYY
Version
A new version of the DMP should be created whenever important changes to the project occur due to inclusion of new data sets, changes in consortium policies or external factors. Don’t forget to include the date.
Changes in this version of the Data Management Plan Component
Progress / Execution Please describe shortly what progress you have made, any questions or issues you have encountered and want to discuss, etc.
1. Data collection
………
2. Data storage and back-up
………
3. Data documentation
………
4. Data access, sharing and reuse
………
5. Data preservation and archiving
………
Eindrapport datamanagement
Pagina 17
1. Data collection Describing the data you will be creating/collecting 1.1
1.2
Will the project use existing or third party data as part of the investigation? No Yes. Describe shortly origin, type and format of this data. Are there any restrictions or requirements for use of third party data such as licencing conditions? What type()s of data will you collect or create, in what file format(s)? Data types can be : Documents (text, MS Word), spreadsheets, field notebooks, diaries, questionnaires, transcripts, surveys, codebooks, audiotapes, videotapes, photographs, (transcribed) test responses, models, algorithms, etc. Think of the different stages (for instance : video recording, transcript, annotation, lists of typological features ....). Note that not all formats are long-lived. For sustainable access you best use the formats recommended by data archives, see for examples: http://www.dans.knaw.nl/sites/default/files/file/EASY/DANS%20preferred%20formats%20UK%20DEF.pdf
1.3
How will you collect and/or create your data? Please describe shortly. Name any relevant protocols and/or
1.4
What tools, instruments, equipment, hardware or software will you use to capture, produce, collect or create the data? Please give the names of the tools and state if they are already available. If not, state how
standard in your area of expertise.
you intend to acquire them.
1.5
What is the estimated size of the data? Please describe shortly. Stages to be adopted if relevant.
Data stage
Specification of type of research data
Software choice and file format
Data size now
Data size when project is finished
Raw data Processed data Results Other… …………
2. Data storage and security Ensuring that all research data are stored securely and backed up or copied regularly during your research 2.1
Where will you store your data? Please describe how safe storage is guaranteed. Specify your method if your data is collected and / or transported in different locations / countries.
☐ On university departmental network storage (J:) ☐ On university personal network storage (P:) ☐ In the Virtual Research Environment (Sharepoint) ☐ Physical storage (e.g. USB, external hard drive) ☐ Cloud service (e.g. SURFdrive) ☐ Other, namely: …
Eindrapport datamanagement
Pagina 18
2.2
Will your data be backed up? Please specify shortly for each storage device frequency, location of backups and who is responsible.
2.3
Are there any commercialisation, ethical or confidentiality restrictions about handling your data? Please specify shortly.
2.4
☐Contractual obligations ☐Requirements by law : protection of personal data (e.g. privacy law) : specify in 4.1 ☐Requirements by law : copyright, intellectual property : specify in 4.1 ☐Ethical restrictions (e.g. ethical review) : specify in 4.1 ☐ Commercial considerations (e.g. patentability) ☐ Formal security standards ☐ No requirements ☐ Other, namely: ……… How will access to the data be managed during the project? Please specify for each storage device, from different locations / countries?
2.5
What are the main risks to data security? Please list risks other than the usual risk of theft or damage , e.g.
2.6
What measures do you take to comply with the security requirements and to mitigate the risks?
2.7
☐ Access restrictions ☐ Encryptions ☐ Data processing ☐ De-identification / Anonymization ☐ Regular back-ups ☐Master copy stored on university network storage ☐Master copy stored elsewhere ☐ Other, namely: … How do you differentiate between raw and processed data? Please explain shortly why you (do not)
accidental deletion, falling into the wrong hands. Please describe what would happen if the data gets lost or become unusable. Describe how you can restore your data in the event of data loss and who is responsible. If applicable, please describe procedures to ensure personal data are handled confidentially and who is responsible.
differentiate.
☐ I will not differentiate ☐ I will create a new file for processed data ☐ I will create a new file for processed data and I will lock raw data ☐ Other, namely: … 2.8
Is there any non-digital data or outputs that the project will generate? Where will these outputs be stored? Please specify shortly.
2.9
Do you expect to have any supplementary costs for storage not covered by the projects budget? Please specify
3. Data documentation Documenting your data to help future users to understand and reuse it 3.1
How will files be named?Please describe shortly.
Eindrapport datamanagement
Pagina 19
3.2
How will folders be named and structured?You are invited to draw a folder structure and describe it shortly.
3.3
How do you handle version control to maintain all changes that are made to the data?Please explain your choice shortly. Remember to also document any deletion of data, if applicable.
☐ No version control (e.g. original files are overwritten) ☐ Version control software, namely: … ☐ Data/version number in filename/folder ☐ ‘Track changes’ feature in software ☐ By saving the script with which I process my data ☐ Other, namely: … 3.4
3.5
What metadata standard will be used, if any? Please explain why you use this standard (most used in my
discipline, required by the data archive where I will deposit my data. Please outline how the metadata will be created (read me file, spreadsheet, in the data). If no standard exist, please specify which metadata is needed to understand the data.
☐No metadata standard is used ☐ Generic metadata standard, namely : o Dublin Core o TEI.... o .... ☐ Linguistic metadata standard, namely: … o OLAC o IMDI o CMDI o .... ☐Standard automatic Windows metadata (e.g. from Word, Excel) ☐ Other metadata standard, namely: … What supporting information / documentation will you create to enhance understanding of the data? For example :, codebook, survey questions, etc,
4. Data access, sharing and reuse Managing access and security, sharing your data 4.1
Are there any restrictions placed on sharing / reuse of some / all of your data? Please account for not
4.2
With whom will you share your data at which stage in your research? You can use the table below.
sharing your data. Reasons may be ethical, rules of personal data, intellectual property, copyright, commercial, privacy-related, security-related.
Please state any sharing requirements, e.g. funder data sharing policy.Please describe shortly how you will share your data: on request, pro-actively, etc..
Eindrapport datamanagement
Pagina 20
Would not share with anyone
Would share with my immediate collaborators
Would share with others in my research centre or at my institution
Would share with scientists in my field
Would share with scientists outside of my field
Would share with anyone
Immediately after the data has been generated After the data has been normalized and/or corrected for errors After the data has been processed for analysis After the data has been analysed Immediately before publication Immediately after the findings derived from this data have been published Based on: Interview worksheet, Jake Carlson, Purdue University Libraries / Distributed Data Curation Center
4.3
If intending to share any part of the data, do your participant consent forms include information about intentions for sharing, retention of data and steps taken to protect participants privacy and confidentiality?
4.4
Who has authority to grant (additional) access to your data? Please describe shortly. ☐ Only you ☐ A colleague from the project ☐ Supervisor ☐ Funder ☐ Collaborator / research partner organisation ☐ Other, namely: …
Eindrapport datamanagement
Pagina 21
How will you manage copyright and Intellectual Property Rights issues? Who owns the data? Will the data be licensed for reuse? For example, issues of confidentiality of used data or issues regarding patents.
4.5
Please describe shortly.
What is the audience for reuse?Please list possible audiences and purposes. Consider who might use it now and
4.6
who might use it later.
5. Data preservation and archiving Preserving your data Which criteria will you use to decide which data has to be archived? Please shortly describe your choices.
5.1
☐ Type of data (raw, processed) and how easy it is to reproduce it ☐ Relevance of content for others ☐ Usability of format for others ☐Data underlying publications ☐Verification of research ☐Available time ☐Available money ☐Other, namely: … How long should your data be preserved? Are there any requirements regarding the disposal of data?
5.2
State obligations you have by law, funder, university, etc. if any. Describe how you will dispose of the data, e.g. how you will get approval, what people and/or tools you need, etc.
Which data repository is appropriate for archiving your data? Please describe shortly. Does this archive
5.3
have a ‘data seal of approval’ or other form of certification?
☐ DANS ☐ The Language Archive ☐ Other linguistic (international) repository, namely : ☐ Other, namely: … 5.4
Does the archive have specific requirements concerning formats, metadata etc. Provide relevant urls to
5.5
What costs (if any) will your selected repository charge? Who pays? Please state the costs in euro’s and
5.6
Will you need to take supplementary steps to prepare your data for preservation? E.g. converting the
the documentation on these requirements. the institution that pays for it.
file formats, providing supplementary documentation, will there be extra costs to prepare your data for archiving? Please specify. See http://www.data-archive.ac.uk/media/247429/costingtool.pdf
Who is responsible for the data after the project ends? Please state a position and the current person in that
5.7
position.
i
Format of this plan copied from the template of the Faculty of Science, University Leiden, the questions are based on 3TU data management plan, the University of Bath data management plan and the Data Management Checklist of the University of Western Sydney.
Eindrapport datamanagement
Pagina 22