Data doordacht Strategie voor de omgang met data en software in de wetenschap
Patrick Aerts, Peter Doorn Januari 2016
>>>
1. Inhoud 1.
Inhoud .................................................................................................................................................................................1
2.
Terms of Reference ....................................................................................................................................................2
3.
Managementsamenvatting ....................................................................................................................................4
4.
Inleiding .............................................................................................................................................................................6
5.
Algemeen Kader en onderzoekersbetrokkenheid ...................................................................................9 5.1.
Bewustwording en erkenning ..................................................................................................................9
5.2.
Organisatie, Algemeen Kader en belanghebbenden ............................................................. 10
i.
Overheden, onderzoeksorganisaties, subsidieverleners............................................ 10
ii.
Wetenschap en maatschappij ..................................................................................................... 11
iii. 5.3.
Uitvoeringsorganisaties ................................................................................................................... 11 Het Algemeen Kader (“framework”) ................................................................................................ 11
b. Protocollen ..................................................................................................................................................................... 12 c. Implementatie ............................................................................................................................................................ 13 6.
7.
Lacunes in de datadienstverlening -en de vraag uit de levenswetenschappen- ............ 14 6.1.
Inleiding .............................................................................................................................................................. 14
6.2.
Lacunes in de dienstverlening.............................................................................................................. 14
6.3.
Een palet van data-diensten ................................................................................................................. 16
6.4.
De vraag naar datadiensten in de levenswetenschappen ................................................. 18
6.5.
Conclusies en aanbevelingen................................................................................................................ 21
Infrastructuur voor de archivering, het onderhoud en de beschikbaarstelling van
software .................................................................................................................................................................................... 23
i.
Het vanaf de start rekening doen houden met toekomstig onderhoud .......... 25
ii.
Criteria voor de waarde en waardevastheid van software, programma’s en
tools 25 iii.
Criteria voor het toekomstig onderhouds- en investeringsniveau
gekwalificeerde software ............................................................................................................................ 26 iv.
Afspraken over het daadwerkelijk onderhoud van software en de vorming
van een verband van software onderhoudsgroepen ............................................................... 26 v. 8.
Software Seal of Approval ............................................................................................................. 26
vi. Infrastructuur voor software sustainability ........................................................................ 26 RDNL, DANS en Coördinatiepunt RDM ....................................................................................................... 28 vii.
Versterken van transparante datadienstverlening aan onderzoek ............... 29
viii.
Samenhangende en efficiënte dienstverlening ........................................................... 30
ix.
Gezamenlijke beleidsbeïnvloeding en ondersteuning op de
randvoorwaarden voor goed data stewardship ........................................................................... 30 x.
Gezamenlijk trainingsportfolio .................................................................................................... 30
xi.
Gezamenlijke afstemming over langetermijnarchivering en daarbij
behorende businessmodellen .................................................................................................................. 30 Bijlage 1: Concept Convenant ................................................................................................................................... 34 Bijlage 2: Definities en afkortingen........................................................................................................................ 35
Data doordacht
1
2. Terms of Reference Naar aanleiding van de nadere vaststelling van de strategierol die DANS in het Nederlandse landschap moet spelen formuleerde de Stuurgroep DANS op 2 juli 2015, in de onderzoekopdracht: “Data-archipel of geordende datapolder?”, een zevental vragen, die hierbij nader worden uitgewerkt. De vragen luiden: • •
•
•
•
•
•
Welke lacunes bestaan er in de datadienstverlening bij de verschillende disciplines? Hebben de levenswetenschappen behoefte aan archiveringsdiensten zoals DANS die reeds aan andere disciplines levert, en door welke organisatie(s), binnen en buiten RDNL-verband kunnen die worden geleverd? Welke rol kan DANS hierbij spelen? Besteed in het bijzonder aandacht aan DTL, MEMIC, dienstverlening aan de LW-instituten van de KNAW, en aan de positie t.o.v. ZonMw en de NFU. Hoe kan de archivering, het onderhoud en de beschikbaarstelling van software, waarmee onderzoeksgegevens worden verwerkt, in Nederland worden georganiseerd? Welke partijen spelen daarbij een rol, en welke rol kan DANS daarbij in het bijzonder vervullen? Wat zijn de met software sustainability verbonden kosten en hoe kunnen die worden gedekt? Hoe moet het samenwerkingsverband RDNL zich de komende jaren ontwikkelen? Hoe kan de organisatievorm worden versterkt? In hoeverre speelt RDNL een regierol op het terrein van datamanagement, en hoe verhoudt het zich tot een eventueel ander/nieuw beleidsbepalend coördinatiepunt? Hoe kunnen individuele onderzoekers, onderzoeksgroepen en disciplines nauwer betrokken worden bij het welslagen van alle inspanningen die beleidsmatig op data stewardship/data management en software sustainability-gebied worden gepleegd en hoe kan de bewustwording van de belangen die met data en software gemoeid zijn bij de onderzoekers worden versterkt? Hoe kunnen onderzoekers als collectief beter en meer adequaat geholpen worden bij de concrete opstelling van data stewardship en software sustainability-plannen tijdens en na afloop van hun onderzoeksprojecten? Wat zijn de eventuele consequenties van bovenstaande op de organisatie- en governance structuur van RDNL en van DANS?
Hoewel een aantal vragen specifiek over software sustainability gaan, omdat dit in de gehele discussie over research data management een achtergebleven gebied is, gaan de structuren, positiebepaling en governance over de strategierol van DANS met betrekking tot het gehele domein van data stewardship en software sustainability. Ter beantwoording van deze vragen wordt hierbij een kader geschetst waarbinnen de vragen hun natuurlijke plaats krijgen. Ze zijn gebundeld in een viertal hoofdstukken: Algemeen Kader (Framework) en onderzoekersbetrokkenheid Lacunes in de datadienstverlening -en de vraag uit de levenswetenschappenInfrastructuur voor de archivering, het onderhoud en de beschikbaarstelling van software
Data doordacht
2
RDNL, DANS en Coördinatiepunt RDM. De VSNU heeft SURF gevraagd een landelijk coördinatiepunt in te richten voor Research Data Management. Onderdeel daarvan is het opstellen van een roadmap. Dit traject is ter hand genomen door SURFsara, dat met het 3TU Data centrum deel uit maakt van RDNL. Langs deze weg is DANS gevraagd input te leveren aan deze roadmap. DANS ondersteunt in principe het idee van een landelijk coördinatiepunt voor Research Data Management, mits er vanuit een gelijkwaardige positie een bijdrage vanuit DANS (NWO, KNAW) aan de totstandkoming, scope en uitvoering geleverd kan worden.
Data doordacht
3
3. Managementsamenvatting Naar aanleiding van de nadere vaststelling van de strategierol die DANS in het Nederlandse landschap moet spelen formuleerde de Stuurgroep DANS op 2 juli 2015, in de onderzoekopdracht: “Data-archipel of geordende datapolder?”, een zevental vragen, die in deze nota Data Doordacht zijn gebundeld in een viertal hoofdstukken: 1. Algemeen Kader (Framework) en onderzoekersbetrokkenheid; 2. Lacunes in de datadienstverlening per discipline; 3. Infrastructuur voor de archivering, het onderhoud en de beschikbaarstelling van software; 4. RDNL, DANS en Coördinatiepunt RDM. 1. Data Doordacht stelt de rol en de wens van de onderzoeker centraal. De “vraag” vanuit de onderzoekswereld (zowel naar deponerings- als naar toegangsmogelijkheden) zou leidend moeten zijn bij de inrichting van data- en softwarediensten. Om daartoe te komen is een kaderstellend raamwerk (het Algemeen Kader) nodig om enige orde en een minimum aan uniformiteit te bereiken dat voor betaalbare duurzaamheid nodig is. Dit Algemeen Kader is nader uitgewerkt en onderscheidt een drietal categorieën belanghebbenden: A) Overheden, onderzoeksorganisaties, subsidieverleners; B) Maatschappij en wetenschap; C) Faciliterende, uitvoerende en overige partijen. Door dit kader krijgen tal van lopende en voorgenomen initiatieven en acties hun natuurlijke rol. Kernpunten voor dit Kader zijn: • Behandel data stewardship en software sustainability beleidsmatig op gelijke voet; • Beschouw software en dataverzamelingen als waarde-objecten en draag dat ook zo uit; • Stel de onderzoeker/onderzoekdisciplines centraal om hun betrokkenheid te verkrijgen en • Laat de disciplines zelf omgangsprotocollen uitwerken, rekening houdend met Open en FAIR-bewegingen; • Publiceer de protocollen ook voor latere referentie. Bij de vormgeving van de dienstverlening en de bij het Algemeen Kader benodigde infrastructuur wil DANS een leidende rol spelen in nauwe samenwerking met partijen als SURF en VSNU. Bij die implementatie hoort een samenwerking die een naadloze dienstverlening oplevert. De uitdagingen bij bewustwording en erkenning van onderzoekersinspanningen zijn: • Het opstellen van aansprekende richtlijnen voor software sustainability en data stewardship; • Het creëren van laagdrempelige portals en structuren voor duurzame opslag; • Het ontwikkelen van incentives1 die de betrokkenen wat oplevert; • Het entameren van het gevoel van gezamenlijke verantwoordelijkheid. 2. Er is over de hele linie een stijgende vraag naar datadiensten, met duidelijke verschillen tussen de vakgebieden. De verschillen hebben te maken met de volumes (big data versus long-tail data) en met vakinhoudelijke verschillen. Maar de eisen van digitale archivering voor de middellange en lange termijn zijn voor alle vakgebieden betrekkelijk vergelijkbaar. 1
Te denken valt aan: wetenschappelijke credits, citatie van en referentie naar data en software Data doordacht
4
Inzake de dienstverlening voor de levenswetenschappen zijn er drie alternatieven, waarvan één het meest rendabel is, mits slim georganiseerd: laat DANS zich richten op archivering van de long-tail data. Voor Big Data kunnen in RDNL-verband oplossingen worden ontwikkeld. Dat niet alle data voor een bepaald vakgebied op één plek of door één instelling is opgeslagen komt vaak voor, zowel binnen Nederland als internationaal. Dit wordt opgelost door de metadata van verschillende instellingen te aggregeren en presenteren in portalen als NARCIS en OpenAire, of in disciplinegerichte zoekdiensten. Meer in het algemeen zoekt DANS de ruimte om klanten te bedienen op basis van een concrete vraag naar diensten, inclusief het “dark archive”. 3. Met betrekking tot software sustainability wordt voorgesteld te werken aan een software sustainability initiatief, gebaseerd op, maar niet noodzakelijk gelijk aan het Software Sustainability Institute in het VK. Ook worden de aspecten die een rol spelen bij de invoering van een Software Seal of Approval met andere partijen bekeken. 4. Inzake het Coördinatiepunt RDM, dat de VSNU aan SURF heeft gevraagd op te zetten, werkt DANS graag vanuit een gelijkwaardige positie mee aan het Coördinatiepunt. Daarmee kan DANS als brug de belangen van NWO, KNAW en de instituten dienen en in het bijzonder daarbij het perspectief van de onderzoekers en de onderzoekersbetrokkenheid inbrengen. Inzake RDNL is de visie, dat RDNL een meer solide basis zou moeten krijgen dan de huidige letter of intent, dat het de rol moet houden van tweedelijns serviceprovider, met als doel om in gezamenlijkheid een naadloze dienstverlening tot stand te brengen. Daarvoor kan uitbreiding met andere partners nodig zijn. RDNL is een succes als RDNL door instellingen en koepelorganisaties gezien wordt als een belangrijk adviesorgaan en/of partner op het gebied van data stewardship; als de partners van elkaars expertise nuttig gebruik maken; als de partners van elkaars netwerk nuttig gebruik maken; als gezamenlijk optreden (kosten)efficiënter is dan afzonderlijk optreden. RDNL en het Landelijk Coördinatiepunt zullen hun activiteiten nog nader moeten afbakenen.
Data doordacht
5
4. Inleiding De omgang met data en software, met name tijdens en na afloop van onderzoeksprojecten, vraagt dringend om kaders en richtlijnen. Nationaal en internationaal wordt veel aandacht besteed aan deze problematiek en terecht: een aanpak voor de ethische en praktische omgang met data en software is dringend nodig, maar de materie is weerbarstig. De hoeveelheden data die reeds bestaan, nu dagelijks gegenereerd of verwerkt worden en die in de toekomst met de huidige exponentiële groei ons nog staan te wachten zullen ons de illusie ontnemen dat de onderliggende processen ook maar bij benadering gemanaged kunnen worden. Maar gelukkig is dat ook niet nodig. De wetenschap heeft een lange traditie van zelfregulering en die kracht kan ook hier gebruikt worden. Het stellen van praktische kaders (straks genoemd het Algemeen Kader) is daarvoor nodig maar ook voldoende. Daarbinnen mag dan van de gemeenschappen die de data en software creëren en daarmee werken zelf gevraagd worden hun verantwoordelijkheid te nemen voor de duurzaamheidsaspecten. Zo kan in de publieke sector, in de academische wereld en op organisatieniveau genoeg structuur worden verkregen dat de praktische en ethische aspecten2 van data stewardship3 en software sustainability1 goed gehaald kunnen worden. De missie van DANS is het bevorderen van duurzame toegang tot digitale onderzoeksgegevens. Dat betreft dus in beginsel toegang tot alle digitale objecten die (duurzaam) bewaard en toegankelijk gemaakt kunnen worden4. Bij het organisatorische model dat in dit document gepresenteerd wordt behoren ook de dienstverlening en infrastructuur. Bij de vormgeving daarvan wil DANS (van KNAW en NWO) een leidende rol spelen in nauwe samenwerking met partijen als SURF en VSNU. Bij de implementatie hoort immers, zeker in de richting van de onderzoekers, een samenwerking die een naadloze dienstverlening oplevert. Data Doordacht stelt de rol en de wens van de onderzoeker centraal bij de benadering van de problematiek rond Data Stewardship en Software Sustainability. Wij stellen voor de “vraag” vanuit de onderzoekswereld leidend te laten zijn bij de inrichting van data- en softwarediensten. Het wetenschappelijk bedrijf is in toenemende mate interactief: wat betreft data en diensten betekent dat geven en nemen. De “vraag” vanuit de onderzoekswereld is dan ook tweezijdig: waar kan ik mijn data deponeren en waar kan ik mijn of andermans data terugvinden? In beide gevallen zal DANS moeten luisteren naar de wensen uit het veld. Om daartoe te komen is wel een kaderstellend raamwerk (het Algemeen Kader) nodig om enige orde en een minimum aan uniformiteit te bereiken dat voor betaalbare duurzaamheid nodig is. In termen van de roadmap voor Research Data Management, waaraan SURF werkt op verzoek van de VSNU, wordt hier onder meer ingegaan op bewustwording en 2
Denk ook aan het advies van de Commissie Scientific Research Data (Schuyt), Responsible research data management and the prevention of Scientific Misconduct, KNAW, April 2013, ISBN 978-90-6984-656-9 3 Zie voor een uitleg van het gebruik van de verschillende termen het overzicht in de bijlage 4 Niet uitputtend omvat dat onderzoeksdata (denk aan databases, spreadsheets, tekst, afbeeldingen, audio, video, geodata, multimedia, streaming data, meetgegevens, simulatiedata, (snapshots van) dynamische data, etc.), onderzoekinformatie (informatie over onderzoek, onderzoeksinstituten en onderzoekers) en elektronische publicaties (inclusief preprints en rapporten, zoals die zich bevinden in institutionele repositories). Data doordacht
6
onderzoekersbetrokkenheid. Ook identificeren wij lacunes in de dienstverlening, maar dan vanuit een breder perspectief -qua belanghebbenden- en duidelijk gericht op de disciplines. Door de presentatie van een integraal concept (het Algemeen Kader) krijgen tal van lopende en voorgenomen initiatieven en acties hun natuurlijke rol. Dat is in lijn met de bijdrage aan de totale discussie die van de kant van NWO en de KNAW verwacht mag worden. Verder besteedt dit document -in aanvulling op de huidige draft van de genoemde roadmap- ook aandacht aan software sustainability. Bij de implementatie van de diensten en de breedte van het Algemeen Kader dat nog moet worden vastgesteld kan gebruik gemaakt worden van eerdere analyses, zoals van de Nationale Coalitie Digitale Duurzaamheid (NCDD)5. Gegevensbestanden en software moeten conceptueel beschouwd worden als waarde-objecten6 die in beginsel bescherming en behoud behoeven. Momenteel bestaat geen algemeen aanvaarde praktijk voor de omgang met deze waardeobjecten in de wetenschap (of daarbuiten), en veel aanpak is gericht op een generieke benadering van het probleem. Maar er bestaat duidelijk behoefte aan een specifieke benadering, gericht op de behoeftes van de (sub-)disciplines. Onder onderzoekers bestaat nu nog geen breed draagvlak voor extra inspanningen voor bescherming en behoud omdat de meerwaarde van zulke inspanningen over het algemeen wordt onderschat of niet wordt gezien7. Daar moet –met de onderzoekers in de hoofdrol- verandering in komen. Vele organisaties zijn op hun eigen manier bezig aandacht aan dit onderwerp te besteden: soms vanuit een toekomstvisie, zoals mogelijk hergebruik van data of software of de herhaalbaarheid van experimenten8, soms vanuit aansprakelijkheidsperspectief, zoals rond de integriteit9 van het onderzoek, of rond de herleidbaarheid van de conclusies in publicaties tot de data waarop die gebaseerd zijn. En soms zijn het andere praktische overwegingen, zoals een etalage-motief. Wij bieden hier een samenhangend macro-perspectief waarbinnen die acties een plaats krijgen. Tenslotte is de uitdaging om gestructureerd en met besef van belang met data en software om te gaan niet beperkt tot één discipline, een instelling, een land of een werelddeel10. Wel is een nationale schaal van een orde van grootte dat met een juiste aanpak een gidsfunctie bereikt kan worden die uitzicht biedt op een duurzame internationale aanpak. Een internationale aanpak met Europees leiderschap verdient uiteindelijk de voorkeur. Met het oog daarop is een apart document gemaakt, waarin met name aandacht wordt gevraagd voor de conceptuele benadering van de onderwerpen data stewardship en software 5
NCDD rapport Nationale Verkenning Digitale Duurzaamheid, Sector wetenschap, René van Horik, DANS, 1 juli 2009, met steun van OCW. 6 Deze visie gaat verder dan tot nu toe bekende beschouwingen, hoewel sommige materieel wel hierop neerkomen 7 Wel bestaat een groeiende behoefte aan enige coördinatie en is er bij een bepaald deel van de onderzoekers juist veel belangstelling, af te lezen uit de stormachtige groei van de internationale Research Data Alliance (https://rd-alliance.org) 8 Denk ook aan de “open”-beweging, open data, open science, open archive, open source, en aan de FAIR-ontwikkeling http://datafairport.org/. 9 Zie eerdere voetnoot over het rapport van de Commissie Schuyt. 10 RDA, De Research Data Alliance (https://rd-alliance.org/) is niet voor niets een organisatie met mondiale deelname Data doordacht
7
sustainability, getiteld: A conceptual approach to data stewardship and software sustainability. De nieuwe elementen kort samengevat: • • •
Behandel software sustainability beleidsmatig op gelijke voet met en als integraal onderdeel van data stewardship; Beschouw software en dataverzamelingen als waarde-objecten en draag dat ook zo uit; Stel de onderzoeker/onderzoekdisciplines centraal om hun betrokkenheid te verkrijgen, maar doe dat binnen een Algemeen Kader, met nader door de onderzoekers zelf uit te werken omgangsprotocollen, rekening houdend met Open en FAIR-bewegingen.
Draag daarbij tegelijk ook zorg voor de benodigde infrastructuur en services om de uitvoering van de organisatorische wensen nergens te belemmeren.
Data doordacht
8
5. Algemeen Kader en onderzoekersbetrokkenheid Abstract: De onderzoeker en zijn discipline staan centraal. Hoe kunnen individuele onderzoekers, onderzoeksgroepen en disciplines dan nauwer betrokken worden bij het welslagen van alle inspanningen die beleidsmatig op data stewardship/data management en software sustainability-gebied worden gepleegd en hoe kan de bewustwording van de belangen die met data en software gemoeid zijn bij de onderzoekers worden versterkt? Hoe kunnen onderzoekers als collectief beter en meer adequaat geholpen worden bij de concrete opstelling van data stewardship en software sustainability-plannen tijdens en na afloop van hun onderzoeksprojecten? Hoe is de samenhang met de “open”- en FAIR-bewegingen? Vanuit een macro-perspectief, uitgaande van de verantwoordelijkheden van de verschillende belanghebbenden, krijgen de lopende en nog te nemen acties hun onderlinge verband en kan in een kort aantal stappen een praktische en realistische aanpak worden afgeleid en kunnen de belanghebbenden hun rol hierin herkennen en invullen. 5.1. Bewustwording en erkenning Bewustwording van het belang van het duurzame behoud en de toegankelijkheid van data en software is een van de belangrijkste pijlers waarop een duurzaam succes rust. Inmiddels is dit belang duidelijk geworden bij de meeste overheden, subsidieverleners en de leiding van publieke organisaties, maar bij de direct betrokkenen, de onderzoekers, is dit nog slechts eilandsgewijs het geval. De uitdagingen liggen in een viertal onderwerpen: -
Het opstellen van aansprekende richtlijnen; Het creëren van laagdrempelige portals en structuren voor duurzame opslag; Het ontwikkelen van incentives11 die de betrokkenen wat oplevert; Het entameren van het gevoel van gezamenlijke verantwoordelijkheid.
Het voorstel is om aan onderzoekdisciplines (op voldoende differentiatieniveau) te vragen zelf protocollen te ontwikkelen voor de omgang met data en software tijdens en na afloop van onderzoeksprojecten en tijdens onderzoeksprogramma’s. Die protocollen zouden gepubliceerd moeten worden in dezelfde journals als hun overige publicaties zodat ze openbaar refereerbaar worden en met de disciplines gedeeld. Om dat te bereiken en om op een samenhangende manier de genoemde uitdagingen aan te gaan is een Algemeen Kader nodig waarbinnen onderzoekers collectief hun eigen verantwoordelijkheid kunnen en moeten nemen. Het Algemeen Kader is uiteindelijk een richtlijn met een algemene strekking, geschreven vanuit het algemeen belang en zo breed mogelijk overeengekomen door de verantwoordelijke categorie belanghebbenden. Daarover gaat de onderstaande beschrijving.
11
Te denken valt bij wijze van voorbeelden: wetenschappelijke credits, citatie van en referentie naar data en software Data doordacht
9
5.2. Organisatie, Algemeen Kader en belanghebbenden Om tot een integrale aanpak te komen is het scheppen van een Algemeen Kader en het identificeren van de belanghebbenden een eerste stap. Daartoe onderscheiden we op het hoogste niveau de volgende partijen: Overheden, onderzoeksorganisaties, subsidieverleners; Maatschappij en wetenschap; Faciliterende, uitvoerende en overige partijen. Belanghebbende Verantwoordelijkheid Taak Voor het vervolg kan het onderstaande plaatje als leidraad dienen: -
Figuur 1 Overzicht categorieën belanghebbenden, hun verantwoordelijkheden en hun taken In bovenstaand overzicht zijn de hoofdcategorieën belanghebbenden en hun verantwoordelijkheden en taken in onderling verband schematisch weergegeven. In de volgende tekst wordt hierop meer detail gegeven. De gebruikte kleuren in de koppen sluiten aan op de kleuren in dit schema. i. Overheden, onderzoeksorganisaties12, subsidieverleners Het belang van deze categorie partijen is gelegen in: -
-
Verantwoording over de inzet van middelen, rekening houdend met de erkenning van de wetenschappelijke inspanning van onderzoekers inzake data en software; Verantwoording over de besteding van de ingezette middelen, inclusief de verifieerbaarheid van onderzoeksresultaten; Doelmatigheid van ingezette middelen, waaronder de integriteit van de processen die met die middelen worden ingezet of onderhouden; Het ten behoeve van de maatschappij acteren om de maatschappelijke belangen, waaronder de economische en historische (erfgoed), de openheid en transparantie van data en de FAIRe toegang daartoe, te dienen.
Dat betekent dat deze categorie belanghebbenden gezamenlijk het Algemeen Kader vaststelt, waarmee het randvoorwaarden creëert, afwegingen maakt tussen kosten en baten, acties initieert om maatschappelijke doelen ten aanzien van data stewardship en software sustainability te bereiken. Het is in dit kader ook dat het opvatten van data en software als waarde-objecten kan helpen bij de verantwoording van het behoud, de duurzaamheid en bij de valorisatie. Bij het stellen van de kaders behoort ook de aandacht voor de erkenning van de inspanningen die gemoeid zijn met het genereren en/of verzamelen van data en het creëren van software. Tenslotte is deze categorie verantwoordelijk voor de aspecten van algemeen belang, die instellingen en disciplines overstijgen, waaronder die van het behoud van cultureel erfgoed.
12
Voor zover de organisatie (tevens) een subsidieverlenende rol heeft.
Data doordacht
10
ii. Wetenschap en maatschappij Maatschappij -inclusief het bedrijfsleven- en wetenschap hebben belang bij de versnelling van innovaties die uit de wetenschap kunnen voortkomen, door verbreding, verdieping of tempo van het onderzoek. Het belang kan economisch van aard zijn maar ook het fysiek en geestelijk welzijn en welbevinden dienen. Deze versnellingen worden in belangrijke mate ondersteund door de (versnelde) beschikbaarheid van onderzoeksresultaten, de (open) toegang daartoe, de communicatie daarover, de herbruikbaarheid daarvan en van de onderliggende materialen, waaronder data en software. Binnen de kaders die door de overheden, onderzoeksorganisaties en subsidieverleners worden gesteld moet de wetenschap zelf de verantwoordelijkheid hebben voor de inrichting van het data en software landschap, teneinde de meerwaarde van hergebruik te maximeren en de gewenste versnelling en verdieping van het onderzoek te bereiken. Zij staan het dichtst bij de bron en zijn de eerste actors, initiators, verzamelaars en creators van data en software en hebben alleen daarom al een majeure invloed op alles wat daarna komt: duurzaamheid, herbruikbaarheid, openheid etc. iii. Uitvoeringsorganisaties Hieronder vallen alle afgeleide partijen en organisaties die zich met de domeinen data stewardship en software sustainability bezighouden. Dienstverleners, intermediairs, softwareontwikkelaars, media en meer. Hieronder vallen naast DANS bijvoorbeeld ook NLeSC, SURF, SURFsara, RDNL, KB en vele andere en internationale organisaties. Deze categorie is net als de andere onmisbaar in het geheel. Zonder infrastructuur, services en bevlogen dienstverlening is de uitvoering van data en –softwarebeleid onmogelijk. Dit zijn ook de partijen die betrokken horen te worden bij de gehele discussie waar die hun directe belangen raakt. Ook kunnen ze een nuttige rol spelen in het kader van de checks and balances: worden afspraken nageleefd, kloppen de procedures, is “open” wat open hoort te zijn, etc. 5.3. Het Algemeen Kader (“framework”) Van onderzoekers wordt verwacht dat ze vanuit hun eigen belang en voor het algemeen belang (mocht dat niet samenvallen) werk verrichten dat leidt tot het duurzame behoud van hun waarde-objecten: artikelen, data, software en meer. Het behoort tot de wetenschappelijke mores om de nuttige vruchten van het onderzoek voor het nageslacht te bewaren en met anderen te delen, bij te dragen aan de versnelling van de onderzoekproductie en de maatschappelijke benutting daarvan (eventueel door derden) zo goed mogelijk te ondersteunen. Om hierbij te helpen wordt het “Algemeen Kader” geïntroduceerd dat na de vaststelling ervan door de verantwoordelijke instanties (denk daarbij voor Nederland aan KNAW, NWO, VSNU en eventueel OCW) wordt gebruikt door onderzoekers om eigen protocollen voor de omgang met data en software op te stellen en te publiceren. Het Algemeen Kader omvat de volgende elementen: • • • • 13
Beschrijving van het belang van de activiteiten; Minimum eisen waaraan protocollen voor software sustainability en data stewardship moeten voldoen; Richtlijnen voor de uitwisselbaarheid, resp. herbruikbaarheid; Richtlijnen ten aanzien van het gebruik van standaarden (denk aan RDA)13; Er zijn ook onderzoekgemeenschappen die standaarden opstellen.
Data doordacht
11
• • • •
Richtlijnen voor de implementatie van Open Science en FAIR-aspecten; Handleiding voor het opstellen van een protocol, incl. best practices en modellen; Verwijzingen naar wet- en regelgeving, waaronder afspraken over open science en open data; Overige elementen die tijdens het ontwerp ervan naar voren komen.
Daarnaast kan het kader suggesties bevatten voor de fysieke opslag van data en software en gegevens over bestaande partijen voor toegang en opslag, zoals de portals van RDNL en universitaire repositories. Aan de inhoud van dit Algemene Kader moeten de belanghebbenden (“KNAW, NWO, VSNU, ”) die dit kader laten opstellen hun inbreng kunnen hebben en het uiteindelijk eens worden. Dit kader dient vervolgens als start voor een actie die door de disciplines -met de nodige, mogelijk intensieve, begeleiding- binnen eigen gelederen gevoerd moet gaan worden. De vaststelling van het Algemeen Kader door genoemde partijen zou goed kunnen als onderdeel van een Nederlands Convenant voor Data Stewardship en Software Sustainability met het Concordat for Open Research Data (UK) als voorbeeld. Een concept Convenant-tekst is in de bijlage opgenomen.
Figuur 2 Kader en Protocollen-concept b. Protocollen Met het “Algemeen Kader” als richting zijn de onderzoekers aan zet. De disciplines worden uitgenodigd14 om elk op discipline-niveau (of subdisciplineniveau, naar behoefte) tot de opstelling van één of meer protocollen te komen voor data stewardship én software sustainability. De protocollen worden opgesteld door commissies binnen elke (sub-) discipline die voorzien worden van voldoende materiaal, inclusief templates en voorbeelden en tijdelijke ondersteuning naar behoefte, om het werk efficiënt en doelgericht te kunnen doen. Onder discipline moet in dit verband worden verstaan een groep van onderzoekers die ten aanzien van databeheer en softwareontwikkeling vergelijkbare belangen hebben en vergelijkbare eigen randvoorwaarden delen. 14
Het zou goed zijn als één van de belanghebbende partijen uit de eerste categorie (overheid, onderzoeksinstellingen, subsidieverlenende partijen) een van de uitvoerende partijen de opdracht zou geven deze activiteit te ondernemen. Voor DANS zou dit een passende rol zijn. NWO en KNAW zouden de opdrachtgevers namens de overheid kunnen zijn. Data doordacht
12
In de praktijk kunnen dat dus zelfs sub-sub-disciplines zijn en is het ook mogelijk dat er verschillende protocollen op dit niveau worden opgesteld, voor verschillende types data of software. Ook kan het zijn dat mettertijd meerdere protocollen ontstaan of geüpdatete versies van een basisprotocol. Flexibiliteit is immers belangrijk om de vooruitgang niet in de weg te staan. Een belangrijk aspect is de openbare publicatie van de protocollen, bij voorkeur in dezelfde wetenschappelijke tijdschriften als waarin de groep doorgaans publiceert. Zo nodig moet hierover met de uitgevers worden overlegd op het niveau van de kaderstelling. Indien op deze protocollen ook de peer review procedure wordt toegepast, kan dit tevens bijdragen tot internationale erkenning van de protocollen, die daarmee verder gaat dan wat we binnen onze landsgrenzen afspreken. Mocht deze procedure succesvol zijn dan krijgen de auteurs van het protocol ook de credits die voor een dergelijke publicatie passend en gebruikelijk zijn. Deze protocollen zijn te vergelijken met protocollen die in het medische/farmaceutische domein al langer in gebruik zijn voor de (soms gedetailleerde) beschrijvingen van medische of farmaceutische experimenten. Ook deze protocollen zijn openbaar gepubliceerd. Ook in de archeologie bestaan zulke protocollen, die mede in verband met de strenge wetgeving rond opgravingen, daar al langer in gebruik zijn. c. Implementatie Het is voor het succes van de gehele aanpak van belang dat de acties onderling goed zijn afgestemd en dat de uitvoeringsorganisaties in onderlinge samenhang goed weten waar ze op moeten inspelen. Er moet een goede infrastructuur zijn die de data en software kunnen herbergen en verplaatsen, er moeten kosteneffectieve diensten beschikbaar zijn gericht op toegankelijkheid, praktisch gebruik, uitwisselbaarheid, transport, vindbaarheid, duurzaamheid, onderhoud, openheid en alles dat de meerwaarde van software sustainability en data stewardship helpt tot uiting te komen. De inrichting van een Research data Management Coördinatiepunt komt hierbij uitstekend van pas, mits het tenminste de gehele onderzoekswereld bij de coördinatie betrekt.
Data doordacht
13
6. Lacunes in de datadienstverlening -en de vraag uit de levenswetenschappenAbstract: Alle disciplines moeten gelijkelijk toegang hebben tot goede diensten die zijn toegesneden op het betreffende vakgebied. Naast kale opslagfaciliteiten zijn voor alle domeinen meerwaardige diensten nodig, die bijdragen aan de vindbaarheid, verduurzaming, toegankelijkheid en leverbaarheid van data. Er bestaan momenteel grote verschillen in het bestaan van dienstverlening per domein en in de kwaliteit ervan. DANS zoekt ruimte om de dienstverlening zo goed mogelijk te laten aansluiten bij de vraag. 6.1. Inleiding Sinds de oprichting van DANS in 2005 is het belang van data in de wetenschap en daarbuiten sterk toegenomen. En daarmee ook het belang van de rol van DANS in het data-landschap. Research Data Management en het delen van onderzoekdata zijn “hot issues” geworden, zowel positief (Big Data biedt gouden mogelijkheden) als negatief (gevallen van fraude met onderzoekdata). Door vooral naar de vraag te luisteren heeft DANS in de loop van de tijd zijn portfolio aan activiteiten en diensten uitgebreid. Waar mogelijk en doelmatig binnenshuis en waar aangewezen en praktisch met andere partijen samen, met in gedachten een “collaboratieve data infrastructuur” conform het rapport “Riding the Wave”15 van oktober 2010. 3TU.datacentrum en SURFsara in het verband RDNL moeten daarbij met name worden genoemd (meer hierover in paragraaf 7.2). Als dienstverlenende organisatie moet DANS zich primair door de vraagontwikkeling laten leiden: klantgericht, proactief, adequaat, doelmatig en kosteneffectief. Vandaar ook dat per discipline en soms zelfs datatype naar het veld geluisterd moet worden om tot goed aansluitende dienstverlening te komen. In dit hoofdstuk wordt meer specifiek een antwoord gegeven op een tweetal vragen: -
-
Hebben de levenswetenschappen behoefte aan archiveringsdiensten zoals DANS die reeds aan andere disciplines levert, en door welke organisatie(s), binnen en buiten RDNL-verband kunnen die worden geleverd? Welke rol kan DANS hierbij spelen? Aandacht wordt besteed aan de rollen van DTL, MEMIC, dienstverlening aan de LW-instituten van de KNAW, en aan de positie t.o.v. ZonMw en de NFU.
6.2. Lacunes in de dienstverlening In de afgelopen jaren zijn diverse onderzoeken uitgevoerd waarin is gevraagd naar of en in hoeverre onderzoekers data delen dan wel archiveren. Uit een eigen survey uit 2011 bleek meer dan 70% van de onderzoekers zijn data lokaal op te slaan op de eigen computer, en tussen de 10 en 20% op een centrale faciliteit buiten de eigen afdeling of instituut. Een Europese survey uit 2009 kwam op vergelijkbare percentages: “When asked where researchers store their research data, the most important locations, in order of the number of responses, are: personal computer at work 15
Riding the wave: How Europe can gain from the rising tide of scientific data. Final report of the High Level Expert Group on Scientific Data. A submission to the European Commission, October 2010, 40 p. Zie: http://cordis.europa.eu/fp7/ict/einfrastructure/docs/hlg-sdi-report.pdf Data doordacht
14
(81%), portable storage carrier (66%), organizational server (59%), and computer at home (51%). Of the 41% of the respondents who do not store data on organisational servers the majority stores their data on a local directory on their computer at work, on portable storage carriers, or on the computer at home.” Ca. 20% zei een digitaal archief te gebruiken voor data-opslag16. In de tussentijd zijn er nieuwe opslagdiensten ontstaan, waarbij cloudopslag (Dropbox, SURFdrive) grote populariteit heeft verworven voor het informeel delen van informatie tussen collega’s. Op grond van een nog niet gepubliceerd internet survey dat in begin 2015 werd gehouden onder Nederlandse onderzoekers in de sociale en geesteswetenschappen komt een beeld naar voren dat gemiddeld ca. 10% zijn/haar data bij DANS archiveert. Een goede indruk van de situatie per vakgebied binnen de domeinen van de sociale en geesteswetenschappen wordt verkregen door te kijken naar de datagroei gerelateerd aan de omvang van de disciplines, gemeten naar het aantal experts in Narcis (zie Figuur 2). Uit de grafieken blijkt een groei van het aantal gearchiveerde datasets over de hele linie, met een tendens dat de gebieden waarvan de meeste datasets gearchiveerd zijn, ook het snelst groeien. Dit zijn niet noodzakelijk de grootste vakgebieden gemeten naar aantallen experts in NARCIS. De archeologie is en blijft een duidelijke uitschieter. Dit is het gebied waarin de duidelijkste protocollen zijn geformuleerd, die bovendien zijn ingebed in de Europese en Nederlandse wet- en regelgeving.17 Het is onze stellige overtuiging dat het opstellen van protocollen voor databeheer door de disciplines zelf, ingebed in een nationale en internationale beleidsbepalende kaders, zoals bepleit in hoofdstuk 1, een effectieve weg is om de situatie te verbeteren. 10000
1000
100
10 Sep-15
Demography
Social security studies
Leisure and recrea2on studies
Palaeography, bibliology, bibliography, library
Gerontology
Personnel administra2on and management
Archaeology
Traffic and transport studies
Cultural anthropology
Women's / Gender studies
Pedagogics
Social geography
Urban and rural planning
Environmental studies
Communica2on sciences
Sociology
Development studies
Theology and religious sciences
History
Philosophy
Arts and culture
Science of educa2on
Language and literature studies
Psychology
Health sciences
Poli2cal and administra2ve sciences
Economics
Dec-10 Science of law
1
16
Parse.Insight rapport “Insight into digital preservation of research output in Europe”, 2009, http://www.parse-insight.eu/. Zie o.a. Figure 17: where researchers keep their data for future use. 17 Zie: www.sikb.nl/protocollen Data doordacht
15
Ec on o Sc mic s ie n c Po e o l i 2 f l a w c Ps al a yc nd h o a He log dm in y al i st th ra La sci 2v ng en e ua ce sc ie Sc ge s nc ie es nc and e l ite o Ar f ts an edu ratu r c d e Hi a st cul 2o stu or n tu di es Ph y re ilo so Th p h eo y lo So gy cio an d l De ogy reli gio ve lo us sc En p m ie vir en nc on t s es tu Co m m en die ta m s l u Ur st ni u c ba a2 di n e o Pe and n s s c da go rura ienc So gic l p es cia s la n n l in Cu geo g ltu gr ap r W al a hy om n t e hr Ar n's opo ch / G lo gy ae e T r o l o n d e affi gy r c a stu di Ge nd es ro n tra Pe tolo nsp o rs g on y rt s tu Le ne di i su l a es dm r Pa e an ini s la d t eo re ra De gra cre 2on m ph a2 o and o y So grap , bib n st ma cia na hy lio udi e lo l s gy s gem ec , b ur en i ty ib t lio st gr ud ap ie hy s , li br ar y s c 1 Sep-15 10
Dec-10
100
1000
10000
100000
Figuur 3 Aantallen experts (volgens NARCIS) en datasets (in EASY), humaniora, sociale en gezondheidswetenschappen, 2010 en 2015; NB: door de gehanteerde logaritmische Y-as lijkt de aanwas 2010-2015 kleiner dan in werkelijkheid 6.3. Een palet van data-diensten DANS biedt voor het duurzaam archiveren en (her)gebruiken van onderzoeksgegevens drie online diensten: EASY, DataverseNL en NARCIS. Daarnaast biedt DANS archiveringsservices op de achtergrond voor instellingen als veiligheidsgarantie (“Dark Archive”), verzorgt DANS training en consultancy op het gebied van datamanagement en certificering van archieven en doet DANS onderzoek naar duurzame toegang tot digitale informatie. EASY (easy.dans.knaw.nl) is een online archiveringssysteem met tienduizenden datasets van onderzoekers en instituten uit afgerond onderzoek. Onderzoekers kunnen hun data zelf in EASY deponeren; voor instituten bestaat de mogelijkheid dit geautomatiseerd te regelen. Via EASY zijn datasets van anderen eenvoudig te downloaden en (her)gebruiken. EASY is gecertificeerd volgens het datakeurmerk Data Seal of Approval. De meeste datasets zijn open toegankelijk. Het overgrote deel van de datasets is afkomstig uit de alfa- en gammawetenschappen, een klein deel betreft de levenswetenschappen. Met DataverseNL (dataverse.nl) kunnen onderzoekers en docenten onderzoeksdata online opslaan, delen en registreren tijdens onderzoek en tot maximaal 10 jaar erna. DataverseNL wordt gezamenlijk aangeboden door de deelnemende instellingen en DANS. DataverseNL gebruikt software ontwikkeld door Harvard University (http://dataverse.org/). Het platform wordt wereldwijd gebruikt. Het beheer van de data ligt in de handen van de instellingen; de service kan door alle vakgebieden worden gebruikt. Sinds 2014 voert DANS het technisch beheer van DataverseNL. NARCIS (narcis.nl) is de nationale portal voor wie zoekt naar wetenschappelijke informatie waaronder (open access) publicaties afkomstig uit de repositories van alle Nederlandse universiteiten, KNAW, NWO en diverse wetenschappelijke instellingen, en datasets van een aantal data-archieven. NARCIS biedt beschrijvingen van onderzoeksprojecten, experts en onderzoeksinstituten in Nederland. DANS werkt nauw samen met aangesloten universiteiten en andere instellingen om NARCIS zo actueel en volledig mogelijk te maken en houden. De service betreft alle vakgebieden.
Data doordacht
16
De training en consultancy die DANS aanbiedt staan ook open voor iedere geïnteresseerde. De RDNL-cursus “Essentials 4 Data Support” wordt enkele keren per jaar gegeven en is zeer succesvol. DANS neemt ook deel aan een groot aantal innovatieve data- en researchinfrastructuurprojecten. Een aanzienlijk deel daarvan is gericht op de geesteswetenschappen en de maatschappij- en gedragswetenschappen, maar een deel staat los van een vakgebied, of beoogt juist om de samenwerking tussen alfa’s, gamma’s en beta’s te versterken. Binnen de geesteswetenschappen neemt het CLARIAH-project een bijzondere plaats in. DANS stond aan de wieg van DARIAH in Europa en CLARIAH in Nederland. DANS heeft veel projecten van research-communities gesteund, al richt het zich de komende jaren sterker op back-office functies. DANS neemt ook deel aan diverse sociaal-wetenschappelijke data-infra projecten, zoals het Europese CESSDA en het landelijke Survey Data Nederland (Surveydata.nl). Een speciaal punt van aandacht vormt de nationale sociaalwetenschappelijke data-infrastructuur (NSWD), waarbij de toegang tot CBS-data een bijzondere plek inneemt. De financiering van het grootschalig en langlopend academisch survey-onderzoek staat al jaren onder druk. Zowel de levering als het gebruik van CBS-microdata lopen terug. Het convenant van DANS met het CBS loopt eind 2015 af en bij verlenging daarvan moet rekening gehouden worden met de noden en wensen van de NSWD. De belangrijkste data services van de RDNL-partners worden omschreven in paragraaf 7.2. Er bestaat daarnaast een groeiend aantal disciplinegewijze of thematische georganiseerde datarepositories en institutionele databewaarplaatsen. In het register van re3data (http://re3data.org) staan in oktober 2015 wereldwijd 1350 “research data repositories” vermeld. Deze zijn overigens heel ongelijkvormig: ook specifieke databases, informatiesystemen, digitale encyclopedieën en research infrastructures worden meegeteld. Voor Nederland alleen zijn 28 “repositories” geregistreerd. Er zijn ook andere, algemene, data-repository diensten ontstaan, zoals Zenodo (OpenAire/CERN), Dryad, Figshare (MacMillan), Dataverse (Harvard), EUDAT en Mendeley Data (Elsevier). De langetermijn duurzaamheid van deze diensten is vaak onduidelijk. De meeste repository-aanbieders zijn niet gecertificeerd en geven geen garanties: zij bieden hun diensten aan “as is”. Voor een groeiend aantal organisaties biedt DANS gecertificeerde langetermijnarchivering “op de achtergrond”, voor het geval zich bij de primaire databeheerder een calamiteit voordoet of het databeheer op de lange termijn niet gecontinueerd wordt. Onlangs is met Elsevier een contract afgesloten om een dergelijke service te verlenen voor het nieuwe Mendeley Data platform (https://data.mendeley.com). De data in Mendely Data kunnen afkomstig zijn uit alle vakgebieden en alle landen. Ook is DANS partner in EUDAT, een reeks dataservices waarin de EU zwaar investeert en die mogelijk de komende jaren uitgroeit tot aantrekkelijk technisch platform dat ook door DANS gebruikt kan worden (http://eudat.eu/).
Data doordacht
17
6.4. De vraag naar datadiensten in de levenswetenschappen Vooral vanuit de sector levenswetenschappen, geneeskunde en gezondheidszorg wordt DANS regelmatig benaderd met concrete vragen over mogelijke dienstverlening of samenwerking. Dit is uiteraard een groot en heterogeen gebied, dat op grond van de expertisegegevens uit Narcis ruim een kwart van de Nederlandse wetenschappelijke onderzoekers omvat. De sector omvat globaal de vakgebieden weergegeven in Figuur 3.
Gezondheidswetenschapp Bewegingswetenschappen en… 1% Diergeneeskunde 1%
Histologie, celbiologie Anatomie, morfologie 3% 0%
Geneeskunde 29% Genetica 5%
Fysiologie 4%
Other 25% Biochemie 5% Biologie 17% Levenswetenschappen 20%
Biofysica, klinische fysica 2%
Immunologie, serologie 3%
Epidemiologie en medische statistiek Bioinformatica, 1%
biomathematica 3%
Figuur 4 Verdeling van experts in de levenswetenschappen, geneeskunde en gezondheidszorg (percentages), oktober 2015, met onderverdeling van de levenswetenschappen. Bron: NARCIS DANS is de afgelopen jaren gevraagd om diensten, samenwerking of advies door onder andere LifeWatch, Naturalis, ZONMW, NFU, NLBIF, DTL, NIOO, Academisch Medische Centra van VU en EUR, Diergeneeskunde Nijmegen, Dondersinstituut Nijmegen, MEMIC, KWF Kankerbestrijding, Reumafonds en RIVM. In sommige gevallen bleef het bij verkennende gesprekken (bijv. Dondersinstituut, AMC VU), in andere werd een MoU geformuleerd (LifeWatch, DTL), leverde DANS consultancy en droeg bij aan adviesrapporten (ZONMW, NFU, Naturalis), werd een pilot project geformuleerd (Diergeneeskunde Nijmegen) en soms worden ook concrete data-opslagdiensten geleverd (ZONMW, NIOO, NLBIF, Reumafonds; > 250 levenswetenschappelijke datasets in EASY in oktober 2015).
Data doordacht
18
Enkele illustratieve gevallen zijn: • Het Dondersinstituut heeft DANS enkele jaren geleden benaderd voor de archivering van ca. 70 Tb aan hersenscans. Dit is afgeketst wegens te hoge opslagkosten. Het Dondersinstituut is vervolgens zelf een dataarchiveringssysteem gaan bouwen, dat bijna gereed is. Naar verluidt zijn de ontwikkelkosten zeer tegengevallen. • Over NLBIF is eerder dit jaar een adviesrapport uitgebracht. In dit rapport wordt DANS verschillende malen genoemd als mogelijke samenwerkingspartner of consultant voor de herinrichting van de NLBIFdatainfrastructuur. Nederland deelt via NLBIF meer dan 20 miljoen biodiversiteitdata met de rest van de wereld en behoort daarmee tot de 5 grootste data leverende landen binnen het GBIF-netwerk. De Nederlandse data zijn afkomstig van zo'n 121 datasets aangeleverd door meer dan 20 instituten en organisaties. Het merendeel van de data betreft monitorings- en onderzoekdata afkomstig van instituten als Alterra (onderdeel van Wageningen UR) en het NIOZ, Universiteiten en (semi) overheidsorganisaties als STOWA, het RIVM en Rijkswaterstaat. Ook particuliere organisaties als Sportvisserij Nederland en RAVON leveren een bijdrage. Collectiedata zijn afkomstig van Naturalis Biodiversity Center, Het Centraal Bureau voor Schimmelcultures en een keur aan regionale musea. Organisatie, beheer en standaardisatie/harmonisatie van de heterogene databanken vormen voor NLBIF een uitdaging. DANS meende niet over voldoende capaciteit te beschikken om deze taak op zich te nemen, maar heeft NLBIF wel aangeboden op te treden als archief voor de lange termijn. • DTL richt zich op “the great potential of high-end technologies in pioneering life science research, and on the skills and solutions to professionally use computers to deal with the ever-growing data streams in research.” In verschillende gesprekken is gebleken dat de DANS-archiefdiensten complementair zijn aan de werkzaamheden van DTL, en dat een dergelijke langetermijn-archiefservice op veel deelgebieden van de levenswetenschappen ontbreken. Voor bepaalde segmenten en instellingen zijn ze er wel, bijvoorbeeld DTL’s partner UMC Utrecht biedt een “shared resource for safely archiving large quantities of data”. Ook international zijn er faciliteiten als het European Genome-phenome Archive (EGA: https://wwwdev.ebi.ac.uk/ega/home). Ook het FAIR-data inititiatief, dat oorspronkelijk uit DTL-kring afkomstig is, en het Data Seal of Approval vertonen zoveel overeenkomst dat samenwerking nuttig lijkt. DTL en DANS werken aan een MoU. • MEMIC, centrum voor data- en informatiemanagement, werkzaam binnen het MUMC, faciliteert datamanagement van wetenschappelijk onderzoek, onderwijs en gezondheidszorgprojecten, door advisering en ondersteuning te leveren aan het logistieke proces en bij de uitvoer van Dataverzameling, Informatiebeheer en Kennisontsluiting. MEMIC wil graag nader samenwerken met DANS. • Het Nederlands Instituut voor Ecologie (NIOO) heeft in de afgelopen jaren diverse malen interesse getoond in samenwerking met DANS. Op bescheiden schaal wordt ook wel samengewerkt, maar digitale archivering bij DANS van de ca. 400 TB aan data waarover het NIOO beschikt, stuit op twee bezwaren: de (verondersteld) hogere opslagkosten bij DANS dan intern en onduidelijkheid over de vraag of de KNAW archivering van LW-data tot de missie van DANS vindt behoren. Het DANS-archief bevat twee NIOObestanden; ook participeert NIOO als enige KNAW-instituut in DataverseNL. Data doordacht
19
Naast • • • • •
het NIOO beheert de KNAW nog vijf LW-instituten, te weten: Centraalbureau voor Schimmelcultures (CBS) Hubrecht Instituut voor Ontwikkelingsbiologie en Stamcelonderzoek Netherlands Heart Institute (ICIN) Nederlands Herseninstituut Spinoza Centre for Neuroimaging
De instituten beheren ieder hun eigen data, deels met intern ontwikkelde systemen, al dan niet ondersteund door de afdeling I&A van de KNAW. Uit de (concept) Data Roadmap van de KNAW18 blijken de instituten alle te verwachten dat hun datastromen de komende jaren aanzienlijk zullen groeien. De nota stelt dat de instituten veelal te maken hebben met vergelijkbare vragen wat betreft de opslag, verwerking en beschikbaarstelling van data. Het gaat om zaken als: • De vraag naar passende opslag voor de groeiende hoeveelheid en diversiteit aan data die fors toeneemt en de komende jaren zal blijven groeien. Dit betekent een toename in de kosten voor de opslag van data. • Er is een stijgend aanbod aan opslagdiensten en –leveranciers en er komen ook steeds meer initiatieven van de grond, zowel nationaal als internationaal, specifiek voor een discipline en interdisciplinair. Hoe daarin te kiezen? • Er is in toenemende mate aandacht voor en toezicht op de naleving van wetten, regelgeving en afspraken, zoals de Gedragscode Wetenschapsbeoefening, de Wet Bescherming Persoonsgegevens, de Archiefwet en de Wet op Auteursrecht. • Subsidieverstrekkers voor onderzoek stellen uiteenlopende eisen aan opslag en omgang met data. In elk geval verwachten zij (waaronder NWO en EU) in toenemende mate een dataparagraaf, die later wordt uitgewerkt in een datamanagementplan met aandacht voor duurzame opslag van data die tevens open access toegankelijk is. Beleidsconsequenties uit de Roadmap zijn nog niet getrokken, maar het lijkt niet bijzonder efficiënt als ieder instituut zijn eigen voorzieningen voor dataarchivering en beschikbaarstelling ontwikkelt en beheert. DANS zou hiervoor, al dan niet in samenwerking met de RDNL-partners, faciliteiten kunnen aanbieden (bijvoorbeeld Dataverse) of ontwikkelen (in samenwerking met de betreffende instituten). Schema 1: risicoanalyse bij de afweging alfa- en gammasector Risico: 1. DANS kan de verbreding naar meer disciplines niet waarmaken 2. Er is geen of onvoldoende financiering
3. Onvoldoende inhoudelijke kennis
wel of geen DANS- diensten buiten de Beoordeling en beheersing: DANS beperkt zich buiten de α- en γsector tot vakgebieden waar een expliciete vraag bestaat DANS gaat alleen in op verzoeken tot dienstverlening waar financiering tegenover staat; nader onderzoek is nodig naar de mogelijkheden bij ZONMW en NWO-ALW. DANS verleent alleen diensten waarover bij het instituut kennis aanwezig is.
18
KNAW Roadmap data 2015-2018: voor de institutenorganisatie, concept 0.9. 30 januari 2015. Data doordacht
20
4. DANS gaat ten onder in de data vloedgolf
5. Opslag bij DANS is te duur
6. Verbreding gaat ten koste van de dienstverlening aan de sociale en geesteswetenschappen
Uiteraard groeit de kennis als services aan nieuwe vakgebieden geboden worden. DANS richt zich vooral op “long-tail data”; opslag van Big Data gebeurt in samenwerking met SURFsara, of door archieffuncties op lokale opslagsystemen te implementeren “breng het archief naar de data in plaats van de data naar het archief”. Zie verder ook 2. DANS werkt samen met I&A aan alternatieve, goedkopere opslagsystemen dan uitbestede opslag. Hierdoor ontstaat voor de klant meer keuze. Als DANS vraaggestuurd werkt, geldt dat ook voor de α- en γ-sector. Bovendien worden de services alleen geboden als er financiering voor is (zie 2).
6.5. Conclusies en aanbevelingen De conclusies grijpen terug op de constateringen in de inleiding: het landschap van datadiensten (management, archivering, hergebruik) is zowel landelijk als internationaal sterk versnipperd. Met de groeiende aandacht voor research data management bij onderzoeksfinanciers en –organisaties is ook het aantal aanbieders sterk gegroeid. Er zijn verspreide faciliteiten, die deels per instituut/instelling zijn georganiseerd, deels landelijk en deels internationaal voor bepaalde disciplines. Het datalandschap is onoverzichtelijk en er is behoefte aan transparantie, coördinatie en ordening. De kwaliteit en garanties die de verschillende dienstverleners bieden zijn vaak onduidelijk. In Nederland zijn goede voorzieningen aanwezig, die beter op elkaar afgestemd kunnen worden, en RDNL is een goede aanzet daarvoor, al is de huidige organisatiestructuur nog zwak. Er is over de hele linie een stijgende vraag naar datadiensten, al zijn er duidelijke verschillen tussen de vakgebieden, zowel naar de omvang als naar de precieze aard van de diensten. De verschillen hebben zowel te maken met de volumes van dataproductie (big data versus long-tail data) als met vakinhoudelijke verschillen en de toegepaste computertechnieken. Anderzijds zijn de eisen van digitale archivering voor de middellange en lange termijn voor alle vakgebieden vergelijkbaar, met een beperkte bandbreedte van variaties. Uit verschillende segmenten van de levenswetenschappen groeit het aantal concrete verzoeken om dienstverlening aan DANS. DANS heeft daar steeds welwillend maar betrekkelijk terughoudend op gereageerd. Globaal zijn er drie alternatieven om op de vraag naar datadiensten uit de levenswetenschappen in te gaan: laat ieder instituut zelf zijn eigen boontjes doppen; creëer een “DANS Data doordacht
21
voor de Levenswetenschappen”; of geef DANS, in RDNL-verband, een expliciete rol. Het eerste alternatief handhaaft in feite de status quo. Het is waarschijnlijk de duurste oplossing, al zal een groot deel van de kosten “verborgen” zijn, omdat ieder instituut de dataproblemen binnen de eigen begroting moet oplossen. Het tweede alternatief is ook kostbaar en vergt zeker een gedeeltelijke verdubbeling van investeringen die al eerder in DANS zijn gedaan. Er is geen bestaande levenswetenschappelijke organisatie die deze behoeften aan services uit het veld kan leveren. Het derde alternatief is meer rendabel als het slim wordt georganiseerd. Laat DANS zich mede richten op archivering van levenswetenschappelijke long-tail data. In RDNL-verband, samen met SURFsara en 3TU.Datacentrum, en in afstemming met DTL, kunnen oplossingen voor big data in de LW worden ontwikkeld. Het ligt voor de hand hierbij ook bestaande Europese levenswetenschappelijke data-archieven te betrekken, zoals het European Genome-phenome Archive (EGA, zie: https://www.ebi.ac.uk/ega/). In het algemeen werkt DANS als dienstverlener het beste als het wordt gestuurd door de vraag. Geef DANS de ruimte om voor klanten en gebieden te werken waar een vraag naar services bestaat. Natuurlijk zal het instituut werken aan vraagontwikkeling, en zal dat gepaard moeten gaan met het zoeken naar financiering van de te verlenen diensten. Het is niet te verwachten dat er snel een vraag komt naar dataopslag-diensten op vakgebieden die van oudsher hun eigen data-infrastructuren organiseren, zoals uit de deeltjesfysica of de astronomie. Incidentele verzoeken om advies, bijvoorbeeld over certificering (Data Seal of Approval), kan DANS zonder probleem aan. Laat DANS ook de mogelijkheden benutten om “dark archive” diensten uit te breiden, ongeacht het vakgebied en zelfs het land van herkomst van de data, mits die service zonder grote risico’s kostendekkend kan worden aangeboden. De wal zal dan vanzelf het schip keren.
Data doordacht
22
7. Infrastructuur voor de archivering, het onderhoud en de beschikbaarstelling van software Abstract: Hoe kan in Nederland voorzien worden in een passend beleid voor “Software Sustainability” en waarom is dit belangrijk? Welke criteria zijn van belang voor het (doen) onderhouden van software, hoe pakken we dat organisatorisch aan? Wat is de Europese dimensie, welke infrastructuur is daarvoor nodig en welke partijen spelen daarbij een rol. Welke rol kan DANS daarbij in het bijzonder vervullen? 7.1 Onderscheid en samenhang data stewardship en software sustainability ata stewardship en software sustainability SOFTWARE SUSTAINABILITY onderscheiden zich primair daardoor, dat data zo INSTITUTE goed mogelijk in originele staat moeten worden bewaard en dat software juist moet worden onderhouden om herbruikbaar te zijn. Bijzonderheden hierbij zijn ondermeer dynamische data en software die om historische/erfgoedredenen bewaard wordt. Het SSI is een UK-national facility. De samenhang tussen data en software is echter Het doel van SSI is meerledig. Het ook heel sterk: op geen ander medium dan papier belangrijkste element is het zijn data zonder software toegankelijk, of het nu voorzien in hoogwaardige platte tekst betreft of welk ander format van data services gericht op het schrijven ook. Deze samenhang wordt vaak onderschat of niet onder ogen gezien. Data zijn zonder software van betere software, in zekere zin waardeloos of in ieder geval bewustwording van het belang onbruikbaar. Anderzijds vormt software ook een van (goede) software, promotie data-object van een speciaal type (“executable van best practices. Mantra zijn: data”). Zowel software als data doorlopen een levensloop van verzameling/creatie via • Behoud de software in de uitbreiding/updates en upgrades naar gemeenschap die de software gebruik/verwerking. Gedurende zo’n loop zijn deze ontwikkelde; vormen van data dus ook heel dynamisch. • Werk met de eigen Dynamische data (denk ook aan websites en gemeenschap om de kracht dergelijke) vragen daarboven nog om extra van de software te aandacht op het gebied van beheer. verbeteren; De conclusie is dat het verstandig is om voor de • Introduceer geen blijvende onderwerpen data stewardship en software afhankelijkheid van SSI; sustainability zoveel mogelijk dezelfde procesgang te hanteren tot de grens wordt bereikt waarbij voor • Breid (gebruikers-) netwerken beide trajecten de verschillen optreden. uit en benut de kansen voor NLeSC heeft in 2012 een visie uitgebracht op Data software binnen die Stewardship die werd gedragen door de eScience netwerken Integrators en is aangeboden aan haar stichters NWO en SURF. Hierop is in 2015 een update uitgebracht. Inmiddels heeft NLeSC in samenwerking met DANS een visiedocument opgesteld over Software Sustainability. Belangrijk doel van dit document is om een bijdrage te leveren aan de bewustwording op dit gebied en om ook de samenhang tussen de twee domeinen (Data Stewardship en Software Sustainability) tot uitdrukking te brengen.
Data doordacht
23
Vanuit de Knowledge Exchange (KE) Workshop19zijn verder de volgende voordelen van een software sustainability beleid benoemd: • • • • • •
Verbeterde reproduceerbaarheid van wetenschappelijke resultaten; Verhoogde “return on investments” voor wetenschappelijke projecten; Versnelling van “scientific discovery” door (gedeeltelijke) hergebruiksmogelijkheden; Zekerstelling van de leesbaarheid en toegankelijkheid van data; Onderzoekers helpen voort te bouwen met eerdere inspanningen als basis; Het behoud van historische software voor historische documenten.
Aanbevelingen direct vanuit de KE workshop zijn de volgende: •
• • •
Bevorder goede onderzoekspraktijken voor de ontwikkeling van software met het oog op software sustainability in nauwe samenhang met research data management; Bevorder het beschouwen van onderzoekssoftware als voor software citeerbare wetenschappelijke output, equivalent met een publikatie; Ontwikkel modellen voor de academische wereld voor het behoud, onderhoud, delen en verspreiden van onderzoekssoftware; Verzeker de erkenning en carrièrepaden van de research software engineers;
Ondersteun de training van goede software ontwikkeling vaardigheden voor onderzoekers. Ontwikkel software en data- “carpentry” training voor promovendi.De bespreking van deze elementen komt in dit hoofdstuk verder aan de orde. 7.2. Software Sustainability: handvatten voor een praktische aanpak De uitdagingen waarvoor de gemeenschap gesteld staat als het gaat om software sustainability omvatten in ieder geval: • •
• • • •
Het vanaf de start rekening doen houden met toekomstig onderhoud, deels ook een onderwijstaak (opleiding van wetenschappelijke programmeurs); Het vanaf de start rekening doen houden met herleidbaarheid van uitkomsten (data) tot (een specifieke versie van) voor publicatiedoeleinden gebruikte software; Stellen van criteria voor de waarde en waardevastheid van software, programma’s en tools; Het stellen van criteria voor het toekomstig onderhouds- en investeringsniveau van gekwalificeerde software; Het realiseren van afspraken over het daadwerkelijk onderhoud van software en de Vorming van een verband van software onderhoudsgroepen.
In aanvulling daarop kan worden gedacht aan het opzetten van een validatiesysteem, onder de titel Software Seal of Approval (SSA). zoals ondermeer besproken bij de Knowledge Exchange Workshop. Dat moet gebaseerd worden op belangrijke aspecten die de sustainability mede bepalen, maar niet op de “wetenschappelijke validatie’, omdat die niet te bepalen is zonder wetenschapsinhoudelijke kennis. Wel moeten daarbij ondermeer de volgende aspecten een rol spelen: functionaliteit, onderhoudbaarheid – 19
KE Workshop, Berlijn 1,2 oktober 2015. KE is een activiteit van DFG, JISC, CSC, DEff, SURF. Data doordacht
24
waaronder versioning-, testbaarheid, transparantie, gebruiksgemaks-aspecten, vindbaarheid, operationele betrouwbaarheid, en herbruikbaarheid. Voor het instellen van een dergelijk SSA bestaat internationale belangstelling. Het is van belang is de dagelijkse praktijk hierbij in het oog te houden. Het is tenslotte niet de bedoeling nieuwe ontwikkelingen in de weg te staan door regelgeving of het te lang vasthouden aan bestaande programma-codes. Veel kan worden geleerd van het Software Sustainability Institute (SSI) in het verenigd Koninkrijk, dat een consortium heeft gevormd, bestaande uit de universiteiten van Edinburgh, Southampton, Manchester en Oxford, die gezamenlijk het hart vormen van de ondersteuningsactiviteiten20. Een dergelijke opzet kan model staan voor een Nederlandse aanpak. Het is zelfs mogelijk om een formele verbinding aan te gaan met SSI en zo een begin te maken met een Europese inrichting van een Software Sustainability organisatie. Deze gedachte is onlangs besproken tijdens een Knowledge Exchange workshop over dit onderwerp (Berlijn, 1-2 oktober 2015) met onder meer JISC en de DFG. Voor de Nederlandse situatie kan gedacht worden aan een consortium met een aantal universiteiten en partijen als DANS, NLeSC, SURFsara, die gezamenlijk de taken ter hand nemen. In het algemeen zal het ondoenlijk blijken om alle software te bewaren en te onderhouden, zoals het ook niet mogelijk is alle data te bewaren en te indexeren. Het lijkt dan ook raadzaam om te beginnen met die software waarvan het gebruik daadwerkelijk een bijdrage heeft geleverd aan de tot-stand-koming van een publicatie. Dan kan voor de overige software verder gezocht worden naar criteria voor behoud en onderhoud. Acties die voortkomen uit de aandachtslijst voor software sustainability worden onderstaand uitgewerkt. i. Het vanaf de start rekening doen houden met toekomstig onderhoud Dit vereist interactie met de opleiding voor het leren programmeren of de programmeer-talen-opleidingen. Voor verder gevorderden moet hiervoor uitdrukkelijk aandacht gevraagd worden via informatie-acties. Ook kan dit onderdeel uitmaken van de protocollen, zoals beschreven in hoofdstuk 4.4 over het Framework en onderzoekersbetrokkenheid. Programmeerethica, zoals versiebeheer en documentatie zijn een minste vereiste. Het kan behoren tot één van de taken van een software sustainability instituut om hiervoor richtlijnen op te stellen en bekend te maken. ii. Criteria voor de waarde en waardevastheid van software, programma’s en tools Het vaststellen van criteria voor de waarde en waardevastheid van software omvat een aantal aspecten dat discipline-onafhankelijk is en een aantal dat van toepassingsgebied tot toepassingsgebied zal verschillen. De generieke zullen dan onderdeel vormen van het Kader en de discipline-afhankelijke zullen onderdeel vormen van de protocollen. Vragen die hierbij moeten worden gesteld, zijn: •
20
Is de software gebruikt bij de directe tot-stand-koming van publicaties?
Een integraal overzicht van de diversiteit van aspecten van software sustainability kan
gevonden worden in The Significant Properties of Software: A Study; Brian Matthews, Brian McIlwrath, David Giaretta, Esther Conway STFC/JISC, 2008. Zie ook de informatieve website van het SSI, http://www.software.ac.uk/.
Data doordacht
25
• • • • • • • •
Hoe belangrijk is de software voor de reproduceerbaarheid van de gepubliceerde onderzoeksresultaten? Is het commerciële of publiek-ontwikkelde software? Wat is de omvang van het gebruik of het verwachte gebruik? Hoe belangrijk is de software voor de doelgroep? Wat is de investering geweest om de software tot stand te brengen (omvang en complexiteit)? Wat is de kwaliteit van de software in termen van coding/efficiency en in termen van (wetenschappelijke) output? Hoe belangrijk zijn de data (in het geval dat dat voor deze software geldt) die met de software geproduceerd worden? Hoe goed is de onderhoudbaarheid van de software en wat zijn de kosten voor het onderhoud?
iii. Criteria voor het toekomstig onderhouds- en investeringsniveau gekwalificeerde software Op grond van de criteria voor waarde en de waardevastheid van software moet vervolgens een regime worden vastgesteld voor het toe te kennen onderhoudsniveau. Dat kan variëren van behouden “as is”, tot het volledig upto-date houden van de software, het verbeteren van de software in termen van efficiency of bruikbaarheid tot het op de markt brengen van de software. iv. Afspraken over het daadwerkelijk onderhoud van software en de vorming van een verband van software onderhoudsgroepen Afhankelijk van de omstandigheid of een Nederlands Software Sustainability Instituut tot stand komt moeten er afspraken gemaakt worden met de groepen die betrokken zijn of zijn geweest bij het creëren van de software en met de kerngroep van gebruikers over het daadwerkelijk onderhoud en de beschikbaarstelling van de software. Het is belangrijk, ook als er een instituut tot stand komt, dat de gemeenschappen primair zelf verantwoordelijkheid nemen voor het behoud en het onderhoud. v. Software Seal of Approval Het instellen van een Software Seal of Approval (SSA) heeft een aantal voordelen. Het gaat uiteindelijk om twee dingen: het stimuleren van goede praktijken als het gaat om de ontwikkeling van software en tools om latere problemen met onderhoud en reproduceerbaarheid te voorkomen én het toekennen van credits aan onderzoekers die dit goed hebben gedaan. Er is belangstelling om een dergelijk SSA internationaal aan te pakken, zoals met het SSI, dat al een aantal criteria voor software-accreditatie heeft ontworpen. Voor Nederland zijn de meest aangewezen partijen voor een discussie hierover: NLeSC, SURFsara, DANS en ePLAN. DANS kan met zijn ervaring met het Data Seal of Approval tevens een goede rol vervullen bij de uiteindelijke certificering. Inmiddels zijn besprekingen gestart met DANS, NLeSC en SURFsara, om te komen tot praktische criteria voor de toekenning van een dergelijk predicaat, waarbij het uitgangspunt is dat de gekozen criteria zo goed mogelijk objectiveerbaar zijn en de toekenning per geval niet te veel discussie oplevert. vi. Infrastructuur voor software sustainability Als infrastructuur voor de software sustainability kan gekozen worden voor een federatieve aanpak, met het model van SSI als leidraad. De instellingen die wensen te participeren in die infrastructuur kunnen dat doen door hiervoor personeel ter beschikking te stellen binnen hun eigen instelling, die in een
Data doordacht
26
gezamenlijk verband samen met een centrale organisatie de kern vormen van het consortium dat de nationale taken voor software sustainability op zich neemt. DANS ambieert hierin een initiërende rol te spelen, in goed overleg met NLeSC en SURFsara, eventueel via RDNL. Omdat verantwoordelijk programmeren begint bij het leren programmeren en dus bij de studie, kan voor dit onderdeel de medewerking worden gevraagd van ePLAN, waarvan de leden al deel uitmaken van de instellingen en al functies bij het opstellen de lokale curricula vervullen.
Data doordacht
27
8. RDNL, DANS en Coördinatiepunt RDM Abstract: Hoe moet het samenwerkingsverband RDNL zich de komende jaren ontwikkelen? Moet de organisatievorm worden versterkt en zo ja, hoe? In hoeverre speelt RDNL een regierol op het terrein van datamanagement, en hoe verhoudt het zich tot een nieuw Coördinatiepunt RDM? Wat zijn de eventuele consequenties hiervan op de organisatie- en governance structuur van RDNL en van DANS? 8.1.
Inleiding
Zonder een centraal element in het landschap van data stewardship en software sustainability is het moeilijk een coherent beleid te voeren, tot concrete oplossingen te komen en efficiënte diensten te leveren. Op het niveau van de uitvoering zijn één of meer goed georganiseerde en gemotiveerde consortia nodig waarin de belangrijkste spelers een plaats hebben. Daarmee kunnen zowel schaalvoordelen als draagvlak worden bereikt en kunnen de kosten beperkt blijven. Het is het goed mogelijk DANS te positioneren als centraal element en penvoerder, verantwoordelijk voor de algemene beleidsvorming, omvattend het formuleren van kaders en de uitrol van diensten, waarbij voor de implementatie een beroep wordt gedaan op twee consortia: één voor data-opslag en dienstverlening (RDNL), en één voor softwarebeheer en onderhoud (naar het voorbeeld van het Software Sustainability Institute in het VK). Nu de VSNU aan SURF heeft verzocht om een Landelijk Coördinatiepunt voor Research Data Management op te zetten, is het de vraag wat de onderlinge relatie zou moeten zijn van DANS, RDNL en dit Coördinatiepunt21. Zoals uit de voorlopige plannen van dit coördinatiepunt blijkt, wordt vooral gedacht vanuit het perspectief van de universitaire instellingen; juist DANS kan een zinvolle brugfunctie vervullen om ook KNAW en NWO bij het Coördinatiepunt te betrekken. Onderdeel van die brugfunctie is, wat DANS betreft, het inbrengen van het perspectief van de onderzoekers en het verzorgen en organiseren van de onderzoekersbetrokkenheid. 8.2.
Missie en visie van Research Data Netherlands
De missie van Research Data Netherlands (RDNL) is het bevorderen van duurzame toegankelijkheid en verantwoord hergebruik van wetenschappelijke onderzoeksgegevens in alle fasen van het onderzoek. De meerwaarde van RDNL is dat de samenwerkende organisaties gezamenlijk een breder terrein kunnen bedienen dan ieder alleen. De RDNL-partners zijn in diverse opzichten complementair, zowel door de vakgebieden die bediend worden, als door de aangeboden diensten en expertise over de variëteit aan soorten onderzoeksdata. De samenwerking biedt een praktische uitwerking van het collaborative data infrastructure model uit het ‘Riding the Wave’ rapport (2010). RDNL zet concrete stappen op weg naar een federatieve datainfrastructuur in Nederland, waarbij de partners zich binnen de context van RDNL concentreren op back-office functie en basis-infrastructuur. Door samen te werken aan de missie zorgen de RDNL-partners ervoor dat vele stakeholders onderzoeksgegevens kunnen vinden. Een voorwaarde voor gezamenlijke 21
Roadmap Landelijk Coördinatiepunt Research Data Management. Axel Berg (SURFsara), Final draft (versie 3), 29 september 2015.
Data doordacht
28
activiteiten is dat deze goed aansluiten op de meerjarenplannen van RDNLpartners en hun koepelorganisaties. RDNL bestaat uit organisaties die primair back-office functies vervullen en die voldoen aan de richtlijnen van het Data Seal of Approval. De coalitie staat open voor andere organisaties die zich engageren voor data stewardship en aan deze voorwaarden voldoen, of bereid zijn daar binnen een gestelde termijn aan te voldoen. 8.3. •
•
•
• •
Doelstellingen van de RDNL samenwerking
vii. Versterken van transparante datadienstverlening aan onderzoek22 Duidelijke rolverdeling en afstemming tussen de RDNL-partners: specificeren en vaststellen welke gebieden en doelgroepen de partners bedienen en welke rollen zij daarin hebben, waarbij niet uitgesloten is dat partners meerdere rollen hebben, noch dat eenzelfde rol over meerdere partners wordt verdeeld. Hierin is het streven dat de RDNL-partners onderling en naar hun gebruikers een transparante opbouw van de tarieven presenteren. Ontwikkeling en publicatie van een gezamenlijke producten- en dienstencatalogus. Door het inzichtelijk en toegankelijk maken van de gedeelde dienstencatalogus wordt het dienstenaanbod effectiever gepresenteerd en wordt het voor een onderzoeker, financier, student, dataintermediair of andere belangstellende gemakkelijker data te deponeren, te vinden of te gebruiken, en kan de infrastructuur ook effectiever worden ingericht. Dit vraagt ten eerste een centrale verwijsplaats wanneer iemand niet weet waar hij of zij moet beginnen en vraagt ten tweede dat de loketten bij de partners goed naar elkaar verwijzen. Definitie, ontwikkeling en implementatie van een landelijk dekkend netwerk van lokale front-offices en landelijke back-office-functies ten behoeve van de universiteiten en andere onderzoeksorganisaties. Vergroten zichtbaarheid en bruikbaarheid van de gezamenlijke collecties. Bereiken van grotere efficiency en zichtbaarheid van de RDNL-partners in lidmaatschappen van en participatie in verwante (inter)nationale organisaties.
22
Het is duidelijk dat er door de verschillende aard, financiering, governance en historie van de RDNL-partners sprake is van overlap en lacunes in de huidige dienstenportfolio. Daarnaast leveren zij ook diensten buiten het RDNL-verband. De diensten van DANS zijn al eerder beschreven. De belangrijkste diensten van de andere RDNL-partners zijn: Ø 3TU.DC: o Langetermijnarchief voor de opslag van wetenschappelijke datasets. o DataverseNL (als front-office functie, in samenwerking met DANS) o OpenEarth DataLab, een online datamanagement werkomgeving voor geodata Ø SURF (SURFsara/SURFnet): o Het Data Archive van SURFsara is de centrale locatie voor het archiveren en (langdurig) opslaan van data. o BeeHub is een dienst voor het opslaan en delen van wetenschappelijke data die nog verwerkt of geanalyseerd moeten worden. o SURFdrive is een persoonlijke cloudopslagdienst voor het Nederlandse hoger onderwijs en onderzoek, waarmee medewerkers, onderzoekers en studenten gemakkelijk bestanden kunnen opslaan, synchroniseren en delen. o Additionele diensten voor het verzenden, uploaden en persistent identificeren van datasets. Data doordacht
29
viii. Samenhangende en efficiënte dienstverlening Delen en waar zinvol afstemmen van innovatieplannen en dienstontwikkelplannen. Dit vindt met name plaats op het operationele niveau van de RDNL-werkgroepen. • Kennisbundeling en -uitwisseling tussen de RDNL-partners. • Sourcing van e-infrastructuur-componenten tussen RDNL-partners. • Ontwikkeling van een federatief platform (technisch en organisatorisch) voor het beheren, delen en vindbaar maken van onderzoeksgegevens voor, tijdens en na het onderzoek. • Integreren van functionaliteiten aansluitend bij de ontwikkeling van data stewardship-beleid bij financiers, universiteiten en onderzoeksinstellingen. •
ix. Gezamenlijke beleidsbeïnvloeding en ondersteuning op de randvoorwaarden voor goed data stewardship • Schakel tussen de diverse onderzoeksinstellingen: universiteiten, NWO- en KNAW-instituten, TNO, etc. • Gesprekspartner voor koepels en financiers op het gebied van data stewardship. • Kenniscentrum en adviesorgaan zijn voor advies en ondersteuning bij het vormgeven en de implementatie van beleid voor goed data stewardship en research data management.
• • •
x. Gezamenlijk trainingsportfolio Gezamenlijke ontwikkeling van trainingsportfolio als onderdeel van de gezamenlijke producten- en dienstencatalogus. Gezamenlijk aanbod van datatrainingen, zowel aan de data-ondersteuners als aan andere stakeholders. Organisatie van workshops of masterclasses over verschillende onderwerpen, zoals juridische aspecten van data, data policies, en infrastructuren voor data en storage.
xi. Gezamenlijke afstemming over langetermijnarchivering en daarbij behorende businessmodellen • Afstemmen, beschikbaar stellen en implementeren van cost recovery modellen voor langetermijnarchivering. • Afstemmen, beschikbaar stellen en implementeren van data curation policies en best practices voor langetermijnarchivering. • In samenwerking met andere stakeholders ontwikkelen of adopteren van metadatastandaarden voor verschillende domeinen. 8.4.
Wanneer is RDNL een succes?
Als coalitie van organisaties die primair back-office-functies vervullen, richt RDNL zich in eerste instantie op de klant, hetzij onderzoeker, onderzoeksfinancier, bibliotheek of instelling. RDNL is in dit opzicht een succes als duidelijk is: • Welke datadiensten door RDNL-partners worden geleverd, tegen welke voorwaarden?
Data doordacht
30
• • •
Op welke wijze de RDNL-partners samen de complete data life cycle ondersteunen met diensten en expertise? Welke datatrainingen door RDNL worden geleverd? Hoe is het frontoffice-backoffice model geïmplementeerd en hoe kunnen de frontoffices (instellingen, research data centers en research communities) via dit model met RDNL samenwerken?
Daarnaast is RDNL een succes voor de RDNL-partners: • Als RDNL door instellingen en koepelorganisaties gezien wordt als een belangrijk adviesorgaan en/of partner op het gebied van data stewardship; • Als de partners van elkaars expertise nuttig gebruik maken; • Als de partners van elkaars netwerk nuttig gebruik maken; • Als gezamenlijk optreden (kosten)efficiënter is dan afzonderlijk optreden. 8.5.
RDNL Organisatie en overlegstructuur
De RDNL-samenwerking is gebaseerd gebaseerd op een Letter of Intent van de partners. Het samenwerkingsverband kent dus een lichte constructie die gebaseerd is op vrijwilligheid. RDNL kent drie structurele niveaus van overleg: directie, stuurgroep en werkgroepen. Daarnaast is er een mogelijkheid om projectgroepen in te richten voor tijdelijke gezamenlijke activiteiten, zoals de Nederlandse Dataprijs. Elke partner heeft in principe één afgevaardigde in de directie en één in de stuurgroep. Ook in de werkgroepen is elke partner in beginsel door hoogstens één lid vertegenwoordigd.
Figuur 5 Organisatiestructuur RDNL Het (technisch) voorzitterschap binnen RDNL rouleert. Het doel van het voorzitterschap is de interne communicatie en het versnellen van de voortgang, niet de externe vertegenwoordiging van RDNL. De stuurgroep heeft een voorzitter, die deze rol een jaar vervult, met in principe een jaar verlenging. De organisatie die de voorzitter van de stuurgroep levert, voert de RDNLadministratie en faciliteert de afspraken en logistiek. Het geniet de voorkeur om het voorzitterschap op alle lagen in één hand te houden, zodat de voortgang gemakkelijk in de gaten te houden is. Met betrekking tot de organisatievorm spelen enkele vooralsnog onbeantwoorde vragen: • Is de op een Letter of Intent gebaseerde structuur van RDNL wel sterk genoeg om tot een rationele taakverdeling te komen? RDNL is bijvoorbeeld Data doordacht
31
•
•
geen rechtspersoon, dus het kan als organisatie geen dienstverleningscontracten met bijvoorbeeld universiteiten afsluiten. Er wordt ook geen extern toezicht op RDNL uitgeoefend (anders dan via de samenwerkende partners). Als een sterkere samenwerkingsvorm met extern toezicht al gewenst is, dan maakt de ongelijkvormigheid van de partners dat niet eenvoudig: DANS als KNAW-NWO Instituut; SURFsara als werkmaatschappij van SURF, ICT-samenwerkingsorganisatie van het hoger onderwijs en onderzoek; 3TU.DC als samenwerking van de drie TU’s en organisatorisch onderdeel van de UB Delft. Moet RDNL uitgebreid worden met meer partners en zo ja, met welke en wanneer? RDNL staat open voor deelname van andere partijen. Er zijn meer organisaties in het academisch domein die de beschreven diensten kunnen helpen realiseren maar (nog) geen deel uitmaken van RDNL, zoals Target (RUG). De vrijwillige afstemming tussen drie partijen is al tamelijk complex, en met vier partijen zal dat niet eenvoudiger worden. Het karakter van RDNL is dat van een tweedelijns serviceprovider, niet van een beleidsorgaan. In de visie van DANS zou dat zo moeten blijven. Natuurlijk kunnen en zullen er in het onderlinge overleg tussen de partijen beleidsafspraken gemaakt worden over de ontwikkelingen die raken aan die dienstverlening of de technologische ontwikkelingen waarmee zij te maken hebben. Vanuit die positie moet RDNL uitgroeien tot een gemeenschappelijke data-service infrastructuur voor de lange termijn.
8.6.
Rol RDNL en DANS bij Coördinatiepunt RDM (VSNU/SURF))
De VSNU heeft SURF gevraagd om een compact en slagvaardig Landelijk Coördinatiepunt Research Data Management (RDM) op te zetten. SURF stelt in de Roadmap Landelijk Coördinatiepunt RDM dit te willen doen in nauwe samenwerking en afstemming met de Research Data Netherlands partners, met in het vizier ook de bredere SURF doelgroep (hoger onderwijs en onderzoek in Nederland). Als missie van het Landelijk Coördinatiepunt ziet SURFsara het voorbereiden, faciliteren en monitoren van ontwikkeling en uitvoering van Research Data Managementbeleid voor wetenschappelijk onderzoek in Nederland, in nauwe samenspraak met het veld, en het landelijk uitwisselen van kennis en ervaringen, zodat Nederland tot efficiënte en effectieve ontwikkeling en uitvoering van Research Data Management kan komen. De visie van het Landelijk Coördinatiepunt luidt als volgt: “in 2020 zal Research Data Management een vanzelfsprekend onderdeel vormen van de manier van denken en doen bij onderzoek en onderwijs binnen de Nederlandse universiteiten en onderzoeksinstellingen. En wel op dusdanige wijze dat er: • synergie is tussen beleid, ICT en onderzoeksondersteuning, die onderzoekers in staat stelt goed Research Data Management te bedrijven; • verbinding is tussen — experts van — onderzoeksuitvoerende organisaties, facilitaire organisaties en onderzoeksfinanciers; • bestuurlijke verankering van het Research Data Managementbeleid is gerealiseerd. Het Landelijk Coördinatiepunt Research Datamanagement heeft dit proces, in nauwe samenspraak met het veld, succesvol gefaciliteerd en ondersteund en heeft een voorbeeldfunctie voor landelijke aanpak in het internationale veld.”
Data doordacht
32
In de Roadmap worden vijf uit te werken randvoorwaardelijke vraagstukken geformuleerd, die met prioriteit dienen te worden aangepakt. Deze liggen op de volgende terreinen: bewustwording; financiële aspecten; Juridische aspecten en zeggenschap; ondersteuning en begeleiding van de onderzoeker; faciliteiten en data-infrastructuur. Naast de betrokkenheid van de Nederlandse universiteiten bij het Coördinatiepunt zal intensieve samenwerking worden gezocht met de Nederlandse onderzoeksgemeenschap in den brede waaronder NFU, overkoepelende wetenschapsorganisaties (zoals NWO, KNAW en ZonMW), specifieke onderzoeksinstituten (zoals RIVM en TNO), onderzoekscommunities (zoals DTL) en in een later stadium mogelijk met instellingen en/of organisaties in het hoger onderwijs (zoals de Vereniging Hogescholen). Gezien de achtergrond van het traject, een opdracht van de VSNU aan SURF, ligt de focus sterk op de universitaire instellingen. DANS zal graag een rol spelen bij het aanvullen van die focus vanuit KNAW-NWO perspectief. De voorgestelde aanpak is nogal ambitieus. Er is een groot verschil tussen het zelf activiteiten ontplooien op de vijf genoemde terreinen en het trachten die te coördineren. Het is nog niet duidelijk hoever de coördinatie zal strekken: gaat SURF(sara) zelf RDM-activiteiten en beleid organiseren, of beperkt het Coördinatiepunt zich tot monitoring, coördinatie en regie. Het is belangrijk dat de gekozen benadering niet top-down is. Er zijn zeker in het begin centrale acties nodig om de zaak in beweging te krijgen, wat er al gaande is te stroomlijnen, kaders te stellen en informatie en ondersteuning te bieden. Maar daarna moet een sterke rol worden toegedicht aan het zelforganiserend vermogen van de disciplines. DANS denkt graag mee over de wijze waarop de gebruikersbetrokkenheid beter kan worden uitgewerkt, want daarin ligt een cruciaal element voor het welslagen van de missie. Zonder betrokkenheid van de onderzoekers zullen regelgeving en praktijk langs elkaar heen blijven lopen. Een van de onderwerpen waarop SURF met eerdere ervaring coördinerend zou kunnen optreden is het harmoniseren van de (kwaliteits-)eisen die de instellingen momenteel stellen aan praktische datadienstverlening voor RDM, zoals omschreven in Service Level Agreements. Door de bestaande verscheidenheid is het voor dienstverleners moeilijk om per instelling rekening te houden met de eisen en wensen, en wordt het maken van afspraken zelfs belemmerd. Er zouden op dit punt landelijke afspraken moeten komen. Dit is een voorbeeld van hoe coördinatie-activiteiten directe meerwaarde hebben voor dienstverleners zoals DANS, 3TU.Datacentrum en SURFsara zelf. Samenvattend wil DANS graag bij het Coördinatiepunt betrokken zijn.
Data doordacht
33
Bijlage 1: Concept Convenant Concept Convenant ter bevordering van het open en efficiënt (her-)gebruik van data en software in de wetenschap en daarbuiten. Dit convenant zou kunnen worden overeengekomen door partijen als KNAW, OCW, NWO en VSNU23, en mede ondertekend worden door mogelijke andere partijen die de uitgangspunten delen, zoals Vereniging Hogescholen, NFU en andere. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
23
Open access tot research data (en software) bevordert hoogwaardig onderzoek en vormt een sterke basis voor een goede onderzoekspraktijk; Goed Data Management is fundamenteel in alle stadia van het onderzoeksproces en moet onderdeel zijn van het onderzoek vanaf de start; Data en software moeten beschermd worden als waarde-objecten en moeten toegankelijk, vindbaar en bruikbaar zijn; Open access tot research data en software vereisen aanzienlijke financiële inspanningen, hetgeen door alle partijen wordt erkend en gerespecteerd; Er bestaan gegronde redenen waarom research data in voorkomende gevallen beperkt toegankelijk zijn, maar zulke gronden moeten per geval worden gemotiveerd en erkend; Het recht op eerste gebruik van data en/of software door de maker wordt erkend; Het gebruik van andermans data moet altijd plaatsvinden conform wet- en regelgeving en ethische normen, waaronder passende erkenning en referentie naar de eigenaar en maker; Data en software die gebruikt zijn als onderdeel van of voor de totstandkoming van artikelen moeten altijd beschikbaar zijn vanaf de datum van de publicatie en in citeerbare vorm; Ondersteuning voor de ontwikkeling en het onderhoud van kennis voor de omgang met data en de ontwikkeling van software wordt erkend als een verantwoordelijkheid van de partijen die dit convenant onderschrijven; De voortgang bij het bereiken van open access tot research data en software wordt regelmatig gemonitord.
Dit is de representatie van de groep belanghebbenden van categorie 1
Data doordacht
34
Bijlage 2: Definities en afkortingen 3TUData Centrum Samenwerkingsverband van de drie TU’s in Nederland op het gebied van data services, http://datacentrum.3tu.nl CBS Centraal Bureau voor de Statistiek (cbs.nl) CBS-KNAW Centraal Bureau voor Schimmelcultures (cbs.knaw.nl) CESSDA Consortium of European Social Science Data Archives (ccesda.net) CLARIAH Common Lab Research Infrastructure for the Arts and Humanities. Een Nederlands project en infrastructuur voor de geeesteswetenschappen. www.clariah.nl Coördinatiepunt RDM De VSNU heeft SURF gevraagd een coördinatiepunt voor Research data management op te zetten. SURFsara is, bij het schrijven van dit document, bezig te inventariseren wat daarbij komt kijken en werkt aan een roadmap RDM. DARIAH DARIAH is de naam van de Digital Research Infrastructure for the Arts and Humanities, en heeft tot doel het digitaql onderzoek en onderwijs tee versterken en mogelijk te maken in de kunsten en geesteswetenschappen. Zie www.dariah.eu. DANS Data Archiving and Networked Services, http://dans.knaw.nl Data management Betreft de ontwikkeling, uitvoering en supervisie van plannen, beleid en programma’s die tot doel hebben de waarde van data te beheren, beschermen en te vermeerderen en eventueel ook de data te leveren. (Vrij naar en.wikipedia) Data Seal of Approval Een certificaat dat wordt toegekend aan organisaties waarvan de data-archieven voldoen aan een aantal vastgestelde criteria voor het duurzaam archiveren van data. www.datasealofapproval.org. Data Stewardship Voor dit document wordt verstaan onder data stewardship24: een zorgvuldige en op duurzaamheid, herbruikbaarheid en uitwisselbaarheid gerichte omgang met data tijdens en na afloop van projecten. Later zou dit veranderd moeten worden in: een zorgvuldige, geprotocolleerde omgang met data. Het protocol omvat dan de verduurzaming, hergebruik en uitwisselbaarheid, maar zulke protocollen bestaan nu nog niet. Dataverse Het Dataverse project is een open source web applicatie om research data te delen, bewaren, citeren, verkennen en analyseren. Het is gebaseerd op software van Harvard University (dataverse.org). Het maakt het mogelijk data beschikbaar te stellen aan anderen en andermans werk te repliceren. Het maakt het mogelijk onderzoekers, data auteurs, uitgevers, data distributeurs en aangesloten instituten passende credits te geven. Er zijn verschillende implementaties van Dataverse, waarvan er een gehost wordt door DANS (dataverse.nl). Dryad The Dryad Digital Repository is a curated resource that makes the data underlying scientific publications discoverable, freely reusable, and citable. Dryad provides a general-purpose home for a wide diversity of datatypes. (Datadryad.org). 24
Dit is een werkdefinitie voor de doel van dit document. Er zijn andere definities en soms worden data management en data stewardship voor hetzelfde gebruikt. Data doordacht
35
DTL
EASY EGA ePLAN EUDAT
FAIR
Figshare
ICIN KB KE
KNAW LW instituten MEMIC
Mendeley
MoU NARCIS
Data doordacht
Dutch Techcentre for Life Sciences, focuses on high-end technologies for pioneering life science research and on skills and solutions to the professional use of computers to deal with data streams in research. http://www.dtls.nl/ Online archiveringssysteem (easy.dans.knaw.nl) European Genome-Phenome Archive (https://wwwdev.ebi.ac.uk/ega/home) Platform van eScience/Data Research Centra in Nederland, http://www.escience-platform.nl European funded project that offers common data services, supporting multiple research communities as well as individuals, through a geographically distributed, resilient network of 35 European organisations (EUDAT.eu) FAIIR data verwijst naar onderzoeksdata die voldoen aan vier basisprincipes. In het Engels zijn FAIR data Findable, Accessible, Interoperable and Re-usable. http://www.dtls.nl/about/programmes/dtl-data/fair-data/ Figshare is a repository where users can make all of their research outputs available in a citable, shareable and discoverable manner. Figshare allows users to upload any file format to be made visualisable in the browser so that figures, datasets, media, papers, posters, presentations and filesets can be disseminated in a way that the current scholarly publishing model does not allow. (figshare.com) Netherlands Heart Institute, dient als nationale stem vanuit de cardiologie en coördineert translational en klinisch onderzoek in Nederland en daarbuiten. (ICIN.nl) Koninklijke Bibliotheek, http://www.kb.nl Knowledge Exchange, Knowledge Exchange is a co-operative effort that supports the use and development of Information and Communications Technologies (ICT) infrastructure for higher education and research. Partners are: CSC (Fi), DEFF (Dk), DFG (D), Jisc (UK) and SURF (NL) www.knowledgeexchange.info . Koninklijke Nederlandse Academie van Wetenschappen, www.knaw.nl Instituten van de KNAW die zich richten op de Levenswetenschappen: CBS (biologie), Hubrecht, ICIN, NIN (biomedisch) en NIOO (ecologisch). Centrum voor data- en informatiemanagement van het Maastricht Universitair Medisch Centrum, faciliteert datamanagement van wetenschappelijk onderzoek, onderwijs en gezondheidszorgprojecten. http://memicmaastricht.nl/ Mendeley® is a free reference manager and academic social network that can help you organize your research, collaborate with others online, and discover the latest research. Product by Elsevier. (https://www.elsevier.com/solutions/mendeley) Memorandum of Understanding National Academic Research and Collaborations Information System, een nationaal portal voor academische informatie, beheerd door DANS. http://www.narcis.nl
36
NCDD
Nationale Coalitie Digitale Duurzaamheid, opgericht door het Instituut voor Beeld en Geluid, de Koninklijke Bibliotheek, het Nationaal Archief, Data Archiving and Networked Services (DANS) en een Coalitie van culturele instellingen vertegenwoordigd door het EYE Filmmuseum. Taak: de langdurige zorg voor digitale informatie in het publieke domein. http://www.ncdd.nl NFU Nederlandse Federatie van Universitair Medische Centra, http://www.nfu.nl NIOO Nederlands Instituut voor Ecologie (NIOO-KNAW) doet fundamenteel en strategisch ecologisch onderzoek. (www.nioo.nl) NLeSC Netherlands eScience Center, opgericht door NWO en SURF, http://www.esciencecenter.nl NSWD Nationaal Sociaal-wetenschappelijke Data-infrastructuur. Een initiatief, omvattend de toegang tot CBS-data. NWO Nederlandse Organisatie voor Wetenschappelijk Onderzoek, http://www.nwo.nl OpenAire EU-project. 50 partners, from all EU countries, and beyond, will collaborate to work on this large-scale initiative that aims to promote open scholarship and substantially improve the discoverability and reusability of research publications and data (www.openaire.eu) Open Data Een subset van alle data wordt aangeduid als Open Data als die data zonder bijzondere restricties openbaar toegankelijk zijn. Restricties kunnen bestaan uit licenties en gebruiksvoorwaarden, waaronder regels ter bescherming van de privacy. Open Science Open Science is een nog niet eenduidige term die overkoepelend verwijst naar de verschillende “open” bewegingen die nu opgeld doen, waaronder open data, open research, open access, open source. Open Science is op dit moment vooral een beweging, waarvan de scope pas op den duur zal kunnen worden vastgesteld. RDA Research Data Alliance (RDA) builds the social and technical bridges that enable open sharing of data. https://rdalliance.org/ RDM Research Data Management RDNL Research Data Nederland (RDNL) is een samenwerkingsverband gebaseerd op een MoU van het 3TU.Datacentrum, DANS en SURFsara. Deze coalitie, die ook voor andere partijen open staat, bundelt de krachten van drie data-archieven, gericht op duurzame data-archivering. In het Front-office-Back-office model, vormt RDNL het Back-office. http://www.researchdata.nl/ Re3data.org re3data.org is een mondiaal register van research data repositories dat research data repositories uit verschillende disciplines bedient. Het voorziet in permanente storage en toegang tot data sets aan onderzoekers, subsidieverlenende organisaties, uitgevers en opleidingsinstituten. (http://www.re3data.org/) Research data management: Zie Data Management, maar dan toegespitst op onderzoeksdata.
Data doordacht
37
RIVM Rijksinstituut voor Volksgezondheid en Milieu (www.rivm.nl) RUG Rijksuniversiteit Groningen http://www.rug.nl Software Sustainability. Onder software sustainability wordt verstaan: een op hergebruik, controleerbaarheid en onderhoudbaarheid gerichte coderingspraktijk (of –ethiek) én de systematiek van beschikbaarstelling en het bij de tijd houden van software voor hergebruik. Aan het eerste deel daarvan wordt in het bedrijfsleven waar software ontwikkeld wordt streng de hand gehouden, maar in de dagelijkse praktijk in de wetenschap over het algemeen niet en voor het laatste deel is in Nederland nog niets geregeld. SSA Software Seal of Approval, een predicaat/certificering die aan software kan worden toegekend die aan bepaalde (minimum) eisen voldoet. SSI Software Sustainability Institute (UK), http://www.software.ac.uk/ SURF SURF is de ICT-samenwerkingsorganisatie van het Nederlandse hoger onderwijs en onderzoek. SURF heeft momenteel drie werkmaatschappijen: SURFnet, SURFsara en SURFmarket. https://www.surf.nl/ SURFsara Werkmaatschappij van SURF, gericht op het leveren van voorzieningen en diensten op het gebied van computing, dataopslag, visualisatie, netwerk, cloud en e-science support. https://www.surf.nl/over-surf/werkmaatschappijen/surfsara Surveydata Het doel van Survey Data Netherlands is om enquête data en metadata van alle bronnen op één website onder te brengen. Survey Data Netherlands levert een one-stop service voor onderzoeksprojecten voor de disseminatie van en long-term opslag van enquête data. (www.surveydata.nl) Target Target (RUG) is een van de grootste publiek-private projecten in Nederland op het gebied van grootschalig data management en informatie systemen. http://www.rug.nl/science-andsociety/target/ UK United Kingdom UM Universiteit Maastricht. http://www.maastrichtuniversity.nl/ VK Verenigd Koninkrijk VSNU Vereniging van universiteiten die de belangen behartigt van de universiteiten naar kabinet, politiek, overheid en maatschappelijke organisaties. http://www.vsnu.nl/nl_NL/ Zenodo Zenodo builds and operates a simple and innovative service that enables researchers, scientists, EU projects and institutions to share, preserve and showcase multidisciplinary research results (data and publications) that are not part of the existing institutional or subject-based repositories of the research communities. Services hosted by CERN. (zenodo.org)
Data doordacht
38
<<<
Data Archiving and Networked Services (DANS) DANS bevordert duurzame toegang tot digitale onderzoeksgegevens. Hiertoe stimuleert DANS dat wetenschappelijke onderzoekers gegevens duurzaam archiveren en hergebruiken, bijvoorbeeld via het online archiveringssysteem EASY (easy.dans.knaw.nl) en DataverseNL (dataverse.nl). Tevens biedt DANS met NARCIS (narcis.nl) toegang tot duizenden wetenschappelijke datasets, publicaties en andere onderzoeksinformatie in Nederland. Daarnaast verzorgt het instituut training en consultancy en doet het onderzoek naar duurzame toegang tot digitale informatie. Gedreven door data zorgt DANS er met zijn dienstverlening en deelname in (inter-)nationale projecten en netwerken voor dat de toegang tot digitale onderzoeksgegevens verder verbetert. Kijk op dans.knaw.nl voor meer informatie en contactgegevens. Voor u ligt de nota Data doordacht. Deze nota bundelt de onderzoeksopdracht van de Stuurgroep DANS in vier hoofdstukken: 1) Algemeen kader en onderzoekersbetrokkenheid, 2) Lacunes in de datadienstverlening per discipline, 3) Infrastructuur voor de archivering, het onderhoud en de beschikbaarstelling van software en 4) RDNL, DANS en Coördinatiepunt RDNL. Neem voor meer informatie contact op met DANS.
Data Archiving and Networked Services (DANS)
DANS is een instituut van KNAW en NWO
Postbus 93067 | 2509 AB Den Haag Anna van Saksenlaan 51 | 2593 HW Den Haag +31 70 349 44 50
[email protected] | dans.knaw.nl
Door data gedreven