Verslag presentaties Jeroen Rombouts (3TU Datacentrum): Research Data Management – 3TU.Datacentrum Inleiding RDM Redenen voor aandacht voor datamanagement: Ethiek. Codes of conduct. Commissie Schuyt.Reacties VSNU: ‘cultuur verarndering’ door opleiding. NWO: datamanagementplannen Efficiëntie. Hergebruik van data. Grotere datacollectie beschikbaar voor onderzoek. Internationale competitie Reputatie. Kan verhoogd worden door productie en delen van onderzoeksdata. Door transparantie kan schade voorkomen worden Er zijn vele verschillen met betrekking tot onderzoeksdata (types; hoeveelheid, bronnen, context), cultuur (openheid, competitie, standaardisatie, attitudes) en context (beleid, regels, hulpmiddelen en infrastructuur). Bij onderzoeksdata management spelen veel elementen een rol: intellectueel eigendom, Open Access, privacy, copyright, licenties, subsidies, incentives, citatie, opvang van data, review, veiligheid, delen, ethiek, beleid, preservatie, software en dynamische data, valorisatie, … Daardoor: one size does NOT fit all. Betrokken stakeholders zijn: dataproducenten en – consumenten (onderzoekers, (N)GO’s, industrie, burgers, …), leveranciers van infrastructuur (voor onderzoek en datamanagement dienstverleners (data repositories, uitgevers, leveranciers van persistent identifiers). Zij voegen waarde toe aan data en infrastructuur Subsidiegevers (onderzoeksinstituten, Research Councils, EU, …). Zij faciliteren, zorgen voor incentives Fasen in onderzoek van belang voor onderzoeksdata: Voorafgaand aan het onderzoek. Hoe zullen data worden opgeslagen, gedeeld, hoe gaat versiebeheer, …? Zijn er al bruikbare data beschikbaar? Hoeveel data worden verzameld? Eisen van de subsidiegever? Tijdens het onderzoek. Wat als data (of documentatie) verloren gaan, worden benaderd zonder toestemming? Hoe wordt de kwaliteit gegarandeerd? Hoe worden de data verplaatst? Na het onderzoek. Welke data zijn waardevol voor anderen? Voor hoe lang? Welke documentatie is nodig? Wie controleert toegang? Diensten 3TU.Datacentrum Doel van 3TU.Datacentrum (in 2008 gestart als project): waardevolle onderzoeksdata herbruikbaar, vindbaar en benaderbaar maken voor de lange termijn. Openbaar voor iedereen. Ervaring leert dat veel data verloren gaan en dat veel waardevolle data niet gebruikt worden. Men wil tegemoetkomen aan de behoeften van onderzoekers: Voorkomen van verlies van data mogelijkheden bieden voor het delen van data registreren van data en aanbieden van links naar data efficiënt beheer en distributie van data Tools die geboden worden door 3TU.Datacentrum: Data‐labs: samenwerkingsplatforms voor lopend onderzoek Data‐archief: opslag van “bevroren” onderzoeksdata voor hergebruik, publicatie en citatie (multidisciplinair; over instituten heen) Data‐diensten: training, advies en hands on support Data‐R&D: bewustwording stimuleren, licenties ontwikkelen, training en technologie: voor en samen met onderzoekers Vragen voor de sessies: Welke dringende issues zijn er? Welke belemmeringen zijn er? 1
Wie zijn betrokken of zouden dat moeten zijn? In welke fases van het onderzoek? ….
Peter Doorn, Ingrid Dillo (DANS): Van research data management tot duurzame beschikbaarstelling: De universiteiten en DANS De missie van DANS (2005; een instituut van KNAW en NWO) is: bevorderen van permanente toegang tot digitale onderzoeksdata. Men richt zich vooral op de Alpha en Gamma gebieden. Voorlopers: Steinmetz archief (1964) en Historisch Archief (1989). De data hieruit zijn in DANS opgenomen. Diensten van DANS: self depositing system. Van de bij DANS aangeboden data is ca. 50% open toegankelijk, de andere helft met beperkingen (embargo, privacy, bescherming archeologisch erfgoed, overige restricties) portal Narcis voor onderzoeksinformatie van Nederland. Data maken hier onderdeel van uit. Gegevens van 3.TU Datacentrum zijn ook hierin opgenomen, binnenkort ook gegevens van Max Planck Institute. Data Seal of Approval. Ontworpen door DANS. Nu onder een international board persistent identifiers voor data (URN) Bij de opslag van onderzoeksdata is vertrouwen een sleutelfactor. Recente gevallen van onderzoeksfraude stimuleren de aandacht voor opslag van onderzoeksdata. Door de commissie Schuyt zijn interviews gehouden met onderzoekers over wetenschappelijke integriteit. Met betrekking tot onderzoeksdata concluderen zij dat er veel variatie is tussen en binnen disciplines, dat datamanagement in kleinschalig onderzoek risicovoller is dan in big science (dat is een patroon over disciplines heen), dat checks en balances vaak ontbreken, vooral in de fase na toekenning van de subsidie en vóór publicatie, en dat peer pressure een belangrijk controlemechanisme is om fraude te voorkomen. De aanbevelingen van de commissie Schuyt zijn overgenomen door de KNAW: openbaarheid van data wordt gepropageerd, daarvoor zijn geen aanvullende regels of codes of conduct nodig, maar wel revitalisatie en bewustmaking van bestaan regels, en evaluatie van data management zou een integraal onderdeel moeten worden van de officiële onderzoeksevaluaties. DANS streeft naar een federated data infrastructuur op bases van samenwerking. Deze ziet er als volgt uit:
2
Dit is een front office – back office model. In de basale technische infrastructuur spelen SURFsara en Target een belangrijke rol, in de back office DANS en 3TU.Datacentrum, in de front office de universiteiten (UB’s en lokale datacentra), voorzieningen voor onderzoeksinfrastructuur op disciplineniveau (ESFRI/National Roadmap) en mogelijk ook NWO gebieden (via data contracten voor gesubsidieerd onderzoek). Rollen en verantwoordelijkheden voor het front office zijn: Bevorderen bewustwording, informatieverschaffing en training met betrekking tot datamanagement Aanbieden van Virtual Research Environments (research tools; dataopslag tijdens onderzoek: Sharepoint, Dataverse; overbrengen van data naar een trusted digital repository voor langdurige opslag) Verbinding met back office Acquisitie van data Dataverse is een open source virtueel web archief voor data (voor publiceren, refereren, extraheren en analyseren van data). Bedoeld voor opslag en delen tijdens het onderzoek. Het is afkomstig van het Harvard‐MIT datacentrum en de Harvard University Library. Verschillende Nederlandse universiteiten werken samen in het Dutch Data Verse Network (DVN): UU, UvT, EUR, UM, 3TU. UU voert het beheer. DANS en 3.TU Datacentrum zijn een samenwerkingsverband aangegaan: Research Data Netherlands. De missie hiervan is het bevorderen van blijvende toegang en verantwoord hergebruik van digitale onderzoeksdata. Men bouwt voort op de bestaande samenwerking tussen DANS en 3TU.Datacentrum (training; Nederlandse Data prijs). De samenwerking met betrekking tot het back office wordt uitgebreid. Men ziet RDN als een eerste stap op weg naar een federated data infrastructuur die openstaat voor andere trusted digital repositories. In onderstaande figuur wordt de stand van zaken geschetst van wat front office (universiteiten) en back office (DANS en 3TU. Datacentrum) ondernemen met betrekking tot onderzoeksdata.
3
4
De volgende conclusies worden getrokken: Delen van data verhoogt de transparantie van onderzoek en vermindert daardoor het risico op fraude Subsidiegevers en universiteiten zouden moeten eisen dat projectvoorstellen een datamanagement plan bevatten en dat er in die plannen een sectie is opgenomen over de toegankelijkheid van de data na publicatie van de resultaten DANS en 3TU.Datacentrum leveren back office diensten voor research data management op de universiteiten, waarbij de bibliotheken een rol kunnen spelen. Maurice Bouwhuis (SURFsara): Research data Sara is onderdeel geworden van SURF. De missie van SURFsara is: ondersteuning van onderwijs en onderzoek en ontwikkeling in Nederland met High Performance Computing services (HCP voor wetenschap en onderwijs) ondersteunen van “early adopting” van ICT technologie in de fase voorafgaand aan competitie (HCP voor de kenniseconomie) Surfsara zorgt voor ondersteuning en ontwikkeling. Het helpt bij visualisaties, computerbewerkingen, data netwerken voor verschillende gebruikersgemeenschappen op disciplineniveau. Ook aan individuele eindgebruikers worden diensten verleend. Korte lijnen zijn nodig. Large scale onderzoeksdata zijn nieuw. Zij vereisen High Performance Computing. Voorbeelden zijn: Lifewatch, LOFAR, BBMRI, LCG. Dit zijn georganiseerde omgevingen van samenwerkende instituten. SURFsara gaat uit van een datagecentreerde digitale infrastructuur. Om de kern van big data zit een schil van dataopslag diensten , daaromheen een schil van wetenschappelijke bewerkingen en daaromheen een schil van nationale facilititeiten. In onderstaande figuur is dit samengevat:
De levenscyclus van onderzoeksdata begint bij tijdelijke data. Daarna volgt globale registratie, ontstaan er data waaraan gerefereerd kan worden en uiteindelijk een publicatie die geciteerd kan 5
worden. Het gaat vandaag vooral om de tweede en derde fase. In onderstaande figuur is dit aangegeven met een cirkel.
SURFsara en andere datacentra zorgen voor de technologie met betrekking tot onderzoeksdata. Zij leveren hun diensten aan de disciplinaire onderzoeksgemeenschappen zoals de Europese samenwerkingsverbanden: Lifewatch, CLARIN, EPOS, ENES en verbanden buiten de EU zoals BBMRI, DARIAH etc. De Europese verbanden bepalen de eisen die er aan de diensten gesteld worden. In Nederland is Dutch Technology for Life Sciences opgericht (DTL). Het zorgt voor samenwerking binnen en tussen sectoren (Agri&Food; Horticulture and Starting Materials; Life Sciences & Health; Biobased Economy) op de gebieden van data infrastructuur, tools voor data, wetenschappelijke expertise en sustainability. Samenwerking en standaarden zijn van belang binnen DTL. Voor de toekomst wordt een groei van community clouds verwacht. Die moeten sustainable en veilig zijn en zijn afgestemd op de behoeften van de onderzoekers Bij datamanagement is het belangrijk dat men samenwerkt en zich verenigt. De leidraad is: think big, start small, act now. Het beste is het praktisch te beginnen en tegelijk beleid te maken, niet te wachten op beleid. Exponentiële groei is mogelijk in de toekomst. Technologie zal daarbij geen beperkende factor zijn. Een vraag voor vanmiddag: wat verwacht men van de financiers (universiteit/NWO/EU,…) met betrekking tot het beheer van onderzoeksdata. Maroeske Rovers (UMCN): Experiences with data‐sharing 6
Maroeska heeft meegewerkt aan vijf Individual Partcipant Data (IPD) Meta‐analysis Methods Groups van Cochrane. Daarin is veel ervaring opgedaan met het delen van onderzoeksdata. Men probeert de resultaten uit de oorspronkelijke experimenten te reproduceren. Bij data checking voor de meta‐ analyses komen veel onregelmatigheden naar voren (bijv. de rol die beschikbaarheid van apparatuur speelt). In alle vijf de meta‐analyses waren er problemen bij het reproduceren van de resultaten. Vaak was contact nodig met de principal investigators om onenigheden op te lossen. Daarom is er een goede infrastructuur nodig voor onderzoeksdata. Dyonne van Duren (UMCN): Datamanagement bij klinisch onderzoek De wet‐en regelgeving rond klinisch onderzoek is strak. Er is sprake van verscheidene regels en wetten, waaronder de Wet Medisch‐wetenschappelijk onderzoek met Mensen (WMO), Good Clinical Practice (GCP) voor geneesmiddelenonderzoek, Kwaliteitsborging Mensgebonden Onderzoek 2.0 (NFU), Gedragscode Gezondheidsonderzoek, Code Goed gebruik lichaamsmateriaal, Wet Bescherming Persoonsgegevens (WBP), en Verklaring van Helsinki over ethische principes. Bij datamanagement bij klinisch onderzoek is data privacy belangrijk. Authenticatie (wie mag erbij?) en autorisatie (welke personen mogen veranderingen aanbrengen: wie mag wat?) moeten geregeld zijn. Verder is de continuïteit van het systeem belangrijk: het systeem moet gevalideerd zijn. Het systeem moet overeenstemmen met de opgestelde eisen voor volledigheid, nauwgezetheid, betrouwbaarheid en consistent functioneren. Deze validatie dient gedocumenteerd te zijn. De onderzoeksgegevens moeten op een veilige manier worden opgeslagen en bewaard, inclusief adequate back ups. Standard Operating Procedures (SOPs, werkinstructies) moeten worden bijgehouden voor het gebruik van het systeem. Een systeem met Audit Trail (bijhouden wie wat wanneer en waarom doet) is van belang. Dat is iets anders dan versiebeheer of track changes. Kwaliteitschecks moeten worden uitgevoerd en er moet bepaald worden wanneer deze moeten plaatsvinden (tijdens onderzoek, erna, hoe vaak?) en waar ze betrekking op moeten hebben (validiteit, volledigheid, consistentie). In onderstaande figuur is het data management proces, onderverdeeld in fasen, weergegeven:
7
Een overzicht van hoe het zit in verschillende softwaresystemen met de veiligheid, continuïteit, herleidbaarheid/reproduceerbaarheid, kwaliteitscheck, structuur en gebruik staat in onderstaande figuur:
Onderzoeksgegevens die verzameld worden bij proefpersonen worden bewaard in dossiers of brondocumenten. Deze gegevens worden geanonimiseerd overgezet, bv. via een eCRF (elektronisch Case Report Form), in een gevalideerde database, bv. Macro Hierin komen ook batch loads, bijvoorbeeld van lab data, of vragenlijsten. Na controle en database lock vindt transfer plaats van ruwe data voor analyse en archivering. Voor beheer van klinisch onderzoek in het UMCN is PaNaMa gestart, een systeem voor project management. Daar kan men alles rondom projecten mee vastleggen, onder andere hoe het datamanagement geregeld is. Het systematisch vastleggen van allerlei onderdelen van het onderzoeksproces draagt bij aan de kwaliteitsborging van onderzoek.
8