Verslag Medical & Life Sciences workshop ‘Research data in kaart’, 19 juni 2013 Aanwezig: Dr. Dyonne van Duren (directeur Clinical Research Centre Nijmegen, gespreksleider), drs. Michel van Kempen (data manager consultant, Clinical Research Centre Nijmegen), dr. Nathalie Bovy (beleidsadviseur onderzoek, Concernstaf Strategieontwikkeling), dr. Eric Visser ( klinisch fysicus, Nucleaire Geneeskunde), dr. Jeffrey Glennon (assistent professor Donders Centre for Neuroscience), dr. Gerdi Egberink (beleidsadviseur onderzoek, Concernstaf Strategieontwikkeling), ing. Rien Cuypers (informatiemanager Genetica), Erik van den Boogert ( hoofd technical group Donders Centre for Neuroscience), dr. ing. Frans Smolders (beleidsadviseur Programmabureau 2.0), Leon Leytens (ICT adviseur Productgroep ICT), Thecla Ettema (hoofd Informatiedienstverlening Universiteitsbibliotheek) en Dinie During (bibliothecaris voor UMC St Radboud). Probleemstelling: Datamanagement voor onderzoek is binnen het UMC niet goed geregeld, voldoet niet aan de norm en ook heel vaak niet aan de wet‐ en regelgeving en is als het gaat om data sharing niet op de toekomst voorbereid. Op de vraag of het alleen om klinisch onderzoek gaat, reikt Dyonne aan dat het om alle soorten onderzoek (fundamenteel, translationeel en klinisch) gaat, dus om alles dat onder de noemer valt van medical en life sciences. Klinisch onderzoek zit aan uiteinde van het spectrum waar het heel strikt gereguleerd is, maar we hebben het hier over een breed spectrum van onderzoek. Doelstelling: Wat zijn de behoeftes van de onderzoeker mbt datamanagement; wat ontbreekt? Hoe moet de infrastructuur er uit zien? Handvatten krijgen voor een verbeterde inrichting van de infrastructuur (meer dan alleen uitbreiding server capaciteit) Bij wie ligt de verantwoordelijkheid voor de infrastructuur voor datamanagement? Binnen het UMC is er tussen klinisch en fundamenteel onderzoek een duidelijk verschil in kwaliteit. Van klinisch onderzoek zitten data veelal in ziekenhuissystemen met goede borging en back‐up, datasets voor research kunnen echter niet goed ondergebracht worden in EPD (wel in proza, maar niet gestandaardiseerd). Hoe zit het met nieuw EPD systeem EPIC? Dit moet nog helemaal geregeld worden. De vraag is of we klinische data wel in EPIC willen. Iedereen die niet in klinisch onderzoek zit, heeft het vaak wel goed geregeld. In research data bij fundamenteel onderzoek is wel meer openheid en flexibiliteit mogelijk. De vraag is of we het over systemen moeten hebben of dat we het niet beter over concepten kunnen hebben. Moeten klinische data open data worden? De Stapel affaire heeft de druk opgevoerd, we willen nu dingen hebben die we pas over 3 of 4 jaar kunnen realiseren. Hoe zit het met bekendheid van wet en regelgeving? Zijn die wel goed genoeg bekend? Dat is echt een knelpunt, er is een kennisgat tussen de verschillende disciplines in het UMC, ook tussen ICT technici en onderzoekers over hoe data weergegeven kunnen worden. Is de regelgeving wel waterdicht en moet hij dat wel zijn? Regelgeving is soms strijdig en loopt achter bij technologische ontwikkelingen. Niet iedere onderzoeker heeft te maken met klinische data, maar indien je met klinische data van doen hebt, heb je je aan de regels te houden. Als dat niet zo is, moet je ook awareness hebben met betrekking tot dataopslag etc.
Datamanagementplan is nog veel te weinig bekend. Aan het begin van ieder goed onderzoek hoort een goed datamanagementplan (dmp) te liggen. Hoe bereik je deze awareness, onderdeel van groter onderwerp: wetenschappelijke integriteit? Eigenlijk zou je dit RU breed of (inter)nationaal moeten willen doen. Vaak hebben onderzoekers zelf opslag en toegang tot data bedacht, maar hoe uitwisselbaar is het met andere onderzoekers? Je moet er bij dmp van te voren over nadenken, dat is een groot voordeel en ook dat datagegevens tezamen met financiële gegevens e.d. bij elkaar worden gebracht. Er wordt geopperd of vooraf een dmp bij onderzoekvoorstel gedaan kan worden voor fiat bij de ethische commissie? Als ethische commissie het voorstel goedgekeurd heeft, dan is het dmp (incl. opslag en duurzaamheid) ook geregeld. Voor Europese Grants moet je data geanonimiseerd opslaan en er wordt een dmp vereist en er komen audits vanuit EU. Wat zijn de criteria van datamanagementplan en wie gaat dat plan toetsen? Er moet een framework voor dmp komen dat wetenschappers kunnen gebruiken. Aan de hand van een framework kunnen wetenschappers dan alle aspecten invullen zoals voor opslag, techniek, maar ook voor financiën. Moet je niet beginnen met een stukje beleid? Je moet toch eerst de regelgeving hebben en daarna kun je pas andersoortige zaken uitwerken. Er is zoveel wet, regelgeving en toetsing, maar waarom gebeurd het dan niet? Vaak kunnen onderzoekers slecht aansluiten bij grote initiatieven en dan verzinnen de onderzoekers zelf maar wat. Wat betreft kosten wordt gemeld dat beeldmaterialen centraal opgeslagen worden, maar ruwe data en data die je gebruikt om beeld tot stand te laten komen, echter op externe USB sticks of op eigen PC opgeslagen worden, omdat afdelingsmanagement centrale oplossing te duur vindt. Er wordt geconstateerd dat er een boost moet komen van infrastructuur zaken, incl. applicaties. If people don’t commit we are nowhere. Iedereen moet betrokken zijn, die betrokkenheid komt nu onder druk van externe factoren, zoals EU Grants. Druk van buiten is zo groot dat er wel een oplossing moet komen. De wetenschappers moeten gefaciliteerd worden, zodat ze een formuliertje kunnen invullen en weten dat het dan geregeld is. Is het wel zo generiek te maken? Ja, als je keuzemomenten inbouwt. In het UMC loopt het vast op beschikbaarheid van tools. Wat kunnen we van topuniversiteiten en topinstituten leren? We kunnen nagaan wat we van hen kunnen leren en we zouden dan ook het onderzoek met hen kunnen benchmarken. Dit brengt Dyonne op de vraag wie er het meest deskundig is. Zijn dit de wetenschappers of de datamanagers? Nu denkt de onderzoeker zelf vaak dat hij het heel erg goed weet.
De oplossing van het probleem ligt op grote schaal, daarom is men blij met deze universitaire bijeenkomst. Er is behoefte aan schaalgrootte opschalen, disciplines bij elkaar brengen (van diegenen die verstand hebben van techniek en onderzoek tot diegenen die kennis hebben van regelgeving en normen) en aan een dmp, incl. kosten voor opslag en beheer, ook voor de langere termijn. De vraag is of je dit binnen de RU moet oplossen. Misschien moet dit wel landelijk gebeuren. Er is angst bij onderzoekers wat er gebeurd met hun data en wie ze gaan gebruiken. Moet daar niet meer helderheid over komen, dus over definities en afschermen, evenals over wie toegang tot open data hebben? Er wordt gezegd dat we zelf de regels moeten maken. Dan doemt de vraag op wie de eigenaar is van de data? Een subsidiegever zoals NWO claimt het eigendomsrecht. Er is ook een databasewet in Nederland waar men zich aan moet houden. Buiten Nederland kan dit weer anders liggen. De financier is mede‐eigenaar en financiers kunnen eisen stellen. Als je geld van NWO krijgt moet je een manier vinden om data te delen. Het is ook een kwestie van timing. Als het onderzoek gepubliceerd is, hoef je ook minder nerveus te zijn om data open te stellen. Er is verschil aan te brengen in onderzoeksfase: bijvoorbeeld een embargo periode waarbij data nog niet open zijn (tot publicatie), maar de andere kant van de zaak is in hoe verre vertrouwen mensen technische omgevingen? Geef je data aan de ‘bank’ in vertrouwen? Stel je data open voor iedereen? Er wordt aangereikt dat data versleuteld kunnen worden, zodat deze niet te traceren zijn. Binnen bepaalde grenzen kun je data hergebruiken, echter hoe dichter bij de onderzoeker hoe makkelijker. Wat betreft data zijn er drie fasen te onderscheiden in een soort life cycle: de initiële datafase, met data acquisitie, pre processing, soms vindt ook nog interactie met proefpersonen en met collaborators in de wereld plaats (met beveiligingsprobleem) en daarna zijn de onderzoekers bezig met hun publicatiestuk (en is de beveiliging makkelijker op te lossen). Uiteindelijk is het onderzoek gepubliceerd en zijn de data ‘ready’ voor hergebruik. Er wordt geconstateerd dat ook negatieve resultaten beschikbaar gesteld zouden moeten worden, om herhaling van zelfde type onderzoek te voorkomen met bijbehorende ethische aspecten en kosten. Om (negatieve) onderzoeksresultaten terug te kunnen vinden moet metadatering ook goed gebeuren, dit is niet vanzelfsprekend voor wetenschappers. Wetenschappers kunnen wel makkelijk hun eigen data benoemen, maar metadata tagging hoort er bij als je data openbaar wilt maken, want langs die weg moet je bij de ruwe data kunnen komen. Metadata tagging is het ‘key’ werk. Als onderzoekers zich niet bewust zijn dat ze goede metadata tagging moeten doen, dan zijn de (ruwe) data niet te vinden. Er wordt geconstateerd dat dit zaken zijn voor scholing. Een clinical trial moet je van tevoren aanmelden en dan kan het trialregister helpen om negatieve resultaten te vinden. Je kunt naar de onderzoeker gaan om te vragen wat er uitgekomen is. Door competitie wordt niet alles goed gemeld, maar het is een idee om dit te regelen, ook vanwege ethische aspecten. Er wordt vastgesteld dat het trialregister onderdeel zou moeten zijn van datamanagementplan (dus is gecheckt in trialregister of er al zelfde soort onderzoek is gedaan en zo ja, waarom deze dan niet gepubliceerd is).
Als je dataset bij publicatie hangt is dit al een goede eerste stap. Hoe krijg je dit goed geregeld? Wat betreft wetenschappelijke integriteit: je wilt geen Stapel affaire hebben. Hoe krijg je dit nu goed geregeld? In dmp kun je in ieder geval regelen waar de data worden opgeslagen. Met het niet publiceren van negatieve resultaten handel je niet integer. Bij datamanagementplan kun je allerlei zaken aanhangen als organisatie. Ook zaken in het kader van integriteit. Dan heb je ook iets in de hand om naar het bestuur toe te zeggen dat dmp zo belangrijk is. Ook wordt dan duidelijk dat je ruimte (voor dataopslag) te kort hebt. Als je dmp maakt zie je ook meteen wat de kosten zijn. Kan financier dat dan niet betalen? Bij financiers wordt het ook steeds duidelijker dat dit in budget moet worden opgenomen. Onderzoekers lopen er tegenaan dat er geen geld is voor de infrastructuur. Wie zit er in de ‘driver seat’ waar alle problemen bij elkaar komen? Iedereen wil een goede oplossing, maar het mag niet te duur zijn. Moet een organisatie dit regelen? UMC St Radboud moet dat centraal regelen: data storage, computer power en infrastructuur. Geldt dit voor al het onderzoek, zowel voor mensgebonden als voor fundamenteel onderzoek? Moet fundamenteel onderzoek ook precies centraal opgeslagen worden? Als je het wilt bewaren, dan moet dit! Datamanagementplan moet er dus voor alle typen onderzoek komen. Bij fundamenteel onderzoek komt minder wet en regelgeving te pas, er zijn minder veiligheidsaspecten. Als er centraal een goede, betaalbare infrastructuur is, dan stappen de onderzoekers zo over. Wat moet een aantrekkingskracht zijn van goede infrastructuur? Waar ligt de verantwoordelijkheid, is dit bij onderzoekers, bij instituten of bij de universiteit? Voor een aantal zaken is Raad van Bestuur van het UMC verantwoordelijk, bijvoorbeeld voor klinische data. Voor dierexperimenten is echter de rector magnificus van de RU verantwoordelijk. De vraag is hoe je die verantwoordelijkheid moet invullen. Er is hier veel kennis aanwezig om die verantwoordelijkheid ook af te dekken. Er wordt opgemerkt dat er bij langdurig bewaren ook langdurige financiering nodig is. Het CvB en RvB zijn eindverantwoordelijk en dat biedt de gelegenheid om hen ook voor infrastructuur en langdurig bewaren verantwoordelijk te stellen. Moeten we niet een signaal afgeven aan het bestuur dat er iets in deze richting nodig is? De individuele onderzoekers en PI’ s kunnen signaal afgeven dat er centraal iets geregeld moet worden. Er ligt echter ook een betrokken verantwoordelijkheid bij de ICT ondersteuners om wetenschappers te verleiden om hun diensten af te nemen, omdat die meer marktconform zijn dan wat ze van buiten af kunnen aanschaffen. Worden de overheadgelden van onderzoeksprojecten ook geïnvesteerd in infrastructuur? Er is veel overhead geld, maar daar zie je in de services niet veel van terug in het UMC. Het momentum is er nu: we moeten binnen het UMC nadenken wat er nodig is met het oog op de toekomst, maar hoe kan de ICT‐ er dit samen met de onderzoeker voor elkaar krijgen? Er is nog nooit een voorstel geformuleerd. Ieder keer als er iets voor ICT gebeurd worden onderzoekers vergeten. Het zou goed zijn dat de onderzoekers in het UMC aangeven wat er
nodig is aan centrale infrastructuur. Dan ligt er iets dat (door het bestuur) opgepakt kan worden.
De ideale wereld is dat er een datamanagementplan bij iedere projectaanvraag komt, waarbij ook de lange termijn van opslag, beheer en data sharing wordt meegenomen. Projecten worden zo wel vele malen duurder, maar dan kom je er als organisatie wel achter dat onderzoeken vele malen duurder zijn dan waar tot nu toe van uit gegaan werd. Dat brengt wel bewustwording te weeg dat er hogere eisen aan kwaliteit gesteld worden. Je moet je financiers er ook bewust van maken dat er kosten verbonden zijn aan opslag en beheer van data en de duurzaamheid daarvan. Er wordt geconstateerd dat het nodig is om dit alles gewoon een keer op te schrijven. Dus niet alleen de (eind)verantwoordelijkheid van het bestuurders, maar ook wat er aan kwaliteit nodig is. Voor contractonderzoek is een dmp ook van belang, onder meer voor het opnemen van wie de eigenaar is van de data. Bij gesponsord onderzoek is het heel moeilijk om bij de data te komen. Onduidelijk is hoe de relaties liggen tussen investeerders en onderzoekers. In dmp opnemen wie control heeft over toegang tot data schept helderheid. Bij goed dmp wordt je gedwongen om voor die tijd na te denken over dit soort zaken, zodat deze goed vastgelegd kunnen worden in een contract, ook voor langere termijn. Wie zou dit goed kunnen coördineren in het UMC? Het Instituut Waarborging Kwaliteit en Veiligheid (IWKV) doet dit niet? Voor zover bekend niet, maar ergens moet dit wel samenkomen in het UMC. Er wordt geconcludeerd dat dmp een goed idee is, maar er moet ook meer awareness onder alle groepen komen. Er moet een behoeftebepaling komen: verschillende behoeftes moeten ergens geïnventariseerd worden. Dan zul je zien dat het niet 1400 verschillende projecten zijn, maar dat er een enorme overlap is tussen de onderzoeken. Een overzicht moet vanuit centraal gefaciliteerd worden met veel input van de onderzoekers zelf. Er zijn twee belangrijke randvoorwaarden: snelheid en flexibiliteit. Overzicht kan gecreëerd worden door vanuit centraal technici en onderzoekers bij elkaar te brengen. Onderzoekers kunnen toetsen of techniek aan (gewenste) kwaliteit voldoet, omdat onderzoekers kunnen beoordelen of ze zijn geholpen met de aangeboden techniek. Interactiviteit is hierbij geboden. Vraag is welke faciliteit er moet komen en vervolgens bij welk instituut dit belegd moet worden. Zou dit bij het programma 2.0 moeten zijn als vervolg op het patiëntenzorgtraject Beter 2.0? Conclusie: Datamanagementplan is een goed idee, maar er moet ook meer awareness onder alle onderzoeksgroepen komen. Een overzicht van behoeften moet vanuit centraal gefaciliteerd worden met veel input van de onderzoekers zelf. Het struikelblok is het geld. Maar wat bedacht wordt als faciliteit (voor data storage, computer power en infrastructuur), moet wel met snelheid en flexibiliteit komen en niet leiden tot onnodige bureaucratie. Er zal een datamanagement framework opgesteld moeten worden (van een paar A‐4tjes), incl. toetsing, om aan Raad van Bestuur ter goedkeuring voorgelegd te worden.