TU Delft Library
Samenvatting Literatuuronderzoek Waardevolle data & diensten
Auteur(s) Datum Versie Status
J.W. de Lange, A. Princic, J.P. Rombouts 19 maart 2009 0.4 O
SURF Share WP6 “Waardevolle data & diensten” Auteur Opdrachtgever Datum Status (N/O/G/A/V)* *
Jeroen Rombouts (TU Delft Library) Wilma Mossink (SURF) 19 maart 2009 O
(Nieuw/Ontwikkeling/Gereed/Akkoord/Vervallen)
Versiebeheer Versie 0.1 0.2
Datum 180309 190309
Auteur JL JR
Aanpassingen Eerste versie samengesteld uit resultaat tabellen. Introductie toegevoegd op basis van start document.
I/R/A* R I
Distributie A. Princic, J. Rombouts, J. de Lange. SURF W. Mossink, A. Princic, J. de Lange, J. Rombouts
Distributielijst Versie 0.1 0.2
*
Datum 180309 190309
I = ter info R = ter review A = ter accordering
Bestandsnaam: Datum:
Samenvatting_Literatuur_WDenD_v04.doc 19 maart 2009 Status:
Versie: O
0.4
2/6
1
Inleiding
Dit document geeft een beknopt overzicht van de resultaten van het voorbereidend onderzoek in het project “Waardevolle data & diensten”. Volgens plan is ter voorbereiding op enkele te houden interviews gestart met een literatuuronderzoek naar het gebruik en met name de wensen van gebruikers van dataarchivering.
2
Definitie
Doelstelling en uitgangspunten De opdracht aan de projectgroep was in de literatuur te zoeken naar aanknopingspunten voor wat een datacentrum waardevol maakt voor de individuele onderzoeker en bij voorkeur verwoord door de onderzoekers zelf en/of gebaseerd op praktijk cases. De voordelen voor de wetenschap in het algemeen, en voor wetenschappelijke instellingen en andere financiers voor onderzoek zijn dus buiten beschouwing worden gelaten. Er is gezocht naar de volgende 3 zaken relevant voor het vervolg onderzoek: 1. Vragen om d.m.v. interviews te toetsen bij de groepen van de 2 cases op het gebied van civiele techniek (en of later bij andere TU groepen); 2. Concrete diensten die een datacentrum zou kunnen leveren aan de onderzoekers die de data ook verzamelen en aanleveren (de primaire gebruikers [DARELUX, 2007]); 3. ‘Karakteristieken’ zoals hieronder geformuleerd die aangeven waarom diensten wel of niet van belang zijn voor een bepaald(e) onderzoek(sgroep).
De resultaten van het onderzoek naar de hierboven genoemde zaken zijn in een tussenstap naar de onderwerpen voor de interviews gegroepeerd in de volgende groepen: 1. Cultuur binnen het vakgebied; 2. Toegevoegde waarde ten opzichte van datamanagement in eigen beheer en/of ontoegankelijk voor derden; 3. Ondersteuning van de dataleveranciers en/of de primaire en secundaire gebruikers. Vragen, diensten en criteria die niet in één van bovenstaande groepen konden worden ondergebracht maar wel relevant waren bevonden voor de interviews of de workshop in een later stadium van het project zijn ondergebracht in een groep “overige”. Voor alle resultaten geldt dat ze betrekking hebben op het publiceren van data in het algemeen en/of door een datacentrum in het bijzonder.
Bestandsnaam: Datum:
Samenvatting_Literatuur_WDenD_v04.doc 19 maart 2009 Status:
Versie: O
0.4
3/6
3
Resultaten
Interview vragen Een deel van de vragen is afgeleid van de resultaten bij de hierna volgende categorieën, diensten en karakteristieken. Zie de Bijlage bij interviewverslagen voor de volledige lijst vragen.
Suggestie voor diensten (te leveren door het datacentrum) 1. Behalve tegen misbruik, moeten er ook maatregelen worden getroffen tegen verlies van data door storingen en calamiteiten. Daarom wordt de aanbeveling gedaan om de verkregen datasets op meerdere plaatsen op te slaan (Kramer). 2. Diverse auteurs (Warden, Kramer, Henty) benadrukken dat de vrije toegang tot (technisch-) wetenschappelijke datasets de communicatie tussen onderzoekers versterkt en de waarde van ieder afzonderlijk onderzoek, waarvan de data in een repository zijn opgeslagen en toegankelijk gemaakt, toeneemt. Door het verbinden van datasets van verschillende disciplines, zo wordt door het Nederlandse instituut DANS aangevoerd, kunnen bovendien nieuwe datasets worden gegenereerd met nieuwe inzichten, correlaties, en similarities [Kramer, 2006].
Karakteristieken van de dataset/onderzoeksgroep 1. Onderscheid in het bewaren van data voor de korte termijn (tot ca. 5 jaar) en de lange termijn (zeker meer dan 10 jaar). 2. Onderscheid dynamische data (nog in bewerking) en statische data (gepubliceerd en klaar voor archivering). In het DARELUX-project zijn data onderscheiden naar de [twee] stadia waarin ze zich bevinden: dynamische data en statische data. Dynamische data zijn een onderdeel van lopend onderzoek en kunnen gedurende het onderzoek zowel in kwantitatieve als in kwalitatieve zin (gecontroleerd) muteren. Dynamische data dienen gedurende het onderzoek goed beschermd te worden. Zodra het onderzoek is afgerond, ontstaat een statische dataset, die bij uitstek geschikt is voor hergebruik in andere omgevingen, met dien verstande dat altijd in overleg met de onderzoeker bepaald zal worden welke datasets inderdaad voor duurzame opslag in aanmerking komen en onder welke condities hergebruik kan plaatsvinden [DARELUX, 2007]. 3. Onderscheid verschillende type gebruikers [DARELUX, 2007]. In DARELUX zijn drie gebruikersgroepen te onderscheiden. Primaire gebruikers : onderzoekers die direct betrokken waren bij het project en het verwerken van de data. Secundaire gebruikers : wetenschappers die niet direct betrokken zijn bij het project maar werkzaam zijn in de hydrologie of in een aangrenzend onderzoeksgebied en die zowel gebruiker als leverancier van data zouden kunnen worden. Tertiaire gebruikers : onderzoekers die zich uitsluitend beperken tot het gebruik van de gearchiveerde data. 4. Herhaalbaarheid van het onderzoek (observations of specific phenomena at a specific time or location/scientific experiments/models or simulations [RIN, 2008]). 5. Looptijd van het onderzoek (eenmalige experimenten of reeks metingen over een lange periode (longitudinaal)) [TUDelft, 2008]. 6. Onderzoeks ‘organisatie’, bijv. een individu of zeer kleine groep waarbij overdracht geen belangrijke rol speelt of een grote groep (verschillende instellingen) waarbij het delen
Bestandsnaam: Datum:
Samenvatting_Literatuur_WDenD_v04.doc 19 maart 2009 Status:
Versie: O
0.4
4/6
van gegevens en overdracht wel van belang is [TU Delft, 2008]. 7. Om een indeling in de verscheidenheid aan mogelijkheden van toegang tot wetenschappelijke datasets te krijgen, maakt [Jacobs, 2004] onderscheid in de volgende groepen: 1. Vrije toegang tot data voor iedereen ongeacht relatie tot het beherend instituut en gebruiksdoel; 2a. Toegang voor personen die hetzelfde vak uitoefenen, gebruik na bemiddeling of tegenprestatie (ruilmarkt); 2b. Toegang onmiddellijk of enkele jaren na afsluiting van het project of de publicatie; 2c. Toegang tegen betaling (commerciële markt); 3. Geen toegang. 8. De United Kingdom Data Archive [UKDA, 2008] maakt de opgeslagen datasets toegankelijk voor gebruikers die daartoe een contract (End User’s Agreement) ondertekenen. Toegang wordt verleend tot non-profit organisaties voor onderwijs en onderzoek, de datasets zijn dus niet openbaar toegankelijk. 9. De verantwoordelijkheid voor data opslag en beheer ligt in de meerderheid van gevallen bij de onderzoeker, in mindere mate bij het afdelingshoofd of de onderzoekseenheid (Henty). Om grootschalige opslag van datasets door centrale instituten te bevorderen, is het daarom van belang dat vooral de onderzoekers worden overtuigd van de meerwaarde van hun onderzoek voor de wetenschap. 10. Een specifieke categorie data betreft geografische data, ook bekend onder de term geodata. Met de voortschrijdende technieken voor aardobservatie (GPS) en dataopslag en verwerking (GIS) komen grote hoeveelheden geodata ter beschikking. Het genereren van deze data is extreem kostbaar , de bedrijven en instituten die de hiermee verbonden projecten uitvoeren voelen er dan ook weinig voor om deze data kosteloos ter beschikking te stellen via openbare kanalen. Er is iets voor te zeggen om voor deze geodata, veelal gegenereerd zonder financiële ondersteuning van publieke lichamen, tegen betaling ter beschikking te stellen en duplicatie van kostbaar onderzoek te voorkomen [Diepenbroek, ..]. 11. Een volgende specifieke categorie betreft vertrouwelijke (medische) gegevens die veelal onder het beroepsgeheim van behandelende artsen of zorginstellingen valt. Het spreekt vanzelf dat de bescherming van deze gegevens moet worden gewaarborgd [Godard, 2003]. Alleen als de gegevens zijn geanonimiseerd, kunnen deze door andere personen en instituten worden gebruikt, bijvoorbeeld als referentiemateriaal. 12. Onderscheid verschillende type collecties op basis van mate van standaardisering en gebruikersgroepen [NSF, 2006]: - Research collections . Hierbij zijn de auteurs individuele onderzoekers of teams van onderzoekers. De collectie wordt alleen gebruikt door de deelnemers gedurende het project, ze worden beperkt verwerkt en opgeslagen en de data voldoen niet altijd aan standaarden. - Resource collections . Deze datacollecties worden gevuld door een samenwerkende en samenhangende groep auteurs (community), meestal binnen één domein van natuurwetenschappen of techniek; hier worden standaarden toegepast die binnen dat domein worden gehanteerd. Data worden opgeslagen voor middellange of lange termijn. - Reference collections . Deze collecties worden gevuld door grote groepen binnen een domein van natuurwetenschappen of techniek, volgens breed geaccepteerde standaarden. Meestal vormt deze collectie als zodanig dé standaard. De grenzen tussen de verschillende collecties kunnen vervagen en een researchcollectie kan evolueren naar een resourcecollectie of zelfs referencecollectie.
Bestandsnaam: Datum:
Samenvatting_Literatuur_WDenD_v04.doc 19 maart 2009 Status:
Versie: O
0.4
5/6
13. Data opslag en beheer door een repository van een centraal instituut (universiteit, land, regio, branche) wordt als positief ervaren door gebruik van standaard formats en metadata (Warden), waardoor transformatie naar een andere, meer geschikte format voor het eigen onderzoek vaak kan worden vermeden. Ook heeft de inrichting van een data centre een grotere meerwaarde naarmate de opgenomen vakgebieden homogener zijn, omwille van eenvoud. 14. Pfaltz benadrukt dat wetenschappelijke datasets wezenlijk verschillen van, bijvoorbeeld, bedrijfsadministratie; bij laatstgenoemde is meestal sprake van een eenduidige (of eendimensionale) relatie tussen twee zaken, die eenvoudig in een tabel of grafiek kan worden weergegeven. In wetenschappelijk onderzoek is vaak sprake van een veelheid
aan onafhankelijke variabelen waardoor hogere eisen worden gesteld aan de opslag van de gegevens . 15. In een onderzoek naar de beschikbaarheid van data en informatie op het gebied van bosbouw (Schweik, 2005), wordt geconstateerd dat de benodigde data wel aanwezig is, maar dat deze is opgeslagen in de hoofden, boeken en computers van individuele onderzoekers en onderzoeksafdelingen, en dat het bestaan hiervan niet of nauwelijks bekend is bij collega onderzoekers. In het geval dat het bestaan wel bekend is, ontstaan vaak problemen door de vorm waarin de data beschikbaar is (aangeduid met de term ‘ file cabinet problem ’), waardoor de data niet zonder meer bruikbaar zijn voor nieuw onderzoek. 16. Veel auteurs [o.a. Sarathy, Warden] benadrukken ten overvloede dat data sharing niet nieuw is, maar een hoge vlucht heeft genomen met de toegenomen technische mogelijkheden van internet faciliteiten sinds het eind van de 20 e eeuw.
Bestandsnaam: Datum:
Samenvatting_Literatuur_WDenD_v04.doc 19 maart 2009 Status:
Versie: O
0.4
6/6