Podium Plus: Onderzoek naar de mogelijkheden tot landelijke samenwerking bij de opslag van onderzoeksdata
Colofon Podium Plus: Onderzoek naar de mogelijkheden tot landelijke samenwerking bij de opslag van onderzoeksdata SURFfoundation PO Box 2290 NL-3500 GG Utrecht T + 31 30 234 66 00 F + 31 30 233 29 60
[email protected] www.surf.nl Auteur Paulien Wiersma – Universiteitsbibliotheek Utrecht Eindredactie Keith Russell – SURFfoundation
SURF is de ICT-samenwerkingsorganisatie van het hoger onderwijs en onderzoek (www.surf.nl). Deze publicatie is digitaal beschikbaar via de website van SURFfoundation: www.surffoundation.nl/publicaties
© Stichting SURF SeptemberAugustus 2011
Deze publicatie verschijnt onder de Creative Commons licentie Naamsvermelding 3.0 Nederland.
Inhoudsopgave
Managementsamenvatting ............................................................................................... 5 Management Summary ..................................................................................................... 7 Inleiding en achtergronden .............................................................................................. 9 1
Deelresultaat 1: oriëntatiefase landelijke samenwerking – dataverse network ..... 11 1.1 Het gebruik van Utrecht Dataverse network ......................................................... 11 1.2 Relaties met andere projecten ............................................................................ 12
2
Deelresultaat 2: de pilots....................................................................................... 13 2.1 Inleiding .......................................................................................................... 13 2.2 Enquêtes ......................................................................................................... 13 2.2.1 Look and feel (onderdeel A) .................................................................. 13 2.2.2 Technische aspecten DVN (onderdeel B) ................................................. 13 2.2.3 Flow en toegankelijkheid van data (onderdeel C) ..................................... 14 2.2.4 Overige bevindingen ............................................................................ 14
3
Deelresultaat 3: opzet voor samenwerking ........................................................... 19 3.1 Licentievoorwaarden en vergelijk ........................................................................ 19 3.2 Metadatavelden en vergelijk ............................................................................... 20 3.3 Metadatavelden in de pilots ................................................................................ 21 3.4 Metadatavelden bij 3TU.Datacentrum .................................................................. 21 3.5 Formaten bij DANS ........................................................................................... 21 3.6 Voorkeursformaten van DANS vergeleken met gebruikte formaten in Utrecht Dataverse Network ........................................................................................... 22 3.7 Voorkeursformaten van 3TU.Datacentrum ............................................................ 22 3.8 Conclusie m.b.t. metadata en formaten ............................................................... 22
4
Handmatig overhevelen van datasets uit Utrecht Dataverse Network naar DANS EASY ...................................................................................................................... 23
5
Aandachtspunten m.b.t. technische aspecten van Dataverse Network .................. 27
6
Levenscyclus van data ........................................................................................... 29
7
Conclusies en aanbevelingen ................................................................................. 31
Bijlage 1 - UBU Virtual Datacenter ................................................................................. 33 Bijlage 2 - Vragenlijst voor gebruikers van DVN ............................................................. 37 Bijlage 3a - Overzicht van de gebruikte formaten in Utrecht Dataverse Network ........... 39 Bijlage 3b - Overzicht van de ingevulde metadata in Utrecht Dataverse Network .......... 41 Bijlage 4a - Utrecht Dataverse Network - terms of use for downloading ........................ 43 Bijlage 4b - Utrecht Dataverse Network – general terms of use ..................................... 45 Bijlage 4c - Utrecht Dataverse Network – terms of use for posting ................................ 49 Bijlage 5 - DANS EASY – Dublin Core Metadata .............................................................. 53 Bijlage 6 – 3TU.Datacentrum – Dublin Core Metadata .................................................... 55 Bijlage 7 - Voorkeursformaten van DANS ....................................................................... 57 Bijlage 8 - Overzicht ondersteunde formaten bij 3TU.Datacentrum ................................ 59 Bijlage 9 - Utrecht Dataverse Network FAQ ................................................................... 61
3
Managementsamenvatting Dit rapport geeft een onderzoek weer dat is uitgevoerd in opdracht van SURFfoundation. Het valt onder het SURFshare programma in het werkpakket „Toegang tot onderzoeksdata‟. Het project is uitgevoerd van 1 september 2010 tot 1 juni 2011. Bij de Universiteitsbibliotheek Utrecht is in 2010 een lokale applicatie van het open source programma Dataverse Network (DVN) geïnstalleerd om aan onderzoekers van de Universiteit Utrecht de mogelijkheid te bieden om hun primaire onderzoeksdata te archiveren en te ontsluiten. Met ondersteuning van de bibliotheek kunnen onderzoekers in eigen huis en onder eigen regie op een verantwoorde wijze voldoen aan de noodzaak van langdurige en (uiteindelijke) openbaarmaking van onderzoeksdata. In twee pilots met onderzoekers van de Universiteit Twente en Universiteit Utrecht is ervaring opgedaan met het gebruik van het open source programma. De archivering in het Utrecht Dataverse Network is in eerste instantie voor de korte en middellange termijn, maar er is geïnventariseerd of datasets uit de pilots in aanmerking komen voor lange termijn opslag. Voor dit tweede onderdeel van het onderzoek is input gevraagd van DANS en 3TU Datacentrum. Het project Podium Plus levert zo een structurele en concrete bijdrage aan de workflow voor opslag en hergebruik van de in de Utrechtse Dataverse Network gedeponeerde data. In het kader hiervan zijn de licentievoorwaarden van DVN en DANS/3TU Datacentrum vergeleken. Ook zijn de metadata uitgebreid vergeleken, waarmee ervaring is opgedaan met het overzetten en het lange termijn bewaren van datasets. Daarnaast zijn er concrete stappen gezet in de landelijke samenwerking met betrekking tot dataopslag: De Universiteit Leiden heeft interesse getoond om te gaan werken met Utrecht Dataverse Network. Ook andere universiteiten hebben interesse voor landelijke samenwerking getoond. Hiermee is dit een mooi voorbeeld van hoe een Cloud oplossing kan worden ingezet voor de opslag van onderzoeksdata. Bij de uitvoering van de pilots is gebleken dat slechts weinig onderzoekers bereid zijn gevonden hun data, als eerste stap in lange termijn dataopslag, op te slaan in DVN. Wetenschappers geven aan dat zij nog weinig tijd hebben voor dataopslag en hier een lage prioriteit aan toekennen. Wel hebben meerdere onderzoekers zich bereid getoond mee te werken aan een enquête voor gebruik van DVN. De uitkomsten hiervan zijn niet in het project Podium Plus gebruikt maar zijn interessant voor vervolgprojecten. De enquêtes bevestigen het beeld dat in andere projecten naar voren is gekomen. Met betrekking tot de technische aspecten van DVN is geconstateerd dat de upload van bestanden soms traag gaat, dat er problemen zijn met SPSS (.sav bestandsformaat) en dat wetenschappers het als een nadeel ervaren dat er geen streaming data in kan worden opgenomen. Aan deze punten zal verder gewerkt worden. Tenslotte blijkt uit het project dat Dataverse geschikt is om data op te slaan. Voor de lange termijn bewaring bij DANS of 3TU Datacentrum zou het een nuttige exercitie zijn als voornoemde organisaties duidelijk zouden aangeven welke verplichte metadata, formaten en verdeling naar vakgebieden aangeleverd moeten worden. In Utrecht wordt momenteel een communicatieplan ingevoerd. Naar verwachting zullen meer wetenschappers datasets deponeren en is er dankzij dit project een begin gemaakt met een workflow om deze datasets voor lange termijn archivering over te hevelen naar DANS dan wel 3TU Datacentrum. Op het gebied van authenticatie werkt de Universiteit Utrecht samen met SURFfederatie aan een federatieve inlog voor DVN.
5
Management Summary This report presents the results of a study carried out for SURFfoundation. This is one of the activities in the “Access to Research Data” work package within the SURFshare programme. The project ran from 1 September 2010 to 1 June 2011. A local application of the Dataverse Network (DVN) (an open source programme) was installed at Utrecht University Library in 2010 to enable the university‟s researchers to store and access their primary research data. The library helps them to comply responsibly – onsite and under their own control – with the need for long-term storage and – ultimately – sharing their research data. In two pilots, with researchers from the Universities of Twente and Utrecht, researchers were able to familiarise themselves with the open source programme. Archiving in the Utrecht Dataverse Network will initially be for the short and medium term, but a survey was carried out to determine whether datasets from the pilots should be stored for the long term. Input was requested from DANS and 3TU.Datacentrum for this second part of the study. Thus the Podium Plus project will contribute to the entire workflow for storage and reuse of the data deposited in the Utrecht Dataverse Network. To this end, a comparison was made between the licence conditions for DVN and those of DANS and the 3TU.Datacentrum. The metadata were also closely analysed, hereby gaining experience in transferring datasets for long term storage. Steps have also been taken towards countrywide collaboration on data storage: Leiden University has explored collaborating with the Utrecht Dataverse Network, and other universities have also shown interest in countrywide collaboration. This is a good example of how a cloud solution can be used to store research data. The pilots revealed that only a few researchers were prepared to store their data in DVN as the first step towards long-term data storage. Researchers say that they do not have enough time to devote to data storage and that they assign it a low priority. A number of them were prepared, however, to participate in a survey regarding the use of DVN. The results were not actually used in the Podium Plus project but are relevant to follow-up projects. The surveys confirm the picture revealed during other projects. As regards the technical aspects of DVN, it was found that uploading files is sometimes slow, that there are problems with SPSS (the .sav file format), and that researchers consider it a disadvantage that streaming data cannot be included. More work will be done on these points. Finally, the project has demonstrated that Dataverse is suitable for storing data. As regards longterm storage at DANS or 3TU.Datacentrum, it would be useful if these organisations were able to clearly indicate what obligatory metadata, formats, and categorisation into disciplines need to be supplied. A communication plan is currently being introduced in Utrecht. More researchers are expected to deposit their datasets, and the project marks the start of a workflow for transferring these datasets to DANS or 3TU.Datacentrum for long-term storage. For authentication, Utrecht University is working with SURFfederatie on a federative inlog for DVN.
7
Inleiding en achtergronden Dit rapport geeft een onderzoek weer dat is uitgevoerd in opdracht van SURFfoundation. Het valt onder het SURFshare programma in het werkpakket „Toegang tot onderzoeksdata‟. Met het SURFshare programma wil SURFfoundation een gemeenschappelijke infrastructuur realiseren die de toegankelijkheid èn de uitwisseling van onderzoeksinformatie bevordert. Dit programma loopt van 2008 tot en met 2011 en heeft tot doel om samen met alle Nederlandse universiteiten en hogescholen, NWO en KNAW te werken aan het optimaal delen van onderzoeksresultaten, gebruik makend van de nieuwste ICT mogelijkheden. Met het Parelsnoer initiatief1 , een centrale databank voor klinische data als voorbeeld en best practice, moeten we concluderen dat er bij de Nederlandse Universiteiten nog geen centraal “loket” voor onderzoekers is, waar zij voor hun korte termijn dataopslag terecht kunnen. DANS zorgt voor de opslag en blijvende toegankelijkheid van onderzoeksgegevens in de alfa- en gammawetenschappen. Daartoe ontwikkelt het instituut zelf duurzame archiveringsdiensten, bevordert dat anderen dat doen, en werkt samen met andere databeheerders. DANS legt zich toe op lange termijn opslag, archivering en volledige openbaarheid van de data, terwijl wetenschappers in de fase ervoor ook behoefte hebben aan opslag van hun data. Onderzoeksfinanciers (zoals NWO en de European Research Council), wetenschappelijke uitgevers en anderen stellen in toenemende mate de eis dat onderzoeksgegevens verplicht bewaard dienen te worden voor langere tijd. Onderzoekers moeten hiertoe wel een mogelijkheid worden geboden hun data te archiveren en te ontsluiten. Daarmee wordt het delen en hergebruiken van datasets mogelijk, waarbij nadrukkelijk de wetenschappers zelf bepalen met wie zij dit doen en wanneer. De bibliotheek kan hierbij een rol spelen door de toegang te garanderen en te zorgen voor ondersteuning. Bij de Universiteitsbibliotheek Utrecht (UBU) is om deze reden in 2010 een lokale applicatie van het 2 open source programma DataVerse Network geïnstalleerd. Deze applicatie is ontwikkeld door Harvard University en MIT. Om het proces te coördineren en te begeleiden heeft de UBU begin 2010 het project Podium (Primaire OnderzoeksData In Utrecht Makkelijk toegankelijk) gelanceerd. Voor de dataopslag maakt de UBU gebruik van de diensten van VANCIS. Dit is een dochteronderneming van rekencentrum SARA in Amsterdam. Meer achtergrondinformatie is te lezen in Bijlage 1. In Utrecht Dataverse Network DVN deponeren een aantal wetenschappers inmiddels hun data. Het Podium Plus project wil een structurele en concrete bijdrage leveren aan de workflow voor opslag en hergebruik van deze onderzoeksdata door samen met DANS en 3TU Datacentrum te onderzoeken op welke wijze de door onderzoekers gegenereerde datasets (op het moment zij hieraan behoefte hebben), overgezet kunnen worden naar DANS of 3TU Datacentrum voor de lange termijn bewaring. Hoewel het archiveringssysteem van DANS gebruik maakt van FEDORA (algemene software voor repositories), wil DANS gebruik gaan maken van het speciaal voor datasets toegesneden DVN.
1
2
http://www.parelsnoer.org http://dataverse.library.uu.nl/dvn/ 9
1
Deelresultaat 1: oriëntatiefase landelijke samenwerking – dataverse network
De Universiteitsbibliotheek Utrecht heeft een concrete stap gezet in de landelijke samenwerking met betrekking tot dataopslag: er is een concept samenwerkings-overeenkomst opgesteld met de Universiteitsbibliotheek Leiden. De UB Leiden heeft in eerste instantie toegezegd dat zij in elk geval een jaar gebruik wilde gaan maken van Utrecht Dataverse Network. De kosten voor de installatie van de lokale Utrecht DVN-variant zouden worden gedeeld en er waren afspraken gemaakt over het gezamenlijke technische onderhoud. Zowel in Leiden als in Utrecht zou een gezamenlijke helpdesk georganiseerd. Er zou regelmatig overleg plaatsvinden. Utrecht heeft een begin gemaakt met het opstellen van een FAQ-lijst (bijlage 9). Leiden heeft inmiddels besloten nog niet verder te gaan met DVN. Of de Universiteit Twente verder gebruik gaat maken van DVN is nog onzeker; men geeft aan dat men niet zonder meer verder gaat met DVN. „Het zal moeten blijken uit de ondersteuningsactiviteiten die Twente als bibliotheek aan het opbouwen is. (o.m. via het project CARDS3). Mocht er vraag zijn naar dataopslag, dan wil men hosting regelen via 3TU-Datacentrum of DANS‟. Naast UB Leiden is wellicht ook de Universiteit van Tilburg geïnteresseerd. Tilburg heeft DVN gebruikt binnen het NEEO project4 en zij willen DVN blijven gebruiken voor de opslag van datasets bij publicaties. Tilburg maakt gebruik van Dataverse zoals deze door de universiteit van Harvard wordt aangeboden. Als er een vervolg komt op NEEO wordt Dataverse waarschijnlijk lokaal geïnstalleerd en op maat gemaakt, maar het is ook mogelijk dat ook Tilburg intensiever gaat samenwerken met Utrecht. Er zijn gesprekken gaande met meerdere universiteiten waaronder de Universiteit van Amsterdam. Als meer universiteiten aansluiten zal Utrecht de naamgeving te zijner tijd veranderen naar (bijvoorbeeld) het Dutch Dataverse Network. Utrecht streeft naar één Dataverse omgeving voor alle academische bibliotheken. Utrecht Dataverse Network zal in het kader van Podium Plus een federatieve inlog (laten) bouwen waardoor de aansluiting op SURFfederatie gerealiseerd zal kunnen worden. Een dergelijke inlog is bijvoorbeeld al te vinden bij Harvard 5 In de toekomst is het dan mogelijk dat gebruikers met hun eigen instellingsaccount (federatief) toegang krijgen tot een heel scala aan gekoppelde diensten, waarvan DVN er dan één is. Het s de bedoeling dat de diensten ook in samenhang met elkaar gebruikt kunnen worden. In het kader van Podium Plus is het goed mogelijk dat Utrecht Dataverse Network wordt verrijkt met een SWORD koppeling. SWORD staat voor Simple Web service Offering Repository Deposit. Van dit uitwisselingsprotocol maakt bijvoorbeeld ook DANS en het project EJME (Enhanced Journals Made Easy6) gebruik. Het is het protocol waarmee datasets van DVN naar DANS en 3TU.Datacentrum, over en weer, kunnen worden overgeheveld. Dit is een zeer belangrijke stap in de koppeling van datasets in DVN naar langdurige archivering.
1.1
Het gebruik van Utrecht Dataverse network
Gedurende het jaar 2011 is het gebruik van de dienst gratis, daarna is het gebruik van DVN tot 2 Gigabyte gratis, deze limiet wordt na 2011 misschien verhoogd. In Utrecht wordt momenteel een doorberekeningmodel opgezet naar de faculteiten. Ter indicatie, dit kan liggen in de orde van € 7,50 per GB. Voor de opslag maakt de UBU gebruik van de diensten van VANCIS; een dochteronderneming van SARA (Amsterdam).
3
http://www.surffoundation.nl/nl/projecten/Pages/CARDS.aspx
4
5
http://www.economistsonline.org/home http://dvn.iq.harvard.edu/dvn/faces/login/LoginPage.xhtml?clearWorkflow=true
6
http://www.surffoundation.nl/nl/projecten/Pages/EnhancedJournalsMadeEasy.aspx
11
1.2
Relaties met andere projecten
Podium Plus heeft relaties met de volgende twee projecten: CARDS (Controlled Access to Research Data Store): een door SURFfoundation gefinancierd project waar onderzocht wordt hoe onderzoekers bij hun lopend onderzoek ondersteund kunnen worden bij hun datamanagement. EJME (Enhanced Journals Made Easy) : een door SURFfoundation gefinancierd project waar een koppeling gemaakt wordt tussen tijdschriften en onderzoeksdata. De invoer van datasets verloopt via het systeem OJS (Open Journal Systems).
12
2
Deelresultaat 2: de pilots
2.1
Inleiding
Om ervaring op te doen met DVN als software voor dataopslag, is getracht gebruikers bij de Twentse en Utrecht Dataverse Network Universiteit te vinden. Hoewel zowel in Utrecht als in Twente veel inspanning is geleverd waren er slechts drie actieve gebruikers in Utrecht. De reden voor dit geringe aantal deelnemers is gelegen in het feit dat wetenschappers aangeven nog weinig tijd te hebben voor, en prioriteit te geven aan dataopslag. Door omstandigheden is het communicatieplan rondom PODIUM nog niet uitgevoerd. Dit had mogelijk meer belangstelling onder Figuur 1: De homepage van het Utrecht Dataverse Network onderzoekers tijdens de duur van dit project kunnen opleveren. Omdat dit plan in de zomer 2011 zal worden uitgevoerd, is de verwachting dat er binnenkort een groter gebruik zal worden gemaakt van deze dienst. Voor het werken met Utrecht Dataverse Network dienen gebruikers zich akkoord te verklaren met de voorwaarden. De juridische afdeling van de Universiteit Utrecht heeft tijd nodig gehad om voorwaarden op te stellen, hetgeen tot enige vertraging heeft geleid. Tenslotte was er interferentie met het CARDS project waarvoor ook onderzoekers moesten worden benaderd.
2.2
Enquêtes
Bij de drie Utrecht Dataverse Network gebruikers van DVN zijn drie volledige enquêtes afgenomen. Voor de vragenlijst zie bijlage 2. Voor de volledige versies van de enquêtes zie: http://hdl.handle.net/10411/10067. 2.2.1
Look and feel (onderdeel A)
Twee van de drie gebruikers geeft aan gemakkelijk de weg te vinden in DVN. Uploaden van bestanden vormt een aandachtspunt. Dit gaat één voor één en soms erg traag. Dit wordt veroorzaakt door een trage verbinding. 2.2.2
Technische aspecten DVN (onderdeel B)
De formaten van de opgenomen bestanden zijn opgenomen in bijlage 3a (vraag a). Als er beeld en geluidsbestanden worden gedeponeerd, dan is 2 Gigabyte niet veel. Hoeveel ruimte men in beslag neemt moet men handmatig optellen. Faculteiten kunnen hier te zijner tijd uit kostenbeheersingoverwegingen grenzen aan stellen (vraag b). De gebruikers hebben nog geen rechten uitgedeeld, maar zijn dit wel van plan (vraag c). De gebruikers hebben nog geen accounts voor personen buiten hun organisatie aangemaakt, maar zijn dit wel van plan (vraag d). De gebruikers hebben hun data ook nog op andere plaatsen bewaard (harde schijf/CD-ROM) (vraag e). Twee gebruikers ondervonden bij het inrichten van hun dataverse geen problemen, één gebruiker vond het lastig (vraag f). Twee gebruikers geven aan dat de structuur van de gedeponeerde data helder is; één gebruiker is het zicht op de structuur een beetje kwijt (vraag g).
13
Alle gebruikers vullen beschrijvende velden in. Een overzicht hiervan is opgenomen in bijlage 3b (vraag h). Twee gebruikers geven aan dat de minimale metadata zijn: auteur, contact e-mailadres van de auteur en een deposit-datum. Eén gebruiker voegt daar nog trefwoorden, afrondingsdatum, affiliatie, (NWO)-project en samenwerkingspartners aan toe (vraag i). In een study-template worden velden al standaard ingevuld en dat scheelt werk. Eén gebruiker geeft aan hier niet bekend mee te zijn; één wil er wel meer van weten en één kent het, maar werkt er nog niet mee (vraag j). De aangeboden hulpfuncties in Dataverse bestaan uit kleine pop-up vensters (handig vindt één gebruiker) en een uitgebreide handleiding (een gebruiker geeft aan daar niet in gekeken te hebben; een andere gebruiker vindt ze niet duidelijk) (vraag k). Men heeft de eigen Dataverses niet gepersonaliseerd of eigen banners gebruikt; een gebruiker heeft wel eigen voorwaarden opgesteld voor het downloaden van zijn materiaal (vraag l). De door DataVerse Network toegekende URL (handle) is in een enkel geval op een website gebruikt, maar nog niet in publicaties (vraag m).
2.2.3
Flow en toegankelijkheid van data (onderdeel C)
De gebruikers hebben in alle gevallen hun eigen onderzoeksdata gedeponeerd. Eén gebruiker heeft daar nog data van elders aan toegevoegd (vraag a). Met het delen van data heeft men nog geen ervaring opgedaan (vraag b). De datasets komen allemaal geheel of gedeeltelijk in aanmerking om voor de lange termijn te bewaren (vraag c). Twee onderzoekers zien een duidelijke tweedeling in de toegankelijkheid van hun datasets. Op het moment dat data nog in bewerking zijn en er nog geëxtraheerd en gepubliceerd moet worden willen zij liever geen Open Access. Daarna vormt Open Access geen probleem meer (vraag d t/m f).
Subsidiërende instellingen zoals NWO, stellen steeds meer als eis dat data goed bewaard dienen te worden. Daarbij wordt expliciet DANS-EASY genoemd. Er zijn ook financiers van onderzoeksprojecten die niet naar een specifieke plaats verwijzen om data op te slaan. Maar allen wijzen op het feit dat de data opgeslagen dienen te worden en terugvindbaar dienen te zijn. Eén onderzoeker geeft aan hier nog niet mee te zijn geconfronteerd, maar van collega‟s en samenwerkingspartners weet hij dat dit speelt. De aandachtspunten uit deze enquêtes zijn meegenomen in een lijst met veelgestelde vragen voor DVN (zie bijlage 9). 2.2.4
Overige bevindingen
In dit hoofdstuk zijn zeven enquêtes opgenomen met wetenschappers die wel benaderd zijn in het kader van dit project, maar er uiteindelijk om verschillende redenen niet concreet mee hebben gewerkt. Dit leverde input die weliswaar voor dit project niet gebruikt kon worden, maar wel interessant is voor vervolgprojecten of een beeld bevestigen wat al in andere projecten of literatuurstudies naar voren is gekomen. Om deze informatie niet verloren te laten gaan, volgt hieronder een weergave: Enquête 1 Deze enquête werd afgenomen bij een onderzoeker werkzaam bij de Faculteit Gedragswetenschappen, vakgroep Media, Communicatie en Organisatie, Universiteit Twente. “Data delen is niet het interessantste, doel voor mij zou zijn om het onderzoek als geheel te delen, dus inclusief de instrumenten (bv. vragenlijsten), analyses/publicaties, personen, etc. Kortom, de context van data is van belang! Zo kun je bij Statline van CBS ook veel meer dan alleen maar data zien, ook allerlei selecties en bewerkingen (zoals grafieken) zijn mogelijk. Dit is ook nodig om bijvoorbeeld onderzoek te kunnen herhalen. In de praktijk zal DVN niet werken, want of een onderzoeker al dat omliggende materiaal ook in de dataverse opneemt, moet je maar afwachten.
14
Kortom, ik kan net zo goed contact opnemen met de onderzoeker zelf en het benodigde materiaal vragen. DVN vraagt mij iets extra‟s te doen (opnemen, beschrijven, deels openstellen) maar ik krijg er niet veel voor terug lijkt het. Een „open research environment‟, zeg maar een soort samenwerkingsomgeving voor data verzamelen, analyseren en opslaan is aantrekkelijker”. Enquête 2 Deze enquête werd uitgevoerd bij de Faculteit Betawetenschappen, Departement Farmaceutische Wetenschappen, Biomedische Analyse, Biomolecular Mass Spectrometry and Proteomics, Universiteit Utrecht. Bij deze groep worden grote hoeveelheden data geproduceerd die momenteel als stream (UDP Protocol) opgeslagen worden (2 torens van ieder 64 TB-mirror). De opslag vindt evenwichtig plaats (load balancing) en d.m.v. cloud storage. Het operating system achter de hele dataopslag is via Castor Content Router 2.0. De datadeponeerder spreekt een „node‟ aan. Op grond van het formaat wordt de data ergens in de cloud bewaard (en op twee plaatsen dus) en het systeem komt terug met een hash-tag. Deze hash-tag is de toegang tot de dataset. Data delen betekent dus de hash-tag delen, maar binnen dit systeem is dit nog niet geformaliseerd; er zou eigenlijk nog een (software) laag boven moeten en die is er nu nog niet. In dat verband zou DVN meerwaarde kunnen hebben, ware het niet dat upload van DVN via http gaat en dus niet handig is in deze constructie. De bestanden die meest groter zijn dan 1 GB, (namelijk in deze onderzoeksgroep momenteel 2-4 GB) vormen een tweede probleem voor DVN. Over de levensduur van de data wordt nog opgemerkt dat deze niet langer is dan 5 jaar; daarna moeten metingen opnieuw gedaan worden, met modernere en verbeterde apparatuur. Maar héél zelden moeten data permanent bewaard blijven. Enquête 3 Deze enquête werd afgenomen bij een onderzoeker van de Faculteit GeowetenschappenAardwetenschappen-Geochemie, Universiteit Utrecht. Hier geeft men aan dat DVN geen toegevoegde waarde heeft ten opzichte van andere opslagsystemen omdat automatische opslag van machine-gegenereerde data niet mogelijk is. Dit had dan in technische zin niet alleen voor deze groep interessant kunnen zijn, maar ook voor wetenschappers in de nucleaire magnetische resonantie, moleculaire biologie en farmacie. Bij deze groep slaat men op dit moment de gegevens op de eigen harde schijf op en daarna op de labserver met een back-up mechanisme. Bij Geowetenschappen wordt al veel open access gewerkt en gedeeld. Belangrijke datacentra zijn PANGAEA7 in Duitsland en NOAA8. Open Earth is het depot voor Geowetenschappen. Enquête 4 Deze enquête werd afgenomen bij een onderzoeker bij de Divisie Hersenen van het UMC in Utrecht. De wetenschapper werkte met fMRI beelden en had al een persoonlijke database van 300 Gigabyte die op servers worden opgeslagen. Bij zijn onderzoeksaanvraag hoefde hij geen datamanagement plan in te dienen. Het formaat van de data is MATLAB (MATrix LABoratory), een wiskundige technische softwareomgeving. Deze wetenschapper zou wel graag kijken in de data van anderen, en is zelf ook bereid om data te delen. Het eerstgenoemde vindt hij belangrijker dan het laatstgenoemde. Een aansluitende enquête bij de ‟datamanagers‟ van het UMC leverde de volgende informatie op. Alle data van de divisie zitten in de zogenaamde Database Wetenschappelijk Onderzoek (DBWO). Deze database is een verzamelplatform met archief en is in principe gesloten. Er is geen koppeling naar het internet. Wetenschappers die gegevens uit deze database willen hebben dienen hiertoe een aanvraag in. ZorgICT is het grote project in het UMC dat de opslag van zorgdata gaat regelen, maar er zijn ook onderzoeks- en onderwijsdata. Meestal zijn deze datasets met elkaar verweven en/of gekoppeld. Het UMC Utrecht organiseert momenteel haar eigen dataopslag. 7 8
http://www.pangaea.de/ http://www.noaa.gov/
15
Enquête 5 Deze enquête werd afgenomen bij een onderzoeker Politicologie aan de Universiteit Twente. Deze gebruikt datasets van maximaal 1Gigabyte in het formaat .sav (SPSS) en .xls. De data worden gedeeld met een beperkt aantal collega‟s en wetenschappers en studenten. Voor onderwijs specifiek bewerkte data worden als oefenstof in de elektronische leeromgeving (Blackboard) aangeboden. In principe wil deze wetenschapper eindversies voor lange termijn bewaren na afloop van het eigen onderzoek. Publiek gefinancierd onderzoek zou Open Access beschikbaar moeten worden gemaakt; dit is ook belangrijk voor de repliceerbaarheid van het onderzoek. Let op privacygevoelige data; deze dient te worden afgeschermd of opgeschoond. Enquête 6 Deze enquête is uitgevoerd bij de vakgroep Maatschappelijke Risico‟s en Veiligheid, Universiteit Twente. Deze wetenschapper kent DVN van een presentatie van Gary King en is geïnteresseerd in de software. Hij heeft het niet zelf gebruikt (wegens tijdgebrek), maar heeft er wel naar gekeken en vindt DVN prettig in gebruik, overzichtelijk en heeft er snel zijn weg in gevonden. De mogelijke toepassing van DVN ziet hij vooral als mogelijk programma voor dataopslag in het Universiteit Twente datalab-initiatief. Dus het is meer op instituuts- (of groeps-)niveau in te zetten dan voor individueel onderzoek. Ook zag hij nog niet direct de meerwaarde ten opzichte van bijvoorbeeld Dropbox of andere bestaande programma‟s voor het delen van bestanden. Het toekennen van een persistente identifier zag hij vooral als nuttig om de dataset te koppelen aan een publicatie. De wetenschapper zag in eerste instantie niet dat DVN de mogelijkheid biedt om rechten toe te kennen aan derden voor toegang tot eigen data. Dit punt is meegenomen in de veelgestelde vragen (bijlage 9). Het formaat van de data die nu op zijn harde schijf staan, zijn .rdata, SPSS en .txt. De data varieert van 100 kilobyte tot 1 megabyte per bestand; in totaal zijn er nu enkele tientallen megabytes. De data groeit met 10 megabyte per jaar. Deze wetenschapper heeft tot nu toe uitsluitend externe data gebruikt en genereert door combinatie hiervan nieuwe eigen datasets. Hij heeft nog geen ervaring opgedaan met het delen van data, maar geeft aan dat na afloop van zijn onderzoek de data gedeeld mogen worden m.u.v. de privacy gevoelige data. Hij is voorstander van Open Access op grond van gemeenschapsgeld argument en alleen na afloop van het onderzoek. Als aanvulling op de enquête geeft deze wetenschapper nog aan: De toegang tot grote externe databestanden moet altijd op instituutsniveau geregeld worden, dat is voor een individuele onderzoeker niet te regelen. Er moet veel geregeld worden op het gebied van afscherming, enz. Hij heeft wel eens het probleem van onvoldoende rekencapaciteit op zijn eigen computer. Dan zou een externe partij uitkomst moeten kunnen bieden, bv. Amazon Elastic Compute Cloud. Maar dat geeft alleen tijdwinst bij parallelle bewerkingen, niet of nauwelijks bij sequentiële. Enquête 7 Deze enquête is afgenomenbij de vakgroep Politicologie, Universiteit Twente. Deze wetenschapper geeft aan dat het handig is om met een tool als DVN alle data op een overzichtelijke manier bij elkaar te hebben, datasets goed beschreven te hebben en een overzicht te hebben van verschillende versies (bijvoorbeeld na operationalisatie). Het formaat van zijn data is .sav bestanden (SPSS) en .xls. De data varieert van 100 kilobyte tot 1 megabyte per bestand; in totaal beslaat het enkele tientallen megabytes, met een groei van 10 megabytes per jaar. De data staan nu in een mappenstructuur en dat zal wel blijven bestaan, zo zegt hij. Zijn data zijn beperkt beschikbaar voor collega‟s en studenten. Vvoor onderwijs specifiek bewerkte data worden als oefenstof in Blackboard aangeboden. De data worden zelf of met collega‟s verzameld. Men slaat geen externe data op; die staan bijvoorbeeld bij het Nederlands Kiezers Onderzoek (NKO). Deze onderzoeker heeft geen ervaring met het delen van data. Alleen de eindversies van data komen volgens hem in aanmerking om voor langere termijn te bewaren. Daarnaast ook de ruwe versies, maar wellicht minder systematisch. Als het niet hoeft, moet men geen data weggooien. Over Open Access schrijft deze onderzoeker: „Eindversies na het onderzoek kunnen openbaar gemaakt worden, open access zou dan ook moeten met publiek gefinancierd onderzoek. Is ook belangrijk voor repliceerbaarheid. Wel letten op privacy gevoelige data: afschermen of opschonen‟. Tijdens het onderzoek moeten data
16
nog niet openbaar zijn. Hij heeft zelf nog geen ervaring met de eis van beschikbaarheid van data door subsidiërende instellingen, maar weet dat het gebeurt.
17
3
Deelresultaat 3: opzet voor samenwerking
In dit hoofdstuk worden specificaties beschreven voor de koppeling van dynamische omgevingen naar statische data-archieven (DANS).
3.1
Licentievoorwaarden en vergelijk
De licentievoorwaarden van de Universiteit Utrecht voor het gebruik van Utrecht Dataverse Network zijn opgenomen in Bijlage 4 a t/m c; de licentievoorwaarden van DANS zijn te vinden op: http://www.dans.knaw.nl/content/data-archief/juridische-informatie. Het 3TU Datacentrum gebruikt dezelfde licentievoorwaarden als DANS. DANS heeft de licentievoorwaarden vergeleken en concludeert: “Er zijn wel verschillen tussen de DANS en de Dataverse licenties. Zo kunnen de Dataverse terms zonder voorafgaande aankondiging eenzijdig veranderd worden door de UU; bij DANS kan dat niet. Een belangrijk verschil is verder dat privacygevoelige data categorisch niet in de Dataverse opgenomen mogen worden. Bij DANS mag dat wel (onder restricted access). Datasets blijven bij DANS in principe altijd in het archief, bij Dataverse kan de service beëindigd worden. Opvallend is ook dat Dataverse blijkbaar alleen persoonlijk wordt afgesloten. Bij DANS kan ook een organisatie (legal entity) dat doen. Alleen voor medewerkers van de UU geldt dat blijkbaar niet, blijkt uit de Terms of Use for Posting. Daarbij wordt er van uitgegaan dat de UU de "eigenaar" is. Verder zijn de Dataverse terms nog veel gedetailleerder dan die van DANS m.b.t. wat er allemaal niet mag staan in de data (unlawful, threatening etc.) ook m.b.t. computerbedreigingen als virussen, enz”. Verder nog: “De Terms of Use for Downloading van CLIO-INFRA (IISG) zijn vrij mager vergeleken met de Gebruiksvoorwaarden van DANS . Bij ons mogen data niet verder verspreid worden, zeker niet commercieel gebruikt of verkocht enzovoorts en daar staat bij Dataverse niets over. En ook niet wat er gebeurt bij niet-naleving”. Een matrix van de belangrijkste verschillen: DANS/3TU.DC
DVN
Access: open
Ja
Ja
Access: restricted
Ja
Ja
Privacygevoelige data mogelijk
Ja
Nee
Depositors: personen
Ja
Ja
Depositors: organisaties
Ja
Nee
Verwijderen datasets mogelijk door depositor
Nee
Ja
Verwijderen datasets mogelijk door archief
Ja
Ja
Er kan worden vastgesteld dat de verschillen gering zijn en geen barrière vormen voor de migratie van datasets. Op het moment dat datasets gaan migreren, zal de onderzoeker opnieuw akkoord moeten gaan met de gebruiksvoorwaarden en dan tegelijkertijd kennis kunnen maken met de verschillende toegangsvormen zoals DANS deze hanteert. Open en restricted access wordt contractueel vastgelegd. Zijn er uitgebreidere of specifieke wensen dan wordt een contract op maat gemaakt. Deze informatie moet voorafgaand aan het gebruik van Utrecht DataVerse Network worden gecommuniceerd. Gebruikers van DVN moeten zich goed bewust zijn dat op het moment dat zij de handle in een publicatie gebruiken; de data open access moet worden. Van de 4 licentiemodellen van DANS, gebruikt 3TU.Datacentrum het meest variant a, en ook “other access”. “Restricted access” is nog niet aan de orde.
19
Bij de licentievoorwaarden van Utrecht Dataverse Network dekken de General Terms of Use al het gebruik af (niet iedereen deponeert ook daadwerkelijk data); vandaar de aparte Terms of Use for Posting. Deze laatste zijn niet alleen bedoeld voor de medewerkers UU, maar voor deponeerders in Utrecht Dataverse Network en die kunnen ook van buiten de UU komen.
3.2
Metadatavelden en vergelijk
DANS EASY maakt gebruik van Dublin Core Metadata velden (zie Bijlage 5) en vergelijk hiervan met de metadata velden in DVN levert het volgende op: DVN Study Global ID Authors Software Producer Production Date Distributor
-
Distributor Contact Distribution Date Deposit Date Replication For Provenance Abstract Abstract Date Keywords Topic Classification Time Period Covered Date of Collection Related Publications Kind of Data Country/Nation Geographic Unit
-
DANS EASY Title or Identifier Creator Format Creator or Publisher Date (possibly) (Copy)right holder or Publisher; DANS is in the License agreement DANS is in the License agreement (possibly) Date available Date submitted (possibly) Access rights Source Description Date Subject (possibly) Audience Temporal coverage Date created Relation Type Spatial coverage Spatial coverage
Dublin Core Metadata die niet in DVN aanwezig zijn: Acceptance of the License agreement Contributor(s) Language Remarks Alternative title (Copy)right holder Publisher
-
Kan worden gezien als metadata
is waarschijnlijk gelijk aan het veld Authors en/of Distributor is waarschijnlijk gelijk aan het veld Distributor
De aanvaarding van de licentieovereenkomst is een verplicht onderdeel van de DANS EASY metadata procedure. Alternatieve titel, (Copy)rightholder en Publisher zijn optionele velden die bij DANS alleen worden gebruikt bij de discipline Archeologie. Sociale wetenschappen, geschiedenis en alle andere disciplines bieden deze optionele velden niet. EASY kent automatisch een persistent identifier toe aan een dataset; het vereiste veld 'Titel ' in EASY kan het equivalent van 'Study Global ID' in DVN worden. De deponeerder in DANS heeft de optie om de dataset met meer identificatiemiddelen (dat wil zeggen, projectnummers) beschrijven.
20
Als de metadata velden, zoals hierboven geschetst, vergelijkbaar zijn, dan zouden de volgende velden in Utrecht Dataverse Network verplicht moeten worden gesteld:
Study Global ID Authors Abstract Date of Collection Topic Classification
3.3
Metadatavelden in de pilots
In Bijlage 3B zien we in de rode velden het overzicht van de verplichte velden in de verschillende dataverses uit de pilots. DANS schrijft hierover het volgende: De Dataverse 6 (Jeroen Salman), 10 (Website Institutions for Collective Action - Commons) en 11 (Website Institutions for Collective Action - Guilds) bevatten sterke metadata. Bij de metadata van Dataverse nr 6 ontbreekt een beschrijving bij „Date of Collection‟. Er worden wel data vermeld in de velden „production‟, „distributor‟, „deposit‟ en „abstract‟. Deze velden zijn wellicht relevanter en/of even belangrijk, en zijn afhankelijk van de inhoud van de dataset. Bij de dataverses 10 en 11 staat nog nergens aangegeven wanneer de data openbaar wordt. Hier moet in DANS wel iets worden ingevuld. Voor het matchen van Dataverse datasets met DANS EASY is het noodzakelijk om een samenvatting/beschrijving te hebben. Dit veld is alleen in de dataverses 6, 10 en 13 ingevuld. Bij de meeste dataverses is er niets ingevuld in het veld „Authors‟. Dit moet worden ingevuld en zal in de meeste gevallen matchen met het veld „Creator‟. Andere verplichte velden kunnen mogelijk worden omgezet naar een standaardwaarde.
3.4
Metadatavelden bij 3TU.Datacentrum
Zoals te zien is in Bijlage 6 zijn er bij 3TU.Datacentrum deels andere velden verplicht en andere velden optioneel. Als 3TU.Datacentrum nauwer gaat samenwerken met DANS, wat bleek uit de presentaties op de Open Onderzoeksdata Dag op 18 mei 2011, dan verdient het aanbeveling dat hierover goede afspraken worden gemaakt zodat op een eenduidige wijze kan worden gecommuniceerd naar de onderzoekers. Bovendien worden ook niet alle metadatavelden op dezelfde wijze omschreven.
3.5
Formaten bij DANS
DANS heeft een lijst met voorkeursformaten waar de archivering en de toegang het meest gegarandeerd zijn. Er zijn geen specifieke regels voor data deponeerders wat betreft formaten: DANS staat open voor alle formaten, maar kan bij de niet-voorkeursformaten echter niet garanderen dat deze nog goed gearchiveerd worden en toegankelijk zijn in de toekomst. Een van de diensten van DANS is ondersteuning bij conversie en de vraag is hoe belangrijk dit voorkeursformaat is. Een lijst met de voorkeursformaten van DANS is opgenomen in Bijlage 7.
21
3.6
Voorkeursformaten van DANS vergeleken met gebruikte formaten in Utrecht Dataverse Network
DVN .mdb .jpg .usr
-
.exe .dll .fmf
-
.doc .wmv .vol .accdb
-
DANS EASY .csv (done by the archive) .jpg and .tif not present in DANS datasets would be: .csv (done by the archive) no preferred format no preferred format not present in DANS datasets would be: .jpg and .tif .pdf .mpg, .avi (Windows), QuickTime DV (Mac) no preferred format .csv (done by the archive)
Geen van de formaten genoemd in het overzicht van Utrecht Dataverse Network behoort tot de voorkeursformaten van DANS, behalve .jpg
Converteerbare formaten zijn: .mdb, .doc, .wmv and .accdb. Ongebruikelijke formaten zijn: .usr en .fmf. DANS heeft geen ervaring met deze formaten maar kan wel aanbevelingen doen op grond van de categorieën waar deze formaten toe behoren. (.usr is een data tabel of database; .fmf is een fax image). Het .vol format is een gecomprimeerd format net als bijvoorbeeld .zip en .rar bestanden. Het verdient aanbeveling .vol files uit te pakken en de bestanden die het bevat om te zetten naar de voorkeursformaten. .exe en systeemfiles worden in de regel niet gearchiveerd door DANS; het EASY-archief is een data archief en geen software-archief.
3.7
Voorkeursformaten van 3TU.Datacentrum
3TU.Datacentrum beperkt zich niet tot een lijst van toegestane formaten, maar raadt het gebruik van open (non-proprietary) en bekende formaten aan. Er is een geringe overlap met de formaten van DANS. Het gebruik van bepaalde formaten heeft soms te maken met het vakgebied en aangezien DANS tijdens de Open Onderzoeksdata Dag heeft aangegeven naast alfa- en gamma wetenschappen nu ook in overleg te zijn met de bètawetenschappen, heeft een gezamenlijke lijst van formaten de voorkeur, zodat onderzoekers weten waar ze aan toe zijn.
3.8
Conclusie m.b.t. metadata en formaten
De verplichte metadata van DANS wijken deels af van de verplichte metadata van 3TU.Datacentrum. Het verdient daarom aanbeveling dat DANS en 3TU Datacentrum met elkaar bespreken hoe dit te uniformeren. Wat de formaten betreft is er ook een verschil in voorkeursformaten bij beide organisaties. Ook dit kan worden gestroomlijnd, dan wel leiden tot een verdeling van de formaten over de beide organisaties.
22
4
Handmatig overhevelen van datasets uit Utrecht Dataverse Network naar DANS EASY
In dit hoofdstuk zal worden beschreven welke lessen zijn geleerd van het handmatig overhevelen van datasets van DVN naar DANS. Hierbij wordt gebruik gemaakt van (gedeelten van) de datasets van de drie wetenschappers in het Utrecht Dataverse Network. Het concrete overhevelen van data is tijdens de looptijd van het project nog niet uitgevoerd, maar er wordt aan gewerkt om dit voor elkaar te krijgen. Tijdens de pilot, waarin de datasets van de drie Utrecht Dataverse Network wetenschappers zullen worden ingevoerd in het DANS EASY systeem, zal vooral gekeken worden naar de metadata, het dataformaat, toegang en versiebeheer. Doel is om te komen tot een automatisch proces waarbij de workflow centraal staat. De pilot kan alleen goed verlopen in nauw overleg met alle drie de spelers: de drie Utrecht Dataverse Network wetenschappers, Universiteit Utrecht en DANS. Een aantal vragen staat centraal: welke data wordt overgezet (selectie door de onderzoekers) wanneer wordt de data overgezet (ondertekening DANS licentie) hoe wordt de data en metadata aangeleverd welke onderdelen van het proces kunnen geautomatiseerd worden. De drie pilots moeten drie use cases opleveren en naar aanleiding van de resultaten zal een procedure worden opgesteld die uiteindelijk moet uitmonden in een workflow die voor alle DVN's gebruikt kan worden. Het hele proces kan worden onderverdeeld in twee componenten: organisatie en techniek. We hebben ons in eerste instantie vooral gericht op de organisatorische aspecten. Het deponeren van data, na afloop van het onderzoek, naar een trusted digital repository is nog geen vanzelfsprekend onderdeel van het wetenschappelijke proces. Onderzoekers hebben nog veel vragen met name over de controle over hun data (zie de vragen aan het eind van dit hoofdstuk).
Welke data wordt overzet? De selectie moet door de onderzoeker worden gedaan. In een aantal gevallen moeten, voordat de data toegankelijk kan worden gemaakt voor anderen, een aantal acties plaatsvinden: de data moet worden opgeschoond, geanonimiseerd, er moet documentatie worden toegevoegd etc. Extra werk voor de onderzoeker, maar wel noodzakelijk voor de validatie van het onderzoek en (toekomstig) hergebruik. SURFfoundation, DANS en 3TU hebben een aantal algemene richtlijnen opgesteld voor het beoordelen en selecteren van onderzoeksdata9. Wanneer wordt de data overgezet? Bovenstaande pleit ervoor om de data pas na afloop van het onderzoek te deponeren bij een trusted digital repository. Op het moment dat de onderzoeker aangeeft dat het onderzoek is afgerond en de data en de metadata klaar zijn om overgezet te worden dan zou er, na ondertekening van het licentiecontract, een mogelijkheid moeten zijn om de data te uploaden naar DANS (of een andere DSA gecertificeerde repository). Bij langlopende projecten zou er periodiek een 'snapshot' gedeponeerd kunnen worden met een eigen unieke identifier. In dat geval is overleg met DANS wenselijk. Hoe wordt de data en metadata aangeleverd? 1. DANS accepteert in principe alle bestandsformaten. Daarbij geldt wel dat alleen voor bepaalde formaten gegarandeerd kan worden dat ze in de toekomst ook leesbaar zijn. Zie voor een lijst met de zg. 'Preferred formats' bijlage 7, zie ook: hoofdstuk 3.6 Voorkeursformaten van DANS vergeleken met gebruikte formaten in Utrecht Dataverse Network. Of deze lijst aangevuld zou moeten worden is afhankelijk van een aantal 9
'Studie Selection of Research Data':
http://www.surffoundation.nl/nl/publicaties/Pages/StudieSelectionofResearchData.aspx
23
factoren: het gebruik binnen de wetenschappelijke discipline, gebruik van open-source of proprietary sofware en mogelijke alternatieven. 2. DANS en UU zouden afspraken moeten maken over een minimale set metadata die noodzakelijk is om de data duurzaam te bewaren. Deze metadata velden zouden dan verplicht moeten worden gesteld voor iedere dataset. In hoofdstuk 3.2 Metadatavelden en vergelijk is te zien dat er een grote overlap bestaat tussen de DVN metadata en de DC velden die DANS gebruikt, maar er zijn ook verschillen. Afspraken tussen beide partijen hierover is een eerste vereiste. Welke onderdelen van het proces kunnen geautomatiseerd worden? 1. Bij deponering zou metadata automatisch toegevoegd kunnen worden bij de data. Of dit alleen geldt voor een minimale set of alle DVN metadata en eeventuele door de onderzoeker toegevoegde additionele metadata is een kwestie van afspraken tussen onderzoekers, DVN en DANS. Het ondertekenen van het licentiecontract zou als een aparte stap in het deponeringsproces gezien kunnen worden.Uploaden van de data. Deze mogelijkheid wordt momenteel door DANS onderzocht. Gedacht wordt aan het opzetten van een DANS Dataverse waarbij dmv een SWORD server de koppeling wordt gelegd tussen Dataverse en EASY. 2. Bericht aan de depositor wanneer de dataset is gepubliceerd. Vragen van Utrecht Dataverse Network wetenschappers (met cursief antwoord van DANS): 1. Wat is het uiteindelijke doel van de opslag bij DANS: optimale bewaarmogelijkheden, optimale toegankelijkheid van de data, of anderszins? Het uiteindelijke doel om de data bij DANS onder te brengen is de data toegankelijk te houden op de lange termijn. Dit is nodig om twee redenen: - Verifieerbaarheid van het onderzoek - Hergebruik voor nieuw onderzoek 2. Zijn data direct toegankelijk voor ons, voor anderen, of is de zichtbaarheid door onszelf te beperken? Volgens het huidige model zal de data, na afloop van het project en na toestemming van de 'eigenaar' vanuit DVN worden overgezet naar DANS. De data zullen dan vallen onder de toegangscategorie die door de depositor wordt aangevinkt: open of restricted. Er is ook een optie 'other', waarbij de data bij DANS duurzaam wordt bewaard maar de toegang elders wordt geregeld. In de toekomst zal het ook mogelijk zijn om ook een specifieke groep aan te geven zoals nu mogelijk is voor archeologen, of open toegang voor wetenschappelijk personeel (dat betekent toegang via de SURF federatie waarbij alleen geregistreerd wetenschappelijk personeel van Nederlandse universiteiten en hogescholen vrij toegang hebben). Wat betreft zichtbaarheid: er is een mogelijkheid een embargo van 2 jaar op de data te leggen, daarna wordt de data beschikbaar onder de categorie die is aangegeven: open of restricted. Alleen vanuit privacyoverwegingen en na overleg met DANS kan hiervan worden afgeweken. Tot nu toe kunnen alleen geregistreerde gebruikers de data gebruiken, maar momenteel wordt onderzocht, ivm linken en harvesten van data, of ook anonieme gebruikers data mogen gebruiken, dit uiteraard in overleg met de eigenaar van de data. 3. In hoeverre zijn datasets nog wijzigbaar na plaatsing? Nadat de data in het archief is opgenomen kan er niets meer door de depositor worden gewijzigd, alleen door een archiefmedewerker. Dit is gedaan omdat er al naar de data in zijn 'oorspronkelijke vorm' verwezen kan zijn. Alle veranderingen worden als nieuwe dataset opgenomen met een verwijzing naar de oorspronkelijke dataset. Aanvullende data of metadata kunnen wel worden aangevuld of verbeterd maar alleen in overleg met DANS. 4. In hoeverre zijn datasets nog 'terug te halen' na plaatsing? Als de dataset nog niet 'gepubliceerd ' is kan dat wel. Publiceren wil zeggen dat een archivaris heeft gekeken of alles in orde is (controle van de metadata, bestandsformaat etc.). Vervolgens wordt de dataset gepubliceerd. Na publicatie moet in principe een nieuwe dataset worden
24
gedeponeerd, zie vorige vraag. Het helemaal terughalen is niet mogelijk, dat punt ligt tussen het overzetten van de data van DVN naar DANS. 5. Hoe verloopt het beheer? Door de originele dataleveranciers of door DANS? Beiden. Functioneel beheer valt onder DANS, maar de depositor blijft de eigenaar van de data. Als datasets worden gedeponeerd onder restricted access en er is een verzoek om dat bestand te gebruiken dan verloopt dat proces automatisch via het DANS archiefsysteem. De depositor krijgt een email met een verzoek en kan dan zelf bepalen wie wel of geen toegang kan krijgen. Ook is het mogelijk aanvullende eisen te stellen. Depositor stuurt een email terug naar het systeem en de aanvrager krijgt bericht of het verzoek wel of niet is gehonoreerd. DANS kan wel beslissen of data bijvoorbeeld omgezet moet worden naar een ander formaat ivm beheer en/of toegang. In het licentiecontract dat wordt afgesloten tussen DANS en de depositor staat waartoe DANS zich verplicht ivm het beheer. 6. Is er informatie over synchronisatie van datasets bij eventuele wijzigingen (ofwel: hoe te voorkomen dat bij DANS een 'verouderde' dataset komt te staan?) De depositor is en blijft verantwoordelijk voor de inhoud. Zie verder vraag 3, 4 en 5. 7. Bovenstaande vragen hebben uiteraard ook deels te maken met de status waarin veel van de datasets verkeren. Veel datasets zijn nog in opbouw en worden nog regelmatig aangevuld en soms ook gewijzigd in opzet. We ervaren nu de flexibiliteit die we hebben bij plaatsing in de Dataverse Network omgeving. Behouden we die flexibiliteit bij plaatsing van deze data in een nog permanenter medium? Dit zijn o.a. zaken die de UU en DANS moeten bespreken. Bij voorkeur zou de overdracht na afloop van het project moeten plaatsvinden. Bij langlopende projecten zou er periodiek een 'snapshot' gedeponeerd kunnen worden met een eigen unieke identifier. Zie ook vraag 3 en 4. 8. Blijft de „handle‟ werken bij het overzetten van data vanuit DVN naar DANS/3TU.Datacentrum? Hier wordt over nagedacht. Momenteel is er een bijeenkomst over Persistent Identifiers en dit is ook een van de onderwerpen.
25
5
Aandachtspunten m.b.t. technische aspecten van Dataverse Network
Gebruikers geven aan dat de upload van bestanden traag gaat. Het gaat hierbij om bestanden groter dan 100 mb. Deze traagheid kan afhangen van de snelheid van de verbinding. De Universiteitsbibliotheek Utrecht gaat dit probleem verder uitzoeken. De upload van, zelfs meerdere bestanden tegelijk, moet gemakkelijker worden. Deze denkbare uitbreiding zal serieus worden overwogen. Er zijn ook problemen met SPSS (.sav) bestanden. Er wordt (ongevraagd) geconverteerd naar een TAB-separated file en het systeem geeft aan dat hierdoor de upload langer kan duren. Dit bleek uiteindelijk onacceptabel lang voor een wetenschapper. Dataverse Network is software die vanuit de Sociale Wetenschappen is ontstaan. Daar is het .sav formaat een veel gebruikt formaat. Men kan deze bestanden vanuit DVN direct gebruiken voor online analyses; bepaalde variabelen kunnen geselecteerd worden en subsets gedownload. Als men dit echter niet wil, dan is deze ingebouwde preview ook „uit‟ te zetten. Dit punt zal worden meegenomen in de communicatie. Een aantal gebruikers geeft aan dat Dataverse Network pas interessant is, als hierin ook „streaming‟ data kan worden opgenomen. Er is besloten dat we dit type data niet opnemen. Ook dit punt zal worden meegenomen in de communicatie.
27
6
Levenscyclus van data
Utrecht Dataverse Network is direct bruikbaar voor wetenschappers die voor de korte maar ook voor middellange termijn data willen opslaan. Voor de opslag van streaming data moet een andere oplossing worden gezocht. De drie actieve wetenschappers van Utrecht DataVerse Network hadden uit eigen beweging al een mooi palet aan metadata toegevoegd. Zij waren direct bereid om data over te zetten naar DANS, hetgeen bewijst dat DVN zeker drempelverlagend werkt voor de stap naar lange termijn archivering. Anders gezegd; DVN blijkt goed te werken als een eerste stap naar eventuele lange termijn opslag. De uitbreiding van DVN met een SWORD koppeling is van vitaal belang om deze stap naar lange termijn opslag te vereenvoudigen. DANS heeft d.m.v. het project EJME ervaring opgedaan met deze koppeling, waardoor de onderlinge uitwisselbaarheid van datasets mogelijk gaat worden. Het aansluiten van Dataverse Network aan SURFfederatie en SURFConext vergroot de zichtbaarheid als dienst voor potentiële gebruikers. Bovenstaande twee punten acht de Universiteitsbibliotheek Utrecht dusdanig belangrijk dat activiteiten hieromtrent ook na afloop van dit project zullen worden gecontinueerd. Heel belangrijk is dat onderzoekers – eenmaal over de drempel – gebruik kunnen blijven maken van de handle (URL), toegekend in Utrecht Dataverse Network.
29
7
Conclusies en aanbevelingen
Aanbeveling 1 Dataverse is geschikte software om data op te slaan. Weinig onderzoekers geven op dit moment prioriteit aan datamanagement en dataopslag, maar de verwachting is dat dit binnen een jaar zal gaan veranderen, aangezien goed databeheer en archivering steeds meer prioriteit krijgt en in sommige gevallen ook vereist wordt. Het is belangrijk om ook de nieuwe wetenschappers die met Utrecht Dataverse Network gaan werken, te blijven volgen. Aanbeveling 2 Door vertraging in de uitrol van het communicatieplan omtrent het Utrecht Dataverse Network project PODIUM zijn er ook nog weinig gebruikers op de hoogte van deze dienst. Het communicatieplan zal deze zomer worden uitgerold. Andere universiteiten mogen gebruik maken van dit communicatieplan. De namen van DANS en 3TU.Datacentrum als organisaties waar voor de lange termijn data kan worden opgeslagen vanuit Utrecht Dataverse Network zal worden meegenomen in het communicatieplan. Aanbeveling 3 DANS verzorgt de lange termijn archivering voor de alfa- en gamma wetenschappen. Op de Open Onderzoeksdata Dag op 18 mei is gebleken dat DANS meer wil samenwerken met 3TU.Datacentrum en gezamenlijk hierin ook een rol zou willen vervullen voor de bètawetenschappen. Uit de match met formaten en metadata blijkt dat het een nuttige exercitie zou zijn als deze twee organisaties een helder beeld naar buiten schetsen over de aan te leveren verplichte metadata, formaten en wellicht een voorstel voor een verdeling naar vakgebieden. DANS en 3TU.Datacentrum dienen samen vast te stellen wat gemeenschappelijk is en wat hen onderscheidt. Als dit uitgewerkt is kan dit in de communicatie rond Utrecht Dataverse Network worden meegenomen. Aanbeveling 4 Zoals te lezen is in het projectvoorstel van CARDS (Controlled Access to Research Data, Stored Securely) is het idee om alle bevindingen uit Podium Plus mee te nemen in het CARDS-project. „Het project CARDS is een logische aanvulling op Podium Plus met als belangrijk verschil dat CARDS zich niet beperkt tot DVN als basis voor de dienstverlening aan onderzoekers. Binnen CARDS wordt bewust gekozen voor verbreding en verdieping. Het project werkt met een brede groep deelnemende universiteiten en mikt daarmee op het bereiken van een grote diversiteit aan onderzoeksgroepen. Daarbij wordt onder andere gebruik gemaakt van de uitkomsten van Podium Plus‟. Aanbeveling 5 Utrecht zou meer kunnen samenwerken met Universiteit Tilburg waar men al langere tijd werkt met Dataverse Network. Er zijn daar circ. 48 dataverses ingericht en er is ruim ervaring opgedaan met betrekking tot de ondersteuning van DVN door data-librarians. Afhankelijk van de continuering van de subsidie voor het NEEO-project zal Tilburg al dan niet besluiten verder te gaan met Dataverse Network. De door Tilburg opgestelde handleiding DVN, weliswaar geschreven in het kader van het NEEOproject, kan en mag worden gebruikt voor een nieuwe handleiding DVN. Deze is beknopter dan de zeer uitgebreide handleiding die DVN zelf aanbiedt. De handleiding voor vak- en informatiespecialisten die momenteel wordt gemaakt in het kader van het ODAP-project mag ook worden gebruikt. Aanbeveling 6
Ondanks de beëindiging van het Podium Plus Project is het belangrijk om de drie Utrechtse dataverses over te hevelen naar het archief van DANS om hiermee de laatste stap van het project uit
31
te voeren. Er zal aan DANS worden voorgesteld om hiervan de verslaglegging te verzorgen en terug te koppelen naar het CARDS project. Aanbeveling 7 Zoals in hoofdstuk 6 is weergegeven, wordt er momenteel bij DANS nagedacht over Persistent Identifiers. Vanuit Podium Plus willen wij nog eens expliciet benadrukken dat dit een cruciaal element is voor de onderzoekers. Er is één Utrechtse onderzoeker die de handle al in een publicatie heeft gebruikt. Moet deze onderzoeker bij overheveling van datasets naar DANS (in het geval van het verkrijgen van een nieuwe URL) straks zélf bij handle.net aangeven wat de oude en wat de nieuwe URL is, of kan dit worden meegenomen in de workflow? Dit is een punt van aandacht. Aanbeveling 8 Om de landelijke samenwerking op het gebied van dataopslag en datadelen optimaal te faciliteren is aansluiting van DVN op de SURF federatie de meest logische stap. De aanbeveling is om de - in dit project geoormerkte ICT-bedragen - hieraan te besteden.
32
Bijlage 1 - UBU Virtual Datacenter Utrecht University Library UBU Virtual Datacenter: een nieuwe dienst UniversiteitsBibliotheek Utrecht. De UBU in de rol van wetenschappelijk data-archief voor zover het onderzoeksdata betreft van Utrecht Dataverse Network onderzoekers. Inleiding Sinds mensenheugenis is de wetenschappelijke bibliotheek (en de UBU in het bijzonder sinds 425 jaar!) de omgeving waarin onderzoeksproducten in de vorm van publicaties worden bewaard en toegankelijk gehouden. Met de opkomst van computers, grootschalige digitalisering en Internet transformeert de academische bibliotheek dusdanig dat zij haar taak ook op adekwate wijze in de virtuele wereld kan blijven vervullen. Niet alleen de onderzoeksproducten worden tegenwoordig overwegend in digitale vorm gepubliceerd (en bewaard door de wetenschappelijke bibliotheken) ook de onderzoeksdata die ten grondslag liggen (aan wetenschappelijke publicaties) zijn vrijwel altijd op enig moment gedurende het onderzoek in digitale vorm opgeslagen. De eigen onderzoekscommunity, onderzoeksfinanciers en steeds meer uitgevers van wetenschappelijke (top)tijdschriften vereisen dat de onderzoeksdata ook voor anderen (dan de oorspronkelijke onderzoeker) toegankelijk worden gemaakt. Enerzijds om het delen van onderzoeksdata, die veelal met hoge kosten en/of veel inspanning tot stand zijn gekomen, mogelijk te maken, en anderzijds omdat controleerbaarheid en reproduceerbaarheid van uitkomsten en conclusies een essentieel onderdeel zijn van wetenschappelijk onderzoek in het algemeen. ICT maakt dit op relatief eenvoudige wijze mogelijk. Ontwikkeling De verwachting is dat digitale publicaties in de toekomst “verrijkt” zullen worden aangeboden met (toegang tot) dynamische simulaties en visualisaties en waarbij minimaal de onderliggende onderzoeksdata voor de peer reviewer en uiteindelijke voor de lezer direct toegankelijk zullen moeten zijn. De UBU heeft al in een vroeg stadium het belang van repositories voor digitale wetenschappelijke publicaties onderkend en voert een actief en succesvol beleid om alle onderzoek output van de instelling via haar repositories toegankelijk te maken en te houden. Daarnaast ondersteunt de UBU (ic de afdeling Igitur) wetenschappers, onderzoeksorganisaties en wetenschappelijke communities bij het bepalen van de optimale publicatiestrategie en realiseert samen met hen totaaloplossingen op het gebied van (elektronische) publicaties. Centraal in de strategie van de UBU staat het belang van het vergroten van toegankelijkheid van wetenschappelijke informatie. Op een natuurlijke wijze vloeit daar nu uit voort dat de UBU uitsluitend voor onderzoekers van de instelling - ook primaire onderzoeksdata langdurig gaat archiveren en toegankelijk houden. Hiermee kunnen zij in eigen huis en onder eigen regie op een verantwoorde en veilige wijze voldoen aan de noodzaak van langdurige bewaring en (uiteindelijke) openbaarmaking van onderzoeksdata. Tevens kan daarmee koppeling van onderzoeksdata en de oorspronkelijke publicatie duurzaam worden gegarandeerd door de UBU. Uitgangspunt in het proces is natuurlijk dat de onderzoeker leidend is en zelf bepaalt welke datasets, wanneer en voor wie toegankelijk zijn! Waarom primaire onderzoeksdata langdurig archiveren en toegankelijk maken? Verificatie: van de (gepubliceerde onderzoeksbevindingen op basis van de oorspronkelijke data Hergebruik: van oorsponkelijke data voor nieuw onderzoek al dan niet in combinatie met andere (nieuwe of oude) datasets Uniekheid: Bewaring van unieke onderzoeksdata die niet meer (of alleen tegen hoge kosten) opnieuw gecreëerd kunnen worden Onderwijs: Onderwijsgebonden onderzoek en onderzoeksgebaseerd onderwijs mogelijk maken en stimuleren Juridische eis: Voldoen aan bewaarplicht (en openbaarmakingeis) van onderzoeksfinanciers Maatschappelijk belang: i.v.m. publieke financiering van het meeste onderzoek
33
Landelijke situatie De geschetste ontwikkeling en het toenemend belang van de toegankelijkheid van primaire onderzoeksdata heeft eerder al bij een aantal andere Nederlandse universiteitsbibliotheken tot initiatieven geleid: 3TU.Datacentrum in 2008 toegevoegd aan de UB-Delft (in samenwerking met de 3TU‟s Delft, Twente en Eindhoven); Universiteit van Tilburg, datacentrum in 2008 toegevoegd aan de bibliotheek van de UVT voor het Network of European Economists Online (NEEO); Erasmus Data Service Center (EDSC), in 2007 toegevoegd aan de dienstverlening van Universiteitsbibliotheek van de EUR; De KNAW en NWO hebben zich (sinds 2006) verenigd in Data Archiving and Networked Services (DANS). Deze nationale organisatie zorgt voor de duurzame opslag en blijvende toegankelijkheid van onderzoeksgegevens in de alfa- en gammawetenschappen. Terwijl DANS zich primair richt op conserveren (duurzaam behoud) van onderzoeksdata, is de KB gericht op duurzaam behoud van gepubliceerd materiaal. Archiveren van onderzoeksdata is de langdurige bewaringsactiviteit (horizon 5-10 jaar) die ervoor zorgt data de data zorgvuldig is geselecteerd en voorzien van documentatie, veilig wordt opgeslagen en toegankelijk is gemaakt, waarbij de logische en fysieke integriteit wordt gegarandeerd, inclusief beveiliging en originaliteit SURF speelt een landelijke rol in het kader van SURFshare en Permanente toegang tot onderzoeksdata. Zij vormt een Onderzoeksdata Forum waar de UBU in participeert samen met alle eerder genoemde partijen. De UBU zal aansluiten bij het landelijk beleid betreffende digitale duurzaamheid waarbij DANS (KNAW) voor onderzoeksdata een vergelijkbare conserverende rol en “eeuwige” depot functie heeft als de KB voor publicaties. Conserveren (duurzaam behoud) is de archiveringsactiviteit waarbij specifieke data collecties duurzaam worden bewaard (horizon meer dan 10 jaar), dusdanig dat zij toegankelijk en begrijpelijk blijven ondanks ingrijpende cycli van technologische ontwikkelingen. Dit betekent dat op enig moment in de levenscyclus van de primaire onderzoeksdata deze voor het duurzaam behoud (horizon meer dan 10 jaar) worden overgebracht naar DANS op analoge wijze als waarop dat nu gebeurt voor digitale publicaties naar de KB (het e-Depot). Het moment waarop dat gebeurd zal afhangen van het feit of de data onbeperkt publiek toegankelijk zijn, van de actualiteit en de intensiteit van gebruik van de datasets en van de wensen van de dataproducent en de betrokken faculteit. Virtual Data Center gebaseerd op DataVerse Network In 2009 is binnen de UBU een project uitgevoerd (genaamd PODIUM) waarin de complete omgeving met opslag faciliteiten voor primaire onderzoeksdata is getest in samenwerking met een beperkt aantal onderzoekers uit verschillende disciplines. Deze omgeving was geselecteerd op basis van een breed georiënteerd onderzoek waarbij technische en continuïteitseisen een rol speelden, naast eisen t.a.v. open source en open standards. De uiteindelijk gekozen en geteste DataVerse Network omgeving (DVN, http://thedata.org/) is ontwikkeld door Harvard University in samenwerking met MIT en wordt niet alleen intensief in Harvard gebruikt maar ook bij een aantal andere Amerikaanse en Europese universiteiten en zelfstandige data-archieven. In Nederland gebruikt de Universiteitsbibliotheek Tilburg deze omgeving. In het kader van het Podium project is de (experimentele) DVN-omgeving bereikbaar via: http://podium.library.uu.nl:7070/dvn/. “Podium” zal te zijner tijd mogelijk vervangen worden door VDC (Virtual Data Center) en de poort aanduiding (:7070) zal verdwijnen. Persistentie van de link naar de dataset Het DVN werkt met een unieke, globale en persistente identificatie van iedere opgeslagen dataset. Dit systeem voldoet aan de eisen van het internationale “handle” systeem (http://www.handle.net/). De “handle” die hiervoor wordt gebruikt is uniek en blijft altijd dezelfde
34
ook als de fysieke opslaglocatie van de dataset wijzigt! De “handle” wordt in de achtergrond (door de “handle authority”) omgezet in een URL die altijd naar de actuele locatie van opslag wijst. Een onderzoeker gebruikt (in publicaties of anderszins) dus de “handle” in alle verwijzingen naar de dataset. Een dergelijke verwijzing ziet er voor de UBU bijvoorbeeld als volgt uit: http://hdl.handle.net/10411/10000. Dit mechanisme garandeert dus ook de blijvende koppeling tussen publicaties en datasets. Data Documentation Initiative De beschrijving en documentatie bij een dataset bepalen in hoge mate de vindbaarheid, interpreteerbaarheid en herbruikbaarheid en zijn derhalve cruciaal voor de uiteindelijk duurzame opslag en gebruik van een dataset in een data-archief. Het Data Documentation Initiative (DDI, http://www.ddialliance.org/) is de internationale (open) documentatiestandaard die wordt gebruikt in vele wetenschappelijke data-archieven en vormt de beschrijvingsbasis van het DVN. DDI is weliswaar primair ontwikkeld voor sociale en gedragswetenschappen maar heeft (zonder aanpassingen) een veel groter gebruiksdomein (naar delen van) de Geestes-, Levens- , Geo-, Medische en Economische wetenschappen. Uit de tests van de DVN omgeving is inderdaad gebleken dat een scala aan disciplines goed uit de voeten kan met de software (in termen van gebruikersvriendelijkheid en toepasbaarheid) en dat de gebruikte DDI-standaard voor metadata voor een groot aantal verschillende wetenschapsdisciplines voldoet. Toegankelijkheid De DVN sofware heeft een uitgebreide en krachtige (lokale) zoekfaciliteit die de vindbaarheid van datasets optimaal mogelijk maakt. Het DVN voldoet daarnaast aan aller standaards voor Open Access en Metadata Harvesting (OAI-PMH, http://www.openarchives.org/) zodat vindbaarheid van gepubliceerde en openbare datasets ook wereldwijd kan worden gegarandeerd. De UBU zal dus een dataservice gaan bieden die in termen van toegang (en betrouwbaarheid) volledig overeenkomt met de faciliteiten die zij nu al biedt voor wetenschappelijke publicaties. Producenten van datasets in het DVN hebben verfijnde mogelijkheden te bepalen gebruikslicenties afdwingen. Zij kunnen dus heel precies bepalen in welk stadium van het onderzoek welke sets voor wie toegankelijk zijn en onder welke voorwaarden. Virtual Data Center als UBU-dienst In eerste instantie wil de UBU zich voor de nieuwe dataservice baseren op de DVN software omgeving en de DDI metadata standaard. Later kan eventueel worden uitgebreid naar andere metadata standaards. De voordelen van aansluiten bij internationale initiatieven en samenwerken met Harvard bij de verdere ontwikkeling van de DVN-software zijn evident. Het maakt een “vliegende”start mogelijk en geeft zekerheid voor de toekomst. Ondersteuning Voor de ondersteuning van onderzoekers bij het gebruik en instructie rond de nieuwe dataservice zal Igitur worden betrokken, in nauwe samenwerking met vak- en informatiespecialisten die ook nu al in de verschillende disciplines actief zijn en goede contacten hebben met onderzoekers. De UBU borduurt daarmee voort op haar activiteiten rond Virtuele KennisCentra (VKC) waarbij deze UBUmedewerkers ook sterk betrokken zijn. Overigens worden beide diensten apart aangeboden, wel zal er een koppeling komen van het VKC naar de dataservice. Betrouwbare infrastructuur en opslag Het data-archief kan gebruik maken van dezelfde technische en beheersinfrastructuur die nu al voor de bibliotheeksystemen is ingericht en profiteert optimaal van economy of scale voordelen. Om maximale veiligheid van opslag te kunnen bieden is er voor gekozen om de onderzoeksdata via een snelle fiber verbinding bij SARA onder te brengen. De data worden bij SARA redundant en geografisch verspreid opgeslagen in de datacenters in Amsterdam en Almere. Tape back-ups worden continue en incrementeel bijgewerkt en voor langdurige bewaring worden ook jaarlijkse kopieën bewaard. Bedrijfsmodel Een belangrijk aspect aan de nieuwe dataservice is dat deze voorziening tot een bepaalde omvang kosteloos is voor de doelgroep: de onderzoekers. Dat wil zeggen de voorziening van de dataservice
35
wordt bekostigd uit de basisfinanciering van de UBU. Gezien de enorme omvang van alle onderzoeksdata, die zich op C-schijven en op departementale servers in de instelling bevinden, is er echter te voorzien dat er potentieel een groot beslag gelegd kan gaan worden op de technische infrastructuur: diskstorage en backup. Het bedrijfsmodel is dan ook dusdanig dat, als een bepaald quotum per onderzoeker wordt overschreden, de faculteit/departement wordt verzocht in te stemmen met de verhoging van het quotum voor de betreffende onderzoeker en de meerdere kosten van het diskbeslag jaarlijks aan de UBU te vergoeden. Deze dienst zal bij de jaarlijkse contractbesprekingen met de faculteiten op de agenda staan. SURF werkt met eenzelfde bedrijfsmodel voor allerlei diensten die zij aanbiedt (bv SURFgroepen) waarbij de instellingscontactpersoon extra kosten boven het quotum van 1 Gigabyte per Hoger Onderwijsmedewerker moet accorderen. De doorberekening van de infrastructuurkosten (bij overschrijding van het quotum) is gebaseerd op werkelijke kosten voor de inzet van SARA. Richtlijn hierbij is dat de kosten per Terabyte ongeveer € 9.000 per jaar betreffen (€ 90 per 10 Gigabyte). Ook deze zijn in overeenstemming met de kosten die SURF in rekening brengt bij de instellingen. Bij een basisvoorziening voor potentieel 3000 Utrecht Dataverse Network onderzoekers en een quotum van 2 Gigabyte per onderzoeker is 6 Terabyte aan opslagcapaciteit nodig.
36
Bijlage 2 - Vragenlijst voor gebruikers van DVN A. Look and feel DVN a. Prettig in gebruik? i. Zoja: wat ii.Zonee; wat is vervelend B. Technische aspecten DVN a. Wat is het formaat van de door u gedeponeerde data? b. Hoeveel ruimte neemt uw Dataverse in beslag naar welke grootte gaat dit de komende jaren groeien? c. Hoeveel en welke rechten zijn er vergeven in uw DVN? d. Heeft u ook accounts aangemaakt voor mensen buiten UU/UMCU? e. Heeft u deze data ook nog op andere plaatsen bewaard? f. Heeft u problemen ondervonden bij de inrichting van uw Dataverse? g. Heeft u goed overzicht in (de structuur van de) door u gedeponeerde data? h. Heeft u metadata toegevoegd (beschrijvende velden)? i. Welke velden zouden verplicht ingevuld moeten worden? j. Bent u bekend met de mogelijkheid om een study template aan te maken? Daarin worden velden standaard al ingevuld en dat scheelt werk. k. Heeft u gebruik gemaakt van de helpteksten en vindt u deze duidelijk? l. Heeft u uw eigen Dataverse gepersonaliseerd met eigen banners, een beschrijvende tekst gemaakt van de Dataverse en uw eigen gebruiksvoorwaarden opgesteld? m. Heeft u de door DVN toegekende URL in een publicatie gebruikt? C. Flow en toegankelijkheid van data a. Zijn de door u gedeponeerde data uitsluitend uw eigen primaire onderzoeksdata of heeft u ook externe data verzameld en opgenomen in uw DVN? b. Hebt u ervaring opgedaan met het delen van data? Wat zijn uw bevindingen? c. Welk percentage van uw data komt in aanmerking om voor lange termijn te bewaren? d. Hoe is uw mening over de middellange en lange termijn opslag van uw data? e. Hoe is uw mening over vrije toegankelijkheid (open access) van uw data? f. Onderscheidt u bepaalde fasen in uw onderzoek en kunt u van elk van deze fasen iets zeggen over de opslag en openbare toegankelijkheid van uw data? g. Heeft u het in uw werk al eens meegemaakt dat tijdschriftredacties en subsidiërende instellingen als eis stellen dat de data ergens beschikbaar moeten zijn? D. Quote Kunt u in één zin proberen samen te vatten wat deze dienst voor u kan betekenen, en zo ja: mogen we deze zin gebruiken in een quote?
37
Bijlage 3a - Overzicht van de gebruikte formaten in Utrecht Dataverse Network
DVN→
1
2
3
4
T
R
5
6
7
8
9
10
11
x
x
x
12
R
T
13
14
FORMAT ↓ .mdb .jpg
x x
x
.usr
x
.exe
x
.dll
x
.fmf
x
.doc
x
.wmv
x
.vol .accdb
x x
.vol
x
Legenda: 1 = Muilwijk, Marina 2 = Biomolecular Mass Spectrometry and Proteomics Group 3 = Gemeenten 4 = Website Institutions for Collective Action - Waterboards 5 = UT Datalab Tweede test 6 = Salman, Jeroen 7 = Van Bentum, Maarten 8 = Marriage Patterns, Household Formation and Economic Development 9 = Website Institutions for Collective Action - Beguinages 10 = Website Institutions for Collective Action - Commons 11 = Website Institutions for Collective Action - Guilds 12 = Pneumokokkengroep 13 = Pistorius, Lou 14 = TheLibrary
T = Test R = (deels) restricted access Jeroen Salman: Faculteit Geesteswetenschappen, Departement Moderne Talen, Literatuurwetenschap (Dataverse nr. 6) / Faculty of Humanities, Department of Modern Languages, Literature science René van Weeren: Faculteit Geesteswetenschappen (Geschiedenis en Kunstgeschiedenis: de Dataverses nr. 4, 8,9 en 10) / Faculty of Humanities (History and Art History) Lou Pistorius: UMCU Verloskunde (Dataverse nr. 13) / UMCU Midwifery
39
Bijlage 3b - Overzicht van de ingevulde metadata in Utrecht Dataverse Network DVN →
1
2
3
4
5
6
T
R
x
x
x
x
7
8
9
10
11
12
13
14
R
T
METADATA↓ Study Global ID
x
Authors
x
x
x
x
x
x
x
x
x
Software Producer
x
x
Production Date
x
x
Distributor
x
Distributor Contact
x
Distribution Date Deposit Date
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Replication For Provenance
x
x x
x
x
Abstract
x
x
Abstract Date
x
x
x
Keywords
x
x
x
x
Topic Classification
x
x
x
x
Time Period Covered Date of Collection
x
Related Publications
x
Kind of Data
x
Country/Nation
x
x
x
x
x
x
x x
Geographic Unit
x
x x
Legenda: 1 = Muilwijk, Marina 2 = Biomolecular Mass Spectrometry and Proteomics Group 3 = Gemeenten 4 = Website Institutions for Collective Action - Waterboards 5 = UT Datalab Tweede test 6 = Salman, Jeroen 7 = Van Bentum, Maarten 8 = Marriage Patterns, Household Formation and Economic Development 9 = Website Institutions for Collective Action - Beguinages 10 = Website Institutions for Collective Action - Commons 11 = Website Institutions for Collective Action - Guilds 12 = Pneumokokkengroep 13 = Pistorius, Lou 14 = TheLibrary
41
T = Test R = (deels) restricted access Jeroen Salman: Faculteit Geesteswetenschappen, Departement Moderne Talen, Literatuurwetenschap (Dataverse nr. 6) / Faculty of Humanities, Department of Modern Languages, Literature science René van Weeren: Faculteit Geesteswetenschappen (Geschiedenis en Kunstgeschiedenis: de Dataverses nr. 4, 8,9 en 10) / Faculty of Humanities (History and Art History) Lou Pistorius: UMCU Verloskunde (Dataverse nr. 13) / UMCU Midwifery
42
Bijlage 4a - Utrecht Dataverse Network - terms of use for downloading The Service provides you with the ability to download Content from the Service, subject to acceptance without modification of all of the terms and conditions for downloading contained herein (Terms of Use for Downloading). For purposes of the Terms of Use for Downloading, "Content" includes, without limitation, any information, data, text, software, scripts, graphics, and interactive features generated, provided, or otherwise made accessible by UU on or through the Service. By downloading this Content, I agree to the following: 1. I will not use the Content to a. obtain information that could directly or indirectly identify subjects. b. obtain information about, or further contact with, subjects known to me except where the use and/or release of such identifying information has no potential for constituting an unwarranted invasion of privacy and/or breach of confidentiality. 2. I agree not to download any Content where prohibited by applicable law. 3. I agree not to use the Content in any way prohibited by applicable law. 4. I agree that any books, articles, conference papers, theses, dissertations, reports, or other publications that I create which employ data reference the bibliographic citation accompanying this data. These citations include the data authors, data identifier, and other required information according to scientific standards. 5. The UU makes no warranties, express or implied, by operation of law or otherwise, regarding or relating to the Content.
43
Bijlage 4b - Utrecht Dataverse Network – general terms of use Acceptance of Terms of Use The following terms and conditions govern all use of the Utrecht Dataverse Netwerk website (http://dataverse.library.uu.nl/) (the Site) and the services available on or at the Site (taken together, the Service). The Service is owned and operated by Utrecht Library, of Utrecht University (UU). The Service is offered subject to acceptance without modification of all of the terms and conditions contained herein (Terms of Use) and all other operating rules, policies and procedures that may be published from time to time on this Site by UU. UU may refuse to offer the Service to any person or entity at any time and may change its eligibility criteria, at anytime, in its sole discretion. You represent and warrant that you are not under any obligation or restriction created by law, contract or otherwise that would prevent you from entering into and fully performing these Terms of Use. Modification of Terms of Use UU reserves the right, at its sole discretion, to modify or replace any of the Terms of Use at any time. It is your responsibility to check the Terms of Use periodically for changes. Your continued use of the Service following the posting of any changes to the Terms of Use constitutes acceptance of those changes. Registration As a condition to using the Service, you may be required to register with UU and select a password and login name (UU Login Name). You shall provide UU with accurate, complete, and updated registration information. Failure to do so shall constitute a breach of the Terms of Use, which may result in immediate termination of your UU account. You shall not (i) select or use as a UU Login Name a name of another person with the intent to impersonate that person; (ii) use as a UU Login Name a name subject to any rights of a person other than you without appropriate authorization; or (iii) use as a UU Screen Name a name that is otherwise offensive, vulgar or obscene. UU reserves the right to refuse registration of, or cancel a UU Login Name in its sole discretion. You are solely responsible for activity that occurs on your account and shall be responsible for maintaining the confidentiality of your UU password. You shall never use another user's account without such other user's express permission. You will immediately notify UU in writing of any unauthorized use of your account, or other account related security breach of which you are aware. User Submissions The Service provides you with the ability to upload, submit, disclose, distribute or otherwise post (hereafter, posting) Content to the Service (User Submissions) and to allow other users to do so. The Service provides you with the ability to display, organize, and accept Content through creating a dataverse (Dataverse). For purposes of the Terms of Use, "Content" includes, without limitation, any information, data, text, software, scripts, graphics, and interactive features generated, provided, or otherwise made accessible by UU on or through the Service. An important part of the mission of UU is to acquire and preserve research data and provide access to it. UU intends to create archival versions of the Content that will facilitate preservation, verification, management, and use, and to permanently archive these versions of the Content at multiple locations. UU will use good archival practices to retain and preserve Content deposited into the Site. Notwithstanding, you acknowledge that UU will not be liable for any loss of or damage to the User Submissions, either in whole or in part.
45
Please be aware that the UU does not review User Submissions before they are made available to the public, so we may only accept Content that is publicly distributable. Before you contribute Content to the Dataverse, you must ensure that the Content meets our Terms of Use. You will be held legally and financially responsible for the UU's damages if Content you contribute violates these Terms of Use. The Service gives the Dataverse owner the ability to restrict access to User Submissions to specified user accounts (Restricted User Submissions). All other User Submissions shall be deemed Unrestricted. You give permission and any required licenses to UU to make the Content available for archiving, preservation and access. You represent and warrant you are lawfully entitled and have full authority to license UU to archive, preserve and give access to the User Submissions in the ways described in these Terms of Use. You shall not provide UU with any confidential or proprietary information that you desire or are required to keep secret. You are solely responsible for the User Submissions you post on or through the Service. UU does not endorse and has no control over any User Submission. UU has no obligation to monitor the Site, Service, Content, or User Submissions. UU may remove any User Submission at any time for any reason (including, but not limited to, upon receipt of claims or allegations from third parties or authorities relating to such User Submission), or for no reason at all. Rules and Conduct By posting User Submissions on or at the Site, or otherwise through the Service, to your Dataverse or other Dataverses, or by allowing others to do so, you make the following representations and warranties to UU: 1. You hereby promise not to use the Service for any purpose that is prohibited by the Terms of Use. 2. You shall not (or permit others to) either (a) take any action or (b) upload, download, post, submit or otherwise distribute or facilitate distribution of any Content that: a. infringes the copyrights or other intellectual property rights, including, but not limited to any patent (applications), know how, trademark, trade secret, right of publicity or other right of any other person or entity; or b. is unlawful, threatening, abusive, harassing, defamatory, libelous, deceptive, fraudulent, invasive of another's privacy, tortuous, obscene, offensive, or profane; or c. constitutes unauthorized or unsolicited advertising, junk or bulk email ("spamming"); or d. contains software viruses or any other computer codes, files, or programs that are designed or intended to disrupt, damage, limit or interfere with the proper function of any software, hardware, or telecommunications equipment or to damage or obtain unauthorized access to any system, data or other information of UU or any third party. 3. You shall not: (i) take any action that imposes or may impose (as determined by UU in its sole discretion) an unreasonable or disproportionately large load on UU's (or its third party providers') infrastructure; (ii) interfere or attempt to interfere with the proper working of the Service or any activities conducted on the Service; or (iii) bypass any measures UU may use to prevent or restrict access to the Service (or other accounts, computer systems or networks connected to the Service). 4. The User Submissions do not contain any personally-identifiable information that could directly or indirectly, identify subject except where the release of such identifying information has no potential for constituting an unwarranted invasion of privacy and/or breach of confidentiality. 5. You will promptly notify UU of any confidentiality, privacy or data protection, licensing, or intellectual property issues regarding the User Submissions.
46
6. You acknowledge that UU will not be liable for any loss of or damage to the User Submissions, either in whole or in part. Termination UU may terminate your access to all or any part of the Service at any time, with or without cause, with or without notice, effective immediately. If you wish to terminate your account, you may notify UU at
[email protected]. All provisions of the Terms of Use which by their nature should survive termination shall survive termination, including, without limitation, ownership provisions, warranty disclaimers, indemnity and limitations of liability. No Warranties The Service (including, without limitation, the Content and the User Submissions) is provided „as is‟ and „as available‟ and is without warranty of any kind, express or implied, including but not limited to, the implied warranties of title, non-infringement, merchantability and fitness for a particular purpose. UU makes no warranties, express or implied, by operation of law or otherwise, regarding or relating to the Service or Content provided. More specific, UU do NOT warrant that: a. the Content or User Submissions are timely, accurate, complete, reliable or correct; b. the Service will be secure or available at any particular time or location; c. any defects or errors will be corrected; d. the Content or User Submissions are free of viruses or other harmful components e. the results of using the Service will meet your requirements. f. Your use of the Service is solely at your own risk. Limitation of Liability In no event shall UU be liable with respect to the Service or any Content or User Submissions (i) for any lost profits or damages of any kind, (ii) for any bugs, software viruses or any other computer codes, files or programs designated or intended to disrupt, damage, limit or interfere with the proper function of the Service, or (iii) for any errors or omissions in any Content or User Submissions or for any loss or damage of any kind incurred as a result of your use of any Content or User Submission posted, email, transmitted or otherwise made available on or through the Service. Indemnification You will indemnify and hold UU harmless from and against any and all loss, cost, expense, liability, or damage, including, without limitation, all reasonable attorneys' fees and court costs, arising from the i) use or misuse of the Service; (ii) your access to the Site, use of the Services, violation of the Terms of Use by you; or (iii) the infringement by you, or any third party using your account, of any intellectual property or other right of any person or entity. Such losses, costs, expenses, damages, or liabilities shall include, without limitation, all actual, general, special, and consequential damages. Dispute Resolution These Terms of Use shall be governed by and interpreted in accordance with the laws of the Netherlands. Any dispute arising under or in connection with these Terms of Use and which cannot be settled amicably between you and UU shall be finally settled by the competent courts of Utrecht. Integration and Severability The Terms of Use are the entire agreement between you and UU with respect to the Service and use of this Site, and supersede all prior or contemporaneous communications and proposals (whether oral, written or electronic) between you and UU with respect to this Service (but excluding the use of any software which may be subject to a separate end-user (license agreement).
47
Miscellaneous The Terms of Use are personal to you, and are not assignable, transferable or sublicensable by you except with UU's prior written consent. UU may assign, transfer or delegate any of its rights and obligations hereunder without consent. No agency, partnership, joint venture, or employment relationship is created as a result of the Terms of Use and neither party has any authority of any kind to bind the other in any respect. All notices under the Terms of Use will be in writing. Copyright and Trademark Notices Unless otherwise indicated, all Content provided by UU is copyright © 2010 Utrecht University. All rights reserved. You acknowledge that the copyright in any additional data added by the UU to the user materials, and any search software, user guides, documentation and any other intellectual property that is prepared by UU to assist users in using the User Submissions will belong to the UU or the users creating the Content (respectively). You may not use the name "Utrecht University" (alone or as part of another name) in advertising or promotional materials without the UU's prior written approval. The Dataverse Network and Dataverse Network logo are either trademarks or registered trademarks of UU.
48
Bijlage 4c - Utrecht Dataverse Network – terms of use for posting The following terms and conditions govern all use of the Utrecht Dataverse Network website (http://dataverse.library.uu.nl/) (the Site) and the services available on or at the Site (taken together, the Service). The Site is owned and operated by Utrecht Library, of Utrecht University (UU). The Service provides you with the ability to upload, submit, disclose, distribute or otherwise post (hereafter, posting) Content to the Service, subject to acceptance without modification of all of the terms and conditions for posting contained herein (Terms of Use for Posting). For purposes of the Terms of Use for Posting, "Content" includes, without limitation, any information, data, text, software, scripts, graphics, and interactive features generated, provided, or otherwise made accessible by UU on or through the Service. Statements before posting Before posting Content to the Service, you are obliged to check the following statements. Only in case of an affirmative answer on ALL statements below, you are allowed to post Content to the Service. By electronically signing these Terms of Use for Posting and clicking the "I AGREE" button below, you as scientist of the UU declare the following: (i) You are sure the UU is the sole lawful owner of the Content you are planning to post to the Service. (ii) You are sure the Content does not contain – partly of in whole - any confidential information (including confidential business information) you are not permitted to release under contract, other arrangements or law. (iii) You are sure the Content does not infringe upon the copyrights or other intellectual property rights, including, but not limited to patent (applications), know how, trademark, trade secret, right of publicity or other right of any other of any third party. (iv) You are sure the Content does not contain any personallyidentifiable information that could directly or indirectly, identify subject. Please check the “Code of conduct for use of personal data in scientific research” (in Dutch: Gedragscode voor gebruik van persoongegevens in wetenschappelijk onderzoek) of the Vereniging van Universiteiten (VSNU)) (http://www.cbpweb.nl/downloads_gedragscodes/gedr_vsnu.pdf). Terms of Use for Posting By electronically signing these Terms of Use for Posting and clicking the "I AGREE" button below, you agree that these Terms of Use for Posting apply to all Content that you post to the Service: 1. You represent and warrant to UU that you are lawfully entitled and have full authority to license UU to use the Content in the ways described in these Terms of Use for Posting and that you are not under any obligation or restriction created by law, contract or otherwise that would prevent you from entering into and fully performing these Terms of Use for Posting; 2. You give permission and any required licenses to UU to store and backup the Content; 3. The Content does not violate any laws, including but not limited to laws related to defamation or obscenity; 4. The Content does not infringe upon the copyrights or other intellectual property rights, including, but not limited to patent, trademark, trade secret, copyright, right of publicity or other right of any other of any third party. 5. The Content does not contain software viruses or any other computer codes, files, or programs that are designed or intended to disrupt, damage, limit or interfere with the proper function of
49
any software, hardware, or telecommunications equipment or to damage or obtain unauthorized access to any system, data or other information of UU or any third party. 6. If human subjects were studied in the collection of the Content, you collected the Content with the required approvals; 7. The Content does not contain personal data or high-risk confidential information such as social security numbers; credit card numbers; medical record numbers; health plan numbers; other account numbers; certificate/license numbers; or biometric identifiers (fingerprints, retina, voice print, DNA etc.). 8. You acknowledge that UU will not be liable for any loss of or damage to the Content, either in whole or in part. 9. The Service gives you the ability to restrict access to Content to specified user accounts ("Restricted User Submissions"). All other User Submissions shall be deemed Unrestricted. 10. You shall not (or permit others to) either (a) take any action or (b) upload, download, post, submit or otherwise distribute or facilitate distribution of any Content that: a. infringes the copyrights or other intellectual property rights, including, but not limited to any patent (applications), know how, trademark, trade secret, right of publicity or other right of any other person or entity; or b. is unlawful, threatening, abusive, harassing, defamatory, libelous, deceptive, fraudulent, invasive of another's privacy, tortuous, obscene, offensive, or profane; or c. constitutes unauthorized or unsolicited advertising, junk or bulk e-mail ("spamming"); or d. contains software viruses or any other computer codes, files, or programs that are designed or intended to disrupt, damage, limit or interfere with the proper function of any software, hardware, or telecommunications equipment or to damage or obtain unauthorized access to any system, data or other information of UU or any third party. 11. You shall not: (i) take any action that imposes or may impose (as determined by UU in its sole discretion) an unreasonable or disproportionately large load on UU's (or its third party providers') infrastructure; (ii) interfere or attempt to interfere with the proper working of the Service or any activities conducted on the Service; or (iii) bypass any measures UU may use to prevent or restrict access to the Service (or other accounts, computer systems or networks connected to the Service). 12. The User Submissions do not contain any personally-identifiable information that could directly or indirectly, identify subject except where the release of such identifying information has no potential for constituting an unwarranted invasion of privacy and/or breach of confidentiality. 13. You shall not provide UU with any confidential or proprietary information that you desire or are required to keep secret. You are solely responsible for the Content you post on or through the Service. UU does not endorse and has no control over any User Submission. 14. You will indemnify and hold UU harmless from and against any and all loss, cost, expense, liability, or damage, including, without limitation, all reasonable attorneys' fees and court costs, arising from the (i) use or misuse of the Service; (ii) your access to the Site, use of the Service, violation of the Terms of Use for Posting by you; or, (iii) the infringement by you, or any third party using your account, of any intellectual property or other right of any person or entity. Such losses, costs, expenses, damages, or liabilities shall include, without limitation, all actual, general, special, and consequential damages. 15. You may not use the name "Utrecht University" (alone or as part of another name) in advertising or promotional materials without the UU's prior written approval.
50
16. These Terms of Use for Posting shall be governed by and interpreted in accordance with the laws of the Netherlands. Any dispute arising under or in connection with these Terms of Use for Posting and which cannot be settled amicably between you and UU shall be finally settled by the competent courts of Utrecht.
51
Bijlage 5 - DANS EASY – Dublin Core Metadata Required Dublin Core fields in EASY are: Creator - Name of the entity (person or organisation) that bears primary responsibility for the contents of the dataset. Title - Title of the dataset. Description - Concise description of the contents of the dataset. Date created - When were the data collected? Access rights – Open access / Restricted: request permission / Restricted: group / Other access Date available – Use to impose a temporary restriction Audience - This dataset is relevant for researchers from the following disciplines License – Accept the terms of the DANS license agreement EASY offers the following optional DC fields for all sciences: Contributor(s) - researchers who contributed to the creation of the dataset, other than the ones already mentioned under Creator Subject - as many key words as possible that describe the topic of the dataset Spatial coverage - the geographic area to which the data refer Temporal coverage - the dates to which the data refer Source - if the dataset is based on one or more archival or other sources Identifier - DANS Easy automatically assigns a persistent identifier to a dataset once the entire deposit procedure has been completed. In some cases, a dataset may be known by one or more other (persistent) identifiers Format - the software that was used, including the version number and/or the (software-independent) file format Relation - the complete titles and web addresses, if possible, for any publications, important internal reports or other datasets that are related to your dataset Language - What is the language of the contents of the dataset? Remarks – additional remarks It is possible to add fields to the above set. The fields listed above are the complete set of Dublin Core fields offered for all disciplines at DANS including Social Sciences and History except for the discipline of Archaeology, which offers an additional five optional QDC fields, and expands on Spatial coverage with sub-fields for coordinates (spatial point / spatial box). The extra optional fields for Archaeology are: Alternative title – subtitles or translations of the title in other languages (Copy)right holder – person who or organization which holds the (copy)rights Publisher – organization which published the dataset or its associated publication Type – general characteristic of the dataset content(s) (collection/text/image) Date – dates or times associated with the dataset EASY automatically registers the Date Submitted for all dataset submissions.
53
Bijlage 6 – 3TU.Datacentrum – Dublin Core Metadata Required Dublin Core metadata properties are: Creator; main researchers involved in producing the data Title; name or title by which a resource is known Description; concise description of the contents of the dataset Publisher; institution which submitted the work Publication year; the year when the data was or will be made publicly available Optional metadata properties are: Contributor; a person or organization responsible for making contributions to the dataset Subject; subject, keyword, classification code, or key phrase describing the resource Date created; date the resource itself was put together; this could be a date range or a single date Spatial coverage; describe the geographic area to which the data refer (e.g. municipality, town/city, region, country). The geographic coordinates of the are may be included. Temporal coverage; indicate the dates to which the data refer; this could be a date range or a single date Identifier; 3TU.Datacentrum automatically assigns a persistent identifier to a dataset once the entire deposit procedure has been completed. In some cases, a dataset may be known by one or more other (persistent) identifiers. Format; technical format of the resource. Use file extension or MIME type where possible. Relation; complete title and web adressess for any publication, important internal reports or other datasets that are related to to your dataset. Language; the primary language of the resource Type; the general type of the resource (dataset, collection, sound, text…) Extent; unstructured size information about the resource. Rights; any rights information for this resource 3TU.Datacentrum registers the Date submitted for all dataset submissions. 3TU.Datacentrum has also defined metadata fields based on RDF (and FOAF): http://www.library.tudelft.nl/ns/rdf/calculatedFrom http://www.library.tudelft.nl/ns/rdf/documentation http://www.library.tudelft.nl/ns/rdf/hasData http://www.library.tudelft.nl/ns/rdf/isMemberOfCollection http://www.library.tudelft.nl/ns/rdf/locatedAt http://www.library.tudelft.nl/ns/rdf/locatedNear http://www.library.tudelft.nl/ns/rdf/measuredAtLocation http://www.library.tudelft.nl/ns/rdf/measuredBy http://www.library.tudelft.nl/ns/rdf/mimeType http://www.library.tudelft.nl/ns/rdf/next http://www.library.tudelft.nl/ns/rdf/previous http://www.library.tudelft.nl/ns/rdf/temporal http://www.library.tudelft.nl/ns/rdf/uses http://www.library.tudelft.nl/ns/rdf/usesDimension http://www.w3.org/2002/07/owl#sameAs http://www.w3.org/2003/01/geo/wgs84_pos#alt http://www.w3.org/2003/01/geo/wgs84_pos#lat http://www.w3.org/2003/01/geo/wgs84_pos#long http://xmlns.com/foaf/0.1/name
55
Bijlage 7 - Voorkeursformaten van DANS The list of recommended/preferred files below is structured according to [File category] [File type] [(convertible formats)]: [preferred format] Where the convertible formats are accepted, standard formats that can be converted into the recommended, preferred format. Word processor documents Fixed text (ODT, DOC, DOCX, RTF): PDF/A Re-usable text (DOC, DOCX, RTF): PDF/A & ODT Plain text (ASCII TXT): Unicode UTF with Byte Order Mark Presentation (PPT, PPTX): PDF/A & ODP Still images Raster images (all current formats): JPEG & TIFF Vector images (AI, EPS): PDF/A & SVG Moving images MPEG-2, MPEG-4 H264, lossless AVI (Windows), QuickTime DV (MAC) Audio MP3, WAV (high quality Windows), AIFF (high quality MAC) Spreadsheets (XLS, XLSX): PDF/A & ODS Database (DBF, MDB, ACCDB): CSV (done by the archive) Statistical data: SPSS portable, SAS Transport, STATA DTA GIS (TAB, SHP): MID/MIF CAD (DWG, DXF): DXF version R12 For databases, the preferred format is: loose comma separated values (.csv) per data table. In case the database contains structure that needs to be archived, it is recommended that any relevant information is written in a separate document and archived as a plain text or PDF file. Comma separated values have no clear international standards and data may be lost when changes are made in the cell formatting. In order to properly preserve all of the original data, DANS proposes for the databases (with metadata) to be deposited in their original format and have the conversion done by the archivists.
57
Bijlage 8 - Overzicht ondersteunde formaten bij 3TU.Datacentrum
We do not restrict ourselves to a list of allowed formats; however, we strongly encourage the use of open (non-proprietary) and well-known formats. Many datasets are formatted as NetCDF. For some NetCDF datasets, we also provide plain text and xml representations known as CDL and NcML, respectively, and, if the dataset is not too big or complex, also simple CSV and Excel versions. The list of supported files is structured according to: File type/preferred format Text/xml Text/plain Text/html Application/x-netcdf Application/zip Application/vnd.google-earth.kml+xml Application/x-hdf5 Application/x-gzip Application/octet-stream Application/pdf Application/x-java-archive Video/msvideo Video/mpeg Image/png
59
Bijlage 9 - Utrecht Dataverse Network FAQ Toegang en rechten Iedereen met een Solis-account kan een Dataverse starten en daarin datasets deponeren. Eigenaren van een Dataverse kunnen voor deelnemers zonder Solis-id zelf een DVNaccount aanmaken dat toegang geeft tot dat Dataverse, met zelf te specificeren rechten. Let wel op dat er afzonderlijke inlogschermen zijn voor Solis- en DVN-accounts. De eigenaar van een Dataverse kan zelf gedetailleerd bepalen wie toegang kan krijgen tot afzonderlijke datasets ('studies') en bestanden. Dat kan variëren van niemand tot iedereen en van alleen kijken tot het zelf toevoegen van bestanden of datasets. Het is aan te raden je in deze mogelijkheden te verdiepen en vervolgens zelf goed overzicht te houden op uitgedeelde rechten. Als je bij een study wilt komen voor onderhoud of beheer, dan dient dat te gebeuren via de categorieën of het alfabet van Dataverses op de beginpagina van het Dataverse Network of via de persoonlijke gegevens onder je gebruikersnaam (als je zelf eigenaar van die study bent). Je moet daarvoor beslist NIET het zoekvenster op de beginpagina gebruiken. Langs die weg krijg je namelijk geen toegang tot de beheersopties. De presentatie van een Dataverse kan in beperkte mate gepersonaliseerd worden via kopen voetteksten en banners ('Layout branding'), een beschrijvende tekst en eigen gebruiksvoorwaarden. Elke study krijgt automatisch een permanent URL ('handle') dat gebruikt kan worden als link voor toegang tot openbare datasets en dat vermeld kan worden in publicaties. Structuur Binnen een Dataverse kan men 'studies' aanmaken voor afzonderlijk deelprojecten, experimenten, of andere onderdelen. Een study bestaat uit een verzameling bestanden. Daarnaast kan men binnen een Dataverse 'collecties' definiëren, waarin studies kunnen worden ondergebracht. Binnen zo'n collectie kunnen ook deelcollecties gedefinieerd worden in een meerlagige boomstructuur. In collecties kunnen ook studies uit andere Dataverses worden opgenomen (zelfs van andere eigenaren - mits toegangsrechten dat toestaan). Uploaden Als je meer bestanden naar dezelfde 'study' wilt uploaden, moet je dat op dit moment helaas nog per individueel bestand doen. We zullen proberen een optie te realiseren waarmee meer bestanden tegelijk voor upload geselecteerd kunnen worden. Bij grote bestanden kan het uploaden soms lang duren. Dit is echter voornamelijk afhankelijk van de netwerkverbinding van de computer waarvandaan dat gebeurt. Metadata Het toevoegen van metadata aan een study heeft hogere prioriteit dan sommige gebruikers wellicht geneigd zijn te denken. Ze zijn echter essentieel voor interpretatie en hergebruik (en zelfs voor het terugvinden) van datasets. Bedenk vooraf welke metadata beslist noodzakelijk zijn, zodat je niet achteraf tot de ontdekking komt dat essentiële gegevens blijken te ontbreken, maar anderzijds het toevoegen ook niet onnodig veel inspanning vergt. Lang niet alle voorgedefinieerde metadatavelden zijn in elke situatie nodig. Wanneer je verwacht in de loop van de tijd meer gelijksoortige studies te zullen aanmaken, is het aan te raden daarvoor een standaard (metadata) "template" te maken.
61
Dat bevat een keuze van noodzakelijk in te vullen metadatavelden. Waar mogelijk kunnen bepaalde velden daarin al een vooraf ingevulde standaardwaarde krijgen. Capaciteit van Dataverse Technisch gezien zijn er geen beperkingen aan de hoeveelheid informatie die in een Dataverse kan worden opgeslagen. Voor de gratis dienstverlening is echter een bovengrens gesteld aan de hoeveelheid data per UU-medewerker. Wanneer de grens van 2 GB wordt overschreden zal de betreffende medewerker gewaarschuwd worden, zodat die naar een oplossing kan zoeken. Wanneer structureel meer capaciteit benodigd is, zal daarvoor met de betreffende universitaire eenheid een regeling getroffen worden ten aanzien van facturering. Er worden niet zonder waarschuwing rekeningen verstuurd. Juridische zaken Er zijn juridische voorwaarden waarmee je akkoord moet gaan bij gebruik, uploaden en downloaden van gegevens. Deze voorwaarden worden op het scherm getoond en zijn ook te vinden op de website van de bibliotheek. Belangrijk is in ieder geval dat opslag van privacygevoelige data niet is toegestaan! Ondersteuning Onder 'User guides' staan helpteksten, Daarnaast kun je altijd contact opnemen met de bibliotheek voor ondersteuning:
[email protected], Nog niet mogelijk maar wel op ons wensenlijstje: - Meer bestanden tegelijk selecteren voor upload naar een study. - Automatische notificatie dat een van je bestanden gedownload is. - Overzicht hoeveel van de toegestane 2 GB in gebruik is.
62