CARDS Controlled Access to Research Data, Stored Securely
Colofon CARDS Controlled Access to Research Data, Stored Securely SURFfoundation PO Box 2290 NL-3500 GG Utrecht T + 31 30 234 66 00 F + 31 30 233 29 60
[email protected] www.surf.nl Auteurs Ana van Meegen Silva Driek Heesakkers Eindredactie Keith Russell, SURFfoundation
Dit project is tot stand gekomen met steun van Stichting SURF, de organisatie die ICT vernieuwingen in het hoger onderwijs en onderzoek initieert, regisseert en stimuleert door onder meer het financieren van projecten. Meer informatie over SURF is te vinden op de website (www.surf.nl). This project was made possible by the support of SURF, the higher education and research partnership organisation for Information and Communications Technology (ICT). For more information about SURF, please visit www.surf.nl.
SURF is de ICT-samenwerkingsorganisatie van het hoger onderwijs en onderzoek (www.surf.nl). Deze publicatie is digitaal beschikbaar via de website van SURFfoundation: www.surffoundation.nl/publicaties
© Stichting SURF Januari 2012
Deze publicatie verschijnt onder de Creative Commons licentie Naamsvermelding 3.0 Nederland.
Inhoudsopgave
Samenvatting ................................................................................................................... 5 De bevindingen samengevat ............................................................................................ 6 Summary .......................................................................................................................... 9 Inleiding ......................................................................................................................... 11 1
De resultaten ......................................................................................................... 13 1.1 Deelresultaat 1: Oriëntatie, inventarisatie en afbakening ....................................... 13 1.1.1 Vormgeving accountmanagement, overleg met onderzoeksgroep .............. 13 1.1.2 Inventarisatie van mogelijk te gebruiken bouwstenen voor support ............ 14 1.2 Deelresultaat 2: Pilots ....................................................................................... 14 1.2.1 Pilot 1 ................................................................................................ 16 1.2.2 Pilot 2 ................................................................................................ 20 1.2.3 Pilot 3 ................................................................................................ 23 1.2.4 Pilot 4 ................................................................................................ 25 1.2.5 Pilot 5 ................................................................................................ 28 1.2.6 Pilot 6 ................................................................................................ 31 1.2.7 Pilot 7 ................................................................................................ 34 1.3 Deelresultaat 3: Digitaal informatiepakket ........................................................... 35 1.4 Deelresultaat 4: Kennisdisseminatie .................................................................... 36
2
Het flankerende BonusCARDS project .................................................................... 39
3
Risicomanagement ................................................................................................ 41
4
Bevindingen ........................................................................................................... 43 4.1 Beheer van data is ondergeschoven kind ............................................................. 43 4.2 Data beheren is meer dan data veilig opslaan ....................................................... 44 4.3 Goede voorziening ‘moet er gewoon zijn’ ............................................................. 44 4.4 Specifieke infrastructuur niet per se in huis .......................................................... 45 4.5 Het maakt niet uit waar de data staat, als onderzoekers er maar zeggenschap over hebben ..................................................................................................... 46 4.6 Ondersteuning geven aan e-Science is een nieuw vak ........................................... 46
5
Lessons learned ..................................................................................................... 49
Bijlage 1 – Kennis & kunde van een dataspecialist ......................................................... 51 Bijlage 2 – Datamanagementplan; interview .................................................................. 53 Bijlage 3 – Datamanagementplan; template ................................................................... 57 Bijlage 4 – Functionele eisen datamanagementtool WEM ............................................... 59 Bijlage 5 – Implementing a geospatial data server ........................................................ 63 Bijlage 6 - Evaluatieplan ................................................................................................. 83 Bijlage 7 – Standlijnenoverzicht ..................................................................................... 91
3
Samenvatting Het project CARDS beoogde vorm geven aan ondersteuning van onderzoekers bij het bewaren en delen van onderzoeksdata. Voor het behalen van dit resultaat werd er op twee fronten gewerkt: (1) de professionalisering van de ondersteunende medewerker en (2) binnen zeven pilots werden de wensen van geïnventariseerd en uitgevoerd. Aan het begin van het project werd er aandacht gegeven aan de competenties van de ondersteuners: wat hebben zij nodig om deze werkzaamheden te kunnen uitvoeren? Welke bouwstenen kunnen ze gebruiken om de onderzoekers van dienst te zijn? Er is een inventarisatie gemaakt van de benodigde informatie en een template gebouwd voor het schrijven van een Data Management Plan. De inventarisatie van de bouwstenen is verwerkt in een digitaal informatiepakket dat onderzoekers en ondersteuners verder kan helpen met de startfase van het datamanagement. Binnen de pilots hebben ondersteunende medewerkers geleerd hoe ze onderzoekers kunnen bijstaan bij het opslaan en delen van onderzoeksdata. Er werd geluisterd naar de wensen van onderzoekers. Ondersteuners hebben onderzoekers geholpen bij het vormgeven van databeheer en dataopslag door middel van advies over de beste manier om data te ontsluiten (door middel van goede metadatering; vaste procedures bij overdracht van werkzaamheden en vaste werkwijze voor het delen en beheren van data) en advies over adequate infrastructuur. Een infrastructuur vinden was geen drempel, het implementeren daarvan daarentegen wel. Het project liep tegen de grenzen van de organisaties en van het project aan1 en kon maar een deel het gewenste resultaat leveren. Tegelijkertijd boden deze tegenslagen voldoende input voor het verder ontwikkelen van datamanagement binnen onderzoeksinstellingen in Nederland. De projectgroep heeft alle bevindingen opgesomd en aanbevelingen voorgedragen. De belangrijkste zijn: 1. formuleer beleid ten aanzien van datamanagement 2. zorg voor een goede ondersteuning 3. een adequate infrastructuur voor databeheer en dataopslag. Zo kunnen instellingen ervoor zorgen dat efficiënter en effectiever met onderzoeksdata wordt omgegaan zodat onderzoekers minder tijd moeten besteden aan het oplossen van organisatorische en beheersproblemen en meer tijd hebben om te excelleren in hun onderzoek. Ondersteuning geven aan databeheer en dataopslag is een nieuwe taak binnen het ondersteuningsdomein van universiteiten. Ondersteunend personeel is gemotiveerd en wil graag onderzoekers helpen, maar heeft niet voldoende capaciteit om het goed uit te voeren.
1
Het project CARDS beoogde geen nieuwe applicaties te ontwikkelen, het moest uitgevoerd worden binnen de bestaande infrastructuur, maar die bleek niet altijd aanwezig te zijn.
5
De bevindingen samengevat
Beheer van data is ondergeschoven kind (paragraaf 4.1, pg 45)
Data beheren is meer dan data veilig opslaan (paragraaf 4.2 pg 46)
Voor subsidieverstrekkers eis in de voorwaarden dat onderzoekers een datamanagementplan opstellen aan het begin van een onderzoek
Voor onderzoeksinstellingen zorg voor beleid ten aanzien van databeveiliging en datamanagement. Zorg ervoor dat dit beleid wordt uitgedragen op alle niveaus, van CvB tot onderzoekscoördinatoren. creëer bewustzijn bij onderzoekers door structurele voorlichting en data-audits uit te voeren. zorg voor een goede ondersteuning bij databeheer. Richt een Datamanagement Informatiepunt in. zorg voor een goede infrastructuur waar onderzoekers hun data tijdens het onderzoek veilig kunnen opslaan, delen en bewerken. zorg voor een infrastructuur waar makkelijk mee te werken is, zodat onderzoekers niet snel afhaken. Zorg voor de toegevoegde waarde. zorg voor een expert binnen de instelling zodat onderzoekers snel en efficiënt geholpen kunnen worden zonder zelf op zoek te gaan naar oplossingen voor het structureren van onderzoeksdata. zorg dat ondersteuning voor het structureren van onderzoeksdata actief wordt aangeboden aan onderzoekers. sluit de infrastructuur aan bij deze standaarden zodat een vaste structuur ontstaat die de kwaliteit van de bewaarde data garandeert. zorg dat er een datamanagementsysteem in uw instelling centraal aanwezig is.
6
Voor onderzoekers en hun ondersteuners
ga na of er andere onderzoeksgroepen zijn die soortgelijke data verzamelen en bestudeer de manier waarop ze hun data hebben gecodeerd. Onderzoek ook of er in het vakgebied standaarden voor data worden gehanteerd door tijdschriften. neem in het datamanagementplan op hoe de onderzoeksdata gecodeerd gaat worden. en bewaar deze beschrijving samen met de verzamelde data zodat anderen de data ook kunnen interpreteren. gebruik een datamanagementsysteem om datasets te beheren. gebruik standaarden zodat de data gedeeld
kan worden. Zorg binnen de onderzoeksgroep voor heldere afspraken en leg deze vast in een handleiding. Breng dit onder de aandacht bij het aantreden van nieuwe onderzoekers. kies waar mogelijk voor een standaard die aansluit bij gebruikelijke standaarden in het vakgebied. Goede voorziening ‘moet er gewoon zijn’ (paragraaf 4.3 pg 46)
zorg dat er voorwaardelijke en geoormerkte financiering is voor het ondersteunen van databeheer en opslag. eis dat onderzoeksresultaten bewaard worden volgens gangbare richtlijnen
Specifieke infrastructuur niet per se in huis (paragraaf 4.4 pg 47)
wees verantwoordelijk voor de infrastructuur die alle onderzoekers verbonden aan uw instelling nodig hebben om hun werk goed te kunnen uitvoeren. sta daarbij open voor de mogelijkheid dat de beste infrastructuur buiten de eigen instelling kan vallen. maak gebruik van uitbesteding om kosteneffectief te werken. vraag bij het archiveren van onderzoeksdata toestemming aan onderzoekers voor het publiceren van hun onderzoeksdata. zorg voor een goede ondersteuning bij vragen van onderzoekers over auteursrechten en bescherming persoonsgegevens
Het maakt niet uit waar de data staat, als onderzoekers er maar zeggenschap over hebben (paragraaf 4.5 pg 48) Ondersteuning geven aan e-Science is een nieuw vak (paragraaf 4.6 pg 48)
zorg dat onderzoekers hun werk goed kunnen uitoefenen door een goede infrastructuur neer te zetten die geschikt is om te werken met onderzoeksdata, maar ook om die te bewaren.
zorg voor goede scholing van medewerkers zodat ze genoeg capaciteit hebben om onderzoekers te kunnen ondersteunen. zorg voor voldoende ICT experts die ondersteuners kunnen bijstaan of zorg ervoor dat ondersteuners zelf genoeg ICT kennis hebben. zorg voor vakspecifieke
7
ondersteuners: medewerkers die kennis hebben van bepaalde onderzoeksgebieden en in de buurt van de onderzoekers werken zodat ondersteuning zo laagdrempel mogelijk gebeurt. zorg in de organisatie voor een verbeterslag en professionalisering op het gebied van datamanagement zodat databeheer op een meer effectieve en efficiënte manier plaatsvindt. zorg dat ondersteuners voldoende tijd krijgen om dit nieuwe vak te leren. zorg dat deze werkzaamheden in het takkenpakket van de ondersteuners worden opgenomen.
8
Summary The CARDS project aimed to support researchers in storing and sharing research data. To achieve this, the project worked in two directions: (1) professionalization of the support staff and (2) executing the wishes of researchers for storing and sharing research data through seven pilots in five institutions in higher education in the Netherlands. In the first stage of the project, the focus was on the capacity and knowledge of the supporting staff. What competencies do support staff need to perform this work? Which resources can be used by the staff to help researchers? An inventory of the necessary information was realized and a template for a data management plan developed. The inventory was intended as input for the digital information package which was subsequently implemented. During the pilots, supporters learned through hands-on experience how to assist researchers in storing and sharing their research data. The support staff listened carefully to the needs of the researchers. Supporters helped researchers in designing a data management plan and provided advice on data storage and the best approaches for data management (by providing metadata guidelines and standard procedures for data sharing and data curation). Finding the right infrastructure proved not to be very difficult, the implementation however was not always successful. The project reached the limits of the capacity of some organizations and could only in part provide the desired results. However it did offer useful input for developing data management in research institutions in the Netherlands. The project has summarized all the findings and has proposed some recommendations. The most important are: (1) formulate a clear data management policy; (2) provide good support and (3) a sound infrastructure for data management and data storage. These points ensure efficiency and effectiveness for storage and use of research data in such a way that researchers can spend their time on excellent research and not solving organisational and management problems.
9
Inleiding Op 28 april 2010 organiseerde SURFfoundation in Lage Vuursche een rondetafelbijeenkomst over het thema “Toegang tot onderzoeksdata”. Een van de uitkomsten van deze bijeenkomst was het project Podium Plus2, dat is uitgevoerd door Utrecht en Twente (looptijd september 2010 tot juli 2011). Dit project was gericht op het onderzoeken van de mogelijkheden tot landelijke samenwerking m.b.t. opslag van (en toegang tot) onderzoeksdata. Zowel Utrecht als Twente deden hierin pilots met een lokale installatie van de Dataverse software. Er werd tevens gekeken of er een koppeling naar DANS/3TUDC mogelijk is voor opslag voor de lange termijn, en aan welke (systeem)eisen deze koppeling zou moeten voldoen. Waar haalbaar is gebruik gemaakt van en getest met reële datasets. Het project CARDS is een logische aanvulling op Podium Plus, met als belangrijk verschil dat CARDS zich niet beperkt tot DVN als basis voor de dienstverlening aan onderzoekers. Binnen CARDS is bewust gekozen voor verbreding en verdieping. Het project werkte met een brede groep deelnemende universiteiten en mikte daarmee op het bereiken van een grote diversiteit aan onderzoeksgroepen. Daarbij is gebruik gemaakt van de uitkomsten van Podium Plus en van de uitkomsten van een literatuurstudie3 naar de wensen van onderzoekers rond beheer van hun onderzoeksgegevens. Uit deze studie kwam naar voren dat onderzoekers in de productiefase van hun onderzoek in de dagelijkse praktijk problemen en knelpunten ondervinden bij het databeheer die zij zelf niet altijd goed kunnen oplossen. En juist in de productiefase ligt de nadruk op het veilig opslaan van data omdat de gegevens worden aangevuld, bewerkt, hergebruikt, gevalideerd en worden gedeeld met andere onderzoekers. CARDS wilde in vijf pilots met onderzoeksgroepen ondersteuning op maat gaan aanbieden. Het CARDS project is in 2011 uitgevoerd binnen de kaders van het SURFshare programma onder het thema Toegang tot Onderzoeksdata. In voorgaande jaren is gestart met het uitzetten van projecten die bepaalde onderdelen van beleid rond onderzoeksdata hebben verkend 4. De uitkomsten van deze projecten vormen als het ware bouwstenen voor beleid en management rond onderzoeksdata. In 2011 waren de activiteiten, die SURF op zich neemt binnen het SURFshare programma, gericht op het completeren van het raamwerk voor beleid/management rond (blijvende) toegang tot onderzoeksdata. In 2010 is naar voren gekomen dat er rond onderzoeksdata, ook in Nederland, een aantal projecten zijn uitgevoerd die betrekking hebben op het scheppen van een infrastructuur voor opslag en hergebruik van onderzoeksdata. Tegelijkertijd is duidelijk geworden dat nog weinig structureel nagedacht wordt over het proces; de wijze waarop de workflow voor opslag en hergebruik binnen de instellingen geregeld en ingevoerd moet worden. Het CARDS project beoogde, door het opdoen van praktische ervaring met het ondersteunen van onderzoekers, een bijdrage te leveren aan de ontwikkeling van bouwstenen voor beleid en management van onderzoeksdata. Aan het project CARDS leverden vijf universiteiten (Tilburg University, Vrije Universiteit Amsterdam, Universiteit Leiden, Universiteit van Amsterdam en Universiteit Twente), DANS en SURFnet een actieve bijdrage. De stuurgroep was samengesteld uit de directeuren van de Universiteitsbibliotheken van de Universiteit Leiden, Universiteit van Amsterdam, Vrije Universiteit en de opdrachtgever SURF. Zij gaven suggesties over de uitvoer van het project en bewaken de voortgang. De Commissie Projectbewaking bewaakte in opdracht van de directeur van Stichting SURF de voortgang en kwaliteit van het project. Het project liep van 1 februari t/m 30 november. Het project was begroot op € 134.750,00, waarvan € 71.500,00 bestond uit een subsidie SURFfoundation.
2
http://www.surffoundation.nl/nl/projecten/Pages/PodiumPlus.aspx Zie What Researchers Want - A literature study of researchers’ requirements with respect to storage and access to research data. http://www.surffoundation.nl/nl/publicaties/Pages/Whatresearcherswant.aspx 4 Voor een overzicht van deze studies en projecten zie: http://www.surffoundation.nl/nl/themas/openonderzoek/permanentetoegangtotdata/Pages/default.aspx 3
11
In de oorspronkelijke opzet van CARDS was slechts sprake van vijf pilots, bij elke deelnemende instelling een. Bij de UvA bleek de belangstelling bij onderzoekers onverwacht groot, en was de keus uiteindelijk tussen meerdere onderzoeksgroepen, die divers genoeg waren om elk een waardevolle bijdrage aan CARDS te kunnen leveren. Om te zorgen dat niet slechts een pilot uitgevoerd konden worden is een flankerend project opgezet met de naam ‘BonusCARDS’, waarin de twee UvA-pilots aan de betafaculteit zijn uitgevoerd. Achtergrond Uit een literatuurstudie naar de wensen van onderzoekers5 blijkt dat onderzoekers problemen ervaren met het beheer van data, maar dat zij niet goed weten hoe die op te lossen. Ook komt vaak voor dat men de problemen niet wil oplossen omdat er andere prioriteiten zijn. Hulp is welkom, maar alles wat lijkt op een opgelegde of verplichte aanpak roept weerstand op. De literatuurstudie heeft een aantal kritische succesfactoren benoemd die CARDS als achtergrond gebruikt bij de projectopzet. Die factoren zijn: ondersteuning moet lokaal en disciplinespecifiek zijn persoonlijk contact is belangrijk voordelen moeten helder en direct zichtbaar zijn werk met reeds aanwezige best practices bij de onderzoeker hou rekening met lokale werkwijze (email is veelal erg belangrijk) maak onderscheid tussen ruwe en bewerkte data bouw vertrouwen op leg de controle op de data in handen van de onderzoeker Na een opstartfase (Deelresultaat 1), waarin (verdere) afbakening en oriëntatie op de concrete aanpak is voorbereid, is met een aantal onderzoeksgroepen (niet met individuele onderzoekers) een pilot van een half jaar uitgevoerd (Deelresultaat 2) om in de praktijk vast te stellen hoe de ondersteuning op het gebied van databeheer de beste vorm kan krijgen. Een van de kenmerkende eigenschappen in de aanpak is het accountmanagement. Uit ervaringen van onder meer de Universiteit van Tilburg is gebleken dat het de moeite waard is om actief in gesprek te gaan met onderzoekers. Het contact geeft inzicht in de bestaande situatie m.b.t. dataopslag en in de knelpunten en de wensen van de onderzoekers. Deze ervaring is ook in CARDS gebruikt om de onderzoekers te benaderen, niet eenmalig vrijblijvend, maar regelmatig en op basis van wederzijdse inspanning. In eerste instantie werd vooral geluisterd naar de manier waarop de onderzoekers werken, en naar hun wensen en problemen. De accountmanager komt niet binnen met een map vol adviezen, procedures en regels. Maar al luisterend speelt hij in op de problemen en biedt oplossingen en advies. Dat zou kunnen leiden tot het bieden van hulp bij opslag bij een datacentrum als DANS of 3TU Datacentrum, maar dat is op zichzelf niet het doel van CARDS. Tijdens de pilots in de vijf instellingen rapporteren de accountmanagers regelmatig over hun ervaringen. Daarmee ontstaat een verzameling van ervaringen uit de praktijk, vastgelegd voor latere analyse en rapportage aan het einde van het project. Deze ervaringen vormen tevens de basis voor de ontwikkeling van een informatiepakket (in Deelresultaat 3) dat als uitkomst van het project en als concreet resultaat begin 2012 in een bijeenkomst voor onderzoekers en betrokkenen gepresenteerd zal worden.
5
Zie What Researchers Want - A literature study of researchers’ requirements with respect to storage and access to research data. http://www.surffoundation.nl/nl/publicaties/Pages/Whatresearcherswant.aspx
12
1
De resultaten
1.1
Deelresultaat 1: Oriëntatie, inventarisatie en afbakening
Tijdsplanning: 1 februari t/m 15 maart Doel van dit deelresultaat was om de uitgangssituatie van het project volledig in kaart te brengen en om de vraag en het aanbod verder aan te scherpen. Onderdeel
Activiteit
Vormgeving accountmanagement, overleg met onderzoeksgroepen
Profiel accountmanagement voor databeheer opzetten en onderzoeksgroepen benaderen voor pilots
Inventarisatie van mogelijk te gebruiken bouwstenen voor support
Inventariseren hoe accountmanagers de onderzoekers gaan ondersteunen, plan van aanpak
1.1.1
Vormgeving accountmanagement, overleg met onderzoeksgroep
Om het accountmanagement vorm te geven, is er voor dit project een functieprofiel opgesteld met de taken en competenties die nodig zijn voor de ondersteunende medewerker. Dit functieprofiel (zie bijlage 1) is specifiek voor deze projectdoeleinden. Hoewel er raakvlakken zijn met de functiebeschrijving van de Data Librarian, heeft het CARDS project geen intenties om een bijdrage te leveren aan de vormgeving van de nieuwe UFO profielen waar deze functie op dit moment besproken wordt. Projectleden die een bijdrage kunnen leveren voor het UFO profiel zijn hierbij al buiten het CARDS project betrokken. Bovendien beperkt CARDS zich tot het bewaren en delen van onderzoeksdata tijdens een onderzoek. Archiveren en metadateren van onderzoeksdata nadat een onderzoek gereed is, valt buiten dit project, maar maakt wel deel uit de functie van een Data Librarian. Iedere instelling maakt interne afspraken voor het invullen van deze functie. De functie van de Data Librarian bestaat reeds binnen de Universiteit van Tilburg. Voor de universiteiten van Twente, Leiden en UvA worden deze werkzaamheden door de vakreferenten/collectie- en informatiespecialisten6 uitgevoerd. Binnen de VU wordt onderzoekers door medewerkers van het Innovatiecentrum van het Universitaire Centrum – IT (UC-IT) ondersteund en de activiteiten voor dit projecten zullen door deze IT-medewerkers worden uitgevoerd. Met uitzondering van de Universiteit van Tilburg betekent het voor alle instellingen dat deze functie nog niet bestaat en binnen dit project vorm gaat krijgen. Hoewel dit resultaat niet genoemd was in het projectvoorstel van CARDS is het een nevenresultaat waar alle deelnemende organisaties baat bij zullen hebben. Zo bood CARDS niet alleen ondersteuning aan onderzoekers, maar ook aan de organisaties die in het project participeerden. Commitment vanuit onderzoeksgroepen voor participatie in CARDS Tijdens het afronden van dit deelresultaat (15 maart 2011), hadden alle instellingen een eerste kennismakingsgesprek met onderzoeksgroepen gehad en men bereidde zich al voor op de werkzaamheden die voor de pilots benodigd waren. Onderzoeksgroepen uit vier instellingen toonden hun interesse en gaven aan aan de pilots mee te willen werken. Voor de Universiteit van Tilburg was er aan het einde van deze deliverable nog de keuze om met twee verschillende onderzoeksgroepen te werken. Bij de Universiteit van Amsterdam is in deze periode gekozen om niet één maar drie pilots uit te voeren, en is in samenwerking met SURFfoundation hiervoor het flankerende BonusCARDS project opgezet.
6
Deze benamingen zijn per instelling wisselend alsook het functieprofiel van de betreffende medewerker.
13
1.1.2
Inventarisatie van mogelijk te gebruiken bouwstenen voor support
De projectdeelnemers hebben geïnventariseerd welke specifieke kennis nodig is voor een goede ondersteuning. De volgende aandachtspunten zijn geïdentificeerd: Beleid en richtlijnen: binnen de instelling, nationaal, internationaal. Deze zijn ook afhankelijk van de subsidieverstrekker. Dataeigenaarschap: wie is de eigenaar van de data? Datarepositories en collaboratories: waar kunnen onderzoekers hun data delen en bewaren? Dataformaten: welke formaten worden geadviseerd voor de duurzame opslag van data? Welke formaten zijn goedgekeurd door subsidieverstrekkers? Metadatering: welke standaarden zijn er voor het metadateren van onderzoeksdata? Alle bouwstenen zijn verzameld en in een wiki en in de teamsite op Surfgroepen gepresenteerd. Doel van de wiki is dat de ondersteuners de content gaan gebruiken, aanpassen en verrijken met nieuwe documenten. De wiki is dynamisch, de kennis die uit de pilots gedistilleerd is, komt in de wiki tot vorm. Deze bouwstenen dienden als input voor het Digitale Informatiepakket uit Deelresultaat 3.
1.2
Deelresultaat 2: Pilots
Tijdsplanning: half maart 2011 t/m half november 2011 Doel van dit deelresultaat was het aanbieden en leveren van hands-on ondersteuning aan onderzoekers bij hun onderzoekswerk, voor zover het gaat om het opslaan en bewaren van hun onderzoeksgegevens, en het delen daarvan met collega’s binnen en buiten de onderzoeksgroep. De projectdeelnemers gingen lokaal aan de slag met de uitkomsten van hun gesprekken met de onderzoeksgroepen die in het eerste deelresultaat waren benaderd. In dit deelresultaat zijn 7 pilots uitgevoerd. Onderdeel
Activiteit
Generiek raamwerk voor een onderzoeksdatamanagementplan
Een raamwerk ontwikkelen dat gebruikt kan worden als leidraad voor het schrijven van een onderzoeksdatamanagementplan
Vragenlijst voor intakegesprekken
Een vragenlijst ontwikkelen die als leidraad kan worden gebruikt, als voorbereiding voor, tijdens het intakegesprek met onderzoekers of als checklist achteraf
Accountmanagement
Samen met de onderzoekers, zeven datamanagement plannen op maat schrijven
Uitvoeren pilots
Werkzaamheden uitvoeren die nodig zijn om onderzoeksdata beter te bewaren, te structureren en te delen (zolang het binnen de geschatte uren en budget paste).
Generiek raamwerk voor een onderzoeksdatamanagementplan en vragenlijst voor intakegesprekken In het projectvoorstel was er sprake van alleen het formuleren van een generiek raamwerk voor een onderzoeksdatamanagementplan. Al snel werd geconstateerd dat alleen een raamwerk niet voldoende was voor een goede inventarisatie van de problematiek rond datamanagement binnen een bepaalde onderzoeksgroep. Voor de inventarisatie gesprekken hadden de ondersteuners (voorheen account managers) aangegeven een handvat nodig te hebben om een goede inventarisatie te kunnen uitvoeren. Er werd gekozen om een generieke vragenlijst te ontwikkelen die de ondersteuners kunnen gebruiken. Ze konden dit inzetten tijdens hun gesprek met de onderzoekers of achteraf als checklist om te kijken of ze geen aandachtspunten hadden gemist (zie bijlage 2).
14
Voor een goede inventarisatie bleek het in ieder geval nodig om te weten: a) welke types data worden er verzameld; b) welke wensen hebben de onderzoekers t.a.v. de verzamelde onderzoeksdata (tijdens en na het onderzoek) c) wie krijgt toegang tot de data Aan de hand van deze inventarisatie werd een datamanagementplan opgesteld. Voor het schrijven van zo’n plan bestaan verschillende sjablonen die als voorbeeld hebben gediend. Voor de vragenlijst en voor het template heeft de projectgroep gebruik gemaakt van bestaand materiaal uit instellingen wereldwijd. Een van de voorwaarden van dit project was niet opnieuw het wiel proberen uit te vinden, maar gebruik te maken van bestaande informatie en applicaties. Het project heeft uiteindelijk een aantal voorbeelden7 bekeken en op basis daarvan een raamwerk opgezet (zie bijlage 3). Accountmanagement De gesprekken met onderzoekers die in deelresultaat 1 (oriëntatie) waren opgestart, zijn binnen deelresultaat 2 gecontinueerd. Binnen deelresultaat 1 hebben de ondersteuners een eerste inventariserend gesprek met de onderzoekers gevoerd en ze uitgenodigd deel te nemen aan de pilots. Het onderdeel accountmanagement in deelresultaat 2 hield in dat ondersteuners samen met onderzoekers de wensen m.b.t. het bewaren en delen van onderzoeksdata inventariseerden, oplossingen aandroegen en de pilots opzetten. Het geven van ondersteuning bij het bewaren en delen van onderzoeksdata was voor de meerderheid van de instellingen een nieuwe activiteit die nog vorm moest krijgen. Dit project heeft ervoor gezorgd dat binnen deze instellingen een begin is gemaakt met deze nieuwe specialisatie. Deelnemers hebben met deze pilots geleerd hoe ze deze ondersteuning kunnen bieden. Onderzoekers waren hiervan op de hoogte en toonden begrip voor deze situatie. Vanaf het begin van het project gaven onderzoekers aan geen of nauwelijks tijd te willen besteden aan datamanagement en aan het project. De ondersteuners hebben onderzoekers daarom zo min mogelijk met vragen gestoord. Gemiddeld zijn er per pilot vier accountgesprekken met onderzoekers geweest. Deze wens van onderzoekers bracht het eerste inzicht binnen het project CARDS: onderzoekers willen niet meedenken over hoe en waar hun onderzoeksdata bewaard worden, ze willen alleen een antwoord krijgen op hun verzoeken voor databeheer en dataopslag. Onderzoekers willen de tijd die ze hebben, gebruiken voor het inhoudelijke deel van het onderzoek. De gereedschappen die ze nodig hebben om dat goed uit te kunnen voeren, dienen voorhanden te zijn. Het is een taak van de ondersteuners en de instellingen ervoor te zorgen dat onderzoekers daar zo min mogelijk last van hebben. De evaluatie van het accountmanagement is opgenomen in de evaluatie van de desbetreffende pilot. In het algemeen kunnen er een aantal conclusies getrokken worden die voor de meeste onderzoeksinstellingen gelden: ondersteuners willen meer scholing hebben om deze dienst beter te kunnen realiseren. Pionieren is nodig bij een eenmalig experiment, maar als deze taak vaker voor gaat komen willen ondersteuners meer zekerheid hebben over de werkzaamheden die ze aan het uitvoeren zijn. de accountmanager is niet degene die de infrastructuur gaat opzetten. Deze ICT-kennis hebben de meeste ondersteuners niet. Er dient een onderscheid te zijn tussen de accountmanager (informatiespecialist) en de ICT-expert8.
7
ANU Data Management Manual. Managing Digital Research Data at the Australian National University, Information Literacy Program, september 2010. - Checklist for a Data Management Plan (v2.2), Martin Donnelly and Sarah Jones, Digital Curation Centre, 2009. - Data Curation Profiles – User Guide, Purdue University Libraries. - Data Management Planning, ANDS Guides – Awareness level. ANDS – Australian National Data Service, 9 december 2010. 8 Er zijn veel varianten op deze functies; bij softwareondersteuning wordt onderscheid gemaakt tussen een functioneel- en een technisch beheerder.
15
onderzoekers worden ongeduldig als ondersteuners met lege handen komen. Er dient eerst een goede infrastructuur te zijn waarop ondersteuners ondersteuning kunnen bieden. dit project bood inzicht in de werkzaamheden en tools die nodig zijn voor deze vorm van ondersteuning. Het accountmanagement moet nu binnen de instellingen verder vorm krijgen.
In het algemeen zal de ondersteuning van een accountmanager uit de volgende activiteiten kunnen bestaan: datamanagementplannen opstellen als bijlage bij projectvoorstellen, inclusief budgetoverzicht; advies geven over infrastructuur en applicaties, waaronder data repository, collaboratories, etcetera; opstellen van een werkwijze voor databeheer voor specifieke onderzoeksgroepen; ondersteuning bieden bij data curatie en datacitaties; trainingen over datamanagement aanbieden aan studenten en onderzoekers; advies geven voor beleid t.a.v. datamanagement; richtlijnen opstellen voor datamanagement; samenwerken met collega’s nationaal en internationaal. Uitvoeren pilots Bij de zeven pilots zijn de wensen van de onderzoekers in kaart gebracht alsook de beschrijving van de onderzoeksdata en de manier waarop de data wordt bewaard en gedeeld. Niet alle pilots hebben een datamanagementplan opgesteld. Bij sommige pilotgroepen is begonnen aan een datamanagementplan, maar vond men dat te beperkt en is dit direct voortgezet in het schrijven van een Plan van Aanpak. De intakegesprekken met behulp van de vragenlijst zijn wel binnen alle deelnemende onderzoeksgroepen doorgenomen. Binnen het project CARDS zijn er vijf pilots in evenzovele verschillende instellingen uitgevoerd. Daarnaast zijn aan de UvA twee extra pilots uitgevoerd in het kader van het flankerende project BonusCARDS. 1.2.1
Pilot 1
De eerste pilot is uitgevoerd binnen de afdeling Water Engineering and Management (WEM)9 van de Universiteit Twente, faculteit Construerende en Technische Wetenschappen. Businesscase Beleid en kosten van databeheer vormden de kern van de probleemstelling. Er is geen expliciet beleid voor opslag van en toegang tot data die verzameld zijn door de onderzoekers zelf. Er wordt gestreefd naar centrale opslag voor de onderzoeksgroep op het netwerk maar dat blijft vaak beperkt tot opslag na afloop van het onderzoek. Tijdens het onderzoek worden vaak data opgeslagen op een externe harde schijf. Dit is echter een handelwijze die eerder als een oplossing dan een probleem door de onderzoeksgroep gezien wordt. Centrale opslag op het instellingsnetwerk is niet alleen duurder, eventuele terugplaatsing van een of enkele bestanden kost vaak veel tijd. Kortom, de centrale dienstverlening lijkt niet adequaat. Daardoor kiest men voor een flexibele en tegenwoordig niet meer zo dure oplossing: één of meer externe harde schijven bij de Mediamarkt kopen. Het verzamelen, meten en berekenen van datasets is een kostbare zaak. In een aantal geval zijn dure faciliteiten gehuurd om te kunnen meten en zijn er speciale meetinstrumenten ontwikkeld. Ook hebben de voorbereiding en de metingen veel tijd en inspanning gekost. Hiermee is waardevolle informatie verkregen die ook in de toekomst (tientallen jaren) beschikbaar moet blijven. Externe harde schijven bieden geen duurzame opslag en er is nog niet over nagedacht over hoe men de data in de toekomst kan terugvinden als er geen goede beschrijving van de datasets aanwezig is.
9
http://www.utwente.nl/ctw/wem/
16
Opgeleverde ondersteuning: a) Datamanagementplan De onderzoekers gaven aan dat het datamanagementplan een goed vertrekpunt vormde voor het nadenken over verbeteringen in het databeheer en welke concrete stappen daarvoor nodig zijn. Het zal ook zeker van pas komen wanneer er, na ingebruikneming van de tool, afspraken gemaakt moeten worden over het aanleveren, opslaan en beschrijven van datasets. b) Advies gegeven over de manier waarop de datasets duurzaam opgeslagen en beheerd kunnen worden Het in gebruik nemen van een eenvoudige tool die duurzame opslag en toegang (in ieder geval binnen de groep WEM, maar eventueel ook daarbuiten) tot de onderzoeksdata kan garanderen. Het doel van de tool is om afgeronde datasets tijdens of uiterlijk voor het einde van een onderzoek op te slaan en te delen met andere onderzoekers binnen WEM. In een later stadium zal de tool uitgebreid kunnen worden met de mogelijkheid toegang te geven tot specifieke datasets of bestanden voor derden buiten WEM en te uploaden naar 3TU-datacentrum voor duurzame opslag en toegang. Onderzoekers van WEM kunnen datasets, bestaande uit afzonderlijke of gezipte bestanden, via het web uploaden met een metadataformulier. Metadata-invoer geschiedt deels met verplichte velden en waar mogelijk met keuzelijsten. Zoeken naar databestanden is mogelijk zowel eenvoudig als uitgebreid. De tool biedt geen mogelijkheid databestanden te bekijken, er kunnen wel databestanden gedownload worden. Toegang tot alle datasets is voor iedere gebruiker met een account. c) Metadatering van datasets opgezet De onderzoeksdata bestaat uit verschillende data types, afkomstig uit verschillende subonderzoeken: waterfootprint; wave and sediment experiments and hydrology. Om deze datasets goed bij elkaar aan te laten sluiten binnen hetzelfde systeem was het noodzakelijk om generieke velden te benoemen die voor alle datasoorten van toepassing waren. De volgende velden zijn afgesproken: Metadatavelden voor elk type data Titel
Titel van de dataset
Rights
Owner information
Restrictions in use
Rechten gebruik/verspreiding data etc.
Researcher
Researcher
PROJECTNAAM
Onderzoekstitel van het project
CASE
Case in the project
Identifier
Research project code
WEM Chair
Either ‘WM’ or ‘MFS’
Research location
e.g. ‘GWK Hannover’, ‘UT’, ‘Delta Flume Deltares’
Time coverage
Year in which data was measured/calculated
Description
Description of the data
Data report
Name data report
Version
Final version yes/no
Subject
Bv onderwerpen aardwetenschappen, hydrologie (NBC?, beter een andere…)
FORMAT
binarye.g..mpg, gis, binary, ascii, ascii-zipped
VIEWER
Program in which the data can be viewed
Date
Date of data was added to the database
Daarnaast zijn er specifieke velden voor de verschillende datasets. d) Functionele eisen voor data management tool Om een datamanagementtool te kunnen implementeren die goed aansluit bij de wensen van de onderzoeksgroep, was het noodzakelijk om eerst de functionele eisen opstellen. De eisen zijn terug te vinden in bijlage 4.
17
18
e) Inventarisatie van bestaande tools Binnen de pilot is aan de hand van de functionele eisen een inventarisatie gemaakt van de bestaande tools die gebruikt kunnen worden voor de specifieke wensen van deze onderzoeksgroep. De uitkomsten is in de volgende tabel uitgewerkt. Uiteindelijk is er gekozen voor eXist. Dit vanwege de goede zoekfunctionaliteit, een criterium dat wellicht al snel belangrijk wordt voor de gebruiker wanneer het systeem eenmaal functioneert. Office Databasepakket (Access)
OpenDocMan
Alfresco
Eprints
eXist
ja
ja
ja
nvt
advanced
nee
ja, maar beperkt op numerieke waarden
ja, maar beperkt op numerieke waarden
ja, volledig
browsen
ja
ja
ja
ja, indirect
downloaden
ja
ja
ja
ja
uploaden
ja
ja
ja
ja
metadata invoeren
ja
ja
ja
ja
beheren accounts
ja
ja
ja
ja
datasets toevoegen
ja
ja
ja
ja
wijzigen metadata
ja
ja
ja
ja
ja
nee, wel met template-truc in bestaand veld
ja, toevoegen is redelijke eenvoudig, configureren lastiger, handleiding nodig
ja, eenvoudig
ja
ja
ja
ja
aanleverprocedure
ja
ja
ja
nee
gebruiksvriendelijkheid
goed
goed
goed
redelijk
niet geschikt
niet geschikt
geschikt
?
geschikt
licht
licht
zwaar
gemiddeld
gemiddeld
MS office
alleen webbrowser
alleen webbrowser
alleen webbrowser
webbrowser of java client
zeer weinig
weinig
veel
weinig
kennis bij ICT dienst
geen
beperkt
omvangrijk
beperkt
mate waarin nodig
nauwelijks
mogelijk wel
mogelijk wel
mogelijk wel
gebruiker/contributor zoeken simple
administrator
dynamisch toevoegen metadatavelden
nee
datasets verwijderen algemeen
omgaan met grote bestanden (>1GB) installatie benodigde server hardware benodigde client software benodigde uren ICT dienst ondersteuning ICT dienst
19
kosten voor WEM aanschaf hardware (euro)
600
1000
800
800
jaarlijks onderhoud
2000
2000
2000
2000
beheer Opmerkingen ongeschikt voor grote datasets
zoekfuncties echt te beperkt
zoeken alleen op tekst maar niet op numerieke intervallen
Biedt (te)veel functionaliteit, waardoor het gecompliceerd wordt
zeer flexibel, maar wat minder gebruiksvriendelijk
f) Implementatie van gekozen tool De implementatie van de gekozen tool valt buiten het project CARDS. Ten eerste omdat het project niet als doelstelling had om een tool te ontwikkelen en ten tweede omdat er geen tijd meer beschikbaar was om het uit te voeren binnen de periode van het project. De Universiteit Twente zal deze werkzaamheden verder uitvoeren en afronden. Evaluatie, knelpunten en succesfactoren Onderzoekers gaven tijdens de evaluatie aan dat ze zonder deze pilot er niet op waren gekomen om hun data op een betere manier te beheren en op te slaan. Ze ondervonden geen problemen met het beheren en opslaan van data, de aanwezige oplossing was naar hun belevenis voldoende om goed met de onderzoeksdata om te gaan. Door het opstellen van een datamanagementplan werd het duidelijk voor de onderzoekers dat de manier waarop er gewerkt werd, niet optimaal was. Samen met de ondersteuner van CARDS hebben ze een duurzame oplossing kunnen vinden voor het beheer van de data. De tool die ontwikkeld wordt, voldoet aan de wensen van deze specifieke onderzoeksgroep. De onderzoekers konden niet aangeven of ze andere wensen hebben ten aanzien van ondersteuning voor onderzoeksdata. Pas wanneer ze de tool in gebruik gaan nemen zullen ze waarschijnlijk nieuwe vragen voor de ondersteuners hebben. De ondersteuner die aan de pilot van CARDS heeft meegewerkt, geeft aan door de pilot genoeg kennis te hebben opgebouwd om ondersteuning te kunnen bieden aan onderzoekers. Deze kennis was ook voor een deel reeds aanwezig, er was al ervaring met het werken met datamanagement en het ondersteunen van onderzoekers. Er was nog niet de kennis over de databeheer tools. Deze kennis is opgebouwd tijdens het CARDS project, maar de ervaring komt met de loop van de tijd. De ondersteuner vond het verloop van de pilot goed gegaan, het traject was helder opgesteld. Door de inventarisatie vooraf was er een redelijke basis voor het maken van een datamanagementplan. Het leek, nog maar halverwege de pilot, het eindproduct te worden. Het idee van een onderzoeker om een tool voor intern databeheer (opslag, beschrijven, delen van eigen data) te implementeren, gaf een goede wending aan de pilot. De samenwerking tussen de onderzoeker en ondersteuner was in deze pilot essentieel. Het was goed dat het dit binnen het kader van dit project CARDS gerealiseerd kon worden. De onderzoekers en de ondersteuner geven als suggestie mee dat het belangrijk is dat een concrete oplossing aan het eind van een ondersteuning gerealiseerd kan worden. Inventarisaties, plannen, etc. zijn allemaal nuttig en nodig, maar het wordt pas echt een succes als er iets concreets, zoals de installatie van een databeheer tool, gerealiseerd wordt. 1.2.2
Pilot 2
De tweede pilot is uitgevoerd binnen de Center for Neurogenomics and Cognitive Research (CNCR)10 aan de Vrije Universiteit Amsterdam.
10
http://www.cncr.nl/
20
Businesscase In het kader van het Europese project Synsys (Synaptic Systems)11 worden aan de Center for Neurogenomics and Cognitive Research synaps experimenten in muizenhersenen uitgevoerd door gebruik te maken van een Mass Spectronometer. Dit meetinstrument wordt door verschillende AIO’s binnen de VU gebruikt en de gegenereerde onderzoeksdata ook daarbuiten. Iedere AIO beheert zijn/haar eigen datasets. Omdat deze datasets niet goed gedocumenteerd worden met de laboratorium en experimentele metadata, is het zelfs moeilijk voor een persoon met dezelfde kennis en expertise de beschrijving van de onderzoeksdata die door een ander is verzameld, te begrijpen. Dezelfde metingen worden vaak een paar keer uitgevoerd. Voor het verloop van de onderzoek is het zeer inefficiënt, het kost veel onderzoekstijd die op een andere manier gebruikt zou kunnen worden. Onderzoekers gebruiken soms losse usb-disks om kopieën van de data te bewerken op een andere computer omdat er geen koppeling is tussen de PC waar het meetinstrument is gekoppeld en het instellingsnetwerk. CNCR probeert deze loslopende data te verzamelen. Ze lopen tegen het probleem aan dat onderzoekers vaak data dubbel hebben opgeslagen en het dubbel aanleveren. Het opschonen van deze data kost veel tijd voor de AIO’s die het voor de onderzoeksgroep uitvoeren. Er is geen procedure opgesteld voor het goed bewaren en beheren van deze data. Bovendien bewaren de onderzoekers vaak alleen de uitslag van het experiment en niet de beschrijving (metadata) daarvan. Met Nederlandse subsidies kan men alleen de aanstelling van de onderzoeker financieren. Binnen deze subsidies is er geen ruimte voor hardware of om dataopslag te kopen. Bij Europese projectfinanciering mag men hardware aanschaffen, maar budget voor ondersteuning ontbreekt. Binnen CNCR worden AIO’s verantwoordelijk gesteld voor de (IT) ondersteuning van dataopslag en het beheren van meetinstrumenten zodat er geen extra budget voor nodig is. Continuiteit (kennis over afgesproken procedures m.b.t. opslag, metadatering, e.d.) en de duurzaamheid van ondersteuning ontbreken in deze constructie. Deze kennis kan bij de centrale IT afdeling (UC-IT) van de Vrije Universiteit worden ingehuurd, maar de (beheer)kosten zijn lastig binnen het onderzoeksproject te declareren. Opgeleverde ondersteuningen a) Opstellen van een datamanagementplan In het datamManagementplan werd gefocust op de data die uit het meetinstrument komt en niet alle onderzoeksdata die binnen de onderzoeksgroep verzameld wordt. Het datamanagementplan was nodig om het hele proces van data verzamelen, bewaren en bewerken in kaart te brengen. Aan de hand hiervan heeft de ondersteuner vanuit het CARDS project, in samenwerking met de betrokkene verantwoordelijk voor het databeheer, een procedure opgesteld. Onderzoekers gaven aan het datamanagementplan nuttig te vinden. Dankzij het datamanagementplan zijn ze gaan nadenken over vraagstukken als het reproduceren van data en autorisatie (wie kan erbij?). Voorheen dachten de onderzoekers alleen over zaken zoals: hoeveel harde schijf ruimte is nodig om de data te kunnen opslaan. Om de bredere vragen azan de orde te stellen is zeker een externe motivator nodig, iemand met kennis over zaken die onderzoekers kan begeleiden om deze stap te zetten, anders valt de onderzoeksdata tussen de wal en schip. Voor onderzoekers zijn dit sluitposten: ze zijn (te) enthousiast en willen of moeten meteen met hun onderzoek aan de slag, zodat deze zaken al gauw vergeten of over het hoofd gezien worden. b) Inventarisatie en advies geschikt systemen voor datamanagement en opslag De ondersteuner vanuit CARDS heeft advies gegeven over hoe de server van CNCR geïmplementeerd moest worden. Er werd rekening gehouden met automatische back-ups van data en het beheer daarvan. De onderzoeksgroep wil deze data niet openbaar toegankelijk stellen, ze willen het alleen binnen de onderzoeksgroep en onderzoekspartners delen. Dit feit heeft implicaties voor de toegankelijkheid van de data en het beheer van de authenticatie binnen en buiten de onderzoeksgroep. In het datamanagementplan is geconstateerd dat vanuit het meetinstrument 11
http://www.synsys.eu/
21
standaard metadata wordt verzameld. Deze metadata komt in de labjournal, maar wordt niet gekoppeld aan de bijbehorende data. Door de metadata uit het meetinstrument te koppelen aan de opgeleverde data (spectra) hoeven onderzoekers geen extra tijd te investeren voor het documenteren van de data. De metadatavelden die uit het meetinstrument afkomstig zijn, worden door de fabrikant van het instrument en door het experiment bepaald. De veldnamen komen niet overeen met de standaardvelden die voor spectroscopische data noodzakelijk zijn. Voor het lange termijn archiveren van deze datasets is het gewenst om voor de veldnamen een voor de onderzoekers logische naam te kiezen, die zoveel mogelijk overeenkomt met standaard datavelden die gebruikt worden binnen dit vakgebied. Behalve het standaardiseren van de metadata dient het koppelen van de metadata met de data via een datamanagementsysteem te gebeuren. Voor dit systeem is er een functioneel ontwerp opgesteld met behulp van het raamwerk van de Universiteit van Twente. c) Implementeren van de centrale dataopslag (server) Voor een ander analytisch meetinstrument (Columbus imaging microscope) heeft de onderzoeksgroep de beschikking over een centrale opslage van 8TB en 2 servers waarop in virtuele machines de dataverwerkings- en visualisatiesoftware draait. De ondersteuner van CARDS heeft deze server opgezet en klaar gemaakt voor gebruik. d) Implementeren van een documentmanagementsysteem Voor het implementeren van een documentmanagementsysteem is er door de Vrije Universiteit gekozen om geen specifieke tool te bouwen die alleen voor een bepaalde onderzoeksgroep geschikt is. Er is gekozen voor een stabiele en duurzame oplossing die ook voor andere onderzoeksgroepen binnen de instelling gebruikt kan worden. De onderzoekers van CNCR ondersteunendeze oplossing. Zoals ze het zelf omschrijven, is het noodzakelijk dat de VU een “Blackboard voor Data Management” implementeert, een kant-en-klaar professioneel systeem dat specifieke wensen mogelijk maakt en centraal beheerd wordt. Zo hoeven onderzoekers zelf geen tijd óf geld te investeren bij het zoeken naar een oplossing. De infrastructuur dient aanwezig te zijn bij de instelling zodat onderzoekers hun tijd kunnen investeren in hun hoofdactiviteit: het uitvoeren van onderzoek. De implementatie van een dergelijke complexe tool kon niet binnen het CARDS project uitgevoerd worden. Het CARDS project is de aanleiding geweest om deze problematiek binnen de Vrije Universiteit bespreekbaar te maken. De implementatie van dit systeem wordt meegenomen in het VUnet portaal voor medewerkers en het onderliggende documentmanagementsysteem. Het is opgenomen in het jaarplan van 2012. Evaluatie, knelpunten en succesfactoren De onderzoekers waren tevreden met de geleverde ondersteuning vanuit het CARDS project. De medewerker van CARDS heeft voldoende ondersteuning geleverd. Er is een inventarisatie en probleem analyse gemaakt. Voor de probleemanalyse heeft de expert een goed advies gegeven. De uitwerking van dit advies is complex, een simpele technische oplossing voor de wensen van de onderzoeksgroep bestaat niet. Meerdere stappen zijn reeds gezet maar met de data is er nog niks gebeurd. Het is een lang traject dat CNCR en het Universitair Centrum IT centrum samen zullen doorlopen. Zonder hulp van een expert was het niet gelukt. De expert heeft advies gegeven over welke tool de onderzoekers het beste kunnen gebruiken en hoe ze hun data op een professionele manier kunnen opslaan. Deze expertise hadden de onderzoekers niet in huis en het zou veel meer tijd gekost hebben als ze het zelf moesten uitzoeken. De ondersteuning voor datamanagement moet zeker op die schaal blijven plaatsvinden, ook na afloop van het CARDS project. Het heeft veel tijd gekost om een kleine deel van het probleem op te pakken. Deze tijd zou de onderzoeksgroep nooit zelf kunnen investeren. Ook heeft de onderzoeksgroep geen eigen budget om zoiets complex te gaan ontwikkelen. Door het centraal te regelen wordt het goedkoper en efficiënter. Zonder ondersteuning was de onderzoeksgroep voor een groot deel op dezelfde wijze van datamanagement blijven doorgaan: de onderzoeker is de enige die weet wat hij aan data heeft. Sommige onderzoekers die enige technische kennis hebben, zouden zijn overgestapt naar de
22
“excel-sheet oplossing” als oplossing voor zijn eigen probleem/onderzoek. Dit zou echter geen generieke oplossing zijn voor de hele onderzoeksgroep. Onderzoekers gaven als suggestie tijdens de evaluatie dat er behoefte is aan een kostenoverzicht voor datamanagement en dat dit ook in het datamanagementplan opgenomen dient te worden. De ondersteuner heeft aangegeven voldoende kennis te hebben voor het bewaren en delen van onderzoeksdata, hoewel hij nooit eerder met een datamanagementplan had gewerkt. De ondersteuner is werkzaam bij de IT afdeling van de universiteit en binnen zijn werkzaamheden geeft hij ondersteuning aan onderzoekers bij het kiezen en implementeren van applicaties en hardware voor dataopslag. Dit project heeft hem geïnspireerd om het opstellen van een datamanagementplan ook aan andere onderzoeksgroepen binnen de instelling aan te bieden. Hij heeft een bijdrage geleverd bij het schrijven van een datamanagementplan voor een voorstel voor een nieuw onderzoek. De ondersteuner gaf aan de pilot soms moeizaam te vinden omdat databeheer niet de kerndoel is voor onderzoekers noch voor de IT afdelingen, hoewel het belang en de voordelen gezien worden. 1.2.3
Pilot 3
Pilot 3 is uitgevoerd binnen de afdeling Politicologie en Communicatiewetenschap van de Faculteit der Maatschappij- en Gedragswetenschappen (FMG) van de Universiteit van Amsterdam. Binnen deze afdeling werken circa 14 wetenschappers die zich bezig houden met inhoudsanalyse van verkiezingsmateriaal en politiek nieuws. Bij Politicologie gaat het om wetenschappers uit de programmagroep Challenges of Democratic Representation (AISSR)12 en bij Communicatiewetenschap is de groep wetenschappers afkomstig uit de programmagroep Political Communication & Journalism (ASCoR)13. Business case De onderzoeksgroep verzamelt veel onderzoeksmateriaal uit bronnen als kranten, nieuwsberichten en televisie-interviews. Krantenknipsels en opgenomen videobanden worden door onderzoekers thuis of op kantoor bewaard. Onderzoekers weten veelal niet van elkaar welke verzameling aan onderzoeksmateriaal ze hebben. Onderzoekers zelf houden niet bij wat voor opnames of krantenknipsels ze verzameld hebben, vaak weten ze zelf ook niet meer wat ze in huis hebben. Om dit onderzoeksmateriaal beter te beheren is het noodzakelijk om een inventarisatie te maken en het op een centraal systeem op te slaan. Voor de video-opnames is het wenselijk dat de banden gedigitaliseerd worden zodat de opnames op een duurzame manier gearchiveerd worden en het materiaal beschikbaar blijft voor (her)gebruik door andere onderzoekers. Van de tekstbestanden is een groot gedeelte wel digitaal beschikbaar, maar het is erg moeilijk om ze te vinden. Er wordt samengewerkt met de FNWI faculteit om deze documenten te vinden. Het beschikbaar stellen van deze bestanden via een repository zou niet alleen heel erg nuttig zijn voor de betrokken onderzoekers maar ook voor andere onderzoekers in dit veld. Er is nu geen overzicht van de primaire materialen die collega’s letterlijk in de kast hebben liggen. Er is behoefte aan ondersteuning bij het digitaliseren van de videobestanden, en aan het structureel kunnen delen van deze opnames. De behoefte voor ondersteuning bij het delen van de secundaire bronnen is minder groot, maar als er toch een online repository komt voor de primaire bronnen, dan is het prettig als er bij het opzetten van deze repository rekening wordt gehouden met de aard van de secundaire bronnen. Opgeleverde ondersteuning a) Opstellen van een Plan van Aanpak Voor alle pilots van de UvA is in plaats van een datamManagementpPlan (DMP), een plan van aanpak opgesteld. In het plan staat beschreven hoe de onderzoeksgroep hun data willen bewaren en delen met anderen en ook hoe ze het project willen uitvoeren. Het verschil met een DMP is dat een DMP het databeheer alleen documenteert. In het plan van aanpak gebeurt dit ook, maar volgt 12 13
http://www.aissr.uva.nl/democraticrepresentation/projects.cfm/616BB252-79F3-4FA3-8A6C2F4BDA91DEF0 http://www.ascor.uva.nl/ascor_research/object.cfm/8C711FCA-71B0-498B-B9427A68957B0EAB
23
er een concrete actielijst uit. De databestanden bij inhoudsanalyse van verkiezingsmateriaal en politiek nieuws zijn te verdelen in: Primaire bronnen; het ruwe onderzoekmateriaal dat gebruikt wordt voor de onderzoeksanalyse. Codeboeken; de primaire bronnen worden geanalyseerd met behulp van coderingsschema’s uit de codeboeken. Het codeboek is een handleiding voor het maken van het schema. Na publicatie van de data zijn de codeboeken daarnaast noodzakelijk als handleiding voor het interpreteren van de data. Secundaire bronnen; de databestanden die gegenereerd worden door de primaire bronnen te coderen met behulp van de codeboeken. De primaire bronnen zijn krantenberichten, televisieopnamen van uitzendingen van Politieke Partijen en nieuwsprogramma’s, teksten van parlementaire debatten, partijprogramma’s, regeringsverklaringen, en andere beleidsdocumenten. Verder zijn er data over stemmingen over moties in het parlement. De secundaire bronnen worden aangelegd aan de hand van coderingsschema’s. Een schema beschrijft bijvoorbeeld of er stelling wordt genomen door een partij tegen een andere, of dat tegen een persoon gebeurt of niet, etc. Dit coderen is zeer arbeidsintensief. Binnen het vakgebied is het gangbaar om de codeerschema’s die ten grondslag liggen aan de data in een appendix bij een artikel op te nemen. Ook worden databases soms bij DANS gearchiveerd, zodat deze beschikbaar zijn voor replicatie of secundaire data-analyse. De onderzoekers gaven aan tevreden te zijn met het plan van aanpak. De ondersteuner heeft structuur in het databeheer gecreëerd en dat was nodig. Vanwege andere werkzaamheden dreigen dit soort zaken altijd vergeten te worden. b) Inventarisatie bestaande materiaal De ondersteuner heeft alle videomateriaal en krantenknipsels geïnventariseerd. Er werd eerst gekeken of er bij Beeld & Geluid het door de onderzoekers verzamelde videomateriaal al niet gedigitaliseerd was. Dit bleek niet het geval te zijn, het materiaal is uniek. Aangezien het budget voor het CARDS project niet toereikend was, werd gekozen om alleen het videomateriaal te digitaliseren. c) Advies over auteursrechten De onderzoeksgroep wist niet precies hoe ze konden omgaan met gedigitaliseerd materiaal van derden. Mochten ze het überhaupt digitaliseren? Mocht het openbaar toegankelijk worden gesteld? De ondersteuner heeft de auteursrechten voor de betreffende materiaal uitgezocht en de onderzoekers van advies voorzien. Uit de advies bleek dat het gedigitaliseerde materiaal niet openbaar mocht worden gemaakt, maar wel intern voor wetenschappelijk onderwijs en onderzoek gebruikt mocht worden. Het mocht ook selectief gedeeld worden met onderzoekers uit andere instellingen. d) Opstellen van metadataschema Voor het ontsluiten van het gedigitaliseerde materiaal is het noodzakelijk dat er afspraken worden gemaakt ten aanzien van de metadatavelden. De ondersteuner heeft een schema hiervoor opgesteld. Met dit schema zal een online samenwerkingsomgeving worden ingericht specifiek gericht op deze data. Door externe omstandigheden is deze omgeving nog niet opgeleverd. e) Digitaliseren en ontsluiten van videomateriaal Het digitaliseren van het videomateriaal is door een werkstudent uitgevoerd. De werkstudent heeft in het kantoor van de onderzoeker gewerkt aan het digitaliseren van het materiaal. Het materiaal is op een netwerkschijf opgeslagen met kopieën op twee sets externe schijven. Het materiaal zal in de toekomst op de UvA streaming video server worden geplaatst. Het netwerk is alleen voor de onderzoekers uit de groep toegankelijk en voldoet daarmee aan de auteursrechtenclausule. De gedigitaliseerde bestanden zijn kort beschreven in een excelbestand, in afwachting van invoer in het nog op te leveren online systeem.
24
Evaluatie, knelpunten en succesfactoren De onderzoekers geven aan dat ze prettig vonden om niet constant om input te zijn gevraagd. Dat is belangrijk, zodra je van wetenschappers te veel tijdsinvestering vraagt, krijgt het snel een lagere prioriteit. Er zijn in totaal vier overleggen met de onderzoekers geweest en dat zien ze als voldoende. De onderzoekers zijn tevreden met de kwaliteit van de gedigitaliseerde materiaal. De banden waren soms 20 jaar oud, het is geen hoge resolutie kwaliteit maar beeld en geluid zijn goed. Het advies over auteursrechten was ook zeer verhelderend voor de groep. De onderzoekers hadden al verwacht dat het materiaal niet openbaar toegankelijk kon worden getoond. Onderzoekers geven aan met uitzondering van de vragen over copyright zelf deze werkzaamheden te kunnen uitvoeren, maar ze kwamen er nooit aan toe, al had het al vaak op de agenda gestaan. De prioriteit was erg laag. Deze pilot was een goed aanleiding om dit toch op te pakken. Als het meer tijd of geld had gekost, gaven de onderzoekers aan deze werkzaamheid niet te hebben uitgevoerd. De ondersteuners zijn tevreden met de pilot. Eén van de ondersteuners heeft vorig jaar lezingen over dit onderwerp bij TICER gevolgd en kon binnen de pilot het geleerde in de praktijk brengen. De ondersteuner is van mening dat een intermediair nodig is voor het vertalen van de wensen van de onderzoekers naar IT functionaliteiten. Deze taak past prima bij de huidige kennis van de informatiespecialist en andere UB medewerkers. De uitvoering daarvan ligt bij de IT afdeling, buiten de Universiteitsbibliotheek. De ondersteuner voelt zich na de pilot zelfverzekerder om deze ondersteuning nogmaals bij onderzoekers aan te bieden. Onderzoekers hebben ook de wens om krantenartikelen digitaliseren. Dat vergt veel schijfruimte en het is wenselijk om gebruik te maken van OCR voor het doorzoeken van de fulltext van het artikel. De Nederlandse krantenbank biedt alleen archieven vanaf 1990, vóór die tijd is niet online beschikbaar. AIO’s reizen soms rond verkiezingstijd naar het buitenland om daar kranten te kopiëren. Een andere AIO die bezig is met een ander onderzoek zou ook van de knipsels gebruik kunnen maken, het zou zeker zinvol zijn om het te digitaliseren. Helaas is deze ondersteuning niet binnen CARDS gelukt. 1.2.4
Pilot 4
Pilot 4 heeft gedraaid in de onderzoeksgroep Plant Volatile Signaling Lab. Dit is een van de twee pilots uit het flankerende BonusCARDS project Dit lab is een van de twee onderzoeksrichtingen binnen de leerstoelgroep Plantenfysiologie van SILS (Swammerdam Institute for Life Sciences)14, waarin getracht wordt de signaalfunctie van vluchtige stoffen binnen en buiten een plant te achterhalen. Business case Binnen de onderzoeksgroep wordt veel experimenteel onderzoek verricht dat databestanden oplevert. Een belangrijke bron van datasets is specialistische apparatuur die bijvoorbeeld spectraalanalyses en sequenties van genomen oplevert. De twee belangrijkste machines zijn nu geheel standalone. Data staat alleen lokaal op deze machines, er is geen mogelijkheid om de data op een eigen computer te bekijken. Back-ups worden op losse externe harde schijven opgeslagen. Deze specialistische apparatuur wordt door onderzoekers gedeeld. Elke onderzoeker heeft een eigen map om zijn of haar data in te bewaren. Onderzoekers houden in een (papieren) logboek bij hoe de set tot stand is gekomen met verwijzing naar pad en naam bestand zoals het in de standalone computer bewaard wordt. Behalve op deze speciale machines is ook data te vinden op één server; op de eigen machines van onderzoekers; op losse harddisks en USB-sticks. De totale hoeveelheid data in de groep wordt op dit moment geschat op 1TB. Op computers op de werkplek staat naar schatting 100 – 150 GB aan verzamelde onderzoeksdata. Er blijkt binnen deze onderzoeksgroep weinig overlap tussen de projecten van verschillende onderzoekers te zijn. In de praktijk weten ze te weinig van elkaars onderzoek om er iets over te 14
http://www.science.uva.nl/sils/home.cfm
25
kunnen zeggen. Wel relevant wordt geacht dat de supervisor(s) van AIO’s bij de data kan en hier commentaar op kan leveren. Data openbaar stellen ligt gevoelig. Onderzoekers willen zelf bepalen wie toegang mag krijgen tot de data. Tenslotte vormt overdracht een probleem: die is vaak alleen mondeling. Omdat AIO’s vaak voortbouwen op het werk van een voorganger (ze gebruiken naar schatting 30-50% van de onderzoeksresultaten van de voorganger) is het problematisch wanneer de voorganger al vertrokken is en de data die achterblijft niet goed is gedocumenteerd. De onderzoekers wilden met ondersteuning van de Universiteitsbibliotheek een samenwerkingsomgeving te selecteren en in te richten. Deze diende te beschikken over voldoende opslagcapaciteit, en te voldoen aan de best practices van KNAW en betaalbaar te zijn. In de pilot is de volgende ondersteuning opgeleverd: a) Opstellen van een datamanagementplan en plan van aanpak De bestaande situatie is geïnventariseerd. Voor het maken van een datamManagementplan is gewerkt met de templates uit het Cards project. Dit bleek niet altijd goed aan te sluiten bij de onderzoekers. Aan de hand van het DMP is een plan van aanpak gemaakt voor de uitvoering in de volgende fase. Er is gewerkt aan drie afzonderlijke onderdelen die een bijdrage zouden leveren aan het kwalitatief verbeteren van het data beheer voor deze onderzoeksgroep: (1) het inventariseren, verzamelen en structureren van de datasets; (2) het aansluiten van de standalone computers, die gekoppeld zijn aan de specialistische apparatuur, aan het instellingsnetwerk en (3) het opzetten en inrichten van een centrale dataopslag. Alle soorten data zijn geïnventariseerd. De meeste data kunnen alleen door gespecialiseerde apparatuur worden gelezen. De volgende data zijn beschreven: Sequencing data (gensequenties) GC-MS data (gas chromatography – mass spectroscopy); 1700 bestanden per jaar; 5.3 MB / file LC-MS data (liquid chromatography – mass spectroscopy); 1200 bestanden per jaar; 17 KB / file Q-PCR data (Quantitative polymerase chain reaction); 500 MB per jaar; 2 MB per bestand Confocale microscopie data (images); 50-500 MB per bestand (tot in uitzonderlijke gevallen 0.8 GB per bestand), ca. 15 GB per jaar (ca. 100 bestanden) Office bestanden (ppt, doc, xls) Pdf bestanden Beeld bestanden (jpeg, tiff, eps, psd) Verschillende bestanden die voortkomen uit software voor moleculaire biologie (bijv. Strider, DNAstar, etc.) Het resultaat van het inventariseren van de hoeveelheid data & aantallen labcomputers is besproken met de Facultaire ICT Ondersteuningsgroep. Dit was voor hen een eyeopener, zij hadden hier geen zicht op. Deze inventarisatie bleek niet alleen nuttig voor de pilot, maar ook voor toekomstige besprekingen tussen de onderzoeksgroep en de ICT ondersteuningsgroep. De ICT ondersteuningsgroep kan deze gegevens meenemen bij het bespreken van toekomstige plannen op ICT gebied binnen de instelling. b) Aanschaffen van een Gateway voor Laboratoria Het verkrijgen van technische infrastructuur bleek een belangrijk punt voor het verbeteren van het databeheer. Een “Gateway Voor Laboratoria”, een Virtual Private Network (VPN) voor labapparatuur was noodzakelijk voor het aansluiten van de standalone apparatuur aan het netwerk. Online diensten, zowel binnen als buiten de instelling, bleken te generiek of te beperkt te zijn om een kwalitatieve slag te maken. De aanschaf van deze apparatuur was echter niet mogelijk binnen het projectbudget van CARDS. Uiteindelijk heeft de onderzoeksgroep een oplossing gevonden en heeft deze apparatuur aangeschaft. De kosten hiervan worden geneutraliseerd dankzij de inventarisatie van datasets en lapcomputers die de CARDS ondersteuner opleverde: het afsluiten van twee machines, waarvoor een netwerkaansluiting was betaald, maar die de onderzoeksgroep niet gebruikten, bespaarde ruwweg hetzelfde wat de Gateway kost.
26
c) Opstellen conventie voor opslag van data Wegens het gebrek aan een duidelijk werkwijze voor een goede dataopslag en documentatie, is het erg omslachtig voor coördinatoren om de verzamelde onderzoeksdata van AIO’s te evalueren. Bovendien is het door gebrek aan goede documentatie moeilijk om data van afgestudeerde AIO’s hergebruiken. Het opstellen van een werkwijze is noodzakelijk om effectiever met de opgeslagen data te kunnen werken. De opdracht vanuit de onderzoeksgroep voor dit punt is: “maak een handleiding en stijlboek dat in de toekomst door de hele groep kan worden gebruikt, zo simpel mogelijk – maar niet simpeler”.
d) Datasets verzamelen Tijdens de inventarisatie van datasets werd geconstateerd dat er veel loslopende data binnen de onderzoeksgroep aanwezig was. Deze data wordt op verschillende plekken opgeslagen, zoals op USB-sticks and externe harddisks. De ondersteuner heeft het opdracht gekregen om deze data op één plaats te verzamelen. Zodra de samenwerkingsomgeving gereed is, zal deze data in deze omgeving wordt opgeslagen. e) Advies geschikte omgeving voor dataopslag De onderzoeksgroep heeft aangegeven een omgeving te willen waar ze alle onderzoeksdata kan beheren en bewerken. De data kan elders opgeslagen zijn, zolang er een koppeling is tussen de data en de beschrijving daarvan (zoals door toegang via de VPN Gateway). Belangrijk is dat autorisatie goed geregeld wordt. Het moet een afgesloten omgeving zijn voor onderzoekers en studenten. Per dataset wordt aangegeven wie schrijf- en/of leesrechten hebben. Deze omgeving zal als vervanging van de papieren labjournal kunnen dienen. De eerste mogelijkheid voor een samenwerkingsomgeving was de UvA-Communities die onder meer bestandsopslag (FLUOR) en een wiki bevat. Bij nader onderzoek bleekt dat deze omgeving in zijn huidige vorm niet aan de wensen van de onderzoekers voldoet: ze ervaren het als te ingewikkeld en te traag. Andere mogelijkheid was beschikbaar bij een andere SILS groep die een samenwerkingsomgeving heeft. Een derde optie was de oplossing voor de hele faculteit die de Facultaire ICT Ondersteuningsgroep (FEIOG) onderzoekt. Echter de doorlooptijd van aanvragen voor ICT diensten (server, fileshare, etc.) duurt lang, tot maanden. Dit bemoeilijkt slagvaardig handelen. f) Inrichten dataomgeving Dit onderdeel kon binnen de pilot van CARDS niet gerealiseerd worden omdat de bestaande omgevingen niet geschikt bleken te zijn. Het implementeren van een nieuwe omgeving vergt samenwerking met andere afdelingen binnen de instelling. Dit kon niet binnen de projectperiode uitgevoerd worden en het is nog de vraag of het gerealiseerd gaat worden. Evaluatie, knelpunten en succesfactoren Onderzoekers hadden door enorme werkdruk nog geen tijd kunnen besteden aan datamanagement. De pilot van CARDS was een mooie aanleiding om het op te pakken, maar het eindresultaat valt tegen omdat het nog niet gerealiseerd kon worden. Onderzoekers en de ondersteuners gaven aan de benodigde ondersteuning vanuit de ICT afdeling van de faculteit erg mager te vinden. Onderzoekers wensen als klant benaderd worden. Onderzoekers beschouwen zich als klant omdat van binnengehaalde subsidies voorzieningen als netwerkaansluitingen worden betaald. Ze missen professionaliteit en daadkracht om een opdracht snel te realiseren. Onderzoekers wensen een normale prijs voor data opslag. De doorlooptijd van aanvragen voor ICT diensten (server, fileshare, etc.) duurt te lang, waardoor projecten niet snel gerealiseerd kunnen worden. Vanuit de instelling wordt er geen aandacht aan goede infrastructuur of aan de wensen van de onderzoekers besteed, onderzoekers voelen zich niet serieus genomen. Ook de ondersteuners wensen een betere samenwerking met facultaire ICT ondersteuning. Omdat de basisinfrastructuur ontbrak, konden er geen extra diensten door ondersteuners aangeboden worden.
27
Van de ondersteuners verwachten onderzoekers ook meer professionaliteit, ze willen ondersteund worden door mensen die bekend zijn met data in de Bètawetenschappen. Onderzoekers willen bovenal weinig tijd spenderen om hun data onder te brengen. Idealiter willen ze hier geen extra tijd aan besteden. De medewerker van het project CARDS geeft aan veel geleerd te hebben over hoe het er in de praktijk aan toe gaat in een onderzoeksgroep. De huidige praktijk is lang zo primitief niet als die van buitenaf lijkt, en het kost erg veel geld om het goed te doen. De medewerker geeft aan niet de technische achtergrond te hebben die nodig is voor een goede ondersteuning. Informatica is een vakgebied, daar kan je als UB medewerker niet bij. ICT ziet een UB medewerker toch als vreemde eend in de bijt. De bibliotheekinvalshoek is in dit project nauwelijks aan bod gekomen. Metadata is een complex vraagstuk dat, om het goed te doen, een echte specialist vereist, dat gaat boven de pet van een gemiddelde bibliotheekmedewerker/informatiespecialist. De medewerker heeft aangegeven extra scholing nodig te hebben om deze nieuwe vorm van dienstverlening kwalitatief goed te kunnen aanbieden. Suggesties voor de opleiding zijn de volgende thema’s: analyse en beschrijving van het huidige databeheer; interviewtechnieken; de verschillende vormen van data opslag - voor en nadelen (met het oog op toekomst) en ontsluiting van data (metadatasystemen). Bij het maken van de inventarisatie is geen gebruik gemaakt van documenten uit de CARDS toolkit. De onderzoeker heeft zijn collega’s ondervraagd, en heeft een lijst van gebruikte data gemaakt. Gezamenlijk zijn de gegevens van de aanwezige apparatuur geïnventariseerd. Als overzicht is een datamanagementplan een goed middel. In de templates die voor CARDS zijn gemaakt ontbrak met name informatie/vragen over specialistische labsoftware in een vergelijkend overzicht. Onderzoekers hebben aangegeven hun data niet met andere onderzoekers te willen delen, ze slaan de onderzoeksdata liever op binnen de grenzen van hun eigen onderzoeksgroep. Pas als gepubliceerd is, mag de verwerkte onderzoeksdata wordt gepubliceerd. Volgens de onderzoekers is het onmogelijk om deze onderzoeksdata in één omgeving met onderzoekers van andere instellingen op te slaan, een standaard oplossing werkt niet voor alle bètawetenschappen. Binnen de onderzoeksgroep wordt onderzoeksdata niet door alle onderzoekers gedeeld want niet alle onderzoekers werken met dezelfde data. Alleen de begeleider heeft toegang tot alle data zodat hij het kan controleren. 1.2.5
Pilot 5
Pilot 5 is uitgevoerd binnen de onderzoeksgroep Computational Geo- Ecology15, onderdeel van het Institute for Biodiversity and Ecosystem Dynamics (IBED) aan de Universiteit van Amsterdam. Dit is een van de twee pilots uit het flankerende BonusCARDS project. Deze onderzoeksgroep heeft als wetenschappelijke missie bij te dragen aan het inzicht in de processen en patronen in terrestrische geo-ecosystemen. Hierbij werkt de onderzoeksgroep veel met Geografische Informatie Systemen. De GIS-studio16 faciliteert in dit werkproces het GIS-deel. Business case De GIS-studio is een centrum dat onderzoekers en studenten helpt bij het analyseren van ruimtelijke data met behulp van Geografische Informatie Systemen (GIS). De GIS-studio zorgt voor de archivering van GIS datasets afkomstig uit onderzoek gerealiseerd binnen de Universiteit van Amsterdam, en voor het beheer van primaire GIS datasets van derden die in licentie zijn aangeschaft. Deze onderzoeksdata bestaat uit GIS bestanden - zowel vector als raster bestanden in verschillende typen (er zijn verschillende marktleiders voor remote sensing beeld verwerking, vector gebaseerde datasets, raster gebaseerde datasets etc.). Deze bestanden zijn vaak groot (tot enkele gigabytes) en verspreiding van deze datasets is veelal beperkt toegestaan vanwege copyrights. Een bijkomende eigenschap van GIS-datasets is het grote aantal bestanden en de
15 16
http://www.science.uva.nl/ibed-cge http://www.gis-studio.nl/
28
veelal dynamische aard van de bestanden. De dynamische aard van deze datasets vraagt om een goed versiebeheer. De datasets worden op externe harde schijven opgeslagen. Informatie wordt uitgewisseld door uitwisseling van de betreffende hard schijven. De internationale samenwerking in combinatie met gegevensverwerking in het veld vergt een identiteitsbeheer (identity management) die over de (UvA domein) grenzen heen reikt. De verschillende vormen van toegang en verspreiding (copyrights, wetenschappelijke concurrentie, uitgevers verplichtingen) vereisen een systeem dat toegang op basis van identiteit kan koppelen aan datasets (rolgebaseerde autorisatie). Om deze datasets beter te kunnen beheren, opslaan en beschikbaar te maken, is er behoefte aan een GIS applicatie. De wens van de onderzoekers is dat deze data ook via andere (open source) interfaces zoals Google Earth gebruikt kan worden. Het centrum heeft al eerder geprobeerd om een oplossing te vinden voor dit probleem, maar het idee was gestrand door gebrek aan tijd en geld. De onderzoekers hoopten dat met behulp van CARDS een oplossing kon worden gevonden voor dit probleem.
29
Opgeleverde ondersteuning a) Opstellen van een plan van aanpak De ondersteuners zijn samen met de onderzoekers uit GIS-studio begonnen met het schrijven van een datamanagementplan, maar zijn overgegaan naar een plan van aanpak waarin werd beschreven welke werkzaamheden ze wilden uitvoeren. Het is niet zeker of alles gerealiseerd kan worden binnen de pilot, maar gaandeweg zal het duidelijk worden wat haalbaar is. In de pilot worden drie stappen onderscheiden: 1. inventariseren van beschikbaar materiaal (wat & waar); 2. opzetten van gecentraliseerd en gecontroleerd systeem om data te kunnen verspreiden; 3. delen van de bestanden binnen projecten. b) Inventarisatie datasets Er is een inventarisatie gemaakt van alle soorten GIS onderzoeksdata die onderzoekers bewaren in externe hardschijven en Dropbox. Deze manier van opslaan van data brengt veel risico’s met zich mee. Er is bijvoorbeeld geen veilige back-up van deze data waardoor alles verloren kan gaan als een harde schijf zou vallen of het begeeft. Het is zeker noodzakelijk om deze data zo snel mogelijk op een veilige manier op te slaan. c) Advies geven over applicatie GIS-studio is op zoek naar een open source GIS applicatie die de mogelijkheid aan gebruikers biedt om data te bekijken, verwerken en delen. Het bekijken van de data als overlayer op een kaart is een functionele eis. Binnen de pilot van CARDS is er een werkstudent ingehuurd die een vergelijking heeft gemaakt tussen drie verschillende databases, te weten: GeoServer; ArcSDE en GeoNetwork OpenSource. Er is gekozen voor de implementatie van GeoServer omdat deze de enige applicatie is waar een koppeling gemaakt kan worden met Google Earth en de enige die rolgebaseerde autorisatie mogelijk maakt. De inventarisatie kunt u uitvoerig lezen in bijlage 5: Implementing a Geospatial Server. d) Implementatie van GeoServer GeoServer is geïnstalleerd en gereed gemaakt voor gebruik. Na de installatie stuitte de werkstudent op problemen bij het leggen van een goede koppeling met Google Earth. De werkstudent gaf aan niet voldoende IT kennis te hebben om dit probleem op te lossen. Een PHP programmeur zal de koppeling tussen GeoServer en Google Earth kunnen ontwikkelen. Binnen de pilot van CARDS is er geen budget beschikbaar om een programmeur in te huren. Evaluatie, knelpunten en succesfactoren De onderzoekers hebben aangegeven niet deze stappen te kunnen zetten zonder CARDS. Binnen de pilot is het probleem geïnventariseerd en goed beschreven. De onderzoeksgroep is verder gekomen bij het oplossen van de problemen die ze tegenkomen bij het beheren van GISdata. Helaas heeft de pilot niet het gewenste eindresultaat volledig kunnen opleveren. Door gebrek aan specialistische kennis is het laatste, maar niet minder belangrijke, onderdeel niet gerealiseerd. Onderzoekers hebben aangegeven het belangrijk te vinden dat er ondersteuning voor deze soort problematiek komt. Ze willen niet weten welke infrastructuur is nodig om hun wensen te kunnen realiseren, ze willen dat het gerealiseerd wordt. Ondersteuning bij GISdata gebeurt op dit moment door onderzoekers zelf. Onderzoekers geven aan deze ondersteuning niet te willen geven omdat ze geen tijd hebben om het goed te kunnen ondersteunen waardoor alleen noodoplossingen gerealiseerd worden. Er was gebrek aan goed databeheer en goede applicatie. Deze is deels gerealiseerd binnen de pilot, maar er is geen continuering voor de gerealiseerde stappen en de onderzoekers zullen weer zelf ondersteuning moeten bieden aan databeheer. Onderzoekers vinden belangrijk om aan te sluiten bij (inter)nationale initiatieven zodat ze niet zelf op zoek moet gaan naar de oplossing. Voor GISdata is het mogelijk om gezamenlijk een infrastructuur te bouwen omdat er standaard gegevens gegenereerd worden. Ze noemen het voorbeeld van de Nationale Databank van Flora en Fauna. Voor deze onderzoekers is het irrelevant waar de data staat, zolang ze er gebruik van kunnen maken.
30
1.2.6
Pilot 6
Pilot 6 werd uitgevoerd binnen het Centre for Linguistics, Faculteit der Geesteswetenschappen in de Universiteit van Leiden. Splitting and clustering grammatical information (SPLITS)17 is een onderzoeksproject gefinancierd door NWO en loopt van september 2010 t/m augustus 2014, onder leiding van prof. dr. Roberta D’Alessandro. Binnen de onderzoeksgroep werkten twee PhDs en twee postdocs van een andere instelling. Business case Dit project richt zich op een opvallende parallel tussen de twee macrogroepen van talen: ZuidItaliaanse dialecten en de zogenaamde split-ergative talen, zoals Baskisch, Georgisch, Dyirbal en Hindi/Urdu. Deze twee groepen van talen, die anders zeer weinig met elkaar gemeen hebben, vertonen verassend genoeg opvallende overeenkomsten. In beide taalgroepen worden sommige grammaticale elementen gegroepeerd, waardoor andere elementen worden uitgesloten. Dit taalkundige fenomeen wordt vanuit drie verschillende perspectieven geanalyseerd: historisch, synchronisch op microniveau en synchronisch op macroniveau. Elk onderdeel wordt door een subproject opgepakt. Het onderzoek vindt plaats door het analyseren van fragmenten van geschreven en gesproken taal. De onderzoeksgroep zal verschillende historische en hedendaagse documenten verzamelen. Deze documenten worden gedigitaliseerd. Andere onderzoeksmaterialen zijn geluidsfragmenten, transcripties en video-opnamen. De hoeveelheid onderzoeksdata is momenteel nog beperkt (500GB) en wordt op verschillende lokale computers en externe harde schijven bewaard. Het feit dat de datasets nu niet goed kunnen worden beheerd en doorzocht, wordt gezien als een groot knelpunt in het onderzoeksproces. De onderzoekers verzamelen verschillende soorten data voor verschillende doeleinden. Hierdoor stelt iedere onderzoeker andere eisen aan de data en de wijze van verwerking. De ene onderzoeker bestudeert gedrukte bronnen, terwijl andere onderzoekers gebruik maken van opnamen van gesprekken met sprekers van dialect. Dit maakt het lastiger om tot één standaard voor bijvoorbeeld metadata te komen. Onderzoekers willen graag dat de data goed bewaard wordt. Het komt vaak voor dat onderzoeksdata verloren gaat wanneer onderzoekers bij andere instellingen gaan werken of wanneer een onderzoek afgelopen is. Het is daarom belangrijk dat deze data ook na afloop van het onderzoeksproject bewaard kan blijven. De onderzoekers weten niet wat er in praktische zin nodig is om data naar een data-archief over te brengen. Er is ook geen officiële “code of conduct” die door deze onderzoeksgroep gebruikt wordt, maar er is een algemene afspraak dat alle persoonsgebonden informatie verwijderd dient te worden. Deze afspraak wordt ook aan de geïnterviewden voorgelegd omdat anders zij er anders toe neigen om niet het dialect maar de officiële taal te spreken. Onderzoekers willen ook dat ze hun onderzoeksdata gemakkelijker met andere onderzoeksgroepen en instellingen kunnen delen, zoals bijvoorbeeld het Meertens Instituut, CLARIN en het Max Planck Institute. De onderzoekers zijn huiverig om hun informatie te delen tijdens de onderzoeksfase, omdat ze wel eens mee hebben gemaakt dat er misbruik werd gemaakt. Er zijn ook problemen met auteursrechten. Bibliotheken en archieven hebben vaak relevant materiaal dat gebruikt kan worden voor dit onderzoek maar ze geven niet altijd toestemming om het te digitaliseren of te delen met anderen. Opgeleverde ondersteuning a) Datamanagementplan De fase waarin het onderzoek verkeert is van invloed op het datamanagementplan. Een deel van onderstaande vragen heeft mogelijk te maken met het feit dat de echte dataverzameling nog moet beginnen. De onderzoeksgroep die betrokken is bij de CARDS pilot in Leiden bestaat voor een deel uit jonge, relatief onervaren, onderzoekers afkomstig uit Italië. Sommigen zijn pas in Leiden 17
http://www.hum.leiden.edu/lucl/splits
31
gearriveerd bij de start van het project in september 2010. Toen wij ze spraken, moest het veldonderzoek nog plaatsvinden. Zij dachten nog na over de praktische aanpak van het verzamelen, opslaan en verwerken van hun onderzoeksgegevens. De AIO’s in de onderzoeksgroep hadden nog geen duidelijk beeld over hoe het onderzoek in praktische zin moet worden uitgevoerd: welke opnameapparatuur is beschikbaar, hoe en door wie moeten transcripties moeten worden gemaakt, in welke database, etc. Omdat er nog weinig onderzoeksdata tijdens de pilot aanwezig was, konden de ondersteuners hun advies niet baseren op bestaande voorbeelden en moesten ze zich baseren op de input van de onderzoekers. Eén van de aan de onderzoeksgroep gelieerde onderzoekers wil zijn data bewerken (en later toegankelijk maken) in een in Italië ontwikkeld softwareprogramma. Pas gaandeweg werd duidelijk welke technische eisen dit stelt aan de door hem te bewerken data. Deze eisen konden niet worden verwerkt in het datamanagementplan. Voor de pilot heeft dit verder geen consequenties gehad, omdat is besloten om de pilot primair te richten op de nieuwe data van de AIO en om het subproject van de postdoc buiten de scope van de pilot te houden. b) Inrichten van een VRE (Virtual Research Environment) De Universiteitsbibliotheek Leiden heeft op basis van het datamanagementplan een VRE ingericht (Italian Dialects Leiden) waarin onderzoekers hun data zelfstandig kunnen beheren en veilig opslaan. Bij de informatiesessie over het systeem was de hele onderzoeksgroep aanwezig. Pas toen werd echt goed inzichtelijk wat het belang is van standaardisatie en werden afspraken gemaakt over documentatie en metadata. Op basis van de interviews met de onderzoekers is wel een overzicht opgesteld van de benodigde metadatavelden en de wensen ten aanzien van toegangsrechten tijdens en na het onderzoeksproject.
Hoewel de onderzoekers wel op de hoogte zijn van het bestaan van initiatieven voor archivering van data op hun vakgebied, hebben zij zich hier nog niet eerder in verdiept. Zij hebben geen duidelijke visie over welke metadata worden gebruikt en welke beschrijvingsstandaarden van belang zijn. Er zijn wel conventies voor het maken van transcripties (afkortingen en symbolen) maar geen standaard. Tot de informatiesessie in de UB had de groep onderling nog niet gesproken over hoe de data gedocumenteerd moest worden en welke metadata gebruikt zougaan worden. c) Advies over metadatering en vaststellen procedure De ondersteuners vanuit het CARDS project hebben advies aan de onderzoekers gegeven over metadatavelden en de beste manier om de metadata te koppelen aan de onderzoeksdata binnen de VRE. De metadatavelden zijn door de ondersteuners ingericht als verplichte velden die samen met de bewaarde data in de VRE gepresenteerd worden. Bij de geluidsopnamen worden de
32
volgende velden ingevuld: opleidingsniveau geïnterviewde, leeftijd, geslacht, regio, taalkundige fenomenen. De onderzoekers weten nog niet wat er in praktische zin nodig is om data naar een data-archief over te brengen. In 2012 wordt de pilot buiten CARDS voortgezet. In samenwerking met het 3TU.datacentrum en/of DANS wordt onderzocht hoe data vanuit de VRE naar een data-archief kan worden gemigreerd. De onderzoekers zullen nauw betrokken worden bij dit ontwikkeltraject. Evaluatie door onderzoekers over opgeleverde resultaten Onderzoekers gaven aan dat ze in het begin een sceptische houding hadden ten opzichte van het verkrijgen van ondersteuning omdat ze bang waren dat de ondersteuners met klant-en-klare oplossingen zouden komen waar ze het niet mee eens zouden zijn. Dit bleek niet het geval te zijn. De ondersteuners hebben goed geluisterd naar de wensen van de onderzoekers, waren erg behulpzaam en dachten met de onderzoekers mee. De ondersteuners hebben alle wensen geprobeerd waar te maken, hoe complex ze ook waren en waren niet bang om nieuwe uitdagingen aan te gaan. De onderzoekers gaven aan erg blij te zijn met de training die ze hebben gekregen over het gebruik van de Virtual Research Environment. Ze gaven aan dat ze zonder ondersteuning dit platform niet alleen hadden kunnen opzetten. Ook de manier waarop de data werd gestructureerd was zonder ondersteuning niet mogelijk. Onderzoekers hadden de kennis niet om het databeheer op deze efficiënte manier te organiseren. Onderzoekers geven aan nog ondersteuning te willen voor het metadateren van historische teksten en deze publiekelijk doorzoekbaar te maken. Ze willen ook advies krijgen over auteursrechten van teksten die ze in Italiaanse bibliotheken hebben gevonden en publiekelijk toegankelijk willen maken. Ze geven ook aan verdere ondersteuning te willen van een linguïst die teksten kan overschrijven, classificeren en metadateren. Evaluatie door ondersteuners De ondersteuner gaf aan dat onderzoekers eenvoudig toegankelijk waren en altijd bereid tijd vrij te maken. De financiële vergoeding die de onderzoeksgroep kreeg voor de geïnvesteerde uren was daarbij zeker een stimulans. De verwachtingen van de onderzoekers moesten tijdens de pilot bijgesteld worden, ze hadden liever dat de ondersteuner ze door het hele onderzoek zou assisteren bij databeheer. De ondersteuner vindt dat zij technische kennis miste over duurzame opslag, (preferred) formats, standaarden en intellectueel eigendom. Ze geeft aan tijdens de pilot meer inzicht te hebben gekregen in de belangen en struikelblokken bij datamanagement en weet nu waar ze de juiste informatie kan vinden. Er is genoeg informatie over datamanagement beschikbaar. De ondersteuner geeft aan niet voldoende tijd te hebben om alle informatie door te nemen. De ondersteuner vond belangrijk om een concreet resultaat aan het eind te kunnen opleveren, namelijk een werkende samenwerkingsomgeving waar de onderzoekers hun data kunnen bewaren en delen. In Leiden is een Collaboration Agreement opgesteld, waarin duidelijk stond geformuleerd wat het project zou opleveren en wat de afspraken waren over planning, tijdsbesteding van beide partijen en de financiële vergoeding voor de onderzoeksgroep. Toch bleken de verwachtingen soms te hoog gespannen. De onderzoekers hadden bijvoorbeeld graag assistentie (en financiële ondersteuning) gehad bij het digitaliseren van een grote hoeveelheid gedrukte documenten. Er bestond ook even onduidelijkheid over wie de transscripties van de geluidsopnamen zou maken en wie verantwoordelijk was voor de inrichting van de database waarin dat zou gebeuren. De afbakening van de pilot had duidelijker naar de onderzoekers gecommuniceerd moeten worden. Deze wensen voor ondersteunen gelden nog steeds. De onderzoekers willen graag ondersteund worden bij het digitaliseren van documenten en bij de transcripties van geluidsopnamen.
33
1.2.7
Pilot 7
Pilot 7 is uitgevoerd bij Tilburg University (TiU) als ondersteuning bij het project World Tax Indicators (WTI) van prof. J. Ligthart, Department of Economics, Tilburg School of Economics and Management (TiSEM). Businesscase Tax Indicators (TAXI) In het onderzoeksproject World Tax Indicators worden de macro-economische gevolgen van het begrotingsbeleid in een internationale context alsook de effecten van beleidsinstrumenten gericht op het aanpakken van internationale belastingfraude geanalyseerd. Om dit onderzoek te kunnen uitvoeren gebruikt de onderzoekster belastingsdata uit verschillende bronnen. Het verzamelen van deze onderzoeksdata kost elke onderzoeker veel tijd en geld. Bovendien is het erg moeilijk om de verschillende datasets te doorzoeken en analyses te maken omdat iedere dataset op een andere manier gecodeerd wordt. Het is daarom wenselijk dat er een database komt waarin de verschillende datasets uit verschillende externe bronnen op uniforme wijze zijn beschreven en aan elkaar gekoppeld kunnen worden zodat de data toegankelijk en voor analyse beschikbaar zijn. Opgeleverde ondersteuningen a) Opstellen datamanagementplan Het datamanagementplan voor deze pilot is in overleg met de onderzoeker besproken. Kern van dit plan is dat onderzoekers ondersteuning willen bij het toegankelijk maken en dissemineren van onderzoeksdata. Er is geen verkennend interview met de onderzoekster uitgevoerd; de wensen van de onderzoekster waren al eerder bekend gemaakt. De CARDS-projectleden hebben aan de hand van de beschikbare data en documentatie een datamanagementplan opgesteld dat is uitgewerkt in een aantal concrete stappen en doelstellingen. b) Inventarisatie onderzoeksdata Een inventarisatie van de databronnen die voor de database zijn gebruikt was al bij aanvang van het project voorhanden. De onderzoeker verzamelt samen met onderzoekers van Georgia State University internationale belastingdata.18 De onderzoeker onderhoudt het contact met Georgia State University; de ondersteuning vanuit CARDS richt zich op registreren en toegankelijk maken van de databronnen die in het WTI project zijn gebruikt en het beschikbaar maken van door onderzoekers vergaarde belastingdata in SDMX-ML formaat. Om aan de wensen van de onderzoekers te kunnen voldoen is het van belang dat de dataset die op Georgia State University is ontwikkeld in SDMX beschikbaar komt. Hierbij moet rekening worden gehouden met de eigendomsrechten van de dataproducenten die in de database zijn opgenomen. SDMX staat toe om eigendomsrechten van verschillende dataproducenten vast te leggen voor onderdelen van een dataset. Om onderzoekers blijvend met SDMX te kunnen ondersteunen is verder aansluiting bij het netwerk van ‘SDMX-leveranciers’ gewenst. De volgende SDMXproducenten zijn daarbij in het bijzonder van belang: OECD.Stat, IMF.Stat en ECB. c) Installeren van een SDMX-registry en repository Voor het harmoniseren van verschillende datasets is gekozen om gebruik te maken van SDMX (Statistical Data en Metadata eXchange). SDMX is ontwikkeld om de uitwisseling en het delen van statistische gegevens en metadata tussen organisaties te ondersteunen.19 Voor dit project is een SDMX-registry en -repository opgezet. Het doel was om de registry te vullen met metadata. Een voorbeeld zijn de codelijsten die in internationaal verband worden gebruikt voor belastingonderzoek. De repository wordt gebruikt om belastingindicatoren van onderzoekers op te slaan en te dissemineren. De SDMX-registry kan worden bekeken op de WTI-site20. Bij de eindpresentatie zall ook de inhoud van de SDMX-repository worden getoond.
18 19 20
http://aysps.gsu.edu/isp/wti.html Zie: SDMX aan de basis van een wereldwijde data-infrastructuur. Informatie Professional, Juni 2011. http://wti.uvt.nl/
34
d) Testen van de SDMX-registry en de REST-webservices SDMX is opgezet voor uitwisseling van statistische gegevens via het Web. Hierbij wordt gebruik gemaakt van XML-technologie en Webservices (SOAP, REST). Door toepassing van REST kan de SDMX-registry metadata en data identificeren en ophalen bij SDMX-producenten, zoals ECB, OESO en IMF. Dit is van belang omdat hiermee een koppeling mogelijk is tussen de lokale onderzoeksinfrastuctiuur en de bestaande internationale data-infrastructuur voor systematische en gestructureerde uitwisseling van statistische gegevens. e) SDMX verbinden met Dataverse Network Dataverse Network (DVN) is voor Tilburg University de omgeving waarin datasets centraal worden geregistreerd. DVN is ook de omgeving waarin datasets worden gekoppeld aan publicaties. DVN biedt mogelijkheden om data online op te vragen en te analyseren. Voor dit project is het van belang dat DVN op termijn ook REST-webservices ondersteunt. Dit laatste valt buiten de scope van het project maar kan een aandachtspunt worden bij het inrichten van een nationale DVNomgeving. Evaluatie De onderzoeker heeft door gebrek aan tijd geen input geleverd voor de evaluatie van de pilot. Het is bekend dat de onderzoekster tevreden is met de gekozen opzet en adviezen over de inrichting van de data-infrastructuur. Het eindresultaat is pas gereed als ook de SDMX-repository operationeel is, dwz als de data in de database is ingevoerd. Het project is een definitef succes als het project ook na de einddatum levensvatbaar is en overeenkomsten met internationale SDMXproviders worden gesloten. Tilburg University is de enige universiteit in Nederland met een Research Data Specialist (RDS). Deze specialist voor onderzoeksdata is vier jaar werkzaam binnen deze universiteit en heeft genoeg kennis en expertise in huis om onderzoekers te kunnen ondersteunen. Voor structurele ondersteuning van discipline-specifieke wensen ontbreekt echter budget en personeelscapaciteit binnen Library and IT Services (LIS). Bij onderzoeksprojecten wordt vooralsnog ook geen budget gereserveerd voor ondersteuning van wensen voor databeheer en het inrichten van een optimale data-infrastructuur. De pilot binnen CARDS bood voor dit onderzoek een startpunt. Doordat lange tijd onduidelijk was of en hoe TiU zou deelnemen, zijn ze pas laat begonnen met de pilot. Toch is er een sterk vertrouwen dat de aanpak een goede basis legt voor een blijvende ondersteuning van deze onderzoeksgroep en andere onderzoekers die met tijdreeks gegevens werken. Voorwaarde is wel dat de projectleden tijd mogen blijven besteden om deze basis verder uit te bouwen. Hiervoor is commitment nodig van de leiding van LIS. De samenwerking met de onderzoekers kan op adhoc basis worden voortgezet of door participatie in een onderzoeksaanvraag van deze groep.
1.3
Deelresultaat 3: Digitaal informatiepakket
Tijdsplanning: half maart 2011 t/m half november 2011 Doel van dit resultaat was het ontwikkelen van een digitaal informatiepakket voor onderzoekers en voor instellingen. Er zijn verschillende redenen om een informatiepakket voor onderzoekers en instellingen te ontwikkelen. De belangrijkste reden is het vastleggen van de ervaringen en resultaten uit de zeven pilots zodat andere onderzoekers in andere instellingen daar hun voordeel mee kunnen doen. Daarnaast zijn er allerlei informatiebronnen die zeer waarschijnlijk nuttig zijn maar die niet voldoende bekend zijn bij onderzoekers. Op basis van de ervaringen wordt een sjabloon of raamwerk voor het maken van een datamanagementplan opgesteld als aanvullend onderdeel van het informatiepakket. Onderdeel
Activiteit
Inventarisatie
Een formaat voor het digitale informatiepakket kiezen en inrichten
Informatiepakket invullen
Invoeren van content in het informatiepakket
35
Inventarisatie Het digitale informatiepakket is opgezet als onderdeel van de website van DANS. Door de inbedding van de informatie op de DANS website wordt de continuïteit en de actualiteit van het informatiepakket gewaarborgd. Informatiepakket invullen Een groot deel van de inhoud die nodig is voor het informatiepakket is onder Deelresultaat 1 geïnventariseerd. In deelresultaat 3 is deze informatie herzien en klaargemaakt voor een webpresentatie. DANS was verantwoordelijk voor het vormgeven aan dit informatiepakket. De structuur voor het informatiepakket werd door de hele projectgroep aangedragen. DANS heeft de informatie verzameld, herschreven en op de website ingevoerd. De meeste onderzoekers hebben het informatiepakket bekeken en suggesties aangedragen. Omdat het alleen Nederlandstalig wordt aanboden, konden niet alle onderzoekers het evalueren. DANS heeft het informatiepakket inmiddels vertaald. Het informatiepakket is beschikbaar via de link: http://www.dans.knaw.nl/content/categorieen/diensten/data-management-plan. Behalve het informatiepakket, zullen betrokken instellingen informatie over datamanagement op hun eigen websites aanbieden en een verwijzing maken naar de website van DANS.
1.4
Deelresultaat 4: Kennisdisseminatie
Tijdsplanning: 1 februari t/m 1 december 2011 Doel van dit resultaat was om bekendheid geven aan de resultaten en ervaringen van het project aan onderzoekers en instellingen. Onderdeel
Activiteit
Presentaties
Voorbereiden en geven van presentaties over het project
Presentaties De projectgroep had gepland zes presentaties over het project te geven. Deze activiteit kon pas vlak bij het eind van het project uitgevoerd worden omdat daarvoor er nog geen concrete resultaten waren die gepresenteerd konden worden. Uiteindelijk zijn er in 2011 inderdaad zes presentaties gegeven, waarvan vier in het buitenland. Verder zijn diverse projectdeelnemers van plan CARDS op twee internationale evenementen te presenteren. Naast deze grote presentaties zijn er gedurende het project verschillende interne presentaties binnen de betrokkene instellingen over het project CARDS geweest. Deze presentaties hadden als doel de organisatie op de hoogte stellen van het project en ze mee te laten denken over de toekomst van datamanagement in de organisatie. Het project CARDS is gepresenteerd in de volgende bijeenkomsten: Congres Open Repositories 2011 (Austin, Texas 6-11 Juni). Poster presentatie door Driek Heesakkers (pilot UvA): A progress report on FLUOR and CARDS: Getting researchers to improve handling of research data, combining an organizational with a technological approach. Zie voor meer informatie de website van het congres: https://conferences.tdl.org/or/OR2011 MRC Workshop - Open Data Foundation (Londen, 11 Augustus), door Rob Grim specifiek voor de pilot van de Universiteit van Tilburg, zie: http://www.odaf.org/blog/?p=62 Knowledge Exchange Workshop Research Data Management– Activities and Challenges (Bonn, 14-15 November). Presentatie en posterpresentatie, door Ana van Meegen (VU). Voor meer informatie en de powerpoint presentatie, zie: http://www.knowledgeexchange.info/Default.aspx?ID=477 International Digital Curation Conference, Bristol, 5-7 december, gepresenteerd door Rob Grim over de uitkomsten van de pilot van de Universiteit van Tilburg, zie: http://www.dcc.ac.uk/events/internationaldigital-curation-conference-idcc PhD day 2011, 12 december, Vrije Universiteit, door Ana van Meegen: Workshop Data Management Plan
36
Conferentie over Onderzoeksdata, Universiteit van Amsterdam, 15 december, gepresenteerd door onder anderen: Driek Heesakkers en Janneke Staaks.
In de volgende conferenties willen de projectleden in 2012 aandacht besteden aan het project CARDS of onderdelen daarvan: IASSIST Annual Conference, 4-8 Juni 2012, Washington, USA. Presentatie over WTI en SDMX, door Rob Grim (onderdeel pilot Universiteit van Tilburg) Liber Conference, 27-30 Juni 2012, Tartu, Estonia. http://www.utlib.ee/liber2012/index.php (posterpresentatie CARDS project door Ana van Meegen) Behalve de presentaties, is het 3TU Datacentrum op dit moment bezig met het opzetten van een cursus Data Intelligence 4 Librarians. Binnen deze cursus zal het raamwerk datamanagementplan van CARDS als voorbeeld gebruikt worden. De slotbijeenkomst van het CARDS project wordt op 24 januari 2012 bij SURFfoundation gerealiseerd. Alle belangstellenden zijn welkom.
37
2
Het flankerende BonusCARDS project
In de oorspronkelijke opzet van CARDS was slechts sprake van vijf pilots, bij elke deelnemende instelling één. Bij de UvA bleek de belangstelling bij onderzoekers onverwacht groot, en de keus tussen meerdere onderzoeksgroepen, die divers genoeg waren om elk een waardevolle bijdrage aan CARDS te kunnen leveren was moeilijk, mede door de enthousiaste reacties van de onderzoeksgroepen. Om te zorgen dat niet slechts één pilot uitgevoerd kon worden, is door SURFfoundation en de UvA een flankerend project opgezet met de naam ‘BonusCARDS’, waarin de twee UvA-pilots aan de bètafaculteit (pilot 4 en 5) zijn ondergebracht. Hoewel een apart project, is het sterk met CARDS geïntegreerd. De projectopzet van BonusCARDS is zoveel mogelijk gelijk gehouden aan CARDS. Het budget per pilot was identiek aan dat van een CARDS pilot, de pilots maakten gebruik van de in de eerste fase van CARDS verzamelde informatie en zijn op dezelfde wijze geëvalueerd. Om goede contacten tussen de twee projecten te borgen was Driek Heesakkers projectleider van BonusCARDS, die ook coördinator was van de UvA pilot in CARDS. Aangezien de financiering van BonusCARDS uit het SURFshare werkpakket ‘Kwaliteit, Disseminatie en Impact (WP3)’ kwam, stelde SURFfoundation een extra voorwaarde aan het flankerende project, namelijk dat bij deze pilots extra aandacht zou worden besteed aan het delen van onderzoeksdata tussen onderzoekers, zowel binnen de onderzoeksgroep als in het vakgebied. Specifiek ging het daarbij om drie punten: Open Access, citeerbaarheid en het toevoegen van commentaren. De praktijk bleek weerbarstig, zoals valt te lezen is in het verslag van Deelproduct 2.
‘Open’ speelt niet voor wetenschappers zolang de toegang (en de financiën hiervoor) geregeld zijn; “het maakt mij niet uit waar het staat”. Het werd duidelijk dat de drie punten zeer sterk gerelateerd zijn aan het vakgebied en de (geïnstitutionaliseerde) werkwijzen/praktijken in het vakgebied. Het nadenken over de drie gedefinieerde punten (OA, citeerbaarheid, commentaren toevoegen) speelt pas zodra andere – basale – zaken op orde zijn zoals de opslag en infrastructuur. Aangezien de data infrastructuur en bijbehorende ondersteuning niet (enkel) belegd kunnen worden bij de bibliotheken, kan voor SURF een rol weggelegd zijn in het bewustwordingsproces bij CIOs voor het belang van goeder ondersteuning op het gebied van datamanagement.
39
3
Risicomanagement
De volgende risico’s hebben zich voorgedaan en zijn deels opgelost. Niet alle risico’s waren in de risico-analyse opgenomen.
beschikbaarheid projectleden: UvT dreigde niet mee te doen aan het project vanwege een vacaturestop. De projectmanager van SURF heeft ingegrepen en verwezen naar de getekende intentieverklaring. De vertraging werd snel ingehaald en heeft geen consequenties gehad voor de uitvoering van de pilot. projectresultaten niet op tijd kunnen leveren: ook al werden er goede afspraken gemaakt, niet alle presentaties en slotbijeenkomst zijn binnen de projectperiode geleverd. Externe factoren hebben hier een rol gespeeld. Deze externe factoren waren niet benoemd in de risico management analyse. Uiteindelijk heeft de projectgroep gekozen om deze activiteiten buiten de projectperiode uit te voeren omdat er dan een betere uitkomst en betere presentaties gegeven kunnen worden omdat de uitkomsten van het project bekend zijn. niet alle wensen van de onderzoekers konden binnen de pilot gerealiseerd worden. De wensen die binnen de pilots niet gerealiseerd konden worden, zijn in deze rapportage beschreven, volgens het actieplan in de risico analyse. De betrokken instellingen (UvA, VU, UT en UvT) zijn verantwoordelijk voor het oppakken van deze activiteiten. de samenwerking en daadkracht van andere afdelingen binnen de organisaties liet te wensen over. Omdat deze afdelingen niet betrokken waren bij het project, was het niet mogelijk om ze aan te spreken over de gewenste resultaten. De projectleden van de instellingen waar dit zich voordeed (UvA en VU) hebben aangegeven contact te blijven onderhouden met de uitvoerders en de onderzoekers totdat het eindresultaat geleverd wordt. De projectleden kunnen het niet zelf uitvoeren en kunnen deze werkzaamheden ook niet aan anderen uitbesteden dan de afdelingen die daar nu voor verantwoordelijk zijn. verwachtingen van de onderzoekers waren erg hoog. Dit speelde in het bijzonder bij de pilot bij Universiteit Leiden. Ze wensten voor de hele onderzoeksperiode kosteloos ondersteuning te krijgen. De ondersteuner heeft aan de onderzoekers gerapporteerd dat dit niet mogelijk was, ook niet buiten het CARDS project.
41
4
Bevindingen
Aan de hand van zeven pilots kon het project CARDS inzicht krijgen in de wensen en knelpunten ten aanzien van het opslaan en beheren van onderzoeksdata binnen vijf onderzoeksinstellingen. Binnen deze pilots werd er getracht om ondersteuning voor databeheer binnen deze instellingen verder vorm te geven. De belangrijkste bevindingen worden hier opgesomd en voorzien van aanbevelingen.
4.1
Beheer van data is ondergeschoven kind
Tijdens de voorbereiding van een nieuw onderzoek en het schrijven van een projectplan staan onderzoekers niet stil bij de vraag hoe ze de geproduceerde data gaan beheren. In de uitvoeringsfase lopen onderzoekers tegen vragen aan als: waar zet ik mijn data neer en hoe kan ik mijn data delen? Niet-doordachte oplossingen kunnen leiden tot inefficiënt of zelfs dubbel werk van onderzoekers, en in het ergste geval zelfs tot het verloren gaan van jaren werk, bijvoorbeeld wanneer de externe harde schijf het begeeft of privacygevoelige informatie op straat komt te liggen... Bij de onderzoeksgroepen die deelnamen aan de pilots van het project CARDS is bewustwording gecreëerd. Samen met de projectmedewerkers hebben onderzoekers een inventarisatie van hun data gemaakt en nagegaan wat er nodig was om de data veilig te delen en te beheren. De uitkomsten zijn positief, de meeste onderzoekers vonden het een nuttige exercitie en weten nu wat nodig is om data veilig te beheren. Het is nog de vraag of deze bewustwording kan worden vastgehouden. CARDS biedt geen duurzame oplossing, ook niet voor de betrokken onderzoeksgroepen. Onderzoekers worden niet geprikkeld om een goed datamanagementplan op te zetten of ervoor te zorgen dat hun data goed beheerd worden. Een gevoel van noodzaak ontbreekt. Het maken en verspreiden van richtlijnen binnen onderzoeksinstellingen is niet voldoende om het gevoel van urgentie helder te maken bij onderzoekers. Aanbeveling voor subsidieverstrekkers: eis in de voorwaarden dat onderzoekers een datamanagementplan opstellen aan het begin van een onderzoek om te voorkomen dat onderzoeksdata verloren gaat. Aanbevelingen voor onderzoeksinstellingen: zorg voor beleid ten aanzien van databeveiliging en datamanagement. Zorg ervoor dat dit beleid wordt uitgedragen op alle niveaus, van CvB tot onderzoekcoördinatoren. creëer bewustwording bij onderzoekers door structurele voorlichting21 en data-audits uit te voeren. zorg voor een goede ondersteuning bij databeheer. Richt een Datamanagement Informatiepunt in. zorg voor een goede infrastructuur waar onderzoekers hun data tijdens het onderzoek veilig kunnen opslaan, delen en bewerken. zorg voor een infrastructuur waar makkelijk mee te werken is, zodat onderzoekers niet snel afhaken. Zorg voor de toegevoegde waarde, bied wat extra’s aan (visualisatie, koppeling met andere onderzoeksdata). Daarmee gaan onderzoekers inzien dat structureren van data belangrijk is en gaan ze daar meer waarde aan hechten.
21
Er zijn tutorials beschikbaar die gebruikt kunnen worden, zoals MANTRA http://datalib.edina.ac.uk/mantra/
43
4.2
Data beheren is meer dan data veilig opslaan
Onderzoekers storten zich vol motivatie en enthousiasme aan een nieuw onderzoek. Er wordt data verzameld en (veilig) opgeslagen. Midden in het onderzoeksproces vraagt de onderzoeker zich af: hoe kan ik mijn data terugvinden? Er is van alles verzameld, maar hoe weet ik waar de data staat? Hoe vind ik de data die mijn voorganger heeft achtergelaten en hoe kan ik het interpreteren? Om data te kunnen delen met collega's worden meestal afspraken gemaakt over de manier van coderen. Er zijn gevallen waar het besef van de noodzaak van een goede gestructureerde codering zich pas in een laat stadium binnen het onderzoeksproces voordoet. Onderzoekers werken dan met terugwerkende kracht aan het structureren van data, wat ineffectief en soms onbetrouwbaar is. Vaak wordt er niet nagegaan hoe vakgenoten hun onderzoeksdata hebben gecodeerd. Men begint van voor af aan. Alle tijd die geïnvesteerd wordt om het wiel opnieuw uit te vinden, had aan het onderzoek zelf besteed kunnen worden. Door zelfbedachte coderingen te gebruiken, wordt het moeilijker om data met andere onderzoekers uit te wisselen. Voor het goed kunnen hergebruiken van de data, is het ook nodig om te weten waar de data te vinden is en hoe de dataset is gemaakt: door wie, waar en wanneer. Er is een grote behoefte aan, in de woorden van één van de onderzoekers, "een Blackboard voor Data Management”: een kanten-klare applicatie voor het beheer van gegevens over de verzamelde data22. De vergelijking met Blackboard wordt gemaakt om een systeem aan te duiden dat generiek is: beschikbaar voor alle medewerkers en relatief eenvoudig in gebruik. De kosten van dit systeem worden centraal gedragen zodat beheer en gebruik niet afhankelijk zijn van externe financiering. Aanbevelingen voor onderzoekers en/of ondersteuners: ga na of er andere onderzoeksgroepen zijn die soortgelijke data verzamelen en bestudeer de manier waarop ze hun data hebben gecodeerd. Onderzoek ook of er in het vakgebied standaarden voor data worden gehanteerd door tijdschriften. neem in het datamanagementplan op hoe de onderzoeksdata gecodeerd gaat worden en bewaar deze beschrijving samen met de verzamelde data zodat anderen de data ook kunnen interpreteren. gebruik een datamanagementsysteem om datasets te beheren. gebruik standaarden zodat de data gedeeld kan worden. Zorg binnen de onderzoeksgroep voor heldere afspraken en leg deze vast in een handleiding. Breng dit onder de aandacht bij het aantreden van nieuwe onderzoekers. kies waar mogelijk voor een standaard die aansluit bij gebruikelijke standaarden in het vakgebied (kijk daarvoor naar andere onderzoeksgroepen en tijdschriften). Aanbevelingen voor onderzoeksinstellingen: zorg ervoor dat een expert binnen de instelling aanwezig is zodat onderzoekers snel en efficiënt geholpen kunnen worden zonder zelf op zoek te gaan naar oplossingen voor het structureren van onderzoeksdata. zorg ervoor dat ondersteuning voor het structureren van onderzoeksdata actief wordt aangeboden aan onderzoekers. sluit de infrastructuur aan bij deze standaarden zodat een vaste structuur ontstaat die de kwaliteit van de bewaarde data garandeert. zorg ervoor dat er een datamanagementsysteem in uw instelling centraal aanwezig is.
4.3
Goede voorziening ‘moet er gewoon zijn’
Bij alle pilots van CARDS is geconstateerd dat een gebrek is aan goede infrastructuur voor het bewaren, beheren en/of delen van onderzoeksdata die aan de specifieke wensen van onderzoekers kan voldoen. Er is binnen universiteiten geen structurele oplossing voor dataopslag en datamanagement. Onderzoekers ervaren dat hun instellingen dit echter niet of maar deels 22
Dit systeem staat in verbinding met of is een onderdeel van de data repository.
44
oppakken. Onderzoekers vinden dat een goede infrastructuur aanwezig moet zijn zodat ze hun werk goed kunnen uitvoeren. Centrale ICT afdelingen zien dit als extra diensten die niet zijn inbegrepen bij de vaste kosten voor werkplekken, en vragen er bedragen voor die in de ogen van onderzoekers exorbitant zijn. Onderzoekers ervaren deze diensten bovendien vaak als weinig klantgericht. Onderzoekers voelen zich daarom genoodzaakt om zelf op zoek te gaan naar een oplossing en moeten hier met tegenzin kostbare onderzoekstijd aan besteden. Het zoeken naar oplossingen voor hardware, software en (federatieve) toegang zien ze niet als onderdeel van hun functie als onderzoeker. Infrastructuur is een middel die onderzoeksinstellingen moeten aanbieden zodat onderzoekers excellent kunnen functioneren. Omdat deze voorziening ontbreekt, worden individuele onderzoekers, meestal AIO’s binnen onderzoeksgroepen, verantwoordelijk gesteld voor het oplossen van dit vraagstuk. AIO’s besteden veel van hun onderzoekstijd aan uitvoerende werkzaamheden voor de hele onderzoeksgroep waardoor hun promotie in de knel komt. Er is ook geen sprake van continuïteit. Wanneer de onderzoeker weggaat, weet er niemand meer hoe het systeem aangepast kan worden. AIO’s zijn bovendien vaak geen ICT-experts. Deze werkzaamheden kosten hen meer tijd dan wanneer het aan een expert uitbesteed wordt. Vaak kijken onderzoekers naar voorbeelden van andere onderzoekers om tot een oplossing te komen voor hun datamanagement problemen. Omdat andere onderzoekers ook geen experts zijn op dit gebied, worden er “slechte voorbeelden en gedrag” overgenomen, zoals het onveilig opslaan van data en het vergeten van back-up oplossingen. Uitgaven voor hardware, software en de ondersteuning daarvan worden door nationale subsidiegevers niet binnen de onderzoeksfinanciering meegenomen. Binnen Europese projecten is wel financiering voorhanden om hardware aan te schaffen, maar weer niet voor het opzetten daarvan. Onderzoekers voelen zich gedwongen om zelf kennis van hardware en software op te doen omdat ze de expertise niet kunnen inhuren vanuit het projectbudget. Door de verantwoordelijkheid bij individuen (onderzoekers) neer te leggen, komt de continuïteit van het onderzoek en het bewaren van onderzoeksresultaten in het gedrang. Projecten hebben een korte tijdsspanne en onderzoeksresultaten verdwijnen of kunnen niet meer geïnterpreteerd worden wanneer een onderzoeker vertrekt. Bovendien hebben onderzoekers andere belangen dan instellingen. Onderzoekers geven aan liever hun subsidiegeld te besteden aan onderzoekscapaciteit dan aan een goede dataopslag. Aanbeveling voor onderzoeksinstellingen: zorg ervoor dat onderzoekers hun werk goed kunnen uitoefenen door een goede infrastructuur neer te zetten die geschikt zijn om te werken met onderzoeksdata, maar ook om die te bewaren. Aanbeveling voor subsidieverstrekkers: zorg ervoor dat er voorwaardelijke en geoormerkte financiering is voor het ondersteunen van databeheer en dataopslag. eis dat onderzoeksresultaten afdoende bewaard worden volgens gangbare richtlijnen van KNAW, etc.
4.4
Specifieke infrastructuur niet per se in huis
Binnen onderzoeksgebieden waar data makkelijker gedeeld kan worden 23 en/of waar een ingewikkelde infrastructuur nodig is om deze data goed te kunnen aanbieden, is het verstandiger om een nationaal/internationaal centrum aan te wijzen dat verantwoordelijk wordt voor het centraal aanbieden van deze infrastructuur. Er zijn voorbeelden24 van nationale initiatieven voor
23
Data de makkelijker gedeeld kan worden zijn, bijvoorbeeld: statistieke data; biologische data; GIS data. Zie bijvoorbeeld: het Parelsnoer Initiatief (http://www.parelsnoer.org/), de Nationale Databank Flora en Fauna (https://ndff-ecogrid.nl/) en het e-depot voor de Nederlandse Archeologie – EDNA (http://www.edna.nl) 24
45
dataopslag waar bewezen is dat samenwerking de efficiëntere manier is om specifieke en complexe databestanden goed te kunnen bewaren en ontsluiten. Deze initiatieven zijn moeilijk te starten omdat er vaak onduidelijk is wie de exploitatiekosten gaat betalen. Onderzoeksinstellingen achten onderzoeksgroepen verantwoordelijk voor initiatieven die buiten de grenzen van de instelling gebeuren. Dit is niet wenselijk omdat onderzoekers de middelen niet hebben om de infrastructuur op de lange termijn mee te financieren. Aanbevelingen voor onderzoeksinstellingen: wees verantwoordelijk voor de infrastructuur die alle onderzoekers verbonden aan uw instelling nodig hebben om hun werk goed te kunnen uitvoeren. sta daarbij open voor de mogelijkheid dat de beste infrastructuur buiten de eigen instelling kan vallen. maak gebruik van uitbesteding om kosteneffectief te werken.
4.5
Het maakt niet uit waar de data staat, als onderzoekers er maar zeggenschap over hebben
Onderzoekers willen zelf bepalen met wie ze de data tijdens het onderzoek willen delen en het liefst delen ze de data alleen binnen hun eigen onderzoeksgroep. Zolang er goede back-up en beveiliging aanwezig is, vinden ze het niet relevant om te weten waar de onderzoeksdata wordt opgeslagen. Onderzoekers willen zelf kunnen aangeven of de onderzoeksdata openbaar toegankelijk mag worden gesteld. Ze willen zeggenschap over hun onderzoeksdata hebben, ook na het afronden van het onderzoek. De meeste onderzoekers gaven aan niet uit eigen initiatief data openbaar toegankelijk te publiceren. Onderzoekers weten vaak niet wie beschikt over de auteursrechten van de verzamelde data. Ze weten vaak niet of ze bepaalde data openbaar kunnen maken vanwege auteursrechten of persoonsgebonden gegevens. Aanbevelingen voor onderzoeksinstellingen en subsidieverstrekkers: vraag bij het archiveren van onderzoeksdata toestemming aan onderzoekers voor het publiceren van hun onderzoeksdata. Laat daarbij ruimte voor voorwaarden, maar vermijd een onbeperkte embargoperiode. zorg voor een goede ondersteuning bij vragen van onderzoekers over auteursrechten en bescherming persoonsgegevens.
4.6
Ondersteuning geven aan e-Science is een nieuw vak
Het project CARDS had als doelstelling ondersteuning bieden aan onderzoekers bij het veilig opslaan en beheren van hun onderzoeksdata. De onderzoekers stonden centraal, zij konden aangeven hoe ze hun data wilden inrichten en opslaan. De ondersteuners (voornamelijk vanuit Universiteitsbibliotheken) gingen met de wensen aan de slag. Voor de meeste ondersteuners was databeheer een nieuw terrein; een tweede doelstelling van het project was dan een leertraject te bieden voor deze medewerkers, in de vorm van hands-on learning. Ondersteuners hebben aangegeven dat ze veel geleerd hebben uit het project CARDS. Het beheren van data heeft veel gemeen met het beheren van (digitale) collecties, een terrein waar universiteitsbibliotheken veel expertise in huis hebben. Desalniettemin waren er verschillende punten waar ondersteuners niet voldoende capaciteit hadden om zelfstandig ondersteuning aan onderzoekers te kunnen geven. Ten eerste waren er vakspecifieke vraagstukken die speciale kennis over een bepaald onderzoek vereiste, zoals kennis over bepaalde (meet)apparatuur of gegenereerde onderzoeksdata. Ten tweede konden ondersteuners geen infrastructuur implementeren omdat ze niet voldoende IT-kennis hadden. De meeste ondersteuners hebben aangegeven deze ICT-kennis niet te kunnen bijspijkeren. Het is een ander vak, dat men zich niet op korte termijn door middel van zelfstudie eigen kan maken. In deze gevallen is (betere) samenwerking tussen verschillende diensten gewenst. Ten derde gaven een aantal ondersteuners
46
aan dat ‘soft skills’ erg belangrijk waren bij het opzetten van een goede werkrelatie. Zij ervoeren het opzetten van een samenwerking als pionierswerk dat andere communicatieve vaardigheden aansprak dan zij gewend waren te gebruiken bij ondersteuning van informatievragen. Ondersteuning geven aan databeheer en dataopslag is een nieuwe taak binnen het ondersteuningsdomein van universiteiten. Ondersteunend personeel is gemotiveerd en wil graag onderzoekers helpen, maar heeft niet voldoende capaciteit om het goed uit te voeren. Aanbevelingen voor onderzoeksinstellingen: zorg voor goede scholing van medewerkers zodat ze genoeg capaciteit hebben om onderzoekers te kunnen ondersteunen. zorg voor voldoende ICT experts die ondersteuners kunnen bijstaan of zorg ervoor dat ondersteuners zelf genoeg ICT kennis hebben. zorg voor vakspecifieke ondersteuners: medewerkers die kennis hebben van bepaalde onderzoeksgebieden en in de buurt van de onderzoekers werken zodat ondersteuning zo laagdrempel mogelijk gebeurt. zorg in de organisatie voor een verbeterslag en professionalisering op het gebied van datamanagement zodat databeheer op een meer effectieve en efficiënte manier plaatsvindt. zorg dat ondersteuners voldoende tijd krijgen om dit nieuwe vak te leren. zorg dat deze werkzaamheden in het takkenpakket van de ondersteuners worden opgenomen.
47
5
Lessons learned
Het project verliep soepel dankzij de motivatie en zelfstandigheid van de projectleden. Een belangrijk kenmerk van CARDS was dat de meeste middelen die in het project ingezet werden (geld, tijd, menskracht) rechtstreeks ten goede kwamen aan de onderzoekers zelf en niet aan de ontwikkeling van techniek en tools. Deze spelregel zorgde ervoor dat sommige gewenste resultaten niet gerealiseerd konden worden. Voor het verrichten van e-science zijn techniek en tools onmisbaar. Dat betekent niet dat projecten zonder de ontwikkeling van tools onmogelijk zijn, maar dan dienen deze tools bij aanvang al beschikbaar te zijn, wil men een goede ondersteuning kunnen bieden. Omdat er geen materiële kosten in het projectvoorstel waren opgenomen, was voor het projectmanagement eenvoudiger om het kostenoverzicht bij te houden. De instellingen hebben voor alle materiële kosten zorg gedragen. Dit is zonder problemen verlopen. Sommige risico’s waren niet voorzien. De risicoanalyse in het projectvoorstel en de tussenrapportage dienen verrijkt te worden met de uitkomsten uit deze eindrapportage zodat toekomstige projecten hun voordelen mee kunnen doen.
49
Bijlage 1 – Kennis & kunde van een dataspecialist Het project CARDS beoogt een goed advies te bieden bij het delen en bewaren van data tijdens een onderzoek. Omdat deze vorm van ondersteuning een nieuwe dienstverlening voor meeste organisaties inhoudt, is het noodzakelijk eerst een beschrijving te geven van de taken, kwaliteiten en competenties van de medewerker die deze functie gaat vervullen. Er wordt gekozen om de titel Dataspecialist te gebruiken zodat onderscheid kan worden gemaakt met de bestaande functie van Data Librarian25 die omvattender is dan de werkzaamheden die voor dit project nodig zijn. Taken geeft onpartijdig en op maat advies aan onderzoekers over het opslaan en delen van data tijdens het onderzoek stelt samen met de onderzoekers een datamanagementplan op geeft toelichting over dataopslag in collaboratories en repositories geeft toelichting en advies over beleidsrichtlijnen t.o.v. databeheer levert een bijdrage aan het online informatiepakket en werkt samen met collega’s uit andere universiteiten Kwalificaties & competenties affiniteit met methoden en technieken van wetenschappelijk onderzoek binnen zijn/haar vakgebied affiniteit met wetenschappelijk onderzoek, kan makkelijk de wensen van onderzoekers vertalen naar concrete plannen de Data Specialist kan zich onpartijdig opstellen ten gunste van het wetenschappelijk onderzoek en de wensen van de onderzoekers zelf kennis van software voor dataverwerking, databasemanagement en dataformaten kennis van bibliotheekstandaarden, standaarden van data-archivering en metadatering kennis van repository software en landelijk aanbod data repositories kennis van beleidsrichtlijnen, subsidierichtlijnen en wet bescherming persoonsgegevens nationaal en internationaal
25
Voor meer informatie over de functie van een Data Librarian verwijzen we naar het artikel: Data Librarian: een nieuw informatiespecialisme?, Rob Grim, Informatie Professional, 11/2/2010.
51
Bijlage 2 – Datamanagementplan; interview26 Project CARDS Name:
_______________________________________________________________
Research Group:
_______________________________________________________________
Institution:
_______________________________________________________________
1. OVERVIEW OF THE RESEARCH Please provide a brief description of your research
Website project:
___________________________________________________________
Duration of the project: ___________________________________________________________ Funding sources:
___________________________________________________________
2. DATA SET Please provide a brief description of the data
How many data files exist at this stage? __________ What is the approximate size of the data files now? __________ What is the approximate size of the data files at the end of the project? __________ What formats are the data? (For example: Excel 2007,.txt, jpeg 2000,…) 26
This document is based on the following documents: - ANU Data Management Manual. Managing Digital Research Data ant the Australian National University, Information Literacy Program, september 2010. - Checklist for a Data Management Plan (v2.2), Martin Donnelly and Sarah Jones, Digital Curation Centre, 2009. - Data Curation Profiles – Interview Worksheet, Purdue University Libraries. - Data Curation Profiles – User Guide, Purdue University Libraries. - Data Management Planning, ANDS Guides – Awareness level. ANDS – Australian National Data Service, 9 december 2010.
53
Is your dataset static or dynamic? (Static: it will not grow or change – Dynamic: the datasets can be changed with new results)
Who is responsible for collecting or managing the datasets? (for example: an assistant, another organization or the researcher)
3. SHARING When do you want to share your data and with whom? Would not share with anyone
Would share with my immediate collaborators
Would share with others in my research center or at my institution
Would share with others in my field
Would share with others outside of my field
Would share with anyone
Immediately after the data has been generated. After the data has been normalized and/or corrected for errors. After the data has been processed for analysis. After the data has been analyzed. Immediately before publication. Immediately after the findings derived from this data have been published.
What should others be able to do with the data? (for example: collaborators can download the dataset or add new data)
54
Please describe the method you want to use for working with your datasets during your research project or your aspirations and ideas for sharing and collaboration
4. ARCHIVING Do you need to archive your data after the project?
YES
NO
I DON’T KNOW
How long do you need to keep your data archived? _______________________________________________________________________________ Which archiving service will be used? _______________________________________________________________________________ Do you whish advice about archiving your data?
YES
NO
MAYBE
Who is the owner of the data? _______________________________________________________________________________ Who is interested in using your data in the future?
5. PRESENTATION How the dataset has been/will be described? (for example: “detailed annotations”, a “data dictionary”, etc.)
Is this amount of organization and description sufficient for another person with similar expertise to be able to understand and properly use the data? YES NO I DON’T KNOW Do you wish to make the data accessible in multiple formats? If yes, which formats exactly?
YES
NO
Do you want to apply standardized metadata from your field or discipline to the dataset? YES NO
55
If yes, which metadata do you want to use? If you want more information, please let us know.
6. TOOLS What tools – software or hardware – are required to utilize the data?
Do you need any of this types of services? - The ability to connect the dataset to a visualization or analytical tool YES - The ability to support the use of web services/APIs YES - The ability of others to comment on the dataset YES - The ability to archive different versions of the datasets YES - The ability to see who have used the datasets and when YES
NO NO NO NO NO
NICE NICE NICE NICE NICE
TO TO TO TO TO
HAVE HAVE HAVE HAVE HAVE
If the data is sensitive, what security measures need to be taken?
7. ADDITIONAL INFORMATION Please provide any additional information that you think be relevant for the data management plan
56
Bijlage 3 – Datamanagementplan; template In een datamanagementplan wordt een beschrijving gemaakt van de onderzoeksdata en de activiteiten die met deze data gedurende een project of na afloop worden uitgevoerd. Het datamanagementplan is een combinatie van de ingevulde vragenlijst en het advies van de data specialist. Afhankelijk van de context van het onderzoek, het soort data dat verzameld wordt en de wensen van de onderzoekers en instelling t.a.v. het delen en bewaren van data, wordt het advies van de data specialist geformuleerd. Het advies is afhankelijk van de infrastructuur en de middelen die de instelling kan bieden. 1.
Context van het onderzoek beschrijving van het onderzoek naam van de onderzoekers eigendom van de datasets financiering duur van het project
2.
Beschrijving van de datasets omvang (GB/TB) formaat bestaat het uit eigen data bestaat het uit hergebruikte data bestaat het uit secondaire bronnen ethische aspecten en bescherming van persoonsgebonden informatie eigendomsrechten
3.
Data delen wie krijgt toegang tot de data? zijn er verschillende niveaus van autorisatie? (lezers, administrators, enz.) hoe wordt de data beveiligd?
4.
Data archiveren hoe wordt de data tijdens het onderzoek opgeslagen? wordt een back-up geregeld? waar wordt de data gearchiveerd aan het einde van het onderzoek? wat is ervoor nodig om de data de archiveren (beleid van data archief, wie is verantwoordelijk voor de data)
5. Presentatie hoe wordt de data beschreven: metadata; documentatie; structuur 6. Tools welke tools zijn nodig om de data te gebruiken? (software en hardware).
57
Bijlage 4 – Functionele eisen datamanagementtool WEM UNIVERSITEIT TWENTE Betreft Aan Van Datum Status
: : : : :
Functionele eisen Data Catalogue Tool voor WEM René Buijsrogge en André Brands Maarten van Bentum 6 september 2011 derde concept na bespreking op 5 september René en Maarten
Functionele eisen Data Catalogue Tool voor WEM Werktitel: DACAT_WEM
1. Doelstelling van de Tool Het verzamelen/meten/berekenen van datasets is een kostbare zaak. In een aantal gevallen zijn dure faciliteiten gehuurd om te kunnen meten en zijn er speciale meetinstrumenten ontwikkeld. Ook heeft de voorbereiding en metingen veel tijd en inspanning gekost. Hiermee is waardevolle informatie verkregen die ook in de toekomst (tientallen jaren) beschikbaar moet blijven. Bij de opzet van deze tool moet duurzame opslag en toegang (in ieder geval binnen de groep WEM, maar eventueel ook daarbuiten) het uitgangspunt zijn. Het doel van de tool is om afgeronde datasets tijdens of uiterlijk voor het einde van een onderzoek op te slaan en te delen met andere onderzoekers binnen WEM. In een later stadium zal de tool uitgebreid kunnen worden met de mogelijkheid toegang te geven tot specifieke datasets of bestanden voor derden buiten WEM en te uploaden naar 3TU-datacentrum voor duurzame opslag en toegang. 2. Korte beschrijving van de Tool Onderzoekers van WEM kunnen datasets, afzonderlijke of gezipte bestanden, via het web uploaden met metadataformulier in DACAT-WEM. Metadata-invoer vindt plaats deels met verplichte velden en waar mogelijk met keuzelijsten. Zoeken naar databestanden is mogelijk zowel simple als advanced. De tool biedt geen mogelijkheid databestanden te bekijken, er kunnen wel databestanden gedownload worden. Toegang tot alle datasets is voor iedere gebruiker met een account. Algemeen uitgangspunt is dat de tool eenvoudig is te ontwikkelen (liefst op basis van een al bestaande applicatie) en te beheren. Zo zal er geen versiebeheer mogelijk zijn, het gaat dus in principe alleen om eindversies van datasets. 3. Toegang tot de dataset Veelal zullen de datasets binnen WEM vrij toegankelijk zijn, maar om enigszins zicht op het gebruik te hebben is toegang door middel van een (algemeen) account geregeld. Er zijn twee soorten accounts:
Gebruiker/contributor: o Zoeken naar datasets o Downloaden datasets o Metadata invoeren en datasets uploaden
Administrator: o Beheren gebruiker/contributor accounts o Datasets toevoegen o Tekst in metadatavelden wijzigen (om fouten te herstellen) of aan-/invullen o Toevoegen of verwijderen van nieuwe metadatavelden o Datasets verwijderen die niet meer relevant zijn.
59
4. Opzet data Datasets kunnen uit meerdere bestanden bestaan. Een dataset wordt beschreven met behulp van een verzameling metadata die in een formulier door de contributor samen met de dataset wordt aangeleverd. Controle van metadata en object wordt door de administrator gedaan. 5. Zoeken Gebruiker kan zoeken in de metadatavelden, niet in het object. In de simple search wordt in meerdere nader te bepalen velden tegelijk gezocht, in de advanced search kan naar keuze in een bepaald veld (ook nader te bepalen) gezocht worden. Voor overzicht van de metadatavelden, zie bijlage. Gebruiker kan browsen op projectnaam, subject area, … 6. Downloaden en uploaden Het downloaden van een dataset gaat per bestand. Dit kan uiteraard ook een gezipt bestand zijn. Het uploaden gebeurt door de administrator. Hiervoor levert de onderzoeker de bestanden aan met daarbij een (digitaal) ingevuld metadata formulier zodat het uploaden gebruikersvriendelijk gaat.
7. Soorten bestanden Tot dusver gaat het om ascii bestanden, maar er zullen ook binary bestanden bijkomen. (Indien gezipt is het natuurlijk ook al binary). 8. Versies Om de tool simpel en overzichtelijk te houden is er geen mogelijkheid van versiebeheer. Het is wat dit betreft niet meer dan een archief van datasets van de groep. In principe worden alleen eindversies opgeslagen, maar het zou mogelijk kunnen zijn dat een dataset naderhand vervangen wordt door een nieuwere versie. Het kan in de metadata worden aangegeven of het al of niet om een eindversie gaat. 9. Bekijken van bestanden Met de tool kunnen geen bestanden bekeken worden. Indien de gebruiker dit wil moet hij het bestand downloaden en met eigen software het bestand bekijken. 10. Locatie Dataset, Tool en toegang Om te beginnen staat de dataset op een computer bij de afdeling WEM ergens in de Horst. Een back-up van de dataset wordt extern bij de beheerder thuis bewaard. Voor de locatie van de Tool zijn er twee mogelijkheden: a) De Tool staat op dezelfde pc als de dataset. De gebruiker is een client van de server. b) Elke gebruiker heeft een kopie van de Tool op eigen pc staan met toegang tot de server met de dataset. Optie a) heeft de voorkeur. Gebruiker maakt vanaf eigen pc verbinding. Er kunnen meerdere gebruikers tegelijk inloggen. Kan de Tool hier tegen? Optie b) Dan goed op versiebeheer letten. Ook dan kunnen meerdere gebruikers in de dataset actief zijn. Wat gebeurt er wanneer de administrator bezig is met uploaden data of wijzigingen aanbrengt? Gebruikers mogen dan geen toegang krijgen? Kan een administrator zien of er gebruikers actief zijn? Dit is gewenst om te weten wanneer hij de dataset gaat aanpassen. 11. Grootte van de dataset
60
Momenteel is de grootte van de dataset 15Gb, dit kan oplopen tot 30Gb, maar indien er ook andere soorten gebruikers me gaan doen kan dit mogelijk veel groter worden, misschien tot 1 Tb.
12. Systeemeisen Pc met extra interne 1Tb HDD. 13. Gebruikersondersteuning Afhankelijk van het gekozen systeem of de benodigde ontwikkeltijd al of niet geïntegreerde helpfunctie. 14. Beheer Technisch, functioneel en content beheer zo veel mogelijk bij administrator (WEM). 15. Metadatavelden (nog nader uitwerken) Dit wordt een lange lijst waarbij slechts een deel per datatype relevant is. Databestanden voor de Water Footprint bevatten andere meta-informatie dan sedimentmetingen in de golfgoot in Hannover. Voorstel is om een paar typen data te benoemen en per type een set metadatavelden te onderscheiden naar een algemene set metadatavelden voor elk type. Zie ook voorstel in tweede deel van dit stuk. Komt erop neer dat dit voorlopig nog wel dynamisch zal zijn, vandaar wens om dit in de tool te kunnen aanpassen door WEM administrator. Er
zijn drie typen data: Waterfootprint: nadere omschrijving Wave and sediment experiments: nadere omschrijving Hydrology: nadere omschrijving
of zijn er meer, bv watermanagement? Of kun je het wat betreft metadata niet tot twee typen beperken?: water management en hydrology. Hierover nader overleggen, wellicht ook met onderzoekers, idem als het gaat om metadata] 16. Gebruiksvoorwaarden Bij inloggen gebruiker een stukje tekst laten zien waarmee hij moet aanvinken dat hij akkoord is met de gebruiksvoorwaarden. Deze gebruiksvoorwaarden indien mogelijk laten opvragen of verwijzen waar hij deze kan vinden. 17. Logging Het zou aardig zijn om in een log file te kunnen zien hoe er van de dataset/tool gebruikt wordt gemaakt.
Metadatavelden Data Catalogue Tool voor WEM Type data Waterfootprint Wave and sediment experiments Hydrology Metadatavelden voor elk type data: Titel
Titel van de dataset
Rights
Owner information
Restrictions in use
Rechten gebruik/verspreiding data etc.
Researcher
Researcher
PROJECTNAAM
Onderzoekstitel van het project
CASE
Case in the project
61
Identifier
Research project code
WEM Chair
Either ‘WM’ or ‘MFS’
Research location
e.g. ‘GWK Hannover’, ‘UT’, ‘Delta Flume Deltares’
Time coverage
Year in which data was measured/calculated
Description
Description of the data
Data report
Name data report
Version
Final version yes/no
Subject
Bv onderwerpen aardwetenschappen, hydrologie (NBC?, beter een andere…)
FORMAT
binarye.g..mpg, gis, binary, ascii, ascii-zipped
VIEWER
Program in which the data can be viewed
Date
Date of data was added to the database
Wave and sediment experiments Ts
Wave periode [s]
Hs
Significant wave heigth [m]
Ws
Wave heigth [m]
Instrument type
e.g. UVP, Vectrino, ADV etc.
GrainSize
Grain size sediment [m]
Vs
Velocity [m/s]
Etc.
62
Implementing a geospatial data server for use in the GIS-studio located in the UvA Faculty of Science
This project is established in the framework of the SURFfoundation Open Research theme ‘Access to Research Data’
Implementing a geospatial data server for use in the GIS-studio located in the UvA Faculty of Science: GeoServer, Esri’s ArcSDE or GeoNetwork. Commissioned by the Institute of Biodiversity and Landscape Dynamics (IBED) of the Faculty of Science (FNWI) of the University of Amsterdam. Subsidized by CARDS, a project of the SURFfoundation. Written and compiled by M.E. (Manon) de Vries Under supervision of drs.ing. G.B.A. (Guido) van Reenen Version 1.0 October, 2011 For comments or questions, please contact
[email protected]
2
Contents Vocabulary
4
Summary
5
1. Introduction
6
1.1 Aim
6
1.2 Background
7
1.3 Overview of contents
7
2. Geospatial data servers
8
2.1 Architecture
8
2.2 Available databases, User Interfaces and servers
9
3. Comparison
10
3.1 Application selection
10
3.2 Choice of a geospatial data server
10
4. Difficulties
11
5. Suggestions
14
References
18
Links
19
Appendix
20
Appendix A: Comparison table
21
3
Vocabulary Here you can find all the abbreviations used in this document in alphabetic order, with a simple explanation. A more detailed description can be found at the given pages.
CARDS
Controlled Access to Research Data, Stored Securely
7
GIS
Geographical Information System
6
IBED
Institute for Biodiversity and Ecosystem Dynamics
6
KML
Keyhole Markup Language
11
KMZ
Zipped KML-files
11
ORDBMS
Object-relational database management system
9
OSGeo
The Open Source Geospatial Foundation
10
URI
Uniform Resource Identifier
15
UvA
University of Amsterdam
6
WCS
Web Coverage Service
21
WFS
Web Feature Service
21
WMS
Web Map Service
21
XML
Extensible Markup Language
15
4
Summary This document describes the comparison of three GIS servers which all allow users to view, edit and share geospatial data, a type of data that is applicable to objects that have geographic extent, so it is associated with a position on the surface of the earth. The aim is to find a solution for two limitations found in the current situation in the GIS-studio, a spatial data analysis facility for staff and students of the Institute for Biodiversity and Ecosystem Dynamics (IBED) of the University of Amsterdam (UvA): (1) the software is not open source, and (2) viewing the available files as overlying layers in a chosen geographic area is not possible. The purpose of this project is to indicate the application which is best suitable for use in the GIS-studio, and the choice is made for GeoServer. Moreover, an overview of the difficulties that arise by implementing one of these three applications is given, including (1) KML Network Link in Google Earth, (2) Data download link as pop-up in Google Earth, (3) Projections, (4) Data output and restrictions, and (5) Choice of User Interface, in order to understand where suggestions for more attention is needed for completing the usage of a geospatial data server at the UvA. These suggestions are discussed as steps, and in addition to the steps a table with the estimated time schedule and corresponding convenient links are covered. Step 1: Set up PostGIS database and install GeoServer; Step 2: Fix KML Network Link in Google Earth; Step 3: Generate data download link as pop-up in Google Earth; Step 4: Check projections, data output and restrictions; Step 5: Automate the process of data input from PostGIS to GeoServer to Google Earth; Step 6: Make the Network Link with the “read” (restricted) permission available at a website related to data usage, for example at GIS-studio.nl; Step 7: Write two manuals for working with Network Links and GeoServer at the UvA, one for “read and write” (open) and one for “read” (restricted) permissions. This project for the University of Amsterdam is achieved with support of and subsidized by CARDS, a project of the SURFfoundation, and takes place in the framework of the SURF Open Research theme “Access to Research Data”. This project at the UvA approaches problems with controlled sharing geospatial data by implementing a geospatial data server. A detailed manual will be written for both administrators and users, and a contact point will be set up for personal advice and assistance.
Keywords: CARDS; SURFfoundation; UvA; GIS; Geospatial data server; GeoServer; Esri’s ArcSDE; GeoNetwork.
5
1. Introduction 1.1 Aim This document describes the comparison of three Geographical Information Systems (GIS) servers which all allow users to view, edit and share geospatial data. The aim is to indicate the application which is best suitable for use in the GIS-studio, a spatial data analysis facility for staff and students of the Institute for Biodiversity and Ecosystem Dynamics (IBED) of the University of Amsterdam (UvA). Up-to-date GIS and remote sensing software is available and are used in (self-tuition) courses and research in earth sciences, biology, Future Planet Studies and forensic sciences (GIS-studio). The data used for these courses and ongoing research is located on a shared server hard drive and is read-only for users at the GIS-studio. Viewing the geospatial data occurs in ArcCatalog, an ArcGIS file management application that displays the data in a hierarchy and includes operations such as map-/table-view, edit, copy and view metadata. Viewing geospatial data as overlying layers is only possible in ArcMap, the graphical user interface of the same software package ArcGIS. Using and editing this data for the user’s purpose can only be performed after copying the data from the shared hard drive to a local disk. With this procedure two limitations emerge: (1) The geospatial data can only be viewed by using ArcCatalog (or a similar GIS file management application). A computer without this type of software program is not able to view the data in map-figuration, even though it has access to the data on the shared server hard drive; (2) Looking at the data in a hierarchy in ArcCatalog restricts the possibility of viewing overlying layers in a chosen area. This can only be performed in ArcMap (or a similar graphical user interface software package). This document wants to overcome these limitations by searching an application that has no problems with missing preinstalled software and that is also able to show overlying layers. Moreover, an extra implementation of restrictions on the geospatial data is a prerequisite, in such a way that some users have “read and write” (or, download, edit and re-upload) permissions, while others only have the “read” (so only the download-function) permission. Extra permissions for use of a different restriction with a combination of the above described permissions should also be applicable. The geospatial data available at the University of Amsterdam, to some extent, has to be available to the wide public (open source), instead of only to staff and students in the GIS-studio. Ideally, a user with its chosen topic and corresponding geographic area should be able to zoom in on a base map to see what data is available in the interested geographic area, after which a download link appears next to the available data to transfer data from the server to its own computer for usage. For example, a user is interested in washlands around the Rhine river in The Netherlands in a certain area close to Nijmegen. The user can zoom in on this part of The Netherlands,
Figure 1: Different representations (points, lines, polygons, rasters) as overlying layers (help.argis.com).
6
overlying layers of different maps (shapefiles, geodatabases and rasters) show up and the user observes to see which data is applicable to its research. By clicking the download links, the user can specify the pad where to save the data, and is able to edit and view the data in a GIS-program to its own preference. Moreover, the projection of a downloaded shapefile (or geodatabase or raster) should be attached to it, so the downloaded file has exactly the same projection as it had before it was put on the server.
1.2 Background This project for the University of Amsterdam is achieved with support of and subsidized by CARDS, a project of the SURFfoundation, which is an “initiator of innovation in higher education and research” (surffoundation.nl in general). CARDS – Controlled Access to Research Data, Stored Securely – takes place in the framework of the SURF Open Research theme ‘Access to Research Data’. This theme approaches the idea of “open access to research data in order to make the research more transparent and verifiable. Moreover, this also allows others to reuse the data for future research, which makes this more efficient and opens up possibilities for analytical research that connects different datasets” (surffoundation.nl CARDS and access to research data). This project at the University of Amsterdam wants to approach problems with controlled sharing geospatial data by implementing a geospatial data server. A detailed manual will be written for both administrators and users, and a contact point will be set up for personal advice and assistance. 1.3 Overview of contents First, a description will be given to make clear what a geospatial data server is and what it will be used for in this project. Second, three applications that could be used at the University of Amsterdam are introduced, with a comparison of the three at several points. The importance and priority of these several points of comparison are discussed, to come up with a choice for one of the three applications. Finally, an overview of the difficulties that arise by implementing one of these three applications will be given, to understand where more attention is needed for completing the usage of a geospatial data server at the UvA.
7
2. Geospatial data servers 2.1 Architecture Geospatial data is a type of data that is applicable to objects that have geographic extent, so it is associated with a position on the surface of the earth. It contains the position, expressed in coordinates that is related to its own projection, an attribute table with information shown at the point of location, and metadata. Metadata captures the basic characteristics of a data resource and includes elements such as title, publication date, author, geographic extent, attribute label definitions, and date and time of activity, and is only viewable in the background as extra information. In order to show geospatial data, a User Interface is needed, which usually is a Geographic Information System (GIS). In the GIS-studio at the Faculty of Science, Esri’s ArcGIS software suite with the ArcInfo licence is used for viewing, editing and creating (compilations of) geospatial data. The data used for this program can be found on the shared server hard drive, visible on every pc in the GIS-studio, and needs to be copied to a local hard drive in order to use the data in ArcGIS. In this case the architecture (based on Figure 2) looks like this: Database: the local hard drive (with copied data from the shared hard drive); Application server: none; User Interface: ArcMap and ArcCatalog (part of ArcGIS software package).
Figure 2: This is how an architectural diagram for a generic web application usually looks like (The OpenGeo Architecture, page 3).
Since the aim of the project is to find a solution for the two limitations put forward in the Introduction section – i.e. (1) no discrimination between software usages (thus, open source), and (2) viewing available overlying layers in chosen geographic area – another architecture needs to be configured: Database: an open source object-relational database management system, including geographic extension that supports geometry, operations and measurements of the geospatial data; Application server: an open source geospatial data server that can read the data from the database and is able to forward the files to the User Interface for projection and download-option; User Interface: an open source base map or virtual globe that understands spatial features and map layers, reached through an internet connection to project geospatial data layers and includes download links.
8
2.2 Available databases, User Interfaces and servers A number of databases with spatial extension exists, i.e. Oracle Spatial, SQL server 2008, and PostGIS. Contrary to an ordinary database, a spatial database adds spatial types for representing geographic features, so spatial structures such as boundary and dimension are included in the database (Figure 3). The database chosen for this project is PostGIS, since this is built on PostgreSQL, an open source object-relational database management system (ORDBMS), that has support for multiple users, and a good performance on large data sets (opengeo.org).
Figure 3: Spatial data types are organized in a type hierarchy (taken from: opengeo.org).
Examples of User Interfaces are Google Maps, Bing Maps, OpenLayers, NASA World Wind, Bing Maps Platform (previously Microsoft Virtual Earth), and Google Earth. This includes both base maps and virtual globes. Since Google Earth is a well-known software product that is able to read KML files (will be explained in chapter 4) generated by an application server, this User Interface is chosen. A geospatial data server operates as a gateway between the User Interface (Google Earth) clients that download and use the data, and the (ORDBMS) database (PostGIS). Several application servers that are open source and allow users to share geospatial data are available, i.e. MapGuide Open Source, MapServer, World Wind server, GeoNetwork opensource, Esri’s ArcGIS Server (including ArcSDE), and GeoServer. Furthermore, OpenGeo Architecture can be added, which is an umbrella software product that categorizes the framework of “database – application server – User Interface” (outlined in chapter 2. Geospatial data servers). Since this product provides a complete solution to the architecture, it does not fall under the geospatial data servers alone, but is still a valuable addition to the example list of geospatial data servers. Among these, three are selected, based on experience and knowledge about them at the University of Amsterdam. Before one of the three application servers will be chosen for implementation, a comparison will be carried out.
9
3. Comparison 2.1 Application selection The three geospatial data servers selected for comparison are the following applications: 1. GeoServer; 2. ArcSDE; 3. GeoNetwork opensource. A table with the points of comparison can be found in Appendix A on page 20-22. Not all the points of comparison are equally important. After examining the applications separately and including the initial project aims, these points stood out and should weigh more in comparing and thus choosing the final application: 1. Open source; 2. Gateway to User Interface; 3. Input data format; 4. Restrictions; 5. Projections; 6. Downloading data.
2.2 Choice of a geospatial data server By reading documents on the website of the OSGeo Foundation, a non-profit nongovernmental organization that supports and promotes collaborative development of open geospatial technologies and data, and forums with questions and problems concerning geospatial data servers, it became clear that GeoServer was the most popular application (osgeo.org). According to 1Spatial, GeoServer “provides the ‘glue’ between a back-end database” (i.e. PostGIS) “and one or more web-based clients” (i.e. Google Earth). It must also be stated that GeoNetwork opensource is more focussed on catalog services, rather than the storage of geographical data. By taking into account the above listed points with higher priority, the choice for GeoServer appeared to be a valid decision. (1) ArcSDE is not open source; GeoServer is. (2) GeoNetwork and ArcSDE do not have a gateway to Google Earth (i.e. KML, see next chapter); GeoServer has. (3) The input data do not show any difference between the three applications. (4) Only GeoServer has restrictions regarding user permissions; ArcSDE and GeoNetwork do not have this option. (5) Problems arise concerning the projections of the downloaded data through GeoServer, since only ArcSDE is able to preserve the initial projection of the data put in the database and later downloaded from the server. (6) Also downloading data is a point of discussion when choosing GeoServer over ArcSDE and GeoNetwork. This will be addressed in the last part of this document, including elements of attention for the future implementation of GeoServer.
10
4. Difficulties After installing GeoServer, reading the supplied user-written manual on the website, and working out all the steps that have to be taken for letting this geospatial data server function, several difficulties emerged concerning: 1. KML Network Link in Google Earth; 2. Data download link as pop-up in Google Earth; 3. Projections; 4. Data output and restrictions; 5. Choice of User Interface. These five difficulties can be seen in an overview in Figure 4 on the next page. The first difficulty that appeared was a problem with the Network Links in Google Earth. With this function, KML (Keyhole Markup Language) files can be shared over a network, by which the placemarks or folders are available to other people via a server, in this case GeoServer. KML is a file format that can be viewed and edited in Google Earth in order to display placemarks, images, polygons, 3D models, or textual descriptions. Sometimes KML files are zipped, and are in this way distributed as KMZ files, which are actually folders with different placemarks, images, polygons etc. in them. When a KMZ file is stored on GeoServer, and a Network Link that connects this KMZ file to Google Earth, all the content of the KMZ-folder can be viewed by multiple clients. Moreover, these clients can also automatically see any changes to the content as those changes are made, and are able to specify how often to refresh the data in the KMZ file (Google Earth Help). GeoServer can generate several file formats, including PostGIS (our database) files, and has support for creating Network Links to Google Earth. Thus, the geospatial data stored in the PostGIS database can be viewed in Google Earth with the help of a Network Link supported by GeoServer. When attempting this procedure, a Network Link could only be made with demo files that already existed on GeoServer right after installation. Several attempts with other ways of displaying the files did not work out, unfortunately. The second difficulty follows up on the above stated problem. Displaying geospatial data in Google Earth is not the final step, since users should be able to download the data to their own computer. For this, a download link should appear as a pop-up window next to the displayed data. A PHP-script was found that addressed this idea, that should be modified for this project (Collins, 2009, OSGeo.org forum). However, since a correct Network Link could not be established, this PHP-script did not function the way it should be. As was already outlined in the previous chapter, there seem to be problems with preserving the initial projection of the data by using GeoServer, which is stated as third difficulty. When integrating the data from a database to GeoServer, a new projection to every geospatial file has to be assigned. Thus, the files cannot keep their own projection and users are not able to download and even see the initial projections, which is actually loss of information.
11
Figure 4: An overview of the difficulties (in red) that arose during installation and connection to the User Interface Google Earth (partly derived from: The OpenGeo Architecture, opengeo.org, including the architecture terms used in Figure 2).
12
The fourth difficulty includes two different elements of GeoServer, i.e. shapefile output and restrictions, but both have the same problem. When downloading geospatial data, the user should have the initial file format, e.g. shapefile, geodatabase, raster, etc. However, since a proper Network Link could not be set up, this could not be tested. Trying this with a demo file did not work, but this does not mean that it cannot work at all. This is the same for the restrictions, i.e. the “read and write”, “read” or a combination of those two as user permissions. GeoServer should be able to contain this tool, but because of the Network Link problem, this could not be tested. And then ultimately, the fifth difficulty. As was stated in the Geospatial data servers chapter, the choice for Google Earth as User Interface was made, based on the widespread usage and availability of Network Links of this software product. While other base maps and virtual globes could be just as easy in user practice and may also have the Network Link possibility, it could be worth switching to another User Interface instead of Google Earth.
13
5. Suggestions When further attempt are made concerning the implementation of GeoServer at the University of Amsterdam, the following suggestions will be convenient to consider: Step 1: Set up PostGIS database and install GeoServer; Step 2: Fix KML Network Link in Google Earth; Step 3: Generate data download link as pop-up in Google Earth; Step 4: Check projections, data output and restrictions; Step 5: Automate the process of data input from PostGIS to GeoServer to Google Earth; Step 6: Make the Network Link with the “read” (restricted) permission available at a website related to data usage, for example at GIS-studio.nl; Step 7: Write two manuals for working with Network Links and GeoServer at the UvA, one for “read and write” (open) and one for “read” (restricted) permissions. A detailed explanation of these steps will be outlined below, and a table with the estimated time schedule and convenient links can be found on page 16. The primary goal of this project was to get the system of GeoServer functional with the help of some test files, not to include all the geodata available at the UvA, since automating the process is part of a later stage of the project. Therefore, the PostGIS database was not tested by putting in the bulk geodata and connecting it to GeoServer. Instead, the test files were separately uploaded to GeoServer, which gave difficulties concerning projections, data output, and Network Links, as explained in the previous chapter. When attempting to continue this project, it is recommended to start with the set up of the PostGIS database. It is possible to put geodata into GeoServer quite efficiently with the help of PostGIS, and in this manner the problems around projections, data output and Network Links could be avoided. PostGIS is a free, open source software tool that can be downloaded from postgis.refractions.net. However, PostGIS is the spatial extension on (the ORDBMS) PostgreSQL, which should be installed first, and this database-software can be downloaded from postgresql.org. For testing the input of geodata from PostGIS into GeoServer, GeoServer must first be installed from geoserver.org. Note that this may take some time, since this installation needs more than a regular Windows (or other operating system) setup; environment variables have to be changed, extra programs need to be installed and the port that the server uses has to be open (default: port 8080). These additions and the sometimes difficult written manual (docs.geoserver.org) found on the website, make the installation of GeoServer hard to complete within 24 hours. How a KML Network Link is set up, is clearly demonstrated in the Help function of Google Earth. When downloading Google Earth (earth.google.com), the Help function is available in the program menu bar, or can be found online by searching for Sharing data over a network. Graham (2008, p. 27-28) states that when the normal procedure of adding a Network Link following Google Earth Help is achieved and the WMS link is copied and pasted, two things are required next: “set the refresh mode to ‘After camera stops’ and reduce the time to one second”, and optimize the KMScore and KMAttr options in the WMS link. The latter could be a bit confusing but it is worth looking into these options, which are both described in Graham (2008), since it makes a great difference for displaying geodata as layers in Google Earth. Moreover, attention is 14
needed for the URI, Uniform Resource Identifier, that identifies resources of the file on the internet. While URLs contain locations (e.g. address), URNs include only identities (e.g. name), and URIs cover them both (Thompson, 2010). When adding geodata to GeoServer manually, a workspace has to be created, and with that a URI in the Namespace name needs to be filled in. Hence, this could be a location (URL) or just a name (URN). However, with this project only test data was added manually and this test data was not available on an Internet website, so filling in a URN was chosen. This URN could be any name, as long as it is unique, to reduce the possibility for duplicates. This namespace URN is then treated by an XML parser as a string. But when filling in a Namespace and trying to view the test geodata file in GeoServer, an error concerning XML and URI is showed. A possible cause for the difficulty of the Network Link that did not work properly in this project, could be this URI problem, so extra research is needed here. One idea for creating a pop-up window with a link next to the displayed data in Google Earth is to modify a PHP-script found on the Forum page of the OSGeo website (Collins, 2009a and 2009b). Knowledge about programming with PHP and XML is required and also familiarity with locations to store the PHP file for Google Earth to retrieve information from this script is needed. Possibly, an external programmer could be hired for this. This will be a good approach anyhow, given that other ideas of downloading data via Google Earth also need programming knowledge. Furthermore, additional information that can be showed in the pop-up window next to the download link could be for example the data extension, projection, file size, and original source, but that has to be consulted with the programmer, naturally. The projections, data output and restrictions should be tested by downloading a test file from the pop-up window link in Google Earth via GeoServer and originated from the PostGIS database. The projection (e.g. WGS_1984_UTM_Zone_17S, stored as additional .prj file) and the data output (e.g. Shapefile with .shp extention) of this test file should be the same as the file located in the PostGIS database, and can be checked in the metadata-tab of both file versions in ArcCatalog. The examination of the restrictions on the other hand, needs to be manually configured in GeoServer in advance. Three permissions should be created, as was outlined in the Introduction chapter: (1) “read and write” permissions for (some) teachers and researchers, (2) “read” permissions for students and interested people outside the UvA, and (3) a combination of those two for students that work with teachers and researchers and need to exchange (large) geodatasets. This can be created in the Security section of the GeoServer Web Administration Interface where it is called users and roles. The roles are the three permissions, and the users are teachers/researchers, students, opensource, studentextra (with the combination), and of course an administrator who is the designer of GeoServer at the UvA. When the PostGIS, Network Link, download-link pop-up, projections, data output and restrictions all work properly, the process can be automated. Thoughts about how to organize the geodata in PostGIS are essential, considering the restrictions for users. One way of a hierarchy could be first to make a distinction between the two restrictions, so creating an open (“read and write”) branch and a restricted (“read”) branch, followed by a division of the geodata in continents and then countries. In GeoServer under Security, the label of Role Open can be attached to both the branches, and the Role Restricted only to the branch that is accessible for restricted users, i.e. students and open source people outside the UvA. For the third restriction, the combination of
15
permissions with the Role RestrictedExtra, a manually labelling method applies, and this is also be accomplished in the GeoServer Web Administration Interface under Security. A way of how to obtain the geodata has to be constructed, so users are able to click on the Network Links, and show them in (already installed) Google Earth on their computers, and as a result layers of geodata can be viewed and downloaded. One approach is to make several Network Links available, arranged per continent for example, on a website that is related to geodata usage. For the GIS-studio at the UvA, the website GIS-studio.nl is already in use for information and reservations concerning this computer course room, and is an appropriate website for making geodata available for users. The different users need to know how to work with the Network Links and GeoServer to download the geodata of their interest. Two manuals should be written for this, one for “read and write” (open) and one for “read” (restricted) permissions. Obviously, only the restricted manual should be listed at the GIS-studio website alongside the Network Links. One suggestion is to transform the manual to HTML so users can read it online, another is to upload a PDF file so also printed and offline versions could be read. Furthermore, a contact point (e.g. e-mail) should be set up for personal advice and assistance for users (teachers, researchers, students, and interested people). Table 1: The time schedule (based on 8 hours per day) and convenient links with respect to the listed steps. Note that the time needed is an average time; when one has more experience with the subjects described in the list of steps, less time has to be consumed, naturally. Step
1
Amount of time needed
1-2 weeks
Convenient links and other tips
2
1 week
PostgreSQL: http://www.postgresql.org/ PostGIS: http://postgis.refractions.net/ GeoServer: http://geoserver.org/display/GEOS/Download Maven: http://maven.apache.org/download.html#Installation Win32Svn: http://subversion.apache.org/packages.html Java Development Kit (JDK) 5.0: http://www.oracle.com/technetwork/java/javasebusiness/downloads/java-archive-downloads-eesdk419427.html#java_ee_sdk-5_01-oth-JPR Windows-key + Pause System Properties Advanced Environment Variables New user variable name: JAVA_HOME, value: C:\Program Files\Sun\jdk edit PATH, add value ;%JAVA_HOME%/bin In Command Prompt: cd C:\WINNT\profiles\“username”\geoserver-trunk\src Google Earth: http://www.google.com/earth/index.html Sharing data over a network: http://earth.google.com/support/bin/static.py?page=guide.cs&guide=22369&topic=27830 Selected KML Generation Method (Graham, 2008, p. 27-28): http://geoserver.itc.nl/natatlas/ge/Marc%20Geoffrey%20Graham.pdf URI (Thompson, 2010): http://www.ltg.ed.ac.uk/~ht/WhatAreURIs/
3
1 week
OSGeo Forum: http://osgeo-org.1803224.n2.nabble.com/Google-Earth-Downloading-GeoserverData-for-the-Viewed-Area-Only-td6123628.html PHP script: http://osgeo-org.1803224.n2.nabble.com/attachment/6123628/1/downloadlist.php Image of the idea of implementing PHP script in Google Earth: http://osgeoorg.1803224.n2.nabble.com/attachment/6123628/0/BrokenHill.JPG
4
2 days
GeoServer User Manual under Security: http://docs.geoserver.org/stable/en/user/index.html
5
1 week
6
2 days
GIS studio website: http://gis-studio.nl/
7
4 days
16
When problems still emerge during these seven steps, the following point can be considered: according to the description of CARDS on the website of SURFfoundation (surffoundation.nl), three universities besides the UvA are working on this project, i.e. Leiden University, Twente University, and Tilburg University. Moreover, the VU University and Utrecht University also have experience with GeoServer or alike. “Periodically exchanging information to learn from one another” is one of the aspects outlined in the framework of the SURF Open Research theme (surffoundation.nl), thus exchange of ideas, difficulties or progress should be evident when implementing a geospatial data server.
17
References ArcGIS Server Help - An overview of geodatabase design. Obtained October 14, 2011, from http://help.arcgis.com/en/arcgisserver/10.0/help/arcgis_server_dotnet_help/index.html#/An_overview_of_ge odatabase_design/0093000000r6000000/ Collins, D. (2009a). Google Earth - Downloading Geoserver Data for the Viewed Area Only. OSGeo - forum (via Nubble). Obtained October 7, 2011, from http://osgeo-org.1803224.n2.nabble.com/Google-EarthDownloading-Geoserver-Data-for-the-Viewed-Area-Only-td6123628.html Collins, D. (2009b). Google Earth - Downloading GeoServer Data for the View. Newcastle, Australia. Obtained from http://osgeo-org.1803224.n2.nabble.com/attachment/6123628/1/downloadlist.php Collins, D. OSGeo.org - Profile of Tybion. Obtained October 7, 2011, from http://osgeoorg.1803224.n2.nabble.com/template/NamlServlet.jtp?macro=user_nodes&user=147684 Extensive experience integrating and working with Open Source: MapGuide, GeoServer, PostgreSQL, OpenLayers. 1Spatial. Obtained October 7, 2011, from http://www.1spatial.com/software/3rd.php Geospatial Metadata. Federal Geographic Data Committee. Obtained October 7, 2011, from http://www.fgdc.gov/metadata Graham, M. G. (2008). Integrating Large Volume Data Services with Google Earth Mapping (p. 39). Enschede, The Netherlands: International Institute for Geo-Information Science and Earth Observation. Obtained from http://geoserver.itc.nl/natatlas/ge/Marc%20Geoffrey%20Graham.pdf Introduction to PostGIS. OpenGeo. Obtained October 5, 2011, from http://workshops.opengeo.org/postgisintro/introduction.html Kort verslag Open OnderzoeksData Dag. (2011). Grote winst mogelijk in wetenschappelijk onderzoek. Gepresenteerd bij Open OnderzoeksData Dag 2011, Amsterdam. Obtained from http://www.surffoundation.nl/nl/themas/openonderzoek/permanentetoegangtotdata/Documents/Kort_verslag _Open_OnderzoeksData_Dag.pdf OSGeo.org. Obtained October 7, 2011, from http://www.osgeo.org/ Sharing Data Over a Network. Google Earth Help. Obtained October 7, 2011, from http://earth.google.com/support/bin/static.py?page=guide.cs&guide=22369&topic=27830 The Open Source Geospatial. OSGeo. Obtained October 7, 2011, from http://www.osgeo.org/ The OpenGeo Architecture, opengeo.org. Obtained from http://opengeo.org/publications/opengeoarchitecture/opengeo-architecture.pdf Thompson, H. S. (2010). What’s a URI and why does it matter? Obtained October 12, 2011, from http://www.ltg.ed.ac.uk/~ht/WhatAreURIs/ Toegang tot onderzoeksdata. Surf Foundation. Obtained October 7, 2011, from http://www.surffoundation.nl/nl/themas/openonderzoek/permanentetoegangtotdata/Pages/default.aspx Uitgebreid verslag Open OnderzoeksData Dag. (2011). Grote winst mogelijk in wetenschappelijk onderzoek. Gepresenteerd bij Open OnderzoeksData Dag 2011, Amsterdam. Obtained from http://www.surffoundation.nl/nl/themas/openonderzoek/permanentetoegangtotdata/Documents/Verslag_Ope n_OnderzoeksData_Dag.pdf
18
Links CARDS project. Obtained October 7, 2011, from http://www.surffoundation.nl/en/projecten/pages/cards.aspx Data delen moet in wetenschap. (May 27, 2011). ScienceGuide. Obtained October 7, 2011, from http://www.scienceguide.nl/201105/data-delen-moet-in-wetenschap.aspx Esri’s ArcGIS for Server. Obtained October 7, 2011, from http://www.esri.com/software/arcgis/arcgisserver/index.html Esri’s ArcSDE Technology. Obtained October 7, 2011, from http://www.esri.com/software/arcgis/arcsde/index.html Faculty of Science (FNWI) - University of Amsterdam. Obtained October 7, 2011, from http://www.science.uva.nl/english/home.cfm GeoNetwork opensource. Obtained October 7, 2011, from http://geonetwork-opensource.org/ GeoServer. Obtained October 7, 2011, from http://geoserver.org/display/GEOS/Welcome GeoServer Developer Manual, release 2.1.1. (June 23, 2011). GeoServer. Obtained from http://docs.geoserver.org/stable/en/developer/ GeoServer User Manual, release 2.1.1. (June 23, 2011). GeoServer. Obtained from http://docs.geoserver.org/stable/en/user/ GIS-studio.nl. Obtained October 7, 2011, from http://gis-studio.nl/ Google Earth. Obtained October 7, 2011, from http://www.google.com/intl/en/earth/index.html Institute for Biodiversity and Ecosystem Dynamics (IBED) - University of Amsterdam. Obtained October 7, 2011, from http://www.science.uva.nl/ibed/home.cfm Onderzoekers verrijken publicaties. (January 24, 2011).ScienceGuide. Obtained October 7, 2011, from http://www.scienceguide.nl/201101/onderzoekers-verrijken-publicaties.aspx Open onderzoeksdata in de praktijk. (May 12, 2011).ScienceGuide. Obtained October 7, 2011, from http://www.scienceguide.nl/201105/open-onderzoeksdata-in-de-praktijk.aspx OpenGeo Suite. Obtained October 7, 2011, from http://opengeo.org/products/suite/ Science Park Amsterdam. Obtained October 7, 2011, from http://www.scienceparkamsterdam.nl/nc/en University of Amsterdam. Obtained October 7, 2011, from http://www.english.uva.nl/start.cfm Verrijkte publicaties in het zonnetje. (June 10, 2011). ScienceGuide. Obtained October 7, 2011, from http://www.scienceguide.nl/201106/verrijkte-publicaties-in-het-zonnetje.aspx
19
Appendix A On the next two pages a table with a comparison of the three applications – GeoServer, ArcSDE and GeoNetwork – is showed, to express the difference in usage between the three servers.
20
2. ArcSDE (Esri's Arc Spatial Database Engine)
Pos (+) / Neg (-)
Pos (+) / Neg (-)
1. GeoServer
An open source software server that allows users to share and edit geospatial data.It publishes data from any major spatial data source using open standards. Being a community-driven project, GeoServer is developed, tested, and supported by a diverse group of individuals and organizations. Can display data on any of the popular mapping applications. In addition, GeoServer can + connect with traditional GIS architectures such as Esri's ArcGIS.
Gateway between GIS clients and a relational database management system. It allows ArcGIS Desktop users to connect to a geodatabase that is stored on a remote server. ESRI's products have a high market share in the commercial GIS software environment.
Open source Developer Last stable release
Yes OpenGeo (devision of OpenPlans), GeoSolutions, Refractions Research 2.1.0, June 2011
+
Manual Website
Yes, user and developer manual, written by users http://geoserver.org/
+-
No Esri, GTI 10.0, June 2010 (note: at ArcGIS 9.2, Esri stopped selling ArcSDE as a stand-alone product. It is now integrated into both ArcGIS for Desktop and ArcGIS for Server as ArcSDE technology) At help.argis.com website; Manual written by N.S. Anders at UvA http://www.esri.com/software/arcgis/arcsde/
Architecture
Database used Storage used Application server used User Interface (UI) used Gateway to UI Data view
Own choice Any internal or external hard drive Own choice Own choice KML; WMS Map and file-tree view
+ + + + + +
PostgreSQL (an object-relational database management system) Any internal or external hard drive, maximum 10GB ESRI ArcSDE 9.3.1 service ESRI ArcCatalog and ArcMap 9.3.x and 10 KML; WMS Only file-tree, no map view
+ +++ -
Data
Input data format
+-
Demos
Yes
+
No specifications, but in general: Geodatabases; Geospatial vector data formats; Geospatial raster formats; Text-files Raster data in separate raster catalogs; Vector data in feature datasets All data projected in local datum (e.g. MGI-Austria-GK-M28. based on Bessel-1841 spheroid and Transverse Mercator projection) Use ArcCatalog to fill in the geodatabase with data, the same way one would do when filling a local file geodatabase Yes
+
Adding data
Geospatial vector data formats (shapefiles with extensions .shp, .dbf, .shx, .prj; PostGIS connections with JNDI); Geospatial raster formats; (No geodatabases) Depends on choice database Projection of manually added geodata is not preserved and needs to be reset everytime data is uploaded Via Web Administration Interface, accessed via web browser; PostGIS and PostgreSQL
Operating system Database software
MS Windows, Mac OS X, GNU/Linux, POSIX Own choice
+ +
Port number Remote connection Server language OSGeo project WMS WFS WCS SLD Other
8080 Via web browser Java Yes Yes Yes Yes Yes -
+ + + + + + +
Client usage
Set-up Download vector data Download raster data Upload vector data Upload raster data Upload data style User examples Other
Via Network Link in external UI In GeoServer's Web Administration Interface; External program using PHP In GeoServer's Web Administration Interface; External program using PHP In GeoServer's Web Administration Interface; PostGIS and PostgreSQL In GeoServer's Web Administration Interface; PostGIS and PostgreSQL In GeoServer's Web Administration Interface; PostGIS and PostgreSQL? FAO, Global Earthquake Model, World Bank
Restrictions
Number of restrictions
>3
General
Description
Expectation
Storage hierarchy Projections
Software and hardware
+
+ +-
Directly connect to the database and download, upload, and edit geospatial raster and vector data via ArcCatalog.
+-
-
+
+ + ++
MS Windows, GNU/Linux, AIX, HP-UX, Solaris ArcSDE for PostgreSQL (including PostgreSQL 8.3, so previous installations should be removed) 5432 (service port number: 5151) In router's menu .NET/Java No Yes Yes Yes Yes -
++-
+ + + + + ++
In ArcCatalog In ArcCatalog and/or ArcToolbox with Extract-Clip tool In ArcMap with Mosaic Raster Catalog In ArcCatalog In ArcCatalog Yes, only as file geodatabase in ArcMap -
++++++-
+
>3
+
++ + + + +
General
Description
Expectation
A web based Geographic Metadata Catalog for data description and discovery. It originates from the United Nations and is used by many governments as geoportal software. Open source cataloging application for spatially referenced resources, so a catalog of location-oriented information. "Several related tools are packaged with GeoNetwork, including GeoServer. GeoServer stores geographical data, while GeoNetwork catalogs collections of such data."
Pos (+) / Neg (-)
3. GeoNetwork Opensource
-
Open source Developer Last stable release
Yes FAO-UN, WFP, UNEP, UNOCHA 2.6.4, May 2011
+
Manual Website
Yes, user and developer manual, written by users http://geonetwork-opensource.org/
+-
Architecture
Database used Storage used Application server used User Interface (UI) used Gateway to UI Data view
-
-
Data
Input data format
-
-
Storage hierarchy Projections
-
-
Adding data
-
-
Demos
-
-
Operating system Database software
MS Windows, Mac OS X, Linux, POSIX -
+ -
Port number Remote connection Server language OSGeo project WMS WFS WCS SLD Other
Java Yes Z39.50; CSW 2.0; OAI-MPH; OpenSearch (GEO); GeoRSS
+ + +
Client usage
Set-up Download vector data Download raster data Upload vector data Upload raster data Upload data style User examples Other
FAO; WHO; ESA Z39.50; CSW 2.0; OAI-MPH; WebDAV
+ +
Restrictions
Number of restrictions
-
-
Software and hardware
+
Bijlage 6 - Evaluatieplan Evaluatieplan project cards AvM, 25-10-2011, definitief Doel evaluatieplan Met behulp van standaard richtlijnen evalueren of de resultaten van het project behaald zijn Doelgroepen Projectleden en collega’s die betrokken waren bij het uitvoeren van het project Onderzoekers die aan de pilots hebben meegedaan Onderdelen van het project die geëvalueerd worden 1. Informatie pakket 2. Pilots 3. Verloop project 1. Digitaal informatiepakket Doel van de evaluatie van het informatie pakket is nagaan of de informatie die in het pakket wordt aangeboden voldoet aan de informatiebehoeftes vanuit onderzoekers en ondersteuners (informatiespecialisten en data librarians). Doel voor het WP Digitaal Informatiepakket: Het ontwikkelen van een digitaal informatiepakket voor onderzoekers en voor instellingen. 1.1 Evaluatieplan informatiepakket a) Alle projectpartners geven feedback over het eerste concept van het Informatie pakket (deadline: mei 2011) b) Alle projectpartners geven feedback over de definitieve versie van het Informatie pakket (deadline: begin oktober 2011) c) Projectpartners die met de pilots werken, vragen aan de betrokken onderzoekers hun mening over de informatie in het informatie pakket volgens standaard vragenlijst (zie bijlage A). Deze vragenlijst wordt toegevoegd aan de vragenlijst evaluatie pilot (deadline: half november 2011) 2. Pilots Doel van de evaluatie van de pilots is onderzoeken of de doelstelling zoals in het projectplan is beschreven, is gehaald. Doel van WP pilots is: Het aanbieden en leveren van hands-on ondersteuning aan onderzoekers bij hun onderzoekswerk voor zover het gaat om het opslaan en bewaren van hun onderzoeksgegevens en het delen daarvan met andere onderzoekers binnen en buiten hun onderzoeksgroep. 2.1 Evaluatieplan pilots a) Projectpartners die de pilots uitvoeren, vragen aan de betrokken onderzoekers hun mening over het verloop van de pilots volgens standaard vragenlijst (zie bijlage B) (deadline: half november 2011) b) Projectpartners die de pilots uitvoeren zullen hun bevindingen volgens standaard vragenlijst aangeven (zie bijlage C). Deze vragenlijst is onderdeel van de evaluatie van het verloop van het project (deadline: 20 november 2011). 3. Verloop project Doel van deze evaluatie is nagaan hoe de projectleden het project hebben ervaren en welke conclusies en aanbevelingen de projectpartners willen meegeven aan Surf.
83
a) Projectpartners evalueren het verloop van het project volgens standaard vragenlijst (zie bijlage D) (deadline: 20 november 2011). b) Projectpartners evalueren het verloop van het project en geven aanbevelingen aan SURFfoundation (deadline: 20 november 2011).
84
Bijlage A: Vragenlijst voor onderzoekers over Digitaal Informatiepakket Geachte onderzoeker, U hebt een bijdrage geleverd aan het project CARDS (Controlled Access to Research Data, Stored Securely). Om tegemoet te komen aan de wens van onderzoekers om over praktische informatie met betrekking tot het beheren, documenteren en delen van data te kunnen beschikken, heeft dit project een digitaal informatie pakket ontwikkeld. We willen graag u een paar vragen stellen over dit pakket dat te vinden is op http://www.dans.knaw.nl/content/categorieen/diensten/datamanagement-plan. 1. Vindt u dat dit informatie pakket genoeg informatie biedt voor onderzoekers die een datamanagementplan willen opstellen? Gaarne toelichten.
2. Hebt u vragen over het opslaan, bewaren en delen van onderzoeksdata die u niet kon vinden in dit pakket? Kunt u deze vragen hieronder aan ons stellen?
3. Zijn er specifieke vraagstukken bij het bewaren en delen van onderzoeksdata vanuit uw onderzoeksgroep of vakgebied die u mist in dit pakket? Zo ja, welke?
85
4. Hebt u andere opmerkingen/suggesties over dit pakket die u met ons wilt delen?
Hartelijk dank voor uw bijdrage!
86
Bijlage 2: Evaluatie pilots (doelgroep: onderzoekers) Geachte onderzoeker, U hebt een bijdrage geleverd aan het project CARDS (Controlled Access to Research Data, Stored Securely). De projectgroep wil graag een aantal vragen over het verloop van de samenwerking tussen u een onze projectmedewerker(s) stellen. 1. Het doel van de pilots binnen het project CARDS was het aanbieden en leveren van hands-on ondersteuning aan onderzoekers bij hun onderzoekswerk voor zover het gaat om het opslaan en bewaren van hun onderzoeksgegevens en het delen daarvan met andere onderzoekers binnen en buiten hun onderzoeksgroep. Vindt u dat onze medewerkers u voldoend kon ondersteunen op dit gebied? Gaarne toelichting.
2. De projectgroep is bewust van het feit dat niet alle wensen binnen de pilots van CARDS gehonoreerd kon worden. Kunt u ons aangeven welke wensen u nog hebt ten aanzien van het bewaren en delen van onderzoeksdata?
3. Vindt u het noodzakelijk om ondersteuning van een specialist te hebben als het gaat om het opslaan en delen van uw onderzoeksdata? Gaarne toelichting.
87
4. Vond u het nuttig en/of noodzakelijk om een data management plan op te stellen?
5. Als u geen ondersteuning van de projectgroep had gehad, hoe had u het willen oplossen? Waar zoekt u ondersteuning?
6. Bij het opslaan van data, vindt u het belangrijk om te weten waar het fysiek is opgeslagen?
7. Hebt u andere suggesties/opmerking over de pilot?
Hartelijk dank voor uw bijdrage!
88
Bijlage 3: Evaluatie pilots (doelgroep: projectleden) 1. Had u al eerder met datamanagement gewerkt?
JA
NEE
2. Had u al eerder onderzoekers ondersteund met het opslaan en delen van onderzoeksdata?
JA
NEE
3. Vond u dat u voldoende kennis had over het opslaan en delen van onderzoeksdata toen de pilot begon?
JA
NEE
4. Vindt u dat u nu voldoende kennis hebt om onderzoekers te kunnen ondersteunen bij het opslaan en delen van onderzoeksdata? Gaarne toelichting.
5. Hoe ervaart u het verloop van de pilot?
6. Hebt u nog suggesties/opmerkingen die een bijdrage kunnen leveren voor het opslaan en delen van onderzoeksdata?
Hartelijk dank voor uw bijdrage!
89
Bijlage 4: Evaluatie project Beste Driek, Gera, Laurents, Maarten, Peter S., Peter V. en Rob, Ons project is bijna ten einde. Het was een prettige samenwerking, waarvoor mijn dank. We hebben samen een steen kunnen bijdragen aan het verder structureren van onderzoeksgegevens, een hot item zoals het bleek uit verschillende krantenberichten in de laatste periode. Met de volgende vragen wil ik het inhoudelijk deel van het project evalueren. 1. Voldoen de opgeleverde resultaten van het project aan je verwachtingen? Gaarne toelichting.
2. Welke aanbevelingen zal je mee willen geven aan SURFfoundation en de betrokken instellingen?
90
Bijlage 7 – Standlijnenoverzicht Deliverables
Onderdelen
UREN
JAN
FEB
MRT
APR
MEI
JUN
JUL
AUG
SEP
OKT
NOV
DEC
Deelresultaat 1 Kick-off meeting
40
Vormgeving accountmanagement
120
Inventarisatie bouwstenen support
80
Deelresultaat 2 Accountmanagement
250 Inventarisatie wensen onderzoekers Data management plan per pilot Evaluatie
Uitvoeren pilots
-500
Inventarisatie realisatie Werkzaamheden uitvoeren Bijstelling werkzaamheden (indien nodig) Rapportage en overleg (van het project)
180 Bijeenkomsten
--
Rapportage
--
Deelresultaat 3 Inventarisatie informatiepakket
50
91
Deliverables
Onderdelen
UREN
JAN
FEB
MRT
APR
MEI
JUN
JUL
AUG
SEP
OKT
NOV
DEC
Inventarisatie hosting Overbrengen content Ontwikkelen informatiepakket
120 Testen content en feedback geven Afronding informatiepakket: borging
Deelresultaat 4 Projectmanagement
180
--
Organisatie afsluitende bijeenkomst
40
--
Schrijven publicatie
40
Presentaties (6)
60
Deelresultaat 5
--uitgevoerd volgens planning
--
wordt uitgevoerd, met vertraging/gekozen om later te beginnen planning volgens Controlling Document niet uitgevoerd in deze maanden
92
--
--