Verslag Expertbijeenkomst
SURFshare WP6 project “Waardevolle data & diensten”
1
Inleiding Dit document is een beknopt verslag van de expertbijeenkomst gehouden in het kader van het project “Waardevolle data & diensten” op 4 juni 2009 te Utrecht.
Verslag Expertbijeenkomst MiniMini-seminar Waardevolle Data & Diensten, Diensten, 4 juni 2009 Het mini-seminar vormt de afronding van een kortlopend onderzoek, mogelijk gemaakt door SURF, uitgevoerd door de 3 Technische Universiteiten en DANS (het datacentrum voor alfa- en gammawetenschappen). Het mini-seminar werd opgesplitst in twee onderdelen. -
Het eerste deel (ochtend) bestaat uit een voorbereidende sessie en het genereren van stellingen op basis van de casestudies, voor een datacentrum voor (technisch-) wetenschappelijke data vanuit het perspectief van de dataproducenten (d.w.z. de wetenschappers uit het (technisch-) wetenschappelijk veld).
-
Het tweede deel (middag) bestaat uit het toetsen van de gegenereerde functionele eisen op ‘generaliseerbaarheid’, het beoordelen van stellingen en discussie.
Gestart wordt met ‘Story telling’, toegelicht door Alares. Hiertoe worden drie groepen gevormd, waarbij elke groep een andere invalshoek krijgt toegewezen: Onderzoeker, Bedrijfsleven en BV Nederland. De bedoeling is om vanuit het oogpunt van de verschillende invalshoeken te kijken naar de invulling van een 3TU.Datacentrum. Uit de resultaten werd een aantal hoofditems geselecteerd. 1.
Kwaliteit
2.
Standaardisatie
3.
Gebruiksgemak voor de dataproducent
4.
Dataopslag/(werk)proces
5.
Vindbaarheid/metadata
6.
Toegang/gebruikerseisen
Overzicht geformuleerde stellingen: 1.
Gebruik van een centrale dataopslag moet gratis zijn.
2.
Alle datasets in het datacentrum zijn openbaar toegankelijk.
3.
Bewerkingen op de data moeten als onderdeel van de data bij de data opgeslagen worden, zodat je data kunt reviewen.
4.
Er moeten open standaarden gebruikt worden om data op te slaan.
5.
De onderzoeker moet gedwongen worden door middel van beleid, om data beschikbaar te stellen.
6.
Datasets moeten refereren aan publicatie en publicaties naar data.
7.
Alleen bewerkte data (gevalideerde meetgegevens en samenvattingen) moeten opgeslagen worden en hergebruikt.
2
8.
Een wetenschappelijk datacentrum moet beschikken over rekencapaciteit om de data te kunnen analyseren.
9.
De wetenschapper bepaalt welke data hij opslaat in het datacentrum.
10. In het onderzoeksplan moet al beschreven zijn hoe het databeheer wordt uitgevoerd. 11. De onderzoeksinstellingen moeten het gebruik van het datacentrum onderdeel maken van het onderzoeksproces. 12. Eisen met betrekking tot standaardisatie belemmeren onderzoek. 13. Het datacentrum moet in een vroeg stadium betrokken worden bij dataopslag. 14. Het toekennen van metadata (voor één jaar onderzoek) mag maximaal één dag kosten. 15. Onderzoekers die datasets van een datacentrum voor eigen onderzoek gebruiken moeten hun eigen onderzoeksgegevens ook aan het datacentrum leveren. 16. Alle data moet een authentieke bron hebben die herleidbaar is. 17. Online interactie over de datasets binnen het datacentrum heeft een toegevoegde waarde. 18. Standaardisatie van grootheden en units (vocabularies) is noodzakelijk voor hergebruik van onderzoeksdata. 19. De onderzoeker wil graag onderwezen worden over standaarden. 20. Kwaliteit is primair de verantwoordelijkheid van dataleverancier (= onderzoeker). 21. Datasets moeten pas beschikbaar worden gesteld nadat de resultaten zijn gepubliceerd. 22. Data moeten opgeslagen worden tijdens het onderzoek in een vaste structuur met templates. De stellingen die een controverse opriepen werden besproken. In volgorde van de hoofditems (met uitzondering van de kwaliteit – daar is geen discussie over mogelijk) waren dat de volgende stellingen. Hoofditems: 1. Kwaliteit 2. Standaardisatie 3. Gebruiksgemak voor de dataproducent 4. Dataopslag/(werk)proces 5. Vindbaarheid/metadata 6. Toegang/gebruikerseisen
2. Standaardisatie
Stelling: eisen met betrekking tot standaardisatie belemmeren onderzoek Strengths & Opportunities: > Nieuwe benadering van onderzoek en beschrijving van resultaten is goed voor de creativiteit / diversiteit > Standaardisatie in een vroeg stadium is soort ‘opleiding’ Concerns & Weaknesses: > Het is niet de standaardisatie van het onderzoek, maar de standaardisatie van het vastleggen van de resultaten. > Als de eisen aan de onderzoekers worden opgelegd is het belemmerend > Wel voor gebruiker, niet voor leverancier > Alleen maar geaccepteerd door community Discussie: -
In keurslijf gedwongen om standaard formaat te gebruiken
-
Systeem van opslaan standaardiseren
-
Balans: minimum eisen (richting geven), anders te veel tijd / geld
-
Hangt af van community vakgebied
3
-
Resource / Reference / Research
-
Standaard voor hergebruik
-
Experimenteel (nieuw) onderzoek > zijn nog geen standaarden voor
-
Evolutie in onderzoeken > nieuwe standaarden
-
Oude gegevens? Conversie? Niet voldoende.
-
Proces standaardiseren? Wel handig.
-
Ingang verschilt, procesbeschrijving is standaard, niet de inhoud
-
Makkelijk terugvinden?
-
Belemmert, procesbeschrijving vernieuwt ook
3. Gebruiksgemak voor de dataproducent
Stelling: een wetenschappelijk datacentrum moet beschikken over rekencapaciteit rekencapaciteit om de data te kunnen analyseren (uit interview gehouden bij TUDelft) Strengths & Opportunities: > Niet altijd nodig maar beter dan data transporteren > Anders hadden we de data wel op onze eigen PC opgeslagen Concerns & Weaknesses: > Vooral de onderzoeker moet hierbij betrokken zijn > Lijkt mij onmogelijk vanwege de variëteit aan data > Analyse door gebruiker, niet door datacentrum Discussie: -
Datacentrum niet rekenen in principe, eventueel als extra dienstverlening en hangt af van data + grootte. > Dienstverlening aanbieden?
-
Hoeft niet.
-
Query moet op datacentrum kunnen.
-
Redenen waarom niet als het er wel is?
-
Gemak = zelf doen. Is in principe niet aanwezig bij datacentrum. Haalt uit het datacentrum en berekent zelf.
-
Framework voor analysestructuur kan zijn: onderdeel data en onderdeel tools. Gaat dit te ver? Software veroudert snel
-
Niet de essentie van het datacentrum
-
Doel is dataopslag? Doel is diensten verlenen?
-
Datacentrum controleert centraal, buiten onderzoeker/dataleverancier
-
Kijken naar behoefte analyse in eigen beheer, is flexibeler
-
Risico dat men rekencapaciteit niet gebruikt, dus niet opnemen
4. Dataopslag/(werk)proces
Stelling: er moeten open standaarden gebruikt worden om data op te slaan (open on nafhankelijkheid) source standaarden, o Strengths & Opportunities: > Open standaarden altijd te interpreteren > Goed voor uitwisseling van data > Is wel wenselijk, maar mag niet belemmerend zijn. Concerns & Weaknesses: > Digitale duurzaamheid is grotendeels een beheersprobleem. Discussie: -
Moeten? Verplichten?
4
-
Nieuwe data is nieuwe standaard
Gebruikerskant gemakkelijk aanleveren maar er zijn grenzen…
5
Stelling: alleen bewerkte data (gevalideerde meetgegevens en samenvattingen) moeten opgesla agen worden en hergebruikt opgesl Strengths & Opportunities: > Is dat verschillend voor meetdata en beelddata? Concerns & Weaknesses: > Data moeten ‘objectief’ zijn > Meer mogelijk met ruwe data > Moet je documenteren in de metadata > Validatie moet er wel bij, maar niet alle bewerkte informatie > Meer hergebruik mogelijk met ruwe data Discussie: -
Ruwe data ten behoeve van reconstructie?
-
Kwestie van wat wil je bewaren
-
Na publicatie moet het blijven staan, ook al zitten er fouten in
-
Kostenplaatje voor bewaren ruwe data
-
Voor andere onderzoekers wel ruwe data van belang = wens is alles opslaan
-
Vindbaarheid wordt probleem
-
Vóóraf niet bekend wat er ontwikkeld wordt
-
Hanteerbaarheid, groeit wel!
-
Bewaartermijn? Goedkoper om gewoon te laten staan
-
(Bewaar)Kosten in onderzoek meenemen?
Belang van bewaren goed bekijken.
Stelling: de wetenschapper bepaalt welke data hij opslaat Strengths & Opportunities: > Wie heeft de verantwoordelijkheid over beheer? > Wie anders? > Ja, maar een datacentrum moet ook aanbod kunnen weigeren Concerns & Weaknesses: > Open deur > En wie bepaalt er OF er data worden opgeslagen? > Maar eventuele deselectie mogelijk door datacentrum > Niet altijd in belang van hergebruik. Discussie: -
Risico: te makkelijk gebruik. Controle!
-
Verwijderen data mogelijk? Kwaliteitscontrole daarop.
-
Eis stellen van financier aan datacentrum
-
Data reviewen ten behoeve van en vóór publicatie
-
Metadata / publicatie koppelen, dezelfde referees
-
Ruwe data of bewerkte data?
-
Reviewer globaal alles bekijken.
-
Nooit waterdicht.
-
De wetenschapper wordt hierop afgerekend!
Interactie: online bespreken voor waardebepaling? Binnen vakgebied. Link voor forum; geen oordeel in het datacentrum.
6
Stelling: in het onderzoeksplan moet al beschreven zijn hoe het databeheer wordt uitgevoerd Strengths & Opportunities: > Databeheer is een proces wat zich goed laat plannen > De onderzoeker moet er inderdaad wel in het begin over nadenken > Zo wordt voorkomen dat achteraf moet worden gezocht naar (meta)data > Indien van toepassing is dit handig maar niet verplicht Concerns & Weaknesses: > Echt onderzoek laat zich niet plannen Discussie: -
Hangt af van soort onderzoek. Niet dichttimmeren.
-
Nadenken over hoe meetgegevens vastleggen, maar flexibel.
-
Invloed datacentrum minimaal.
-
Hoe wel?
-
Hoe gemeten wordt = onderzoeker. Afspraak maken: start al bij datacentrum, einde overdracht naar datacentrum. Is missende schakel.
-
Publicatie is einde van de lijn.
-
Spanning tussen onvoorspelbaar en wat je verwacht
-
Tijdwinst in vroeg stadium > datacentrum?
-
Soms vooraf niet te bepalen
-
Bewustwording!
Stelling: het toekennen van metadata ((voor voor één jaar onderzoek) mag maximaal één dag kosten Strenghts & Opportunities: > Indien toekennen metadata weinig tijd kost wordt drempel aanleveren verlaagd > Termijn afhankelijk van kosten voor herhaling en risico op verlies > De boodschap is duidelijk, zo weinig mogelijk, zeker bij het opstarten van een datacentrum Concerns & Weaknesses: > Het moet natuurlijk geen weken werk worden! > Wie kent de metadata toe? Onderzoeker of ‘data-librarian’? > Liever nog minder dan één dag > Sterk afhankelijk van soort onderzoek > Wat heb je aan deze regel? Discussie: (Ten behoeve van drempelverlaging) -
Hangt af van type data
-
Eenvoudig houden
-
Gelijke benaming / lijst?
-
Minimum = aantal metadatavelden. Geen maximum om méér te genereren.
Minimum beperkte tijd.
7
5. Vindbaarheid/metadata
Stelling: datasets moeten refereren aan publicaties en publicaties naar data Strengths & Opportunities: > Indien mogelijk = toegevoegde waarde > Strenght: enhanced publication > Incentive voor creëerders > Datasets ‘behandelen’ als een publicatie > incentive voor onderzoeker > Bij voorkeur wel, maar niet altijd beschikbaar. Als er een link is, moet die erbij. Concerns & Weaknesses: > Soms wel, soms niet Discussie: Geen.
vaste Stelling: data moeten opgeslagen worden tijdens het onderzoek in een vas te structuur met templates Strenghts & Opportunities: > Alleen indien mogelijk > Komt overzichtelijkheid ten goede > Helpt eenvoud van opslag Concerns & Weaknesses: > Onpraktisch > Niet realistisch > Beter ná een onderzoek > Ruwe data moeten eerst worden verfijnd vóór formele opslag > Wel opslag tijdens onderziek, vraagtekens bij vaste structuur vanwege variatie in data > Is handig, dus is daarom aantrekkelijk, maar het moet niet teveel moeten. Discussie: -
Het ‘moeten’….
Niet te veel vastleggen
6. Toegang/gebruikerseisen
Stelling: gebruik van een centrale dataopslag moet gratis zijn Strenghts & Opportunities: > Wel voor onderzoeker die openbare set levert (maar iemand betaald). Shared of private data kost wel geld. > Ja, voor onderzoeker / creëerder en voor hergebruik. Concerns & Weaknesses: > Kosten mogen geen belemmering zijn. > Voor (centrale) dataopslag moet businessmodel ontwikkeld worden. > Stimuleert gebruik. > Er zijn altijd kosten, die vraag is wie het moet betalen. > Voor commercieel gebruik tarief vragen. Discussie: -
Kost altijd geld
-
Nadenken over financierings-/businessmodel
-
Publieke middelen > publieke gegevens 3TU = projectfinanciering.
8
Algemeen belang > deel kosten Verdiensten uit gebruik Onderzoeksfinanciering t.b.v. datacentrum -
Eénmalig bedrag voor opslag
-
Niet koppelen aan projecten, losse financiering
-
Drempels verlagen!
-
Financiers onderzoek laten betalen met eis tot dataverstrekking
-
Beleidsvoornemen
-
Maatschappelijke verantwoordelijkheid bij organisaties die onderzoek financieren
-
Niet onderzoekers laten betalen, ook niet voor administratieve afhandeling
-
Eventueel voor extra dienstverlening kosten heffen, maar keuze laten
-
Door duurzame opslag andere kostentoekenning. De basis = kosten organisatie; de toeters en bellen = kosten financier.
-
Extra diensten gedurende bepaalde tijd.
Stelling: de onderzoeker moet gedwongen worden door middel van beleid om data beschikbaar te stellen Strenghts & Opportunities: > Het is zijn morele plicht en dus mag zijn baas er ook op wijzen > Opportunity is verandering van cultuur Concerns & Weaknesses: > Mensen produceren slecht onder dwang > Niet dwingen maar overtuigen > Moet meerwaarde voor onderzoeker zijn > Te bepalen door financier van het onderzoek Discussie: -
Beleid moet dat wel willen, de organisatie moet hier een uitspraak over willen doen.
-
Onderzoekers of beleidmakers? Beide!
-
Kretologie – stoffig imago (herbruikbaarheid)
-
Cultuurverandering > stimulans
Stelling: onderzoekers die datasets van een datacentrum voor eigen onderzoek eiigen onderzoeksgegevens ook aan het datacentrum leveren gebruiken moeten hun e Strengths & Opportunities: > Stimulans data leveren > Men moet niet als ‘profiteur’ te boek gaan staan; morele druk! > Opportunity om cultuur te veranderen Concerns & Weaknesses: > Drempel voor hergebruik > Is datacentrum enkel arhief of biedt datacentrum toegevoegde waarde > In principe wel maar er zijn uitzonderingen > Niet van toepassing voor theoretici. > ‘Moeten’ is nooit goed. Discussie: Op termijn alle data openbaar
9
beschikbaar Stelling: datasets moeten pas be schikbaar worden gesteld nadat de resultaten zijn gepubliceerd Strenghts & Opportunities: > Bevordert kwaliteit > Citatie naar publicatie mogelijk > De onderzoeker wil niet dat anderen gaan pronken met de resultaten Concerns & Weaknesses: > Hangt van het soort data af, in principe na afronding onderzoek / project > Moet onderzoeker zelf kunnen bepalen, mag eerder, niet later > Mag wellicht eerder > Bepaalt de onderzoeker > Vraag is aan wie? Discussie: -
Andersom!
-
Embargoregeling / openbaarheid
-
Verschil data + publicatie (conclusie) in tijdplanning
-
Data openbaar > dan onderzoek en/of publicatie
-
Financier geeft ook regels en stelt eisen
-
Publicaties versus kwaliteit
10