Digitale objecten in digitale context Eindrapport van het NCDD-‐project Digitale objecten in digitale context, voorheen Verrijkte publicaties
NCDD Nationale Coalitie Digitale Duurzaamheid
Den Haag, 17 augustus 2015 | Barbara Sierman -‐ Koninklijke Bibliotheek | Data Archiving and Networked Services | Nederlands Instituut voor Beeld en Geluid | Nationaal Archief | 3TU.Datacentrum-‐TU Delft
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 Voorwoord Het voorliggende rapport beschrijft de resultaten van het project Digitale objecten in digitale context (voorheen Verrijkte publicaties). Dit project is uitgevoerd tussen april 2014 en juni 2015 in opdracht van de Nationale Coalitie Digitale Duurzaamheid (NCDD). Het is een van de samenwerkingsprojecten die zijn geformuleerd in de strategische agenda van de NCDD en het NCDD-‐programmaplan 2013 – 2018. Het project maakt onderdeel uit van een reeks van projecten die de basis vormt voor de inrichting van een netwerk van landelijke voorzieningen voor duurzame toegang tot digitale informatie in Nederland. Het eindresultaat is tot stand gekomen in een nauwe samenwerking tussen de Koninklijke Bibliotheek (Barbara Sierman), Data Archiving and Networked Services (Paula Witkamp), het Nederlands Instituut voor Beeld en Geluid (Bas Agterberg), het Nationaal Archief (Mette van Essen) en 3TU.Datacentrum-‐TU Delft (Maurice Vanderfeesten). De projectleiding was in handen van de Koninklijke Bibliotheek. Over de NCDD De Nationale Coalitie Digitale Duurzaamheid is in 2008 opgericht door organisaties uit de publieke sector die de langdurige zorg voor digitale informatie in het publieke domein tot hun kerntaak rekenen. De NCDD fungeert als platform voor het delen van kennis en expertise en coördineert de ontwikkeling van een landelijk netwerk waarin de toegang tot digitale informatie van de publieke sector gegarandeerd is. www.ncdd.nl
2
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
Inhoudsopgave
1. 2. 3. 4.
Management samenvatting .................................................................................................................................... 4 Doelgroep van dit rapport / leeswijzer ................................................................................................................... 5 Project doel, samenstelling en verloop ................................................................................................................... 6 Probleemstelling en scope ...................................................................................................................................... 7 1. Inventarisatie fenomeen ..................................................................................................................................... 7 2. Terminologie ....................................................................................................................................................... 7 3. Probleemstelling ................................................................................................................................................. 8 Situatie A: context is integraal onderdeel van object ............................................................................................. 8 Situatie B: context is niet-‐integraal onderdeel van object ..................................................................................... 8 4. Scope ................................................................................................................................................................... 9 5. Gekozen aanpak ................................................................................................................................................ 10 5. Beschrijving use case proefschriften ..................................................................................................................... 11 1. Aanpak .............................................................................................................................................................. 11 2. Huidig beleid proefschriften Koninklijke Bibliotheek ........................................................................................ 11 3. Huidige beleid datasets van DANS .................................................................................................................... 12 4. Huidig beleid bij de Technische Universiteit Delft en 3TU ................................................................................ 13 5. Conclusies en aanbevelingen proefschriften .................................................................................................... 14 6. Beschrijving use case BZK ...................................................................................................................................... 18 7. Beschrijving use case UBL ..................................................................................................................................... 20 8. Beschrijving use case Beeld en Geluid .................................................................................................................. 22 9. Blik vooruit ............................................................................................................................................................ 23 10. Conclusie & Aanbevelingen voor NCDD partners ............................................................................................... 25 11. Bijlage 1: Gebruikte afkortingen en begrippen ................................................................................................... 28 12. Bijlage 2: Uitgangspunten bewaarbeleid in Nederland ....................................................................................... 29
3
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
1. Management samenvatting De vraag die aan deze NCDD werkgroep ten grondslag ligt is, hoe bewaren we context die hoort bij een digitaal object dat duurzaam wordt bewaard. Een eenvoudige use case, namelijk een proefschrift met bijbehorende dataset is daarbij als uitgangspunt genomen, analyse van deze case leidt tot de conclusie dat er bij de collectiehouders én de wetenschappers een fundamentele andere manier van denken nodig is, willen we erin slagen niet alleen afzonderlijke objecten voor de lange termijn te bewaren maar ook de bijbehorende context, die in veel gevallen door een andere instelling wordt bewaard. Andere manier van denken omdat de onderzoeker zich moet realiseren dat zijn bronnen niet “vanzelf” permanent toegankelijk zullen blijven. En de collectiehouders moeten zich realiseren dat de context van de door hun duurzaam opgeslagen objecten wel eens bij een andere collectiehouder aanwezig kan zijn. Dit heeft gevolgen voor de toegankelijkheid op termijn van hun eigen collectie. Dit rapport doet een reeks van aanbevelingen om de huidige situatie te verbeteren. Gezien de samenstelling van de werkgroep binnen het kader van de NCDD zijn deze aanbevelingen vanuit het oogpunt van de collectiehouders opgesteld. De aanbevelingen zijn er in eerste instantie op gericht om de proefschriften en bijbehorende context beter te bewaren. In tweede instantie om een mechanisme in gang te zetten, waardoor in Nederland ook andere vormen van digitale objecten met bijbehorende context beter bewaard worden. Met name het in een zo vroeg mogelijk stadium toekennen van verbanden via persistent identifiers is van belang. Daarnaast is een integrale aanpak belangrijk, het gaat niet alleen om opslag, maar ook om toegang. De drie werkpakketten van het Netwerk Digitaal Erfgoed zijn daarvoor belangrijke ingangen. Maar het gaat ook om kennisdeling, bewust worden en “preservation watch”, alle drie punten die opgepakt kunnen worden binnen de Platform functie van de NCDD.
4
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
2. Doelgroep van dit rapport / leeswijzer Dit project Verrijkte Publicaties, later hernoemd tot Digitale Objecten in Digitale Context waarover later uitleg volgt, is uitgevoerd in opdracht van het NCDD bestuur. Zij zijn dan ook de eerst aangesprokenen in de management samenvatting en de aanbevelingen, omdat in samenwerking met het bestuur een concrete aanpak geformuleerd kan worden om de aanbevelingen te implementeren en zo een beter behoud van digitale objecten met hun digitale context in Nederland te bereiken. Binnen de leden van de NCDD maar ook bij potentiële leden. Daarnaast is dit rapport met aanbevelingen voor het duurzaam bewaren van Verrijkte Publicaties (VP’s) bedoeld voor management in instellingen die een verantwoordelijkheid hebben voor duurzame bewaring van de digitale objecten dan wel de bijbehorende digitale context. Samenwerking tussen deze instellingen en afstemming van het duurzaamheidsbeleid is noodzakelijk om digitale objecten én hun context ook op lange termijn toegankelijk te houden. Dit rapport beschrijft enkele concrete use cases, maar het geschetste probleem is ruimer. Het is namelijk ook van toepassing op context, die al dan niet tijdelijk, door instellingen wordt toegevoegd aan hun objecten om de klanten tevreden te stellen, maar die van andere instellingen afkomstig is (gekopieerd) of waarnaar gerefereerd wordt. Denk bijvoorbeeld aan het Instituut voor Beeld en Geluid (BenG), die filmfragmenten voorziet van fragmenten uit de krantencollectie van de Koninklijke Bibliotheek (KB) in Delpher. Dit rapport beschrijft eerst de probleemstelling en scope van het project. Vervolgens beschrijven we de samenstelling van het project team en de gekozen aanpak. Uiteindelijk is besloten twee use cases tot in detail uit te werken omdat deze als exemplarisch beschouwd kunnen worden voor zowel het schetsen van de problematiek als voor de voorgestelde oplossingsrichting. Dit is beschreven in hoofstukken 6 Use case proefschriften en hoofdstuk 7 Use case BZK. Daarna volgen in hoofdstuk 8 en 9 twee beschrijvingen van praktijksituaties zoals die zich bij de Universiteits bibliotheken Leiden (UBL) en BenG voordoen. Tot slot formuleren we een aantal aanbevelingen, waarbij ook is aangegeven wie actie kan ondernemen en waar dit zou toe moeten leiden. De bijlages geven relevante informatie die de tekst ondersteunt.
5
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
3. Project doel, samenstelling en verloop Het project “Verrijkte Publicaties” is gestart in mei 2014 en valt onder het thema “Infrastructuur” van het strategisch plan van de NCDD. Uit de samenvatting van het projectvoorstel komt het volgende als doelstelling naar voren: “Dit voorstel richt zich op een nadere verkenning van de noodzakelijke samenwerking tussen bewarende instellingen rondom het duurzaam toegankelijk houden van verrijkte publicaties en het in kaart brengen van de problemen die zich daarbij voordoen. “ Het project ambieert de volgende resultaten op te leveren: 1. Overzicht recente internationale ontwikkelingen rondom verrijkte publicaties. 2. Beschrijving en definitie van een Verrijkte Publicatie binnen NCDD verband, waarbij is aangegeven wie verantwoordelijk is voor de afzonderlijke delen en hoe dit gaat resulteren in een gedeelde presentatie voor de eindgebruiker: rapport en afspraken 3. Vaststelling en onderlinge afstemming van het duurzaamheidsbeleid ten aanzien van de afzonderlijke delen bij de collectiehouders: rapport en afspraken.1 Naar aanleiding van de besprekingen in de werkgroep en in overleg met de NCDD programma coördinator is besloten dit plan bij te stellen en voor een pragmatische aanpak te kiezen. Twee use cases werden uitgewerkt, aan de hand waarvan verschillende aspecten duidelijk te maken zijn. Het literatuuroverzicht is daarmee vervallen binnen dit project. De nieuwe aanpak leidde tot een minder brede scope, maar maakt wel duidelijk waar de knelpunten liggen. Deze informatie helpt op korte termijn concrete maatregelen te nemen. Uiteraard vragen de (inter-‐) nationale ontwikkelingen op dit gebied dat deze maatregelen daarna uitgebreid worden om ook andere use cases in goede banen te leiden. De werkgroep Verrijkte Publicaties bestaat uit de volgende deelnemers: Koninklijke Bibliotheek : Barbara Sierman (projectleiding) DANS: Paula Witkamp 3TU: Maurice Vanderfeesten Nationaal Archief: Mette van Essen Beeld en Geluid: Margot Knijn / Hans van der Windt, vanaf februari 2015 Bas Agterberg KB en DANS zijn de initiatiefnemers in deze werkgroep, en de overige deelnemers functioneren als klankbordgroep en dragen bij aan de verdere uitdieping van het probleem en het aandragen van oplossingen. Dit vanuit hun specifieke achtergrond en rol in het landschap van het Nederlandse digitale erfgoed. Deze werkgroep staat niet op zichzelf maar heeft duidelijke raakvlakken met de andere werkgroepen binnen de NCDD, zoals de werkgroep Collecties (die zich bezig houdt met wie wat bewaart), de werkgroep Certificering (die de collectiehouders voorbereidt op certificering, waarbij bijvoorbeeld preservation policies aan bod komen). Door voortgangsrapportages en periodiek projectleidersoverleg is de samenhang met andere projecten binnen de NCDD geborgd.
1 2
Projectplannen NCDD Fase 2 De TUD heeft aanvullende informatie over hun aanpak gegeven, die te omvangrijk is om in de bijlage op te nemen. Deze info
6
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
4. Probleemstelling en scope 1. Inventarisatie fenomeen Hoewel het concept van “verrijkte publicaties” al enige tijd bekend is, leek het verstandig na te gaan wat de verschillende deelnemende instellingen (hierna te noemen “collectiehouders”) daaronder verstaan. Er is in Nederland een redelijke consensus over wie wat bewaart: KB bewaart publicaties, het Nationaal Archief bewaart (NA) overheidsarchieven, DANS datasets evenals 3TU en BenG audiovisueel materiaal (zie bijlage 2). De deelnemers is gevraagd een voorbeeld te sturen van hun interpretatie van een “verrijkte publicatie”. In het kort tonen deze voorbeelden het volgende beeld. NA: Nationaal Archief ziet drie soorten van 'verrijkte bronnen' 1 linken binnen en naar verschillende soorten overheidsinformatie (o.a. KNMI, Centraal Bureau voor de Statistiek, Kadaster, Kiesraad/ANP, verzameling wet-‐ en regelgeving uit wetten.nl en de uitspraken van rechtbanken uit rechtspraak.nl) 2. aanbieden van eigen open datasets 3. verrijkingen van bestaande bronnen, onder andere door middel van indexen TUD: De TUD kent zowel situaties waarbij een publicatie aangevuld wordt met datasets, als situaties waarbij een dataset uitgangspunt is en waaraan (meerdere) publicaties gekoppeld kunnen worden. Zij hanteren het RDF model zoals dat indertijd door SURF is ontwikkeld. 2 Daarnaast wordt ook een wetenschappelijk meetinstrument, een gps locatie met data, als VP beschouwt. DANS DANS kent 2 soorten Verrijkte Publicaties die voortkomen uit het SURFshare programma: 1 is de publicatie "Wat veteranen vertellen", een traditionele publicatie uitgegeven door Amsterdam University Press plus een VP waarbij fragmenten van interviews die in het boek als tekst zijn opgenomen in de VP als audio fragmenten te horen zijn. Daarnaast heeft DANS via NARCIS een aantal archeologische publicaties verrijkt dmv verwijzingen naar personen, projecten en ander relevant materiaal (zie verder situatie A). KB De KB verzamelt in principe alleen publicaties. Publicaties worden in toenemende mate uitgebreid met bijbehorende informatie als datasets, die onlosmakelijk bij de publicatie horen, maar niet daarbij duurzaam worden opgeslagen (de dataset waarnaar verwezen wordt, wordt bijvoorbeeld bij DANS of 3TU opgeslagen). In het analoge tijdperk werd dit bijvoorbeeld gedaan door toevoeging van een informatiedrager als een CD achterin het boek te plaatsen. Voor born digital materiaal geldt dit niet. B&G Beeld en Geluid kwam met twee praktijkvoorbeelden. Geval 1 gaat over webarchivering, waarbij een deel van het relevante materiaal niet via het web bereikbaar is maar op een afzonderlijke server staat (de NPO server) bij een niet-‐duurzaam bewarende instelling en later toegevoegd wordt. Geval 2 gaat over AV materiaal dat door Beeld & Geluid aan nieuwe producties wordt afgestaan. Dit kan door een “harde toevoeging” maar ook door een link naar het bewaarde AV materiaal. In dat laatste geval kan B&G niet garanderen dat deze link ook in de toekomst werkt Samenvattend: onder de noemer “verrijkte publicaties” en “digitale objecten in digitale context” vallen -‐ volgens de collectiehouders aan deze werkgroep -‐ verschillende interpretaties. Om toch een gezamenlijke visie te ontwikkelen en concrete oplossingen voor het probleem te kunnen aandragen, was een duidelijke afbakening nodig.
2. Terminologie Dit werkpakket draagt als naam "Verrijkte Publicaties". Tijdens de eerste bijeenkomst met de deelnemers aan het werkpakket werd al snel duidelijk dat niet iedereen blij was met deze term, omdat "publicatie" een te strikte term 2
De TUD heeft aanvullende informatie over hun aanpak gegeven, die te omvangrijk is om in de bijlage op te nemen. Deze info is aanwezig in de NCDD dropbox onder Verrijkte Publicaties.
7
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 is en niet van toepassing voor alle collectiehouders. Besloten is daarom voortaan te spreken over "digitale objecten in digitale context" .
3. Probleemstelling In toenemende mate staat een digitaal object niet meer op zichzelf, maar is er aanvullende informatie die er bij hoort. Bij een boek kan dat een website van de schrijver zijn met achtergrond informatie over het boek, de hoofdpersonen en de schrijver. Maar het kan ook een dataset zijn waar de bron data in staan waar conclusies in het boek op gebaseerd zijn. Werd dit voorheen nog wel eens gerealiseerd door in het boek afzonderlijk een diskette te plaatsen, nu is de ontwikkeling dat het boek een digitale variant kent en (bij wetenschappelijke publicaties) de onderzoeker de digitale dataset ook ergens deponeert. Bij een uitgever, bij zijn universiteit, of op zijn eigen website, er zijn legio mogelijkheden. Voor een optimaal hergebruik van de digitale data en digitale publicaties is het nodig dat er verwijzingen tussen die elementen bestaan. En de uiteindelijke gebruiker verwacht niet anders dan een doorverwijzing naar alle bij elkaar horende onderdelen van de “verrijkte digitale publicatie”. 3 De toenemende aandacht voor data leidt er soms toe dat de dataset als beginpunt genomen wordt, waarbij publicatie(s) de verrijking zijn, bijvoorbeeld in het geval van een wetenschappelijke dataset waar meerdere onderzoekers hun publicaties op baseren. Het voor de lange termijn bewaren van digitale objecten, waarbij de context niet noodzakelijkerwijs door dezelfde instelling bewaard wordt, vraagt om een fundamenteel andere aanpak om tot een goed resultaat te leiden. Dit begint met een omschrijving van het fenomeen. Binnen deze werkgroep is op basis van concrete beschrijvingen die zijn aangedragen door de deelnemers, het volgende onderscheid gemaakt:
Situatie A: context is integraal onderdeel van object Digitaal object is met andere digitale objecten verbonden doordat de auteur, financier o.i.d. deze verbinding heeft gelegd. Hierbij wordt de context dus bepaald door een betrokkene bij het digitale object, dan wel direct (de auteur) dan wel indirect (bijvoorbeeld via regels van de subsidiërende organisatie/project die voorschrijven dat naar bepaalde informatie wordt verwezen in relatie tot de wetenschappelijke context). De context maakt onderdeel uit van het geheel en moet dus ook als zodanig gepresenteerd worden. Daartoe moet de link duidelijk in de meta data opgenomen worden, zodat de beherende instellingen deze informatie ook volgens hun werkprocessen kunnen verwerken.
Situatie B: context is niet-‐integraal onderdeel van object Digitaal object is met andere objecten verbonden op initiatief van een collectiehouder zelf en als “geste” naar de gebruiker van deze informatie. Hierbij wordt de context door de collectiehouder gemaakt en is niet noodzakelijk onderdeel van het geheel maar wordt wel gezien als een essentiële toevoeging door de collectiehouder. Deze context is echter geen onlosmakelijk onderdeel van het digitale object. Tegenwoordig gebeurt dit op grotere schaal en dit is een onderwerp in de werkpakketten 1 (zichtbaar) en 2 (bruikbaar) van het Netwerk Digitaal Erfgoed (NDE).
De volgende figuur (Figuur 1: Situatie B: toegang tot object en niet-‐integrale context) licht dit toe. Er zijn drie organisaties, elk met hun eigen mandaat dat bepaalt welke digitale objecten zij opslaan. Voor het geven van toegang is bij organisatie 1 bepaald dat niet alleen de eigen collectie digitale objecten toegankelijk wordt gemaakt, maar dat er ook “context” wordt meegegeven uit collecties van organisatie 2 en 3. Uiteraard kan deze situatie ook voor organisatie 2 en 3 gelden, maar ter wille van de overzichtelijkheid is dit niet in de figuur weergegeven 3
De term Verrijkte publicatie is in Nederland vooral bekend geworden door het werk van het EU project Driver en het SURFshare programma Verrijkte Publicaties. Internationaal wordt ook de term “enhanced publications” gebruikt.
8
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
Figuur 1: Situatie B: toegang tot object en niet-‐integrale context
Collectiehouders baseren de beschikbaarheid van hun collecties (deels) op veronderstelde aanwezigheid van context elders. De context kan echter verdwijnen omdat de beherende instelling deze verwijdert. Dan ontstaan er incomplete publicaties, dode links en ontevreden klanten. Let wel: dit geldt voor digitale objecten waar op basis van een selectiebeleid de waarde is vastgesteld, ze komen immers in aanmerking voor duurzame toegankelijkheid en opslag. Verlies van context leidt dus tot waardevermindering van de collectie. Dit geldt met name voor situatie A en in mindere mate in situatie B. Willen we in Nederland bereiken dat zowel digitaal object als context duurzaam toegankelijk blijft, dan moeten we dit organiseren: analyseren en tot een aanpak komen. Wie zorgt voor de verwijzingen? Hoe kunnen deze efficiënt in de werkprocessen worden opgenomen? Is er een begrenzing aan de te bewaren context? Zijn er meer modellen dan Situatie A en B die relevant zijn? Het duurzaam toegankelijk houden van zowel digitaal object als bijbehorende context vraagt om een fundamenteel andere aanpak: • Van de maker, die van meet af aan moet zorgen dat de relatie tussen de verschillende onderdelen vastligt. Niet langer meer kan de maker erop vertrouwen dat de collectiehouders de bijbehorende context kunnen vinden. Tijd, noch mankracht noch de benodigde kennis van het digitale object is hiervoor toereikend. De relatie tussen object en context zal dus direct, bij creatie, moeten worden vastgelegd. • Van de collectiehouder. Deze collectiehouder bewaart immers een digitaal object met nauwe banden met context die mogelijk bij een andere collectiehouder bewaard wordt (of vice versa). Met deze instelling (en) moet afstemming plaatsvinden over de wijze van bewaring, de termijn van bewaring en toegankelijkheid.
4. Scope In deze werkgroep hebben we ons moeten beperken. Wij zijn ons er terdege van bewust dat het gehanteerde model van “digitale objecten in digitale context” een vereenvoudiging van de werkelijkheid is. Maar dit is een bewuste abstrahering, om een eerste aanzet voor de te nemen maatregelen duidelijk te maken. Buiten de scope van deze werkgroep vallen het duurzame behoud van: - Linked (open) data. Het maken van verbindingen tussen objecten door middel van “linked open data” is een belangrijk middel om te ontsluiten en context toe te voegen aan digitale objecten. 9
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 - Complexe objecten4. Er ontstaan steeds meer vormen van complexe objecten, denk bijvoorbeeld aan interactive art, simulaties, visualisaties. Hoewel belangrijk, is dit onderwerp niet door deze werkgroep behandeld. - (Internationale) databases waarnaar vanuit objecten wordt verwezen, bijvoorbeeld auteursdatabases (DAI’s, NTA, Orcid, ISNI). - Verwijzingen naar digitale bronnen / digitale context die inherent is aan het object, maar geen zelfstandige eenheid vormen. Bijvoorbeeld verwijzingen naar elementen in databases, samples, of web sites. Vanuit duurzame bewaring zijn dit wel onderwerpen waar onderzoek naar gedaan moet worden, echter de tijdsplanning van deze werkgroep stond dat niet toe. Enkele van deze problemen worden geadresseerd in de aanbevelingen.
5. Gekozen aanpak Op basis van de werkgroep discussies en de ingebrachte voorbeelden, is gekozen voor een zeer pragmatische aanpak. Het idee daarachter is dat als we één duidelijke use case, die buiten discussie staat, kunnen beschrijven, we deze case daarna kunnen uitbreiden naar meer ingewikkelde situaties. Als eerste use case is gekozen voor Nederlandse proefschriften met bijbehorende data. Hoewel deze use case mogelijk in eerste instantie niet relevant is voor alle deelnemers in het project, is de verwachting dat met de uitbreiding van de use case wel alle deelnemers betrokken kunnen worden. Een tweede use case gaat over rapporten van het Ministerie van Binnenlandse Zaken, de zogenaamde BZK rapporten. Daarnaast is er vanaf het begin contact geweest met de UBLeiden die met het praktische probleem zaten van een website die als verrijkte publicatie opgeslagen moest worden in de repository. Deze derde use case is uitgebreid besproken door Barbara Sierman en Paula Witkamp met de betrokkenen van de Universiteitsbibliotheken Leiden en wordt beschreven door Laurents Sesink en Peter Verhaar, beiden werkzaam bij de UB Leiden.
4
Zie hiervoor bijvoorbeeld Preserving Complex Digital Objects. Paperback Edited by Janet Delve, Edited by David Anderson, By (author) Milena Dobreva. Facet Publishing, London 2014. ISBN 10: 1856049582 ISBN 13: 9781856049580
10
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
5. Beschrijving use case proefschriften De eerste use case die uitgewerkt is, is die van Nederlandse proefschriften met gerelateerde datasets. Op dit moment is er geen garantie dat proefschriften als digitale objecten samen met hun digitale context (datasets e.d.) voor de lange termijn toegankelijk opgeslagen zijn. Verantwoordelijk hiervoor zijn de Koninklijke Bibliotheek, DANS en 3TU en (zo werd duidelijk door ons onderzoek), in enkele gevallen Nationaal Archief en het Instituut voor Beeld en Geluid. Op basis van het gedane onderzoek is de werkgroep van mening dat de use case “proefschriften” aantoont dat de praktische uitwerking weliswaar nog enige maatregelen vereist, maar in principe tot een succesvol resultaat kan leiden indien betrokken partijen zich daarvoor inzetten en de aanbevelingen opvolgen.
1. Aanpak Op basis van de catalogus van DANS zijn een aantal datasets als uitgangspunt genomen die volgens de bijbehorende metadata bronmateriaal voor verschillende (digitale) publicaties zijn, waaronder enkele proefschriften. Deze proefschriften (zie 2) bleken echter niet allemaal aanwezig in de KB. Dit was voor ons aanleiding om het hele traject met betrekking tot duurzame toegang van proefschriften uit te werken als use case. Aan de hand van deze use case is een analyse gemaakt van de rol die de betrokken partijen bij de duurzame bewaring van de verschillende objecten hebben en is binnen de betrokken instellingen nagevraagd hoe de processen zijn ingericht (Figuur 3 Verwerking proefschriften). Op basis van de bevindingen zijn enkele aanbevelingen voor de duurzame bewaring van proefschriften gedaan.
2. Huidig beleid proefschriften Koninklijke Bibliotheek De Koninklijke Bibliotheek neemt in principe alle Nederlandse proefschriften in haar collectie op. In 2007 is er een directiebesluit genomen om geen gedrukte proefschriften meer op te nemen, maar uitsluitend de digitale versie. Op jaarbasis verschijnen er ongeveer 3500 proefschriften, sinds 2007 zouden er dus zo’n 30.000 (digitale) proefschriften zijn verschenen. Elke universitaire repository (IR) heeft in principe de digitale versie van de proefschriften van de promovendi van hun universiteit. Het promotiereglement van elke Nederlandse universiteiten schrijft voor dat er een digitale versie van het proefschrift aan de Universiteitsbibliotheek aangeboden wordt. De proefschriften bij de universitaire repositories worden volgens één Nederlandse portal ter beschikking gesteld, namelijk via NARCIS. De digitale versie krijgt de KB door harvesting van de metadata van NARCIS via de Gemeenschappelijke Harvester (GMH). Vervolgens worden door de KB aan de hand van deze metadata de bijbehorende publicaties bij de institutionele repositories geharvest. Een eventuele analoge handelseditie wordt daarnaast ook opgenomen. Als de NARCIS/GMH/IR route goed werkt, zou de KB dus de beschikking hebben over alle Nederlandse digitale proefschriften. De NARCIS/GMH route was tussen 2007 en 2014 echter niet volledig operationeel, maar gedurende dit project is dit verbeterd. Huidige stand van zaken: • De gemeenschappelijke harvester is inmiddels volledig in productie (voorjaar 2015), maar kan nog niet alle Institutionele Repositories harvesten omdat nog niet alle repositories hun metadata volgens de gemeenschappelijke afspraken aanleveren. • De KB heeft de repositories geharvest. Dit harvest proces loopt nog niet optimaal (zie verder). De geharveste materialen uit de universitaire repositories worden door de KB nog niet duurzaam opgeslagen, in afwachting van de uitbreiding van het Digitale Magazijn. De proefschriften staan weliswaar ook nog bij de Institutionele Repositories, maar de lange termijn bewaring van de digitale proefschriften in Nederland is (nog) niet gegarandeerd. 11
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 • De KB stelt (nog) geen proefschriften beschikbaar, mede vanwege embargoproblematiek. Een aantal proefschriften is, via een link in NARCIS, wel volledig beschikbaar bij de institutionele repositories5. Omdat de KB de digitale proefschriften nog niet ter beschikking stelt, is er ook geen proces ingericht om eventuele referenties naar datasets zichtbaar te maken. • Inmiddels is de overleggroep WISH (werkgroep onderzoeksmetadata van Edustandaard6) weer actief, waar deze problemen met de repository managers besproken worden. • Bij (toekomstige) invoering in het KB Digitaal Magazijn krijgt het proefschrift een unieke identifier, de URN-‐ NBN, maar in vrijwel alle gevallen zal de Institutionele Repository deze NBN al toegevoegd hebben. Dan wordt deze door de KB overgenomen. Eventuele andere identifiers (DOI, Handle etc.) die de publicatie heeft meegekregen, blijven ook behouden.
3. Huidige beleid datasets van DANS DANS neemt vooral datasets op van wetenschappers in de sociale wetenschappen en de humaniora. Behalve archeologische data en een aantal data die op grond van contractuele verplichtingen (zoals van NWO) naar DANS komen, wordt de meeste onderzoeksdata op vrijwillige basis gedeponeerd. Samen met 3TU.Datacentrum en SURFsara is DANS partner in het samenwerkingsverband Research Data Netherlands (RDNL) waar afspraken gemaakt worden op gebied van acquisitie en datamanagement van onderzoeksdata. De drie partijen bestrijken gezamenlijk het grootste deel van het onderzoeksveld en het streven is om op den duur één loket te gaan vormen waar alle onderzoekers hun data ongeacht hun onderzoeksdiscipline kunnen deponeren. DANS hanteert het principe van self archiving, waarbij de onderzoeker zelf de data samenstelt, beschrijft en uploadt. DANS controleert de data en metadata op een aantal formele kenmerken afhankelijk van de afspraken en/of discipline. DANS laat de inhoudelijke / beschrijvende metadata over aan de onderzoeker. In geval van vragen wordt contact opgenomen met de deponeerder. Na het checken van de data en de metadata, wordt de data gepubliceerd en krijgt de hele dataset een URN (niet op bestandsniveau). Als een onderzoeker de URN van de dataset in een artikel wil gebruiken en de data tegelijk met het uitkomen van het artikel wil publiceren, dan kan hij/zij dat aangeven in de metadata (datum van publicatie). Ook kan door middel van een embargo periode de toegang tot de dataset beperkt worden, maar kan in publicaties wel via de URN naar de dataset worden verwezen. Er wordt altijd aan de onderzoeker gevraagd de titel en/of link naar zijn/haar publicaties in de metadata van de dataset op te nemen. Dat gebeurt zelden. Het onderzoeksportaal NARCIS harvest de publicaties uit alle Nederlandse universitaire repositories, KNAW en NWO instituten en diverse wetenschappelijke instellingen, datasets van een aantal data-‐archieven (waaronder alle datasets van DANS en 3TU.Datacentrum ) en beschrijvingen van onderzoeksprojecten, onderzoekers en onderzoeksinstituten. Helaas is het niet mogelijk objecten aan elkaar te koppelen omdat er binnen het uitwisselingsformaat NL_DIDL7 (nog) geen mogelijkheid bestaat dit aan te geven. 5 De embargoproblematiek valt buiten de scope van dit project 6
in de WISH worden door repositorymanagers technische zaken mbt onderzoeksmetadata besproken, de werkgroep WMR, werkgroep repositories managers klankbord groep, kan gezien worden als de 'funcionele groep', die meer gericht is op beleid.
7
DIDL vormt samen met MODS het uitwisselingsformaat van de door het WO en HBO aangeboden metadata. Daarbij fungeert DIDL als de container voor MODS en digitale objecten. De toepassing van DIDL is voortgekomen uit de eerder in het kader van de DARE-‐ en SURFshare-‐afspraken ontstane noodzaak om complexe digitale objecten te kunnen beschrijven (zie EduStandaard WO & HBO Afspraken. Samengestelde publicaties in MPEG21, 2013)
12
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
4. Huidig beleid bij de Technische Universiteit Delft en 3TU
De projectgroep VP heeft overleg gehad met de TU Delft (Jaap de Lange en Maurice Vanderfeesten 4-‐12-‐2014). Voor proefschriften die nu verschijnen is het volgende proces van toepassing:
Figuur 2 Proefschriften en bijbehorende datasets TUDelft
De TUD proefschriften zijn altijd digitaal en in pdf formaat. Het is niet verplicht een dataset erbij te hebben, maar in de meeste gevallen zal er een gedeponeerde dataset zijn. Deze komt terecht in de 3TU Data Repository. Het proefschrift en dataset krijgen beide een DOI. Een promovendus kan direct bij 3TU een DOI aanvragen voor de dataset, zodat deze dataset-‐DOI in het proefschrift vermeld kan worden. Mocht de promovendus dit niet hebben gedaan, dan krijgt de dataset een DOI bij deponering in de 3TU Data Repository. Er wordt in de metadata een verwijzing gemaakt van de dataset naar het proefschrift, en van het proefschrift naar de dataset. Van beide repositories (TUD en 3TU) worden de metadata in NARCIS ingelezen.
13
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
Papieren proefschriften Daarnaast is de TUD bezig met het scannen van papieren proefschriften. In de metadata van het papieren exemplaar wordt een verwijzing opgenomen naar de gescande versie. De metadata van de gescande versie komen ook in NARCIS. Er wordt geen verwijzing gemaakt naar eventuele datasets. In de toekomst kunnen we dus de situatie krijgen dat met het oog op duurzame bewaring de KB het papieren proefschrift reeds bezit (zonder link naar data) en de gedigitaliseerde versie hiervan via NARCIS harvest (zonder link naar data). [mondelinge informatie Jaap de Lange TUD]
Verrijkingen bij datasets Een dataset kan onderdeel uitmaken van een “datacollectie”. Datasets in 3TU kunnen verschillende koppelingen hebben met: -‐ Auteursinformatie. Voor auteurs is DAI wat uit beeld inmiddels en geeft men voorkeur aan ORCID. -‐ Publicaties -‐ Wetenschappelijke instrumenten -‐ Geo-‐Locaties
Service van uitgevers Voor het publiceren van artikelen willen de uitgevers meestal niet de ‘raw data’ of de ‘process data’, maar de uitgevers hebben genoeg aan een minimale dataset die kan leiden tot een online grafiek. Elsevier en PLOS sturen bijvoorbeeld periodiek een lijst met publicaties naar de TUD waarvan zij weten dat er een dataset bij hoort door de matching, de moderator van de TUDelft maakt dan handmatig de koppeling van de oorspronkelijke dataset met de publicatie.
Koppelingen elders OpenAire harvest DataCite en kijkt op basis van metadata of er een research dataset bij een Open Access publicatie hoort, indien gevonden dan komt er op de site van OpenAire een koppeling, maar dit hoeft niet bij de TUD bekend te zijn. Zie hiervoor “Narcis content binnen andere diensten” op www.narcis.nl/dataprovider/language/nl
Samenvattend: -‐ -‐ -‐ -‐ -‐ -‐ -‐ -‐
De nauwe samenwerking tussen de TUD en 3TU Datacentrum zorgt er voor dat alle datasets en alle bijbehorende proefschriften een koppeling krijgen Zowel het proefschrift als de dataset krijgt bij 3TU Datacentrum een unieke identifier in de vorm van een DOI Bij DANS krijgen alle datasets een URN-‐NBN en een DOI NARCIS harvest de metadata van datasets van een aantal data archieven waaronder 3TU Datacentrum en DANS NARCIS harvest de metadata van alle publicaties uit repositories van alle Nederlandse universiteiten, KNAW, NWO en diverse wetenschappelijke instellingen Relatie tussen publicatie en data kan niet zichtbaar gemaakt worden binnen NARCIS omdat er geen gestandaardiseerde manier is om de relatie in vast te leggen De KB harvest zowel de metadata als de publicaties uit de verschillende Nederlandse repositories Nederlandse universitaire repositories stellen ook hun eigen (verrijkte) publicaties ter beschikking
5. Conclusies en aanbevelingen proefschriften Om bij proefschriften de digitale context, veelal datasets, in relatie tot het digitale object (het proefschrift) duurzaam op te slaan, zijn de volgende maatregelen nodig: 1. Het proefschrift moet een unieke identifier (PID) bevatten waarop deze verwijzing gebaseerd kan worden 14
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 2. De dataset moet een unieke identifier (PID) bevatten waarop deze verwijzing gebaseerd kan worden. 3. De dataset moet op een gestandaardiseerde manier kunnen verwijzen naar het proefschrift, zoals dit bij 3TU gebeurt: http://data.3tu.nl/repository/uuid:d1532dd8-‐7282-‐4dfe-‐8fdf-‐d360954f06a0 Het verwijzen naar onderdelen van een object zoals beeld-‐ en geluidsfragmenten is ook mogelijk, maar vereist een specifieke aanpak8. 4. De relatie tussen de dataset en het bijbehorende proefschrift moet door de wetenschapper zelf aangeleverd worden. Om dit volgens de afspraken over gebruik van standaarden voor metadata te kunnen doen, vergt dit ook vaak handmatige inspanning van de archief medewerkers 5. Er moet een mogelijkheid komen om de relatie tussen publicatie en dataset op een uniforme manier aan te geven, bijvoorbeeld via het metadata uitwisselingsformaat NL_DIDL. De onderzoeker is degene die deze relatie zou moeten aanleveren, volgens nader te bepalen afspraken. Op termijn zijn de huidige handmatige handelingen bij instellingen niet meer haalbaar. 6. Het metadata uitwisselingsformaat is NL_DIDL. Een mogelijkheid is om een extensie te maken voor NL_DIDL waarin de relatie tussen publicatie en data kan worden weergegeven. We zouden dit dan moeten voorstellen aan de WISH om daar ook een landelijke standaard van te maken. 7. Als een extensie van NL_DIDL gerealiseerd zou zijn, dan kan de koppeling tussen publicatie en dataset op een eenduidige manier in de metadata vermeld worden. Ook als er meerdere publicaties gebaseerd zijn op dezelfde dataset of andersom als er meerdere datasets zijn gebruikt voor een publicatie, kan dat op een gestructureerde manier worden aangeven. Dit maakt het mogelijk voor collectiehouders als Koninklijke Bibliotheek, DANS en 3TU (e.a.) de objecten en de bijbehorende context weer te geven. 8. NARCIS kan vervolgens de relatie tussen de verschillende objecten visualiseren. Onderstaand figuur schetst de huidige situatie, waarbij is aangegeven of er een link is tussen het proefschrift en de bijbehorende dataset en welke unieke identifiers worden toegekend.
8
Zie voor fragment identifiers: http://www.w3.org/TR/media-‐frags/ en http://www.openannotation.org/spec/core/specific.html#FragmentSelector
15
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
Figuur 3 Verwerking proefschriften
16
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
Figuur 4 Persistent Identifier toekenning aan proefschriften
17
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
6. Beschrijving use case BZK Beschrijving Naar aanleiding van de motie Voortman (Kamerstukken II 2013/14, 33750 VII, nr. 31) is gesproken over het ter beschikking stellen en duurzame bewaring van onderzoeksrapporten (en de bijbehorende data) door de overheid. Op 2 juli 2014 heeft minister Plasterk de Kamer het volgende meegedeeld: “[ In het verlengde hiervan] zal ik mogelijkheden bezien om onderzoeksrapporten ook op andere manieren toegankelijk te maken. Zo zal onder andere worden verkend of het op een eenvoudige manier mogelijk kan worden gemaakt onderzoeksrapporten digitaal toe te voegen aan de collectie van de Koninklijke Bibliotheek, zodat die onderzoeksdata en -‐informatie die zijn gefinancierd met belastinggeld in een veel breder bestand worden opgenomen en daardoor veel meer kans maken op hergebruik. Ook wordt de mogelijkheid voor vervroegde overbrenging van de rapporten met het Nationaal Archief verkend, omdat het hier immers archiefbescheiden betreft.” Daarnaast zou volgens de ARVODI regeling onderzoeksprojecten die worden uitgevoerd in opdracht van Ministeries moeten worden aangemeld bij NARCIS (vroeger NOD). Het is de bedoeling dat de aangeleverde projecten, publicaties en data worden aangeleverd onder vermelding van het onderzoekprojectnummer, zodat deze eenvoudig zijn terug te vinden. Bij deze case zijn drie partijen betrokken: het Nationaal Archief, De Koninklijke Bibliotheek en DANS. Huidige situatie Hoewel er overleg heeft plaatsgevonden tussen BZK, De Koninklijke Bibliotheek en DANS, is deponering van de BZK rapporten nog niet gerealiseerd. In principe is het mogelijk dat BZK de rapporten via het Webloket aan de KB aflevert, waarna ze versneld gecatalogiseerd worden. Ook DANS is gereed om de bijbehorende datasets te ontvangen. Het Ministerie van BZK lijkt echter nog niet klaar voor deze procedure. De kans bestaat dat eisen uit de Archiefwet en andere afspraken (zoals deponering bij de KB en DANS) strijdig met elkaar zijn en/of dat het wettelijk kader onvoldoende duidelijk is. Daarnaast zullen BZK en het Nationaal Archief een pilot starten, waarbij wordt verkend op welke manier rapporten vroegtijdig kunnen worden overgedragen aan het Nationaal Archief, welke belemmeringen daarbij bestaan en hoe deze overbrugd kunnen worden. Doordat verantwoordelijkheden niet duidelijk zijn kan de lange termijn bewaring van het resultaat (het digitale object en context) in gevaar komen. Zowel voor degene die moet deponeren als voor de instellingen die het object moeten bewaren is immers niet duidelijk waar alle onderdelen heen moeten. Op dit moment moet door het ministerie en het NA de pilot nog worden opgestart, waardoor er geen conclusies in dit rapport kunnen worden getrokken. Wij hebben de use case wel in dit rapport opgenomen, omdat het een goede schets geeft van een praktijksituatie. De betrokken partijen proberen het in te richten maar in de praktijk blijken er meer belemmeringen dan aanvankelijk voorzien. Toch is het belangrijk om deze use case, exemplarisch waarschijnlijk, uit te werken uit oogpunt van efficiency. Anders: o Heeft de KB de papieren rapporten o Heeft de KB de digitale rapporten o Heeft DANS de bijbehorende dataset en soms wel en soms niet bijbehorende rapport o Weet het NA als verantwoordelijke niet wie de rapporten duurzaam opslaat en wordt niet voldaan aan de Archiefwettelijke verplichtingen. Daardoor kan er geen sprake zijn van de door de minister toegezegde vervroegde overbrenging. Ideale situatie Binnen 14 dagen nadat het rapport is afgeleverd bij BZK, is het rapport door de KB opgeslagen en gecatalogiseerd en publiekelijk beschikbaar met een link naar de dataset die bij DANS is aangeleverd door het ministerie BZK. Waarna na de overdrachtstermijn volgens de Archiefwet de rapporten en data naar het NA wordt overgedragen en 18
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 in overleg met KB en DANS wordt bepaald wat met hun collecties gebeurt. “Preservation in place” zou een mogelijkheid zijn: het NA hoeft dan niet alles zelf te bewaren maar kan anderen opdracht geven namens het NA een collectie duurzaam te bewaren.
Figuur 5 BZK rapporten situatie
19
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
7. Beschrijving use case UBL De volgende use case beschrijft een situatie zoals die zich thans bij een Institutional Repository, in dit geval de Universitaire Bibliotheken Leiden voordoet. De werkgroep heeft hierover uitgebreid overleg gehad met Laurents Sesink en Peter Verhaar, beiden werkzaam bij de UB Leiden. De volgende tekst is door hen geschreven.
Langetermijntoegang tot een verrijkte elektronische publicatie. JARAK, een case study. In 2014 werd in het kader van een door NWO en KNAW gefinancierd onderzoeksproject Jatropha Research and Knowledge network (JARAK) een zogenaamde enhanced e-‐publication opgeleverd. Een enhanced e-‐publication is een elektronische publicatie die verrijkt is door middel van multimedia content. De verrijkingen kunnen op verschillende locaties (publicatierepository, digitaal archief) toegankelijk gemaakt worden. Door middel van persistent identifiers zijn de verschillende verrijkingen met elkaar verbonden. Bij het JARAK onderzoeksproject; “The Commoditization of an Alternative Biofuel Crop in Indonesia” waren onderzoekers van de Universiteit Leiden (Van Vollenhoven Institute for Law, Governance and Development) en partner instituten in Indonesië en Nederland betrokken. De onderzoekers hebben er voor gekozen om mede door middel van een elektronische publicatie de resultaten van het onderzoeksproject te presenteren. Centraal staat het artikel “Jatropha: From an iconic biofuel crop to a green-‐policy parasite”. Dit artikel bevat een synthese van de bevindingen van het onderzoek. Gekoppeld aan dit centrale artikel zijn 26 mini-‐artikelen. Deze mini-‐artikelen geven achtergrondinformatie over het centrale artikel, verluchtigen het door middel van case studies, dirigeren de lezer naar wetenschappelijke artikelen van JARAK-‐onderzoekers die al eerder gepubliceerd zijn, en positioneren het centrale artikel in het wetenschappelijke debat. De mini-‐artikelen zijn door middel van een hyperlink aan het centrale artikel verbonden. Behalve met de mini-‐artikelen is het centrale artikel eveneens verrijkt met onderzoeksdata. http://jarak.iias.asia/ Onderzoekers bij de Universiteit Leiden worden geacht hun wetenschappelijke artikelen te deponeren in de institutionele repository. De Universitaire Bibliotheken Leiden (UBL) verzorgen de dienstverlening rondom deze dienst. De institutionele repository is op dit moment ingericht op het toegankelijk maken van enkelvoudige publicaties. Publicaties worden toegankelijk gemaakt in pdf-‐formaat, er wordt metadata voor de vindbaarheid aan toegekend en iedere publicatie krijgt een persistent identifier zodat de publicatie refereerbaar is. De e-‐publicatie van Jarak kan niet door middel van het standaard innameproces verlopen. Dat heeft zowel met organisatorische als technische issues te maken. De Leidse repository heeft als scope de Leidse onderzoekers. Er worden geen publicaties van niet-‐Leidse onderzoekers opgenomen. Mini-‐artikelen waar Leidse onderzoekers niet bij betrokken zijn als auteur kunnen om deze reden niet opgenomen worden in de repository. Supplementary material kan eveneens niet in de repository opgenomen worden. Dit materiaal moet toegankelijk worden gemaakt in onderzoeksdata-‐repositories. De Leidse repository is slechts geschikt voor pdf bestanden. De UBL heeft specifiek voor het JARA-‐project een workflow ontwikkeld waardoor de wetenschappelijke resultaten in de bestaande infrastructuur gearchiveerd en toegankelijk gemaakt worden. De onderstaande stappen zijn nodig om de e-‐publicatie in de huidige voorzieningen toegankelijk te maken. • Het centrale artikel wordt omgezet naar een pdf. • De onderzoeksdata wordt als supplementary material bij DANS gearchiveerd. • De persistent identifiers die verwijzen naar het supplementary material in het DANS-‐archief worden verwerkt in de pdf van het centrale artikel. 20
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 • De mini-‐artikelen worden apart gedeponeerd bij de institutionele repositories van de auteurs. De persistent identifiers die verwijzen naar de mini-‐artikelen worden verwerkt in de pdf van het centrale artikel. • De url van de e-‐publicaties wordt verwerkt in de pdf van het centrale artikel. • De pdf wordt gedeponeerd in de institutionele repository van de Universiteit Leiden. • De persistent identifier van deze gedeponeerde publicatie wordt toegevoegd aan de e-‐publicatie. • Bij de verschillende stappen in de workflow is er overleg tussen DANS (toegang tot onderzoeksdata), de KB (langetermijn-‐toegang van de pdf), de UBL (toegang tot centrale artikel in pdf) en de auteurs van de e-‐ publicatie noodzakelijk omdat de conversie van de e-‐publicatie naar een pdf verlies aan functionaliteit, usability en look and feel tot gevolg heeft. Deze use case toont aan dat er zowel organisatorisch als technisch nog de nodige stappen te maken zijn door organisaties die een rol spelen in de lange termijn toegankelijkheid van wetenschappelijke publicaties, zodat de rijkheid van e-‐publicaties ook over 10-‐20-‐30 jaar nog beschikbaar is.
21
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
8. Beschrijving use case Beeld en Geluid Het promotie onderzoek van Peter Veer biedt uitdagingen voor de bewaring van publicaties gebaseerd op en refererend aan AV materiaal. Het onderzoek is getiteld Framing the Dutch Landscape (2012-‐2016). Onderwerp van deze studie is de verzameling landbouwvoorlichtingsfilms (ongeveer 300) uit de jaren 1945-‐1985, de tijd van het ‘moderniseringsproject’ van minister Mansholt. De uitkomst van het onderzoek kan inspiratie bieden voor het ontwikkelen van vernieuwende (audiovisuele) vormen voor het publiek debat over de cultuurhistorische waarde van het (wederopbouw) landschap. Bronnen van onderzoek zijn de films uit de collectie van Beeld en Geluid, dossiers uit de archieven van Beeld en Geluid en het Nationaal Archief, audiovisueel opgenomen Oral History met betrokken. In goede samenwerking met de Rijksdienst voor het Cultureel Erfgoed in Amersfoort loopt parallel aan het onderzoek de publieksmanifestatie ‘Boerenland zoekt toekomst’ met als doel om de wederopbouwlandschappen over het voetlicht te brengen. Daarnaast is het onderzoek voorwerk voor een documentaire. Het promotie onderzoek van Peter Veer naar deze landbouwvoorlichtingsfilms van de Nederlandse overheid wordt in 2016 bij de Universiteit van Amsterdam afgerond. In onderzoek worden de ruim 250 films, gemaakt tussen 1945 en 1984, geïnventariseerd en geanalyseerd. Het bronmateriaal -‐ de collectie films -‐ ligt grotendeels bij Beeld en Geluid. Het archief met documenten van de afdelingen die betrokken waren bij de opdrachtverstrekking en de distributie, ligt bij het Nationaal Archief. Een van de toegepaste onderzoeksmethoden is Oral History. Veer heeft met betrokkenen (minister, voorlichter, consulent, filmmaker) interviews gehouden door middel van een viewing van een film uit de collectie. Deze Oral History wordt na het onderzoek gedeponeerd bij DANS. De publicatie van het proefschrift beperkt zich niet tot een tekst. In een online uitgave worden fragmenten van films en interviews waar relevant in de tekst embed. De houdbaarheid van dit proefschrift is dus afhankelijk van de houdbaarheid van deze verwijzingen, die zich niet in dezelfde collectionerende instelling bevinden (cq. eerst de Institutional Repository, later KB en Beeld en Geluid). Deze vorm van verrijkte publicatie met audiovisuele media opgenomen in de tekst zal toenemen. Overigens is dit probleem te vergelijken met verwijzingen in een proefschrift naar bronnen op websites. Het teloorgaan van deze links wordt “reference rot” genoemd. 9
9
Zie bijvoorbeeld http://blog.kbresearch.nl/2015/02/16/oops-‐article-‐preserved-‐references-‐gone/
22
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
9. Blik vooruit Het concept “Verrijkte publicatie” oftewel Enhanced Publication vormde onderwerp van studie in het Europese project Driver-‐II waar binnen de context van SURF Foundation verschillende Nederlandse organisaties aan deelnamen. Diverse publicaties leidden tot nadere definitiering, modellen en een inventarisatie van de risico’s voor duurzaamheid.10 In het kader van SURF Share werden enkele projecten rondom het maken van Verrijkte Publicaties georganiseerd. In 2011 hebben KB, DANS en 3TU onderzocht in hoeverre de resultaten van deze projecten ook inderdaad duurzaam gearchiveerd konden worden in het project “Duurzaam Verrijkte Publicaties” eveneens in het kader van SURF Share. Deze rapporten zijn gepresenteerd aan de SURF Foundation, maar die heeft daar weinig mee kunnen doen. De NCDD zou op dit moment het aangewezen gremium zijn om acties te initiëren naar aanleiding van de aanbevelingen in het volgende hoofdstuk. Inmiddels is de term “Enhanced Publications” internationaal geaccepteerd, ook binnen andere domeinen wordt dit concept gehanteerd. 11. Een goed uitgangspunt is het recent verschenen artikel in Liber Enhanced Publications: Data Models and Information Systems door Bardi, A en Manghi, P.12 In dit artikel wordt een poging gedaan om op basis van literatuuronderzoek en praktijksituaties te komen tot een data model voor Enhanced Publications dat algemeen toepasbaar is. (Een kanttekening is hier op zijn plaats, uitgangspunt is nog steeds een publicatie, en niet de abstractie die wij in deze werkgroep hebben proberen aan te brengen door uit te gaan van een “digitaal object”). Binnen dit datamodel bestaat een Enhanced Publication uit een publicatie met als mogelijke aanvullende onderdelen:
- Embedded parts omschreven als de context bij de publicatie = supplementary material . Dit is met name waar het hier in dit NCDD rapport om gaat omdat deze embedded parts niet noodzakelijkerwijs bij dezelfde organisatie voor de lange termijn bewaard worden.
- Structural text parts, gerefereerd wordt naar Elseviers “Article of the Future”, waarbij toevoegingen dienen om de publicatie geschikt te maken voor Web2.0 toepassingen
- Reference parts hier kunnen ook delen bij andere instellingen zitten - Executable parts - Generated parts Er is ook gekeken wat de motivatie van onderzoekers is om context aan hun publicatie toe te voegen. Er zijn 4 motivaties gevonden
- De onderzoekers vinden het belangrijk om “supplementary material” toe te voegen om context mee te geven
- Ze willen het begrip en leesbaarbeid bevorderen - Ze willen linken / interlinken naar onderzoeksdata - Ze willen het mogelijk maken dat experimenten nagebootst kunnen worden. Onderzoekers zijn niet de enigen die met deze middelen hun publicaties aantrekkelijk maken. Ook uitgevers ondernemen pogingen, waarvan Elseviers Article of the Future13 een aankondiging was. 10
Bijvoorbeeld Enhanced Publications. Linking Publications and Research Data in Digital Repositories. S. Woutersen-‐ Windhouwer et al. Amsterdam University Press, 2009 11 Cross-‐linking and referencing data and publications in CLADDIER. B. Matthews et al. Proc. UK e-‐Science 2007 All Hands Meeting. http://purl.org/net/epubs/work/37696 12 Enhanced Publications: Data Models and Information Systems. Bardi, A. en Manghi, P. Liber Quarterly, vol 23, (2014)nr. 4 pp. 240-‐273 13 Bringing Digital Science Deep Inside the Scientific Article: the Elsevier Article of the Future Project. Aalbersberg, I.J et al. Liber Quarterly vol 23, (2014) nr 4, pp. 274-‐299
23
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 Men zou kunnen concluderen op basis hiervan dat het maken van verrijkte publicaties in Nederland een veel voorkomend fenomeen is. Maar we moeten ook constateren dat er veelal geen makkelijk toegankelijke tools aan de onderzoekers ter beschikking staan om bijvoorbeeld koppelingen te maken als beschreven in Situatie 1 en 2. Verwijzingen naar deelselecties van verzamelingen (geluidsfragmenten bijvoorbeeld in oral history) zoals beschreven door W314 is voor veel historici bijvoorbeeld erg gecompliceerd. Het koppelen van publicaties en datasets wordt in sommige gevallen door uitgevers gefaciliteerd en het zou dan ook goed zijn wanneer er tussen deze uitgevers en duurzame bewaarplaatsen contacten worden gelegd om deze datasets voor de lange termijn te bewaren, indien relevant. Uitgevers maken wel meer koppelingen bijvoorbeeld door een website in te richten bij de verschijning van een nieuwe roman. Collectiehouders zullen zich moeten afvragen of dit een situatie 1, 2 of mogelijke andere situatie is en wat ze er dan mee zouden willen of moeten doen. Moet dat wel duurzaam worden opgeslagen of valt dat buiten het selectiebeleid? Het lijkt nu in dit rapport dat digitale objecten met digitale context alleen in de wetenschappelijke wereld voorkomen, maar dat is natuurlijk niet waar. Ook de niet-‐wetenschappelijke wereld, als de wereld van de literatuur, kunst, en media zal steeds meer digitale objecten koppelen met andere objecten en er zullen complexere objecten ontstaan die bewaard moeten worden. Collectiehouders moeten deze ontwikkelingen in verschillende domeinen volgen (“preservation watch”) en hun beleid daarop tijdig aanpassen, maar het is vooral van belang dat het gezien wordt als een gedeeld probleem. Ook het rapport Generieke Workflows Born Digital Erfgoed van Gaby Wijers en Hannah Bosman in het kader van de CCDD (201515) pleit voor een pilot project tussen Eye, LIMA en BenG om het behoud en beheer van complexe “ born digital objecten” in context te onderzoeken. Hierbij ligt de nadruk op born digital erfgoed op het gebied van film, fotografie, architectuur, kunst. De onderstaande aanbevelingen zijn een eerste stap onder het motto “klein beginnen, groots eindigen”.
14 Zie bijvoorbeeld http://arxiv.org/ftp/arxiv/papers/1304/1304.6709.pdf en http://www.openannotation.org/spec/core/specific.html#FragmentSelector en https://www.force11.org/datacitation en https://www.datacite.org/services/cite-‐your-‐data.html 15
Nog niet verschenen
24
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
10.
Conclusie & Aanbevelingen voor NCDD partners
Uitgangspunt is dat de gebruiker het digitale object met de bijbehorende context ziet. Dit concept zal in de praktijk steeds ingewikkelder worden omdat steeds meer verbindingen tussen objecten en hun context worden aangebracht. In dit onderzoek hebben we ons beperkt tot proefschriften met een bijbehorende dataset. We hebben ons niet bezig gehouden met de interne verwijzingen in proefschriften naar (Nederlandse) bronnen als websites, ebooks en datasets, maar hiervoor geldt natuurlijk hetzelfde probleem: als de bronnen waarnaar verwezen wordt, niet bewaard blijven, is het onderzoek niet langer verifieerbaar. In beide gevallen vraagt een oplossing om een fundamentele andere manier van denken: - Van de onderzoeker, die zich moet realiseren dat zijn bronnen niet permanent zijn en moet weten wat hij daaraan kan doen en zou moeten doen. - Van de collectiehouders om buiten de instellingsgrenzen te denken en koppelingen te ondersteunen naar informatie buiten de eigen repository, mogelijk samenwerkingen te initiëren e.d. Daarnaast moet de collectiehouder ook duidelijk zijn over de invulling van zijn rol in het digitale landschap, door onder meer het publiceren van de preservation policies en het collectiebeleid. Op basis van de proefschriften case komt de werkgroep tot de volgende aanbevelingen 1. Het proefschrift moet een verwijzing bevatten naar de vindplaats van de dataset, de dataset moet een verwijzing bevatten naar het proefschrift. Deze verwijzing kan in het proefschrift zelf staan of in de dataset, maar om deze informatie in de geautomatiseerde workflow te kunnen verwerken, moet de verwijzing (ook) opgenomen zijn in de meta data. Consequentie is dat met name aan het begin van de keten deze informatie aangebracht moet worden, dus door de onderzoeker. De verwijzing moet bestaan uit een erkende persistent identifier (zie 2) . Actie 1: Vraag namens de NCDD aan universiteiten in het promotiereglement op te nemen dat (persistente) verwijzingen in de metadata van proefschrift en bijbehorende dataset(s) aangebracht moeten worden om de relatie tussen proefschrift en bijbehorende data sets vast te leggen. 2. Zowel proefschrift als bijbehorende materialen als bijvoorbeeld dataset(s) dienen een erkende persistente identifier te hebben, die aan het begin van de bewaarketen wordt toegekend. Deze persistente identifier dient door de collectiehouders in hun toegangsmechanismen bij ‘access’ opgenomen te worden. Voor audiovisueel materiaal, waarbij de dataset uit fragmenten van audiovisueel materiaal kan bestaan, zal de persistent identifier aan dit fragment moeten worden toegekend. De persistent identifier dient dus toegekend te worden op die onderdelen waar je naar zou willen refereren. Actie 2; Ontwikkel binnen NCDD/NDE nationaal beleid ten aanzien van toekenning en gebruik peristent identifiers, waarin de huidige voorzieningen bij 3TU/DANS (DOI) en KB/DANS (NBN) zijn opgenomen. Neem daarbij ook de concordantie tussen Persistent Identifiers in overweging, bijvoorbeeld via oplossingen uit het ‘semantic web’ . 3. Afstemming duurzaamheidsbeleid tussen collectiehouders, zodat alle objecten in samenhang duurzaam bewaard blijven en mogelijke (gerechtvaardigde) afwijkingen in elk geval bekend zijn. Denk hierbij aan bewaartermijnen van datasets of andere objecten. Actie 3: communiceren en afstemmen van duurzaamheidsbeleid van collectiehouders, te beginnen bij de “hubs” van de NCDD en Research Data Netherlands. Het omgaan met de collecties op lange termijn en de selectieprincipes moeten onderdeel vormen van deze onderlinge communicatie en de conclusies dienen aan de “buitenwereld” bekend gemaakt te worden. 25
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 4. Metadata van Nederlandse wetenschappelijke publicaties wordt uitgewisseld in het NL_DIDL formaat (beheerd door Edustandaard) en verzameld in de wetenschappelijke portal NARCIS. Op dit moment worden hier alleen nog metadata van de publicaties opgenomen. Door ook de metadata van bijbehorende datasets inclusief de verwijzing in de vorm van een persistente identifier op te nemen, kunnen collectiehouders deze informatie beter in hun workflows verwerken. Digitaal object en bijbehorende context wordt bewaard in samenhang. Actie 4: Verzoek namens de NCDD aan de overleggroep WISH van de repository managers om aanpassingen in het NL-‐DIDL formaat. 5. Kennisuitwisseling. Het zou voor collectiehouders duidelijker moeten zijn bij welke andere instelling zij kunnen aankloppen om ondersteuning bij het bewaren van materialen die ten opzichte van hun collectie “exotisch” zijn maar wel de context van het digitale object geven. Voorbeeld: AV materiaal bij een technische data set, dat in beheer is bij de repository van de TUDelft. De voor de hand liggende partner om hierover informatie te geven is (en dit als een dienst zou kunnen ontwikkelen) Beeld en Geluid, terwijl 3TU het digitale object opslaat in haar repository. Voorwaarde is dat het object voorzien is van voldoende technische informatie om deze “preservation watch” te kunnen uitvoeren. Actie 5: Kennisdeling en kennis organiseren binnen de NCDD partners en bepalen wie kennis bijhoudt over bepaalde file formaten en hun technische risico’s, zodat collega instellingen daar een beroep op kunnen doen. 6. Collectiebeleid. Wie wat in Nederland bewaart voor de lange termijn, is nog diffuus. Afstemming collectiebeleid en verantwoordelijkheden is nodig, dit blijkt bijvoorbeeld uit de zaak rond de BZK rapporten. Betrokken instellingen hebben vanuit hun mandaat een verantwoordelijkheid die niet altijd aansluit bij het wettelijk kader. Bijvoorbeeld DANS verzamelt de data van een onderzoeksrapport dat met NWO geld gefinancieerd is ten behoeve van BZK, terwijl het NA de data vanuit haar wettelijk kader wil beheren. Uitbesteding van het beheer kan (“preservation in place”), maar is op dit moment nog niet toereikend georganiseerd. Actie 6: De consequenties van het mandaat van de instellingen moet beter in kaart worden gebracht, zodat knelpunten tussen wettelijk kader en mandaat met betrekking tot duurzame opslag van digitale objecten en bijbehorende context duidelijk worden en opgelost kunnen worden. Ontwikkel een “landkaart voor depositors” zodat men weet waar men de digitale materialen kan laten bewaren. 7. De proefschriftencase is maar één geval, binnenkort is te verwachten dat meer objecten met context de digitale archieven binnenstromen. Denk bijvoorbeeld aan de gevolgen die het project Beelden voor de Toekomst of Delpher heeft, waardoor veel Situatie B objecten gaan ontstaan. Het is van belang nu vast na te denken of en hoe deze objecten en hun context voor de lange termijn in samenhang bewaard moeten worden. Actie 7: start een vervolgproject binnen NCDD, die praktische afspraken over Nederlandse collecties maakt (situatie B) 8. Richt een brede beleidsmatige werkgroep op die aan de volgende voorwaarden voldoet: Vertegenwoordigers van collectiehouders in de cultuursector, wetenschap en uitgevers (die o.a. het bewaren van datasets bij artikelen faciliteren en met links naar de werkpakketten 1, 2 en 3 van het Netwerk Digitaal Erfgoed teneinde beleid en procedures vast te leggen ten aanzien van duurzame verwijzingen naar context bij digitale objecten en nieuwe omzetten in beleid. (Situatie A en B). Actie 8: NCDD bestuur brengt de resultaten van het rapport in bij de klankbordgroep voor werkpakketleiders van NDE 26
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015 9. Persistent Identifiers in NDE moet rekening houden met een concordantie tussen persistent identifiers en daarbij zich realiseren dat dit landenoverstijgend is: onze datasets worden internationaal gebruikt (via OpenAire/ Datacite) en krijgen dan weer een nieuwe persistent identifier -‐ combineren met aanbeveling 2. Actie 9: dit punt laten opnemen in het takenpakket van WP2 van NDE 10. Op experimentele basis worden digitaal object plus digitale context verwerkt door bijvoorbeeld de UBL en TUD en DANS case, maar daar komt veel handwerk bij kijken wat op termijn niet houdbaar is. Betere afstemming kan leiden tot automatisering van een aantal stappen in het verwerkingsproces. Actie 10 : Suggestie aan het NCDD bestuur: benader hiervoor bestaande netwerkorganisaties zoals UKB en WRM 11. De collectiehouders zullen zich meer bewust moeten worden van de context bij hun digitale objecten en de duurzame bewaring daarvan en door wie. Dit vraagt om nauwere samenwerking tussen de verantwoordelijken voor Collecties binnen instellingen in combinatie met duurzaamheidsdeskundigen. Actie 11: richt binnen het NCDD platform een “preservation watch” groep op die zich onder meer met deze problematiek bezig houdt en daar periodiek over rapporteert.
27
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
11.
Bijlage 1: Gebruikte afkortingen en begrippen
BenG DANS Delpher
Instituut voor Beeld en Geluid Data Archiving and Network Services Portal tot Nederlandse gedigitaliseerde publicaties van diverse (wetenschappelijke) organisaties www.delpher.nl DOI Digital Object Identifier Eye Film Instituut Nederland Edustandaard platform waar partijen binnen het onderwijs-‐ en onderzoeksveld afspraken maken over hoe verschillende digitale diensten hun gegevens kunnen uitwisselen (zie: http://www.edustandaard.nl/over-‐ons/over-‐edustandaard/) Handle Persistent identifier IR Institutional Repository KB Koninklijke Bibliotheek KNAW Koninklijke Nederlandse Academie voor Wetenschappen LIMA Internationaal platform voor duurzame toegang tot mediakunst NA Nationaal Archief NARCIS Nationaal portaal voor Nederlands wetenschappelijk onderzoek NDE Netwerk Digitaal Erfgoed ORCID Persistent Identifier voor onderzoekers RDNL Research Data Netherlands UBL Universiteitsbibliotheek Leiden URN-‐NBN Uniform Resource Name -‐ National Bibliographic Number, een persistent identifier beheerd door de KB VP Verrijkte Publicatie
28
Eindrapport NCDD Werkgroep Digitale Objecten in Digitale context B. Sierman & P. Witkamp, juni 2015
12.
Bijlage 2: Uitgangspunten bewaarbeleid in Nederland
Om te kunnen komen tot een integrale aanpak van verrijkte publicaties in Nederland, gaan we uit van de volgende realiteit: Publicaties • de KB bewaart (digitale) publicaties (=Een publicatie is een eindversie van een werk, geproduceerd met het oogmerk van verspreiding en bestaande uit minimaal 500 woorden.), onder het motto “alles van en over Nederland” dat wil zeggen in Nederland gepubliceerd of elders gepubliceerd maar met Nederland als hoofdthema. Data • DANS bewaart datasets en soms ook publicaties, zie “DANS heeft als missie het bevorderen van duurzame toegang tot digitale onderzoeksgegevens. Onder de term ‘digitale onderzoeksgegevens’ verstaat DANS: onderzoekinformatie, onderzoekdata (zoals databases, spreadsheets, tekst, afbeeldingen, audio,video, multimedia) en digitale publicaties (inclusief preprints, rapporten)16 • 3TU bewaart datasets van 3 technische universiteiten (Delft, Twente en Eindhoven) Overheidsinformatie • Het Nationale Archief bewaart geen publicaties maar overheidsdocumentatie. In sommige gevallen, bijvoorbeeld bij Rijksuniversiteiten, is het Nationaal Archief wel verantwoordelijk voor het bewaren van bepaalde documententatie. Er wordt nog nader uitgezocht op welke documentatie dit betrekking heeft, in samenwerking met DANS. AV materiaal • Het instituut voor Beeld en Geluid bewaart geen publicaties maar AV materiaal. In een enkel geval kan dit behoren tot een Verrijkte Publicatie die elders bewaard wordt , zoals het proefschrift Een voorbeeldige kolonie (2014) van Gerda Jansen Hendriks aan de UvA. In dit proefschrift wordt verwezen naar films uit het archief door middel van een taak ID. Veel films zijn ook online geplaatst in drie kanalen op de site van Beeld en Geluid. De integratie van audio-‐ en videoverwijzingen in verrijkte publicaties zal naar verwachting toenemen. Overig • Daarnaast is er een breed scala aan instellingen in Nederland met duurzame digitale collecties. In potentie kunnen deze collecties onderdeel uitmaken van de context van een publicatie.
16
http://www.dans.knaw.nl/nl/actueel/nieuws/dans-‐geeft-‐nieuwe-‐impuls-‐aan-‐duurzame-‐toegang-‐tot-‐digitale-‐ onderzoeksgege
29