Stappenplan Linked Open Data Historische datasets vierdaagse van Nijmegen semantisch verbinden
Ernest Verhees Regionaal Archief Nijmegen 12-04-2016 Versie 1.3
1
Inhoudsopgave Inhoudsopgave........................................................................................................................................ 2 1.
Inleiding........................................................................................................................................... 3
2.
Verbinden........................................................................................................................................ 3 2.1 Datasets vierdaagse ...................................................................................................................... 3 2.2 Verbindingen mogelijk maken ...............................................Fout! Bladwijzer niet gedefinieerd.
3.
Linked Open Data ............................................................................................................................ 5 3.1 Stappenplan LOD .......................................................................................................................... 5 3.2 Strategisch deelnemers stappenplan............................................................................................ 6
4.
Organisatie en communicatie ......................................................................................................... 6
5.
Projectresultaten ............................................................................................................................ 7
6.
Planning, mijlpalen en risico’s......................................................................................................... 8 6.1 Planning......................................................................................................................................... 8 6.2 Mijlpalen ....................................................................................................................................... 8 6.3 Risico’s........................................................................................................................................... 8
7.
Begroting ......................................................................................................................................... 8
2
1.
Inleiding
De Vierdaagse van Nijmegen is samen met de zomerfeesten veruit het grootste evenement van Nijmegen. In 2016 wordt de 100e vierdaagse georganiseerd. Het Regionaal Archief Nijmegen (RAN) beheert vanzelfsprekend diverse archieven en collecties over de vierdaagse. De beschrijvingen en het gedigitaliseerde materiaal presenteren we via de eigen web sites (studiezaal.nijmegen.nl) en stellen zo veel mogelijk als Open Data beschikbaar. Het zijn echter losse datasets, zonder onderlinge verbindingen of met koppelingen met andere (historisch) datasets. De Nationale Strategie voor Cultureel Erfgoed is bedoeld om de gedigitaliseerde collecties van musea, bibliotheken, wetenschappelijke instituten en archieven aan elkaar te koppelen door de ontwikkeling van een landelijke, sector overstijgende infrastructuur van voorzieningen voor digitaal erfgoed. “Op die manier creëren slim gelegde verbanden tussen archiefgegevens heel nieuwe mogelijkheden. Voor het vertellen van nieuwe verhalen bijvoorbeeld of voor nieuw onderzoek. Zo krijgen de archieven als geheel meer waarde dan elk afzonderlijk.” De gewenste koppelingen van gedigitaliseerde collecties moeten niet alleen gemaakt worden tussen de verschillende sectoren maar dus ook tussen de collecties binnen de sectoren. Dat geldt zeker voor de archiefsector met daarin, zoals gezien, een grote verscheidenheid aan datasets die niet met elkaar verbonden zijn terwijl voor Open Toegang hét uitganspunt is: verbinden, verbinden, verbinden Binnen het innovatieprogramma Archief2020 zijn er voor de doelstelling toegankelijkheid het project “Open Toegang” en het deelproject “Semantiek, linked data en geodata”. Voor de laatste wordt gezocht naar instellingen die invulling kunnen geven aan de doelstellingen en beoogde resultaten. Dit projectplan is een voorstel voor een onderzoek naar de te nemen stappen om datasets aan elkaar te verbinden via Linked Open Data door een pilot met data over de vierdaagse van Nijmegen. Het einddoel is een stappenplan Linked Open Data voor archief-/erfgoedinstellingen.
2.
Verbinden
2.1
Datasets Vierdaagse
In de gemeentearchieven van Nijmegen en regiogemeenten bevinden zich dossiers over vergunningen en organisatie van de vierdaagse. Het belangrijkste archief is het particuliere archief van de KNBLO (sinds 1-1-2015 KNWB) en aanverwante organisaties die sinds 1909 het wandelevenement organiseren. Het gaat dan om reguliere bestanden als notulen van bestuursvergaderingen, correspondentie en clubbladen maar ook om deelnemersregisters en uiteraard veel beeldmateriaal. Deze laatste twee soorten bronnen zijn door het RAN ook gedigitaliseerd en dus niet alleen via de beschrijvingen online beschikbaar. Een klein deel van de in totaal 8.000 foto’s is ook al enkele jaren als Open Data beschikbaar via Opencultuurdata. De scans van de deelnemersregisters komen begin 2016 op Velehanden om de namen van de burgerdeelnemers, militaire eenheden en wandelverenigingen in te voeren.
3
Behalve deze drie datasets – de beschrijvingen van de archiefbestanden, van de foto’s en de namen van de deelnemers – bieden we op de website van het Huis van de Nijmeegse Geschiedenis in een wiki veel contextinformatie en van elke vierdaagsejaar een inhoudelijk artikel. Naast een kort verhaal over het betreffende jaar gaat het dan ook om feitelijke gegevens als vertrekplaats, aantallen deelnemers en uitvallers en gelopen afstanden. Deze gegevens zijn door middel van Semantic Wiki voor een deel gesemantiseerd en kunnen als Open Data hergebruikt worden. Alle genoemde data stelt het RAN op internet beschikbaar via de eigen websites en zo veel mogelijk als Open Data. Het gaat dan echter om losse datasets die inhoudelijk veel relaties hebben maar niet aan elkaar gekoppeld zijn. Door die relaties wel te leggen zouden er meer mogelijkheden komen voor hergebruik. Bovendien kunnen de datasets elkaar verrijken en worden aangevuld en verbeterd door externe bronnen. Een goed voorbeeld hiervan betreft locatiegegevens (plaatsnaam, straatnaam, toponiem) die in bijna elke dataset voorkomen. We zijn al aan het kijken hoe we in onze Historische Atlas de foto’s op basis van de locatiegegevens kunnen georefereren, met daarbij de problematiek van oudere adressen en bijvoorbeeld de koppeling met de BAG als dataset. De geocomponent maakt dus een nadrukkelijk onderdeel uit van het project. Daarnaast zullen er ook koppelingen mogelijk zijn op datum.
2.2
Verbinden mogelijk maken
Van belangrijke onderwerpen hebben archiefinstellingen diverse archieven en collecties in huis waarvan een deel als archieven in een toegang zijn beschreven, een deel in de beeldbank/Topografisch Historische Atlas en in sommige gevallen een deel nader toegankelijk is gemaakt met zogeheten indexen of nadere toegangen. De uitgebreidere beschrijvingen worden vaak gecombineerd met digitalisering van de stukken en het online publiceren hiervan. Van de archieven is over het algemeen alleen de metadata digitaal beschikbaar. Via doorverwijzingen is er wel een koppeling tussen de beschrijving van het stuk in de inventaris en van de uitgebreidere beschrijving in de beeldbank of nadere toegang. Inhoudelijk zijn er echter zelden verbindingen tussen bijvoorbeeld de beschrijving van een dossier over een bepaalde gebeurtenis (op een locatie en tijdstip) en de beschrijving van foto’s hiervan. De verklaring hiervoor zal gezocht moeten worden in de verschillende beschrijvingstradities, metadataschema’s en beheerssystemen bij het beheer van respectievelijk archieven, beeldmateriaal en nadere toegangen. Een nog niet genoemde maar niet te vergeten vierde categorie wordt gevormd door bibliotheekcollecties bij archiefinstellingen. Ook boeken, tijdschriften en artikelen zijn vaak afzonderlijk beschreven zonder verbindingen met de andere bronnen over dezelfde onderwerpen. Binnen de bibliotheekcollectie zijn kranten vaak weer een afzonderlijke categorie doordat deze gedigitaliseerd zijn en volledig doorzoekbaar zijn. Dit biedt de mogelijkheid om, bijvoorbeeld via de woorden in de titel, artikelen over een bepaald onderwerp te herkennen en verbindingen mee te maken. Met al deze datasets zijn in theorie zeer veel verbindingen te maken. De praktijk van de pilot moet leren hoe snel en makkelijk dat ook daadwerkelijk te doen is. De beschrijvingen van de foto’s, de voor een breed publiek meest aansprekende collectie, vormen hierbij voor het RAN het uitgangspunt. Het doel is om in ieder geval met de metadata van de fotocollectie verbindingen te maken, om die daarmee te verbeteren en te verrijken.
4
3.
Linked Open Data
Het zal niet verbazingwekkend zijn dat in het drielagenmodel, zoals die in de Nationale Strategie is opgenomen, in dit project de focus ligt op de verbindingslaag. In deze laag wordt immers informatie uit en over collecties met elkaar verbonden en gekoppeld aan nieuwe techniek. De bij uitstek geschikt hiervoor nieuwe techniek is Linked Open Data (LOD). Semantische technieken lenen zich uitstekend voor het doorzoeken van archiefbronnen in samenhang met andere bronnen (thematisch) en om archiefbronnen te verrijken met meer context. In het erfgoeddomein is hier al ervaring mee opgedaan maar in de archiefsector zijn hier nog niet of nauwelijks stappen in gezet.
3.1
Stappenplan LOD
Het is nog niet duidelijk welke stappen precies gezet moeten worden. Zoals er voor archieven een stappenplan is gemaakt voor Open Data (http://archiefwiki.org/wiki/Stappenplan_Open_Data), zou het ook zeer wenselijk zijn als er een stappenplan komt voor Linked Open Data. Deze zal dan in eerste instantie door archiefinstellingen gebruikt kunnen worden maar zal ook voor andere erfgoedinstellingen van toepassing en nuttig kunnen zijn. Enkele vragen die in dit stappenplan aan bod komen zijn:
Wat is Linked Open Data en waarom is dat belangrijk? Hoe kan ik LOD in beleid vertalen en wat zijn de kosten en baten? Welke voorwaarden zijn er om LOD te kunnen maken? (juridische, inhoudelijke en technische eisen en wensen) Ga ik zelf LOD maken of stel ik alleen mijn data daarvoor beschikbaar aan anderen? Hoe verbind ik losse datasets semantisch met elkaar, zowel inhoudelijk als technisch? Ga ik de LOD zelf hosten in een triplestore en beschikbaar stellen of sluit ik aan bij een samenwerkingsverband? (welke opties met voor- en nadelen?) Is opname in een triplestore voldoende of moet de linked data ook anders beschikbaar gesteld worden, bijvoorbeeld via een publieksvriendelijke website? Vervolgstappen als de LOD gereed en gepubliceerd is?
Voor het opstellen van dit stappenplan en de beantwoording van deze vragen stellen wij een pilot voor met de datasets van het Regionaal Archief Nijmegen over de vierdaagse, indien mogelijk gecombineerd met datasets van andere archiefinstellingen over hetzelfde onderwerp. Hier komen dan zowel de strategische vragen over LOD aan bod, maar zeker ook de lessen uit de ervaring met het concreet aan de slag gaan met de datasets. De bedoeling is dat voor deze strategische vragen ook andere archiefdiensten meedenken en delen in de ervaringen. Een resultaat van de pilot zal in het meeste ideale geval een triplestore met LOD over de vierdaagse zijn. Op basis hiervan kunnen derden (ontwikkelaars, programmeurs, creatievelingen) met deze data eindproducenten (websites, apps, andere koppelingen) maken. Hiervoor kan eventueel een 5
prijsvraag/Hackaton uitgeschreven worden. De nadruk ligt echter wel op de theoretische vraagstukken voor het maken van Linked Open Data en niet op de techniek. Mocht blijken dat het daadwerkelijk bouwen en inrichten van een triplestore te veel tijd, geld en inspanning kost dan zien we daar vanaf. Er is voor de technische realisatie daarom in de begroting ook een bescheiden bedrag opgenomen. Het is dus in eerste instantie niet het doel om de LOD van de vierdaagse voor een breed publiek via een portal/website beschikbaar te stellen. We willen echter wel onderzoeken of die mogelijkheid er makkelijk is (bijvoorbeeld via Mediawiki/semantic wiki of via een XML-datadump) en daar dan ook gebruik van maken.
3.2
Strategische deelnemers stappenplan
Niet alleen bij het RAN zijn er foto’s en bronnen over de vierdaagse te vinden. Het zou mooi zijn om te kijken of er koppelingen kunnen komen met relevant materiaal bij andere instellingen. Het is bijvoorbeeld mogelijk om te verbinden met de fotocollecties van het Nationaal Archief (NA) en het Nederlands Instituut voor Militaire Historie (NIMH). Daarnaast zal er ook gekeken worden naar algemene datasets, als Geonames, thesauri en Dbpedia. Voor de strategische vragen in het stappenplan werken we samen met archiefdiensten die ook zelf actief bezig zijn of willen gaan met dit onderwerp. Stadsarchief Rotterdam en BHIC hebben aangegeven graag aan dit project mee te werken om daarmee het algemene stappenplan te verbeteren. Ook Erfgoed Brabant, de organisatie achter Brabant Cloud, een hostingservice voor erfgoedinstellingen in Noord-Brabant, wil graag meewerken. Daarnaast kunnen we gebruik maken van het netwerk van het Platform Linked Open Data met onder meer Geonovum, het RCE en diverse overheids- en erfgoedinstellingen. Vanuit beide groepen kan in een klankbordgroep en in kennisdeelsessies gezamenlijk het stappenplan verbeterd worden. Door TNO is in een pilot al een stappenplan voor LOD gemaakt dat als referentie gebruikt kan worden. Het gaat bij het stappenplan dus om de organisatie van enkele bijeenkomsten waarin onze praktijkervaringen met de vierdaagsepilot gedeeld worden en door de diverse partijen gekeken wordt of hier algemene conclusies uit getrokken kunnen worden voor een stappenplan LOD voor archief- en erfgoedinstellingen. Tot slot worden deze ervaringen neergelegd in een beschrijvend stappenplan.
4.
Organisatie en communicatie
Sturing Het project wordt door het Regionaal Archief Nijmegen (RAN) gestuurd. Archief 2020 heeft een adviserende rol in het project en is formeel opdrachtgever van de externe projectleider. De projectleider Open Toegang van Archief 2020 en de verantwoordelijke proceseigenaar van het RAN fungeren als Stuurgroep. De Projectleider rapporteert periodiek aan de Stuurgroep. Het projectteam Het projectteam voor de vierdaagsepilot zal bestaan uit deelnemers van het Regionaal Archief Nijmegen, waar nodig aangevuld met personen die nodig zijn voor de uitvoering van specifieke 6
stappen in de pilot. Van de projectleider wordt verwacht dat deze een Linked Open Data-specialist is en als zodanig richting geeft aan de eerste fase (technisch koppelen van datasets) van de pilot. Hij is daarmee vast lid van het projectteam. Voor het stappenplan heeft de projectleider een rol als trekker. Op basis van zijn netwerk en kennis van Linked Open Data is hij organisator van en geeft hij leiding aan kennisbijeenkomsten en is hij daarnaast verantwoordelijk voor vorm en inhoud van het stappenplan. Kennis delen Gedurende het project kan via een open Pleio-pagina (Kennisplatform linked data) informatie gedeeld worden met deelnemers aan de klankbordgroep en andere geïnteresseerden. Na afronding van het project wordt een seminar georganiseerd waarop de verkregen kennis en ervaringen uitgewisseld kunnen worden. Daarnaast is het stappenplan, een van de producten uit het project, bedoeld voor het delen van kennis. Communicatie De Projectleider is verantwoordelijk voor de communicatie binnen het project met alle deelnemers en stakeholders. In de communicatie naar het archief- en erfgoedveld werkt hij samen met het team van Archief 2020.
5.
Projectresultaten
Het project wordt afgerond met: 1. Een pilot met linked data rond het thema Nijmeegse vierdaagse 2. Een stappenplan Linked Open Data voor archiefdiensten De pilot met de data van de vierdaagse is bedoeld om te leren hoe je tot LOD komt en om op basis daarvan het algemene stappenplan te maken. De praktijk zal leren of het mogelijk is om ook daadwerkelijk in drie maanden een product (tool, website, gekoppelde dataset) te leveren van gekoppelde vierdaagsedata waarmee ontwikkelaars aan de slag kunnen. Het stappenplan is primair bedoeld voor archiefdiensten, maar kan vrijelijk door iedereen gebruikt worden. Om de ervaring en kennis te delen met vakgenoten zullen meerdere bijeenkomsten georganiseerd worden waarop door middel van presentaties en discussie de verkregen kennis wordt gedeeld. Daarbij kan gedacht worden aan het delen van kennis over semantiek en het inrichten van triple stores, maar ook nadrukkelijk aan het delen van kennis over het project zelf. Daarbij komen onderwerpen aan de orde als de samenwerking met deelnemers om Linked Open Data verbindingen aan te gaan. Op een seminar worden de eindresultaten gedeeld. Een publicatie over de resultaten en verslag van de dag zal worden verzorgd, zodat ook vakgenoten die niet naar de bijeenkomst kunnen komen, kennis kunnen nemen van de resultaten.
7
6.
Planning, mijlpalen en risico’s
6.1
Planning
Activiteit Oplevering Plan van Aanpak Oplevering gekoppelde vierdaagsedata Oplevering stappenplan Seminar voor kennisdeling
6.2
eind Maart 2016 Juni 2016 November 2016 November 2016
Mijlpalen
Oplevering goedgekeurd PvA Oplevering gekoppelde vierdaagsedata Oplevering stappenplan Seminar voor kennisdeling
6.3
Risico’s /afhankelijkheden en beheersmaatregelen
Risico/afhankelijkheid De open data collectie van de verschillende organisaties moeten handmatig gekoppeld worden
7.
start Januari 2016 april 2016 Augustus 2016 Oktober 2016
Kans Groot
Impact Middel
Maatregel Analyse vooraf van de collecties, waardoor duidelijk is wat alsnog geautomatiseerd opgelost kan worden en wat niet.
Begroting
Toelichting 1 Projectleiding Voor het project zal op basis van dit Plan van Aanpak een Projectleider benoemd worden, die daarna de uitvoering van het Plan op zich neemt. Het project levert uiteindelijk een slotbijeenkomst en een stappenplan op. Dit betekent dat er geschreven zal moeten worden en dat er een eindredactie is. Een exacte invulling van het aantal uren en de kosten is pas mogelijk nadat er een beter beeld is hoeveel bijeenkomsten georganiseerd moeten gaan worden, wat de exacte inbreng van de 8
projectleider wordt bij de koppeling van datasets van de vierdaagsepilot en van zijn inzet voor het stappenplan . 2. Medewerkers RAN Medewerkers RAN dragen bij door hun inbreng vanuit de pilot aan de inhoud van het stappenplan. De uren zijn berekend per medewerker per fase van het project. De tarieven zijn berekend conform de Handleiding Overheidstarieven 2015. Van de externe projectleider wordt verwacht dat hij kennis en expertise heeft van LOD. 3. Ontwikkeling en hosting technische voorziening Kosten ten behoeve van de ontwikkeling van de technische voorziening en de hosting hiervan in 2016. Dit is een maximaal bedrag en is afhankelijk van de uitkomsten van de pilot wat als nuttig gezien wordt, op basis van een kosten/baten-analyse. Het gaat om hosting ten behoeve van de pilot. 4. Communicatie en PR Kosten betreffen de diverse bijeenkomsten met de deelnemers en kosten voor presentatie / publicatie voor vakgenoten en potentiële deelnemers, inclusief eindverslag / evaluatie. 5. Overig / onvoorzien In verhouding tot de totale projectkosten is deze post relatief laag ingeschat omdat de financiële risico’s binnen dit project niet heel hoog zijn.
9