Eindrapport Project Persistente Identificatie Auteur: Alina Saenko, Bert Lemmens, Rony Vissers Datum: 31 oktober 2014 Versie
Datum
Wijzigingen
Auteur
0.1
1 sep 2014
Start document
Alina Saenko
0.2
24 sep 2014 Corpus volledig
Alina Saenko
0.3
26 sep 2014 Redactie en besluit
Bert Lemmens
0.4
29 okt 2014
Redactie
Bert Lemmens
0.5
30 okt
Redactie en financiële verantwoording
Rony Vissers
0.6
31 okt
Redactie en besluit
Bert Lemmens
1
31 okt
Eindredactie, versie voor review
Rony Vissers
1.1
Bijlagen
Alina Saenko
Inhoudstafel 1. Inleiding ......................................................................................................................... 3 1.1 Project ................................................................................................................................... 3 1.2 Persistente URI’s .................................................................................................................... 4 1.3 Onderzoeksvragen ................................................................................................................. 7 1.4 Methodologie ........................................................................................................................ 8 1.5 Rapportstructuur ................................................................................................................... 9 2. Projectverloop .............................................................................................................. 10 2.1 Fase I: opstart ...................................................................................................................... 10 2.2 Fase II: identificatie entiteiten .............................................................................................. 11 2.3 Fase III: update collectiedata ................................................................................................ 13 2.4 Fase IV: ontwikkeling demonstrator en resolver .................................................................. 16 2.5 Fase V: eindrapport .............................................................................................................. 17 3. Onderzoeksvragen ....................................................................................................... 19 3.1 Hoe maak je de negotiatie naar de juiste webpagina of afbeelding van een kunstwerk eenvoudiger met persistente URI’s? .......................................................................................... 19 3.2 Hoe verrijk je collectiedata met persistente URI’s? .............................................................. 22 3.3 Hoe los je slechte doorzoekbaarheid veroorzaakt door spellings-‐ en naamsvarianten op met persistente URI’s? ...................................................................................................................... 25 3.4 Hoe maak je de registratie van objecten eenvoudiger met persistente URI’s? ...................... 31
4. Evaluatie ...................................................................................................................... 33 4.1 Projectverloop ..................................................................................................................... 33 4.2 Onderzoeksvragen ............................................................................................................... 37 5. Financiële verantwoording ........................................................................................... 39 6. Besluit .......................................................................................................................... 42
PACKED vzw | Eindrapport Project Persistente Identificatie
2
1. Inleiding 1.1 Project Dit rapport bevat de resultaten en de evaluatie van het project ‘Persistente Identificatie’, dat werd uitgevoerd en gecoördineerd door PACKED vzw in opdracht van het Departement Cultuur, Jeugd, Sport en Media. Het project omvatte de normalisering van de identificatiegegevens van kunstwerken uit negen verschillende collectiebeheersystemen (m.n. van KMSKA, M HKA, Middelheimmuseum, MSK Gent, S.M.A.K., Groeningemuseum, Mu.ZEE, LUKAS, Collectie Vlaamse Gemeenschap1) en de VKC online catalogus. Deze normalisering gebeurde met behulp van persistente Uniform Resource Identifiers (URI’s) om zo informatie over de kunstwerken op een eenvoudige manier aan elkaar te koppelen en te verrijken met informatie uit externe bronnen. Het doel van dit project was te onderzoeken of persistente URI’s: 1. het beheer van collectiedata stroomlijnt; 2. de uitwisseling van collectiedata efficiënter maakt; 3. de dynamische verwerking van collectiedata in andere websites of mobiele toepassingen makkelijker maakt. De aanleiding voor het project ‘Persistente Identificatie’ was de doorlichting van de digitale collecties van de musea die deel uitmaken van de samenwerkingsverbanden VKC en CAHF. Eén van de aanbevelingen die resulteerden uit deze doorlichting was kunstwerken persistent te identificeren met URI’s om zowel het beheer en de uitwisseling van informatie over deze kunstwerken in verschillende databanken makkelijker te maken als de integratie en online ontsluiting van collectiedata via een centrale datahub eenvoudiger te maken.
1
Verder afgekort als CVG.
PACKED vzw | Eindrapport Project Persistente Identificatie
3
1.2 Persistente URI’s Definitie Een ‘webadres’ (Uniform Resource Identifier of URI) heeft twee functies: • •
het geeft een document een ‘naam’ die het document uniek identificeert op het web; het bepaalt de ‘locatie’ van het document op een computer die verbonden is met het web.
De ‘naam’ en de ‘locatie’ van een document op het web hoeft niet noodzakelijk hetzelfde te zijn. Een webserver biedt standaard de mogelijkheid om het webadres voor de ‘naam’ van een document te koppelen aan een ander webadres voor de ‘locatie’ van het document. Hierdoor wordt het ook mogelijk om de ‘locatie’ van een document te wijzigen zonder dat de ‘naam van het document verandert. Die onveranderlijkheid is essentieel wanneer je het webadres van een document deelt met andere organisaties of systemen. Je wil immers vermijden dat zo een document ontoegankelijk wordt voor anderen omdat het webadres na een tijdje verandert. Om webadressen zo onveranderlijk mogelijk te maken werden de afgelopen jaren een reeks goede praktijken ontwikkeld2. Die goede praktijken werden samengebracht onder het begrip persistente URI. Een persistente URI is een webadres dat: • • • •
volgens bepaalde regels werd samengesteld; een heldere en consistente structuur heeft; makkelijker te beheren en te gebruiken is; stabiel (onveranderlijk) en toegankelijk op lange termijn is.
Vorm De aanbevolen vorm3 voor een persistente URI is: http://[domein]/[type object]/[type document]/[identificatienummer] waarbij: • • • •
[domein] -‐ de naam van de computer die verbonden is met het web; [type object] -‐ het soort object waar het document over gaat; [type document] -‐ het soort informatie dat het document over het object bevat ; [identificatienummer] -‐ het unieke registratienummer voor het object.
Implementatie Om data te publiceren op het web met behulp van persistente URI’s zijn er twee strategieën. 1. Centraal Je brengt het beheer van de persistente URI’s onder bij een externe organisatie die de URI’s voor jouw data beheert vanaf een centrale webserver. De kost van deze webserver deel je met andere 2
Voor de definitie en de standaardvorm voor persistente URI’s werd gebruik gemaakt van het onderzoek van ISA (International Solutions for European Public Administrations) naar best practices en aanbeveling voor het gebruik van persistente URI’s voor de online ontsluiting van overheidsinformatie. Cf. D7.1.3 - Study on persistent URIs, with identification of best practices and recommendations on the topic for the MSs and the EC, 2012. Zie: https://joinup.ec.europa.eu/sites/default/files/D7.1.3%20-%20Study%20on%20persistent%20URIs.pdf 3 Idem
PACKED vzw | Eindrapport Project Persistente Identificatie
4
organisaties die er gebruik van maken. De externe organisatie is speciaal voor dit doel opgericht en moet verzekeren dat de URI’s toegankelijk blijven voorbij de werking of levensduur van jouw organisatie. Omdat de centrale webserver met een groot aantal organisaties wordt gedeeld, zijn de webadressen opgebouwd uit cijfer-‐ en lettercodes om te zorgen dat elk webadres uniek blijft. Zulke persistent ID services vind je bijvoorbeeld terug in de onderzoekswereld, waar ze gebruikt worden om resultaten van onderzoeksprojecten te identificeren ( cf. The Handle System) of in de uitgeverswereld voor online distributie en verkoop (cf. Digital Object Identifier of DOI). In de erfgoedsector hebben voornamelijk nationale bibliotheken op deze manier persistente URI’s in de praktijk gebracht. In de museumsector gebruikt bijvoorbeeld het Rijksmuseum de Handle service om gegevens over collectiestukken te publiceren op het web. (cf. http://hdl.handle.net/10934/RM0001.COLLECT.6250). 2. Decentraal De andere strategie is zelf een webserver beheren om data of publicaties te publiceren op het web, gebruik makend van de standaard functionaliteiten van een gewone webserver. Organisaties huren of beschikken vaak al over een webserver die ze hiervoor kunnen gebruiken. Bijkomend voordeel is dat de domeinnaam van het webadres ook meteen de afkomst van de informatie aangeeft. Zo wordt het webadres meteen ook een bronvermelding bij de data. Bovendien ben je vrij om de vorm van het webadres te bepalen en kan je bestaande identificatiesystemen uit analoge catalogi of interne databanken hergebruiken, waardoor een dubbele nummering van een object vermeden wordt. Deze strategie sluit aan bij de principes die beschreven worden in de Recommendation on Linked Open Data for museums van CIDOC (International Committee for Documentation) uit 20124. Hierin schuif ICOM (International Council of Museums) het museum naar voor als de autoriteit bij uitstek die verantwoordelijk is om unieke persistente URI’s toe te kennen aan objecten uit haar collectie omdat zij direct toegang heeft tot het object: In order to support and advance the development and implementation of Linked Data technologies in a comprehensive way ICOM states the following principles: o o o o o
o o
Museums are the sole authority with responsibility for establishing globally unique and persistent identities (URIs) for each of the objects in their collections; Each museum should establish and publish on the internet such a unique and persistent identity – preferably as http URI (=URL) – for each of its objects; This URL should resolve to a human-‐readable description of the object, which is sufficiently detailed to identify it unambiguously; Ideally, this URL should additionally resolve to a comparable description in a machine processible format, using best practice Linked Data principles; When describing the relationship of the collection object to its cultural context (people, places, events, etc.), the museum should where possible use URLs from common frameworks, rather than minting its own URLs for these concepts; A museum can choose to delegate this responsibility; The museum should encourage other institutions to use this set of URLs, by publishing metadata such as VoID descriptions (see http://www.w3.org/TR/void) of its collection
4
Statement on Linked Data identifiers for museum objects, CIDOC 2012 Annual General Meeting, 2012-06-13, Helsinki [http://network.icom.museum/fileadmin/user_upload/minisites/cidoc/PDF/StatementOnLinkedDataIdentifiersForMu seumObjects.pdf]
PACKED vzw | Eindrapport Project Persistente Identificatie
5
Het project ‘Persistente Identifcatie’ volgt de tweede strategie, voornamelijk omdat de deelnemende musea zich op het web wensen te manifesteren als autoriteit van informatie over en beelden van kunstwerken uit hun collectie. Andere, eerder pragmatische, redenen voor de keuze van de decentrale strategie is het ontbreken op korte termijn van een consensus op regionaal of nationaal niveau over welke organisatie een centrale PID service zou moeten beheren. Bovendien is PACKED vzw geïnteresseerd om de minder gangbare, decentrale strategie van ICOM voor de implementatie van persistente URI’s te toetsen aan de praktijk. Zijn een groep onafhankelijke, betrekkelijk kleine instellingen in staat om: • • •
op een standaard wijze eenvoudige en makkelijk interpreteerbare persistente URI’s vast te leggen voor de werken in hun collectie; zich te engageren om die persistente URI’s in de toekomst ongewijzigd te laten, ongeacht veranderingen in hun technische infrastructuur en de wijze waarop ze hun collectie ontsluiten; zich te engageren om de documenten en data die aan deze URI’s gekoppeld worden actueel te houden en actief de beschikbaarheid van deze informatie op het web te beheren?
Deze interesse sluit aan bij de werking PACKED vzw met betrekking tot het onderzoeken en vastleggen van standaarden voor de digitalisering van cultureel erfgoed. Met het project ‘Persistente Identificatie’ onderzocht, testte en bepaalde PACKED vzw de standaarden voor musea om de rol van data-‐uitgever op te nemen op het web.5
5
Voor de concrete implementatie van deze strategie werd inspiratie geput uit de Draft CIDOC-‐ICOM recommendation on Linked Open Data for museums. 30-‐5-‐2011 (http://www.cidoc-‐crm.org/docs/LoD_For_Museums_v1.7-‐en.doc) Het project ‘Persistente Identificatie’ kan beschouwd worden als een onderzoek naar de praktische haalbaarheid van deze aanbeveling. De resultaten van dit onderzoek zullen verwerkt worden in de CEST-‐richtlijn voor publiceren van data voor hergebruik op het web.
PACKED vzw | Eindrapport Project Persistente Identificatie
6
1.3 Onderzoeksvragen Om vast te stellen of persistente URI’s echt bijdragen tot een gestroomlijnder beheer, efficiëntere uitwisseling en dynamische verwerking van collectiedata in webtoepassingen, werden de volgende vier onderzoeksvragen gedefinieerd. 1. Hoe maak je de negotiatie naar de juiste webpagina of afbeelding van een kunstwerk eenvoudiger met persistente URI’s? Persistente URI’s voorzien een kunstwerk van een eenvoudige, makkelijk te interpreteren webadres. Hoe draagt dit bij aan de doorzoekbaarheid en vindbaarheid van informatie over het kunstwerk op het web? 2. Hoe verrijk je collectiedata met persistente URI’s? Hergebruik van bestaande persistente URI’s voor gegevens uit andere databanken biedt de mogelijkheid om de eigen collectiedata te verrijken. Laat het identificeren van kunstenaars, objectnamen en bewaarinstellingen met persistente URI’s uit externe databanken toe om de context van een kunstwerk te verhelderen en de collectie beter doorzoekbaar te maken? 3. Hoe los je slechte doorzoekbaarheid veroorzaakt door spelling -‐ en naamsvarianten op met persistente URI’s? Gebruik van verschillende varianten voor namen van vervaardigers en objectnamen veroorzaakt onvolledige zoekresultaten, zowel wanneer je zoekt binnen een digitale collectie als binnen een groep van meerdere digitale collecties. Door vervaardigers en objectnamen te identificeren met persistente URI’s sluit je varianten uit, maar heb je tegelijkertijd toegang tot een grote hoeveelheid varianten in externe databanken. Hoe draagt het gebruik van persistente URI’s bij aan de doorzoekbaarheid van naamsvarianten en spellingsvarianten? Op een gelijkaardige manier zorgt de normalisering van dateringen met de ISO 8601-‐norm voor een preciezere aanduiding van de data waarop een kunstwerk vindbaar is. Hoe wordt de chronologische doorzoekbaarheid verbeterd door gebruik van ISO 8601? 4. Hoe maak je de registratie van objecten eenvoudiger met persistente URI’s? Door het identificeren van kunstenaars, objectnamen en bewaarinstellingen met persistente URI’s, kan de registrator in principe vermijden om bijkomende gegevens over personen, organisaties en concepten te registreren in het collectiebeheersysteem. Biedt het gebruik van persistente URI’s mogelijkheden om de registratie van objecten eenvoudiger te maken?
PACKED vzw | Eindrapport Project Persistente Identificatie
7
1.4 Methodologie Om deze vier onderzoeksvragen te beantwoorden en het beheer van persistente URI’s door de tien deelnemende instellingen mogelijk te maken werden de volgende drie acties ondernomen.
Actie 1: data export Een halftijdse projectmedewerker ging twaalf maanden (halftijds) aan de slag met de data uit de tien instellingen. In deze periode werd de data geanalyseerd en werden gegevens over inventarisnummers, kunstenaarsnamen, objectnamen en bewaarinstellingen gekoppeld aan persistente URI’s. De verrijkte data werd terugbezorgd aan de tien instellingen en ten behoeve van de vier onderzoeksvragen opgeladen in de demonstrator (zie verder) en de resolver (zie verder). De projectmedewerker heeft een opleiding in de Humane Wetenschappen en startte zonder bijzondere kennis over de tools en principes voor het praktisch implementeren persistente URI’s. De leercurve die de projectmedewerker doormaakte was een belangrijke testcase om de haalbaarheid van het beheer van persistente URI’s door collectiemedewerkers te testen. Aan het eind van het project werd een workshop georganiseerd waarin de projectmedewerker de kennis die gedurende twaalf maanden werd opgedaan, deelde met de collectiemedewerkers.
Actie 2: demonstrator In het project werd een aggregator ontwikkeld die de met persistente URI’s verrijkte collectiedata uit de tien instellingen aggregeerde en verder verrijkte met contextuele data uit externe bronnen. Zo werd onderzocht of het gebruik van persistente URI’s wel degelijk bijdraagt aan een betere doorzoekbaarheid en contextualisering van de collectiedata. Om over zoveel mogelijk data te beschikken voor dit onderzoek, is de demonstrator niet publiek toegankelijk via het web. De toegang tot de tool wordt afgeschermd en de tool gaat offline na afloop van het project. De resultaten van de testen met behulp van de demonstrator zijn beschreven in dit rapport en werden getoond aan de stuurgroep.
Actie 3: resolver De demonstrator bevat ook de persistente URI’s die door de projectmedewerker gekoppeld werden aan de collectiedata. De URI’s die de werken identificeren zijn echter niet actief. Daartoe werd de resolver ontwikkeld, een eenvoudige webschil op een webserver die collectiemedewerkers toelaat om op een eenvoudige en gebruiksvriendelijke manier persistente URI’s te maken en te beheren. De ontwikkeling van de resolver sloot aan bij de projectdoelstelling die wou aantonen dat persistente URI’s in de praktijk gebracht kunnen worden door kleine bewaarinstellingen volgens de principes beschreven in de Recommendation on Linked Open Data for museums van CIDOC in 20126. In de workshop vermeld onder Actie 1 werd ook uitgelegd hoe collectiemedewerkers gebruik kunnen maken van de resolver voor het implementeren van persistente URI’s in hun instelling. 6
Statement on Linked Data identifiers for museum objects, CIDOC 2012 Annual General Meeting, 201206-13, Helsinki [http://network.icom.museum/fileadmin/user_upload/minisites/cidoc/PDF/StatementOnLinkedDataIdentifiersForMu seumObjects.pdf]
PACKED vzw | Eindrapport Project Persistente Identificatie
8
1.5 Rapportstructuur Dit rapport bestaat, naast de inleiding, uit vijf delen: • • • • •
hoofdstuk 2 ‘Projectverloop’ geeft een overzicht van de projectplanning, waarbij alle ondernomen stappen worden beschreven en geëvalueerd; hoofdstuk 3 ‘Onderzoeksvragen’ beantwoordt de vier onderzoeksvragen met behulp van de demonstrator-‐ en resolvertools; hoofdstuk 4 ‘Evaluatie’ bevat een evaluatie van het projectverloop en de resultaten van de onderzoeksvragen; hoofdstuk 5 ‘Financiële verantwoording’ bevat een beknopt overzicht van de besteding van de toegekende projectmiddelen en de eigen inbreng. hoofdstuk 6 ‘Besluit’ geeft een beknopt overzicht van de acties die de partnerinstellingen zelf dienen te ondernemen om de resultaten van dit project op een duurzame manier te implementeren.
PACKED vzw | Eindrapport Project Persistente Identificatie
9
2. Projectverloop In dit hoofdstuk wordt een balans opgemaakt van het verloop van het project ‘Persistente Identificatie’. Deze evaluatie wordt gemaakt aan de hand van de vijf fases waaruit het project was opgebouwd. Dit hoofdstuk is complementair aan de tussentijds evaluatie die gemaakt werd in functie van de stuurgroepbijeenkomst #1 in februari 2014. De onderstaande analyse gaat voornamelijk in op het tweede deel van het project.
2.1 Fase I: opstart Actie 1.1 Werkafspraken en samenwerkingsovereenkomst oktober -‐ november 2013
-‐ Bij aanvang van het project werd er met de partners samengezeten om het project toe te lichten en de eerste werkafspraken te maken. Er werd ook een presentatie gegeven over het project tijdens de LUKAS Partnerdag (13/11/2013) -‐ De nodige samenwerkingsovereenkomsten en de datagebruiksovereenkomsten werden door alle partners goedgekeurd en ondertekend.
Actie 1.2 Onderzoek referentieterminologieën december 2013 -‐ februari 2014
-‐ Er werd een analyse gemaakt van de externe standaardterminologieën die in het project gebruikt werden voor de normalisering en verrijking van verschillende data. De analyse had betrekking op: -‐ ISIL-‐code en DBpedia om bewaarinstellingen te identificeren; -‐ AAT om objectnamen te identificeren; -‐ VIAF, RKDartists&, ODIS, DBpedia en Freebase om vervaardigers te identificeren; -‐ ISO 8601 als de standaard voor de normalisering van dateringen -‐ De resultaten van de analyse werden uitgeschreven in het rapport 20140217_Analyse van beschikbare standaardterminologieën_V1_1 (zie bijlage 1) en opgesomd in het tussentijds rapport 20140129_Tussentijds_rapport_PID_v1_1 (zie bijlage 2).
Actie 1.3 Studeren datamanagement tools september 2013
-‐ De volgende programma’s werden bestudeerd: -‐ OpenRefine (workshop door Bert Lemmens van 5 september 2013); -‐ Oxygen XML; -‐ Erfgoedstats.
PACKED vzw | Eindrapport Project Persistente Identificatie
10
2.2 Fase II: identificatie entiteiten Actie 2.1 Export #1 november -‐ december 2013
-‐ Met enkele weken vertraging werden eind december 2013 alle exports met de nodige data uit de collectiebeheersystemen van de partners ontvangen. -‐ Het bleek problematisch te zijn om de URL’s naar webpagina’s met online gepubliceerde data en afbeeldingen van kunstwerken aan PACKED vzw te bezorgen. Behalve Lukas en VKC, waar de URL’s naar de afbeeldingen wel in het collectiebeheersysteem worden opgeslagen, bezat geen enkele andere instelling een overzicht van de URL’s in haar collectiebeheersysteem.
Actie 2.2 Onderzoek update scenario’s november 2013 -‐ februari 2014
-‐ Binnen deze actie onderzocht PACKED vzw samen met de partners wat het beste scenario is om de genormaliseerde data op het einde van het project op te laden in de collectiebeheerssystemen. -‐ Er werd aan elke partner een bezoek gebracht om de mogelijkheden voor het importeren van de verrijkte data te bespreken. -‐ Aan de hand van de informatie verkregen tijdens deze interviews en gebaseerd op de noden van het juiste beheer van de genormaliseerde data, werden er drie aparte voorstellen uitgewerkt voor de collectiebeheersystemen Adlib, TMS en CollectiveAccess. Deze voorstellen werden toegelicht in het rapport 20140217_Rapport_onderzoek_update_scenario’s (zie bijlage 3). De voorstellen werden aangepast ahv gesprekken met de leveranciers en opmerkinen van de collectieverantwoordelijken (zie bijlage 4, 5 en 6).
Actie 2.3 Analyse collectiedata december -‐ februari 2014
-‐ PACKED vzw analyseerde de aangeleverde collectiedata op conformiteit aan de geselecteerde standaardterminologieën. Per entiteit werden de volgende vragen in de analyse opgenomen en beantwoord: Kunstwerk: -‐ aantal records? -‐ wat is de syntax van de inventarisnummers? (welke logica’s, welk soort tekens, welke onwenselijke leestekens?) -‐ wat zijn de beste transformatieregels om de inventarisnummers te kunnen overzetten naar online persistente identifiers? -‐ aantal vermeldingen in andere databanken? -‐ hoeveel records zijn er online gepubliceerd?
PACKED vzw | Eindrapport Project Persistente Identificatie
11
Instellingsnaam en instellingsnummer: -‐ aanwezig? -‐ wat is de syntax voor instellingsnamen? Objectnaam: -‐ aantal records? -‐ welke velden gebruiken de musea voor objectnamen? -‐ aantal spellingvarianten? -‐ is er een databanknummer voor objectnamen? -‐ verwijzingen naar externe autoriteiten? Vervaardiger: -‐ aantal records? -‐ aantal spellingsvarianten? -‐ is er een databanknummer voor vervaardigers? -‐ verwijzingen naar externe autoriteiten? Datering: -‐ wat is de syntax voor dateringen? -‐ welke velden worden gebruikt voor dateringen? -‐ bestaan er afspraken voor relatieve dateringen? Afbeeldingen: -‐ aantal records? -‐ wat is de syntax voor bestaande URI’s? -‐ De resultaten van de analyse werden verwerkt in 20140212_Analyse_collectiedata_v1_1 en opgesomd in het tussentijdsrapport 20140129_Tussentijds_rapport_PID_v1_1 (bijlage 2). -‐ In de loop van maart 2014 werden de resultaten bijgewerkt aan de hand van feedback van de partners.
Actie 2.4 Stuurgroepbijeenkomst #1 27 februari 2014
-‐ De stuurgroep bestond uit de registratoren en de collectieverantwoordelijken, vertegenwoordigers van PACKED vzw en vertegenwoordigers van het Departement CJSM. -‐ Op deze stuurgroepbijeenkomst werden o.a. de volgende thema’s toegelicht, besproken en goedgekeurd: de resultaten van de voorafgaande analyses, voorstellen van update-‐scenario’s van collectiebeheersystemen, de methodes van de komende normalisering van data, transformatieregels voor dateringen en inventarisnummers. De beslissingen van de stuurgroep zijn vastgelegd in het 20140304_Verslag_stuurgroep_PID_v1_0 .
PACKED vzw | Eindrapport Project Persistente Identificatie
12
2.3 Fase III: update collectiedata
Actie 3.1 Aanpassingen aan Adlib/TMS/CA maart -‐ september 2014
-‐ Het doel van deze actie was om volgens de uitgeschreven voorstellen aanpassingen in de collectiebeheersystemen uit te voeren om de genormaliseerde data en de persistente URI’s erin te kunnen opnemen. De partners waren niet verplicht om de aanpassingen binnen het project uit te voeren. -‐ Deze actie liep vertraging op door de verschillende situaties en afspraken rond het beheer en gebruik van de collectiebeheersystemen van de partner-‐ instellingen. -‐ Het belangrijkste resultaat van deze actie was het overtuigen van de partners van de nood van het opslaan van persistente identifiers in de collectiebeheersystemen. De technische uitvoering van de nodige aanpassingen in de collectiebeheersystemen is bij afloop van het project nog steeds work-‐in-‐ progress en zal door PACKED vzw verder worden opgevolgd.
Overzicht van de geboekte resultaten per collectiebeheersysteem: Adlib: Middelheim
-‐ Testen van de aanpassingen aan de Adlib-‐databank en importeren van de genormaliseerde data in een test-‐omgeving succesvol uitgevoerd (Jeroen De Meester). -‐ De resultaten van de update van Adlib van het Middelheimmuseum en implementatie ervan werden op de stuurgroep met andere partners besproken.
Erfgoedinzicht -‐ Technische bespreking van implementatie persistente URI’s met de IT-‐ (Groeningemuseum, verantwoordelijken (Marc Cornelis, Christoph Coevoet). Resultaat: zij gaan SMAK, MSK Gent en akkoord en gaan de oplossing testen. Mu.Zee) -‐ Presentatie van de oplossing aan de kerngroep van Erfgoedinzicht Provincie West/Oost-‐Vlaanderen. -‐ Beslissing om te wachten op tests van de andere gebruikers en tot de update van Adlib in september 2014 (waarvoor nieuwe velden voor persistente URI’s werden beloofd). -‐ Op het moment van het indienen van dit eindrapport is de door Adlib beloofde update van haar collectiebeheersysteem nog niet beschikbaar. De implementatie van nieuwe velden voor persistente URI’s bij de instellingen aangesloten bij Erfgoedinzicht zal verder door PACKED vzw worden opgevolgd en gerapporteerd.
PACKED vzw | Eindrapport Project Persistente Identificatie
13
M HKA
-‐ Wenste het voorstel van PACKED vzw uit te testen, maar ging er uiteindelijk niet verder op in. Men besliste om op resultaten van andere partners te wachten.
CVG
-‐ Voerden de voorgestelde aanpassingen door in de Adlib-‐databank (Marthe Lemmens, Mario Commeyne) Het testproces is nog niet voltooid.
Adlib-‐ gebruikersgroep
-‐ Presentatie van de voorgestelde oplossing op 13 mei 2014. -‐ Positieve reactie van de hoofdontwikkelaar op de voorgestelde oplossing van PACKED vzw, maar belofte om in de volgende update van Adlib een eigen oplossing voor het documenteren van persistente URI’s te voorzien. -‐ Interesse van Nederlandse musea in de aanpak van PACKED vzw (gesprekken met Amsterdams Historisch Museum).
TMS KMSKA
-‐ Beslissing genomen om de implementatie van nieuwe velden deels in TMS, deels in CollectionConnection uit te voeren. -‐ Op het moment van het indienen van dit eindrapport werd een offerte aangevraagd bij CiT, de uitvoering van de update is nog in bespreking.
Collective Acces VKC, Lukas
-‐ Offerte gevraagd bij PurSign voor Lukas en VKC. -‐ De aanpassingen en het importeren van data is volledig en succesvol uitgevoerd bij VKC.
Actie 3.2 Normalisering en verrijking van de data maart -‐ augustus 2014
-‐ Uitbouwen van reconciliation services in OpenRefine voor VIAF, AAT, RKDartists&, ODIS en Wikidata om objectnamen en vervaardigers semi-‐ automatisch te kunnen identificeren m.b.v. externe standaardterminologieën. Enkel de Wikidata API kon rechtstreeks gebruikt worden. Voor de reconciliation van VIAF, AAT, RKDartists& en ODIS werd uiteindelijk beslist een eigen web service te bouwen omdat de reconciliation hierdoor efficiënter kon verlopen. -‐ Aanmaken van persistente URI’s voor entiteiten ‘werk’, ‘record’ en ‘afbeelding’. De koppeling van de CVG-‐records aan de records in de datasets van andere instellingen kon niet volledig automatisch uitgevoerd worden. Bij langdurige bruiklenen bleken niet overal de juiste CVG-‐inventarisnummers te zijn bijgehouden. PACKED vzw heeft een bijkomende actie geïnitieerd waarbij er in samenwerking met alle collectieverantwoordelijken een update van de bruikleengerelateerde informatie werd uitgevoerd in zowel de dataset van CVG
PACKED vzw | Eindrapport Project Persistente Identificatie
14
als in die van andere instellingen. Deze bijkomende actie werd volledig afgerond, met uitzondering van dertigtal kunstwerken waarvoor de eigendomssituatie niet uitgeklaard kon worden binnen de tijdsduur van dit project. Aan de hand van de resultaten werden er persistente identifiers voor kunstwerken, records en afbeeldingen aangemaakt. -‐ Normalisering dateringen volgens de ISO 8601-‐norm. -‐ Semi-‐automatische toekenning van persistente identifiers uit externe bronnen aan objectnamen (AAT), vervaardigers (VIAF, ODIS, RKDartists&, Wikidata), instellingen (ISIL, Wikidata) met behulp van Open Refine reconciliation service. Het controleren van de resultaten van de reconciliation service was de meest tijdisrovende actie, maar is toch tijdig afgeraakt. -‐ Bijkomende acties: -‐> presentatie van het project: -‐ presentatie op de Benelux-‐conferentie Digital Humanities, 13 juni 2014 in Den Haag; -‐ workshop ‘Prepare your metadata’, 17 juni 2014 in Brussel. -‐> bespreking samenwerking met de beheerders van de externe bronnen: -‐ bespreking van de voorwaarden voor het gebruik van data uit de ODIS-‐ databank binnen het project, 12 februari 2014 in Leuven; -‐ brainstorming met RKD over de web service (nodig voor de ontwikkeling van de reconciliation service) 6 maart 2014 in Den Haag; -‐ bespreking van voordelen van gebruik van persistente URI’s en de implementatie ervan voor ISIL, beheerd door KBR, 11 juli 2014 in Brussel.
Actie 3.3 Controle genormaliseerde data mei -‐ september 2014
-‐ De doorgestuurde bestanden met de genormaliseerde data werden door de collectieverantwoordelijken deels nagekeken en goedgekeurd: -‐ persistente URI’s werk, record, afbeelding: Groeningemuseum, KMSKA, MSK Gent, VKC, S.M.A.K., M HKA, Middelheimmuseum, LUKAS, CVG; -‐ bewaarinstelling: Groeningemuseum, KMSKA, VKC, S.M.A.K., M HKA, Middelheimmuseum, CVG; -‐ objectnaam: Groeningemuseum, KMSKA, VKC, S.M.A.K., M HKA, Middelheimmuseum, CVG; -‐ vervaardigers: Groeningemuseum, KMSKA, VKC, S.M.A.K., M HKA, Middelheimmuseum, CVG; -‐ datering: Groeningemuseum, KMSKA, VKC, S.M.A.K., M HKA, Middelheimmuseum, Mu.ZEE, CVG.
PACKED vzw | Eindrapport Project Persistente Identificatie
15
Actie 3.4 Update en export #2 september 2014
- De bedoeling van deze actie was zowel het importeren van de genormaliseerde data in de collectiebeheersystemen van de partners als het creëren van een tweede export van data voor PACKED vzw. Deze stap was voorzien om de resultaten van de updates van collectiebeheersystemen te kunnen testen. De partners waren niet verplicht om deze actie binnen het project uit te voeren. Deze actie hing af van de resultaten van de actie 3.1. Aanpassingen in Adlib/TMS/CA. - Het importeren werd uitgetest bij Middelheimmuseum en VKC.
2.4 Fase IV: ontwikkeling demonstrator en resolver Door vertragingen in andere projecten bij PACKED vzw en de voorrang aan de ontwikkeling van de reconciliation services werd de ontwikkeling van de resolver en de demonstrator uitgesteld naar de zomer 2014. Aangezien PACKED-‐medewerker Joris Janssens van juni tot september slechts beperkt beschikbaar was door zijn betrokkenheid in andere projecten, werd gezocht naar oplossingen om de ontwikkeling van beide tools uit te besteden.
Actie 4.1 Ontwikkeling resolver juni – september 2014
-‐ De resolver is een tool waarmee de persistente URI’s gekoppeld kunnen worden aan de beschikbare URL’s waarop beschrijvingen en afbeeldingen van kunstwerken al online toegankelijk zijn. De functionele en technische eisen werden vastgelegd, evenals de technologie waarmee gewerkt wordt. -‐ In de loop van augustus 2014 heeft een jobstudent meegewerkt aan de ontwikkeling van de resolver. -‐ De resolver werd uitgetest door een medewerker van één van de partner-‐ instellingen (Veronique Despodt, S.M.A.K.). -‐ De resolver is online toegankelijk op http://resolver.be -‐ De broncode werd gepubliceerd op GitHub: https://github.com/PACKED-‐ vzw/resolver
Actie 4.2 Ontwikkeling demonstrator juni – september 2014
-‐ De demonstrator is een tool voor intern gebruik, waarmee de identificatiegegevens uit de tien datasets verzameld worden in één databank en vervolgens verrijkt met data die binnengehaald wordt via externe web services. Deze tool geeft de mogelijkheid om verschillende zoekresultaten te vergelijken: •
Simple: geeft resultaten terug van een zoekopdracht uitgevoerd op de
PACKED vzw | Eindrapport Project Persistente Identificatie
16
•
•
oorspronkelijke brondata van de musea voor de normalisering. Indexed: geeft resultaten terug van een zoekopdracht uitgevoerd op de brondata voor de normalisering, maar m.b.v. het Soundex-‐algoritme, waarbij naamsvarianten fonetisch worden herkent. Normalised: geeft resultaten terug van een zoekopdracht uitgevoerd op de genormaliseerde en verrijkte data.
-‐ De functionele en technische eisen voor de demonstrator werden gedetailleerd uitgewerkt in samenwerking met Underlined bvba. (zie bijlage 7) -‐ Er werden bijkomende datagebruiksovereenkomsten met de partnerinstellingen afgesloten, die het gebruik van test-‐datasets door Underlined bvba regelen. -‐ In de loop van juni-‐augustus 2014 werd de demonstrator ontwikkeld. -‐ De demonstrator is online toegankelijk op packed.underlined.be -‐ De broncode werd gepubliceerd op GitHub: https://github.com/weopendata/packed-‐input
2.5 Fase V: eindrapport Actie 5.1 Opstellen van meetindicatoren juni 2014
-‐ Uitgewerkt met Underlined bvba (zie bijlage 7)
Actie 5.2 Testen augustus -‐ september 2014
-‐ Het uittesten van de resolver-‐ en demonstrator-‐tools werd voltooid.
Actie 5.3 Eindrapport oktober 2014
-‐ Voltooid.
Actie 5.4 Opleiding 28 oktober 2014
-‐ De workshop werd georganiseerd voor de collectieverantwoordelijken en de registratoren van de partnermusea. -‐ Het doel van de workshop was met de partners kennis over en technieken van het aanmaken, gebruiken en beheren van de persistente identifiers te delen die in de loop van het project werden ontwikkeld en uitgetest. Als resultaat zullen de registratoren en collectieverantwoordeijken het werk dat tijdens het project werd opgestart rond het normaliseren van de data verder kunnen zetten (de
PACKED vzw | Eindrapport Project Persistente Identificatie
17
nieuwe data die sinds de export werd toegevoegd in de collectiebeheersystemen of data die binnen het project niet genormaliseerd geraakte). De volgende punten stonden op de programma: • • •
hoe maak je persistente URI's aan? (OpenRefine en resolver); metadata schonen en normaliseren met OpenRefine; semi-‐automatische identificatie van concepten en personen (reconciliation service).
Bij alle oefeningen werd er zoveel mogelijk met de collectiedata gewerkt.
Actie 5.5 Stuurgroepbijeenkomst #2 27 oktober 2014
-‐ De stuurgroep bestond uit collectieverantwoordelijken en de registratoren van de partnermusea. -‐ Volgende punten stonden op de agenda: -‐ tonen van de resultaten via de demonstrator; -‐ toelichting van het eindrapport; -‐ evaluatie van het projectverloop; -‐ bespreking van opvolging van het project en mogelijke volgende stappen.
PACKED vzw | Eindrapport Project Persistente Identificatie
18
3. Onderzoeksvragen In dit hoofdstuk wordt aan de hand van de vieronderzoeksvragen beschreven hoe persistente URI’s bijdragen het beheer van collectiedata stroomlijnt, uitwisseling van collectiedata efficiënter maakt en dynamische verwerking van collectiedata in andere websites of mobiele toepassingen makkelijker maakt. Bij elke onderzoeksvraag wordt eerst aangegeven welke acties ondernomen werden om de collectiedata te verbeteren. Daarna wordt met behulp van de demonstrator bekeken welke impact persistente URI’s hebben op de kwaliteit van de collectiedata.
3.1 Hoe maak je de negotiatie naar de juiste webpagina of afbeelding van een kunstwerk eenvoudiger met persistente URI’s? Persistente URI’s voorzien een kunstwerk van een eenvoudig, makkelijk te interpreteren webadres. Hoe draagt dit bij aan de doorzoekbaarheid en vindbaarheid van informatie over het kunstwerk op het web? Acties: • •
• • •
•
•
Er werd een analyse gemaakt van de collectiedata, waarbij de vorm van de bestaande URL’s voor gepubliceerde data en afbeeldingen in kaart werden gebracht. Er werd een eenvoudige en consistente syntax vastgelegd om kunstwerken uniek te identificeren. Deze URI wordt globaal uniek gemaakt door hergebruik van de bestaande inventarisnummers en voor elke collectie een eigen domeinnaam te gebruiken. Door deze URI werd de bestaande syntax van beschrijvingen op het web een stuk eenvoudiger gemaakt. vergelijk Op die manier werden 43.264 records (de beschrijvingen van kunstwerken) in de tien digitale collecties geïdentificeerd. De inventarisnummers werden ontdaan van spaties, leestekens en diakritische tekens, waardoor ze kunnen opgenomen worden in een URI. Alle beschrijvingen werden geïdentificeerd met een persistente URI (cf. work/data URI). http://www.smak.be/collectie_kunstenaar.php?kunstwerk_id=504&l=a&kunstenaar_id=106) werd: http://smak.be/collection/work/data/866 Aan elke beschrijving werd een persistente URI gekoppeld voor de referentieafbeelding, ongeacht of er wel of niet een referentiebeeld op het web bestaat. Dit werd gedaan om voor actuele online beelden en in de toekomst gepubliceerde beelden alvast een persistente URI’s aan te maken. (cf. work/representation URI). http://www.smak.be/collectie_afbeeldingen/mandersFMB.jpg werd: http://smak.be/collection/work/representation/866 Aan elke beschrijving werd een persistente URI gekoppeld voor het kunstwerk. (cf. work/id URI), bv. http://smak.be/collection/work/id/866 Deze URI werd toegekend op basis van het principe dat de eigenaar van een kunstwerk de persistente URI toekent. Dit betekent dat de URI van het kunstwerk sterk kan verschillen van de URI van de beschrijving wanneer het bijvoorbeeld een werk is dat in langdurige bruikleen gegeven is.
PACKED vzw | Eindrapport Project Persistente Identificatie
19
Wanneer twee collecties een verschillend inventarisnummer gebruiken, werd gekozen voor het inventarisnummer van de collectie die het kunstwerk verworven heeft. Na identificatie van de kunstwerken in de 10 datasets bleken in totaal 34.358 unieke kunstwerken te bestaan. Conclusies: 1. Door een onderscheid te maken tussen URI’s voor kunstwerken, beschrijvingen en afbeeldingen kan onderscheid gemaakt worden tussen verschillende bronnen die informatie over een kunstwerk aanbieden. Door records te koppelen aan persistente URI’s voor de kunstwerken, kon de verspreiding van data over de tien digitale collecties in kaart gebracht worden. aantal work PIDs met 1 data PID
26.575
77 %
aantal work PIDs met 2 data PIDs
6.782
20 %
aantal work PIDs met 3 data PIDs
908
2,5 %
aantal work PIDs met 4 data PIDs
68
<1 %
aantal work PIDs met meer dan 4 data PIDs
25
<1 %
Totaal aantal work PIDs
34.358
• • •
Voor ruim 75% van de kunstwerken is er slechts één beschrijving aanwezig. Voor 5% zijn er twee beschrijvingen. De resterende 3% zijn kunstwerken die ook vindbaar via meerdere kanalen.
2. Door het gebruik van een URI voor het kunstwerk, kunnen alle beschikbare beschrijvingen voor een kunstwerk gegroepeerd opgevraagd worden. A. Een zoekopdracht op basis van een inventarisnummer van een kunstwerk uit de databank van de Collectie Vlaamse Gemeenschap in de demonstrator geeft de volgende resultaten: −
De resultaten van de ‘Simple’-‐zoekopdracht a.d.h.v. de niet-‐genormaliseerde data tonen enkel het record uit de CVG-‐databank over dat kunstwerk.
PACKED vzw | Eindrapport Project Persistente Identificatie
20
−
De resultaten van de ‘Indexed’-‐zoekopdracht tonen ook enkel het record uit de CVG-‐databank.
−
De resultaten van de ‘Normalised’ -‐zoekopdracht, die a.d.h.v. genormaliseerde data werd uitgevoerd, tonen naast het CVG-‐record over het kunstwerk ook de records uit de databanken van Lukas, VKC en MSK Gent, wat ongetwijfeld voor een beter overzicht zorgt.
B. Een zoekopdracht op basis van een titel in de demonstrator geeft de volgende resultaten: −
De resultaten van de ‘Simple’-‐zoekopdracht tonen enkel het CVG-‐record.
−
De resulaten van de ‘Indexed’-‐zoekopdracht tonen ook enkel het CVG-‐record.
PACKED vzw | Eindrapport Project Persistente Identificatie
21
−
De resultaten van de ‘Normalised’ -‐zoekopdracht tonen de records van Lukas en MSK Gent, ongeacht het feit dat de titel van het kunstwerk in een andere taal in de records werd geregistreerd.
3. Met het proactief toekennen van een persistente URI voor beelden is voor collectiebeheerders een helder kader ontwikkelt om stapsgewijs beelden online te publiceren. Met behulp van de resolver kan op termijn gevolgd worden hoeveel beelden er werkelijk online staan. In de evaluatie van het projectverloop werd al vermeld dat slechts twee instellingen URL’s naar webpagina’s en afbeeldingen documenteren in hun collectiedata. Dit project ging er echter vanuit dat voor elk kunstwerk (vandaag of in de toekomst) een digitaal referentiebeeld beschikbaar wordt gemaakt op het web. De persistente URI’s voor digitale representaties werden dus a priori gecreëerd en zijn geen indicatie van het aantal beelden dat op dit ogenblik werkelijk online beschikbaar is. Ze leggen een kader vast waarin collectiebeheerders in de toekomst beelden online kunnen plaatsen naar wens, terwijl de persistentie van de links naar deze beelden steeds gewaarborgd wordt. De resolver bied collectiebeheerders een instrument om beelden aan deze URI’s te koppelen. Beheerders kunnen daarbij vrij kiezen aan welke beeldbank ze dat beeld ontlenen. Wanneer er geen beeld gekoppeld is, toont de resolver een standaard melding die aangeeft dat het kunstwerk deel uitmaakt van de collectie, maar dat er geen beeld online beschikbaar is.
3.2 Hoe verrijk je collectiedata met persistente URI’s? Hergebruik van bestaande persistente URI’s voor gegevens uit andere databanken biedt de mogelijkheid om de eigen collectiedata te verrijken. Laat het identificeren van kunstenaars, objectnamen en bewaarinstellingen met persistente URI’s uit externe databanken toe om de context van een kunstwerk te verhelderen en de collectie beter doorzoekbaar te maken?
PACKED vzw | Eindrapport Project Persistente Identificatie
22
Acties: •
•
•
•
• •
In een eerste fase werd onderzocht welke bestaande identifiers-‐verzamelingen best geschikt zijn om collectiegegevens te identificeren. Uit deze analyse kwamen de volgende externe bronnen naar voren: VIAF, RKDartists&, ODIS, AAT, ISIL, Wikidata. Vervolgens werd onderzocht hoe deze zes externe bronnen gebruikt konden worden voor het semi-‐automatisch koppelen van collectiedata met ID’s in OpenRefine. Hiervoor werden uiteindelijk vier reconciliation services gebouwd, namelijk voor VIAF, AAT, RKDartists& en ODIS. Voor Wikidata werd de standaard API gebruikt. Gegevens uit ISIL werden handmatig toegevoegd. Met behulp van OpenRefine werden kunstenaarsnamen en objectnamen semi-‐automatisch gekoppeld aan ID’s uit de externe bronnen. Daarbij suggereerde OpenRefine voor elke term drie mogelijke kandidaten. Vervolgens koos de projectmedewerker voor elke term het juiste ID. Deze keuze werd gemaakt op basis van bijkomende informatie over de persoon of het concept uit de externe databank. Wanneer er geen juiste ID werd gevonden, werd er geen ID toegekend. Vervolgens werd op basis van de beschikbare informatie uit externe bronnen gekozen welke contextuele data aan de collectiedata toegevoegd werd. Hierbij werd gekozen voor: o geboorte-‐ en sterfdatum en geboorte-‐ en sterfplaats van kunstenaars; o spellingsvarianten van kunstenaarsnamen; o bibliografie over kunstenaars; o vertalingen van objectnamen in Engels, Frans en Duits; o de website van de bewaarinstelling; o geografische coördinaten van de bewaarinstelling. Voor Wikidata, AAT en VIAF kon deze data via een API opgevraagd worden. Voor RKDartists& en ODIS werd deze data uit de webpagina’s geëxtraheerd.
Conclusies: In de demonstrator kan men twee versies van elke record bekijken: de data die oorspronkelijk werd aangeleverd door één van de tien instellingen, en het record met de informatie die uit externe bronnen werd toegevoegd. −
Dit screenshot toont de brondata vóór de normalisering en verrijking, zoals het door de partnerinstelling werd aangeleverd.
−
Dit screenshot toont de resultaten van de identificatie van een objectnaam-‐term samen met de contextuele informatie binnengehaald uit AAT.
PACKED vzw | Eindrapport Project Persistente Identificatie
23
−
−
Op dit screenshot zijn de resultaten van verrijking te zien van de vervaardiger-‐concept met naamvarianten binnengehaald uit externe bronnen RKDartists&, VIAF en Wikidata. Het bijhorende kunstwerk wordt op die manier ook doorzoekbaar op die naamsvarianten.
−
Dit screenshot toont de verrijking van data over de bewaarinstelling met de geografische coördinaten binnengehaald uit Wikidata.
PACKED vzw | Eindrapport Project Persistente Identificatie
24
3.3 Hoe los je slechte doorzoekbaarheid veroorzaakt door spellings- en naamsvarianten op met persistente URI’s? Gebruik van verschillende varianten voor namen van vervaardigers en objectnamen veroorzaakt onvolledige zoekresultaten, zowel wanneer men zoekt binnen één digitale collectie als binnen meerdere digitale collecties. Door vervaardigers en objectnamen te identificeren met persistente URI’s sluit men varianten uit, maar heeft men tegelijkertijd toegang tot een grote hoeveelheid varianten in externe databanken. Hoe draagt het gebruik van persistente URI’s bij aan de doorzoekbaarheid van spellings-‐ en naamsvarianten? Op een gelijkaardige manier zorgt de normalisering van dateringen met de ISO 8601-‐norm voor een preciezere aanduiding van de data waarop een kunstwerk vindbaar is. Hoe wordt de chronologische doorzoekbaarheid verbeterd door gebruik van ISO 8601? Acties: •
•
•
Bij de semi-‐automatische toekenning van persistente URI’s uit VIAF, RKDartists&, ODIS en Wikidata werden 10.183 naamsvermeldingen geïdentificeerd met behulp van de opgestelde reconciliation service in OpenRefine. Het toekennen gebeurde in twee fases, waarbij er in de eerste fase de reconciliation service automatisch voorstellen voor identifiers genereerde en in de tweede fase een controle van deze automatische toekenning werd uitgevoerd. Bij de semi-‐automatische toekenning van persistente URI’s uit de AAT werden 958 objectnamen-‐records geïdentificeerd met behulp van de opgestelde reconciliation service in OpenRefine. In het loop van het project werd er voorkeur gegeven aan de Getty AAT URI’s (http://vocab.getty.edu/aat/) in plaats van de AAT-‐Ned URI’s (http://browser.aat-‐ned.nl/), omdat deze laatste op termijn wordt uitgefaseerd ten voordele van de eerste. Alle beschikbare dateringen en precisie aanduidingen werden genormaliseerd volgens de voorgestelde regels met behulp van de ISO 8601 norm.
Conclusies: 1. De doorzoekbaarheid van de collectiecatalogus verbetert door een betere herkenning met naamsvarianten van kunstenaars (zoeken op een naamsvariant geeft alle werken van een bepaalde kunstenaar). In de onderstaande tabel een overzicht van het aantal naamsvermeldingen waaraan een persistente URI voor een kunstenaar kon gelinkt worden. Aantal Aantal unieke naams-‐ strings in de vermeldingen naams-‐ vermeldingen
Aantal records geïdentificeerd met maar 1 persistente URI
Aantal records geïdentificeerd met maar 2 persistente URI’s
Aantal records geïdentificeerd met maar 3 persistente URI’s
Aantal records geïdentificeerd met maar 4 persistente URI’s
10.183
1.373 (14%)
3.424 (34%)
4.083 (40%)
204 (2%)
7.750
PACKED vzw | Eindrapport Project Persistente Identificatie
25
• •
De tien digitale collecties bevatten 10.183 naamsvermeldingen voor kunstenaars met daarin 7.750 unieke strings voor kunstenaarsnamen. 90% van de naamsvermeldingen voor kunstenaars in de tien digitale collecties kon gekoppeld worden aan één of meerdere persistente URI’s.
In de onderstaande tabel een overzicht per externe bron van het aantal unieke kunstenaars dat geïdentificeerd werd en het aantal naamsvarianten dat werd toegevoegd aan de zoekindex van de demonstrator. Externe bron
Aantal geïdentificieerde naamsvermeldingen
Aantal unieke kunstenaars
Aantal naamsvarianten gehaald uit de externe bron
RKDartists&
8.708
7.025
21.413
VIAF
7.791
4.584
111.711
Wikidata
4.463
2.326
9.156
ODIS
347
165
-‐
•
•
Op basis van deze gegevens kan niet precies vastgesteld worden hoeveel unieke kunstenaars in de tien datasets vermeld worden. We weten namelijk niet welke ID’s uit bijvoorbeeld RKDartists& verwijzen naar hetzelfde ID in VIAF. Op basis van de cijfers uit RKDartists& en VIAF wordt het aantal unieke kunstenaars op 7.025 (unieke personen geïdentificeerd door RKDartists&) tot 7.750 (aantal unieke naamsvermeldingen in de collectiedata) geschat. Op basis van de vier externe bronnen werden in totaal 131.266 unieke naamsvarianten toegevoegd aan de zoekindex van de demonstrator.
De verbeterde doorzoekbaarheid door toevoeging van deze naamsvarianten wordt duidelijk door de volgende zoekopdracht: ‘Hellish Breughel’ is één van de bijnamen van Pieter Bruegel II. −
De zoekopdracht a.d.h.v. de brondata toont geen resultaten voor deze naamsvariant:
PACKED vzw | Eindrapport Project Persistente Identificatie
26
−
Terwijl er drieëntwintig kunstwerken worden teruggeven van ‘Hellish Breughel’ in de resultaten van een zoekopdracht uitgevoerd a.d.h.v. genormaliseerde en verrijkte data, ook al was deze naamsvariant nooit gebruikt bij de registratie van de kunstwerken in de collectiebeheersystemen.
De resultaten van deze verrijking met naamsvarianten wordt als volgt geëvalueerd: 1.1 Reconciliation service OpenRefine Voor het ophalen en toekennen van identifiers uit externe bronnen werd gebruik gemaakt van de reconciliation functie van OpenRefine, die de vervaardigers automatisch identificeerde met persistente URI’s via bestaande API’s van VIAF en Wikidata, en via een door PACKED vzw ontwikkelde reconciliation service die gebruik maakte van datadumps van RKDartists& en ODIS. In een tweede fase werden de voorgestelde identifiers handmatig gecontroleerd. In die tweede fase werd er opgemerkt dat er soms toch een record over een bepaalde vervaardiger aanwezig is in een standaardterminologie, terwijl het niet via de reconciliation service werd voorgesteld. Voor VIAF en RKDartists& werd er voor elke record een poging gedaan om toch een record manueel te vinden. •
•
•
RKDartists&-‐reconciliation service heeft 8.616 agents voorgesteld voor 10.183 naamsvermeldingen. Uiteindelijk bleek dat 8.708 naamsvermeldingen door RKDartists& geïdentificeerd konden worden. Daarvan waren er 86% correct voorgesteld door de service zelf en 14% manueel gevonden. De VIAF-‐reconciliation service heeft 7.526 agents voorgesteld (74% van alle naamsvermeldingen), terwijl er uiteindelijk 7.791 naamsvermeldingen door VIAF geïdentificeerd konden worden. De foutmarge bij VIAF-‐reconciliation service was groter dan bij RKDartists&, waardoor er ook meer records manueel gevonden moesten worden. Voor Wikidata werd reeds opgemerkt dat de reconciliation service via de bestaande API slechts de helft van de naamsvermeldingen identificeert, terwijl er wel Wikidata-‐agents bestaan voor de andere helft. Dit betekent dat Wikidata niet op haar volledige potentieel getest werd binnen het project.
In het algemeen heeft het werken met het principe van semi-‐automatische toekenning van identifiers via een reconciliation service voor een voelbare versnelling van het proces gezorgd. De kwaliteit van de automatische herkenning service is reeds redelijk hoog, maar zal in de toekomst verder ontwikkelen en verbeteren.
PACKED vzw | Eindrapport Project Persistente Identificatie
27
1.2 Het bereik van de externe bronnen. • •
•
•
•
•
•
10.183 naamsvermeldingen werden aangeleverd door de musea. 9.083 naamsvermeldingen (90%) werden met minimaal één identifier uit een externe autoriteit geïdentificeerd. De 10.183 naamsvermeldingen bevatten 7.750 unieke waarden. De resultaten van de RKDartists& reconciliation service tonen aan dat deze waarden verwijzen naar minimum 7.025 unieke kunstenaars (zie de unieke RKD ID’s). Van de 7.750 unieke waarden aangeleverd door de instellingen werden er: o 90% geïdentificeerd door unieke RKD-‐agents; o 59% door unieke VIAF-‐agents; o 30% door Wikidata-‐agents; o 2% door ODIS-‐agents. De resultaten van Wikidata liggen aan de lage kant, omdat de reconciliation service maar de helft van de records kon identificeren en er geen tijd was binnen dit project om de andere helft manueel op te zoeken in Wikidata. Dit betekent dat met Wikidata meer records geïdentificeerd kunnen worden dan in dit project wordt aangetoond. De resultaten van ODIS tonen de relevantie aan van deze externe bron ten opzichte van VIAF en RKDartists&. In totaal werden er 165 unieke naamsvermeldingen via ODIS geïdentificeerd, waarvan 7 enkel via ODIS (dus niet aanwezig in VIAF, RKDartists& en Wikidata). Hierbij dient opgemerkt te worden dat de ODIS reconciliation service enkel ODIS-‐records bevatte van mensen die overleden zijn. Dit is vermoedelijk een oorzaak van de vaststelling dat er meer namen uit de kunsthistorische musea werden geïdentificeerd dan uit de musea voor hedendaagse kunst. 1.373 naamsvermeldingen werden slechts door één externe bron geïdentificeerd. Dit getal is voldoende hoog om het simultaan gebruik van meerdere externe bronnen voor het identificeren van personen te verantwoorden. 10% van de naamsvermeldingen werd nog niet geïdentificeerd. Het gaat over 1.100 naamsvermeldingen, waarvan er 441 van anonieme vervaardigers zijn die niet identificeerbaar zijn. De instellingen kunnen nog 659 naamsvermeldingen analyseren. De unieke vervaardigers in deze groep kunnen dan voorgesteld worden als kandidaat voor één van de standaardterminologieën of door hen zelf gepubliceerd worden via Wikidata.
1.3 Doorzoekbaarheid van de collecties. Voor de 7.750 unieke waarden werden er via de persistente URI’s 131.266 unieke naamsvarianten uit VIAF, RKDartists& en Wikidata opgehaald. In plaats van de oorspronkelijke 10.183 naamsvermeldingen worden de collecties nu op meer dan twaalf keer zoveel waarden in verschillende talen doorzoekbaar. Aan de hand van de hogervermelde zoekopdracht is te zien dat de ‘Normalised’-‐resultaten veel groter en overzichtelijker zijn dan de andere. Daaruit kunnen we concluderen dat de doorzoekbaarheid van de collecties op entiteit ‘vervaardiger’ aanzienlijk verhoogt. Het museum kan de naamsvariant kiezen die het gepresenteerd wil zien op de website en in de collectiebeheersysteem, terwijl een onderzoeker toch met behulp van alle bekende naamsvarianten de collecties kan doorzoeken.
PACKED vzw | Eindrapport Project Persistente Identificatie
28
2. De doorzoekbaarheid van de collectiecatalogus verbetert door betere herkenning van spellingsvarianten van objectnamen (zoeken op een spellingsvariant geeft alle werken van dit type). De onderstaande tabel geeft een overzicht van het aantal naamsvermeldingen waaraan een persistente URI voor een objectnaam kon gelinkt worden. Aantal waarden voor objectnamen
Aantal unieke waarden voor objectnamen
Aantal unieke AAT concepten
Engelstali ge waarden
Franstalige waarden
Duitstalige waarden
Nederlands-‐ talige waarden
697
663
344
1.215
649
208
1.166
Tussen de 958 door de instellingen aangeleverde objectnamen-‐records bleken er 697 unieke waarden te zijn, waarvan er 663 werden geïdentificeerd met een AAT-‐URI (dus 95%). Uit de statistieken blijkt dat het om 344 unieke concepten gaat, die op 1.166 Nederlandstalige waarden doorzoekbaar zijn, wat een bijna een verdubbeling is van de oorspronkelijk 697 waarden. Ook bestaat er nu de mogelijkheid om de collecties te doorzoeken op Engelstalige, Franstalige en Duitstalige waarden van de objectnamen. 3. De doorzoekbaarheid van de collectiecatalogus verbetert door het gebruik van genormaliseerde machineleesbare waarden voor dateringen. De onderstaande tabel toont een sample van zoekopdrachten met het aantal zoekresultaten voor en na normalisering van de datering. Jaar
Aantal kunstwerken vindbaar voor de normalisering
Aantal kunstwerken vindbaar na de normalisering
1195
0
1
1399
0
11
1450
13
125
1616
7
1.178
1824
2
3.308
De verbeterde doorzoekbaarheid op datering wordt duidelijk in de volgende zoekopdracht: Het kunstwerk ‘De graflegging’ met de inventarisnummer 1914-‐CF in uit de collectie van MSK Gent heeft als datering de volgende waarden (boven: brondata, onder: ISO 8601 genormaliseerde datering): PACKED vzw | Eindrapport Project Persistente Identificatie
29
De genormaliseerde waarde zorgt ervoor dat dit kunstwerk wel terugkomt in de ‘Normalised’-‐zoekresultaten op zoekvraag ‘van 1401 tot 1402’ en niet in ‘Simple’-‐ en ‘Indexed-‐zoekresultaten’: Uit deze resultaten kunnen we afleiden dat er bij een zoekopdracht op een specifiek jaar meer kunstwerken verschijnen in de ‘Normalised’-‐zoekresultaten dan in ‘Simple’-‐ of ‘Indexed’-‐ zoekresulaten. Dit betekent dat werken waarvan de datering niet exact gekend is en waarvoor string waarden zoals ‘circa’ worden gebruikt, beter doorzoekbaar worden. Ze verschijnen niet enkel in de resultaten van een zoekopdracht gebaseerd op begin-‐ en einddatum van een gegeven periode, maar ook in die op alle jaren tussen de begin-‐ en einddatum van een gegeven periode. Een nadeel is wel dat er nu werken bestaan die op 2015 vindbaar zijn, wat niet mogelijk is. Dit betekent dat de transformatieregels die werden toegepast binnen het project voor een graad van vervuiling hebben gezorgd. Ook de normalisering van dateringen van VKC en Lukas waarbij er vaak enkel een eeuw wordt vermeld als een datum, hebben ervoor gezorgd dat er meer kunstwerken voor bepaalde jaren verschijnen dan nodig is. Hieruit kunnen we concluderen dat het automatiseringsproces van de dateringwaarden nog verbeterd dient te worden.
PACKED vzw | Eindrapport Project Persistente Identificatie
30
3.4 Hoe maak je de registratie van objecten eenvoudiger met persistente URI’s? Door het identificeren van kunstenaars, objectnamen en bewaarinstellingen met persistente URI’s, kan de registrator in principe vermijden om bijkomende gegevens over personen, organisaties en concepten te registreren in het collectiebeheersysteem. Biedt het gebruik van persistente URI’s mogelijkheden om de registratie van objecten eenvoudiger te maken?
Acties: •
• •
Eerst werd een analyse gemaakt van de door de partners gebruikte collectiebeheersystemen. Hierbij werd onderzocht hoe persistente URI’s in deze systemen gedocumenteerd kunnen worden. Vervolgens werd een voorstel uitgewerkt voor de aanpassing en toevoeging van velden in Adlib, TMS en CollectiveAccess. Tenslotte werd door VKC, Lukas, CVG, Middelheimmuseum en KMSKA gestart met het testen en implementeren van deze nieuwe velden.
Conclusie: De persistentie van URI’s wordt gegarandeerd door het duurzaam beheer ervan door de instellingen (uitgevers van data). Het opnemen van de persistente URI’s in de collectiebeheersystemen zorgt voor een helder overzicht en goed beheer van de URI’s. Uit de analyse van de gebruikte collectiebeheersystemen bleek dat momenteel geen enkel systeem standaard velden ter beschikking stelt voor het documenteren van persistente URI’s voor respectievelijk werken, kunstenaars, objectnamen en bewaarinstellingen. Daarom werd een voorstel geformuleerd voor een uniforme implementatie in de verschillende collectiebeheersystemen. Dit betekende in de praktijk de toevoeging van: • • •
12 nieuwe velden in Adlib; 12 nieuwe velden voor TMS; 14 nieuwe velden in CollectiveAccess.
De voorstellen werden ook besproken met de leveranciers van de collectiebeheersystemen. In eerste instantie betekent het documenteren van persistente URI’s een extra stap in de registratie van een object. Er dienen namelijk bijkomende gegevens worden genoteerd in nieuwe velden (per persistente URI, bron en identifier), maar in de meeste gevallen kan het opzoeken en selecteren van de kandidaat persistente URI’s geautomatiseerd worden. Met de leveranciers werd besproken hoe het documenteren van persistente URI’s in elk collectiebeheersysteem zoveel mogelijk geautomatiseerd kan worden. Op termijn laten persistente URI’s toe te vermijden dat bijkomende administratieve en contextuele informatie in het collectiebeheersysteem gedocumenteerd moet worden:
PACKED vzw | Eindrapport Project Persistente Identificatie
31
•
Automatische invullen van de velden. o
o
Een deel van velden kan met behulp van interne scripts nu al automatisch ingevuld worden in een collectiebeheersysteem. Het gaat over de persistente URI’s voor entiteiten werk, record en afbeelding die a.d.h.v. het inventarisnummer en de ingestelde domeinnaam automatisch door het systeem gegenereerd kunnen worden. Voor andere entiteiten zoals vervaardiger en objectnaam zullen er in de nabije toekomst binnen collectiebeheersystemen mogelijkheden worden uitgewerkt om de API’s van externe standaardterminologieën vanuit het collectiebeheersysteem live te bevragen en op die manier de persistente identifiers automatisch binnen te halen.
•
Verrijken met data uit externe standaardterminologieën. o
Via persistente URI’s kan men meer context binnenhalen uit externe bronnen. Dit zorgt ervoor dat andere velden zoals biografische informatie of naamsvarianten niet meer binnen het collectiebeheersysteem dienen ingevuld te worden. Dit heeft ook als gevolg dat er minder aandacht moet worden besteed aan dataschoning.
PACKED vzw | Eindrapport Project Persistente Identificatie
32
4. Evaluatie In dit hoofdstuk wordt een evaluatie gemaakt van het verloop van het project ‘Persistente Identificatie’ en van de resultaten van de normalisering en verrijking van de collectiedata op basis van de vier onderzoeksvragen.
4.1 Projectverloop Algemene evaluatie • • • • •
•
Het project ‘Persistente Identificatie’ werd uitgevoerd volgens de vijf fases in het oorspronkelijk projectplan. De samenwerking tussen de projectmedewerker en de collectiemedewerkers liep daarbij vlot. Ook de bemiddeling van de CAHF-‐ en VKC-‐coördinatoren werd positief ervaren. Collectiemedewerkers toonden enthousiasme om de nodige data-‐exports aan te leveren en om vragen te beantwoorden over inhoud en structuur van de collectiedata. De bijkomende actie om identificatienummers van werken uit CVG die in bruikleen zijn bij de musea, op elkaar af te stemmen werd positief onthaald. Collectiemedewerkers ondernamen spontaan actie om de impact en de mogelijkheden van het gebruik van persistente URI’s op actuele projecten te onderzoeken. Zo werd overlegd met Erfgoedinzicht over de meest wenselijke scenario’s om het gebruik van persistente URI’s te implementeren voor alle instellingen in het provinciale collectienetwerk. S.M.A.K., Middelheimmuseum, KMSKA en VKC namen initiatief om te onderzoeken hoe de resultaten van dit project in de lopende projecten rond DAM, e-‐depot en collectiebeheersystemen toegepast kunnen worden. Door de bijkomende ontwikkeling van de reconciliation API’s liep de ontwikkeling van de demonstrator en de resolver vertraging op. Bij een tussentijds evaluatie van het project in mei, werd beslist om de ontwikkeling van de demonstrator door een externe partner uit te laten voeren. Voor de ontwikkeling van de resolver werd een jobstudent ingeschakeld. Beide tools werden eind augustus, met twee maanden vertraging, opgeleverd.
Welke acties waren succesvol en wat kan er in de toekomst nog meer gebeuren? Actie 1.1 Werkafspraken en samenwerkingsovereenkomst Bij aanvang werd gekozen om een datagebruikersovereenkomst af te sluiten die waarborgde dat de aangeleverde collectiedata enkel binnen de doelstellingen van het project gebruikt werden. Deze overeenkomst werd positief onthaald en maakte de voorwaarden waaronder de data gebruikt werd van bij het begin van het project duidelijk. Deze overeenkomst heeft voor het noodzakelijke vertrouwen gezocht tussen de projectmedewerker en de musea, waardoor vragen voor bijkomende data of updates zonder problemen ingewilligd werden. Door het sluiten van een formele datagebruikersovereenkomst kon ook ODIS overtuigd worden om data ter beschikking te stellen voor verrijking binnen het project. PACKED vzw | Eindrapport Project Persistente Identificatie
33
Actie 1.2 Onderzoek referentieterminologieën Het project ‘Persistente Identificatie’ creëerde de mogelijkheid om de impact van semi-‐automatische koppeling van externe bronnen uit te testen op een grote hoeveelheid collectiedata. Dat leverde nuttige resultaten op over zowel de inhoudelijke relevantie van de geselecteerde bronnen voor dataverrijking als over de praktische implementatie van semi-‐automatisch koppelingen. Zo werd vastgesteld welke externe bronnen over een voldoende geavanceerde en stabiele API beschikken om hem te implementeren in een collectiebeheersysteem. Bovendien werd er vooral een lijst van tekortkomingen vastgesteld, die op hun beurt met de beheerders van de externe bronnen werd besproken. De resultaten van de analyse van referentieterminologieën wordt verwerkt in de CEST-‐richtlijnen. Met de beheerders van RKDartists&, ODIS en ISIL worden de resultaten verder besproken om te onderzoeken hoe hergebruik van deze bronnen door musea vergemakkelijkt kan worden. Door de positieve ervaringen met het gebruik van de Wikidata API, wordt bekeken op welke manier deze bron gebruikt kan worden door musea. De projectmedewerker zal in november 2014 deelnemen aan een workshop die wordt georganiseerd door de WikiMedia Foundation in samenwerking met het Rijksmuseum. Naar aanleiding van deze workshop zal verder onderzocht worden hoe enerzijds het Wikidata-‐project door musea kan ingezet worden om hun terminologiebeheer te verbeteren, en hoe anderzijds musea collectiedata kunnen bijdragen aan het Wikidata-‐project voor de verrijking door andere Wikidata-‐gebruikers. Actie 3.2 Normalisering en verrijking Het normaliserings-‐ en verrijkingsproces werd uitgevoerd zoals vooropgesteld in het projectplan. Aangezien het om een experiment ging, werden op voorhand tijdsbuffers ingebouwd om technische obstakels bij de normalisering en verrijking weg te werken. Die buffers bleken ook nodig (zie bijkomende actie over reconciliation services hieronder), maar desondanks werden alle stappen in het vooropgestelde proces uitgevoerd. Voor de normalisering voldeed het gebruik van OpenRefine. De projectmedewerker heeft de gebruikte procedure voor de semi-‐automatische verrijking vastgelegd in een protocol. Voor de verrijking voldeed OpenRefine slecths gedeeltelijk omdat maar enkele reconcilitation services voldoende functionaliteit boden om gebruikt te worden in OpenRefine. Uiteindelijk werd besloten om de data pas te verrijken nadat ze opgeladen werd in de demonstrator. Daarbij werd zowel gebruik gemaakt van de beschikbare API’s als van extractie van data uit webpagina’s. De normaliserings-‐ en verrijkingsprotocols werden geëvalueerd en verwerkt in een workshop die aan het eind van het project ‘Persistente Identificatie’ wordt georganiseerd voor de collectiemedewerkers. In deze workshop leerden collectiemedewerkers hoe ze zelf hun collectiedata kunnen verrijken op de manier zoals dit in het project door de projectmedewerker werd gedaan. Actie 5.1 Opstellen meetindicatoren en Actie 5.2 Testen Voor de ontwikkeling van de demonstrator werd beroep gedaan op een externe ontwikkelaar, m.n. Underlined bvba. Met hen werd een overeenkomst gesloten om de software op te leveren onder de voorwaarden vastgelegd in het project ‘Persistente Identificatie’. PACKED vzw bezorgde hiertoe de functionele en technische specificaties voor de demonstrator aan Underlined bvba, inclusief de meetindicatoren voor analyse van de verrijkte data. De demonstrator werd opgeleverd eind augustus 2014, waardoor de projectmedewerker in september de nodige testen en analyses kon uitvoeren. PACKED vzw | Eindrapport Project Persistente Identificatie
34
Bijkomende actie 1: normalisering inventarisnummers CVG Bij de toekenning van persistente URI’s voor werken uit CVG bleek dat zij en de verschillende bewaarinstellingen vaak andere inventarisnummers gebruiken. Om de digitale collectie van CVG op een zinvolle manier te integreren in de demonstrator werd een bijkomende actie opgezet om de correspondentie tussen records in de CVG-‐dataset en de datasets van de musea uit te klaren. Daartoe bereidde de projectmedewerker controlelijsten voor op basis van een eerste automatische matching. Deze lijsten werden vervolgens bezorgd aan CVG en de musea die de koppelingen handmatig controleerden. Zo is op het einde van dit project de koppeling tussen data uit CVG en de musea sluitend gemaakt, met uitzondering van een dertigtal werken waarvoor de eigendomssituatie niet binnen de duur van dit project kon uitgeklaard worden. Bijkomende actie 2: ontwikkeling van reconciliation services Testen met de API’s van VIAF, RKDartists& en AAT wezen uit dat deze niet performant genoeg waren om de semi-‐automatisch koppeling met de collectie data te realiseren. Daarom werd beslist om een eigen generieke API te ontwikkelen waarin exports van RKDartists& en AAT werden opgeladen. Deze API werd ook gebruikt voor de koppeling met ODIS. Voor VIAF werd uiteindelijk getest met een alternatieve API dan de standaard API die door OCLC ter beschikking wordt gesteld. De ontwikkeling van deze API’s was niet in het oorspronkelijke projectplan begroot, maar was noodzakelijk om de gepande semi-‐automatische koppeling binnen een redelijke termijn te voltooien.
Welke acties liepen niet zoals gepland en hoe werden ze bijgestuurd? Actie 4.1 Ontwikkeling demonstrator Door de bijkomende actie rond de ontwikkeling van de reconciliation services, diende de ontwikkeling van de demonstrator-‐ en resolver-‐applicatie uitgesteld te worden. Door de beperkte beschikbaarheid van de medewerker van PACKED vzw die oorspronkelijk voor deze ontwikkeling was voorzien, werd besloten om voor de ontwikkeling van de demonstrator een beroep te doen op een externe ontwikkelaar, m.n. Underlined bvba. De demonstrator-‐applicatie werd eind augustus 2014 opgeleverd volgens de specificaties die door PACKED vzw werden opgesteld. De software werd gepubliceerd op het web via het GitHub-‐platform onder een GPLv3-‐licentie. Dit wil zeggen dat de software vrij kan geïmplementeerd worden. De broncode mag gebruikt en verder ontwikkeld worden onder de voorwaarde dat ze onder dezelfde GPLv3-‐licentie gepubliceerd wordt. Actie 4.2 Ontwikkeling resolver Door de bijkomende actie rond de ontwikkeling van de reconciliation services, diende de ontwikkeling van de demonstrator-‐ en resolver-‐applicatie uitgesteld te worden. De PACKED-‐medewerker werkte het ontwerp voor de resolver-‐tool uit in de maanden mei-‐juni 2014. Door de beperkte beschikbaarheid van de PACKED-‐medewerker, werd besloten om voor het schrijven van de broncode van de resolver een beroep te doen op een jobstudent die de resolver gerealiseerd heeft tijdens de zomermaanden. De applicatie werd opgeleverd eind augustus 2014 en broncode werd werd gepubliceerd op het web via het GitHub-‐platform onder een GPLv3-‐licentie. Dit wil zeggen dat de software vrij kan PACKED vzw | Eindrapport Project Persistente Identificatie
35
geïmplementeerd worden. De broncode mag gebruikt en verder ontwikkeld worden onder de voorwaarde dat ze onder dezelfde GPLv3-‐licentie gepubliceerd wordt. Actie 3.1 Aanpassing aan Adlib/TMS/CA In het projectplan werden specifieke acties opgenomen om de verrijkte data terug op te nemen in de collectiebeheersystemen van de deelnemende instellingen. Eén van deze acties was gericht op de controle of elk van deze collectiebeheersystemen over de noodzakelijke velden beschikte om persistente URI’s te vast te leggen. Omdat het risico bestond dat dit niet in alle systemen het geval was, werd deze actie losgekoppeld van de analyse van de data in de demonstrator. Deze inschatting bleek juist. Bij de analyse van de collectiebeheersystemen bleek geen van de systemen over alle noodzakelijke velden te beschikken om de persistente URI’s op een duurzame wijze te documenteren. Bijgevolg werd een actie opgestart om voor elk systeem de nodige wijzigingen in kaart te brengen en in overleg te treden met de betrokken service providers. Bij alle betrokken service providers werd gunstig gereageerd op het voorstel om voor persistente URI’s specifieke velden toe te voegen. Afhankelijk van de aard van de overeenkomst die instellingen met hun service provider hebben, werden de nodige stappen ondernomen om die velden toe te voegen. Instellingen die het beheer van hun systeem zelf in handen hebben, konden relatief snel op onze vraag reageren en in deze instellingen werden intussen velden geïmplementeerd en uitgetest. Bij publicatie van het rapport zijn voor één projectpartner de persistente URI’s reeds beschikbaar via het collectiebeheersysteem. Bij instellingen die deel uitmaken van Erfgoedinzicht staat de implementatie van velden voor persistente URI’s op de agenda. Erfgoedinzicht wacht op de volgende update van het collectiebeheersysteem, waarin een oplossing in het vooruitzicht werd gesteld. Actie 3.3 Controle genormaliseerde data en Actie 3.4 update en export #2 De normalisering en verrijking van de collectiedata werd eind augustus 2014 afgerond. Hierdoor was er onvoldoende tijd om, zoals oorspronkelijk voorzien, de data te controleren, op te laden in de collectiebeheersystemen en terug te exporteren voor gebruik in de demonstrator te voltooien. De controle van de collectiedata door de collectiemedewerkers werd deels voltooid en wordt na afloop van het project verder opgevolgd door de projectmedewerker tot alle datasets gevalideerd zijn. Bij publicatie van het eindrapport is enkel voor VKC de data reeds opgeladen in het beheersysteem van de VKC online catalogus. In de andere instellingen wordt de data op dit moment getest of wordt gewacht op een definitieve oplossing van de service provider. Voor de demonstrator werd daarom gebruik gemaakt van de data die door de projectmedewerker voorbereid werd. Hierdoor kon bij de oplevering van de demonstrator meteen van start gegaan worden met het verwerken van de onderzoeksvragen.
PACKED vzw | Eindrapport Project Persistente Identificatie
36
4.2 Onderzoeksvragen Om vast te stellen of persistente URI’s bijdragen aan: • • •
een gestroomlijnder beheer; efficiëntere uitwisseling; dynamische verwerking van collectiedata in webtoepassingen,
werden vier onderzoeksvragen gedefinieerd. 1. Hoe maak je de negotiatie naar de juiste webpagina of afbeelding van een kunstwerk eenvoudiger met persistente URI’s? 2. Hoe verrijk je collectiedata met persistente URI’s? 3. Hoe los je slechte doorzoekbaarheid veroorzaakt door spellings-‐ en naamsvarianten op met persistente URI’s? 4. Hoe maak je de registratie van objecten eenvoudiger met persistente URI’s? De normalisering van de identificatiegegevens met behulp van persistente URI’s en integratie en verrijking van deze data in de demonstrator, resulteerde in de volgende vaststellingen. 1. Door een onderscheid te maken tussen enerzijds URI’s voor ‘kunstwerken’ en anderzijds URI’s voor ‘data over kunstwerken’ kun je terugvinden welke databanken informatie over een kunstwerken beheren. Hierdoor kunnen bijvoorbeeld inhoudelijke afwijkingen tussen databanken eenvoudig geïdentificeerd en verbeterd worden, en kunnen ook afspraken gemaakt worden over wie welke data beheert en autoriseert. 2. Door het gebruik van een URI voor het kunstwerk, kun je alle beschikbare beschrijvingen voor een kunstwerk gegroepeerd opvragen. Bij de integratie van verschillende beschrijvingen in een datahub of in een webapplicatie kunnen data en beelden uit verschillende bronnen naar wens gecombineerd worden. Een ontwikkelaar kan ook een voorkeur bepalen voor data uit een specifieke bron. 3. Met het proactief toekennen van een persistente URI voor beelden is voor collectiebeheerders een helder kader ontwikkelt om stapsgewijs beelden online te publiceren. Met behulp van de resolver kan op termijn opgevolgd worden hoeveel beelden werkelijk online staan. Op dit ogenblik bevinden veel digitale beelden zich nog offline. Door het proactief toekennen van URI’s voor deze beelden kunnen collectiebeheerders stapsgewijs beelden online publiceren naargelang het collectiebeleid en de beschikbare infrastructuur dit toelaten. De webadressen voor deze beelden zullen steeds dezelfde blijven, ongeacht wijzigingen in het beleid of de infrastructuur. 4. Door gebruik van vier verschillende externe bronnen (VIAF, RKDartists&, ODIS, Wikidata) worden de identificatiegegevens van kunstwerken significant uitgebreid waardoor context en de vindbaarheid van de data gevoelig verbeterd. Door toevoeging van naamsvarianten wordt de doorzoekbaarheid op kunstenaarsnaam, instellingsnaam en objectnaam verbeterd. Door de toevoeging van parallelle termen wordt de data meertalig doorzoekbaar op objectnaam. De context van het kunstwerk wordt verruimd door toevoeging van de geboorte-‐ en sterfdatum en de geboorte-‐ en sterfplaats van kunstenaars, de bibliografie over de kunstenaar, geografische coördinaten en de homepage van de bewaarinstelling.
PACKED vzw | Eindrapport Project Persistente Identificatie
37
5. De doorzoekbaarheid van de collectiecatalogus verbetert door een betere herkenning met naamsvarianten van kunstenaars (zoeken op een naamsvariant geeft alle werken van een bepaalde kunstenaar). Met name uit biografische databanken als VIAF en RKDartists& konden naamsvarianten geput worden waardoor de doorzoekbaarheid op naam gevoelig verbeterd. Daarnaast kan de ontwikkelaar er nog steeds voor kiezen om de eigen schrijfwijze van de kunstenaarsnaam als zoekresultaat te geven. 6. De doorzoekbaarheid van de collectiecatalogus verbetert door betere herkenning van spellingsvarianten van objectnamen (zoeken op een spellingsvariant geeft alle werken van dit type). Met name uit de AAT konden niet-‐voorkeurstermen geput worden waardoor de doorzoekbaarheid op objectnaam gevoelig verbetert. Daarnaast kan de ontwikkelaar er nog steeds voor kiezen om de eigen schrijfwijze van de objectnaam als zoekresultaat te geven. 7. De doorzoekbaarheid van de collectiecatalogus verbetert door het gebruik van genormaliseerde machineleesbare waarden voor dateringen. Voor de normalisering van dateringen werd niet gekozen voor een referentieterminologie die gebruikt maakt van persistente URI’s. Om kunstwerken doorzoekbaar te maken op datum volstaat het gebruik van de ISO 8601-‐standaard. Deze standaard laat toe bepaalde tijdspannes te definiëren waarin een kunstwerk vindbaar is. Voor de omzetting van ‘human readable’ dateringen (incl. aanduidingen van onzekerheden in de dateringen) naar een ‘machine readable’ vorm werd een omzettingstabel gemaakt die voor iedere instelling de impliciete regels voor datering van kunstwerken weergeeft. 8. Persistente URI’s maken de registratie van kunstwerken eenvoudiger, op voorwaarde dat de koppeling met externe bronnen geautomatiseerd wordt. Hierdoor kan de documentatie van contextuele informatie over kunstwerken beperkt worden. De onmiddellijke consequentie van het gebruik van persistente URI’s is het toevoegen van bijkomende velden in de registratie. De invoer van deze velden kan echter steeds geautomatiseerd worden waardoor de impact op de tijdsduur van de registratie verminderd wordt. Op lange termijn betekent het gebruik van persistente URI’s een tijdsbesparing, aangezien de bijkomende registratie van contextuele gegevens ten behoeve van de ontsluiting van het kunstwerk vermeden kunnen worden.
PACKED vzw | Eindrapport Project Persistente Identificatie
38
5. Financiële verantwoording In dit hoofdstuk wordt een overzicht gegeven van de besteding van de toegekende projectmiddelen en van de eigen inbreng. In de overeenkomst tussen PACKED vzw en het Departement CJSM van de Vlaamse Gemeenschap die op 20 september 2013 werd ondertekend, zijn de volgende artikels opgenomen: •
“Artikel 3: PRIJS EN MODALITEITEN De opdracht wordt uitgevoerd tegen een prijs van 30.976 euro inclusief 21% BTW en 25.600 exclusief BTW. De betaling gebeurt in twee schijven, nl. 50 % na een tussentijdse rapportering in januari; en de resterende 50% na de volledige uitvoering van de opdracht.
•
Artikel 4: LOOPTIJD VAN DE OVEREENKOMST De overeenkomst vangt aan op 23 september 2013 en eindigt ten laatste op 30 september 2014.”
Het bedrag van 25.600 (exclusief BTW) was gebaseerd op de volgende begroting: 1. Kosten
Loon projectmedewerker
5 maanden fulltime (2 weken / databank) = 25.000 euro
Vervoersonkosten projectmedewerker
60 verplaatsingen (trein, tram, bus) aan 10 euro = 600 euro
Personeelsinzet VKC
2.500 euro (twee à drie weken projectopvolging)
Personeelsinzet CAHF
2.500 euro (twee à drie weken projectopvolging)
Personeelsinzet Lukas
2.500 euro (twee à drie weken projectopvolging)
Personeelsinzet Agentschap Kunsten & Erfgoed
2,500 euro (twee à drie weken projectopvolging)
Personeelsinzet PACKED vzw
7.500 euro (twee à drie weken projectopvolging, plus vier weken ontwikkeling demonstrator)
BTW (indien PACKED vzw als projectleider factureert aan departement CJSM)
21% = 5,376 euro
Totaal kosten
48.476 euro
PACKED vzw | Eindrapport Project Persistente Identificatie
39
2. Inkomsten
Eigen inbreng VKC
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng CAHF
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng Lukas
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng agentschap Kunsten & Erfgoed
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng PACKED vzw
7.500 euro (equivalent twee à drie weken projectopvolging, plus vier weken ontwikkeling demonstrator)
Gevraagde subsidie
30.976 euro
Totaal inkomsten
48.476 euro
De werkelijke kosten gemaakt voor de realisatie van het project zijn: 1. Kosten
Loon projectmedewerker (Alina Saenko, barema L1 PC329.01, 0 jaar anciënniteit)
12 maanden deeltijds (19uur/week) + 1 week deeltijds (26,60uur/week) = 24.394,65 euro
Woon-‐werkververkeer projectmedewerker (Alina abonnement trein-‐ en metro = 1.477 euro Saenko) Vervoers-‐ en representatiekosten projectmedewerker (Alina Saenko) en PACKED-‐ medewerker Bert Lemmens
365,30 euro
Ontwikkeling PID demonstrator en cloudhosting (Underlined)
11.924,55 euro
Loon jobstudent (Nils Van Geele, barema B3 PC329.01, 0 jaar anciënniteit) voor ontwikkeling resolver
1,5 maand voltijds = 2872,7 euro
Woon-‐werkververkeer jobstudent (Nils Van Geele) voor ontwikkeling resolver
23,60 euro
Vrijwilligersvergoeding en reiskosten Dorien Dierickx voor assitentie datacleaning
238,97 euro
Personeelsinzet VKC
2.500 euro (equivalent twee à drie weken projectopvolging)
Personeelsinzet CAHF
2.500 euro (equivalent twee à drie weken
PACKED vzw | Eindrapport Project Persistente Identificatie
40
projectopvolging) Personeelsinzet Lukas
2.500 euro (equivalent twee à drie weken projectopvolging)
Personeelsinzet agentschap Kunsten & Erfgoed
2.500 euro (equivalent twee à drie weken projectopvolging)
Personeelsinzet PACKED vzw (Bert Lemmens, Joris Janssens en Rony Vissers)
4.500 euro (equivalent 15 dagen)
BTW (in factuur van PACKED vzw aan Departement CJSM)
21% op 25.600 euro = 5.376 euro
Totaal kosten
61.172,77 euro
2. Inkomsten
Eigen inbreng VKC
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng CAHF
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng Lukas
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng agentschap Kunsten & Erfgoed
2.500 euro (equivalent twee à drie weken projectopvolging)
Eigen inbreng PACKED vzw
20.196,77 euro
Middelen toegekend door Departement CJSM
30.976 euro
Totaal inkomsten
61.172,77 euro
Conclusie: • • • •
de toegekende middelen (30.976 euro) zijn volledig ingezet op het project ‘Persistente identificatie’ de totaalkost van het project was 12.696,77 euro groter dan begroot, wat resulteerde in een verhoging van de eigen inbreng van PACKED vzw met 12.696,77 euro; binnen de inbreng van PACKED vzw was er een verschuiving omdat voor de uitvoering van bepaalde taken beroep is gedaan op een onderaannemer, een jobstudent en een vrijwilliger; eigenlijk ligt de totaalkost van het project en de eigen inbreng van PACKED vzw nog ongeveer 4.000 euro hoger dan hierboven vermeld omdat projectmedewerker Alina Saenko ook de ganse maand oktober 2014 (26,6 uur/week) nog op het project heeft gewerkt en in de loop van de afgelopen maanden ook overwerk heeft gepresteerd dat in de loop van de komende weken dient te worden gerecupereerd (de totaal kost komt dan ongeveer op 65.000 i.p.v. 48.500 euro, en de eigen inbreng van PACKED vzw op 24.000 i.p.v. 7.500 euro
PACKED vzw | Eindrapport Project Persistente Identificatie
41
6. Besluit Het onmiddellijke doel van het project ‘Persistente Identificatie’, namelijk aantonen of en hoe het gebruik van persistente URI’s het beheer van collectiedata stroomlijnt, de uitwisseling van collectiedata efficiënter maakt en de dynamische verwerking van collectiedata in andere websites of mobiele toepassingen makkelijker maakt, werd met succes bereikt. Ruim 34.000 kunstwerken, verspreid over zeven musea, werden geïdentificeerd met een uniek en persistent webadres en het is duidelijk welk van de tien databanken metadata bevatten over welk kunstwerk. Tegelijkertijd werden de identificatiegegevens van deze kunstwerken geschoond en werd concreet aangetoond wat de mogelijkheden zijn om deze gegevens te verrijken met informatie uit externe bronnen. Maar vooraleer de resultaten van dit project concreet kunnen bijdragen aan de realisatie van een datahub, moeten de partnerinstellingen nog drie noodzakelijke stappen zetten. 1. De collectiebeheersystemen moeten aangepast worden om de genormaliseerde identificatiegegevens die het project ‘Persistente identificatie’ opleverde op een duurzame wijze vast te leggen. Het project heeft hiertoe een modeloplossing voorgesteld en in dialoog met de verschillende leveranciers van de deelnemende instellingen de nodige acties geïnitieerd. Het zijn echter de partnerinstellingen zelf die deze actie in de volgende maanden tot een goed einde moeten brengen. 2. De genormaliseerde identificatiegegevens uit het project ‘Persistente Identificatie’ moeten opgenomen worden in de collectiebeheersystemen van de partnerinstellingen en verder geactualiseerd worden. Dit is noodzakelijk om het resultaat van dit project duurzaam te verankeren in de werking van de deelnemende instellingen. Ook hier zijn het de partnerinstellingen zelf die deze actie in de volgende maanden tot een goed einde moeten brengen. 3. De kwaliteit van de data in de tien deelnemende instelling moet verder verbeterd worden. Uit het project is duidelijk gebleken dat de kwaliteit van de identificatiegegevens uit de tien instellingen nog aanzienlijk verbeterd kan worden. Voor de partnerinstellingen is dit een absolute prioriteit omdat het hier om de meest basale beheersgegevens gaat die bijdragen aan hun werking. Dit zijn dus drie acties die enkel door de partnerinstellingen zelf kunnen gerealiseerd worden; ze hebben immers betrekking op de eigen infrastructuur en werking. Ze zijn essentieel om de volgende stappen te kunnen zetten in de realisatie om de aanbevelingen waar te maken die resulteerden uit de doorlichting van de digitale collecties van de musea die deel uitmaken van de samenwerkingsverbanden VKC en CAHF, en om een centrale datahub te realiseren.
PACKED vzw | Eindrapport Project Persistente Identificatie
42