Projectbeschrijving en projectplanning ‘Event-‐based objectbeschrijvingen’
Auteur: Alina Saenko, Bert Lemmens Datum: 26 Maart 2015 Versie
Datum
Wijzigingen
Auteur
0.1 0.2 0.3 0.4 0.5
02.02.2015 25.02.2015 18.03.2015 19.03.2015 26.03.2015
Kladversie Update planning Update taakomschrijving en begroting Update begroting Update begroting
Alina Saenko, Bert Lemmens
Bert Lemmens
Alina Saenko, Bert Lemmens Bert Lemmens Alina Saenko
1
Project ‘Event-‐based objectbeschrijvingen’ Dit project heeft tot doel de contextuele gegevens van ruim 35.000 kunstwerken in zeven Vlaamse musea (plus Collectie Vlaamse Gemeenschap, LUKAS en VKC-themawebsites) persistent te identificeren. Dit gebeurt door ‘events’ (gebeurtenissen) te identificeren in de beschikbare collectiedata en hieraan persistente URI’s toe te kennen.
Inhoud 1. Projectbeschrijving ...................................................................................................... 3 1.1 Doel ......................................................................................................................................................... 3 1.2 Entiteiten .............................................................................................................................................. 4 1.3 Persistente URI’s voor events ..................................................................................................... 4 1.4 Principes/methodiek ...................................................................................................................... 6 Bestaande data ................................................................................................................................................. 6 Open Refine ....................................................................................................................................................... 6 UUID en standaardterminologieen ......................................................................................................... 6 Veldanalyse ........................................................................................................................................................ 6 2. Partners ............................................................................................................................ 7 3. Projectverloop ............................................................................................................... 8 3.1 Acties ...................................................................................................................................................... 8 FASE 1. Werkafspraken en analyse (maart – mei 2015) ............................................................... 8 Actie 1. Samenwerkingsovereenkomst ............................................................................................ 8 Actie 2. Exports en analyse van data ................................................................................................. 8 Actie 3. Analyse standaardterminologieën .................................................................................... 8 Actie 4. Plan van aanpak normalisering .......................................................................................... 8 Actie 5. Stuurgroep 1: Toelichting project ...................................................................................... 8 FASE 2. Normalisering, verwerking en analyse van de event-‐data (juni – september 2015) .................................................................................................................................................................... 9 Actie 6. Data normaliseren in Open Refine .................................................................................... 9 Actie 7. Verwerking data in Open Refine en een selectie visualisatietools ...................... 9 Actie 8. Kosten-‐baten analyse van het doorlopen verrijkingstraject .................................. 9 FASE 3. Rapportering (september – oktober 2015) ........................................................................ 9 Actie 9. Eindrapport ................................................................................................................................. 9 Actie 10. Stuurgroep 2: demonstratie van de resultaten ......................................................... 9
3.2 Projectplanning ............................................................................................................................... 10
2
1. Projectbeschrijving 1.1 Doel Dit project is een vervolgproject op het project ‘Persistente identificatie’ (2013-‐2014), maar ditmaal met aandacht voor events -‐ gebeurtenissen in de levensloop van een collectiestuk, zoals het ontwerp, de vervaardiging, het gebruik, de verkoop, tentoonstelling, restauratie, etc. Events worden niet als dusdanig gedocumenteerd in een collectiebeheersysteem, maar zitten verscholen in de informatie over productie, verwerving en bruikleen van het object. Na de koppeling van persistente URI’s aan identificatiegegevens in het vorige project, worden nu de contextuele gegevens over ruim 35.000 kunstwerken in zeven Vlaamse musea (plus Collectie Vlaamse Gemeenschap, LUKAS en VKC-‐themawebsites) van persistente URI’s voorzien. Events zijn clusters van informatie over wie-‐wanneer-‐waar een bepaalde handeling heeft gesteld met betrekking tot het object. Door die clusters en de bijhorende informatie te identificeren met persistente URI’s wordt die informatie op een machine-‐leesbare manier gecodeerd en worden nieuwe mogelijkheden gecreëerd om voor hergebruik van die informatie in webapplicaties: 1. kunstwerken en hun eigendomsgeschiedenis worden geografisch gelokaliseerd; 2. kunstwerken worden gesitueerd in cultuurstromingen; 3. opdrachtgevers, afgebeelde personen en eigenaars worden met behulp van biografische informatie gesitueerd in tijd en ruimte; 4. gebeurtenissen in de levensloop van kunstwerken worden gekoppeld aan publicaties over die gebeurtenis. Het project Event-‐based objectbeschrijvingen heeft de volgende vier doelstellingen: 1. Onderzoek naar manieren van persistente identificatie en verrijking van gegevens over de levensloop van kunstwerken Er dient onderzocht te worden waar en op welke manier wordt data over events bijgehouden en beheerd in de instellingen, of het gestructureerd kan worden, op welke manier dienen events persistente geïdentificeerd worden, mbv welke standaardterminologieën kan men contextuele data over events identificeren. 2. Onderzoek naar nieuwe visualisaties van collectiedata De persistent geïdentificeerde event data wordt gecombineerd met de identificatiegegevens uit het eerste project. Op basis van deze data wordt onderzocht hoe de levensloop van een kunstwerk op een vernieuwende, intuïtieve manier gevisualiseerd kan worden. 3. Kosten-‐baten analyse maken van de persistente identificatie van events Op basis van de uitkomst van het voorgaande onderzoek en een evaluatie van de gebruikte tijd en middelen voor de voorbereiding van de data, wordt een kosten-‐ baten analyse gemaakt van de persistente identificatie van events. Wat zijn de voorwaarden om een dergelijke verrijking van collectiedata op een duurzame manier uit te voeren?
3
4. Strategieën om events op een duurzame manier te documenteren in de collectiedata Tot slot worden een aantal strategieën voorgesteld om binnen de voorgeschreven voorwaarden een verrijkingsproject rond events te realiseren en de resultaten te valoriseren in een web-‐applicatie. Dit project hangt samen met de volgende acties in het gemeenschappelijk traject rond digitale duurzaamheid van de collecties: 1. Persistente URI’s: Verdere aanpassing van de traditionele catalografische praktijk door persistente URI’s voor ruimte, tijd en bibliografische verwijzingen te gebruiken. 2. Data Hub: Verdere verrijking en normalisering van de VKC, CAHF, LUKAS en CVG data draagt bij aan het optimaal gebruik van de LIDO-‐datastructuur in de datahub. 3. Musea: De kosten-‐baten analyse en voorgestelde implementatie strategieën bieden musea nieuwe mogelijkheden om collectiedata op een vernieuwende manier te presenteren op hun eigen collectiewebsites. 1.2 Entiteiten In grote lijnen worden dezelfde acties hernomen als in het project Persistente Identificiatie, maar met aandacht voor de volgende entiteiten: •
Geografische data uit plaats vervaardiging
•
Tijd/periode expressies uit stijl en datering
•
Persoons-‐, tijds-‐ en plaatsgegevens uit de eigendomsgeschiedenis
•
Plaats-‐, tijd-‐ en titelgegevens uit bruikleeninformatie
•
Personen, plaatsen en concepten uit afgebeelde onderwerpen
•
Bibliografische verwijzingen
1.3 Persistente URI’s voor events Een Persistente URI is een webadres dat volgens bepaalde regels wordt samengesteld om er voor te zorgen dat de URI op lange termijn stabiel (onveranderlijk) en toegankelijk blijft. Een Persistente URI heeft een heldere en consistente structuur, is leesbaar en simpel te onthouden voor mensen en wordt daarom makkelijker te beheren en te gebruiken. Collectiedata bevat vrijwel nooit identificatienummers voor events. Events worden ook niet als dusdanig beschreven in collectiedata, maar zijn impliciet aanwezig. Bovendien wordt data over events vaak buiten het collectiebeheersysteem bewaard, bijvoorbeeld in lijsten over aanwinsten en bruikleenverkeer. Wanneer in deze data identificatienummers worden gebruikt, verwijzen ze ook eerder naar documenten, i.e. bruikleen en aanwinstendossiers, dan naar de gebeurtenis op zich. In eerste instantie wordt overwogen of musea zelf persistente URI’s moeten creeren voor het identificeren van events. Maar het project zal ook alternatieve scenario’s onderzoeken. Recent zijn er enkele initiatieven ontstaan die de ambitie hebben om authorities voor events te ontwikkelen, m.n. ODIS, Wikidata (beiden historische gebeurtenisen) en Cultuurnet (voorstellingen, tentoonstellingen, etc.). Het project onderzoekt of deze initiatieven kunnen uitgroeien tot een bron van persistente IDs voor de identifivatie van events in collectiedata..
4
Vermits de collectiedata zelf geen persistente IDs voor events bevat, worden alle persistente URI’s in dit project toegekend. Het project zal in een eerste fase uitzoeken wat hiervoor de beste strategie is: 1. zelf persistente URI’s creëren en beheren via bijvoorbeeld de resolver tool, UUID of Handle. 2. hergebruik van persistente URI’s uit ODIS, Wikidata of Cultuurnet, 3. persistente URI’s laten creëren en beheren door een daartoe bij consensus aangeduide organisatie zoals bijvoorbeeld Uit In Vlaanderen, VKC. 4. persistente URI’s creëren en beheren via een collaboratief web-‐platform zoals Wikidata. Het project zal dezelfde standaard syntaxis voor persistente URI’s gebruiken als het project Persistente Identificatie: http://[domein]/[type object]/[type document]/[identificatienummer] waarbij: −
domein -‐ de naam van de server
−
type object – werk, persoon of organisatie, plaats of event
−
type document – id, data of afbeelding
−
identificatienummer -‐ unieke registratienummer
Hierbij zijn [domein] en [identificatienummer] verplicht te gebruiken en [type object] en [type document] facultatief. Indien gekozen wordt voor een oplossing waarbij persistente URI’s door de collectie zelf worden beheerd, zal het project voor [domein] gebruik maken van reeds bestaande domeinnamen, nl de domeinnaam die de collectiebeherende organisatie, gedefinieerd in het voorgaand PID-‐project: VKC
http://vlaamsekunstcollectie.be/collection/
Groeningemuseum
http://groeningemuseum.be/collection/
KMSKA
http://kmska.be/collection/
MSKGent
http://mskgent.be/collection/
LUKAS
http://lukasweb.be/collection/
S.M.A.K.
http://smak.be/collection/
M HKA
http://mukha.be/collection/
Middelheimmuseum
http://middelheimmuseum.be/collection/
Mu.Zee
http://muzee.be/collection/
CVG
http://kunstenenerfgoed.be/CVG/collection/
Voor [Type object] zullen we in het kader van dit project de volgende invulling gebruiken:
event: gebeurtenissen in tijd en ruimte die met collectiestukken geassocieerd worden, i.c. bruiklenen.)
5
Voor [Type document] zullen we ook onderscheid maken tussen drie types documenten:
id: is een zogenaamde ‘place holder’, eigenlijk een ‘kapstok’ voor alle linked data over het object op het web. Deze URI leidt naar alle andere informatie over het object ergens op het web. data: is een link naar html of xml bestand met de collectiedata over het object representation: is een link naar een jpg of tiff bestand met een afbeelding van het object. 1.4 Principes/methodiek Bestaande data In dit project wordt, opnieuw, enkel gewerkt met bestaande data die in het collectiebeheersysteem of in een gestructureerd tekstformaat wordt bewaard. De laatste categorie bevat typisch Excel of CSV bestanden of een database export in CSV, XML of JSON. Als de data niet onder een gestructureerde vorm aanwezig is, wordt ze ook niet geïdentificeerd en genormaliseerd. Open Refine In dit project zal er terug gebruik gemaakt worden van de tool Open Refine om data te normaliseren, voorzien van persistente URI’s die zelf kunnen aangemaakt worden of binnengehaald worden via API’s van externe standaardterminologieën. UUID en standaardterminologieen Aangezien er voor events vaak geen bestaande bronnen beschikbaar zijn, zal dit project onderzoek in welke gevallen gebruik gemaakt kan worden van een algoritme om unieke IDs te creëren. Het project zal onderzoeken welk algoritme of welke procedure hiervoor het meest geschikt is. Voor personen, plaats, tijd en bibliografische data die aan evenementen gekoppeld worden, zullen we gebruik maken van al bestaande persistente URI’s uit externe bronnen: •
Personen: VIAF; Wikidata; RKDartist, ODIS
•
Plaats: Geonames; TGN
•
Tijd: ISO 8601
•
Publicaties: Wikidata; Worldcat; Amazon api; Librarything api; LoC CDS; Olid; Openlibrary.org
•
Tentoonstellingen: Wikidata; ODIS, Cultuurnet
Veldanalyse Het eindresultaat van het project bestaat uit vier delen: 1. een analyse welke data in gestructureerde vorm beschikbaar is en waar ze zich bij de partner-‐instellingen bevindt; 2. een analyse van de beschikbare authorities voor events 3. de genormaliseerde en persistent geïdentificeerde event data, inclusief genormaliseerde en persistent geïdentificeerde persoon, plaats, tijd en bibliografische data; 4. een reeks visualisaties van de verrijkte collectiedata die de levensloop van kunstwerk inzichtelijk maken 5. een kosten baten-‐analyse van het doorlopen traject 6. een strategie hoe collecties events best persistent identificeren en documenteren in de collectiedata.
6
2. Partners PACKED • Alina Saenko •
Bert Lemmens
•
Rony Vissers
•
Pieter Depraetere
Samenwerkingsverbanden • Pascal Ennaert (VKC) •
Els Silvrants-‐Barclay (CAHF)
•
Timothy Naessens (LUKAS)
•
Marthe Lemmens (Collectie Vlaamse Gemeenschap)
Collecties • KMSKAntwerpen •
MSKGent
•
Groeningemuseum Brugge
•
Mu.ZEE Oostende
•
S.M.A.K. Gent
•
M HKA Antwerpen
•
Middelheimmuseum Antwerpen
•
Collectie Vlaamse Gemeenschap
•
LUKAS
•
VKC thematische websites (Vlaamse primitieven, Ensor, Minne, Barok)
Er word ook een stuurgroep opgericht om dit project op te volgen. De stuurgroep bestaat uit de vertegenwoordigers van PACKED, de collecties en de samenwerkingsverbanden. De stuurgroep komt tweemaal een halve dag samen: •
In juni 2015: voor het advies m.b.t. standaard terminologieën, de resultaten van de analyse van de collectiedata en voor de goedkeuring van het gedetailleerde plan van aanpak voor de normalisering van de data
•
In oktober 2015: voor de resultaten van de visualisaties, de kosten-‐baten analyse en de presentatie van het eindverslag.
De stuurgroepleden krijgen twee weken voor het overleg een rapport met de resultaten openstaande issues die tijdens het overleg besproken moeten worden. De stuurgroepen bezorgen vooraf hun opmerkingen bij het rapport.
7
3. Projectverloop 3.1 Acties FASE 1. Werkafspraken en analyse (maart – mei 2015) Actie 1. Samenwerkingsovereenkomst PACKED maakt afspraken met de Collecties over wanneer en hoe het project wordt uitgevoerd. PACKED en de collecties sluiten een samenwerkingsovereenkomst die het gedetailleerde projectplan en een overeenkomst voor het gebruik van de data bevat. Actie 2. Exports en analyse van data PACKED bezorgt de Collecties een overzicht van de gegevenselementen die het nodig heeft voor het normaliseren van de data. De Collecties engageren zich tot het maken een export van deze gegevenselementen voor de volledige collectiedata of een gestructureerd tekstbestand met de betrokken data wanneer deze buiten het collectiebeheersysteem wordt bewaard. PACKED analyseert de aangeleverde collectiedata: −
In welke vorm wordt data over evenementen bijgehouden en beheerd in verschillende instellingen?
−
Gaat het over vrije tekst of gestructureerde beschrijvingen?
−
Welke evenementen worden beschreven en welke informatie wordt erover bijgehouden?
−
Waar en hoe wordt informatie over evenementen gepubliceerd? Welke informatie wordt gepubliceerd?
PACKED bezoekt voor deze actie de 10 deelnemende partners om informatie te verzamelen hoe de betrokken contextuele data in de praktijk beheerd wordt. De resultaten van de analyse worden in het tussentijds rapport (juni 2015) opgenomen. Actie 3. Analyse standaardterminologieën PACKED onderzoekt welke standaard terminologieën geschikt zijn voor de normalisering van event-‐, persoons-‐, plaats-‐, tijds-‐ en bibliografische gegevens collectiedata. PACKED formuleert een advies over de terminologieën die in het project gebruikt worden. De resultaten worden in het tussentijds rapport (juni 2015) opgenomen. Actie 4. Plan van aanpak normalisering PACKED stelt een document op waarin de strategie voor normalisering van verschillende soorten evenementen en data erover wordt besproken: •
Welke bestaande standaard terminologieën voor events kan je best gebruiken?
•
Welk algoritme of proces gebruikt je best voor het creëren van nieuwe persistente ID’s
•
Neem je het beheer van persistente ID’s voor events best zelf in handen of leg je het in handen van een externe organisatie?
Actie 5. Stuurgroep 1: Toelichting project PACKED geeft toelichting bij de gekozen standaard terminologieën en de analyse van de collectiedata. PACKED legt een gedetailleerd plan van aanpak voor de normalisering van de collectiedata voor aan de stuurgroep. De Collecties engageren zich om: ● Om deel te nemen aan de stuurgroep.
8
● Opmerkingen te formuleren bij het tussentijds rapport. ● Goedkeuring van het plan van aanpak voor de normalisering van de collectiedata. FASE 2. Normalisering, verwerking en analyse van de event-‐data (juni – september 2015) Actie 6. Data normaliseren in Open Refine PACKED normaliseert de collectiedata van de collecties volgens het plan van aanpak dat werd goedgekeurd door de stuurgroep. De resultaten worden op het einde van het project in vorm van CSV’s terug aan de collecties meegegeven. Actie 7. Verwerking data in Open Refine en een selectie visualisatietools De eventdata wordt gecombineerd met de identificatie data uit het project Persistente Identificatie en getransformeerd in een linked data set. Deze data set wordt gevoerd aan een selectie visualisatietools die de event-‐data kunnen interpreteren en visualiseren. Hierbijwordt een getracht een aantal nieuw, inhoudelijke dimensies van de collectiedata zichtbaar te maken. Bijv. geografische traject van een object doorheen zijn levensloop. Tijd-‐ruimte associaties met andere werken rond het tijdstip van creatie, tentoonstelling, verwerving. Verwijzingen naar kunstwerken in literatuur binnen een bepaald tijdvak. Etc. Actie 8. Kosten-‐baten analyse van het doorlopen verrijkingstraject Tot slot worden de geïnvesteerde tijd en middelen afgewogen tegen de omvang van de dataverrijking en nieuwe perspectieven die dit geopend heeft op de collectiedata. FASE 3. Rapportering (september – oktober 2015) Actie 9. Eindrapport De resultaten van de normalisering, verwerking en analyse worden vastgelegd in het eindrapport, m.n.: 1. een analyse welke data in gestructureerde vorm beschikbaar is en waar ze zich bevindt; 2. de analyse van de gebruikte standaardterminologieën; 3. de genormaliseerde en persistent geïdentificeerde event data, inclusief genormaliseerde en persistent geïdentificeerde persoon, plaats, tijd en bibliografische data; 4. de visualisaties van de verrijkte event data; 5. de kosten-‐baten analyse van het doorlopen traject; 6. een aantal strategieën hoe collecties event data best persistent identificeren en documenteren in de collectiedata. Actie 10. Stuurgroep 2: demonstratie van de resultaten Presentatie van het eindrapport en . Voorstellen voor volgende acties en projecten waarin genormaliseerde event data gevaloriseerd wordt.
9