4. Datering .................................................................................................................................................................. 24 ISO 8601 -‐ Representation of dates and times ........................................................................................................ 24
III. Conclusie .............................................................................................................................................. 25 IV. Bronnen ................................................................................................................................................ 30
I. Inleiding Dit document bevat een analyse van een aantal standaardterminologieën voor organisaties, objectnamen, vervaadigers en dateringen ten behoeve van het project ‘Persistente Identificatie’. Het doel van dit project is om gegevens over kunstwerken, kunstenaars en concepten in tien verschillende databanken op eenzelfde manier te identificeren, waardoor data uit deze bronnen (1) eenvoudiger integraal doorzoekbaar worden, (2) makkelijker en efficiënter uitwisselbaar zijn en (3) efficiënter beheerd worden. Dit document bevat de verantwoording voor de standaardterminologieën die hiervoor gebruik zullen worden. Kunstwerken en digitale representaties Het project ‘Persistente Identificatie’ beoogt eerst en vooral de eenduidige identificatie van objecten en hun digitale representaties met behulp van persistente URI’s. Die moeten musea in de toekomst toelaten om op te treden als ‘uitgever’ van collectiedata over het object op het web. Het project volgt hierin de CIDOC aanbevelingen voor de online publicatie van collectiegegevens: -‐ Elk online gepubliceerd object dient een persistente URI’s te hebben. -‐ Musea zijn verantwoordelijk voor de creatie van persistente URI’s voor alle objecten in hun collectie. -‐ De URI’s dienen een heldere structuur te hebben en moeten leesbaar zijn voor mensen.1 Het project ‘Persistente Identificatie’ zal URI’s maken voor alle objecten en digitale representaties waarop de data uit de tien databanken betrekking hebben. Maar de persistentie van deze URI’s, d.w.z. verzekeren dat dit ‘webadres’ langdurig onveranderd en in gebruik blijft, vereist een autoriteit die de verantwoordelijkheid opneemt voor het beheer van deze URI’s. Het project beschouwt dit principieel als een verantwoordelijkheid van het museum, aangezien dit de instelling is die de toegang tot het object controleert. Het project zal de nodige tools ontwikkelen waarmee musea deze rol kunnen vervullen. Concepten Voor andere entiteiten, zoals vervaardigers en objectnamen, is het echter minder evident dat het museum optreedt als een autoriteit. Deze informatie is niet exclusief toegankelijk via het museum. Ook andere musea hebben werk van een bepaalde kunstenaar. Ook bibliotheken hebben publicaties over een bepaalde kunstenaar. Dit document onderzoekt aan welke organisatie in dat geval het best optreedt als autoriteit en de standaardterminologie voor bijvoorbeeld vervaardigers en objectnamen beheert. Onder een standaardterminologie wordt er in deze analyse een externe terminologie begrepen die een museum als een autoriteit kan gebruiken om eigen interne termen te normaliseren. Dit betekent bijvoorbeeld dat een museum in zijn eigen collectiedata een kunstenaar identificeert door slechts een verwijzing te maken naar de informatie over die persoon in een externe bron met behulp van zijn persistente URI. Het museum 1
Statement on Linked Data identifiers for museum objects http://network.icom.museum/fileadmin/user_upload/minisites/cidoc/PDF/StatementOnLinkedDataIdentifiersFor MuseumObjects.pdf
vertrouwt voor het beheer van de contextuele informatie over de kunstenaar (voorkeursnamen, alternatieve namen, geboorte en sterfdatum, biografie, etc.) op de organisatie die de externe terminologie beheert. Dit document onderzoekt de meest aangewezen standaardterminologie voor: -‐ bewaarinstellingen -‐ objectnaam -‐ vervaardiger -‐ datering Concreet analyseert dit document voor deze vier entiteiten een achttal standaardterminologieën die door andere organisaties voor dit doeleinde gedeeld worden. Voor elke standaardterminologie worden de volgende vragen beantwoord: -‐ Wat is het inhoudelijk bereik van de standaardterminologie? -‐ Zijn de identifiers van de standaardterminologieën makkelijk toegankelijk voor verrijking van de collectiedata? -‐ In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? -‐ Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? -‐ Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? -‐ Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? -‐ Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie?
II. Analyse 1. Instelling -‐ Collectiehouder Instellingsnaam is de naam van de instelling die een kunstwerk beheert. Dit veld is verplicht om op te nemen bij de registratie en identificatie van een kunstwerk.2 Het is nuttig om de collectiebeherende instelling zelf persistent te identificeren om op die manier de kunstwerken, hun beschrijvingen en hun digitale representaties doorzoekbaar te maken op bewaarinstelling en om via de kunstwerk de link naar de basis identificatiegegevens van de instelling te leggen. 1.1 ISIL-‐code
1. Wat is het inhoudelijk bereik van de standaardterminologie? ISIL staat voor 'International Standard Identifier for Libraries and Related Organizations'-‐ ISO 15511. Het doel van de code is om een eenduidige, duurzame, internationale identificator te creëren voor bibliotheken en aanverwante organisaties, waaronder ook musea en archieven.3 De code is een alfanumerieke code (A-‐Z, 0-‐9, /, :, -‐) van maximum 16 karakters. Deze begint met een landcode en vervolgens bevat de unieke code voor de instelling.4 Hier is een overzicht van de musea in Vlaanderen/België die over een ISIL-‐code beschikken: -‐ Koninklijke Musea voor Schone Kunsten van België (KMSKB) -‐ BE-‐ANN9 -‐ Koninklijk Museum voor Midden-‐Afrika -‐ BE-‐TEN0 -‐ Museum Plantin-‐Moretus -‐ BE-‐ANN0 -‐ Koninklijk Belgisch Instituut voor Natuurwetenschappen (KBIN) -‐ BE-‐BRL3 -‐ Musée Royal de Mariemont : BE-‐MOZ0 -‐ Koninklijk Museum voor Schone Kunsten (KMSKA)5 -‐ BE-‐A4001 -‐ Paleis voor Schone Kunsten (PSK): BE-‐A4002
2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? Koninklijke Bibliotheek heeft geen publiek toegankelijke of linked open data lijst beschikbaar van de musea die al een ISIL nummer hebben. 3.In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? Niet van toepassing 4.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? Belgische ISILs bestaan niet als een persistente URI. KBR geeft enkel een nummer, m.a.w. een persistente ID. In Duitsland is dat bijvoorbeeld wel het geval, waar men 2
richtlijn MOVE, CDWA http://www.bibnet.be/portaal/Bibnet/Lokale_Ondersteuning/RFID/ISIL-code/ 4 http://biblstandard.dk/isil/structure.htm 5 Interview 28.01.2014 met Gerd Van Snick - meedewerker Koninklijke Bibliotheek van België 3
m.b.v. een link meteen naar een pagina6 met de basisgegevens van de instelling kan gaan: http://www.museen-‐in-‐deutschland.de/singleview.php?muges=016822 In België dient een museum dus een eigen link aan te maken gebaseerd op de ontvangen ISIL nummer. 5. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? De ISIL nummers zijn verbonden aan de standaard ISO 15511 syntax. Een ISIL nummer kan een instelling enkel via KBR aanvragen en krijgen. 6. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? In Belgie wordt een code door de KBR gecreëerd volgens de regels van ISO 15511. Een overkoepelende beherende organisatie is het Internationale ISIL-‐agentschap (Registration Authority): Danish Agency for Culture (voor 1.1.2012: Danish Agency for Libraries and Media) die verantwoordelijk is voor de registratie van ISIL volgens ISO 15511 -‐ Information and documentation -‐ International Standard Identifier for Libraries and Related Organizations (ISIL). Het doel van deze Registration Autority is om de informatie over nationale instanties die verantwoordelijk zijn voor het toekennen van de ISIL-‐code te beheren en de ISIL-‐codes te verzamelen.7 7. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? In België is het mogelijk om een ISIL-‐code via een online formulier op de website van de Koninklijke Bibliotheek aan te vragen en op die manier de gegevens over de instelling toe te voegen aan de bestaande lijst.8 Na bevestiging ontvangt de aangevraagde instelling een ISIL-‐code per email.
6
ISIL-agentschap in Duitsland is Staatsbibliothek zu Berlin. Het ‘Institut für Museumsforschung’ is verantwoordelijk voor het beheer van de website. 7 http://biblstandard.dk/isil/reg_authority.htm 8 http://isil.kbr.be/how.php?lang=nl
1.2 DBpedia
Buiten de erfgoedsector worden er ook standaardterminologieën gemaakt en beheerd, waarmee musea als ‘instellingen’ geïdentificeerd kunnen worden. Een voorbeeld hiervan is DBPedia. Deze standaardterminologie wordt uitgebreid bekeken en geanalyseerd in deel 3.4 van deze analyse als een optie voor het identificeren van vervaardigers. Het is hier relevant om te vermelden dat de grootste deel van de instellingen die deel nemen aan het project ‘Persistente identificatie’ al in DBpedia zijn opgenomen en dat er dus al persistente URI’s aan musea zijn toegekend: Groeningemuseu DBpedia ID: http://dbpedia.org/page/Groeningemuseum m Wikipage ID: http://en.wikipedia.org/?curid=1078795 Freebase: http://www.freebase.com/m/0443nw MSKGent DBpedia ID: http://dbpedia.org/page/Museum_of_Fine_Arts,_Ghent Wikipage ID: http://en.wikipedia.org/?curid=11456737 KMSKA
2. Objectnaam Een algemene of verzamelterm voor objecten, die aangeeft tot welke soort het geregistreerde object behoort9. Dit kan bijvoorbeeld een term zijn die objecten met dezelfde functie bij elkaar brengt (bv. cosmetica, meubilair), objecten uit hetzelfde materiaal (bv. zilverwerk), of objecten op dezelfde wijze vervaardigd (bv. snijwerk). Het doel van persistent identificeren van de objectnamen binnen het project is om de kunstwerken doorheen de verschillende collecties doorzoekbaar te maken op type object. AAT-‐Ned (Art & Architecture Thesaurus)
De 'Art & Architecture Thesaurus' is een wereldwijd toegepast ontsluitingsmiddel voor het toegankelijk maken van architectuur-‐, kunst-‐ en cultuurhistorische collecties in musea, bibliotheken, diatheken, archieven en documentatie-‐instellingen.10 1. Wat is het inhoudelijk bereik van de standaardterminologie? Op dit moment bestaat de AAT uit meer dan 30.000 unieke cultuurhistorische begrippen (concepten). Het systeem bevat terminologie op het gebied van kunst en architectuur, en ook van kunstnijverheid, archeologie, archiefmaterialen en materiële cultuur. De AAT bevat zowel termen die objecten aanduiden, maar ook termen voor materialen, technieken, personen en organisaties, stijlen, gebeurtenissen en abstracte begrippen. De termen bestaan in het Amerikaans met equivalenten in het Engels, Nederlands, Frans, Spaans, Italiaans en Duits.11 Wel lang niet niet alle concepten zijn in al die talen beschikbaar: alleen AAT-‐NED is bijna volledig vertaald, de andere taalversies zijn slechts fragmentarisch vertaald. Alle concepten binnen de AAT zijn gegroepeerd in zeven basis facetten12: -‐ Abstracte begrippen (bijvoorbeeld: schoonheid, evenwicht, connoisseurschap, metafoor, vrijheid, socialisme). -‐ Activiteiten (bijvoorbeeld: archeologie, techniek, analyseren, wedstrijden, tentoonstellingen, hardlopen, tekenen (afbeeldingen maken), corrosie). -‐ Fysieke kenmerken (bijvoorbeeld: vlechtbandmotieven, randen, rond, verzadigd met water, broosheid). -‐ Materialen (bijvoorbeeld: ijzer, klei, lijm, emulgator , kunstmatige ivoor, freeswerk). -‐ Objecten (bijvoorbeeld: schilderijen, amfora's, gevels, kathedralen, Brewster stoelen, tuinen). De huidige versie van AAT-‐NED beschikt over 110.775 termen. -‐ Actoren en organismen (bijvoorbeeld: grafici, landschapsarchitecten, bedrijven, religieuze ordes). -‐ Stijlen en perioden (bijvoorbeeld: Frans, Lodewijk-‐XIV-‐stijl, Xia, zwartfigurig, abstract expressionisme). De AAT begon als een hiërarchisch gestructureerde termenlijst en is nu geëvolueerd tot een conceptgebaseerde thesaurus. Iedere term maakt deel uit van een concept. Naast de voorkeursterm, bevat een concept op z'n minst een ID-‐nummer, bronvermeldingen en een broader term, d.w.z. een 'parent' die het concept in de 9
http://www.projectcest.be/index.php/AAT-NED idem http://www.aat-ned.nl/toelichting-op-de-aat
hiërarchische context plaatst. Spelvarianten, meervouds-‐ of enkelvoudsvormen, scope notes en verwijzingen kunnen eveneens deel uitmaken van een concept. Zoals de meeste thesauri kent de AAT naast hiërarchische relaties ook equivalente en associatieve relaties.13 2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? Afhankelijk van de situatie, kan de Nederlandstalige AAT op verschillende manieren gebruikt worden:14 -‐ De AAT-‐Ned is rechtstreeks via een webbrowser toegankelijk (www.aat-‐ned.nl of www.aat-‐ned.be) en kan naast het registratiesysteem gebruikt worden. De termen op de AAT-‐website kunnen gekopieerd en geplakt worden of anderszins overnemen. -‐ Indien men over een registratiesoftware met een thesaurusmodule beschikt dan kan de AAT-‐Ned naar deze module geïmporteerd worden (bijvoorbeeld naar Adlib of TMS). Er dient hiervoor een gebruikersovereenkomst afgesloten worden met Bureau AAT. Vervolgens ontvangt men de AAT-‐Ned in XML-‐formaat (binnenkort ook in SKOS-‐ formaat) -‐ een bestand van 286,5 MB. Het voordeel van deze methode is dat men binnen een eigen registratiesoftware over de AAT-‐terminologie beschikt. Het nadeel is dat de thesaurus op deze manier niet automatisch up-‐to-‐date met de door Bureau AAT beschikbaar gestelde online-‐versie is. -‐ AAT-‐Ned is ook toegankelijk als een webservice. Deze biedt de mogelijkheid om, vanuit de registratiesoftware, rechtstreeks verbinding te maken met de database van de AAT-‐Ned. Als voorwaarde geldt dat de registratiesoftware hiertoe de mogelijkheden moet bieden. Met behulp van de webservice kunnen de concepten in SKOS (Simple Knowledge Organization System) of in Adlib XML worden opgevraagd. Er zijn enkele “search methods” beschikbaar om concepten op diverse manieren op te vragen.15 3.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? Elke term en concept heeft een bepaald identificatie nummer en een URI. De URI’s van de concepten zijn persistent en steeds uniek binnen het systeem van alle Getty thesauri. Indien er een nieuwe concept wordt samengevoegd met een bestaande concept, wordt de ID van de oorspronkelijke concept bijgehouden. Bij andere wijzigingen moeten soms nieuwe ID's worden gecreëerd, maar dit wordt beperkt tot non-‐preferred terms (bv. wanneer een bestaande concept verdeeld wordt in twee records, krijgen de non-‐preferred terms een nieuwe ID, terwijl de voorkeurstermen bij de oorspronkelijke ID) blijven.16 4. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? Het is toegestaan de AAT data op niet-‐commerciële basis te raadplegen, te citeren en te delen (ook de scope notes). Als de informatie via de site geciteerd of gedeeld wordt, 13 14 15 16
moet de Art & Architecture Thesaurus als bron vermeld worden: Art & Architecture Thesaurus (AAT)®, The J. Paul Getty Trust. Het copyright betreft de structuur van de AAT. Het is niet toegestaan de gehele structuur zonder toestemming over te nemen. De licentiehouder voor Nederland en België is het RKD (Rijksbureau voor Kunsthistorische Documentatie, Den Haag) en het KIK/IRPA (Koninklijk Instituut voor Kunstpatrimonium, Brussel).17 Na het verkrijgen van een KIK-‐licentie kan men de structuur overnemen en gebruiken vb. als een zoekinstrument op eigen website. Deze voorwaarden zullen binnenkort anders worden als de SKOS-‐publicatie onder een Open Dadatabase Licentie–BY wordt gerealiseerd door de Getty (de copyrighthouder).18 5. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? Bureau AAT, ondergebracht bij het RKD, is verantwoordelijk voor de vertaling en het beheer van de Nederlandstalige AAT. Het bureau garandeert de gebruikers toegang tot de thesaurus door middel van een functionele website. Bureau AAT onderhoudt contact met het Getty Research Institute en met het Nederlandstalige werkveld waaraan zij, zo nodig, ondersteuning biedt.19 Op die manier is het mogelijk om vanuit het Nederlandstalige erfgoedveld concepten aan de AAT toe te voegen (maar deze procedure moet nog steeds in praktijk worden gebracht: er zijn nog geen Nederlands/Vlaamse concepten opgenomen in de 'officiële' AAT). 6. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? In Nederland en België is Bureau AAT verantwoordelijk voor de beschikbaarstelling van de AAT-‐Ned. De medewerkers van Bureau AAT voeren, in samenspraak met deskundigen, verbeteringen door aan de data en behandelen nieuwe termvoorstellen. Nieuwe termvoorstellen worden voorlopig verzameld en behandeld door Vlaams/Nederlands samengestelde redactieraad. De gebruikers kunnen zelf actief aanvullingen of verbeteringen voorstellen, maar ze dienen wel aan een aantal redactionele en inhoudelijke voorwaarden voldoen. Het kan op de volgende manieren gebeuren: 1. Op de lokale niveau kan de nieuwe term gekoppeld te worden aan de hiërarchische structuur van de AAT. Er dient dus een meer algemene term (een broader term) gekozen te worden, waar de ‘nieuwe’ term qua betekenis onder valt. In de thesaurusmodule van een bestaande registratiesysteem wordt er dan een specifieke, nieuwe term als narrower term toegevoegd. Op deze manier maakt u gebruik van de hiërarchische structuur van een internationale standaard (de AAT) en past u nog verdere verfijning toe binnen uw eigen organisatie.20 In dit geval is het niet echt een voorwaarde om nieuwe concepten voor te stellen indien het volstaat om een link naar de broader term te leggen. 2. Via de website (http://browser.aat-‐ned.nl/) kunnen aanvullingen worden voorgesteld: bij ieder concept bevindt zich een knop 'bewerken' of 'term voorstellen' waarna de opmerkingen via een formulier aan Bureau AAT doorgegeven kunnen worden. Opmerkingen kunnen ook voor andere 17 18 19 20
http://www.aat-ned.nl/over-deze-site/copyright-en-gebruikersvoorwaarden Interview met Reem Weda 29.01.2014 Brochure AAT in de praktijk, http://www.erfgoedplus.be/sites/all/files/media/divers/AAT-Ned-brochure-2011.pdf idem
gebruikers zichtbaar worden gemaakt. De voorstellen moeten voldoen aan de regels voor opname in de thesaurus. De volgende velden dienen ingevuld te worden bij een voorstel van een nieuwe term: term, term id, commentaar *, used for *, bron (schriftelijk) -‐ titel, auteur, jaar van uitgave, editie, pagina -‐ of, alternatieve bron, naam *, e-‐mail *. Voor de opname van een term in de Engelstalige AAT is de volgende informatie nog nodig: een Engelse vertaling van het Nederlandstalige concept, een Engelse bron(nen) die gebruikt zijn voor de vertaling, een Engelse vertaling van de scope note (met bronvermelding). Hoewel de procedure bestaat, was er tot nu toe nog geen enkele nieuwe Nederlandse term in de AAT-‐NED opgenomen. De procedure blijkt in de praktijk te lang te duren en er hangt veel af van Getty zelf.
3. Vervaardiger Het element ‘vervaardiger’ verwijst naar de auteur van een kunstwerk. Dit kan een persoonsnaam, een groepsnaam of een instellingsnaam zijn.21 3.1 VIAF
1. Wat is het inhoudelijk bereik van de standaardterminologie? VIAF is een plaats waar verschillende lijsten van namen van personen en instellingen samen komen in een databank. Door de koppeling van ongelijksoortige namen voor dezelfde persoon of organisatie, biedt VIAF een handig middel voor een bredere gemeenschap van bibliotheken en andere erfgoedcollecties om bibliografische gegevens ten behoeve van verschillende taalgemeenschappen te hergebruiken. Naast het leveren van web-‐toegankelijke identificatie van entiteiten, bouwt VIAF een basis om de lokale bibliografische gegevens en versies van namen (vb. in verschillende talen en schriften), beschikbaar en doorzoekbaar te maken.22 VIAF is een project waarin een model voor een virtueel internationaal Authority Bestand is opgezet. Verschillende bijdragers brengen hun Authority Records van persoonsnamen samen in één virtueel geheel.23 De bijdrages zijn afkomstig van nationale bibliotheken en bibliografische centra uit verschillende landen24. Het virtuele Authority Bestand VIAF wordt maandelijks actueel gehouden door het harvesten van authoritybestanden van de deelnemende partners.25 Daarbij worden data toegevoegd uit andere bestaande authorities zoals: -‐ ISNI (International Standard Name Identifier) is een ISO standaard (ISO 27729) met als doel de identificatie van "Public Identities of parties": d.w.z. de identiteit van partijen die betrokken zijn bij de creatie, productie, beheer en het verspreiden van media, zoals boeken, uitzendingen of persartikels. Het kan dus beschouwd worden als de tegenhanger van ISBN of ISSN, maar dan voor personen en organisaties.26 De samenwerking met VIAF is momenteel ook in testfase en houdt vooral in wereldwijde matching en verrijking. Niet alle namen zich die in VIAF bevinden hebben een link naar ISNI. Maar indien er in ISNI nieuwe informatie verschijnt over een record opgenomen in VIAF, wordt deze ook in VIAF geupated. Tijdens reconciliation biedt VIAF ook meer mogelijkheden om de juiste record te selecteren. Daarom zal ISNI niet apart in het project worden opgenomen. -‐ ULAN (Union List of Artist Names) is een biografische database onderhouden door het Getty Instituut. De database bevat namen van kunstenaars, naast familienamen bevat deze database ook bijnamen en pseudoniemen van kunstenaars. Namen kunnen op personen betrekking hebben, maar ook op meerdere personen (bijvoorbeeld kunstenaarsbewegingen, bedrijven, 21
http://www.museuminzicht.be/public/musea_werk/invulboek/zoekresultaat/index.cfm?zoeken=uitgebreid&veldI d=31&type=3 22 http://www.oclc.org/viaf.en.html 23 idem 24 25 26
volledige lijst van de deelnemers is gepubliceerd op de website: http://viaf.org/ http://www.projectcest.be/index.php/VIAF
http://www.projectcest.be/index.php/ISNI
samenwerkingsverbanden etc.).27 ULAN is volledig opgenomen in VIAF en wordt 1 keer per jaar geupdated. -‐ VLACC (Vlaamse Centrale Catalogus). In Open Vlacc vind je de beschrijvingen van de collecties van zes grote Vlaamse openbare bibliotheken: Antwerpen, Brugge, Brussel, Gent, Hasselt en Leuven.28 Op 31.12.2013 waren de volgende data van VLACC opgenomen in VIAF: Authority records voor namen : 6244 Authority records voor instellingen: 1935 Alle bibliografische records verbonden aan de authority records: 6 274 96429 -‐ Wikipedia. De samenwerking bevindt zich momenteel in een testfase en de informatie is maar gedeeltelijk en selectief opgenomen in VIAF (zoals bijvoorbeeld data van geboorte en overlijden)30
2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? VIAF is vrij om te downloaden via de website http://viaf.org/viaf/data/. Het is mogelijk om de volgende bestanden om te downloaden: -‐ Een tekstbestand die de linken tussen source IDs in clusters weergeeft, inclusief de externe links naar bijvoorbeeld Wikipedia, -‐ Een bestand met een 'native' XML record per lijn voor elke VIAF cluster -‐ 7,83 GB -‐ Een bestand met RDF record per lijn voor elke VIAF cluster -‐ Een bestand met RDF Triple per lijn -‐ Een bestand met MARC-‐21 XML record per lijn voor elke VIAF cluster -‐ Een bestand met ISO-‐2709 MARC-‐21 record per lijn voor elke VIAF cluster -‐ Een bestand die de omleidingen binnen de VIAF dataset toont (in RDF) Ook is het mogelijk om VIAF als een web service via API in het collectiebeheersysteem te integreren en op die manier altijd de laatste versie van records te gebruiken.31 3.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? Elke record binnen VIAF is voorzien van een persistente URI. De structuur van een URI voor een VIAF entiteit is http://viaf.org/viaf/[numerical value] (Voorbeeld: http://viaf.org/viaf/49224511). 4. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? VIAF is exposed (vrij opengestelde) Linked Data. Dit wilt zeggen dat het mogelijk is op de data vrij te herbruiken en verwerken. Licentie voor het gebruik van VIAF is Open Data Commons Attribution License (ODC-‐ By) v1.032. Bij het gebruik van VIAF data wordt er aangemoedigd om steeds de 27
volgende vermelding op te nemen: "This [title of report or article or dataset] contains information from VIAF (Virtual International Authority File) which is made available under the ODC Attribution License." (Dit [titel van het verslag of artikel of dataset] bevat informatie uit VIAF (Virtual International Authority File) die onder de ODC-‐ Attribution License wordt gesteld). In het geval dat het vermelden van de laatste technisch niet haalbaar is, is het ook mogelijk om gewoon gebruik te maken van de VIAF URI’s.33 5. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? De ontwerpers van VIAF zien het project als een bouwsteen in het Semantische Web. OCLC zien VIAF vooral als een zoekindex binnen een groter project van WorldCat34 -‐ de grootste online netwerk van bibltiotheekbeschrijvingen, gegevens en diensten. Het VIAF project wordt gecoördineerd door de Library of Congress, de Deutsche Nationalbibliothek, en de Bibliothèque nationale de France. OCLC is verantwoordelijk voor de hosting en software-‐ontwikkeling van het project.35 6. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? Indien een instelling haar data zou willen leveren aan VIAF, is dat mogelijk via een online aanvraag. De OCLC zal eerst een analyse maken van de door de instelling aangeleverde testbestand met de data en die proberen te linken aan VIAF database. Na een succesvolle testfase word er een contract afgesloten tussen de instelling en VIAF en een volledige authority bestand word doorgestuurd naar VIAF. Het zal dan ook verwacht worden van de instelling om systematisch updates van de data door te sturen aan VIAF.36
32 33 34 35 36
http://opendatacommons.org/licenses/by/1.0/ Artikel 4.3 van de ODC Attribution License
De volledige RKDdatabase vormt een index op de omvangrijke kunsthistorische documentatie van het RKD. Deze wordt naast andere mogelijkheden en zoekopties, door erfgoedinstellingen gebruikt als thesaurus bij het ontsluiten van hun eigen collecties. RKDartists& is onderdeel van de volledige RKD database (andere onderdelen bevatten bibliografische info, gegevens over kunstwerken etc).37 1. Wat is het inhoudelijk bereik van de standaardterminologie? RKDartists& is een database met gegevens van Nederlandse en buitenlandse kunstenaars en andere personen die een rol spe(e)l(d)en in de kunstwereld, zoals kunsthandelaren, kunstverzamelaars en kunsthistorici, vanaf omstreeks 400 V.C. tot heden.38 De database bevat op het ogenblik informatie over ca. 284.000 records met biografische informatie over kunstenaars. De zoekresultaten geven 403.000 namen, maar zo’n 119.000 records zijn verwijsrecords van naamsvarianten naar voorkeursnamen.39 Sommige records zijn uitgebreider dan andere. De gegevens worden stelselmatig aangevuld door medewerkers van het RKD en met informatie van gebruikers buiten het RKD, die hun vondsten aan het RKD doorgeven. Ook krijgt het RKD regelmatig informatie van de kunstenaars zelf of van hun familieleden. Op deze manier werkt RKDartists& als een platform voor het verzamelen van gegevens over kunstenaars.40 In de toekomst is het RKD van plan om RKDartists& en de ULAN met elkaar te matchen, maar en zijn momenteel geen concrete plannen hiervoor. 2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? RKDartists& is voorlopig enkel toegankelijk als een online database waarin men zoekoperaties kan uitvoeren.41 Voor RKDartists& zal er eind mei een publiek toegankelijke API beschikbaar komen Open Search (webservice). Hiermee kan men aan de hand van url’s data in XML in zijn eigen collectiebeheersystemen opnemen. Dit zullen niet alle in RKDartists& beschikbare elementen zijn. Wel beschikbaar komen naam, geslacht, nationaliteit, geboortegegevens, overlijdensgegevens, werkzame periode, kwalificatie.42 3.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? Aan de records in RKDartists& worden sinds kort persistente URI’s toegekend. Deze PID’s kunnen overgenomen worden naar de collectiebeheersystemen (voorbeeld http://explore.rkd.nl/nl/explore/artists/50624) 4. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? 37 38 39
interview met Reinier van ‘t Zelfde http://website.rkd.nl/Databases/databases-oud/RKDartists 41 http://explore.rkd.nl/nl/ 42 interview met Reinier van ‘t Zelfde 40
Voorlopig wordt er gevraagd om de persistente link van de RKD-‐record te gebruiken om vanuit andere websites naar dit record te verwijzen. Verder wordt er geen informatie gegeven over de licentie, waaronder men de informatie zou kunnen hergebruiken. 5. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? RKDartists& wordt beheerd door het Rijksbureau voor Kunsthistorische Documentatie in Nederland. Kerntaak van het RKD is het verzamelen, ontsluiten, beheren en beschikbaar stellen van het archief-‐, documentatie-‐ en bibliotheekmateriaal. RKD zijn zich ervan bewust dat vele externe erfgoedinstellingen gebruik maken van hun online databases als een thesaurus om hun eigen collecties beter te ontsluiten. RKD werkt daarom momenteel verschillende manieren uit om het gebruik van RKDartists& voor externen eenvoudiger te maken met als uitgangspunten als persistentie en open data.43 6. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? Het toevoegen van nieuwe kunstenaarsrecords is nog niet voorzien. In de nieuwe interface RKDexplore komt er per kunstenaarskaart een mogelijkheid voor bezoekers van de site om reactie / aanvullende informatie over de kunstenaar toe te voegen. RKD heeft concrete plannen om de database op een gecontroleerde wijze voor externe invoer open te stellen.44
43 44
http://www.rkd.nl/nl/info/rkdartists idem
3.3 ODIS
1. Wat is het inhoudelijk bereik van de standaardterminologie? ODIS databank bevat informatie over: -‐ organisaties of intermediaire structuren -‐ personen die in het middenveld actief waren -‐ publicaties van en over deze organisaties en personen -‐ archieven die door hen werden nagelaten ODIS besteedt vooral aandacht aan de intermediaire structuren uit de periode 1750-‐ vandaag. De databank heeft een Vlaamse invalshoek maar situeert de betrokken structuren binnen hun historische geografische context. Internationale organisaties worden enkel opgenomen indien Vlaamse of Belgische intermediaire structuren er een actieve rol in hebben gespeeld, of indien hun zetel in Vlaanderen of België gevestigd was.45 Op 1 november 2013 bevat de databank ca. 187.000 records met gegevens over 35.600 organisaties, 107.000 personen, 35.000 publicaties, 9.000 archiefbestand(del)en. In de vernieuwde versie van ODIS zullen er ook nog drie domeinen bijkomen: Gezinnen, Gebeurtenissen en Gebouwen. Slechts 42% van deze informatie is door de partners online toegankelijk gemaakt. Op dit moment zijner ongeveer 80 invoerders die nieuwe records in ODIS aanmaken.46 Voor de beschrijving van de objecten in ODIS-‐2 zijn er enkele vernieuwingen gekomen: -‐ Elke record kan in het Engels en in het Nederlands worden opgesteld, ingevuld en gepubliceerd. -‐ Er bestaat ook een mogelijkheid om links naar andere thesauri en databanken in de beschrijving van een object op te nemen. 2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? Het databank is toegankelijk via de website http://www.odis.be waar je zoekopdrachten door de gepubliceerde data in OPAC (de publike catalogus) kan uitvoeren.47 De zoekresultaten (een record) kan men echter niet downloaden in gestructureerd formaat, enkel de html-‐code kan worden overgenomen (terwijl je bijvoorbeeld in RKDartist wel de nodige informatie ten minste in een pdf formaat kan downloaden) Het is voorlopig niet mogelijk om ODIS als een web service via API in het collectiebeheersysteem te integreren. Binnen het project ‘Persistente Identificatie’ is er wel een initiatief genomen om samen met ODIS een mogelijkheid te zoeken om de databank voor de verrijking te kunnen gebruiken. 3.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? 45 46 47
http://www.odis.be/ned/dat/bereik.htm presentatie tijdens de lanceringsevent 29.11.2013 http://www.odis.be/ned/dat/databank.htm
Alle records die online toegangkelijk zijn voor de externe gebruikers zijn voorzien van een persistente URI. Voorbeeld: http://www.odis.be/lnk/PS_10357 4. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? De intellectuele eigendomsrechten van de online gepubliceerde informatie en gegevens komen toe aan ODIS en/of aan de auteurs van de betrokken steekkaarten. Informatie van de website mag gratis worden gebruikt, zolang het correct en niet in een misleidende context gebeurt. Bij gebruik van informatie van deze website dient ODIS duidelijk als bron te worden vermeld, evenals het auteursrecht. Elke ODIS-‐ steekkaart bevat daartoe een standaard-‐verwijzing. Behoudens de uitdrukkelijke voorafgaande toestemming van ODIS en/of van de auteur of zijn rechthebbenden, is elke overdracht, verkoop, verspreiding of reproductie, ongeacht de vorm of de middelen, van informatie of gegevens verboden. De mogelijkheid tot vrij gebruik van de informatie geldt niet voor informatie op de website van ODIS waar de auteursrechten van derden op berusten. Aanvragen voor toestemming of verdere informatie dienen te worden gericht aan deze derde partij.48 Voorbeeld: de steekaart voor James Ensor heeft de volgende persistente link: http://www.odis.be/lnk/PS_10357. De standaard verwijzing is dan de volgende: James Ensor (1860-‐1949). In ODIS -‐ Database Intermediary Structures Flanders [online]. . Record Last Modified Date : 27 februari 2010. Record no. 10357. Available from World Wide Web: . 5. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? De ODIS-‐databank bevat gegevens over de geschiedenis van het middenveld in Vlaanderen en België. ODIS realiseert een dynamische contextuele databank. Tal van gegevensverzamelingen, instrumenten en repertoria over het onderwerp worden er samengebracht. Die gegevens worden door de partners aangevuld, geactualiseerd en met elkaar verbonden. Het wil de kruisbestuiving tussen historici, sociale wetenschappers en de verantwoordelijken van het betrokken erfgoed (archivarissen, bibliothecarissen en documentalisten) bevorderen.49 Recent werd er de nieuwe versie van ODIS gelanceerd. Men wilt meer en meer richting Linked Data en openbaarheid gaan. 6. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? De informatie binnen de ODIS databank wordt enkel door de partners aangevuld, geactualiseerd en met elkaar verbonden.50
1. Wat is het inhoudelijk bereik van de standaardterminologie? DBpedia is een project waarbij de informatie uit Wikipedia gestructureerd toegankelijk op het web wordt gemaakt. Dit resulteert in cross-‐domain datasets die informatie over verschillende soorten dingen (personen, locaties, films, boeken, cultureel erfgoed, organisaties enz.) bevatten.51 De Engelse versie van DBpedia beschrijft 4.000.000 dingen, waarvan 3.220.000 worden ingedeeld in een consistente ontologie. 832.000 ervan zijn personen. Daarnaast wordt DBpedia als gelokaliseerde versies in 119 talen aangeboden. Al deze versies samen te beschrijven 24,9 miljoen dingen, waarvan 16,8 miljoen overlappen en dus gelinkt zijn aan elkaar.52 Voor elk van deze entiteiten bestaat er een unieke identiefier: http://dbpedia.org/resource/… Een geautomatiseerd proces (VIAFbot) voegt de relevante VIAF records aan Wikipedia-‐artikelen wat ervoor zorgt dat VIAF identifiers ook een onderdeel van DBpedia worden.53 De updates binnen de Wikipedia artikels worden via ‘DBpedia Live’-‐synchronisatie in de DBpedia datasets opgenomen. De huidige versie van DBpedia is 3.9 (09/2013). DBpedia wordt 1-‐2 keer per jaar hernieuwd. Op de website wordt een overzicht van de recente updates en de aanpassingen telkens gepubliceerd. 2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? Op het internet kan men via een webbrowser informatie over DBpedia-‐records raadplegen in een form van een rijke RDF descriptie van deze entiteit (met definities in 30 talen, relaties naar andere relevante bronnen waar het entiteit ook is beschreven, classificaties binnen 4 verschillende hiërarchische concepten en andere informatie).54 DBpedia publiceert de data als LOD en heeft een openbare SPARQL endpoint beschikbaar voor het query van de dataset (men kan zelf de dataset bevragen en een nieuwe set gegevens downloaden relevant voor het aanvraag). DBpedia biedt ook RDF dumps (al op voorhand gedefinieerde datasets), die kunnen worden gedownload en opgenomen in triple stores.55 Er is een grote variatie van online applicaties gecreëerd op basis van de DBpedia datasets, waarmee men deze data kan onderzoeken. Een overzicht van deze applicaties wordt hier aangeboden: http://wiki.dbpedia.org/Applications Daarnaast kunnen DBpedia datasets in 119 talen worden gedownload rechtstreeks van de server: http://downloads.dbpedia.org/3.9/. Een volledig overzicht van de mogelijke downloads kan men hier bekijken: http://wiki.dbpedia.org/Downloads39. 51
DBpedia -- A Crystallization Point for the Web of Data (2009) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.150.4898 55 http://www.dcaproject.eu/images/uploads/work_packages/DCA_D32_RecommendationsContextualisationAndEnrichment_V1.1.pdf
De nodige data kan men in vele verschillende formaten als linked data verkrijgen, zoals bijvoorbeeld: -‐ PivotViewer -‐ iSPARQL -‐ ODE -‐ Raw Data in: CXML of CSV -‐ RDF ( N-‐Triples N3/Turtle JSON XML ) | -‐ OData ( Atom JSON ) | -‐ Microdata ( JSON HTML) | JSON-‐LD 3.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? Elke record in DBpedia krijgt zijn eigen persistente URI. Voorbeeld: http://dbpedia.org/page/Groeningemuseum 4. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? De DBpedia dataset wordt beschikbaar gesteld onder de Creative Commons Attribution-‐ShareAlike License and the GNU Free Documentation License. Dit betekent dat de data ‘open’ is. Deze term heeft betrekking tot de inhoud en de gegevens en zorgt voor de interoperabiliteit. Gegevens en data zijn ‘open’ indien iedereen die vrij kan gebruiken, hergebruiken en opnieuw publiceren, waarbij hoogstens een attributie of gelijk delen licentie vereist wordt.56 Bij gebruik van DBpedia-‐gegevens dient men te verwijzen naar de DBpedia URI’s. Men kan verwijzen door actieve live links te vermelden (@href, ) of, indien het niet mogelijk is (als informatie bijvoorbeeld op papier wordt uitgeprint), een textuele verwijzing naar DBpedia vermelden (“Link:").57 5. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? DBpedia is een crowd-‐sourced poging om de gestructureerde informatie uit Wikipedia te halen en die beschikbaar maken op het web. Maar het is niet meteen duidelijk wie de persistentie garandeert. DBpedia was opgericht in 2007 en wordt beheerd door onderzoekgroeppen binnen Universität Leipzig, Freie Universität Berlin, and OpenLink Software. Ook de volgende organisaties steunen het project: Neofonie58, Europees Commissie via LOD2 project59, Viulcan Inc. als een deel van het Project Halo.60 6. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? In de DBpedia wordt enkel de informatie opgenomen die op Wikipedia werd gepubliceerd. Indien er niet alle feiten uit Wikipedia naar DBpedia werden overgenomen, kan men dat aangeven of zelf een nieuwe gestructureerde exctractie creëren via DBpedia Extraction Framework.61 56
1. Wat is het inhoudelijk bereik van de standaardterminologie? Freebase is vergelijkbaar met DBpedia in de zin dat het ook een cross-‐domain terminologie is die data over verschillende dingen (personen, locaties, organisaties enz.) bevat. De data voor Freebase komt uit verschillende bronnen: ArXiv, CrunchBase, Eurostat, Wikipedia, IMDB, Library of Congress, etc.62 Op dit moment bevat Freebase data over 39 miljoen entiteiten, bijvoorbeeld: -‐ Fysieke entitieten (Bob Dylan, the Louvre Museum, the Saturn planet...), -‐ Artistieke en media creaties (The Dark Knight (film), Hotel California (song)...), -‐ Klassen (noble gas, Chordate...), -‐ Abstracte concepten (love…), -‐ Scholen en artistieke bewegingen (Impressionism...). 2. Zijn de identifiers van de standaardterminologieën toegankelijk voor verrijking van de collectiedata? In welk formaat (en hoe groot) is de standaardterminologie beschikbaar? Men kan in het algemeen zoekopdrachten in de datasets uitvoeren via http://www.freebase.com/ Verschillende Freebase datasets (Triples, Deleted Triples, Wikipedia mappings) kunnen indien nodig ook gedownload worden via https://developers.google.com/freebase/data. Het bestand is 250 GB groot. De verrijking van eigen data aan de hand van de gestructureerde informatie uit Freebase datasets kan ook via de Freebase Reconciliation API gebeuren.63 Het kan bijvoorbeeld via Google Refine, waar de reconciliation functie standaard via Freebase gebeurt.64 3.Gebruikt de standaardterminologie URI’s als identificatienummer en zijn die voldoende persistent? Elke record binne Freebase is voorzien van een persistente URI. Voorbeeld: http://www.freebase.com/m/01vrncs 4. Zijn er voorwaarden verbonden aan het gebruik van de persistente URI’s in het project? De gestructureerde data van Freebase en de API zijn toegankelijk met de Creative Commons Attribution (aka CC-‐BY)65 licentie. Dat betekent dat de informatie open is om te gebruiken en te publiceren op eigen websites, indien er correct wordt verwezen naar de oorspronkelijke Freebase record.66 De regels voor de verwijzing zijn de volgende: 1. Indien data een bepaalde entiteit beschrijft: dient men specifiek naar de link van de entiteit te verwijzen. 62
Google Refine - een van de tools die voor het normaliseren en verrijken van de data binnen het project ‘Persistente Identificatie’ werd gebruikt 65 http://creativecommons.org/licenses/by/2.5/ 66 https://developers.google.com/freebase/faq
2. Indien data meerdere entiteiten beschrijft: dient men naar de homepage van freebase te verwijzen.67 De beelden die in de Freebase datasets worden gebruikt, vallen vaak ook onder CC-‐BY licentie. Daarnaast hebben sommige beelden andere licenties zoals GFDL, Public Domain, Fair Use. Het gebruik van de API is gelimiteerd tot 100.000 aanvragen per dag (de limit kan indien nodig wel overschreden worden via de procedure van Requesting additional quota68). 5. Wordt de standaardterminologie actief en persistent beheerd door de betrokken organisatie? Freebase is gebaseerd op het principe van gemeenschapsamenwerking (zoals Wikipedia en andere open data projecten op het web). Dit laat toe dat er soms incorrecte informatie in Freebase voorkomt, maar het betekent ook dat iedereen die informatie indien nodig kan verbeteren. Er bestaat een Freebase werkgroep onder de toezicht van Google Developers initiatief, die een vorm van controle over de werking van Freebase uitvoert.69Er bestaan verschillende interne en community processen die het onderhoud van integriteit van de Freebase data garanderen. Elke verandering en update worden gepubliceerd en gecontroleerd door de leden van heel de gemeenschap en er bestaan ook speciale scripts die de datasets naar mogelijke fouten controleren. 6. Kunnen musea ontbrekende gegevens toevoegen aan de standaardterminologie? Data kan naar Freebase geimporteerd worden via Freebase Import.70 De ingevoerde en in Freebase toegankelijk gemaakte data dient wel aan de Terms of Service voldoen: 1. De content dient via de volgende licenties beschikbaar op Freebase gesteld zijn: Voor inhoudelijke data (gegevens, schemas, beaschrijvingen): de CC-‐BY licentie Voor beeldmateriaal: GFDL, Public Domain, Fair Use… Voor code: compatibel met de BSD-‐licentie 2. Google en anderen verkrijgen toegang tot de gepubliceerde informatie onder de licentie CC-‐BY, wat ook betekent dat de Freebase verwijzingsvereisten van toepassing zijn.71
4. Datering Deze onderdeel van de analyse heeft betrekking tot de velden die datering van kunstwerken beschrijven: ‘datering van’, ‘precisie van datering van’, ‘datering tot’ en de ‘precisie’ ervan.72 ISO 8601 -‐ Representation of dates and times
ISO 8601 is geen standaardterminologie, maar een standaard voor het noteren van een datum. Daarom zal het anders bekeken worden dan de hiervoor geanalyseerde standaardterminologien. Binnen deze analyse zal het principe van de standaard omschreven worden en een voorstel gedaan naar hoe het binnen het ‘Persistente identificatie’ project gebruikt kan worden. Het principe Internationale standaard ISO 8601 specificeert numerieke representaties van datum en tijd. Deze standaard helpt de verwarring en verkeerde interpretatie van dateringen bij internationale communicatie te vermijden. De notatie van dateringen volgens ISO 8601 is de de-‐facto standaard in vele landen. Er komt soms wel verwarring door het niet volledig volgen van de standaard en door verschillende inhoudelijke invullingen van precisies. Dateringen opgesteld volgens ISO 8601 zijn makkelijk leesbaar voor machines, wat de vindbaarheid van de objecten via de datering gebaseerde zoekopdrachten verhoogt.73 Algemene principes74 van de opstelling van een datum volgens ISO 8601 zijn de volgende: -‐ de elementen van een datum dienen van grootste naar kleinste worden opgesteld: jaar -‐ maand -‐ dag -‐ uur -‐ minuut -‐ seconde (YYYY-‐MM-‐DDThh:mm:ss) -‐ elke element van een datum heeft een vaste aantal mogelijke karakters, waarbij ontbrekende elementen door nul vervangen moeten worden -‐ elementen van een datum worden verdeeld met een streepje (-‐), elementen van tijd met een dubbelpunt (:) -‐ elementen die niet relevant zijn voor een datum hoeven niet volledig uitgeschreven te worden (vb. ‘2004-‐05’ betekent mei 2004 en is een ISO 8601 notatie. Het zal nooit als de periode van 2004 tot 2005 worden begrepen) Met de ISO 8601 standaard is het ook mogelijk om periodes aan te geven. Tussen begin en eind datum dient er een schuine streep (/) worden geplaatst.
De mogelijkheden van ISO 8601 zijn zeer uitgebreid. Volledige toepassing is niet interessant in het kader van het ‘Persistente Identificatie’ project, wegens te complex. Er bestaan ook beknoptere en eenvoudigere vormen, zoals RFC 3339 of de W3C Recommendation: http://www.w3.org/TR/xmlschema-2/#isoformats
III. Conclusie In het kader van het ‘Persistente identificatie’ project werd het gebruik van de volgende standaardterminologieën overwogen voor de volgende entiteiten: -‐ voor instellingen: ISIL, DBpedia -‐ voor objectnamen: AAT-‐NED -‐ voor kunstenaars: VIAF, RKDartists&, ODIS, DBpedia, Freebase -‐ voor datering: genormaliseerde notaties volgens ISO 8601 Hieronder volgt een overzicht van de voor-‐ en nadelen per standaardterminologie en een voorstel voor het gebruik van standaardterminologieën in het project ‘Persistente identificatie’: INSTELLING Instellingsnamen worden genormaliseerd om collecties en kunstwerken doorzoekbaar te maken op collectiehouder. Het gebruik van een standaardterminologie moet mogelijk maken dat het ID persistent is en dat de collectiedata verrijkt kunnen worden met gegevens over de collectiehouder. Terminologie Voordelen
Nadelen
ISIL
-‐ ISO-‐standaard, dus internationaal erkend en gebruikt -‐ internationale code die persistentie garandeert -‐ transparante, standaard syntax duidelijke toewijzing wie verantwoordelijk is voor de persistentie
-‐ nog weinig instellingen in België die het gebruiken -‐ instellingen die het wel hebben, weten het niet, -‐ Belgische ISIL bestaat niet in een vorm van een link, dus kan niet verwijzen naar pagina met info over de collectiehouder
DBpedia
-‐ heeft al persistente URI’s voor alle musea -‐ URI gekoppeld met uitgebreide gestructureerde informatie uit wikipedia -‐ gemaakt als onderdeel van het belangrijkste linked data project -‐ onderdeel van de meest gebruikte open dataset op het web
-‐ heeft geen persistente IDs voor CVG, Lukas en VKC -‐ onduidelijk wie persistentie garandeert
PACKED vzw stelt twee mogelijke oplossingen voor, naargelang de prioriteit ligt bij persistentie of doorzoekbaarheid:
1. ISIL gebruiken, wanneer persistentie primeert. De beheerstructuur achter ISIL is helder, de codes worden opgesteld volgens de internationale ISO-‐ standaard en zullen persistent blijven. De mogelijkheden voor dataverrijking zijn daarentegen beperkt. ISIL in België is geen persistente URI (geen link). Een oplossing kan zijn om als een collectiehouder zelf de persistente URI aan te maken en te beheren waarin de ISIL-‐code gebruikt wordt. Van de partnerinstellingen heeft enkel KMSKA een ISIL-‐nummer, de rest zal een nieuwe ISIL-‐code moeten aanvragen bij de KBR. 2. DBpedia gebruiken, wanneer verrijking primeert. Identificatie van de collectiehouder met de persistente DBpedia URI geeft toegang tot uitgebreide data die beheerd wordt op wikipedia. Er is een mogelijkheid om die data zelf aanvullen of actualiseren. Het nadeel is wel dat persistentie afhangt van de duurzaamheid van het DBpedia-‐project. En je hebt beperkte invloed op de online toegang tot deze data. Het is immers open data. Maar je kan onmiddellijk data verrijken. De keuze voor één van de opties, of voor beiden, zal op het stuurgroep besproken worden. OBJECTNAAM Terminologie Voordelen AAT-‐Ned
Nadelen
-‐ standaard wordt actief -‐ het toevoegen van nieuwe termen is in en internationaal beheerd de praktijk nog niet heel goed uitgewerkt, -‐ grote hoeveelheid het proces verloopt heel moeizaam Nederlandstalige termen, -‐ toegankelijk als een webservice
Het vervangen van bestaande termen handmatig wordt door de medewerkers van musea als een tijdrovend proces ervaren. Door de nieuwe AAT webservice bestaan er nu mogelijkheden om deze normalisering binnen het collectiebeheersysteem te automatiseren en up-‐to-‐date te houden. Een voorwaarde voor deze normalisering en verrijking is het gebruik van de persistente identifiers die aan de termen binnen AAT-‐ Ned waren toegevoegd. In het kader van het project zal PACKED vzw de reeds toegekende objectnamen koppelen met AAT ID’s en de nog niet genormaliseerde termen eveneens van AAT ID’s voorzien (men zal niet de bestaande data wijzigen, maar enkel aan de bestaande termen nieuwe ID’s toevoegen). Voor de termen die met geen enkele AAT-‐Ned concept overeenkomen zal men een lijst aanmaken. Er zal in het kader van het project ook bekeken worden hoe deze lijst het snelst aan AAT-‐Ned toegevoegd kan worden. VERVAARDIGER
Deze terminologieën zullen in het kader van het project gebruikt worden om de collecties beter doorzoekbaar te maken op kunstenaarsnaam. Daarbij zullen de kunstenaarsnamen gelinkt worden met rijke biografische gegevens uit de standaardterminologieën over de betreffende persoon. Terminologie Voordelen
Nadelen
VIAF
-‐ internationaal bereik -‐ grote hoeveelheid kunstenaarsnamen -‐ heeft een groot aantal andere autoriteiten al in zich opgenomen, -‐ toegankelijk in verschillende formaten, en zowel via API als download -‐ open data
-‐ is eigenlijk een bibliotheekindex (auteurs) -‐ niet gemakkelijk om een nieuwe term toe te voegen, toevoegen kan enkel via grote organisatie. -‐ in de praktijk: enkele beperkingen tijdens het gebruik van API (beperkt aantal vragen, vooral voor grote opdrachten) -‐ lokaal bereik: vermoedelijk weinig resultaat voor lokaal bekende kunstenaars
RKDartists&
-‐ specifiek voor kunstenaarsnamen -‐ rijke contextuele data -‐ veel kunstenaarsnamen van de NL/VL regio
-‐ momenteel enkel toegankelijk als een online zoekdatabase, geen API -‐ geen mogelijkheid om termen toe te voegen, toevoegen kan enkel via RKD-‐ redacteurs (intern) -‐ geen duidelijke informatie over de licentie NB: binnenkort komen er wel verbeteringen i.v.m. de toegankelijkheid en de mogelijkheid om termen toe te voegen
ODIS
-‐ databank is gericht op Vlaamse en Belgische intermediaire structuren -‐ heel rijke metadata en verwijzingen naar andere bronnen (m.n. archieven)
-‐ voor niet-‐partners enkel als een online database met zoekopdrachten toegankelijk -‐ slechts 42% van de informatie online toegankelijk -‐ voor niet-‐partners geen mogelijkheid om termen toe te voegen NB: Samen met ODIS is PACKED hiervoor een oplossing aan het zoeken
DBpedia
-‐ grootschalige database -‐ in de praktijk enkele -‐ technisch toegankelijk op technische beperkingen bij het gebruik vele verschillende manieren (vooral voor grote zoekopdrachten) -‐ termen toevoegen enkel via andere autoriteiten zoals Wikipedia of VIAF
Freebase
-‐ grootschalige database -‐ technisch toegankelijk op
-‐in de praktijk enkele technische beperkingen bij het gebruik
vele verschillende manieren (vooral voor grote opdrachten); Elke terminologie heeft zijn eigen inhoudelijke bereik die onvolledig kan zijn voor de materie die in dit project genormaliseerd en verrijkt dient te worden. Het gebruik van verschillende standaardterminologieën samen verhoogt de kans om de string waarden via een externe identifier te kunnen identificeren. PACKED vzw stelt voor om vervaardigers persistent te identificeren met behulp van drie complementaire standaardterminologieën: VIAF, RKDartists& en ODIS. VIAF is het grootste databank, maar er is een significant risico dat lokale Vlaamse kunstenaars niet in de databank voorkomen. Dit kan opgevangen worden door het gebruik van RKDartists& en ODIS die gericht zijn op Nederlandse en Vlaamse personen en organisaties. Beide terminologieën zijn echter niet toegankelijk via een webservice, waardoor semi-‐automatische normalisering complexer is dan met behulp van VIAF. Daarnaast zijn beide terminologieën niet beschikbaar voor verrijking onder een ‘open data’ licentie zoals VIAF. PACKED vzw zal in de volgende maanden gesprekken voeren met RKD en ODIS over de technische en legale voorwaarden voor het gebruik van beide terminologieën in het project. Freebase en DBpedia zullen gebruikt worden voor de termen die niet voorkomen in VIAF, ODIS of RKD. DATERING De terminologie voor dateringen zal in het kader van het project gebruikt worden om de collecties beter doorzoekbaar te maken op datum en om een chronologische visualisering van de kunstwerken mogelijk te maken. Terminologie Voordelen
Nadelen
ISO 8601
-‐ nood aan interne afspraken i.v.m. de interpretatie van precisie -‐ De terminologie aanvaardt enkel preciesie tijdsperiodes. Open tijdsbepalingen zoals een terminus post/ante quem kunnen niet gecodeerd worden.
-‐ duidelijk en machineleesbaar, wat doorzoekbaarheid verhoogt -‐ wijdverspreide webstandaard voor dateringen
Voor het project stelt PACKED vzw een specifieke toepassing van de ISO 8601 standaard voor. Dit voorstel is bedoeld voor de notaties van de genormaliseerde data, die naast de dateringvelden in het collectiebeheersysteem zullen opgenomen worden. De genormaliseerde dateringen worden gebruikt voor de zoekindex. De data in de dateringsvelden worden gebruikt voor presentatie in de zoekresultaten. De projectpartners dienen echter een consensus te bereiken over de manier waarop open tijdsbepalingen omgezet worden in tijdsperiodes. Het volgende voorstel houdt rekening met de bestaande praktijken binnen de partnerorganisaties voor de bepaling van de datering van kunstwerken en vertaalt deze naar de machineleesbare ISO 8601 genormaliseerde dateringen. Begrippen zoals bv. ‘ca’, ‘voor’ en ‘na’ dient best volgens een afspraak te worden geïnterpreteerd, maar kan van collectie tot collectie variëren.
‘Datering van’ en ‘Datering tot’ en ‘precisie’ ‘precisie’
ISO-‐genormaliseerde datum
Commentaar
1567
1598
‘1567/1598’
1567
-‐
‘1567’
-‐
1598
?
te bespreken in de stuurgroep
voor 1567
-‐
‘1517’
1567 min 50 jaar
na 1567
-‐
‘1617’
1567 plus 50 jaar
ca 1567
-‐
‘1562/1572’
1567 min 5 jaar / 1567 plus 5 jaar
ca 1567
ca 1598
‘1562/1603’
1567 min 5 jaar / 1598 plus 5 jaar
ongeveer 1567
‘1565/1569’
1567 min 2 jaar / 1598 plus 2 jaar
19de eeuw
‘1801/1900’
begin 19de eeuw
‘1801/1825’
midden 19de eeuw
‘1826/1875’
einde 19de eeuw
‘1876/1900’
jaren 90g 19de eeuw
‘1890-‐01-‐01/1899-‐ 12-‐31’
Indien er herhaalbare dateringen zijn (bv. meerdere ‘datering van’ bekend) dienen er meerdere velden voor de genormaliseerde ISO-‐datering te worden gecreëerd.
IV. Bronnen ‘Art & Architecture Thesaurus in de praktijk’ [http://www.erfgoedplus.be/sites/all/files/media/divers/AAT-‐Ned-‐brochure-‐2011.pdf]
CEST-‐richtlijnen [http://www.projectcest.be]
DBpedia -‐-‐ A Crystallization Point for the Web of Data (2009) [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.150.4898]
DEN overzicht terminologiebronnen [http://www.den.nl/terminologiebronnen]
DCA deliverables: -‐ ‘D3.1 Metadata Implementation Guidelines for Digitised Contemporary Artworks’, [http://www.dca-‐ project.eu/images/uploads/news_activities/DCA_D31_Metadata_Implementation_Guideli nes_20120120_V1_1.pdf] -‐ ‘D3.2 Recommendation on contextualisation and interlinking digitised contemporary artworks’ [http://www.dca-‐ project.eu/images/uploads/work_packages/DCA_D32_RecommendationsContextualisatio nAndEnrichment_V1.1.pdf]
‘Persistent identifiers (PID’s): recommendations for institutions’, 2011, ATHENA WP3 [http://www.athenaeurope.org/index.php?en/110/promotional-‐material]
‘Statement on Linked Data identifiers for museum objects’, 2012, CIDOC [http://network.icom.museum/fileadmin/user_upload/minisites/cidoc/PDF/StatementOnLinkedD ataIdentifiersForMuseumObjects.pdf]