Linked Open Data en EDM Jacco van Ossenbruggen Centrum Wiskunde & Informatica (CWI) Vrije Universiteit Amsterdam
Cultureel erfgoed & informatica • Projecten – Token2000 (1999) – MultimediaN, CATCH (2004) – Europeana (2009) – COMMIT (2012)
• Wat ik heb geleerd (tot nu toe) – Erfgoed data is rijk, complex en gevarieerd – Aggregatie is (dus) moeilijk maar (dus) ook zeer de moeite waard!
Grootste gemene deler? • Informatie aggregatie & integratie: het kan niet zonder afspraken – maar welke afspraken? – 1ste generatie: praten over afspraken, niets doen. – 2de generatie: kies vast gemeenschappelijk formaat, daarna gewoon doen – 3de generatie: “enabling standards”, flexibel, uitbreidbaar en meerdere perspectieven
Grootste gemene deler: Dublin Core? • 2de generatie: converteer records naar Dublin Core (DC) – Voordelen: • • • •
Aggregatie gebeurt echt! (Geheugen van NL, …) Museum, bibliotheek, archief data beschikbaar… …zoekbaar op specifieke velden Simpel en begrijpbaar voor erfgoed veld & leek
– Nadelen: • “Everything should be made as simple as possible, but no simpler.” (A. Einstein)
Beperkingen 15 DC velden • Negeren van velden die niet passen in DC – Bevatten vaak zeer interessante collectiespecifieke informatie!
• Proppen van informatie in velden die daar eigenlijk niet voor bedoeld zijn – Maakt zoeken lastig
• Er is geen perfecte set van velden – Die recht doet aan alle collecties
7
Beperkingen 1 record per object • Hierarchische objecten – EAD
• Records van verschillende bronnen – duplicatie & tegengestelde beweringen – “provenance”
• Verschillen in abstractie niveaus – – – –
FRBR: work, expression, manifestation, item Werk versus beschrijving van het object Werk versus afbeelding van het project Uniek werk of meerdere copieen?
• Geen unieke “correcte” blik op de wereld
Voorbeelden Beethovens-negende dc:format audio/mp3 Botticellis-Nascita-di-Venere dc:format image/jpeg dc:author “< naam museum medewerker >”
Beperkingen “strings” in de velden • dc:creator “Rembrandt van Rijn” • Maar waar past informatie over Rembrandt? – Authority files, thesauri, vocabularies – dc:creator viaf:64013650
• Idem voor plaatsen, perioden, … • Of: gebeurtenissen – Geboorte/dood personen – Creatie object (schilderen, schrijven, …) – Tentoonstelling object, …
• Object-centric versus event-centric (CIDOC/CRM) • Kiezen voor “de beste” oplossing?
Kijk naar het Web! • Kies niet voor of/of maar voor en/en • Oplossingen die 80% van het probleem oplossen met 20% van het werk – “Rough consensus and running code”
• Geen toestemming nodig om – te publiceren (eigen materiaal) – te linken (naar eigen of andermans materiaal) – linken brengt toegevoegde waarde
Linked Data • We hoeven het niet altijd eens te zijn – Maar we hebben manieren om overeenkomsten aan te geven (rdfs:subPropertyOf, skos:closeMatch) – URIs: gemeenschappelijk formaat voor identifiers • “gratis” unieke (persistente) identifiers • Her-gebruik van URIs: “full agreement by design” • Linken van URIs: “partial or post-hoc agreement”
– HTTP: gemeenschappelijk netwerk protocol – RDF: gemeenschappelijk data model framework en uitwisselings syntax • Simplifies aggregation
Linked Data: Alles heeft een URI • Het fysieke object zelf – am:physical-63432 • http://purl.org/collections/nl/am/physical-63432
Alles heeft een URI • Het fysieke object zelf – am:physical-63432 • http://purl.org/collections/nl/am/physical-63432
• Digitale representaties van dat object • http://am.adlibhosting.com/…/value=ka_22035_2.jpg
• Metadata records over het object – am:proxy-63432 – am:proxy-63432 am:objectCategory am:t-5504 (“kunstnijverheidcollectie”)
• Velden in die records – am:objectCategory • http://purl.org/collections/nl/am/objectCategory
– dc:description http://purl.org/dc/terms/description –
am:objectCategory rdfs:subPropertyOf dc:description
• Waarden gebruikt in die velden – am:p-21732 (maker onbekend) – am:t-5504 (“kunstnijverheidcollectie”)
16
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Europeana Data Model (EDM) • Flexibel model: – Lijst van standaard URLs • om direct te gebruiken, of, • om eigen collectie-specifieke URLs naar toe te linken
– EDM zelf hergebruikt URLs uit DC, ORE, SKOS – Tips en trucs hoe te linken • Zie “Mona Lisa” voorbeeld in de EDM Primer • Doe mee met de 100 record challenge! – Pieter Vijn (
[email protected]).