CC 15-090
!
Project(Document! Project! Begindatum! Einddatum(
CLARIAH!Structured!Data!Hub!
0140142015! 3141242018! Voor(( !! akkoord(
Datum( Versie( Status(
2840342015! 1.04! Finale!versie!voor!Clariah!bestuur!!
Auteur(
Henk!Wals,!Richard!Zijdeman! ! Richard!Zijdeman!
Project( manager( Algemeen( Projectachtergrond(
In!de!huidige(situatie!in!het!onderzoeksveld!van!de!Arts%and%Humanities:! 4 ontbreekt!een!geïntegreerde!aanpak!in!het!werken!met!digitale!data!en! instrumenten!(tools);! 4 staan!bestaande!datasets!niet!met!elkaar!in!verbinding!en!zijn!tools%alleen! toepasbaar!op!idiosyncratische!bestandsformaten;! 4 is!er!een!gebrek!aan!training!van!onderzoekers!en!studenten!in!het!gebruik!van! digitale!methoden!om!grootschalige!datasets!te!analyseren!(Clariah!voorstel,!p.9).! ! Om!in!deze!situatie!verandering!te!brengen!is!door!NWO!in!het!kader!van!de!National% Roadmap%for%Large5Scale%Research%Facilities!12M!euro!toegekend!aan!het!project!CLARIAH%–% Common%Lab%Research%Infrastructure%for%the%Arts%and%Humanities.!Penvoerder!van!CLARIAH! is!het!Huygens!ING.!Het!CLARIAH!project!bestaat!uit!drie!zogenaamde!aandachtsgebieden! voor!verschillende!typen!data:!! 4 tekstuele!data!(taalkunde);! 4 audiovisuele!data!(mediastudies);! 4 gestructureerde!data!(sociaal4economische!geschiedenis).! Dit!project!betreft!de!focus!area!voor!gestructureerde!data.!
! Definitie( Doelstelling(
Doel!van!het!project!is!om!in!4!jaar!(0140142015!–!3141242018)!een!research!infrastructuur!te! realiseren!(“Structured!Data!Hub”,!SDH),!in!eerste!instantie!ten!behoeve!van!de!sociaal4 economische!geschiedbeoefening,!voor!de!curatie,!opslag,!het!vinden,!linken,!selecteren,! visualiseren!en!analyseren!van!gestructureerde!datasets,!waarbij!de!SDH!geïntegreerd!moet! kunnen!worden!met!de!totale!CLARIAH4infrastructuur.!Het!uiteindelijke!criterium!voor!het! slagen!van!het!project!is!de!mate!waarin!de!SDH!sociaal4economisch!historici!in!staat!stelt! om!data!en!tools!te!combineren!voor!innovatief!onderzoek.! ( ! Scope( Kern!van!project!vormt!het!bouwen!van!een!“hub”!die!onderzoekers!in!staat!stelt!om! 1. datasets!te!uploaden!naar!de!hub! 2. verbanden!te!leggen!tussen!datasets!in!te!hub! 3. datasets!in!de!hub!te!zoeken!en!vinden! 4. gegevensvragen!(queries)!te!stellen!over!de!inhoud!van!een!enkele!dataset! 5. gegevensvragen!(queries)!te!stellen!over!de!inhoud!van!meerdere!datasets! 6. herkomst4informatie!(provenance)!te!geven!over!datasets! ! Tot!het!project!behoort!tevens:!! • het!aanvullen,!cureren!en!harmoniseren!van!een!aantal!datasets!die!de!kern! vormen!van!de!hub!(zoals!HSN,!Clio4infra,!Labour!Relations).! • daartoe!is!een!apart!dataplan!samengesteld,!waarin!wordt!aangegeven!welke! datasets!in!de!hub!geïntegreerd!worden! • het!bouwen!en!vormgeven!van!een!website!of!een!onderdeel!van!een!website! waarmee!toegang!geboden!wordt!tot!de!hub.! • het!mogelijk!maken!van!dataleverantie!via!API’s.! • het!bouwen!van!nieuwe!vocabulaires!om!het!gebruik!van!RDF!mogelijk!te!maken.! • het!opzetten!van!een!metadatastructuur!en!het!toekennen!van!metadata!aan! datasets.! • het!bouwen!van!analytische!tools,!bijvoorbeeld!voor!het!visualiseren!van!queries.! 1
! • •
het!zorgdragen!voor!disseminatie!van!de!resultaten.! het!(tijdens!de!projectperiode)!aanschaffen!of!huren!van!apparatuur,!materiaal!en! opslagcapaciteit,!alsmede!de!inrichting!en!het!beheer!ervan.!
! Tot%het%project%behoort%niet:% • het!vormen!van!nieuwe!datasets.!! • het!linken!van!de!data!over!alle!onderdelen!van!CLARIAH!(is!apart!werkpakket).! ! ! Randvoorwaarden(
1.
2. 3. 4. 5. 6. 7.
De!datasets!in!de!hub!moeten!van!voldoende!kwaliteit!zijn!(garbage%in,%garbage% out).!Kwaliteitseisen!worden!na!de!pilotfase!verder!gespecificeerd,!maar!minimum! vereisten!zijn!dat!een!dataset:!digitaal!is,!een!provenance!beschrijving!heeft,!een! beschrijving!van!variabelen!heeft,!een!beschrijving!van!waarden!van!variabelen! heeft,!inclusief!missings;! Het!te!gebruiken!datamodel!(OLD/RDF)!moet!goed!werken!bij!het!bevragen!van! historische!datasets;! Het!project!moet!bekwaam!worden!geleid!en!geadministreerd;! De!taken,!budgetten,!verantwoordelijkheden!en!bevoegdheden!van!de!partners!in! het!project!moeten!helder!zijn!geformuleerd!(zowel!binnen!het!deelproject!als!in! de!totale!CLARIAH4organisatie);! De!aanwezigheid!van!voldoende!expertise!(inhoudelijk,!informatica,! infrastructuur);! Het!commitment!van!een!datacenter!(het!IISG)!dat!beschikt!over!de!benodigde! basisinfrastructuur!(servers,!storage,!object!repository,!etc.)!en!beheerscapaciteit! (het!IISG);! De!infrastructuur!moet!na!afloop!van!het!project!zo!eenvoudig!mogelijk!te! onderhouden!zijn!door!het!datacenter!dat!zich!ervoor!verantwoordelijk!heeft! gesteld!! !
! Producten(
1. 2.
3.
4. 5. 6.
Een!datarepository!die!zorgdraagt!voor!de!duurzame!opslag!van!datasets!en!hun! metadata! Een!nog!nader!te!bepalen!hoeveelheid!datasets:! a. van!de!juiste!kwaliteit!(cureren!bestaande!datasets)!! b. geografisch!divers!(ook!niet4westerse!data)! c. temporeel!divers!(pre4industrieel,!industrieel!en!contemporain)! d. RDF!vocabulaire!voor!variabelen!die!kenmerkend!zijn!voor!de!sociaal4 economische!geschiedenis! Tool(s)!voor!de!volgende!doeleinden:! a. Het!uploaden!van!data! b. Het!linken!van!data!in!de!hub! i. linken!van!inhoudelijke!data!(bijv.!verschillende!landen!of! tijdsperioden)! ii. linken!van!‘methodische’!data!(bijv.!het!koppelen!van!HISCO,! HISCAM!aan!bestanden!met!beroepen)! c. Het!vinden!van!data!in!de!hub! d. Het!uitvoeren!van!queries!binnen!een!dataset! e. Het!uitvoeren!van!queries!over!meerdere!datasets! f. Het!leveren!van!provenance!informatie! g. Het!visualiseren!en!analyseren!van!data! Een!website!of!een!onderdeel!van!een!website! API’s!om!datasets!te!uploaden,!vinden,!opleveren,!doorzoeken!en!analyseren! Een!adequate!metadatastructuur!voor!sociaal4economische!gestructureerde! datasets! De!benodigde!vocabulaires!en!datamodellen!om!data!in!RDF!beschikbaar!te!maken!
7. ! [Aan!de!producten!moeten!nog!meetbare!definities!en!acceptatiecriteria!worden!gehecht.! De!stuurgroep!Structured!Data!is!in!eerste!instantie!het!gremium!dat!de!producten! accepteert.!In!tweede!instantie!is!dat!het!CLARIAH4bestuur.]! ! ( Risico’s(
1.
De!combinatie!van!historische!datareeksen!en!het!open!linked!datamodel!levert! onvoldoende!bevredigend!resultaat!voor!onderzoekers!–!risicobeheersing:!we! 2
!
2. 3.
4. 5.
6.
onderzoeken!in!pilots!of!dit!risico!reëel!is.! We!hebben!niet!genoeg!goede,!geharmoniseerde!en!gestandaardiseerde!datasets! in!micro4,!meso4!en!macro4data!om!interessante!resultaten!te!krijgen!als!we!cross4 datasets!gaan!zoeken!–!risicobeheersing:!we!trekken!budget!uit!voor!curatie.! Uitval!of!vertrek!van!sleutelfiguren!in!het!project!–!risicobeheersing:!zorgvuldige! projectdocumentatie,!duidelijke!vastlegging!van!besluiten!en!heldere!structuren! zijn!essentieel!om!de!nadelige!effecten!te!minimaliseren,!mocht!dit!probleem!zich! voordoen.! We!kunnen!niet!genoeg!goed!gekwalificeerde!ontwikkelaars!krijgen!–! risicobeheersing:!gebruik!maken!van!de!werving4!en!selectie4ervaring!van!het! CLARIAH4netwerk.! Het!feit!dat!het!project!verschillende!opbrengsten!heeft!voor!de!betrokken! partners.!De!“historici”!willen!een!goed!werkend!product!dat!nieuwe! onderzoeksresultaten!oplevert.!Voor!de!“informatici”!is!het!project!ook!een!case! om!theorieën!en!methoden!te!testen!–!hun!wetenschappelijke!opbrengst!zit!in! publicaties!hierover!(“We!zijn!geen!loodgieters”).!Hierin!zit!mogelijk!een!spanning.! Risicobeheersing:!door!ons!gedurende!het!project!bewust!te!zijn!van!deze! dubbelheid,!beperken!we!het!risico.! !‘Function!creep’!in!tools!en!data.!Wanneer!tools!voor!andere!doeleinden!worden! gebruikt!dan!zijn!ontworpen,!kan!dit!leiden!onvoorziene!omstandigheden!zoals! aanpassing!van!de!specificaties.!Dit!kan!ook!gelden!voor!data.!Bijvoorbeeld!door! het!linken!van!data!kan!een!onbedoeld!gevolg!zijn!dat!privacy!van! onderzoekspersonen!wordt!geschonden.!!
! ! Relaties(andere( projecten!
(
1. 2. 3. 4. 5.
De!andere!vier!werkpakketten!in!het!CLARIAH4project!–!uiteindelijk!moet!cross!alle! CLARIAH!onderdelen!gezocht!en!gecombineerd!kunnen!worden! Clio4infra!–!loopt!tot!3141242015.!Gaat!straks!op!in!de!SDH! Het!HSN4complex!4!!gaat!deel!uitmaken!van!de!SDH! Historical!Maps!(deels!CLIO!INFRA,!deels!IISG)! CEDAR!–Dutch!Historical!Census!Data!on!the!Semantic!Web!–!te!beschouwen!als! een!pilot!voor!CLARIAH!
!
Verwachte(kosten(en(baten( Kosten(
Een!overzicht!van!de!kosten!wordt!gegeven!in!de!begroting!(bijlage!1).!Er!is!een!ruwe! driedeling!te!maken!in!de!kostenposten:!begroting!voor!infrastructuur!onderdelen,!begroting! van!data!onderdelen!en!overige!onderdelen.! ( ( Begroting(voor(data(onderdelen(van(de(CLARIAH(Linked(Data(Hub( Het!“Data!curation!en!collection!plan”!bijlage!(1)!beschrijft!welke!datasets!in!aanmerking! komen!om!voor!curatie!en!verzameling!voor!de!Structured!Data!Hub.!Doel!van!de!curatie!en! verzameling!is!om!strategische!bronnen!voor!onderzoek!beter!beschikbaar!te!maken!en/of! bronnen!en!bestanden!die!verloren!dreigen!te!gaan!te!preserveren!voor!de!toekomst.!Het! uitgangspunt!bij!het!selecteren!van!de!datasets!is!om!tot!een!evenwichtige!verdeling!van! datasets!te!komen!die!en!verschillende!delen!van!de!wereld!omvat!en!verschillende! tijdsperioden!(pre4industrieel,!industrieel!en!contemporaine).!! ! Schetsen(van(functie(omschrijvingen:( Per!data4project!zijn!er!verschillende!mensen!nodig!om!datasets!te!cureren!en/of!te! verzamelen.!Grofweg!zijn!er!vier!typen!te!onderscheiden:! ! centrale!data!manager,!die!eindverantwoordelijkheid!heeft!voor!dataplan!(postdoc,! Auke!Rijpma,!UU)! ! expert!(tenminste!senior4postdoc!met!gedegen!bronnen4kennis!van!een!specifiek! gebied!of!periode)! ! verzamelaar!(meestal!data4assistenten!die!datasets!verzamelen!of!data!digitaliseren)! ! data5curator!(student4assistenten!voor!eenvoudige!curatie!processen!(cleaning)!en! post4docs!voor!geavanceerde!curatie!processen!(verrijking!en!creëren!van!ontologieën).!! ! Elke!dataset!vereist!specifieke!expertise;!in!het!dataplan!is!deze!nader!gespecificeerd.!Om!
3
! het!grote!aantal!projecten!inzichtelijk!en!vergelijkbaar!weer!te!geven,!zijn!de!inspanningen! voor!alle!projecten!omgezet!naar!zogenoemde!Post4doc!Years!(PDY):!het!aantal!jaren!dat!een! post4doc!nodig!zou!hebben!om!een!project!te!volbrengen.!In!het!data!en!curation!plan! (bijlage!1)!staat!per!project!aangegeven!uit!hoeveel!PDY’s!een!project!bestaat.!De!begroting! van!de!datacuratie!is!gebaseerd!op!ervaringen!met!grotere!dataprojecten!zoals!HSN!en!Clio! Infra.!! ( Begroting(voor(infrastructuur(onderdelen(van(de(CLARIAH(Linked(Data(Hub( De!begroting!voor!de!infrastructuur!onderdelen!is!gemaakt!op!basis!van!ervaringen!in! soortgelijke!projecten!(bouwen!van!infrastructuur!voor!het!delen!van!data!tussen! wetenschappers!in!een!onderzoeksgemeenschap).! ! We!onderscheiden!3!cruciale!rollen.!We!schetsen!elk!door!een!niet4uitputtende!lijst!taken!te! noemen!voor!elke!rol:! ! architectuur%&%ontwerp:!ontwerp!van!systeem!architectuur,!selectie!en!waar!nodig! constructie!van!ontologieen,!selectie!en!waar!nodig!definitie!van!meta4data! formaten,!keuze!van!gebruikte!technologieen!voor!representatie!formaten!en! communicatie!protocollen,!inpassing!van!de!data4hub!in!omliggende!CLARIAH! architectuur!(website,!samenwerking!met!WP2!en!andere!WPs)! ! interne%data%opslag%&%retrieval:!ontwerp!en!implementatie!van!data4opslag! faciliteiten!((datasets,!database,!triplestore),!ontwerp!van!interne!data4schema's,! inpassing!van!provenance!en!versioning,!query4engine,!API!ontwerp!en! implementatie.! ! externe%tools%voor%gebruikers:!functionaliteit!voor!uploaden!van!data,!tools!voor! het!construeren!van!links!tussen!datasets!en!naar!externe!bronnen,!tools!voor! verrijken!en!harmoniseren!van!data,!(zelf!bouwen!en/of!ondersteunen!van! anderen!bij!het!bouwen!van)!tools!voor!gebruikers!zoals!querying,!analyse,! visualisatie),!(bijdragen!aan)!CLARIAH!website!en/of!app4store.! ! In!vergelijkbare!projecten!(bv!OpenPhacts!voor!farmaceutische!en!levenswetenschappelijke! data)!is!met!een!soortgelijke!rolverdeling!gewerkt,!en!elk!van!deze!drie!rollen!was!belegd! door!middel!van!1fte!over!4!jaar.!De!complexiteit!van!CLARIAH!is!grosso!modo!vergelijkbaar! met!die!van!OpenPhacts:!enerzijds!is!farmaceutische!en!levenswetenschappelijke!data! technisch!moeilijker!vanwege!de!omvangrijkere!datasets!(verschil!van!één!of!twee!ordes!van! grootte,!met!bijbehorende!problemen!in!schaalbaarheid),!anderzijds!is!CLARIAH!technisch! moeilijker!want!het!domein!is!aanzienlijk!minder!ge4ontologiseerd,!er!is!interactie!met! andersoortige!databronnen!(tekst,!media),!en!de!tools!zijn!gericht!op!een!minder!technische! gebruikersgroep.! ! Schetsen(van(functie(omschrijvingen:( ! architect:!senior!onderzoeker,!ervaring!met!semantische!technologieën!(OWL,!RDF,! PROV,!SPARQL,!JASON),!alsmede!met!datamodellen!en!ontologieën! ! database%engineer:!postdoc!of!wetenschappelijk!programmeur,!ervaring!met! grootschalige!opslag!van!heterogene!data,!graph!databases!inclusief!provenance,! API!ontwerp.! ! user5tool%engineer:!postdoc!of!wetenschappelijk!programmeur,!ervaring!met!e4 science!tooling,!affiniteit!met!e4Humanities! ! Elk!van!deze!posities!worden!ingevuld!door!medewerkers!die!hun!werktijd!verdelen!tussen! de!locaties!VU!en!IISG.! ! Idealiter!zijn!alle!drie!deze!posities!zo!snel!mogelijk!gevuld,!zodat!de!personele!invulling!kan! overlappen!met!die!voor!de!pilot!studies.! ! Overige(onderdelen(van(de(CLARIAH(Linked(Data(Hub( De!overige!onderdelen!!zijn!onder!te!verdelen!in!outreach!(toogdagen,!conferenties!en! workshops)!en!hard4!en!software!(serverruimte,!workflow!software).! ! Outreach( Toogdagen% Om!een!zo!breed!mogelijke!draagkracht!te!creëren!voor!de!infra4structuur!vergadert!de! Strucutured!Data!Hub!op!belangrijke!momenten!(o.a.!bij!het!vaststellen!van!doelen!en! producten!van!elke!fase)!met!een!brede!achterban!(historici,!demografen,!sociologen,!
4
! economen,!linked!data!experts!en!ondernemers!uit!de!cultureel4erfgoed!branche).!! Bovendien!worden!1!per!jaar!toogdagen!georganiseerd!voor!deze!achterbaan,!om! ontwikkelde!producten!te!tonen,!maar!ook!feedback!te!krijgen!over!ontwikkelde!producten! of!te!brainstormen!over!oplossingen!(brackethon),!te!brainstormen!of!linken!van!data! (datathon),!of!te!brainstormen!over!het!linken!van!tools!en!data!(hackethon).!Per!dag!wordt! €1000,4!gereserveerd.! ! Conferenties% Om!feedback!te!krijgen!over!verrichte!prestaties!en!!op!de!hoogte!te!blijven!van!het! werkveld!worden!er!middelen!gereserveerd!voor!conferentiebezoek.!Per!medewerker!wordt! €1000,4!per!jaar!gereserveerd!voor!conferentiebezoek!(voor!om!het!jaar!een!europese!en! niet4europese!conferentie).! ! Workshops% Om!algemene!vaardigheden!in!het!werken!met!grote!datasets!en!specifieke!vaardigheden!in! het!werken!met!ontwikkelde!digitale!tools!te!bevorderen!organiseren!we!3!drie!workshops!in! jaar!2,!3!en!4.!Per!workshop!reserveren!we!8000!euro!voor!de!organisatie,!locatie,!sprekers! en!reis4!en!verblijfkosten!voor!deelnemers!uit!financieel!achtergestelde!landen.! ! ! Hard7(en(software( Hardware% Voor!het!opslaan!van!gecureerde!data!en!het!aanbieden!van!de!digitale!tools!is!serverruimte! nodig.!Aangezien!veel!van!de!data!uit!micro4data!bestaan,!en!het!dus!de!privacy!van! individuen!betreft,!is!een!belangrijke!vereiste!dat!de!veilig!worden!opgeslagen.!Voor!servers! en!beheer!wordt!een!bedrag!van!€24.000!per!jaar!begroot.! ! Project%management%software% Bij!een!omvangrijk!project!als!deze!is!het!van!belang!dat!het!project!goed!beheerd!en! gedocumenteerd!wordt.!Hierbij!gaat!het!niet!alleen!om!documentatie!van!stukken,!maar! juist!ook!documentatie!van!communicatie!(afspraken,!discussies).!Hiervoor!gebruiken!we! Basecamp!(basic!projectmanagement!tool),!Dropbox!(directory!gebaseerd!cloud4systeem)!en! een!integratietool,!CloudHQ,!die!Basecamp!en!Dropbox!integreert.!Aan!het!einde!van!het! project!kan!alle!communicatie!(Basecamp)!en!documentatie!(Dropbox)!geïntegreerd!worden! opgeslagen.!! ! Baten(
•
• • •
Efficiencywinst!in!het!sociaaleconomisch4historisch!onderzoek:! o door!koppeling!van!databestanden! o door!koppeling!van!tools!en!data! Nieuwe!onderzoeksresultaten!in!het!sociaaleconomisch4historisch!onderzoek! De!infrastructuur!kan!in!een!later!stadium!ook!andere!disciplines!dienen! Nieuwe!onderzoeksresultaten!in!de!informatica!n.a.v.!deze!“test4case”!
Aanpak( OverallGaanpak( (
Omdat!het!project!deels!een!experimenteel!karakter!heeft,!wordt!het!in!fasen!vormgegeven.! De!resultaten!van!een!fase!bepalen!de!inhoud!en!de!planning!van!de!volgende!fase.!Bij!de! start!van!het!project!hebben!een!grof!beeld!van!wat!we!in!de!eerste!twee!jaar!tot!stand! willen!brengen.!Zie!‘fasering’!voor!een!overzicht!van!de!fases!en!uitwerking!voor!de!eerste! twee!jaar.!
Planning( Product(Breakdown( Structure(
•
Pilots! o
Quantity!to!quality! ! Inhoudelijk! • Selectie!van!datasets! • Selectie!van!vocabulaires! • Formuleren!van!query’s! • Alignments!tussen!datasets! 5
! Technisch! • Transformatie!van!datasets!naar!Linked!Open!Data! • Formuleren!van!formele!query’s! • Tools!voor!! o aligning!! o querying! o visualisering! o Arbeidsmarktparticipatie!vrouwen!(testing!the!U4shaped!curve)! ! Inhoudelijk! • Selectie!van!datasets! • Selectie!van!vocabulaires! • Formuleren!van!query’s! • Alignments!tussen!datasets! ! Technisch! • Transformatie!van!datasets!naar!Linked!Open!Data! • Formuleren!van!formele!query’s! • Tools!voor!! o aligning!! o querying! o visualisering! Bouw!prototype! Bouw!versie!1! ! !
• •
! ! Fasering(
Fase(0:(initiatiefase((afgerond)( ! ! !
Periode:!maand!1! Doel:!specificering!projectplan!en!budget! Producten:! o Project!Initatie!Document!(PID)!! o Begroting!
Fase(1:(ontwerpfase( ! !
!
Periode:!maand!247! Doel:!uitvoeren!van!twee!pilots!die!het!proces!van!‘ruwe!data’!naar!‘data!in!rdf’! doorlopen!en!waarbij!analyses!worden!gedaan!op!data!die!via!een!SPARQL!query! zijn!verkregen! Producten:! o vaststelling!raw4data!to!rdf!workflow!(concept!bijlage!5)! o vaststelling!‘core!variables’!die!gecureerd!moeten!worden! o vaststelling!‘core!tools’!die!ontwikkeld!moeten!worden! o vaststelling!planning!te!cureren!datasets! o vaststelling!te!gebruiken!meta4data! o powerpoint!over!inhoud!en!proces!pilots!(beantwoording! onderzoeksvragen)!
Fase(2:(voorbereidingsfase( ! ! !
Periode:!maand!8413! Doel:!bouw!prototype!infrastructuur! Producten:! o Website!met:! ! Ten!minste!2!gecureerde!datasets! ! Ten!minste!2!RDF!vocabulaires!voor!variabelen! ! Tool!om!nieuwe!variabelen!te!voorzien!van!vocabulaires!(qber)! in!beta!versie! ! Tool!om!variabelen!uit!datasets!te!linken!aan!variabelen!op!het!
6
! semantisch!web! Fase(3:(realisatiefase,(deel(1( ! ! !
Periode:!maand!14426! Doel:!bouw!eerste!versie!infrastructuur! Producten:!! o te!speciferen!na!de!voorbereidingsfase,!maar!in!iedere!geval:! ! ingerichte!datarepository! ! enkele!van!de!tools!zoals!omschreven!bij!‘producten’!(p.2)! ! diverse!datasets!zoals!omschreven!bij!‘producten’!(p.2)!en!in! de!bijlage!‘Data!curation!and!collection!plan’.!
Fase(4:(realisatiefase,(deel(2( ! ! !
Periode:!maand!27448! Doel:!het!vervolledigen!van!de!infrastructuur!met!tools!en!data!zoals!omschreven! bij!‘producten’!(p.2)! Producten:!! o nader!te!specificeren!na!realisatiefase,!deel!1:! ! verdere!tools!(zie!‘producten’,!p.2).! ! verdere!datasets!(zie!‘producten’,!p.2.!en!‘data!curation!and! collection!plan’).! !
Fase(5:(nazorgfase! ! ! !
Periode:!na!maand!48! Doel:!borging!van!het!project!in!bestaande!data4centers!en/of! onderzoeksinstituten! Producten:! o CLARIAH4omgeving!in!beheer!genomen!door!CLARIAH4center(s)!–!in!elk! geval!het!IISG!
Fase(1:(( In!maand!247!gaan!we!twee!pilot!projecten!doen,!om!! ontwerpfase( (
1) 2)
een!helder!beeld!te!krijgen!van!de!functionaliteit!van!de!uiteindelijke! infrastructuur!en! inzicht!te!krijgen!in!de!bruikbaarheid!van!de!technologische!bouwstenen.!
De!pilots!richten!zich!beiden!op!een!specifieke!SEG!vraag.!We!gaan!die!vragen!onderzoeken! met!gebruik!van!technologieën!die!naar!verwachting!ook!een!rol!gaan!spelen!in!de! uiteindelijke!infrastructuur.!Na!dit!eerste!half!jaar!moet!het!volgende!bereikt!zijn:! •
overeenstemming!over!de!functionaliteit!van!de!uiteindelijke!infrastructuur!
inzicht!in!de!bruikbaarheid!van!de!technologische!bouwstenen! De!pilots!betreffen!de!volgende!SEG!onderzoeksvragen:! •
•
Welke!micro4!en!macro4factoren!bepalen!switch!van!quantity!to!quality!in! reproductief!gedrag!en!investeringen!in!scholing;!dit!bouwt!verder!op!eerder! werk!Auke!Rijpma!waarbij!al!allerlei!relevante!databestanden!verzameld!en! gesystematiseerd!zijn;!Auke!zou!ook!de!inhoudelijke!postdoc!en!trekker!worden;! ! Welke!micro4en!macro4factoren!bepalen!(opwaartse)!sociale!mobiliteit,!met!een! focus!op!de!arbeidsparticipatie!van!vrouwen,!voortbouwend!op!werk!van!Marco! van!Leeuwen!en!Richard!Zijdeman;!de!laatste!zou!postdoc/trekker!kunnen!zijn;!
Aan!elke!pilot!wordt!gewerkt!door!een!domeindeskundige!en!een!informatica!onderzoeker.! Voor!de!domeindeskundigen,!zie!boven.!Voor!de!ICT!expertise!zijn!Rinke!Hoekstra!+!een! ontwikkelaar!de!aangewezen!personen.! Taken!van!de!domeindeskundige!zijn:!selectie!van!datasets,!selectie!van!vocabulaires,! formuleren!van!informele!queries,!alignments!tussen!datasets! Taken!van!de!informatica!onderzoeker!zijn:!transformatie!van!datasets!naar!Linked!Data! model,!formuleren!van!formele!query’s,!tools!voor!aligning,!querying,!visualising.!
7
!
Pilot%doelen% De!pilots!zijn!bedoeld!om!te!illustreren!hoe!de!voorgestelde!technische!benadering!de! volgende!doelen!realiseert:! •
het!eenvoudiger!mogelijk!maken!van!een!gecombineerde!analyse!van!micro!en! macro!data!
•
het!eenvoudiger!mogelijk!maken!om!externe!bronnen!te!gebruiken!
•
het!mogelijk!maken!van!context4gevoelige!harmonisatie!(dwz!sommige!concepten! of!objecten!uit!verschillende!datasets!zijn!identiek!of!niet,!afhankelijk!van!de! context!van!de!onderzoeksvraag).!
Een!nevendoel!is:! •
het!eenvoudiger!mogelijk!maken!om!nieuw4aangeboden!datasets!te!integreren,! maar!dit!punt!krijgt!geen!prioriteit.!
Pilot%vereisten%(requirements)% Must(have( 1.
Selects!existing!data!on!micro!and!macro!level!for!analysis!
2.
Searches!for!relevant!variables!already!available!in!RDF!
3.
Provides!tool!that!assists!in!the!transposition!of!variables!into!RDF!
4.
Transposes!at!least!4!variables!into!RDF!vocabulary!(of!which!at!least!1!micro!and!1! macro!variable)!
5.
Extracts!relevant!values!for!analysis!from!newly!created!variables!through!RDF! query!(e.g.!selection!of!years)!
6.
Writes!a!report!evaluating!the!successes!and!failures!for!all!of!the!must!haves!and! should!haves!in!this!list!
7.
Planning!for!prototype!of!infra4structure!containing!data!from!both!pilots!
! Should(have( 1.
Extracts!at!least!one!existing!variable!from!the!semantic!web!and!incorporates!this! in!the!analysis.!This!variable!does!not!need!to!be!theoretically!justified.!
2.
The!analysis!performed!should!take!into!account!the!micro4macro!structure!of!the! data!(e.g.!multi4level!analysis!or!at!least!some!form!of!cluster!correction)!
3.
!Powerpoint!presentation!aimed!at!a!general!audience!describing!all!steps!in!the! must!and!should!have.!!!!!!
! Could(have( 1.
Visualizations!(maps,!bar!charts,!graphs)!based!on!the!linkage!or!analysis!(to!be! used!as!teasers!for!the!website)!
2.
Data!could!be!presented!as!open!linked!data!
!
!
Want,(but(will(not(have( !
Data!could!be!presented!as!five!star!open!linked!data!
Pilot%planning% M1!=!Must!have!1!
8
! S1!=!Should!have!1! C1!=!Could!have!1! Plan!start!=!weeknummer! Plan!duration!=!duur!in!weken!
! zie!voor!gantt4chart:!bijlage!3! ! Fase(2:(( In!het!tweede!half!jaar!gaan!we!een!eerste!prototype!van!de!infrastructuur!bouwen,!met! behulp!van!bestaande!componenten.!Dit!dient!om!nog!meer!inzicht!te!krijgen!in! voorbereidingsfase( functionaliteit!en!technologie.!Dit!prototype!zal!nog!niet!de!integratie!met!de!tekst!en!media! ( pilaren!realiseren,!maar!het!ontwerp!van!die!integratie!moet!dan!wel!klaar!zijn:! • •
prototype!van!datahub!infrastructuur! interface!definities!voor!cross4media!functionaliteit!(tekst,!beeld,!geluid)!
De!verwachting!is!dat!we!na!het!bouwen!van!dit!prototype!voldoende!inzicht!hebben!om! aan!het!eind!van!jaar!2!een!volledig!versie!1!te!hebben:! •
versie!1!van!de!datahub!infrastructuur!
Deze!versie!1!moet!ook!cross4media!functionaliteit!bieden!(bv:!zoeken!in!zowel!data!als!tekst! als!beeld/geluid).! Maand!7411:!bouw!prototype!infrastructuur,!inclusief!data!repository! Maand!8:!selectiecriteria!datasets!op!basis!van!pilots! Maand!9410:!omzetten!van!datasets!in!RDF!op!basis!van!ervaringen!en!tools!pilots! Maand!11:!toevoegen!datasets!aan!prototype!infra4structuur! Maand!11:!creëren!voorkant!website! Maand!12:!test!voorkant!website!en!infra4structuur! Maand!13:!meta4data!en!interface!definities!afstemmen!voor!cross4media!functionaliteit! (tekst,!beeld,!geluid)!! ! Fase(3:(( Maand!14426:!bouw!eerste!versie!infrastructuur! realisatiefase,(( deel(1( (specificatie!eind!fase!1)!
! !
Doel:!bouw!eerste!versie!infrastructuur! Producten:!! o te!speciferen!na!de!voorbereidingsfase,!maar!in!iedere!geval:! ! ingerichte!datarepository! ! enkele!van!de!tools!zoals!omschreven!bij!‘producten’!(p.2)! ! diverse!datasets!zoals!omschreven!bij!‘producten’!(p.2)!en! ‘data!curation!and!collection!plan’!
9
!
Fase(4:(( Maand!27448:!verdere!bouw!en!datacuratie! realisatiefase,((
!
deel(2(
!
(specificatie!eind!fase!2)!
Doel:!het!vervolledigen!van!de!infrastructuur!met!tools!en!data!zoals!omschreven! bij!‘producten’!(p.2)!en!‘data!curation!and!collection!plan’! Producten:!nader!te!specificeren!na!realisatiefase,!deel!1!
!
Fase(5:(( Vanaf!maand!48:!CLARIAH4omgeving!in!beheer!genomen!door!CLARIAH4center(s)!–!in!elk! geval!het!IISG! nazorgfase( De!tools!en!data!worden!in!het!beheer!genomen!door!de!CLARIAH4centra!die!zich!hiervoor! hebben!opgeworpen.!In!elk!geval!zal!dat!het!IISG!zijn.!De!meeste!data!in!de!CLARIAH4 omgeving!zijn!zogenaamde!“levende”!datasets,!d.w.z.:!er!worden!voorlopig!nog!data! toegevoegd!en!er!vinden!wijzigingen!plaats.!Het!IISG!zal!dit!organiseren!voor!zover!het!in!zijn! vermogen!ligt!en!in!zijn!onderzoeksprogramma!past.!In!overleg!met!DANS!en!de!“eigenaars”! van!de!data!(voor!zover!dit!niet!het!IISG!zelf!is)!zal!bepaald!worden!op!welke!momenten!er! welke!versies!van!welke!datasets!zullen!worden!opgeslagen!in!de!data4archieven!van!DANS.! ! Mijlpalen(
Per!fase!in!!het!project!zullen!specifieke!milestones!worden!afgesproken,!maar!in!ieder!geval! onderstaande:! Mijlpaal(1((maand(1G2):( • •
Vaststelling!PID!en!budget!door!Clariah!Structured!Data!stuurgroep!( Goedkeuring!PID!en!begroting!door!Clariah!bestuur(
Mijlpaal(2((maand(7):! • •
overeenstemming!over!de!functionaliteit!van!de!uiteindelijke!infrastructuur! inzicht!in!de!bruikbaarheid!van!de!technologische!bouwstenen!
In!het!tweede!half!jaar!gaan!we!een!eerste!prototype!van!de!infrastructuur!bouwen,!met! behulp!van!bestaande!componenten.!Dit!dient!om!meer!inzicht!te!krijgen!in!functionaliteit! en!technologie.!Dit!prototype!zal!nog!niet!de!integratie!met!de!tekst!en!media!pilaren! realiseren,!maar!het!ontwerp!van!die!integratie!moet!dan!wel!klaar!zijn:! Mijlpaal(3((maand(13):! • •
prototype!van!datahub!infrastructuur! interface!definities!voor!cross4media!functionaliteit!(tekst,!beeld,!geluid)!
De!verwachting!is!dat!we!na!het!bouwen!van!dit!prototype!voldoende!inzicht!hebben!om! aan!het!eind!van!jaar!2!een!volledig!versie!1!te!hebben:! Mijlpaal(4((maand(26):! •
versie!1!van!de!datahub!infrastructuur!
Mijlpaal(5((maand(48):! •
oplevering!
! Financiën( Uren(
Wanneer!alle!uren!in!post4doc!jaren!worden!uitgedrukt,!zijn!er!32,5!PDYs!het!equivalent!van! 56680!uur!(32.5*(52!weken!*!38!uur!per!week!–!232!verlofuren!per!jaar))!
Geld(
De!begroting!bestaat!uit!drie!hoofdposten:! Personele!kosten!(€3,134,000),!outreach!(€60,000)!en!hard4!en!software!(€98,040).!De! overhead!op!de!personele!kosten!wordt!gedragen!door!de!deelnemende!instellingen.!!
!
! Financiering(
Er!zijn!twee!financieringsbronnen:! ! Clariah!voor!de!materiële!en!immateriële!(o.a.!personeelskosten)!kosten!van!het! 10
!
!
project.! VU,!UU!en!IISG!dragen!de!overheadlasten!van!de!op!het!project4aangestelde! personeel!
! ! Communicatie( Communicatie(
!
!
(
maandelijkse!gesprekken!tussen!de!stuurgroep!(Jan!Luiten!van!Zanden,!Frank!van! Harmelen,!Kees!Mandemakers!en!Henk!Wals)!en!de!projectmanager!(Richard! Zijdeman)! we!leggen!veel!nadruk!om!een!brede!achterban.!Er!zijn!drie!doelgroepen!te! onderscheiden:! o wetenschappelijke!gebruikers!(historici,!economen,!sociologen,!etc.)! o professionele!gebruikers!(journalisten,!data!miners)!en!instanties! (gemeenten,!erfgoedinstellingen)! o studenten!HBO!en!universiteit! o brede!publiek!(mensen!met!een!intrinsieke!interesse!voor!het!verleden)! Dit!brede!publiek!wordt!bediend!o.a.!via!zogenaamde!toogdagen!waar! projectresultaten!worden!getoond!en!feedback!wordt!gevraagd!over!geleverde! producten.!!
!
Kwaliteit( Borging(en(meting(
Projectmanager!(Richard!Zijdeman)!–!borging!algehele!kwaliteit! Datamanager!(Auke!Rijpma)!–!borging!data4curatie! Architect!(Rinke!Hoekstra)!–!borging!functionaliteit!en!data4opslag! ! Acceptatie!van!kwaliteit!gebeurt!in!eerste!instantie!door!de!stuurgroep!en!uiteindelijk!het! Clariah!bestuur.!
! Organisatie( Opdrachtgever( Stuurgroep( Projectmanager( Secretaris( Projectleden((
CLARIAH!Board! Jan!Luiten!van!Zanden,!Frank!van!Harmelen,!Kees!Mandemakers,!Henk!Wals! Richard!Zijdeman! Monique!Kruithof! 4!Auke!Rijpma!(data4manager)!! 4!Rinke!Hoekstra!(architect)! 4!junior!postdoc!(data4opslag)! 4!junior!postdoc!(functionaliteit)! 4!junior!post4docs!en!student4assistenten!(data4curatie)!
! Organogram(
!
11
!
!
! Overleg(
De!stuurgroep!vergadert!maandelijks,!doorgaans!in!het!bijzijn!van!de!projectmanager.! Secretaris!maakt!een!verslag.!
! Rapportage(
Maandelijkse!voortgangsrapportage!naar!de!Stuurgroep.!
Wijzigingen(
Beschrijf!het!change!proces!t.b.v.!eventuele!wijzigingen!van!de!afgesproken! projectresultaten!(bijlage!4).!
!
! Bijlagen(
1. 2. 3. 4.
begroting! gantt!chart!pilots! raw4data!to!rdf!workflow! dataplan!
! Referenties(
4!NWO!Project!aanvraag!Clariah:!CLARIAH_2013_Final.pdf!
!
12
! Bijlage(1:(begroting(Clariah(Structured(Data(Hub(
( (
(
13
! Bijlage(2:(gantt(chart(pilots(
( (
(
14
Transpose variables into RDF - using existing vocabularies - using newly created vocabularies
Create new vocabularies if needed
Transpose variables into RDF - using existing vocabularies
Data-file (.sps / .csv / .dta)
Cleaned and augmented data-file (RDF)
Newly created vocabularies
Clean with .R script
Share newly created variables on the symantic web
Cleaned Data-file .csv
Provide file as linked data
Augment data with tools - hisco coding tool - stratification scales - location coding tool
Provide file as .csv
Cleaned and augmented data-file (.csv)
!
Bijlage(3:(Data(curation(workflow(
(
(
15
! Bijlage(4:(Data(curatie(en(verzameling(plan( (
DATA!CURATION!AND!COLLECTION!PLAN! Auke!Rijpma!&!Jan!Luiten!van!Zanden! March!18,!2015! The!Clariah!Structured!Data!Hub!(SDH)!aims!to!make!using!economic!and!socialPhistorical!data!easier! for! researchers.! Linking! data! –! individuals! (micro)! to! other! individuals! and! to! data! on! their! surroundings!(macro)!–!is!an!important!part!of!this.!For!the!hub!to!actually!become!a!useful!resource! in! economic! and! social! history,! it! is! vital! that! it! contains! a! rich! collection! of! data.! This! document! outlines!the!principles!guiding!the!acquisition!of!data!and!its!implementation.! Starting!points:! –
MacroPdata!will!be!supplied!by!ClioPInfra!and!the!Labour!Relations!Hub!at!the!IISH.!
–
The! focus! will! be! on! micro! data;! more! detailed! plans! will! be! drawn! up! for! meso! data! and! regional!data!after!2.5!years.!
–
Three! big! research! questions:! quantityPquality! tradeoff! (education);! social! mobility;! migration.!
–
Good!coverage:!prePindustrial!(!1950).!
–
Good!coverage:!world!regions!and!levels!of!development.!
–
Attention!for!Dutch!heritage!(and!enabling!access!to!Dutch!sources!and!researchers).!
! Implementation+ Data!acquisition!is!broken!down!in!a!number!of!projects.!A!substantial!effort!is!made!to!secure!and! process!sufficient!prePindustrial!and!nonPWestern!data.!For!various!reasons!(target!audience,!time!of! collection,! source! material),! much! of! this! data! is! not! fully! documented,! not! in! an! easily! useable! format,!or!not!readily!accessible.!Some!of!this!data!is!at!risk!of!being!lost.! Five! specific! proposals! have! already! been! drawn! up! for! the! SDH.! By! focusing! on! former! Dutch! colonies,!two!of!these!combine!preindustrial!or!nonPWestern!coverage!with!the!aim!to!include!Dutch! heritage.!! ! 1. Jan!Kok!(Radboud!University)!has!made!proposal!to!deliver!a!dataset!for!eighteenthPcentury! Sri!Lanka,!based!on!the!Thombos,!consisting!of!c.!25k!observations.!De!Zwart’s!(2012)!data! on! the! eighteenthPcentury! Ceylon! economy! included! in! ClioPInfra! is! a! good! macrodataP complement.!See!the!appendix!for!the!proposal.! 2. Angelique! Janssen! (Radboud! University)! has! made! a! proposal! to! develop! a! pilot! creating! a! dataset! on! the! demographic! and! economic! characteristics! of! Surinam! slaves,! 1830–1863,!
16
! consisting! of! an! estimated! 20k! observations.! In! view! of! the! recent! attention! to! this! part! of! Dutch!heritage!we!think!we!should!give!this!pilot!priority.!See!the!appendix!for!the!proposal.! 3. The!Historische!Steekproef!Nederland!(HSN)!was!a!core!part!of!the!original!Clariah!proposal! and! it! is! an! important! dataset! for! Dutch! historical! research! in! general.! Kees! Mandemakers! (IISH)!has!set!up!a!plan!to!complete!the!HSN!for!the!period!1863–1922!by!verifying!a!further! 5.000!life!courses.!Relevant!macroPdata!includes!the!excellent!time!series!on!the!nineteenthP century! Netherlands! (Horlings! et! al.)! contained! in! ClioPInfra! and! the! data! contained! in! the! volkstellingen! and! the! Historische! Databank! Nederlandse! Gemeenten! (HDNG).! See! the! appendix!for!the!proposal.! 4. Joerg!Baten!(U!Tübingen)!has!made!a!proposal!to!deliver!an!extensive!sample!of!microdata,! focusing! on! Latin! America! (eighteenth–twentieth! centuries,! c.! 340k! observations)! and! the! Middle! East! and! North! Africa! (nineteenth! and! twentieth! centuries),! focusing! on! variables! relevant! to! the! research! questions! on! education! and! migration.1! The! LatinPAmerican! data! would!greatly!compliment!macrodata!contained!in!MOxLAD!and!ClioPInfra.!A!first!draft!of!the! proposal!can!be!found!in!the!appendix.! 5. Tine!de!Moor!(UU)!has!drafted!a!proposal!to!complete!the!TreeChecker!program!to!facilitate! the! construction! of! genealogical! datasets! for! scientific! use.! This! is! a! potentially! very! rich! source!of!data!for!Europe!and!its!offshoots,!including!its!preindustrial!history!(at!least!3GB!of! data,!16th!century!onwards).!See!the!appendix!for!the!proposal.2! ! These! projects! should! be! informed! by! the! findings! of! the! pilots! regarding! formats,! documentation,! variables! etc.! as! much! as! possible.! Since! changing! the! entire! data! structure! of! the! HSN! to! this! end! would!be!inefficient,!it!can!start!sooner.! To!expand!the!coverage!of!the!Clariah!SDH,!7!projects!of!0.5–2!postPdoc!years!(PDY)!are!planned! for!further!regions!and!periods.!Some!of!these!project!may!(in!part)!be!done!by!studentPassistants.! The!PDY!is!mostly!meant!as!an!indication!of!the!scope!and!complexity!of!the!project.! While!opportunities!for!acquiring!microPdata!for!all!regions!have!been!identified,!the!proposals! still!need!to!be!worked!out.!To!this!end,!regional!experts!working!with!microPdata!will!be!contacted.! They! will! be! asked! to! write! proposals! similar! to! those! on! e.g.! Thombos:! give! an! overview! of! which! microPdata!currently!exists!and!what!still!needs!to!happen!to!get!this!data!up!to!the!requirement!of! the!SDH!(including!standardisation!of!key!variables).!Once!the!experts!have!provided!details!on!the! data,!the!projects!are!to!be!prioritised!based!on!the!quality!of!the!data,!their!importance!for!the!hub,! and!the!amount!of!work!necessary!to!get!the!data!ready!for!the!SDH.!The!full!criteria!will!specified! after! the! completion! of! the! pilots.! Once! the! proposals! have! been! approved,! we! will! either! provide! the!necessary!assistance!ourselves,!enable!the!experts!to!hire!the!necessary!assistance,!or!ensure!the! experts!themselves!have!time.!!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 1
!This!project!has!therefore!replaced!the!previous!projects!on!Latin!America!and!the!MENA!region.! !This!project!has!replace!part!of!the!previous!project!on!genealogical/linked!data.! 3 2 !http://www.cgeh.nl/quantitativePhistoryPchina.! !This!project!has!replace!part!of!the!previous!project!on!genealogical/linked!data.! 2
17
! Since!the!requirements!for!the!data!projects!will!only!be!known!after!the!pilots,!the!data!projects! are!to!begin!after!the!pilots.!However,!the!experts!should!be!contacted!earlier!(months!3–7)!to!make! preliminary!proposals!as!soon!as!possible.! 1. Africa.!Johan!Fourie!at!Stellenbosch!University!has!gathered!a!number!of!datasets!on!settlers! as!well!as!the!indigenous!population!of!SouthPAfrica!(Cape!Colony!and!its!surroundings!from! 1657! onwards)! based! on! court! records,! probate! inventories! (c.! 10k! observations)! and! genealogical! data! (400k! observations).! These! data! have! already! been! used! to! create! extensive! macroPestimates! on! the! Cape! Colony! (Fourie! 2014:! The! Quantitative! Cape)! Additionally,!there!is!the!“Economic!History!of!Christian!Africa”Pproject!collecting!microPdata! from! church! registers,! where! Felix! Meier! Zu! Selhausen! can! serve! as! expert.! These! projects! combine!to!1!PDY.! 2. Indonesia! (Peter! Boomgaard! (KITLV)! or! Remco! Raben! (UU)).! C.! 1930.! The! construction! of! a! number!datasets!on!the!Indonesian!economy!in!the!eighteenth!to!twentieth!century!means! ClioPInfra! contains! good! macrodata! for! this! country! (Marks,! Van! Leeuwen,! Van! Zanden,! De! Zwart).!Identifying!and!processing!microPdata!might!be!difficult!for!this!country.!To!consist!of! 0.5!PDY.! 3. Asia.!James!Lee!and!Cameron!Campbell!(Hong!Kong!University!of!Science!and!Technology)!as! experts.! Project! consists! of! 0.5! PDY.! The! focus! is! to! be! on! China! (multiPgenerational! panel! datasets,!CMGPD,!1500k!+!1300k!observations!from!1749!onwards),!although!e.g.!Taiwanese! and! Japanese! microPdata! are! also! relevant! for! this! project.! Van! Leeuwen’s! “Quantitative! History!of!China”!project!means!that!macroPdata!on!China!in!ClioPInfra!is!good!and!improving! all!the!time.3! 4. Preindustrial!era.!Leigh!ShawPTaylor!(Cambridge)!as!expert.!Project!of!1!PDY.!The!focus!will! be! on! the! big! preindustrial! datasets:! the! population! datasets! at! Cambridge! (WrigleyP Schofield,! est.! 125k! obs.! and! OgilviePGuinnane,! 3k! obs.),! HenryPFleury! for! France! (est.! 50k! obs.),!and!the!Florentine!Catasto!(300k!obs.).!A!good!inventory!of!further!datasets!is!also!part! of! this! project.! Together! with! Holland,! prePindustrial! England! and! latePmedieval! Florence/Italy! are! some! of! the! bestPstudied! cases! in! preindustrial! economic! history! and,! consequently,!macroPdata!is!abundantly!available!and!of!good!quality.! 5. Central! and! Eastern! Europe.! Mikołaj! Szołtysek! (Max! Planck! Institute).! Project! of! 1! PDY.! Central! and! Eastern! Europe! from! the! 18th! century! onwards! has! been! a! focus! area! of! the! Mosaic! project! (est.! 700k! observations! in! total).! Much! of! it! is! formatted! according! to! IPUMS/NAPP! standards.! Because! it! also! covers! western! Europe,! cooperation! with! the! MosaicPproject!could!be!very!fruitful.! 6. Western! Europe! and! North! America.! Project! consisting! of! 1! PDY,! ! Kees! Mandemakers! can! serve!as!expert.!The!European!Historical!Population!Samples!Network!is!an!ongoing!project! aiming! to! make! over! twenty! large! nineteenthPcentury! datasets! from! Western! Europe! and! North! America! containing! in! total! 2.4m! observations! compatible! through! an! Intermediate! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 3
!http://www.cgeh.nl/quantitativePhistoryPchina.! 18
! Data! Structure.4! This! compatibility! could! ease! incorporation! in! the! SDH.! While! all! these! individual! datasets! cannot! readily! be! assessed! on! the! availability! of! macroPdata,! generally! speaking!c19!and!c20!Europe!and!its!offshoots!are!not!problematic!in!this!regard.! 7. Genealogical! and! linked! data.! Neil! Cummins! (LSE)! or! David! de! la! Croix! (UC! Louvain)! could! serve! as! experts.! Project! consists! of! 1.2! PDY.! Work! by! genealogists! can! be! used! to! create! large! datasets! of! linked! data! (e.g.! Genlias/LINKS! for! the! nineteenthP! and! twentiethPcentury! Netherlands),!with!some!stretching!back!to!the!middle!ages!(e.g.!Cummins!2014).!Again,!the! excellent!timePseries!on!the!nineteenthPcentury!Netherlands!(the!research!area!of!Genlias!/! LINKS)! and! preindustrial! England! (the! focus! of! Cummins’! work)! means! macroPdata! is! plentiful.! This! work! is! still! in! its! early! stages! and! it! is! difficult! to! give! an! estimate! of! the! number! of! useful! observations.! Cummins’! database! contains! some! 400k! observations! and! Genlias! runs! into! tens! of! millions,! but! not! all! observations! result! in! useable! linked! observations.! A! rough! estimate! of! the! total! observations! this! project! could! deliver! is! one! million.!The!early!stage!in!which!this!work!is,!also!means!that!getting!this!data!SDHPready!will! be!difficult.! ! The!total!number!of!observations!in!the!subprojects!amounts!to!c.!12.7!million.!Adding!NAPP!(115m)! and!IPUMS!data!(560m)!would!greatly!increase!this!number.! Besides! the! large! datasets! mentioned! here,! many! small! datasets! also! exists.! By! linking! small! datasets!with!each!other!and!with!macroPdata,!the!SDH!can!add!to!their!value.!While!these!are!not! yet!elaborated!in!this!plan,!the!regional!projects!are!to!identify!these!datasets!and,!if!possible,!make! them! suitable! for! the! SDH.! Data! pertaining! to! Dutch! heritage! are! especially! important! here! and! an! inventory!is!to!be!made!of!i.a.!the!data!contained!in!DANSPEASY.!! Cooperation!with!existing!projects,!research!groups,!and!scholars!is!crucial!to!see!how!these!and! other! data! can! be! included! and! used.! Besides! those! mentioned! below,! scholars! such! as! Tommy! Bengtsson!(Lund)!and!projects!such!as!IPCeM,!NAPP,!and!IPUMS!are!important!here.!However,!there! is!a!risk!in!relying!on!large!dataPprojects!as!they!may!be!unwilling!or!unable!to!provide!us!with!their! data.! Finally,! there! are! projects! to! ensure! the! availability! of! macro! and! mesoPdata! to! the! SDH.! Since! one! of! the! goals! is! to! link! data! and! do! crossPdataset! analysis,! macroPdata! will! need! to! be! supplied.! The!datasets!of!the!ClioPInfra!project!play!a!key!role,!as!well!as!datasets!from!the!labour!relations!hub! and! various! datasets! on! migration! at! the! IISH.! Regional! data! may! also! be! required! to! improve! statistical!variation!in!multilevel!analysis.!Data!like!the!Volkstellingen+in!CEDAR!already!exist!in!RDFP form,! which! means! have! the! potential! to! demonstrate! linked! data! through! the! Dutch! case.! Moreover,!to!make!regional!data!useful,!historical!regions!need!to!be!accurately!identified!and!the! possibilities! to! do! this! will! need! to! be! explored.! Developing! a! hub! for! historical! maps! and! splitting! large!countries!like!China!and!the!US!into!regions!are!already!ongoing!projects!within!ClioPInfra.!!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 4
!http://www.ehpsPnet.eu/.! 19
! Furthermore,!mesoPdata!is!to!be!added!to!the!SDH!from!year!three!onwards.!Potential!datasets! include! the! Guild! Database,! the! NL! Trade! Union! Database,! the! Labour! Conflicts! Database,! and! the! Migrant!Organisations!database.!Both!the!macro!and!the!mesoPdata!will!probably!require!substantial! work,!so!4!PDY!are!planned!in!total.++ Coverage+ Region! PrePindustrial!
Industrial!
Western!Europe! Cambridge,! Henry,!Catasto,! Genealogy,!Baten! CE!Europe! Mosaic,! Genealogy! Western!Offshoots! EHPS!(Quebec),! Genealogy! Latin!America! Baten! East!Asia! CMGPD! South!+!SouthPEast! Thombos! Asia! MENA! ! SubPSaharan!Africa! Cape!Colony!
PostPindustrial!(N! IPUMS)! 53!
HSN,!EHPS,! Mosaic,!NAPP! Mosaic!
11!
NAPP!
21!
Baten! CMGPD! Indonesia!
70! 4! 34!
Baten! Cape!Colony,! Christian!Africa!
17! 22!
! Preliminary+schedule+ Commencement!! Project! M6! HSN! M9! Thombos! Surinam! Baten! Treechecker! M10–M14! 1–7! M12! Macro! M30! Meso!
Duration!in!months! 36! 4! 12! 20! 12! 6–24! 24! 18!
! !
!
20
! ! Budget5+ Project! Thombos! Suriname!slavery! HSN! Latin!America!+!MENA! (Baten)! TreeChecker! (South)!Africa! Indonesia! Asia! Preindustrial!era! CE!Europe! West! Linked!Data! Macro/meso! Total!
Cost!(1000s!of!€)! 23! 117! 350! 102! 68! 85! 43! 43! 85! 85! 85! 102! 340! 1528!
! (
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 5
!This!budget!provides!an!overview!of!the!cost!to!retrieve!all!of!these!datasets.!Less!than!half!of!the!required! budget!is!available!(k€!733)!and!during!the!project!decisions!will!be!made!on!which!datasets!will!be!recovered.! 21