Ketelaar-lezing
De Ketelaar-lezing is in 2002 ingesteld door het Nationaal Archief,
Big Data, Grand Challenges Over digitalisering en het geesteswetenschappelijk onderzoek José van Dijck
bij het vertrek van prof. dr. Eric Ketelaar uit de Rijksarchiefdienst. Als Algemene Rijksarchivaris in de jaren 1989-1997 en in diverse andere functies heeft Ketelaar zich ingezet voor de modernisering, professionalisering en versterking van het Nederlandse archiefwezen. De lezing beoogt bekendheid te geven aan onderwerpen uit de sfeer van archieven in relatie met de maatschappij en de dialoog tussen archiefwezen en maatschappij te stimuleren. De twaalfde Ketelaar-lezing is gehouden op 10 december 2014 in het Nationaal Archief te Den Haag, door prof. dr. José van Dijck, met de titel ‘Big Data, Grand Challenges. Over digitalisering in het geesteswetenschappelijk onderzoek’.
KETELAAR-SERIE
KETELAAR-LEZING 12
2014
Big Data, Grand Challenges Over digitalisering en het geesteswetenschappelijk onderzoek
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Digitalisering heeft een dimensie toegevoegd aan de reeds bestaande materialiteit van bronnen Inleiding
Maar de tijden zijn veranderd. Als geesteswetenschappers hebben we
Toen ik aan mijn promotietraject begon, in 1987 aan de University of
sinds tien jaar steeds meer, meer diverse en grotere databestanden
California, San Diego (VS), wilde ik onderzoeken hoe een publiek
tot onze beschikking gekregen: digitalisering heeft een dimensie
debat over een controversieel onderwerp resulteert in consensus.
toegevoegd aan de reeds bestaande materialiteit van bronnen, waar-
Mijn proefschrift resulteerde in een boek over het verloop van het
door we veel grootschaliger onderzoek kunnen doen dat veel meer
publieke debat rondom in vitro fertilisatie (IVF) in de Amerikaanse
verschillende typen bronnen omvat. Dat betekent niet alleen dat we
nieuwsmedia tussen 1978 en 1985 (van Dijck, 1995). Door het enorme
onze onderzoeksvragen kunnen bijstellen, maar ook dat we nieuwe
aanbod van kranten en tijdschriften was het ondoenlijk alle informatie
instrumenten moeten ontwikkelen om die vragen te beantwoorden.
uit dit debat te achterhalen, dus selectie was noodzakelijk. Gelukkig
Het omgekeerde is ook waar: nieuwe instrumenten maken vragen
stuitte ik op een (privé-)archief van een stichting die heel systematisch
mogelijk die we voorheen door fysieke beperkingen niet konden
(zij het niet uitputtend) knipsels over dit onderwerp had gedocumen-
stellen. Overigens is dat geen nieuw fenomeen in de wetenschap.
teerd. Audiovisuele bronnen waren bijna onmogelijk te verzamelen en
Zonder de Hubble-telescoop hadden astronomen bepaalde vragen
als ik ze al had gehad, ontbrak me de tijd om ze allemaal door te
over de sterren nooit kunnen bedenken; zonder de deeltjesversneller
ploegen. Mijn corpus was dus beperkt en in die beperking moest ik
geen Higgs-deeltje; en zonder DNA-sequencers was de zoektocht
mij de meester tonen. De interpretatieve benadering waarvoor ik
naar het menselijk genoom waarschijnlijk vruchteloos gebleken.
koos, bleek een uitstekende oefening in het analyseren van een
2
publiek debat. De belangrijkste les uit die proeve van bekwaamheid,
Nieuwe vragen, nieuwe instrumenten
nu zo’n vijfentwintig jaar geleden: beschikbare data bepalen de aard
Geesteswetenschappers onderzoeken sinds jaar en dag de menselijke
van de onderzoeksvraag alsook het instrumentarium waarmee je de
cultuur. Ze stellen fundamentele vragen als: waarom zijn sommige
bronnen kunt bevragen.
regio’s in de wereld al zo lang rijk en andere arm? Hoe komt het dat
3
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
in publieke debatten hardnekkige beeldvorming over bepaalde
puzzelstukje om dat zo goed mogelijk te interpreteren en analyseren.
minderheden blijft bestaan? Hoe verandert taal onder invloed van
Bijvoorbeeld het werk van één schilder, de romans van één schrijver,
migratie? Die vragen worden al decennia lang gesteld en beantwoord
de cijfers uit gemeentearchieven in één historische periode of het
door historici, media-wetenschappers, taalkundigen en vele andere
taalgebruik van één sociale groep. In mijn eigen proefschrift deed ik
onderzoekers. Wetenschappers uit de humaniora zijn heel goed in het
precies dat: het onderzoek toespitsen op één soort bron (geschreven
interpreteren van inhoud, en dan vooral van afzonderlijke data ieder
mediateksten) uit één beperkte periode. Immers, de beschikbare data
op hun eigen terrein. Historici werken met gegevens uit archieven
en mijn beperkte tijd noopten tot een keuze voor de kwalitatieve
en met gestructureerde data, afkomstig uit bijvoorbeeld gemeente-
benadering van het publieke debat, omdat een grootschalig bronnen-
archieven of instellingen als het Centraal Bureau voor de Statistiek.
onderzoek simpelweg niet tot de mogelijkheden behoorde.
Taalkundigen putten uit grote tekstuele en mondelinge databestanden. Media-experts gebruiken tekstueel en audiovisueel materiaal van
Het interessante van digitale zoekmachines is dat ze complexe vragen
kranten, tijdschriften, radio, televisie en steeds vaker internetbronnen
stimuleren. Aan mijn eigen beperkte vraag over IVF en de Amerikaanse
en sociale media.
nieuwsmedia tussen 1978 en 1985 lag een veel grotere nieuwsgierigheid ten grondslag, namelijk: hoe leiden publieke debatten over
4
Alfa-wetenschappers, zou je kunnen zeggen, bestuderen ieder op
controversiële onderwerpen tot consensus of normalisering? Zo’n
eigen wijze bouwstenen van cultuur en patronen van cultuurverandering.
complex vraagstuk vereist een samenhangend inzicht in sociaal-
Die bouwstenen waarmee ze van oudsher werken (tekst, beeld,
historische ontwikkelingen, beeldvorming, verschuivende normen,
geluid en historische data) waren (en zijn) talrijk en versnipperd.
waarden en wetten over een langere periode. Niet als afzonderlijke
Daarom leggen veel geesteswetenschappers zich meestal toe op één
fenomenen, maar als complex geheel. Om zo’n vraagstuk aan te
5
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Geesteswetenschappers zijn van oudsher gewend om met bronnen te werken die men op waarde kan schatten en interpreteren
pakken, kan ik me nauwelijks beperken tot mijn eigen vakgebied; ik zou
Digital Humanities en de digital turn
de omvang en diversiteit van bronnen moeten uitbreiden, waardoor ik
De komende jaren staan onderzoekers en erfgoedinstellingen
het werk niet meer in mijn eentje kan doen. Geesteswetenschappers
(archieven, bibliotheken, beeld en geluid, kenniscentra) voor een
zijn van oudsher gewend om met bronnen te werken die men op
gezamenlijke uitdaging. De omvang van gedigitaliseerde bestanden is
waarde kan schatten en interpreteren. We hebben nog weinig traditie
exponentieel toegenomen. Er zijn ook nieuwe zogenaamde born digital
in het samenwerken met interdisciplinaire teams waarin een grotere
bronnen bijgekomen, zoals blogs, internetpagina’s en sociale media
diversiteit aan bronnen en methoden op tafel komen.
- allemaal cultuuruitingen die we niet kunnen negeren als we cultuur of cultuurverandering serieus willen bestuderen. De hoeveelheid ‘data’ of digital content is zodanig toegenomen dat we over Big Data zijn gaan spreken - hoe problematisch deze term ook is.1 Om deze rijkdom aan materiaal te ontginnen, moeten er nieuwe instrumenten ontwikkeld worden: instrumenten om de data te bevragen op betekenisvolle inhoud. Daarmee veranderen niet alleen de objecten van onderzoek, maar ook de werkwijzen van geesteswetenschappers. De laatste jaren spreken we over Digital Humanities (DH) als we het hebben over de digitalisering van bronnen en de aanpassing van onze onderzoeksmethoden op deze ontwikkelingen. De term DH omvat veel disciplines,
1 De term ‘Big Data’ is voor sommige geesteswetenschap pelijke onderzoeken een problematische term; met name als het om historisch onderzoek gaat, zijn die data lang niet altijd ‘big’, behalve bijvoorbeeld als het gaat om het doorzoeken van grote hoeveelheden krantenpagina’s.
is zowel breed als specialistisch en heeft zowel euforie als weerstand opgeroepen. Bij een paar kanttekeningen wil ik graag stil staan.
6
7
B I G D ATA G R A N D C H A L L E N G E S
2 Kaptein, Marx & Kamps (2009) laten bijvoorbeeld zien hoe je argumentatiestructuren in verhandelingen van de Tweede Kamer digitaal kunt reconstrueren, om zo niet alleen de inhoud, maar ook de posities van een debat bloot te leggen (wie zei wat tegen wie?).
KETELAAR-LEZING 2014
Nu steeds meer en steeds grotere informatiebestanden op geautoma-
nodig. En eigenlijk ook de hulp van collega’s: niet alleen collega’s
tiseerde wijze kunnen worden doorzocht, wordt het mogelijk vragen te
binnen de humaniora die alles van tekst-, beeld- en andere data
stellen die betrekking hebben op langere perioden en meer soorten
afweten, maar ook van informatici om de bronnen te kunnen
bronnen. Meer data betekent niet vanzelfsprekend meer kennis of
doorzoeken en bevragen; en van sociale wetenschappers voor het
betere inzichten. Eigenlijk betekent het vooral: meer interpretatie en
gebruik van analysemethoden, zoals discours- en netwerkanalyse. De
de mogelijkheid om verschillende methoden te verbinden. We willen
puzzelstukjes op het gebied van taal, afbeeldingen, bewegend beeld,
nieuwe zinvolle vragen kunnen stellen en mogelijke antwoorden
geluid en historische gegevens moeten in elkaar kunnen worden
onderbouwen met een scala aan bronnen. Om op mijn eerdere voor-
geschoven en dus moeten experts van elkaar leren hoe ze deze
beeld terug te komen: als ik hetzelfde onderzoek naar de publieke
databestanden voor hun onderzoek kunnen ontginnen.
opinie rond IVF nu in Nederland zou uitvoeren, zou ik een veel rijker palet aan data tot mijn beschikking hebben: gedigitaliseerde kranten
Clariah
en tijdschriften in de Koninklijke Bibliotheek; audiovisuele bestanden
In de afgelopen drie jaar is er al een aantal belangwekkende instru-
bij Beeld en Geluid, maar bijvoorbeeld ook de Handelingen van de
menten ontwikkeld in de verschillende takken van de geestesweten-
Tweede Kamer, waar wetsbesluiten zijn genomen rond reproductieve
schappen; vorig jaar hebben enkele onderzoekers uit de humaniora
technieken - besluiten die een politiek karakter hadden en dus voor
het plan opgevat een gezamenlijke infrastructuur te ontwikkelen.
veel debat zorgden. 2
CLARIAH (Common Lab Research Infrastructure for the Arts and
Humanities) is een gezamenlijk project van een kernteam van
8
Om al die databestanden te ontginnen en de interpretaties van deze
wetenschappers, gesteund door een consortium van veertig kennis-
bronnen in samenhang te zien, heb ik echter nieuwe instrumenten
en erfgoedinstellingen, publieke organisaties en bedrijven dat
9
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Drie deelgebieden vervullen een voortrekkersrol in Clariah: taalkunde, mediastudies en sociaaleconomische geschiedenis
10
recentelijk door NWO beloond is met een subsidie van twaalf miljoen
aan de grote wetenschappelijke vragen, niet alleen binnen, maar ook
euro. Met dit geld voor een gezamenlijke infrastructuur kunnen
buiten de humaniora. Dit project levert namelijk ook bouwstenen die
geesteswetenschappers niet alleen digitale instrumenten ontwikkelen
complementair zijn aan het werk van bèta’s en gamma’s op het
om grote databestanden te ontginnen; door deze instrumenten met
terrein van data-ontginning. Waar informatici heel goed zijn in het
elkaar te laten ‘praten’, leren geesteswetenschappers ook samen-
ontwerpen van zoekalgoritmes, en sociale wetenschappers alles
werken om die complexe vragen te beantwoorden. Drie deelgebieden
willen weten over het gedrag van gebruikers, is de kracht van alfa’s
vervullen een voortrekkersrol in CLARIAH: taalkunde, mediastudies
het interpreteren van menselijke boodschappen in digitale content.
en sociaaleconomische geschiedenis. Taalkundigen richten zich met
Big Data in de geesteswetenschappen zijn vooral rich data: ze zitten
name op het ontginnen van digitale tekstbestanden. Mediastudies
vol ruis, net als cultuur vol ruis zit. Cijfers over armoede zijn geen
experts ontwikkelen vooral tools voor het interpreteren van audio-
feiten, maar vragen om duiding. Meningen in een publiek debat zijn
visuele bronnen. En sociaaleconomische historici concentreren zich
talrijk maar ook diffuus - ze hebben een verschillend soortelijk gewicht.
op gestructureerde databestanden uit archieven. Het is echter
En beelden of teksten kunnen ironisch zijn of ambigu. Wie cultuur
nadrukkelijk de bedoeling dat de te ontwikkelen tools bruikbaar zijn
bestudeert, weet dat inhoud interpretatie behoeft en dat boodschap-
voor alle onderzoekers die met verschillende typen digitale data
pen pas in hun samenhang betekenis krijgen. Die complexiteit van
werken. Zo gebruiken taalkundigen audiovisuele bronnen voor onder-
content begrijpen - dat is de bijdrage van geesteswetenschappers aan
zoeken naar spreektaalgebruik of -verandering. En als ik publieke
het onderzoek naar grote hoeveelheden digitale data. CLARIAH
debatten onderzoek, heb ik te maken met zowel tekstuele, audio-
betekent dan ook een nog intensievere samenwerking tussen alfa,
visuele als gestructureerde data.
gamma en bèta waar het gaat om het begrijpen van culturele
CLARIAH is een infrastructuur die beoogt iets essentieels bij te dragen
complexiteit.
11
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Uitdagingen en kritische kanttekeningen Een project als CLARIAH biedt geesteswetenschappers grote uitdagingen en werpt tegelijkertijd belangrijke vragen op over de aard, nut en noodzaak van ons onderzoek. Digitale geesteswetenschappen, wat dit ook precies betekent, is géén revolutie en biedt niet vanzelf oplossingen voor een betere wereld of zelfs maar voor betere wetenschap. Elke tijd ontwikkelt de instrumenten die voor het begrijpen van
1.
Kwantificering en de digital turn
de wereld op dat moment nodig zijn. Daarom wil ik nader ingaan op
Uitdaging één betreft de kwantificering en automatisering van gees-
een viertal belangrijke uitdagingen die tegelijk ook kritische vragen
teswetenschappelijk onderzoek. Een groot voordeel van digitalisering
oproepen:
is dat er bergen informatie beschikbaar en doorzoekbaar zijn geworden; een nadeel is dat al dit bronnenmateriaal vraagt om
de digital turn en de push van geautomatiseerd, kwantitatief
nieuwe en aanvullende onderzoeksmethoden. Omdat er zoveel meer
onderzoek;
gegevens beschikbaar zijn, kunnen we patronen zoeken over langere
de noodzakelijke combinatie van kwalitatieve en kwantitatieve
periodes, uit meer soorten bronnen. Zo kunnen we uit grote tekst-
methoden;
bestanden bepaalde stilistische patronen destilleren of kenmerken
3.
het dilemma van de multidisciplinaire samenwerking;
van auteurschap vaststellen. Uit gestructureerde data van bijvoor-
4.
de ideologische vraag waarom de humaniora zich moeten
beeld schilders, kopers en handelaren in het 17e-eeuwse Amsterdam
bezighouden met computers en digitalisering en niet
kunnen we netwerken reconstrueren om zo te achterhalen hoe deze
uitsluitend met archieven, boeken en de inhoud daarvan.
‘creatieve industrie’ functioneerde en van invloed was op de culturele
1.
2.
12
13
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Een zoekmachine als TROVe maakt in één oogopslag duidelijk wie de belangrijkste spelers zijn in een debat
productie. Of we kunnen laten zien hoe beeldvorming over minder-
met een zoekmachine als TROVe in één oogopslag duidelijk wie de
heden in verschillende decennia verlopen is. Op dit laatste voorbeeld
belangrijkste spelers zijn in zo’n debat, en kunnen we dus nu inhoud
ga ik wat nader in.
en context direct aan elkaar verbinden.
Een aantal collega’s heeft reeds instrumenten ontwikkeld om dit
3 Zowel TROVe als AVResearchXL zijn nog in de pilot-fase. Deze tools zijn niet alleen behulpzaam voor wetenschappers, maar ook voor journalisten en andere onderzoekers van publieke debatten of beeldvorming. Zie bijvoorbeeld de recente workshop voor journalisten, die AV Research XL gebruikten voor o.a. een analyse van het islamdebat: www.clariah.nl/blo gs/221-onderzoeks tool-av-researcher-xl
14
laatste soort onderzoek te doen. Jasmijn van Gorp en Pieter Vijn
Voor het doorzoekbaar maken van grote hoeveelheden (audiovisuele
hebben in verschillende pilots gedemonstreerd hoe je de archieven
en tekstuele) data bestaan dus al enkele instrumenten, maar we
van Beeld en Geluid kunt doorzoeken op specifieke debat-thema’s.
staan nog maar aan het begin: er moet nog veel (op maat) ontwikkeld
Met behulp van TROVe analyseren zij de verspreiding van contemporain
worden. Die nieuwe methoden van onderzoek zijn vaak kwantitatief of
nieuws over verschillende media (tv, radio online kranten, blogs en
computationeel. Critici van de Digital Humanities merken op dat de
Twitter) terwijl AV Researcher XL digitale inhoudsanalyse mogelijk
digitalisering en kwantificering van bronnen en methoden het onder-
maakt door tv-ondertitels en kranten te doorzoeken.
3
zoek van geesteswetenschappers juist kan belemmeren: de modelmatigheid waarmee digitale bronnen doorzocht moeten worden,
Beide instrumenten werden door Jasmijn van Gorp ingezet om
bepaalt immers het soort vragen dat men kan stellen. Zo merken de
onderzoek te doen naar het verloop van Oost-Europese migratie,
historici Piersma en Hiddens (2013) op dat bevraging van grote
meer specifiek de beeldvorming van Polen en Roemen in het debat
hoeveelheden digitale bronnen (te) veel gericht is op het toetsbaar of
over arbeidsmigratie. Met deze tools wordt de analyse van dat debat
automatiseerbaar maken van hypothesen. Die kritiek is misschien
in de eerste plaats veel completer, en daardoor minder afhankelijk
deels terecht, maar niet helemaal: er zijn immers ook computationele
van een willekeurige steekproef zoals ik die zelf in de jaren ’90
tools die vooral gericht zijn op kwalitatieve analyse. 4 Sommige gees-
noodgedwongen was te doen. Bovendien, en dit is echt nieuw, wordt
teswetenschappers vrezen dat kwantitatieve of geautomatiseerde
4 Zie bijvoorbeeld het onderzoek van Paul Dijstelberge’s visualisatie van anatomische tekeningen uit diverse boeken, in zijn NWO KIEM project Metabotnik, wat vooral exploratief en dus heuristisch interessant is. Hij gebruikt visualisatietools die duizend afbeeldingen op een pagina laten zien, zodat je deze tekeningen door de eeuwen heen kunt vergelijken en exploreren. Maar er zijn ook voorbeelden voor de inzet van dit soort tools voor stijlanalyse, zoals Paul Dijstelberge’s onderzoek naar de ontwikkeling van sierinitialen in Europese boeken.
15
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
methoden van de Digital Humanities andere (kwalitatieve) benaderin-
met kwalitatieve methoden geduid worden, zoals tekstanalyse, close
gen in de geesteswetenschappen verdringen, maar - en dat brengt
reading of beeldanalyse. Zeker in de exploratieve fase van een
me tot mijn tweede punt - dat creëert een schijntegenstelling.
onderzoek kan het handig zijn om bijvoorbeeld een representatieve steekproef te maken van het materiaal en deze af te zetten tegen alle beschikbare data en de resultaten ervan te visualiseren. Vragen en instrumenten zijn nooit kant en klaar, ze worden altijd ontwikkeld in relatie tot elkaar. En, zoals altijd al het geval was, is ook kwalitatieve interpretatie onontbeerlijk bij het gebruik van digitale methoden. In de eerste plaats gebeurt dat door scherpe bronnenkritiek toe te passen op zowel de tools als de onderliggende data, en op de vooronderstellingen die aan beide ten grondslag liggen. Databestanden spreken niet voor zichzelf, het zijn geen afspiegelingen of thermometers van de samenleving. Zoals elke archivaris weet, is kennis over de herkomst van elke verzameling essentieel voor het wegen en
2.
16
De noodzakelijke combinatie van kwantitatieve en kwalitatieve methoden
begrijpen van de content - helemaal als die data born digital zijn. 5 Woorden tellen zonder het verschil te weten in soortelijk gewicht
Computationele methoden worden in de Digital Humanities heel vaak
tussen een opinieartikel uit 1972 en een advertorial uit 2008 - ik noem
gecombineerd met kwalitatieve methoden, vooral in de verschillende
maar wat - diskwalificeert je als onderzoeker. Het kunnen herkennen
fasen van een onderzoek. Kwantitatief verkregen resultaten kunnen
van de ambiguïteit van een begrip als ‘verzuiling’ in verschillende
5 Kwalitatieve onderzoeksmethoden en kritische analyse zijn nog belangrijker bij grote bestanden afkomstig van sociale media of blogs. Behalve kennis over de herkomst en context van deze data moet je ook oog hebben voor de technische eigenschappen van deze content: zo moet je iets weten over de achterliggende mechanismen (algoritmes, gebruikersinterface) van bijv. Twitter of Facebook om te begrijpen hoe opinies via deze platformen gemasseerd en gekanaliseerd worden. Twitter is geen thermometer van publieke debatten in de samenleving, zoals sommigen beweren; de Twitterstroom staat in constante dialoog met massa-media digitaal, papier en audio-visueel. Deze ‘techniciteit’ van de inhoud vereist evenveel interpretatie als de uitingen zelf (Niederer & Van Dijck, 2011).
17
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
In het tijdperk van Big Data is interpretatie misschien wel belangrijker dan ooit decennia van de vorige eeuw is even belangrijk als het herkennen van
zitten in de afstemming tussen instrument, methoden en interpretatie
vijftig tinten grijs voor schilders of vijftig betekenissen van sneeuw
(Van Dijck, 2005). Of, zoals mijn collega Julia Noordegraaf zo treffend
voor Eskimo’s.
zegt: we hebben zowel de telescoop als de microscoop nodig om door te dringen tot essentiële vragen over de menselijke cultuur.
In het tijdperk van de Big Data is interpretatie misschien wel belang-
Die verbinding van kwantitatieve en kwalitatieve instrumenten vormt
rijker dan ooit. De instrumenten waarmee je je dataset vergaart en
een nieuwe uitdaging voor de geesteswetenschappen. De digitalisering
gebruiksklaar maakt, zijn allesbehalve waardevrij; je moet weten wat
van een rijke schakering aan bronnen betekent absoluut niet dat we
er vooraf gaat aan bronselectie en -ontsluiting. Nieuwe bronnen en
alle methoden homogeniseren of gelijk trekken (Svensson, 2012). We
instrumenten scheppen nieuwe mogelijkheden en beperkingen;
blijven tekstinterpretatie en netwerkanalyse naast TROVe of CLIO Infra
sterktes en zwaktes van oude én nieuwe instrumenten moeten dan
gebruiken. Samen leveren die geesteswetenschappelijke diagnostieken
ook beter op elkaar afgestemd worden. Misschien helpt hier een
een spectrum aan instrumenten op. Dat is nodig om de steeds complex-
vergelijking met de medische wetenschap. De uitvinding van de MRI-
ere multimediale cultuur en cultuurveranderingen te onderzoeken.
scanner maakte de binnenkant van het menselijk lichaam op een
Maar het gebruik van elk van die instrumenten roept ook kritische
driedimensionale wijze toegankelijk voor het oog van de arts. Dat
vragen op: waarom gebruiken we welk instrument in welke gevallen?
betekende geenszins dat de röntgenfoto, de CT-scanner of echoscopie
En wat draagt dit bij aan het beantwoorden van grotere vragen?
daarmee overbodig werden; alle apparaten maakten verschillende
18
diagnostieken mogelijk. Het betekende al helemaal niet dat inter-
3.
Multidisciplinaire samenwerking
pretatie van die scans automatisch ging: integendeel, er gingen jaren
Dit brengt me tot het derde punt van mijn betoog: de samenwerking
van interpretatie, vergelijking en aanpassing van de instrumenten
tussen verschillende disciplines binnen en buiten de geestesweten-
19
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
schappen. Over de samenwerking tussen geesteswetenschappers heb
[C]omputation and the humanities cannot be thought as two
ik hierboven al een en ander gezegd in het kader van CLARIAH. Maar
separate entities whose relations can be defined once and
laat ik me hier vooral richten op multidisciplinaire samenwerking
for all. … In fact, the ability to question inherited conceptual
buiten de humaniora, en dan bij uitstek die met de informatici. Er
frameworks regarding technology might be one of the digital
heerst een soort onbestemde angst onder geesteswetenschappers
humanities’ strengths, which is pivotal to the production of
dat de humaniora (ook) zullen worden overgenomen door de bèta’s
new knowledge. (Frabetti, 2012, p. 2).
als we eenmaal de weg van de Digital Humanities inslaan. Het
20
computationele denken - het denken in code, programmeertalen en
Wat Frabetti hier zegt, is fundamenteel voor het conceptualiseren van
algoritmisch redeneren - zou immers onverenigbaar zijn met het
de samenwerking tussen geesteswetenschappers en informatici: het
kritisch-analytische denken, en het laatste dreigt overheerst te worden
gaat niet om een versmelting van elkaars methoden of vraagstel-
door het eerste. Hoewel ik dacht dat we de ‘two cultures divide’ sinds
lingen, maar om een articulatie van gezamenlijke nieuwsgierigheid.
1959 wel zo’n beetje uitgevochten hadden, zie je C.P. Snow’s fantomen
Die nieuwsgierigheid wordt gedreven door interesse in elkaars
elk decennium wel weer een keer het podium opdraven. In de context
expertise en elkaars wijze van de wereld bevragen. In de loop der
van het Digital Humanities debat bezweren critici zoals Stanley Fish
jaren heb ik interessante discussies meegemaakt tussen informatici
(2012) de informatica-demonen door ze ‘naar hun hok’ terug te
en geesteswetenschappers, bijvoorbeeld door samen te kijken naar
verwijzen en alfa’s te manen zich te verzetten tegen de digital turn.
data en de patronen die we daaruit destilleerden. Soms leidden die tot
Het is echter onzinnig om al te harde grenzen tussen de twee culturen
heel verschillende inzichten en op zo’n moment dwing je elkaar tot
- de computationele en kritisch-hermeneutische - te trekken. Ik kan
het expliciteren van vooronderstellingen: waarom zie ik wat ik zie en
het niet mooier zeggen dan Federica Frabetti, dus ik citeer:
zie jij wat anders? Zijn die data wel wat ze lijken? Waarom zijn andere
21
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Algoritmische configuraties zijn ‘technologieën om waarheid te construeren’ of meerdere interpretaties mogelijk? En wat kunnen we daaruit
slag aan menselijke communicatie en de opslag daarvan, of dat nu
afleiden? Maar juist door die discussies kregen we weer ideeën voor
gaat om het leren van het schrift of om het catalogiseren of digitalis-
nieuwe of bijgestelde vragen. Eerlijk gezegd heb ik nooit een doof oor
eren van bronnen. Wie echt wil begrijpen wat bronnen zeggen, moet
aangetroffen bij de informatici als wij een kwalitatieve benadering van
iets weten over het ‘apparatus’ waarmee ze tot stand zijn gekomen.
een onderzoekshypothese voorstelden in aanvulling op een kwantita-
De kloof tussen geesteswetenschappers en informatici is niet van
tieve of algoritmische. En omgekeerd: door met informatici samen te
vandaag op morgen beslecht, vrees ik. Geesteswetenschappers
werken, leerde ik waarom interpretatieve vragen aan de basis liggen
(zelfs zij die zich enthousiast hebben geworpen op de digital turn)
van computationeel denken en ook weer leiden tot nieuwe inter-
redeneren nog steeds vaak dat ze ‘voor het technische gedeelte’ van
pretaties. De waarde van speciaal voor jouw onderzoek op maat
hun onderzoek even een programmeur of informaticus moeten
gemaakte zoekinstrumenten kan gouden inzichten opleveren.
inschakelen. Samenwerking betekent niet dat de informatici een soort hulp-Sinterklazen worden van de geesteswetenschappen; dat is net zo
22
Ik kan het niet zo mooi zeggen als Frabetti, maar er bestaat geen
onzinnig als beweren dat de humaniora dreigen te worden geïncorpo-
onafhankelijk geesteswetenschappelijk kader van waaruit we
reerd door de bèta’s. Informatica-onderzoekers willen met geestes-
technologie of informatiewetenschap kunnen bevragen. Ongeveer dit
wetenschappers samenwerken om computers in staat te stellen
standpunt is eloquent beargumenteerd door Peter Paul Verbeek in
‘menselijke’ interpretaties zo dicht mogelijk te benaderen. En dit beeld
zijn boek Op de vleugels van Icarus. Hoe techniek en moraal met
brengt me tot de laatste kritische tegenwerping die ik wil bespreken:
elkaar meebewegen (2014). Algoritmische configuraties zijn, zoals
de vraag waarom de humaniora zich überhaupt moeten bezig houden
Foucault (1980) dat treffend noemt, ‘technologieën om waarheid te
met computers en digitalisering in plaats van zich volledig te wijden
construeren’ (technologies of truth). Technologieën liggen ten grond-
aan archieven, boeken en de inhoud daarvan.
23
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Het onderscheid tussen oude (materiële) en nieuwe (digitale) bronnen is niet alleen theoretisch onzinnig, het is zelfs praktisch schadelijk voor het wetenschappelijke metier. Laat ik bij het theoretische beginnen. De onlosmakelijke verbinding tussen techne en episteme
4.
24
Digitaal erfgoed: oude én nieuwe bronnen
- tussen technologie en kennis - speelde al lang voordat Plato bezwaar
Soms nemen de discussies over Digital Humanities en de digital turn
maakte tegen de opkomst van het schrift als vervanging van het
in de geesteswetenschappen de vorm aan van een polemiek tussen
geheugen. Die vervangingskwestie is daarna nooit meer verdwenen;
exegeten van het Oude versus het Nieuwe Testament. Óf je doet als
van het schrift tot de typemachine en van de drukpers tot de computer:
geesteswetenschapper mee aan de mode van de nieuwe media, óf je
nieuwe inscriptie- en bewaartechnologieën werden steevast gezien
blijft trouw aan materialiteiten als papieren bronnen of boeken, en
als vervanging of bedreiging van de oude. En hoewel typemachines en
waagt je alleen aan beproefde methoden als inhoudsanalyse en
drukpersen inmiddels steeds minder in het dagelijks communicatie-
bronnenonderzoek. Eigenlijk is de hele term Digital Humanities een
verkeer tussen mensen gebruikt worden, is het onzin om te stellen dat
veeg teken: in andere disciplines ben ik dit voorvoegsel nog nooit
collecties van geschriften, foto’s, filmbanden of andere niet-gedigitali-
tegen gekomen. Ooit gehoord van de ‘digitale scheikunde’ of de
seerde bronnen overbodig geworden zijn. De conclusie dat oude media
‘digitale sociale wetenschappen’? Om een of andere reden is het
of collecties afkomstig van ‘oude dragers’ opgedoekt kunnen worden,
digitaliseren van bronnen gepaard gegaan met het installeren van een
omdat de ‘inhouden’ nu in gedigitaliseerde vorm ergens op de wereld
slagboom tussen ‘oude’ en ‘nieuwe’ bronnen en dito onderzoekers.
aanwezig zijn, is net zoiets als zeggen dat we sinds de uitvinding van
Waarop is dit schisma gefundeerd en wat kunnen we daaruit afleiden
de fotografie geen schilderijen meer hoeven te bewaren. Het gaat
voor de toekomst van de humaniora?
immers niet alleen om de materialiteit van de bron, maar om de
25
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Het ene uiterste is om á lles te willen bewaren het andere uiterste is om alle bronnen weg te gooien zodra het gedigitaliseerd is
onverbrekelijke band tussen materialiteit, productie- en distributie-
dient te weten hoe het apparatus keuzes maakt en afweegt - ook al is
technologie en de selectie van bronnen op een bepaald historisch
dit soms heel moeilijk te achterhalen.
moment.
Archivarissen en curators weten dat het schrijven van geschiedenis alleen mogelijk wordt door te selecteren en te sorteren. Als bewakers
De digitalisering van bronnen is niet alleen een technologische
van ons collectief geheugen wegen zij het belang van zowel kwaliteit
kwestie; het gaat over de productie en curatie van inhoud. Toch roept
als kwantiteit van bronnen. Dit recht van selectie, het recht om te
de mogelijkheid om allerlei soorten bronnen om te zetten in digitale
bewaren en om te vergeten, is weliswaar niet voorbehouden aan
bestanden twee tegenovergestelde impulsen op: het ene uiterste is
professionele archivarissen, maar het is ook niet zo dat deze profes-
om voortaan álles (elke gedigitaliseerde of digitaal ontstane uiting) te
sionele activiteiten opeens overbodig worden nu er machines zijn die
willen bewaren; en het andere uiterste is om alle ‘originele’ bronnen
alles kunnen bewaren en doorzoekbaar maken. Aan zoekalgoritmes
weg te gooien zodra ze gedigitaliseerd zijn. Beide extremen zijn
en bewaarmachines liggen evenzeer ideologische vraagstukken van
uitvloeisels van de vervangingstheorie: alsof we met computers alles
selectie en ontsluiting ten grondslag. En die vraagstukken zijn uiterst
kunnen vastleggen waardoor al het niet-digitale overbodig wordt. Wie
actueel nu bibliotheken en archieven met enige regelmaat voor de
alles denkt te kunnen bewaren, heeft nooit iets geleerd van de
keuze gesteld worden om bronnen te digitaliseren en/of ‘oude’
geschiedenis. Geautomatiseerde zoek- en bewaarmachines, zoals
collecties op te doeken wegens plaats- of geldgebrek.
Google Search en Scholar, zijn per definitie selectief; de software en
26
hardware waarmee opslag en ontsluiting plaats vindt, is gebaseerd
Het is van groot belang dat archivarissen en erfgoedbeheerders,
op selectie- en rankingmechanismen (Rieder & Sire, 2013; Van Dijck,
samen met geesteswetenschappers en informatici, fundamentele
2010). Elke wetenschapper die gedigitaliseerde bronnen gebruikt,
vragen over het curator-schap van erfgoedbronnen blijven stellen.
27
B I G D ATA G R A N D C H A L L E N G E S
28
KETELAAR-LEZING 2014
Of het nu gaat over de digitalisering en selectie van bronnen door
het bevragen van de luttele bronnen die ik toen tot mijn beschikking
Google’s zoekmachines, over de publieke toegankelijkheid en beschik-
had, hoe waardevol ze op dat moment voor dat doel ook waren.
baarheid van informatie, of over de instrumenten waarmee we data
De condition technologique van deze tijd geeft mij als onderzoeker
doorzoeken en bevragen. De materialiteit van die cultuur zal voort-
toegang tot veel meer divers bronnenmateriaal, waardoor ik mijn
durend blijven veranderen en daarom beweegt de professie mee.
zoekvraag kan uitbreiden, verscherpen en verbreden.
Big data, grand challenges
Dat betekent niet dat ik me als onderzoeker ‘overgeef’ aan een nieuw
Wie denkt dat de Digital Humanities alleen gaan over het doorzoeken
methodologisch paradigma en daarmee al het oude achter me laat.
en doorzoekbaar maken van grote digitale databestanden, die ziet iets
Integendeel, meer dan ooit voel ik me uitgedaagd die bronnen en
essentieels over het hoofd. Digitale geesteswetenschappen vragen
methoden te onderwerpen aan kritische interpretatie en kwalitatieve
om een radicaal engagement met deze nieuwe materialiteit alsook
analyse. Dat niet alleen: door te experimenteren met digitale methoden,
de bereidheid ermee te experimenteren. Juist die experimenten met
door het leren kennen van, en leren werken met, digitale bronnen en
grotere onderzoeksvragen over cultuur en cultuurverandering, toe-
door me te verdiepen in de ‘geheimen’ van het algoritmisch en
gepast op grotere databestanden, leiden hopelijk tot inzicht in, en
computationeel denken, kan ik beter begrijpen welke dilemma’s de
kritische reflectie op, de bronnen die we in het dagelijks leven gebruik-
gedigitaliseerde samenleving oproept. Door te experimenteren met
ten en gebruiken. Om terug te komen op mijn eerdere voorbeeld:
digitale methoden krijg je als geesteswetenschapper meer ammunitie
als ik vandaag mijn promotieonderzoek naar het publieke debat over
in debatten die gaan over de rol van Big Data in onze (toekomstige)
IVF en reproductieve technieken opnieuw zou doen, zou mijn
samenleving of over de noodzaak van publieke toegankelijkheid van
wetenschappelijke nieuwsgierigheid niet meer bevredigd worden met
data.
29
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Geesteswetenschappers kunnen zich niet permitteren zich niet met ‘digitaliteit’ bezig te houden Ik zou graag willen besluiten met de stelling dat de geesteswetenschappen zich niet kunnen permitteren zich niet met ‘digitaliteit’ bezig te houden. Of laat ik het nog stelliger maken: de samenleving heeft de expertise van geesteswetenschappers – hun kritische inzichten, analytische scherpte en kennis van ambiguïteit en diversiteit – hard nodig om betekenis te geven aan een digitale cultuur die steeds meer ons dagelijks leven bepaalt. Als wetenschappelijke hoeders van kunst, cultuur, taal, erfgoed en gedachtengoed zullen we ons op velerlei manieren moeten engageren met de verwevenheid van digitale technologie in allerlei culturele praktijken.
30
31
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Literatuur
32
Fish, Stanley (2012), ‘The Digital Humanities and the Transcending
Piersma, H. & K. Ribbens (2013), ‘Digital Historical Research.
of Mortality’. The New York Times, September 1, 2012
Context, Concepts and the Need for Reflection’.
Foucault, Michel (1980), ‘Truth and power’ (Original 'Intervista a
BMGN Low Countries Historical Review 128 (4 ), 78-102
Michel Foucault'), in: G. Gordon, (Ed.) Michel Foucault,
Rieder, Bernhard & Guillaume Sire (2014), ‘Conflicts of interest
Power/knowledge: selected interviews and other writings 1972-1977.
and incentives to bias: A microeconomic critique of Google’s tangled
New York, Pantheon Books
position on the Web’. New Media & Society 16 (2): 195-211
Frabetti, F. (2011) ‘Rethinking the Digital Humanities in the Context
Svensson, P. (2012), ‘Envisioning the Digital Humanities’,
of Originary Technicity’, Culture Machine 12 (2011) 1-22
Digital Humanities Quarterly 1:1
Kaptein, Rianne, Maarten Marx & Jaap Kamps (2009), ‘Who said
Van Dijck, José (1995), Manufacturing Babies and Public Consent.
what to whom? Capturing the structure of debates’, in: James Allan,
Debating the New Reproductive Technologies.
Javed A. Aslam, Mark Sanderson, ChengXiang Zhai, and Justin Zobel
New York: New York University Press
(eds), Proceedings of the 32nd Annual International ACM SIGIR
Van Dijck, José (2005), The Transparent Body. A Cultural Analysis
Conference on Research and Development in Information Retrieval.
of Medical Imaging. Seattle: University of Washington Press
New York: ACM Press, 831-832
Van Dijck, José (2010), ‘Search engines and the production of
Niederer, Sabine & José van Dijck (2010), ‘Wisdom of the Crowd
academic knowledge’. International Journal of Cultural Studies
or Technicity of Content? Wikipedia as a Socio-Technical System’.
13 (6): 574-592
New Media & Society, 12 (8): 1368-1387
Verbeek, Peter Paul (2014), Op de vleugels van Icarus.
Noordegraaf, J. (2014), De digitale erfenis – enter en return.
Hoe techniek en moraal met elkaar meebewegen.
Inaugurele rede, University of Amsterdam, 7 February 2014.
Rotterdam: Lemniscaat
Amsterdam: Amsterdam University Press, 2014. Zie: www.oratiereeks.nl
Websites: CLARIAH • TROVe • Clio Infra • AV researcher XL
33
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Biografie Prof. dr. José van Dijck
De Ketelaar-lezingen
José van Dijck is hoogleraar Vergelijkende Mediastudies aan de
De Ketelaar-lezing is in 2002 ingesteld door het Nationaal Archief bij
Universiteit van Amsterdam. Ze studeerde aan de Universiteit Utrecht
het afscheid van prof. dr. F.C.J. Ketelaar (algemene rijksarchivaris van
en promoveerde aan de Universiteit van Californië, San Diego. Ze was
1989 tot 1997).
universitair docent Journalistiek aan de Rijksuniversiteit Groningen en
De lezing wordt jaarlijks in samenwerking met de Koninklijke Vereniging
hoofddocent Media en Visuele Cultuur aan de Universiteit Maastricht.
van Archivarissen in Nederland georganiseerd, waarbij telkens op een
In 2001 werd Van Dijck benoemd tot hoogleraar bij het departement
bijzondere wijze een relatie wordt gelegd met archieven.
Mediastudies aan de Universiteit van Amsterdam, waar ze voorzitter was van 2002 tot 2007. Ze was decaan van de Faculteit der Geesteswetenschappen van de Universiteit van Amsterdam van 2008 tot 2011. Van Dijck was daarnaast gasthoogleraar en -docent aan verschillende universiteiten in de Verenigde Staten, Canada en Australië, zoals het prestigieuze Massachusetts Institute of Technology (MIT) in Cambridge (USA), de University of Technology, Sydney (UTS) en de Annenberg School of Communication van de University of Pennsylvania (Philadelphia). Van Dijck doet onderzoek naar sociale media, mediatechnologieën en digitale cultuur. Haar nieuwste boek The Culture
of Connectivity. A Critical History of Social Media verscheen in 2013 bij Oxford University Press. In dit boek geeft zij een historische en kritische analyse van de opkomst van sociale media.
34
35
B I G D ATA G R A N D C H A L L E N G E S
KETELAAR-LEZING 2014
Eerder verschenen
36
1. Gerard Rooijakkers
7. Martin Berendse
Rituele depots. De droesem van het leven
Archives as Open Sources. The right to information,
(2003) ISBN 90-74920-16-0
open government and digital access
2. Peter Burke
(Engelse uitgave, 2009) ISBN 978-90-74920-27-8
Palimpsests. Reflections on the Re-employment of Records
8. Willibrord Davids
(2004) ISBN 90-74920-18-7
Gerubriceerd staatsgeheim: zeer geheim, geheim, confidentieel,
3. Paul Scheffer
vertrouwelijk
Het verleden vergt onderhoud
(2010) ISBN 978-90-74920-28-5
(2005) ISBN 13: 978-90-74920-19-3
9. Ann Laura Stoler
4. Susan Legêne
On Archival Labor. Recrafting Colonial History
‘Laten we dus de herinnering herstellen’. Autoriteit en collectieve
(2011) ISBN 978-90-74920-044-6
constructies van het eigene
10. Beatrice de Graaf
(2006) ISBN 978-90-74920-20-9
Het archief als tijdbom. Gevaar en geheimhouding in de
5. Auke van der Woud
staatsarchieven
De blanke top der duinen. Mooi Nederland en zijn historie
(2012) ISBN 978-90-5909-046-0
(2007) ISBN 978-90-74920-22-3
11. Henk te Velde
6. Richard Thomas
Over het begrijpen van 1813
Freedom of Information
Tweehonderd jaar later
(2008) ISBN 978-90-74920-24-7
(2013) ISBN 978-90-5909-049-1
7. Martin Berendse
12. José van Dijck
Het archief als open source. Over het recht op informatie,
Big Data, Grand Challenges
openbaarheid van bestuur en digitale toegankelijkheid
Over digitalisering en het geesteswetenschappelijk onderzoek
(2009) ISBN 978-90-74920-26-1
(2014) ISBN 978-90-5909-046-0 < < < komt er een ISBN ???
37
B I G D ATA G R A N D C H A L L E N G E S
Colofon
Uitgave: Nationaal Archief, Den Haag www.nationaalarchief.nl Met dank aan: Morrenstichting NOT-fonds Ontwerp: Arno Geels BNO, Den Haag Druk: Alleen digitale versie middels pdf
Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op welke wijze dan ook, hetzij elektronisch, mechanisch, door fotokopieëen, opnamen of op welke andere manier dan ook, zonder voorafgaande schriftelijke toestemming van het Nationaal Archief.
38
Ketelaar-lezing
De Ketelaar-lezing is in 2002 ingesteld door het Nationaal Archief,
Big Data, Grand Challenges Over digitalisering en het geesteswetenschappelijk onderzoek José van Dijck
bij het vertrek van prof. dr. Eric Ketelaar uit de Rijksarchiefdienst. Als Algemene Rijksarchivaris in de jaren 1989-1997 en in diverse andere functies heeft Ketelaar zich ingezet voor de modernisering, professionalisering en versterking van het Nederlandse archiefwezen. De lezing beoogt bekendheid te geven aan onderwerpen uit de sfeer van archieven in relatie met de maatschappij en de dialoog tussen archiefwezen en maatschappij te stimuleren. De twaalfde Ketelaar-lezing is gehouden op 10 december 2014 in het Nationaal Archief te Den Haag, door prof. dr. José van Dijck, met de titel ‘Big Data, Grand Challenges. Over digitalisering in het geesteswetenschappelijk onderzoek’.
KETELAAR-SERIE
KETELAAR-LEZING 12
2014