ewoud sanders
ei g e n d i gi
51 miljoen woorden én een handleiding
ta
bl i bi
i n z ev e n s t ap
en
n ee
le
p
ewoud sanders
-l
ez in g
otheek
e ag jl bi
bi j
de
bo ek u
itga ve
ert e b van de 18
va
n
lm se
achttiende bert van selm-lezing
de reïncarnatie van het boek
1
De afbeelding op het voorplat is een scan van de externe harde schijf van de auteur. Deze harde schijf bevat een kopie van zijn digitale bibliotheek. De foto op het achterplat toont een door de auteur vervaardigde compositie van omslagen van versneden boeken (foto Vincent Mentzel). Meer over de vormgeving: zie p. 30.
2
De achttiende Bert van Selm-lezing de reïncarnatie van het boek, in zeven stappen een eigen digitale bibliotheek werd op 1 september 2009 te Leiden uitgesproken door Ewoud Sanders. De Bert van Selm-lezing is een jaarlijks terugkerende lezing ter nagedachtenis van de boekhistoricus Bert van Selm († 17 april 1991). De lezing is een initiatief van de Opleiding Nederlandse taal en cultuur van de Universiteit Leiden en wordt gesponsord door de Prof. Mr Herman de la Fontaine Verwey Stichting (Amsterdam), de Dr. P.A. Tiele-Stichting (Den Haag), de Nederlandse Boekhistorische Vereniging (Leiden), Beatrijs van Selm (Rotterdam), Gerard Post van der Molen (Ruurlo) en Drukkerij Mostert en Van Onderen! (Leiden). Wim Crouwel stelde belangeloos zijn ‘New Alphabet’ ter beschikking voor toepassing in deze uitgave. © Ewoud Sanders ISBN: 978-90-78531-10-4
ewoud sanders
de reïncarnatie van het boek in zeven stappen een eigen digitale bibliotheek
3 * achttiende bert van selm-lezing
*
stichting neerlandistiek leiden leiden
2009
4
compositie van losgesneden rugtitels (foto Vincent Mentzel)
onlangs sprak ik een anna blaman-specialist. Het gesprek ging hoofdzakelijk over digitalisering, maar het eindigde met een vraag over het werk van Blaman. Het was iemand opgevallen, zo vertelde de specialist, dat er in het werk van Blaman erg veel koffie wordt gedronken. Hij was uitgenodigd om daar een artikeltje over te schrijven. En nu zat hij met een probleem, want ja, hij wist wel dat er in Blamans werk volop koffie wordt geschonken, maar waar ook alweer precies? Ik zou mijzelf zeker geen Blaman-specialist willen noemen. Als jongen van vijftien heb ik mij met de grootst mogelijke moeite door Eenzaam avontuur heen geworsteld, want dat moest van mijn docent Nederlands. Ik heb daar, wellicht volkomen ten onrechte, een levenslange weerzin tegen Blaman aan overgehouden.
5
Toch kan ik de koffievraag tamelijk nauwkeurig beantwoorden. Het woord ‘koffie’ komt in Blamans romans in totaal 169 keer voor, samenstellingen als koffiegeur, koffiepot en koffietafel niet meegeteld. In de roman De verliezers uit 1960 komt het woord koffie het vaakst voor, namelijk 43 keer. Eenzaam avontuur uit 1948 staat met 39 hits op de tweede plaats. Nu is het mogelijk dat Blaman alleen haar romanfiguren bovenmatig veel koffie liet drinken, maar ze kon er zelf ook wat van. Zo schreef zij op 14 januari 1949 in een brief aan een vriendin:
6
Daarna een vrolijke en boeiende nacht in een nachtkroeg en daarna nog in een vroege-ochtend-kroeg met de uitgever Bert Bakker, met Eddy en Miesje, met Johan Daisne en Jan Schepens. […] Tegen de ochtend knapte ik af (toen dronk ik al uren koffie) en leunde ik als een bezwijmde maagd uit het Victoriaanse tijdperk tegen de schouder van Bert. 1 Nu is koffiegebruik in het werk van Blaman een zeer triviaal onderwerp, maar als je dit bij de kop pakt, doe het dan ook goed. Ik zou u kunnen vertellen hoe de consumptie van koffie in het werk van Blaman zich verhoudt tot die van thee en andere dranken. Ik zou ook tamelijk eenvoudig kunnen vaststellen of er in het werk van Blaman significant méér koffie wordt gedronken dan in romans van andere schrijvers uit haar tijd. En zijn er wat dit betreft verschillen tussen mannelijke en vrouwelijke schrijvers, dan wel tussen hetero- en homoseksuele auteurs?
1. Aad Meinderts, Saskia Petit en Dick Welsink, Den Haag, je tikt er tegen en het zingt. Literair Den Haag vanaf 1750 (Den Haag 1998), p. 7. Met Eddy wordt hier Ed Hoornik bedoeld en met Miesje verwijst Blaman naar Mies Bouhuys.
Ik kan die vragen zo makkelijk beantwoorden omdat ik veel werk van Blaman en van honderden andere schrijvers en schrijfsters heb gedigitaliseerd. Bovendien heb ik die boeken zo ontsloten dat ik ze op woordniveau razendsnel kan doorzoeken. 2 De koffie bij Blaman kan mij eerlijk gezegd gestolen worden, maar achter deze vraag schuilt een andere die ik veel belangrijker vind. Namelijk: hoe kun je jezelf anno 2009 een specialist noemen in het leven en werk van wie dan ook, als je niet over een instrument beschikt om de belangrijkste schriftelijke bronnen die er over zo iemand bestaan — primaire en secundaire bronnen — geavanceerd te doorzoeken? Zijn er momenteel nog onderzoekers die bijvoorbeeld een biografie van een auteur willen schrijven zonder dat ze het werk van deze schrijver, plus alles wat er reeds over hem of haar geschreven is, digitaal op hun pc hebben staan? Ja, die zijn er volop. Niet dat die onderzoekers helemaal geen gebruik maken van digitale bronnen. Alle letterkundigen en boekhistorici die ik ken maken doorlopend gebruik van internet. Van Google, van de digitale krantenarchieven, van Picarta, van de Bibliografie van de Nederlandse Taal- en Literatuurwetenschap (BNTL), van de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL), van Wikipedia — noem maar op. Maar er zijn slechts heel weinig onderzoekers die er actief voor zorgen dat zij de belangrijkste bronnen voor hun eigen vakgebied of specialisme digitaal binnen handbereik hebben. De meesten van hen wachten af. Men lijkt te denken: ik hoef hier zelf niets aan te doen, want uiteindelijk worden die boeken of tijdschriften die ik zo goed zou kunnen
2. Inhoudelijk sluit deze lezing aan bij twee teksten die ik onlangs over dit onderwerp schreef. Het gaat om: ‘We staan pas aan het begin’, in: Martin Bossenbroek en Perry Moree, Karakter. De Koninklijke Bibliotheek onder Wim van Drimmelen (München 2008), pp. 374-385 en ‘Corpuslexicografie ligt binnen ieders handbereik’, in: Egbert Beijk e.a. (red.), Fons Verborum. Feestbundel voor prof. dr. A.M.F.J. (Fons) Moerdijk (Amsterdam 2009), pp. 223-236.
7
8
(nog) niet alle boeken zijn gescand: een paar planken in mijn huidige bibliotheek
gebruiken wel gedigitaliseerd door Google, de DBNL of een andere partij. Ik denk dat het wel degelijk nuttig is om zelf zo’n digitale collectie aan te leggen en ik zal uiteenzetten waarom.
SPREEKWOORDENBOEKEN Van huis uit ben ik historicus, maar ik schrijf vooral over de geschiedenis van woorden en uitdrukkingen. Om dit goed te kunnen doen heb ik de afgelopen 25 jaar een grote bibliotheek aangelegd. De nadruk lag op woordenboeken, encyclopedieën en andere naslagwerken. In totaal besloeg mijn bibliotheek op een gegeven moment zo’n dertig boekenkasten, die van boven tot onder waren gevuld. Het is een voorrecht om zoveel boeken om je heen te hebben, maar in de praktijk maakte ik slechts van een beperkt aantal boeken geregeld gebruik. Zo was ik bijvoorbeeld in het bezit van zo’n tweehonderd spreekwoordenboeken, maar als ik iets over een uitdrukking of zegswijze wilde nakijken, dan greep ik telkens naar dezelfde vier boeken. Waarom die vier? Omdat ik uit ervaring wist dat de kans het grootst was dat ik in die boeken de beste informatie zou vinden. Onderdak bieden aan tweehonderd spreekwoordenboeken maar er slechts vier geregeld gebruiken — het begon me steeds meer tegen te staan, met name omdat ik deze werkwijze zo onwetenschappelijk vond. Bij ieder spreekwoordenonderzoekje wilde ik het liefst ál die boeken raadplegen, ook de boeken zonder register, plus die met addenda, corrigenda, bijvoegsels en nalezingen — boeken die ik bijna per definitie liet staan omdat ze zo ontoegankelijk waren.
9
10
de ‘Ideal 3915-95’, een efficiënt reïncarnatievehikel, omringd door ongesneden en versneden boeken
U begrijpt dat ik de digitale revolutie als een zegen beschouw. Nooit eerder in de geschiedenis hebben onderzoekers zo makkelijk tot zoveel bronnen toegang gehad. Ja, ik weet het, we dreigen soms om te komen in de hoeveelheid materiaal, maar toch heb ik liever te veel dan te weinig en bovendien zijn er manieren om grote hoeveelheden data snel te structureren — waarover straks meer. Die dertig boekenkasten heb ik inmiddels niet meer. Ruim drie jaar geleden ben ik begonnen met de digitalisering van mijn bibliotheek. Ik heb een scanner gekocht, toen nog een, vervolgens nog een derde. Ik heb me verdiept in de soft- en de hardware, ik heb een paar scholieren in dienst genomen en ik heb een zogenoemde stapelsnijder aangeschaft, een papierguillotine waarmee je met één haal de rug van een boek kunt snijden. Ja, het doet pijn om een boek te ontruggen, zeker als je, zoals ik, beweert echt van boeken te houden, maar ik kan u verzekeren dat het went. 3 Het went omdat je merkt dat je boeken op deze manier een tweede leven geeft. Al die tientallen meters met taaltijdschriften waar ik nauwelijks meer in keek — bij ieder onderzoekje dat ik nu doe worden ze systematisch doorzocht. Van die tweehonderd spreekwoordenboeken sla ik er nooit meer eentje over. In feite is mijn bibliotheek nu groter dan ooit tevoren. Vroeger deed ik geregeld boeken weg, omdat het gewoon te gek werd — al die stapels op de grond. Nu komen bij mij bijna wekelijks dozen met boeken binnen — soms honderden boeken tegelijk. Zo heb ik onlangs een partij van zeshonderd streekromans uit de periode 1856-2006 gedigitaliseerd. In totaal gaat het om ruim 177.000 pagina’s — een corpus
3. Er rust een interessant taboe op het versnijden van boeken. Ik heb boekhistorici aan het werk gezien die oude kranten of tijdschriften onherstelbaar beschadigden door ze te raadplegen. Onvrijwillig natuurlijk, het papier brokkelde onder hun handen af, maar zij hadden nu eenmaal de gezochte informatie nodig en dus bladerden zij door, de bron steeds verder beschadigend. Sommige bibliotheken gooien systematisch dubbele exemplaren weg, opgeheven vakgroepen kieperen soms hele bibliotheken in de container, maar zodra je boeken gaat versnijden roept men moord en brand.
11
12
alleen de omslagen van streekromans zijn al een studie waard (compositie Hans Verlaat)
van 71 miljoen woorden — van auteurs als H.J. van Nijnatten-Doffegnies, Annie Oosterbroek-Dutschun en Jos van Manen-Pieters. U zou kunnen onderzoeken hoeveel koffie en thee er in deze streekromans wordt gedronken, maar het lijkt mij interessanter om ze te gebruiken voor een onderzoek naar de veranderingen van normen en waarden in Nederland, naar de opvattingen over liefde en relaties, naar de verstedelijking en het wegvallen van regionale industrieën. En ik kan u verzekeren dat het interessante bronnen zijn voor streekgebonden taalgebruik — de voornaamste reden waarom ik deze romans onder de guillotine heb gelegd. Overigens vind ik het vreemd dat er zo weinig onderzoek is gedaan naar streekromans. Streekromans behoren tot de best gelezen boeken in de Nederlandse geschiedenis, maar er bestaat geen degelijke geschiedenis van dit genre, geen bibliografisch overzicht en over de auteurs van deze werken is vaak weinig bekend. Toch hebben auteurs als Jeannette van Luipen-Bronwasser, H.J. van Nijnatten-Doffegnies, Jos van Manen-Pieters, Annie Oosterbroek-Dutschun, Leni Saris en Toon Kortooms tientallen miljoenen boeken verkocht, meer dan Claus, Mulisch, Hermans, Wolkers en Jan Cremer bij elkaar. 4
13
Maar goed, terug naar de digitale boeken. Ik schreef al dat de meeste letterkundigen en boekhistorici wel degelijk gebruik maken van digitale bronnen. Hoe doen zij dat? Daar heb ik een klein onderzoekje naar gedaan. Een van de bronnen die geen onderzoeker meer overslaat is de DBNL. De DBNL is begin 2000 van start gegaan. Sindsdien heeft deze instelling ruim 3.700 boeken en tijdschriften gedigitaliseerd, samen goed voor circa 1.2 miljoen pagina’s. Maandelijks komen er zo’n 75 titels bij. 4. Alleen van Bartje (1935) van Anne de Vries zijn al 1.1 miljoen exemplaren verkocht. Toon Kortooms verkocht ruim 1.5 miljoen exemplaren van zijn streekroman Beekman en Beekman. Streekromans worden ook intensief uitgeleend. Zo worden de boeken van Gerda van Wageningen ruim een miljoen maal per jaar uitgeleend, aldus het Rotterdams Dagblad van 1 februari 2005. Voor het beste overzicht van de beperkte literatuur over streek- (? p. 14)
14
Ik ken diverse letterkundigen en boekhistorici die intensief gebruik maken van de DBNL. Sommigen beperken zich tot het doorzoeken van deze site. Lang waren de zoekmogelijkheden bij de DBNL buitengewoon gebrekkig, maar gelukkig zijn deze nu sterk verbeterd. Zo kun je bijvoorbeeld kiezen of je in het werk van een man of vrouw wilt zoeken, je kunt een periode aangeven of een geboorteplaats, en je kunt op woordniveau door alle teksten zoeken. Als je eenmaal weet dat Blaman is geboren in Rotterdam, kun je dus zoeken op vrouw + twintigste eeuw + Rotterdam + koffie. Dit levert overigens slechts drie resultaten op, namelijk plaatsen in het werk van Thea Beckman, van Annie Romein en in een boekje over de kinderliteratuur van Annie M.G. Schmidt. Van deze schrijfsters is overigens alleen Beckman werkelijk in Rotterdam geboren. Er komt op de DBNL-site wel een boek voor waarin een verband wordt gelegd tussen Blaman en koffie, maar zie dat maar eens te vinden. Er zijn ook letterkundigen en boekhistorici die niet op de DBNL-site blijven hangen, maar die gebruikmaken van de mogelijkheid om boeken als pdf te downloaden. Vervolgens openen zij zo’n boek op hun eigen pc — bijvoorbeeld met Adobe Reader — om het met ctrl + f (find) te doorzoeken. Let wel: het is mij bekend dat er letterkundigen en boekhistorici zijn die zelf scannen, digitaliseren, indexeren en geavanceerde databases bouwen. Maar voorlopig zijn zij sterk in de minderheid. Veel onderzoekers blijken niet te weten dat je met een relatief kleine investering de kwaliteit van je onderzoek enorm kunt verbeteren. Wat je hiervoor moet doen zal ik in zeven stappen uiteenzetten.
romans, zie J.M. van Buuren, De taal van het hart. Retorica en receptie van de hedendaagse streekroman (Groningen 2005), p. 187 e.v. Dit boek is overigens gratis te downloaden van internet.
STAP 1
KOOP TWEE SOFTWAREPROGRAMMA’S
In de eerste plaats moet je de beurs trekken. Voor het optimale gebruik van een digitale collectie boeken, artikelen en tijdschriften heb je twee softwarepakketten nodig: een professioneel indexeringsprogramma en een programma waarmee je pdf’s kunt bewerken. Er zijn allerlei programma’s op de markt waarover veel te vertellen valt, maar ik wil het kort houden. Nadat ik zeven indexeringsprogramma’s had getest, heb ik gekozen voor Isys Personal Edition. Dit is een programma dat wereldwijd door ruim veertienduizend bedrijven en instellingen wordt gebruikt, waaronder veel grote justitiële instellingen. Het kost 120 euro per jaar, inclusief onderhoud. Ik zal zo een paar voorbeelden geven van hoe je ermee kunt zoeken. 5 Het duurste programma om pdf’s mee te bewerken is Adobe Acrobat — vierhonderd euro en hoger, afhankelijk van de versie die je aanschaft — maar je hebt ook uitstekende pdf-programma’s voor onder de honderd euro, bijvoorbeeld Nitro PDF Professional.
STAP 2
GA OOGSTEN
van internet • Ga nu 'harvesten',
zoals dat in het internetjargon heet. Ga bijvoorbeeld (terug) naar de DBNL en haal nu alle pdf’s binnen die voor jouw onderzoek van belang zijn. Zo zou het bijvoorbeeld heel nuttig kunnen zijn om alle jaarboeken van de Leidse Maatschappij der Nederlandse Letterkunde binnen te halen, alle jaargangen van De Gids die tot nu toe zijn
5. Voor meer informatie, zie: www.isys-search.com. De belangrijkste feiten: met Isys Personal Edition kun je ruim tweehonderd bestandsformaten doorzoeken. Je kunt de data op je eigen pc zetten of op een server, waarna de indexen door oneindig veel gebruikers tegelijk kunnen worden doorzocht. Isys is niet geschikt voor Apple computers.
15
16
gedigitaliseerd, alle literatuurgeschiedenissen, alle biografische woordenboeken, enzovoorts. Vanzelfsprekend beperk je je niet tot titels van de DBNL. Er zijn allerlei sites waar je, volkomen legaal, boeken kunt oogsten. Voor toneelteksten moet je bij Ceneton zijn, een prachtproject van Ton Harmsen van de Universiteit van Leiden. Bij www.acehbooks.org, een project van het Koninklijk Instituut voor Taal-, Land- en Volkenkunde, kun je ruim zeshonderd boeken downloaden over Atjeh, van de zeventiende eeuw tot nu. En Google is bezig met de digitalisering van driehonderdduizend boeken van de zestiende eeuw tot 1869 van de universiteitsbibliotheek van Gent.6 Diverse Nederlandse universiteiten zetten alle dissertaties online en ook bij allerlei buitenlandse universiteiten valt veel binnen te halen — dat weten velen van u beter dan ik. Nu heeft het natuurlijk helemaal geen zin om ál die boeken op je eigen pc te gaan zetten, maar uit dat grote aanbod kun je wel een selectie maken van publicaties die voor jou van belang zijn. Hiermee omzeil je een lastig probleem van internet, namelijk dat het doorlopend in beweging is. Voor allerlei vormen van wetenschappelijk onderzoek is het prettig als je kunt zeggen dat je conclusies zijn gebaseerd op een statisch corpus. De DBNL en Google Books zijn dynamisch. Het is niet mogelijk uit deze collecties een bepaalde selectie vast te houden. Het gevolg is dat een bewering van vandaag — ‘we hebben dit hier niet gevonden’, ‘we hebben dit in deze frequentie gevonden’ — morgen al achterhaald kan zijn. kijk wat er op cd of dvd is verschenen • De afgelopen jaren zijn er tientallen boeken
en tijdschriften op cd of dvd verschenen. Aardrijks-
6. De einddatum 1869, die is vastgesteld door Google, moet problemen voorkomen met het auteursrecht, dat voorschrijft dat de rechten op een boek pas zeventig jaar na de dood van een auteur vervallen. Voor meer informatie over de samenwerking tussen Gent en Google, zie Ewoud Sanders, ‘Het ftinkdier flaapt’, in: NRC Handelsblad (katern ‘Wetenschap & Onderwijs’) 23-2-2008, of: http://tinyurl.com/ftinkdier. Over de auteursrechtelijke (? p. 17)
kundige woordenboeken, biografische naslagwerken, genealogische reeksen, allerlei tijdschriften. Kijk bijvoorbeeld eens bij www.historicfuture.nl en bij www.boekopcd.nl. Niet alle boeken die u hier kunt kopen zijn even goed gedigitaliseerd, maar de prijzen zijn relatief laag en het aanbod is groot. oogst uit andere bronnen • Al ruim tien jaar worden boeken
en tijdschriften digitaal geproduceerd. Het digitale eindproduct is vrijwel altijd een pdf. Tot voor kort beschikte meestal alleen de zetter over de allerlaatste versie. Pas de laatste tijd, met de opkomst van e-boeken, dringt bij uitgevers het besef door dat het verstandig is een pdf van de definitieve versie te archiveren. Vraag standaard aan uw uitgever of u van de allerlaatste versie van een boek, artikel of tijdschrift een digitale kopie kunt ontvangen. Vraag aan uw vakgenoten of zij nog pdf’s hebben van hun boeken of artikelen. Vraag, als u een boek recenseert, of u tevens een digitale kopie van het boek kunt ontvangen. Ik doe dit al jaren en heb er louter goede ervaringen mee. Velen van u krijgen met regelmaat per e-mail lijsten van antiquariaten toegestuurd. Hoewel er soms zeer interessante beschrijvingen op die lijsten staan — details over opdrachten, lange citaten, zeldzame exemplaren — verdwijnen de meeste lijsten na raadpleging in de prullenbak. Met een minuutje werk voegt u zo’n lijst — of een selectie eruit — voortaan toe aan uw digitale bibliotheek. Langzamerhand krijgt u wellicht de indruk dat ik vooral verzamel om te verzamelen en dat ik daarin geen grenzen ken, maar dat is geenszins het geval. Zelf ben ik een grote taalbibliotheek aan het aanleggen. Die
consequenties van scannen valt veel meer te zeggen, maar voor particulieren is dit het belangrijkst: voor thuisgebruik is het toegestaan.
17
telt nu ruim tweeëntwintigduizend titels en ruim vier miljoen pagina’s. In totaal gaat het om een bestand van twee miljard woorden. Voor taalonderzoek is zo’n groot corpus erg nuttig, maar er zijn allerlei onderwerpen te bedenken waarbij je al goed uit de voeten kunt met een veel kleinere bibliotheek. Het gaat er maar om dat je je collectie zo goed mogelijk kunt doorzoeken. Daarvoor moet je nog twee stappen zetten.
STAP 3
18
HERNOEM DE DOCUMENTEN
Voor allerlei onderzoek is het nuttig als je je bronnen chronologisch kunt rangschikken — van oud naar jong. Zo’n rangschikking kan niet alleen naar de vroegste vindplaats van een woord of uitdrukking leiden, maar ze kan soms in één oogopslag duidelijk maken wie een bepaalde anekdote, interpretatie of feitelijke onjuistheid voor het eerst in omloop heeft gebracht. Of wie wie overschrijft. Ook kan het handig zijn om je bronnen juist omgekeerd chronologisch te rangschikken — van jong naar oud. Op deze manier kun je eerst kennismaken met de modernste inzichten over een onderwerp, om vervolgens verder terug te kijken in de tijd. Om je documenten op beide manieren te kunnen rangschikken moet je — helaas — de meeste pdf’s of digitale documenten die je hebt geoogst van een nieuwe naam voorzien, een naam die begint met een jaartal. Wie bijvoorbeeld besluit om de Bibliografie der technische kunsten en wetenschappen 1850-1875, in 1876 gepubliceerd door R. van der Meulen, te downloaden bij de DBNL, krijgt als titel: meul014bibl01_01.
Om je resultaten straks chronologisch of omgekeerd chronologisch te kunnen sorteren, en om je bron makkelijker te kunnen herkennen, is het handig om die naam te wijzigen in bijvoorbeeld: 1876_Meulen, R van der_Bibliografie technische wetenschappen (1850-1875) Zelf hanteer ik het volgende stramien: jaar van uitgave, liggend streepje ('underscore'), achternaam, voorletter(s) of voornaam/voornamen, liggend streepje, volledige of ingekorte titel. Binnen dit systeem zijn enkele kleine variaties. Zo kan het jaar van uitgave ook worden vervangen door het oorspronkelijke jaar van uitgave. Wie nu bij de DBNL zoekt naar publicaties van auteurs uit de periode 1950-1960 komt ook schrijvers tegen die toen al eeuwen dood waren, zoals Lukas Rotgans. Dat komt omdat er in 1959 een heruitgave is verschenen van Eneas en Turnus, een stuk van hem uit 1705. 7 Natuurlijk kost het even tijd om veel boeken binnen te halen en die van een nieuwe naam te voorzien, maar je krijgt hier al snel handigheid in. De maandelijkse nieuwe porties van de DBNL staan meestal binnen drie uur op mijn pc.
STAP 4
MAAK THEMATISCHE MAPPEN
Je kunt alle boeken en artikelen die je hebt geoogst op een grote hoop gooien, maar dan wordt het al snel een zootje. Zoals het inrichten van een boekenkast een persoonlijke kwestie is — op genre, thema, formaat, alfabet — zo is dat ook het inrichten van een digitale bibliotheek. Mijn bibliotheek bestaat uit 145 thematische mappen. Het gaat om thema’s als 7. Het blijkt nog iets ingewikkelder. Hoewel dit boek opduikt bij een zoekactie naar boeken uit de periode 1950-1960, staat in de verantwoording van de DBNL: ‘Dit bestand biedt, behoudens een aantal hierna te noemen ingrepen, een diplomatische weergave van de tweede, herziene druk van Eneas en Turnus van Lukas Rotgans, in een editie van L. Strengholt uit 1976. De eerste druk van de editie dateert uit 1959. De eerste druk van het oorspronkelijke werk dateert uit 1705.’
19
spreekwoorden, etymologie, biografisch, bibliografisch, boekgeschiedenis, enzovoorts. Verder maak ik een onderscheid tussen primaire en secundaire bronnen. Primaire bronnen zijn in mijn geval oorspronkelijk Nederlandstalige romans (met ruim 6200 titels is dat de grootste afdeling). Binnen de thema’s maak ik een onderscheid tussen Nederlandstalige bronnen en ‘buitenlandse’. Zo heb ik de Nederlandse, Franse, Duitse, Engelse en Spaanse etymologische woordenboeken in aparte submappen staan, binnen de hoofdmap ‘Etymologie’. Als ik nu wil onderzoeken in welke geografische volgorde bijvoorbeeld het woord ‘boycot’ zich aan het eind van de negentiende eeuw over Europa heeft verspreid, dan zie ik dat door de resultaten op de mapnaam te sorteren.
20
STAP 5
MAAK EEN OF MEER INDEXEN AAN
Tot nu toe heeft u eigenlijk alleen maar digitale documenten geoogst, ze van een naam voorzien en ze in een thematische map opgeborgen. Het echte nut van deze exercitie wordt pas duidelijk wanneer u, bijvoorbeeld met behulp van Isys Personal Edition, indexen gaat maken. Nadat u dat heeft gedaan kunt u uw bronnenverzameling namelijk veel geavanceerder doorzoeken dan u gewend bent op internet. Bij de meeste zoekmachines kun je met zogenoemde booleaanse zoekoperatoren (and, or, not) zoeken, maar daar houdt het zo’n beetje mee op. Met een indexeringsprogramma als Isys Personal Edition — en zoals gezegd: er zijn meer van dit soort programma’s op de markt — zijn er veel meer mogelijkheden. Ik geef hier enkele voorbeelden:
Je kunt • booleaanse
niet alleen zoeken met de operatoren and, or, not, maar onder andere near, except, butnot en xor het document moet de eerste of de tweede bevatten, maar niet allebei).
‘gewone’ ook met (dit is: zoekterm
Je kunt zoeken op ‘exacte formuleringen’. De zoek• opdracht Bert van Selm levert in mijn bibliotheek van twee miljard woorden binnen vijftien seconden 233 hits op. Ik kan die resultaten niet alleen chronologisch, omgekeerd chronologisch of thematisch (op mapnaam) rangschikken, zoals hierboven uiteengezet, maar ook op relevantie — dat wil zeggen: op het aantal hits in één document. Zoals te verwachten komt het levensbericht van Van Selm dan op de eerste plaats te staan. Overigens behoorde Van Selm tot de eerste (boek)wetenschappers in Nederland die gebruikmaakte van de computer. Je kunt met jokertekens zoeken, waarbij * een • wille keurig aantal letters vervangt en ? één letter. Zoekacties als *boek, boek*, *boek* leveren lange lijsten op met veel samenstellingen. Wie zoekt op boe*dru*r* vindt allerlei spellingvarianten van de woorden boekdrukker en boekdrukkerij (o.a. boeckedrukkerije en boeckdruckerije). Via boe*ver*oper? komen we terecht bij woorden als boeckvercoopere, boecvercopers en boekvercopers. Alle resultaten worden automatisch alfabetisch gerangschikt, met achter ieder woord het aantal hits. Je kunt net zoveel indexen aanmaken als je wilt. • Eén index kan maximaal twee miljard woorden bevatten. Je kunt 128 indexen tegelijk doorzoeken.
21
Alle resultaten worden gemarkeerd met een kleur • ('gehighlight'). Je ziet de woorden in context. Bij gescande boeken zoek je in een document dat uit twee lagen bestaat: op de bovenste laag de afbeelding (de 'image') van de bladzijde, en op de tweede laag de uitgetikte tekst, die door optische tekenherkenning (ocr) tot stand is gekomen. Isys toont de ocr-laag van de pdf, maar als je de oorspronkelijke bladzijde wilt zien, kun je die met één toetsaanslag openen.
22 je ziet eerst de ocr-laag
met een toetsaanslag kun je de oorspronkelijke bladzijde oproepen. Mochten er, in de omgeving van het gezochte woord, ocr-fouten zijn opge treden, dan kun je op de image zien wat er had moeten staan
Je kunt in een zoekopdracht aangeven hoe ver woor• den van elkaar verwijderd mogen zijn. Voorbeeld: bij de zoekopdracht boek /10/ binden mag ‘binden’ niet verder dan tien woorden van boek staan. Met een zoekopdracht als /-5, +10/ geef je het bereik aan: vanaf vijf (of meer) posities vóór de gezochte woorden tot tien (of meer) posities erna. Je kunt ook simpelweg aangeven dat het eerste woord in dezelfde alinea moet staan als het tweede woord. Je kunt een woord vervangen door een x. Voorbeeld: • met de zoekactie uitgeverij x x x Bussum vind je onder meer: Uitgeverij Aquarius N.V. Bussum, Uitgeverij F.G. Kroonder, Bussum, Uitgeverij Paul Brand te Bussum enzovoorts. Je kunt heel snel een index maken op het werk van • één bepaalde auteur of op een reeks. Om u een indruk te geven van de snelheid waarmee je zo’n index maakt: een index op de elf delen van het Nieuw Nederlandsch biografisch woordenboek (NNBW) is voltooid in 2 minuten en 15 seconden. Er zijn dan 8,9 miljoen woorden geïndexeerd, inclusief alle namen.
23
Zoek nu, in deze index, eens op boeken NEAR brand. Binnen twee seconden staan de resultaten op uw scherm en leest u over de rampen die mensen als Rumphius, Franciscus Dupont, Alardus, Nicolaas Cannius, Joan Blaeu, Joannes Scunde en Pieter Leendertz overkwamen. Vooral de vernietiging van de boekerij van Pieter Leendertz, eindredacteur van De Navorscher, blijft huiveringwekkend om te lezen. 8 Dit onderzoekje wordt natuurlijk nog veel interessanter als je niet alleen een index maakt op het NNBW, maar op een veel grotere collectie biografische naslagwerken.
8. ‘Met groote moeite werden de kinderen, de handschriften van Hooft, eenige incunabelen en andere kostbare boeken van de Koninklijke en andere bibliotheken gered. Verder ging alles verloren; niet alleen de veel te laag verzekerde inboedel, maar ook de prachtige bibliotheek en zoogoed als alle aanteekeningen. Die bibliotheek bevatte een aantal zeldzame oude uitgaven, veel volksboeken, liedboeken en – misschien het zeldzaamste van alles – veel (? p. 24)
24
een nieuwe index is zo gemaakt
Overigens kan een index automatisch worden bijgewerkt: real time, per dag, per week of per maand. Als u een document aan een map toevoegt, wordt de inhoud ervan vanzelf aan een index toegevoegd. Er zijn nog veel meer zoekmogelijkheden, maar die moeten de lezers van dit stuk zelf maar eens bekijken: de testversie van Isys Personal Edition is gratis te downloaden.
oude muziek, met zorg bijeengesnuffeld in een tijd, toen nog bijna niemand daarin belang stelde. Nog zwaarder trof het verlies der manuscripten: de gedurende 27 jaar verzamelde aanteekeningen voor eene grammatica, waarvan het eerste gedeelte persklaar was; evenzoo over spreekwoorden, oude romans en volksliederen, over friesche plaatsnamen’ enzovoorts. Zie NNBW, deel 6, pp. 916-917.
STAP 6
VOEG ZO NODIG METADATA TOE
Tot nu toe heeft u alleen het programma Isys gebruikt, maar u had ook nog een programma aangeschaft waarmee je pdf’s kunt maken en bewerken. Dat programma komt van pas als u metadata of andere gegevens wilt gaan toevoegen aan de pdf’s die u heeft gedownload — of die u heeft gescand. Hier enkele voorbeelden van informatie die u aan een pdf kunt toevoegen: Een krantenknipsel dat u heeft gescand, bijvoor• beeld een recensie van het boek of een vraaggesprek met de auteur. De meeste pdf-programma’s zijn voorzien van een ocr-functie, zodat u dit knipsel door de computer kunt laten uittikken. Krantenartikelen of besprekingen die u uit histo• rische krantenarchieven heeft gehaald, bijvoorbeeld uit de Leeuwarder Courant (1752 tot nu) of de Groene Amsterdammer (1877-1940). Biografische informatie over de auteur die u van • internet heeft geplukt. De beschrijving van een titel uit Picarta, • de Short Title Catalogue Netherlands of uit
uit een ander bibliografisch systeem. Zoals bekend bevatten de beschrijvingen uit Picarta soms korte samenvattingen van het boek. Al die informatie wordt na toevoeging mee-geïndexeerd.
Tot slot nog een meer omslachtige manier om meta • data toe te voegen. Stel u doet samen met anderen onderzoek naar het beeld van de vrouw in streekromans
25
uit de periode 1930-1950. In mijn collectie gaat dat om veertig boeken. U geeft uw medeonderzoekers enkele pdf’s met het verzoek de boeken op het scherm te lezen en bij iedere relevante passage op de pdf trefwoorden toe te voegen uit een lijst. U zou kunnen denken aan typeringen als ‘de vrouw als opvoedster’, ‘de vrouw als verleidster’ enzovoorts. Nadat iedereen de scans weer heeft ingeleverd maakt u een verse index, u zoekt op een van de trefwoorden en uit veertig romans verschijnen alle relevante passages meteen in beeld.
STAP 7
26
GA ZELF SCANNEN
Wie deze stappen heeft gevolgd kan inmiddels, na een paar dagen downloaden, over een gespecialiseerde of algemene digitale bibliotheek beschikken met honderden of duizenden titels en vele miljoenen woorden, zonder nog maar één boek zelf te hebben gescand. Wie ook deze laatste stap wil zetten, moet andermaal in de beurs tasten, ditmaal iets dieper. Het is maar hoe serieus en grootschalig je het wilt aanpakken. Ik ben begonnen met een tweedehands scanner die ik voor minder dan tweehonderd euro op Marktplaats had gekocht. Voor het kleine werk voldeed dat ding prima, maar ik wilde het grote werk, dus inmiddels heb ik twee scanners in huis die samen bijna twaalfduizend euro hebben gekost — de prijs van een leuke gezinsauto. Dat is een hoop geld, maar het scheelt ook een hoop tijd. Leg een ontrugd boek van tweehonderd pagina’s in de zogenoemde 'document feeder' van zo’n scanner en een minuut later zijn alle pagina’s dubbelzijdig gescand — op 300 of 400 dpi in zwartwit. Het omslag wordt apart in kleur
gescand. Twee of drie minuten later is het boek door de ocr-software gelezen (het beste programma is FineReader 9) en weer een minuut later is het boek opgeslagen als pdf en klaar om te worden toegevoegd aan mijn digitale bibliotheek. 9 Vijftien paperbacks per uur is hier geen uitzondering, en als er een paar dunnetjes tussen zitten, helpen wij in dit boekenabattoir ook wel eens twintig boeken per uur naar de andere, digitale wereld — een wereld zonder zilvervisjes, zonder stof en zonder het gevaar dat mijn bibliotheek een keer afbrandt, want u snapt dat ik doorlopend back-ups maak. Mijn digitale bibliotheek telt nu 444 gigabyte en dat is veel, maar digitaal ‘geheugen’ is goedkoop geworden en voor tachtig euro koop je al een externe harde schijf van 1 terabyte. Zo’n schijf is niet veel groter dan een pocketboek van vierhonderd pagina’s, dus mijn digitale bibliotheek is niet alleen heel geavanceerd te doorzoeken, maar ook zeer mobiel. Ik heb geen vakantiehuisje in Frankrijk, maar als ik dit zou hebben dan zou ik daar, desnoods met mijn laptop in de tuin, een forse, volledig op mijn eigen onderzoek toegesneden bibliotheek onder handbereik hebben. Versnijd ik ook kostbare en bijzondere boeken? Nee, ik ben natuurlijk niet op mijn achterhoofd gevallen. Die worden zo voorzichtig mogelijk op de glasplaat gescand, maar dat gaat veel langzamer — ongeveer net zo langzaam als een boek kopiëren op een kopieerapparaat. Is dit een volkomen uit de hand gelopen privéproject? Ja dat is het zeker. Ik merk echter bijna dagelijks dat het kunnen beschikken over zo’n digitaal corpus de kwaliteit van mijn werk enorm heeft verbeterd. Doorlopend vind ik informatie in
9. Ik ga hier verder niet in op de details van het scannen. Ik hoop daar in 2010 een beknopte handleiding over te publiceren, samen met Koos Hussum, directeur van het scanbedrijf X-Cago.
27
28 de situatie vóór de operatie (fragment)
de huidige situatie
boeken of tijdschriften die ik, toen ik ze nog in dertig boekenkasten had staan, nooit zou hebben opengeslagen. Wie de ongezochte vondst wil afdwingen, zo is mijn ervaring, moet systematisch zoeken. Ooit ben ik begonnen met een kaartsysteem. Daarna heb ik allerlei literatuurverwijzingen bij elkaar gezet in een database, eigenlijk een digitaal kaartsysteem. Nu heb ik voor het eerst volledig toegang tot de boeken zelf, op meer manieren dan ik ooit had durven dromen. En tot meer boeken dan ik ooit had kunnen lezen. Zelf beschouw ik dit alles als een enorme stap voorwaarts. De boeken die ik zelf nooit zal lezen, zijn nu gelezen door mijn computer. Als er iets in staat dat voor mij relevant is — en doorlopend zijn er nieuwe onderzoeksvragen — dan is de kans groter dan ooit tevoren dat ik die informatie vind. Ook al zoek ik naar zoiets triviaals als het koffiegebruik in de romans van Anna Blaman.
29
VORMGEVING De tekst van deze uitgave is gezet uit de ‘OCR-A Extended’ (American Type Founders, 1968). Dit lettertype is, zoals de naam aangeeft, ontworpen voor ‘Optical Character Recognition’, een noodzakelijke techniek voor de digitalisering van boeken. De traditionele uitgangspunten vanuit de esthetica van het letterontwerp zijn in de OCR-A ondergeschikt gemaakt aan de eisen van de toen opkomende elektronische technieken voor lees- en zetapparatuur. Zo is van de OCR-A alleen een romein ontwikkeld. In deze uitgave zijn voor cursivering en accentuering daarom andere oplossingen gekozen.
30
De titel op het voorplat en op de hierbij behorende cd-rom is gezet uit de ‘New Alphabet’ (Wim Crouwel, 1967), eveneens een letterontwerp uit de beginfase van de ontwikkeling van elektronische lees- en zetapparatuur. Hoewel de naam van dit lettertype anders opgevat zou kunnen worden, beoogde Crouwel géén nieuwe boekletter te ontwerpen. Hij wilde met de New Alphabet een experimenteel ontwerp bieden als bijdrage aan de discussie over de eisen die de moderne techniek op dat moment aan het letterontwerp stelde. (GPM)
CD-ROM Bij deze uitgave is een cd-rom gevoegd. Op die cd staan ruim 260 gedigitaliseerde boeken, die met toestemming van de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) zijn overgenomen. In totaal gaat het om een corpus van ruim 51 miljoen woorden. De boeken zijn ingedeeld in enkele thematische mappen. Met deze cd-rom heeft u het begin van een eigen digitale bibliotheek in handen. Om de gedigitaliseerde boeken op een geavanceerde manier te kunnen doorzoeken, zoals uiteengezet in deze lezing, heeft u een indexeringsprogramma nodig, bijvoorbeeld Isys Personal Edition. Dit programma kunt u downloaden van internet en daarna twee weken gratis proberen. Op de cd-rom staat een document waarin stap voor stap wordt uitgelegd hoe u met Isys Personal Edition op de beste manier een index maakt én u hoe u de gedigitaliseerde boeken vervolgens slim kunt doorzoeken.
31
GENOEMDE WEBSITES EN SOFTWARE Acehbooks: www.acehbooks.org • Adobe Acrobat: www.adobe.com/nl/products/acrobat • Bibliografie van de Nederlandse Taal- en Literatuurwetenschap •
(BNTL):
www.bntl.nl/bntl Boekopcd: www.boekopcd.nl • Ceneton: www.let.leidenuniv.nl/Dutch/Ceneton • Digitale Bibliotheek voor de Nederlandse Letteren (DBNL): www.dbnl.org • FineReader 9: finereader.abbyy.com • Google Books: books.google.nl • Groene Amsterdammer (1877-1940): demo.zylab.com/dga • Historic Future: www.historicfuture.nl • Isys Personal Edition: • www.isys-search.com/resources/trialsoftware/?source=onsite (kies Download ISYS Personal Edition) Leeuwarder Courant (archief): www.archiefleeuwardercourant.nl • Nitro PDF Professional: www.nitropdf.com/index.asp • NRC Handelsblad (archief 1991-2009): http://archief.nrc.nl/?modus=w • Picarta: www.picarta.nl/xslt/login • Short Title Catalogue Netherlands: www.kb.nl/stcn •
COLOFON de reïncarnatie van het boek, in zeven stappen een eigen digitale bibliotheek werd elektronisch gezet uit de ‘OCR A Exentended’ en gedrukt door Drukkerij Mostert & Van Onderen! te Leiden. Voor het binnenwerk is 115 grs Tempo gekozen en voor het omslag 280 grs Trucard. De Ammoniet verzorgde de vormgeving en afwerking van deze uitgave. De oplage bedraagt 250 genummerde exemplaren. Dit is nummer ...
32