Lezen vanop afstand Digital Humanities en de computationele analyse van middeleeuwse literatuur www.mike-kestemont.org | www.fwo.be | www.ua.ac.be
Tuesday 28 May 2013
1
Digital Humanities
• • • • •
Tuesday 28 May 2013
Digitale geesteswetenschappen R. Busa (1913-2011) IBM’s Index Thomisticus Busa award door ADHO Mediëvist!
2
Gemeenplaats...
• • • • • • Tuesday 28 May 2013
Explosie digitale data & methodes “Digital humanities” Taal- en letterkunde “Traditionele” vakbeoefening Veel nieuw potentieel Maar hoe realiseren?
3
Distant reading
Tuesday 28 May 2013
• • • •
Veelgeciteerde, ‘holle’ term
•
Uitdaging...
F. Moretti (2000) Close reading Analyse van grote verzameling teksten “without a single direct textual reading”
4
Topic modeling
Tuesday 28 May 2013
• •
Recent veel aandacht in DH
•
a synecdoche of digital humanities. It is distant reading in the most pure sense: focused on corpora and not individual texts, treating the works themselves as unceremonious ‘buckets of words’, and providing seductive but obscure results in the forms of easily interpreted “topics” (Meeks & Weingart 2012)
Automatische detectie van topics in groot corpus documenten
5
Latent Dirichlet Allocation
•
Dimensie-reductie (multivariate statistiek)
•
Latent Semantic Analysis, Nonnegative Matrix Factorization, ...
• •
Distributionele semantiek
•
Niet geometrisch, maar probabilistisch
Monte Carlo-methode (via Gibbs sampler)
Tuesday 28 May 2013
6
Topics?
Tuesday 28 May 2013
7
Grabbelton
Text
Tuesday 28 May 2013
8
Thematische evoluties
Tuesday 28 May 2013
9
Historische letterkunde?
• • • •
• • Tuesday 28 May 2013
Hadewijch (13e E) Brabantse mystica Middelnederlands 4 genres:
• • • •
visioenen brieven gedichten liederen
Vert. C. Hart (1980) Traditioneel close reading 10
Tuesday 28 May 2013
11
Circos
Circulaire visualisatie van genomische data Tuesday 28 May 2013
12
“Where’s the beef?”
Tuesday 28 May 2013
• •
+ Visuele DH (“mooie plaatjes”): bevrijdend?
• •
- Wat levert het op? Nieuwigheidswaarde?
+ Innovatie als drijfveer: vruchtbare confrontatie met exacte wetenschappen?
- Verwijt: Oppervlakkigheid als Achilleshiel
13
Stylometrie
• •
Kwantitatieve studie van schrijfstijl Stijl <=> meta-data
• • • • Tuesday 28 May 2013
Auteurschap (authorship attribution) Datering (stylochronometry) Tekstsoort (genre studies) ...
14
Auteursherkenning
• •
Populairste toepassing Stylome Hypothesis
• •
Tuesday 28 May 2013
Unieke vingerafdruk Kwantitatief meten
15
• • • •
Jong paradigma (1960s) Mosteller & Wallace (US) Federalist papers (1780s) Twee innovaties:
• • Tuesday 28 May 2013
Kwantitatieve aanpak “Functoren”
16
Traditioneel • Natte vinger... • Opvallende kenmerken • bv. zeldzaam werkwoord • “Checklist” • Maar: • scholen, ateliers, ... • tradities • vervalsing, imitaties ... • ...
Tuesday 28 May 2013
Mosteller & Wallace • Onopvallend kenmerken • Functiewoorden of functoren • lidwoorden • voorzetsels • voornaamwoorden • [naamvallen?] 17
Voordelen? Veel observaties Alle auteurs, zelfde set Relatief inhoudsonafhankelijk
Tuesday 28 May 2013
18
Aantal letters f op volgende slide?
Tuesday 28 May 2013
19
Finished files are the result of years of scientific study combined with the experience of many years. Tuesday 28 May 2013
20
Hoeveel?
Tuesday 28 May 2013
21
Verwerken wij functoren ‘onbewust’?
Finished files are the result of years of scientific study combined with the experience of many years. Tuesday 28 May 2013
22
Welke tekst staat op de volgende slide? Tuesday 28 May 2013
23
Tuesday 28 May 2013
24
En?
Tuesday 28 May 2013
25
Moeilijk fouten detecteren...
Tuesday 28 May 2013
26
Onbelangrijk?
Tuesday 28 May 2013
27
Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit porbelm. Tihs is bcuseae the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.
Tuesday 28 May 2013
28
Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit porbelm. Tihs is bcuseae the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.
Tuesday 28 May 2013
29
Functoren
• • •
Tuesday 28 May 2013
Populair in stylometrie Frequenties als input Pennebaker (2011)
30
Parallel in kunstgeschiedenis Morelli (1816–1891)
Tuesday 28 May 2013
31
Middelnederlands
• • • • • Tuesday 28 May 2013
Germaanse volkstaal Lage landen Middeleeuwen Ca. 1200-1500 Literatuur
32
Handgeschreven wereld
• • • •
Tuesday 28 May 2013
Geen drukpers Manu-scripten Kopiisten scribenten Iedere kopie uniek
33
Variatie als regel
• •
•
Geen standaardtaal, -spelling Kopieën wijken af van legger:
• • • •
Spelling Locale dialecten Stilistische voorkeur? ...
Tekst oorspronkelijke auteur?
Tuesday 28 May 2013
34
Middelnederlands
• • • • • •
Van Dalen-Oskam & Van Zundert 2007 Literary and Linguistic Computing Roman van Walewein Auteursovergang Leiden, Ltk. 195 Pionierswerk
Tuesday 28 May 2013
35
Burrows’s Delta
• • • •
Stilistische afstandsberekening Manhattan distance op MWF Nearest neighbor learning Zowel classificatie als afstand
Tuesday 28 May 2013
36
%"#! ǻ!"###!$%&'(
%"!!
)'*&!ǻ )'*&!+,-"!./0!1'20
$"#! ǻ $"!!
!"#!
!"!! !
%!!!
&!!!
'!!!
(!!!
$!!!!
$%!!!
)*+,-
Tuesday 28 May 2013
37
Leiden UB, Ltk. 195 %"#! ǻ!"###!$%&'(
%"!!
)'*&!ǻ )'*&!+,-"!./0!1'20
$"#! ǻ $"!!
!"#!
!"!! !
%!!!
&!!!
'!!!
(!!!
$!!!!
$%!!!
)*+,-
Tuesday 28 May 2013
38
Serendipiteit? Zochten auteurs en vonden kopiisten... Tuesday 28 May 2013
39
Auteursherkenning vs. Scribentherkenning... Tuesday 28 May 2013
40
Rijmwoord
• •
Meeste Middelnederlandse literatuur berijmd Bijbel, encyclopedie, liefdesgedichten, ...
•
• • • Tuesday 28 May 2013
Willam die madock maecte / Dair hi dicke om waecte
Skelet van tekst Heel moeilijk aan te passen “Oorspronkelijke dichter in het aangezicht staren”?
41
Rijmwoorden als functors?
Tuesday 28 May 2013
• • •
Eindig # combinaties
• •
Zipfiaanse verdeling
Formules, “stoplap” Popliedjes: “De lucht is blauw : Ik hou van ...”
Surrogaat functoren?
42
Lemmatiseren
• • •
Tuesday 28 May 2013
Spellingvariatie Lemmatiser Lemma-frequenties
43
Spiegel historiael
Speculum historiale (13e E)
Tuesday 28 May 2013
44
Jacob van Maerlant | Filip Utenbroeke Tuesday 28 May 2013
45
Tekstclassificatie Spam filtering
Tuesday 28 May 2013
46
Laatste deel, ca. 1316: Lodewijk van Velthem Vierde en Vijfde Partie Tuesday 28 May 2013
47
4de boek steeds “fout” toegeschreven... Tuesday 28 May 2013
48
Guldensporenslag, 1302
Tuesday 28 May 2013
49
Jan van Heelu Slag bij Woeringen 1288
Tuesday 28 May 2013
50
Stijlcurve Velthems Vijfde Partie...
Tuesday 28 May 2013
51
“Ontleende” Velthem een reeds bestaand Vlaams ooggetuigeverslag? (serendipiteit...)
Tuesday 28 May 2013
52
Karel ende Elegast
• • • • •
Icoon Mnl’se literatuur 13e eeuw (?), Vlaanderen Anoniem, berijmd verhaal Fraeye historie ende al waer Nachtelijke rooftocht van Karel de Grote en Elegast
Tuesday 28 May 2013
53
K.H. Heeroma (1909-1972)
• • • •
Nederlands filoloog, zelf dichter
•
Zelfde auteur?
“Subjectieve” stilistische analyse Controversieel “Hoorde” zelfde stem in Elegast en Moriaen
Tuesday 28 May 2013
54
Moriaen
• • • •
Koning Artur en Rondetafelridders
•
Ongebruikelijk onderwerp
Moriaen, zwarte ridder uit Afrika Op zoek naar biologische vader Eerste Nederlandse roman met zwart hoofdpersonage
Tuesday 28 May 2013
55
Icarus...
• • • • • Tuesday 28 May 2013
Toeschrijving afgewezen... Té subjectief Ohrenphilologie ≠ wetenschap Bijnaam “Icarus” Stylometrie?!
56
Genres: Serendipiteit?
Tuesday 28 May 2013
57
Dimensie-reductie
• • • • • Tuesday 28 May 2013
Terugdringen # variabelen Abstracte, latente dimensies Heel populair in stylometrie Attributie via clusters Bv. PCA, CA, MDS, ...
58
Eerherstel? Elegast FERG
Correspondentie-analyse Sterkst verwant in ridderepiek Meting bevestigt buikgevoel Eerherstel Heeroma? (Maar Gruuthuse...)
WAL_B
2
1
2nd dimension (12.57%)
• • • • •
HAGH MOR
0
-1
-2
-1
0
1
2
1st dimension (15.37%)
Tuesday 28 May 2013
59
Momenteel...
• • •
Tuesday 28 May 2013
FWO-postdoc (2012-2015) Uitbreiding stylometrie:
• •
proza Latijn
Veel groter toepassingsgebied
60
Latijnse mediëvistiek?
• •
J. Deploige & S. Moens Editie 2 korte tekstjes:
• •
Visio de sancto Martino Visio ad Guibertum missa
•
Toegeschreven aan Hildegard van Bingen
•
Twijfels...
Tuesday 28 May 2013
61
Vitruvische man (LDO) Renaissance 12e eeuw
Tuesday 28 May 2013
62
Hildegard von Bingen
• • •
Rijnlandse mystica (1098-1179) Hoog aanzien (Bernardus, paus, ...) Mystieke visioenen:
• • • Tuesday 28 May 2013
Dicteerde aan secretarissen Latijn niet volledig machtig (indocta)
Complex “auteurschap”
63
Laatste secretaris: Guibert van Gembloux When you correct [the Visio de sancto Martino] you should keep to this rule: that adding, subtracting, and changing nothing, you apply your skill only to make corrections where the order or the rules of correct Latin are violated. Or if you prefer – and this is something I have conceded in this letter beyond my normal practice – you need not hesitate to clothe the whole sequence of the vision in a more becoming garment of speech.
Tuesday 28 May 2013
64
•
Stylometrische vingerafdruk
•
Toeschrijving onder druk...
•
Synergy hypothesis
Tuesday 28 May 2013
65
Meerwaarde stylometrie?
• •
Erg gerichte applicatie in DH Meerwaarde:
• • •
Falsifiëren oude inzichten Genereren nieuwe inzichten
Serendipiteit als nevenproduct van distant reading
Tuesday 28 May 2013
66
Toekomst? • • • •
Breder dan stylometrie en mediëvistiek TIME Magazine archief (i.s.m. Folgert Karsdorp; 1920s-2000s) Big Data & Humanities: onderschat probleem Recente reeks papers:
• • • • Tuesday 28 May 2013
toptijdschriften “geesteswetenschappelijk” retoriek van de Big Data methodologie unaniem verworpen door vakgenoten
67
Google Books paper
• • • •
Science paper Google books corpus Michel et al. “Culturomics”
• • Tuesday 28 May 2013
Woordfrequenties Diachroon
68
Tikje simplistisch (?), maar hoe beter doen? Tuesday 28 May 2013
69
“Would a paper that made some blatantly wrong claim about genetics be published in such venues?” (R. Sproat) Tuesday 28 May 2013
70
Discussie • • • •
•
Goed voor visibiliteit vakgebied Kruisbestuiving exacte wetenschappen Afgunst speelt mee? Maar ook beschermen eigen vakgebied:
• • •
Retoriek Big Data wordt ‘misbruikt’... Methodologie unaniem afgewezen... Onderzoekers zijn allesbehalve geesteswetenschappers...
Hebben de Geesteswetenschappen een eigen ‘toptijdschrift’ nodig?
Tuesday 28 May 2013
71