Wat is een corpus en waarvoor wordt het gebruikt? Een corpus is een verzameling teksten of getranscribeerde geproken taal met een samenstelling en proportionering van teksttypen die geschikt is voor een bepaald doel ~ ‘representatief’
Gebruik van corpora voor: * onderzoek: linguïstiek, letterkunde, stylistiek, taalvergelijking, geschiedenis, kunstgeschiedenis, theologie, vrouwenstudies, theaterwetenschap, rechten, sociologie, … * taaltechnologie, computationele linguïstiek, informatietechnologie * (dialect)lexicografie, terminologie, vertaalkunde * onderwijs (computerondersteund onderwijs, e-learning) Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Corpus : doel ~ inhoud In principe : elk doel vraagt om een specifieke samenstelling
In de praktijk : niet haalbaar -> * Hergebruik van bestaande corpora * Europese Commissie : ‘general purpose’ corpora (als basis) o.a. Nederlandse PAROLE-corpus (INL) * World Wide Web als corpus (niet stabiel!)
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Corpus ~ informatiedrager Vroeger : corpora van gedrukte of geschreven tekst 1949 : 1967 : 1980 :
werken van Thomas van Aquino digitaal (initiatief) data entry voltooid tekstverificatie en data processing -> index
ca. 1970 : digitale corpora door digitalisering van gedrukte teksten
ca. 1990 : digitale corpora o.b.v digitale teksten van uitgevers, onderzoekers, tekstarchieven, digitale bibliotheken, het www Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Voordelen digitale vs. gedrukte tekst * dynamisch: eenvoudig hergebruik van de tekst * snel zoeken * flexibel zoeken (bijv. wildcards, Booleaanse operatoren) * snel rekenen (bijv. frequenties, spreiding, collocaties)
Niveau : afzonderlijke woorden in de teksten (tokens) ‘woord’ = reeks van letters en tekens ‘corpus’ en ‘corpus?’ : 2 verschillende ‘woorden’ (types)
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Voordelen verrijkte vs. digitale tekst * dynamisch & flexibel: geavanceerder hergebruik van de tekst * snel & flexibel zoeken, snel rekenen Niveau : woorden + gecodeerde informatie -> * zoeken naar of binnen teksteenheden (bijv. hoofdstuktitel; alinea) * selectie van bep. tekst(en) (bijv. editeurstekst in editie; brieven) * ‘linken’ binnen een werk (bijv. noten, verwijzingen) * ‘linken’ met andere data (al dan niet elders) Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Principe: ‘verrijking’ (annotatie) bepalend voor retrieval (1) Verrijkt (geannoteerd) tekstfragment ontleend aan een (oud) INLcorpus: trefwoord en woordsoort
Ondanks_v{ondanks} de_l{de} uitwijzing_z{uitwijzing} en_c{en} de_l{de} politieke_a{politiek} spanningen_z{spanning} die_p{die} ze_p{ze} tot_v{tot} gevolg_z{gevolg} hebben_w{hebben}, biedt_w{bieden} Rabins_a{Rabins#} premierschap_z{premierschap} de_l{de} Palestijnen_z{Palestijn} nog_b(nog) altijd_b{altijd} de_l{de} beste_a{best} kansen_z{kans} om_v{om} ETC. p.m. taalkundige keuzes p.m. fouten als gevolg van automatische taalkundige verrijking Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Principe: ‘verrijking’ (annotatie) bepalend voor retrieval (2) Digitale tekst : zoek alle woorden (types) eindigend op -ig -> aardig, big, dienovereenkomstig, groenig, lig, nevelig, tuig, wig,… Verrijkt met woordsoort : zoek alle adjectieven eindigend op -ig -> aardig, groenig, nevelig Verrijkt met trefwoord : zoek alle types van het trefwoord ‘aardig’ -> aardig, aardige, aardiger, aardigst, aardigste Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Parameters voor retrieval (afhankelijk van je doel) Bij een tekst (selectie van een subcorpus), bijv.: * bibliografische gegevens (auteur, titel, jaar van publicatie) * teksttype (volgens bijv. medium, onderwerp, literair genre) * plaats van herkomst (bijv. Vlaams/Nederlands) … In een tekst, bijv. * tekststructuur (proloog, alinea, hoofdstuk e.d.) * woordsoort, trefwoord, syntactische eenheden * namen van personen, plaatsen * (niet gestandaardiseerde) dateringen … Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
mmm
Internationale standaard voor tekstcodering Text Encoding Initiative TEI (sinds 1988) : richtlijnen voor uniforme, taal- en platformonafhankelijke (XML- ) tekstcodering t.b.v. uitwisseling en hergebruik van tekstbestanden binnen de humaniora ~ versie TEI-P5 (www.tei-c.org) Richtlijnen voor de codering van: * Tekst- en bestandsdocumentatie (bijv. bibliogr. gegevens, metadata) * Tekststructuur (bijv. proza: hoofdstuk, alinea; poëzie: versregel) * Typografie (bijv. cursief, vet ; lettergrootte) * Andere tekstuele elementen (bijv. noten, paginanummers) * Taalkundige en andersoortige verrijking
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
codering strikt onderscheiden van tekst hiërarchische relaties in de codering expliciet door ‘nesting’
… ... …
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
TEI-gecodeerd tekstfragment uit het VMNW Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Veel initiatieven tot toegang tot digitale teksten (1) Bijv. Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) KB Den Haag : Databank Digitale Dagbladen (vanaf 17de eeuw) Ministerie OCW : Nationaal Programma Digitalisering voor de Geesteswetenschappen NWO/KNAW : DANS (Data Archiving and Networked Services) Europese Commissie : European Digital Library TST-centrale (INL)
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Veel initiatieven tot toegang tot digitale teksten (2) Tal van websites met toegang tot * digitale teksten * hulpbronnen voor onderzoek (+/- link naar teksten): tijdschriften, secundaire literatuur, catalogi, documentatie Bijvoorbeeld: www.nederlands.leidenuniv.nl www.huygensinstituut.knaw.nl www.uba.uva.nl www.neder-l.nl , www.neerlandistiek.nl www.willemfrederikhermans.nl www.literatuurplein.nl www.bibliotheek.nl Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Problemen (1) * Auteursrecht ~ moderne teksten, edities, verrijking, foto’s, … → contract corpusbouwer (instelling) ~ auteursrechthebbende → contract corpusinstelling ~ corpusgebruiker Internationaal verschillend
* Data voor anderen niet beschikbaar commerciële belangen van bijv. uitgevers eigen belangen van onderzoekers/instellingen
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Problemen (2) * Verschillende systemen : theoretische achtergrond (& toepassingsmethode) van de verrijking ~ bijv. EAGLES (tlk.) vormgeving / representatie van de verrijking ~ TEI metadata (bijv. classificatiemodellen) ~ Dublin Core, OLAC, IMDI technisch ~ Max Planck Instituut e.a. : DAM-LR, CLARIN
* Databewerking !
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Literatuur Kruyt, J.G. (1998), Valkuilen bij corpusonderzoek. In: Nederlandse Taalkunde 3, 2, 137-140. Ook op www.inl.nl. Dutilh-Ruitenberg, M.W.F., J. de Does & J.G. Kruyt (2005), PAROLE: een nieuw tekstcorpus raadpleegbaar voor onderzoek. In: Nederlandse Taalkunde 10, 326-334. Ook op www.inl.nl. Dutilh, T. & J.G. Kruyt (2002), Implementation and Evaluation of PAROLE PoS in a National Context. In: Proceedings of the Third International Conference on Language Resources & Evaluation, pp. 1615-1621. Ook op www.inl.nl. McEnery, T. & Wilson, A. (1996), Corpus Linguistics. Edinburgh University Press. Truus Kruyt, Corpusonderzoek, Münster 2007/2008