Het World Wide Web als corpus Typen gebruik van het WWW: - het downloaden van teksten of hun URLs - het doorzoeken van het web als gigantische en multilinguale tekstenverzameling - onderzoek naar kenmerken van het web, incl. beperkingen - onderzoek ter verbetering van de standaard zoekmachines
Korte geschiedenis (op basis van Engelse corpora) ca. 1960 ca. 1980 1988-> ca. 1997
Brown Corpus: Cobuild Corpus British National Corpus Web as Corpus
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
1 mln woorden 8 mln woorden 100 mln woorden ca. 6 terabytes in 1999?
Omvang van het web voor verschillende talen (een keuze uit Kilgariff, A. & G. Grefenstette (2003): aantallen in woorden, zoekmachine Altaviste maart 2001 Albanian 10,332,000 Icelandic 53,941,000 Slovenian 119,153,000 Turkish 187,356,000 Catalan 203,592,000 Polish 322,283,000 Hungarian 457,522,000 Czech 520,181,000 Norwegian 609,934,000 Swedish 1,003,075,000 Dutch 1,063,012,000 Portuguese 1,333,664,000 Italian 1,845,026,000 Spanish 2,658,631,000 French 3,836,874,000 German 7,035,850,000 English 76,598,718,000
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Voorbeelden van vroeg gebruik van het web downloaden van teksten voor automatische samenvatting zoeken naar teksten van talen waarvan weinig digitaal materiaal is zoeken naar lexicale informatie: zeldzame woorden in context zoeken naar vertaalequivalenten ontwikkelen van een linguïstische zoekmachine bovenop een standaard zoekmachine zoeken naar een rangorde van frequenties van woordbetekenissen op het web als input voor automatische ‘Word Sense Disambiguation’ (WSD) automatisch vinden van ‘named entities’ (namen van plaatsen, bedrijven, personen, tijdsaanduidingen e.d.)
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Voorbeelden van recenter gebruik van het web gebruik van de domeinen voor automatische WSD ontwikkeling van taalmodellen voor soorten taal waar weinig ander materiaal voor is het web als informatiebron voor antwoorden bij vraagantwoordmachines (multilinguaal) automatisch vullen van bestaande ontologieën met nieuwe items frases uit on line vertaalsystemen op het web voor voorbeeldgebaseerd automatisch vertaalsysteem downloaden van teksten voor het vreemdetalenonderwijs het web als spellingchecker
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Voorbeelden van gebruik van het web voor het Nederlands Vroeg voorbeeld: Van Oostendorp, M. & T. van der Wouden (1998), Corpus Internet. In: Nederlandse Taalkunde 3, pp. 347-361. Algemeen Nederlands Woordenboek (INL): domeinencorpora Nederland en België onderzoek naar archivering van het Nederlandstalige web door de Koninklijke Bibilotheek en taalkundige ontsluiting daarvan lexicografie: nieuwe woordbetekenissen, inspiratiebron voorbeeldzinnen onderzoek naar het ingeburgerd zijn van tamelijk nieuwe woorden
zeer algemeen: het opzoeken van informatie (o.a. wikipedia)
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Beperkingen: ‘vies’: non-tekst, fouten, duplicaten, lege verwijzingen etc. niet stabiel teksttypen onbekend taal moet automatisch geïdentificeerd worden (voor NLP) representativiteit auteursrecht geldt evenzeer beperkingen zoekmachines voor linguïstische toepassingen, incl. NLP
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Beperkingen zoekmachines: beperkingen op het aantal zoekacties en resultaten per zoekactie te weinig context selectie en ordening webpagina’s niet volgens linguïstische criteria geen zoekacties mogelijk op basis van linguïstische criteria onbetrouwbare statistiek te beperkt gebruik van wildcards en afstandsoperatoren te veranderlijk
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Literatuur Kilgariff, A. (2001), Web as Corpus. In: G. Sampson & D. McCarthy (2004), Corpus Linguistics. Readings in a Widening Discipline. Continuum, London, New York, pp. 471-473. Kilgariff, A. & G. Grefenstette (2003), Introduction to the Special Issue on Web as Corpus. In: Computational Linguistics 29 (3). Op www.kilgariff.co.uk/publications. Kilgariff, A. (2007), Googleology is Bad Science. In: Computational Linguistics 33 (1): 147-151. Op www.kilgariff.co.uk/publications Verslag en presentaties Expert Meeting over Nederlandstalig web als corpus op www.inl.nl Afdelingen, Taalbank, Nieuws
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Sinclair, J.M. (ed.) (1987), Looking up. An account of the Cobuild project in lexical computing. Collins Cobuild, Birmingham.
Truus Kruyt, Corpusonderzoek, Münster 2007/2008