Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader
type verrijking: woordsoort en trefwoord/lemma syntactische, semantische verrijking doel: retrieval op verschillende niveau’s: (woordvorm/type) woordsoort (‘Part of Speech’: ‘POS’) trefwoord combinaties te maken keuzes: welk woordsoortenstelsel (‘tagset’) welke representatie van de tagset welke methode van toepassen van de tagset
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Principe: ‘verrijking’ (annotatie) bepalend voor retrieval (1) Digitale tekst : zoek alle woorden (types) eindigend op -ig -> aardig, big, dienovereenkomstig, groenig, lig, nevelig, tuig, wig,… Verrijkt met woordsoort : zoek alle adjectieven eindigend op -ig -> aardig, groenig, nevelig Verrijkt met trefwoord : zoek alle types van het trefwoord ‘aardig’ -> aardig, aardige, aardiger, aardigst, aardigste Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Principe: ‘verrijking’ (annotatie) bepalend voor retrieval (2) Verrijkt (geannoteerd) tekstfragment ontleend aan een (oud) INLcorpus: trefwoord en uitsluitend hoofdwoordsoort
Ondanks_v{ondanks} de_l{de} uitwijzing_z{uitwijzing} en_c{en} de_l{de} politieke_a{politiek} spanningen_z{spanning} die_p{die} ze_p{ze} tot_v{tot} gevolg_z{gevolg} hebben_w{hebben}, biedt_w{bieden} Rabins_a{Rabins#} premierschap_z{premierschap} de_l{de} Palestijnen_z{Palestijn} nog_b(nog) altijd_b{altijd} de_l{de} beste_a{best} kansen_z{kans} om_v{om} ETC.
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Principe: ‘verrijking’ (annotatie) bepalend voor retrieval (3) Verrijkt (geannoteerd) tekstfragment ontleend aan het zoeksysteem voor het PAROLE-corpus, met subcategorisatie (EAGLES)
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Taalkundige verrijking te maken keuzes: welk woordsoortenstelsel (‘tagset’) → welke representatie van de tagset welke methode van toepassen van de tagset
EAGLES/PAROLE: lettercodes op vaste posities: Rgp
Internet-PAROLE: ‘begrijpelijker’ notatie:
ADV(type=general,degree=pos)
kenmerk n.v.t.: NOU(type=comm,gender=fm,number=sg,constr=-) Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Taalkundige verrijking te maken keuzes: welk woordsoortenstelsel (‘tagset’) welke representatie van de tagset → welke methode van toepassen van de tagset 2 mogelijkheden: functionele methode → bijv. nw. als bijw. gebruikt: bijw Dat is een mooi gedrukte tekst → mooi: bijw. ‘transcategorisatie’ lexicale methode → bijv. nw. in alle contexten: bijv.nw. Dat is een mooi gedrukte tekst → mooi: bijv.nw. Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Transcategorisatie: verandering van ‘lexicale’ woordsoort Bij sommige mensen gaat hun hart sneller kloppen als het hen te druk is niet: ADJ(type=quali,degree=com,infl=basic,construct=-) maar: ADV(type=general,degree=com,construct=-)
Vragen uit de praktijk van het taggen van een corpus: - Kan elke POS transcategoriseren naar een andere POS? - Indien niet: welke wel en welke niet? - Indien wel: naar welke POS kan een woord transcategoriseren en op basis van welke criteria?
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Kan elke POS transcategoriseren naar een andere POS? Voorbeelden Kan een znw. transcategoriseren naar bijw.? znw. → bijw.? vergelijk:
eind deze week aan het eind van deze week
functie: bijw znw.
Kan een znw. transcategoriseren naar bijv. nw.? znw. → bijv.nw.?
hij is meer mens dan vis
znw/bijv.nw?
Kan een telw. transcategoriseren naar znw., bijv.nw., det.? hij is de zevende vandaag znw. hij is zevende geworden bijv.nw. hij is zes jaar bijv.nw.?/det.?? hij is nu zes telw./bijv.nw.? Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Indien transcategorisatie toegestaan: naar welke POS kan een woord transcategoriseren en op basis van welke criteria? Voorbeelden
Welk criterium bepalend voor functie als znw.: hoofd van NP of hoofd van NP + lidw./det.? hij is kandidaat bnw./znw? hij is onze kandidaat znw. Wat na ‘íets’: bijv.nw. of znw.? iets moois bijv.nw./znw.? Welke criterium bepalend voor functie als bijv.nw.? hij komt als geroepen / als advocaat bijv.nw.? hij is iemand/iets bijv.nw.? Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Functionele methode in de PAROLE-praktijk (1) ‘Nominalisaties’: 1. bijv.nw. → znw. wij zagen mooie en lelijke bloemen wij zagen mooie bloemen en lelijke
bijv.nw. znw.
2. inf. ww. → znw. ze gaan de schoorsteen afbreken wat wij zien als het afbreken van rechten
ww. znw.
3. telw. → znw. ik heb er drie ik prefereer die drie van gisteren ik kies voor de derde optie de derde van links werkt beter
telw. znw. telw. znw.
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Functionele methode in de PAROLE-praktijk (2) 4. det. poss. → znw. ik zag jouw moeder geef me de jouwe!
det. znw.
Andere transcategorisaties: 5. bijv.nw. → bijw. het boek is mooi de pianist speelt mooi
bnw. bijw.
6. volt. deelw. ww. → bnw. John heeft hard gewerkt de gewerkte uren ik tel die uren als gewerkt
Vpart bnw. bnw.
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Evaluatie → wijzigingen in de tagset (1) vereenvoudigingen werkwoorden: main verb function (trans., intrans. onpers., reflexief): ‘not applicable’ ‘echte’ bijwoorden en pronominale bijwoorden: degree (pos., comp., superl.): ‘not applicable’ geslacht zelfst. naamw.: reductie tot ‘de’ en ‘het’ ‘not applicable’ in achternamen getalsymbolen: meervoud ‘not applicable’
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Evaluatie → wijzigingen in de tagset (2) toegevoegd, o.a. construction (sepVrb, sepADV) bij scheidbare werkwoorden en pronominale bijwoorden nieuwe types voor Residual: trunc, acronym, acro-proper, other
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Woordsoorttoekenning in historisch Nederlands tagset en tagmethode in diachroon perspectief
keuze tussen enkelvoudige versus meervoudige woordsoorttags
aan elkaar geschreven woorden versus los geschreven woorddelen
gebruik van de historische woordenboeken VMNW, MNW en WNT voor de woordsoort
gebrek aan consensus onder linguïsten Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Automatische taalkundige verrijking met POS en lemma (zie corpusdocumentatie PAROLE)
trainingcorpus (100.000 tokens) combinatie van statistische taggers selectieve handmatige correctie opnieuw taggen met door de correctie verbeterde combinatietagger regelgebaseerde correctie en verfijning (toevoeging van features) automatisch lemmatiseren m.b.v. lexicon evaluatie → aanpassingen tagset en tagmethode → waarschuwingen aan de gebruiker PAROLE-corpus Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Literatuur Dutilh, T. & J.G. Kruyt (2002), Implementation and Evaluation of PAROLE PoS in a National Context. In: Proceedings of the Third International Conference on Language Resources & Evaluation, pp. 1615-1621. Ook op www.inl.nl. Decorte, S.F.T. (2003). Taalkundige verrijking in historische corpora in relatie tot de Geïntegreerde Taalbank. INL Working Papers 2003-01. Leiden : INL. Ook op www.inl.nl. Decorte, S.F.T., Dutilh-Ruitenberg, T. & Kruyt, T. (2005). Language change and linguistic annotation in the Integrated Language Database of 8th- to 21st-Century Dutch. In Pusch, C.D., Kabatek, J. & Raible, W. (eds.), Romanistische Korpuslingustik II: Korpora und diachrone Sprachwissenschaft. Tübingen : pp. 293-302. Ook op www.inl.nl.
Truus Kruyt, Corpusonderzoek, Münster 2007/2008
Does, J. de, Voort van der Kleij, J. van der (2002). Tagging the Dutch PAROLE Corpus. In Theune, M. et al. (eds.), Computational Linguistics in the Netherlands 2001; Selected Papers from the Twelfth CLIN Meeting. Amsterdam - New York : Rodopi, pp. 62-76. Ook op www.inl.nl.
Corpusdocumentatie bij PAROLE-corpussysteem
Truus Kruyt, Corpusonderzoek, Münster 2007/2008