Praktische gebruiksaanwijzing Corea-crew 16 augustus 2007
Hoe annoteer ik coreference? • Zoek de eerste mogelijke anafoor. • Zoek vanaf de anafoor terug in de tekst naar een antecedent waarmee een goede anaforische relatie mogelijk is. • Zoek de volgende anafoor.
1
Wat is een anafoor of antecedent?
Anaforen en antecedenten komen voor in de vorm van: 1. voornaamwoorden1 2. eigennamen2 3. naamwoordsgroepen3 4. conjuncties4 5. discontinue NPs. Hiervan zijn twee verschillende types te onderscheiden, namelijk twee elementen van een zinsdeel die niet naast elkaar staan, zoals in voorbeeld 1, of in een semantische interpretatie, zoals in 2. Annotatie: beide stukken van de NP selecteren als 1 antecedent. (1) ‘[een belediging] zijn [van onze gastvrijheid en waardigheid]’ Het woord zijn in deze zin valt niet onder de NP.5 (2) ‘Dramatisch is het moment dat [Wahid]1 terugkeert van een buitenlandse reis, en op het vliegveld wordt opgewacht door [Wiranto]2 . Glimlachend schudden [[de twee giganten]1,2 ]3 [elkaar]3 de hand.’6 Iedere anafoor kan een antecedent hebben binnen dezelfde tekst, maar dat is niet altijd het geval. Bij voornaamwoorden is het uiterst waarschijnlijk, eigennamen hebben typisch een antecendent buiten de tekst, naamwoordsgroepen hebben grote vrijheid. 1 Zij,
zichzelf, hun. van Dijk, Abdurrahman Wahid, Maria. 3 Boeren in praktisch heel het land, de Beierse deelregering, vier mensen. 4 Jan en Piet 5 Tekst WR-P-P-H-000000031 6 Tekst WR-P-P-H-0000000009 2 Gerrit
1
2
Wat is een mogelijke anaforische relatie?
Er zijn in het kort de vier type relaties om te annoteren: IDENT identity relaties, als beide naar hetzelfde object in werkelijkheid wijzen. BOUND alleen in gevallen waarbij het antecedent gekwantificeerd is zoals in de zin ‘iedere man steekt zijn nek uit’ waarbij ‘zijn’ naar ‘iedere man’ verwijst. BRIDGE subset/superset relaties en part/whole relaties. PRED predikatieve relatie, vaak aangeduid door een koppelwerkwoord dat staat tussen de twee NPs zoals bijvoorbeeld in: ‘De minister is de zoon van Piet Hein’. De speciale gevallen, zie de manual voor verdere uitleg: • Metonomy: annoteren als IDENT. • Type-token: annoteren als IDENT en SENSE= yes aanklikken. • Negatie/ modaliteit: MOD=yes aanklikken. • Time-indexed: verschillende willekeurige getallen aanklikken om tijdverschil aan te duiden.
3
Hoe kies ik de beste anaforische relatie? 1. Het (gemotiveerde) taalgevoel van de annotator heeft altijd voorrang. 2. Voor een voornaamwoord: kies bij voorkeur het laatstgenoemde antecedent. 3. Voor een eigennaam: kies bij voorkeur het laatstgenoemde, gelijkluidende antecedent. 4. Persoonlijke voornaamwoorden (ook possessief) en predikaten treden niet op als antecedent, wanneer een ander mogelijk antecedent in de tekst staat. (Als er geen ander mogelijk antecedent is, mag er wel een relatie geannoteerd worden.) 5. Een bridging-relatie kan alleen bestaan tussen twee naamwoordsgroepen. 6. Bij twijfel tussen twee mogelijke antecedenten heeft identity de voorkeur boven bridging of predikatief.
2
4
regels voor het kiezen van het head van een NP
In principe is de head van een NP het laatste woord van de NP. • Eigennamen: [Piet Hein], [Keizer Karel de Grote], [Vitamine B 1], [Groep A] krijgen de gehele naam als head. • NP-PP constructie: de head is het laatste woord van de NP. In de phrase ‘[de zoon van Piet]’ is de head ‘zoon’ en niet ‘Piet’. • Conjunctie: kies voor laatste scheidingstoken (‘,’ (komma), ‘of’, of ‘en’) als head. Bijvoorbeeld voor: [bacteri¨en, vlooien en hondeharen], de head is ‘en’.
5
Speciale gevallen
Hieronder volgt een lijst met speciale gevallen en uitleg over hun annotatie. 1. Bezittelijk gebruikte landsnamen in (3) kunnen wel optreden als antecedent, bijvoeglijk gebruikte landsnamen zoals in (4) niet. (3) Een ander nieuw werkterrein voor Duitslands diplomatie moet de inzet zijn voor de toepassing van het internationale recht.7 (4) Colombiaanse president Pastrana8 2. Let op met dingen die veranderen in de tijd (time-indexed coreference). In dit voorbeeld beschouwen we de relatie als predicatief, niet als identity. (5) Voorbeeld: ‘[Het voormalige commandocentrum van Hitler] wordt tot [een luxueus hotel met 140 bedden] omgebouwd .9 3. Bezittelijk gebruikte eigennamen zoals in ‘Milosevic’ advocaten’10 annoteren we net als bezittelijke voornaamwoorden. De eigennaam verwijst naar de genoemde persoon, en de complexe NP verwijst naar het gekenschetste hoofd van de NP. 4. Anaforen kunnen soms naar ingebedde antecedenten verwijzen. Bijvoorbeeld ‘hij’ in (6) verwijst naar ‘Jurgen van den Goorbergh’. Tenzij die ingebedde antecedenten possessief zijn, kan er niet met ident naar verwezen worden. In plaats daarvan gebruiken we een bridge-relatie. (6) ‘Voor zijn eigen Jurgen van den Goorbergh-tribune voerde hij een show op’11 7 (Geen voorbeeld gevonden in het corpus, dit voorbeeld is afkomstig uit http://www. xs4all.nl/~npk/Soemoed/artikelen/Watzal.293.htm.) 8 tekst WR-P-P-H-000000030. 9 Tekst WR-P-P-H-000000042 10 tekst WR-P-P-H-000000044 11 Tekst WR-P-P-H-000000047
3
5. Let op dat sommige termen gekwantificeerd zijn, en daardoor subsets denoteren (=bridging). In (7) is ‘iedereen’ niet deiktisch, maar heeft het een anaforische relatie (ident) met ‘alle gelovigen’. (Zie ook item 4 van §3.) (7) Zijn argument v´ o´ or ontleent hij aan de doop, die alle gelovigen gelijkmaakt. Daardoor krijgt iedereen deel aan Christus’ priesterschap.12 6. Deiktische termen zoals ‘we’ in (8) verwijzen buiten de tekst, en hebben dus geen anaforische relatie met een antecedent binnen de tekst. (8) dat we bij priester meteen aan man denken . . . ’13 7. Antecedenten in conditionele uitdrukkingen kunnen alleen optreden als antecedent voor anaforen in die zin. In het corpus hebben we hiervan geen voorbeeld aangetroffen, maar het klassieke voorbeeld is ‘Als een boer een ezel heeft, slaat hij hem’. 8. Let op dat sommige descripties ook functioneren als conditionele uitdrukkingen14 . Die verwijzen alleen op descriptief niveau, niet op sense-niveau. sense aanvinken, dus. 9. Verwijzing naar generieke termen is af en toe erg lastig, denk aan ‘vrouwen’ in ‘Wanneer gaat u vrouwen wijden?’15 Het onderscheid tussen verwijzing op descriptief en sense-niveau is hier van belang — opnieuw sense aanvinken. 10. De plaatsnaam die aangeeft waar het bericht vandaan komt (Schiphol, Brussel, New York) maakt geen deel uit van de discourse, en we laten die dan ook buiten beschouwing. 11. Kataforen zijn vooruitwijzende anaforen en verwijzen dus naar antecedenten die na hen gerealiseerd worden. Wij annoteren deze alsof het anaforen zijn. Bijvoorbeeld in (9) verwijst ‘Gerrit van Dijk’ naar ‘hem’ in de zin ervoor. (9) Het Haarlems Dagblad schrapte hem als politiek tekenaar en nu dreigt staatssecretaris Van der Ploeg van cultuur ook een streep te zetten door de animatie-afdeling van de Tilburgse Kunstacademie, die door hem is opgezet. Gerrit van Dijk doet boos, maar of het hem echt raakt?’16 . 12. Locatief ‘er’ is in het Nederlands een normale anafoor, net als ‘hier’ en ‘daar’, en we annoteren het dan ook als zodanig, mits het een NP is en ook verwijst naar een NP markable. 13. ‘Zich’ als verplichte reflexief. Voorbeeld: ‘zich vergissen’, ‘zich ori¨enteren’, ‘zich bedenken’, ‘zich afvragen’. Dergelijke werkwoorden zijn zeldzaam, meestal is er ook een niet-reflexieve variant: ‘zich herinneren’, ‘zich ontdoen van’, etc. annoteren we niet. 12 Tekst
WR-P-P-H-000000048. WR-P-P-H-000000048 14 ‘Landen die ons niet steunen zijn v´ oo ´r de Copa’ in tekst WR-P-P-H-000000031. 15 Tekst WR-P-P-H-000000048. 16 Tekst WR-P-P-H-0000000037 13 Tekst
4
14. Bound anaphora verwijzen binnen de zin waar ze in voorkomen.Voorbeeld (10), het possessief ‘hun’ in verwijst naar ‘regeringen van arme landen’. (10) Wij weten dat regeringen van arme landen, die gedwongen worden om hun schulden en de rente op die schulden te betalen, niet in gezondheidszorg en onderwijs kunnen investeren’ .17 15. Sommige antecedenten verwijzen dubbel, bijvoorbeeld zowel via bridging naar een recent antecedent, alsook via linking naar een (veel) eerder genoemde. We kiezen voor linking (ident), omdat identiteitsrelaties interessanter zijn vanuit het perspectief van Informatie Extractie (IE). 16. Veranderend perspectief in directe en indirecte rede kan leiden tot een identiteitrelatie tussen ‘hij’ en ‘ik’. 17. Temporele verwijzingen zijn ook op te vatten als anaforische relaties. Die annoteren we wanneer het NPs betreft (‘de vorige dag’, ‘dat moment’), niet wanneer het bijwoorden betreft (‘gisteren’, ‘morgen’). (11) De rechtshander uit Buenos Aires klom sinds januari 178 plaatsen op de wereldranglijst. Vorig jaar ben ik voor het eerst geopereerd.18 18. Elliptische verwijzing is op zichzelf triviaal: een telwoord is een normale markable, en die kan dus als zodanig geannoteerd worden. Wanneer het gaat om subsets, is er sprake van bridging (zoals in 12), en wanneer er geen specifieke referent voor is, geven we dat aan met sense. (12) Bondscoach Louis van Gaal stelde vier verdedigers op, waar hij tot dusverre met drie had volstaan’.19 19. Conjuncties en bridging. Wanneer sprake is van een subset relatie zoals in (13) worden brigde relaties geannoteerd tussen ieder los element van het conjunct en het antecedent. In dit voobeeld dus een brigde relatie tussen ‘schimmelinfecties’ en ‘algemene huidaandoeningen’, en tussen ‘atheroomcystes’ en ‘algemene huidaandoeningen’. (13) AANDOENINGEN De meest voorkomende zijn algemene huidaandoeningen zoals schimmelinfecties en atheroomcystes.20
17 Tekst
WR-P-P-H-0000000005 WR-P-P-H-0000000006 19 Tekst WR-P-P-H-0000000012. 20 Tekst Imix, s302.xml 18 Tekst
5